MIRU2025_国内画像認識AI技術の最新傾向とは

日本最大級のコンピュータビジョン分野の学会、画像の認識・理解シンポジウム「MIRU2025」において発表された内容について、備忘も兼ねてまとめておきたいと思います。
参加人数は初日時点では1479名で、発表件数は726件(口頭88件、ポスター606件、デモ113件,招待21件)となっており、ここ数年で急激に伸びていることが参加者数や発表件数推移で分かりました。
表彰された論文における注目ポイント
MIRU長尾賞、MIRU優秀賞、MIRU学生優秀賞、MIRUフロンティア賞、MIRUオーディエンス賞、MIRUインタラクティブ発表賞を受賞された論文は、非常に興味深いものが多かったです。(お名前敬称略、各所属機関名は略称)
●MIRU長尾賞
OS1B-01
CoLA: Convolution-free Local Linear Attention
Yusuke Sekikawa, Jun Nagata, Itsumi Araki, Andreu Girbau-Xalabarder (DENSO IT Lab.)
●MIRU優秀賞
OS1D-06
逐次点群入力の時空間対応付による低遅延な3次元物体検出
辻栄翔 (筑波大), 濱口竜平, 大西正輝 (AIST), 櫻田健 (京大)
OS1A-01
3D Gabor Splatting: ガボールノイズを用いた高周波テクスチャの三次元再構築
渡辺羽亜人, 東條健治, 梅谷信行 (東大)
OS1A-04
Universal Human Pose Representation for Multi-Modal Active Sensing
Yuto Shibata, Yusuke Oumi (Keio Univ.), Go Irie (TUS), Akisato Kimura (NTT), Yoshimitsu Aoki, Mariko Isogawa (Keio Univ.)
●MIRU学生優秀賞
OS1C-01
イベント情報のみを用いたライトフィールド撮像
土田智哉, 高橋桂太, 羽渕柊志, 都竹千尋, 藤井俊彰 (名大), 長原一 (阪大)
OS1C-02
Hide A Bit: 3D Gaussian Splattingに対するビット操作とRSA暗号に基づく学習不要な高品質ステガノグラフィ
佐々木馨, 佐藤和仁, 山口周悟, 田中啓太郎, 森島繁生 (早大)
●MIRUフロンティア賞
OS1A-02
光飛行時間の直接計測による関与媒体に対して頑健な振動計測
中田健太, 前田涼汰, 日浦慎作(兵庫県立大)
●MIRUオーディエンス賞
OS1A-01
3D Gabor Splatting: ガボールノイズを用いた高周波テクスチャの三次元再構築
渡辺羽亜人, 東條健治, 梅谷信行 (東大)
OS1B-02
データの大域構造を考慮した近傍埋め込み手法に基づく深層表現の可視化
渡部航史, 前田圭介, 小川貴弘, 長谷山美紀(北大)
OS1C-02
Hide A Bit: 3D Gaussian Splattingに対するビット操作とRSA暗号に基づく学習不要な高品質ステガノグラフィ
佐々木馨, 佐藤和仁, 山口周悟, 田中啓太郎, 森島繁生 (早大)
OS1D-09
Simplifying Multi-Stroke Characters by a Legibility-Preserving Approach
Ryo Ishiyama, Shinnosuke Matsuo, Seiichi Uchida (Kyushu Univ.)
OS2A-01
QRコード復号を通じたTransformerの特性分析
依田一希, 川本一彦, 計良宥志 (千葉大)
OS2B-05
錯視を利用したカメラキャリブレーションパターン
中野学, 木山傑將(NEC)
OS2C-10
FreeEyeglass: Training-free and Mask-free Eyeglass Transfer for Facial Videos
Weng Ian Chan (The Univ. of Osaka), Yuantian Huang, Xingchao Yang (CyberAgent), Fumio Okura (The Univ. of Osaka), Takafumi Taketomi (CyberAgent)
OS3A-01
Cross-Domain Multi-Targeted Adversarial Attacks by Learning Spatial Features
Taiga Goncalves, Tomo Miyazaki, Shinichiro Omachi (Tohoku Univ.)
OS3B-02
熱放射・反射の偏光に基づく法線推定
北沢一真, 髙谷剛志(筑波大)
●MIRUインタラクティブ発表賞
IS1-012
MASt3R 点群と信頼度を用いた非剛体ICPの有効性検証
金田綾乃, Jiazheng Chai, 加藤卓哉(エクサウィザーズ)
IS1-069
最適輸送コストを用いたモデルマージによるアンサンブル知識蒸留
藤吉零, 岡本直樹, 平川翼, 山下隆義, 藤吉弘亘 (中部大)
IS1-100
手順動画での詳細な間違い検出に向けたベンチマークの検討
高重駿, 佐藤真一 (東大, NII)
IS2-001
物体検出のためのRGBカメラ感度最適化
昇洋太, 小篠裕子 (東京電機大), 田中正行 (科学大)
IS2-021
楕円多面鏡と構造化照明を用いた形状・反射特性の計測
石川果乃人, 髙谷剛志 (筑波大)
IS2-090
画像セグメンテーションのための CLIP を用いたゼロショットアノテーション
斎藤凪都, 伊藤慎太郎, 伊藤康一, 青木孝文 (東北大)
IS3-189
仮想合成手指画像を用いた関節リウマチに起因する関節炎症推定手法
千葉倫太郎, 加藤駿, 橘内大輝, 近藤泰, 齋藤俊太郎, 青木義満, 五十川麻理子 (慶大)
IS3-141
Can 3D Large Language Models Count to Three?
Kohsuke Ide, Ryousuke Yamada, Qiu Yue, Yutaka Satoh (AIST), Kohsuke Ide (Univ. of Tsukuba)
IS3-165
Noise-Robust Pruning via Norm Weighted Hessian
上野詩翔, 林良和, 加藤邦人 (岐阜大)
IS3-170
拡散モデルのノイズ最適化を用いた多人数インタラクション動作生成
太田朔哉 (科学大), 郁青, 藤原研人 (LINEヤフー), 池畑諭 (NII, デンソーITラボラトリ), 佐藤育郎 (科学大, デンソーITラボラトリ)
IS3-206
大型フレネルレンズを用いた影なしプロジェクタの開口符号化による投影ボケ補償
楠山弘基, 中村友哉, 岩井大輔 (阪大)
MIRU2025全体での傾向
参考までに、今回発表された招待講演やオーラル、ポスターなどの数百の論文タイトルをワードクラウド化してみると、以下のようになりました。(タイトルは日本語、英語そのままで作成しています)

◆傾向1:大規模モデル(LLM/VLM)の応用と発展
画像認識や生成タスクに大規模言語モデル(LLM)や視覚言語モデル(VLM)を活用する研究が急速に増加しています。これらのモデルを単なる「ブラックボックス」として使うのではなく、その内部構造や挙動を分析し、特定のタスクに最適化しようとする傾向が見られます。
・マルチモーダルLLM/VLMの台頭:画像や動画とテキストを組み合わせたマルチモーダルな理解を可能にするモデルが多数登場しており、画像キャプ
ション生成、質問応答、動画からの行動認識などに活用されています。
・日本語対応の進化:日本語のマルチモーダルデータセットの構築や、日本語特有のタスク(日本語V&Lデータセット、日本語漫画理解など)に対応し
た研究も進んでおり、グローバルなモデルをローカライズする動きが見られます。
・モデルの解釈と評価:モデルの「公平性」「推論過程」「ハルシネーション」などを検証するための評価ベンチマークや手法に関する研究も多く、
モデルの信頼性や実用性を高めるための取り組みが活発です。
◆傾向2:3D技術と新しい表現手法の進化
3D再構成や3Dシーン表現に関する研究が非常に活発です。特に「Gaussian Splatting」や「Neural Fields(NeRFなど)」といった、従来のメッシュや点群とは異なる新しい表現手法が広く探求されています。これにより、リアルタイムでの高品質な3Dレンダリングや、より複雑なシーン(透明な物体、動的なシーン、挑戦的な照明環境など)の再構成が可能になっています。
・Gaussian Splatting:多くの論文で「3D Gaussian Splatting」というキーワードが見られ、これを応用して動的シーンの合成、オブジェクト操作、
ステガノグラフィなど、多岐にわたる研究が行われています。
・Neural Fields:NeRF(Neural Radiance Fields)やNeural SDF(Signed Distance Fields)といった手法を用いた3D再構成も依然として重要な
テーマであり、不均一な屈折や中空物体など、複雑な物理現象を扱う研究が見られます。
◆傾向3:ロボット・自律システムへの応用
コンピュータビジョンの技術が、ロボットや自動運転、ヘルスケアなど、現実世界での応用を強く意識した研究へとシフトし始めている傾向があります。
とくに、センサーデータを統合し、リアルタイムで環境を理解し、安全に動作するための技術に焦点が当てられています。
・自律システム:自動運転車のための3D物体検出、経路予測、リスク評価、ドローン制御など、モビリティ分野への応用が盛んです。
・人間行動の理解:人間の姿勢推定、行動認識、手の動きの追跡など、身体的な動きを正確に捉え、分析する研究が多く、介護、スポーツ、バーチャル
リアリティなどへの応用が期待されます。
・特定分野への特化:医療画像解析(病理診断、細胞分析など)、農業(植物の成長評価)、土木(舗装ひび割れ検知)など、特定の産業課題を解決
するための技術開発も進んでいます。
・データとベンチマークの構築:これらの応用分野での研究を加速させるため、特定のタスク(例えば、サッカーのプレー集抽出、バレーボールの審判
判定、食事のカロリー推定など)に特化したデータセットやベンチマークを構築する研究も多く見られます。
まとめ
現在一般的なニュースで取り上げられるのは生成AI関連技術やソリューションが多いですが、日本国内におけるコンピュータビジョン分野、画像認識技術の研究開発や応用、発展も進んでいます。
今は実現が難しい解決策でも、来年や3年後には解決できるかもしれない、そんなスピード感がこの分野にもあります。
当社においても、画像認識AI技術のより最適なビジネス実装をお客様に届けるべく、技術研究や試行錯誤などを繰り返しておりますので、AI技術導入についてご検討でしたら、ぜひお声掛けください。
とくに、各種製造現場における製造物の「不良品検知」「異常検知」、製造機器や設備の「センサー監視」「予兆保全」、さらには作業員の「安全監視」や「ヒヤリハット防止」など、画像認識技術を活用できるポイントは多くあります。
これまで人間の目での検査や監視に依存していた部分を置き換えるだけでなく、より精度を高めることや業務効率化を図ることも実現可能ですので、まずはお気軽にお問い合わせください。
参考
Contact us
お問い合わせ
画像認識をはじめとするAIのことなら是非OkojoAIに!ご相談ベースで構いませんので、遠慮せずお気軽にお問い合わせください。
