CVPR2025で発表された注目技術や論文をサマリー

CVPR2025とは

CVPR2025 (The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2025) は、コンピュータが画像や動画を理解する技術(コンピュータビジョン)に関する世界最大級の学術会議です。研究者が最新の研究成果を発表し、情報交換を行う場として、毎年開催されています。学生、研究者、そして産業界の研究者にとって非常に価値のあるイベントとなっています。 
2025年6月11日から15日までテネシー州ナッシュビルで開催されたCVPR2025は、過去最高の12,008件の論文投稿と、75カ国・地域から9,375名の参加者を集め、大成功を収めました。
なお、参加者数順では、アメリカ4,274、中国1,529、韓国586、ドイツ334、次いで日本316、カナダ304、イギリス254、スイス157、フランス141、シンガポール124が上位10カ国でした。
論文投稿においては、2024年比で論文投稿数が13%増加したことを示しており、コンピュータービジョン分野における研究の活発化を浮き彫りにしました。

CVPR2025サマリー

会議では、画像・動画合成、3Dコンピュータービジョン、マルチモーダル学習、ビジョン言語と推論など、幅広いトピックにおける最新の進歩が発表されました。採択率は22.1%と非常に競争が激しく、特に口頭発表はわずか3.3%でした。最優秀論文には「VGGT: Visual Geometry Grounded Transformer」が、最優秀学生論文には「Neural Inverse Rendering from Propagating Light」が選ばれました。

基調講演では、AIが低高度経済やロボット工学に与える影響、AIの次の段階について議論され、マイクロソフトのハリー・シャム氏、Meta AIのローレンス・ファン・デア・マーテン氏、Google DeepMindのキャロライナ・パラダ氏が登壇しました。

また、約100社の企業が最新の商業研究と応用ソリューションを展示し、デモ数は2024年比33%増の69件に上りました。さらに、AIアートギャラリーでは102点の作品が展示され、芸術とAIの融合が示されました。IEEEコンピュータソサエティとコンピュータビジョン財団は、276名の参加者に20万ドルの旅費補助を提供し、多様なコミュニティからの参加を支援しました。

CVPR2025 Best Paper -最優秀論文-

Authors: Jianyuan Wang, Minghao Chen, Nikita Karaev, Andrea Vedaldi, Christian Rupprecht, David Novotny 

オックスフォード大学とMeta AIのエンジニアは、Visual Geometry Grounded Transformer (VGGT) を発表しました。これは、数百の入力ビューに対してすべての主要な3Dシーンプロパティを直接推定できるフィードフォワードニューラルネットワークで、標準的なアプローチを上回る性能を発揮します。
論文は、「私たちのアプローチのシンプルさと効率性は、リアルタイムアプリケーションに適している点で、最適化ベースのアプローチに勝るもう一つの利点である」と結んでいます。

Authors: Anagh Malik, Benjamin Attal, Andrew Xie, Matthew O’Toole, David B. Lindell

トロント大学、Vector Institute、カーネギーメロン大学の研究チームが、伝播光の多視点動画からの物理ベースのニューラル逆レンダリングを行う初のシステムを発表しました。この研究は、LiDARシステムからの伝播光の多視点かつ時間分解測定をモデル化し、逆問題を解くことで、シーンの形状を復元し、伝播光の動画をレンダリングするものです。
論文は、「この研究は、特に強い間接照明効果のあるシナリオにおける自律ナビゲーションやリモートセンシングといった分野に影響を与える可能性を秘めている」と結論付けています。

日本の企業・研究機関からの論文発表や受賞

CVPRは、計算機が画像・動画を理解・制御・生成する技術の開発やそのための基礎理論の探求をめざす研究分野であるコンピュータビジョンにおける世界最高峰とされる国際会議です。CVPR2025の採択率は22.1%(13008件の応募から2878件採択)と、難関国際会議として知られています。
そのような国際会議において、日本からも多くの研究機関や企業が注目すべき論文を発表しています。特に今回は、いくつかの機関からの発表や受賞がありました。

●NTT研究所からの採択論文
 NTT研究所からは合計5件の論文が採択されており、そのうち1件がOral発表、1件がHighlight発表に選出されています。

グロモフ・ワッサースタイン問題は、データ間の構造的な類似度や対応関係を求める問題です。例えば、異なるタンパク質の共通構造を見つけて新薬の発見に繋げたり、新旧建造物の構造を比較して劣化箇所を特定したりするなど、この問題の応用は多岐にわたります。今回我々は、実世界のデータに潜む巡回対称性を利用することで、この問題を高速に解く新しいアルゴリズムを開発しました。この成果によって、より大規模なデータ間の構造的な類似度や対応関係を効率的に求めることが可能になりました。

●パナソニックコネクト

パナソニックコネクトは、CVPR 2025の「VidLLMs Competition(Complex Video Reasoning & Robustness Evaluation)」において、動画認識AI技術「DIVE(Deep-search Iterative Video Exploration)」で世界1位を獲得しました。

●国立情報学研究所

CVsports (CVPR 2025併設ワークショップ) で最優秀論文賞を獲得しました。

卓球の放送動画におけるボールの回転と軌道を分析するこの論文は、選手の技術分析に必要な3D軌道とスピン情報を、通常の放送動画から推測する新しい手法を提案しています。

他にも、多くの素晴らしい論文発表があり、生成AIとの融合、実世界での応用、効率化、そして信頼性や倫理面といった近年のトレンドを反映した研究が多い傾向でした。

当社でも最新論文研究と課題解決力向上を継続

みなさまの課題解決、目的達成のためにも、研究開発と現実的な実装をご一緒に考え続け、実現していきたいと考えています。

製造業、建設・インフラ業、医療関連などにおける、「目視」「検査」「検品」「画像判定」「画像比較」「動画解析」などの課題をお持ちでしたら、まずはお気軽にご相談ください。