arXiv雑要約

画像・音声 - 2026/03/18 公開

GeoBridge：画像とテキストを繋ぐセマンティックアンカーを用いた多視点基盤モデルによる地理位置特定 [cs.CV]目的：画像とテキストによる地理位置特定のための多視点基盤モデル
- 地理位置特定は，ロボットナビゲーションや拡張現実など，様々な応用分野で重要である。
- 従来の衛星画像中心のアプローチでは，高解像度または最新の衛星画像が入手できない場合に頑健性が低い。
- 本研究は，テキストによるセマンティックアンカーを用いて多視点特徴を繋ぎ，よりロバストで柔軟な地理位置特定を目指す。
- GeoBridgeは，ドローン，ストリートビュー，衛星画像といった異なる視点からの情報を活用し，言語と画像間の双方向マッチングを可能にする。
- 新たに構築した大規模多視点データセットGeoLocを用いた実験により，GeoBridgeの前学習が地理位置特定精度を大幅に向上させることが確認された。
- GeoLocによる事前学習は，ドメイン間の汎化性能とクロスモーダル知識転移を促進することが示された。
Link: https://arxiv.org/abs/2512.02697
順序が重要: シーケンシャルVRスケッチからの3D形状生成 [cs.IR, cs.CV]目的：VRスケッチからの3D形状生成
- 3Dモデリングの効率化が求められており，VR技術はその有力な手段となる。
- 従来のスケッチ-形状モデルは，ストロークの順序を無視しており，設計意図を捉えきれていない。
- ストロークの順序情報を活用することで，より正確な形状生成を目指す。
- 本研究では，VRスケッチの順序を考慮した3D形状生成フレームワークVRSketch2Shapeを提案した。
- 2万件以上の合成データと900件の手書きスケッチ-形状ペアから構成されるデータセットを公開する。
- 提案手法は既存手法よりも高い幾何学的精度を実現し，合成データから実データへの汎化性能も高い。
Link: https://arxiv.org/abs/2512.04761
LeAD-M3D：非対称蒸留を活用したリアルタイム単眼3D検出 [cs.CV]目的：単眼画像からのリアルタイム3D物体検出の精度向上
- 自動運転やロボティクスにおいて，周囲環境の3D理解は不可欠である。
- 単眼画像のみでは深度情報の推定が難しく，正確な3D検出が困難である。
- LiDARなどの追加情報なしで，高精度かつ高速な3D検出を実現することを目指す。
- LeAD-M3Dは，KITTIおよびWaymoデータセットにおいて最先端の精度を達成した。
- Rope3Dデータセットでは，自動車のAPにおいて最高の性能を報告している。
- 既存の高精度モデルと比較して，最大3.6倍の速度で推論が可能である。
Link: https://arxiv.org/abs/2512.05663
S2WMamba：ウェーブレット支援マンバベースのデュアルブランチネットワークによるパンシャープニング [eess.SY, cs.SY, cs.CV]目的：パンシャープニングのための新たなフレームワークの提案
- 高解像度画像生成は，リモートセンシングや画像処理において重要な役割を担う。
- PAN画像とMS画像の融合において，空間情報とスペクトル情報の両立が課題である。
- モダリティ固有の周波数情報を分離し，制御されたクロスモーダル相互作用を実現する。
- S2WMambaは，WV3，GF2，QBデータセットにおいて既存手法と同等またはそれ以上の性能を示した。
- PSNRは最大0.23dB向上し，WV3のフル解像度画像においてHQNRは0.956に達した。
- モダリティ固有のDWT配置とパラレルデュアルブランチアーキテクチャの有効性が検証された。
Link: https://arxiv.org/abs/2512.06330
COREA：効率的な法線整列のための結合可能な再照明3DガウスとSDF [cs.CV]目的：SHベースの新規視点合成，表面再構成，および逆物理ベースレンダリングを共同でサポートする統合的なフレームワーク
- 3Dコンテンツの生成と編集において，リアリティと効率が重要な課題となっている。
- 再照明可能な3Dガウス法の法線推定が不安定で，逆物理ベースレンダリングのボトルネックになっている。
- SDFと3Dガウスを結合し，法線推定の精度向上と安定化を図ることで，上記課題を解決することを目指す。
- COREAは，新規視点合成，表面再構成，逆物理ベースレンダリングの3つのタスクを同時に実行可能な初のフレームワークである。
- SDFの連続的な法線場が，3Dガウスの法線学習に対する空間的な一貫性のある教師信号を提供する。
- 逆物理ベースレンダリングにおいて，特に優れた性能を示し，既存手法に匹敵する，またはそれを上回る結果が得られた。
Link: https://arxiv.org/abs/2512.07107
ビデオ編集に続く条件付きオーディオ生成によるコヒーレントなオーディオ・ビジュアル編集 [cs.MM, cs.LG, cs.SD]目的：編集されたビデオとそれに伴うオーディオ間のコヒーレンス強化
- 映像と音声は共に重要な情報源であり，両者の調和は視聴体験に大きく影響する。
- ビデオ編集後の音声調整は困難であり，映像と音声の不一致が頻繁に発生する。
- ビデオ編集後の音声生成を通じて，映像と音声の整合性を高めることを目指す。
- 提案手法は，ビデオ編集後の音声生成において既存手法を上回る性能を示す。
- ソースオーディオの情報を活用し，編集内容に応じて影響度を動的に調整することで，音声の構造を維持。
- データ拡張戦略により，学習効率の向上と，高品質なオーディオ・ビジュアル編集を実現。
Link: https://arxiv.org/abs/2512.07209
Long-LRM++：フィードフォワード広範囲再構成における微細な詳細の保持 [cs.CV]目的：微細な詳細を保持したシーン再構成手法の開発
- 近年，汎用的なガウススプラッティングにより，多数の画像から高速なシーン再構成が可能となった。
- ガウスパラメータの直接予測は誤差に敏感で，特に微細構造の表現に課題がある。
- 軽量なデコーダーを用いた半明示的なシーン表現により，リアルタイム性と高画質を両立すること。
- Long-LRM++は，DL3DVにおいてLaCTと同等のレンダリング品質を達成しつつ，A100 GPU上でリアルタイムの14 FPSを実現した。
- 64枚の入力画像にも対応可能であり，入力数の増加に対する汎化性能も高い。
- ScanNetv2における新規視点からの深度予測においても，ガウスからの直接深度レンダリングと比較して優れた性能を示した。
Link: https://arxiv.org/abs/2512.10267
アディティブマニュファクチャリングにおける赤外線産業センシングのためのビジョン言語モデル [cs.CV, cs.RO]目的：アディティブマニュファクチャリングのシーン記述における赤外線産業センシングのためのビジョン言語モデルの適用
- 製造現場では暗所や密閉環境が多く，従来の視覚システムでは課題が生じるため，赤外線カメラが有効。
- 教師ありAIシステムには大量のラベル付きデータが必要であり，赤外線カメラへの応用には課題がある。
- 赤外線データに対応したビジョン言語モデルを構築し，ラベルなしモニタリングを実現すること。
- 提案手法VLM-IRISは，赤外線画像をRGB互換の形式に変換することで，既存のビジョン言語モデルを赤外線データに適用可能とした。
- 3Dプリンターのベッド上でのワークピースの有無検出において，モデルの再学習なしに高い精度を達成した。
- この結果は，提案手法が熱的アプリケーションへのビジョン言語モデルの拡張に有効であることを示唆する。
Link: https://arxiv.org/abs/2512.11098
高速基盤ステレオ：リアルタイムゼロショットステレオマッチング [cs.CV, cs.RO]目的：リアルタイムでのゼロショットステレオマッチングの実現
- ステレオ視覚は，ロボット工学や自動運転など，様々な分野で重要な役割を担う技術である。
- 既存のステレオマッチング手法は，精度と処理速度のトレードオフが存在し，リアルタイム処理が困難である。
- 基盤モデルの汎化性能と効率的なアーキテクチャの利点を組み合わせ，リアルタイム性と高精度を両立することを目指す。
- 知識蒸留，ブロック単位のニューラルアーキテクチャ探索，構造化プルーニングにより，計算効率の高いモデルを構築した。
- 140万組のワイルドなステレオペアを自動的に擬似ラベリングし，合成データと組み合わせて知識蒸留を促進した。
- 提案手法は，FoundationStereoと同等の精度を維持しつつ，10倍以上の高速化を実現し，リアルタイムステレオマッチングの新記録を樹立した。
Link: https://arxiv.org/abs/2512.11130
項目化されたテキストによる監督学習を用いた，完全かつ説明可能な視覚表現の学習 [cs.CV]目的：項目化されたテキストによる視覚表現の学習
- 画像認識における言語による監督学習は，汎用性と転移性を高める上で重要である。
- 医療画像やリモートセンシングなど，対象物中心でない分野では，画像内に複数の独立した所見を記述する項目化されたテキストが存在する。
- 項目化されたテキストから，完全かつ説明可能な視覚表現を獲得することを目指す。
- ItemizedCLIPは，テキスト項目に基づいた視覚埋め込みを生成するクロスアテンションモジュールと，項目間の独立性と表現の完全性を保証する目的関数を用いる。
- 脳MRI，頭部CT，胸部CT，リモートセンシングを含む4つの分野で，ゼロショット性能と詳細な解釈可能性において，既存手法を大幅に上回る結果が得られた。
- 得られた表現は，意味的に根拠があり，項目を区別でき，完全であり，視覚的に解釈可能である。
Link: https://arxiv.org/abs/2512.11141
野生環境下における顔面反射率マップの取得：ハイブリッド逆レンダリングによるアプローチ [cs.CV, cs.GR]目的：野生環境下で撮影されたスマートフォン動画からの高品質な顔面反射率マップ取得
- 顔面認識やアバター作成など，様々な分野で顔面反射率マップの正確な取得が重要である。
- 従来の技術では，制御された照明環境が必要であり，実用性や汎用性に課題があった。
- 制御されていない環境下でも高品質な顔面反射率マップを取得し，その応用範囲を広げる。
- 提案手法WildCapは，データ駆動型手法とモデルベース逆レンダリングを組み合わせることで，野生環境下での顔面反射率マップ取得を可能にした。
- 非物理的なアーティファクトを考慮した新しいテクセルグリッド照明モデルが，逆レンダリングの精度向上に貢献した。
- 実験の結果，WildCapは既存手法と比較して大幅に高品質な結果を示し，制御環境下での撮影との差を縮めた。
Link: https://arxiv.org/abs/2512.11237
フィードフォワード3D再構成モデルにおける幾何学的理解と学習された事前知識 [cs.CV]目的：フィードフォワード3D再構成モデルにおける幾何学的理解と学習された事前知識の程度
- 3D再構成は，ロボット工学や拡張現実など，多様な応用分野において重要な役割を担っている。
- 既存の3D再構成手法は計算コストが高い場合が多く，リアルタイム処理が困難であるという課題がある。
- 本研究は，フィードフォワードモデルが幾何学的原理に基づいているのか，学習された事前知識に依存しているのかを解明する。
- DUSt3R，VGGT，DA3といったモデルの中間層でエピポーラ幾何学が出現することを確認した。
- エピポーラ幾何学とアテンションヘッドの対応パターンとの間に因果関係があることを示した。
- 遮蔽や曖昧さといった摂動に対するロバスト性を評価し，古典的なパイプラインとの比較を行った。
Link: https://arxiv.org/abs/2512.11508
コンピューター断層撮影画像に対する新規パッチベースTDAアプローチ [cs.CV, cs.LG]目的：コンピューター断層撮影画像を用いた機械学習モデルの性能向上
- 診断，病期分類，予後予測において，画像診断の重要性は高い
- 従来のTDA手法は，高解像度CT画像において計算コストが高い
- パッチベースのTDAアプローチにより，計算効率と分類性能を向上させる
- 提案手法は，従来の立方体複合体法やラジオミクス特徴量と比較して分類性能と計算時間の双方で優位性を示した。
- 精度，AUC，感度，特異度，F1スコアにおいて，それぞれ平均7.2%，3.6%，2.7%，8.0%，7.2%の改善が見られた。
- 提案手法の実装を容易にするためのPythonパッケージ「Patch-TDA」を公開した。
Link: https://arxiv.org/abs/2512.12108
DiG：マルチモーダル大規模言語モデルにおける詳細な知覚を強化するための差分接地 [cs.CV, cs.AI]目的：マルチモーダル大規模言語モデルにおける詳細な視覚知覚能力の向上
- 視覚と言語を統合するモデルは，多様なタスクで進歩しているが，詳細な視覚理解が課題である。
- 既存モデルは，細かい視覚情報の認識や正確な空間推論において限界がある。
- 類似画像ペア間の差分を特定することで，モデルの詳細な視覚知覚能力を向上させる。
- DiGは，類似画像ペア間の差異を特定する新しいプロキシタスクフレームワークである。
- 3Dレンダリングによるデータ生成パイプラインにより，高品質な画像ペアを生成し，差異の制御を可能にした。
- カリキュラム学習により，複雑性を段階的に上げ，安定した最適化を実現し，様々なベンチマークで性能が向上した。
Link: https://arxiv.org/abs/2512.12633
人間の動画から器用な手と物体の相互作用を学習するためのワールドモデル [eess.SY, cs.SY, cs.RO, cs.AI, cs.CV]目的：器用な手と物体の相互作用のモデリング
- ロボット工学において，人間の様な器用な操作を実現するには，環境との複雑な相互作用の理解が不可欠である。
- 既存のワールドモデルは，詳細な指の動きを捉えきれない粗い行動空間に依存している点が課題であった。
- 本研究は，より詳細な指の動きを考慮し，器用な相互作用を正確にモデル化することを目指す。
- DexWMは，過去の状態と器用な行動に基づいて環境の潜在状態を予測する。
- 人間の動画から抽出された指のキーポイントを利用することで，大量のデータを用いた学習を可能にした。
- 手の一貫性を保つ損失関数を導入することで，より正確な手の形状の予測を実現し，既存モデルを大幅に上回る性能を示した。
Link: https://arxiv.org/abs/2512.13644
強度とモノデプスを用いたカメラLiDARアライメント [cs.RO, cs.CV]目的：カメラとLiDARデータの整合性
- 自動運転やロボット工学において，周囲環境の正確な把握が不可欠である。
- 従来のカメラLiDARアライメントは，複雑なデータ処理や特徴量抽出を必要とする場合が多い。
- シンプルな手法で，多様なシーンに対応可能なアライメント手法を確立すること。
- 提案手法CLAIMは，KITTI，Waymo，MIAS-LCECの公開データセットにおいて，最先端手法と比較して優れた性能を示した。
- パッチごとのピアソン相関係数に基づく構造損失と，相互情報に基づくテクスチャ損失の最小化により，最適な変換を探索する。
- データ処理や特徴量抽出といった複雑な工程を必要とせず，簡潔かつ適応性の高いアライメントを実現した。
Link: https://arxiv.org/abs/2512.14001
SARMAE：SAR画像表現学習のためのマスクオートエンコーダ [cs.CV, cs.LG]目的：SAR画像表現の自己教師あり学習
- 全天候・昼夜を問わないリモートセンシングにおいて，SAR画像は重要な役割を担う。
- SAR画像はデータ不足に制約され，物理的なスペックルノイズが詳細な意味的表現学習を妨げる。
- スペックルノイズに強く，ロバストなSAR画像表現を学習することを目指す。
- SARMAEは，大規模SARデータセットSAR-1Mを用いて自己教師あり学習を行う。
- SAREにより，SAR特有のスペックルノイズをマスクオートエンコーダに注入し，ノイズに強い表現を獲得する。
- SARCにより，光学画像との意味的一貫性を確保し，分類，検出，セグメンテーションの性能を向上させた。
Link: https://arxiv.org/abs/2512.16635
二者間政策競争における純粋戦略ナッシュ均衡の計算：存在とアルゴリズム的アプローチ [cs.GT, cs.LG]目的：二者間政策競争における純粋戦略ナッシュ均衡の存在と，それを求めるアルゴリズム
- 政策決定は社会全体の厚生に影響する重要なプロセスであり，その理論的基盤の確立が求められる。
- 政策競争のモデル化においては，現実の投票行動や選好の不確実性を捉えることが困難である。
- 選好の不確実性を考慮した政策競争モデルにおいて，ナッシュ均衡の存在と効率的な計算手法を確立する。
- 投票シミュレーションにより，政策の支持率と効用価値の間の単調増加性の仮説が検証された。
- 一次元および多次元の設定において，純粋戦略ナッシュ均衡の存在が数学的に証明された。
- 入力サイズと誤差許容度に応じて多項式時間で近似的なナッシュ均衡を求めるグリッド探索アルゴリズムが提案された。
Link: https://arxiv.org/abs/2512.22552
変形シーン向けの視覚慣性測位システムDefVINS [cs.RO, eess.SY, cs.SY, cs.CL, cs.RO, cs.CV]目的：変形シーンにおける視覚慣性測位のパイプライン
- ロボットや拡張現実において，環境理解と自己位置推定は不可欠である。
- 従来のVIOは剛体性を仮定しており，変形シーンでは精度が低下する。
- 変形環境下でもロバストな視覚慣性測位を実現することを目指す。
- DefVINSは，剛体成分と変形グラフを用いて変形シーンに対応する測位を可能にした。
- VIMandalaという，変形シーンにおけるVIOベンチマークを新たに構築した。
- 実験により，DefVINSが従来のVIOや非剛体視覚測位よりも優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2601.00702
X線血管造影における局所的マッチングと空間-時間的一貫性損失を用いた少サンプル動画物体セグメンテーション [cs.SI, econ.GN, econ.TH, q-fin.EC, cs.CV]目的：X線血管造影動画における少サンプル物体セグメンテーション手法
- 医療画像解析は，病変の早期発見や治療効果の評価に不可欠であり，臨床応用が期待されている。
- X線血管造影動画の物体セグメンテーションには，多くのラベル付きデータが必要であり，アノテーションコストが高い。
- 少数のラベル付きデータで高精度なセグメンテーションを実現し，臨床現場での利用を促進すること。
- 本研究では，局所的マッチングと空間-時間的一貫性損失に基づく新たな少サンプル動画物体セグメンテーションモデルを提案した。
- 提案手法は，既存のセグメンテーション手法と比較して，セグメンテーション精度と汎化性能において優れた結果を示した。
- X線血管造影動画のマルチオブジェクトセグメンテーションのための公開データセット（MOSXAV）も新たに提供した。
Link: https://arxiv.org/abs/2601.00988
多声音楽生成のための構造的帰納的バイアスの数理的基礎 [cs.LG, cs.SD, eess.AS]目的：多声音楽生成における構造的帰納的バイアスの数理的枠組み
- 音楽生成は，創造性の自動化という観点から，AI研究における重要な課題である。
- 既存の音楽生成モデルは，音楽構造の把握が不十分で，自然な音楽生成が困難である。
- 構造的帰納的バイアスを用いて，音楽構造をモデルに組み込み，より自然な音楽生成を目指す。
- ベトーヴェンのピアノソナタを分析した結果，音高と手の属性は独立していることが示された。
- 提案するSmart Embeddingアーキテクチャにより，パラメータ数を48.30%削減することに成功した。
- 情報理論や圏論を用いた厳密な数理的証明により，安定性と汎化性能の向上が確認された。
Link: https://arxiv.org/abs/2601.03612
拡散DRF：ビデオ拡散ファインチューニングのための自由で豊富な微分可能な報酬 [cs.CV]目的：ビデオ拡散モデルのファインチューニングにおける報酬の提供
- ビデオ生成の品質向上には，適切な報酬設計が不可欠である。学習データの偏りを軽減し，多様な表現を促す。
- 従来の報酬モデルは学習コストが高く，報酬の粒度が粗いため，最適化が不安定になりやすい。
- 学習済みVLMを活用し，報酬モデルの学習を不要にし，詳細なフィードバックによる安定した最適化を実現する。
- Diffusion-DRFは，追加の報酬モデル学習を必要とせず，情報量の多いフィードバックにより安定した報酬ベースのチューニングを可能にする。
- 従来の最先端手法Flow-GRPOと比較して，VBench-2.0の全体的なパフォーマンスで4.74%の向上を達成した。
- 定量的な評価に加え，生成されたビデオの品質においても顕著な改善が確認された。
Link: https://arxiv.org/abs/2601.04153
視覚言語推論による都市社会意味セグメンテーション [cs.CL, cs.MA, cs.CC, cs.NI, eess.SP, cs.CV, cs.AI, cs.CY]目的：都市における社会意味エンティティのセグメンテーション
- 都市は人間の活動の中心であり，多様な意味的要素を含む。それらの理解は都市計画等に不可欠である。
- 既存のセグメンテーションモデルは物理的属性に基づく分類は得意だが，学校や公園のような社会的に定義されたカテゴリの認識は困難である。
- 本研究は，視覚言語モデルの推論を通じて，社会的に定義された都市要素のセグメンテーション精度向上を目指す。
- 新しいデータセットSocioSegを構築し，衛星画像，デジタルマップ，および社会意味エンティティのピクセルレベルのラベルを提供した。
- 視覚言語モデルの推論を模倣するSocioReasonerフレームワークを提案し，強化学習を用いてその能力を最適化した。
- 提案手法は最先端モデルと比較して優位性を示し，ゼロショット汎化能力も高いことが示された。
Link: https://arxiv.org/abs/2601.10477
Think3D：空間推論のための空間的思考 [cs.CV]目的：3D空間推論能力をVision-Language Modelに付与するフレームワーク
- 視覚と言語を組み合わせたAIは発展しているが，真の3D空間推論は依然として課題である。
- 既存のモデルは2D中心の認識に偏っており，3D空間における積極的な探索ができていない。
- 3D操作ツールを統合し，AIに能動的な空間探索能力を与えることで，空間推論を向上させる。
- Think3Dは，GPT-4.1やGemini 2.5 Proなどの高性能モデルに効果的に組み込むことができ，性能を向上させる。
- 小規模モデルQwen3-VL-4Bに対してThink3D-RLを適用することで，性能向上が大幅に改善された。
- Think3Dは，ツールを活用した能動的な探索が，マルチモーダルエージェントの人間らしい3D推論能力を引き出す有効な手段であることを示した。
Link: https://arxiv.org/abs/2601.13029
視覚のための言語整合型概念基盤モデルCFM [cs.CV, cs.AI, cs.LG]目的：視覚的タスクにおける概念の解釈可能性と空間的根拠付け
- 視覚モデルの性能向上は，多様な応用を可能にする上で重要である。
- 既存モデルの表現は不透明であり，意思決定の根拠が不明確である。
- 人間が理解しやすい概念に基づいた，より解釈可能なモデルを開発する。
- CFMは，画像分類，セグメンテーション，キャプション生成タスクにおいて，既存モデルと同等の性能を示す。
- CFMは，入力画像内で空間的に根拠付けられた，詳細な概念を提供することにより，解釈可能性を高める。
- 概念間の局所的な共起関係を分析することで，概念命名の改善とより豊かな説明が可能となる。
Link: https://arxiv.org/abs/2601.13798
繰り越し宝くじ配分：実用的なインセンティブ整合型ドラフト [cs.GT]目的：インセンティブ整合型ドラフトメカニズムの提案
- NBAドラフトはチームの戦略に影響を与え，リーグ全体の競争力に関わる重要な課題である。
- チームが意図的に敗北することで有利なドラフト順位を得ようとするインセンティブが存在する。
- 敗北インセンティブを取り除き，弱いチームを優遇するドラフトメカニズムを構築すること。
- 提案メカニズム「繰り越し宝くじ配分（COLA）」は，チームの質を評価する上で新たなパラダイムを提供する。
- COLAは，シーズン成績ではなく，複数年のプレイオフ結果を用いることで，敗北インセンティブを除去する。
- 例外的に強力なドラフトクラスの場合，真実を明らかにするメカニズムを用いて，抽選の対象を拡大する。
Link: https://arxiv.org/abs/2602.02487
リソースを考慮したロバストな操作：分布的不一致の抑制による [cs.RO, cs.CV]目的：ロバストなロボット操作の実現
- ロボットによる複雑な実世界での操作は，高い信頼性が求められるため，重要な研究分野である。
- 既存手法は，大量のデータや計算資源を必要とし，分布のシフトがロバスト性を損なう課題がある。
- 本研究は，分布的不一致を抑制することで，効率的かつ信頼性の高いロボット操作を実現することを目指す。
- 提案手法$\chi_{0}$は，モデル算術，ステージアドバンテージ，訓練・デプロイメントの整合性により，分布的不一致に対処する。
- デュアルアームロボットによる衣類の操作実験で，$\chi_{0}$は既存手法$\pi_{0.5}$と比較して成功率を250%近く向上させた。
- $\chi_{0}$は，わずか20時間のデータと8つのA100 GPUで，24時間連続ノンストップでの自律運転を可能にした。
Link: https://arxiv.org/abs/2602.09021
糖尿病性神経障害における臨床誘導性角膜コンフォカル顕微鏡画像合成のためのWDLoRAベース多Modal生成フレームワーク [cs.NI, cs.CV]目的：糖尿病性神経障害における角膜コンフォカル顕微鏡画像の臨床誘導合成
- 角膜コンフォカル顕微鏡は，糖尿病性末梢神経障害における小線維障害の評価に有用である。
- ラベリングされたデータが不足しており，角膜神経形態の微細な変動があるため，堅牢な自動深層学習診断モデルの開発が制限される。
- 臨床的なガイダンスに基づき，高品質な角膜画像を合成し，データ不足を解消することを目指す。
- 提案フレームワークは，FID 5.18，SSIM 0.630を達成し，GANや拡散モデルと比較して優れた視覚的忠実度と構造的整合性を示す。
- 合成画像は，臨床的なバイオマーカーを保持し，統計的に実際の患者データと同等である。
- 合成データセットを用いた診断モデルの訓練により，診断精度が2.1%，セグメンテーション性能が2.2%向上し，医療AIにおけるデータ不足の緩和に貢献する。
Link: https://arxiv.org/abs/2602.13693
多imodal LLMは科学教育を理解できるか：K-12教室ビデオにおける教育的推論のベンチマーク [cs.CY, cs.AI, cs.CV]目的：K-12科学教室の授業ビデオにおける教育的推論のベンチマーク
- 科学教育の質向上には，授業における教師と生徒のインタラクション分析が不可欠である。
- 既存のベンチマークは数学に偏り，視覚情報やモデルベースの推論を考慮していない。
- 科学教室の授業における教育実践の自動分析を可能にするベンチマークを構築すること。
- SciIBIは，NGSSに準拠した科学教室の授業ビデオ113クリップからなる初のベンチマークである。
- 最先端のLLMおよびMultimodal LLMの評価により，現在のモデルは教育的に類似した実践を区別するのに苦労することが示された。
- ビデオ入力の追加は，モデルの性能向上に一貫した影響を与えず，表層的なパターンに頼る傾向が明らかになった。
Link: https://arxiv.org/abs/2602.18466
VALD: 効率的なLVLM防御のための多段階視覚攻撃検出 [cs.CV]目的：大規模視覚言語モデルに対する視覚攻撃の検出と防御
- 視覚言語モデルは多様なタスクに応用可能だが，その安全性確保が重要である。
- 視覚言語モデルは，巧妙に作成された攻撃画像によって誤った応答を招く脆弱性を持つ。
- 効率的かつ学習不要な防御手法により，攻撃画像による誤応答を抑制することを目的とする。
- 提案手法は，画像の一貫性評価とテキスト埋め込み空間での不一致検出という二段階の検出メカニズムを用いる。
- 特に困難なケースでのみ，大規模言語モデルを活用することで計算コストを最小限に抑える。
- 多数の攻撃画像が存在する場合でも，提案手法は高い精度と効率性を実現する。
Link: https://arxiv.org/abs/2602.19570
理解と生成の相乗効果：交互分析・起草思考によるアプローチ [cs.CV]目的：視覚と言語を統合したモデルにおける理解と生成の相乗効果の実現
- マルチモーダル学習の進展には，視覚情報と言語情報の統合が不可欠である。
- 既存モデルは，理解と生成を独立した能力と捉え，連携が不十分である。
- 分析と起草を繰り返す思考ループにより，理解と生成の協調的な向上を目指す。
- 提案手法「AD-Loop」は，理解と生成の標準的なベンチマークにおいて，既存モデルを上回る性能を示す。
- AD-Loopは，様々な視覚言語モデルのアーキテクチャに適用可能であり，高い汎用性を持つ。
- 視覚的分析により，AD-Loopが暗黙的な視覚的思考を効果的に活用していることが確認された。
Link: https://arxiv.org/abs/2602.21435
CARE：分子ガイダンスによる適応領域モデリングを用いた全スライド画像解析のための基盤モデル [cs.CV]目的：全スライド画像の病理領域の解析
- 病理診断の精度向上は，医療の発展に不可欠であり，効率的な画像解析が求められている。
- 既存モデルは組織形態に特化しておらず，病理領域の多様性と不均一性を捉えきれていない。
- CAREは，分子情報を用いて病理領域を自動的に分割し，より正確な解析を目指す。
- CAREは，自己教師あり学習と交差モダリティによるアライメントの二段階の事前学習を行うことで，組織形態の特徴を学習した。
- 従来の基盤モデルで使用されるデータ量の1/10で，33のベンチマークにおいて高い性能を示し，既存モデルを上回った。
- CAREは，形態学的分類，分子予測，生存分析など，広範な病理関連タスクに対応可能である。
Link: https://arxiv.org/abs/2602.21637
CXR-LT 2026チャレンジの概要：多施設におけるロングテールおよびゼロショット胸部X線画像分類 [cs.CV]目的：多施設データを用いたロングテールおよびゼロショット胸部X線画像分類タスク
- 胸部X線画像診断は医療において不可欠であり，診断精度の向上は患者ケアの質に直結する。
- 実際の臨床環境では，疾患の発生頻度に偏りがあり，未知の疾患も出現するため，既存のベンチマークでは十分な評価が困難である。
- 多様な施設からのデータと未知の疾患に対する分類能力を評価することで，実用的な診断システムの開発を目指す。
- 本チャレンジでは，PadChestとNIH Chest X-rayデータセットを統合し，145,000枚以上の画像を用いた評価を行った。
- Task 1（既知の30クラス）において，最高チームはmAP 0.5854を達成し，Task 2（未知の6クラス）ではmAP 0.4315を達成した。
- 大規模なビジョン言語事前学習が，ゼロショット診断における性能低下を抑制することが示された。
Link: https://arxiv.org/abs/2602.22092
固定アンカーだけでは不十分：データセット蒸留のための動的検索と持続ホモロジー [cs.CV]目的：大規模データセットの圧縮
- データセットサイズが大きくなると，計算コストが増大し，モデルの学習や推論が困難になるため，圧縮が重要である。
- 既存のデータセット蒸留手法は，静的な実パッチに依存しており，多様性が失われ，汎化性能が低下する問題がある。
- 教師モデルの特徴空間における適合性と複雑性のバランスを取り，データセットのトポロジー構造を考慮することで，汎化性能の向上を目指す。
- 提案手法RETAは，動的検索と持続ホモロジーを用いて，データセット蒸留の性能を大幅に向上させる。
- ImageNet-1Kにおいて，ResNet-18を使用し，クラスあたり50枚の画像で64.3%のトップ1精度を達成し，既存手法を3.1%上回った。
- CIFAR-100，Tiny-ImageNetなど，様々なデータセットで一貫して優れた性能を示した。
Link: https://arxiv.org/abs/2602.24144
コンピュータ支援頭蓋顔面重ね合わせにおける自動化のための新規進化的手法 [cs.RO, cs.HC, cs.CV, cs.AI, cs.NE]目的：頭蓋顔面重ね合わせの精度とロバスト性の向上
- 法医学的個人識別において重要な技術であり，身元不明遺体の特定に役立つ。
- 軟部組織の厚さの個人差により，重ね合わせの精度が低下し，不確実性が生じる。
- 軟部組織の変動をモデル化し，重ね合わせの精度向上を目指す。
- 本研究で提案するLiliumは，差分進化アルゴリズムを用いて3D円錐ベースの表現を最適化する。
- 解剖学的，形態学的，写真的な妥当性を制約条件として組み合わせることで，フォレンジックの実務家の手法を模倣している。
- 評価実験の結果，Liliumは最先端手法と比較して，精度とロバスト性の両面で優れていることが示された。
Link: https://arxiv.org/abs/2603.00170
ウェーブレットに基づく意味境界検出による長編ビデオ理解のためのフレーム選択 [cs.CV]目的：長編ビデオ理解のためのフレーム選択手法
- 長編ビデオの処理には，フレームの冗長性と限られた文脈窓が課題となる。
- 既存手法はクエリとの関連度が高いフレームを選択する傾向があり，ビデオの物語構造を無視する。
- 意味変化を捉え，ビデオ全体のストーリーラインを理解するためのフレーム選択を目指す。
- 本研究では，ウェーブレット変換を用いてノイズを除去し，意味変化の信号を抽出する。
- 抽出された信号から意味境界を特定し，ビデオをコヒーレントなクリップに分割する。
- 提案手法は，VideoMME，MLVU，LongVideoBenchで最先端手法を大きく上回る性能を示す。
Link: https://arxiv.org/abs/2603.00512
BAWSeg：大麦雑草セグメンテーションのためのUAVマルチスペクトルベンチマーク [cs.CL, cs.CV]目的：大麦畑における雑草の正確なマッピング
- 精密農業において，雑草の効率的な検出と除去は収量増加に不可欠である。
- 従来のマルチスペクトル解析は，放射変動や混合ピクセルに弱く，微細な雑草の識別が困難である。
- 本研究は，よりロバストで高精度な雑草セグメンテーション手法の開発を目指す。
- 提案手法VISAは，輝度情報と植生指数情報を分離し，高解像度で融合することで，従来のCNNやTransformerよりも優れた性能を発揮する。
- ベンチマークデータセットBAWSegを用いての評価では，mIoUが75.6%，雑草IoUが63.5%を達成し，SegFormer-B1を上回る結果が得られた。
- クロスプロットおよびクロスイヤー評価においても，高い汎化性能が確認された。
Link: https://arxiv.org/abs/2603.01932
動的補正による閉ループ行動チャンクを用いた学習不要拡散ポリシー [cs.RO, cs.AI, cs.CV]目的：拡散ポリシーにおける動的な環境への適応性向上
- ロボット制御において，環境変化への迅速な対応は重要であり，適応能力がタスク成功を左右する。
- 従来の拡散ポリシーは動的な状況下で適応が遅れ，遅延やタスク失敗を引き起こす可能性がある。
- 本研究は，リアルタイムな補正機構を導入することで，拡散ポリシーの動的環境への適応性を高める。
- 提案手法DCDPは，自己教師あり学習による動的特徴エンコーダ，クロスアテンション融合，非対称な行動エンコーダ・デコーダを統合する。
- シミュレーション実験では，DCDPは再学習なしに適応性を19％向上させ，計算コストの増加は5％に抑えられた。
- DCDPのモジュール設計により，時間的な一貫性とリアルタイム応答性を両立し，実世界のロボット制御タスクにも応用可能である。
Link: https://arxiv.org/abs/2603.01953
企業向けリアルタイム音声エージェントのゼロからの構築：技術チュートリアル [cs.SD]目的：企業向けリアルタイム音声エージェントの構築方法
- 顧客対応の自動化は，人手不足解消やコスト削減に不可欠であり，企業競争力向上に貢献する。
- エンドツーエンドの音声エージェントは低遅延だが，自己ホスト可能なものがまだ存在しない。
- 自己ホスト可能なリアルタイム音声エージェント構築の現実的なアーキテクチャを提示する。
- Deepgram，vLLM，ElevenLabsを組み合わせたカスケードストリーミングパイプラインを構築した。
- 初回音声までの時間（best case）は729msを達成し，機能呼び出しもサポートした。
- 全コンポーネントの動作確認済みコードを含む9章構成のチュートリアルを公開した。
Link: https://arxiv.org/abs/2603.05413
AutothinkRAG: クエリの複雑さに応じた検索拡張推論の制御 - 画像とテキストの相互作用において [cs.IR, cs.CV]目的：マルチモーダル文書質疑応答における推論効率と安定性の向上
- 画像とテキストを含む文書からの情報抽出と推論は，多様なタスクにおいて不可欠である。
- 従来の検索拡張生成モデルは，クエリの複雑さへの対応と，視覚的認識と論理的推論の結合による非効率性が課題である。
- クエリの複雑さに応じた検索と推論経路の選択，および視覚的認識と論理的推論の分離による効率化を目指す。
- AutoThinkRAGは，クエリの難易度と構造を分析し，適切な検索・推論パスを選択するQuery Complexity Routerを備えている。
- 視覚情報をテキスト表現に変換する軽量なVLMと，論理的推論を行うLLMを分離することで，効率と堅牢性を向上させている。
- DocBenchおよびMMLongBenchにおける実験で，AutoThinkRAGは高い精度を示し，トークン消費量とコストを削減した。
Link: https://arxiv.org/abs/2603.05551
CRIMSON：臨床に基づいたLLMを活用した放射線レポート評価指標 [cs.CL, cs.AI, cs.CV]目的：胸部X線レポート生成の診断精度，文脈適合性，患者安全性評価のための臨床に基づいた指標
- 医療現場では，放射線レポートの品質が診断や治療に大きく影響するため，客観的な評価方法が求められている。
- 既存の評価指標は臨床的文脈を十分に考慮せず，重要でない記述が過度に評価に影響を与える場合がある。
- 臨床的に重要な誤りを優先的に評価し，より信頼性の高いレポート生成システムの開発を支援すること。
- CRIMSONは，臨床専門医によるエラー数との高い相関性を示し，客観的な評価が可能であることが示された。
- 臨床的に困難なシナリオにおける評価においても，専門医の判断と一貫性があることが確認された。
- RadPrefベンチマークにおいて，放射線専門医の評価との最も強い整合性を示し，有用性が示された。
Link: https://arxiv.org/abs/2603.06183
FlowMotion：ビデオモーション転送のための訓練不要なフローガイダンス [cs.CV]目的：ビデオモーション転送における効率的かつ柔軟な動きの適用
- ビデオ生成技術は，映像コンテンツの多様な応用を可能にする重要な研究分野である。
- 既存手法は計算コストが高く，柔軟性に欠ける点が課題となっている。
- 効率性と性能を両立した，新たなモーション転送フレームワークの提案。
- FlowMotionは，事前学習済みのT2Vモデルの出力を直接活用することで，高い計算効率を実現する。
- 潜在予測から抽出したフローガイダンスによって，ソースと生成ビデオ間の動きパターンを整合させる。
- 速度正則化戦略により，最適化の安定化と滑らかな動きの進化を保証する。
Link: https://arxiv.org/abs/2603.06289
Match4Annotate：暗黙的ニューラル特徴量マッチングによる疎な動画アノテーションの伝播 [cs.CV]目的：動画アノテーションの伝播手法
- 専門領域（医療画像など）では，アノテーション取得に時間とコストがかかるため，効率的なアノテーション手法が求められている。
- 既存手法は，単一動画内での伝播に限定されるか，低テクスチャなシーンで精度が低下する課題がある。
- 動画間および動画内でのアノテーション伝播を，高精度かつ効率的に実現することを目指す。
- Match4Annotateは，DINOv3特徴量にSIRENベースの暗黙的ニューラル表現を適用し，連続的な時空間特徴量フィールドを生成する。
- フレームペア間の滑らかな変形場を学習し，対応点マッチングを誘導することで，高精度なアノテーション伝播を実現した。
- 臨床超音波データセットにおいて，既存手法を凌駕する動画間伝播性能と，トラッカーに匹敵する動画内伝播性能を達成した。
Link: https://arxiv.org/abs/2603.06471
モバイルロボット向けワンショットバドミントンシャトル検出 [cs.CV, cs.RO]目的：バドミントンシャトル検出のフレームワーク
- ロボット工学において，環境認識は自律的な行動を可能にする上で重要である。
- 移動ロボットの視点からのシャトル検出は，既存のデータセットの不足が課題である。
- 移動ロボットの視点に特化した，実用的なシャトル検出システムの構築を目指す。
- 20,510フレームからなるシャトル検出用のデータセットを構築し，難易度別に分類した。
- YOLOv8ネットワークをファインチューニングし，実時間でのシャトル検出を実現した。
- 訓練環境ではF1スコア0.86，未知環境では0.70を達成し，シャトルサイズや背景の複雑さが検出性能に影響することを示した。
Link: https://arxiv.org/abs/2603.06691
融合の複雑性反転：牧草バイオマス回帰における単純なクロスビューモジュールがSSMおよびクロスビューアテンションTransformerを上回る理由 [cs.NI, cs.CL, cs.CV, cs.LG]目的：牧草バイオマスの回帰精度向上
- 持続可能な畜産管理には，正確な牧草バイオマス推定が不可欠である。
- 実世界のモニタリングでは，データセットが小規模，不均衡，疎なアノテーションであることが課題である。
- 少ないデータでも高い精度を達成できる手法を確立すること。
- 少ない農業データでは，2層のゲート付き深さ方向畳み込みが，クロスビューアテンションTransformerやSSMよりも優れた性能を示すことが明らかになった。
- バックボーンの事前学習規模が，全てのアーキテクチャ選択よりも支配的である。DINOv2からDINOv3へのアップグレードだけでR^2値が5.0ポイント向上する。
- メタデータの学習のみではR^2値の上限が約0.829となり，融合による効果が限定的になることが示された。推論時に利用できない特徴は除外すべきである。
Link: https://arxiv.org/abs/2603.07819
感情を考慮した物語生成 [cs.CV]目的：感情を明示的に指示された，首尾一貫した視覚的物語
- 物語は感情的な共感を呼ぶことが重要であり，感情表現は物語体験を豊かにする。
- 既存の物語生成手法は物語の首尾一貫性や表現力に優れるものの，感情表現が不十分である。
- 物語解釈と視覚的表現を左右する感情を物語生成に取り込み，より魅力的な物語を生成すること。
- EmoStoryは，エージェントベースの物語計画と領域認識による物語生成の2段階フレームワークである。
- 計画段階では，感情エージェントとライターエージェントを用いて感情を具体的な物語の指示へと変換する。
- 生成段階では，領域認識による構成を通して，主体の首尾一貫性と感情に関連する要素を保持する。
Link: https://arxiv.org/abs/2603.10349
Med-DualLoRA：3D心臓MRIにおける基盤モデルの局所適応 [cs.CV]目的：3D心臓MRIの疾患検出のための基盤モデルの連合学習における局所適応手法
- 医療画像診断の精度向上は，患者ケアの質を大きく左右するため，重要性が高い。
- 単一サイトのデータでの適応は，モデルのバイアスを生じやすく，汎化性能が低下する可能性がある。
- プライバシーを保護しつつ，複数サイトの非IIDデータに対応可能な効率的な適応手法の開発が求められる。
- Med-DualLoRAは，グローバルな共有パラメータと局所的な低ランク適応を分離することで，個人情報を保護しつつ適応性能を向上させる。
- トランスフォーマーブロックの適応数を減らすことで，計算効率をさらに高めることが示された。
- ACDCとM\&Msデータセットを用いた実験で，既存の連合学習手法と比較して統計的に有意な性能改善が確認された。
Link: https://arxiv.org/abs/2603.10967
交互勾配流ユーティリティ：深層ネットワークにおける構造的プルーニングと動的ルーティングのための統一的指標 [cs.CE, cs.CV, cs.LG, cs.NE]目的：深層ネットワークにおける構造的プルーニングと動的ルーティングを最適化するための統一的指標の提案
- 深層学習の効率化は重要であり，計算コストとモデルサイズの削減が求められている。
- 従来のプルーニング指標は，機能的な経路を維持できず，精度低下を引き起こす可能性がある。
- 本研究は，ネットワークの構造的「運動エネルギー的有用性」を正確に捉え，プルーニングとルーティングを改善することを目指す。
- 本研究で提案するAGFは，極端な疎性下でもベースライン機能を維持し，構造的崩壊を防ぐことが示された。
- ViTにおけるスパースネスボトルネックが明らかになり，動的信号の圧縮が原因であることが示唆された。
- AGFと物理的プリアーを用いたハイブリッドルーティングフレームワークは，ImageNet-100において，50%の計算コスト削減と精度の維持を達成した。
Link: https://arxiv.org/abs/2603.12354
浮動小数点数実行下におけるLipschitzに基づくロバスト性保証 [cs.LG, cs.CV, cs.PL]目的：ニューラルネットワークのロバスト性保証手法の健全性
- ニューラルネットワークの安全性確保は重要であり，検証可能な保証が求められている。
- 既存のロバスト性保証は実数演算を前提としており，浮動小数点演算との乖離が生じる。
- 浮動小数点演算下でのロバスト性低下を評価し，保証条件を導出すること。
- 実数演算によるロバスト性保証が，浮動小数点数実行下では成立しない具体例が示された。
- ReLU活性化関数を持つフィードフォワードネットワークに対し，実数と浮動小数点数の感度を関連付ける理論が開発された。
- 浮動小数点数実行下でのロバスト性に関する健全な条件と，オーバーフロー回避のための条件が得られた。
Link: https://arxiv.org/abs/2603.13334
AgriPath: 作物病害分類のためのアーキテクチャのトレードオフの体系的探求 [cs.CV, cs.LG]目的：作物病害分類に関するアーキテクチャのトレードオフの体系的探求
- 食糧生産において，病害の早期発見と正確な分類は，収穫量増加と食料安全保障に不可欠である。
- 既存の研究では，特定のアーキテクチャに偏っていたり，実験室環境下でのデータに限定されていたりする。
- 本研究は，多様な環境下での性能を考慮した上で，適切なアーキテクチャ選択の指針を示すことを目指す。
- CNNは実験室環境下では高い精度を示すが，実際の圃場環境下では性能が低下する傾向が見られた。
- コントラスト学習を用いたVLMは，パラメータ効率が良く，ドメインを跨いでも安定した性能を発揮する。
- 生成VLMは，分布の変化に対して最も強い耐性を示す一方，自由記述生成に起因する新たな課題も存在する。
Link: https://arxiv.org/abs/2603.13354