arXiv雑要約

画像・音声 - 2026/03/17 公開

大規模における欺瞞的なステレオマッチング：自動運転における双眼深度推定に対する物理的敵対的攻撃 [cs.CV, cs.AI]目的：自動運転における双眼深度推定に対する物理的敵対的攻撃手法
- 自動運転の実現には，正確な環境認識が不可欠であり，深度推定はその重要な要素である。
- 深層学習モデルは敵対的サンプルに脆弱であり，特に実環境での物理的攻撃は対策が遅れている。
- ステレオ視を用いた深度推定に対する，より現実的な物理的攻撃手法を開発し，その有効性を検証する。
- 本研究では，テクスチャを付与した3次元の物理的敵対的サンプルを提案し，ステレオマッチングモデルを欺瞞可能であることを示した。
- 提案手法は，カメラ視点や環境との整合性を考慮した3Dレンダリングモジュールと，背景への巧妙な統合を可能にするマージング攻撃を組み込む。
- 実験結果から，提案する物理的攻撃が深度情報の誤りを引き起こし，ステレオモデルを効果的に欺瞞できることが確認された。
Link: https://arxiv.org/abs/2511.14386
SVG360：単一SVGからの幾何学的・色彩的一貫性を持つ多視点SVG生成 [cs.CV]目的：単一SVGからの多視点SVG生成手法
- 現代のデザインワークフローにおいて，SVGは重要な役割を担う。拡大縮小に強く，正確な編集が可能であるため。
- 単一視点SVGから多視点の一貫性のあるSVGを生成する手法は，十分に研究されていない。
- 単一の入力SVGから，幾何学的および色彩的に一貫性のある多視点SVGを生成することを目指す。
- 提案手法は，入力SVGを3D表現に変換し，目標カメラ位置からレンダリングすることで多視点画像を生成する。
- Segment Anything 2 (SAM2)のtemporal memory機構をspatial domainへ拡張し，空間記憶バンクを構築することで，よりクリーンで一貫性のあるベクトルパスと色彩割り当てを実現する。
- パスの統合と構造最適化を行い，冗長性を削減しつつ，境界線と意味を保持したSVGを生成する。
Link: https://arxiv.org/abs/2511.16766
プランク軌跡から外れて：2次元色度を用いたカメラ内色再現性の向上 [cs.CV]目的：カメラ内色再現性の向上
- 色彩再現は，写真や映像の品質において重要な要素であり，視覚体験に直接影響する。
- 従来のCCTベースの補間では，LEDなどの非プランク光源に対して十分な精度が得られない。
- 非プランク光源下における色再現性の問題を，2次元色度空間とMLPを用いて解決する。
- 2次元色度空間への移行により，様々なマッピング手法において色再現性が向上した。
- 提案手法は，LED照明下での角分差エラーを平均22%削減することに成功した。
- 従来の光源との互換性を維持しつつ，複数光源シーンにも対応可能で，リアルタイム処理も実現した。
Link: https://arxiv.org/abs/2511.17133
イラストレーターの深さ：画像分解のための単眼レイヤーインデックス予測 [cs.CV]目的：画像分解のためのレイヤーインデックス予測
- デジタルコンテンツ制作において，編集可能なレイヤー構造への分解は重要な課題である。
- 既存手法では，画像の要素間の関係性を捉えきれず，自然なレイヤー分解が困難である。
- 本研究は，画像から直接レイヤーインデックスを予測することで，編集性を高めることを目指す。
- 提案手法「イラストレーターの深さ」は，画像内の各ピクセルにレイヤーインデックスを割り当てることで，編集に適した画像分解を実現する。
- 本研究で構築したニューラルネットワークは，ベクターグラフィックスのデータセットを用いて学習され，画像ベクトル化において最先端手法を大きく上回る性能を示す。
- また，テキストからのベクターグラフィックス生成や，2D画像からの3Dレリーフ生成など，様々な応用可能性が示唆される。
Link: https://arxiv.org/abs/2511.17454
行動認識LLMペルソナモデル：リアルな市民シミュレーションのために [cs.CL, cs.AI, cs.LG, cs.SD]目的：市民シミュレーションにおけるリアリズム向上
- 大規模言語モデルの活用が期待されるが，発話者属性データの不足が課題である。
- 自動音声認識による書き起こしでは，匿名ラベルしか付与されず，一貫した人間行動の捉え方が困難である。
- 発話者属性と行動タグを付与したデータセットを構築し，リアリズムを高めることを目指す。
- 公開されたZoom記録を変換する再現可能なパイプラインを開発し，3つの地方自治体会議データセットを公開した。
- 行動認識データを用いてLLMをファインチューニングした結果，perplexityが67%減少し，性能指標がほぼ倍増した。
- チューリングテスト形式の人間の評価では，シミュレーションが現実の議論と区別がつかない場合もあった。
Link: https://arxiv.org/abs/2511.17813
EgoVITA：一人称視点ビデオにおける計画と検証の学習 [cs.CV]目的：一人称視点ビデオの推論のための計画と検証のフレームワーク
- 一人称視点ビデオ理解は，現実世界のタスク実行において重要であり，ロボット工学への応用が期待される。
- 既存のマルチモーダル大規模言語モデルは，部分的な観察と視点の変化に対応できず，一貫性のない推論を招く。
- 本研究は，一人称視点と三人称視点を組み合わせた計画と検証のプロセスを通じて，推論の一貫性と正確性を向上させる。
- EgoVITAは，エゴセントリックなビデオ推論ベンチマークにおいて最先端の性能を達成した。
- EgoBlindでQwen2.5-VL-7Bを7.7ポイント，EgoOrientで4.4ポイント上回る性能を示した。
- わずか47kの学習サンプルで，三人称視点ビデオタスクへの高い汎化能力を維持した。
Link: https://arxiv.org/abs/2511.18242
UniFlow：ゼロショットLiDARシーンフローによる自動運転車 [cs.CV]目的：多様なLiDARセンサーへの汎化性能を持つシーンフロー推定
- 自動運転において，周囲環境の正確な3次元動きの把握は安全性確保に不可欠である。
- 既存手法は特定のセンサーに依存し，異なるセンサーへの適応が困難であるという課題がある。
- 異なるデータセット間での学習を通じて，汎化性能の高いシーンフロー推定モデルを開発する。
- UniFlowは，複数の大規模LiDARシーンフローデータセットを統合し，学習を行うシンプルなモデルである。
- WaymoおよびnuScenesデータセットにおいて，既存手法をそれぞれ5.1％，35.2％上回る最先端の結果を達成した。
- TruckScenesやAEVAScenesといった未知のデータセットにおいても，既存のデータセット特化型モデルを大きく上回る精度を示した。
Link: https://arxiv.org/abs/2511.18254
科学ポスターの構造解析のためのデータセット：SciPostLayoutTree [cs.CV]目的：科学ポスターの構造解析のためのデータセット及び構造解析モデルの開発
- 学術コミュニケーションにおいて，ポスターは重要な役割を担うため，その構造理解は重要である。
- 論文構造解析の研究は盛んである一方，ポスターの構造解析は未開拓の分野である。
- ポスター特有の視覚的構造（上下，水平，長距離関係など）を解析するための基盤を提供する。
- SciPostLayoutTreeは，約8,000枚のポスターを対象とした，読み順と親子関係のアノテーションを含むデータセットである。
- 開発したLayout Tree Decoderは，視覚的特徴とバウンディングボックスの特徴を活用し，ポスターの構造解析精度を向上させた。
- 特に，空間的に困難な関係（上下，水平，長距離関係）の予測精度が改善され，ポスター構造解析の新たな基盤を確立した。
Link: https://arxiv.org/abs/2511.18329
ConsistCompose：画像構成のための統一されたマルチモーダルレイアウト制御 [cs.CV]目的：画像構成におけるレイアウト制御
- 画像とテキストを組み合わせた生成モデルの発展は目覚ましいが，より精密な制御が課題となっている。
- 既存モデルは視覚的根拠に重点を置いており，レイアウトに基づいた正確な制御が十分ではない。
- 言語プロンプトにレイアウト座標を埋め込むことで，正確な空間制御を実現する。
- ConsistComposeは，レイアウト座標を言語プロンプトに直接埋め込むことで，レイアウト制御された複数インスタンスの画像生成を可能にする。
- 大規模データセットConsistCompose3Mを構築し，レイアウト条件付き生成のための大規模な教師データを提供した。
- COCO-PositionとMS-Benchにおいて，既存手法と比較して空間精度が大幅に向上し，画像生成の精度と汎用性を確立した。
Link: https://arxiv.org/abs/2511.18333
無人航空機追跡のための三つのモダリティを持つデータセットとベースラインシステム [cs.CV]目的：無人航空機追跡のためのマルチモーダルデータセットの提供と，そのベースラインシステムの開発
- 低高度における無人航空機の利用増加に伴い，安全確保のための視覚的追跡技術の重要性が高まっている。
- 単一の視覚モダリティによる追跡は，低照度，背景の複雑さ，急激な動きなどの状況下で課題が残されていた。
- マルチモーダルデータセットの欠如が，効果的な無人航空機追跡システムの開発を妨げていた状況を打開する。
- RGB，赤外線，イベント信号の３つのモダリティを統合した大規模なデータセットMM-UAVを公開した。
- 提案するフレームワークは，センサー間の空間的なずれを修正するモジュールと，各モダリティの情報を融合するモジュールを搭載している。
- イベントモダリティからの動きの情報を活用したアソシエーション機構により，従来の追跡手法を上回る性能を達成した。
Link: https://arxiv.org/abs/2511.18344
画像圧縮のための拡散基盤モデル CoD [cs.CV]目的：画像圧縮と生成の同時最適化
- 画像圧縮技術は，データ伝送や保存において不可欠であり，効率化が常に求められている。
- 既存の拡散コーデックはテキスト条件付きであり，圧縮効率が制限されていた。
- CoDは，圧縮に特化した拡散基盤モデルであり，低ビットレートでの性能向上を目指す。
- CoDを用いることで，DiffCなどのダウンストリームコーデックにおいて，特に超低ビットレートで最先端の結果が得られた。
- Stable Diffusionと比較して，CoDの学習は300倍高速に完了し，オープンな画像データセットのみで実現された。
- ピクセル空間拡散がVTMレベルのPSNRと高い知覚品質を実現可能であることが示され，GANベースのコーデックよりも少ないパラメータで優位性を示した。
Link: https://arxiv.org/abs/2511.18706
3M-TI：較正不要マルチカメラクロスモーダル拡散による高品質モバイル熱画像処理 [cs.CV, physics.optics]目的：モバイル環境における高品質な熱画像処理手法の開発
- モバイル機器に搭載された熱センサーの小型化が進む中で，空間解像度と質感の向上が課題となっている。
- 既存の熱画像超解像手法は，単一画像処理では精細な構造の復元が難しく，RGB画像を利用する手法はカメラの較正が必須である。
- カメラ較正を不要とし，RGB画像と熱画像のクロスモーダル拡散によって熱画像の品質を向上させることを目指す。
- 提案手法3M-TIは，クロスモーダル自己注意モジュールを拡散UNetに組み込み，熱画像とRGB画像のフィーチャーを適応的にアラインメントする。
- 3M-TIは，明示的なカメラ較正を必要とせず，生成モデルの事前知識を活用して熱画像の空間解像度，構造，質感を向上させる。
- 実際のモバイル熱カメラと公開ベンチマークでの評価により，3M-TIが最先端の結果を達成し，物体検出やセグメンテーションなどの下流タスクの性能向上に貢献することが示された。
Link: https://arxiv.org/abs/2511.19117
拡散モデルにおける局所的なスケーリング：学習不要な局所スケーリング手法 [cs.CV]目的：拡散モデルの推論時における局所的な品質改善
- 拡散モデルは画像生成において主流であり，生成品質向上が重要である。
- 既存手法は画像全体を再サンプリングするため，計算コストが高い。
- 品質の低い領域のみを局所的に再サンプリングし，効率的な品質改善を目指す。
- 提案手法LoTTSは，高品質/低品質プロンプトによる注意機構の比較により，不良領域を正確に特定する。
- LoTTSは不良領域のみを擾乱し局所的にノイズ除去を行うことで，一貫性を保ちながら修正を行う。
- SD2.1，SDXL，FLUXでの実験により，LoTTSは最新技術を上回り，GPUコストを2-4倍削減する。
Link: https://arxiv.org/abs/2511.19917
概念ボトルネックモデルによる説明可能な異常視覚検出 [cs.CV, cs.AI]目的：異常視覚検出における説明可能性の向上
- 画像から異常を検出する技術は，製造業等の品質管理において重要である。
- 既存の異常検出モデルは説明性が低く，異常箇所の理由が不明確な場合がある。
- 概念ボトルネックモデルを用いて，人間が理解しやすい異常の説明を提供することを目指す。
- 概念ボトルネックモデルを異常視覚検出に適用することで，セマンティックに意味のある異常の説明が可能となった。
- 提案手法は，従来の異常検出手法と同等の性能を維持しつつ，より詳細な概念に基づいた説明を提供する。
- 概念レベルの説明とピクセルレベルの異常局所化を組み合わせることで，解釈性と信頼性を高めた。
Link: https://arxiv.org/abs/2511.20088
SKEL-CF：粗調整から微調整への生体力学的骨格と表面メッシュの復元 [cs.CV]目的：SKELパラメータ推定の粗調整から微調整へのフレームワーク
- 人体姿勢・形状推定の進展に貢献する3D人体モデルの重要性が増している。
- SMPL等の既存モデルは簡略化された運動学的制約により，生体力学的なリアリズムが課題であった。
- SKELモデルのパラメータ推定におけるデータ不足や曖昧さを解消し，より高精度な推定を目指す。
- 提案手法SKEL-CFは，Transformerを用いたEncoder-Decoder構造を採用し，粗い推定から徐々に精度を向上させる。
- 既存のSMPLベースデータセットをSKELに対応した4DHuman-SKELに変換することで，高品質な学習データを提供している。
- 困難なMOYOデータセットにおいて，SKEL-CFは既存の最先端手法HSMRを大きく上回り，85.0 MPJPE / 51.4 PA-MPJPEを達成した。
Link: https://arxiv.org/abs/2511.20157
MapReduce LoRA：生成モデルの多目的最適化におけるパレート最前線を前進させる [cs.CV, cs.AI, cs.LG]目的：生成モデルの多目的最適化におけるパレート最前線の改善
- 生成AIの性能向上には，人間の美的感覚や認識に基づく調整が不可欠である。
- 複数の報酬関数を同時に最適化すると，ある目的の改善が他の目的の低下を招く場合がある。
- 複数の報酬関数を同時に最適化する際のトレードオフを軽減し，全体的な性能を向上させる。
- 提案手法MapReduce LoRAとRaTEは，Text-to-Image生成においてGenEval，PickScore，OCRの評価で大幅な改善を示した。
- Text-to-Video生成においては，視覚品質と動きの品質がそれぞれ48.1％と90.0％向上した。
- 言語タスクにおいては，有用性と安全性もそれぞれ43.4％と136.7％改善し，最先端の結果を達成した。
Link: https://arxiv.org/abs/2511.20629
GENA3D：2D事前知識と3D一貫性を橋渡しする生成アモダル3Dモデリング [cs.CV]目的：部分的な隠蔽下における完全な3Dオブジェクトの生成
- 現実世界のデータは部分的にしか観測できないため，隠蔽された形状を補完する技術が重要である。
- 既存手法は，3Dの一貫性か生成表現力のいずれか一方に偏っており，両立が困難であった。
- 2D事前知識と3D構造的制約を組み合わせ，アモダル3Dモデリングにおける生成と一貫性の両立を目指す。
- 提案手法GENA3Dは，学習された2D事前知識と3D幾何学的推論を統合し，条件付き3D生成を行う。
- ビューごとのクロスアテンションとステレオ条件付きクロスアテンションにより，多視点整合性と3D空間関係を確保する。
- 合成データと実データにおける実験により，既存手法を凌駕する性能が示され，提案手法の有効性が確認された。
Link: https://arxiv.org/abs/2511.21945
マッチ・アンド・フューズ：非構造化画像セットからの整合性のある生成 [cs.CV]目的：非構造化画像セットからの整合性のある制御生成
- 画像生成技術は，多様なコンテンツ作成を可能にする重要な分野である。
- 既存手法では，画像全体の一貫性を保つことが困難であった。
- 画像セット全体の一貫性を保ちつつ，新たなコンテンツを生成すること。
- 提案手法は，画像ペア間の特徴を融合することで，一貫性のある画像セットを生成する。
- 手動によるマスク作成や教師データなしで，高品質な画像生成を実現した。
- 既存手法を上回り，画像コレクションからのコンテンツ作成の新たな可能性を開く。
Link: https://arxiv.org/abs/2511.22287
ABounD：敵対的境界駆動による少数サンプルマルチクラス異常検知 [cs.DC, cs.CL, cs.CV]目的：マルチクラス産業異常の検知
- 産業分野において，多様な欠陥を効率的に検知することは品質管理の根幹である。
- 異常データが不足する状況下では，汎化性能と検出精度を両立することが困難である。
- 本研究は，少ない正常サンプルで高精度なマルチクラス異常検知を実現することを目指す。
- 提案手法ABounDは，セマンティック概念アンカリングと幾何学的境界最適化を統合した学習フレームワークである。
- 動的コンセプトフュージョンモジュールにより，クラス適応的なセマンティックアンカーを生成し，カテゴリ間の干渉を抑制する。
- 敵対的境界鍛造モジュールは，境界レベルの特徴を合成することで，クラスごとの識別マージンを最適化し，高い検出性能を実現する。
Link: https://arxiv.org/abs/2511.22436
AIA：統一マルチモーダルモデルにおけるアーキテクチャ分離戦略の再考 [cs.CV]目的：統一マルチモーダルモデルにおけるタスク競合の緩和と性能向上
- 画像生成と理解を統合する統一マルチモーダルモデルは，AGI実現に向けた重要な一歩である。
- 理解と生成という異なるタスク間の競合が，最適な学習パラダイムの確立を困難にしている。
- アーキテクチャ分離に頼らずに，タスク競合を緩和し，統一モデルの能力を最大限に引き出すことを目指す。
- アーキテクチャ分離はタスク競合を解決するのではなく，特定のタスクに特化したモデルのクロスモーダル相互作用パターンを模倣していることが分析から明らかになった。
- 提案手法Attention Interaction Alignment (AIA) lossは，タスク固有のクロスモーダル相互作用パターンを学習することで，クロスモーダル注意パターンを改善する。
- AIA lossは，Emu3とJanus-Proへの適用により，SFTおよびポストトレーニング段階において生成と理解の両方の性能を向上させることを示した。
Link: https://arxiv.org/abs/2511.22663
任意の点を登録：フローマッチングによる3D点群登録のスケーリング [cs.CV, cs.RO]目的：3D点群登録の効率化とグローバル整合性の向上
- 3D再構成やロボットの自己位置推定において，点群登録は不可欠な処理である。
- 従来の点群登録手法は，対応関係の探索と姿勢グラフの最適化に依存し，計算コストが高い。
- 本研究は，フローマッチングを用いて点群登録を直接生成し，効率性と整合性を両立させる。
- 提案手法は，既存のペアワイズ登録ベンチマークにおいて最先端の結果を達成した。
- 新たに提案したクロスドメインマルチビュー登録ベンチマークにおいても優れたゼロショット性能を示した。
- ビュー数，シーンのスケール，センサーの種類に関わらず，高い汎化性能を発揮する。
Link: https://arxiv.org/abs/2512.01850
Colon-X：臨床推論に向けた知能大腸内視鏡の発展 [eess.SY, cs.SY, cs.CV]目的：大腸内視鏡におけるマルチモーダル知能の進歩
- 大腸癌は依然として主要な死因であり，早期発見が重要である。
- 内視鏡検査の精度は医師の経験に依存し，判断のばらつきが生じやすい。
- マルチモーダルな情報に基づいた臨床推論能力の向上を目指す。
- ColonVQAという，臨床所見76項目，マルチモーダルタスク18種類を含む大規模データセットを構築した。
- 既存のマルチモーダル大規模言語モデルの信頼性は低く，頑健性に課題があることが示された。
- 報酬情報の崩壊を抑制するColonR1モデルを開発し，データ不足下で高い推論精度を達成した。
Link: https://arxiv.org/abs/2512.03667
あなたのFederated CLIPはどの程度誤って校正されているか，そしてその対処法は？ [cs.RO, cs.SY, eess.SY, cs.CV]目的：Federated Learning環境下におけるCLIPの校正度に関する調査と改善策
- 画像とテキストの理解を両立するモデルは，多様な応用において重要性が増している。
- CLIPのようなモデルの校正度は十分には研究されておらず，信頼性の高い予測が課題となっている。
- 分散学習環境下におけるCLIPの校正度低下を防ぎ，信頼性を向上させることを目指す。
- Federated LearningによるTextual Prompt Tuningは，校正度を低下させることが示された。
- 既存の学習時校正技術は，複数の集約方法において限定的な改善しか示さなかった。
- LoRAを用いた$\text{FL}^2\text{oRA}$は，Federated Learning環境下でCLIPの校正度を効果的に改善することが確認された。
Link: https://arxiv.org/abs/2512.04305
ライブアバター：無限長のリアルタイム音声駆動アバター生成 [cs.CV]目的：リアルタイム音声駆動アバター生成の実現
- アバター技術は，コミュニケーションやエンターテインメントの新たな可能性を拓く重要な分野である。
- 既存の拡散モデルは，逐次的なノイズ除去と長期間におけるドリフトの問題を抱え，リアルタイムかつ無限長の生成が困難であった。
- 拡散モデルの効率化と安定化により，リアルタイムかつ無限長の音声駆動アバター生成を可能にすること。
- 提案手法Live Avatarは，140億パラメータの拡散モデルに対して，アルゴリズムとシステムの両面から最適化を施し，45 FPS，TTFF 1.21秒を達成した。
- 2段階パイプラインと長期間安定化戦略により，10000秒を超える安定した自己回帰生成を実現した。
- Timestep-forcing Pipeline Parallelism（TPP）により，逐次処理を非同期空間パイプラインに変換し，スループット向上と時間的一貫性を両立した。
Link: https://arxiv.org/abs/2512.04677
PaCo-RL：ペアワイズ報酬モデリングによる一貫性のある画像生成のための強化学習の発展 [cs.CV]目的：一貫性のある画像生成のための強化学習フレームワーク
- 物語作成やキャラクターデザインなどに応用可能であり，画像生成の重要な課題である。
- 大規模な一貫性のあるデータセットが不足しており，人間の視覚的嗜好のモデリングが困難である。
- データを用いずに複雑な視覚基準を学習することで，一貫性のある画像生成を可能にすること。
- PaCo-Rewardは，人間の視覚的一貫性に対する認識との整合性を著しく向上させる。
- PaCo-GRPOは，学習効率と安定性を向上させながら，最先端の一貫性性能を達成する。
- PaCo-RLは，一貫性のある画像生成のための実用的でスケーラブルなソリューションとして有望である。
Link: https://arxiv.org/abs/2512.04784
ShaRP：効率的なビデオ大規模言語モデルのための浅層プルーニング [cs.CV]目的：ビデオ大規模言語モデルにおける効率的な推論
- ビデオ大規模言語モデルは，多様なタスクで高い性能を示すが，計算コストが大きい。
- 浅層における注意機構のプルーニングは高速化に有効だが，圧縮率が高いと性能が低下しやすい。
- 浅層プルーニングにおける注意スコアの信頼性を高め，高い圧縮率でも性能維持を目指す。
- ShaRPは，局所情報集約の改善，位置バイアスの較正，冗長性の削減により，注意スコアの信頼性を回復する。
- その結果，元の性能の約97.2%を維持しつつ，TFLOPsを86%削減，および推論速度を5.1倍に向上させる。
- ShaRPは，トレーニングフリーでスケーラブルなVLLM推論ソリューションを提供する。
Link: https://arxiv.org/abs/2512.05385
NexusFlow: 可逆フローネットワークによる部分教師ありマルチタスク学習の統合 [cs.CV]目的：部分教師ありマルチタスク学習における知識の共有と活用
- データラベリングコスト削減が課題であり，未アノテーションデータ活用が重要。
- 構造が異なるタスク間の知識転移は困難であり，既存手法では対応が不十分。
- 異なる構造を持つタスク間でも知識転移を可能にする汎用的なフレームワークの構築。
- 提案手法NexusFlowは，可逆結合層を用いた代理ネットワークによりタスク間の潜在表現を整列。
- nuScenesデータセットにおいて，自動運転タスクで最先端の結果を達成。
- NYUv2データセットにおいても，セグメンテーション，深度推定など多様なタスクで性能向上を確認。
Link: https://arxiv.org/abs/2512.06251
単一動画からの合成データのみを用いた高精度関節オブジェクトモデリング：sim2art [cs.CV, cs.RO]目的：単眼動画からの関節オブジェクトの3Dパーツ分割と関節パラメータの復元
- ロボティクスやデジタルツイン構築において，関節オブジェクトの理解は不可欠な研究分野である。
- 既存手法は，複雑な多視点設定や高精度なオブジェクトスキャン，不安定な長期的点追跡に依存している。
- 単一の視点からの動画で，ロバストかつ現実的な3Dモデルを構築することを可能とする。
- 本研究では，フレームごとの表面点サンプリングとシーンフロー，DINOv3セマンティック特徴に基づく表現を提案した。
- sim2artは，合成データのみで学習することにより，現実世界の動画シーケンスに対して高い汎化性能を示す。
- 新しいデータセットを導入し，大規模なカメラモーションや複雑な関節運動にも対応可能であることを実証した。
Link: https://arxiv.org/abs/2512.07698
VLD：強化学習ナビゲーションのための視覚言語目標距離 [cs.RO, cs.CV]目的：視覚言語目標距離の学習
- ロボットナビゲーションは，実用化に向けて重要な技術である。多様な環境での自律的な移動を可能にする。
- 従来の強化学習は，シミュレーションと現実のギャップや，ラベル付きデータの不足が課題となる。
- 大規模データを用いた自己教師あり学習により，現実世界への適応性と学習効率の向上を目指す。
- VLD学習は，インターネット規模の動画データを用いて，目標までの距離を予測する自己教師あり学習モデルを構築する。
- 強化学習ポリシーは，シミュレーション環境で訓練され，VLD予測値を利用することで，実世界への転移性能が向上する。
- 提案手法は，既存のtemporal distanceアプローチ（ViNTやVIP）と比較して，ナビゲーション性能で優れている。
Link: https://arxiv.org/abs/2512.07976
画像と動画からの概念合成：コンセプト・プロンプト結合によるアプローチ [cs.CV, cs.AI, cs.MM]目的：画像と動画からの視覚概念の柔軟な合成
- 視覚情報処理の発展は，創造性や表現の可能性を広げる上で不可欠である。
- 複雑な視覚概念の正確な抽出と，画像・動画からの概念の柔軟な組み合わせが課題である。
- 画像と動画から概念を正確に抽出し，それらを組み合わせることで高質な視覚コンテンツの生成を目指す。
- 提案手法 Bind & Compose は，プロンプトトークンと視覚概念を結合し，Diffusion Transformers のクロスアテンション機構を活用することで，柔軟な概念合成を可能にする。
- 多様化と吸収メカニズムにより，概念と無関係な詳細の影響を排除し，コンセプト・トークンの結合精度を向上させる。
- 時間的解 disentanglement 戦略により，動画概念の学習を二段階に分け，時間的モデリングを強化することで，画像と動画の概念間の互換性を高める。
Link: https://arxiv.org/abs/2512.09824
自己内省学習による統一モデルにおける理屈に基づいた動画編集 [cs.CV]目的：理屈に基づいた動画編集能力の向上
- 動画理解と生成の分野は進展しているが，高度な編集には推論能力が不可欠である。
- 既存のデータセットでは，推論を意識した動画編集の学習・評価が不十分である。
- モデルの推論と編集能力の乖離を解消し，推論に基づいた編集を可能にすること。
- 提案手法ReViSEは，モデル内部のVLMを活用して生成結果を自己評価・改善する。
- ReViSEは外部の評価者（critic）に依存せず，微分可能なフィードバックによって推論能力を向上させる。
- RAVEサブセットにおいて，ReViSEは微調整されたモデルを10%上回るスコアを達成し，有効性を示す。
Link: https://arxiv.org/abs/2512.09924
エコーコパイロット：信頼性の高い心エコー解釈のための多視点エージェントフレームワーク [cs.AI, cs.CV, cs.LG, eess.IV]目的：心エコー解釈の信頼性向上
- 心エコーは非侵襲的検査であり，心疾患診断に不可欠である。迅速かつ正確な解釈が求められている。
- 既存の基盤モデルは部分的なタスクに特化しており，ノイズや臨床的閾値付近の値に対して脆弱である。
- 多視点なアプローチと知識グラフを活用し，測定選択の誤りを減らし，解釈の一貫性を高める。
- Echo-CoPilotは，構造的，病理学的，定量的という3つの独立したReActエージェントを活用することで，心エコー解釈を多角的に行う。
- MIMICEchoQAデータセットにおいて，既存の最先端モデルと比較して高い精度を示した。
- 反復実行における結論の一貫性が高く，回答の変動が少ないことから，信頼性が高いことが示された。
Link: https://arxiv.org/abs/2512.09944
無限と超越：VARおよび拡散T2Iモデルにおける構成的アライメント [cs.DB, cs.CV]目的：テキスト記述と生成画像の構成的アライメントの評価
- 画像生成AIの発展に伴い，テキストと画像の整合性が重要課題となっている。
- 既存モデルでは，オブジェクト，属性，空間関係の複雑な指示への対応が不十分である。
- VARモデルと拡散モデルのアライメント性能を比較し，今後の開発の基盤を確立する。
- Infinity-8BがT2I-CompBench++とGenEvalの両ベンチマークで最も高い構成的アライメントを示した。
- Infinity-2Bは，いくつかのカテゴリでより大規模な拡散モデルと同等またはそれ以上の性能を発揮し，効率と性能のトレードオフが良い。
- SDXLとPixArt-$\alpha$は，属性や空間に関するタスクで一貫した弱点が見られた。
Link: https://arxiv.org/abs/2512.11542
MatAnyone 2：学習された品質評価器による動画マッティングのスケール拡大 [cs.CV]目的：動画マッティングのスケール拡大と品質向上
- 動画マッティングは，映像制作や画像編集において重要な役割を果たす技術である。
- 既存のデータセットの規模やリアリティが不十分であり，境界の精緻な表現が課題である。
- 学習された品質評価器を用いて，データセットの質を向上させ，高品質なマッティングを実現する。
- 学習されたマッティング品質評価器（MQE）は，グランドトゥルースなしでアルファマッティングの品質を評価する。
- MQEを用いたオンライン学習とデータキュレーションにより，大規模な動画マッティングデータセットVMRealを構築した。
- MatAnyone 2は，既存の手法を上回り，合成データと実世界データの両方で最先端の性能を達成した。
Link: https://arxiv.org/abs/2512.11782
ストーリーボードに基づいた映画的マルチショット物語生成手法STAGE [cs.IR, cs.CV]目的：映画的なマルチショット物語の生成
- 動画生成技術の発展は目覚ましいが，一貫性のある物語を生成することが課題である。
- 既存手法では，ショット間の整合性や映画的な表現の獲得が難しい。
- ストーリーボードを利用し，長期的な一貫性と映画的なトランジションを実現する。
- 提案手法STAGEは，ストーリーボードを基盤として，マルチショット動画生成を行う新しいワークフローである。
- ショット間のエンティティの一貫性を保つマルチショットメモリパックや，ショット内の一貫性を高める二重エンコーディング戦略を採用している。
- 大規模データセットConStoryBoardを用いた実験により，STAGEが構造化された物語制御とショット間の整合性において優れた性能を発揮することが示された。
Link: https://arxiv.org/abs/2512.12372
粒子から場へ：連続ガウス光子場による光子マッピングの再構築 [cs.CV, cs.GR]目的：複数視点におけるレンダリング効率の向上
- リアリスティックな画像合成には，正確な光輸送モデルが不可欠である。
- 従来の光子マッピングは，多視点レンダリングにおいて計算効率が低い。
- 光子分布を連続場として表現し，計算量を削減することを目指す。
- 提案手法であるガウス光子場（GPF）は，光子分布を3Dガウス素子として表現する。
- GPFは初期に物理的に追跡された光子から初期化され，多視点からの教師データで最適化される。
- 実験により，GPFは光子レベルの精度を維持しつつ，計算量を大幅に削減できることが示された。
Link: https://arxiv.org/abs/2512.12459
舞台設定：テキスト駆動によるシーン整合性のある画像生成 [cs.CV]目的：シーン整合性のある画像生成
- 画像生成技術は，多様な応用分野で重要であり，その発展が期待されている。
- 既存手法は，高品質なペアデータ不足と制約のない生成目標により，課題を抱えている。
- 高品質な学習データを生成し，シーンとの整合性を高める新たな手法を開発すること。
- 本研究では，実写写真，エンティティ除去，画像から動画への拡散モデルを組み合わせたデータ構築パイプラインを提案した。
- また，クロスビューの情報を活用する対応誘導型注意損失を導入し，空間的な位置合わせを強化した。
- 実験結果から，提案手法は最先端の手法と比較して，シーンとテキストの整合性が向上することが示された。
Link: https://arxiv.org/abs/2512.12598
クエリ畳み込みニューラルネットワークを用いた高忠実度ガウススプラッティング [cs.CV, cs.GR, cs.LG]目的：新規視点合成における高忠実度再構成
- 近年，新しい視点からの画像生成技術が重要視されており，その性能向上が求められている。
- ガウススプラッティングは高速だが，既存のハイレベルなレンダリングモデルに比べて再構成の忠実度が低い。
- クエリと近傍情報を活用することで，ガウススプラッティングの再構成精度を向上させることを目指す。
- 提案手法であるクエリ畳み込み（Qonvolution）をガウススプラッティングに組み込むことで，最先端の新規視点合成を実現した。
- 実世界データセットにおいて，Qonvolutionニューラルネットワーク（QNN）はZip-NeRFをも上回る画像忠実度を達成した。
- QNNは，1次元回帰，2次元回帰，2次元超解像といった他のタスクにおいても性能向上を示した。
Link: https://arxiv.org/abs/2512.12898
逐次4D再構成のための層別スケールアラインメント (LASER) [cs.CV]目的：学習を必要としない逐次4D再構成手法
- 大規模なストリーミング映像の処理は重要であり，リアルタイム応用への道を開く。
- 既存のストリーミング手法は再学習が必要であり，オフラインモデルの性能を十分に活用できていない。
- オフライン再構成モデルをストリーミングシステムに変換し，メモリ効率と精度を両立することを目指す。
- LASERは，既存のオフライン再構成モデルを学習なしでストリーミング処理に変換するフレームワークである。
- 層別スケールアラインメントにより，異なる時間窓間での層の深さスケールの不整合を解消する。
- カメラ姿勢推定と点群再構成において，最先端の性能を達成し，実用的なキロメートル規模のストリーミング映像処理を可能にする。
Link: https://arxiv.org/abs/2512.13680
強度とモノデプスを用いたカメラLiDARアライメント [cs.RO, cs.CV]目的：カメラとLiDARデータの正確なアライメント
- 自動運転やロボティクスにおいて，周囲環境の正確な把握が不可欠であるため。
- 既存手法は，データ処理や特徴抽出に手間がかかり，汎用性に欠ける場合がある。
- 複雑な前処理を必要とせず，多様な環境に適応可能なアライメント手法を開発すること。
- 提案手法CLAIMは，画像とLiDAR点群を用いて，粗探索から微調整を行うことで最適な変換行列を推定する。
- パッチごとのピアソン相関に基づく構造損失と，相互情報に基づくテクスチャ損失を最小化する。
- KITTI，Waymo，MIAS-LCECデータセットでの実験により，既存手法よりも優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2512.14001
PuzzleCraft：視覚言語モデルにおけるパズルベースのRLVRのための探索を意識したカリキュラム学習 [cs.CV]目的：視覚言語モデルにおけるパズルベースの強化学習による検証可能な報酬（RLVR）のスケーラビリティ向上
- 視覚言語モデルの推論能力向上は，画像とテキストを理解するAI開発の重要な課題である。
- 従来のRLVRは，高コストな教師データや外部検証者に依存し，視覚領域でのスケーリングが困難である。
- 本研究は，探索を考慮したカリキュラム学習を用いて，パズルベースRLVRのスケーラビリティと性能を改善する。
- PuzzleCraftは，パッチマッチング，回転，ジグソーパズルの3種類の軽量パズル環境を提供する。
- 難易度と解空間の分散に基づく探索信号を組み合わせたカリキュラム学習により，ロールアウトのダイナミクス崩壊を抑制する。
- 提案する推論-回答一貫性（RAC）指標を用いて，推論と回答の整合性を評価し，改善することに成功した。
Link: https://arxiv.org/abs/2512.14944
マスク着用顔検出・認識のための二段階データ拡張：偽のマスクを本物へ [cs.CV, cs.LG]目的：マスク着用顔検出・認識におけるデータ拡張手法の開発
- 顔認識技術は，セキュリティ，監視，認証など幅広い分野で重要であり，その精度向上は社会的なニーズに応える。
- マスク着用顔のデータセットが不足しており，マスク着用時の顔認識精度の低下が課題となっている。
- 大規模なマスク着用顔データセットの不足を補い，マスク着用時の顔認識精度向上を目指す。
- ルールベースのマスク変形とGANによる画像変換を組み合わせた二段階のデータ拡張フレームワークを提案した。
- 提案手法は，ルールベースの変形のみの場合と比較して，一貫した性能向上を示した。
- マスク領域の歪みを抑制するための損失関数と，サンプル多様性を向上させるためのノイズ注入が有効であることを確認した。
Link: https://arxiv.org/abs/2512.15774
ARMFlow：オンライン3D人間反応生成のための自己回帰平均フロー [cs.CV]目的：3D人間反応生成における高精度，リアルタイム推論，および自己回帰的適応性の実現
- 人間と環境のインタラクションを理解する上で，リアルな3D人間モーションの生成は不可欠である。
- 既存手法では，高精度，リアルタイム性，自己回帰性を同時に満たすことが困難である。
- オンライン環境において，高精度かつ低遅延な3D人間反応生成を可能にすること。
- 提案手法ARMFlowは，MeanFlowを基盤とした自己回帰フレームワークであり，ActorとReactorのモーション間の時間的依存関係をモデル化する。
- Bootstrap Contextual Encoding (BSCE) を導入することで，自己回帰生成における誤差の蓄積を軽減している。
- オンライン生成において，既存手法と比較してFIDスコアで約30%の改善を達成し，オフライン最先端手法と同等の性能を示した。
Link: https://arxiv.org/abs/2512.16234
GMODiff：拡散事前知識を用いたワンステップゲインマップ改良によるHDR再構成 [cs.CV]目的：多露光HDR再構成のためのゲインマップ推定
- 高ダイナミックレンジ画像は，現実世界の視覚情報を忠実に再現する上で不可欠である。
- 既存手法は，計算コストが高い，あるいは再構成された画像に歪みが生じやすいという課題がある。
- 拡散モデルと回帰モデルの利点を組み合わせ，高速かつ高品質なHDR再構成を実現する。
- GMODiffは，従来の拡散モデルベースの手法と比較して，100倍高速にHDR再構成を達成した。
- ゲインマップを推定することで，HDRのダイナミックレンジを効率的に表現し，計算コストを削減した。
- 回帰モデルによる事前知識の活用により，内容のハルシネーションを抑制し，構造の正確性を維持した。
Link: https://arxiv.org/abs/2512.16357
学習不要な4D LiDARパノラマセグメンテーションのためのグローバル幾何学的関連付け [cs.CV, cs.AI]目的：4D LiDARパノラマセグメンテーションにおけるグローバル幾何学的関連付け手法
- 自動運転やロボティクスにおいて，周囲環境の正確な理解は不可欠である。LiDARは3次元点群を取得し，その理解に役立つ。
- 従来のLiDARセグメンテーションは，大規模な点群を処理する計算コストが高い。また，点群の幾何学的情報を十分に活用できていない。
- 本研究では，学習を必要とせず，点群の幾何学的情報を活用することで，効率的かつ高精度なパノラマセグメンテーションを実現する。
- 提案手法Geo-4Dは，空間的・時間的推論を統合し，長期にわたるLiDAR認識を可能にする。
- インスタンスレベル点群間の最適変換を推定するグローバル幾何学的関連付け戦略により，一貫性のあるインスタンス対応付けを実現。
- SemanticKITTIとnuScenesにおける実験の結果，既存手法を上回る性能を示し，学習データや追加点群入力も不要である。
Link: https://arxiv.org/abs/2512.18991
SoliReward：ビデオ生成報酬モデルにおける報酬ハッキングとアノテーションノイズへの脆弱性軽減 [eess.SY, cs.SY, cs.LG, cs.CV]目的：ビデオ生成報酬モデルの訓練のための体系的な枠組み
- ビデオ生成モデルと人間の嗜好の一致は重要であり，報酬モデルはその鍵となる。
- 既存のデータ収集法はノイズが多く，報酬モデルの設計は未開拓な点が多い。
- 報酬ハッキングへの脆弱性を軽減し，より堅牢な報酬モデルを構築すること。
- SoliRewardは，単一アイテムのバイナリ注釈による高品質なデータ収集と，クロスプロンプトペアリング戦略を用いる。
- 階層型漸進的クエリ注意機構を導入し，特徴量集約を強化することで，モデルの性能を向上させた。
- BT損失を修正し，win-tieシナリオに対応することで，報酬分布の正規化を実現し，過剰なスコアリングを抑制した。
Link: https://arxiv.org/abs/2512.22170
MSSSeg：自己教師ありセグメンテーションのための多段階構造複雑性の学習 [cs.CV]目的：自己教師ありセグメンテーションにおける構造的誤りの軽減
- 画像解析において，対象物の正確な区別や領域の維持は不可欠である。
- 自己教師ありセグメンテーションは，低レベルな特徴に依存しやすく，構造的な識別が困難である。
- 外観の特徴が曖昧でも，多段階構造複雑性を明示的にモデル化することを目指す。
- MSSSegは，セマンティックおよび深度情報から多段階構造複雑性を学習するフレームワークである。
- DBCモジュール，StructAug，PHLossの3つの要素を組み合わせることで，構造的な特徴を効果的に捉える。
- COCO-Stuff-27，Cityscapes，Potsdamにおいて，最先端の性能を達成し，構造複雑性の学習が重要であることを示した。
Link: https://arxiv.org/abs/2512.23997
CTCベース多言語音声認識のための言語非依存階層型LoRA-MoEアーキテクチャ [cs.RO, cs.CL, cs.SD, eess.AS]目的：多言語音声認識システムにおける効率的なリソース利用
- 大規模な多言語音声認識モデルは高性能だが，計算コストが高い。
- エッジデバイス等のリソース制約環境での利用が課題となっている。
- 言語非依存な軽量化アーキテクチャによる効率改善を目指す。
- 提案手法HLoRAは，既存の二段階推論アプローチと同等の性能を達成した。
- HLoRAはMSR-86KとMLC-SLM 2025 Challengeデータセットにおいて，RTFをそれぞれ11.7%と8.2%削減した。
- 低リソース環境における多言語音声認識の効率的なデコードを可能にする。
Link: https://arxiv.org/abs/2601.00557
一人称視点動画からの世界空間における手物体インタラクション推定：EgoGrasp [cs.CV, cs.AI, cs.GR]目的：世界空間における手物体インタラクションの再構成
- 具現化された知能を実現する上で，手物体インタラクションの正確な推定は不可欠である。
- 既存手法は局所座標系や単一フレームに限定され，時間的なダイナミクスを捉えきれていない。
- 多様な物体に対応し，計算コストを抑えつつ，遮蔽に強いロバストな推定を目指す。
- EgoGraspは，既存手法を上回る性能で世界空間における手物体インタラクションの再構成を実現した。
- 視覚基盤モデルを活用した前処理パイプラインと，拡散モデルによる手と物体の姿勢推定を組み合わせることで，高い精度と安定性を実現した。
- 複数物体やオープンボキャブラリに対応し，遮蔽に対してもロバストな推定が可能である。
Link: https://arxiv.org/abs/2601.01050
V-CORE：ビデオLLMのための時間的一貫性のある動画理解 [cs.CV]目的：動画理解における時間的一貫性の確保
- 動画LLMはマルチモーダル推論能力が高いが，時間的順序や因果関係の理解が課題。
- 既存手法は双方向プロジェクターを用いるため，時間的順序が曖昧になる可能性がある。
- 時間的制約を明示的に導入することで，因果関係に基づいた正確な動画理解を目指す。
- V-COREは，学習可能な空間集約と因果性を考慮した時間的プロジェクターにより，時間的順序を明示的に制約する。
- NExT-QAベンチマークで61.2%の精度を達成し，MSVD-QA，MSRVTT-QA，TGIF-QAでも競争力のある性能を示した。
- 特に時間的・因果的推論のサブカテゴリにおいて，明らかな性能向上が見られた（それぞれ+3.5%，+5.2%）。
Link: https://arxiv.org/abs/2601.01804