arXiv雑要約

画像・音声 - 2025/12/17 公開

アンカーHOI：アンカーベースの事前知識蒸留によるゼロショット4D人間オブジェクト相互作用生成 [cs.CV]目的：4D人間オブジェクト相互作用（HOI）のゼロショット生成
- 人間とオブジェクトの相互作用の理解は，ロボット工学やコンピュータビジョンの発展に不可欠である。
- 大規模な4D HOIデータセットが不足しており，教師あり学習によるスケーラビリティが制限されている。
- 相互作用の合成分解を効果的に学習し，多様なシナリオでの生成能力を高めることを目指す。
- AnchorHOIは，画像拡散モデルに加え，ビデオ拡散モデルを活用することで，より効果的な4D HOI生成を実現した。
- アンカーベースの事前知識蒸留戦略により，高次元の4D HOIの最適化を効率的に行い，人間ポーズと合成運動の生成を改善した。
- 実験結果から，AnchorHOIは既存手法を上回り，優れた多様性と汎化性能を示すことが明らかになった。
Link: https://arxiv.org/abs/2512.14095
拡散Transformer加速のための最適化ガイダンススケジューリングと適応キャッシュ [cs.CV]目的：拡散モデルの計算効率向上
- 高品質な画像生成において，拡散モデルが主流であり，その計算コストが課題となっている。
- Classifier-Free Guidance (CFG)は品質向上に貢献するが，計算量も増加するという問題がある。
- ガイダンススケールの調整と適応キャッシュにより，計算量を削減しつつ品質を維持することを目指す。
- OUSACは，ガイダンススケールを変動させることで，不要なCFGパスを削減し，計算量を最大82%削減可能であることを示した。
- Transformerブロックごとにキャッシュ戦略を適応させることで，変動するガイダンススケール下でもキャッシュの効果を維持した。
- DiT-XL/2 (ImageNet 512x512)では53%の計算量削減と15%の品質向上，PixArt-alpha (MSCOCO)では60%の削減と16.1%の品質向上を達成した。
Link: https://arxiv.org/abs/2512.14096
ViewMask-1-to-3: マルチモーダル拡散モデルによる多視点一貫性のある画像生成 [cs.CV]目的：単一画像とテキスト記述からの多視点画像生成
- 視覚情報の理解や生成において，多視点からのデータ活用は重要性が増している。
- 異なる視点間で幾何学的な一貫性を保つことが難しく，高品質な多視点画像生成の課題となっている。
- 複雑な3D幾何学的制約や特殊な注意機構を用いずに，多視点画像生成を可能にすること。
- ViewMask-1-to-3は，離散拡散モデルを多視点画像生成に応用する新しいアプローチを提案する。
- 本手法は，言語と視覚をマスクされたトークン予測によって統合し，反復的なトークンアンマスクによって複数視点を生成する。
- GSOおよび3D-FUTUREデータセットにおいて，PSNR，SSIM，LPIPSの平均で最高の結果を達成し，単純なアーキテクチャを維持している。
Link: https://arxiv.org/abs/2512.14099
リモートセンシング画像検索のためのファウンデーションモデルにおけるニューロシンボリック推論：複雑なクエリへの対応 [cs.CV, cs.AI, cs.IR]目的：リモートセンシング画像のテキスト-画像検索における複雑なクエリへの対応
- リモートセンシング技術は，環境モニタリングや災害対応など，多岐にわたる分野で不可欠である。
- 既存のリモートセンシング画像検索システムは，複雑な空間関係の理解や説明可能性に課題がある。
- ニューロシンボリック推論を用いて，複雑なクエリに対応し，説明可能性の高い画像検索を実現すること。
- 提案手法RUNEは，大規模言語モデル(LLM)とニューロシンボリックAIを組み合わせ，テキストクエリから得られた一階述語論理式を用いて画像検索を行う。
- RUNEは，既存の共同埋め込みモデルと比較して，複雑なクエリに対する検索性能，堅牢性，説明可能性において優れている。
- DOTAデータセットを拡張し，より複雑なクエリを用いて評価した結果，LLMによるテキスト-論理変換の有効性が確認された。
Link: https://arxiv.org/abs/2512.14102
カンファレンス査読を救うインパクト市場：普及と資格付与の分離 [cs.GT, cs.AR, cs.CY, cs.PL]目的：学術カンファレンスの査読システムにおける問題解決と，新たな評価メカニズムの提案
- 学術研究の進展には，迅速な情報公開と質の高い研究の評価が不可欠である。
- 既存の査読システムは，主観性や縄張り争いにより，優れた研究が埋もれる課題がある。
- インパクト市場は，透明性と説明責任のある市場メカニズムを導入し，質の高い研究を適切に評価することを目指す。
- インパクト市場は，論文の公開と評価を分離することで，すべての質の高い研究の発表を保証する。
- 将来予測市場と3年間の振り返りメカニズムを組み合わせることで，透明性の高い評価指標を確立する。
- シミュレーションにより，インパクト市場が既存システムよりも高インパクト論文の回収率を大幅に向上させることが示された。
Link: https://arxiv.org/abs/2512.14104
事前学習済みCLIPにおける選択的，制御されたドメイン非依存的なアンラーニング：学習・データフリーアプローチ [cs.CV]目的：事前学習済みモデルからの特定の物体クラスの知識除去
- 画像認識技術は多岐にわたり，その応用範囲は広い。そのため，モデルの柔軟な改変が求められる。
- 特定のクラスを削除する際，追加データや再学習が必要となり，他のタスクへの影響が懸念される。
- 追加データや再学習なしに，選択的かつ制御された知識除去を実現し，モデルの汎化性能を維持すること。
- 本研究では，マルチモーダル零空間を利用し，テキストプロンプトと合成された視覚プロトタイプを統合することで効率的な知識除去を実現した。
- 提案手法は，グローバルなアンラーニング，ドメイン特化的な知識除去，選択的ドメインにおける完全なアンラーニングを可能にする。
- 既存の再学習ベースの手法と比較し，計算効率が高く，柔軟なモデルの忘却を可能にする。
Link: https://arxiv.org/abs/2512.14113
MFE-GAN：多重スケール特徴抽出を用いたドキュメント画像改善および二値化のための効率的なGANベースフレームワーク [cs.CV]目的：ドキュメント画像改善と二値化のためのフレームワーク
- ドキュメント解析・認識の精度向上に不可欠であり，OCRシステム全体の効率化に繋がる。
- 劣化ドキュメントの直接認識は性能が低く，特にカラー画像では顕著である。
- 複数GANの利用による処理時間増加を解決し，効率的なドキュメント画像処理を実現する。
- 提案手法MFE-GANは，多重スケール特徴抽出により学習・推論時間を大幅に短縮した。
- Benchmark，Nabuco，CMATERdbデータセットで，最先端手法と同等の性能を維持している。
- Haarウェーブレット変換と正規化を導入し，GANへの入力前処理を効率化している。
Link: https://arxiv.org/abs/2512.14114
ロバストな音声ターム検出とキーワードスポッティングのための共同マルチモーダルコントラスト学習 [cs.SD, cs.LG]目的：音声ターム検出とキーワードスポッティングにおけるロバスト性の向上
- 音声認識技術は，音声データの効率的な検索と利用に不可欠であり，その重要性は増している。
- 既存手法は，単一のモダリティからの学習や，音声とテキストの整合性の最適化が不十分である。
- 音声とテキストの表現を統合し，音声間の識別能力を高めることで，よりロバストなシステムを構築する。
- 提案手法は，CLAP lossに着想を得た音声-テキストコントラスト学習と，DWD lossを用いた音声-音声コントラスト学習を同時に最適化する。
- 単語識別タスクにおいて，既存のAWEベースラインを上回り，STDとKWSの両方を柔軟にサポートする。
- 本研究は，この種の包括的なアプローチとして初めての試みである。
Link: https://arxiv.org/abs/2512.14115
SportsGPT：LLM駆動による解釈可能なスポーツモーション評価とトレーニングガイダンスのフレームワーク [cs.CL, cs.CV, cs.AI]目的：スポーツモーションの解釈可能な評価とトレーニングガイダンス
- スポーツ科学の発展には，客観的かつ詳細なパフォーマンス分析が不可欠である。
- 既存システムは，スコアリングや可視化に偏重し，詳細な診断や個別指導に欠ける場合が多い。
- LLMとモーション解析技術を用いて，自動診断と的確なトレーニングガイダンスを提供すること。
- 提案手法MotionDTWは，従来の方式と比較して時間誤差が少なく，IoUスコアが高いことが示された。
- KISMAMとSportsRAGのアブレーションスタディにより，SportsGPTが汎用的なLLMよりも診断精度と専門性が高いことが確認された。
- モーションデータから専門的なトレーニングガイダンスを生成する閉ループシステムが実現された。
Link: https://arxiv.org/abs/2512.14121
動的シーン理解のための整合性のあるインスタンス場 [cs.CV]目的：動的シーン理解のための連続的かつ確率的な時空間表現
- 現実世界の理解には，変化するシーン中の物体を正確に認識することが不可欠である。
- 従来の追跡手法は，離散的な追跡や視点依存的な特徴に依存し，ロバスト性に課題がある。
- 視認性と持続的な物体同一性を分離し，時空間全体で整合性のあるインスタンス表現を実現する。
- 提案手法は，変形可能な3Dガウスに基づく新しいインスタンス埋め込み表現を用いる。
- この表現は，放射輝度と意味情報を同時に符号化し，RGB画像とインスタンスマスクから直接学習される。
- HyperNeRFとNeu3Dデータセットでの実験により，新規視点パノラマセグメンテーションと4Dクエリにおいて，最先端手法を大幅に上回る性能が示された。
Link: https://arxiv.org/abs/2512.14126
AnimaMimic：ビデオ事前情報からの3Dアニメーション模倣 [cs.GR]目的：ビデオ拡散モデルから学習したモーション事前情報を用いた3Dメッシュのアニメーション生成
- リアルな3Dアニメーション制作は専門知識と時間を要する分野であり，その効率化が求められている。
- ビデオ拡散モデルは2Dモーション生成に優れるが，3D構造の情報がなく，アニメーションやシミュレーションに直接利用できない。
- ビデオ拡散モデルの創造性と3Dアニメーションの構造的制御を融合し，物理的に妥当なモーション生成を目指す。
- AnimaMimicは，入力メッシュから単眼アニメーションビデオを合成し，自動的にスケルトンとスキニングウェイトを構築する。
- 微分可能なレンダリングとビデオによる監視を通じて，関節パラメータを洗練させ，物理ベースのソフトティッシュダイナミクスを統合し，リアリズムを高める。
- 生成されたモーションは，標準的なアニメーションパイプラインにシームレスに統合可能で，アーティストによる編集も容易である。
Link: https://arxiv.org/abs/2512.14133
CLIPモデルの記憶消去：非破壊的，データフリーなゼロショットクラスアンラーニング [eess.SY, cs.SY, cs.CV]目的：CLIPモデルにおける選択的アンラーニング手法
- マルチモーダルモデルの普及に伴い，モデルの知識編集の重要性が高まっている。
- 既存のアンラーニング手法は，再学習やデータ収集にコストがかかるという課題がある。
- 学習済みモデルから特定のクラスの情報を，再学習やデータなしで効率的に削除すること。
- 本研究では，最終投影層におけるNull空間投影を利用し，ターゲットクラス情報を非破壊的に消去する手法を提案。
- ターゲットクラスのテキスト埋め込みが張る部分空間への射影によって，画像特徴と不要なクラスの間のアライメントを大幅に減少させる。
- 部分射影によって，完全なアンラーニングと有用な情報の保持とのバランスを取ることが可能となり，モデル汚染対策とプライバシー保護に貢献する。
Link: https://arxiv.org/abs/2512.14137
SketchAssist：意味編集と正確な局所再描画のための実用的なアシスタント [cs.CV]目的：デジタルイラストレーションにおけるスケッチ編集の効率化
- デジタルイラストレーションの重要な要素であり，効率的な編集支援の必要性が高まっている。
- 既存の画像編集システムでは，線画の構造維持と高レベルな編集・局所修正を両立することが困難である。
- 指示に基づいた大域的な編集と線に基づいた局所的な再描画を統合し，効率的なスケッチ編集を実現する。
- SketchAssistは，指示と線画ガイドを統合することで，編集作業を加速させ，全体の構成を維持しつつ，関係のない領域への影響を最小限に抑える。
- 制御可能なデータ生成パイプラインと，DiTベースのエディタへの最小限の変更により，大規模なスケールでのアシスタント機能を実現している。
- 実験の結果，最新のベースラインと比較して，指示の遵守性，スタイルと構造の維持において，最先端の結果が得られた。
Link: https://arxiv.org/abs/2512.14140
TorchTraceAP: コンピュータビジョンモデルにおけるパフォーマンス反パターンの検出のための新しいベンチマークデータセット [cs.CV, cs.AI]目的：コンピュータビジョンモデルにおけるパフォーマンス反パターン検出能力の評価と改善
- 機械学習モデルの効率的な学習と推論には，パフォーマンス反パターンの特定と修正が不可欠である。
- 長時間の実行トレースから問題のあるセグメントを特定することは困難であり，自動化が難しい。
- 機械学習モデルを用いた反パターン検出能力を評価するためのベンチマークデータセットを構築し，検出手法を改善する。
- 提案手法は，教師なしクラスタリングやルールベースの手法と比較して，反パターン領域の検出において大幅に優れた性能を示した。
- 軽量な機械学習モデルが反パターンを含むトレースセグメントを検出し，その後，大規模言語モデルが詳細な分類とフィードバックを行うことで，効果的な検出を実現した。
- 本手法は，大規模言語モデルのコンテキスト長制限や推論の非効率性を補償できることが示された。
Link: https://arxiv.org/abs/2512.14141
画像を用いた医療画像解析におけるツール支援思考のインセンティブ設計 [cs.AR, cs.PF, cs.AI, cs.CV]目的：医療画像解析におけるツール支援思考のインセンティブ設計
- 医療画像解析は，病気の早期発見や正確な診断に不可欠であり，医療の質向上に貢献する重要な分野である。
- 既存の医療画像解析AIは，複雑なタスクにおいて，視覚的な領域への動的な集中と精密な根拠付けに課題がある。
- 本研究は，ツールとAIを統合し，より高度な推論能力を持つ医療AIエージェントの実現を目指す。
- 本研究で開発したOphiuchusは，必要な時に追加の視覚的証拠を決定し，医療画像内の適切な箇所を探索・根拠付けする能力を持つ。
- Ophiuchusは，既存の最先端技術と比較して，VQA，検出，推論に基づくセグメンテーションなど，多様な医療ベンチマークで一貫して高い性能を示した。
- 本研究は，ツールと統合された推論を通じて，「画像で思考する」医療AIエージェントへの道を照らすものである。
Link: https://arxiv.org/abs/2512.14157
リアルワールドにおける物体検出に対する連続的相互作用空間に基づくバックドア攻撃CIS-BA [cs.CV, cs.CR]目的：リアルワールドにおける物体検出に対するバックドア攻撃手法の開発
- 自動運転などの実用システムでは，物体検出モデルのセキュリティ確保が不可欠である。
- 従来のバックドア攻撃は，単一のトリガーと物体に依存し，堅牢性に課題があった。
- 物体間の相互作用に着目し，より複雑で堅牢なバックドア攻撃を可能にすること。
- CIS-BAは，物体間の連続的な相互作用パターンを利用する新たなバックドア攻撃パラダイムを提案する。
- MS-COCOおよび実世界動画における実験で，97%以上の攻撃成功率と95%以上の有効性が確認された。
- CIS-BAは既存の防御策を回避し，物体検出システムのセキュリティに対する新たな知見を提供する。
Link: https://arxiv.org/abs/2512.14158
FastDDHPose: 統一的，効率的，かつ分離された3D人体姿勢推定に向けて [cs.CE, cs.CV]目的：3D人体姿勢推定のための，拡散モデルに基づく分離されたアプローチの開発
- 3D人体姿勢推定は，VR/AR，ロボティクス，モーションキャプチャなど，多様な応用分野で重要性を増している。
- 既存手法は，評価枠組みが異なり，公平な比較が困難である。また，学習効率も課題となっている。
- 統一的なフレームワークを構築し，公平な比較と学習効率の向上を目指す。
- Fast3DHPEフレームワークは，既存手法の公平な比較を可能にし，学習効率を大幅に向上させる。
- FastDDHPoseは，骨の長さと方向を明示的にモデル化し，階層的な誤差の蓄積を抑制する。
- Human3.6MとMPI-INF-3DHPにおける実験により，FastDDHPoseが最先端の性能を示すことが確認された。
Link: https://arxiv.org/abs/2512.14162
LVLMにおける意味的不確実性定量化の改善：意味ガウス過程によるアプローチ [cs.AR, eess.SY, cs.SY, cs.CV]目的：大規模ビジョン言語モデルにおける意味的不確実性の定量化
- 大規模言語モデルの信頼性確保は重要であり，不確実性の推定は不可欠である。
- 既存手法は，フレーズのわずかな変化に弱く，意味的に類似した回答のグルーピングが不正確になりやすい。
- 回答埋め込みの幾何学的構造を解析し，脆弱なクラスタリングを回避することで，より信頼性の高い不確実性推定を目指す。
- 提案手法SGPUは，回答埋め込みのスペクトル表現を利用し，意味的な一貫性のパターンを学習することで，予測不確実性を定量化する。
- 6つのLLMとLVLM，8つのデータセットにおいて，最先端のキャリブレーション性能（ECE）と識別性能（AUROC，AUARC）を達成した。
- SGPUはモデルやモダリティを超えて転移可能であり，意味的不確実性の一般的なパターンを捉えていることが示された。
Link: https://arxiv.org/abs/2512.14177
球面ボロノイ：微分可能な球面分割としての方向性外観 [cs.CV]目的：3Dガウススプラッティングにおける外観表現の統一的枠組み
- リアルな画像合成には，光の方向性に応じた正確な表現が不可欠である。
- 球面調和関数は高周波信号や鏡面反射の表現に課題があり，品質低下やアーチファクトが生じる。
- 球面ボロノイは，これらの課題を克服し，効率的かつ汎用的な外観モデルを提供する。
- 球面ボロノイは，方向性領域を学習可能な領域に分割することで，滑らかな境界を持つ表現を可能にする。
- 拡散反射に対しては，既存手法と同等の結果を得つつ，最適化の複雑さを軽減する。
- 鏡面反射においては，学習可能な反射プローブとして活用し，最先端の結果を達成した。
Link: https://arxiv.org/abs/2512.14180
ノイズデータからの周辺測定統合拡散による確率的物体モデルの確立 [cs.GR, cs.CV]目的：医療画像システムの評価における画像品質の定量化
- 医療画像診断の精度向上には，解剖学的変動を含むランダム性を考慮した評価が不可欠である。
- 従来の確率的物体モデルは現実的な解剖構造を捉えきれず，データ駆動型アプローチはクリーンなデータを必要とする。
- ノイズデータから直接クリーンな確率的物体モデルを確立し，信頼性の高い画像品質評価を実現すること。
- 提案手法AMIDは，周辺測定を拡散軌道に整合させ，測定ノイズと拡散ノイズの結合を明示的にモデル化する。
- CTおよびマンモグラフィの実際のデータセットを用いた実験により，AMIDが既存手法よりも生成忠実度で優れていることが示された。
- AMIDはタスクベースの画像品質評価の信頼性を向上させ，医療画像解析における潜在能力を示す。
Link: https://arxiv.org/abs/2512.14187
骨折形態分類：多ラベル複雑性に対する局所マルチクラスモデリング [cs.CV]目的：骨折形態の分類手法
- 小児の成長期における骨折は頻度が高く，正確な診断が重要である。
- 骨折の診断には骨折形態が重要な要素だが，その分類は複雑である。
- 骨折検出の精度が低い場合でも，実用的な分類を可能にすること。
- 提案手法により，既存の多ラベル分類タスクを局所的なマルチクラス分類に変換し，平均F1スコアを7.89%改善した。
- しかし，骨折検出器の精度が低い場合，性能が低下する課題が明らかになった。
- 本研究のコードはGitHubで公開されており，利用可能である。
Link: https://arxiv.org/abs/2512.14196
単一の光を超えて：変化する照明下での都市シーン再構成のための大規模航空データセット [cs.CV]目的：変化する照明下での都市シーン再構成のための大規模な航空データセット
- 都市の3Dモデルは，自動運転やメタバースなど，多様な分野で重要性が増している。
- 異なる時間帯で撮影された画像データでは，照明の変化による色や形状の不整合が問題となる。
- 照明変化に頑健な3D再構成手法の開発を促進するためのデータセットが求められている。
- 本研究では，都市部を異なる時間帯にわたって撮影した10万枚以上の高解像度航空画像から構成される大規模データセットSkyLumeを公開する。
- 各シーンにはLiDARスキャンと正確な3Dグラウンドトゥルースが付属しており，照明条件を変えた際の再構成品質を評価できる。
- また，時間的なアルベド安定性を評価する指標であるTemporal Consistency Coefficient (TCC) を導入した。
Link: https://arxiv.org/abs/2512.14200
深度符号化軌跡からロボットのデモンストレーション動画への変換: DRAW2ACT [cs.RO, cs.SY, eess.SY, cs.CV, cs.RO]目的：深度符号化軌跡を用いたロボットのデモンストレーション動画生成
- ロボットの具現化AIにおいて，現実世界をシミュレーションする能力が重要視されている。
- 既存手法は，2D軌跡や単一モダリティの条件付けに依存し，制御性と一貫性に課題がある。
- 深度情報を考慮し，複数の表現を用いて一貫性のあるロボットデモンストレーション動画の生成を目指す。
- DRAW2ACTは，軌跡から深度，意味，形状，動きを捉え，拡散モデルに注入する。
- RGBと深度動画を空間的に整合させながら生成し，視覚的な忠実性と一貫性を向上させる。
- 生成された動画を用いてロボットの関節角度を回帰するマルチモーダルポリシーモデルを導入し，操作成功率を向上させる。
Link: https://arxiv.org/abs/2512.14217
履歴強化型二段階Transformerによる航空視覚言語ナビゲーション [cs.CV, cs.RO]目的：航空視覚言語ナビゲーションにおける性能向上
- 都市環境における自律移動ロボットの実現に不可欠な技術であり，応用範囲が広い。
- 既存手法は，大域的な環境推論と局所的なシーン理解のバランスが課題であった。
- 粗から細かい段階的ナビゲーションにより，両者のバランス改善を目指す。
- 提案手法HETTは，空間ランドマークと過去の文脈を融合し，粗視的な目標位置を予測する。
- その後，詳細な視覚分析を通じて行動を洗練させ，ナビゲーション精度を向上させる。
- CityNavデータセットの注釈を修正し，データ品質を向上させたことも貢献の一つである。
Link: https://arxiv.org/abs/2512.14222
OmniGen：自律運転のための統一されたマルチモーダルセンサー生成 [cs.CY, cs.SI, cs.CV]目的：自律運転用マルチモーダルセンサーデータの生成
- 自律運転技術の発展には，大量の現実世界のデータが不可欠である。
- 多様なデータ，特に稀なケースのデータ収集はコストと時間がかかる。
- マルチモーダルセンサーデータのずれや非効率性を解消し，統一的な生成を目指す。
- OmniGenは，共有する鳥瞰視（BEV）空間を用いて，マルチモーダル特徴を統合する。
- UAE（Unified Multimodal Reconstruction）と呼ばれる新しい再構成手法により，LiDARとマルチビューカメラデータを共同でデコードする。
- 拡散TransformerとControlNetを用いて，制御可能なマルチモーダルセンサー生成を実現した。
Link: https://arxiv.org/abs/2512.14225
多視点MRIによる膠質芽腫患者におけるMGMTメチル化分類へのアプローチ [cs.CV]目的：膠質芽腫患者におけるMGMTメチル化状態の分類
- 膠質芽腫治療において，MGMTメチル化は化学療法の効果を左右する重要なバイオマーカーである。
- MGMTメチル化の確認は侵襲的な生検に依存しており，患者への負担が大きいという課題がある。
- 非侵襲的な画像データからMGMTメチル化状態を予測し，治療方針の決定に貢献することを目指す。
- 多視点MRIと深層学習モデルを用いることで，MGMTメチル化状態を高精度に検出する手法を提案した。
- 本手法は複雑な3Dモデルを避け，メモリ消費量や計算コストを抑えつつ，優れた性能を発揮する。
- 提案する腫瘍領域抽出技術は既存手法を上回り，再現性の高い診断パイプラインを公開した。
Link: https://arxiv.org/abs/2512.14232
ViBES：行動知的な3D仮想ボディを持つ対話エージェント [cs.CV]目的：言語と動きの同時計画による対話型3Dエージェントの開発
- 人間は言葉だけでなく，表情や身振り手振りなど，多様な手段でコミュニケーションを行う。
- 従来のシステムは，発話と動きの対応付けに偏重し，状況に応じた柔軟な行動が課題であった。
- 言語，表情，動きを統合的に生成し，より自然で社会的に適切な対話を可能とする。
- ViBESは，言語，表情，動きを処理する専門家モデル（MoME）を搭載し，対話に応じた行動を計画・実行する。
- ユーザーは音声，テキスト，またはボディアクション指示を通じて対話でき，システムは柔軟に反応する。
- 自動評価において，既存のシステムと比較して，対話と動きの整合性および行動品質において優位性を示す結果が得られた。
Link: https://arxiv.org/abs/2512.14234
4D-RaDiff：4Dレーダー点群生成のための潜在拡散モデル [cs.CV]目的：4Dレーダー点群の生成
- 自動車の環境認識において，コスト効率と悪天候への強靭性からレーダーの重要性が増している。
- レーダーに基づく認識システムの進歩には，注釈付きレーダーデータの不足が大きな課題となっている。
- 本研究は，レーダーデータの不足を補い，物体検出器の訓練と評価を可能にすることを目的とする。
- 提案手法4D-RaDiffは，レーダー点群の特性を考慮した潜在空間での拡散により，高品質なレーダーデータを生成する。
- 教師なしのバウンディングボックスから高品質なレーダー注釈を生成し，LiDARデータをリアルなレーダーシーンに変換する。
- 4D-RaDiffによる合成データのデータ拡張は，物体検出性能を向上させ，注釈付きレーダーデータの必要量を最大90%削減する。
Link: https://arxiv.org/abs/2512.14235
Elastic3D：ガイダンス付き潜在的デコーディングによる制御可能なステレオビデオ変換 [cs.CV]目的：制御可能なステレオビデオ変換手法
- 没入型3Dコンテンツの需要増加に伴い，自動ステレオビデオ変換技術が重要となっている。
- 既存手法では，明示的な深度推定やワープ処理による歪みが生じやすいという課題がある。
- 本研究は，高品質かつ制御可能なステレオビデオ変換を実現することを目的とする。
- 提案手法Elastic3Dは，潜在拡散モデルに基づき，高品質なステレオビデオ生成を可能にする。
- ガイダンス付きVAEデコーダにより，鮮明かつエピポーラ整合性の高いステレオビデオを実現している。
- 生成されるステレオ効果の強さを調整可能であり，ユーザの直感的な操作に対応する。
Link: https://arxiv.org/abs/2512.14236
確率グラフによる視覚的推論のためのビジュアルプログラミングの強化 [cs.AR, cs.CV]目的：視覚的推論のためのビジュアルプログラミングの性能向上
- 複雑な視覚的推論タスクにおいて，大規模言語モデルに基づくビジュアルプログラミングの可能性が注目されている。
- 従来のビジュアルプログラミングの強化はLLMの出力に偏っており，構成要素となる事前学習モデルの最適化が不十分である。
- サブタスクのラベルが不足している状況下で，エンドツーエンド学習を可能にする手法の開発が求められている。
- 提案手法EVPGは，ビジュアルプログラミングの実行プロセスにおける変数依存関係に基づき，確率的グラフを構築する。
- この確率的グラフ上で微分可能な確率推論を行うことで，非微分可能なビジュアルプログラミングプロセスを微分可能化する。
- GQA，NLVRv2，Open Imagesなどのタスクにおいて，EVPGがビジュアルプログラミングの性能を大幅に向上させることを実証した。
Link: https://arxiv.org/abs/2512.14257
DriverGaze360：オブジェクトレベルのガイダンスによる全方向運転注意力推定 [cs.CV]目的：運転注意力推定に関する研究
- 自動運転の安全性向上や，人間と自動運転車の円滑な共存のため，運転者の注意理解が不可欠である。
- 既存研究は視野が狭く，多様な運転状況に対応できていないため，周辺状況の把握が不十分である。
- 全方向の運転注意力推定データセットと手法を開発し，運転状況の空間的理解を向上させる。
- 大規模な360度視野の運転注意力データセットDriverGaze360を構築し，19名の運転者の約100万フレームの視線データを収集した。
- DriverGaze360-Netは，注意マップと注視オブジェクトを同時に学習することで，広いパノラマ入力における空間認識と注意推定を改善する。
- 複数の評価指標において，DriverGaze360-Netが最先端の注意推定性能を達成した。
Link: https://arxiv.org/abs/2512.14266
Zoom-Zero：時間的ズームインによるビデオ理解の強化 [cs.SC, cs.RO, cs.CV]目的：ビデオに関する質問応答における時間的セグメントの特定と正確な回答生成
- ビデオと言語を結びつける研究は，多様な応用可能性を秘めているため重要である。
- 大規模言語モデルは時間的認識に乏しく，誤った時間的局在や幻覚を引き起こす。
- 時間的ズームインにより，より正確な時間的局在と詳細な視覚的検証を実現する。
- 提案手法Zoom-Zeroは，NExT-GQAで5.2％，ReXTimeで4.6％と，時間的局在の精度を向上させた。
- 平均回答精度も2.4％向上し，ビデオに関する質問応答の性能を大きく改善した。
- 長編ビデオ理解においても，重要な視覚的情報を保持しつつ，全体的な文脈を損なうことなく，平均6.4％の改善が確認された。
Link: https://arxiv.org/abs/2512.14273
深層学習による持続ホモロジー図における有意点の検出 [cs.CV, cs.LG, math.AT]目的：持続ホモロジー図における有意点の自動検出
- 点群の形状を解析する強力なツールであり，多様な分野での応用が期待される。
- 有意な信号をエンコードする点を特定することが困難であり，実用化の妨げとなっている。
- 持続ホモロジー図における有意点の自動検出による，信頼性の高い解析手法の確立。
- 提案手法TUNは，強化されたPD記述子と自己注意機構を組み合わせた多層ネットワークである。
- 従来の古典的な手法と比較して，有意点の検出性能が向上していることが実験により示された。
- ダウンストリームアプリケーションにおいて，より効果的な利用が可能となる。
Link: https://arxiv.org/abs/2512.14274
SS4D：構造化時空間潜在変数によるネイティブ4D生成モデル [cs.CV]目的：単眼動画からの動的3Dオブジェクトの直接合成
- 3Dコンテンツ生成は，VR/ARなどへの応用が期待され，重要性が増している。
- 高品質な4Dデータの学習にはデータ不足が課題であり，時間的一貫性を保つことも難しい。
- 少ない4Dデータで高精度な動的3Dモデルを生成し，時間的一貫性を確保すること。
- 本研究では，構造化された時空間潜在変数を用いて，直接4Dデータを学習する生成モデルSS4Dを提案した。
- 単眼動画から高忠実度で時間的一貫性，構造的整合性の高い動的3Dオブジェクトを合成できることが示された。
- 事前学習済みの単画像3Dモデルを活用することで，データ不足の問題を克服し，効率的な学習を実現した。
Link: https://arxiv.org/abs/2512.14284
GLM-TTS技術報告 [cs.DC, cs.SD]目的：効率性，制御性，高忠実度な音声生成を目的としたTTSシステム
- 音声合成技術は，人間と機械の自然な対話を可能にする上で不可欠である。
- 既存のTTSシステムは，計算コストが高い，または生成される音声の自然さに課題がある。
- 高品質な音声を効率的に生成し，多様な制御を可能にするシステムの開発。
- GLM-TTSは，テキストからトークンへの自己回帰モデルと，トークンから波形への拡散モデルの二段階構造を採用している。
- わずか10万時間の学習データで，複数のオープンソースベンチマークで最先端の性能を達成した。
- パラメータ効率的なLoRAベースの音声カスタマイズや，ハイブリッドな音素-テキスト入力スキームにより，効率的かつ制御可能なデプロイメントを実現している。
Link: https://arxiv.org/abs/2512.14291
PSMamba：植物病害認識のための漸進型自己教師ありVision Mamba [cs.CL, econ.EM, cs.CV]目的：植物病害画像における病斑の階層的・多スケールパターン把握
- 植物病害の早期発見は食糧生産において重要であり，画像認識技術への期待が高まっている。
- 既存の自己教師あり学習は，植物病害画像特有の多スケール病斑パターンを捉えきれていない。
- 病斑分布や葉脈構造，微細なテクスチャ異常など，多粒度な特徴を統合的に学習する。
- PSMambaは，3つのベンチマークデータセットにおいて最先端の自己教師あり学習手法を上回る性能を示した。
- 特に，ドメイン外のデータや微細な病害に対して，高い精度と頑健性を示すことが確認された。
- 共有のグローバル教師と，中規模・ローカルスケールに特化した2つの学生を活用した階層的蒸留戦略が有効である。
Link: https://arxiv.org/abs/2512.14309
YOLOからVLMへ：衛星画像を用いたMENA地域における下水処理施設のゼロショットおよび少量ショット検出の進歩 [cs.CV, cs.AI]目的：下水処理施設の検出手法の比較と，衛星画像を用いた効率的な識別
- 中東・北アフリカ地域では，持続可能な水管理のため，下水処理施設の需要が高い。
- 従来のYOLOv8のような手法は，大規模な手動ラベリングが必要となる。
- 本研究は，ラベル付け不要なVLMによる下水処理施設の効率的な識別を目指す。
- ゼロショット評価において，複数のVLMがYOLOv8の真陽性率を上回る結果が得られた。
- 特にGemma-3が最も高い性能を示し，VLMの有効性が確認された。
- VLMは，YOLOv8に代わるスケーラブルなリモートセンシングを可能にする。
Link: https://arxiv.org/abs/2512.14312
意味の不一致と知覚的劣化：画像編集耐性に関する新しい視点 [cs.IR, cs.CV, cs.AI, cs.CY, cs.LG]目的：画像編集耐性評価の新たな指標と手法
- 拡散モデルによる画像編集技術が発展する中で，悪意のある改ざんを防ぐことが重要になっている。
- 既存の評価指標は視覚的な差異に焦点を当てており，編集の意図との意味的なずれを考慮していない。
- 拡散モデルにおける編集意図との意味的な不一致や知覚的な劣化を誘発する手法を開発し，評価指標を確立する。
- 提案手法SIFMは，拡散モデルの中間特徴量を操作することで，編集の軌道からのずれと知覚的な劣化を同時に最大化する。
- 新たに提唱する指標ISRは，プロンプトとの意味的な不一致または知覚的な劣化の割合を測定し，真の耐性効果を定量化する。
- 実験結果から，SIFMは悪意のある拡散ベースの操作に対する画像保護において最先端の性能を発揮することが示された。
Link: https://arxiv.org/abs/2512.14320
悪意のある編集に対する二重注意誘導防御 [cs.CV, cs.AI, cs.CY, cs.LG]目的：テキストプロンプトによる画像編集に対する悪意のある改ざんからの防御
- 画像生成AIの急速な発展に伴い，倫理的な課題が顕在化しているため。
- 既存の防御策は，改ざんに対する耐性が低く，効果が限定的である。
- 注意機構とノイズ予測の両方を操作し，悪意のある編集を阻害すること。
- 二重注意誘導ノイズ摂動（DANP）は，モデルのセマンティック理解を妨害する微小な摂動を加える。
- DANPは，関連領域の注意を減らし，無関係な領域の注意を増やすことで，編集を誤った領域へ誘導する。
- 注意機構とノイズ予測の両方を標的とすることで，最先端の性能を達成した。
Link: https://arxiv.org/abs/2512.14333
ベクトルプリズム：意味構造の階層化によるベクターグラフィックスのアニメーション [cs.CV]目的：ベクターグラフィックスのアニメーションのための意味構造の回復
- 現代のウェブデザインにおいてSVGは不可欠であり，動的なウェブ環境下でのアニメーション需要は高まっている。
- 既存の視覚言語モデルは，SVGの構成要素が低レベルな形状に断片化されるため，一貫性のあるアニメーション生成が困難である。
- ノイズの多い予測から安定して意味を推論し，SVGを意味的なグループに再編成することで，より一貫性のあるアニメーションを可能にする。
- 本研究では，複数の弱い部品予測の統計的集約によって意味構造を回復するフレームワークを提案した。
- 提案手法により，視覚言語モデルはより一貫性のあるアニメーションを生成できることが実験的に示された。
- 意味構造の回復が，堅牢なSVGアニメーションを実現し，視覚言語モデルとベクターグラフィックス間の解釈可能なインタラクションを支援する鍵となるステップである。
Link: https://arxiv.org/abs/2512.14336
悪意のある画像編集に対する転移可能な防御 [cs.RO, cs.CV, cs.AI, cs.CY, cs.LG]目的：拡散モデルにおける悪意のある画像編集への防御性能向上
- 画像生成技術の発展に伴い，悪意のある編集によるリスクが高まっているため。
- 既存の防御手法は，特定のモデルに依存し，異なるモデルへの適用が困難である。
- モデルを問わず有効な，悪意のある画像編集に対する汎用的な防御策を開発する。
- 提案手法TDAEは，画像とテキストの協調的最適化により，悪意のある編集に対する画像の免疫力を強化する。
- 視覚的防御機構FDMは，摂動を平坦な最小値へ誘導し，未知の編集モデルに対するロバスト性を向上させる。
- テキスト強化保護DPDは，動的にテキスト埋め込みを更新し，編集結果の整合性を保ち，転移性を実現する。
Link: https://arxiv.org/abs/2512.14341
HGS：静的・動的分解によるコンパクトな動的視点合成のためのハイブリッドガウススプラッティング [eess.SY, cs.SY, eess.SY, cs.RO, cs.SY, cs.RO, cs.SY, eess.SY, cs.CV, cs.CG]目的：動的シーンにおける効率的な視点合成手法の開発
- 没入型体験の向上には，動的視点合成技術が不可欠である。高品質な映像生成が求められている。
- 既存手法はモデルサイズが大きく，処理速度が遅いため，リソースの限られたデバイスでのリアルタイム応用が困難である。
- 静的領域と動的領域を分離することで，冗長なパラメータを削減し，軽量かつ高速な動的視点合成を実現することを目指す。
- 提案手法HGSは，モデルサイズを最大98%削減し，RTX 3090 GPU上で4K解像度で最大125 FPSのリアルタイムレンダリングを達成した。
- RTX 3050 GPU上では1352 * 1014解像度で160 FPSを維持し，VRシステムへの統合も成功した。
- 最先端手法と同等のレンダリング品質を維持しつつ，高周波詳細や急激なシーン変化における視覚的な忠実度を向上させた。
Link: https://arxiv.org/abs/2512.14352
ビジョンモデルの解釈可能性向上：Shapley値最適化によるアプローチ [cs.CV, cs.AI]目的：ビジョンモデルの解釈可能性向上
- 深層学習は様々な分野で高い性能を示すが，その意思決定プロセスは不透明である
- 既存の説明手法は，モデルの振る舞いを正確に反映できない，または性能が低下するなどの課題がある
- Shapley値推定を補助タスクとして統合し，モデルの意思決定ロジックと整合性の高い説明を実現する
- 提案手法は，画像パッチへの予測スコアの公正な割り当てを通じて，解釈可能性を高める
- 少ない構造変更でモデルの性能と互換性を維持しつつ，解釈性を向上させることに成功した
- 複数のベンチマークにおいて，最先端の解釈可能性を達成した
Link: https://arxiv.org/abs/2512.14354
人間の視覚発達の模倣によるロバストな画像表現の学習 [cs.CV]目的：CNNの汎化性能とロバスト性の向上
- 人間の視覚は変化に強く，CNNはその能力に及ばない。
- 初期段階での画像ぼかしは，モデル性能を損なうと考えられていた。
- ぼかしを段階的に減少させることで，汎化性能を向上させる。
- 提案手法は，CIFAR-10-Cで最平均汚染誤差(mCE)を最大8.30%削減した。
- ImageNet-100-Cにおいても，mCEを4.43%削減する結果が得られた。
- 本手法はCutMixやMixUp等の他の手法とも相乗効果を発揮し，ロバスト性を向上させる。
Link: https://arxiv.org/abs/2512.14360
3Dシーン理解のための統一的な意味的Transformer [cs.CV]目的：3Dシーン理解における多様なタスクの統合
- 現実世界の複雑な環境を理解するため，3Dシーン理解技術は不可欠である。
- 既存モデルは特定のタスクに特化しており，汎用性に課題がある。
- 多様な3Dシーン理解タスクを単一モデルで効率的に処理することを目指す。
- UNITEは，RGB画像から3Dシーンセグメンテーション，インスタンス埋め込み，オープンボキャブラリー特徴量，アフォードアンス，関節などを直接予測する。
- 2D蒸留と自己教師あり学習を組み合わせ，3Dビューの一貫性を保証する損失関数を用いることで，高い性能を実現した。
- 複数の意味的タスクで最先端の性能を達成し，場合によってはground truth 3D形状を用いる方法よりも優れている。
Link: https://arxiv.org/abs/2512.14364
高忠実度Implicit Neural Representationsのためのランク最適化 [cs.CV]目的：高忠実度Implicit Neural Representationsのランク最適化
- Implicit Neural Representationsは，3Dコンテンツ表現の分野で注目されており，その性能向上が求められている。
- 従来のMLPは高周波成分の表現が苦手とされ，アーキテクチャの工夫が必要とされていた。
- MLPのランク低下が原因である可能性に着目し，ランクを制御することで高忠実度化を目指す。
- ネットワークのランクを訓練中に制御することで，単純なMLPアーキテクチャでも表現力を向上させることが示された。
- Muonのような高ランクで直交性の高い更新を行う最適化アルゴリズムは，INRsの性能を大幅に向上させる。
- 自然画像，医療画像，新規視点合成など，多様なドメインで最大9dBのPSNR改善が確認された。
Link: https://arxiv.org/abs/2512.14366
自律システムにおける知覚の評価に関する包括的な安全指標 [cs.RO, cs.CV]目的：自律システムにおける知覚の安全評価
- 自動運転技術の発展に伴い，周囲環境の正確な知覚が不可欠となっている。
- 既存の評価指標は，物体の重要度を考慮していない場合がある。
- 物体の速度や距離などを考慮した，より安全性を重視した評価指標の開発。
- 提案する安全指標は，物体の速度，方向，距離，大きさなどのパラメータを統合的に評価する。
- 実車およびシミュレーションデータを用いた評価により，既存指標よりも適切な安全評価が可能であることが示された。
- 本指標は，単一の解釈しやすい安全評価スコアを提供する。
Link: https://arxiv.org/abs/2512.14367
エコスケープ：持続可能な都市を構築するためのLLMを活用した助言 [cs.CV]目的：都市の持続可能性を向上させるための気候変動適応戦略の策定支援
- 都市の持続可能性は，気候変動の影響を受けやすく，現代社会における重要な課題である。
- 小規模都市では，人員不足やデータ統合の困難さから，包括的な分析が難しい場合がある。
- 限られた資源で効果的な気候変動適応戦略を策定できるよう支援することを目的とする。
- 本研究では，専門的なLLM，衛星画像分析，知識ベースを組み合わせた多層システムを提案する。
- このシステムは，小規模都市が抱えるリソース不足の問題を克服し，データ統合を容易にする。
- 提案システムにより，より効果的で実現可能な気候変動適応戦略の策定が期待される。
Link: https://arxiv.org/abs/2512.14373
制約された単眼動画からの動的シーンの広視野合成 [cs.CV]目的：動的シーンの広視野合成手法の開発
- 映像コンテンツのリアリティ追求は，VR/AR等の応用において不可欠である。
- 既存の動的NeRFは，視点移動が大きい場合に不安定な映像を生成する問題がある。
- 大規模な視点変化下でも高品質な映像を生成できる動的NeRF手法の確立を目指す。
- 提案手法ExpanDyNeRFは，ガウススプラッティングの事前知識と疑似グランドトゥルース生成戦略を用いる。
- SynDMデータセットは，動的シーンのマルチビューデータセットとして，側方視点からの教師データを提供する。
- SynDMおよび実写データセットでの実験により，ExpanDyNeRFは既存手法を大きく上回るレンダリング品質を示す。
Link: https://arxiv.org/abs/2512.14406
DISCODE：分布を考慮したスコアデコーダによるロバストな画像キャプション自動評価 [cs.CV, cs.AI]目的：画像キャプションのロバストな自動評価
- 画像とテキストを理解するモデルの性能評価は，その応用範囲拡大に不可欠である。
- 既存の評価方法は，ドメインの変化に弱く，人間との一致度が低い場合がある。
- ドメイン変化に強い，人間と一致する評価スコアを生成する手法を開発する。
- DISCODEは，ファインチューニングなしで，多様なドメインにおいて人間による評価とより一致するロバストな評価スコアを生成する。
- ATT損失を用いることで，テスト時の適応的な評価が可能となり，評価スコアの推定におけるロバスト性が向上する。
- 新たに開発したMCEvalベンチマークにおいて，DISCODEは最先端の性能を達成した。
Link: https://arxiv.org/abs/2512.14420