arXiv雑要約

画像・音声 - 2026/05/12 公開

Hunyuan3D 2.0: 高解像度テクスチャ付き3Dアセット生成のための拡散モデルの拡張 [cs.CV]目的：高解像度テクスチャ付き3Dアセット生成システム
- 3Dコンテンツは，ゲーム，映画，デザインなど様々な分野で重要性が増しており，効率的な生成手法が求められている。
- 既存の3D生成モデルは，解像度，品質，条件との整合性において課題が残されており，特に高品質なテクスチャ生成が難しい。
- 大規模な3D生成モデルを提供し，高品質な3Dアセットを容易に生成・編集できる環境を構築すること。
- Hunyuan3D 2.0は，形状生成モデル（Hunyuan3D-DiT）とテクスチャ合成モデル（Hunyuan3D-Paint）を組み合わせ，高解像度かつ鮮やかな3Dアセットを生成する。
- 本システムは，既存の最先端モデルと比較して，形状の詳細度，条件との整合性，テクスチャ品質において優れた性能を示す。
- Hunyuan3D-Studioというユーザーフレンドリーなプラットフォームを提供することで，プロ・アマ問わず3Dアセットの操作とアニメーションを効率的に行うことが可能となる。
Link: https://arxiv.org/abs/2501.12202
3D点群に対する曲率を考慮したステルスなパッチ単位バックドア攻撃 [cs.CV]目的：3D点群に対するステルスなバックドア攻撃手法
- 深層ニューラルネットワークのセキュリティ確保は，様々な応用において不可欠である。
- 既存のバックドア攻撃は，目に見える異常や計算コストの問題を抱えている。
- 局所的な曲率変化に基づき，低コストで検知困難なバックドア攻撃を実現する。
- 提案手法SPBAは，点群を局所パッチに分割し，曲率を考慮してトリガーを注入する。
- SPBAは，既存手法と比較して高いステルス性と98.43%の計算コスト削減を達成した。
- 局所的なスペクトル設計が，3D点群モデルに対するステルスなバックドア攻撃に有効であることが示された。
Link: https://arxiv.org/abs/2503.09336
レーダー誘導による多項式フィッティングを用いたメトリック深度推定 [cs.CV]目的：メトリック深度マップへの変換
- 自動運転やロボット工学において，周囲環境の正確な深度情報は不可欠である。
- 単眼深度推定モデルはスケール不定であり，正確なメトリック深度を得るには追加の処理が必要である。
- レーダーデータを用いて多項式フィッティングを行い，単眼深度推定の精度向上を目指す。
- 提案手法POLARは，レーダーデータから予測される多項式係数を用いて深度予測を非一様に調整する。
- これにより，アフィン変換では困難な誤った深度構造のずれを補正し，高い精度を実現する。
- 3つのデータセットで最先端の性能を示し，MAEとRMSEで既存手法をそれぞれ平均24.9％，33.2％上回った。
Link: https://arxiv.org/abs/2503.17182
データ拡張における最近傍補間を超えて [cs.CV, eess.IV]目的：データ拡張における補間手法の改善
- 医療画像解析等の分野において，データ拡張はモデルの汎化性能向上に不可欠である。
- 最近傍補間は未定義のカテゴリラベルを回避するが，ピクセルレベルのアノテーションエラーを悪化させる可能性がある。
- 補間による低周波フィルタリング効果を抑制し，高周波構造の詳細を保持するデータ拡張手法を提案する。
- 最近傍補間に依存しない幾何学的変換関数と，平均に基づくクラスフィルタリングメカニズムを導入した。
- 補間特有の低周波フィルタリング効果を定量的に評価するためのオフラインデータ拡張パイプラインを構築した。
- 3つの医療画像セグメンテーションデータセットとXBATデータセットにおいて，複数の定量指標で性能向上が確認された。
Link: https://arxiv.org/abs/2504.01527
ジャイル-ルーLPに基づくエッジ重み付きオンライン確率的マッチング [cs.DS, cs.GT]目的：エッジ重み付きオンライン確率的マッチングの競争率の理論的限界
- オンラインマッチング問題は，リソース配分や割り当てにおいて重要な役割を果たす。
- 既存の手法では，競争率の改善に限界があり，より良いLP緩和が必要とされていた。
- ジャイル-ルーLPに基づく競争率の厳密な上限と下限を導き出す。
- エッジ重み付きオンライン確率的マッチングにおいて，ジャイル-ルーLP下での競争率の上限は0.663，下限は0.662であることが示された。
- 特定のハードインスタンスに対して最適なオンラインアルゴリズムを特定し，そのアルゴリズムを一般化することで，競争率の向上を実現した。
- ポアソン到着モデルとオンライン確率的マッチングの漸近的同等性の一般化を行い，近似単調性の要件を撤廃した。
Link: https://arxiv.org/abs/2504.17392
拡散Transformerを用いたブラインド超解像のためのEAM：あらゆるものを拡張する [cs.CV]目的：ブラインド超解像の性能向上
- 画像処理分野において，高解像度化技術は不可欠であり，特にブラインド超解像は未知の劣化を考慮する必要がある。
- 従来のブラインド超解像は，未知の劣化に対するロバスト性や生成画像の自然さに課題があった。
- 事前学習済みのT2I拡散モデルの潜在能力を引き出し，より高画質で自然な画像を生成することを目指す。
- 本研究で提案するEAMは，従来のU-Netベースの手法と比較して，ブラインド超解像において優れた性能を示すことが確認された。
- DiTと$\Psi$-DiTブロックの組み合わせにより，事前学習済みのDiTが持つ知識を効果的に活用し，画像復元を促進する。
- プログレッシブなMasked Image Modeling戦略と被写体認識型プロンプト生成戦略により，T2Iモデルの汎化性能と効率が向上した。
Link: https://arxiv.org/abs/2505.05209
GRIT：画像を用いて思考するMLLMの学習 [cs.CL, cs.CV, cs.AI, cs.CL]目的：画像とテキストによる根拠のある推論の学習
- 視覚言語タスクにおける推論能力向上は，AIの高度化に不可欠である。
- 既存モデルは，推論過程で視覚情報を十分に活用できていない。
- 視覚情報と自然言語を統合した推論チェーン生成を目指す。
- GRITは，自然言語とバウンディングボックス座標を組み合わせた推論チェーンを生成する。
- GRPO-GRと呼ばれる強化学習アプローチにより，最終的な正答率と推論形式に焦点を当てた報酬を用いる。
- わずか20組の画像-質問-回答データで高いデータ効率を実現し，視覚に基づいた推論能力を効果的に学習する。
Link: https://arxiv.org/abs/2505.15879
動画品質評価のための文脈とピクセル認識型大規模言語モデル [cs.CV, cs.MM, eess.IV]目的：動画品質評価における文脈とピクセルレベルの歪みの分析
- 動画品質評価は幅広い応用分野を持つ重要な研究課題である。
- 従来のモデルはピクセルレベルの歪みに焦点を当て，文脈理解に欠ける。
- CP-LLMは，文脈とピクセル認識を統合し，より高精度な評価を目指す。
- CP-LLMは，高レベルな文脈と低レベルなピクセル歪みを独立して分析する二重のビジョンエンコーダを備えている。
- これにより，CP-LLMは堅牢な品質スコアと解釈可能な品質記述を同時に生成し，ピクセル歪みへの感度を高める。
- 実験結果は，CP-LLMがVQAベンチマークで最先端の性能と，ピクセル歪みに対する優れたロバスト性を示すことを示している。
Link: https://arxiv.org/abs/2505.16025
保存と個別化：分布ドリフトなしのパーソナライズされたテキスト-画像拡散モデル [cs.CV]目的：テキスト-画像拡散モデルのパーソナライズ手法
- 画像生成AIの発展は，創造的な活動を支援する可能性を秘めている。
- パーソナライズは容易にオーバーフィッティングを引き起こし，多様性やコヒーレンスが損なわれる。
- 分布ドリフトを抑制し，忠実性とテキストとの整合性を両立させること。
- 提案手法は，パラメータ更新に対する Lipschitz 制約を導入することで，事前学習済みモデルからの逸脱を抑制する。
- この手法は，高い計算効率を実現し，多様な拡散モデルアーキテクチャで優れた性能を示す。
- 定量評価と定性評価の両方で，視覚的忠実度とプロンプトへの適合性において既存手法を上回る結果が得られた。
Link: https://arxiv.org/abs/2505.19519
マルチモーダル物体再識別におけるテキスト変調による多粒度エキスパート混合 [cs.CV]目的：マルチモーダル物体再識別における識別性能の向上
- 多様な情報源からの物体認識は，監視やロボティクスなど，幅広い応用分野で重要である。
- 既存手法では，異なるモダリティの特徴を効果的に融合することが難しく，実世界の複雑な状況下で課題が生じる。
- 本研究は，テキスト変調による多粒度エキスパート混合により，より高精度なマルチモーダル物体再識別を実現する。
- 提案手法NEXTは，異なる粒度で特徴を捉えるセマンティックエキスパートと構造エキスパートを導入し，高精度な識別を可能にする。
- 属性信頼度に基づいた高品質なキャプション生成パイプラインにより，大規模言語モデルの性能を向上させ，未知の物体認識率を低減する。
- 複数の公開データセットにおける実験結果から，提案手法が既存最先端手法を大きく上回る有効性が示された。
Link: https://arxiv.org/abs/2505.20001
ReaMOT：推論に基づく多物体追跡のベンチマークとフレームワーク [cs.CV]目的：推論に基づく多物体追跡タスクの発展
- 言語指示に基づいた物体追跡は，人間とロボットのインタラクションにおいて重要である。
- 既存手法は，視覚情報とテキストの直接的な照合に依存し，複雑な指示への対応が困難である。
- 論理的推論を必要とする複雑な指示に対応できる追跡モデルの開発を目指す。
- ReaMOT Challengeという包括的なベンチマークとデータセットが構築された。
- 提案手法ReaTrackは，高レベルな認知的な局所化と低レベルな物理的な動きの連続性を分離することで，従来の追跡器の限界を克服する。
- ReaTrackは，高レベルな推論を要するデータセットにおいて，RHOTAスコアを3倍以上向上させ，新たな性能基準を確立した。
Link: https://arxiv.org/abs/2505.20381
一つの軌跡，一つのトークン：パノラマ的サブオブジェクト軌跡による grounded ビデオトークン化 [cs.CL, cs.CV, cs.AI, cs.GR, cs.LG]目的：ビデオの grounded トークン化手法
- 長尺ビデオを扱うトランスフォーマーモデルのスケーラビリティ向上が課題。
- 既存手法は時空間パッチを使用し，トークン数が過剰になり計算効率が悪い。
- パノラマ的サブオブジェクト軌跡に基づき，効率的なトークン化を実現する。
- 提案手法TrajViTは，ビデオとテキストの検索において，ViT3Dよりも6%高いtop-5 recallを達成し，トークン数を10分の1に削減した。
- VideoQAベンチマーク6つにおいて，ViT3Dよりも平均5.2%の性能向上を示し，学習時間は4分の1，推論FLOPsは18分の1に減少した。
- TrajViTは多様なビデオ解析タスクにおいてViT3Dを上回り，スケーラブルな効率的なエンコーダーとなる。
Link: https://arxiv.org/abs/2505.23617
位置的目標の無限辞書式積 [cs.CL, cs.GT]目的：無限期間ゲームにおける位置的決定性の研究
- ゲーム理論は，計算機科学や人工知能における意思決定問題を分析するための重要な枠組みである。
- 無限ゲームにおける位置的決定性は未だ完全には解明されておらず，複雑な構造を持つ。
- 無限辞書式積が位置性を保存することを示し，この決定性の範囲を拡張すること。
- 無限辞書式積は，位置性を保存することが証明された。
- Max-Parity目標は，$\Sigma^0_2$ の差階層の無限レベルに対する完全性を示す。
- Min-Parity目標は，$\Sigma^0_3$ クラスに対する完全性を示す。
Link: https://arxiv.org/abs/2506.14544
モバイルデバイス向け軽量低照度画像強調アーキテクチャの探求 [cs.CV]目的：モバイル環境における低照度画像強調の効率化
- 近年，スマートフォン等のモバイルデバイスでの画像処理需要が高まっており，低照度環境下での画質向上が求められている。
- 既存の深層学習手法は，モデルサイズが大きく，学習データが必要なため，モバイルデバイスへの実装が困難である。
- 本研究では，学習データに依存せず，軽量かつ高効率な低照度画像強調手法を開発し，モバイルデバイスでのリアルタイム処理を実現する。
- 提案手法LiteIEは，LOLデータセットにおいて19.04dBのPSNRを達成し，既存の最先端手法を1.4dB上回る性能を示した。
- LiteIEは，既存手法の0.07%のパラメータ数で同等の性能を達成し，リアルタイム処理が可能であることをSnapdragon 8 Gen 3で検証した。
- LiteIEは，リソースに制約のあるモバイルデバイス上での低照度画像強調において，効率的かつ実用的なソリューションとなる。
Link: https://arxiv.org/abs/2507.04277
深層学習を用いた視覚的手話認識：手法，データセット，課題，および今後の研究動向の包括的レビュー [cs.CV]目的：視覚的手話認識に関する手法，データセット，課題，今後の研究動向の包括的なレビュー
- 手話は重要なコミュニケーション手段であり，その自動認識はアクセシビリティ向上に不可欠である。
- 既存研究は分散しており，最新技術の把握や比較が困難である。
- 本研究は，研究者が最新技術を把握し，改善提案を行うための指針となる。
- 本レビューは，手話認識における主要な側面，最新手法，比較分析，今後の課題を体系的に整理した。
- 静止手話，単一動的手話，連続手話の３つの主要なタスクにおけるアーキテクチャのトレンドと学習戦略をまとめた。
- 実験評価を支援するため，一般的なデータセットと性能指標をレビューし，今後の研究の方向性を示唆した。
Link: https://arxiv.org/abs/2507.04465
ベンチマークに依存しないディープフェイク検出 [cs.CV]目的：ディープフェイク検出器の汎化性能向上
- ディープフェイク技術の進歩は，社会に深刻な影響を与えうるため，その検出技術は重要である。
- 既存のディープフェイク検出器は，未知の操作手法に対して汎化性能が低いという課題がある。
- 本研究は，パラメータ効率的な適応により，ディープフェイク検出器の汎化性能を向上させることを目指す。
- 提案手法GenDは，Layer Normalizationパラメータのみを微調整することで，高い汎化性能を達成した。
- 14のベンチマークデータセットを用いた評価により，最先端の性能を示し，より複雑な手法を上回った。
- 同一ソースからのリアル・フェイクペアデータでの学習が，捷径学習の緩和と汎化性能向上に不可欠であることが示された。
Link: https://arxiv.org/abs/2508.06248
GUARD：適応的ロールプレイと脱獄診断によるLLMのガイドライン遵守テスト [cs.CL, cs.AI, cs.CV]目的：LLMのガイドライン遵守の検証
- LLMは様々な分野で不可欠になりつつあり，その安全性確保は社会的な要請となっている。
- 政府が発行する倫理的ガイドラインは抽象的で，具体的なテスト項目への落とし込みが課題である。
- ガイドラインを具体的なテスト項目に変換し，LLMの遵守状況を評価することを目的とする。
- GUARDは，政府発行のガイドラインに基づき，違反を誘発する質問を自動生成し，LLMの応答を評価する。
- 違反が直接見られない場合でも，「脱獄」診断GUARD-JDを用いて，安全機構を回避する可能性のあるシナリオを特定する。
- Vicuna-13Bなど8つのLLMで実証実験を行い，3つの政府ガイドラインへの準拠度と脱獄診断の有効性を検証した。
Link: https://arxiv.org/abs/2508.20325
AU-Harness：音声LLMの包括的評価のためのオープンソースツールキット [cs.SD, cs.AI, cs.LG, eess.AS]目的：音声LLMの包括的評価
- 近年，音声LLMが急速に進歩しており，その性能評価が重要となっている。
- 既存の評価ツールキットは非効率で標準化されておらず，公平な比較が困難である。
- 大規模な評価を可能にし，音声LLMの真の推論能力を明らかにすること。
- AU-Harnessは，最適化されたバッチ処理と並列実行により，既存のツールキットと比較して最大151%の高速化を実現した。
- 標準化されたプロンプトプロトコルと柔軟な設定により，多様なシナリオでの公平なモデル比較が可能となった。
- マルチターン対話のダイナミクスなど，統一された基盤なしでは困難だった詳細な分析が可能となり，音声LLMの限界に関する知見も得られる。
Link: https://arxiv.org/abs/2509.08031
スマートグラスにおける音声生体認証と真正性検証のための包括的音響特徴によるベンチマーク [cs.HC, cs.SD]目的：スマートグラス環境下での音声生体認証および真正性検証のためのベンチマークデータセットの構築と手法の提案
- スマートグラスの普及に伴い，音声インタラクションが重要視されている。自然で利便性の高い操作手段として期待される。
- 音声インタラクションは，スプーフィング攻撃に対して脆弱であり，実用化の妨げとなっている。専用のデータセットも存在しない。
- スマートグラス環境に特化した音声生体認証と真正性検証のためのデータセットを公開し，研究を促進すること。
- 42人の被験者からの16チャンネル音響データと，2種類の攻撃サンプルを含むデータセットAuthGlassを構築した。
- 音場に基づく生体認証手法AuthG-Liveと，複数音響モダリティの認証モデルAuthG-Netを提案した。
- 提案手法は4つのベンチマークタスクで最先端の性能を達成し，汎用性も実証された。
Link: https://arxiv.org/abs/2509.20799
医療ビジョン言語モデルにおけるおべっか行為のベンチマークと緩和 [cs.CV, cs.AI]目的：医療ビジョン言語モデルにおけるおべっか行為のベンチマークと緩和戦略
- 医療現場におけるAI活用が期待される中で，その安全性確保は極めて重要である。
- 医療におけるビジョン言語モデルは，おべっか行為に脆弱であり，誤診のリスクがある。
- おべっか行為を軽減し，根拠に基づいた推論を促進する手法を確立すること。
- 現在のビジョン言語モデルは，視覚的要素に強く影響を受け，モデルの規模や精度と誤答率に相関が見られた。
- 権威への迎合やユーザーの行動模倣が，視覚データとは独立したバイアス機構として機能することが示唆された。
- 提案手法VIPERは，根拠に基づかない社会的要素をフィルタリングすることで，おべっか行為を軽減し，解釈可能性を維持し，既存手法を上回る性能を発揮した。
Link: https://arxiv.org/abs/2509.21979
ナラティブアクションインターフェースによる意味保持ロボット適応：NoTVLA [cs.RO, cs.CV]目的：ロボット適応のための新規フレームワーク
- ロボットの知能化は，多様な環境での自律的なタスク実行を可能にするために不可欠である。
- 既存のVLAモデルは，連続的な行動シーケンスに依存しやすく，タスク間の知識の忘却が問題となる。
- 本研究では，疎な軌道に焦点を当てることで，知識の忘却を防ぎ，汎化性能を向上させることを目指す。
- NoTVLAは，エンドエフェクタの軌道に特化した時間圧縮と空間推論プルーニング戦略を用いる。
- 多タスク評価において，NoTVLAはpi0と比較して優れた性能と汎化能力を示した。
- NoTVLAは，計算コストがpi0の1桁以上少なく，手首に取り付けられたカメラも不要でありながら，高い精度を維持する。
Link: https://arxiv.org/abs/2510.03895
ドリフトを制約へ：非定常マルチストリーム環境におけるロバストな推論アライメント [cs.CV, cs.AI, cs.LG]目的：マルチモーダル大規模言語モデルからの推論アライメント
- 複数のモデルを統合することで，より高度な推論能力と汎化性能を実現できる。
- 環境変化によりモデルの推論分布が変動し，アライメントの安定性が損なわれる。
- 推論分布のドリフトを制約として捉え，ロバストなアライメントを実現する。
- 本研究では，推論アライメントを概念ドリフト理論に基づく制約充足問題として定式化し，APOフレームワークを提案した。
- APOは，モデル間の差異を動的な負制約として扱い，ドリフトする軌跡を抑制することで，一貫性のある合意多様体を合成する。
- 胸部X線解釈実験の結果，提案手法は既存モデルを凌駕し，高いロバスト性と精度を達成した。
Link: https://arxiv.org/abs/2510.04142
潜在的再中心化によるテスト時適応：最適化不要アプローチ [cs.LG, cs.CV]目的：テスト時適応の性能向上
- 現実世界のデータは学習時と分布が異なる場合が多く，モデルの汎化性能が低下する。
- 既存のテスト時適応手法は，計算コストが高い，大量のデータが必要，またはハイパーパラメータに敏感であるという課題がある。
- 潜在空間の幾何学に基づき，少ない計算量でロバストなテスト時適応を実現する。
- NEOは，ImageNet-Cにおいて，たった1バッチのデータでViT-Baseの分類精度を55.6%から59.2%に向上させた。
- ImageNet-C，ImageNet-R，ImageNet-SおよびCIFAR-10-Cの各データセットにおいて，NEOは比較対象の7つのテスト時適応手法を上回り，最も少ない計算量で優れた性能を示した。
- Raspberry PiやJetson Orin Nanoなどのエッジデバイスにおいて，推論時間を63%削減し，メモリ使用量を9%削減した。
Link: https://arxiv.org/abs/2510.05635
制御付き自己回帰拡散によるデータ同化 [cs.LG, cs.AI, cs.CV]目的：データ同化における制御付き自己回帰拡散モデルの枠組み
- 気象予測や流体シミュレーション等，複雑なシステムの挙動を正確に把握する上で不可欠な技術である。
- 既存手法は計算コストが高く，観測データが少ない場合，予測誤差が累積しやすいという課題がある。
- 事前学習済みの拡散モデルにコントローラーを組み込み，効率的かつ安定したデータ同化を実現すること。
- 提案手法は，既存の拡散モデルの速度を大幅に向上させ，データ同化を高速化できる。
- 2つの代表的な偏微分方程式と，ECMWF Reanalysis v5を用いた実験により，高い安定性と精度が確認された。
- GenCast大規模研究においても同様の改善が見られ，提案手法の有効性が示された。
Link: https://arxiv.org/abs/2510.06637
ViSurf：大規模ビジョンと言語モデルに対する視覚的教師あり・強化学習による微調整 [cs.CL, cs.CV]目的：大規模ビジョンと言語モデルの性能向上
- 近年，画像とテキストを理解する大規模モデルが注目されている。その性能向上は様々な応用において重要である。
- 従来の微調整手法は，性能が十分でないか，計算コストが高い，知識の忘却が起こるなどの課題がある。
- ViSurfは，教師あり学習と強化学習を統合し，効率的かつ安定的な微調整を実現することでこの課題を解決する。
- ViSurfは，既存の教師あり学習，強化学習，二段階パイプラインを凌駕する性能を示すことが，多様なベンチマークで確認された。
- ViSurfは，強化学習のロールアウトに正解ラベルを直接注入することで，外部からの教師あり学習と内部の強化学習を同時に行う。
- ViSurfは，トレーニングの安定性と最適化を確保するための3つの新しい報酬制御戦略を導入している。
Link: https://arxiv.org/abs/2510.10606
Vision TransformerのFederated Prompt Tuningのためのプロトタイプからのプロンプト推定 [cs.CV, cs.LG]目的：分散型環境におけるVision Transformerのプロンプトチューニングにおける汎化性能と個別化性能の向上
- 大規模モデルの適応には多くのデータが必要だが，データ不足の状況では効率的な微調整手法が求められる。
- 従来のFederated Learningでは，クライアント間のデータ異質性が課題であり，汎化性能が低下しやすい。
- クライアント固有のデータに過剰適合することなく，汎化性能を維持したFederated Prompt Tuningを目指す。
- 提案手法PEP-FedPTは，クラス固有のプロンプトとグローバルな共有プロンプトを組み合わせることで，サンプルごとにプロンプトを個別化する。
- クラスプロトタイプとクライアントのクラス事前分布を用いて重みを決定することで，クライアント依存の学習パラメータを必要としない。
- CIFAR-100，TinyImageNet，DomainNet，iNaturalistといった多様なデータセットで，既存手法を上回る性能が示された。
Link: https://arxiv.org/abs/2510.25372
4Dニューラルボクセルスプラッティング：ボクセル化されたガウススプラッティングによる動的シーンレンダリング [cs.CV]目的：動的シーンの効率的なモデリング
- 3Dシーンの表現とレンダリングは，VR/ARやロボティクスなど多くの分野で重要である。
- 動的シーンにおける3Dガウススプラッティングは，フレーム間のガウスの複製によりメモリ消費量が大きい。
- ボクセル表現とニューラルガウススプラッティングを組み合わせ，メモリ効率を向上させ，高速な動的シーンレンダリングを実現する。
- 提案手法は，既存手法と比較してメモリ消費量を大幅に削減し，学習速度を向上させる。
- ニューラルボクセルと学習された変形場を用いることで，動的シーンをコンパクトに表現する。
- 難しい視点に対して選択的に改善するビューリファインメントにより，全体的な効率を維持しつつレンダリング品質を向上させる。
Link: https://arxiv.org/abs/2511.00560
ユニハンド：一人称視点における汎用的な手の動き予測 [cs.CV, cs.RO]目的：一人称視点における手の動き予測の普遍的なフレームワーク
- 拡張現実やヒューマン・ロボット連携など，多様な応用において重要性が高まっている。
- 既存手法は，予測対象の不足，モダリティ間の隔たり，手と頭部の運動の複雑さなどが課題となっていた。
- マルチモーダル入力，多次元・多ターゲット予測，ダウンストリームタスクへの対応による解決を目指す。
- 本研究では，画像と言語情報を融合し，タスクに応じたテキスト埋め込みを注入することで，2Dと3D空間での手の軌跡予測を実現した。
- デュアルブランチ拡散モデルを用いることで，手と頭部の協調的な動きを予測し，手首や指関節など，特定部位の軌跡予測も可能にした。
- 提案手法は，既存のデータセットや新規ベンチマークにおいて，最先端の手の動き予測性能を示すとともに，ロボットの操作や行動認識に有効であることが示された。
Link: https://arxiv.org/abs/2511.12878
視覚的文書検索のためのアテンションに基づく強化 [cs.IR, cs.CL, cs.CV]目的：視覚的文書検索における関連領域の特定
- 文書検索は情報アクセスにおいて重要であり，多様なコンテンツ理解が不可欠である。
- 従来の検索手法は表面的な特徴に依存し，潜在的な意味的つながりを捉えにくい。
- クエリと文書領域間のより深い整合性を実現し，検索精度を向上させることを目指す。
- 提案手法AGREEは，マルチモーダル大規模言語モデルのアテンション情報を活用し，文書の関連領域を特定する。
- AGREEは，局所的な関連信号と全体的な文書レベルの関連ラベルを組み合わせることで，検索モデルを最適化する。
- ViDoRe V2ベンチマークにおいて，AGREEは既存手法を大きく上回り，検索性能が大幅に向上した。
Link: https://arxiv.org/abs/2511.13415
生成敵対的後学習がライブ人間-AI音楽インタラクションにおける報酬ハッキングを軽減する [cs.LG, cs.SD]目的：ライブ音楽セッションにおける報酬ハッキングの軽減
- 生成AIの応用範囲拡大に伴い，リアルタイムな協調と適応が求められる場面が増加している。
- 強化学習による後学習では，報酬に基づく一貫性追求が多様性の低下を招く「報酬ハッキング」が課題である。
- 音楽セッションにおける創造性を維持するため，報酬ハッキングを抑制し多様性を確保する手法を開発する。
- 敵対的学習により，ポリシーが生成する軌跡とデータ分布を識別する識別器を共進化させることで，報酬ハッキングを軽減。
- シミュレーションおよびユーザー調査の結果，出力の多様性，調和的一貫性，適応速度，ユーザーの主体性が向上。
- 本手法は，生成シーケンスモデルの強化学習による後学習における報酬ハッキング軽減に有効であることが示された。
Link: https://arxiv.org/abs/2511.17879
UniGeoSeg：地理空間シーンの統一的なオープンワールドセグメンテーションへ [cs.CV]目的：地理空間シーンにおける指示に基づいたセグメンテーションのための統一的なフレームワークの構築
- 地理空間情報の活用は，都市計画，環境モニタリングなど，幅広い分野で重要性が増している。
- 既存手法は，タスクの細分化と指示データの不足により，汎用的な理解と応用が困難である。
- 本研究は，大規模データセットと統一フレームワークにより，指示に基づいたセグメンテーションの性能向上を目指す。
- 本研究では，100万件規模の地理空間シーンデータセットGeoSeg-1Mを構築し，公開した。
- 提案手法UniGeoSegは，GeoSeg-Benchと複数の既存ベンチマークにおいて，最先端の性能を達成した。
- UniGeoSegは，ゼロショット汎化性能においても高い結果を示し，多様なタスクへの応用可能性を示唆している。
Link: https://arxiv.org/abs/2511.23332
改善された平均フロー：高速前方生成モデルの課題について [cs.CV, cs.LG]目的：高速前方生成モデルにおける課題解決
- 生成モデルは，画像生成など多様な応用において重要な役割を担う。
- 既存の高速前方生成モデルは，学習の安定性や柔軟性に課題があった。
- 本研究では，学習目標の再定式化とガイダンスの柔軟性向上を目指す。
- 提案手法（iMF）は，ImageNet 256x256において，1回の関数評価でFID 1.72を達成した。
- iMFは，従来の同様な手法を大幅に上回り，多段階手法との差を縮小した。
- 蒸留を用いずに，高い性能を発揮し，高速前方生成モデルの発展に貢献する。
Link: https://arxiv.org/abs/2512.02012
検出器を活用した効率的な時空間グラウンディングのためのビデオ大規模言語モデル [cs.RO, cs.CV]目的：時空間グラウンディングの効率化
- ビデオ理解の分野において，より詳細な時空間情報を扱うニーズが高まっている。
- 既存手法は，計算コストが高いという課題を抱えており，効率的な処理が困難である。
- 検出器を活用することで，計算コストを削減し，効率的な時空間グラウンディングを実現する。
- 提案手法DEViLは，既存手法と比較して高い性能（HC-STVGで43.1%のm_vIoU）と優れた効率性（14.33 FPS）を達成した。
- DEViLは，大規模言語モデルの推論能力を維持しつつ，密な空間グラウンディングを検出器に委譲することで，効率化を実現している。
- クエリの時長が増加しても，計算コストの増加を抑制し，効率的な処理を可能にしている。
Link: https://arxiv.org/abs/2512.06673
視覚的特徴を超えて：非メラノーマ性皮膚組織学的関係グラフ分析のためのニューラル組織関係モデリング [cs.CV]目的：非メラノーマ性皮膚組織学的画像における組織間の関係性をモデル化すること
- 皮膚癌診断において，組織構造の正確な認識が重要であるため，病理画像セグメンテーション技術の向上は不可欠である。
- 既存のCNNベース手法は主に視覚的テクスチャに依存しており，組織間の生物学的文脈や関係性を捉えきれていない。
- 組織間の関係性を明示的にモデル化することで，境界領域におけるセグメンテーション精度を向上させることを目指す。
- 提案手法NTRMは，組織レベルのグラフニューラルネットワークを用いて組織間の空間的・機能的な関係性をモデル化することで，セグメンテーション精度を向上させている。
- ベンチマークデータセットにおいて，NTRMは最先端手法を上回り，Dice係数を最大31.25%改善した。
- 関係性モデリングは，局所的な受容野を持つアーキテクチャと比較して，より文脈を意識した解釈可能な組織学的セグメンテーションへの道を開く。
Link: https://arxiv.org/abs/2512.06949
RAG-HAR：検索拡張生成に基づくヒューマンアクティビティ認識 [cs.CV, cs.AI]目的：ヒューマンアクティビティ認識のためのフレームワーク
- ヘルスケア，リハビリ，フィットネスなどに応用され，生活の質向上に貢献する分野である。
- 既存手法はデータセット依存性が高く，大規模な教師データと計算資源を必要とする点が課題である。
- 教師データなしで，未知のアクティビティも認識可能なロバストな認識手法を確立する。
- RAG-HARは，大規模言語モデルと検索拡張生成を用いることで，学習不要で高い認識性能を達成した。
- プロンプト最適化やアクティビティ記述子の導入により，コンテキスト情報を効果的に活用している。
- 6つの異なるHARベンチマークにおいて，最先端の性能を示し，実用性も確認された。
Link: https://arxiv.org/abs/2512.08984
KeyframeFace：意味的キーフレームによる言語駆動型顔アニメーション [cs.CV]目的：言語による顔アニメーションの実現
- デジタルキャラクター制作において，顔アニメーションは重要な要素である。
- 既存手法は，テキストから連続フレームを直接生成するため，意味的制御や編集が困難である。
- 言語に基づいたキーフレーム表現により，より正確で解釈可能な顔アニメーションを可能にする。
- 提案手法KeyframeFaceは，言語から解釈可能なキーフレームを生成し，顔アニメーションを表現する。
- 大規模言語モデルの事前知識を活用することで，文脈や感情に沿ったキーフレームを生成する。
- 意味的キーフレームの導入と言語事前知識の活用により，表情の再現性と意味的整合性が向上した。
Link: https://arxiv.org/abs/2512.11321
視覚言語モデルは農業分野における教師あり分類モデルをゼロショットで代替できるか [cs.CV]目的：農業分野における視覚言語モデルのゼロショット性能評価
- 農業分野における画像認識技術は，病害虫の早期発見や収量予測に不可欠である。
- 汎用的な視覚言語モデルは存在するが，農業分野への適用における信頼性は検証されていない。
- 既存の視覚言語モデルが，農業におけるタスクをどの程度遂行可能かを明らかにする。
- 視覚言語モデルは，教師あり分類モデル（YOLO11）と比較して，ゼロショット性能で大きく劣る。
- Gemini-3 Proが複数選択形式で約62%の平均精度を達成するも，教師ありモデルには及ばない。
- LLMによる意味判断を用いた評価手法は，精度向上とモデルランキングの変化をもたらす。
Link: https://arxiv.org/abs/2512.15977
生成能力は高いが検索能力は低い：マルチモーダル大規模言語モデルがマルチモーダル検索で失敗する理由 [cs.CV]目的：マルチモーダル大規模言語モデルにおける検索能力の低下機構の解明
- マルチモーダルな情報処理は，人間のように多様なデータを理解する上で重要である。
- 大規模言語モデルは生成能力は高いが，マルチモーダル検索においては性能が低いという課題がある。
- マルチモーダル大規模言語モデルの表現空間の偏りを解消し，検索性能を向上させることを目指す。
- マルチモーダル大規模言語モデルの表現空間はテキストの意味に偏っており，視覚的意味の占める割合が小さいことが判明した。
- 画像とテキストの関連付けに重点が置かれることで，表現が均質化され，検索に必要な識別力が低下していることが示された。
- ReAlignというテスト時適応手法により，表現空間の幾何学的構造を調整し，大規模言語モデルのゼロショットマルチモーダル検索性能を改善できることが示された。
Link: https://arxiv.org/abs/2512.19115
視覚トークンとアテンションヘッドに対する選択的LoRA [cs.CV, cs.AI]目的：視覚言語モデルのパラメータ効率の良いファインチューニング手法
- 画像とテキストを扱う視覚言語モデルは，多様なタスクに応用可能であり，重要性が増している。
- LoRAを含む従来のファインチューニング手法は，計算コストが高く，すべてのトークンとヘッドに適応する。
- 視覚トークンと重要アテンションヘッドに絞り込むことで，計算コストを削減し，性能を維持すること。
- Image-LoRAは，視覚トークンのみにLoRAを適用し，アテンションヘッドの価値パスへの適応を制限する。
- Image-LoRAは，標準的なLoRAと同等またはそれ以上の性能を示し，特に画像トークンが多い場合に有利なトレードオフを提供する。
- TextVQA，VideoQA，GSM8Kなどのタスクで有効性が確認され，より強い情報ボトルネックが性能向上に繋がることが示された。
Link: https://arxiv.org/abs/2512.19219
ビジョン言語モデルにおけるハイエントロピートークン：マルチモーダルな脆弱性のポイント [cs.CV, cs.LG]目的：ビジョン言語モデルの脆弱性を評価し，効率的な敵対的攻撃手法の開発
- ビジョン言語モデルは高性能だが，セキュリティ上の脆弱性が課題となっている。
- 既存の攻撃手法は全てのトークンを対象とするため，効率性に課題がある。
- ハイエントロピートークンに集中した攻撃により，効率性と有効性を高める。
- ハイエントロピートークンは，モデルの不安定化に大きな影響を与えることが示された。
- ハイエントロピートークンへの攻撃は，少ないステップ数で同程度の性能劣化を達成する。
- 開発したEntropy-Guided Attack (EGA) は高い攻撃成功率と有害率を示した。
Link: https://arxiv.org/abs/2512.21815
OCP-GN：確率的最適化のためのスケーラブルな二階最適化アルゴリズム [cs.CV, math.OC]目的：ニューラルネットワーク学習における大規模最適化問題に対する二階最適化アルゴリズム
- 深層学習の発展に伴い，大規模なモデルの効率的な学習が重要となっている。
- 従来の最適化手法では，計算コストが高く，スケーラビリティに課題がある。
- 本研究は，計算効率とロバスト性を両立する新たなアルゴリズムを提案し，その問題を解決する。
- 提案手法OCP-GNは，計算量がO(d)とスケーラブルであり，優れたロバスト性を持つ。
- 複数のベンチマーク実験において，既存手法と比較して有意な性能向上を実証した。
Link: https://arxiv.org/abs/2512.24552
AlignDrive：エンドツーエンド自動運転のための横方向・縦方向計画の整合 [cs.RO, cs.CV]目的：エンドツーエンド自動運転のための横方向・縦方向計画の整合手法
- 自動運転技術は，交通安全の向上や移動の効率化に不可欠であり，社会実装が期待されている。
- 既存手法では，速度決定と経路計画が独立しており，最適な連携が難しく，安全性の問題があった。
- 経路計画に沿った速度計画を統合し，安全性を高め，より自然な運転を実現することを目指す。
- 提案手法は，Bench2Driveベンチマークにおいて，89.07のドライビングスコアと73.18%の成功率を達成し，最先端性能を示した。
- 特に，縦方向計画を経路に依存した推論プロセスとして再構築することで，協調性と安全性が大幅に向上した。
- Fail2Driveでの評価により，まれな危険なケースに対する高い汎化性能も確認された。
Link: https://arxiv.org/abs/2601.01762
大規模オーディオ言語モデルにおける空間理解の実現 [cs.SD, cs.AI]目的：オーディオシーン分析の能力
- 近年のオーディオ言語モデルの進歩は目覚ましいが，空間的な理解は未だ課題である。
- 音声イベントの位置，属性の関連付け，配置，物理的な妥当性の判断などが不明確である。
- 明確なタスク定義と物理に基づいた学習により空間認識能力を向上させる。
- 本研究では，物理に基づいたアンビソニックシミュレーションとメタデータを用いた学習フレームワーク「TWNM」を提案した。
- TWNMは，空間的特徴と意味的特徴を融合し，段階的なカリキュラムと選択肢最適化によって訓練される。
- 提案手法は，空間認識タスクにおいて高い精度を示し，オーディオ言語モデルの空間推論能力を改善する可能性を示した。
Link: https://arxiv.org/abs/2601.02954
画像理解と視覚テキスト編集のための統一マルチモーダルモデルUM-Text [eess.SY, cs.SY, cs.CV]目的：画像理解と視覚テキスト編集における統一的なマルチモーダルモデルの提案
- 画像生成技術の進展に伴い，自然言語指示による視覚テキスト編集への関心が高まっている。
- 既存手法は，テキスト内容や属性の複雑な指定が必要で，参照画像とのスタイルの一貫性が課題である。
- 参照画像と指示を理解し，スタイルの一貫性を保った視覚テキスト編集を実現することを目的とする。
- UM-Textは，指示と参照画像を処理するVLMを導入し，文脈情報に基づいてテキスト内容とレイアウトを設計する。
- UM-Encoderにより，VLMが入力指示に応じて様々な条件情報を自動的に統合し，正確で調和のとれた視覚テキスト画像を生成する。
- 潜在空間とRGB空間の両方でグリフ生成を効果的に監督するregional consistency lossと，3段階の学習戦略により，モデル性能を向上させている。
Link: https://arxiv.org/abs/2601.08321
少数ショット分布外検出における前景・背景の改良による性能向上 [cs.CV]目的：少数ショット分布外検出性能の向上
- 画像認識の応用範囲拡大には，未知のデータへの対応が不可欠である。
- 既存手法では，前景・背景分解後の背景領域の一律的な抑制や，前景パッチの誤認識問題がある。
- 前景・背景の適応的な処理により，分布外検出の精度向上を目指す。
- 提案手法は，前景・背景分解モジュール，適応的背景抑制モジュール，混同しやすい前景の修正モジュールから構成される。
- 背景パッチの重要度に応じて分類エントロピーを重み付けすることで，抑制効果を高めている。
- 実験結果から，提案手法が既存の分解手法の性能を大幅に向上させることが示された。
Link: https://arxiv.org/abs/2601.15065
ColorConceptBench：テキスト画像モデルにおける確率的色彩概念理解のベンチマーク [cs.CL, eess.SY, cs.SY, cs.CV, cs.CL]目的：テキスト画像モデルにおける色彩と概念の関連性の評価
- テキスト画像モデルの発展は，テキストによる指示から高品質な画像を生成することを可能にした。
- モデルは明示的な色名には対応できるが，感情や状態などの暗黙的な概念の理解が不十分である。
- 暗黙的な色彩概念の確率分布を評価することで，モデルの理解度を測ることを目指す。
- ColorConceptBenchは，1281個の暗黙的な色彩概念と6584件の人間のアノテーションに基づき，色彩概念の関連性を体系的に評価する。
- 9つの主要なテキスト画像モデルの評価結果から，セマンティックカテゴリによって性能に大きな差があることが示された。
- モデルは抽象的な意味に対して十分な感度を持たず，この課題はclassifier-free guidance scalingでは改善されないことが判明した。
Link: https://arxiv.org/abs/2601.16836
JUST-DUB-IT：同時オーディオ・ビジュアル拡散による動画ダビング [cs.GR, cs.CV]目的：動画ダビングのための手法
- 動画と音声を統合的に理解するモデルは，多様なマルチモーダル生成・編集タスクに応用可能である。
- 既存の動画ダビング技術は，複雑なパイプラインに依存し，実環境での応用が困難である。
- 基礎モデルを活用し，軽量なLoRAによる単一モデルでの動画ダビングを実現すること。
- 提案手法は，話者の声質と口の動きの同期を維持しつつ，高品質な動画ダビングを実現した。
- 基礎モデルの生成能力を活用することで，複雑な動きや現実世界の状況にもロバストである。
- 既存のダビング手法と比較して，視覚的品質，口の動きの同期，およびロバスト性が向上した。
Link: https://arxiv.org/abs/2601.22143
ピクセル平均フローによるワンステップ潜在変数不要画像生成 [cs.CV]目的：ワンステップ潜在変数不要画像生成手法
- 画像生成分野は，高品質な画像を効率的に生成する技術として重要である。
- 既存の拡散モデルやフローモデルは，多段階サンプリングや潜在空間の使用を必要とする。
- 潜在変数を用いずに，ワンステップで高品質な画像を生成することを目指す。
- 提案手法であるpMFは，ImageNetにおいて256x256解像度でFIDスコア2.22，512x512解像度で2.48を達成した。
- pMFは，画像多様体上での予測と速度空間でのMeanFlow損失を分離して設計している。
- 画像多様体と平均速度場の間のシンプルな変換を導入することにより，効率的な生成を実現した。
Link: https://arxiv.org/abs/2601.22158
高忠実度画像再構成・生成のための超球面オートエンコーダ [cs.CV, cs.AI, cs.LG]目的：高忠実度画像再構成と生成の実現
- 画像生成技術は，多様な分野で重要な役割を担っており，その発展が求められている。
- 既存手法では，高周波詳細の損失により，再構成の忠実度が制限される場合がある。
- 超球面オートエンコーダは，詳細情報の保持と効率的な学習を可能にする。
- 提案手法（HAE）は，方向性に基づく特徴量アライメントと階層型畳み込みパッチ埋め込みにより，再構成の忠実度を向上させる。
- 自己教師あり学習に基づく表現が内在する超球面を利用したRiemannian Flow Matchingにより，DiTの収束効率を高めている。
- gFID 1.96，rFID 0.78，PSNR 25.2 dBという優れた結果から，提案手法の有効性が示された。
Link: https://arxiv.org/abs/2601.22904
Pix2Fact：視覚だけでは不十分である – 高解像度実世界シーンにおけるWeb検証を用いた詳細VQAのベンチマーク [cs.CV, cs.LG]目的：詳細な視覚的根拠付けと外部知識を必要とする，高度な視覚知覚と知識検索能力の評価
- 視覚と言語の連携はAIの重要な課題であり，現実世界の複雑な状況に対応するためには不可欠である。
- 既存のベンチマークは，視覚的根拠付けと外部知識の能力を分離して評価しており，両者の相乗効果を考慮していない。
- 現在のモデルが苦手とする，詳細な視覚理解と知識検索を統合したタスクに対する性能評価を可能にする。
- Pix2Factは，1,000枚の高解像度画像を用いたVQAベンチマークであり，専門的な視覚知覚と知識検索を評価する。
- 最先端のVLM (Gemini-3.1-Proを含む) でも平均正答率は51.7%にとどまり，視覚的根拠付けの誤り，検索の浅い活用，長尾情報の取得の難しさが課題として浮き彫りになった。
- このベンチマークは，現実世界の複雑な状況において人間の活動を支援するための，次世代の視覚-言語エージェントの開発を促進することが期待される。
Link: https://arxiv.org/abs/2602.00593