arXiv雑要約

画像・音声 - 2026/03/24 公開

地球を超えて：微小重力環境における人間の行動とシーンの理解 [cs.CV]目的：微小重力環境下における人間の行動とシーン理解のためのベンチマークデータセット
- 宇宙探査の進展に伴い，安全性を確保するための視覚システムの開発が重要になっている。
- 既存の動画理解データセットは地球の重力下でのものに限られ，微小重力環境下での挙動を反映していない。
- 微小重力環境下での人間の行動やシーン理解を可能にするデータセットの構築と評価を行う。
- MicroG-4Mは，50種類の行動，1238件のキャプション，7000以上の質問応答ペアを含む，微小重力環境下における人間の活動を理解するための初のベンチマークデータセットである。
- 本データセットを用いて，細かい行動認識，動画キャプション生成，視覚的質問応答の3つの主要なタスクを評価し，最先端モデルのベースラインを確立した。
- データセット，注釈，コードは公開されており，宇宙空間における視覚システムの開発に貢献する。
Link: https://arxiv.org/abs/2506.02845
推論に合致した知覚の分離によるスケーラブルなマルチモーダル推論 [cs.CV]目的：マルチモーダル推論におけるスケーラビリティの向上
- 近年の言語モデルの発展はテキストベースの推論能力を飛躍的に向上させた。
- マルチモーダル大規模言語モデルは，内部のLLMが旧式化しているため，テキストベースのモデルに劣る。
- 既存のモデルをアップグレードせずに，マルチモーダル推論の性能向上を目指す。
- 提案手法であるRAPIDは，マルチモーダル推論のベンチマークにおいて著しい性能向上を達成した。
- RAPIDは，VPOによって訓練することで，最先端のテキストLLMと組み合わせることで，再訓練なしに性能向上が持続的に実現できる。
- 知覚と推論を分離することで，マルチモーダル言語モデルの役割を，詳細なテキスト出力への変換に限定した。
Link: https://arxiv.org/abs/2506.04559
LEO-VL：スケーラブルな3D視覚言語学習のための効率的なシーン表現 [cs.CV]目的：3Dシーンの理解を可能にする視覚言語モデルの開発
- 3D視覚言語モデルは，ロボット工学や拡張現実など，多様な応用分野で重要な役割を担う。
- 既存の3D視覚言語モデルは，空間推論能力や頑健性に課題があり，大規模学習の効率も低い。
- シーン表現の効率化，データ多様性の確保，モデルの頑健性向上を通じて，3D視覚言語モデルの性能向上を目指す。
- 本研究では，トークン数を削減しつつ高い表現力を維持するCondensed Feature Grid（CFG）を提案した。
- CFGに基づき，大規模な3D視覚言語データセットで学習したLEO-VLは，複数のベンチマークで最先端の性能を達成した。
- さらに，コントラスト学習を用いたSceneDPOにより，モデルの頑健性を向上させることを示した。
Link: https://arxiv.org/abs/2506.09935
クエリワードによる画像分割：半教師あり画像セグメンテーションのための言語アンカー [cs.IR, cs.CV, cs.AI]目的：半教師ありセマンティックセグメンテーションにおける言語アンカーの活用
- 画像認識と自然言語処理の融合が，より高度な画像理解を可能にする重要な研究分野である。
- 既存手法では，画像とテキストの表現のずれにより，セマンティックな理解が不十分となる場合がある。
- ドメイン知識を考慮した画像とテキストの表現整合性を高め，セグメンテーション精度を向上させることを目指す。
- 提案手法HVLFormerは，事前学習済みVLMのテキスト埋め込みをオブジェクトクエリに変換し，データセットに依存した多段階クエリを生成する。
- 画像固有の視覚的コンテキストを注入することで，テキストの意味を局所的なシーン構造に整合させ，クラス識別能を高める。
- クロスビューとモダリティの一貫性正則化により，ドメインロバスト性を実現し，Pascal VOC, COCO等で最先端手法を凌駕する性能を示す。
Link: https://arxiv.org/abs/2506.13925
制御付きランダムジグザグサンプリング：制御されたランダムなジグザグ探索による拡散サンプリングのスケーリング [cs.CC, math.LO, cs.CV]目的：拡散モデルにおけるサンプリング品質向上戦略
- 拡散モデルは高品質な画像生成を可能にするが，計算コストが高い。
- 生成過程が局所最適解に陥りやすく，構造的な問題やずれが生じやすい。
- 品質の停滞を検出し，効率的な探索でより高品質な結果を得ることを目指す。
- 提案手法Ctrl-Zサンプリングは，品質の停滞を検出し，必要に応じてノイズの多い状態に戻る。
- 複数の代替経路を探索し，品質スコアが改善された場合に軌跡を更新することで，停滞からの脱出を試みる。
- 実験により，Ctrl-Zサンプリングが他のスケーリングサンプラーよりも一貫して生成品質を向上させることが示された。
Link: https://arxiv.org/abs/2506.20294
PoseMaster：様式化されたポーズ生成のための統一的な3Dネイティブフレームワーク [cs.CV]目的：様式化されたポーズ生成の3Dにおける統一的フレームワーク
- 2D，3D，動画など，様々な分野でポーズに基づいた様式化コンテンツ生成は不可欠である。
- 既存手法は2Dモデルを介した間接的な処理が多く，3Dポーズ様式化の精度と多様性に限界がある。
- 3D空間情報を直接利用し，誤差の蓄積を抑えた高精度な3Dポーズ様式化を実現する。
- PoseMasterは，最先端手法と比較して，定性的・定量的な評価において大幅な性能向上を示す。
- 生成された3Dメッシュと条件付けられたスケルトンの空間的整合性が高く，自動スキニングモデルとの連携によりアニメーションアセットを直接作成可能である。
- 大規模な「画像-スケルトン-メッシュ」データセットを構築し，同一性保持と幾何学的アライメントを同時に学習する。
Link: https://arxiv.org/abs/2506.21076
全テストサンプルの潜在能力の解放：Mean-Shift 誘導テスト時適応 [cs.CV]目的：テスト時適応における性能向上
- 視覚言語モデルは汎化性能が高いが，テスト時の分布シフトに弱い。
- 既存手法は高信頼度サンプルに依存し，低信頼度サンプルの有用性を見過ごしている。
- 全てのテストサンプルを改善し，より安定した適応を実現する。
- MS-TTAは，k近傍法を用いたMean-Shiftにより，CLIPの表現空間を超えた特徴表現を強化する。
- 特徴の凝縮性とクラス分離性を向上させ，ロバストな適応を実現した。
- OODおよびクロスデータセットベンチマークにおいて，最先端手法を上回る性能を示した。
Link: https://arxiv.org/abs/2507.00462
HUG-VAS：階層的NURBSに基づく大動脈形状合成と制御可能な編集のための生成モデル [cs.CV]目的：大動脈形状の合成と制御可能な編集
- 正確な血管形状は，診断，治療計画，医療機器設計において不可欠である。
- 既存の統計形状モデルは線形事前分布に依存し，リアリズム，スケーラビリティ，相互運用性に限界がある。
- 臨床情報が限られている状況でも，シミュレーション可能な血管形状を生成すること。
- HUG-VASは，NURBSと拡散モデルを組み合わせることで，高精度な大動脈形状を生成する。
- 中心線と断面積半径プロファイルを分離・合成することで，解剖学的変動を再現する。
- 画像由来のプロンプトを用いた条件付き生成が可能であり，半自動セグメンテーションや編集を支援する。
Link: https://arxiv.org/abs/2507.11474
リアルタイム水中の音速場構築のためのマルチモーダルデータ融合生成敵対的ネットワーク [cs.SD, eess.AS, eess.SP]目的：水中の音速場構築
- 水中音響通信や位置計測の精度向上に不可欠であり，エネルギー効率改善にも繋がる
- 従来の音速場推定は，設置が難しい水中ソナー観測データに依存する点が課題
- 現地データ計測なしで，高精度な音速分布推定を実現することを目指す
- 提案手法MDF-RAGANは，既存の最先端手法と比較して優れた性能を示す
- 誤差が0.3m/s未満と高精度であり，CNNや空間補間法より約2倍の精度を達成
- 平均プロファイルと比較して，RMSEを約65.8%削減し，マルチソース融合とクロスモーダル注意の有効性を示す
Link: https://arxiv.org/abs/2507.11812
OCRGenBench：OCR生成能力評価のための包括的ベンチマーク [cs.CV]目的：OCR生成能力を評価するための包括的なベンチマークの提案
- 画像生成モデルの発展において，視覚的なテキスト合成は重要な課題である。
- 既存のベンチマークは，評価範囲が狭く，難易度が低いという問題があった。
- テキスト生成，編集，画像変換を統合し，より現実的な評価を実現する。
- OCRGenBenchは，5種類のテキストカテゴリと33のタスクを網羅し，多様なテキスト合成能力を評価する。
- 実験の結果，最先端の生成モデルの多くが60/100を下回るスコアであり，テキストの位置認識や密集したテキストの処理に課題があることが示された。
- OCRGenScoreという統一的な評価指標を導入し，テキストの正確性，品質，指示への追従性を評価する。
Link: https://arxiv.org/abs/2507.15085
VLMに基づく視覚的接地への入力認識バックドア攻撃IAG [cs.IR, cs.CV, cs.CL, cs.CR]目的：VLMに基づく視覚的接地システムのセキュリティ脆弱性の検証
- 近年，VLMは視覚的接地タスクを飛躍的に向上させた。その安全性評価は重要である。
- VLMの視覚的接地システムに対するセキュリティ研究は十分に進んでいない。
- 入力に依存した動的なトリガー生成によるバックドア攻撃手法IAGを提案し，その有効性とステルス性を検証する。
- IAGは，指定されたターゲットオブジェクトの説明に基づき，入力認識型テキスト誘導トリガーを動的に生成する。
- IAGは，既存のベースラインと比較して，ほぼすべての設定で最高の攻撃成功率(ASR)を達成し，クリーンな精度を損なわない。
- 既存の防御に対する頑健性を示し，データセットやモデル間での転移性も確認された。
Link: https://arxiv.org/abs/2508.09456
PAUL：ノイズの多い対応下におけるロバストなクロスビュージオロケーションのための不確実性に基づく分割と拡張 [cs.DB, cs.CL, cs.CV]目的：ノイズの多い対応下でのロバストなクロスビュージオロケーション手法
- UAV航法，イベント検出，航空測量等に不可欠。ドローンと衛星画像の照合を可能にする技術。
- 既存手法は完全な画像ペアのアライメントを仮定。実際にはGPSドリフト等によりアライメントずれが生じやすい。
- 不確実性に着目し，ノイズの多い対応下でもロバストなジオロケーションを実現する。
- PAULは，不確実性に基づいたデータ分割と拡張により，学習データを最適化する。
- 不確実性を考慮した共同拡張と証拠的共同学習により，特徴学習を改善し，ノイズを抑制する。
- 様々なノイズ比率において，既存手法を上回る性能を実証した。
Link: https://arxiv.org/abs/2508.20066
拡散モデルを用いた物体検出における敵対的パッチの無害化：DisPatch [cs.CV]目的：物体検出における敵対的パッチ攻撃への防御
- 物体検出は，セキュリティ監視など様々な実世界アプリケーションの基盤技術である。
- 既存の物体検出器は敵対的パッチ攻撃に脆弱であり，現実世界の物体を隠蔽したり，存在しない物体を作り出したりする。
- 拡散モデルを用いて，画像全体を再生成し，敵対的パッチの影響を軽減することを試みる。
- DisPatchは，敵対的パッチ攻撃に対する拡散モデルに基づく初の防御フレームワークである。
- 隠蔽攻撃において最高のmAP@0.5スコア89.3%を達成し，Untargetedな作成攻撃の成功率を24.8%に低下させた。
- 効果性と効率性のバランスが取れており，適応攻撃に対する堅牢性も維持している。
Link: https://arxiv.org/abs/2509.04597
ニューラルコラプスに着想を得た，ラベル分布の偏り下におけるマルチラベル分散学習 [cs.CV]目的：ラベル分布の偏り下におけるマルチラベル分散学習の改善
- データプライバシー保護が重要視される中，分散環境での機械学習が求められている。
- クライアント間のデータ不均衡やラベル関係の不一致が，分散学習のボトルネックとなっている。
- ニューラルコラプス理論に基づき，クライアント間の表現を整列化することで課題解決を目指す。
- 提案手法FedNCA-MLは，クライアント表現の整列化と識別可能な特徴学習を実現する。
- クラス固有の表現抽出にアテンション機構を導入し，ラベルの不均衡に対応する。
- ベンチマークデータセットを用いた実験で，AUCとF1スコアが最大3.92%と4.93%向上した。
Link: https://arxiv.org/abs/2509.12544
ゼロショットカメラ制御による3Dおよび4D生成のためのビデオモデルの制御 [cs.GR, cs.AI, cs.CV]目的：3Dおよび4D生成におけるビデオモデルの制御手法
- ビデオ生成モデルは現実世界の知識を持つが，空間制御が難しく，応用範囲が限られていた。
- 既存手法は，視覚的なアーティファクトや汎化性能の低下，計算コストの増大といった問題があった。
- モデルの再学習なしに，正確なモーション誘導とフォトリアリスティックな合成を実現すること。
- WorldForgeは，トレーニング不要な推論時のみで動作し，これらの問題を解決する新しいフレームワークである。
- 本手法は，カメラパスへの正確な追従，外観と動きの分離，ドリフトの補正により，高精度なモーション制御を実現した。
- 多様な応用例で汎用性を示し，軌道追従性と知覚的品質において最先端の性能を達成した。
Link: https://arxiv.org/abs/2509.15130
動的PET画像ノイズ除去のためのカーネル空間に基づく多次元疎モデル [cs.CV, cs.AI]目的：動的PET画像のノイズ除去
- PET画像は生体内の代謝活動を可視化する上で重要であり，高画質化は診断精度向上に不可欠である。
- 動的PET画像では，特に短時間フレームにおいて統計量が限られており，ノイズの影響を受けやすいという課題がある。
- 本研究は，動的PET画像のノイズを効果的に除去し，時間分解能と空間分解能を向上させることを目指す。
- 提案手法であるニューラルKMDS-Netは，シミュレーションデータと実データを用いた実験において，既存手法よりも優れたノイズ除去性能を示した。
- 本手法は，カーネル空間に基づく多次元疎モデルとニューラルネットワークを組み合わせることで，動的PET画像のノイズ除去を効果的に実現している。
- 本研究の成果は，動的PET画像の高時間・空間分解能化に貢献し，より詳細な生体情報の取得を可能にする。
Link: https://arxiv.org/abs/2509.18801
テクスチャベクトル量子化と再構成を考慮した予測による生成型超解像 [cs.CV]目的：生成型超解像のためのテクスチャベクトル量子化と再構成を考慮した予測戦略
- 画像生成における事前知識モデリングの重要性が高まっており，ベクトル量子化はその有力な手法の一つである。
- 既存のベクトル量子化手法では，量子化誤差が大きく，最終的な再構成誤差が考慮されていない場合がある。
- 欠損テクスチャの事前分布のモデリングに特化したベクトル量子化と，画像レベルでの予測により，より高精度な超解像を目指す。
- 提案手法（TVQ&RAP）は，少ない計算コストでフォトリアリスティックな超解像結果を実現する。
- テクスチャベクトル量子化戦略は，超解像タスクに特化し，欠損テクスチャの事前分布のみをモデル化する。
- 再構成を考慮した予測戦略は，ストレートスルー推定器を用いて，画像レベルでの直接的な予測器の訓練を可能にする。
Link: https://arxiv.org/abs/2509.23774
UP2You：制約のない写真コレクションからの自己再構成の高速化 [cs.RO, cs.CV]目的：制約のない写真コレクションからの高忠実度3D衣服ポートレートの再構成
- 3Dモデルの作成は，仮想現実，エンターテイメント，および遠隔コミュニケーションなど，多様な分野で重要である。
- 既存手法は，高品質な入力画像（全身像やキャリブレーションされた複数視点画像）を必要とし，現実世界のカジュアルな写真には適用が困難である。
- 本研究は，制約のない写真から高速かつ高精度に3Dモデルを再構成する手法を開発し，現実世界の応用を可能にすることを目指す。
- UP2Youは，従来のデータ圧縮方式を用いず，データ整流パラダイムにより，入力画像を数秒でクリーンな多視点画像に変換する。
- Pose-correlated feature aggregation (PCFA)モジュールにより，複数の参照画像からの情報を効果的に統合し，高い同一性保持と低いメモリ使用量を実現する。
- 4D-Dress，PuzzleIOI，および現実世界のデータを用いた実験により，UP2Youが既存手法を凌駕する幾何学的精度とテクスチャ忠実度を示すことが確認された。
Link: https://arxiv.org/abs/2509.24817
階層型キーフレームに基づく3Dシーングラフ [cs.CV, cs.RO]目的：3Dシーンの階層的なグラフ表現
- ロボットが複雑な環境で推論・計画・ナビゲーションを行うための基盤技術。
- 既存手法では，関係性の定義が限定的で大規模環境での処理が困難。
- キーフレームを活用し，大規模環境でも効率的なシーン理解を実現。
- KeySGは，3Dシーンを階層的に表現することで，大規模シーングラフのスケーラビリティ問題を軽減。
- マルチモーダル情報を活用し，明示的な関係性モデリングの必要性を低減し，汎用的な推論・計画を可能に。
- 3つのベンチマークにおいて，既存手法を上回り，セマンティックな豊かさと効率性を実証。
Link: https://arxiv.org/abs/2510.01049
FideDiff：高忠実度画像モーションデブラーリングのための効率的な拡散モデル [cs.CV]目的：高忠実度画像モーションデブラーリングのための単一ステップ拡散モデル
- 画像処理分野において，リアルな画像復元は重要な課題であり，様々な応用が期待される。
- 既存の拡散モデルは高性能だが，推論時間が長く，忠実度が損なわれるという課題があった。
- 本研究は，推論時間と忠実度の両立を目指し，より効率的な拡散モデルを提案する。
- FideDiffは，モーションデブラーリングを拡散様プロセスとして再構築し，一回のステップでデブラーリングを実現する。
- Kernel ControlNetの統合と適応的なタイムステップ予測により，モデルの性能が向上している。
- 従来の拡散モデルや最先端モデルと比較して，フルリファレンスメトリクスで優れた性能を示す。
Link: https://arxiv.org/abs/2510.01641
ビデオ拡散モデルによる剛体相互作用の生成学習 [cs.CV, cs.AI, cs.LG]目的：剛体相互作用の生成と制御
- ロボティクスや具現化された意思決定において，現実世界のシミュレーションの重要性が高まっている。
- 既存のビデオ生成モデルは，物理的に妥当な物体相互作用の生成や，物体レベルの制御に課題がある。
- より現実的な剛体制御，相互作用，および効果を実現するビデオ生成手法を開発すること。
- KineMaskは，単一画像と指定された物体速度から，推論された動きと将来の物体相互作用を含むビデオを生成する。
- 段階的な学習戦略により，物体マスクを用いて将来の動きの教師あり学習を徐々に削除することで，性能が向上する。
- 異なるVDMへの汎化性と，同程度のサイズの既存モデルに対する大幅な改善が確認された。
Link: https://arxiv.org/abs/2510.02284
StaR-KVQA：暗黙的知識に基づく視覚的質疑応答のための構造化推論トレース [cs.CL, cs.CV, cs.AI]目的：暗黙的知識に基づく視覚的質疑応答における構造化推論トレースの構築と活用
- 視覚的質疑応答は，画像と知識を結びつけ，高度な理解を促す重要な技術である。
- 既存の暗黙的知識に基づく視覚的質疑応答モデルは，推論過程が不透明で，汎化性能が低いという課題がある。
- 本研究は，構造化推論トレースを用いることで，モデルの推論を明確化し，汎化性能を向上させることを目指す。
- StaR-KVQAは，テキストと視覚情報を結びつけた構造化推論トレースを構築し，モデルの学習を支援する。
- このフレームワークは，外部知識源や検証器を必要とせず，単一の自己回帰パスで推論を行う。
- OK-VQAベンチマークにおいて，StaR-KVQAは最先端のベースラインよりも最大11.3%高い正答率を達成し，推論の透明性も向上した。
Link: https://arxiv.org/abs/2510.06638
ビデオ言語モデルにおける時間論理一貫性の理解：クロスモーダル注意力の識別可能性を通じて [cs.RO, cs.CV, cs.AI, cs.MM]目的：ビデオ言語モデルにおける時間論理一貫性の原因分析と改善
- 大規模言語モデルの信頼性は実用化において重要であり，矛盾した出力は信頼性を損なう。
- ビデオ言語モデルは，時間的な質問に対して論理的に一貫性のある応答を生成できないという課題がある。
- クロスモーダル注意力の識別能力を向上させることで，時間論理一貫性を改善する。
- 提案手法TCASは，注意力の識別に基づいて時間分解能を向上させ，時間論理一貫性を高める。
- 実験結果から，TCASがビデオ言語モデルの時間論理一貫性を大幅に向上させることが示された。
- TCASは注意力の時間的な識別能力を向上させ，時間理解における一貫性の重要性を示唆する。
Link: https://arxiv.org/abs/2510.08138
視覚ナビゲーションのためのメモリ拡張計画と予測に基づく統一された世界モデル [cs.AI, cs.CV, cs.RO]目的：視覚ナビゲーションにおける，未来状態の想像に基づくロバストかつ汎化可能なエージェントの実現
- 視覚ナビゲーションは，ロボットが環境内で自律的に行動するために不可欠な技術である。
- 従来のシステムは，ナビゲーション計画と視覚世界モデリングを分離しており，状態と行動のずれが生じやすい。
- UniWMは，予測と制御を密接に連携させ，長期的な推論を可能にすることで，この問題を解決することを目指す。
- UniWMは，Go Stanford，ReCon，SCAND，HuRoNを含む4つのベンチマークでナビゲーション成功率を最大30%向上させた。
- UniWMは，既存の強力なベースラインと比較して，軌道誤差を大幅に減少させた。
- UniWMは，未学習のTartanDriveデータセットに対してもゼロショットで汎化し，高次元ヒューマノイド制御にも自然に拡張可能であることが示された。
Link: https://arxiv.org/abs/2510.08713
LinearSR：安定性と効率性に優れた画像超解像のための線形注意の可能性を解き放つ [cs.CV]目的：画像超解像における線形注意の適用可能性向上
- 画像超解像は，画像処理において重要な課題であり，高画質の実現に不可欠である。
- 従来の自己注意機構は計算コストが高く，高解像度画像への適用が困難であった。
- 線形注意の潜在能力を最大限に引き出し，実用的な超解像モデルを開発すること。
- 本研究では，線形注意を用いた画像超解像の安定性を高めるための早期停止に基づくファインチューニング戦略（ESGF）を提案した。
- 提案手法は，知覚的品質と歪みの間のトレードオフを解消するために，SNRに基づくMoEアーキテクチャを導入した。
- 実験結果から，提案手法LinearSRは，最先端の性能と効率性を両立することを示した。
Link: https://arxiv.org/abs/2510.08771
GIR-Bench：推論を用いた画像生成のための汎用ベンチマーク [cs.CL, cs.CV]目的：推論能力を伴う画像生成の評価
- 大規模言語モデルと画像理解・生成を統合したマルチモーダルモデルの重要性が高まっている。
- 理解と生成の一貫性，複雑な視覚タスクへの汎化能力を評価する厳格なベンチマークが存在しなかった。
- 理解と生成の整合性，論理的制約に基づく生成，多段階推論編集の能力を評価する。
- GIR-Benchは，理解・生成の一貫性，テキストからの画像生成，画像編集の3つの側面から評価する。
- 統一モデルは推論駆動型視覚タスクにおいてより高い能力を示す一方，理解と生成の間には依然としてギャップが存在する。
- タスク固有の評価パイプラインにより，バイアスを軽減し，詳細かつ解釈可能な評価を可能にする。
Link: https://arxiv.org/abs/2510.11026
あなたのVARモデルは密かに効率的で説明可能な生成分類器である [cs.LG, cs.AI, cs.CV]目的：生成分類器の性能向上
- 分布の変化に対するロバスト性など，有望な特性を持つ生成分類器の研究が重要視されている。
- 拡散モデルに基づく手法が主流だが，計算コストが高く，スケーラビリティに課題がある。
- VARモデルに基づいた生成分類器を提案し，効率性と説明可能性を追求する。
- VARモデルを利用した新しい生成分類器A-VARC$^+$を提案し，精度と推論速度のトレードオフを改善した。
- VARベースの手法は，拡散ベースの手法とは異なる特性を持つことが示された。
- 尤度の計算可能性により，トークンごとの相互情報に基づく可視化による説明が可能となり，継続学習における破滅的忘却への耐性も示された。
Link: https://arxiv.org/abs/2510.12060
否定の検出を避ける方法：構造化推論とトークンマージによる否定認識VLMs [cs.CL, cs.CV, cs.AI]目的：否定認識に関するVLMsの性能向上
- 近年，画像とテキストを組み合わせたVLMsが発展しているが，その応用範囲拡大には否定表現の理解が不可欠である。
- 最先端のVLMsは否定表現の理解に弱く，肯定的なバイアスが発生しやすいという課題を抱えている。
- 否定表現の構造的な原因に対処し，VLMsの否定認識能力を向上させることを目指す。
- 新しいデータセット構築パイプラインCoVANDを導入し，高品質な否定データを作成した。
- テキストトークンマージモジュールNegToMeを提案し，トークン化における否定表現の喪失を防いだ。
- 提案手法は，否定に関するベンチマークで性能が大幅に向上し，誤検出率を低下させた。
Link: https://arxiv.org/abs/2510.13232
PAGE-4D: 動的シーンにおける姿勢と形状推定 [cs.CV]目的：動的シーンにおける姿勢推定，深度予測，点群再構成
- 現実世界での認識には，静的な環境だけでなく，動きのある要素の理解が不可欠である。
- 既存の3Dモデルは静的データで学習するため，動的な要素を含む環境での性能が課題となっている。
- 姿勢推定と形状再構成のタスク間の競合を解消し，動的シーンでの認識精度向上を目指す。
- PAGE-4Dは，動的シーンにおいて，従来のVGGTモデルを上回る性能を発揮することが示された。
- 動的要素を考慮した集約器により，姿勢推定と形状再構成の精度が向上した。
- カメラ姿勢推定，単眼およびビデオ深度推定，高密度点マップ再構成において，優れた結果が得られた。
Link: https://arxiv.org/abs/2510.17568
拡散ODEの離散化を汎化敵対的ソルバーで改善 [cs.CV, cs.LG]目的：拡散ODEソルバーの離散化改善
- 拡散モデルは高品質な生成が可能だが，計算コストが高い点が課題である。
- 既存手法は複雑な学習テクニックに依存し，微細な情報の保持が不十分な場合がある。
- 本研究は，学習技巧を必要とせず，既存手法よりも高品質なソルバーを提供する。
- 汎化ソルバーは，追加の学習トリックを必要としないシンプルなパラメータ化により，既存手法よりも品質を向上させる。
- 蒸留損失と敵対的学習を組み合わせることで，アーティファクトを軽減し，詳細な忠実度を高める。
- 汎化敵対的ソルバーは，類似した計算資源の下で，既存のソルバー学習方法と比較して優れた性能を示す。
Link: https://arxiv.org/abs/2510.17699
テスト時適応のためのバッファ層 [cs.CL, cs.CL, cs.CL, cs.LG, cs.CV]目的：テスト時適応におけるバッファ層の有効性検証
- 機械学習モデルの汎化性能向上は重要であり，特に未知のドメインへの適応が課題である。
- 従来のテスト時適応手法は正規化層に依存しており，バッチサイズの影響を受けやすいという問題がある。
- 本研究では，正規化層の更新に頼らない，バッファ層を用いた新しい適応パラダイムを提案する。
- 提案手法は，従来のテスト時適応手法と比較して，ドメインシフトへの対処能力とモデルの堅牢性を向上させる。
- バッファ層は，事前学習済みのバックボーンの完全性を維持し，破滅的忘却のリスクを軽減する。
- 本手法は様々なアーキテクチャに容易に組み込むことができ，一貫した性能改善が期待できる。
Link: https://arxiv.org/abs/2510.21271
PixelVLA：ビジョン・言語・行動モデルにおけるピクセルレベルの理解の向上 [cs.HC, cs.CV, cs.RO]目的：ビジョン・言語・行動モデルにおけるピクセルレベルの理解とマルチモーダルプロンプティングの能力向上
- ロボット制御の汎化性能向上が求められており，視覚情報と自然言語を組み合わせる手法が注目されている。
- 既存のモデルはピクセルレベルでの詳細なシーン理解が不十分で，テキストプロンプトへの依存度が高いという課題がある。
- ピクセルレベルの推論と視覚プロンプトを活用し，より柔軟で実用的なロボット制御を実現することを目指す。
- PixelVLAは，既存のOpenVLAと比較して，3つの標準VLAベンチマークで操作成功率を10.1%-28.7%向上させた。
- PixelVLAは，OpenVLAの事前学習コストの1.5%で同様の性能を達成し，効率的な学習が可能であることを示した。
- PixelVLAは，複雑な環境下におけるより正確，効率的，かつ多用途なロボット制御を可能にする。
Link: https://arxiv.org/abs/2511.01571
継続的画像復元のための畳み込みフィルタパラメータ推定における学習知識ベースの共有 [cs.CL, cs.CC, cs.CL, cs.CV]目的：継続学習における画像復元タスクへの知識転移手法
- 深層学習の発展に伴い，モデルが過去の経験を保持しつつ新たなタスクに適応する継続学習が重要視されている。
- 画像復元において，多様な劣化パターンと大きな画像サイズが課題であり，既存手法は構造変更を伴う計算コストが高い。
- 過去の復元タスクから得られた知識を再利用し，構造変更なしに新たなタスクへの適応を可能にすることを試みる。
- 提案手法は，畳み込み層の修正を通して過去の知識を転移することで，バックボーンアーキテクチャを変更せずに適応を実現する。
- モデルの学習パラメータ数を増加させつつも，計算コストや推論時間の増加を抑制できることを示す。
- 実験結果から，提案手法が既存タスクの性能を損なうことなく，新たな復元タスクの性能向上に貢献することが確認された。
Link: https://arxiv.org/abs/2511.05421
潜在力に基づく探索と意味的認知による具現化された視覚ナビゲーションの拡張 [eess.SY, cs.SY, cs.CL, cs.RO, cs.CV]目的：具現化された視覚ナビゲーションにおける探索戦略
- ロボットが未知環境を自律的に移動するための基盤技術であり，実世界への応用が期待される。
- 既存手法では，視覚的なフロンティア情報が十分に活用されておらず，長距離の計画立案が困難である。
- 視覚的フロンティア情報を活用し，より効率的かつ目標に関連した探索を実現することを目指す。
- 提案手法SCOPEは，フロンティア情報を活用した潜在力に基づく探索により，より情報に基づいた意思決定を可能にする。
- SCOPEは，Vision-Language Modelを用いて探索潜在力を推定し，時空間潜在グラフとして表現することで，境界の動的変化を捉える。
- 実験結果から，SCOPEが最先端手法を4.6％上回り，高い精度と汎化性能を示すことが確認された。
Link: https://arxiv.org/abs/2511.08935
StyleQoRA：少数ショット多スタイル編集のための品質を考慮した低ランク適応 [cs.CV]目的：少数ショット多スタイル編集のための品質を考慮した低ランク適応手法
- 画像編集技術は発展途上であり，多様なスタイルへの対応が求められている。
- 汎用的な画像編集モデルは，新しいスタイルに対して十分な性能を発揮できない場合がある。
- 少ないペアデータとパラメータで，新しいスタイルに効果的に適応することを可能にする。
- 提案手法StyleQoRAは，各層の最適なランクを自動的に決定する。
- Mixture-of-Experts LoRAとハイブリッドルーティングにより，スタイルの特化と知識共有のバランスを取る。
- DiTモデル内へのLoRA挿入場所の最適化，敵対的学習，フローマッチングを統合することで，性能を向上させている。
Link: https://arxiv.org/abs/2511.11236
合成シーンから実世界への性能向上：VLMにおける空間推論の強化 [cs.CV, cs.CL]目的：VLMの空間推論能力の向上
- VLMは画像と言語を理解する重要技術であり，様々な応用が期待されている。
- 実世界のデータを用いたファインチューニングは，バイアスやエラー，分布の偏りを生みやすい。
- 高品質でバランスの取れた合成データを用いたファインチューニングにより，問題を解決する。
- バランスの取れた合成データでファインチューニングすることで，視覚シーン全体で均一な性能が得られ，一般的なバイアスを軽減できることが示された。
- 合成データでのファインチューニングは，COCOデータセット全体でファインチューニングされたモデルを上回り，実世界データ（COCO）での性能を13%向上させる。
- 本研究は，データ生成と注釈の制御を通じて，VLMの空間推論能力を効果的に向上させる新たなアプローチを提供する。
Link: https://arxiv.org/abs/2511.11440
画像なしで学習は可能か？ Vision Transformer のための手続き的ウォームアップ [cs.CV]目的：Vision Transformer の抽象的な計算事前知識の獲得
- Transformer は多様な分野で利用可能であり，汎用的な誘導バイアスを持つことが示唆されている。
- Vision Transformer は大量の画像データが必要であり，データ効率が課題となっている。
- 手続き的に生成されたデータを用いて事前学習を行い，データ効率の向上を目指す。
- 手続き的データによるウォームアップは，ViT のデータ効率，収束速度，下流タスクの性能を向上させる。
- ImageNet-1K で，学習予算のわずか 1% を手続き的データに割り当てるだけで，最終的な精度が 1.7% 以上向上する。
- 手続き的データ 1% は，ImageNet-1K データ 28% に相当する効果があることが示された。
Link: https://arxiv.org/abs/2511.13945
ビデオコンテンツカスタマイズにおける最初のフレームの役割 [cs.CV]目的：ビデオ生成モデルにおける最初のフレームの機能解明と，それを利用したコンテンツカスタマイズ手法
- 近年，ビデオ生成モデルが発展しているが，その性能を最大限に引き出すには，モデルの内部動作の理解が不可欠である。
- 既存の研究では，最初のフレームは単なる初期状態と見なされており，その潜在的な能力が十分に活用されていない。
- 本研究では，最初のフレームが視覚的要素の記憶領域として機能することを示し，少ないデータでのカスタマイズを可能にする。
- ビデオ生成モデルが，最初のフレームを概念的なメモリバッファとして利用し，視覚的要素を再利用していることを明らかにした。
- わずか20～50個の学習例のみで，多様なシナリオにおいて，アーキテクチャ変更や大規模なファインチューニングなしに，堅牢かつ汎化性能の高いビデオコンテンツのカスタマイズが可能になった。
- ビデオ生成モデルにおける参照ベースのビデオカスタマイズの強力で見過ごされてきた能力を明らかにした。
Link: https://arxiv.org/abs/2511.15700
時間制約下における敵対的影響遮断最大化 [cs.SI, cs.GR]目的：敵対的影響を打ち消すための陽性シードノード集合の選択
- ソーシャルネットワーク等の影響力最大化問題は，社会現象の予測やマーケティング等に応用が期待される重要な研究分野である。
- 既存研究では，時間制約下での影響力最大化や，目的関数の劣モジュラリティの保証が十分でないという課題があった。
- 時間制約を考慮し，目的関数の劣モジュラリティを理論的に保証することで，より効率的な影響力最大化手法を開発することを目指す。
- 時間制約を明示的に組み込んだTC-AIBM問題を定義し，3種類の判定ルール下で目的関数の劣モジュラリティを証明した。
- TC-AIBM問題を解くためのBidirectional Influence Sampling (BIS)アルゴリズムを提案し，近似保証 $(1-1/e-\epsilon)(1-\psi)$ を確立した。
- 実データを用いた実験により，提案手法BISは様々な条件下で優れた性能を示し，既存手法を上回る堅牢性と高速性を確認した。
Link: https://arxiv.org/abs/2511.16068
透過シーンにおける制御可能な深度推定：DepthFocus [cs.CV]目的：透過性のあるシーンにおける深度推定の制御
- 現実世界の深度は多様であり，正確な深度認識はロボティクスやAR/VR等の応用において不可欠である。
- 従来の深度推定手法は，透明な素材による曖昧さを解決できず，精度が制限されていた。
- 人間の視覚のように，意図的に特定の深度に焦点を当てられる深度推定手法を開発する。
- DepthFocusは，Vision Transformerを用いて深度推定を条件付き制御として再定義することで，最先端の結果を達成した。
- 特に透明および反射するシーンにおいて，深度の曖昧さを効果的に解決し，既存の多層手法を凌駕する性能を示した。
- 新たな大規模合成データセットを活用し，単層および多層の複雑なシナリオの両方で優れた性能を実証した。
Link: https://arxiv.org/abs/2511.16993
小型マルチモーダルモデルにおける知能の縮小：知覚と推論のボトルネックの探求 [cs.CV]目的：マルチモーダルモデルの縮小における知能低下の分析
- マルチモーダルモデルは視覚理解と推論において進歩しているが，実用上は小型で効率的なシステムが求められる。
- モデル縮小時に視覚能力が著しく低下する傾向があり，その原因が不明である。
- 視覚能力低下のボトルネックを解消し，効率性と性能を両立する手法を開発する。
- LLMの縮小は，LLM本来の能力よりも視覚能力に大きな影響を与えることが示された。
- 視覚能力の低下は，推論能力の低下だけでなく，より根本的な知覚能力の損失に起因する可能性がある。
- 視覚的特徴抽出チューニングと段階的推論を組み合わせたExtract+Thinkアプローチにより，効率性と性能が向上した。
Link: https://arxiv.org/abs/2511.17487
時宜を得た一手：自己教師ありPlackett-Luceランキングによる手続き型ワークフロー学習 [cs.CV, cs.AI]目的：手続き型活動におけるワークフローの学習
- 人間の様々な活動は，時間的な順序を持つ一連の行動であり，その理解はロボット工学等に不可欠である。
- 既存の自己教師あり学習は静止画像や短いクリップに重点を置いており，手続き型活動の順序構造を捉えきれていない。
- ビデオフレームの順序情報を活用し，手続き型活動のワークフローをより正確に学習することを目指す。
- 提案手法PL-Stitchは，フレームの時系列順序を学習させるPlackett-Luceモデルに基づく新しい自己教師あり学習フレームワークである。
- PL-Stitchは，手術および調理の5つのベンチマークにおいて，既存手法を上回る性能を示した。
- 特に，手術フェーズ認識と調理アクションセグメンテーションにおいて，大幅な精度向上を実現している。
Link: https://arxiv.org/abs/2511.17805
MetroGS：幾何学的に正確で高忠実度な大規模シーンの効率的かつ安定な再構築 [cs.CV]目的：大規模シーンの効率的かつ安定な高精度再構築
- 3Dシーンの再構築は，メタバースや自動運転など，様々な分野で不可欠な技術である。
- 既存手法では，大規模で複雑なシーンにおいて，高品質な幾何学的忠実度を維持することが困難である。
- 本研究は，都市環境における再構築の効率と安定性を向上させ，高精度な大規模シーン再構築を目指す。
- MetroGSは，分散2D Gaussian Splatting表現を基盤とし，複雑な都市環境下での効率的かつロバストな再構築を実現する。
- SfMプライアとポイントマップモデルを用いた構造化された高密度化スキームにより，疎な領域の補完と再構築の完全性を高める。
- 単眼およびマルチビュー最適化を統合したプログレッシブハイブリッド幾何学的最適化戦略により，効率的かつ正確な幾何学的洗練を実現する。
Link: https://arxiv.org/abs/2511.19172
IDSplat：インスタンス分解に基づく3Dガウススプラッティングによる運転シーンの再構成 [cs.CV]目的：運転シーンの動的な再構成
- 自動運転システムの開発には，現実的なセンサーシミュレーションが不可欠である。
- 既存手法は，高コストなアノテーションに依存，または静的・動的要素が混在し分離が困難である。
- 人間のアノテーションなしに，明示的なインスタンス分解と学習可能な軌跡で再構成を目指す。
- 提案手法IDSplatは，自己教師あり3Dガウススプラッティングフレームワークとして，動的なシーンをインスタンス分解して再構成する。
- ゼロショット言語に基づいたビデオトラッキングと特徴量照合により，一貫性のある姿勢推定を実現する。
- Waymo Open Datasetでの実験により，高い再構成品質とインスタンスレベル分解を両立し，汎用性も実証した。
Link: https://arxiv.org/abs/2511.19235
都市環境における歩行者横断意図予測のためのマルチコンテキスト融合Transformer [cs.CV, cs.AI]目的：歩行者の横断意図予測の精度向上
- 自動運転技術の安全性向上に不可欠であり，交通事故削減に貢献する。
- 都市環境では，歩行者の行動に影響する要素が多岐にわたり，正確な予測が困難である。
- 多様なコンテキスト情報を融合し，より精度の高い歩行者意図予測を実現する。
- 提案手法MFTは，JAADbeh，JAADall，PIEの各データセットで，それぞれ73％，93％，90％の精度を達成した。
- MFTは，歩行者，環境，位置，車両の動きという４つのコンテキストを段階的に融合することで，効果的な特徴抽出を実現した。
- アブレーションスタディにより，ネットワーク構造と各入力コンテキストの有効性が確認された。
Link: https://arxiv.org/abs/2511.20011
SelfMOTR：自己生成検出事前知識を用いたMOTRの再検討 [cs.CV]目的：自己生成内部検出事前知識による提案探索とアソシエーションの分離
- マルチオブジェクトトラッキングは，自動運転やロボティクス等の応用において不可欠な技術である。
- 従来のトラッキング手法では，検出性能の低さや検出とアソシエーションの競合が課題となっていた。
- 本研究では，検出器を用いないシンプルな手法により，この課題を解決することを目指す。
- SelfMOTRは，既存のtransformerトラッカーが持つ潜在的な検出能力を活用するdetector-freeな手法である。
- Track Attention Mass分析により，標準的なクエリが不均衡な注意を示し，トラックコンテキストと新規オブジェクト検出のバランスを取るのが難しいことが示された。
- DanceTrackで69.2 HOTA，Bird Flock Trackingで71.1 HOTAを達成し，高い性能を実証した。
Link: https://arxiv.org/abs/2511.20279
UAVLight：無人航空機(UAV)シーンにおける照明ロバストな3D再構成のためのベンチマーク [cs.CV]目的：照明ロバストな3D再構成の評価基盤
- 屋外環境における3D再構成の応用拡大が期待される。
- 照明条件の変化が，再構成精度やテクスチャの一貫性を損なう。
- 照明変化の影響を分離し，ロバストな再構成手法の開発を促進する。
- UAVLightは，一貫したジオメトリ，キャリブレーション，視点のもとで，時間帯を変えて複数回飛行経路を繰り返し撮影することで，自然な照明変化を実現した。
- このデータセットは，標準化された評価プロトコルを用いて，様々な照明条件下での再構成手法の性能を比較することを可能にする。
- UAVLightは，実環境において一貫性，忠実性，再照明性を備えた再構成手法の開発を支援する。
Link: https://arxiv.org/abs/2511.21565
グループ相対方策最適化によるリアルタイム長期間大気質予測 [cs.CV, cs.AI]目的：リアルタイム長期間の大気質予測のためのフレームワーク
- 大気汚染は人々の健康に深刻な影響を与え，その予測は公衆衛生対策において不可欠である。
- 複雑な地形や大気力学を持つ地域では，正確な予測が困難であり，地域特有の動態を捉えることが課題である。
- 非対称な運用コストを考慮し，誤報を減らしつつ重大な事象の見逃しを防ぐことで，予測の信頼性を向上させる。
- 本研究では，東アジアにおける地域誤差を59.5%削減し，リアルタイムでの48-120時間予測を可能にする高解像度データセットを構築・公開した。
- グループ相対方策最適化(GRPO)を導入し，誤報率を47.3%削減し，F1スコアも維持することで，予測の信頼性を大幅に向上させた。
- 本フレームワークは，実用的な長期間の大気質予測システムにおいて効果的であることが示された。
Link: https://arxiv.org/abs/2511.22169
自律運転における軌道計画のための基盤モデル：進捗と今後の課題に関するレビュー [cs.RO, cs.CV]目的：自律運転における軌道計画のための基盤モデルに関する進捗と課題
- 自動運転技術は，交通システムの効率化と安全性の向上に不可欠であり，社会実装が期待されている。
- 従来の軌道計画は手作業による設計に依存し，多様な環境への適応が困難であった。
- 基盤モデルを用いることで，生の感覚情報から直接軌道推論を可能にし，多様な状況に対応する。
- マルチモーダル基盤モデルの出現により，自動運転技術は大きく変革しつつある。
- 本レビューでは，37の最近提案された手法を網羅的に調査し，そのアーキテクチャと方法論を評価した。
- また，ソースコードとデータセットの公開状況を評価し，実務家や研究者にとって有益な情報を提供している。
Link: https://arxiv.org/abs/2512.00021
衛星から現地へ：災害影響度推定器 [cs.CV, cs.AI]目的：災害影響度推定
- 災害発生時の迅速な復旧活動には，正確な被害状況の把握が不可欠である。
- 従来の被害状況把握は人手による衛星画像解釈に依存し，時間と労力を要する。
- 大規模災害時の迅速かつ客観的な被害状況把握を可能にすること。
- 本研究で開発されたフレームワークは，既存のセグメンテーションネットワークと比較して，より高い精度で被災地域の分類を実現する。
- 生成された被害マップは，専門家の判断を補完する形で，災害影響の分析を迅速化し，客観性を高める。
- 本システムは，軽微な影響から完全な破壊まで，被害の程度を識別し，より詳細な状況把握に貢献する。
Link: https://arxiv.org/abs/2512.00065