arXiv雑要約

画像・音声 - 2026/05/12 公開

EMFormer：累積的コンテキストを用いた効率的なマルチスケールTransformerによる長期天気予報 [cs.CL, cs.CL, cs.CY, cs.CV]目的：長期天気予報の精度向上
- 社会経済計画や災害対策において，長期的な天気予報は不可欠である。
- 既存手法は，破局的忘却，誤差の蓄積，高い学習コストといった課題を抱えている。
- マルチスケール特徴抽出と累積的コンテキストファインチューニングにより，これらの課題を解決する。
- 提案手法EMFormerは，天気予報および異常気象予測において高い性能を発揮し，長期予報の精度を大幅に向上させる。
- EMFormerは，ImageNet-1KやADE20Kといったビジョンベンチマークでも優れた汎化性能を示す。
- 従来のマルチスケールモジュールと比較して，5.69倍の高速化を実現している。
Link: https://arxiv.org/abs/2602.01194
トップk混合注意：スケーラブルな高速重みによる効率的な注意機構 [cs.LG, cs.CV]目的：効率的な注意機構の実現
- Transformerの自己注意機構は自然言語処理の基盤であり，その効率化は重要である。
- Transformerの注意機構は系列長が長くなるほど計算量が膨大になり，スケーラビリティが課題である。
- 本研究では，高速重みをスケーラブルにするための新しい注意機構を提案し，効率性と表現力を両立することを目指す。
- 提案手法MiTAは，ランドマーククエリを用いてトップkのキーバリューペアを動的に集約し，柔軟な高速重みエキスパートを実現した。
- MiTAは従来のMoE注意機構の剛性を克服し，トップk注意機構のスケーラビリティを向上させた。
- 画像認識タスクにおける実験により，MiTAの有効性と効率性が確認された。また，トークン剪定効果や標準的な注意機構からの容易な汎化性も明らかになった。
Link: https://arxiv.org/abs/2602.01219
SpatiaLab：ビジョン言語モデルは現実世界で空間推論を実行できるか？ [cs.CV, cs.CE, cs.CL, cs.LG]目的：ビジョン言語モデルにおける空間推論能力の評価
- 空間推論は人間の認知の基本であり，AIの高度化に不可欠である。
- 既存の評価は合成データや限定的なタスクに偏り，現実世界の複雑さを捉えられていない。
- 現実的で制約のない状況下での空間推論能力を評価し，課題を明らかにすること。
- SpatiaLabは，相対位置，奥行き，向きなど，多様な空間タスクを含む大規模なベンチマークである。
- 最先端のビジョン言語モデルは，人間のパフォーマンスと比較して空間推論能力に大きな差があることが示された。
- SpatiaLabは，現実世界の空間推論におけるビジョン言語モデルの限界を明らかにし，今後の研究の方向性を示す。
Link: https://arxiv.org/abs/2602.03916
SEIS：ニューラル表現に対する部分空間ベースの等変性と不変性のスコア [cs.LG, cs.CV]目的：ニューラル表現における幾何学的変換への応答性を評価する指標
- 学習された特徴が意味のある空間構造を保持しているか評価することは重要である。
- 既存手法では内部表現の幾何学的情報の構造が不明確であり，情報損失と再符号化を区別できない。
- 幾何学的変換に対する等変性と不変性を分離し，層ごとの特徴表現を分析することを目的とする。
- SEISは，ラベルや変換の知識なしに等変性と不変性を分離する部分空間ベースの指標である。
- 畳み込みエンコーダは，層が深くなるにつれて強い等変性から不変性へと移行し，訓練初期に安定する。
- セグメンテーションデコーダでは，後続の層で等変性が回復する傾向がある。データ拡張やマルチタスク学習が等変性と不変性を強化する。
Link: https://arxiv.org/abs/2602.04054
NixとFix：拡散モデルによる3Dガウススプラッティングの1000倍圧縮 [cs.CV]目的：3Dガウススプラッティングの極限圧縮手法
- 3Dコンテンツのリアルタイムレンダリング需要が高まる中，効率的なデータ表現が重要となる。
- 3Dガウススプラッティングは高速だが，データサイズが大きく，低帯域幅環境での利用が課題である。
- 圧縮による画質劣化を抑制し，高圧縮率と高画質の両立を目指す。
- 本研究では，拡散モデルを用いた新たな圧縮手法NiFiを提案し，極めて低いデータサイズ（0.1MB）での高品質なレンダリングを実現した。
- NiFiは，アーティファクトを考慮した蒸留により，従来の3Dガウススプラッティングと同等の知覚的品質を1000分の1のデータ量で達成する。
- これにより，低帯域幅環境における3Dガウススプラッティングの応用範囲が広がる。
Link: https://arxiv.org/abs/2602.04549
SAR-RAG：意味検索，検索，MLLM生成によるATR視覚質疑応答 [cs.CV, cs.AI, eess.IV]目的：合成開口レーダー（SAR）画像における自動標的認識（ATR）の性能向上
- 国防・安全保障において，SARは軍事車両の位置検知・監視に不可欠。車両識別は困難を伴う。
- SAR画像における車両の識別は難しく，種類，特性，寸法の特定が課題となっている。
- 過去の類似画像事例を活用し，車両カテゴリの比較を通じてATRの予測精度を改善する。
- 提案手法SAR-RAGは，MLLMと意味埋め込みベクトルデータベースを組み合わせることで，文脈に基づいた画像事例の検索を可能にする。
- 過去の標的画像事例を検索・比較することで，SAR-RAGはATR予測精度を向上させる。
- 検索・分類精度，車両寸法の数値回帰といった評価指標において，MLLMベースラインと比較して改善が確認された。
Link: https://arxiv.org/abs/2602.04712
Transformerの構造化プルーニングにおける閉形式のワンショット表現保持手法 [cs.LG, cs.CV]目的：Transformerの構造化プルーニングによる効率化
- Transformerは高性能だが，計算コストとメモリ使用量が大きい。
- 従来の構造化プルーニングは再学習や多段階最適化が必要で，実用性が低い。
- 教師なしデータのみで，再学習なしに構造化プルーニングを実現する。
- CORPは，MLP次元とAttentionサブ構造を閉形式で除去する。
- 再学習なしで高い精度を維持しつつ，モデルのスパース性を高めることができる。
- DeiT-Hugeでは，50%の構造をプルーニング後も83.27%のTop-1精度を達成した。
Link: https://arxiv.org/abs/2602.05243
事前学習済み自己教師ありモデルのための統計的フローマッチングによる効率的なデータセット蒸留 [cs.CV]目的：データセット蒸留による，コンパクトなデータセットの合成
- 深層学習モデルの性能はデータ量に依存するため，データ効率化が重要である。
- 大規模なデータセットを用いる処理コストやメモリ消費量が課題となっている。
- 計算コストとメモリ使用量を削減しつつ，高性能な蒸留データセットの作成を目指す。
- 統計的フローマッチングにより，従来の勾配マッチングよりもメモリ使用量を10分の1，実行時間を4分の1に削減した。
- 合成画像が元のデータセットの統計的フローを再現することで，同等以上の性能を実現した。
- 元のデータセットで学習した分類器を再利用する戦略により，ストレージを削減しつつ性能向上を実現した。
Link: https://arxiv.org/abs/2602.05391
マーカーを用いない高精度かつアクセス可能なニューロナビゲーション [cs.CV, eess.IV]目的：ニューロナビゲーションの精度向上と利用の容易化
- 脳神経外科やリハビリテーション等の分野で，精密な治療や研究を支援する技術として重要である。
- 従来のシステムはマーカーが必要で，装着や位置ずれ，患者への負担が課題となっていた。
- 低コストなカメラとアルゴリズムを用いて，マーカー不要で高精度なニューロナビゲーションを実現する。
- 提案手法は，従来のマーカーベースシステムと同等の精度（中央値で2.32mm，2.01度）を達成した。
- 特に経頭蓋磁気刺激法（TMS）において十分な精度を示し，過去のマーカーレス手法を上回る性能である。
- 複数のカメラセンサーデータを統合することで，さらなる精度向上が期待される。
Link: https://arxiv.org/abs/2602.07052
Raster2Seq：間取り図再構成のためのポリゴン系列生成 [cs.CV]目的：間取り図のポリゴン系列生成
- 間取り図は，自動理解やCADワークフローといった計算タスクの重要な前提となる構造化されたベクトルグラフィックス表現である。
- 既存手法では，多くの部屋と多様なポリゴン角を持つ複雑な間取り図の構造と意味を正確に生成することが困難である。
- 本研究は，複雑な間取り図の構造と意味を忠実に再現する手法を開発し，間取り図再構成の精度向上を目指す。
- 提案手法Raster2Seqは，間取り図再構成を系列to系列タスクとして捉え，部屋，窓，ドアなどの要素を，形状と意味を同時に符号化するラベル付きポリゴン系列として表現する。
- 自己回帰的なデコーダにより，画像特徴と以前に生成された角に基づいて次の角を予測し，学習可能なアンカーのガイダンスを受ける。
- Structure3D，CubiCasa5K，Raster2Graphなどの標準ベンチマークで最先端の性能を達成し，WAFFLEのような複雑なデータセットへの高い汎化性能を示す。
Link: https://arxiv.org/abs/2602.09016
HLGFA：高解像度・低解像度誘導特徴量アラインメントによる教師なし異常検知 [cs.CV]目的：教師なし異常検知のための特徴量アラインメント手法
- 近年の製造業において，欠陥検知の自動化が求められており，異常検知技術の重要性が高まっている。
- 異常サンプルが不足しているため，従来の教師あり学習に基づく異常検知手法の適用が困難である。
- 高解像度・低解像度の特徴量整合性を利用することで，ピクセルレベル再構成に依存しない異常検知を実現する。
- HLGFAは，高解像度と低解像度の特徴量間の整合性をモデル化することで，正常性を学習する。
- MVTec ADデータセットにおいて，ピクセルレベルAUROC 97.9%，画像レベルAUROC 97.5%を達成し，既存手法を上回る性能を示した。
- ノイズに強いデータ拡張戦略を導入することで，産業環境で一般的なノイズの影響を抑制することに成功した。
Link: https://arxiv.org/abs/2602.09524
行動単位制御によるリアルな感情表現対話頭部生成 [cs.CV]目的：リアルな感情表現対話頭部生成手法
- 仮想アバターや映像制作において，自然な対話頭部生成は不可欠である。
- 既存手法では，微細な感情制御が難しく，表情の自然さに課題がある。
- 感情の微細な制御を可能にし，よりリアルな対話頭部生成を目指す。
- 本研究では，行動単位(AU)を制御することで感情表現の再現性を高める二段階手法を提案した。
- 大規模言語モデルを活用し，音声からAUを生成する機構と，生成されたAUに基づいて対話頭部を生成する拡散モデルを組み合わせた。
- 評価実験の結果，感情のリアリティ，リップシンクの精度，映像の一貫性において既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2602.09534
確率的行動集合を持つゲームにおける均衡の計算 [cs.IR, cs.MS, cs.GT]目的：確率的行動集合を持つゲームにおけるナッシュ均衡の表現と計算
- ゲーム理論は，経済学，政治学，コンピュータ科学など，多様な分野で意思決定の分析に不可欠である。
- 現実のゲームでは，プレイヤーが利用可能な行動が確率的に制限される状況が頻繁に存在する。
- 確率的行動集合を持つゲームにおけるナッシュ均衡を効率的に計算する方法を確立すること。
- プレイヤーの行動の利用可能性が独立であるという仮定の下，2人零和ゲームにおけるナッシュ均衡は，行動集合のサイズのベクトルでコンパクトに表現できる。
- 睡眠内部後悔を最小化する効率的なアルゴリズムSI-MWUを導入し，2人零和ゲームにおけるナッシュ均衡へ確率的に収束することが示された。
- SI-MWUの反復を用いて，コンパクトに表現されたナッシュ均衡を復元するための確率的近似に基づく手法が開発された。
Link: https://arxiv.org/abs/2602.16234
試行錯誤から学ぶ：具現化されたLLMのためのテスト時計画における内省 [cs.LG, cs.AI, cs.CL, cs.CV, cs.RO]目的：具現化されたLLMにおけるテスト時計画への内省の統合
- ロボットのタスク遂行能力向上には，高度な推論能力が不可欠である。
- 既存のLLMは，失敗から学習せず，同じ過ちを繰り返してしまうという課題がある。
- 本研究は，内省機構を導入することで，LLMの継続的な学習と改善を目指す。
- 本研究で提案するReflective Test-Time Planningは，行動実行前後の内省により，ロボットの行動を改善する。
- Long-Horizon HouseholdやMuJoCo Cupboard Fittingのベンチマークにおいて，既存モデルを大きく上回る性能を示した。
- 現実環境や実機ロボットでの実験においても，高い汎化能力と有効性が確認された。
Link: https://arxiv.org/abs/2602.21198
MultiAnimate：姿勢誘導による画像アニメーションの拡張性向上 [cs.CV]目的：複数キャラクターの画像アニメーション手法
- 近年の映像生成技術の発展に伴い，リアルな人物アニメーションへの期待が高まっている。
- 拡散モデルを用いた既存手法は単一キャラクターに限定され，複数キャラクターへの拡張が困難であった。
- 複数キャラクター間の識別と自然な遮蔽表現を実現し，拡張性の高いアニメーション手法を確立する。
- 提案手法は，Identifier AssignerとIdentifier Adapterという新モジュールを導入し，キャラクターの識別と位置関係を捉える。
- わずか2キャラクターのデータで学習するだけで，より多くのキャラクター数にも対応可能な汎化性能を実現した。
- 実験結果から，提案手法が既存の拡散モデルベースラインを上回り，最先端の性能を達成することが示された。
Link: https://arxiv.org/abs/2602.21581
TrajTok: 軌跡トークン学習によるより良い動画理解 [cs.CV]目的：動画理解の性能向上
- 動画処理分野は，様々な応用への展開が期待され，重要性が増している。
- 従来の動画モデルはトークン数が多く，計算効率が課題となっていた。
- 動画のセマンティックな複雑さに応じてトークン粒度を動的に調整することで，効率性と性能を両立すること。
- 提案手法TrajTokは，動画の空間・時間的なピクセルクラスタリングにより，オブジェクトの軌跡を直接生成する。
- TrajTokを用いた動画CLIPモデル(TrajViT2)は，分類と検索の両ベンチマークで高い精度を達成し，効率性も優れている。
- TrajTokはトークナイザーとしてだけでなく，事前学習済み特徴のプロービングヘッドや，ビジョン言語モデルの接続器としても利用可能である。
Link: https://arxiv.org/abs/2602.22779
AIの従順性の探求：なぜ純色画像の生成はサイバーパンクよりも難しいのか [cs.CL, cs.CV, cs.AI]目的：AIの従順性に関する概念の定式化と，決定論的精度を評価するためのベンチマークの提案
- 生成AIの進化は目覚ましいが，単純なタスクでの失敗が課題となっている
- 複雑な画像生成能力が高いモデルでも，単純なタスクでは性能が低下する現象が見られる
- AIが確率的近似からピクセルレベルの決定論へ移行する能力を評価し，指示への適合性を高める
- 生成AIモデルにおける「単純性のパラドックス」を明らかにし，美的バイアスが原因であることを指摘した。
- AIの従順性を評価するための階層的フレームワーク（レベル1～5）と，決定論的タスクのベンチマーク「Violin」を導入した。
- 閉鎖系モデルは一般的に，オープンソースモデルよりも決定論的精度が高いことが示された。
Link: https://arxiv.org/abs/2603.00166
内在的な自己確信度報酬を用いたテキスト画像生成の改善 [cs.CV, cs.AI]目的：テキスト画像生成の品質向上
- デザイン，メディア，データ拡張など，多様なコンテンツ作成を可能にする重要な技術である。
- 生成モデルと人間の嗜好，事実，美観の整合性が課題となっている。
- 外部報酬モデルを用いず，内部の自己確信度に基づき生成品質を改善する。
- SOLACEは，モデル自身の出力を再ノイズ化し，ノイズの復元精度を自己確信度として評価する。
- この内在的な信号を報酬に変換し，強化学習により高確信度の画像を生成することで，性能が向上する。
- SOLACEは，合成生成，テキストレンダリング，テキスト画像整合性の改善に寄与する。
Link: https://arxiv.org/abs/2603.00918
行動誘導型注意機構を用いた動画における行動予測 [cs.CV]目的：動画における行動予測の精度向上
- 動画理解は，ロボット工学や監視システムなど，多様な応用分野で重要である。
- 既存手法は，視覚的特徴に過剰適合し，汎化性能が低いという課題がある。
- 行動予測において，潜在的な意図を捉え，より効果的な注意機構を開発すること。
- 提案手法である行動誘導型注意機構（AGA）は，予測される行動系列をクエリとキーとして利用し，過去の重要な瞬間を強調する。
- 実験の結果，AGAはEPIC-Kitchens-100ベンチマークにおいて，未知のテストセットへの汎化性能が高いことが示された。
- 学習後の分析により，モデルが獲得した行動依存性や反事実的証拠を可視化し，予測の解釈可能性を高めることが可能となった。
Link: https://arxiv.org/abs/2603.01743
COP-GEN：コペルニクス地球観測データのための潜在拡散変換器 [cs.IR, cs.CV]目的：異種地球観測データの共同分布のモデリング
- 地球観測は多様なセンサーデータ利用が不可欠であり，データの統合にはモダリティ間の関係性の理解が重要である。
- 既存モデルは決定論的であり，不確実性や多様性を表現できず，データ補完やセンサー間変換に課題がある。
- モダリティ間のマッピングを条件付き分布としてパラメータ化することで，柔軟なデータ生成と変換を実現する。
- COP-GENは，光学，レーダー，標高データにおいて，多様かつ物理的に整合性の取れた観測結果を生成する。
- モデルは，条件付け情報が増加するにつれて，出力の不確実性を適切に調整する。
- 実観測データの90%をカバーし，既存手法と比較して大幅に高い性能を示す。
Link: https://arxiv.org/abs/2603.03239
推論効果を考慮したデータキュレーションのための二重チューニング：マルチモーダルLLMの学習における活用 [cs.CL, cs.CV]目的：マルチモーダルLLM学習における，推論効果を考慮したデータキュレーションの枠組み
- 大規模言語モデルの性能向上は，複雑なタスクへの応用を可能にし，AI技術の発展に不可欠である。
- 推論能力の学習は計算資源を消費し，ユーザーにとっても使い勝手が悪い場合がある。データ選定の基準が確立されていない。
- 推論学習が有効なデータと，直接回答学習に適したデータを選定し，学習戦略を最適化することを目指す。
- Dual Tuningは，学習データが推論学習に有効かどうか，そして現在のCoTコンテンツを用いた推論学習が，非推論的アプローチよりも優れているかを同時に評価する。
- 空間，数学，学際的なタスクにおいてDual Tuningを適用した結果，推論学習に貢献するデータ，直接回答学習に適したデータ，両方の学習モードで悪影響を及ぼすデータを特定できた。
- 本研究は，適切な学習データを選択し，ポストトレーニング戦略を整合させるための定量的な基準を提供する。
Link: https://arxiv.org/abs/2603.04415
UniUncer：エンドツーエンド運転のための統一ダイナミック静的不確実性 [cs.RO, cs.CV]目的：エンドツーエンド運転における静的および動的なシーン要素に対する不確実性の推定と活用
- 自動運転技術は，安全性向上や交通効率化に不可欠であり，その重要性は増している。
- エンドツーエンド運転は，センサーノイズや曖昧な状況判断に弱く，信頼性に課題がある。
- 静的マップと動的要素の両方における不確実性を統合的に扱うことで，より安全な運転計画を目指す。
- UniUncerは，静的・動的要素の不確実性を同時に推定・活用する軽量なフレームワークである。
- nuScenesでの実験により，平均L2軌道誤差が7％減少したことが示された。
- NavsimV2では，EPDMSが10.8％向上し，特にインタラクションが多いシーンで顕著な効果が確認された。
Link: https://arxiv.org/abs/2603.07686
音声ディープフェイク検出におけるジェンダー公平性：性能と格差分析 [cs.SD, cs.AI]目的：音声ディープフェイク検出モデルにおけるジェンダー依存の性能と公平性
- 音声認証システムにおいて，AI生成音声の検出は重要性を増しており，不正利用防止に不可欠である。
- 音声ディープフェイク検出技術は進歩しているが，ジェンダーバイアスに関する研究は十分に進んでいない。
- 従来の評価指標では見過ごされる可能性のある，ジェンダー間の誤り分布の格差を明らかにすること。
- 全体的なエラー率の差が小さくても，公平性評価を行うことで，ジェンダー間の誤り分布に格差が存在することが示された。
- 従来の評価指標のみに頼ることは信頼性が低く，公平性指標が特定の属性における失敗モードを明確にする。
- より公平で堅牢，かつ信頼性の高い音声ディープフェイク検出システムを開発するためには，公平性を考慮した評価が重要である。
Link: https://arxiv.org/abs/2603.09007
EvoDriveVLA：協調的知覚・計画蒸留による運転VLAモデルの進化 [cs.DB, cs.CV, cs.AI]目的：運転VLAモデルの進化
- 自動運転技術の発展は，安全性向上と効率化に不可欠である。
- VLAモデルは知覚性能の低下と長期計画における不安定性の蓄積に課題がある。
- 知覚と計画の協調的蒸留により，これらの課題を克服し性能向上を目指す。
- EvoDriveVLAは，自己アンカー知覚制約と未来予測に基づく軌道最適化を統合した新しいフレームワークである。
- nuScenesのオープンループ評価で最先端の性能を達成し，NAVSIMのクローズドループ評価でも大幅な性能向上を示した。
- 自己アンカー蒸留と未来予測蒸留により，VLAモデルの知覚と計画能力を効果的に向上させる。
Link: https://arxiv.org/abs/2603.09465
OpenClaw-RL：対話によってエージェントを容易に学習する [cs.CL, cs.AI, cs.CV, cs.LG]目的：次状態信号を用いた，オンラインでのパーソナルエージェント最適化
- エージェントの性能向上は，ユーザーエクスペリエンスを大きく左右するため，継続的な改善が重要である。
- 既存の強化学習システムでは，エージェントのインタラクションから得られる次状態信号を学習に活かせていない。
- ユーザーの応答や修正といった情報を活用し，より効率的にエージェントの学習を促進すること。
- OpenClaw-RLは，サーバークライアントアーキテクチャと非同期サーバーを用いることで，次状態信号からの学習を実現した。
- 評価信号と指示信号という2種類の学習信号を組み合わせたハイブリッド強化学習目的関数を導入し，学習の安定性と効率を向上させた。
- OpenClaw-RLは，ターミナル，GUI，SWE，ツール呼び出しなど，様々な環境で実用性を示し，長期的なタスクにおいても有効であることが確認された。
Link: https://arxiv.org/abs/2603.10165
R4Det: 高性能3D物体検出のための4Dレーダー・カメラ融合 [cs.CV]目的：高性能3D物体検出
- 自動運転技術の発展において，レーダーとカメラの組み合わせは安全性向上に不可欠である。
- 既存手法では，正確な3D位置推定や姿勢推定の欠如が性能低下の要因となっている。
- 本研究は，レーダーとカメラの情報を効果的に融合し，よりロバストで正確な3D物体検出を実現する。
- 提案手法R4Detは，パノラマ深度融合モジュールにより深度推定精度を向上させている。
- 変形ゲート付き時間融合モジュールは，自己車両の姿勢推定に依存せず，時間的な情報を効果的に活用する。
- インスタンス誘導動的洗練モジュールは，2Dインスタンスガイダンスから意味プロトタイプを抽出し，小物体検出性能を改善する。
Link: https://arxiv.org/abs/2603.11566
小天体のレンダリングと再構成のための物理ベースのガウススプラッティング [cs.FL, cs.CC, cs.CV]目的：小天体の表面再構成と光度特性の改善
- 小天体探査ミッションにおいて，表面再構成は計画，航行，科学分析に不可欠である。
- 従来のガウススプラッティングは，材質や光の相互作用を明示的にモデル化しない。
- 小天体表面の自律的な再構成と光度特性評価の精度向上を目指す。
- 提案手法AstroSplatは，惑星反射モデルを統合することで，レンダリング性能を向上させる。
- NASAのDawnミッションの画像を用いて検証した結果，球面調和パラメータ化よりも高い再構成精度を示した。
- AstroSplatは，物理ベースのガウススプラッティングフレームワークとして有効性が確認された。
Link: https://arxiv.org/abs/2603.11969
Visual-ERM：視覚的等価性に対する報酬モデリング [cs.CV, cs.AI]目的：視覚的入力からコードを生成するタスクにおける報酬モデル
- 視覚情報をコードに変換する技術は，データ分析や自動化において重要な役割を担う。
- 従来の報酬関数は，視覚的な微妙な差異を捉えきれず，モデルが意図しない挙動を示す可能性がある。
- 本研究は，より正確で解釈可能な視覚的報酬モデルを開発し，視覚-コード変換の性能向上を目指す。
- 提案手法Visual-ERMは，既存のモデルと比較して，グラフ，表，SVGのコード生成において一貫した性能向上を示した。
- Visual-ERMは，特に視覚的な忠実性が重要なタスクにおいて，効果的であることが示された。
- 構築した評価ベンチマークVC-RewardBenchにおいて，Visual-ERMは高性能を示し，オープンソースモデルの有効性を実証した。
Link: https://arxiv.org/abs/2603.13224
クロス災害環境におけるドメイン適応を用いた堅牢な建物被害検出 [cs.CV, cs.AI, cs.LG]目的：クロス災害環境下での建物被害検出の堅牢性向上
- 災害対応において，迅速な被害状況把握は不可欠であり，リモートセンシング技術が重要な役割を果たす。
- 異なる地域や災害種別でのデータ分布の不一致（ドメインシフト）が，被害検出の精度低下を招く。
- ドメインシフトの影響を軽減し，未知の環境下でも信頼性の高い被害検出を実現することを目指す。
- ドメイン適応（SDA）を適用したアンサンブルアプローチにより，建物被害の分類性能が大幅に向上した。
- SDAを除去すると，被害検出は完全に失敗することから，その重要性が示された。
- シャープネス強調されたRGB入力とSDAを組み合わせることで，Macro-F1スコア0.5552を達成し，堅牢な性能を示した。
Link: https://arxiv.org/abs/2603.14694
スコアの根拠化：信頼性の高い視覚-言語プロセス報酬モデルのための明示的な視覚的前提検証 [cs.CE, stat.ML, cs.CV, cs.AI]目的：視覚-言語プロセス報酬モデルの段階的な評価における，視覚的根拠の信頼性に基づく報酬調整
- 大規模言語モデルと視覚モデルを組み合わせた推論能力の評価は，AI研究において重要性を増している。
- 従来の視覚-言語プロセス報酬モデルは，視覚的理解の誤りによる誤った評価を行いやすい。
- 視覚的前提の信頼性を明示的に検証することで，より正確な段階評価と推論性能の向上を目指す。
- 本研究で提案するEVPVは，視覚的根拠の信頼性に基づいて報酬を調整することで，段階的な検証精度を向上させる。
- VisualProcessBenchおよび6つのマルチモーダル推論ベンチマークにおいて，EVPVは既存手法と比較してBest-of-N再ランク付けの精度を向上させる。
- 制約抽出におけるノイズ注入実験は，EVPVの性能向上が視覚的制約の忠実度と明示的な前提検証に起因することを示す。
Link: https://arxiv.org/abs/2603.16253
SegviGen：3D生成モデルをパーツセグメンテーションに再利用 [cs.RO, cs.CV]目的：3Dパーツセグメンテーションのためのフレームワーク
- 3D形状の理解は，コンピュータビジョンやロボティクスなど，様々な分野で重要である。
- 大規模な3Dアノテーションデータが必要であり，学習リソースも膨大になるという課題がある。
- 事前学習済みの3D生成モデルの知識を活用し，少ない教師データで高精度なセグメンテーションを実現する。
- SegviGenは，インタラクティブなパーツセグメンテーションにおいて，従来の最先端技術を40%上回る性能を示す。
- フルセグメンテーションにおいても，15%の性能向上を達成し，わずか0.32%のラベル付き学習データで高い性能を維持する。
- 事前学習済みの3D生成モデルの知識が，3Dパーツセグメンテーションに効果的に転移することが示された。
Link: https://arxiv.org/abs/2603.16869
高速道路交通データからの行動中心シナリオ抽出とCVQ-VAEを用いたドメイン知識誘導クラスタリング [cs.CV, cs.LG]目的：自動運転システムの評価に必要な代表的な交通シナリオの抽出と分類
- 自動運転システムの承認には，実世界の交通シナリオにおける挙動評価が不可欠である。
- 既存のシナリオ抽出方法は定義が異なり，シナリオの比較が困難であるという問題がある。
- シナリオ抽出の標準化と，ドメイン知識に基づいたシナリオの分類方法を確立すること。
- 提案手法により，シナリオを信頼性高く抽出できることが示された。
- ドメイン知識をクラスタリングプロセスに効果的に統合できることが確認された。
- 本研究は，高速道路データ記録からのシナリオカテゴリ導出プロセスを標準化し，自動運転システムの効率的な検証を支援する。
Link: https://arxiv.org/abs/2603.16964
スペクトル誘導型拡散ノイズスケジュール [cs.CV, cs.LG]目的：ピクセル拡散におけるノイズスケジュールの設計
- 高品質な画像生成において拡散モデルが広く用いられており，その性能向上が求められている。
- 従来のノイズスケジュールは手動調整が必要であり，解像度ごとに最適化が困難であった。
- 画像のスペクトル特性に基づき，効率的なノイズスケジュールを自動的に設計する。
- 提案手法は，画像のスペクトル特性を利用して，インスタンスごとに最適なノイズスケジュールを生成する。
- 理論的な上限と下限を導出し，冗長なステップを排除した「タイト」なノイズスケジュールを実現した。
- 実験により，特に低ステップ数での生成品質が向上することが示された。
Link: https://arxiv.org/abs/2603.19222
文脈認識による適応型ビデオ字幕除去のためのエンドツーエンド・マスクフリー推論：CLEAR [eess.SY, cs.SY, cs.CV]目的：適応型ビデオ字幕除去のための文脈認識学習手法
- 動画コンテンツの利用拡大に伴い，字幕除去技術の重要性が増している。
- 既存手法は，学習と推論に明示的なマスクが必要であり，実用性に課題がある。
- マスクを使用せずに，エンドツーエンドで字幕除去を可能にする手法を開発する。
- CLEARは，文脈を考慮した適応学習により，マスク不要でエンドツーエンド推論を実現した。
- 中国語字幕ベンチマークにおいて，既存のマスク依存型手法をPSNRで+6.77dB，VFIDで-74.7%上回る性能を示した。
- 6言語（英語，韓国語，フランス語，日本語，ロシア語，ドイツ語）に対するゼロショット汎化性能も優れている。
Link: https://arxiv.org/abs/2603.21901
OsteoFlow：リアプノフ則に基づくフロー蒸留による顎再建後の骨リモデリング予測 [cs.CV]目的：顎再建後の骨リモデリング予測
- 顎再建後の長期的な骨変化予測は臨床的に重要である。患者のQOL向上に寄与しうる。
- 従来の生成モデルでは，長期間にわたる予測において，軌道の一貫性や解剖学的正確性を維持することが困難である。
- 長期的な予測における精度向上を目指し，連続的な軌道蒸留による新たなアプローチを提案する。
- OsteoFlowは，Day-5のCTスキャンからYear-1のCTスキャンを予測するフローベースのフレームワークである。
- リアプノフ則に基づく軌道蒸留により，幾何学的対応関係を維持しつつ，生成能力を損なわない。
- 344の領域において，手術切除領域における平均絶対誤差を約20％削減し，最先端のベースラインを大きく上回った。
Link: https://arxiv.org/abs/2603.22421
Z-Erase：シングルストリーム拡散Transformerにおける概念除去の実現 [cs.CV]目的：シングルストリーム拡散Transformerにおける概念除去手法
- テキストから画像生成モデルの安全性確保が重要視されており，不要な概念の除去は不可欠である。
- 拡散Transformerのようなシングルストリームモデルでは，既存の概念除去手法が生成崩壊を引き起こす問題がある。
- シングルストリームモデルにおける生成崩壊を克服し，概念除去の性能向上を目指す。
- 本研究で提案するZ-Eraseは，シングルストリーム拡散Transformerに特化した初の概念除去手法である。
- Stream Disentangled Concept Erasure Frameworkにより，安定した画像生成を可能にし，既存手法の適用を可能とした。
- Lagrangian-Guided Adaptive Erasure Modulationにより，概念除去と保持のバランスを最適化し，最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.25074
STRIVE：ビデオ質疑応答における強化学習のための構造化時空間探索 [cs.CV]目的：ビデオ質疑応答における強化学習のための構造化時空間探索手法
- ビデオ質疑応答は，映像と言語の理解を統合する高度なAIタスクであり，多様な応用が期待されている。
- 強化学習は報酬の変動が小さく，安定した方策の学習が難しい場合がある。
- 時空間的な変分を用いた報酬の正規化と重要度を考慮したサンプリングにより，強化学習の安定化を目指す。
- 提案手法STRIVEは，複数のビデオ質疑応答ベンチマークにおいて，既存の強化学習ベースラインを上回る性能を示した。
- 特に，構造化された時空間探索が，マルチモーダル強化学習の安定化とビデオ推論性能の向上に貢献することが示された。
- 言語的多様性に加え，視覚的な摂動を導入することで，より豊富で安定した報酬信号を得ることに成功した。
Link: https://arxiv.org/abs/2604.01824
SciLT：科学画像ドメインにおけるロングテール画像分類 [cs.CV]目的：科学画像ドメインにおけるロングテール画像分類の課題解決
- 科学研究の進展には，画像解析による効率的なデータ活用が不可欠である。
- 既存の画像認識モデルは，自然画像に偏っており，科学画像への適用が困難である。
- 科学画像特有のデータ分布に対応した，高性能なロングテール画像分類手法の開発。
- 汎用的な基盤モデルのファインチューニングだけでは，科学画像のロングテール認識において効果が限定的であることが示された。
- 最終層だけでなく，中間層の特徴量も重要であり，特に少数クラスにおいてその傾向が強いことが明らかになった。
- SciLTは，適応的な特徴量融合と二重教師あり学習により，ヘッドクラスとテールクラス間でバランスの取れた性能を実現した。
Link: https://arxiv.org/abs/2604.03687
ビデオに基づく数値推論のための包括的ベンチマーク VidNum-1.4K [cs.CV]目的：ビデオに基づく数値推論の評価
- 現実世界の理解を測る上で，視覚と言語を組み合わせたモデルの能力評価が重要である。
- 既存のベンチマークは，特定の領域に限定されていたり，単純なカウントのみを評価していたりする。
- 複雑な現実世界のマルチメディアコンテンツにおける多段階の数値的論理を評価することを目指す。
- VidNum-1.4Kは，1,379個の厳密に人間が注釈を付けたビデオと質問のペアで構成される。
- 現在の最先端のVLMsは，数値推論に課題があり，特にオープンソースモデルの精度は低い。
- 本研究は，次世代の数値ビデオ知能のための要求の厳しい診断テストベッドを提供する。
Link: https://arxiv.org/abs/2604.03701
教師あり次元削減の再検討：凍結CNN特徴量に対するLDAの再評価 [eess.SY, cs.SY, cs.LG, cs.AI, cs.CV, stat.ML]目的：凍結された事前学習済み画像表現を用いた転移学習における次元削減戦略の有効性評価
- 転移学習は，限られたデータで高性能なモデルを構築する上で重要な手法である。
- 特徴量次元が高すぎると，計算コストが増大し，過学習のリスクが高まる。
- 粗粒度な分類タスクにおいて，LDAが特徴量次元削減に有効か検証する。
- 粗粒度なデータセット(CIFAR-100, Tiny ImageNet)においては，LDAがフル特徴量よりも高い精度を示す。
- しかし，細粒度なデータセット(CUB-200-2011)では，フル特徴量の方が優れているという結果が得られた。
- 単純なLDAが，他の複雑な次元削減手法と比較して，精度とコストのバランスが良い。
Link: https://arxiv.org/abs/2604.03928
HighFM：高頻度地球観測データからの表現学習のための基盤モデルへ [cs.CV, cs.AI]目的：高頻度地球観測データからのロバストな時空間表現の学習
- 気候関連災害の増加により，リアルタイム監視と迅速な意思決定が重要になっている。
- 既存の基盤モデルは高分解能画像に依存し，変化の激しい現象への対応が課題である。
- 高頻度地球観測データを用いた，災害検知と追跡のための基盤モデルを開発する。
- 2TBを超えるSEVIRI画像を用いて，SatMAEフレームワークを適応させ，時空間表現を学習した。
- リアルタイム監視のため，短期変動を捉えるための細かい時間符号化を導入した。
- クラウドマスキングと火災検知タスクでファインチューニングを行い，従来のベースラインや他のモデルを上回る性能を示した。
Link: https://arxiv.org/abs/2604.04306
変形を伴う6Dオブジェクト姿勢推定の探求 [cs.CV]目的：6D変形オブジェクトの姿勢推定
- ロボット工学やコンピュータビジョンにおいて，物体の正確な姿勢把握は重要な課題である。
- 既存手法は剛体または関節を持つ物体を前提としており，変形した物体への対応が困難である。
- 実用的な応用において，変形の影響を克服し，ロバストな姿勢推定を実現することを目指す。
- 大規模データセットDeSOPEを構築し，変形オブジェクトの6DoF姿勢推定を可能にした。
- 変形が進むほど姿勢推定性能が著しく低下することが確認された。
- 変形に対応するための姿勢推定手法の開発が不可欠であることが示唆された。
Link: https://arxiv.org/abs/2604.06720
学習不要な空間的根拠に基づいた幾何学的形状エンコーディング (テクニカルレポート) [cs.CV]目的：2次元幾何学的形状のコンパクトな表現
- 深層学習において，位置情報を扱う上で位置エンコーディングは重要な役割を果たす。
- 2次元形状への応用には，形状や姿勢を考慮した設計と，学習との適合性が課題となる。
- 学習を必要とせず，汎用的な形状エンコーディング手法を開発し，その有効性を示す。
- 提案手法XShapeEncは，形状の幾何学と姿勢を分離し，調和的な姿勢場へ変換することで，表現力を高める。
- 直交するゼルニケ基底を用いて形状と姿勢をエンコードし，高周波成分を加えることで，識別能力を向上させる。
- 広範な実験とXShapeCorpusを用いた評価により，XShapeEncの有効性と汎用性が確認された。
Link: https://arxiv.org/abs/2604.07522
十分な画質：電力効率の良いクライアントサイドレンダリングのための非参照知覚解像度選択 [cs.GR]目的：電力効率の良いクライアントサイドレンダリングを実現するための知覚解像度選択手法
- モバイルデバイス等の電力制約下で，高品質な映像体験を提供することが重要である。
- 高解像度な映像は電力消費が大きく，知覚できるほどの品質向上がない場合がある。
- 知覚的に区別できない最低解像度を予測し，無駄な電力消費を削減することを目的とする。
- 提案手法は，既存のフルリファレンス方式と比較して，計算コストを大幅に削減できる。
- 知覚品質を維持しつつ，クライアントサイドのレンダリングにおける電力効率を向上させることが示された。
- 本手法はコーデックに依存せず，既存のインフラへの変更も最小限で済む。
Link: https://arxiv.org/abs/2604.07959
マルチモーダル潜在推論のための視覚的強化された深さスケーリング [eess.SY, cs.SY, stat.AP, cs.HC, cs.CV]目的：マルチモーダル潜在推論における視覚情報の活用と複雑な潜在表現の深化
- 近年のAI研究では，より効率的かつ高性能な推論手法が求められている。特に，マルチモーダルな情報統合は重要な課題である。
- 従来のCoT推論は計算コストが高く，潜在推論では視覚情報の活用が不十分であり，複雑な表現の学習が困難である。
- 視覚情報の最適化と複雑な潜在表現の深化を通して，推論性能の向上と高速化を目指す。
- 視覚的リプレイモジュールとルーティング深さスケーリングを導入することで，視覚情報の認識能力と複雑な潜在表現の洗練が図られた。
- この手法は，多様なベンチマークにおいて，明示的なCoTベースラインと比較して，最先端の性能と大幅な推論速度の向上を達成した。
- カリキュラム戦略を用いることで，明示的なCoTをコンパクトな潜在表現に効果的に統合することに成功した。
Link: https://arxiv.org/abs/2604.10500
Pair2Scene: 手続き型シーン生成のための局所オブジェクト関係学習 [cs.CV]目的：手続き型シーン生成のための局所オブジェクト関係の学習
- 3D屋内シーンの自動生成は，データ不足と複雑な空間関係モデリングにより困難である。
- 既存手法は，学習データの範囲を超える高密度シーンの生成や，精密な空間推論能力の欠如に課題がある。
- 局所的な依存関係に着目し，物理・意味に基づいたルールを統合することで，より現実的なシーン生成を目指す。
- 提案手法Pair2Sceneは，局所ルールをシーン階層と物理シミュレーションに統合する新しい生成フレームワークである。
- 本手法は，物理的な階層構造に従う支持関係と，意味的な繋がりを示す機能関係の二種類のオブジェクト間関係を学習する。
- 実験の結果，既存手法と比較して，学習データを大きく超えた複雑な環境を生成でき，物理的・意味的な妥当性を維持できることが示された。
Link: https://arxiv.org/abs/2604.11808
極低照度環境における3D再構成のための輝度誘導強化型デュアルブランチガウススプラッティング [cs.CV]目的：極低照度環境下での高品質な3D表現の再構成
- 現実世界の映像取得は，しばしば低照度環境で行われ，3D再構成の精度低下を招く。
- 既存手法では，極低照度環境下での幾何学的整合性とフォトリアリスティックな3Dシーンの復元が困難である。
- 学習に基づいた点群初期化と輝度誘導の色強調により，低照度環境下での安定した3D再構成を実現する。
- 提案手法ELoG-GSは，ベースラインと比較して再構成品質を大幅に向上させ，優れた視覚的忠実度と幾何学的整合性を示す。
- NTIRE Track 1ベンチマークにおいて，PSNRが18.6626，SSIMが0.6855を達成した。
- 本手法は，現実世界の劣悪なシナリオにおける堅牢な3D再構成のための実用的な解決策を提供する。
Link: https://arxiv.org/abs/2604.12592
SLQ：フリーズされたMLLMを用いた検索のための共有潜在クエリによるモダリティの架け橋 [cs.CV]目的：フリーズされたMLLMを用いた検索における適応
- 大規模言語モデルのマルチモーダル化が進み，画像とテキストの理解が求められている。
- 既存手法はパラメータ更新が必要で，事前学習済みの知識を損なう可能性がある。
- 事前学習済みの知識を保持しつつ，効率的に検索性能を向上させることを目指す。
- SLQは，バックボーンをフリーズしたままMLLMを検索に適応させるパラメータ効率的なフレームワークである。
- SLQは，共有潜在クエリを導入し，マルチモーダルコンテキストを統合された埋め込み空間に集約する。
- COCO，Flickr30K，MMEB，KARR-Benchにおいて，ファインチューニングやLoRAよりも優れた性能を示した。
Link: https://arxiv.org/abs/2604.13710
HiVLA：視覚に基づいた階層型具現化操作システム [cs.CV, cs.AI, cs.RO]目的：視覚と言語，行動を統合したロボット操作システムの開発
- ロボットによる複雑な作業の自動化には，高度な知能と環境認識が不可欠である。
- 既存のVLAモデルは，特定の制御データで微調整することで汎用性が損なわれる場合がある。
- VLAモデルの推論能力を維持しつつ，ロボットの操作性能を向上させることを目指す。
- 提案手法HiVLAは，高レベルの計画と低レベルの制御を分離した階層構造を採用している。
- HiVLAは，シミュレーションと実環境の両方で，最先端の既存手法を大幅に上回る性能を示した。
- 特に，長時間のスキル構成や，散乱した環境における微細な操作において優れた結果が得られた。
Link: https://arxiv.org/abs/2604.14125
UniGeo：ビデオモデルを用いたカメラ制御可能な画像編集における幾何学的ガイダンスの統合 [cs.CV]目的：カメラ制御可能な画像編集のための幾何学的ガイダンスの統一
- 画像編集における視点変更の重要性が高まる中，幾何学的な整合性を維持することが課題となっている。
- 既存手法は，幾何学的ガイダンスが断片的であり，連続的なカメラモーション下で幾何学的なずれや構造劣化が生じやすい。
- ビデオモデルの持つ連続的な視点情報を活用し，断片化された幾何学的ガイダンスを統一することで，より安定した幾何学的理解を目指す。
- UniGeoは，表現，アーキテクチャ，損失関数という3つのレベルで統一された幾何学的ガイダンスを注入する新しいフレームワークである。
- フレーム解結合幾何学的参照注入メカニズムにより，ロバストなクロスビュー幾何学的コンテキストを提供する。
- 幾何学的アンカーアテンションや，軌道終端幾何学的監督戦略により，視覚品質と幾何学的整合性を大幅に向上させる。
Link: https://arxiv.org/abs/2604.17565