arXiv雑要約

画像・音声 - 2026/04/06 公開

LiME：効率的なマルチモーダルマルチタスク学習のための軽量な専門家混合 [cs.LG, cs.CL, cs.CV]目的：効率的なマルチモーダルマルチタスク学習のためのLiMEという手法
- 近年，複数のタスクを同時に学習するマルチタスク学習の重要性が高まっている。
- 既存のMoE-PEFT法は，専門家数が増加するとパラメータ数も線形に増加する。
- LiMEは，軽量なモジュレーションにより専門家の特殊化を実現し，パラメータ数を削減する。
- LiMEは，専門家ごとにアダプターを複製する代わりに，共有のPEFTモジュールと軽量な専門家ベクトルを使用する。
- 実験の結果，LiMEはMMT-47ベンチマークにおいて，従来法と同等またはそれ以上の性能を，より少ない学習パラメータ数と高速な学習時間で達成した。
- LiMEは，既存の表現を活用したゼロパラメータルーティングを導入し，ルーターパラメータの学習を不要とした。
Link: https://arxiv.org/abs/2604.02338
広範な探索から安定した合成へ：エントロピーに基づく自己回帰型画像生成の最適化 [cs.LG, cs.CV]目的：自己回帰型画像生成における最適化戦略
- 画像生成技術は，創造的なコンテンツ制作やデータ拡張など，様々な応用分野で重要性が増している。
- テキストから画像を生成する際に，生成される画像の品質の安定性と多様性を両立させることが課題である。
- CoTとRLの相互作用を理解し，エントロピーに着目することで，画像の品質と安定性を向上させる。
- CoTは生成探索空間を拡大し，RLは高報酬領域へ収縮させるという関係が明らかになった。
- 最終的な報酬は，画像トークンのエントロピーの平均と分散と強い負の相関関係にあることが示された。
- 提案手法EG-GRPOは，標準的なT2Iベンチマークにおいて最先端の性能を達成した。
Link: https://arxiv.org/abs/2604.02355
CIPHER：高密度脳波からの音素推論のためのConformerベース手法 [cs.CL, cs.AI, cs.SD]目的：高密度脳波からの音素推論
- 脳活動と音響情報の関係解明は，ブレイン・マシン・インターフェース等の応用において重要である。
- 脳波信号はノイズが多く，空間分解能が低いため，音響情報の正確な解読が困難である。
- 脳波信号の特性を考慮したモデルを開発し，音素の識別精度向上を目指す。
- 提案手法CIPHERは，ERP特徴量とDDA係数という二つの経路を用いることで，音素推論のパフォーマンスを向上させた。
- ただし，TMS-target blocking等の交絡要因の影響を受けやすく，実用的な音声認識システムとしての性能には至っていない。
- 本研究は，脳波からの音素推論におけるベンチマークおよび特徴量比較研究としての意義が大きい。
Link: https://arxiv.org/abs/2604.02362
長文ビジュアルドキュメント理解のための内部化された推論 [cs.CV, cs.AI, cs.CL]目的：長文ビジュアルドキュメント理解における推論能力の向上
- 企業，法律，科学分野での応用が重要であり，ドキュメント理解の性能向上は不可欠である。
- 既存手法では，数学やコード処理で進歩の鍵となる推論能力が十分に活用されていない。
- 推論能力を組み込み，長文ドキュメント理解の性能を向上させることを目指す。
- 合成データパイプラインを用いて推論の思考過程を生成し，モデルの内部に推論能力を組み込んだ。
- Qwen3 VL 32Bを用いてMMLongBenchDocで58.3を達成し，より大規模なQwen3 VL 235B A22Bを上回った。
- Mistral Small 3.1 24Bでは，合成推論が思考版からの蒸留よりも高い性能を示し，出力トークン数も削減された。
Link: https://arxiv.org/abs/2604.02371
ロシア語音声なりすまし対策の汎化性能とロバスト性の評価：RuASDイニシアチブ [cs.SD]目的：ロシア語音声なりすまし対策の評価とロバスト性向上
- 音声認証システム等のセキュリティ確保は重要であり，なりすまし対策は不可欠である。
- 既存の手法は，現実的な環境変化に対して脆弱であり，汎化性能が課題となっている。
- 多様なデータと歪み条件に対応可能なロバストな評価基準の確立を目指す。
- RuASDデータセットは，ロシア語音声なりすまし対策のベンチマークとして公開された。
- 37種類のTTSや音声クローニングシステムで生成された偽装音声と，複数の実データセットを組み合わせた。
- 様々な歪みシミュレーションにより，現実的な環境下でのロバスト性を評価できることが示された。
Link: https://arxiv.org/abs/2604.02374
音声空間誘導融合によるオーディオビジュアルナビゲーション [cs.DM, cs.FL, math.CO, cs.RO, cs.SD, cs.AI, eess.AS]目的：オーディオビジュアルナビゲーションにおける汎化性能の向上
- ロボット工学や自動運転において，環境認識と経路計画は不可欠な要素である。
- 既存手法は学習データへの依存度が高く，未知の環境や音源に対して汎化が難しい。
- 未知の環境や音源分布下でもロバストなナビゲーションを実現すること。
- 提案手法は，音声強度アテンション機構を用いて音源空間情報を効果的に抽出する。
- 音源空間状態誘導融合（ASGF）により，マルチモーダル特徴の動的アライメントと適応的融合を実現した。
- ReplicaおよびMatterport3Dデータセットで，未知のタスクにおいて高い汎化性能を実証した。
Link: https://arxiv.org/abs/2604.02389
音響視覚情報に基づくナビゲーションのための空間認識条件付き融合 [cs.SD, cs.AI, eess.AS]目的：音響視覚情報を用いたナビゲーションにおけるターゲットの探索と到達
- ロボット工学において，環境中のターゲットを自律的に探索・到達する技術は重要である。
- 既存手法は特徴量の単純な連結や後処理に頼る傾向があり，ターゲット位置の明示的な表現が不足している。
- ターゲットの位置情報を活用し，効率的かつ汎化性能の高いナビゲーションを実現すること。
- 提案手法SACFは，音響視覚情報からターゲットの相対的な方向と距離を離散化し，分布を予測する。
- SACFは，予測された分布をコンパクトな記述子として利用し，視覚特徴を条件付き線形変換により調整する。
- 実験により，SACFが計算コストを抑えつつナビゲーション効率を向上させ，未知の音に対しても高い汎化性能を示すことが示された。
Link: https://arxiv.org/abs/2604.02390
ロバストなオーディオビジュアルナビゲーションのための信頼性に基づいた幾何学的融合 [cs.SD, cs.AI, eess.AS]目的：オーディオビジュアルナビゲーションにおけるロバスト性の向上
- ロボットやエージェントが現実世界で活動する上で，視覚と聴覚を統合したナビゲーションは重要である。
- 複雑な音響環境下では，二音源定位の信頼性が低下し，未知の音響カテゴリへの汎化が課題となる。
- 音響に基づく信頼性指標を用いて，視覚と聴覚の情報を動的に調整し，ナビゲーションの精度を高める。
- RAVNは，音響から得られる信頼性指標に基づいてクロスモーダル融合を調整するフレームワークである。
- アコースティックジオメトリ推論器(AGR)は，幾何学的プロキシ監督学習により，観測依存的な分散を信頼性指標として学習する。
- 実験の結果，RAVNはSoundSpaces環境においてナビゲーション性能を向上させ，特に未知の音源に対するロバスト性が確認された。
Link: https://arxiv.org/abs/2604.02391
固定推論を超えて：適応型画像ノイズ除去のための定量的フローマッチング [cs.CV]目的：未知かつ変動するノイズ条件下における画像ノイズ除去の適応性向上
- 画像修復において，拡散モデルやフローベース生成モデルの有効性が示されている。
- 学習されたベクトル場がノイズレベル間で不整合となり，学習時と推論時のミスマッチが修復品質を低下させる。
- 入力画像内の局所的ピクセル統計量からノイズレベルを推定し，推論軌跡を適応的に調整することで解決を目指す。
- 局所統計量に基づくノイズレベル推定と，それに応じたフロー推論により，修復精度と推論効率を向上させている。
- ノイズレベルに応じて，開始点，積分ステップ数，ステップサイズを調整し，最適なノイズ除去を実現している。
- 自然画像，医療画像，顕微鏡画像など，多様な画像とノイズ条件下での頑健性と汎化性能を実験により確認している。
Link: https://arxiv.org/abs/2604.02392
車両通信のための環境認識型チャネル予測：マルチモーダル視覚特徴融合フレームワーク [cs.CV, cs.AI]目的：環境認識型チャネル予測のフレームワーク
- 通信と知能・センシングの融合が進み，環境認識型チャネル予測が重要技術となっている。
- 従来のモデルは，精度，汎化性能，実用性のバランスが課題であった。
- 搭載・路側センサーからの環境情報を活用し，高精度なチャネル予測を実現する。
- 提案手法は，位置，セマンティック，深度特徴を抽出する3分岐アーキテクチャと，適応的なマルチモーダル融合モジュールを採用した。
- パス損失(PL)，遅延拡散(DS)，ASA，ASD，APSの同時予測を達成した。
- 実都市V2I測定データを用いた実験で，PLのRMSEは3.26dB，DS, ASA, ASDのRMSEはそれぞれ37.66ns, 5.05度, 5.08度を示し，高い精度と汎化性能を実証した。
Link: https://arxiv.org/abs/2604.02396
プライバシー保護機能設計に基づく，グループ感情認識のための変分エンコーダ・マルチデコーダ [cs.CV, cs.AI]目的：グループ感情認識における集団の感情推論
- 社会環境における集団の感情理解は，教育，セキュリティ，マーケティングなど幅広い分野で重要である。
- 既存手法は個人レベルの処理に依存し，プライバシー侵害のリスクがある。
- 個人識別を回避し，集団レベルの感情推論に特化したモデルを構築すること。
- VE-MDは，個人の顔や追跡情報を用いず，集団全体の感情を認識する。
- 構造的表現の学習と予測により，表現学習の精度が向上する。
- GAF-3.0やVGAFにおいて，最先端の性能を達成した。
Link: https://arxiv.org/abs/2604.02397
LumiVideo：ビデオの色調補正のための知的なエージェントシステム [cs.RO, cs.SY, eess.SY, cs.CY, cs.RO, cs.CV, cs.AI]目的：ビデオの色調補正における自動化手法の開発
- 映像制作において，色調補正は映像表現の質を大きく左右する重要な工程である。
- 既存の自動化手法は，解釈可能性や反復的な制御に欠け，プロフェッショナルなニーズに応えられない。
- プロのカラリストの思考プロセスを模倣し，高品質な色調補正を自動化することを目指す。
- LumiVideoは，映像の物理的照明と意味内容を分析し，自動的に映画のようなベースグレードを生成する。
- LLMとRAGフレームワークを組み合わせることで，非線形なカラーパラメータ空間を効果的に探索する。
- 生成されたパラメータは，ASC-CDL設定や3D LUTとして出力され，時間的な一貫性を保証する。
Link: https://arxiv.org/abs/2604.02409
標高マップから等高線へ：SVMと決定木によるバイオリン幅減少の検出 [cs.CV, cs.AI]目的：バイオリン幅減少の自動検出
- 楽器製作や修復において，バイオリンの形状変化を正確に把握することは重要である。
- バイオリンの形状変化を自動で検出する手法は確立されておらず，熟練した専門家の目視による評価に頼っている。
- 3Dフォトグラメトリデータを用いて，バイオリン幅減少を自動で検出し，その精度を評価する。
- 標高マップと等高線に基づいた特徴量を用いて，SVMと決定木によるバイオリン幅減少の検出を比較した。
- 等高線に基づく手法の方が，標高マップのみを用いる手法よりも高い性能を示した。
- 今回の結果は，バイオリンの形状解析において等高線データの有効性を示唆する。
Link: https://arxiv.org/abs/2604.02446
多様なマルチエージェントプレイ生成のための混合ガウス分布軌道予測フレームワークPlayGen-MoG [cs.CV, cs.AI, cs.LG]目的：チームスポーツにおける多様なプレイと，選手間の現実的な空間協調の生成
- チームスポーツ分析において，効果的な戦略立案や選手育成にプレイ生成が不可欠である。
- 既存の生成モデルは，プレイの多様性や空間協調の表現に課題があり，結果が偏りがちである。
- 初期フォーメーションからリアルなプレイを生成するためのフレームワークを開発し，その問題を解決する。
- PlayGen-MoGは，全エージェントの軌道を組み合わせるプレイシナリオを選択する混合ガウス分布（MoG）出力ヘッドを用いる。
- 相対空間注意機構により，選手間の位置関係と距離を学習済みのアテンションバイアスとして符号化する。
- 初期フォーメーションからの絶対変位を非自己回帰的に予測し，累積誤差のドリフトを排除し，単一の静的フォーメーションからリアルなプレイ生成を可能にする。
Link: https://arxiv.org/abs/2604.02447
ナンバープレートに対する合法的な物理世界敵対的リム [eess.SY, cs.SY, econ.TH, cs.CV, cs.CR]目的：自動ナンバープレート認識システムに対する敵対的攻撃の実現可能性
- 車両の識別と追跡に広く利用され，社会インフラの安全に関わる重要な技術である。
- 既存研究では脆弱性が示されているものの，実用性や合法性の観点が十分ではない。
- 低コストで合法的にALPRシステムの認識精度を低下させる手法を開発し，その有効性を検証する。
- 提案手法「SPAR」は，ALPRシステムへのアクセスなしに，ナンバープレートを偽装せずに認識精度を低下させる。
- 最適な条件下では，ALPRの認識精度を60%低減し，18%の標的ナンバープレートへのなりすましを実現した。
- SPARは100ドル以下で製造可能であり，AIアシスタントによる実装も可能である。
Link: https://arxiv.org/abs/2604.02457
映画的カメラ軌道生成のための視覚的嗜好性最適化：VERTIGO [cs.CL, cs.MA, cs.NI, cs.CV, cs.AI]目的：映画的カメラ軌道の視覚的嗜好性最適化
- 映画制作において，カメラワークは重要な表現手段であり，映像の質を大きく左右する。
- 既存のカメラ軌道生成システムは多様な軌道を生み出すものの，視覚的な魅力の評価が困難である。
- 生成されたカメラ軌道の視覚的品質を向上させ，より魅力的な映像を生成することを目指す。
- VERTIGOは，リアルタイムレンダリングと視覚言語モデルを用いて，カメラ軌道の視覚的嗜好性を最適化する。
- 実験結果から，オフスクリーンキャラクターの発生率を大幅に低減し，構図や整合性，美的品質の向上を確認した。
- ユーザースタディにおいても，既存手法と比較してVERTIGOがより好ましい結果を得たことが示された。
Link: https://arxiv.org/abs/2604.02467
階層的解釈可能性のあるラベルフリー概念ボトルネックモデル [cs.CV, cs.AI]目的：深層学習モデルの解釈可能性向上
- 深層学習のブラックボックス化が課題であり，モデルの判断根拠の説明が求められている。
- 既存の概念ボトルネックモデルは，単一のセマンティックレベルで概念とラベルを扱っていた。
- 人間の認知プロセスを模倣し，多層的なセマンティックレベルでの説明を可能にすること。
- 提案手法HIL-CBMは，概念ベースの説明の抽象度をモデルの予測レベルと整合させる。
- 勾配に基づく視覚的整合性損失と二重分類ヘッドにより，異なる抽象度レベルでの特徴概念を学習する。
- ベンチマークデータセットにおいて，最先端の疎なCBMを上回る分類精度と解釈可能性を示す。
Link: https://arxiv.org/abs/2604.02468
ガイドラインからグラフへ：実行可能な臨床意思決定グラフのためのプロファイル認識マルチモーダル解析 [cs.CV, cs.LG]目的：臨床意思決定グラフの生成
- 医療現場では，ガイドラインに基づいた最適な治療選択が重要である。そのため，ガイドラインを形式化し，利用可能なシステムとする必要がある。
- 既存の手法では，ガイドラインの複雑さやマルチモーダルな情報に対応できず，正確な意思決定グラフの構築が困難である。
- ガイドライン全体を考慮し，構造的に整合性の取れた意思決定グラフを生成することで，臨床支援システムの精度向上を目指す。
- 提案手法は，既存モデルと比較して，エッジおよびトリプレットの適合率/再現率を19.6%/16.1%から69.0%/87.5%に大幅に改善した。
- ノードの再現率は78.1%から93.8%に向上し，ガイドラインからの意思決定グラフ変換の有効性が示された。
- 現時点では前立腺ガイドラインのみでの評価であり，他のガイドラインへの適用検証が今後の課題である。
Link: https://arxiv.org/abs/2604.02477
マスク条件付き生成AIによる山火事検知用衛星画像データ生成 [cs.CV, cs.AI]目的：山火事後のSentinel-2 RGB画像生成
- 山火事監視は，森林破壊や環境への影響を軽減する上で重要である。
- 深層学習を用いた山火事監視システムにおいて，ラベル付き衛星画像が不足している。
- 既存の焼失マスクを用いて，タスク固有の再学習なしにリアルな画像を生成する。
- 焼失マスクに基づいた画像生成において，タイル全体生成よりも，事前火災のコンテキストを利用したインペインティングの方が，全ての評価指標で優れた性能を示した。
- 特に，構造化されたインペインティングプロンプトが，空間的な位置合わせ（Burn IoU = 0.456）と焼失領域の顕著性（Darkness Contrast = 20.44）で最高の結果を得た。
- VLM（Visual Language Model）によるインペインティングは，手動作成されたプロンプトと同等の競争力を持つことが示された。
Link: https://arxiv.org/abs/2604.02479
VLMは言葉を必要とする：視覚言語モデルは意味的アンカーを優先し，視覚的な詳細を無視する [cs.CV, cs.CL]目的：視覚言語モデルにおける，視覚情報の細部に対する認識能力の限界とその原因の解明
- 近年のマルチモーダルなタスクにおいて，視覚言語モデルの性能は著しく向上しているため，そのメカニズム理解が重要である。
- 視覚言語モデルは，詳細な視覚的知覚を必要とするタスクにおいて，必要な情報が存在するにも関わらず，失敗することがある。
- 視覚言語モデルが，言語空間にマッピングできない視覚的要素を認識できないという問題を解決することを目指す。
- 視覚言語モデルは，言語で命名可能な対象物の方が，命名不可能な対象物よりも，対応関係のタスクで高い性能を示すことが確認された。
- Logit Lens分析の結果，VLMは命名可能な対象物に意味的ラベルを明示的に割り当て，命名不可能な対象物と比較して，より一意な対応トークンを生成することが示された。
- 未知の対象物に任意の名前を付与する学習や，タスク固有のファインチューニングによって性能が向上し，言語的な事前知識に頼らずに汎化能力が高まることが示された。
Link: https://arxiv.org/abs/2604.02486
画像プロンプトパッケージングによるトークン効率的なマルチモーダル推論 [cs.CV, cs.AI]目的：マルチモーダル推論におけるコスト削減手法
- 大規模言語モデルの活用にはコストが課題であり，効率化が重要である。
- 視覚的プロンプト戦略のコストと性能に関する明確な評価が不足している。
- テキストトークンのオーバーヘッドを削減し，推論コストを低減すること。
- 画像に直接テキストを埋め込むImage Prompt Packaging (IPPg) により，推論コストを35.8～91.0%削減した。
- トークン圧縮率が最大96%にも達する一方で，多くの設定で高い精度を維持した。
- GPT-4.1はCoSQLで精度とコストの両方を向上させたが，Claude 3.5はVQAベンチマークでコストが増加した。
Link: https://arxiv.org/abs/2604.02492
デロネー覆い：航空レーザ点群からのデロネーグラフによるワイヤーフレーム再構築 [cs.CV]目的：航空レーザ点群からの建物ワイヤーフレーム再構築
- 建物構造の理解には，高密度メッシュ以上のトポロジー重視の表現が重要である。
- ノイズ，疎性，内部コーナーのある領域では，従来のワイヤーフレーム再構築の精度が課題である。
- デロネーグラフを用いて，適応的な探索空間を定義し，高精度な再構築を実現する。
- 本研究では，デロネーグラフを幾何学的事前情報として活用する「デロネー覆い」を提案する。
- デロネーグラフスコアリングにより，幾何学的多様性を捉え，ノイズや疎性のある領域でもロバストな再構築を可能にする。
- Tallinn市やentry-levelデータセットでの実験により，最先端のワイヤーフレーム再構築性能を実証した。
Link: https://arxiv.org/abs/2604.02497
適応PID-Tversky損失を用いた説明可能な視覚言語モデルフレームワーク：腰部脊柱管狭窄症診断への応用 [cs.CV, cs.AI]目的：腰部脊柱管狭窄症の診断のための説明可能な視覚言語モデルフレームワーク
- 腰部脊柱管狭窄症の正確な診断は重要であり，画像診断の効率化と精度向上が求められている。
- 臨床データセットにおけるクラス不均衡と，空間情報の損失が，既存モデルの課題となっている。
- 本研究は，空間精度を維持しつつクラス不均衡に対処するフレームワークを構築し，診断精度を向上させる。
- 提案手法は，90.69%の診断分類精度，0.9512のmacro-averaged Diceスコア，92.80のCIDErスコアを達成した。
- 空間パッチクロスアテンションモジュールにより，テキストによる脊椎異常部位の正確な局在化が可能となった。
- 自動放射線レポート生成モジュールにより，複雑なセグメンテーション予測を放射線科医が理解しやすい形式で提示できる。
Link: https://arxiv.org/abs/2604.02502
視覚基盤モデルの蒸留によるオンデバイス眼球追跡の迅速な展開 [cs.CV]目的：オンデバイス眼球追跡の迅速な展開手法
- 拡張現実や仮想現実において，眼球追跡技術は不可欠であり，ユーザー体験を向上させる重要な要素である。
- デバイスのハードウェア構成の変化により，新規製品への高精度な眼球追跡の迅速な組み込みが困難であるという課題が存在する。
- 視覚基盤モデルを活用し，合成データと実データを用いて，ハードウェア変化に適応可能なオンデバイス眼球追跡モデルの効率的な学習を目指す。
- DistillGazeは，合成データとラベルなし実データを用いることで，オンデバイス眼球追跡の精度向上を実現した。
- 既存の合成データのみのベースラインと比較して，DistillGazeは中央値の視線誤差を58.62%削減することに成功した。
- DistillGazeは軽量な256Kパラメータモデルであり，リアルタイムのオンデバイス展開に適している。
Link: https://arxiv.org/abs/2604.02509
特徴帰属安定性スイート：事後帰属はどれほど安定か [eess.SY, cs.MS, cs.SY, cs.CV, cs.AI, cs.LG]目的：事後的な特徴帰属手法の安定性評価
- 安全性重視の画像認識システムにおいて，説明可能性は不可欠であり，その信頼性確認が重要である。
- 既存手法は，ノイズの影響下での安定性評価が中心で，予測維持条件が考慮されていない。
- 予測が変化しない範囲での安定性を評価し，帰属の脆弱性とモデルの感度を区別する。
- FASSベンチマークにより，幾何学的摂動が光度学的摂動よりも帰属の不安定性を顕著に示すことが判明した。
- 予測維持条件を考慮しない場合，評価ペアの最大99%で予測が変化することが明らかになった。
- Grad-CAMは，データセット全体を通して最も高い安定性を示す一貫した傾向が見られた。
Link: https://arxiv.org/abs/2604.02532
医療VQAにおける過信とキャリブレーション：実証的な知見と幻覚を意識した緩和策 [cs.CV, cs.LG]目的：医療VQAにおけるビジョン言語モデルの過信とキャリブレーションに関する研究
- 臨床現場でのAI活用が進む中，精度だけでなく，予測の信頼性を判断することが重要である。
- 医療分野におけるビジョン言語モデルの過信に関する系統的な研究が不足している。
- モデルの過信を軽減し，信頼できる医療VQAシステムの構築を目指す。
- 複数のモデルと規模，プロンプティング戦略において，過信が持続的に確認された。
- Plattスケーリング等の事後キャリブレーション手法は，プロンプティング戦略よりもキャリブレーションエラーの削減に有効であることが示された。
- 幻覚検出信号を組み込んだキャリブレーション（HAC）は，キャリブレーションとAUROCの両方を向上させた。
Link: https://arxiv.org/abs/2604.02543
3Dシーン理解のためのコントラスト言語彩色点マップ事前学習 [cs.CV, cs.LG]目的：3Dシーン理解のための汎用的な表現学習
- 3Dシーン理解は，ロボティクスや拡張現実など多くの分野で不可欠である。
- 既存手法では，異なる視点からの情報を統合することが課題であった。
- 彩色点マップを用いた，画像と形状を統合した表現学習を実現する。
- 提案手法UniScene3Dは，多視点彩色点マップから統一的なシーン表現を学習する。
- 視点間幾何学的アライメントと，意味的な整合性を強化することで，ロバストな表現を獲得する。
- 様々なタスクにおいて最先端の性能を示し，3Dシーン理解の有効性を実証した。
Link: https://arxiv.org/abs/2604.02546
WSVD：低精度Vision-Languageモデルの高速かつ効率的な実行のための重み付き低ランク近似 [cs.CV, cs.LG]目的：Vision-Languageモデルの計算負荷軽減と高速化
- 画像キャプション生成や視覚的質問応答など，様々なタスクで重要な役割を担うVision-Languageモデルの活用。
- 既存のSVD変種では，実行時の大幅なレイテンシ削減が難しく，効率的な低ランク演算が課題。
- より細かい粒度でのSVD適用と，要素の重要度に応じた重み付けにより，高速化と精度維持を目指す。
- 提案手法WSVDは，既存手法と比較して1.8倍以上のデコーディング速度向上を達成。
- WSVDは，重みと活性化の両方の量子化を組み合わせることで，高い効率を実現。
- 各要素の重要度に応じて重みを適応的に割り当てることで，精度を維持しながら計算量を削減。
Link: https://arxiv.org/abs/2604.02570
高い変動性と行動バイアスが，グループ連携におけるLLMと人間の違いを明確にする [cs.MA, cs.AI, cs.CL, cs.GT]目的：グループ連携におけるLLMと人間の行動特性の比較
- 社会生活において，集団での協調行動は不可欠であり，そのメカニズム解明は重要である。
- LLMの能力向上に伴い，人間と同等の協調行動が可能かどうかが課題となっている。
- LLMの協調行動における課題を特定し，人間とのギャップを縮小するための手がかりを得る。
- 人間は試行を重ねるごとに協調行動を安定化させる一方，LLMは改善が見られず，行動の切り替えが過剰であることが示された。
- 詳細なフィードバックは人間のパフォーマンスを大きく向上させるが，LLMへの影響は限定的である。
- 反応の大きさ，行動の切り替え，試行学習などの指標から，LLMと人間のグループ連携における違いが明らかになった。
Link: https://arxiv.org/abs/2604.02578
FusionBERT：クロスアテンション視覚融合と法線認識3Dエンコーダによるマルチビュー画像-3D検索 [cs.CV]目的：画像と3Dモデルのマルチモーダル検索における，マルチビュー視覚情報の効果的な融合
- 現実世界の検索では，物体の複数の視点からの情報が重要であり，よりロバストな検索が求められる。
- 既存手法は単一画像と3Dモデルの対応に焦点を当てており，マルチビュー情報の活用が不十分である。
- マルチビュー視覚情報の効果的な融合により，3Dモデル検索の精度向上を目指す。
- 提案手法FusionBERTは，クロスアテンションに基づくマルチビュー視覚集約器により，マルチビュー画像の情報を適応的に統合する。
- 法線情報を考慮した3Dエンコーダにより，テクスチャの少ない3Dモデルの表現力を向上させる。
- 単一視点およびマルチビュー設定において，最先端手法を大幅に上回る検索精度を達成した。
Link: https://arxiv.org/abs/2604.02583
TrackerSplat：点追跡を活用した高速かつ堅牢な動的3Dガウス再構成 [cs.CV, cs.GR]目的：動的シーン再構成のための3Dガウススプラッティングの堅牢性とスケーラビリティの向上
- ロボティクスや没入型メディアなど，多様な応用において効率的かつ写実的な3D再構成が重要である
- 既存のガウスベース手法は，大きなフレーム間変位に対して脆弱であり，アーティファクトや時間的不整合が発生する
- 本研究は，大きな変位下でのガウス配置の安定化と再構成のスループット向上を目指す
- 提案手法TrackerSplatは，点追跡モデルを用いて3Dガウスを誘導し，大きなフレーム間変位に対応する
- これにより，従来の課題であったフェーディングや再着色アーティファクトを大幅に削減することに成功した
- 実験結果から，TrackerSplatは並列設定下で高いスループットと視覚品質を維持し，既存手法を上回ることが確認された
Link: https://arxiv.org/abs/2604.02586
ムーンドリームセグメンテーション：単語からマスクへ [cs.CY, cs.CV, cs.AI]目的：参照画像セグメンテーション
- 画像と自然言語の連携は，コンピュータビジョンの重要な課題である。
- 参照表現に基づいた正確なセグメンテーションは困難を伴う。
- 曖昧性を解消し，マスク品質を向上させる手法の確立。
- ムーンドリームセグメンテーションは，参照表現と画像から詳細なマスクを生成する。
- 強化学習を用いてマスク品質を直接最適化する新たな段階を導入した。
- RefCOCO-Mという，境界線が正確なマスクを含む検証用データセットを公開した。
Link: https://arxiv.org/abs/2604.02593
Rascene：mmWave通信信号を用いた高精度3Dシーンイメージング [cs.CV]目的：3Dシーンイメージング手法
- 自動運転やロボットナビゲーション等において，周囲環境の正確な3D認識が不可欠である。
- カメラやLiDAR等の光学センサーは，悪天候下や照明条件の悪い環境で性能が低下する。
- 既存のレーダーシステムは高コストで拡張性に乏しいため，低コストかつスケーラブルな3D認識手法が求められている。
- Rasceneは，汎用的なmmWave OFDM通信信号を利用することで，低コストでロバストな3Dシーンイメージングを実現した。
- 複数フレームの空間適応型融合と信頼度重み付け前方投影により，様々な姿勢からの情報を統合し，高精度な3Dシーン再構成を可能にした。
- 実験結果から，提案手法が従来のシステムと比較して高い精度で3Dシーンを再構成することが示された。
Link: https://arxiv.org/abs/2604.02603
オーディオビジュアル大規模言語モデルは本当に「見る」と「聞く」のか？ [cs.AI, cs.SD]目的：オーディオビジュアル大規模言語モデルにおける音声と画像の表現の進化と融合のメカニズム
- マルチモーダルな知覚を実現するインターフェースとして，オーディオビジュアル大規模言語モデルの重要性が高まっている。
- 音声と画像の両方の情報を統合する際に，モデルがどのように情報を処理し，偏りが生じるか不明である。
- モデルが音声と画像の情報をどのように融合し，偏りが生じる原因を明らかにすること。
- モデルの中間層では豊富な音声情報がエンコードされるものの，画像との競合時には最終的なテキスト生成に活かされないことが示された。
- より深い融合層において，視覚表現が優先され，音声情報は抑制される傾向があることが明らかになった。
- この偏りは，モデルの学習過程に起因すると考えられ，音声に関する追加的な学習が不足していることが示唆された。
Link: https://arxiv.org/abs/2604.02605
多施設臨床データの活用：プライバシー保護を重視した小児自閉症行動分析のための連合学習 [cs.CV]目的：小児自閉症行動分析のための連合学習フレームワーク
- 早期介入や客観的臨床評価のため，小児自閉症行動の自動認識が重要である。
- 厳格なプライバシー規制や小児データの機密性により，臨床データの集約が困難である。
- 連合学習を用いて，データ共有を伴わない多施設共同研究を実現し，プライバシーを保護する。
- 提案手法は，MMASDベンチマークにおいて高い認識精度を達成した。
- 従来の連合学習のベースラインモデルを上回り，堅牢なプライバシー保護ソリューションを提供する。
- 人間の骨格抽象化と連合学習による二層のプライバシー保護メカニズムを採用している。
Link: https://arxiv.org/abs/2604.02616
スマート転送：視覚基盤モデルを活用した地震後高解像度画像による迅速な建物被害マッピング [eess.SY, cs.SY, cs.CV, cs.AI, cs.MM]目的：地震後の高解像度画像を用いた迅速な建物被害マッピング
- 気候変動により自然災害が頻発化・深刻化しており，迅速な災害対応が不可欠である。
- 従来の被害調査は，都市構造や災害の種類によって汎用性が低く，手作業によるアノテーションに時間がかかる。
- 視覚基盤モデルを活用し，異なる地域や災害への適応性を高め，迅速な被害マッピングを実現する。
- 提案手法Smart Transferは，Pixel-wise ClusteringとDistance-Penalized Tripletにより，ロバストな特徴量アライメントと空間的相関を学習する。
- 2023年のトルコ・シリア地震のデータを用いた実験により，複数地域への転送学習において良好な性能が確認された。
- Smart Transferは，災害対応の迅速化と地域社会のレジリエンス向上に貢献する，スケーラブルなGeoAIソリューションを提供する。
Link: https://arxiv.org/abs/2604.02627
関節型車両における自己教師あり全方位深度推定のためのクロス車載3D幾何学的整合性 [cs.CV, cs.AI]目的：関節型車両における全方位深度推定の精度向上
- 自動運転における3D環境認識の重要性が高まっており，低コストな深度推定技術が求められている。
- 既存の自己教師あり深度推定法は，主に乗用車を対象としており，関節型車両への適用は困難である。
- 関節構造と運動連動に起因する幾何学的整合性の問題を解決し，深度推定の精度を向上させる。
- 提案手法ArticuSurDepthは，クロスビューおよびクロス車載幾何学的整合性を活用し，関節型車両の深度推定性能を向上させる。
- マルチビュー空間コンテキストエンリッチメントとクロスビュー表面法線制約により，空間的・時間的な構造的コヒーレンスを改善する。
- 自社構築データセットに加え，DDAD，nuScenes，KITTIベンチマークにおいて，最先端の性能を達成した。
Link: https://arxiv.org/abs/2604.02639
ドリフトに強い視覚追跡のための時間的事前知識 [cs.CV]目的：視覚追跡におけるドリフト抑制
- 視覚追跡は，ロボティクスや自動運転など多くの分野で重要な役割を担っている。
- 既存の追跡手法は，ノイズの蓄積によりモデルのドリフトが発生しやすく，追跡精度が低下しやすい。
- 本研究は，時間的な情報を効果的に活用し，追跡モデルのドリフトを抑制することで，よりロバストな追跡を実現する。
- DTPTrackは，既存の追跡アーキテクチャに容易に組み込むことができ，様々な追跡モデルで性能向上を示した。
- LaSOTベンチマークにおいて77.5%の成功率，GOT-10kベンチマークにおいて80.3%のAOを達成し，最先端の性能を確立した。
- 時間的信頼性較正器と時間的ガイダンス合成器の組み合わせにより，ノイズを抑制しつつ正確な追跡を可能にした。
Link: https://arxiv.org/abs/2604.02654
Efficient3D：3D大規模マルチモーダル言語モデルにおける適応的・バイアス除去トークン削減のための統合的フレームワーク [eess.SY, cs.SY, cs.CV, cs.AI]目的：3D大規模マルチモーダル言語モデルの効率的な推論
- 3D領域における空間理解能力の向上は，ロボティクスやAR/VRなど，多様な応用分野を拓く重要な研究課題である。
- 大規模モデルと高次元入力により計算コストが増大し，リソース制約のある環境での実用展開が課題となっている。
- 計算コストを削減しつつ，3D大規模マルチモーダル言語モデルの性能を維持・向上させることを目指す。
- Efficient3Dは，信頼性の高い視覚トークン重要度推定モジュール(DVTIE)と，シーンの複雑さに応じて削減強度を調整する適応的トークンリバランス(ATR)戦略を導入した。
- 5つの3Dベンチマークにおいて，Efficient3Dは非削減ベースラインと比較して優れた性能を示し，Scan2CapデータセットでCIDErスコアが+2.57%向上した。
- Efficient3Dは，3D大規模マルチモーダル言語モデルにおける効率的な推論を実現するためのスケーラブルで効果的な解決策を提供する。
Link: https://arxiv.org/abs/2604.02689
文書解析における安定したレイアウトインターフェースのための構文指向構造洗練 [cs.CV]目的：文書解析における安定したインターフェースの実現
- 文書の構造理解は，情報抽出や検索の精度に不可欠であり，様々な応用分野で重要である。
- レイアウト解析において，領域の重なりや曖昧さにより，解析結果の安定性が損なわれ，後続の処理に悪影響を及ぼす場合がある。
- 検出器の出力の不安定性を解消し，構文解析器への入力の整合性を高めることで，文書解析の精度向上を目指す。
- 提案手法は，DETRスタイルの検出器と構文解析器の間に構造洗練段階を導入することで，レイアウトの品質を安定的に向上させる。
- 保持するインスタンスの決定，ボックスのローカリゼーションの洗練，および構文解析器への入力順序の予測を共同で行う。
- OmniDocBenchにおいて，Reading Order Editを0.024に削減し，シーケンスミスマッチを大幅に低減することを示した。
Link: https://arxiv.org/abs/2604.02692
DocShield：証拠に基づく推論を通じたAI文書安全性の追求 [cs.CV, cs.AI]目的：生成AIによる文書偽造に対する安全性評価手法
- 文書は重要な情報伝達手段であり，その真正性は社会活動の根幹をなすため，安全性の確保は不可欠である。
- 既存の文書フォレンジック技術は視覚的な特徴に依存し，テキストの微妙な操作を見抜くための根拠に基づいた推論が不足している。
- 視覚情報とテキストの意味を組み合わせた推論により，文書偽造の検出，位置特定，説明をより信頼性の高いものにすること。
- 提案手法DocShieldは，文書の偽造分析を視覚的・論理的共同推論問題として捉え，Cross-Cues-aware Chain of Thought（CCT）メカニズムによって高精度な分析を実現した。
- T-IC13およびT-SROIEベンチマークにおいて，既存手法やGPT-4oと比較して大幅な性能向上を示し，特にT-IC13ではF1スコアで41.4%の改善を達成した。
- RealText-V1という多言語文書画像データセットを構築し，公開することで，今後の研究促進に貢献する。
Link: https://arxiv.org/abs/2604.02694
XrayClaw：信頼性の高い胸部X線診断のための協調・競争型マルチエージェントアラインメント [cs.CV]目的：胸部X線診断における信頼性向上
- 胸部X線診断は医療において重要だが，解釈は複雑であり，AIによる自動化が求められている。
- 既存のAIモデルは，論理的な矛盾や誤診を招くことがあり，信頼性に課題がある。
- マルチエージェントシステムを用いて，より論理的で信頼性の高い診断を目指す。
- XrayClawは，協調的なエージェントと競争的な監査エージェントを組み合わせることで，診断の信頼性を高める。
- Competitive Preference Optimizationにより，論理的な推論を促し，誤診を抑制する。
- MS-CXR-T等のベンチマークにおいて，最先端の性能を達成し，汎化性能も示された。
Link: https://arxiv.org/abs/2604.02695
VBGS-SLAM：変分ベイズガウススプラッティング同時局所化と地図作成 [cs.CV, cs.RO]目的：3Dガウススプラッティングを用いたSLAMにおけるロバストな追跡と地図作成
- 3次元空間の理解は，ロボット工学や拡張現実など，様々な分野で不可欠である。
- 既存のSLAM手法は初期値に敏感で，地図の進化に伴い急激な性能劣化を起こしやすい。
- 不確かさを考慮することで，ドリフトを軽減し，困難な条件下でのロバスト性を向上させる。
- 提案手法VBGS-SLAMは，ガウススプラッティングとカメラ姿勢推定を生成確率モデルとして統合する。
- 多変量ガウス分布の共役性を活用し，効率的な閉形式更新と姿勢およびシーンパラメータの事後不確かさの明示的な維持を実現する。
- 実験結果から，長系列予測における優れた追跡性能とロバスト性が確認された。また，高品質な新規視点合成も効率的に行える。
Link: https://arxiv.org/abs/2604.02696
ミニマル侵襲手術における人型ロボット用迅速器具交換システム [cs.RO, cs.RO, cs.CV, cs.SY, eess.SY]目的：人型ロボットにおける迅速な器具交換機能の実現
- ミニマル侵襲手術は患者への負担が少なく，治療後の回復が早いという利点がある。
- 人型ロボットは汎用性が高い一方，多腕手術ロボットと比べて器具交換の効率性が課題である。
- 本研究は，人型ロボットによる複雑な手術操作を可能にするための器具交換の迅速化を目指す。
- 提案システムは，単軸コンプライアントドッキングと環境制約解放機構により低遅延な器具交換を実現した。
- HMDによる一人称視点知覚との統合により，ドッキング操作の複雑さと認知負荷を大幅に軽減した。
- 専門家と初心者の比較評価では，高い操作性と迅速な学習曲線が確認され，初心者の習熟度も向上した。
Link: https://arxiv.org/abs/2604.02707
V2X-QA：自律運転におけるエゴ，インフラ，協調的視点横断的なマルチモーダル大規模言語モデルの包括的推論データセットとベンチマーク [cs.RO, cs.AI, cs.CV]目的：自律運転におけるマルチモーダル大規模言語モデルの性能評価
- 自動運転技術は，安全性向上や交通効率化に不可欠であり，その高度化が求められている。
- 既存のベンチマークはエゴ視点に偏っており，インフラや協調的運転状況での性能評価が不十分である。
- 多様な視点からの推論能力を評価し，自動運転の信頼性と協調性を向上させる。
- V2X-QAは，車両，インフラ，協調という3つの視点から評価できるデータセットとベンチマークである。
- 実験結果から，視点へのアクセス可能性が性能に大きく影響することが示された。
- インフラ側の推論は，交通状況の理解を深める上で有効であり，協調的な推論にはさらなる研究が必要である。
Link: https://arxiv.org/abs/2604.02710
最大ランダム選出 [cs.GT]目的：パネル構成員の選出における分布のエントロピー最大化
- 市民会議は，民主主義の新たな形として注目されており，社会課題解決への貢献が期待されている。
- 現在の選出方法では，多様性の担保や操作可能性への懸念が残されている。
- エントロピー最大化により，より公平で透明性の高いパネル構成員の選出を目指す。
- 提案アルゴリズムは，既存の選出方法と比較して，交差多様性が高いことが示された。
- 未定義の代表性制約を満たす確率においても，良好な結果が得られた。
- 市民会議の実務者向けウェブサイトへのアルゴリズム実装も行った。
Link: https://arxiv.org/abs/2604.02712
ExploreVLA：エンドツーエンド自律運転のための高密度な世界モデル化と探索 [cs.CL, cs.CV]目的：エンドツーエンド自律運転における世界モデル化と探索による性能向上
- 自動運転技術は，交通渋滞の緩和や交通事故の削減に貢献し，社会に大きな利益をもたらすと期待されている。
- 模倣学習では，未知の状況への対応が難しく，多様な運転戦略を獲得できないという課題がある。
- 本研究では，世界モデルを用いて探索を促進し，よりロバストな自律運転を実現することを目指す。
- 提案手法では，軌跡予測に加えてRGB-D画像の生成を世界モデル化の目的としており，これによりモデルは詳細な視覚情報と幾何学的表現を学習する。
- 世界モデルの画像予測不確実性を内在報酬として利用することで，訓練分布外の状況を安全に探索し，学習機会を増やす。
- NAVSIMベンチマークにおいて，提案手法は最先端のPDMSスコア93.7とEPDMSスコア88.8を達成し，有効性が確認された。
Link: https://arxiv.org/abs/2604.02714
MOMO：火星周回探査のための基盤モデル [cs.CV, cs.AI, cs.LG]目的：火星リモートセンシングのためのマルチセンサー基盤モデル
- 火星探査において，多様なセンサーデータの統合的利用は重要である。
- 異なる解像度を持つセンサーデータ間の整合性が課題となっていた。
- 最適なチェックポイント選択戦略によるモデルマージを試みる。
- MOMOは，HiRISE，CTX，THEMISの3つの主要な火星センサーから学習した表現を統合する初のマルチセンサー基盤モデルである。
- Mars-Benchの9つの下流タスクにおいて，ImageNetで事前学習されたモデルやセンサー固有の事前学習よりも優れた性能を示した。
- 特にセグメンテーションタスクにおいて，MOMOは一貫した大幅な性能向上を達成した。
Link: https://arxiv.org/abs/2604.02719
テキストからの物理的に妥当な手と物体のメッシュ生成 [cs.CV]目的：テキストからの3D手と物体のインタラクション生成
- ロボットの器用な把持やVR/ARコンテンツ生成において，高精度な3Dインタラクションが不可欠である。
- テキストから生成されたガウス分布からのメッシュ抽出が困難であり，誤ったメッシュに対する物理ベースの最適化が課題である。
- テンプレートメッシュなしで，リアリスティックかつ物理的に妥当な3Dインタラクションメッシュを生成することを目指す。
- THOMは，ガウス分布からメッシュを生成し，物理ベースの最適化を行う2段階パイプラインを採用している。
- 新しいメッシュ抽出法と頂点からガウスへのマッピングにより，トポロジーを意識した正則化を実現している。
- VLMによる翻訳の改良と接触を考慮した最適化により，インタラクションの物理的妥当性を向上させている。
Link: https://arxiv.org/abs/2604.02736
多様な脳MRIタスクのための視覚的指示で微調整された言語モデル [cs.RO, cs.RO, cs.CV]目的：多様な脳MRIタスクにおける言語モデルの性能向上
- 医療画像診断の精度向上は，早期発見・治療に不可欠であり，臨床上有益な情報を提供する。
- 既存の画像処理モデルは特定のタスクに特化し，多様な臨床ニーズに対応できない場合がある。
- 単一の言語モデルで複数の臨床的に重要な脳MRIタスクを統合し，汎用性を高める。
- LLaBITは，脳MRIにおけるレポート生成，視覚的質問応答，画像セグメンテーション，画像変換の全タスクで優れた性能を示した。
- 従来の専門モデルと比較して，LLaBITは汎用性と効率性の面で優位性を示した。
- 画像エンコーダからの特徴マップ再利用機構により，画像トークン化に伴う空間情報の損失を軽減することに成功した。
Link: https://arxiv.org/abs/2604.02748