arXiv雑要約

画像・音声 - 2026/03/19 公開

真実，全体，そしてそれだけ：再構成品質からの自動可視化評価 [cs.CL, cs.CY, cs.HC, cs.CV]目的：可視化の品質評価
- データ視覚化は，データ理解を深める上で不可欠である。
- 生成AIによる可視化は品質が不安定であり，人間の介入が必要とされる。
- 大規模な評価を可能にする，人間の介入を必要としない自動評価手法の開発。
- 提案手法は，元のデータからの再構成精度によって可視化の品質を評価する。
- 本手法は，大規模なデータセットに対しても，人間による評価の代替として利用可能である。
- AI駆動型可視化ワークフローの効率性と信頼性向上に貢献する。
Link: https://arxiv.org/abs/2603.16873
放射線科レポート生成のためのマルチモーダルマルチエージェント強化学習：臨床的に検証可能な報酬を用いた放射線科医ライクなワークフロー [cs.CV, cs.AI, cs.LG]目的：放射線科レポート生成におけるマルチモーダルマルチエージェント強化学習フレームワーク
- 医療画像診断の精度向上は，患者ケアの質を向上させる上で不可欠である。
- 既存のレポート生成手法では，臨床的な正確性や詳細な情報の記述が不足している場合がある。
- 臨床的に検証可能な報酬を用いて，より正確で詳細なレポートを生成することを目指す。
- 提案手法MARL-Radは，MIMIC-CXRおよびIU X-rayデータセットにおいて，RadGraph，CheXbert，GREENなどの臨床的有効性指標において最先端の性能を達成した。
- MARL-Radは，左右一致性の向上と，より正確で詳細な情報を含むレポートの生成に貢献することが示された。
- 複数のエージェントを同時に訓練し，強化学習を通じてシステム全体を最適化する点が特徴である。
Link: https://arxiv.org/abs/2603.16876
トークン化とデータ拡張：IMUベースのオンライン手書き文字認識における筆者変動に関する体系的研究 [eess.SY, cs.RO, cs.SY, math.DG, cs.CV, cs.CL, cs.LG, eess.SP]目的：IMUベースオンライン手書き文字認識における筆者変動への対処戦略の検討
- 多様な書字環境での入力に対応可能だが，文字分布の偏りや筆者間変動が課題である。
- 筆者間の書字スタイルの違いにより，未知の筆者に対する認識精度が低下する。
- 筆者間変動と筆者内変動に応じた最適な対処法を明らかにすること。
- 筆者独立データセットでは，Bigramトークン化が未知の筆者スタイルに対する性能を向上させ，WERを減少させた。
- 筆者依存データセットでは，トークン化は語彙分布の変化により性能を低下させた。
- 提案手法である連結ベースのデータ拡張は，強力な正則化効果を示し，CERとWERを大幅に減少させた。
Link: https://arxiv.org/abs/2603.16883
ルーブリックに基づくSpeechLLMのファインチューニング：多角的，多評価者L2読解・スピーチ評価 [cs.CL, cs.AI, cs.SD, eess.AS]目的：第二言語(L2)スピーチの多角的評価基準との整合性
- 言語教育において，客観的で信頼性の高いスピーチ評価は重要である。学習者の進捗を測る上で不可欠な要素である。
- 大規模言語モデルは，人間の評価者間の微妙な違いを捉えきれず，評価のばらつきに対応できない場合がある。
- ルーブリックと不確実性に基づき，人間の評価との整合性を高め，信頼性と説明可能性のある評価システムを構築する。
- ルーブリックによる誘導と不確実性較正により，人間の評価との高い整合性が確認された。
- 特に，流暢さとプロソディの評価において高い信頼性を示した。
- 正確性の評価は困難であったが，モデルの不確実性モデリングとコンフォーマル較正が有効であることが示された。
Link: https://arxiv.org/abs/2603.16889
Amanous：ディスクラヴィアにおける超人的ピアノ密度を実現するための分布切り替え [cs.MM, cs.SD, eess.AS]目的：超人的ピアノ密度を実現するための作曲システム
- 自動ピアノは人間の物理的限界を超える可能性を秘めているが，作曲手法の発展が遅れている。
- 既存の作曲手法（ナンカーロウのテンポカノン，クセナキスの確率分布，Lシステム）は孤立しており，統合されていない。
- Lシステムを用いて分布切り替えを行い，異なる作曲手法を統合することで，自動ピアノの潜在能力を最大限に引き出す。
- 提案システムAmanousは，4層アーキテクチャにより，統計的に異なるセクションを生成し，その効果を検証した（d = 3.70-5.34）。
- ハードウェア抽象化レイヤーにより，ディスクラヴィアの物理的制約を考慮した超人的テクスチャの実現を可能にした。
- 密度スイープの結果，24-30ノート/秒で飽和転移が確認され，その時点で単一ドメインのメトリックは識別力を失うことが示された。
Link: https://arxiv.org/abs/2603.16890
機能価格付きマイクロ市場：HTTP 402上のエージェント型ウェブのためのミクロ経済的フレームワーク [eess.SY, cs.SY, econ.GN, q-fin.EC, cs.GT, cs.CR, cs.ET, cs.MA]目的：自律型AIエージェント間の堅牢でスケーラブル，かつ安全な商取引を可能にするミクロ経済的フレームワーク
- 分散型AIシステムの経済的連携は重要であり，人間による監督を最小限に抑えつつ効率的な取引を可能にする必要がある。
- 分散型エージェント生態系において，経済的な調整が困難であり，情報の非対称性が効率性を損なう可能性がある。
- 情報の非対称性下でも効率的な結果を保証する，安全なマイクロ市場の構築を目指す。
- CPMMメカニズムは，制約されたラドナー均衡に収束することが理論的に示され，情報の非対称性下でも効率的な結果を保証する。
- 「プライバシーの需要の弾力性」という概念が導入され，エージェントの情報開示とサービスの市場価格のトレードオフを定量化した。
- 安全な機能，マイクロペイメントプロトコル，正式な交渉メカニズムを統合することで，エージェント型ウェブのための機能的なマイクロ市場を創出する包括的なソリューションを提供する。
Link: https://arxiv.org/abs/2603.16899
音声ディープフェイク検出のための量子化認識階層型ニューラルコーデックモデリング [cs.SD, cs.AI, cs.CL, eess.AS]目的：音声ディープフェイク検出のための表現学習フレームワーク
- 音声処理における安全性確保は重要であり，特にディープフェイク技術の悪用防止が求められている。
- 既存のディープフェイク検出システムは，コーデックの離散構造や量子化レベルの階層性を十分に活用できていない。
- 量子化レベルの貢献度を学習可能な重み付けでモデル化し，フォレンジックな手がかりに整合した構造化コーデック表現を構築する。
- 提案手法は，ASVspoof 2019において46.2%の相対的なEER削減率を達成した。
- ASVspoof5においても，13.9%の相対的なEER削減率を強力なベースラインと比較して実現した。
- バックボーンの音声エンコーダは固定し，わずか4.4%の追加パラメータを更新するだけで，これらの結果が得られた。
Link: https://arxiv.org/abs/2603.16914
非協調的な人間とAIエージェントのダイナミクス [cs.GT, cs.MA]目的：戦略的環境下における人間とAIエージェント間の非協調的相互作用のダイナミクス
- AIの意思決定と人間の行動経済学の融合は，より現実的なAIシステムの構築に不可欠である。
- 従来のAIモデルでは人間の認知バイアスが考慮されておらず，現実の人間との相互作用に限界がある。
- 人間の行動特性をより正確にモデル化することで，AIと人間の協調的な関係を改善することを目指す。
- プロスペクト理論に基づく人間エージェントと，期待効用最大化に基づくAIエージェントの組み合わせによるシミュレーションを実施した。
- シミュレーション結果から，両者の戦略的行動における差異や，プロスペクト理論の異常な現象が確認された。
- 人間とAIの混合集団における競争環境下での行動パターンを分析し，予想外の結果も得られた。
Link: https://arxiv.org/abs/2603.16916
アンサンブル分離とターゲット再構成による音楽ソース復元 [cs.HC, cs.SD, cs.AI, eess.AS]目的：音楽ソース復元における性能向上
- 音楽制作の多様化により，未処理のオリジナル音源の重要性が高まっている。
- 既存の音源分離技術では，マスタリング等の加工を考慮できていない。
- 複雑な制作過程を経て劣化された音源からの復元を目指す。
- 提案手法は，複数の音源分離モデルと復元モデルを組み合わせる二段階システムである。
- 公式ベンチマークにおいて，基盤手法を上回り，全評価指標で高い性能を示した。
- 提出されたシステム全体で2位の成績を収めた。
Link: https://arxiv.org/abs/2603.16926
低高度ワイヤレスネットワークにおける大規模ビジョンモデルを活用したマルチUAV協調知覚 [cs.CV, eess.IV]目的：マルチUAV協調知覚のための通信効率化フレームワーク
- 低高度経済圏における多様な応用において，マルチUAV協調知覚は重要な役割を担う。
- 複数のUAVが生成する大量の視覚データは，通信遅延とリソース効率の点で課題となる。
- 通信効率と知覚性能のバランスを取りながら，リソース制約下での協調知覚を実現すること。
- 提案するBHUフレームワークは，Air-Co-Predデータセットにおいて，従来のCNNベースラインと比較して，知覚性能を5%以上向上させた。
- BHUフレームワークは，通信オーバーヘッドを85%削減し，通信効率の向上を実証した。
- Top-K選択メカニズムと拡散モデルに基づくDRLアルゴリズムにより，協調UAVの選択，スパース化率，プレコーディング行列を最適化する。
Link: https://arxiv.org/abs/2603.16927
転移学習と広範学習システムを融合した顔の美しさ予測 [cs.CV, cs.AI]目的：顔の美しさ予測モデルの精度向上
- 顔の美しさ予測は，画像認識と機械学習において重要な課題である。
- 大規模で効果的なデータが不足しやすく，過学習を起こしやすい。
- 顔の表情の多様性と人間の知覚の複雑さに対応するモデル構築を迅速化する。
- 本研究では，転移学習と広範学習システムを融合したE-BLSおよびER-BLSを提案した。
- EfficientNetsを用いたCNNsによる特徴抽出と，広範学習システムを組み合わせることで，高い予測精度を達成した。
- 既存のBLSやCNNsと比較して，顔の美しさ予測の精度が向上し，提案手法の有効性と優位性が示された。
Link: https://arxiv.org/abs/2603.16930
スクリプトからスライドへのグラウンディング：自動教育ビデオ生成のためのスクリプト文とスライドオブジェクトの対応付け [cs.CV, cs.AI]目的：スクリプト文とスライドオブジェクトの対応付け
- 教育や研究発表においてスライドを活用した動画が普及している。
- 動画編集，特に音声コンテンツとスライドオブジェクトの対応付けに手間がかかる。
- スライドとスクリプトから教育動画を自動生成するための基盤技術を確立する。
- 本研究では，スクリプト文とスライドオブジェクトの対応付けタスクを「スクリプトからスライドへのグラウンディング」として定式化した。
- 大規模言語モデルを活用した「Text-S2SG」という手法を提案し，高い性能（F1スコア：0.924）を達成した。
- これまで暗黙的だったスライド動画編集プロセスを計算可能なタスクとして明確化し，自動化への道を開いた。
Link: https://arxiv.org/abs/2603.16931
重要な箇所に注目：効率的なVLMのための高解像度クロップ検索 [cs.CV, cs.AI]目的：高解像度クロップ検索によるVLMの効率化
- VLMは画像認識と自然言語処理の融合であり，多様な応用を可能とする重要な分野である。
- 高解像度画像処理は計算コストが高く，低解像度画像では重要な情報が失われる可能性がある。
- 必要な領域のみを高解像度で処理することで，計算効率と精度を両立することを目指す。
- 提案手法AwaResは，低解像度画像全体と高解像度クロップを組み合わせ，必要な箇所のみを高解像度で処理する。
- 自動生成された教師データを用いて，クロップが必要かどうかを判断し，正解の根拠となる領域を特定する。
- SFTとGRPOを用いた訓練により，意味的正確性とクロップコストを考慮した最適なクロップ戦略を獲得する。
Link: https://arxiv.org/abs/2603.16932
AgriChat：農業画像理解のためのマルチモーダル大規模言語モデル [cs.CV, cs.AI]目的：農業画像の理解に関する大規模言語モデルの性能向上
- 農業分野における生産性向上や効率化にAIの活用が期待されている。
- 農業分野に特化した大規模データセットが不足しており，AIモデルの精度向上の妨げとなっている。
- 信頼性の高いデータを用いてAIモデルを訓練し，農業分野での課題解決を目指す。
- 新たなパイプラインV2VKにより，植物病理学文献に基づいた大規模な農業データセットAgriMMを構築した。
- AgriMMを活用し，農業に特化したマルチモーダル大規模言語モデルAgriChatを開発し，多様なタスクで優れた性能を示した。
- 視覚情報の保持とWebで検証された知識の組み合わせが，信頼性の高い農業AIの実現に繋がることを示した。
Link: https://arxiv.org/abs/2603.16934
GenLie：疎性と意味的干渉下におけるグローバル強化された嘘検出ネットワーク [cs.CV, cs.AI]目的：ビデオベースの嘘検出における欺瞞行動の識別
- 人間のコミュニケーションにおいて，信頼性の高い嘘の検出は重要な課題である。
- 欺瞞信号は微細かつ短時間であり，冗長な情報や個人差によるノイズに埋没しやすい。
- 疎な表現を学習し，欺瞞信号をノイズから分離すること。
- GenLieは，局所特徴モデリングとグローバルな監督学習を組み合わせることで，ロバストな表現を獲得する。
- 実験の結果，GenLieは3つの公開データセットにおいて，最先端の手法を上回る性能を示した。
- 特に，高い状況と低い状況の両方において，一貫して優れた性能が確認された。
Link: https://arxiv.org/abs/2603.16935
TDMM-LM：言語モデルによる顔の理解とアニメーションの架け橋 [cs.CV, cs.AI]目的：顔の理解とアニメーション間の連携
- 近年，テキストによる人体アニメーション技術が進歩しているが，顔のアニメーションはデータ不足が課題。
- 高品質な顔の動きとテキストのペアデータが不足しており，顔アニメーションの発展を阻害している。
- 言語モデルを活用し，顔の動きの理解と生成を可能にすることで，この問題を解決する。
- 大規模な顔の動きとテキストのペアデータセットを構築し，言語モデルの顔の動きに関する双方向性を検証した。
- 言語モデルが顔の動きを解釈し，テキストから顔の動きを合成できることを実験的に示した。
- 顔パラメータモデリングを言語問題として捉え，テキスト条件付きの顔アニメーションと動き理解への道を開いた。
Link: https://arxiv.org/abs/2603.16936
第10回曖昧性/躊躇ビデオ認識チャレンジに対する発散に基づくマルチモーダル融合解法 [cs.CV]目的：曖昧性/躊躇ビデオ認識の解法
- 非言語的行動の理解は，人間とコンピュータ間の自然なインタラクションを実現する上で重要である。
- 曖昧性や躊躇の正確な認識は難しく，既存手法では十分な性能が出せていない。
- マルチモーダル情報を効果的に融合し，曖昧性/躊躇の認識精度向上を目指す。
- 提案手法は，視覚，音声，テキストの各モダリティ間の不一致を捉える発散に基づくマルチモーダル融合を行う。
- 検証テストセットにおいて，Macro F1スコア0.6808を達成し，チャレンジベースライン0.2827を大きく上回った。
- 統計分析の結果，行動単位（AU）の時間的変動が，曖昧性/躊躇を識別する上で最も重要な視覚的特徴であることが確認された。
Link: https://arxiv.org/abs/2603.16939
KGS-GCN：運動認識のための運動学駆動ガウススプラッティングと確率的トポロジーによる疎な骨格センシングの強化 [cs.CV, cs.AI]目的：疎な骨格データにおける運動認識の性能向上
- 人間とコンピュータのインタラクションやインテリジェント監視など，様々なセンサシステムで活用されており，重要性が高い。
- 既存のセンサは疎な骨格データしか生成できず，動的な動きにおける詳細な時空間情報を失いがちである。
- センサデータの疎性とトポロジーの硬直性を克服し，よりロバストな運動認識を実現することを目指す。
- KGS-GCNは，運動学駆動ガウススプラッティングと確率的トポロジーを統合することで，複雑な時空間ダイナミクスのモデリングを大幅に強化する。
- 疎な関節を連続的な生成表現に変換することで，センサデータの疎性と物理的なトポロジーの制約という課題を克服する。
- 提案手法は，低品質のセンサデータ処理における知覚的信頼性の向上への実用的な道筋を示す。
Link: https://arxiv.org/abs/2603.16943
Omni IIE Bench：画像編集モデルの実用的な能力のベンチマーク [cs.CV, cs.AI]目的：画像編集モデルの編集一貫性評価
- 画像編集技術は，創造的なタスクやコンテンツ生成において重要な役割を担う。
- 既存のベンチマークは多様なタスクを評価するが，編集の一貫性という実用的な側面が欠けている。
- 異なる意味スケールにおける編集一貫性の問題を特定し，より信頼性の高いモデル開発を支援する。
- Omni IIE Benchは，属性変更とエンティティ置換のタスクペアによるシングルターン一貫性と，連続的な対話タスクによるマルチターン協調という二つの評価トラックを備えている。
- 評価の結果，ほとんどのモデルが低意味スケールから高意味スケールへの移行で性能が低下することが明らかになった。
- 本ベンチマークは，次世代の画像編集モデルの開発に向けた重要な診断ツールと洞察を提供する。
Link: https://arxiv.org/abs/2603.16944
高性能3D点群データ処理のための記憶と読み込みの同時最適化 [cs.CV, cs.AI]目的：3D点群データの記憶と処理パイプラインの最適化
- 自動運転やロボット認識など，3Dビジョンの重要性が増しており，点群データ処理の高速化が求められている。
- 従来のアルゴリズムでは，大規模な点群データの読み込みと処理に時間がかかり，効率的なデータハンドリングが課題である。
- 点群データの記憶形式の多様性がボトルネックとなっており，本研究では統一的な記憶形式による効率化を目指す。
- 提案する.PcRecord形式により，記憶容量の削減と点群データ処理の高速化を実現した。
- GPU環境ではModelNet40で平均6.61倍，S3DISで2.69倍，ShapeNetで2.23倍の性能向上を達成した。
- Ascend環境ではSUN RGB-Dで25.4倍，ScanNetで19.3倍と，特に大幅な性能向上を示した。
Link: https://arxiv.org/abs/2603.16945
EmergeNav：連続環境におけるゼロショット視覚言語ナビゲーションのための構造化された埋め込み推論 [cs.CV, cs.AI]目的：連続環境におけるゼロショット視覚言語ナビゲーションの実現
- ロボット工学において，環境を理解し，指示に従って行動するナビゲーション技術は重要である。
- 既存の視覚言語モデルは，長期間にわたる安定した行動を導き出すための実行構造が不足している。
- 視覚言語モデルの知識を安定したナビゲーション行動に変換するための実行構造の明示的な提供。
- EmergeNavは，プラン，実行，遷移の階層構造を用いることで，段階的な実行を可能にする。
- GIPEを用いて目標に基づいた知覚的抽出を行い，コントラスト双方向メモリ推論により進捗状況を把握する。
- Qwen3-VL-8Bで30.00 SR，Qwen3-VL-32Bで37.00 SRという強力なゼロショット性能を達成した。
Link: https://arxiv.org/abs/2603.16947
PhysQuantAgent：ビジョン言語モデルにおける質量推定のための推論パイプライン [cs.DM, math.CO, cs.CV, cs.AI]目的：ビジョン言語モデルによる現実世界の物体の質量推定
- ロボットの知覚と操作において，物理特性の推定は不可欠であり，安全なインタラクションに繋がる。
- 既存のビジョン言語モデルは信頼性の高い質量推論能力に乏しく，現実的な条件下での評価が不足している。
- 現実世界の物体の質量推定を可能にし，物理量の推定精度向上を目指す。
- 提案手法PhysQuantAgentは，RGB-D動画と質量測定値を含む新しいデータセットVisPhysQuantを構築した。
- 物体検出，スケール推定，断面画像生成といった視覚的プロンプティング手法を導入し，質量推定精度を向上させた。
- 実験結果から，視覚的プロンプティングが現実世界のデータにおいて質量推定精度を大幅に改善することが示された。
Link: https://arxiv.org/abs/2603.16958
高速道路交通データからの行動中心シナリオ抽出とCVQ-VAEを用いたドメイン知識誘導クラスタリング [cs.MA, cs.CY, cs.SY, eess.SY, cs.CV, cs.LG]目的：自動運転システムの検証用シナリオ抽出とクラスタリング
- 自動運転システムの安全性を保証するためには，実世界での交通シナリオに基づいた評価が不可欠である。
- 既存のシナリオ抽出方法は定義が異なり，シナリオの比較可能性を阻害している。
- シナリオ抽出の標準化と，ドメイン知識に基づいた効果的なクラスタリングを実現すること。
- 提案手法は，Scenario-as-Specificationの概念に基づき，標準化されたシナリオ抽出を可能にする。
- ドメイン知識をクラスタリングプロセスに効果的に統合することで，解釈可能性を向上させる。
- highDデータセットを用いた実験により，信頼性の高いシナリオ抽出と，効率的な検証プロセスの実現が示された。
Link: https://arxiv.org/abs/2603.16964
CineSRD：視覚，聴覚，言語的手がかりを活用したオープンワールドな視覚メディアにおける話者分離 [cs.CV, cs.AI, cs.MM, cs.SD, eess.AS]目的：オープンワールドな視覚メディアにおける話者分離
- 映像コンテンツの多様化により，話者分離技術の応用範囲が拡大している。
- 従来の技術は，話者数が限定的で環境が整った状況に限定され，実世界での応用が困難である。
- 複雑な視覚メディアにおける，話者分離の精度向上と汎用性の確保を目的とする。
- CineSRDは，視覚的，聴覚的，言語的情報を統合的に活用するフレームワークである。
- 視覚的アンカークラスタリングと音声言語モデルを組み合わせることで，話者登録とターン検出を高度化している。
- 提案手法は，新設されたベンチマークデータセットで優れた性能を示し，汎用性の高さを証明した。
Link: https://arxiv.org/abs/2603.16966
多指示画像編集のためのマルチモーダル構造化推論エージェントMSRAMIE [cs.CV, cs.AI]目的：多指示画像編集における構造化推論
- 画像編集技術は，創造性や表現力を拡張する上で不可欠である。
- 複雑な複数指示への対応が難しく，編集精度が低下しやすい。
- 高品質な複数指示アノテーションなしに，編集性能を向上させること。
- MSRAMIEは，既存の編集モデルをプラグインとして利用し，追加学習なしに複数指示に対応可能である。
- 複雑な指示を段階的に分解し，状態遷移と情報集約を行うことで，編集空間の体系的な探索を実現する。
- 実験により，指示の複雑さが増すほどMSRAMIEの性能が向上し，編集完了率が大幅に向上することが示された。
Link: https://arxiv.org/abs/2603.16967
モダリティ認識型新規検出による継続的マルチモーダル一人称視点行動認識 [cs.CV, cs.AI]目的：一人称視点での行動理解におけるロバスト性の向上
- 現実世界での行動認識は，視覚情報と慣性計測装置からの情報を統合することで，より頑健なシステム構築が期待される。
- 既存手法では，新規行動検出においてRGB情報に偏り，IMUなどの他のモダリティの情報を十分に活用できていない。
- 本研究では，各モダリティの信頼性を考慮し，新規行動検出の精度向上を目指す。
- 提案手法MANDは，モダリティごとの適応的スコアリングにより，新規活動検出のAUCを最大10％向上させた。
- MANDは，既知クラスの分類精度も最大2.8％向上させ，既存手法を上回る性能を示した。
- モダリティ固有の識別力を維持するための学習法により，継続学習における性能劣化を抑制している。
Link: https://arxiv.org/abs/2603.16970
千の言葉よりも一枚の絵が良いのか？画像を超えて – マルチモーダル知識グラフデータセットの充実のためのフレームワーク [cs.CV, cs.AI]目的：マルチモーダル知識グラフのデータセット充実
- 知識グラフは，現実世界の情報を構造的に表現し，様々な応用を可能にする重要な技術である。
- 画像を含むマルチモーダル知識グラフの構築には，大規模な画像収集と曖昧な画像の扱いが課題となる。
- 曖昧な画像も活用できる知識グラフの充実方法を模索し，性能向上を目指す。
- 提案手法「Beyond Images」は，追加の画像検索，テキスト変換，LLMによる要約の3段階でデータセットを充実させる。
- 画像からテキストへの変換により，曖昧な画像も有効な情報として活用し，知識グラフの補完性能を向上させる。
- 複数のデータセットで7%のHits@1向上，特に曖昧なロゴや記号の認識でMRRが201.35%，Hits@1が333.33%と大幅に改善された。
Link: https://arxiv.org/abs/2603.16974
効率的でコンパクトな視覚言語モデルの実践的レシピ [cs.CV, cs.AI]目的：効率的でコンパクトな視覚言語モデルの構築方法
- リソース制約のある環境での視覚言語モデル利用が拡大しているため，効率性が重要である。
- コンパクトなモデルはパラメータ数が少ないにも関わらず，期待されるほどの高速化が実現されていない。
- ボトルネックの特定と最適化レシピの提示により，コンパクトなVLMsの効率を改善すること。
- 提案手法は，InternVL3-2BのTTFTを53%，SmolVLM-256MのTTFTを93%削減した。
- 本レシピは，様々なVLMアーキテクチャや推論フレームワークに適用可能である。
- ArgusVLMは，コンパクトかつ効率的な設計を維持しつつ，多様なベンチマークで高い性能を発揮する。
Link: https://arxiv.org/abs/2603.16987
ペアワイズな嗜好性からの一般化ナッシュ均衡学習 [cs.GT, cs.SY, eess.SY]目的：一般化ナッシュ均衡問題の解の学習
- 多人数エージェント間の協調・非協調制御において，均衡点の把握が重要である。
- 既存手法は，目的関数や最良応答のクエリが可能な場合を想定していることが多い。
- 嗜好性比較によるクエリのみで，未知の問題に対する一般化ナッシュ均衡を学習すること。
- 提案手法は，二者択一の嗜好性をクエリするのみで，一般化ナッシュ均衡問題の解を学習する。
- 探索と利用のバランスを取るアクティブラーニング戦略を用いることで，効率的な学習を実現している。
- ゲーム理論的な線形二次レギュレーション問題や既存の事例で，提案手法の有効性を検証している。
Link: https://arxiv.org/abs/2603.17015
HopChain：汎用的な視覚言語推論のための多段データ合成 [cs.RO, cs.SY, eess.SY, cs.CV, cs.AI, cs.CL]目的：視覚言語推論の汎化性能向上を目指した多段データ合成フレームワーク
- 視覚言語モデルはマルチモーダルな能力を持つが，詳細な推論は課題である。
- 既存の視覚言語データは複雑な推論チェーンを含まず，弱点を露呈しにくい。
- 視覚的証拠に基づいた多段推論データを用いて，モデルの弱点を克服する。
- HopChainにより合成された多段データは，多様なベンチマークにおいて性能を向上させた。
- 特に，完全な多段クエリが性能向上に重要であることが示された。
- 長尺CoT推論の強化にも繋がり，汎用的な視覚言語推論能力の改善に貢献する。
Link: https://arxiv.org/abs/2603.17024
OpenQlaw：二次元量子材料分析のためのエージェント型AIアシスタント [cs.CV]目的：二次元量子材料の分析におけるAIアシスタントの実現
- 二次元量子材料は，次世代エレクトロニクスにおいて重要な役割を担うと考えられており，その研究開発が活発に進められている。
- 従来の材料同定手法では，単なる検出精度だけでは実用的なデバイス製造につなげることが困難であった。
- 本研究では，研究者の認知負荷を軽減し，より迅速なデバイス製造を可能にするAIアシスタントを開発する。
- OpenQlawは，NanoBotとQuPAINTを基盤とするエージェントオーケストレーションシステムであり，視覚情報の活用と物理に基づいた推論を分離することで，効率的な材料分析を実現する。
- このシステムは，物理スケール比率やサンプル調製方法を記憶し，ユーザーの質問に対して自然な形で回答できる。
- エージェントアーキテクチャの活用により，OpenQlawはコンテキストを認識し，高速なデバイス製造を支援する。
Link: https://arxiv.org/abs/2603.17043
理解と生成は対立するか？統合マルチモーダルモデルに対するDPOの診断研究 [cs.LG, cs.AI, cs.CV]目的：統合マルチモーダルモデルにおけるDPOの有効性に関する評価
- マルチモーダルモデルは，画像とテキストの情報を統合し，より高度なAIシステムを実現する上で不可欠である。
- 単一のモデルで理解と生成の両方を同時に最適化することは，勾配の干渉により困難である。
- DPO適用時の生成能力への影響を検証し，改善のための指針を示す。
- 本研究の結果，DPOはJanus-Proモデルの生成品質を向上させることができなかった。7Bパラメータモデルでは有意な改善は見られず，1Bパラメータモデルではむしろ劣化が見られた。
- 理解と生成の勾配がほぼ直交しており，トークン数の非対称性によって勾配の大きさにも大きな差が見られた。これが多タスクDPOにおける主要な干渉メカニズムである。
- 勾配の大きさの調整は理解能力をわずかに向上させたものの，生成能力の低下は解消されなかった。離散VQトークン化がボトルネックである可能性が示唆された。
Link: https://arxiv.org/abs/2603.17044
SCE-LITE-HQ: 生成モデルを用いた滑らかな視覚的対事実説明 [cs.LG, cs.CV]目的：高解像度データに対するスケーラブルな対事実生成フレームワーク
- 深層学習モデルの解釈性は重要であり，特に高次元の視覚データでは困難である。
- 既存の対事実説明手法は，データセット固有の生成モデルに依存し，計算コストが高い。
- 事前学習済みの生成モデルを活用し，タスク固有の再学習を回避することで問題を解決する。
- SCE-LITE-HQは，既存のベースラインと同等またはそれ以上の有効性，現実性，多様性を持つ対事実を生成する。
- 専用の生成モデルを学習させるオーバーヘッドを回避しながら，高品質な対事実説明を可能にする。
- 自然画像データセットと医療画像データセットにおいて，その有効性が確認された。
Link: https://arxiv.org/abs/2603.17048
天球儀：蒸留された自己回帰型ビデオモデルのための前方過程強化学習 [cs.CV]目的：蒸留された自己回帰型ビデオモデルと人間の視覚的嗜好の整合
- ビデオ生成技術は，コンテンツ制作や仮想現実など，多様な応用分野で重要性を増している。
- 蒸留された自己回帰型モデルは効率的だが，生成結果が人間の好みに合わない場合がある。
- 既存の強化学習フレームワークでは計算コストが高く，効率的な整合が課題であった。
- 提案手法Astrolabeは，前方過程強化学習に基づき，蒸留された自己回帰型ビデオモデルの効率的なオンライン学習を実現する。
- 負のサンプルとの対比による学習により，逆過程の展開を必要とせず，メモリと計算コストを削減した。
- ストリーミング学習と多報酬目的関数により，長編ビデオにおける一貫性と安定性を確保し，生成品質を向上させた。
Link: https://arxiv.org/abs/2603.17051
人物認識画像修復エージェント：主観・客観的強化学習による [cs.NI, cs.CV]目的：画像修復タスクの自動化
- 画像修復は，古い写真や低品質な画像から情報を復元する上で重要であり，多様な分野で活用されている。
- 既存の画像修復エージェントは，過去の相互作用の要約機能が不足しており，最適な修復ツール探索に時間がかかる。
- 本研究は，人物認識を考慮し，効率的なツール選択と高精度な劣化情報把握を実現する画像修復エージェントを開発する。
- 提案手法PaAgentは，修復された画像，選択されたツール，劣化画像の特徴を要約した「ポートレートバンク」を構築・進化させる。
- ポートレートバンクからの関連情報の検索と，主観・客観的強化学習による報酬生成により，複雑なシーンにおける劣化情報の正確な把握を可能にする。
- 8つの画像修復ベンチマークにおける実験により，PaAgentが複雑な修復タスクにおいて優れた性能を発揮することが確認された。
Link: https://arxiv.org/abs/2603.17055
オフロード砂漠地形分類のためのTransformerベースのセマンティックセグメンテーション：DesertFormer [cs.CV, cs.LG]目的：オフロード砂漠地形のセマンティックセグメンテーションによる分類
- 自律ナビゲーションにおいて，正確な地形認識は不可欠である。特に，構造化されていないオフロード環境下では重要性が増す。
- 砂漠地帯は，低い色相コントラスト，極端な照明変化，および疎な植生により，従来の道路シーンセグメンテーションモデルでは課題となる。
- 本研究は，砂漠地形特有の課題を克服し，高精度なセグメンテーションを実現することで，自律走行システムの安全性を向上させる。
- DesertFormerは，SegFormer B2をベースとしたセマンティックセグメンテーションパイプラインであり，10種類の生態学的に意味のある地形カテゴリーに分類する。
- 4,176枚のオフロード画像データセットで学習した結果，平均IoU (mIoU) は64.4%，ピクセル精度は86.1%を達成し，DeepLabV3 MobileNetV2のベースラインを24.2%上回った。
- Ground ClutterとLandscape，Dry GrassとLandscape間の混同パターンを分析し，クラス重み付け学習とコピーペーストデータ拡張を提案した。
Link: https://arxiv.org/abs/2603.17056
漸近写像を用いた非対称Nash均衡探索：グローバル線形収束と不正確な反応モデルに対するロバスト性 [cs.GT, cs.MA, cs.RO, cs.SY, eess.SY, math.OC]目的：複数エージェントの意思決定と制御における相互作用のモデル化のための，非対称情報制約付き2人ゲームにおけるNash均衡探索手法
- マルチエージェントシステムにおいて，均衡は協調的な意思決定の基礎であり，社会経済システムや分散制御への応用が期待される。
- 従来の均衡探索法は，エージェント間の完全な情報共有を仮定しており，現実のシステムでは非現実的な制約となる場合が多い。
- 相手エージェントの目的関数が不明な状況下でも，効率的にNash均衡に収束するアルゴリズムを提案し，その性能を検証する。
- 提案手法は，相手エージェントの最適応答写像が正確である場合に，グローバル線形収束が保証されることを数学的に証明した。
- 最適応答写像が不正確な場合でも，近似誤差に比例した範囲内でNash均衡に収束することを理論的に示した。
- ベンチマークゲームによる数値実験により，提案手法の収束性と誤差のスケーリングが確認された。
Link: https://arxiv.org/abs/2603.17058
TrackDeform3D：変形物体のマーカーレスかつ自律的な3Dキーポイント追跡とデータセット収集 [cs.CV, cs.RO]目的：変形物体の3Dキーポイント追跡とデータセット収集のためのフレームワーク
- 変形物体の形状と動きを理解することは，ロボット工学やコンピュータグラフィックスにおいて重要である。
- 複雑な変形に対応した3D表現の抽出が困難であり，大規模データセットの収集に労力がかかる。
- RGB-Dカメラのみを用いて，変形物体の3Dデータセットを低コストで自律的に収集することを目指す。
- 提案手法TrackDeform3Dは，多様な物体カテゴリにおいて，既存の追跡手法よりも幾何学的精度と追跡精度が向上した。
- 6種類の変形物体を対象とした高品質な大規模データセットを構築し，合計110分間の軌跡データを提供した。
- 運動の一貫性制約を組み込むことで，時間的に滑らかで幾何学的に整合性のとれたデータが得られた。
Link: https://arxiv.org/abs/2603.17068
非侵襲的浴室での転倒検知のためのエッジ効率型二ストリームマルチモーダルアーキテクチャ [cs.CV]目的：浴室での転倒検知システムの開発
- 高齢者の一人暮らしにおける浴室での転倒は重大な安全上のリスクであるため，検知技術の重要性が高い。
- 既存のマルチモーダルシステムは，動きと衝撃を独立したストリームとして扱い，タイミングのずれや誤検知の問題がある。
- 本研究は，動きと衝撃の因果関係を明示的に捉え，エッジデバイスの制約下でも高精度な転倒検知を実現することを目指す。
- 提案アーキテクチャは，モーションと衝撃を効果的に融合し，96.1%の精度，94.8%の適合率，88.0%の再現率を達成した。
- 既存の最良のベースラインと比較して，精度が2.0%向上し，転倒の再現率が1.3%向上した。
- Raspberry Pi 4Bゲートウェイ上での遅延を35.9msから15.8msに短縮し，エネルギー消費量も削減した。
Link: https://arxiv.org/abs/2603.17069
ACE-LoRA：医療画像と言語モデルの効率的な適応のためのグラフ注意機構による文脈拡張 [cs.CV]目的：医療画像と言語モデルにおける，パラメータ効率的な適応手法の開発
- 医療画像診断の精度向上には，画像とテキスト情報を効果的に統合するモデルが不可欠である。
- 既存モデルは，専門特化型と汎用型で二極化しており，両者のバランスを取ることが課題である。
- 汎用モデルを効率的に適応させ，専門知識と汎化性能を両立させることを目指す。
- ACE-LoRAは，少数の学習パラメータ（0.95M）で，最先端の医療画像と言語モデルを上回る性能を実現した。
- 画像・テキストエンコーダにLoRAモジュールを組み込み，注意機構を用いた文脈拡張ハイパーグラフニューラルネットワーク（ACE-HGNN）を導入することで，局所的な診断情報を効果的に表現した。
- ラベル誘導型InfoNCE損失を用いることで，意味的に関連する画像・テキストペア間の誤検出を抑制し，クロスモーダルアライメントを強化した。
Link: https://arxiv.org/abs/2603.17079
ガウス・エルミートモーメントを用いた高精度なシフト不変畳み込みニューラルネットワーク [eess.SY, cs.SY, cs.RO, cs.CL, eess.SY, cs.SY, cs.CV]目的：シフト不変性を実現するダウンサンプリング戦略
- 畳み込みニューラルネットワークは画像認識で広く利用され，高い性能を発揮するが，シフト不変性に課題がある。
- 従来のダウンサンプリング操作は計算効率を高める一方で，シフト不変性を損なう要因となっている。
- ガウス・エルミート多項式に基づくダウンサンプリングにより，層レベルでシフト不変性を埋め込むことを目指す。
- 提案手法であるGHSは，ダウンサンプリングにおいてシフト一貫性を実現し，空間シフトに対する分類の一貫性を100%達成した。
- GHSを標準的なCNNアーキテクチャに組み込むことで，追加の訓練手順なしにシフト不変性を向上させることができた。
- CIFAR-10，CIFAR-100，MNIST-rotデータセットでの実験により，ベースラインCNNモデルと比較して分類精度も向上することが示された。
Link: https://arxiv.org/abs/2603.17098
LLMを活用したソーシャルメディア画像からの浸水深推定：輸送の強靭性を実現するメカニズム解釈を備えたビジョン言語モデルフレームワーク [cs.CV]目的：都市部の浸水深推定手法の開発
- 都市部における浸水は交通網に深刻な影響を及ぼすため，リアルタイムな浸水情報が求められている。
- センチメートル単位の正確な浸水深をリアルタイムで把握するシステムは現状存在しない。
- ソーシャルメディア画像から高精度な浸水深を推定し，交通システムの安全性向上に貢献する。
- FloodLlamaは，平均絶対誤差0.97cm以下，深さ5cm以内の精度93.7%以上を達成した。
- 浅い浸水に対しては単純なプロンプト，深い浸水に対してはCoT推論が有効であることが示された。
- メカニズム解釈により，重要な層を特定し，学習パラメータを大幅に削減しながら高い精度を維持した。
Link: https://arxiv.org/abs/2603.17108
医療画像セグメンテーションのためのピクセルレベルの反事実的コントラスト学習 [cs.CV, cs.LG]目的：医療画像セグメンテーションにおける性能向上
- 医療画像の正確なセグメンテーションは，診断や治療計画において不可欠である。
- 高品質なアノテーション付きデータセットの作成には，コストと時間がかかる。
- AI生成ラベルのバイアスを軽減しつつ，セグメンテーション精度を向上させること。
- アノテーション不要のDVD-CLは，他の密なコントラスト学習手法を上回る性能を示した。
- 銀ラベルを用いた教師あり学習は，銀ラベルデータのみでの学習を上回る高いDSC（約94%）を達成した。
- 反事実的学習と銀ラベルの活用により，画像の取得や病理学的変化に対するロバスト性が向上した。
Link: https://arxiv.org/abs/2603.17110
隠れたクローン：ビジョン言語モデルアンサンブルにおけるファミリーバイアス露呈と修正 [cs.CV, cs.AI]目的：ビジョン言語モデルアンサンブルにおけるファミリーバイアスの存在とその軽減
- ビジョン言語モデルは画像とテキストの理解において重要であり，その性能向上は様々な応用分野に貢献する。
- 異なるプロバイダのモデルを組み合わせることで精度は向上するものの，同じアーキテクチャのモデル間には相関した誤りが存在する。
- ファミリー間の相関誤差を考慮した集約方法を開発し，アンサンブル性能の低下を防ぐことを目指す。
- ファミリーを意識した集約方法により，誤りが相関する質問群における精度が大幅に向上した。
- QualRCCVは，キャリブレーションされた投票を全てのベンチマークで上回り，家族の質や規模を考慮した重み付けが有効であることが示された。
- LCSは，候補回答を再ランク化することで最大の性能向上を達成し，既存手法を上回る汎化性能を確認した。
Link: https://arxiv.org/abs/2603.17111
モザイクメモリ：制御可能なビデオワールドモデルのためのハイブリッド空間メモリ [cs.CV]目的：制御可能なビデオワールドモデルにおける空間メモリの改善
- ビデオ生成モデルは，リアリティのある短いクリップから，カメラ移動や介入にも対応できるワールドシミュレーターへと進化している。
- 空間メモリは依然としてボトルネックであり，3D構造は再現性に優れるが動く物体描写が苦手，暗黙的メモリは姿勢推定が不正確になりやすい。
- 動く物体描写と姿勢推定の正確性を両立させ，より自然なビデオワールドモデルの構築を目指す。
- MosaicMemは，パッチを3D空間に持ち上げ，正確な位置特定と検索を可能にするハイブリッド空間メモリである。
- PRoPEカメラ条件付けと新しいメモリ配置手法により，暗黙的メモリよりも姿勢追従性が向上し，明示的ベースラインよりも動的なモデリングに優れる。
- MosaicMemは，詳細なナビゲーション，メモリベースのシーン編集，自己回帰的なロールアウトを可能にする。
Link: https://arxiv.org/abs/2603.17117
単一画像からのペットのアバター生成：SMAL-pets [cs.CV]目的：単一画像からの高品質で編集可能なペットアバターの生成
- 仮想空間におけるペットの表現需要が高まる中，リアルなアバター作成が求められている。
- 動物の多様性が高く，既存モデルの汎化が困難である。また，大規模なアノテーションデータが不足している。
- 単一画像から高品質かつ編集可能なペットアバターを自動生成し，その利用を容易にすること。
- 本研究では，3D Gaussian SplattingとSMALパラメトリックモデルを組み合わせた新たなフレームワークSMAL-petsを提案した。
- これにより，視覚的に高品質でありながら，解剖学的にも正確なアバターの生成が可能となった。
- さらに，テキストプロンプトによる外観や動作の制御を可能にする編集ツールスイートを開発した。
Link: https://arxiv.org/abs/2603.17131
シャプレー公平な連合形成における分割・結合ダイナミクス [cs.GT]目的：シャプレー公平性と集合効率のバランスをとる分割・結合フレームワーク
- 社会的な資源配分や協力関係において，公平性と効率性は重要な指標である。
- 従来の連合形成モデルは静的な均衡に焦点を当て，自己組織化の動的なプロセスを無視してきた。
- この研究は，公平性の欠如と効率改善の誘因に基づいた動的なプロセスを分析し，安定的な連合形成を可能にする。
- 提案された分割・結合ダイナミクスは，有限時間内にシャプレー公平かつ結合安定な状態に収束することが示された。
- 収束性は，公平性の不足とシステム全体の余剰を追跡するベクトル型リャプノフ関数を用いて数学的に証明された。
- 数値実験により，アルゴリズムが公平性の緊張を解消し，安定的な構成に到達できることが示された。
Link: https://arxiv.org/abs/2603.17153
線形二次ネットワークゲームにおける学習，誤指定，および認知アービトラージ [cs.SI, cs.SY, eess.SY, cs.GT]目的：線形二次ネットワークゲームにおける戦略的相互作用の長期的挙動
- ネットワーク化されたシステムは社会・経済活動の基盤であり，その設計は重要である。
- 参加者の認識の歪みは，最適な均衡から逸脱を引き起こす可能性がある。
- 参加者の信念を操作することで，システム全体の均衡を改善することを目指す。
- 誤指定の価値（VoM）指標を用いて，均衡からの乖離を定量化することができた。
- システム設計者が，最小限の観測歪みを通じてエージェントの推測を戦略的に形成する「認知アービトラージ」のパラダイムを導入した。
- 二段階学習アルゴリズムが最適なBNEに収束することを証明し，合理性の限界を持つネットワークシステムにおける行動への影響を与えるための原則的な枠組みを提供した。
Link: https://arxiv.org/abs/2603.17157
BEV-SLD：LiDAR鳥瞰画像を用いた自己教師ありシーンランドマーク検出によるグローバルローカリゼーション [cs.NI, cs.CV, cs.RO]目的：LiDARを用いたグローバルローカリゼーションのためのシーンランドマーク検出
- 自動運転やロボティクスにおいて，正確な位置認識は不可欠である。
- 既存手法は，シーンに依存せず汎用的な特徴に頼るため，ロバスト性に課題がある。
- シーン固有の特徴をランドマークとして利用し，よりロバストな位置認識を実現する。
- 本研究で提案するBEV-SLDは，LiDARデータから生成される鳥瞰画像を用いてランドマークを自己教師ありで学習する。
- 学習されたランドマーク座標とフレームごとのヒートマップの一貫性を保つことで，安定したランドマーク検出を可能にする。
- キャンパス，工場，森林など多様な環境下で，BEV-SLDは堅牢な位置認識性能を示し，最先端手法と比較しても優れた結果を得ている。
Link: https://arxiv.org/abs/2603.17159
GazeOnce360：魚眼レンズに基づく360度複数人視線推定におけるグローバル・ローカル特徴融合 [cs.CV]目的：360度シーンにおける複数人の3D視線方向推定
- 視線推定は，ヒューマン・コンピュータインタラクションや行動分析において重要な役割を担う。
- 従来の視線推定は正面カメラに依存し，360度空間における複数人の視線推定は未開拓の課題である。
- 魚眼レンズによる広範囲な視界と，その歪みへの対応が本研究の目的である。
- 本研究では，魚眼レンズからの画像を用いて，複数人の3D視線方向を高精度に推定するGazeOnce360を提案した。
- MPSGaze360という大規模な合成データセットを構築し，多様な複数人配置と正確な視線情報を実現した。
- 回転畳み込みや眼ランドマークの監視，デュアル解像度アーキテクチャにより，歪みと解像度の問題を克服した。
Link: https://arxiv.org/abs/2603.17161