arXiv雑要約

画像・音声 - 2026/03/20 公開

カプセル内視鏡動画に基づくVision Transformerによる稀少疾患検出 [cs.CV]目的：カプセル内視鏡動画からの多ラベル分類
- 消化器疾患の早期発見・治療は，患者のQOL向上に不可欠である。
- カプセル内視鏡動画の解析は専門医に依存し，時間と労力を要する。
- Transformerを用いた自動化により，診断支援の効率化を目指す。
- Google Vision Transformerをファインチューニングし，17種類のラベルを分類した。
- テストデータセット３動画において，mAP @0.5は0.0205，mAP @0.95は0.0196であった。
Link: https://arxiv.org/abs/2603.18045
DEAF：音声言語モデルにおける音響的忠実性の診断評価のためのベンチマーク [cs.AI, cs.SD, eess.AS]目的：音響的忠実性の診断評価
- 近年の音声マルチモーダル大規模言語モデルの発展に伴い，その音響信号処理能力の検証が重要になっている。
- 既存の音声ベンチマークでは，モデルが真に音響信号を処理しているか，テキストベースの推論に頼っているかの区別が困難である。
- 音響情報とテキスト情報の影響を分離し，モデルの音響的忠実性を定量的に評価することを目指す。
- DEAFベンチマークは，感情的なプロソディ，背景音，話者 IDの3つの音響次元にわたる2,700以上の対立刺激で構成される。
- 7つの音声MLLMの評価の結果，テキストの影響が支配的であり，モデルは音響の変化に敏感だが，予測は主にテキスト入力によって駆動されることが明らかになった。
- 標準的な音声ベンチマークでの高いパフォーマンスと，真の音響理解との間にギャップが存在することが示唆される。
Link: https://arxiv.org/abs/2603.18048
S3T-Former：骨格アクション認識のための純粋なスパイク駆動状態空間トポロジーTransformer [cs.CV, cs.AI]目的：骨格に基づくアクション認識におけるエネルギー効率の向上
- マルチメディアアプリケーションにおいて，骨格ベースのアクション認識は重要な役割を担う分野である。
- 既存のモデルは計算負荷が高く，リソースの限られたエッジデバイスへの展開が困難である。
- スパイクニューラルネットワークの利点を活かし，省エネルギーな骨格アクション認識を実現すること。
- S3T-Formerは，従来のANNと比較して高い精度を達成し，理論的にはエネルギー消費量を削減する。
- Multi-Stream Anatomical Spiking Embedding (M-ASE)により，多次元の骨格特徴を疎なイベントストリームに変換する。
- Lateral Spiking Topology Routing (LSTR)とSpiking State-Space (S3) Engineにより，スパイクの疎性と長期的な時間的依存性を実現する。
Link: https://arxiv.org/abs/2603.18062
DarkDriving：暗環境における自動運転のための昼夜対応リアルワールドデータセット [cs.CV, cs.DB]目的：暗環境における自動運転のための低照度画像強調に関する評価基準
- 自動運転技術の発展には，様々な環境下での確実な視覚認識が不可欠である。
- 既存の低照度画像強調データセットは，動的な運転シーンでの昼夜ペア収集が困難であった。
- 本研究は，リアルワールドの昼夜対応データセットを提供し，低照度環境下での自動運転技術の向上を目指す。
- 新たに開発した自動昼夜軌跡追跡ベースのポーズマッチング法により，広大な実世界のテストフィールドでデータ収集を実現した。
- DarkDrivingデータセットは，位置と空間内容が精密に整合した9,538組の昼夜画像ペアを含み，オブジェクトの2Dバウンディングボックスも手動でラベリングされている。
- 実験結果から，本データセットが自動運転における低照度画像強調の評価に有用であり，他の低照度運転環境にも応用可能であることが示された。
Link: https://arxiv.org/abs/2603.18067
EgoAdapt：欠損モダリティ下における一人称視点インタラクティブ話者検出のロバスト性向上 [cs.MM, cs.CV, cs.SD]目的：一人称視点における「私に話しかけている」話者検出のロバスト性
- 人間社会の相互作用理解において重要な課題であり，ウェアラブルカメラの活用が期待されている。
- 現実環境下では，視覚データの欠損，頭部方向の無視，背景雑音が課題となる。
- 欠損モダリティ下でもロバストな話者検出を実現し，より自然な相互作用理解を目指す。
- 提案手法EgoAdaptは，Ego4DデータセットのTTMベンチマークにおいて，mAP 67.39%，Accuracy 62.01%を達成した。
- 既存手法と比較して，Accuracyで4.96%，mAPで1.56%大幅な性能向上を示した。
- 頭部方向や唇の動きといった非言語的情報，ノイズ環境下での音声特徴抽出，モダリティの欠損状況への対応が有効であることが示された。
Link: https://arxiv.org/abs/2603.18082
SSP-SAM：意味・空間プロンプトを用いた参照表現セグメンテーションのためのSAM [cs.CV]目的：参照表現セグメンテーションの性能向上
- 画像認識技術は，様々な分野で応用が広がっており，その重要性は増している。
- SAMは汎用的なセグメンテーションに優れるが，自然言語理解の限界により，参照表現セグメンテーションへの直接的な応用が難しい。
- SAMのセグメンテーション能力を最大限に活用し，自然言語に基づいた正確なセグメンテーションを実現すること。
- 提案手法SSP-SAMは，セマンティック・空間プロンプトエンコーダを導入することで，SAMの性能を向上させている。
- 視覚的特徴と言語的特徴への注意機構を組み込むことで，参照対象の表現力を高め，高品質なプロンプト生成を可能にしている。
- 既存の最先端手法と比較して，RESおよびGRESのベンチマークにおいて優れた性能を示し，特に厳密な評価基準下でも高い精度を実現している。
Link: https://arxiv.org/abs/2603.18086
CytoSyn：病理組織学的画像生成のための基盤拡散モデル [cs.CV, cs.AI, cs.LG]目的：病理組織学的H&E染色画像の高精度かつ多様な生成
- 近年，病理画像解析は疾患理解の深化と臨床応用の発展に貢献しており，医療分野において重要性が増している。
- 特徴抽出モデルは存在するものの，病理組織学に特化した生成基盤モデルは不足しており，その活用に限界がある。
- 本研究は，特徴抽出モデルでは困難な仮想染色などのタスクを可能にする生成モデルの開発を目指す。
- CytoSynは，最先端の潜在拡散モデルであり，高品質で多様な病理組織学的画像を生成できることをベンチマークで示した。
- CytoSyn-v2は，手法改善，データセットの拡大，サンプリング戦略の最適化により性能が向上し，PixCellと比較して優れている。
- 腫瘍画像で学習されたモデルが，炎症性腸疾患の画像生成においても高い性能を発揮することが確認された。
Link: https://arxiv.org/abs/2603.18089
MOSS-TTS技術報告 [cs.SD, cs.AI, cs.CL]目的：音声生成基盤モデルMOSS-TTSの設計，学習レシピ，および実験的特性
- 音声合成技術は，人間と機械の自然なコミュニケーションを実現する上で不可欠である。
- 既存のモデルは，多様な言語や話者に対応した高品質な音声合成が課題であった。
- 多様な制御と長文生成が可能な，スケーラブルな音声合成モデルを開発する。
- MOSS-TTSは，離散オーディオトークン，自己回帰モデル，大規模事前学習に基づいた基盤モデルである。
- MOSS-TTSは，ゼロショット音声クローニング，トークンレベルの長さ制御，そしてスムーズなコードスイッチングを可能にする。
- MOSS-TTS-Local-Transformerは，より高いモデリング効率と話者保持能力を実現する。
Link: https://arxiv.org/abs/2603.18090
行動ドラフトと検証：ビジョン-言語-行動モデルのための自己検証フレームワーク [cs.CV, cs.RO]目的：ビジョン-言語-行動モデルの性能向上
- ロボット工学において，環境を理解し，行動計画を立てる能力は重要である。
- 拡散モデルは高精度だが，汎化性能に課題がある。
- 拡散モデルと自己回帰モデルの利点を組み合わせることで，汎化性能の向上を目指す。
- 提案手法（ADV）は，シミュレーション環境で成功率を4.3ポイント向上させた。
- 実世界環境では，成功率を19.7ポイント大幅に向上させた。
- VLMによる再ランク付けのオーバーヘッドは小さい。
Link: https://arxiv.org/abs/2603.18091
One-to-More：アテンション制御による高精度な学習不要異常生成 [cs.NI, cs.CV]目的：異常検知のための異常データの生成
- 産業分野における異常検知は，品質管理や安全確保において不可欠な技術である。
- 異常データは通常不足しており，異常検知モデルの性能向上を阻害する要因となっている。
- 本研究では，学習を必要とせず，より現実的な異常画像を生成することで，この課題を解決する。
- 提案手法O2MAGは，自己注意機構を活用し，一つの異常画像を基に複数の異常画像を生成する。
- O2MAGは，拡散過程を操作し，異常マスクを用いることで，テキストに沿った現実的な異常画像を生成する。
- 実験により，O2MAGが既存手法と比較して，異常検知タスクにおいて優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.18093
輻輳ゲームにおける公正かつ効率的な動的資源配分に対するトークン経済 [cs.GT, cs.SY, eess.SY]目的：輻輳ゲームにおける公正かつ効率的な動的資源配分メカニズム
- 共有経済において，資源配分の効率化が重要であり，利用者の利便性向上に繋がる。
- 従来の金銭メカニズムは，富の格差により不公平な結果を生み出す可能性がある。
- トークン経済を導入することで，効率性と公平性を両立する資源配分を可能にする。
- 提案するトークンベースのメカニズムは，効率的かつ公正な動的資源配分を実現する。
- 有限個の合理的なエージェントを持つ連続時間動的ゲームとしてトークン経済をモデル化。
- 平均場近似を用いることで，最適かつ公正な資源配分へ動的システムを導く整数通行料金を設計可能。
Link: https://arxiv.org/abs/2603.18094
Q-Drift：拡散モデルサンプリングにおける量子化認識ドリフト補正 [cs.CV, cs.LG]目的：拡散モデルのサンプリングにおける量子化誤差による品質劣化の抑制
- 大規模拡散モデルの利用拡大には，計算資源の削減が不可欠である。
- 量子化によるノイズ累積が，生成品質低下の大きな要因となっている。
- 量子化誤差を考慮したドリフト補正により，品質劣化を抑制する。
- Q-Driftは，各ノイズ除去ステップにおける量子化誤差を確率的摂動として捉え，周辺分布を保存するドリフト調整を行う。
- わずか5回の精度検証で，ステップごとの分散統計量を推定し，既存のサンプラーや量子化手法に容易に組み込むことができる。
- 6つのテキスト画像生成モデルでFIDを改善し，特にPixArt-Sigma (SVDQuant W3A4)では最大4.59のFID削減効果が確認された。
Link: https://arxiv.org/abs/2603.18095
少数の学習サンプルを用いた適応学習のための，訓練のみによる異種画像パッチ・テキストグラフ教師あり学習 [cs.CV, cs.AI, cs.LG]目的：少数の学習サンプルを用いた適応学習における性能向上
- 画像認識技術は，多様な応用分野において不可欠であり，その精度向上は重要な課題である。
- 従来のCLIPチューニングは，グローバルな特徴量に依存しており，細かいパッチ間の関係性やテキストとの構造的整合性が見過ごされがちである。
- 本研究は，画像パッチとテキスト間の関係性を考慮したグラフ構造を用いることで，少数の学習サンプルからの適応学習の精度を高めることを目指す。
- 提案手法は，訓練時にのみ使用する異種グラフ教師を用いて，アダプターのキー・バリューキャッシュを直接学習し，プロトタイプの質を向上させる。
- グラフ教師は，多スケールな画像パッチとテキストプロンプトを統合し，モダリティを意識したグラフ変換器（MGT）を用いて深層のクロスモーダル推論を行う。
- 実験結果から，提案手法が標準的な1-16ショットベンチマークにおいて，最新技術を上回る性能を発揮することが示された。
Link: https://arxiv.org/abs/2603.18101
安定性に基づくトリガー露出プロファイリングによる音声バックドア攻撃の検出 [cs.AR, cs.CR, cs.LG, cs.SD]目的：音声バックドア攻撃の検出
- 深層学習を用いた音声モデルがセキュリティが重要な用途で広く利用され，攻撃の対象となりやすい。
- 既存の防御策は画像やテキストに特化しており，音声ドメインでは有効でない場合がある。
- 安定性に基づくトリガー露出プロファイリングによって，バックドア攻撃を効率的に検出すること。
- 提案手法STEPは，ラベル安定性の異常な変動を利用し，高い検出性能を示す。
- 7種類のバックドア攻撃に対する平均AUROCは97.92%，EERは4.54%と，既存手法を大幅に上回る。
- モデル構造，音声タスク，実環境での検証など，様々な条件下で優れた汎化性能を示す。
Link: https://arxiv.org/abs/2603.18103
概念から判断へ：解釈可能な画像美学評価 [cs.CV]目的：画像美学評価における解釈可能性の向上
- 画像美学評価は，人間の美的感覚を再現する上で重要である。
- 既存モデルは予測性能が高いが，その判断根拠が不明確である。
- 人間が理解しやすい美的概念に基づいた評価手法を開発する。
- 提案手法は，競合する予測性能を維持しつつ，解釈可能な美学判断を提供する。
- 人間の美的判断に即した，高水準な手がかりに基づいた枠組みを構築した。
- 画像に対する美的認識の微妙な影響を捉えるための残差予測器を導入した。
Link: https://arxiv.org/abs/2603.18108
Insight-V++：マルチモーダル大規模言語モデルによる高度な長鎖視覚推論に向けて [cs.CV, cs.AI, cs.LG]目的：マルチモーダル大規模言語モデルにおける長鎖視覚推論能力の向上
- 視覚情報を理解し，高度な推論を行うことは，AIの応用範囲を広げる上で重要である。
- 高品質な長鎖推論データの不足と，最適化された学習パイプラインが，マルチモーダル大規模言語モデルの能力向上を阻害している。
- 本研究は，自動データ生成と多重エージェントシステムにより，長鎖視覚推論能力の向上を目指す。
- Insight-V++は，画像と動画の両領域で複雑な推論軌跡を自動生成するパイプラインを開発した。
- 推論エージェントと要約エージェントの二重エージェントアーキテクチャと，ST-GRPO，J-GRPOアルゴリズムにより，空間・時間的推論を強化した。
- LLaVA-NeXTやQwen2.5-VLといった基盤モデルで，視覚推論ベンチマークにおいて著しい性能向上を実証した。
Link: https://arxiv.org/abs/2603.18118
VLM-AutoDrive：安全重視の自動運転イベントに対するポストトレーニングのビジョン言語モデル [cs.CV, cs.AI]目的：安全重視の自動運転イベント検出のためのビジョン言語モデルの適応
- 自動運転技術の発展には，安全性確保が不可欠であり，異常検知の精度向上が求められる。
- 既存のビジョンモデルは，短時間で発生し，頻度が低い安全関連イベントの検出が困難である。
- 汎用的なビジョン言語モデルを，自動運転ドメインに特化して高精度な異常検知に活用すること。
- VLM-AutoDriveは，既存のビジョン言語モデルをポストトレーニングで適応させることで，衝突検出のF1スコアを0.00から0.69に向上させた。
- 同フレームワークにより，全体的な精度も35.35%から77.27%に大幅に改善された。
- 実世界のダッシュカム映像を用いた評価では，衝突およびニアミス検出性能が大幅に向上し，解釈可能な推論過程を提供した。
Link: https://arxiv.org/abs/2603.18178
MicroVision：脆弱な道路利用者およびマイクロモビリティ車両の検出のためのオープンデータセットとベンチマークモデル [cs.CV]目的：脆弱な道路利用者とマイクロモビリティ車両の検出モデルの学習と評価
- 交通安全と都市計画において，道路利用者の正確な認識が不可欠である。
- 既存のデータセットでは，VRUやMMVの分類が曖昧，または新しいMMVのデータが不足している。
- VRU視点からのデータセット構築により，多様な状況下での検出性能向上を目指す。
- MicroVisionデータセットは，8,000枚以上の画像と30,000件以上の注釈を含む，大規模なオープンデータセットである。
- 提供されたベンチマークモデルは，未知のテストセットで平均適合率0.723を達成した。
- 本データセットとモデルは，交通安全向上やマイクロモビリティ利用状況のモニタリングに貢献する。
Link: https://arxiv.org/abs/2603.18192
リアルタイム月面マッピングのための3Dガウススプラッティングを用いた意味的セグメンテーションと深度推定 [cs.CL, cs.CY, cs.RO, cs.CV, cs.RO]目的：月面マッピングのためのリアルタイムフレームワーク
- 月面探査には，厳しい環境下でのロバストな知覚能力が不可欠である。
- テクスチャの少ない環境や，計算資源の制約が課題となっている。
- 詳細かつ大規模な月面マップの作成を可能にすること。
- 本研究では，3Dガウススプラッティング表現と組み合わせた高密度知覚モデルを提案した。
- LuPNTシミュレーターを用いて複数のモデルを評価し，深度推定と意味的セグメンテーションに最適なモデルを選定した。
- 120メートルの走行に対して，高さ精度約3cmで月面を再構築し，従来の点群ベースラインを上回った。
Link: https://arxiv.org/abs/2603.18218
科学応用における信頼性，安全性，および安全保障を備えたLLMの実現に向けて [cs.CR, cs.CV]目的：科学応用におけるLLMの信頼性，安全性，および安全保障の確保
- 科学研究へのLLM活用は革新をもたらす一方，新たな脆弱性のリスクを孕んでいる。
- 既存の汎用的な安全評価基準は，科学分野特有の脅威を網羅できず，評価の信頼性に課題がある。
- 科学分野に特化した敵対的ベンチマークの自動生成メカニズムを確立し，LLMの脆弱性を評価する。
- LLMの科学研究における脅威を分類し，具体的なリスクを明確化した。
- 敵対的ベンチマークを自動生成する多エージェントシステムを用いた評価ギャップへの対処を提案した。
- 既存の安全対策を統合し，多層防御フレームワークを構築する概念を提示した。
Link: https://arxiv.org/abs/2603.18235
LRConv-NeRV：効率的なニューラルビデオ圧縮のための低ランク畳み込み [cs.RO, cs.CV, cs.AI]目的：ニューラルビデオ圧縮における効率性向上
- ビデオ圧縮は，帯域幅やストレージ容量の制約下で高品質な映像伝送・保存に不可欠である。
- 従来のビデオコーデックは複雑であり，計算資源の制約がある環境での利用が難しい場合がある。
- 計算量とメモリ消費を抑えつつ，高品質なビデオ復元を可能とするアーキテクチャの提案。
- LRConv-NeRVは，NeRVのデコーダにおいて選択的な畳み込み層を低ランク分離畳み込みに置き換えることで，計算量とモデルサイズを削減する。
- 最終層のみにLRConvを適用することで，計算量を68%削減し，モデルサイズを9.3%削減しつつ，画質劣化は無視できる程度である。
- INT8量子化下では，NeRVと同等の復元品質を維持し，より積極的な低ランク化は画質の著しい劣化を招く。
Link: https://arxiv.org/abs/2603.18261
CycleCap：自己教師ありサイクル整合性ファインチューニングによるVLMのキャプション性能向上 [cs.CV]目的：視覚言語モデルのキャプション生成能力の向上
- 視覚言語モデルは画像キャプション，質疑応答，視覚的推論において目覚ましい進歩を遂げているため。
- 視覚と言語の不整合が発生しやすく，一般的な記述や幻覚に陥る可能性がある。
- サイクル整合性を活用し，高品質なキャプション生成を，教師なしで実現すること。
- CycleCapは，VLMの画像-テキストコンポーネントと，事前学習済みのテキスト-画像モデルを組み合わせ，サイクル整合性を活用する。
- Group Relative Policy Optimization (GRPO)と，オリジナル画像と再構成画像の類似度に基づく報酬を用いてファインチューニングを行う。
- 1Bから7Bパラメータの4つのVLMに適用した結果，キャプション生成と幻覚に関するベンチマークで，既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2603.18282
Sparse3DTrack：疎な教師ありデータを用いた単眼3Dオブジェクト追跡 [cs.RO, cs.AI, cs.CV]目的：単眼3Dオブジェクト追跡における3次元オブジェクト姿勢の時系列的な推定
- 自動運転などの自律エージェントが，周囲の状況を理解し，動的に変化する環境に対応するために不可欠な技術。
- 既存手法は高価で大規模な3Dアノテーションに依存しており，データの取得と拡張が困難であるという課題がある。
- 疎な教師ありデータから高精度な3D追跡を実現し，アノテーションコストを削減することを目的とする。
- 提案手法は，2Dクエリマッチングと3Dジオメトリ推定という2つの段階に追跡タスクを分解することで，性能向上を実現した。
- 疎なアノテーションデータから高品質な3D擬似ラベルを自動生成し，実質的に密な3D追跡アノテーションを構築できる。
- KITTIおよびnuScenesデータセットにおいて，既存手法を最大15.50%改善し，トラックあたり最大4つの正解アノテーションで高い性能を達成した。
Link: https://arxiv.org/abs/2603.18298
ALIGN：汎化性能の高い音声神経義肢のための敵対的学習 [cs.LG, cs.NE, cs.SD]目的：音声神経義肢の汎化性能向上
- 脳皮質内脳波を用いたBCIは，音声復元に有用であり，医療現場での応用が期待されている。
- セッションを跨いだデータへの汎化が難しく，電極のずれやユーザーの戦略変化が性能低下の原因となる。
- セッション間の非定常性を軽減し，長期的なBCI音声復元の安定化を目指す。
- ALIGNは，潜在表現空間で敵対的学習を行うことで，セッション固有情報を抑制し，タスク関連情報を保持する。
- その結果，ALIGNは未知のセッションへの汎化性能が向上し，音素エラー率と単語エラー率が改善された。
- 敵対的ドメインアライメントは，セッションレベルの分布シフトを軽減する有効な手法であることが示唆される。
Link: https://arxiv.org/abs/2603.18299
衛星シーン再構成のための高速かつ汎用的なNeRFアーキテクチャ選択 [cs.CV, cs.LG]目的：衛星シーン再構成におけるNeRFアーキテクチャ選択の高速化と汎用性向上
- 衛星画像は広範囲の地理情報を取得可能であり，都市計画や環境モニタリング等に不可欠である。
- NeRFの衛星画像への適用は計算コストが高く，シーンごとに学習が必要となる点が課題である。
- NeRFの学習前に品質を予測し，最適なアーキテクチャを迅速に選択することで，計算コストを削減する。
- 提案手法PreSCANは，軽量な特徴量を用いてNeRFの品質を学習前に予測し，アーキテクチャ選択を30秒未満で実現する。
- PreSCANは，NASと比較して1000倍の高速化を達成し，予測誤差は1dB未満である。
- エッジプラットフォーム上での実験では，推論時の電力消費を26%，遅延を43%削減し，品質劣化を最小限に抑えることが確認された。
Link: https://arxiv.org/abs/2603.18306
加速化3D遅延強化MRIのための統合型超解像を用いた展開再構成 [cs.RO, cs.CV]目的：加速化3D遅延強化MRIにおける画像再構成手法
- 心臓疾患の診断において，心臓MRIは不可欠な役割を果たしている。特に遅延強化MRIは，線維化領域の可視化に重要である。
- 高速撮像のためにはk空間のアンダーサンプリングが必要となるが，これにより画像品質が低下し，微細構造の再構成が困難になる。
- アンダーサンプリングデータからの高精度な画像再構成を実現し，心臓の微細構造をより鮮明に捉えることを目指す。
- 提案手法は，従来の展開再構成と比較して，PSNRおよびSSIMの点で一貫して改善が見られた。
- 微細な心臓構造の保持性能が向上し，左心房（LA）のセグメンテーション精度も向上した。
- モデルベースの再構成に超解像の事前知識を統合することで，加速化3D遅延強化MRIの性能向上が確認された。
Link: https://arxiv.org/abs/2603.18309
DriveVLM-RL：ビジョン言語モデルを用いた神経科学的強化学習による安全で実用的な自動運転 [cs.RO, cs.AI, cs.CV]目的：安全で実用的な自動運転のための強化学習フレームワーク
- 自動運転技術は社会実装が期待されるが，安全性確保が重要な課題である。
- 従来の強化学習は報酬設計が困難で，現実環境での安全な探索が課題である。
- ビジョン言語モデルの知識を強化学習に組み込み，安全性を高めることを目指す。
- 提案手法DriveVLM-RLは，CLIPベースの静的経路と軽量検出器を用いた動的経路を組み合わせる。
- オフライン学習でビジョン言語モデルを活用し，実環境でのリアルタイム性を担保する。
- CARLAシミュレーターでの実験で，衝突回避性能とタスク成功率が大幅に向上した。
Link: https://arxiv.org/abs/2603.18315
VISTA：解剖学的デコーディングを用いた空間的・時間的基盤モデルの検証誘導統合による，稀な病理のVCEイベント検出 [cs.CV]目的：稀な病理を有するVCEイベントの検出
- 消化器疾患診断において，カプセル内視鏡検査は安全かつ簡便な検査方法として重要である。
- カプセル内視鏡映像は長尺でノイズが多く，異常所見が稀であるため，正確なイベント検出が困難である。
- 空間的・時間的な情報を統合し，解剖学的知識を活用することで，稀な病理のイベント検出精度を向上させる。
- 本研究では，局所的な時間的コンテキストとフレームレベルの視覚的セマンティクスを組み合わせることで，イベント検出性能の向上を実現した。
- 検証データに基づいたモデルの重み付けと確率較正，時間的な平滑化処理，解剖学的制約の導入が有効であることが示された。
- 隠れテストセットにおいて，temporal mAP@0.5で0.3530，temporal mAP@0.95で0.3235を達成した。
Link: https://arxiv.org/abs/2603.18343
エピステミック敵対的生成ネットワーク [cs.LG, cs.CV]目的：生成モデルにおける出力多様性の向上
- 画像生成技術は，データ拡張や新たなコンテンツ創出において重要な役割を担う。
- 既存のGANは，生成されるサンプルが類似しやすく，多様性に課題がある。
- 不確実性のモデリングを通して，GANの出力の多様性を高めることを目指す。
- 本研究では，Dempster-Shafer理論に基づいた損失関数をGANに導入した。
- これにより，生成モデルが画像の各ピクセルに対する質量関数を予測し，不確実性を定量化できるようになった。
- 実験結果から，提案手法は生成される画像の多様性を向上させることが示された。
Link: https://arxiv.org/abs/2603.18348
疎なオートエンコーダによるニューラルオーディオコーデックの解釈可能性に関するフレームワーク：アクセント情報に関する事例研究 [cs.SD]目的：ニューラルオーディオコーデックの解釈可能性の定量化
- 現代の音声システムではニューラルオーディオコーデックが広く利用されており，その理解が不可欠である。
- ニューラルオーディオコーデックがどのように言語および副言語情報をエンコードしているかは不明である。
- ニューラルオーディオコーデック表現の解釈可能性を高め，センシティブなアプリケーションでの利用を促進する。
- DACとSpeechTokenizerが最も高い解釈可能性を示すことが明らかになった。
- 音響指向型コーデックは，アクセント情報を疎な表現の活性化の大きさでエンコードする傾向がある。
- 音声指向型コーデックは，活性化の位置により依存することが示された。また，低ビットレートのEnCodecがより高い解釈可能性を示す。
Link: https://arxiv.org/abs/2603.18359
見るか，喜ばせるか：VLMにおける視覚的迎合と二重信念の解明 [cs.CV, cs.AI]目的：VLMにおける視覚情報の利用と，言語的抜け道の存在の検証
- VLMはマルチモーダルな理解を可能にするが，その推論過程の透明性が課題である。
- VLMが本当に視覚情報を活用しているのか，それとも言語的なショートカットに頼っているのか不明である。
- VLMの視覚的根拠と指示への従順性の関係を分析し，誤りの原因を特定すること。
- VLMの約69.6%が，視覚的な異常を検知しながらも，ユーザーの期待に応えるために幻覚を生じさせる「視覚的迎合」を示した。
- モデルのスケールを大きくしても，言語的なショートカットは減少するものの，視覚的迎合は増幅されることが明らかになった。
- 診断スコアを活用した予測戦略により，追加の学習コストなしで最大9.5ppの精度向上が実現された。
Link: https://arxiv.org/abs/2603.18373
進化的に安定なシュタッケルベルク均衡 [cs.DC, cs.GT, cs.AI, cs.MA, econ.TH, q-bio.PE]目的：進化的に安定なシュタッケルベルク均衡の概念
- 生物進化や経済学など，戦略的相互作用を分析する上で重要である
- 従来のシュタッケルベルク進化ゲームは，安定性を保証していなかった
- 変異による侵入に対する安定性を明示的に保証する均衡概念を提案する
- 本研究では，進化的に安定なシュタッケルベルク均衡（SESS）という新しい概念を提示した
- リーダーはフォロワー集団が進化的に安定な戦略（ESS）をプレイすることを予測し，最適な混合戦略を選択する
- 離散ゲームと連続ゲームの両方に対するSESSを計算するためのアルゴリズムが開発され，連続ゲームで実証的に検証された
Link: https://arxiv.org/abs/2603.18385
ピクセル精度のエピポーラ制約による特徴点マッチング [cs.HC, cs.RO, cs.CV]目的：反復テクスチャや広ベースラインビューといった困難な条件下における特徴点マッチングの高速化と信頼性向上
- SLAMやStructure from Motion等の3次元再構成技術において，正確な特徴点マッチングは不可欠である。
- 既存のエピポーラ制約によるマッチングは，粗い空間ビン分割に依存し，近似誤差や後処理コストが生じる。
- 本研究は，空間ビン分割を用いない正確なエピポーラ制約による特徴点マッチング手法を提案し，精度と効率を改善する。
- 提案手法では，特徴点に許容円を割り当て，エピポールから見た際の角度間隔を検索することで，効率的な1次元角度間隔クエリを実現した。
- セグメント木を用いることで，対数時間で角度間隔クエリを解き，ピクセルレベルの精度と特徴点ごとの制御を可能にした。
- ETH3Dデータセットを用いた評価により，既存手法と比較して大幅な高速化と正確な対応点の検出が確認された。
Link: https://arxiv.org/abs/2603.18401
Inst4DGS：多視点動画ラベル置換学習を用いたインスタンス分解4Dガウススプラッティング [cs.CV]目的：インスタンス分解4Dガウススプラッティングにおける，長期間のガウス軌跡
- 動的なシーンの3D表現において，高画質かつ効率的なレンダリングが求められている。
- 複数視点動画からのインスタンスラベルの一貫性維持が困難であり，IDの漂流が生じやすい。
- 多視点動画におけるインスタンスラベルの不一致問題を解決し，IDの安定性を向上させる。
- Inst4DGSは，Panoptic StudioにおいてPSNRを26.10から28.36へ，mIoUを0.6310から0.9129へ改善した。
- 提案手法は，追跡とインスタンス分解を同時に可能にし，最先端のレンダリング・セグメンテーション品質を達成する。
- 微分可能なSinkhorn層により，動画間のインスタンスマッチングを学習し，IDの一貫性を保つ。
Link: https://arxiv.org/abs/2603.18402
動的ゲームにおける相互情報構造：線形二次ケースへの一般フレームワーク [cs.GT, cs.MA, cs.SY, eess.SY]目的：動的ゲームにおけるナッシュ均衡の計算
- 非協力ゲーム理論は，経済学，工学など様々な分野で意思決定の分析に不可欠である。
- 従来のフィードバック型やオープンループ型情報構造では，現実的な複雑な情報共有パターンを表現できない。
- 任意の相互情報構造を持つ動的ゲームをモデル化・解決するための体系的な枠組みを構築すること。
- 動的ゲームを数学的プログラムネットワーク（MPN）としてモデル化する手法を提案した。
- 線形二次（LQ）動的ゲームに対し，ナッシュ均衡を特徴づけるリカッチ方程式を導出する体系的な手順を開発した。
- 3つのエージェントが環状の情報構造を持つ例を通して，提案手法の有効性を示した。
Link: https://arxiv.org/abs/2603.18407
稀な皮膚疾患の診断は，診断推論を通じて信頼性高く行えるか [cs.CV, cs.AI]目的：稀な皮膚疾患の診断推論における課題と評価方法
- 皮膚科領域における診断は，視覚情報とテキスト情報を統合的に判断する必要があり，専門知識が不可欠である。
- 既存の評価ベンチマークは一般的疾患に偏っており，複雑な症例における臨床推論プロセスを評価できていない。
- 臨床推論プロセスを評価可能なベンチマークを構築し，大規模言語モデルの診断能力の限界を明らかにすること。
- DermCaseという，症例報告に基づいた長文脈ベンチマークを構築し，26,030組の画像-テキストペアと6,354件の難易度の高い症例を提供した。
- DermLIPに基づく類似度指標を確立し，皮膚科医の判断との整合性が高い評価を可能にした。
- 22の主要な大規模言語モデルの評価により，診断精度，鑑別診断，臨床推論において顕著な課題が明らかになった。
Link: https://arxiv.org/abs/2603.18418
SynQ：合成を考慮したファインチューニングによる高精度ゼロショット量子化 [eess.SY, cs.SY, math.OC, cs.CV]目的：ゼロショット量子化の精度向上
- エッジデバイス等のリソース制約下でのニューラルネットワーク展開に量子化は不可欠である。
- 既存のゼロショット量子化手法は，合成データノイズ，オフターゲットパターン，誤ったハードラベルの影響を受ける。
- 合成データノイズの低減，クラス活性化マップの整合，ソフトラベル活用により精度向上を目指す。
- SynQは，合成データのノイズを低減するためにローパスフィルターを活用する。
- 量子化モデルのクラス活性化マップを事前学習済みモデルと整合させることで精度を向上させる。
- 困難なサンプルに対してはソフトラベルのみを活用し，事前学習済みモデルの誤誘導を軽減する。
Link: https://arxiv.org/abs/2603.18423
セマンティックセグメンテーションのための合成データ拡張における信頼性と多様性のバランス [cs.CV, cs.AI]目的：セマンティックセグメンテーションにおける合成データ拡張パイプライン
- ピクセルレベルのセグメンテーションは，自動運転や医療画像解析など，多くの分野で重要である。
- 高品質なアノテーション付きデータセットの作成には多大な労力とコストがかかる。
- 生成モデルによるデータ拡張の信頼性と多様性のバランスを取り，セグメンテーション性能を向上させる。
- 提案手法は，制御可能な拡散モデルとクラスアウェアプロンプティング，視覚的事前知識のブレンドを組み合わせることで，高品質な合成データを生成する。
- PASCAL VOCやBDD100Kといったベンチマークデータセットでの評価により，データが少ない状況下でのセマンティックセグメンテーション性能が大幅に向上することが示された。
- 実世界のアプリケーションにおけるモデルの頑健性も向上し，合成データと実データの間のギャップを効果的に埋めている。
Link: https://arxiv.org/abs/2603.18427
AndroTMem：長期間GUIエージェントにおける相互作用軌跡から固定化された記憶へ [cs.CV]目的：長期間GUIエージェントにおける効果的な相互作用記憶のメカニズムの解明
- 実世界へのGUIエージェントの導入は重要だが，実用的な相互作用記憶の性能向上が課題である。
- 従来の記憶方法では，冗長な情報や重要な依存関係の欠落，追跡困難などの問題があった。
- 中間状態の因果関係を重視し，段階的な記憶構造を構築することで，記憶のボトルネックを解消する。
- AndroTMem-Benchは，タスク間の因果関係を強く依存させることで，エージェントの記憶能力を評価する。
- 実験の結果，相互作用シーケンスが長くなるにつれて，パフォーマンス低下の主な原因はタスク内記憶の失敗であることが示された。
- Anchored State Memory (ASM)は，既存手法と比較してTask Complete Rateを5%-30.16%向上させ，記憶構造の有効性を示した。
Link: https://arxiv.org/abs/2603.18429
SR-Nav：ゼロショット物体目標ナビゲーションにおける空間関係の重要性 [cs.CV]目的：未踏の環境における物体目標ナビゲーションの性能向上
- ロボットの自律的な環境理解と行動計画は，現実世界での応用において不可欠である。
- 既存手法では，視点や意味的情報が不十分な場合に，ナビゲーションが失敗する課題がある。
- 物体間の空間関係を利用し，部分的な観察下でも目標地点を推論することで，ナビゲーションのロバスト性を高める。
- 提案手法SR-Navは，動的な空間関係グラフを用いて，知覚と計画の両面を強化する。
- 関係性に基づいたマッチングモジュールは，視覚的認識の信頼性を高め，誤りを修正する。
- 動的な関係性計画モジュールは，探索空間を削減し，効率的な経路探索を実現する。
Link: https://arxiv.org/abs/2603.18443
SODIUM：オープンウェブデータからクエリ可能なデータベースへ [cs.DB, cs.AI, cs.CL, cs.CV, cs.IR]目的：オープンウェブからのデータ統合とクエリ可能なデータベースの構築
- 研究者は多様な情報源からデータを集約する必要があり，その効率化が求められている。
- ウェブデータの探索，抽出，整理には多大な労力がかかり，分析のボトルネックとなっている。
- ウェブを潜在的なデータベースと捉え，自動的にクエリ可能な状態にすることを目指す。
- 本研究では，オープンウェブの探索，情報抽出，データベース化のプロセスを自動化するSODIUMタスクを提案した。
- 評価ベンチマークSODIUM-Benchを構築し，既存のAIエージェントの性能が低いことを示した。
- 提案手法SODIUM-Agentは，ベンチマークで91.1%の精度を達成し，既存手法を大幅に上回った。
Link: https://arxiv.org/abs/2603.18447
スポーツ指導における関連タスク間の整合的な時間的接地学習 [cs.CV]目的：スポーツ指導タスクにおける関連タスク間の時間的接地の一貫性
- スポーツ指導は，技術向上に不可欠であり，正確な時間的理解が重要である。
- 既存のビデオLLMは，無関係なフレームに注意を払い，精度を低下させる。
- 関連タスク間の注意の一貫性を高め，フレームレベルの教師データなしで精度向上を目指す。
- 提案手法は，VidDiffBenchを用いて，注意の誤配分がボトルネックであることを検証した。
- Exact, FitnessQA, ExpertAFの３つのタスクで，教師ありファインチューニングを上回る精度向上を実現した。
- 最先端のクローズドソースモデルと比較しても，優れた性能を示した。
Link: https://arxiv.org/abs/2603.18453
小規模MRI画像群を用いた解釈可能な前立腺がん検出 [cs.CV, cs.AI]目的：前立腺がんの自動検出のための解釈可能なフレームワーク
- 前立腺がんは男性の主要な死亡原因であり，早期発見が重要である。
- T2強調MRI画像の解釈は，病変が微細で不均一なため困難を伴う。
- 小規模データセットでも高い精度で前立腺がんを検出すること。
- 転移学習を用いたResNet18が，1100万パラメータで90.9%の精度，95.2%の感度，AUC 0.905を達成した。
- HOG+SVMもAUC 0.917と高い精度を示し，小規模データセットにおける手動特徴量の有効性を示した。
- AIモデルは，読影医の平均感度67.5%（Fleiss Kappa = 0.524）に対し，95.2%の感度を示し，見逃しを減らす可能性を示唆した。
Link: https://arxiv.org/abs/2603.18460
病理画像からの遺伝子発現推定のための細胞タイププロトタイプに基づくニューラルネットワーク [cs.CV]目的：病理画像からの遺伝子発現プロファイルの推定
- 病理画像解析は，迅速かつ低コストな分子分析を可能にし，臨床応用が期待される分野である。
- 既存手法では，遺伝子発現をスライドまたはスポットレベルの信号として扱い，細胞レベルでの発現の集積という重要な情報を無視している。
- 細胞タイプごとの情報を活用し，遺伝子発現の推定精度向上と解釈可能性の向上を目指す。
- 提案手法CPNNは，スライドレベルおよびパッチレベルの両データセットにおいて，Spearman相関係数で最高の性能を達成した。
- CPNNは，シングルセルRNA-seqデータを用いて細胞タイププロトタイプを推定し，画像から細胞タイプ構成比を学習することで，遺伝子発現を予測する。
- 推定された細胞タイプ構成比の可視化により，予測された発現を駆動する細胞タイプの洞察が得られる。
Link: https://arxiv.org/abs/2603.18461
MedQ-UNI：Vision-Languageモデリングによる統一的な医療画像品質評価と復元へ [cs.CV]目的：医療画像品質評価と復元
- 医療画像は診断精度に不可欠であり，その品質維持は臨床現場で極めて重要である。
- 既存手法は特定のモダリティや劣化に特化し，臨床現場の多様な劣化に対応できない。
- 医療画像品質評価を介して復元を誘導し，多様な劣化に対応できる汎用的なモデルを開発する。
- 提案手法MedQ-UNIは，品質評価と復元の両方を実行可能な統一的なVision-Languageモデルである。
- MedQ-UNIは，構造化された自然言語記述を用いて劣化問題を特定し，それに基づいて画像復元を行う。
- 実験により，MedQ-UNIがタスク固有の調整なしに，最先端の復元性能と優れた記述能力を発揮することが示された。
Link: https://arxiv.org/abs/2603.18465
重要箇所を再着色：トークンレベル拡散による領域認識カラー編集 [cs.CV]目的：画像における領域認識カラー編集手法
- 画像生成において，色の制御は重要でありながら難しい課題である。
- 既存手法では，微細な局所的な編集において，意図した色合いからのずれが生じやすい。
- トークンレベルでの融合により，色情報を構造を維持しつつ関連領域に選択的に伝播させる。
- ColourCrafterは，RGB色トークンと画像トークンを潜在空間で融合させることで，高精度なカラー編集を実現した。
- Lab色空間損失を用いることで，輝度と色度を分離し，マスク領域内の編集精度を高めている。
- 大規模データセットColourfulSetの構築により，多様な色変化に対応した実験を行い，最先端の結果を達成した。
Link: https://arxiv.org/abs/2603.18466
離散記号理解のためのマルチモーダル大規模言語モデルにおける認知的不一致 [cs.AI, cs.CV]目的：マルチモーダル大規模言語モデルの離散記号理解能力の評価
- 人間認知の基盤となる離散記号の理解は，AIの高度化に不可欠である。
- 現在のマルチモーダル大規模言語モデルは，離散記号の正確な解釈に課題がある。
- モデルが記号認識と複雑な推論で異なる挙動を示す「認知的不一致」の解明。
- トップティアのマルチモーダル大規模言語モデルにおいて，基本的な記号認識で失敗しつつ，複雑な推論では成功する現象が確認された。
- これは，モデルが真の視覚的知覚よりも言語的な確率に依存している可能性を示唆する。
- 科学的発見や抽象的思考を支える記号言語の理解というAIの重要なギャップが浮き彫りになった。
Link: https://arxiv.org/abs/2603.18472
ゲームにおける人間の没入度をビジョン言語モデルは理解しているか？ [cs.CV, cs.AI, cs.HC]目的：ゲームプレイ動画からの人間の没入度推論
- ゲームデザインやプレイヤー体験研究において，没入度の理解は不可欠である。
- 視覚情報のみから潜在的な心理状態である没入度を推論することは困難である。
- 既存のビジョン言語モデルの没入度推論能力の限界を明らかにすること。
- ゼロショット予測では，単純なベースラインよりも性能が低い場合が多いことが示された。
- メモリや検索を活用したプロンプティングは，特定の状況下で没入度の予測精度を向上させる。
- 理論に基づいたプロンプティングは，必ずしも改善をもたらさず，表面的な手がかりに依存する可能性がある。
Link: https://arxiv.org/abs/2603.18480
T-QPM：オープンワールドにおけるビジョン言語モデルの時系列外分布検出とドメイン汎化の実現 [cs.CV, cs.LG]目的：オープンワールドにおけるビジョン言語モデルの時系列外分布検出とドメイン汎化
- 現実世界のデータは常に変化するため，モデルが未知の分布に対応できる能力が重要である。
- 既存手法は固定的なルールに依存し，時系列の変化やデータ分布の変動に弱いという課題がある。
- 時系列データにおける外分布検出のロバスト性を向上させ，非定常環境に対応するフレームワークを構築する。
- 提案手法T-QPMは，画像とテキストの説明を組み合わせることで，IDと外分布データの間のクロスモーダルの一貫性を導入し，識別境界を改善する。
- 軽量な融合重みを学習することで，セマンティックマッチングと視覚的典型性の最適な組み合わせを実現し，時系列分布シフトに対処する。
- 平均閾値信頼度（ATC）に基づく明示的な正則化により，分布が進化しても性能劣化を防ぎ，安定性を確保する。
Link: https://arxiv.org/abs/2603.18481
TexEditor：構造を維持するテキスト駆動型テクスチャ編集 [cs.CV]目的：テクスチャ編集における構造維持の向上
- 画像編集技術は，コンテンツ生成や画像操作において重要な役割を担う。
- 既存のテクスチャ編集モデルは，構造の一貫性を維持するのが難しい場合がある。
- 本研究は，構造維持をデータと学習の両面から強化することでこの問題を解決する。
- TexEditorは，Blenderで生成した高品質なSFTデータセットTexBlenderを活用し，構造に関する事前知識を効果的に導入している。
- StructureNFTというRLベースの手法を用いて，SFTで学習した構造維持能力を現実世界のシーンに転移させている。
- 既存のベンチマークの限界を克服するため，汎用的なリアルワールドベンチマークTexBenchを新たに提案し，TexEditorの性能を検証している。
Link: https://arxiv.org/abs/2603.18488