arXiv雑要約

画像・音声 - 2026/04/20 公開

弱いプレイヤーは勝利できるか？繰り返しゲームにおける適応的プレイ [cs.GT, math.PR]目的：繰り返しゲームにおける弱いプレイヤーの正の利得達成条件の特定
- ゲーム理論は，経済学，政治学，生物学など，様々な分野で意思決定の分析に不可欠である。
- 通常，プレイヤーが弱い場合，長期的な利得は負になることが多く，戦略の最適化が難しい。
- 適応的なプレイ戦略を用いることで，弱いプレイヤーが勝利する可能性を明らかにすること。
- 動的計画法により，有限期間の制御問題を解き，最適な利得が正となるパラメータ領域を特定した。
- 防御的なスタイルが引き分けとなる「安全な」ケースでは，限界利得はパラメータに応じて[0, 1]の範囲で連続的に変化する。
- 両スタイルが負の期待値を持つ場合，限界利得は-1に収束し，公平な（D）ケースでは0に収束する。
Link: https://arxiv.org/abs/2604.15315
ビジョン言語モデルを用いたクラッシュ図の自動生成：多車線環状交差点におけるケーススタディ [cs.HC, cs.AI, cs.CV, cs.SE]目的：交通安全分析におけるクラッシュ図の自動生成
- 交通安全は社会の根幹であり，事故分析の効率化は重要である。
- クラッシュ図の作成は手作業に頼る部分が多く，時間と労力を要する。
- ビジョン言語モデルを活用し，クラッシュ図作成の自動化を実現すること。
- GPT-4oが最も高い性能（10点満点中6.29点）を示し，Gemini-1.5-Flash (5.28点)，Janus-4o (3.64点)に次ぐ結果となった。
- GPT-4oは空間認識能力が高く，抽出データと視覚化データの整合性が優れていた。
- 生成AIを事故分析ワークフローに統合することで，効率性，一貫性，解釈可能性の向上に貢献できる可能性が示唆された。
Link: https://arxiv.org/abs/2604.15332
ズーム一貫性：マルチステップ視覚的接地パイプラインにおける自由な信頼性指標 [cs.CV, cs.AI]目的：マルチステップズームインパイプラインにおける中間予測の信頼性指標としてのズーム一貫性の評価
- GUI接地は，ヒューマン・コンピュータインタラクションにおいて重要な役割を果たすため，その精度向上が求められている。
- 既存の接地パイプラインでは，中間予測が廃棄されており，潜在的な情報を活用できていないという課題がある。
- 中間予測から得られるズーム一貫性という指標が，モデル間の比較や精度向上に役立つ可能性を探る。
- ズーム一貫性は，異なるアーキテクチャのVLMs間で比較可能であり，校正を必要としない幾何学的量である。
- 理想的な条件下において，ズーム一貫性はステップ1の空間誤差の線形推定値であることが示された。
- 実験の結果，ズーム一貫性はモデル，アプリケーションカテゴリ，オペレーティングシステム全体で予測の正誤と相関関係が見られた。
Link: https://arxiv.org/abs/2604.15376
M3R: 気象情報を活用したマルチモーダル注意機構による局所的降雨予測 [cs.LG, cs.CV, cs.MM]目的：局所的降雨予測の精度向上
- 災害軽減や水資源管理において，正確かつ迅速な降雨予測は不可欠である。
- 既存の手法では，多様なマルチメディアデータを効果的に活用する点に課題があった。
- レーダー画像と気象観測所のデータを統合し，降雨シグネチャの抽出を強化すること。
- M3Rは，既存の手法と比較して，精度，効率，降雨検出能力において大幅な改善を達成した。
- 気象観測所の時系列データをクエリとして活用することで，レーダー画像の空間的特徴への選択的な注意を可能にした。
- 本研究は，マルチメディアに基づく降雨予測の新たなベンチマークを確立し，実用的な気象予測ツールを提供する。
Link: https://arxiv.org/abs/2604.15377
時間的対照的デコーディング：大規模オーディオ言語モデルのための訓練不要な手法 [cs.AR, cs.SD, cs.AI]目的：大規模オーディオ言語モデルにおける時間的平滑化バイアスの軽減
- 近年，音声，音響，音楽を統合的に扱う大規模オーディオ言語モデルの研究が盛んであり，その応用範囲は広い。
- 既存モデルは言語モデルの事前知識に依存しやすく，過度に平滑化された文脈に偏り，詳細な音響情報を十分に活用できていない。
- 本研究は，推論時に時間的な特徴を強調することで，より詳細なオーディオに基づいた出力を実現することを目指す。
- 時間的対照的デコーディング（TCD）は，入力波形を平滑化し，再エンコードすることで時間的にぼやけた経路を構築し，その経路と元の経路のトークン予測を対照させる。
- この対照信号は，候補セット内のトークンレベルのlogit更新として適用され，自己正規化安定性スコアによってぼかしウィンドウと更新スケールが設定される。
- 実験の結果，MMAUおよびAIR-Benchにおいて，強力なオーディオ言語モデルで一貫した改善が確認された。
Link: https://arxiv.org/abs/2604.15383
弱から強への知識蒸留が視覚学習を加速する [cs.RO, cs.CE, physics.comp-ph, physics.geo-ph, cs.CV]目的：視覚学習の高速化
- 大規模な視覚学習は，計算資源の制約を受けることが大きい。
- 既存の知識蒸留は圧縮や精度向上に焦点が当たっており，学習加速への応用は少ない。
- 本研究は，知識蒸留を用いて強力なモデルの学習を初期段階で加速することを試みる。
- ImageNetとCIFARの画像分類において，教師モデルの性能に達するまでのエポック数を大幅に短縮した。
- COCOデータセットでの物体検出，CIFAR-10での拡散生成においても，同様に学習速度の向上を確認した。
- 本手法は，視覚学習における汎用的な高速化メカニズムとして有効であることが示された。
Link: https://arxiv.org/abs/2604.15451
1次元の順序付きトークンが効率的なテスト時探索を可能にする [cs.CV, cs.AI, cs.LG]目的：テスト時探索における生成の制御能力に対するトークン構造の影響
- 自己回帰型生成モデルにおいて，トークン化はデータ処理の基礎であり，効率的なモデル構築に不可欠である。
- 既存のトークン構造では，テスト時探索の効率性や生成の制御が十分でない場合がある。
- 1次元の順序付きトークンが，テスト時探索においてより優れた性能を発揮することを検証する。
- 粗い順序から細かい順序へのトークン化を用いることで，テスト時のスケーリング性能が向上することが示された。
- 訓練済みの自己回帰モデルに頼らず，トークン系列に対する純粋なテスト時探索によって，画像とテキストの検証器を用いたテキストからの画像生成が可能になった。
- 様々な探索アルゴリズムと検証器が，トークン構造にどのように影響するかを体系的に分析し，実用的な指針を提供した。
Link: https://arxiv.org/abs/2604.15453
ProtoTTA：プロトタイプ誘導テスト時適応 [cs.CL, cs.LG, cs.CV]目的：テスト時適応におけるプロトタイプ活用
- 深層学習モデルの解釈可能性は重要であり，医療分野など，高い信頼性が求められる領域で不可欠である。
- 既存モデルは訓練データに依存するため，分布シフトに対して頑健性に欠けるという課題がある。
- 本研究は，テスト時適応においてプロトタイプを活用することで，モデルの頑健性と解釈可能性を向上させることを目指す。
- ProtoTTAは，出力エントロピー最小化よりも頑健性を向上させ，プロトタイプ活性化の適切な意味的焦点を取り戻す。
- ProtoTTAは，プロトタイプ類似度分布のエントロピーを最小化し，シフトしたデータ上でより確信的かつプロトタイプ固有の活性化を促す。
- 新しい解釈可能性指標とVLM評価フレームワークを用いて，ProtoTTAが人間の意味的焦点とVLMによる推論品質を回復することを確認した。
Link: https://arxiv.org/abs/2604.15494
知的な意味的トポロジーによるマルチモーダル知識抽出と空間的接地 [cs.AI, cs.CV, cs.HC, cs.RO]目的：小売店，倉庫，病院などの複雑で密集した環境における空間的接地を改善するためのマルチモーダル知識抽出パイプライン
- 人間や具現化されたAIにとって，複雑な環境での空間認識は不可欠であり，安全性と効率性を高める上で重要である。
- 従来のコンピュータビジョンは，密集した環境や長尾のセマンティック分布に対して脆弱であり，空間的接地において課題が残る。
- 本研究は，モバイルポイントクラウドからセマンティックアノテーションされたナビゲーショントポロジーを抽出し，空間的接地を強化することを目的とする。
- GISTは，シーンを2D占有マップに変換し，トポロジカルレイアウトを抽出し，知的なキーフレームとセマンティック選択を通じて軽量なセマンティック層を重ねる。
- GISTは，意図に基づいたセマンティック検索，ワンショットセマンティック局所化，ゾーン分類，視覚的に基づいた指示生成において優れた性能を示した。
- 現場での評価（N=5）では，音声指示のみで80%のナビゲーション成功率を達成し，普遍的デザインの可能性を実証した。
Link: https://arxiv.org/abs/2604.15495
分割と切り捨て：浸透と反転のない結合マルチフィジックスシステムのためのフレームワーク [cs.GR]目的：マルチフィジックスシステムの結合に関するフレームワーク
- 現実世界の複雑な物理現象をシミュレーションする上で，複数の物理法則を扱う必要がある。
- 従来の結合手法では，オブジェクトの浸透や不自然な減衰，デッドロックが発生しやすい。
- 浸透や反転を起こさず，複雑な多体間の相互作用をロバストにシミュレーションすること。
- 分割と切り捨て(DAT)フレームワークは，浸透のない衝突処理により，様々な物理オブジェクトの結合を可能にする。
- Planar-DAT変形は，表面への運動を制限することで，人工的な減衰やデッドロックの問題を解決する。
- このフレームワークは，材質やソルバーに依存せず，様々なシミュレーション環境に適用可能である。
Link: https://arxiv.org/abs/2604.15513
周波数認識フローマッチングによる高品質画像生成 [eess.SY, cs.SY, cs.CV]目的：高品質な画像生成のための周波数認識フローマッチング手法
- 画像の生成技術は，コンピュータビジョン分野において重要な課題であり，様々な応用が期待される。
- 従来のフローマッチングモデルでは，周波数成分への影響が均一ではなく，高周波成分の生成が遅れる問題があった。
- 本研究は，周波数情報を明示的に組み込むことで，高周波成分と低周波成分の生成を効率化し，より高品質な画像を生成することを目指す。
- 提案手法FreqFlowは，周波数情報を考慮した条件付けにより，大域構造と微細な詳細の両方を効果的にモデル化する。
- ImageNet-256のクラス条件付き画像生成ベンチマークにおいて，FID1.38を達成し，最先端の結果を示した。
- 既存の拡散モデルDiTやフローマッチングモデルSiTと比較して，それぞれ0.79，0.58のFIDスコアの改善を達成した。
Link: https://arxiv.org/abs/2604.15521
UA-Net：TRISO画像セマンティックセグメンテーションのための不確実性認識ネットワーク [cs.CV, cs.LG]目的：TRISO燃料微細構造画像のセグメンテーションと不確実性マップの生成
- TRISO燃料は高温照射下で変化するため，燃料性能評価には詳細な材料分析が不可欠である。
- 従来の目視検査は，時間と労力を要し，主観的な判断に左右される可能性がある。
- 深層学習を用いて，TRISO燃料画像から特徴領域を自動的に抽出し，検査の効率化と精度向上を目指す。
- 提案手法UA-Netは，テストセットにおいて平均IoU 95.5%，平均Precision 97.3%を達成した。
- メタモデルは，特異度91.8%，感度93.5%を示し，誤分類の検出において高い性能を発揮した。
- UA-Netは，新しいTRISO画像に対しても高い精度で層領域を抽出できることを示した。
Link: https://arxiv.org/abs/2604.15542
CXR-LT 2026チャレンジ：多施設長尾分布・ゼロショット胸部X線画像分類 [cs.CV]目的：長尾分布および未知の病状に対応した胸部X線画像分類の性能評価
- 胸部X線画像は医療診断において重要であり，異常の早期発見に貢献する。
- 既存のデータセットは偏りが大きく，実際の臨床環境での汎化性能が低い。
- 多施設データを用いた評価により，臨床現場での実用性を高めることを目指す。
- 本チャレンジでは，145,000枚以上の多施設画像データセットが提供された。
- ビジョン言語モデルは，分布内およびゼロショット性能を向上させる傾向が見られた。
- 多施設間でのシフトを考慮した稀な病状の検出は依然として課題である。
Link: https://arxiv.org/abs/2604.15555
アフィン等変性近接演算子の学習 [cs.LG, cs.CV]目的：アフィン等変性近接演算子の実現
- 信号処理や機械学習において，近接演算子は逆問題解決など，様々な応用で不可欠である。
- 既存の学習型近接演算子では，シフトやスケールに対する等変性が組み込まれていない場合がある。
- シフトとスケールに関して等変性を持つ学習型近接演算子を開発し，汎化性能の向上を目指す。
- 本研究で提案するAE-LPNは，シフトとスケール変換に対して厳密な等変性を持つ近接演算子を学習できる。
- 合成データと実データを用いた実験により，AE-LPNが分布外ノイズやアフィン変換に対して頑健であることが示された。
- これにより，学習型近接演算子の実用性が向上し，様々な応用範囲が広がる。
Link: https://arxiv.org/abs/2604.15556
暗闇での適応：ブラックボックスモデルのための効率的かつ安定なテスト時適応 [cs.LG, cs.CV]目的：ブラックボックスモデルのテスト時適応手法
- 現実世界の多くのモデルはAPI経由でしか利用できず，その適応が重要である。
- APIアクセスのみのブラックボックスモデルのテスト時適応は未だ課題が多い。
- 高コストな最適化や，限定的な適応能力といった既存手法の課題を解決する。
- BETAは軽量なローカルホワイトボックスモデルを用いて，勾配経路を確立し，安定した適応を実現した。
- ImageNet-Cにおいて，ViT-B/16で+7.1%，CLIPで+3.4%の精度向上を達成し，既存手法を上回った。
- 商用APIでは，ZOOと同等の性能を250分の1のコストで，リアルタイム推論速度を維持した。
Link: https://arxiv.org/abs/2604.15609
CLIMB：Mambaベース潜在拡散モデルとガウス整合オートエンコーダを用いた制御可能な脳画像縦断的生成 [cs.MA, cs.CV, cs.AI]目的：脳構造の経時的な変化のモデリング
- 脳画像は疾患の早期発見，予後予測，治療計画に不可欠であり，その生成技術は医療分野で重要である。
- 既存の潜在拡散モデルは計算コストが高く，ノイズの影響を受けやすいという課題があった。
- 計算効率を高めつつ，高品質な脳画像生成と経時変化の正確なモデリングを実現すること。
- CLIMBは，状態空間モデルを用いて計算コストを削減しつつ，高品質な脳画像生成を可能にした。
- ガウス整合オートエンコーダにより，従来の変分オートエンコーダのノイズ問題を改善した。
- Alzheimer's Disease Neuroimaging Initiativeデータセットを用いた評価で，構造類似性指標0.9433を達成し，既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2604.15611
ガウスフローSLAM：ガウスフローによる誘導を用いた単眼ガウススプラッティングSLAM [cs.RO, cs.CV]目的：単眼SLAMにおける高精度な3次元再構成とカメラ姿勢推定
- SLAMは，ロボットの自律的なナビゲーションと環境理解に不可欠な技術である。
- 単眼SLAMでは，幾何学的制約が少ないため，局所的な最小値に陥りやすい。
- ガウスフローを活用し，幾何学的制約を導入することで，SLAMの精度向上を目指す。
- 提案手法は，ガウススプラッティングを用いて高密度かつ写真のような写実的なシーンモデルを構築する。
- ガウスフローの整合性を光流に合わせることで，構造的な一貫性を確保し，再構成と姿勢推定を正則化する。
- 公開データセットでの実験により，最先端のアルゴリズムと比較して，レンダリング品質と追跡精度が向上することが示された。
Link: https://arxiv.org/abs/2604.15612
LLM誘導実行によるエッジインテリジェンス向け適応型ビジョンファウンデーションモデル [cs.CV, cs.LG]目的：エッジデバイスにおける言語対応型ビジョンファウンデーションモデルの効率的な推論
- 常時稼働のコンテキストAI実現にはビジョン理解が不可欠であり，その重要性は増している。
- ビジョンファウンデーションモデルは計算負荷が高く，エッジデバイスへの展開が困難である。
- シーンコンテキストとタスク複雑度に応じて動的に計算量を調整し，効率的な推論を実現する。
- AdaVFMは，ニューラルアーキテクチャ検索(NAS)を組み込み，軽量なサブネットを動的に実行する。
- クラウド上の大規模言語モデル(LLM)を活用し，コンテキストを考慮したエージェントによるランタイム制御を実現。
- ImageNetやADE20Kの実験で，既存手法を最大7.9%（acc@1）および5.2%（mIoU）上回る精度と効率性を達成。
Link: https://arxiv.org/abs/2604.15622
SIMMER：MLLMベースの埋め込みによるクロスモーダルな料理画像-レシピ検索 [cs.AR, eess.SY, cs.SY, cs.HC, cs.CV, cs.CL, cs.IR, cs.LG, cs.MM]目的：料理画像とレシピテキスト間のクロスモーダル検索
- 栄養管理，食事記録，調理支援など，多様な応用が期待される分野である。
- 既存手法は複雑なアライメント戦略やタスク固有のネットワーク設計が必要である。
- MLLMを活用し，セマンティックギャップを埋める統一的なエンコーダを構築する。
- SIMMERは，Recipe1Mデータセットにおいて最先端の性能を達成した。
- 1k画像-レシピ検索のR@1を81.8%から87.5%に，10k画像-レシピ検索のR@1を56.5%から65.5%に向上させた。
- レシピの構造（タイトル，材料，調理手順）に適したプロンプトテンプレートを設計した。
Link: https://arxiv.org/abs/2604.15628
教師なし動画を用いた可視・赤外線人物再識別における因果ブートストラップアライメント [cs.CV]目的：可視・赤外線人物再識別における識別表現の学習
- 終日監視システムにおいて，昼夜問わず人物を追跡する技術として重要である。
- 既存手法は高価なアノテーションに依存し，大規模なデータセットへの適用が困難である。
- ラベルなし動画データから効率的に識別表現を学習し，再識別性能を向上させる。
- 提案手法であるCBAは，動画の潜在的な情報を活用し，偽ラベルの信頼性を高める。
- Causal Intervention Warm-up (CIW)により，不要な相関を抑制し，識別性能を向上させる。
- Prototype-Guided Uncertainty Refinement (PGUR)により，可視光と赤外線間の粒度ミスマッチを解消する。
Link: https://arxiv.org/abs/2604.15631
契約設計における中間段階の情報力 [cs.GT]目的：契約設計における中間段階の情報活用
- 代理人問題は経済学の重要な分野であり，最適な契約設計は効率的な資源配分に不可欠である。
- 従来の代理人問題では，委任過程で得られる中間情報の活用が考慮されていなかった。
- 中間段階で得られる情報を活用し，より効率的な契約設計を可能にすること。
- 中間段階の情報に基づいた契約（中間払い契約，中間解約契約）は，従来の契約よりも優れた成果をもたらす場合がある。
- 中間段階の情報活用は，委任者にとって有益であり，特に情報が不確実性の高い状況で効果が期待できる。
- 中間段階の情報に基づいた契約設計は，委任プロセスの効率性を高め，成果の改善に貢献する。
Link: https://arxiv.org/abs/2604.15636
HyperGVL：ハイパーグラフ理解と推論における大規模ビジョン言語モデルのベンチマークと改善 [cs.CL, cs.CL, cs.CL, cs.CV]目的：大規模ビジョン言語モデルにおけるハイパーグラフ理解と推論能力の評価と向上
- 生命科学や社会コミュニティなど，現実世界における複雑な関係性を表現する上でハイパーグラフは重要である。
- 大規模ビジョン言語モデルの複雑なトポロジー理解の進歩はあるものの，ハイパーグラフに対する能力を評価するベンチマークが存在しなかった。
- ハイパーグラフ理解と推論における大規模ビジョン言語モデルの能力を明確化し，その限界を明らかにする。
- 新たに$\texttt{HyperGVL}$を開発し，12種類の高度な大規模ビジョン言語モデルを84,000件のビジョン言語質問応答サンプルで評価した。
- 評価タスクは，基本的な構成要素のカウントから，複雑なNP困難問題の推論まで，計12種類に及んだ。
- 適応的な表現学習によってハイパーグラフ処理を改善する汎用的なルーター$\texttt{WiseHyGR}$を提案し，有効性を示した。
Link: https://arxiv.org/abs/2604.15648
非線形断層撮影における学習逆問題のための自己教師あり分割 [cs.IR, cs.CV]目的：非線形断層撮影における学習逆問題の解決
- 断層撮影は医療や非破壊検査等で広く用いられ，画像再構成の精度向上が重要である。
- 教師あり学習には正解データが必要であり，現実の問題ではその取得が困難である。
- 正解データなしで，非線形な逆問題を解くための新しいフレームワークを提案する。
- 提案手法SPLITは，複数の分割間で一貫性を保ちながら，測定データへの忠実性を追求する。
- 理論的に，提案する自己教師あり目的関数は，期待値において教師あり学習と同等であることが示された。
- 疎な投影データに対する実験により，高い再構成品質と頑健性が確認された。
Link: https://arxiv.org/abs/2604.15651
現実的なオープンボキャブラリリモートセンシングセグメンテーション：ベンチマークとベースライン [cs.CV]目的：オープンボキャブラリリモートセンシング画像セグメンテーションのベンチマークとベースラインの開発
- リモートセンシング技術は，環境モニタリングや都市計画など，幅広い分野で重要性が増している。
- 既存のセグメンテーション手法は，特定のデータセットに依存し，未知の環境への適応が課題である。
- 現実的な地理空間アプリケーションに対応可能な，汎用性の高いセグメンテーション手法の確立を目指す。
- 大規模データセットOVRSISBenchV2を構築し，多様なリモートセンシングシーンとセマンティックカテゴリを網羅した。
- ベースラインモデルPi-Segを提案し，正のインセンティブノイズ機構により転移学習性能を向上させた。
- OVRSISBenchV2において，Pi-Segは高い性能を示し，現実的なベンチマーク設計と摂動に基づく転移学習の有効性を実証した。
Link: https://arxiv.org/abs/2604.15652
ゼロから詳細へ：UHD画像復元のための漸進的スペクトルデカップリングパラダイムと新しいベンチマーク [cs.CV]目的：UHD画像復元のための漸進的スペクトルデカップリングフレームワークの提案
- UHD画像は高解像度であり，多様なコンテンツと微細な構造を含むため，高品質な復元が求められる。
- 既存の手法では，UHD画像の特性を十分に活かしきれておらず，詳細な復元が困難な場合がある。
- UHD画像における周波数特性に着目し，段階的に復元を行うことで，より高精度な復元を実現する。
- 提案手法ERRは，ゼロ周波数エンハンス，低周波数復元，高周波数リファインメントの３段階でUHD画像を復元する。
- ERRは，各段階で専用のサブネットワークを用いることで，大域的な特徴と微細なテクスチャを効果的に捉える。
- 大規模なUHD画像データセットLSUHDIRを構築し，提案手法の優位性を実験的に検証した。
Link: https://arxiv.org/abs/2604.15654
単眼3DバイオメカニクスパイプラインのCPU最適化：低リソース環境での展開 [cs.CV, cs.PF]目的：単眼3DバイオメカニクスパイプラインのCPU最適化
- 臨床やスポーツ分野でのバイオメカニクス評価は重要であり，手軽な運動解析の需要が高まっている。
- 既存の高性能パイプラインはGPUに依存しており，汎用的な環境での利用が制限されている。
- CPUのみで動作するパイプラインを開発し，リソースの限られた環境での展開を可能にする。
- プロファイリングに基づくシステム最適化により，CPUのみの効率的な実行を実現した。
- 処理速度が2.47倍向上し，総実行時間が59.6％削減された。初期化遅延は4.6倍短縮された。
- バイオメカニクス出力はベースライン実装と高い一貫性を示した（関節角度の平均偏差0.35度，r=0.998）。
Link: https://arxiv.org/abs/2604.15665
PixDLM：UAVのための双方向マルチモーダル言語モデルによる推論セグメンテーション [cs.CV]目的：UAV画像における推論セグメンテーションタスクの定義と大規模ベンチマークの構築
- リモートセンシング技術の発展に伴い，UAVを活用した画像解析の重要性が高まっている。
- UAV画像は，視点，解像度，スケールのばらつきが大きく，既存のセグメンテーション手法では困難を伴う。
- UAV画像に特化した推論セグメンテーションのためのベンチマークと基盤モデルの提供。
- DRSegベンチマークは，UAV推論セグメンテーションの課題を明確化し，今後の研究の基盤を提供する。
- PixDLMは，DRSegにおいて有効な基盤ラインを確立し，マルチモーダル言語モデルの有効性を示した。
- 空間，属性，シーンレベルの推論という3つの次元に焦点を当て，UAV画像解析の新たな方向性を示唆した。
Link: https://arxiv.org/abs/2604.15670
HyCal：クロス学科における少数のサンプルを用いたクラス増分学習のための学習不要なプロトタイプ較正法 [cs.CV]目的：クロス学科における少数のサンプルを用いたクラス増分学習におけるプロトタイプ較正
- 現実世界では，様々な分野からのデータが不均衡に存在することが多い。
- 既存手法は，均一なドメインとバランスの取れたデータ分布を仮定しており，現実世界への適用が難しい。
- ドメイン重力の影響を軽減し，不均衡なクロスドメイン増分学習における性能向上を目指す。
- 提案手法HyCalは，学習を必要とせず，コサイン類似度とマハラノビス距離を組み合わせることで安定したプロトタイプを構築する。
- HyCalは，ドメイン重力を効果的に緩和し，既存手法と比較して優れた性能を示す。
- 凍結されたCLIP埋め込み上で動作し，効率性と性能維持の両立を実現する。
Link: https://arxiv.org/abs/2604.15678
階層的後続表現を用いた活性推論 [cs.LG, cs.AI, cs.CV]目的：活性推論における階層的計画手法
- 脳の知覚・行動・学習を統合的に説明する枠組みとして注目されている。
- 複雑な現実環境下での大規模問題への適用が課題であった。
- 脳に見られる多段階の階層的表現を取り入れ，効率的な計画を可能にする。
- 下位レベルの後続表現を用いて，上位レベルの抽象的な状態を学習できることを示した。
- 下位レベルでの活性推論に基づく計画が，上位レベルの抽象的行動の学習を促進することを示した。
- 学習された抽象的な状態と行動が，効率的な計画を可能にすることを示した。
Link: https://arxiv.org/abs/2604.15679
光音響トモグラフィ再構成における自己教師あり角度方向デブラーリング [cs.CV]目的：光音響トモグラフィ画像再構成における，有限サイズ検出器によるぼやけの除去
- 光音響トモグラフィは，光学的なコントラストと超音波解像度を兼ね備えた次世代画像診断技術である。
- 有限サイズ検出器を用いた場合，従来の再構成手法では画像が系統的にぼやけるという課題がある。
- 教師データなしで，有限サイズ検出器による影響を補正し，高画質な画像再構成を実現することを目指す。
- 提案手法は，Noisier2Inverseに基づいており，教師データを用いずに光音響トモグラフィ画像を再構成する。
- 角度方向のデブラーリングという光音響トモグラフィ特有の問題設定と，極座標領域でのNoisier2Inverseの適用が特徴である。
- 実験結果から，提案手法は教師あり学習に匹敵する性能を示し，実用的な有限サイズ検出器を用いた画像取得においても有効であることが確認された。
Link: https://arxiv.org/abs/2604.15681
パラノイアの代償：非定常マルチエージェント強化学習におけるロバストなリスク感受性のある協調 [cs.GT, cs.AI]目的：協調均衡の脆弱性とその安定化手法
- マルチエージェントシステムにおいて，協調は効率的な意思決定に不可欠である。しかし，その実現は困難を伴う。
- エージェントの学習過程で生じる相互作用のノイズが協調均衡を不安定化させることが問題となる。
- パートナーの不確実性に対するロバスト性を高め，協調均衡を安定化させる手法を提案する。
- 標準的なリスク中立学習では，協調均衡はパートナーノイズによって指数関数的に不安定化することが示された。
- 分散ロバスト性を適用しても状況は悪化する一方，ポリシー勾配更新の分散に着目することで改善がみられた。
- パートナーの予測不能性をオンラインで測定し，それに基づいて勾配更新を調整するアルゴリズムを提案した。
Link: https://arxiv.org/abs/2604.15695
P3T：3Dビジョン言語モデルのためのプロトタイプ点レベルプロンプトチューニングと汎化性能の向上 [cs.CV]目的：3Dビジョン言語モデルのダウンストリームタスクへの適応
- 3D点群データは多様な応用分野で活用が拡大しており，その処理技術の重要性が高まっている。
- 従来のファインチューニングは計算コストが高く，ストレージにも負荷がかかるという課題がある。
- プロンプトチューニングによる効率的な適応において，汎化性能の低下を抑制することが求められている。
- 提案手法P$^3$Tは，点レベルプロンプトとテキストプロンプトを用いて，3D VLMsのタスク固有の適応を可能にする。
- プロトタイプ損失を導入することで，埋め込み空間の整合性を高め，汎化性能を向上させている。
- 分類とFew-shot学習において，完全なファインチューニングと同等またはそれ以上の性能を達成し，クロスデータセット設定でも頑健な汎化性能を示した。
Link: https://arxiv.org/abs/2604.15703
LP$^{2}$DH：動的テクスチャ認識のための局所性を保持するピクセル差分ハッシュングフレームワーク [cs.CL, cs.CV]目的：動的テクスチャ認識のためのコンパクトな二値コード生成
- 動的テクスチャ認識は，監視，ロボティクス，医療診断など様々な分野で重要である。
- 既存のSTLBPは高次元であり，計算コストが高いという課題があった。
- 本研究は，STLBPの課題を解決し，より効率的で高精度な動的テクスチャ認識を実現する。
- 提案手法LP$^{2}$DHは，STLBPの欠点を克服し，局所性を保持したままピクセル差分を効率的に二値化する。
- UCLA，DynTex++，YUPENNの３つの主要なベンチマークにおいて，最先端の性能を達成した。
- 特にUCLAデータセットでは，99.80%の認識精度を達成し，DT-GoogleNetの98.93%を上回った。
Link: https://arxiv.org/abs/2604.15707
APC：ロバストな3D点群認識のための転移可能かつ効率的な敵対的点カウンターアタック [cs.CV]目的：3D点群認識における敵対的攻撃へのロバスト性向上
- 3D点群認識は近年飛躍的に進歩したが，安全性への懸念も高まっている。
- 既存の防御手法は，ロバスト性と転移可能性の両立が課題であった。
- 多様な攻撃に対する転移性と効率性を兼ね備えた防御手法を提案する。
- 提案手法APCは，入力点群を精製し，敵対的攻撃を効果的に中和する。
- クリーンデータと敵対的データを用いて，幾何学的および意味的一貫性を強化する。
- 複数の攻撃タイプを用いたハイブリッド学習により，汎化性能を高めている。
Link: https://arxiv.org/abs/2604.15708
VoxMind：エンドツーエンドのエージェント型音声対話システム [cs.SD]目的：エージェント型音声対話システムの構築
- 高度な対話能力は重要だが，複雑な要求への対応に限界がある。
- 既存研究では，ツール利用能力の拡張が十分ではない。
- ツール利用を通じて，実世界タスクの解決能力向上を目指す。
- VoxMindは，思考を経た発話メカニズムとマルチエージェント動的ツール管理アーキテクチャを導入した。
- タスク完了率は，34.88%から74.57%に向上し，Gemini-2.5-Proを上回る性能を示した。
- 一般的な会話品質を維持しつつ，音声エージェントタスクにおいて優れた成果を上げた。
Link: https://arxiv.org/abs/2604.15710
病理画像分類のための自己教師ありハイブリッド状態空間モデルSSMamba [cs.CV, cs.AI]目的：病理画像分類における特徴抽出と性能向上
- 病理診断は画像分析に依存し，病理画像の解析は医療の質を左右する重要な課題である。
- 既存モデルは，拡大率の違いや局所・大域的関係性のモデリング，微細な特徴の認識に課題がある。
- 本研究は，ドメイン適応技術を用いて，これらの課題を克服し，高精度な病理画像分類を目指す。
- SSMambaは，ターゲットROIデータセットを用いた自己教師あり学習と教師ありファインチューニングの2段階パイプラインで構築された。
- 10の公開ROIデータセットで11の最先端病理Foundation Modelを上回り，6つのWSIデータセットで8つのSOTA手法を上回る性能を示した。
- これらの結果は，病理画像解析のためのタスク固有のアーキテクチャ設計の有効性を示すものである。
Link: https://arxiv.org/abs/2604.15711
NeuroLip：クロスシーンにおける唇運動に基づく視覚的音声認識のためのイベント駆動型時空間学習フレームワーク [cs.CV, cs.AI, cs.CR, cs.DB, cs.LG]目的：クロスシーンにおける唇運動に基づく視覚的音声認識のためのフレームワーク
- 音響信号に依存せず，静かでハンズフリーな認証技術として，視覚的音声認識は有用である。
- 従来のフレームベースのカメラでは，モーションブラーやダイナミックレンジの制限により，微細な唇運動の捕捉が困難である。
- イベントベースのカメラを用いて唇運動の安定性を活用し，クロスシーンでの汎化性能を向上させる。
- 提案手法NeuroLipは，適応的イベント重み付け，構造を意識した空間エンハンサー，極性一貫性正則化を特徴とする。
- 実験により，NeuroLipはマッチングシーンでほぼ完璧な精度を達成し，未知の視点や低照度環境下でも高い汎化性能を示した。
- NeuroLipは，既存手法と比較して，未知の視点で71%以上，低照度下で約76%の精度を達成し，少なくとも8.54%の性能向上を示した。
Link: https://arxiv.org/abs/2604.15718
ハンドヘルド眼底画像における教師なしアーチファクト除去のための拡散オートエンコーダ [cs.CV, cs.AI]目的：ハンドヘルド眼底画像中のアーチファクト除去
- 眼底画像は，眼科診断や疾患スクリーニングにおいて重要な役割を担う。
- ハンドヘルド眼底画像は，反射，露出ムラ，ブレなどのアーチファクトの影響を受けやすい。
- 非構造化されたアーチファクトへの適応性を向上させる教師なしアーチファクト除去手法の開発。
- 本研究では，コンテキストエンコーダを組み込んだ拡散オートエンコーダを提案し，アーチファクト除去のための意味のある表現学習を実現した。
- 高品質な卓上眼底画像のみを用いて学習し，アーチファクトを含むハンドヘルド眼底画像の修復を推論する。
- 評価の結果，診断精度は未知のデータセットと複数のアーチファクト条件下で81.17％に向上した。
Link: https://arxiv.org/abs/2604.15723
MambaBack：全スライド画像解析における局所特徴と大域的文脈の架け橋 [cs.CV, cs.AI]目的：全スライド画像解析における，局所特徴と大域的文脈の統合
- 病理診断において，全スライド画像の解析は重要な役割を担い，がん診断の精度向上に不可欠である。
- 既存のMILアプローチは，空間的局所性の損失，微細な細胞構造のモデリング不足，エッジデバイスでのメモリ使用量といった課題を抱えている。
- MambaとGated CNNsの利点を組み合わせ，空間的局所性を維持し，メモリ効率を向上させることで，これらの課題を解決することを目指す。
- 提案手法MambaBackは，Hilbertサンプリングと階層構造により，空間的局所性と大域的文脈の両方を効果的に捉え，多スケール表現を強化する。
- 非対称チャンキング設計により，学習時の並列処理と推論時のメモリ使用量削減を実現し，エッジデバイスへの展開を可能にする。
- 5つのデータセットを用いた実験の結果，MambaBackは7つの最先端手法を上回り，優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2604.15729
スケッチとテキストの相乗効果：構造的輪郭と記述的属性の融合による詳細画像検索 [cs.CV, cs.AI]目的：詳細画像検索におけるスケッチとテキストの相乗効果
- 画像検索の精度向上は，情報検索の重要な課題であり，多様な検索手段の確立が求められている。
- スケッチとテキストは，それぞれ異なる情報を持つため，両者の情報を効果的に融合することが困難である。
- スケッチの構造的特徴とテキストの記述的特徴を融合することで，より高精度な詳細画像検索を実現する。
- 提案手法STBIRは，スケッチとテキストの情報を効果的に融合することで，既存手法を凌駕する検索性能を達成した。
- カリキュラム学習によるロバスト性向上モジュールと，カテゴリ知識に基づく特徴空間最適化モジュールが性能向上に貢献している。
- 新たに構築したSTBIRベンチマークデータセットを用いて，提案手法の有効性を厳密に検証した。
Link: https://arxiv.org/abs/2604.15735
RefereeBench：ビデオMLLMはマルチスポーツ審判として準備ができているか [cs.CV, cs.CL]目的：スポーツ審判としてのMLLMの評価基準
- スポーツアナリティクスや審判支援の自動化への期待が高まっている。
- ルールに基づいた専門的な判断を必要とする分野で，MLLMの性能が十分でない。
- MLLMがスポーツ審判として機能するための課題を明確化し，改善の方向性を示す。
- 最新のMLLMは，RefereeBenchにおいて平均60%程度の精度しか達成しておらず，信頼できる審判としては不十分である。
- モデルはインシデントや関係者の特定はできるものの，ルール適用や時間的理解に課題がある。
- 正常なプレーにもファウルと誤判定することが多く，ドメイン知識とマルチモーダル理解の統合が不可欠である。
Link: https://arxiv.org/abs/2604.15736
概念に着目した注意機構による，きめ細かい概念ボトルネックモデル [cs.CV]目的：きめ細かい概念ボトルネックモデルにおける画像と概念の適応的なアライメントと高い解釈可能性の実現
- 画像認識において，概念ボトルネックモデルは，認識の根拠を明確化する重要な手法として注目されている。
- 既存手法は，事前学習データに偏りがあり，概念の粒度や構造的な事前知識に依存しやすいという課題がある。
- 概念間の相互排他性を考慮せず，個別に概念を扱うため，概念アライメントが最適化されていない点を改善する。
- 提案手法CoAt-CBMは，学習可能な概念ごとの視覚クエリを用いて，きめ細かい概念ごとの視覚埋め込みを適応的に獲得する。
- 新しい概念コントラスト最適化により，概念スコアの相対的な重要度を考慮し，画像内容を忠実に反映した概念予測を可能にする。
- 実験の結果，CoAt-CBMは最先端手法と比較して一貫して優れた性能を発揮することが示された。
Link: https://arxiv.org/abs/2604.15748
事前学習済み視覚言語モデルによるOOD検出のためのテスト時テキスト学習 [cs.CL, cs.CV]目的：OOD検出性能の向上
- 視覚とテキストの表現を整合させることで，強力なOOD検出能力を発揮するVLMsの重要性。
- 既存手法ではOODラベルが固定されており，変化するOODセマンティクスに対応できないという課題。
- テストストリームから動的にOODセマンティクスを学習し，ロバストなOOD検出を実現すること。
- TTLは，外部OODラベルに依存せず，疑似ラベルを用いてOOD知識を動的に学習する。
- ノイズ抑制のため，信頼性の高いOODサンプルを選択し，知識の質を維持する戦略を採用。
- 2つのベンチマークと9つのOODデータセットで最先端の性能を達成し，テキスト適応の有効性を示した。
Link: https://arxiv.org/abs/2604.15756
KWBench：知識労働における自発的な問題認識の測定 [cs.AI, cs.GT]目的：大規模言語モデルにおける知識労働の自発的な問題認識能力の評価
- 知識労働は高度な認知能力を必要とし，経済活動において重要な役割を担っている。
- 既存のベンチマークは飽和状態にあり，知識労働の評価はタスク遂行に偏りがちである。
- 問題解決の前に，状況の構造を認識する能力の評価を目指す。
- KWBenchは，買収，契約交渉など6分野の223タスクで構成されている。
- 最良のモデルでもタスクの27.9%しか正しく認識できず，トップモデル間でも合意率は低い。
- モデルは問題の種類を尋ねられると正しく回答できるが，自発的には適用できない場合がある。
Link: https://arxiv.org/abs/2604.15760
PLAF：効率的な3次元シーン理解のためのピクセル単位の言語整合特徴抽出 [cs.CV, cs.RO]目的：効率的な3次元シーン理解のためのピクセル単位の言語整合特徴
- 3次元シーン理解は，ロボット工学や自動運転など，様々な分野で重要な役割を担う。
- 既存の特徴表現は，言語との整合性と空間精度を両立させることが困難である。
- ピクセル単位での高精度な意味的アライメントを実現し，大規模シーンでの効率的な処理を目指す。
- 提案手法PLAFは，2次元空間で高精度な意味的アライメントを可能にする。
- PLAFは，冗長性を低減する効率的なセマンティックストレージとクエリスキームを設計した。
- 実験結果から，PLAFが正確かつ効率的な3次元シーン理解のための強力な基盤となることが示された。
Link: https://arxiv.org/abs/2604.15770
SegMix：シャッフルに基づくフィードバック学習による病理画像のセマンティックセグメンテーション [cs.CV, cs.AI]目的：病理画像のセマンティックセグメンテーションのための，シャッフルに基づくフィードバック学習手法
- 病理診断の精度向上に不可欠であり，迅速かつ正確な診断を支援することで医療の質を高める。
- 高品質なピクセルレベルの教師データ取得に専門家による膨大な労力がかかり，深層学習の適用を制限している。
- 画像レベルのラベルのみを用いて，質の高い疑似セグメンテーションマスクを生成し，教師データ不足の問題を解決する。
- 提案手法SegMixは，病理画像のシャッフル戦略を学習を通じて適応的に調整し，より高品質な疑似マスクを生成する。
- 3つの異なるデータセットにおいて，既存の最先端手法を上回る性能が確認された。
- カリキュラム学習に着想を得て，シャッフル操作によるデータ拡張とフィードバック学習を組み合わせることで，セグメンテーション精度を向上させている。
Link: https://arxiv.org/abs/2604.15777
Fed3D：連合学習による3次元物体検出 [cs.CV]目的：3次元物体検出のための分散学習手法
- 自動運転，ロボット操作，拡張現実など，様々な分野で3次元物体検出の重要性が増している。
- マルチロボットシステムで大規模な3次元シーンを探索する場合，プライバシー保護と通信帯域の制限が課題となる。
- 3次元データの不均一性と通信コストを軽減し，プライバシーを保護した分散学習を実現することを目指す。
- 提案手法Fed3Dは，既存のアルゴリズムと比較して，限られたローカルデータでも高い性能を示す。
- 3次元データの不均一性に対処するため，ローカルおよびグローバルな観点から勾配の伝播速度を調整する損失関数を提案した。
- 学習可能なパラメータ数の少ないプロンプトモジュールを用いることで，通信コストを削減した。
Link: https://arxiv.org/abs/2604.15795
単一のフレームを超えて：体積MRIにおける多フレーム空間的根拠に基づく推論 [cs.CV, cs.AI]目的：多フレーム空間的根拠に基づく推論の評価基準
- 医療画像診断において，視覚と言語を結びつけるモデルは重要性が増している。
- 既存の評価基準は2D画像に限定され，臨床画像の体積データを考慮していない。
- 臨床画像における多フレームな情報を活用し，空間的な根拠に基づいた推論を可能にする。
- 本研究では，体積MRIを用いたSGMRI-VQAという新たな評価基準を提案した。
- この評価基準は，専門医による注釈に基づき，検出，局所化，分類，キャプション生成といった階層的なタスクを含む。
- Qwen3-VL-8Bをバウンディングボックスの教師あり監督でファインチューニングすることで，空間的根拠に基づいた性能が向上することを示した。
Link: https://arxiv.org/abs/2604.15808
視覚言語モデルの認識と知覚のずれを適応的情報フローで調整 [cs.CV]目的：視覚言語モデルにおける情報フローの最適化
- 視覚言語モデルは，画像認識，文書解析，視覚的根拠付けなど多岐にわたるタスクで高い能力を示す。
- モデルが正しい画像領域を特定できても，必ずしも正答を導き出せないという課題がある。
- 視覚言語モデル内の不適切な情報フローを修正し，より正確な知覚能力を実現すること。
- 提案手法は，テキストトークンが重要でない視覚トークンに過剰な注意を払うことによるずれを抑制する。
- デコーディング段階における活性化パターンの変化に着目し，重要な視覚トークンを特定する。
- 様々なデータセットにおいて，既存モデルの性能を大幅に向上させることを実証した。
Link: https://arxiv.org/abs/2604.15809
オープンワールドにおける継続的な手目キャリブレーション [cs.DB, cs.CV, cs.RO]目的：オープンワールド環境におけるロボット操作のための継続的な手目キャリブレーション手法
- ロボットが未知の環境で自律的に操作を行う上で，正確な手目キャリブレーションが不可欠である。
- 既存の深層学習ベースの手法は，新しいデータへの適応時に知識の忘却が起こりやすい。
- 過去の知識を保持しつつ，新しい環境への適応を可能にする継続学習フレームワークを開発する。
- 本研究では，空間リプレイ戦略と構造保存蒸留を組み合わせた継続的な手目キャリブレーションフレームワークを提案した。
- 空間リプレイ戦略は，幾何学的に均一なリプレイバッファを構築し，過去のシーンの情報を効率的に保持する。
- 構造保存蒸留は，シーンレイアウトとポーズ精度を分離して蒸留することで，忘却現象を軽減し，継続的な適応を可能にする。
Link: https://arxiv.org/abs/2604.15814