arXiv雑要約

画像・音声 - 2026/05/08 公開

CXR-ContraBench：医療VLMにおける否定オプション誘引のベンチマーク [cs.CV]目的：医療画像とテキストを扱うモデルにおける否定オプション誘引の評価
- 医療画像診断支援において，視覚情報と自然言語処理を組み合わせたVLMの性能向上が不可欠である。
- VLMは，画像に存在する所見を否定する形で誤った回答を生成することがある。これは臨床的に危険である。
- 本研究は，VLMが否定オプションに誘引されるメカニズムを明らかにし，その対策を講じることを目指す。
- 胸部X線画像に所見があるにも関わらず，「所見なし」と回答する誤りが確認された。これは，医療VLMの潜在的な問題点を示す。
- 既存モデル（MedGemma，Qwen2.5-VL）は，直接的な所見の有無を問う質問において，低い精度（31.49%，30.21%）しか示さなかった。
- 質問条件付き整合性検証器（QCCV-Neg）を用いることで，この問題を deterministic に解決し，精度を大幅に向上させた（96.60%，95.32%）。
Link: https://arxiv.org/abs/2605.05810
ChartZero：合成事前知識によるゼロショットチャートデータ抽出 [cs.CV]目的：チャートデータのゼロショット抽出手法
- データ分析において，グラフからの情報抽出は不可欠であり，自動化へのニーズは高い。
- 実世界のグラフはスタイルが多様で，高品質なアノテーションデータが不足している。
- 実データのアノテーションに頼らず，合成データで汎化性能の高い抽出を目指す。
- ChartZeroは，合成データのみで学習することにより，実世界のグラフに対するゼロショット抽出を可能にした。
- 曲線分割の問題に対し，Global Orthogonal Instance (GOI)損失を導入することで解決した。
- 凡例の位置に依存しない，Vision-Language Model (VLM)を活用した柔軟な凡例照合を実現した。
Link: https://arxiv.org/abs/2605.05820
科学コミュニケーションの統合：科学メディア間の詳細な対応 [cs.CV]目的：科学メディア間の詳細な対応の把握
- 科学知識の伝達は，論文，スライド，プレゼンなど多岐にわたるため，理解を深める上で重要である。
- 異なる形式の資料間の繋がりが弱く，概念や視覚情報の対応関係を追跡することが困難である。
- 複数のメディア形式を統合的に分析するためのベンチマークデータセットを構築し，対応関係の把握を目指す。
- 本研究では，論文，動画，スライドを統合したMultimodal Conference Dataset (MCD)を公開した。
- ビジョン言語モデルは頑健だが，詳細なアライメントには課題があることが示された。
- 埋め込みベースのモデルはテキストと画像の対応を捉えるのに優れているが，数式や記号は異なるクラスタを形成する傾向にある。
Link: https://arxiv.org/abs/2605.05831
ビデオRouter：効率的な長尺ビデオ理解のためのクエリ適応型デュアルルーティング [cs.CV, cs.AI]目的：長尺ビデオ理解における効率的な証拠配分
- ビデオ大規模マルチモーダルモデルの応用拡大に伴い，計算資源の効率的な利用が重要になっている。
- 長尺ビデオは過度に長い視覚トークン列を生み出し，推論時のメモリと遅延が課題となっている。
- 視覚的証拠の分布の偏りを考慮し，クエリに応じて最適な圧縮ポリシーを適用することを目指す。
- 提案手法VideoRouterは，既存のInternVLを基盤とし，予算内で証拠を効率的に配分するデュアルルーティングフレームワークである。
- セマンティックRouterとImage Routerの連携により，重要度の低いフレームの圧縮率を高めつつ，重要なフレームの詳細を保持する。
- VideoMME，MLVU，LongVideoBenchにおける実験で，VideoRouterはInternVLと比較して，トークン数を最大67.9%削減できることが示された。
Link: https://arxiv.org/abs/2605.05848
Align3D-AD：クロスモーダル特徴量アライメントとデュアルプロンプト学習によるゼロショット3次元異常検知 [cs.CV]目的：ゼロショット3次元異常検知における，クロスモーダル特徴量アライメントとデュアルプロンプト学習
- 3次元形状データの異常検知は，製造業や自動運転などの分野で重要な役割を担う。
- 既存手法は，RGBデータで学習したエンコーダと3次元データから生成された投影表現の間にドメインギャップが存在する。
- RGBモダリティを活用し，3次元データの意味空間へのマッピングによるドメインギャップの解消を目指す。
- 提案手法Align3D-ADは，クロスモーダル特徴量アライメントにより，レンダリング特徴をRGBセマンティック空間にマッピングする。
- デュアルプロンプト学習によって，RGBアラインメント特徴とレンダリング特徴間の補完的な意味を捉え，識別能力を向上させる。
- MVTec3D-AD，Eyecandies，Real3D-ADの実験結果から，既存手法と比較して高い性能と汎化能力が確認された。
Link: https://arxiv.org/abs/2605.05850
InkDiffuser：微分可能な形態学的最適化による高品質なワンショット中国書道生成 [cs.CV]目的：中国書道の一発生成
- 書道は伝統文化であり，芸術表現の重要な手段である。
- 既存手法では，線描の品質と墨の形態が不十分で，写実性に欠ける。
- 高周波強調と微分可能な墨構造損失により，高品質な書道生成を目指す。
- InkDiffuserは，拡散モデルを用いて高品質な中国書道の一発生成を可能にする。
- 高周波強調メカニズムと微分可能な墨構造損失が，写実的な墨の形態を実現する。
- 実験により，構造の一貫性，細部の忠実度，視覚的な信憑性において既存手法を上回る結果が得られた。
Link: https://arxiv.org/abs/2605.05865
3DSS：逆レンダリングのための3次元表面スプラッティング [cs.RO, physics.flu-dyn, cs.GR, cs.CV]目的：マルチビュー画像からの物理ベース逆レンダリング
- 3次元形状や材質の復元は，コンピュータビジョンの重要な課題であり，様々な応用分野で求められている。
- 従来の逆レンダリング手法は，計算コストが高い，または表現力に限界があるといった問題点が存在する。
- 表面スプラッティングの表面分離問題を直接的に解決し，高精度かつ効率的な逆レンダリングを実現すること。
- 3DSSは，微分可能な表面スプラッティングレンダラーとして，形状，BRDF材質，照明を同時に復元する。
- 従来のメッシュベース，陰解法，ガウススプラッティングと比較して，幾何学的再構成，新規視点合成，新規照明再照明において優れた性能を示す。
- 最適化された表現は，指向性のある表面サンプル集合であり，点群からの表面再構成を通じてメッシュベースのワークフローに容易に統合できる。
Link: https://arxiv.org/abs/2605.05876
トレーニング不要なマルチモーダル大規模言語モデルによる高密度ハンドコンタクト推定 [cs.CV]目的：高密度ハンドコンタクト推定の実現
- 人間とのインタラクション理解は，ロボット工学やVR/AR等の応用において重要である。
- 高精度なハンドコンタクト推定は困難であり，特に詳細な幾何学的推論が課題である。
- 大規模言語モデルの推論能力を活用し，学習不要で高精度なコンタクト推定を目指す。
- 本研究では，詳細なハンドパーツ分割と頂点グリッド表現により，3Dハンド形状を効果的にエンコードするContactPromptを提案した。
- また，部分条件付きの段階的なコンタクト推論により，大域的な意味情報と詳細な幾何学情報を結びつけることに成功した。
- 提案手法は，大規模な学習データなしに，既存の教師あり学習法よりも優れた性能を達成した。
Link: https://arxiv.org/abs/2605.05886
DBMSolver：高品質な画像間変換のための学習不要な拡散ブリッジサンプラー [cs.AR, cs.DC, cs.CV, cs.AI, cs.LG, cs.NA, math.NA]目的：高品質な画像間変換における効率的なサンプリング手法
- 拡散モデルは高画質だが，サンプリング速度が課題となっている。
- 既存の拡散ブリッジモデルは，多くの関数評価を必要とするため，計算コストが高い。
- DBMSolverは，効率的なサンプリングにより，計算コストを削減し，実用性を高める。
- DBMSolverは，拡散ブリッジモデルのSDE/ODE構造を利用し，指数積分器を用いることで，効率的な1次および2次解を生成する。
- NFEsを最大5倍削減し，画質を向上させ，DIODEのFIDを20 NFEsで53%改善した。
- inpainting，スタイライゼーション，セマンティクスからの画像生成タスクにおいて，最新の効率と品質のトレードオフを実現した。
Link: https://arxiv.org/abs/2605.05889
MTL-MAD：マルチタスク学習は効果的な医療異常検出器である [cs.CV, cs.AI, cs.LG]目的：医療画像における異常検出の性能向上
- 医療画像の異常検出は，疾患の早期発見や診断精度向上に不可欠であるため，重要な研究分野である。
- 異常データが訓練時に不足しているため，効率的な異常検出モデルの開発が課題となっている。
- 複数の自己教師あり学習と擬似ラベリングを組み合わせ，堅牢な表現学習により異常検出精度を向上させる。
- 提案手法は，複数の代理タスクを統合することで，正常な解剖学的構造のロバストな表現を学習する。
- BMADベンチマークにおいて，最先端の競合手法を凌駕する異常検出性能を達成した。
- 生成される異常マップは解釈可能性が高く，医師の診断支援に貢献しうる。
Link: https://arxiv.org/abs/2605.05891
スパイクニューラルネットワークを用いたAI生成動画の検出 [cs.CV, cs.AI]目的：AI生成動画の検出手法
- AI技術の発展により，現実と区別がつかない動画が生成可能となり，偽情報の拡散が懸念されている。
- 既存の検出手法は，生成元が異なると性能が著しく低下するという課題がある。
- フレーム間の時間的特性に着目し，生成元の異なる動画でも安定的に検出できる手法を開発する。
- AI生成動画は，ピクセルレベルでのフレーム間の残差が滑らかであり，意味特徴空間における軌跡がコンパクトになる傾向があることが判明した。
- スパイクニューラルネットワーク（SNN）は，オブジェクトや動きの境界で発火する特性があり，AI生成動画の時間のアーティファクトを捉えるのに適していることが示された。
- 提案手法MASTは，GenVideoベンチマークにおいて，10種類の未知の生成元に対して93.14%の平均精度を達成し，既存のANNベースの手法を上回った。
Link: https://arxiv.org/abs/2605.05895
低リソースHTRにおけるクロスカウンター言語転移の改善理解：シーケンスモデリングの役割 [cs.CV]目的：低リソース環境下におけるクロスカウンター言語転移による手書き文字認識の改善要因
- 手書き文字認識は，デジタルアーカイブの構築や歴史資料の解読等において重要な技術である。
- リソースが少ない言語の手書き文字認識は，十分な学習データが得られないため困難である。
- 本研究は，クロスカウンター言語転移が有効である理由を解明し，低リソース環境での認識精度向上を目指す。
- CNNのみのモデルでは転移による改善が限定的であった一方，CRNNモデルはクロスカウンター言語学習で性能が向上した。
- 転移改善度に着目した結果，シーケンスモデリングがクロスカウンター言語転移の重要な要素であることが示された。
- 文字形状の類似性による視覚表現の共有だけでは十分な改善が得られず，文脈モデリングの重要性が示唆された。
Link: https://arxiv.org/abs/2605.05900
アーキテクチャ非依存なリプシッツ定数ベイズヘッダーとそのVision Transformerへの応用：意味的に近い誤分類エラーの解決 [cs.CV, cs.AI]目的：教師あり深層学習モデルの汎化性能向上
- 深層学習モデルの性能はラベルの質に大きく依存し，ノイズの多いラベルは性能低下の主要因となる。
- 従来のロバスト学習法は，意味的に近い誤分類エラーに対して十分な効果を発揮しない場合がある。
- 意味的に近い誤分類エラーを検出し，より正確なモデルを構築すること。
- 提案手法であるLipB-ViTは，予測不確実性を適切に推定し，ノイズの増幅を抑制することで，従来のベイズ層よりも優れた性能を示す。
- 誤分類率と不確実性を統合的に捉える新しい指標と，特徴空間での近さと予測不確実性を組み合わせる適応的な融合スキームにより，ラベル誤りの検出精度が向上した。
- LipB-ViTは，構造化ノイズと非構造化ノイズの両方に対して高いロバスト性を示し，現実的な高ノイズ環境や攻撃シナリオ下でも安定した性能を発揮する。
Link: https://arxiv.org/abs/2605.05908
視覚言語モデルにおけるプロンプト学習のためのプラグアンドプレイ型クラス認識知識注入 [cs.CV]目的：プロンプト学習による視覚言語モデルの性能向上
- 視覚言語モデルは多様なタスクで活用され，特にゼロショット分類において重要な役割を担う。
- 既存手法では，クラス固有の知識がプロンプト設計で十分に活用されず，性能が制限される場合がある。
- クラス固有知識を効率的に注入し，既存手法の性能を向上させることを目指す。
- 提案手法CAKIは，クラス固有のプロンプト生成とクエリキープロンプトマッチングにより，クラス認識知識を注入する。
- CAKIは，少数のサンプルからクラス固有のプロンプトを生成し，知識バンクに格納する。
- 実験の結果，CAKIは既存手法のベースクラスおよび新規クラスにおける性能を向上させることが示された。
Link: https://arxiv.org/abs/2605.05910
オンライン嗜好学習によるパーソナライズされたレビュー要約 [cs.AI, cs.GT, cs.LG, cs.SY, eess.SY, math.OC]目的：パーソナライズされたレビュー要約の生成
- 購買行動に影響を与えるレビューの重要性が増しており，効率的な情報把握が求められている。
- 既存の要約システムは静的で汎用的であり，個々のユーザーの嗜好に対応できていない。
- ユーザーの潜在的な嗜好を学習し，インタラクションを通じて変化する嗜好に対応する。
- オンライン嗜好学習フレームワークは，ユーザーからのフィードバックに基づいて要約を改善し，パーソナライズ度を高める。
- Amazon Reviews'23データセットを用いた実験により，ターゲットユーザーの興味への適合性が向上することが示された。
- 要約の品質を維持しつつ，ユーザーの嗜好に合わせた情報提供が可能となった。
Link: https://arxiv.org/abs/2605.05911
液滴からグリッドへ：ノイズを考慮した時空間ニューラルプロセスによる降雨量推定 [cs.LG, cs.CV]目的：高解像度降雨量マップの生成
- 気象予測，水資源管理，災害軽減において，高解像度な降雨量観測は不可欠である。
- 従来の観測は偏りや低解像度であり，局所的な降雨の捉え方に限界がある。
- 希薄な地上観測データとレーダー情報を統合し，高精度な降雨量推定と不確実性の定量化を目指す。
- DropsToGridは，既存の運用システムおよび深層学習ベースラインを上回り，高精度な降雨量マップを生成する。
- 少数の観測ステーションや異地域間での評価においても，キャリブレーションされた不確実性を伴う降雨量推定が可能である。
- 多段階特徴抽出，時間注意機構，マルチモーダル融合により，確率的な連続降雨量推定を実現している。
Link: https://arxiv.org/abs/2605.05912
思考，そしてスコアリング：ビデオ報酬モデリングのための分離された推論とスコアリング [cs.CV]目的：ビデオ報酬モデルの精度向上
- 生成ビデオモデルの発展には，高品質なビデオ報酬モデルが不可欠である。人的な好みに合致した報酬予測が求められる。
- 既存の報酬モデルは，推論能力の欠如や大量のデータへの依存が問題となっている。
- 思考の連鎖(CoT)による推論の汎化性能と，直接的なスコアリングの安定性を両立させる。
- DeScoreは，「思考してからスコアリング」という分離されたパラダイムを採用することで，効率的な学習と汎化性能を実現した。
- まず，大規模言語モデル(MLLM)が明示的なCoTを生成し，次に専用の識別的スコアリングモジュールが最終的な報酬を予測する。
- 2段階の最適化により，CoTの質と最終的な報酬の較正が独立して行われ，質の高い推論がより優れた性能に繋がる。
Link: https://arxiv.org/abs/2605.05922
入力側からのモダリティギャップの最小化：あなたの音声LLMは韻律を意識したテキストLLMになりうる [cs.RO, cs.CL, cs.SD, eess.AS]目的：音声LLMとテキストLLM間のモダリティギャップの縮小
- 音声とテキストの融合は，より自然な対話システムの実現に不可欠である。
- 既存のSLMは，テキストLLMからの移行によるモダリティギャップに苦しんでいる。
- 入力側の韻律情報を活用することで，モダリティギャップを効率的に削減する。
- TextPro-SLMは，WhisperProを用いて音声入力をテキストLLMが理解しやすいように変換する。
- 3Bおよび7Bスケールで，主要なSLMと比較して最も低いモダリティギャップを達成した。
- わずか1,000時間の学習データで，高い韻律理解性能と全体的なパフォーマンスを発揮する。
Link: https://arxiv.org/abs/2605.05927
物体検出における敵対的ファインチューニングによるバックドア軽減 [cs.CV, cs.CR]目的：物体検出におけるバックドア攻撃の軽減
- 安全性が必要な画像認識システムにおいて，バックドア攻撃は深刻な脅威となりうる。
- 画像分類におけるバックドア軽減技術は存在するものの，物体検出における防御は未発達である。
- 攻撃目標が不明な状況下で，バックドア攻撃を受けた検出器を修復する手法を提案する。
- 提案手法では，誤分類と消失攻撃の両方に対応するため，ソフトブランチ最小化を導入した。
- ターゲットに一致する予測に二重目的の損失関数を適用することで，防御更新をバックドア行動に関連する予測に集中させた。
- CNNおよびTransformerベースの検出器を用いた実験により，提案手法が既存手法よりも攻撃成功率を効果的に低減し，真の検出性能を維持することが示された。
Link: https://arxiv.org/abs/2605.05928
ルーチン臨床スキャンからの全身CT減衰およびボリュームチャート：エビデンスに基づくLLMレポートフィルタリング [eess.SY, cs.SY, cs.CV]目的：定量CTバイオマーカーの参照分布の構築
- CT画像における定量的な評価は，疾患の早期発見や進行評価に不可欠である。
- 臨床データセットには病理が含まれることが多く，健常な参照分布の作成が困難である。
- 大規模な臨床データから病理を除去し，より正確な参照範囲を確立すること。
- LLMアンサンブルを用いて，35万人以上のCT検査から病理所見をフィルタリングすることに成功した。
- 106の解剖学的構造について，年齢，性別，造影剤使用の有無などを考慮したボリュームと減衰の参照チャートを構築した。
- 経時的な解析により，構造や造影剤に依存する変化が明らかになり，標準化された定量評価への貢献が期待される。
Link: https://arxiv.org/abs/2605.05933
RAWild：物理に基づいた曲線とグリッドモデリングによるセンサー非依存のRAWオブジェクト検出 [cs.CV]目的：センサー非依存のRAWオブジェクト検出のための物理に基づいたグローバル-ローカルトーンマッピングフレームワーク
- RAWデータは，画像処理において，より詳細な情報と物理的情報を保持し，ISPの影響を受けない利点がある。
- デバイス間の露出条件，スペクトル感度，ビット深度の違いにより，センサー間のドメインギャップが大きく，汎化が困難である。
- 異なるセンサー間で一貫した性能を発揮できる，センサー非依存なRAWオブジェクト検出手法を確立すること。
- 提案手法RAWildは，RAWデータの分布に基づいたグローバルなトーン補正とローカルな色調整により，異種センサー間での学習を可能にする。
- 物理ベースのRAWシミュレーションパイプラインを構築し，多様なセンサー特性を合成することで，センサー間の汎化性能を向上させている。
- 複数のRAWベンチマークにおいて，単一データセット，混合データセット，ロバスト性評価において最先端の性能を達成している。
Link: https://arxiv.org/abs/2605.05941
MobileEgo Anywhere: 一般的なハードウェアでの長時間の自己視点データのオープンインフラストラクチャ [cs.CV, cs.CL]目的：長時間の自己視点データの収集を可能にするフレームワーク
- ロボットタスク実行には，長期的な時間的依存関係の把握が不可欠である。
- 既存の自己視点データセットは，収録時間が短く，複雑なタスクに対応できない。
- 手軽なハードウェアで長時間データ収集を可能にし，汎用的なロボットポリシー開発を加速する。
- MobileEgo Anywhereは，一般的なスマートフォンを用いて，1時間以上の長時間の自己視点データを効率的に収集できる。
- 200時間の多様な自己視点データセットを公開し，持続的な状態追跡を可能にした。
- データ収集アプリケーションと，VLAモデル研究用のデータ処理パイプラインをオープンソースで提供する。
Link: https://arxiv.org/abs/2605.05945
TableVista: 視覚的・構造的複雑性下におけるマルチモーダル表推論のベンチマーク [cs.CL, cs.CV]目的：マルチモーダル表推論における基盤モデルの評価
- 表形式データは情報伝達の要であり，多様な分野で広く利用されているため。
- 視覚的・構造的な複雑性が高い表データに対する既存モデルの推論能力は十分ではない。
- 視覚情報と構造情報を統合した表推論能力の限界を明らかにし，改善の方向性を示す。
- TableVistaは，3,000件の高品位な表推論問題と，それらを多様な視覚スタイルで展開した30,000件のマルチモーダルサンプルで構成される。
- 29の最先端モデルを評価した結果，レンダリングスタイルには比較的安定だが，複雑な構造や視覚情報のみの場合には性能が低下した。
- 現在のモデルは，構造的複雑さと視覚的表現が組み合わさった場合に，推論の一貫性を維持することが難しいことが示唆された。
Link: https://arxiv.org/abs/2605.05955
生体医学的セマンティックセグメンテーションのための二重アダプターによる，プロンプト不要かつ効率的なSAM2適応 [cs.CV]目的：生体医学的セマンティックセグメンテーションにおけるSAM2の適応
- 近年，セマンティックセグメンテーションは，医療画像解析において重要な役割を果たしている。
- SAM2は自然画像では高い性能を示すが，ドメインの差異により生体医学的セグメンテーションでは課題がある。
- プロンプトに依存せず，効率的にSAM2を適応させることで，セグメンテーション精度と効率を向上させる。
- 提案手法は，既存の適応基盤と比較して，大幅なセグメンテーション精度の向上を示した。
- ISBI 2012，Kvasir-SEG，Synapse，ACDCデータセットにおいて，SAM2の精度を最大19.66%向上させた。
- 計算コストを既存の重い医療SAM適応と比較して約87%削減し，精度と効率の優れたトレードオフを実現した。
Link: https://arxiv.org/abs/2605.05979
メロディとリズムは共進化するか？ [cs.SD]目的：音楽におけるメロディとリズムの構造的特徴に関する比較分析
- 音楽は文化を反映する普遍的な現象であり，その構造理解は人類学，認知科学等に不可欠である。
- メロディとリズムの相互関係は不明確であり，個別に進化してきた可能性が指摘されている。
- 大規模な楽曲データを用いて，メロディとリズムが独立して進化してきたかを検証すること。
- 59カ国27,628曲の楽曲を分析した結果，音楽的類似性は地理的・言語的関係と一致した。
- メロディとリズムの多様性には有意な相関が見られず，共進化の仮説を否定する結果となった。
- リズムの多様性は民族・言語の多様性と関連していたが，メロディの多様性にはそのような関連性は認められなかった。
Link: https://arxiv.org/abs/2605.05982
iPhoneBlur：消費者向けデバイスのモーションデブラーリングのための難易度層別ベンチマーク [cs.CV, cs.AI]目的：消費者向けデバイスにおけるモーションブラー除去の性能評価
- モバイルデバイスの画像処理技術は，日常的な写真や動画撮影において不可欠である。
- 従来の評価指標は，モーションブラーの難易度による性能変動を捉えきれていない。
- モーションブラーの難易度別に性能を評価し，実用的な復元戦略の開発を支援する。
- iPhoneBlurは，7,400組の画像ペアで構成され，難易度別にEasy，Medium，Hardの3段階に分類されている。
- 難易度が高くなるにつれて，光学フローの大きさが増加し，評価対象のモデルの性能が7-9dB低下することが確認された。
- プロフェッショナルカメラと消費者向けカメラのドメインギャップが明らかになり，ファインチューニングにより性能が回復された。
Link: https://arxiv.org/abs/2605.05990
4DThinker：動的な空間理解のための4次元イメージング [cs.CV]目的：動的な空間推論の実現
- 視覚知能と物理世界を結び付ける上で不可欠な動的空間推論は，高度なAIシステムの実現に貢献する。
- 既存のVLMsは，複雑な動的状況において，空間temporalな推論の精度が十分でない。
- 4次元の潜在的イメージングを通じて，VLMsがより効率的に動的な空間推論を行えるようにすること。
- 4DThinkerは，VLMsが4次元の潜在的イメージングを通して思考する初のフレームワークである。
- 大規模なデータ生成パイプラインとDynamic-Imagery Fine-Tuning（DIFT）により，動的な視覚意味をモデルに学習させる。
- 4D Reinforcement Learning（4DRL）を用いることで，複雑な推論タスクにおいて高い性能を示す。
Link: https://arxiv.org/abs/2605.05997
SpiNNakerにおける手話認識のためのニューロモーフィック視覚的注意 [cs.CV]目的：手話認識におけるニューロモーフィック視覚的注意アーキテクチャ
- リアルタイム手話認識は，コミュニケーション支援技術として重要であり，その実現には低遅延・低消費電力なシステムが不可欠である。
- 既存の手話認識手法は，計算コストが高く，リアルタイム処理や省電力化が課題となっている。
- 本研究は，スパースなイベント駆動計算を活用し，リアルタイム性と省電力性を両立する手話認識システムの開発を目指す。
- 提案システムは，シミュレーションにおいて92.27%の認識精度を達成した。
- ニューロモーフィックハードウェアSpiNNaker上での実装では，83.1%の認識精度を示した。
- 消費電力は0.565mW，遅延は3msであり，既存手法と比較して最も効率的なシステムである。
Link: https://arxiv.org/abs/2605.06005
拡散モデルによる蒸留を用いたリアルタイムな熱認識の視覚システムへの付加 [cs.CV, cs.AI]目的：RGBベースの視覚システムにおける課題解決と，昼夜を問わない汎用的な知覚能力の実現
- 夜間や霧などの悪条件下で，視覚システムの性能低下と安全上のリスクが課題となる。
- 従来の赤外線画像とRGB画像の融合手法は，処理速度が遅く，リアルタイムでの利用が困難である。
- 本研究は，高速かつ高品質な画像融合モジュールを開発し，リアルタイムな熱認識を実現する。
- 提案手法FusionProxyは，既存の高精度な融合手法と比較して，大幅な高速化を実現している。
- 静的認識タスクにおいて優れた性能を示し，動的なタスクにおいてもロバスト性を大幅に向上させている。
- FusionProxyは，高性能GPUから汎用的なハードウェアまで，多様なプラットフォームでリアルタイム推論が可能である。
Link: https://arxiv.org/abs/2605.06010
T2I-VeRW：テキストによる画像検索のための車両部分レベルのきめ細かい知覚 [cs.CV, cs.AI]目的：テキストによる車両画像の検索
- 監視カメラ映像などから車両を特定する技術は，社会の安全確保に不可欠である。
- 従来の車両再識別は画像間の類似性に基づき，目撃者の証言のようなテキスト情報が活用できない。
- テキストによる車両検索技術を確立し，より現実的な状況下での車両特定を可能とすること。
- 提案手法PFCVRは，車両のパーツレベルで画像とテキストを関連付け，検索精度を向上させた。
- 新しい大規模データセットT2I-VeRWを構築し，きめ細かいアノテーションを付与することで，より高度な研究を促進する。
- T2I-VeRIおよびT2I-VeRWデータセットにおいて，既存手法を上回る高いRank-1精度を達成した。
Link: https://arxiv.org/abs/2605.06012
PlotPick：AIを活用した科学図表からの数値データの一括抽出 [cs.HC, cs.CV, cs.DL]目的：科学図表からの構造化された表形式データの抽出
- システマティックレビューやメタ分析において，数値データの抽出は重要である。
- 著者によって図としてのみ提示される数値データの手動抽出は，時間と労力を要する。
- 視覚言語モデルを用いて，この抽出作業の自動化と効率化を目指す。
- PlotPickは，既存の図表から表形式データへの変換モデルDePlotを上回る性能を示した。
- ChartXベンチマークでは，視覚言語モデルは71%のDePlotに対し，88-96%のリコールを達成した。
- PlotQAベンチマークでは，視覚言語モデルは94%のDePlotに対し，86-99%のRMSF1スコアを達成した。
Link: https://arxiv.org/abs/2605.06021
音声ディープフェイク検出のためのスペクトログラムパッチ特徴量を用いた量子カーネル [cs.SD, cs.AI]目的：音声ディープフェイク検出における量子カーネルの性能向上
- 音声認証・セキュリティにおいて，偽造音声の検出は喫緊の課題である。
- 既存手法では，スペクトログラムの時間周波数構造を十分に活用できていない。
- 時間周波数構造を考慮した量子カーネルにより，検出精度の向上を目指す。
- 提案手法Q-Patchは，スペクトログラムの局所的な時間周波数パッチを量子状態にエンコードする。
- Q-Patchは，RBF-SVMと比較して，より高い識別能力を示す（AUROC: 0.87 vs 0.82）。
- カーネル空間解析により，クラス構造の明確化と高いクラス内類似性が確認された。
Link: https://arxiv.org/abs/2605.06035
視覚素片間の空間関係の誘導によるドメイン汎化 [cs.RO, cs.CV]目的：ドメインを横断した信頼性の高い分類を可能にする安定した表現の特定
- 画像認識において，異なるドメインへの対応能力は重要な課題である。
- 既存手法では，構造的な構成要素の学習が暗黙的であり，汎化性能に限界がある。
- 視覚素片とそれらの関係性を明示的にモデル化することで，ドメイン汎化性能の向上を目指す。
- 提案手法PARSEは，CUB-DGにおいて4.5%以上の精度向上を達成した。
- DomainBedベンチマークにおいても，既存のドメイン汎化手法と遜色ない性能を示した。
- 視覚素片と空間関係を組み合わせることで，構造的な構成要素の学習を促進する。
Link: https://arxiv.org/abs/2605.06043
あなたのやり方で融合：直接的嗜好最適化による異質的な要求への画像融合の適合 [cs.CE, cs.CV]目的：異質的な要求への画像融合の適合
- マルチモーダル処理の基盤技術であり，視覚的強化と画像認識タスクに不可欠。
- 既存手法は，多様な要求に柔軟に対応できず，適応的な融合が困難。
- 人間と機械の視覚からの多様な嗜好に沿った適応的な融合を実現。
- 提案手法DPOFusionは，潜在拡散モデルと嗜好制御型潜在拡散モデルを統合。
- 人間，視覚言語モデル，タスク駆動型ネットワーク間の嗜好の正確な適合を達成。
- 適応的融合の品質とタスク指向の転移可能性において新たなベンチマークを確立。
Link: https://arxiv.org/abs/2605.06049
RealCam：インタラクティブなカメラ制御によるリアルタイム新規視点ビデオ生成 [cs.CV]目的：単眼映像からの動的な視点合成
- インタラクティブな映画制作やライブ配信への応用が期待される分野である。
- 既存手法は双方向処理が必要で，リアルタイム性や可変長入力への対応が困難である。
- リアルタイム性と効率性を両立し，インタラクティブなカメラ制御を実現する。
- RealCamは，クロスフレームインコンテキストラーニングという新たな手法により，高精度な視点合成を実現した。
- 自己強制と分布一致蒸留による効率的な蒸留により，リアルタイムでのストリーミング合成を可能にした。
- ループ閉路データ拡張により，閉ループ軌跡における一貫性を向上させた。
Link: https://arxiv.org/abs/2605.06051
説明可能なドキュメント視覚的質問応答：説明連鎖予測によるアプローチ [cs.MA, cs.DC, cs.MS, cs.LG, cs.CV]目的：ドキュメント視覚的質問応答における説明可能性の向上
- ドキュメント理解と質問応答は，情報検索や知識獲得において重要な役割を担う。
- 既存のモデルは，根拠となる情報と回答の位置特定が混在しており，推論過程が不透明である。
- 視覚的根拠に基づいた推論過程を明示し，予測の透明性と検証可能性を高める。
- 提案手法CoExVQAは，質問関連証拠の特定，回答領域の局所化，そして局所化された領域からの回答デコードという段階を踏む。
- PFL-DocVQAデータセットにおいて，既存のexplainableベースラインと比較してANLSスコアを12%向上させた。
- 説明連鎖予測により，推論過程を直接検証可能にし，透明性の高い予測を実現した。
Link: https://arxiv.org/abs/2605.06058
アバターと顔の表現が合成ジェスチャーの知覚的評価に与える影響：現実の確認 [cs.RO, cs.SY, eess.SY, cs.GR, cs.HC]目的：合成ジェスチャーの知覚的評価に影響を及ぼすアバターと顔の表現の検証
- 現実的な仮想人間生成技術は発展しており，エンタメ，教育，医療など幅広い分野で活用が期待されている。
- ジェスチャー生成の評価において，アバターや顔の表現が知覚に与える影響が無視されている場合がある。
- アバターと顔の表現がジェスチャーの知覚的評価に及ぼす影響を定量的に明らかにし，評価基準の確立に貢献する。
- アバターと顔の表現は，生成されたジェスチャーの知覚的評価を系統的に変化させることが示された。
- この結果から，ジェスチャー合成のベンチマークや仮想人間アプリケーションにおける展開において考慮すべき視点が得られた。
- アバターのレンダリングや顔の表現が，モーション判断にバイアスを及ぼす可能性が確認された。
Link: https://arxiv.org/abs/2605.06063
PersonaGesture：未知話者に対するシングルリファレンス共演ジェスチャーのパーソナライズ [cs.CV]目的：未知話者に対する共演ジェスチャーのパーソナライズ
- 仮想アバターやバーチャルエージェントのリアリティ向上に，個々の話者の特徴を反映した自然なジェスチャーが不可欠である。
- 既存手法では，話者固有の習慣と発話内容に依存する動きが混在するため，新たな話者への適用が困難であった。
- 本研究は，単一の参照モーションから話者固有のジェスチャー様式を抽出し，新たな発話に適用することで，この問題を解決する。
- 提案手法PersonaGestureは，適応的スタイル注入(ASI)と暗黙的分布修正(IDR)の2つの要素により，話者の特徴と発話内容を分離し，自然なジェスチャー生成を可能にする。
- ASIは，話者記憶トークンをノイズ除去過程に注入することで，事前学習済みの音声-動作対応モデルの知識を活かしながら，スタイル情報を効果的に反映する。
- 実験結果から，ASIとIDRの組み合わせが，既存手法と比較して，未知話者に対するパーソナライズ性能を向上させることが示された。
Link: https://arxiv.org/abs/2605.06064
アリーナをオフライン報酬として：拡散モデルの効率的なきめ細かい嗜好最適化 [cs.CV]目的：拡散モデルの嗜好最適化における効率性と精度向上
- 画像生成AIの性能向上には，人間の嗜好との整合が不可欠であり，そのための技術が求められている。
- 従来のRLHFは計算コストが高く，DPOは二値フィードバックの制約から最適化が不十分になりやすい。
- アリーナスコアを活用し，報酬モデルを用いずに効率的かつ高精度な嗜好最適化を実現することを目指す。
- アリーナPOは，Pick-a-Pic v2とHPD v3データセットにおいて，既存のベースラインを安定的に上回る性能を示した。
- アリーナスコアをオフライン報酬として活用することで，きめ細かいフィードバックを効率的に提供できる。
- 報酬モデルが不要であり，追加の学習オーバーヘッドも発生しないため，計算効率が高い。
Link: https://arxiv.org/abs/2605.06070
MSDスコア：参照なし画像キャプション評価のための多重尺度分布スコアリング [cs.CV]目的：参照なし画像キャプション評価のための指標
- 画像キャプションの自動評価は，人間による評価の代替手段として重要である。
- 既存の参照なし評価指標は，詳細な不一致を捉えきれない場合がある。
- 詳細な不一致を捉え，より信頼性の高い評価指標を開発すること。
- MSDスコアは，画像パッチとテキストトークンを多重尺度分布としてモデル化する。
- 意味的な不一致をKLダイバージェンスで定量化し，全体的な類似度と組み合わせる。
- 実験の結果，MSDスコアは参照なし評価指標の中で最先端の相関を示す。
Link: https://arxiv.org/abs/2605.06080
不確実性の再検討：部分的に関連する動画検索のためのエビデンス学習について [cs.CV, cs.IR, cs.LG, cs.MM]目的：部分的に関連する動画検索における不確実性の明示的なモデリングと，それに基づく検索性能の向上
- 動画検索は，大量の動画データから目的とする情報を効率的に抽出するために不可欠である。
- 短いクエリと豊富な動画コンテンツ間の非対称性により，検索過程で不確実性が生じやすい。
- 動画内のスパースな時間的監督問題を緩和し，より確実な検索結果を得ることを目指す。
- 提案手法Holmesは，マルチ粒度のクロスモーダルエビデンスを統合し，不確実性を定量化・モデル化する階層的エビデンス学習フレームワークである。
- インタービデオレベルでは，類似度スコアをエビデンス的サポートとして解釈し，ディリクレ分布を用いてモデリングする。
- イントラビデオレベルでは，柔軟な最適輸送と適応ダストビンを用いたソフトクエリ-クリップアライメントにより，密なエビデンスを蓄積する。
Link: https://arxiv.org/abs/2605.06083
低照度環境における物体検出のための適応型マルチ専門家画像強調 [cs.CV]目的：低照度環境における物体検出の精度向上
- マルチメディア分野において，視覚情報処理の精度は照明条件に大きく左右される。
- 低照度環境で撮影された画像は，視覚認識タスクの精度低下を引き起こす。
- 低照度画像における物体検出性能の向上を目指す。
- 提案手法AMIEODは，画像強調と物体検出を同時に最適化するフレームワークである。
- マルチ専門家画像強調モジュール(MEIEM)により，多様な強調戦略を活用する。
- 検出結果に基づく損失関数(DGRL, DGCE)を用いて，画像強調と専門家選択を検出タスクに適合させる。
Link: https://arxiv.org/abs/2605.06084
LARGO：欠損モダリティに対処するための低ランク超ネットワーク [cs.CV]目的：マルチモーダル画像解析における欠損モダリティへの対処法
- 画像解析において，複数の情報源（モダリティ）を統合することで，より高度な認識が可能となる。
- 既存手法はデータセットごとに構造変更やハイパーパラメータ調整が必要で，汎用性に課題がある。
- 重み空間で表現を圧縮することで，様々な欠損パターンに対応可能な汎用的なモデルを構築する。
- 提案手法LARGOは，BraTS 2018とISLES 2022において，52パターンのうち47パターンで最高性能を達成した。
- 最先端手法と比較して，平均Dice係数で+0.68%および+2.53%の改善が見られた。
- avMNISTを用いた実験により，LARGOが医療画像以外にも応用可能であることが示唆された。
Link: https://arxiv.org/abs/2605.06086
OpenGaFF：コードブック注意を用いたオープンボキャブラリ Gaussian 特徴場 [cs.CV]目的：オープンボキャブラリ3Dシーン理解のためのフレームワーク
- 3Dシーン理解は，ロボティクスや拡張現実など，多様な応用分野において重要である。
- Gaussianベース表現では，多視点観測における意味的予測が断片的で空間的に一貫性がないという課題がある。
- 3D Gaussian Splattingに基づく，空間的一貫性と物体レベルでの意味的整合性を向上させる。
- OpenGaFFは，Gaussianの幾何学と外観に基づいて意味を連続関数としてモデル化するGaussian特徴場を導入した。
- 構造化されたコードブックを用いることで，共有される意味素因子のセットを確立し，物体レベルの意味的一貫性を強化する。
- コードブック誘導注意機構により，ロバストなオープンボキャブラリ推論と物体内特徴分散の削減を実現した。
Link: https://arxiv.org/abs/2605.06088
文脈的プロンプトとノイズ学習による自己教師ありトラッキングの強化 [cs.CV]目的：自己教師ありトラッキングのためのロバストな文脈知識の学習
- 自己教師あり学習は，ラベルなしデータから効率的に知識を獲得し，幅広い応用を可能にするため重要である。
- 従来の自己教師ありトラッカーは，効果的な文脈モデリングが不足しており，信頼性の高い文脈的手がかりの学習が困難である。
- ラベルなしトラッキングシナリオにおいてロバストな追跡表現を学習するため，文脈的プロンプトとノイズ学習を組み合わせる。
- 提案手法は，詳細な意味的プロンプトと文脈的ノイズを同時に活用する二重モードの文脈関連メカニズムを導入している。
- 学習初期には，追跡知識の獲得を促進するため，インスタンスパッチトークン（プロンプト）が順方向および逆方向の追跡ブランチに割り当てられる。
- 学習が進むにつれて，文脈的ノイズが徐々に注入され，特徴空間の複雑化を促し，ロバストな追跡表現を学習する。
Link: https://arxiv.org/abs/2605.06092
VISD：構造化された自己知識蒸留による動画推論の強化 [cs.CV, cs.AI]目的：動画推論のための構造化された自己知識蒸留フレームワーク
- 動画理解は，AIの発展において重要な役割を担う。複雑な動画コンテンツから意味を抽出することは，様々な応用分野で求められている。
- 動画LLMの学習は，長期的な時間的推論における報酬の希薄性や，詳細なクレジット割り当ての欠如が課題である。
- 動画推論における構造化された詳細なフィードバックを提供し，学習効率と精度を向上させることを目指す。
- VISDは，動画認識の質を複数の次元（正答率，論理的整合性，時空間的根拠付け）に分解し，トークンレベルの指導を行う。
- 報酬から得られるロールアウトレベルの利点を更新方向として利用し，構造化された特権シグナルはトークンレベルの更新量を調整する。
- 様々なベンチマークテストにおいて，既存の手法を凌駕し，回答精度と時空間的根拠付けの質を向上させている。
Link: https://arxiv.org/abs/2605.06094
視覚モデルにおける換喩がアテンションに基づく解釈可能性を損なう [cs.CV]目的：視覚モデルにおける換喩現象の存在とその解釈可能性への影響
- コンピュータビジョンは，画像認識や物体検出など，様々なタスクにおいて重要な役割を担う分野である。
- 深層学習モデルの解釈可能性は，モデルの信頼性向上に不可欠だが，必ずしも保証されているわけではない。
- アテンション機構を用いた解釈可能性の低下要因を特定し，改善策を提示すること。
- 最新のビジョンTransformerは，物体の一部を表現する潜在表現において，物体全体からの情報漏洩を示すことが明らかになった。
- この情報漏洩（換喩）は，アテンション機構に基づく解釈可能性を損ない，部分ベースの推論を不正確にする。
- 2段階アプローチにより情報漏洩を抑制することで，属性駆動型の部分発見が向上し，解釈可能性を高めることが示された。
Link: https://arxiv.org/abs/2605.06095
マルチモーダル知識編集におけるエンティティ同一性混乱の解明 [cs.CL, cs.CV]目的：大規模ビジョン言語モデルの知識編集後の挙動に関する問題点の特定
- 大規模言語モデルの知識は不完全であり，編集による修正が重要である。
- 知識編集後のモデルの挙動は十分に理解されておらず，予期せぬ問題が発生する可能性がある。
- エンティティ同一性混乱という新たな問題点を特定し，その原因と対策を探る。
- 編集されたモデルにおいて，「エンティティ同一性混乱」と呼ばれる現象が確認された。これは，元のエンティティに関する質問に対して，新しいエンティティの情報が返されるというものである。
- この現象は，モデルが画像とエンティティの関連付けと，エンティティ間の関係知識を区別できないことに起因する。モデルがエンティティ間の関係に過剰に依存してしまうことが原因である。
- モデルの画像とエンティティの関連付け処理段階に編集を制限することで，この問題を大幅に軽減できることが示された。
Link: https://arxiv.org/abs/2605.06096
イベントストリームに基づく視覚オブジェクト追跡のための動的熟慮スパースネス認識混合エキスパートTransformer [cs.CV, cs.AI]目的：イベントベースの視覚オブジェクト追跡における追跡精度と計算効率の改善
- RGBベースの追跡器は照明条件や高速移動に弱い。イベントカメラは高ダイナミックレンジと高時間分解能を持つ。
- 既存のイベントベース追跡器はイベントデータの空間的なスパースネスと時間的な密度を無視している場合がある。
- イベント密度の変化を明示的にモデル化し，異なるスパースネスパターンに適応する追跡フレームワークを開発する。
- 提案手法は，イベントデータの多段階な密度学習を可能にするVision Transformerバックボーンを採用している。
- スパースネス認識混合エキスパートモジュールは，異なるスパースネスパターンへの専門化を促進し，追跡難易度に応じて推論深度を動的に調整する。
- FE240hz, COESOT, EventVOTデータセットでの実験により，提案手法が追跡精度と計算効率の良好なトレードオフを実現することが示された。
Link: https://arxiv.org/abs/2605.06112
害虫思考者：強化学習による昆虫学者の思考・推論の学習 [cs.DC, cs.CV]目的：害虫の形態的特徴に関する視覚的理解と推論能力の向上
- 食糧安全保障と持続可能な農業発展において，害虫による農作物の損失は深刻な脅威である。
- 害虫認識は，種間・種内の複雑さ，専門家による注釈データの不足といった課題があり，大規模言語モデルの直接的な応用が困難である。
- 本研究は，害虫の形態的特徴に基づいた視覚的推論能力を高め，専門家レベルの害虫分析を目指す。
- Pest-Thinkerは，高解像度な害虫ベンチマークデータセット（QFSD，AgriInsect）を構築し，害虫特有の視覚的特徴の構造化された学習を促進する。
- Group Relative Policy Optimizationと，LLMによる評価戦略を用いた特徴報酬により，モデルが観察可能な形態学的証拠に焦点を当てられるように誘導する。
- 実験の結果，Pest-Thinkerは，インドメインおよびアウトドメインの両方で形態的理解を大幅に向上させることが示された。
Link: https://arxiv.org/abs/2605.06121