arXiv雑要約

画像・音声 - 2026/05/19 公開

展開時プライバシー保護を備えた熱源のみによる群衆数推定 [cs.CV]目的：熱源のみによる群衆数推定のためのフレームワーク
- 公共監視におけるプライバシー保護は重要であり，RGBデータの利用は懸念事項となっている。
- RGBと熱源データのずれは，マルチモーダル融合の性能低下を引き起こす。
- RGBデータを使用せず，プライバシーを保護しながら高精度な群衆数推定を実現する。
- 本研究では，RGBに依存せず，プライバシー侵害のリスクを低減する熱源のみによる群衆数推定フレームワークを提案した。
- 深度-RGB拡散モデルを活用し，熱源データの識別能力を高めることで，熱源のみでも高精度な推定を可能にした。
- LCM一步デノイジングが，深度条件信号の構造内容に最も忠実な特徴量を生成し，カウント精度の向上に貢献することを示した。
Link: https://arxiv.org/abs/2605.17042
ブリスコラ・アドバンテージを超えて：二人制ブリスコラゲームにおける決定論的戦略のモンテカルロ支配性テスト [cs.GT]目的：二人制ブリスコラゲームにおける決定論的戦略の支配性
- ブリスコラは伝統的なカードゲームであり，戦略研究の魅力的な対象である。
- ブリスコラでは，配られたカードの強さが勝敗に大きく影響すると考えられている。
- 単純な貪欲法を改良した戦略が，運に左右されずに優位性を示すかを検証する。
- ブリスコラを溜め込む戦略と，公開情報を活用する戦略が，単純な貪欲法を上回ることが示された。
- 戦略の優位性は，カードの配分による運の影響を上回ることが明らかになった。
- シミュレーションの再現性を確保するため，全てのコードと乱数シードを公開している。
Link: https://arxiv.org/abs/2605.17043
EPIC-Bench：ビジョン言語モデルにおける詳細な具現化された視覚的接地評価のための知覚中心型ベンチマーク [cs.MA, cs.CV]目的：ビジョン言語モデルにおける視覚的接地能力の評価
- ロボット工学やコンピュータビジョンにおいて，視覚と言語の連携は重要な課題である。
- 既存のベンチマークは言語的先験知識に依存し，真の視覚的接地能力を評価できていない。
- 視覚とテキストのより正確な対応関係を評価し，具現化された環境でのモデルの性能向上を目指す。
- EPIC-Benchは，画像，テキスト，マスクの組からなる6.6kの注釈データセットである。
- 評価の結果，最先端のモデルでも，物理的な相互作用における複雑な視覚-テキストの整合性に課題があることが明らかになった。
- 特に，複数ターゲットのカウント，部分-全体の関係理解，アフォーダンス領域の検出においてボトルネックが存在する。
Link: https://arxiv.org/abs/2605.17070
ターゲットKL正則化によるAudio VAEの制御 [cs.SD, cs.LG, eess.AS]目的：Audio VAEの圧縮率と歪みの関係性の解明
- 音響生成において，潜在拡散モデルが主流となりつつあるため，その構成要素であるVAEの最適化が重要である。
- VAEの正則化は，出力品質と予測の難易度のトレードオフがあり，適切な正則化の強さを決定することが困難である。
- ターゲットKL正則化によりVAEを特定のビットレートで学習し，このトレードオフを詳細に分析することで解決を目指す。
- ターゲットKL正則化によってVAEの圧縮率を制御し，レート歪み曲線を作成することが可能となった。
- 実験結果から，圧縮率を調整することで最適な生成設定を特定できることが示された。
- このフレームワークは，離散ニューラルオーディオコーデックモデルとの直接比較を可能にする。
Link: https://arxiv.org/abs/2605.17085
医療潜在拡散における学習性のギャップ [cs.CV]目的：医療画像におけるクラス不均衡に対処するための潜在拡散モデルを用いた生成データ拡張の学習性に関する問題点
- 医療画像診断の精度向上には，十分な学習データが不可欠である。しかし，疾患の稀少性などによりデータ不足が課題となる。
- 既存のデータ拡張手法は，画像の知覚的な忠実性に焦点を当てており，潜在空間の学習しやすさという根本的な問題を見過ごしている。
- 潜在空間の構造が分類器にとって学習しにくいことが，実データと合成データの性能差を生み出している点を明らかにし，改善策を提案する。
- 大規模に事前学習されたオートエンコーダは，医療分類において識別的な特徴を忠実に符号化するものの，その潜在表現は分類器が学習しにくい構造になっている。
- オートエンコーダのアーキテクチャ，初期化戦略，ハイパーパラメータ調整に関わらず，このギャップは存在し，医療ドメインにおけるオートエンコーダの微調整でも解消されない。
- ノイズ条件付きの潜在分類器と画像空間蒸留を導入することで，潜在空間の質を診断し，ギャップを部分的に縮小することができた。
Link: https://arxiv.org/abs/2605.17087
HEED：ハイブリッドビジョン言語モデル蒸留のための密度重み付き残差アラインメント [cs.CV, cs.CL]目的：ハイブリッドビジョン言語モデルの効率的な蒸留手法の開発
- ビジョン言語モデルは，画像とテキストを理解する能力が求められ，様々な応用分野で重要性が増している。
- モデルの高速化のためハイブリッドアーキテクチャを用いる際，特定のタスクで性能が低下する課題がある。
- 特に，文字認識やドキュメント処理といった細かいテキスト情報を扱うタスクにおける性能低下を改善すること。
- HEEDは，パッチの自己相違性を用いて位置重要度を推定し，密度重み付き残差アラインメントを適用することで，OCRBench v2で8.7ポイント，10ベンチマーク平均で5.13ポイントの性能向上を実現した。
- 通常の蒸留と比較して，HEEDは教師モデルと同等の性能を，4.12倍の処理速度と68%のメモリ削減で達成し，追加パラメータや推論コストは発生しない。
- 高解像度画像において，テキストやエッジなど情報量の多いパッチに焦点を当て，損失項目の偏りを修正することで，性能向上を実現している。
Link: https://arxiv.org/abs/2605.17093
ボディカメラ映像における警察官活動の視覚的タイムライン：OpenBWCにおける訓練と分析のための運用状況と活動カタログ [cs.CV, cs.AI, cs.LG]目的：ボディカメラ映像の運用状況と活動内容の分類
- 警察活動の透明性向上と証拠保全の重要性が高まっている。
- 膨大なボディカメラ映像から必要な場面を特定するには，時間と労力がかかる。
- 映像を効率的に分析し，訓練やレビューを迅速化すること。
- ボディカメラ映像を10秒単位の固定長ウィンドウに分割し，プライバシーに配慮したプロトコルで処理・ラベル付けを行った。
- 各ウィンドウに対し，運用状況と運動強度の2つの側面からラベル付けし，分類モデルを訓練した。
- 運用状況の分類精度は78.75%，活動レベルの分類精度は88.33%を達成し，インシデントレビューの効率化と訓練ワークフローの改善に貢献する。
Link: https://arxiv.org/abs/2605.17095
アンカー条件付きボクセル拡散による屋内シーン配置：VoxScene [cs.GR, cs.CV]目的：屋内シーン合成のためのアンカー条件付きボクセル拡散フレームワーク
- 屋内シーンの自動生成は，バーチャルリアリティやロボット工学など幅広い分野で重要である。
- 既存手法はボクセル構造を考慮せず，物理的な衝突や構造の絡み合いが発生しやすい。
- ボクセル表現を用いることで，衝突のない現実的な屋内シーン配置の生成を目指す。
- 提案手法は，従来のレイアウトプランナーと比較して，物理的妥当性と形状の多様性において最先端の結果を達成した。
- 明示的なボクセル表現を用いることで，空間的な曖昧さを解消し，衝突のない配置を保証する。
- 生成された高精度なボクセルグリッドは，アセット検索のための識別的な幾何学的クエリとして機能する。
Link: https://arxiv.org/abs/2605.17102
乳幼児の生体力学的全身運動学的推定のためのマーカーレスモーションキャプチャ [cs.CV]目的：乳幼児における生体力学的全身運動学的推定の精度評価
- 乳幼児期の運動機能障害の早期発見は重要であり，客観的な評価手法の確立が求められている。
- 従来の評価は専門家の視認によるものが多く，客観性や定量性に課題があった。
- ビデオ映像からの姿勢推定技術を用いて，乳幼児の運動発達を評価する基盤を構築する。
- MeTRAbs-ACAE，SAM 3D Body，Sapiensの3つの姿勢推定フレームワークを比較評価した結果，Sapiensが最も低いリプロジェクションエラーと高い幾何学的整合性を示した。
- 一方，SAM 3D Bodyは，運動学的再構成のための3D情報において最も包括的なデータを提供し，Procrustesアラインメント位置誤差が19〜28mmであった。
- 症例比較から，SAM 3D Bodyによる推定値に基づいた生体力学モデルは，臨床専門家が特定する運動発達に関連する乳幼児の代表的な運動パターンを識別することが示された。
Link: https://arxiv.org/abs/2605.17120
月面クレーター検出のための主成分分析 [cs.HC, cs.RO, cs.CV, cs.LG]目的：月面クレーター検出手法の開発
- 月探査ミッションにおいて光学ナビゲーションは重要であり，クレーターは豊富な特徴点として利用可能である。
- クレーターは形状が類似しているため，テンプレートマッチングにおいて汎用的なテンプレートの作成が課題である。
- 主成分分析を用いてクレーターのテンプレートを自動生成し，検出精度と位置推定の向上を目指す。
- 提案手法EigenCraterは，クレーターのDEMデータに対して主成分分析を行い，自動的にテンプレートを生成する。
- シミュレーション画像を用いた実験により，手動で選択したテンプレートと比較して，より優れた検出性能と位置推定精度が確認された。
Link: https://arxiv.org/abs/2605.17125
点群分類・セグメンテーションのための深層学習アーキテクチャに関する体系的調査 [cs.CV, cs.AI, cs.LG]目的：点群分類，部品セグメンテーション，意味的セグメンテーションにおける深層学習モデルの調査と評価
- 3D形状やシーンの表現として点群は広く利用され，自動運転やロボティクス等の発展に不可欠である。
- 点群データは順序や規則性がなく，ノイズや隠蔽の影響を受けやすく，機械学習への適用が困難である。
- 点群データの特性に適した深層学習アーキテクチャの現状を整理し，課題と今後の方向性を示す。
- 本研究では，点群分類・セグメンテーションに関する深層学習モデルを，バックボーン構造に基づき分類し，主要なベンチマークにおける性能を比較検討した。
- その結果，アーキテクチャの革新と限界が明らかになり，今後の3D点群理解のための方向性を示唆する知見が得られた。
- 点群データは，順序性を持たせる変換，局所的な幾何学的特徴の抽出，置換不変または自己注意メカニズムの利用などの多様な戦略によって処理されている。
Link: https://arxiv.org/abs/2605.17131
CAM-VFD：クロスアテンション多Modalビデオフォレンジック検出 [cs.CV, cs.AI]目的：ビデオフォレンジックにおける偽造検出
- デジタルコンテンツの信頼性確保は，法的手続きや報道において極めて重要である。
- 既存手法は単一のModalに依存しており，高度な偽造技術によるModal間の矛盾検出が困難。
- クロスModal間の矛盾を検出し，より堅牢な偽造検出を実現すること。
- 提案手法CAM-VFDは，クロスアテンション機構を用いて，視覚，時間，幾何学的な証拠間の矛盾を捉える。
- GenVidBenchとGenVideoの評価実験において，それぞれ95.31%，93.43%の高い精度を達成した。
- 圧縮，ノイズ，ぼかし，敵対的摂動に対しても安定した性能を示し，堅牢性に貢献する。
Link: https://arxiv.org/abs/2605.17133
半教師ありLiDARセマンティックセグメンテーションのための協調学習 [cs.CV]目的：LiDARセマンティックセグメンテーションにおける協調学習の有効性
- 3次元点群データのセマンティックセグメンテーションは，自動運転やロボティクス等の応用において重要である。
- LiDAR点群データのラベリングにはコストと時間がかかり，教師あり学習のボトルネックとなっている。
- 擬似ラベルによる誤差伝播と確証バイアスを軽減し，低ラベル環境での性能向上を目指す。
- 提案手法CoLLiSは，複数の表現を協調的に学習することで，従来の半教師あり学習手法における確証バイアスを軽減する。
- CoLLiSは，異なる表現からの知識を相互に蒸留し，表現間の不一致を監視することで，よりロバストなセグメンテーションを実現する。
- 3つのデータセットでの実験により，CoLLiSが最先端のLiDAR半教師あり学習手法を凌駕し，特にラベルが少ない状況で顕著な性能向上を示すことが確認された。
Link: https://arxiv.org/abs/2605.17135
分類集約：定量的不可能性定理 [cs.GT, math.CO, math.PR]目的：分類の集約可能性
- 社会選択理論において，多数決による意思決定の限界を明らかにする試みは重要である。
- 集約された結果が常に特定の条件（ここでは全射性）を満たす場合，自由な選択が制限される。
- 確率的な全射性という緩和された条件の下で，集約の限界を定量的に示す。
- 全射性を常に満たす集約メカニズムは，特定の条件下で独裁的となることが示された。
- 全射性を確率的に満たす場合でも，同様の限界が成立することが証明された。
- この研究は，AlekseevとFilmusによる一般的な結果を応用し，同値関係の集約にも適用可能である。
Link: https://arxiv.org/abs/2605.17136
UCSF-PDGM-VQA：脳腫瘍MRI解釈のための視覚的質問応答データセット [cs.CV, cs.AI, cs.CL]目的：脳腫瘍MRIの解釈に関する視覚的質問応答データセット
- 脳腫瘍診断はMRIが不可欠であり，高度な専門知識と時間が必要である。
- 放射線科医の専門知識の規模拡大が難しく，医療システムへの負担が大きい。
- 脳腫瘍MRIに特化した視覚的質問応答ベンチマークを提供し，モデルの性能評価を可能とする。
- 既存のモデルは，多系列3次元MRIスキャンを効果的に処理できず，視覚情報の抑制と言語的先入観への依存が生じている。
- この結果から，現在のモデルの臨床現場での信頼性と安全性に課題があることが示唆される。
- 脳腫瘍領域に特化した，堅牢な視覚言語モデルの開発が求められる。
Link: https://arxiv.org/abs/2605.17140
ビットが壊れた際の救済策：反事実に基づいた忠実な量子化 [cs.LG, cs.AI, cs.CV]目的：量子化における反事実の挙動の維持
- 機械学習モデルの軽量化は，計算資源の制約がある環境での利用を可能にするため重要である。
- 量子化によって予測精度は維持されるものの，モデルに対する介入（recourse）が機能しなくなる場合がある。
- 量子化による反事実の挙動の変化を抑制し，より信頼性の高いモデルを構築することを目指す。
- 本研究では，量子化による反事実の挙動の変化を評価するための指標（VD，CRG）を新たに提案した。
- 提案手法CFQは，量子化パラメータとビット割り当てを学習することで，反事実の挙動を維持し，recourseの安定性を向上させる。
- 実験結果から，CFQは精度を維持しつつ，既存手法よりもVDとCRGを大幅に改善することが示された。
Link: https://arxiv.org/abs/2605.17160
ビデオJEPAのための因数分解された潜在的ダイナミクス：補助目的関数の経験的研究 [cs.CV, cs.LG]目的：ビデオJEPAにおける補助目的関数の効果検証
- 動画理解は，ロボット工学や自動運転など，様々な応用分野において不可欠な技術である。
- 自己教師あり学習では，補助目的関数が性能に大きく影響するが，その挙動は十分には理解されていない。
- 潜在空間を分離することで，補助目的関数間のトレードオフを解消し，性能向上を目指す。
- 多くの補助目的関数において，あるタスクの性能向上と別のタスクの性能低下というトレードオフが確認された。
- FWM-HW-LDは，ImageNet-100とSomethingSomething V2の性能をそれぞれ+5.92%，+3.21%向上させた。
- 潜在的表現の因数分解は，ビデオJEPAにおける補助目的関数のトレードオフを研究する上で有効な方向性である。
Link: https://arxiv.org/abs/2605.17165
iMiGUE-3K：自己教師あり学習による微表情分析のための大規模ベンチマーク [cs.CV]目的：微表情に基づく感情理解のための大規模なベンチマークデータセットと基盤モデルの構築
- 感情理解は，感情計算と人工知能における基本的な課題であり，その実現は重要である。
- 従来の感情理解研究では，表情や音声に焦点が当たりがちで，ボディランゲージの豊かな感情的手がかりが見過ごされてきた。
- 本研究は，微表情分析のための大規模データセットを構築し，感情理解の精度向上を目指す。
- 新たに構築した大規模データセットiMiGUE-3Kは，332人のプロテニス選手の記者会見動画から3.4K以上の動画クリップ，3700万フレームを含んでいる。
- iMiGUE-3Kは，32種類の微表情クラスと詳細なアノテーションを備え，微表情分析のための初の本格的な大規模データセットとなる。
- 提案する基盤モデルMG-FMsは，微表情に基づく感情理解の精度を向上させ，心理診断，感情計算，HCI分野への貢献が期待される。
Link: https://arxiv.org/abs/2605.17179
MusicSynth：楽譜からバイオリン指板アニメーションを自動生成するパイプライン [cs.SD, cs.AI]目的：楽譜からのバイオリン指板アニメーションの自動生成
- バイオリン学習は視覚的な指板の目印がないため困難であり，効果的な学習支援が求められている。
- 既存の楽譜認識技術では，バイオリン指板への具体的な位置指示が伴わない場合が多い。
- 楽譜画像からバイオリン指板のアニメーションを自動生成し，初心者向けの学習支援を可能にすること。
- 楽譜画像認識，MusicXML解析，動画レンダリングの既存ツールを連携させたパイプラインを構築した。
- 印刷された楽譜で91.2%の音符を正確に識別し，デジタル楽譜ファイルでは99.1%の指位を正しく割り当てた。
- 楽譜画像からバイオリン指板アニメーションを自動生成する同様のウェブベースツールは現状存在しない。
Link: https://arxiv.org/abs/2605.17181
OPTNet：災害後3Dセマンティックセグメンテーションのための点順序変換ネットワーク [eess.SY, cs.SY, cs.MA, cs.HC, cs.CY, cs.LG, cs.CV]目的：災害後3D点群のセマンティックセグメンテーション
- 災害時の迅速な復旧には，被害状況の正確な把握が不可欠である。
- 既存手法は計算コストが高く，効率的な点群処理が課題であった。
- 災害現場の複雑な形状に適応した効率的な点群処理方法を開発する。
- OPTNetは学習可能な点ソーターモジュールを導入し，注意機構の局所性を最大化する最適な順序を動的に予測する。
- 提案手法は，既存の最先端手法と比較して，3DAeroReliefデータセット上で大幅に性能を向上させた。
Link: https://arxiv.org/abs/2605.17197
ChemVA：化学反応図の理解における大規模言語モデルの発展 [cs.AI, cs.CL, cs.CV]目的：化学反応図の理解に関する大規模言語モデルの能力向上
- 化学分野では，反応機構の解明や新物質の設計に図の理解が不可欠である。
- 既存の大規模言語モデルは，複雑な化学構造の図を正確に解釈する能力に課題があった。
- 化学反応図の視覚的特徴と意味的情報を効果的に結びつけ，言語モデルの化学的推論能力を高める。
- 提案手法ChemVAは，化学反応図の構造認識において92.0%という高い精度を達成した。
- ChemVAは，9種類のオープンウェイト大規模言語モデルにおいて，平均20%程度の性能向上をもたらした。
- 本手法により，オープンウェイトモデルが，高度な化学的推論タスクにおいて，商用最先端モデルに匹敵する能力を獲得した。
Link: https://arxiv.org/abs/2605.17214
拡散オークションにおける確率的メカニズム設計 [cs.GT]目的：拡散オークションにおけるインセンティブ整合性，非負の収益，近似効率を同時に達成するメカニズム
- ソーシャルネットワークを活用した新しい販売方法であり，その設計は経済学とネットワーク科学において重要である。
- 既存のメカニズムは，インセンティブ整合性，収益性，効率性のバランスを取るのが困難であった。
- パスグラフ及び一般的なネットワーク構造における，より優れたメカニズム設計を提案し，その特性を保証すること。
- 提案する確率的拡散メカニズム(PDM)は，パスグラフにおいてインセンティブ整合性，非負の収益，近似効率を同時に満たす。
- PDMを拡張したf-PDMは，一般的なネットワーク構造においても主要な特性を維持し，さらに幅優先順序を満たす場合はシビル耐性を保証する。
- 複数単位の拡散オークション向けにMulti-Unit PDM (MUPDM)を設計し，近似効率とインセンティブ整合性を実現，シビル攻撃への耐性も強化する。
Link: https://arxiv.org/abs/2605.17221
自動子宮頸がん分類のためのVision Transformerの系統的評価：最適化，統計的検証，臨床的解釈可能性 [cs.CV, cs.AI]目的：子宮頸がんスクリーニングの自動化におけるVision Transformerの性能向上
- 子宮頸がんの早期発見は，女性の健康維持において極めて重要である。
- 熟練した専門家の不足や，検査のばらつきが課題となっていた。
- Vision Transformerを用いて，より正確で解釈可能な自動診断システムの構築を目指す。
- ViT-Tinyアーキテクチャの最適化により，交差検証精度94.9%-95.2%を達成した。
- 水平方向のフリップとクラス重み付け（0.7 x 1.3）が最も効果的な戦略であることが判明した。
- Grad-CAM分析により，モデルの注意が臨床的に関連性の高い細胞構造に集中していることを確認した。
Link: https://arxiv.org/abs/2605.17236
画像から動画への拡散モデル：基礎から新たな地平へ [cs.CV]目的：画像から動画生成に関する拡散モデルの体系的分析と分類
- 動画生成技術は，エンターテイメントやコンテンツ制作において重要な役割を担う。
- 既存研究は，動画生成全体の一部として扱われ，画像から動画生成に特化した分類や分析が不足している。
- 画像から動画生成の技術的課題を整理し，今後の研究開発の方向性を示す。
- 本研究では，画像から動画生成のタスク設定，モデル構造，データセット，評価指標を包括的にレビューした。
- 既存手法を，アーキテクチャと学習パラダイムに基づく分類体系を用いて整理した。
- 条件エンコーディング，時間的モデリング，ノイズ事前分布設計，空間的・時間的アップサンプリングという4つの主要な設計要素を抽出した。
Link: https://arxiv.org/abs/2605.17248
単眼深度知覚の向上：ジョイントシェーディング/コントラストモデルと運動視差に基づく手法 [cs.CV, cs.GR]目的：単眼深度知覚の向上
- 人間の視覚において，奥行き知覚は重要な役割を果たす。
- 従来の立体視3D表示は特殊なデバイスが必要で，疲労も問題となる。
- 本研究は，特別なデバイスなしに単眼での奥行き知覚を改善する。
- 提案手法JSMは，2Dおよび3Dディスプレイ両方で奥行き知覚を向上させる。
- 定量的評価，消去実験，主観的評価により，JSMの有効性が実証された。
- JSMは，奥行きボリュームと範囲の知覚を著しく改善する。
Link: https://arxiv.org/abs/2605.17252
LiteFrame：効率的なビジョンエンコーダがビデオLLMのフレームスケーリングを可能にする [cs.HC, cs.CV]目的：ビデオLLMにおける長い形式のビデオの処理能力向上
- ビデオLLMは，映像理解において大きな可能性を秘めているが，計算コストが課題となる。
- 既存手法では，視覚トークンの数を減らすことで計算量を削減するが，エンコーダの処理時間がボトルネックとなる。
- LiteFrameは，計算効率の高いエンコーダを開発し，より多くのフレームを処理することで，ビデオ理解の精度向上を目指す。
- LiteFrameは，InternVL3-8Bと比較して，エンドツーエンドのレイテンシを35%削減し，8倍多くのフレームを処理可能である。
- 圧縮トークン蒸留（CTD）と言語モデル適応（LMA）を組み合わせることで，精度と効率の両立を実現した。
- 固定された計算資源下で，より長い形式のビデオ理解が可能になる新たな道を示す。
Link: https://arxiv.org/abs/2605.17260
EgoIntrospect：ユーザー中心の内部状態推論のための自己中心的データセットとベンチマーク [cs.IR, cs.CV]目的：ユーザーの内部状態推論
- AIアシスタントのシームレスな体験には，ユーザーの内部状態の理解が不可欠である。
- 既存の自己中心的ビデオデータセットでは，ユーザーの内部状態の理解が十分に進んでいない。
- 自己中心的観察からユーザーの内部状態を推論する能力を評価するためのベンチマークを構築すること。
- EgoIntrospectは，ユーザー主導のシナリオで収集された，ユーザーのAIアシスタントとのインタラクティブな意図を明示的に示す自己注釈付きのデータセットである。
- このデータセットは，ビデオ，音声，視線，動き，生理学的信号を同期して記録しており，60人の被写体から合計180時間の記録が含まれる。
- 実験の結果，既存のマルチモーダル大規模言語モデルは，ユーザーの主観的な内部状態を推論する上で，マルチモーダル信号を効果的に活用するのに苦労していることが示された。
Link: https://arxiv.org/abs/2605.17262
VLA推論の忠実性は信頼できるか？因果連鎖の安全性の検証 [cs.IR, cs.AI, cs.CV, cs.RO]目的：VLA（視覚-言語-行動）運転モデルにおける忠実性の体系的な研究
- 自動運転技術の安全性向上は，社会実装における喫緊の課題である。
- VLAモデルの推論過程の透明性と信頼性が担保されていない。
- VLAモデルの推論の忠実性を評価し，安全性を高めるための設計指針を示す。
- VLAモデルの出力される自然言語による理由付けは，現実の状況と一致しない場合が多いことが示された。
- 推論の忠実度は平均42.5%であり，歩行者検出の誤りや，わずかな視覚的摂動に対する軌道の不安定性などが確認された。
- 推論と行動の一貫性は平均48.3%にとどまり，停止を主張しながらも継続してしまうケースも多く見られた。
Link: https://arxiv.org/abs/2605.17268
構造を意識したシーンテキスト追跡フレームワーク：検出を超えて [cs.CV]目的：シーンテキスト追跡のための構造を意識したフレームワークの提案
- 動画中のテキストは，セグメンテーションや編集など動的な操作に不可欠であり，その重要性は高い。
- 汎用的な物体追跡手法はシーンテキストに対して性能が低下し，専用の追跡手法が求められている。
- 視点による幾何学的歪み，視覚的曖昧性，微細な構造的詳細への敏感さという課題を解決する。
- 提案手法SymTrackは，交差エキスパートキャリブレーションと予測トークン修正機構を組み合わせた検出不要の統一的なフレームワークである。
- SymTrackは，動画テキストスポット検出のデータセットを用いて構築された新しいベンチマークにおいて，最先端の性能を達成した。
- BOVTextSOTにおいて，既存の追跡手法を最大11.97\% AUC上回る結果が得られた。
Link: https://arxiv.org/abs/2605.17270
CLAP：エンドツーエンド自動運転のためのコントラスト潜在空間プロンプト最適化 [cs.CV, cs.AI, cs.LG, cs.RO]目的：稀少かつ安全上重要な状況における自動運転システムの計画性能向上
- 自動運転技術は，交通渋滞の緩和や事故の削減に貢献し，社会に大きな変革をもたらす可能性を秘めている。
- 既存の自動運転システムは，一般的な走行状況には対応できるものの，稀な状況や複雑な状況に対する脆弱性が課題である。
- 本研究は，データ拡張やモデル学習だけでは解決できない，稀少な状況に対する自動運転システムの適応能力向上を目指す。
- CLAPは，V2X通信を活用し， crowdsourced dataから最適化されたソフトプロンプトにより，凍結されたVLAドライビングモデルを拡張する。
- 潜在空間におけるコントラスト学習と方向性正則化プロンプト最適化により，難しいシーンの性能を向上させながら，通常のシーンの性能を維持する。
- NAVSIMベンチマークにおいて，CLAPは難しい状況における計画エラーを24％削減し，通常のフレームに対する性能劣化は見られなかった。
Link: https://arxiv.org/abs/2605.17284
HyperVision：チャネル適応型地上ハイパースペクトルビジョン事前学習バックボーン [cs.CV]目的：地上ハイパースペクトルビジョンの汎用的な知覚の実現
- ハイパースペクトル画像は精密な物質識別を可能にするが，地上ベースの事前学習バックボーンは存在しなかった。
- センサーの多様性，ラベルの不足と不整合，データセットの規模と多様性の限界が課題となっていた。
- 異なるセンサー構成下での汎化性能を高め，ハイパースペクトルビジョンの認識精度向上を目指す。
- HyperVisionは，異種入力のチャネル適応型動的埋め込み機構により，統一されたトークン空間へマッピングを実現した。
- SAM2とHyperFreeからの情報を融合する多源性疑似ラベル手法により，ラベルの不足と不整合の問題に対処した。
- RGB画像モデルからの知識蒸留により，データセットの規模と多様性の制約を克服し，高い汎化性能を実証した。
Link: https://arxiv.org/abs/2605.17286
LISA：言語誘導による干渉認識空間周波数注意機構を用いた運転者の視線推定 [cs.CV]目的：運転者の視線推定における精度向上とロバスト性の強化
- 運転者の注意状態を評価する上で，視線推定は不可欠な要素である。
- 従来の空間領域モデルは，照明変化やノイズに弱く，視線情報と無関係な視覚的特徴を分離することが困難である。
- 周波数領域の事前知識と視覚言語知識を統合することで，より安定かつ正確な視線推定を実現する。
- 提案手法LISAは，空間周波数注意機構と双領域融合メカニズムにより，高周波詳細と低周波セマンティクスを統合する。
- トレーニング時にCLIPエンコーダと直交正則化を用いることで，視線特徴と外観干渉を明示的に分離し，曖昧さを低減する。
- 2つのベンチマーク実験において，LISAは最先端の性能を達成し，遮蔽や照明変化に対するロバスト性が大幅に向上した。
Link: https://arxiv.org/abs/2605.17287
HierEdit：領域認識階層的拡散による効率的な高解像度編集 [cs.RO, cs.MA, cs.CV]目的：高解像度画像編集の効率化
- プロフェッショナルおよびクリエイティブな応用において，高解像度画像編集は不可欠である。
- 既存の拡散ベースの画像編集手法は，計算コストが高く，解像度に制約がある。
- 高解像度画像の編集を，効率的かつスケーラブルに行うことを目指す。
- HierEditは，領域認識階層的拡散フレームワークにより，高解像度画像編集を効率化する。
- 低解像度プロキシで編集を行い，修正領域を特定し，高解像度画像に対して局所拡散モデルを適用する。
- これにより，4K解像度までの高速かつ高品質な編集が可能となり，専用の高解像度学習データは不要である。
Link: https://arxiv.org/abs/2605.17294
LongDPM：長尺単眼動画からのオーバーラップを考慮した4D再構成 [cs.RO, cs.CV]目的：長尺単眼動画からの動的3Dシーン再構成
- ロボット工学や拡張現実など，現実世界とのインタラクションにおいて，正確な3D環境理解が不可欠である。
- 既存手法は，再構成の局所性と長尺動画における一貫性の維持という課題を抱えている。
- オーバーラップを考慮したフレームワークにより，長尺動画における高精度な3D再構成とトラッキングを実現する。
- LongDPMは，動画をオーバーラップするチャンクに分割し，メモリ使用量を抑制しながら処理する。
- チャンク間の座標系を，静的要素を考慮したオーバーラップ抽象化を用いて接続することで，長尺動画全体の一貫性を保つ。
- PointOdyssey，Kubric-F，Kubric-Gにおいて，既存手法を上回る再構成・トラッキング性能，およびTUM-dynamicsにおけるカメラ姿勢推定精度を達成した。
Link: https://arxiv.org/abs/2605.17303
スタイルテキスト：スタイル保持型シーンテキストインペインティングのための大規模データセットとベンチマーク [cs.CV, cs.AI]目的：スタイル保持型シーンテキストインペインティングのための大規模データセットおよびベンチマーク
- 画像編集技術の発展は，現実世界の多様なシーンを自然に再現する上で重要である。
- 既存のデータセットでは，シーンの文脈を考慮したテキストの自然な補完が困難であった。
- シーンのスタイルを維持しつつ，局所的なテキストのインペインティングを評価するための基盤を構築する。
- StyleTextデータセットは，28,518組の画像・マスク・プロンプトの組を含み，シーン文脈下でのテキスト可読性と視覚的一貫性の評価を可能とする。
- 提示された評価プロトコルとFluxFill+LoRAベースラインにより，大幅なOCR精度の向上とシーンスタイルの維持が確認された。
- 本研究は，今後のシーンテキストインペインティング技術の比較評価のための強力な基準点を提供する。
Link: https://arxiv.org/abs/2605.17309
注意の乗っ取り：ビジョン言語モデルにおけるクエリを跨いだ応答操作 [cs.CV, cs.AI]目的：ビジョン言語モデルにおけるクエリを跨いだ応答操作
- ビジョン言語モデルは画像とテキストを理解し，高度なタスクをこなすため，その信頼性確保が重要である。
- 既存の攻撃手法はクエリが変わると効果が低下し，汎用性に課題があった。
- クエリに依存せず，様々な状況下で応答を操作する攻撃手法を開発すること。
- 提案手法「Attention Hijacking」は，画像への注意を強く誘導することで，クエリの変化に対する応答操作の安定性を高める。
- 多様なターゲット応答や未見のクエリに対しても，高い応答操作の転移性を実現した。
- 本研究は，ビジョン言語モデルにおける注意の安定性が，応答操作の転移性に重要な役割を果たすことを示唆する。
Link: https://arxiv.org/abs/2605.17310
SpecSem-Net：スペクトル特徴と意味特徴の統合による堅牢なAI生成動画検出 [cs.CV]目的：AI生成動画の堅牢な検出
- AI生成技術の急速な進歩に伴い，偽情報の拡散を防ぐため，生成動画の識別が重要になっている。
- 既存の検出器は，意味特徴に過度に依存し，微細なスペクトルアーチファクトを見過ごしている。
- 高精度なAI生成動画を，スペクトルと意味特徴を統合して検出することを目指す。
- 提案手法SpecSem-Netは，意味に基づいたスペクトルノイズ除去メカニズムを導入することで，高画質なAI生成動画の検出性能を向上させた。
- 構築したベンチマークにおいて，87.25%の精度を達成し，既存手法を上回る性能を示した。
- 公開データセット上でも95.59%の高い精度を達成し，堅牢な検出能力を証明した。
Link: https://arxiv.org/abs/2605.17311
VISTA：拡散Transformerを用いたトリプレット教師あり動画スタイル変換 [cs.CV]目的：動画のスタイル変換手法
- 動画編集やコンテンツ制作において，多様な視覚表現を可能にする技術として重要である。
- 動画のスタイル変換では，時間的な一貫性を保つことが難しく，不自然な揺れやちらつきが生じやすい。
- 大規模なトリプレットデータと，スタイル・コンテンツ・モーションを同時にモデル化する訓練方法を確立し，時間一貫性の問題を解決する。
- 提案手法VISTAは，1000種類のスタイルとモーションを組み合わせた合成データセットVISTA-1000を活用する。
- 拡散Transformerと軽量なスタイルアダプターを用いることで，ロバストなスタイル抽出を実現した。
- 実験により，スタイル再現性，時間一貫性，コンテンツ保持において，最先端の性能を示すことが確認された。
Link: https://arxiv.org/abs/2605.17312
単眼ビジュアル・インシャル航法システムにおけるフィードフォワード3Dモデルを用いた効率的な特徴量不要初期化 [cs.RO, cs.AI, cs.CV]目的：単眼ビジュアル・インシャル航法システムにおける初期化の成功率向上
- 単眼ビジュアル・インシャル航法システムは，ロボットの自律移動に不可欠な技術である。
- 従来の初期化手法は特徴点追跡に依存し，計算コストが高く，環境に左右されやすい。
- フィードフォワード3Dモデルを活用し，特徴点追跡を不要とした効率的な初期化手法を開発する。
- 提案手法は，90％を超える高い成功率を達成し，初期化に必要なデータ時間を大幅に短縮した。
- 特に，従来の技術が失敗しやすい視覚的に劣悪な環境においても堅牢な性能を発揮した。
- フィードフォワード3Dモデルによる点群を用いることで，システム複雑性を低減し，初期化の信頼性を高めた。
Link: https://arxiv.org/abs/2605.17327
具現知能における触覚に基づくマルチモーダル融合：視覚，言語，接触駆動パラダイムの調査 [cs.RO, cs.CV, eess.SP]目的：マルチモーダル触覚融合の研究動向の包括的な調査
- 具現知能において，触覚は接触形状や物性，相互作用のダイナミクスを直接的に捉える上で不可欠である。
- 単一の触覚知覚は空間的なカバー範囲が狭く，グローバルな意味的文脈に乏しいという限界がある。
- 本研究は，分散したデータセット，センシングモダリティ，タスク間の断片化を解消し，統一的な理論的枠組みを提供する。
- 本論文では，マルチモーダルデータセットとマルチモーダル手法の二つの主要な次元で分野を整理する階層的タクソノミーを提案する。
- 触覚，視覚，言語間の双方向翻訳に焦点を当てたクロスモーダル生成，フィードバック制御と言語誘導操作を重視したマルチモーダルインタラクションを３つの柱とする。
- 代表的な触覚センシングハードウェアや評価指標を概説し，現在の課題と将来の展望について議論する。
Link: https://arxiv.org/abs/2605.17336
クロスモーダル意味的アライメントによる視覚言語モデルに対するシングルサンプルブラックボックスメンバーシップ推論攻撃 [cs.CV, cs.AI]目的：視覚言語モデルのトレーニングデータに含まれていたかどうかの判定
- 視覚言語モデルは性能向上しているが，大規模データセットに依存し，意図せぬトレーニングデータの記憶がデータセキュリティリスクとなる。
- 既存のメンバーシップ推論攻撃は，内部情報へのアクセスが必要な場合や，大量の統計的分布に依存し，単一サンプルでは困難である。
- クロスモーダル意味的アライメントの観点から，メンバー画像における画像とキャプションのアライメントの強さを利用し，単一サンプルでも判定可能にする。
- 提案手法は，画像とキャプションの共同埋め込み空間におけるアライメントを定量化することで，厳密なブラックボックスかつシングルサンプル環境下での攻撃を実現する。
- VL-MIA/Flickerデータセットにおいて，LLaVA-1.5に対してAUC0.821を達成し，既存手法を大幅に上回る性能を示す。
- 様々な画像摂動に対してもロバストであり，実用性も高い。
Link: https://arxiv.org/abs/2605.17341
GraphMAR：空間適応型CT金属アーチファクト軽減のための形状を考慮したグラフ学習フレームワーク [cs.CV]目的：CT金属アーチファクト軽減の性能向上
- CT画像は診断に不可欠だが，金属インプラントなどが深刻なアーチファクトを引き起こす。
- 従来の画像領域法では，正確なアーチファクト局在化が難しく，性能が制限される。
- グラフ構造を用いて，画像領域内で金属によるアーチファクトを明示的に特定・軽減することを目指す。
- GraphMARは，金属マスクから幾何学的グラフを構築し，アーチファクトが発生しやすい領域を粗く局在化する。
- グラフルーティングによる混合エキスパートモジュール(GraphMoE)を用いて，特徴空間で極座標アーチファクトグラフを構築し，空間領域に適応的にルーティングする。
- シミュレーションと実際のデータセットにおいて，既存手法と比較して優れたMAR性能を示すことが確認された。
Link: https://arxiv.org/abs/2605.17343
VoxShield：周波数認識型スライス間擾乱による3D医療データセットの不正学習からの保護 [cs.CV]目的：3D医療画像セグメンテーションデータセットの不正なAIモデル学習からの保護
- 臨床研究の加速に貢献する3D医療データセットの公開は，AI技術の発展に不可欠である。
- 公開データセットは，意図しないAIモデルの学習や悪用といったリスクを伴う。
- 3D構造に着目し，スライス間の連続性を破壊することで，効果的な保護を実現する。
- VoxShieldは，隣接スライス間の周波数の一貫性を損ない，3Dネットワークの空間集約プロセスを阻害する。
- BraTS19およびFLARE21データセットにおいて，セグメンテーション性能を大幅に低下させることを確認した（DSCをそれぞれ80.0%からほぼ0.0%，88.6%から6.8%へ）。
- 視覚的な品質を維持しつつ，わずかな摂動（$\epsilon=4/255$）で効果的な保護を達成する。
Link: https://arxiv.org/abs/2605.17345
年齢推定モデルは生体データを処理しない [cs.CY, cs.CV, cs.LG]目的：年齢推定モデルにおける生体データ処理の有無
- 顔認識技術の発展に伴い，プライバシー保護の重要性が増している。
- 年齢推定モデルが個人識別能力を持つ場合，法規制に抵触する可能性がある。
- 年齢推定モデルが生体データを処理しないことを実証し，法規制の明確化を促す。
- 14のモデルを3つの顔認証ベンチマークで評価した結果，年齢推定モデルは個人識別閾値を大幅に下回った。
- 年齢推定モデルは個人を特定できないことが示された。
- 研究者に対し，システムが保存・実行可能なことの透明性確保を求め，規制当局に対し，一時的な処理とテンプレート保存の区別を促す。
Link: https://arxiv.org/abs/2605.17347
単眼3D手形状再構成のための事前幾何学的知識の活用：GeoHand [cs.CL, cs.NI, eess.SP, cs.CL, cs.CY, cs.CV]目的：単眼画像からの3D手形状再構成における精度向上
- 3D手形状再構成は，ロボティクスやVR/AR等の応用において不可欠な技術である。
- 単眼画像からの再構成は，自己遮蔽や物体との接触により，曖昧性が生じやすい。
- 既存の幾何学的知識を効率的に活用し，再構成精度を向上させる。
- GeoHandは，事前学習済みの幾何学推定器から高品質な幾何学的知識を活用するフレームワークである。
- 空間特徴を再調整するGeoAdapterと，RGB画像特徴との効果的な統合戦略により，再構成精度が向上する。
- キーポイントに基づいた反復的なリファイン手法により，局所的な関節の正確な表現を実現した。
Link: https://arxiv.org/abs/2605.17354
UniPPTBench：多様な入力設定におけるプレゼンテーション生成のための統一ベンチマーク [cs.CV]目的：多様な入力設定におけるプレゼンテーション生成のための統一的な評価基準
- プレゼンテーション生成技術は，情報伝達の効率化に不可欠であり，その重要性は増している。
- 既存研究では，特定の入力形式に偏っており，実世界のような多様な状況に対応できていない。
- 異なる入力設定に対応可能で，より現実的な評価を行えるベンチマークの構築が求められている。
- UniPPTBenchは，曖昧なプロンプト，長文，マルチモーダル資料，複数ソースという4つの代表的な入力設定に対応する。
- UniPPTEvalという，設定に特化した評価プロトコルを導入し，クロス設定比較と各設定の要件に応じた評価を可能にした。
- 実験により，入力設定ごとに性能に大きな差があり，コンテンツの根拠付け，マルチモーダル統合，複数ソースの合成に課題があることが示された。
Link: https://arxiv.org/abs/2605.17356
オムニ・デュプレックス評価：リアルタイム双方向全モーダルインタラクションの評価 [cs.CL, cs.CV]目的：リアルタイム双方向全モーダルインタラクションの体系的な評価
- 現実世界でのAIシステムには，継続的な入力処理と適切なタイミングでの応答が不可欠である。
- 既存のMLLMはオフライン評価が主流であり，リアルタイム双方向インタラクションの評価が不十分である。
- リアルタイム双方向インタラクションの評価のための包括的なベンチマークを構築し，自動評価手法を開発する。
- 本研究では，リアルタイム双方向インタラクションを評価するためのベンチマーク「Omni-DuplexEval」を提案した。
- このベンチマークは，リアルタイム記述とプロアクティブなリマインダーという2つのシナリオで構成され，9つのタスクを含む660本の動画データを用いて評価する。
- 実験の結果，最先端のデュプレックスMLLMでも全体的なスコアは39.6%に留まり，プロアクティブなリマインダーでは20.0%であった。
Link: https://arxiv.org/abs/2605.17360
チャットベース画像検索のためのメモリアウグメントされたクエリ意図理解 [cs.CL, cs.IR, cs.CV]目的：チャットベース画像検索におけるクエリ意図の動的な理解と更新
- 従来の画像検索では困難だった，対話を通じて意図を明確化し，より的確な検索を実現する。
- 既存手法は計算コストが高く，対話が進むにつれて意図表現が一貫性を失う可能性がある。
- メモリアウグメントによる効率的な意図更新フレームワークで，上記問題を解決する。
- MAQIUは，対話におけるクエリ意図のセマンティック表現を動的に集約・進化させる軽量な記憶モジュールを導入した。
- 記憶想起メカニズムにより，意図の忘却を防ぎ，長期的なセマンティック整合性を向上させた。
- 過去の画像検索結果を視覚的なガイダンスとして統合し，ラウンド間の相関を強化し，視覚理解を洗練させた。
Link: https://arxiv.org/abs/2605.17365
データトライアルとタスク障壁の架け橋：スケッチ生体識別を 위한 統一フレームワーク [cs.IR, cs.CV]目的：スケッチ生体識別のための統一モデルの継続的な訓練
- 顔認識など異種データを用いた識別技術は，セキュリティ分野で重要性が増している。
- スケッチデータは入手が困難で，プライバシーリスクも高く，汎化性能も課題である。
- 複数のスケッチ生体識別タスクを単一モデルで効率的に処理することを可能にする。
- 効率的な合成スケッチ生成パイプラインを設計し，大規模で高品質なデータを生成することに成功した。
- タスク逐次継続学習戦略を採用した統一フレームワークを構築し，既存の手法を凌駕する性能を示した。
- 大規模なベンチマークデータセットSketchUnified-BioIDを構築し，実用的な評価プロトコルを整備した。
Link: https://arxiv.org/abs/2605.17367
RadGenome-Anatomy：物理的根拠に基づいたボリューム投影による大規模解剖学的ラベル付き胸部X線画像データセット [cs.CV]目的：大規模解剖学的ラベル付き胸部X線画像データセットの構築
- 胸部X線画像は診断において不可欠であり，病変検出や定量化に重要な役割を果たす。
- 2D画像への解剖学的構造の直接的なアノテーションは労力がかかる上に曖昧になりやすい。
- 3Dボリューム空間でのアノテーションを活用し，大規模かつ信頼性の高いデータセットを構築すること。
- RadGenome-Anatomyは，25,692件の研究から210の解剖学的構造に対して1000万以上のセグメンテーションマスクを含む，最大のデータセットである。
- 3D CTボリュームからの投影により，2D画像のアノテーションの曖昧さを軽減し，解剖学的構造の正確な表現を可能にした。
- XAnatomyを用いた実験で，心拡大症，後弯症，側弯症の診断精度がそれぞれ96.4％，95.6％，89.2％を達成した。
Link: https://arxiv.org/abs/2605.17368