arXiv雑要約

画像・音声 - 2026/05/27 公開

脳，行動，AIにおける表現の根底にある主要な次元の解明 [cs.CV, q-bio.NC]目的：表現の根底にある次元の抽出と理解
- 脳科学，心理学，AIなど幅広い分野で表現の研究が重要視されている。
- 既存手法では，表現を特徴付ける次元へのアクセスが限られ，解釈が困難である。
- 表現の次元を抽出し，理解を深めるための汎用的な手法を提供する。
- Similarity-Based Representation Factorization (SRF) が，様々なデータから解釈可能な次元を抽出できることが示された。
- SRFによって得られた次元は，タスク特化型モデルの結果と一致し，行動特性を予測できる。
- SRFは，表現の次元を明らかにし，活用するための汎用的な手法として確立された。
Link: https://arxiv.org/abs/2605.26921
テキスト画像拡散モデルを活用した教師なし視覚オブジェクト追跡 [cs.DC, cs.NI, cs.CV]目的：教師なし視覚オブジェクト追跡手法の開発
- 視覚オブジェクト追跡は，ロボティクスや監視システム等，幅広い応用分野で不可欠な技術である。
- 既存の教師なし追跡手法は，動画フレーム内の意味的・視覚的構造の理解が求められる場合に苦戦することがある。
- テキスト画像拡散モデルの持つ豊かな意味知識を用いて，より高精度な追跡を実現すること。
- 提案手法は，テキストと画像の間の橋渡し役として拡散モデルを再解釈し，クロスアテンション機構を活用している。
- 初期プロンプト学習器とオンラインプロンプト更新器の2つのコンポーネントから構成され，追跡対象のプロンプトを生成・洗練させる。
- ６つの追跡データセットでの評価により，提案手法の有効性が実証された。
Link: https://arxiv.org/abs/2605.26933
把持のための物体姿勢と形状推定：有効か？ [cs.RO, cs.CV]目的：物体姿勢と形状推定の有効性評価
- ロボットの自律的な物体把持は，様々なタスクの自動化に不可欠である。
- 既存の物体姿勢と形状推定手法は，複雑な環境下で性能が低下することが課題である。
- 物体姿勢と形状推定の精度向上と，把持性能への貢献を検証する。
- 提案手法は，エンドツーエンドの把持合成手法と比較して，全般的に良好な結果を示した。
- 特に小型物体に対して，エンドツーエンド手法が失敗する状況でも，提案手法は有効な把持を生成できる。
- 姿勢と形状推定の精度が，把持性能に大きく影響し，特に密集したシーンにおいては課題が残る。
Link: https://arxiv.org/abs/2605.26944
DinoComplete：蒸留された意味的事前知識と状態空間モデルを用いた3D形状補完 [cs.CL, cs.CV, cs.GR]目的：未視カテゴリおよびノイズの多い現実世界の観測における3D形状補完の性能向上
- 3D形状認識は，ロボット工学，コンピュータビジョン，AR/VRなど多岐にわたる分野で不可欠な技術である。
- 部分的スキャンからの形状補完は，形状情報のみでは構造の推論が難しく，特に未知のカテゴリで課題となる。
- 視覚的基盤モデルから蒸留した意味的事前知識を用いて，3D形状補完の汎化性能とロバスト性を向上させる。
- DinoCompleteは，DINO特徴から蒸留された意味的事前知識を組み込むことで，従来の補完手法よりも高い補完品質を達成した。
- パラメータ数，メモリ使用量，推論速度の面でも優れており，効率的な長距離推論を実現するマルチスケールボクセルMambaモジュールを導入した。
- ShapeNetおよびScanNetデータセットにおける実験により，未知のカテゴリや現実世界のデータに対する汎化性能が示された。
Link: https://arxiv.org/abs/2605.26949
CodecCap：高忠実度コーデックに着想を得た，密な動画キャプションのための残差モデリング [cs.NI, cs.DC, cs.CY, cs.CV]目的：高忠実度な密な動画キャプション生成
- 動画理解と自然言語処理の融合は，人間と機械のコミュニケーションを豊かにする上で重要である。
- 既存手法では，視覚的忠実度と冗長性のバランスが課題であり，詳細な情報の欠落や過剰な記述が生じている。
- 動画の重要な視覚的証拠を保持しつつ，冗長な記述を削減することで，高忠実度なキャプション生成を目指す。
- CodecCapは，動画をキーフレームと残差キャプションで表現することで，視覚的忠実度と冗長性のバランスを改善する。
- VidCapQAベンチマークを用いて評価した結果，既存のVLMによるキャプションは視覚的詳細を多く見逃していることが示された。
- CodecCapは，既存のVLMと組み合わせることで，大幅な性能向上を達成し，キーフレーム-残差キャプションの有効性を示した。
Link: https://arxiv.org/abs/2605.26967
PashtoTTS-Bench: 低リソース非ラテン文字言語のテキスト読み上げの自動スクリーニング [cs.CL, cs.SD]目的：低リソース非ラテン文字言語におけるテキスト読み上げ（TTS）の自動スクリーニング手法
- 言語資源の少ない言語へのTTS技術の適用は，グローバルな情報アクセスを促進する上で重要である。
- 既存のTTS評価指標は，非ラテン文字言語においては，音声の欠落や言語の誤りなど，十分な評価が困難である。
- 多角的な評価指標を用いて，TTSシステムの性能をより正確に評価し，改善点を発見すること。
- 新たにINSV（明瞭度，自然度，文字忠実度，検証）という評価フレームワークを提案し，TTSの問題点を分類した。
- PashtoTTS-Benchを用いて，パシュトゥー語TTSの性能を評価した結果，OmniVoice autoが最も低いWER（単語誤り率）を示した。
- Whisper Large V3はパシュトゥー語の音声ラベルを誤認識し，言語識別の課題を示唆した。
Link: https://arxiv.org/abs/2605.26978
ビジョン言語モデルにおける機械的アンラーニングの頑健性について [cs.RO, cs.CV]目的：ビジョン言語モデルのアンラーニング手法の頑健性分析
- 近年，ビジョン言語モデルの発展は目覚ましいが，学習データ由来の不要な情報の記憶が課題となっている。
- 既存のアンラーニング手法は，対象知識の完全な削除ではなく隠蔽に留まる場合が多い。
- マルチモーダル知識の再活性化を防ぎ，より信頼性の高いアンラーニング戦略を確立すること。
- 本研究では，既存の多くのアンラーニング手法が，コンテキストプロンプティングや下流タスクの再学習によって脆弱性を持つことを示した。
- 提案する攻撃パラダイムを通して，忘れられたマルチモーダル知識が再活性化される可能性を実証した。
- 現在のビジョン言語モデルのアンラーニング手法の限界と，さらなる信頼性の高い戦略の必要性を明らかにした。
Link: https://arxiv.org/abs/2605.26992
動的チャート理解のためのベンチマークChartAct [cs.CV]目的：動的チャート理解能力の評価
- データ分析や意思決定において，チャートは不可欠なツールである。
- 既存のベンチマークは静的なチャートに偏っており，動的かつインタラクティブなチャートに対応できていない。
- 動的なチャートにおける要素の識別，適切な操作の選択，変化する状態の推論を評価する。
- ChartActは，8つのウェブサイトから収集された673個の動的チャートと1,440個の質問応答サンプルから構成される。
- 最新のマルチモーダルモデル11種とGUIエージェントの評価を行った結果，既存モデルの動的チャート理解には限界があることが示された。
- 最も性能の良いモデルであるClaude-Opus-4.7でも平均成功率は84.5%であり，多くのモデルは60%を下回った。
Link: https://arxiv.org/abs/2605.26994
W4A4量子化のためのタイムステップ認識SVDQuant-GPTQ (Wan2.2-I2V) [cs.CV, cs.AI]目的：大規模ビデオ拡散TransformerのW4A4量子化におけるメモリ削減と性能維持
- ビデオ生成AIの発展に伴い，モデルサイズの効率的な削減が不可欠となっている。
- W4A4量子化では，外れ値アクティベーションやタイムステップ依存性が課題となっていた。
- MoE構造を持つWan2.2-I2Vモデルにおける量子化性能の劣化を抑制すること。
- 提案手法により，ピークGPUメモリ使用量をBF16ベースライン比で59.3％削減した。
- VBench平均スコアは0.9％，画像品質は2.3％の低下にとどめ，高精度な推論を達成した。
- 専門家とタイムステップに配慮したキャリブレーションが，MoEビデオDiTのW4A4推論において重要であることが示された。
Link: https://arxiv.org/abs/2605.27003
画像生成モデルの事前学習データに対するブラックボックスメンバーシップ推論攻撃 [eess.SY, cs.SY, cs.CV, cs.AI]目的：画像生成モデルの事前学習データへの不正利用の検出
- 拡散モデルの急速な進歩に伴い，著作権やプライバシー侵害の懸念が生じている。
- 既存のメンバーシップ推論攻撃は，モデルの記憶力に依存し，事前学習データのような露出の少ないデータでは性能が低下する。
- モデルの内部特徴にアクセスできない状況下で，事前学習データの検出性能を向上させる。
- 本研究では，拡散モデルがターゲット画像と摂動されたテキスト指示をどのように処理するかを分析することで，メンバーシップに関するより明確な手がかりが得られることを示した。
- 提案手法SD-MIAは，クロスモーダルなデータ摂動メカニズムを用いて拡散モデルにおける事前学習データの検出を行う。
- 公開ベンチマークデータセットおよび新規データセットを用いた実験の結果，SD-MIAは既存手法よりも優れた性能を示した。
Link: https://arxiv.org/abs/2605.27020
NeR-SC：ニューラル動画表現を画面コンテンツに適応させる [cs.CV, cs.MM]目的：画面コンテンツ動画に対するニューラル表現の最適化
- リモートデスクトップ等で利用頻度が高く，効率的な圧縮が求められている
- 自然な動画向けに設計された既存手法では，画面コンテンツ特有の統計的性質を活かせない
- 画面コンテンツの特性を考慮したニューラル表現フレームワークを構築し，圧縮性能を向上させる
- NeR-SCは，DSCVCおよびVCDデータセットにおいて，平均PSNRがそれぞれ40.32dB，41.73dBを達成した。
- 既存のニューラル動画表現手法を上回り，低ビットレート時にはH.264/H.265をも凌駕する性能を示した。
- フレームスキップ戦略により，画質を損なうことなくリアルタイムデコードを可能にした。
Link: https://arxiv.org/abs/2605.27024
SCKAN：構造的コンセンサスに基づくKANプロトタイプ学習による半教師あり膵臓セグメンテーション [cs.CL, cs.CV]目的：半教師あり学習を用いた膵臓セグメンテーションの汎化性能向上
- 膵臓癌の早期診断には正確なセグメンテーションが不可欠であり，医療画像解析における重要な課題である。
- 教師あり学習ではアノテーション不足が課題であり，半教師あり学習はそれを解決する手段となる。
- 既存の半教師あり学習法の汎化性能の限界を克服し，教師バイアス問題を解消することを目指す。
- 提案手法SCKANは，サンプル間の構造的コンセンサス学習をKANネットワークを用いて実現し，汎化性能とセグメンテーション精度を向上させた。
- 構造制約プロトタイプ一貫性学習（SPCL）により，バイアスのかからない構造表現を獲得し，サンプル間の整合性を高めた。
- コンセンサスに基づくKolmogorov-Arnold融合（CKaF）により，形状特異的なバイアスを軽減し，ノイズを除去した。
Link: https://arxiv.org/abs/2605.27032
意味を考慮したモーションエンコーディング：トポロジー非依存のキャラクターアニメーション [cs.GR]目的：多様なキャラクター間でのモーション表現の汎化
- キャラクターアニメーションは，ゲームや映画など幅広い分野で重要な役割を担う。
- 異なる構造を持つキャラクター間のモーション共有が困難であり，汎用的なモデル開発の妨げとなっている。
- トポロジーに依存しないモーション表現を学習し，多様なキャラクターへのモーション転送を可能にすること。
- 本研究では，意味的変調機構により関節の機能的対応を整列させることで，モーションとトポロジーを分離するフレームワークを提案した。
- 大規模な未整列のBVHデータから連続的で生成に適したモーション空間を構築できることを示した。
- 人間と動物のデータセットで高い忠実度の再構成が可能であり，ゼロショットのクロス種間リターゲットが可能であることを実証した。
Link: https://arxiv.org/abs/2605.27055
BEAT：エージェントによる音楽誘導型映画予告編生成のためのリズム弾性アライメント [cs.CL, cs.IR, cs.CV]目的：映画予告編生成における，映像ショットの選択と背景音楽との同期
- 映画予告編は，観客の関心を引く重要な要素であり，その自動生成技術は需要が高い。
- 既存手法では音楽と映像の同期が不十分，または融通性に欠ける場合が多い。
- 音楽のダイナミクスに合わせた弾力的な映像ショットと音楽のアライメントを実現する。
- BEATは，MuVAとBar-DPという2つの主要コンポーネントを組み合わせ，音楽と映像のより自然なアライメントを可能にした。
- 学習されたクロスモーダル特徴に基づいてアライメントを行い，構造化されたテキスト信号でクリエイティブな意思決定を調整する，エージェントによる5段階のパイプラインを導入した。
- TrailerArenaというベンチマークデータセットを用いて評価した結果，ショット選択，順序付け，知覚品質において最先端の性能を達成した。
Link: https://arxiv.org/abs/2605.27067
IPIBench：連続ストリーム下におけるMLLMのインタラクティブなプロアクティブ知能の評価 [cs.CV]目的：MLLMのインタラクティブなプロアクティブ知能の評価
- 現実世界では，継続的な視覚入力に対するプロアクティブな推論が求められる。
- 既存のベンチマークは，単一ターンでの反応やプロアクティブなインタラクションに偏っている。
- 動的な複数ターンシナリオ下での，MLLMのプロアクティブな能力向上を目指す。
- 既存のMLLMは，プロアクティブなトリガーの不安定性と，反応型とプロアクティブな行動の連携の弱さが課題である。
- IPIBenchは，プロアクティブな監視，タスク管理，および反応とプロアクティブな要求の組み合わせを網羅する。
- IPI-Agentは，プロアクティブなトリガーの安定化と複数ターンインタラクションの協調を可能にする。
Link: https://arxiv.org/abs/2605.27074
SoftCap：拡散Transformerの加速のためのソフト予算制御 [cs.CV]目的：拡散Transformerの推論における計算コストの制御
- 拡散Transformerは高品質な画像生成が可能だが，計算コストが高いという課題がある。
- 既存手法では，Fullステップ実行の判断が固定スケジュールや閾値に依存し，柔軟性に欠ける。
- キャッシュベースの推論において，動的に計算予算を調整し，効率的な画像生成を目指す。
- SoftCapは，キャッシュリスクを推定するTrajectory Drift Observerと，予算を調整するSoft-Budget PI Controllerを組み合わせる。
- FLUX.1-devデータセットで，SpeCaと同程度の計算量において，ImageRewardを0.967から0.981に，LPIPS-Fullを0.518から0.498に改善した。
- 予算を緩和することで，意図したソフト上限の挙動が確認された。
Link: https://arxiv.org/abs/2605.27075
離散化された部分空間対照学習による半教師あり視線推定 [cs.CV]目的：視線推定の汎化性能向上
- 視線推定は，ヒューマンコンピュータインタラクション等，多様な応用分野で重要性を増している。
- アノテーション付きデータの不足とデータセットの多様性不足が，視線推定の汎化性能を低下させている。
- 教師なしデータを利用し，少ないアノテーションデータでも高い汎化性能を実現する。
- 提案手法DSCLは，既存手法と同等以上の性能を，20%，10%，さらには5%のアノテーションデータのみで達成する。
- DSCLは，特定の視線成分（仰角と水平角など）を識別する部分空間に特徴表現を分離するヤコビアン正則化を用いる。
- 各部分空間内の内在的な順序付けを利用した対照学習により，少ないラベルデータと豊富なラベルなしデータからロバストな視線表現を学習する。
Link: https://arxiv.org/abs/2605.27080
ナッシュ社会厚生関数，予算制約付き配分，GAP問題に対する困難性の改善 [cs.GT, cs.DS]目的：ナッシュ社会厚生関数，予算制約付き配分，GAP問題の近似困難性
- 資源配分は，経済学，計算機科学など幅広い分野で重要な問題である。
- これらの問題はNP困難であり，現実的な時間で最適解を得ることが難しい。
- ユニークゲーム予想を用いて，近似アルゴリズムの限界を示す。
- ナッシュ社会厚生関数の近似比の限界を$\sqrt[3]{\frac{81}{65}} - \varepsilon \approx 1.0761$に改善した。
- 予算制約付き配分の近似比の限界を$\frac{243}{227} - \varepsilon \approx 1.07$に改善した。
- 最大汎用割り当て問題(GAP)の近似比の限界を$\frac{145}{129} - \varepsilon \approx 1.124$に改善した。
Link: https://arxiv.org/abs/2605.27098
ポップアップによる気晴らしがビデオ大規模言語モデルにおけるイベント集合的振る舞いを明らかにする [cs.CV, cs.CL]目的：ビデオ大規模言語モデルにおける主語とイベントの関連性の頑健性評価
- ビデオ理解において，主語とイベントを時間軸に沿って正確に関連付ける能力は不可欠である。
- 現在のビデオ大規模言語モデルが，実際に時間的な構造を理解しているのか疑問視されている。
- ビデオ大規模言語モデルの時間的整合性の欠如を明らかにし，改善策の検討を促す。
- ビデオ大規模言語モデルは，無関係な動画セグメントの影響を受けやすく，誤った主語とイベントの関連付けを行う。
- この現象をイベント集合的振る舞いと定義し，モデルが動画を時間的なシーケンスではなくイベントの集合として処理している可能性を示唆する。
- 評価した11種類のモデル全てに，顕著なイベント集合的振る舞いが確認された。
Link: https://arxiv.org/abs/2605.27101
JLT：潜在拡散Transformerにおけるクリーンな潜在予測 [cs.CV, cs.LG]目的：潜在拡散モデルにおけるクリーンな潜在予測の効果検証
- 画像生成AIの性能向上には，潜在空間における効率的な表現学習が不可欠である。
- 潜在空間においてもノイズ予測が主流だが，その有効性には疑問が残されていた。
- クリーンな潜在予測が，潜在空間における表現力向上に寄与するかどうかを検証する。
- JLTは，FLUX.2 VAEの潜在コード上で優れた性能を示し，FID-50Kスコア2.50を達成した。
- 速度予測と比較して，JLTは目標のずれが少なく，より高品質な画像を生成することが示された。
- 潜在拡散モデルにおける予測ターゲットは，代数的なパラメータ化ではなく，表現に依存した幾何学的な選択であることが示唆された。
Link: https://arxiv.org/abs/2605.27102
エッジ・クラウド連携における自律型フェデレーション市場オーケストレーション [cs.IR, cs.IR, cs.DC, cs.GT, cs.MA, cs.NI]目的：エッジ・クラウド環境における自律的な管理メカニズムの実現
- エッジ・クラウドは，多様なサービスを効率的に提供するための基盤として重要性が増している。
- 従来の集中制御方式では，データ主権の尊重やスケーラビリティに課題があった。
- 分散型の市場メカニズムを用いて，データ主権を尊重しつつ自律的な管理を実現する。
- 提案手法であるNeural Pub/Subは，市場ベースの価格シグナルにより自律的な振る舞いを実現する。
- シミュレーション実験の結果，フェデレーション市場が集中型のオーケストレーターを2-4%上回る性能を示した。
- フェデレーションは，ブローカーの故障やネットワーク分割に対しても高い信頼性を示すことが確認された。
Link: https://arxiv.org/abs/2605.27106
COVD：新規概念注入による継続的なオープンボキャブラリ物体検出 [cs.CV]目的：継続的なオープンボキャブラリ物体検出における新規概念学習の枠組み
- 物体検出は画像認識の基盤であり，様々な応用分野で不可欠な技術である。
- 既存のオープンボキャブラリ物体検出モデルは，新しい概念への適応が困難である。
- 事前学習済みの視覚エンコーダの潜在能力を活用し，効率的な新規概念学習を実現する。
- 本研究で提案するNoIn-Detは，視覚エンコーダを固定し，テキスト表現空間を保持することで，パラメータ増加なしに新規概念を効率的に学習する。
- 実験結果から，NoIn-Detは既存の継続学習手法を上回り，古い知識の保持と新規概念の学習を両立できることが示された。
- 新規概念学習のためのベンチマークNovel-114を新たに開発し，公開する予定である。
Link: https://arxiv.org/abs/2605.27116
境界情報に基づくリアルタイムセマンティックセグメンテーションのためのデータフリー継続学習アプローチ：PILOT [cs.CV, cs.LG]目的：リアルタイムセマンティックセグメンテーションにおける継続学習の実現
- 自動運転やロボティクスなど，動的な環境下でのリアルタイムな画像認識の重要性が増している。
- 深層学習モデルは，新しいクラスを学習する際に過去の知識を忘却し，性能が低下する「破滅的忘却」が課題である。
- 本研究は，データ再利用なしに，新しいクラスを効率的に学習し，破滅的忘却を軽減することを目指す。
- 提案手法PILOTは，新しいクラスの境界情報を捉えるD-branchを導入することで，既存のセグメンテーションネットワークのパラメータを固定したまま適応学習を可能にした。
- 新しいクラスのデータのみを使用することで，学習コストを大幅に削減し，リアルタイム性能を維持しながら高いmIoUを達成した。
- 既存の継続学習アプローチと比較して，PILOTは破滅的忘却を効果的に軽減し，優れた性能を示した。
Link: https://arxiv.org/abs/2605.27128
YOLO26-RipeLoc Lite：温室におけるトマト熟度検出と摘取点特定のための軽量アーキテクチャ [cs.CV, cs.RO]目的：トマトの熟度検出，熟度分類，摘取点特定
- 温室トマト栽培における省力化が喫緊の課題であり，自動収穫システムの開発が求められている。
- 従来の収穫ロボットは，熟度判定の精度や摘取点の特定精度に課題があり，実用化が遅れている。
- 本研究は，軽量かつ高精度な熟度検出と摘取点特定を可能にするモデルを開発し，ロボット収穫の実現を目指す。
- 提案モデルYOLO26-RipeLoc Liteは，mAP@0.5で92.9%という高い精度を達成した。
- 特に熟果の検出精度は95.2%であり，他のモデルと比較しても優れている。
- モデルのパラメータ数は2.38Mと軽量であり，さらなる圧縮も可能である。
Link: https://arxiv.org/abs/2605.27129
画像閾値処理：特定の評価関数に対する評価指標の偏りの理解 [cs.CV]目的：画像閾値処理における評価指標と目的関数の相関分析
- 画像閾値処理は，医療画像からリモートセンシングまで幅広い分野でセグメンテーションに利用されており，その重要性は高い。
- 従来の評価指標は，セグメンテーション品質を客観的に測ると仮定されているが，その妥当性には疑問が残る。
- 本研究は，画像閾値処理の目的関数と品質指標の間の偏りを明らかにし，より公平な評価枠組みの必要性を示す。
- Otsuの基準は，SSIMとPSNRの両方と一貫して高い相関性を示すことが明らかになった。
- Kapurのエントロピーは，相関性が弱く，変動も大きいことが示された。
- 本研究は，評価指標と目的関数の間に存在する偏りを明らかにし，より中立的な評価枠組みの構築を促す。
Link: https://arxiv.org/abs/2605.27132
最新のウォーターマーキング手法はBroken-Arrowsに勝てるか [cs.CR, cs.CV]目的：AI生成画像識別に関するウォーターマーキング手法の比較
- 生成モデルの急速な普及に伴い，AI生成画像の識別が重要になっている。
- 最新手法は誤検知率の低さに重点を置き，実用的な堅牢性・安全性評価が不足している。
- 現実的なシナリオ下での堅牢性と安全性に着目し，古典的手法との比較を行う。
- 実験の結果，古典的なウォーターマーキング手法は，現実的なシナリオにおいて，安全性に関して最新の手法を上回る性能を示した。
- 古典的手法は，最新の手法と同程度の堅牢性を維持しながら，より高い安全性を実現できることが示唆された。
Link: https://arxiv.org/abs/2605.27135
ビジョン言語生成におけるロバストなトークンレベル不確実性のための視覚的シグナルの活用 [cs.CV]目的：ビジョン言語モデルにおけるトークンレベル不確実性の推定改善
- 大規模ビジョン言語モデルの信頼性向上は，現実世界での応用において不可欠である。
- 既存の研究は言語モデリティに偏っており，視覚情報の不確実性への貢献は十分に解明されていない。
- 視覚的根拠に基づく不確実性推定によって，モデルの予測信頼性を高めることを目指す。
- モデルの生成過程における隠れ表現の分析から，確信度の高い予測は不確実な予測よりも視覚情報に強く依存することが示された。
- 提案手法VIG-TUQは，トークンレベルの言語不確実性を視覚的根拠スコアで重み付けすることで，不確実性推定を改善する。
- 多様なアーキテクチャを持つ大規模ビジョン言語モデルにおいて，既存手法と比較して高い性能を示すことが確認された。
Link: https://arxiv.org/abs/2605.27136
画像は16x16=256個の超ピクセルでも価値があるのか？注意メカニズムを用いた画像分類フレームワーク [eess.SY, cs.SY, cs.CV, cs.LG]目的：超ピクセルに基づく画像分類とVision Transformer（ViT）の統合
- 画像認識の分野では，より効率的でロバストな画像表現が常に求められている。
- 従来の超ピクセルベースの手法は，グラフニューラルネットワーク（GNN）に依存しており，ViTと比較して性能が劣ることが課題だった。
- 超ピクセルとViTを組み合わせることで，より高性能かつ汎用的な画像分類モデルを開発することを目指す。
- 提案手法Superpixel Transformers（SPT）は，既存の超ピクセルベースGNN手法を上回る性能を複数のデータセットで示した。
- SPTは，ViTと比較しても遜色ない性能であり，超ピクセル情報がViTの性能向上に貢献することも明らかになった。
- SPTは，超ピクセルベースの手法とTransformerモデルの間のギャップを埋め，新たなハイブリッドな注意メカニズムフレームワークへの道を開く。
Link: https://arxiv.org/abs/2605.27144
カオスSSL：カオス変換を用いたアテンションベースの自己教師あり学習フレームワーク（医用画像分類用） [cs.CV]目的：医用画像分類のための自己教師あり学習フレームワーク
- 医用画像解析において，大規模な注釈付きデータセットの不足が課題であり，自己教師あり学習がその解決策として注目されている。
- 既存の自己教師あり学習手法は，単純な幾何学的・色彩的なデータ拡張に依存しており，微細な病理を分類するための複雑なテクスチャ情報を捉えきれない場合がある。
- 本研究では，カオス写像を用いた複雑な非線形変換により，よりロバストな特徴表現を獲得し，医用画像分類の性能向上を目指す。
- Tent写像を用いて30エポック事前学習し，アテンション融合を行うChaos-SSLモデルは，ISIC 2018で0.9261，APTOS 2019で0.8726の精度を達成した。
- この結果は，既存の自己教師あり学習手法を大きく上回るものであり，最先端技術と同等の性能を示す。
- カオス変換が，微細な医用画像のテクスチャ表現を学習するための有効な方法であることが示唆される。
Link: https://arxiv.org/abs/2605.27146
Touch-R1：MLLMにおける触覚推論の強化 [cs.CY, cs.CV]目的：触覚推論を強化するMLLMの構築
- マルチモーダルモデルの性能向上には，明確な推論能力が不可欠である。
- 既存の触覚言語モデルは，物理的証拠に基づいた予測や誤解を招く視覚情報の修正が困難である。
- 触覚データの特性（順序性，センサー間のばらつき）を考慮した推論能力の向上を目指す。
- 本研究で開発したTouch-R1は，既存モデルOctopi-13BやGPT-4oを平均で大きく上回る性能を示した。
- Touch-R1は，探求，比較，修正といった創発的な行動を示し，物理的接触に基づいた推論が可能であることを示した。
- 触覚情報を活用する報酬関数は，触覚入力の重要性を評価し，モデルの正答率向上に貢献した。
Link: https://arxiv.org/abs/2605.27154
セマンティックなロバスト性プロービング：安全性が重要な物体検出のためのインタラクティブツール [cs.CV, cs.AI]目的：安全性が重要な分野における物体検出のセマンティックなロバスト性評価
- 安全性が求められる分野では，システムの信頼性評価が不可欠である。
- 従来のピクセルレベルの摂動だけでは，セマンティックな意味合いを捉えきれない。
- セマンティックな意味を考慮したプロービング手法を提供し，ロバスト性の評価を支援する。
- SemProbeは，ユーザーが画像をアップロードし，マスクを作成，操作条件を設定することで，セマンティックなロバスト性を評価するツールである。
- 拡散モデルに基づくインペインティングにより，制御された摂動を加え，物体検出モデルの性能変化を可視化する。
- 評価結果は構造化された形式で記録され，安全評価プロセスとのトレーサビリティを確保する。
Link: https://arxiv.org/abs/2605.27155
複雑数値積単位を持つ動的システムのモデル発見 [cs.CV]目的：動的システムのモデル発見
- 複雑なシステムの理解を深める上で，その支配方程式を解明することが重要である。
- 既存手法は事前に候補関数を設定する必要があり，複雑なシステムのモデル発見が困難である。
- データから直接支配方程式を学習することで，複雑なシステムのモデル発見の課題を解決する。
- ロレンツ63，ロレンツ84，Four-Wingアトラクターの90%の試行で，正確な支配方程式を再現できた。
- 分数ロレンツ63の70-90%の試行で支配方程式を再現し，データの学習能力を示した。
- 人間の歩行加速度信号への適用により，安定した軌跡が得られ，高次元システムへの応用可能性が示唆された。
Link: https://arxiv.org/abs/2605.27158
音響デザイナーのワークフローと体験におけるAI統合に関する調査 [cs.CY, cs.DB, cs.SD, cs.AI, cs.CY]目的：音響デザイナーのワークフローと体験におけるAI統合の現状と課題
- 映像作品等の高品質な音響制作は，作品の質を大きく左右するため重要である。
- AI技術は発展しているものの，音響デザイナーのニーズとの間に乖離が存在する。
- 現状の課題を明確にし，より実用的なAIツール開発の方向性を示す。
- 現在のAIツールは，短時間消費型のメディアには適しているが，高度な音響デザインには物語性を欠く。
- 音響デザイナーは，全自動生成システムよりも，特定のタスクを支援するAIツールを好む傾向にある。
- 本研究は，AIツール開発者への推奨事項を通じて，音響デザイン分野におけるAI活用の発展に貢献する。
Link: https://arxiv.org/abs/2605.27174
ラベルなし3Dオブジェクトセグメンテーションのための自己教師あり基盤モデルを報酬として [cs.CV, cs.AI, cs.LG, cs.RO]目的：ラベルなし3Dオブジェクトセグメンテーション手法
- 3Dシーン理解は，ロボティクスや自動運転などの分野で不可欠であり，その精度向上が求められている。
- 既存手法は，十分なオブジェクトの事前知識がないため，複雑なオブジェクトの識別が困難である。
- 自己教師あり学習により得られる事前知識を活用し，ラベルなしでの高精度な3Dオブジェクトセグメンテーションを実現する。
- 提案手法FoundObjは，スーパーポイントベースのオブジェクト検出エージェントと，セマンティックおよび幾何学的報酬モジュールを組み合わせることで，複雑なシーンでもロバストなオブジェクト識別を可能にした。
- 自己教師あり2D/3D基盤モデルからのセマンティックおよび幾何学的情報を活用することで，オブジェクト検出エージェントに相補的なフィードバックを提供し，性能を向上させた。
- 多様なベンチマークでの実験により，既存手法を凌駕する性能と，ゼロショットおよびロングテールシナリオでの高い汎化能力が確認された。
Link: https://arxiv.org/abs/2605.27178
認知能力階層における音声表現：二分法を超えて [cs.RO, cs.CL, cs.CL, cs.LG, cs.SD, eess.AS, q-bio.NC]目的：軽度認知障害における認知機能評価の階層構造と音声表現の関係
- 認知症の早期発見は，適切な治療と生活管理により進行を遅らせることが重要である。
- 従来の認知機能評価は，主観的な判断に依存する部分があり，客観的指標の必要性が高まっている。
- 音声分析による客観的な認知機能評価指標を開発し，早期診断の精度向上を目指す。
- 自己教師あり学習による音声表現は，低い階層での評価において，手動特徴量よりも優れている傾向がある。
- 軽度認知障害の分類においては，この傾向は逆転し，手動特徴量の方が良い結果を示す。
- タスクの制約がパフォーマンスに影響を与え，自由度の高いタスクは階層が上がるほど性能が低下する一方，構造化されたタスクは向上する。
Link: https://arxiv.org/abs/2605.27189
大規模オーディオ言語モデルにおける，聞きながら思考するタイミングの学習 [cs.CL, cs.AI, cs.LG, cs.SD]目的：大規模オーディオ言語モデルにおける，待ち・思考・回答の制御戦略
- 近年の進歩により，音声と言語を同時に処理するモデルが実用化されつつある。
- 応答の質と応答速度のトレードオフが課題であり，早すぎる回答は誤答につながる。
- 音声ストリームの途中で思考を明示的に行うタイミングを学習することで，応答の質と速度を改善する。
- 6つの報酬関数を用いたDAPOコントローラは，合成音声による推論応答タスクで正答率を67.6%から70.3%に向上させた。
- 同様に，最終思考の長さを14%削減することに成功した。
- 実音声データを用いた評価においても，学習されたコントローラは機能し，特にSFTによるものが最高の精度を示した。
Link: https://arxiv.org/abs/2605.27190
全てのトークンが等しく重要ではない：決定的なトークンによる監督を用いた動的な文脈内ベクトル蒸留による長文の医療レポート生成 [cs.CL, cs.CV, cs.LG]目的：長文の医療レポート生成におけるベクトル蒸留の効率化
- 医療レポート生成は，医療現場における効率化に不可欠であり，高品質な自動生成技術が求められている。
- 既存のベクトル蒸留法は，トークン全てを均等に扱うため，長文生成において重要なトークンが適切に学習されない問題がある。
- 決定的なトークンに着目し，トークンごとの重要度を考慮することで，より高品質な医療レポート生成を目指す。
- 提案手法DIVEは，病理関連トークンとEOSイベントに対する監督を強化し，コンテンツの忠実性と終了の学習を改善した。
- DIVEは，状態に応じた動的なステアリングにより，デコーディングのドリフトに対応し，注入信号を適応させた。
- MIMIC-CXRとCheXpert Plusでの実験により，DIVEは様々な評価指標で最先端の結果を示し，高い性能を証明した。
Link: https://arxiv.org/abs/2605.27194
生成アニメーション：プロンプト駆動モーション合成のためのマルチモデルパイプライン [cs.CL, cs.CY, cond-mat.stat-mech, physics.soc-ph, cs.CV, cs.AI]目的：プロンプト駆動モーション合成のためのマルチモデルパイプライン
- デジタルコンテンツにおいて，アニメーションは没入感を高める重要な要素である。
- 従来，モーションパスの作成は手作業が多く，時間と労力を要する。
- 自然言語プロンプトから自動的にモーションパスを生成し，制作効率を向上させる。
- 本システムは，大規模言語モデルと視覚的認識モデルを組み合わせることで，シーンの形状や奥行きを考慮したモーション生成を可能にする。
- 輪郭追跡，軌道アニメーション，変形オブジェクトの視点合わせなど，多様なユースケースで有効性が確認された。
- 自然言語プロンプトからのアニメーション生成という新たな手法を示し，アニメーション制作の可能性を広げた。
Link: https://arxiv.org/abs/2605.27203
大規模な階層型画像生成・編集のためのマスク領域トランスフォーマー [cs.CL, cs.IR, cs.CV]目的：大規模な多層透過画像生成と編集のための技術
- 画像生成・編集は，視覚コンテンツの再利用，編集，合成を可能にする重要な能力である。
- 大規模な階層型画像生成・編集は未だ十分に探求されていない分野である。
- 多層透過画像の生成・編集を効率的かつ高品質に行うことを目指す。
- 本研究では，200億パラメータのマスク領域拡散モデルMRTを提案し，1000万件以上の多言語デザインサンプルで学習した。
- MRTは，テキストからの層生成，画像からの層生成，層からの層生成という3つのタスクを統合し，柔軟な層編集を実現する。
- 拡散蒸留により，高品質を維持しつつ，リアルタイムでの多層生成を可能にした。既存手法や商用システムを大幅に上回る性能を示した。
Link: https://arxiv.org/abs/2605.27235
Retrieval Headは画像を認識できるか？長文コンテキストにおけるビジョン言語モデルのマルチモーダルRetrieval Head [cs.CL, cs.CL, cs.CV]目的：長文コンテキストにおけるビジョン言語モデルのマルチモーダルRetrieval Headの検出と分析
- 近年，ドキュメントや動画など長文データを扱うAIモデルの重要性が増しており，関連情報を効率的に見つける技術が不可欠である。
- 従来のRetrieval Headの評価基準はテキストに特化しており，画像内の証拠を正確に特定することが困難であった。
- 本研究は，画像内の証拠を効果的に検索できるマルチモーダルRetrieval Headを特定し，その役割を明らかにすることを目的とする。
- マルチモーダルRetrieval Headは，全Attention Headのごく一部(4.4-10.2%)に集中しており，その重要性が示された。
- 上位5%のRetrieval Headをマスクすると，MMLongBench-DocとSlideVQAの性能が大幅に低下し，その因果的重要性が確認された。
- Retrieval Headは，モダリティ間で一部共有されつつも，コンテキスト長やデータ形式の変化に応じて動的に変化することがわかった。
Link: https://arxiv.org/abs/2605.27243
転位数確率を持つナッシュ均衡 [cs.GT]目的：一意なナッシュ均衡の存在
- ゲーム理論は，経済学，政治学，生物学など，多様な分野で戦略的相互作用を分析する上で不可欠である。
- 混合戦略ナッシュ均衡の構造，特に確率の代数的性質は未解明な部分が多い。
- 転位数を用いた混合戦略ナッシュ均衡の構成と，その代数的性質の解明を目指す。
- 任意の$n\ge4$に対し，一意な混合戦略ナッシュ均衡を持つ$n$人ゲームの存在が示された。
- 均衡における各確率重みは，転位数$\mathbin{!n}$を次数とする代数的数となることが証明された。
- この最小多項式はガロア群として$S_{\mathbin{!n}}$を持ち，$\mathbin{!n}+1$個の非ゼロ係数を持つ。
Link: https://arxiv.org/abs/2605.27257
PilotTTS：競争力のある音声合成のための規律あるモジュールレシピ [cs.SD, cs.AI]目的：競争力のある音声合成システムの構築手法
- 音声合成は，人間と機械のコミュニケーションにおいて重要な役割を担う技術である。
- 高品質な音声合成システムは，膨大なデータと複雑なアーキテクチャを必要とするため，リソースが限られた研究チームには困難である。
- 本研究は，少ないデータとシンプルな構造で競争力のある音声合成システムを構築することを目指す。
- PilotTTSは，20万時間のデータのみを用いて，高品質な音声合成を実現した。
- Seed-TTS Evalベンチマークにおいて，英語テストでWER 1.50%，中国語テストでCER 0.87%という優れた結果を達成した。
- ゼロショット音声クローニング，感情合成，方言合成など，多様な機能を統合的にサポートする。
Link: https://arxiv.org/abs/2605.27258
多水準画像閾値処理における閾値数と値の発見のための動的計画法フレームワーク [cs.CV]目的：多水準画像閾値処理における適切な閾値数と値の自動決定
- 画像処理技術は，コンピュータビジョンの様々な応用において不可欠な要素である。
- 従来の閾値処理法は，閾値数をユーザーが指定する必要があり，柔軟性に欠ける。
- 入力画像から適切な閾値数を自動的に決定することで，処理の効率化と精度向上を目指す。
- 提案手法は，動的計画法と修正された最小二乗誤差閾値処理（MET）基準に基づき，多水準画像閾値処理を実現する。
- 実験結果から，提案手法は従来の動的計画法よりも高速に処理を完了することが示された。
- ただし，入力閾値数が既知の場合の従来手法の方が，構造的類似性指標（SSIM）およびピーク信号対雑音比（PSNR）の値は高かった。
Link: https://arxiv.org/abs/2605.27287
Gemini Embedding 2：Geminiによるネイティブマルチモーダル埋め込みモデル [cs.CL, cs.IR, cs.CV]目的：動画，音声，画像，テキストといった多様なモダリティを統一的な表現空間に埋め込むこと
- 多様なデータ形式を統合的に理解し処理するAIの重要性が高まっている
- 従来のモデルでは，モダリティごとに最適化されており，相互運用性に課題があった
- 異なるモダリティを統一的に扱える汎用的な埋め込みモデルを開発すること
- Gemini Embedding 2は，多様な組み合わせの入力に対し，優れた汎化性能を示す
- 主要な埋め込みベンチマークにおいて，最先端の性能を達成した (MSCOCOでR@1が62.9，VatexでNDCG@10が68.8など)
- 天文，バイオサイエンス，美術，料理といった専門分野においても高いゼロショット性能を発揮する
Link: https://arxiv.org/abs/2605.27295
家禽の遊び行動の自動分類：PlayClass [cs.CV]目的：家禽における遊び行動の分類パイプライン
- 動物福祉のモニタリングは重要であり，特にポジティブな指標の把握が課題である。
- 遊び行動のようなポジティブな福祉行動は，モニタリング対象として未検討の面が多い。
- 家禽の遊び行動を自動的に分類する枠組みを構築し，動物福祉の評価に貢献する。
- PlayClassパイプラインは，YOLOガイドチャンク境界とSAM3によるトラッキングで識別エラーを最小化する。
- V-JEPA 2.1が他のバックボーンよりも優れた性能を示し，マクロ平均F1スコアで77.0%を達成した。
- データセットは，遊びのサブタイプが類似した運動プロファイルを持つため，依然として分類が難しい。
Link: https://arxiv.org/abs/2605.27304
曲面上の偏微分方程式に対する物理情報ニューラルネットワーク (PINNsur) [cs.GR, cs.NA, math.NA]目的：曲面上の偏微分方程式の解法
- 科学計算や幾何学処理の基礎であり，様々な物理現象のシミュレーションに不可欠である。
- 従来の有限要素法はメッシュ品質に依存し，幾何学的離散化誤差の影響を受ける。
- メッシュフリーなPINNを用いて曲面上の偏微分方程式を安定して解く手法を提案する。
- 曲面の法線ベクトルをニューラルネットワークで近似することで，任意の曲面に対してPINNを適用可能にした。
- PINNの解法において，関数近似の収束性と曲面自体の幾何学的近似の収束性の両方を考慮する必要がある。
- 実験的な収束テストを導入し，曲面上の偏微分方程式に対するPINNの収束特性を評価した。
Link: https://arxiv.org/abs/2605.27308
いかにして何を想像するか？クロスビュー空間推論のための統一マルチモーダルモデルにおける視覚的思考 [cs.CV]目的：クロスビュー空間推論における視覚的思考のメカニズムと効果
- 画像と言語を組み合わせたモデルは，多様なタスクに応用可能であり，AI研究の重要な方向性である。
- 既存のモデルは，クロスビュー空間推論において，詳細な幾何学的情報を十分に活用できていない。
- 視覚的思考を促し，モデルがより効果的に空間情報を推論できるようになることを目指す。
- View Dropout（VDrop）という手法を導入し，モデルが思考画像を回答に利用するように学習させた。
- パノラマ視覚的思考が最も情報量が多く，学習可能性も高く，実世界のデータセットでも優れた汎化性能を示した。
- 思考画像を用いることで，モデルは入力画像だけでは捉えきれない空間情報を活用できるようになることが示唆された。
Link: https://arxiv.org/abs/2605.27310
チャート生成による対向的事例を用いた視覚言語モデルの評価 [cs.CL, cs.CV]目的：視覚言語モデルの評価手法
- 視覚言語モデルの性能評価は，AI研究の発展に不可欠である。
- 既存のチャートQAデータセットでは，事前知識による解答の可能性が課題となっていた。
- 視覚的推論能力を厳密に評価するための対向的事例生成を試みる。
- Chartographerフレームワークを開発し，チャートをコードに変換，変異生成，新たな解答導出を実現した。
- 対向的事例を用いた評価により，単一チャートでの正答率が高いモデルでも汎化性能が低いことが示された。
- 視覚的推論経路の変更が求められるチャートにおいて，特に失敗が多いことが明らかになった。
Link: https://arxiv.org/abs/2605.27311
質問誘導型幾何学的メモリー：ビデオ空間推論のための [cs.CV]目的：ビデオ空間推論における質問応答性を高める幾何学的メモリーフレームワーク
- ビデオ理解の高度化には，視点に依存する情報を時系列で蓄積し，質問に合致した情報を保持することが重要である。
- 既存モデルは幾何学的認識や長距離文脈モデリングを進めるものの，メモリーを単純な時間的キャッシュとして扱う傾向がある。
- 本研究は，質問に基づいて幾何学的情報を選択的にメモリーに蓄積し，より効率的な長期的推論を実現することを目指す。
- 提案手法Q-GeoMemは，カメラ条件付きの幾何学的情報を視覚トークンに注入し，詳細な文脈バンクと意味的・幾何学的証拠バンクを維持する。
- 質問関連性と新規性を基にしたスコアリング機構により，関連性の高いフレームを選択的にメモリーに保存し，推論精度を向上させる。
- VSI-BenchおよびVSTI-Benchでの実験により，Q-GeoMemが最先端の性能を達成し，質問誘導型幾何学的メモリーの有効性が確認された。
Link: https://arxiv.org/abs/2605.27318
メガカーネル vs ウェーブフロントGPUパストレーシング [cs.CL, cs.GR, cs.AR, cs.PF]目的：パストレーシングとウェーブフロントパストレーシングの性能比較
- GPUの進化はリアルタイムグラフィックスの要求に応え，物理ベースレンダリングの実用化を促進している。
- GPUの性能を最大限に引き出すには，メモリレイテンシや同期といった課題が存在する。
- キャッシュ効率改善によるパストレーシング性能向上を目指す。
- ウェーブフロントパストレーシングは，メガカーネル方式のパストレーシングに対し約16%の速度向上を達成した。
- 速度向上は，ウェーブフロントパストレーシングのキャッシュ局所性の改善に起因すると分析された。
- GPUの各ユニットの最大スループットを達成できていないことから，通信やメモリレイテンシがボトルネックとなっている。
Link: https://arxiv.org/abs/2605.27323