arXiv雑要約

画像・音声 - 2026/06/03 公開

スケッチソング：スケッチ計画と細粒度マルチトラックモデリングによる階層的楽曲生成 [cs.SD, cs.LG, cs.MM]目的：楽曲生成における階層的アプローチ
- 楽曲自動生成は音楽制作の新たな可能性を開く分野であり，創造性の支援や効率化に貢献する。
- 既存の楽曲生成システムでは，楽曲全体の構成計画が不十分で，一貫性のないアレンジや単調な展開になりがちである。
- 楽曲構成の計画と各楽器の役割を明確化することで，より豊かで自然な楽曲生成を目指す。
- SketchSongは，楽曲レベルのスケッチ計画と細粒度マルチトラックモデリングにより，既存のベースラインよりも客観的指標とリスニングテストの両方で一貫して優れた性能を示した。
- 歌詞やテキストプロンプトとのアラインメントなどの追加のポストトレーニングを行っていないにもかかわらず，強力なポストトレーニング済みオープンソースシステムと同等の結果を達成した。
- 粗から細へのプロセスにより，モデルは詳細な音声生成の前に明確なアレンジプランを得ることが可能となった。
Link: https://arxiv.org/abs/2606.03169
インスタンス目標ナビゲーションにおける費用対効果を考慮した対話型探索 [cs.CV, cs.RO]目的：インスタンス目標ナビゲーションにおける効率的な曖昧性解消
- ロボットが自然言語指示に基づき特定の物体を見つけ出す能力は，現実世界での応用において重要である。
- 従来の対話型ナビゲーションは，質問の重要度を区別せず，効率的な曖昧性解消が困難である。
- 質問の費用対効果を考慮し，ナビゲーションの不確実性を効率的に削減する手法を開発する。
- ナビゲーションデータから，不確実性削減に効果的な質問タイプと重みを特定した。
- 質問の費用を考慮した新しい評価基準と，効率的な対話行動を評価するためのベンチマークを構築した。
- 質問の必要性を判断し，費用対効果に応じて選択的に質問を行うゼロショットMLLMナビゲーターを提案した。
Link: https://arxiv.org/abs/2606.03175
GLINT：ファイングレインドな放射線画像表現のための疎なゲート付き視覚言語アライメント [cs.RO, cs.SI, cs.CL, cs.CV, cs.CL, cs.LG]目的：ファイングレインドな放射線画像表現を実現するための疎なゲート付き視覚言語アライメント手法
- 放射線画像診断の精度向上は医療の発展に不可欠であり，AIによる支援が期待されている。
- 既存の手法では，画像全体に対して均一に重みを付与するため，関連領域への集中が不十分である。
- テキストクエリに特異的な画像の局所領域に焦点を当て，疎なアライメントをモデル化することを目指す。
- GLINTは，テキストクエリに関連するパッチのみを活性化する疎なゲート付きアライメントを導入した。
- 学習エンコーダの中間特徴を自己教師あり学習の教師特徴に固定することで，パッチ特徴の維持を実現した。
- ゼロショット分類，グラウンディング，セグメンテーションにおいて高い性能を示し，特にゼロショットセグメンテーションで3D CTボリュームにおいて優れた結果を得た。
Link: https://arxiv.org/abs/2606.03180
推論時のスケーリングによる音声・映像同時生成 [cs.MM, cs.CV, cs.SD, eess.AS]目的：音声・映像同時生成における品質向上
- テキストに基づいた現実的な音声・映像ペアの生成は，マルチメディアコンテンツ制作において重要である。
- 既存モデルは学習に多大なリソースを要し，効率的な品質向上が課題となっていた。
- 推論時のスケーリングを多岐にわたる評価指標に適用し，品質のバランスを改善すること。
- マルチバリファイアフレームワークが，単一指標での誘導の限界を克服し，性能トレードオフを解消することが示された。
- 最適なバリファイア組み合わせを特定することで，全ての品質次元においてバランスの取れた改善が達成された。
- 適応報酬重み付け(ARW)により，多様な報酬信号を効果的に集約し，ロバストな多目的選択を実現した。
Link: https://arxiv.org/abs/2606.03183
クロスドメイン動画を用いたビデオ予測モデルによる強化学習 [cs.CV, cs.AI]目的：クロスドメイン動画からの強化学習
- 視覚的に異なるドメイン間での学習は，ロボットの汎化性能向上に不可欠である。
- 報酬信号の欠如やドメインギャップが，クロスドメイン強化学習の大きな課題となる。
- ドメインギャップを克服し，実世界への適用を可能とする強化学習手法を開発する。
- 提案手法XIPERは，異なるドメインの専門家動画を活用し，報酬モデルを学習する。
- XIPERは，ビデオ予測モデルを用いて報酬信号を生成し，ドメインギャップに頑健な学習を実現する。
- シミュレーションから実世界への転移実験において，有意義な報酬信号が得られることが示された。
Link: https://arxiv.org/abs/2606.03201
皮膚病変分類における人口統計学的バイアスの影響 [cs.AI, cs.CV, cs.CY, cs.LG]目的：皮膚病変分類の性能評価
- 皮膚がんの早期発見は重要であり，画像診断の精度向上が不可欠である。
- 学習データに含まれる人口統計学的バイアスが，診断精度の不均衡を引き起こす可能性がある。
- バイアスの影響を定量的に評価し，軽減策を検討することを目的とする。
- 性別に基づく分析では，性別固有のデータセットでモデル性能が最適化されることが示された。
- 男性患者の学習データ追加は，女性患者が多い場合でも男性グループの性能向上に貢献した。
- 年齢に基づく分析では，若年層ほど高い性能が維持される傾向が確認された。
Link: https://arxiv.org/abs/2606.03214
Follow-Your-Preference++：画像インペインティングにおける嗜好合わせの再考 [cs.CV]目的：画像インペインティングのための嗜好合わせに関する研究
- 画像生成技術の発展に伴い，人間の嗜好に合致した高品質な画像を生成することが重要になっている。
- 既存の嗜好合わせ手法は，評価指標の偏りや報酬ハッキングの影響を受けやすく，汎用性に課題がある。
- 報酬モデルの偏りを軽減し，よりロバストで汎用性の高い嗜好合わせ手法を確立することを目指す。
- 多数の報酬モデルが有効なシグナルを提供すること，そして候補とサンプルのスケール変更下で嗜好データに一貫した傾向が見られることが示された。
- 報酬モデルは，明るさ，構図，色調などに顕著な偏りを持つことが明らかになり，それが報酬ハッキングを引き起こしやすい原因となっている。
- 報酬モデルのアンサンブルを用いることで，これらの偏りを軽減し，堅牢で汎用性の高い性能を実現できることが確認された。
Link: https://arxiv.org/abs/2606.03216
MemoGen：過去の経験は将来のテキストから画像生成を向上させられるか [cs.CL, cs.RO, cs.CL, eess.AS, cs.CV]目的：テキストから画像生成における継続的な改善
- 画像生成技術は進歩したが，複雑な指示への対応に課題が残る。
- 既存手法は個々の生成を独立視し，過去の経験を活かせていない。
- 生成時の経験を記憶し，将来の生成に役立てることで改善を図る。
- MemoGenは，既存の画像生成器にエージェント進化層を追加する訓練不要のフレームワークである。
- このシステムは，過去の成功と失敗を経験メモリとして保存し，類似の生成に活用する。
- 実験の結果，わずか2回の進化ラウンドで，Nano Banana ProやGPT-Image-1などの高性能なプロプライエタリシステムを上回った。
Link: https://arxiv.org/abs/2606.03243
MariData：海洋環境におけるワンステップ非ペア画像変換 [cs.CL, cs.CV]目的：海洋環境における多様な訓練データ生成
- 海洋自律運航船（MASS）の実現には，多様な訓練データが不可欠である。特に，悪天候や低照度環境下でのデータは不足している。
- 実環境でペア画像を収集することは困難であり，既存の画像生成モデルは，微細な構造情報の保持が課題である。
- 本研究は，構造を意識した効率的なデータ合成パイプラインを構築し，データ不足という課題を解決することを目指す。
- 提案手法であるCycleGAN-turboは，VAEのボトルネックを回避するゼロ畳み込みスキップ接続により，微細な構造情報を効果的に保持する。
- 昼から霧，昼から夕焼け，昼から夜への変換において，実写に近い画像を生成し，シーンのセマンティック構造を維持することを示した。
- 昼から夜への変換では，訓練データの不均衡に起因する人工的な沿岸部の光の生成など，セマンティックな幻覚が生じる課題が明らかになった。
Link: https://arxiv.org/abs/2606.03246
現実世界のデータセットに自然実験は含まれているか？因果特徴選択による実証研究 [cs.CL, cs.IR, cs.HC, cs.CC, quant-ph, cs.CL, cs.AI, cs.CV, cs.LG, eess.IV, stat.ML]目的：現実世界のデータセットにおける自然実験の存在と，それを利用したモデル性能向上
- 因果推論は，データから因果関係を明らかにし，より信頼性の高い予測や意思決定を可能にする重要な研究分野である。
- 従来の機械学習は観察データに基づいているため，因果関係を正確に捉えられず，結果として予測性能が制限される場合がある。
- データセット内に自然実験が存在するか検出し，それらを介入データとして扱うことで，モデル性能を改善することを目指す。
- シミュレーション実験の結果，自然実験を含むデータセットと含まないデータセットを区別できることが示された。
- 大規模な現実世界のデータセットを用いた実証実験により，多くのデータセットに自然実験が含まれていることが明らかになった。
- 自然実験を介入データとして扱うことで，モデルの性能向上が確認された。因果推論の応用可能性が示唆される。
Link: https://arxiv.org/abs/2606.03251
FreeStreamGS：未ポーズストリーミング入力からのオンラインフィードフォワード3次元ガウススプラッティング [cs.CV]目的：オンラインストリーミング入力からの高精度な新規視点合成
- 近年の3次元コンテンツ生成において，高品質な新規視点合成の需要が高まっている。
- ストリーミング映像からのリアルタイムな3次元再構成は，カメラのポーズ推定の難しさから困難である。
- 本研究は，カメラポーズと深度のドリフトを抑制し，高品質なストリーミングからの3次元再構成を実現する。
- 提案手法FreeStreamGSは，オフライン手法と同等のレンダリング品質を達成した。
- 本手法は，累積カメラ内部パラメータのバイアスを除去し，シーンのスケール変動を抑制する。
- また，剛体な逆投影を緩和することで，ポーズと深度のドリフトを効果的に修正する。
Link: https://arxiv.org/abs/2606.03254
PaddleOCR-VL-1.6：低最適化領域の改良と段階的後学習によるドキュメント解析のフロンティア拡大 [cs.CV]目的：ドキュメント解析モデルの性能向上
- ドキュメントのデジタル化が進む中で，効率的な解析技術の確立が重要である。
- 既存モデルは，データ不足や教師データの信頼性不足により，特定領域で性能が伸び悩む。
- 低最適化領域に焦点を当てたデータ改善と後学習で，モデルの汎化性能を高める。
- PaddleOCR-VL-1.6は，OmniDocBench v1.6で96.33%という最高水準のスコアを達成した。
- 上位のVLMsと比較して高い競争力を示し，PaddleOCR-VLシリーズの実用的な後学習レシピを提供している。
- モデルの弱点を特定し，データと学習方法を段階的に最適化することで，性能向上を実現した。
Link: https://arxiv.org/abs/2606.03264
VistaHop: ビジュアル・ディープサーチのためのマルチホップ視覚的推論ベンチマーク [cs.HC, cs.CV, cs.AI, cs.CL]目的：ビジュアル・ディープサーチにおけるマルチホップ視覚的推論の評価
- 画像理解と質問応答の分野において，複雑なクエリへの対応能力が重要視されている。
- 既存のベンチマークは，単一ステップの画像理解に偏っており，反復的な画像検査や多段推論の評価が不十分である。
- マルチホップ視覚的推論を評価するためのベンチマークを開発し，現在のモデルの限界を明らかにする。
- VistaHopは，300枚の高解像度画像，25の視覚的検索シナリオ，350のマルチホップQAタスクを含む新しいベンチマークである。
- 現在の代表的なMLRMはVistaHopを解決するには至っておらず，最良のモデル（SenseNova-MARS-32B）でもPass@1は24.31%に留まる。
- この結果は，視覚的グラウンディング，証拠の再検証，長鎖推論，複数アンカー情報の融合における限界を示唆している。
Link: https://arxiv.org/abs/2606.03273
BA-T：二視野バンドル調整のための反復Transformer [cs.CE, cs.CL, cs.CV]目的：二視野バンドル調整のための反復Transformerの提案
- 3次元再構成は，現実世界の理解に不可欠であり，様々な応用分野で重要な役割を果たす。
- 従来の深層学習モデルは，幾何学的な整合性の欠如や，モデルサイズの肥大化といった課題を抱えている。
- 幾何学的な構造を効率的に更新し，多視野整合性を向上させる軽量なアーキテクチャの実現を目指す。
- BA-Tは，反復的な構造更新により，ポーズと再構成の精度を段階的に向上させる。
- 従来のデコーダよりも優れた多視野整合性を実現し，より少ないパラメータで同等またはそれ以上の性能を示す。
- 深層アテンションに代わる，コンパクトで効率的な3次元再構成手法を提供する。
Link: https://arxiv.org/abs/2606.03287
SagaQA：テレビシリーズにおける長編ナラティブ理解のためのマルチホップ推論ベンチマーク [cs.CL, cs.CV]目的：テレビシリーズの長編ナラティブ理解に関するマルチホップ推論のベンチマーク
- 動画理解は，人間と機械のインタラクションにおいて重要であり，多様な応用が期待される分野である。
- 既存の動画推論ベンチマークは，局所的な理解に偏っており，長編の物語全体の理解が課題となっている。
- テレビシリーズ全体にわたる長距離推論を必要とするデータセットを構築し，複雑なナラティブ理解を評価することを目的とする。
- SagaQAは，テレビシリーズ全体におけるマルチホップ推論を必要とする，長編動画ベンチマークである。
- ハイブリッドプランナーが，一貫性のある高品質な推論プランを生成し，複雑なナラティブ理解において優れた能力を示すことが示された。
- 異なるプランニング戦略（並列，逐次，ハイブリッド）が，複雑な推論をどのように処理するかを分析した。
Link: https://arxiv.org/abs/2606.03301
TASE：3Dシーン理解と編集のための切り捨て認識型セマンティック埋め込み [cs.CV]目的：3Dシーンの理解と編集のためのセマンティック埋め込み手法
- ロボティクス，自動運転，シミュレーション等に応用可能な高精度な3Dシーン表現が不可欠である。
- 既存手法では，制御可能な編集機能が限定的であり，柔軟なシーン改変が困難である。
- 切り捨て認識型埋め込み空間を最適化し，大規模な幾何学的変更を含む編集を可能にすること。
- 事前学習済みの2Dセマンティック特徴を，段階的に抽象度が高まる埋め込み空間へ投影することで，柔軟な3Dシーン編集を実現した。
- スケール・並進不変損失を用いて多視点整合性を向上させ，編集時の幾何学的変化によるアーティファクトを軽減するファインチューニング段階を導入した。
- 大規模な幾何学的変更を伴う編集において，既存手法を大幅に上回る競争力のある性能を実験的に示した。
Link: https://arxiv.org/abs/2606.03314
自己教師あり学習表現の評価：内在次元によるアプローチ [cs.RO, cs.LG, cs.CV]目的：自己教師あり学習表現の評価手法
- ラベルなしデータから有用な表現を獲得する自己教師あり学習は重要性が増している。
- 既存の評価手法は計算コストが高く，ハイパーパラメータに依存し，表現空間の構造理解が困難である。
- 内在次元推定により，効率的かつ原理に基づいた評価を実現し，ハイパーパラメータ選択を容易にすること。
- 提案手法IdEstは，自己教師あり学習表現の内在次元を効率的に推定し，線形プロービング性能と強い相関を示す。
- IdEstを用いることで，計算コストを大幅に削減しながら，適切なハイパーパラメータを迅速に選択できる。
- 内在次元は，自己教師あり学習表現を評価するための有効な幾何学的指標となりうる。
Link: https://arxiv.org/abs/2606.03338
構造化状態空間双対性に基づくクロスモーダル特徴融合によるマルチモーダル画像レジストレーションネットワーク [cs.RO, cs.CV]目的：マルチモーダル画像レジストレーションのためのアルゴリズム
- 医療画像診断などにおいて，異なる種類の画像情報を統合的に活用することが重要である。
- マルチモーダル画像間の構造的特徴の抽出が困難であり，正確なレジストレーションを妨げている。
- 構造化状態空間双対性(SSD)を活用し，効率的かつ高精度な構造的特徴抽出を実現する。
- 提案手法RegNetMamba-2は，粗から細かいマッチング処理にSSDを組み込み，局所的および大域的な構造特徴を効果的に抽出する。
- クロスモーダル特徴融合モデル（CMIモジュールとMSFモジュール）により，入力画像間の共有特徴抽出とマルチモーダル特徴融合をSSDベースで実現。
- VIS-SAR，VIS-IR，VIS-NIRのデータセットにおいて，最先端の深層学習ベースアルゴリズムと比較して，性能と効率の点で良好な結果が得られた。
Link: https://arxiv.org/abs/2606.03341
意味を超えて：視覚言語データからの事実的・感情的な知覚体験のモデル化 [cs.CV, cs.CL, cs.CY]目的：画像とキャプションのデータセットにおける，客観的な事実的側面と主観的な感情的側面によって定義される様々な知覚体験の発見とモデル化
- 画像認識技術は，人間による視覚情報の理解を深め，多様な応用分野に貢献する上で不可欠である。
- 既存手法では，画像の感情的な側面や文化的背景を考慮した知覚体験のモデル化が不十分である。
- 画像に対する知覚体験を，事実的側面と感情的側面の両方から捉え，より豊かで正確なモデルを構築すること。
- 提案手法PercepTは，画像とテキストのクラスタリングによって知覚体験を抽出し，データセットの知覚的豊かさに応じてクラスタ数を動的に選択する。
- ArtELingoデータセットにおいて，PercepTは既存手法と比較して，より優れた知覚的クラスタリング性能（シルエットスコア0.97）とマッピング性能（AUCスコア0.94）を示す。
- 人間による評価においても，PercepTが意味のある知覚体験を捉え，既存手法を大きく上回ることが確認された。
Link: https://arxiv.org/abs/2606.03345
SynCred-Bench：AI生成による視覚的誤情報の信頼性評価ベンチマーク [cs.CV, cs.AI]目的：AI生成による視覚的誤情報の信頼性評価のためのベンチマーク
- 近年のAI技術の発展は，誤情報の拡散リスクを高めており，その対策が急務である。
- AIが生成した画像は，そのリアルさから信頼性を判断することが困難である。
- AI生成画像に特化した信頼性評価手法の開発を促進し，誤情報検出能力の向上を目指す。
- 既存のシステムは信頼性が低く，誤検出率を抑制すると真陽性率が著しく低下する。
- オープンソースのAI生成コンテンツ検出器は5%未満，商用APIも57.6%程度の性能にとどまる。
- 人間による識別も63%程度の真陽性率であり，AI生成された視覚的誤情報の検出は依然として困難である。
Link: https://arxiv.org/abs/2606.03348
注意機構と残差結合を用いたLSTMネットワークによる音声感情認識 [cs.SD, cs.CL, cs.LG]目的：音声感情認識の軽量アーキテクチャ
- 人間とコンピュータの自然な対話を実現する上で，感情認識は不可欠な要素である。
- 高性能な感情認識モデルは，計算資源やメモリを大量に消費し，実用上の制約となる。
- 省資源で効率的な感情認識モデルを開発し，エッジデバイスへの実装を可能にすること。
- 提案モデルResLSTM-SAは，RAVDESSデータセットにおいて，既存のLSTMベースラインやCNNアーキテクチャを上回る性能を示した。
- 特に，ResLSTM-SA-h64は，わずか46.8kの学習可能パラメータで，UAR 0.6517という高い精度を達成した。
- 大規模な自己教師あり学習モデルと比較して，パラメータ数を3桁削減し，リアルタイム処理やエッジデバイスでの利用を促進する。
Link: https://arxiv.org/abs/2606.03359
P2-DPO：知覚処理を通じたキャリブレーション直接選好最適化によるハルシネーションの抑制 [cs.CL, cs.RO, cs.CV, cs.AI, cs.CL, cs.LG]目的：大規模視覚言語モデルにおけるハルシネーション抑制
- 大規模視覚言語モデルの発展に伴い，その生成する情報の信頼性が重要視されている。
- 既存手法では，注意領域の知覚的ボトルネックや画像劣化に対する視覚的頑健性が十分ではない。
- 視覚に特化した選好ペアの構築と損失関数設計により，これらの課題を克服する。
- P2-DPOは，人間のフィードバックに頼る既存手法と同程度のデータ量とコストで，ベンチマークにおいてより優れた性能を発揮する。
- 注意領域の忠実度と画像劣化に対する評価により，P2-DPOが知覚的ボトルネックの抑制と視覚的頑健性の向上に有効であることが確認された。
- P2-DPOは，モデル自身が選好ペアを生成・学習することで，視覚的頑健性とFocus-and-Enhance知覚能力を向上させる。
Link: https://arxiv.org/abs/2606.03376
科学的画像の実用性と拡張性に関する特性評価に向けて [cs.CV]目的：科学的画像の有用性と拡張性の評価枠組み
- 科学研究において画像は重要な証拠であり，研究成果の伝達に不可欠である。
- AI生成画像による微妙な誤りの混入が画像の信頼性を脅かす問題が生じている。
- 既存の評価方法では科学的妥当性の評価が難しく，その解決を目指す。
- 本研究では，科学的画像の評価に「有用性」と「拡張性」という2つの側面を取り入れたSIU$^2$Aフレームワークを提案した。
- 実験の結果，現在のマルチモーダルシステムは科学的な誤りの評価と修正において限界があることが示された。
- これは，視覚的認識と科学的な有用性の間に大きな乖離があることを示唆している。
Link: https://arxiv.org/abs/2606.03401
音声駆動型ポートレートアニメーションのためのMamba強化された暗黙的動作学習 [cs.CV]目的：音声と静止画像からのリアルで時間的に一貫性のある人物モーション動画の生成
- 人物の動きを再現する技術は，対話型コンテンツやプレゼンテーションなど，多様な応用分野で重要である。
- 従来のキーポイントベースの手法では，繊細な動きのダイナミクスを捉えるのが難しく，自然な表現が課題である。
- 本研究は，より自然でリアルな人物の動きを生成するために，新しいフレームワークを提案し，その性能を向上させる。
- 提案手法では，Mambaを強化した拡散モデルを用いて，音声と静止画像から潜在的なモーション特徴を直接予測する。
- これにより，細かい動きのパターンを教師なしで学習し，柔軟性と効率性を高めることに成功した。
- 複数のベンチマークテストにおいて，従来の手法を上回り，最新の技術水準を確立した。
Link: https://arxiv.org/abs/2606.03402
SAMatcher：Segment Anythingを用いた協視性モデリングによるロバストな特徴点マッチング [cs.CV]目的：画像間の対応点推定
- 画像処理の基礎であり，3次元復元や位置推定など幅広い応用分野で重要である。
- 既存手法は局所的な特徴に依存し，複数視点からの協視性を明示的にモデル化していない。
- 協視性モデリングを通じて，視点やスケール変化に対するロバスト性を向上させる。
- SAMatcherは，Segment Anything Model (SAM) を利用し，協視性領域のマスクとバウンディングボックスを予測する。
- これにより，双方向の特徴交換とクロスビューのセマンティックアライメントを実現した。
- 実験結果から，既存手法と比較して，特に視点やスケールの変化が大きい場合に優れた性能を示すことが示された。
Link: https://arxiv.org/abs/2606.03406
エンジニアリング図面の視覚言語理解のためのデータセットとベンチマーク：Enginuity [cs.CV]目的：エンジニアリング図面における視覚言語モデルの能力評価
- エンジニアリング図面は，サービス，修理，設計のワークフローにおいて不可欠であり，その理解は重要である。
- 既存のデータセットは，フローチャートや科学図表に偏っており，複雑なエンジニアリング図面を対象としたベンチマークが存在しない。
- エンジニアリング図面の理解における視覚言語モデルの課題を明らかにし，評価基準を確立すること。
- 本研究では，U.S.軍のサービスおよび修理マニュアルを用いた新しいデータセットEnginuityを公開した。
- 構造化された部品表の抽出と，図面に対する自由形式の質問応答という2つのタスクで最先端の視覚言語モデルを評価した結果，部品の識別と説明の正確性にギャップがあることが示された。
- 技術記述に関するトークン重複指標はモデルの能力を過小評価しており，ドメイン固有の評価にはLLMを用いた判定が必要であることが示唆された。
Link: https://arxiv.org/abs/2606.03410
解釈可能な胸部X線写真解析を可能にする統一的なマルチタスクフレームワーク [cs.MA, cs.CV]目的：胸部X線写真の解釈可能な解析のためのフレームワーク
- 医療画像解析におけるマルチモーダル深層学習の重要性が高まっている。
- 既存のシステムはブラックボックス化しやすく，臨床診断のマルチタスク性を考慮していない。
- 信頼性の高い臨床診断を支援するため，AIの透明性と説明可能性を高める。
- 提案手法IMT-CXRは，病変の認識，特徴付け，レポート生成の3段階で放射線科医のワークフローを模倣する。
- 10のCXRベンチマークにおいて，直接推論およびファインチューニングの両方で競争力のある性能を示した。
- ブラインド評価では，AI生成レポートの66%が診断の明瞭さにおいて元の臨床レポートと同等またはそれを上回ると評価された。
Link: https://arxiv.org/abs/2606.03417
不整合を意識した分布最適化によるマルチモーダル偽情報検出 [cs.CV]目的：マルチモーダル偽情報検出における性能向上
- 近年，偽情報の拡散が深刻化しており，その検知技術の重要性が増している。
- 既存手法はクロスモーダル一貫性に焦点を当てがちで，偽情報特有の不整合を捉えきれていない。
- 事実不整合とモーダル不整合に着目し，偽情報検出の精度向上を目指す。
- 提案手法であるIDOは，事実不整合に対処するため，チャネルごとの重み付け戦略とガウス分布モデルを導入した。
- また，モーダル不整合に対しては，不整合対照学習を用いてクロスモーダルな意味情報を学習した。
- 実験の結果，IDOが最先端の性能を達成することが示された。
Link: https://arxiv.org/abs/2606.03418
PHAF - パーソナライズされた手のアバターを瞬時に [cs.CV]目的：パーソナライズされたフォトリアリスティックな手のアバター生成
- AR/VR技術の発展に伴い，リアルなアバターの需要が高まっている。
- 従来の手法では，高品質なアバター生成に時間がかかることが課題であった。
- 2枚の写真から迅速に高品質な手のアバターを生成し，リアルタイムでの利用を可能にする。
- PHAFは，従来の最適化ベースの手法と比較して，30倍高速にテクスチャを生成できる。
- セマンティックガイド付きメッシュアラインメントと高密度テクスチャ抽出を組み合わせることで，高周波の詳細を効率的に転送する。
- 新しい視点にも対応可能で，標準的なグラフィックスエンジンとの互換性も備えている。
Link: https://arxiv.org/abs/2606.03420
PRISM：自己組織化された専門家による専門化を通じて，ビジョン基礎モデルを相乗効果化する [cs.CV, cs.AI]目的：多様なビジョン基礎モデルの相乗効果
- 画像認識技術の発展には，様々な基礎モデルの活用が不可欠である。
- 複数の基礎モデルを統合する際，負の転移による性能低下が課題となる。
- モジュール化された専門家による専門化で，知識の統合を促進し，性能向上を目指す。
- PRISMは，新しい最先端技術を確立し，多様な視覚知識を統合するためのスケーラブルなアプローチであることを実証した。
- 提案手法は，教師依存のルーティングを用いて，専門家が明確な表現空間に特化することで，干渉を軽減する。
- ルーティング機構が，ダウンストリームタスクに合わせて，専門家を最適な計算経路に動的に再構成する。
Link: https://arxiv.org/abs/2606.03444
コード系列分析における音調の簡素性：変調コストと音調語彙の組み合わせ [cs.SD, cs.AI]目的：コード系列に対する局所的な調性の割り当て
- 音楽理論や作曲，ジャズ即興演奏において，コード系列の調性分析は不可欠な要素である。
- 従来の動的計画法では，不必要な調性中心の増加を招く場合がある。
- 変調回数と調性語彙数を同時に最小化することで，より効率的な調性分析を目指す。
- 音調の簡素性（tonal parsimony）は，変調回数を最適化しつつ，55.8%のケースで調性語彙数を削減することに成功した。
- ジャズの代用閉包を適用することで，平均調性数が3.802から3.206へ，変調回数が16.728から12.141へと減少した。
- 1,555のジャズスタンダードの注釈付きデータを用いた評価では，コード・スケールの一致率が95.6%に向上し，実用的な調性分析が可能であることが示された。
Link: https://arxiv.org/abs/2606.03459
3D知覚から安全推論へ：リアルタイム地下鉱山監視のためのグラフベースフレームワーク [cs.CV]目的：地下鉱山のリアルタイム監視のための安全推論フレームワーク
- 地下鉱山は危険が多く，作業員の安全確保が重要である。
- 従来の監視システムは，複雑な危険や変化する状況に対応できない。
- 3D知覚とグラフベースの推論により，より高度な安全監視を実現する。
- 3D点群を構造化し，安全に関する推論を行うフレームワークを開発した。
- ルールベースの危険チェックに加え，LLMや記憶分析により危険検知率を向上させた。
- シミュレーションと実環境データを用いて，93%という高い危険検知率を達成した。
Link: https://arxiv.org/abs/2606.03460
混合モダリティ二重顔髪検索 [cs.CV]目的：顔画像と髪型の参照による画像検索タスク
- 画像検索は，視覚情報の活用において重要な役割を担う。
- 従来の検索設定では，異なる意味を持つ属性の同時考慮が困難。
- 顔と髪型という独立した属性間の関係性を考慮した検索を実現する。
- 本研究では，顔画像と髪型の参照（画像またはテキスト）を用いた新しい検索タスクDFHRを提案。
- DFHR-Benchという混合モダリティ顔髪検索のベンチマークを構築。18万件以上のトリプレットを含む。
- MFHCという，分離された顔と髪型の埋め込みを統合するフレームワークを提案。
Link: https://arxiv.org/abs/2606.03470
PersistGS：4Dガウススプラッティングにおける物体永続性のための微分可能な物理シミュレーション [eess.SY, cs.SY, cs.RO, cs.CV, cs.GR]目的：4Dガウススプラッティングにおける物体永続性の復元
- 3Dシーン再構成は，ロボット工学やAR/VRなど，様々な分野で重要性を増している。
- 従来の再構成手法では，物体が完全に隠れた場合，勾配信号が消失し，再構成品質が低下する。
- 微分可能な物理シミュレーションを用いて，隠蔽期間中の物体挙動を予測し，再構成の精度向上を目指す。
- PersistGSは，ガウススプラッティングと微分可能な剛体シミュレーションを組み合わせることで，隠蔽中の物体永続性を復元する。
- 提案手法は，隠蔽前の軌跡から摩擦と速度を推定し，それを用いて隠蔽期間中のガウスの位置を決定する。
- 実験結果から，PersistGSは従来の定速度外挿法よりも優れた性能を示し，正解軌跡に匹敵する精度を達成することが示された。
Link: https://arxiv.org/abs/2606.03479
TrAction：疎な軌跡による行動認識 [cs.CV]目的：行動認識の精度向上
- 行動認識はロボット工学や人間-コンピュータ間インタラクション等の応用において重要である。
- 既存手法は計算コストが高く，外観や背景情報に依存した認識になりやすい。
- 疎な軌跡データを用いた効率的な行動認識手法を開発し，上記問題を解決する。
- 提案手法は，Something-Something V2でトップ1精度45%，EPIC-Kitchens-100で54%を達成した。
- 時間反転感度において，V-JEPAを上回る性能を示した。
- 軌跡特徴は既存の外観特徴と相補的であり，融合することで精度をさらに向上させた。
Link: https://arxiv.org/abs/2606.03490
テクスチャ駆動型視覚学習における低周波ショートカット [cs.HC, cs.CV, cs.LG]目的：テクスチャ駆動型ドメインにおけるショートカット学習の分析
- 視覚学習は，画像認識や物体検出など，様々な応用分野で重要な役割を担っている。
- ニューラルネットワークは，学習データに過剰適合し，未知のデータへの汎化性能が低いという課題がある。
- 本研究は，テクスチャ駆動型ドメインにおけるショートカット学習の問題を解決し，汎化性能の向上を目指す。
- テクスチャ駆動型ドメインでは，低周波成分に大きく依存したショートカット学習が発生することが示された。
- 低周波成分を学習データおよびテストデータから除去することで，ID精度が最大8%向上し，OODに対するロバスト性が向上した。
- OOD精度は，低周波と高周波成分のバランスによって変化し，スペクトル振る舞いのバランスが重要であることが示唆された。
Link: https://arxiv.org/abs/2606.03493
3DGSポイズニングにおける検出可能性の特性評価：段階的ベンチマーク [cs.CV]目的：3DGSポイズニング検出の段階的特性評価のためのベンチマーク
- 3DGSはリアルタイムな新規視点合成で注目されているが，悪意のある攻撃に対する脆弱性が問題となっている。
- 既存研究は攻撃の成功に焦点を当てており，防御や検出は未開拓の分野である。
- 3DGS再構成パイプラインの各段階における検出可能性を分析し，ロバストなシステム構築に貢献する。
- 検出可能性は段階によって大きく異なり，単一の段階が常に優位とは限らないことが示された。
- 攻撃の種類によって異なる段階特有のフォレンジック信号が現れ，検出の有効性は信号の観測段階に依存する。
- トレーニングの動態やガウスパラメータ統計など，後期の段階の信号は初期段階では観測できない強力な手がかりとなる。
Link: https://arxiv.org/abs/2606.03499
AvatarMix：服装パーソナライズのためのアイデンティティ維持クロスアバター合成 [cs.CV, cs.GR]目的：アバターの服装をパーソナライズするための，アイデンティティを維持するクロスアバター合成手法
- 3Dアバター技術は，バーチャルコミュニケーションやメタバースにおいて重要な役割を担う。
- 既存手法では，服装やアイデンティティの品質低下，あるいは交差アーティファクトが発生しやすい。
- 高品質な服装とアイデンティティを維持しつつ，アバターのボディシェイプに合わせた服装の合成を目指す。
- AvatarMixは，高品質なGaussianアバターを直接合成することで，既存手法の課題を克服する。
- SeamFixとFullbodyFixという2階層の洗練戦略により，継ぎ目の自然な処理と服装の外観の維持を実現する。
- 実験により，AvatarMixが服装の忠実度とアイデンティティ保持において最先端の結果を達成することが示された。
Link: https://arxiv.org/abs/2606.03506
構造誘導型混合マスク事前学習と空間連続性正則化によるプリント基板欠陥検出 [cs.CV]目的：プリント基板欠陥検出の精度向上
- プリント基板は電子機器の基盤であり，自動光学検査(AOI)による欠陥検出は品質管理上不可欠である。
- 欠陥が微小，低コントラスト，かつ回路背景に埋もれている場合が多く，従来の検出手法では課題が残る。
- 構造情報を活用し，欠陥の空間的な連続性を考慮することで，よりロバストな欠陥検出を実現する。
- 提案手法は，DsPCBSD+データセットにおいて，mAP0.5で85.5%，mAP0.5:0.95で52.3%を達成し，既存の検出器を上回った。
- 構造誘導型混合マスク事前学習は，ラベルなしのPCB画像から構造情報を学習し，欠陥検出の性能向上に貢献した。
- 空間連続性正則化は，同一欠陥に対する分散した予測を抑制し，より正確な欠陥位置特定を可能にした。
Link: https://arxiv.org/abs/2606.03508
EvoMemNav：ゼロショット具現化ナビゲーションのための効率的な自己進化型ファインチ grained メモリ [cs.CV]目的：ゼロショット具現化ナビゲーションにおける長期的な計画の構築
- ロボットが未知の環境で自律的に行動するためには，環境の理解と記憶が不可欠である。
- 既存のメモリ構築手法では，詳細な視覚情報の損失や計算コストの高さが課題となっていた。
- ファインチ grained な情報を保持しつつ，効率的なメモリ構築と知識の更新を実現すること。
- EvoMemNavは，生の視覚情報をメモリとして保持し，セマンティックな情報とトポロジー関係で組織化することで，詳細な情報を維持する。
- 予算化された粗精細ポリシーにより，検索空間を絞り込み，VLMの利用を必要な箇所に限定することで効率性を高めている。
- サブタスク後のリフレクション駆動型書き戻しにより，環境知識を蓄積し，将来の意思決定を改善する。
Link: https://arxiv.org/abs/2606.03509
逐次探索における競争的情報設計 [cs.GT, econ.TH]目的：競争的環境下における情報設計の最適戦略
- 消費者の行動に影響を与える情報開示は，広告戦略において重要である。
- 競争環境下での複数の情報提供者の戦略的相互作用が未解明であった。
- 競争環境下での最適な情報設計戦略と，均衡状態の構造を明らかにすること。
- 複数情報提供者が競争する状況下における，各提供者の最適戦略を判定する方法を提示した。
- 事前分布に質量の集中がない場合，均衡が存在することが証明された。
- 事前分布が単調増加密度を持つ場合，対称均衡の構造を詳細に特徴付けた。
Link: https://arxiv.org/abs/2606.03527
Null空間における知識保持型モデルチューニング：ロバストな時空間動画グラウンディング [eess.SY, cs.SY, cs.CV]目的：時空間動画グラウンディングにおけるロバスト性の向上
- 動画とテキストを結びつける技術は，動画検索やロボット工学など幅広い応用分野で重要である。
- 既存手法は高品質動画に偏っており，現実世界で頻繁に遭遇する低品質動画への対応が課題である。
- 事前学習済知識を保持しつつ，低品質動画に対する適応を実現することで，グラウンディングの精度向上を目指す。
- 提案手法Null-Space Tuning (NST) は，凍結された重みのNull空間を利用し，事前学習済知識を損なわずに動画の品質に適応する。
- NSTは，高品質入力に対してはNull空間に，低品質入力に対しては非Null空間に情報を集中させることで，効果的な適応を実現する。
- Mixed-Qualityベンチマークでの実験結果は，NSTが最先端手法を上回る性能を示すことを証明している。
Link: https://arxiv.org/abs/2606.03539
あらゆるものに注意を払う：統一的な人間注意モデリングのための基盤モデル [cs.CV]目的：人間注意（顕著性）モデリングの統一
- 人間がどのように世界を見ているかを理解することは，AIの知能向上に不可欠である。
- 既存の研究は，モダリティ，シーン，タスクによって分断されており，汎化性能が低い。
- 多様なタスクとシーンにおいて，人間注意モデリングを統一的に行う基盤モデルを構築する。
- 提案手法AAMは，画像，動画，オーディオビジュアルなど様々なタスクとシーンで一貫して高い性能を発揮する。
- AAMは，既存最先端手法と比較して，平均で約6％高い性能を16のベンチマークで示した。
- 動画推論速度は約4倍に向上しており，実用的な応用への道を開く。
Link: https://arxiv.org/abs/2606.03540
CR-Seg：注意誘導とCoTによる粗から精細への推論セグメンテーション [cs.HC, cs.CV, cs.AI]目的：複雑な言語で記述された対象物のセグメンテーション
- 視覚情報とテキスト情報を統合し，より高度な画像理解を可能にする基盤技術である。
- 既存手法では，マルチモーダルモデルとセグメンテーションモデル間のアライメントが困難である。
- 注意誘導とCoTを活用し，推論と解答の一貫性を高めることで，セグメンテーション精度を向上させる。
- 提案手法CR-Segは，粗い位置特定とマスクの洗練化を段階的に行うことで，効果的なセグメンテーションを実現した。
- EAPモジュールにより，注意マップと重要な点を抽出し，SAMによるマスクの精度向上に貢献した。
- GLCoTは，グローバルな文脈からローカルな詳細へ推論を導くことで，推論と解答の一貫性を改善した。
Link: https://arxiv.org/abs/2606.03564
多発性硬化症における海馬傍回灰白質のセグメンテーションのための効率的なTransformerベース局所パッチサンプリング [cs.IR, cs.CV, cs.AI]目的：多発性硬化症患者における海馬傍回灰白質の自動セグメンテーション手法の開発
- 海馬傍回灰白質は，多発性硬化症の病態生理と障害度を評価するための重要な画像バイオマーカーとしての認識が高まっている。
- 海馬傍回灰白質の正確な手動セグメンテーションは時間と労力を要し，大規模臨床試験や縦断的評価を妨げる要因となっている。
- 本研究は，局所的なパッチサンプリングとSwinUNETRアーキテクチャを組み合わせることで，海馬傍回灰白質のセグメンテーションの精度向上と計算コスト削減を目指す。
- 拡張テストセットにおいて，SwinUNETRモデルはMPRAGEとFLAIRを組み合わせた場合に平均DSC 0.868 (95% CI: 0.863-0.872)を達成し，UXNET (DSC: 0.858 [95% CI: 0.853-0.862], p<0.0001)と比較して統計的に有意な改善を示した。
- FLAIRのみを入力とした場合でも，Transformerベースの手法は高いDSC 0.863を維持した一方で，UXNETの空間的局在性は著しく悪化した(HD95: 1.86 vs. 3.00 mm)。
- 提案されたフレームワークは計算負荷を99%削減することに成功した(91.8 vs. 22,080 GFLOPs)。
Link: https://arxiv.org/abs/2606.03566
3D物体検出のための学習型非最大抑制 [eess.SY, cs.SY, cs.CV, cs.AI, cs.LG, cs.RO]目的：LiDARベースの3D物体検出における，高密度で重複する提案のフィルタリング
- 自動運転やロボティクスにおいて，周囲環境の正確な3D認識は不可欠である。
- 従来の非最大抑制(NMS)は，ヒューリスティックな手法に依存しており，性能向上の限界がある。
- 検出間の関係性を学習することで，よりロバストで高精度なフィルタリングを実現する。
- D2D-RescoreとGossipNet3Dという2つの学習型フィルタリングモジュールを提案した。
- 提案手法は，CircleNMSと比較して，mAP，NDS，真陽性率を向上させた。
- 特に小規模で稀なクラスにおいて顕著な性能向上を示し，計算コストの増加は最小限に抑えられた。
Link: https://arxiv.org/abs/2606.03568
注意が崩壊するとき：構造から意味論への段階的認識トークン剪定 [cs.CV, cs.AI]目的：視覚トークン剪定による計算コストの削減
- 画像とテキストを理解するモデルの性能向上には，計算資源が不可欠である。
- 既存の剪定手法は注意スコアのみに頼るため，多様な特徴を失う可能性がある。
- 構造と意味論に基づき，より効果的なトークン剪定を目指す。
- 提案手法STSは，空間的な多様性を最大化する段階と，指示に基づいて不要なトークンを削除する段階の二段階構成である。
- STSは注意スコアのみに依存する剪定方法による冗長性を軽減し，視覚トークンの構造的多様性とタスク適合性を向上させる。
- 実験結果から，STSが既存手法よりも優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2606.03569
広範囲ベースラインマッチングによるMLLMにおける複雑な空間推論の誘発 [cs.CL, cs.CV]目的：MLLMにおける空間推論能力の評価と改善
- 物理環境で活躍するMLLMにおいて，空間認識は不可欠であり，その重要性は増している。
- 既存のMLLMは，幾何学的理解，視点変化，詳細な知覚，隠蔽された物体の推論といった能力の評価・訓練が不足している。
- 広範囲ベースラインマッチングの難易度が高い領域に焦点を当て，MLLMの空間推論能力を向上させる。
- ReasonMatch-Benchを構築し，視点移動とマッチングの粒度で空間推論能力を層別的に評価した。
- 現在のMLLMは，詳細な広範囲ベースライン対応において困難な状況にあり，人間の性能に大きく劣ることを示した。
- Dynamic Correspondence Reinforcement Learning (DCRL)により，ReasonMatch-Benchと関連する空間ベンチマークにおいて大幅な改善が見られた。
Link: https://arxiv.org/abs/2606.03577
適切な空間での拡散：潜在拡散性の体系的研究 [cs.CV]目的：潜在拡散性の評価と，生成品質との関連性の解明
- 画像生成AIの発展において，潜在空間の質が重要性を増している。
- トークナイザーの再構成品質と生成品質が必ずしも一致しないという課題がある。
- 生成品質を予測する潜在空間の特性を特定し，汎用性のある評価指標を開発する。
- 様々なトークナイザーを訓練・評価した結果，いくつかの潜在特性が生成品質と一貫して相関することが判明した。
- 特に，新たに導入した「速度不可減分散 (VIV)」が，生成品質の安定した予測因子であることが示された。
- VIVは，軌跡の交差によって生じる速度の曖昧さを定量化するものであり，潜在空間の質を評価する上で有用である。
Link: https://arxiv.org/abs/2606.03578
構造化されていないシーンにおけるレンダリング融合による3Dセマンティック占有予測 [cs.CV, cs.RO]目的：非構造化シーンにおける3Dセマンティック占有予測のロバスト性向上
- 自動運転において，不規則な障害物や疎な配置が従来の知覚手法の性能を低下させるため，新たなアプローチが求められている。
- 非構造化シーンでは，シーンの疎さがモダリティ融合を困難にし，ロングテール分布が予測性能を悪化させるという課題がある。
- 本研究では，レンダリング融合による新たなフレームワークを提案し，非構造化環境における予測性能の向上を目指す。
- 提案手法であるUnsOccは，双方向レンダリングによる特徴量のアライメント強化を行うRenderFusionモジュールを導入した。
- さらに，Gaussian Splattingに基づく詳細認識付き補助教師学習手法GSRefinementにより，ロングテールカテゴリの性能向上を実現した。
- 実験結果から，UnsOccが既存手法を凌駕し，非構造化シーンおよびnuScenesデータセットにおいて高い性能を発揮することが示された。
Link: https://arxiv.org/abs/2606.03581