arXiv雑要約

画像・音声 - 2026/06/18 公開

  • 映画における感情的反応と没入感への音声パラメータの影響:EMORSION [cs.HC, cs.AI, cs.SD]目的:映画音声設計が聴衆の感情と没入感に及ぼす影響の検証
    • 映画体験において,映像だけでなく音声が感情や没入感に大きな影響を与えることが重要である。
    • 音声設計のどの要素が感情や没入感に影響を与えるのか,具体的なメカニズムが不明である。
    • 音声パラメータの微細な変化が,聴衆の感情認識と没入感にどのように影響するかを定量的に明らかにすること。
    • 音声設計のわずかな変化でも,感情認識と没入感に測定可能な差異が生じることが確認された。
    • 従来の没入型ミキシングは,聴衆間の合意を促す傾向があり,型破りなミキシングは解釈の多様性を生み出した。
    • 本研究で確立されたEMORSIONプロトコルの有用性が示され,大規模な研究によるさらなる検討の必要性が示唆された。

    Link: https://arxiv.org/abs/2606.18266

  • 大規模音声言語モデルのための継続的な音声思考 [cs.CL, cs.AI, cs.SD, eess.AS]目的:音声情報の整理と応答生成への活用
    • 音声データ理解の高度化が求められており,その基盤技術として大規模言語モデルが注目されている。
    • 既存モデルはテキスト生成に最適化され,音声に含まれる豊かな情報を十分に活用できていない。
    • 音声情報を効率的に整理し,応答生成に活用するフレームワークを構築すること。
    • 継続的音声思考(CoAT)フレームワークにより,音声言語モデルは豊かな音響情報を保持できる。
    • CoATは,音声専門家からの知識蒸留によって音響情報を整理し,応答生成に役立てる。
    • Qwen2-Audio等3つのモデルで,様々な音声タスクにおいてCoATの有効性が確認された。

    Link: https://arxiv.org/abs/2606.18273

  • ブラックボックス物体検出に対する予算を考慮した適応的敵対パッチ [cs.CV, cs.CR]目的:ブラックボックス物体検出器に対する敵対パッチ攻撃手法の開発
    • 物体検出技術は,自動運転や監視システムなど幅広い分野で活用されており,その堅牢性は重要である。
    • 既存の敵対パッチ攻撃は,クエリ回数制限下での位置,テクスチャ,サイズを同時に最適化できていない場合が多い。
    • 限られたクエリ回数で,効果的かつコンパクトな敵対パッチを生成し,物体検出器の脆弱性を明らかにする。
    • 提案手法は,コンテキスト・トムソンサンプリングによる軽量な配置モジュールと,NESスタイルのピクセル更新を組み合わせることで,クエリ効率の良い攻撃を実現した。
    • YOLOv5,Faster R-CNN,YOLOSといった様々な物体検出器に対して高い抑制効果を示し,固定サイズやヒューリスティックなベースラインと比較して,クエリ回数とパッチの視認性とのトレードオフを明らかにした。
    • 印刷・撮影によるパイロット実験では,未知の物体や視点への転移性も確認された。

    Link: https://arxiv.org/abs/2606.18318

  • ASR自己検証と知識蒸留による信頼性の高いニューラルコーデックTTS:モデルとコーデック全体でほぼゼロの破滅的失敗 [cs.SD, cs.LG]目的:ニューラルコーデックTTSにおける破滅的な失敗の削減
    • 高品質な音声合成は,人間と機械の自然な対話を可能にする上で不可欠である。
    • 既存のニューラルコーデックTTSは,特定の入力に対して沈黙や繰り返し,幻覚が生じるなどの破滅的な失敗を起こしやすい。
    • ASR自己検証と知識蒸留を用いて,これらの破滅的な失敗をほぼゼロにすることを目指す。
    • ASR自己検証により,破滅的な失敗率を大幅に削減することができた。LibriSpeechコーパスではN=2,難易度の高いプロンプトセットではN=4で,実質的にゼロに近い失敗率を達成した。
    • 自己検証された挙動をモデルに蒸留することで,推論時のコストを増加させることなく,ロバスト性を高めることができた。難易度の高い入力に対して,約52-58%の失敗を改善した。
    • オフラインDPO/IPOは単純な教師あり蒸留に劣り,オンライン反復変種は有望だが統計的な有意差は認められなかった。スケールが明瞭に影響しないLlasaモデルは例外だった。

    Link: https://arxiv.org/abs/2606.18323

  • モバイル・クラウドソーシングと待ち行列システム:人間を介在とした学習 [cs.GT]目的:待ち行列システムにおける人間の行動とシステム全体の学習の間の緊張関係の分析
    • サービスシステムの効率化において,待ち行列の選択は顧客体験に大きく影響する重要な課題である。
    • 顧客は自己利益に基づいて待ち行列を選択するため,システム全体の効率的な学習が阻害される場合がある。
    • 利己的な顧客行動が引き起こす非効率性を解消し,システム全体の学習を促進するメカニズムを設計する。
    • 自己中心的選択が無限大の価格の不協和(PoA)を引き起こす可能性があることを示した。待ち行列の状態が不確実なサーバーの過剰な探索が原因である。
    • 単一サーバーの場合,バッファーサイズが増加するにつれてPoAの下限が減少し,複数サーバーの場合,サーバー数が増加するにつれてPoAの上限が減少することが証明された。
    • 動的なサイドペイメントメカニズムを設計し,PoAを2以下に抑え,予算バランスを維持しつつ,過剰な探索を抑制することに成功した。

    Link: https://arxiv.org/abs/2606.18392

  • CAOA:補完支援によるオブジェクト-CADアライメント [cs.CV, cs.AI, cs.LG]目的:3Dセマンティック再構成におけるCADモデルとRGB-Dスキャン上の対応オブジェクトの正確なアライメント
    • 室内環境の3D理解には不可欠であり,ロボット工学や拡張現実など幅広い応用が期待される。
    • ノイズや不完全なスキャン,セグメンテーションエラーがアライメント精度を低下させるという課題がある。
    • 実環境スキャンへの汎化性能を高め,高精度なCADモデルアライメントを実現することを目指す。
    • 提案手法CAOAは,セマンティックおよびコンテキストを認識した点群補完モジュールと,対称性を考慮した相対姿勢推定アルゴリズムを統合する。
    • 実環境データに特化した合成データ生成戦略により,合成データと実データのドメインギャップを縮小することに成功した。
    • Scan2CADベンチマークにおいて,最先端手法と比較して17%の精度向上を達成し,高い有効性を示した。

    Link: https://arxiv.org/abs/2606.18429

  • RegimeVGGT:視覚幾何学的基盤トランスフォーマーにおける層ごとの空間保持冗長性除去 [cs.CV, cs.RO]目的:視覚幾何学的基盤トランスフォーマーの計算効率向上
    • 3次元シーン構造復元は,ロボット工学や拡張現実などに応用可能な重要な技術である。
    • 多視点画像からの3次元シーン構造復元において,計算量の増加が課題となっていた。
    • 層ごとに異なる特性を考慮した効率的な計算手法を開発し,処理速度を向上させる。
    • RegimeVGGTは,訓練を必要とせずにVGGT*と比較して6.7倍の高速化を達成した。
    • 層ごとにU字型の圧縮を行い,幾何学的およびエッジの重要な情報を保護する手法が有効であることが示された。
    • 空間的なカバレッジを維持しつつ,位置姿勢推定に重要なパスを保存する手法が開発された。

    Link: https://arxiv.org/abs/2606.18439

  • 交差としての推論:ビデオ大規模マルチモーダル言語モデルにおける視覚的注目のためのコンセンサスフレームアラインメント [cs.CV]目的:ビデオ大規模マルチモーダル言語モデルにおけるエビデンスに基づいた視覚的推論
    • 大規模言語モデルの推論能力向上は重要であり,特にビデオ理解においては,視覚情報と言語情報の効果的な統合が求められる。
    • ビデオ大規模マルチモーダル言語モデルに対し,結果のみに着目した報酬を与えるだけでは,どの視覚的証拠を重視すべきかの指針が不足している。
    • 本研究は,視覚的証拠の選択と推論の整合性を高めるための新たな報酬フレームワークを提案し,ビデオ理解の精度向上を目指す。
    • 提案手法であるCF-GRPOは,時間的なアノテーションなしで,ビデオ内の重要なフレームを特定し,視覚的推論の過程を評価する。
    • コンセンサスフレーム報酬(CFR)は,モデルが重視するフレームと,ビデオの内在的な特徴から導出されるコンセンサスフレームとの一致度を最適化する。
    • 実験結果から,提案手法は既存のビデオ大規模マルチモーダル言語モデルを上回り,複雑なビデオ推論タスクにおいて優れた性能を発揮することが示された。

    Link: https://arxiv.org/abs/2606.18441

  • 3Dビジョン-言語モデルのドメイン汎化適応:正則化ファインチューニングによるアプローチ [cs.CL, cs.CV]目的:3Dビジョン-言語モデルのドメイン汎化適応手法
    • 3Dビジョンは,ロボティクスや自動運転など,様々な応用分野において重要性が増している。
    • 限られたデータでのドメイン適応は,過学習やカタストロフィック・フォゲッティングを引き起こしやすい。
    • 本研究は,少ないデータでもロバストなドメイン汎化適応を可能とする手法を提案する。
    • 提案手法ReFine3Dは,選択的な層調整と正則化戦略を組み合わせることで,ドメイン汎化性能を向上させる。
    • 複数の3Dドメイン汎化ベンチマークにおいて,既存手法を上回る性能を実証した。
    • ベースから新規クラスへの汎化,クロスデータセット転送,ノイズに対するロバスト性,フューショット精度が改善された。

    Link: https://arxiv.org/abs/2606.18472

  • データ強制蒸留:少ステップビデオ生成における多様性と忠実性の回復 [cs.CL, cs.CV]目的:少ステップビデオ生成モデルにおける多様性と忠実性の回復
    • ビデオ生成技術は,エンターテイメントや教育など,幅広い分野での応用が期待されている。
    • 既存の蒸留手法では,生成されたビデオの多様性が低下したり,過飽和な出力になる問題がある。
    • データ強制蒸留は,これらの問題を解決し,より高品質なビデオ生成を実現することを目指す。
    • データ強制蒸留は,教師モデルのスコアの差異を利用し,生徒モデルを実データ分布に近づけることで多様性と忠実性を回復する。
    • テキストからビデオ,画像からビデオ,自己回帰ビデオ生成といった様々なタスクにおいて,その有効性が検証されている。
    • わずかな追加学習で,既存モデルの性能を上回る結果が得られ,過飽和の問題も改善されている。

    Link: https://arxiv.org/abs/2606.18478

  • Vines-DB:複数の観葉植物のつる植物セグメンテーションのためのRGB画像データセット [cs.DC, cs.CV]目的:複数の観葉植物のつる植物のセグメンテーションのためのデータセット
    • 精密農業や都市生態学において,植物の自動的な識別や生育状況の把握が重要である。
    • 既存のデータセットでは,実際の圃場環境で撮影された多様な観葉植物のデータが不足している。
    • 本研究は,現実的な圃場環境におけるセグメンテーションベンチマークを可能にする高品質なデータセットの提供を目指す。
    • Vines-DBデータセットは,7種類の観葉植物のRGB画像を2,307枚含み,セグメンテーションモデルの学習・評価を支援する。
    • 画像は,iPhone 16 Proを用いて圃場で撮影され,手動アノテーションによる正確なセグメンテーションマスクが提供される。
    • このデータセットは,植物のキャノピー被覆率推定,種識別,大規模圃場での表現型測定など,幅広い応用が期待される。

    Link: https://arxiv.org/abs/2606.18484

  • MagpieTTS-LF: 長文音声生成のための推論時手法 - 長文データでの学習なし [cs.SD, cs.AI, eess.AS]目的:長文音声の生成
    • 近年のTTS技術は目覚ましい発展を遂げているが,長文音声生成には課題が残る分野である。
    • 既存のTTSシステムでは,長文音声生成時にプロソディのずれ,話者の一貫性の欠如,文境界の問題が発生しやすい。
    • 本研究は,長文データでの再学習なしに,より自然な長文音声生成を可能にすることを目的とする。
    • 提案手法MagpieTTS-LFは,ソフトアテンションによる単調なアライメント誘導,文区画を跨いだ文脈維持,過去のテキストを利用したプロソディ計画により,長文音声のコヒーレンスを向上させた。
    • 実験の結果,MagpieTTS-LFは,既存手法と比較して,長距離明瞭度,プロソディの一貫性,話者の一貫性,境界の自然さにおいて有意な改善を示した。

    Link: https://arxiv.org/abs/2606.18485

  • 分離情報の実装:凸集合間の分離構造のレート歪み再構成 [cs.GR, cs.IT, math.IT]目的:凸集合間の分離構造の再構成
    • シーン理解において,形状だけでなく物体間の関係性も重要であるため。
    • 既存手法では,分離構造を効率的に符号化・伝送する手段が不足している。
    • 分離構造を保全しつつ,効率的なレート歪み最適化を実現する。
    • 凸集合間の分離構造は,単なる形状情報以上の意味を持つことが示された。
    • 分離構造のみからシーンを99.9%のビット精度で復元可能であることが実験的に確認された。
    • 視点ロバスト性を高めることで,分離構造の符号化レートをわずかに増加させつつ,より頑健な分離が可能になった。

    Link: https://arxiv.org/abs/2606.18486

  • ニューラル位相相関 [cs.CV, cs.AI]目的:画像間の変換関係の学習
    • 画像間の対応関係は,その変換を理解する上で重要である。近年,深層学習を用いた手法が発展している。
    • 従来の深層学習手法は,変換を直接表現せず,暗黙的に学習しているため,柔軟性に欠ける場合がある。
    • 本研究では,変換の基底を学習することで,位相相関の制約を克服し,より汎用的な手法を提案する。
    • 提案手法は,心臓MRIのACDCベンチマークにおいて,既存手法と同等以上の性能を示した。
    • 心臓エコー検査のCAMUSデータセットにおいても,補助的なスコアリングや平滑化メカニズムなしに,最先端の性能に匹敵した。
    • 1次元量子調和振動子の波動関数ペアから,未知のハミルトニアンの固有状態とエネルギー準位を復元することに成功した。

    Link: https://arxiv.org/abs/2606.18496

  • 顔のプレゼンテーション攻撃検出におけるアーキテクチャバイアス:Vision Transformerと畳み込みニューラルネットワークの比較研究 [cs.CV, cs.CR]目的:顔のプレゼンテーション攻撃検出における,人種による性能格差の軽減
    • 生体認証のセキュリティにおいて,顔認証は重要な役割を担うため,その堅牢性が求められる。
    • 既存の顔認証システムは,肌の色が濃いグループにおいて性能が著しく低下する傾向がある。
    • 本研究は,Vision Transformerアーキテクチャが人種バイアスを軽減し,公平性を向上させるかを検証する。
    • 事前学習済みのDeiT-Sは,全体的な精度97.27%,EER 0.86%を達成し,ResNet18を上回った。
    • DeiT-Sは,アフリカ系と東アジア系の被験者間のACERの差を0.13%に縮小し,公平性を大幅に向上させた。
    • DeiT-Sは,未知のグループである中央アジア系被験者に対して,ResNet18の3.6倍の汎化性能を示した。

    Link: https://arxiv.org/abs/2606.18510

  • 書き手独立オフライン署名照合のためのプロトタイプ署名アプローチ [cs.CV]目的:書き手独立オフライン署名照合におけるプロトタイプ署名を用いた負例生成戦略
    • 署名照合は,本人確認やセキュリティにおいて重要な役割を担う技術である。
    • オフライン署名照合では,偽造署名の入手が困難であり,負例データが不足しがちである。
    • 多様で情報量の多い負例データを効率的に生成し,照合精度を向上させる。
    • プロトタイプ署名を用いることで,より有益な負例データを生成し,巧妙な偽造署名の検出性能が向上した。
    • 本手法はアーキテクチャに依存せず,様々なモデルで頑健性を示した。
    • 線形SVMと組み合わせることで,RBFモデルと比較してスケーラビリティと計算効率を大幅に改善した。

    Link: https://arxiv.org/abs/2606.18528

  • 知識に基づいたニュース画像キャプション生成のための階層型マルチモーダル検索 [cs.CV]目的:知識に基づいたニュース画像キャプション生成のための枠組み
    • 画像キャプション生成は,画像の内容を理解し説明する上で重要である。より詳細な記述が求められている。
    • 従来の画像キャプション生成は,視覚情報だけでは捉えられない詳細な文脈の記述が困難であった。
    • 外部知識を活用することで,より深く,文脈に富んだ画像キャプションを生成することを目指す。
    • 本研究では,記事構造を考慮した階層型マルチモーダル検索機構を導入し,文脈に即した知識検索を実現した。
    • 検索された記事と画像の説明を組み合わせ,大規模言語モデルを用いて詳細なキャプションを生成する。
    • ACM Multimedia EVENTA 2025 Challengeにおいて,OpenEvent-V1データセットで0.2824のスコアを獲得し,5位となった。

    Link: https://arxiv.org/abs/2606.18553

  • 拡散時代におけるクロスドメイン合成災害検出のベンチマーク:Forged Calamity [cs.CV]目的:合成災害画像の検出性能評価
    • 近年の画像生成技術の進化により,偽造画像による情報操作が深刻化しており,社会への悪影響が懸念される。
    • 既存の偽造画像検出手法は,特定の生成モデルや災害の種類に過剰適合し,汎化性能が低い。
    • 拡散モデルによって生成された合成災害画像を正確に識別するためのベンチマークデータセットの提供。
    • 新たなベンチマークデータセット「Forged Calamity」を構築し,現実の災害画像と拡散モデル生成の合成災害画像を包含する。
    • ファインチューニングされた検出器は,未知の生成モデルや災害の種類に対して精度が大幅に低下する傾向が確認された。
    • ゼロショットでの汎化検出器も安定した精度を維持することが難しく,表現のロバスト性を持つモデルでのみ限定的な耐性が見られた。

    Link: https://arxiv.org/abs/2606.18554

  • 室内シーン認識のためのセマンティック認識型データ拡張としてのテキスト-画像変換の再考 [cs.CV]目的:室内シーン認識におけるデータ拡張手法
    • 屋内環境の複雑さから,画像認識は困難であり,様々な応用において重要である。
    • 学習データの不足が,屋内シーン認識の性能向上を妨げる大きな課題となっている。
    • Stable Diffusionを活用し,データ不足を克服する新しいデータ拡張手法を提案する。
    • 提案手法は,MIT Indoor Sceneデータセットにおいて,深層モデルの学習性能向上に貢献する可能性を示した。
    • 生成された合成画像を悪用するのを防ぐため,Diffusion Reconstruction Error (DIRE)に基づく対策を導入した。
    • DIREを用いることで,軽量な深層モデルのみで,合成画像を100%の精度で識別することが可能となった。

    Link: https://arxiv.org/abs/2606.18555

  • 言語指示による3D空間における点軌道の予測:MolmoMotion [cs.CV]目的:3D空間における点軌道の予測
    • 視覚知能において,物体運動の予測は行動計画,物理的相互作用の推論,現実的な未来の生成に不可欠である。
    • 既存の運動予測モデルは,視点に依存したり,物体クラスに特化したり,計算コストが高いといった課題がある。
    • 言語指示に基づいて,汎用的かつ効率的に3D点群の運動を予測するモデルを開発し,性能評価を行う。
    • 大規模データセットMolmoMotion-1MとベンチマークPointMotionBenchを構築し,多様な物体と運動を網羅した評価環境を整備した。
    • MolmoMotionは,既存の運動予測モデルを大幅に上回り,言語指示に応じた多様な運動パターンを正確に予測できることを示した。
    • 学習された3D運動の事前知識は,ロボット操作や動画生成といった下流タスクにおいて,効率性と汎化性能の向上に貢献する。

    Link: https://arxiv.org/abs/2606.18558

  • 主成分分析と権力指数 [cs.GT]目的:単純ゲームにおけるプレイヤーの影響度測定
    • ゲーム理論や政治学など,意思決定プロセスの分析において重要である。
    • 既存の権力指数には,特定のゲーム構造に依存するなどの限界がある。
    • 主成分分析を用いた新たな権力指数の提案とその特性解明。
    • 提案する権力指数は,主成分分析で得られる固有値と一致することが示された。
    • この指数は,勝利連立に基づいて定義され,4つの特性によって特徴づけられる。
    • データセットの特性把握への応用可能性が示唆される。

    Link: https://arxiv.org/abs/2606.18559

  • 一般化のための制約:音声言語モデルの少サンプル一般化のための部分空間チューニング [cs.SD]目的:音声言語モデルの少サンプル一般化性能向上
    • 近年,音声と言語を組み合わせたモデルが発展し,多様なタスクへの応用が期待されている。
    • 少サンプル学習では,既知クラスの性能向上と未知クラスへの一般化性能のトレードオフが発生しやすい。
    • テキスト埋め込み空間におけるゼロショットドリフトを抑制し,一般化性能を改善することを目指す。
    • 本研究では,部分空間チューニング(SubT)を提案し,構造的変形を抑制し,ゼロショット事前知識を安定化させることで,ドリフトを制御する。
    • SubTは,11の音声ベンチマークにおいて,効率的に少サンプル一般化性能を向上させることを実証した。
    • 推論時に部分空間を考慮したゲーティング機構により,弱く整合した未知クラスへのネガティブな転移を抑制する。

    Link: https://arxiv.org/abs/2606.18560

  • ステレオ録音における実環境下干渉音の参照に基づく再帰最小二乗法による軽減 [cs.SD, eess.SP]目的:ステレオ録音に含まれる実環境下の干渉音軽減
    • 音声処理技術は,高品質な音響体験の提供に不可欠であり,その重要性は増している。
    • 現実環境では,様々なノイズが録音に混入し,音質を低下させるという課題がある。
    • 外部音源からの干渉を効果的に除去し,クリアなステレオ録音を実現することを目的とする。
    • 参照信号を利用した適応干渉キャンセレーションにより,実環境下で発生する列車騒音を大幅に軽減できることが示された。
    • 再帰最小二乗法と低域通過フィルタを組み合わせることで,参照信号との相関を0.386-0.832から0.011-0.016に低減した。
    • この結果,相関比は約30.6-34.1dB減少し,出力RMSは1.8-4.8dB減少した。

    Link: https://arxiv.org/abs/2606.18564

  • CIFAR-10データセットにおけるニューラルネットワークに基づく画像分類の実験的分析 [cs.CV, eess.SP]目的:ニューラルネットワークを用いた画像分類に関する実験的検討
    • 画像認識は,コンピュータビジョンの根幹であり,様々な応用分野で不可欠な技術である。
    • 既存手法では,過学習による汎化性能の低下が課題であり,学習方法の最適化が求められている。
    • 本研究は,画像認識における学習パイプライン全体の理解と,汎化性能向上のための基盤を提供する。
    • 全結合ネットワークと畳み込みネットワークを用いて実験を行い,学習パイプライン全体を詳細に分析した。
    • 6層の畳み込み層と3段階の最大プーリングを持つ畳み込みアーキテクチャにおいて,検証精度は約74.77%を達成した。
    • 学習が進むにつれて検証損失が増加する現象から,表現学習と記憶化の違いが明らかになった。

    Link: https://arxiv.org/abs/2606.18565

  • 低照度環境における群衆数推定のためのマルチモーダルハイパーグラフ融合 [cs.CV, cs.AI, cs.GR]目的:低照度環境における群衆数の推定手法
    • 群衆数推定はコンピュータビジョンの基盤技術であり,公共の安全確保や効率的な人員配置に不可欠である。
    • 既存手法は十分な光量下での性能は高いものの,暗所や不均一な照明下では信頼性が低下する課題がある。
    • 本研究は,低照度環境下でも高精度な群衆数推定を可能にする新たな手法を開発することを目的とする。
    • 新たに3つの低照度群衆数推定ベンチマークデータセット(SHA_Dark,SHB_Dark,LC-Crowd)を構築した。
    • Retinexモデルに着想を得て,深度情報とCannyエッジを導入し,低照度下での画像表現を強化する。
    • マルチモーダルハイパーグラフ融合モジュールと変形矩形スパースアテンションモジュールを提案し,高い性能を達成した。

    Link: https://arxiv.org/abs/2606.18566

  • 学習によるバイアス軽減を通じた公正な軽度認知障害検出 [cs.CG, cs.LG, cs.CL, cs.SD, eess.AS]目的:軽度認知障害の検出
    • 高齢化社会において,認知機能低下の早期発見は重要性が増している。
    • 既存のモデルは,人口統計学的情報に依存し,グループ間での性能差が大きい。
    • 人口統計学的属性に左右されない,より公平な検出手法を確立すること。
    • 本研究では,音声,テキスト,画像などのマルチモーダル情報を融合し,勾配反転による学習でバイアスを軽減する手法を提案した。
    • TAUKADIALおよびPREPAREベンチマークにおいて,最先端の手法を凌駕し,患者サブグループ間の性能差を大幅に縮小した。
    • データセット間の転移学習実験からも,人口統計学的属性の学習を抑制することで,よりロバストな表現を獲得できることが示された。

    Link: https://arxiv.org/abs/2606.18571

  • ICRA 2026 GOOSE 2D 繊細なセマンティックセグメンテーションチャレンジ技術報告:フィールドロボティクスにおける頑健な屋外シーン理解のためのDINOv3の活用 [cs.CV, cs.RO, eess.IV]目的:屋外環境における高精度なセマンティックセグメンテーション手法の開発
    • フィールドロボティクスは,農業や建設など,多様な分野で自動化を促進する上で不可欠である。
    • 複雑な屋外環境の正確な認識は困難であり,ロボットの自律的な行動を妨げる要因となっている。
    • 64クラスの詳細なセグメンテーションを実現し,フィールドロボティクスの認識精度向上を目指す。
    • 提案手法は,自己教師あり学習モデルDINOv3をベースに,ViT-AdapterとMask2Formerデコーダを組み合わせることで,高いセグメンテーション性能を実現した。
    • テスト時の多重スケールおよび水平反転によるデータ拡張と,Codabenchスコアに基づいたトップ3チェックポイントのアンサンブルが,性能向上に貢献した。
    • 公式評価において,76.57%の複合スコア(fine-class mIoU: 69.32%,category-level mIoU: 83.81%)を達成し,最終リーダーボードで1位となった。

    Link: https://arxiv.org/abs/2606.18582

  • パッチレベルの自己教師あり学習と拡張された相互ランキングを用いた航空機搭載LiDARと地上LiDARによる場所認識 [cs.CV, cs.RO]目的:航空機搭載LiDARと地上LiDARの場所認識における性能向上
    • ロボットや自動運転における自己位置推定は,安全かつ効率的な動作に不可欠である。
    • 既存の地上LiDARによる場所認識は,事前の地図作成や視野角の制限が課題となっていた。
    • 航空機搭載LiDARのデータを活用し,ドメインギャップと誤検出の問題を解決することを目指す。
    • 提案手法は,CS-Urban-Scenesデータセットにおいて,平均Recall@1が9.8%向上,平均Recall@1%が3.2%向上した。
    • CS-Campus3Dデータセットにおいても最高の性能を示し,既存の最先端手法を上回った。
    • 拡張された相互ランキングアルゴリズムは,追加の学習なしで,CS-Campus3DとCS-Urban-Scenesの両データセットで平均Recall@1をそれぞれ4.9%と10.2%向上させた。

    Link: https://arxiv.org/abs/2606.18583

  • APT:因果的ビデオ・言語理解のための原子物理遷移 [cs.CL, cs.CV, cs.AI]目的:物理現象を構成する因果的な状態変化の明示化
    • ビデオと言語の理解において,物理現象の因果関係の理解は重要である。
    • 既存の研究では,物理現象のプロセスが隠蔽され,表層的なイベントラベルのみに焦点が当てられている。
    • 本研究は,原子物理遷移(APT)を用いて,物理現象の因果的メカニズムを明示的にモデルに学習させることを目指す。
    • 原子物理遷移(APT)のデータセットを構築し,現在のVLMsが遷移レベルの物理学を捉えられていないことを示した。
    • APT-Tuneと呼ばれるパラメータ効率的なファインチューニング手法を提案し,VLMsが因果的遷移を学習できるようにした。
    • APT-Tuneは,イベントレベルのビデオ転移性能を向上させ,APTが人間らしい因果的監督信号であることを示した。

    Link: https://arxiv.org/abs/2606.18586

  • Splaxel:ピクセルレベル通信による大規模シーン再構成のための3Dガウススプラッティング効率的な分散学習 [cs.DC, cs.CV]目的:大規模シーン再構成のための3Dガウススプラッティング分散学習の効率化
    • 3Dシーン再構成は,仮想現実やロボティクスなど幅広い分野で重要性が高まっている。
    • 大規模シーンの学習には多くのGPUが必要だが,GPU間通信のボトルネックが存在する。
    • ピクセルレベルでの局所レンダリングとグローバル合成により,通信コストを抑制し学習を高速化する。
    • Splaxelは,最先端の分散3DGSフレームワークと比較して最大7.6倍の高速化を達成した。
    • 各GPUは局所部分をレンダリングし,部分的なピクセル値のみを交換することで,通信コストを安定的に維持する。
    • 幾何学的な可視性予測と透過率可視性予測により,ピクセルレベルの冗長性を低減し,GPU利用率を向上させる。

    Link: https://arxiv.org/abs/2606.18588

  • クリエイティブな意図と視覚的品質の架橋:エージェントによるフィードバックループを用いたクリエイター主導の再帰的動画生成 [cs.RO, cs.CV]目的:クリエイター主導の再帰的動画生成フレームワーク
    • 動画生成技術の発展は,コンテンツ制作の民主化に貢献している。
    • 生成AI動画は,物語の一貫性や創造的な方向性に課題が残ることが多い。
    • 人間の創造的な指示を取り入れ,動画の品質と一貫性を向上させる。
    • CHIEFという人間とAIの共同制作フレームワークを提案し,クリエイターを中心とした反復的な動画改良を可能にした。
    • 視聴者の視点からの主観的な批評を生成するLLMによるフィードバックループを導入することで,AI単独では捉えられない評価を実現した。
    • 映画制作未経験の学生による実験で,短編動画から10分間の複雑なプロットの動画制作に有効であることが示された。

    Link: https://arxiv.org/abs/2606.18591

  • 医療VLMsにおける幻覚検出と修正:反証検証によるアプローチ [cs.CV]目的:医療VLMsの幻覚検出と修正
    • 医療診断におけるAIの信頼性向上は重要であり,誤った情報提供を避ける必要がある。
    • 既存手法は,生成テキストと参照データの一致に焦点を当て,視覚的根拠の検証が不十分である。
    • 視覚的根拠に基づく事実整合性検証により,幻覚を検出し,修正することを目的とする。
    • 提案手法CoEVは,テキストと視覚的証拠間の双方向検証を行い,幻覚を高精度に検出する。
    • 既存手法と比較して,PR-AUCとROC-AUCがそれぞれ平均3.0%,3.9%向上し,特定のVQAシナリオでは最大18.5%の改善が見られた。
    • 医療レポート生成における幻覚率を11.9%以上,医療VQAの精度を向上させ,臨床医に信頼性の高い診断支援を提供する。

    Link: https://arxiv.org/abs/2606.18609

  • SC3-Eval:自己整合的ビデオ生成によるロボット基盤モデルの評価 [cs.RO, cs.CV]目的:ロボット基盤モデルの評価手法
    • ロボットの汎用的な操作ポリシーの性能評価は,コスト,時間,スケーラビリティの面で課題が多い。
    • 自己回帰的なロールアウトでは誤差が累積し,マルチカメラ環境での整合性維持が困難である。
    • 事前学習済みのビデオ基盤モデルを精度良く活用し,現実世界のポリシー評価を実現する。
    • SC3-Evalは,フレーム予測と行動復元を同時に学習することで,物理的に妥当な行動空間を確保し,ロールアウトのドリフトを抑制する。
    • 異なるカメラ視点からのインペイント学習により,長期間のロールアウトにおけるマルチカメラ観測の一貫性を維持する。
    • テスト時の逆ダイナミクスモードを不確実性信号として利用し,要求された行動から逸脱したロールアウトを早期に終了させる。

    Link: https://arxiv.org/abs/2606.18610

  • QC-GAN:高忠実度音声強調のためのパラメータ効率の良いクォータニオンコンフォーマーGAN [cs.SD, cs.AI, cs.LG, stat.ML]目的:高忠実度音声強調のためのフレームワーク
    • 音声強調は,ノイズ環境下での音声通信や聴覚補助において重要な技術である。
    • 既存の深層学習モデルは,パラメータ数が多く計算コストが高いという課題がある。
    • 少ないパラメータで高精度な音声強調を実現し,計算コストを削減すること。
    • QC-GANは,VoiceBank+DEMANDデータセットにおいてPESQスコア3.48を,わずか0.89Mパラメータで達成した。
    • この性能は,パラメータ数が2倍以上の最先端モデルに匹敵する。
    • さらに,35Kパラメータの変種は,従来の方式を上回るPESQスコア3.23を記録した。

    Link: https://arxiv.org/abs/2606.18611

  • シーンの合図からの内在的4Dガウスセグメンテーション [cs.CV, eess.IV]目的:4Dガウスの分割による,動的3Dシーンの構造回復
    • 動的3Dシーンの表現として4Dガウススプラッティングが注目されており,編集や解析への応用が期待されている。
    • 既存手法は外部の2Dマスクに依存するため,コストがかかり,マスクの品質に結果が左右される。
    • ガウス自身から内在的にオブジェクト構造を回復し,マスク不要なセグメンテーションを実現することを目指す。
    • 提案手法Intrinsic-GSは,外観,向き,スケール,変形軌跡等の情報を基にガウス間のアフィニティグラフを構築し,コミュニティ検出によりセグメンテーションを行う。
    • Neu3DとHyperNeRFのベンチマークにおいて,マスクなしで高いmIoUを達成し,SAMに依存する既存手法と同等の性能を示す。
    • HyperNeRFにおいて,Intrinsic-GSはマスク生成段階よりも12.5倍高速に動作し,効率的なセグメンテーションを実現する。

    Link: https://arxiv.org/abs/2606.18623

  • スパイクニューラルネットワークを用いた高効率・低消費電力画像復元のためのスパイクピラミッドウェーブレット変換 [cs.DC, cs.CV]目的:高効率・低消費電力画像復元
    • 画像復元は,様々な画像処理タスクにおける重要な前処理であり,高画質化に不可欠である。
    • 従来のCNNベースの手法では,受容野の制限から性能が制約される場合がある。
    • スパイクニューラルネットワークとウェーブレット変換を組み合わせ,受容野の制限を克服し,効率とエネルギー消費を改善する。
    • 提案手法SPWMは,計算コストとエネルギー消費を大幅に削減しつつ,画像品質を維持できることを実験的に示した。
    • スパイクデュアルピラミッドウェーブレット(SDPW)ブロックが,長距離依存性のモデリングとウェーブレット領域における劣化特性の活用に貢献する。
    • 本研究は,リソース制約のあるデバイスへのSNN応用の可能性を示唆する。

    Link: https://arxiv.org/abs/2606.18644

  • 熱核事前分布を用いた多様体上の変分学習 [cs.CL, cs.CV, eess.IV]目的:医学画像群の教師なし表現学習
    • 医療画像解析において,専門家によるラベルはノイズを含み,病理学的異質性を捉えきれない場合がある。
    • 既存の深層潜在変数モデルはユークリッド平均に基づくガウス混合事前分布推定により,多様体から外れた原型を生成しやすい。
    • 多様体上に原型を固定し,潜在空間の幾何学的滑らかさを保ち,高品質な原型を生成することを目的とする。
    • 提案手法は,熱核重み付き潜在グラフ上の拡散中心性に基づいて原型を選択することで,多様体上への固定を実現している。
    • 心臓瘢痕および脳MRIのベンチマークにおいて,既存手法を上回る精度を達成し,鮮明な原型を生成した。
    • サブポピュレーション数が増加しても安定性を保ち,既存手法の劣化問題を解決した。

    Link: https://arxiv.org/abs/2606.18658

  • 責任ある音声認識:狭帯域および低リソース環境における基盤モデルの課題克服 [cs.SD]目的:狭帯域および低リソース環境における基盤モデルの音声認識性能評価
    • 世界中の電話会話は狭帯域で行われ,音声認識技術の重要性が高い。
    • 低リソース言語やアクセントに対する音声認識性能は十分ではない。
    • 狭帯域・低リソース環境における音声認識の課題解決を目指す。
    • 既存の基盤モデルは,狭帯域のヒンディー語およびインド系アクセントの英語において,ゼロショット条件下では十分な性能を示さなかった。
    • 少量のアノテーション済みデータによるファインチューニングは改善をもたらすが,言語やアクセントによって効果に差があることが示された。
    • この効果は,事前学習時にモデルが経験したデータの量に大きく左右される。

    Link: https://arxiv.org/abs/2606.18659

  • マルチモーダルLandslideBenchを用いたランドスライドエージェント:自律的なランドスライド識別と解析のためのドメインルール拡張エージェント [cs.CV, cs.AI]目的:ランドスライドの自律的な識別と解析
    • 災害予防において,知的なランドスライドハザード解釈は極めて重要である。
    • 既存の手法では,視覚的特徴と高レベルな地質学的意味論を同時に抽出することが困難である。
    • 複雑な地質シナリオにおける汎用VLモデルの認識限界とドメインホールシネーションを解決する。
    • LandslideBenchは,微細分類と意味的セグメンテーションにおいて,5つの主流モデルに対して有効なベースラインを提供する。
    • LandslideVLMは,ランドスライド識別,微細分類,意味記述の品質において,それぞれ10.96%,32.87%,15.91%の精度向上を達成した。
    • LandslideAgentは,マルチソース空間データの自律的な推論を可能にし,ランドスライドの識別と解析の全プロセスにおける知能を実現した。

    Link: https://arxiv.org/abs/2606.18661

  • ニューラルMUSIC:ロボット音源定位のためのハイブリッドニューラル・サブ空間フレームワーク [cs.CL, cs.SD, cs.AI]目的:ロボット音源定位の精度向上
    • ロボットが自律的に環境を認識し行動するために,音源定位は不可欠な技術である。
    • 従来のMUSIC法は,低S/N比環境下で性能が低下しやすいという課題がある。
    • 深層学習の汎化性能の限界を克服し,ロバストかつ汎用的な音源定位を実現する。
    • ニューラルMUSICは,空間共分散行列をニューラルネットワークで推定し,MUSIC法に統合することで,定位精度を向上させた。
    • 周波数注意融合モジュール(FAF)を用いることで,最終的なDOA推定値の精度を高めている。
    • 自己教師あり空間相関学習(SSCL)により,ラベルなしデータからも空間構造を学習し,データ効率を改善した。

    Link: https://arxiv.org/abs/2606.18664

  • 多重グラフにおけるEFX割り当ての存在性 [cs.GT]目的:分割不可能な資源の公平な割り当て方法
    • 公平な資源配分は,社会的な効率と公正性を両立させる上で重要である。
    • EFX割り当ての存在性は,公平分割における主要な未解決問題であった。
    • 多重グラフにおけるキャンセル可能な評価関数下でのEFX割り当ての存在を示す。
    • 本研究において,多重グラフインスタンスにおいて,キャンセル可能な評価関数下でのEFX割り当ての存在が証明された。
    • 証明はアルゴリズム的であり,キャンセル可能な評価関数を用いる場合に多項式時間でそのような割り当てを計算できる。
    • この結果は,任意の数のエージェントに適用できるEFX存在結果の少数に貢献する。

    Link: https://arxiv.org/abs/2606.18665

  • BrainFusionNet:MRI画像における局所的,全体的,および逐次的な特徴を理解するための深層学習とXAIモデル。脳腫瘍検出の改善 [cs.CV]目的:脳腫瘍検出精度の向上
    • 脳腫瘍の早期発見は,治療成績を大きく左右するため,高精度な画像診断技術が不可欠である。
    • MRI画像はノイズの影響を受けやすく,腫瘍の境界が不明瞭な場合,深層学習による正確な診断が困難となる。
    • MRI画像から局所的,全体的,逐次的な特徴を効果的に抽出することで,脳腫瘍検出の精度向上を目指す。
    • 提案手法BrainFusionNetは,CNN,ViT,GRUを組み合わせることで,MRI画像から空間的,文脈的,逐次的な特徴を高精度に抽出できる。
    • 公に利用可能なMRIデータセットを用いた実験結果,K分割交差検証により98%の精度を達成し,既存の最先端CNNモデルと比較して高い性能を示した。
    • MRI画像の画質が深層学習の性能に影響を与えることを,ピクセル強度の分布分析によって明らかにした。

    Link: https://arxiv.org/abs/2606.18675

  • InTrain:ゼロコストニューラルアーキテクチャ探索のための内在的訓練可能性 [cs.LG, cs.CV]目的:ニューラルアーキテクチャの訓練可能性の評価
    • ニューラルネットワークの効率的な設計は,機械学習の性能向上に不可欠である。
    • 既存のゼロコストプロキシは,訓練可能性の本質を捉えきれていない。
    • アーキテクチャの幾何学的容量と最適化耐性を統合的に評価する手法を確立する。
    • 本研究では,内在的訓練可能性(InTrain)という統一的な理論的プロキシを提案した。
    • InTrainは,活性化の共分散固有スペクトルの参加比と,勾配の健全性の累積を通じて訓練可能性を定量化する。
    • 実験の結果,InTrainは最先端のアンサンブルベースの手法と同等のランキング相関を示し,単一指標の手法を上回った。

    Link: https://arxiv.org/abs/2606.18676

  • 公平なオンライン資源配分 [cs.DS, cs.GT, cs.LG, math.OC]目的:公平性と資源制約を考慮したオンライン資源配分問題の最適化
    • 難民移住や航空機スケジュールなど,資源配分は社会的重要課題であり,効率性と公平性の両立が求められる。
    • 従来の資源配分では,公平性が十分に考慮されておらず,類似するエージェント間で結果に差が生じやすい。
    • 本研究は,資源制約下で公平性を確保しつつ,全体的な厚生を最大化する配分アルゴリズムを開発する。
    • 本研究で提案するアルゴリズムは,バッチ内での公平性制約を満たしつつ,最適な双対変数を推定する。
    • オンライン環境において,最適なオフライン流体ベンチマークに対して亜線形後悔を達成することが証明された。
    • 難民経済プログラムの現実データを用いた検証により,アルゴリズムの性能と厚生最大化と公平性確保のトレードオフが示された。

    Link: https://arxiv.org/abs/2606.18679

  • 多様性の限界を超えて:効率的なVLMのための部分空間再構成としての視覚トークン剪定 [cs.RO, cs.CV]目的:視覚トークン剪定による計算効率の向上
    • 近年,画像と言語を扱うVLMの性能は飛躍的に向上しているが,計算コストが課題となっている。
    • 既存のトークン削減手法は,コサイン類似度に基づき,特徴量の絶対値情報を無視するため,性能が制限される。
    • 本研究は,再構成誤差を最小化する部分空間再構成による,より効果的なトークン剪定を目指す。
    • 提案手法SPAREは,トークン剪定を列部分集合選択問題として再構成し,再構成駆動型剪定を実現する。
    • 画像とテキストの関連性が低いトークンが文脈情報を保持するのに有効であるという反直感的な現象を明らかにした。
    • SPAREは,様々なVLMとベンチマークにおいて最先端の性能を示し,特に合成タスクで顕著な改善が見られた。

    Link: https://arxiv.org/abs/2606.18681

  • 高度深層学習モデルを用いた多クラス脳腫瘍分類:比較研究 [cs.CV]目的:多クラス脳腫瘍の分類
    • 脳腫瘍の早期・正確な診断は,治療方針の決定や患者予後の改善に不可欠である。
    • MRI画像からの脳腫瘍の正確な分類は,依然として困難な課題である。
    • 臨床的に有用な脳腫瘍分類モデルの性能向上を目指す。
    • EfficientNetB0は,他のモデル(VGG16, VGG19, DenseNet121, カスタムCNN)と比較して,最も高い全体的な分類精度(95%)を示した。
    • 特に,髄膜腫の検出において顕著な改善が見られ,EfficientNetB0は従来のCNNと比較して89%の再現率を達成した。
    • VGG19はVGG16よりも性能が劣るという結果は,深層学習モデルにおいては,深さよりもアーキテクチャの効率性が重要であることを示唆する。

    Link: https://arxiv.org/abs/2606.18682

  • 異種レーダーによる場所認識のための空間階層的知識蒸留 [cs.CV, cs.RO]目的:異種レーダーによる場所認識の性能向上
    • 多様なハードウェアプラットフォームでの場所認識の重要性が増しているため。
    • 低コストレーダーは視野が狭く,構造密度の低いデータしか取得できない。
    • 異なるレーダー間の非対称な空間的アラインメントによる知識蒸留。
    • 提案手法である空間階層的知識蒸留(SSD)が既存手法を大幅に上回る性能を示した。
    • SSDは,両レーダーが共通の領域で強い特徴アラインメントを実現する。
    • 4Dレーダーのデータが少ない領域では,蒸留の重みを調整することで性能劣化を防ぐ。

    Link: https://arxiv.org/abs/2606.18687

  • UniTemp:双方向蒸留によるあらゆる時間順序でのビデオ生成の実現 [cs.CV]目的:任意の時間順序でのビデオ生成手法
    • ビデオ生成は,映像コンテンツ制作において重要な役割を担う。多様な表現を可能にする技術が求められている。
    • 従来のビデオ生成モデルは,時間順に生成する方式に限定され,柔軟な生成順序に対応できていない。
    • 本研究は,過去と未来の文脈を考慮した,双方向生成を可能にするフレームワークを開発することでこの課題を解決する。
    • UniTempは,既存の前向き生成のみのモデルと同等の性能を維持しながら,多様なビデオ生成ワークフローを実現する。
    • ブロックワイズアンカー潜在変数を用いることで,後方生成時のブロック間での不連続性を解消し,安定した生成を可能にする。
    • 双方向ビデオ拡張,インビtween生成,ループビデオ生成,シーン遷移,ビジュアルストーリー生成など,幅広い応用事例で有効性が確認された。

    Link: https://arxiv.org/abs/2606.18702

  • PEFT-MedSAM:皮膚病変の説明可能なセグメンテーションのための医療基礎モデルの効率的なファインチューニング [cs.RO, cs.CV]目的:皮膚病変の自動セグメンテーション手法の開発
    • 皮膚がんの早期発見には,正確な病変セグメンテーションが不可欠である。
    • 既存の深層学習モデルは,皮膚病変のセグメンテーションにおいて十分な性能を示していない。
    • 医療基礎モデルの効率的なファインチューニングにより,セグメンテーション精度を向上させる。
    • PEFT-MedSAMは,ISIC 2018データセットにおいて,ダイス係数.9411,IoU値.8918を達成した。
    • PH2データセットによる外部検証では,ダイス係数.9467(標準偏差+/-.0310)を示した。
    • Grad-CAMを用いた説明性とpointing gameによる評価で,検証セットにおいて98.27%の精度を確認した。

    Link: https://arxiv.org/abs/2606.18707

  • 表構造認識におけるポインタ損失の再考:空間的局所性に着目した幾何学的ポインタ損失 [cs.CV]目的:表構造認識におけるポインタネットワークの性能向上
    • 表構造認識は,情報抽出やデータ分析において重要な役割を担う技術である。
    • 既存のポインタネットワークは,隣接セル間の誤りが多く,空間的な局所性を考慮していない。
    • 空間的近接性に基づいた損失関数を導入し,隣接セル間の誤りを削減することを目指す。
    • 幾何学的ポインタ損失(GAP Loss)を提案し,空間的近接性に応じて損失を再重み付けした。
    • GAP Loss は,特に隣接セル間の誤りを効果的に低減し,最新技術を上回る性能を達成した。
    • 損失関数レベルで幾何学的な誘導バイアスを取り入れることが,堅牢な表構造認識に有効であることが示された。

    Link: https://arxiv.org/abs/2606.18721