arXiv雑要約

画像・音声 - 2026/06/19 公開

  • ディープフォレストビジョンV2:アフリカ熱帯林におけるカメラトラップモニタリングのための生態学に基づいた分類群拡張 [cs.CV, q-bio.QM]目的:アフリカ熱帯林におけるカメラトラップ画像・動画の分類精度向上
    • アフリカ熱帯林の生物多様性保全において,効率的なモニタリングは不可欠である。
    • 既存の分類ツールは,森林内部に限定され,多様な環境への対応が課題であった。
    • 本研究は,多様な環境下での分類精度向上を目指し,分類群を拡張する。
    • ディープフォレストビジョンV2は,既存モデルと同等以上の精度を維持しつつ,識別可能な分類群数を増加させた。
    • 特に,河川敷や公園境界といった環境において,大幅な精度向上と誤警報の減少が確認された。
    • 本研究の結果は,現場での実用性を高め,多様な環境下でのモニタリングを支援する。

    Link: https://arxiv.org/abs/2606.20223

  • 不完全知覚下における移動目標探索:部分観測確率的ゲーム理論的アプローチ [cs.RO, cs.GT]目的:不完全知覚下での移動目標探索問題
    • センサー技術の限界や妨害への対応は,安全保障や災害対策において重要である。
    • センサーの不確実性により,目標の正確な位置把握が困難であるという課題がある。
    • 目標の知性を考慮した探索戦略の有効性と検出可能性の保証を試みる。
    • 部分観測確率的ゲーム(POSG)を用いることで,探索者と目標の対立関係をモデル化した。
    • 検出可能性の概念と,確率的再帰解析に基づく十分条件を提案し,検出保証の基準を示した。
    • サーバー支援型分散アルゴリズムを開発し,数値シミュレーションによって有効性を検証した。

    Link: https://arxiv.org/abs/2606.20232

  • キャラクターと環境調和型動画生成モデルを用いたシネマティックコンポジティング [cs.CV]目的:シネマティックな映像合成手法
    • 映像制作において,現実と見紛う高品質な合成は重要な課題である。
    • 従来の合成手法では,キャラクターと環境の複雑な相互作用の表現が困難であった。
    • キャラクターと環境の物理的・光学的整合性を高めることで,より自然な合成を目指す。
    • 提案手法は,キャラクターと環境間の相互作用を考慮した動画拡散フレームワークである。
    • RGB-Dジョイントデノイジングとトリプルマスクによるガイドにより,物理的に整合性の取れたインタラクションを実現する。
    • 効率的なデータキュレーションパイプラインにより,高品質なレライトペアを構築し,制御可能な環境合成と小道具の置き換えを可能にする。

    Link: https://arxiv.org/abs/2606.20233

  • BAFIS:テキスト画像モデルにおける職業バイアスと人間の選好を評価するためのデータセットとフレームワーク [cs.CV]目的:テキスト画像モデルにおける職業関連画像の生成に関するバイアスの評価
    • 生成AIは生産性向上やコンテンツ制作に貢献するが,バイアスが内在している可能性が指摘されている
    • 既存の評価指標では,主観的な人間の選好との相関が必ずしも高くなく,公平性の評価が困難である
    • バイアスの実態を把握し,より公平で包括的なテキスト画像モデルの開発に貢献すること
    • 5つのテキスト画像モデルにおいて,性別や民族に関する系統的なバイアスが確認された
    • 確立された評価指標とユーザーの主観評価には部分的な相関が見られた
    • 人間の選好を組み込むことで,より公平なモデル開発が求められる

    Link: https://arxiv.org/abs/2606.20241

  • SPOT-E:凍結済みVLMに対する視覚的スポットライトを用いたテスト時エントロピー整形 [cs.CV, cs.AI]目的:視覚的証拠に焦点を当てるテスト時エントロピー整形手法
    • 大規模言語モデルと画像認識の融合が進み,画像とテキストを組み合わせた推論が重要になっている。
    • VLMは,決定的な視覚的証拠が局所的で見落としやすく,証拠の読み取りに失敗することがある。
    • エントロピー整形により,不確実性を低減しつつ,モデルの信頼性を維持することを目指す。
    • SPOT-Eは,質問に応じて視覚的スポットライトを生成し,推論時のエントロピーを最適化する。
    • 様々なベンチマークとVLMファミリーで,SPOT-Eは一貫した性能向上とロバスト性の向上を示す。
    • 軽量なチューニングにより,インスタンスごとにスポットライトを最適化する。

    Link: https://arxiv.org/abs/2606.20244

  • 弱学習による病理組織学的セグメンテーションのための単一段階階層的修正 [cs.CV]目的:弱学習病理組織学的セグメンテーションにおける性能向上
    • 病理組織学的画像解析は,疾患診断や予後予測において重要な役割を果たす。
    • 従来の弱学習セグメンテーションは,多段階プロセスによる計算コストが高い。
    • 中間層の特徴表現を修正し,高精度な活性化マップを生成することで,効率的なセグメンテーションを実現する。
    • 提案手法SSHRは,既存の多段階手法と比較して高い性能を示す。
    • SSHRは,学習時間を2~5倍削減し,計算コストを大幅に軽減する。
    • 大規模病理組織学的ワークフローへの臨床翻訳を加速する可能性を示す。

    Link: https://arxiv.org/abs/2606.20250

  • AI認知ロボティクス・コンピュータビジョンのための実環境と合成データ生成の効率的な連携 [cs.RO, cs.CV]目的:AI認知ロボティクスおよびコンピュータビジョンにおける,実環境と合成データの連携手法
    • AI技術は,産業用および家庭用ロボットの応用範囲を広げ,社会実装を加速させる重要な要素である。
    • 現状のAIモデルは,学習データやアーキテクチャの制約から,精度や汎化性能に課題が残っている。
    • シミュレーションと実環境のドメインギャップを埋め,より効率的な学習データ生成を目指す。
    • 本研究では,AIビジョンモデルの性能向上に向け,実環境と合成データの連携による学習データ生成の重要性を示唆する。
    • 既存研究の限界と課題を整理し,シミュレーションと実環境のギャップを埋めるためのアプローチを提示する。
    • 今後の研究では,提案手法の実装と評価を通して,AI認知ロボティクスの発展に貢献することを目指す。

    Link: https://arxiv.org/abs/2606.20272

  • U$^2$Mamba:顕著物体検出のための二層ネストU構造Mamba [cs.CV]目的:顕著物体検出における性能向上
    • 画像認識分野において,画像中の重要な物体を正確に特定する技術は不可欠である。
    • 既存のMambaモデルは,文脈情報の活用とネットワーク全体の深さの探索が不十分である。
    • 文脈情報の統合と多様な受容野の活用により,検出精度を向上させることを目指す。
    • 提案手法U$^2$Mambaは,マルチスケールMamba U-ブロック(MMUB)を導入し,局所特徴抽出能力を高める。
    • 新しいネストU構造により,浅層と深層の情報を統合し,より豊富な文脈情報を捉えることができる。
    • 階層的なトレーニング監視手法を提案し,各レベルでの損失計算を行うことで,性能を向上させている。

    Link: https://arxiv.org/abs/2606.20282

  • 国家森林調査,航空機搭載LiDAR,衛星画像を用いたコンピュータビジョンによる森林構造の全面マッピング [cs.RO, cs.CL, cs.LG, cs.CV]目的:森林構造の全面マッピング
    • 森林管理や山火事リスク管理において,広範囲なリモートセンシング技術の重要性が高まっている。
    • 既存のデータ収集は,目的や精度が異なる複数のデータソースを組み合わせるため,計画システムに混乱が生じる。
    • 管理に有用な森林属性を,年間を通して10m解像度で推定する一貫したフレームワークを提供する。
    • VibrantForestsフレームワークは,LiDARデータで学習された衛星ベースの森林構造モデルを用いて,森林属性を推定する。
    • このモデルは,疎林から密林まで,多様な森林条件に対応可能であり,既存のモデルよりも飽和範囲を拡大する。
    • 回帰平均化の抑制により,小規模/疎林における過大評価や,大規模/密林における過小評価といった問題を軽減する。

    Link: https://arxiv.org/abs/2606.20291

  • 少数ショット異常検知のためのクロスモーダルデュアルストリームデカップリング (CMDS-AD) [cs.CV]目的:少数ショット異常検知における性能向上
    • 製造業等における品質管理の自動化が求められており,異常検知技術はその重要な要素である。
    • 学習データが少ない場合,異常検知の精度が低下するという課題がある。
    • RGBと3D情報を効果的に組み合わせ,微細な異常を高精度に検出することを目指す。
    • CMDS-ADは,データ拡張にLoRAガイド型拡散モデル,法線推定に事前学習済みの拡散モデルを活用し,データ不足を克服する。
    • 低周波成分と高周波成分を分離することで,構造情報の抽出と微小欠陥の特定を両立し,クロスモーダルアライメントを改善する。
    • MVTec 3D-ADおよびEyeCandiesデータセットにおいて,最先端の性能を達成した (I-AUROCで5.7%, AUPROで2.0%の改善)。

    Link: https://arxiv.org/abs/2606.20300

  • CUPID:関心人物のディープフェイク検出のための解釈可能なUVテクスチャマップ再構成 [eess.SY, cs.SY, cs.CV]目的:関心人物のディープフェイク検出手法
    • 民主主義や社会への脅威となるディープフェイクの出現により,その検知技術が重要視されている。
    • 既存手法は,後処理への耐性,効率性,解釈可能性を兼ね備えることが難しい。
    • 3D顔再構成から得られるUVテクスチャマップを用いて,解釈可能性の高いディープフェイク検知を目指す。
    • CUPIDは,ディープフェイク動画を必要とせず,訓練データに特定の人物を含める必要もない。
    • UV空間での演算により,顔領域の差異を可視化し,解釈可能性を高めている。
    • 複数のディープフェイクデータセットにおいて,既存手法を上回り,特にダウンサンプリングや圧縮に対する頑健性が高い。

    Link: https://arxiv.org/abs/2606.20302

  • GEN-Guard:展開可能なフェデレーテッド手術AIにおける汎化性能の失敗への対応 [cs.CV]目的:フェデレーテッド手術AIにおける汎化性能の失敗の検出と修正
    • 手術AIは,医療の質向上に貢献する可能性を秘めており,その重要性は高い。
    • フェデレーテッド学習では,機関間でのデータの偏りが課題となり,汎化性能が低下する可能性がある。
    • 本研究は,機関を跨いだ汎化性能の低下を防ぎ,実臨床での信頼性を高めることを目指す。
    • 標準的なモデル評価では,検証データへの過学習により,未知の機関への汎化性能が低下する「性能漏洩」が確認された。
    • 提案手法GEN-Guardは,クライアントごとの分布を用いた汎化性能の検出と,不一致を考慮した蒸留による修正を行うことで,性能漏洩を抑制する。
    • 2つの臨床課題において,GEN-GuardはF1スコアを最大2ポイント,未知の機関での性能を最大3ポイント向上させた。

    Link: https://arxiv.org/abs/2606.20303

  • PRISM:ビデオ拡散モデルの中間状態における嗜好表現 [cs.CV]目的:ビデオ拡散モデルの中間状態からの嗜好表現の抽出
    • ビデオ生成技術は,コンテンツ制作やエンターテイメント分野において重要な役割を担う。
    • 従来の評価手法は,計算コストが高く,拡散過程との乖離が生じやすいという課題がある。
    • 拡散過程におけるノイズの影響を受けにくい,効率的な嗜好評価手法の開発を目指す。
    • PRISMは,軽量なQuery-based Aggregation headを用いることで,ノイズの多い潜在空間から嗜好信号を効率的に抽出できる。
    • PRISMは,最先端の嗜好精度を達成し,ノイズに対するロバスト性も向上させる。
    • 初期段階でのBest-of-$N$サンプリングを可能にし,計算量を削減しつつ,ビデオ品質を向上させる。

    Link: https://arxiv.org/abs/2606.20310

  • 信頼性に基づいたプロトタイプ較正によるフローズンポーズフロー異常検知 [cs.CV]目的:フローズン検出設定における,ポーズフロー動画異常検知の信頼性向上
    • 監視カメラ等の異常検知は,安全な社会の実現に不可欠な技術である。
    • ポーズフローを用いた異常検知では,ノイズの影響を受けやすく,正常な行動の多様性を捉えきれない場合がある。
    • 本研究は,学習済みのモデルを再学習することなく,信頼性に基づいた較正により,検知性能を向上させることを目指す。
    • 提案手法RPCは,フローズンなポーズフローシステムにおいて,フレームレベルのAUROCを改善した。
    • 改善幅は0.34〜4.49パーセントポイントで,平均2.03ポイントの向上が見られた。
    • プロトタイプからのずれが主要な補正信号であり,信頼性ゲートは信頼性の低いポーズ観測において有効であることが示された。

    Link: https://arxiv.org/abs/2606.20312

  • メタデータを用いたジオメトリを意識した超ピクセルグラフ変換器による皮膚病変分類 [cs.RO, cs.CV]目的:皮膚病変の分類
    • 皮膚がんの早期発見は重要であり,正確な病変分類が不可欠である。
    • 従来の画像解析手法では,病変の構造の多様性や微細な視覚的差異の識別が困難である。
    • 空間的情報を考慮した多Modal融合による,より精度の高い病変分類を目指す。
    • 本研究では,病変を超ピクセル領域のグラフとして表現し,領域間の幾何学的配置を考慮したグラフ変換器を提案した。
    • 患者のメタデータをグラフ構造に統合することで,空間的に根拠のある多Modal推論を実現した。
    • 提案手法は,4つの公開データセットにおいて最先端手法を上回る性能を示し,グラフを中心とした新たな視点を示した。

    Link: https://arxiv.org/abs/2606.20390

  • FlowBender:自己修正条件付きフローのためのフィードバック認識学習 [eess.SY, cs.SY, cs.CV]目的:自己修正条件付きフローを学習するためのフィードバック認識学習フレームワーク
    • 条件付き拡散モデルやフローモデルは,画像生成において重要な役割を担う。
    • 既存モデルは,条件と生成結果の整合性が取りづらいという課題がある。
    • 生成時の自己整合性エラーを利用した学習により,この課題を解決する。
    • FlowBenderは,推論時の自己整合性エラーをフィードバックとして学習する閉ループフレームワークである。
    • 画像変換,復元,3Dメッシュテクスチャリングなど,様々なタスクで既存手法を上回る性能を示した。
    • 条件への忠実性と生成結果の妥当性を同時に向上させることができた。

    Link: https://arxiv.org/abs/2606.20404

  • 拡散モデルにおけるタイムステップ埋め込みの冗長性について [cs.LG, cs.CV]目的:拡散モデルにおけるタイムステップ埋め込みの必要性に関する検討
    • 拡散モデルは画像生成において高い性能を示すが,計算コストが大きい。
    • タイムステップ埋め込みはモデルの性能に不可欠と考えられてきたが,その役割は十分に解明されていない。
    • タイムステップ埋め込みがなくても高精度な生成が可能になる可能性を探る。
    • タイムステップ埋め込みを除去しても,U-NetやDiffusion Transformerの性能が大きく低下しないことが示された。
    • CelebAおよびCIFAR-10データセットにおいて,タイムステップ埋め込みを用いないモデルが,FIDなどの評価指標で条件付きモデルを上回る結果が得られた。
    • モデルは,入力画像から暗黙的にノイズレベルを推定できる可能性が示唆され,タイムステップ埋め込みの冗長性が明らかになった。

    Link: https://arxiv.org/abs/2606.20416

  • MixProLAP:確率的言語・音声事前学習のための混合による不確実性モデリング [cs.SD]目的:音声とテキストのアライメントにおける多対多の曖昧性モデリング
    • 音声処理と自然言語処理の融合は,多様な応用を可能にする重要な研究分野である。
    • 音声データとテキストデータの対応付けは,音響環境の複雑さから曖昧になりやすい。
    • 現実の音響混合を反映し,意味的な包含関係を捉えた不確実性モデリングを目指す。
    • 提案手法は,従来の決定論的なベースラインを上回る性能を示した。
    • 音声とテキストを分布として表現し,不確実性を考慮したクロスモーダルアライメントを学習する。
    • 音響混合によって,実際の音響環境の複雑さをモデル化し,包含関係を捉える。

    Link: https://arxiv.org/abs/2606.20418

  • スペクトルクエリキー積重み制御による学習不要なVLMの幻覚軽減 [cs.CV]目的:視覚言語モデルにおけるオブジェクトの幻覚軽減
    • 視覚言語モデルはマルチモーダルな理解を可能にするが,誤った情報を生成するリスクがある。
    • 視覚言語モデルは,画像に存在しないオブジェクトを記述するなど,視覚的に根拠のない内容を生成しやすい。
    • 追加データや学習を必要とせず,推論コストもかけずに幻覚を軽減することを目指す。
    • 提案手法であるQK積重み制御は,データフリー,学習フリー,ゼロ推論コストでオブジェクトの幻覚を削減する。
    • QK積重み制御は,特定の中間層で支配的な特異モードを抑制することで,アテンションロジットを直接編集する。
    • 3つのGQAベースのVLMにおいて,QK積重み制御はCHAIR$_s$を平均で4.0%相対的に削減することを示した。

    Link: https://arxiv.org/abs/2606.20419

  • 乳児顔検出:新生児臨床環境における乳児顔の検出 [cs.CV]目的:新生児臨床環境における乳児顔検出モデルの構築
    • 新生児の非接触評価は,痛みの評価や呼吸状態の監視など,医療現場で重要性が増している。
    • 背景の複雑さ,照明変化,低照度環境が顔検出の精度を低下させるという課題が存在する。
    • 医療機器などによる顔の遮蔽にも対応可能な,高精度な乳児顔検出を実現する。
    • 提案モデルは,既存の汎用顔検出器と比較して,初期段階でより高いAP50スコア(0.87)を達成した。
    • 臨床データによる適応学習後,AP50スコアはさらに向上し,0.96に達した。
    • 新生児データセットの不足が課題であり,プライバシー保護に配慮したデータセットの構築が望まれる。

    Link: https://arxiv.org/abs/2606.20449

  • PCFootprint:航空LiDAR点群からのベクトル化された建築フットプリント抽出のための大規模データセットとベンチマーク [cs.CY, cs.HC, cs.FL, cs.CV]目的:航空LiDAR点群からの建築フットプリント抽出のための大規模データセット
    • 都市モデルや地理空間分析において,建築物の正確なフットプリント抽出は不可欠である。
    • 光学画像は遮蔽や歪みの影響を受けやすく,正確なフットプリント抽出が困難となる場合がある。
    • LiDAR点群を利用することで,これらの問題を克服し,より正確なフットプリント抽出を目指す。
    • 本研究では,エストニアのデータから生成された33,000タイルからなる大規模データセットPCFootprintを公開した。
    • 実験結果から,複雑な環境下での高分散性,データ不均衡,ノイズが課題であることが明らかになった。
    • PCFootprintは,建築モデリング,都市シーン理解,地理空間分析分野の研究を促進すると期待される。

    Link: https://arxiv.org/abs/2606.20455

  • 放射線科のための空間的根拠を持つ2Dビジョン-言語モデルのスケーラブルな学習 [cs.CV, cs.CL, cs.LG]目的:放射線科における視覚的に根拠のあるビジョン-言語モデルの学習
    • 医療画像診断の精度向上に貢献するAI技術の重要性が高まっている。
    • 放射線画像の解析には専門知識が必要であり,アノテーション作業の負担が大きい。
    • 手動アノテーションなしで,空間的根拠を持つモデルを学習することを目指す。
    • 大規模な二言語(ドイツ語/英語)データセットRefRad2Dを構築し,モデルRadGrounderを学習した。
    • RadGrounderは,レポート生成,VQA,空間的根拠付けを同時に実行できる。
    • 外部ベンチマークで優れた結果を示し,データセットの汎用性も確認された。

    Link: https://arxiv.org/abs/2606.20477

  • トレーニングフリーAI生成画像検出器はどれほど脆いか:スコア方向性,前処理,圧縮に関する統制された監査 [cs.CL, cs.CV]目的:AI生成画像の検出器の脆弱性評価
    • AI生成画像の増加に伴い,生成画像と実画像を区別する技術の重要性が増している。
    • トレーニングフリー検出器の性能評価は,評価プロトコルの違いにより比較が難しく,信頼性に課題がある。
    • 様々な条件での性能変動を検証し,検出器の頑健性と限界を明らかにする。
    • 実装の詳細(バックボーンネットワークの変更など)がAUROCに大きな影響を与えることが示された。
    • RIGIDスタイルのスコアは,ノイズレベルのわずかな変化でスコアの方向性が反転することが判明した。
    • データセット形式のバイアスが性能評価に影響を与え,バイアス補正により問題のある生成器が特定された。

    Link: https://arxiv.org/abs/2606.20488

  • 固定化誘導型能動知覚のための高速人間注意予測 [cs.MS, cs.RO, cs.CV]目的:固定化誘導型能動知覚における人間注意予測
    • ロボットの自律性は重要である。人間のように効率的に環境を認識することが求められている。
    • 既存の予測モデルは計算コストが高く,ロボットへの実装が困難である。
    • 計算コストを抑えつつ,高精度な人間注意予測モデルを開発し,ロボット自律性を向上させる。
    • GazeLNNは,Liquid Neural NetworksとMobileNetV3を用いた軽量なスキャンパス予測モデルである。
    • MIT Low Resolutionデータセットで最先端の性能(ScanMatch score 0.47)を達成し,既存モデルを大幅に上回った。
    • 計算コストを99.40%削減し,推論速度を最大6倍に向上させた。強化学習と統合し,実世界での飛行ロボットによる自律航行実験で有効性を実証した。

    Link: https://arxiv.org/abs/2606.20491

  • FreeStyle:コミュニティLoRAマイニングによるスタイル・コンテンツ二重参照生成の自由な制御 [cs.CV, cs.AI]目的:スタイルとコンテンツの二重参照生成における大規模データセット構築と生成手法
    • 画像生成技術は多様な応用を可能にするが,質の高いデータセットが不可欠である。
    • スタイルとコンテンツを分離した大規模なデータセットの不足が,生成のボトルネックとなっている。
    • コミュニティLoRAを活用し,高品質なデータセットと効果的な生成手法を開発する。
    • コミュニティLoRAをスタイル・コンテンツのアンカーとして利用する生成フレームワークFreeStyleを提案した。
    • 注意層の強化制約と周波数認識RoPE変調により,スタイル参照からの意味的漏洩を抑制することに成功した。
    • スタイル類似性,コンテンツ保持,美的品質,指示への追従,漏洩抑制において優れたバランスを実現した。

    Link: https://arxiv.org/abs/2606.20506

  • S-Agent:空間ツール利用による空間知能の推論 [cs.CV]目的:空間知能に関する推論のメカニズム
    • 現実世界の空間知能は,複雑な環境での行動に不可欠であり,その重要性は高い。
    • 既存の視覚言語モデルは,静的画像への推論に偏っており,動的な3D環境への対応が課題である。
    • 連続的な多視点画像・動画からの空間推論を可能にし,シーン中心の理解を目指す。
    • S-Agentは,既存のオープンソースおよびクローズドソースの視覚言語モデルの性能を,学習なしに向上させる。
    • S-Agentで生成された空間軌跡データを用いた教師ありファインチューニングにより,高性能なコンパクトな空間エージェントS-Agent-8Bを開発した。
    • S-Agent-8Bは,同規模のベースラインモデルを凌駕し,GPT-5.4やGemini 3といった高度なモデルに匹敵する性能を示す。

    Link: https://arxiv.org/abs/2606.20515

  • HumanScale:一人称視の人間ビデオが,埋め込み型事前学習における実ロボットデータの性能を上回る可能性 [cs.CV]目的:埋め込み型基礎モデルの事前学習におけるデータソースの比較
    • ロボットの自律的な行動学習には大量のデータが必要であり,データ効率が重要である。
    • 実ロボットデータの収集はコストが高く,多様性に乏しいという課題がある。
    • 人間が操作するビデオデータが,実ロボットデータの代替となりうるか検証する。
    • 一人称視の人間ビデオデータは,適切なフィルタリングとラベル付けにより,実ロボットデータと同等以上の性能を示すことがわかった。
    • ビデオデータで事前学習したモデルは,実ロボットデータで学習したモデルと比較して,ロボットのアクション予測において24%低い検証損失を達成した。
    • また,分布内および分布外のロボットタスク実行において,それぞれ52.5%と90%高い成功率を示した。

    Link: https://arxiv.org/abs/2606.20521

  • SARLO-80:世界規模の斜めSAR言語光学データセット80cm [cs.CV, cs.AI, cs.DB]目的:高解像度SAR画像,光学画像,自然言語記述を含むマルチモーダルデータセット
    • マルチモーダル基礎モデルの発展には大規模な光学ベンチマークが不可欠である。
    • SAR画像と光学画像の組み合わせデータセットは低解像度が多く,SAR特有の情報を欠いている。
    • 物理に基づいたマルチモーダル学習を可能にする高品質なSAR-光学データセットを構築する。
    • SARLO-80は,世界中の2,500シーンから構成され,VV/HH偏波のSAR画像と高解像度光学画像を提供している。
    • SAR画像は80cmの斜めレンジグリッドに標準化され,各SARパッチに対応する光学画像がピクセルレベルでアライメントされている。
    • サンプルごとに3種類のキャプション(SHORT/MID/LONG)を生成し,ビジョン-言語タスクをサポートしている。

    Link: https://arxiv.org/abs/2606.20523

  • StylisticBias: MLLMにおける社会的な偏見の大部分は,わずかな視覚的手がかりによって駆動される [cs.CL, cs.CV]目的:MLLMにおける属性レベルの社会的な偏見を評価するための制御されたベンチマーク
    • MLLMは社会的に重要な場面で利用が増加しており,公平性を担保することが重要である。
    • 視覚的手がかりがモデルの判断にどのように影響するか不明であり,偏見の原因特定が困難である。
    • 特定の視覚的手がかりがモデルの判断に与える影響を定量的に評価し,偏見の根本原因を特定する。
    • 年齢と体型が,個人のアイデンティティレベルの効果を支配することが示された。
    • ファッションスタイルなどの視覚的手がかりが,属性レベルの変化を最も大きく引き起こすことが明らかになった。
    • 約15の属性が全体の変動の約80%を占め,偏見が少数の視覚的手がかりに集中していることが示された。

    Link: https://arxiv.org/abs/2606.20527

  • VisDom:可視領域制約を用いた疎な新規視点合成 [cs.CV]目的:疎な新規視点合成における3次元形状の再構成
    • 少数視点からの3次元形状復元は難題であり,様々な分野でその重要性が増している。
    • 従来のNeRFやGSベースの手法は,疎な設定では過学習を起こしやすく,不自然なアーティファクトが生じる。
    • 可視領域制約を導入することで,疎な視点からの形状復元における空間的な事前知識を強化する。
    • VisDomは,シルエットの一貫性よりも強力な制約を提供し,少ない画像枚数でも高品質な再構成を可能にする。
    • 本手法は,NeRFやGSといった既存のアプローチに容易に組み込むことができ,学習パラメータを必要としない。
    • 実験結果から,VisDomはOmni3DやMipNeRF360において性能を向上させ,学習コストを大幅に削減することが示された。

    Link: https://arxiv.org/abs/2606.20531

  • 生成モデル評価における隠れたランダム性の定量化:FIDの抽選 [cs.CV]目的:生成モデル評価におけるFIDの再現性と変動性の評価
    • 画像生成技術の発展に伴い,その品質評価が重要となっている。
    • FIDは広く用いられているが,その数値のばらつきが十分に考慮されていない。
    • FIDの変動要因を特定し,より信頼性の高い評価プロトコルを提案すること。
    • FIDは,同じレシピでモデルを再訓練した場合,サンプリングをやり直す場合よりも大きな変動を示す。
    • 変動の要因は,初期化,データ順序,flow-matching損失のガウスノイズなどである。
    • 計算量やモデルサイズを増やしてもFIDのばらつきは小さくならない。最適なガイダンスチューニングはばらつきを半減させる。

    Link: https://arxiv.org/abs/2606.20536

  • CalTennis:大規模マルチビューテニスビデオデータセットと単眼からの3D姿勢推定のベンチマーク [cs.CV]目的:単眼からの3D姿勢推定の評価のための大規模なビデオベンチマーク
    • スポーツ分析や人間行動理解において,正確な3D姿勢推定は不可欠な技術である。
    • 実環境における人間の動きのデータセットは規模が小さく,十分な評価が困難であった。
    • 専門的な運動の3D姿勢推定の性能向上を目指し,大規模なデータセットと評価基準を提示する。
    • CalTennisは,1100万フレームを超える大規模なデータセットであり,既存のデータセットを大幅に上回る規模である。
    • 既存の3D関節角度回復は高い精度を達成している一方,奥行き推定や足の接触推定には課題が残る。
    • 新たに足運びと安定性を評価する指標を提案し,姿勢推定における改善の余地を示唆した。

    Link: https://arxiv.org/abs/2606.20542

  • SSD:空間的推測デコーディングが自己回帰型画像生成を加速する [cs.CV]目的:自己回帰型画像生成の加速
    • 画像生成において,自然な画像構造を活かすことが重要である。
    • 従来の画像生成は,空間的な局所性を無視した一次元シーケンス処理に依存している。
    • 空間的な相関を利用することで,画像生成の計算効率を向上させる。
    • 提案手法である空間的推測デコーディングは,画像生成の推論速度を最大13.3倍に向上させる。
    • DPG-BenchおよびGenEvalにおける評価で,高い品質を維持しながら高速化を実現している。
    • 画像の幾何学的な構造を考慮することで,計算効率が大幅に向上する可能性を示唆している。

    Link: https://arxiv.org/abs/2606.20543

  • 現在のワールドモデルは持続的な状態核を欠いている [cs.CV]目的:ワールドモデルにおける物理世界の内部状態の進化の評価
    • 汎用人工知能実現には,物理世界を正確にモデル化することが不可欠である。
    • 既存の評価基準は,視覚的な忠実度などに偏り,観察が途絶えた後の状態変化を評価していない。
    • 観察されない状態での物理的な状態の安定性と一貫性を評価する新たな基準を提示する。
    • 既存のワールドモデルは,カメラが離れた後もイベントを進展させることなく,中断された時点の状態を維持する傾向がある。
    • この問題は,制御パラダイム,モデルファミリー,規模に関わらず一貫して発生しており,単に画像の品質向上では解決しない。
    • ワールドモデル設計において,物理状態の安定性と視点変化下の一貫性を重視すべきである。

    Link: https://arxiv.org/abs/2606.20545

  • トークンは群の要素である:行列リー群上のリー代数注意について [cs.LG, cs.CV, cs.GR, cs.RO, math.DG]目的:行列リー群上のリー代数注意の構築
    • 近年,Transformerモデルが自然言語処理をはじめ様々な分野で高い性能を発揮している。
    • 従来のAttention機構では,表現学習に依存するため,群構造を直接活用できていない。
    • 行列リー群の要素を直接Attentionのトークンとして扱うことで,表現学習の負担を軽減し,幾何学的構造を活かす。
    • 本研究で提案するリー代数注意は,従来の学習に基づくカーネルに頼らず,閉形式のリー代数ノルムを用いる。
    • これにより,irreducible representation(irreps)や surjective-exp に基づく手法では扱えないaffine群を含む,より広範なリー群に対して適用可能となる。
    • 実験結果から,提案手法はSE(2), SO(3), Aff(2)上で,学習されたMLPカーネルと同等またはそれ以上の性能を示し,パラメータ数を大幅に削減できることが示された。

    Link: https://arxiv.org/abs/2606.20547

  • 箱で考える:リアル画像での3D編集を容易に [cs.CV]目的:リアル画像における3D編集の新しい手法
    • 画像編集において,空間的な変換を正確に制御することは重要な課題である。
    • 従来のテキストや2D条件による制御は曖昧で,大きな物体の動きやカメラの変化に弱い。
    • 3Dボックスを用いることで,正確な幾何学的問題として編集を定義し,制御性を向上させる。
    • 3Dボックスの面の色分けにより,3D方向を直感的に把握でき,正確な変換操作が可能となる。
    • 深度情報を考慮した平面状の基準面を導入することで,シーン外観に基づいた一貫性のある変換を実現した。
    • 合成データと実世界のビデオで学習することで,複雑な現実の画像にも対応できる汎化性能を示す。

    Link: https://arxiv.org/abs/2606.20556

  • UNIEGO:統一的な一人称視点ビデオ表現学習のためのプロキシ [cs.CV, cs.LG]目的:一人称視点ビデオの統一的なエンコーダの学習
    • 一人称視点ビデオは,人間行動の理解において重要な役割を果たす。
    • 既存手法では,視点,モダリティ,モデルの多様性を捉えきれない。
    • 多様な知識を統合し,一人称視点ビデオのみで活用可能な表現学習を目指す。
    • 提案手法UNIEGOは,9つの教師モデルを用いた階層的な知識蒸留フレームワークを採用。
    • プロキシモデルを介して教師の知識を均質化し,信頼性の高い知識のみを蒸留する。
    • 3つのベンチマークにおいて,最先端の性能を達成し,表現力の高い学習が可能であることを示す。

    Link: https://arxiv.org/abs/2606.20559

  • TimeProVe:日常生活における効率的な長編動画の時間的推論のための提案と検証 [cs.CV]目的:長編動画における時間的推論の効率化
    • 動画理解は,監視,医療,ロボティクスなど幅広い分野で重要性を増している。
    • 既存手法は計算コストが高すぎるか,時間的に局在した証拠を見落とす可能性がある。
    • 時間的推論のコストを削減しつつ,精度を向上させることを目指す。
    • TimeProVeは,強力なベースラインと比較してOpenTSUBenchで7.3%の性能向上を示した。
    • VLMの呼び出し回数を75%削減し,推論コストを93%削減することに成功した。
    • 明示的な時間的根拠付け訓練なしに,Charades-STAでも競争力のある性能を発揮した。

    Link: https://arxiv.org/abs/2606.20561

  • JanusMesh:クロス空間ノイズ除去による高速かつゼロショット3D視覚的錯覚生成 [cs.RO, cs.CV]目的:3D視覚的錯覚の生成
    • 3Dコンピュータビジョン分野における,人間の知覚を模倣した新しい表現の探求。
    • 既存手法は速度が遅く,色の飽和が過剰になりがち。また,単純な結合では幾何学的な一貫性が損なわれる。
    • テキストに基づいた3D視覚的錯覚を,高速かつ学習なしで生成すること。
    • 提案手法は,クロス空間二分岐ノイズ除去プロセスと,視点条件付きテクスチャ合成モジュールを用いる。
    • この手法により,幾何学的に一貫性があり,意味的に認識可能な3D錯覚を,わずか3〜5分で生成可能。
    • 既存手法と比較して,幾何学的完全性,意味的認識可能性,効率において大幅な改善が確認された。

    Link: https://arxiv.org/abs/2606.20563

  • 人間による普遍的な把持 [cs.RO, cs.AI, cs.CV, cs.LG]目的:人間の把持データの活用による,汎用的なロボット把持の実現
    • 人間は容易に物体を把持できるが,多指ロボットは未だそのレベルに達していない。
    • ロボットの把持に関するデータが不足しており,多様な物体への対応が困難である。
    • 人間の把持データを模倣することで,ロボットの把持能力を向上させる。
    • 本研究では,100万件の人間の把持データを収集し,RGB-D画像から多様な把持姿勢を生成するフローマッチングモデルHUGを提案した。
    • HUGは,既存の把持手法と比較して,新しいベンチマークHUG-Benchにおいて,それぞれ+23%および+34%の性能向上を示した。
    • 提案手法は,様々なロボットハンドや環境において,ゼロショットでの把持を可能にする。

    Link: https://arxiv.org/abs/2606.17054

  • 完全自己診断(FSD):逆問題とオペレーター学習によるスマートフォン動画からの物理に基づいた生理学的バイオマーカー推論 [eess.IV, cs.CV, cs.LG]目的:スマートフォン動画から潜在的な生理学的状態を回復すること
    • 健康管理における非侵襲的なバイオマーカー測定の重要性が高まっている。
    • 従来のバイオマーカー測定には,専門的な機器や侵襲的な手続きが必要となる場合が多い。
    • スマートフォン動画という手軽なデータから,高精度なバイオマーカー推定を実現すること。
    • 提案手法FSDは,スマートフォンで撮影された顔の動画から生理学的状態を推定する統一的な数学的フレームワークである。
    • 38812件のデータを用いた実験により,実用的な性能が示された。特に,血糖値の推定において高い精度を達成した。
    • 本研究は,消費者向け機器の顔動画に,臨床的に有用な非侵襲的バイオマーカー推論に必要な情報が含まれていることを確認した。

    Link: https://arxiv.org/abs/2606.19372

  • FrequencyFormer:周波数領域Vision Transformer推論のためのセンサー・プロセッサ協調パイプライン [math.CO, cs.DM, eess.IV, cs.CV]目的:周波数領域でのVision Transformer推論効率化のためのセンサー・プロセッサ協調パイプライン
    • センサーエッジシステムにおける画像処理需要の増加に伴い,低消費電力かつ高速な処理が求められている。
    • 高次元な画像データをセンサーからプロセッサへ伝送する際のエネルギー・帯域幅がボトルネックとなっている。
    • センサー側でのデータ圧縮技術を向上させ,センサー・プロセッサ間のデータ転送量を削減することを目的とする。
    • FrequencyFormerは,画像データを周波数領域に変換することで,オフチップデータ量を最大128倍削減し,精度低下を最小限に抑える。
    • 固定DCT係数を利用したLUTベースのニアセンサーハードウェア実装により,エネルギー効率と面積効率の高いトークン化を実現。
    • パイプライン全体で28.8 TOPS/Wを達成し,通信エネルギーを230倍,センサー側の総エネルギーを2.22倍削減した。

    Link: https://arxiv.org/abs/2606.19574

  • 輪郭制約を用いたパラメータ特性化による頭頸部外科手術ガイダンスのための変形可能登録 [eess.IV, cs.CV, physics.med-ph]目的:頭頸部外科手術における切除床と切除標本の正確な位置合わせ
    • 頭頸部悪性腫瘍は再発率が高く,切除マージン評価の正確性が重要である。
    • 切除後の粘膜組織の収縮により,切除標本と切除床の位置合わせが困難である。
    • 切除後の組織変形を補正し,手術中のガイダンス精度を向上させる。
    • 変形可能登録により,剛体登録と比較してターゲット登録誤差が26.19%減少した。
    • 輪郭制約を用いた変形可能登録は,剛体登録と比較して49.41%の誤差低減を実現した。
    • 特に臨床的に困難な舌の標本において,誤差低減効果が大きかった。

    Link: https://arxiv.org/abs/2606.19767

  • クロスデータセット,年齢,性別での汎化性能:低リソース子供向け音声認識におけるファインチューニング戦略の包括的分析 [eess.AS, cs.AI, cs.SD]目的:低リソース子供向け音声認識のためのファインチューニング戦略に関する包括的な分析
    • 音声認識技術は,子供や発話困難者を含む幅広い層へのコミュニケーション支援に不可欠である。
    • 発話困難者の音声は,音響的変動が大きく,従来の音声認識システムでは高い精度を達成することが難しい。
    • 本研究は,発話困難者の音声認識精度を向上させるための最適な音響特徴量の組み合わせを特定することを試みる。
    • 音高特徴量の導入により,特に発話困難者の音声を含む文認識タスクにおいて,認識性能が大幅に向上した。
    • F-TDNNモデルを用いた実験により,単語分離認識で4.65%,文認識で4.63%の相対的な性能向上が確認された。
    • トレーニング例間の重複フレーム数の慎重な選択が,音響変動への効果的な対処に貢献していると考えられる。

    Link: https://arxiv.org/abs/2606.19791

  • 失語症音声認識の体系的研究:スペクトル特徴と音響モデル [eess.AS, cs.AI, cs.LG, cs.SD, eess.SP]目的:失語症音声認識における性能向上
    • 音声認識技術は,コミュニケーション支援に不可欠であり,その応用範囲は広い。
    • 失語症音声は,発音の不正確さから音響的な変動が大きく,認識が困難である。
    • 本研究は,音響特徴と音響モデルの組み合わせを最適化し,失語症音声認識の精度向上を目指す。
    • ピッチ特徴量の導入が,特に文認識において,失語症音声認識の性能向上に貢献した。
    • F-TDNNモデルを用いた結果,単語認識で4.65%,文認識で4.63%の相対的な性能改善が確認された。
    • この改善は,学習データのフレームオーバーラップ数を調整したことによる音響変動への対応に起因する。

    Link: https://arxiv.org/abs/2606.19793

  • 発話困難音声に対するエンドツーエンド音声認識の,ドメイン内データ拡張による改善 [econ.GN, cs.CY, q-fin.EC, eess.AS, cs.AI, cs.SD, eess.SP]目的:発話困難音声の音声認識性能向上
    • 発話困難はコミュニケーションの障壁となり,その解決が社会参加促進に不可欠である。
    • 発話困難音声は多様な症状とデータ不足により,高精度な認識が困難である。
    • 症状ごとのデータ拡張により,データ不足を補い,認識精度向上を目指す。
    • データ拡張手法(SRM, PM, FM, VTLP)を症状別に適用し,Wav2Vec2モデルをファインチューニングした結果,良好な結果が得られた。
    • 軽度・中度の症状にはSRM,重度の症状にはPMが最も効果的であり,それぞれ30.02%,16.64%,15.47%のWER改善率を示した。
    • これらの結果は,データ拡張が発話困難音声認識性能の向上に貢献することを示す。

    Link: https://arxiv.org/abs/2606.19797

  • 音響・韻律摂動による音声品質評価における人間とモデルの不一致の調査 [eess.AS, cs.CL, cs.LG, cs.SD]目的:音声品質評価モデルと人間の知覚特性の差異の分析
    • 音声合成技術の発展に伴い,客観評価指標の信頼性が重要視されている。
    • 既存の音声品質評価モデルは,音響的忠実度以外の要素を捉えきれていない。
    • モデルの限界を明らかにし,より人間らしい評価指標の開発に貢献する。
    • 多くのモデルは音響劣化を追跡できるが,韻律エラーには鈍感である。
    • モデルは基本周波数に強い偏りを示す一方,発話速度や基本周波数の変動には無感である。
    • これらの結果は,スカラーMOS予測が音響的忠実度を超えた品質を捉える限界を示す。

    Link: https://arxiv.org/abs/2606.19951

  • ユーザー定義キーワードを活用したパーソナライズされたキーワードスポッティング [eess.AS, cs.SD]目的:ユーザー定義キーワードに対するキーワードスポッティングの性能向上
    • 音声認識技術の発展に伴い,特定のキーワードを認識する技術の需要が高まっている。
    • 既存のキーワードスポッティングシステムは,話者識別を考慮しておらず,不正な話者によるキーワードの発話を拒否できない。
    • 未知のキーワードと未知の話者に対して,高い精度でキーワードスポッティングを実現すること。
    • 提案手法ZP-KWSは,音素に注目した音声エンコーダと,GE2Eで事前学習されたコンパクトな話者エンコーダを組み合わせることで,軽量なフレームワークを実現した。
    • ZP-KWSは,LibriPhrase,Google Speech Commands,Qualcommデータセットにおいて,強力なベースラインと比較して,ターゲットのみのFRRを最大60%削減することに成功した。
    • ZP-KWSは,1.55Mパラメータという限られた計算量で,競合するキーワード検出性能を維持しながら,厳密な話者ゲート付きアクティベーションをサポートする。

    Link: https://arxiv.org/abs/2606.20106

  • PASQA:アクセントに焦点を当てた音声品質評価モデル - 合成音声におけるアクセント誤りを用いた学習 [eess.AS, cs.CL, cs.LG, cs.SD]目的:日本語のアクセントの正確性を評価するモデル
    • 音声合成技術の発展に伴い,より自然な音声が求められているため。
    • 従来の音声品質評価モデルは,局所的なアクセント誤りに鈍感であるという課題がある。
    • アクセント誤りの正確性を評価し,より自然な音声合成を実現すること。
    • PASQAは,アクセント誤り率から算出される擬似アクセント品質スコアを用いて学習された。
    • 従来のモデルではアクセント誤りの深刻度による順序が保持されないのに対し,PASQAは高い順序精度を達成した。
    • PASQAは,人間のアクセント正確性の判断との一致度が高いことが示された。

    Link: https://arxiv.org/abs/2606.20137

  • 理想的なGPT:大規模言語モデルによる視覚と言語の推論の反復的な分解 [cs.AR, cs.CV, cs.CL]目的:視覚と言語の推論における反復的な分解フレームワーク
    • 視覚と言語の理解は,近年急速に進歩しており,様々な応用が期待されている。
    • 既存モデルは,多段階推論を必要とするゼロショット推論タスクにおいて,依然として課題を抱えている。
    • 大規模言語モデルを用いて,推論プロセスを反復的に分解し,よりロバストな推論を実現することを目指す。
    • IdealGPTは,サブ質問の生成,対応するサブ回答の提供,最終回答の推論という3つのモジュールを反復的に実行する。
    • VCRとSNLI-VEにおいて,既存のGPT-4ライクなモデルをそれぞれ絶対10%,15%上回る性能を示した。
    • モデルが最終的な回答に自信を持つまで,分解手順を繰り返すことで,推論精度を高めている。

    Link: https://arxiv.org/abs/2305.14985