arXiv雑要約

画像・音声 - 2026/06/15 公開

  • 第三次SO(3)表現結合による回転不変球面ウォーターマーキング [cs.RO, cs.DB, cs.DC, cs.CV, cs.AI, cs.CR, cs.LG]目的:パノラマ画像に対する回転不変なウォーターマーク埋め込み手法
    • パノラマ画像は球面上で定義され,あらゆる3D回転の影響を受けるため,その保護が重要である。
    • 従来の平面表現や拡張ベースの堅牢性戦略は,球面上の回転に対して理論的な保証がない。
    • 高次のSO(3)表現の結合により,回転不変な記述子を導出し,信頼性の高いウォーターマーキングを実現する。
    • 本研究では,球面調和係数を用いてパノラマ画像を表現し,第三次の不変構成を導入した。
    • これにより,位相情報を保持しつつ,厳密な回転不変性を実現する球面不変双スペクトルを得た。
    • 実験により,提案手法が連続的な回転に対してほぼ完璧な堅牢性を示すことが確認された。

    Link: https://arxiv.org/abs/2605.26702

  • SA4Depth:自己教師あり単眼深度推定のための整合的な姿勢・深度スケールアライメント [cs.CV]目的:単眼画像系列からの深度と姿勢の学習におけるスケールアライメントの改善
    • 自己教師あり学習は,アノテーションコストを削減し,多様な環境への適応を可能にするため重要である。
    • 姿勢推定ネットワークの学習は深度推定に比べ遅れており,スケールアライメントが課題となっている。
    • 深度と姿勢ネットワークによって推定されるスケールの不整合を解消し,深度推定の精度向上を目指す。
    • 提案手法SA4Depthは,学習中の深度推定値を活用し,特徴量再投影によって姿勢推定を改善する。
    • 姿勢と深度ネットワークのスケールアライメントを改善し,異なる系列間の一貫性を高める。
    • KITTI, Cityscapes, NYUv2での実験により,提案手法が既存手法を大幅に改善することが示された。

    Link: https://arxiv.org/abs/2605.28477

  • 視点自己探索による計画 [cs.IR, cs.AI, cs.CV, cs.RO]目的:視点計画の実現
    • 仮想空間でのナビゲーションは,ロボット工学やVR/AR等の応用において重要である。
    • 大規模言語モデル(VLM)は視点と行動の関係を理解するが,複数ステップの計画に苦戦する。
    • 自己探索と視点グラフ蒸留により,VLMの3D空間における推論と計画能力を向上させる。
    • 提案手法は,Qwen2.5-VL-7Bのインタラクティブな視点計画の成功率を2.5%から47.8%に向上させた。
    • この性能はGPT-5.4 Pro (18.5%)やGemini 3.1 Pro (21.4%)を上回る。
    • 自己探索は,VLMが3D空間で積極的に推論し計画するための有望な道筋を示している。

    Link: https://arxiv.org/abs/2605.29563

  • ボトルネックフリーな統一マルチモーダルモデルのための表現強制 [cs.CL, cs.DB, cs.CV]目的:ボトルネックフリーな統一マルチモーダルモデルの実現
    • マルチモーダル研究は,人間のような知能を実現する上で不可欠であり,多様な情報源を統合する能力が求められる。
    • 既存の統一マルチモーダルモデルは,画像生成に事前学習済みのVAEに依存しており,構造的なボトルネックとなっている。
    • 表現強制により,モデルがVAEなしで高品質な画像生成と理解を両立することを可能にする。
    • 表現強制は,モデルに視覚表現の予測能力を組み込み,生成時のボトルネックを解消する。
    • 画像生成において,表現強制を用いたモデルは,最先端のVAEベースのモデルと同等の性能を示す。
    • 画像理解においても,表現強制はVAEベースのモデルを上回る性能を発揮する。

    Link: https://arxiv.org/abs/2605.31604

  • エージェント型機械知能における因果的幻影均衡 [cs.GT]目的:エージェント型機械知能における因果的幻影均衡の定式化
    • 機械知能の発展は,社会や経済に大きな影響を与えうる。その安全性と信頼性の確保が重要である。
    • 既存のゲーム理論は,エージェントの内部表現と外部状態の因果関係を前提とするが,現実の機械知能ではそれが崩れる場合がある。
    • 意味表現と現実の乖離を定量化し,安定的な非接地状態の存在を示すことで,機械知能の振る舞いを予測する。
    • 本研究では,リスク感受性のある平均場型ゲームにおいて,内生的認識的脱結合を形式化する新たな均衡概念「因果的幻影均衡 (CME)」を導入した。
    • CMEは,ナッシュ均衡やベイズ均衡とは異なり,最適化戦略や観測的信念ではなく,非接地意味表現多様体を安定化させる。
    • 内生的強化が因果的根拠を上回ると,唯一の接地固定点が不安定になり,非接地状態の安定な不変多様体が生じることを示した。

    Link: https://arxiv.org/abs/2606.03636

  • ZipSplat:より少ないガウス関数で,より良いスプラット [cs.CV]目的:シーンの再構成におけるガウス関数の配置方法
    • 3次元シーンの再構成は,仮想現実やロボット工学において重要な技術である。
    • 既存手法では,カメラ解像度に依存してガウス関数数が増加し,効率が課題となっていた。
    • ガウス関数の配置をピクセルグリッドから分離し,シーンの複雑さに応じた表現を目指す。
    • ZipSplatは,トークンベースのアプローチにより,従来のpixel-aligned手法と比較して約6倍少ないガウス関数数で同等の品質を実現した。
    • DL3DVとRealEstate10Kのデータセットにおいて,既存のpose-freeベースラインをそれぞれ2.1dB,1.2dB上回るPSNRを達成した。
    • Mip-NeRF360やScanNet++といった他のデータセットにおいても,高い汎化性能を示した。

    Link: https://arxiv.org/abs/2606.05102

  • LiAuto-GeoX:効率的な実環境対応型運転Transformer [cs.CV]目的:実環境での運転を想定した,効率的な3次元シーン理解
    • 自動運転における空間認識の重要性は高く,3次元再構成技術はその鍵となる。
    • 既存の3次元再構成モデルは計算コストが高く,リアルタイム処理や長距離の幾何学的精度に課題がある。
    • リアルタイム性と高精度な3次元再構成を両立し,自動運転における実用性を高めることを目指す。
    • LiAuto-GeoXは,KITTIデータセットにおいて220FPSというリアルタイム処理速度を実現した。
    • 高精度な3次元再構成により,軌道予測(PDMS:90.6),Occupancy予測(mIoU:24.63),未来フレーム予測(IoU:47.67)の性能向上に貢献した。
    • 効率的な3次元再構成が,自動運転における基礎的な幾何学的表現として機能する可能性を示した。

    Link: https://arxiv.org/abs/2606.05774

  • 生成器シフト下におけるトークン空間の調査:AI生成音楽検出において [cs.RO, cs.SD, eess.AS]目的:AI生成音楽検出における生成器シフト下のトークン空間
    • AI生成音楽の普及に伴い,その検出技術の重要性が増している。
    • 既存の検出器は,学習時に存在しない生成元への転移に弱いという課題がある。
    • 異なる生成元間におけるトークン空間の違いを明らかにし,検出性能の向上を目指す。
    • 標準的な評価や,学習データに含まれる生成元限定の評価では性能が飽和するのに対し,未知の生成元限定の評価ではトークン空間に大きな違いが露呈した。
    • X-CodecトークンはUdioでの学習時に強く,MERTトークンはSuno-v3.5での学習時に強いという結果が得られた。
    • AI生成音楽検出において,コーデック形式の離散トークン空間が重要な実験軸となることが示唆された。

    Link: https://arxiv.org/abs/2606.08663

  • EquiDexFlow:接触に基づいたSE(3)不変な器用な把持生成フロー [cs.RO, cs.CV, cs.LG]目的:器用な把持の生成
    • ロボットハンドによる物体操作において,安定した把持は重要な課題である。
    • 従来の把持生成手法では,接触力と安定性の関係が十分に考慮されていない。
    • 接触力と安定性を同時に予測するモデルを構築し,現実的な把持を生成すること。
    • EquiDexFlowは,点群から手首姿勢,関節角度,指先接触,表面法線,接触力を同時に予測する。
    • SE(3)不変性を保証し,摩擦条件を満たす把持を生成できることを実験的に示した。
    • 実際のロボットで,全てのテスト対象物体に対して把持と保持に成功した。

    Link: https://arxiv.org/abs/2606.12728

  • バウンディングボックスを目標とする:言語条件付きの把持のための神経記号計画 [cs.RO, cs.AI, cs.CV, cs.SY, eess.SY]目的:言語条件付きの把持タスクのための神経記号計画
    • ロボットを家庭や産業環境に導入するには,自然言語指示へのリアルタイム適応が不可欠である。
    • 既存のロボットタスク・モーション計画アプローチは,計算コストが高いか,大量の学習データを必要とする。
    • 抽象的な空間概念を理解し,追加の調整なしにタスクを実行できるロボットシステムの実現。
    • GRASPは,事前学習済みのVLMを利用し,自然言語クエリを物理世界に基づいたバウンディングボックス検出パイプラインで表現された神経記号的目標状態に変換する。
    • 固定色リストやハードコードされた座標に依存せず,「一番上の棚」などの抽象的な空間概念を解釈する。
    • 3段階の難易度を持つ90回の実機実験で73.3%の全体的な成功率を達成し,タスク固有の学習は不要であった。

    Link: https://arxiv.org/abs/2606.12910

  • バッハ様式による記号音楽の生成モデリング:自己回帰型,潜在変数型,敵対的アプローチの比較研究 [cs.SD, cs.LG]目的:バッハ様式の記号ピアノ音楽生成に関するモデル比較
    • 音楽生成分野は,作曲支援や新たな音楽表現の創出に貢献し,芸術・技術両面で重要である。
    • 既存の音楽生成モデルは,多声音楽の構造を捉えるのが難しく,自然な音楽生成が課題となっていた。
    • 本研究は,バッハ様式音楽の生成において,各アプローチの特性と限界を明らかにすることを目的とする。
    • 自己回帰型LSTMが最も音楽的に一貫性のあるサンプルを生成することが示された。
    • ベクトル量子化は,潜在変数モデルにおける後述崩壊を緩和し,より構造化された出力を実現した。
    • 敵対的アプローチは局所的な音程パターンを捉えるものの,学習が難しく,バッハの様式への汎化性能は低い。

    Link: https://arxiv.org/abs/2606.13626

  • InterleaveThinker:エージェント的交互生成の強化 [cs.RO, cs.CV]目的:画像生成モデルにおける交互生成能力の付与
    • 視覚的な物語,ガイダンス,具現化された操作など,多様な応用において交互生成が重要である。
    • 既存の画像生成モデルは,アーキテクチャの制約から,テキストと画像を交互に生成する能力に乏しい。
    • プランナーと批評家という多重エージェントパイプラインを構築し,既存の画像生成モデルに交互生成能力を付与する。
    • InterleaveThinkerは,様々な画像生成モデルにおいて性能を向上させる。
    • 交互生成ベンチマークにおいて,Nano BananaやGPT-5に匹敵する性能を達成する。
    • 推論ベースのベンチマークにおいても,ベースモデルの性能を大幅に向上させる(例:FLUX.2-kleinにおけるWISEとRISE)。

    Link: https://arxiv.org/abs/2606.13679

  • 音源軌跡を活用した汎用的な音源分離 [eess.AS, cs.SD]目的:移動音源における音源定位と分離の相互促進メカニズムの利用
    • 音響信号処理において,音源の空間情報を活用した分離技術は重要である。分離性能向上に不可欠な要素である。
    • 既存手法は音源方向の事前知識が必要,あるいは定位精度が低く,移動音源分離性能を阻害する。
    • 音源定位と分離の相互促進により,移動音源の分離精度向上を目指す。
    • 提案手法では,音源エンベロープ推定に基づく初期追跡から開始し,分離と追跡を繰り返す。
    • 分離結果を用いて追跡精度を向上させ,その軌跡が更なる分離性能改善に繋がる。
    • 残響下でのシミュレーション実験により,追跡精度向上による分離精度向上が確認された。

    Link: https://arxiv.org/abs/2409.04843

  • MCR-VQGAN:アルツハイマー病イメージングのためのスケーラブルかつ費用対効果の高いタウPET合成アプローチ [eess.IV, cs.CV]目的:アルツハイマー病のタウPET画像合成手法の開発
    • アルツハイマー病の早期診断は重要であり,タウPETはその重要な診断手段である。
    • タウPETは,放射線被ばく,希少性,高コストなどの課題があり,普及が妨げられている。
    • MCR-VQGANは,T1強調MRIから高精度なタウPET画像を合成し,これらの課題を解決することを目指す。
    • MCR-VQGANは,既存のGANモデルと比較して,画像合成性能において優れた結果を示した(MSE=0.0056, PSNR=30.65dB, SSIM=0.9263)。
    • 実データで訓練されたAD分類器は,実データと合成データで同等の精度を示し,診断に必要な特徴が保持されていることを示唆する。
    • ブラーク分類に基づいたROI分析では,実データと合成データのSUVRが強い相関を示し,特にブラークV/VI領域で高い一致度が見られた。

    Link: https://arxiv.org/abs/2512.15947

  • 深層ニューラルネットワークを用いた最大のスネークポリミノの生成 [gr-qc, cs.MS, physics.comp-ph, math.CO, cs.CV]目的:最大のスネークポリミノの生成
    • 組み合わせ最適化問題への深層学習の応用は,従来の手法では困難な問題を解決する可能性を秘めている。
    • 大規模な長方形における最大スネークポリミノの計算は,全探索が必要であり,計算量が膨大となる。
    • 深層学習を用いて,最大スネークポリミノを効率的に生成し,大規模なパターンを解明すること。
    • 提案手法であるSPS Diffusionは,小規模な長方形で学習した結果を,より大規模な長方形に一般化することが示された。
    • 28x28の正方形まで有効なスネークを生成し,計算限界に近い領域で最大スネークの候補を見出すことが可能となった。
    • モデルは分岐やサイクルといった誤りを生じる場合もあるが,深層ニューラルネットワークが複雑な組み合わせ対象の理解に役立つ可能性を示唆している。

    Link: https://arxiv.org/abs/2603.12400

  • 人工知能支援放射線療法における磁気共鳴画像異常値の検出:深層学習を用いた異常の教師なし検出と局在化 [physics.med-ph, cs.AI, cs.CV]目的:放射線療法ワークフローにおける磁気共鳴画像異常値の教師なし検出と局在化
    • 放射線療法に人工知能を導入する上で,画像データの品質管理は治療精度に直結するため重要である。
    • 放射線療法で使用される磁気共鳴画像において,分布外のデータによる異常が,AIの予測に悪影響を及ぼす可能性がある。
    • 本研究は,深層学習を用いて,放射線療法ワークフローにおける磁気共鳴画像の異常を自動的に検出し,その位置を特定することを目的とする。
    • 骨盤MRIにおいて,AUC 0.97 (95% CI, 0.95-0.98)という高い検出性能を示し,脳MRIでもAUC 0.81 (95% CI, 0.74-0.87)を達成した。
    • ヒートマップ分析により,検出された異常領域と正解データとの間で高い空間的一致性が確認され,局在化の正確性が支持された。
    • 本研究は,放射線療法におけるMRI品質管理層としての教師なし異常検出の可能性を示唆し,AIタスクへの影響が懸念される領域の可視化を可能にする。

    Link: https://arxiv.org/abs/2605.24609

  • L1およびL2におけるガス需要の価格弾力性:イーサリアムとArbitrumからのエビデンス [econ.EM, cs.GT]目的:イーサリアムおよびArbitrumにおけるガス需要の価格弾力性の推定
    • ブロックチェーンのスケーラビリティ問題解決のため,ガス需要の理解が不可欠である。
    • 従来の回帰分析では,輻輳による影響を考慮できず,需要の感度を過小評価する可能性がある。
    • 料金メカニズムのシミュレーションやリソース価格改革の評価に必要となる,正確なガス需要の弾力性の算出。
    • イーサリアム(L1)の価格弾力性は-0.006であり,ほぼ非弾力的であることが示された。10%の料金増加でガス需要は0.06%減少する。
    • Arbitrum One(L2)の価格弾力性は-0.036であり,L1よりも感度が高いことが確認された。L2は全体として非弾力的である。
    • L2の資源内訳では,計算,ストレージ,calldata,払い戻しで弾力性が異なり,払い戻しは特に弾力的である。

    Link: https://arxiv.org/abs/2606.13555