arXiv雑要約

画像・音声 - 2026/06/16 公開

  • RepWAM:表現視覚行動トークン化による世界行動モデル [cs.CV]目的:表現を中心とした世界行動モデルの構築
    • ロボットの自律的な行動計画と実行には,環境の理解と将来予測が不可欠である。
    • 既存の世界行動モデルは,視覚的な忠実度を重視したビデオトークン化に依存し,ロボット制御に必要な動的な学習が不十分である。
    • 視覚と行動を意味的に表現するトークン化により,ロボット制御に適した将来予測を可能にすること。
    • RepWAMは,多様な操作設定において高い性能を示し,既存手法を上回る結果が得られた。
    • 意味的な視覚行動トークン化が,再構成指向型アプローチよりも優れていることが示された。
    • 本研究は,汎用的なロボットポリシーへの道を開く,世界行動モデルの新たな基盤を確立した。

    Link: https://arxiv.org/abs/2606.13674

  • μ₀:スケーラブルな3Dインタラクション軌跡ワールドモデル [cs.CL, cs.RO, cs.CV, cs.LG]目的:3Dインタラクション軌跡に基づくワールドモデルの構築
    • ロボット学習において,具現化依存性の低い学習手法の確立が重要である。
    • 従来のピクセルベースモデルは計算コストが高く,直接的な行動モデルは汎用性に欠ける。
    • 3D軌跡表現を用いることで,スケーラブルかつ具現化に依存しない学習を目指す。
    • μ₀は,物体,ツール,手,接触領域などの主要なインタラクションポイントの滑らかな3D軌跡を予測することで,コンパクトかつ具現化に依存しない表現を実現した。
    • 自動抽出システムTraceExtractにより,多様な動画データから3D軌跡の教師データを作成し,μ₀の事前学習を可能にした。
    • 事前学習されたμ₀は,ダウンストリームのロボット具現化において,アクションエキスパートと組み合わせることで,競争力のある性能を発揮した。

    Link: https://arxiv.org/abs/2606.13769

  • Clay-CNNハイブリッド:地形モデルを補助的文脈として活用した土砂災害検出 [cs.CV, cs.AI, cs.LG, eess.IV]目的:土砂災害検出におけるピクセルレベルセグメンテーションの性能向上
    • 災害対応において,迅速な土砂災害マッピングは不可欠であり,自動化のニーズが高い。
    • 土砂災害データセットはクラス不均衡が極端であり,自動化を困難にしている。
    • 地形モデルをCNNに統合し,土砂災害検出の精度向上を目指す。
    • U-NetとClayのハイブリッドモデルが,テストF1スコア64.5±1.8%を達成し,Clay単独(55.2±3.6%)およびU-Netベースライン(59.9%)を上回った。
    • Clayを単独エンコーダーとして使用した場合,U-Netに劣る性能となったが,補助的文脈として注入することで一貫して性能が向上した。
    • 地形モデルは,空間的に詳細なCNNアーキテクチャを補完することで,土砂災害検出において最も効果的であることが示唆された。

    Link: https://arxiv.org/abs/2606.14081

  • 多数決における,5人以下の候補者で十分であることの解説 [cs.GT, math.CO]目的:ランキング付き選好を用いた選挙における,5人以下のコンドルセ勝利集合の存在
    • 社会選択理論は,集団の意思決定を数学的に分析する分野であり,民主主義の根幹を支える。
    • コンドルセ基準を満たす候補者が存在しない選挙が多く,公正な選出方法が課題となっている。
    • コンドルセ勝利集合のサイズの上限を明らかにすることで,現実的な選挙への応用可能性を探る。
    • ソン,グエン,リン(2026)の研究結果により,どのようなランキング付き選好の選挙においても,コンドルセ勝利集合は最大で5人以下であることが示された。
    • 本研究は,この結果を解説することで,理論的な理解を深めることを目指す。

    Link: https://arxiv.org/abs/2606.14666

  • 医療画像解析における分布シフトへの対応:サーベイ [math.CO, cs.DM, eess.IV, cs.CV, cs.LG]目的:医療画像解析における分布シフトへの対応手法の体系的なレビュー
    • 医療画像解析は,臨床診断と個別化医療の向上に不可欠であり,現代医療において重要な役割を担っている。
    • 深層学習モデルは,異なる病院や患者集団間でデータ分布が異なる場合に性能が低下することが課題となっている。
    • 本研究は,現実的な臨床的制約下で深層学習モデルの適応性を高めるための手法を分類し,課題解決を目指す。
    • 既存研究を,共同学習,連合学習,ファインチューニング,ドメイン汎化の4つのパラダイムに分類した。
    • ドメイン情報が少なくなるにつれて,性能向上の限界が明らかになり,不確実性に基づいたモデリングへの焦点が移っていることが示唆された。
    • 現実世界の医療画像解析における実用性を考慮した設計の必要性を示唆する。

    Link: https://arxiv.org/abs/2411.05824

  • 非カルテシアンフーリエイメージングのための新しいk空間モデル [eess.SP, cs.CV]目的:非カルテシアンMRI再構成における画像品質向上と計算複雑性軽減
    • フーリエイメージングは,医療画像分野において基本的な役割を担っており,その精度向上が重要である。
    • 従来のボクセルベースモデルは,計算コストが高い,収束が遅い,アーチファクトが発生しやすいといった問題点がある。
    • 既存モデルの限界を克服し,よりロバストで効率的な画像再構成手法を確立することを目指している。
    • 新しいモデルは,従来のボクセルベースのアプローチとは異なり,フーリエ領域での基底関数展開を用いる。
    • その結果,アーチファクトの低減と計算速度の向上が確認された。
    • 提案手法は,非カルテシアンMRI再構成において,画像品質と計算効率の両面で改善をもたらすことが示された。

    Link: https://arxiv.org/abs/2505.05647

  • コンドルセのパラドックスの非可定向性トポロジー [math.AT, cs.GT, econ.TH]目的:コンドルセのパラドックスにおける嗜好のサイクルに関するトポロジー的モデルの構築
    • 意思決定における問題であり,社会選択理論の基礎をなす重要なパラドックスである。
    • トポロジーを用いた社会選択理論における嗜好サイクルの特徴づけが不足している。
    • コンドルセのパラドックスの根底にある矛盾をトポロジー的にモデル化し,解決を目指す。
    • 嗜好のサイクルをトポロジー的にモデル化するフレームワークを提示した。
    • このフレームワークにおいて,矛盾はクラインの壺や実射影平面の非可定向性に対応する。
    • アローの不可能性定理を,表面の可定向性を用いて再定式化した。

    Link: https://arxiv.org/abs/2601.07283

  • 拡散逆サンプリングによる音響・映像からの音声と背景雑音の分離 [eess.AS, cs.LG, cs.SD]目的:実世界の環境雑音下における単一マイクロホン音声分離・強調
    • 音声処理技術は,コミュニケーションの円滑化や情報伝達の正確性向上に不可欠である。
    • 実際の環境下では,雑音の影響で音声が劣化し,分離・強調が困難となる場合が多い。
    • 本研究は,音声と雑音を分離し,より明瞭な音声を取得することを目指している。
    • 提案手法は,拡散事前分布を用いた生成逆サンプリングに基づくものであり,教師なし学習においても優れた性能を示す。
    • 混合音源数(1,2,3話者)の全てにおいて,主要な音声認識レート(WER)で既存の教師あり学習手法を上回る結果が得られた。
    • さらに,本手法は,画面外話者の分離にも対応可能であり,分離された雑音成分は音響シーン検出にも利用できる。

    Link: https://arxiv.org/abs/2602.01394

  • 物理情報ニューラル場を用いた動的ブラックホールエミッション断層撮影 [math.AC, cs.SC, math.CO, gr-qc, astro-ph.IM, cs.CV]目的:動的ブラックホール近傍のガス流の3次元再構成
    • 静的ブラックホール画像取得の成功を受け,宇宙の新たな側面を解明する動的3次元イメージングが求められている。
    • 観測データが少なく,単一視点からの不完全な情報しか得られないため,3次元再構成は非常に困難である。
    • BH-NeRFの制約を克服し,より正確なガス流とエミッション場の再構成を目指す。
    • 提案手法PI-DEFは,微分可能なニューラルレンダリングを用いて,時間と空間を含む4次元のエミッション場を再構成する。
    • PI-DEFは,エミッション場のダイナミクスに対するソフト制約として速度場を同時に再構成する。
    • シミュレーションデータを用いた実験で,BH-NeRFや物理情報を用いない手法と比較して,再構成精度が大幅に向上することが示された。

    Link: https://arxiv.org/abs/2602.08029

  • 系統情報に基づいた残差フローマッチングによる3D頭蓋形態の神経生成:PhyloSDF [q-bio.QM, cs.CV]目的:3D頭蓋形態の神経生成モデルの開発
    • 進化生物学において,形態構造の生成は重要課題であり,遺伝的関係の尊重が求められる。
    • データ不足と系統関係の制約により,生物学的に妥当な3D形状の生成は困難である。
    • 系統情報を統合し,少ない標本数でも多様な形態を生成する手法を確立すること。
    • PhyloSDFは,進化距離と相関する潜在空間を構築する新たな損失関数を導入した。
    • 残差条件付きフローマッチングにより,少ない標本数(約4標本/種)での生成を可能にした。
    • ダーウィンフィンチの頭蓋骨を用いた評価で,実データと同等の変動を示し,系統外挿能力と生物学的に妥当な祖先再構成を実現した。

    Link: https://arxiv.org/abs/2604.25371

  • アルツハイマー病診断のためのグラフマッチングネットワーク:テスト時ドメイン適応による多施設構造MRI [eess.IV, cs.AI, cs.CV]目的:アルツハイマー病診断のためのグラフマッチングネットワーク
    • アルツハイマー病は高齢化社会において患者数増加が予想され,早期診断が重要である。
    • 従来のグラフベースの手法は,モダリティや施設間での異質性に弱く,診断性能が制限される。
    • 脳グラフ間の関係性を捉え,ドメインシフトを軽減することで,診断精度向上を目指す。
    • 提案手法GMN4ADは,3つの公開ADデータセットにおいて,最先端手法と比較して優れた性能を示した。
    • グラフマッチングにより,異種脳グラフ間の相互作用をモデル化し,診断精度を高めることに成功した。
    • テスト時ドメイン適応戦略により,推論時のドメインシフトの影響を軽減し,汎化性能を向上させた。

    Link: https://arxiv.org/abs/2606.13919