arXiv雑要約

画像・音声 - 2026/05/08 公開

  • 連続的な専門家集合:汎用画像復元のためのインスタンス条件付き低ランク残差 [cs.HC, cs.CV, cs.AI]目的:汎用画像復元におけるインスタンス条件付き低ランク残差の適用
    • 現実世界の画像劣化は多様であり,単一のモデルで対応する必要性がある。
    • 既存手法では,局所的な劣化情報を捉えきれない,または更新が不安定である問題がある。
    • トークン単位で動的にパラメータを調整し,劣化に特化した復元を実現する。
    • 提案手法 CEA は,既存のプロンプトベース,記述子ベース,専門家ベースの手法よりも高い復元品質を達成した。
    • 特に空間的に変動する複合的な劣化に対して顕著な改善が見られた。
    • パラメータ数,FLOP,実行時間においても効率性を維持している。

    Link: https://arxiv.org/abs/2605.06127

  • 自己回帰型ビジュアル生成には序論が必要である [cs.CV, cs.AI, cs.LG]目的:自己回帰型画像生成における再構成と生成のギャップを埋める手法
    • 近年,生成モデルの性能向上は目覚ましいが,高画質な画像の生成は依然として課題である。
    • 自己回帰型モデルでは,再構成と生成の両立が難しく,生成性能の向上が阻害される場合がある。
    • 生成に特化した表現を学習し,再構成品質を維持しながら生成性能を向上させることを目指す。
    • 提案手法「Prologue」は,画像トークン列の先頭に少数のプロローグトークンを生成することで,この課題を解決する。
    • ImageNet 256x256において,Prologue-BaseはgFIDを21.01から10.75に,Prologue-LargeはrFIDを0.99,gFIDを1.46にそれぞれ低減した。
    • プロローグトークンは,自己回帰勾配のみで意味構造を獲得し,標準的なトークナイザーよりも高いTop-1精度(35.88%)を示した。

    Link: https://arxiv.org/abs/2605.06137

  • AI生成画像:人間と機械が見る同じ画像 [cs.CV, cs.AI]目的:AI生成画像の検出における,人間が理解しやすい説明の提供
    • AI技術の発展は画像生成を可能にしたが,誤情報の拡散に利用される懸念がある。
    • AI生成画像検出器は精度向上の一方で,判断根拠の説明が不十分である。
    • AI生成画像の検出における説明可能性を高め,人間との整合性を測る。
    • AI生成画像検出器群と説明可能なAI(XAI)手法を統合したフレームワークを開発した。
    • 大規模データセットを用いて評価した結果,XAI手法の視覚的な説明が人間理解に有効であることが示された。
    • XAI出力と人間の視覚的・言語的反応との整合性を測ることで,より信頼性の高い検出が可能となった。

    Link: https://arxiv.org/abs/2605.06143

  • ウォーターシュタイン勾配流を用いた離散自己回帰事前分布の学習 [cs.CV, cs.AI, cs.LG]目的:離散画像トークナイザーの学習方法
    • 画像生成モデルにおいて,効率的なトークナイザーは重要な要素である。表現能力と学習効率の両立が求められる。
    • 既存の二段階学習では,トークナイザーと事前分布モデルの連携が弱く,トークンの予測性能が十分でない場合がある。
    • トークナイザー学習時に事前分布との整合性を高め,より予測しやすいトークン表現を獲得することを目指す。
    • 本研究では,ウォーターシュタイン勾配流を用いてトークナイザー学習時に事前分布との整合性を強化する手法を提案した。
    • 提案手法により,CIFAR-10およびImageNetにおける自己回帰損失の低減と,生成FIDスコアの改善が確認された。
    • 再構成品質を維持しつつ,より効率的なトークナイザー学習を実現できることを示した。

    Link: https://arxiv.org/abs/2605.06148

  • 拡散モデルに対する原理に基づいた安全なシードベースの多ビット透かし [cs.CR, cs.CV]目的:拡散モデルにおける透かし技術の安全性,堅牢性,および忠実度評価のための理論的枠組みの構築
    • 生成モデルの急速な発展に伴い,生成物の権利保護が重要となっているため。
    • 既存の透かし評価は経験則に頼る部分が大きく,汎用性に欠けるという課題がある。
    • モデルに依存しない,理論的な保証に基づいた透かしシステムの設計を可能にすること。
    • 本研究では,安全性,堅牢性,忠実度を定量化する特性曲面に基づいた評価フレームワークを提案した。
    • 提案手法SSBは,既存のシードベース手法を一般化し,特性曲面上の任意の安全・堅牢・忠実度領域に到達可能である。
    • 理論的な保証に基づいた透かしシステムの設計を可能にし,高コストな経験的評価の必要性を低減する。

    Link: https://arxiv.org/abs/2605.06153

  • HNC:詳細な視覚と言語の理解能力を持つモデルに向けた困難な否定キャプションの活用 [cs.CL, cs.AI, cs.CV]目的:視覚と言語のクロスコモーダル理解の向上
    • 画像とテキストの結合による表現学習は,視覚と言語処理の発展に不可欠である。
    • ウェブから収集された画像とテキストのペアは関連性が弱く,詳細な意味理解が困難である。
    • 詳細なクロスコモーダル理解を達成するためのITM(Image-Text-Matching)学習を改善すること。
    • 提案手法であるHNC(Hard Negative Captions)を用いた学習により,モデルのゼロショット能力が向上した。
    • 特に,診断タスクにおける不一致検出や,ノイズの多い視覚入力下でのロバスト性が改善された。
    • HNCで学習したモデルは,ファインチューニングの初期化として同等またはより良い性能を示した。

    Link: https://arxiv.org/abs/2605.06157

  • 継続的な医療画像セグメンテーションにおける忘却を超えて:包括的なベンチマーク研究 [cs.CV]目的:継続的な医療画像セグメンテーション手法の性能評価
    • 臨床環境では画像ドメインやターゲットが変化するため,継続学習が不可欠である。
    • 既存研究は忘却軽減に偏っており,可塑性などの他の重要な性質が軽視されている。
    • 現実的な臨床シナリオに基づいた包括的なベンチマークが求められている。
    • 3つの臨床シナリオ(ドメイン,クラス,臓器)を定義し,評価フレームワークを導入した。
    • 既存の継続学習手法の実験結果から,すべての要件を同時に満たすモデルの開発は困難であることが示された。
    • リプレイベース手法が安定性と可塑性のバランスに優れ,パラメータ分離手法は忘却軽減に有効であると示唆された。

    Link: https://arxiv.org/abs/2605.06160

  • DynT2I-Eval:テキスト画像モデルの動的評価フレームワーク [cs.CV]目的:テキスト画像モデルの評価方法
    • 画像生成技術は急速に進歩しており,その性能評価が重要になっている。
    • 既存の評価基準は固定されたプロンプトに依存し,過学習や汚染のリスクがある。
    • プロンプトを動的に生成し,よりロバストな評価を実現すること。
    • 提案手法DynT2I-Evalは,プロンプトを継続的に更新することで,従来の評価基準の問題点を克服する。
    • このフレームワークは,テキストと画像の対応関係,知覚品質,美観の3つの側面からモデルを評価する。
    • 実験の結果,動的に更新されたプロンプトは,モデルの性能評価において,より公平かつ信頼性の高い結果を提供する。

    Link: https://arxiv.org/abs/2605.06170

  • 網膜-RAG:網膜診断と臨床レポート生成のための検索拡張型視覚言語モデリング [cs.CV, cs.AI]目的:糖尿病性網膜症の重症度評価,黄斑浮腫の検出,およびレポート生成
    • 糖尿病性網膜症は,労働年齢層における予防可能な失明の主要な原因であり,早期発見が重要である。
    • 既存の自動スクリーニングシステムは画像レベルの分類に留まり,構造化された臨床レポートが不足している。
    • 臨床構造化された網膜AIを,限られた計算資源で実現することを目的とする。
    • Retina-RAGは,糖尿病性網膜症の重症度評価においてF1スコア0.731,黄斑浮腫の検出において0.948を達成した。
    • これにより,ゼロショットQwenやMMed-RAGと比較して,大幅な性能向上が認められた。
    • レポート生成では,ROUGE-Lが0.429,SBERT類似度が0.884であり,他のベースラインモデルを上回る結果となった。

    Link: https://arxiv.org/abs/2605.06173

  • SuperFace:擬似教師あり学習を超えて,嗜好性に合致した表情推定 [cs.CV]目的:表情の嗜好性に基づく最適化
    • リアルなデジタルヒューマンアニメーションには正確な表情推定が不可欠である。
    • 信頼できる正解データがないため,高品質な表情推定が困難である。
    • 人間の嗜好に基づき,視覚的に忠実な表情アニメーションを実現する。
    • SuperFaceは,擬似教師データの単純な模倣から,人間の知覚に合致した最適化へと,表情推定を変化させる。
    • ソフトウェア推定係数のみを初期値として利用し,レンダリングされた表情に対する人間の嗜好フィードバックを通じて予測精度を向上させる。
    • 実験により,SuperFaceがLive Link Faceによる教師あり学習よりも表現の忠実度を向上させることが示された。

    Link: https://arxiv.org/abs/2605.06179

  • イベント因果RAG:複雑なシナリオにおける長尺動画推論のための検索拡張生成フレームワーク [cs.AI, cs.CV]目的:長尺動画の複雑なシナリオにおける推論
    • 動画理解は,多様な応用分野において重要な役割を担うため,その高度化が求められている。
    • 既存手法は,長尺動画の文脈維持や時間的に離れたイベント間の因果関係推論が困難である。
    • イベントと状態遷移をグラフ構造で表現し,効率的な検索と推論を可能にすることで,この課題を解決する。
    • 提案手法Event-Causal RAGは,既存のクリップベースの検索手法や長文脈動画モデルを上回る性能を示す。
    • 特に,複数イベントの統合や長期的な因果推論が必要な質問に対して,優れた結果が得られた。
    • メモリ効率の向上とストリーミング性能の安定性も確認された。

    Link: https://arxiv.org/abs/2605.06185

  • EA-WM:構造化された運動学的-視覚的行動場を用いたイベント認識型生成ワールドモデル [cs.CV, cs.AI, cs.RO]目的:ロボットの運動と視覚的知覚間のループを効果的に閉じるための生成ワールドモデル
    • ロボットにおける環境理解と行動計画において,視覚情報と運動情報の統合が重要である。
    • 既存のワールドモデルは,ロボットの空間的形状や物体との相互作用を正確に再現できていない。
    • 運動情報と視覚情報を直接的に結びつけることで,より忠実な環境生成を目指す。
    • 提案手法EA-WMは,運動学的状態と視覚情報を構造化された行動場としてカメラ視点に投影する。
    • イベント認識型の双方向融合ブロックにより,物体状態の変化と相互作用を捉える。
    • WorldArenaベンチマークにおいて,既存手法を大きく上回る性能を達成した。

    Link: https://arxiv.org/abs/2605.06192

  • 承認制委員会選挙における核の存在:最大5種類の有権者タイプ [cs.GT]目的:承認制委員会選挙における核の存在
    • 公正な意思決定を支援する選挙制度の理論的基盤を確立することが重要である。
    • 承認制委員会選挙において,常に安定な委員会が存在するかどうかが未解決問題であった。
    • 最大5人の有権者数を対象に,核の存在を証明し,安定な委員会の構成可能性を示す。
    • 承認制委員会選挙において,有権者数が5人以下であれば,常に核が存在することが証明された。
    • この証明は,アフィンモノイドの技法に基づいており,分数委員会から積分委員会への丸めが可能であることを示している。
    • 同様の手法は,有権者数が6人以上の場合や,より一般的なモデルでは適用できないことが示された。

    Link: https://arxiv.org/abs/2605.06194

  • 医療画像における説明可能な深層学習のための視覚的顕著性と大規模言語モデルの架け橋 [cs.CV, cs.LG]目的:深層学習モデルの説明可能性向上
    • 医療画像診断における深層学習の応用は目覚ましいが,その判断根拠の不透明さが臨床現場での普及を阻んでいる。
    • 既存の説明手法では,視覚的な情報と臨床的な知見を繋げるのが難しく,専門家にとって解釈が困難な場合が多い。
    • 視覚的顕著性と大規模言語モデルを融合し,解釈可能な診断報告を生成することで,この問題を解決することを目指す。
    • CNNとセグメンテーションヘッドを組み合わせたハイブリッドモデルが,空間的に豊かな特徴学習を可能にした。
    • Grad-CAM++が最高のセグメンテーション性能を示し,Grok3が語彙の多様性と文章の整合性で優れていた。
    • 視覚的,解剖学的,言語的情報を統合することで,技術的に妥当で臨床的に解釈可能な説明を提供し,AI診断の透明性を高めた。

    Link: https://arxiv.org/abs/2605.06197

  • エントロピー崖の克服:自己回帰型ビジュアル生成のための可変コードブックサイズ量子化 [cs.CV, cs.AI, cs.LG]目的:自己回帰型ビジュアル生成におけるコードブックサイズの最適化
    • 画像生成モデルの性能向上には,効率的な表現学習が不可欠である。
    • 従来の固定サイズコードブックは,情報理論的な限界に達しやすく,冗長な学習を引き起こす。
    • シーケンスの位置に応じてコードブックサイズを変化させることで,表現効率を向上させる。
    • 提案手法VCQは,ImageNet 256x256において,gFIDを27.98から14.80に大幅に低減した。
    • さらに,6億8400万パラメータのモデルでは,gFID 1.71を達成し,高品質な画像生成を可能にした。
    • 最小コードブックサイズの設定により,粗い意味構造から細かい意味構造を自然に捉えることができた。

    Link: https://arxiv.org/abs/2605.06207

  • ネットワークを逆向きにプレイする:ゲーム理論的帰属フレームワーク [cs.LG, cs.CV]目的:モデルの予測を駆動する入力特徴量の帰属
    • 機械学習モデルの信頼性と解釈性は重要であり,そのためにモデルの挙動を理解する必要がある。
    • 既存の逆向き帰属法は,その計算方法に一貫した理論的枠組みが存在せず,比較が困難である。
    • ゲーム理論の枠組みを導入し,帰属問題を解決することで,手法の比較や改善を目指す。
    • 逆向き帰属を2人ゲームとして捉えることで,勾配やLRPなどの既存手法を統一的に説明可能となった。
    • 説明の望ましい特性をゲーム理論の概念として定義し,帰属ルールの改良に繋げることが示された。
    • ViT-B/16において,提案手法は既存のTransformer向け手法を上回り,局所化指標で優位性を示した。

    Link: https://arxiv.org/abs/2605.06212

  • 形状と反射率の同時キャプチャのための微分可能な適応型4D構造化照明 [cs.CV]目的:形状と反射率の同時取得のための微分可能な適応型4D照明条件の計算
    • 3Dコンピュータビジョンの分野において,対象物の形状と材質を正確に把握することは重要である。
    • 従来の形状・反射率推定手法では,照明条件の最適化が難しく,精度が十分でない場合がある。
    • 本研究は,微分可能なフレームワークを用いて,対象物に適応した照明条件を自動的に最適化し,高精度な形状・反射率推定を実現する。
    • 提案手法は,ヒストグラムに基づく確率モデルを用いて,深さおよび反射率の不確実性を低減するように照明条件を適応的に変化させる。
    • 物理的な物体を用いた実験により,提案手法が最先端の手法と同等以上の精度で形状と反射率を推定できることが示された。
    • 反射率推定結果は,写真との比較検証によって妥当性が確認された。

    Link: https://arxiv.org/abs/2605.06214

  • 顕著性にとらわれず:低注意誘導による二重エンコーディングを用いたビデオ意味検索 [cs.CV]目的:密集したシーンにおけるビデオ意味検索の性能向上
    • ビデオ検索は,大量の動画データから必要な情報を効率的に取得するために不可欠である。
    • 既存の視覚エンコーダは顕著な前景領域に偏り,背景領域などの文脈的に重要な情報を軽視する傾向がある。
    • 見過ごされがちな背景領域を捉え,検索精度を向上させることを目指す。
    • 逆注意埋め込みメカニズムにより,見過ごされがちな領域を明示的に捉え,強調することが可能になった。
    • 逆注意埋め込みと従来の視覚埋め込みを組み合わせることで,追加の学習なしに意味検索の性能が大幅に向上した。
    • 混雑した環境におけるビデオ意味検索において,既存手法と比較して高い再現率が示された。

    Link: https://arxiv.org/abs/2605.06229

  • ZScribbleSeg:効率的なアノテーションモデリングとスクリブル監督の最大化による包括的なセグメンテーションフレームワーク [cs.CV]目的:医療画像セグメンテーションのための包括的なフレームワーク
    • 医療画像セグメンテーションは,病変の検出や診断において不可欠であり,高精度な自動化が求められている。
    • 完全なアノテーションデータの作成には労力と専門知識が必要であり,アノテーションコストが課題となっている。
    • スクリブルアノテーションを活用し,少ない労力で高精度なセグメンテーションを実現することを目指す。
    • ZScribbleSegは,スクリブルアノテーションの効率的な活用と空間的・形状的な事前知識の統合により,競争力のある性能を達成した。
    • スクリブルアノテーションの質の向上と,ラベルクラスの混合比の正確な推定が,セグメンテーションの精度向上に貢献する。
    • ACDC,MSCMRsegなど6つのセグメンテーションタスクで,高い性能を示すことが確認された。

    Link: https://arxiv.org/abs/2605.06266

  • Spark3R:非対称トークン削減による高速フィードフォワード3D再構成 [cs.CV]目的:フィードフォワード3D再構成の高速化
    • ビジョンTransformerを用いた3D再構成は,少ない画像から直接シーン構造とカメラ姿勢を推定可能。
    • 動画入力におけるグローバルアテンション層の計算コストが課題。
    • クエリとキー・バリューの役割の違いに着目し,非対称なトークン削減で効率化を目指す。
    • 提案手法Spark3Rは,再学習なしで既存の3D再構成モデルに組み込み可能。
    • 1000フレーム入力で最大28倍の高速化を達成し,再構成品質を維持。
    • クエリとキー・バリューに異なる削減率を適用し,層ごとにキー・バリューの削減率を調整。

    Link: https://arxiv.org/abs/2605.06270

  • 軌道上リアルタイム山火事検知:オンボード制約下での試み [cs.CV, cs.AR]目的:オンボード制約下における軌道上での山火事検知システム
    • 地球観測において,迅速な災害対応は重要であり,特に山火事の早期発見は被害軽減に不可欠である。
    • 既存の山火事検知システムは,高解像度画像や高度な処理能力を必要とし,小型衛星への搭載が困難である。
    • 本研究は,限られた計算資源の衛星上でもリアルタイムで山火事を検知可能な軽量なシステムを開発することを目指す。
    • 自己教師あり学習(DenseMAE)による事前学習により,低レイテンシかつ高精度な山火事検知モデルを構築し,衛星搭載の実現可能性を示した。
    • DenseMAEを用いたモデルは,0.640のテストAP,0.69のFire-F1スコアを65.34msのレイテンシで達成し,従来の教師あり学習モデルを上回った。
    • エンジンサイズを1MB以下に抑えながら,AP 0.699,Fire-F1スコア0.744と,高性能な検知性能を維持することに成功した。

    Link: https://arxiv.org/abs/2605.06273

  • ラベルに構造があるとき:階層を意識したクロスエントロピーによる画像分類の改善 [cs.LG, cs.CV]目的:階層構造を考慮したクロスエントロピー損失関数
    • 画像分類は機械学習の基礎であり,その性能向上は様々な応用分野に不可欠である。
    • 従来のクロスエントロピーは,クラス間の意味的な距離を考慮せず,誤分類を等しく扱う点が課題である。
    • クラス階層構造を活用し,より効率的な学習と分類精度の向上を目指す。
    • 提案手法HACEは,標準クロスエントロピーの代替として機能し,18組のアーキテクチャ・データセットペア中15組で精度が向上した。
    • エンドツーエンド学習において,平均で4.66%の精度向上が確認された。
    • 凍結されたDINOv2-Largeの特徴量を用いた線形プローブでは,HACEは3つのデータセットすべてで競合手法を上回り,平均で2.18%の改善を示した。

    Link: https://arxiv.org/abs/2605.06274

  • オイラー運動ガイダンス:双方向幾何学的整合性によるロバストな画像アニメーション [cs.CV]目的:画像アニメーションにおける安定性と効率性の向上
    • 画像アニメーション技術は,静止画像を動的に変化させ,表現力を高める上で重要である。
    • 既存手法は,初期フレーム基準のオプティカルフローに依存し,長時間の変化で誤差が累積しやすい。
    • 近接フレーム間のオイラー運動場を利用し,誤差の蓄積を抑制し,安定したアニメーションを実現する。
    • 本手法は,並列化された学習を可能にし,生成過程全体を通して有界エラーによる監視を行う。
    • 双方向幾何学的整合性メカニズムにより,隠蔽領域を特定し,誤ったワープ学習を防ぐ。
    • 実験により,学習速度の向上,時間的整合性の維持,およびダイナミックアーティファクトの低減が確認された。

    Link: https://arxiv.org/abs/2605.06280

  • レンダリングする,デコードしない:潜在構造の分離による重み空間ワールドモデル [cs.CV, cs.AI]目的:大規模な未ラベル動画を用いたワールドモデルの学習
    • 完全自律型知能を実現するための重要なステップである。
    • 生のピクセルを不透明な潜在空間にエンコードし,重いデコーダーに依存する現状は,計算コストが高く解釈が困難である。
    • 座標ベースの暗黙的ニューラル表現(INR)を用いて,効率的かつ解釈可能なワールドモデルを構築すること。
    • NOVAは,システムの状態をINRの重みとバイアスとして表現することで,デコーダーのボトルネックを解消し,コンパクト性,可搬性,ゼロショット超解像を実現した。
    • 補助損失や敵対的目標を用いずに,背景,前景,フレーム間運動などの構造的シーン要素を分離できることが示された。
    • 単一のコンシューマーGPU上で,約4000万パラメータで強力な制御可能な予測が可能であり,潜在的ダイナミクスの理解を深める。

    Link: https://arxiv.org/abs/2605.06298

  • NavOne:トップダウンマップを用いたビジョン言語ナビゲーションのためのワンステップグローバルプランニング [cs.CV, cs.AI]目的:ビジョン言語ナビゲーションにおけるグローバルパスプランニング
    • ロボットナビゲーションの分野において,環境理解と行動計画は重要な課題である。
    • 従来の手法は,誤差の蓄積や効率の限界といった課題を抱えている。
    • トップダウンマップを活用し,効率的なグローバルナビゲーションを実現すること。
    • 本研究では,ナビゲーションをトップダウンマップ上のワンステップグローバルパスプランニング問題として再構築するNavOneを提案した。
    • NavOneは,マルチモーダルマップの表現のためのTop-Down Map Fuserと,空間認識型深度混合のためのAttention Residualsを特徴とする。
    • R2R-TopDownデータセットを用いた実験により,NavOneが最先端の性能を達成し,既存手法と比較して大幅な速度向上を実現した。

    Link: https://arxiv.org/abs/2605.06317

  • TinyBayes:ヤコビ事前分布を用いた閉形式ベイズ推論によるエッジデバイスでのリアルタイム画像分類 [cs.CV, cs.AI, cs.LG, stat.AP, stat.ML]目的:リアルタイム画像分類のための閉形式ベイズ推論フレームワーク
    • 西アフリカではカカオが重要な収入源であり,病害の早期発見が収量確保に不可欠である。
    • 既存のエッジデバイス向けシステムは不確実性の定量化が不十分で,ベイズ法は農業分野への応用が少ない。
    • 小型・高速でインターネット接続不要な病害検出システムを構築し,エッジデバイスでの利用を可能にすること。
    • TinyBayesは,YOLOv8-NanoとMobileNetV3-Smallを用いた画像処理パイプラインと,ヤコビ事前分布に基づく閉形式ベイズ分類器を組み合わせた。
    • モデルサイズは9.5MBと軽量でありながら,カカオ汚染チャレンジデータセットで78.7%の精度を達成し,CPU推論速度は150ms以下。
    • Jacobi-DMR分類器は,他の7つの分類器と比較して,精度,モデルサイズ,推論速度のバランスに優れていることが示された。

    Link: https://arxiv.org/abs/2605.06333

  • Earth-o1:グリッドを用いない観測データネイティブの大気世界モデル [cs.CV]目的:大気変動のモデル化
    • 現代の地球観測システムは膨大な多種多様なデータを提供する。しかし,大気モデリング能力は依然として制約されている。
    • 既存のモデルは,異質な計測データを固定された空間グリッドに強制的に当てはめるため,生のセンサーデータの活用が制限されている。
    • 本研究は,観測データネイティブなアプローチで大気の連続的かつ三次元的な進化を学習することで,この課題を解決することを目指す。
    • Earth-o1は,既存の数値シミュレーターに頼らず,リアルタイム予測とクロスセンサー推論を可能にする。
    • 過去の再現実験では,Earth-o1は運用中のIFS(統合予報システム)と同程度の地表予測精度を達成した。
    • この結果は,継続的で観測駆動型の世界モデルが,確立された物理的フレームワークに匹敵する精度を実現できることを示唆する。

    Link: https://arxiv.org/abs/2605.06337

  • 継続的コンプライアンス監視下における戦略的な監査対象者ゲームのベンチマーク [cs.CY, cs.GT, cs.LG]目的:継続的コンプライアンス監視下における戦略的な監査対象者ゲームの評価
    • AI規制など,法規制の強化に伴い,継続的なコンプライアンス監査の重要性が増している。
    • 従来の入力/出力ゲームとは異なり,監査対象者は時間的遅延やデータ操作など,戦略的な行動を取り得る。
    • 監査における脆弱性を明らかにし,効果的な監査戦略を設計するための基盤を提供する。
    • 監査者は時間的な方針を決定し,監査対象者はそれに適応するStackelbergゲームとして継続的監査を定式化した。
    • 静的監査設計には,カバレッジギャップと粒度ギャップを同時に解消できないという構造的な制約が存在することが示された。
    • サンプルサイズを考慮したルールや,履歴に基づいた疑念エスカレーションポリシーによって,制約を克服するアプローチが提案された。

    Link: https://arxiv.org/abs/2605.06340

  • SwiftI2V:条件付き区分生成による効率的な高解像度画像から動画生成 [cs.CV]目的:高解像度画像から動画を生成する手法
    • 動画生成技術は,エンターテインメント,医療,自動運転など多岐にわたる分野で応用が期待される重要な技術である。
    • 高解像度化に伴い,計算コストが飛躍的に増加し,メモリや処理速度が課題となる。
    • 入力画像に忠実な詳細な動画を効率的に生成することを目指す。
    • SwiftI2Vは,2K解像度での画像から動画生成において,既存手法と同等の性能を,GPU時間を202倍削減して達成した。
    • 低解像度モーション参照を生成し,そのモーションに沿って2K合成を行うことで,効率と忠実性を両立している。
    • 区分生成によって計算量を抑制し,セグメント間の整合性と入力画像の忠実性を高めている。

    Link: https://arxiv.org/abs/2605.06356

  • 敵対的防御評価のためのメモリ効率型フルグラデーション攻撃(MEFA)フレームワーク [cs.LG, cs.AI, cs.CV]目的:敵対的防御評価のためのフレームワーク
    • 機械学習モデルのセキュリティ確保は重要であり,敵対的攻撃に対する堅牢性の評価が不可欠である。
    • メモリ制約から近似的な勾配計算に頼る場合があり,攻撃の精度低下や過大評価のリスクがある。
    • 正確な勾配計算を可能にし,確率的防御における変動を制御することで,より信頼性の高い評価を目指す。
    • 勾配チェックポインティングにより,メモリ使用量を削減しつつ,完全な勾配計算を実現した。
    • このフレームワークは,拡散ベースおよびLangevinベースの確率的防御に対する強力な攻撃を可能にし,脆弱性を明らかにした。
    • 正確な勾配評価が,確率的防御の信頼性のあるベンチマーキングに不可欠であることが示された。

    Link: https://arxiv.org/abs/2605.06357

  • 分布シフトに対するコントラスト視覚的説明ペアを用いた正則化:eXplaining to Learn (eX2L) [cs.CV, cs.AI, cs.LG]目的:分布シフトに対するロバスト性の向上
    • 機械学習モデルの汎化性能を維持するため,未知のデータ分布への対応は重要である。
    • 既存手法では,多様な分布シフトに対し安定した性能が得られず,ERMを下回る場合も多い。
    • 説明可能性の高いフレームワークを構築し,誤った相関を排除することでロバスト性を高める。
    • eX2Lは,Spawrious Many-to-Many Hard Challengeベンチマークで平均精度82.24%と最悪グループ精度66.31%を達成した。
    • 既存最先端手法と比較して,平均精度で5.49%,最悪グループ精度で10.90%の性能向上を示した。
    • ラベルと無関係な属性を分離することにより,機能的なドメイン不変性を実現することが示された。

    Link: https://arxiv.org/abs/2605.06368

  • 少数ステップ拡散蒸留のための連続時間分布マッチング [cs.CV, cs.AI]目的:少数ステップ拡散モデルの性能向上
    • 拡散モデルは高品質な画像生成が可能だが,計算コストが高いという課題がある。
    • 従来の蒸留手法では,生成画像にアーティファクトが発生したり,過度に平滑化される問題があった。
    • 連続時間分布マッチングによって,高品質な画像を効率的に生成することを目指す。
    • 提案手法CDMは,固定された離散スケジュールではなく,動的な連続スケジュールを用いることで分布マッチングを実現した。
    • CDMは,オフ軌道でのマッチングを行うことで,汎化性能を高め,微細な視覚的詳細を保持する。
    • 実験結果から,CDMは複雑な補助目的関数なしに,競争力のある視覚的忠実度を達成することが示された。

    Link: https://arxiv.org/abs/2605.06376

  • 部分観測マルコフポテンシャルゲームにおける独立学習によるナッシュ均衡の獲得 [cs.GT, cs.LG, cs.MA]目的:部分観測マルコフゲームにおけるナッシュ均衡の学習
    • マルチエージェント強化学習は,複雑なシステムを制御する上で不可欠であり,現実世界の多くの問題を解決する可能性を秘めている。
    • 部分観測環境下では,エージェントが状態を完全に把握できないため,効率的な学習が困難となる。
    • 情報共有や集中制御に頼らない,独立学習によるナッシュ均衡の獲得を目指す。
    • マルコフポテンシャルゲームという特定のクラスにおいて,エージェントは自身の行動と観測のみに基づいてナッシュ均衡へ収束する独立学習アルゴリズムが示された。
    • 部分観測の影響を考慮し,有限の履歴ウィンドウに基づいた方策で十分な近似保証が得られることが証明された。
    • これにより,元の部分観測マルコフゲームを近似し,準多項式的なサンプル複雑度でナッシュ均衡学習が可能となった。

    Link: https://arxiv.org/abs/2605.06377

  • 画像分類器における単連結な決定領域の経験的証拠 [cs.CV, cs.LG]目的:画像分類器の決定領域の位相的性質の解明
    • 深層ニューラルネットワークの動作原理を理解する上で,決定領域の位相構造の把握が不可欠である。
    • 既存研究では決定領域が経路連結であることは示されているが,より強い位相的性質は未解明である。
    • 決定領域が単連結であるという仮説を検証し,深層学習モデルの理解を深めることを目指す。
    • 反復的な四角形メッシュ充填手順を提案し,決定領域内に完全に含まれるラベル保持表面を構築した。
    • 構築された表面の形状とループの幾何学的補間のずれを定量化するため,自然なCoonsパッチとの関連性を明らかにした。
    • 複数の画像分類モデルにおいて,決定領域が経路連結であるだけでなく,単連結であるという経験的証拠が得られた。

    Link: https://arxiv.org/abs/2605.06380

  • 再構成か,それとも意味的表現か?ロボットワールドモデルにとって有用な潜在空間とは [cs.CV, cs.LG, cs.RO]目的:ロボットのワールドモデルにおける潜在空間の有用性評価
    • ロボット制御において,現実世界での試行錯誤を避けるため,シミュレーションによる評価が重要である。
    • 潜在空間の選択が,ワールドモデルの性能に大きく影響するが,最適な空間は明確ではない。
    • 再構成と意味的表現の潜在空間を比較し,ロボット制御に適した空間を特定することを目指す。
    • 再構成エンコーダ(VAE,Cosmosなど)はピクセルレベルの再現性で優れるものの,意味的エンコーダ(V-JEPA 2.1,Web-DINO,SigLIP 2など)は,計画能力やポリシー性能で優れた結果を示した。
    • 視覚的な忠実度のみではワールドモデルの選択は不十分であり,潜在表現の質も重要な評価軸となることが示された。
    • ポリシーに関連するロボット拡散ワールドモデルの基盤として,意味的潜在空間が有効であることが示唆された。

    Link: https://arxiv.org/abs/2605.06388

  • E = T*H/(O+B):エキスパート混合モデルの生態系における無次元制御パラメータ [cs.CG, cs.LG, cs.AI, cs.CL, cs.CV]目的:エキスパート混合モデルにおける健全な生態系の発展と,死んだエキスパートへの崩壊を予測する制御パラメータの提案
    • エキスパート混合モデルは,大規模モデルの性能向上に不可欠だが,その訓練は不安定になりやすい。
    • 死んだエキスパートの発生は,エキスパート混合モデルの訓練における主要な課題である。
    • 本研究は,死んだエキスパートの発生を防ぐための統一的な診断指標を提示することを目的とする。
    • 提案された無次元制御パラメータEが0.5以上であれば,補助損失なしで死んだエキスパートが発生しないことが示された。
    • バランス損失がルーターの再探索を促し,死んだエキスパートが復活することが確認された。
    • タスクの複雑さによって,重要なEの閾値が変化することが明らかになった。

    Link: https://arxiv.org/abs/2605.06415

  • FREPix:ピクセル空間画像生成のための周波数異質性フローマッチング [cs.CL, eess.SY, cs.SY, cs.CV, cs.LG]目的:ピクセル空間画像生成のための周波数異質性フローマッチングフレームワーク
    • 画像生成において,VAEによる表現のボトルネックが課題であり,ピクセル空間での拡散モデルが注目されている。
    • 既存手法は画像生成を周波数均一な過程として扱っており,低周波成分と高周波成分の役割の違いを考慮していない。
    • 低周波成分と高周波成分を分離し,それぞれ異なる経路で生成することで,効率的な画像生成を目指す。
    • FREPixは,画像生成を低周波成分と高周波成分に明示的に分解し,それぞれを異なる経路で学習する。
    • ImageNetクラスから画像への生成において,FIDスコア1.91(256x256)および2.38(512x512)を達成し,競争力のある性能を示した。
    • 特に,少ないNFE(ノイズ推定回数)での性能が優れている。

    Link: https://arxiv.org/abs/2605.06421

  • レビューから設計へ:自動運転車におけるリスク軽減,インシデント対応,説明責任のための倫理的マルチモーダル運転者モニタリングシステム [eess.SY, cs.SY, cs.CY, cs.CV, cs.ET]目的:自動運転車向け運転者モニタリングシステムの倫理的設計フレームワーク
    • 自動運転化が進む中で,安全性確保と法規制遵守のため,運転者モニタリングシステムの重要性が高まっている。
    • プライバシー,同意,データ所有権,アルゴリズムの公平性など,倫理的・法的課題が複雑化している。
    • 既存の法規制や倫理的枠組みの適用における課題を特定し,具体的な設計指針を提案することで解決を目指す。
    • 既存の規制や倫理的枠組みのレビューに基づき,運転者モニタリングシステムに特化したモジュール型倫理設計フレームワークを提案した。
    • ユーザー設定可能な同意メカニズム,公平性に基づいたモデル開発,透明性と説明可能性ツール,運転者の感情的幸福のための保護策など,具体的な設計・展開ガイダンスを提示した。
    • リスク分析と障害軽減戦略,そしてプロアクティブなインシデント対応と説明責任メカニズムを強調した。

    Link: https://arxiv.org/abs/2605.06439

  • 双曲線概念ボトルネックモデル [cs.LG, cs.CV]目的:ニューラルネットワークにおける解釈可能性の向上
    • 深層学習モデルの解釈性は,信頼性と実用性の確保に不可欠である。
    • 従来の概念ボトルネックモデルは,概念間の構造的関係を捉えきれていない。
    • 概念の階層構造を考慮したモデルによる解釈性の改善を目指す。
    • 双曲線空間を利用することで,概念間の包含関係を自然に表現し,解釈性を高める。
    • 提案手法は,大量のデータなしに,既存のユークリッド空間モデルと同等の性能を達成する。
    • 階層構造に基づいた介入により,ユーザーによる修正を整合的に伝播させることが可能である。

    Link: https://arxiv.org/abs/2605.06440

  • 部分加法および劣モジュール評価関数に対するEFXの反例 [cs.GT, econ.TH]目的:公平な分割におけるEFX割り当ての存在可能性
    • 資源配分における公平性は重要な課題であり,社会的な合意形成に不可欠である。
    • EFX割り当ての存在は保証されておらず,特に特定の評価関数においては困難が生じる。
    • 劣モジュールおよび部分加法評価関数に対するEFX割り当てが存在しない状況を具体的に示す。
    • 3エージェント,8商品のインスタンスにおいて,α-EFXを満たす割り当てが存在しないことを示した。
    • このインスタンスは対称性を有しており,商品のラベル付けの違いだけでEFXが成立しない場合がある。
    • 簡潔な組み合わせ構造により,EFX割り当ての存在に対する明確な障壁を提示した。

    Link: https://arxiv.org/abs/2605.06451

  • GeoStack:VLMにおける準可換知識構成のためのフレームワーク [cs.CL, cs.CV]目的:ビジョン言語モデルにおける知識構成
    • 視覚と言語を統合するモデルは,多様なタスクへの適応が求められる。
    • 複数ドメインやタスクへの知識蓄積は,既存知識の破棄を引き起こしやすい。
    • ドメイン知識の効率的な統合と,既存知識の保持を目指す。
    • GeoStackは,独立して学習された専門家を統合するモジュール型フレームワークである。
    • アダプター多様体への幾何学的制約により,基盤モデルの知識を保護する。
    • 専門家数に関わらず,推論計算量を一定時間($O(1)$)に抑える。

    Link: https://arxiv.org/abs/2605.06477

  • 制御可能な2Dスライスナビゲーションタスクによる3D MRI画像事前学習 [cs.CV, cs.AI]目的:3D MRI画像の表現学習
    • MRI画像解析の精度向上は,医療診断や治療計画において不可欠である。
    • 既存の事前学習手法は,3D MRI画像を静的なスライス集合として扱う傾向がある。
    • 連続的な位置,方向,スケールでのスライスレンダリングによる自己教師あり学習を提案する。
    • 提案手法は,MRIボリュームを連続的な2Dシーケンスに変換し,行動軌跡を制御信号として活用する。
    • 行動条件付き事前学習により,解剖学的および空間的なタスクにおいて,既存手法を上回る性能が確認された。
    • 制御可能なMRIスライスナビゲーションは,大規模な未ラベルMRIデータからの表現学習に有効なインターフェースを提供する。

    Link: https://arxiv.org/abs/2605.06487

  • 拡散RLのための多角的報酬バランス:MARBLE [cs.CL, cs.CV, cs.LG]目的:拡散モデルと人間の選好を整合させるための多角的報酬バランスに関する研究
    • 拡散モデルの性能向上には,人間の主観的な評価との整合が不可欠である。
    • 画像評価は多次元であり,複数の評価基準を同時に最適化する必要がある。
    • 報酬の重み付け調整を自動化し,効率的な学習を可能にすること。
    • MARBLEは,各報酬に対して独立した利点推定器を維持し,勾配空間で最適化を行う。
    • 報酬の重み付けを人手で調整することなく,単一の更新方向へ統合する。
    • SD3.5 Mediumにおいて,5つの報酬次元全てを同時に改善し,学習速度も向上した。

    Link: https://arxiv.org/abs/2605.06507

  • FreeSpec:特異スペクトル再構成による学習不要な長尺ビデオ生成 [cs.CV]目的:長尺ビデオ生成のための,学習を必要としない手法
    • ビデオ生成技術は,コンテンツ制作やエンターテイメント分野で重要性を増しており,高品質な生成が求められている。
    • 拡散モデルは短尺ビデオ生成に成功しているが,長尺化すると内容のずれや時間的な不整合が発生しやすい。
    • 特異スペクトル分解に基づき,長尺ビデオ生成におけるスペクトルの集中問題を解決し,高品質な生成を目指す。
    • FreeSpecは,グローバル特徴とローカル特徴を特異値分解によって分解し,スペクトルレベルでの融合を行うことで,時間的一貫性と空間的詳細を両立している。
    • 実験の結果,FreeSpecはWan2.1とLTX-Videoにおいて,特に時間的ダイナミクスにおいて,長尺ビデオ生成性能を向上させることが示された。
    • 提案手法は,既存手法と比較して,より自然で高品質な長尺ビデオを生成し,視覚的な品質と時間的一貫性を維持している。

    Link: https://arxiv.org/abs/2605.06509

  • DCR:反事実的アトラクタ誘導による稀な構成的生成 [cs.CV]目的:稀な構成の生成における問題点の克服
    • 拡散モデルは高品質な画像を生成するが,稀な組み合わせの生成には課題が残る。
    • 学習データに少ない組み合わせを指示すると,生成が一般的な結果に偏りがちである。
    • デフォルト完了バイアスを抑制し,多様な構成の生成を可能にすること。
    • DCRは学習不要で,デフォルト完了の振る舞いを明示的にモデル化し抑制するフレームワークである。
    • DCRは,稀な構成要素を緩和し周囲の意味を保持することで反事実的アトラクタを構築する。
    • 実験により,DCRが構成の忠実性を向上させ,視覚品質を維持することが示された。

    Link: https://arxiv.org/abs/2605.06512

  • 逐次実験における社会的有用性の最適化 [cs.GT, cs.LG, cs.MA, stat.ME]目的:高社会的有用性をもたらす製品開発の促進
    • 医薬品開発等の分野では,安全性と有効性の証明が不可欠であり,大規模な臨床試験が求められる。
    • 臨床試験の費用が高額であるため,不確実性の高い製品開発が阻害される場合がある。
    • 開発者への補助金設計を通じて,より多くの高社会的有用性製品の開発を促す。
    • 本研究で提案する統計的プロトコルは,補助金水準を最適化することで社会的有用性を向上させる。
    • 抗生物質開発に関するシミュレーション実験において,標準的なプロトコルと比較して35%以上の改善が確認された。
    • 補助金レベルと社会的有用性の関係は区分線形かつ凸関数であり,効率的な最適解探索が可能である。

    Link: https://arxiv.org/abs/2605.06520

  • ファウンデーションモデルにおける分布外汎化の欠如したパラダイム:エージェントAI [cs.LG, cs.CV]目的:ファウンデーションモデルにおける分布外汎化問題に対するエージェントAIのパラダイムシフトの必要性
    • 近年のAI発展はファウンデーションモデルに依るところが大きい。実世界への応用範囲が拡大の一途を辿っている。
    • 従来のモデル中心のアプローチでは,未知の分布への対応が困難であり,性能限界が存在する。
    • エージェントAIの導入により,モデルの限界を超え,よりロバストな汎化能力を獲得することを目指す。
    • ファウンデーションモデルの分布外汎化は,従来のOOD研究とは異なる構造的課題を抱えていることが示された。
    • パラメータベースの表現には本質的な限界が存在し,モデル中心のアプローチでは対応不可能な入力が存在することが証明された。
    • エージェントAIは,知覚,戦略選択,外部アクション,閉ループ検証といった構造的特性により,モデル中心のアプローチを補完し,到達可能な範囲を拡大する。

    Link: https://arxiv.org/abs/2605.06522

  • AI誘導下における協力の維持:LLMに対する民俗定理 [cs.GT, cs.MA, econ.TH]目的:LLM誘導下における協力の持続可能性
    • AIエージェントの普及に伴い,複数エージェント間の協調が重要課題となっている。
    • 共通のLLMに依存するエージェント間には結合が生じ,利害対立時に協力が困難となる場合がある。
    • LLMによる誘導が,利害が対立するエージェント間でも協調を可能にするか検証する。
    • LLMが複数の役割に影響を及ぼす場合,共有された指示によって協調行動が生じることが示された。
    • 繰り返しゲームにおいて,間接的な観察と相手LLMの識別不能性にも関わらず,あらゆる実行可能かつ個別合理的な結果がε均衡として維持可能であることが証明された。
    • これは,標準的な民俗定理とは異なる結果であり,新たな証明手法を必要とする。

    Link: https://arxiv.org/abs/2605.06525

  • Sparkle:分離されたガイダンスによる活気ある指示駆動型動画背景置換の実現 [cs.DC, cs.CV, cs.AI]目的:活気ある指示駆動型動画背景置換のための大規模データセット及び評価ベンチマーク
    • 動画編集技術は,映画製作や広告など創造的な応用において重要な役割を担う。
    • 動画背景置換は,新規シーンの合成と前景・背景間の相互作用が必要であり,大規模データの生成が困難である。
    • 高品質な訓練データ不足を解消し,背景置換タスクの性能向上を目指す。
    • 本研究では,前景と背景のガイダンスを分離して生成するスケーラブルなパイプラインを設計し,約14万組の動画ペアからなるSparkleデータセットを構築した。
    • また,背景置換に特化した大規模評価ベンチマークSparkle-Benchを導入した。
    • 実験の結果,Sparkleデータセットで訓練されたモデルは,既存のベースラインをOpenVE-BenchとSparkle-Benchの両方で大幅に上回る性能を示した。

    Link: https://arxiv.org/abs/2605.06535

  • MedHorizon:実世界の長尺医療ビデオ理解に向けて [cs.NI, cs.CV]目的:長尺医療ビデオの理解に関するベンチマーク
    • 医療現場では,画像診断に加え,手術などの長尺ビデオの理解が不可欠である。
    • 既存の研究では,証拠となる部分が事前に特定されている前提があり,実際の臨床現場での課題に対応できていない。
    • 本研究は,長尺医療ビデオにおけるスパースな証拠の検索と臨床的推論能力を評価するベンチマークを提供する。
    • MedHorizonは759時間の臨床手術ビデオと1253の多肢選択問題で構成される。
    • 既存のMLLMは平均41.1%の精度しか達成できず,完全な手順の理解にはまだ課題が残る。
    • 性能はフレーム数に比例せず,証拠の検索と臨床的解釈がボトルネックであることが示された。

    Link: https://arxiv.org/abs/2605.06537