arXiv雑要約

AI - 2026/03/11 公開

  • 遷移不確実性下におけるロバスト正則化ポリシー反復法 [cs.AI, stat.ML]目的:オフライン強化学習におけるロバストなポリシー最適化
    • データ効率と安全性を重視するオフライン強化学習の重要性が高まっている。
    • 分布シフトにより,学習されたポリシーの性能が低下する問題が存在する。
    • 遷移不確実性と分布外行動への対処を統合的に行う方法を確立すること。
    • 提案手法RRPIは,最悪の場合のダイナミクスに対するロバストなポリシー最適化を実現する。
    • RRPIはD4RLベンチマークにおいて,既存手法を上回る良好な性能を示した。
    • 学習されたQ値は,認識的不確実性の高い領域で減少し,信頼性の低い行動を回避する傾向がある。

    Link: https://arxiv.org/abs/2603.09344

  • TA-GGAD:汎用グラフ異常検知のためのテスト時適応グラフモデル [cs.LG, cs.AI]目的:汎用グラフ異常検知のための新しいグラフ基礎モデル
    • グラフデータは,フェイクニュースや不正な取引など,異常ノードによって健全性が損なわれる可能性がある。
    • クロスドメイン検知モデルは,ドメイン間の特徴量のずれにより,汎化性能が制限される。
    • ドメインシフトにおける特徴量の不一致パターン(異常の不均一性)をモデル化し,汎化性能を向上させる。
    • 提案手法TA-GGADは,14種類の現実世界のグラフデータを用いた実験で,最先端の性能を達成した。
    • 単一の学習フェーズで多様なドメインに対応可能な,クロスドメイン適応能力に優れたモデルである。
    • 異常の不均一性($\mathcal{AD}$)に関する理論的考察は,汎用グラフ異常検知研究の新たな方向性を示す。

    Link: https://arxiv.org/abs/2603.09349

  • アディティブマニュファクチャリングにおける表面粗さ予測のインタラクティブ3D可視化:データ駆動型フレームワーク [cs.LG]目的:アディティブマニュファクチャリングにおける表面粗さ予測のためのデータ駆動型フレームワーク
    • アディティブマニュファクチャリングの品質向上は重要であり,表面粗さはその主要な指標の一つである。
    • プロセス計画段階での表面粗さの予測は困難であり,特に階段効果の影響を考慮する必要がある。
    • 印刷パラメータと表面傾斜角に基づいた表面粗さの予測精度向上を目指す。
    • プロセスパラメータと表面傾斜角を用いることで,印刷前の表面粗さ(Ra)を予測するモデルを構築した。
    • 実験データと条件付き生成敵対ネットワーク(cGAN)を活用し,予測性能を向上させた。
    • 3Dモデルを基に傾斜角を計算し,予測された表面粗さをインタラクティブなカラーマップとして可視化するWebインターフェースを開発した。

    Link: https://arxiv.org/abs/2603.09353

  • 古典的臨床モデルのためのデータセット凝縮による臨床AIの民主化 [cs.LG, cs.AI, cs.CR]目的:データセット凝縮による臨床AIの民主化
    • 臨床データは医療の進歩に不可欠だが,プライバシー保護が課題である。
    • 既存のデータセット凝縮法は微分可能なモデルに限定され,臨床現場で広く用いられる決定木やCox回帰には適用できない。
    • 微分不可能なモデルにも適用可能なデータセット凝縮法を開発し,プライバシー保護されたデータ共有を可能にすること。
    • 提案手法は,6つのデータセットでモデルの性能を維持しつつ,効果的な差分プライバシーを保証する凝縮データセットを生成した。
    • これにより,患者情報を漏洩させることなく,臨床予測タスクのためのモデルに依存しないデータ共有が可能となる。
    • 本研究は,臨床AIの民主化とプライバシー保護に貢献する。

    Link: https://arxiv.org/abs/2603.09356

  • M3GCLR:骨格ベースアクション認識のためのマルチビューミニマックス無限骨格データゲーム対照学習 [cs.CV, cs.AI]目的:骨格ベースアクション認識における性能向上
    • 人間の行動認識は,ロボット工学やビデオ監視など,多様な分野で重要性が増している。
    • 既存手法は,ラベル付きデータの不足,ビュー間の差異のモデリング不足,摂動の制御困難性といった課題を抱えている。
    • マルチビュー対照学習とゲーム理論に基づき,よりロバストで識別能力の高いモデルを構築することを目指す。
    • 提案手法M3GCLRは,NTU RGB+D 60データセットにおいて,X-Subで82.1%,X-Viewで85.8%の精度を達成した。
    • NTU RGB+D 120データセットでも,X-Subで72.3%,X-Setで75.0%の高い精度を示し,最先端の性能に匹敵またはそれを上回る結果を得た。
    • PKU-MMDデータセットにおいても優れた結果を示し,各構成要素の有効性がアブレーションスタディによって確認された。

    Link: https://arxiv.org/abs/2603.09367

  • 表現からクラスタへ:属性付きハイパーグラフクラスタリングのためのコントラスト学習アプローチ [cs.LG]目的:属性付きハイパーグラフクラスタリングの新しい手法
    • グラフ構造データは,複雑な関係性を表現可能であり,様々な分野で応用が期待される。
    • 既存手法は,グラフ表現学習とクラスタリングを分離しており,クラスタリングに不要な情報が学習される場合がある。
    • クラスタリング情報を学習に直接組み込み,より精度の高いクラスタリングを実現することを目指す。
    • 提案手法CAHCは,ノードレベルとハイパーエッジレベルの両方の目的関数を組み込んだコントラスト学習によってノード埋め込みを生成する。
    • CAHCは,埋め込みとクラスタリングの最適化を同時に行うことで,クラスタリング指向のガイダンスによって埋め込みを洗練し,クラスタリング結果を得る。
    • 8つのデータセットでの実験結果から,CAHCが既存手法よりも優れた性能を示すことが明らかになった。

    Link: https://arxiv.org/abs/2603.09370

  • マンモグラフィ分類のための事前計算された特徴量に基づく多インスタンス学習 [cs.CL, cs.CV, cs.AI]目的:マンモグラフィ分類のための多インスタンス学習フレームワーク
    • 医療画像診断の精度向上は,早期発見・治療に不可欠であり,患者の予後改善に貢献する。
    • マンモグラフィは高解像度画像であり,アノテーションが限られ,弱学習しか得られないという課題がある。
    • 事前計算された特徴量と軽量なMILヘッドを組み合わせることで,効率的な学習と適応を実現する。
    • MIL-PFは,大規模なバックボーンの再学習を伴わず,計算効率良くマンモグラフィ分類を行う。
    • アテンションに基づく集約モジュールにより,組織全体のコンテキストと局所的な病変信号を明示的にモデル化する。
    • 臨床規模のデータセットにおいて,最先端の分類性能を達成し,学習の複雑さを大幅に削減した。

    Link: https://arxiv.org/abs/2603.09374

  • SPAARS:抽象的な探索と行動空間の洗練された活用による,より安全な強化学習ポリシーのアライメント [cs.LG, cs.AI, cs.RO]目的:オフラインからオンラインへの強化学習における安全なオンライン探索手法
    • ロボティクス分野では,安全なデモンストレーションデータを用いた事前学習とオンラインでの微調整が重要視されている。
    • オフラインデータの行動範囲を超えた探索は安全性を損なうため,探索範囲を制限する手法が求められていた。
    • 潜在空間と直接的な行動空間を組み合わせ,安全かつ効率的な探索を実現し,性能向上を目指す。
    • SPAARSは,まず低次元潜在空間で安全な行動改善を行い,その後,デコーダーのボトルネックを回避して直接行動空間に移行する。
    • SPAARS-SUPEは,kitchen-mixed-v0で0.825の正規化報酬を達成し,SUPEの0.75を上回った。サンプル効率も5倍向上した。
    • SPAARSは,hopper-medium-v2とwalker2d-medium-v2でそれぞれ92.7と102.9の正規化報酬を達成し,IQLのベースラインを超えた。

    Link: https://arxiv.org/abs/2603.09378

  • 物理情報に基づくニューラルエンジン音響モデル:微分可能なパルストレイン合成による [cs.SD, cs.AI, eess.AS]目的:エンジン音響の物理モデリング
    • 自動車や航空機の騒音低減,およびシミュレーションの精度向上に不可欠である。
    • 従来のニューラル合成はスペクトル近似に留まり,エンジン音源の物理的特性を直接捉えられていない。
    • エンジン排気パルスの形状と時間構造を直接モデル化することで,より高精度な音響合成を目指す。
    • 提案手法PTRは,エンジン音響を生成するパルストレインとカルプラス・ストロング共鳴器を組み合わせる。
    • PTRは物理情報(減衰,ピッチ変動,バルブ動特性など)を組み込み,解釈可能なパラメータを提供する。
    • 3種類のエンジン音データを用いた評価で,PTRは従来モデルより調波再構成率が21%向上,損失が5.7%減少した。

    Link: https://arxiv.org/abs/2603.09391

  • 複雑なレイアウトの文書画像機械翻訳に向けたICDAR 2025競技会 [cs.CV, cs.AI]目的:複雑なレイアウトを持つ文書画像の機械翻訳
    • 文書のデジタル化が進み,多言語間での情報共有の必要性が高まっているため。
    • 従来のOCRとNLPの組み合わせでは,レイアウト情報を十分に活用できず,翻訳精度が課題となっている。
    • 文書画像とテキスト内容,レイアウトを統合的に解析し,高精度な機械翻訳を実現すること。
    • 大規模モデルのアプローチが,複雑なレイアウトの文書画像の翻訳において有望なパラダイムを確立した。
    • 本競技会では,OCRなしとOCRありの2つのトラックで,小規模・大規模モデルが競い合われた。
    • 69チーム,27件の有効な提出があり,今後の研究に向けた多くの機会が示唆された。

    Link: https://arxiv.org/abs/2603.09392

  • 効率的な畳み込み拡散モデルのためのConvNeXtの再活性化 [cs.CV, cs.AI, cs.LG]目的:効率的な畳み込み拡散モデルの構築
    • 画像生成分野において,計算効率とモデルの規模拡大が重要な課題となっている。
    • Transformerアーキテクチャが主流となりつつあるが,畳み込みニューラルネットワークの効率性は十分に活用されていない。
    • 畳み込みニューラルネットワークの利点を活かし,効率的な拡散モデルを開発すること。
    • FCDM-XLは,DiT-XL/2の50%のFLOP数で,256x256および512x512解像度において,同等以上の性能を達成した。
    • FCDM-XLは,DiT-XL/2と比較して,それぞれ7倍および7.5倍少ない学習ステップ数で学習可能である。
    • FCDM-XLは4-GPUシステムで学習可能であり,アーキテクチャの優れた学習効率を示している。

    Link: https://arxiv.org/abs/2603.09408

  • 疎なサンプルからの移動経路再構成:低頻度データに対する強化された空間-時間マッチング戦略 [cs.LG]目的:GPS軌跡と道路ネットワークのマッチングに関する研究
    • 位置情報技術の発展に伴い,移動経路の正確な把握が重要となっている。
    • 既存の空間-時間マッチングアルゴリズムは,計算効率や精度に課題が残る。
    • 低頻度データにおけるマッチング精度と計算効率の向上を目指す。
    • 動的バッファ,適応的観測確率,時間スコアリング関数の再設計,行動分析という4つの改良を加えた。
    • 都市部の実データを用いた評価により,性能効率と経路品質の向上が確認された。
    • 新たな評価指標を用いることで,正解データがない状況下でも客観的な評価が可能となった。

    Link: https://arxiv.org/abs/2603.09412

  • ドメイン知識を活用したドキュメントレイアウト分析フレームワークPromptDLA [cs.CV, cs.AI]目的:ドキュメントレイアウト分析におけるドメイン知識の活用
    • ドキュメントAIの発展に不可欠であり,様々な文書処理タスクの精度向上に貢献する。
    • 既存手法は,異なるドメインのデータを単純に混合することで,ドメイン固有のレイアウト構造を無視する。
    • ドメイン知識をプロンプトに組み込み,ドキュメントレイアウト分析の汎化性能を向上させる。
    • 提案手法PromptDLAは,DocLayNet,PubLayNet等の大規模データセットにおいて,最先端の性能を達成した。
    • ドメイン固有の属性に基づいたプロンプトのカスタマイズにより,モデルは重要な特徴と構造をより効果的に捉えることができる。
    • ドメイン知識を効果的に活用することで,様々なドメインへの汎化性能が向上することが示された。

    Link: https://arxiv.org/abs/2603.09414

  • フローから一段階へ:暗黙的最尤推定に基づく分布蒸留によるリアルタイムマルチモーダル軌道ポリシー [cs.RO, cs.AI]目的:ロボット操作におけるリアルタイムマルチモーダル軌道ポリシーの実現
    • ロボット操作において,人間のデモンストレーションを模倣する生成ポリシーの重要性が高まっている。
    • 拡散モデルやフローマッチングは高性能だが,反復ODE積分により遅延が大きく,リアルタイム制御のボトルネックとなる。
    • 暗黙的最尤推定を用いた分布蒸留により,遅延を解消し,マルチモーダルな分布崩壊を防ぐことを目指す。
    • 条件付きフローマッチング(CFM)を高速な単段階の生徒モデルに蒸留するフレームワークを提案した。
    • 双方向Chamfer距離により,モードカバレッジと忠実性を両立し,教師モデルの多峰性分布を維持した。
    • 統合された知覚エンコーダにより,マルチビューRGB,深度,点群,および固有受容感覚を幾何学的に認識可能な表現に統合した。

    Link: https://arxiv.org/abs/2603.09415

  • 大規模言語モデルにおける健康の社会的決定要因を通じたジェンダー・ステレオタイプの調査 [cs.CL, cs.AI]目的:大規模言語モデルにおけるジェンダー・ステレオタイプの存在と影響
    • 医療分野を含む様々な領域で活用が拡大しており,その公平性と信頼性の確保が重要である。
    • 学習データに内在する偏りがモデルに反映され,特に医療分野において不利益をもたらす可能性がある。
    • 複数の社会的決定要因間の相互作用に着目し,ジェンダー・ステレオタイプの評価手法を提案する。
    • 大規模言語モデルが,健康の社会的決定要因を入力として受け取ることで,ジェンダーに関するステレオタイプを利用していることが確認された。
    • 既存の評価方法に加えて,社会的決定要因間の相互作用を評価することが,モデルの性能と偏りの評価に有用であると考えられる。

    Link: https://arxiv.org/abs/2603.09416

  • オープンワールドにおける行動予測 [cs.CV, cs.AI, cs.RO]目的:動的エージェントの将来の軌跡の予測
    • 自動運転車の安全性向上には,周囲状況の的確な理解が不可欠である。
    • 既存手法は,認識の不完全性や物体種類の変動に対応できず,実用上の課題となっている。
    • 未知の物体クラスが出現する状況下でも,高精度な行動予測を可能にすることを目指す。
    • 提案手法は,新規クラスの導入時に壊滅的な忘却を防ぎ,既存クラスの性能を維持する。
    • 擬似ラベリングとクエリ特徴量の分散に基づくリプレイ戦略により,適応能力とロバスト性を向上させている。
    • nuScenesとArgoverse 2のデータセットを用いた評価で,実走行データへのゼロショット転移も実証された。

    Link: https://arxiv.org/abs/2603.09420

  • マルコフ決定過程の設計がシミュレーションから現実世界への強化学習に与える影響 [cs.LG]目的:シミュレーションから現実世界への転移における強化学習の性能
    • 産業プロセス制御への応用が期待される強化学習の研究分野である。
    • シミュレーションで訓練された方策が,実際のハードウェアで性能を低下させる「シミュレーション・トゥ・リアルギャップ」が存在する。
    • マルコフ決定過程の設計選択が,このギャップに及ぼす影響を明らかにすること。
    • マルコフ決定過程の構成要素(状態,目標,報酬,終了条件,環境ダイナミクスモデル)が,転移性能に影響を与えることが明らかになった。
    • 物理ベースのダイナミクスモデルを用いることで,簡略化されたモデルが失敗する厳密な条件下で,現実世界での成功率が最大50%向上した。
    • 本研究は,産業プロセス制御における強化学習の導入に向けた,マルコフ決定過程設計の指針を提供する。

    Link: https://arxiv.org/abs/2603.09427

  • 常識と道徳:LLMにおける物語焦点バイアスの興味深い事例 [cs.CE, cs.CL, cs.AI]目的:LLMにおける物語焦点バイアスの存在
    • LLMは多様な分野で活用が進んでおり,倫理観と知識のバランスが重要である。
    • LLMは道徳的推論を優先しがちで,常識的な理解が欠如することが課題となっている。
    • LLMにおける物語焦点バイアスを明らかにし,より堅牢な推論能力の向上を目指す。
    • LLMは,道徳的ジレンマに埋め込まれた常識的な矛盾を認識することが難しいことが示された。
    • 特に,矛盾が主要登場人物ではなく,脇役に関連付けられた場合に矛盾を検出しやすいという物語焦点バイアスが確認された。
    • LLMの常識的な頑健性を高めるためには,推論能力を意識したトレーニングが必要である。

    Link: https://arxiv.org/abs/2603.09434

  • AI法評価ベンチマーク:NLPおよびRAGシステム評価のためのオープンで透明性があり,再現可能な評価データセット [cs.AI]目的:NLPおよびRAGシステムに対するEU AI法適合性の評価を促進するリソース
    • AIの社会実装が進む中,法規制遵守の重要性が増している。特にEU AI法は,その基準を示す重要な枠組みである。
    • AIシステムの法規制適合性を評価するソリューション開発は,リソース不足により制約を受けている。手作業による評価は,誤りやすく,限界がある。
    • EU AI法に基づいたリスクレベル分類,条文検索,義務生成,質問応答タスクを含むデータセットを構築し,自動評価を可能にすること。
    • 本研究では,ドメイン知識と大規模言語モデルを活用した,根拠に基づいたシナリオ生成手法を確立した。
    • EU AI法における曖昧なリスクレベルの判断境界を克服し,限定的・最小限のリスクケースに対処した。
    • 構築したデータセットを用いてRAGベースのソリューションを評価した結果,禁止・高リスクシナリオでそれぞれ0.87と0.85のF1スコアを達成した。

    Link: https://arxiv.org/abs/2603.09435

  • 重み付けからモデリングへ:オフポリシー評価のための非パラメトリック推定器 [cs.LG]目的:オフポリシー評価における新しい手法
    • 文脈的バンディット問題は,推薦システム等に応用され,行動選択の最適化に不可欠である。
    • 既存手法では,過去データと評価対象の方策の行動分布の乖離による分散の増大が課題である。
    • 非パラメトリックモデリングによる重み付け手法で分散を低減し,より精度の高い評価を実現する。
    • 提案手法であるNW(Nonparametric Weighting)は,IPWと同程度のバイアスを持ちながら,大幅に分散を低減できる。
    • さらに,報酬予測を取り入れたMNW(Model-assisted Nonparametric Weighting)は,報酬モデリングによるバイアスを明示的に軽減し,正確な価値推定を可能にする。
    • 実験結果から,提案手法は既存手法と比較して,価値推定における分散を低減しつつ,低いバイアスを維持することが示された。

    Link: https://arxiv.org/abs/2603.09436

  • ゼロショットターゲットボリューム自動輪郭抽出のためのガイドライン準拠AIエージェント [cs.CV, cs.AI]目的:放射線治療における臨床ターゲットボリュームの自動輪郭抽出
    • 放射線治療において,正確なターゲットボリュームの設定は治療効果と副作用の抑制に不可欠である。
    • 従来の深層学習モデルは専門家による注釈データに依存し,ガイドライン変更時の再学習コストが高い。
    • 本研究は,ガイドラインを直接活用し,再学習なしでターゲットボリュームを抽出する手法を確立する。
    • 提案手法OncoAgentは,食道癌の臨床データにおいて,ゼロショットで高いDice係数(CTV: 0.842, PTV: 0.880)を達成した。
    • 盲検臨床評価において,医師はガイドライン準拠性,修正の容易さ,臨床的受容性の点でOncoAgentを教師あり学習モデルより高く評価した。
    • 本フレームワークは,他の食道ガイドラインや前立腺などの異なる解剖学的部位にも再学習なしで適用可能であり,汎用性を示す。

    Link: https://arxiv.org/abs/2603.09448

  • 変分ルーティング:校正された専門家混合Transformerのためのスケーラブルなベイズ的フレームワーク [cs.LG, cs.AI, stat.ML]目的:大規模モデルにおける不確実性の定量化
    • 基盤モデルの信頼性向上には,出力の不確実性の理解が不可欠である。
    • ベイズ法は計算コストが高く,大規模モデルへの適用が困難である。
    • MoE層における不確実性をベイズ的にモデル化し,スケーラブルな手法を提供する。
    • VMoERはルーティングの安定性を38%向上させ,ノイズに対するロバスト性を高めた。
    • 校正誤差を94%削減し,分布外データのAUROCを12%増加させた。
    • 計算コストの増加は1%未満であり,スケーラビリティに優れている。

    Link: https://arxiv.org/abs/2603.09453

  • RoadLogicを用いた宣言的シナリオベーステスト [cs.SE, cs.AI, cs.LO]目的:自律走行車の検証のための,宣言的シナリオと実行可能なシミュレーション間の橋渡し
    • 自動運転技術の安全性確保は不可欠であり,その検証には効率的な手法が求められている。
    • 従来のシナリオベーステストは,網羅性を得るために多くの変数を手動で定義する必要があった。
    • 宣言的言語の抽象度を活用しつつ,仕様に準拠したシミュレーションを自動生成すること。
    • RoadLogicは,OpenSCENARIO DSL (OS2) の仕様に基づき,数分以内に現実的で仕様を満たすシミュレーションを生成できる。
    • パラメータサンプリングにより,多様な行動変種を捉え,系統的なシナリオベーステストを可能にする。
    • CommonRoadフレームワークにおいて,RoadLogicの有効性が実証された。

    Link: https://arxiv.org/abs/2603.09455

  • タスクレベルモデルマージ崩壊に関する実証的研究と理論的説明 [cs.RO, cs.RO, cs.AI]目的:タスクレベルモデルマージ崩壊の現象と原因
    • 大規模言語モデルの活用が拡大し,効率的なモデル統合が重要となっている。
    • 個別にファインチューニングされたモデルを統合する際に,性能劣化が生じる場合がある。
    • タスク間の表現の不適合性が,マージ崩壊の主要な原因であると解明する。
    • タスク間の表現の不適合性は,マージ崩壊と強い相関関係があることが示された。
    • パラメータ空間の競合指標は,マージ崩壊との相関は低いことが明らかになった。
    • レート歪理論に基づき,タスクのマージ可能性に根本的な限界が存在することが理論的に示された。

    Link: https://arxiv.org/abs/2603.09463

  • EvoDriveVLA:協調的知覚・計画蒸留による自律運転Vision-Language-Actionモデルの進化 [cs.CV, cs.AI]目的:自律運転用Vision-Language-Actionモデルの進化
    • 自動運転技術は,交通効率の向上や事故削減に不可欠であり,社会実装に向けた研究が重要である。
    • 視覚エンコーダを学習させると知覚性能が低下し,長期的計画において不安定性が蓄積しやすいという課題がある。
    • 視覚的アンカー制約とオラクルによる軌道最適化により,知覚と計画の協調的蒸留を実現し,モデルの安定性と性能向上を目指す。
    • EvoDriveVLAは,知覚と計画を協調的に蒸留する新しいフレームワークであり,最先端の性能を達成した。
    • 自己アンカー教師を用いた視覚的蒸留により,視覚的アンカー制約を適用し,軌道情報に基づいたキー領域への注意を促す。
    • オラクルによる軌道蒸留により,高品質な軌道候補を生成し,最適な軌道を選択して学習を誘導する。

    Link: https://arxiv.org/abs/2603.09465

  • テロジェネシス:目標が全てである [eess.SY, cs.SY, cs.RO, cond-mat.mtrl-sci, cs.DM, math.CO, cs.AI]目的:内的な認知状態からの注意優先順位の創発
    • 知能システムにおいて,効率的な情報収集は重要であり,そのために注意機構が不可欠である。
    • 従来の目標条件付きシステムでは,目標が外部から与えられる必要があり,自律的な目標設定が課題であった。
    • 認知的なギャップを利用して,外部からの報酬なしに自律的に注意を制御するメカニズムを提案する。
    • 知識の不足,驚き,陳腐化といった認識的ギャップに基づいた優先度関数が有効であることが示された。
    • 優先度に基づいた注意配分は,環境の次元が増加するにつれて,より優れた性能を発揮することが確認された。
    • システムの変数の減衰率を学習可能にすることで,外部からの監督なしに環境のボラティリティ構造が自発的に回復された。

    Link: https://arxiv.org/abs/2603.09476

  • GenePlan:大規模言語モデルを用いた汎化PDDLプランの進化 [cs.AI]目的:汎化プランニングのためのドメイン依存型汎用プランナーの生成
    • 古典的プランニングはAIの根幹技術であり,ロボット工学等に応用が期待される。
    • 既存のプランナーは,特定のドメインに依存し,汎用性に課題があった。
    • 大規模言語モデルを活用し,多様な問題に対して効率的なプランナーを生成する。
    • GenePlanは,既存のプランナーと同等の性能(SATスコア0.91)を達成した。
    • 特に,CoTプロンプティングなどの他のLLMベースラインを大幅に上回った(平均SATスコア0.64)。
    • 生成されたプランナーは,高速かつ低コストで新しい問題を解決できる(平均0.49秒/$1.82)。

    Link: https://arxiv.org/abs/2603.09481

  • ヴァイブ創出:人間とAIの創発的認知のエピステモロジー [cs.SI, physics.soc-ph, cs.AI]目的:人間とAIの相互作用から生じる新たな認知構造の解明
    • AI技術の発展は,人間の認知や知識獲得の方法に大きな影響を与えつつある。
    • 従来の道具的,拡張的,協調的なAIとの関係性の捉え方では不十分である。
    • AIとの相互作用が生み出す新たな認知構造「第三の存在」のメカニズムを明らかにすること。
    • 人間と生成AIの相互作用によって生じる「第三の存在」は,従来の認知様式とは異なる新たな認知構造である。
    • この「第三の存在」は,高次元の意味空間をナビゲートする「ヴァイブ創出」という,無意識的な認知様式を通じて機能する。
    • この研究は,教育機関の変革と知的能力の再定義に貢献する可能性を示唆する。

    Link: https://arxiv.org/abs/2603.09486

  • 多変量時系列データの異常検知のための時間条件付き正規化フロー [cs.LG, cs.AI]目的:多変量時系列データの異常検知における時間依存性と不確実性の正確なモデリング
    • 時系列データは様々な分野で不可欠であり,その異常検知はシステム監視や故障予測に重要である。
    • 従来の異常検知手法は,複雑な時間的ダイナミクスや不確実性を捉えきれない場合がある。
    • 学習された分布から逸脱する低確率事象を特定することで,よりロバストな異常検知を実現すること。
    • 時間条件付き正規化フロー(tcNF)は,過去の観測値に基づいて正規化フローを条件付けすることで,複雑な時間的ダイナミクスを効果的に捉える。
    • 多様なデータセットにおける評価で,tcNFは既存手法と比較して良好な精度とロバスト性を示すことが確認された。
    • 本研究では,強みと限界の包括的な分析と,再現性と将来の研究を促進するためのオープンソースコードを提供する。

    Link: https://arxiv.org/abs/2603.09490

  • ビジョン言語モデルに対する進化的なプロンプト適応 [cs.CV, cs.AI]目的:ビジョン言語モデルのダウンストリームタスクへの適応
    • 大規模なビジョン言語モデルは多様なタスクに応用可能だが,学習データが限られると性能が低下しやすい。
    • 従来のプロンプト学習法では,事前学習済みの知識を忘れてしまうという問題がある。
    • プロンプトの進化経路を制御することで,知識の喪失を防ぎつつ適応させることを目指す。
    • 提案手法EvoPromptは,モダリティ共有プロンプト射影器を用いて,統一された埋め込み空間から階層的なプロンプトを生成する。
    • 進化的な学習戦略により,低ランク更新を方向成分と大きさ成分に分離し,基礎知識を維持しながら適応を実現する。
    • 特徴幾何学的正則化により表現崩壊を防ぎ,Few-shot学習における最先端の性能と,事前学習済みのゼロショット能力の維持を両立する。

    Link: https://arxiv.org/abs/2603.09493

  • TrainDeeploy:極小変圧器モデルの極端なエッジにおけるハードウェアアクセラレーションによるパラメータ効率の良いファインチューニング [cs.AR, cs.LG]目的:極小変圧器モデルの極端なエッジ環境におけるパラメータ効率の良いファインチューニング手法
    • デバイス上での深層学習の適応は,データプライバシーを保護しつつ,長期的な適応を可能とする重要な技術である。
    • 極小消費電力・メモリ制約のデバイスでは,バックプロパゲーションの計算・メモリ負荷が大きな課題となっている。
    • 本研究は,ヘテロなSoC上で効率的な推論とデバイス上学習を統合し,極端なエッジ環境での学習を可能とする。
    • RISC-VベースのヘテロSoC上で,CCTの初の端から端までのデバイス上ファインチューニングに成功し,毎秒最大11枚の画像を学習可能となった。
    • LoRAを用いることで,動的メモリ使用量が23%削減され,学習可能なパラメータと勾配の数が15倍減少し,メモリ転送量が1.6倍減少した。
    • TrainDeeployは,CCT(0.28Mパラメータ)で最大4.6 FLOP/サイクル,Deep-AE(0.27Mパラメータ)で最大13.4 FLOP/サイクルを達成した。

    Link: https://arxiv.org/abs/2603.09511

  • それとなく言わなくてもよかった:忠実な言い換えからの潜在的学習 [cs.RO, cs.CL, cs.LG]目的:潜在的学習のメカニズムの解明
    • 大規模言語モデルの学習におけるデータ生成モデルの影響理解は重要である。
    • 教師モデルの特性が,意図せず学生モデルに伝達される問題が存在する。
    • 自然言語の言い換えを通じて特性伝達が起こるかを検証し,抑制方法を探る。
    • 教師モデルが特定の動物を好むように誘導された言い換えデータで学習させた学生モデルは,その動物に対する選好度を最大19パーセントポイント増加させた。
    • この特性伝達は,動物とは無関係な内容,あるいは嫌悪を表明する内容でも発生し,言い換えの忠実性フィルタリングも効果がないことが判明した。
    • モデルが自身の学習データ生成を行うパイプラインにおいて,コンテンツベースの検査では伝達を検出しにくく,反対意見を含むコンテンツも抑制できないことが懸念される。

    Link: https://arxiv.org/abs/2603.09517

  • パラメータおよびデータ効率的な適応によるドラフトモデルの効率的なアライメント [cs.LG, cs.AI]目的:ドラフトモデルの効率的な適応
    • 大規模言語モデルの推論速度向上は重要であり,推論コスト削減に繋がる。
    • 特定ドメインへのファインチューニングにより,推論性能が低下する可能性がある。
    • ファインチューニングされたモデルに対するドラフトモデルの性能回復を目指す。
    • 提案手法EDAは,ドラフトモデルをパラメータ効率的に適応させることで,性能低下を抑制する。
    • ファインチューニングされたターゲットモデルを用いて学習データを再生成し,推論と学習の乖離を改善する。
    • 高価値データを選択的に学習することで,効率的な適応を実現し,大幅なコスト削減に貢献する。

    Link: https://arxiv.org/abs/2603.09527

  • LLMに基づく人格適応によるデバンク効果の向上 [cs.AI, cs.CL]目的:人格特性に合わせた偽情報訂正メッセージの生成
    • 偽情報は社会に深刻な影響を与え,その拡散防止が喫緊の課題である。
    • 従来のデバンクは効果が限定的であり,個人の特性に合わせたアプローチが求められている。
    • LLMを活用し,人格特性に即した訂正メッセージの自動生成を可能にすること。
    • 人格特性に基づいたメッセージは,一般的に標準的なメッセージよりも説得力があることが示された。
    • 開放性(Openness)が高いほど説得されやすく,神経症傾向(Neuroticism)が高いほど説得されにくい傾向が確認された。
    • LLM評価器の違いから,複数のモデルを用いることでより明確な評価が得られることが示唆された。

    Link: https://arxiv.org/abs/2603.09533

  • コンパイラ優先の状態空間双対性と,推論のためのポータブルなO(1)自己回帰キャッシュ [cs.RO, cs.LG, cs.AI, cs.DC, cs.PF]目的:状態空間モデルの効率的な推論手法
    • 近年,状態空間モデルは様々な分野で注目を集めており,高性能な推論が求められている。
    • 従来の推論実装はNVIDIA GPUに依存しており,他のハードウェアへの移植が困難であった。
    • 本研究は,NVIDIA GPUに依存しない,ポータブルな推論手法を開発することを目的とする。
    • Mamba-2の状態空間双対性アルゴリズムが,XLAの最適化に適合することが示された。
    • XLAを用いてCPU,NVIDIA GPU,Google Cloud TPUで動作する推論実装を開発した。
    • TPU v6e上で,高い計算性能と帯域幅利用率を実現し,PyTorch/CUDAの精度と同等の結果が得られた。

    Link: https://arxiv.org/abs/2603.09555

  • 信頼できないオラクルを用いたベイズネットワークとマルコフネットワークの学習 [cs.CL, cs.RO, cs.DB, cs.LG]目的:マルコフネットワークとベイズネットワークの構造学習
    • 確率的因果関係のモデル化において,グラフ構造の学習は重要な課題である。
    • 従来の構造学習は,完全な条件独立性の情報に依存しており,現実的なデータでは困難である。
    • 誤りを含む条件独立性オラクル下でも構造を識別可能な条件を明らかにする。
    • マルコフネットワークにおいては,頂点間における疎なパス構造が,誤りがあっても構造の一意識別を可能にする。
    • ベイズネットワークでは,誤りを許容した場合でも,常に構造を特定することは不可能である。
    • 構造が一意に識別可能な場合に適用できる構造学習アルゴリズムを提案する。

    Link: https://arxiv.org/abs/2603.09563

  • Transformer学習への最適制御アプローチ [cs.DC, cs.LG, math.OC]目的:Transformer学習のための最適制御理論的枠組み
    • Transformerは自然言語処理において高い性能を示すが,その学習方法には改善の余地がある。
    • 従来のTransformer学習は勾配降下法に依存しており,最適性に課題が残る。
    • 最適制御理論を用いることで,Transformer学習の理論的基盤を確立し,より効率的な学習手法を開発する。
    • Transformerアーキテクチャを離散時間制御粒子系としてモデル化し,確率測度の空間への持ち上げを行うことで,マルコフ決定過程を構成した。
    • 動的計画法により,コンパクト性の仮定の下で,グローバルに最適な方策が存在することを示した。
    • 状態空間,確率測度の空間,行動空間を量子化することで,Transformerの学習を可能とするtriply quantized training procedureを提案した。

    Link: https://arxiv.org/abs/2603.09571

  • 部分観測からの混合観測蒸留によるヒューマノイドの歩行学習 [cs.RO, cs.LG]目的:ヒューマノイド歩行制御のための学習手法
    • ヒューマノイドロボットの歩行制御は,自律的な行動を可能にする上で不可欠である。
    • 従来のオフラインデータからの学習は,全身状態推定が必要であり,推定誤差が課題となる。
    • オンボードセンサーのみを用いた歩行制御を実現し,状態推定の必要性をなくす。
    • 提案手法SCDPは,オンボードセンサーのみを用いて高精度な速度制御を実現した(99-100%)。
    • AMASSテストセットにおける追従制御タスクにおいて,93%の成功率を達成し,完全状態を用いるベースラインと同等の性能を示した。
    • 実機G1ヒューマノイドにおいて,外部センサや状態推定なしで安定した歩行を実証した。

    Link: https://arxiv.org/abs/2603.09574

  • 忘却のないルーティング [cs.LG, cs.AI]目的:変圧器における継続学習のルーティング機構
    • 近年,大規模言語モデルの継続学習が重要視されている。新しいタスクを学習する際の効率性と性能維持が課題。
    • 従来の継続学習手法は,勾配に基づく反復最適化に依存しており,非定常なデータストリーム下での単一サンプル学習には不向き。
    • 本研究は,タスク識別子や反復最適化なしに,入力に応じて適切な表現部分空間を動的に選択するルーティング機構を提案する。
    • 提案手法RwFは,Modern Hopfield Networksに着想を得たエネルギーベースの連想検索層を導入し,各層の変圧器トークン埋め込みから動的プロンプトを生成する。
    • RwFは,既存のプロンプトベースの手法と比較して,Split-ImageNet-RおよびSplit-ImageNet-Sベンチマークにおいて大幅な性能向上を達成した。
    • エネルギーベースの連想ルーティングを変圧器のバックボーンに直接組み込むことが,オンライン継続学習のための有効な基盤となることが示唆された。

    Link: https://arxiv.org/abs/2603.09576

  • 高度に退化した多項式におけるAdamの収束に関する理解に向けて [cs.LG]目的:高度に退化した多項式におけるAdamの自動収束特性
    • 深層学習における最適化アルゴリズムは重要であり,Adamはその中でも広く利用されている。
    • Adamがどのような目的関数に対して優位性を示すか,その具体的なクラスは未だ十分に解明されていない。
    • Adamの自動収束特性を明らかにし,追加のスケジューラなしでの収束条件を導くことを目指す。
    • 高度に退化した多項式において,Adamは追加のスケジューラなしで自動的に収束することが示された。
    • これらの関数において,AdamはGradient DescentやMomentumよりも有意に速い線形収束を達成することが証明された。
    • 第2モーメントと勾配の2乗の間のデカップリング機構が,Adamの学習率を指数関数的に増幅させることが明らかになった。

    Link: https://arxiv.org/abs/2603.09581

  • 埋め込みパラメータクリッピングによる非パラメータ的変分微分プライバシー [cs.LG]目的:非パラメータ的変分微分プライバシーの実現
    • 言語モデルのプライバシー保護は,個人情報漏洩リスク軽減に不可欠である。
    • 従来のNVIBでは,潜在表現が情報量の多い領域に漂い,プライバシー保護と性能低下を招く。
    • 潜在表現のドリフトを抑制し,プライバシーと有用性の両立を目指す。
    • 提案手法は,Rényi Divergenceの上界最小化に基づき,パラメータに理論的な制約を導入する。
    • 実験の結果,パラメータクリッピングにより,より厳密なRD boundを達成し,プライバシーが向上した。
    • 同時に,いくつかの下流タスクにおいて,より高い性能が得られた。

    Link: https://arxiv.org/abs/2603.09583

  • 深層ReLUニューラルネットワークの記憶容量の幅と深さによる特徴づけ [cs.LG, cs.NA, math.NA]目的:深層ニューラルネットワークの記憶容量
    • 機械学習の発展に伴い,深層学習モデルの性能向上が不可欠となっている。
    • 深層学習モデルの記憶容量の理論的な理解が十分に進んでいない。
    • 深層ニューラルネットワークの記憶容量とネットワーク構造(幅と深さ)の関係を解明する。
    • 幅$W$と深さ$L$が$W^2L^2= \mathcal{O}(N\log(\delta^{-1}))$を満たすネットワークが,$N$個のデータ点を記憶可能であることが示された。
    • 同様のネットワークが,下限$W^2L^2=\Omega (N \log(\delta^{-1}))$を満たす必要があり,対数因子を除いて最適であることが証明された。
    • 深層ニューラルネットワークの記憶容量における幅と深さのトレードオフが明確化された。

    Link: https://arxiv.org/abs/2603.09589

  • 確率的微分方程式の遺伝的プログラミングによる記号的発見 [cs.CL, cs.RO, cs.NE, cs.SC]目的:確率的微分方程式の記号的発見
    • 科学的発見の自動化は,機械学習を通じて科学的理解を深める上で重要である。
    • 従来の記号回帰は主に常微分方程式に焦点を当てており,ノイズの影響を無視しがちである。
    • ノイズ項を明示的に学習することで,より高精度なモデリングと知識獲得を目指す。
    • 遺伝的プログラミングを用いて,ドリフト関数と拡散関数を同時に最適化する手法を提案した。
    • 提案手法は,支配方程式の正確な復元,高次元システムへの効率的なスケーリング,疎なサンプリングに対するロバスト性を示す。
    • 確率的偏微分方程式への一般化も可能であり,ノイズの多い動的システムの解明に貢献する。

    Link: https://arxiv.org/abs/2603.09597

  • Tweedieおよび負の二項分布コスト関数を用いた従来のNMFと凸NMFのためのMMアルゴリズムと実証評価 [cs.LG, stat.ME, stat.ML]目的:負の二項分布およびTweedieモデルを含む広範な分布仮定の下での,従来のNMFと凸NMFの両方の統一的フレームワークの開発
    • 非負行列分解は,遺伝学からテキスト分析,信号処理まで,幅広い分野で利用されている
    • 従来のNMFは,過分散や複雑な平均分散関係を示すデータに対して不十分な場合がある
    • データの特徴をより良く捉え,よりロバストな結果を得るためのNMFモデルの拡張
    • Tweedie分布と$\beta$-ダイバージェンスの関係が明確化された
    • Majorize-Minimisationアプローチを用いて,すべてのモデルに対する乗算更新ルールが導出された
    • 実証実験により,ノイズモデルの選択がモデル適合と特徴抽出に大きな影響を与えることが示された

    Link: https://arxiv.org/abs/2603.09601

  • 脳ネットワークの階層的組織の学習による脳疾患の診断 [cs.AR, cs.LG]目的:脳ネットワークの階層的依存関係の学習
    • 脳機能の解明は,精神疾患の診断や治療法の開発に不可欠である。
    • 既存手法では,定義済みのサブネットワークに依存しており,複雑な相互作用を見落とす場合がある。
    • 脳の本来の階層構造を学習し,より正確な疾患診断を目指す。
    • 提案手法BrainHOは,脳ネットワークのノードを階層的に集約する注意機構により,複雑な接続パターンを捉える。
    • 直交制約と階層的一貫性制約を導入することで,多様性,補完性,安定性を確保した。
    • ABIDEとREST-meta-MDDデータセットで最先端の分類性能を示し,臨床的に意味のあるバイオマーカーを特定した。

    Link: https://arxiv.org/abs/2603.09606

  • コンテキストエンジニアリング:プロンプトから企業向けマルチエージェントアーキテクチャへ [cs.CL, eess.SY, cs.SY, cs.AI, cs.MA]目的:AIエージェントの意思決定環境の設計,構造化,管理
    • AI技術の進化に伴い,自律的なマルチステップエージェントの重要性が高まっている。
    • プロンプトエンジニアリングだけでは,複雑なAIエージェントの運用には不十分である。
    • 企業規模でのマルチエージェントシステム展開におけるスケーラビリティ問題を解決する。
    • 本研究は,AIエージェントの意思決定環境の質を評価するための5つの基準(関連性,十分性,分離性,経済性,来歴)を提案する。
    • コンテキストエンジニアリング,意図エンジニアリング,仕様エンジニアリングの3つの分野を定義し,エージェントエンジニアリングの成熟度モデルを構築する。
    • Klarnaの事例研究を通して,コンテキストと意図のコントロールが,エージェントの行動と戦略を決定づけることを示唆する。

    Link: https://arxiv.org/abs/2603.09619

  • 視覚と言語モデルによる合成データ生成の根拠付け [cs.CV, cs.AI]目的:リモートセンシングにおけるセグメンテーションとキャプション生成のための合成データ拡張と評価の枠組み
    • 深層学習モデルの性能向上には多様で大規模なデータが必要であり,合成データは既存データセットの改善に貢献する。
    • 既存の合成データ評価指標は潜在特徴の類似度を計算するため,解釈が難しく,下流タスクへの貢献と必ずしも相関しない。
    • 視覚と言語モデルに基づき,セマンティックな整合性を検証することで,解釈可能な合成データ評価を可能にする。
    • 合成データのみで訓練されたモデルは競争力のある性能を示すが,実データと合成データを組み合わせた訓練では,実データのみのベースラインを上回る結果が得られた。
    • ARAS400kデータセットは,セマンティック構成の分析,キャプションの冗長性の最小化,視覚構造と言語記述間のクロスモーダル一貫性の検証を可能にする。
    • 本研究は,リモートセンシングタスク,特にセマンティックセグメンテーションと画像キャプション生成のためのスケーラブルなベンチマークを確立する。

    Link: https://arxiv.org/abs/2603.09625

  • PRECEPT:経験,文脈エンジニアリング,探索経路によるレジリエンス計画 - 構成的ルール学習とパレート最適化プロンプト進化によるテスト時適応のための統一的フレームワーク [cs.CL, cs.AI, cs.IR]目的:テスト時適応のための統一的フレームワーク
    • 大規模言語モデル(LLM)は知識獲得に優れるが,条件が増加すると性能が低下しやすい。
    • LLMは,学習したルールを確実に構成することや,古いまたは敵対的な知識を検出することが課題である。
    • テスト時に知識を更新し,よりロバストで効率的な推論を実現すること。
    • PRECEPTは,フルリフレクションと比較して,初回試行成功率で+41.1ppの優位性を示す。
    • 構成的な一般化性能は+33.3pp向上し,2-wayロジスティクスの構成において100%の$P_1$を達成する。
    • 敵対的知識やドリフトに対するロバスト性が向上し,ステップ数を61%削減する。

    Link: https://arxiv.org/abs/2603.09641

  • エッジSoCにおける疎なモデルの多重DNN推論 [cs.DC, cs.LG, cs.PF]目的:エッジSoCにおける多重DNN推論システムの効率向上
    • エッジデバイスでのAI活用が拡大し,高性能な推論処理が求められている。
    • 既存システムでは,モデルとアクセラレータの最適な対応付けが難しく,性能が制限される。
    • 疎なモデルからサブグラフを再結合することで,モデルのバリエーションを効率的に生成する。
    • 提案手法SparseLoomは,SLO違反率を最大74%削減し,性能向上を実現した。
    • スループットは最大2.31倍に向上し,メモリオーバーヘッドは平均28%削減された。
    • モデルの再学習なしで,モデルの組み合わせによるバリエーション展開が可能となった。

    Link: https://arxiv.org/abs/2603.09642

  • MM-tau-p$^2$: 二者制御環境における堅牢なマルチモーダルエージェント評価のためのパーソナ適応プロンプティング [cs.ET, cs.AI]目的:二者制御環境におけるマルチモーダルエージェントの堅牢性評価
    • 顧客体験管理において,エージェントはユーザーの個性に応じて振る舞いを変化させる必要があり,その評価が重要である。
    • 既存の評価フレームワークはユーザーの個性を考慮せず,ユーザーに依存しない環境でエージェントを評価している。
    • ユーザーの個性に適応したマルチモーダルエージェントの評価方法を確立し,その堅牢性を検証することを目的とする。
    • 本研究で提案するMM-tau-p$^2$ベンチマークは,12個の新規評価指標を導入し,マルチモーダルエージェントを包括的に評価する。
    • GPT-5やGPT 4.1といった最先端LLMにおいても,マルチモーダル化に伴う多角的な課題(多角的な堅牢性,ターンオーバーヘッドなど)が存在することが示された。
    • 通信および小売分野における評価指標の推定値を,明確な評価基準を用いたLLM-as-judgeアプローチにより提供した。

    Link: https://arxiv.org/abs/2603.09643