arXiv雑要約

AI - 2026/03/17 公開

  • 輸送写像の正規化フロー近似によるボルツマン分布のサンプリング [cs.CL, cs.LG, cs.NA, math.NA, math.PR]目的:高次元ボルツマン分布のサンプリング手法
    • 分子動力学において,ボルツマン分布からの効率的なサンプリングは重要な課題である。
    • 従来のサンプリング手法では,高次元かつ不規則なボルツマン分布の正確な近似が困難である。
    • 正規化フロー近似を用いた輸送写像の数学的基礎を確立し,近似誤差を厳密に評価する。
    • 正規化フローが参照測度とボルツマン分布の間に存在し,ウォーターシュタイン距離において任意の小さな誤差範囲内に収まることが証明された。
    • この結果は,原子間相互作用による不規則性を持つ分子動力学の一般的なボルツマン分布に適用可能である。
    • 数値シミュレーションにより,生成された分布が真の分布に近く,また準安定状態のダイナミクスも捉えられていることが確認された。

    Link: https://arxiv.org/abs/2603.14258

  • コールドスタートにおける生成型レコメンデーションへのモデル編集の導入 [cs.IR, cs.AI]目的:コールドスタート状況下における生成型レコメンデーションの性能向上
    • レコメンデーションシステムは,多様な情報から個々のユーザーに最適な提案を行う上で不可欠である。
    • 既存の生成型レコメンデーションモデルは,新規アイテムに対するレコメンデーション精度が著しく低下する。
    • 本研究は,モデル編集を通じて,学習を必要とせずに新規アイテムの情報を組み込むことでこの問題を解決する。
    • 提案手法GenRecEditは,コールドスタートアイテムにおけるレコメンデーション性能を大幅に改善する。
    • GenRecEditは,モデルの元のレコメンデーション品質を維持しながら性能向上を実現する。
    • 再学習に必要な計算時間の約9.5%で同等の効果を得られ,効率的なモデル更新を可能にする。

    Link: https://arxiv.org/abs/2603.14259

  • DiFlowDubber:クロスモーダルアライメントと同期による自動ビデオダビングのための離散フローマッチング [cs.HC, eess.SY, cs.RO, cs.SY, cs.CL, cs.MA, cs.CV, cs.AI, cs.MM, cs.SD]目的:ビデオダビングの自動化
    • 映像制作,マルチメディア,支援音声技術など,幅広い分野でビデオダビングの需要が高まっている。
    • 既存手法はデータ不足か,事前学習済みTTSモデルの適応に頼り,表現力や同期精度に課題がある。
    • 事前学習済みTTSモデルの知識をビデオ駆動型ダビングへ効果的に転送し,表現性と同期性を向上させる。
    • DiFlowDubberは,離散フローマッチングを基盤とする新しい2段階トレーニングフレームワークを採用している。
    • FaProモジュールにより,表情からグローバルなプロソディやスタイルを抽出し,その情報を活用して音声属性のモデリングを誘導する。
    • Synchronizerモジュールは,テキスト,ビデオ,音声間のモダリティギャップを埋め,クロスモーダルアライメントと時間的同期を実現する。

    Link: https://arxiv.org/abs/2603.14267

  • 関数空間における学習:教師あり学習と教師なし学習の統一的な関数解析的視点 [cs.LG]目的:教師あり学習と教師なし学習を関数空間における変分最適化として捉える概念的枠組み
    • 機械学習はデータから知識を獲得する基盤技術であり,社会の様々な分野で活用が拡大している。
    • 教師あり学習と教師なし学習は異なるアプローチを取るため,その根本的な関係性が明確でない場合がある。
    • 両学習パラダイムを統一的に理解し,関数空間と演算子の役割を明確にすることを目指す。
    • 機械学習アルゴリズムは,データの分布上に定義された関数の推定と解釈できることが示された。
    • 教師あり学習と教師なし学習は,最適化される関数が異なることが主な違いであり,基盤となる関数空間は共通である。
    • カーネル法,スペクトルクラスタリング,多様体学習との関連性が議論され,データ分布によって誘導される演算子が学習アルゴリズムによって使用される関数表現を自然に定義することが示された。

    Link: https://arxiv.org/abs/2603.14272

  • 一日を通しての多場面ライフロング視覚と言語ナビゲーション:タッカー適応によるアプローチ [cs.CV, cs.AI]目的:多場面ライフロング視覚と言語ナビゲーションにおける適応戦略
    • ロボットナビゲーションの多様な環境への適用は重要であり,実用化には不可欠である。
    • 特定の環境への適応は,他の環境での性能低下を引き起こす可能性があり,継続的な学習が課題となる。
    • 複数環境での知識の継続的な蓄積と,忘却現象の抑制を目指す。
    • 提案手法であるTuKAは,高階テンソルを用いて多階層的なナビゲーション知識を表現する。
    • TuKAとAlldayWalkerにより,複数のナビゲーションシナリオにおける継続学習が可能となった。
    • 実験結果から,AlldayWalkerが最先端の手法を上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.14276

  • AEX:LLM APIに対する非侵襲的マルチホップ認証と証拠 [cs.CR, cs.AI]目的:LLM APIのクライアントからのリクエストと応答の関係を証明する手法
    • LLMの利用拡大に伴い,API経由でのアクセスが増加しているため,APIの信頼性が重要になっている。
    • APIの挙動が公式な仕様と異なる場合や,中間APIが存在する場合,応答の信頼性を検証することが困難である。
    • API境界におけるリクエストと応答の関係を明確にし,信頼性のあるLLM APIの利用を可能にすること。
    • AEXは,既存のJSONベースLLM APIに非侵襲的に組み込むことができる認証拡張である。
    • AEXは,リクエスト,応答,ツール呼び出しなどのセマンティクスを維持しながら,署名された認証オブジェクトを追加する。
    • これにより,信頼できる発行元が特定のリクエストと出力の関係をAPI境界で証明できるようになる。

    Link: https://arxiv.org/abs/2603.14283

  • SIREN自動デコーダによる地震速度モデルの高忠実度圧縮 [cs.LG, cs.AI]目的:地震速度モデルの効率的な圧縮手法
    • 地震探査において,高精度な速度モデルは波形反転等の計算の根幹をなすため重要である。
    • 従来の速度モデルは巨大なデータ量となり,保存や処理に課題がある。
    • 暗黙的ニューラル表現を用いて,速度モデルを低次元の潜在ベクトルに圧縮し,効率的な保存と解析を実現する。
    • 提案手法は,70x70の速度マップを256次元の潜在ベクトルに圧縮し,19:1の圧縮率を達成した。
    • 再構成された速度モデルは,平均PSNRが32.47dB,SSIMが0.956と高い品質を示した。
    • 潜在空間の補間により,妥当な中間速度構造の生成や,追加学習なしでの超解像が可能になった。

    Link: https://arxiv.org/abs/2603.14284

  • MorphSNN:スパイクニューラルネットワークにおける適応グラフ拡散と構造可塑性 [cs.NE]目的:スパイクニューラルネットワークの性能向上
    • 脳の構造と機能を模倣することで,AIの効率と適応性を高めることが期待される。
    • 既存のスパイクニューラルネットワークは,固定された接続構造により柔軟性に欠ける。
    • 動的なトポロジー再編成によって,変化する環境への適応能力を高める。
    • MorphSNNは,従来の接続パターンにグラフ拡散メカニズムと構造可塑性を導入した。
    • N-Caltech101データセットにおいて,5タイムステップで83.35%という高い精度を達成した。
    • MorphSNNは,その自己進化的なトポロジーにより,追加の訓練なしに優れた分布外検出能力を示す。

    Link: https://arxiv.org/abs/2603.14285

  • 窓付きフーリエ伝播子:不均一媒質における波動方程式のための周波数局所ニューラル演算子 [cs.LG, cs.NA, math.NA]目的:不均一媒質における波動方程式の効率的な解法
    • 波動方程式は物理現象の記述に不可欠であり,そのシミュレーションは科学技術の発展に重要である。
    • 不均一媒質中の波動方程式の解は振動が激しく,従来の数値解法では計算コストが高いという課題がある。
    • 周波数局所性を利用したニューラル演算子を開発し,計算コストを削減しつつ高精度な波動シミュレーションを実現する。
    • 提案手法である窓付きフーリエ伝播子(WFP)は,周波数局所性の原理に基づき,効率的に解演算子を学習する。
    • WFPは,コンパクトな局所伝播子を学習することで,複雑な相互作用モデルを回避し,計算効率を高める。
    • 重ね合わせの原理を明示的に保持することで,単純なデータからの汎化性能を高め,複雑な波動状態を正確にモデル化する。

    Link: https://arxiv.org/abs/2603.14289

  • 拡散ノイズにおける物理法則の探求 [cs.CV, cs.AI, cs.LG, cs.RO]目的:動画拡散モデルにおける物理的妥当性予測信号の存在
    • 動画生成のリアリティ向上には,物理法則に合致した表現が不可欠である。
    • 既存モデルでは,物理的に不自然な動画が生成される場合がある。
    • 拡散モデルの潜在表現に内在する物理情報を活用し,生成動画の物理的整合性を高める。
    • 事前学習済みの拡散モデルの中間表現において,物理的に妥当な動画と不適切な動画を分離できることが示された。
    • 潜在表現の物理情報を活用する軌道選択手法により,物理的整合性が向上し,推論コストが削減された。
    • 提案手法は,PhyGenBenchにおいて,少ないステップ数でBest-of-Kサンプリングと同等の結果を達成した。

    Link: https://arxiv.org/abs/2603.14294

  • 4D同期場:時間的シーン理解のためのモーション言語ガウススプラッティング [cs.CV, cs.AI, cs.GR]目的:4次元空間における幾何,運動,意味論の構造的結合
    • 現実世界の理解には,時間変化を考慮したシーン把握が不可欠であるため。
    • 既存手法では,幾何,運動,意味論が分離されており,相互の関係性が不明確である。
    • 運動と意味論を統合し,解釈可能な運動表現と時間的クエリを可能にすること。
    • 4D同期場は,HyperNeRFにおいて,既存の言語ベースおよび運動認識手法を凌駕する高いPSNR(28.52dB)を達成した。
    • 運動条件付きの場は,時間的状態検索において,高い精度(0.884),vIoU(0.815),tIoU(0.733)を示した。
    • 本手法は,解釈可能な運動素子と時間的に関連付けられた言語場を単一の表現から抽出する初の試みである。

    Link: https://arxiv.org/abs/2603.14301

  • 分散探索を促す自律エージェント間の創発的成果物交換 [cs.AI, cond-mat.dis-nn, cs.LG, cs.MA, q-bio.BM]目的:分散型発見のための自律エージェント間の協調
    • 科学研究の加速には,個別研究者の能力を超えた大規模な知識探索と統合が不可欠である。
    • 既存の科学研究は,中央集権的な計画や人的資源に依存し,スケーラビリティに課題がある。
    • エージェント間の自律的な協調により,新たな知識発見の可能性を広げ,研究プロセスを効率化する。
    • ScienceClaw + Infiniteフレームワークは,中央集権的な調整なしに自律的に科学研究を行うエージェントの生態系を構築した。
    • エージェントは科学的プロファイルに基づいてツールを選択・連携し,不満な情報ニーズを共有することで,相互にニーズを満たす協調を実現した。
    • 4つの自律探索実験を通じて,異種ツール間の連携,独立して動作するエージェント間の収束,そして計算から公開された発見への追跡可能性が示された。

    Link: https://arxiv.org/abs/2603.14312

  • スペクトルクリッピングによるLLM学習の強化 [cs.CL, cs.LG, math.OC]目的:大規模言語モデルの学習におけるスペクトルクリッピングの有効性
    • LLMは高性能だが,学習の安定性や汎化性能向上が課題である。
    • 従来の最適化手法は,重みと勾配のスペクトル構造を考慮せず,学習が不安定になりやすい。
    • スペクトルクリッピングにより,学習の安定化と汎化性能の向上を目指す。
    • SPECTRAは,更新のスペクトルノルムを制限するポスト・スペクトルクリッピングと,スペクトルノイズを抑制するプレ・スペクトルクリッピングを導入する。
    • ポストクリッピングは複合Frank-Wolfe法に相当し,Frobeniusノルムや$\ell_{\infty}$-ノルム正則化を回復する。
    • LLMの事前学習実験により,SPECTRAは様々な最適化手法で検証損失を改善し,最先端の結果を達成した。

    Link: https://arxiv.org/abs/2603.14315

  • 時間変動制約を持つオンライン凸最適化における構造依存後悔と制約違反限界 [cs.AR, cs.LG]目的:時間変動制約を持つオンライン凸最適化における構造依存後悔と制約違反限界の導出
    • 動的ネットワークシステムにおける逐次意思決定の重要な枠組みであり,リアルタイムな最適化が求められる。
    • 既存の研究では,制約変動を単一の敵対的プロセスとして扱うため,現実のネットワークダイナミクスに対して保守的な結果となる。
    • 制約変動の構造を考慮し,より現実的な制約変動に対応できるオンライン学習アルゴリズムを開発する。
    • 制約変動の構造(滑らかなドリフト,周期的なサイクル,疎な切り替え)を特定し,それぞれに合わせた限界を導出した。
    • 提案するStructure-Adaptive Primal-Dual (SA-PD) アルゴリズムは,オンラインで環境構造を検出し,それに応じて双対更新戦略を適応させる。
    • 実データ実験の結果,SA-PDは構造を無視するベースラインと比較して,累積制約違反を最大53%削減した。

    Link: https://arxiv.org/abs/2603.14319

  • 医療MLLMはどのように失敗するのか? 医療画像における視覚的根拠付けの研究 [cs.CV, cs.AI]目的:医療画像におけるMLLMの視覚的根拠付け能力の評価
    • 医療分野では,画像診断の精度向上が重要であり,AIによる支援が期待されている。
    • 汎用的なMLLMは,医療画像においては十分な性能を発揮できていないという課題がある。
    • 医療MLLMの視覚的根拠付けの弱点を明らかにし,その改善策を提案すること。
    • 本研究により,最先端の医療MLLMが,臨床的に関連性の高い画像領域への根拠付けを頻繁に失敗することが確認された。
    • これは,自然画像におけるMLLMの性能とは対照的であり,医療画像特有の問題であることが示唆された。
    • 提案手法VGRefineは,追加学習や外部モデルなしで,6つのMed-VQAベンチマークで最先端の性能を達成した。

    Link: https://arxiv.org/abs/2603.14323

  • 心電図推論ベンチマーク:心電図解釈における臨床推論能力評価のためのベンチマーク [cs.LG, cs.AI, cs.CL]目的:心電図解釈における臨床的推論能力の評価
    • 医療現場では,迅速かつ正確な心電図解釈が重要であり,AIによる支援が期待されている。
    • 既存の多角的な大規模言語モデルは,心電図解釈の性能を示すものの,実際の推論過程が不明確である。
    • 心電図の視覚的根拠に基づいた段階的な推論能力を評価し,AIの限界を明らかにする。
    • 本研究で開発した「ECG-Reasoning-Benchmark」を用いて,最先端モデルの推論能力を評価した結果,多段階の論理的推論に失敗することが明らかになった。
    • モデルは診断基準の知識は有しているものの,心電図所見と視覚的証拠を結びつけることができず,推論チェーンを維持する能力が非常に低い(正答率6%)。
    • これらの結果は,現在のMLLMが実際の視覚的解釈を迂回していることを示し,より堅牢な推論中心の医療AIの必要性を強調する。

    Link: https://arxiv.org/abs/2603.14326

  • 四脚歩行ロボットのためのデータ駆動型物理埋め込みダイナミクス,予測制御,および強化学習 [cs.RO, cs.LG]目的:四脚歩行ロボットの制御における,データ駆動型物理埋め込みダイナミクスモデルの統合
    • ロボット工学において,複雑な運動能力と環境適応性が求められている。
    • 既存手法では,長期的予測における誤差の蓄積や解釈性の欠如が課題となっている。
    • ラグランジュニューラルネットワークを用いて物理的に整合性の高いダイナミクス学習を実現し,上記課題を解決する。
    • 提案手法は,行列反転のコストを削減し,計算効率を最大4倍向上させる。
    • サンプル効率の向上,長期的誤差の軽減,およびリアルタイムプランニングの高速化が確認された。
    • 実機であるUnitree Go1ロボットを用いた実験により,実用性が検証された。

    Link: https://arxiv.org/abs/2603.14333

  • 監査ログからの人間が理解可能なアクセス制御ポリシー生成 [cs.DB, cs.CR, cs.LG]目的:アクセス制御ポリシーの自動生成
    • アクセス制御は情報システムのセキュリティにおいて不可欠であり,複雑化が進んでいる。
    • アクセス制御システムと,意思決定者の意図との間に乖離が生じやすい。
    • 形式論理と人間が理解できるポリシー意図の間のセマンティックギャップを埋める。
    • 本研究では,大規模言語モデル(LLM)を活用し,アクセスログから人間が理解可能な自然言語によるアクセス制御ポリシーを生成するフレームワークを開発した。
    • 開発したフレームワーク「LANTERN」は,ABACルールを自然言語に翻訳し,説明することで,ルールナビゲーションを支援する。
    • LANTERNは再現性を確保するため,公開されたWebベースのアプリケーションとして提供されている。

    Link: https://arxiv.org/abs/2603.14341

  • AgroNVILA:マルチビュー農業マルチモーダル大規模言語モデルにおける知覚と推論の分離 [cs.CV, cs.AI]目的:農業におけるマルチモーダル推論の性能向上
    • 農業分野における精密農業の発展には,多様な視点からの空間理解が不可欠である。
    • 既存のマルチモーダル大規模言語モデルは,地上視点に偏りがあり,スケール間の混乱や論理のずれが生じやすい。
    • 本研究は,多様な空間スケールに対応可能な農業マルチモーダル大規模言語モデルを開発し,農業計画の精度向上を目指す。
    • 大規模な農業マルチビューデータセットAgroOmniを構築し,知覚と推論を分離したAgroNVILAを提案した。
    • AgroNVILAは,視点条件付きメタネットによりスケール曖昧性を解消し,農業に特化した強化学習により論理的な意思決定を実現する。
    • 実験により,AgroNVILAが既存モデルを大幅に上回り,マルチ高度農業推論において15.18%の性能向上を達成した。

    Link: https://arxiv.org/abs/2603.14342

  • 大規模音声言語モデルにおける知識の局所化と編集 [cs.LG]目的:大規模音声言語モデルにおける知識の局所化と編集
    • 音声による情報アクセスが自然なインターフェースとして期待されるため,音声言語モデルの高性能化が重要である。
    • 既存モデルは静的なデータで学習するため,誤った事実を含む可能性がある。
    • 音声とテキストモジュールに分散した知識を局所化し,正確な更新を可能にすることを目指す。
    • 知識は音声モジュールとテキストモジュールに共同で符号化されていることが示された。
    • 音声による編集は,テキスト編集やファインチューニングよりも効果的な知識更新を可能にする。
    • 本研究は,音声AIシステムの知識制御の精度向上に貢献する。

    Link: https://arxiv.org/abs/2603.14343

  • Refold:効率的な構造マッチングと融合によるタンパク質逆フォールディングの改良 [cs.RO, cs.CL, cs.CY, cs.IR, cs.LG]目的:タンパク質逆フォールディングの精度向上
    • タンパク質設計において,目的の構造に折り畳まれるアミノ酸配列を決定することは重要である。
    • 既存手法では,データベース依存性や局所構造の捉えにくさが課題となっていた。
    • データベースと深層学習の利点を組み合わせ,不確実性の高い領域での性能向上を目指す。
    • Refoldは,既存のベンチマークにおいて,タンパク質配列回収率0.63を達成し,最高水準の性能を示した。
    • 特に,不確実性の高い領域において大きな改善が見られ,構造情報と深層学習の相乗効果が確認された。
    • 動的有用性ゲートにより,信頼性の低い構造情報の影響を抑制し,予測精度を向上させている。

    Link: https://arxiv.org/abs/2603.14350

  • 動的知識空間を用いた自律運転における反事実学習 [cs.SC, cs.LG, cs.AI, cs.RO]目的:自律運転システムの生涯学習における課題解決
    • 自動運転技術の発展は,安全性向上や交通効率化に不可欠である。
    • 生涯学習における破局的忘却や,多様な状況への知識転移の困難さが課題。
    • 潜在的な交絡因子による誤った学習を抑制し,知識獲得を継続する。
    • 提案手法DeLLは,Dirichlet過程混合モデルを用いて動的知識空間を構築する。
    • これにより,知識の逐次的な更新と破局的忘却の軽減を実現した。
    • CARLAシミュレータでの評価により,新規シナリオへの適応性と運転性能の向上が確認された。

    Link: https://arxiv.org/abs/2603.14354

  • M$^2$RNN:スケーラブルな言語モデリングのための行列値状態を持つ非線形RNN [cs.LG, cs.AI]目的:言語モデリングにおける非線形RNNの性能向上
    • Transformerは並列性が高いが表現力に限界があり,より高度な処理能力が求められている。
    • 非線形RNNの性能は状態サイズによって制限されており,効率的な利用方法が課題である。
    • 行列値状態を用いることで,状態サイズの拡大と効率的な演算を可能にし,表現力を向上させる。
    • M$^2$RNNは,訓練時に見られなかった系列長においても,状態追跡の一般化性能を達成した。
    • 70億パラメータのMoEモデルにおいて,M$^2$RNNを組み込んだハイブリッドモデルは,既存のGated DeltaNetハイブリッドモデルを0.4~0.5パープレキシティポイント上回った。
    • 既存のハイブリッドアーキテクチャにM$^2$RNN層を1つだけ組み込むだけでも,ハイブリッドM$^2$RNNと同等の精度向上が得られた。

    Link: https://arxiv.org/abs/2603.14360

  • AerialVLA:UAVナビゲーションのためのミニマリストエンドツーエンド制御によるビジョン・言語・行動モデル [cs.CV, cs.AI, cs.RO]目的:UAVナビゲーションにおけるビジョン・言語・行動の統合
    • UAVの自律飛行は,災害対応やインフラ点検など様々な分野で重要性が増している。
    • 従来のVLNは,詳細なガイダンスや補助的な物体検出器に依存し,真の自律性を損なっていた。
    • オンボードセンサーのみを用いた,自律性の高いナビゲーションシステムの実現を目指す。
    • AerialVLAは,生の視覚情報と曖昧な言語指示を直接連続的な制御信号に変換する,ミニマリストなエンドツーエンドフレームワークである。
    • 提案手法は,視覚情報の冗長性を削減し,ナビゲーションに必要な情報を効率的に抽出するデュアルビュー認識戦略を採用している。
    • TravelUAVベンチマークにおいて,既存の最先端手法を上回る性能を示し,未知の環境での汎化性能も優れている。

    Link: https://arxiv.org/abs/2603.14363

  • 表現アラインメント:Just Image Transformersは思っているほど簡単ではない [cs.CV, cs.LG]目的:拡散Transformerの学習加速と画質向上
    • 潜在空間での拡散Transformer学習は,事前学習済みトークナイザーへの依存をなくすことでボトルネックを回避できる。
    • 表現アラインメント(REPA)がJust Image Transformers(JiT)に対して失敗することがある。
    • REPAの失敗原因を特定し,情報非対称性を解消するPixelREPAを提案する。
    • PixelREPAは,JiT-B$/16$のFIDを3.66から3.17に,Inception Scoreを275.1から284.6に改善した。
    • PixelREPAは,2倍以上の学習収束速度を実現した。
    • PixelREPA-H$/16$は,FID$=1.81$,IS$=317.2$を達成した。

    Link: https://arxiv.org/abs/2603.14366

  • 仕様からアーキテクチャへ:知識誘導機械学習のための理論コンパイラ [cs.LG]目的:知識誘導機械学習における,形式的なドメイン理論からアーキテクチャ制約への自動変換
    • 機械学習の性能向上には,ドメイン知識の活用が不可欠であり,その重要性は増している。
    • ドメイン理論をアーキテクチャに変換するプロセスは手動であり,ドメイン固有で,形式的な保証がない。
    • 理論コンパイラにより,形式的な理論に基づいた制約を満たすアーキテクチャを自動的に生成し,スケーラビリティと検証可能性を向上させる。
    • 理論コンパイラは,型付きの機械可読なドメイン理論を入力として受け取り,理論と整合性の取れたアーキテクチャを自動生成する。
    • このシステムは,型チェックの決定可能性,理論プリミティブからアーキテクチャモジュールへの正しいコンパイルアルゴリズム,および形式的な検証基準を確立することを目指す。
    • 理論コンパイラにより生成されたアーキテクチャは,手動で設計されたものと同等またはそれ以上の汎化性能を発揮し,必要な学習データを大幅に削減できると予測される。

    Link: https://arxiv.org/abs/2603.14369

  • OxyGen:マルチタスク並列処理のためのビジョン・言語・行動モデルにおける統一されたKVキャッシュ管理 [cs.RO, cs.AI]目的:ビジョン・言語・行動モデルにおけるKVキャッシュの統一管理
    • 具現化されたAIエージェントの高度化には,多様なタスクを並列実行する必要がある。
    • 既存の推論システムは,リソース競合により,効率的なマルチタスク並列処理が困難である。
    • KVキャッシュ管理の最適化により,オンデバイスでの効率的な並列処理を実現することを目指す。
    • OxyGenは,従来の個別実行と比較して最大3.7倍の高速化を達成した。
    • これにより,200トークン/秒以上の言語処理スループットと70Hzのアクション周波数を同時に実現した。
    • アクションの品質劣化は認められなかった。

    Link: https://arxiv.org/abs/2603.14371

  • 拡散効果を伴うコンテスト:GenAIによるコンテンツ作成のインセンティブ設計 [cs.AI]目的:GenAI時代のコンテンツ作成を維持するためのゲーム理論的基盤
    • GenAIの発展は,コンテンツの再利用と適応を通じて正の拡散効果を生み出し,生態系全体の価値を高める。
    • 拡散効果は,他の貢献から自由に利益を得られるため,コンテンツ作成者の努力に対するインセンティブを損なう可能性がある。
    • コンテンツ作成者のインセンティブを維持し,社会厚生を最大化するメカニズムを設計すること。
    • 拡散効果を考慮したコンテンツ作成コンテスト(CCS)モデルを提案し,均衡存在を保証する暫定配分メカニズムを開発した。
    • 暫定配分メカニズムの最適化はNP困難だが,効率的な近似アルゴリズムを開発し,健全な厚生保証を提供することに成功した。
    • 特に,限界拡散効果と木構造拡散効果に対して効率的なアルゴリズムを設計し,平均ケース分析において近似最適解を得る貪欲コスト選択アルゴリズムを提案した。

    Link: https://arxiv.org/abs/2603.14372

  • 運動の脈動:視覚的ダイナミクスからの物理フレームレートの計測 [cs.IR, cs.SY, eess.SY, cs.CV, cs.AI]目的:物理フレームレートの推定
    • 現実世界の物理シミュレーションには,空間と時間の両方の理解が不可欠である。
    • 既存の生成モデルはフレームレートのばらつきに起因する時間的な曖昧さを抱える。
    • 視覚的ダイナミクスから物理フレームレートを推定し,時間的な一貫性を確立すること。
    • 提案手法Visual Chronometerは,入力動画の視覚的ダイナミクスから物理フレームレートを予測する。
    • 実験により,最先端の動画生成モデルはフレームレートのずれと不安定性を抱えていることが明らかになった。
    • 物理フレームレートの補正を適用することで,AI生成動画の自然さを大幅に向上させることが示された。

    Link: https://arxiv.org/abs/2603.14375

  • SPARQ:エネルギー効率の高いエッジAIのためのスパイク型早期終了ニューラルネットワーク [cs.LG, cs.AI, cs.AR]目的:エネルギー効率の高いエッジAI実現のためのスパイク型ニューラルネットワークフレームワーク
    • エッジAIの普及には,デバイスの電力制約が課題であり,低消費電力な処理が重要である。
    • スパイクニューラルネットワークは省電力だが,計算負荷や入力適応性の欠如が実用化の障壁となっている。
    • 入力データに応じて早期に推論を終了させ,計算量と消費電力を削減することを目指す。
    • 提案手法QDSNNは,従来のSNNやQSNNと比較して,最大5.15%高い精度を達成した。
    • ベースラインSNNと比較して,330倍以上のシステムエネルギー削減を実現した。
    • シナプス操作回数を90%以上削減し,リアルタイムAI処理に適したハードウェアフレンドリーなソリューションとなる。

    Link: https://arxiv.org/abs/2603.14380

  • ソフトクリッピングにおける発散の抑制:確率勾配重みの双方向非結合減衰によるアプローチ [eess.SY, cs.SY, eess.SY, cs.SY, math.OC, eess.SY, cs.SY, cs.LG, cs.AI]目的:強化学習による検証可能な報酬(RLVR)の最適化における発散問題の解決
    • 大規模言語モデル(LLM)の推論能力向上に貢献するRLVRは,その最適化の安定性が課題となっている。
    • 従来のハードクリッピングは探索を抑制し,ソフトクリッピングは確率が消失すると発散する重みを生む。
    • 確率勾配を利用することで,安定性と持続的な探索の両立を目指す。
    • 提案手法DGPOは,重要度サンプリング比に基づく非結合減衰メカニズムにより,境界トークンの減衰を非対称かつ連続的に行う。
    • DeepSeek-R1-Distill-Qwenモデル(1.5B/7B/14B)を用いた実験で,様々な数学的ベンチマークにおいて既存手法を凌駕する性能を示した。
    • DGPOは,RLVRの安定性と拡張性を高める,堅牢かつスケーラブルな解決策を提供する。

    Link: https://arxiv.org/abs/2603.14389

  • 多様なロボットシステムのための知識エンコード型スケーラブルな軌道世界モデルWestWorld [cs.LG, cs.RO]目的:多様なロボットシステムにおける軌道予測性能の向上
    • ロボットの学習,計画,制御において,軌道世界モデルは不可欠な役割を担う。
    • 既存モデルは,多数のロボットシステムに適用する際の拡張性や,物理構造に関する知識の活用が課題である。
    • ロボットの物理構造に関する知識を組み込み,スケーラビリティを向上させることで,ゼロショット汎化性能を高める。
    • WestWorldは,システムに特化したエキスパートを動的に組み合わせるSys-MoEにより,スケーラビリティを達成した。
    • 構造埋め込みにより,軌道表現と形態情報との整合性が図られ,ゼロショットでの予測性能が大幅に向上した。
    • 実機であるUnitree Go1での実験により,安定した歩行性能が実証された。

    Link: https://arxiv.org/abs/2603.14392

  • 最小対の拡張:順序尺度驚異度曲線とエントロピーを用いた応用分野横断的研究 [cs.RO, eess.SY, cs.SY, cs.RO, cs.CL, cs.AI]目的:言語モデルにおける言語知識評価のための最小対パラダイムの拡張
    • 言語モデルの性能評価は,自然言語処理の発展において不可欠であり,その精度向上は様々な応用を可能とする。
    • 従来の評価手法は,二値の文法性判断に限定され,モデルの不確実性を捉えることが困難であった。
    • 順序尺度を用いた驚異度曲線とエントロピーを導入することで,モデルの判断と不確実性を定量化し,より詳細な評価を可能とする。
    • 驚異度曲線は,期待される順序尺度位置付近に明確な最小値を示し,解釈可能な分類シグナルを提供した。
    • 完成度におけるエントロピーは,真に曖昧な項目と容易な項目を区別する傾向が見られた。
    • 本手法は,社会生態技術システム分類,因果関係の特定,比喩表現の検出,質的演繹的コーディングなど,多様な応用分野で有効であることが示された。

    Link: https://arxiv.org/abs/2603.14400

  • ES-Merging:埋め込み空間の信号による生物学的MLLMの統合 [eess.SY, cs.SY, cs.LG, cs.AI]目的:生物学的マルチモーダル大規模言語モデルの統合手法
    • 科学的発見において,生物学におけるマルチモーダルデータ解析の重要性が高まっている。
    • 既存のモデルは単一のモダリティに特化しており,複数のモダリティを組み合わせた解析が困難である。
    • 埋め込み空間の信号を利用し,モダリティの専門性を忠実に捉えた統合手法を開発する。
    • 提案手法は,既存の統合手法やタスク固有のファインチューニングモデルを上回る性能を示す。
    • 埋め込み空間の信号が,クロスモーダルMLLMの統合のための原理的で効果的な基盤となることが示された。
    • 層ごとの粗視的な信号と要素ごとの詳細な信号から統合係数を推定する手法が有効である。

    Link: https://arxiv.org/abs/2603.14405

  • 石油・ガス生産ネットワークにおけるエネルギー損失,盗難,運用非効率の知能的検出のためのグラフベース深層学習 [cs.LG]目的:石油・ガス生産ネットワークにおける異常検出
    • エネルギー資源の効率的利用が重要視される中,生産システムの最適化は不可欠である。
    • 従来の機械学習手法では,時間的変動への対応や複雑な関係性の学習が困難であった。
    • 本研究は,生産システムの異常を早期に検出し,運用効率の改善に貢献することを目指す。
    • 提案手法は,ROC-AUCスコア約0.98,異常リコール0.93以上を達成し,高い性能を示した。
    • 時間ベースの評価において,ロバスト性が向上し,実運用における異常監視への応用が期待される。
    • 生産システムを階層的なグラフとしてモデル化し,時間的動的変化と関係性を学習することで,より高精度な異常検出を実現した。

    Link: https://arxiv.org/abs/2603.14406

  • 表形式データの汎用異常検知:全てを一つのモデルで [cs.LG]目的:表形式データの異常検知における汎化性能向上
    • 様々な実世界アプリケーションにおいて,データ内の異常を特定することは不可欠である。
    • 従来の異常検知手法は,データセットごとにモデルを学習する必要があり,計算コストが高い。
    • 複数のデータセットで一度学習し,未知のデータセットにも対応できる汎用的なフレームワークを提案する。
    • 本研究では,近傍距離パターンを転移可能な手がかりとして活用し,複数の変換空間から多視点な近傍距離表現を抽出する。
    • 多視点距離情報の組み合わせには,専門家混合(MoE)スコアリングネットワークとエントロピー正則化ゲート融合を用いる。
    • 厳格な汎用設定下で,14ドメイン34データセットでの実験により,提案手法が優れた性能とドメイン横断的な汎化能力を示す。

    Link: https://arxiv.org/abs/2603.14407

  • 病理的歩行条件付きGANによる人間歩行合成 [eess.SY, cs.SY, cs.CV, cs.AI]目的:病理的歩行の合成
    • 歩行分析は,医療診断やリハビリテーションにおいて重要な役割を担う。
    • 臨床データが限られており,多様な歩行異常のモデリングが困難である。
    • 病理に特化した歩行データを合成し,データ拡張による分析の精度向上を目指す。
    • 提案手法PGcGANは,3D姿勢キーポイントデータから病理特有の歩行パターンを合成する。
    • PCAやt-SNE分析,視覚的確認により,合成データと実データの高い一致性が確認された。
    • 合成データを加えることで,病理的歩行認識の精度が向上し,データ拡張の有効性が示された。

    Link: https://arxiv.org/abs/2603.14409

  • 質問応答はAIエージェントの安全性を捉えられない [cs.CY, cs.AI, cs.CL, cs.LG]目的:AIエージェントの安全性評価手法の限界
    • AI技術の発展に伴い,人間の価値観との整合性や安全性の評価が不可欠となっている。
    • 既存の評価手法は,AIエージェントの実際の挙動を正確に反映していない可能性がある。
    • 質問応答形式の評価が抱える構造的な問題を指摘し,より適切な安全性評価の方向性を示す。
    • 質問応答形式の評価は,AIエージェントの入力,行動,環境との相互作用,内部処理において,基盤となるLLMとの乖離が見られる。
    • LLMは自身の反事実的な行動を正確に報告する能力や傾向に依存するため,現実世界におけるAIシステムの安全性評価には不適切である。
    • 安全性評価とアライメント学習において,この問題を考慮した改善策が求められる。

    Link: https://arxiv.org/abs/2603.14417

  • 多施設前立腺病変セグメンテーションのための階層型潜在ラベルモデリングによる深層EM [cs.CV, cs.AI]目的:多施設データにおける前立腺病変のセグメンテーション性能向上
    • 前立腺癌の早期発見と治療には,正確な病変の検出とセグメンテーションが不可欠である。
    • 多施設データでは,施設ごとの輪郭決定プロトコルの違いにより,セグメンテーションネットワークが局所的なスタイルに過剰適合し,汎化性能が低下する。
    • 施設間でのセグメンテーションのばらつきを考慮し,より汎化性能の高いモデルを構築することを目指す。
    • 提案手法は,既存手法と比較して,クロスサイト汎化性能を向上させる。
    • プールデータ評価では,施設ごとの平均DSCが29.50%から39.69%の範囲で示され,leave-one-site-out汎化評価では27.91%から32.67%の範囲となった(p<0.039)。
    • 施設ごとの潜在的なラベル品質の推定値も得られ,クロスサイトアノテーションのばらつきの分析に役立つ。

    Link: https://arxiv.org/abs/2603.14418

  • データダーウィニズムPart II:DataEvolve -- AIによる事前学習データキュレーションの自律進化 [cs.DB, cs.AI]目的:事前学習データキュレーション戦略の自動進化
    • 大規模言語モデルの性能は,学習データの質に大きく依存する。
    • 多様なカテゴリを持つ大規模データセットに対し,手動での最適な戦略設計は困難である。
    • DataEvolveは,反復最適化によりデータキュレーション戦略を自律的に進化させる。
    • DataEvolveを用いて構築されたDarwin-CCは,既存データセットと比較してベンチマークテストで高い性能を示した。
    • 進化戦略は,ノイズ除去やフォーマット正規化といったクレンジングに焦点を当てて収束した。
    • 反復進化が不可欠であり,最適化された戦略は性能を向上させることを確認した。

    Link: https://arxiv.org/abs/2603.14420

  • MBD:ユーザー,コンテンツ,モデル次元におけるモデルベースのバイアス除去フレームワーク [cs.LG, cs.AI, cs.IR]目的:異種バイアスに影響される行動シグナルを,ユーザー定義の「非バイアス性」に基づいて,パーソナライズされ適応的な非バイアス信号へと変換すること。
    • 推薦システムは,ユーザー体験を向上させる上で不可欠であり,多様な行動シグナルを統合してランキングを行う。
    • 多くの行動シグナルには固有のバイアスが含まれており,推薦の公平性や正確性に悪影響を及ぼす可能性がある。
    • バイアスの影響を軽減し,より正確なユーザーの嗜好を反映した推薦を実現することを目指す。
    • 提案するMBDフレームワークは,部分的な特徴集合に基づいて行動シグナルの分布を明示的に推定することで,バイアスを除去する。
    • これにより,バイアスのかかった生のシグナルを非バイアス表現に変換し,より高度なキャリブレーションされたシグナルを構築することが可能となる。
    • 非バイアス性の定義は柔軟に制御でき,様々なパーソナライズ目標やモデリングの好みに適応させることができる。

    Link: https://arxiv.org/abs/2603.14422

  • エッセンスへのズーム:インターフェース要素の推論によるトレーニング不要なGUIグラウンディング [eess.SY, cs.SY, cs.CL, cs.DC, cs.LG]目的:GUIグラウンディング手法
    • GUIエージェントは,自然言語とUI要素の対応付けが重要であり,ユーザーインターフェースとの効果的な対話を実現する。
    • 既存手法は大量のデータセットとアノテーションに依存し,データ品質や分布に性能が左右されるという課題がある。
    • 複雑なUIを基本要素に分解し,推論スケーリングを用いて,トレーニング不要でGUIグラウンディングを実現する。
    • ZoomUIは,命令をUI要素の視覚的特徴記述に変換する潜在的思考を最適化する。
    • 内部アテンション機構を用いて,ターゲット要素のインターフェース領域に反復的にズームインする。
    • 広範なベンチマークにおいて,最先端のベースラインと同等またはそれ以上の性能を達成した。

    Link: https://arxiv.org/abs/2603.14448

  • 知識なしでの推論の蒸留:信頼性の高いLLMのためのフレームワーク [cs.RO, cs.CL, cs.AI, cs.IR]目的:信頼性の高いLLMを実現するためのフレームワーク
    • LLMは質問応答において強力だが,最新情報や矛盾する情報への対応が課題である。
    • 既存手法は暗黙的な計画に依存し,効率的なツール利用が難しい場合がある。
    • 計画と事実検索を分離することで,信頼性の高いLLMを実現する。
    • 教師あり計画は,モノリシックな推論モデルやプロンプトベースの手法と比較して,精度と応答速度を向上させた。
    • 明示的に学習された計画構造は,事実を求めるLLMの信頼性にとって不可欠であることが示された。
    • 計画,検索,応答合成をモジュール化することで,効率的かつ正確な質問応答が可能となった。

    Link: https://arxiv.org/abs/2603.14458

  • 知的・発達障害のある人々のグループインタラクションにおける視線行動予測のための包括的AI [cs.HC, cs.CV, cs.LG]目的:知的・発達障害のある人々の視線行動の検出と分析
    • 人間とAIの協調は,ウェルビーイング向上や治療介入など,様々な場面で重要な役割を担う。
    • 既存のAIモデルは,神経発達が典型的な人々を対象に学習されているため,多様な人々への対応が課題である。
    • 知的・発達障害のある人々の視線行動の特性を捉え,より包括的なAIシステムの開発を目指す。
    • 新たなデータセット「MIDD」を構築し,知的・発達障害のある人々の視線行動パターンを詳細に記録した。
    • MIDDと神経発達が典型的な人々とのデータセットを比較分析した結果,クラスの不均衡や視線分布に違いが見られた。
    • MIDDを用いてモデルをファインチューニングすることで,性能が向上するものの,課題が残ることを示した。

    Link: https://arxiv.org/abs/2603.14460

  • STAG-CN:養蜂センサーネットワークにおける病気発生予測のための時空間養蜂場グラフ畳み込みネットワーク [cs.LG, cs.AI]目的:蜂群の病気発生予測
    • 世界的な受粉サービスを脅かす蜂群の減少に対処するため,効果的なモニタリングが不可欠である。
    • 既存のモニタリングシステムは各巣箱を独立に扱うため,病気の伝播経路を捉えきれない。
    • 巣箱間の関係性を考慮し,病気の発生をより正確に予測すること。
    • 提案手法STAG-CNは,物理的な配置と気候センサーの相関に基づいた二重隣接グラフを用いて,病気の発生を予測する。
    • 韓国のAI Hubデータセットを用いた評価で,3日先の予測においてF1スコア0.607を達成した。
    • 気候的隣接行列のみでもフルモデルと同等の性能を示し,空間的近接性よりも環境応答パターンが予測に重要であることが示唆された。

    Link: https://arxiv.org/abs/2603.14462

  • エージェントプロセスベンチ:ツール使用エージェントにおけるステップレベルのプロセス品質の診断 [cs.CL, cs.AI]目的:ツール使用エージェントにおけるステップレベルのプロセス品質の評価
    • 大規模言語モデルがツール使用エージェントとして進化する中で,長期的な相互作用における信頼性が重要となっている。
    • 既存のプロセスレベルのベンチマークは数学的領域に限定されており,ツールの動的でオープンな実行環境を捉えられていない。
    • 現実的なツール拡張された軌跡におけるステップレベルの効果を評価するためのベンチマークを構築すること。
    • 本研究で開発したAgentProcessBenchは,1,000件の多様な軌跡と8,509件の人手によるステップレベルのアノテーションを含む。
    • 弱いポリシーモデルは早期終了により正しいステップの割合が過大評価される傾向があることが明らかになった。
    • プロセス由来のシグナルは,結果の監督と相補的な価値を提供し,テスト時間のスケーリングを大幅に向上させる。

    Link: https://arxiv.org/abs/2603.14465

  • 解析力学正則化による物理制約型方策最適化 [cs.RO, cs.LG]目的:ロボット制御における効率的かつ物理的に整合的な方策学習
    • ロボット制御は,現実世界での自動化を促進する上で重要な研究分野である。
    • 深層強化学習はサンプル効率が悪く,物理的に不整合な行動を生み出すことがある。
    • シミュレータで利用可能な物理モデルを方策学習に組み込むことで,その問題を解決する。
    • 提案手法PIPERは,物理制約を方策最適化に直接統合する新しい枠組みである。
    • ラグランジュ残差を正則化項として導入することで,ダイナミクス的に整合的な解への方策更新を誘導する。
    • 実験結果から,学習効率,安定性,制御精度が大幅に向上することが示された。

    Link: https://arxiv.org/abs/2603.14469

  • 線形スケッチング問題(生成モデルに基づく) [cs.CL, cs.LG]目的:データストリーミングにおける高精度な状態復元
    • データストリーミング処理の効率化が求められる現代において,高速かつコンパクトなデータ要約技術は重要である。
    • 従来のスケッチ技術は,要約からの状態復元において,精度,速度,リアルタイム性のトレードオフが存在する。
    • 生成モデルを活用し,情報損失を補填することで,高精度かつ低コストな状態復元を可能にする。
    • 提案手法FLOREは,既存手法と比較して,エラー率を最大1000倍,処理速度を100倍改善した。
    • FLOREは,教師データなしで学習可能であり,実用的なデータ復元を実現する。
    • 線形スケッチング問題における,従来のスケッチ技術の根本的な課題である直交的な情報損失を特定した。

    Link: https://arxiv.org/abs/2603.14474

  • 冷間噴射成形モデリングにおける熱機械的性能予測のための幾何学的・トポロジカル深層学習 [cs.LG, cond-mat.mtrl-sci, cs.AI, cs.CE]目的:冷間噴射粒子の衝突応答予測
    • 冷間噴射は,金属部品の修復や積層造形に有用な技術であり,そのプロセス最適化が重要である。
    • 従来のモデリングは計算コストが高く,効率的なプロセス最適化が困難である。
    • 深層学習を用いて,高速かつ高精度な熱機械的性能予測モデルを構築し,最適化を支援する。
    • グラフセージとGATは,ほとんどのターゲットにおいて0.93を超える決定係数を達成した。
    • 特にGATは,最大塑性ひずみに関して決定係数0.97のピーク性能を示した。
    • 空間グラフに基づく近傍集約は,冷間噴射プロセス最適化のための堅牢かつ物理的に解釈可能な代替モデリング戦略である。

    Link: https://arxiv.org/abs/2603.14478

  • 動力系システムの解明:因果表現学習と局所的な疎な注意機構 [cs.LG]目的:動力系パラメータの解明と,それらを記述する分離された表現の獲得
    • 物理現象のモデリングは科学技術の発展に不可欠であり,正確なモデル構築が求められる。
    • 従来のパラメータ同定法は事前知識に依存し,複雑なシステムへの適用が困難である。
    • データから直接,システムの構造を反映した分離された表現を獲得し,解明を試みる。
    • 因果表現学習を活用し,構造的仮定なしにシステムパラメータの分離表現を導出する理論的枠組みを開発した。
    • 局所的な因果構造を考慮することで,パラメータの識別可能性が向上することが示された。
    • 疎な注意機構を用いた変分推論により,合成データにおいて高い分離度を持つ表現を再現できることを示した。

    Link: https://arxiv.org/abs/2603.14483