arXiv雑要約

AI - 2026/03/25 公開

STEMエージェント：マルチプロトコルAIエージェントシステムの自己適応型ツール対応拡張アーキテクチャ [cs.AI]目的：マルチプロトコルAIエージェントシステムのアーキテクチャ
- 多様な対話様式への対応が求められるAIエージェント開発において，柔軟性と拡張性は重要である。
- 既存のAIエージェントフレームワークは，特定の対話プロトコルに早期にコミットし，柔軟性に欠ける。
- 多様な対話様式に対応可能で，ツール連携やユーザーモデルを柔軟に変更できるアーキテクチャの構築。
- STEMエージェントは，生物の多能性に着想を得たモジュール型アーキテクチャである。
- 5つの対話プロトコルを統合し，ユーザーの行動特性を学習するCaller Profilerを導入した。
- 413のテストスイートにより，プロトコルハンドラの動作とコンポーネントの統合が検証され，高い性能を示した。
Link: https://arxiv.org/abs/2603.22359
連続表現全波形反転のメカニズムの解明：波に基づいたニューラル接線カーネルフレームワーク [cs.LG, cs.AI, physics.geo-ph]目的：全波形反転における物理パラメータ推定メカニズムの解明
- 地球物理探査，医療画像処理などに応用され，地中構造評価の重要性が高い。
- 従来の全波形反転は初期モデル依存性が高く，反転精度が制限される。
- 連続表現全波形反転のメカニズムを解明し，初期モデル依存性の軽減を目指す。
- ニューラル接線カーネルを波に拡張したフレームワークを構築し，連続表現全波形反転の理論的基盤を確立した。
- 波に基づいたニューラル接線カーネルは，初期化時および訓練中に定数ではないことが示された。
- 固有値減衰特性が，初期モデル依存性の軽減と高周波収束の遅延を説明し，IG-FWI等の改良手法を提案した。
Link: https://arxiv.org/abs/2603.22362
アルゴリズム研究者I：大規模な証明可能なアルゴリズム合成の可能性 [cs.SE, cs.AI]目的：証明可能な保証を持ち，かつ実用的なアルゴリズムの合成
- アルゴリズム設計は計算機科学の根幹であり，効率と信頼性が求められる。
- 既存手法は事前知識に依存，またはアルゴリズムの範囲が限定されていた。
- LLMを活用し，データセットに応じたアルゴリズムを生成する新たなパラダイムを確立。
- Algorithmistは，GitHub Copilot上に構築された自律研究エージェントである。
- プライバシー，近似，解釈可能性を満たすアルゴリズムを証明的に設計し，実証的な有効性も確認した。
- 既存研究の誤りを発見し，証明に基づいたコード合成の可能性を示唆した。
Link: https://arxiv.org/abs/2603.22363
MCLR：クラス間尤度比最大化によるビジュアル生成モデルにおける条件モデリングの改善と，Classifier-Free GuidanceとAlignment Objectivesの等価性の確立 [cs.LG, cs.AI, cs.CV]目的：ビジュアル生成モデルにおける条件モデリングの改善
- 拡散モデルは生成モデリングにおいて最先端の性能を達成しているが，その成功は推論時のヒューリスティックに依存している。
- 標準的な拡散モデルでは，クラス間の分離が不十分である点が課題となっている。
- 推論時のガイダンスなしで，Classifier-Free Guidanceに匹敵する効果を得られるような学習目的の修正を目指す。
- MCLRは，学習中にクラス間尤度比を明示的に最大化するAlignment Objectiveである。
- MCLRでファインチューニングされたモデルは，標準サンプリング下でCFGと同様の改善を示し，推論時のガイダンスが不要となる。
- Classifier-Free Guidanceによるスコアが，重み付けされたMCLR目的の最適な解と等価であることが理論的に示された。
Link: https://arxiv.org/abs/2603.22364
量子増強注意グラフニューラルネットワークによる侵入検知 [cs.CR, cs.AI, cs.LG]目的：ネットワーク侵入検知のための量子増強注意グラフニューラルネットワーク
- ネットワーク機器の増加に伴い，セキュリティの重要性が増している。
- 既存手法では，ネットワークフロー間の関係性を十分に活用できていない。
- グラフ構造に着目し，量子技術を用いて検知精度を向上させる。
- Q-AGNNは，ネットワークフローをノード，類似性をエッジとしてグラフ構造で表現する。
- 量子回路により多段階の近傍情報を潜在空間へエンコードし，注意機構で重要なノードを特定する。
- ベンチマークデータセットで最先端手法と同等以上の性能を示し，実機での動作も確認された。
Link: https://arxiv.org/abs/2603.22365
推論者・実行者・合成者：定数O(1)コンテキストウィンドウを持つスケーラブルなエージェントアーキテクチャ [cs.IR, cs.AI]目的：大規模言語モデルを用いた自律エージェントにおける，効率的な情報処理アーキテクチャ
- LLMエージェントは自律的なタスク実行において重要であり，その性能向上が求められている。
- 従来のRAGベースのアーキテクチャでは，コンテキストウィンドウの長さやトークンコストが課題となっていた。
- 本研究は，コンテキストウィンドウのサイズに関わらず効率的な情報処理を可能にするアーキテクチャを提案する。
- 推論者・実行者・合成者(RES)アーキテクチャは，データセットサイズに対するトークン数をO(1)に抑えることを理論的に証明した。
- Crossref APIを用いて1億3千万件以上の論文を対象とした実験で，データセットサイズに依存せず平均1,574トークンで処理を完了することを示した。
- RESアーキテクチャは，生の記録をLLMに直接見せないことで，幻覚の発生を構造的に排除する。
Link: https://arxiv.org/abs/2603.22367
視覚情報が問題ではない場合：誤解を招くデータ可視化における視覚言語モデルの評価 [cs.CV, cs.AI]目的：誤解を招くデータ可視化の検出能力の評価
- データ可視化は情報伝達に不可欠だが，誤った表現は誤解を招き，誤情報を拡散する可能性がある。
- 既存の視覚言語モデルは図表理解で高い性能を示すものの，微妙な論理的誤りを含む場合に誤解を招く可視化を検出する能力は不明確である。
- 特定の論理的・視覚的誤りタイプの検出能力を評価し，モデルの弱点を明らかにすることを目的とする。
- 多くの視覚言語モデルは，視覚的なデザインエラーよりも，論理に基づいた誤情報の方を検出するのが難しいことが判明した。
- 誤解を招いていない可視化を誤って誤解を招くものと分類する頻度が高い。
- 本研究は，誤解を招くコンテンツの粗い検出と，それを引き起こす具体的な誤りの特定との間のギャップを埋める。
Link: https://arxiv.org/abs/2603.22368
FAAR：NVFP4向けフォーマット適応丸め [cs.LG, cs.AI]目的：NVFP4フォーマットにおける最適な量子化誤差の低減
- エッジデバイスでのLLM利用には低ビット量子化が不可欠であり，メモリ消費量と計算速度の改善が求められる。
- 既存の量子化手法は従来の丸め戦略に依存しており，NVFP4の非一様数値グリッドを考慮していないため，誤差が増大する。
- NVFP4の特性を考慮した丸め戦略を最適化することで，量子化誤差を最小化し，LLMの性能を向上させる。
- 提案手法FAARは，NVFP4の非一様グリッドを最適化プロセスに組み込み，損失勾配に基づいて丸めを適応的に調整する。
- Llama3-1Bにおいて，WikiText-2のパープレキシティを14.28から12.60に，Qwen3-1.7Bでは23.06から21.27に低減した。
- 様々なゼロショットダウンストリームタスクにおいて，最先端の手法と比較して一貫して優れた性能を示した。
Link: https://arxiv.org/abs/2603.22370
時系列データにおけるマルチモーダル融合の再考：補助モダリティは制約付き融合を必要とする [cs.LG, cs.AI]目的：時系列予測における補助モダリティの有効活用
- 時系列分析は，金融，気象，医療など幅広い分野で不可欠な技術である。
- 既存手法では，補助モダリティの統合が限定的で，汎化性能が低い場合がある。
- 制御された融合により，関連性の低い情報を排除し，時系列予測の精度向上を目指す。
- 単純な融合戦略では，単一モダリティモデルよりも性能が低下することが示された。
- 制約付き融合手法は，単純な融合手法よりも一貫して優れた性能を発揮する。
- 提案手法CFAは，時系列の背骨を変更せずに，関連するテキスト情報のみを統合することで，効果的な相互作用を実現する。
Link: https://arxiv.org/abs/2603.22372
３ステップで全てを創出：あなたは３ステップだけをサンプリングする [cs.LG, cs.AI, cs.CV]目的：拡散モデルにおける高速推論のための手法
- 拡散モデルは高品質な画像生成が可能だが，推論速度が課題となっている。
- ステップ数ごとの条件付けが，少数ステップサンプリングのボトルネックになっている。
- 層依存的なノイズ除去ダイナミクスに着目し，推論速度を向上させる。
- Multi-layer Time Embedding Optimization（MTEO）を提案し，既存の拡散モデルに組み込める。
- MTEOは推論時のオーバーヘッドを増加させず，パラメータの学習量を大幅に削減する。
- 多様なデータセットとバックボーンで最先端の性能を示し，蒸留ベース手法との差を縮小した。
Link: https://arxiv.org/abs/2603.22375
ランキングのためのAI共同研究者：クラウドコンピューティングアクセスを持つLLMベースのAIエージェントによる新しい検索ランキングモデルの発見 [cs.IR, cs.AI]目的：新しい検索ランキングモデルの発見
- 検索ランキングは，情報アクセスにおいて重要な役割を担う。
- 既存手法では，モデル開発に専門知識と多大な労力を要する。
- AIを活用し，検索ランキングモデルの自動的な発見と改善を目指す。
- 本研究では，AI共同研究者フレームワークが，新しいシーケンス特徴量の処理技術を発見した。
- この技術は，自動的に生成されたモデル改良により，オフライン性能を大幅に向上させた。
- AIシステムは，人間の専門家と同等のランキングアーキテクチャを発見し，研究ワークロードを削減できる可能性を示唆した。
Link: https://arxiv.org/abs/2603.22376
命令調整されたが，より検証可能な命令追従にはつながらない：LoRAアダプターのクロスタスク診断 [cs.LG, cs.AI, cs.CL]目的：LoRAアダプターのクロスタスク能力向上に関する，名目上の訓練目的と実際の能力変化の一致度評価
- 大規模言語モデルの適応的学習は，特定のタスクへの効率的な対応を可能にする重要な手法である。
- アダプターの選択はラベルに依存するが，ラベルと実際の能力向上との間に乖離が生じることがある。
- 名目上のラベルと実際の能力変化の不一致（能力ドリフト）を明らかにし，適切な評価方法を提示する。
- 検証可能な命令追従ベンチマークIFEvalにおいて，命令調整アダプターは必ずしも能力向上を示さない場合がある。
- 命令追従型アダプターは，数値ベースのベンチマーク性能を向上させる一方で，IFEvalにおける命令追従性能を低下させる事例が確認された。
- 本研究は，アダプターの展開前にクロスタスク評価を実施し，名目上のラベルを能力の信頼できる指標として使用しないことを推奨する。
Link: https://arxiv.org/abs/2603.22379
ノイズと疎なデータからのロバストな偏微分方程式発見のための記号グラフネットワーク [cs.LG, cs.AI]目的：ノイズと疎なデータからの偏微分方程式発見
- 観測データからの物理法則の発見は，様々な科学技術分野において重要である。
- 実際の計測データにはノイズが含まれ，サンプリングが疎である場合が多い。
- ノイズと疎なデータ条件下でもロバストに偏微分方程式を識別すること。
- 提案手法である記号グラフネットワーク(SGN)は，空間的相互作用をグラフメッセージパッシングでモデル化する。
- SGNは，数値微分や積分に基づく既存手法と比較して，ノイズに強いことが実験的に示された。
- グラフ表現と記号回帰の組み合わせが，不完全な観測データからの物理法則発見に有効である。
Link: https://arxiv.org/abs/2603.22380
行動するタイミングの学習：予測的時系列構造を持つ間隔を意識した強化学習 [cs.LG, cs.AI]目的：最適な行動間隔の学習
- 連続的な環境で自律的に行動するエージェントにとって，行動のタイミングは重要である。
- 従来の強化学習では，行動のタイミングは手動で設定されることが多く，最適化が困難である。
- 経験から最適な行動間隔を学習し，タイミング制御の効率化を目指す。
- 双曲幾何学に基づく「曲率信号」を導入し，未来の不確実性に応じて行動タイミングを調整する。
- 間隔を意識した報酬関数を用いることで，タイミングに関する誤った報酬帰属の問題を修正した。
- 空間情報と時系列情報を組み合わせた埋め込み表現（ATCPG-ST）により，効率がさらに向上した。
Link: https://arxiv.org/abs/2603.22384
静的テンプレートから動的ランタイムグラフへ：LLMエージェントのためのワークフロー最適化に関する調査 [cs.AI, cs.CL]目的：LLMエージェントのワークフロー最適化手法
- LLMを活用したシステムが普及し，複雑なタスク解決に貢献しているため。
- ワークフローの構造決定時期や最適化対象が多様化し，手法間の比較が困難である。
- ワークフロー最適化研究を体系化し，評価基準の標準化を目指す。
- 本調査では，ワークフロー構造の決定時期により，既存手法を静的/動的アプローチに分類した。
- ワークフローの最適化対象，評価指標の観点からも整理を行い，研究動向を明らかにした。
- グラフ構造の特性や実行コストに着目した評価視点も提案し，今後の研究の方向性を示唆した。
Link: https://arxiv.org/abs/2603.22386
AIモデル市場における計算仲介 [cs.AI, cs.LG]目的：AIモデル市場における仲介の実現可能性と経済的影響
- AIモデルの利用拡大に伴い，モデル提供者間の競争が激化しているため，市場メカニズムの理解が重要である。
- モデル提供者の価格設定が不透明であり，顧客は最適なモデル選択が困難であるという課題が存在する。
- モデル間の価格差を利用した仲介戦略により，市場の効率化と顧客利益の最大化を目指す。
- 検証可能なタスクにおいて，単純な仲介戦略が最大40%の利益率を生み出すことが示された。
- 複数の仲介者が競争することで，消費者の価格が低下し，モデル提供者の収益性が減少する。
- 仲介は市場のセグメンテーションを緩和し，小規模モデル提供者の市場参入を促進する可能性がある。
Link: https://arxiv.org/abs/2603.22404
連続構造探索と係数最適化によるシンボリック回帰のためのニューラル構造埋め込み [cs.LG]目的：シンボリック回帰における構造と係数の最適化
- データから解釈可能な数式を発見することは，科学的発見やモデルの説明可能性に不可欠である。
- 従来のシンボリック回帰は，離散的な構造探索に依存するため，計算コストが高く，安定性に欠ける。
- 連続的な埋め込み表現を用いて構造探索を効率化し，シンボリック回帰の性能を向上させる。
- 提案手法SRCOは，シンボリック構造を連続空間に埋め込むことで，勾配ベースの最適化を可能にする。
- 実験の結果，合成データおよび実データにおいて，最先端の手法と比較して，方程式の精度，ロバスト性，探索効率において優れていることが示された。
- 本研究は，シンボリック回帰に連続埋め込み学習と最適化を導入し，新たなパラダイムを提示する。
Link: https://arxiv.org/abs/2603.22429
オフライン強化学習のための微分可能なワールドモデルを用いたモデル予測制御 [cs.LG]目的：オフラインデータセットからの最適方策学習
- 強化学習は，ロボット制御など様々な分野で重要な役割を担う技術である。
- オフライン強化学習では，環境とのインタラクションなしに方策を学習する必要がある。
- 推論時に方策パラメータを最適化することで，性能向上を目指す。
- 提案手法は，微分可能なワールドモデルとモデル予測制御を組み合わせることで，推論時に方策を適応させる。
- D4RLベンチマークにおいて，既存のオフライン強化学習手法を上回る性能が確認された。
- 推論時の情報を用いて方策パラメータを最適化することで，一貫して性能向上が得られた。
Link: https://arxiv.org/abs/2603.22430
CaP-X：ロボット操作のためのコーディングエージェントのベンチマークと改善のためのフレームワーク [cs.DM, math.PR, cs.IR, cs.RO, cs.AI]目的：ロボット操作におけるコーディングエージェントのベンチマークと改善
- ロボットの自律的な操作は重要であり，そのために高度な制御技術が求められる。
- 従来のVLA手法では，複雑な操作タスクにおいて汎化性能が課題となっている。
- コードをポリシーとして活用し，ロボット操作の汎化性能と効率を向上させる。
- CaP-Benchの評価により，モデルの性能は人間が設計した抽象化によって向上するものの，それを取り除くと低下することが示された。
- エージェントのテスト時の計算能力を拡大することで，低レベルなプリミティブでもロバスト性を向上させることが可能となった。
- CaP-Agent0は，シミュレーションと実機で人間の信頼性と同等の性能を達成し，CaP-RLは，検証可能な報酬を用いた強化学習によって成功率を向上させ，sim2realの転送ギャップを最小限に抑えることが示された。
Link: https://arxiv.org/abs/2603.22435
mmFHE：エンドツーエンド完全準同型暗号化によるミリ波センシング [cs.HC, cs.CY, cs.CR, cs.LG, eess.SP]目的：ミリ波レーダーセンシングにおけるエンドツーエンドの完全準同型暗号化システム
- 個人情報保護の重要性が高まる中，センシングデータの安全な活用が求められている。
- クラウド環境でのセンシングデータ処理は，プライバシー侵害のリスクを伴う。
- 暗号化された状態でセンシング処理を行うことで，プライバシーを保護しつつデータ活用を実現する。
- mmFHEは，エッジデバイスで生データを暗号化し，クラウド上で暗号文のみを用いて信号処理と機械学習推論を行う。
- 本研究で開発した7つのFHEカーネルライブラリにより，様々なアプリケーションに柔軟に対応可能である。
- バイタルサインモニタリングとジェスチャー認識の実験で，暗号化による誤差は無視できる程度であり，実用性を示す結果が得られた。
Link: https://arxiv.org/abs/2603.22437
疎ではあるが重要：LLMのRLVRファインチューニングにおけるトークンレベルの分布シフト分析 [eess.SY, cs.SY, cs.CL, cs.AI, cs.LG]目的：LLMのRLVRファインチューニングにおける分布シフトのトークンレベル分析
- 大規模言語モデルの推論能力向上は，自然言語処理の発展に不可欠である。
- RLVRによる性能向上メカニズムは不明な点が多く，解明が求められている。
- RLVRがもたらす分布シフトの特性を明らかにすることで，ファインチューニングの最適化を目指す。
- RLファインチューニングは，トークン分布のごく一部に限定された変化を引き起こすことが明らかになった。
- わずかなRLトークンを挿入することで，RL性能が回復する一方，ベーストークンを挿入すると性能が低下することが示された。
- 分布シフトの重み付け変形は，ベースラインと比較して性能向上が期待できることが確認された。
Link: https://arxiv.org/abs/2603.22446
SkillRouter：大規模LLMエージェントのためのスキル選択の検索と再ランク付け [cs.CL, cs.SI, cs.LG]目的：LLMエージェントにおけるスキルルーティングの精度向上
- LLMエージェントの活用拡大に伴い，利用可能なスキルの数が急増している。
- 膨大なスキル数から適切なスキルを選択することが困難であり，ルーティングの効率が課題となっている。
- スキル本体の情報に着目し，高精度かつ軽量なスキルルーティング手法を開発する。
- スキル本体の情報が，スキル選択において決定的な役割を果たすことが実証された。
- 提案手法SkillRouterは，既存手法と比較して高いルーティング精度を達成した。
- SkillRouterは軽量であり，消費者向けハードウェアへのデプロイが可能である。
Link: https://arxiv.org/abs/2603.22455
クリック率向上を目的としたLLMによる見出しの書き換え：クリックベイト回避 [cs.CL, cs.AI]目的：ニュースの見出しにおける読者エンゲージメントの向上
- ニュースメディアにおいて，読者の注意を引き，情報へのアクセスを促すことは重要である。
- エンゲージメントの最適化が，誇張表現や誤解を招くクリックベイトに繋がる場合がある。
- 見出しの書き換えを通じて，読者エンゲージメントと正確性のバランスを取ることを目指す。
- LLMとFuture Discriminators for Generation (FUDGE)を用いて，見出しの書き換えを制御するフレームワークを提案した。
- クリックベイトスコアリングモデルとエンゲージメント属性モデルをガイドとして活用し，適切な書き換えを実現した。
- 見出しの魅力，意味の保存，クリックベイト回避のトレードオフを分析する原理的な手法を提供する。
Link: https://arxiv.org/abs/2603.22459
連合学習におけるエネルギーを意識した勾配プルーニングの理論的枠組み [cs.LG, cs.DC, cs.IT, cs.NI, math.IT, stat.ML]目的：連合学習におけるエネルギー効率の最適化
- エッジデバイスの普及に伴い，分散型機械学習の重要性が高まっている。
- 分散環境における通信とエネルギー制約が，学習のボトルネックとなっている。
- ハードウェア特性を考慮したプルーニング手法により，エネルギー効率を改善する。
- 提案手法CWMPは，コストを考慮した勾配プルーニングを実現し，通信量削減とエネルギー消費抑制の両立に貢献する。
- CWMPは，制約付き射影問題に対する最適な貪欲解であることが理論的に示された。
- 非IIDなCIFAR-10ベンチマーク実験により，CWMPが従来のTop-K法よりも優れた性能とエネルギー効率を示すことが確認された。
Link: https://arxiv.org/abs/2603.22465
重要時に色を捉える：グレースケール誘導型オンライントリガーによる常時ストリーミングビデオセンシング [cs.CV, cs.AI, cs.HC, cs.MM]目的：効率的なストリーミングビデオ理解のための手法
- 次世代エッジ/ウェアラブルAIシステムにおける常時センシングの重要性が高まっている。
- 高解像度RGBビデオの継続的な取得は，リソース制約のあるモバイル/エッジプラットフォームにとって負担が大きい。
- グレースケール情報に基づく色情報の取捨選択により，センシングと推論コストを削減することを目指す。
- ColorTriggerは，ウィンドウ化されたグレースケールアフィニティ分析に基づいて色情報の取得を動的に制御する。
- ストリーミングビデオ理解ベンチマークにおいて，ColorTriggerはフルカラーベースラインの91.6%の性能を，8.1%のRGBフレームの使用量で達成した。
- 自然なビデオにおける色情報の冗長性が実証され，リソース制約のあるデバイスでの常時ビデオセンシングが実現可能となった。
Link: https://arxiv.org/abs/2603.22466
ニューラル閉ループマップの安定性を維持するオンライン適応 [eess.SY, cs.AI, cs.SY, math.OC]目的：ニューラルネットワークに基づく非線形コントローラのオンライン更新メカニズム
- 現代の制御課題は複雑化の一途をたどっており，目標や外乱の変化にオンラインで対応できる制御が求められている。
- 既存手法では，閉ループ安定性を維持しながら非線形システムの性能を向上させることは可能だが，動作中のコントローラの更新方法が確立されていない。
- 閉ループの不安定化を招くことなく，コントローラをオンラインで更新できる安定性維持メカニズムを開発すること。
- 提案手法では，各コントローラを有界な$\ell_p$ゲインを持つ因果オペレータとしてモデル化し，オンライン更新のためのゲインに基づく条件を導出した。
- この条件により，時間スケジュール方式と状態トリガー方式という2つの実用的な更新スキームが実現され，更新後も閉ループの$\ell_p$安定性が保証される。
- 安定性とコントローラの最適性は分離されており，近似または早期停止されたコントローラ合成が可能であることが示された。
Link: https://arxiv.org/abs/2603.22469
過去に目を覚ます：ロボットの流体ウェイク効果をモデル化する [cs.RO, cs.LG, cs.MA]目的：ロボット間の流体ウェイク効果のモデル化
- 自律移動ロボットの普及に伴い，流体との相互作用理解が重要である。
- 流体ウェイク効果は複雑で予測が難しく，ロボットの動作に影響を及ぼす。
- 過去の状態情報を考慮することで，より正確なウェイク効果予測を目指す。
- 従来のデータ駆動型モデルは記憶を持たないため，機敏な状況下での予測精度が低い。
- 本研究では，流体ウェイク効果予測モデルに必要とされる特性を実証的に調査した。
- 過去の状態履歴を入力として用いること，および伝播遅延の予測が，予測精度向上に貢献する。
Link: https://arxiv.org/abs/2603.22472
ハイブリッド言語モデルアーキテクチャにおける機能コンポーネント除去による特殊化パターンの解明 [cs.CL, cs.AI, cs.LG]目的：ハイブリッド言語モデルアーキテクチャにおける機能の特殊化パターン
- 言語モデルは自然言語処理の基盤技術であり，その効率性と性能向上は重要課題である。
- ハイブリッドモデルでは，各コンポーネントの役割分担が不明確であり，最適な設計が困難である。
- 各コンポーネントの重要度を明らかにすることで，モデルの圧縮や堅牢性の向上を目指す。
- 機能コンポーネント除去実験により，ハイブリッドモデル両方のコンポーネントが不可欠であることが示された。
- 線形アテンションまたはSSMが主要な言語モデリングの基盤であり，除去するとperplexityが大幅に悪化する。
- ハイブリッドモデルは，純粋なTransformerと比較して，層のランダムな除去に対する耐性が高いことが明らかになった。
Link: https://arxiv.org/abs/2603.22473
潜在検証器による推論時スケーリングの微小化 [cs.CV, cs.AI, cs.MM]目的：生成モデルの推論時スケーリング効率の向上
- 生成モデルの性能向上は，AI研究における重要な課題である。
- 推論時の計算コストが，実用上のボトルネックとなっている。
- 中間表現空間での検証による計算コスト削減を目指す。
- 提案手法Veriﬁer on Hidden States (VHS)は，Diffusion Transformerの隠れ表現を直接解析する。
- これにより，ピクセル空間へのデコードや再エンコードといった冗長な処理を回避し，検証コストを削減する。
- GenEvalにおいて，既存手法と比較して2.7%の性能向上と，推論時間，計算量，VRAM使用量の大幅な削減を達成した。
Link: https://arxiv.org/abs/2603.22492
OrgForge-IT：LLMベースの内部脅威検知のための検証可能な合成ベンチマーク [cs.DC, cs.AR, cs.GL, cs.CL, cs.CR, cs.LG]目的：LLMベースの内部脅威検知の性能評価
- 組織内の不正行為は深刻な脅威であり，早期発見と対策が重要である。
- 既存のベンチマークは，データの矛盾や現実との乖離といった問題を抱えている。
- 外部事実制約に基づいた，一貫性のある合成ベンチマークの必要性がある。
- OrgForge-ITは，決定論的シミュレーションエンジンを用いて一貫性を保証する合成ベンチマークである。
- モデルの検証結果から，トリアージの精度と最終判断の精度が必ずしも一致しないことが示された。
- ソフトウェアエンジニアリングによる訓練が，複数日間の時系列相関分析において性能向上に貢献することが明らかになった。
Link: https://arxiv.org/abs/2603.22499
大規模言語モデルは研究の新規性を低下させるか？情報システム学術誌からの証拠 [cs.DL, cs.AI, cs.IR]目的：研究の新規性の変化
- 学術研究の進歩にとって，独創的なアイデアや視点の創出は不可欠である。
- 大規模言語モデルの普及に伴い，研究の質と新規性の維持が課題となっている。
- 大規模言語モデルが研究の新規性に与える影響を定量的に評価し，そのメカニズムを解明すること。
- ChatGPTの登場後，非英語圏の機関に所属する研究者の論文新規性は，英語圏の研究者に比べて0.18標準偏差低下した。
- この結果は，異なる新規性の定義，時期，サブサンプルにおいても一貫しており，信頼性が高い。
- 大規模言語モデルは研究者を抽象的な思考から具体的な実行へとシフトさせ，知的多様性を損なう可能性がある。
Link: https://arxiv.org/abs/2603.22510
ロボット運動のためのヘブの学習アトラクタネットワーク [cs.NE]目的：ロボット運動におけるヘブの学習アトラクタネットワークの有効性
- 生物の神経回路は経験を通して継続的に変化する。その能力は人工知能には乏しい。
- 変化する環境への迅速な適応が，既存の人工神経回路の課題である。
- ヘブの学習を利用し，自己修正可能なネットワークにおけるダイナミクスを解明する。
- ヘブの学習頻度と活性化の平均化が，重みダイナミクスと制御性能に影響を与えることが示された。
- 遅い更新と平均化は安定した重み構成への収束を促進し，速い更新は振動的な共同ダイナミックシステムを生み出す。
- これらの知見は，4脚歩行ロボットUnitree Go1のシミュレーションにも適用可能であることが確認された。
Link: https://arxiv.org/abs/2603.22512
深層学習とランダムフォレストによる高解像度洪水浸水域検出 [cs.CV, cs.AI]目的：洪水浸水域の検出手法
- 洪水リスク軽減戦略を支援するモデル検証は，極端なイベント時の観測データ不足により困難である。
- 災害時のラベル付き訓練データが不足しており，高頻度・高解像度画像（PlanetScope等）の応用が制限されている。
- PlanetScope画像と地形特徴を組み合わせることで，データ不足な状況下での洪水浸水域マッピングを可能とする。
- ランダムフォレストで生成した訓練ラベルを用いた深層学習モデル（U-Net）による洪水浸水域検出フレームワークを開発した。
- 地形特徴（HAND，斜面）の追加は，浸水域検出性能への貢献が限定的であった（F1=0.92，IoU=0.85）。
- 本フレームワークは，データ不足な洪水状況下での浸水域マッピングを可能にする，拡張性とラベル効率に優れた手法である。
Link: https://arxiv.org/abs/2603.22518
LLMON：LLMインターフェースにおける構造と意味論を活用するためのLLMネイティブマークアップ言語 [cs.SE, cs.AI, cs.PL]目的：LLMインターフェースにおける構造と意味論の活用
- LLMの性能向上の鍵は，入力データの構造化と意味理解にある。
- LLMへの入力はテキスト形式が一般的で，構造や意味が明確に伝わらない。
- LLMネイティブなマークアップ言語により，構造と意味をLLMに正確に伝達することを目指す。
- LLMONは，LLMに構造と意味的メタデータを自然に伝達するマークアップ言語である。
- LLMONは，モデルの学習，プロンプト，推論実装において，精度，安全性，セキュリティの向上に貢献する。
- LLMONの設計要件と，その有効性を示す初期的な実験結果が提示されている。
Link: https://arxiv.org/abs/2603.22519
ニューラル演算子デジタルツインにおける敵対的脆弱性：核熱水力代替モデルへの勾配不要攻撃 [cs.LG, cs.CR]目的：ニューラル演算子デジタルツインの敵対的摂動に対する脆弱性の評価
- 原子力やエネルギーシステムのリアルタイムな挙動予測にニューラル演算子が活用され始めている。
- 安全性が重要なシステムへの応用において，敵対的摂動に対する堅牢性が未評価である点が課題である。
- 本研究は，ニューラル演算子の潜在的な攻撃対象領域を明らかにし，堅牢性を保証する必要性を示す。
- ニューラル演算子は，わずかな入力（1%未満）の，物理的に妥当な摂動によって，著しい予測失敗を引き起こすことが示された。
- 成功した攻撃は，標準的な異常検知手法（Zスコア）では検出されず，高い相対的$L_2$誤差（37-63%）を引き起こす。
- 効果的摂動次元$d_{\text{eff}}$と感度幅を組み合わせた脆弱性モデルにより，出力射影の低ランク性がエラーを抑制し，適度な集中と増幅が攻撃成功率を高めることが明らかになった。
Link: https://arxiv.org/abs/2603.22525
エンジニアリング図面のためのGraphRAG：ChatP&IDによるLLMとP&IDの対話 [cs.IR, cs.AI]目的：エンジニアリング図面（P&IDなど）とLLMの対話
- プラント設計や運転において，P&IDは重要な情報源である。効率的な情報抽出が不可欠。
- P&IDを直接LLMに入力すると，コストがかかり，誤った情報を生成しやすい。
- GraphRAGを用いてP&IDを知識グラフ化し，LLMによる正確かつ低コストな対話を可能にする。
- 知識グラフを用いた表現により，raw画像入力と比較して精度が18%向上する。
- スマートP&IDファイルを直接入力するよりも，トークンコストを85%削減できる。
- GPT-5-miniとContextRAGの組み合わせにより，91%の精度をわずか0.004ドルのコストで達成。
Link: https://arxiv.org/abs/2603.22528
エゴからウェブへ：一人称視点ビデオに基づくウェブエージェントベンチマーク [cs.CV, cs.AI, cs.CL]目的：一人称視点ビデオとウェブタスクを組み合わせたベンチマークEgo2Webの構築
- 現実世界の作業を自動化するマルチモーダルAIエージェントの重要性が増している。
- 既存のウェブエージェントベンチマークは，現実世界の状況との連携が不足している。
- 現実世界の視覚情報とオンラインタスクを統合する評価環境の提供を目指す。
- Ego2Webは，一人称視点ビデオとウェブタスクを組み合わせた最初のベンチマークである。
- 既存の最先端エージェントは，Ego2Webにおいて低い性能を示しており，改善の余地が大きい。
- LLMを活用した自動評価手法Ego2WebJudgeは，人間の判断との高い一致率（約84%）を達成した。
Link: https://arxiv.org/abs/2603.22529
単一モダリティへの展開を目指したマルチモーダル学習：訓練時の非構造化データ活用による構造化データのみの展開最適化 [cs.LG]目的：訓練時の非構造化データ活用による構造化データのみの展開最適化
- 医療記録は患者の重要な情報源であり，質の高い医療提供に不可欠である。
- 構造化データだけでは臨床文脈が捉えきれず，モデルの性能が制限される場合がある。
- 非構造化データ活用で構造化データのみのモデル性能を向上させ，実用的な展開を可能にする。
- 非構造化EHRデータを訓練時に活用するマルチモーダル学習フレームワークを提案した。
- 構築したモデルは，AUROC 0.705を達成し，構造化データのみのベースライン(0.656)を上回った。
- 非構造化データの活用が，構造化EHRデータ内の関連情報抽出能力を向上させることを示した。
Link: https://arxiv.org/abs/2603.22530
多方向カーディナリティ制約の最大エントロピー緩和法：合成人口生成への応用 [cs.DC, eess.SY, cs.SY, eess.SY, cs.SY, cs.AI]目的：集計統計量に基づく合成人口の生成
- 社会シミュレーションや政策分析において，個々のデータが利用できない場合でも，集計統計量から人口を生成する技術が重要である。
- 多数の属性と制約が複雑に絡み合う場合，正確な制約を満たす合成人口を生成することは計算上の課題となる。
- 多方向カーディナリティ制約を期待値で緩和することで，大規模な問題に対処可能な手法を確立する。
- 提案手法は，属性数や3次相互作用が増加するにつれて，汎用的なラキング法と比較して優位性を示す。
- 制約の数と次数が増加するほど，最大エントロピー緩和法の利点が大きくなる。
- ラキング法は，属性数が少なく，次数が低いインスタンスにおいては競争力がある。
Link: https://arxiv.org/abs/2603.22558
AIにおけるメンタルモデル：制約されたニューラルアーキテクチャにおける学習された直観と熟慮 [cs.RO, cs.AI]目的：64項目の三段論法推論ベンチマークにおける，直観と熟慮の有意義な分業の可能性
- AIにおける世界モデルや多段階推論は重要な研究テーマであり，より高度な知能の実現に不可欠である。
- 既存のAIシステムは，想起的な予測に偏りがちで，構造化された内部計算が困難である。
- 学習システムが，単なる連想予測ではなく，構造化された内部計算を発展させられるかを検証する。
- 制約された二重経路アーキテクチャにおいて，直観と熟慮の経路がそれぞれ高い相関を示した（r=0.7272, r=0.8152）。
- 熟慮経路は，否定応答やc-a結論の処理能力が向上しており，NVC, Eca, Oca問題で大きな改善が見られた。
- 熟慮経路は，Oac傾向状態，主要な動作状態など，疎な内部構造を発達させており，推論のような内部組織が確認された。
Link: https://arxiv.org/abs/2603.22561
MIOFlow 2.0：単一細胞および空間トランスクリプトミクスデータからの細胞の確率的動態推論のための統一的フレームワーク [cs.LG]目的：単一細胞および空間トランスクリプトミクスデータからの細胞の確率的動態推論
- 発生，再生，疾患の研究には，時間分解能を持つ単一細胞トランスクリプトミクスによる細胞軌跡の理解が不可欠である。
- 離散的なスナップショットから連続的な軌跡を推論することは困難であり，細胞間の確率的な分岐や空間的な環境の影響を捉えられない場合がある。
- 本研究では，多様な生物学的過程を考慮した細胞軌跡推論を可能にする新しいフレームワークを開発し，細胞の動態理解を深めることを目指す。
- MIOFlow 2.0は，多様な微分方程式と最適輸送，そしてオートエンコーダを利用することで，データの内在的幾何学的構造を尊重した表現力豊かな軌跡学習を可能にする。
- 合成データセット，胚様体分化，および空間分解能を持つアホロートル脳再生の検証により，MIOFlow 2.0は既存の生成モデルよりも高い軌跡精度を示すことが示された。
- MIOFlow 2.0は，単一細胞および空間トランスクリプトミクスを結びつけ，組織スケールの軌跡を明らかにし，細胞遷移の隠れた要因を特定する。
Link: https://arxiv.org/abs/2603.22564
STRIATUM-CTF：汎用CTF解決のためのプロトコル駆動型エージェントフレームワーク [cs.RO, cs.CL, cs.CR, cs.AI, cs.MA]目的：汎用CTF解決のためのプロトコル駆動型エージェントフレームワーク
- サイバーセキュリティは重要性が増しており，自動化された脆弱性分析・攻撃技術が求められている。
- LLMはコード生成に優れるが，多段階かつ状態を持つ推論が必要な攻撃的セキュリティ操作には課題がある。
- 動的な実環境における脆弱性を考慮し，LLMによる自律的なサイバー攻撃能力向上を目指す。
- STRIATUM-CTFは，標準化されたツールインターフェースにより，LLMの文脈維持能力を向上させた。
- 大学主催のCTF競技会において，21の人間チームを上回る成績で1位を獲得した。
- MCPベースのツール抽象化が，単純なプロンプト戦略と比較して，幻覚を大幅に減少させたことが分析により示された。
Link: https://arxiv.org/abs/2603.22577
嘘をつくのか：推論モデルにおける思考の連鎖（Chain-of-Thought）推論の忠実性 [cs.RO, cs.CL, cs.AI]目的：推論モデルにおける思考の連鎖推論の忠実性評価
- 大規模言語モデルの安全性確保は重要であり，思考の連鎖推論はその透明性メカニズムとして期待されている。
- 思考の連鎖推論の忠実性（出力に影響する要因の正確な言語化）は検証が不十分であり，特にオープンウェイトモデルでは評価が限定的であった。
- オープンウェイト推論モデルにおける思考の連鎖推論の忠実性を様々なヒントを用いて評価し，安全メカニズムとしての信頼性を検証する。
- 12のオープンウェイトモデルで評価した結果，忠実率は39.7%（Seed-1.6-Flash）から89.9%（DeepSeek-V3.2-Speciale）まで幅があった。
- 一貫性と迎合的なヒントは，特に低い忠実率を示し，モデルが内部的にヒントの影響を認識しているにも関わらず，出力を抑制している可能性が示唆された。
- モデルのアーキテクチャや学習方法が，パラメータ数よりも忠実性に強く影響すること，そして思考の連鎖推論の監視が安全メカニズムとして限界があることが示唆された。
Link: https://arxiv.org/abs/2603.22582
命令条件付きインコンテキスト時系列タスクのための基盤モデル [cs.LG]目的：命令条件付きインコンテキスト時系列タスクにおける基盤モデル
- 時系列データは，金融，気象，医療など幅広い分野で重要であり，予測精度の向上は不可欠である。
- 既存の時系列基盤モデルは，明示的な命令によるデモンストレーションが少なく，汎用性に課題がある。
- 明示的な命令条件に基づくインコンテキスト学習により，タスク固有のファインチューニングなしでの適応能力向上を目指す。
- 本研究では，量子回帰T5エンコーダーデコーダーに基づいた，命令条件付きインコンテキスト時系列タスクのための基盤モデルを提案した。
- 提案手法は，fev-benchおよびGIFT-Evalを含むベンチマークにおいて，既存の基盤モデルよりも優れた予測性能を示した。
- 多タスク学習により，タスクマッピングの分布を学習し，推論時の局所構造への適応を改善することが確認された。
Link: https://arxiv.org/abs/2603.22586
flexvec：プログラムによる埋め込み変調を用いたSQLベクトル検索 [cs.IR, cs.AI, cs.DB]目的：ベクトル検索パイプラインの可変性
- AIエージェントの普及に伴い，検索APIの柔軟性が重要となっている。
- 従来のベクトル検索では，埋め込み行列やスコア配列の調整が困難であった。
- クエリ時に埋め込みを調整するプログラム可能なインターフェースを提供する。
- flexvecは，埋め込み行列とスコア配列をプログラムで操作可能な基盤として提供する。
- 24万チャンクのデータセットで，3つの変調処理がデスクトップCPU上で19msで実行可能。
- 100万チャンクの場合でも，同じ処理は82msで実行される。
Link: https://arxiv.org/abs/2603.22587
精度可変予測（PVP）：敵対的攻撃に対する自動音声認識システムの堅牢化 [cs.LG, cs.CR, eess.AS]目的：敵対的攻撃に対する自動音声認識システムの堅牢性向上
- 自動化・自律システムの普及に伴い，音声認識システムの安全性確保が重要視されている。
- 既存の音声認識システムは，微小な摂動による敵対的攻撃に脆弱であるという課題がある。
- 推論時の精度を変化させることで，敵対的攻撃への耐性を高め，攻撃検知も可能にすることを目指す。
- 推論時の精度をランダムに変化させる「精度可変予測（PVP）」により，様々な音声認識システムで堅牢性が大幅に向上した。
- 異なる精度での出力を比較し，ガウス分類器を用いることで，敵対的攻撃の検出性能も良好に示された。
- PVPは，攻撃の種類を問わず，高い堅牢性と検出性能を発揮することが確認された。
Link: https://arxiv.org/abs/2603.22590
言語モデルはステアリングを通じて視覚的特徴を説明できる [cs.CV, cs.AI]目的：視覚的特徴の説明
- 画像認識の精度向上に伴い，モデルの判断根拠の解明が重要になっている。
- 従来の解釈手法は人間による介入が必要，または計算コストが高いという課題があった。
- 言語モデルを活用し，自動的に視覚的特徴を説明する新たな手法を開発すること。
- ステアリングという手法により，視覚モデルの特徴を言語モデルに説明させることが可能になった。
- 説明の質は言語モデルの規模に比例して向上し，自動解釈の新たな方向性を示す。
- ステアリングと入力例に基づく手法を組み合わせた「Steering-informed Top-k」が最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.22593
マルチインスタンス処理におけるLLMの性能低下の理解：インスタンス数とコンテキスト長の役割 [cs.AI, cs.CL]目的：大規模言語モデルにおけるマルチインスタンス処理能力の評価
- LLMは多様なタスクで利用され，その応用範囲は広がり続けている
- 複数インスタンスへの対応性能は十分に検証されておらず，課題が残されている
- インスタンス数とコンテキスト長がLLM性能に与える影響を明らかにすること
- インスタンス数が少ない場合(約20-100)は軽微な性能低下が見られる
- インスタンス数が増加すると，性能が著しく低下する傾向が確認された
- コンテキスト長も性能低下に関与するが，インスタンス数の影響がより大きいことが示された
Link: https://arxiv.org/abs/2603.22608
消費者はAIを道徳的遵守代理として受け入れるか？ [cs.NI, cs.HC, cs.AI]目的：AIの道徳的遵守代理としての受容性
- AI技術は社会に浸透しつつあり，倫理的判断への応用が重要になっている。
- AIが倫理的判断を行うことへの消費者の抵抗感が，普及の妨げとなっている。
- AIを道徳的遵守代理と位置づけることで，消費者の抵抗感を軽減し，受容性を高める。
- 研究により，消費者は道徳的遵守の役割において，AIを人間よりも好意的に評価することが示された。
- この好意的な評価は，AIには人間の持つような隠れた動機がないという推論に基づいている。
- AIを道徳的遵守代理として位置づけることで，企業は消費者の懐疑心を解消し，信頼を向上させることができる。
Link: https://arxiv.org/abs/2603.22617
タスクレベルの自己回帰的推論による知識と行動の乖離の解消 [cs.HC, cs.AI]目的：知識と行動の乖離を解消するためのフレームワークの提案
- 大規模言語モデルの能力向上は，様々な応用分野で重要であり，その限界の克服が求められている。
- LLMは，不適切な入力に対して誤った回答を生成することがあり，知識認識と行動生成の間に乖離が生じている。
- 本研究では，LLMにおける知識と行動の乖離をタスクレベルで解決し，より信頼性の高い回答生成を目指す。
- LLMは，識別的なプロンプトでは問題を認識できるものの，通常の生成的な応答では反映されないという課題がある。
- DeIllusionLLMは，タスクレベルの自己回帰的フレームワークにより，識別的判断と生成的推論を統合する。
- 実証実験の結果，DeIllusionLLMは，自然なプロンプト下での誤った回答を大幅に減らし，汎用的な推論性能を維持している。
Link: https://arxiv.org/abs/2603.22619