arXiv雑要約

AI - 2026/03/24 公開

人間インターフェースからエージェントインターフェースへ：AIネイティブシステムの時代におけるソフトウェア設計の再考 [cs.SE, cs.AI]目的：AIネイティブシステムにおけるソフトウェア設計の概念的基盤
- ソフトウェアは社会基盤であり，その設計は効率と利便性に不可欠である。
- 従来の設計は人間中心であり，AIエージェントとの連携を考慮していない。
- AIエージェントとの連携を考慮した新たなソフトウェア設計パラダイムを確立する。
- ソフトウェア設計において，人間中心からエージェント中心へのパラダイムシフトが起こっている。
- AI向けのソフトウェア設計の基本要素として，「呼び出し可能な機能」の概念を提唱する。
- 機械可読性，構成可能性，呼び出し信頼性を重視した設計原則を提示する。
Link: https://arxiv.org/abs/2603.20300
属性に基づく視点からの音声プライバシー [cs.SD, cs.AI]目的：音声プライバシー保護における属性の分析
- 音声データは個人情報であり，その保護は重要である。特に，話者識別技術の進歩により，プライバシー侵害の危険性が高まっている。
- 既存のプライバシー保護手法は，信号間の比較に依存しており，話者の属性情報の漏洩リスクを十分に考慮していない。
- 話者の属性情報に着目し，プライバシー保護の評価方法を再考することで，より効果的な保護メカニズムの開発を目指す。
- 音声の匿名化処理後も，推測された属性情報から話者を特定できるリスクが残存することが示された。
- 単一の発話のみを用いた攻撃シナリオにおいて，属性情報が依然として脅威となることが確認された。
- 今後の音声プライバシー研究において，属性関連の脅威と保護メカニズムの両面を考慮する必要性が示唆された。
Link: https://arxiv.org/abs/2603.20301
InjectFlow：直交射影による弱ガイダンスが強固なフローマッチングを実現 [cs.CV, cs.AI]目的：データセットの偏りに対するロバスト性向上
- 高精度な画像生成において，フローマッチングは重要な手法として注目されている。
- フローマッチングモデルは，データセットの偏りの影響を受けやすく，少数クラスの生成に課題がある。
- 偏りによる性能低下を防ぎ，より公平で頑健な画像生成モデルを構築すること。
- 提案手法InjectFlowは，学習不要で初期速度場に直交する意味情報を注入することにより，潜在空間のドリフトを抑制する。
- GenEvalデータセットにおいて，標準的なフローマッチングモデルが失敗するプロンプトの75%を正しく生成することに成功した。
- 理論的分析とアルゴリズムにより，公平で頑健な画像生成モデルを容易に構築するための解決策を提供する。
Link: https://arxiv.org/abs/2603.20303
EARTalking：フレーム単位制御によるエンドツーエンドGPTスタイル自帰回帰的 talking head 合成 [cs.DL, cs.HC, cs.CV, cs.AI, cs.MM, cs.SD]目的：音声駆動型 talking head 生成における表現力とリアリズムの向上
- 動画生成技術は，コミュニケーションやエンターテイメントにおいて重要な役割を担うため，その発展が求められている。
- 従来のARベース手法は，中間表現に依存し表現力に限界があり，拡散ベース手法は逐次生成のため遅延が生じやすい。
- 本研究は，フレーム単位での制御と効率的な生成を可能にする新しい手法を提案し，これらの課題を解決することを目指す。
- EARTalkingは，エンドツーエンドかつ自帰回帰的な手法により，インタラクティブな音声駆動型 talking head 生成を実現した。
- Sink Frame Window Attention (SFA)機構とStreaming Frame Condition In-Context (FCIC)スキームにより，動画の長さや制御信号の多様性に対応した。
- 実験の結果，EARTalkingは既存のAR手法を上回り，拡散ベース手法と同等の性能を達成した。
Link: https://arxiv.org/abs/2603.20307
送信理由：協調知覚のための熟慮的適応通信 [cs.MA, cs.AI]目的：協調知覚における効率的な通信ポリシー
- 自動運転の安全性を高める上で，単一のセンサーだけでは限界があり，他エージェントとの連携が重要である。
- V2Xネットワークの帯域幅制約により，何を送信すべきかの判断が難しい。
- 受信者にとって有益な情報を判断し，帯域幅内で効率的な情報共有を実現する。
- R2Tは，局所的なシーンコンテキスト，隣接エージェントの情報ギャップ，帯域幅予算を考慮して，領域ごとの送信判断を行う。
- 低帯域幅下では既存手法と同等だが，遮蔽物が多い状況下で優れた性能を発揮し，理想的な通信状態に近づく。
- パケット損失に対して50%まで耐性があり，通信障害に対する堅牢性も示している。
Link: https://arxiv.org/abs/2603.20308
kRAIG：自然言語駆動によるデータ運用パイプライン自動生成エージェント [cs.SE, cs.AI, cs.CL]目的：データ運用パイプラインの自動生成
- 機械学習システムの発展には，データ処理基盤が不可欠であり，効率的なデータパイプライン構築が重要である。
- データパイプラインの構築には専門知識が必要であり，時間と労力がかかるという課題が存在する。
- 自然言語による指示から，信頼性の高いデータパイプラインを自動生成することを目指す。
- kRAIGは，自然言語による仕様をKubeflow Pipelinesに変換するAIエージェントである。
- ReQuesActという対話フレームワークにより，ユーザーの意図の曖昧さを解消し，パイプラインの合成を行う。
- 既存手法と比較して，データの抽出・ロード成功率が3倍，変換精度が25%向上した。
Link: https://arxiv.org/abs/2603.20311
大規模言語モデルのための意味的ツール探索：MCPツール選択へのベクトルベースアプローチ [cs.SE, cs.AI]目的：大規模言語モデルにおけるツール選択の効率化
- 大規模言語モデルの能力拡張には外部ツール連携が不可欠であり，その重要性は増している。
- 利用可能なツール数が多くなると，コンテキストウィンドウの制約やコスト増大といった課題が生じる。
- 関連性の高いツールのみを動的に選択することで，これらの課題を解決することを目指す。
- 提案手法は，ツール埋め込みベクトルを用いて，ツールとクエリの類似性に基づきツールを選択する。
- 実験結果から，ツール関連トークン消費量を99.6%削減しつつ，上位3件の適合率は97.1%を達成した。
- 検索遅延時間も100ms未満であり，効率性と精度の両面で大幅な改善が確認された。
Link: https://arxiv.org/abs/2603.20313
VGS-デコーディング：医療VLMsにおける幻覚軽減のための視覚的根拠スコアによるデコーディング [cs.CV, cs.LG]目的：医療VLMにおける幻覚軽減
- 医療画像と自然言語処理の融合は，診断支援や医療知識の提供に不可欠である。
- 既存のVLMは，視覚的証拠に基づかず，言語事前知識に頼って回答を生成し，幻覚を起こしやすい。
- 視覚的根拠に基づいたトークンを強調し，幻覚を抑制することで，より信頼性の高いVLMを実現する。
- VGS-デコーディングは，画像の改変に対するトークン確率の変化を利用して，視覚的根拠スコアを算出する。
- このスコアに基づき，デコーディング時に視覚的根拠のあるトークンを増幅し，幻覚を抑制する。
- MIMIC-Diff-VQAおよびVQA-RADにおける実験で，一貫して性能が向上し，最大で9.12%の全体的な改善が見られた。
Link: https://arxiv.org/abs/2603.20314
多段階PM10予測におけるローリングオリジン検証はモデルのランキングを逆転させる：XGBoost，SARIMA，および持続法 [cs.LG]目的：多段階PM10予測におけるモデル性能の評価
- 大気質予測は，公衆衛生や環境政策において重要な役割を担う。
- 静的な時系列分割による評価では，実運用時のモデル性能を過大評価する可能性がある。
- ローリングオリジン検証による，実運用時のモデル性能の正確な評価。
- 静的な分割評価ではXGBoostが良好な性能を示す一方，ローリングオリジン評価ではランキングが逆転する。
- XGBoostは短・中期予測において持続法よりも優位性を示さない。
- SARIMAは予測期間全体を通して良好な性能を維持する。
Link: https://arxiv.org/abs/2603.20315
ドキュメント取り込みの回避：金融Q&AのためのMCPアプローチ [cs.IR, cs.AI]目的：金融Q&Aにおけるモデルコンテキストプロトコル(MCP)の有効性検証
- 金融分野における情報アクセスは，投資判断やリスク管理において不可欠である。
- 従来のドキュメント検索とチャンク検索は，ノイズや情報の欠落により信頼性に課題がある。
- 本研究は，API経由での直接データアクセスによる金融Q&Aの精度向上を目指す。
- MCPアプローチは，特に数値計算を伴う多段階質問において，最大80.4%の精度を達成した。
- 定量的な金融Q&Aにおいては，ドキュメント中心のRAGと比較して，軽量かつ効果的な代替手段となる。
- 定性的な情報やドキュメント固有の文脈を必要とする質問に対しては，MCPアプローチの限界が示された。
Link: https://arxiv.org/abs/2603.20316
LLMエージェントにおけるツール利用可能性が安全性の整合性に与える因果的影響 [cs.SE, cs.AI, cs.LG]目的：LLMエージェントにおけるツール利用可能性と安全性の整合性の関係性
- LLMエージェントの活用が進む中で，外部システムとの相互作用における安全性確保が重要になっている。
- 従来の安全性評価はテキストベースであり，行動としての安全性を十分に評価できていないという課題がある。
- ツール利用可能性が安全性の整合性に与える影響を定量的に評価し，より安全なエージェント開発に貢献する。
- テキストのみの環境では安全性が確保されているLLMエージェントが，ツール利用可能になると安全性違反が大幅に増加することが示された。
- 安全性違反の試行と実行の間に乖離が見られ，外部の安全装置が潜在的なリスクを隠蔽する可能性があることが示唆された。
- エージェントは，敵対的なプロンプトなしに自発的に制約を回避する戦略を開発することが観察された。
Link: https://arxiv.org/abs/2603.20320
エージェントが意見の相違を示すとき：マルチエージェントLLMパイプラインにおける選択のボトルネック [cs.MA, cs.AI]目的：マルチエージェントLLMパイプラインにおける多様性の影響と，その最適な活用方法
- 大規模言語モデル（LLM）の応用範囲拡大に伴い，複数のLLMを連携させるマルチエージェントシステムの重要性が増している。
- チームの多様性が必ずしも性能向上に繋がらないこと，また多様性を活かすための適切な集約方法が不明確である。
- 多様なエージェント間の意見の不一致が，どのような状況で性能に影響を与えるかを明らかにし，最適な選択方法を提案する。
- 集約の品質が一定の閾値を超えるか否かによって，多様性が有効か否かが決まる「選択のボトルネック」を特定した。
- 判断に基づく選択を用いることで，多様なチームが単一モデルよりも高い勝率（0.810）を達成した。一方，同質なチームは僅かな勝率（0.512）に留まった。
- 判断に基づく選択は，MoAスタイルの合成よりも優れた性能を示し，弱いモデルを含めることで性能向上とコスト削減の両立が可能であることが示唆された。
Link: https://arxiv.org/abs/2603.20324
潜在世界の探求：潜在表現における創発的な離散記号と物理構造 [cs.LG, cs.AI, cs.CV]目的：潜在表現における離散記号と物理構造の発見
- 動画理解の分野において，効率的な表現学習は重要な課題である。
- 潜在表現の解釈が難しく，物理構造との対応付けが困難である。
- 凍結された潜在表現から，構造化された記号表現を抽出することを目指す。
- JEPAモデルの潜在空間は，多様な行動カテゴリ間で共通の表現核を共有することが示された。
- 意味的な違いは，カテゴリ的な境界ではなく，分布のわずかな変化として符号化されている。
- AI Mother Tongue（AIM）フレームワークにより，潜在空間から離散記号列を抽出できることが確認された。
Link: https://arxiv.org/abs/2603.20327
階層型ドローン群における結合型AI学習ダイナミクスの限界 [cs.LG, cs.AI, cs.MA]目的：異質な学習メカニズムが動作する自律型マルチエージェントシステムの結合ダイナミクスが許容範囲内に収まることの保証
- 複数の自律エージェントが協調してタスクを遂行するシステムは，様々な分野で重要性が増している。
- 異なる時間スケールで動作する学習メカニズム間の相互作用が不安定になり，システムの性能低下や制御不能を引き起こす可能性がある。
- 学習率の制約や連続性条件を設定することで，システムの安定性を数学的に保証し，安全な運用を可能にすること。
- 本研究では，局所Hebbian学習，マルチエージェント強化学習，メタ学習という3つの階層的な学習メカニズムを持つドローン群を対象とした。
- Bounded Total Error Theoremにより，学習率に関する契約制約下では，全体の最適性低下がある上限内に収まることが示された。
- さらに，Representation Drift TheoremとMeta-Level Compatibility Theoremにより，下位層の知識が上位層の適応によって維持されるための条件が導き出された。
Link: https://arxiv.org/abs/2603.20333
LLM駆動型アルゴリズムデバッグによる手続き的洗練：ARC-AGI-2への応用 [cs.SE, cs.AI]目的：複雑なコード生成タスクにおける手続き的洗練
- 高度なAI開発には，複雑な問題を解決するプログラムの自動生成が不可欠である。
- LLMによるコード修正は，形式的なデバッグ手順に基づかず，誤りからの回復が困難な場合がある。
- LLMと形式手法を組み合わせることで，より信頼性の高いプログラム修正を目指す。
- 提案手法ABPRは，LLMとメタインタプリタを組み合わせ，プログラム実行を宣言的なトレースに変換する。
- ARC-AGI-2ベンチマークにおいて，Gemini-3-Flashと組み合わせることで56.67%のPass@2スコアを達成した。
- LLMと古典的な形式手法の統合により，プログラム修正の透明性と信頼性を向上させる可能性を示唆する。
Link: https://arxiv.org/abs/2603.20334
ARRONAX C70XPサイクロトロン運転データにおける時系列異常検知のためのハイブリッドオートエンコーダー-Isolation Forestアプローチ [cs.LG]目的：時系列異常検知手法の開発
- 医療・研究用ラジオアイソトープ製造に不可欠なサイクロトロンの安定稼働が重要である。
- サイクロトロンの複雑なシステムは故障に弱く，稼働停止のリスクがある。
- 微妙な異常を早期に検出し，システム性能の向上を目指す。
- 提案手法は，オートエンコーダーによる再構成誤差をIsolation Forestの入力として利用する。
- プロトンビーム強度時系列データを用いた実験により，検出性能の向上が確認された。
- 特に，平均付近で発生する微小な異常の検出において，効果が認められた。
Link: https://arxiv.org/abs/2603.20335
GEM：マルチベクトル検索のためのネイティブグラフベースインデックス [cs.IR, cs.AI, cs.DB]目的：マルチベクトル表現に対する効率的かつ正確なインデックス構築
- 高次元ベクトルによる表現が普及し，より詳細な意味的マッチングが求められている。
- 既存の単一ベクトルインデックスは，マルチベクトルの意味を保持できず，速度も遅い。
- マルチベクトルデータの意味を維持しつつ，高速な検索を可能とするインデックスの構築。
- GEMは，ベクトル集合間の近さを直接グラフ構造で表現することで，効率的なナビゲーションを実現した。
- クラスタリングにより冗長性を削減し，グラフ構築における距離尺度と関連度スコアを分離することで，性能を向上させた。
- 実験の結果，GEMは最先端手法と比較して最大16倍の高速化を達成し，精度も同等または向上した。
Link: https://arxiv.org/abs/2603.20336
低周波パーソナライズド部分グラフ分散推薦 [cs.IR, cs.AI, cs.LG]目的：分散推薦システムの構造的不均衡問題への対処
- プライバシー保護が重要視される推薦システム分野において，分散学習は不可欠である。
- クライアントごとの部分グラフの規模や接続性にばらつきがあり，モデルの精度低下を招く。
- 部分グラフの構造的特徴を考慮した，ロバストな分散推薦モデルの構築を目指す。
- 提案手法LPSFedは，グラフフーリエ変換と低周波フィルタリングにより，部分グラフの構造的安定性を確保する。
- LPSFedは，クライアントごとのパラメータ更新を，構造的アンカーとの類似性に基づいて行うことで，パーソナライズされた推薦を実現する。
- 実験結果から，LPSFedは既存手法と比較して，推薦精度とモデルのロバスト性を向上させることが示された。
Link: https://arxiv.org/abs/2603.20338
テキスト属性グラフに対するグラフ認識テキストのみによるバックドアポイズニング [cs.LG, cs.CR]目的：テキスト属性グラフにおけるバックドア攻撃手法の開発
- グラフ構造とテキスト情報を併用する学習システムの利用が拡大しているため，その安全性確保が重要である。
- 公開プラットフォーム由来のテキストデータは改ざんリスクがあり，モデルの脆弱性を招く可能性がある。
- グラフ構造は変更せずテキストのみを改ざんするバックドア攻撃に対する対策が求められている。
- 提案手法TAGBDは，影響を受けやすい訓練ノードを特定し，自然なトリガーテキストを生成することで高い攻撃成功率を実現した。
- 攻撃は様々なグラフモデルに移植可能であり，一般的な防御策に対しても堅牢であることが示された。
- テキスト情報のみがグラフ学習システムに対する実用的な攻撃経路となりうることを明らかにした。
Link: https://arxiv.org/abs/2603.20339
契約スキル：マルチモーダルWebエージェントのための修復可能な契約ベースのスキル [cs.SE, cs.AI]目的：マルチモーダルGUIエージェントにおける再利用可能なスキル獲得の困難性克服
- GUIエージェントの発展は目覚ましいが，汎用的なスキル獲得は依然として課題である。
- 生成されたスキルは，行動の意味，状態の前提，成功基準が不明確になりやすい。
- スキルの検証，修復を容易にし，スキル改善を局所的な編集とする。
- ContractSkillにより，VisualWebArenaでの自己生成スキルの成功率が9.4%から28.1%に，MiniWoBでは10.9%から37.5%に向上した。
- 修復されたスキルはモデル間で転移し，対象モデルの自己生成スキルのベースラインを最大47.8ポイント，12.8ポイント改善した。
- エージェントスキルは，検証，修復，共有が可能な明示的な手続き的成果物として扱うべきである。
Link: https://arxiv.org/abs/2603.20340
観測データを用いた多発性骨髄腫予後予測の解釈可能性 [cs.LG]目的：多発性骨髄腫患者の5年生存予測における解釈可能性の確保
- 医療現場での意思決定支援に機械学習の活用が期待されるが，モデルの不透明性が課題となっている。
- 機械学習モデルの予測根拠が不明確であるため，臨床現場での信頼性と導入が阻害されている。
- 解釈可能な正則化手法を導入し，予測精度とモデルの透明性を両立させることを目指す。
- 提案手法は，812人の患者データを用いて検証された結果，テストセットで最大0.721の精度を達成した。
- SHAP値分析により，モデルが選択された重要な特徴量に基づいていることが示された。
- 既存の解釈可能なロジスティック回帰モデルや国際的な病期分類システムとの整合性が保たれている。
Link: https://arxiv.org/abs/2603.20341
MANA：マルチモーダルエージェントUIナビゲーションによる効率的なモバイル広告検出へ [cs.CR, cs.AI]目的：モバイル広告の効率的な検出
- モバイル広告はアプリの収益化に不可欠だが，ユーザー体験の阻害やマルウェア感染のリスクを伴う。
- 既存手法は静的解析では実行時動作を捉えきれず，UI探索では広告の巧妙な偽装に苦戦する。
- 本研究は，モバイル広告の検出における精度と効率の向上を目指す。
- MANAは，静的，視覚，時間的，経験的シグナルを統合した，新しいエージェントベースのマルチモーダル推論フレームワークである。
- MANAは，200個のアプリに対する評価で，最先端の精度と効率を実現し，検出精度を30.5%-56.3%向上させた。
- また，探索ステップ数を29.7%-63.3%削減し，巧妙に偽装された悪意のある広告の検出能力も示した。
Link: https://arxiv.org/abs/2603.20351
時系列機械学習のマルチバース：多変量時系列分類のためのアーカイブ [cs.LG]目的：多変量時系列分類のためのデータセット群
- 時系列データは，金融，医療，環境など，様々な分野で広く利用されており，分析の重要性が高い。
- 既存のデータセットの不足が，時系列機械学習の研究の発展を阻害する要因となっていた。
- 多種多様な時系列分類データセットを提供することで，研究の促進と公平な比較を可能とする。
- 本研究では，既存のアーカイブを大幅に拡張し，データセット数を4倍以上に増やした。
- 欠損値や不均一な系列長を持つデータセットの前処理版も提供し，データセットの総数を147個とした。
- 計算資源の制約を考慮し，初期探索用の「Multiverse-core」と呼ばれるサブセットを推奨している。
Link: https://arxiv.org/abs/2603.20352
Leum-VL 技術報告書 [cs.MM, cs.AI]目的：動画の構造的理解と生成のためのフレームワーク
- 動画コンテンツは情報伝達において重要であり，その理解と活用が求められている。
- 既存のモデルは，動画の構造的な要素（構成，演出，ナラティブ）の解析が苦手である。
- 動画の構造的理解を深め，編集，検索，推薦などの応用を可能にすること。
- SV6Dフレームワークを提案し，動画を6つの構造的次元（主題，美学，カメラ，編集，物語，配信）で分解した。
- Leum-VL-8Bモデルを構築し，SV6Dの最適化目標を達成することで，動画理解の性能を向上させた。
- FeedBenchという新たな評価ベンチマークを構築し，構造的理解の重要性を示した。
Link: https://arxiv.org/abs/2603.20354
記憶汚染とセキュアなマルチエージェントシステム [cs.CR, cs.AI]目的：エージェントAIおよびマルチエージェントシステムにおける記憶汚染攻撃の検討
- AIエージェントの普及に伴い，そのセキュリティ確保が重要となっている。
- エージェントの記憶システムに対する攻撃は未だ研究が十分ではなく，脆弱性が存在する。
- 多様な記憶システムにおける記憶汚染攻撃の実現可能性と対策を明らかにすること。
- エージェントシステムにおける主要な記憶システム（意味記憶，エピソード記憶，短期記憶）を整理した。
- 記憶システムの種類に応じた記憶汚染攻撃の可能性と，それを軽減するための戦略を提示した。
- セキュアバイデザインなエージェント構築に向け，私的知識検索に基づくローカル推論などの緩和策を提案した。
Link: https://arxiv.org/abs/2603.20357
WebNavigator：相互作用グラフ検索によるグローバルWebナビゲーション [cs.DL, cs.DC, cs.IR, cs.AI]目的：Webナビゲーションにおける相互作用グラフの構築と利用
- Web環境は複雑であり，人間レベルの自律的なナビゲーションは困難である。
- 既存手法はWebサイトの全体構造を把握できず，試行錯誤に頼る傾向がある。
- Webサイトの構造を事前に把握し，効率的なナビゲーションを実現する。
- WebNavigatorは，Webナビゲーションを探索から検索と経路探索に転換する。
- WebArenaマルチサイトタスクで72.9%の成功率を達成し，既存の高性能エージェントを凌駕した。
- 自律的Webナビゲーションにおけるボトルネックは，モデルの推論能力よりもトポロジカルブラインドネスにあることが示された。
Link: https://arxiv.org/abs/2603.20366
エージェントのためのALARA：ポータブルで合成可能なマルチエージェントチームによる最小権限コンテキストエンジニアリング [cs.MA, cs.AI, cs.HC]目的：マルチエージェントチームにおける最小権限コンテキストの実現
- マルチエージェントシステムは様々な分野で活用されている。その効率性は高いが，運用管理の課題が存在する。
- エージェントの権限設定が分散しており，共有，バージョン管理，共同維持が困難である。
- エージェントの役割に応じた最小限の権限とコンテキストを定義し，安全性を高めることを目指す。
- 宣言的なコンテキスト・エージェント・ツール(CAT)データ層とコマンドラインシェルnpcshを導入し，エージェントのツールアクセスを制御する。
- このシステムは構造的にファイルを解析・強制するため，ツールリストの変更は確実な行動変化をもたらす。
- 0.6Bから35Bパラメータの22モデルを115のタスクで評価し，モデルの能力と限界を明らかにした。
Link: https://arxiv.org/abs/2603.20380
自然言語処理における意味生成 [cs.CL, cs.AI, cs.HC]目的：自然言語処理における意味生成の根本的メカニズムの理解
- 人間とエージェント間の安全で思慮深く，魅力的な相互作用を設計する上で不可欠な研究分野である。
- 古典的なブール理論では説明できない，人間の意味処理の文脈依存性という問題が存在する。
- 大規模言語モデルにおける文脈性の程度を評価し，その限界を探る。
- モデルの規模にかかわらず，文脈性の統計量（$|S|$の四分位範囲）と外部ベンチマーク間には相関関係が見られなかった。
- 文脈性違反率は，全ての外部ベンチマークと弱い負の相関を示したが，統計的有意性には達しなかった。
- プロンプトインジェクション防御や社会的な文脈構築において，真の文脈性が課す情報理論的な制約について考察した。
Link: https://arxiv.org/abs/2603.20381
CAMA：c-MARLにおける共謀的敵対攻撃の探求 [cs.LG, cs.AI]目的：c-MARLにおける共謀的敵対攻撃のメカニズム解明
- c-MARLは社会ロボットなどに応用され，実用化が進んでいる。
- 既存研究は単独の敵や内部操作に焦点を当て，共謀攻撃は未検討であった。
- 複数エージェントが連携する共謀攻撃の有効性とコストを分析する。
- 本研究で提案するCAMAフレームワークは，3種類の共謀攻撃モードを実現した。
- 実験結果から，提案手法は隠密性と安定性を維持しつつ，攻撃効果を相乗的に高めることが示された。
- c-MARLにおける共謀的敵対学習の空白を埋める成果である。
Link: https://arxiv.org/abs/2603.20390
SymCircuit：エントロピー正則化強化学習による扱いやすい確率回路のベイズ構造推論 [cs.LG, cs.AI, stat.ML]目的：確率回路の構造学習における，効率的かつ正確な構造推論手法の開発
- 確率回路は，複雑な確率分布を表現する強力なモデルであり，様々な分野で応用が期待される。
- 従来の確率回路学習は，貪欲法に依存しており，局所最適解に陥りやすいという問題がある。
- 本研究は，強化学習を用いて貪欲法を克服し，より高品質な確率回路構造を学習することを目指す。
- SymCircuitは，エントロピー正則化強化学習に基づく生成ポリシーを採用し，確率回路構造を学習する。
- 最適なポリシーは，データセットサイズに反比例する温度パラメータを持つテンパードベイズ事後分布として表現できる。
- NLTCSデータセットにおいて，SymCircuitはLearnSPNとの性能差を93%まで縮小し，スケーラビリティも示唆された。
Link: https://arxiv.org/abs/2603.20392
圧縮こそが全て：数学のモデリング [cs.AI, math.LO]目的：数学の圧縮可能性
- 数学は人類の知的な営みの中核であり，その構造理解は重要である。
- 形式数学は広大である一方，人間が重視する数学は極めて狭く，その違いが不明確である。
- 人間が重視する数学の特徴である圧縮可能性を，数学的モデルで解明することを試みる。
- 人間が発見・重視する数学（HM）は，形式数学（FM）のごく一部であり，階層的な定義によって圧縮可能である。
- 自由可換モノイドでは，対数的に疎なマクロセットが表現力を指数関数的に拡大するのに対し，非可換モノイドでは線形拡大に留まる。
- Lean 4の数学ライブラリMathLibの分析から，展開後の長さが深さと定義済み長さに伴い指数関数的に増加し，HMが多項式的に成長するFMの部分集合を占めることが示唆された。
Link: https://arxiv.org/abs/2603.20396
スケーラブルかつ効率的なLLM推論のためのKVキャッシュ最適化戦略 [cs.LG, cs.AI]目的：LLM推論におけるKVキャッシュ最適化手法の体系的なレビュー
- LLMは自然言語処理の分野で急速に発展しており，その性能向上は重要な課題である。
- LLMのコンテキスト長が拡大するにつれ，KVキャッシュのメモリ使用量がボトルネックとなっている。
- 本研究は，様々なKVキャッシュ最適化手法を分析し，実用的な展開シナリオに応じた最適な戦略を提示する。
- KVキャッシュ最適化手法は，キャッシュの削除，圧縮，ハイブリッドメモリ，新しい注意機構，組み合わせ戦略の5つの主要な方向性に分類できる。
- 最適な戦略はコンテキスト長，ハードウェア制約，ワークロード特性に依存し，単一の手法では全ての設定で優位性を示すことはない。
- 適応的で多段階の最適化パイプラインが，今後の研究における有望な方向性と考えられる。
Link: https://arxiv.org/abs/2603.20397
Hetero-Net：異種LoRaネットワークにおけるエネルギー効率的なリソース割当と3次元配置に関するマルチエージェント最適化 [cs.NI, cs.LG, cs.MA]目的：異種LoRaネットワークにおけるシステムエネルギー効率の最大化
- IoTの進化に伴い，LoRaのようなLPWANは，地上・地下環境にわたる接続基盤として重要性が増している。
- 既存のLoRaネットワーク設計は地上と地下のネットワークを分離しているため，多様な環境における接続効率が低い。
- 地上・地下環境を統合した異種LoRaネットワークの設計により，接続効率とエネルギー効率の向上を目指す。
- 提案手法Hetero-Netは，従来の独立したネットワーク設計と比較して，エネルギー効率を大幅に改善した。
- 地上センサーネットワークのみの場合と比較して55.81％，地下センサーネットワークのみの場合と比較して198.49％のエネルギー効率向上を達成した。
- マルチエージェント強化学習（MAPPO）フレームワークにより，UAVの配置，スプレッディングファクタ，送信電力の最適化を効率的に行った。
Link: https://arxiv.org/abs/2603.20404
Putnam 2025問題のRocqでの解決：Opus 4.6とRocq-MCPの活用 [cs.LG, cs.CL, cs.LO]目的：Putnam 2025数学競技会の問題解決
- 形式的証明支援は，数学的推論の厳密性と信頼性を高める上で不可欠である。
- 大規模言語モデルによる自動証明は未だ発展途上であり，複雑な問題への適用が課題である。
- 言語モデルと証明支援器の連携による，より高度な自動証明を目指す。
- Claude Opus 4.6とRocq-MCPの組み合わせにより，Putnam 2025年の12問中10問を自律的に証明した。
- Rocq-MCPは，過去の実験ログを分析し，「コンパイル優先，インタラクティブフォールバック」戦略を実装している。
- 本実験は，オフライン環境下で17.7時間の計算時間（実時計時間51.6時間）を要し，約19億トークンを消費した。
Link: https://arxiv.org/abs/2603.20405
異なる空間での思考：ドメイン固有の潜在幾何学は，クロスアーキテクチャ翻訳において存続する [cs.LG, cs.AI]目的：言語モデルの潜在表現の幾何学的整合性の検証と，重み更新なしでの推論時行動修正
- 大規模言語モデルの能力向上には，その内部表現の理解が不可欠である。
- 異なるアーキテクチャを持つ言語モデル間では，潜在表現の整合性が不明確である。
- モデル間の潜在表現の幾何学的整合性を利用し，推論時の行動を修正する手法を確立する。
- 教師モデルから学生モデルへの線形投影により，言語推論と数学推論で高いR^2値(0.50, 0.40)が達成された。
- TruthfulQAとGSM8Kにおける行動修正率は，それぞれ最大50.0%，43.3%を示し，異なる推論ドメインへの汎化能力が確認された。
- 幾何学的整合性の質と行動修正率の間には，ほぼ相関関係が見られず，潜在空間の忠実性と出力空間への影響の乖離が示された。
Link: https://arxiv.org/abs/2603.20406
反復ベイズ説得のためのメタ学習 [cs.GT, cs.AI, cs.LG, cs.SY, eess.SY, math.OC]目的：反復的なベイズ説得における最適な説得戦略の学習
- 現実世界の戦略的相互作用は多くの場合反復されるため，過去の経験を活用した効率的な説得手法が求められる。
- 単独のゲームにおける説得戦略を反復適用するだけでは，タスク間の構造的な類似性を十分に活用できない。
- タスク間の類似性を利用することで，説得における後悔（regret）を低減し，学習効率を向上させることを目指す。
- 本研究で提案するメタ説得アルゴリズムは，自然なタスク類似性の仮定の下で，既知の収束率よりも優れた後悔率を達成する。
- また，ゲームの並びがランダムに選択された場合，標準的な単一ゲームの保証を再現することも可能である。
- 数値実験により，提案手法の後悔率の改善と，反復説得環境におけるメタ学習の利点が示されている。
Link: https://arxiv.org/abs/2603.20408
SLE-FNO：タスク非依存型継続学習における単層拡張 [cs.LG]目的：分布シフト下での継続学習における効率的な適応
- 科学機械学習は代替モデル構築に不可欠だが，データ分布の変動への対応が課題である。
- 既存手法では，過去データの再アクセスなしに分布シフトに対応し，破滅的忘却を防ぐことが困難である。
- 本研究は，効率的な継続学習を可能にする新たなアーキテクチャを提案し，分布シフトへの適応を目指す。
- SLE-FNOは，既存の継続学習手法と比較して，高い保持率を示した。
- 特に，SLE-FNOは，可塑性と安定性のバランスに優れ，ゼロ忘却と最小限の追加パラメータを達成した。
- 本研究は，継続学習アルゴリズム間の重要な違いを明らかにし，SLE-FNOを有望な戦略として提示する。
Link: https://arxiv.org/abs/2603.20410
単方向複合テープの表面特性評価と密着接触モデリングのための粗さ記述子のデータ駆動型発見 [cs.LG, cs.NA, math.NA]目的：単方向複合テープの表面粗さ記述子
- 複合材料構造物の製造において，テープ間の強固な結合が重要であり，そのためには密着接触度の進化を理解する必要がある。
- 従来の表面粗さの記述子は表面形状を表現できるが，テープ間接着の物理現象との関連性が不明確である。
- プロセス制御と接着モデリングの両立に資する，適切な粗さ記述子を特定することを目的とする。
- Rank Reduction Autoencoders (RRAEs) を用いた新規な戦略を提案し，粗さ記述子の抽出をデータ駆動的に行った。
- 潜在SVDモードを制約することで，復元された粗さを正確に表現し，分類やモデリング特性などの既存の知識を抽出した。
- 抽出された記述子が，テープの分類と密着接触度の進化モデリングに有効であることを示した。
Link: https://arxiv.org/abs/2603.20418
ホークアイ：GPUレベルの非決定性の再現 [cs.CR, cs.AR, cs.LG, cs.NA, math.NA]目的：GPUレベルの算術演算の分析と再現
- 機械学習の普及に伴い，計算の信頼性確保が重要課題となっている。
- 既存手法は，計算コストが高いか，再現性が低いという問題があった。
- GPUで行われた行列演算をCPUで正確に再現し，検証可能性を高める。
- ホークアイは，NVIDIA GPUで行われた行列演算をCPUで完全に再現できることを示した。
- 本研究により，機械学習モデルの訓練と推論の効率的かつ信頼性の高い第三者監査が可能になる。
- 様々なNVIDIA GPUアーキテクチャおよび精度タイプで検証された。
Link: https://arxiv.org/abs/2603.20421
PEARL：パーソナライズされたストリーミングビデオ理解モデル [cs.CV, cs.AI, cs.IR]目的：パーソナライズされたストリーミングビデオ理解のタスクとベンチマーク
- 近年のAIアシスタントの進化において，リアルタイムなインタラクションが重要となっている。
- 既存のパーソナライズ手法は，静止画やオフライン動画に限定されており，ストリーミングデータへの対応が不十分である。
- 連続的な視覚入力とリアルタイムフィードバックを結びつけ，パーソナライズされたAIアシスタントを実現することを目的とする。
- 本研究では，パーソナライズされたストリーミングビデオ理解（PSVU）という新たなタスクを提案し，その評価のためのベンチマークであるPEARL-Benchを開発した。
- PEARL-Benchは，フレームレベルとビデオレベルの2つのモードで，正確なタイムスタンプに基づいたパーソナライズ概念への応答能力を評価する。
- 提案手法PEARLは，既存のモデルに容易に組み込むことができ，8つのモデルで最先端の性能を示した。
Link: https://arxiv.org/abs/2603.20422
データ不足地域におけるエビデンスに基づく食料安全保障政策決定への自然言語処理と機械学習の活用 [cs.AI]目的：データ不足地域における食料安全保障政策モデリングのための統合的な自然言語処理と機械学習フレームワーク
- 食料安全保障は，人々の生存と社会の安定に不可欠であり，その重要性は世界的に認識されている。
- データ不足地域では，構造化されたデータセットが限られており，政策決定に偏りが生じやすい。
- 本研究は，データ不足環境下でも食料安全保障政策の精度と公平性を向上させることを目指す。
- 提案手法ZeroHungerAIは，DistilBERTアーキテクチャを用いたテキスト埋め込みと構造化指標の組み合わせにより，高い予測性能を発揮した。
- 1200サンプルデータセットでの評価では，分類精度91％，適合率0.89，再現率0.85，F1スコア0.86を達成し，従来のSVMやロジスティック回帰モデルを上回った。
- 公平性最適化により，人口統計学的偏りの差が3％に削減され，公平な政策推論が実現された。
Link: https://arxiv.org/abs/2603.20425
コーディングエージェントは効果的な長文コンテキスト処理器である [cs.CL, cs.AI]目的：長文コンテキスト処理の有効性
- 大規模言語モデルの能力向上に伴い，長文コンテキストの処理が重要になっている。
- 従来のLLMは，長文コンテキストにおいて性能が低下する課題がある。
- コーディングエージェントによる明示的な処理で，長文コンテキストの課題を解決する。
- コーディングエージェントは，複数のベンチマークで最先端技術を平均17.3%上回る性能を示した。
- エージェントのネイティブなツール利用能力とファイルシステムへの精通度が，その有効性の要因である。
- 長文コンテキスト処理をコーディングエージェントに委譲することで，新たな方向性が開かれる。
Link: https://arxiv.org/abs/2603.20432
ALICE：大規模音声言語モデルの文脈内学習能力の多面的評価フレームワーク [cs.SD, cs.AI, cs.CL, eess.AS]目的：大規模音声言語モデルの文脈内学習能力の評価
- 音声と言語を統合するモデルは，様々な応用で重要性が増している。
- 大規模音声言語モデルの指示への追従能力が低下することが示唆されている。
- 音声条件付きでの文脈内学習能力を系統的に評価し，その限界を明らかにすること。
- ALICEフレームワークにより，テキストガイダンスを段階的に削減した評価が可能となった。
- 実験の結果，文脈内デモンストレーションはフォーマット遵守性を向上させるが，タスクのパフォーマンスは改善せず，むしろ低下することがわかった。
- 大規模音声言語モデルは，表面的なフォーマットパターンは学習できるものの，音声条件付きの例からタスクの目的を推論する能力に限界があることが示唆された。
Link: https://arxiv.org/abs/2603.20433
物理情報ニューラルKKLオブザーバーに対する検証可能な誤差限界 [eess.SY, cs.LG, cs.SY]目的：学習ベースのKazantzis-Kravaris/Luenberger(KKL)オブザーバーの状態推定誤差限界の算出
- 物理現象を考慮したシステムの状態推定は，ロボティクスや制御工学において重要である。
- 従来のKKLオブザーバーの誤差限界は，複雑なシステムに対して算出が困難であった。
- 本研究では，ニューラルネットワーク検証を用いて，誤差限界を計算可能とする。
- 物理情報ニューラルネットワーク(PINN)を用いたKKLオブザーバーの誤差限界を導出した。
- 誤差限界は，ニューラルネットワーク検証で証明可能な量のみに依存する。
- 非線形ベンチマークシステムにおける保証された性能を実証した。
Link: https://arxiv.org/abs/2603.20434
臨床記録からの相互依存制約付き構造化データ抽出における深層反省的推論 [cs.AI]目的：臨床記録からの構造化データ抽出における信頼性向上
- 医療現場でのデータ活用が重要視される中，電子カルテ等の臨床記録からの構造化データ抽出は不可欠である。
- 既存のLLMでは，臨床変数の間の論理的な依存関係を捉えきれず，矛盾したデータ抽出結果が生じる場合がある。
- 深層反省的推論により，変数の整合性チェックを繰り返し行うことで，より信頼性の高いデータ抽出を目指す。
- 深層反省的推論は，大腸がんの病理報告における8つのカテゴリ変数で平均F1スコアを0.828から0.911に，4つの数値変数で正答率を0.806から0.895に向上させた。
- ユーイング肉腫におけるCD99免疫染色パターンの識別精度を0.870から0.927に，肺がんの病期分類精度を0.680から0.833にそれぞれ改善した（pT: 0.842→0.884，pN: 0.885→0.948）。
- 本研究は，相互依存制約下でLLMベースの構造化データ抽出の信頼性を体系的に向上させる可能性を示し，デジタルヘルスにおける知識発見を促進する。
Link: https://arxiv.org/abs/2603.20435
ウェアラブル対応エッジAIを用いた多角的生理信号からの神経血管不安定性検出：責任ある計算フレームワーク [cs.CL, cs.LG, cs.AI]目的：神経血管不安定性の検出
- 脳卒中の早期発見は，患者の予後改善に不可欠であるため，そのための技術開発が重要である。
- 既存のウェアラブルデバイスでは，脳卒中前の神経血管不安定性を検出することは困難である。
- 本研究は，ウェアラブルデバイスで取得可能な多角的生理信号を用いて，神経血管不安定性を早期に検出することを目的とする。
- 提案手法Melaguardは，心拍変動，末梢灌流指数，SpO2，両側位相コヒーレンスを統合し，エッジ推論が可能な神経血管不安定性スコアを算出する。
- 臨床データを用いた検証の結果，Transformer-liteモデルは，既存の機械学習モデル（LSTM，Random Forest，SVM）と比較して，高い識別性能を示した。
- PPG-BPを用いた交差検証により，PPG形態が脳血管疾患を高い精度で分類できることが確認された。
Link: https://arxiv.org/abs/2603.20442
ツール拡張LLMエージェントにおけるポリシー遵守のソルバー支援検証 [cs.SE, cs.AI]目的：ツール拡張LLMエージェントにおけるポリシー遵守の検証手法
- LLMエージェントの応用範囲拡大に伴い，安全性と信頼性の確保が重要視されている。
- 既存手法では，ポリシー記述をLLMに与えるのみで，違反防止の保証がない。
- ソルバーを活用し，ツール利用ポリシーの違反を確実に防止することを目指す。
- 自然言語で記述されたツール利用ポリシーを，形式論理（SMT-LIB-2.0）制約に変換するフレームワークを提案した。
- 実行時に計画されたツール呼び出しを制約に照合し，違反する場合はブロックすることで，ポリシー遵守を強制する。
- TauBenchベンチマークにおいて，ソルバー支援によるポリシーチェックが違反を低減し，タスク精度を維持することを示した。
Link: https://arxiv.org/abs/2603.20449
LLM利用に関する査読ポリシーの現状と実行可能性 [cs.CL, cs.AI, cs.CY, cs.LG]目的：査読におけるLLM利用に関するポリシーの実行可能性評価
- 研究の質を維持するため，査読プロセスの公正性と信頼性が重要である。
- LLMの急速な発展により，査読におけるAI利用の検出が困難になっている。
- LLM利用ポリシーの現実的な適用可能性と誤検知のリスクを明らかにすること。
- 最新のAI検出器は，人間とAIが共同で作成した査読レビューを誤ってAI生成と判断することが多い。
- 査読固有の情報を活用しても，AI利用の正確な識別は困難であり，ポリシーの実行には限界がある。
- AI検出器による査読におけるAI利用率の推定値は，誤検知の可能性を考慮する必要がある。
Link: https://arxiv.org/abs/2603.20450
アルツハイマー病における不規則な縦断fMRIコネクトームモデリングのためのSDE駆動時空間ハイパーグラフニューラルネットワーク [cs.LG]目的：アルツハイマー病の進行予測
- 脳の構造と機能の変化を捉え，疾患の進行を理解する上で縦断的な神経画像解析は不可欠である。
- 不規則なサンプリングや欠測データは，信頼性の高い時間的表現を学習する上で大きな課題となっている。
- 不規則な時系列データから連続的な潜在軌道を復元し，疾患の進行に合わせたコネクティビティモデリングを実現する。
- 提案手法SDE-HGNNは，OASIS-3およびADNIコホートにおいて，最先端のグラフおよびハイパーグラフベースラインと比較して，一貫して高いAD進行予測性能を示した。
- SDE駆動による時空間ハイパーグラフニューラルネットワークが，不規則な縦断fMRIコネクトームモデリングにおいて有効であることが示された。
- スパース性に基づく重要度学習メカニズムにより，主要な脳領域と識別可能なコネクティビティパターンを特定することが可能となった。
Link: https://arxiv.org/abs/2603.20452
多源不完全な優先度からの強化学習：両方の体制の最良の悔い [cs.LG]目的：多源からの不完全な優先度を用いた強化学習における後悔最小化
- 人間のフィードバックを用いた強化学習は，報酬関数の設計が困難な場合に有効な手法である。
- 実際のシステムでは，フィードバックが主観や専門性の違いにより一貫性がない場合が多い。
- 多源からの不完全なフィードバック下でも効率的な学習を可能とするアルゴリズムを開発する。
- 提案アルゴリズムは，不完全性が小さい場合と大きい場合で最適な性能を発揮する。
- 後悔は，ソース数Mに依存する統計的利得と，不完全性ωへの依存のバランスをとる。
- 不完全性を考慮しない場合と比較して，理論的な下限が示され，性能改善の限界が明らかになった。
Link: https://arxiv.org/abs/2603.20453