arXiv雑要約

AI - 2026/05/29 公開

エージェントドロップアウトV2：マルチエージェントシステムにおけるテスト時整流・棄却プルーニングによる情報フローの最適化 [cs.CL, cs.AI, cs.CL]目的：マルチエージェントシステムにおける情報フローの最適化
- 複雑な推論に優れるが，個々のエージェントからの誤った情報が連鎖的に影響する点が課題である。
- 既存手法は構造の固定や高コストな再調整に頼り，適応性に欠ける。
- テスト時に情報フローを動的に最適化し，エラーの連鎖を防ぐことを目指す。
- 提案手法ADv2は，エージェント出力を遮断し，過去の失敗事例から抽出したエラーパターンに基づき，整流器を用いて反復的にエラーを修正する。
- 修正不可能な出力はプルーニングされ，エラー伝播を防止する。
- 数学およびコードベンチマークにおいて，ADv2はそれぞれ平均6.39%と2.28%の精度向上を達成し，高い適応性を示した。
Link: https://arxiv.org/abs/2602.23258
大規模モデル時代におけるフル波形反転の改善 [cs.DC, cs.SY, eess.SY, cs.LG]目的：フル波形反転のための大規模モデルの汎化性能向上
- 地球内部構造探査において，高精度な速度構造モデルの構築は資源探査や地震ハザード評価に不可欠である。
- 既存のデータ駆動型フル波形反転は，データ量の制約から小規模モデルに限定され，過学習や汎化性能の課題を抱えている。
- 本研究は，大規模モデルと適切な学習戦略により，複雑な地質構造への汎化性能を高めることを目指す。
- シミュレーションデータで学習させた大規模モデルが，実際の地質構造ベンチマークにおいても高い性能を発揮することが示された。
- モデルの規模，データの多様性，学習戦略を調整することで，大規模モデルのフル波形反転を効果的に実現した。
- OpenFWIベンチマークにおいて最先端の性能を達成し，データ駆動型フル波形反転における汎化性能のギャップを縮小した。
Link: https://arxiv.org/abs/2603.00377
GFlowNet訓練のための，根付き吸収的プレフィックス軌道バランスとサブモジュラーリプレイ [cs.LG, cs.AI]目的：GFlowNet訓練におけるモード崩壊の抑制
- 大規模言語モデルの活用が広がる中で，報酬比例型事後分布の近似が重要である。
- GFlowNetはモード崩壊を起こしやすく，特にプレフィックスの崩壊や長さの偏りが課題である。
- 初期プレフィックスへの信用割当の弱さと，偏ったリプレイによる分布シフトを改善する。
- 提案手法RapTBは，根からの監視と吸収的サフィックスに基づくバックアップにより，プレフィックスレベルでの学習信号を強化する。
- サブモジュラーリプレイ戦略SubMを導入することで，リプレイによる分布シフトを軽減し，報酬と多様性を促進する。
- SMILES文字列を用いた分子生成タスクにおいて，RapTBとSubMの組み合わせが最適化性能と分子多様性を向上させる。
Link: https://arxiv.org/abs/2603.00454
AG-REPA：音声フローマッチングにおける表現アライメントのための因果レイヤー選択 [cs.SD, cs.AI, cs.LG, cs.MM]目的：音声フローマッチングにおける表現アライメントのための因果レイヤー選択戦略
- 生成モデルの性能向上は，音声合成や変換など広範な応用において重要である。
- 既存の表現アライメントは，教師特徴とのアライメント層の選択が経験則に頼る。
- 表現アライメントにおいて，生成を駆動する因果的に支配的な層を特定し活用すること。
- 提案手法AG-REPAは，教師空間の類似性だけでなく，速度場へのレイヤーの因果的貢献度を考慮する。
- 前方ゲートアブレーション（FoG-A）により，各レイヤーの貢献度を定量化し，疎なレイヤー選択と適応的な重み付けを実現する。
- 様々な条件下での実験により，AG-REPAが既存手法REPAを安定的に上回ることが示された。
Link: https://arxiv.org/abs/2603.01006
構造的事前知識を用いた合成事前学習による関係性に基づくインコンテキスト学習 [cs.LG, cs.AI, cs.DB]目的：関係データベースにおける基盤モデルの構築
- 現代ビジネスの基盤である関係データベースの活用には，高性能な基盤モデルが不可欠である。
- 高品質な関係データベースは機密性が高く，入手が困難であり，構造も多様であるため，大規模な事前学習が困難である。
- 合成データを用いて事前学習することで，データ不足の問題を克服し，新しいデータベースへの迅速な適応を目指す。
- 合成データによる事前学習モデルRDB-PFNは，多様な関係データベースを生成し，その上でインコンテキスト学習を実現する。
- RDB-PFNは19種類の現実世界の予測タスクにおいて，最先端のモデルを上回る性能を示す。
- 軽量なアーキテクチャと高速な推論が可能であり，実用性も高い。
Link: https://arxiv.org/abs/2603.03805
家畜再識別における視点分析のための多視点観測データセットMOO [cs.CV, cs.AI]目的：家畜再識別における視点変化の影響の定量化
- 動物再識別は，監視や管理において重要であり，個体識別精度の向上が求められている。
- 特に，航空写真と地上写真の組み合わせでは，視点変化が大きく，識別が困難となる問題がある。
- 本研究では，視点変化を系統的に分析するためのデータセットを構築し，視点変化の影響を明らかにすることを目的とする。
- 新たなデータセットMOOを構築し，1,000頭の家畜を128の視点から撮影した128,000枚の画像を収録した。
- 実験により，モデルの汎化性能が大きく向上する重要な仰角の閾値を特定した。
- 合成データで学習したモデルが，実際のデータセットでも高い性能を発揮し，ドメインギャップを効果的に埋めることを実証した。
Link: https://arxiv.org/abs/2603.04314
ポストトレーニングによる言語モデルのクロスリンガル一貫性向上 [cs.CL, cs.AI]目的：クロスリンガル一貫性の向上
- 多言語対応システムの信頼性は重要であり，言語間の応答のばらつきを抑える必要性がある。
- 翻訳されたプロンプトに対する言語モデルの応答は，言語間で一貫性がない場合がある。
- モデルの応答分布と往復翻訳の分布間の情報理論的収束を最小化する。
- 直接一貫性最適化（DCO）は，クロスリンガル一貫性を大幅に改善し，既存の手法を上回った。
- DCOは，多様な言語モデルと26言語で有効であり，低リソース言語のターゲットを絞った調整を可能にした。
- DCOは，高コストなオンポリシーロールアウトを必要としない，実行可能な代替手法である。
Link: https://arxiv.org/abs/2603.04678
非ユークリッド勾配降下法は安定限界で動作する [cs.LG, math.OC, stat.ML]目的：安定限界現象の解釈
- 深層学習の最適化において，勾配降下法の挙動を理解することは重要である。
- 古典的な滑らかさの仮定に反する安定限界現象の理論的根拠が不明である。
- 非ユークリッド空間における勾配降下法の安定限界現象を解明し，その診断手法を提供する。
- 安定限界現象は，ヘッセ行列の最大固有値が安定閾値に近づき，その近傍で変動する現象である。
- 本研究では，方向性滑らかさの観点から安定限界現象を解釈し，非ユークリッドノルムへ一般化する。
- 実験の結果，様々な非ユークリッド勾配降下法においても，安定限界現象が確認された。また，その診断に利用可能なスペクトル指標が提供された。
Link: https://arxiv.org/abs/2603.05002
推論劇場：思考連鎖におけるモデルの信念と表出の乖離 [cs.CL, cs.AI, cs.LG]目的：思考連鎖におけるモデルの信念と表出の乖離の解明
- 大規模言語モデルの推論能力向上は，AI研究の重要な課題である。
- 思考連鎖(CoT)は有効だが，モデルが自信過剰な回答を生成する「推論劇場」の問題がある。
- 思考連鎖におけるモデルの内部状態を分析し，効率的な推論手法を開発すること。
- モデルは容易な問題に対して，早い段階で最終的な回答を決定していることが示された。
- 信念の変化が顕著に現れる箇所は，推論の転換点と一致する傾向が確認された。
- 活性化プローブを用いた早期終了により，トークン数を大幅に削減できることが示された。
Link: https://arxiv.org/abs/2603.05488
逆問題に対するスパーススケジュール拡散ガイダンス [cs.LG]目的：逆問題におけるベイズ推定のための拡散モデルの効率的なサンプリング手法
- 逆問題は，医療画像再構成など広範な分野で重要であり，高品質な解の復元が求められる。
- 既存手法では，逆拡散過程全体を通してデータ整合性ガイダンスが必要で，計算コストが高いという課題がある。
- 拡散過程の初期状態を最適化し，ガイダンスをスパース化することで計算効率を向上させる。
- 提案手法Spinは，従来のフルトラジェクトリーガイダンスや高コストな内部ソルブを回避し，高速な復元を実現した。
- FFHQとImageNetにおける線形および非線形逆問題において，高い再構成品質を維持しつつ，実行速度が2倍から50倍に向上した。
- メモリコストも削減され，特に潜在拡散モデルにおいて効果が大きかった。
Link: https://arxiv.org/abs/2603.07860
Rel-MOSS：関係データベースにおける不均衡な関係型深層学習に向けて [cs.AI, cs.DB, cs.LG]目的：関係データベースにおけるエンティティ分類の不均衡問題への対処
- 関係データベースは様々なデータを保持し，データ駆動型学習の基盤として重要である。
- 既存の関係型深層学習は，データベース内のデータ不均衡を無視し，少数エンティティの表現が不十分になる。
- 関係に着目した少数派合成オーバーサンプリングにより，データ不均衡問題を軽減することを目指す。
- 提案手法Rel-MOSSは，関係ごとのゲーティングコントローラにより，多数派関係による少数派情報の隠蔽を抑制する。
- 関係型ゲートされた表現に基づき，エンティティの関係的特徴を考慮した関係誘導少数派合成を提案する。
- 12のエンティティ分類データセットを用いた実験で，Rel-MOSSが最先端手法を上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.07916
筋相乗性事前知識が予測型筋骨格歩行シミュレーションの生体力学的忠実性を高める [cs.LG, cs.NE, cs.RO]目的：予測型筋骨格歩行シミュレーションにおける生体力学的忠実性の向上
- 人間の歩行は複雑な神経筋制御に基づくため，シミュレーションの精度向上は重要である。
- 高次元の制御と実験データの制約により，忠実な歩行シミュレーションは困難である。
- 筋相乗性の事前知識を組み込み，限られたデータでの汎化性能を高める。
- 筋相乗性による制御は，非生理的な膝関節の動きを抑制し，関節モーメントを実験範囲内に維持した。
- シミュレーションされた垂直方向の地面反力は，人間の測定値と強い相関を示した。
- 筋肉の活動タイミングは，個人差の範囲内に収まった。これにより，少量の実験データでも，予測型シミュレーションの精度が向上することが示された。
Link: https://arxiv.org/abs/2603.10474
大規模言語モデルにおける脱獄スケーリング則：多項式から指数への移行 [cs.LG, cs.AI]目的：大規模言語モデルに対する敵対的攻撃のスケーリング則の解析
- 言語モデルの安全性確保は重要であり，悪意のある利用を防ぐ上で不可欠である。
- 安全性調整された言語モデルは，敵対的攻撃によって容易に安全でない挙動を示す問題がある。
- 敵対的攻撃が成功する確率がどのようにモデルの規模や攻撃手法によって変化するかを解明する。
- 敵対的プロンプト注入攻撃は，攻撃成功率の成長を多項式から指数関数へと変化させることが確認された。
- この現象を説明するため，スピンガラス系を用いた理論モデルが提案され，低エネルギー状態のクラスターが安全でない生成に寄与することが示された。
- 短く弱いプロンプトはべき乗則に従い，長く強いプロンプトは指数則に従うことが分析的に示された。この傾向は様々なモデルで確認された。
Link: https://arxiv.org/abs/2603.11331
ソースにおける操舵：堅牢なペルソナ制御のためのスタイル変調ヘッド [cs.CL, cs.AI, cs.CY]目的：大規模言語モデルのペルソナ制御
- 大規模言語モデルの安全性と実用性を高めるためには，モデルの行動制御が重要である。
- 従来の行動制御手法では，一貫性の低下が課題となっており，実用化の妨げとなっている。
- ペルソナとスタイル形成を司る特定の注意ヘッドを特定し，より安全で精度の高い制御を目指す。
- スタイル変調ヘッドと呼ばれるわずかな注意ヘッド（3つのみ）が，ペルソナとスタイル形成を独立して制御することが示された。
- これらのヘッドは，内部表現の幾何学的分析によって特定可能であり，層ごとのコサイン類似度とヘッドごとの貢献スコアを組み合わせる。
- 特定されたヘッドのみに介入することで，一貫性の低下を大幅に軽減しつつ，堅牢な行動制御を実現できることが実証された。
Link: https://arxiv.org/abs/2603.13249
スペクトルクリッピングによるLLM学習の強化 [cs.LG, math.OC]目的：大規模言語モデル学習におけるスペクトルクリッピングの効果検証
- LLMの規模拡大に伴い，学習の安定性や汎化性能の向上が重要課題となっている。
- 従来の最適化手法では，重みや勾配のスペクトル構造が考慮されておらず，学習の不安定性や性能劣化を招く可能性がある。
- スペクトルクリッピングにより，更新量のスペクトルノルムを制御し，学習の安定化と汎化性能の向上を目指す。
- SPECTRAは，更新量のスペクトルクリッピングと，必要に応じた勾配のクリッピングを組み合わせることで，様々な最適化手法において検証損失の改善を実現した。
- 実験結果から，SPECTRAを用いることで，AdamW，Signum，Mars，AdEMAMixなどの最適化手法において最先端の結果が得られた。
- SPECTRAで学習されたモデルは，重みのノルムが小さくなり，スペクトルクリッピングが正則化と関連していることが確認された。
Link: https://arxiv.org/abs/2603.14315
P$^2$RAG：効率的なプライバシー保護RAGサービス：任意のTop-$k$検索のサポート [cs.CR, cs.AI]目的：プライバシーを保護しつつ，任意のTop-$k$検索を可能とするRAGサービスの効率化
- 大規模言語モデルの知識拡張にRAGが不可欠。外部知識利用時のプライバシー保護が課題。
- 既存のプライバシー保護RAGは，$k$値の固定，セキュリティ問題，大規模$k$時の効率低下に課題。
- 任意の$k$に対応し，効率とセキュリティを両立するプライバシー保護RAGサービスの実現。
- P$^2$RAGは，候補ドキュメントのソートを回避し，インタラクティブな二分探索法を用いることで効率化を実現。
- 秘密分散技術により，データベースとプロンプトを保護し，悪意のあるユーザーへの対策と情報漏洩の抑制を実現。
- 実験により，P$^2$RAGが最先端のPRAGよりも3～300倍高速であることが示された（$k$ = 16～1024）。
Link: https://arxiv.org/abs/2603.14778
ロボットはいつ考えるべきか：強化学習によるリソースを意識した推論 [cs.RO, cs.AI, cs.LG]目的：ロボットの埋め込み環境における意思決定のための，リソースを意識した推論
- ロボットは環境とのインタラクションにおいて，高度な推論，計画，意思決定に大言語モデルを活用している。
- LLMの推論は計算遅延とリソースのオーバーヘッドが大きく，アクション実行を中断させ，システム信頼性を低下させる。
- いつ推論し，いつ行動するかを適応的に決定する仕組みを構築し，効率性と信頼性を向上させる。
- RARRLは，現在の観測，実行履歴，残りのリソースに基づいて，推論の実行，役割の選択，計算予算の割り当てを適応的に決定する。
- ALFREDベンチマークを用いた実験により，RARRLは固定戦略やヒューリスティック戦略と比較して，タスクの成功率を向上させながら，実行遅延を削減し，ロバスト性を強化することが示された。
- 適応的な推論制御は，信頼性が高く効率的な埋め込み型ロボットエージェントを構築するために不可欠である。
Link: https://arxiv.org/abs/2603.16673
報酬フロー：大規模言語モデルを用いたエージェント型強化学習における状態グラフ上のトポロジーを意識した報酬伝播 [cs.AI, cs.CL, cs.LG]目的：エージェント型強化学習における状態レベルの報酬推定
- 大規模言語モデルの推論能力向上に強化学習が期待されるが，疎な終端報酬が詳細な最適化を阻害する
- 過程報酬モデリングは代替手段となるが，計算コストが高い，報酬ハッキングのリスク，アノテーションのボトルネックが存在する
- 状態グラフのトポロジー構造を活用し，アノテーションフリーで状態の成功への貢献度を推定することにより，問題を解決する
- 報酬フローは，4つのエージェント型ベンチマークにおいて，既存手法を大幅に上回る性能を示す
- テキストベースのタスクで平均成功率が6.2%向上，視覚的推論で最強ベースラインを3モデルスケールで29.7%上回る
- DeepResearchでは10%の精度向上，優れたロバスト性と学習効率を実現している
Link: https://arxiv.org/abs/2603.18859
プロンプトと応答間の相互情報量の最大化が，追加データなしでLLMの性能を向上させる [cs.LG, cs.AI, cs.CL]目的：プロンプトと応答間の相互情報量の最大化
- LLMの性能向上は重要であり，多様な領域での応用が期待されている。
- 既存の学習手法は，ラベル付きデータや外部検証者に大きく依存しており，コストが高い。
- 外部信号への依存を減らし，検証可能な領域とそうでない領域の両方に適用可能な自己改善手法の開発。
- 提案手法MIPOは，プロンプトと応答のペアを生成する対照的なデータ拡張手法である。
- MIPOは，LlamaやQwenモデルにおいて，パーソナライズ性能を3-16%向上させることを示した。
- MIPOは，数学や多肢選択問題など，検証可能な領域でも1-20%の性能向上を，追加データなしで実現した。
Link: https://arxiv.org/abs/2603.19294
FormalEvolve：多様な自動形式化のためのニューロシンボリック進化的探索 [cs.AI]目的：自動形式化における多様な形式文の探索
- 数学の形式化は，厳密な検証と自動推論を可能にし，数学の信頼性を向上させる上で重要である。
- 既存の評価プロトコルでは，形式化の多様性が評価されにくく，有用な形式文の探索が困難になっている。
- 形式文の多様性を保ちつつ，効率的な探索を行い，より有用な形式文を生成することを目指す。
- FormalEvolveは，コンパイル可能で再利用可能な形式文のアーカイブを維持し，多様な形式文を生成する。
- CombiBenchおよびProofNetにおいて，既存手法を上回る性能を示し，形式文の多様性を高めることに成功した。
- 定理完全証明においても，アーカイブ検索によって証明性能が向上し，その有効性が確認された。
Link: https://arxiv.org/abs/2603.19828
汎化シュレーディンガーブリッジ下におけるオンポリシー強化学習のためのパス空間ミラー降下法 [cs.LG]目的：汎化シュレーディンガーブリッジ問題としてのオンポリシー生成ポリシー最適化の定式化
- 複雑な連続制御タスクにおいて，表現力の高いポリシーが重要である。表現力不足は，性能向上を阻害する要因となる。
- 拡散モデルやフローモデルに基づく生成ポリシーは表現力が高いが，終端作用密度が扱いづらく，オンポリシー更新との整合性が課題である。
- パス空間KLを近接項として利用することで，終端作用密度を明示的に評価せずに，実行される作用分布を直接制御することを目指す。
- GSB-MDPOは，汎化シュレーディンガーブリッジ問題を介してオンポリシー生成ポリシー最適化を実現する。
- パス空間KLがMDPOにおける近接項の役割を果たし，終端作用KLの上限となる。
- PlaygroundとGym-MuJoCoの14の連続制御タスクにおいて，GSB-MDPOの有効性が実証された。
Link: https://arxiv.org/abs/2603.21621
世界を知らなくても安全に学習：COMPASS-Hedge [cs.LG, cs.GT]目的：オンライン学習における後悔保証のバランスと安全性確保
- 機械学習の応用範囲拡大に伴い，環境変化への適応能力が重要視されている。
- 既存手法では，様々な環境下で最適な性能を維持することが困難である。
- 様々な環境下で，安全性と効率性を両立するオンライン学習アルゴリズムを開発する。
- 本研究で提案するCOMPASS-Hedgeは，対立的環境下での最小最大最適後悔を達成する。
- 確率的環境下では，インスタンス最適かつギャップ依存後悔を実現し，固定された基準ポリシーに対する後悔も抑制する。
- COMPASS-Hedgeは，環境や確率的最適性のギャップに関する事前知識を必要としない点が特徴である。
Link: https://arxiv.org/abs/2603.22348
AuthorMix：層別アダプター混合によるモジュール式著者スタイル転送 [cs.CL, cs.AI]目的：著者スタイル転送における，モジュール式フレームワーク
- 自然言語処理において，テキストの表現を制御するスタイル理解は重要な課題である。
- 既存手法は汎用性が低く，ターゲット固有の適応や意味の保存が難しい場合がある。
- 少ないターゲットデータで，迅速かつ高精度なスタイル転送を実現することを目指す。
- AuthorMixは，軽量かつ解釈可能なモジュール式フレームワークであり，既存の最先端手法を上回る性能を示す。
- 特に，リソースの少ないターゲット著者に対して，高い全体スコアと意味保存性の向上を達成した。
- GPT-5.1と比較しても優れており，実用的なスタイル転送が可能となる。
Link: https://arxiv.org/abs/2603.23069
モデルがなぜ尋ねるかを学習するとき：信頼性の高い医療ビジョン言語モデルのための適応的因果推論 [cs.AI]目的：医療ビジョン言語モデルにおける因果推論の適応的機構
- 医療診断において，視覚情報と言語的推論を統合することで，解釈可能な診断支援が期待されている。
- 既存モデルは因果関係を明示的に表現・強化する機構が不足しており，見かけの相関関係に依存しやすい。
- 因果推論を組み込み，診断の整合性向上と誤情報の低減を目指す。
- 提案手法MedCausalXは，解剖学的注釈と因果推論チェーンを含むCRMedデータセットを活用する。
- $\langle$causal$\rangle$と$\langle$verify$\rangle$トークンを用いた2段階の適応的推論アーキテクチャにより，因果分析のタイミングを自律的に判断する。
- エラー帰属強化学習による軌道レベルの因果補正により，診断の一貫性が5.4ポイント向上，幻覚が10ポイント以上低減された。
Link: https://arxiv.org/abs/2603.23085
MemCollab：コントラスト的軌道蒸留によるクロスモデルメモリ協調 [cs.AI, cs.LG]目的：異種モデル間での知識共有を可能にするメモリシステムの構築
- LLMエージェントは過去の経験を再利用するメモリ機構に依存しており，その性能向上は重要である。
- 既存手法では，メモリが単一エージェントに固有であり，異なるモデル間での共有が困難である。
- モデル固有のバイアスを除去し，タスクレベルの知識を共有することで，異種モデル間での協調を実現する。
- MemCollabは，異なるモデルエージェントによる推論軌道を対比させることで，共有メモリを構築する。
- コントラスト学習により，タスクの本質的な制約を抽出し，モデル固有のアーティファクトを抑制する。
- 数学的推論やコード生成において，多様なエージェント間で精度と推論効率が向上することが示された。
Link: https://arxiv.org/abs/2603.23234
SCoOP：複数Vision-Languageモデルシステムにおける不確実性定量のための意味整合性のある意見集約 [cs.AI, cs.MA]目的：複数VLMシステムの不確実性定量
- マルチモーダルAIの信頼性向上は重要であり，特に複数のモデルを組み合わせることで性能向上が期待される。
- 異なるVLMの出力を集約すると不確実性が増幅し，誤った情報を生成する「ハルシネーション」のリスクが高まる。
- 本研究は，複数VLMシステムの集合的な不確実性を明示的に測定し，ハルシネーションの検出と回避を目指す。
- SCoOPは，不確実性に基づいた線形意見集約フレームワークであり，追加学習は不要である。
- ScienceQAデータセットにおいて，ハルシネーション検出のAUROCは0.866と，既存手法を10-13%上回る。
- 棄権性能のAURACは0.907であり，既存手法を7-9%上回る。集約処理のオーバーヘッドはごくわずかである。
Link: https://arxiv.org/abs/2603.23853
価格逆転現象：より安価な推論モデルがより高コストとなる場合 [cs.CL, cs.AI, cs.GT, cs.LG, cs.MA]目的：推論モデルの価格と実際の推論コストとの乖離
- 推論モデルの利用拡大に伴い，価格設定の透明性が重要課題となっている。
- API価格が実際のコストを正確に反映していない場合がある。
- API価格の信頼性に着目し，コストを考慮したモデル選択の必要性を示す。
- 提示されたAPI価格と実際のコストに乖離が見られ，より安価なモデルがより高コストとなる「価格逆転現象」が確認された。
- 思考トークン消費量や対話回数のばらつきがコストに大きく影響することが示された。
- 同一クエリでも思考トークン消費量に変動があり，コスト予測の困難さが明らかになった。コスト分布予測が今後の課題である。
Link: https://arxiv.org/abs/2603.23971
Bridge-RAG：抽象ブリッジ木に基づく検索拡張生成アルゴリズム [cs.IR, cs.AI, cs.CL]目的：大規模言語モデルの生成品質向上を目指す検索拡張生成のための新たなフレームワーク
- 大規模言語モデルの性能向上が求められる中で，外部知識の活用が重要な課題となっている。
- 従来の検索拡張生成は，検索精度と計算効率のバランスが難しく，ボトルネックとなっていた。
- 検索精度と効率の両立を図り，より高品質な文章生成を実現することを目指している。
- 提案手法Bridge-RAGは，抽象概念をブリッジとして活用することで，検索精度を大幅に向上させた。
- 抽象を木構造化し，多段階検索戦略を採用することで，十分な文脈情報の包含を実現している。
- Cuckoo Filterの統合により，検索効率を改善し，既存手法と比較して最大1.9倍の高速化を達成した。
Link: https://arxiv.org/abs/2603.26668
高等教育における分野および職務役割に応じた生成AI導入の多層的な障壁 [cs.CY, cs.AI]目的：生成AI導入の障壁の構造的要因
- 高等教育における教育・研究の質向上に，生成AIの活用が不可欠となっている。
- 既存研究では，個人の認識に焦点が当たり，組織的・構造的な障壁が未解明であった。
- 分野や職務役割ごとの障壁の実態を解明し，実効性のある導入支援策を提案すること。
- 人文科学系教員は，学術倫理に関する倫理的・文化的障壁を主に認識している。
- STEM系および事務部門職員は，機関のガバナンスやインフラに関する制約を重視している。
- 生成AI導入の障壁は組織システムや認識規範に深く根ざしており，職務役割に応じたガバナンスと支援体制の構築が求められる。
Link: https://arxiv.org/abs/2603.27052
MediHive：医療推論のための分散型エージェント集団 [cs.AI, cs.MA]目的：医療質問応答のための分散型マルチエージェントフレームワーク
- 医療分野における複雑な問題解決には，不確実性や相反する証拠への対処が不可欠である。
- 従来の集中型マルチエージェントシステムは，拡張性や単一障害点，役割の混乱といった課題を抱えている。
- MediHiveは，高リスクな医療分野への分散型システムの適用可能性を探求し，集中型の限界を克服する。
- MediHiveは，共有メモリプールと反復融合メカニズムを統合した新規フレームワークである。
- エージェントは自律的に役割を自己割り当てし，条件付き証拠に基づいた議論を通じて意見の相違を検出し，ピアの洞察を融合する。
- MedQAおよびPubMedQAデータセットにおいて，単一LLMや集中型ベースラインよりも高い精度を達成した。
Link: https://arxiv.org/abs/2603.27150
EvA: LALMのための証拠優先型音声理解パラダイム [cs.CL, cs.SD, cs.AI]目的：複雑な音響シーンにおける音声理解の精度向上
- 音声理解は，人間と機械のコミュニケーションにおいて不可欠な技術である。
- 大規模音声言語モデルは，音響情報の抽出と推論の間にボトルネックが存在する。
- 音響情報の保持を強化することで，音声理解の性能向上を目指す。
- EvAは，音響情報の階層的集約と非圧縮的融合により，証拠の保持を強化する二重経路アーキテクチャである。
- 大規模学習データセットEvA-Perceptionを構築し，イベント順のキャプションと証拠に基づくQAペアを提供する。
- MMAU，MMAR，MMSUにおいて，EvAは最先端のオープンソース結果を達成し，特に音響情報に重点を置いた分割で大きな改善が見られた。
Link: https://arxiv.org/abs/2603.27667
SelfGrader：アンカー付きトークンレベルロジットによるLLM脱獄検出 [cs.DC, cs.ET, cs.CL, cs.CR, cs.AI]目的：LLM脱獄の検出
- LLMの安全な利用は重要であり，悪意のある攻撃からの保護が不可欠である。
- 既存の防御策は遅延が大きいか，テキスト生成のランダム性に左右される。
- トークンレベルのロジットを用いて，軽量かつ安定した脱獄検出を実現する。
- SelfGraderは，数値トークン(0-9)のロジット分布を安全性の指標として利用する。
- PACガイド付きICLアンカー事例と二重の視点によるスコアリングルールにより，誤検知率を低減。
- 多様なベンチマークにおいて，堅牢性と低遅延，低メモリ消費量を確認した。
Link: https://arxiv.org/abs/2604.01473
LLMトレーニングにおけるデータ洗濯への対抗 [cs.CR, cs.AI]目的：LLMトレーニングにおけるデータ洗濯の検出と対策
- LLMの発展は目覚ましいが，学習データの権利侵害が懸念されている。
- データ洗濯という技術により，権利侵害の検出が困難になっている。
- データ洗濯されたデータでも，権利侵害を検出する手法を確立すること。
- 提案手法SDRは，標的LLMへのブラックボックスアクセスからデータ洗濯の変換を推論する。
- SDRは，権利者がオリジナルデータのみを保有していても，データ洗濯されたデータを模倣するクエリを生成する。
- MIMIRベンチマークにおいて，SDRは様々なデータ洗濯手法に対してデータ不正利用の検出能力を向上させた。
Link: https://arxiv.org/abs/2604.01904
意図条件付き行動評価：コンピュータ利用エージェントのためのIntentScore [cs.MA, cs.NI, cs.AI]目的：コンピュータ利用エージェントにおける行動品質評価
- 大規模言語モデルを用いたエージェント開発が重要視されている。
- 行動品質の評価が不十分なため，不可逆的なエラーが発生しやすい。
- 多様なオフラインデータから学習可能な報酬モデルを構築し，汎化性能を高める。
- IntentScoreは，398KのGUI操作データを用いて，行動の妥当性を評価する報酬モデルである。
- 状態と行動の関連性，および行動の正確性を評価する2つの目的関数で学習する。
- 未学習環境OSWorldにおいて，タスク成功率を6.9ポイント向上させ，汎化性能を実証した。
Link: https://arxiv.org/abs/2604.05157
スキルトロイアン：スキルベースエージェントシステムに対するバックドア攻撃 [cs.CE, cs.CL, cs.CR, cs.AI]目的：スキルベースエージェントシステムへのバックドア攻撃手法
- 複雑なタスクを処理するため，スキルベースエージェントの利用が拡大している。
- スキルベースシステムはモジュール性が高い反面，セキュリティ上の脆弱性が懸念される。
- スキル実装を標的としたバックドア攻撃のリスクとその対策を明らかにすること。
- スキルに悪意のあるロジックを埋め込み，標準的なスキル合成を通じて攻撃ペイロードを実行可能。
- 暗号化されたペイロードを複数のスキル呼び出しに分割し，特定のトリガー条件でのみ起動する。
- EHR SQLタスクにおいて，97.2%の攻撃成功率と89.3%の正常タスク精度を達成した。
Link: https://arxiv.org/abs/2604.06811
SPEED-Bench：投機的デコーディングのための統一的かつ多様なベンチマーク [eess.SY, cs.SY, cs.IR, cs.DC, cs.AI]目的：投機的デコーディングの評価標準化
- 大規模言語モデルの推論速度向上は，実用化において不可欠である。
- 既存のベンチマークは，タスクの多様性や実環境での評価が不十分である。
- 様々な条件下での投機的デコーディングの性能を正確に評価すること。
- SPEED-Benchは，多様なセマンティックドメインと現実的なサービング環境に対応した包括的なベンチマークスイートである。
- 合成入力が現実世界の推論速度を過大評価すること，バッチサイズ依存の最適なドラフト長，低多様性データの偏りを定量的に示した。
- vLLMやTensorRT-LLMなどの実運用エンジンとの連携により，他のベンチマークでは隠されていたシステム動作を分析可能にした。
Link: https://arxiv.org/abs/2604.09557
シリコンを超えて：物理ニューラルコンピューティングの材料，メカニズム，および手法 [cs.CL, cs.NE, cs.ET]目的：物理ニューラルコンピューティングにおける材料，メカニズム，および手法の包括的な調査
- AI技術の発展に伴い，従来のデジタル加速器の限界が顕在化しており，新たな計算パラダイムが求められている。
- 物理ニューラルコンピューティングは多様な基盤で進められているものの，分野間の連携が不十分で，共通の用語や比較方法が確立されていない。
- 異なる基盤間の比較を可能にし，それぞれの特性を明らかにするためのベンチマークスキームを提案し，応用範囲を特定すること。
- シリコン以外の様々な基盤（メモリスタ，フォトニクス回路，マイクロ流体ネットワーク等）が物理ニューラルコンピューティングに利用されていることが明らかになった。
- 各基盤は特定の性能指標において優位性を示し，単一の基盤が全てで優位というわけではなく，互いに補完的な関係にあることが示された。
- 物理ニューラルコンピューティングは，超高速信号処理から生体内の意思決定まで，幅広い応用分野に展開できる可能性が示唆された。
Link: https://arxiv.org/abs/2604.09833
認知ピボットポイントと視覚的アンカリング：マルチモーダル推論モデルにおける幻覚の解明と修正 [cs.AI]目的：マルチモーダル推論モデルにおける幻覚のメカニズム解明と軽減
- 近年，マルチモーダル大規模モデルの性能は飛躍的に向上しているが，視覚的推論の精度向上には更なる課題が残されている。
- 長鎖推論において，モデルが幻覚を生じさせることが多く，その原因究明と対策が求められている。
- 認知的な分岐点における視覚情報の活用を促し，推論過程を視覚入力に固定することで幻覚を抑制する。
- 推論過程における高エントロピー状態と幻覚の発生には強い相関関係が認められた（Reasoning Vision Truth Disconnect）。
- V-STAR（Visual Structural Training with Attention Reinforcement）という軽量な学習パラダイムを提案し，視覚的注意機構を強化することで，モデルの視覚的認識能力を向上させた。
- 高エントロピー状態の検出時に視覚的注意を促す階層的視覚的注意報酬（HVAR）と，推論経路を編集する強制反射機構（FRM）を導入し，幻覚の軽減に貢献した。
Link: https://arxiv.org/abs/2604.10219
SVSR：マルチモーダル推論のための自己検証・自己修正パラダイム [cs.AI]目的：マルチモーダル推論における自己検証と自己修正のメカニズム
- 画像とテキストなど複数の情報を統合し，高度な知的な処理を実現するマルチモーダルAIの重要性が増している。
- 既存のモデルは推論が浅く，思考過程の不備から誤りが生じやすいという課題があった。
- モデルが自身の思考を検証し，修正する能力を高めることで，信頼性と汎化性能を向上させる。
- SVSRは，自己検証と自己修正を明示的に組み込んだフレームワークであり，複雑なタスクにおいて頑健性と信頼性を大幅に向上させる。
- 高品質な学習データセットと，Semi-online DPOを用いた3段階の学習パラダイムにより，モデルは構造化された推論行動を学習・改善する。
- 明示的な推論過程の学習が，暗黙的な推論能力の向上にも繋がり，既存モデルを上回る性能を示した。
Link: https://arxiv.org/abs/2604.10228
迅速思考，誤った思考：直観性が政策評価におけるLLMの反事実的推論を調整する [cs.AI, cs.CL]目的：政策評価におけるLLMの反事実的推論の直観性による調整
- 政策決定の根拠となる因果推論の重要性が高まっている。
- LLMの因果・反事実的推論の信頼性，特に現実世界の政策評価への応用が不十分である。
- LLMが直観に反する状況での推論能力を向上させる方法を探る。
- LLMに連鎖思考（CoT）プロンプトを使用すると，明白なケースでは性能が大幅に向上するが，直観に反するケースではその効果が弱まることが示された。
- ケースレベルの分散がモデルの選択やプロンプト戦略の分散を上回り，直観性が主要な要因であることが明らかになった。
- LLMは関連知識を持っているものの，直観と矛盾する場合にはそれを利用できないという，知識と推論の乖離が示唆された。
Link: https://arxiv.org/abs/2604.10511
ReSpinQuant：部分空間残差回転近似による効率的な層ごとのLLM量子化 [cs.CV, cs.AI]目的：大規模言語モデルの効率的な量子化手法
- LLMの推論コスト削減は，実用化において極めて重要である。
- 量子化による活性化の異常値問題は，精度低下の主な原因である。
- 層ごとに最適化された量子化を実現しつつ，推論時のオーバーヘッドを抑制すること。
- ReSpinQuantは，オフラインでの活性化回転融合により，層ごとの適応性を維持しつつ，推論コストを最小限に抑える。
- W4A4およびW3A3量子化実験において，ReSpinQuantは最先端の性能を達成した。
- 既存のグローバル回転法や計算コストの高い層ごとの方法と比較して，高い精度と効率性を両立している。
Link: https://arxiv.org/abs/2604.11080
ガードレールがガイダンスを上回る：コーディングエージェントのためのルール，スキル，および永続的な設定に関する大規模研究 [cs.AI, cs.CL]目的：コーディングエージェントに対するルールセットの効果検証
- ソフトウェア開発の自動化は，生産性向上に不可欠であり，その精度と信頼性が重要視されている。
- エージェントのルール設定は，開発者の知識に依存し，最適化が困難である。
- エージェントの安全性と信頼性を高めるための効果的なルール設定方法の確立。
- ランダムなルールと専門家が作成したルールは，同様の効果（SWE-bench Verifiedで+13.8pp）を示すことが判明した。
- 有益なルールは「関係のないコードのリファクタリングをしない」といった否定的な制約，有害なルールは「コードスタイルに従う」といった肯定的な指示であることが示された。
- ルール設定における極性（肯定/否定）が，エージェントの性能に大きく影響することが明らかになった。
Link: https://arxiv.org/abs/2604.11088
MemoSight：推論加速のための文脈圧縮と複数トークン予測の統合 [cs.CL, cs.CL, cs.AI]目的：大規模言語モデルにおける推論効率の向上
- 複雑な推論タスク解決にCoTが有効だが，KVキャッシュの増大が課題。
- 文脈圧縮と複数トークン予測は効率化策だが，学習方法の違いから統合が難しい。
- 両者の統合により，推論効率と性能維持の両立を目指す。
- MemoSightは，特殊トークンとトークン固有の位置配置に基づく最小限のデザインを採用。
- KVキャッシュ使用量を最大66%削減し，推論速度を56%向上させた。
- 平均推論精度は3%未満の低下にとどまり，既存手法より効率と精度のバランスが良い。
Link: https://arxiv.org/abs/2604.14889
推論モデルによる意図整合型自律宇宙機誘導 [cs.RO, eess.SY, cs.AI, cs.SY, math.OC]目的：意図整合型宇宙機誘導フレームワーク
- 将来の宇宙ミッションでは，安全性を確保しつつ，高レベルなミッション意図を解釈できる自律性が不可欠である。
- 既存の軌道最適化は専門家による定式化に依存しており，意図に基づく意思決定をサポートしていないという課題がある。
- 本研究は，高レベルな推論と安全な軌道最適化を結びつけ，意図に基づいた自律的な宇宙機誘導を可能とする。
- 提案手法は，近接運用シナリオにおいて90％以上のSCP収束率を達成した。
- ヒューリスティックな意思決定と比較して，上位の意図優先度を満たす軌道生成率は1.5倍向上した。
- 中間的な行動抽象化が，基盤モデルの推論と安全性が求められる宇宙機自律性の実用的なインターフェースとして有効であることが示された。
Link: https://arxiv.org/abs/2604.17176
UDM-GRPO：一様離散拡散モデルのための安定かつ効率的なグループ相対方策最適化 [cs.CV, cs.LG]目的：一様離散拡散モデルと強化学習の統合
- 離散データの生成モデリングは，画像生成などの分野で重要な役割を担う。
- 従来の強化学習手法を直接適用すると，学習が不安定になり，性能向上が限定的になる。
- UDMと強化学習を効果的に統合し，生成性能と学習の安定性を向上させる。
- 提案手法UDM-GRPOは，最終的なクリーンサンプルをアクションとして扱うことで，最適化信号の精度と安定性を向上させる。
- 拡散過程を通じて軌跡を再構成することで，事前学習分布との確率経路の一致度を高める。
- 複数の画像生成タスクにおいて，GenEval精度が69%から96%に，PickScoreが20.46から23.81に向上し，最先端の性能を達成した。
Link: https://arxiv.org/abs/2604.18518
人間によるガイダンスを用いたコンピュータ利用エージェントの害回復 [cs.AI, cs.CL]目的：コンピュータ利用エージェントの害状態からの安全状態への最適誘導
- エージェントが実環境で動作する際の安全性確保は，社会実装において不可欠である。
- 現状の安全性対策は予防に偏っており，害が発生した場合の迅速かつ適切な回復手段が不足している。
- 人間との協調による，害状態からの回復戦略を構築し，エージェントの安全性を高めることを目指す。
- ユーザースタディから，回復における重視点は状況によって変化することが明らかになった。
- 学習された知見を報酬モデルに組み込み，回復計画のランク付けを行うことで，より質の高い回復軌跡が得られた。
- 新たに構築したベンチマーク「BackBench」を用いて，エージェントの回復能力を体系的に評価した。
Link: https://arxiv.org/abs/2604.18847
ソボレフ学習による拡散ポリシーを用いた軌道最適化の高速化 [cs.LG, cs.RO]目的：軌道最適化の初期推測の提供
- ロボット工学等において，効率的な軌道生成は重要な課題である。
- 従来の軌道最適化は問題ごとに独立して解かれるため，初期値に依存する。
- 拡散ポリシーを用いた初期推測により，軌道最適化の計算時間を短縮すること。
- ソボレフ学習を用いることで，拡散ポリシーが累積誤差を回避できることが示された。
- 少数の軌道データから学習することで，軌道最適化の求解時間を2倍から20倍程度削減できる。
- ファーストオーダー情報を活用することで，推論に必要な拡散ステップ数を減らし，低遅延化を実現した。
Link: https://arxiv.org/abs/2604.19011
BEAT：均一な時間ステップによる音楽のトークン化と記号生成 [cs.SD, cs.AI]目的：音楽のトークン化方式
- 音楽生成におけるAI活用が盛んになり，音楽表現の多様性を学習できるモデルが求められている。
- 従来の音楽トークン化はイベントベースであり，時間軸の不均一性が構造的理解の妨げとなる場合がある。
- 時間ステップを基本単位とするトークン化で，音楽の構造的整合性と生成品質の向上を目指す。
- 提案手法は，音楽の続き生成と伴奏生成において，既存のイベントベース手法よりも優れた音楽品質と構造的コヒーレンスを示した。
- 時間ステップによるトークン化は，より効率的であり，長距離パターンを効果的に捉えることが確認された。
- ピアノロール表現の疎なエンコーディングに類似しており，時間的な規則性を明示的に扱う。
Link: https://arxiv.org/abs/2604.19532
DialToM：状態駆動型対話軌跡予測のための心の理論ベンチマーク [cs.CL, cs.AI, cs.LG]目的：状態駆動型対話における心の理論のベンチマーク
- 対話システムにおいて，人間らしい自然なコミュニケーションを実現するには，相手の心の状態を理解することが重要である。
- 既存のモデルは心の状態を推論できるものの，それを実際の対話予測に活用するには課題がある。
- 提示されたベンチマークは，対話の文脈なしに心の状態から対話の展開を予測する能力を評価することを目的とする。
- 大規模言語モデルは心の状態の推論には優れるが，社会的な予測（機能的心の理論）には苦戦する。
- 人間の専門家は本タスクで100%の正答率を達成しており，ベンチマークの妥当性が確認された。
- Gemini 3 Proはコンテキストなし予測において優れた機能的心の理論能力を持ち，それをより弱いモデルに転移可能である。
Link: https://arxiv.org/abs/2604.20443
因果的解きほぐしに着想を得た劣化表現学習によるフルリファレンス画像品質評価 [cs.CV, cs.AI]目的：フルリファレンス画像品質評価のための劣化表現学習
- 画像処理技術の発展に伴い，高品質な画像評価手法の需要が高まっている。
- 従来の画像品質評価は，参照画像との比較に依存し，汎化性能に課題があった。
- 因果推論と表現学習を用いて，よりロバストで汎用的な評価手法を確立すること。
- 提案手法は，潜在表現への介入を通じて劣化推定を因果的解きほぐしプロセスとして定式化する。
- 劣化とコンテンツの表現を分離し，画像コンテンツと劣化特徴間の因果関係をモデリングすることで，高い性能を実現した。
- 様々な非標準画像ドメインにおいて，既存手法と比較して優れたクロスドメイン汎化能力を示した。
Link: https://arxiv.org/abs/2604.21654