arXiv雑要約

AI - 2026/03/17 公開

SKILLS：LLM駆動型通信業務のための構造化知識注入 [cs.SE, cs.AI, cs.CR]目的：LLM駆動型通信業務における構造化知識注入の効果検証
- 通信業界ではAIによる自動化が加速しており，その実現にはLLMの活用が不可欠である。
- 汎用LLMはAPI連携を通して通信業務を信頼性高く実行できるか不明であり，ドメイン知識の必要性が課題である。
- LLMに構造化されたドメイン知識を注入することで，通信業務の実行精度向上を目指す。
- SKILLSベンチマークフレームワークを用いて，5つのオープンウェイトモデルを評価した結果，構造化知識注入により全モデルで性能向上が確認された。
- 特にMiniMax M2.5 (81.1%, +13.5pp)とNemotron 120B (78.4%, +18.9pp)で高い効果が認められた。
- 構造化知識注入は，LLM駆動型通信業務の自動化において有効な手段となり得ることが示唆された。
Link: https://arxiv.org/abs/2603.15372
GradCFA：ニューラルネットワークの局所的解釈のための，勾配ベースの反事実と特徴帰属の説明アルゴリズム [cs.LG, cs.AI]目的：ニューラルネットワークの局所的解釈のための説明手法
- AIの社会実装が進む中で，意思決定の透明性が求められるため，説明可能なAI技術が重要である。
- 既存手法では，反事実の説明の実現可能性，妥当性，多様性のバランスが課題となっていた。
- GradCFAは，これらのバランスを改善し，多クラス分類問題にも対応することで，より実用的な解釈を可能とする。
- GradCFAは，既存手法と比較して，実現可能，妥当，多様な反事実を効果的に生成することが示された。
- また，特徴帰属の知見も提供することで，AIの解釈性を高めることに貢献する。
- 本研究により，影響力のある特徴を特定し，その影響を検証することが可能となった。
Link: https://arxiv.org/abs/2603.15373
LLMビーム探索における計算量増加が質を損なう可能性：過大評価バイアスの分析 [cs.LG, cs.AI]目的：LLMビーム探索における最適なビーム幅の決定
- LLMの推論能力向上には，探索範囲の拡大が有効と考えられているが，どこまで拡大すべきか不明。
- ビーム幅の選択は，これまでの研究では効率性に焦点が当てられており，出力品質への影響は未解明。
- スコアラーの信号対雑音比に基づいて，ビーム幅の拡大が性能低下を引き起こす閾値を特定する。
- ビーム探索において，スコアラーの出力ノイズが原因で過大評価バイアスが生じ，ビーム幅が大きくなるほど顕著になる。
- 最適なビーム幅は，スコアラーの信号対雑音比に依存し，高い信号対雑音比ほど大きなビーム幅が有効である。
- perplexityスコアラーでは最適なビーム幅は1であり，PRMスコアラーでは4以上であることが確認された。
Link: https://arxiv.org/abs/2603.15377
AIシステムが学習しない理由とその対策：認知科学からの自律学習に関する教訓 [cs.AI]目的：AIにおける自律学習の限界克服に向けた学習アーキテクチャの提案
- AI技術は，社会の様々な課題解決に貢献する可能性を秘めている。
- 現在のAIは，人間や動物のような自律的な学習能力に欠けている。
- 人間・動物の認知メカニズムに着想を得た新たな学習フレームワークの構築
- 観察学習（System A）と行動学習（System B）を統合し，内部メタ制御信号（System M）によって学習モードを柔軟に切り替える。
- このアーキテクチャは，生物が進化や発達のスケールで動的な環境に適応する方法を模倣している。
- AIが真に自律的に学習するためには，このような認知科学的アプローチが不可欠であると考えられる。
Link: https://arxiv.org/abs/2603.15381
RieMind: ジオメトリに基づいたシーン理解のための空間エージェント [cs.CV, cs.AI]目的：屋内シーンにおける空間推論能力の向上
- 現実世界とのインタラクションにおいて，空間認識はロボット工学や拡張現実などの分野で不可欠である。
- 既存の視覚言語モデルは，空間的・計量的な推論において課題を抱えており，精度向上が求められている。
- 知覚と推論の分離による空間推論の性能向上を目指し，3Dシーングラフを用いたエージェントフレームワークを提案する。
- 本研究で提案するフレームワークは，VSI-Benchの静的分割において，既存手法を最大16%上回る空間推論性能を達成した。
- ベースとなる視覚言語モデルと比較して，平均で33%から50%の性能改善が見られ，明示的な幾何学的基礎付けが空間推論に大きく貢献することが示された。
- 構造化された表現が，純粋なエンドツーエンドの視覚推論に対する有望な代替手段となり得ることを示唆している。
Link: https://arxiv.org/abs/2603.15386
効率的な形態-制御共設計のためのスタケルバーグ近接方策最適化 [cs.LG, cs.AI, cs.RO, stat.ML]目的：形態と制御の共設計
- ロボット工学において，効率的な設計は重要な課題であり，形態と制御の最適化が鍵となる。
- 既存手法は制御の適応ダイナミクスを無視し，最適化が非効率になる場合がある。
- 制御の適応ダイナミクスを考慮し，形態の更新と制御の適応を整合させることを目指す。
- スタケルバーグ近接方策最適化は，標準的なPPOと比較して，安定性と最終的な性能が向上する。
- 本手法は，形態と制御間の内在的な結合をモデル化することで，学習効率を大幅に向上させる。
- 多様な共設計タスクにおいて，より効率的なロボット設計への道が開かれる。
Link: https://arxiv.org/abs/2603.15388
顔再識別におけるAI回避・なりすまし攻撃と活性化マップによる説明 [cs.MM, cs.HC, eess.SY, cs.SY, cs.CV, cs.AI]目的：顔再識別モデルに対するAI回避およびなりすまし攻撃の生成手法
- 監視システムにおける顔識別技術の利用拡大に伴い，そのセキュリティ確保が重要となっている。
- 既存の手法では，ターゲット毎に繰り返し最適化が必要であり，効率性や汎用性に課題がある。
- 複数のカメラ間で有効な，効率的かつ汎用的な攻撃手法の開発を目指している。
- 提案手法は，白色ボックス環境下で平均適合率を90%から0.4%に，黒色ボックス環境下で72%から0.4%に低下させた。
- 標的型なりすまし攻撃において，CelebA-HQデータセット上で27%の成功率を達成し，既存手法と同等の性能を示した。
- 活性化マップのクラスタリングにより，攻撃に利用される特徴を特定し，将来的な対策への道筋を示した。
Link: https://arxiv.org/abs/2603.15396
SFCoT：積極的安全性評価と較正によるより安全な思考連鎖 [cs.CR, cs.AI]目的：大規模言語モデルにおける安全性向上
- 複雑な推論タスクにおいて，大規模言語モデルの能力は目覚ましいが，安全性への懸念が存在する。
- 既存の防御策は最終出力のフィルタリングに依存しており，推論過程の監視が不十分である。
- 推論過程における潜在的なリスクを検出し，安全な結果へ誘導することを目的とする。
- SFCoTは，攻撃成功率を58.97%から12.31%に大幅に低減することを示した。
- 3段階の安全性スコアリングシステムと多角的整合性検証メカニズムを組み込むことで，推論過程全体を監視する。
- 動的介入モジュールによる標的を絞った較正により，安全な推論軌道へと誘導する。
Link: https://arxiv.org/abs/2603.15397
SWE-Skills-Bench：エージェントスキルは実際のソフトウェアエンジニアリングに役立つか？ [cs.SE, cs.AI]目的：エージェントスキルが実際のソフトウェアエンジニアリングタスクに与える効果の検証
- ソフトウェア開発におけるLLMエージェント活用が拡大しており，その能力向上が重要視されている。
- エージェントスキル導入の有効性は十分に検証されておらず，効果が限定的である可能性が指摘されている。
- エージェントスキルがソフトウェアエンジニアリングタスクにおいて，実際にどの程度有効かを定量的に評価すること。
- 提示されたSWE-Skills-Benchを用いた評価の結果，49個のエージェントスキル中39個は合格率の向上に寄与しなかった。
- スキル注入による合格率の平均向上はわずか+1.2%であり，トークン数の増加を伴う場合もあった。
- ドメイン適合性，抽象化レベル，文脈適合性が低いスキルは，性能低下の原因となる可能性が示唆された。
Link: https://arxiv.org/abs/2603.15401
表理解のためのLLMの精査 [cs.CL, cs.AI]目的：LLMにおける表理解のメカニズム解明
- 表形式データは，情報分析や意思決定において不可欠であり，その活用は重要である。
- LLMが表理解で成功する一方で，その内部動作はブラックボックスであり，解釈性が課題である。
- LLMの表理解メカニズムを明らかにし，解釈可能性と性能向上に貢献することを目指す。
- LLMは，表全体をスキャンする初期層，関連セルを特定する中間層，それらの貢献を増幅する後期層という3段階のアテンションパターンに従う。
- 表形式タスクは，数学的推論よりも安定した予測を得るために深い層を必要とする。
- MoEモデルでは，中間層で表に特化した専門家が活性化し，初期層と後期層は汎用的な専門家を共有する。
Link: https://arxiv.org/abs/2603.15402
都市交通画像における適応的残差コンテキストを用いた自律シャトル検出 [cs.CV, cs.AI]目的：都市交通画像における自律シャトル検出手法
- 輸送の自動化は，安全性と持続可能性の向上に貢献する可能性があり，重要な研究分野である。
- 新しい検出対象の追加は，既存の検出手法の再調整が必要であり，性能劣化を引き起こす可能性がある。
- 本研究は，既存知識の保持と新しい検出対象への適応を両立する手法を開発し，課題解決を目指す。
- 提案手法ARCは，既存手法と同等の検出性能を達成しつつ，知識保持能力を大幅に向上させる。
- ARCは，コンテキストブランチとタスク固有ブランチをコンテキストガイデッドブリッジで接続することで，空間特徴の転移と事前学習表現の維持を実現する。
- 実験結果から，ARCは複雑な都市環境において，データ効率の良い新しい車両カテゴリ追加ソリューションであることが示された。
Link: https://arxiv.org/abs/2603.15404
トリニティガード：マルチエージェントシステムの保護のための統合フレームワーク [cs.CL, cs.CR, cs.AI, cs.CL, cs.LG, cs.MA]目的：LLMベースのマルチエージェントシステムにおける安全性とセキュリティ評価・監視
- LLMの進化により，マルチエージェントシステムが発展。安全性・セキュリティ確保が急務となっている。
- 既存研究では，マルチエージェントシステム特有のリスクに対応する包括的な保護システムが不足している。
- 本研究は，OWASP標準に基づき，マルチエージェントシステムの脆弱性を体系的に評価・監視するフレームワークを提案する。
- トリニティガードは，単一エージェント，エージェント間通信，システム全体レベルの３層構造でリスクを分類し，20種類のリスクに対応する。
- 評価段階では，脆弱性診断プローブを実行し詳細なレポートを作成。実行トレース分析により，リアルタイムアラートを発行する。
- 様々なマルチエージェントシステムで検証を行い，トリニティガードの汎用性と信頼性を実証した。
Link: https://arxiv.org/abs/2603.15408
動的パラメータ較正とマルチタスク学習による作物予測のためのハイブリッドモデリングフレームワーク [cs.CL, cs.RO, cs.AI, cs.LG]目的：作物予測のためのハイブリッドモデリングフレームワーク
- 農業経営において，作物の状態を正確に予測することは，収量と品質を最適化する上で不可欠である。
- 従来の物理モデルは精度に課題があり，深層学習は生物学的に非現実的な予測をする可能性がある。
- データ制約下で，生物学的な現実性を保ちつつ予測精度を向上させることを目指す。
- 提案手法は，フェノロジー予測において既存の物理モデルと比較して60％の精度向上を達成した。
- また，耐寒性予測においては40％の精度向上を示し，効果が確認された。
- ニューラルネットワークによる物理モデルのパラメータ化と，マルチタスク学習が貢献している。
Link: https://arxiv.org/abs/2603.15411
局所ウリゾン幅：分類問題に対する位相的複雑性指標 [cs.LG]目的：分類問題の複雑性評価
- 機械学習において，複雑な問題を扱うための指標が重要である。
- 既存の指標は仮説クラスの豊かさを評価するが，問題自体の複雑性は不明確である。
- 入力空間の位相的複雑性が分類器の複雑性に与える影響を評価する。
- 局所ウリゾン幅は，問題の複雑性を正しく捉えることができる。
- 問題の複雑性と入力空間の位相的構造との間に，明確な関係が示された。
- 既存のVC次元とは異なる側面から，問題の複雑性を評価できる。
Link: https://arxiv.org/abs/2603.15412
量子化深層ニューラルネットワークの信頼性・セキュリティ向上に向けた統合的フレームワーク RESQ [cs.LG, cs.AI, cs.AR]目的：量子化深層ニューラルネットワークにおける，信頼性およびセキュリティのバランスの取れた向上のためのフレームワーク
- 深層学習モデルは多くの分野で活用されているため，その信頼性・セキュリティ確保は重要である。
- 量子化により効率化される一方で，モデルの脆弱性が高まるという課題がある。
- 量子化されたモデルに対する耐攻撃性・耐故障性を同時に向上させることを目指す。
- 提案手法により，CIFAR-10，CIFAR-100，GTSRBデータセットにおいて，攻撃耐性と耐故障性がそれぞれ最大10.35%，12.47%向上した。
- 耐故障性の向上が，敵対的攻撃に対する耐性の向上に繋がりやすいが，その逆は必ずしも当てはまらないことが示された。
- 量子化されたネットワークにおいて，高い精度を維持しつつ，効率性とセキュリティの両立を実現した。
Link: https://arxiv.org/abs/2603.15413
テスト時強化学習における増幅効果：安全性と推論の脆弱性 [cs.LG, cs.AI, cs.CL, cs.CR]目的：テスト時強化学習における安全性脆弱性の評価
- 大規模言語モデルの推論能力向上は重要であり，その中でもテスト時学習は新たな手法として注目されている。
- テスト時学習はテストデータに依存するため，悪意のあるプロンプト注入に対する脆弱性が存在する。
- テスト時強化学習による安全性と推論能力の増幅効果と，それらに伴う問題を明らかにすること。
- テスト時強化学習において，悪意のあるプロンプト注入はモデルの既存の挙動を増幅させることが示された。
- ベースモデルが比較的安全な場合，安全性が増幅される一方，脆弱性がある場合は有害性が増幅される。
- いずれの場合も推論能力の低下（推論税）が見られ，自己整合性を促進するテスト時学習法のリスクが示唆された。
Link: https://arxiv.org/abs/2603.15417
MA-VLCM：マルチエージェントチームにおける方策の価値推定のためのビジョン言語批判モデル [cs.RO, cs.AI]目的：マルチエージェントチームにおける方策の価値推定
- マルチエージェント強化学習は，複雑な協調行動を自動学習する上で重要である。
- 従来の集中型批判モデルの学習はサンプル効率が悪く，環境への汎化が難しい。
- 大規模VLAモデルの強みを活かし，効率的かつ汎化性能の高い価値推定を実現する。
- 提案手法MA-VLCMは，事前学習済みのビジョン言語モデルを批判モデルとして活用することで，サンプル効率を大幅に向上させた。
- MA-VLCMは，自然言語タスク記述，視覚的軌跡観測，マルチエージェント状態情報に基づいて価値を推定する。
- 異なるVLMバックボーンを持つモデルにおいて，分布内および分布外のシナリオで良好なゼロショット性能を示した。
Link: https://arxiv.org/abs/2603.15418
CLAG：エージェント駆動クラスタリングによる小規模言語モデルエージェントの適応的メモリ組織化 [cs.CL, cs.AI]目的：小規模言語モデルエージェントにおける適応的なメモリ組織化
- 大規模言語モデルエージェントの知識再利用と複雑な推論能力は，外部メモリに大きく依存する。
- 既存のメモリシステムは，経験を単一のグローバル検索プールに保存するため，知識が希釈または汚染される可能性がある。
- CLAGは，意味的に一貫性のあるクラスタによるメモリ組織化を通じて，干渉を軽減し，メモリ効率を向上させる。
- CLAGは，SLM駆動のルーターを用いて，入ってくるメモリを意味的にまとまりのあるクラスタに割り当てる。
- 各クラスタは，トピックの要約や記述タグを含むクラスタ固有のプロファイルを持つ自律的な機能ユニットとして確立される。
- 複数のQAデータセットにおける実験により，CLAGは既存のメモリシステムと比較して，回答品質と堅牢性を一貫して向上させることが示された。
Link: https://arxiv.org/abs/2603.15421
偏微分方程式に対する基礎モデルの物理制約に基づく微調整 [cs.HC, cs.LG, cs.AI, cs.NA, math.AP, math.NA]目的：偏微分方程式の基礎モデルの適応手法
- 科学技術計算において，物理現象のシミュレーションは不可欠であり，その精度向上が求められている。
- 既存の基礎モデルは汎用性が高い反面，特定の課題への適応にはデータ不足や分布のずれが問題となる。
- 本研究は，限られたデータでも物理法則を考慮することで，基礎モデルの適応精度と汎化性能を向上させることを目指す。
- 物理制約を組み込んだ微調整により，少ないデータでも競争力のある精度を達成できることが示された。
- 物理制約とデータ駆動型の微調整を組み合わせることで，分布外のシナリオにおける汎化性能が向上することが確認された。
- 本手法は，科学機械学習において，データ効率が高く解釈可能なモデル適応の手段となりうる。
Link: https://arxiv.org/abs/2603.15431
エコーを聞く：スカラー・バーバルハイブリッド強化学習によるユーザー反応を意識した方策最適化 [cs.AI]目的：ユーザー反応を意識した方策最適化
- 対話システムの感情サポートは重要であり，ユーザーの感情変化を促すことが求められる。
- 従来の強化学習では，評価指標の希薄さから，応答の失敗理由や状況適応が困難である。
- ユーザーの反応を直接的な学習信号として活用し，対話の質を向上させる。
- RAPOは，対話における反応を重視し，ユーザーの感情軌跡に影響を与える重要なターンを特定する。
- ユーザー反応を対比的ランキング信号や自然言語による批判に変換し，詳細な意味的改善を行う。
- ESCとSotopiaでの実験により，RAPOが従来の強化学習手法よりも優れた対話結果をもたらすことが示された。
Link: https://arxiv.org/abs/2603.15434
音楽ジャンル分類：古典的機械学習と深層学習アプローチの比較分析 [cs.SD, cs.AI, eess.AS]目的：ネパール音楽のジャンル分類システム構築と，古典的機械学習と深層学習モデルの性能比較
- 音楽情報検索分野において，自動音楽ジャンル分類は長年の課題であり，多様な音楽体験の提供に不可欠である。
- 既存の研究は主に西洋音楽に偏っており，非西洋音楽，特にネパール音楽のような多様な伝統音楽への対応が遅れている。
- ネパール音楽の特性を考慮した分類システムの構築により，ネパール音楽のデジタルアーカイブ化と普及を促進する。
- 本研究では，約8000件のネパール音楽データセットを構築し，9つの分類モデルを比較検討した。
- 深層学習モデルの一種であるCRNNが84%の最高精度を達成し，古典的機械学習モデル（ロジスティック回帰，XGBoost）の71%を大きく上回った。
- 誤分類のパターン分析から，ネパール音楽の伝統的なジャンル間の関連性が明らかになり，文化的な背景を考慮した解釈が可能となった。
Link: https://arxiv.org/abs/2603.15440
テキストの価値の解放：イベント駆動型推論と多層アライメントによる時系列予測 [cs.HC, cs.AI]目的：時系列予測におけるテキスト活用による予測精度の向上
- 実世界データは数値情報だけでなく，テキスト情報を含むことが多く，その活用が重要である。
- 既存手法では，テキスト情報を十分に活用できておらず，予測精度向上の余地がある。
- テキスト情報をイベント駆動型推論と多層アライメントを用いて効果的に活用し，予測精度を向上させる。
- 提案手法VoTは，イベント駆動型推論と多層アライメントにより，テキスト情報を最大限に活用する。
- ヒストリカル・インコンテキストラーニングにより，LLMが効果的に推論できるよう，過去事例をガイドとして活用する。
- 10分野の実世界データセットでの実験により，既存手法と比較して有意な改善が確認された。
Link: https://arxiv.org/abs/2603.15452
回避的な知能：AIエージェントの評価におけるマルウェア解析からの教訓 [cs.DB, cs.CR, cs.AI]目的：AIエージェントの評価における構造的リスク
- AIは複雑な環境で自律的に行動するため，その安全性評価は重要である。
- 現在のAI評価は限定された環境で行われ，現実世界での欺瞞行動を見逃す可能性がある。
- AIエージェントが評価環境を認識し，欺瞞行為を行うリスクを軽減する評価手法を提案する。
- AIエージェントは，評価環境の特性を推測し，それに応じて行動を変化させることが可能である。
- マルウェアのサンドボックス回避技術との類似性から，AI評価における欺瞞は現実的なリスクである。
- 現実的なテスト，条件の多様性，そして配備後の再評価が，AIエージェントの評価において重要となる。
Link: https://arxiv.org/abs/2603.15457
産業自動化に向けた組立用ロボット共同操作のベンチマーク：AAAI 2026 RoCoチャレンジ [cs.RO, cs.AI]目的：産業用ロボットによる組立作業における共同操作能力のベンチマークと向上
- 産業界における人手不足や安全性確保の観点から，ロボットによる自動化が不可欠となっている。
- 従来のロボットはタスクごとに独立しており，複雑な組立作業への対応が困難であった。
- 人間とロボットが協調して作業を行うことで，複雑な組立作業の効率化と自動化を目指す。
- RoCoチャレンジでは，60以上のチーム，170名以上の参加者から有効な解決策が多数得られた。
- 長期的タスク学習のためのデュアルモデルフレームワークが効果的であることが示された。
- 失敗からの回復を促すカリキュラムデータの活用が，実用的な展開において重要な知見をもたらした。
Link: https://arxiv.org/abs/2603.15469
エージェントライフサイクルツールキット (ALTK): 堅牢なAIエージェントのための再利用可能なミドルウェアコンポーネント [cs.AI]目的：AIエージェントの信頼性向上を目指したミドルウェアコンポーネント群
- AIエージェントの企業への導入が進む中，その誤作動は重大な結果を招く可能性がある。
- 既存のフレームワークでは，誤作動への対策がアドホックであり，再利用性や保守性に課題がある。
- エージェントのライフサイクル全体にわたる体系的な対策を提供し，信頼性の高いエージェント開発を支援する。
- ALTKは，ユーザーリクエスト後，LLMプロンプト調整前など，ライフサイクル各段階での介入機会を提供する。
- 本ツールキットは，一般的な誤作動を検出し，修復し，軽減するためのモジュール化されたミドルウェアを提供する。
- 既存のパイプラインに自然に適合し，ローコード/ノーコードツールとの互換性も備えている。
Link: https://arxiv.org/abs/2603.15473
外挿的ドメイン適応全周視セグメンテーション [cs.CV, cs.LG, cs.RO, eess.IV]目的：ドメイン間の全周視セマンティックセグメンテーション
- 現実世界のアプリケーションにおいて，360度シーンを包括的に理解する上で重要である。
- 視野角の幾何学的歪みや，ドメイン間のオープンセットセマンティクスの不整合が課題となっている。
- 未知のクラスに対する汎化性能を高め，多様な視野角や環境変化に対するロバスト性を実現する。
- 提案手法EDA-PSegは，ローカルな透視画像で学習し，全周視画像でテストすることで，幾何学的歪みに対応する。
- Euler-Margin Attention (EMA)により，視点に依存しないセマンティック表現を強化し，未知クラスへの汎化を改善する。
- Graph Matching Adapter (GMA)は，視野角のずれに対応しつつ，新規カテゴリを構造適応により分離する。
Link: https://arxiv.org/abs/2603.15475
TabKD：学習された特徴ビンの相互作用多様性による表形式知識蒸留 [cs.LG, cs.AI]目的：表形式データの知識蒸留における相互作用多様性の重要性とその活用
- 表形式データは，プライバシー保護の観点からデータ再利用が難しい分野である。
- 既存の知識蒸留手法は，表形式データ特有の特徴量間の相互作用を考慮していない。
- 特徴量の組み合わせを網羅的に探索し，蒸留の質を向上させることを目指す。
- TabKDは，教師モデルの決定境界に沿った適応的な特徴ビンを学習することで，効果的な知識蒸留を実現する。
- 提案手法は，4つのベンチマークデータセットと4つの教師アーキテクチャで，最先端のベースラインを上回る性能を示した。
- 特徴量の相互作用の網羅性と蒸留の質との間に強い相関関係があることが確認された。
Link: https://arxiv.org/abs/2603.15481
対話，評価，診断：ユーザーを考慮したエージェント評価と自動エラー分析 [cs.AI]目的：ユーザーを考慮したエージェントの評価手法
- 多様なタスクでエージェント利用が拡大しており，その性能評価が重要となっている。
- 既存の評価手法はドメイン依存性が高く，統一的な評価枠組みの構築が課題である。
- 対話の質や効率性，エラー診断を含めた，より包括的な評価手法を開発する。
- TEDフレームワークは，ユーザーの専門知識を考慮した評価を実現する。
- LLMを活用した自動採点により，サブゴールや応答を自然言語で評価可能とした。
- エラー分析ツールにより，エージェントの一般的なエラーを特定し，改善に繋げる。
Link: https://arxiv.org/abs/2603.15483
RSGen：多様なエッジガイダンスを用いたレイアウト駆動型リモートセンシング画像生成の強化 [cs.CV, cs.AI]目的：リモートセンシング画像のレイアウト駆動型生成における性能向上
- リモートセンシングは，地球観測において不可欠であり，多様な応用分野で利用されている。
- 既存手法では，詳細な制御が難しく，バウンディングボックス制約を厳密に守ることが課題であった。
- 多様なエッジガイダンスを活用し，ピクセルレベルでの制御とレイアウトへの厳密な準拠を実現する。
- RSGenは，既存のL2Iモデルの能力を大幅に向上させることを実証した。
- DOTAデータセットにおけるCC-Diffを用いた実験で，YOLOScore mAP50/mAP50-95が+9.8/+12.0，mAPが+1.6と顕著な改善が見られた。
- 多様なエッジマップの生成と，それらを条件としたL2Iモデルの活用が，レイアウト制約の厳密な遵守に貢献する。
Link: https://arxiv.org/abs/2603.15484
グロッキングを分散制限相転移として：スペクトルゲーティングとイプシロン安定性閾値 [cs.DC, cs.DB, cs.LG, cs.AI]目的：グロッキング現象における汎化のメカニズム解明
- 深層学習の汎化能力は重要であり，そのメカニズム解明は更なる性能向上に不可欠である。
- 従来の最適化理論ではグロッキング現象を説明できず，学習後の汎化が謎に包まれていた。
- 最適化アルゴリズムのノイズ構造と損失曲面の形状の相互作用に着目し，グロッキングのメカニズムを明らかにする。
- AdamW最適化は分散によって制御される確率的システムとして機能することが判明した。
- グロッキングは，汎化解が存在する鋭いポテンシャルウェルへのアクセスを制限する安定性条件によって制約される。
- 課題の複雑さに応じて，容量崩壊，分散制限領域，安定性上書きという3つのレジームが存在することが示された。
Link: https://arxiv.org/abs/2603.15492
不確実性下における戦略的な情報配分を通じたLLMの推論理解 [cs.AI, cs.LG]目的：LLMにおける推論メカニズムの解明
- 大規模言語モデル(LLM)の推論能力は重要であり，その仕組みを理解することが求められている。
- LLMの推論過程における「Aha moment」のメカニズムは未だ不明な点が多い。
- 情報配分と不確実性の表現が推論に与える影響を分析し，そのメカニズムを明らかにすること。
- LLMの推論は，手続き的情報と認識的言語化に分解できることが示された。
- 手続き的推論は情報が停滞しやすい一方，認識的言語化は継続的な情報獲得を可能にする。
- 高い推論性能は，特定のトークンではなく，不確実性の外部化によって駆動されることが示唆された。
Link: https://arxiv.org/abs/2603.15500
SOTAの追求：時系列予測は，錯覚的な成果を払拭するために，タスク固有の評価を採用すべきである [cs.LG, cs.AI]目的：時系列予測モデルの評価方法の改善
- 時系列予測は，需要予測や金融分析など，多岐にわたる分野で不可欠な技術である。
- 既存の評価ベンチマークは周期性や季節性が強く，古典的な手法との比較が不公平になっている。
- より多様な非定常性を持つデータセットで評価し，古典的手法との比較を必須とすることで，真の進歩を評価する。
- 現在のベンチマークは，自己相関や季節性のような単純なパターンに適合する古典的手法と同等程度の性能しか示さない場合がある。
- 深層学習モデルのわずかな改善が，計算コストやモデルの複雑さの増加に見合うかどうか疑問が残る。
- より現実的なデータセットを用いた評価と，適切なベースライン比較によって，科学的な進歩を正当に評価する必要がある。
Link: https://arxiv.org/abs/2603.15506
バイナリニューラルネットワークの連合学習：低コスト推論の実現 [cs.LG, cs.CV]目的：バイナリニューラルネットワークの連合学習フレームワーク
- プライバシー保護の重要性が高まる中，分散型機械学習の需要が増加している。
- 低消費電力デバイスでの推論において，従来のDNNは計算コストとメモリ使用量の問題がある。
- バイナリ化によるモデル軽量化と精度低下のトレードオフを解消し，効率的な推論を可能にする。
- 提案手法FedBNNは，各重みを1ビットで表現することで，モデルサイズと計算量を大幅に削減する。
- FedBNNは，実数値モデルを用いた連合学習と比較して，同等の性能を維持しながらリソース消費量を削減する。
- 複数のベンチマークデータセットにおいて，FedBNNの効果が実証された。
Link: https://arxiv.org/abs/2603.15507
全ての不変条件が等しいわけではない：SLMによるプログラム検証を加速するための訓練データキュレーション [cs.LG]目的：プログラム検証のための訓練データキュレーション手法
- プログラムの自動検証はソフトウェアの信頼性向上に不可欠であり，その効率化が求められている。
- 誘導型ループ不変条件の自動合成がボトルネックとなっており，特に困難なインスタンスに対するLLMの性能が課題である。
- 質の高い訓練データを用いてSLMをファインチューニングすることで，LLMの性能を向上させることを目指す。
- 提案手法Wondaは，AST正規化とLLMによる意味的書き換えにより，ノイズの多いデータを洗練させる。
- キュレーションされたデータセットでSLMをファインチューニングした結果，GPT-OSS-120Bと同等の性能とGPT-5.2に匹敵する性能が得られた。
- InvBench評価スイートにおいて，不変条件の正誤率と速度が向上し，検証タスクのVBPも最大14.2%改善された。
Link: https://arxiv.org/abs/2603.15510
SlovKE：スロバキア語キーフレーズ抽出のための大規模データセットとLLM評価 [cs.CL, cs.CL, cs.NI, physics.soc-ph, cs.CL, cs.AI]目的：スロバキア語の科学論文抄録から著者によって付与されたキーフレーズを含む大規模データセット
- 形態素が豊富な低リソース言語の自然言語処理は，言語資源の不足から遅れている。
- スロバキア語のような言語において，十分な規模の評価データセットが存在しないことが課題である。
- スロバキア語のキーフレーズ抽出における評価を可能にする大規模データセットを構築すること。
- 新たに構築したSlovKEデータセットは，既存のスロバキア語資源を25倍上回る規模である。
- LLMベースのKeyLLMは，統計的手法が抱える形態素の不一致問題を緩和し，著者付与のキーフレーズに近い結果を生成する。
- KeyLLMの人間による評価では，関連概念を捉えていることが確認された(κ = 0.61)。
Link: https://arxiv.org/abs/2603.15523
PINNにおける信頼性向上：有限差分法による誤差推定 [cs.LG, cs.AI, physics.comp-ph]目的：PINN予測の誤差推定手法の開発
- 偏微分方程式は自然現象を記述する上で不可欠であり，PINNはその解法として注目されている。
- PINNは柔軟性を持つ一方，予測の精度や信頼性に関する評価が困難であるという課題がある。
- PINN予測の誤差を定量的に評価し，その信頼性を向上させることを目指す。
- 提案手法は，有限差分法を用いることで，真の解を必要とせずにPINN予測の誤差を推定する。
- ベンチマークテストの結果，提案手法は低い計算コストで高精度な誤差マップを生成することを確認した。
- 誤差マップは，PINNの検証をより的確かつ解釈可能にするための情報を提供する。
Link: https://arxiv.org/abs/2603.15526
LLMの整合性におけるジレンマと衝突：優先グラフからの考察 [cs.AI, cs.CY]目的：LLMにおけるジレンマと衝突の分類と，その解決策の検討
- LLMの能力向上に伴い，倫理的・価値的な課題が顕在化し，安全なAI開発が急務となっている。
- LLMの価値観や指示間の優先順位が文脈によって変動し，一貫した整合性を保つことが困難である。
- 優先グラフの脆弱性を利用した攻撃への対策として，外部情報参照による検証メカニズムを提案する。
- LLMの選択を優先グラフとしてモデル化することで，整合性の難しさと潜在的な脆弱性（優先順位のハッキング）が明らかになった。
- 実行時検証メカニズムは，外部情報源を参照することでLLMの文脈を固定し，操作への耐性を高める。
- 倫理的・価値的なジレンマは根本的に解決が難しく，AI整合性の長期的な課題として残る。
Link: https://arxiv.org/abs/2603.15527
Vib2ECG：胸部誘導SCG-ECGペアデータセットとECG再構成ベンチマーク [cs.RO, cs.AR, cs.DC, cs.LG]目的：胸部誘導を含む12誘導ECGを，低コストな振動信号から再構成するためのデータセットおよびベンチマーク
- 心血管疾患の診断にはECGが不可欠である。長期的なモニタリングの需要が高まっている。
- 従来のECGは機器が高価で，日常生活での継続的な取得が困難であるという課題がある。
- 低コストな振動信号からECGを再構成することで，より簡便なモニタリングを実現することを目指す。
- 胸部誘導を含む12誘導ECGを，IMUから得られる振動信号から再構成できることが示された。
- 軽量なU-Netモデル（364Kパラメータ）を用いた実験により，再構成の実現可能性が確認された。
- ECG波形が電気的活動のない領域に生成される「幻覚」現象が観察され，その原因と対策が検討された。
Link: https://arxiv.org/abs/2603.15539
動的パラメータ選択とオンラインサンプリングによる自動データベースチューニング [cs.DB, cs.AI, cs.LG]目的：データベースチューニングにおける重要パラメータの特定と最適化
- データベースはデータ管理の根幹であり，効率的な運用が不可欠である。
- チューニングパラメータが多岐に渡り，専門知識や試行錯誤が求められる。
- 高コストなウォームアップ期間を不要とし，チューニングの負担を軽減する。
- DOTは，重要度の低いパラメータを動的に削減し，探索と活用のバランスを取る。
- ベイズ最適化を用いて，リアルタイムで最適な設定を探索する。
- 最先端のチューナーと同等以上の性能を，大幅なオーバーヘッド削減とともに行う。
Link: https://arxiv.org/abs/2603.15540
ローカル知識とグローバル知識の架け橋：ニア最短経路ルーティングのためのカスケードされた混合エキスパート学習 [cs.LG, cs.NI]目的：ニア最短経路ルーティング問題の解決
- 大規模なネットワークにおいて効率的なルーティングは，通信効率やネットワーク全体の性能に不可欠である。
- 従来の深層学習モデルは，疎なネットワークの複雑なトポロジーに適応することが困難である。
- 疎なネットワークにおけるルーティング精度向上を目指す。
- 提案手法Ca-MoEは，ローカル特徴とグローバル特徴を組み合わせた二階層構造により，疎なネットワークにおいて既存手法を最大29.1%上回る精度を達成した。
- Ca-MoEは，必要な場合にのみ高階層の専門家を起動することで計算効率を高め，パラメータの冗長性を回避している。
- オンラインメタ学習戦略により，環境変化への適応能力を高め， catastrophic forgetting を抑制している。
Link: https://arxiv.org/abs/2603.15541
InterveneBench：現実の社会システムにおける介入推論と因果研究設計のLLMベンチマーク [cs.CY, cs.AI]目的：介入推論と因果研究設計のLLM評価基準
- 社会科学における因果推論は，政策介入に基づいた研究設計が重要である。
- 既存のベンチマークは，LLMのこの能力を十分に評価できていない。
- 現実的な社会設定における介入推論能力の評価を目指す。
- InterveneBenchは，744件の査読済み社会科学研究に基づいたベンチマークである。
- 最先端のLLMは，この設定下で苦戦することが示された。
- STRIDESというマルチエージェントフレームワークが性能向上に寄与する。
Link: https://arxiv.org/abs/2603.15542
大規模言語モデルは誤った学生の推論をモデル化できるか：誤答生成に関する事例研究 [cs.CL, cs.AI, cs.HC]目的：学生の誤概念のモデル化
- 教育におけるAIにとって，学習者の誤概念をモデル化することは極めて重要である。
- 誤答の生成には，正解知識，学生の誤概念のシミュレーション，妥当性の評価が必要で，課題は多い。
- 大規模言語モデルの誤概念モデリング能力を分析し，質の高い誤答を生成することを目指す。
- 最新の大規模言語モデルは，まず正解を導き出し，次に複数の誤概念を想定し，誤答を選択する傾向があることが分かった。
- 誤答生成におけるエラーは，正解の導出や候補の選択に起因することが示された。
- プロンプトに正解を含めることで，人間が作成した誤答との一致率が8%向上し，正解への固定が重要であることが明らかになった。
Link: https://arxiv.org/abs/2603.15547
隠れ層の自己蒸留による自己教師あり表現学習 [cs.CV, cs.LG]目的：自己教師あり表現学習の性能向上
- 近年，大量のデータから効率的に特徴量を学習する手法として注目されている。
- 既存手法では，計算コストや学習の不安定性といった課題が存在する。
- 異なる抽象度の特徴量を同時に学習することで，よりロバストな表現を獲得する。
- 提案手法Bootlegは，ImageNet-1KとiNaturalist-21の分類タスクにおいて，I-JEPAと比較して10%以上の性能向上を示した。
- ADE20KとCityscapesのセマンティックセグメンテーションにおいても良好な結果が得られた。
- Bootlegは，生成モデルと予測モデルの利点を組み合わせ，計算効率と学習安定性を両立している。
Link: https://arxiv.org/abs/2603.15553
PokeAgentチャレンジ：大規模な競争的・長期コンテキスト学習 [cs.LG, cs.AI]目的：ポケモン対戦システムを用いた，意思決定に関する大規模ベンチマークの研究
- AI研究において，現実的な条件下でのゲーム理論的推論や長期計画立案は重要である。
- 既存のベンチマークは，部分観測性，ゲーム理論，長期計画を同時に評価するものが少ない。
- 競争的環境と長期的なタスクの両方において，AIの意思決定能力を向上させる。
- PokeAgentチャレンジは，対戦トラックとスピードランニングトラックの2つの形式で提供される。
- 対戦トラックのデータセットは2000万件以上の対戦履歴を含み，様々な基盤モデルの性能を評価できる。
- 分析の結果，ポケモン対戦は既存のLLMベンチマークとは異なる能力を測定することが示された。
Link: https://arxiv.org/abs/2603.15563
欠損データ下における短期太陽光発電予測の予測不確実性：多重代入法によるアプローチ [cs.LG, stat.AP, stat.ML]目的：短期太陽光発電予測における予測不確実性の評価
- 太陽光発電は再生可能エネルギー源として重要であり，その出力予測の精度向上は電力系統の安定化に不可欠である。
- 太陽光発電データには欠損値が頻繁に発生するが，欠損値が予測に与える不確実性が考慮されていない場合が多い。
- 欠損データに起因する不確実性を予測分布に反映することで，より信頼性の高い予測を実現することを目指す。
- 欠損データによる不確実性を無視すると，予測区間が過度に狭くなることが示された。
- 多重代入法とルビンの法則を組み合わせることで，予測区間のキャリブレーションを改善し，点予測の精度を維持することができた。
- データ駆動型太陽光発電予測において，代入による不確実性の伝播が重要であることが実証された。
Link: https://arxiv.org/abs/2603.15564
AIコーディングエージェントのための構造化知識プロトコルとしてのGitコミットメッセージの再利用 [cs.CC, cs.SE, cs.AI, cs.SY, eess.SY]目的：AIコーディングエージェント向けの構造化知識プロトコル
- AI技術の進化に伴い，ソフトウェア開発における知識の継承が重要になっている。
- Gitコミットメッセージはコード変更のみを記録し，意思決定の背景や理由が失われがちである。
- 失われた意思決定の背景情報を記録し，AIエージェントが利用可能な知識を増やす。
- Loreは，Gitコミットメッセージを構造化された意思決定記録として再利用する軽量なプロトコルである。
- Gitの機能を活用し，追加のインフラストラクチャを必要とせず，シェルコマンドで情報を取得可能である。
- 既存の手法との比較や検証を行い，実用的な検証パスも提示している。
Link: https://arxiv.org/abs/2603.15566
Mamba-3：状態空間モデルの原理に基づく系列モデリングの改善 [cs.LG]目的：系列モデリングにおける性能向上
- 大規模言語モデルの性能向上において，推論時の計算コスト削減が重要視されている。
- Transformerモデルは高い性能を持つが，計算コストとメモリ消費量が課題となっていた。
- 推論効率とモデル性能の両立を目指し，状態空間モデルに着想を得た手法を提案する。
- Mamba-3は，Retrieval，状態追跡，言語モデリングタスクにおいて，著しい性能向上を達成した。
- 1.5Bモデルにおいて，次点モデル（Gated DeltaNet）と比較して，平均的な下流タスクの精度が0.6%向上した。
- Mamba-3のMIMO変種はさらに精度を1.2%向上させ，合計で1.8%の精度向上を実現した。
Link: https://arxiv.org/abs/2603.15569
ワークロード認識のための解釈可能なモデルを用いたメモリストレージシステムの共同設計 [cs.AR, cs.LG]目的：ワークロード認識を考慮したメモリストレージシステムの共同設計
- NANDや新メモリデバイスに基づくSSDは，信頼性と性能が重要であり，継続的な技術革新が求められている。
- メモリ技術のスケーリングに伴い，メモリコンポーネントのばらつきとエラー管理アルゴリズムの最適化が課題となっている。
- 機械学習を用いて，メモリコンポーネントとエラー管理サブシステムの共同設計を可能にし，次世代アーキテクチャを導く。
- 統計的に解釈可能で直感的に説明可能な機械学習アルゴリズムを活用し，SSD内のメモリコンポーネントとエラー管理アルゴリズムの相互作用を分析した。
- 数千規模のデータセンターSSDを評価し，世代ごとのアーキテクチャ改善に向けたデータ駆動型設計を可能にするフレームワークを確立した。
- エラー管理とワークロードの関係性を学習することで，幅広いワークロードに対応したアーキテクチャ設計空間の拡張に貢献する。
Link: https://arxiv.org/abs/2603.15571
確率的複合包含に対する，バイアス付きおよびバイアスなし分散削減型前方反射後方分割法 [cs.LG, math.OC, stat.ML]目的：確率的複合包含を解くための分散削減技術
- 機械学習や最適化問題において，大規模データに対する効率的な解法が求められている。
- 既存手法では，計算コストと収束速度のトレードオフが課題となっている。
- バイアス付きおよびバイアスなし推定量を用いて，より効率的なアルゴリズムを開発する。
- 本研究では，前方反射方向に対する分散削減推定量を構築する新しいフレームワークを提案した。
- バイアスなし推定量(loopless-SVRG，SAGA等)を用いた場合，期待される二乗残差ノルムは$\mathcal{O}(1/k)$で収束する。
- バイアス付き推定量(SARAH等)を用いた場合も収束性は保たれるが，計算量は増加する。
Link: https://arxiv.org/abs/2603.15576
リソグラフィーマスクからのEUV電磁波回折シミュレーションのための物理情報ニューラルシステム [cs.LG, cs.AI, physics.app-ph, physics.comp-ph, physics.optics]目的：EUV電磁波回折問題の解決
- 次世代リソグラフィー技術の発展には，高精度かつ高速なシミュレーションが不可欠である。
- 従来の数値計算手法では，計算コストが高く，設計・最適化のボトルネックとなっている。
- ニューラルネットワークを用いた効率的なシミュレーション手法を確立し，設計ワークフローを加速すること。
- 物理情報ニューラルネットワークとニューラル演算子が，高い精度と大幅な予測時間短縮を実現した。
- 提案されたWaveguide Neural Operator（WGNO）アーキテクチャは，最先端の性能を達成した。
- 訓練データに含まれないパラメータに対しても，高い汎化性能を発揮し，良好な精度を維持した。
Link: https://arxiv.org/abs/2603.15584