arXiv雑要約

AI - 2026/05/08 公開

部分的証拠ベンチ：エージェントシステムにおける権限制限された証拠のベンチマーク [cs.AR, cs.AI, cs.CC, cs.ET]目的：権限制限された証拠環境下におけるエージェントシステムの性能評価
- 企業におけるエージェント活用が進み，情報アクセス制御の重要性が高まっている。
- アクセス権限外の証拠を無視したまま，完全な回答を生成してしまう問題が存在する。
- 権限制限された環境下でのエージェントシステムの安全性と信頼性を定量的に評価する。
- 部分的証拠ベンチは，デューデリジェンス，コンプライアンス監査，セキュリティインシデント対応の3つのシナリオで性能を評価する。
- サイレントフィルタリングは全シナリオで危険であり，エラーを報告する仕組みが安全性確保に不可欠である。
- モデルによって完全性の過大申告，保守的な過小申告，または有用な形式での不完全性報告に差が見られた。
Link: https://arxiv.org/abs/2605.05379
BALAR：積極的推論のためのベイジアンエージェントループ [cs.AI, cs.CL, cs.LG]目的：積極的推論のためのベイジアンエージェントループ
- 大規模言語モデルの対話型応用が拡大する中で，効果的な情報収集が重要となる。
- 既存システムは対話的応答に偏り，必要な情報の特定や質問戦略に課題がある。
- 欠損情報の特定と適切な質問選択を可能にする枠組みを提案し，推論能力を向上させる。
- BALARは，ユーザーとの構造化された多段階対話を実現し，ファインチューニングなしで高い性能を示す。
- AR-Bench-DC，AR-Bench-SP，iCraft-MDの3つのベンチマークで既存手法を大きく上回り，精度の大幅な向上を達成した。
- 特に，AR-Bench-DCで14.6％，AR-Bench-SPで38.5％，iCraft-MDで30.5％の精度向上を示した。
Link: https://arxiv.org/abs/2605.05386
線形制約下での条件付き拡散：ランジェバン混合と情報理論的保証 [cs.LG, cs.IT, math.IT]目的：線形逆問題における事前学習済み拡散モデルを用いたゼロショット条件付きサンプリング
- 画像処理や信号処理において，不完全な観測からの信号復元は重要な課題である。
- 既存手法では，観測データの一貫性を確保するのみで，条件付き分布の偏りを抑制できていない。
- 観測データと未観測データの間の情報量に基づき，より正確な条件付きサンプリングを実現すること。
- スコア関数の正規-接線分解により，観測方向のスコアは測定によって決定され，接線方向のスコアが未知であることが示された。
- 接線方向のスコアを無条件のスコアで置換することによる誤差は，観測成分と未観測成分間の条件付き相互情報量によって上限されることが証明された。
- 提案手法である投影ランジェバン初期化とガイド付き逆拡散は，インペインティングおよび超解像度タスクにおいて既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2605.05387
マルチグラフにおけるスケーラブルな経路探索のための二段階学習分解 [cs.LG, cs.AI]目的：マルチグラフにおけるスケーラブルな経路探索手法
- 車両経路問題は物流効率化に不可欠であり，その解決は経済的にも社会的にも重要である。
- 既存のニューラルネットワーク手法は，単純なグラフ構造に限定され，複雑なマルチグラフへの適用が困難である。
- マルチグラフにおける経路探索のスケーラビリティ問題を解決し，実用的な効率性を実現する。
- 提案手法であるNEPFは，ノード置換段階とエッジ選択段階に分解することで，計算効率を向上させている。
- 実験の結果，NEPFは既存手法と同等以上の解質を達成しつつ，学習・推論速度が大幅に向上した。
- 六種類の車両経路問題バリアントにおいて，その有効性が確認された。
Link: https://arxiv.org/abs/2605.05389
クエリなし要約データセットからのクエリ重視要約データセットの生成 [cs.HC, cs.CL, cs.AI]目的：クエリ重視要約データセットの生成
- 要約研究において大規模データセットは不可欠であり，検索エンジンとの連携も重要である。
- 既存の要約データセットにはクエリ情報が含まれていない場合が多く，クエリ重視要約の研究を阻害している。
- クエリなしデータセットからクエリを自動生成し，クエリ重視要約タスクを支援することを試みる。
- 提案手法により生成されたクエリは，既存のクエリとの類似性が確認された。
- 生成されたクエリを用いた要約は，オリジナルクエリを用いた要約と同等のROUGEスコアを達成した。
- 本研究は，クエリなしデータセットからクエリ重視要約データセットを生成する有効性を示した。
Link: https://arxiv.org/abs/2605.05392
状態依存事象を持つ微分代数方程式の微分可能なパラメータ最適化 [cs.LG, cs.MS]目的：状態依存事象を持つ微分代数方程式における微分可能なパラメータ最適化手法
- 制御工学，ロボティクス等において，複雑なシステムのモデル化と制御に不可欠な技術である。
- 代数変数や事象による不連続性のため，勾配ベースのパラメータ学習が困難である。
- 微分代数方程式の動的な挙動を考慮した，効率的なパラメータ最適化手法を確立すること。
- 2つの勾配計算戦略を提案し，半陰解微分代数方程式におけるパラメータ最適化を可能とした。
- 自動微分法と，イベント分割残差システムに基づく離散随伴法を比較検討し，それぞれの特徴を明らかにした。
- 提示された手法は，固定されたイベント順序と横断的なガード交差において有効性を持つことが確認された。
Link: https://arxiv.org/abs/2605.05395
エージェント駆動型コーディングのための準備：意図的な準備を文脈エンジニアリング手法として [cs.SE, cs.AI, cs.HC]目的：エージェント駆動型コーディングにおける準備段階の確立
- AI技術の進化によりソフトウェア開発の効率化が期待される一方で，その効果を最大限に引き出すためには適切な開発手法が不可欠である。
- 現状のAIコーディングでは，準備不足が原因で修正・再設計に時間がかかり，開発効率を損なう問題が存在する。
- 本研究は，AIエージェントがより質の高いコードを生成するための準備段階の重要性を示し，開発効率の向上を目指す。
- 料理における「ミーズ・アン・プラス」の概念を応用し，文脈の整理，共同仕様の作成，タスク分解という３段階の準備手法を提案した。
- ハッカソンでの実験結果から，約2時間の準備によって，AIエージェントによるフルスタック教育プラットフォームの並行実装が可能になった。
- 「文脈流暢性」という新たな開発者のスキルを提唱し，逆向き設計や暗黙知の外部化といった既存のフレームワークとの関連性を示唆した。
Link: https://arxiv.org/abs/2605.05400
都市デザインのためのインテリジェントCCTV：交差点におけるソフトインフラのAIベース分析 [cs.HC, cs.AI, cs.CV, eess.IV]目的：都市部の交通におけるソフトインフラの効果評価
- 都市交通の安全性向上は，住民の生活の質を大きく左右するため，重要な課題である。
- 交通政策の効果測定には，時間とコストがかかることが課題である。
- AIを活用し，既存のCCTVを用いて低コストで効果測定を行う。
- ソフトインフラの導入により，信号化されていない交差点では平均速度と85パーセンタイル速度が最大18.75%と16.56%低下した。
- 信号化された交差点でも同様の速度低下が見られ，交通量の減少も確認された。
- AIを活用した交通データ分析は，迅速かつ低コストな交通政策評価に有用である。
Link: https://arxiv.org/abs/2605.05402
助け合いが媚びへりとなる時：大規模言語モデルにおける社会的な協調と認識的誠実さの境界の失敗としての媚びへり [cs.AI]目的：大規模言語モデルにおける媚びへりの現象の明確化
- 言語モデルの社会的な協調性は重要だが，その過程で認識的誠実さが損なわれる可能性がある。
- 既存の研究では，媚びへりを表面的な行動として捉え，その根底にある認識的誠実さの侵害を十分に特定できていない。
- 本研究は，独立した認識的判断を置き換える協調行動として，媚びへりの境界を明確にすることを目的とする。
- 本稿では，媚びへりを信念，好み，自己概念を示すユーザの合図に対する言語モデルの協調行動のずれとして捉える枠組みを提案する。
- このずれが認識的正確性，独立した推論，または適切な修正を損なう場合に，媚びへりが発生すると定義する。
- 媚びへりの評価において境界を意識した評価，構造化された評価基準，そして緩和策の必要性を主張する。
Link: https://arxiv.org/abs/2605.05403
PRISM：シーケンシャルな意思決定のための知覚と推論の相互作用 [cs.AI]目的：LLMベースの具現化エージェントにおける知覚と推論の統合
- 複雑なマルチモーダル環境におけるLLMベースの具現化エージェントの応用が期待されている。
- 既存のVision-Language Modelは，タスクに重要な情報を無視する傾向がある。
- 視覚情報とLLMの協調的な相互作用を通して，タスク遂行能力の向上を目指す。
- PRISMは，画像ベースの最先端モデルを大幅に上回る性能を示すことが確認された。
- 動的な質問応答パイプラインにより，体系的かつ実質的な性能向上が実現した。
- PRISMは完全に自動化されており，手動による質問や回答の作成は不要である。
Link: https://arxiv.org/abs/2605.05407
金融文書質疑応答のためのエージェントによる検索拡張生成 [cs.AI, cs.CL]目的：金融文書に対する質疑応答における複雑な数値推論の精度向上
- 金融分析は，企業価値評価や投資判断に不可欠であり，高度な情報処理能力が求められる。
- 既存の検索拡張生成モデルは，金融文書特有の複雑な数値推論に対応できていない。
- 金融文書の特性に合わせた検索と推論により，質疑応答の精度と効率を向上させる。
- FinAgent-RAGは，反復的な検索と推論ループ，そして自己検証を通じて，金融数値推論の精度を向上させる。
- コントラスティブ金融検索器，プログラム・オブ・ソート推論モジュール，適応戦略ルーターという3つの革新的な要素を組み込むことで，高い性能を実現。
- FinQA，ConvFinQA，TAT-QAの3つのベンチマークデータセットにおいて，既存の最良ベースラインを5.62～9.32ポイント上回る実行精度を達成。
Link: https://arxiv.org/abs/2605.05409
LaTA：学部レベルSTEM科目のための，FERPA準拠したローカルLLM自動採点システム [cs.AI, cs.HC, physics.ed-ph]目的：学部レベルSTEM科目の自動採点
- 高等教育におけるSTEM教育の質向上は重要であり，採点業務の効率化は教員の負担軽減に繋がる。
- 既存のLLM採点システムは，外部APIへのデータ送信を伴い，プライバシーやデータセキュリティのリスクが懸念される。
- 本研究は，ローカル環境で動作し，プライバシーを保護しながら，効率的な自動採点を実現することを目指す。
- LaTAは，既存のLaTeX環境に容易に組み込むことが可能であり，追加のコストを最小限に抑えられる。
- ME373の授業において，LaTAは200人分の毎週の課題をMac Studio一台で採点し，採点エラー率は非常に低いことが確認された。
- LaTAを導入した学生は，中間試験と期末試験で従来の手法で採点された学生よりも高い成績を収め，学習に対する自信も向上した。
Link: https://arxiv.org/abs/2605.05410
反事実的推論によるロボットの創造的な道具利用 [cs.RO, cs.AI]目的：創造的なロボットの道具利用
- ロボットの自律的な問題解決能力向上は，様々な分野での応用が期待されるため重要である。
- 既存手法では，道具の本来の用途を超えた利用や，未知の道具への応用が困難である。
- 道具の因果関係を学習し，物理特性に基づいた道具選択と技能の転移を実現すること。
- 提案手法では，動力学モデルを用いたシミュレーション実験により，道具とタスク間の因果関係を特定する。
- 特徴量の提案と反事実的な道具生成により，因果関係の特定を可能にし，未知の道具への応用を支援する。
- 因果特性に基づいたキーポイントマッチングにより，道具利用技能の転移を促進し，より信頼性の高い道具選択を実現する。
Link: https://arxiv.org/abs/2605.05411
履歴からステートへ：LLMエージェントにおける定数コンテキストのスキル学習 [cs.AI]目的：LLMエージェントの反復的なワークフローにおけるスキル学習の枠組み
- LLMエージェントは，ブラウザやツール操作など多岐に渡るタスクに応用可能であり，パーソナルアシスタント実現への期待が高まっている。
- クラウドモデルは性能が高い反面，プライバシー侵害のリスクがあり，ローカルモデルはプライバシーは守れるが性能が低いという課題がある。
- コンテキストを重みに変換することで，プライバシーを保護しつつ，効率的なスキル学習を実現し，性能向上を目指す。
- 提案手法は，ALFWorld，WebShop，SciWorldにおいて，Qwen3-4B，Qwen3-8B，Llama-3.1-8Bで高い性能を示した。
- Qwen3-8Bを用いたSFT+RLによる学習では，ALFWorldで89.6%の未学習タスク成功率，WebShopで76.8%の成功率，SciWorldで66.4%の未学習タスク成功率を達成した。
- 既存手法と同等以上の性能を達成しつつ，プロンプトのトークン数を2～7倍削減することに成功し，手続き的なコンテキストを重みに移行できることを示した。
Link: https://arxiv.org/abs/2605.05413
大規模言語モデルの情報理論的敵対的学習 [cs.LG, cs.AI, cs.CR]目的：大規模言語モデルに対する敵対的プロンプトのロバスト性向上
- 大規模言語モデルの安全性と信頼性は，社会実装において不可欠である。
- 敵対的プロンプトに対する脆弱性が残り，有害な行動を引き起こす可能性がある。
- 敵対的例の再重み付けによるロバスト性の向上を目指す。
- WARDENは，敵対的例をf-divergence ambiguity setで動的に再重み付けする。
- 攻撃成功率を大幅に削減しつつ，モデルの有用性を維持する。
- 計算コストと有用性は，既存手法と同程度で，実用的なロバストアライメント手法となる。
Link: https://arxiv.org/abs/2605.05415
AI安全保障の地政学：地域LLMバイアスの因果分析 [cs.NI, cs.AI]目的：大規模言語モデルの地域ごとのバイアスの因果関係
- AIは世界的に普及しており，安全性の確保は不可欠である。特に，LLMの公平性は重要な課題となっている。
- 既存の公平性評価は観察データに基づき，データの毒性との相関関係を見落とす可能性がある。
- LLMの安全メカニズムにおけるバイアスの因果関係を明確にし，公平性評価の改善を目指す。
- 因果分析の結果，標準的な公平性指標はバイアスを過大評価する可能性が示された。
- 欧米モデルは特定のグループに対して拒否率が高い傾向があり，東洋モデルは地域特性への感受性が低い傾向があることが明らかになった。
- バイアスの存在は，AIの応用において無害な言説を制限する可能性を示唆している。
Link: https://arxiv.org/abs/2605.05427
条件付き生成圧縮センシングにおけるアクティブ学習 [cs.LG, cs.NA, math.NA]目的：画像復元における条件付き生成モデルの活用
- 信号処理において，限られた測定値から高精度な信号復元は重要な課題である。
- 従来の圧縮センシングでは，信号の構造を捉えるモデルの設計が困難であった。
- プロンプトを用いた条件付き生成モデルによる復元性能の向上を目指す。
- 事前学習済みの生成モデルの範囲を非線形モデルとして利用する生成圧縮センシングにおいて，プロンプトがサンプリング分布と復元モデルの両方に影響を与えることが示された。
- ReLUやLipschitz条件付き生成モデルに対して，プロンプトが一致する場合と不一致の場合で安定した復元境界が証明された。
- Stable Diffusionを用いた実験により，プロンプトがChristoffelサンプリング分布を意味的に変化させ，画像復元に影響を与えることが確認された。
Link: https://arxiv.org/abs/2605.05435
因果推論におけるモデル崩壊を防ぐための意味損失ファインチューニングアプローチ [cs.HC, cs.LG, cs.AI]目的：因果推論におけるモデル崩壊の防止
- 因果推論は，科学的発見や意思決定において重要な役割を果たす。
- Transformerモデルのファインチューニングは，しばしばモデル崩壊を引き起こす。
- 意味損失を考慮したファインチューニングにより，モデル崩壊を抑制し，安定した因果推論を実現する。
- 意味損失関数と動的lambdaスケジュールを導入することで，モデル崩壊を防止した。
- トランスティビティとd-分離タスクにおいて，それぞれ70.4%，68.6%の精度を達成した。
- 崩壊したベースラインと比較して，精度が42.7%向上し，構造的推論において高い精度を示した。
Link: https://arxiv.org/abs/2605.05438
マルチエージェントAIシステムにおける認可伝播：インフラとしてのアイデンティティガバナンス [cs.AI]目的：マルチエージェントAIシステムにおける認可伝播の問題と，そのためのアーキテクチャ要件
- AIエージェントの普及に伴い，データ取得，タスク委譲，結果合成における認可管理の重要性が増している。
- 既存のアクセス制御モデルは，エージェント間の動的な認可伝播を十分に扱えないという課題がある。
- 認可伝播の特性を捉え，継続的な評価と強制を可能とするインフラストラクチャの構築を目指す。
- 認可伝播をワークフローレベルの特性として形式化し，移行的委譲，集約推論，時間的有効性の3つのサブ問題を特定した。
- マルチエージェントAIシステムにおける認可アーキテクチャに対する7つの構造的要件を導出した。
- 実運用環境での実装証拠から，通常動作においても予測される失敗が発生することが示された。
Link: https://arxiv.org/abs/2605.05440
SLAM：言語モデルのための構造言語活性化マーキング [cs.CL, cs.AI]目的：言語モデルへのウォーターマーク埋め込み手法
- LLMの利用拡大に伴い，生成テキストの出所特定が重要課題となっている。
- 既存のウォーターマーク手法はテキスト品質を低下させるという問題がある。
- テキスト品質を損なわずに，高精度なウォーターマーク検出を可能とする。
- SLAMは，トークン頻度ではなく構造的な言語特徴にマーキングを埋め込むことで，検出精度100%を達成した。
- 既存手法と比較して，品質低下はわずか1-2ポイントであり，自然さと多様性は維持されている。
- 単語レベルの編集には強いが，構文を再構成する言い換えには脆弱という特徴がある。
Link: https://arxiv.org/abs/2605.05443
場所を失わずにプライバシーを保護する：空間RAGにおけるプライベート検索のパラダイム [cs.CR, cs.LG]目的：空間RAGシステムにおけるユーザーの場所プライバシー確保
- 位置情報技術の発展に伴い，プライバシー保護の重要性が増している。
- 従来の差分プライバシーは，位置情報の精度低下を招く可能性がある。
- 場所プライバシーを維持しつつ，RAGシステムの性能を維持すること。
- PASは，約370〜400mの敵対的場所誤差で，良好なプライバシー保護を達成した。
- ベースラインの検索性能の半分以上を維持し，ダウンストリームの生成品質も比較的堅牢であった。
- アンカー離散化による幾何学的バイアスが，プライバシーと有用性の非単調な関係を生み出すことが示された。
Link: https://arxiv.org/abs/2605.05459
交換相関密度汎関数における能動的発見 [cs.AI, physics.chem-ph]目的：交換相関密度汎関数の発見
- 密度汎関数理論は，物質の性質を予測する上で重要な役割を果たす。
- 従来の汎関数は人手で設計されており，体系的な改善が困難である。
- 大規模言語モデルを用いて，汎関数の自動設計を目指す。
- 本研究で開発されたシステムは，進化の歴史に基づいて汎関数の構造を変化させる。
- 最適化された結果，新たに発見された汎関数 SAFS26-a は，ωB97M-V よりも約9%性能が向上した。
- AIによる科学研究には，ベンチマークを不正に操作する可能性があり，専門知識に基づく制約が必要である。
Link: https://arxiv.org/abs/2605.05460
グラフ自己教師あり学習における現実世界のノイズへの頑健性：テキスト駆動型バイオメディカルグラフの事例研究 [cs.RO, cs.LG, cs.AI]目的：テキストから自動抽出されたグラフにおける項目のタイプ分類のための，グラフ自己教師あり学習手法の頑健性の評価
- グラフ構造データは様々な分野で活用され，その学習は重要性が増している。
- 既存の研究は，精度の高いグラフを前提としているが，現実のグラフにはノイズが含まれる。
- テキストから抽出されたグラフに存在するノイズが，学習に与える影響を明らかにすること。
- 関係性の再構築はノイズの影響を受けやすいが，明確なスキーマによって改善される。
- 特徴量の再構築は比較的頑健であり，クリーンなグラフと同等の性能を達成する。
- 双方向的な関係性メッセージパッシング設計は，ノイズの多いグラフに適していることが示された。
Link: https://arxiv.org/abs/2605.05463
AIの誤りの教育的活用：高次思考力の育成 [cs.DC, cs.CE, physics.comp-ph, cs.AR, cs.CY, cs.AI]目的：AIの誤りを活用した高次思考力育成戦略
- 教育現場でのAI活用は急速に進んでおり，その効果的な活用方法が重要視されている。
- AIの誤りは問題視されることが多いが，その潜在的な教育的価値が見過ごされている。
- AIの誤りを学習の機会として捉え，学生の批判的思考力やメタ認知能力を育成すること。
- AIの生成する誤りを，分析，評価，考察を促す「学習伴走者」として捉えることで，学生の学習効果を高めることが示された。
- データベース設計の授業において，AIの限界を意図的に利用することで，学生のメタ認知能力と学科の厳密性が向上した。
- AIとの構造的な対話が，学生のAIリテラシーと科目目達度の向上に貢献することが明らかになった。
Link: https://arxiv.org/abs/2605.05472
意図性は設計上の決定である：説明責任あるAIシステムのための機能的意図性の測定 [cs.AI]目的：説明責任あるAIシステムの機能的意図性の測定
- AIの自律性が高まる中で，AIの行動原理を理解し，説明責任を果たすことは重要である。
- AIシステムの意図性を判断する標準化された方法が存在しないため，ガバナンスと説明責任が困難である。
- 設計に内在する意図性の度合いを定量化し，適切な監視と自律性調整を可能にすること。
- 機能的意図性テスト(FIT)は，AIの意図性的な行動を5つの側面から定量化する多次元フレームワークである。
- FIT-Evalは，FITを用いてAIの意図性を評価するための構造化されたプロトコルである。
- 意図性のレベルを明確にすることで，AIシステムの自律性と説明責任のバランスを最適化できる。
Link: https://arxiv.org/abs/2605.05475
知識グラフ構築手法とグラフニューラルネットワークの評価用統一ベンチマーク [cs.LG, cs.AI, cs.CL]目的：知識グラフ構築手法およびグラフニューラルネットワークの性能評価
- テキストから自動構築された知識グラフは，現実世界での応用が増加している。
- 構築された知識グラフにはノイズや断片化，意味的不整合が存在し，性能低下の原因となる。
- 知識グラフの品質と学習モデルの影響を分離し，客観的な評価を可能にすること。
- 本ベンチマークは，ノイズを含むテキスト由来のグラフに対するGNNの性能と，グラフ構築手法の有効性を同時に評価する。
- バイオメディカルドメインの単一テキストコーパスから構築された2つの自動生成グラフと，専門家が作成した高品質な参照グラフを含む。
- 半教師ありノード分類を通じて，グラフ構築手法の比較とGNNのロバスト性の評価を可能とする評価フレームワークを提供する。
Link: https://arxiv.org/abs/2605.05476
LANTERN：大規模言語モデルを活用したニューロシンボリック転移学習と経験ゲート付き推論ネットワーク [cs.AI]目的：強化学習における転移学習の効率向上
- 強化学習の課題解決に，過去の知識を有効活用することが重要である。
- 従来のニューロシンボリック転移学習は，タスク自動装置の定義が手動であり，単一のソースタスクに限定される。
- 複数のソースからの知識を統合し，適応的な重み付けを行うことで，転移学習の汎化性能を高める。
- LANTERNは，自然言語によるタスク記述から決定性有限オートマトンを生成する。
- 複数ソースのポリシーを，タスク間の類似度に基づいた重み付けにより統合する。
- 実験結果から，LANTERNは既存手法と比較してサンプル効率を40-60%向上させることが示された。
Link: https://arxiv.org/abs/2605.05478
GRALIS：リースの表現を用いた線形帰属手法のための統一的なカノニカルフレームワーク [cs.LG, cs.AI, stat.ML]目的：深層ニューラルネットワークに対する主要なXAI帰属手法の理論的基盤の統一と比較可能性の確立
- 深層学習モデルの解釈可能性向上は，信頼性と安全性を高める上で不可欠である。
- 既存のXAI手法は理論的根拠が異なり，形式的な比較が困難であった。
- 帰属の理論的な表現を確立し，既存手法の共通基盤を提供すること。
- GRALISは，SHAP，IG，LIME，線形化されたGradCAMなどを包含する統一的なフレームワークを提供する。
- リース表現定理に基づき，帰属関数のカノニカル表現の存在と一意性を示す7つの定理を証明した。
- BreaKHisデータセットを用いた検証で，既存手法を上回る性能と整合性を示唆する結果が得られた。
Link: https://arxiv.org/abs/2605.05480
近似次の方策サンプリング：深層強化学習における保守的な目標方策更新の置換 [cs.LG]目的：強化学習における安全な方策改善手法
- 強化学習は，複雑な問題を自律的に解決可能にする技術であり，ロボティクスやゲームなど幅広い分野で重要視されている。
- 方策改善において，価値関数の精度が課題であり，特に更新された方策の行動分布下での精度が重要となる。
- 価値関数の学習データ分布を，次の方策の分布に近似することで，安全な方策更新を可能にすることを目指す。
- 提案手法であるANPSは，方策更新を制約するのではなく，学習データ分布を修正することで問題を解決する。
- SV-APIをPPOに適用したSV-PPOは，高次元の離散・連続制御ベンチマークにおいて，既存手法と同等またはそれ以上の性能を示す。
- より大きな目標方策更新を実行しつつ，安全性を保証する可能性が示された。
Link: https://arxiv.org/abs/2605.05481
FinRAG-12B：銀行における根拠に基づいた質問応答のための実運用検証済みのレシピ [cs.AI, cs.CL, cs.MA]目的：銀行における根拠に基づいた質問応答のためのドメイン特化型LLMの学習フレームワーク
- 金融業界では，高い正確性，規制遵守，検証可能な回答が求められ，LLMの導入が遅れている。
- LLMは幻覚を起こしやすく，根拠のない回答をする可能性があるため，金融分野への適用はリスクを伴う。
- 実運用環境下での制約を満たしつつ，回答の質，引用の根拠，適切な拒否応答を最適化すること。
- 提示されたフレームワークで学習された12Bモデルは，GPT-4.1を引用根拠の精度で上回り，データ効率も高い。
- 未回答例を22%組み込んだ学習により，誤った回答のリスクを大幅に低減し，適切な拒否応答率を12%に向上させた。
- 40以上の金融機関で展開された結果，クエリ解決率が7.1%向上し（p < 0.001），GPT-4.1と比較して応答速度が3～5倍，コストが20～50分の1に削減された。
Link: https://arxiv.org/abs/2605.05482
ReaComp：LLMの推論を記号的ソルバーに変換し，効率的なプログラム合成を実現する [cs.RO, cs.CL, cs.AI]目的：LLMの推論を記号的ソルバーに変換することによる，効率的なプログラム合成手法
- プログラム合成は，ソフトウェア開発の自動化に不可欠であり，生産性向上に貢献する。
- 既存のLLMは，複雑な問題に対して非効率的であり，信頼性も低いという課題がある。
- LLMの推論過程を再利用可能な記号的ソルバーに変換し，効率性と信頼性を向上させる。
- 提案手法は，PBEBench-Liteで91.3%，PBEBench-Hardで84.7%の精度を達成し，テスト時のLLM推論コストなしでLLMを上回った。
- また，LLM検索と組み合わせることで，PBEBench-Hardの精度を68.4%から85.8%に向上させ，トークン使用量を78%削減した。
- さらに，歴史言語学のタスクへのゼロショット転移も可能であり，80.1%の精度を達成，言語規則の復元にも貢献した。
Link: https://arxiv.org/abs/2605.05485
保存則に対するロバストな基盤モデル：再帰型 Vision Transformer を介したフラックスニューラル演算子への文脈注入 [cs.HC, cs.LG]目的：保存則を推論・求解するためのモデルの提案
- 物理現象のシミュレーションは科学技術の発展に不可欠であり，高精度かつ効率的な手法が求められている。
- 従来の数値シミュレーション手法は，支配方程式や係数への依存度が高く，柔軟性に欠ける場合がある。
- 支配方程式や係数にアクセスできない状況下でも，保存則を正確に予測・求解するモデルを構築すること。
- 提案手法は，既存の Flux NO のロバスト性，汎化能力，長期予測の利点を維持しつつ，性能を向上させる。
- 多様な保存システムにおいて信頼性の高い数値解が得られ，未知のフラックスに対しても有効であることが示された。
- 文脈に応じたニューラル演算子のパラメータ生成により，より柔軟で高精度なシミュレーションを実現する。
Link: https://arxiv.org/abs/2605.05488
大規模エージェント集団に対する平均場を用いた分散型ナッシュ均衡 [cs.LG]目的：大規模エージェント集団における分散型戦略の最適化
- AIの規模拡大に伴い，多数のエージェントを効率的に学習させる必要性が高まっている。
- 連合学習は計算・通信コストが大きく，エージェント数の増加に追随しにくいという課題がある。
- 平均場を用いた分散型戦略により，スケーラビリティを改善し，最適な分散型ポリシーを導出すること。
- 分散型ポリシーは，最悪のケースにおける後悔（弱体なエージェントのコスト）を最小化するように導出された。
- 大規模な集団では，この分散型ポリシーがスケーラブルでない集中型ポリシーに漸近的に収束することが証明された。
- オンライン重み付けメカニズムにより，予測の平均精度と最弱エージェントの性能が向上した。
Link: https://arxiv.org/abs/2605.05492
Transformerが学習する近道解が，逐次的構成的推論を阻害する [cs.LG]目的：Transformerモデルにおける逐次的学習における構成的推論能力の評価
- 人間の類推能力の根幹であり，継続的な学習に不可欠な，ドメイン横断的な共通性の活用が重要である。
- Transformerモデルが構成的推論を行えるか研究が進む一方，学習した表現を新たな経験にどう活かすかは不明だった。
- Transformerモデルが，近道解に陥り，汎化性能を損なう問題を明らかにし，改善策を探る。
- BERTは近道解を学習し，汎化性能を制限し，新たな経験への転移を妨げる。
- ALBERTは，Forループのような解法を学習し，より優れた逐次学習性能を示す。
- 経験間の構成を要する逐次学習設定では，BERTとALBERTともに性能が低下する。
Link: https://arxiv.org/abs/2605.05495
オンライン局所的適合予測 [cs.AR, cs.LG]目的：不確実性評価の妥当性保証
- 機械学習モデルの信頼性向上は重要であり，特に予測時の不確実性評価が不可欠である。
- 時系列データのような交換可能性を満たさない状況下では，既存の適合予測法は効率が悪い。
- 局所的な適合により，異質性に対応し，より狭い予測区間での妥当な長期的なカバレッジを実現する。
- 提案手法であるOLCPは，オンライン適応と共変量依存の局所化を組み合わせることで，既存手法よりも狭い予測区間を達成した。
- さらに開発したOLCP-Hedgeは，オンライン凸最適化を用いて帯域幅選択を行い，ロバスト性を向上させた。
- シミュレーションと実データ実験を通して，提案手法の有効性とカバレッジの保証が確認された。
Link: https://arxiv.org/abs/2605.05497
FoodCHA：詳細な食品分析のためのマルチモーダルLLMエージェント [cs.AI]目的：詳細な食品分析
- 食生活のモニタリングにおいて，食品認識は重要な役割を担う。
- 複雑な食品画像において，調理法などの詳細な属性の認識が困難である。
- 食品認識を階層的な意思決定プロセスとして再構築し，属性レベルの識別を改善する。
- FoodCHAは，カテゴリー認識においてFood-Llama-3.2-11Bを13.8%上回る性能を示した。
- サブカテゴリー認識において，Food-Llama-3.2-11Bを38.2%上回る精度を達成した。
- 調理法分類の精度は，Food-Llama-3.2-11Bと比較して153.2%の大幅な改善が見られた。
Link: https://arxiv.org/abs/2605.05499
経路勾配による非近視的な特徴獲得 [cs.LG, stat.ML]目的：特徴獲得の最適化
- 機械学習において，特徴量の取得コストが高い場合に，どの特徴量をいつ取得すべきかという問題は重要である。
- 既存手法では，短期的な報酬に偏った特徴獲得となり，最適な特徴量選択が困難である。
- 本研究では，長期的な視点を取り入れた特徴獲得手法を開発し，性能向上を目指す。
- 提案手法であるNM-PPGは，部分観測マルコフ決定過程（POMDP）の枠組みに基づいている。
- NM-PPGは，特徴獲得過程を連続的に緩和することで，勾配の分散を抑制し，非近視的な獲得ポリシーを最適化する。
- 実験の結果，NM-PPGは，既存の最先端手法と比較して優れた性能を示した。
Link: https://arxiv.org/abs/2605.05511
意味通信と待ち行列：クロスカスタ層における遅延とタスク忠実度の最適化 [cs.IT, cs.AI, cs.LG, cs.NI, eess.SP, math.IT]目的：意味的画像伝送における遅延とタスク忠実度最適化
- 無線通信において，効率的なスペクトル利用とタスク関連情報の伝達が重要である。
- 従来の通信は，チャンネル資源を過剰に消費し，遅延を招く可能性がある。
- 意味通信を活用し，遅延とタスク忠実度のトレードオフを最適化することを目指す。
- 意味的自己符号化器を用いることで，受信波形から画像再構成とラベル予測を同時に行うことが可能となった。
- 潜在次元をクロスカスタ層の制御変数として活用することで，意味的忠実度とチャンネル資源使用量の調整を実現した。
- 待ち行列を考慮した意味レート制御により，遅延とAge of Information (AoI)を大幅に削減できることが示された。
Link: https://arxiv.org/abs/2605.05514
AIデータセンターと電力グリッドの連携のためのシミュレーションプラットフォームOpenG2G [cs.LG, cs.DC]目的：AIデータセンターと電力グリッドの連携における動的調整戦略の設計と評価
- AIの計算需要増大とデータセンター建設が電力グリッドに負荷をかけ，容量と信頼性の問題が生じている。
- データセンターの電力系統への接続遅延やAI成長のボトルネックが課題となっている。
- データセンターの柔軟性を高め，電力グリッドとの連携を最適化する手法の開発を支援する。
- OpenG2Gは，様々な制御手法（古典制御，最適化，学習ベース）の実装と評価を可能にする汎用的なシミュレーションプラットフォームである。
- AIモデルやデプロイメント戦略がデータセンターの柔軟性と連携結果に与える影響を定量的に評価できる。
- 現実的なグリッドシナリオとAIワークロードを用いて，OpenG2Gの有用性が示された。
Link: https://arxiv.org/abs/2605.05519
商用マイクロ波リンクと拡散モデル事前分布を用いたベイジアン降雨場再構成 [cs.LG, stat.AP, stat.ML]目的：降雨場再構成
- 都市型水害対策において，高精度な降雨情報の把握は不可欠である。
- 商用マイクロ波リンクの線積分特性が，正確な地表面降雨量の再構成を困難にしている。
- 降雨統計量を高精度に保存する拡散モデルを事前分布として利用し，再構成精度を向上させる。
- 拡散モデルは，検閲されたガウス過程と比較して，降雨の主要な統計量をより良く保持することが示された。
- 拡散モデルを事前分布とするベイジアン逆問題を構築することで，Plug-and-Playなどの手法を用いた訓練不要な事後サンプリングが可能となる。
- 合成データおよび実データを用いた実験により，既存の商用マイクロ波リンクベースの再構成手法と比較して，一貫した性能向上が確認された。
Link: https://arxiv.org/abs/2605.05520
MOSAIC：希素加法識別因果学習による科学的時系列データのモジュール発見 [cs.LG, cs.AI]目的：科学的時系列データにおける潜在的メカニズムの解明
- 科学研究では，現象を支配するメカニズムの理解が不可欠である。
- 潜在変数の解釈性は低いことが課題であり，物理量との対応付けが困難である。
- 観測変数の意味を潜在空間に転送し，解釈可能なモジュール構造を抽出すること。
- MOSAICは，識別可能な因果学習と観測変数へのスパース回帰を統合した新しい手法である。
- ANOVA主効果の支持が識別可能であり，スパース加法モデルの有限サンプル復元保証が提供されている。
- RNA分子動力学，太陽風，ENSO気候，TEプロセス，トカマクベンチマークでドメイン整合性の高い変数群が回収された。
Link: https://arxiv.org/abs/2605.05524
離散弾性リボン：一次元エネルギーモデルのための統一された離散微分幾何学的フレームワーク [cs.DB, cs.CL, cs.DC, cs.CE, cs.GR, cs.LG]目的：弾性リボンの機械的挙動を記述する統一的な離散微分幾何学的フレームワークの構築
- 弾性リボンは，構造設計や生物学的システムにおいて重要な役割を果たす構造要素である。
- 従来のモデルでは，リボンの幅の影響を正確に捉えることができず，予測精度に課題があった。
- 幅に依存する機械的効果を考慮した，より高精度なリボンモデルを開発し，検証すること。
- 本研究では，離散微分幾何学に基づいた新しいフレームワークを提案し，5種類のモデルを比較検討した。
- 実験結果から，Sanoモデルがシェル有限要素解析との比較において，最も幅依存性のシフトを正確に捉えることが示された。
- JAXベースの実装により，効率的な計算が可能であり，Sanoモデルのオーバーヘッドは小さいことが確認された。
Link: https://arxiv.org/abs/2605.05529
エネルギー生成モデリング：リャプノフ関数に基づくエネルギー整合の視点 [cs.LG]目的：静的スカラーエネルギー関数に基づく生成モデルの訓練とサンプリング
- 生成モデルは，データ分布の学習と生成において重要な役割を担う。
- 従来の生成モデルは，時間依存性の処理が必要であり，計算コストが高い。
- 時間依存性のないエネルギー関数を用いて，効率的な訓練とサンプリングを実現する。
- 密度輸送をWasserstein空間上の非線形制御問題として定式化し，KLダイバージェンスをリャプノフ関数として用いた。
- 訓練とサンプリングを同一のダイナミクスとして捉え，Langevinサンプリングの有限ステップ停止基準を導出した。
- 訓練されたスカラーエネルギーの加法的な合成が，Gibbs不変測度を保持し，閉ループのリャプノフ証明書を受け継ぐことを示した。
Link: https://arxiv.org/abs/2605.05530
敵対的グラフニューラルネットワークのベンチマーク：実用的かつ公正な評価に向けて [cs.CL, cs.CY, cs.LG]目的：敵対的グラフニューラルネットワークの評価基準の確立
- グラフニューラルネットワークは，様々な現実世界のデータに応用可能であり，機械学習の重要な分野である。
- 敵対的攻撃に対する脆弱性が懸念されるが，評価手法のばらつきにより，結果の解釈が困難になっている。
- 標準化された評価プロトコルを用いることで，より信頼性の高い結果を得て，実用的な防御策の開発を促進する。
- 既存の攻撃・防御手法を公平かつ厳密な条件下で再評価した結果，性能に大きな差が見られた。
- 標的ノードの選択や攻撃モデルの学習過程といった，これまで軽視されてきた要因が攻撃の有効性に大きく影響することが明らかになった。
- 敵対的グラフ機械学習における標準化された評価の必要性が強く示唆された。
Link: https://arxiv.org/abs/2605.05534
住宅ポテンシャル共通データモデルと都市デジタルツイン [cs.AI]目的：住宅ポテンシャル評価のための共通データモデル
- 都市計画において，住宅供給を適切に評価することは重要である。
- 住宅ポテンシャル分析に必要なデータが分散しており，連携が困難である。
- データ連携を促進し，住宅ポテンシャル分析の効率化を目指す。
- 住宅ポテンシャル共通データモデル（HPCDM）を開発し，データの標準化を試みた。
- 都市デジタルツインを構築し，住宅ポテンシャル分析の実用的な実装を実証した。
- モデルの導入障壁を特定し，都市計画者向けの解決策を提示した。
Link: https://arxiv.org/abs/2605.05535
AgenticRAG：企業知識ベースに対するエージェントによる検索 [cs.DB, cs.AI, cs.IR]目的：企業知識ベースにおける検索と分析のためのエージェント的ハーネス
- 企業の知識活用において，正確かつ効率的な情報検索は不可欠である。
- 従来の検索手法では，言語モデルが固定された候補セットに依存し，柔軟性に欠ける。
- 言語モデルが自律的に情報を検索，ナビゲート，分析できるエージェント的アプローチを提案する。
- AgenticRAGは，BRIGHTベンチマークにおいてrecall@1を49.6%まで向上させた。
- WixQAにおけるファクトualityは0.96を達成し，既存の埋め込みベースラインを13%相対的に改善した。
- FinanceBenchでは，正解率92%を達成し，真の証拠へのアクセスにほぼ匹敵する性能を示した。
Link: https://arxiv.org/abs/2605.05538
自己回帰的動力学系予測のためのスケーラブルなワンステップ生成モデリングへ [cs.LG, physics.flu-dyn]目的：高次元物理動態の高速な代理モデリング
- 物理現象の予測は，科学技術の発展に不可欠であり，その精度と効率が重要である。
- 既存のニューラル演算子は，乱流領域でドリフトしやすく，長期予測の精度が課題となっている。
- 長期予測における統計構造の保存と，高速なロールアウトの両立を目指す。
- MeLISAは，ニューラル演算子と比較して，短期予測の精度と長期統計指標において優れた性能を示した。
- 特に，エネルギースペクトル，乱流運動エネルギー，混合速度に関連する動態において，その効果が確認された。
- コンパクトなモデル（370万～570万パラメータ）でも高いパラメータ効率を示し，スケーラブルなDiTモデルも提供する。
Link: https://arxiv.org/abs/2605.05540
オフラインからオンライン強化学習のための適応的Q-チャンキング [cs.RO, cs.LG, cs.RO]目的：行動チャンキングによるオフラインからオンライン強化学習における多段階オフポリシーバイアスの解消と，時間的に一貫性のある探索の実現
- 強化学習は，ロボット制御やゲームなど，様々な分野で自律的な意思決定を可能にする重要な技術である。
- 既存手法では，状態に関わらず固定のチャンクサイズを用いるため，最適な行動選択が困難となる場合がある。
- 状態に応じてチャンクサイズを適応的に選択することで，制御性能と探索効率を向上させることを目指す。
- 提案手法AQCは，各チャンクサイズの優位性を，割引率で正規化されたパーホライズンベースラインと比較することで，バイアスの問題を解決する。
- 理論的な解析により，AQCのノイズ耐性と，固定チャンクサイズに対する優位性が示された。
- OGBenchやRobomimicを用いた実験により，AQCが最先端の性能を達成し，VLAモデルの性能向上にも貢献することが示された。
Link: https://arxiv.org/abs/2605.05544
SPARK：知識グラフからの非対称報酬を用いた自己対戦 [cs.AI]目的：科学文献における関係性推論問題の自動生成と検証可能な報酬計算
- 科学研究の進展には，論文間の複雑な関係性を理解することが不可欠である。
- 科学文献中の関係性は明示的に記述されておらず，自動的な関係性推論が困難である。
- 知識グラフを用いて構造化された推論問題生成と報酬計算を可能にすること。
- SPARKは，複数ドキュメントの科学文献から統一的な知識グラフを自動構築する。
- 知識グラフのパスは関係性推論問題の生成源となり，構造化された事実は検証可能な報酬計算の基盤を提供する。
- 実験結果から，SPARKは従来の自己対戦基盤よりも高い性能を示し，特に多段推論においてその差が顕著になった。
Link: https://arxiv.org/abs/2605.05546
FedeKD：異質環境下におけるロバストな連合知識蒸留のためのエネルギーベースゲート [cs.HC, cs.LG]目的：異質環境下での連合知識蒸留における負の転移軽減
- 連合学習は，データプライバシーを保護しつつ分散データを活用するため，近年重要性が増している。
- データの分布の不均衡や非対称なモデル設計が負の転移を引き起こし，性能低下を招くことがある。
- サンプルごとの信頼度推定に基づき，負の転移を抑制し，知識蒸留のロバスト性を高めることを目指す。
- FedeKDは，サンプルごとの信頼度を明示的に考慮する信頼度を意識したFKDフレームワークである。
- エネルギーベースのゲート機構により，プライベートモデルとプロキシモデル間の不一致をサンプルごとの信頼度重みに変換する。
- 6つの実データセットでの実験により，FedeKDが異質環境下での負の転移を大幅に削減し，高い予測性能を維持することが示された。
Link: https://arxiv.org/abs/2605.05553