arXiv雑要約

AI - 2026/05/15 公開

  • 検索拡張生成が失敗する理由:グラフによる考察 [cs.CL, cs.AI]目的:検索拡張生成における根拠の影響のメカニズム解明
    • 大規模言語モデルの性能向上には,外部知識の活用が不可欠である。
    • 検索拡張生成は誤った回答を生成することが多く,その原因が不明確である。
    • 内部メカニズムを解析し,エラー検出と改善策を提案する。
    • 正答時には,より深い推論経路,分散した証拠の流れ,構造的な接続パターンが見られた。
    • 誤答時には,浅い,断片化された,集中型の証拠の流れが見られた。
    • 帰属グラフのトポロジー特徴を用いたエラー検出フレームワークを開発し,質問制約に基づいた証拠の固定化により,回答生成の精度向上を実現した。

    Link: https://arxiv.org/abs/2605.14192

  • 局所スパース化による確率的マッチング [cs.CL, cs.DS, cs.LG]目的:確率的マッチングにおける局所スパース化手法
    • 現代の分散システムでは,マッチングのタイミングよりも局所通信帯域幅がボトルネックとなる場合が多い。
    • 従来の確率的マッチング問題は即時かつ不可逆な決定を必要とし,現実の制約を考慮していない。
    • 限られた局所的な情報制約下で,より効率的なグローバルマッチングを実現すること。
    • 提案手法は,期待されるインスタンスの分数解に基づいて局所的な選択戦略を行う。
    • 理論的に,解の「スプレッド」に応じて近似率が定量化され,十分なスプレッド下で期待される最大マッチングサイズが維持されることが証明された。
    • ニューヨーク市のライドヘイリングデータセットを用いた実験結果から,限られた局所予算下でも最適なグローバルマッチングが可能であることが示された。

    Link: https://arxiv.org/abs/2605.14195

  • MoEのスケーリング方法:muPから最大限スケール安定なパラメータ化へ [cs.RO, cs.SY, eess.SY, cs.LG, stat.ML]目的:MoEアーキテクチャのスケーリングにおけるハイパーパラメータの適切な設定方法
    • 大規模言語モデルの性能向上には,MoEアーキテクチャが不可欠であり,そのスケーリング則の理解が重要である。
    • MoEのスケーリングにおいて,ネットワーク幅,エキスパート幅,エキスパート数などのハイパーパラメータがどのように変化すべきか明確に示されていなかった。
    • スケーリング則に基づいたパラメータ化により,安定性と最適な性能を両立することを目指す。
    • ネットワーク幅,エキスパート幅,エキスパート数などのスケーリングに関して,3つの異なるスケーリング様式を分析した。
    • 既存のmuP処方箋では,スケールに伴う一貫した性能向上や学習率の転移が保証されないことを明らかにした。
    • 新たな「最大限スケール安定なパラメータ化(MSSP)」を導出し,様々なスケーリング様式において,学習率の転移とスケールに伴う性能向上が安定的に実現されることを実験的に確認した。

    Link: https://arxiv.org/abs/2605.14200

  • LLMに基づくマイクロサービスアプリケーションの堅牢性テスト:実証研究 [cs.SE, cs.AI]目的:マイクロサービスAPIの異常,欠損,境界値入力による信頼性への影響評価
    • マイクロサービスは現代のソフトウェアアーキテクチャの主流であり,システムの信頼性は不可欠である。
    • マイクロサービスAPIの入力検証不足が,システム全体への連鎖的な障害を引き起こす可能性がある。
    • LLMを活用したテストケース生成により,多様かつ効果的な堅牢性テストを実現することを目指す。
    • プロンプト戦略がモデルサイズよりも多様性に与える影響が大きいことが判明した。
    • 特定のプロンプト戦略(Structured)は多様性を損ない,一方,適切なプロンプト戦略を用いた単一モデルが優れた性能を示した。
    • 変異タクソノミーを埋め込んだGuidedFewShot戦略が,両システムで最も高い故障モードカバレッジを達成した。

    Link: https://arxiv.org/abs/2605.14202

  • SimPersona:生きたクリックストリームから離散的な購買ペルソナを学習し,実用的なEコマースエージェントを構築 [cs.AI]目的:生きたクリックストリームから離散的な購買ペルソナの学習
    • Eコマースにおける顧客理解は,顧客体験の向上と売上増加に不可欠である。
    • 既存のパーソナライズ手法は,手動でのプロンプト作成に依存し,拡張性や柔軟性に課題がある。
    • 多様な購買行動を捉え,実用的なEコマースエージェントを実現すること。
    • SimPersonaは,生のクリックストリームから離散的な購買タイプを学習する新しいフレームワークである。
    • 学習された購買タイプは,LLMベースのエージェントにコンパクトなペルソナとして提供され,行動特有のガイダンスを与える。
    • 42のストアフロントで評価した結果,SimPersonaは実際の購買者との転換率において78%の一致を示し,優れた性能を発揮した。

    Link: https://arxiv.org/abs/2605.14205

  • ファイングレインで検証可能なコンセプトボトルネックモデルへ [cs.LG, cs.AI]目的:コンセプトボトルネックモデルの解釈性と検証性の向上
    • AIモデルの透明性と信頼性は,医療分野を含む様々な応用において不可欠である。
    • 既存のコンセプトボトルネックモデルは,予測されたコンセプトと視覚的証拠の一致を検証することが困難である。
    • 視覚的証拠に基づいたコンセプトの局所化により,モデルの信頼性と人間との協調性を高める。
    • 提案手法は,各コンセプトを局所的な視覚的証拠に結び付けることで,コンセプトのエンコード位置と方法を直接検証可能にする。
    • 医療画像ベンチマーク実験の結果,学習されたコンセプト空間は情報的に完全であり,標準的なCBMと同等の予測性能を示す。
    • 本研究は,解釈可能性と検証可能性を両立させ,信頼性の高いコンセプトベース学習システムの構築に貢献する。

    Link: https://arxiv.org/abs/2605.14210

  • 自己研鑽型エージェント:具現学習による能力向上 [cs.AI, cs.LG]目的:長期的な具現タスクにおける自己改善メカニズム
    • AI研究において,長期的な具現タスクは依然として大きな課題であり,その克服は重要である。
    • 既存手法は,手動で設計された報酬や専門家によるアノテーションに依存しており,拡張性に限界がある。
    • 報酬設計や専門家のアノテーションなしに,自己改善ループを通じて具現学習を可能にすること。
    • ASHは,報酬や専門家のアノテーションなしに,インターネット上の動画から具現ポリシーを学習する。
    • ASHは,自身の軌跡から逆ダイナミクスモデルを学習し,それを利用してインターネット動画から適切な指導信号を抽出する。
    • ポケモンエメラルドとゼルダの伝説:ふしぎのぼうしで8時間以上の評価実験を行い,既存手法を上回る成果を上げた。

    Link: https://arxiv.org/abs/2605.14211

  • MetaAgent-X:エンドツーエンド強化学習による自動マルチエージェントシステムの限界突破 [cs.AI]目的:自動マルチエージェントシステムにおける設計と実行の同時最適化
    • 複雑なタスク解決において,複数のエージェントが協調して動くシステムの重要性が増している。
    • 既存の自動MASは,設計と実行のいずれかを固定しており,柔軟性に欠けるという課題があった。
    • 設計者と実行者の両方を同時に最適化することで,より適応的で高性能な自動MASを実現すること。
    • MetaAgent-Xは,自動MASの設計と実行をエンドツーエンドで最適化する強化学習フレームワークである。
    • 提案手法は既存の自動MASと比較して,最大21.7%の性能向上を達成した。
    • 設計者と実行者の両方が学習を通じて改善し,段階的な共同進化が自動MAS学習の鍵となることが示された。

    Link: https://arxiv.org/abs/2605.14212

  • GenCircuit-RL:遺伝回路設計のための階層的検証に基づく強化学習 [cs.AI, cs.LG, q-bio.QM]目的:遺伝回路の設計における強化学習フレームワーク
    • 合成生物学の進展にも関わらず,遺伝回路設計は専門知識を要する手間のかかるプロセスである。
    • 自動検証を可能にするSBOLなどの形式表現を利用しつつも,設計の自動化は未だ十分ではない。
    • 階層的検証とカリキュラム学習を通じて,遺伝回路設計の性能向上を目指す。
    • 階層的検証は,機能的推論タスクにおける成功率を,二値報酬と比較して14〜16パーセントポイント向上させた。
    • カリキュラム学習は,優れた設計性能を得るために必要不可欠である。
    • 生成された回路は,トポロジー的に正しく,新しい生物学的パーツへの汎化能力を示し,既存の古典的な設計を再現した。

    Link: https://arxiv.org/abs/2605.14215

  • PreFT:効率的な推論のための事前埋め込みのみのファインチューニング [cs.LG, cs.AI, cs.CL, cs.SY, eess.SY]目的:多人数アダプターの効率的なサービング
    • 大規模言語モデルのパーソナライズが重要視される中,効率的な推論手法が求められている。
    • ユーザー固有のアダプターをサービングすると,スループットが低下するという課題がある。
    • 事前埋め込み段階にアダプターを適用し,推論時のボトルネックを解消することを目指す。
    • PreFTは,従来のPEFTと比較して,スループットを大幅に向上させる(Llama 3.1 70Bで512アダプター時,1.9倍)。
    • SFTタスクでは評価損失が若干増加するが,ランクを上げることでほぼ同等のスループットを維持できる。
    • RLタスクでは,PreFTは標準的なPEFTと同等の性能を達成する。

    Link: https://arxiv.org/abs/2605.14217

  • AIの望ましくない行動への移行時期予測:融合・分裂現象の応用 [cs.AI, physics.soc-ph]目的:AIの行動変化予測手法の開発
    • AIの社会実装が進む中,その安全性確保は喫緊の課題である。
    • AIの行動は予期せず変化し,有害な結果を招く可能性がある。
    • AIの行動変化を事前に予測し,安全性を高めることを目指す。
    • AIの行動変化は,生きたシステムに見られる融合・分裂現象で説明可能であることが示された。
    • このモデルは,7つのAIモデルで90%の精度で行動変化を予測し,実用規模のチャットボットでも有効性が確認された。
    • 本手法は,既存の安全対策とは独立しており,将来のAIアーキテクチャにも適用可能である。

    Link: https://arxiv.org/abs/2605.14218

  • LLM強化学習における学習時と推論時の不一致の診断 [cs.LG, cs.AI, cs.CL]目的:LLM強化学習における学習時と推論時の確率分布の不一致
    • 大規模言語モデルの強化学習は,その性能向上が期待されており,活発に研究されている分野である。
    • 学習時と推論時で確率分布が一致しない場合,学習の不安定化や性能低下を引き起こす可能性がある。
    • 学習時と推論時の不一致を特定し,その影響を軽減するための対策を検討することを目的とする。
    • 実装上の差異により,同じモデルでも学習時と推論時で異なる確率値を割り当てることがある。
    • 微小な確率値の不一致が,学習の崩壊を引き起こす可能性があることが示された。
    • 学習時と推論時の不一致は,最適化問題を変化させ,安定性を損なうシステムレベルの擾乱であると考えられる。

    Link: https://arxiv.org/abs/2605.14220

  • ウェーブレットに基づく可観測量:クープマン解析のための拡張動的モード分解フレームワーク [math.NA, cs.AI, cs.NA, math.DS, math.FA]目的:クープマン半群のウェーブレット変換による詳細な解析
    • 複雑な動力学的システムの解析において,クープマン理論は重要な役割を果たす。
    • 既存の動的モード分解法は,高次元データや複雑な構造を持つシステムへの適用に限界がある。
    • ウェーブレット変換を用いてクープマン解析の精度と適用範囲を向上させることを目指す。
    • ウェーブレットに基づく可観測量は,コンパクトな前方不変集合上の連続関数のバナッハ空間におけるクープマン半群の固有関数となる。
    • クープマン半群とその分解の作用を,これらの可観測量を用いて閉形式で表現することが可能となった。
    • 拡張動的モード分解(EDMD)と提案されたウェーブレットに基づく可観測量を組み合わせることで,cWDMDアルゴリズムを構築した。

    Link: https://arxiv.org/abs/2605.14224

  • 疾患軌跡予測のためのDT-Transformer:実世界ヘルスシステムにおける基盤モデル [cs.LG, cs.CL]目的:疾患軌跡予測の基盤モデル
    • 早期介入や資源配分,長期的な転帰改善に不可欠な研究分野である。
    • 研究用コホートは実臨床現場を反映せず,単一病院データでは患者軌跡の一部しか捉えられない。
    • 大規模多病院システムを用いた学習により,実臨床の複雑さを反映したモデル開発を目指す。
    • DT-Transformerは,Mass General Brighamの170万人以上の患者データで学習された。
    • 保留および前向き検証において高い識別能力を示し,896の疾患カテゴリでAUC中央値0.871を達成した。
    • 全てのカテゴリにおいてAUC 0.5を超え,ヘルスシステム規模での学習の有効性が示唆された。

    Link: https://arxiv.org/abs/2605.14227

  • 論文執筆における自己調整学習:戦略の一貫性と結果への影響 [cs.HC, cs.LG]目的:論文執筆における自己調整学習戦略の実行状況と学習成果との関連
    • 生涯学習には自己調整学習能力が不可欠であり,特に思春期はその能力が定着する重要な時期である。
    • オンライン教育の普及に伴い,自己調整学習の重要性は高まっているが,そのプロセスは未だ解明されていない。
    • 本研究は,オンライン環境下での生徒の自己調整学習戦略の実態と,学習成果との関連性を明らかにすることを目指す。
    • 3つの主要な自己調整学習戦略が特定された。
    • 多くの生徒は「まず読む,次に書く」戦略を用い,戦略に変動が見られた。
    • 「集中的に書き,選択的に読む」戦略は稀であったが,学習成果と正の相関が認められた。

    Link: https://arxiv.org/abs/2605.14228

  • AudioMosaic:コントラスト学習を用いたマスク音声表現学習 [cs.LG, cs.AI, cs.SD]目的:汎用的な音声表現の学習
    • 音声データは多様であり,その理解には汎用的な表現が不可欠である。
    • 効果的な音声のデータ拡張が難しく,コントラスト学習には大きなバッチサイズが必要。
    • 効率的なバッチ学習と識別能力の高い表現を獲得すること。
    • AudioMosaicは,スペクトログラムパッチへの構造化された時周波数マスキングを用いることで,効果的なコントラスト学習を実現した。
    • 生成的なアプローチと比較して,AudioMosaicはより識別可能な発話レベルの表現を学習し,データセット間の転移性能に優れる。
    • 複数の音声ベンチマークにおいて,線形プローブおよびファインチューニングの両方で最先端の性能を達成した。また,音声-言語モデルへの統合も有効であることが示された。

    Link: https://arxiv.org/abs/2605.14231

  • マルチエージェント強化学習における量子優位性 [cs.RO, cs.LG, cs.MA, quant-ph]目的:量子多エージェント強化学習におけるエージェント間の協調における量子エンタングルメントの評価
    • 近年,複雑な問題解決手法として注目されており,古典的な手法の限界を超える可能性を秘めている。
    • 量子強化学習の有効性は理論的に示されているものの,実証的な検証が不足しており,明確な優位性を確認できていなかった。
    • 量子エンタングルメントがエージェント間の協調に及ぼす影響を検証し,量子優位性の存在を明確にすることを目指す。
    • CHSHゲームにおいて,エンタングルメントを利用した量子エージェントが古典的な上限を超える性能を示し,量子優位性を実証した。
    • エンタングルメントを用いない量子回路は古典的なベースラインと同等の性能にとどまり,協調メカニズムにおけるエンタングルメントの重要性を確認した。
    • 協調的ナビゲーションタスクにおいて,量子エージェントは古典的な手法を凌駕する成果を挙げ,ハイブリッド構成が最も優れた性能を示した。

    Link: https://arxiv.org/abs/2605.14235

  • 効率的なPRP再ランク付けにおけるアクティブラーナー [cs.LG, cs.AI, cs.CL]目的:ペアワイズランキングプロンプティングにおける再ランク付けの効率化
    • 大規模言語モデルのランキング性能向上は,情報検索や推薦システム等の応用において重要である。
    • 従来のランキング手法はノイズや順序依存性,推移律の不成立といった問題を含み,安定したトップK抽出が困難である。
    • アクティブラーニングを活用し,ノイズに強い再ランク付け手法を確立することで,安定したトップK抽出を可能にする。
    • アクティブラーナーは,従来のソートアルゴリズムを置き換え,呼び出し回数あたりのNDCG@10を向上させる。
    • ランダム化された方向オラクルを用いることで,位置バイアスをゼロ平均のノイズに変換し,公平なランキングを実現する。
    • 双方向呼び出しのコストを削減しつつ,高精度なランキングを可能にする。

    Link: https://arxiv.org/abs/2605.14236

  • 万能:99%の成功率と99%のトークン使用量削減を実現するLOOPスキルエンジン - 一発録画と決定論的リプレイによる [cs.AI]目的:反復的な定期タスクのためのAIエージェントにおける成功率向上とトークン消費量削減
    • AIエージェントは多様なタスクに対応可能だが,安定性とコストが課題である。
    • LLMの確率的性質により,タスクの実行が不安定になりやすい。
    • LLMの利用を最小限に抑え,安定性と効率性を両立すること。
    • LOOPスキルエンジンは,定期的なタスクにおいて99%の成功率と99%のトークン削減を達成した。
    • 最初の実行でツール呼び出しの軌跡を記録し,それを決定論的な実行プランに変換することで,LLMをバイパスする。
    • これにより,実行遅延を8.7倍削減し,出力の非決定性を排除することに成功した。

    Link: https://arxiv.org/abs/2605.14237

  • 各種AI生成テキスト検出手法に対する言い換え攻撃の耐性 [cs.LG]目的:AI生成テキスト検出手法の言い換え攻撃に対する耐性評価
    • LLMの普及により,偽情報拡散等の問題が深刻化しており,AI生成テキストの検出技術が重要である。
    • AI検出器回避ツールが出現し,既存の検出手法の信頼性が揺らいでいる。
    • AI生成テキスト検出手法の脆弱性を明らかにし,より堅牢な検出技術の構築に貢献する。
    • RoBERTa,Binoculars,テキスト特徴分析の3手法と,Random Forestによるアンサンブルを評価した。
    • Binocularsを含むアンサンブルが最も高い性能を示す一方,攻撃に対する耐性は低いという二律背反が見られた。
    • AIテキスト検出技術の信頼性評価には,性能と耐性の両方を考慮する必要があることが示唆された。

    Link: https://arxiv.org/abs/2605.14240

  • LLMエージェントにおける機能的に同等のツールに対する遅延と品質を考慮したルーティング [cs.LG]目的:LLMエージェントにおける機能的に同等のツールプロバイダーのルーティング戦略
    • LLMエージェントの能力向上には,多様なツールへのアクセスが不可欠であり,最適なツール選択が重要となる。
    • 複数のツールプロバイダーが存在する場合,遅延,信頼性,回答品質のばらつきが課題となる。
    • 実行時の負荷状況下で,これらの要素を考慮しつつ,最適なプロバイダーを選択するルーティング手法を確立する。
    • 提案手法LQM-ContextRouteは,遅延と品質を考慮したルーティングにより,既存手法SW-UCBと比較してF1スコアを+2.18pp向上させた。
    • StrategyQAのタスクにおいては,LQM-ContextRouteはSW-UCBよりも最大+18ppの精度向上を実現し,加法報酬の崩壊を回避した。
    • 多様な検索プールにおいても,LQM-ContextRouteはNDCGを+2.91~+3.22pp向上させ,遅延をサービス容量として扱うことの有効性を示した。

    Link: https://arxiv.org/abs/2605.14241

  • 人工知能支援心電図:信号再構成,胎児心拍数解析,および変動評価のための統合モデル [cs.LG, cs.AI]目的:胎児心拍数モニタリングのための人工知能モデルの開発
    • 胎児の健康状態を評価する上で,心拍数と変動の正確な監視は極めて重要である。
    • 従来の心電図法では,機器の性能や主観的な判断による限界が存在する。
    • 本研究は,ノイズの影響を軽減し,より正確な信号再構成を実現する。
    • 開発されたAIモデルは,重要な胎児心拍数の減速と加速を高い感度と特異度で検出することが示された。
    • Intersection Overlapping Labels (IOL)アプローチにより,心拍数の解析をカテゴリー判断へと変換した。
    • フィッシャーの基準に基づき,心拍数の周期性と振幅変動の検証において,高いAUCスコアを達成した。

    Link: https://arxiv.org/abs/2605.14242

  • 行動条件付きリスクゲーティングによる部分観測下での安全性が重要な制御 [cs.LG, cs.AI, cs.SY, eess.SY]目的:部分観測下におけるリスク感応型制御のための軽量な近似手法
    • 安全性が重要な制御は,不完全な情報下でリスクとパフォーマンスのバランスを取る必要があり,その実現が重要である。
    • 信念状態の維持と計画は計算コストが高く,現実的なドメインではモデルの仕様に敏感であるという問題がある。
    • 行動条件付きリスク予測を用いて,信念状態の計算コストを削減し,安全性を確保した制御を実現することを目指す。
    • 提案手法は,有限の履歴状態を用いて近未来のリスクを予測し,価値学習におけるリスクペナルティと意思決定時のゲートとして機能する。
    • 成人および青年期の糖尿病制御データセットにおいて,全体的な血糖値のトレードオフを改善し,実行時間を大幅に削減した。
    • Safety-Gymナビゲーションベンチマークでは,制約なしの強化学習や標準的な安全強化学習手法と比較して,より有利な報酬-コストのバランスを実現した。

    Link: https://arxiv.org/abs/2605.14246

  • EnergyLens:マルチGPU LLM推論最適化のための予測型エネルギー認識探索 [cs.LG]目的:大規模言語モデル(LLM)推論のエネルギー効率最適化
    • LLMの規模拡大に伴い,持続可能性とデータセンター運用においてエネルギー消費量の予測と削減が不可欠である。
    • 既存のアプローチは,プロファイリングにコストがかかるか,マルチGPU環境でのエネルギー挙動を正確に捉えられていない。
    • 実用的な最適化戦略の選択と展開構成の決定を支援するツールの不足を解消する。
    • EnergyLensは,LLMの仕様と通信エネルギーモデルを捉え,マルチGPU環境でのエネルギー予測精度が高いことが示された。
    • Llama3およびQwen3-MoEでの検証により,エネルギー消費量の平均絶対パーセント誤差が9.25%~13.19%であることが確認された。
    • エネルギー駆動型の探索により,構成によるエネルギー消費のばらつきが大きく,分散サービングの重要性が示唆された。

    Link: https://arxiv.org/abs/2605.14249

  • 全タイムステップが等しく重要ではない:スパイクニューラルネットワークのための選択的アラインメント知識蒸留 [cs.LG, cs.AI]目的:スパイクニューラルネットワークの性能向上
    • 脳にヒントを得たスパイクニューラルネットワークは,高いエネルギー効率を実現する。
    • スパイクニューラルネットワークと人工ニューラルネットワークの性能には依然として差がある。
    • 誤ったタイムステップへの修正と有用な時間的ダイナミクスの維持により知識蒸留を改善する。
    • 提案手法SeAl-KDは,誤ったタイムステップでのロジットを等化し,信頼性とタイムステップ間の類似性に基づいて時間的アラインメントを再重み付けする。
    • 静止画像およびニューロモルフィックイベントベースデータセットにおける実験で,既存の蒸留手法と比較して一貫した改善が示された。
    • SeAl-KDは,タイムステップごとに異なる重要度を考慮し,選択的なアラインメントにより知識蒸留の効率を高める。

    Link: https://arxiv.org/abs/2605.14252

  • リアルタイム自律航行に向けた透視下カテーテル先端追跡のためのTransformerベース手法 [cs.CV, cs.LG]目的:透視下におけるカテーテル先端のリアルタイム追跡パイプラインの開発と評価
    • 脳卒中治療において機械的血栓摘出は有効だが,治療へのアクセスが限られている。
    • 強化学習を用いた自律航行ロボットの普及には,リアルタイムなカテーテル先端座標の追跡が不可欠である。
    • 低コントラストやノイズ,デバイスの遮蔽といった課題を克服し,高精度な追跡を実現すること。
    • 提案手法は,手動でラベル付けされた中程度の複雑さの透視映像データにおいて,平均絶対誤差4.44mmを達成した。
    • SegFormer(二値化)は,U-Net(4.60mm),U-Net+Transformer(6.20mm)および三値化モデル(5.19-7.74mm)を上回る性能を示した。
    • セグメンテーションベンチマークでは,既存のCathActionの結果を最大5%のDiceスコアで上回る性能を発揮した。

    Link: https://arxiv.org/abs/2605.14253

  • 産業用ビジュアル検査のためのアーキテクチャを考慮した説明監査 [cs.LG, cs.CV]目的:深層学習分類器の説明の忠実性評価プロトコル
    • 産業用ビジュアル検査における深層学習の重要性が増しているため,その説明可能性の検証が不可欠である。
    • 深層学習モデルの説明は視覚的には妥当に見えても,実際の意思決定に影響を与える領域を特定できない場合がある。
    • モデルのアーキテクチャと説明手法の適合性を評価し,より信頼性の高い説明を設計するための指針を提供する。
    • ViT-Tiny + Attention Rolloutは,Swin-Tiny / ResNet18+CBAM / DenseNet121 + Grad-CAMと比較して,高いDeletion AUCを示した。
    • Swin-Tinyは,アーキテクチャファミリーと読み出し構造を分離し,読み出し構造が重要であることを示唆した。
    • 説明経路はモデルアーキテクチャと共同で設計されるべきであり,デプロイされたヒートマップには定量的な忠実性指標を伴うべきである。

    Link: https://arxiv.org/abs/2605.14255

  • Transformer残差ストリームのダイナミクス:スペクトル幾何学とネットワークトポロジーの結合 [cs.CL, cs.LG, cs.AI]目的:Transformer残差ストリームのダイナミクス解析
    • 大規模言語モデルの能力向上に伴い,計算伝播のメカニズム解明が重要となっている。
    • 既存研究では,スカラー要約や近似線形化に依存し,LLMの完全なスペクトル幾何学が不明であった。
    • 訓練されたLLMにおけるスペクトル幾何学を明らかにし,摂動伝播とネットワークトポロジーの関係を解明する。
    • 訓練により,深さ方向に単調なスペクトル勾配が形成されることが示された。初期層は非正規,回転優位,後期層はほぼ対称となる。
    • 摂動は,残差ストリームの有効次元のごく一部に集約される累積的な低ランクボトルネックが存在することが明らかになった。
    • グラフコミュニティの位置とヤコビアンの増幅/抑制の関係が,局所演算子の型によって決定されることが示された。

    Link: https://arxiv.org/abs/2605.14258

  • 異種ビジネスシステムにおけるハイパーグラフ企業エージェント推論器 [cs.AI, cs.CL]目的:異種エンタープライズシステムにおける推論の正確性とスケーラビリティの向上
    • 企業システムは複雑であり,データが分散しているため,高度な推論能力が求められる。
    • 大規模言語モデル(LLM)は幻覚や多段階推論の失敗に悩まされており,信頼性に課題がある。
    • ハイパーグラフオントロジーに基づく推論器を構築し,LLMの再学習なしに複雑な分析を可能にすること。
    • HEARは,サプライチェーンタスクにおいて最大94.7%の精度を達成した。
    • 手続き型ハイパーエッジを活用することで,トークンコストを最小限に抑え,効率的な推論を実現した。
    • HEARは,プロプライエタリモデルと同等の性能を,オープンウェイトバックボーンで実現し,スケーラブルかつ監査可能な基盤を確立した。

    Link: https://arxiv.org/abs/2605.14259

  • AIVAT系手法におけるヒューリスティックな脆弱性と不確実性伝播による分散削減 [cs.AI, cs.GT]目的:多人数エージェント環境におけるエージェントの性能評価手法
    • マルチエージェント環境の評価は,試行回数やコストが限られる場合,効率的な手法が求められる。
    • AIVAT系手法では,ヒューリスティックな価値関数選択の制約や不確実性の扱いが課題であった。
    • ヒューリスティック関数の脆弱性を明らかにし,不確実性伝播による分散削減を目指す。
    • ヒューリスティックな価値関数は,評価データ観察前に固定すべきである。
    • ヒューリスティックな不確実性を伝播することで,AIVATの推定値の不確実性を定量化できる。
    • 不確実性の伝播と分散重み付け平均により,統計的結論を得るためのサンプル数を43.0%削減できた。

    Link: https://arxiv.org/abs/2605.14261

  • 高等教育におけるエージェントAIエコシステム:学習・教育・機関インテリジェンスのための創発的マルチエージェントAIフレームワークに関する展望 [cs.RO, cs.HC, cs.AI, cs.CY]目的:高等教育におけるエージェントAIエコシステムの構築
    • 教育現場の効率化と質の向上に貢献するAIの活用は,現代において不可欠である。
    • 既存のAIエージェントは個別タスクに特化しており,教育機関全体の複雑な運用を統合的に支援するには不十分である。
    • 学習,教育,機関運営を連携させ,包括的かつ公平な学習環境を提供するAIプラットフォームの実現を目指す。
    • 本研究は,既存のAIツールが分断されている現状と,単一エージェントからマルチエージェントシステムへの移行,学際的な統合の不足,インクルージョンとアクセシビリティへの配慮不足を明らかにしている。
    • 包括的な学習の視点を組み込むことで,協調的なマルチエージェントプラットフォームが多様な学習者に対して適応的かつマルチモーダルな介入を可能にする可能性を示唆している。
    • スケーラブルで人間中心,かつインクルーシブなエージェントAIプラットフォームの今後の研究方向性を示唆している。

    Link: https://arxiv.org/abs/2605.14266

  • 拡散モデルを用いた動的分解能による画像復元 [cs.CV, cs.AI]目的:拡散モデルによる画像復元手法の効率化
    • 画像復元は,ノイズ除去や解像度向上など,画像処理において重要な課題である。
    • 従来の拡散モデルは計算コストが高く,実用上のボトルネックとなっていた。
    • 動的分解能を活用し,計算効率を向上させつつ高画質な復元を実現すること。
    • 提案手法は,既存の拡散モデルを動的分解能に適合させ,計算コストを大幅に削減した。
    • SubDAPS++は,既存のDMベース手法と比較して,多くの実験において優れた性能を示した。
    • 提示するフレームワークは,画像復元タスクにおける実用性と効率性を向上させる可能性を秘めている。

    Link: https://arxiv.org/abs/2605.14267

  • PhyMotion:物理に基づいた3Dモーション報酬による人間ビデオ生成 [cs.CV, cs.AI]目的:物理シミュレーターに基づいた3D人間の軌跡の妥当性を評価する構造化された,きめ細かいモーション報酬
    • ビデオ生成において,リアルな人間モーションは重要な課題であり,その品質向上は不可欠である。
    • 既存のビデオ報酬は2D情報に依存しており,3Dボディの状態や物理的なダイナミクスを考慮していない。
    • 浮遊や不自然な動きといった物理的にありえない問題を解決し,モーションのリアリズムを向上させる。
    • PhyMotionは既存の報酬と比較して,人間の判断との相関性が高いことが示された。
    • PhyMotionを用いた強化学習による後処理により,自動評価指標およびブラインド人間評価でモーションのリアリズムが向上した(+68 Elo gain)。
    • 報酬の3つの軸(運動学的妥当性,接触とバランスの一貫性,動的妥当性)は,互いに補完的な学習信号を提供する。

    Link: https://arxiv.org/abs/2605.14269

  • 反事実後悔最小化の並列化 [cs.AI, cs.GT]目的:反事実後悔最小化(CFR)アルゴリズムの並列化
    • AI分野では並列化が重要であり,モデルの学習・評価時間を大幅に短縮できる。
    • ゲームソルビングへの並列化の適用は,その潜在力にも関わらず,十分に検討されていない。
    • CFRアルゴリズムを並列化し,大規模な不完全情報ゲームの解法を加速させる。
    • CFRを線形代数の演算として捉え,既存の並列化技術を適用するフレームワークを提案した。
    • CFR+,割引CFR,予測型CFRなど,CFRファミリーの他のアルゴリズムにも適用可能である。
    • GPU実装は,CPU上のGoogle DeepMind OpenSpiel CFR実装と比較して,最大4桁高速であった。

    Link: https://arxiv.org/abs/2605.14277

  • TILT:共変量シフト下におけるターゲット誘導損失傾斜 [cs.LG, stat.ML]目的:共変量シフト下における教師なしドメイン適応のためのターゲット誘導損失傾斜(TILT)
    • 機械学習において,異なる分布のデータ間での汎化性能の向上が重要な課題である。
    • ドメイン適応では,ラベルのないターゲットドメインでの性能が課題となることが多い。
    • TILTは,ターゲットドメインにおける予測性能を向上させることを目指す。
    • TILTは,ソース予測器を$f+b$に分解し,$f$をターゲットドメインの予測器として利用する。
    • この手法は,ターゲット側へのペナルティを通じて,相対的な重要度重み付けを暗黙的に誘導する。
    • 実験の結果,TILTは,ソースのみの学習や既存の重み付け手法と比較して,ターゲットドメインでの性能が向上することが示された。

    Link: https://arxiv.org/abs/2605.14280

  • 完全情報拡張形式ゲームにおけるゲームエージェントの水印 [eess.SY, cs.SY, cs.GT, cs.AI, cs.CR]目的:ゲームエージェントの水印埋め込み手法
    • AI技術の不正利用検出は,公平な競争環境維持や知的財産保護に不可欠である。
    • ゲームプラットフォームにおけるAIツールの不正使用(チート行為)の検出が課題である。
    • ゲーム戦略に水印を埋め込み,不正利用を検出する手法を確立すること。
    • LLMの水印技術KGWを拡張し,完全情報拡張形式ゲームのエージェントに適用可能であることを示した。
    • 水印埋め込みによる戦略プロファイルの品質低下は限定的であり,検出可能性とのトレードオフが存在する。
    • チェスエンジンへの適用実験で,品質への影響が無視できず,少数のゲームで水印を検出できることを確認した。

    Link: https://arxiv.org/abs/2605.14283

  • 縦断的設定における複数の方策因果効果推定の円滑化 [cs.LG]目的:複数の方策の因果効果推定手法
    • 医療や政策決定において,複数の方策を比較評価することは不可欠である。
    • 従来の手法では,各方策を独立して推定するため,反事実間の情報共有が困難である。
    • 反事実間の情報共有による推定精度の向上と,サンプルサイズの制約下での安定性向上。
    • 提案手法PEQ-Netは,共有表現を通して複数の方策を同時に推定することで,従来法が抱える第二次のバイアスを抑制する。
    • カーネル平均埋め込みを用いた方策エンコーダにより,方策間の類似性を反映した表現空間を学習する。
    • 半合成データを用いた実験で,PEQ-Netは既存手法と比較して,特に類似した方策の評価において高い性能を示すことが確認された。

    Link: https://arxiv.org/abs/2605.14284

  • MetaMoE:プライバシー保護混合エキスパートの統合のための多様性を考慮したプロキシ選択 [cs.LG, cs.AI, cs.CL, cs.CR]目的:プライバシー保護混合エキスパート統合におけるプロキシ選択
    • 大規模言語モデルの性能向上のために,モデルの専門化と拡張が重要視されている。
    • データプライバシーの制約により,分散環境下での混合エキスパートモデルの統合が困難である。
    • 公開データを用いてプライベートデータの分布を近似し,専門家の学習を調整することで統合を可能にする。
    • MetaMoEは,公開プロキシデータを用いて独立して学習された専門家を統合する新しいフレームワークである。
    • 多様性を考慮したプロキシ選択により,プライベートデータの分布を効果的に近似し,ルーター学習を監督する。
    • コンピュータビジョンと自然言語処理のベンチマークにおいて,既存のプライバシー保護MoE統合手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2605.14289

  • Webエージェントは計画・実行パラダイムを採用すべきである [cs.CR, cs.AI, cs.CL, cs.SE]目的:Webエージェントにおける計画・実行パラダイムの採用
    • Webエージェントは複雑なタスクを自動化する上で重要であり,その性能向上は社会に大きな便益をもたらす。
    • 現在のLLMエージェントの多くはReActアーキテクチャを採用しているが,Web環境においては脆弱性や効率性の問題がある。
    • Webエージェントにおける計画・実行パラダイムの有効性を検証し,安全かつ効率的なWebタスク実行を目指す。
    • WebArenaのタスク分析の結果,計画・実行パラダイムは全てのタスクに対応可能であり,80%のタスクは純粋なプログラム計画で完了することが示された。
    • ReActアーキテクチャと比較して,計画・実行パラダイムはプロンプトインジェクションに対する耐性が高く,より安全なWebエージェントを実現できる。
    • Web環境における計画・実行パラダイムの普及には,セマンティックなアクションにマッピングされ,実行前に効果が予測できるツール群の整備が不可欠である。

    Link: https://arxiv.org/abs/2605.14290

  • 見ることは学習ではない:大規模視覚言語モデルの不正なファインチューニングからマルチモーダルデータを保護する [cs.CR, cs.AI, cs.CL, cs.CV, cs.LG]目的:マルチモーダルデータの不正なファインチューニングからの保護
    • 大規模視覚言語モデルの発展は目覚ましいが,データ利用に関する権利侵害のリスクが存在する。
    • 既存の対策は事後的なものが多く,権利侵害が発生した後の対応に限られる。
    • データ所有者が,未然に不正なファインチューニングを防止するための防御策を提案する。
    • MMGuardは,人間には知覚できない摂動を注入することで,学習不可能なサンプルを生成する。
    • この摂動はLVLMの学習ダイナミクスを利用し,モデルがノイズに過学習することで,推論時の性能を低下させる。
    • クロスモーダル結合の破壊により,ノイズと学習ターゲットの間に誤った相関関係を強制し,防御効果を高める。

    Link: https://arxiv.org/abs/2605.14291

  • 最小限の介入によるKV保持:設計空間の研究と多様性ペナルティ生存者 [cs.LG, cs.CL]目的:小規模な予算におけるKVキャッシュ圧縮の設計空間の探索
    • 大規模言語モデルの効率的な推論は,計算資源の制約下で重要性が増している。
    • KVキャッシュ圧縮の設計空間は複雑であり,最適な手法の選択が困難である。
    • 限られた計算資源下で,KVキャッシュ圧縮の性能を最大化する手法を開発する。
    • 既存の7つの圧縮手法は,長文数学推論タスクにおいて期待される性能を示さなかった。
    • TriAttentionの保持スコアラーに単一の修正を施した$\alpha$が,多様性ペナルティによって性能を向上させた。
    • $\alpha$は特定のモデルと予算において有意な改善を示し,最小限の修正が大規模な構造変更よりも優れる可能性を示唆した。

    Link: https://arxiv.org/abs/2605.14292

  • ReLU触媒抽象化洗練によるTransformerの精密検証 [cs.AI, cs.LG]目的:Transformerの精密検証手法
    • Transformerは安全性が必要な応用で普及しており,その検証の重要性が増している。
    • 既存手法は効率を優先し,精度を犠牲にすることが多く,誤検出が多いという課題がある。
    • 本研究は,Transformerの検証における精度向上を目指す。
    • ReLUを用いたドット積の精密な非線形境界表現により,検証精度を向上させた。
    • ルールベースおよび最適化ベースの既存手法を拡張し,効率的かつ精密な検証フレームワークを構築した。
    • 感情分析に関する2つのデータセットを用いた実験により,既存手法と比較して大幅な精度向上が確認された。

    Link: https://arxiv.org/abs/2605.14294

  • ハイブリッド離散・連続行動空間における混合勾配を用いた方策最適化 [cs.LG, cs.AI, math.OC, stat.ML]目的:ハイブリッド離散・連続行動空間における方策最適化手法
    • ロボティクス,制御,オペレーション研究などに応用可能な行動空間の構造として重要である。
    • 高次元空間では,従来の強化学習手法は勾配の質の低下や報酬の帰属問題に悩まされる。
    • シミュレータを通じた勾配の伝播と,混合勾配推定により,これらの問題を解決することを目的とする。
    • 提案手法HPOは,在庫管理や切り替え線形二次レギュレータ問題においてPPOを大幅に上回る性能を示した。
    • 連続行動の次元が増加するにつれて,性能差は拡大する。
    • 混合勾配の項構造を解析した結果,離散な最適応答近傍では,その項が無視できる程度に小さくなることがわかった。

    Link: https://arxiv.org/abs/2605.14297

  • ドメイン適応のための言語誘導事前分布 [cs.LG, stat.ML]目的:ドメイン適応における言語誘導事前分布の提案
    • ドメイン適応は,機械学習モデルの汎化性能向上に不可欠な技術である。
    • ターゲットデータが少ない場合,適切なソースドメインの選択が困難である。
    • 言語による記述を用いてソースドメインの関連性を判断し,負の転移を抑制すること。
    • 本研究では,ターゲットドメインのテキスト記述を言語モデルを用いて事前分布として活用する手法を提案した。
    • 提案手法は,ターゲットデータが少ない状況下でソースドメインの選択を導き,徐々に選択を改善する。
    • 理論的には,適切な事前分布下でオラクル冷間スタートMSEに匹敵し,事前分布の品質に関わらず漸近的に一貫性があることを証明した。

    Link: https://arxiv.org/abs/2605.14301

  • 局所遷移幾何構造の再利用のための行列空間強化学習 [cs.LG, cs.AI]目的:系列意思決定における構成的汎化
    • 複雑なタスクを効率的に学習するためには,過去の経験の再利用が不可欠である。
    • 既存手法では,局所的な遷移幾何構造やダイナミクスが十分に活用されていない。
    • 行列空間で表現された隠れた構造を利用し,効率的な知識転移を実現すること。
    • 提案手法(MSRL)は,過去の軌跡セグメントを正定値行列で記述し,共有構造を抽出する。
    • この記述子は,座標変換に対して不変であり,低次の加法信号クラスを表現できることが証明された。
    • 実験的に,MSRLは他の手法と比較して高い性能を示し,平均AUC 0.73を達成した。

    Link: https://arxiv.org/abs/2605.14304

  • ICED:解釈可能な概念分解による概念レベルの機械的アンラーニング [cs.CL, cs.IR, cs.CV, cs.AI, cs.LG]目的:視覚言語モデルにおける概念レベルの機械的アンラーニング手法
    • 視覚言語モデルは多様なタスクに応用可能だが,特定の知識を削除する際に精度劣化が生じる場合がある。
    • 従来のアンラーニングは画像やインスタンスレベルで行われるため,関連性のない情報まで削除されるリスクがある。
    • 画像内に混在する概念を分解し,ターゲット概念のみを選択的に抑制することで,精度劣化を抑制する。
    • 提案手法は,マルチモーダル大規模言語モデルを用いてタスク固有の概念語彙を構築し,視覚表現を解釈可能な形で分解する。
    • 概念レベルでの最適化により,ターゲット概念を抑制しつつ,画像内の他の情報やモデル全体の知識を保持する。
    • 実験結果から,提案手法はターゲット概念のより完全な忘却,非ターゲット知識の保持,モデルの有用性の維持に貢献することが示された。

    Link: https://arxiv.org/abs/2605.14309

  • 二値超え:GUI評価の再構築としての連続的意味的整合性 [cs.LG, cs.AI, cs.HC]目的:GUI評価における連続的意味的整合性の確立
    • GUI自動化は,ユーザーインターフェース操作の効率化に不可欠であり,様々なタスクの自動化を可能にする。
    • 従来のGUI評価モデルは二値分類に依存しており,有効なアクションとそれに類似する無効なアクションを区別できない問題がある。
    • 本研究は,GUI評価を分類問題ではなく,距離学習問題として捉え,より詳細な評価を可能にする。
    • 提案手法BBCriticは,二段階の対照学習により,指示とアクションを共通のアフォードンス空間に整合させ,二値化による構造の平坦化を解消する。
    • BBBenchは,高密度なアクション空間と階層的分類体系を組み合わせた最初のGUI評価ベンチマークであり,微細なランキング評価を可能にする。
    • BBCritic-3Bは,追加のアノテーションなしで,7Bパラメータの最先端の二値モデルを上回り,プラットフォームやタスク間のゼロショット転移性を示す。

    Link: https://arxiv.org/abs/2605.14311

  • 降水予測への介入のための誘導拡散サンプリング [cs.LG, physics.ao-ph]目的:降水量の削減介入
    • 異常な降水は社会経済に甚大な被害をもたらすため,気象制御への関心は高い。
    • データ駆動型気象予測モデルを用いた気象制御の介入研究は未開拓の分野である。
    • 物理的な妥当性を考慮した降水削減介入手法の開発を目指す。
    • 拡散モデルに基づく降水削減介入のための勾配ベースの誘導フレームワークを提案した。
    • 提案手法は,大気の状態を直接変更せず,拡散サンプリング軌跡を誘導することで降水量を削減する。
    • WeatherBench2を用いた実験により,有効な降水削減と物理的に妥当な介入が実現された。

    Link: https://arxiv.org/abs/2605.14317

  • 複雑系における解釈可能な予知保全のための意味的特徴セグメンテーション [cs.AI, cs.LG]目的:複雑系における予知保全のための意味的特徴のセグメンテーション
    • 複雑系の状態監視は重要であり,システムの信頼性向上に不可欠である。
    • 監視変数の多様性や冗長性が,故障関連情報の抽出とモデル解釈性を困難にしている。
    • 監視信号の解釈性と予測性能を両立するセグメンテーション手法を確立すること。
    • 提案手法は,監視特徴空間を主要な予測情報を含む正準成分と,周辺的な信号を含む残差成分に分解する。
    • 実験結果から,正準成分が残差成分よりも低い予測リスクを示し,故障予兆に有効な情報が集中することが示された。
    • 正準成分は,セグメント間の依存関係よりもセグメント内の整合性が高く,構造的安定性も維持される。

    Link: https://arxiv.org/abs/2605.14318

  • エージェントは教育者として準備ができているか:現実世界の教育ワークフローのための多段階ベンチマーク [cs.AI]目的:現実世界の教育ワークフローにおける言語エージェントの教育能力の包括的評価
    • 教育は重要な専門分野であり,効果的な指導は学習成果に不可欠である。
    • 既存のベンチマークでは,言語エージェントの教育能力が十分に測定されていない。
    • 教育現場で求められる,学習状態の診断や,教育的根拠に基づいた介入といった能力を評価する。
    • EduAgentBenchは,教育的判断,多段階の個別指導,LMSワークフロー完了の3つの側面から教育エージェントを評価するベンチマークである。
    • 最先端モデルの評価により,限定的な教育的判断能力はあるものの,現実世界の個別指導やワークフロー実行には至らないことが示された。
    • EduAgentBenchは,言語エージェントの教育能力を評価するための最初の理論に基づいた現実的なベンチマークとなる。

    Link: https://arxiv.org/abs/2605.14322