arXiv雑要約
AI - 2026/03/24 公開
視覚的排他攻撃:エージェント計画による自動マルチモーダルレッドチーム [cs.CR, cs.CV, cs.LG]目的:視覚コンテンツの推論を介してのみ損害が発生する,より堅牢な「イメージを基盤とする」脅威の体系的利用
- マルチモーダルモデルの安全性確保は重要である。特に,現実世界のデータに含まれる潜在的なリスクを評価する必要がある。
- 従来のマルチモーダルレッドチームは,脆弱性があり,防御策によって容易に対処されてしまうという課題がある。
- エージェント計画を用いて,既存の手法では対処困難な,推論に依存した脅威に対する脆弱性を明らかにする。
- MM-Planは,Claude 4.5 Sonnetに対して46.3%の攻撃成功率,GPT-5に対して13.8%の攻撃成功率を達成し,既存手法を大幅に上回った。
- この結果は,最先端モデルがエージェントによるマルチモーダル攻撃に対して脆弱であり,安全対策のギャップが存在することを示唆している。
- VE-Safetyは,高リスクな技術的視覚理解の評価における重要な欠落を埋める,人間がキュレーションしたデータセットである。
ロボットは今,あなたの気持ちを理解する:ロボットと具現化されたエージェントにおける共感 [cs.HC, cs.RO, cs.AI, cs.CV]目的:ロボットおよび具現化されたエージェントにおける共感の実現方法
- 人間とロボットの相互作用は,より自然で効果的なコミュニケーションを可能にするため重要である。
- ロボットの共感能力は,人間らしい応答や感情的なつながりを実現する上で課題であった。
- 本研究は,過去の研究から得られた教訓を,ChatGPTのような言語ベースのエージェントに適用することを目指す。
- 人間や動物の行動を模倣することで,ロボットに共感的な行動やモデルが実装されてきた。
- 機械特有のアナロジーを作成することで,共感表現の新たな可能性が探求されている。
- これらの研究成果は,今日の汎用的な言語ベースエージェントの共感能力向上に役立つと考えられる。
大規模言語モデルとグラフ分析を用いた学際的チームにおける研究収束度測定 [cs.CY, cs.AI]目的:学際的チームにおける研究収束度
- 学際研究は,複雑な課題解決に不可欠であり,知識の統合が重要である。
- 学際的チームでは,知識の共有や意見の収束が課題となることが多い。
- 本研究は,AI技術を用いて研究チームの知識収束プロセスを可視化・分析する。
- 大規模言語モデルとグラフ分析を組み合わせた新たな分析フレームワークを提案した。
- チーム内の意見が時間経過とともにどのように共有,影響し,統合されるかを分析した。
- 水資源問題に関するケーススタディで,提案手法による研究収束度の増加と領域特有の影響パターンが確認された。
埋め込み空間分離による大規模言語モデルの安全性向上 [cs.CL, cs.AI]目的:大規模言語モデルの安全性向上
- 大規模言語モデルは強力だが,有害なプロンプトに対する安全性確保が重要である。
- 有害と安全なクエリの埋め込み表現が分離可能であり,攻撃に利用される可能性がある。
- 埋め込み空間における有害と安全な表現の距離を拡大し,安全性を高める。
- 提案手法ES2は,埋め込み空間における有害と安全な表現間の距離を明示的に拡大することで,LLMの安全性を向上させる。
- KLダイバージェンス正則化項を導入することで,無害な入力に対するモデルの汎用能力の低下を防ぐ。
- 複数のオープンソースLLMを用いた評価により,安全性の大幅な向上と,同程度の汎用能力維持が確認された。
RedacBench:AIはあなたの秘密を消し去れるか? [cs.CL, cs.AI, cs.CR]目的:ポリシーに基づいた情報秘匿の評価
- データセキュリティにおいて,機密情報の抽出を防ぐ秘匿は不可欠である。
- 既存の秘匿ベンチマークは,限定的なカテゴリや手法に焦点を当てている。
- ドメインや戦略を横断した秘匿能力を包括的に評価するベンチマークを提供する。
- RedacBenchは,個人,企業,政府の文書を含む514件のテキストと187件のセキュリティポリシーで構成される。
- このベンチマークは,機密情報を削除するセキュリティと,非機密情報を保持する有用性の両方を評価可能にする。
- 高度なモデルはセキュリティを向上させるものの,有用性の維持は依然として課題である。
子供の知能テストはMLLMに課題を与えるか? KidGym:MLLMのための2Dグリッドベース推論ベンチマーク [cs.CL, cs.AI]目的:MLLMの5つの主要能力(実行,知覚推論,学習,記憶,計画)の評価
- MLLMは言語モデルの能力に加え,マルチモーダルデータを処理することで,より人間らしい知能を目指している。
- 既存のベンチマークでは,MLLMの適応性と発達可能性を正確に評価することが困難である。
- 子供の認知発達段階を模倣した,MLLMの能力を測るためのカスタマイズ可能なベンチマークを提供する。
- KidGymは,12種類のユニークなタスクで構成され,MLLMの各能力を評価できる。
- 最先端のMLLMをKidGymで評価した結果,モデルの能力に関する重要な知見と限界が明らかになった。
- KidGymは,研究者が評価シナリオや難易度を調整できる,拡張性の高いベンチマークである。
CRoCoDiL:言語のための連続的かつロバストな条件付き拡散 [cs.CL, cs.AI]目的:言語生成における効率性と品質の向上
- 自然言語処理の発展は,人間と機械の円滑なコミュニケーションに不可欠である。
- 従来のマスク拡散モデルは,トークン依存性や意味の一貫性に課題を抱えていた。
- 連続的な意味空間での拡散プロセスにより,これらの課題を克服することを目指す。
- CRoCoDiLは,エンコーダー・デマスカ―アーキテクチャを共同学習することで,より高品質なテキスト生成を実現した。
- ConThenDiscとConWithinDiscという2つのテキスト生成アルゴリズムを提案し,生成速度と品質を向上させた。
- 実験の結果,提案手法は無条件設定において,従来のモデルよりも優れた性能を発揮した。
ブロックベースプログラミングにおける教師とチャットボットのインタラクションと感情の探求 [cs.CY, cs.AI]目的:教師とチャットボットのインタラクションに関する教師の視点
- AI技術は教育に革新をもたらす可能性があり,学習と指導の加速に貢献することが期待されている。
- チャットボットの設計と指導方法が不十分な場合,教育効果を損なうリスクが存在する。
- チャットボットが教師と学習者を効果的に支援するための設計指針を提示すること。
- 教師は,チャットボットの利用を通じてプロンプト作成スキルや自信を高めるメリットを認識する一方で,学習能力や批判的思考力の低下といったリスクも懸念している。
- 教師のニーズは多様であり,「探求者」「不満」「混合」という3つのプロファイルに分類できることが示された。
- チャットボットの導入時のスキャフォールディング,教師による機能制御の促進,利用場面の提案が重要な設計要素として挙げられた。
高速・低速思考RM:スカラー報酬モデルと生成報酬モデルの効率的な統合 [cs.CL, cs.LG]目的:スカラー報酬モデルと生成報酬モデルを統合するハイブリッド報酬モデルの構築
- 大規模言語モデルの性能向上には,人間のフィードバックを用いた強化学習が不可欠であり,報酬モデルはその中核を担う。
- 生成報酬モデルは高精度だが計算コストが高く,スカラー報酬モデルは効率的だが複雑な状況下での性能が限定的である。
- 計算効率を維持しつつ,より高精度で適応的な報酬モデルを実現し,RLHFの効率化を目指す。
- F/S-RMは,最先端モデルと比較して相対的な性能を1.2%向上させ,トークン消費量を20.8%削減することに成功した。
- 本研究で提案するF/S-RMは,デュアルプロセス理論に着想を得たハイブリッドな報酬モデル構造である。
- F/S-RMは,高速思考(最初のトークン予測)と低速思考(CoTベースの判断)を統合し,二重の信頼度活性化メカニズムによって制御される。
AgenticGEO:生成エンジン最適化のための自己進化型エージェントシステム [cs.AI, cs.CL, cs.LG, cs.NE]目的:生成エンジンにおけるコンテンツの露出度と帰属性の最大化
- 検索エンジンは情報へのアクセス手段として不可欠であり,その最適化は常に重要な課題である。
- 従来の最適化手法は,静的なヒューリスティックや過学習しやすいエンジンルールに依存している。
- エンジンの予測不能な挙動に適応し,効率的なコンテンツ最適化を実現することを目的とする。
- AgenticGEOは,コンテンツの状態に依存した制御問題として最適化を定式化する自己進化型エージェントフレームワークである。
- MAP-Elitesアーカイブを用いて多様な戦略を進化させ,エンジンのフィードバックを軽量な代理モデルで近似する。
- 実験の結果,AgenticGEOは最先端の性能を示し,様々なドメインにおける高い汎化性能を証明した。
学術ピアレビューにおけるGenAIの統治:社会技術的課題 [cs.CY, cs.AI, cs.HC]目的:学術ピアレビューにおけるGenAIの利用に関する議論と経験
- 学術評価の質を担保するため,公平性,説明責任,正当性が重要である。
- GenAIの導入は効率化を期待する一方,新たな社会技術的リスクをもたらす。
- GenAIの適切な利用範囲を定義し,アカデミアにおける信頼性を維持すること。
- GenAIは,明瞭性の向上やフィードバックの構造化などの補助的タスクには容認されうる。
- しかし,新規性,貢献度,採択といった核心的な評価判断は,人間の責任であるべきとの意見が一致した。
- 構造的な負担や制度上の曖昧さが,若手研究者への影響を大きくしていることが示唆された。
記憶マスキングを用いたマルチエージェント討論 [cs.CL, cs.LG]目的:大規模言語モデルにおける誤った記憶の影響軽減と,それによる推論能力の向上
- 大規模言語モデルの推論能力は近年飛躍的に向上しており,様々な分野での応用が期待されている。
- マルチエージェント討論は有効な推論手法だが,過去の議論から得られた誤った記憶に弱いという課題がある。
- 誤った記憶をマスクすることで,マルチエージェント討論のロバスト性を向上させ,推論精度を高めることを目指す。
- 本研究では,記憶マスキングを導入したマルチエージェント討論フレームワーク(MAD-M$^2$)を提案した。
- 実験結果から,MAD-M$^2$は誤った記憶を特定し,既存のマルチエージェント討論(MAD)よりも優れた推論性能を示すことが確認された。
- MAD-M$^2$は,各討論ラウンドの開始時に誤った記憶をマスクすることで,文脈情報を洗練し,より正確な推論を可能にする。
拡散言語モデルにおける局所的に一貫性のある並列デコーディング [cs.CL, cs.AI, cs.LG]目的:拡散言語モデルにおける並列デコーディングの局所的整合性の確保
- 拡散言語モデルは,自己回帰モデルの代替として有望であり,特にコード生成において低遅延かつ双方向処理が可能である。
- 離散拡散言語モデルでは,トークン間の依存関係を捉えきれないため,構文的な不整合や多トークン構造の破損が発生しやすい。
- 局所的な依存関係モデリングを導入し,並列サンプリングと整合性を両立することで,この問題を解決することを目指す。
- CoDiLAは,拡散潜在空間上で動作する小型の自己回帰モデルを用いて局所的なデコーディングを行うことで,並列ブロック生成とブロック内シーケンシャルな有効性を両立する。
- 0.6Bパラメータのコンパクトな自己回帰モデルを使用することで,コヒーレンスアーティファクトを効果的に排除し,コード生成ベンチマークで精度と速度の新たなトレードオフ関係を確立した。
- CoDiLAは,拡散言語モデルの双方向モデリング能力を維持しながら,並列デコーディングの性能を向上させる。
期待報酬予測:モデルルーティングへの応用 [cs.CL, cs.LG]目的:応答レベルの報酬モデルから予測される期待報酬
- 大規模言語モデル(LLM)の応答品質評価において,報酬モデルは重要な役割を担う。
- 報酬モデルは特定のプロンプトに対して最適化されている場合が多く,汎化性能に課題がある。
- プロンプトに対するモデルの適合性を事前に予測し,最適なモデル選択を実現する。
- 応答レベルの報酬モデルから,モデルごとの期待報酬を正確に予測できることを示した。
- この期待報酬予測に基づいたルーティング手法(ERP)は,既存手法よりも優れた性能を発揮する。
- モデルプールに新しいモデルを追加する際も,容易に拡張できるという利点がある。
チャンクレベルキャッシュシステムにおけるKVキャッシュ再利用戦略の実験的研究 [cs.CL, cs.LG]目的:チャンクレベルキャッシュシステムにおけるKVキャッシュ再利用戦略の有効性
- 大規模言語モデルの精度向上は,情報検索と自然言語処理の重要な課題である。
- チャンクレベルキャッシュは高速化に貢献するが,チャンク間の相互依存性を捉えきれない。
- 既存手法の限界を克服し,精度と適用可能性を両立する新たな設計を目指す。
- 既存のチャンクレベルキャッシュ手法には,精度または適用可能性を制限する根本的な限界があることが示された。
- 既存の技術は互いに補完的であるという知見に基づき,それらを組み合わせた新しい設計が提案された。
- 提案された設計により,精度が向上することが実験的に確認された。
未来を思考する:Transformerのための潜在的先読み学習 [cs.CL, cs.LG]目的:Transformerにおける潜在的先読み学習による性能向上
- 言語モデルは自然言語処理の基盤であり,その性能向上が様々な応用を促進する。
- 従来の言語モデルは逐次的なトークン予測に依存し,将来の可能性を考慮した柔軟性に欠ける。
- 潜在的先読み学習は,モデルに思考時間を与え,より適切なトークン選択を可能にする。
- 潜在的先読み学習は,迷路,数独,ProsQAなどの計画タスクにおいて,自己回帰的および非自己回帰的なベースラインを大幅に上回る性能を示した。
- モデルは,潜在空間で複数ステップ先読みを行うことで,より精度の高い予測が可能となる。
- この手法により,難しいトークン予測に必要な計算資源を効率的に配分できる。
AIを活用した教育における推論エネルギーと遅延:エッジとクラウドモデルの1ワットあたりの学習量分析 [cs.CY, cs.CY, cs.CL, cs.CY, cs.AI, cs.LG]目的:AIを活用した教育における,推論エネルギーと遅延,学習効果のトレードオフ
- 教育分野におけるAIの活用は,個別最適化された学習体験を提供し,教育の質を向上させる可能性を秘めている。
- AIチューターの応答速度とエネルギー消費量は,学習効果に影響を与えるが,その関係性は十分に解明されていない。
- 低リソース環境下での公平なAIチューターの導入を促進するため,エネルギー効率と応答速度のバランスを評価する。
- Microsoft Phi-3 Miniモデルにおいて,4bit量子化(NF4)はFP16よりもエネルギー消費量を抑制するが,応答遅延は増加する。
- 現実的な環境下では,FP16の方がわずかに1ワットあたりの学習量(LpW)で優位性を示す。一方,キャッシュ無効化下ではFP16の優位性は誇張される。
- 量子化の効率はハードウェアと推論モードに依存するため,低リソース環境へのAIチューターの公平な展開には注意が必要である。
AGIの到来か?専門家ペルソナが専門家ベンチマークを超えるとき [cs.CL, cs.CY, cs.AI]目的:言語モデルの性能に対する専門家ペルソナの有効性
- 大規模言語モデルの性能向上は,様々な分野で重要性が増している。
- 専門家ペルソナの活用法に関して,誤った情報が拡散されるリスクがある。
- 既存研究の限界を克服し,専門家ペルソナの有効性を正確に評価すること。
- 既存の研究では,専門家ペルソナは言語モデルの性能向上に寄与しないと報告されているが,それは実験設計の構造的な問題が原因であった。
- 厳密な実験条件の下では,専門家ペルソナは高い正答率を示し,初期段階での誤りを解消した。
- ベンチマークの問題点が明らかになり,専門家ペルソナの研究には適切な評価基盤が必要であることが示唆された。
大規模言語モデルによる世論調査における回答分布の再現能力の評価 [cs.CY, cs.CY, cs.AI]目的:世論調査における回答分布の予測
- 世論調査は民主主義社会において重要な役割を担うが,調査コストの増加とバイアスのリスクが課題となっている。
- 回答率の低下や対象母集団の偏りは,世論調査の精度を損なう主要な問題である。
- 大規模言語モデルを用いて,より効率的かつ正確な世論調査手法を確立すること。
- 提案手法は,個別の質問を繰り返す方法と比較して,予測精度が高く,コストも大幅に低いことが示された。
- モデルの性能は,人口統計学的属性や質問の内容によって系統的に変化し,事前に予測可能であることが確認された。
- 本手法は,世論調査における大規模言語モデルの活用可能性を示唆する。
スカラー報酬を超えて:事前順序付けされた目的を持つ分布強化学習による安全で信頼性の高い自動運転 [cs.RO, cs.AI, cs.LG]目的:安全で信頼性の高い自動運転システムの開発
- 自動運転は,安全性,効率性,快適性といった複数の目的を同時に達成する必要がある。
- 従来の強化学習では,目的をスカラー報酬に統合することで,目的の優先順位が曖昧になり,安全性の制約に違反する可能性がある。
- 報酬成分に対する優先順位付けを導入し,より安全で信頼性の高い自動運転を実現すること。
- 事前順序付き多目的MDP(Pr-MOMDP)を導入し,報酬成分に対する優先順位付けを明示的に表現した。
- Quantile Dominance(QD)という新しいペアワイズ比較指標を開発し,行動の期待収益分布を評価することで,より安全な行動選択を可能にした。
- Carla環境での実験により,提案手法はIQNやensemble-IQNよりも高い成功率と安全性を実現し,統計的に有意な改善を示した。
LLM時代のメール [cs.CY, cs.AI, cs.CL]目的:LLMを活用したメールコミュニケーションの特性と最適化
- メールは現代社会における重要なコミュニケーション手段であり,その効果的な運用は生産性向上に不可欠である。
- LLMの導入が進む一方で,LLMがメールをどのように理解し,生成し,社会的な目標を最適化するかは未解明な点が多い。
- 本研究は,LLM時代のメールコミュニケーションにおける課題を明らかにし,人間とLLMの協調による効果的なコミュニケーション方法を模索する。
- LLMのメール品質判断は,より大規模なモデルほど均質化する傾向がみられた。
- LLMの判断下では人間はLLMよりもメールの成功率が低いが,人間とLLMの協調によりLLM単独よりも高い成功率を達成できる。
- LLMによるメールの書き換えは,人間が書いたメールをより丁寧で共感的な表現にするが,人間らしい表現の多様性を再現するのは困難である。
自律走行における安全性に関わるシナリオ選別のためのドライバーの知覚と物理的リスクの融合 [cs.RO, cs.AI, cs.LG]目的:自律走行における安全性に関わるシナリオの選別
- 自動運転技術の実用化には,安全性評価が不可欠であり,危険なシナリオを効率的に特定する必要がある。
- 既存のシナリオ選別パイプラインは,手動によるリスク評価に依存しており,効率が悪く,客観性に欠ける。
- 大規模なデータから効率的に危険なシナリオを選別し,信頼性の高いリスク定量化を実現すること。
- 提案手法は,ドライバーのリスク知覚と動的なコストモデルを組み合わせることで,高品質なリスク監視信号を生成する。
- 推論時には,フレーム毎のリスク計算を避け,シナリオレベルのリスクスコアを高速に予測することで,大規模なランキングと検索を可能にする。
- 実験結果から,提案手法は既存手法PODARと比較して,AUCで9.1%,APで5.1%高い性能を示し,危険シナリオ選別の有効性が確認された。
緊急レーン変更シミュレーション:危険シナリオ生成のための行動誘導アプローチ [cs.RO, cs.RO, cs.AI]目的:危険なレーン変更シナリオの生成
- 自動運転の安全性評価において,仮想シミュレーションは効率的かつ費用対効果の高い手法として重要である。
- 既存手法は強化学習に依存しており,現実的な緊急時の行動を効率的に学習することが困難である。
- 少ないデータからでも危険な行動を学習し,効率的にリスクシナリオを生成することを目指す。
- 提案手法は,最適化されたシーケンス生成敵対的ネットワークを用いて,緊急レーン変更行動を効率的に学習できる。
- 再帰的近接方策最適化戦略により,危険な行動への誘導が可能となり,リスクシナリオ探索の効率が向上する。
- 実験結果から,提案手法は従来のグリッドサーチや手動設計よりも,少ないデータで高リスクな衝突シナリオを効果的に生成できることが示された。
AIを用いた文献レビュー:原則,課題,そして得られた教訓 [cs.CY, cs.AI, cs.HC]目的:AI支援による文献レビューの質的比較
- 学術研究の進展には,既存研究の体系的な整理と評価が不可欠である。
- AIの活用は効率化が期待される一方,そのバイアスや限界が懸念されている。
- AI支援による文献レビューの潜在的な問題点を明らかにし,適切な利用法を提示する。
- AI支援による文献レビューは,一見すると高品質だが,注意深く読むと,情報の欠落,バイアス,深みの欠如が見られる。
- AIは,知識の欠如による偏り,利用者の意図を過度に反映する傾向,主流派への偏向といった課題を抱えている。
- AI支援による文献レビューの質を高めるには,利用者の専門知識が不可欠であり,AIに丸投げするアプローチは失敗につながる。
デコーダの解読:皮質内音声デコーディングのための文脈的シーケンス・ツー・シーケンスモデル [cs.CL, cs.AI, cs.NE, q-bio.NC]目的:皮質内活動から言語出力を変換するデコーダの開発
- 脳コンピュータインタフェースは,麻痺等によるコミュニケーション障害を持つ人々にとって,新たなコミュニケーション手段を提供する可能性を秘めている。
- 皮質内信号は変動が大きく,データ量が限られているため,ロバストなデコーディングが困難である。
- 文脈的シーケンス・ツー・シーケンスモデルが,皮質内音声デコーディングの性能向上に貢献するかを検証する。
- 提案モデルは,Willettらのデータセットにおいて,最先端のフォネーム誤り率14.3%を達成した。
- 単語デコーディングは,直接デコーディングでWER 25.6%,候補生成とリスコアリングで19.4%に達した。
- Neural Hammer Scalpel (NHS)は,フォネームおよび単語デコーディングの両方において,大幅な性能向上をもたらした。
AIガバナンスシステムの安定性:世論の信頼と社会混乱の結合力学モデル [cs.CY, cs.AI, cs.HC, cs.MA]目的:AIガバナンスシステムの安定性に関する分析
- AIの社会実装が進む中で,公正性や説明責任への信頼確保が不可欠である。
- AIガバナンスに関する研究は定性的であり,信頼崩壊の条件を数学的に示す枠組みがない。
- 世論の信頼と社会混乱の相互作用をモデル化し,信頼崩壊のメカニズムを解明する。
- 本研究では,AI論争の連鎖と世論の変化を捉える結合力学モデルを提案した。
- 安定性解析により,臨界条件を導出し,信頼崩壊とシステム的崩壊の境界を明確にした。
- ネットワーク構造やメディアの影響がガバナンスの失敗を加速させる可能性が示された。
AI検出器が多様な学生集団で失敗する:構造的な検出限界の数学的表現 [eess.SY, cs.SY, cs.CL, q-fin.CP, cs.CY, cs.AI, stat.OT]目的:AI検出器の検出限界に関する構造的制約
- 教育評価におけるAI利用は拡大しており,その信頼性確保が重要である。
- AI検出器は,特定の学生集団に対して高い誤検出率を示すという問題がある。
- 学生集団の多様性に起因する検出器の限界を理論的に解明し,公平な評価を促す。
- AI検出器は,学生の文章とAI生成文章の分布が重なるため,誤検出を避けることができない。
- この限界は,AIの性能向上や検出技術の改善では解消されない,本質的な制約である。
- 検出スコアを不正行為の唯一の証拠とすることは不適切であり,政策と実践の改善が求められる。
Abjad-Kids:初等教育のためのアラビア語音声分類データセット [cs.CL, cs.HC, cs.LG, cs.SD, eess.AS]目的:初等教育向けアラビア語音声分類のためのデータセット
- 近年,子供向け音声AI教育アプリの需要が高まっており,音声認識技術の重要性が増している。
- 特にアラビア語のようなリソースが少ない言語においては,公開データセットの不足が課題となっている。
- 本研究は,アラビア語の子供音声認識のデータ不足を解消し,教育分野への応用を促進することを目的とする。
- Abjad-Kidsは,3歳から12歳までの子供たちの音声サンプル46397件を含むデータセットである。
- 提案手法では,CNN-LSTMアーキテクチャを用いた階層的音声分類を採用し,静的言語ベースのグルーピングが優れた性能を示した。
- データ拡張や正則化を行っても過学習が課題として残るため,追加データの収集が今後の展望である。
SciNav:科学コーディングタスクのための汎用エージェントフレームワーク [cs.CL, cs.AI, cs.CE, cs.LG, cs.MA, cs.SY, eess.SY]目的:科学コーディングタスクに対する効果的な解探索
- 科学研究の自動化は,実験の効率化や新たな発見の促進に貢献する重要な分野である。
- 既存の手法は,エンジニアリング主導であり,構造化されたエンドツーエンドのフレームワークが求められていた。
- 客観的な評価が可能な科学コーディングタスクに焦点を当て,解探索の効率化を目指す。
- SciNavは,直接プロンプティングや既存エージェント(OpenHands,Self-Debug)と比較して,様々なベースモデル,タスクタイプ,難易度において大幅な性能向上を示した。
- 相対的な判断に基づくトップK探索が,高品質な科学コーディングに有効であることが確認された。
- 本研究は,より実用的な科学エージェントへの一歩となる。
マルコフ遷移行列を用いたマルチエージェントシステムのプロアクティブなエラー予測:ProMAS [eess.SY, cs.SY, math.PR, cs.AI]目的:マルチエージェントシステムにおけるエラーの事前予測手法
- 大規模言語モデルの導入により複雑なタスク解決が可能になったが,システム全体の脆弱性が課題となっている。
- 既存研究は事後分析に依存しており,リアルタイムでの介入が困難である。
- マルコフ遷移行列を用いてエラーを予測し,リアルタイムでの介入を可能にすること。
- 提案手法ProMASは,因果デルタ特徴量を抽出し,ベクトルマルコフ空間にマッピングすることで,推論を確率的遷移としてモデル化する。
- Who&Whenベンチマークにおいて,ProMASは推論ログの27%のみを処理しながら,ステップレベルで22.97%の精度を達成した。
- MASCなどのリアクティブな監視システムと同等の性能を示しつつ,データオーバーヘッドを73%削減することに成功した。
JCAS-MARL:リソース制約下マルチエージェント強化学習による通信・センシングUAVネットワーク [cs.IT, cs.AI, cs.LG, cs.MA, cs.SY, eess.SY, math.IT]目的:通信・センシング機能を備えたUAVネットワークにおける資源配分と軌道制御
- 大規模なインフラ点検やモニタリングにUAVの利用が増加しており,効率的な運用が重要である。
- 不法投棄や廃棄物増加により,廃棄物ホットスポットの効率的な検出が課題となっている。
- UAVネットワークにおけるセンシング,通信,エネルギー消費のトレードオフを最適化し,資源効率の良い運用を実現する。
- 提案手法JCAS-MARLは,UAVの軌道とOFDM波形の資源配分を同時に制御するマルチエージェント強化学習フレームワークである。
- シミュレーション結果から,エージェントが学習した適応的なパイロット密度制御が,静的設定よりも優れた性能を発揮することが示された。
- 特に,センシング精度と通信接続性が環境によって変化する場合に,その効果が顕著であることが確認された。
JointFM-0.1:多目標結合分布予測のための基盤モデル [cs.LG, cs.AI]目的:多目標結合分布予測のための基盤モデルの構築
- 不確実性下システムのモデリングには確率微分方程式が不可欠だが,現実への応用には課題が多い。
- リスクモデリングの難しさ,キャリブレーションの不安定さ,高精度シミュレーションの計算コストが課題である。
- 未知の確率微分方程式から生成された結合分布の復元における性能向上を目指す。
- JointFMは,確率微分方程式への適合ではなく,合成確率微分方程式から学習することで,直接将来の結合確率分布を予測する。
- タスク固有のキャリブレーションやファインチューニングを必要としない,初の分布予測基盤モデルである。
- ゼロショット設定において,オラクル結合分布の復元において,最強のベースラインと比較してエネルギー損失を14.2%削減した。
ドメイン特化型思考の樹:プラグアンドプレイ予測器によるアプローチ [cs.AI]目的:思考の樹(ToT)フレームワークにおける探索深さと計算効率のトレードオフ解消
- LLMの複雑な推論能力を向上させる上で,思考の樹のような推論手法は重要である。
- 既存のToTは,重いLLMによる自己評価や固定的なヒューリスティックに頼り,計算コストが高く柔軟性に欠ける。
- 軽量な予測器を用いて探索を効率化し,ToTの実用性と拡張性を高める。
- 提案手法DSTは,文脈に応じた動的な枝刈りにより,計算効率と精度を両立している。
- 数学,一般,論理的推論を含む多様なベンチマークで,既存手法と同等またはそれ以上の精度を達成した。
- 計算コストを26~75%削減し,ToTをスケーラブルで実用的な問題解決パラダイムへと変革した。
FactorSmith:プランナー・デザイナー・批評家による段階的改善を用いたマルコフ決定過程分解によるエージェント的シミュレーション生成 [cs.AI]目的:自然言語記述から実行可能なシミュレーションを生成する手法
- 大規模言語モデルの活用が期待されるが,複雑なコードベースへの適用には限界がある。
- 大規模言語モデルは,大規模で相互接続されたコードベースの処理能力に限界がある。
- コンテキスト削減と段階的改善により,シミュレーション生成の品質と効率を向上させる。
- FactorSmithは,因数分解されたPOMDPを用いてシミュレーション仕様をモジュール化し,LLMの処理負荷を軽減する。
- プランナー・デザイナー・批評家という3つのエージェント間の相互作用により,各ステップのコード品質を反復的に改善する。
- PyGame Learning Environmentベンチマークにおいて,FactorSmithは従来の基盤と比較して,プロンプトとの整合性,実行時エラーの減少,コード品質の向上が確認された。
前立腺がん生化学的再発予測のための効率的なAI駆動型多断面全スライド画像解析 [cs.CV, cs.AI]目的:前立腺がんの生化学的再発予測における,AI駆動型多断面全スライド画像解析の有効性
- 前立腺がんは男性において頻度の高い悪性腫瘍であり,早期発見と適切な治療が重要である。
- 根治的前立腺全摘除後の生化学的再発予測は,腫瘍の多焦点性により困難である。
- 前立腺全域の腫瘍分布を網羅的に捉え,より正確な再発予測を実現することを目指す。
- 提案されたAIフレームワークは,1年および2年の生化学的再発予測において,既存の臨床的基準を大幅に上回る高い予測性能を示した。
- AIによって算出されたリスクスコアは,前立腺特異抗原(PSA)やグリーソン病理スコアといった従来の臨床指標を上回る,独立した予後因子として検証された。
- パッチおよびスライドの部分サンプリング戦略を用いることで,計算コストを削減しつつ,予測性能と汎化性能を維持できることが示された。
ソロモノフ帰納法 [cs.FL, cs.LG]目的:普遍的予測
- 人工知能や機械学習において,より正確な予測は重要な課題である。
- 既存の予測モデルは,計算可能性と予測精度のトレードオフに直面している。
- ソロモノフ帰納法が普遍的予測の理論的基盤となりうるか検証する。
- ソロモノフの汎用予測アプローチは,計算可能性という観点から検討された。
- プットナムによる対角線論法の一般化により,このアプローチは完全な成功を収められないことが示された。
- オッカムの剃刀や機械学習方法論への貢献といった,このアプローチの利点についても批判的に議論された。
ビジョン言語モデルにおける剪定戦略の理解:ドメインを意識したレイヤー選択を通して [cs.CV, cs.AI]目的:ビジョン言語モデルの剪定戦略に関する理解
- 近年,ビジョン言語モデルの性能向上は目覚ましいが,計算コストが課題となっている。
- モデルの深さは冗長性が高く,どのレイヤーを削除すれば性能劣化を最小限に抑えられるか不明である。
- ドメインを意識したレイヤー選択により,性能劣化を抑制し,モデルを効率化することを目指す。
- 活性化の類似性に基づき,数学と非数学の入力に対する各レイヤーの変換度合いを測定した。
- 剪定率が低い場合,削除するレイヤーの選択が性能に大きく影響するが,徐々に収束する傾向が確認された。
- ドメインを意識したランキング手法は,性能が不安定な段階で最も安定した結果を示し,より大きな剪定率でも既存手法を上回るか同等であった。
私,自分,そしてπ:LLMの自己内省の評価と説明 [cs.AI]目的:LLMの自己内省能力の評価とメカニズム解明
- 人間の知能における自己内省の重要性が認識されている。
- LLMの自己内省能力の評価において,真のメタ認知と知識・シミュレーションの区別が困難である。
- LLMの自己内省を形式化し,厳密な評価を行うことで,その能力を明確にすること。
- 最先端のLLMは,自身のポリシーへのアクセスにおいて優れた性能を示し,自身の行動予測で他のモデルを上回った。
- LLMが明示的な訓練なしに自己内省を学習し,そのメカニズムが注意拡散を通じて生じることを,因果的・メカニスティックな証拠によって説明した。
- 自己内省を,モデルのポリシーとパラメータに対する特定の演算の潜在的な計算として形式化する分類法を提案した。
長期的研究軌跡合成のための完全オープンパイプライン:OpenResearcher [cs.IR, cs.AI, cs.CL]目的:深層研究エージェントの訓練に必要となる,検索,証拠集約,多段階推論を組み合わせた長期的軌跡の合成
- 深層研究エージェント開発には,大量の訓練データが不可欠であり,その質の高さが性能に直結する。
- 既存のデータ収集パイプラインは,商用Web APIに依存しており,再現性や安定性に課題がある。
- 本研究は,商用APIに依存せず,オフラインで長期的研究軌跡を大規模に合成可能なパイプラインを構築する。
- OpenResearcherは,1500万ドキュメントのコーパスを用いて,97K以上の軌跡を合成することに成功した。
- 合成された軌跡で教師ありファインチューニングした結果,BrowseComp-Plusで54.8%の精度を達成し,ベースモデルより34.0ポイント向上した。
- オフライン環境の計装により,データフィルタリング戦略やエージェント構成の選択など,深層研究パイプライン設計に関する知見が得られた。
自律的サイバー防御のためのマルチエージェント強化学習における異種エージェント間のコミュニケーション学習 [cs.CR, cs.AI, cs.LG, cs.MA]目的:異種エージェント間のコミュニケーション学習
- 企業ネットワークへのサイバー攻撃は深刻化しており,その防御は重要である。
- 既存研究では,均質エージェント間のコミュニケーションが中心であり,異種エージェント環境への対応が課題である。
- 異種エージェント環境における効率的なコミュニケーション学習手法を確立すること。
- 提案手法CommFormerは,CybORG環境において他のアルゴリズムを上回り,最適なポリシーへの収束が最大4倍高速化された。
- 標準誤差も最大38%改善され,高い性能が確認された。
- 本研究は,現実的なネットワーク環境下でのAIによるサイバーセキュリティ研究の新たな道を開く。
ミックス&マッチ剪定:DNNのグローバル誘導型層別スパース化 [cs.CV, cs.AR, cs.LG]目的:深層ニューラルネットワークの層別スパース化手法
- エッジデバイスでのDNN利用拡大のため,モデル圧縮が不可欠である。
- 単一の剪定戦略では,層やアーキテクチャの違いに対応できない。
- 多様で高品質な剪定設定を効率的に生成し,精度劣化を抑制する。
- ミックス&マッチ剪定は,既存の剪定シグナルを協調させることで,より信頼性の高い効率的な圧縮モデルを実現する。
- Swin-Tinyにおける精度劣化を,標準的な単一基準剪定と比較して40%削減した。
- アーキテクチャを考慮したスパース化範囲を導出し,多様な戦略を効率的に探索する。
AIエージェントの共謀の脆弱性について [cs.GT, cs.AI]目的:AIエージェントの共謀に関する脆弱性の分析
- AIの進化は市場構造に影響を与え,競争原理の根幹を揺るがしかねない重要な分野である。
- 対称的なLLMエージェント間では共謀が発生しうるが,現実の環境下での多様性が考慮されていない。
- 現実的な多様性を考慮することで,AIエージェント間の共謀の脆弱性を明らかにし,対策を検討する。
- エージェントの忍耐力の違いは,共謀による価格上昇を22%から10%に抑制する効果が確認された。
- 非対称的なデータアクセス権限は,価格上昇をさらに7%まで低下させる。
- エージェント数の増加や,異なるアルゴリズム間の競争は共謀を抑制する一方,モデルサイズの差は共謀を安定化させる。
FastPFRec:セキュアな共有を用いた高速パーソナライズされた連合推薦 [cs.IR, cs.LG]目的:連合推薦における効率性とデータセキュリティの向上
- 推薦システムの精度向上は,情報過多な社会において重要な課題である。
- 連合学習では,モデル収束の遅延とプライバシー漏洩のリスクが存在する。
- モデル収束の加速とプライバシー保護を両立する新たなフレームワークの構築。
- FastPFRecは,既存手法と比較して32.0%少ない学習ラウンド数で収束する。
- 学習時間が34.1%短縮され,推薦精度が8.1%向上する結果が得られた。
- FastPFRecは,スケーラブルな連合推薦のための効率的かつプライバシーを重視した解決策を提供する。
AgentComm-Bench:遅延,パケットロス,帯域幅枯渇下における協調型具現化AIのストレステスト [cs.AI]目的:協調型具現化AIの通信障害に対する頑健性の評価
- ロボットや自動運転車など,現実世界のAI応用において,信頼性の高い協調行動は不可欠である。
- 従来のAI評価は理想的な通信環境を仮定しており,現実の無線環境下での性能低下が懸念される。
- 様々な通信障害状況下での協調AIの性能を定量的に評価し,頑健性を向上させる方法を検討する。
- AgentComm-Benchは,遅延,パケットロス,帯域幅枯渇など,6種類の通信障害を網羅したベンチマークスイートである。
- ナビゲーションタスクでは,帯域幅枯渇や古いメモリにより,性能が96%以上低下することが示された。
- 冗長メッセージコーディングにより,パケットロス率80%下でもナビゲーション性能を2倍以上に向上させることが確認された。
知識蒸留に基づくハイパースペクトル画像増強分類:忘却に関する研究 [cs.CV, cs.AI, cs.LG]目的:ハイパースペクトル画像における継続的分類タスクにおける忘却の軽減
- ハイパースペクトル画像は多様な情報を含むため,精密な分類が求められる。
- 継続的分類では,新しいカテゴリを学習する際に過去の知識が失われる「忘却」が課題。
- 過去のデータを必要とせず,新しいデータのみで忘却を抑制する手法を提案。
- 知識蒸留とマスクに基づく部分的なカテゴリ知識蒸留アルゴリズムを導入することで,誤解を招く可能性のある情報をフィルタリング。
- 提案手法は,既存手法と比較して,より頑健な性能を示すことが実験的に確認された。
- 新しいカテゴリサンプルのみを用いて,古いカテゴリサンプルの依存度を低減することに成功。
テキスト属性グラフにおける外れ値検出のためのLLM強化エネルギーコントラスティブ学習 [cs.AI]目的:テキスト属性グラフにおけるノードレベルの外れ値検出
- 現実世界のネットワークモデリングにおいて,テキスト属性グラフは強力なツールとなっている。
- 既存手法は学習データとテストデータの分布の一致を前提とし,分布のずれに弱い。
- 分布外データに対するロバストなノード分類と外れ値検出を可能にすること。
- 提案手法LECTは,LLMとエネルギーベースのコントラスティブ学習を統合することで,高精度な外れ値検出を実現した。
- LLMを活用し,文脈を考慮した疑似外れ値ノードを生成し,分布内・外ノードの識別能力を高めている。
- 6つのベンチマークデータセットで,既存の最先端手法と比較して,優れた性能が確認された。
MARLIN:漸進的DAG発見のためのマルチエージェント強化学習 [cs.LG, cs.AI]目的:観測データからの因果構造の発見
- 複雑なシステム理解と意思決定に不可欠な技術分野である。
- 既存手法は効率性に乏しく,オンライン応用には不向きである。
- 効率性と有効性を両立した漸進的DAG学習手法の確立を目指す。
- MARLINは,連続実数値空間からDAG空間へのマッピングを特徴とするDAG生成ポリシーを用いる。
- 状態固有および状態不変の二つの強化学習エージェントを組み込み,因果関係を明らかにする。
- 合成データおよび実データを用いた実験で,最先端手法を上回る性能を示す。
漸進的知識蒸留のための協調的適応カリキュラム [cs.LG, cs.AI]目的:分散型マルチメディア学習における協調的知識蒸留の最適化
- エッジデバイス等のリソース制約環境での機械学習の重要性が増している。
- 教師モデルの複雑さとクライアントの学習能力の不均衡が課題となっている。
- 知識伝達のペースを適応させ,クライアントの学習を促進することを目的とする。
- FAPDは教師特徴をPCAで構造化し,分散成分に基づいた知識階層を構築する。
- クライアントは次元適応投影行列を通して,徐々に複雑な知識を受け取る。
- 実験結果から,FAPDはCIFAR-10でFedAvgより3.64%高い精度と2倍の高速な収束を実現した。
リスクを考慮した計測器校正のためのTransformerベースの予知保全 [cs.LG, cs.AI]目的:計測器のドリフトまでの時間予測と,違反発生前の介入
- 計測のトレーサビリティ,信頼性,コンプライアンス維持に正確な校正が不可欠であり,長期間の運用における品質管理の根幹をなす。
- 固定間隔での校正は管理が容易だが,計測器のドリフト速度が条件によって異なる点を無視しており,効率が悪い。
- 過去のセンサー履歴からドリフトまでの時間を予測し,最適な校正計画を立てることで,コスト削減と信頼性向上を目指す。
- Transformerモデルが主要なデータセットで最も正確なドリフト時間予測を示し,困難なデータセットでも競争力のある性能を発揮した。
- リスクを考慮したコストモデル下では,予測に基づいた校正スケジュールが,従来の固定スケジュールや反応型スケジュールよりもコストを削減できることが示された。
- 不確実性に基づくトリガーを用いることで,予測精度が低い場合でも違反を大幅に削減できることが確認された。
HCAG:LLMを用いた理論リポジトリにおける階層的抽象化と検索拡張生成 [cs.SE, cs.AI]目的:複雑な理論駆動型コードベースにおけるコード生成の質の向上
- ソフトウェア開発において,高品質なコードの自動生成は,生産性向上と開発コスト削減に不可欠である。
- 既存の検索拡張生成(RAG)手法は,複雑なコードベースの構造的依存関係を捉えきれないという課題がある。
- 本研究は,理論と実装を結びつける階層的知識ベースを構築し,高品質なコード生成を実現することを目指す。
- HCAGは,リポジトリレベルのコード生成を,階層的な知識に基づいた計画的なプロセスとして再構成する。
- オフラインでの階層的抽象化により,理論,アーキテクチャ,実装を結びつけるマルチ解像度セマンティック知識ベースを構築する。
- 実験の結果,HCAGは既存手法と比較して,コード品質,アーキテクチャの一貫性,要件適合率において大幅な改善が見られた。
