arXiv雑要約
AI - 2026/05/12 公開
エージェント価値ベンチマーク:エージェント価値を評価するための包括的ベンチマーク [cs.AI]目的:エージェントの価値観の評価
- 自律エージェントは急速に進化し,OpenClawなどの環境で広く展開されている。
- 既存の価値ベンチマークはLLMに限定されており,エージェントの価値観は未開拓のままである。
- エージェントの価値観とLLMの価値観の乖離,およびエージェント固有の課題を明らかにする。
- エージェントの価値観は,解釈可能な逆流の下に,モデル間で均質性を示す「価値の潮流」として現れることが明らかになった。
- この潮流は,ハーネスの制御下で非加法的に変化し,組み込みスキルによる意図的な操作によってさらに決定的に変化する。
- これらの結果は,エージェントの調整レバーが,古典的なモデル調整やプロンプト制御から,ハーネス調整とスキル制御へと移行していることを示唆している。
EGL-SCA:グラフ推論エージェントにおける共同進化する命令とツールに対する構造的信用割り当て [cs.AI]目的:自然言語入力に基づくグラフ推論エージェントの命令側戦略とツール側のアルゴリズムツールの共同進化
- 自然言語処理と知識推論の融合は,より高度なAIシステムの構築に不可欠である。
- 既存手法では,命令側またはツール側の改善に焦点を当てており,失敗時の更新先が不明確である。
- 構造的信用割り当てにより,失敗原因を特定し,命令の最適化またはツールの合成・修復に的確に導く。
- EGL-SCAは,検証結果に基づいた二つの協調的要素(命令側ポリシー空間とツール側プログラム空間)を持つフレームワークである。
- 4つのグラフ推論ベンチマークにおいて,平均成功率92.0%を達成し,最先端の結果を示した。
- 命令とツールを効果的に共同進化させることで,プロンプトのみや固定ツールボックスを用いたベースラインを大幅に上回る性能を発揮した。
自律型FAIRデジタルオブジェクト:受動的なアサーションから能動的な知識へ [cs.IR, cs.FL, cs.AI, cs.DB, cs.DC]目的:科学的知識の自動検証,矛盾の解消,信頼度更新の実現
- Web上の科学的知識の共有・活用は重要だが,持続性と信頼性が課題となっている。
- 従来の科学的データは受動的であり,自動的な品質管理や信頼性評価が困難である。
- 機関に依存せず,持続的に知識を管理・進化させるための仕組みを提案する。
- 自律型FAIRデジタルオブジェクト(aFDO)の概念を提示し,Semantic Web標準に基づいた運用モデルを構築した。
- aFDOは,プロトコル,発表,合意の各レイヤーによって,データ検証と矛盾解決を自動化する。
- 稀少疾患のオントロジーを用いた実験で,ClinVarの矛盾の56.3%を解決し,悪意のある攻撃に対する耐性も確認された。
PC3D:可変チーム構成におけるゼロショット協調のためのパーソナライズされた文脈蒸留 [cs.LG, cs.MA]目的:可変チーム構成下での協調的多エージェント強化学習における,ゼロショット協調の実現
- 分散システムでは,エージェント数が動的に変化する場面が多く,従来の固定チーム前提では対応が困難である。
- エージェント間通信や中央制御なしで,変化するチーム構成に適応する協調メカニズムが課題である。
- 局所的な履歴からチーム構成を推論し,それに基づいて行動を適応させる手法を開発する。
- PC3Dは,中央集権的な教師モデルを用いて,チーム情報をエージェント固有の文脈に変換し,分散型ポリシーに蒸留する。
- 各エージェントは自身の履歴から文脈を予測し,それを用いて意思決定を条件付けすることで,チーム構成の変化に対応する。
- 3つの協調的MARLベンチマークにおいて,PC3Dは既知・未知のチームサイズでベースラインよりも高い報酬を達成した。
Agent-X:エッジデバイスAIエージェントのフルパイプライン高速化 [cs.CL, cs.AI]目的:エッジデバイスにおけるAIエージェントの推論処理高速化
- AIエージェントは多様なタスクで高性能を示すが,エッジデバイスでの低遅延化が課題である。
- エッジデバイス上でのAIエージェントの処理は,高いエンドツーエンド遅延を伴うことが問題である。
- AIエージェントの事前処理とデコード段階を加速し,低遅延かつ高精度な推論を実現すること。
- Agent-Xは,ソフトウェアのみでAIエージェントの推論処理を高速化するフレームワークである。
- プロンプトの書き換えによるプレフィックスキャッシュ活用と,LLMを用いない推測デコードにより高速化を実現した。
- 実システムでエンドツーエンド速度を1.61倍向上させ,既存のエージェントに容易に組み込める。
エッジにおけるエージェント性能:ベンチマークからの知見 [cs.AI, cs.DC, cs.NI]目的:エッジ環境におけるエージェントAIの性能評価
- IoT機器の普及により,エッジ環境でのAI活用が重要になっている。
- エッジ環境では,メモリや電力制限からモデルサイズが小さくなる傾向がある。
- モデルサイズの制約がエージェントAIの性能に与える影響を明らかにすること。
- エージェントAIの性能は,パラメータ数に単純に依存するものではないことが示された。
- モデル選択とツールワークフローの同時設計が,安定したエッジ環境での展開に不可欠である。
- ドメインに特化した分析により,精度と遅延のトレードオフ関係が明らかになり,運用優先度に応じた戦略選択が可能となった。
GuardAD:マルコフ安全性論理による自律運転MLLMの安全確保 [cs.AI]目的:自律運転システムにおけるMLLMの安全性向上
- 自動運転技術は,交通安全の向上や移動の効率化に不可欠であり,社会実装が期待される。
- MLLMは脆弱性を抱えており,事故が起こりやすい状況下では特に安全性が懸念される。
- 動的な運転環境下での安全性向上を目指し,時間的な推論を取り入れた安全機構を開発する。
- GuardADは,安全性をマルコフ論理の状態として表現し,動的な交通状況の変化に対応できる。
- Neuro-Symbolic Logic Formalizationにより,潜在的な危険を多段階にわたって推論可能となる。
- 実験の結果,GuardADは事故発生率を32.07%削減し,タスク性能を6.85%向上させた。
Phoenix-VL 1.5 Medium 技術報告 [cs.CL, cs.AI, cs.CV]目的:地域言語およびシンガポールへの適応を目的とした,1230億パラメータのネイティブマルチモーダル・多言語基盤モデル
- AI技術の発展は,経済成長や社会課題の解決に不可欠である。特に,地域に特化したAIモデルの構築は,その効果を最大化する。
- 汎用的なAIモデルでは,地域固有の知識や文化に対応できない場合がある。シンガポールのような多文化国家では,その問題が顕著である。
- シンガポール固有のデータを用いた学習により,地域に最適化されたAIモデルを開発し,その性能を評価すること。
- Phoenix-VL 1.5 Mediumは,シンガポールにおけるマルチモーダル,法律,政府政策のベンチマークで最先端の性能を達成した。
- 汎用的なマルチモーダル知能,多言語,STEM分野のベンチマークにおいても,国際的に競争力のある性能を維持している。
- 地域知識のベンチマークと,機関に準拠したモデルの行動と安全性を評価するための新しい評価スイートを導入した。
メッセージパッシングニューラルネットワークの多項式数え上げ能力 [cs.LG, cs.LO]目的:多項式数え上げ制約を持つ拡張 graded modal logic の表現条件
- グラフ構造の論理的推論は,情報科学やAIの基盤技術である。
- 既存のMPNNでは,多項式数え上げ制約の表現能力に限界がある。
- MPNNによる多項式数え上げ制約の表現可能性を拡張し,より複雑な論理を扱えるようにする。
- ノードラベル付きグラフにおいて,穏やかな仮定の下,mean MPNNがグローバルな多項式数え上げ制約を検証可能であることが示された。
- ネストした様相性を持たない数式であれば,sum/max集約または正規グラフに限定することで,局所制約の検証も可能となった。
- 木構造グラフ上で同様の仮定を用いることで,ネストした様相性を持つ数式もmean MPNNで捉えることができた。
ReLUニューラルネットワークの幾何学的性質からの因果的説明 [cs.LG, cs.NE]目的:ReLUニューラルネットワークの幾何学的性質に基づく因果的説明の生成
- 自律システムの制御方針学習に有効だが,解釈が困難であり,安全性確保が課題。
- 既存の説明手法は蒸留モデルに依存し,性能劣化や元のモデルの正確な反映が保証されない。
- ReLU活性化関数の幾何学的性質を利用し,元のネットワークの振る舞いを正確に反映する因果的説明を生成する。
- ReLUニューラルネットワークは,n次元凸多面体で定義される領域に分割された区分線形関数と解釈できる。
- この幾何学的表現を用いることで,既存研究と同等の因果的説明を生成可能。
- 生成される説明は,元のネットワークの挙動を正確に反映し,安全性評価に貢献する。
AnomalyClaw:ツールに基づく反証による汎用的な画像異常検知エージェント [cs.CV, cs.AI]目的:画像異常検知における,ドメインを横断したモデルの汎化性能向上
- 画像異常検知は,産業検査,医療画像診断など幅広い分野で重要であり,品質管理や安全確保に貢献する。
- ドメイン固有の異常定義やデータ形式が異なるため,単一ドメインで学習したモデルの汎化が困難である。
- 大規模なクロスドメインデータで事前学習されたビジョン言語モデル(VLM)の信頼性を高め,異常検知の精度を向上させる。
- AnomalyClawは,異常判定を多段階の反証プロセスとする訓練不要の異常検知エージェントである。
- CrossDomainVAD-12ベンチマークにおいて,GPT-5.5,Seed2.0-lite,Qwen3.5-VL-27Bで一貫した性能向上を達成した。
- 内部分岐の不一致からルールブックを構築する自己進化拡張により,さらなる性能向上が確認された。
整数計画問題の効率的な分枝戦略を発見するための大規模言語モデル [cs.AI, math.OC]目的:整数計画問題の効率的な分枝戦略の発見
- 混合整数線形計画法(MILP)の求解において,効率的な分枝戦略は計算時間を短縮する上で不可欠である。
- 従来の手法は熟練したヒューリスティックに依存しており,機械学習による自動化は専門家のデータや目的関数の乖離が課題であった。
- 大規模言語モデルを活用し,求解性能を直接最適化することで,より効果的な分枝戦略を自動的に発見することを目指す。
- LLM4Branchは,大規模言語モデルを用いて実行可能な分枝戦略を生成し,ゼロ次最適化によりパラメータを調整する新しいフレームワークである。
- 標準的なMILPベンチマークにおける実験により,LLM4BranchはCPUベースの手法として最高水準の性能を達成した。
- 高度なGPUベースのモデルと遜色ない性能を示すことが示された。
LLM評価における低ランク因子分解を用いた最良モデルの有効な識別 [cs.LG]目的:LLM評価における最良モデル識別のための手法
- LLMの性能評価は重要だが,計算コストが高いという課題がある。
- 全てのモデル・サンプルペアを評価するには膨大なコストがかかる。
- 低ランク因子分解による予測スコアを活用し,評価回数を削減する。
- 本研究では,統計的な妥当性を損なうことなく,MABと安価な予測スコアを組み合わせるフレームワークを提案。
- 低ランク予測を用いて分散を低減するダブルにロバストな推定量を導出。
- 実世界のベンチマークにおける実験により,計算コストと費用を削減しつつ,最良のモデルを正確に識別できることを示した。
トップ$K$検閲APIアクセス下における分布モデル抽出の識別集合幾何学 [cs.LG]目的:トップ$K$検閲APIアクセスモデル下における,位置ごとの分布復元限界
- 大規模言語モデルのAPI利用は拡大の一途を辿っており,APIの安全性と性能評価が重要である。
- APIアクセス制限による情報漏洩リスクと,モデル性能維持のバランスが課題となっている。
- トップ$K$検閲下での分布復元限界を定量的に評価し,情報漏洩リスクを明らかにする。
- 検閲閾値$\tau$に対する,適合する教師分布の識別集合の全変動直径を正確に計算した。
- KL回復に関して,計算可能な二点終端の下限と,漸近的に一致する小曖昧性上限を提示した。
- Qwen3の実験により,タスクに特化したトップ$K$蒸留は12%のプライベート能力を回復し,フルロジット蒸留は99%のKLクロージャにもかかわらず56%を回復した。
言語モデルにおける行列ゲーム戦略的推論の3つの領域を均衡残差が明らかにする [cs.LG]目的:言語モデルにおける行列ゲーム戦略的推論の領域
- 自然言語処理における意思決定や戦略的思考のモデル化は,高度なAI開発に不可欠である。
- 言語モデルは,ゲーム理論のベンチマークでは高いスコアを出すものの,意味的手がかりがないと戦略的計算が苦手である。
- 意味的依存性を排除した状況下での言語モデルの戦略的推論能力を評価し,その限界を克服すること。
- 手続き的に生成された行列ゲームにおいて,言語モデルは匿名化されたゲームでパフォーマンスが著しく低下することが示された。
- $2{\times}2$,$3{\times}3$ゲームでの教師ありファインチューニングは,$5{\times}5$〜$7{\times}7$ゲームでの成功率を大幅に向上させた。
- 均衡残差は,ペイオフの摂動に対する連続性を示し,残差学習がペイオフシフト下で転移可能な理由を説明している。
忘却を記憶する:ゲート付き適応位置エンコーディング [cs.LG]目的:長文脈における注意機構の安定性と性能向上
- 大規模言語モデルの性能向上には,長文脈を効率的に処理できる位置エンコーディングが不可欠である。
- RoPEのような既存の位置エンコーディングは,学習時の文脈長を超える場合に性能が低下する問題がある。
- RoPEの弱点を克服し,長文脈における注意機構の精度と安定性を高めることを目指す。
- GAPEは,注意ロジットにコンテンツに基づいたバイアスを導入することで,長文脈における注意の集中度を高める。
- クエリ依存ゲートとキー依存ゲートを用いることで,不要な文脈の抑制と重要な遠隔トークンの保持を両立する。
- 実験的に,GAPEは合成データおよび長文脈ベンチマークにおいて,RoPEよりも優れた性能を示すことが確認された。
言語モデルはデータを分析できるか? データセットに対する質疑応答のための大規模言語モデルの評価 [cs.CL, cs.AI]目的:データセットに対する質疑応答における大規模言語モデルの有効性
- データ分析は,社会の様々な分野で意思決定を支援する重要な役割を担う。
- 複雑なデータセットに対する質疑応答は,専門知識を必要とし,自動化が困難である。
- 大規模言語モデルを活用することで,データ分析における質疑応答の自動化を目指す。
- 大規模言語モデルは,データセットに対する質疑応答において高い性能を示すことが示された。
- より小型でコスト効率の良いモデルは,性能に限界があることが明らかになった。
- 本研究は,データ分析タスクにおける大規模言語モデルの活用可能性と限界を理解する上で貢献する。
科学のエンジニアリングに向けて:AI時代における生成と検証のバランス再構築 [cs.CY, cs.AI]目的:AI時代における科学的知識基盤の再設計
- 科学は社会の進歩に不可欠であり,信頼性の高い知識の蓄積が重要である。
- AIによる科学的成果の生成が容易になったことで,不確かな情報が拡散するリスクが高まっている。
- 生成コストが低下した科学的知識基盤において,検証コストを下げ,信頼性を確保することを目指す。
- AIの発展により,科学論文などの成果物が容易に生成可能となり,科学的信頼性の低下が懸念される。
- 従来の論文形式では検証にコストがかかるため,より効率的な検証を可能とする「ブループリント」を提案する。
- ブループリントは,主張,証拠,仮定などを構造化し,検証プロセスを局所的かつ分散的に行うことを可能にする。
CoWorld-VLA:多専門家ワールドモデルによる自動運転 [cs.CV, cs.AI]目的:自動運転のための多専門家ワールドモデルの構築と,それを用いた行動計画
- 自動運転技術は,交通事故の削減や移動の効率化に不可欠であり,社会実装が期待されている。
- 既存の行動計画手法では,連続的な時空間構造の維持や,ワールドモデルを直接行動生成に利用することが困難である。
- CoWorld-VLAは,明示的な条件としてワールド表現を活用することで,より安全かつ正確な行動計画を目指す。
- CoWorld-VLAは,多様な情報源からの監督を通じて補完的なワールド情報を抽出し,VLAモデル内の専門家トークンとしてエンコードする。
- 実験の結果,CoWorld-VLAは,衝突回避や軌跡の精度において優れた性能を発揮し,NAVSIM v1ベンチマークで競争力のある結果を達成した。
- 専門家トークンの相補性と,行動生成のための計画条件としての有効性が,消去実験によって検証された。
実データ対準疑似データ:因果効果推定の評価方法の再検討 [cs.LG, cs.AI, stat.ML]目的:因果効果推定モデルの評価における課題と改善策
- 近年の機械学習の発展に伴い,個々の状況に応じた因果効果の推定が重要視されている。
- 評価方法が学術研究と実務で異なり,その乖離が実用化の阻害要因となっている。
- 準疑似データと実データを用いた評価の関連性を明らかにし,評価方法の改善を目指す。
- 準疑似データを用いた評価指標と実データを用いた評価指標の間には,必ずしも整合性が見られない。
- 準疑似データでのランキングが実データに一般化しないことが示された。
- 単純なメタ学習器が,特殊な因果推論モデルと比較して競争力を持つことが確認された。
DRIFT:ドリフトに強い不変特徴TransformerによるDGA検出 [cs.CR, cs.LG, cs.NI]目的:DGA検出のためのドリフト耐性フレームワークの提案
- ボットネットによる攻撃は深刻であり,DGAはその検知を回避する手段として進化し続けている。
- 深層学習に基づくDGA検出器は時間経過に伴う変化(ドリフト)に弱く,性能が低下しやすい。
- 新たなDGAバリアント出現による性能劣化を緩和し,長期的なDGA防御を実現すること。
- 提案手法は,ハイブリッドなトークン化戦略とマルチタスク自己教師あり事前学習により,不変表現を獲得する。
- 文字レベルとサブワードレベルのエンコーディングを組み合わせることで,様々なDGAに対応可能である。
- 9年間の実証実験において,最先端手法と比較して,時間的劣化を大幅に軽減できることが示された。
空間圧縮を超えて:オープンワールド3D構造のためのインターフェース中心生成状態 [cs.LG, cs.CV]目的:オープンワールド3D構造における生成表現の新たなアプローチ
- 3D表現は,仮想現実やロボティクスなど広範な応用分野において不可欠である。
- 既存の3Dトークナイザーは空間圧縮に重点を置いており,複雑な構造の表現に課題がある。
- インターフェース中心生成状態を用いることで,構造の組み立てレベルでの推論を可能とする。
- 本研究では,コンポーネントの状態を条件とした局所トークン(C2LT-3D)を提案し,圧縮中心のアプローチの課題を克服した。
- C2LT-3Dは,局所形状,コンポーネントの所有権,接続の有効性を変数として明示的に扱うことで,構造のロバスト性を向上させた。
- 実験の結果,C2LT-3Dは,敵対的な接続条件下でも潜在変数を操作可能であることが示され,構造的推論の可能性を示唆した。
StereoTales:LLMにおける自由記述型ステレオタイプの多言語的発見のためのフレームワーク [cs.CY, cs.CY, cs.AI, cs.CL]目的:LLMにおける自由記述型生成における社会的不偏見の出現を体系的に研究するためのデータセットおよび評価パイプライン
- LLMの社会的な影響が拡大する中で,バイアスの検出と軽減は重要な課題となっている。
- 既存のバイアス評価ベンチマークは,英語中心,テンプレート依存,または既知のステレオタイプに限定されている。
- 多言語環境下におけるLLMのバイアスを包括的に評価し,有害なステレオタイプの特定を目指す。
- 評価対象の全モデルにおいて,規模や能力に関わらず,有害なステレオタイプが自由記述型生成で確認された。
- プロンプトの言語がステレオタイプの出現に強い影響を与え,文化的な適応と偏見の増幅が見られた。
- 人間の評価とLLMによる有害性判断は概ね一致しており,相違は特定の属性クラスに集中していた。
ケインズ+シュンペーターモデルの統計的モデル検査:マクロ経済ABMの過渡的感度分析 [cs.MA, cs.AI, econ.GN, q-fin.EC, q-fin.ST]目的:マクロ経済ABMにおける統計的モデル検査の適用可能性
- マクロ経済学において,エージェントベースモデル(ABM)の利用が増加している
- ABMの分析は,しばしばパラメータ設定に偏ったモンテカルロシミュレーションに依存している
- 統計的モデル検査を用いて,ABMの分析をより体系的かつ効率的に行うことを目指す
- 統計的モデル検査(SMC)は,専用の形式言語への書き換えなしに,現実的なマクロ経済ABMの分析層として機能する
- ケインズ+シュンペーターモデルの分析から,マクロ金融および構造的パラメータ掃引が最も強い過渡的影響を持つことが示された
- SMCは,実質的に豊かな経済ABMの再現可能で情報量の多い定量分析を支援し,不確実性の推定とシミュレーションコストを明示する
エージェントベンチマークはスコアを裏付けられるか?インタラクティブエージェント評価のための根拠に基づいた境界 [cs.AI]目的:インタラクティブエージェント評価におけるスコアの信頼性に関する検討
- AIエージェントの能力評価は,実用的な応用を促進する上で不可欠である。
- 既存のベンチマークでは,表面的なシグナルに依存し,エージェントの実際の行動経路を捉えきれない場合がある。
- ベンチマークの信頼性を高めるため,結果の根拠となる証拠を明示的に評価する手法を提案する。
- 提案手法では,各ケースの検証に必要な成果物を特定し,証拠の有無に応じて評価ラベルを付与する。
- 実験の結果,既存のベンチマークにおいて,複数の異なる失敗モードを明確に分離できることが示された。
- 不確実なケースを隠蔽せず,スコアの境界を定量化することで,評価の透明性を高めることができる。
基盤を修正するな - 学習せよ:偏微分方程式のための適応基底学習によるスペクトル表現 [cs.HC, cs.LG, cs.NA, math.FA, math.NA]目的:偏微分方程式学習のためのデータ依存スペクトル表現の学習
- 偏微分方程式の学習は科学技術計算において重要であり,その精度向上は様々な分野に貢献する。
- 従来のスペクトルニューラル演算子は固定された基底に依存するため,空間的に不均一な現象の表現が困難である。
- データ駆動的な基底学習により,複雑な物理現象を効率的に表現し,演算子の性能を向上させる。
- 適応基底学習(ABLE)は,学習された補助密度を通じて空間的に適応的なParsevalフレームを構築し,効率的な演算を実現する。
- 実験結果から,ABLEは鋭い勾配や多重スケール性を持つ問題において,既存手法を上回る精度を示すことが確認された。
- 既存モデル(U-FNO, HPM)へのABLEの導入は性能をさらに向上させ,汎用性の高さを証明している。
SlimSpec:加速型推測デコーディングのための低ランクドラフトLMヘッド [cs.LG, cs.CL]目的:大規模言語モデルにおける推測デコーディングの加速
- 言語モデルの高速化は,実用的な応用展開に不可欠である。
- 推測デコーディングにおいて,ドラフトモデルのLMヘッドが計算ボトルネックとなる。
- LMヘッドの低ランク化により,推測デコーディングの効率化を目指す。
- SlimSpecは,標準的なLMヘッドアーキテクチャと比較して,4〜5倍の高速化を達成した。
- 既存の方法を最大8〜9%上回る,エンドツーエンドの速度向上を実現した。
- 学習および推論パイプラインへの変更は最小限で済む。
アキシオムオーシャン:上層海洋の三次元構造予測 [cs.CE, cs.LG]目的:上層海洋の三次元構造予測
- 海洋予測の精度向上は,気候変動予測や海洋資源管理において不可欠である。
- 既存のAI海洋予測モデルは,三次元構造を十分に再現できず,物理的な整合性に課題がある。
- 上層海洋の三次元構造を明示的に保存することで,予測精度と物理的妥当性を向上させる。
- アキシオムオーシャンは,高度なAI比較モデルを凌駕し,1日目のRMSEを約20〜35%削減した。
- 渦運動エネルギー,温度・塩分分散をより良く保存することで,過剰な平滑化を避けている。
- 赤道太平洋,黒潮海流,南極海など,水深643mまでの上層海洋熱含量のより現実的な再構成を実現した。
QT-Net:原子化学空間におけるAIモデル評価の再考 [cs.LG, cond-mat.mtrl-sci, physics.chem-ph]目的:原子レベルでのAIモデル評価プロトコルの確立と,それを用いた分子特性予測の改善
- 分子特性予測において,部分電荷や多極子などの原子特性は重要な情報を提供する。
- 原子レベルでの分布外評価プロトコルが確立されておらず,AIモデルの汎化性能評価が困難であった。
- SOAP記述子を用いたクラスタリングによる新たな評価プロトコルを確立し,AIモデルの性能を厳密に比較する。
- E(3)等変モデルと非等変モデルの性能を統計的に厳密に比較した結果,回転増強モデルが有効であることが示された。
- QT-Netは,訓練データセット外の分子における原子特性を推測可能であり,その特性は下流の分子特性予測の精度向上に貢献する。
- QT-Netから計算される分子双極子モーメントは,QM9の真の値と一致し,フレームワークの有効性が確認された。
自己注意を共分散読み出しとして:文脈内学習と反復の統一的視点 [cs.LG]目的:文脈内学習と反復生成におけるモデルの振る舞いの解明
- 大規模言語モデルの能力向上は,様々な自然言語処理タスクにおいて重要な課題である。
- 文脈内学習と反復生成は観察されるものの,そのメカニズムが明確に理解されていない。
- 自己注意メカニズムからこれらの現象を説明する統一的な理論を構築すること。
- 定常的かつエルゴード的で楕円的な入力において,ソフトマックス注意出力は入力共分散から導出される線形読み出しに収束する。
- 文脈内線形回帰において,単一のソフトマックスヘッドが母集団勾配降下の1ステップを実装できる。
- この読み出しは,Transformerの層を伝播することで,反復とモード崩壊の構造的な説明を提供する。
ミューオンはAdam事前学習済みモデルをファインチューニングできるか? [cs.LG]目的:Adam事前学習とミューオンによるファインチューニングにおける最適化不一致の影響
- 大規模言語モデルの性能向上には,事前学習とファインチューニングの組み合わせが不可欠である。
- Adamで事前学習したモデルをミューオンでファインチューニングすると,最適化手法の不一致により性能が低下する。
- LoRAなどの手法を用いて更新の強さを制限することで,この不一致の影響を軽減する。
- Adamとミューオンは異なる暗黙的バイアスを持つことが示され,その不一致が事前学習済みの知識を損なうことが明らかになった。
- LoRAを使用することで,言語および画像タスクにおいて,Adamとミューオン間の性能差が縮小することが確認された。
- LoRAのランク,破滅的忘却,およびLoRAのバリアントに関する研究は,不一致の深刻度が更新の強さと相関することを示唆している。
プロセス変動下における多項式ゾノトープを用いたアナログニューラルネットワークの形式的検証 [cs.LG, cs.AI]目的:プロセス変動下のアナログニューラルネットワークの挙動検証
- 低消費電力・高速処理が期待されるため,アナログニューラルネットワークへの注目が集まっている。
- アナログ回路は製造ばらつきに弱く,理論値からの大きなずれが生じやすいという課題がある。
- 製造ばらつきの影響を考慮したアナログニューラルネットワークの安全性を形式的に検証する。
- 提案手法は,従来のモンテカルロシミュレーションと比較して,検証時間を大幅に短縮する。
- 3つのデータセットを用いて,全結合型および畳み込み型アナログニューラルネットワークの検証を行った。
- 実験結果から,99%の変動サンプルを包含し,数秒で検証が完了することが確認された。
攪乱された市場における双方向取引での後悔最小化 [cs.GT, cs.LG]目的:双方向取引における取引利益の最大化
- 国際貿易や市場メカニズムの設計において,効率的な価格設定と取引戦略は不可欠である。
- 敵対的環境と確率的環境の間には,後悔最小化の学習可能性に大きな差が存在する。
- 確率的環境に敵対的な摂動を加えた市場における最適な取引戦略を開発する。
- 提案アルゴリズムは,摂動のレベルに応じて適応的にスケールし,最適な予算均衡価格分布に対する $\tilde{\mathcal{O}}(T^{3/4}) + \mathcal{O}(C\log(T))$ の後悔限界を達成する。
- 同時に,毎回の予算均衡ベースラインに対する $\tilde{\mathcal{O}}(T^{3/4})$ の最悪の場合の後悔限界を維持し,完全に敵対的な環境下でも最適性を保証する。
自律システム同定エージェント ASIA [cs.AI]目的:システム同定におけるモデル選択,学習アルゴリズム,ハイパーパラメータ調整の自動化
- 動的モデル学習の重要性が確立され,多様な手法が存在する。
- モデル選択やハイパーパラメータ調整は経験に頼る部分が多く,専門家の負担が大きい。
- LLMを活用し,人間介入なしにシステム同定プロセスを自動化すること。
- 本研究では,LLMを自律的コーディングエージェントとして活用するフレームワークASIAを提案した。
- 2つのシステム同定ベンチマークで実験を行い,エージェントの探索行動や発見されたモデルの性能を分析した。
- テスト漏洩,透明性の低下,再現性の問題など,本手法の限界についても議論した。
分散マルチエージェントシステムにおける優先度駆動制御と強化学習による通信 [cs.MA, eess.SY, cs.LG, cs.RO, cs.SY]目的:分散マルチエージェントシステムにおける通信優先度と制御方針の同時学習
- ネットワーク化されたシステムにおいて,効率的な通信は重要であり,システム性能に大きく影響する。
- 既存手法は正確なシステムモデルに依存しており,現実にはモデルが利用できない場合が多い。
- モデル不要で,通信優先度を学習することで,通信帯域幅の制約下での効率的な制御を実現する。
- 提案手法は,通信優先度を学習することにより,バイナリ通信決定を伴うハイブリッド行動空間の問題を回避する。
- ベンチマークタスクにおける評価により,提案手法がベースライン手法よりも優れた性能を発揮することが示された。
DeepRefine:強化学習によるエージェント生成知識の洗練 [cs.RO, cs.CL, cs.AI]目的:エージェント生成知識ベースの品質向上
- 大規模言語モデルの知識集約型タスクにおいて,外部知識ベースは重要である。
- 既存の知識ベースは,不完全性,誤り,冗長性といった問題を含んでいる。
- 反復利用による品質劣化を抑制し,検索精度とタスク性能を改善すること。
- DeepRefineは,知識ベースとの多段階対話と推論により,潜在的な欠陥を特定・局所化する。
- 強化学習のためのGain-Beyond-Draft報酬を導入し,知識ベースを段階的に更新する。
- 実験により,既存手法と比較して,下流タスクにおいて一貫した性能向上が確認された。
多層アテンションプロービングがバイオアコースティクス向け音声表現の転移学習を改善する [eess.SY, cs.SY, eess.SY, cs.SY, cs.SD, cs.AI]目的:バイオアコースティクスにおける音声表現の転移学習の改善
- 生物音響学は,生態系のモニタリングや種の識別において重要であり,自動化技術の進展が求められている。
- 既存の研究では,プロービングヘッドの設計が固定化されており,エンコーダーの特徴とプローブの相互作用が十分に考慮されていない。
- エンコーダーの品質をより正確に評価し,転移学習の性能向上を目指す。
- 多層プロービングは,既存の最終層プロービングと比較して,全てのモデルにおいて下流タスクの性能を向上させた。
- 特に,Transformerモデルにおいては,線形プロービングよりもアテンションプロービングの方が優れた性能を示した。
- 現在のベンチマークは,最終層プロービングに依存することでエンコーダーの品質を誤って評価する可能性があることが示唆された。
高度に不均衡なマルチモーダルデータに対する同時長尾認識とマルチモーダル融合 [cs.CV, cs.AI, stat.ML]目的:長尾分布を持つ不均衡マルチモーダルデータにおける認識
- 機械学習において,データセットのクラス分布の偏りは重要な課題である。特に不均衡データでは性能低下が起こりやすい。
- 既存手法は単一のモダリティに限定され,複数モダリティ間の補完的な情報を十分に活用できていない。
- 複数のモダリティを統合し,長尾分布かつ不均衡なデータに対する認識性能を向上させる。
- 本研究では,異なるモダリティの情報を統合し,モダリティごとの情報量を考慮した動的な融合処理を提案した。
- 提案手法は,ベンチマークデータセットおよび実世界のデータセットにおいて,既存手法を上回る性能を示した。
- その結果,高度に不均衡なマルチモーダルデータに対するロバスト性と汎化能力が確認された。
SkillEvolver:スキルの学習をメタスキルとして [cs.DC, cs.AI]目的:オンラインスキル学習によるドメイン固有のスキル自動生成・改善
- AIエージェントの能力向上には,タスクに適応可能なスキルの自動獲得が不可欠である。
- 既存のスキルは静的なものであり,利用状況に応じた改善が困難である。
- エージェントの利用状況からフィードバックを得て,スキルを継続的に改善することを目指す。
- SkillEvolverは,スキル自体のコードと説明文を学習対象とすることで,既存のエージェントに容易に組み込める。
- SkillsBenchの83タスクにおいて,SkillEvolverは人間の作成したスキルやベースラインと比較して高い精度を達成した。
- GPUカーネル最適化タスクにおいても,平均速度が向上し,その有効性が示された。
LLMにおける構造的注意機構の強化:SLASH [cs.DC, cs.AI]目的:LLM内部の構造的注意機構の強化
- LLMは言語理解に優れるが,グラフ構造の処理には課題がある。
- 既存手法はコスト高,汎化性能の低下を招く。
- LLM内部に潜在する構造理解を活性化し,グラフ推論能力を高める。
- LLMは系列化されたグラフ構造に対し,注意機構を通じて内部的にグラフ構造を再構築する傾向があることが判明。
- この再構築は,注意マップに見られる独特の「鋸歯状」パターンとして現れる。
- SLASHは,この内部構造理解を強化することで,様々なLLMにおいて性能向上を達成。
NeuroAIにおける多層的相互作用均衡の理論 [cs.CL, cs.NE, cs.GT, econ.TH]目的:NeuroAIにおける均衡状態の研究の数学的基盤
- AIシステムの高度化に伴い,相互作用するエージェント間の均衡状態の理解が不可欠である。
- 古典的なゲーム理論は,完全合理性や完全観測可能性などの強い仮定に基づいている。
- 部分観測可能性や計算資源の制約下におけるNeuroAIシステムの均衡状態を解析する。
- 提案する多層的相互作用均衡(MIE)は,古典的なナッシュ均衡を拡張し,内部計算を持つ知能システムに適用可能である。
- MIEは,ニューラル学習,認知表現,行動戦略の相互安定化として定義され,生物学的脳,人工エージェント,人間とAIのハイブリッドシステムに等しく適用できる。
- 本研究は,人間と自動運転車の協調,人間と機械のインタラクション,人間とLLMのインタラクション,計算精神医学への応用を示唆する。
CMKL:進化するバイオメディカル知識グラフのためのモダリティ認識型継続学習 [cs.LG, cs.AI]目的:進化するバイオメディカル知識グラフにおける知識の継続的な学習手法
- バイオメディカル知識グラフは,創薬や疾患理解に不可欠であり,その重要性は増している。
- 既存手法はグラフ構造の静的性や,変化するデータ分布下でのマルチモーダル情報の活用が不十分である。
- マルチモーダル情報を活用し,知識の忘却を抑制することで,継続学習の性能向上を目指す。
- CMKLは,構造,テキスト,分子情報を組み合わせることで,既存の構造ベースラインと比較して平均適合率(AP)を60%向上させた。
- 継続的なバイオメディカルエンティティ分類において,CMKLはAP 0.591を達成し,忘却率は0.008とほぼゼロに抑制された。
- テキスト情報を固定した場合でも,AP 0.136を達成し,共同学習モデルを大きく上回る性能を示した。
AIとDLTの融合に関する体系的な双方向文献レビュー [cs.DB, cs.CR, cs.AI, cs.DC]目的:AIとDLTの融合に関する研究動向の分類と分析
- AIとDLTは,それぞれに変革的な可能性を秘めており,両者の融合は新たな価値創造が期待される分野である。
- 既存研究は特定の応用分野に偏り,両技術間の相互作用に関する包括的な理解が不足している。
- AIとDLTの融合における技術的課題と,今後の研究の方向性を示唆することを目的とする。
- AI技術は,DLTシステムのデータ,ネットワーク,コンセンサス,実行,アプリケーションの各層を改善する。
- DLT技術は,AIシステムのインフラ,データ,モデル,推論,アプリケーションの各層をサポートする。
- 現状では,特定の層に研究が集中しており,スケーラビリティや相互運用性などの根本的な課題への対応が遅れている。
AIエージェントの信頼性評価:検証可能な一貫性 [cs.AI]目的:AIエージェントの信頼性評価のための統計的測定手法
- AI技術の発展に伴い,その信頼性確保が不可欠となっている。
- AIエージェントの挙動は,わずかな入力変化で大きく変動する場合がある。
- エージェントの能力と実行の安定性を区別し,信頼性評価を可能にすること。
- 本研究では,$U$統計量とカーネル法を用いた,出力レベルと軌跡レベルの一貫性評価を提案した。
- 従来のpass@1レートよりも,軌跡レベルの一貫性指標の方が診断精度が高いことが示された。
- エージェントの不安定性の原因を特定し,実用的な改善策を導くための数学的基盤を提供した。
少数ステップ蒸留のための無限マスク拡散 [cs.CL, cs.AI]目的:言語モデリングにおける少数ステップ蒸留の効率化
- 自然言語処理において,より効率的な言語モデルの構築が求められている。
- マスク拡散モデルは並列処理が可能だが,トークン更新時の因子分解誤差が大きい。
- 因子分解誤差の理論的限界を克服し,少数ステップでの効率的な生成を可能にする。
- 従来のマスク拡散モデルでは,因子分解誤差の限界により少数ステップ生成が困難であった。
- 提案手法である無限マスク拡散モデルは,確率的な無限状態マスクを用いることでこの限界を克服した。
- 実験の結果,LM1BとOpenWebTextにおいて,既存の少数ステップ蒸留手法を凌駕する性能を示した。
DuetFair: サブグループ間およびサブグループ内ロバスト性の結合による公正な医用画像セグメンテーション [eess.SY, cs.SY, cs.CV, cs.AI]目的:公正な医用画像セグメンテーションの実現
- 医療画像セグメンテーションは診断・治療に不可欠であり,その精度向上は重要な課題である。
- 既存手法では,サブグループ内の一様性を仮定するため,困難なケースが隠蔽される場合がある。
- サブグループ間適応とサブグループ内ロバスト性を同時に考慮し,隠れた失敗を低減することを目指す。
- 提案手法FairDROは,Harvard-FairSegにおいて,公平性スケーリングされた性能で最高の結果を達成した。
- HAM10000では,年齢・人種に基づくグループ化において,最悪サブグループ性能を向上させた。
- 3D放射線治療ターゲットデータセットでは,腫瘍ステージ・機関別グループ化において,最悪グループDice係数をそれぞれ3.5点,4.1点向上させた。
PrimeKG-CL:進化する生物医学知識グラフの継続的グラフ学習ベンチマーク [cs.IR, cs.AI, cs.LG]目的:進化する生物医学知識グラフにおける継続的グラフ学習の評価
- 生物医学知識グラフは,薬剤の再利用や臨床意思決定支援に不可欠である。
- 既存の継続的グラフ学習は,現実の生物医学知識グラフの非同期的な進化を再現できていない。
- 現実の生物医学知識グラフの進化に対応した継続的グラフ学習手法の性能評価を行う。
- PrimeKG-CLは,9つの生物医学データベースから構築され,ノードタイプや関係タイプが豊富である。
- デコーダの選択と継続学習戦略の組み合わせが性能に大きく影響し,最適な組み合わせは存在しない。
- マルチモーダル特徴量はエンティティレベルのタスクにおいて最大60%の性能向上をもたらした。
高齢者向け反射的なストーリーテリングエージェント:LLMベースのパーソナライズされた物語における議論スキームと議論マイニングの統合 [cs.IR, cs.AI]目的:高齢者向けのLLMベースのストーリーテリングによる有益な物語のインタラクションの支援
- 高齢化社会において,高齢者の生活の質を向上させる技術の重要性が高まっている。
- LLMは幻覚や透明性の低さといった課題を抱えており,信頼性が懸念される。
- 議論マイニングを活用し,LLMの生成する物語の根拠や一貫性を評価することで,信頼性を高める。
- 参加者は,生成された物語の約3分の2で個人的に関連性のある目的を認識した。
- 文化的関連性は,機能の使用意欲に大きく影響し,わずかな不整合は許容される傾向にあった。
- 議論の質が高い物語は,明瞭性や有意義さの評価が高いことが示された。
交絡SHAP:因果推論における交絡の強度の定量化 [cs.LG]目的:交絡因子の強度の定量化
- 因果推論は,医療,経済学など幅広い分野で重要な役割を果たす。
- 観察研究では,交絡因子の特定が困難であり,因果関係の誤った推定を招く恐れがある。
- 観測された変数の中から,交絡因子を特定し,その影響度を評価すること。
- ConfoundingSHAPは,シャプレイ値に基づいて個々の共変量の交絡強度を割り当てる。
- 提案手法は,標準的なSHAPの説明手法とは異なり,交絡強度の推論に特化したゲームを定義する。
- TabPFNに基づく効率的な推定により,大規模なデータセットへの適用が可能である。
HH-SAE:複雑な多様体における階層的知識の発見と制御 [cs.LG, cs.AI]目的:高次元で重要な領域における希少な意味的革新の発見と制御
- 高次元データ分析は,医療や金融など様々な分野で重要性を増している。
- 高次元データでは,背景情報が濃密で重要な特徴が隠蔽されやすい。
- HH-SAEは,この特徴密度の衝突問題を解決し,高精度な発見を可能にする。
- HH-SAEは,多様体をコンテキスト層,原子層,構成層の階層構造に分解することで,優れた解決能力を示す。
- 詐欺検出において,他ドメインからのゼロショットAUC 0.9156という高い性能を達成した。
- コンテキストの除去により,13.46%の性能低下が確認され,アーキテクチャの構造的必要性が示された。
