arXiv雑要約
AI - 2026/05/27 公開
知的なシステムのための制御されたメタプログラミング:eval を制御された副作用として再分類 [cs.PL, cs.AI]目的:知的なシステムにおける実行構造の動的合成
- AI技術の発展に伴い,プログラム生成や自己改善といった実行時の構造合成が不可欠となっている。
- 従来の言語では,コード表現から実行への移行が制限されておらず,セキュリティリスクや制御困難性がある。
- eval のような操作を制御し,安全かつ信頼性の高い動的構造合成を実現すること。
- 本研究では,プログラム表現を第一級の値とし,操作を純粋な計算とし,実行への移行を制御された副作用とする「制御されたメタプログラミング」を提案。
- 提案手法は,プログラムの実行前に能力要件,ポリシー準拠,リソース見積もりを分析することで,権限の増幅を抑制する。
- mashinTalkというDSLで実装し,既存のRocq定理との統合により,その有効性を実証した。
低精度がスリングショット損失スパイクを誘発する仕組み [cs.LG, cs.CL, math.OC, stat.ML]目的:スリングショットメカニズムの原因究明
- 深層学習の長期的な訓練において,損失の変動を理解することは,安定した学習を保証する上で重要である。
- スリングショットメカニズムの引き金となる要因が不明であり,その制御が困難である。
- 浮動小数点演算の精度限界がスリングショット損失スパイクの原因であることを解明する。
- スリングショット損失スパイクは,正解クラスと誤りクラスのロジット間の差が吸収誤差閾値を超えることで発生する。
- この誤差により勾配の零和制約が崩れ,分類器層のパラメータ更新に系統的なドリフトが生じる。
- このドリフトは特徴量とともに正のフィードバックループを形成し,パラメータの異常な成長とロジットの分散を引き起こす。
固定されたベンチマークと最悪の攻撃を超えて:言語モデルの動的境界評価 [cs.AI]目的:言語モデルの能力を評価するための動的境界評価手法
- 大規模言語モデルの性能評価は,その発展において不可欠であり,信頼性と安全性の向上に繋がる。
- 既存の評価方法は固定的なベンチマークに依存し,モデルの真の能力を正確に反映できない場合がある。
- モデルの境界を特定し,客観的な難易度尺度で評価することで,より正確な性能評価を目指す。
- 動的境界評価(DBE)により,安全性,能力,真実性を網羅する校正された問題バンクが構築された。
- Skill-Guided Boundary Search(SGBS)アルゴリズムは,APIアクセスのみで対象モデルの境界問題を効率的に発見する。
- DBEは既存のデータセットと互換性があり,モデルの範囲を飽和させることなくより広いスペクトルを評価できる。
GSM-SEM:意味的に変化する拡張生成のためのベンチマークとフレームワーク [cs.CL, cs.AI]目的:意味的に多様なベンチマークバリアントの生成
- 数学的推論の評価において,ベンチマークの重要性は高い。しかし,単純な性能向上だけでは能力の真の進歩が見えにくい。
- 既存の堅牢性検証は表層的な変更に留まり,問題の本質的な理解を試すには不十分である。
- モデルが新たな条件の下で解答を再計算する必要がある,より意味的に多様なバリアントの生成を目指す。
- GSM-SEMフレームワークを構築し,GSM8Kをはじめとする既存のベンチマークに適用することで,意味的な変化を加えた新たなデータセットを生成した。
- 14種類の最先端LLMを評価した結果,意味的摂動が加わることで一貫して性能が低下し,その低下率は最大で28%に達した。
- 生成された3つのSEMバリアント(GSM8K-SEM,GSM-Symbolic-SEM,GSM-Plus-SEM)を,人間による検証済みのデータセットとして公開した。
実行可能性から実用性へ:パレート最適合成計画 [cs.IR, cs.AI]目的:多目的最適化による合成ルートのパレート前線生成
- 医薬品や化学品の開発において,効率的な合成ルートの探索は不可欠である。
- 既存の合成計画支援システムは,単一の実行可能なルートを見つけることに重点を置いており,コストや環境負荷といった多面的評価が不足している。
- 多目的最適化により,様々な評価基準間のトレードオフを考慮した最適な合成ルートの選択を可能にする。
- 本研究で開発したMORetro*は,ユーザー定義の基準に基づき,合成ルートのパレート前線を生成し,トレードオフを明示的に捉える。
- MORetro*は,重み付きスカラー化とベイジアン最適化を活用し,効率的に探索空間を探索し,有望なトレードオフを優先する。
- 複数のベンチマークテストにおいて,単一目的のアプローチでは見落とされていた多様で高品質なパレート前線が生成された。
ポストトレーニングが大規模言語モデルを人間らしくしない [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルにおける人間行動との整合性
- LLMは人間行動の代替として利用が増加しており,その精度評価が重要である。
- ポストトレーニングによって,LLMが人間行動から乖離する問題が存在する。
- ポストトレーニングが人間行動との整合性に与える影響を定量的に評価する。
- ポストトレーニングは,モデルの種類,サイズ,目的に関わらず,一貫して人間行動との整合性を低下させる。
- 新しいモデル世代になるほど,このずれは拡大する傾向にある。
- パーソナ誘導は,個々のレベルでの予測精度向上には繋がらない。
ツール呼び出しは言語モデルにおいて線形に読み取り可能かつ制御可能である [cs.CL, cs.AI, cs.LG, cs.SE]目的:言語モデルにおけるツール呼び出しのメカニズム解明と制御
- 大規模言語モデルの応用範囲拡大に伴い,ツール呼び出しの信頼性が重要となっている。
- ツール呼び出しの誤りは実行時まで検出困難であり,重大な損害をもたらす可能性がある。
- モデル内部の状態を解析し,ツール選択の誤りを事前に検出・修正することを目指す。
- 言語モデルにおいて,特定のツール対ごとに活性化空間の単一の方向がツール選択を担っていることが示された。
- この方向を操作することで,モデルが選択するツールを83-100%の精度で切り替えることが可能である。
- ツール選択に迷いのあるクエリは,迷いのないクエリと比較して21倍多く失敗する傾向が確認された。
VT-Bench:視覚・表形式マルチモーダル学習のための統一ベンチマーク [cs.CV, cs.AI]目的:視覚・表形式データを用いた識別的予測と生成推論タスクの標準化
- 医療や産業など,重要な分野で表形式データが不可欠であり,その活用が求められている。
- 視覚と表形式データを組み合わせたマルチモーダル学習は発展途上であり,ベンチマークが不足している。
- 視覚・表形式データのマルチモーダル学習を促進するための統一的な評価基準を提供する。
- VT-Benchは,9つの分野にわたる14のデータセット(75万件以上)を集約した初の統一ベンチマークである。
- 既存の23モデルを評価し,視覚・表形式学習の課題を浮き彫りにした。
- 本ベンチマークが,より強力なマルチモーダル基礎モデルの開発を促進することが期待される。
CUDABeaver:LLMベースのCUDA自動デバッグのベンチマーク [cs.LG, cs.PL, cs.SE]目的:LLMベースのCUDA自動デバッグの性能評価
- GPU利用の拡大に伴い,CUDAデバッグの重要性が増している。
- 既存の評価方法では,単にテストをパスするだけで最適化構造が失われる可能性がある。
- 実際のCUDA生成時のエラーから,真にデバッグ能力を評価するベンチマークの必要性。
- CUDABEAVERは,LLMベースのCUDA生成中に発生した実際の失敗事例を基にしたベンチマークである。
- 提案する評価指標pass@k(M,C,A)は,性能維持率の変化に敏感であり,より現実的な評価を可能にする。
- 性能維持率のわずかな厳格化でも,LLMのデバッグ成功率が最大40%低下することが示された。
ラテン語からオック語への文法上の性変化の探求 [cs.CL, cs.AI]目的:ラテン語からロマンス諸語への文法上の性変化の過程
- ロマンス諸語の成立には,文法上の性の変化が不可欠であり,言語進化の重要な事例である。
- 歴史言語学における文法性の研究は,データ不足や時代による言語変化の影響を受けやすい。
- ラテン語からオック語への文法性変化を深層学習を用いて分析し,そのメカニズムを解明する。
- 従来のトークナイザが歴史言語学のデータ不足に弱いことが示され,提案手法が性能向上に貢献した。
- 形態素特徴が文法性予測に与える影響を評価し,語彙レベルでの文法性決定要因を特定した。
- 品詞カテゴリが文法性予測に与える影響を定量化し,文脈情報と語彙情報の関係を明らかにした。
検出から復旧へ:504 GPUを用いたLLM事前学習の運用分析 [cs.DC, cs.AI]目的:大規模LLM事前学習における運用状況の分析
- AI学習は分散システムが不可欠であり,ハードウェア障害は避けられない現実である。
- 大規模運用環境における障害検知と復旧に関する実証的なデータが不足している。
- 本研究は,本番環境での障害検知・復旧戦略の改善を目指す。
- 751のPrometheus指標とGPU障害データに基づき,10/10の検知率を達成(XID導入前は2/10)。
- GPU VRAMからNFSへのパスのプロファイリングにより,NFS RPC層の飽和が帯域幅パラドックスの原因であることが判明。
- 自動再試行の成功率は33.3%(12チェーン,73試行)であり,手動復旧の12.5%を上回る。再試行間隔の中央値は11分。
テスト時計算による密検索:凍結埋め込みモデルを用いたエージェント的プログラム生成 [cs.LG, cs.CL, cs.IR]目的:凍結された埋め込みモデルに対するエージェント的プログラムの探索
- 情報検索において,効率的な埋め込みモデルは重要な役割を担う。性能向上は,多様なドメインでの応用を可能にする。
- 既存の埋め込みモデルは,推論時に計算資源を活かせず,性能が制限されている。
- テスト時計算を活用し,凍結された埋め込みモデルの性能を向上させる。
- テスト時計算が,大規模な推論モデルだけでなく,小型の埋め込みモデルにも有効であることが示された。
- 144のプログラム候補を探索し,12のパレート最適プログラムが見出された。これらはコスト比1.2〜14.7を実現した。
- 探索により,Rocchio法,ColBERTスタイルのMaxSim,相補順位融合,Fisher線形判別などが再発見され,全てのMMTEB検索タスクで性能が向上した。
隠して見せる:VLM蒸留における視覚的アンカー思考のための推論接頭辞マスキング [cs.CV, cs.AI, cs.CL]目的:視覚的証拠に基づく推論能力の向上
- VLMは,画像とテキストを統合し高度な推論を行うため,多様な応用が期待されている。
- 大規模VLMの推論コストが高く,軽量なモデルへの知識蒸留が課題となっている。
- 蒸留時に推論接頭辞をマスキングし,視覚情報への依存を高めることで解決を目指す。
- 提案手法は,既存のオープンソースVLM,蒸留法,自己蒸留法を凌駕する性能を示した。
- 実験結果から,蒸留過程において学生モデルの視覚情報の利用が促進されていることが確認された。
- 推論接頭辞のマスキングと,マスキングスケジュールの自動調整が効果的であることが示された。
GraphIP-Bench:グラフニューラルネットワークの窃盗はどれほど困難か,そしてそれを阻止できるか [cs.CR, cs.AI, cs.LG]目的:グラフニューラルネットワークの窃盗の難易度と,その阻止策の有効性に関する評価
- クラウドサービスとして展開されるグラフニューラルネットワークの知的財産保護は重要である。
- モデル抽出攻撃による窃盗が懸念されるが,既存研究では評価基準が統一されていない。
- 一貫した評価基準に基づき,グラフニューラルネットワークの窃盗の難易度と対策効果を検証する。
- GraphIP-Benchは,12種類の攻撃と12種類の防御策を,10種類のグラフデータセットと3種類のGNNアーキテクチャを用いて評価する統一的なベンチマークである。
- 中程度のクエリ予算ではGNNの窃盗は容易であり,多くの防御策はこれを阻止できないことが示された。
- ウォーターマークは保護されたモデルでは信頼性が高いものの,抽出されたモデルでは検証信号が失われることがあり,防御策の限界が明らかになった。
MinT:数百万のLLMのトレーニングと提供のための管理インフラ [cs.LG, cs.AI, cs.DC]目的:大規模言語モデルのLoRA(Low-Rank Adaptation)を用いた効率的なトレーニングとオンライン提供
- 近年,大規模言語モデルの利用が拡大しており,その運用基盤の重要性が増している。
- 多数のモデルを個別に展開・管理することは,コストと手間がかかるという課題がある。
- MinTは,基盤モデルを共有し,LoRAアダプターの管理によって効率的なモデル運用を実現する。
- MinTは,1兆パラメータを超える大規模モデルに対するLoRA RLをサポートし,トレーニングと提供を検証した。
- アダプターのみの引き渡しにより,4Bのモデルで18.3倍,30BのMoEモデルで2.85倍高速化を実現した。
- MinTは,最大100万のLoRAポリシーカタログを管理し,共有の基盤モデル上で選択されたアダプターのトレーニングと提供を可能にする。
RAGは,検索が間違っていることを認識しているか?知識の衝突下における文脈適合性の診断 [cs.CL, cs.AI]目的:知識の衝突下における文脈適合性のパターン特定
- 大規模言語モデルの性能向上には,外部知識の活用が不可欠であり,RAGはその代表的な手法である。
- RAGでは,検索された文脈がモデルの知識と矛盾する場合でも,最終的な回答を左右してしまうことがある。
- RAGにおける文脈適合性のメカニズムを解明し,よりロバストな知識利用を可能にすること。
- 文脈適合性の測定は,敵対的な設定下で可能であり,標準的なRAGはTruthfulQAの誤概念注入において15.0%の精度を達成した。
- 敵対的精度向上はモデルファミリー間で転移するが,根拠と回答の因果関係は転移しないことが示された。
- 明示的な衝突分解は,時間的変動やノイズに対するロバスト性を向上させ,Epi-Scaleベンチマークでそれぞれ71.3%と69.9%の精度を達成した。
スケーラブルでエネルギー効率の良いアナログ再帰的計算のハードウェア・ソフトウェア協調設計 [cs.AR, cs.LG]目的:スケーラブルかつエネルギー効率の良いアナログ再帰的計算のハードウェア・ソフトウェア協調設計
- 常にオンのAIアプリケーションの普及に伴い,超低消費電力の重要性が増している。
- アナログ回路は低消費電力だが,再帰的アーキテクチャへの拡張はノイズの蓄積が課題であった。
- 本研究では,ハードウェア・ソフトウェア協調設計によってこの課題を解決することを目指す。
- 双安定メモリ再帰ユニット(BMRU)を用いることで,アナログノイズを大幅に抑制し,再帰的計算を可能にした。
- 回路設計とソフトウェア予測が一致し,ソフトウェアモデルが低コストでハードウェアをシミュレートできることを示した。
- 再帰的層の電力コストは線形に増加する一方,フィードフォワード層は2次的に増加するため,再帰的計算は効率的である。
アクセスタイミングの足場:教育におけるGenAIへの強化学習アプローチ [cs.CY, cs.AI, cs.HC]目的:教育におけるGenAI利用の最適なアクセスタイミング
- 教育現場でのGenAI利用が急速に普及しており,その効果的な活用法が求められている。
- GenAIの無制限な利用は,学習への依存やメタ認知機能の低下を招く可能性がある。
- アクセスタイミングを足場として捉え,学習効果とメタ認知機能を高めることを目指す。
- 強化学習による戦略的なGenAIアクセスは,制限なしの利用と比較して,客観的なテストの成績とメタ認知の正確性を向上させた。
- 完全な利用制限と比較して,タスクエラーと課題にかかる時間を削減し,両方の方法を上回る結果となった。
- 自己申告によるメタ認知の自覚レベルには,条件間で差は見られなかった。
CitePrism:引用監査と編集の完全性のための人間とAIの連携 [cs.SI, cs.AI, cs.DL]目的:引用の監査と編集の完全性に関する研究
- 学術論文の質を保証する上で,正確かつ適切な引用は不可欠である。
- 引用の監査は手作業が中心で,効率性や一貫性に課題がある。
- AIを活用して引用監査を支援し,編集作業の効率化と質向上を目指す。
- CitePrismは,LLMと埋め込みベクトルを用いた文脈推論,メタデータ検証などを組み合わせたハイブリッドなフレームワークである。
- ケーススタディの結果,人間の引用関連性ラベルとの一致度はCohen's kappa = 0.429を示した。
- CitePrismは,関連性の低い引用を全て検出し,保守的な編集スクリーニングを支援する可能性がある。
ワールドモデルにおける識別可能なトークン対応 [cs.LG, cs.AI, cs.CV]目的:長期的なロールアウトにおける時間的な不整合の克服
- 視覚的強化学習において,トークンベースのtransformerワールドモデルは優れた性能を示す。
- 長期ロールアウト時に,オブジェクトの複製,消失,変化といった時間的不整合が課題となる。
- トークンの時間的な持続性を考慮し,フレーム間のトークン対応を明確化することで問題を解決する。
- 提案手法は,既存のバックボーンに容易に組み込むことが可能である。
- Craftax-classicベンチマークにおいて,従来の最高性能を大きく上回る72.5%の報酬と35.6%のスコアを達成した。
- 4つの難易度の高いベンチマークで最先端の性能を示した。
フィルターバブルにおける残響:生成レコメンダーにおける人気バイアスの診断と克服 [cs.IR, cs.AI]目的:生成レコメンダーにおける人気バイアスの診断と軽減
- 推薦システムは情報過多な現代において,ユーザーに適切な情報を提供する上で不可欠である。
- 既存の推薦システムは,人気のあるアイテムばかりを推奨する人気バイアスに陥りやすい。
- 生成レコメンダーにおける人気バイアスの根本原因を特定し,公平な推薦を実現すること。
- 本研究では,生成レコメンダーにおける人気バイアスが,トークンレベルの最適化の欠陥とアイテムトークン化の均質性から生じると特定した。
- 提案手法Ghostは,非対称な非尤度最適化と骨格に基づくトークン化を用いることで,人気バイアスを大幅に軽減する。
- Ghostは,全体的な推薦精度にわずかな低下を伴いながら,より公平な推薦を促進することが実験的に示された。
サプライチェーン管理における自律型AIエージェントの信頼性と有効性 [cs.AI, cs.LG, cs.MA, cs.SY, eess.SY]目的:サプライチェーンにおける自律型生成AIエージェントの性能評価
- サプライチェーンはグローバル経済の基盤であり,効率化と最適化は不可欠である。
- AIエージェントの導入は期待されるが,その信頼性や安定性に課題が残る。
- AIエージェントの意思決定の不安定性に着目し,その改善策を提案する。
- MITビールゲームを用いて検証した結果,高性能なAIモデルは人間のパフォーマンスを上回る。
- しかし,AIエージェントは「エージェントムチウチ」と呼ばれる意思決定の不安定性を示すことが判明した。
- GRPOに基づく強化学習による後学習により,不安定性を低減し,信頼性を向上させることができた。
RSD:学習されたベクトルブロックに対する局所的な三角測量監査基本要素 [cs.CL, cs.LG]目的:学習されたベクトルブロックの局所的な監査手法
- 機械学習モデルの解釈可能性向上は,信頼性と安全性の確保に不可欠である。
- 既存手法では,モデルの局所的な振る舞いを詳細に分析することが困難である。
- ベクトルブロックの内部構造を明らかにし,モデルの挙動をより深く理解すること。
- 提案手法RSDは,ベクトルブロックと弱いサイド信号を比較し,その関係性を詳細に分析する。
- RSDは,シンプレックスメンバーシップと座標極を組み合わせることで,座標残差を効率的に算出する。
- 実験結果は,RSDがモデルの監査において有用な情報を提供することを示唆している。
GraphMind:運用トレースからの自己進化型ワークフロー自動化 [cs.AI]目的:運用トレースからのワークフローグラフの構築・実行・進化
- システム運用において,人員・ツール・情報を連携させる複雑なワークフローは不可欠である。
- 完全な自動化には,人的介入の多さや時間経過に伴う適応性の欠如が課題となっている。
- 人的な労力を最小限に抑え,時間と共に適応可能なワークフロー自動化を実現すること。
- GraphMindは,運用トレースからワークフローグラフを構築し,多エージェントによる探索エンジンを用いて動的に実行する。
- 適応型探索強化学習(ATR)により,実行フィードバックに基づいたグラフの適応が可能となり,幻覚発生率を26%削減した。
- 12週間の実運用試験では,97%の会話で実用的な結果が得られ,実用価値が確認された。
AMARIS:評価基準に基づく強化学習のための記憶増強された評価基準改善システム [cs.LG, cs.AI, cs.CL]目的:評価基準の改善
- 大規模言語モデルの微調整には強化学習が有効であり,解釈可能な報酬信号が重要である。
- 既存の適応型評価基準は局所的な情報に基づいて更新されるため,長期的な傾向を捉えにくい。
- 訓練中の診断情報を活用し,繰り返し発生する失敗に対処し,基準の改善を促す。
- AMARISは,過去のロールアウト分析や評価基準の更新履歴を記憶に保存し,関連性の高い情報を検索して評価基準を改善する。
- 科学,医学,指示実行,創作の分野で,既存手法と比較してGPQA-Diamondで+2.8点,IFBenchで+2.2点の性能向上を確認した。
- 記憶を用いることで,評価基準の変動を抑え,初期の失敗修正から後のカリキュラムの高度化への移行を支援する。
球状KV:効率的な長文脈推論のための角度領域アテンションとレート歪み保持 [cs.LG, cs.CL, cs.IT, math.IT]目的:長文脈推論におけるKVキャッシュ効率の改善
- 大規模言語モデルの性能向上には,長文脈を処理する能力が不可欠である。
- 長文脈の処理には,KVキャッシュのサイズとHBMへのアクセスがボトルネックとなる。
- 角度領域アテンションとレート歪み保持により,KVキャッシュのサイズを削減し,効率的な推論を実現する。
- 球状KVは,KVの割り当てをアテンション幾何学に基づいたレート歪み問題として捉えることで,効率的なデコードを実現する。
- 角度領域アテンション(ADA)は,キーを球面パラメータで表現し,密なキーを再構築することなくアテンションロジットを計算する。
- レート歪み保持(RDR)は,トークンとヘッドごとに保持/破棄の決定と精度レベルを共同で選択し,軽量なメタデータを持つページを作成する。
FLUIDSPLAT:疎なセンサーからの物理場の再構成:ガウス素元による手法 [cs.LG, cs.AI]目的:疎なセンサーデータからの連続流体場の再構成
- 空力設計,流れ制御,デジタルツイン等の分野において,物理場の正確な把握が不可欠である。
- 既存手法では,センサーデータの空間的な解釈が難しく,観測データ数に応じた表現能力の調整が課題である。
- ガウス素元を用いた新しいモデルを提案し,観測データ数の制約下での再構成精度向上を目指す。
- 提案手法FLUIDSPLATは,解釈可能なガウス素元を空間的に配置し,流体場を表現する。
- 理想的な推定器に対する理論的解析により,素元数と再構成精度の関係が明らかになった。
- 複数のベンチマークにおいて,既存手法と比較して11-28%の誤差低減を達成した。
発見可能なエージェント知識 -- エージェントによるKGアフォードンスのための形式的フレームワーク(拡張版) [cs.AI]目的:エージェントによる知識グラフ(KG)の選択,構成,および障害診断を可能にする形式的フレームワークの提示
- 知識グラフは,多様な応用分野で重要な役割を担うため,その有効活用が求められている。
- 現在のKGメタデータ標準は,KGの内容記述に留まり,エージェント固有の知識や推論能力を考慮していない。
- エージェントがKGを適切に利用するためのアフォードンス(利用可能性)を形式的に定義し,KG選択の指針を示す。
- 本研究では,意味的表現力,エージェントによる発見可能性,タスク相対的根拠付け,および認識的信頼範囲という4つの次元からなるフレームワークを提案した。
- このフレームワークは,知識グラフの選択,構成,および障害診断において,エージェントが利用できるアフォードンス構造を明確化する。
- 学術検索タスクを例に具体的な応用を示し,アフォードンスマッチングの実現に向けた課題を提示した。
分散学習におけるバックドア攻撃検出のための近傍地域活用 [cs.CL, cs.CE, cs.LG]目的:分散学習におけるバックドア攻撃の検出
- 分散学習はプライバシー保護やスケーラビリティに優れるため,近年注目されている機械学習の手法である。
- 分散学習の協調的な性質はバックドア攻撃に対して脆弱であり,既存の防御策は分散学習の制約を考慮していない場合がある。
- 本研究は,中央コーディネーターやトリガーの事前知識を必要とせず,分散学習に特化したバックドア検出メカニズムを提案する。
- 提案手法Argusは,受信したモデル更新をローカルで分析し,潜在的なバックドアトリガーを特定する。
- ノードはトリガーを近傍と共有し,構造的類似性指標を用いて真のバックドアと誤検知を分離する。
- Argusは,攻撃成功率を最大90ポイント削減し,モデルの有用性をわずか5パーセントポイント以内で維持することが示された。
ProcCtrlBench:LLMコーディングエージェントにおけるプロセスレベルの欠陥と制御維持の評価 [cs.SE, cs.AI]目的:LLMコーディングエージェントの実行プロセス評価
- LLMの活用が拡大する中で,その信頼性評価が重要になっている。
- 既存の評価指標は最終的な結果のみに焦点を当て,実行中の欠陥を見落とす場合がある。
- 実行プロセス中の欠陥を捉え,LLMの制御維持能力を定量的に評価すること。
- ProcCtrlBenchは,11種類の欠陥タイプを網羅するプロセス欠陥のオントロジーを構築した。
- 従来の最終結果に基づく評価では見過ごされがちな,実行品質の違いを明らかにすることができた。
- 制御維持の指標を用いることで,実行の解釈可能性,中断可能性,修正可能性などを定量化できることを示した。
歩行者の行動の不確実性を考慮した安全な自動運転のためのマルチエージェント強化学習 [cs.LG, cs.AI, cs.HC, cs.RO]目的:歩行者の行動の不確実性下における安全な自動運転のためのマルチエージェント強化学習によるシナリオ生成と評価
- 自動運転システムの安全性評価は重要であり,現実的なシナリオでのテストが不可欠である。
- 従来のシミュレーションでは,歩行者の行動が事前にプログラムされたものであり,現実の多様性や不確実性を捉えきれていない。
- 歩行者と自動運転車を同時に学習させることで,より現実的なインタラクションを創出し,安全性を高めることを目指す。
- 共同学習により,従来のルールベースのベースラインと比較して,目標達成率が向上し,衝突率が低下した。
- 自動運転車は,歩道利用者近傍で速度を上げることが確認され,無秩序な横断歩行への備えが不足していることが示唆された。
- 共同学習は,歩行者が自動運転車に接近する際の待ち時間を学習し,衝突を減少させる効果が確認された。
Weasel:ウェブエージェントにおける重要度と多様性を考慮したデータ選択によるドメイン外汎化 [cs.LG]目的:ウェブエージェントのオフライン学習のための軌跡選択手法
- ウェブエージェントは自然言語の指示に従いウェブを操作する強力なツールであり,その性能向上は重要である。
- 特定のドメインで学習したエージェントは,異なるドメインへの汎化が難しく,学習コストが高いという課題がある。
- 学習データ内の重要かつ多様な軌跡を選択することで,汎化性能の向上と学習コストの削減を目指す。
- Weaselは,軌跡ステップの重要度と状態,ウェブサイト,インタラクションパターンの多様性をバランスさせることで,限られた計算資源で効率的な学習を実現する。
- 対象中心のAXTreeプルーニングにより効率をさらに高め,モデル生成された一貫性のある理由付けにより,推論モデルのスタイルミスマッチを軽減する。
- AgentTrekやNNetNavなどのデータセットで,WebArena,WorkArena,MiniWobでの評価により,Weaselはドメイン外の性能を向上させながら,学習コストを削減できることが示された。
AgentAtlas:LLMエージェントの成果ランキングを超えて [cs.AI, cs.CL, cs.LG, cs.SE]目的:LLMエージェントの評価に関する診断的語彙および監査プロトコル
- LLMエージェントの活用が拡大する中で,その性能評価の重要性が高まっている。
- 従来の評価は最終的なタスク成功のみに焦点を当て,エージェントの行動プロセスが詳細に分析されていない。
- エージェントの意思決定の質や行動軌跡を評価し,より詳細な診断を可能にすること。
- 本研究では,エージェントの意思決定を分類するための6つの状態(Act/Ask/Refuse/Stop/Confirm/Recover)を定義した。
- 行動軌跡における失敗原因と影響を記述するための語彙を提示し,15の既存ベンチマークに対する網羅性を評価した。
- 提示された分類体系を用いた評価では,ラベルの提示方法や軸の選択がランキングに影響を与える可能性を示唆された。
マトリョーシカ概念ボトルネックモデル [cs.LG]目的:解釈可能な深層学習のための,適応的な概念利用
- 深層学習の解釈性は重要であり,モデルの意思決定プロセスを理解することが求められている。
- 従来の概念ボトルネックモデルは,専門家による介入コストが高いという課題があった。
- 本研究では,介入コストを削減しつつ,効率的な専門家とのインタラクションを実現することを目指す。
- マトリョーシカ概念ボトルネックモデル(MCBM)は,概念をネストされた階層構造で組織することで,単一モデル内で複数の概念粒度での推論を可能にする。
- 理論的に,MCBMは期待される介入コストを線形から対数オーダー($O(\log K)$)に削減することが示された。
- 実験的に,MCBMは独立して訓練されたモデルと同等の性能を達成し,動的かつ効率的な専門家とのインタラクションを実現した。
宣言的データサービス:データシステムの構築のための構造化エージェント探索 [cs.AI]目的:データシステム構築における構造化エージェント探索の枠組み
- データシステムの複雑化に伴い,効率的な構築手法が求められている。
- 既存手法では,異種データソース間の知識の統合とシステム全体の実行可能性の検証が困難。
- 宣言的なユーザー意図に基づき,探索空間を限定することで,データシステム構築の安定化を図る。
- 宣言的データサービス(DDS)は,意図,演算DAG,システムスキル,実行時帰属という4つの型付き契約層を持つ。
- DDSは,各層でのサブエージェント探索と,知識の流れを促進する仕組みを提供することで,複雑なシステム構築を可能にする。
- 取引バックエンドのワークロードでの実験により,DDSは無制限探索では収束しないケースでも収束し,実行時エラーをスキルパッチとして活用できることを示した。
Transformerの汎化性能に関する鮮明な考察 [cs.LG, cs.AI]目的:Transformerの汎化性能の理論的限界
- Transformerは自然言語処理の基盤であり,その性能向上は重要な課題である。
- Transformerの汎化性能は,データ量やモデルサイズに依存するが,そのメカニズムは未解明な部分が多い。
- 標的関数のフーリエスペクトルに着目し,PAC-Bayes理論を用いて汎化性能を評価する枠組みを提案する。
- 標的関数のスペクトルが低次数成分に集中している場合,汎化性能の高い平坦な最小値が存在することが示された。
- Chain-of-thought推論が,高次数標的関数に対して汎化性能を向上させる理由を理論的に説明した。
- 提案手法における複雑性パラメータは,プロパティテストを用いて効率的に推定可能であることが示された。
ScenePilot:自律運転のための境界駆動型重要シナリオ生成 [cs.AI]目的:自律運転システムの評価に不可欠な重要シナリオの生成
- 自動運転システムの安全性評価において,重要シナリオの探索は不可欠である。
- 自然な走行データからは重要シナリオが稀であり,シミュレーションによる検証が課題である。
- 物理的制約と自律運転システムの限界を踏まえ,現実的な重要シナリオを生成する。
- ScenePilotは,物理的実現可能性と自律運転システムの限界を考慮したシナリオ生成フレームワークである。
- 制約付き多目的強化学習を用いて,衝突率を向上させつつ物理的妥当性を維持する。
- 生成された境界付近のシナリオで微調整することにより,実際の事故率を減少させる効果が確認された。
BlockFormer:相互作用マップからのTransformerに基づく推論 [cs.LG, q-bio.QM]目的:相互作用マップからのパラメータ推定
- ゲノム解析において,染色体の構造理解は重要であり,Hi-C等の技術が活用される。
- 相互作用マップの解釈には課題があり,実データにおける多様性への対応が求められる。
- Transformerアーキテクチャを用いた手法により,多様なデータに対応した高精度な推定を目指す。
- 本手法は,多様なゲノムサイズの種において,セントロメアの位置を高精度に予測可能である。
- Transformerアーキテクチャが,相互作用マップの共有構造と可変性を効果的に捉えている。
- シミュレーションデータを用いた学習により,データ効率の良いモデル構築を実現している。
LLMにおける層ごとの学習率:重い裾分布に基づく層別学習率 [cs.NI, cs.LG, cs.AI]目的:大規模言語モデルの層ごとの学習率調整
- TransformerはLLMの基盤として重要だが,その構造的異質性が活用されていない。
- Transformerの各層は異なる特性を持つため,一律の学習率では最適化が難しい。
- 重い裾分布を利用し,各層に最適な学習率を自動的に設定することで,学習効率と汎化性能を向上させる。
- 提案手法LLRは,層ごとの重い裾分布の度合いに応じて学習率を調整する。
- LLaMAやGPT-nanoなどの様々なモデルとスケールで,学習速度が最大1.5倍向上し,一律学習率よりも高い性能を示す。
- 10億パラメータモデルと30億パラメータモデルのゼロショット精度がそれぞれ1.93%と2.03%向上した。
BioFormer:生体時系列データのスペクトル構造アラインメントによる分野間汎化の再考 [cs.LG, cs.AI]目的:生体時系列データにおける分野間汎化性能の向上
- 医療分野における時系列データ解析は,個別差が大きいことが課題であり,精密な診断や治療に不可欠である。
- 既存手法では,被験者固有の変動を暗黙的に抑制する傾向があり,変動の構造的な理解が不足している。
- スペクトル構造アラインメントを通じて,被験者間変動を明示的にモデル化し,汎化性能を高めることを目指す。
- BioFormerは,周波数帯域アラインメントモジュール(FBAM)を用いて,スペクトル分布から変調因子を生成し,振幅と位相を適応的に調整することで,スペクトル構造をアラインメントする。
- FBAMとサンプル条件付き層正規化を組み合わせることで,被験者IDではなく信号固有の統計量から正規化パラメータを推論し,被験者間表現を安定化させる。
- 6つのデータセットにおける実験により,BioFormerは12のベースラインを上回り,F1スコアを平均6%絶対的に向上させた。
Search-E1: 検索拡張推論における自己蒸留が自己進化を促進する [cs.AI, cs.CL, cs.IR]目的:検索拡張推論エージェントの性能向上
- 大規模言語モデルの推論能力向上は,様々な分野での応用を可能にする重要な課題である。
- 既存手法は外部リソースへの依存度が高く,環境構築や学習コストが課題となっていた。
- 自己蒸留と強化学習のみで,外部リソースに依存しない性能向上を目指す。
- Search-E1は,Qwen2.5-3Bを用いて7つのQAベンチマークで平均EMスコア0.440を達成し,既存のオープンソースベースラインを上回った。
- 本手法は,外部からの監督や複雑なモジュールを追加することなく,自己進化を通じて性能向上を実現した。
- シンプルな枠組みでありながら,効率的な学習と高い性能の両立を可能にした。
ニューラルフロー演算子は任意の演算子を近似可能:抽象的フレームワークと普遍的近似 [cs.LG, cs.NA, math.NA]目的:ニューラルネットワーク及びニューラル演算子に対する抽象ニューラルフローフレームワーク
- 機械学習における関数近似と演算子近似は,複雑な問題を解決するための基盤技術である。
- 既存のモデルは,無限次元空間における演算子の近似に関する普遍的な定理が不足している。
- 無限次元空間間の演算子近似を含む,ニューラルフローの普遍的な近似性を証明すること。
- 本研究では,組成構造と分離構造を持つニューラルフローという2つの連続深度モデルを提示した。
- 提案フレームワークは有限次元関数近似と無限次元演算子近似の両方を網羅し,普遍的近似性を証明した。
- 適切な時間離散化により,残差ネットワーク型アーキテクチャや単純なアーキテクチャへの統一的なアプローチを示した。
CogAdapt:臨床用心電図基礎モデルをウェアラブル認知負荷評価へ転移するための誘導適応 [cs.LG, cs.AI, cs.HC]目的:ウェアラブル心電図を用いた認知負荷評価のための臨床用心電図基礎モデルの適応
- 適応的な人間-コンピュータ相互作用にはリアルタイムな認知負荷評価が不可欠であり,その重要性は高い。
- ラベル付きデータの不足と被験者間での汎化性能の低さが,認知負荷評価の課題となっている。
- 本研究は,臨床用心電図基礎モデルをウェアラブルデバイスへ適応させ,認知負荷評価の精度向上を目指す。
- CogAdaptは,ウェアラブル3誘導信号を解剖学的に整合性のある12誘導表現に変換するLeadBridgeを導入した。
- ProFineという漸進的なファインチューニング戦略により,キャタストロフィックフォージェッティングを防ぎつつ,エンコーダ層を徐々に解放した。
- CLAREとCL-Driveのデータセットにおいて,既存手法を大幅に上回り,macro-F1スコア0.626と0.768を達成した。
AIを活用したビデオ監視による自殺リスク評価:メトロ駅における予防のための解釈可能なフレームワーク [cs.CL, cs.IR, cs.CV, cs.AI]目的:メトロ駅における自殺リスク評価のための解釈可能なフレームワーク
- 公共交通機関における安全確保は重要であり,特にメトロ駅での自殺予防は喫緊の課題である。
- ビデオ監視からの自殺リスク評価は,人間の行動理解,空間認識,時間的変化の把握が困難である。
- リアルな監視データを用いて,自殺リスクを蓄積された証拠から評価するフレームワークを構築し,早期介入を可能にする。
- 本研究では,人物追跡,行動認識,プラットフォームのセマンティックセグメンテーションを統合した自殺リスク評価タスクを定式化した。
- 提案フレームワークは,リアルな監視データで83.2%のROC-AUCを達成し,自殺リスク評価の複雑さを明らかにした。
- 解釈可能なAIシステムによる社会貢献の新たな方向性を示唆している。
情報融合による文書分類パターン認識:マルチモーダルおよびマルチビュー表現アプローチの系統的レビュー [cs.CL, cs.CL, cs.AI]目的:文書分類における情報融合の有効性に関する体系的な分析
- 文書分類は情報検索や知識発見において不可欠であり,その精度向上は重要な課題である。
- 情報融合のアプローチが多様化する中で,統一的なフレームワークや定量的な評価が不足している。
- マルチモーダル・マルチビュー表現による文書分類の有効性を定量的に評価し,実践的な指針を示す。
- 情報融合は文書分類の精度を有意に向上させ,平均で5.28%ポイントの改善が見られた (p=0.0016)。
- マルチビュー融合は,精度,F1スコア,再現率において一貫した改善を示したが,その効果は控えめであった。
- 多くの研究において統計的検証が不十分であり,結果の信頼性が損なわれていることが判明した。
拡散報酬を用いたDiff-Instruct:原理に基づいたワンステップ生成器RL [cs.CV, cs.AI, cs.LG]目的:ワンステップ画像生成器の強化学習における報酬と生成ダイナミクスの不整合の解消
- リアルタイム性を重視した画像生成技術の発展が求められており,効率的な生成モデルが重要である。
- 既存手法では,報酬最適化と生成ダイナミクスの不一致により,画像品質が損なわれる場合がある。
- 報酬と生成ダイナミクスを整合させ,画像品質を維持しつつ報酬を最大化することを目指す。
- 提案手法であるDIDRは,積分KL最小化に基づき,ノイズレベル全体で報酬を伝播させることで,クリーン画像RLHFと同等の最適化を実現する。
- DIDRは,既存のワンステップSDXLベースラインをPareto最適化し,優れた性能を示す。
- 6B DiTバックボーンへの転移実験では,50ステップの教師モデルを超える性能をワンステップで達成する。
反復洗練ニューラル演算子は学習された固定点ソルバーである:スペクトルバイアス軽減への原理的なアプローチ [cs.LG, cs.AI]目的:反復洗練ニューラル演算子の提案と検証
- 科学モデリングにおいて,高速かつデータ駆動型の代替手法の需要が高まっている。
- 既存のニューラル演算子は,高周波の詳細を解決する能力に限界があり,スペクトルバイアスと呼ばれる問題が生じている。
- スペクトルバイアスを軽減し,より高精度な予測を可能とする手法の開発。
- 反復洗練ニューラル演算子(IRNO)は,既存の演算子に学習された改良モジュールを追加することで,高周波エラーを低減することに成功した。
- 乱流シミュレーションにおいて,最大56.05%の誤差改善が見られた。
- アクティブマター解析では,低・中・高周波数帯域において誤差比が大幅に減少しており,安定した結果が得られた。
隠れ状態のプライバシーには空虚な中間が存在する [cs.LG, cs.AI]目的:隠れ状態プライバシーにおけるガウス分布に基づく放出共分散の特性評価
- 機械学習モデルのプライバシー保護は,データ利用における倫理的・法的課題解決に不可欠である。
- 既存のプライバシー保護メカニズムは,プライバシーと有用性のトレードオフという課題を抱えている。
- 本研究は,ガウス分布に基づく放出メカニズムの限界を明らかにし,新たな設計指針を提供する。
- 単層の隠れ状態プライバシーにおいて,1536個のガウス分布放出共分散をテストした結果,適応的な検索攻撃に対して,適度な有用性とプライバシーを両立するものが存在した。
- 完全ランクのガウス分布放出は,Fisher情報量の有用性がO(1)の場合,隠れ幅に応じてMahalanobis信号が線形に増加し,一様ガウス分布の安全性は否定された。
- 対角線逆Fisher放出メカニズムは,KL予算において最適であり,特定の条件下で高いプライバシー性能を示したが,プライバシーと有用性のバランスの限界を示唆した。
すべての遷移が重要ではない:PPOからの証拠 [cs.LG, cs.AI]目的:強化学習におけるPPOの安定化
- 強化学習は,複雑なタスクを自律的に学習する上で重要な技術である。
- PPOは広く使われているが,学習の不安定性という課題がある。
- 遷移データの冗長性を除去し,学習の安定性を高めることを目指す。
- ロールアウト内の遷移をランダムに削除することで,勾配の反復構造を打破し,学習を安定化できる。
- 報酬を維持しつつ,遷移の25%を削除することが最適な結果をもたらす。
- 提案手法は,従来のPPOと同等の報酬を得ながら,より安定した学習ダイナミクスを実現した。
プランニングと制御のための神経科学的逆学習 [cs.AI]目的:プランニングと制御のための神経科学的フレームワーク
- ロボット工学やAIにおいて,効率的かつ迅速な目標達成行動は重要な課題である。
- 従来の強化学習や最適制御では,計算コストや学習データの問題が存在する。
- 逆学習を用いて,効率的なプランニングと制御を実現し,計算コストを削減することを目指す。
- 提案手法は,maze2dおよびantmaze D4RL環境において,オフライン強化学習や拡散プランナーの性能を平均24.2%向上させた。
- フォワードモデル全体の最適化により,滑らかで一貫性のある軌道生成が可能となり,解析的な最適解に近い制御ポリシーを実現した。
- 学習データ不足によるフォワードモデルのハッキングという課題を特定し,ランダムな学習データで緩和策を講じた。
