arXiv雑要約
AI - 2026/02/03 公開
大規模言語モデルエージェントにおけるツール利用行動の最適化におけるエントロピーの役割の再考 [cs.HC, cs.AI, cs.SE]目的:大規模言語モデルエージェントのツール利用行動の最適化
- 大規模言語モデルは,数学的推論や多段階質問応答など多様なタスクで高い性能を示すため,その応用が期待されている。
- 長時間の行動においては,不要なツール呼び出しが増加し,推論の遅延や性能低下を引き起こすことが課題である。
- エントロピー減少を利用した報酬設計により,効率性と性能の向上を目指す。
- エントロピー減少と高品質なツール呼び出しとの間に強い正の相関関係が認められた。
- 提案手法により,ツール呼び出し回数をベースライン平均と比較して72.07%削減することに成功した。
- また,性能は22.27%向上し,実世界への適応可能性が示唆された。
SIDiffAgent:自己改善型拡散エージェント [cs.AI]目的:拡散モデルによる画像生成の質の向上
- 拡散モデルは高品質な画像生成を可能にするが,実用化には課題が残る
- プロンプトのわずかな違いで結果が大きく変わり,意図通りの画像を生成しにくい
- プロンプト自動生成や修正により,より安定した高品質な画像生成を実現する
- SIDiffAgentは,追加学習なしでプロンプト設計,不良生成の検出・修正,微細なアーティファクト除去を自律的に行う
- 過去の生成経験をデータベースに保存し,それを活用してプロンプトのガイダンスを行うことで,自己改善を繰り返す
- GenAIBenchにおいて平均VQAスコア0.884を達成し,既存手法やモデルを大きく上回る性能を示した
FORLER:Q-アンサンブルとアクター修正による連合オフライン強化学習 [cs.CL, cs.LG, cs.AI]目的:連合オフライン強化学習におけるポリシー汚染の抑制と性能向上
- IoT環境では,データ共有なしでの並列ポリシー学習が求められ,強化学習の連合学習が重要となる。
- オフライン強化学習は,データの質が低く不均一な場合,局所最適解に陥りやすいという課題がある。
- デバイスの劣悪なポリシーが連合モデルを劣化させる「ポリシー汚染」を抑制し,よりロバストな学習を実現する。
- FORLERは,サーバー側でのQ-アンサンブル集約とデバイス側でのアクター修正を組み合わせることで,ポリシー汚染を効果的に抑制する。
- サーバー側でのQ関数集約は,計算負荷を軽減しプライバシーを保護しつつ,より安定したモデルを構築する。
- 実験結果から,FORLERは様々なデータ品質と不均一性下で,既存手法を上回る性能を発揮することが示された。
スプライン局所性に基づくコルモゴロフ・アーノルドネットワークによる超高速オンチップオンライン学習 [cs.AR, cs.LG, cs.SY, eess.SY, stat.ML]目的:量子コンピューティングや核融合制御などの高周波システムにおける適応的学習手法
- 高周波システム制御には,サブマイクロ秒レベルでの適応が不可欠であり,迅速な学習が求められる。
- 従来の多層パーセプトロンは,低遅延性,固定精度計算,メモリ制約下で非効率かつ数値的に不安定となる。
- コルモゴロフ・アーノルドネットワークのスプライン局所性を利用し,オンチップでの効率的かつ安定な学習を実現する。
- Bスプライン局所性を活用したKANの更新は疎であり,オンチップリソースのスケーリングに優れることが示された。
- KANは固定小数点量子化に対して本質的にロバストであり,低精度計算においても安定した学習が可能である。
- FPGAによる実装により,KANベースのオンライン学習器がMLPよりも効率的かつ表現力に富むことが実証された。
FiLoRA:制御可能な特徴依存性のための焦点と無視LoRA [cs.DB, cs.LG, cs.AI]目的:マルチモーダルモデルにおける内部特徴グループへの依存性の制御
- マルチモーダルモデルの性能向上には,各モダリティからの信号統合の理解が不可欠である。
- モデルの予測における特徴依存性の制御方法が確立されていない。
- タスクの意味を変えずに,モデルの内部特徴への依存性を調整すること。
- FiLoRAは,特徴グループに沿ったLoRAモジュールと命令に応じたゲーティングを用いることで,内部特徴への依存性を明示的に制御する。
- テキスト・画像およびオーディオ・視覚ベンチマークにおいて,命令に応じたゲーティングが内部計算に一貫した変化をもたらすことが示された。
- FiLoRAは,虚偽の特徴への介入に対するロバスト性を向上させ,相関学習を超えた依存性の調整メカニズムを提供する。
ユーザーの再試行から学習するLLMのルーティングとスケジューリング:文脈的キューイングバンディットによるアプローチ [cs.LG]目的:LLMのルーティングとスケジューリングの効率化
- LLMの需要が急増しており,サーバーキューの効率的な管理が不可欠である。
- 既存手法では,ユーザーの再試行や明示的なフィードバック要求が考慮されていない。
- ユーザーの再試行から得られる間接的なフィードバックを活用し,ルーティングとスケジューリングを改善する。
- 文脈的キューイングバンディット(CQB-MNL)フレームワークを提案し,ユーザーの行動履歴とLLMの特性を考慮したルーティングとスケジューリングを実現した。
- 提案手法(ACQB)は,ルーティングに関して$\widetilde{\mathcal{O}}(\sqrt{t})$,キュー長に関して$\widetilde{\mathcal{O}}(t^{-1/4})$の累積後悔を達成し,安定性と効率性を両立した。
- SPROUT,EmbedLLM,RouterBenchデータセットを用いた実験により,提案手法が既存手法を上回る性能を示すことが確認された。
See2Refine:視覚言語フィードバックによるLLMベースのeHMIアクション設計の改善 [cs.HC, cs.AI]目的:LLMベースのeHMIアクション設計の改善
- 自動運転車において,周囲への意図伝達と信頼関係構築のため,eHMIは不可欠である。
- 従来のeHMI研究では,多様な交通状況への対応が困難な,開発者定義のメッセージ・アクションペアに依存している。
- 視覚言語モデルを用いた自動評価による,人間介入なしでのeHMIアクション設計の継続的な改善を目指す。
- 提案手法See2Refineは,VLMによる視覚的評価をフィードバックループに組み込み,LLMベースのeHMIアクション設計を改善する。
- 実験の結果,See2Refineは,プロンプトのみのLLMや手動設定のベースラインと比較して,VLMと人間評価の両方で一貫して優れた性能を示した。
- この改善は様々なeHMIモダリティで一般化され,VLM評価が人間の好みに沿っていることが示唆された。
トランスフォーマーに基づく多インスタンス学習を用いた多角的狭窄症分類:実際の臨床データ活用 [cs.CV, cs.AI]目的:冠動脈狭窄症の患者レベル分類
- 心血管疾患の主要因である冠動脈狭窄症の早期・正確な診断は,治療成績向上に不可欠である。
- 従来の深層学習モデルは,高コストなビューレベルの注釈に依存し,複数のビュー間の時間的依存性を捉えきれない。
- ビューレベルの注釈なしで,患者レベルの指導のみを用いて,狭窄症の存在と病変部位を特定すること。
- SegmentMILは,実際の臨床データを用いて学習し,患者レベルで狭窄症を高い精度で分類可能である。
- 従来のビューレベルモデルやMILベースラインを上回り,臨床での実用性と拡張性を示唆する結果が得られた。
- 右冠動脈と左冠動脈,およびそれらの区分を識別し,影響を受ける解剖学的領域を局所化する。
BAPS:アテンションにおけるsoftmaxのためのブロック認識型精度リ scalingによる微粒度低精度スキーム [cs.LG]目的:Transformer推論におけるsoftmax演算のボトルネック緩和
- Transformerモデルの高性能化において,推論速度が重要であり,特にsoftmax演算の高速化が課題となっている。
- 行列とベクトルの演算コア間のデータ帯域幅の限界と,高精度な指数演算ユニットの面積コストがボトルネックとなっている。
- 8ビット浮動小数点形式とブロック認識型精度リscalingを用いて,精度劣化を抑制しつつ低精度softmaxを実現すること。
- 提案手法により,データ移動帯域幅の要件を半減し,指数演算ユニットの面積を大幅に削減できることが示された。
- 言語モデルおよびマルチモーダルモデルにおける評価により,提案手法の有効性が確認された。
- チップ面積を増加させずに,推論スループットを倍増する可能性を示すとともに,低精度ハードウェアとソフトウェアの共同設計への道筋を提供する。
高速道路交通再構成のための適応平滑化手法の較正 [cs.LG]目的:高速道路交通再構成のための適応平滑化手法の較正
- 交通流解析は,道路交通システムの効率的な運用と改善に不可欠である。
- 交通状態の再構成は,観測データの空間的・時間的な解像度に制約を受ける。
- 実際の交通データを用いて適応平滑化手法を較正し,再構成精度を向上させる。
- 適応平滑化手法をPythonで実装し,実世界の交通データを用いてエンドツーエンドの較正を行った。
- 較正はパラメータ化されたカーネル最適化問題として定式化され,速度分布や誤差分布を用いて評価された。
- 較正された手法は複数の高速道路で利用可能であり,交通モデル較正の再現性に関する課題についても議論した。
AI生成コード検出のための挑戦的なベンチマーク:AICD Bench [cs.LG, cs.SE]目的:AI生成コード検出の評価
- LLMによるコード生成能力向上に伴い,著作権やセキュリティ等の問題が重要視されている。
- 既存のデータセットは規模が小さく,現実的な状況での検出性能評価が困難である。
- 分布の変化や混合コードなど,より現実的な検出タスクに対応できるベンチマークの構築。
- AICD Benchは,200万例,77モデル,11のモデルファミリー,9つのプログラミング言語を網羅する大規模なベンチマークである。
- ロバストな二値分類,モデルファミリーの特定,詳細なヒューマン・マシン分類という3つの現実的な検出タスクを導入している。
- 現状の検出器は,特に分布の変化やハイブリッドコードに対して,実用レベルの性能に達していないことが示された。
摂動された対照例からの半空間学習 [cs.LG]目的:摂動された対照例を用いた半空間学習の複雑性評価
- 機械学習において,少ないデータで効率的に学習することは重要な課題である。
- 対照学習は有効な手法だが,理想的な対照例の取得が困難である。
- 決定境界に近い点の対照例を適切に摂動することで学習効率を向上させる。
- 摂動の度合いを制御する関数fの下で,対照例の摂動メカニズムを解析した。
- 一次元閾値と有界領域における半空間において,能動的および受動的な対照サンプリング複雑性を特徴づけた。
- 特定の条件下では,対照例の存在が漸近的なクエリ複雑性を高速化することが示された。
正例と未ラベル例からの能動学習 [cs.LG]目的:正例と未ラベルデータからの能動学習におけるラベル複雑性
- 広告や異常検知など,ラベル付きデータが限られる場面で,弱教師あり学習が重要である。
- 既存手法では,ラベル取得コストが高く,効率的な学習が困難であるという課題がある。
- 能動学習によって,効率的なラベル取得戦略を確立し,ラベル複雑性を理論的に解析する。
- 本研究では,能動PU学習におけるラベル複雑性の理論的解析を初めて行った。
- ラベルが正例で,かつ確率的に成功した場合のみラベルが与えられるという設定を考慮した。
- 効率的なラベル取得戦略の理論的基盤を確立し,弱教師あり学習の進展に貢献する。
組み合わせバンドットにおける効率的なスワップ後悔最小化 [cs.LG, stat.ML]目的:組み合わせバンドットにおける効率的なスワップ後悔最小化アルゴリズムの設計
- 組み合わせ最適化問題は現実世界に広く存在し,効率的な解決手法の確立が重要である。
- 組み合わせバンドット問題では,行動空間が指数関数的に大きくなり,後悔最小化が困難である。
- 本研究は,行動空間の大きさに対する対数的多項式依存性を持つスワップ後悔最小化アルゴリズムを開発する。
- 提案アルゴリズムは,行動数$N$に対して対数的多項式的なスケーリングを持つスワップ後悔を達成する。
- この結果は,組み合わせバンドットにおけるスワップ後悔最小化問題に対する理論的な限界を示す。
- 提案アルゴリズムは,様々な応用事例において効率的に実装可能であることが示された。
LEC-KG:ドメイン特化型知識グラフ構築のためのLLM埋め込み協調フレームワーク - SDGsケーススタディ [cs.CL, cs.AI]目的:ドメイン特化型知識グラフの構築
- 知識グラフは,情報を構造化し,推論を可能にする重要な技術である。
- 非構造化テキストからの知識グラフ構築は,多様なエンティティや関係,標準化されたスキーマの欠如により困難である。
- 本研究は,LLMと知識グラフ埋め込みを組み合わせ,より正確で信頼性の高い知識グラフ構築を目指す。
- LEC-KGは,LLMのセマンティック理解と知識グラフ埋め込みの構造的推論を統合する双方向協調フレームワークである。
- 階層的な関係抽出,証拠に基づくChain-of-Thoughtフィードバック,セマンティック初期化により,低頻度関係におけるLLMの性能を大幅に向上させた。
- 中国のSDGs報告書を用いた評価で,非構造化テキストから検証可能な知識グラフのトリプルを生成できることが示された。
マルチタスク強化学習における確率的性能保証 [cs.LG, cs.AI]目的:マルチタスクポリシーの性能保証
- 安全性が重要な応用において,強化学習ポリシーの信頼性確保が不可欠である。
- 既存手法では,正式な性能保証が提供されず,安全な展開が困難である。
- 未知のタスクに対する性能保証を理論的に導出し,実用的なサンプルサイズで有用性を示す。
- 提案手法は,限られたロールアウト数とタスク数から,新しいタスクに対する高信頼な性能保証を可能にする。
- 理論的な健全性と,現実的なサンプルサイズにおける有用性が,最先端のマルチタスク強化学習手法を用いて示された。
- タスクレベルの汎化と,タスクごとの信頼区間の組み合わせにより,未知のタスク分布からのサンプルに対しても保証が成立する。
密に思考し,長文を避ける:効率的な推論のための動的デカップルド条件付き利点 [cs.CL, cs.LG]目的:効率的な推論のための,動的デカップルド条件付き利点
- 強化学習は複雑な推論を可能にするが,その過程で冗長な結果を生み出しやすい。
- 既存手法では,正解の長さと不正解の長さを適切に区別できず,精度が低下する。
- 正解のグループ内でのみ効率性を最適化することで,精度低下を防ぎ,効率と精度のトレードオフを改善する。
- DDCAは,グループ全体の正答率に基づいてペナルティの強度を動的に調整することで,難易度に応じた適切な推論を促す。
- GSM8Kなどの簡単なタスクでは生成トークン数を約60%削減し,AIME25などの難しいタスクでも20%以上の削減を実現した。
- 精度を維持または向上させつつ,効率と精度のトレードオフを改善する効果が確認された。
検証の危機:GenAIによる偽情報と再現可能な来歴の重要性 [cs.CY, cs.AI, cs.SI]目的:GenAIによる偽情報に対する専門家の認識と,再現可能な来歴の必要性
- 情報環境の健全性は,民主主義社会の根幹をなすものであり,その維持は極めて重要である。
- GenAIの進化により,偽情報の生成が容易になり,その識別と対策が困難になっている。
- 偽情報に対抗するため,情報の来歴を明確化し,研究の再現性を高めることが急務である。
- 専門家は,ディープフェイク動画の衝撃的な影響よりも,大規模なテキスト生成がもたらす「認識の断片化」や「合成された合意」のリスクをより懸念している。
- 技術的な検出ツールへの懐疑的な見方が多く,専門家は情報の来歴標準や規制フレームワークを重視する一方で,その実施の障壁を認識している。
- 情報インテグリティを,厳格なデータ来歴と方法論的再現性を持つインフラストラクチャとして扱うべきであると提案する。
思考の連鎖における全体計画の欠如:LLMの潜在的計画地平線の解明 [cs.LG, cs.CL]目的:LLMの潜在的な計画能力の解明
- 大規模言語モデルの推論メカニズム理解は,AIの高度化に不可欠である。
- 思考の連鎖(CoT)の有効性は確かめられているが,内部メカニズムは不明である。
- LLMが持つ計画能力の限界を明らかにし,CoTの不確実性推定を改善すること。
- LLMは,厳密な全体計画ではなく,漸進的な推論を行う傾向があることが示された。
- CoTにおける少数の位置が,経路全体の不確実性を効果的に表現できることが検証された。
- CoTの迂回路を自動的に認識することが可能であり,性能低下は見られないことが示された。
ワールドモデルの量子化に関する実証的研究 [cs.CL, cs.LG, cs.CV]目的:ワールドモデルの量子化の影響と最適化手法
- 環境ダイナミクスを学習し計画や予測を可能にするワールドモデルは,ロボティクス等の応用で重要性が増している。
- ワールドモデルは計算コストとメモリ消費が大きく,実用的な展開には量子化が不可欠である。
- 量子化がワールドモデルに及ぼす影響を明らかにし,効率的な展開のための指針を示す。
- 量子化は標準的な精度とビット幅のトレードオフを超え,ロールアウトの安定性やモジュールごとの感度に影響する。
- グループワイズ量子化は低ビットロールアウトを安定化させるが,活性化量子化の粒度は一貫した効果を示さない。
- 積極的な低ビット量子化は,計画目的とタスク成功の整合性を損ない,追加の最適化では回復できない失敗を引き起こす。
様々な生成順序とそれ以上のものを統合するマスク拡散モデル [cs.LG, cs.AI, cs.CL]目的:言語生成におけるマスク拡散モデルの統一的フレームワーク
- 自然言語処理において,高品質なテキスト生成は重要な課題である。
- 従来のマスク拡散モデルは,生成順序に強く依存し,最適化が難しい。
- 生成順序を考慮したモデルを構築し,性能向上を目指す。
- 提案手法OeMDMは,様々な生成順序を単一のフレームワークで解釈可能にする。
- LoMDMは,生成順序と拡散バックボーンを同時に学習することで,高性能なテキスト生成を実現する。
- 複数の言語モデリングベンチマークにおいて,LoMDMは他の離散拡散モデルを上回る性能を示す。
行列形式EDMと適応近傍学習による定量的制御可能な画像生成の強化 [cs.CV, cs.LG]目的:拡散モデルを用いた,連続回帰ラベルに基づく高品質な画像生成
- 画像生成技術は,現実世界の多様な応用において重要な役割を担っている。
- 既存の拡散モデルは,サンプリング効率や生成品質において課題を抱えていた。
- より高度な拡散フレームワークと学習戦略により,生成品質と効率を向上させる。
- 提案手法iCCDMは,既存手法と比較して一貫して高い生成品質を達成した。
- iCCDMは,Stable Diffusion 3やFLUX.1などの最先端モデルをも凌駕する性能を示した。
- サンプリングコストを大幅に削減し,より効率的な画像生成を可能にした。
最大フォン・ノイマンエントロピー原理:理論と機械学習への応用 [cs.LG, cs.IT, math.IT]目的:カーネル行列とカーネル共分散演算子に対する多様性のスペクトル的測度としてのフォン・ノイマンエントロピーの最大化
- 機械学習における多様性の評価は重要であり,モデルの汎化性能に影響を与える。
- 既存手法では,部分情報下での解釈や,最少コミットメント推論の明確化が課題であった。
- フォン・ノイマンエントロピー最大化のゲーム理論的根拠を提示し,情報理論的基盤を確立すること。
- フォン・ノイマンエントロピーの最大化原理を,GrünwaldとDawidのminimax定式化へ拡張した。
- これにより,部分情報下での解釈が明確になり,スペクトル領域における最少コミットメント推論の役割が明らかになった。
- カーネル表現の選択やカーネル行列の補完など,機械学習への応用例を示し,その有効性を実証した。
既知および新規異常に対するクラス認識マハラノビス距離を用いた前臨床病理組織学的毒性評価 [cs.CV, cs.AI, cs.LG]目的:前臨床病理組織学的画像における毒性評価のための異常検知フレームワーク
- 医薬品開発において,毒性は失敗の主要な原因であり,早期発見が安全性向上に不可欠である。
- 病理組織学的評価は専門家への依存度が高く,大規模スクリーニングのボトルネックとなっている。
- AI技術を用いて,病理組織学的画像からの異常を効率的に検出し,医薬品開発を加速すること。
- 本研究では,病理組織学的画像に対するAIベースの異常検知フレームワークを提案し,既知の病理と未知の病理の両方を検出可能にした。
- クラス固有の閾値を用いることで,病理組織の誤分類率を0.16%に,健常組織の誤分類率を0.35%に抑え,高い精度を達成した。
- このフレームワークは,前臨床ワークフローの支援,開発段階での失敗の削減,医薬品開発効率の向上に貢献する可能性を示す。
LLMのグループワイズ量子化のための二段階グリッド最適化 [cs.LG, cs.AI]目的:LLMのグループワイズ量子化におけるグループスケールの最適化
- 大規模言語モデルの低ビット量子化は,モデルサイズ削減と高速化に不可欠である。
- 既存のGPTQ等の手法は入力統計量やグループ間の相関を考慮せず,再構成誤差の最小化という目標とのずれが生じる。
- 入力統計量とグループ間の相関を考慮した,層ごとの再構成誤差を最小化する最適化手法を提案する。
- 提案手法は,GPTQの前にグループスケールを初期化し,入力統計量を組み込むことで,グループワイズ再構成誤差を低減する。
- GPTQで得られた整数ウェイトを固定した上で,層ごとの再構成誤差を最小化するために,グループスケールを座標降下法で効率的に洗練する。
- 前層からの量子化誤差を考慮することで,誤差の蓄積を防ぎ,精度向上を実現する。
長期ホライズンタンパク質ダイナミクスに対するスケーラブルなSE(3)拡散 [cs.LG, cs.AI, physics.bio-ph, q-bio.BM, q-bio.QM]目的:タンパク質ダイナミクスの長期的挙動の生成
- タンパク質の機能解明には,長時間の分子動力学シミュレーションが不可欠である。
- 既存の生成モデルは,長時間の生成において,エラーの蓄積や空間的・時間的ダイナミクスのモデル化が不十分である。
- 空間的・時間的相関を効率的に捉え,長時間の安定した軌道を生成すること。
- STAR-MDは,既存手法と比較して,コンフォメーションカバレッジ,構造的妥当性,動的忠実度を大幅に向上させた。
- STAR-MDは,ベースライン手法が失敗するマイクロ秒スケールの安定した軌道を生成することに成功した。
- 本研究は,現在の長期的生成モデルの限界を示し,STAR-MDの空間的・時間的モデリングの有効性を示唆する。
マスク拡散モデルにおける反転の呪い軽減メカニズム:注意機構と学習ダイナミクスからの理解 [cs.CL, cs.AI, cs.CL]目的:マスク拡散モデルにおける反転の呪い軽減のメカニズム
- 自然言語処理において,言語モデルの性能向上は重要な課題である。大規模言語モデルの応用範囲は広い。
- 自己回帰型言語モデルは反転の呪いに弱く,その克服が課題となっていた。
- マスク拡散モデルが示す反転の呪い軽減のメカニズムを解明し,モデル改善に貢献する。
- 反転の呪い軽減は,any-order学習だけではなく,モデル構造と学習の相互作用に起因することが示された。
- 特に,1層Transformerエンコーダーにおける重み共有が,正と負の方向の注意スコアを相関させる点が重要である。
- さらに,対応する勾配が整列し,正方向の損失を最小化することで,反方向の損失も減少することが確認された。
大規模推論モデルにおける分布に基づいた改良による安全性低下の緩和 [cs.CC, cs.DM, cs.AI]目的:大規模推論モデルの安全性と推論能力のバランス改善
- 安全性と性能の両立は,大規模言語モデルの実用化において不可欠である。
- 安全性向上のためのアライメント手法が,推論能力の低下を引き起こすことがある。
- 分布のずれを解消し,安全性と推論能力を両立するアライメント手法を提案する。
- 提案手法DGRは,既存の安全性アライメントデータセットを改良することで,安全性低下を効果的に緩和する。
- DGRは,DirectRefusalで30.2%,R1-ACTで21.2%の平均推論精度向上をVanilla SFTと比較して達成した。
- 分布のずれの程度と推論能力の低下が相関しており,分布の一致が重要であることが示唆された。
- 安全性アライメントは,潜在知識の活性化メカニズムとして機能する可能性が示された。
DCoPilot:動的なデータセンター運用における生成AIを活用したポリシー適応 [cs.LG, cs.AI, cs.SY, eess.SY]目的:動的なデータセンター運用に対する生成AIを活用したポリシー適応手法
- AI専用デバイスを搭載したデータセンターは電力密度が高く,効率的な運用が不可欠である。
- 変化するワークロードやSLAに対応するためには,迅速なポリシー設計が求められるが,手動では限界がある。
- LLMとハイパーネットワークを組み合わせ,仕様変更に即応できる制御ポリシーの自動生成を目指す。
- DCoPilotは,多様なシミュレーション環境で報酬候補をテストし,SLAと環境に応じてポリシーを生成する。
- 5種類の制御タスクにおいて,制約違反をほぼゼロに抑え,既存手法を上回る性能を達成した。
- LLMによる報酬の統一的な生成が,ハイパーネットワークの安定した収束に貢献することが確認された。
多エージェントコード生成システムの因果性に基づく分析フレームワークCAM [cs.SE, cs.AI]目的:多エージェントコード生成システムにおける中間出力の貢献度定量化
- 多エージェントシステムは複雑であり,その性能向上には詳細な分析が不可欠である。
- 中間出力の重要度が不明確なため,システム全体の最適化が困難である。
- 中間出力の重要度を明らかにすることで,効率的なシステム設計を支援する。
- 本研究で提案するフレームワークCAMは,中間出力の特徴量に対する因果分析により,システム正答率への貢献度を定量化する。
- 分析の結果,特徴量間の相互作用が重要であることが示され,クロス特徴量の一貫性チェックの必要性が明らかになった。
- また,異なるLLMをバックエンドに持つハイブリッドアーキテクチャがPass@1を最大7.2%向上させることが確認された。
EvoMU:進化的な機械アンラーニング [cs.LG, cs.AI, cs.CL]目的:機械アンラーニングのための損失関数の自動探索
- プライバシー保護や著作権対応など,データ利用における倫理的・法的要請が高まっているため。
- 最適なアンラーニング損失関数はデータセットに依存し,探索空間が広大である。
- データセット固有の損失関数を自動的に探索し,既存手法を上回る性能を実現する。
- 進化的な探索により,TOFU-5%, TOFU-10%, MUSE, WMDPにおいて,既存の損失関数に基づくアンラーニング手法を凌駕する性能を達成した。
- 40億パラメータの小規模モデル(Qwen3-4B-Thinking)を用い,限られた計算資源でのAI共同研究者の可能性を示した。
- 本研究は,AIによる科学的発見の一例であり,自動的に最適な損失関数を設計する。
Best-of-Nに対する生成選択学習 [cs.LG, cs.AI, cs.CL]目的:Best-of-N選択のための生成選択手法の獲得
- 大規模言語モデルの推論能力向上には計算資源が不可欠であり,効率的な計算手法が求められている。
- Best-of-N選択の質がボトルネックとなり,並列サンプリングによる計算規模拡大が制限されている。
- 小規模モデルでも生成選択能力を獲得し,効率的な推論計算を実現することを目指す。
- 本研究では,強化学習を用いて小規模モデルに生成選択能力を学習させることに成功した。
- 数学とコードのベンチマークにおいて,プロンプティングや多数決ベースラインを上回る性能を示した。
- 訓練に使用したモデルより強力なモデルからの出力を選択する能力も獲得し,汎化性能も確認された。
未来への回帰:先行予測の拡張と並列自己改良による時系列予測 [cs.LG, cs.AI]目的:長期時系列予測における予測の安定性向上
- 時系列データは様々な分野で活用され,将来予測の需要は高い。
- 長期予測では,予測速度と時間的な一貫性の両立が課題である。
- 予測の安定性を高め,既存手法の課題を克服することを目指す。
- 提案手法BTTFは,先行予測の拡張と自己改良により,予測の安定性を高める。
- 複雑なモデル構造に頼らず,既存モデルの予測性能を向上させる。
- 最長58%の精度向上を達成し,初期モデルの学習条件が最適でなくても安定した改善が見られた。
テスト時強化学習のためのエントロピー・確信度ハイブリッド最適化 (ECHO) [cs.LG, cs.AI]目的:テスト時強化学習における性能向上
- 強化学習は,複雑な意思決定問題を解決する上で重要な手法である。しかし,テスト時に環境に適応させることは課題である。
- 従来のテスト時強化学習では,探索の効率性や擬似ラベルのノイズが問題となり,性能が制限される場合がある。
- 本研究では,エントロピーと確信度を組み合わせることで,探索の効率性とロバスト性を高め,性能向上を目指す。
- ECHOは,局所エントロピーとグループレベルの確信度を共同で利用し,分岐幅を適応的に制御する。
- 確信度に基づく枝刈りにより,低い確信度の分岐を早期に終了させ,ロールアウトの崩壊を防ぐ。
- 確信度適応クリッピングとエントロピー・確信度ハイブリッドアドバンテージシェイピングにより,学習のロバスト性を向上させる。
LLM量子化のためのベクトル化再パラメータ化による適応丸め手法の再検討 [cs.LG, cs.CL]目的:LLM量子化における適応丸め手法の効率化
- 大規模言語モデルの利用拡大に伴い,モデルサイズの削減が重要課題となっている。
- 従来の量子化手法では,精度劣化と計算コストのトレードオフが存在する。
- 適応丸めを効率化し,大規模モデルへの適用を可能にすること。
- 提案手法VQRoundは,丸め行列をコンパクトなコードブックに再パラメータ化することで,パラメータ数を大幅に削減した。
- VQRoundは,既存の適応丸めよりも高速に収束し,同等の精度を達成した。
- 様々なLLMモデルで有効性が確認され,適応丸めのスケーラビリティと高速適合性を実証した。
注意機構を用いたカーネル平滑化による効率的なニューラル制御微分方程式 [cs.LG]目的:ニューラル制御微分方程式の効率化
- 時系列モデリングにおいて,連続時間フレームワークであるニューラルCDEが強力な手法として注目されている。
- 従来のニューラルCDEでは,制御パスの粗さが効率性を制限し,計算コストが増大する問題がある。
- カーネル平滑化によってパスの規則性を制御し,計算効率を向上させることを目指す。
- 提案手法であるMVC-CDE(GP付き)は,既存のsplineベースの手法と比較して,高い精度を達成する。
- NFEs(関数評価回数)と推論時間を大幅に削減することに成功した。
- 注意機構によるMulti-View CDEによって,モデルは複数の軌跡に表現能力を分散させ,多様な時間パターンを捉える。
道路ネットワークにおける交通情報に基づいた経路探索 [cs.AI]目的:道路ネットワークにおける交通情報に基づいた経路探索手法の比較
- 都市部の交通渋滞は深刻であり,効率的な経路探索は生活の質向上に不可欠である。
- 従来の経路探索アルゴリズムは交通状況を考慮せず,最適な経路を提供できない場合がある。
- リアルタイムで交通状況を考慮した最適な経路探索手法を確立することを目指す。
- ダイクストラ法とA*探索法は,最小限の事前処理で交通情報を考慮した最適な解を得る上で最も有効であった。
- フロイド・ワーシャル・インゲルマン法はリアルタイムでの処理速度が最も速かったが,交通情報は考慮されなかった。
- イェン法は事前処理に時間を要するものの,実行速度と最適性のバランスが取れていた。
因果的時系列相互作用グラフの生成:時系列リンク予測の反事実検証 [cs.CL, cs.CL, cs.LG, cs.SY, eess.SY]目的:時系列リンク予測モデルの因果メカニズムの検証
- 時系列データの予測は,様々な分野で不可欠であり,その精度向上は重要な課題である。
- 従来の評価指標は予測精度に偏っており,モデルが因果関係を捉えているかどうかの評価が困難である。
- 因果的時系列相互作用グラフを用いて,時系列リンク予測モデルの因果関係の妥当性を検証することを目指す。
- 因果的時系列相互作用グラフ生成のためのフレームワークを提案し,生成モデルと予測モデル間の因果的距離を測る指標を導入した。
- 異なる因果モデルで訓練された予測器は,因果的に距離のあるモデルで評価すると性能が低下することを確認した。
- 提案フレームワークは,因果性を考慮したベンチマーク構築の基盤となり,より信頼性の高い時系列予測モデルの開発に貢献する。
文脈内カーネル回帰による解釈可能な表形式基盤モデル [cs.LG]目的:表形式基盤モデルの解釈性向上
- 表形式データ分析の重要性が増しており,高性能なモデルが求められている。
- 既存の表形式基盤モデルは高性能だが,予測の根拠が不明瞭である。
- 予測の透明性を確保しつつ,高性能を維持することを目的とする。
- KernelICLは,カーネル関数を用いて予測層を置き換えることで,予測の解釈性を高める。
- 標準的なカーネル法,最近傍法,Attentionメカニズムを統一的に扱う分類体系を提示した。
- 55のTALENTデータセットにおいて,既存モデルと同等の性能を維持しつつ解釈性を確保した。
Co-RedTeam:LLMエージェントによるセキュリティ発見と攻撃のオーケストレーション [cs.LG, cs.CR]目的:セキュリティ脆弱性の発見と攻撃
- サイバーセキュリティは,現代社会のインフラを守る上で不可欠であり,その重要性は増している。
- 従来の脆弱性分析は,手動作業に頼る部分が多く,自動化が課題であった。
- LLMエージェントを活用し,脆弱性発見から攻撃までを自動化することで,効率的なセキュリティ対策を目指す。
- Co-RedTeamは,セキュリティ知識,コード分析,実行に基づく反復推論,長期記憶を統合したマルチエージェントフレームワークである。
- 多様な基盤モデルにおいて,脆弱性攻撃の成功率が60%を超え,脆弱性検出率は10%以上向上した。
- 実行フィードバック,構造化された相互作用,メモリが,堅牢で汎用性の高いサイバーセキュリティエージェント構築に重要であることが確認された。
マルチエージェントAIシステムにおける自己進化型協調プロトコル:システム実現可能性の探求 [cs.MA, cs.AI]目的:自己進化型協調プロトコル(SECP)のシステム実現可能性
- 複雑化するマルチエージェントシステムにおいて,堅牢な協調メカニズムが不可欠である。
- 金融などの規制された分野では,協調メカニズムの形式的要件と監査可能性が課題となる。
- 協調プロトコルが形式的制約下で自己修正可能か検証し,ガバナンス型システム基盤を確立する。
- 提案カバレッジの観点から,自己進化型協調プロトコルによる修正が有効性を示す結果が得られた。
- 1回の制御された修正により,受け入れられた提案数が2から3に増加し,全ての形式的制約を維持した。
- 本研究は,協調プロトコルの限定的な自己修正が技術的に実現可能であることを示した。
汎化最適分類木:混合整数計画法によるアプローチ [cs.LG]目的:最適分類木の学習
- 解釈可能な機械学習において,決定木は重要な役割を担う。
- 決定木の最適化は計算困難であり,実用的なアルゴリズムは限られていた。
- 不均衡データに対応した非線形評価指標の最適化を可能にする。
- 混合整数計画法(MIP)に基づくフレームワークを提案し,F1スコア等の非線形指標を最適化。
- 問題に特化した加速手法(分岐限定法,インスタンス削減,ウォームスタート)を開発し,スケーラビリティを向上。
- 50のベンチマークデータセットで評価した結果,既存手法と比較して計算効率,予測性能ともに優れていることが示された。
SurvKAN:コルモゴロフ・アーノルド・ネットワークに基づく完全パラメータ生存モデル [cs.CL, cs.LG, cs.AI]目的:生存時間予測モデルの開発
- 臨床意思決定や治療計画において,イベント発生までの時間を正確に予測することは不可欠である。
- 従来のCoxモデルは仮定が厳しく,実際の臨床状況を捉えきれない場合がある。
- 比例ハザード仮定を排除し,解釈性と予測精度の両立を目指す。
- SurvKANは,完全パラメータかつ時間連続的な生存モデルであり,既存のCoxモデルの制約を克服する。
- Kolmogorov-Arnold Networks (KAN) を用いてlog-hazard関数を直接予測し,エンドツーエンド学習を可能にする。
- 実験の結果,既存モデルと比較して競争力のある,またはそれ以上の性能を示す。また,解釈性分析により臨床的に意味のあるパターンが明らかになった。
STILL:LLMの線形化のための層内ハイブリッド注意におけるトークン選択 [cs.LG]目的:LLMの効率的な線形化
- 大規模言語モデルの利用拡大には計算コストの削減が不可欠である。
- 既存手法では,トークン重要度の位置依存性や特徴マップの歪みが生じる。
- トークン重要度に基づいた正確な選択と,事前学習表現の維持を両立する。
- STILLは,位置情報とグローバルな重要度を考慮した自己重要度スコアを導入した。
- 重要トークンを保持しつつ,残りの文脈を線形注意で要約することで効率化を実現した。
- ベンチマークテストにおいて,既存の線形化手法を最大86.2%上回る性能を示した。
メモリ分析によるマルウェア検出 [cs.RO, cs.CL, cs.CR, cs.AI]目的:マルウェア検出のための機械学習技術の有効性と効率性
- サイバー攻撃の高度化に伴い,マルウェア検出は情報セキュリティにおいて不可欠である。
- 既存のマルウェア検出手法では,巧妙に偽装されたマルウェアの検出が困難である。
- メモリ分析を活用し,より正確かつ迅速なマルウェア検出手法を開発すること。
- 二値分類において,テストデータセットの精度とF1スコアは99.98%を達成した。
- 多クラス分類においては,精度は87.54%,F1スコアは81.26%に達し,マルウェアサブタイプの平均F1スコアは75.03%であった。
- XGBoostモデルは,高い検出能力と高速な推論速度を両立しており,リアルタイムなマルウェア検出に貢献する。
Vision-DeepResearch Benchmark:マルチモーダル大規模言語モデルにおける視覚とテキスト検索の再考 [cs.CV, cs.AI, cs.CL, cs.LG]目的:マルチモーダル大規模言語モデルの視覚的・テキスト的検索能力の評価
- 近年,画像とテキストを組み合わせた情報検索の重要性が増しており,大規模言語モデルへの応用が期待されている。
- 既存の評価ベンチマークでは,視覚的検索が必要な問題がテキストからの推論や事前知識で解けてしまう場合がある。
- 現実的な条件下での視覚的・テキスト的検索能力を正確に評価するためのベンチマーク構築を試みる。
- 新たなベンチマークVDR-Benchを構築し,2,000件のVQAインスタンスを用いて評価を行った。
- 多段階の厳密なレビュープロセスにより,現実世界に近い条件での評価を実現した。
- マルチラウンドクロップドサーチワークフローが,現実的な視覚検索シナリオにおいてモデルの性能を向上させることを示した。
組み合わせと制約のある世界における推論:自然言語による組合せ最適化におけるLLMのベンチマーク [cs.AI]目的:自然言語で記述された意思決定シナリオに対する離散解の出力
- 組合せ最適化は,現実世界の様々な問題を解決するための重要な手法である。
- 大規模言語モデルは組合せ最適化問題に対応できるか不明であり,その能力評価が課題である。
- 自然言語で記述された組合せ最適化問題に対するLLMの性能を評価し,その限界を明らかにする。
- LLMは小規模なインスタンスでは高い実行可能性と解の質を達成するが,インスタンスサイズが大きくなると性能が低下する。
- 集合ベースのタスクは比較的容易である一方,グラフ構造の問題やボトルネック目的は失敗しやすい。
- LLMの推論効率は,問題の複雑さと規模に大きく依存することが示唆される。
ECHO-2:費用対効果の高い強化学習のための大規模分散ロールアウトフレームワーク [cs.LG, cs.DC]目的:費用対効果の高い強化学習のための大規模分散ロールアウトフレームワーク
- 大規模言語モデルの性能向上には,強化学習によるポストトレーニングが不可欠である。
- 分散環境でのロールアウト実行は,コスト効率を高める一方で,広範囲な調整とポリシーの伝播に課題がある。
- ECHO-2は,伝播遅延を考慮し,分散ロールアウトと集中学習を組み合わせ,学習効率を向上させる。
- ECHO-2は,リモート推論ワーカーを活用し,ポリシーの陳腐化をユーザー制御可能なパラメータとして扱うことで,ロールアウト生成,伝播,学習を並行して実行する。
- トレーニング時間,伝播遅延,ロールアウトのスループットの関係をモデル化し,学習器の利用率を維持するための実用的なプロビジョニングルールを導出した。
- ピアアシストパイプラインブロードキャストとコストを考慮した異種ワーカーのアクティブ化により,伝播のボトルネックを軽減し,コストを削減することを示した。
線形注意LLMにおける状態ランクの動態 [cs.LG, cs.AI]目的:線形注意LLMの実行時状態の動態に関する包括的な研究
- 大規模言語モデルは自然言語処理の様々なタスクで高い性能を示すが,計算コストが大きい。
- 線形注意LLMは効率的な推論を可能にするが,内部状態のダイナミクスは未だ解明されていない。
- 線形注意機構における状態ランクの構造的特性を明らかにし,モデルの効率性と性能向上を目指す。
- 線形注意ヘッド間には,有効ランクがほぼゼロで振動するものと,急速に成長して上限に収束するものがあるという「状態ランクの階層化」が確認された。
- 低ランクヘッドはモデルの推論に不可欠であり,高ランクヘッドは冗長性を示すことが判明した。
- この知見を活用したJoint Rank-Norm Pruningにより,KVキャッシュのオーバーヘッドを38.9%削減しつつ,モデル精度を維持することが可能となった。
TIDE:LLMエージェントにおけるテスト時改善の軌跡に基づく診断評価 [cs.AI]目的:LLMエージェントのテスト時改善メカニズムの診断
- LLMエージェントは自律的に性能を向上させることが可能であり,その能力向上は重要である。
- テスト時改善の成功・失敗要因が不明確であり,既存の評価指標では効率を捉えられない。
- タスク最適化効率,行動適応,ワーキングメモリの有用性を評価するフレームワークの提供。
- TIDEは,テスト時改善を3つの相互に関連する次元に分解するエージェント・環境非依存型フレームワークである。
- 実験の結果,エージェント性能向上には,内部推論のスケールアップだけでなく,エージェントと環境間の相互作用の最適化が不可欠であることが示された。
- TIDEは,タスク完了の経時的な変化や,再帰的なループ行動,メモリの蓄積といった制約要因を特定する。
