arXiv雑要約
AI - 2026/02/04 公開
カテゴリー学習における特徴,アライメント,そして監督学習:子どもとニューラルネットワークの比較アプローチ [cs.CV, cs.LG]目的:カテゴリー学習における特徴,アライメント,監督学習の影響の比較
- 認知科学と機械学習において,少ないデータからの学習メカニズムの解明は重要である。
- 既存研究では,人や機械がどのように効率的にカテゴリーを学習するか,そのメカニズムが不明確である。
- 本研究は,監督学習量,特徴,アライメントが学習に与える影響を比較し,学習メカニズムの理解を深める。
- 子どもは少ないラベルから迅速に汎化するが,特徴特異的な偏りやアライメントへの感受性を示す。
- CNNは,監督学習量の増加によって性能が向上するが,アライメントと特徴構造がその効果を調整する。
- 人間とモデルの比較においては,全体的な精度だけでなく,監督学習,特徴構造,アライメント間の相互作用を考慮する必要がある。
マルチエージェントLLMフレームワークの理解:統一されたベンチマークと実験的分析 [cs.AI]目的:マルチエージェントLLMフレームワークの性能に及ぼすアーキテクチャの影響の解明
- LLMを活用したエージェントシステム開発が活発化しており,フレームワークの選択が重要になっている。
- フレームワークのアーキテクチャが性能に大きく影響するが,その影響は十分に解明されていない。
- フレームワークのアーキテクチャを体系的に比較し,性能評価のための統一的なベンチマークを提供する。
- フレームワークの設計選択により,レイテンシが100倍以上増加したり,計画の精度が最大30%低下したりすることが確認された。
- 協調の成功率が90%以上から30%以下に低下するなど,フレームワークレベルのデザインが性能に大きな影響を及ぼすことが示された。
- 本研究の結果から,具体的なアーキテクチャ設計原則とフレームワーク選択の指針を導き出し,今後の研究方向性を示唆した。
LLM支援アルゴリズム発見のための対照的概念ツリー探索 [cs.LG, cs.AI, cs.NE]目的:LLM支援によるアルゴリズム発見の効率向上
- 近年,LLMを用いたアルゴリズム発見が注目されており,複雑な問題解決への応用が期待されている。
- LLMは探索空間を効率的に活用できておらず,性能向上の余地が大きい。
- 生成されたプログラムから概念階層を抽出し,探索を概念に基づいて誘導することで効率化を目指す。
- 対照的概念ツリー探索(CCTS)は,探索効率を向上させ,解釈可能なタスク固有の概念ツリーを生成した。
- CCTSは,性能の高い解と低い解の間の対照的な概念モデルを学習することで,有用な概念の組み合わせを優先し,誤解を招くものを回避する。
- 実験結果から,CCTSの性能向上は,主に避けるべき概念を学習することによってもたらされることが示唆された。
SwiftVLM:クロスレイヤー・トークン・バイパスによる効率的なビジョン言語モデル推論 [cs.CV, cs.AI]目的:ビジョン言語モデルの推論効率向上
- ビジョン言語モデルは多様なタスクに応用可能だが,計算コストが高いという課題がある。
- 既存のトークンプルーニング手法は,詳細な視覚情報が必要なタスクで性能が低下しやすい。
- 層ごとの重要度変化に対応し,情報損失を防ぐことで効率と精度を両立する。
- SwiftVLMは,各層でトークンを選択・保持し,後続の層で再評価するバイパス機構を導入した。
- 訓練不要で,モデル固有の層でプルーニングを行うことで,高い効率を実現している。
- 複数のVLMとベンチマークで,既存手法を上回り,精度と効率のバランスに優れることが示された。
物流拠点における荷物到着予測の向上:アンサンブル深層学習アプローチ [cs.LG]目的:物流拠点の将来的な荷物量予測の精度向上
- EC取引の拡大により,迅速な荷物配送への需要が高まっており,物流効率化が不可欠である。
- 既存の予測手法では,リアルタイムな荷物状況の変化への対応が遅れ,予測精度が課題となっていた。
- 過去の到着パターンとリアルタイム情報を活用し,より正確な荷物量予測を実現する。
- 提案手法は,従来の予測手法や単一の深層学習モデルと比較して,予測精度において優れていることが実証された。
- 本研究は,物流拠点の業務効率を改善する可能性を示唆し,より広範な採用を推奨する。
- 短期的な予測だけでなく,戦略的な計画や資源管理に役立つ将来の荷物量予測の精度向上に貢献する。
SATORIS-N:情報化された部分空間と核ノルム最小化による交通量観測復元 [cs.LG]目的:部分的に観測された交通量密度の復元
- 交通流の最適化や自動運転の安全性向上に不可欠であり,V2X通信の活用が期待されている。
- センサーの遮蔽や通信途絶により,交通量データの欠損が発生しやすく,正確な復元が課題である。
- 欠損データに対するロバスト性を高め,高精度な交通量密度復元を実現する。
- 提案手法SATORIS-Nは,近隣日の情報に基づく部分空間の事前分布を活用し,交通量密度の復元を行う。
- 明示的な部分空間情報を組み込んだ核ノルム最小化により,低ランク性と部分空間整合性を同時に最適化する。
- 北京と上海のデータセットで,既存の行列補完手法や深層学習モデルと比較して,高い遮蔽率下で優れた性能を示した。
自己ヒントによる言語モデルの強化学習の改善 [cs.NI, cs.CL, cs.LG, cs.AI, cs.CL, stat.ML]目的:大規模言語モデルと検証可能な目的の整合
- 言語モデルの性能向上は,多様なタスクへの適応能力を高め,人間との協調を円滑にする上で重要である。
- 疎な報酬設定下では,グループ相対方策最適化(GRPO)が停滞し,方策更新が消失する問題が存在する。
- 本研究は,自己ヒントを活用し,GRPOにおける方策更新の消失を防ぎ,学習効率を向上させることを目指す。
- 提案手法SAGEは,GRPOの性能を安定的に向上させ,Llama-3.2-3B-Instructで平均+2.0,Qwen2.5-7B-Instructで+1.2,Qwen3-4B-Instructで+1.3のスコア改善を実現した。
- 自己ヒントは,学習者のボトルネックをより効果的に捉える適応的なカリキュラムとして機能する。
- テスト時にはヒントを用いず,学習済みのモデルをそのまま利用できる。
良い例とは何か:ニューラルネットワーク表現による模範選択のモデル化 [cs.LG]目的:効果的な例の選択戦略
- 教育において,豊富なカテゴリ分布から情報量の多い模範例を抽出することは重要である。
- 模範例選択における代表性と多様性の間のトレードオフの計算原理は未解明であった。
- 人間の模範例選択をモデル化し,最適な選択戦略を特定することを目指す。
- 人間の判断との比較から,代表性と多様性を組み合わせた戦略が最も一致することが示された。
- プロトタイプや多様性のみに焦点を当てた戦略と比較して,その有効性が確認された。
- Transformerベースの表現は,Convolutional Neural Networkよりも人間の行動により近いことがわかった。
エージェントAIのインターネット:インセンティブ互換性のある分散型チームとワークフロー [cs.GT, cs.AI, cs.MA]目的:エージェントAIによる分散型チームとワークフローの実現
- AI技術の進展により,複雑なタスクを自動化するエージェントAIの重要性が高まっている。
- 既存のAIアーキテクチャは集中型であり,拡張性,専門性,相互運用性に課題がある。
- クラウドとエッジ環境で自律的に連携するエージェントAIの分散型ネットワークを構築し,拡張性と経済性を実現する。
- 本研究では,エージェントAIのインターネットというフレームワークを提案し,能力カバレッジ,ネットワークの近接性,経済的な実現可能性を考慮したインセンティブ互換性のあるワークフローを可能にする。
- 分散型チーム編成アルゴリズムを開発し,最小限の努力で効率的なチームを形成する。
- ヘルスケアにおけるケーススタディを通じて,ドメイン特化,クラウド・エッジの異質性,動的なチーム編成が,スケーラブルで回復力のあるワークフローを可能にすることを示した。
汎用エージェントは,部分観測性と確率性下でも世界モデルを含む [cs.AI]目的:エージェントの世界モデルの有無に関する理解
- 知能システムにおけるエージェントの能力と限界を理解する上で不可欠である。
- 既存の研究は,決定論的で完全観測可能な環境を前提としていた。
- 部分観測性と確率性下における世界モデルの存在を証明すること。
- 確率的エージェントは,ランダム化の使用を通じて環境を学習せざるを得ないことが示された。
- エージェントの汎用性が低下しても,世界モデルを含むという結果が強化された。
- 本研究は,より広範なエージェントに対して世界モデルの存在を主張する基盤を提供する。
欠損モダリティに対する基盤VLMの堅牢性向上:双方向特徴復元のためのスケーラブルな拡散 [cs.RO, cs.AI]目的:欠損モダリティに対するVLMの堅牢性向上
- VLMはマルチモーダルな情報を活用するが,入力が不完全な状況下での性能低下が課題である。
- 既存手法では,欠損した重要な特徴の復元やVLMの汎化性能維持が困難である。
- 欠損モダリティからの正確な意味復元とVLMの汎化性能維持を両立することを目指す。
- 提案手法は,拡散モデルと動的モダリティゲーティング,クロスモーダル相互学習を導入することで,欠損モダリティを効果的に復元する。
- ベンチマークデータセットにおけるゼロショット評価で,既存手法を上回る性能を示した。
- 多様な欠損率や環境下において,VLMの堅牢性とスケーラビリティを確保することが確認された。
インテリジェントなフロントエンドパーソナライゼーション:AI駆動のUI適応 [cs.CL, cs.RO, cs.HC, cs.AI, cs.SE]目的:AI駆動によるフロントエンドパーソナライゼーション戦略
- ユーザ体験の向上は,ウェブサービスの競争力を高める上で不可欠である。
- 従来のパーソナライゼーションは静的であり,ユーザ行動の多様性を捉えきれない。
- ユーザ行動予測に基づいた動的なUI適応によるパーソナライゼーションの実現。
- ユーザの行動経路予測に基づく動的レイアウト適応戦略を提案した。
- 強化学習を用いたコンテンツ優先度付けによるパーソナライゼーションを確立した。
- AI駆動型とルールベースのパーソナライゼーションの比較分析を行った。
医療画像セグメンテーションにおける完全なコルモゴロフ・アーノルド深層モデル [cs.HC, cs.CV, cs.LG]目的:医療画像セグメンテーションにおける,コルモゴロフ・アーノルド表現を用いた深層モデルの性能向上
- 医療画像解析は,病変の正確な検出と診断に不可欠であり,近年深層学習技術の応用が進んでいる。
- 従来の深層学習モデルは,計算資源の制約から,コルモゴロフ・アーノルド表現の層を深くすることが困難であった。
- 本研究は,メモリ消費量と学習の難しさを軽減し,より深いコルモゴロフ・アーノルド表現を用いたモデルを可能にする。
- 提案手法であるSaKANは,パラメータ削減と訓練サンプルの増加により,最適化を容易にしている。
- Grad-Free Splineは,GPUメモリ使用量を大幅に削減し,計算コストを軽減することに成功した。
- ALL U-KANは,従来の深層学習モデルと比較して高いセグメンテーション精度を示し,パラメータ数とメモリ消費量を大幅に削減した。
VALUEFLOW:大規模言語モデルにおける多元的で制御可能な価値に基づく整合性に向けて [cs.IR, cs.AI, cs.CL]目的:大規模言語モデルの価値に基づく整合性のための統合的フレームワーク
- AIの倫理的利用において,人間の多様な価値観との整合性は不可欠である。
- 従来の整合性手法は,深層的な動機原理を捉えきれていないという課題がある。
- 価値の階層構造の抽出,強度の評価,制御可能性の向上を目指す。
- VALUEFLOWは,価値の抽出,評価,制御を統合的に行う初のフレームワークである。
- HIVESにより,価値理論間の構造を捉え,VIDBにより大規模な強度評価データを提供する。
- 10モデル4理論で実験を行い,制御可能性の非対称性や多価値制御の法則を明らかにした。
MemCast:経験条件付き推論を用いたメモリ駆動型時系列予測 [cs.LG, cs.AI]目的:時系列予測における経験の蓄積と継続的な進化
- 実世界アプリケーションの意思決定において,時系列予測は重要な役割を担う。
- 既存手法は,明示的な経験の蓄積と継続的な進化に欠ける場合がある。
- 予測結果の履歴パターン活用による推論プロセス改善を目指す。
- MemCastは,時系列予測を経験条件付き推論タスクとして再構築する。
- 学習データから経験を抽出し,階層的なメモリとして整理する。
- 複数のデータセットで既存手法を上回り,有効性を実証した。
StepScorer:段階的スコアリングと心理的後悔モデリングによる強化学習の高速化 [cs.LG]目的:強化学習の高速化
- 強化学習は,複雑な環境下での意思決定において重要な役割を果たす。
- 疎な報酬信号が,学習の遅延を引き起こすことが課題である。
- 段階的スコアリングにより,疎な報酬を密なフィードバックに変換する。
- 提案手法であるPRMは,ベンチマーク環境Lunar Landerにおいて,従来のPPOよりも約36%高速に安定した性能を達成した。
- PRMは,連続制御タスクや遅延フィードバック環境において特に有効であり,ロボティクス等の実世界への応用が期待される。
- 本研究は,行動経済学と強化学習を結びつけ,人間における反事実的思考を計算可能な後悔信号として定式化した。
大規模タスク空間における実験計画問題に対する敵対的構成の可能性 [cs.LG, q-bio.NC]目的:敵対的構成による実験計画手法
- 人間の行動原理の解明は,認知科学や人工知能の発展に不可欠である。
- タスク空間が広大であるため,網羅的な実験的探索は現実的ではない。
- 高次元タスク空間における最適な実験計画の代替手法を確立すること。
- 敵対的構成は,ランダムサンプリングと比較して,新規な行動を引き出すタスクの特定において有意に優れた性能を示した。
- この結果は,敵対的構成が高次元タスク空間における最適な実験計画の代替手段として有効であることを示唆する。
- 本研究は,統一的なモデルによる多様なタスクの理解に向けた重要な一歩となる。
プローブ・ゼン・コミット多目的バンディット:限定的なマルチアームフィードバックの理論的利点 [cs.LG]目的:多目的バンディット問題における,プローブ・ゼン・コミット戦略の理論的利点の解明
- 無線アクセス選択やモバイルエッジコンピューティングにおいて,リソース配分は重要課題である。
- 既存の多目的学習理論は,古典的なバンディット問題と完全情報問題に偏っており,中間的な状況への対応が課題である。
- プローブ・ゼン・コミット戦略における最適なプローブ選択とコミットメント戦略を確立し,性能向上を目指す。
- 提案アルゴリズムPtC-P-UCBは,パレート最適解の探索を効率化する,ハイパーボリュームに着想を得たプローブ選択手法を用いる。
- アルゴリズムの支配ハイパーボリューム・フロンティア誤差は$\tilde{O} (K_P d/\sqrt{qT})$であり,限定的なプローブによる加速効果が示された。
- マルチモーダルプローブへの拡張により,不確実性融合による性能向上も確認された。
Privasis: ゼロから構築した最大規模の「公開」されたプライベートデータセット [cs.CL, cs.AI]目的:プライバシー保護に関する研究を加速するための大規模合成データセット
- プライバシーに関わるデータは入手が困難であり,AI研究の発展を阻害している。
- OpenClawやGemini Agent等のAIエージェントが機密情報にアクセスするリスクが高まっている。
- 機密性の高い社会データを扱う研究を支援し,プライバシー保護技術の進歩に貢献する。
- Privasisは140万件のレコードを含む,既存のデータセットと比較して大幅に大規模で多様な合成データセットである。
- Privasisを用いて構築されたテキスト無害化のための並列コーパスは,GPT-5やQwen-3 235B等の大規模言語モデルを上回る性能を示す。
- データ,モデル,コードを公開し,プライバシー保護に関する研究を促進する予定である。
DynSplit-KV:効率的な長文脈LLM推論のためのKVCache圧縮における動的意味分割 [cs.LG, cs.CL]目的:KVCache圧縮によるLLM推論の効率化
- 大規模言語モデルの普及に伴い,推論速度とメモリ使用量の最適化が重要である。
- 長文脈処理において,KVCacheのメモリ消費量がボトルネックとなり,圧縮技術が求められている。
- 文脈依存性の高い意味境界を考慮した動的意味分割によるKVCache圧縮手法を提案する。
- DynSplit-KVは,従来の固定分割法と比較して,精度低下を抑制し,高い精度を達成した。
- 動的意味分割により,精度が平均49.9%向上し,推論速度がFlashAttentionと比較して2.2倍に高速化された。
- ピークメモリ使用量は2.6倍削減され,KVCache圧縮の有効性が示された。
プロンプトの拡張が,数学的推論におけるGRPO学習のスケールアップを可能にする [cs.RO, cs.DB, cs.DC, cs.LG, cs.AI, cs.CL]目的:数学的推論能力向上のための強化学習アルゴリズムにおける,プロンプト拡張の効果検証
- 大規模言語モデルの数学的推論能力向上は,AI研究において重要な課題である。
- 強化学習による後学習において,政策エントロピーの低下と学習不安定性が問題となっている。
- 多様なプロンプトを用いることで,エントロピー低下を抑制し,学習の安定化と性能向上を目指す。
- プロンプト拡張により,KL正則化なしで,学習期間を安定的にスケールアップすることが可能になった。
- Qwen2.5-Math-1.5BモデルをMATH Level 3-5データセットで学習した結果,最先端の性能を達成した。
- AIME24,AMC,MATH500等の標準的な数学的推論ベンチマークで,それぞれ44.5%と51.3%の精度を記録した。
大規模言語モデルのための有望なトークンを用いた強化学習 [cs.LG, cs.AI]目的:大規模言語モデルの強化学習における性能向上
- 言語モデルの性能は,人間との対話や複雑なタスクの実行において重要であり,継続的な改善が求められている。
- 従来の強化学習では,巨大な語彙空間全体に適用されるため,学習効率が低下し,不安定になりやすい。
- 有望なトークンに焦点を当て,学習空間を絞ることで,効率的かつ安定的な強化学習を実現する。
- 本研究では,有望なトークンを用いた強化学習(RLPT)が,勾配分散を低減し,学習プロセスを安定化させ,サンプル効率を向上させることを示した。
- 数式,コーディング,通信に関する推論タスクにおいて,RLPTは標準的な強化学習のベースラインを上回り,様々なモデルサイズやアルゴリズムで有効であることが示された。
- 有効な推論経路は,低ランクの部分空間に集中するという洞察に基づき,RLPTは戦略的決定とトークン生成を分離するフレームワークを提供する。
Hand3R:野生環境におけるオンライン4Dハンド・シーン再構成 [cs.CV, cs.AI]目的:動的な手と高密度なシーンコンテキストの同時再構成
- 身体化AIの実現には,物理的相互作用の理解が不可欠であり,そのために周囲環境の3D情報が重要である。
- 既存手法は局所座標での単独の手の再構成に偏っており,周囲の3D環境との関係性が考慮されていない。
- 単眼画像から手とシーンを同時に再構成するオンラインフレームワークを開発し,この問題を解決することを目指す。
- Hand3Rは,事前学習済みの手モデルと4Dシーン基礎モデルを組み合わせ,シーンを意識した視覚的プロンプティング機構により,単一のフォワードパスで正確な手メッシュとシーンジオメトリを再構成する。
- オフライン最適化への依存を回避し,局所的な手の再構成とグローバルな位置推定の両方において,競争力のある性能を達成している。
- シーンメモリに高精度な手の事前知識を注入することで,同時再構成を可能にしている。
スカラー報酬から潜在トレンドへ:モデルベース強化学習のための潜在的ランドスケープの形成 [cs.LG]目的:モデルベース強化学習における潜在的ランドスケープの構築
- 強化学習は,複雑な課題を自動で学習する強力な手法であり,様々な分野で活用が期待されている。
- 報酬が疎な環境では,従来の強化学習手法は学習が困難になるという課題がある。
- 疎な報酬環境においても効果的な学習を可能にするための新たな手法を提案する。
- 提案手法SLOPEは,報酬をスカラー値として予測するのではなく,潜在的ランドスケープを構築する。
- SLOPEは,楽観的な分布回帰を用いて高い信頼性を持つ上限を推定し,稀な成功信号を増幅させる。
- 5つのベンチマークにおける30以上のタスクでSLOPEが,既存手法を上回る性能を示すことが確認された。
ForesightKV:推論モデルにおけるKVキャッシュ退去の最適化 - 長期的な貢献学習による [cs.CL, cs.LG]目的:推論モデルにおけるKVキャッシュ退去最適化手法
- 大規模言語モデルの高性能化に伴い,長い推論過程が必要不可欠となっている。
- 推論過程が長くなるほどKVキャッシュのサイズが拡大し,メモリ消費量が増大する。
- 複雑なKV依存関係を捉え,効率と性能のバランスを取るKVキャッシュ退去手法を確立する。
- ForesightKVは,将来の注意スコアを用いて最適なKVペアを特定するGolden Evictionアルゴリズムを設計した。
- Pairwise Ranking Lossを用いた教師あり学習により,Golden Evictionアルゴリズムのトレースを蒸留することに成功した。
- AIME2024およびAIME2025ベンチマークにおいて,既存手法を凌駕する性能を示し,キャッシュ予算を半分に削減した。
疎性は組み合わせ的深さ:熱帯幾何によるMoE表現力の定量化 [cs.LG]目的:MoE表現力の幾何学的定量化
- 近年の巨大モデルにおいてMoEが性能向上に不可欠となっている。
- MoEの理論的成功は,幾何学的表現力ではなく効率性に起因すると考えられている。
- 熱帯幾何を用いてMoEの表現力を厳密に評価し,その優位性を理論的に裏付ける。
- MoEのTop-$k$ルーティングは,$k$次の初等対称多項式と代数的に同型であることが示された。
- MoEは入力空間を双曲面で分割し,「疎性は組み合わせ的深さ」であると解釈できる。
- MoEは低次元データにおける容量崩壊に強く,高い表現力を維持する「組み合わせ的耐性」を持つ。
スペクトル進化探索:報酬整合画像生成のための効率的な推論時スケーリング [cs.LG, cs.CV]目的:報酬整合画像生成における効率的な推論時スケーリング手法
- 画像生成モデルの性能向上は,様々な応用分野において重要である。
- 推論時スケーリングは計算コストが高く,効率的な探索が課題である。
- 周波数特性に着目し,効率的な探索空間を絞ることで計算コストを削減する。
- 提案手法SESは,従来の推論時スケーリング手法と比較して,生成品質と計算コストのトレードオフにおいて優れている。
- SESは,低周波数空間内での勾配不要の進化探索を実行することで,効率的なノイズ最適化を実現する。
- スペクトルスケーリング予測に基づき,周波数ごとの摂動の影響の違いを理論的に説明する。
拡散モデルのテスト時スケーリングのための先読みサンプル報酬ガイダンス [cs.LG, cs.AI]目的:拡散モデルにおける人間との意図整合性を高めるためのテスト時スケーリング手法
- 拡散モデルは高い生成能力を持つが,生成結果と人間の意図が一致しない場合がある。
- 従来の勾配ガイダンス法は計算コストが高く,効率的な報酬予測が課題となっていた。
- 事前学習済みの拡散モデルからの周辺サンプルを用いて,効率的に報酬を予測する手法を開発する。
- 提案手法LiDARは,わずか3つのサンプルと3ステップの先読みソルバーで,大幅な性能向上を実現した。
- LiDARはSDXLにおいて,最新の勾配ガイダンス法と同等のGenEval性能を9.5倍の速度で達成した。
- LiDARは,勾配ガイダンス法におけるニューラル依存性を排除し,高速なガイダンス計算を可能にした。
トークン疎注意:インターリーブされたトークン選択による効率的な長文脈推論 [cs.CL, cs.LG]目的:大規模言語モデルにおける長文脈推論の効率化
- 言語モデルの性能向上には,より長い文脈を扱える能力が不可欠である。
- 既存の注意機構は計算量が大きいため,長文脈の処理がボトルネックとなっている。
- 動的なトークンレベルの疎化により,計算量を削減し,性能低下を抑制することを目指す。
- 提案手法であるトークン疎注意は,注意速度を最大3.23倍向上させることが示された。
- 128Kの文脈長において,精度劣化を1%未満に抑えながら高速化を実現している。
- 動的かつインターリーブされたトークンレベルの疎化が,長文脈推論のスケーラビリティ向上に有効であることが示された。
トポロジーは重要である:神経科学に着想を得たベンチマークにおけるグラフSSLの注意喚起事例研究 [cs.LG, cs.AI]目的:神経科学に基づいたベンチマークにおけるグラフSSLの限界と課題
- 脳のグローバルな組織化は局所的な相互作用から生じるため,多階層的な情報表現が重要である
- 既存のグラフSSLは,脳ネットワークのトポロジー的特性を考慮していない場合がある
- トポロジーを意識した新たなSSL目的関数を開発し,脳AI研究への応用を目指す
- 自己教師あり学習モデルは,トポロジー特性に対して不適切であり,古典的な手法よりも性能が大幅に劣る
- SSLの目的関数がトポロジー的摂動に対して不変性を目指す結果,コミュニティ構造を無視する
- 汎用的なグラフSSLをコネクトーム様データに適用する際の根本的な落とし穴を明らかにした
量を超えて:コードエージェントのための軌跡多様性スケーリング [cs.AI]目的:コードエージェントの性能向上
- 大規模言語モデルがツールを利用するエージェントとして進化する中で,汎化性能向上が重要である。
- 合成データの質が低く,量的なスケーリングでは効果が薄れるという課題が存在する。
- 軌跡データの多様性を高めることで,エージェントの学習効率を改善することを目指す。
- TDScalingは,既存の学習予算内で,軌跡数を増やすよりも軌跡多様性を高める方が,より大きな性能向上をもたらすことを示した。
- ビジネスクラスタ,ブループリント駆動型マルチエージェント,適応進化メカニズム,サンドボックス化されたコードツールといった4つの革新的な要素を組み込んだ。
- BFCL,tau^2-Bench,RebenchT,CodeCI,BIRDといったベンチマークテストにおいて,ツール利用の汎化性能とコーディング能力の両方が向上することが確認された。
クリック率予測におけるストリーミング数値特徴量のための分布を考慮したエンドツーエンド埋め込み [cs.IR, cs.AI]目的:ストリーミング環境におけるクリック率予測のための効果的な数値特徴量埋め込み
- オンライン広告におけるクリック率予測は,広告効果の最適化に不可欠であり,重要な研究課題である。
- 従来のビン分割法はオフライン統計に依存し,ストリーミングデータにおける分布の変化に対応しにくい。
- ストリーミングデータにおける分布の変化と文脈依存性を考慮した,より適応的な埋め込み手法の開発。
- 本研究で提案するDAESは,分布情報と適応的変調メカニズムを統合することで,ストリーミング学習における数値特徴量埋め込みの課題を解決する。
- DAESは,リザーバーサンプリングを用いた効率的な分布推定と,フィールド依存性の考慮による分布変調戦略を導入している。
- オフラインおよびオンライン実験の結果,DAESは既存の手法を大幅に上回り,主要なショートビデオプラットフォームで実用化されている。
TAME:体系的なベンチマークによる,エージェントメモリの信頼性のあるテスト時進化 [cs.AI, cs.LG]目的:エージェントメモリのテスト時進化における信頼性の維持
- 複雑な推論を可能にするため,経験の蓄積によるエージェントメモリの進化は重要である。
- タスク進化中に,エージェントの安全性への整合性が損なわれる「エージェントメモリの誤進化」が問題となる。
- 本研究は,信頼性を損なわずに有用性を維持するメモリ進化フレームワークを提案することで,この問題を解決する。
- 本研究で構築したTrust-Memevoベンチマークにより,タスク進化中に信頼性が低下することが示された。
- 提案手法TAMEは,タスク遂行メモリと評価メモリを分離して進化させることで,誤進化を抑制する。
- 実験結果から,TAMEは信頼性とタスク性能の両方を向上させることが示された。
ATACompressor:LLMにおける効率的な長文処理のための適応的タスク認識圧縮 [cs.CL, cs.AI]目的:LLMにおける長文処理の効率化のための適応的タスク認識圧縮手法
- LLMの性能は文脈長に大きく依存するが,長文の処理は計算コストが高い。
- 長文入力では「中間情報の喪失」問題が発生し,重要な情報が埋没しやすい。
- タスクに応じて圧縮率を調整し,情報保持と効率性を両立させる。
- ATACompressorは,既存手法と比較して圧縮効率とタスク性能の両面で優れている。
- 選択的エンコーダにより,タスクに関連する部分のみを圧縮し,重要な情報を維持する。
- 適応的割り当てコントローラにより,関連コンテンツの長さに応じて圧縮率を最適化する。
BayeSQP:逐次二次計画法によるベイズ最適化 [cs.LG]目的:汎用的なブラックボックス最適化手法
- 最適化問題は科学技術のあらゆる分野において不可欠であり,効率的な解法が求められている。
- 高次元問題や関数の評価コストが高い場合に,既存の最適化手法は性能が低下することがある。
- モデルの不確実性を考慮した,高次元問題における効率的なベイズ最適化を実現すること。
- BayeSQPは,第二階ガウス過程モデルを用いて目的関数と制約を同時にモデリングする。
- 逐次二次計画法の枠組みにベイズ最適化の考え方を導入することで,高次元問題における性能向上を実現した。
- 実験結果から,BayeSQPは特定の高次元設定において最先端の手法を上回ることが示された。
活性化誘導回転によるストリーミングLLM更新 [cs.LG, cs.CL]目的:大規模言語モデルの効率的な適応手法
- LLMの規模拡大に伴い,効率的な適応が不可欠である。
- 既存のマージ手法は,事後修正やタスク干渉の軽減に重点を置いており,SFTの動的な最適化効果を捉えられていない。
- 活性化に基づいた回転を考慮することで,SFTの最適化を近似し,モデルの性能を向上させる。
- 提案手法ARMは,SFTの早期チェックポイントから開始し,反復的なマージにより,完全に収束したSFTモデルを上回る性能を示す。
- ARMは,マージ係数を学習率とみなし,活性化サブ空間から回転ベクトルを導出することで,データ駆動型の軌跡に沿ったパラメータ更新を実現する。
- 1.7Bから14Bまでのモデル規模および様々なドメイン(数学,コードなど)で,ARMがスケーラブルかつ軽量な適応フレームワークであることを実証した。
LLMベースのエージェント評価のための統一フレームワークの必要性 [cs.AI]目的:LLMベースのエージェント評価の標準化
- LLMの進化により汎用エージェントが発展。その性能評価は,研究開発の進展に不可欠である。
- 既存の評価基準は,プロンプトや環境設定に依存し,再現性や公平性に課題がある。
- 評価における不確実性を排除し,モデル自体の性能向上に焦点を当てることを目指す。
- 現在のエージェント評価は,システムプロンプトやツールセットなど,外的要因の影響を強く受けていることが示された。
- 研究者固有の評価フレームワークが乱立し,プロンプト設計のばらつきが性能評価の困難さを招いている。
- 統一された評価フレームワークの提案を通じて,エージェント評価の厳密性と再現性の向上を目指す。
アコーディオン思考:効率的かつ可読なLLM推論のための自己制御型ステップ要約 [cs.RO, physics.app-ph, physics.optics, cs.AI, cs.LG]目的:LLMの推論における効率と可読性を向上させるための自己制御型ステップ要約のメカニズム
- 大規模言語モデルの推論能力向上は重要だが,計算資源の制約が課題となっている。
- Chain-of-Thoughtによる推論は計算量が増大し,KVキャッシュやアテンションの複雑さが増す。
- 動的な要約により推論ステップの粒度を自己制御し,計算資源を効率的に利用することを目指す。
- アコーディオン思考は,モデルが自身の思考過程を定期的に要約し,過去の情報を削減するFold推論モードを実現する。
- 強化学習により,FoldモードとUnfoldモードの精度差が徐々に縮小し,最終的には解消されることが示された。
- 学習された自己圧縮により,LLMは高い精度を維持しつつ,トークン依存性を最小限に抑え,スループットを3倍に向上させる。
LPS-Bench:好意的および敵対的なシナリオ下における長期的計画におけるコンピュータ利用エージェントの安全性認識のベンチマーク [cs.AI]目的:コンピュータ利用エージェントの計画段階における安全性認識の評価
- 実世界のコンピュータシステムとのインタラクションにおいて,自動化されたタスク実行の安全性確保が重要である。
- 既存のベンチマークは,短期的なタスクやGUIベースに偏っており,計画段階でのリスク予測能力を評価していない。
- 長期的計画における安全性認識の欠如を明らかにし,その改善策を提案すること。
- LPS-Benchは,7つのタスクドメイン,9つのリスクタイプを網羅する65のシナリオを用いて,コンピュータ利用エージェントの計画段階での安全性認識を評価する。
- 実験の結果,既存のコンピュータ利用エージェントは安全な行動を維持する能力に大きな欠陥があることが示された。
- リスク分析に基づき,長期的計画における安全性を向上させるための緩和策を提案した。
GraDE:ニューラルアーキテクチャにおける頻出部分グラフ発見のためのグラフ拡散推定器 [eess.SY, cs.SY, cs.LG, cs.AI]目的:ニューラルアーキテクチャにおける頻出部分グラフの発見
- ニューラルネットワークの効率化,設計加速,構造的知見の獲得に,頻出部分グラフの発見は不可欠である。
- 部分グラフのサイズ増大に伴い,網羅的な探索は計算コストが高く,サンプリングは発見能力が低下する。
- 計算可能性と発見能力を両立する頻出部分グラフ探索手法を確立すること。
- 提案手法GraDEは,グラフ拡散モデルを用いて部分グラフの典型性を評価することで,高いランキング精度を達成した。
- 既存のサンプリングベース手法と比較して,最大114%のランキング精度向上を実現した。
- 大規模な頻出パターンを効率的に発見し,既存手法より最大30倍高い中央値頻度を達成した。
CSR-Bench:MLLMのクロスモーダル安全性と信頼性を評価するためのベンチマーク [cs.NI, cs.AI]目的:MLLMのクロスモーダル安全性と信頼性の評価
- マルチモーダルLLMは急速に発展しており,安全性と信頼性の確保が重要課題となっている。
- 既存のLLMは,画像とテキストの統合的な理解ではなく,単一のモダリティに依存した挙動を示すことがある。
- クロスモーダルな安全性と信頼性を評価するための包括的なベンチマークの提供。
- CSR-Benchは,安全性,過剰な拒否,バイアス,幻覚という4つのストレス・テスト・パターンを包含する。
- 評価された16種類の最先端MLLMにおいて,クロスモーダルな整合性のギャップが観察された。
- モデルは安全性への意識が弱く,干渉下では言語が優位になり,テキストのみの制御と比較して性能が低下する傾向が見られた。
HypCBC:汎化可能な医用画像解析のためのドメイン不変双曲線交差ブランチ一貫性 [cs.CV, cs.LG, eess.IV]目的:医用画像解析における汎化性能向上
- 医用画像解析は医療の発展に不可欠だが,データ不足や条件変化が課題。
- 既存手法はユークリッド空間に依存し,複雑な臨床データの構造を捉えきれない。
- 双曲線多様体を利用し,ドメイン不変な特徴表現を獲得することで汎化性能を向上させる。
- 双曲線表現学習が医用画像解析において有効であることが,11のデータセットと3つのViTモデルで確認された。
- 提案手法は,ドメイン不変な特徴を促進し,3つのドメイン汎化ベンチマークで最先端手法を平均2.1%上回った。
- 異なる画像モダリティ,データサイズ,ラベルの粒度において汎化能力が確認された。
接尾辞を超えて:大規模言語モデルに対するGCG敵対的攻撃におけるトークン位置 [cs.LG]目的:大規模言語モデルに対する敵対的攻撃におけるトークン位置の影響
- 大規模言語モデルの普及に伴い,安全性確保が急務となっている。
- 敵対的プロンプトによる脱獄攻撃によって,安全性評価が困難になっている。
- 既存の安全性評価における盲点を解消し,トークン位置の考慮を促す。
- 敵対的攻撃において,接尾辞としてだけでなく接頭辞としても生成することが攻撃成功率に大きく影響することが示された。
- 評価時に敵対的トークンの位置を変化させることも,攻撃成功率に有意な影響を与えることが確認された。
- 安全性評価において,敵対的トークンの位置を考慮する必要性が強調された。
毒性アソシエーショングラフによるマルチモーダルデータの隠れた毒性の解明:グラフベースの指標と解釈可能な検出フレームワーク [cs.SI, physics.soc-ph, cs.LG, cs.AI, cs.MM]目的:マルチモーダルデータにおける隠れた毒性の検出
- オンライン上での有害コンテンツ増加により,毒性検出の重要性が高まっている。
- 個々のモーダルでは毒性が見られず,組み合わせによって初めて毒性が現れる場合がある。
- マルチモーダルデータの隠れた毒性を定量化し,解釈可能な形で検出することを目指す。
- 毒性アソシエーショングラフ(TAG)を用いて,無害な要素と潜在的な毒性暗示の間の意味的関連性をモデル化する。
- 隠れた毒性の度合いを測る新たな指標であるマルチモーダル毒性隠蔽度(MTC)を導入した。
- 提案手法は,既存手法と比較して,低・高隠蔽度の両方の毒性において優れた性能を示すことが確認された。
BlockRR: ラベル差分プライバシーのためのRR型アルゴリズムの統一的フレームワーク [cs.LG]目的:ラベル差分プライバシーのためのRR型アルゴリズムの統一的フレームワーク
- データプライバシー保護は,個人情報保護の観点から重要であり,機械学習モデルの応用を促進する。
- 既存のRR型メカニズムは,ケースバイケースでの分析が必要であり,柔軟性に欠ける。
- ラベルの事前情報を活用し,汎用的なフレームワークを構築することで,この問題を解決する。
- BlockRRは,既存のRR型メカニズムを特殊なパラメータ設定として一般化する統一的なランダム応答メカニズムである。
- 理論的に,BlockRRが$\epsilon$-ラベルDPを満たすことが証明された。
- 実験的に,BlockRRは,高プライバシーおよび中程度のプライバシー領域($\epsilon \leq 3.0$)において,テスト精度とクラスごとの平均精度とのバランスが良いことが示された。
エージェントによる提案:構成的なスキル合成を介した大規模言語モデルの推論能力の向上 [cs.DB, cs.AI, cs.LG]目的:大規模言語モデルの推論能力向上のための,構成的なスキル合成によるデータ生成手法
- 大規模言語モデルの複雑な推論能力向上には高品質なデータが不可欠であり,その重要性は増している。
- 既存のデータ生成手法は,問題の構造的妥当性と複雑さのバランスを取ることが難しく,データの品質が課題となっている。
- 本研究は,高品質かつ検証可能な合成データを効率的に生成し,大規模言語モデルの推論能力を向上させることを目指す。
- 提案手法「Agentic Proposing」は,モジュール化された推論スキルを動的に選択・合成することで,高品質な学習データを生成する。
- 生成されたデータで学習したモデルは,既存のベースラインを大幅に上回り,高い汎化性能を示すことが確認された。
- 11,000件の合成データのみで,AIME25において最先端の精度91.6%を達成し,大規模な人間によるアノテーションの代替可能性を示した。
グローバルな幾何学はビジョン表現には不十分である [cs.CV, cs.AI]目的:ビジョン表現における表現能力の評価指標
- 画像認識の性能向上には,汎化能力の高い表現学習が不可欠である。
- 従来の評価指標は,グローバルな幾何学的構造に偏重しており,構成的な結合を捉えきれない。
- グローバルな幾何学だけでは捉えきれない表現能力を評価する新たな指標を確立する。
- グローバル幾何学に基づく統計量は,構成的結合との相関がほぼゼロであることが示された。
- 入力-出力ヤコビアンで測定される機能的感受性が,構成的結合能力を正確に追跡することが明らかになった。
- 既存の損失関数が埋め込み幾何学を制約する一方で,局所的な入力-出力マッピングは制約されていないことが分析的に示された。
MeetBench-XL:リアルタイム会議のための校正された多次元評価と学習型デュアルポリシーエージェント [cs.AI]目的:リアルタイム会議における多様な業務タスクを処理するAIアシスタントの評価と学習
- 企業環境では,会議中の迅速な事実確認や戦略的計画のための分析など,AIアシスタントのニーズが高まっている。
- 既存の会議ベンチマークは単純な質問応答に偏っており,現実の複雑な企業ワークフローを反映していない。
- 現実の企業会議における多角的課題に対応できる,より実用的なAIアシスタントの開発を目指す。
- MeetAllというバイリンガル・マルチモーダルな企業会議コーパスを構築し,現実的な質問を注入するプロトコルを確立した。
- MeetBench XLという多次元評価プロトコルを提案し,事実の正確性,意図の一致,応答効率などを評価した。
- MeetMaster XLという学習型デュアルポリシーエージェントを開発し,高速・低速推論経路とツール呼び出しを最適化した。
構造化二極論議論における疑念に基づく議論の拒否 [cs.AI, cs.MA]目的:構造化二極論議論フレームワークにおける疑念に基づく議論拒否のメカニズム
- 議論は意思決定や問題解決において不可欠であり,その形式化はAI分野で重要な課題である。
- 既存の計算論的議論モデルでは,議論の擁護可能性と受容可能性が必ずしも一致しない点が考慮されていなかった。
- 単なる疑念に基づく議論の拒否と,文レベルでの受容可能性を組み込んだ議論モデルを提案すること。
- 構造化二極論議論フレームワーク(SBAF)を定義し,攻撃と支持の関係を文レベルで表現した。
- SBAFに対して,擁護された議論の全てを受容する必要がない新たな意味論を導入した。
- 本意味論は,許容可能な議論集合に加え,許容可能な文集合も指定し,議論における合理的な立場を表現した。
コンパクト集合上の連続関数に対する線形測定とスカラー非線形性による普遍近似 [cs.DM, cs.CC, cs.SC, cs.LG, math.FA]目的:コンパクト集合上の連続関数に対する普遍近似
- 機械学習や画像処理において,高次元データの効率的な表現が重要である。
- 複雑な関数を近似するためには,計算コストと近似精度のバランスが課題となる。
- 線形測定とスカラー非線形性を組み合わせることで,効率的な近似を実現する。
- コンパクト集合上の連続関数は,有限個の線形測定とスカラー非線形性を組み合わせることで一様近似可能である。
- この結果は,演算子学習や画像処理で一般的な「測定,スカラー非線形性適用,結合」設計パターンを理論的に正当化する。
- バナッハ空間への写像に対しても,有限ランク近似が可能となる拡張も示された。
