arXiv雑要約
AI - 2026/02/03 公開
DMAVA:Autowareを用いた分散型自律多車体アーキテクチャ [cs.RO, cs.AI, cs.MA]目的:複数自律車両の協調運転シミュレーションのためのアーキテクチャ
- 自動運転技術の発展に伴い,複数車両の協調が不可欠となっている。
- 既存のシミュレーション環境では,複数車両の分散制御が困難であった。
- 分散環境下での複数車両の協調運転を可能にするアーキテクチャを提案する。
- DMAVAは,ROS 2,Autoware Universe,AWSIM Labs,Zenohを統合した分散型アーキテクチャである。
- 複数ホスト構成での実験により,安定した位置推定と信頼性の高い車間通信が確認された。
- また,閉ループ制御の一貫性が証明され,協調型自動駐車への応用可能性が示唆された。
LongCat-Flash-Thinking-2601技術報告 [cs.CL, cs.DC, cs.DB, cs.AI]目的:5600億パラメータのMoE推論モデルLongCat-Flash-Thinking-2601の性能評価
- エージェント型AIは,複雑なタスクを自律的に実行可能であり,社会への応用が期待されている。
- 既存のオープンソースモデルは,複雑なツール使用や実環境でのロバスト性に課題がある。
- 本研究は,より高度な推論能力と汎化性能を備えたエージェント型AIモデルを開発する。
- LongCat-Flash-Thinking-2601は,エージェント型検索,ツール使用,ツール統合推論など,幅広いベンチマークで高い性能を示した。
- 環境のスケーリングやタスク構築の探求により,複雑なツール使用における汎化性能が向上した。
- ノイズのある実環境におけるロバスト性を高めるため,ノイズパターン分析とそれに対応した学習手法を導入した。
GEDIバイオマス推定のためのキャリブレーションされた確率的補間 [cs.LG, cs.CE, cs.CV]目的:GEDIミッションのバイオマス分布マッピングにおける,疎なLiDAR観測データの補間
- 地球規模での炭素循環理解には,森林バイオマスの正確な把握が不可欠である。
- 既存手法では,異質地形における予測区間のキャリブレーションが課題となっていた。
- 複雑な地形や植生に対応し,より信頼性の高いバイオマス分布マッピングを実現する。
- Attentive Neural Processes (ANPs)は,局所的な観測データと地理空間基礎モデルを条件とした確率的メタ学習フレームワークである。
- ANPsは,複雑な地形で不確実性推定値を拡大し,均一な地域で縮小する柔軟な空間共分散関数を学習する。
- 5つの異なるバイオームでの検証により,ANPsは高い精度と理想的な不確実性キャリブレーションを両立することが示された。
モデル中心型診断:内部状態読み出しのためのフレームワーク [cs.CV, cs.AI]目的:訓練状態の内部状態読み出しに関する診断フレームワーク
- 機械学習モデルの性能向上には,訓練過程の理解が不可欠である。
- モデルの内部状態の把握が難しく,診断手法が断片的である。
- モデルの内部状態を統一的に捉え,診断手法を体系化すること。
- 予測ヘッドの損失風景の幾何学的構造が,特徴量のタスクとの整合性を示す。
- 様々な読み出し方法は,この幾何学的構造の異なる射影に対応している。
- チェックポイント選択,早期終了,軽量アーキテクチャの選別は,共通の内部状態を異なる視点から評価している。
大規模言語モデルの学習ダイナミクス解析のための損失地形の曲率の測定尺度 [cs.LG, cond-mat.dis-nn, cs.AI, stat.ML]目的:大規模言語モデルの学習ダイナミクス解析のための損失地形の曲率測定
- ニューラルネットワークの学習を理解する上で,損失地形の曲率変化は重要な要素である。
- 損失ヘッセ行列の最大固有値(ヘッセ鋭さ)は計算コストが高く,大規模言語モデルへの適用が困難である。
- 計算効率の良い曲率測定尺度を用いて,大規模言語モデルにおける学習ダイナミクスを解析する。
- 提案手法であるクリティカルシャープネスは,ヘッセ鋭さを捉えながらも,計算コストを大幅に削減できる。
- 70億パラメータ規模のモデルにおいて,学習の進行に伴う曲率の鋭化現象と安定性の限界が確認された。
- 別の損失地形での曲率を評価する相対的クリティカルシャープネスは,事前学習からファインチューニングへの移行を分析する上で有用である。
レコメンダーシステムにおけるエンティティマッチングの評価 [cs.MS, cs.IR, cs.LG]目的:レコメンダーシステムにおけるエンティティマッチングの評価
- レコメンダーシステムは,多様な情報から最適な提案を行う上で不可欠な技術である。
- 既存の評価フレームワークの不足が,LLMを活用した対話型レコメンダーや知識ベースのデータセット構築の進展を阻害している。
- 異なるデータセット間のエンティティマッチング評価を可能にし,レコメンダーシステム研究を加速させることを目指す。
- Reddit-Amazon-EMという新しいデータセットを構築し,RedditとAmazonのアイテム間の自然な関連性を活用した。
- 既存のエンティティマッチング手法(ルールベース,グラフベースなど)の包括的な評価を実施し,性能を比較した。
- 最も性能の高い手法によるデータセット間のマッピングを公開し,今後の研究リソースとして提供する。
スケール縮小とグラフ構造学習による重み付きグラフクラスタリング [cs.LG]目的:重み付きグラフのノードを類似度に基づいて明確なクラスターに分割すること
- グラフ構造は複雑な関係性を表現でき,様々な分野でデータ分析に活用されている
- 既存手法ではエッジの重みを十分に活用できておらず,精度向上の余地がある
- エッジの重みを考慮しつつ,グラフの規模を縮小することで効率性と精度を両立すること
- 提案手法は,既存のベースラインと比較して優れた性能を示した
- グラフ縮小モジュールにより,学習時間とストレージ容量を大幅に削減できることが示された
- エッジの重みを考慮したアテンションネットワークにより,ノイズの影響を軽減し,クラスタリングの精度を向上させている
大規模言語モデルを用いた多目的組合せ最適化のための相互依存オペレーターの進化 [cs.IR, cs.DC, cs.HC, cs.CL, cs.IR, cs.DC, stat.ML, cs.NE]目的:多目的進化アルゴリズムにおけるオペレーターの最適化
- 多目的組合せ最適化は,複雑な現実世界の課題解決に不可欠であり,その性能向上は重要である。
- 従来のヒューリスティック設計は専門知識に依存し,オペレーター間の動的な関係性を捉えきれない。
- オペレーター間の相互依存性を考慮した共同進化によって,最適化性能の向上を目指す。
- 提案手法E2OCは,モンテカルロ木探索を用いてオペレーター設計戦略の組み合わせを探索する。
- E2OCは,既存の自動ヒューリスティック設計手法を組み込み,汎用性と最適化能力を向上させる。
- 実験結果から,E2OCは最先端手法と比較して一貫して優れた性能を示すことが確認された。
ドメイン事前学習が指示合わせに干渉する場合:医療LLMにおけるアダプターマージの経験的研究 [cs.CL, cs.AI]目的:ドメイン適応と指示合わせの組み合わせにおけるアダプター干渉の現象
- 大規模言語モデルは医療分野で活用が期待されるが,専門知識の注入と安全性の確保が課題である。
- ドメイン知識と指示応答能力を同時に学習させる際,両者の干渉により性能が低下する可能性がある。
- アダプターマージの比率を調整することで,干渉を抑制し,最適な性能を引き出すことを目指す。
- ドメイン事前学習信号の追加は,思考連鎖を意図的に無効化する設定下でも,潜在的な思考行動を再活性化させ,出力分布を変化させる。
- 固定された生成評価において,純粋なSFTモデルはBLEU-4=17.84を達成するのに対し,マージモデル(PT=0.3, SFT=0.7)はBLEU-4=6.50に低下する。
- 一方で,多肢選択問題の正答率はほぼ同等(平均0.777 vs 0.778)であり,MedQAの精度は0.664から0.681に向上する。
コードによる思考:コードに基づいた推論による意味的慣性の克服 [cs.CL, cs.AI]目的:意味的慣性克服のための手法
- 大規模言語モデルの発展は目覚ましいが,常識や事前知識に縛られる問題がある。
- 学習済みの知識が,文脈に応じたルール変更を阻害する「意味的慣性」が課題となっている。
- 動的な文脈変化に対応できるよう,事前知識の抑制を可能にする表現方法を模索する。
- 大規模言語モデルにおいて,モデルの規模が大きいほど,意味的慣性による性能低下が見られた。
- 実行可能なコードとして動的な状況を表現することで,事前知識の抑制が可能となり,性能が向上した。
- 反事実ペアでファインチューニングする「Code-Grounded Vistas」が,効率的かつ高精度な推論を可能にする。
曖昧から正確へ:有理数演算による無限深推論のためのHaloアーキテクチャ [cs.IR, cs.LG, cs.AI, cs.AR]目的:無限深推論を可能にするHaloアーキテクチャ
- 汎用人工知能の実現には,高度な因果推論能力が不可欠であり,そのためには正確な計算基盤が求められる。
- 深層学習モデルは計算効率を優先するあまり数値精度が犠牲になりがちであり,論理的な誤りや矛盾を生む原因となる。
- 本研究は,正確な計算基盤を提供することで,深層学習モデルにおける数値的な不正確さによる問題を解決することを目指す。
- Haloアーキテクチャは,従来の近似実数演算から正確な有理数演算への移行を実現し,数値的な忠実性を維持する。
- シミュレーションの結果,Haloはカオス的なシステムにおいても無限に正確な計算を維持できるのに対し,従来のBF16モデルはすぐに失敗する。
- 本研究は,推論能力を備えた汎用人工知能の実現には正確な算術が不可欠であり,検証可能なエクサスケール対応AIシステムの開発に向けた道筋を示す。
SeNeDiF-OOD:開かれた世界における分類のための意味的ネスト二分法融合による分布外検出手法 - 建造物様式分類のケーススタディ [cs.CV, cs.AI]目的:分布外データの検出
- AIの信頼性確保には不可欠であり,現実世界の多様な環境への応用を可能にする。
- OODデータの多様性(低レベルの破損から意味的変化まで)に対処することが困難である。
- 多様なOODカテゴリを効果的にフィルタリングし,分布内性能を維持する。
- 提案手法SeNeDiF-OODは,意味的抽象レベルに応じた決定境界を統合する二分法融合ノードの階層構造を採用する。
- 建造物様式認識システムMonuMAIを用いたケーススタディにより,その有効性が検証された。
- 実験結果は,SeNeDiF-OODが従来のベースラインを大幅に上回り,多様なOODカテゴリのフィルタリングに成功することを示した。
言語系統が重要: 言語境界を越えたLLMベースASRの評価 [cs.CL, cs.AI, cs.SD]目的:LLMベースASRにおける言語系統に基づくコネクタ共有戦略
- 近年,LLMを活用した音声認識技術が発展しており,限られたリソースでの高性能化が期待されている。
- 従来の言語ごとのコネクタ学習は,言語間の系統関係を無視しており,効率性に課題があった。
- 言語系統を考慮したコネクタ共有により,パラメータ削減と汎化性能向上を目指す。
- 言語系統に基づいたコネクタ共有は,パラメータ数を削減し,ドメイン間の汎化性能を向上させる。
- 本研究で提案する戦略は,実世界の音声データを用いた実験で有効性が確認された。
- 多言語ASRの展開において,実用的かつスケーラブルなアプローチを提供する。
完全ランク行動と状態観測可能性を超えてPOMDPを学習する [cs.LG, cs.AI, cs.RO]目的:隠れた状態を持つシステムのパラメータ学習
- ロボットが不確実な環境で自律的に行動するためには,隠れた状態を考慮した計画が不可欠である。
- 既存手法は,状態の完全な観測可能性や,行動行列の完全ランクを前提とする場合が多く,現実世界の複雑な問題に対応できない。
- 部分的な観測と,完全ランクでない行動行列に対しても,POMDPのモデルを効率的に学習することを可能にする。
- 提案手法は,状態の分割を用いて遷移および観測行列を学習し,標準的なPOMDPソルバーと同等の性能を達成する。
- 学習された明示的な尤度は,プランニングにおける行動指定に活用可能である。
- 十分なデータがあれば,予測状態表現(PSR)を用いた手法と同等の性能を示す。
フロイドネット:グローバルな関係推論のための学習パラダイム [cs.LG, cs.AI]目的:グローバルな関係推論を実現するための学習パラダイム
- 複雑な多段階推論は,人工知能における重要な目標であり,グラフ表現はその強力な手法の一つである。
- 従来のグラフニューラルネットワークは,メッセージパッシング機構の局所的ボトルネックにより,グローバルな推論が制限される。
- 動的計画法に基づいた新たなアーキテクチャを導入し,グローバルな関係性を効率的に推論する。
- フロイドネットは,全てペアの関係性テンソルを維持し,動的計画法演算子を学習することで,長距離依存性を捉える。
- 理論的には,フロイドネットは3-WL (2-FWL) 表現能力を有し,一般化された形式はk-FWL階層に適合する。
- CLRS-30ベンチマークでほぼ完璧なスコアを達成し,TSPの最適解を高い精度で発見した。
GPCR-Filter:効率的かつ精密なGPCRモジュレーター探索のための深層学習フレームワーク [cs.LG, q-bio.QM]目的:GPCRモジュレーター探索のための深層学習フレームワーク
- GPCRは多様な生理過程を制御し,現代薬理学の中核をなすタンパク質である。薬物開発において重要性が高い。
- GPCR活性化は直接的な結合親和性だけでなく,複雑な異種効果に起因することが多く,既存のアッセイは非効率である。
- 本研究は,GPCRとリガンドの複雑な相互作用を捉え,効率的なモジュレーター探索を実現することを目指す。
- GPCR-Filterは,9万件以上の高品質なGPCR-リガンドペアのデータセットを用いて構築された。
- ESM-3タンパク質言語モデルとグラフニューラルネットワークを統合し,受容体-リガンド間の機能的関係を学習する。
- 従来のモデルを凌駕し,未知の受容体やリガンドに対しても高い汎化性能を示し,5-HT\textsubscript{1A}受容体の新規アゴニストを同定した。
CopulaGNNにおけるリンク符号予測のためのスケーラブルなエッジ間相関モデリング [cs.LG, cs.AI, cs.IR, cs.SI]目的:符号付きグラフにおけるリンク符号予測
- グラフ構造は,ソーシャルネットワークや生物学的ネットワークなど,様々な現実世界のシステムを表現する上で不可欠である。
- 負の辺の存在により,従来のグラフ手法は隣接ノードの類似性を仮定するグラフホモフィリーの原理が適用できない。
- エッジ間の潜在的な統計的依存性を直接モデル化することで,負の辺を考慮したリンク符号予測の精度向上を目指す。
- 提案手法では,エッジ埋め込みのグラミアンとして相関行列を表現することで,パラメータ数を大幅に削減し,計算効率を向上させている。
- 条件付き確率分布の再構成により推論コストを劇的に削減し,大規模グラフへの適用を可能にしている。
- 理論的検証により,提案手法のスケーラビリティが線形収束することを示し,実験的にも高速な収束性と競争力のある予測性能を確認した。
MAGNET:記憶駆動型知識進化による適応型GUIエージェントへ [cs.AI]目的:GUIエージェントの適応性向上
- モバイル環境におけるGUI操作自動化の重要性が高まっている。
- UI変更やワークフローの再編により,既存エージェントの性能が低下しやすい。
- UI変化に頑健な,知識進化メカニズムを備えたエージェントの開発。
- MAGNETは,安定した機能的意味とタスク意図に基づき,UI変更に強い適応性を持つ。
- 二層のメモリ構造(静的メモリと手続き的メモリ)により,知識の進化を促進する。
- AndroidWorldベンチマークにおいて,既存手法を上回る性能と汎化能力が確認された。
データインサイトのためのLLMベースマルチエージェントシステム:Insight Agents [cs.AI, cs.CL]目的:Eコマースにおけるデータとビジネスインサイトの自動取得
- Eコマース市場の競争激化により,データ活用が売上向上に不可欠となっている。
- Eコマース事業者は,利用可能なツールやデータの理解・活用に困難を感じている。
- データ分析の効率化と,迅速な意思決定支援を目的とする。
- Insight Agentsは,マネージャーエージェントと2つのワーカーエージェントから構成される階層型マルチエージェントシステムである。
- 人間による評価で90%の高い精度と,P90で15秒以下の低遅延を実現している。
- APIベースのデータモデルとドメイン知識の動的注入により,より正確なインサイト生成を可能としている。
ファインチューニングされた拡散言語モデルに対するメンバーシップ推論攻撃 [cs.LG, cs.AI]目的:拡散言語モデルにおけるメンバーシップ推論攻撃の脆弱性
- 言語モデルは自然言語処理の中核技術であり,その性能向上は重要である。
- 拡散言語モデルのプライバシー保護に関する研究は十分に進んでいない。
- 拡散言語モデル特有の構造を利用した効果的なメンバーシップ推論攻撃手法を開発し,その脆弱性を明らかにする。
- 本研究で提案するSAMAは,従来のベースラインと比較して,受診者動作特性曲線(AUC)が相対的に30%向上する。
- 特に偽陽性率が低い状況下では,最大で8倍の改善が見られた。
- これらの結果は,拡散言語モデルにこれまで知られていなかった重大な脆弱性が存在することを示唆している。
AIがスキル形成に与える影響 [cs.CY, cs.AI, cs.HC]目的:AI利用におけるスキル獲得の阻害とその改善策
- AI技術の発展は,労働生産性の向上に不可欠である。
- AIに過度に依存することで,人間のスキル形成が阻害される可能性がある。
- AI利用時にスキル形成を損なわずに生産性を向上させる方法を特定する。
- AIの利用は,概念理解,コード読解,デバッグ能力を低下させる。
- タスクをAIに完全に委任すると,生産性は向上するものの,ライブラリの学習は進まない。
- 認知的な関与を伴うAIとのインタラクションパターンは,学習成果を維持する。
ウィンドウ拡散:ウィンドウ化されたトークンプルーニングとキャッシュによる拡散言語モデル推論の高速化 [cs.CL, cs.CL, cs.LG]目的:拡散言語モデル推論における計算効率の向上
- 拡散言語モデルは高性能だが,計算コストが高い。効率化が急務である。
- 従来のブロック拡散法は,再学習が必要で,事前学習済みのモデルへの適用が困難である。
- 推論時に不要なトークンを削減し,計算領域を局所化することで高速化を図る。
- 本手法は,ウィンドウ化されたトークンプルーニングとキャッシュにより,最大99倍の推論速度向上を達成した。
- 計算量を変えずに,生成性能をほぼ維持できる。
- LLaDAとDreamを用いた実験で有効性が確認された。
多エージェント協調による適応的メモリ [cs.AI]目的:大規模言語モデルエージェントにおける長期的なインタラクションと複雑な推論を支援する,ロバストなメモリシステムの構築
- 大規模言語モデルエージェントの進化に伴い,一貫性のある長期的な対話と高度な推論を支えるメモリシステムが不可欠となっている
- 既存のアプローチは,固定的な検索粒度や過剰なメンテナンス戦略,粗雑な更新メカニズムに依存しており,保存された情報と推論要求の間にミスマッチが生じやすい
- 本研究では,協調エージェントを活用することで,マルチ粒度でのメモリ管理を実現し,タスクの複雑さに応じた動的な検索粒度の調整を目指す
- AMAは,コンストラクタとレトリバーが連携し,マルチ粒度メモリの構築と適応的なクエリルーティングを可能にする
- ジャッジは,検索されたコンテンツの関連性と一貫性を検証し,証拠が不十分な場合は反復検索,論理的矛盾が検出された場合はリフレッシャーを起動する
- 実験の結果,AMAは最先端のベースラインを大幅に上回り,トークン消費量を約80%削減し,検索精度と長期メモリの一貫性の維持に有効であることが示された
GraphAllocBench:嗜好条件付き多目的方策学習のための柔軟なベンチマーク [cs.LG]目的:嗜好条件付き多目的方策学習のためのベンチマーク環境
- 多目的強化学習は,複数の目的を同時に最適化する課題に対応でき,現実世界の複雑な問題を解決する可能性を秘めている。
- 既存のベンチマークは単純なタスクに限られ,現実世界への応用やスケーラビリティに課題がある。
- より現実的でスケーラブルな環境を提供し,嗜好条件付き多目的方策学習の発展を促進すること。
- GraphAllocBenchは,都市管理に着想を得たグラフベースの資源配分環境を提供し,多様な目的関数と嗜好条件に対応する。
- PNDSとOSという新しい評価指標を提案し,嗜好の一貫性をより直接的に評価できるようになった。
- 実験により,既存の多目的強化学習手法の限界が明らかになり,グラフニューラルネットワークなどのグラフベースの手法の有効性が示唆された。
オフライン強化学習におけるクラスタ化された交差共分散制御 [cs.LG]目的:オフライン強化学習における分布シフト問題の緩和
- 強化学習は複雑な問題を解決できるが,データ収集コストが高い。
- オフライン強化学習では,分布外データによる影響が大きく,学習が不安定になりやすい。
- 交差共分散を制御することで,分布外領域での偏りを抑制し,学習を安定化させる。
- 提案手法C^4は,バッファサンプリングと勾配ペナルティにより,交差共分散によるバイアスを軽減する。
- バッファ分割により,最大化目的の下限特性を維持し,過度な保守性を抑制する。
- 実験結果から,少ないデータや分布外データが多い状況で,既存手法よりも高い安定性と30%の報酬向上を確認した。
OpenSec:敵対的証拠下でのインシデント対応エージェントの校正評価 [cs.AI]目的:インシデント対応エージェントの校正度評価
- 大規模言語モデルの進化に伴い,攻撃的な利用も高度化しており,防御側の対応が急務である。
- 既存のベンチマークは,行動実行と正しい実行を混同しており,敵対的証拠に対する校正の失敗が見過ごされやすい。
- 敵対的なプロンプト注入シナリオ下でのインシデント対応エージェントの校正度を評価し,その問題を明確化する。
- OpenSec環境を導入し,現実的なプロンプト注入シナリオ下でインシデント対応エージェントを評価した。
- GPT-5.2,Gemini 3,DeepSeekは,全てのシナリオで封じ込めを実行するものの,90-97%の誤検知率を示した。
- Claude Sonnet 4.5は,ある程度の校正(85%の封じ込め,72%の誤検知率)を示し,集計された成功指標では隠されていた校正の失敗モードを明らかにした。
ノイズを減らし,声を増やす:命令の精製による推論のための強化学習 [cs.LG, cs.AI, cs.CL]目的:LLM推論における命令の精製を通じた,効率的な探索と安定した学習の実現
- LLMの推論能力向上は,複雑なタスク解決において重要であり,様々な応用への道を開く。
- 強化学習によるLLMの推論は,限られた試行回数と不安定な学習が課題となっていた。
- プロンプト中の干渉トークンを除去し,効率的なロールアウトと学習を可能にすること。
- LENSは,GRPOと比較して,高い性能と迅速な収束を実現した。
- 平均して3.88%の性能向上と,1.6倍以上の高速化を達成した。
- ロールアウト効率を向上させる上で,干渉トークンの除去が重要であることが示された。
音楽盗用検出:問題設定とセグメントに基づく解決策 [cs.SD, cs.AI, cs.LG, eess.AS]目的:音楽盗用検出タスクの問題設定とその解決策
- 音楽は社会的に重要な表現手段であり,その権利保護は不可欠である。
- 音楽盗用検出の研究は進むものの,タスク自体の定義が曖昧になっている。
- 明確な問題定義とデータセットの提供により,研究の進展と実用化を目指す。
- 音楽盗用検出タスクを他の音楽情報検索タスクと区別し,解決すべき課題を明確化した。
- 新たなタスク定義をサポートするため,Similar Music Pair データセットを新たに構築した。
- セグメント転写に基づく手法を,このタスクを解決するためのアプローチとして提案した。
LEAD:大規模言語モデルを活用したアダプターベースの条件付き拡散モデルによる高精度なネットワークトラフィックマトリックス予測 [cs.RO, cs.LG]目的:ネットワークトラフィックマトリックスの予測精度向上
- 6GやAIネイティブなエッジインテリジェンスの発展に伴い,ネットワーク運用には予測とリスク認識に基づく適応が不可欠である。
- ネットワークダイナミクスの確率的,非線形,バースト的な性質から,高精度なトラフィックマトリックス予測は依然として困難である。
- 既存の識別モデルの過剰平滑化や不確実性の認識不足を解消し,極端なバースト下での忠実度を向上させる。
- LEADは,トラフィックマトリックスをRGB画像に変換する「トラフィック・トゥ・イメージ」パラダイムを採用し,グローバルな依存関係をモデル化する。
- 「フリーズされたLLMと訓練可能なアダプター」モデルにより,計算コストを抑えつつ,時間的意味を効率的に捉える。
- デュアルコンディショニング戦略により,複雑で動的なネットワークトラフィックマトリックスの生成を精密に誘導する。
ChipBench:AI支援型チップ設計におけるLLM性能評価のための次世代ベンチマーク [cs.AI, cs.AR]目的:AI支援型チップ設計におけるLLM性能の厳密な評価
- チップ設計の自動化は,設計効率と品質向上に不可欠であり,LLMはその有力な手段となる。
- 既存のベンチマークは飽和状態にあり,実際の産業ワークフローを反映した多様なタスクが不足している。
- LLMの実際の性能をより正確に評価し,今後の研究開発を促進すること。
- ChipBenchは,Verilog生成,デバッグ,参照モデル生成の3つの重要なタスクにおいて,LLMの性能を評価する。
- 最先端モデルであるClaude-4.5-opusでさえ,Verilog生成では30.74%,Python参照モデル生成では13.33%の達成率にとどまることが判明した。
- 高品質なトレーニングデータ生成のための自動ツールボックスが提供され,LLM参照モデル生成の研究を支援する。
LLMロールプレイングにおける人間らしい推論と強化学習 [cs.LG, cs.AI]目的:LLMロールプレイングにおける認知レベルのペルソナシミュレーション
- LLMの活用範囲拡大に伴い,人間らしい自然なロールプレイングの重要性が高まっている。
- 既存モデルはキャラクターの個性や知識は表現できるが,行動の背景にある思考のシミュレーションが困難である。
- 質の高い推論データと人間嗜好に沿った報酬シグナルの欠如を解消し,より高度なロールプレイングを実現する。
- HERは,キャラクターの一次思考とLLMの三次思考を区別する二層思考を導入し,認知レベルのペルソナシミュレーションを可能にした。
- 収集した推論データと人間による原則・報酬モデルを活用し,Qwen3-32Bを教師あり学習と強化学習により訓練した。
- CoSERベンチマークで30.26,Minimax Role-Play Benchで14.97の性能向上を示し,有効性が確認された。
KAPSO:知識に基づいた自律的なプログラム合成と最適化のフレームワーク [cs.AI, cs.CL, cs.SE]目的:自律的なプログラム合成と最適化のためのフレームワーク
- ソフトウェア開発の自動化は,生産性向上や複雑な問題解決に不可欠である。
- 従来のプログラム合成は,長期的失敗や知識の再利用の弱さに課題がある。
- 実験管理,知識統合,経験学習により,これらの課題を克服することを目指す。
- KAPSOは,実験をブランチとして分離し,再現性と追跡可能性を確保する。
- 多様な知識源を統合し,ワークフローや制約条件の検索を支援する。
- 実験履歴から得られた教訓を記憶し,エラーの繰り返しを減らし,収束を加速する。
トークンレベルデータフィルタリングによる能力の形成 [cs.LG, cs.AI, cs.CL]目的:言語モデルにおける不要な能力の低減
- 大規模言語モデルの能力制御は,安全性や倫理的な問題解決に不可欠である。
- 既存手法は事後的な対応が多く,攻撃による回避が容易である。
- 事前学習段階での能力形成により,より堅牢な能力制御を目指す。
- 事前学習データのフィルタリングが,効果的かつ低コストで不要な能力を抑制できることを示した。
- 特に,ドキュメントフィルタリングよりもトークンフィルタリングの方が,有用な能力への影響を抑えつつ効果が高いことが明らかになった。
- モデルの規模が大きくなるほどフィルタリングの効果は向上し,大規模モデルでは特定のタスクにおける計算コストを大幅に削減した。
行列メカニズムにおけるランダム割当に対するサンプリング不要のプライバシー会計 [cs.LG, cs.CR, stat.ML]目的:行列分解を用いた差分プライバシーモデル学習におけるプライバシー増幅
- 機械学習モデルのプライバシー保護は,データ利用促進と個人情報保護の両立に不可欠である。
- 既存手法は,計算コストが高いか,プライバシー保証が十分でない場合がある。
- 本研究は,計算効率が高く,厳密なプライバシー保証を提供する手法を開発する。
- 提案手法は,Rényi divergenceと条件付き合成に基づくサンプリング不要なプライバシー会計を提供する。
- 動的計画法により,効率的なプライバシーバウンド計算を実現した。
- 数値実験により,提案手法が幅広い行列メカニズムで有効であることが示された。
言語ベースの試行錯誤は経験の時代に取り残される [cs.AI]目的:未知の非言語的環境におけるLLMの限界克服
- LLMは言語タスクに優れるが,非言語的環境への適用は課題である。
- LLMは試行錯誤のコストが高く,効率的な探索が困難である。
- 探索と活用を分離し,効率的な学習を実現する。
- SCOUTは,軽量な「偵察機」を用いて環境ダイナミクスを高速に探索する。
- 収集された軌跡を用いてLLMをSFTでブートストラップし,RLで潜在的な世界知識を活性化する。
- Qwen2.5-3B-InstructはGemini-2.5-Proを凌駕し,GPU時間も60%削減された。
予測精度と在庫KPIの連携:シミュレーションベースのソフトウェアフレームワーク [cs.IR, cs.AI, cs.SE]目的:予測精度と在庫KPIの関係性の評価
- 自動車部品アフターマーケットでは,在庫管理が重要であり,高いサービス水準を維持しつつコストを削減する必要がある。
- 既存の研究では,予測モデルの評価が予測精度の統計的指標に偏っており,実際の在庫管理への影響が不明確である。
- 予測精度指標とKPIの間の関係を明確にし,実用的なモデル選択の指針を提供することを目指す。
- シミュレーションにより,予測精度の向上とKPIの改善が必ずしも相関しないことが示された。
- 類似した予測誤差プロファイルを持つモデルでも,コストとサービス水準のトレードオフが異なることが確認された。
- 本フレームワークは,予測精度から運用上の関連性へと評価軸を移行させ,自動車部品アフターマーケットにおける在庫管理に貢献する。
ベンチマークの進化:大規模言語モデルによるブラックボックス最適化ベンチマーク設計 [cs.NE]目的:ブラックボックス最適化ベンチマークの設計
- 最適化問題解決において,ベンチマークはアルゴリズムの性能評価に不可欠である。
- 既存のベンチマークは専門家の知識に依存し,多様性が不足している。
- 大規模言語モデルを用いて,客観的で多様なベンチマークを自動生成する。
- 本研究で提案するEoBは,ベンチマーク設計を二目的最適化問題として定式化している。
- EoBはLLMを活用し,多様性とアルゴリズム識別能力を最大化するベンチマークを反復的に進化させる。
- 実験により,EoBがBBOアルゴリズムの評価,学習支援,実問題への適用において有効であることが示された。
TraceRouter:大規模基盤モデルの堅牢な安全性確保に向けた経路レベル介入 [cs.CV, cs.AI, cs.CY, cs.MM]目的:大規模基盤モデルに対する有害な意味的影響の因果伝播経路の特定と遮断
- 大規模基盤モデルは強力だが,悪意のある操作に脆弱であり,安全性確保が重要である。
- 既存の防御策は局所的な介入に依存し,分散した有害な意味的影響には効果が薄い。
- 有害な情報の伝播経路を遮断することで,モデルの安全性と汎用性の両立を目指す。
- TraceRouterは,アテンションの発散を分析し,有害な意味的影響の起点層を特定する。
- スパースオートエンコーダと微分活性化分析を用いて,悪意のある特徴を分離・特定し,その因果経路をマッピングする。
- 選択的に因果連鎖を抑制することで,有害情報の流れを遮断しつつ,正当な計算経路は維持する。
ハードウェアトリガー型バックドア [cs.LG, cs.CR]目的:機械学習モデルにおけるハードウェアトリガー型バックドアの作成と対策
- 機械学習モデルは様々なハードウェアで利用され,その安全性は重要である。
- ハードウェアの設計の違いによる数値的な変動が,セキュリティ上の脆弱性となりうる。
- 異なるハードウェア上で予測結果を変えるバックドアを創出し,その対策を検討する。
- 本研究では,ハードウェアの数値的な変動を利用して,機械学習モデルにバックドアを埋め込む手法を示した。
- 同じ入力に対して,異なるハードウェア上で異なる予測結果が得られるように,モデルの決定境界を操作する。
- 一般的なGPUアクセラレータにおいて,本手法によるバックドアの作成が再現可能であることを実証した。
メタツールを用いたエージェントワークフローの最適化 [cs.RO, cs.AI, cs.LG]目的:エージェントワークフローの効率性と堅牢性の向上
- AIエージェントの活用は複雑な課題解決に不可欠であり,その性能向上が求められている。
- エージェントワークフローは反復的な処理やツール呼び出しが多く,コスト増大や誤りの原因となる。
- 冗長なツール実行パターンを特定し,それをまとめて再利用可能なメタツールを生成すること。
- AWOフレームワークにより,LLMの呼び出し回数を最大11.9%削減することが確認された。
- タスクの成功率は最大4.2パーセントポイント向上し,ワークフローの信頼性が高まった。
- メタツールは不要な中間的なLLM推論ステップを回避し,運用コストと実行時間を短縮する。
オフライン嗜好最適化のための潜在的敵対的正則化 [cs.CL, cs.LG, cs.AI]目的:言語モデルの嗜好最適化における潜在空間正則化
- 人間からのフィードバックを活用した学習は重要であり,その精度向上が求められている。
- トークン空間での類似性は意味的,行動的な類似性を保証せず,最適化が困難である。
- 潜在空間での正則化により,ロバストな構造的フィードバックを提供し,最適化の課題を解決する。
- GANPOは,ポリシーモデルと参照モデルの内部表現の乖離を罰することで潜在空間正則化を実現する。
- 実験の結果,複数のモデルアーキテクチャとタスクにおいて,潜在空間正則化による一貫した改善が確認された。
- GANPOは,分布の変化やノイズに対して,トークンレベル正則化よりもロバストな構造的フィードバックを提供する。
感情認識には注意機構だけでは不十分:EAVデータセットにおけるドメイン特徴がTransformerを上回る [cs.LG, cs.CV, cs.SD, eess.AS]目的:小規模データセットにおける感情認識の性能向上
- 感情認識は,人間とコンピュータの自然な対話を実現する上で不可欠な技術である。
- 小規模な感情データセットでは,過学習が起こりやすく,汎化性能が低いという課題がある。
- 本研究は,Transformerのような複雑なモデルではなく,ドメイン知識に基づいたシンプルな改良で性能向上が可能となることを示す。
- 複雑な注意機構は小規模データセットにおいて一貫して性能が劣る傾向にあることが示された。
- 音響特徴量のデルタMFCCを追加することで,音声CNNの精度が向上した(61.9%から65.56%へ)。
- 脳波の周波数領域特徴量が有効であり,精度が7.62pp向上した(67.62%)。
勾配不要トポロジー最適化におけるパラメータ化と最適化手法の相互作用に関する研究:片持ち梁の事例 [cs.NE, cs.CE]目的:勾配不要最適化におけるパラメータ化と最適化手法の相互作用の解明
- 工学設計において,最適化は性能向上に不可欠であり,複雑な形状最適化にはトポロジー最適化が用いられる。
- 勾配情報なしの最適化は柔軟だが,パラメータ化と最適化手法の選択が性能に大きく依存する。
- パラメータ化の品質が最適化性能に与える影響を明らかにし,適切な設計空間の構築を目指す。
- パラメータ化の品質は,最適化手法の選択よりも最適化性能に強い影響を与えることが示された。
- 良好なパラメータ化は,アルゴリズムに関わらず堅牢で競争力のある性能を実現する。
- アルゴリズムの性能評価は,誘導される設計空間を考慮に入れる必要があることが示唆された。
マージ可能性の解明:モデル統合の成功を予測するための解釈可能な特性 [cs.LG]目的:モデル統合の成功を予測する解釈可能な特性
- モデル統合は,複数のモデルの知識を効率的に活用する手法であり,AI技術の発展に不可欠である。
- モデル統合の成功要因は不明であり,汎用的な予測方法が確立されていない。
- モデル統合の成功に影響を与える特性を特定し,予測可能性を高める。
- モデル統合の成功は,使用する手法とタスクによって大きく左右されることが示された。
- 勾配のL2距離などのペアワイズ指標を用いて,成功の相関関係が明らかになった。
- 部分空間の重複と勾配の整合性は,手法に依存しない重要な前提条件として特定された。
Geminiを用いた半自律的な数学的発見:エルデシュ問題における事例研究 [cs.AI, math.CO, math.NT]目的:エルデシュ問題データベースにおける未解決問題の体系的な評価
- 数学研究の進展には,既存の知識の再評価と新たな発見が不可欠である。
- 未解決問題の中には,単に注目されていないだけで解決可能なものが存在する可能性がある。
- AIを用いて未解決問題を効率的に評価し,解決可能な問題を発見すること。
- Geminiを用いて700件のエルデシュ問題の未解決予想を評価した結果,5件の新規解と8件の既存解を特定した。
- 未解決問題の多くは難易度よりも情報の隠蔽性によって未解決であったことが示唆された。
- AIを数学的予想に適用する際の課題として,文献の特定やAIによる無意識の盗用リスクが指摘された。
EUGens:効率的で統一的かつ汎用的な密結合層 [cs.LG, cs.AI]目的:効率的な密結合層の提案
- 機械学習モデルのリアルタイム応用とリソース制約環境での利用拡大のため,効率的なニューラルネットワークが不可欠である。
- 従来のニューラルネットワークにおける全結合層は,計算量とパラメータ数のボトルネックとなっている。
- 全結合層の効率性向上と,パラメータ削減,計算コストの低減を目指す。
- EUGensは,ランダム特徴を利用して全結合層を近似し,入力ノルムへの直接依存性を導入することで,既存の効率的な全結合層の拡張を統合する。
- EUGensの導入により,推論複雑さを2次から線形時間へと削減し,任意の多項式活性化関数を持つ全結合層を近似するバイアスなしアルゴリズムを初めて実現した。
- TransformerやMLPへのEUGensの統合により,画像分類,言語モデルの事前学習,3Dシーン再構成など,様々なタスクにおいて,推論速度が最大27%,メモリ効率が最大30%向上した。
COBRA++:拡張された代理モデルプールと強化された代理モデル選択によるCOBRA最適化手法の改良 [cs.NE]目的:現実世界の最適化問題に対するCOBRA最適化手法の性能向上
- 現実世界の最適化問題は,評価コストや複雑な制約条件など,最適化アルゴリズムに大きな課題を突き付ける。
- COBRA最適化手法は有効だが,代理モデルプールや選択基準が専門家によって手動で決定されるため,新規タスクへの適応に手間がかかる。
- COBRA++は,学習に基づいた適応戦略により,代理モデルプールと選択基準を自動的に最適化し,COBRAの性能を向上させる。
- COBRA++は,多様な特性を持つ制約付き最適化問題の分布に対して,全体の性能を最大化するように学習された強化学習に基づくオンラインモデル選択ポリシーを導入した。
- 多次元検証実験の結果,COBRA++は,従来のCOBRAやその適応型バリアントに対して著しい性能向上を達成した。
- COBRA++における各設計要素の正当性を裏付けるため,消去研究を実施した。
信頼度に基づく知識蒸留によるゲート付き関係的アラインメント:効率的なVLMsのために [cs.CV, cs.AI]目的:ビジョン言語モデルの効率的な量子化手法
- ビジョン言語モデルは強力だが,計算コストが高い。
- 量子化は精度低下を引き起こしやすい。
- 量子化を考慮した学習による精度低下の抑制。
- GRACEは知識蒸留と量子化対応学習を情報ボトルネック原理に基づいて統合したフレームワークである。
- INT4モデルは,FP16ベースラインを上回り,教師モデルの性能に匹敵する。
- 実用的なINT4カーネルを使用することで,スループットが3倍になり,メモリ使用量が54%削減される。
検証可能なソフトウェアエンジニアリングのためのスケーラブルな多言語環境構築:MEnvAgent [cs.SE, cs.AI]目的:検証可能なタスクインスタンスのスケーラブルな生成
- ソフトウェア開発の自動化には,多様な言語に対応した実行可能な環境が不可欠である。
- 多様な言語に対応した実行環境の構築は複雑であり,検証可能なデータセットの不足が課題となっている。
- 多言語環境の自動構築フレームワークによって,検証可能なタスクインスタンスを効率的に生成し,データセットの不足を解消する。
- MEnvAgentは,計画・実行・検証アーキテクチャと環境再利用メカニズムにより,環境構築の失敗を自律的に解決する。
- MEnvBenchを用いた評価により,MEnvAgentはベースラインを8.6%上回り,Fail-to-Pass率を改善し,時間コストを43%削減した。
- MEnvAgentを用いてMEnvData-SWEを構築し,大規模な多言語の検証可能なDocker環境のデータセットを公開した。
環境条件付きテール重み付けによる全変動不変リスク最小化 [cs.LG]目的:分布外汎化性能の向上
- 環境間およびデータ多様性のシフトが同時に発生する状況下での汎化性能向上が重要である。
- 既存の不変リスク最小化法は環境レベルの相関に焦点を当て,環境内のサンプルレベルの不均一性を見過ごす場合がある。
- 環境レベルと環境内ロバスト性を組み合わせることで,複合的な分布シフトへの対応を目指す。
- 提案手法ECTRは,全変動に基づく不変学習と環境条件付きテール重み付けを統合することで,分布外性能を改善する。
- 環境ラベルがない場合でも,ミニマックス定式化により潜在的な環境を推測し,フレームワークを拡張できる。
- 回帰,テーブル,時系列,画像分類のベンチマークにおいて,最悪環境および平均的な分布外性能が向上した。
