arXiv雑要約

AI - 2026/03/06 公開

狭い範囲でのファインチューニングは活性化の違いに明確な痕跡を残す [cs.CL, cs.AI]目的：LLMのファインチューニングにおける活性化パターンの偏りの特定と解釈
- LLMの活用範囲拡大に伴い，特定タスクへの適応が重要になっている。
- ファインチューニングされたLLMの内部動作は不透明であり，解釈が困難である。
- ファインチューニングによる活性化パターンの偏りを分析し，その影響を理解すること。
- 狭い範囲でファインチューニングされたモデルの活性化には，その学習データに関する明確な偏りが存在する。
- 活性化パターンの差分を分析することで，ファインチューニングされたドメインの内容を把握できる。
- この偏りを活用することで，解釈可能性エージェントの性能が向上し，モデルの安全性評価への応用も期待される。
Link: https://arxiv.org/abs/2510.13900
CBF-RL：制御バリア関数を用いた訓練時の安全性を考慮した強化学習 [cs.RO, cs.AI, cs.LG, cs.SY, eess.SY]目的：強化学習における安全性確保
- 実世界への応用において，強化学習の安全性は不可欠である。
- 強化学習は性能向上に偏りがちで，安全性確保が課題となる。
- 訓練時に制御バリア関数を適用し，安全性を学習に組み込む。
- CBF-RLは，強化学習ポリシーに安全性制約を最小限に組み込み，安全な行動を生成する。
- 本手法は，オンラインでの安全フィルタリングを必要とせず，より安全な行動と報酬のバイアスを学習する。
- シミュレーションと実機（二足歩行ロボット）実験により，安全性，収束性，ロバスト性の向上が確認された。
Link: https://arxiv.org/abs/2510.14959
空間推論における最小限の十分性の追求 [cs.CV, cs.AI]目的：空間推論のための最小限の十分な情報セットの構築
- 視覚と言語を結びつける能力は，AIにとって重要であり，ロボティクスや拡張現実などの応用を可能にする。
- 既存のVision-Languageモデルは，3次元理解能力の不足や，冗長な情報による推論の誤りに課題を抱えている。
- 本研究では，必要十分な情報を効率的に抽出し，推論の精度向上と解釈可能性の向上を目指す。
- 提案手法MSSRは，3Dシーンから必要な情報をプログラム的に取得し，冗長性を排除することで，空間推論の性能を大幅に向上させた。
- 特に，SOGモジュールによる言語に基づいた方向性の抽出は，ロバストな推論を可能にする重要な要素である。
- 得られた解釈可能な推論経路は，将来のモデル学習のための高品質なデータ源となる可能性がある。
Link: https://arxiv.org/abs/2510.16688
3Dシーンにおける根拠に基づいた思考の連鎖(Chain-of-Thought)の誘発：SceneCOT [cs.CV, cs.AI]目的：3Dシーンにおける根拠に基づいた思考の連鎖(Chain-of-Thought)推論のメカニズム
- 3Dシーン理解は，ロボット工学や拡張現実など，多様な分野で重要性を増している。
- 既存の3D大規模言語モデルは，人間のようなシーン・オブジェクトに基づいた推論が不十分である。
- 複雑な推論をより小さな問題に分割し，視覚的な手がかりに基づいた推論を可能にすること。
- 本研究では，3Dシーンにおける根拠に基づいた思考の連鎖(SceneCOT)という新しいフレームワークを提案した。
- 大規模なデータセットSCENECOT-185Kを構築し，高品質な185Kのインスタンスを提供した。
- 実験結果から，提案手法は高い精度と整合性で3Dシーン推論を実現できることが示された。
Link: https://arxiv.org/abs/2510.16714
1ステップ音声強調のためのシュレーディンガーブリッジマンバ [cs.SD, cs.AI, cs.LG, eess.AS]目的：効率的な音声強調の実現
- 音声は重要なコミュニケーション手段であり，その品質向上は不可欠である。
- 騒音や残響は音声の知覚的な品質を著しく低下させる。
- リアルタイム処理可能な高性能な音声強調手法の開発。
- 提案手法SBMは，複数の評価指標において既存の生成モデルや識別モデルを上回る性能を示した。
- シュレーディンガーブリッジ学習パラダイムは，多様なアーキテクチャで性能向上に寄与することが確認された。
- マンバアーキテクチャは，自己注意機構やLSTMと比較して，シュレーディンガーブリッジ学習パラダイム下でより優れた性能を発揮する。
Link: https://arxiv.org/abs/2510.16834
マルチエージェントシステムにおける制御フローハイジャックに対する防御の突破と修正 [cs.LG, cs.CR, cs.SY, eess.SY]目的：マルチエージェントシステムにおける制御フローハイジャック攻撃への防御機構の改善
- エージェント間の協調により複雑なタスクを実現するマルチエージェントシステムは，近年重要性が増している。
- 既存の防御策は，LLMを用いたアライメントチェックに依存するが，その定義の脆弱性から攻撃を回避される可能性がある。
- 制御フロー整合性と最小権限の原則に基づき，より堅牢な防御機構を構築し，攻撃を阻止することを目指す。
- 既存の防御策が，高度なLLMによるアライメントチェックを用いても制御フローハイジャック攻撃を回避できないことを示した。
- マルチエージェントシステムの安全性と機能性の目的は根本的に矛盾しており，これが脆弱性の原因となっていることを指摘した。
- ControlValveを提案・実装し，制御フローグラフとコンテキストルールに基づいた実行を強制することで，有効な防御を実現した。
Link: https://arxiv.org/abs/2510.17276
あらゆる領域の把握：マルチモーダルLLMのための精密な文脈的ピクセル理解に向けて [cs.RO, cs.CV, cs.AI, cs.CL]目的：マルチモーダルLLMにおける，精密かつ文脈に沿った領域レベルの視覚理解
- マルチモーダルLLMは急速に発展しているが，複雑なシーンにおける詳細な分析が課題となっている。
- 既存の領域レベルLLMは，孤立した領域の理解に最適化されており，グローバルな文脈を考慮していない。
- GARは，グローバル文脈を活用し，領域間の相互作用をモデル化することで，この問題を解決する。
- GARは，RoIアラインメント特徴リプレイ技術により，精密な知覚と複数プロンプト間の相互作用モデリングを可能にする。
- GAR-1Bは，DLC-BenchにおいてDAM-3Bを4.5%上回り，最先端のキャプション能力を維持する。
- GAR-8Bは，VideoRefer-7Bを上回る性能を示し，動画への高い汎化能力を持つことを示す。
Link: https://arxiv.org/abs/2510.18876
GhostEI-Bench：動的なオンデバイス環境における環境注入に対するモバイルエージェントの耐性はあるか？ [cs.CR, cs.AI]目的：モバイル環境における環境注入攻撃に対するモバイルエージェントの脆弱性の評価
- モバイルエージェントの利用拡大に伴い，GUI操作におけるセキュリティリスクが重要視されている。
- 既存のプロンプトベース攻撃とは異なり，視覚情報を直接操作する環境注入攻撃は対策が困難である。
- GhostEI-Benchを用いることで，環境注入攻撃に対するモバイルエージェントの脆弱性を定量的に評価する。
- GhostEI-Benchは，動的なAndroidエミュレーター環境で環境注入攻撃を再現し，エージェントの実行を評価するベンチマークである。
- 実験の結果，最先端のエージェントは，欺瞞的な環境情報に対して脆弱であり，認識や推論に失敗することが示された。
- Judge-LLMプロトコルにより，エージェントの行動軌跡とスクリーンショットを分析し，詳細な失敗原因の特定が可能となった。
Link: https://arxiv.org/abs/2510.20333
材料探索のためのLLMを用いた進化探索：LLEMA [cs.LG, cond-mat.mtrl-sci, cs.AI, cs.NE]目的：多目的材料探索のための手法
- 新材料開発は，科学技術の進歩に不可欠であり，様々な産業の発展を支える。
- 材料空間は広大であり，複数の目的を同時に満たす材料を見つけることは困難である。
- LLMの知識と進化探索を組み合わせ，実用的な材料探索を加速すること。
- LLEMAは，電子材料，エネルギー，コーティング，光学，航空宇宙など14の現実的なタスクにおいて，既存手法よりも高いヒット率と優れたパレートフロントの質を達成した。
- LLMによる候補生成，ルールに基づく進化，メモリベースの改良，代替モデル予測が重要であることが確認された。
- LLEMAは，合成可能性と多目的トレードオフを考慮し，実用的な材料発見を促進する。
Link: https://arxiv.org/abs/2510.22503
相転移への応用を伴う自己適応型PINN [cs.CL, math.NA, cs.LG, cs.NA]目的：物理情報ニューラルネットワークの訓練のための適応的サンプリング手法
- 物理現象のシミュレーションにおいて，ニューラルネットワークの活用が注目されている。
- 従来のPINNでは，解像度の低い領域や重要な特徴を捉えきれない場合がある。
- ネットワークと勾配に基づいたヒューリスティックにより，効率的なサンプリングを可能にする。
- 提案手法は，アレン・カーン方程式における界面領域の正確な解決に有効であることが示された。
- 残差適応型フレームワークと比較して，提案手法の有効性が実験的に確認された。
- 問題固有のヒューリスティックに基づいたサンプリングにより，PINNの学習効率が向上する。
Link: https://arxiv.org/abs/2510.23999
FMint-SDE：誤差訂正による確率微分方程式の数値シミュレーションを加速するマルチモーダル基盤モデル [cs.CL, cs.RO, cs.RO, cs.CE, cs.AI, cs.LG, math.DS]目的：確率微分方程式の数値シミュレーションの高速化と高精度化
- 科学技術計算において，動的系のシミュレーションは不可欠であり，その効率性は研究開発の進展を左右する。
- 従来の数値解法は精度と計算効率のトレードオフに悩まされ，ニューラルネットワークも個別のモデルが必要となる。
- 異なるシステムへの汎用的な誤差訂正スキームを学習し，シミュレーションの精度と効率性を両立させる。
- FMint-SDEは，従来のソルバーで生成された粗解を基に，文脈学習を用いて汎用的な誤差訂正スキームを学習する。
- 分子動力学，機械系，金融，生物学など，様々なSDEベンチマークにおいて，古典的なソルバーと比較して優れた精度と効率性を実現した。
- FMint-SDEは，動的系の汎用シミュレーションツールとしての可能性を示唆している。
Link: https://arxiv.org/abs/2510.27173
FLoC：長編動画理解のための施設配置に基づく効率的なビジュアルトークン圧縮 [cs.CV, cs.AI]目的：長編動画理解におけるビジュアルトークン圧縮手法
- 長編動画理解は，大規模言語モデルと組み合わせることで発展しており，重要な研究分野である。
- 長編動画から生成される大量のビジュアルトークンが，モデルのスケーラビリティを著しく制限している。
- ビジュアルトークン数を削減し，計算効率を向上させながら，動画理解の性能を維持することを目的とする。
- FLoCは，施設配置関数に基づき，限られたビジュアルトークン数内で代表的かつ多様なトークンを選択する。
- 遅延貪欲アルゴリズムを用いることで，効率的にトークン数を削減し，ほぼ最適な性能を保証する。
- FLoCは，学習不要でモデルやクエリに依存せず，様々な動画-LLMに容易に組み込むことができる。
Link: https://arxiv.org/abs/2511.00141
MotionStream：インタラクティブなモーション制御によるリアルタイム動画生成 [cs.RO, cs.CV, cs.LG]目的：リアルタイム動画生成のための技術
- 動画生成技術は，エンターテインメント，教育，コミュニケーションなど，幅広い分野で重要性が増している。
- 既存のモーション条件付き動画生成は，遅延が大きく，リアルタイムインタラクションが困難である。
- 本研究は，低遅延でインタラクティブなリアルタイム動画生成を実現することを目指す。
- MotionStreamは，単一のGPU上で最大29FPSのストリーミング生成を可能にし，サブセカンドの遅延を実現した。
- 自己強制と分布マッチング蒸留を用いた因果的生徒モデルを開発し，高速なリアルタイム推論を可能にした。
- スライディングウィンドウ注意機構とアテンションシンクを導入することで，無限長の動画生成を効率的に実現した。
Link: https://arxiv.org/abs/2511.01266
RefAgent：自動ソフトウェアリファクタリングのためのマルチエージェントLLMベースフレームワーク [cs.SE, cs.AI]目的：自動ソフトウェアリファクタリングの実現
- ソフトウェアの保守性向上は，開発効率と品質を維持する上で不可欠である。
- 従来のLLMは詳細な指示に依存し，状況変化への適応が課題であった。
- LLMベースのエージェントを活用し，自律的なリファクタリングを可能にすること。
- RefAgentは，ユニットテストの平均合格率90%を達成し，コードの品質向上に貢献する。
- コードスメルの平均削減率は52.5%であり，再利用性などの主要な品質属性も平均8.6%改善された。
- リファクタリング機会の特定において，開発者や検索ベースのリファクタリングツールと同等の精度を示した。
Link: https://arxiv.org/abs/2511.03153
CoRPO：GRPOに正解バイアスを加えることで汎化性能を向上 [cs.AI, cs.LG]目的：大規模言語モデルにおける推論能力の学習
- 言語モデルに推論能力を付与することは，より高度な問題解決能力の実現に不可欠である。
- 既存のGRPOは，集団平均に基づくベースラインを用いるため，誤った解答に過剰な報酬を与える可能性がある。
- CoRPOは，ベースラインを正解閾値でクリップすることで，誤った行動の強化を抑制し，汎化性能を高める。
- CoRPOは，GRPOのベースラインを修正し，正解バイアスを導入することで，誤った推論の過大評価を軽減する。
- 実験の結果，CoRPOはドメイン横断的な推論において，GRPOよりも一貫して高い汎化性能を示した。
- CoRPOはコーディングタスクにおいて，数学問題ではGRPOを上回り，他のタスクではその逆の結果となり，タスク固有の解法ではなく，堅牢な推論パターンを学習していることを示唆している。
Link: https://arxiv.org/abs/2511.04439
SASG-DA：疎性認識に基づくセマンティック誘導拡散データ拡張による筋電ジェスチャ認識 [cs.CV, cs.AI, cs.HC]目的：筋電ジェスチャ認識のためのデータ拡張手法
- 人間機械インタラクションにおいて，筋電信号に基づくジェスチャ認識は，リハビリテーションや義肢制御において重要な役割を果たす。
- 深層学習モデルは，十分な学習データがない場合，過学習を起こしやすく，汎化性能が低いという課題がある。
- 本研究は，信頼性と多様性を兼ね備えたデータ拡張により，過学習を抑制し，認識性能と汎化性能を向上させることを目指す。
- 提案手法SASG-DAは，セマンティック表現の誘導とガウスモデルによるサンプリングを組み合わせることで，忠実で多様なデータを生成する。
- 疎性認識サンプリングにより，データ分布の網羅性とサンプル有用性を高め，特に表現の少ない領域を探索する。
- Ninapro DB2, DB4, DB7などのベンチマークデータセットでの実験により，既存のデータ拡張手法と比較して，SASG-DAが大幅に性能向上することを示した。
Link: https://arxiv.org/abs/2511.08344
学習可能な近傍場レインボービームフォーミングによるシングルショット測位 [cs.SI, cs.LG]目的：シングルショット測位のためのレインボービーム設計とユーザ位置推定
- 広帯域センシングや局所化において，低コストな構成として位相・時間アレイが注目されている。
- 既存手法では，測位精度向上のために計算量が多い，あるいはオーバーヘッドが大きいといった課題がある。
- タスク指向のビームを合成し，位置推定精度を最大化することで，これらの課題を解決することを目指す。
- 提案手法は，既存の解析的および学習に基づく手法と比較して，オーバーヘッドを大幅に削減できる。
- 単一のダウンリンク伝送後に，最大量子化受信電力とその対応するサブキャリアインデックスからユーザの角度・距離座標を復元する。
- その結果，2次元測位誤差が安定して低減されることが確認された。
Link: https://arxiv.org/abs/2511.11391
信頼性に基づいたコードブック支援軽量時系列予測ReCast [cs.LG]目的：時系列予測の精度，効率，分布シフトへの適応性向上
- 時系列予測は様々な分野で不可欠であり，経済，環境，医療などへの応用が期待されている。
- 従来の分解手法は，局所的で複雑なパターンに弱く，リアルタイム環境での利用が難しい場合がある。
- ReCastは，局所的な形状の繰り返しに着目し，軽量かつロバストな予測を実現することで，この課題を解決する。
- ReCastは，学習可能なコードブックを用いたパッチごとの量子化により，局所的なパターンを効率的に符号化する。
- 量子化で保持されなかった変動を補うため，量子化パスと残差パスという二重経路アーキテクチャを採用している。
- 分布ロバスト最適化(DRO)スキームによる信頼性に基づいたコードブック更新戦略により，非定常性への適応性と分布シフトに対するロバスト性を実現した。
Link: https://arxiv.org/abs/2511.11991
DAP：自律走行のための離散トークン自己回帰プランナー [cs.AI, cs.CV]目的：自律走行のためのプランニング手法
- データ量とモデル規模の拡大による性能向上は，自律走行において不可欠だが未解決の課題である。
- 自己回帰モデルはデータスケーリングに有効だが，エゴ車両の軌跡予測のみでは教師信号が疎であり，シーンの変化がエゴ車両の行動を制約しにくい。
- BEVセマンティクスとエゴ車両の軌跡を共同予測することで，包括的な表現学習と動的な条件付けを実現し，プランニングの精度向上を目指す。
- DAPは，コンパクトな1億6千万パラメータでありながら，オープンループおよびNAVSIMベンチマークにおいて最先端の性能を達成した。
- BEVとエゴ車両の行動を離散トークンで自己回帰的に処理する手法は，スケーラブルなプランニングパラダイムを提供する。
- 教師あり学習と強化学習を組み合わせたファインチューニングにより，性能をさらに向上させている。
Link: https://arxiv.org/abs/2511.13306
欠損モダリティに対するロバストな脳腫瘍セグメンテーションのためのクロスモーダル構成的自己知識蒸留 [cs.CV, cs.AI]目的：脳腫瘍セグメンテーションにおけるロバスト性向上
- 臨床診断と治療計画において，正確な脳腫瘍セグメンテーションは不可欠である。
- 実際の臨床環境では，MRIモダリティの欠損が頻繁に発生し，深層学習モデルの性能を著しく低下させる。
- 様々なモダリティの欠損状況下でも，高い性能と汎化能力を維持できるセグメンテーション手法を開発する。
- 提案手法CCSＤは，様々なモダリティ欠損シナリオにおいて，最先端の性能を達成した。
- CCSＤは，モダリティ間の知識伝達と，段階的なモダリティドロップアウトによるロバスト性向上を実現する。
- 実験結果は，CCSＤが汎化性能と安定性に優れることを示唆している。
Link: https://arxiv.org/abs/2511.14599
マルチモーダルKVキャッシュ圧縮の再検討：周波数領域誘導型外れ値KV対応アプローチ [cs.LG, cs.AI, cs.CV]目的：マルチモーダル大規模言語モデルにおけるKVキャッシュ圧縮手法
- マルチモーダルLLMの推論コストは高く，高速化が求められている。
- 既存手法は注意スコアに依存し，効率的な注意カーネルとの互換性に課題がある。
- KV行列の分布に着目し，重要な外れ値KVを保持することで圧縮性能を向上させる。
- FlashCacheは，周波数領域で主要成分をモデル化し，外れ値KVを優先的に保持する。
- 動的な予算配分により，層ごとにKVキャッシュサイズを適応的に調整する。
- 実験の結果，FlashCacheはKVメモリ使用量を80%削減し，デコーディング速度を最大1.69倍向上させた。
Link: https://arxiv.org/abs/2511.16786
MambaTAD：状態空間モデルと長距離時系列行動検出 [cs.RO, cs.CV, cs.AI]目的：長距離時系列行動検出のためのモデル
- 動画理解において，行動認識と局在化は重要な課題である。動画から行動を正確に特定し，時間的な位置を特定する必要がある。
- 従来の行動検出手法は，長時間の行動を捉えるグローバルな認識と効率的な検出ヘッドの不足に課題がある。
- MambaTADは，長距離モデリングとグローバル特徴検出能力を導入し，より正確な行動検出を目指す。
- MambaTADは，Diagonal-Masked Bidirectional State-Space (DMBSS)モジュールを導入し，グローバルな特徴融合と行動検出を促進する。
- また，多粒度特徴とグローバルな認識を用いて検出を段階的に改善するグローバル特徴融合ヘッドを導入する。
- 実験結果から，MambaTADは複数のベンチマークにおいて優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2511.17929
観察者・行動者：疎な視点からのガウススプラッティングを用いた能動的視覚模倣学習 [cs.RO, cs.CV, cs.LG]目的：能動的視覚模倣学習のための新しい枠組み
- ロボットの視覚的タスク遂行において，最適な視点からの情報取得は不可欠である。
- 従来の視覚模倣学習では，視点の固定化による遮蔽問題が課題となっていた。
- 遮蔽の少ない，よりロバストな方策学習を可能にすること。
- 提案手法ObActは，観察者アームが最適な視点を見つけ，行動者アームの視覚情報を向上させる。
- 軌跡転移学習では遮蔽なしで145%，遮蔽ありで233%の性能向上が確認された。
- 行動クローニング学習ではそれぞれ75%と143%の性能向上が認められた。
Link: https://arxiv.org/abs/2511.18140
LLMエージェントと形式的推論による信頼できる法的AIの実現 [cs.AI]目的：LLMベースの法的推論と法規との形式的な整合性の確保
- 法的判断は論理的である必要があり，法に基づくことが重要である。AIによる法的判断の信頼性が求められている。
- LLMは法的テキストを理解できるが，検証可能な根拠を提供できないという課題がある。
- LLMの柔軟性と形式的推論の厳密さを組み合わせ，根拠に基づいた信頼性の高い法的AIを開発する。
- L4Lフレームワークは，LLMによる法的推論と法規との整合性を形式的に強制する。
- 実験結果から，L4Lは既存手法を上回り，監査可能な根拠を提供する。
- L4Lは，法知識の構築，事実と法規の抽出，ソルバーによる審理，判決の作成の4段階で構成される。
Link: https://arxiv.org/abs/2511.21033
地震励起下における非線形構造応答のための物理情報に基づいたU-Net-LSTMネットワーク [cs.RO, cs.LG]目的：地震励起下における非線形構造応答の予測
- 構造物の耐震設計において，正確かつ効率的な地震応答予測は不可欠である。
- 従来の有限要素法は計算負荷が高く，リアルタイム解析への適用が困難である。
- 物理法則を組み込むことで，データ駆動型モデルの予測精度と汎化性能の向上を目指す。
- 提案手法は，1次元U-Netを用いて入力系列の潜在的特徴を捉える。
- 物理制約を学習プロセスに組み込むことで，従来の機械学習モデルよりも高い予測性能を達成した。
- データ駆動型手法と物理ベースモデリングのギャップを埋め，効率的な地震応答予測を可能にする。
Link: https://arxiv.org/abs/2511.21276
操舵認識：活性化操舵の検知能力を獲得するモデルの訓練 [cs.CL, cs.AI]目的：活性化操舵の検知能力
- 言語モデルの安全性評価や解釈性の向上に，活性化操舵という手法が広く用いられている。
- 活性化操舵がモデルに気付かれずに実行されるという暗黙の仮定が，評価の妥当性を損なう可能性がある。
- モデルが活性化操舵を検知する能力（操舵認識）を評価し，その影響を明らかにすること。
- 7つのオープンソースモデルにおいて，最良のモデルは95.5%の検知率と71.2%の概念識別率を達成した。
- 検知能力は，コントラスト活性化加算法で生成されたベクトルに対しては転移するが，幾何学的に類似性の低い手法に対しては効果がなかった。
- 操舵認識能力を獲得したモデルは，元のモデルよりも操舵の影響を受けやすくなることが示された。
Link: https://arxiv.org/abs/2511.21399
DPAC：拡散サンプリングのための分布保持敵対的制御 [cs.RO, cs.CV, cs.AI, cs.LG]目的：拡散サンプリングにおける敵対的制御の性能劣化とその原因の解明
- 拡散モデルは高品質な画像生成を可能にするが，制御可能性の向上が課題である。
- 敵対的制御は目標クラスへの到達を可能にするが，軌道間の乖離によりサンプル品質が低下する。
- 拡散過程における軌道間のKL divergenceを最小化し，敵対的制御と生成品質のバランスをとる。
- 敵対的制御のエネルギーと知覚的忠実度との間に原理的な繋がりがあることが示された。
- DPACは，拡散モデルのスコア幾何学に基づいた接空間への射影を通じて，分布のずれを抑制する。
- ImageNet-100での実験により，DPACがFIDと推定パスKLを低減し，攻撃成功率を維持することが確認された。
Link: https://arxiv.org/abs/2512.01153
GRAND：マルチエージェントパスファインディングにおけるネットワークディスパッチのためのガイダンス，再調整，および割り当て [cs.RO, cs.LG, cs.MA]目的：大規模なロボット群におけるタスクスケジューリング
- 倉庫や物流現場では，ロボット群の規模が拡大しており，制御性能の微小な改善が運用に大きな影響を与える。
- 多数のエージェントが存在する環境下では，経路干渉や非効率なタスク割り当てが課題となる。
- 学習による全体的なガイダンスと軽量な最適化を組み合わせ，効率的なタスクスケジューリングを実現する。
- 提案手法GRANDは，グラフニューラルネットワークによるガイダンス，最小コストフローによる再調整，局所的な割り当て問題を組み合わせることで，スループットを向上させる。
- LoRRベンチマークにおいて，2024年の優勝スケジューラと比較して最大10%のスループット改善を達成し，リアルタイム性を維持した。
- グラフ構造の学習ガイダンスと実用的なソルバーの組み合わせが，渋滞を軽減し，大規模ロボット群向けの拡張性のあるスケジューリングの基盤となる。
Link: https://arxiv.org/abs/2512.03194
誘導フローポリシー：オフライン強化学習における高価値行動からの学習 [cs.LG, cs.AI]目的：オフライン強化学習における高価値行動の抽出と活用
- 強化学習は，複雑なタスクの自動学習に有効だが，データ収集コストが高い。
- オフライン強化学習では，既存のデータセットのみを利用するため，データの偏りが性能を左右しやすい。
- データセット内の高価値行動に焦点を当て，より効率的な学習を目指す。
- 誘導フローポリシー（GFP）は，フローマッチングポリシーと蒸留された1ステップアクターを組み合わせることで，高価値行動の模倣に特化している。
- GFPは，OGBench，Minari，D4RLのベンチマークにおいて，最先端の性能を達成しており，特にサブオプティマルなデータセットで顕著な効果を示した。
- アクターとフローポリシーの相互誘導により，データセットの最良の遷移との整合性を保ちつつ，批判値を最大化している。
Link: https://arxiv.org/abs/2512.03973
RLポストトレーニングのためのブートストラップ混合報酬：正準行動順序の注入 [cs.LG, cs.AI]目的：RLポストトレーニングにおける性能向上
- 強化学習は複雑な問題解決に有効だが，適切な報酬設計が重要である。
- 従来のRLポストトレーニングは単一の報酬に依存し，解法の構造を考慮しない。
- 正準順序の情報を報酬に組み込み，効率的な学習を目指す。
- 正準順序に関するヒントを報酬に加えることで，タスクのみの最適化よりも一般的に性能が向上した。
- 粗い順序の情報でRLポストトレーニングを正準軌道へと導くことが示された。
- 教師データやアーキテクチャを変更することなく，効果を発揮することが確認された。
Link: https://arxiv.org/abs/2512.04277
エネルギー適応型MixupとフレームレベルAttentionを用いた音声感情認識のための多損失学習 [cs.SD, cs.AI, eess.AS]目的：音声感情認識における性能向上
- 人間とコンピュータのインタラクションにおいて，感情を認識する技術は重要である。
- 感情の複雑さや注釈付きデータの不足により，高い性能を達成することが難しい。
- 多様な音声サンプル生成とフレームレベルの特徴抽出により，認識精度を向上させる。
- 提案手法は，エネルギー適応型MixupとフレームレベルAttentionを組み合わせた多損失学習フレームワークである。
- IEMOCAP，MSP-IMPROV，RAVDESS，SAVEEの4つのデータセットで最先端の性能を達成した。
- この結果は，提案手法の有効性とロバスト性を示唆している。
Link: https://arxiv.org/abs/2512.04551
位相保存拡散：構造に沿った生成のための位相保持拡散 [cs.RO, cs.SY, eess.SY, cs.CV, cs.GR, cs.LG, cs.RO]目的：構造に沿った生成
- 画像生成技術は，無条件生成やテキストからの画像生成で進歩している。
- 従来の拡散モデルは位相情報を破壊し，幾何学的整合性が求められるタスクには不向きである。
- 入力の位相を保存しつつ振幅をランダム化することで，構造に沿った生成を実現する。
- 位相保存拡散(\phi-PD)は，モデルのアーキテクチャ変更や追加パラメータなしに，構造に沿った生成を可能にする。
- 周波数選択的構造化ノイズ(FSSノイズ)により，単一の周波数カットオフパラメータで構造の剛性を制御できる。
- CARLAシミュレータを用いた実験で，\phi-PDはsim-to-realプランナの転送性能を大幅に向上させた。
Link: https://arxiv.org/abs/2512.05106
メカニズム解釈のためのポストトレーニング疎注意 [cs.LG, cs.AI]目的：Transformer attentionの疎化
- 大規模言語モデルの内部構造理解は，性能向上や安全性確保に不可欠である。
- Transformerのattention層は高密度であり，解釈が困難である。
- attentionの疎化により，モデル構造を簡略化し解釈性を高める。
- ポストトレーニングにより，性能を損なわずにattentionの接続を大幅に削減した。
- 疎注意は，タスク特化的な回路の構成要素数と接続数を減少させる効果が確認された。
- 層間トランスコーダを用いることで，特徴ベースと回路ベースの解釈を統合した。
Link: https://arxiv.org/abs/2512.05865
ClinNoteAgents：心不全30日再入院予測と臨床記録解釈のためのLLMマルチエージェントシステム [cs.CL, cs.AI]目的：心不全30日再入院リスク分析のための臨床記録の構造化表現と予測
- 高齢化社会において，心不全は再入院の主要な原因であり，医療費増加に繋がる重要な課題である。
- 従来の心不全再入院予測モデルは専門知識に依存し，誤字脱字や専門用語を含む臨床記録の活用が困難であった。
- 本研究は，大規模言語モデルを用いて臨床記録から情報を抽出し，より効率的かつ解釈可能なリスク予測モデルを構築する。
- 本システムは，臨床記録から臨床・社会的リスク要因を構造化し，心不全30日再入院予測に有用な情報を提供した。
- 臨床変数の抽出精度は高く（条件付き精度90%以上），テキスト量を60～90%削減しても予測性能を維持した。
- 本手法は，構造化データへの依存を減らし，手動アノテーションやモデル学習の負担を軽減することで，データ不足の医療システムでの活用に貢献する。
Link: https://arxiv.org/abs/2512.07081
大規模言語モデルによる自動プロキシ探索：トレーニングフリーな混合精度量子化の革命 [cs.LG, cs.CV]目的：混合精度量子化のための自動プロキシ探索手法
- 深層学習モデルのメモリ消費量は大きい。量子化はモデルを軽量化し，実用的な展開を可能にする重要な技術である。
- 従来の量子化手法は，計算コストが高いか，専門家の知識が必要であり，効率性と柔軟性に課題があった。
- 本研究は，専門家の介入やトレーニングを必要としない，より効率的かつ自動的なプロキシ探索手法を確立することを目指す。
- 本研究では，大規模言語モデルと進化戦略を活用した，トレーニングフリーな自動プロキシ探索フレームワークTAPを提案した。
- TAPは，軽量な直接選好最適化（DPO）戦略コントローラーにより，プロキシ生成の精度を向上させるタスク認識型フィードバックループを実現した。
- 主要なベンチマーク実験において，TAPは最先端の性能を達成し，混合精度量子化コミュニティに新たな視点を提供する。
Link: https://arxiv.org/abs/2512.07419
複雑性ブースト強化学習によるオリンピックレベルの幾何LLMエージェントの実現 [cs.DL, physics.ed-ph, physics.soc-ph, cs.AI]目的：オリンピックレベルの幾何問題解決能力を持つLLMエージェントの構築
- 数学問題解決AIの発展は，高度な論理的思考能力の実現に不可欠である。
- 幾何問題解決AIは，補助作図のヒューリスティクスが弱く，大規模データに依存しやすい。
- LLMエージェントのヒューリスティクスを強化し，少ないデータで高精度な幾何問題解決を目指す。
- InternGeometryは，提案と検証を繰り返すことで，オリンピックレベルの幾何問題を解決する。
- InternGeometryは，2000年から2024年までのIMO幾何問題50問中44問を正解し，金メダリストの平均点を上回った。
- InternGeometryは，AlphaGeometry 2が使用したデータのわずか0.004%である13Kの訓練例のみで，この成果を達成した。
Link: https://arxiv.org/abs/2512.10534
ReFusion：並列自己回帰デコーディングを用いた拡散大規模言語モデル [cs.RO, cs.SY, eess.SY, cs.CL, cs.AI, cs.LG]目的：拡散モデルと自己回帰モデルの長所を融合した，新たな言語モデルの提案
- 自然言語処理において，大規模言語モデルはテキスト生成や理解において重要な役割を担っている。
- 自己回帰モデルは推論速度が遅く，拡散モデルは計算コストが高いという課題があった。
- 拡散モデルの計算効率と自己回帰モデルの生成品質を両立させることを目指している。
- ReFusionは，スロットレベルでの並列デコーディングと，スロット内での自己回帰充填を組み合わせることで，KVキャッシュの再利用を可能にした。
- 実験の結果，ReFusionは既存の拡散モデルと比較して，性能が34％向上し，速度が18倍以上向上した。
- さらに，ReFusionは強力な自己回帰モデルに匹敵する性能を維持しつつ，平均2.33倍の速度向上を達成した。
Link: https://arxiv.org/abs/2512.13586
不確実性校正の測定 [cs.LG]目的：二値分類器の$L_1$校正誤差推定
- 機械学習モデルの信頼性評価は，意思決定の質に直結する重要な課題である。
- 校正誤差の正確な推定はデータ量が限られている場合，困難を伴う。
- 校正誤差の上限を効率的に計算し，分類性能への影響を最小限に抑えること。
- 変動が制限された校正関数を持つ分類器に対する校正誤差の上界を導出した。
- 分類器を修正することで，校正誤差の上限を効率的に計算する手法を提案した。
- 提案手法は，現実世界のデータセットに対して，わずかなオーバーヘッドで適用可能である。
Link: https://arxiv.org/abs/2512.13872
HydroGEM：自己教師ありゼロショットハイブリッドTCNトランスフォーマー基盤モデルによる大陸規模河川流量品質管理 [cs.AI]目的：大陸規模河川流量データの品質管理
- 河川流量データは水資源管理や洪水予測に不可欠であり，その信頼性が重要である。
- 河川流量センサーの故障が頻発し，データの信頼性を損なう問題がある。
- 大規模なセンサーネットワークにおける流量データの品質を自動的に管理する手法を確立する。
- HydroGEMは，大規模な流量データを用いて自己教師あり学習を行うことで，一般的な水文的表現を獲得した。
- 合成異常データを用いたファインチューニングにより，異常検出と再構成において高い性能を示した（F1=0.792，再構成誤差削減率68.7%）。
- カナダの河川流量データを用いたクロスナショナル検証でも高い汎化性能を示し，イベント検出率は90.1%を達成した。
Link: https://arxiv.org/abs/2512.14106
コンテキスト再配置による言語モデルRePo [cs.LG, cs.AI, cs.CL]目的：言語モデルにおけるコンテキスト再配置による性能向上
- 大規模言語モデルの性能は，コンテキストの活用に大きく依存する。
- 従来のモデルでは，コンテキストの構造が固定されており，効率的な情報処理が課題。
- コンテキストの依存関係を捉える再配置機構により，認知負荷を軽減し性能向上を目指す。
- RePoは，コンテキストの依存関係を学習する微分可能なモジュールを活用する。
- ノイズの多いコンテキスト，構造化データ，長いコンテキスト長を持つタスクで，一貫して性能が向上した。
- RePoは，遠く離れた関連情報への注意を強化し，コンテキストの構造を捉えることが示された。
Link: https://arxiv.org/abs/2512.14391
MCP-SafetyBench：現実世界のMCPサーバーを用いた大規模言語モデルの安全性評価ベンチマーク [cs.CL, cs.AI]目的：大規模言語モデルの安全性評価
- LLMが外部ツールと連携しエージェント化が進む中，その安全性確保が不可欠である。
- 既存のベンチマークは単独攻撃に偏り，現実世界の複雑な環境を捉えきれていない。
- 現実的なMCP環境下での攻撃に対する脆弱性を評価し，対策の必要性を示す。
- MCP-SafetyBenchは，ブラウザ操作，金融分析など五つの領域における現実的な多段階評価を可能にする。
- 評価の結果，主要なLLMはいずれもMCP攻撃に対して脆弱であり，安全性と有用性のトレードオフが存在することが示された。
- 本ベンチマークは，現実のMCP環境における安全リスクの診断と軽減のための基盤となる。
Link: https://arxiv.org/abs/2512.15163
証拠に基づいたフェイクニュース検出のためのエージェント型マルチパーソナフレームワーク [cs.CL, cs.IR, cs.LG]目的：フェイクニュース検出の精度向上
- オンライン上の誤情報の拡散は，社会システムの安定や公共の信頼を脅かすため，対策が急務である。
- 既存の手法は，マルチモーダルコンテンツ，ドメイン一般化，説明可能性において課題が残されている。
- テキスト，画像，文脈情報を統合し，信頼性の高いフェイクニュース検出を目指す。
- 提案手法AMPEND-LSは，大規模言語モデルと小規模言語モデルの連携により，マルチモーダルなフェイクニュースを高精度に検出する。
- AMPEND-LSは，テキスト，画像検索，知識グラフ，説得戦略分析を統合した構造化された推論パイプラインを採用している。
- 3つのベンチマークデータセットで，最先端の手法と比較して，精度，F1スコア，頑健性で優れた結果が得られた。
Link: https://arxiv.org/abs/2512.21039
言語モデルにおける並列トークン予測 [cs.CL, cs.LG]目的：言語モデルのトークン生成高速化
- 言語モデルは自然言語処理の基盤であり，その効率化は重要である。
- 従来の言語モデルは逐次的なトークン生成のため，処理速度が課題である。
- 本研究は，並列トークン予測により高速なトークン生成を実現する。
- 並列トークン予測(PTP)は，一度のモデル呼び出しで複数のトークンを予測する汎用的なフレームワークである。
- PTPは，ランダム性を入力変数に移行させ，トークン間の依存関係を表現可能にする。
- 実験により，PTPは様々なタスクにおいて2.4倍の高速化を達成した。
Link: https://arxiv.org/abs/2512.21323
FluenceFormer：Transformer駆動型マルチビーム蛍光マップ回帰による放射線治療計画 [cs.CV, cs.AI]目的：放射線治療計画のための蛍光マップ予測
- 放射線治療はがん治療の重要な手段であり，計画の効率化と質の向上が求められている。
- 蛍光マップ予測は困難な逆問題であり，既存の畳み込みニューラルネットワークは長距離依存性を捉えにくい。
- 本研究は，Transformerを用いて高精度で物理的に妥当な蛍光マップを予測し，放射線治療計画の自動化を促進する。
- FluenceFormerは，様々なTransformerバックボーンと組み合わせ可能であり，汎用性の高いフレームワークである。
- Swin UNETRを用いたFluenceFormerは，既存のCNNやシングルステージ手法と比較して優れた性能を発揮する。
- エネルギー誤差を4.5％に削減し，構造的忠実度においても有意な改善が見られた(p < 0.05)。
Link: https://arxiv.org/abs/2512.22425
大規模NP困難最適化のためのマルチチェーンハイブリッドメタヒューリスティック：Yukthi Opus [cs.NE, cs.AI]目的：大規模NP困難最適化問題に対する効率的な解探索
- 複雑な問題解決において，最適化技術は不可欠であり，その重要性は増している。
- 既存手法では，大規模問題や評価コストが高い場合に，性能が低下しやすい。
- 限られた評価回数内で，ロバスト性と安定性を向上させつつ，高精度な解を探索すること。
- MCMC探索と貪欲探索が解の質に重要であり，焼きなまし法とマルチチェーン実行は安定性と分散減少に貢献する。
- YOは，大規模かつ多峰性の問題において，予測可能な評価回数で競争力のある性能を達成する。
- 高価なブラックボックス最適化設定に適しており，実用的な応用が期待される。
Link: https://arxiv.org/abs/2601.01832
大規模言語モデルが思考する際に，ツールと計画はいつ役立つか：コストと遅延を考慮したベンチマーク [cs.CL, cs.AI]目的：大規模言語モデルにおける推論時計画と外部ツールの活用に関する性能評価
- 近年，大規模言語モデルの高度な推論能力が求められており，その性能向上が重要な課題となっている。
- 外部ツールや計画の導入は計算コストや遅延の増加を招く可能性があり，効率的な活用方法が不明である。
- タスク固有のツール選択とモデル規模に応じた最適なエージェント/ツール構成を明らかにすること。
- イベント中心の質問応答タスク(Event-QA)において，ツールを活用することでGPT-4oの正答率が向上したが，遅延は大幅に増加した。
- RedditのChangeMyView(CMV)タスクでは，ワンショットプロンプトが最も有効であり，計画と検索の組み合わせは遅延を増加させるだけで，一貫した改善は見られなかった。
- 小規模モデルでは，複雑なツール連携により性能が低下することが示され，タスクに応じたコストを考慮したモデル選択の重要性が明らかになった。
Link: https://arxiv.org/abs/2601.02663
タンパク質機能理解のための相互介入ツール呼び出し推論 [cs.AI]目的：タンパク質機能予測における知識集約型科学的課題への取り組み
- タンパク質機能理解は，生命科学の根幹であり，創薬等の応用分野に不可欠である。
- 既存手法は，表面的なキーワードパターンに依存し，生物学的知識の導入が不十分である。
- 外部ツールと推論を統合し，検証可能な中間証拠に基づいた機能予測を実現する。
- PFUAは，ツールを統合したタンパク質推論エージェントであり，問題分解，ツール呼び出し，回答生成を統一する。
- 4つのベンチマークにおいて，PFUAはテキストのみの推論モデルを平均103%上回る性能を示した。
- 従来のテキストベースの推論パラダイムが，タンパク質機能理解に不向きであることが示された。
Link: https://arxiv.org/abs/2601.03604
タスクレベル制御可能なLLMにおける良質なニューロンと不良質なニューロンの特定 [cs.CL, cs.AI]目的：タスクレベルでのLLMの理解と制御のためのニューロンの特定
- 大規模言語モデルの能力向上に伴い，その内部メカニズムの解明が重要となっている。
- 既存手法は特定の能力に焦点を当てており，複数の能力を協調させるタスクには適用が困難である。
- 偶然による正答を排除し，タスク遂行を促進・阻害するニューロンを明確にすることで，LLMの理解を深める。
- NeuronLLMは，機能拮抗の原理に基づき，良いニューロンと悪いニューロンを対比的に学習することで，LLMの包括的なモデリングを実現している。
- 多様な規模と種類のLLMを用いた実験により，NeuronLLMが既存手法よりも優れた性能を示すことが確認された。
- 本研究は，LLMの機能的組織に関する新たな知見を提供する。
Link: https://arxiv.org/abs/2601.04548
スペクトル球上の制御されたLLM訓練 [cs.LG, cs.AI]目的：大規模言語モデルの安定性を確保した迅速な収束
- モデル規模の拡大に伴い，効率的な訓練手法が不可欠となっている。
- 既存の最適化手法では，重みの変動を完全に制御できていない。
- スペクトル制約を適用し，最適化プロセスを$\boldsymbol{\mu}$Pに完全に適合させる。
- 提案手法Spectral Sphere Optimizer (SSO)は，AdamWやMuonと比較して一貫して高い性能を示す。
- SSOは，MoEルーターの負荷分散を改善し，外れ値を抑制，活性化を厳密に制限することで，実用的な安定性をもたらす。
- SSOは，Dense, MoE, DeepNetなど様々なアーキテクチャで有効性が確認された。
Link: https://arxiv.org/abs/2601.08393
BPE：行動プロファイリングアンサンブル [cs.CC, cs.LG]目的：予測性能向上のためのアンサンブル学習戦略
- 機械学習において，予測精度向上の鍵となる手法であり，実用的な応用が期待される。
- 既存手法では，モデル内部の特性が考慮されず，参照セットへの依存度が高いという課題がある。
- モデル固有の行動特性に基づき，予測精度向上と計算コスト削減を目指す。
- 提案手法BPEは，従来のDESベースラインを42のデータセットで上回り，予測精度を向上させた。
- BPEは，モデルの応答と行動プロファイルとの乖離から重みを導き出す，モデル中心の統合パラダイムを採用している。
- 計算・ストレージオーバーヘッドの削減にも貢献し，効率的なアンサンブル学習を実現する。
Link: https://arxiv.org/abs/2601.10024