arXiv雑要約
AI - 2026/02/05 公開
平坦性は必要である,ニューラル崩壊は不要である:グロッキングによる一般化の再考 [cs.LG]目的:一般化のメカニズム解明
- 深層学習モデルの一般化能力は重要な研究課題であり,そのメカニズム解明が求められている。
- 損失関数の平坦性とニューラル崩壊が一般化に関与するとされるが,因果関係は不明である。
- グロッキングを利用し,一般化と学習ダイナミクスの分離を通じて,平坦性とニューラル崩壊の役割を解明する。
- ニューラル崩壊と相対的な平坦性は一般化の開始時に現れるものの,一般化を予測するのは平坦性のみである。
- ニューラル崩壊を促進または抑制しても一般化性能は変わらないが,平坦でない解への正則化は一般化を遅らせる。
- ニューラル崩壊は古典的な仮定の下で相対的な平坦性につながり,その共起を説明できる。
言語モデルの事前評価 [cs.CL, cs.AI, cs.LG]目的:言語モデルの性能予測
- 大規模言語モデルの発展には,評価が不可欠である。
- 評価には時間と計算資源が必要であり,開発サイクルを遅らせる。
- 実験を行う前に性能を予測し,効率的な開発を目指す。
- タスク記述と設定のみから性能を予測する試みは,課題があるものの実現可能であることが示された。
- PRECOGという記述と性能のペアからなるデータセットを構築し,系統的な研究を支援した。
- 高信頼度閾値下では,平均絶対誤差9.9%程度の予測精度を達成した。
拡散による効率的な適応拡散を用いたサンプリングベースのパレート最適解集合の改良 (SPREAD) [cs.LG]目的:多目的最適化におけるパレート最適解集合の算出
- 複雑な問題に対し,複数の目的を同時に最適化する需要が高まっている。
- 大規模かつ計算コストの高い問題において,効率的なパレート最適解の算出が困難である。
- 拡散モデルを用いて,効率的かつ多様性の高いパレート最適解集合を算出する。
- 提案手法SPREADは,ノイズ除去拡散確率モデルを基盤とする生成フレームワークである。
- SPREADは,決定空間からサンプリングされた点に基づき条件付き拡散過程を学習し,逆拡散ステップごとに候補解を改良する。
- 実験結果から,SPREADは既存手法と同等またはそれ以上の効率,スケーラビリティ,パレート最適解の網羅性を示すことが分かった。
精度よりも低い精度の方が信頼できる:CLIPにおける量子化の影響の体系的な評価 [cs.CV, cs.AI, cs.LG]目的:ビジョン言語モデルの量子化が,精度以外の信頼性指標に与える影響の評価
- ビジョン言語モデルは,ゼロショット分類や安全性が重要なタスクで革新をもたらしている。
- 高コストが実用上の課題となっており,効率化が求められている。
- 量子化が信頼性を向上させる可能性を示し,モデルの高速化と信頼性向上に貢献する。
- 量子化は,精度,キャリブレーション,OOD検出,ノイズに対するロバスト性を同時に改善する可能性がある。
- 量子化は高ランクのスペクトル成分を抑制し,モデルがロバストな低ランク特徴に依存するように促す。
- このスペクトルフィルタリング効果が,汎化性能とノイズ耐性の向上を駆動している。
Aurora:汎用的な生成型マルチモーダル時系列予測に向けて [cs.CL, cs.LG]目的:時系列予測における汎化性能の向上
- 時系列予測は,将来のトレンドがドメイン特性に依存するため,ドメイン間の汎化が重要である。
- 既存研究では,ドメイン知識の明示的な活用が不十分であり,ゼロショット推論に対応できない場合がある。
- 本研究は,マルチモーダル入力とゼロショット推論を可能にする汎用的なモデルを開発し,ドメイン知識の活用を目指す。
- Auroraは,時系列とテキスト,画像などのマルチモーダルデータを統合し,ドメイン知識を適応的に抽出・活用する。
- モダリティ guided multi-head self-attention機構により,ドメイン知識を時系列表現のモデリングに注入する。
- Prototype-Guided Flow Matchingを用いることで,生成的な確率的予測を実現し,5つのベンチマークで最先端の性能を示した。
再生核ヒルベルト空間におけるベイズ変換演算子 [cs.LG, math.DS, nlin.CD, physics.data-an]目的:非線形動的システムの線形表現であるコープマン演算子に関する研究
- 科学の多くの分野で,非線形動的システムの解析が重要視されている。
- 従来のカーネル法は計算コストが高く,ノイズに弱いという課題があった。
- ガウス過程法を用いて,計算効率とノイズ耐性を向上させることを目指す。
- ガウス過程法を適用することで,カーネルベースのコープマンアルゴリズムの計算負荷を軽減できることが示された。
- 提案手法は,センサーノイズに対するロバスト性を向上させることが確認された。
- 動的モード分解とガウス過程回帰を統合することで,モデルの適応性を高めることができる。
長文脈LLMエージェントのための可逆的な記憶:理由を振り返り,前進する [cs.ET, cs.CL, cs.AI]目的:長文脈における質問応答性能の向上
- LLMの応用範囲拡大には,長文脈を理解する能力が不可欠である。
- 既存手法では,潜在的な証拠の削除や情報の損失,学習信号の希薄化が課題となる。
- 記憶の検索メカニズムを導入し,情報の劣化を軽減し,複雑な推論を可能にする。
- ReMemR1は,長文脈質問応答において最先端のベースラインを大幅に上回る性能を示す。
- 記憶の更新プロセスに記憶の検索メカニズムを組み込むことで,非線形な推論を可能にする。
- 多段階の報酬設計により,効果的な記憶利用を促し,学習の改善に貢献する。
Vid-LLM:再構成・推論の相乗効果を持つコンパクトなビデオベース3DマルチモーダルLLM [cs.CL, cs.CV, cs.AI]目的:ビデオベースの3DマルチモーダルLLMの開発
- 3Dシーン理解はロボット工学や拡張現実など,多くの分野で不可欠である。
- 既存の3DマルチモーダルLLMは3Dデータ入力に依存し,拡張性や汎化性能に課題がある。
- 外部3Dデータなしでビデオ入力のみを用いて3Dシーン理解を可能にすること。
- Vid-LLMは,ビデオ入力から直接3D情報を処理し,実用的な3Dシーン理解を実現した。
- Cross-Task Adapter(CTA)モジュールにより,3D幾何学的情報を効率的に言語表現に統合した。
- 3D Question Answering,3D Dense Captioning,3D Visual Groundingタスクで優れた性能を示した。
因果的アダプター:忠実な反事実生成のためのテキスト-画像拡散の制御 [cs.CV, cs.AI]目的:反事実画像生成のためのテキスト-画像拡散モデルの適応
- 画像生成技術は,創造的なコンテンツ制作やデータ拡張など,多岐にわたる応用が期待されている。
- 既存手法では,属性変更が他の要素に意図しない影響を与え,画像の品質や整合性を損なう場合がある。
- 画像内の特定の属性を変化させつつ,他の要素は維持することで,より正確な反事実画像を生成すること。
- Causal-Adapterは,凍結されたテキスト-画像拡散モデルを適応させることで,反事実画像生成を可能にする。
- この手法は,ターゲット属性に対する因果的介入をサポートし,その効果を正確に伝播させながら,画像の主要な特徴を維持する。
- PendulumデータセットでMAEが最大91%減少し,ADNIデータセットでFIDが最大87%減少するなど,最先端の性能を示す。
ゼロショット音声感情認識における構成的プロンプティングのためのプラグアンドプレイ感情グラフ [cs.AI]目的:ゼロショット音声感情認識における感情推論の改善
- 音声と言語の理解が重要視される現代において,感情認識技術の発展は不可欠である。
- 大規模言語モデルは音声感情認識に苦戦しており,非言語的情報やクロスモーダル推論が課題である。
- 感情グラフを用いて大規模言語モデルの推論を支援し,感情認識精度向上を目指す。
- 提案手法であるCCoT-Emoは,感情グラフをプロンプトに組み込むことで,大規模言語モデルの感情推論能力を向上させる。
- 実験の結果,CCoT-Emoは既存の最先端手法を上回り,ゼロショットベースラインと比較して精度が向上した。
- 感情グラフは解釈可能性と構成的な表現を提供し,感情認識におけるクロスモーダル推論を強化する。
EMO-TTA:音声言語モデルによる音声感情認識のテスト時適応の改善 [cs.SD, cs.AI]目的:音声感情認識におけるテスト時適応
- 感情認識は,人間と機械の円滑なコミュニケーションに不可欠であり,その重要性は高い。
- テスト時のデータ分布の変化により,音声感情認識の性能が低下する課題がある。
- 分布の変化に対応し,テスト時の性能低下を抑制する手法の開発が求められている。
- Emo-TTAは,モデルの重みを変更することなく,テストサンプルごとに統計的適応を行う軽量なフレームワークである。
- 期待値最大化法を用いて,クラス条件付き統計量を逐次的に更新し,テスト時分布を明示的に推定する。
- 6つの音声感情認識ベンチマークにおいて,既存のテスト時適応手法と比較して精度が向上することが示された。
安全な文脈内強化学習 [cs.LG]目的:文脈内強化学習における安全な適応
- 強化学習は,ロボティクスやゲームなど,様々な分野で応用が期待されている。
- 文脈内強化学習では,テスト環境での安全性が課題であり,実用化の障壁となっていた。
- 本研究は,テスト環境における安全性を保証しながら,文脈内強化学習による適応を実現することを目指す。
- 提案手法SCAREDは,制約付きマルコフ決定過程に基づき,安全な適応を促進する。
- SCAREDは,報酬最大化と同時に,累積コストをユーザー指定の安全予算内に抑える。
- 安全予算に応じて,エージェントの行動が積極的に変化することが確認された。
コンピュータ利用エージェントのスケーリング手法 [cs.CL, eess.AS, cs.MA, cs.AI, cs.CL, cs.CV, cs.LG]目的:コンピュータ利用エージェントの性能向上
- デジタルタスクの自動化は生産性向上に不可欠であり,その重要性は増している。
- 長期的な複雑なタスクにおいて,既存のエージェントは不安定で,結果にばらつきが大きい。
- 複数回の試行から最適な行動を選択する手法を開発し,エージェントの信頼性と成功率を高める。
- 提案手法BJudgeは,エージェントの実行を行動ナラティブとして表現し,比較することでロバスト性を向上させる。
- OSWorldにおいて,BJudgeは72.6%のSoTAを達成し,人間のパフォーマンス(72.36%)を上回った。
- WindowsAgentArenaやAndroidWorldでも汎化性能が確認され,効果的なスケーリングの重要性が示された。
MoE LLM の三重苦の打破:構造的圧縮による動的専門家クラスタリング [cs.CL, cs.AI, cs.DC, cs.LG, cs.NE]目的:MoE LLMにおける負荷分散の偏り,パラメータの冗長性,通信オーバーヘッドの解決
- 大規模言語モデルの性能向上は重要だが,計算資源の制約が課題となっている。
- MoEモデルは効率化が期待されるが,専門家の負荷分散,冗長性,通信コストが問題である。
- 動的クラスタリングと構造的圧縮により,MoEモデルの効率性とスケーラビリティを向上させる。
- 提案手法は,GLUEおよびWikiText-103の評価において,標準的なMoEモデルと同等の性能を示す。
- 総パラメータ数を約80%削減し,スループットを10%~20%向上させ,専門家の負荷分散のばらつきを3倍以上低減する。
- 構造的な再構成が,スケーラブルで効率的,かつメモリ効率の良いMoE LLMを実現する道筋を示す。
トレースから行へ:現実世界のOSS脆弱性局所化のためのLLMエージェント [cs.SE, cs.CR, cs.LG]目的:現実世界のOSS脆弱性局所化
- ソフトウェアの安全性確保は重要であり,脆弱性の早期発見と修正が不可欠である。
- 従来の脆弱性検出手法は,コードの文脈が長く,局所化精度が低いという課題があった。
- LLMを活用し,より正確かつ効率的な脆弱性局所化を実現することを目指す。
- 本研究では,リポジトリレベルから正確な脆弱性行へと段階的に絞り込むフレームワークT2Lを提案する。
- エージェント型トレース解析器(ATA)を用いて,実行時情報を診断に活用する手法を導入した。
- 専門家による検証済みのベンチマークT2L-ARVOを用いて評価した結果,検出率は最大58.0%,行レベル局所化率は54.8%を達成した。
時間経過に伴う矛盾発生:敵対的攻撃に対する大規模言語モデルの堅牢性に関する生存時間分析 [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルの会話における堅牢性の評価
- 会話型AIの発展において,大規模言語モデルの信頼性は不可欠である。
- 既存の評価方法は静的なベンチマークに偏り,会話の長期的な変化に対応できない。
- 会話の継続に伴う矛盾発生までの時間を分析し,モデルの脆弱性を特定する。
- 大規模言語モデルの会話における矛盾発生は,プロンプト間の意味変化によって大きく影響を受けることが示された。
- 累積的な意味変化は,意外にも矛盾発生を抑制する効果があることが明らかになった。
- 加速故障時間モデルは,会話の途中で矛盾発生の可能性を予測するリスクモニターとして有効である。
大規模言語モデルを用いた多段階会話におけるリスクの定量化 [cs.AI, cs.CR, cs.LG]目的:大規模言語モデルにおける破滅的な応答のリスク定量化
- 対話型AIの社会実装が進む中で,安全性の確保は不可欠である。
- 既存評価は,攻撃プロンプトの固定性や統計的保証の欠如により,脆弱性を捉えきれない。
- 多段階会話における破滅的な応答の確率を統計的に保証する手法を確立する。
- 本研究では,多段階会話のリスクを定量化する統計的認証フレームワークC$^3$LLMを提案した。
- 会話の流れを確率分布としてモデル化し,信頼区間を用いて破滅的なリスクを評価した。
- 最悪のモデルにおいて,破滅的な応答の確率が70%を超えることが示され,安全対策の必要性が浮き彫りになった。
協調的柔軟性交換:公平かつ快適性重視の分散型資源配分 [cs.MA, cs.AI]目的:分散型資源配分システム
- 電力需要の増加とスマート家電の普及により,効率的なエネルギー管理の重要性が高まっている。
- 既存のエネルギー管理システムは,快適性よりもシステム効率を優先する傾向がある。
- 消費者の快適性とシステム効率を両立する分散型エネルギー管理システムの実現を目指す。
- 提案手法では,スロット交換メカニズムを通じて,消費者の快適性を向上させつつ,システム効率を維持できる。
- 大規模な環境下でも良好に機能し,消費者の満足度を均衡させることで公平性を促進する。
- 実世界のデータを用いた評価により,提案手法の実用性とスケーラビリティが実証された。
事後ドリフト下におけるドメイン汎化 [cs.LG, stat.ML]目的:事後ドリフト下におけるドメイン汎化の理論的枠組みと実用的な影響
- 機械学習モデルの汎化性能向上は重要であり,特に未知のデータ分布への適応が課題である。
- 既存のドメイン汎化研究では,すべてのドメインで良好な性能を示す単一の分類器が存在することが前提となっている。
- 本研究では,最適な分類器がドメインによって大きく異なる「事後ドリフト」という状況下でのドメイン汎化を扱う。
- 事後ドリフトを仮定した場合のドメイン汎化に関する意思決定理論的枠組みを確立した。
- 言語および画像処理タスクにおいて,この枠組みの実用的な影響を実験的に検証した。
- 事後ドリフトが存在する場合,従来のドメイン汎化手法では十分な性能が得られない可能性が示唆された。
マルチモーダル脳エンコーディングモデルの動的被験者認識ルーティングによる改善 [cs.AI]目的:マルチモーダルfMRIエンコーディングにおける脳予測性能の向上
- 脳活動と外界刺激の関係解明は,認知神経科学の根幹であり,ブレイン・マシン・インターフェース等の応用も期待される。
- fMRIデータの解釈は,多種多様な入力情報や個人差の影響を受け,汎用的なモデル構築が困難である。
- 本研究は,被験者固有の特性を考慮した動的な専門家ルーティングにより,脳予測モデルの精度と汎化性能を向上させる。
- AFIREと呼ばれる汎用インターフェースを導入し,様々なエンコーダからの時系列トークンを標準化することで,モデルの柔軟性を高めた。
- MINDと呼ばれるMixture-of-Expertsデコーダを開発し,被験者情報を活用した動的ゲーティングにより,専門家の利用を最適化し,予測精度を向上させた。
- 複数のマルチモーダルバックボーンと被験者を用いた実験により,提案手法が既存手法を上回り,被験者間での汎化性能が向上することが示された。
クレダル集合はいつ安定化するか? クレダル集合更新に対する不動点定理 [cs.LG, cs.AI, math.PR, math.ST, stat.ML, stat.TH]目的:クレダル集合の安定化条件
- 機械学習アルゴリズムは不確実性の表現の反復的な更新に依存する。
- 不確実性と曖昧性下では,クレダル集合の安定性に関する研究は不足していた。
- 不確実性を組み込んだ学習プロセスの安定性条件を明らかにすること。
- 本研究は,クレダル集合更新の不動点が存在するための条件を初めて分析した。
- 不確実性を学習プロセスに組み込むことが,安定性の構造的条件を明らかにする。
- クレダルベイズ深層学習を例に,本研究の知見を具体的に示した。
時系列点過程に対する編集ベースのフローマッチング [cs.LG]目的:時系列点過程のモデリング
- イベント系列の連続時間モデリングにおいて,基本的なツールとして重要である。
- 従来の自己回帰的パラメータ化は,逐次サンプリングによって制約を受ける。
- 編集操作を通してノイズからデータを輸送する効率的なモデルを開発する。
- 編集ベースのフロープロセスは,挿入,削除,置換操作によってノイズをデータに変換する。
- 連続時間マルコフ連鎖フレームワーク内で瞬時の編集率を学習することで,柔軟かつ効率的なモデルが実現した。
- ベンチマーク時系列点過程における無条件および条件付き生成タスクで,モデルの生成柔軟性が実証された。
ベイズ混合効果回帰のための高速ニューラルモデル metabeta [cs.LG, stat.ML]目的:ベイズ混合効果回帰モデルのパラメータ推定
- 経験科学において,グループごとの多重観察データが一般的であり,重要な分析手法である。
- ベイズ推論は不確実性の推定に有効だが,解析的に困難で,MCMC法による高コストな近似が必要となる。
- MCMC法に匹敵する性能をより高速に実現し,ベイズ混合効果回帰の新たな応用を可能にすること。
- 提案モデルmetabetaは,シミュレーションデータおよび実データにおいて,MCMC法と同等の安定した性能を,大幅に短い時間で達成した。
- 計算負荷を推論時ではなく,事前学習時にシフトすることで,計算効率を向上させている。
- これにより,ベイズ混合効果モデリングの応用範囲が拡大することが期待される。
悪意のあるコメントに対するロバストな偽ニュース検出のためのグループ適応敵対的学習 [cs.HC, cs.LG, cs.AI, cs.CL]目的:悪意のあるコメントに対する偽ニュース検出のロバスト性向上
- オンライン上の偽ニュースは世論を歪曲し,ソーシャルプラットフォームへの信頼を損なうため,その検出は重要である。
- 既存の検出器はベンチマークデータセットでは高い性能を示すものの,誤分類を誘発する悪意のあるコメントに脆弱である。
- 多様な攻撃パターンへの汎化性能を向上させ,予測精度と構造的なロバスト性を両立した検出システムを開発する。
- 提案手法AdCommentは,敵対的学習フレームワークにより,悪意のあるコメントに対するロバスト性を向上させる。
- 敵対的コメントを「事実の歪曲」「論理的混乱」「感情操作」の3つのカテゴリに分類し,LLMを用いて多様な摂動を生成する。
- InfoDirichlet Resampling (IDR)機構により,モデルが最も脆弱な領域への最適化を誘導し,3つのベンチマークデータセットで最先端の性能を達成した。
Y字型生成フロー [cs.LG, cs.AI]目的:階層構造を考慮した生成モデルの構築
- 現実世界のデータには複雑な階層構造が存在し,それを捉えるモデリングが重要である。
- 従来の連続時間生成モデルは,データの独立な移動に焦点を当て,階層構造を捉えられていない。
- 共有経路を経由して分岐することで,階層構造を反映した効率的な生成を可能にすること。
- 提案手法は,合成データ,画像データ,生物学的データにおいて,階層構造を的確に復元することを示した。
- 既存のフローベースラインモデルと比較して,分布メトリクスを改善し,より少ないステップで目標に到達した。
- 理論的な正当性があり,標準的な速度駆動型モデルへの変更も最小限で済む実用的なフレームワークである。
情報がクープマン表現を形作る [cs.LG, cs.SY, eess.SY]目的:クープマン表現の学習における情報理論的トレードオフのバランス
- 力学系のモデリングにおいてクープマン演算子は強力であり,機械学習分野で注目を集めている。
- 深層アーキテクチャにおいて,適切な有限次元部分空間の特定が困難であるという課題がある。
- 表現学習における表現力と簡潔さのバランスを最適化し,安定かつ解釈可能なクープマン表現を学習する。
- 提案手法では,潜在的相互情報が簡潔性を促進し,フォンノイマンエントロピーが表現力を維持する。
- 情報理論的ラグランジアン定式化により,簡潔性と表現力のトレードオフを明示的にバランス化する。
- 多様な力学系に対する実験により,既存のクープマン学習法よりも優れた性能が確認された。
KL正則化ゼロサムマルコフゲームにおける対数的な後悔の達成 [cs.LG, cs.GT, math.OC, stat.ML]目的:KL正則化を用いたゼロサムマルコフゲームにおけるサンプル効率の改善
- 強化学習において,望ましい行動特性の維持や探索促進のため,KL正則化が広く用いられている。
- ゲーム理論的設定におけるKL正則化の理論的な利点は十分に解明されていない。
- KL正則化下でのサンプル効率を改善するアルゴリズムを開発し,理論的に解析すること。
- 本研究では,OMG(行列ゲーム)およびSOMG(マルコフゲーム)という,楽観的ボーナスを用いた最良応答サンプリングに基づくアルゴリズムを提案した。
- 提案アルゴリズムは,KL正則化の強さ$\beta$に反比例する対数的な後悔$T$を達成する。
- これにより,従来の$\widetilde{\mathcal{O}}(\sqrt{T})$の後悔から$\beta^{-1}$依存性を排除することが可能となった。
ガードレールの警備:分類体系に基づいた脱獄検出への取り組み [cs.CL, cs.CL, cs.CL, cs.AI]目的:大規模言語モデルに対する脱獄手法の分類と検出
- LLMの安全性確保は,社会実装において不可欠であるため,その脆弱性評価と対策が重要である。
- 既存の防御策は,単一ターン攻撃に偏り,多言語対応や網羅的な分類が不足している。
- 多様な脱獄戦略を体系的に理解し,自動検出の精度向上を目指す。
- 包括的な階層型分類体系を構築し,既存の分類を統合・調和させた。
- 脱獄戦略の成功率とモデルの脆弱性を分析し,攻撃手法の傾向を明らかにした。
- GPT-5を評価者として活用し,分類体系に基づくプロンプトが自動検出性能を向上させることを確認した。イタリア語の対話データセットを新たに作成した。
LiDARに基づく都市規模での3次元変化検出 [cs.CV, cs.AI]目的:都市規模におけるLiDARデータを用いた3次元変化検出手法
- 都市計画やインフラ管理において,都市の変化を正確に把握することは不可欠である。
- 従来のDSMや画像処理は,垂直方向のずれや視点の影響を受けやすく,精度が低い場合がある。
- LiDARデータの不確実性を考慮し,高精度かつロバストな変化検出を実現することを目指す。
- 提案手法は,多解像度NDTとICP法を用いて異なる時点のデータを正確にアライメントする。
- 点群レベルでの検出精度を高めるため,登録共分散と表面粗さを考慮した検出レベルを計算する。
- 実験結果から,提案手法は既存手法と比較して,精度,mF1,mIoUにおいてそれぞれ0.3,0.6,1.1ポイントの改善が確認された。
DeepAgent:拡張可能なツールセットを備えた汎用的な推論エージェント [cs.AI, cs.CL, cs.IR, cs.LG]目的:汎用的な推論エージェントの実現
- 現実世界のタスク解決には,外部ツールと長期的なインタラクションが不可欠である。
- 既存のエージェントフレームワークは,定義されたワークフローに制限され,自律性とグローバルなタスク完了が難しい。
- 長期的なインタラクションにおけるコンテキスト長爆発とエラー蓄積の問題を解決する。
- DeepAgentは,自律的な思考,ツール探索,行動実行を統合したエンドツーエンドの深層推論エージェントである。
- 自己記憶の折り畳み機構により,過去のインタラクションを構造化されたメモリに圧縮し,エラー蓄積を抑制しつつ重要情報を保持する。
- LLMシミュレーションAPIとツール呼び出しの優位性帰属を利用した強化学習戦略ToolPOにより,汎用的なツール使用を効率的かつ安定的に学習する。
混合密度拡散器:非一様な時間分解能による効率的な計画 [cs.AI, cs.RO]目的:非一様な時間分解能を用いた効率的な計画手法
- ロボットの行動計画において,長期的な依存関係の把握が重要である。
- 拡散プランナーにおいて,ステップをスキップしすぎると性能が低下する問題がある。
- 計画 Horizon 全体で時間密度を調整し,性能改善を目指す。
- 提案手法であるMDDは,既存の最先端手法DVをMaze2D,Franka Kitchen,Antmazeデータセットで上回る。
- D4RLベンチマークにおいて,新たな最先端性能を達成した。
- MDDは,計画Horizon 全体で時間密度を調整可能なハイパーパラメータを持つ拡散プランナーである。
記号回帰のスケーリング則について [cs.CL, cs.LG]目的:記号回帰におけるスケーリング則の解明
- 科学的洞察の獲得や解釈可能で汎化性能の高いモデル構築に貢献する分野である。
- 深層学習を用いた記号回帰は進歩しているものの,規模拡大の影響は未解明であった。
- 計算資源のスケーリングに伴う性能変化を明らかにし,効率的なモデル学習を可能にする。
- 検証損失と解法率は,計算資源に対して明確なべき乗則に従うことが示された。
- 最適なバッチサイズと学習率はモデル規模と共に増加し,トークンとパラメータ比は約15が最適である。
- 記号回帰の性能は計算資源から予測可能であり,次世代モデルの学習に重要な示唆を与える。
生成AIによるソフトウェア工学プロセスと製品の拡張に関する研究ロードマップ [cs.HC, cs.SE, cs.AI, cs.ET, cs.LG, cs.MA]目的:生成AIによるソフトウェア工学の拡張に関するロードマップ
- ソフトウェア工学は,現代社会における基盤技術であり,その発展は社会全体の効率化と進歩に不可欠である。
- 従来のソフトウェア開発は,時間とコストがかかることが多く,変化への対応が遅れるという課題を抱えている。
- 生成AIを活用することで,これらの課題を克服し,ソフトウェア開発の効率化と品質向上を目指す。
- 本研究では,生成AIがソフトウェア工学に与える影響を体系的に捉えるため,マクルーハンの方形を用いて分析を行った。
- その結果,ソフトウェア工学における生成AI拡張の4つの基本形態と,関連する研究課題・機会を特定した。
- このロードマップは,生成AIがソフトウェア工学プロセス,方法論,ツールに与える影響を分析するための透明性があり再現性のある基盤を提供する。
効果的なLLMベースの脆弱性検出のための少数の事例選択の困難性について [cs.CL, cs.SE, cs.CR, cs.LG]目的:LLMベースの脆弱性検出における少数の事例選択
- 近年,LLMはコーディングタスクで目覚ましい進歩を遂げており,ソフトウェア開発の効率化に貢献している。
- LLMによるコード脆弱性の検出は依然として難しく,誤検出や見逃しが発生する可能性がある。
- 少数の事例選択方法を改善することで,LLMの脆弱性検出性能向上を目指す。
- PythonとJavaScriptでは,少数の事例を注意深く選択することで,脆弱性検出の性能が向上することが示された。
- CとC++プログラムでは,少数の事例選択の効果は限定的であり,再学習やファインチューニングが必要である可能性が示唆された。
- モデルの誤りが多い事例や,クエリプログラムと意味的に類似した事例の選択が有効な基準となり得る。
DTS:デコーディングツリースケッチによる大規模推論モデルの強化 [cs.AI, cs.CL, cs.LG]目的:大規模推論モデルにおける推論性能の向上
- 複雑な推論タスクの解決には,大規模モデルが不可欠であり,その効率的な推論が求められている。
- 既存手法は冗長なサンプリングに依存し,推論空間の有効な探索が不十分であるという課題がある。
- 推論空間の構造的探索と選択を通じて,より高品質な解を効率的に発見することを目指す。
- DTSは,4つの大規模推論モデルとデータセットにおいて,平均で精度を14%向上させることが示された。
- DTSは,反復生成を平均で8%削減し,推論の効率化に貢献することが確認された。
- DTSを用いることで,小規模モデルが大規模モデルを凌駕する可能性が示唆され,モデルの規模に依存しない推論能力の強化が期待される。
検証可能な多肢選択問題への変換によるオープンエンドタスクへのRLVRの拡張 [cs.AI]目的:オープンエンドタスクにおけるLLMの推論能力強化
- LLMの推論能力向上は,その応用範囲拡大に不可欠である。
- オープンエンドタスクでは正解が曖昧で,報酬モデルへの依存度が高い。
- 検証可能な形式に変換し,正解が不明瞭なタスクでもRLVRを適用する。
- 提案手法VMR-RLVRは,オープンエンドタスクにおいてLLMの性能を向上させることを実証した。
- 7つのベンチマークにおいて,報酬モデルを用いたRLと比較して平均3.29点の上昇を達成した。
- VMR-RLVRは,明確な正解が存在しないタスクでもRLVRの有効性を示す。
人工知能による視覚世界のシミュレーション:ロードマップ [cs.AI, cs.CV]目的:視覚世界のシミュレーション技術の発展と,その応用可能性
- 動画生成技術は,現実世界や仮想世界を構築する上で不可欠であり,その重要性は増している。
- 従来の動画生成技術は,物理的な整合性やインタラクションの実現が困難であった。
- 動画生成モデルを基盤とした,物理法則に基づいたシミュレーションシステムの構築を目指す。
- 動画生成技術は,単なる視覚的表現から,物理法則に基づいたインタラクティブな環境構築へと進化している。
- 近年の動画生成モデルは,暗黙的な世界モデルとして機能し,物理シミュレーションやタスク計画を可能にしている。
- 本調査では,動画生成技術の進化を4つの世代に分け,それぞれの特徴と応用例を分析している。
CastMind:認知に触発された時系列予測のためのインタラクション駆動型エージェント的推論フレームワーク [cs.AI]目的:時系列予測のためのインタラクション駆動型エージェント的推論フレームワーク
- 時系列予測は,現実世界の多くの意思決定において重要な役割を担う。
- 既存手法は,予測を静的な単一パス回帰問題として扱う傾向がある。
- 人間の専門家のような反復的な推論プロセスをモデル化し,予測精度を向上させる。
- CastMindは,時系列予測を専門家のようなプロセスとして再構築し,多段階のワークフローを構築する。
- LLMを活用し,トレーニングなしで高精度な予測を可能にする。
- 多様な視点をサポートする軽量なツールキットを開発し,実験により代表的なベースラインを上回る性能を示す。
歩行者検出のための深層ニューラルネットワークの評価の再検討 [cs.CV, cs.LG]目的:歩行者検出における深層ニューラルネットワークの評価方法
- 自動運転システムの実現には,信頼性の高い歩行者検出が不可欠である。
- 既存の評価指標は,歩行者検出の性能を現実的に評価する上で課題がある。
- 歩行者検出におけるエラーの種類を分類し,より詳細な評価指標を提案すること。
- 画像セグメンテーションを活用し,8種類のエラーカテゴリーを定義した。
- 提案した指標を用いて,様々なバックボーンアーキテクチャを比較した結果,安全性に関する性能評価において有効であることが示された。
- 追加の学習データなしで,CityPersons-reasonableデータセットにおいて最先端の性能を達成した。
フォイト・ロイス・ネットを用いた物理的制約付きのロバストな逆マテリアルデザイン [cs.RO, cs.LG]目的:機械的均質化のための前方および逆問題に対するスペクトル正規化された代理モデル
- 材料設計は,高性能な構造物の実現に不可欠であり,計算コストの削減が求められている。
- 既存の逆問題手法では,物理的に実現不可能な設計が生成される場合がある。
- フォイト・ロイス境界に基づく代理モデルを構築し,物理的に妥当な設計を効率的に探索する。
- フォイト・ロイス・ネットは,3次元弾性体問題において,等方性投影を高精度に再現可能であった(R^2 ≥ 0.998)。
- 2次元平面ひずみ問題では,微分可能なレンダラーとCNNを組み合わせることで,全ての成分において高い精度(R^2 > 0.99)を達成した。
- 提案手法は,ロバストな逆設計を可能にし,様々な物理現象や演算子に適用可能である。
ハーリガーバシスを用いたコルモゴロフ・アルノルドネットワーク [cs.LG]目的:関数近似におけるハーリガーバシスシステムの効率的な実装
- 関数近似は,機械学習や科学計算において基盤となる重要な技術である。
- 高次元における高精度な近似は,既存手法の課題となっている。
- ハーリガーバシスを用いたネットワークにより,高次元近似の精度向上を目指す。
- 提案手法 KAN/H は,B-スプラインの代わりにハーリガーバシスを用いることで,効率的な関数近似を実現した。
- 学習率のスケジュール手法と,実数値入力への対応法を新たに提案し,安定した学習を可能にした。
- 関数近似問題や MNIST への適用実験により,問題固有のハイパーパラメータ調整の必要性を最小限に抑えられることを確認した。
DatalogMTLマテリアライゼーションの漸進的保守 [cs.AI]目的:DatalogMTLマテリアライゼーションの効率的な動的更新手法
- 時系列データ処理の重要性が増しており,時間的推論が必要不可欠である。
- 既存手法では,頻繁なデータ更新に対応した効率的な処理が課題となっていた。
- DatalogMTLマテリアライゼーションの漸進的更新アルゴリズムによる効率化を目指す。
- 提案手法DRedMTLは,既存のDRedアルゴリズムを拡張し,周期的な間隔表現を効率的に処理する。
- 実験結果から,DRedMTLは完全な再マテリアライゼーションと比較して大幅な性能向上を示した。
- 公開データセットを用いた評価により,その有効性が確認された。
表形式データのタスク非依存埋め込みモデルの比較 [cs.LG, cs.AI]目的:表形式データのタスク非依存埋め込み表現の性能評価
- 表形式データの分析は,様々な分野で重要であり,データ活用を促進する。
- 既存のモデルは計算コストが高く,汎用的な表現学習が課題となっていた。
- 計算資源の少ない状況でも高い性能を発揮できる表現学習手法を模索する。
- タスク非依存の埋め込み表現について,従来のfeature engineeringと同等以上の性能が認められた。
- 表形式データ用foundation modelは,計算資源の消費が大きいという課題が示された。
- 単純なfeature engineering手法が,計算効率の面で優れていることが明らかになった。
ヘルムホルツ方程式の効率的解法のためのニューラルネットワーク駆動型ドメイン分解 [math.NA, cs.LG, cs.NA]目的:ヘルムホルツ方程式の解法におけるニューラルネットワーク駆動型ドメイン分解の精度と計算効率の評価
- 音響学,電磁気学,地震分析等の分野において,波の伝播を正確にシミュレーションすることは不可欠である。
- 従来の数値解法は,複雑な二次元領域における高周波波の問題に対して,計算コストが課題となる。
- 本研究は,従来の解法の限界を克服するための有望な代替手法として,FBPINNsとその多段階拡張を検証する。
- FBPINNsは,ドメインを重複するサブドメインに分割し,各サブドメインをローカルなニューラルネットワークで制御することで,ヘルムホルツ方程式の解法において高い精度を示す。
- 本研究により,FBPINNsが均一なケースにおいて,従来の数値解法と比較して計算効率の向上に貢献することが示唆された。
- ドメイン分解を活用することで,複雑な形状の領域における計算負荷を軽減し,高周波波問題への適用可能性を広げることが期待される。
M^3-Bench:マルチモーダル,マルチホップ,マルチスレッドのツール利用MLLMエージェントのベンチマーク [cs.AI]目的:マルチモーダルツール利用におけるモデルコンテキストプロトコル下の評価
- 画像とテキストを理解し,ツールを活用するMLLMの性能評価が不可欠である。
- 既存のベンチマークでは,複雑なワークフローやツール間の依存関係を十分に評価できていない。
- 複雑なマルチモーダルツール利用タスクにおいて,MLLMの性能を詳細に分析・改善すること。
- M^3-Benchは,視覚的情報とテキスト推論を必要とする,現実的なマルチホップ・マルチスレッドワークフローを評価する初のベンチマークである。
- 最先端のMLLMの評価により,マルチモーダルMCPツール利用において,引数の忠実度や構造の一貫性に課題が残ることが示された。
- ツール呼び出しのシグネチャを埋め込み,ハンガリー法を用いて監査可能な対応関係を確立する手法を導入した。
意味を盾とする:LLMセンチメント分類におけるプロンプトインジェクションに対するラベル偽装防御(LDD) [eess.SY, cs.SY, cs.CL, cs.AI]目的:プロンプトインジェクション攻撃に対するラベル偽装防御戦略の有効性
- 大規模言語モデルのテキスト分類利用が拡大する中で,その安全性確保は重要課題である。
- プロンプトインジェクション攻撃は,モデルのラベル知識を悪用し,意図した動作を覆す可能性がある。
- ラベルのセマンティクスに着目し,モデルへの攻撃を防御する手法を提案する。
- ラベル偽装防御(LDD)は,真のラベルを意味的に変換されたラベルに置き換えることで,モデルの脆弱性を軽減する。
- LDDは,GPT-5,GPT-4o,LLaMA3.2,Gemma3,Mistralなど,複数の最先端モデルにおいて有効性が確認された。
- セマンティクスが近いラベルペア(例:good vs. bad)は,意味の異なるラベルペア(例:blue vs. yellow)よりも高い頑健性を示すことが示された。
表形式データの合成のためのフローマッチング [cs.LG, stat.ML]目的:表形式データの合成手法の開発と評価
- プライバシー保護は重要であり,データ共有を可能にする技術が求められている。
- 既存のデータ合成手法は,有用性とプライバシー保護のバランスが課題である。
- フローマッチングを用いた表形式データ合成の性能向上と,そのメカニズム解明。
- フローマッチング(特にTabbyFlow)は,既存の拡散モデルよりも優れた合成データ生成性能を示す。
- 確率経路として最適輸送(OT)を用いることで,より高性能な合成データが得られる。
- フローを確率的にすることで,周辺分布の維持と,情報漏洩リスクの低減が期待できる。
EAG3R:動的・極端照明環境におけるイベント拡張3Dジオメトリ推定 [cs.CV, cs.AI]目的:動的・極端照明環境における3Dジオメトリ推定手法
- 自動運転,SLAM,3Dシーン再構成などに応用される3Dジオメトリ推定技術は,重要性が増している。
- 従来のRGBカメラでは,動的物体や極端な照明条件下で正確な推定が困難であるという課題があった。
- 本研究では,イベントストリームを活用し,動的・低照度環境下でもロバストなジオメトリ推定を実現することを目指す。
- 提案手法EAG3Rは,RGBとイベントデータを組み合わせることで,従来のRGBのみの手法を大幅に上回る性能を示す。
- 特に,単眼深度推定,カメラポーズトラッキング,動的シーン再構成タスクにおいて優れた結果が得られた。
- EAG3Rは,夜間データでの再学習を必要とせず,過酷な環境下でも堅牢なジオメトリ推定を可能にする。
GSAE:グラフ正則化スパースオートエンコーダによる堅牢なLLM安全制御 [cs.LG, cs.AI]目的:LLMの安全性を高めるための,グラフ正則化スパースオートエンコーダの有効性
- LLMの安全性は重要な課題であり,悪意のあるプロンプトや脱獄攻撃から保護する必要がある。
- 既存手法は,安全性を単一の潜在特徴量に限定するため,複雑な概念への対応が難しい。
- 複数の特徴量に分散する安全概念を捉え,より効果的な安全制御を実現すること。
- GSAEは,ニューロンの共活性グラフにラプラシアン平滑化ペナルティを導入し,分散型安全表現を学習する。
- GSAEを用いた安全制御は,選択的拒否率82%を達成し,標準的なSAE制御(42%)を大幅に上回る。
- 様々なLLMモデルや脱獄攻撃に対して堅牢性を示し,有害コンテンツの90%以上を拒否し続ける。
視覚からのサンプル:拡散ブリッジによる観測埋め込み確率微分方程式を用いた視覚運動ポリシー学習 [cs.AI, cs.LG]目的:拡散モデルを用いたロボット制御における視覚運動ポリシーの学習
- ロボット制御は,人間の技能を模倣し,複雑なタスクを自動化するために不可欠である。
- 従来の模倣学習では,多様な行動分布を捉えることが難しく,性能が制限される場合がある。
- 観測を拡散過程の確率的ダイナミクスに直接統合することで,より高精度で信頼性の高い制御を実現することを目指す。
- 提案手法であるBridgePolicyは,観測情報を活用した軌跡構築により,ランダムノイズからのサンプリングの弱点を克服する。
- 多Modal融合モジュールとセマンティックアライナーを導入することで,異質なロボットデータを拡散ブリッジに適用可能にした。
- シミュレーションおよび実環境での実験により,BridgePolicyが最先端の生成ポリシーを凌駕することが示された。
