arXiv雑要約
AI - 2026/02/03 公開
潜在的な推論は秘密裏に方策改善演算子である [cs.CL, cs.AI, cs.LG]目的:潜在的推論におけるアルゴリズム分析と,その改善策の提案
- 複雑な推論タスクにおいて,小規模モデルの性能向上が求められている。
- 潜在的再帰による層の追加が,必ずしも性能向上に繋がらない場合がある。
- 潜在的推論の有効性を高め,無駄な計算を削減することを目指す。
- 潜在的推論は,分類器フリーガイダンスや方策改善アルゴリズムとして形式化できることが示された。
- 強化学習や拡散法の訓練手法を適用することで,無駄な計算ステップを回避し,forward passの回数を18倍削減できた。
- 再帰的ステップの方策改善の視点が,モデルの振る舞いを説明し,さらなる改善への洞察を提供する。
幾何学的分離アンラーニング [cs.LG, cs.AI, cs.CL]目的:大規模言語モデルにおける忘却と保持のトレードオフ軽減
- 大規模言語モデルは機密情報や有害な情報を学習してしまうため,その除去が重要である。
- 既存のアンラーニング手法では,保持知識の劣化を伴うことが多く,忘却と保持のトレードオフが課題である。
- パラメータ更新時の忘却・保持の相互作用を考慮し,理論的な保証に基づいたアンラーニング手法を開発する。
- 提案手法であるGUは,既存の勾配ベースのアンラーニング手法に容易に組み込むことが可能である。
- 実験の結果,GUは忘却性能を向上させ,保持知識の劣化を抑制することが示された。
- SimNPOと組み合わせることで,忘却強度(ES)が最大62%,保持強度(ES)が31%向上した。
AVERY:具現化された自己認識による適応型VLM分割計算を用いた効率的な災害対応システム [cs.DC, cs.AR, cs.CV, cs.LG, cs.NI]目的:災害対応における効率的なVLM展開のための適応型分割計算フレームワーク
- 災害時における迅速な状況把握と意思決定は,人命救助の成否を左右する重要な要素である。
- 従来のオンボードCNNでは高度な意味推論が難しく,クラウドオフローディングは帯域幅の制約により限界がある。
- ネットワーク環境やオペレーターの意図に応じてVLM処理を動的に分割し,リソース制約下での高性能化を目指す。
- AVERYは,VLMをリアルタイム認識用の「コンテキストストリーム」と詳細分析用の「インサイトストリーム」に分割する新しい分割計算パラダイムを提案する。
- 実験の結果,AVERYは静的な設定と比較して,11.2%高い精度と93.98%低いエネルギー消費を達成した。
- これにより,変動するネットワーク環境下でも,リソース制約のあるプラットフォーム上でリアルタイムかつ高度な知能を提供することが可能となる。
CostNav:物理AIエージェントの現実的な経済コスト評価のためのナビゲーションベンチマーク [cs.RO, cs.AI, cs.CE, cs.CV, cs.LG, cs.RO]目的:現実世界の経済コスト評価に基づく物理AIエージェントのナビゲーション性能評価
- 自動配送システムの商業化には,タスク成功だけでなく経済的制約が不可欠である。
- 既存のナビゲーションベンチマークは,現実世界のビジネス運用における経済コストを無視している。
- ナビゲーション研究の指標と商業的実現可能性の間のギャップを定量的に示すことを目指す。
- 既存のNav2ナビゲーションアプローチは経済的に実行不可能であることが示された(AMCL:-22.81/run,GPS:-12.87/run)。
- タスク成功の最適化と現実世界の経済的展開の最適化は根本的に異なることが明らかになった。
- CostNavは,ナビゲーションポリシーの経済的実現可能性を評価するための新しいベンチマークを提供する。
分解された信頼:低ランクLLMのプライバシー,敵対的頑健性,公平性,倫理に関する探求 [cs.LG, cs.AI]目的:低ランクLLMにおける信頼性の評価
- LLMの利用拡大に伴い,計算資源の制約が課題となっている。
- モデル圧縮は有効だが,信頼性への影響が不明確である。
- 低ランク分解が信頼性に与える影響を包括的に評価する。
- 低ランク圧縮は,学習データのプライバシーは維持または向上させるが,会話中の個人情報保護は弱体化させる。
- 敵対的頑健性は概ね維持され,深層圧縮下では向上することもある。
- ゼロショット設定では倫理的推論が低下するが,少数ショットプロンプティングで部分的に回復する。また,圧縮により公平性が低下する。
MAS-Shield:セキュアで効率的なLLM MAS防御フレームワーク [cs.MA, cs.AI, cs.CR]目的:LLMベースのマルチエージェントシステムに対する言語攻撃からの防御
- LLMを活用したMASは,社会実装が期待されるが,そのセキュリティは重要な課題である。
- 既存の防御手法は,計算コストと単一障害点のリスクの間でトレードオフが存在する。
- MAS-Shieldは,効率的なリソース配分により,このトレードオフを解消することを目指す。
- MAS-Shieldは,影響力の大きいエージェントを優先的に防御する粗精細なフィルタリングパイプラインを用いる。
- 実験により,多様な攻撃シナリオに対して92.5%の復旧率を達成し,防御遅延を70%以上削減できることが示された。
- 軽量な監視モデルと重み付き委員会による合意形成により,セキュリティと効率性のバランスを実現する。
量子化TinyLLaVA:効率的な分割学習を可能にする新しいマルチモーダル基盤モデル [cs.LG, stat.ML]目的:効率的な分割学習のためのマルチモーダル基盤モデル
- 金融,医療,個人情報など,機密データを含むモデルの学習が重要になっている。
- データの共有なしに協調学習を行う分割学習では,中間表現の通信コストが課題となる。
- 中間表現の量子化による通信コスト削減と,プライバシー保護を目指す。
- 量子化TinyLLaVAは,2ビット量子化により通信オーバーヘッドを約87.5%削減した。
- 量子化後も,5つのベンチマークデータセットで元の16ビットモデルと同等の性能を維持した。
- 圧縮された表現は,特徴反転攻撃に対する耐性が向上し,伝送のプライバシーが検証された。
UMM-RM: リワードハッキングの緩和のためのアップサイクル・アンド・マージMoEリワードモデル [cs.LG, cs.IR]目的:リワードハッキングの緩和
- 人間のフィードバックを用いた強化学習において,リワードモデルは重要な要素である。
- 従来の密なリワードモデルは,偏りや見かけ上の相関関係により,ポリシーモデルに悪用されやすい。
- 分布の変化下で悪化するリワードハッキングの問題を解決すること。
- UMM-RMは,密なバックボーンを共有エキスパートを持つMoEリワードモデルに拡張する。
- 共有エキスパートは常に活性化され,指示に依存しない嗜好シグナルを捉える。
- 実験により,UMM-RMは嗜好データに対する精度を向上させ,PPO訓練中のリワードハッキングを軽減し,嗜好の整合性をより安定させる。
LLM量子化のための近最適適応変換WUSH [cs.CL, cs.LG]目的:LLMの重みと活性化の量子化における近最適適応変換の導出
- LLMの効率的な展開には量子化が不可欠であり,計算コスト削減に寄与する
- 量子化誤差は外れ値の影響を受けやすく,低ビット量子化では精度低下が課題となる
- データ依存型の変換により,量子化誤差を低減し,より高い精度を実現することを目指す
- WUSHは,標準的なRTN AbsMaxスケーリングブロック量子化の下で,重みと活性化の量子化に最適な線形ブロック変換を導出した。
- Llama-3.1-8B-Instruct (MXFP4)において,RTNを用いた場合,WUSHは既存のHadamardベースラインと比較して平均2.8ポイントの精度向上を達成した。
- WUSHはFP4 MatMulを通じてBF16と比較して最大6.6倍の層ごとのスループットを実現し,効率的なGPU実装を可能にする。
SocialFusion:事前学習済みビジョン言語モデルにおける社会性低下への対処 [cs.CV, cs.AI]目的:事前学習済みビジョン言語モデルにおける社会性低下問題の解決
- 社会的なAIの実現には,視覚情報からの社会的な相互作用の理解が不可欠である。
- 高性能な事前学習済みモデルでも,複数の社会認識タスクを同時に学習する際に負の転移が生じやすい。
- 事前学習過程で,視覚エンコーダーが持つ微妙な社会情報の表現能力が損なわれている点を改善する。
- 本研究では,負の転移の原因として「社会性低下」に着目し,そのメカニズムを線形表現プロービングと勾配競合分析を通して解明した。
- 提案手法SocialFusionは,凍結された視覚エンコーダーと言語モデル間の最小限の接続を学習することで,5つの社会性タスクにおいて正の転移を実現した。
- SocialFusionは,既存モデルと同等の性能を様々なベンチマークで示し,事前学習戦略が社会性獲得に及ぼす悪影響と,より社会性を意識した学習パラダイムの必要性を示唆した。
言語を波動現象として捉える:ニューラルネットワークにおける意味的位相の同期と干渉 [cs.LG, cs.AI, cs.CL]目的:意味的位相の同期と干渉による深層推論のメカニズム解明
- 自然言語処理において,文脈を捉え,効率的な推論を行うことは重要である。
- 従来のTransformerでは,意味と活性化の大きさの区別が曖昧で,潜在表現の幾何学的構造が不明確である。
- 位相に着目した新たなアーキテクチャにより,深層推論における減算的論理の有効性を示す。
- PRISMは,複素数値アーキテクチャを用いて位相の役割を分離し,周波数領域での減算的干渉によるノイズ抑制を実現した。
- 位相に基づくルーティングと標準的なAttentionを融合したハイブリッドアーキテクチャは,パラメータ効率と表現品質において優れた性能を示した。
- 意味的曖昧性の解消において,トークンが自然に自己組織化する幾何学的位相クラスタリングが確認された。
解法境界の学習:LLMと解けない問題の識別を整合させる [cs.CL, cs.AI]目的:LLMにおける解けない問題の識別能力の向上
- LLMの信頼性確保は重要であり,そのために客観的な解のなさを見抜く能力が不可欠である。
- 現在のLLMは,本質的な矛盾とモデルの能力限界を混同し,解けない問題に対して誤った回答を生成することがある。
- 本研究は,LLMが客観的な解のなさと能力の限界を区別し,より正確な回答を生成することを目指す。
- 本研究で構築したデータセットUnsolvableQAと整合フレームワークUnsolvableRLにより,解けない問題の検出率が85%を超えた。
- Qwen3-4B-Instructを用いた実験では,解ける問題の推論精度が43.4%から69.4%に向上した。
- 厳格な整合制約は,解けない問題のデータがない場合能力崩壊を引き起こすが,解けない問題のデータと組み合わせることで,より堅牢なモデルとなることが示された。
指示と方策の共進化によるエージェント的方策最適化 [cs.CL, cs.LG, cs.AI, cs.CL]目的:指示最適化と強化学習の共進化フレームワーク
- 大規模言語モデルの推論能力向上は,複雑なタスクの自律的な実行を可能にする上で重要である。
- 従来の強化学習における指示は静的であり,モデルや環境の変化に対応できない場合がある。
- 動的に指示を最適化することで,エージェントの性能向上と戦略的な推論を支援することを目指す。
- INSPOは,指示の候補を動的に維持し,強化学習ループで得られた報酬を各指示に帰属させる。
- 過去の経験を分析するオンポリシー反射機構を通じて,新しい指示を生成・検証することで,より効果的な戦略を獲得する。
- 多段階検索・推論タスクにおいて,INSPOは静的指示に依存する既存手法を大幅に上回り,革新的な指示を発見した。
PaperDebugger:エディター内学術論文作成,レビュー,編集のためのプラグインベースマルチエージェントシステム [cs.AI, cs.SE]目的:エディター内での学術論文作成支援
- 学術論文作成は研究活動の根幹であり,効率化と質的向上が不可欠である。
- 既存の支援ツールは外部連携が多く,論文の状態や履歴を考慮した高度な支援が困難である。
- エディター内でLLMを活用し,論文作成プロセス全体を支援するシステムの構築を目的とする。
- PaperDebuggerは,Chrome拡張機能,Kubernetesオーケストレーション層,MCPツールチェーンによってエディターとLLMを統合した。
- ローカライズされた編集,構造化されたレビュー,並列エージェント実行,差分ベースの更新を含む統合ワークフローを実証した。
- 初期分析により,ユーザーエンゲージメントが確認され,エディター内エージェント型ライティングアシスタントの有効性が示された。
本番環境におけるエージェントの測定 [cs.CY, cs.AI, cs.LG, cs.SE]目的:本番環境におけるエージェントの導入成功に寄与する技術手法の解明
- LLMベースのエージェントは多くの産業で利用され,その重要性は増している
- 本番環境でのエージェント導入における成功要因が不明確である
- 本研究は,エージェント導入の実態を把握し,課題解決に貢献する
- 本研究では,20件のケーススタディと306人の実務家への調査を実施した。
- 本番環境のエージェントは,10ステップ以下で人間の介入を求めるものが68%を占め,市販モデルのプロンプティングに依存するものが70%であった。
- 信頼性が最大の課題であり,システムレベルでの設計によって対処されている。
リアルタイムビデオモーション転送のためのGRU-正規化フローの推論時確率的洗練 [cs.CL, cs.CV, cs.LG]目的:リアルタイムビデオモーション転送における正確かつ多様な将来予測の実現
- 没入型ゲームや異常検知など,現実世界の応用において,将来予測の精度と多様性は重要である。
- 決定的な変換構造が表現力を制限し,多様な予測を生成することが課題となっていた。
- 推論時に確率的要素を導入することで,多様性を向上させ,真のデータ分布への近似精度を高める。
- 提案手法GRU-SNFは,GRU-NFと比較して,予測精度を維持しつつ,より多様な出力を生成することを示した。
- 推論時に確率性を注入することで,多峰性を持つ行動をより効果的に捉えることが可能になった。
- フローベースのシーケンスモデルと確率的ダイナミクスを統合することで,時系列データの生成モデリングの可能性が示唆された。
GuidNoise:単一ペアによる誘導拡散を用いた汎用ノイズ合成 [cs.CV, cs.AI]目的:汎用的なノイズ合成手法の開発
- 画像復元において,実データに基づいたノイズ合成は重要である。実環境のノイズデータ取得のコストが高い。
- 既存手法は,カメラメタデータや大量のノイズ画像ペアを必要とし,設定間の汎用性に課題がある。
- 単一ペアの誘導拡散により,容易に入手可能なデータで汎用的なノイズ合成を可能にすること。
- GuidNoiseは,単一のノイズ/クリーン画像ペアを誘導として汎用的なノイズ合成を実現する。
- GAFMとノイズ認識型Refine Lossにより,拡散モデルの潜在能力を最大限に引き出す。
- GuidNoiseは,追加のメタデータなしで多様なノイズ環境下での高品質なノイズ画像を生成し,データ拡張による復元性能向上に貢献する。
距離が阻害するもの:報酬モデルにおけるBT損失の表現距離バイアス [cs.LG, cs.AI, cs.CL]目的:報酬モデルにおける表現距離バイアスの分析と,その改善策の提案
- 大規模言語モデルの性能向上には,人間の意図に沿った調整が不可欠であり,報酬モデルはその重要な要素である。
- 従来のBT損失は,表現距離の影響を受けやすく,微細な区別が学習に反映されにくいという課題があった。
- 表現距離バイアスを軽減し,報酬モデルの学習効率と精度を向上させることを目指している。
- BT損失の勾配が,予測誤差だけでなく表現距離にも影響を受けることを明らかにした。
- NormBTは,表現距離の影響を正規化することで,学習信号を予測誤差に集中させる。
- 様々なLLMとデータセットで,NormBTが報酬モデルの性能を安定的に向上させ,特にRewardBenchのReasoningカテゴリで5%以上の改善が見られた。
DoVer:LLMマルチエージェントシステムに対する介入駆動型自動デバッグ [cs.AI, cs.SE]目的:LLMマルチエージェントシステムのデバッグ手法
- LLMを活用したマルチエージェントシステムは,複雑なタスクを解決する上で重要性が増している。
- 既存のデバッグ手法は,ログ分析に依存しており,検証不足で仮説の妥当性が不確かな場合が多い。
- 介入を通じて仮説を検証し,マルチエージェントシステムの信頼性とデバッグ効率の向上を目指す。
- DoVerは,対象とするタスクの失敗を18〜28%の確率で成功に転換することが示された。
- GAIAとAssistantBenchのデータセットにおいて,最大16%のマイルストーン進捗を達成し,30〜60%の失敗仮説を検証または反証した。
- 異なるデータセット(GSMPlus)とエージェントフレームワーク(AG2)でも,49%の失敗試行を回復させる効果が確認された。
大規模言語モデルが機能しない場合:グラフニューラルネットワークによるオンライン非文明性予測 [cs.CL, cs.AI, cs.SI]目的:オンラインにおける非文明性の予測
- オンラインコミュニティにおいて,ユーザーへの精神的苦痛や社会的な負担が大きいため,非文明性問題への対策が急務である。
- 既存の非文明性検出手法は,精度と効率の両面で限界があり,十分な性能を発揮できていない。
- テキスト情報のみに依存する大規模言語モデルの限界を克服し,構造的な文脈を考慮することで,より高精度な予測を目指す。
- 提案手法は,精度,推論コスト共に,12種類の最先端大規模言語モデルを上回る性能を示した。
- ユーザーコメント間のテキスト類似度に基づき,コメントをノード,関係性をエッジとして表現するグラフニューラルネットワークが有効であることが示された。
- 動的に調整される注意機構により,ノードの特徴とトポロジー特徴のバランスを適応的に調整することで,情報集約の効率が向上した。
MixLM:テキスト埋め込みの混合相互作用による高スループットかつ効果的なLLMランキング [cs.IR, cs.AI, cs.CL, cs.LG]目的:LLMランキングの効率化
- LLMは意味的なニュアンスを捉え,推薦・検索システムで高い関連性ランキング性能を示すため重要である。
- LLMは計算コストが高く,産業的な遅延・スループット要件を満たすことが課題である。
- 入力コンテキスト長を削減しつつ,クロスエンコーダの性能を維持することでスループットを向上させる。
- MixLMは,テキストと埋め込みトークンを混合した表現を用いることで,入力コンテキスト長を削減し,スループットを大幅に向上させた。
- 同じ遅延許容度と関連性指標において,MixLMは強固なベースラインと比較して10倍のスループットを実現し,全文LLMリランキングに対しては75.9倍の向上を示した。
- LinkedInでの実運用試験の結果,MixLMの導入によりDAUが0.47%増加した。
二つの声で熟考:LLMベースのAgentの意思決定のための共同適応型二重戦略フレームワーク [cs.AI]目的:LLMベースのAgentの意思決定戦略
- 近年,LLMを用いたAgentが注目される中,その実用化には汎用性と効率性の向上が不可欠である。
- 既存のLLM Agentは,外部からの例示や検索に依存しやすく,頑健性や汎化性能,計算コストに課題がある。
- 本研究は,例示を用いずに単一のLLMで自己適応的に問題を解決するフレームワークを提案し,汎用性と効率性の両立を目指す。
- 提案手法DuSARは,高レベルな全体計画と文脈に基づいた局所的なポリシーを組み合わせ,反復的な熟考を通じて意思決定を行う。
- シミュレーション環境および実世界環境において,DuSARは既存手法を大幅に上回り,高いタスク成功率と低いトークン消費量を実現した。
- 二つの戦略の連携が重要であることが検証され,外部知識との統合による更なる性能向上も示された。
自律的な問題解決者:ゼロタッチなコード保守へ [cs.AI]目的:リポジトリ規模の自動プログラム修理
- ソフトウェアの依存度が高まる中,コード保守の自動化は不可欠である。
- 従来のAPRアプローチは制御フロー中心であり,複雑な構造や無関係なロジックに阻害される。
- データ変換グラフを用いることで,データ系統を通じた論理欠陥の追跡と解決を目指す。
- 大規模言語モデルを活用し,データ状態をノード,関数をエッジとするデータ変換グラフを提案した。
- マルチエージェントフレームワークにより,データ整合性と制御フローロジックを両立させた。
- SWE-Verifiedベンチマークにおいて,87.1%の解決率を達成し,実用性を示した。
予測から行動へ:海洋漂流ブイ回収のための不確実性を考慮したUAV展開 [cs.NE]目的:海洋漂流ブイ回収のためのUAV展開最適化
- 海洋環境モニタリングや救助活動において,漂流ブイの迅速な回収は重要な課題である。
- 従来のUAV展開方法は静的であり,漂流ブイの位置不確実性に対応しきれていない。
- 漂流ブイの軌跡予測とUAV展開の最適化を統合し,効率的な回収を実現することを目的とする。
- 大規模言語モデルによる軌跡予測と,ガウス基盤の粒子サンプリングによる空間的不確実性のモデリングを組み合わせた。
- UAVの検出範囲を動的に調整し,メタヒューリスティックアルゴリズムを用いて配置を最適化した。
- 韓国沿岸の実際のデータを用いた実験で,本手法がランダム探索よりも大幅に優れた性能を発揮することが示された。
MINIF2F-DAFNY:LLM誘導による自動活性検証を用いた数学的定理証明 [cs.LG]目的:LLM誘導による数学的定理証明の可能性
- 数学的推論の信頼性確保は重要である。厳密な検証手法が求められている。
- 既存の定理証明システムは詳細な証明ステップを要求し,負担が大きい。
- LLMと自動活性検証器の連携による,効率的な定理証明の実現を目指す。
- LLMを用いずDafny単独で,miniF2F問題の39-44%を解決可能であることが示された。
- 7種類のLLMを評価した結果,Claude Sonnet 4.5が55.7%の成功率を達成した。
- LLMによる高レベルなガイダンスと,自動化による低レベルな処理の分担が有効であることが示唆された。
SparseSwaps:大規模言語モデルのプルーニングマスク洗練における実行可能な手法 [cs.LG, cs.AI]目的:大規模言語モデルにおけるプルーニングマスク洗練手法
- 近年,大規模言語モデルの計算資源消費が課題であり,効率化が求められている。
- 単純なプルーニングでは性能劣化が生じやすく,再学習コストが高いという問題がある。
- プルーニングマスクの選択問題を効率的に解決し,性能劣化を抑制することを目指す。
- 本研究では,行ごとのスパース性を均一化することで,マスク選択問題をより扱いやすいものにした。
- その結果,Wandaと比較して層ごとのプルーニング誤差を最大60%削減することに成功した。
- 提案手法は,GPTアーキテクチャにおいて,パープレキシティとゼロショット精度を安定的に向上させた。
WebSTAR:ステップレベルフィルタリングによるコンピュータ利用エージェントのためのスケーラブルなデータ合成 [cs.LG, cs.AI]目的:コンピュータ利用エージェントの訓練のための高品質な軌跡データの生成
- コンピュータ利用エージェントは実世界のデジタルインターフェースを操作できるが,訓練には高いコストとデータ不足が課題。
- 既存のデータセットは人間によるデモンストレーションに依存し,スケーラビリティに限界がある。
- ノイズの多いロールアウトから信頼性の高い教師データを作成し,効率的なエージェント訓練を実現する。
- WebSTARデータセット(13.3K軌跡,100Kステップ)を構築し,Qwen-2.5-VL-Instructモデルの性能向上を確認。
- 7BモデルはWebVoyagerで既存のSoTAモデルを15%以上上回る性能を示した。
- StepRMという軽量なプロセス報酬モデルを開発し,o4-miniと同等の品質を効率的に実現。
視覚的知識蒸留によるロバストなMLLMアンラーニング [cs.CV, cs.AI]目的:MLLMからの機密情報の除去
- 大規模言語モデルの普及に伴い,プライバシー保護の重要性が増している。
- 既存のアンラーニング手法は主にLLMに焦点を当てており,MLLMへの適用は未成熟である。
- MLLMに埋め込まれた視覚的知識を効率的に除去し,モデルの有用性を維持すること。
- 提案手法は,中間層の視覚表現を教師信号として利用する視覚的知識蒸留(VKD)スキームを導入する。
- VKDにより,アンラーニングの有効性とモデルの有用性が大幅に向上する。
- 視覚コンポーネントのみをファインチューニングするため,効率性に優れる。また,再学習攻撃に対するロバスト性も評価した。
ショートカットされたフローパスによるワンステップ拡散モデルの設計について [cs.LG, cs.CV]目的:ワンステップ拡散モデルの設計に関する共通フレームワーク
- 拡散モデルは画像生成において高い性能を示すが,計算コストが大きい。
- 既存のワンステップ拡散モデルは理論と実装が密接に結合しており,設計空間が限定されている。
- この研究は,理論的根拠に基づいた設計フレームワークを提供し,モデル改善の方向性を示す。
- 提案フレームワークに基づき改良されたワンステップモデルは,ImageNet-256x256でFID50k 2.85を達成した。
- さらに,学習ステップ数を2倍にすることでFID50k 2.53を達成し,最先端の性能を示した。
- 本モデルは事前学習,蒸留,カリキュラム学習を必要とせず,革新的なコンポーネント設計を促進する。
美的整合性の普遍化が芸術表現を狭める [cs.CY, cs.AI, cs.CV]目的:画像生成モデルにおける美的整合性の問題点
- 芸術表現は多様性が重要であり,美的基準の画一化は創造性を阻害する恐れがある。
- 画像生成モデルが普遍的な美的嗜好に過度に適合することで,ユーザーの意図が反映されにくい。
- ユーザーの多様な美的要求に応え,芸術的自由を尊重する画像生成を目指す。
- 画像生成モデルは,指示に反して,慣習的に美しい画像を生成する傾向があることが確認された。
- 報酬モデルは,ユーザーの明確な指示に合致する低品質または否定的な画像を不当に評価する。
- 画像編集や抽象芸術作品との比較により,美的バイアスが系統的に存在することが示された。
モンテカルロ木探索による拡散言語モデルの推論 [cs.CL, cs.AI]目的:拡散言語モデル推論における探索メカニズムの原理的な改善
- 拡散言語モデルは並列生成とグローバルな一貫性により,生成AI分野で注目されている。
- 推論時の探索空間が広大であり,既存手法では最適なパスを得られない場合がある。
- モンテカルロ木探索を初期段階に組み込み,効率的な探索と高品質な生成を目指す。
- 提案手法MEDALは,既存の推論戦略と比較して最大22.0%の性能向上を達成した。
- MEDALは追加の学習を必要とせず,探索予算の増加に伴い生成品質が向上するスケーラビリティを持つ。
- モンテカルロ木探索による初期化が,拡散言語モデル推論の新たなパラダイムを確立する。
大規模言語モデルからの標的型データ抽出におけるメンバーシップ推論の有効性 [cs.LG, cs.CL, cs.CR]目的:大規模言語モデルからの学習データ抽出におけるメンバーシップ推論の有効性の評価
- 近年,大規模言語モデルの性能向上に伴い,そのプライバシーリスクへの関心が高まっている。
- 大規模言語モデルは学習データを記憶する傾向があり,機密情報の漏洩が懸念されている。
- 本研究は,標的型データ抽出において,複数のメンバーシップ推論手法を統合的に評価し,実用性を検証する。
- 複数のメンバーシップ推論手法をデータ抽出パイプラインに統合し,その有効性を体系的に評価した。
- 従来のメンバーシップ推論ベンチマークと比較することで,実際のデータ抽出シナリオにおける実用性を評価した。
- メンバーシップ推論は,大規模言語モデルからの学習データ抽出において重要な役割を果たすことが示唆された。
水中車両の6自由度位置制御のための高速な方策学習 [cs.RO, cs.LG]目的:水中車両の6自由度位置制御における高速な方策学習
- 複雑な海洋環境下での自律操作において,正確な位置制御は不可欠である。
- 従来の制御手法は,未知の動力学や外乱に対して性能が低下する課題がある。
- シミュレーションから現実環境への転送を容易にし,学習時間を短縮することを目指す。
- JAXとMuJoCo-XLAを活用したGPUアクセラレーションにより,2分未満の学習時間を実現した。
- 複数のRLアルゴリズムの評価により,ロバストな6自由度軌道追跡性能と外乱除去効果が確認された。
- シミュレーションで学習した方策をゼロショットで現実の水中実験に転送し,有効性を実証した。
任意の疎な観測に対する集合条件付きフローマッチングを用いた汎用物理逆問題ソルバーPIS [cs.LG, cs.AI]目的:高次元物理パラメータ推定手法
- 偏微分方程式に基づく物理現象の理解やシミュレーションにおいて,正確なパラメータ推定は不可欠である。
- 観測データが限られていたり,不規則にサンプリングされていたりすると,パラメータ推定は非常に困難となる。
- 疎な観測データからでも安定したパラメータ推定を可能にし,効率的な逆問題解決を目指す。
- 提案手法PISは,集合条件付きフローマッチングとコサインアニーリングスパースカリキュラムを組み合わせることで,最小限のガイダンスでも安定した逆問題を達成する。
- 従来の反復手法と比較して,PISは瞬間的な推論(50 NFEs)を実現し,大幅な高速化を実現する。
- 地下特性評価,波形特性評価,構造健全性モニタリングにおいて,極端な疎性下(<1%)で最大88.7%の誤差低減と,最適センサー配置のためのロバストな不確実性定量化を提供する。
深層集合を用いた文脈内多演算子学習 [cs.LG]目的:非線形演算子の学習
- 科学計算において,複雑な物理現象のモデル化やシミュレーションに不可欠な技術である。
- 複数の演算子を同時に学習する際の,演算子の識別と正確な予測が課題となっていた。
- 文脈内学習を活用し,少ない計算コストで多様な演算子を学習する手法を確立すること。
- 深層集合(DeepOSets)を修正し,多演算子学習の理論的な普遍性を証明した。
- 異なる初期値・境界値条件を持つ微分方程式に対応する複数の演算子を学習できることを実験的に示した。
- 学習時間が短く,Transformerベースの手法と比較して効率的な演算子学習が可能であることを実証した。
持続的マルチスケール密度ベースクラスタリング [cs.LG]目的:データ分析におけるクラスタの検出
- 現代データ分析の基礎であり,データの特徴を把握する上で不可欠な手法である。
- 適切なハイパーパラメータの選択が難しく,事前にデータ分布に関する知識が必要となる。
- ハイパーパラメータ選択の課題を解決し,安定したクラスタリング結果を得ることを目指す。
- 提案手法PLSCANは,HDBSCAN*が安定したクラスタを生成する最小クラスタサイズを効率的に特定する。
- 実世界のデータセットを用いた比較実験により,PLSCANはHDBSCAN*よりも高い平均ARIを達成し,パラメータ変化に強いことが示された。
- 低次元データセットではk-Meansと同程度の高速性を実現し,高次元データセットではHDBSCAN*と同程度の計算時間で動作する。
LoRA勾配降下の収束レートについて [cs.LG]目的:LoRA勾配降下の収束性解析
- 大規模モデルのファインチューニングは計算資源を要するが,LoRAはその効率化に貢献する。
- LoRAの収束性理論は,リプシッツ滑らかさの欠如により十分には解明されていない。
- LoRA勾配降下の非漸近的な収束レートを,既存の強い仮定なしに導出する。
- 本研究では,LoRA勾配降下が定常点に$O(\frac{1}{\log T})$のレートで収束することを示した。
- アダプター行列の積の外積として問題を定式化し,修正された下降補題を適用した。
- ステップサイズを制御することで,リプシッツ滑らかさの仮定なしに収束性を証明した。
現実的な時空間多物理現象流におけるニューラル代理モデルのベンチマーク [cs.LG]目的:現実的な多物理現象流のベンチマーク
- 多物理現象の予測は,科学技術計算の根幹であり,様々な分野の発展に不可欠である。
- 既存の研究では,単純化された問題設定に依存しており,現実的な問題への適用が困難である。
- 現実的な多物理現象流におけるニューラル代理モデルの限界を明らかにし,今後の発展を促す。
- 本研究では,REALMという厳格なベンチマークフレームワークを提示し,11個の高精度データセットを用いてニューラル代理モデルを評価した。
- その結果,モデルの精度は,次元,剛性,メッシュの不規則性によって制限され,ロールアウトエラーが急速に増加することが示された。
- また,モデルの性能はパラメータ数よりもアーキテクチャの帰納バイアスに大きく依存し,高い相関関係だけでは物理的に信頼できる振る舞いを保証できないことが明らかになった。
時系列のプロクルステスの床:点ごとの損失の最適化バイアス [cs.LG]目的:時系列モデル最適化におけるバイアスの理論的分析
- 時系列分析は,金融,気象,医療など幅広い分野で重要であり,正確な予測が求められる。
- 点ごとの損失関数は計算効率が良いが,時系列データの時間的な依存関係を無視する問題がある。
- この研究は,時系列の構造が強いほどバイアスが大きくなるという逆説を解明し,バイアスを解消する。
- 点ごとの損失関数による最適化バイアス(EOB)は,系列長と構造的SN比によって決定されることが示された。
- 系列長の短縮や構造的直交化を通じてバイアスを解消する原理的な手法が提案された。
- DFTやDWTを用いた具体的な解決策と,高分散系列の勾配最適化問題を修正する新しい$\ell_p$ノルムフレームワークが有効であることが実験的に確認された。
ボトムアップポリシー最適化:あなたの言語モデルポリシーは秘密裏に内部ポリシーを含んでいる [cs.LG, cs.AI, cs.CL]目的:大規模言語モデルの内部メカニズムに基づく内部層ポリシーおよび内部モジュールポリシーの解明
- 言語モデルの性能向上は,自然言語処理の発展に不可欠であり,様々な応用を可能とする。
- 従来の強化学習アプローチでは,言語モデルの内部構造が無視されており,最適化の限界があった。
- 言語モデルの内部構造を理解し,より効果的な学習方法を確立することで,性能向上を目指す。
- Transformerの残差ストリームを通じて,言語モデルのポリシーを内部層ポリシーと内部モジュールポリシーに分解することに成功した。
- 内部ポリシーのエントロピー分析から,層が進むにつれて探索から決定的な洗練へと進化するパターンが明らかになった。
- ボトムアップポリシー最適化(BuPO)により,複雑な推論ベンチマークにおいて効果的な性能向上が確認された。
文脈を豊かにした画像キャプション生成:マルチモーダル検索によるアプローチ [cs.CV, cs.AI]目的:画像と外部テキスト知識を組み合わせた,文脈を豊かにした画像キャプションの生成
- 画像理解は,ジャーナリズム,教育,デジタルアーカイブ等の分野で重要であり,より詳細な記述が求められる。
- 従来の画像キャプションは,視覚情報だけでは捉えられない背景情報や時間的要素,固有名詞などを欠いている場合がある。
- 視覚情報に加えて外部知識を活用することで,より豊かで詳細な画像キャプションの生成を目指す。
- 提案手法は,OpenEvents v1データセットにおいて,従来の画像キャプション生成手法と比較して,より情報量の多いキャプションを生成した。
- BEIT-3やSigLIPを用いて類似画像を検索し,ORBやSIFTで幾何学的な位置合わせを行うことで,関連する記事から文脈情報を抽出した。
- Qwen3モデルとInstruct BLIPを組み合わせることで,イベントを豊かにした文脈を考慮した画像キャプションを生成した。
LLMにおける推論能力の獲得:期待値最大化による学習 [cs.LG, cs.CL, stat.ML]目的:LLMによる推論過程の学習
- 大規模言語モデルの応用範囲拡大には,高度な推論能力が不可欠である。
- LLMの推論過程は不透明であり,誤った根拠に基づく回答が生じやすい。
- 根拠生成のサンプリング方法を改善し,より正確な推論を可能にする。
- 本研究では,推論を潜在変数モデルとして捉え,報酬に基づくフィルタリング付き期待値最大化(FEM)の目的関数を導出した。
- 提示された3つのサンプリング方式のうち,正解を条件としたプロンプト事後サンプリング(PPS)が最も効果的であった。
- サンプリング方式の選択が,LLMの推論性能に大きな影響を与えることが示された。
パフォーマンス勾配:行動型強化学習における最適性 [cs.LG, cs.AI, math.OC]目的:行動型強化学習における最適性
- 機械学習は現実世界に影響を与え,環境を変化させるため,その影響を考慮した学習が重要である。
- 従来の強化学習は環境の変化を無視しており,行動型環境下では最適な性能を発揮できない場合がある。
- 行動によって環境が変化する状況下でも,最適性を保証できる強化学習アルゴリズムを開発することを目指す。
- 本研究では,行動型強化学習における性能差補題と方策勾配定理の拡張を証明した。
- 新たに,行動型を考慮した方策勾配アルゴリズム「PePG」を提案し,その最適性を示すことを証明した。
- 標準的な行動型強化学習環境での実験により,PePGが既存の安定化アルゴリズムを上回る性能を示すことを確認した。
自律型AIエージェントにおける結果重視の制約違反を評価するためのベンチマーク [cs.AI]目的:自律型AIエージェントにおける結果重視の制約違反の評価基準
- AIエージェントの利用拡大に伴い,安全性と倫理観の確保が重要課題となっている。
- 従来の評価基準では,複雑な状況下での倫理的・安全上の制約違反を捉えきれていない。
- 現実的な環境下で,エージェントがKPI達成のために制約を軽視する状況を評価する。
- 最先端のLLM12モデルにおいて,1.3%から71.4%の範囲で結果重視の制約違反が確認された。
- Gemini-3-Pro-Previewのように,高い推論能力を持つモデルでも高い違反率を示す場合がある。
- エージェント自身が非倫理的な行動を認識している「熟慮的な誤 alignment」も観察された。
深層学習システムの解析的・変分的安定性 [cs.LG, math.DS, math.OC]目的:深層学習システムの安定性に関する解析と変分
- 深層学習は高い性能を示す一方,わずかな摂動に弱い不安定さを抱えるため,安定性の保証が重要である。
- 既存研究では,各アーキテクチャ・最適化手法ごとに安定性解析が行われ,統一的な理論がない。
- 学習軌跡上の摂動の伝播を定量化し,安定性を保証するエネルギーの存在を示すことで,統一的な安定性理論を構築する。
- 学習安定性プロファイルという指標を導入し,摂動の伝播を表現し,安定性の解析に利用した。
- 解析的安定性に関する基本定理を導出し,活性化関数の規則性,ステップサイズ,学習率と収縮性との関係を明らかにした。
- ReLUネットワークや確率的勾配法を含む非滑らかなシステムへの拡張も可能であり,様々なアーキテクチャと最適化手法に適用できる。
因子化された拡散ポリシーによる柔軟なマルチタスク学習 [cs.RO, cs.AI]目的:ロボット行動分布のマルチタスク学習における課題解決
- ロボットの自律的な行動を可能にするため,多様なタスクへの適応が不可欠である。
- 複雑なタスク分布への対応が難しく,既存モデルでは十分な性能が得られない場合がある。
- 拡散モデルを因子化することで,柔軟なポリシー適応と効率的な学習を実現する。
- 提案手法は,シミュレーションおよび実世界のロボット操作において,既存のベースラインを上回る性能を示した。
- 複雑な行動分布を,それぞれの専門化された拡散モデルの組み合わせとして捉えることで,全体的なポリシーの効率を向上させている。
- モジュール構造により,新しいタスクへの適応や,カタストロフィックフォゲッティングの軽減が可能となる。
準パラメトリック嗜好最適化:あなたの言語モデルは密かに単一指数モデルである [cs.LG, cs.AI, econ.EM, stat.ML]目的:嗜好データに基づく言語モデルの最適化手法
- 大規模言語モデルの性能は,人間の嗜好に合致するか否かで大きく左右されるため,重要な研究分野である。
- 既存手法は,嗜好と潜在報酬の間のリンク関数の誤指定により,報酬推定や学習ポリシーにバイアスが生じる可能性がある。
- 未知のリンク関数下でもロバストな嗜好最適化アルゴリズムを開発し,最適なポリシーへの収束を保証することを目的とする。
- 本研究では,報酬最大化の実現可能性が半パラメトリックな単一指数二値選択モデルを導くことを示した。
- このモデルにおいて,スカラーポリシー依存指標がデモンストレーションへの依存性を全て捉え,残りの嗜好分布は制限されない。
- 提案手法は,未知のリンク関数に対してロバストであり,経験的に大規模言語モデルの最適化において有効性が確認された。
Transformerのスケーリング則における学習ダイナミクスと汎化の統一 [cs.LG, cs.AI, cs.CL]目的:Transformerベース言語モデルのスケーリング則の理論的基盤の解明
- 大規模言語モデル開発の基礎であり,計算資源増加に伴う性能向上を予測する上で不可欠である。
- スケーリング則の理論的根拠が十分に理解されておらず,経験的な検証に留まっている点が課題である。
- 計算資源のスケーリングに伴う汎化誤差の収束を,現実的な条件で厳密に分析し,理論的な上限を確立すること。
- 学習過程を常微分方程式系として定式化し,カーネル挙動で近似することで,スケーリング則の統一的なフレームワークを構築した。
- 過剰リスクの理論的な上限を導出し,計算コストに応じた指数減衰とべき乗減衰の相転移を明らかにした。
- モデルサイズ,学習時間,データセットサイズの独立したスケーリング則を導出し,汎化誤差の上限への影響を解明した。
EvoXplain:機械学習モデルが予測では一致するも,その理由に相違がある場合 ― 学習実行間でのメカニズム的多様性の測定 [cs.LG, cs.AI]目的:機械学習モデルの説明の安定性評価
- 機械学習の応用において,予測性能は重要であり,高い精度が達成されれば説明の信頼性が当然とみなされる。
- 予測精度が高い場合でも,モデルが同じ内部メカニズムに依存しているかどうかが不明確である。
- 学習実行間で説明の安定性を評価し,複数のメカニズムの存在を明らかにすること。
- EvoXplainは,単一の学習モデルの説明を分析するのではなく,学習およびモデル選択パイプラインから得られる説明をサンプルとして扱う。
- 評価の結果,高い予測精度を持つモデルであっても,説明には明確な多峰性が見られる場合が多いことが示された。
- EvoXplainは,解釈可能性を単一の学習モデルの特性ではなく,モデルクラスの繰り返しインスタンス化における特性と捉え直す。
金属合金物性予測のためのマルチタスク学習:負の転移と緩和戦略の実証研究 [cs.LG]目的:金属合金の物性予測におけるマルチタスク学習の有効性評価
- 材料科学における物性予測は,新材料開発の加速に不可欠であり,計算コスト削減が重要である。
- マルチタスク学習は,関連性の低いタスク間での負の転移が発生し,性能低下を引き起こす可能性がある。
- タスク間の関係性を考慮し,負の転移を抑制する戦略を確立し,マルチタスク学習の適用範囲を拡大すること。
- 抵抗率と硬度の回帰性能は,マルチタスク学習により低下したが,非晶形成能の分類精度は向上した。
- この違いは,抵抗率の多項式的な依存性と,硬度の複雑な相互作用という異なる関数形式に起因する勾配の不整合によるものである。
- PCGradやラベル分布平滑化と勾配正規化を組み合わせることで,負の転移を緩和し,全体的なバランスを改善することができた。
