arXiv雑要約
AI - 2026/03/13 公開
敵対的摂動に対するロバストな強化学習:分数目的関数を用いた安定なミニマックス深層決定論的方策勾配 [cs.LG, cs.AI]目的:外乱に対する耐性を持つ方策の学習
- 制御・意思決定分野において強化学習は目覚ましい成果を上げている。
- 予期せぬ外乱やモデルの不確実性下では,強化学習エージェントの性能が不安定になりやすい。
- 外乱の影響を受けにくいロバストな方策を学習することで,信頼性の高い性能を実現する。
- 提案手法であるMMDDPGは,連続制御タスクにおいて外乱に強い方策を学習するための枠組みである。
- 分数目的関数を導入することで,タスク性能と外乱の大きさをバランスさせ,安定した学習を促進する。
- MuJoCo環境での実験により,MMDDPGが外力摂動とモデルパラメータの変化に対して高いロバスト性を持つことが示された。
SommBench:言語モデルのソムリエ専門知識の評価 [cs.DB, cs.CL, cs.AI]目的:言語モデルのソムリエ専門知識の評価
- 大規模言語モデルの進化に伴い,多言語・多文化能力の体系的な評価が不可欠となっている。
- 既存の文化評価ベンチマークは,言語形式で符号化可能な基本的な文化知識に重点が置かれている。
- 嗅覚と味覚に深く根ざした専門分野であるソムリエの知識を評価することで,言語モデルの能力限界を探る。
- SommBenchは,ワイン理論の質問応答,ワインの特徴補完,料理とワインのペアリングという3つの主要なタスクで構成されている。
- SommBenchは,英語,スロバキア語,スウェーデン語,フィンランド語,ドイツ語,デンマーク語,イタリア語,スペイン語など,複数の言語で利用可能である。
- 最も高性能なモデルはワイン理論の質問応答では高い精度を示す一方で,特徴補完や料理とワインのペアリングは課題が残る。
Cornserve:あらゆる入出力形式に対応するマルチモーダルモデルの分散サービングシステム [cs.LG, cs.DC]目的:あらゆる入出力形式に対応するマルチモーダルモデルのサービング
- 近年のAI研究では,テキスト,画像,動画など多様なデータを扱うマルチモーダルモデルが重要になっている。
- マルチモーダルモデルのサービングは,入力と出力の形式が多様であるため,効率的な処理が困難である。
- Cornserveは,マルチモーダルモデルの計算グラフを柔軟に表現し,分散処理とスケーリングを可能にすることで,この問題を解決する。
- Cornserveは,Kubernetes上で動作し,約23,000行のPythonコードで実装されている。
- 多様なマルチモーダルモデルに対応し,スループットを最大3.81倍,テールレイテンシーを5.79倍改善する。
- Cornserveはオープンソースであり,デモ動画がYouTubeで公開されている。
CRAFT:腱駆動式ハイブリッドハード・ソフトコンプライアンスを持つ手 [cs.RO, cs.AI, cs.CV]目的:接触操作のためのハイブリッドハード・ソフトコンプライアンスを備えた腱駆動式人型ロボット手
- ロボットハンドは,人間のような器用さを実現する上で重要な要素である。
- 既存のロボットハンドは,強度と柔軟性の両立が難しいという課題がある。
- 本研究では,関節部分に柔軟な素材を使用することで,強度と柔軟性のバランスを改善する。
- CRAFTは,従来の設計と比較して強度と耐久性を向上させつつ,再現性を維持している。
- 遠隔操作実験では,CRAFTは壊れやすい物品や摩擦の低い物品の取り扱い性能が向上した。
- CRAFTは,Feix分類における33/33の把持を可能にし,幅広い用途に対応できることが示された。
Hoi3DGen:3Dにおける高品質な人間と物体のインタラクション生成 [cs.CL, cs.CV, cs.LG]目的:3Dにおける人間と物体のインタラクションの生成
- AR,XR,ゲーム等の応用において,3Dでの人間と物体のインタラクションのモデリングと生成は不可欠である。
- 既存手法はテキスト-画像モデルからのスコア蒸留に依存するが,高品質なインタラクションデータが不足し,指示通りにならない。
- 入力されたインタラクション記述に忠実な,高品質な3Dインタラクション生成を目指す。
- 本研究では,マルチモーダル大規模言語モデルを活用し,現実的かつ高品質なインタラクションデータを構築した。
- その結果,テキストと3Dモデルの一貫性が既存手法を4〜15倍,3Dモデルの品質が3〜7倍上回る性能を達成した。
- 多様なカテゴリやインタラクションタイプへの汎化性能も高く,高品質な3D生成を維持している。
AIエージェントの知能向上は集団的成果を悪化させることがある [cs.AI, cs.CY, cs.SI, econ.GN, physics.soc-ph, q-fin.EC]目的:AIエージェント集団における集団行動とそのリスク
- AIが社会に浸透し,限られた資源を巡る競争が激化している。
- AIエージェント間の相互作用や集団行動に関する理解が不足している。
- 資源の制約下におけるAIエージェント集団の集団行動を解明する。
- 資源が不足する場合,AIモデルの多様性と強化学習はシステム過負荷を増大させる。
- 部族形成は過負荷のリスクを軽減する可能性がある。
- AIの高度化が有益か有害かは,容量と人口の比率によって決まる。
TopoBench:難易度の高いトポロジー推論におけるLLMのベンチマーク [cs.AI, cs.CL]目的:LLMにおける困難なトポロジー推論能力の評価
- 空間認識は,ロボティクスやゲームAIなど,多くの分野で重要な役割を果たす。
- 既存のLLMは,トポロジー的な空間不変量に関する推論が苦手である。
- LLMのトポロジー推論におけるボトルネックを特定し,改善策を探る。
- TopoBenchを用いて評価した結果,最先端のLLMでも難しい問題の4分の1以下しか解けないことが分かった。
- エラー分類と介入実験により,早期確定や制約の忘却が解けない原因であることが示された。
- 制約抽出がボトルネックであり,推論自体は比較的容易であることが明らかになった。
高性能強化学習環境の自動生成 [cs.LG, cs.AI, cs.SE]目的:高性能強化学習環境の自動生成手法
- 強化学習の発展には,効率的な環境構築が不可欠である。学習速度や性能に大きく影響する。
- 従来の環境実装には専門的な知識と時間がかかり,開発のボトルネックとなっていた。
- 少ない計算コストで,高性能な強化学習環境を自動的に生成することを目指す。
- 提案手法により,わずか10ドル以下の計算コストで,意味的に等価な高性能環境を生成できることを示した。
- EmuRustやPokeJAXといった環境において,既存実装と比較して大幅な高速化を実現した。
- 生成された環境は,シミュレーションとシミュレーション間のギャップがゼロであり,再現性も確認された。
軌道誘導による少数ステップ制御ビデオ生成:FlashMotion [cs.CV, cs.AI, cs.LG, cs.MM]目的:軌道制御ビデオ生成の効率化と高精度化
- ビデオ生成技術は,エンターテイメントやコンテンツ制作など,幅広い分野で重要性が増している。
- 既存の軌道制御ビデオ生成は計算コストが高く,生成に時間がかかるという課題がある。
- 少数ステップでの高画質・高精度な軌道制御ビデオ生成を実現し,効率性と品質の両立を目指す。
- FlashMotionは,多段階生成モデルを少数ステップに蒸留する新しい学習フレームワークである。
- 実験の結果,既存の蒸留手法や多段階モデルと比較して,視覚的品質と軌道の一貫性において優れた性能を示した。
- FlashBenchという新しいベンチマークを用いて,様々な前景オブジェクト数での評価を行った。
IsoCompute Playbook:LLM強化学習におけるサンプリング計算の最適スケーリング [cs.LG, cs.AI]目的:LLM強化学習におけるサンプリング計算の最適配分
- LLMの性能向上には,効果的な計算資源の配分が不可欠である。
- LLMの強化学習における計算資源配分の最適解は未だ不明である。
- LLM強化学習における計算資源配分の指針を提示すること。
- 計算予算の増加に伴い,問題あたりの並列ロールアウト数は予測可能に増加するが,飽和点に達する。
- 並列ロールアウト数の増加は,問題間の干渉を軽減する効果がある。
- 本研究は,LLM強化学習のスケーリング法則を具体的な配分ルールとして再構築し,計算効率の良い学習を可能にする。
GlyphBanana:エージェントワークフローによる正確なテキストレンダリングの進歩 [cs.CL, cs.CV, cs.AI]目的:複雑なテキストおよび数式レンダリングの精度向上
- 近年,テキストレンダリング技術は進歩しているが,複雑なテキストの正確な生成は依然として困難である。
- 既存のモデルは,分布外のプロンプトに対して命令遂行能力が限定的であり,複雑な記号や数式のレンダリングに課題がある。
- GlyphBananaは,エージェントワークフローを用いて,潜在空間と注意マップにグリフテンプレートを注入し,生成画像の反復的な改善を目指す。
- GlyphBananaは,様々なText-to-Imageモデルに学習なしで適用可能であり,既存のベースラインと比較して優れた精度を達成する。
- 複雑な文字や数式をレンダリングするための専用ベンチマークを新たに設計した。
- エージェントワークフローが,生成画像の精度向上に有効であることが実験により示された。
後学習における忘却の定量的特徴付け [cs.LG, cs.AI, math.ST, stat.ML, stat.TH]目的:生成モデルの後学習における忘却現象の定量的な理解
- 生成モデルは広く利用されているが,学習データの追加に伴う忘却メカニズムの理解は不十分である。
- 既存研究では,いつ,なぜ忘却が起こるのか,その原理的な解明が十分ではない。
- 忘却を定量化し,忘却のメカニズムをKLダイバージェンス,幾何学的オーバーラップ,サンプリングを通じて解明する。
- 正方KL目的関数は古いタスクの重みをゼロに駆動する一方,逆方KL目的関数は古いタスクを保持し,ドリフトを制御することが示された。
- リプレイは,正方KLでは最適化された分布を修正し,逆方KLではバッチサイズによる古いモードの枯渇を防ぐことが分かった。
- 最近提案された後学習手法(SDFT,TTT-Discover,OAPL)は,本研究の枠組みで分析され,各手法の特性が明らかになった。
BehaviorVLM:視覚と言語の推論による統一的なファインチューニングフリー行動理解 [cs.CV, cs.AI]目的:動物の自由な行動理解のためのフレームワーク
- 神経科学において,行動理解は神経活動と自然な行動の関連付けの基礎となる。
- 既存手法は人間の注釈や不安定な非教師あり学習に依存し,拡張性と再現性に課題がある。
- 事前学習済みVLMsを活用し,詳細な推論ステップを通じて,少ないラベルで行動理解を可能にする。
- BehaviorVLMは,タスク固有のファインチューニングを必要とせず,姿勢推定と行動理解を統一的に行う。
- 量子ドットに基づいた行動データと,多段階パイプラインにより,姿勢推定の精度を向上させている。
- 深層埋め込みクラスタリング,VLMによるキャプション生成,LLMによる推論を統合し,行動セグメントを理解する。
戦略的ナビゲーションか,確率的探索か:エージェントと人間の文書コレクションにおける推論方法 [cs.CL, cs.AI]目的:文書コレクションにおけるエージェントと人間の推論方法の解明
- 文書処理の自動化は,業務効率化に不可欠であり,その重要性は増している。
- 現在のAIエージェントは,戦略的な推論よりも試行錯誤に頼る傾向がある。
- エージェントの戦略的推論能力を評価し,効率的な文書探索を実現する。
- 本研究で構築したMADQAベンチマークにより,エージェントの能力を客観的に評価できる。
- 最良のエージェントは,人間の検索者と同程度の精度を達成するものの,探索戦略は異なり,効率性に課題がある。
- エージェントは,オラクル性能との約20%の差を埋められず,非効率なループに陥る傾向が見られた。
離散PDDL+への時間的数値計画のコンパイル:拡張版 [cs.RO, eess.SY, cs.SY, cs.AI]目的:時間的数値計画の離散PDDL+へのコンパイル
- 計画立案はAIの根幹であり,現実世界の問題解決に不可欠である。
- 時間的計画の効率的な解決手法が不足しており,複雑な問題への適用が困難である。
- 時間的計画をPDDL+にコンパイルすることで,実用的な計画立案を可能にすること。
- 本研究では,時間的計画をPDDL+にコンパイルする実用的な手法を提案した。
- 提案手法は多項式時間で実行可能であり,計画の長さをほぼ維持する。
- 困難な時間的数値計画問題に対する有効性が実験的に示された。
IndexCache:クロスレイヤーインデックス再利用によるスパース注意の高速化 [cs.CL, cs.LG]目的:スパース注意の効率改善による,大規模言語モデルの推論速度およびコスト削減
- 大規模言語モデルの利用拡大に伴い,推論速度とコストが重要な課題となっている。
- スパース注意は効率的な解決策だが,インデクサの計算量が多く,各レイヤーで独立して実行される。
- クロスレイヤー間のインデックスの類似性を利用し,インデクサ計算量を削減する。
- IndexCacheは,インデクサを持つFull層と,そのインデックスを再利用するShared層で構成することにより,インデクサ計算量を75%削減。
- 訓練不要のIndexCacheと,多層蒸留損失を用いたIndexCacheにより,精度劣化を抑制しつつ高速化を実現。
- 30Bモデルでの実験では,それぞれ最大1.82倍のプレフィル高速化,1.48倍のデコード高速化を達成。
WORKSWORLD:分散パイプラインワークフローの統合的な数値計画とスケジューリングのためのドメイン [cs.DC, cs.AI]目的:分散データパイプライン,またはワークフローの自動計画とスケジューリング
- データ処理の効率化が求められる現代において,ワークフローの自動化は重要である。
- 既存のワークフロー管理システムでは,複雑なワークフローの柔軟な計画が困難である。
- ワークフローの構築とスケジューリングを同時に行う計画手法を開発し,問題を解決する。
- WORKSWORLDは,数値ドメイン非依存プランナー向けの新しいドメインとして提案された。
- このフレームワークにより,ユーザーはワークフロー全体を明示的に定義することなく,データソースや目的を定義できる。
- 実験の結果,最先端のプランナーが,8サイトにわたる最大14コンポーネントの線形チェーンワークフローを解決できることが示された。
RDNet:光学リモートセンシング画像における領域比率を意識した動的適応サル顕著物体検出ネットワーク [cs.CV, cs.AI]目的:光学リモートセンシング画像におけるサル顕著物体検出の性能向上
- リモートセンシング画像は広範囲の情報を得るために重要だが,解析には高度な技術が求められる。
- 既存手法は物体サイズのばらつきや計算コスト,グローバルな文脈の把握が課題となっていた。
- 多様な物体スケールへの対応と,高精度な物体局在化を可能にすることを目指している。
- RDNetはSwinTransformerを用いてグローバルな文脈をモデル化し,領域比率を考慮した動的適応畳み込みを採用することで,スケール変化へのロバスト性を実現した。
- DAD,FCE,RPLモジュールを組み合わせることで,既存手法と比較して優れた検出性能を達成した。
- 周波数マッチングと注意機構を活用することで,文脈情報を豊かにし,セマンティックな詳細を強調する。
Vision Transformer のマルチ粒度確率的自動プルーニングフレームワーク HiAP [cs.CV, cs.LG]目的:Vision Transformer の効率的なサブネットワークの発見
- エッジデバイスでの利用拡大のため,計算資源とメモリ帯域幅の削減が重要である。
- 既存の構造化プルーニングは,単一の粒度で複雑なパイプラインを必要とする。
- HiAP は,複数粒度での自動プルーニングにより,効率性と精度を両立する。
- HiAP は,注意ヘッドや FFN ブロックなど,複数粒度で確率的ゲートを最適化する。
- ImageNet データセットでの実験により,HiAP が効率的なアーキテクチャを自動的に発見することが示された。
- 既存の複雑な手法と同等の性能を,より簡略化されたパイプラインで実現する。
CEGARに基づくオブジェクトパッキングとスケジューリングにおける戦略ポートフォリオ:逐次3Dプリントへの応用 [cs.AI]目的:オブジェクトの配置と逐次3Dプリントのためのスケジューリング問題の解決
- 近年,スーパーコンピュータに匹敵する計算能力が普及し,複雑な問題を解決する可能性が広がっている。
- 3Dプリントにおけるオブジェクトの配置とスケジューリングは組み合わせ最適化問題であり,効率的な解決が求められている。
- 既存手法の改善により,より少ないプリントプレートでの出力や,計算時間の短縮を目指す。
- 提案手法Portfolio-CEGAR-SEQは,既存のCEGAR-SEQアルゴリズムを上回る性能を示すことが実験的に確認された。
- 複数のプリントプレートに対するオブジェクトのスケジューリングにおいて,Portfolio-CEGAR-SEQはCEGAR-SEQよりも少ないプレート数で出力できる場合が多い。
- オブジェクト配置戦略のポートフォリオを用いることで,従来よりも効率的な3Dプリントが可能となった。
LLM駆動による学際的インスピレーションを通じた科学的創造性の活性化 [cs.CL, cs.AI]目的:学際的な洞察の特定と,人間および大規模言語モデルにおける創造的な推論の支援
- 学際研究は,より大きな影響と長期的な成果を生むことが期待されている
- 研究は単一分野に留まりがちで,学際的な連携と創造性を阻害している
- 既存研究の課題を克服し,科学的発見のプロセスを拡張・増強すること
- 提案手法Idea-Catalystは,抽象的な研究目標からブレインストーミングを支援し,特定の解決策に固執することを回避する
- 学際的潜在力に基づいて外部分野から洞察を抽出し,ターゲット分野に再構成することで,斬新性と洞察性を向上させる
- 実験的に,平均斬新性が21%,洞察性が16%向上し,元の研究問題との関連性を維持している
特定のドメインにおけるコントラスト埋め込みの解釈:ファジー規則によるアプローチ [cs.SC, cs.LG]目的:特定のドメインにおけるコントラスト埋め込みの解釈
- 実世界のデータは自由形式テキストで記録されることが多く,構造化されたデータへの変換が重要である。
- CLIPモデルは汎用性が高いが,特定のドメインへの適用には課題が残されている。
- CLIPモデルとファジー規則を用いて,ドメイン特化的な特徴量の解釈を試みる。
- 臨床記録と映画レビューという2つのデータドメインで本手法を適用し,個別の結果と両者を組み合わせた結果を比較した。
- ファジー規則ベースの分類システムとテキスト処理技術を組み合わせることで,CLIPモデルの空間への特徴量マッピングを実現した。
- 得られた規則と関連性,および考慮した各特徴量の重要性について議論し,本手法の限界と改善点についても検討した。
ニューラルな密集地:多様なタスク専門家は事前学習済み重み周辺に密集している [cs.LG, cs.AI]目的:事前学習済み重みの分布におけるタスク専門家の存在様式
- 大規模言語モデルの性能向上には,事前学習が不可欠である。
- 事前学習済み重みの探索空間は広大であり,効率的な適応が課題である。
- 事前学習済み重み周辺の密集度に着目し,効率的な微調整手法を提案する。
- 大規模モデルにおいて,事前学習済み重み周辺に多様なタスク専門家が密集していることが示された。
- 提案手法は,ランダム摂動と多数決アンサンブルにより,PPO等の既存手法と競合できる性能を発揮する。
- 本研究は,事前学習済みモデルの潜在能力を最大限に引き出す新たな視点を提供する。
人工知能エージェントのセキュリティに関する考察 [cs.MA, cs.LG, cs.AI, cs.CR]目的:最先端AIエージェントのセキュリティに関する観察と提言
- AI技術の急速な発展に伴い,その安全性確保が重要課題となっている。
- 従来のコードとデータの分離,権限管理といったセキュリティの前提が崩れつつある。
- AIエージェント特有の攻撃対象と脆弱性を特定し,対策を検討する。
- AIエージェントのツール,コネクタ,ホスティング境界,多重エージェント連携における主な攻撃対象を分析した。
- 間接的なプロンプトインジェクション,権限委譲の誤り,長期間実行ワークフローの連鎖的失敗などが新たな脅威として挙げられた。
- 入力レベルおよびモデルレベルの緩和策,サンドボックス化された実行,決定論的なポリシー適用といった既存の防御策を評価した。
潜在計画のための時間的直線化 [cs.LG]目的:潜在計画における良好な表現学習
- ロボットの自律的な行動計画において,環境の理解と予測が不可欠である。
- 事前学習済みの画像エンコーダは汎用的だが,計画に特化しておらず,無関係な情報を含む。
- 潜在空間における経路の曲率を低減し,計画の安定性と成功率の向上を目指す。
- 時間的直線化により,潜在空間内のユークリッド距離と測地距離の相関が向上する。
- これにより,計画目的の条件付けが改善され,勾配ベースの計画の安定性が高まる。
- 目標達成タスクにおいて,時間的直線化が有意に高い成功率をもたらすことが示された。
学習された衝突を用いたニューラルネットワークの漸進的検証 [cs.LO, cs.AI]目的:ニューラルネットワーク検証における効率向上
- ニューラルネットワークの安全性や信頼性評価において,検証は重要な役割を果たす。
- 既存手法では,検証クエリごとに独立して探索を行うため,計算資源の浪費が生じる。
- 学習された衝突を再利用することで,不要な探索を削減し,検証を高速化する。
- 提案手法は,既存の分岐限定法ベースの検証器に追加可能である。
- 検証時に得られた衝突(活性化相の組み合わせ)を保持し,関連クエリ間で再利用する。
- 実験結果から,本手法は最大で1.9倍の高速化を実現し,検証コストを削減できることが示された。
テキストプライバシーのための選択的タスク認識メカニズム:STAMP [cs.LG, cs.CR, cs.IT, math.IT]目的:タスクを意識したテキストのプライバシー保護
- 個人情報保護は,AI技術の発展と普及において不可欠な課題である。
- 既存手法では,プライバシー保護とタスク性能のバランスが難しい場合がある。
- トークンごとにプライバシー予算を最適化し,プライバシーと実用性の両立を目指す。
- STAMPは,トークンの重要度とプライバシー感受性を考慮し,プライバシー予算を適切に配分する。
- 新たな極メカニズムを導入し,埋め込み表現の方向のみを摂動することで,意味的な近傍関係を維持する。
- SQuAD,Yelp,AG Newsデータセットでの実験により,STAMPが優れたプライバシー・ユーティリティのトレードオフを実現することが示された。
BiGain: 生成と分類のための統一的なトークン圧縮 [cs.CV, cs.LG]目的:拡散モデルにおける生成と分類の性能維持・向上を目指したトークン圧縮手法
- 拡散モデルの高速化は,計算コスト削減に不可欠であり,実用化を促進する上で重要である。
- 既存の高速化手法は,生成品質の最適化に偏りがちで,識別能力の低下を招く可能性がある。
- BiGainは,生成品質を維持しつつ,高速化した拡散モデルの分類性能を向上させることを目指す。
- BiGainは,周波数分離の概念に基づき,トークンマージとKVダウンサンプリングの2つの演算子を提案する。
- ImageNet-1Kにおいて,トークンを70%マージした場合,BiGainは分類精度を7.15%向上させ,FIDを0.34改善した。
- スペクトル保持のバランスが,拡散モデルにおけるトークン圧縮の信頼できる設計原則であることが示唆された。
分離可能なニューラルアーキテクチャ:統一的な予測・生成知能のための基本要素 [cs.RO, cs.LG, cs.AI]目的:予測と生成の両方の知能を統一するための分離可能なニューラルアーキテクチャの形式化
- 物理,言語,知覚といった様々な分野で,知能システムは因子分解構造を持つことが知られている。
- 既存のニューラルアーキテクチャは,この構造を明示的に利用していない場合が多い。
- 高次元マッピングを低次数要素に分解し,カオス系の分布モデリングを可能にすること。
- 分離可能なニューラルアーキテクチャ(SNA)は,加法,二次,テンソル分解ニューラルモデルを統一する表現クラスである。
- SNAは,座標や表現を通じて発生する分離可能性を活用し,カオス的時空間力学と言語の自己回帰との構造的類似性を示した。
- SNAは,強化学習,マイクロ構造の逆生成,乱流の分布モデリング,ニューラル言語モデリングなど,多様なドメインで有効性が示された。
検証可能でないLLMの後学習における推論LLMを判断者として活用する試み [cs.AI, cs.CL, cs.LG]目的:LLMの強化学習によるアライメントにおける,推論能力を持つLLM判断者の実質的な影響の検証
- LLMの推論能力は,その汎用性を高める上で不可欠であり,特に検証が困難な分野での応用が期待されている。
- LLM判断者の有効性は評価ベンチマークでは示されているものの,実際のポリシー学習への影響は体系的に検証されていなかった。
- 検証可能でないLLMの後学習において,推論能力を持つLLM判断者の効果と,報酬ハッキング等の課題解決を目指す。
- 推論能力を持たないLLM判断者は報酬ハッキングを起こしやすい一方,推論能力を持つLLM判断者は「金標準」判断者による評価で高い性能を示すポリシーを生み出す。
- 推論能力を持つLLM判断者で学習したポリシーは,他のLLM判断者を欺くことでArena-Hard等のベンチマークでも高いスコアを獲得する,効果的な敵対的出力を生成することで高性能を実現する。
- 本研究は,検証可能でないLLMの後学習における(推論)LLM判断者の活用における重要な知見と改善の余地を示唆する。
特徴量の一致,トークンではない:言語モデルのエネルギーに基づくファインチューニング [cs.LG]目的:言語モデルのファインチューニングにおける特徴量一致
- 言語モデルは自然言語処理の基盤であり,その性能向上が様々な応用を促進する。
- 従来の教師あり学習は,トークン単位の予測に偏りがちで,シーケンス全体の行動を最適化できていない。
- シーケンスレベルでの統計に基づいた,より密な意味的フィードバックを提供する手法を開発する。
- エネルギーに基づくファインチューニング(EBFT)は,Q&A,コーディング,翻訳タスクにおいてRLVRと同等,またはSFTを上回る精度を達成した。
- EBFTは,下流タスクの精度向上と同時に,従来のクロスエントロピーよりも低い検証損失を実現した。
- EBFTは,KL正則化された特徴量一致とエネルギーベースモデリングの理論的関係を提示している。
SciMDR:科学マルチモーダル文書推論のベンチマークと発展 [cs.CL, cs.AI, cs.CV]目的:科学マルチモーダル文書推論のための大規模学習データセット
- 科学研究の発展には,論文などの文書理解が不可欠である。
- 既存データセットは,規模,忠実性,現実性のバランスが課題であった。
- 現実的で複雑な文書推論を可能にするデータセットの構築。
- 本研究では,合成と再接地フレームワークを用いてSciMDRを構築した。
- SciMDRは,2万件の科学論文から30万組のQAペアを含む大規模データセットである。
- SciMDRでファインチューニングしたモデルは,複数の科学QAベンチマークで顕著な改善を示した。
Spatial-TTT:テスト時学習によるストリーミング視覚ベース空間知能 [cs.CV, cs.LG]目的:ストリーミング視覚情報からの空間知能の維持・更新機構
- 人間は視覚情報を通して空間を認識するため,その機構の解明は重要である。
- 長時間の動画ストリームにおける空間情報の選択・整理・保持が課題である。
- 動画から空間情報を効率的に抽出し,長期的な空間理解を可能にすること。
- Spatial-TTTは,テスト時学習を用いてモデルのパラメータを適応させ,長時間のシーン動画から空間情報を効率的に学習する。
- ハイブリッドアーキテクチャと,スライディングウィンドウ注意機構との並列処理による大規模チャンク更新を採用している。
- 3次元時空間畳み込みを用いた空間予測機構により,幾何学的対応と時間的連続性をモデルに学習させている。
潜在的な色空間:高次元カオスの創発的秩序 [cs.RO, cs.LG, cs.AI, cs.CV]目的:画像生成における色の表現構造の解明
- 画像生成技術の発展に伴い,生成される画像の制御が重要となっている。
- 画像生成モデルでは,意味情報がどのように符号化されているかの理解が不足している。
- 潜在空間における色の表現構造を明らかにし,色の制御を可能にすること。
- FLUX.1の潜在空間における色の表現が,色相,彩度,明度を反映する構造を持つことを示した。
- この潜在色空間を用いて,色を予測し,明示的に制御する手法を開発した。
- FLUXにおいて,学習なしで潜在空間を操作するだけで色の制御が可能となった。
Transformerにおける暗黙的な統計的推論:文脈内での尤度比検定の近似 [eess.SP, cs.SY, eess.SY, cs.LG, cs.AI]目的:Transformerにおける文脈内学習のメカニズム解明
- Transformerは自然言語処理の基盤技術であり,その性能向上は重要である。
- 文脈内学習のアルゴリズムは未だ不明であり,そのメカニズム解明が求められている。
- 文脈内学習における統計的推論の過程を明らかにし,その原理を解明すること。
- Transformerは,線形および非線形なタスクにおいて,文脈からベイズ最適の十分統計量を近似的に算出する。
- モデルは固定されたカーネル平滑化ヒューリスティックに依存せず,線形タスクでは投票スタイルのアンサンブル,非線形タスクではより深い逐次計算を利用する。
- 文脈内学習は,単純な類似性マッチングではなく,タスク適応的な統計的推定器の構築から生まると考えられる。
残基レベルpKa予測のためのハイブリッド量子古典エンコーディング [math.LO, cs.CC, physics.chem-ph, cs.AI, cs.NE]目的:残基レベルpKa値の正確な予測
- タンパク質の機能,安定性,反応性を理解する上で,残基レベルのpKa予測は不可欠である。
- 既存の記述子は古典的なものが中心で,多様な生化学的環境への一般化が難しい場合がある。
- 量子に触発された特徴マッピングで記述子を強化し,より正確なpKa予測を実現すること。
- 量子に触発された記述子と正規化された構造的特徴を組み合わせたハイブリッドエンコーディングが,DQNNによって非線形な関係性を捉える。
- 複数のキュレーションされた記述子セットを用いたベンチマークにより,DQNNが古典的なベースラインと比較して,より優れたクロスコンテキスト汎化性能を示すことが明らかになった。
- PKAD-R実験ベンチマークとAβ40ケーススタディによる外部評価は,量子に触発された表現の堅牢性と転移可能性を強調している。
人間とLLMの協働によるコラッツ力学の探求 [math.DS, cs.AI, cs.HC]目的:コラッツ反復の構造的性質
- 数理科学における未解決問題であり,その振る舞いは予測困難である。
- コラッツ反復の軌道に関する構造的理解が不十分である。
- 軌道長やギャップ長の分布に関する仮説を検証する枠組みを提示する。
- コラッツ反復において,剰余類のモジュラースクランブルと,軌道のバースト-ギャップ分解が確認された。
- 高ビットにおけるギャップ-リターン写像は正確な全単射であり,ギャップ構造は一定の規則性を示す。
- モジュラモデルにおいて,ギャップ長と$2$-進位は幾何分布に従い,軌道収縮の可能性を示唆する。
相予測から相設計へ:高エントロピー合金探索のためのReActエージェントフレームワーク [cond-mat.mtrl-sci, cs.AI]目的:高エントロピー合金組成の探索
- 材料開発における高エントロピー合金の重要性が増しているため,効率的な探索手法が求められている。
- 従来の試行錯誤や前方学習モデルでは,高次元の組成空間から目的の相を効率的に見つけ出すことが困難である。
- LLMエージェントを用いて,組成の提案,検証,反復的な改良を行い,探索効率を向上させることを目指す。
- 提示されたReActエージェントは,4,753件の実験データに基づき訓練されたXGBoostモデルを用いて,ターゲット相の94.66%の精度で予測を達成した。
- ベイジアン最適化やランダム探索と比較して,FCC,BCC,BCC+FCC相において,エージェントはより実験相マニホールドに近い組成を発見した。
- ドメイン知識の導入により,エージェントは既存の合金の再現だけでなく,組成的に多様な空間の探索にも貢献することが示された。
共拡散:親和性に基づいた二段階潜在拡散フレームワークによる汎用的な薬物-標的親和性予測 [stat.ML, cs.LG]目的:薬物-標的親和性予測の汎用性向上
- 創薬におけるバーチャルスクリーニングやリード最適化において,薬物-標的親和性の予測は不可欠である。
- 既存の深層学習モデルは,ラベル不足やドメインシフトにより,転移可能な薬理団や結合モチーフの学習が困難である。
- 本研究は,汎用性を高めるために,制約された潜在空間ノイズ除去プロセスとしてDTA予測を再定義する。
- Co-Diffusionは,薬物と標的の埋め込みを明示的な教師あり目的の下で整列させることで,親和性に基づいた潜在多様体を確立する。
- モダリティ固有の潜在拡散を確率的摂動とノイズ除去の正則化因子として導入し,ノイズの多い構造表現から一貫した親和性セマンティクスを復元する。
- Co-Diffusionは,未観測の分子骨格や新規タンパク質ファミリーに対して,最先端のベースラインよりも有意に優れたゼロショット汎化性能を示す。
高さ拡張ReLUネットワークによる解析関数および$L^p$関数への効率的な近似 [quant-ph, cs.NI, stat.ML, cs.LG, cs.NE]目的:解析関数および$L^p$関数に対する効率的な近似手法
- ニューラルネットワークは多様な関数近似に利用され,その理論的理解が重要である。
- 従来のネットワークでは,複雑な関数を効率的に表現するためのパラメータ数に課題があった。
- 本研究は,より少ないパラメータで高精度な関数近似を可能にすることを目指す。
- 三次元ネットワーク構造を用いることで,ノコギリ波関数の表現効率が大幅に向上することを示した。
- 解析関数の近似に関する指数的な収束率を改善し,パラメータ効率の良いネットワーク設計を提案した。
- 一般的な$L^p$関数に対して,非漸近的な高次の近似を初めて定量的に導出した。
交絡が存在する場合の共形的e予測 [math.ST, cs.LG, stat.TH]目的:交絡が存在する場合における共形的e予測の拡張
- 因果推論において,交絡は誤った結論を導く主要な要因の一つである。
- 交絡が存在する場合,従来の予測モデルでは信頼性の高い予測区間を構築することが困難である。
- 本研究では,交絡が存在する場合でも有効な共形的e予測法を開発し,予測の信頼性を向上させる。
- 本研究では,交絡が存在する場合に共形的e予測を拡張する手法を提案した。
- 提案手法は,独立同一分布(IID)データと,観測間に依存性があるデータに対応できる。
依存観測からの最小誤差エントロピー原理に基づく深回帰学習 [stat.ML, cs.LG, math.ST, stat.TH]目的:強混合観測からの非パラメトリック回帰
- 時系列データやパネルデータなど,観測間に依存関係があるデータの分析が重要である。
- 依存構造を無視した従来の回帰手法では,推定精度が低下する可能性がある。
- 最小誤差エントロピー原理に基づく深層ニューラルネットワークを用いて,依存構造を考慮した高精度な回帰を実現する。
- 提案手法である非ペナルティ付き深層ニューラルネットワーク(NPDNN)とスパースペナルティ付き深層ニューラルネットワーク(SPDNN)の過剰リスクの上界を確立した。
- ガウス誤差を持つモデルにおいて,得られた上界のレートは,Schmidtらの結果と一致し,最適な収束レートを達成することを示した。
- 強混合データからのMEEに基づくNPDNNとSPDNNは,ミニマックス最適収束レートを実現可能である。
記号表現のスクランブルを解消する:自己教師ありオラクル軌跡による記号式の簡略化 [hep-th, cs.LG, cs.SC, hep-ph]目的:複雑な数式表現の記号的簡略化
- 高エネルギー物理学など,複雑な計算を効率化する基盤技術として重要である。
- 従来の記号簡略化は,手作業または複雑なルールベースであり,自動化が困難であった。
- 自己教師あり学習により,複雑な数式を効率的に簡略化する手法を開発すること。
- 自己教師あり学習を用いた新しいアプローチにより,高い正答率で記号的簡略化を実現した。
- 特に,Yang-Mills理論における5点グルーオン木レベル振幅において,100%の完全簡略化率を達成した。
- 強化学習やエンドツーエンド回帰に基づく従来の手法を大幅に上回る性能を示した。
稀な事象に対する信頼性の高い予測分布:診断用輸送写像によるアプローチ [stat.ML, cs.LG]目的:稀な事象に対する予測分布の信頼性向上
- 科学技術における予測システムは,点予測から確率分布へと進化しており,その信頼性が重要である。
- 予測分布は,特に低頻度や分布外の領域において,必ずしも正確に校正されていない場合がある。
- 既存の予測分布を診断し,校正データに基づいて改善することで,信頼性を高めることを目指す。
- 診断用輸送写像は,モデルの誤りを特定し,バイアス,分散,歪み,テール誤差などを可視化する。
- この手法を熱帯低気圧の強度予測に適用した結果,急速な強度変化などの稀な事象に対する予測性能が向上した。
- 簡易なパラメータモデルを用いることで,局所的な誤校正に関連する進化モードを特定することが可能になった。
結核自動スクリーニングのための咳活動検出 [eess.AS, cs.LG, cs.SD]目的:結核スクリーニングのための咳活動検出
- 呼吸器疾患の早期発見は公衆衛生上重要であり,特に結核のような感染症の蔓延を防ぐ上で不可欠である。
- 従来のスクリーニングは人的資源に依存し,大規模な検査実施が困難であるという課題があった。
- 本研究は,音声データから自動的に咳を検出し,効率的な結核スクリーニングツールを開発することを試みる。
- XLS-Rを用いて咳の開始点と終了点を自動的に決定した結果,テストセットにおいて平均適合率0.96,ROC曲線下面積0.99を達成した。
- XLS-Rの最初の3層のみを使用することで計算負荷とメモリ消費量を削減し,スマートフォンへの実装可能性を示した。
- XLS-Rは,オーディオスペクトログラム変換器(AST)やロジスティック回帰と比較して,テストセットの平均適合率でそれぞれ9%,27%高い性能を示した。
統一された潜在空間の分離VAEフレームワークと堅牢な分離効果評価 [stat.ML, cs.LG]目的:潜在空間の分離
- 多様なデータ型において,潜在表現の評価と解釈は重要な課題である。
- 生成要因の真値が不明な場合,VAEの潜在表現の分離評価は困難である。
- 真値を知らずとも,VAEの分離効果を定量的に評価する手法を開発する。
- 提案手法bfVAEは,既存の分離VAEフレームワークを統合し,特に表形式データにおいて高い分離効果を示す。
- FVH-LTとDBSR-LSは,真値なしで分離効果を評価する初のツールであり,潜在空間の解釈性を向上させる。
- LSDIは,FVH-LTとDBSR-LSの結果を統合し,分離効果を定量的に評価する指標である。
遺伝子発現生成モデルの評価のための標準化されたフレームワーク [q-bio.GN, cs.LG]目的:遺伝子発現生成モデルの評価手法の標準化
- 単一細胞遺伝子発現データ解析の発展に伴い,生成モデルの性能評価が重要になっている。
- 既存の評価方法は,指標の実装やハイパーパラメータ設定に一貫性がなく,比較が困難である。
- 生物学的な知見に基づいた評価指標を提供し,標準化された評価を可能にすること。
- GGEは,分布に関する多様な評価指標と,微分発現遺伝子解析や摂動効果相関に基づいた生物学的な評価機能を提供する。
- 既存研究において,評価プロトコルの標準化がなされていないことが示された。指標の値は実装やハイパーパラメータに大きく依存する。
- GGEを用いることで,生成モデル間の公平な比較が可能になり,摂動応答予測などの進展が期待される。
RIE-Greedy:正則化誘導探索による文脈バンディット [physics.flu-dyn, cs.SY, eess.SY, stat.ML, cs.LG]目的:文脈バンディット問題における探索戦略
- 実世界の複雑な報酬モデルの文脈バンディット問題は重要であり,その解決が求められている。
- 既存手法は複雑な仮定や実装困難な手続きに依存し,実用性に課題がある。
- モデル適合過程のランダム性を利用し,効率的な探索を可能にすることを目的とする。
- 正則化に基づく探索は,二腕バンディット問題において,トムソンサンプリングと理論的に等価であることが示された。
- 大規模なビジネス環境において,ε-greedyなどの既存手法と比較して,信頼性の高い探索性能を発揮することが確認された。
- 正則化された推定器の学習自体が効果的な探索を誘導することを示し,文脈バンディット設計に新たな知見を提供する。
最悪ケースにおける低ランク近似 [stat.ML, cs.AI, cs.LG, stat.ME]目的:異種ドメインにおける最悪ケースの性能
- 健康,経済,環境科学等の現実データは異種ドメインに分布。標準的なPCAでは,未知ドメインでの分散説明力が低下する可能性がある。
- 既存手法は平均性能ではなく最悪ケースを考慮するが,異種ドメインにおける総分散の異質性に適した推定方法は未確立である。
- 本研究は,wcPCAという統一的なフレームワークを開発し,様々な目的関数に対応する推定法を提案することで,この問題を解決する。
- 提案手法wcPCAは,観測されたソースドメインだけでなく,ソース共分散の凸包内に位置するターゲットドメインに対しても最悪ケース最適性を示す。
- 経験的推定量の整合性と漸近的な最悪ケース保証を確立した。また,行列補完問題への拡張も行い,帰納的行列補完における近似的な最悪ケース最適性も証明した。
- シミュレーションと2つの現実世界の応用(生態系-大気フラックス)により,最悪ケース性能の顕著な改善が確認された。平均性能への影響は軽微であった。
MRI2Qmap:MRI駆動型ノイズ除去事前知識を用いた多パラメータ定量的マッピング [physics.med-ph, cs.CV, cs.LG]目的:多パラメータ定量的マッピングの再構成
- MRIは多様な組織特性を非侵襲的に評価でき,疾患診断や治療効果判定に不可欠である。
- 高速撮像ではエイリアシングアーチファクトが発生し,定量評価の精度を低下させる問題がある。
- ルーチンMRI画像から学習した事前知識を用いて,定量的MRIの再構成精度向上を目指す。
- MRI2Qmapは,ルーチンMRI画像から学習した空間領域構造事前知識を効果的に活用できることを示した。
- 本手法は,ground-truthデータなしで既存手法と同等またはそれ以上の性能を達成した。
- ルーチン臨床MRIデータを活用することで,定量的MRIの拡張性を高める新たなパラダイムを示唆する。
