arXiv雑要約
AI - 2026/05/12 公開
オーディオビジュアルLLMにおけるクロスモーダル情報ハブの探求 [cs.AI, eess.AS]目的:オーディオビジュアルLLMにおけるクロスモーダル情報フローの解明
- 近年のマルチモーダルAI研究の発展に伴い,音声・画像・テキストを統合的に処理するモデルが重要になっている。
- オーディオビジュアルLLMの内部メカニズムは,テキストLLMや画像LLMと比較して,その理解が十分に進んでいない。
- 音声と画像のクロスモーダル情報の流れを特定し,モデルの動作原理を明らかにすること。
- AVLLMは,クロスモーダル情報をシンクトークンに集約的にエンコードすることがわかった。
- シンクトークンの中でも,特定のサブセットである「クロスモーダルシンクトークン」が,クロスモーダル情報の保持に特化していることが示された。
- クロスモーダルシンクトークンへの依存を促すことで,幻覚を軽減する訓練不要な手法が提案された。
非マルコフ決定過程に対する方策勾配法 [cs.LG, cs.AI]目的:非マルコフ決定過程における方策勾配法の研究
- 強化学習は,複雑な問題解決に有効であり,ロボティクスやゲームなど幅広い分野で応用が期待されている。
- 従来の強化学習はマルコフ性を仮定しており,過去の観測・行動が影響する非マルコフ過程への対応が課題であった。
- 過去の情報を効率的に要約し,非マルコフ過程においても最適な方策を学習することを目指す。
- 提案手法であるASMPGは,エージェントの状態遷移と制御方策を同時に最適化することで,累積報酬の最大化を実現する。
- ASMPGは,状態遷移を予測するのではなく,報酬を最大化する方向に状態を更新するため,効率的な学習が可能となる。
- 様々な非マルコフ過程のタスクにおいて,従来の予測に基づく状態表現学習手法と比較して,ASMPGが優れた性能を示すことが実験的に確認された。
臨床意味学習のための脳波基礎モデル CLEF [cs.AI]目的:臨床脳波の意味学習のための基礎モデル
- 臨床脳波の解釈は,患者の診断・治療において不可欠であり,その高度化が求められている。
- 既存の脳波基礎モデルは短い時間窓での解析に特化しており,臨床的文脈の統合が不十分である。
- 臨床的文脈を考慮したセッション全体の脳波表現学習により,臨床脳波解析の精度向上を目指す。
- CLEFは,脳波セッションを3次元多テーパースペクトログラムトークンとして表現し,セッション規模でのTransformerモデリングを可能にした。
- CLEFは,神経科医のレポートや構造化されたEHRデータとのコントラスト学習により,埋め込み表現を臨床情報に整合させた。
- 234のタスクからなる新しいベンチマークにおいて,CLEFは既存の脳波基礎モデルを229のタスクで上回り,平均AUROCを0.65から0.74に向上させた。
フーリエ埋め込みを用いた周期的な分散表現について [cs.LG, q-bio.NC]目的:物理現象や知覚現象を表現するための周期信号に関する研究
- 物理・知覚現象の表現には周期信号が不可欠であり,その効率的な処理が重要である。
- 角度の絶対値の差がπを超える場合,近接する角度の識別が困難になるという課題がある。
- 高次元空間における周期的な埋め込み表現を通じて,この課題の解決を目指す。
- 高次元空間での埋め込み表現を用いることで,角度の識別問題を回避できることが示された。
- ドット積類似度を制御することで,様々なカーネル形状を構築できることが確認された。
- Spatial Semantic Pointersを用いて,Dirichletカーネルと周期ガウスカーネルを形式化する方法が提示された。
ALAM:視覚・言語・行動モデルのための代数的に整合的な潜在的遷移 [cs.RO, cs.AI, cs.CV]目的:視覚・言語・行動モデルにおける潜在的行動遷移の学習
- ロボットの行動データは不足がちであり,視覚と言語を結びつける行動モデルの開発が重要である。
- 既存の潜在的行動モデルは,再構成性能は高いが,ロボットの行動生成に必要な構造が不足している。
- 視覚データから得られる物理世界の遷移構造を,代数的な整合性を通して潜在的遷移に組み込む。
- ALAMは,再構成と代数的な整合性(合成と反転の一貫性)による正則化を組み合わせた潜在的行動モデルである。
- ALAMの潜在的遷移をVLA学習の補助目標として活用することで,ロボットの行動生成性能が大幅に向上した。
- MetaWorld MT50とLIBEROにおいて,成功率がそれぞれ47.9%から85.0%,94.1%から98.1%へと向上し,実世界の操作タスクでも同様の効果が確認された。
制約下における物理環境での情報探索の評価:MaD Physics [cs.AI, cs.LG]目的:制約下での情報探索能力の評価
- 科学的発見は,資源制約という現実的な状況下で行われるものであり,その評価が重要である。
- 既存の評価基準は,知識ベースの推論か実験設計に偏っており,制約下での測定と計画能力を捉えられていない。
- 制約条件を考慮した情報収集と推論能力を評価することで,科学的発見における課題解決を目指す。
- MaD Physicsは,異なる物理法則に基づく3つの環境でエージェントの能力を評価するベンチマークである。
- 実験では,Geminiモデルの構造化された探索とデータ収集能力の課題が明らかになった。
- 本ベンチマークは,モデルの科学的推論能力の向上に貢献し,マルチモダリティや文脈学習などの能力評価も可能とする。
予測におけるセンサー故障堅牢性のベンチマーク [cs.RO, cs.LG, eess.SP]目的:サイバー物理システム予測モデルにおけるセンサー故障に対する堅牢性の評価
- サイバー物理システムの予測は,センサーデータの品質に大きく依存するため,信頼性は不可欠である。
- 従来の評価方法は,正常なデータのみでモデルを選定するため,実際の故障状況下での性能が不明である。
- センサー故障を想定した評価プロトコルを確立し,予測モデルの堅牢性を定量的に比較すること。
- センサー故障を模擬したベンチマークテストの結果,クリーンなデータでの性能が良いモデルが,故障下では著しく劣化する場合がある。
- 最悪シナリオにおける性能と,正常データでの性能ランキングが必ずしも一致しないことが示された。
- 特定の堅牢性向上手法は,故障の種類に応じて効果が異なり,故障の種類に応じた対策の重要性が示唆された。
時間系列予測のためのバックボーン適応型可逆正規化手法NoRIN [cs.LG]目的:時間系列予測における性能向上
- 時間系列データは,金融,気象,需要予測など幅広い分野で不可欠であり,高精度な予測が求められる。
- 既存の可逆正規化手法は線形変換に限定され,分布の変形が不十分で,重い裾や歪みを適切に扱えないという課題がある。
- バックボーンネットワークに依存した適切な正規化パラメータを最適化し,予測性能の限界を突破することを目指す。
- 提案手法NoRINは,arcsinh変換を用いた非線形可逆正規化により,既存手法の線形制約を克服し,分布の柔軟な変形を可能にした。
- NoRINは,パラメータの勾配降下学習による最適化ではなく,Slifker-Shapiro quantile fitとベイズ最適化によりパラメータを決定することで,バックボーンネットワークの特性に最適化された正規化を実現した。
- 実験結果から,異なるバックボーンネットワークは,最適な性能を得るために異なる正規化パラメータを必要とすることが示された。
最初のインクの一滴:長文脈推論における誤解を招く情報の非線形的な影響 [cs.NI, cs.AI]目的:長文脈推論における誤解を招く情報の割合と性能の関係
- 大規模言語モデルの活用が進む中で,長文脈処理の性能を左右する要因の理解が重要である。
- 関連するものの誤った情報が性能を低下させることは知られているが,その影響の定量的な関係は不明であった。
- 誤解を招く情報の割合が,長文脈推論の性能に与える影響を明らかにすること。
- 誤解を招く情報の割合がごくわずかな段階で性能が急激に低下し,その後は低下幅が小さくなる「最初のインクの一滴」効果が明らかになった。
- 注意メカニズムに基づいた理論的・実験的分析から,少量の誤解を招く情報が不均衡に注意を引きつけることが示された。
- コンテキスト長の削減が誤解を招く情報の除去よりも効果的であり,大幅な性能回復には高い精度での情報取得が不可欠である。
潜在的後方サンプリングによる3次元構造予測 [cs.CV, cs.LG]目的:3次元構造予測手法
- 画像生成モデルやニューラルフィールド表現の発展から,3次元シーン理解への新たな可能性が生まれている。
- 3次元再構成には不確実性が伴うため,それを適切に扱う方法が課題であった。
- 拡散モデルを用いた後方サンプリングにより,不確実性を考慮した3次元再構成を可能にする。
- 本研究では,NeRFと拡散モデルを組み合わせた手法を提案し,多様な入力条件(単眼画像,多眼画像,ノイズ画像など)から高精度な3次元構造予測を実現した。
- 3次元シーンを確率的潜在変数として表現することで,観測データに基づいた不確実性のモデリングと推論を可能にした。
- 2段階の学習プロセス(再構成モデルの学習と潜在空間の事前分布の学習)により,高い再構成性能と汎化性能を両立した。
SLIM:解釈可能で特性指向のLLMベース分子編集のための疎な潜在的操縦 [cs.LG, cs.AI, cs.CE, cs.CL]目的:LLMベース分子編集における特性制御の改善
- 創薬や材料科学において,分子構造の最適化は重要な課題である。
- LLMは分子編集に有効だが,特性情報は隠れた状態に分散し制御が困難である。
- 疎な潜在的特徴空間での操縦により,特性改善率の向上を目指す。
- 提案手法SLIMは,疎な潜在的特徴への変換により,分子編集の成功率を向上させる。
- SLIMは,モデルパラメータを変更せずに,特性に関連する次元を精密に活性化する。
- MolEditRLベンチマークにおいて,ベースラインと比較して最大42.4ポイントの改善が確認された。
MMVIAD:産業異常検知のためのマルチビューマルチタスク動画理解 [cs.CL, cs.CV, cs.AI]目的:産業異常検知のためのマルチビューマルチタスク動画データセットおよびベンチマーク
- 製造品質管理において,異常検知は不可欠であり,製品の信頼性向上に貢献する。
- 既存のデータセットは静止画や限定的な視点に偏っており,実際の検査プロセスを反映できていない。
- 連続的な複数視点からの動画データを用いて,より高精度な異常検知と理解を目指す。
- MMVIADは,48種類の対象物,14の環境,6種類の構造的異常を含む,初の連続マルチビュー動画データセットである。
- 既存の動画MLLMは,特に微細な欠陥認識と時間的局在化において,人間の性能を大きく下回る。
- VISTAは,PS-SFTとVISTA-GRPOによるPost-trainingによりMMVIAD-Unseenでベースモデルを大きく上回り,GPT-5.4を凌駕する性能を示した。
制御された環境から現実世界へ:実世界におけるペンテストエージェントの評価 [cs.AI, cs.CR]目的:実世界におけるペンテストエージェントの性能評価に関する研究
- サイバー攻撃の高度化に伴い,セキュリティ専門家の負担が増大しており,自動化されたペンテスト技術の重要性が高まっている。
- 既存の評価プロトコルは限定的な環境下でのタスク達成に偏っており,現実世界の複雑な環境での性能評価が不十分である。
- より現実的な評価プロトコルを構築し,AIペンテストエージェントの性能を正確に比較・分析することを目的とする。
- 本研究では,タスク達成ではなく,検証された脆弱性の発見に焦点を当てた評価プロトコルを提案した。
- 提案プロトコルは,複数の攻撃対象と脆弱性クラスに対応可能であり,現実的な曖昧さを考慮したスコアリング手法を用いる。
- 評価プロトコルとアノテーション済みデータセットを公開し,再現性と継続的な実験を支援する。
Transcoda:データ中心型合成トレーニングによるゼロショット光学音楽認識 [cs.CV, cs.LG]目的:光学音楽認識の性能向上
- 楽譜のデジタル化需要が高まる中,楽譜認識技術は重要な役割を担う。
- 実楽譜の注釈付きデータセットが不足しており,高性能なモデルの学習が困難である。
- 合成データと正規化,文法に基づくデコードにより,この課題を解決する。
- 高度な合成データ生成パイプラインにより,少ないパラメータ数で高性能なモデルを実現した。
- 新たに作成したベンチマークにおいて,最先端のシステムを上回る性能を達成した(OMR-NEDスコア18.46%)。
- 歴史的なポーランド楽譜のスキャンにおけるエラー率を低減させた(OMR-NEDスコア63.97%)。
Clin-JEPA:電子カルテ患者データにおける共同埋め込み予測事前学習のための多段階共同学習フレームワーク [cs.DM, cs.LG, cs.AI, q-bio.QM]目的:電子カルテ患者データにおける共同埋め込み予測(JEPA)事前学習のための多段階共同学習フレームワーク
- 医療データ分析の高度化が,患者予後の予測精度向上や医療の質向上に不可欠である。
- 既存のJEPAフレームワークでは,予測器とエンコーダーの連携が不十分であり,予測精度の安定化が課題である。
- 予測器とエンコーダーを安定的に共同学習し,患者データから有用な表現を獲得することを目指す。
- 提案手法Clin-JEPAは,予測器とエンコーダーを段階的に学習させることで,ロールアウトの不安定性を克服した。
- MIMIC-IV ICUデータを用いた評価で,提案手法はベースラインと比較してロールアウトのドリフトを抑制し,臨床的に識別可能な潜在空間を学習した。
- 単一のバックボーンで複数のリスク予測タスクにおいて高い性能(AUROC 0.851, 0.883)を達成し,既存手法を上回った。
大規模言語モデルにおける人格の相違を利用した文化的な調整(学習不要) [cs.CL, cs.AI, cs.CY]目的:大規模言語モデルの文化的な偏りを是正するための手法
- 倫理的な判断を伴う意思決定において,大規模言語モデルの利用が増加しており,その公平性が重要視されている。
- 既存手法は,国ごとのデータやモデル内部へのアクセスを必要とし,商用APIでは適用が困難であった。
- 公開データのみを用い,推論時に人格間の相違を利用することで,文化的な偏りを軽減することを目的とする。
- DISCAは,World-Values-Surveyに基づいた人格エージェントの相違を利用し,文化的誤alignmentをMultiTPで10-24%削減した。
- DISCAは,オープンエンドのシナリオにおいても,2-7%の改善を示し,モデルの重みを変更せずに達成された。
- 推論時の調整は,ファインチューニングに代わるスケーラブルな方法であり,多様な倫理的価値観に対応できる。
患者管理アラートシステムのための条件付き異常検知手法 [cs.LG]目的:患者管理アラートシステムにおける条件付き異常の検知
- 医療データの分析は,患者ケアの質を向上させ,予後を改善する上で不可欠である。
- 既存の異常検知手法では,データの一部のみに着目した異常の検出が困難であった。
- 特定の属性値に依存した異常を検知することで,より精度の高いアラートシステムを実現する。
- 提案手法は,距離指標と指標学習を用いることで,異常検知の性能を最適化した。
- 肺炎患者の入院決定や,ヘパリン誘発血小板減少症のHPF4検査オーダーの異常検知において有効性が確認された。
- 本研究は,実際の医療データを用いて,条件付き異常検知の有用性を示した。
Pi-Seriniを用いたエージェント型検索の再検討:語彙的検索で十分か? [cs.IR, cs.AI, cs.CL]目的:深層研究システムにおける語彙的検索の有効性評価
- LLMの能力向上に伴い,情報検索の役割が再考されつつある。
- 従来の検索手法では,LLMの潜在能力を十分に引き出せていない可能性がある。
- LLMとの連携において,語彙的検索の性能上限を明らかにすること。
- Pi-Seriniとgpt-5.5の組み合わせは,BrowseComp-Plusにおいて83.1%の正答率と94.7%の証拠提示再現率を達成した。
- BM25のチューニングにより,正答率が18.0%,証拠提示再現率が11.1%向上することが確認された。
- 検索深度を増やすことで,証拠提示再現率がさらに25.3%向上した。
汎化チューリングテスト:知能比較の基盤 [cs.AI, cs.CL, cs.LG]目的:任意の主体能力の比較のための形式的枠組み
- AI研究において,知能の客観的な評価基準の確立が重要である。
- 既存の評価方法はデータセットやタスクに依存し,汎用性に欠ける。
- データセットやタスクに依存しない知能の相対的な順位付けを目指す。
- 汎化チューリングテスト(GTT)を定義し,主体間の識別不能性に基づいて知能を比較する。
- GTTは推移性を持つ条件のもとで,主体を等価クラスに分類する順序付けを導く。
- 近年のモデルを用いた実験により,既存のランキングと整合性のある結果が得られた。
マスク化生成Transformerは画像編集に必要なもの [cs.CV, cs.LG]目的:画像編集におけるMasked Generative Transformer(MGT)の有効性
- 画像編集技術は,多様な応用分野で重要であり,その進歩が求められている。
- 拡散モデルは強力だが,編集領域以外の意図しない箇所への影響が課題となっている。
- MGTを用いることで,編集領域を局所的に制御し,不要な影響を抑制することを目指す。
- EditMGTは,MGTを基盤とする新しい画像編集フレームワークであり,従来の拡散モデルと比較して編集速度が6倍向上する。
- EditMGTは,クロスアテンションマップの集約とリージョンホールドサンプリングにより,編集領域の局所性を高めている。
- 2Mサンプルからなる高解像度編集データセットCrispEdit-2Mを用いて,最先端の性能を達成している。
BenchCAD:プログラムによるCADのための包括的な業界標準ベンチマーク [cs.DC, cs.CL, cs.CL, cs.AI, cs.CV, cs.SE]目的:産業用CADコード生成の評価基準
- 製造業における設計・製造の効率化に貢献するCAD自動化の重要性が高まっている。
- 既存のベンチマークでは,実務的なCAD環境における性能評価が不十分であった。
- マルチモーダル大規模言語モデルの産業用CAD分野への応用可能性を探求し,その限界を明らかにする。
- BenchCADは,106の産業用部品ファミリー,17,900の実行検証済みCadQueryプログラムを含む統一ベンチマークである。
- 現在の最先端モデルは,外形形状の認識はできるものの,忠実なパラメータCADプログラムの生成には課題があることが示された。
- ファインチューニングや強化学習は性能を向上させるものの,未知の部品ファミリーへの汎化性能は限定的である。
BEACON:ゲームプレイデータからの行動指紋学習のためのマルチモーダルデータセット [cs.CR, cs.AI, cs.CV, cs.LG, cs.NI]目的:ゲームプレイデータからの行動指紋学習を目的とするマルチモーダルデータセット
- 高リスクなデジタル環境では継続的な認証が重要であり,その実現には詳細な行動シグナルが必要不可欠である。
- 既存のベンチマークは,規模が小さい,単一のセンシングに限定される,環境情報の同期がないなどの課題を抱えている。
- 本研究は,これらの課題を解決し,高精度な行動生体認証技術の開発を促進することを目的とする。
- BEACONデータセットは,競技性の高いValorantゲームプレイにおける多様なスキル層を捉えた,大規模なマルチモーダルデータセットである。
- 約430GBの同期された多様なモダリティデータ(マウス,キーストローク,ネットワークパケット,画面記録など)を含み,行動生体認証の厳密なストレステストを提供する。
- 本データセットとコードはHugging FaceおよびGitHubで公開され,次世代の行動指紋認証・セキュリティモデルの評価のための再現可能なベンチマークとなる。
決定を記憶し,記述を忘れる:エージェントメモリのためのレート歪みフレームワーク [cs.AI]目的:エージェントメモリにおけるレート歪み問題の定式化
- 長期的なタスク遂行において,限られたメモリ内で効率的に過去の情報を保持することが重要である。
- 既存のメモリ機構は,記述的な基準に基づいて経験を整理するため,意思決定に不可欠な情報を失う可能性がある。
- 意思決定の質を維持するために必要な履歴間の区別を保持するメモリの最適なトレードオフを確立すること。
- 本研究では,意思決定に影響を与える情報を正確に保持するための「忘却境界」を数学的に導出した。
- 提案手法DeMemは,意思決定の競合が生じる場合にのみメモリを更新することで,限られたメモリ予算内で高い性能を発揮する。
- シミュレーションと会話ベンチマークの両方で,記述よりも意思決定に重要な区別を保存するメモリの有効性が確認された。
CADBench:AI支援CADプログラム生成のためのマルチモーダルベンチマーク [cs.CV, cs.AI]目的:AI支援設計のためのCADプログラム生成に関する評価基準
- AIを活用した設計は効率化に貢献するが,その進捗を客観的に評価する基準が重要である。
- 既存の評価は,データセット,モダリティ,評価指標が分断されており,公平な比較が困難である。
- 多様な入力と評価指標を用いた統一的なベンチマークにより,CADプログラム生成の進捗を正確に測る。
- CADBenchは,DeepCAD,Fusion 360等のデータセットを含む18,000件の評価サンプルを提供する。
- メッシュ,レンダリング画像など5種類の入力モダリティと,幾何学的忠実度,実行可能性等の6つの評価指標に対応。
- 専門モデルは理想的な入力下で優位性を示すが,複雑な形状やモダリティの変化に弱いという課題が明らかになった。
重要な箇所を計算:自己最適化言語モデル [cs.LG, cs.CL]目的:言語モデルの推論効率向上
- 大規模言語モデルの利用拡大には,計算コストの削減が不可欠である。
- 既存手法は均一な計算予算を適用するため,トークンごとの難易度の違いに対応できていない。
- トークン難易度に応じた動的な計算予算配分により,効率的な推論を目指す。
- 自己最適化言語モデル(SOL)は,ベースモデルを変更せずに効率を制御するポリシーネットワークを導入した。
- SOLは,アテンションスパース性,活性化プルーニング,量子化ビット幅を調整し,計算効率と精度を両立した。
- 実験の結果,SOLは既存手法と比較してMMLUの精度を最大7.3%向上させ,品質と効率のトレードオフを改善した。
AssayBench:LLMおよびエージェントのためのアッセイレベルのバーチャルセルベンチマーク [cs.LG, cs.AI, q-bio.QM]目的:バーチャルセルにおける表現型スクリーニング予測のベンチマーク
- 生物学的発見の加速に貢献しうる,細胞挙動の計算モデル構築の重要性が高まっている。
- 既存のベンチマークは分子レベルのデータに偏っており,表現型に基づいた創薬ワークフローとの整合性に課題がある。
- 多様な細胞表現型に対するin silicoスクリーニング予測の性能評価を可能にするベンチマークの提供を目指す。
- AssayBenchは,1,920件のCRISPRスクリーニングデータから構築された表現型スクリーニング予測のためのベンチマークである。
- 遺伝子ランク予測タスクとして定式化し,異質アッセイ間の性能比較のための指標として調整済みnDCGを導入した。
- 評価の結果,既存手法は実証的な性能上限に及ばず,ゼロショット汎用LLMが生物学特化型LLMや学習ベースラインを上回った。
ニューラル重みノルム=コルモゴロフ複雑性 [cs.CL, cs.IR, cs.LG, cs.IT, math.IT]目的:バイナリ文字列を出力するループ型ニューラルネットワークの最小重みノルムと,その文字列のコルモゴロフ複雑性の関係性
- 機械学習モデルの汎化性能向上は重要課題であり,正則化手法はその鍵となる。
- 重み減衰が有効である理由が理論的に明確に説明されていなかった。
- 重み減衰がSolomonoffの普遍事前分布と一致することを示す。
- 固定精度において,ニューラルネットワークの重みノルムは,出力される文字列のコルモゴロフ複雑性と密接な関係があることが示された。
- 重み減衰が,計算可能な関数に対する最適な事前分布であるSolomonoffの普遍事前分布と一致することが証明された。
- 任意の重みノルムにおいて同様の結果が得られ,固定精度が本研究の重要な前提条件であることが強調された。
LoKA:大規模推薦モデル向け低精度カーネル応用 [cs.LG, cs.AI]目的:大規模推薦モデルにおける低精度演算の適用可能性向上
- 推薦システムは,現代のオンラインサービスの根幹であり,その効率化は極めて重要である。
- 推薦モデルは数値的に敏感であり,低精度化による精度劣化が課題となっていた。
- 低精度演算を安全に適用し,推薦モデルの性能と効率を両立させることを目指す。
- LoKAは,低精度演算の適用箇所をプロファイリングし,モデルを調整することで精度劣化を抑制する。
- 統計に基づいたオンラインベンチマーク手法LoKA Probeにより,FP8適用の安全な範囲を特定する。
- LoKA Dispatchは,統計的知見に基づき,精度要件を満たす最速のFP8カーネルを選択する。
MDPにおける確率的安全性を保証するシールド [cs.LO, cs.AI]目的:MDPにおける確率的安全性の保証
- 自律エージェントの安全性を確保する上で,モデルベースの手法は重要である。
- 確率的安全性を扱うシールドの設計は,古典的なシールドに比べて複雑である。
- 確率的安全性の枠組みにおけるシールドの理論的限界と構築手法を明らかにすること。
- 確率的安全性の保証と許容性の両立には限界があることが示された。
- 古典的なシールドを拡張した新しいシールドを提案し,安全性の保証を提供した。
- オフラインおよびオンラインのシールド構築方法が,計算可能性とともに実用性を示す。
オンポリシー蒸留の解明:効果と弊害,そしてその理由 [cs.LG, cs.AI]目的:推論モデルの学習における,オンポリシー蒸留の有効性と問題点を明らかにすること
- 大規模言語モデルの性能向上は,より複雑なタスクへの応用を可能にする上で重要である。
- オンポリシー蒸留の最適な利用条件が不明であり,教師モデルの選択やコンテキストの指定が課題となっている。
- トークンレベルでの分析を通じて,オンポリシー蒸留の効果を最大限に引き出すための指針を示すこと
- 本研究では,訓練を必要としない診断フレームワークを開発し,トークンごとの理想的な勾配を推定した。
- その結果,蒸留誘導は誤ったロールアウトにおいて理想的な勾配との整合性が高く,正解ロールアウトではノイズとなることが示された。
- 最適な蒸留コンテキストは,生徒モデルの能力とタスクによって異なり,普遍的な設定は存在しないことが明らかになった。
V4FinBench:企業倒産予測における表形式ファウンデーションモデル,LLM,および標準手法のベンチマーク [cs.LG]目的:企業倒産予測のためのベンチマークデータセットV4FinBenchの提供
- 企業倒産予測は,経済的損失を防ぐ上で重要な金融タスクである。
- 公開されている企業倒産予測データセットは,規模が小さく,利用可能なデータが限られている。
- 大規模かつ多様なデータセットを用いて,より高精度な倒産予測モデルを開発すること。
- V4FinBenchは,V4地域の100万件を超える企業データを提供し,現実的なクラス不均衡下での評価を可能にする。
- TabPFNをクラス不均衡に配慮してファインチューニングすることで,長期間の予測において勾配ブースティングと同等またはそれ以上の性能を達成した。
- 一方,Llama-3-8Bは,すべての予測期間において勾配ブースティングよりもROC-AUCが低く,F1スコアも低かった。
RubricEM:ルーブリックによる方策分解を用いたメタRL,検証可能な報酬を超える [cs.HC, cs.CL, cs.LG]目的:深層研究エージェントの訓練における,ルーブリックに基づく方策分解とメタ方策進化の枠組み
- 深層学習エージェントの訓練は,計画,検索,証拠評価,長文レポート作成といった複雑なタスクを可能にする。
- 従来の強化学習は,明確な報酬が定義できるタスクに限定され,複雑な研究タスクには適用が難しい。
- ルーブリックを活用し,方策の構造化,フィードバック,エージェントの記憶を統一することで,複雑なタスクの学習を促進する。
- RubricEMは,研究タスクを段階的に認識させ,各段階で自己生成されたルーブリックに基づいて計画,証拠収集,レビュー,合成を行う。
- Stage-Structured GRPOを用いて,段階的なルーブリック評価に基づいた,より密な意味的フィードバックを長期的な最適化に提供する。
- RubricEM-8Bは,4つの長文研究ベンチマークで優れた性能を示し,オープンソースモデルを凌駕し,プロプライエタリな深層研究システムに匹敵する結果を得た。
LLMガードレイル分類器の形式的保証:レッドチーミングを超えて [cs.LG]目的:LLMガードレイル分類器の形式的保証の提供
- 言語モデルの安全性確保は,社会実装において不可欠であり,そのための技術的進歩が求められている。
- 既存のガードレイル分類器は,テストでは有効に見えるものの,安全性に関して形式的な保証を提供していないという課題がある。
- 本研究は,ガードレイル分類器の安全性を形式的に検証し,潜在的な脆弱性を明らかにすることを目的とする。
- 分類器の活性化空間において有害領域を凸形状として定義することで,効率的な形式検証を可能にした。
- 構築したフレームワークを適用した結果,既存のガードレイル分類器には検証可能な安全性上の欠陥が存在することが示された。
- BERTの安全性保証は他のモデルと比較して不安定であり,保守的な閾値を採用しない限り安全性を確保できないことが明らかになった。
DataMaster:機械学習のための自律型データエンジニアリングへ [cs.RO, cs.AR, cs.LG, cs.AI]目的:機械学習アルゴリズムを固定した際のデータ側の最適化
- 機械学習の性能向上には,モデルや計算資源だけでなく,データの重要性が増している。
- データエンジニアリングは,依然として手動で行われることが多く,効率が悪い。
- データ探索,選択,変換を自動化し,データエンジニアリングの効率化を目指す。
- DataMasterは,ツリー構造探索,共有データプール,グローバルメモリを統合したデータエージェントフレームワークである。
- MLE-Bench Liteにおいて,初期スコアと比較してメダル獲得率を32.27%向上させた。
- PostTrainBenchのGPQAタスクでは,instructモデルを上回る性能(31.02% vs 30.35%)を示した。
AIワークフローストアによるパーソナルエージェントの堅牢性向上 [cs.CR, cs.AI]目的:パーソナルエージェントの堅牢性を高めるためのAIワークフローストアの設計
- AIエージェントの利用拡大に伴い,信頼性と安全性の確保が重要課題となっている。
- 従来のAIエージェントは即時的な応答を優先し,ソフトウェア工学的な検証が不十分である。
- 堅牢で再利用可能なAIワークフローを構築し,エージェントの信頼性を向上させることを目指す。
- AIエージェントにおける即時合成のパラダイムは,厳格なソフトウェア工学プロセスを省略し,信頼性やセキュリティ上の脆弱性を生む可能性がある。
- 本研究では,AIワークフローストアを通じて,検証済みの堅牢なワークフローを再利用することで,エージェントの性能を向上させることを提案する。
- 柔軟性と堅牢性のトレードオフを考慮し,従来の「オン・ザ・フライ」パラダイムからの脱却が,より効果的な解決策であると論じる。
制限されたポリシークラスに対する方策勾配の再検討:$k$段階の方策勾配による近視眼的局所最適解からの脱出 [cs.LG, stat.ML]目的:制限されたポリシークラスにおける,近視眼的な局所最適解からの脱出
- 強化学習は,複雑な環境における最適制御を可能とする重要な技術である。
- 制限されたポリシークラスでは,方策勾配法が劣最適解に陥りやすいという課題がある。
- 本研究は,$k$段階の方策勾配法によって,そのような局所最適解からの脱出を目指す。
- 提案手法は,$k$段階の時間窓内のランダム性を組み合わせることで,近視眼的な局所最適解から脱出できる。
- 理論的に,$k$に対して指数関数的に最適な決定論的ポリシーに近づくことが保証される。
- 投影勾配降下法やミラー降下法を用いることで,$O(\frac{1}{T})$回反復で指数関数的な保証を得られる。
Shepherd: メタエージェントを正式な実行トレースで強化するランタイム基盤 [cs.CL, cs.AI, cs.PL, cs.SE]目的:メタエージェントの操作の形式化
- AIエージェントの複雑化に伴い,その挙動の検証と制御が重要になっている。
- エージェントの実行環境の再現性確保と,効率的なデバッグが課題となっている。
- エージェントの実行トレースを形式化し,効率的な分岐と再実行を可能にすること。
- Shepherdは,エージェントと環境の相互作用をGitライクな実行トレースとして記録する。
- これにより,過去の状態を分岐・再生することが可能となり,Dockerよりも高速にプロセスとファイルシステムを分岐できる。
- ペアコーディングの合格率向上,メタ最適化,Tree-RLの性能改善といった結果が得られており,メタエージェントプログラミングの効率的な基盤となることが示された。
信頼度誘導拡散データ拡張によるバングラ複合文字認識の性能向上 [cs.CV, cs.AI]目的:バングラ複合文字認識における性能向上
- 文字認識技術は,デジタル化された文書の処理や情報の抽出において重要な役割を担う。
- バングラ文字は複雑な構造と多様な書式を持つため,特に複合文字の認識は困難を伴う。
- 高品質な学習データ不足を補い,多様な書式への汎化性能を高めることが課題である。
- 提案手法では,信頼度を考慮した拡散データ拡張により,低解像度のバングラ複合文字認識の性能を向上させた。
- Squeeze-and-Excitation機構を組み込んだ拡散モデルと,信頼度に基づくフィルタリングを導入した点が特徴である。
- AIBanglaデータセットでの実験により,ResNet50,DenseNet121,VGG16,Vision Transformerなどのアーキテクチャで一貫した性能向上が確認された。最高精度は89.2%を達成し,既存のベンチマークを大幅に上回る結果となった。
多次元最適輸送とシュレーディンガー橋による最適かつスケーラブルなMAPF [cs.LG, cs.MA, cs.RO]目的:多エージェントパス計画問題における最適解の導出
- ロボットの経路計画は,自動運転や倉庫管理など,様々な分野で重要である。
- 複数のロボットが効率的に目標地点へ移動するMAPF問題は,計算コストが高い。
- 多次元最適輸送とシュレーディンガー橋を用いて,MAPFのスケーラビリティを向上させる。
- MAPF問題を多次元最適輸送問題として定式化し,線形計画問題に変換することで効率化を実現した。
- シュレーディンガー橋を用いることで,大規模問題に対するスケーラビリティを向上させた。
- 提案手法は,実験により最適性とスケーラビリティが確認された。
エージェント型強化学習における動的なスキルライフサイクル管理 [cs.LG, cs.CL]目的:エージェント型強化学習のための動的なスキルライフサイクル管理
- 複雑なタスク解決において,LLMエージェントは外部スキルに依存しており,その重要性は増している。
- 既存手法はスキルの活用が固定的であり,スキルセットの最適な組み合わせを決定できない。
- タスクや段階に応じた最適なスキルセットを動的に更新する枠組みを提案し,性能向上を目指す。
- 提案手法SLIMは,ALFWorldとSearchQAにおいて,既存手法を平均7.1%上回る性能を示した。
- SLIMでは,一部のスキルはポリシーに吸収され,他のスキルは外部価値を提供し続けることが確認された。
- スキルベースのエージェント型強化学習における,より一般的なパラダイムを支持する結果が得られた。
DECO:エンドデバイス向けに高密度Transformerと同等の性能を持つスパースな混合エキスパートモデル [cs.HC, cs.LG, cs.CL]目的:エンドデバイスにおける高性能,低計算コスト,小容量ストレージの実現
- 大規模モデルの性能向上は重要だが,モデルサイズの増大が課題となっている。
- 混合エキスパートモデルはパラメータ数が多い為,ストレージやメモリアクセスがボトルネックとなる。
- DECOは,モデルサイズを抑えつつ高密度Transformerと同等の性能を目指す。
- DECOは,専門家を20%のみ活性化させながら,高密度モデルの性能を達成し,既存のMoEベースラインを上回る。
- ReLUベースのルーティングと学習可能な専門家ごとのスケーリングにより,ルーティングされた専門家と共有された専門家の貢献度を適応的に調整する。
- 専用の高速化カーネルは,実機での推論において高密度推論と比較して3.00倍の高速化を実現する。
ニューラル傾きを用いたレヴィ過程駆動確率微分方程式の変分推論 [cs.LG, cs.AI, cs.CV, cs.RO, stat.ML]目的:レヴィ過程駆動確率微分方程式における変分推論手法
- 金融,気候科学,安全重視AIなど,予測システムの信頼性向上において極端事象のモデリングは重要である。
- レヴィ過程はジャンプや重い裾を捉えるのに適しているが,ベイズ推論は既存手法では困難である。
- ニューラルネットワークによる柔軟な変分族を構築し,レヴィ過程のジャンプ構造を捉えつつ,効率的な推論を実現する。
- 提案手法は,レヴィ測度をニューラルネットワークで再重み付けするニューラル指数傾きフレームワークを導入した。
- このパラメトリック化は,ガウス近似に依存せず,ジャンプ構造を保持しつつ計算可能である。
- 合成データおよび実世界データにおいて,ガウスベースの手法が失敗する領域でも,ジャンプダイナミクスを正確に捉え,信頼性の高い事後推論ができた。
ELF:埋め込み言語フロー [cs.CL, cs.AI, cs.LG]目的:連続埋め込み空間における拡散モデルのクラス
- 画像や動画生成で成功した拡散モデルを言語モデルへ応用する重要性が高まっている。
- 既存の拡散言語モデルは離散的なトークンを扱うことが多く,性能向上の余地がある。
- 連続埋め込み空間での拡散モデル構築により,言語生成の質と効率を向上させる。
- ELFは,既存の離散および連続DLMと比較して,より少ないサンプリングステップで優れた生成品質を達成した。
- 分類器フリーガイダンスなどの画像領域の技術を容易に適用できる点が特徴である。
- 本研究は,効果的な連続DLMへの有望な道を示すものである。
数論における人工知能:アルゴリズム生成と推測検証のためのLLMとアンサンブル手法 [cs.CC, cs.RO, math.NT, cs.AI]目的:数論におけるアルゴリズム生成と推測検証のための人工知能の応用
- 数論は数学の基礎であり,暗号理論などに応用される重要な分野である。
- 数論問題の多くは計算量が膨大であり,効率的な解法が求められている。
- LLMや機械学習を用いて数論問題の解決を試み,新たな知見を得ることを目指す。
- 大規模言語モデルQwen2.5-Math-7B-Instructが,数論のアルゴリズム問題において高い精度(0.95以上)を示した。
- ディリクレL関数の初期非自明零点から,その導手qを予測するLightGBM分類器が,高い精度(93.9%以上)で推測を検証した。
- この結果は,初期零点の統計的性質が導手を決定するとの通俗的な推測を裏付けるものである。
構造的知識のアンラーニング:近傍拡張分布形成による手法 [cs.CL, cs.LG]目的:大規模言語モデルにおける構造化知識のアンラーニング
- LLMの能力向上に伴い,安全性,プライバシー,知的財産に関する問題が顕在化している。
- 既存研究は文レベルのデータに焦点を当て,構造化データにおける関係性や推論知識を無視している。
- 構造化知識グラフ(KG)を用いた評価ベンチマークを構築し,アンラーニング効果を詳細に分析する。
- 提案手法NEDSは,知識編集およびアンラーニングベンチマークにおいて高い性能を示した(アンラーニング有効性: 1.000,局所性: 0.839)。
- NEDSはグラフの連結性を活用し,関連する近傍ノードを特定することで,忘却したい事実と意味的近傍の境界を明確にする。
- 直接的な事実の削除,推論による漏洩,破滅的忘却の3つの効果を分離して評価することが可能となった。
ビデオオブジェクト中心学習における時間的一貫性の再考:予測から対応関係へ [cs.CV, cs.AI, cs.LG]目的:ビデオオブジェクト中心学習における時間的一貫性の維持
- ビデオ理解において,オブジェクトの追跡と認識は重要な課題である。特に,時間的な一貫性を保つことが不可欠。
- 既存手法では,時間的予測に学習されたダイナミクスモジュールを用いるため,計算コストが高いという問題があった。
- 事前学習済みの特徴量を利用し,学習パラメータを用いない時間モデリングの実現を目指す。
- 本研究では,学習された遷移関数を決定論的な二部マッチングに置き換える「Grounded Correspondence」フレームワークを提案。
- このフレームワークは,時間モデリングのための学習パラメータを必要とせず,MOVi-D,MOVi-E,YouTube-VISで競争力のある性能を達成。
- 特徴量に基づくオブジェクトの一貫性を保つことで,高コストな時間予測を回避する。
統一的なPair-GRPOファミリー:安定性と汎用性を備えたRLアライメントのための暗黙的から明示的な選好制約へ [cs.LG, cs.AI, math.ST, stat.TH]目的:強化学習による人間からの選好を用いた言語モデルのアライメント手法に関する研究
- 言語モデルのアライメントは,モデルの挙動を人間の意図に沿わせる上で不可欠であり,安全性や倫理的側面にも関わる重要な課題である。
- 従来のペアワイズ選好学習では,ポリシー更新の不安定性,勾配方向の曖昧さ,解釈の難しさ,勾配分散の高さといった問題が存在する。
- Pair-GRPOファミリーを用いて,これらの問題を体系的に解決し,安定性と汎用性の高いアライメント手法を確立することを目指す。
- 提案手法であるSoft-Pair-GRPOは,既存のGRPOに対して,スカラー報酬を二値のペアワイズ選好報酬に置き換える最小限の変更を加えたものである。
- 理論的に,Soft-Pair-GRPOの勾配は,現在のポリシー周辺での一次テイラー展開において,標準的なGRPOの勾配の正のスカラー倍であることが証明された。
- HH-RLHFやUltraFeedbackなどのベンチマークにおいて,提案手法は最先端のベースラインを凌駕し,アライメント品質,選好勝率,学習安定性,汎化性能において優れた結果を示した。
統計物理学とニューラルネットワークに関する講義ノート [cond-mat.dis-nn, cs.LG, hep-th]目的:統計物理学における古典的なテーマ,特にニューラルネットワークと深層学習に関連するテーマの紹介
- 統計物理学は複雑系の理解に不可欠であり,情報科学や機械学習に応用が広がっている。
- ニューラルネットワークの理論的基盤が不明確であり,物理学的な視点からの理解が求められている。
- 統計物理学の概念を応用し,ニューラルネットワークの学習アルゴリズムや深層学習モデルを解明すること。
- 本研究では,相転移や繰り込み群といった統計物理学の概念を,物理学の知識がない読者にも理解できるように解説している。
- ホップフィールドネットワークやボルツマンマシンといったニューラルネットワークモデルと,スピンガラスモデルとの関連性を示している。
- 制限ボルツマンマシンにおける学習アルゴリズムを説明し,深層学習モデルの発展におけるその役割を考察している。
ReasonSTL:ツール支援型プロセス報酬学習による自然言語と信号時間論理の架け橋 [cs.AI, cs.RO, cs.SY, eess.SY]目的:自然言語から信号時間論理(STL)への変換
- 自律システムやサイバー物理システムにおいて,時間的制約を形式的に記述するSTLの利用が不可欠である。
- ユーザーはSTLに精通していない場合が多く,手動での記述は困難であり,大規模なシステムには適用できない。
- 商用LLMの利用コストやプライバシー問題に対処し,透明性,低コスト,プライバシー保護を実現する。
- ReasonSTLは,ローカルのオープンソースLLMを用いて自然言語からSTLを生成するフレームワークである。
- 変換プロセスを明示的な推論,決定的なツール呼び出し,構造化された数式構築に分解し,プロセス報酬学習を導入した。
- 実験の結果,ReasonSTLで学習した4Bモデルは,自動評価と人間による評価の両方で最先端の性能を示した。
Delulu:Fill-in-the-Middleタスクにおけるコードの幻覚検出のための多言語ベンチマーク [cs.LG, cs.AI]目的:コードの幻覚検出
- コード生成AIの信頼性向上は,ソフトウェア開発の効率化と品質確保に不可欠である。
- コード生成AIは,一見正しそうだが実際には誤ったコード(幻覚)を生成することがある。
- コード生成AIが生成する幻覚を検出し,より安全なコード生成を実現すること。
- Deluluは,7言語,4種類の幻覚を網羅する1,951件のFIMサンプルからなる多言語ベンチマークである。
- 評価の結果,最も性能の良いモデルでもpass@1は84.5%に留まり,どのモデルファミリーもEdit Similarity 0.77を超えなかった。
- この結果は,Deluluがタスク固有の難易度を浮き彫りにしていることを示唆する。
