arXiv雑要約
AI - 2026/05/15 公開
動的潜在的ルーティング [cs.LG, cs.AI, cs.CL]目的:時間変動する報酬関数を持つマルコフ決定過程における部分方策の時間的連結
- 強化学習は,複雑な環境下での意思決定を自動化する上で重要である。特に時間変動する状況への対応が求められる。
- 既存手法では,複雑な報酬構造や少ないデータでの適応に課題があり,最適な方策の学習が困難である。
- 動的潜在的ルーティングにより,少ないデータでも効率的に最適な方策を学習し,高い性能を実現することを目指す。
- 提案手法DLRは,離散潜在コード,ルーティング方策,モデルパラメータを同時に学習し,単一の学習段階で動的探索を行う。
- DLRは,低データ微調整において,4つのデータセットと6つのモデルで,教師あり微調整と同等かそれ以上の性能を発揮し,平均で+6.6パーセントポイントの改善を達成した。
- メカニズム分析と標的コードアブレーションにより,DLRが明確な因果関係を持つ構造化されたルーティング行動を学習することが示された。
AIM-DDI:薬剤間相互作用予測のためのモデル非依存マルチモーダル統合モジュール [cs.LG, cs.AI]目的:薬剤間相互作用予測における未学習薬剤への汎化性能向上
- 薬剤の併用による有害な相互作用は臨床リスクとなり,安全な薬剤処方の実現が重要である。
- 既存のマルチモーダルモデルは,特定の予測アーキテクチャに依存した融合機構を用いるため,再利用性が低い。
- モデルに依存しないモジュールを開発し,多様な薬剤情報を統合することで汎化性能を向上させる。
- 提案手法AIM-DDIは,構造,化学,意味的情報を共有潜在空間でトークンとして表現し,統一された融合モジュールで依存関係をモデル化する。
- 様々なDDIモデルとDrugBankベースの設定において,AIM-DDIは予測性能を安定して向上させることが示された。
- 特に,テストペアに含まれる薬剤が学習データに存在しない両側未学習設定において,AIM-DDIの効果が顕著であった。
従属サンプリング下における最近傍半径 [cs.LG, math.ST, stat.ML, stat.TH]目的:従属サンプリング下における最近傍半径の性質
- 機械学習の基礎であり,データ分析における重要な手法であるため。
- 従来の解析は独立サンプリングを仮定しており,現実のデータへの適用が難しい場合がある。
- データ間の依存関係が最近傍探索に与える影響を明らかにすること。
- 強い混合依存性条件下では,依存性が最近傍のスケールに影響を与えないことが示された。
- 多項式混合条件下では,ほとんど確実に収束が確認された。幾何学的混合条件下では,鋭い非漸近的モーメント境界が得られた。
- これらの結果は,高次元データにも適用可能であり,実験的にも理論的に裏付けられた。
CrystalReasoner:特性条件付き結晶構造生成のための推論と強化学習 [cs.AI]目的:特性条件付き結晶構造生成のための推論と強化学習の統合
- 結晶構造探索は,新材料開発において不可欠であり,計算科学と材料科学の発展に貢献する。
- 既存の生成モデルは,原子レベルの精度や高次の科学的知識の統合が不十分であり,不安定または望ましくない構造を生成しやすい。
- 自然言語による指示から,有効で安定かつ特性を満たす結晶構造を生成するための新たな手法を開発すること。
- CrystalReasonerは,物理的制約を思考トークンとして導入し,自然言語と3次元構造の間のギャップを埋める。
- 強化学習を用いることで,物理的妥当性,化学的整合性,熱力学的安定性を向上させ,特性条件付き生成性能を改善した。
- 思考の長さは原子数が増加するにつれて適応的に変化し,複雑な構造の生成にも対応可能であることを示した。
メカニズム解釈のための例示分割 [cs.LG]目的:大規模言語モデルの活性化からの解釈可能な特徴辞書の構築
- 大規模言語モデルの内部動作を理解することは,その能力向上や安全性確保に不可欠である。
- 既存の特徴抽出手法は計算コストが高く,モデルや学習段階ごとの比較が困難である。
- 活性化空間の幾何学的な構造を利用し,効率的かつ比較可能な特徴辞書を構築することを目指す。
- 例示分割(EP)は,既存の疎な自己符号化器(SAE)と比較して,約1000分の1のトークン数で解釈可能な特徴辞書を構築できる。
- Gemma-2-2Bにおいて,EPの辞書領域は解釈可能であり,因果介入をサポートする:指示チューニングされたGemmaにおける拒否は,保持された拒否を崩壊させることができる例示のablatingによって集中する。
- EPは,AxBenchの潜在的概念検出において,GemmaScope SAEのリーダーボードエントリを上回り,SAE-Aに匹敵する性能を発揮し,構築計算コストは大幅に低い。
分布ロバストな適応タスクサンプリングによるマルチタスク強化学習 [cs.LG]目的:マルチタスク強化学習におけるデータ配分不均衡の改善
- 複数のタスクを同時に効率的に学習する強化学習の重要性が高まっている。
- 容易なタスクにデータが集中し,困難なタスクの学習が遅れるという課題がある。
- 解決が遅れているタスクを優先的にサンプリングすることで,学習のバランスを改善する。
- DRATSは,最悪タスクのパフォーマンスとデータ効率を向上させる。
- マルチタスク強化学習を実現可能性問題として定式化し,ミニマックス目的関数を導出した。
- DRATSは,タスクの目標報酬との差を最小化することで,タスクサンプリングを適応的に行う。
物理情報に基づく動的システムの同定のためのランダム化された原子特徴モデル [eess.SY, cs.LG, cs.SY]目的:動的システムの同定
- 物理システムのモデリングは,工学設計や制御において不可欠である。
- 既存手法では,データの不足やシステムの複雑性により,正確な同定が困難である。
- 物理情報を活用し,少ないデータでもロバストな同定を実現すること。
- 安定原子特徴のランダム化により,減衰振動を含む非定常システムの同定が可能となった。
- 提案手法は,安定性のマージンや時間領域/周波数領域の誤差範囲などの物理的制約を直接組み込める。
- 数値実験により,提案手法が少ないデータでも,制約付きインパルス応答の回復性能が向上することが示された。
ヘラクレス:金融知能のためのエージェント的ベンチマーク [cs.CL, cs.CL, cs.AI, cs.CL]目的:金融に関する専門職務を信頼性高く遂行する能力の評価
- AI技術の発展に伴い,金融分野におけるAIの応用が重要視されている。
- 既存のベンチマークは,金融業務の全体像を捉えきれていない。
- 金融における複雑なワークフローを評価し,AIの課題を明確にすること。
- 既存の最先端エージェントは,取引と市場分析は比較的得意だが,ヘッジングと監査で著しく苦戦する。
- 長期的な連携,状態の一貫性,構造化された検証が,ヘッジングと監査において重要であることが示された。
- 現在のエージェントは,金融的な推論を高リスクな金融ワークフローの確実な実行に変換する能力に課題がある。
過剰な推論痕跡における最小コアの表現幾何学の解明 [cs.AI, cs.LG]目的:言語モデルの推論における必要最小限のステップの特定
- 大規模言語モデルの推論過程の理解は,その性能向上と解釈可能性を高める上で重要である。
- 言語モデルが生成する推論過程は冗長であり,どのステップが予測に不可欠か不明である。
- 推論痕跡から不要なステップを削除し,予測を維持する最小限のコアを特定する。
- 推論痕跡の平均で46%のステップが削除可能であり,元の回答の86%を維持できることが示された。
- 予測の支持は集中しており,上位3ステップで必要性の質量の平均65%を占める。
- 最小コアは,推論の幾何学的構造を明確にし,正誤の分離を改善し,次元削減に貢献する。
RQ-MoE:効率的な入力依存型ベクトル圧縮のためのエキスパート混合による残差量子化 [cs.LG, cs.AI]目的:高次元埋め込みの圧縮
- 埋め込み表現は,様々な機械学習タスクにおいて重要な役割を担う。
- 既存手法では,データの多様な幾何学的構造に対応しきれない場合がある。
- 入力に依存したコードブック適応により,ベクトル量子化の効率向上を目指す。
- RQ-MoEは,MoEとデュアルストリーム量子化を組み合わせたフレームワークである。
- これにより,動的なコードブック構築と並列化されたデコードが可能となる。
- 実験結果から,RQ-MoEは再構成と検索の両方で最先端の性能を示し,既存手法よりも6〜14倍高速にデコードできることが示された。
最大有効コンテキストウィンドウ制約下における正当性に基づいたリポジトリフィルタリング [cs.HC, cs.CL, cs.SE, cs.AI]目的:リポジトリスキャンにおける非コードファイルの排除による,LLMベースのツールにおけるコンテキスト効率の向上
- LLMを活用した開発ツールにおいて,コンテキストウィンドウのサイズは性能に大きく影響する。
- リポジトリには,コンテキストウィンドウを圧迫する非コードファイルが多数含まれている。
- OSレベルのメタデータを用いた高速なフィルタリングにより,必要なコードを優先的にコンテキストに含める。
- 提案手法であるSizeFilterは,1MBの閾値で平均79.6%のトークン削減を実現し,オーバーヘッドは0.30msと低い。
- HybridFilterは,89.3%のトークン削減率と低い分散性を達成した。
- フィルタリング適用時のファイルレベル精度は72%となり,ベースラインの25%と比較して大幅に向上,ハルシネーション頻度も減少した。
逐次データに対する原理的な継続的表現学習のためのモジュール表現:MoRe [cs.LG]目的:継続的表現学習におけるモジュール表現の確立
- 知識を保持しつつ新たなデータに適応する継続的学習は,AIの汎用性向上に不可欠である。
- 既存手法はタスク固有な変更に依存し,表現そのものの構造的安定性が課題となっている。
- データの内在的な構造を反映したモジュール化により,表現の選択的更新と知識の保持を目指す。
- MoReは,表現レベルでモジュール性を識別し,知識を階層的なモジュールに分解する。
- その結果,モジュールの再利用,アライメント,拡張が原理的に可能になり,古いモジュールは保護される。
- 合成ベンチマークとLLMの実装実験により,解釈可能な階層構造と,可塑性・安定性のトレードオフ改善が示された。
LoMETab:表形式データの深層学習におけるランク1アンサンブルを超える手法 [cs.LG, cs.AI]目的:表形式データの深層学習モデルにおける予測の多様性制御と性能向上
- 表形式データの学習は,様々な分野で重要であり,高性能なモデルが求められている。
- 既存手法の性能向上が鈍化しており,モデルの挙動の理解と制御が課題となっている。
- LoMETabは,予測の多様性を制御し,より高性能な表形式データの深層学習モデルを構築することを目指す。
- LoMETabは,既存のBatchEnsemble/TabMのモジュレーションをランクrに一般化することで,仮説クラスを拡大する。
- 実験的に,LoMETabは学習後に測定可能な予測の多様性を示し,アダプターランクrと初期化スケールσinitによって,ペアワイズKL divergenceを制御できることが示された。
- アダプターランクrと初期化スケールσinitを調整することで,データセットに応じて予測性能が変化し,制御可能なアンサンブルファミリーであることが示された。
意味的報酬を用いた強化学習は,アライメント税なしで低リソース言語の拡張を可能にする [cs.CL, cs.LG]目的:低リソース言語拡張におけるアライメント税の軽減
- 大規模言語モデルの活用範囲拡大のため,低リソース言語への適応は重要である。
- 既存手法では,低リソース言語への適応時に,汎用能力の低下(アライメント税)が発生する。
- 意味的報酬を用いた強化学習により,アライメント税を軽減し,低リソース言語の拡張を安全かつ確実に実現する。
- 意味的報酬による強化学習は,トークンレベルの表面的な模倣に固執する教師ありファインチューニングとは異なり,柔軟な表現を促す。
- チベット語-中国語機械翻訳とチベット語見出し生成の実験により,汎用能力を維持しつつ低リソース言語の能力を獲得できることが示された。
- 表面的な一致は少なくなるものの,意味的な質と好みが向上し,限られた教師データ下での転移学習性能も高かった。
拡散モデルは言語モデルのどこに入すべきか?幾何学的な隠れ状態置換 [eess.SY, cs.HC, cs.SY, math.OC, cs.CL, cs.AI]目的:言語モデルにおける拡散モデルの適切な挿入位置の特定
- 言語モデルは自然言語処理の基盤技術であり,その性能向上は様々な応用分野に貢献する。
- 拡散モデルは言語復元やトークン回復において,自己回帰型Transformerに劣ることが課題である。
- 拡散モデルを言語モデルに効果的に組み込み,性能を向上させるための方法を模索する。
- DiHALは,幾何学的な指標を用いて拡散モデルを挿入する層を選定することで,効率的なハイブリッドモデルを実現した。
- 隠れ状態の復元を直接行うのではなく,選択された層の隠れ状態を復元することで,連続空間から離散空間への変換問題を回避した。
- 実験の結果,幾何学的な指標は有効な挿入層を予測し,隠れ状態の復元は従来の拡散モデルよりも改善された。
停滞勾配を安定勾配へ:暗黙的なランドスケープ平滑化によるコヒーレント座標降下法を用いた軽量ゼロ次最適化 [cs.LG, cs.AI]目的:バックプロパゲーションが利用できない状況下におけるゼロ次最適化手法の効率化
- メモリ制約のあるデバイス学習やブラックボックス最適化など,近年その重要性が高まっている分野である。
- 既存手法は,サンプル効率の悪さ,またはランダム推定による分散の大きさというトレードオフに直面している。
- 過去の勾配情報を有効活用し,サンプル効率と安定性を両立する新たな最適化手法を提案する。
- 提案手法CoCDは,決定論的かつサンプル効率が高く,既存のBCCDと比較してサンプル効率と収束性で大幅な性能向上を示す。
- CoCDは,過去の勾配を有効活用することで,クエリ数を$O(1)$に抑えながら,全体的な下降方向を維持する。
- 有限差分ステップサイズを大きくすることで最適化ランドスケープが平滑化され,収束安定性が向上するという意外な知見が得られた。
記号ベース分類のための最適パターン検出木 [cs.LG, cs.AI, math.OC]目的:データにおける最適パターン検出
- 医療,リスク評価など多様な分野でデータからのパターン発見が重要である。
- 深層学習モデルとは異なり,解釈可能なルール抽出が課題となっていた。
- データ内に存在する最適ルールを抽出し,誤分類率を最小化すること。
- 提案手法であるOPDTは,混合整数計画法を用いて最適パターンを検出する。
- ドメイン知識や制約を組み込むBSCフレームワークにより,柔軟なモデル構築が可能である。
- 中規模データセットにおいて,妥当な時間内に最適性を保証したパターン検出に成功した。
不完全情報ゲームにおける自己対戦探索の加速のためのデータ拡張型ゲーム開始戦略 [cs.LG, cs.AI, cs.GT, cs.MA]目的:不完全情報ゲームにおける自己対戦探索の加速
- 大規模なゲームにおいて,最適戦略を見つけることは計算資源の制約から困難である。
- 報酬が疎であり,長期間にわたる探索が難しいため,効率的な探索手法が求められている。
- 熟練者のプレイデータを用いて探索を効率化し,より迅速に均衡状態に近づくことを目指す。
- データ拡張型ゲーム開始戦略(DAGS)により,限られた計算資源で,より低いエクスプロイタビリティを実現した。
- ゲーム開始状態の分布を拡張することで,偏った均衡状態が生じる可能性があるが,その緩和策も提示した。
- 既存のOpenSpielゲームにおいて,探索の難易度と状態数を大幅に増加させたベンチマーク環境を公開した。
NodeSynth: AI評価のための社会的に整合性のある合成データ [cs.CL, cs.LG, cs.CL]目的:AIモデル評価のための社会的に整合性のある合成データ生成手法
- AIの安全性評価は重要であり,現実世界の複雑さを反映したデータが必要である。
- 既存の評価データは,社会的な側面や倫理的なニュアンスを捉えきれていない場合がある。
- 現実世界の証拠に基づいた,より包括的で信頼性の高い評価データを提供すること。
- NodeSynthは,主要なLLMにおいて,従来の評価データよりも最大5倍高い失敗率を誘発した。
- 詳細な分類の拡張が,これらの失敗率を大きく向上させていることが確認された。
- 一般的なガードモデル(例:Llama-Guard-3)の重要な欠陥が明らかになった。
ダーウィンファミリー:トレーニング不要な言語モデルの推論能力拡張のためのMRI信頼度加重進化的融合 [cs.NE, cs.AI]目的:大規模言語モデルの進化的融合による推論能力の向上
- 言語モデルの性能向上は,自然言語処理の発展に不可欠であり,様々な応用を可能とする。
- 既存モデルの性能を更に向上させるには,高コストな追加学習が必須とされてきた。
- 追加学習なしに,既存モデルの潜在能力を再編成することで,推論性能を向上させることを目指す。
- 提案手法Darwin Familyは,トレーニングを必要とせずに,大規模言語モデルの推論能力を向上させることを可能にした。
- Darwin-27B-OpusはGPQA Diamondで86.9%の精度を達成し,評価された1,252モデル中6位にランクインした。
- TransformerとMambaベースのモデル間の交配を含む,多様なモデルアーキテクチャに対する有効性も実証された。
時間系列予測のためのエージェント的フレームワーク Nexus [cs.AI, cs.CL, cs.LG]目的:時間系列予測におけるエージェント的フレームワーク
- 現実世界の予測は数値データだけでなく,文脈情報も重要である。
- 既存の時間系列モデルは文脈情報を活用できていない場合がある。
- 数値データと文脈情報を効果的に統合する予測手法の確立。
- Nexusは,予測を特定段階に分解することで,LLMの潜在的な予測能力を向上させる。
- Zillowの不動産データや株価データを用いた実験で,最先端のモデルと同等以上の性能を示した。
- Nexusは予測の根拠となる推論過程を明示的に示す高品質な結果を提供する。
環境構築の学習:検証可能な環境合成による自己進化型推論強化学習 [cs.AI]目的:自己改善型言語モデルにおける環境構築
- 言語モデルの能力向上には,より複雑な問題を解決できる能力が不可欠であり,そのために効果的な学習環境が重要である。
- 従来の強化学習では,学習データや環境が固定されており,モデルの能力を超える難易度の環境を自動的に生成することが困難であった。
- 本研究は,モデル自身が学習環境を構築することで,自己改善を促進し,より高い推論能力を獲得することを目指す。
- EvoEnvは,Python環境を合成し,段階的な検証と難易度調整を行うことで,安定した自己改善を可能にした。
- Qwen3-4B-Thinkingを用いた実験では,EvoEnvは既存のRLVR手法と比較して,平均パフォーマンスを72.4%から74.8%に向上させた。
- 学習者は,自身の能力を超える難易度の環境を構築することで,報酬が情報的であり続け,継続的な改善につながる。
条件付き拡散によるオンライン地図構築における意味的攻撃の体系的発見 [cs.CV, cs.CR, cs.LG, cs.RO]目的:オンライン地図構築における意味的攻撃の体系的な発見
- 自動運転の安全性確保に不可欠な高精度地図作成技術の信頼性向上は喫緊の課題である。
- 既存の画像摂動攻撃は防御されやすく,意味レベルでの攻撃に対する脆弱性が課題となっていた。
- 拡散モデルを利用し,現実的な環境変化を装った意味的攻撃による地図誤認識を誘発する手法を開発する。
- MIRAGEは,既存の防御策を回避し,道路境界の検出を57.7%抑制し,96%の計画軌道を誤らせる境界削除攻撃に成功した。
- 境界注入攻撃は,他の攻撃手法(pixel PGD, AdvPatch)が失敗する中で,架空の境界を注入することに成功した。
- 生成された攻撃画像は,VLMによる判断で80-84%の確率で現実的と判定され,既存手法よりも高いリアリティを実現した。
コーディングエージェントはワールドシミュレーターとして優れている [cs.AI]目的:物理制約を明示的に適用したワールドモデルの構築
- インタラクティブなシミュレーション環境構築において,ワールドモデルは重要な役割を担う。
- 既存のビデオベースモデルは物理制約を適用しないため,物理的に不自然な挙動を示す場合がある。
- 実行可能なシミュレーションコードを通じて物理ベースのワールドモデルを構築し,物理的妥当性を向上させる。
- 提案手法は,物理的正確性,指示の忠実度,視覚的品質において,高度なビデオベースモデルを上回る性能を示した。
- 計画,コード生成,視覚レビュー,物理分析エージェントを連携させることで,物理シミュレーションの精度を向上させている。
- 本手法は,ドライビングシミュレーションや具現化されたロボットタスクなど,様々な分野への応用が期待される。
階層型信念状態記憶を持つエージェント型推薦システム [cs.CL, cs.AI]目的:個人の好みを反映した推薦の精度向上
- 推薦システムは,ユーザーの多様なニーズに応える上で不可欠であり,ビジネスや情報アクセスにおいて重要な役割を果たす。
- 既存の推薦システムは,一時的な信号と安定した好みを区別できず,記憶の進化を管理する仕組みが不十分である。
- ノイズの多い行動観察からユーザーの好みを抽出し,コンパクトに推定することを目的とする。
- 提案手法MARSは,推薦を部分的に観測可能な問題として扱い,構造化された信念状態を維持する。
- 信念状態は,イベント記憶,好み記憶,プロファイル記憶の3階層に整理され,ユーザーの好みを効果的に表現する。
- 実験結果から,MARSは既存の最先端手法を平均26.4%(HR@1)と10.3%(NDCG@10)上回る性能を達成した。
隣人の観察:局所位相空間情報を用いた統計的に正確なカオス系の学習 [cs.CL, cs.LG, math.DS]目的:カオス系の動力学を再現する代理モデルの学習
- カオス系の予測は困難であり,その挙動を正確にモデル化することの重要性が高い。
- 既存手法では,ヤコビアンの再現と長期的統計的振る舞いの再現のバランスが課題であった。
- ヤコビアンの精度と長期的統計的特性の両方を学習する新たな枠組みを構築し,予測精度を向上させる。
- 提案手法は,ヤコビアンの精度を大幅に向上させつつ,最新の統計的学習手法と遜色ない性能を示す。
- カオス的アトラクタの局所被覆を構成し,その拡大・収縮を分析することで,より正確な代理モデルを構築する。
- 代理モデルと真の動力学の被覆のプッシュフォワード分布間の最大平均不一致を最小化することで学習を行う。
GeoViSTA:マルチモーダル環境表現のための空間視覚・表形式Transformer [cs.LG, cs.CV]目的:大規模地球観測画像による自然環境と都市環境の表現
- 地球観測技術の発展により,環境変化の理解が不可欠となっている。
- 既存のモデルは,表形式データの構造化された社会経済的要因を直接モデル化していない。
- 画像データと表形式データを統合し,環境に関する総合的な推論を可能にすること。
- GeoViSTAは,画像と表形式データの双方から統一された空間埋め込みを学習する。
- 双方向クロスアテンションと地理的認識アテンションメカニズムによって,異なるモダリティ間の情報交換を実現。
- GeoViSTAは,疾患特異的死亡率や火災発生頻度の予測において,既存モデルを上回る性能を示した。
Metis AI:AIネイティブとワールド・ムーバーの間の見過ごされた中間領域 [cs.AI]目的:AI自動化が困難なデジタルタスクの分類と構造的特徴
- AI技術の発展は社会に大きな変革をもたらすが,その限界理解は不可欠である。
- AIの能力範囲がデジタルと物理の二分法で捉えられがちで,デジタル領域内の複雑な課題が見過ごされている。
- AI自動化が困難なデジタルタスクの構造的特徴を特定し,人間とAIの協調的アーキテクチャを提案する。
- 本研究は,AIがデジタルタスクにおいて苦手とする領域を「Metis AI」と定義し,その構造的特徴を明らかにした。
- Metis AIタスクは,形式化によって知識が失われたり,文脈依存性が高かったりする特徴を持つ。
- これらの課題に対し,AIによる完全自動化ではなく,人間主導の「ケンタウロス型」アーキテクチャが有効であると示唆された。
弾性足を用いたエネルギー効率の良い四脚歩行 [cs.RO, cs.AI]目的:四脚歩行におけるエネルギー効率の改善
- 四脚ロボットの利用拡大には,歩行効率の向上が不可欠である。
- 従来,剛足設計が主流だが,衝撃吸収やエネルギー再利用に限界がある。
- 適切な足の柔軟性を実現し,エネルギー消費量を削減することを目指す。
- シミュレーションと実機実験の結果,中程度のばね定数を持つ足が最もエネルギー効率が良いことが示された。
- ばね定数が適切であることで,エネルギー消費量が約17%削減された。
- 足の柔軟性最適化が,ロボットの安定性を損なうことなく歩行効率を向上させる可能性が示唆された。
ニューラル崩壊下におけるクラスごとのマハラノビス距離分散を用いたOOD検出:MahaVar [cs.LG, cs.AI]目的:深層ニューラルネットワークにおける分布外検出の信頼性向上
- 安全性確保が求められる応用において,深層学習モデルの信頼性は不可欠であるため。
- 既存手法では,分布外データの検出精度が十分ではなく,誤検出のリスクが存在する。
- 分布内データの距離分散の特性を利用し,より精度の高い分布外検出手法を開発すること。
- 分布内サンプルはクラスごとのマハラノビス距離に鋭い最小構造を示し,高い分散を持つことが確認された。
- 分布外サンプルは,この鋭い最小構造が弱く,分散が低い傾向にあることが示された。
- MahaVarは,OpenOOD v1.5ベンチマークで最先端の性能を示し,既存手法を上回った。
SWE-Chain:連鎖的なリリースレベルのパッケージアップグレードに関するコーディングエージェントのベンチマーク [cs.SE, cs.AI, cs.CL]目的:連鎖的なリリースレベルのパッケージアップグレードにおけるコーディングエージェントの性能評価
- ソフトウェアの進化は継続的であり,現実的なメンテナンス能力の評価が不可欠である。
- 既存のベンチマークは,パッケージのリリース単位での継続的なメンテナンスを十分に捉えていない。
- 一連のリリースアップグレードを通して,エージェントの性能を客観的に評価する手段を提供すること。
- SWE-Chainは,9つのPythonパッケージ,155のバージョン移行,1,660の要件を含むベンチマークである。
- 9つの最先端エージェント構成において,平均解決率は44.8%,適合率は65.4%,F1スコアは50.2%であった。
- Claude-Opus-4.7(Claude Code)が,解決率60.8%,適合率80.6%,F1スコア68.5%で最も高い性能を示した。
汎化された容量制約付き車両経路問題のための知識埋め込み強化学習に基づく統合フレームワーク [cs.AI]目的:汎化された容量制約付き車両経路問題に対する統合的な解決策
- 物流・輸送における基礎問題であり,効率化は経済活動に不可欠である。
- 現実の問題は多様な目的や制約を伴い,統一的な解決が困難である。
- 強化学習に問題解決知識を埋め込み,汎化性能と解質を向上させる。
- 提案手法は,既存の学習ベースの手法と比較して優れた解質を達成した。
- 古典的なヒューリスティクスとの性能差が小さく,多様な問題に対応可能である。
- 経路優先クラスタリングに基づく知識埋め込みが,解の質の向上に貢献した。
大いなる詐欺師:LLM脱獄における確率的課題 [cs.CR, cs.AI]目的:LLM脱獄攻撃の評価指標の信頼性に関する問題点の検証
- LLMの安全性確保は,その社会実装において不可欠であり,脱獄攻撃への対策は重要な研究課題である。
- LLM脱獄攻撃の評価指標であるASR(攻撃成功率)は,再現性や比較可能性に課題が残されている。
- 攻撃生成と評価における確率的影響を分析し,ASRの信頼性を高めるための手法を提案する。
- ASRは安定した指標ではなく,論文間の比較が困難であることが示された。
- 提案された評価フレームワークCAS-evalにより,ASRが最大30%低下する可能性があることが明らかになった。
- 新たな攻撃生成フレームワークCAS-genにより,ASRの低下を改善し,攻撃性能を向上させることができた。
DVMap:高合意度に基づく人口統計と価値観のマッピングによる,きめ細かい多元的な価値観のアライメント [cs.AI]目的:多元的な価値観のアライメントに関する,きめ細かいマッピング
- 大規模言語モデルの安全性と信頼性向上には,多様な価値観への適合が不可欠である。
- 既存手法は国家レベルのラベルに依存し,国内の価値観の多様性を捉えきれていない。
- 人口統計学的制約に基づき,高合意度の価値観を特定し,より正確なアライメントを目指す。
- DVMapは,World Values Surveyデータを用いて高品質な価値観アライメントコーパスを構築した。
- Structured Chain-of-Thoughtメカニズムにより,人口統計と価値観の相関に関する推論を誘導し,Group Relative Policy Optimizationで価値分布を適応的に固定した。
- Qwen3-8B-DVMapは,クロスデモグラフィックテストにおいて,DeepSeek-v3.2を上回る48.6%の精度を達成した。
MemLineage:系統情報に基づいたLLMエージェントメモリの保護 [cs.CR, cs.AI]目的:LLMエージェントメモリに対する保護機構
- LLMエージェントは有用だが,悪意のあるコンテンツが混入するリスクがある。
- エージェントの状態が改ざんされ,機密性の高い操作を正当化される可能性がある。
- 信頼性の高いメモリの再現性を維持しつつ,不正な状態による操作を防止すること。
- MemLineageは,各エントリに暗号学的ProvenanceとLLMによる派生系統情報を付与する。
- RFC-6962 MerkleログとEd25519署名を用いた6つのモジュールで構成され,外部由来の情報を遮断する。
- 3つのメモリ汚染ワークロードにおいて,ASRをゼロに成功させ,オーバーヘッドも最小限に抑える。
もし明日がワールドカップ決勝戦だったら?テキスト条件を用いた反事実的時系列予測 [cs.LG]目的:テキスト条件を用いた反事実的時系列予測
- 現実世界の様々な場面で時系列予測の重要性が増しており,将来の系列は過去のパターンだけでなく,将来の出来事にも影響を受ける。
- 既存手法は過去データや事実に基づく将来条件に依存し,反事実的なシナリオを考慮できない場合が多い。
- 複雑な条件変化に対応し,より柔軟かつ条件を考慮した予測を可能にすることを目指す。
- 本研究では,事実と反事実の両方の状況を包含する包括的な評価フレームワークを提案した。
- また,可変要素と不変要素を区別する新しいテキスト帰属メカニズムを導入し,複雑なテキスト条件下での予測精度を向上させた。
- これにより,テキスト条件を用いた反事実的時系列予測タスクへの取り組みを可能にした。
協調的でありながら個別化されたポリシー学習:単一時間スケールの連合Actor-Critic [cs.LG, cs.AI]目的:環境の異質性や個別化の欠如といった課題を克服する,連合Actor-Criticフレームワークの理論的解析
- 強化学習は,ロボティクスや自動運転など,様々な分野で重要な役割を果たしている。
- 従来の強化学習は,環境の異質性やエージェントごとの個別化を考慮していない場合が多い。
- 環境の異質性下でも個別化されたポリシー学習を可能にする新しいフレームワークを提案し,その収束性を証明する。
- 提案手法は,エージェント数が増加するにつれて学習速度が線形に向上することを示した。
- 新しい摂動解析とQR分解の手法により,異質性のあるマルコフ過程における学習の安定性を保証した。
- Hopper-v5環境での実験により,提案手法がSingle PPOやFedAvg PPOよりも優れていることを確認した。
Eコマース検索における効率的な生成検索:意味クラスタIDと専門家誘導型強化学習 [cs.IR, cs.AI]目的:Eコマース検索のための生成検索フレームワーク
- 大規模な商品カタログを持つEコマース検索において,検索効率と精度は重要な課題である。
- 従来の多段階検索プロセスは複雑で,エンドツーエンドのモデルへの統合が困難である。
- 生成検索を実用的な検索段階の補完として位置づけ,検索精度と効率を向上させる。
- 提案手法CQ-SIDは,意味的クラスタIDを用いて検索空間を縮小し,検索速度を大幅に向上させた。
- EG-GRPOは,強化学習により生成検索とランキング目標との整合性を高め,オフライン実験で高い性能を示した。
- オンラインA/Bテストの結果,GMVとUCTCVRがそれぞれ1.15%と0.40%向上し,実運用における有効性が確認された。
BEAM:MoEにおける動的ルーティングのためのバイナリ専門家活性化マスキング [cs.AI]目的:MoEにおける効率的な推論手法の開発
- 大規模言語モデルの効率化は,計算コスト削減や実用性向上に不可欠である。
- 従来のMoEは固定のルーティング戦略を用いるため,冗長な計算や遅延が生じやすい。
- 学習と推論の間の不一致を解消し,高いスパース性下でも性能を維持する。
- BEAMは,元のモデル性能の98%以上を維持しながら,MoE層のFLOPsを最大85%削減することに成功した。
- 最速で2.5倍のデコード速度と,1.4倍の推論スループットを達成し,その有効性を示した。
- BEAMは,プラグアンドプレイ可能な実用的なMoE推論ソリューションとして機能する。
POMDPポリシーの合成:サンプリングとモデル検査の融合による学習 [cs.AI, cs.FL, cs.LO]目的:部分観測マルコフ決定過程におけるポリシーの合成
- 不確実性の下での意思決定を扱う標準的なフレームワークであり,現実世界の様々な問題に応用可能である。
- サンプリングベース手法はスケーラビリティに優れるものの,形式的な正確性の保証がないという課題がある。
- サンプリングとモデル検査を融合することで,安全性が重要なアプリケーションに適した合成手法を開発する。
- 提案手法は,サンプリングをメンバーシップオラクル,モデル検査を同値性オラクルとして利用し,有限状態コントローラーの合成を実現する。
- 合成されたポリシーが正則であれば,形式的な保証を持つことが示された。
- 実験結果から,提案手法が既存の形式合成ツールでは困難な閾値安全性問題を解決できることが示された。
ブラックボックスLLMにおける多段階推論とツール利用のためのプロンプトポリシー:経験的反復蒸留 [cs.CY, cs.AI, cs.LG, cs.MA]目的:多段階推論とツール利用におけるプロンプトポリシーの学習
- LLMの活用が進む中で,プロンプト設計は性能を左右する重要な要素となっている。
- ブラックボックスLLMでは,プロンプトの最適化が難しく,試行錯誤に時間がかかる。
- 経験的反復蒸留により,効率的なプロンプトポリシーの学習を目指す。
- 提案手法は,Big Bench Extra HardおよびTau-benchにおいて高い性能向上を示した。
- 論理的推論タスクでは55%から90%,ツール利用タスクでは74%から91%へと性能が向上した。
- プロンプトの構造進化を分析した結果,特化したアルゴリズム的ヒューリスティクスを発見した。
FrontierSmith:大規模なオープンエンド型コーディング問題の合成 [cs.LG]目的:オープンエンド型コーディング問題の大規模な合成
- LLMのコーディング能力向上は,現実世界の多様な課題に対応する上で不可欠である。
- 既存のLLMは,明確に定義されたタスクに強みを持つ一方,オープンエンド型コーディングは苦手である。
- 大規模なオープンエンド型問題の合成により,LLMのコーディング能力を向上させることを目指す。
- FrontierSmithにより,既存のクローズドエンド型タスクからオープンエンド型問題を反復的に生成できる。
- 合成データを用いた学習により,Qwen3.5-9BおよびQwen3.5-27Bの性能が大幅に向上した(FrontierCSで+8.82/+12.12,ALE-benchで+306.36/+309.12)。
- 合成問題は,人間が作成した問題と同様に,エージェントのターン数やトークン使用量を増加させた。
質問から逸脱した回答:質問応答直交分解によるハルシネーション検出 [cs.LG, cs.AI, cs.CL]目的:大規模言語モデルにおけるハルシネーション検出手法
- 大規模言語モデルの性能向上に伴い,生成される回答の信頼性確保が重要課題となっている。
- 既存のハルシネーション検出手法は,精度,効率,ドメイン変化への頑健性のバランスが課題である。
- 質問と回答を直交分解することで,ドメイン依存性を抑制し,汎化性能の高い検出手法を開発する。
- QAODは,質問に沿った成分を除去することで,ドメイン変化に強い回答表現を抽出する。
- QAODの共同プローブは,評価されたモデル・データセットペアにおいて最高のin-domain AUROCを達成した。
- 直交成分のみを用いたプローブは,BioASQにおいて最良のwhite-boxベースラインを最大21%上回り,OOD転移性能で優れている。
LiSA:保守的ポリシー誘導による継続的な安全性適応 [cs.LG, cs.CL, cs.CR]目的:AIエージェントの安全性適応機構
- AI利用拡大に伴い,機密漏洩や不正行為といった実害を防ぐ安全性確保が重要である。
- 既存のガードレールは,状況に応じた判断が難しく,事前の仕様化が困難である。
- LiSAは,希薄なフィードバックから安全性向上を可能にし,実環境でのリスクに対応する。
- LiSAは,構造化されたメモリを通じてガードレールを改善し,既存手法を上回る性能を示した。
- ノイズの多いフィードバックに対してもロバストであり,ラベル反転率20%でも高い性能を維持した。
- LiSAは,AIエージェントの安全性向上に貢献し,現実世界の様々なリスクに対応できる道筋を示す。
組織におけるAIインパクトを測る指標:インテリジェンス・インパクト・クォーティエント(IIQ) [cs.AI, cs.LG]目的:組織におけるAIシステムの統合度とその影響の定量化
- AI技術の発展は,組織の業務効率化や意思決定の高度化に貢献する重要な要素である。
- AI導入状況の評価はアクセス数やトークン数のみでは,実質的なインパクトを捉えきれないという課題がある。
- AIの組織への浸透度合いを多角的に評価し,具体的な業務への貢献度を測定するフレームワークを提供する。
- IIQは,AIの利用頻度,新規性,業務への影響度,タスクの複雑さなどを考慮した指標である。
- これにより,AI利用者の違いや部門間の比較を可能にする0-1000の正規化されたIIQ値を算出する。
- シミュレーションを通じて,IIQが単純な利用頻度と,より高度なAI活用を区別できることが示された。
思考の再現による状態保持型推論 [cs.AI]目的:大規模言語モデルにおける多段階推論の性能向上
- 複雑な問題を解決するためには,言語モデルが段階的に推論を進める能力が不可欠である。
- 思考の連鎖(CoT)の長さが長くなるほど,モデルの初期段階での重要な洞察への注意が薄れ,精度が低下する。
- 推論の過程で得られた重要な洞察を定期的に再利用し,推論の精度を維持すること。
- InsightReplayは,推論の過程で抽出した重要な洞察を再提示することで,モデルの精度を向上させる。
- 24種類のモデルとベンチマークの組み合わせにおいて,InsightReplayは標準的なCoTと比較して平均で1.65ポイントの精度向上を示した。
- 特にR1-Distill-32BのLiveCodeBench v5サブセットでは,最大9.2ポイントの精度向上を達成した。
オムニドロップ:クエリガイダンスによるオムニモーダルLLMの層ごとのトークン刈り込み [cs.AI]目的:オムニモーダルLLMにおけるトークン削減手法
- マルチモーダル理解の重要性が高まる中,高解像度な音声・映像入力によるトークン爆発が課題。
- 既存手法は入力レベルでの刈り込みに依存し,意味的な関連性の判断が不確実。
- LLMのデコーダ層内でトークンを層ごとに刈り込み,効率的な推論を実現する。
- オムニドロップは,様々なオーディオビジュアルベンチマークで既存手法を最大3.58ポイント上回る性能を示した。
- プリフィル遅延を最大40%,メモリ使用量を最大14.7%削減することに成功した。
- テキストクエリを活用し,タスクに適応したモダリティ非依存のトークン刈り込みを実現した。
表からセルへ:TABALIGNによるより良い推論のための注意機構 [cs.DB, cs.AI]目的:構造化テーブルに対するLLMの多段階推論における精度向上
- テーブルデータは,構造化された知識の重要な源泉であり,様々な分野で活用されている。
- 既存の手法では,テーブルの順序に依存した計画立案や,セルとの関連性の低い評価が行われている。
- 本研究では,DLMを用いてセルに焦点を当てた計画立案を行い,テーブル推論の精度と効率を改善することを目指す。
- 本研究で提案するTABALIGNは,DLMプランナーと軽量な検証器TABATTNを組み合わせたフレームワークである。
- TABALIGNは,8つのベンチマークにおいて,既存のオープンソースベースラインよりも平均で15.76%高い精度を達成した。
- DLMプランナーは,ARプランナーと比較して2.87%の精度向上に貢献し,推論実行速度も44.64%向上した。
不均衡データからの集中PU学習 [cs.LG]目的:不均衡データセットにおける正例と未ラベル例からの学習方法
- 現実世界の多くの問題は,ラベル付きデータが限られているため機械学習で扱うのが困難である。
- 既存のPU学習法は,不均衡な設定や識別が難しい正例に十分に対応できていない。
- 不均衡データセットにおいて,正例と未ラベル例を活用した二値分類器の学習を目指す。
- 提案手法は,SCARおよびSARの2つのラベル付けメカニズム下で,不均衡データセットにおいて最先端の性能を示す。
- 実世界の金融不正検出の応用において,提案手法の有用性が実証された。
- 集中的な経験的リスク推定子を用いることで,正例と未ラベル例の両方を組み込んだ学習を実現している。
RAGは,検索が誤っていることを認識しているか?知識の競合下における文脈適合性の診断 [cs.CL, cs.AI]目的:知識の競合下における文脈適合性の構造的軸の特定
- 大規模言語モデルの性能向上には,外部知識の活用が不可欠である。検索拡張生成(RAG)はその有力な手法の一つ。
- RAGにおいて,検索された文脈がモデルの知識と矛盾する場合,どのように回答が生成されるか不明確である。
- 文脈適合性を評価し,知識の競合下でのRAGの挙動を構造的に分析することで,改善策を導く。
- 文脈適合性は,敵対的な設定で測定可能であり,標準的なRAGはTruthfulQAの誤概念注入において15.0%の精度を達成した。
- 敵対的精度向上はモデル系列間で転移するが,根拠と回答の因果的関係は転移しないことが示された。
- 明示的な競合分解は,時間的ドリフトやノイズの影響下でロバスト性を向上させ,Epi-Scaleベンチマークで71.3%の精度を達成した。
