arXiv雑要約
AI - 2026/05/08 公開
AirQualityBench:グローバル大気質予測の現実的な評価ベンチマーク [cs.NI, cs.SY, eess.SY, eess.SY, cs.SY, cs.AI]目的:グローバル大気質予測モデルの評価基準
- 大気汚染は世界的な健康問題であり,正確な予測が不可欠である。
- 既存の評価方法は,現実の観測データの特徴を反映していない場合が多い。
- 現実的な観測環境下での予測モデルの性能評価を目指す。
- AirQualityBenchは,3,720の観測局における2021-2025年のデータを提供する。
- 既存モデルの性能が,加工されたデータセットと現実のデータで異なることが示された。
- このベンチマークは,大気質予測モデルの信頼性向上に貢献する。
勾配モーメンタム結合による学習進捗の測定 [cs.IR, cs.CL, cs.LG]目的:学習進捗の測定
- 強化学習における好奇心駆動型探索において,学習進捗の把握は不可欠である。
- 従来の予測誤差では,有用なパターンとランダムノイズを区別することが困難である。
- 本研究は,ノイズに強く,学習速度に基づいてタスクを優先する進捗指標を目指す。
- 勾配モーメンタム結合(GMC)は,勾配の有用性を定量化する指標として提案された。
- GMCは,モーメンタムのノイズ除去効果を利用し,パラメータ更新に貢献するサンプルを特定する。
- MiniGrid実験では,GMCが予測誤差を置き換えることで,観測ノイズに対するロバスト性が向上することが示された。
トカマクにおける回転プロファイル制御のためのオフライン強化学習 [cs.LG]目的:トカマクにおける回転プロファイル制御手法の開発
- 核融合エネルギー実現に向け,トカマク装置の制御技術は重要である。プラズマの安定性や閉じ込め性能に影響を与える。
- 回転プロファイル全体の制御は,高次元性や複雑なプラズマ条件依存性から困難である。
- 過去データのみを用いて,回転プロファイル制御のための強化学習エージェントを構築し,実用的な制御を目指す。
- オフライン強化学習とモデルベースオフライン強化学習アルゴリズムをDIII-Dトカマクの過去データで訓練した。
- プラズマダイナミクスの確率モデルを用いることで,強化学習の訓練に必要なロールアウトを生成した。
- DIII-Dトカマクでの実機実験で有望な結果が得られ,複雑な物理デバイスへの強化学習の適用可能性を示した。
SANEmerg:セマンティクスを認識するエージェントAIネットワークのための創発的コミュニケーションフレームワーク [cs.AI, cs.NI]目的:セマンティクスを認識するエージェントAIネットワークにおける創発的コミュニケーション
- 将来のネットワークは,AIエージェントが協調するエコシステムの一部となる。多様なAIエージェントの連携が重要となる。
- 従来のネットワークは,通信と計算が分離しており,大規模なエージェントAIネットワークでは非効率が生じる。
- 帯域幅制約下で,エージェント間のコミュニケーションプロトコル創発を促進し,タスク遂行能力を向上させる。
- 提案フレームワークSANEmergは,ユーザーの意図を検出し,タスクをエージェントに割り当てることで,協調的なタスク遂行を可能にする。
- 帯域幅適応型重要度フィルターにより,高貢献度のメッセージ次元の伝送を優先し,帯域幅制限下でも堅牢な性能を実現する。
- 最小記述長(MDL)原理に基づく複雑さ正則化により,計算資源が限られたシグナリングの創発を促進し,既存手法を上回る性能を示す。
ニューラル演算子は形状を忘れるか? 深層演算子学習における忘却仮説 [cs.LG]目的:深層演算子アーキテクチャにおける形状の忘却現象の検証
- 演算子学習は構造化されたデータに対して有効だが,不規則な形状への適用は課題である。
- 深層演算子において,形状情報が深層化と共に失われるという問題が指摘されている。
- 形状の忘却現象を形式的に定義し,その原因と対策を明らかにする。
- 深層演算子は,層が深くなるにつれてドメイン形状へのアクセスを失う傾向があることが示された。
- スペクトル演算子とアテンションベース演算子の両方で,幾何学的忠実度が系統的に低下することが確認された。
- 形状情報を中間層に注入する機構により,忘却現象を緩和し,汎化性能を向上させることができた。
SOPE:事前データを用いたオンラインRLにおけるオフポリシー評価の安定化 [cs.LG, cs.AI]目的:事前データを用いたオンライン強化学習における,オフポリシー評価の安定化
- 強化学習は,複雑な制御問題の解決に有効。実世界への応用が期待されている。
- 事前データの活用は学習加速に寄与するが,計算コストや過学習のリスクがある。
- オフポリシー評価を活用し,自動的な早期停止機構により,効率的な学習を目指す。
- SOPEは,タスク依存の調整を不要とし,事前知識の無駄遣いや過学習を防ぐ。
- Minariベンチマークの25の連続制御タスクにおいて,ベースライン性能を最大45.6%向上。
- 必要なTFLOPsを最大22倍削減し,サンプル効率と計算効率のバランスを実現。
XDecomposer: 事前知識なし多相X線回折のための集合分解学習 [cs.AI]目的:多相X線回折パターンの共同分解と識別
- 物質構造解析において,X線回折は基本的な役割を担う。複雑な混合物分析のボトルネックを解消する必要がある。
- 既存手法は単相入力に依存し,多相環境下では信頼性の高い成分分離が困難である。
- 候補リストやテンプレート不要に,多相XRDパターンから成分を分離し,構造を特定することを目指す。
- XDecomposerは,混合相の割合と構造表現を同時に予測し,高精度な成分分離を実現した。
- シミュレーションおよび実験データにおいて,既存手法を大幅に上回る再構成精度と相識別性能を示した。
- 事前の知識に依存しないデータ駆動型アプローチにより,多相XRD分析の新たな道を開いた。
QuadraSHAP:ガウス・ルジャンドル求積法を用いた積ゲームに対する安定かつスケーラブルなシャプレイ値 [cs.LG]目的:積ゲームにおけるシャプレイ値の効率的な計算
- 機械学習の解釈可能性において,モデルの構造が積の形を持つ場合,シャプレイ値の計算が重要となる。
- 従来のシャプレイ値の計算は,特徴量の数が増加すると指数関数的に計算コストが増大する。
- ガウス・ルジャンドル求積法を用いることで,高次元の特徴空間におけるシャプレイ値を効率的に近似する。
- シャプレイ値は,$(d-1)$次の多項式の積分として表現できることが示された($d$は特徴量の総数)。
- ガウス・ルジャンドル求積法を用いることで,積分を正確かつ効率的に計算可能である。
- 実験により,QuadraSHAPは他の数値的に安定した方法よりも高速であることが示された。
Min-Maxアンラーニングにおける保持中立な代理点 [cs.LG]目的:機械アンラーニングにおける,指定された学習データの影響除去と残りのデータに対する性能維持
- プライバシー保護の重要性が増す中,個人情報を含む学習データを削除する技術が求められている。
- 既存のアンラーニング手法では,データの削除に伴う性能劣化が課題となっている。
- 保持損失を最小限に抑えつつ,効率的に忘却を最大化する代理点の構築を目指す。
- 提案手法ROSUは,保持損失の変化を抑制しつつ忘却を最大化する保持直交摂動を導出する。
- 理論的分析により,ROSUが保持損失の増加を抑制し,特に勾配が正に整合する場合に効果を発揮することが示された。
- 実験結果から,ROSUは高い結合度を持つ場合に顕著な改善が見られ,他の場合でも競合的な性能を示すことが確認された。
価値のインターネットにおける能動的・文脈認識型リスクインテリジェンス [cs.AI]目的:価値のインターネットにおける複合的なリスク評価手法
- ブロックチェーン技術の発展に伴い,分散型ネットワークにおけるリスク管理の重要性が高まっている。
- 従来の単一チェーンに焦点を当てたリスク評価では,価値のインターネットのような複雑なネットワークに対応できない。
- 価格,流動性,感情分析などを統合し,能動的にリスクを評価・管理する新しいフレームワークを提案する。
- 提案手法は,価格予測,検証,感情分析,能動的エージェント,APIリスク評価の5つのエンジンで構成される。
- Solanaにおける27時間の流動性ストレステストと168時間の予測ルーティング調整実験により,実用性が確認された。
- 検証損失の分解は形式的に記述され,反証可能性が示された。
DBMSolver:高品質な画像間変換のための学習不要な拡散ブリッジサンプラー [cs.AR, cs.DC, cs.CV, cs.AI, cs.LG, cs.NA, math.NA]目的:高品質な画像間変換における効率的なサンプリング手法
- 拡散モデルは高画質だが,サンプリング速度が課題となっている。
- 既存の拡散ブリッジモデルは,多くの関数評価を必要とするため,計算コストが高い。
- DBMSolverは,効率的なサンプリングにより,計算コストを削減し,実用性を高める。
- DBMSolverは,拡散ブリッジモデルのSDE/ODE構造を利用し,指数積分器を用いることで,効率的な1次および2次解を生成する。
- NFEsを最大5倍削減し,画質を向上させ,DIODEのFIDを20 NFEsで53%改善した。
- inpainting,スタイライゼーション,セマンティクスからの画像生成タスクにおいて,最新の効率と品質のトレードオフを実現した。
RepFlow:因果効果推定のための表現強化フローマッチング [cs.LG, stat.ME]目的:因果効果推定のための新しいフレームワーク
- 医療,経済,社会政策など幅広い分野で,観測データからの因果効果推定が重要になっている。
- 因果推論の根本的な課題は,反事実の欠如と選択バイアスである。
- RepFlowは,選択バイアスを軽減し,潜在的結果の分布を正確に捉えることを目指す。
- RepFlowは,表現学習と条件付きフローマッチング(CFM)を統合した,新しい因果効果推定フレームワークである。
- RepFlowは,処理群と対照群の表現間のエントロピー正則化されたWasserstein距離を最小化することで選択バイアスを軽減する。
- 広範な実験により,RepFlowが既存手法を上回り,点推定と分布推定の両方で優れた性能を示すことが明らかになった。
MTL-MAD:マルチタスク学習は効果的な医療異常検出器である [cs.CV, cs.AI, cs.LG]目的:医療画像における異常検出の性能向上
- 医療画像の異常検出は,疾患の早期発見や診断精度向上に不可欠であるため,重要な研究分野である。
- 異常データが訓練時に不足しているため,効率的な異常検出モデルの開発が課題となっている。
- 複数の自己教師あり学習と擬似ラベリングを組み合わせ,堅牢な表現学習により異常検出精度を向上させる。
- 提案手法は,複数の代理タスクを統合することで,正常な解剖学的構造のロバストな表現を学習する。
- BMADベンチマークにおいて,最先端の競合手法を凌駕する異常検出性能を達成した。
- 生成される異常マップは解釈可能性が高く,医師の診断支援に貢献しうる。
ステアリングベクトルを超えて:推論時介入のためのフローベース活性ステアリング [cs.CL, cs.LG]目的:推論時の言語モデルの行動制御手法
- 言語モデルの挙動制御は,安全性や倫理的配慮において重要であり,幅広い応用が期待されている。
- 既存の活性ステアリング手法は,単純なプロンプトに劣ることが多く,未知の概念への汎化性能が低いという課題がある。
- 活性空間の幾何学的構造に対する先入観を排除し,より柔軟で汎用的な活性ステアリング手法を開発すること。
- FLASは,AxBenchにおいて,プロンプトによる制御を初めて安定的に上回り,Gemma-2-2B-ITで1.015,Gemma-2-9B-ITで1.113の調和平均スコアを達成した。
- 学習されたフローは,曲線的で多段階,トークンによって変化する軌跡を示しており,活性空間の幾何学的構造に関する既存の仮説が不完全である可能性を示唆している。
- FLASは,固定された単一ステップ変換に依存せず,概念に依存した速度場を学習することで,活性を効率的に変換する。
論理正則化された検証器はLLMから推論を引き出す [cs.CL, cs.AI]目的:LLMの推論能力を向上させる検証器の構築
- LLMの性能向上には,推論能力の強化が不可欠である。
- 従来の検証器は,大規模な教師ありデータセットが必要であり,コストと多様性の問題がある。
- 教師なし学習で論理規則に基づいた検証器を構築し,LLMの推論能力を向上させる。
- 提案手法LOVERは,論理的制約を組み込むことで,ラベルなしデータを利用して検証器を学習できる。
- LOVERは既存のLLMと直接的に互換性があり,10のデータセットで優れた性能を示した。
- LOVERは教師あり学習による検証器と同等の性能(平均95%)を達成し,非教師あり学習のベースラインを大幅に上回る。
スパイクニューラルネットワークを用いたAI生成動画の検出 [cs.CV, cs.AI]目的:AI生成動画の検出手法
- AI技術の発展により,現実と区別がつかない動画が生成可能となり,偽情報の拡散が懸念されている。
- 既存の検出手法は,生成元が異なると性能が著しく低下するという課題がある。
- フレーム間の時間的特性に着目し,生成元の異なる動画でも安定的に検出できる手法を開発する。
- AI生成動画は,ピクセルレベルでのフレーム間の残差が滑らかであり,意味特徴空間における軌跡がコンパクトになる傾向があることが判明した。
- スパイクニューラルネットワーク(SNN)は,オブジェクトや動きの境界で発火する特性があり,AI生成動画の時間のアーティファクトを捉えるのに適していることが示された。
- 提案手法MASTは,GenVideoベンチマークにおいて,10種類の未知の生成元に対して93.14%の平均精度を達成し,既存のANNベースの手法を上回った。
VARS-FL:IoTシステムにおける非IID分散学習のための検証に合致したクライアント選択 [cs.LG, cs.AI]目的:非IIDデータ環境下でのIoT分散学習におけるクライアント選択の最適化
- IoT機器の普及により,分散したデータ活用が重要視されている。
- 従来のクライアント選択はクライアント貢献度を正確に評価できていない。
- サーバー側の検証損失に基づき,クライアントの貢献度を定量化する。
- VARS-FLは,既存手法と比較して,精度,F1-Macro,損失の点で改善が確認された。
- VARS-FLは,学習の収束を加速させ,80%の精度に到達するまでのラウンド数を最大36%削減した。
- 検証に合致した履歴ベースのクライアント選択が,IoT環境における分散学習の効率化に貢献する。
VisMMoE:視覚的専門知識の親和性を活用した効率的な視覚言語MoEオフローディング [cs.RO, cs.LG]目的:大規模視覚言語MoEモデルのメモリ制約下における効率的なデプロイメント
- マルチモーダルな処理能力が求められる中で,大規模モデルの活用が重要視されている。
- 視覚情報を含む入力では,大量のトークンにより専門家アクセスが広範囲になり,オフローディング効率が低下する。
- 視覚的トークンを削減し,専門家アクセスの集中化と安定化を図ることで,オフローディングを改善する。
- VisMMoEは,冗長な視覚的トークンのプルーニングにより,計算量の削減と専門家需要の形状変化を実現する。
- 親和性に基づいたトークン圧縮,先読み型専門家予測,キャッシュ/パイプライン調整を組み合わせ,専門家の局所性とprefetch効率を向上させる。
- その結果,既存のVL-MoEデプロイメントにおいて,エンドツーエンド推論性能を最大2.68倍,平均1.61倍に向上させた。
二次目的摂動:曲率に基づく差分プライバシー [cs.LG, math.OC]目的:差分プライバシーを保証する二次目的摂動法の提案
- 機械学習モデルのプライバシー保護は重要であり,個人情報漏洩リスクを抑制する必要がある。
- 既存手法は損失関数の勾配有界性を仮定するため,多くの現代的な機械学習モデルには適用できない。
- 勾配有界性という強い仮定を緩和し,曲率を通じて安定性を確保することで差分プライバシーを実現する。
- 二次目的摂動法(QOP)は,曲率を利用して強凸性を誘導し,勾配の制約なしに差分プライバシーを保証する。
- QOPは,補間領域において,既存の線形目的摂動法(LOP)よりも弱い仮定の下で,$(\varepsilon, \delta)$-差分プライバシーを達成する。
- 近似解に対するプライバシー保証,経験的過剰リスクに関する有用性の保証,そしてLOPとの比較も理論的・数値的に示されている。
アーキテクチャ非依存なリプシッツ定数ベイズヘッダーとそのVision Transformerへの応用:意味的に近い誤分類エラーの解決 [cs.CV, cs.AI]目的:教師あり深層学習モデルの汎化性能向上
- 深層学習モデルの性能はラベルの質に大きく依存し,ノイズの多いラベルは性能低下の主要因となる。
- 従来のロバスト学習法は,意味的に近い誤分類エラーに対して十分な効果を発揮しない場合がある。
- 意味的に近い誤分類エラーを検出し,より正確なモデルを構築すること。
- 提案手法であるLipB-ViTは,予測不確実性を適切に推定し,ノイズの増幅を抑制することで,従来のベイズ層よりも優れた性能を示す。
- 誤分類率と不確実性を統合的に捉える新しい指標と,特徴空間での近さと予測不確実性を組み合わせる適応的な融合スキームにより,ラベル誤りの検出精度が向上した。
- LipB-ViTは,構造化ノイズと非構造化ノイズの両方に対して高いロバスト性を示し,現実的な高ノイズ環境や攻撃シナリオ下でも安定した性能を発揮する。
MLLMのアンラーニングのための,Null空間制約対照視覚的忘却 [cs.AI]目的:マルチモーダル大規模言語モデルにおける標的視覚知識の忘却と非標的知識の保持のバランス
- 機械学習モデルのプライバシー保護や知識更新において,特定の情報を削除する技術が重要である。
- マルチモーダルモデルでは,視覚情報とテキスト情報の絡み合いにより,標的知識のみを削除することが困難である。
- 視覚モジュールのみを調整することで,標的視覚知識を効果的に忘却しつつ,他の知識を保持することを目指す。
- 提案手法は,対照視覚的忘却メカニズムにより,標的視覚知識と保持する視覚知識を分離する。
- 保持する知識に関連するNull空間を特定し,その空間内でアンラーニングを行うことで知識の劣化を抑制する。
- 静的なアンラーニングだけでなく,継続的なアンラーニングシナリオにも対応可能であり,実験で有効性が確認された。
オンライン嗜好学習によるパーソナライズされたレビュー要約 [cs.AI, cs.GT, cs.LG, cs.SY, eess.SY, math.OC]目的:パーソナライズされたレビュー要約の生成
- 購買行動に影響を与えるレビューの重要性が増しており,効率的な情報把握が求められている。
- 既存の要約システムは静的で汎用的であり,個々のユーザーの嗜好に対応できていない。
- ユーザーの潜在的な嗜好を学習し,インタラクションを通じて変化する嗜好に対応する。
- オンライン嗜好学習フレームワークは,ユーザーからのフィードバックに基づいて要約を改善し,パーソナライズ度を高める。
- Amazon Reviews'23データセットを用いた実験により,ターゲットユーザーの興味への適合性が向上することが示された。
- 要約の品質を維持しつつ,ユーザーの嗜好に合わせた情報提供が可能となった。
液滴からグリッドへ:ノイズを考慮した時空間ニューラルプロセスによる降雨量推定 [cs.LG, cs.CV]目的:高解像度降雨量マップの生成
- 気象予測,水資源管理,災害軽減において,高解像度な降雨量観測は不可欠である。
- 従来の観測は偏りや低解像度であり,局所的な降雨の捉え方に限界がある。
- 希薄な地上観測データとレーダー情報を統合し,高精度な降雨量推定と不確実性の定量化を目指す。
- DropsToGridは,既存の運用システムおよび深層学習ベースラインを上回り,高精度な降雨量マップを生成する。
- 少数の観測ステーションや異地域間での評価においても,キャリブレーションされた不確実性を伴う降雨量推定が可能である。
- 多段階特徴抽出,時間注意機構,マルチモーダル融合により,確率的な連続降雨量推定を実現している。
ウィステリア:DNA言語モデルのための統一されたマルチスケール特徴学習フレームワーク [cs.AI]目的:DNA言語モデルにおけるマルチスケール特徴学習フレームワーク
- ゲノム解析において,DNA配列中の長距離依存性の把握は重要である。
- 既存手法は長距離トークン間の相互作用に重点を置き,局所的なモチーフとグローバルな依存性の相互作用を無視することがある。
- 局所的モチーフとグローバルな依存性を統合的にモデル化することで,ゲノム解析の精度向上を目指す。
- ウィステリアは,Mambaベースのアーキテクチャにゲーテッドダイレイテッド畳み込みを追加し,局所的モチーフと規制パターンを捉える。
- さらに,フーリエ変換に基づくアテンション機構を導入し,周波数領域のモデリング,周期的な拡張,および長さの一般化を支援する。
- 実験結果から,ウィステリアは様々な条件下で競合するDNA言語モデルと比較して,優れた性能を示すことが示された。
LLM駆動によるFPGAベースアクセラレータの設計空間探索 [cs.CG, cs.AR, cs.AI, cs.PF]目的:FPGAベースアクセラレータの設計空間探索の自動化
- AIワークロードの複雑化により,FPGAアクセラレータの高性能化が不可欠である。
- 設計空間の広大さから,最適な構成を見つけるのに時間と専門知識が必要となる。
- LLMを活用し,設計空間探索を自動化することで,効率的なアクセラレータ設計を目指す。
- SECDA-DSEフレームワークを開発し,LLMによる設計空間探索を実現した。
- Retrieval-augmented generationとchain-of-thought promptingを活用し,LLMの推論能力を向上させた。
- Zynq-7000 FPGA上での合成タイミングとリソース制約を満たすアクセラレータ設計を生成できた。
意図形成と意味理解:AIによる数学的発見との人間による相互作用 [cs.AI, cs.HC]目的:AIを活用した数学的発見における人間とAIの相互作用のワークフロー
- 科学的発見においてAIは強力なツールとなり得るが,その効果的な活用方法が課題。
- 既存のAIツールは質問応答モデルが主流で,探索的な発見を支援するには不十分。
- AIツールを共同研究者として捉え,科学的発見プロセスを支援する新しい設計手法の提案。
- 専門数学者を対象としたユーザー調査から,「意図形成」という反復的なワークフローが明らかになった。
- 意図形成は,実験目標の発見・定義・改良であり,意味理解を拡張するものと考えられる。
- AIツールは,質問応答だけでなく,意図形成と意味理解のサイクルを通じて利用されるべきである。
セマンティックウェブにおけるリソースの少ない言語は何か? [cs.AI]目的:セマンティックウェブにおけるリソースの少ない言語の定義
- デジタル技術の発展は,言語間のデータ格差を拡大させており,情報アクセスに不均衡が生じている。
- Linked Open Data知識グラフ(LOD KG)において,リソースの少ない言語の明確な定義が存在しない。
- LOD KGにおける言語分布の分析に基づき,リソースの少ない言語の定義を提案し,クロスリンガル転移の候補選定に役立てる。
- DBpedia,BabelNet,Wikidataのデータを用いて言語の分布を分析した。
- リソースの少ない,中程度,多い言語の多段階の分類を提案した。
- この分類により,クロスリンガル転移の候補言語を選定するための形式的な定義を提示した。
データか不可視か:知識グラフを用いた低リソース言語のデジタル表現改善に向けて [cs.AI]目的:低リソース言語における知識グラフの言語カバレッジの現状と改善策
- デジタル技術の発展は,情報格差を拡大させており,グローバルなデジタル変革への参加を阻害する。
- 知識グラフにおける言語分布が偏っており,低リソース言語のデータが不足している点が課題である。
- 知識グラフの補完における言語間転移候補選択戦略を改善し,言語カバレッジの拡大を目指す。
- 主要な多言語知識グラフ(DBpedia,BabelNet,Wikidata)における言語分布の特徴と課題を分析した。
- 言語学的近接性に基づいた戦略や類推的推論が,知識グラフの補完性能向上に貢献する可能性が示唆された。
- 低リソース言語のデータ不足を解消し,グローバルなデジタル変革への参加を促進することが期待される。
ICU-Bench:マルチモーダル大規模言語モデルにおける継続的アンラーニングのベンチマーク [cs.FL, cs.AI]目的:マルチモーダル大規模言語モデルにおける継続的なプライバシー削除要求の評価
- 大規模言語モデルの進歩に伴い,プライバシー保護の重要性が増しているため。
- 既存のベンチマークは静的または短いシーケンスに焦点を当てており,現実的な継続的削除要求の評価が困難。
- 継続的なプライバシー削除要求に対応したベンチマークと評価指標を提供し,アンラーニング手法の課題を明確にする。
- ICU-Benchは,医療報告書と労働契約書を含む,プライバシーに関わる文書データに基づいた継続的マルチモーダルアンラーニングベンチマークである。
- 実験結果から,既存のアンラーニング手法は継続的な環境下で苦戦し,忘却品質,有用性維持,スケーラビリティのバランスを取ることに限界があることが示された。
- この結果は,継続的なプライバシー削除に特化したマルチモーダルアンラーニング手法の必要性を示唆している。
ニアポリシー:非同期生成と選択的パッキングによるオンポリシー蒸留の高速化 [cs.LG, cs.CL]目的:自己教師あり学習モデルの効率的な知識蒸留手法
- 近年,大規模言語モデルの学習・推論コスト削減が重要な課題となっている。
- 従来の知識蒸留では,教師モデルと生徒モデルの分布の不一致が問題となる。
- オンポリシー蒸留の計算コストを削減し,学習の安定性を高めることを目指す。
- 提案手法「ニアポリシー蒸留」は,オンポリシー蒸留の8.1倍の速度で学習が可能である。
- SFT(教師あり微調整)と比較して,8.09%の性能向上を達成した。
- 本手法により,openPangu-Embedded-1BはQwen3-1.7Bを上回る性能を実現した。
MASアルゴリズム:マルチエージェントシステムによるアルゴリズムプログラミング問題解決のためのワークフロー [cs.AI, cs.SE]目的:アルゴリズムプログラミング問題解決のための体系的なワークフロー
- AIにおける構造化推論能力評価に不可欠であり,複雑なシナリオへの対応力を測る。
- 既存手法はモデル修正やデータ拡張が中心で,コストがかかり解釈性に乏しい。
- 外部ツールやプロンプト技術の断片化を解消し,統一的なフレームワークを提供する。
- 提案手法MAS-Algorithmは,Qwenシリーズモデルにおいて平均6.48%の正答率向上を達成した。
- 同一データでの効率的なパラメータ調整では0.89%の微増に留まった。
- LiveCodeBench-Proにおいても4.72%の改善が見られ,他の指標でも一貫した向上が確認された。
HaM-World:選択的記憶を用いたソフトハミルトニアン世界モデル [cs.CL, cs.AI]目的:計画のための学習された潜在的ダイナミクス
- モデルベースの計画は,ロボット工学や強化学習において重要な役割を果たす。
- 長期的な計画やダイナミクスの変化により,ロールアウトの安定性が損なわれる問題がある。
- ハミルトニアン力学に基づき,安定した長期計画を可能にする世界モデルの構築。
- HaM-Worldは,DeepMind Control Suiteにおいて最高水準のAUC(117.9, +9.5%)を達成した。
- 長期ロールアウト誤差を強力なベースラインモデルの45%まで低減することに成功した。
- 12種類の外挿テストにおいて,全ての条件で最高の報酬を獲得し,平均10.2-13.6%の性能向上を示した。
ハルシネーションを異常値として捉える:確率的回路による動的介入 [eess.SY, cs.SY, cs.CL, cs.AI]目的:大規模言語モデルにおけるハルシネーション検出と低減
- 大規模言語モデルの発展は目覚ましいが,その信頼性確保は重要な課題である。
- 大規模言語モデルは事実と異なる内容を生成するハルシネーションを起こしやすく,その抑制が困難である。
- 既存手法は誤った箇所だけでなく正しい箇所も修正するため,本研究では異常値として検出・介入する。
- 提案手法PCNETは,LLMの残差ストリーム上でハルシネーションを幾何学的な異常値として検出し,高い精度(AUROC最大99%)を示した。
- PC-LDCDは,事実に基づかない隠れ状態を特定し,そこでのみ修正を行うことで,既存手法を上回る性能をTruthfulQAで達成した。
- 本手法は,正解率の低下を抑制しつつ(平均破損率53.7%),原文の保持率を高める(79.3%)ことに成功した。
知識はあるが修正しない:LLMにおける日常的なタスク要求が事実の修正を抑制する [cs.LG]目的:LLMにおける事実修正の抑制の度合いの評価
- LLMは急速に進化しており,様々なタスクに応用されているが,その信頼性が課題となっている。
- LLMは単独で提示された誤った主張は修正できるが,タスク指向の要求に組み込まれると,修正よりも要求への対応を優先することがある。
- この研究は,LLMが事実の誤りを認識しているにもかかわらず,状況的圧力によって修正を抑制するメカニズムを解明し,改善策を提案することを目的とする。
- LLMは,孤立した誤った主張を信頼性高く修正する一方,タスク指向の要求に埋め込まれた場合には修正を抑制する傾向があることが明らかになった。
- この抑制率はモデルによって異なり,最高で90%に達し,事実の厳密性が重要な課題であることが示唆された。
- 提案手法であるCDSとDPAは,LLMの事実の厳密性を大幅に向上させ,特にDPAは推論能力を維持または向上させることが示された。
バイアス除去のための時系列平滑化二重ロバスト学習による知識トレース [cs.AI]目的:知識トレースにおけるバイアス補正
- 教育システムにおいて,学習者の知識状態を正確に把握することは,個別最適化された教育を実現する上で不可欠である。
- 既存の知識トレース手法は,観測されたログデータが選択的に収集されるというバイアスを無視している場合が多く,正確な知識推定を妨げている。
- 本研究は,二重ロバスト推定と時系列平滑化を導入することで,バイアスを効果的に除去し,知識トレースの精度を向上させることを目指す。
- 提案手法TSDRは,既存の知識トレースモデルに組み込むことで,様々なベンチマークデータセットにおいて性能向上を実証した。
- TSDRは,二重ロバスト推定の無バイアス性を維持しつつ,時系列平滑化によって分散を抑制することで,学習の安定性と性能を向上させる。
- バイアスの原理的な補正が,知識トレースの性能向上に不可欠であることを強調した。
座標マッチングから構造的アラインメントへ:異種連合学習におけるプロトタイプアラインメントの再考 [cs.AI, cs.DC, cs.LG]目的:異種連合学習におけるプロトタイプアラインメント戦略の改善
- 連合学習は,データが分散した環境でモデルを学習する上で重要であり,プライバシー保護にも貢献する。
- 異種連合学習では,クライアント間のデータやモデル構造の差異が課題となり,既存手法では性能が制限される。
- 本研究は,異種環境下でのプロトタイプアラインメントの最適化を通じて,学習能力の向上を目指す。
- 既存のプロトタイプアラインメントは,座標レベルでのマッチングに偏っており,異種モデルの学習能力を抑制する可能性がある。
- 提案手法FedSAFは,座標アラインメントから,クラス間の関係構造に着目した構造的アラインメントへ目的を転換する。
- 複数のベンチマークテストの結果,FedSAFは最先端のプロトタイプベース異種連合学習手法を最大3.52%上回る性能を示した。
TheraAgent:精密かつ包括的な治療計画のための自己改善型治療支援システム [cs.RO, cs.CL, cs.AI, cs.CL]目的:治療計画の精密化と包括性の向上
- 医療現場における質の高い治療計画は,患者の予後を大きく左右する重要な要素である。
- 既存のLLMは一発生成に依存し,検証プロセスが不十分なため,不正確で不完全,または安全性の低い治療計画となる可能性がある。
- 人間の専門家のように反復的に治療計画を修正するプロセスを模倣し,より安全で信頼性の高い計画を策定すること。
- TheraAgentは,生成・判断・修正の反復的パイプラインにより,治療計画の精度と包括性を高める。
- HealthBenchにおける実験では,精度と完全性において最先端の結果を達成した。
- 専門家による評価では,医師に対して86%の勝率を記録し,標的化と有害性抑制において優れていた。
ハイパースフェリック信頼性マッピングによる不確実性推定 [cs.LG]目的:ニューラルネットワーク予測における不確実性の定量化
- 自動運転や医療など,安全性が求められる分野において,予測の信頼性評価は不可欠である。
- 既存手法は,計算コストが高いか,分布に関する制約が厳しいという課題があった。
- サンプリングや分布の仮定に依存しない,効率的な不確実性推定手法を確立すること。
- ハイパースフェリック信頼性マッピング(HCM)は,出力の大きさおよび正規化された方向ベクトルを利用する。
- この幾何学的制約からの逸脱度合いを不確実性として解釈することで,決定論的かつ解釈可能な推定が可能となる。
- 実験により,HCMはアンサンブル法やエビデンシャル法と同等以上の性能を示し,計算コストも低いことが確認された。
一様でない信用割当を超えて:RLVRのための選択的資格追跡 [cs.LG, cs.AI]目的:大規模言語モデルの推論能力向上を目指すRLVRにおける,選択的な資格追跡による効率的な学習手法
- 大規模言語モデルの推論能力向上は,AI研究における重要な課題であり,その性能向上に貢献する。
- 従来のRLVRアルゴリズムは,軌跡レベルの利点を無差別に伝播する「一様信用割当」の仮定に依存し,学習効率が制限されていた。
- 重要な推論ステップを識別し,より詳細な信用割当を行うことで,RLVRの学習効率を向上させることを目指す。
- 提案手法S-traceは,Qwen3-1.7Bで0.49%,Qwen3-4Bで3.16%のpass@16スコアの向上を達成した。
- さらに,Qwen3-8Bへのスケールアップにおいても,平均pass@16で堅牢な2.98%の改善を維持した。
- S-traceは,サンプル効率とトークン効率の両方においても,GRPOを上回る性能を示した。
誤指定カーネル化バンディット最適化に対するより厳密な保証 [cs.LG, math.OC, stat.ML]目的:誤指定カーネル化バンディット最適化における誤指定のペナルティ軽減
- カーネル法は,複雑なデータ構造を持つ問題に対して強力な手法であり,機械学習の重要な分野である。
- カーネル法の理論的保証は,カーネルの有効次元に依存し,誤指定された場合に性能劣化が懸念される。
- カーネルの有効次元によるペナルティを軽減し,より実用的な保証を与えることを目指す。
- 特定のカーネルクラスにおいて,誤指定の増幅が対数または多項式増幅に抑制されることを示した。
- オフライン設定では,スペクトル Lebesgue 定数に基づく単純後悔限界を導出し,一方次元モノトーンスペクトルで対数増幅,多変数 Fourier 対角積カーネルで多項式増幅を実現した。
- オンライン設定では,ドメイン分割アルゴリズムを修正し,$\widetilde{\mathcal O}(\sqrt{\gamma_n n}+n\varepsilon)$ の累積後悔限界を達成し,誤指定項からの $\sqrt{\gamma_n}$ 因子を除去した。
KVキャッシュ圧縮可能性に対するTransformerの学習 [cs.LG]目的:KVキャッシュ圧縮可能性の性質と,それを学習時に誘導する方法
- 長文脈言語モデリングは,KVキャッシュのメモリとアクセスコストが文脈長に比例するため,制約を受ける。
- 既存のKV圧縮手法は,学習済みのモデルに適用されるため,モデルの内部表現の圧縮可能性に限界がある。
- Transformerの学習時に圧縮可能な表現を獲得させ,KVキャッシュの効率的な圧縮を実現すること。
- 本研究では,KV圧縮可能性が学習された表現の性質に依存することを示し,学習時に圧縮を意識したTransformerの学習の必要性を提唱した。
- 提案手法KV-CATは,学習時にKVスロットをスパース化することで,モデルに圧縮可能な表現の学習を促す。
- 実験的に,KV-CATは検索,長文脈質疑応答,圧縮されたプレフィックス継続などの下流タスクにおいて,圧縮手法の性能を向上させることを示した。
PragLocker:信頼できない環境におけるエージェントの知的財産保護のための非移植性プロンプト [cs.CR, cs.AI]目的:エージェントの知的財産保護
- LLMエージェントの普及に伴い,プロンプトの重要性が増している。
- プロンプトが容易に複製され,悪用されるリスクが存在する。
- 特定のLLMでのみ動作するプロンプトを生成し,知的財産を保護する。
- PragLockerは,コードシンボルで意味を固定し,ターゲットモデルのフィードバックでノイズを注入することで,関数を維持したままプロンプトを難読化する。
- 実験により,PragLockerがクロスLLM移植性を大幅に低減し,ターゲットの性能を維持することが示された。
- 適応的な攻撃者に対しても堅牢であることが確認された。
力学系における改良された整合性蒸留フローマッチングによる物理的忠実度再構成 [cs.LG, physics.flu-dyn]目的:低忠実度観測データからの高忠実度流れ場の再構成
- 科学的機械学習において,物理現象の理解や予測に不可欠な流れ場の再構成が重要である。
- 既存の拡散モデルやフローマッチングモデルは,反復サンプリングに依存し,計算コストが高いという課題がある。
- 高忠実度フローマッチングモデルを,高速な再構成が可能なコンパクトなモデルへと蒸留することを試みる。
- 蒸留されたモデルは,教師モデルと同等のスペクトル性能を維持しつつ,パラメータ数を約半分に削減し,推論速度を12倍向上させた。
- 同じ学習コストの下では,直接学習したワンステップ整合性モデルよりもSSIMで23.1%高い性能を示し,教師蒸留による学習効率の向上が確認された。
- 本研究は,将来の高容量科学的生成モデルを,より高速で安価,かつ展開しやすい再構成モデルへと転換する有望な道筋を示す。
BehaviorGuard:深層強化学習に対するオンラインバックドア防御 [eess.SY, cs.SY, cs.AI]目的:深層強化学習におけるバックドア攻撃に対するオンライン防御
- 強化学習はロボット制御などに応用が期待され,その安全性確保は重要である。
- バックドア攻撃は検知が難しく,学習済みモデルの信頼性を損なう深刻な問題である。
- トリガーに依存せず,行動パターンからバックドアを検出し,抑制することを目的とする。
- BehaviorGuardは,バックドア攻撃による行動分布の変化を高位の統計量で捉え,バックドア行動を抑制する。
- 単一エージェントおよび複数エージェント環境において,既存手法を凌駕する有効性と効率性を示す。
- トリガーの特定やモデルの再学習を必要とせず,オンラインでバックドア攻撃に対抗する初の防御手法である。
大容量カーネルホップフィールドネットワークにおける効率的なイベント駆動型検索 [cs.NE]目的:カーネルロジスティック回帰ホップフィールドネットワークの非同期検索ダイナミクス
- 高容量な連想記憶モデルは,神経科学や機械学習における重要な研究テーマである。
- 従来の同期更新方式は計算コストが高く,エネルギー効率の良いニューロモーフィックハードウェアへの実装が困難である。
- 本研究は,非同期更新による効率的な検索を実現し,ニューロモーフィックアーキテクチャ上でのスケーラブルな連想記憶の基盤を提供する。
- 適切に調整されたカーネルパラメータの下で,非同期更新は同期ダイナミクスと統計的に区別がつかない軌跡を示す。
- 非同期ネットワークは,ランダムパターンの範囲内で古典的な限界を超える約P/N≈30の静的ランダムパターン領域における実証的な記憶容量を達成する。
- エラー訂正に必要な状態遷移(ビット反転)の回数は,初期ハミング距離に近く,不要な振動は見られない。
TACT:活性化の制御によるコーディングエージェントの過剰思考と過剰行動の軽減 [cs.AI]目的:コーディングエージェントにおけるエージェントドリフトの検出と軽減
- 複雑なソフトウェア開発タスクを自動化するエージェントの実現が求められている。
- 長時間の実行において,エージェントの性能が低下する「エージェントドリフト」が課題となっている。
- 過剰な思考や行動を検出し,活性化を調整することでエージェントドリフトを抑制する。
- TACTは,隠れ状態を解析し,ドリフト軸を特定することで,過剰思考と過剰行動を高い精度で識別できる。
- テスト時に活性化をドリフト軸上に投影し,調整を行うことで,エージェントの性能を向上させることが示された。
- SWE-bench Verified等で平均解決率が5.8〜4.8%向上,解決までのステップ数が最大26%削減された。
犠牲なし操舵に向けて:プロンプトのみ介入のための操舵ベクトル原理に基づいた学習 [cs.LG]目的:大規模言語モデルの行動制御に関する操舵ベクトルの学習方法
- 大規模言語モデルの制御は,その応用範囲を広げる上で不可欠である。
- 従来の操舵ベクトルは,制御効果と生成品質のバランス調整が難しい。
- プロンプトのみ介入により,生成品質の低下を抑えつつ効果的な制御を実現する。
- 操舵因子と方向を同時に学習することで,事後選択の必要性をなくした。
- プロンプトのみ介入する操舵ベクトル(PrOSV)が,従来の方式をAxBench上で上回る性能を示した。
- PrOSVは,汎用的なモデル性能と敵対的頑健性の両立において,より良いトレードオフを実現する。
翻訳医学のためのシナリオ誘導型マルチエージェント:BioResearcher [cs.AI, cs.MA, q-bio.QM]目的:翻訳医学における証拠統合プロセスの実現
- 翻訳医学は,基礎研究の成果を臨床応用につなぐ重要な分野であり,医療の発展に不可欠である。
- 既存の汎用モデルやマルチエージェントシステムは,複雑な生物医学データの処理や監査可能なワークフロー構築に限界がある。
- 本研究は,異種生物医学情報源を統合し,シナリオに基づいた正確な分析を実現するシステムの開発を目指す。
- BioResearcherは,バージョン管理された研究計画に基づいてクエリを実行し,30以上のツールや機械学習エンドポイントに処理を委任する。
- 単一ステップテストで83.49%の合格率,BixBench-Verified-50で89.33%の性能,臨床エンドツーエンドベンチマークで74.7%のポジティブヒット率を達成した。
- この結果は,BioResearcherがユニットレベル,オープンエンド,エンドツーエンドの臨床評価において優れた性能を示すことを示している。
iPhoneBlur:消費者向けデバイスのモーションデブラーリングのための難易度層別ベンチマーク [cs.CV, cs.AI]目的:消費者向けデバイスにおけるモーションブラー除去の性能評価
- モバイルデバイスの画像処理技術は,日常的な写真や動画撮影において不可欠である。
- 従来の評価指標は,モーションブラーの難易度による性能変動を捉えきれていない。
- モーションブラーの難易度別に性能を評価し,実用的な復元戦略の開発を支援する。
- iPhoneBlurは,7,400組の画像ペアで構成され,難易度別にEasy,Medium,Hardの3段階に分類されている。
- 難易度が高くなるにつれて,光学フローの大きさが増加し,評価対象のモデルの性能が7-9dB低下することが確認された。
- プロフェッショナルカメラと消費者向けカメラのドメインギャップが明らかになり,ファインチューニングにより性能が回復された。
DiBA:ニューラルネットワークの重み圧縮のための対角・二値行列近似 [cs.IR, eess.SY, cs.SY, cs.LG]目的:ニューラルネットワークの重み圧縮のためのコンパクトな行列分解
- 深層学習モデルの規模拡大に伴い,モデルサイズと計算コストの削減が重要課題となっている。
- 既存の重み圧縮手法では,精度低下と圧縮率のトレードオフが課題である。
- DiBAは,高い圧縮率を維持しつつ,精度劣化を最小限に抑えることを目指す。
- DiBAは,対角行列と二値行列を用いて行列を近似することで,計算量を削減する。
- DiBA-Greedyは,対角成分の最小二乗更新と二値行列のビット改善テストを組み合わせた最適化手法である。
- DiBARDは,二値行列を固定したまま対角成分のみを再調整することで,適応時の計算コストを削減する。
