arXiv雑要約

AI - 2026/02/03 公開

  • 小規模モデル,賢い学習:共同タスク訓練の力 [cs.CL, cs.LG, cs.AI]目的:共同タスク訓練における学習遷移と必要最小限のモデルサイズ
    • 汎化性能向上は重要だが,モデルの複雑化を抑えつつ性能を維持する方法が課題。
    • タスク間の関連性が不明確な場合,共同学習の効果が限定的になる場合がある。
    • タスク間の相性に基づいて訓練することで,モデルサイズを削減する可能性を探る。
    • 簡単な演算と難しい演算の組み合わせは,パラメータ数を2~7倍削減できることが示された。
    • 構造が類似した難しいタスクの組み合わせや,共通の計算基盤を持たないタスクでは相乗効果は認められなかった。
    • 成功した共同訓練は,単一タスクモデルには見られない,構造化された数値表現を誘導することが示唆された。

    Link: https://arxiv.org/abs/2505.18369

  • トークン重要度に基づく直接選好最適化 [cs.AI]目的:大規模言語モデルと人間の選好の整合
    • AIの安全性と効果的な対話には,人間選好との整合が不可欠である。
    • 既存の選好最適化手法はノイズに弱く,トークンごとの重要度の違いを考慮していない。
    • トークン重要度を精緻に制御することで,より安定した最適化を目指す。
    • TI-DPOは,勾配帰属とガウス事前分布を組み合わせた新しい重み付けメカニズムを採用した。
    • TI-DPOは,トリプレット損失を用いてモデル出力を好ましい応答に近づけ,好ましくない応答から遠ざける。
    • 実験結果から,TI-DPOはDPOや他のRLHF手法と比較して,高い精度と多様性,安定性,計算効率を示すことがわかった。

    Link: https://arxiv.org/abs/2505.19653

  • 嗜好学習における性能差の理解:RLHFとDPOの二分法 [cs.LG, cs.CL]目的:RLHFとDPOの性能差に関する理論的分析
    • 人間のフィードバックを活用した学習は,AIの性能向上に不可欠である。
    • RLHFとDPOは異なる学習方法であり,どちらが優れているか不明確である。
    • モデルの表現能力が性能差に与える影響を明らかにすること。
    • 表現能力の差が,RLHFとDPOの性能を左右することが示された。
    • オンラインDPOは,特定の条件下でRLHFやDPOよりも優れた性能を発揮する。
    • RLHFは,報酬モデルの学習においてDPOよりも少ないサンプルで効果的な結果を得られる。

    Link: https://arxiv.org/abs/2505.19770

  • ePC:デジタルハードウェアのための高速かつ深層予測符号化 [cs.LG, cs.AI]目的:深層予測符号化のデジタルハードウェア実装における性能向上
    • 脳の仕組みにヒントを得た学習法であり,エネルギー最小化による効率的な学習が期待される。
    • 従来の予測符号化は,デジタルシミュレーションにおいて計算量が多く,深層化が困難である。
    • デジタルハードウェア上での深層予測符号化の実用性とスケーラビリティの実現を目指す。
    • 提案手法ePCは,従来のsPCが抱える信号減衰の問題を克服し,高速な学習を実現した。
    • ePCは,バックプロパゲーションと同等の性能を示し,特に深層モデルにおいて優れた結果を得た。
    • 本研究は,予測符号化のダイナミクスに関する理論的知見を提供し,デジタルハードウェア上での深層学習の基盤を確立する。

    Link: https://arxiv.org/abs/2505.20137

  • テスト時計算はニューラル記号回帰における再現バイアスを軽減できるか [cs.LG]目的:ニューラル記号回帰における再現バイアスの軽減
    • 科学的発見において数式は重要であり,自動探索が求められている。
    • Transformerを用いたニューラル記号回帰は高速だが,入力変数が多くなると性能が低下する。
    • テスト時戦略によって再現バイアスを低減し,汎化性能を高めることを目指す。
    • 従来のトークン生成は数値整合性の検証と並行できないため,記号回帰には不向きであることが示された。
    • ニューラル記号回帰の探索空間は,訓練データからの単純なコピーによって制限されていることが明らかになった。
    • テスト時に追加情報を提供することで,再現バイアスを効果的に軽減できることが確認された。

    Link: https://arxiv.org/abs/2505.22081

  • 勾配を測定せよ!深層強化学習におけるニューロン活動の強化 [eess.SY, cs.RO, cs.SY, cs.DC, cs.CL, cs.LG]目的:深層強化学習エージェントにおけるニューロン活動喪失の軽減
    • 深層強化学習は,複雑なタスクの自動学習を可能にする重要な技術である。
    • ニューロン活動の喪失は,エージェントの適応能力と継続学習能力を阻害する。
    • より複雑なアーキテクチャでも有効なニューロンの学習能力指標の開発。
    • 本研究では,ニューロンの表現能力ではなく,勾配更新による適応能力の維持が重要であると提唱する。
    • 勾配の大きさに基づく新しい指標GraMa(Gradient Magnitude Neural Activity Metric)を導入し,多様なアーキテクチャにおけるニューロンの非活動性を効率的に検出する。
    • GraMaに基づいてニューロンをリセットするReGraMaは,MuJoCoやDeepMind Control Suiteを含む複数の深層強化学習アルゴリズムで学習性能を向上させる。

    Link: https://arxiv.org/abs/2505.24061

  • マインクラフトにおけるロバストな計画のための経験に基づく知識修正 [cs.LG, cs.AI]目的:マインクラフト環境におけるロバストな計画のための知識修正手法
    • 長期的計画が求められる環境において,LLMを活用したエージェントの性能向上が重要視されている。
    • LLMは初期知識に誤りが含まれることがあり,プロンプトやフィードバックによって修正されない場合がある。
    • 経験を通して知識をアルゴリズム的に修正し,初期知識の誤りや疎なフィードバックへのロバスト性を実現する。
    • XENONは,過去の成功事例を用いてアイテム間の依存関係を修正する適応的依存グラフと,失敗事例を用いて行動知識を修正する失敗認識型行動記憶の2つのメカニズムを統合している。
    • この2つのコンポーネントにより,XENONは限られたガイダンスの下でも複雑な依存関係を獲得できる。
    • 実験の結果,XENONは知識学習と長期的計画の両方において,既存のエージェントを凌駕し,7BのオープンウェイトLLMでより大規模なプロプライエタリモデルを超える性能を示した。

    Link: https://arxiv.org/abs/2505.24157

  • プロキシターゲット:離散スパイクニューラルネットワークと連続制御のギャップを埋める [cs.NE, cs.LG]目的:離散スパイクニューラルネットワークと連続制御アルゴリズム間のギャップを埋めるためのプロキシターゲットフレームワーク
    • ニューロモーフィックハードウェア上で低遅延かつ省電力な意思決定を実現するスパイクニューラルネットワークは,エッジデバイスでの強化学習に有用である。
    • 従来の連続制御向け強化学習アルゴリズムは人工ニューラルネットワークを前提としており,スパイクニューロンの離散性との不整合が学習を不安定化させる。
    • スパイクニューロンに特化した強化学習アルゴリズムを開発し,ニューロモーフィックエージェントの高性能化と低消費電力化を目指す。
    • 本研究で提案するプロキシターゲットフレームワークは,学習の安定性を向上させ,様々なスパイクニューロンモデルにおいて最大32%の性能向上を実現した。
    • 単純なLeaky Integrate and Fire(LIF)ニューロンにおいても,人工ニューラルネットワークを上回る性能を達成した。
    • この成果は,スパイクニューラルネットワークに最適化された強化学習アルゴリズムの重要性を示し,高性能かつ低消費電力なニューロモーフィックエージェントの実現に貢献する。

    Link: https://arxiv.org/abs/2505.24161

  • 生成されたインスタンスは本当に有用か? GenBench-MILP:MILPインスタンス生成のためのベンチマークスイート [cs.LG]目的:MILPインスタンス生成器の標準化された客観的評価
    • 混合整数計画問題の求解は,現実世界の最適化問題の基盤であり,産業界における効率向上が不可欠である。
    • 機械学習によるインスタンス生成は増加しているが,生成されたインスタンスの有用性や現実性を評価する基準が確立されていない。
    • 生成されたインスタンスの数学的妥当性,構造的類似性,計算困難性,ダウンストリームタスクへの有用性を多角的に評価する。
    • GenBench-MILPは,ソルバー内部の特性(ルートノードギャップ,ヒューリスティック成功率,カット平面の使用量)を分析することで,静的なグラフ特徴では捉えきれない計算上の差異を明らかにする。
    • 構造的類似性が高いインスタンスでも,ソルバーの挙動や難易度に大きな違いが生じることが実験的に示された。
    • 本ベンチマークスイートは,厳密な比較を促進し,高精度なインスタンス生成器の開発を支援することを目的とする。

    Link: https://arxiv.org/abs/2505.24779

  • ワイルド環境における読書認識 [cs.CV, cs.LG]目的:読書状況の判定
    • 常時装着型スマートグラスの普及に伴い,ユーザーと環境の相互作用記録が不可欠である。
    • 現実的な環境下での読書認識に関する大規模データセットが存在しなかった。
    • 多様かつ現実的なシナリオにおける読書認識モデルの構築を目指す。
    • 大規模なマルチモーダルデータセット「Reading in the Wild」を構築し,100時間の読書・非読書ビデオを収録した。
    • RGB画像,視線,頭部姿勢の3つのモダリティが読書認識に有効であることが示された。
    • 柔軟なTransformerモデルを用いて,各モダリティを個別に,または組み合わせて読書認識を実行できることを示した。

    Link: https://arxiv.org/abs/2505.24848

  • エージェント監査人:LLMエージェントの人間レベルの安全性とセキュリティ評価 [cs.AI]目的:LLMエージェントの安全性とセキュリティ評価に関する課題解決
    • LLMエージェントの応用拡大に伴い,安全性とセキュリティの確保が不可欠となっている。
    • 既存の評価手法では,エージェントの行動の潜在的危険を見落としたり,曖昧な状況に対応できなかったりする。
    • 人間レベルの専門家による評価を模倣する評価フレームワークを開発し,評価精度を向上させる。
    • AgentAuditorは,過去のインタラクションから構造化されたセマンティック特徴を抽出・蓄積し,その経験を評価に活用する。
    • 新開発のベンチマークASSEBenchを用いて評価した結果,AgentAuditorはLLMベースの評価手法の性能を大幅に向上させた。
    • 特に安全性とセキュリティの脅威を特定する精度において,人間レベルの精度を達成した。

    Link: https://arxiv.org/abs/2506.00641

  • 注意索引モデルのベイズ最適学習 [cs.LG, cond-mat.dis-nn, cs.IT, math.IT, stat.ML]目的:深層注意層における学習の理論的解析
    • Transformerは自然言語処理等の分野で広く利用され,高性能を発揮しているため。
    • 既存の注意モデルは,計算の簡略化のため制約が大きすぎることが課題となっていた。
    • より現実的なTransformerに近い注意機構の学習特性を理論的に解明すること。
    • 注意索引モデル(AIM)は,トークンレベルの出力が多次元埋め込み上の二重線形相互作用から生まれる様子を捉えている。
    • 統計力学とランダム行列理論を用いることで,ベイズ最適汎化誤差の閉形式予測を導き出した。
    • AIMは,自己注意層における学習を理解するための,解析可能な基盤を提供する。

    Link: https://arxiv.org/abs/2506.01582

  • DistMLIP:機械学習原子間ポテンシャル分散推論プラットフォーム [cs.DC, cond-mat.mtrl-sci, cs.LG, cs.PF]目的:機械学習原子間ポテンシャル(MLIP)の分散推論
    • 現実的な材料や創薬への応用のため,大規模な原子レベルシミュレーションが不可欠である。
    • 従来の空間分割並列化では,柔軟なMLIPモデルアーキテクチャの並列化が困難であった。
    • グラフ分割による効率的なMLIP並列化を実現し,シミュレーション規模を拡大すること。
    • DistMLIPは,CHGNet,MACE,TensorNet,eSENを含む4つのMLIPで有効性を示した。
    • DistMLIPを用いることで,従来のマルチGPU法と比較して,最大3.4倍大規模,最大8倍高速なシミュレーションが可能となった。
    • 既存の基盤ポテンシャルを用いて,8つのGPU上で数秒で百万原子規模の計算を実現した。

    Link: https://arxiv.org/abs/2506.02023

  • ヘッセ行列情報に基づく高速分散ゼロ次最適化 [cs.LG, cs.DC]目的:分散学習におけるヘッセ行列近似を用いたゼロ次最適化による収束高速化
    • 大規模言語モデルの分散学習では,通信コストがボトルネックとなりやすい。
    • 既存のゼロ次分散学習法は,収束速度向上のために重要な曲率情報を活用できていない。
    • ヘッセ行列近似を用いて,分散環境下でのゼロ次最適化の収束を加速し,通信効率を向上させる。
    • 提案手法HiSoは,ヘッセ行列の対角成分の近似を利用することで,通信量を削減しつつ収束を高速化する。
    • 非凸関数に対して,HiSoはLipschitz定数やモデル次元に依存しない高速な収束率を理論的に保証する。
    • 多様な大規模言語モデルのファインチューニング実験において,既存の最先端手法と比較して1~5倍の通信ラウンド数削減を達成した。

    Link: https://arxiv.org/abs/2506.02370

  • HueManity:MLLMにおける微細な視覚知覚の探求 [cs.CL, cs.CV, cs.AI, cs.LG]目的:MLLMにおける微細な視覚知覚能力の評価
    • MLLMは画像認識の分野で急速に進歩しているが,安全性や信頼性が求められる場面が増加している。
    • 既存のベンチマークは高次の視覚的推論に偏っており,微細な視覚的詳細の認識能力を十分に評価できていない。
    • MLLMの視覚的基礎能力の弱点を明らかにし,より安全で信頼性の高いシステム開発に貢献すること。
    • HueManityは,アルファニューメリック文字列を埋め込んだ石原式図形を用いた大規模な自動ベンチマークである。
    • 9つの最先端MLLMの評価の結果,最も性能の良いモデルでも単純な数値タスクで33.6%の精度,困難なアルファニューメリックタスクでわずか3%の精度しか達成できなかった。
    • 人間の99.38%,93.25%や,ファインチューニングされたResNet-50の96.5%,94.5%と比較すると,MLLMには大きな性能差が見られた。

    Link: https://arxiv.org/abs/2506.03194

  • 学習データへの寄与度評価のためのパラメータ重み付け学習 [cs.LG, cs.CV]目的:出力に最も影響を与える学習事例の特定
    • 機械学習モデルの解釈可能性向上は,信頼性向上やデバッグに不可欠である。
    • 既存手法では,ネットワークパラメータの重要度を十分に考慮できていない。
    • データから直接パラメータの重要度を学習し,より正確な寄与度評価を目指す。
    • 提案手法は,画像分類,言語モデリング,拡散モデルなど,多様なタスクで寄与度評価の精度を向上させた。
    • 被写体やスタイルといった概念レベルでの,より詳細な寄与度評価が可能となった。
    • アノテーションされたラベルを必要とせず,データから直接パラメータの重要度を学習する点が特徴である。

    Link: https://arxiv.org/abs/2506.05647

  • ポリシー勾配における軌跡の再利用は高速収束を可能にする [cs.LG]目的:ポリシー勾配法の収束速度向上
    • 強化学習は,複雑な制御問題への応用が期待され,継続的な研究が必要である。
    • 従来のポリシー勾配法はサンプル効率が悪く,収束に多数の軌跡を必要とする。
    • 過去の軌跡を再利用することで,サンプル効率を改善し,収束を加速することを試みる。
    • 本研究では,過去のオフポリシー軌跡の再利用がポリシー勾配法の収束を大幅に加速させることを理論的に証明した。
    • 提案手法RT-PGは,最新のω回の反復から得られたオンポリシーデータとオフポリシーデータを効果的に組み合わせる。
    • RT-PGはサンプル複雑度$\widetilde{O}(\epsilon^{-2}\omega^{-1})$を達成し,全ての過去軌跡を再利用すると$\widetilde{O}(\epsilon^{-1})$という,これまでにない最良のレートを示す。

    Link: https://arxiv.org/abs/2506.06178

  • AIエージェントによる仕事の未来:米国労働力における自動化と拡張の可能性の監査 [cs.CY, cs.AI, cs.CL, cs.HC, cs.LG]目的:AIエージェントによる自動化または拡張を希望する作業タスクと,現在の技術能力との整合性
    • AI技術の進展は労働市場に大きな影響を与え,その変化を理解することは重要である。
    • AIによる雇用喪失や人間の主体性の低下に対する懸念がある一方で,体系的な理解が不足している。
    • 作業者がAIに何を期待し,技術的な限界を考慮して,より良いAI開発の方向性を示す。
    • 作業者の意向と技術的実現可能性に基づいて,タスクを「自動化促進」「自動化抑制」「研究開発機会」「優先度低」の4つのゾーンに分類した。
    • 職種ごとに人間の関与レベルの期待値が異なり,一律の自動化/非自動化判断では不十分であることが示された。
    • AIエージェントの統合は,情報処理能力から対人スキルへのシフトなど,人間の主要な能力を再定義する可能性がある。

    Link: https://arxiv.org/abs/2506.06576

  • MEMOIR:LLMにおける最小限の書き換えと情報保持による生涯学習モデル編集 [cs.CL, cs.LG]目的:LLMの生涯学習モデル編集手法
    • 実世界で利用される言語モデルは知識の更新が必要であり,その効率性と信頼性が重要である。
    • 既存手法は汎化性能の低下,過去編集との干渉,編集シーケンスのスケーラビリティの問題を抱える。
    • MEMOIRは,残差メモリを用いて知識を注入することで,これらの課題を解決することを目指す。
    • MEMOIRは,入力活性化をスパース化することで,編集をメモリパラメータの異なる部分に限定し,干渉を最小限に抑える。
    • 推論時には,新しいクエリのスパースな活性化パターンと編集時に保存されたパターンを比較することで,関連する編集を特定する。
    • LLaMA-3とMistralを用いた実験により,MEMOIRは信頼性,汎化性能,局所性において最先端の性能を達成し,数千回の編集にスケール可能であることが示された。

    Link: https://arxiv.org/abs/2506.07899

  • KVmix:勾配に基づく層重要度を考慮したKVキャッシュの混合精度量子化 [cs.LG, cs.AI]目的:大規模言語モデルにおけるKVキャッシュの混合精度量子化手法
    • 大規模言語モデルの普及に伴い,推論時のメモリ使用量が課題となっている。
    • 既存手法では,精度低下を招く一律的な量子化や,重要なKVの優先度設定が不十分である。
    • 勾配情報に基づき層ごとに最適な量子化ビット幅を決定し,メモリ使用量と性能のバランスを取る。
    • KVmixは,LlamaやMistral等のLLMにおいて,ほぼ損失のない推論性能を達成した。
    • Key 2.19bit,Value 2.38bitという極めて低い量子化設定で,4.9倍のメモリ圧縮と5.3倍の推論速度向上を実現した。
    • 直近の重要なトークンは高精度で保持し,過去のトークンを圧縮する動的な長文最適化戦略も導入した。

    Link: https://arxiv.org/abs/2506.08018

  • LLMのためのドラフトベース近似推論 [cs.CL, cs.AI]目的:大規模言語モデルにおける近似推論手法
    • Transformerモデルの計算コストとメモリ使用量が課題であり,効率化が求められている。
    • 既存手法では,トークン重要度の予測精度が低く,性能向上の限界がある。
    • ドラフトモデルを用いてトークン重要度をより正確に予測し,効率的な推論を実現する。
    • 提案手法SpecKVは,ドラフトモデルを用いたKVキャッシュドロップにより,既存手法よりも高い精度を達成した。
    • SpecPCは,ドラフトモデルの注意機構を活用し,重要度の低いプロンプトトークンを削減することで性能向上を実現した。
    • SpecKV-PCは,両技術を組み合わせることで,メモリ使用量,レイテンシ,スループットの効率化と精度維持を両立した。

    Link: https://arxiv.org/abs/2506.08373

  • TRACE:文脈に基づく時系列データのマルチモーダル埋め込みと検索 [cs.RO, cs.LG]目的:時系列データと文脈のマルチモーダル埋め込みおよび検索
    • 気象,医療,エネルギーなど多様な分野で時系列データ利用が拡大しており,その解釈と検索の重要性が高まっている。
    • 既存手法は意味的根拠に乏しく,異種モダリティ間の整合性や多チャンネル信号の処理能力に課題がある。
    • 文脈に沿った時系列データの埋め込みにより,意味的に適切な検索を可能にし,時系列モデルの性能向上を目指す。
    • TRACEは,時系列埋め込みを文脈と関連付けることで,きめ細かいチャンネルレベルの整合性を実現する。
    • テキストから時系列,時系列からテキストへの柔軟なクロスモーダル検索をサポートし,予測精度と解釈性を向上させる。
    • ダウンストリームタスクのための効果的なエンコーダとして,また時系列モデルを強化する汎用検索エンジンとして,優れた性能を示す。

    Link: https://arxiv.org/abs/2506.09114

  • PAL:LLMによるオーディオエンコーダの検証 -- LLMへのオーディオ情報の転送 [cs.SD, cs.AI, cs.CL, eess.AS]目的:LLMへの効率的なオーディオ意味情報の転送
    • LLMとオーディオ処理の融合は,機械によるリスニング応用の発展に不可欠である。
    • 既存手法では,オーディオエンコーダからLLMへの効率的な意味情報の転送が課題となっていた。
    • 計算コストを抑えつつ,オーディオ情報をLLMへ効果的に統合することを目指す。
    • LALは,既存の統合手法と比較して,同等以上の性能を複数のLLMとタスクで示している。
    • LALは,メモリ使用量を約60%削減し,スループットを約190%向上させている。
    • PALは,PLITSと同等以上の性能を達成しつつ,計算効率とメモリ効率を大幅に改善している。

    Link: https://arxiv.org/abs/2506.10423

  • エパネチニコフエネルギーに基づく高密度連想記憶 [cs.LG]目的:高密度連想記憶ネットワークにおけるエネルギー関数の提案
    • 連想記憶は,人間の記憶メカニズムのモデル化や,パターン認識などに応用が期待される重要な研究分野である。
    • 従来の連想記憶ネットワークでは,記憶容量とパターン分離性のトレードオフが存在する。
    • エパネチニコフカーネルに基づく新しいエネルギー関数を用いて,記憶容量の向上と新たな記憶の創出を目指す。
    • 提案手法であるLSRエネルギー関数は,従来のLSE関数と比較して,指数関数的な分離関数を必要とせずに,指数関数的な記憶容量を実現する。
    • LSRエネルギー関数は,完全なパターン回復能力を維持しつつ,豊富な追加的な局所最小値(記憶)を生み出す。
    • 画像データセットを用いた実験により,LSRエネルギー関数が生み出す新たな記憶には,創造性や新規性が見られ,大規模記憶と生成タスクへの応用可能性を示唆する。

    Link: https://arxiv.org/abs/2506.10801

  • 一般化か,幻覚か:Transformerにおける文脈外推論の理解 [cs.CL, cs.LG]目的:Transformerにおける文脈外推論のメカニズムの解明
    • 大規模言語モデルの性能向上は目覚ましいが,その推論過程は未だ解明されていない点が多い。
    • ファインチューニングによる知識獲得の過程で,モデルが誤った情報を生成する「幻覚」が問題となっている。
    • 一般化と幻覚の共通メカニズムである文脈外推論を解明し,その制御方法を探る。
    • 文脈外推論が,因果関係の有無によって一般化と幻覚の両方を引き起こすことが,複数のLLMで確認された。
    • 単層の注意機構のみを持つTransformerが,文脈外推論を学習できることが,合成的なタスクを用いて示された。
    • 勾配降下法のバイアスが,文脈外推論能力の発現に寄与する数学的構造が明らかになった。

    Link: https://arxiv.org/abs/2506.10887

  • 隠れパラメータダイナミクス変動下における安全な強化学習のための適応型シールド [cs.LG, cs.AI]目的:隠れパラメータによる環境ダイナミクスの変動下での安全な強化学習
    • 強化学習は多様な分野に応用されるが,現実環境は不確実性を伴うため,安全性の確保が重要である。
    • 環境ダイナミクスの変動は予測が難しく,特に隠れパラメータによって変動する場合,安全性に深刻な影響を及ぼす。
    • 隠れパラメータ変動に対応しつつ,安全性を保証する強化学習手法の開発が求められている。
    • 提案手法「適応型シールド」は,遷移データから環境ダイナミクスをオンラインで推論し,シールドを適応させることで安全性を実現する。
    • 安全性を確保するため,コストの高い領域への行動を抑制する正則化と,不確実性を考慮した安全な行動フィルタリングを組み合わせている。
    • Safe-Gymベンチマークにおいて,既存手法を凌駕する性能を示し,未知のダイナミクスへの汎化性も確認された。

    Link: https://arxiv.org/abs/2506.11033

  • NAP-Tuning:敵対的ロバストな視覚言語モデルのためのニューラル拡張プロンプトチューニング [cs.HC, cs.HC, cs.CV, cs.AI]目的:敵対的攻撃に対する視覚言語モデルのロバスト性の向上
    • 視覚言語モデルは画像とテキストの関連性を理解する上で高い能力を示すため,様々な応用が期待されている。
    • 視覚言語モデルは敵対的攻撃に対して脆弱であり,セキュリティ上の懸念が存在する。
    • 敵対的攻撃による特徴空間の歪みを直接的に軽減し,モデルのロバスト性を高めることを目指す。
    • NAP-Tuningは,既存手法と比較して様々なデータセットと攻撃タイプにおいて大幅な性能向上を示した。
    • 特に,AutoAttackベンチマークにおいて,ViT-B16とViT-B32アーキテクチャでそれぞれ33.5%,33.0%の改善が見られた。
    • その上で,クリーンな精度を維持しつつ,敵対的ロバスト性を強化することに成功した。

    Link: https://arxiv.org/abs/2506.12706

  • 異質的治療効果推定のためのハイブリッドメタ学習器 [cs.CL, cs.LG, stat.ME]目的:異質的治療効果の推定
    • 観察データから治療効果を推定することは,医療や政策決定において重要な課題である。
    • 既存手法では,モデルの複雑さの制御方法が課題であり,直接法と間接法に二分される。
    • 両手法の利点を組み合わせ,データに応じて適切な正則化を行うことで,より精度の高い推定を目指す。
    • ハイブリッド学習器(H-learner)は,直接法と間接法の正則化をデータに応じて調整する。
    • 潜在結果関数の近似精度が低くても,CATEのバイアス・バリアンスのトレードオフを改善できる。
    • 半合成データと実データでの実験により,H-learnerが両メタ学習器の利点を効果的に組み合わせることが示された。

    Link: https://arxiv.org/abs/2506.13680

  • 深層強化学習における大規模学習の安定化:安定した勾配の実現 [cs.LG]目的:深層強化学習における大規模学習の安定化
    • 深層強化学習は複雑な問題解決に有効だが,規模拡大に伴い性能が低下しやすい。
    • 深層強化学習の規模拡大は,勾配の不安定性や非定常性といった問題を引き起こす。
    • 本研究は,勾配の安定化を通じて,大規模深層強化学習の性能向上を目指す。
    • 大規模学習における性能劣化の根本原因は,不適切なアーキテクチャ選択に起因する勾配の異常と非定常性の組み合わせであることが示された。
    • 勾配の流れを安定化させる介入手法を提案し,ネットワークの深さや幅に関わらず,堅牢な性能を達成できることを確認した。
    • 提案手法は実装が容易であり,既存のアルゴリズムと互換性があり,大規模な学習においても高い性能を発揮する。

    Link: https://arxiv.org/abs/2506.15544

  • 深層多項式ニューラルネットワークの識別可能性 [cs.CL, cs.LG, cs.AI, math.AG, stat.ML]目的:深層多項式ニューラルネットワークの識別可能性に関する解析
    • ニューラルネットワークの解釈可能性向上は,信頼性向上に不可欠である。
    • 多項式ニューラルネットワークの識別可能性は未解明な点が多い。
    • 層幅と活性化次数間の関係から識別可能性の条件を明らかにする。
    • 層幅が非増加のアーキテクチャは,穏やかな条件下で識別可能であることが示された。
    • エンコーダ・デコーダネットワークは,デコーダ幅が活性化次数に比べて緩やかに増加する場合に識別可能となる。
    • 深層多項式ニューラルネットワークと低ランクテンソル分解の関係が明らかになり,ニューロバリエティの次元に関する未解決の問題が解決された。

    Link: https://arxiv.org/abs/2506.17093

  • HalluRNN:大規模ビジョン言語モデルにおける幻覚の軽減:再帰的クロスレイヤー推論による [cs.CV, cs.AI, cs.LG]目的:大規模ビジョン言語モデルにおける幻覚の軽減
    • ビジョン言語モデルは多様なタスクで優れた性能を示すが,誤った情報を生成する幻覚の問題が存在する。
    • 既存の手法はデータや設定に依存し,リソース消費が大きい場合がある。
    • モデルの安定性を高め,表現のずれによる幻覚を軽減することを目指す。
    • HalluRNNは,再帰的クロスレイヤー推論を通じてモデルの安定性を向上させるアーキテクチャレベルのソリューションである。
    • Dual-Gated Depth Propagation Unit(DG-DPU)モジュールを導入し,隠れ状態を再帰的に洗練することで,情報の適応的な伝播と層間の整合性を実現する。
    • DG-DPUモジュールのみをファインチューニングすることで,複数のベンチマークで堅牢な性能を達成する。

    Link: https://arxiv.org/abs/2506.17587

  • 協調的層集合ニューラルネットワーク [cs.CL, cs.LG]目的:グラフ表現学習における協調的情報伝達の実現
    • グラフ構造データ分析の重要性が増しており,その表現学習が不可欠である。
    • 既存のグラフニューラルネットワークは,ヘテロフィリックデータや過剰平滑化の問題を抱える場合がある。
    • 層集合拡散の協調性を欠く点を克服し,より柔軟な情報伝達を実現する。
    • 層集合拡散が協調的挙動を示さないことを理論的に証明した。
    • 指向性グラフ上の細胞層集合を導入し,協調的層集合ニューラルネットワーク(CSNNs)を提案した。
    • CSNNsは,既存手法よりも優れた性能を示すことが実験的に確認された。

    Link: https://arxiv.org/abs/2507.00647

  • 部分確率性によるGANとベイジアンニューラルネットワークの接続 [cs.LG, cs.CV, stat.ML]目的:GANとベイジアンニューラルネットワークの関係性の解明
    • 生成モデルは多様な応用可能性を持ち,AI研究の重要な分野である。
    • GANの最適化は困難であり,学習の安定性や汎化性能に課題がある。
    • GANの理論的な理解を深め,より安定した学習方法を確立すること。
    • GANを部分確率性を持つベイジアンニューラルネットワークとして解釈する新しい視点を示した。
    • GANの最適化が,確率変数を周辺化することによって得られる尤度関数の近似最適化と等価であることを示した。
    • 損失地形を平滑化し,最小記述長を探索する戦略が,GANの性能向上に寄与することが実験的に確認された。

    Link: https://arxiv.org/abs/2507.00651

  • 自己説明モデルの視覚的説明可能性を,追加学習なしで予測のみのモデルへ転移 [cs.CV, cs.AI, cs.LG]目的:自己説明モデルの視覚的説明能力の転移
    • 画像認識において,予測性能と説明可能性の両立が重要であり,効率的な手法が求められている。
    • 既存の予測のみのモデルに説明可能性を付与するには,新たな学習コストが発生する。
    • タスク演算フレームワークを用いて,学習済みの予測モデルに説明能力を付与する。
    • 自己説明モデルから予測のみのモデルへの視覚的説明能力の転移が可能であることが示された。
    • 転移元のドメインと転移先のドメインの関係性が低い場合を除き,転移は成功する。
    • 転移により,分類精度を損なうことなく,転移先のドメインにおける説明品質が向上する。

    Link: https://arxiv.org/abs/2507.04380

  • DP-Fusion:大規模言語モデルにおけるトークンレベルの差分プライバシー推論 [cs.DC, cs.CL, cs.AI, cs.LG]目的:大規模言語モデルの推論時におけるプライバシー保護
    • 大規模言語モデルの活用が進む中,推論時にプライバシーが侵害される可能性が懸念されている。
    • 既存のプライバシー保護手法は,厳密な保証がないか,またはプライバシーと実用性の両立が難しいという課題がある。
    • 本研究では,トークンレベルで差分プライバシーを保証し,プライバシーと実用性のバランスを改善することを目指す。
    • DP-Fusionは,コンテキスト中のトークンセットがLLMの出力に与える影響を確率的に制限することで,差分プライバシー推論を実現する。
    • 提案手法は,機密トークンを含む文書を言い換えることで,プライバシーを保護しつつ,高いテキスト品質を維持することが可能である。
    • 実験結果から,DP-Fusionは既存手法と比較して,理論的・実験的にプライバシー保護性能が向上し,perplexityが6倍低減された。

    Link: https://arxiv.org/abs/2507.04531

  • 段階的分解による離散拡散軌道の整合 [cs.LG]目的:離散拡散モデルにおける軌道整合
    • 拡散モデルは,言語や生物学的配列など様々な系列データモデリングにおいて有望である。
    • 報酬との整合はモデル改善に繋がるが,従来の勾配逆伝播は非効率である。
    • ステップごとの整合目的関数分解による,効率的な拡散最適化を目指す。
    • 本手法は,DNA配列設計における予測活性で最先端の強化学習ベースラインを最大12%上回る。
    • また,LLaDA-8B-InstructにおけるGSM8Kスコアを78.6から81.2へと向上させた。
    • 本フレームワークは任意の報酬関数と互換性があり,加法因子化の下で最適解を与える。

    Link: https://arxiv.org/abs/2507.04832

  • ローカライズの課題:人間による検証を組み込んだRabakBenchの構築 - 多言語における安全性のギャップ測定 [cs.CL, cs.LG]目的:多言語における安全性のギャップの測定
    • 大規模言語モデルの安全性確保は,グローバル展開において不可欠である。
    • 低リソース言語や方言において,LLMの安全性が損なわれるという課題がある。
    • シンガポールの言語環境に特化した安全ベンチマークを構築し,評価を可能にする。
    • RabakBenchは,シンガポール特有の言語(シングリッシュ,中国語,マレー語,タミル語)に対応した多言語安全性ベンチマークである。
    • このベンチマークは,LLMを活用した敵対的テストと,人間による厳格な検証を通じて構築された。
    • 最先端のガードレール13個の評価結果から,ローカライズされた評価の必要性が示された。

    Link: https://arxiv.org/abs/2507.05980

  • 物理に基づいた統合による極端なデータ不足の解決:地下水熱輸送への応用 [cs.LG, cs.DC]目的:地下水熱輸送における物理モデル統合によるデータ不足問題への対処
    • 地質科学等の分野では,広大な領域と高解像度な計算が求められるため,大規模シミュレーションが課題となる。
    • 機械学習モデルは計算コスト削減に有効だが,十分な学習データが得られない場合がある。
    • 少ないデータでも汎化性能を発揮するモデルを開発し,実環境への適用を目指す。
    • LGCNNは,少数のシミュレーションデータで学習可能であり,大規模領域への適用が可能であることを示した。
    • 提案手法は,ドイツ・ミュンヘン地域の地下パラメータマップに успешно 転移し,現実的な予測を実現した。
    • LGCNNは,物理モデルとニューラルネットワークを組み合わせることで,データ不足下での高性能なシミュレーションを可能にする。

    Link: https://arxiv.org/abs/2507.06062

  • 軍用医療搬送の意思決定を強化するためのデジタルシミュレーション [cs.AI, cs.CY, cs.HC, cs.MM]目的:軍用医療搬送における意思決定の改善
    • 戦場における負傷者の迅速かつ効率的な搬送は,軍事作戦において不可欠である。
    • 既存の教育方法では,現実の戦場環境を再現した医療搬送計画の評価が困難であった。
    • 本研究は,医療搬送計画と意思決定能力を評価するためのシミュレーション環境を構築することを目指す。
    • MEWIへの参加は,医療搬送に関する教訓の理解度と協調的な意思決定能力を大幅に向上させる。
    • MEWIは,高忠実度トレーニングツールの分野における重要な進歩であり,医療教育と作戦の改善に貢献する。
    • 太平洋の作戦シナリオにおけるMEWIの利用データから,重要な計画上の判断点と教訓が明らかになった。

    Link: https://arxiv.org/abs/2507.06373

  • AblationBench:実験的AI研究におけるアブレーションの自動計画の評価 [cs.SI, stat.CO, cs.CL, cs.AI]目的:実験的AI研究におけるアブレーション計画タスクの評価基準
    • AI研究の再現性と信頼性向上には,実験設定の厳密な検証が不可欠である。
    • アブレーション実験の適切な計画と評価が困難であり,研究の質を阻害する要因となっている。
    • 大規模言語モデルによるアブレーション実験の自動計画能力を客観的に評価し,改善の方向性を示す。
    • AblationBenchは,著者向けと査読者向けの2つのタスクで構成され,大規模言語モデルの評価を可能にする。
    • 最先端の言語モデルでも,平均で元の38%のアブレーションしか特定できず,人間のパフォーマンスを下回る。
    • 著者向けタスクと査読者向けタスクの間で,モデルの接地性の違いに起因するパフォーマンスの逆相関が観察された。

    Link: https://arxiv.org/abs/2507.08038

  • SynCoGen:反応と座標の同時モデリングによる合成可能な3D分子生成 [cs.CL, cs.LG]目的:合成可能な3D分子の生成
    • 創薬において,分子構造の最適化は重要な課題であり,効率的な分子設計手法が求められている。
    • 既存の分子生成モデルでは,合成可能性を考慮した3D構造の生成が難しく,現実的な分子設計を阻害する要因となっている。
    • 合成可能性を考慮した3D分子生成を可能にし,創薬プロセスを加速させることを目指す。
    • SynCoGenは,グラフ拡散とフローマッチングを組み合わせることで,合成可能な3D分子を効率的に生成できることを示した。
    • SynSpaceという大規模データセットを活用し,分子構成要素,化学反応,原子座標の同時分布からのサンプリングを可能にした。
    • タンパク質リガンド生成において,従来のモデルを上回り,多様なターゲットに対して優れた性能を発揮することが確認された。

    Link: https://arxiv.org/abs/2507.11818

  • 予測子の情報量は別の予測子よりも優れているか? 決定理論的比較 [cs.LG, cs.GT]目的:予測子間の情報量の差の評価
    • 現実世界の様々な意思決定において,確率予測は重要であり,予測の質が意思決定の成果に直結する。
    • 複数の予測モデルが存在する場合,どのモデルを選択すべきか,その判断基準が明確でない。
    • 予測モデルの校正が保証されない状況下で,意思決定タスクに応じた予測子の有用性を比較する手法を提案する。
    • 提案手法では,任意の2つの予測子の情報量の差を,全ての意思決定タスクにおける最大正規化されたペイオフの優位性として定義した。
    • 情報量の差の二重表現を導出し,予測分布間の地球移動距離の緩和版と見なせる情報量指標を提案した。
    • LLMを用いた実験により,提案指標が従来の指標よりも意思決定に適切であり,事後校正の効果を評価する上で有効であることが示された。

    Link: https://arxiv.org/abs/2507.12094

  • ONNXモデルに対する選択的量子化チューナー [cs.LG, cs.AI, cs.SY, eess.SY]目的:ONNXモデルの選択的量子化,デプロイ,実行のためのフレームワーク
    • 深層学習モデルの軽量化と高速化は,エッジデバイスでの利用を拡大する上で重要である。
    • 全量子化は精度劣化を招き,一部ハードウェアでは量子化演算に対応していない場合がある。
    • 精度と効率の最適なバランスを見つけ出すことが課題であり,その解決を目指す。
    • SeQTOは,選択的に量子化されたモデルを効率的に特定し,精度損失を最大54.14%削減した。
    • モデルサイズの縮小率は最大98.18%を維持し,全量子化モデルと比較して優れた性能を示した。
    • CPUとGPUデバイス上で,多様な量子化設定とONNXモデルを用いて評価された。

    Link: https://arxiv.org/abs/2507.12196

  • スペクトル・ベルマン法:強化学習における表現学習と探索の統合 [cs.LG]目的:強化学習における表現学習と探索の統一的フレームワーク
    • 強化学習の成功には表現学習が不可欠であり,その重要性は理論的にも実証的にも認識されている。
    • 既存手法はモデル学習の側面から誘導されることが多く,強化学習タスクとの整合性が不十分である。
    • ベルマン更新の構造と整合した表現学習を行い,探索能力を向上させる。
    • スペクトル・ベルマン法は,Inherent Bellman Error (IBE) の条件から導出された新たなフレームワークである。
    • 価値関数の分布に対するベルマン作用素の変化と特徴量の共分散構造との間に基本的なスペクトル関係が存在することが示された。
    • 学習された表現は,特徴量の共分散をベルマン力学と整合させることで構造化探索を可能にし,難しい探索や長視野タスクでの性能を向上させる。

    Link: https://arxiv.org/abs/2507.13181

  • 自己運転ラボにおけるkNNノイズ特徴量検出・回復の限界探索 [cs.LG, physics.data-an]目的:材料発見を加速するための機械学習と自動実験プラットフォームの統合における,ノイズ特徴量の検出,修正可能なサンプル・特徴量ペアの特定,および正しい特徴量の回復
    • 材料発見の加速には,機械学習が不可欠であり,実験データの質がその精度を大きく左右する。
    • 実験パラメータの入力エラーにより,システム性能をモデル化するための特徴量が汚染され,実験キャンペーンの信頼性が損なわれる可能性がある。
    • ノイズ,データ量,特徴量の分布がデータ品質に与える影響を明らかにすることで,自動材料発見の精度向上を目指す。
    • 高強度のノイズや大規模な訓練データセットは,ノイズ特徴量の検出と修正に有利であることが示された。
    • 低強度のノイズは検出と回復を低下させるが,より大規模なクリーンな訓練データセットによって補完可能である。
    • 連続的で分散した特徴量分布は,離散的または狭い分布を持つ特徴量と比較して,より高い回復性を示した。

    Link: https://arxiv.org/abs/2507.16833

  • LoRA は推論型LLMの安全性調整に必要な全てである [cs.AI]目的:推論型LLMの安全性調整
    • 推論能力を持つLLMは複雑な問題を解決する上で目覚ましい進歩を遂げている。
    • 推論能力の獲得と展開は,安全性に関するリスクを伴う可能性がある。
    • 安全性と推論能力の低下を同時に防ぐ方法を確立すること。
    • LoRAを用いたSFTによって,完全なモデルの調整に匹敵する安全性と,元の推論能力をほぼ維持することが可能となった。
    • LoRAのランク1更新が,安全性と推論能力のトレードオフを最適化する上で十分であることが示された。
    • LoRAの理論的分析により,調整タスクが低ランクで基盤能力が高ランクの場合にLoRAが有効であることが示唆された。

    Link: https://arxiv.org/abs/2507.17075

  • R-Stitch:効率的な推論のための動的軌跡ステッチング [cs.LG, cs.AI, cs.CL]目的:大規模言語モデルの効率的な推論手法
    • 大規模言語モデルの性能向上は重要だが,計算コストが課題となっている。
    • Chain-of-Thought推論は計算コストが高く,高速化が求められている。
    • トークンごとの不確実性を利用し,計算負荷を軽減する手法を提案する。
    • R-Stitchは,トークンレベルのエントロピーを用いて,小規模言語モデルと大規模言語モデル間の計算を効率的に振り分ける。
    • 高エントロピーのトークンは誤りの原因となりやすいため,大規模言語モデルに処理を委ねることで,ロールバックを回避し,精度を維持する。
    • DeepSeek-R1-Distill-Qwen-7Bで最大3.00倍,QWQ-32Bで最大4.10倍の高速化を達成し,精度劣化は軽微である。

    Link: https://arxiv.org/abs/2507.17307

  • LLMアプローチに基づく情報セキュリティ:レビュー [cs.CR, cs.AI]目的:情報セキュリティにおけるLLMの応用進捗と可能性
    • 情報セキュリティは重要であり,高度化する脅威への対策が求められる。
    • 従来のセキュリティ対策は,複雑化・多様化する脅威に対応しきれない。
    • LLMを活用し,より知的で正確な情報セキュリティ保護システムを実現する。
    • LLMは,悪意のある行動の予測,ネットワーク脅威の分析,システム脆弱性の検出などに広く応用可能である。
    • LLMの導入により,セキュリティシステムの検知精度が向上し,誤報率が低下することが示された。
    • モデルの透明性,解釈可能性,シーンへの適応性などの課題が残されており,更なる最適化が必要である。

    Link: https://arxiv.org/abs/2507.18215

  • 非線形動力系の疎な識別:ライブラリ最適化メカニズムと再帰的長期予測の視点 [cs.LG, math.DS]目的:非線形動力系の支配方程式の発見
    • 複雑な現象を理解するため,動力系の数理モデル構築が重要である。
    • 適切な基底関数群(ライブラリ)の設計が困難である。
    • ライブラリを最適化することで,高精度な予測モデルを構築する。
    • 提案手法SINDy-LOMは,ライブラリの最適化と疎な回帰を組み合わせる。
    • 基底関数をパラメータ化し,再帰的長期予測精度を最適化することで,ライブラリを設計する。
    • SINDy-LOMは,解釈性と実用性に優れた閉じた形のモデルを生成する。

    Link: https://arxiv.org/abs/2507.18220

  • マスクエージェント協調による大規模言語モデルの医療意思決定能力の向上 [cs.AI, cs.LG, cs.MA]目的:大規模言語モデルの医療における意思決定能力の向上
    • 医療分野において,AI技術を活用した高度な意思決定支援が求められている。
    • マルチエージェントシステムは有望だが,エージェント構築の体系的なパイプラインや柔軟性の欠如が課題である。
    • Pareto最適化とクロス一貫性最大化により,協調的情報伝播を適応的に行うことで問題を解決する。
    • 提案手法であるMACフレームワークは,Pareto最適エージェントの選定とクロス一貫性に基づいたエージェントのマスキングを行う。
    • これにより,意味的に矛盾する可能性のある出力を排除し,協調的情報伝播の効率と正確性を高める。
    • 実験結果から,MACフレームワークが医療意思決定において,既存手法を上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2507.21159