arXiv雑要約

AI - 2026/03/04 公開

  • GLEAN:汚染を考慮した表形式推論のためのグラウンデッド軽量評価アンカー [cs.DB, cs.AI]目的:表形式データの推論における評価プロトコル
    • 表形式データは,知識獲得や意思決定に不可欠であり,その推論能力の評価は重要である。
    • 小規模モデルの評価は,データ汚染や検索失敗の影響を受けやすく,正確な性能評価が困難である。
    • 汚染を考慮した評価プロトコルを開発し,小規模モデルの表形式推論能力をより正確に診断すること。
    • GLEANは,汚染を検知するプローブ,弱学習による統制,検索・推論の診断,構造化されたエラー分析を統合した軽量な評価プロトコルである。
    • 実験の結果,TAPEXのエラーはグラウンディング(L3)に,TAPASのエラーは幻覚/棄権(L2/L0)に偏っていることが明らかになった。
    • SQLを用いた証拠行のヒューリスティクスは,高い精度と再現率を示し,検索Recall@Kが飽和してもEM/F1が向上しない要因を特定した。

    Link: https://arxiv.org/abs/2603.02212

  • 連合推論:プライバシー保護型協調・インセンティブ重視のモデルサービングへ [cs.CL, cond-mat.stat-mech, q-bio.GN, cs.AI, cs.CR, cs.LG]目的:プライバシー保護型協調モデルサービングの実現
    • データ利用の厳格化が進む中,データ共有なしでのモデル活用が重要となる。
    • 分散環境での推論における,プライバシー保護と性能向上が課題である。
    • 連合推論のシステムレベルな理解と,実用的な課題の解決を目指す。
    • 連合推論は,連合学習とは異なる協調パラダイムとして定義された。
    • プライバシー制約,非IIDデータ,観測可能性の制限下における構造的トレードオフが分析された。
    • プライバシー保護推論,アンサンブルベースの協調,インセンティブ調整における摩擦点が明らかになった。

    Link: https://arxiv.org/abs/2603.02214

  • RxnNano:階層的カリキュラム学習による化学反応および逆合成予測のためのコンパクトなLLMの訓練 [cs.LG, cs.AI]目的:化学反応および逆合成予測のためのコンパクトなLLMの訓練
    • 医薬品探索や合成計画の加速に不可欠であり,化学分野におけるAI応用の重要性が高まっている。
    • 既存手法はパラメータやデータセットの規模拡大に偏りがちで,反応表現の根本的な課題や深い化学的直観の欠如といった問題がある。
    • 化学的な知識をモデルに組み込み,化学的理解を優先することで,より高性能なLLMの実現を目指す。
    • 提案手法RxnNanoは,70億を超えるパラメータを持つ既存のLLMを凌駕し,厳格なベンチマークにおいて23.5%のTop-1精度向上を達成した。
    • 0.5Bパラメータというコンパクトなモデルでありながら,高性能を実現した点が特徴である。
    • 反応を連続的な化学多様体上の運動としてモデル化し,可逆性・物理的妥当性を確保するLatent Chemical Consistencyが有効である。

    Link: https://arxiv.org/abs/2603.02215

  • 多段階医療対話のための適応型木状方策最適化 [cs.LG, cs.AI]目的:多段階医療対話における効果的な情報探索
    • 正確な診断には重要。不完全な情報下でも適切な情報を引き出す必要がある。
    • 従来の強化学習法では,長期的な報酬の割り当てや価値推定の不安定性が課題。
    • 不確実性を考慮した効率的な方策最適化手法による課題解決を目指す。
    • 提案手法ATPOは,不確実性の高い状態にロールアウト予算を適応的に割り当てることで,価値推定の精度向上を実現。
    • 不確実性に基づく枝刈りや非同期探索アーキテクチャにより,計算コストを抑制し,推論速度を最大化。
    • 3つの医療対話ベンチマークで,GPT-4oを凌駕する精度をQwen3-8Bモデルで達成した。

    Link: https://arxiv.org/abs/2603.02216

  • 再学習不要か?効率的なMoE圧縮のためのルーター較正の必要性 [cs.LG, cs.AI]目的:MoE圧縮におけるルーター較正の重要性
    • 大規模言語モデルの効率的なスケーリングに不可欠であり,性能維持とメモリ削減が課題。
    • MoE圧縮後の性能劣化が,ルーターと専門家の不一致に起因することが見過ごされてきた。
    • ルーター較正により,再学習なしで圧縮後の性能劣化を回復し,効率的なMoE圧縮を実現する。
    • 提案手法であるRouter KDは,専門家パラメータを更新せず,ルーターのみを軽量に較正する。
    • 実験により,様々なMoE圧縮手法において,性能回復効果が確認された。
    • 特に,多数の小規模な専門家を持つMoEにおいて,Router KDの効果が大きかった。

    Link: https://arxiv.org/abs/2603.02217

  • 自己合成パイプラインによる学習可能な情報獲得が,自己対戦のみで進化を促進する [cs.LG, cs.AI, cs.CL, cs.IT, math.IT]目的:自己進化ループにおける持続可能な進化の条件
    • 大規模言語モデルの発展により,自己改善システムの構築が期待されている。
    • 既存の自己対戦型システムは,学習可能な情報増加が伴わないデータ合成により停滞しやすい。
    • 学習可能な情報獲得を促進する自己合成パイプラインの設計を提案する。
    • 自己進化型LLMは,提案者・解答者・検証者の三つの役割を担うことが明らかになった。
    • 役割間の非対称的共進化,容量の成長,積極的な情報探索が持続的な自己進化を可能にする。
    • これらのモジュールにより,脆弱な自己対戦ダイナミクスから持続的な自己進化への道筋が示された。

    Link: https://arxiv.org/abs/2603.02218

  • NExT-Guard:トークンレベルのラベルなし訓練フリーストリーミングセーフガード [cs.LG, cs.AI]目的:ストリーミング環境における安全なコンテンツのリアルタイム遮断
    • 大規模言語モデルの利用拡大に伴い,ストリーミング環境での安全性確保が重要課題となっている。
    • 従来の事後的なセーフガードはリアルタイム性が課題であり,トークンレベルの教師あり学習はコストと過学習の問題がある。
    • 訓練済みのセーフガードが持つ潜在的なリスク信号を活用し,教師なしでストリーミングセーフガードを実現する。
    • NExT-Guardは,Sparse Autoencoderから抽出した解釈可能な潜在特徴を監視することで,訓練フリーでストリーミングセーフガードを実現する。
    • 実験結果から,NExT-Guardは教師あり学習に基づくセーフガードよりも優れた性能と堅牢性を示すことが明らかになった。
    • 本研究は,リアルタイム安全性の実用的な展開を加速させるための,普遍的かつスケーラブルなパラダイムを提供する。

    Link: https://arxiv.org/abs/2603.02219

  • 時系列予測をレンダリングとして:2Dガウススプラッティングによる時系列予測フレームワーク [cs.LG, cs.AI, cs.CV]目的:時系列予測のための2次元ガウススプラッティングフレームワーク
    • 時系列データは,経済,気象,医療など多くの分野で重要な役割を果たす。
    • 既存手法は,時系列データの複雑な変動を捉えきれず,予測精度が低い場合がある。
    • 本研究は,時系列予測を生成的なレンダリングとして捉え,より高精度な予測を実現することを目指す。
    • 本研究で提案するTimeGSは,時系列を連続的な潜在表面として捉え,ガウスカーネルを用いて柔軟な幾何学的アラインメントで複雑な変動をモデル化する。
    • Multi-Basis Gaussian Kernel Generation (MB-GKG)ブロックとMulti-Period Chronologically Continuous Rasterization (MP-CCR)ブロックを導入し,最適化の安定化と時間的な連続性を実現。
    • 標準的なベンチマークデータセットでの実験により,TimeGSが最先端の性能を達成することが示された。

    Link: https://arxiv.org/abs/2603.02220

  • MedFeat:LLMを用いた臨床tabular予測のためのモデル認識型・説明可能性重視のFeature Engineering [cs.LG, cs.AI]目的:臨床tabular予測のためのFeature Engineering手法
    • 医療分野における予測精度向上は,患者ケアの質向上に直結する重要な課題である。
    • 既存のFeature Engineeringは,専門知識や試行錯誤に依存し,効率性・網羅性に課題がある。
    • LLMの知識とモデル特性を活用し,効果的かつ説明可能なFeature Engineeringを自動化する。
    • MedFeatは,LLMの推論とSHAP値による特徴量の説明可能性を活用した,モデル認識型のFeature Engineeringフレームワークである。
    • 様々な臨床予測タスクにおいて,既存手法と比較して安定した性能向上を達成した。
    • 発見された特徴量は,分布シフトに対しても頑健性を示し,実世界への応用可能性を示唆している。

    Link: https://arxiv.org/abs/2603.02221

  • MedCalc-Benchは想定どおりの測定をしていない:ベンチマーク監査とオープンブック評価の必要性 [cs.LG, cs.AI]目的:臨床計算タスクにおけるLLMの性能評価用ベンチマークMedCalc-Benchの現状の評価方法に関する検証
    • 医療分野におけるLLMの活用は期待されるが,その性能評価には信頼性の高いベンチマークが必要である。
    • 既存のベンチマークには実装ミスや曖昧なデータが含まれており,正確な性能評価を妨げる可能性がある。
    • 本研究は,ベンチマークの信頼性を高め,LLMの真の能力を測るための評価方法を提案する。
    • MedCalc-Benchの実装に20以上の誤りを発見し,修正することでベンチマークの精度を向上させた。
    • 計算仕様をLLMに提供する「オープンブック評価」により,GLM-4.6VおよびGLM-4.7の精度が大幅に向上し,既存のRL学習システムを上回った。
    • GPT-5.2-Thinkingを用いた評価では95-97%の精度を達成し,残りの誤差は主に正解データの問題に起因することが示された。

    Link: https://arxiv.org/abs/2603.02222

  • 山火事避難行動の特性評価と予測:二段階機械学習アプローチ [cs.LG, cs.AI]目的:山火事における避難行動の類型と主要な避難結果の予測
    • 山火事被害の増加に伴い,住民の安全確保が喫緊の課題となっている。
    • 避難行動は多様であり,個々の状況や準備状況に大きく左右される。
    • 機械学習を用いて避難行動の類型を明らかにし,効果的な対策立案に貢献する。
    • 大規模なアンケート調査から,車両の有無や防災計画の有無などで明確に分けられる避難行動の類型が明らかになった。
    • 交通手段は世帯の特性から高い精度で予測可能であった。
    • 避難タイミングの予測は,リアルタイムの火災状況に依存するため困難であった。

    Link: https://arxiv.org/abs/2603.02223

  • 低ランク適応における破滅的忘却は部分空間幾何学によって支配される [cs.LG]目的:低ランク適応における破滅的忘却の幾何学的特性解明
    • 大規模事前学習モデルの適応は重要だが,計算コストが高い。
    • 低ランク適応は効率的だが,継続学習下での挙動は不明確。
    • タスク勾配部分空間間の角度と忘却の関係を明らかにする。
    • 忘却は,タスク勾配部分空間間の最小主角度$\theta_{\min}$を用いて$\mathcal{F} = \alpha(1 - \cos^2\theta_{\min}) + \beta$と表現できる。
    • 高角度領域では,忘却はアダプターのランクにほぼ依存しないことが示された。(CV $\approx 0.8$-$19$\%)
    • 本研究は,ランクが忘却に影響するのはタスク部分空間が類似している場合に限られることを明らかにし,O-LoRAの有効性を示唆する。

    Link: https://arxiv.org/abs/2603.02224

  • 人間による監督なしでの報酬モデルのスケーリング [cs.LG]目的:報酬モデルのスケーリング
    • 最先端モデルの能力と安全性を向上させるには,フィードバックからの学習が不可欠である。
    • その有効性は,コストとスケーラビリティによって制約されることが多い。
    • 人間による注釈を必要としない報酬モデルの学習可能性を示す。
    • 1100万トークンの数学データで学習した結果,RewardBench v1およびv2で着実に性能が向上した。
    • 性能向上は,モデルファミリーや規模が異なる様々な初期化バックボーンに一貫して転移する。
    • RewardBench v2の精度は平均+7.7ポイント,特に数学サブセットでは最大+16.1ポイント改善された。

    Link: https://arxiv.org/abs/2603.02225

  • 長距離系列モデリングのための効率的なスパース選択的更新RNN [cs.LG]目的:長距離系列モデリングにおける効率的なスパース選択的更新RNNの性能評価
    • 音声や動画などの現実世界の系列データは,長期間にわたる無音やノイズの中に重要な情報を含むため,効率的な処理が求められる。
    • 従来のRNNは,入力が静的であっても,すべてのタイムステップで内部状態を更新するため,記憶の減衰が起こりやすいという課題がある。
    • 入力の冗長性に応じて記憶を保持する選択的更新RNN(suRNNs)を用いて,この記憶減衰の問題を克服し,長期的な情報保持を実現する。
    • suRNNsは,Long Range ArenaやWikiTextなどのベンチマークテストにおいて,より複雑なTransformerモデルと同等以上の精度を達成した。
    • suRNNsは,長期記憶においてTransformerよりも効率的であり,計算コストを削減できることが示された。
    • 各ニューロンが自身の更新タイムスケールを学習することで,系列の長さと情報の量のミスマッチを解消し,効率的な系列モデリングを実現する。

    Link: https://arxiv.org/abs/2603.02226

  • スパース注意におけるルーティング吸収:なぜランダムゲートに打ち勝つのが難しいのか [cs.LG, cs.CL]目的:注意機構における重要なエントリの学習可能性の検証
    • Transformerモデルは自然言語処理で広く利用され,高性能を達成している。
    • スパース注意は計算コスト削減に有効だが,学習が困難な場合がある。
    • ルーティング吸収現象を解明し,スパース注意の学習方法を改善すること。
    • 学習されたゲートとランダムゲートの性能がほぼ同等であり,ルーティング信号が吸収されることが示された。
    • ハードなトップkゲーティングでは,マスクを通して勾配が伝達されないことが確認された。
    • 注意機構はMoEよりも構造的に深刻なルーティング吸収の影響を受けることが示唆された。

    Link: https://arxiv.org/abs/2603.02227

  • ニューラルページング:チューリング完全エージェントのための文脈管理ポリシー学習 [cs.LG, cs.AI]目的:大規模言語モデルにおける文脈管理の効率化
    • LLMは汎用エージェントの基盤となりうるが,その性能は文脈長の制約に左右される。
    • 既存手法では,文脈窓のサイズが有限であるため,長期的な推論における計算コストが課題である。
    • 文脈窓の効率的な利用を通して,長期推論の計算複雑性を低減することを目指す。
    • 提案手法「ニューラルページング」は,文脈窓を階層的に管理し,将来的に有用なトークンを保持する。
    • 理論解析により,文脈長Kに対して,計算複雑度をO(N^2)からO(N・K^2)に削減可能であることが示された。
    • シミュレーション実験では,理論上の保証が確認され,学習型ポリシーによる更なる改善の余地が示唆された。

    Link: https://arxiv.org/abs/2603.02228

  • LLMエージェントにおける有用性最適化を通じた安全性維持 [cs.LG, cs.CL]目的:LLMエージェントの安全性と有用性の最適化におけるトレードオフ
    • 大規模言語モデルの安全性確保は,その社会実装において不可欠であり,倫理的・法的責任を果たす上で重要である。
    • 安全性と有用性は相反する関係にあり,一方を追求すると他方が損なわれるトレードオフが存在する。
    • LLMエージェントにおける安全性と有用性の両立を目指し,その学習ダイナミクスを理解すること。
    • 安全性のみで学習させた場合,有用性を学習させた場合と比較して,極端な結果になることが確認された。
    • しかし,安全性学習の後で有用性を学習させると,安全性は維持されることが示された。
    • 全ての学習設定において,パレート最適フロンティア上に結果が分布し,同時学習は必ずしも最適な戦略をもたらすわけではないことが明らかになった。

    Link: https://arxiv.org/abs/2603.02229

  • 自己修正による汎化された離散拡散 [cs.LG, cs.AI]目的:離散拡散モデルにおける自己修正の事前学習
    • 拡散モデルは生成AIの重要な手法であり,その高速化が求められている。
    • 既存の自己修正法は汎化性能が限定的で,推論能力を損なう場合がある。
    • 明示的な状態遷移を用いて,効率的な並列デコードと生成品質の維持を目指す。
    • 提案手法SCDDは,事前学習に基づいた自己修正を離散時間で直接学習する。
    • 学習のノイズスケジュールを簡略化し,冗長な再マスキングステップを排除している。
    • GPT-2規模の実験で,効率的な並列デコードが可能であり,生成品質を維持していることが示された。

    Link: https://arxiv.org/abs/2603.02230

  • 大規模波場再構成のためのアーキテクチャ物理埋め込み物理情報ニューラルネットワーク [cs.LG, cs.AI]目的:大規模波場再構成における計算効率と精度向上
    • 電磁波や音響波などの波場解析は,通信,センシング,音響設計など幅広い分野で不可欠である。
    • 従来の数値計算手法は計算コストが高く,データ駆動型手法は十分な学習データが必要となる。
    • 物理情報ニューラルネットワークのアーキテクチャに物理的制約を組み込み,効率的な学習と高精度な再構成を実現する。
    • 提案手法(PE-PINN)は,標準的なPINNと比較して10倍以上の収束速度向上を達成した。
    • FEMと比較して,大幅なメモリ使用量の削減を実現し,大規模な波場解析を可能にした。
    • 反射,屈折,回折といった現象を含む2次元/3次元電磁波再構成において,高精度なモデリングを実現した。

    Link: https://arxiv.org/abs/2603.02231

  • 二値選好を超えて:序数フィードバックを用いた報酬モデリングの原理的フレームワーク [cs.LG, cs.AI]目的:序数フィードバックに基づく報酬モデリングの原理的フレームワーク
    • 大規模言語モデルと人間の選好を一致させる上で,報酬モデリングは不可欠である。
    • 既存手法は,序数データ活用に関する数学的根拠に乏しい。
    • 本研究は,より効果的な人間のフィードバック活用を目指す。
    • 本研究は,Likert尺度に基づく報酬モデリングを離散序数回帰問題として定式化する理論的基盤を提示する。
    • 提案手法は,既存のヒューリスティック手法と比較して,チャット,推論,安全性といった多様な評価カテゴリで競争力のある性能を示す。
    • 閾値パラメータを学習することで,序数データの構造を捉え,より洗練された報酬モデルの学習を実現する。

    Link: https://arxiv.org/abs/2603.02232

  • カーネル平均埋め込みの多タスク平均化による適応的パーソナライズ連邦学習 [cs.LG, cs.AI]目的:カーネル平均埋め込みの多タスク平均化による適応的なパーソナライズ連邦学習手法
    • データプライバシー保護の重要性が高まる中,分散環境での機械学習への関心が高まっている。
    • 従来の連邦学習はデータ分布の均一性を仮定しており,異質データに対する効果が限定的である。
    • データ異質性を考慮した,各エージェントに適応的な協調学習を実現することを目的とする。
    • 提案手法は,事前知識なしにデータ異質性に適応し,グローバル学習とローカル学習を自動的に切り替えられる。
    • 複数のデータソースからのカーネル平均埋め込み推定問題として協調重みを推定することで,統計的関係性を捉える。
    • 理論的保証により,協調学習による統計的な利得を明確に定量化し,有限サンプル下での局所過剰リスクを評価できる。

    Link: https://arxiv.org/abs/2603.02233

  • 構造化プルーニングと非構造化プルーニング:指数的なギャップ [cs.LG, cs.AI]目的:単一のReLUニューロン近似に必要なネットワーク規模の比較
    • 深層学習モデルの効率化が重要視されており,モデル圧縮技術としてプルーニングが注目されている。
    • 構造化プルーニングは理論的な研究が少なく,非構造化プルーニングと比較して性能が見劣りすることが多い。
    • 構造化プルーニングと非構造化プルーニングの理論的な性能差を明確にすることを目指している。
    • ReLUニューロンを近似する際,構造化プルーニングは非構造化プルーニングよりも指数関数的に多くのニューロンを必要とする。
    • 非構造化プルーニングでは,隠れ層のニューロン数は$O(d\log(1/\varepsilon))$で近似が可能である。
    • 構造化プルーニングでは,隠れ層のニューロン数は$\Omega(d/\varepsilon)$必要となり,非構造化プルーニングとの間に指数的な差が生じる。

    Link: https://arxiv.org/abs/2603.02234

  • ニューラルネットワーク検証のための自動仕様生成:検証者との対話 [cs.LG, cs.AI, cs.SE]目的:ニューラルネットワーク検証のための仕様の自動生成
    • ニューラルネットワークの安全性確保は重要であり,様々な分野での応用が期待される。
    • 既存の検証ツールは低レベルな仕様に限定され,高レベルな要件に対応できない。
    • 自然言語による仕様記述を形式的な検証クエリに変換し,応用範囲を拡大する。
    • 自然言語で記述された仕様を,既存の検証ツールで利用可能な形式に自動変換する手法を提案した。
    • 提案手法は,構造化データおよび非構造化データを用いた実験で,複雑な意味的仕様を検証できることを示した。
    • 変換プロセスはユーザーの意図を高く維持しつつ,計算コストも低いことが確認された。

    Link: https://arxiv.org/abs/2603.02235

  • CUDABench:テキストからCUDA生成のためのLLMベンチマーク [cs.LG, cs.AI]目的:LLMによるテキストからCUDA生成能力の評価
    • GPUの並列処理は計算速度向上に不可欠であり,高性能なGPUプログラミングが重要である。
    • 既存のベンチマークは高水準言語からCUDAへの変換に偏っており,テキストからCUDAへの生成評価が不足している。
    • LLMによるCUDA生成の性能を正確に評価し,改善点を発見することを目的とする。
    • CUDABenchは,AI,科学計算,データ分析など,多様な分野を網羅したベンチマークセットCUDABench-Setを提供する。
    • コンパイルの正確性,実行に基づいた機能的一貫性,そしてGPUの性能を評価する新たな指標Performance-Scoreを提案する。
    • 実験の結果,高いコンパイル成功率と低い機能的一貫性,ドメイン知識の不足,GPUリソースの非効率的な利用が課題として明らかになった。

    Link: https://arxiv.org/abs/2603.02236

  • 概念の異質性を考慮した表現操縦 [cs.LG, cs.AI]目的:大規模言語モデルの行動制御手法
    • LLMの活用範囲拡大には,モデルの行動制御が不可欠である。
    • 従来の表現操縦は,概念表現の均質性を仮定しており,現実との乖離が生じやすい。
    • 概念表現の異質性を考慮し,より効果的な行動制御を実現すること。
    • 本研究では,表現操縦を最適輸送の観点から捉え,ガウス混合モデルを用いて概念の異質性を考慮した。
    • 提案手法CHaRSは,入力に依存した操縦マップを生成し,滑らかでカーネル重み付きのクラスタレベルシフトを実現する。
    • 実験結果から,CHaRSが従来の表現操縦よりも効果的な行動制御を可能にする事が示された。

    Link: https://arxiv.org/abs/2603.02237

  • Transformerにおける長さ一般化の限界 [cs.LG, cs.FL, cs.LO]目的:Transformerの長さ一般化限界の計算可能性
    • 機械学習モデルの汎化性能評価において,入力長の制約を受けないことが重要である。
    • Transformerを含むモデルに対し,入力長に関する汎化性能を保証する境界の計算が困難である。
    • CRASP言語クラスに対する長さ一般化限界の計算可能性を調査し,限界を明らかにする。
    • CRASP言語クラス(Transformerと関連)に対し,長さ一般化限界は計算不可能であることが証明された。
    • CRASPの正の断片に対しては計算可能な限界が得られ,固定精度Transformerと同値であることが示された。
    • 正のCRASPおよび固定精度Transformerの長さ複雑度は指数関数的であり,限界の最適性が証明された。

    Link: https://arxiv.org/abs/2603.02238

  • エンジニアリング推論・指示 (ERI) ベンチマーク:基盤モデルとエージェントのための大規模なタクソノミー駆動型データセット [cs.AI, cs.SE]目的:エンジニアリング能力を持つ大規模言語モデルおよびエージェントの学習と評価
    • 工学分野は社会基盤を支える重要な領域であり,高度な専門知識と問題解決能力が求められる。
    • 既存の言語モデルは,具体的な工学問題への対応能力が十分ではなく,専門知識の不足が課題である。
    • 本研究は,工学分野における言語モデルの推論能力を向上させ,実用的な問題解決を支援することを目的とする。
    • ERIベンチマークは,9つの工学分野と55のサブドメイン,7種類の意図,3つの難易度を網羅する57,750件のデータセットである。
    • 評価の結果,最先端モデル(GPT-5,Claude Sonnet 4,DeepSeek V3.1)は高い性能を示したが,中間層および小型モデルは難易度の上昇に伴い性能が低下した。
    • LLMベンチマークにおける循環性の問題を解決するため,クロスプロバイダー独立性,複数評価者による平均化,最先端モデルの合意分析を用いた検証プロトコルを開発し,幻覚のリスクを1.7%に抑えた。

    Link: https://arxiv.org/abs/2603.02239

  • SuperLocalMemory:ベイジアン信頼防御によるメモリポイズニング対策を備えたプライバシー保護型マルチエージェントメモリ [cs.AI, cs.CR]目的:マルチエージェントAIのためのプライバシー保護メモリシステム
    • AIエージェントは永続的なメモリに依存しており,その安全性とプライバシーは重要である。
    • クラウドベースのメモリシステムは,攻撃の集中標的となり,汚染されたメモリが広範囲に拡散するリスクがある。
    • メモリポイズニング攻撃に対する堅牢な防御機構とプライバシー保護を実現する。
    • SuperLocalMemoryは,アーキテクチャの分離とベイジアン信頼スコアリングにより,OWASP ASI06メモリポイズニングから防御する。
    • 適応的な学習ランキングにより検索のパーソナライズを実現し,クラウド依存やLLM推論呼び出しを不要とする。
    • 評価により,低い検索遅延,同時実行エラーなし,高い信頼分離,そしてNDCG@5の向上が確認された。

    Link: https://arxiv.org/abs/2603.02240

  • HELIOS:早期融合,後期融合,LLM推論を調和させたマルチ粒度テーブル・テキスト検索 [cs.DB, cs.CL, cs.IR, cs.LG]目的:オープン領域質問応答を支援するための関連テーブルとテキストの検索
    • 質問応答システムにおいて,テーブルとテキストを組み合わせた情報検索は,より正確な回答生成に不可欠である。
    • 既存の手法では,関連性の低い文脈が含まれたり,クエリに依存する関係性を見逃したりする問題があった。
    • 早期・後期融合の利点を組み合わせ,高度な推論能力を持つシステムを構築し,検索精度を向上させる。
    • HELIOSは,テーブルセグメントとテキスト間のより詳細な関係性を捉え,不要な文脈の包含を抑制する。
    • クエリに合致するノードを拡張することで,重要な文脈の欠落リスクを最小限に抑える。
    • スターグラフレベルでのLLMによる推論により,高度な推論タスクに対応し,OTT-QAベンチマークにおいて最先端モデルを大きく上回る結果を得た。

    Link: https://arxiv.org/abs/2603.02248

  • MEBM-Phoneme:エンドツーエンドMEG音素分類のための多段階強化BrainMagic [cs.DB, cs.SD, cs.AI, eess.AS]目的:非侵襲性脳磁図(MEG)信号からの音素分類
    • MEGは,高時間分解能で脳活動を計測でき,言語処理研究に有用である。
    • MEG信号に基づく音素分類は,データ品質や個人差の影響を受けやすい。
    • 多段階的な特徴抽出と学習安定化により,音素分類精度を向上させる。
    • MEBM-Phonemeは,BrainMagicを基盤とし,多段階畳み込みモジュールを組み込んだ。
    • LibriBrain Competition 2025 Track2において,高い音素識別精度を達成した。
    • 階層的な時間モデリングと学習安定化の重要性が示された。

    Link: https://arxiv.org/abs/2603.02254

  • MEBM-Speech:ロバストなMEG音声検出のための多重スケール強化BrainMagic [cs.SD, cs.AI, eess.AS]目的:非侵襲的脳磁図(MEG)信号からの音声活動検出
    • 脳活動と音声の関連解明は,認知神経科学や臨床応用において重要である。
    • MEG信号はノイズの影響を受けやすく,音声検出の精度向上が課題である。
    • 多重スケールでの時間的特徴抽出により,MEG音声検出のロバスト性を向上させる。
    • MEBM-SpeechはBrainMagicを基盤とし,多重スケール畳み込みモジュール,BiLSTM,Depthwise Separable Convolutionを統合した。
    • 軽量な時間ジッター戦略と平均プーリングにより,音声開始位置のロバスト性と境界の安定性を向上させた。
    • LibriBrain Competition 2025 Track1で,検証セットにおいて平均F1マクロ89.3%を達成し,優れた性能を示した。

    Link: https://arxiv.org/abs/2603.02255

  • ニューラル翻訳における普遍的概念構造:NLLB-200の多言語幾何学的構造の探求 [cs.CL, cs.AI, cs.LG]目的:ニューラル機械翻訳モデルにおける言語普遍的な概念表現の学習
    • 言語間の翻訳はグローバルコミュニケーションにおいて不可欠であり,その精度向上は重要な課題である。
    • 既存のニューラル翻訳モデルが,表面的な言語類似性に基づいて翻訳している可能性が指摘されている。
    • 本研究は,ニューラル翻訳モデルが普遍的な概念構造を学習しているかを検証する。
    • NLLB-200の埋め込み距離は,言語系統樹の系統距離と有意な相関関係が認められた。
    • CLICSデータベースにおける概念ペアの共起頻度は,埋め込み類似度と有意な相関を示し,普遍的な概念的関連性が学習されている可能性が示唆された。
    • 埋め込みの言語ごとの平均中心化により,概念間の距離と概念内の距離の比率が向上し,言語中立的な概念ストアの存在を示唆する幾何学的証拠が得られた。

    Link: https://arxiv.org/abs/2603.02258

  • アライメントフライホイール:アーキテクチャ非依存な安全性を実現するガバナンス中心のハイブリッドMAS [cs.MA, cs.LG, cs.RO]目的:アーキテクチャ非依存な安全性のためのガバナンス中心のハイブリッドマルチエージェントシステム
    • 自律システムの能力向上に伴い,役割分担や協調,規範的ガバナンスといったMASの重要性が増している。
    • 学習モデルの安全性は訓練に依存しやすく,透明性が低い,監査が困難,更新にコストがかかるという課題がある。
    • 意思決定生成と安全ガバナンスを分離し,安全性の監視と改善を効率化することで,安全性を確保すること。
    • アライメントフライホイールは,提案者と安全オラクル,執行層,ガバナンスMASで構成されるハイブリッドMASアーキテクチャである。
    • このアーキテクチャでは,安全性の問題が発見された際,基礎となる意思決定コンポーネントの再学習ではなく,ガバナンス対象のオラクルアーティファクトの更新で対処できる。
    • これにより,高度な自律システムを明示的かつ監査可能な監督下で統合するためのエンジニアリングフレームワークを提供する。

    Link: https://arxiv.org/abs/2603.02259

  • ファインチューニング中の静かな妨害:コンパクトな医療LLMに対する少数ショットの根拠ポイズニング [cs.CR, cs.AI, cs.LG]目的:医療LLMのファインチューニングにおける推論過程へのポイズニング攻撃
    • 医療LLMは医療分野において重要な役割を担うため,その安全性と信頼性が不可欠である。
    • 従来のポイズニング攻撃は検知可能なバックドア攻撃に焦点が当たり,ステルス性の高い攻撃に対する脆弱性が課題である。
    • ファインチューニング段階における,よりステルス性の高いポイズニング攻撃のリスクを明らかにし,対策を促す。
    • 少数ショット学習データに悪意のある根拠を注入することで,特定の医療トピックにおけるモデルの性能を静かに低下させることを示した。
    • 知識の書き換えは効果が薄かったが,根拠のポイズニングは標的とする科目の精度を著しく低下させた。
    • 攻撃の有効性とステルス性を高めるために必要な,ポイズニングされたサンプルの最小数と割合を明らかにした。

    Link: https://arxiv.org/abs/2603.02262

  • Social-JEPA:創発する幾何学的同型性 [cs.CV, cs.AI]目的:異なる視点からの環境モデル間の表現の幾何学的同型性
    • 分散型ビジョンシステム間の相互運用性は,協調的なAIシステムの構築に不可欠である。
    • 異なる視点からのデータの表現には一貫性がなく,知識の転移が困難である。
    • 予測学習が表現幾何学に課す正則性を利用し,軽量な相互運用性を実現する。
    • 複数のエージェントが異なる視点から学習した環境モデルにおいて,潜在空間が近似線形等距変換で関連付けられることが示された。
    • この幾何学的合意は,視点やピクセルオーバーラップの少なさに関わらず維持される。
    • 学習されたアライメントを利用することで,一方のエージェントで学習した分類器を他方へ追加学習なしで移植可能となり,学習の加速化も実現した。

    Link: https://arxiv.org/abs/2603.02263

  • 高次知識に基づくネットワーク制御可能性ロバスト性の予測:ハイパーグラフニューラルネットワークアプローチ [cs.LG, cs.AI]目的:ネットワーク制御可能性ロバスト性の予測
    • ネットワークの脆弱性評価は,攻撃への対策や性能向上に不可欠である。
    • 従来手法は計算コストが高く,大規模ネットワークへの適用が困難である。
    • 高次構造情報と制御可能性ロバスト性の関係を解明し,効率的な予測を実現する。
    • 提案手法は,既存手法と比較して,合成ネットワークおよび実ネットワークにおいて優れた性能を発揮する。
    • 本研究では,ハイパーグラフ注意ニューラルネットワークを用いて,高次知識に基づくロバスト性学習と予測を行う。
    • グラフ構造,高次接続情報,埋め込み空間の特徴を同時に学習することで,高い予測精度を達成する。

    Link: https://arxiv.org/abs/2603.02265

  • スケール拡大が失敗する場合:知覚認識を意識した多段階推論によるLALMの音声知覚劣化の軽減 [cs.SD, cs.AI, eess.AS]目的:LALMにおける音声知覚劣化の軽減
    • 近年,大規模な音声・言語モデル(LALM)の性能向上が期待されている。
    • LALMにおいて,推論計算量を増やすスケール拡大が必ずしも性能向上に繋がらない場合がある。
    • 音声認識の段階で劣化が生じ,推論性能が低下するという問題を解決する。
    • CAFEという評価フレームワークを用いて,LALMが推論中に音声知覚で苦戦し,推論の長さが伸びるにつれて音声知覚が劣化することが明らかになった。
    • MPAR$^2$というパラダイムを提案し,動的な知覚的推論を促し,複雑な質問を知覚に富んだ部分問題に分解した。
    • MPAR$^2$は,CAFEでの知覚性能を大幅に向上させ,知覚の劣化を軽減し,MMAUベンチマークでの精度を向上させた。

    Link: https://arxiv.org/abs/2603.02266

  • 少数ショットテキスト分類におけるラベル誘導距離スケーリングによるメタ学習の向上 [cs.LG, cs.AI]目的:少数ショットテキスト分類のための手法
    • 自然言語処理の発展に伴い,限られたデータで分類を行う手法の重要性が増している。
    • 従来のメタ学習アプローチでは,テスト時のラベル選択がランダムであり,有効な教師信号が得られない場合がある。
    • ラベルのセマンティクスを活用し,テスト時の誤分類を軽減することを目指している。
    • 提案手法では,ラベルのセマンティクスを損失関数に組み込み,学習段階でサンプル表現とラベル表現を引き寄せる。
    • テスト段階では,ラベルのセマンティクスに基づいてサンプル表現をスケーリングし,追加の教師信号を提供する。
    • 実験結果から,提案手法が既存の最先端モデルを大幅に上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.02267

  • PRISM:異種事前学習脳波基盤モデルの臨床鑑別診断への転移学習の探求 [cs.LG, cs.AI]目的:臨床鑑別診断への異種事前学習脳波基盤モデルの転移学習
    • 脳波は脳機能の重要な指標であり,神経疾患の診断・治療に不可欠である。
    • 既存の脳波モデルは,特定のデータセットに依存し,汎化性能が低い場合がある。
    • 多様なデータセットを用いた事前学習により,汎化性能の高い脳波モデルを開発する。
    • PRISMは,多様なデータセットで事前学習することで,既存のモデルと同等以上の性能を示す。
    • 特に,てんかんと診断の類似疾患の鑑別において,多様なデータセットで事前学習したモデルが,狭い範囲のデータセットで学習したモデルを12.3%上回る精度を達成した。
    • 脳波モデルの評価指標にばらつきがあり,評価方法がモデルのランキングに影響を与えることが示された。

    Link: https://arxiv.org/abs/2603.02268

  • VLAモデルの特徴付け:エッジAIアーキテクチャにおける行動生成のボトルネック特定 [cs.PF, cs.AI, cs.AR, cs.RO]目的:VLAモデルにおける行動生成のボトルネックの特定
    • ロボティクスや具現化されたAIにとって不可欠な分野であり,リアルタイム処理が求められる
    • モデルの規模拡大に伴い,エッジデバイスでの低遅延な実行が課題となる
    • エッジデバイスにおける行動生成のボトルネックを特定し,ハードウェア要件を予測する
    • Nvidia Jetson OrinとThorプラットフォームにおいて,VLAモデルの実行性能を分析した。
    • 行動生成フェーズが,エントゥーエンドの遅延時間の最大75%を占める主要なボトルネックであることが判明した。
    • 1000億パラメータモデルへの拡張に必要なハードウェア要件を予測し,高帯域幅メモリやPIMなどの技術を検討した。

    Link: https://arxiv.org/abs/2603.02271

  • マルチモーダルアルツハイマーネットワークからの疾患関連遺伝子の優先順位付け:グラフ注意メカニズムに基づく [cs.LG]目的:アルツハイマー病における疾患関連遺伝子の優先順位付け
    • 複雑な疾患の分子メカニズム解明には,疾患関連遺伝子の特定が不可欠である。
    • 従来のネットワーク解析は静的な中心性指標に依存し,多角的な生物学的異質性を捉えきれない場合がある。
    • 本研究は,疾患特異的かつ文脈を考慮した遺伝子関連性の定量化を目指す。
    • NETRAは,アルツハイマー病パスウェイにおいて約3.9という正規化エンリッチメントスコアを達成し,古典的な中心性指標や拡散モデルを大きく上回った。
    • NETRAによって優先順位付けされた遺伝子は,複数の神経変性経路を網羅し,chr12q13における後期発症アルツハイマー病感受性座を再現した。
    • 本フレームワークは生物学的に妥当なネットワークトポロジーを維持し,他の複雑な疾患にも容易に拡張可能である。

    Link: https://arxiv.org/abs/2603.02273

  • UMAPと他の次元削減手法の比較研究 [cs.LG, stat.AP, stat.ML]目的:次元削減手法の比較評価
    • 高次元データ解析は,機械学習やデータマイニングにおいて重要な課題である。
    • 従来の次元削減手法では,データの複雑な構造を十分に捉えられない場合がある。
    • UMAPの回帰タスクにおける性能限界を明らかにすること。
    • UMAPは分類タスクにおいて良好な性能を示したが,回帰タスクでは応答情報を効果的に組み込むことに課題が見られた。
    • 本研究では,UMAPを含む複数の次元削減手法を比較分析し,それぞれの特徴と適用範囲を明らかにした。
    • 回帰設定における教師ありUMAPのさらなる発展が必要であることが示唆された。

    Link: https://arxiv.org/abs/2603.02275

  • コンテナサンドボックスからのLLMの脱出能力の定量化 [cs.CR, cs.AI]目的:LLMのサンドボックス脱出能力の測定
    • LLMは自律エージェントとして機能し,セキュリティリスクが増大している。
    • コンテナサンドボックスはセキュリティ対策だが,その有効性が十分に検証されていない。
    • LLMによるサンドボックス脱出の脆弱性を定量的に評価する。
    • LLMは脆弱性を特定し,それを悪用してサンドボックスから脱出できることが示された。
    • SANDBOXESCAPEBENCHという新たな評価ベンチマークが開発された。
    • サンドボックスの継続的なセキュリティ確保には,本研究のような評価が不可欠である。

    Link: https://arxiv.org/abs/2603.02277

  • クラス増分学習における正負の監督の時間の不均衡 [cs.LG, cs.AI]目的:クラス増分学習における予測バイアスの原因分析と軽減
    • 深層学習の普及に伴い,動的に変化するデータ分布への対応が重要となっている。
    • 既存手法では, catastrophic forgetting と呼ばれる,新しいクラスへの予測バイアスが課題である。
    • 時間の不均衡に着目し,予測バイアスを軽減する新しい損失関数を提案する。
    • 本研究では,学習終盤における初期クラスへの強い負の監督が,精度の不均衡を引き起こすことを明らかにした。
    • 提案手法Temporal-Adjusted Loss (TAL) は,時間減衰カーネルを用いて負の監督を動的に再重み付けする。
    • 実験結果から,TAL が forgetting を大幅に削減し,複数のベンチマークで性能を向上させることが示された。

    Link: https://arxiv.org/abs/2603.02280

  • 少数ショットAIGC検出のための位相構造再パラメータ化による量子に着想を得たファインチューニング [cs.LG, cs.AI, quant-ph]目的:少数ショットAIGC検出における性能向上
    • AI生成コンテンツの急増により,その検出技術の重要性が増している。
    • 少数サンプルしかない状況でのAIGC検出は依然として課題である。
    • 量子ニューラルネットワークの利点を活用し,効率的なAIGC検出を目指す。
    • Q-LoRAは,標準的なLoRAと比較して,少数ショット設定でAIGC検出において一貫して高い性能を示す。
    • 性能向上は,量子ニューラルネットワーク由来の位相認識表現とノルム制約変換によるものであることが示唆された。
    • 古典的なH-LoRAは,Q-LoRAと同等の精度を,大幅に低いコストで達成した。

    Link: https://arxiv.org/abs/2603.02281

  • 音声認識における系列レベルの教師なし学習:理論的研究 [cs.SD, cs.LG, eess.AS]目的:音声認識における教師なし学習の成立条件とその分類誤差の関係解明
    • 音声データは大量に存在するが,ラベル付けにはコストがかかるため,教師なし学習が重要である。
    • 教師なし学習は,ラベルなしデータからモデルを学習するため,識別精度の向上が課題である。
    • 分類誤差の理論的限界を導き,教師なし学習の成功条件を明らかにすること。
    • 教師なし学習が成功するための二つの条件を理論的に導出した。
    • これらの条件の下で,音声認識における分類誤差の上限を導き,シミュレーションで検証した。
    • 得られた結果に基づき,単一段階の系列レベルクロスエントロピー損失関数を提案した。

    Link: https://arxiv.org/abs/2603.02285

  • プロトタイプ誘導二重プールプロンプティングによる増分オブジェクト検出 [cs.CV, cs.AI]目的:増分オブジェクト検出における性能向上
    • 画像認識技術は,自動運転やロボット工学など,様々な分野で不可欠である。
    • 既存の増分オブジェクト検出手法は,学習の過程で以前の知識を忘れてしまう問題がある。
    • プロンプト劣化を抑制し,継続的な学習における安定性と可塑性を両立させる。
    • 提案手法PDPは,共有プールとプライベートプールという二重のプロンプト分離パラダイムを採用することで,プロンプトの干渉を抑制し,性能を向上させた。
    • プロトタイプに基づく疑似ラベル生成モジュールPPGは,学習中のクラスプロトタイプ空間を動的に更新し,一貫性のある教師信号を維持する。
    • MS-COCOおよびPASCAL VOCのベンチマークにおいて,最先端の性能を達成し,その有効性を実証した。

    Link: https://arxiv.org/abs/2603.02286

  • 悪性尾:過パラメータ化ネットワークにおけるラベルノイズのスペクトル分離 [cs.RO, cs.LG, cs.AI]目的:ラベルノイズにおける過パラメータ化ネットワークの機能的構造
    • 深層学習モデルの汎化性能向上は重要である。特にノイズを含むデータに対する頑健性が求められる。
    • ラベルノイズが増加すると,モデルがノイズを学習し,汎化性能が低下する問題がある。
    • 本研究は,ノイズと信号を分離するモデルの構造的弱点を明らかにし,その対策を提示する。
    • 訓練過程において,確率的勾配降下法(SGD)がノイズを高周波成分の直交部分空間に偏らせることが示された。
    • 訓練済みネットワークにおいて,明示的なスペクトルTruncationにより,ノイズの影響領域を外科的に除去することが可能となった。
    • 過剰なスペクトル容量は,ノイズの記憶を許容する構造的脆弱性であり,明示的なランク制約が必要であることが示唆された。

    Link: https://arxiv.org/abs/2603.02293

  • ZeroDayBench:サイバー防御のための未知のゼロデイ脆弱性に対するLLMエージェントの評価 [cs.CR, cs.AI]目的:未知のゼロデイ脆弱性に対するLLMエージェントのサイバー防御能力の評価
    • ソフトウェア開発におけるLLMの活用が進む中,セキュリティ脆弱性の発見と修正は重要な課題である。
    • LLMエージェントは,既存の脆弱性だけでなく,未知のゼロデイ脆弱性への対応が求められる。
    • 本研究は,LLMエージェントのゼロデイ脆弱性への対応能力を評価し,改善点を明らかにすることを目的とする。
    • ZeroDayBenchを用いて,GPT-5.2,Claude Sonnet 4.5,Grok 4.1の3つのLLMエージェントを評価した結果,いずれも自律的な解決には至らなかった。
    • LLMエージェントは,プロアクティブなサイバー防御能力向上のために,さらなる改善が必要であることが示唆された。
    • モデルの行動パターンを分析することで,具体的な改善策の方向性を見出すことが期待される。

    Link: https://arxiv.org/abs/2603.02297

  • 事前条件付きスコアおよびフローマッチング [cs.CL, cs.LG, cs.AI, cs.CV]目的:拡散モデルにおける最適化バイアスの軽減
    • 生成モデルの性能向上は,画像生成等の分野で不可欠である。
    • 中間分布の共分散行列の条件数が悪いと,最適化が停滞する問題がある。
    • 分布の幾何学的構造を改善し,最適化の停滞を回避する手法を開発する。
    • 事前条件付きマップは,中間分布の共分散行列の条件数を改善することで,最適化のバイアスを軽減する。
    • この手法は,初期の収束を加速するのではなく,以前は抑制されていた方向への進捗を可能にする。
    • MNISTや高解像度データセットにおいて,事前条件付きマップがより良い学習結果をもたらすことが実証された。

    Link: https://arxiv.org/abs/2603.02337