arXiv雑要約

AI - 2026/05/15 公開

言語モデリングのためのプロキシ圧縮 [cs.CL, cs.LG]目的：言語モデリングにおける学習効率の向上
- 大規模言語モデルの効率的な学習は，計算資源の制約から重要である。
- 従来のトークナイザーに依存した圧縮方法では，推論時に柔軟性に欠ける問題がある。
- 推論時にトークナイザーを必要とせず，効率的な学習を実現する手法を開発する。
- プロキシ圧縮は，学習効率を大幅に向上させ，固定計算量において純粋なバイトレベルのベースラインよりも優れた性能を発揮する。
- モデルの規模が大きくなるにつれて，その利点はより顕著になり，最終的にはトークナイザーを用いたアプローチと同等またはそれを上回る性能を達成する。
- 本手法は，トークナイザーに依存せず，生のバイトデータのみを用いて動作し，バイトレベルモデリングの堅牢性を維持する。
Link: https://arxiv.org/abs/2602.04289
タンパク質拡散モデルにおける埋め込み最適化によるロバストな推論時誘導 [cs.LG]目的：タンパク質の構造生成における誘導手法
- 構造生物物理学において，物理的に妥当かつ実験データと整合する生体分子構造の生成は重要課題である。
- 従来の誘導手法は，低い確率領域で実験データの重みを強くする必要があり，サンプリングが不安定になることがある。
- 本研究では，モデルの条件付き埋め込みを最適化することで，構造の事前分布を実験制約に整合させる。
- EmbedOptは，疎な距離制約下で従来の座標ベースの誘導手法と同等の性能を示す。
- クライオ電子顕微鏡写像の適合において，EmbedOptは既存手法を上回り，ノイズを含む実際の実験データにも対応可能である。
- EmbedOptは，ハイパーパラメータにロバストであり，少ない拡散ステップ数で同等の性能を発揮する。
Link: https://arxiv.org/abs/2602.05285
逐次フローマッチングの高速化：ベイジアンフィルタリングの視点 [cs.LG]目的：ストリーミング観測からの逐次確率推論の高速化
- 時系列データの予測は，科学技術や意思決定において不可欠である。
- 拡散モデルやフローマッチングモデルは高次元分布を捉えるものの，逐次処理では計算コストが高い。
- 過去の情報を活用し，サンプリング効率を向上させることで，リアルタイム推論を実現する。
- 本研究では，ベイジアンフィルタリングに着想を得た逐次ベイジアンフローマッチングを提案した。
- 提案手法は，過去の信念分布を情報源として活用することで，サンプリングステップ数を大幅に削減し，推論遅延を軽減する。
- 加速器ビーム，流体，気象予測，意思決定ベンチマークにおいて，拡散モデルと同等の性能を達成した。
Link: https://arxiv.org/abs/2602.05319
大規模言語モデル時代における引用の妥当性に関する大規模分析：GhostCite [cs.CR, cs.AI]目的：引用の妥当性の評価と，大規模言語モデルによる幻覚的な引用の脅威の定量化
- 科学的根拠の信頼性は引用に依存するため，引用の正確性は研究の質を保証する上で不可欠である。
- 大規模言語モデルの利用増加に伴い，捏造された引用（ゴースト引用）のリスクが増大している。
- 大規模言語モデルによる幻覚的な引用が学術の信頼性に及ぼす影響を明らかにし，対策を促す。
- 13種類のLLMを様々な分野で評価した結果，全てのモデルで引用の幻覚が発生し，その割合は14.23%から94.93%に及んだ。
- AI/MLおよびセキュリティ分野の56,381論文（2020-2025年）220万件の引用を分析した結果，1.07%の論文に無効な引用が含まれており，2025年には80.9%増加した。
- 97人の研究者を対象とした調査では，87.2%がAIツールを使用し，76.7%の査読者は参考文献を十分にチェックせず，74.5%が査読の効果に疑問を感じていることが示された。
Link: https://arxiv.org/abs/2602.06718
VLRS-Bench：リモートセンシングのための視覚言語推論ベンチマーク [cs.CV, cs.AI]目的：リモートセンシングにおける複雑な推論能力の評価
- リモートセンシング技術は，地球観測や資源管理など，多岐にわたる分野で不可欠である。
- 既存のベンチマークは，物体認識などの知覚タスクに偏っており，高度な推論能力を評価できていない。
- リモートセンシングにおける複雑な推論能力を評価するための新たなベンチマークを構築し，MLLMの性能向上を目指す。
- VLRS-Benchは，認知，意思決定，予測の3つの側面から構成され，14のタスクと最大8つの時間段階を含む。
- ベンチマークは，リモートセンシング固有の知識と専門知識を組み込んだ特殊なパイプラインによって構築されており，地理空間的な現実性と推論の複雑性を確保している。
- 実験結果から，既存の最先端MLLMには大きなボトルネックが存在することが明らかになり，リモートセンシング分野におけるマルチモーダル推論の進歩に貢献する。
Link: https://arxiv.org/abs/2602.07045
オフライン強化学習における行動クローンActor-Criticのための近接行動置換 [cs.LG, cs.AI]目的：行動クローンによるActor-Critic法の性能上限突破
- 強化学習は，ロボット制御やゲームなど幅広い分野で応用が期待されており，重要な研究分野である。
- オフライン強化学習では，既存のデータセットのみを用いて学習するため，データ品質に大きく依存する。
- 既存データに最適でない行動が含まれる場合，行動クローンが性能向上を阻害する問題を解決する。
- 提案手法である近接行動置換(PAR)は，既存データセットの劣った行動を，価値関数に基づくより良い行動に置き換える。
- PARは，既存のBC正則化パラダイムと容易に組み合わせることができ，TD3+BCと組み合わせるだけでも最先端の結果に近づく。
- 実験の結果，PARはオフライン強化学習のベンチマークにおいて，一貫して性能向上を示した。
Link: https://arxiv.org/abs/2602.07441
PALMS：パブロフ条件付け学習モデルのシミュレーションのための計算実装 [cs.LG]目的：パブロフ条件付け学習モデルのシミュレーション
- 学習理論は，生物の行動原理を理解する上で不可欠である。神経科学研究への応用も期待されている。
- 既存のモデルでは，複雑な実験デザインや多数の刺激を用いたシミュレーションが困難であった。
- 本研究は，多様な実験デザインに対応可能なシミュレーションツールを開発し，モデルの予測能力を向上させることを目指す。
- PALMSは，Rescorla-Wagnerモデルに加え，Pearce-Kaye-HallやMackintosh Extendedなど，注意メカニズムを組み込んだモデルを実装している。
- PALMSは，実験計画をアルファニューメリック形式で入力できるグラフィカルインターフェースを備え，数百の刺激を用いたシミュレーションが可能である。
- 既存の実験のシミュレーションを通して，PALMSが神経科学者にとって有用なツールであることが示された。
Link: https://arxiv.org/abs/2602.07519
因果的マルチタスク需要学習 [cs.LG, econ.EM, stat.ML]目的：異質線形価格反応関数の推定
- 小売価格設定など，複数の意思決定状況における需要予測は，企業戦略上重要である。
- 各状況での価格変動が限られており，タスク間の知識転移が難しい。
- 交絡の問題に対処し，タスク固有の因果的需要パラメータを正確に推定する。
- 提案手法は，タスク固有の観測可能な変数に基づいて，因果的需要パラメータの条件付き平均を識別する。
- 少なくとも2つの局所的に外生的な価格ポイントがあれば，交絡の影響を受けずに推定が可能となる。
- 実データと合成データを用いた検証により，標準的な転移学習手法よりも優れた性能が示された。
Link: https://arxiv.org/abs/2602.09969
大規模言語モデルにおけるWasserstein正則化Truncationと質量ペナルティを用いた幾何学的認識によるデコーディング [cs.CL, cs.LG]目的：大規模言語モデルにおける多様性と論理的整合性のバランス改善
- 大規模言語モデルは，その汎用性から様々な応用が期待されているため，その性能向上が重要である。
- 既存のTruncation法は経験則に頼ることが多く，トークン空間のセマンティックな幾何構造を考慮していない。
- トークン埋め込みの幾何構造に基づき，Truncation規則を改善し，生成の多様性と品質を両立させる。
- 提案手法Top-Wは，Wasserstein距離を用いてTruncationを行うことで，元の分布に近い状態を維持しつつ，確率質量とエントロピーのバランスを調整する。
- 実験の結果，Top-Wは4つのベンチマークにおいて，既存の最先端デコーディング手法を最大33.7%上回る性能を示した。
- Top-Wは，精度向上だけでなく，主観評価による創造性の向上にも貢献することが示された。
Link: https://arxiv.org/abs/2602.10346
クラウゼ同期変換器 [cs.LG, cs.AI]目的：変換器における注意メカニズムの改善
- Transformerは自然言語処理等の分野で広く利用されているが，計算コストが高い点が課題である。
- 従来のTransformerでは，注意機構が全てのトークン間で競合し，表現の崩壊や注意シンク現象が起こりやすい。
- 局所的な同期を促進することで，注意の集中を緩和し，計算効率を向上させることを目指す。
- クラウゼ注意機構は，距離に基づく局所的な相互作用を用いることで，Transformerの注意集中を抑制する。
- この機構により，計算複雑度が二次から線形に低減され，計算効率が向上する。
- 画像認識，画像生成，言語モデル等，多様なタスクにおいて性能が向上し，その有効性が確認された。
Link: https://arxiv.org/abs/2602.11534
ArGEnT：演算子学習のための任意の幾何形状符号化トランスフォーマー [cs.LG, cs.AI, physics.chem-ph, physics.comp-ph, physics.flu-dyn]目的：複雑な幾何形状とパラメトリックな物理設定を持つシステムの解演算子の学習
- 科学機械学習において，複雑な形状や物理条件を考慮したシミュレーションの高速化が重要である。
- 既存手法では，形状変化への汎化性能が課題であり，形状を明示的にパラメータ化する必要がある。
- 任意の形状に対応可能で，高精度な演算子学習を実現するサーロゲートモデルを開発すること。
- 提案手法ArGEnTは，点群データから幾何情報を直接符号化するトランスフォーマーアーキテクチャである。
- DeepONetのtrunkネットワークにArGEnTを組み込むことで，形状と非形状の両方の入力に依存する演算子写像を学習可能にした。
- 流体，固体，電気化学システムにおけるベンチマーク問題で，既存手法と比較して予測精度と汎化性能が大幅に向上した。
Link: https://arxiv.org/abs/2602.11626
DMAP：テキストの分布マップ [cs.CL, cs.LG]目的：テキストの分布を表現する手法
- 大規模言語モデルはテキスト分析に有用だが，その信号の解釈が課題である。
- 従来の評価指標は文脈を考慮せず，確率解釈が困難である。
- 確率と順位情報を効率的に分析できる手法を提案する。
- DMAPはテキストを単位区間内のサンプルに変換し，確率と順位情報をエンコードする。
- 生成パラメータの検証，機械生成テキストの検出，合成データによる学習の影響分析に有用性が示された。
- DMAPは簡便に計算でき，様々な応用とさらなる研究の基盤となる。
Link: https://arxiv.org/abs/2602.11871
Iskra: 逆幾何処理のためのシステム [cs.GR, cs.CV, cs.LG]目的：逆幾何処理問題に対する解を微分すること
- 幾何処理は，コンピュータグラフィックス，CAD，シミュレーションなど，幅広い分野で不可欠である。
- 既存の幾何処理アルゴリズムの微分は困難であり，機械学習との統合を妨げていた。
- 既存アルゴリズムを容易に微分可能にし，機械学習を用いた逆幾何処理への応用を促進すること。
- 本システムは，ローカルグローバル法やADMMソルバーなどの既存の高速な幾何処理手法を活用し，多様な幾何アルゴリズムの微分を可能にする。
- 平均曲率流，スペクトル共形パラメータ化，測地距離計算，剛体変形などへの適用を通して，使いやすさと性能を検証した。
- 本システムは，アルゴリズムの再構成を必要とせず，低実装労力，高速実行時間，低メモリ消費を実現する。
Link: https://arxiv.org/abs/2602.12105
言語モデルにおける解釈可能なプロンプト特有の回路の発見 [cs.LG, cs.AI]目的：言語モデルのタスク解決に使用される内部回路の理解
- 言語モデルの複雑性増加に伴い，その動作原理の解明が不可欠となっている。
- 言語モデルの内部構造は不透明であり，特定タスクにおける回路の特定が困難である。
- 言語モデルの注意メカニズムを制御する回路を特定し，その動作を解釈することを目的とする。
- ACC++は，注意メカニズムにおける因果関係を追跡する手法であり，低次元空間における信号を特定する。
- ACC++によって特定された信号の多くは解釈可能であり，自然言語で説明できることが示された。
- プロンプト構造に対する間接目的語識別回路の感度や，多言語間における信号の違いなど，モデルの挙動に関する新たな知見が得られた。
Link: https://arxiv.org/abs/2602.13483
段階的議論におけるユーザ選好からの基底スコア抽出関数の導出 (付録付き) [cs.AI]目的：ユーザ選好から基底スコアを導出するための関数
- 意思決定支援等の分野で注目される，透明性と検証可能性を備えたAIシステム構築への貢献。
- 基底スコアの適切な選択が専門知識を要し，必ずしも容易ではないという課題。
- ユーザの選好を基底スコアに変換し，より現実的な選好を近似する手法の提案。
- 本研究では，ユーザの議論に対する選好から基底スコアを算出する「基底スコア抽出関数」を導入した。
- この関数を用いることで，二極的議論枠組みに選好情報を付加し，定量的な二極的議論枠組みを構築できる。
- ロボット工学の実験を通じて有効性を検証し，段階的意味論選択の指針を提供した。
Link: https://arxiv.org/abs/2602.14674
グローバル探索：投資，事業開発，競合情報における医薬品資産探索のための広範囲検索AIエージェント [cs.AI, cs.IR]目的：医薬品資産探索におけるAIエージェントの性能評価と，完全かつハルシネーションのない探索の実現
- 医薬品イノベーションはグローバル化しており，海外の情報源からの発見が重要になっている。
- 既存のAIエージェントは，多様な言語と情報源からの網羅的な探索において，専門家には及ばない。
- 多言語情報源から，ハルシネーションを起こさずに医薬品資産を網羅的に探索するAIエージェントを開発する。
- 提案手法であるBioptic Agentは，既存のDeep Research AIエージェントと比較して，医薬品資産探索のベンチマークにおいて高いF1スコア（79.7%）を達成した。
- Bioptic Agentは，Gemini 3.1 Deep Think（59.2%），Claude Opus 4.6（56.2%）などの既存モデルを大幅に上回る性能を示した。
- 計算資源の増加により性能が向上することから，計算資源の重要性が示唆された。
Link: https://arxiv.org/abs/2602.15019
欧州連合における人工知能の専門性：NUTS-3レベルにおける周辺地域の未開拓な役割 [cs.DL, cs.AI]目的：欧州のNUTS-3地域における人工知能研究の分布
- 人工知能は，経済成長や社会課題の解決に不可欠であり，地域格差の是正にも貢献しうる。
- 人工知能研究の地理的な偏りが顕著であり，主要都市への集中が進んでいる。
- 周辺地域における人工知能の専門性を明らかにすることで，地域開発政策に資する。
- 2015年から2024年にかけてのデータ分析により，主要都市が絶対的な出版量で優位である一方，相対的なAI専門性は周辺地域に集中していることが判明した。
- 特に東ヨーロッパやスペインの地域が高度な専門性を示し，グラナダやビリニュス郡などが高い専門性と被引用率を兼ね備えている。
- 地域間の専門性と被引用率の間には弱い相関関係が見られ，多様な地域プロファイルが存在することが示唆された。
Link: https://arxiv.org/abs/2602.15249
MALLVI：汎用ロボット操作のためのマルチエージェント統合フレームワーク [cs.RO, cs.AI, cs.CV, cs.LG]目的：大規模言語モデルを用いたロボット操作タスク計画における，マルチエージェントによる統合フレームワークの提案
- ロボットの汎用的な操作能力向上は，製造業やサービス業における自動化の鍵となる。
- 従来のLLMを用いたロボット操作は，環境変化に弱く，汎化性能が低いという課題があった。
- 本研究は，環境からのフィードバックループを組み込み，ロバストな操作を実現する。
- MALLVIは，Decomposer，Localizer，Thinker，Reflectorといった専門エージェントの協調により，知覚，位置特定，推論，計画を効率的に行う。
- シミュレーションと実環境実験の結果，反復的なクローズドループによるマルチエージェント協調が，ゼロショット操作タスクの汎化性能と成功率を向上させることを示した。
- Reflectorは，エラー検出と復旧のために関連エージェントのみを再活性化し，計画全体の再実行を回避することで，効率性を高めている。
Link: https://arxiv.org/abs/2602.16898
CUICurate：NLP応用向け臨床概念キュレーションの自動化のためのGraphRAGベースフレームワーク [eess.SY, cs.RO, cs.SY, cs.CL, cs.AI]目的：臨床概念のキュレーションにおける自動化
- 臨床自然言語処理において，正確な概念抽出は重要であり，医療データの分析と活用に不可欠である。
- 既存のツールでは，関連する同義語，サブタイプなどをまとめた概念セットの構築が困難であり，品質にばらつきがある。
- 本研究は，臨床概念セットのキュレーションを自動化し，効率性と再現性を向上させることを目指す。
- CUICurateは，手動で作成された基準と比較して，より大きく，より完全な概念セットを生成することに成功した。
- GPT-5は，全ての概念において手動キュレーションを上回り，ゴールドスタンダードのCUIの95%以上を維持した。
- CUICurateは，臨床自然言語処理および表現型解析アプリケーション向けに，費用対効果が高く，再現性のあるアプローチを提供する。
Link: https://arxiv.org/abs/2602.17949
CAKE：K-分割アンサンブルによる割り当ての確信度 [cs.LG]目的：個々の割り当ての信頼性評価
- クラスタリングはデータ構造発見に有用だが，割り当ての信頼性評価は困難である。
- 初期値依存性が高いアルゴリズムでは，個々の割り当ての不安定さが問題となる。
- アンサンブルによる信頼性評価と幾何学的構造からの支持を組み合わせる。
- CAKEは，割り当ての安定性と局所的な幾何学的適合性の整合性を評価する。
- 理論的分析により，CAKEがノイズ下でも有効であることが示された。
- 実験により，CAKEが曖昧な点と安定したコアメンバーを識別できることが示された。
Link: https://arxiv.org/abs/2602.18435
有限次元代数の理解 [cs.RO, cs.SY, eess.SY, cs.LG, cs.AI, math.RA]目的：有限次元代数における乗算学習における，長期的な記憶から汎化への突然の移行現象（グロッキング）の調査
- ニューラルネットワークの学習における汎化能力の理解は，AIの信頼性と性能向上に不可欠である。
- グロッキング現象は予測が難しく，そのメカニズム解明が課題であった。
- 代数的構造におけるグロッキング現象を解明し，汎化と学習の関係性を明らかにする。
- グロッキングは，群演算だけでなく，非結合的，非可換，非単位的な代数を含む，より一般的な代数的構造においても観察される。
- 実数上の代数における学習問題は，暗黙的な低ランクバイアスを持つ行列分解と関連していることが示された。
- 有限体上の代数では，グロッキングは代数的要素の離散表現を学習する必要性から自然に生じる。
Link: https://arxiv.org/abs/2602.19533
因果推論ベンチマーク：因果特定と推定の分離評価のための実世界ベンチマーク [cs.CL, cs.AI]目的：因果特定と推定の分離評価のためのベンチマーク
- 因果推論は，政策決定や科学的発見において重要な役割を果たす。
- 既存のベンチマークは，因果特定と推定を混同しており，詳細な評価が困難である。
- 因果推論システムのボトルネックを特定し，より堅牢なシステム開発を促進すること。
- 本ベンチマークは，173のクエリと132の実世界データセットから構成される。
- 最先端のLLMを用いた評価では，戦略レベルの特定は79%の精度であったが，完全な仕様の正確さは34%に低下した。
- この結果から，ボトルネックは数値計算ではなく，研究デザインの詳細にあることが示唆された。
Link: https://arxiv.org/abs/2602.20571
MUON+: LLM事前学習におけるより効果的なMuonのための追加正規化ステップ [cs.RO, cs.LG]目的：LLM事前学習のためのMuonの性能向上
- 大規模言語モデルの効率的な事前学習は，自然言語処理の進歩に不可欠である。
- Muon最適化は有望だが，極値分解後の更新においてノルムの不均衡が生じる問題がある。
- 極値分解後のノルム不均衡を解消し，Muonの性能を向上させることを目指す。
- Muon+は，Muonの極値分解後に単一の正規化ステップを追加する。
- GPTおよびLLaMAモデルの事前学習実験において，Muon+はMuonよりも一貫して優れた性能を示した。
- 結果として，Muon+は事前学習の速度を大幅に向上させることが確認された。
Link: https://arxiv.org/abs/2602.21545
大規模言語モデルにおける安全かつプライバシー保護された知識消去に向けて [cs.DB, cs.IR, cs.LG, cs.AI, cs.CR, cs.DC]目的：大規模言語モデルの知識消去におけるプライバシー保護と安全性
- 近年の大規模言語モデルの普及に伴い，モデルに含まれる不要な情報の削除が重要課題となっている。
- モデルのパラメータや消去対象データの共有制限により，従来の知識消去手法はプライバシー保護の面で課題があった。
- 本研究は，パラメータやデータの共有を伴わずに，プライバシーを保護しながら知識消去を可能にする手法を提案する。
- MPUは，複数の摂動されたモデルインスタンスを生成し，クライアント側でのローカルな知識消去を可能にする。
- サーバー側では，再パラメータ化の逆変換と調和的ノイズ除去処理により，摂動の影響を軽減し，消去性能を向上させている。
- 実験結果から，MPUはノイズフリーのベースラインと同等の消去性能を達成し，場合によってはそれを上回る性能を示すことがわかった。
Link: https://arxiv.org/abs/2602.23798
自動定理証明のための最小エージェント [cs.AI]目的：AIに基づいた定理証明システムのアーキテクチャ間の比較
- 定理証明は，数学的推論の自動化において重要な役割を担い，様々な分野に応用される。
- 既存の定理証明システムは複雑で，コストがかかり，比較が困難な場合がある。
- 単純かつ効率的なアーキテクチャによる定理証明システムの基盤を提供すること。
- 提案手法は，最先端の手法と同等の性能を示し，より単純な構造と低いコストで実現された。
- 反復的なアプローチは，特にサンプル効率とコスト効率の面で，一度だけの生成よりも優れていることが示された。
- 本実装は，今後の研究の参照として，またコミュニティ向けのアクセス可能な証明器として，オープンソースで公開されている。
Link: https://arxiv.org/abs/2602.24273
マルチモーダルテスト時適応における安定性と可塑性の分離 [cs.CV, cs.AI]目的：マルチモーダルテスト時適応のための安定性と可塑性の分離
- 事前学習済みモデルを現実世界の変動するデータ分布に適応させることは重要である。
- 既存手法では，偏りのないモダリティでの負の転移や，偏ったモダリティでの破滅的忘却が発生しやすい。
- DASPは，モダリティ間の潜在空間の差異に着目し，非対称な適応戦略を提案することでこの問題を解決する。
- 提案手法DASPは，診断と緩和を組み合わせた新たなフレームワークであり，多様なマルチモーダルベンチマークにおいて最先端手法を凌駕する性能を示す。
- 偏ったモダリティでは可塑性を，偏りのないモダリティでは安定性を重視する非対称な適応メカニズムを採用している。
- 各モダリティ固有のアダプターを安定コンポーネントと可塑コンポーネントに分割し，モダリティごとに異なる更新戦略を用いる。
Link: https://arxiv.org/abs/2603.00574
Robometer: 汎用ロボット報酬モデルのスケール拡大 - 軌跡比較によるアプローチ [cs.RO, cs.AI, cs.LG]目的：汎用ロボット報酬モデルのスケール拡大
- ロボットの自律学習において，報酬関数の設計は性能向上に不可欠である。
- 大規模データセットでは，失敗や劣った軌跡が多く，密な進捗ラベル付与が困難である。
- 失敗軌跡を含む大規模データセットでも有効な報酬モデルを学習すること。
- Robometerは，軌跡内進捗と軌跡間比較という二つの目的関数を組み合わせることで，より汎化性能の高い報酬関数を学習した。
- RBM-1Mという100万件以上の軌跡を含む大規模データセットを構築し，多様なロボットとタスクに対応可能とした。
- ベンチマークテストと実世界評価において，既存手法と比較してロボットの学習性能を向上させた。
Link: https://arxiv.org/abs/2603.02115
Vibe Code Bench：エンドツーエンドのWebアプリケーション開発におけるAIモデルの評価 [cs.SE, cs.AI, cs.CL]目的：エンドツーエンドのWebアプリケーション開発におけるAIモデルの性能評価
- AI技術の応用範囲拡大に伴い，コード生成の重要性が高まっている。
- 既存の評価指標は，部分的なタスクに焦点を当てており，実用的なアプリケーション開発能力を測れていない。
- ゼロからWebアプリケーションを構築する一連のプロセスを評価するベンチマークの提供。
- Vibe Code Benchは，100件のWebアプリケーション仕様と964のブラウザベースのワークフローで構成される。
- 最先端のモデルでも，テストデータに対する正答率は61.8%に留まり，安定したアプリケーション開発は依然として課題である。
- 生成時の自己テストが性能の重要な予測因子であり，評価者の選択が結果に大きく影響することが示された。
Link: https://arxiv.org/abs/2603.04601
ストリーミング対話における随時想起のための能動的記憶 [cs.AI]目的：無限長対話ストリームにおける随時記憶想起
- 対話システムにおいて，過去の情報を効率的に記憶し活用することは重要である。
- 既存の記憶機構は，無限長ストリームという状況下で随時想起に対応できない。
- 本研究は，ストリーミング対話における記憶想起の効率と精度を両立することを目指す。
- 本研究では，ストリーミング対話の記憶評価ベンチマーク「STEM-Bench」を提案した。
- 既存手法には，精度と効率性のトレードオフが存在することが示された。
- 提案手法「ProStream」は，階層構造と適応的最適化により，精度と効率性の両立を実現した。
Link: https://arxiv.org/abs/2603.04885
Langevin力学に基づくModern Hopfieldエネルギーの確率的注意 [cs.LG, q-fin.CP]目的：確率的注意機構の開発
- 近年，注意機構は自然言語処理をはじめ様々な分野で重要な役割を果たしている。
- 既存の注意機構は学習に大量のデータが必要であり，データが少ない環境では性能が低下する。
- 本研究は，学習不要でデータ量の少ない環境でも有効な注意機構の実現を目指す。
- 提案手法は，Modern Hopfieldエネルギーのボルツマン分布からのLangevinサンプリングを利用した確率的注意機構である。
- 温度パラメータを調整することで，正確な検索から自由な生成への移行が可能になることが示された。
- 様々なデータセットにおいて，提案手法は既存の学習ベースラインよりも優れた性能を発揮した。
Link: https://arxiv.org/abs/2603.06875
勾配反復時間差学習 [cs.LG, cs.AI]目的：時間差学習における収束性と学習速度の改善
- 強化学習において，長期的な報酬を最適化する手法として重要である。
- 半勾配更新は高速だが，発散の危険性があり，安定性に課題がある。
- 半勾配法の速度を維持しつつ，勾配法による安定性を実現すること。
- 提案手法である勾配反復時間差学習は，様々なベンチマークで半勾配法と同等の学習速度を示した。
- 従来の勾配時間差学習法では示されなかった，実用的な学習速度を達成した。
- 不安定になりやすい反復時間差学習の半勾配的性質を，勾配計算によって改善した。
Link: https://arxiv.org/abs/2603.07833
V2M-Zero：ペアなし時系列ビデオから音楽生成 [cs.CV, cs.AI, cs.LG, cs.MM, cs.SD]目的：ビデオと音楽の時系列的な同期
- 映像と音楽の融合は，エンターテイメントや表現において重要な役割を担う分野である。
- 既存のテキストから音楽生成モデルは，細粒度な時間的制御が難しく，映像イベントとの同期が課題である。
- ペアなしデータを用いて，時間的同期と意味的制御を両立したビデオから音楽生成を実現すること。
- V2M-Zeroは，ビデオと音楽のペアなしデータで学習し，最先端の性能を達成した。
- 時間的同期，意味的整合性，ビート同期において，既存手法を大きく上回る結果が得られた。
- モダリティ内での特徴量を利用することで，時間的アラインメントと音楽スタイルの独立した制御が可能になった。
Link: https://arxiv.org/abs/2603.11042
ニューラル場熱トモグラフィ：非破壊検査のための微分可能な物理フレームワーク [cs.LG, cond-mat.mtrl-sci, cs.AI, cs.CV, physics.ins-det]目的：非破壊検査のための，微分可能な物理フレームワークによる逆熱伝導問題の解決
- 熱伝導問題は，材料の特性評価や欠陥検出など，工学分野において不可欠である。
- 従来の逆熱伝導問題は，数値的不安定性が高く，高精度な解を得ることが困難である。
- ニューラル場を用いたフレームワークにより，より安定かつ高精度な逆熱伝導問題の解法を確立する。
- 提案手法NeFTYは，ソフト制約型PINNやボクセルグリッドベースラインと比較して，ラベルなし3Dベンチマークにおいて大幅な性能向上を示した。
- NeFTYは，実熱画像データにも適用可能であり，欠陥セグメンテーションと深さ推定において従来の信号処理ベースラインを上回る性能を発揮した。
- NeFTYは，微分可能な陰解法熱ソルバーを用いることで，PDEを厳密に満たす解を得ることを可能とした。
Link: https://arxiv.org/abs/2603.11045
バッファと無制限乗り換えに対応するためのダイクストラ法の適応 [cs.DS, cs.AI, cs.RO]目的：公共交通機関における無制限乗り換え経路探索
- 経路探索は，効率的な移動や都市計画において重要な役割を担う。
- 従来のダイクストラ法は，時刻表ベースのアルゴリズムに取って代わられ，比較が不十分だった。
- バッファ時間の影響を考慮した，より正確で効率的な経路探索アルゴリズムの開発。
- 時間依存ダイクストラ法(TD-Dijkstra)がMRよりも優れた性能を示すことが実証された。
- バッファ時間を正しく扱えるTransfer Aware Dijkstra (TAD)を提案し，MRに対し2倍以上の高速化を実現した。
- ロンドンおよびスイスのネットワークにおいて，バッファ時間有無にかかわらず最適解を得られた。
Link: https://arxiv.org/abs/2603.11729
TERMINATOR: Chain-of-Thought推論における早期終了の最適ポイント学習 [cs.LG, cs.AI, cs.CL]目的：Chain-of-Thought推論における早期終了戦略の最適化
- 大規模言語モデルの複雑な推論能力は目覚ましいが，計算コストが高いという課題がある。
- 推論の長さを短縮する試みはあるものの，タスクやモデルに依存するため汎用的な解決策がない。
- 推論の早期終了ポイントを予測し，計算コストを削減することを目指す。
- 提案手法Terminatorは，CoT推論の長さを平均14%-55%削減することに成功した。
- Terminatorは，既存の最先端手法を上回り，推論遅延を2倍以上短縮した。
- Terminatorは，MATH-500，AIME 2025，HumanEval，GPQAといった複数の実用的なデータセットで有効性を実証した。
Link: https://arxiv.org/abs/2603.12529
エントロピー誘導ステップ選択と段階的アドバンテージによる拡散LLMの強化学習 [cs.LG, cs.AI, cs.CL]目的：拡散言語モデルにおける強化学習の適用
- 言語モデルの性能向上は，自然言語処理の発展に不可欠である。
- 拡散言語モデルへの強化学習の適用は，シーケンスレベル尤度の計算困難性により課題が多い。
- ノイズ除去過程における正確な方策勾配を導出し，効率的な学習手法を確立すること。
- エントロピー誘導ステップ選択により，計算効率の高い推定器を実現した。
- 中間アドバンテージを，拡散モデルの1段階ノイズ除去報酬を用いて推定した。
- コーディングおよび論理的推論のベンチマークにおいて，最先端の結果を達成した。
Link: https://arxiv.org/abs/2603.12554
M$^2$RNN：スケーラブルな言語モデリングのための行列値状態を持つ非線形RNN [cs.LG, cs.AI]目的：言語モデリングにおける非線形RNNの性能向上
- Transformerは並列処理に優れるが，表現力に限界があり，複雑なタスクに対応できない。
- 従来の非線形RNNは，状態サイズが性能を制約する要因となっていた。
- 行列値状態を持つM$^2$RNNにより，状態サイズの効率的な活用と性能向上を目指す。
- M$^2$RNNは，訓練中に見たことのない系列長においても，状態追跡の汎化性能が向上する。
- ハイブリッド設定において，M$^2$RNNは既存のGated DeltaNetハイブリッドよりも低いパープレキシティを達成する。
- 既存のハイブリッドアーキテクチャにM$^2$RNN層を1つ追加するだけでも，同等の性能向上が得られる。
Link: https://arxiv.org/abs/2603.14360
最新Transformerアーキテクチャにおける残差ストリームの二重性 [cs.LG, cs.AI, cs.CL]目的：Transformerにおける残差経路の設計空間の整理
- Transformerは自然言語処理の基盤であり，その性能向上は重要な課題である。
- 残差経路の役割が十分に理解されておらず，効果的な設計が困難である。
- 残差経路の特性を明確にし，より効率的なTransformerアーキテクチャを提案する。
- 残差経路は単なる最適化の仕組みではなく，モデルの表現能力の一部である。
- 層インデックスを順序変数と見なすと，残差注意は因果的な短いスライディングウィンドウ注意と同等である。
- 大規模自己回帰モデルでは，シーケンス軸のShortSWAがハードウェア効率が良い。残差自体を変更する場合はDDLが有効である。
Link: https://arxiv.org/abs/2603.16039
LLMは社会科学における機関の記録から科学的嗜好を学習する [cs.AI, econ.GN, q-fin.EC]目的：社会科学における研究提案の評価能力向上
- 科学研究の進展には，質の高いアイデアを効率的に選別する評価が不可欠である。
- 評価基準が明確でない分野では，有望な研究を特定することが困難である。
- 機関の記録という客観的データを用いて，LLMによる評価能力を高める。
- ファインチューニングされたLLMは，8つの社会科学分野で高い精度を示し，既存モデルを大幅に上回った。
- 特にマネジメント分野では，専門家や他のLLMと比較して，大幅に高い精度を達成した。
- LLMは予測の正誤に応じて信頼度を調整し，熟練した査読者の行動を模倣することが確認された。
Link: https://arxiv.org/abs/2603.16659
LLM駆動アルゴリズムデバッグによる手続き的洗練：ARC-AGI-2への応用 [cs.SE, cs.AI]目的：抽象的推論における潜在的な規則の導出と未見インスタンスへの適用
- 複雑な抽象的推論は，汎用人工知能(AGI)実現の鍵であり，その能力向上が求められている。
- LLMによる規則表現はプログラムとして可能だが，従来の洗練方法は結果レベルに留まり，根拠の再検証が困難である。
- LLMとPrologメタインタプリタを組み合わせ，モデルの仮説規則を意味論的に再検証する手法を確立する。
- 提案手法(ABPR)は，ARC-AGI-2においてGemini-3-Flashで56.67%，GPT-5.5 xHighで98.33%のPass@2を達成した。
- ABPRは，ARC-AGI-2特有のタスクだけでなく，I-RAVEN-XやA-I-RAVENといったRAVEN形式の推論にも適用可能であることが示された。
- トレース誘導探索は，探索幅と洗練の深さが深まるにつれて，確率的変動を抑制する効果が確認された。
Link: https://arxiv.org/abs/2603.20334
状態のグラフ：大規模言語モデルによる仮説的推論の解決 [cs.AI]目的：大規模言語モデルを用いた仮説的推論の解決
- 論理的推論はAIの根幹であり，高度な問題解決能力の実現に不可欠である。
- 既存のフレームワークは，仮説的推論の構造化された状態表現と明示的な状態制御の欠如により，その能力が限定されている。
- 状態のグラフにより，仮説的推論における証拠捏造，文脈ドリフト等の問題を解決し，より確実な推論を可能とする。
- 提案手法「状態のグラフ」は，構造化された信念状態と因果グラフにより，多エージェント協調を実現する。
- このアプローチは，目的のない探索を収束的で指向的な探索へと変え，複雑な仮説的推論タスクにおいて既存手法を大幅に上回る性能を示す。
- 二つの現実世界のデータセットを用いた評価により，GoSの堅牢性が実証された。
Link: https://arxiv.org/abs/2603.21250
命令条件付きインコンテキスト時系列タスクのための基盤モデル [cs.LG]目的：命令条件付きメタ学習による時系列タスクの推論
- 時系列データは，経済，気象，医療など様々な分野で重要な役割を果たす。
- 既存の時系列モデルは，明示的な命令によるタスク適応が難しく，汎用性に課題がある。
- 本研究は，例示から直接タスクを推論できる基盤モデルを構築し，汎用的な時系列タスク解決を目指す。
- iAmTimeは，時系列データの文脈と将来の変数を構造化されたプロンプトとして表現する。
- このモデルは，潜在的なタスク構造を推論しながら，時間的および共変動的な関係を捉えることができる。
- 確率予測および点予測のベンチマークにおいて，既存の時系列基盤モデルを上回り，分類などの非予測タスクでも競争力のある性能を示す。
Link: https://arxiv.org/abs/2603.22586
Polaris: 小規模言語モデルのための経験抽象化によるポリシー修復を通じたG\"odelエージェントフレームワーク [cs.LG]目的：小規模言語モデルにおける自己改善の実現
- 言語モデルの性能向上は，人間レベルの知能実現に向けた重要な課題である。
- 従来の自己修正方法は，応答レベルやパラメータ調整に留まり，ポリシー自体の改善が困難であった。
- 経験抽象化により，失敗事例を再利用可能な戦略に蒸留し，ポリシーレベルでの改善を目指す。
- Polarisは，分析，戦略形成，抽象化，および保守的なチェックによる最小限のコードパッチ修復のサイクルを通して，ポリシー修復を行うG\"odelエージェントである。
- 70億パラメータのモデルにPolarisを搭載することで，ベースポリシーや競合するベースラインと比較して一貫した性能向上を達成した。
- 経験抽象化は，MGSM，DROP，GPQA，LitBenchといった様々なベンチマークにおいて，未知の事例への戦略転移を可能にする。
Link: https://arxiv.org/abs/2603.23129
OneSearch-V2：潜在的推論強化自己蒸留型生成検索フレームワーク [cs.IR, cs.AI, cs.CL]目的：潜在的推論を強化した自己蒸留型生成検索フレームワークの開発
- 検索システムの精度向上は，情報へのアクセス効率を高め，ユーザー体験を改善する上で不可欠である。
- 従来の検索システムは，複雑なクエリの理解や潜在的なユーザー意図の把握が不十分である場合が多い。
- OneSearch-V2は，これらの課題を克服し，より高度な検索性能を実現することを目指す。
- OneSearch-V2は，クエリ理解とユーザープロファイリング能力が向上し，検索体験の質を改善した。
- オフライン評価により，高いクエリ認識とユーザープロファイリング能力が確認された。
- オンラインA/Bテストの結果，アイテムCTRが3.98%向上，購入者数が2.07%増加，注文数が2.11%増加した。
Link: https://arxiv.org/abs/2603.24422
OpenClaw AIエージェントフレームワークのセキュリティ分析 [cs.CR, cs.AI]目的：OpenClaw AIエージェントフレームワークに対するセキュリティアドバイザリの体系的な分類と分析
- AIエージェントの利用拡大に伴い，LLMと実行環境を接続する際のセキュリティ確保が重要となっている。
- 従来のソフトウェアとは異なる構造的脆弱性が存在し，攻撃対象となるレイヤーや手法が多様である。
- OpenClawの脆弱性分析を通じて，AIエージェントフレームワークのセキュリティ課題を特定し，対策を検討する。
- OpenClawに対し，470件のセキュリティアドバイザリが存在し，アーキテクチャ層と攻撃手法の2軸で分類された。
- GatewayとNode-Hostサブシステムの脆弱性を組み合わせることで，認証なしのRCEパスが確立されることが判明した。
- 実行許可リストの仕組みは，コマンド名の解析に依存しており，シェル継続行などにより容易に回避可能であることが示された。
Link: https://arxiv.org/abs/2603.27517
SEDGE：構造的外挿データ生成 [cs.CL, cs.CL, cs.LG]目的：構造的外挿データ生成の枠組み
- データ駆動型アプローチの性能はデータ量に依存するため，十分なデータ確保が重要である。
- 既存手法では，訓練データ範囲外のデータ生成は困難であり，汎化性能が課題となる。
- 訓練データから推測可能な構造に基づいて，新たな仕様を満たすデータ生成を可能とする。
- 提案手法SEDGEは，データ生成過程に関する適切な仮定に基づき，信頼性の高い外挿データ生成を可能とする。
- 特定の保守的な仮定下では，生成されたデータの分布の近似的な識別可能性が保証される。
- 構造情報を活用した最適化戦略や拡散事後サンプリングに基づき，実用的な外挿データ生成アルゴリズムが開発された。
Link: https://arxiv.org/abs/2604.02482
LLMは不確実性を明示的に表現すべきである [cs.LG, cs.AI, cs.CL]目的：LLMにおける不確実性の明示的表現方法
- LLMは多様な分野で活用されているが，誤った情報を自信を持って出力する可能性がある。
- LLMの過信は，現実世界での応用においてリスクをもたらす可能性がある。
- LLMが自身の不確実性を認識し，それを出力に反映させること。
- 事後学習により，LLMが自身の不確実性を明示的に示すように訓練することが可能となった。
- 推論中および推論後の両方で不確実性を示す方法が，過信による誤りを大幅に削減し，回答の質を向上させた。
- これらの手法は，検索拡張生成 (RAG) のトリガーとして活用することで，最終的な回答を改善できる。
Link: https://arxiv.org/abs/2604.05306
PinpointQA：屋内動画における小物体を中心とした空間理解のためのデータセットとベンチマーク [cs.CV, cs.AI]目的：屋内動画における小物体を中心とした空間理解の評価
- 物体検索や支援アプリケーションなど，実用的な価値が高いため，マルチモーダル大規模言語モデルにおける空間理解能力の向上が重要である。
- 既存のベンチマークは動画の空間知能を向上させてきたが，物体を正確に特定し，その位置を表現できるか評価するものがなかった。
- 小物体を中心とした空間理解能力を評価するためのデータセットとベンチマークを構築し，モデルの課題を明確にすること。
- PinpointQAは，ScanNet++とScanNet200を基に構築された，屋内動画における小物体を中心とした空間理解のための最初のデータセットおよびベンチマークである。
- 実験の結果，代表的なMLLMは，難易度の高いタスクにおいて能力に差があることが示され，特に構造化空間予測（SSP）が困難であることがわかった。
- PinpointQAによる教師ありファインチューニングは，より難しいタスクにおいて顕著な改善をもたらし，診断ベンチマークおよび効果的な訓練データセットとしての有用性を示した。
Link: https://arxiv.org/abs/2604.08991
ECHO：スパースゲーティングを用いた弾力的な推測デコーディングによる高並行シナリオ対応 [cs.DC, cs.AI, cs.LG]目的：大規模言語モデルの推論加速
- 大規模言語モデルの普及に伴い，推論速度の向上が不可欠である。
- 高並行環境下では，検証計算がボトルネックとなり，既存手法の性能が低下する。
- 検証計算の無駄を削減し，推論効率を最大化する。
- ECHOは，推測実行を予算配分問題として再構築する。
- スパース確信度ゲーティングにより，検証ステップ数を削減し，ステップ効率を最大化する。
- Qwen3-235Bを用いた評価で，最先端手法を最大5.35倍上回り，20%以上の速度向上を実現した。
Link: https://arxiv.org/abs/2604.09603
RoboLab：タスク汎化ポリシー分析のための高忠実度シミュレーションベンチマーク [cs.RO, cs.AI]目的：タスク汎化ロボットの性能評価と要因分析
- 汎用ロボット開発が進む中で，シミュレーション環境での客観的評価が重要になっている。
- 既存ベンチマークは，学習と評価のドメインが重複し，真の汎化性能を測れない場合がある。
- RoboLabは，シミュレーションと実世界の性能乖離を明らかにし，汎化性能向上に貢献する。
- RoboLabは，人間やLLMを活用し，ロボットやポリシーに依存しないタスク生成を可能にする。
- RoboLab-120ベンチマークは，視覚，手続き，関係性の3つの能力軸と3つの難易度レベルで構成される。
- 実世界のポリシー分析により，既存モデルの性能ギャップや振る舞いの敏感性が明らかになった。
Link: https://arxiv.org/abs/2604.09860