arXiv雑要約

AI - 2026/03/04 公開

FlashEvaluator：並列評価による探索空間の拡大 [cs.IR, cs.CL, cs.LG]目的：生成器・評価器フレームワークにおける評価効率と精度向上
- 推薦システムや自然言語処理において，生成器と評価器の組み合わせが基本的な枠組みとして重要である。
- 従来の評価器はシーケンス間比較が不十分で，計算量が増大し，並列化が困難であるという課題があった。
- シーケンス間の情報共有と並列処理により，評価効率と選択精度を同時に向上させることを目指す。
- FlashEvaluatorは，シーケンス間でのトークン情報の共有を可能にし，単一のフォワードパスで全てのシーケンスを処理する。
- その結果，計算複雑度を亜線形に抑え，システム効率を改善し，シーケンス間の直接比較による選択精度向上を実現した。
- 実験と理論的証明により有効性が示され，Kuaishouのオンライン推薦システムへの適用で収益増加に貢献した。
Link: https://arxiv.org/abs/2603.02565
Wasserstein近接方策勾配法 [cs.LG]目的：連続行動，エントロピー正則化強化学習における方策勾配法の研究
- 強化学習は，複雑な環境下での自律的な意思決定を可能にする重要な技術である。
- 既存の方策勾配法は，方策の対数密度や勾配の評価が必要であり，計算コストが高いという課題がある。
- Wasserstein幾何学に基づき，計算効率が向上し，表現力の高い方策に適用可能な手法を開発する。
- Wasserstein近接更新に基づき，Wasserstein近接方策勾配法(WPPG)を導出。最適輸送更新とガウス畳み込みによる熱ステップを交互に行う。
- WPPGは，方策の対数密度や勾配の評価を回避し，暗黙的確率方策に直接適用可能である。
- WPPGは，厳密な方策評価とActor-Critic実装の両方において，グローバルな線形収束率を示すことが証明された。
Link: https://arxiv.org/abs/2603.02576
パラメータフリーな時間差分学習に向けて [cs.LG]目的：強化学習における価値関数の推定
- 強化学習は，機械学習の重要な分野であり，自律的な意思決定システムの構築に不可欠である。
- 時間差分学習の理論的収束率解析は，問題に依存するパラメータ設定を必要とし，実用上の課題となっていた。
- 問題依存量の推定を不要とし，理論と実践のギャップを埋めることを目指す。
- 提案手法では，特徴量共分散の最小固有値やマルコフ連鎖の混合時間といった問題依存量の知識を必要としない。
- 定常分布からの独立同一分布サンプリングにおいて，最終反復における最適なバイアス分散トレードオフを達成する。
- マルコフサンプリングにおいては，従来の先行研究と同等の収束率を，投影や反復平均化なしに実現する。
Link: https://arxiv.org/abs/2603.02577
大規模言語モデルの制御可能性：行動粒度に応じた統一評価 [cs.CL, cs.AI, cs.HC, cs.LG]目的：大規模言語モデルの制御可能性の評価
- 社会的影響力の増大に伴い，言語モデルの安全性と信頼性が重要課題となっている。
- 言語モデルの予測不能な行動が，意図とのずれや一貫性のない人格として現れる点が課題である。
- 言語モデルの制御性を多角的に評価し，安全な利用を促進するための枠組みを構築すること。
- SteerEvalという階層的ベンチマークを導入し，言語特徴，感情，人格の３つの側面から制御可能性を評価した。
- 評価の結果，制御はより詳細なレベルで低下する傾向が明らかになった。
- 本ベンチマークは，安全で制御可能な言語モデルの行動を促進するための基盤となる。
Link: https://arxiv.org/abs/2603.02578
妨害対策協調推論システムにおけるモデル分割とリソース配分の同時最適化 [cs.LG, cs.SY, eess.SY]目的：妨害対策協調推論システムにおける収益最大化
- 深層学習の推論は計算資源を要し，デバイスとエッジの連携が重要である。
- 中間特徴データの伝送は，悪意のある妨害に脆弱であるという課題がある。
- 妨害環境下で，推論精度と計算資源制約下での収益最大化を目指す。
- 提案手法は，計算資源配分，送信電力，モデル分割を同時に最適化する。
- 効率的な交互最適化アルゴリズムにより，混合整数非線形計画問題を解決する。
- シミュレーションにより，提案手法が既存手法よりも収益の面で優れていることを示す。
Link: https://arxiv.org/abs/2603.02579
LiveAgentBench：104の現実世界における課題を通じたエージェントシステムの包括的ベンチマーク [cs.AR, cs.AI]目的：エージェントシステムのベンチマーク
- 大規模言語モデルの進化に伴い，実用的なAIエージェントの重要性が増している。
- 既存のベンチマークは現実世界のユーザー課題を正確に反映できていない。
- 現実世界のユーザーニーズに基づいた，より信頼性の高いベンチマークを開発すること。
- LiveAgentBenchは，ソーシャルメディアや実世界の商品に関する質問から構築された104のシナリオを含む包括的なベンチマークである。
- SPDG（Social Perception-Driven Data Generation）という新規手法により，質問の現実世界への関連性，タスクの複雑さ，結果の検証可能性を確保している。
- 様々なモデル，フレームワーク，商用製品を評価し，その実用的な性能と改善点を特定した。
Link: https://arxiv.org/abs/2603.02586
GPUTOK：GPUアクセラレーションによるバイトレベルBPEトークン化 [cs.RO, cs.CL, cs.AI, cs.DC, cs.LG]目的：大規模言語モデルにおけるトークン化処理の高速化
- 大規模言語モデルのコンテキストウィンドウ拡大に伴い，トークン化処理がボトルネックとなる重要性が増している。
- CPUによる逐次的なトークン化処理が，GPUの計算能力を十分に活用できていないという課題がある。
- GPUを用いた並列化により，トークン化処理の高速化を実現し，長文脈推論の実用性を高める。
- 本研究で開発したGPUベースのトークン化器は，WikiText103データセットにおいて，CPU版と同等のトークン列を生成する。
- 最長入力に対し，tiktokenと比較して約1.7倍，HuggingFace GPT-2トークナイザーと比較して約7.6倍の高速化を達成した。
- 出力品質を維持しつつ，長文脈推論をより現実的なものとするGPUトークン化器の有効性を示した。
Link: https://arxiv.org/abs/2603.02597
SUN: 次のトークン予測の共有による効率的なマルチLLM分散サービング [cs.AI, cs.LG]目的：マルチLLM分散サービングにおける効率化
- LLMの利用拡大に伴い，サービング効率の向上が重要課題となっている。
- モデル固有のリソース分割により，クロスモデルバッチ処理が困難であり，GPUの利用効率が低い。
- 共有によるデコード実行でGPU利用率を改善し，サービング効率を向上させる。
- SUNは，モデルに依存しないデコードルーティングポリシーにより，共有ワーカーへのデコード要求のバランスをとる。
- 様々なタスクとモデルファミリーにおいて，フルファインチューニングと同等の精度を維持しつつ，少ないデコードワーカーでシステムスループットを維持する。
- 特に，従来の分散化と比較してGPUあたりのスループットを最大2.0倍に向上させ，トークンごとの時間（TPOT）を5%以内に抑える。
Link: https://arxiv.org/abs/2603.02599
エージェントアッセイ：非決定性AIエージェントワークフローのための効率的な回帰テスト [cs.AI, cs.SE]目的：非決定性AIエージェントワークフローの回帰テストのためのトークン効率的なフレームワーク
- AIエージェントの利用拡大に伴い，その品質保証の重要性が増している。
- AIエージェントの変更による回帰を検出する体系的な手法が存在しない。
- AIエージェントの回帰テストを効率的に行い，品質を保証すること。
- AgentAssayは，既存手法に比べて78-100%のコスト削減を達成した。
- 行動フィンガープリンティングは，バイナリテストでは検出できなかった回帰を86%の精度で検出した。
- トレースベースのオフライン分析により，ゼロコストでのテストが可能になった。
Link: https://arxiv.org/abs/2603.02601
異種エージェント協調強化学習 [cs.RO, cs.DC, cs.LG]目的：異種エージェント間の協調による強化学習の効率化
- 強化学習は，複雑な意思決定問題への応用が期待され，AI研究の重要な分野である。
- 従来の強化学習は，エージェントごとに学習を行うため，効率が低いという課題がある。
- 異種エージェント間の知識共有を通じて，学習効率を向上させることを目指す。
- HACPOは，ロールアウト共有によるサンプル利用効率とエージェント間知識伝達を最大化する。
- 能力の差やポリシー分布のシフトを抑制する4つのメカニズムを導入し， unbiased advantage estimation を保証する。
- 多様なモデルと推論ベンチマークにおいて，GSPOと比較して平均3.3%の性能向上を示し，ロールアウトコストを半減させた。
Link: https://arxiv.org/abs/2603.02604
ランジェバン誘導フローマッチングによるリアルタイム生成ポリシー：自動運転への応用 [cs.LG, cs.RO]目的：自動運転におけるリアルタイムな意思決定と制御のための生成ポリシー
- 自動運転は，安全性と効率性の向上に不可欠であり，その実現には高度な意思決定技術が求められる。
- 強化学習による生成ポリシーは有望だが，推論速度が遅く，リアルタイムシステムへの導入が困難である。
- フローマッチングを活用し，推論速度を向上させつつ，高性能な生成ポリシーを学習すること。
- 提案手法DACER-Fは，従来の強化学習アルゴリズムと比較して，複雑なシミュレーション環境において優れた性能を示した。
- DACER-Fは，推論速度を大幅に低減し，リアルタイム制御システムへの応用を可能にした。
- ベンチマークテストでは，DACER-Fは既存手法を上回り，高い汎用性も実証された。
Link: https://arxiv.org/abs/2603.02613
同じ誤り，異なる関数：金融時系列におけるオプティマイザを暗黙的な事前分布として [cs.LG, q-fin.CP]目的：金融時系列におけるオプティマイザが持つ暗黙的な事前分布の特性
- 金融市場の予測は経済活動の根幹であり，高精度な予測手法の確立が重要である。
- ニューラルネットワークの過学習を防ぐため正則化が用いられるが，最適化手法による影響は軽視されがちである。
- 最適化手法が予測関数に与える影響を明らかにし，より適切なモデル評価手法を提案すること。
- 同じテスト損失でも，異なる学習パイプラインは質的に異なる関数を学習することが示された。
- オプティマイザの選択が，非線形応答プロファイルや時間依存性を変化させることが確認された。
- ボラティリティランキングポートフォリオにおいて，シャープレシオと取引回転率の関係に大きな分散が見られた。
Link: https://arxiv.org/abs/2603.02620
深層線形判別分析における暗黙的バイアス [cs.MS, cs.DC, cs.PF, math.NT, cs.LG, stat.ML]目的：深層線形判別分析によって誘起される暗黙的正則化の理論的分析
- 機械学習の性能向上には，損失関数の暗黙的バイアスの理解が不可欠である。
- 識別的距離学習の目的関数が最適化の幾何学に与える影響は，十分に解明されていない。
- 深層線形判別分析における暗黙的正則化がどのように働くかを明らかにすること。
- 深層線形判別分析は，クラス内分散を最小化し，クラス間距離を最大化するスケール不変な目的関数である。
- L層の対角線形ネットワークにおける損失関数の勾配の流れを分析した結果，平衡初期化の下では，ネットワーク構造が標準的な加法勾配更新を乗法的重み更新に変換することが示された。
- これにより，(2/L)準ノルムの自動的な保存が実証された。
Link: https://arxiv.org/abs/2603.02622
Uni-Skill：汎用的なロボットマニピュレーションのための自己進化型スキルリポジトリの構築 [cs.RO, cs.LG]目的：ロボットマニピュレーションにおける汎化性能向上のための自己進化型スキルリポジトリ
- ロボットのタスク遂行能力向上には，汎用的なスキル習得が不可欠である。特に複雑な作業の組み合わせでは重要性が増す。
- 既存手法は固定されたスキルライブラリに依存し，新しいタスクへの適応が困難である。手動でのスキル追加が必要となる。
- Uni-Skillは，計画時に不足するスキルを自動で実装し，スキルライブラリを自己拡張することで，この問題を解決する。
- Uni-Skillは，スキルを意識した計画と自動スキル進化を可能にする統合フレームワークである。
- 大規模なロボット動画から構築したSkillFolderにより，多様なスキル記述を構造的に取得・活用できる。
- シミュレーションと実環境の両方で，既存のVLMベースの手法と比較して最先端の性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.02623
見ると思い出す：ウェブ巡回のためのマルチモーダルエージェント [cs.AI]目的：ウェブ巡回のためのロバストなマルチモーダルエージェントアーキテクチャ
- ウェブの自律的なナビゲーションは重要であり，複雑な環境認識と長期的なコンテキスト維持が求められる。
- 現在のLLMベースのエージェントは，空間的な見当識障害やナビゲーションループに陥りやすいという課題がある。
- 本研究は，ウェブ巡回における空間的な課題とナビゲーションの失敗を防ぐことを目指す。
- 提案するV-GEMSは，視覚的な情報と明示的なメモリシステムを統合することで，ウェブ巡回における性能を向上させる。
- V-GEMSは，曖昧なインタラクティブ要素の解決と，巡回経路の構造化されたマップの維持を可能にする。
- WebWalkerのベースラインと比較して，V-GEMSは28.7%の性能向上を達成し，大幅な改善を示す。
Link: https://arxiv.org/abs/2603.02626
連続制御におけるパレートフロントの事後抽出 [cs.LG]目的：連続制御における複数目的のパレートフロントの抽出
- 現実世界の制御問題では，速度，安定性，エネルギー効率など，複数の目的を同時に考慮する必要がある。
- 従来の強化学習では，事後的に目的が変化した場合や複数化した場合に対応が難しかった。
- 本研究は，既存の単一目的の専門家エージェントを活用し，再学習コストを削減したパレートフロント抽出を目指す。
- 提案手法MAPEXは，既存の専門家ポリシーとクリティックを再利用し，オフラインでパレートフロントを効率的に構築する。
- MAPEXは，混合アドバンテージ信号と行動模倣損失を組み合わせることで，複数の目的をバランスさせた新しいポリシーを学習する。
- 実験の結果，MAPEXは既存手法と同程度のパレートフロントを，サンプルコストを大幅に削減して生成することを示した。
Link: https://arxiv.org/abs/2603.02628
MASPOB：グラフニューラルネットワークを用いたマルチエージェントシステムにおけるバンディットベースのプロンプト最適化 [cs.LG, cs.AI]目的：マルチエージェントシステムにおけるプロンプト最適化手法
- 近年，大規模言語モデルは様々な応用で成功を収めており，特にマルチエージェントシステムの認知基盤として重要性が増している。
- 現実のMASではワークフローの変更が難しく，プロンプトに性能が大きく左右されるため，プロンプト最適化が課題となっている。
- 高コストな評価，プロンプト間の結合，探索空間の爆発的な増加という問題を解決する。
- MASPOBはバンディットアルゴリズムを活用し，限られた評価回数で効率的にプロンプトを最適化する。
- グラフニューラルネットワークを用いることで，システムの構造を考慮したプロンプト表現を学習し，結合の影響を軽減する。
- 座標上昇法により，最適化問題を分割し，探索空間の複雑さを軽減する。
Link: https://arxiv.org/abs/2603.02630
専門家混合モデルに対する理論的な一般化保証を備えた，ロバストな異種アナログ・デジタルコンピューティング [cs.CL, cs.LG, cs.AI]目的：専門家混合モデルにおける効率的なスケーラビリティと，アナログコンピューティングにおけるハードウェアの非理想性の軽減
- 大規模言語モデルのパラメータ増加に伴い，メモリとエネルギー効率が課題となっている。
- アナログインメモリコンピューティングは有望だが，ハードウェアの非理想性によるノイズが性能低下の要因となる。
- ノイズに敏感なモジュールをデジタル演算に割り当てることで，再学習なしにロバスト性を確保すること。
- ノイズに弱い専門家をデジタルで計算し，大部分をAIMCで実行する異種計算フレームワークを提案。
- 最大ニューロンノルムにより識別可能なノイズに敏感な専門家はデジタル演算に割り当てられる。
- DeepSeekMoEやOLMoEなどの大規模言語モデルでの実験により，提案手法の堅牢性が確認された。
Link: https://arxiv.org/abs/2603.02633
SaFeR-ToolKit：マルチモーダル安全のための仮想ツール呼び出しによる構造化推論 [cs.LG]目的：マルチモーダル安全に関する構造化推論の実現
- 画像とテキストを扱うAIモデルの安全性が重要視されている。誤った情報や有害なコンテンツの生成を防ぐ必要がある。
- 既存のAIモデルは，マルチモーダルな攻撃や過剰な拒否反応に対して脆弱であるという課題がある。
- 本研究は，AIモデルの安全性を高めるための新しいフレームワークを提案し，その有効性を検証することを目的とする。
- SaFeR-ToolKitは，安全な意思決定をチェック可能なプロトコルとして形式化し，推論プロセスを構造化する。
- Qwen2.5-VLを用いた実験の結果，SaFeR-ToolKitは安全性，有用性，推論厳密性において大幅な改善が見られた。
- また，一般的な能力を維持しつつ，モデルの性能向上に貢献することが示された。
Link: https://arxiv.org/abs/2603.02635
信頼性ガバナンス：弱い真実シグナル下における集団的自己修正の社会的メカニズム [cs.CY, cs.AI, cs.CL, cs.MA, cs.SI]目的：集団的自己修正のための社会的メカニズム
- オンラインプラットフォームが重要視される中で，意見集約の質が社会資源の配分に影響を与える。
- 既存の評価指標は操作が容易であり，信頼性よりも可視性を重視する傾向がある。
- 変動する証拠を追跡する主体と視点を特定し，影響力を再配分することで問題解決を目指す。
- 信頼性ガバナンス（CG）は，投票や利害関係に基づく既存手法と比較して，真実への収束が速い。
- CGは，誤った初期多数決やノイズ，虚偽情報に対する頑健性を向上させる。
- CGは，過去の依存やロックインを低減し，集団判断の質を高める。
Link: https://arxiv.org/abs/2603.02640
HomeAdam：AdamおよびAdamWアルゴリズムがより良い一般化性能を得るために時折「原点回帰」する [cs.LG, math.OC, stat.ML]目的：深層学習モデルの最適化におけるAdamおよびAdamWアルゴリズムの一般化性能向上
- 深層学習の発展において，最適化アルゴリズムは学習の効率と性能を左右する重要な要素である。
- AdamやAdamWは高速だが，SGDと比較して一般化性能が劣ることが知られている。
- AdamおよびAdamWの理論的な一般化誤差を改善し，より汎化性能の高い最適化手法を開発すること。
- 本研究では，AdamとAdamWの一般化誤差を安定性理論を用いて解析し，改良版Adam(W)-srfの一般化誤差がO(1/(N * ρ^2T))であることを証明した。
- 提案手法HomeAdam(W)は，Adam(W)-srfよりも小さい一般化誤差O(1/N)を持つことを理論的に示した。
- HomeAdam(W)は，Adam(W)-srfよりも高速な収束率O(1/T^(1/4))を達成することも示した。実験結果もその有効性を裏付けている。
Link: https://arxiv.org/abs/2603.02649
エネルギーを用いた自己教師あり行動ゲーティングによる拡散プランナーの改善 [cs.LG, cs.AI, cs.RO]目的：拡散プランナーの性能とロバスト性の向上
- オフライン強化学習は，環境とのインタラクションなしに方策を学習可能にするため重要である。
- 拡散プランナーは，環境ダイナミクスと不整合な軌跡を選択しやすく，実行が不安定になる場合がある。
- 環境ダイナミクスとの一貫性を考慮した行動選択によって，拡散プランナーの性能向上を目指す。
- SAGEは，潜在的な一貫性シグナルを用いて動的に不整合なプランを抑制する，推論時のリランキング手法である。
- SAGEは，Joint-Embedding Predictive Architecture（JEPA）エンコーダーと行動条件付き潜在予測器を訓練する。
- SAGEは，既存の拡散プランニングパイプラインに統合可能であり，環境ロールアウトや方策の再学習は不要である。
Link: https://arxiv.org/abs/2603.02650
AlphaFree：ユーザー，ID，GNNに依存しない推薦システム [cs.IR, cs.AI]目的：ユーザー，ID，GNNに依存しない効果的な推薦手法の開発
- パーソナライズされたコンテンツ配信において，推薦システムは不可欠な役割を担う分野である。
- 従来の推薦システムは，ユーザー埋め込みやID，GNNに依存しており，メモリ消費量やコールドスタート問題，汎化性能の低さといった課題がある。
- 本研究は，これらの依存関係を取り除き，より効率的で高性能な推薦システムの実現を目指す。
- AlphaFreeは，ユーザー埋め込み，ID，GNNを使用せずに，既存手法と比較して優れた性能を示すことが明らかになった。
- 特に，LRを使用しない手法に対しては約40%，LRを使用する手法に対しては約5.7%の改善が見られた。
- また，AlphaFreeはGPUメモリ使用量を最大69%削減できることが示された。
Link: https://arxiv.org/abs/2603.02653
マルチモーダルLLMによるゲーム動画のリアルタイム解説生成：一時停止を考慮したデコーディング手法 [cs.MA, cs.CL, cs.AI]目的：ゲーム動画のリアルタイム解説生成
- スポーツ，eスポーツ，ライブストリーミングなど，動画視聴のアクセシビリティとエンゲージメント向上に貢献する分野である。
- 既存手法は，内容の生成には優れているものの，解説のタイミング制御が不十分である。
- プロンプティングのみで，意味的に適切かつタイミングの良いリアルタイム解説生成を実現する。
- 固定間隔と動的間隔に基づくデコーディング戦略を提案し，ファインチューニングなしに一時停止を考慮した解説生成を可能にした。
- 日本語と英語のデータセットを用いた実験により，動的間隔に基づくデコーディングが人間の発話タイミングと内容により近い解説を生成することが示された。
- リアルタイム動画解説生成研究を支援するため，多言語ベンチマークデータセット，学習済みモデル，実装を公開した。
Link: https://arxiv.org/abs/2603.02655
DREAM：視覚的理解とテキストから画像生成の融合 [cs.CV, cs.LG]目的：視覚表現学習とテキストから画像生成の統合
- マルチモーダル学習の発展には，画像とテキストの情報を効果的に統合することが不可欠である。
- 従来のモデルでは，視覚的理解と画像生成の能力を両立することが困難であった。
- 単一のモデルで両方の能力を達成し，マルチモーダルモデルの性能向上を目指す。
- DREAMは，識別的および生成的な目的関数を同時に最適化する統合フレームワークである。
- Masking Warmupにより，表現学習に必要な対照的なアライメントを確立しつつ，安定した生成訓練を実現している。
- ImageNet線形プローブ精度でCLIPを上回り，FIDスコアもFLUIDより改善しており，多岐にわたるタスクで性能向上が確認された。
Link: https://arxiv.org/abs/2603.02667
SorryDB：AI証明器は実際のLean定理を完成させられるか [cs.AI, cs.LG]目的：現実世界のLean定理の解決可能性の評価
- 形式検証の重要性が増しており，数学の厳密性を保証する上で不可欠である。
- 既存のベンチマークは静的で，実際の数学プロジェクトのニーズに合致していない場合がある。
- 実際の形式化プロジェクトにおけるAIの貢献度を測定し，実用的なツール開発を促進する。
- SorryDBは，GitHub上の78の形式化プロジェクトから抽出された未解決のLeanタスクの動的に更新されるベンチマークである。
- 現状のAIアプローチは補完的であり，Gemini Flashに基づくエージェント型アプローチが最も高性能だが，他の手法も遜色ない。
- SorryDBは，テストセット汚染を軽減し，新しい形式数学プロジェクトへの貢献能力を評価する上で堅牢な指標となる。
Link: https://arxiv.org/abs/2603.02668
浅いところから深いところへ：因果的GRPOによる意味意図の固定 [cs.RO, cs.LG]目的：敵対的プレフィックス攻撃に対するLLMの脆弱性克服
- LLMの安全性確保は重要であり，悪意あるプロンプトへの耐性が求められる。
- LLMは表面的な安全対策では，巧妙な攻撃に弱く，意図が希薄になる問題がある。
- 意味意図の固定により，LLMが有害なトークンを累積することへの抵抗力を高める。
- 提案手法であるTSC-GRPOは，因果的識別理論に基づき，意図と様式を分離する。
- 累積的な因果的ペナルティを用いることで，有害トークンの蓄積が報酬を低下させることを学習させる。
- 実験により，TSC-GRPOが既存手法を上回り，汎用性を維持しつつ，ジェイルブレイク攻撃への防御性能が向上することが示された。
Link: https://arxiv.org/abs/2603.02675
ITLC，SemEval-2026タスク11における：LLMの形式的推論のための正規化と決定論的構文解析 [cs.CL, cs.AI]目的：大規模言語モデルにおける推論におけるコンテンツ効果の軽減
- 言語モデルの推論能力向上は，AIの信頼性向上に不可欠である。
- 多言語環境下で，言語モデルがコンテンツの影響を受けやすいという課題がある。
- 三段論法を標準論理表現に変換し，決定論的構文解析を行うことで，この影響を軽減することを目指す。
- SemEval-2026タスク11の全サブタスクにおいて，上位5位の成績を収めた。
- コンテンツ効果を大幅に低減し，複雑なファインチューニングや活性化レベル介入に匹敵する性能を示した。
- 明示的な構造的抽象化により，多言語環境におけるバイアスを効果的に抑制することが示された。
Link: https://arxiv.org/abs/2603.02676
因果学習は群衆の知恵を取り入れるべきである [cs.LG, cs.ET, cs.HC, stat.ME, stat.ML]目的：因果構造の復元
- 因果推論は科学的発見や意思決定において不可欠であり，社会における様々な課題解決に貢献しうる。
- 観測データからの因果構造学習は，可能なグラフの組み合わせ爆発と観測の曖昧さにより困難である。
- 個々の知識が不完全な複数主体からの情報を統合し，単独では達成できない因果構造の復元を目指す。
- 本研究では，因果学習を分散意思決定タスクとして捉え，大規模なクラウドソーシングやLLMを活用する新しいパラダイムを提案する。
- 専門家の知識やLLMによるシミュレーションを統合することで，より正確でロバストな因果構造の学習が可能となる。
- 知識の抽出，モデル化，集約，最適化に関する研究を促進する包括的なフレームワークを示す。
Link: https://arxiv.org/abs/2603.02678
高頻度意思決定のためのLLM：正規化された行動報酬による一貫性ポリシー最適化 [cs.NI, cs.CY, cs.AI]目的：高頻度意思決定タスクにおけるLLMの性能向上
- LLMは逐次意思決定エージェント開発の基盤技術であり，その活用が期待されている。
- 高頻度意思決定タスクにおいて，LLMは状態情報の頻繁な更新に対応できず，性能が制限される。
- 行動報酬の正規化と一貫性損失により，LLMのポリシーミスマッチを軽減し，高頻度意思決定を改善する。
- 提案手法NAR-CPは，環境からの報酬に基づいて報酬を正規化し，最適なポリシーを維持することを理論的に保証する。
- LLMを用いて部分観測からの行動候補を推論し，一貫性損失によりグローバルなポリシーと部分的なポリシー間の整合性を確保する。
- UAV追跡実験の結果，提案手法は独立タスクおよび複合タスクにおいて優れた性能を示し，未知のタスクへの優れた汎化性能を発揮する。
Link: https://arxiv.org/abs/2603.02680
検索・推論・行動による検索拡張型ロボット [eess.SY, cs.SY, cs.AI, cs.RO]目的：ロボットの汎用的な有用性の実現
- ロボットの応用範囲拡大には，新しい知識獲得手段が不可欠である。
- 既存手法では，複雑なタスク手順の知識を外部から獲得することが困難である。
- 外部ドキュメントから手順知識を獲得し，ロボットの行動計画に活用する。
- ロボットは，外部の視覚的な手順書を検索し，3D環境に情報を適用することで計画を生成する。
- 検索された視覚ドキュメントに基づくロボット計画は，既存手法よりも高い性能を示す。
- 本研究は，情報検索の範囲をクエリ応答から物理的な行動へと拡張する基盤を確立する。
Link: https://arxiv.org/abs/2603.02688
低品質マルチモーダルデータに対する統一的なモダリティ品質フレームワーク [cs.LG]目的：低品質データにおけるモデルの頑健性向上
- 現実世界のデータはノイズや欠損を含むことが多く，その利用を困難にしている。
- 既存研究では，ノイズと欠損を別々に扱うため，汎用的な解決策が不足している。
- ノイズと欠損を統合的に扱い，マルチモーダル感情分析の性能向上を目指す。
- 提案手法は，ランキング制約を用いた品質推定器により，ノイズの影響を軽減する。
- 各モダリティに対し，他のモダリティの情報とベースライン表現を用いて品質向上モジュールを構築する。
- 品質を考慮した専門家混合モジュールにより，多様な品質問題をより具体的に解決する。
Link: https://arxiv.org/abs/2603.02695
ShareVerse：共有ワールドモデリングのためのマルチエージェント一貫性のあるビデオ生成 [eess.SY, cs.SY, cs.CV, cs.AI]目的：マルチエージェント共有ワールドモデリング
- 現実世界の理解とシミュレーションは，ロボティクスや自動運転などの分野で不可欠である。
- 既存の手法では，マルチエージェント間のインタラクションを伴う統一的な共有ワールド構築が困難である。
- マルチエージェントのインタラクションを考慮した，一貫性のある共有ワールドモデリングを実現すること。
- ShareVerseは，大規模ビデオモデルの生成能力を活用し，マルチエージェント共有ワールドモデリングを実現する。
- CARLAシミュレーションプラットフォーム上に，多様なシーンとエージェントのインタラクションを含む大規模データセットを構築した。
- エージェント間アテンションブロックを導入することで，空間的・時間的情報の伝達を可能にし，共有ワールドの一貫性を保証する。
Link: https://arxiv.org/abs/2603.02697
FinTexTS：意味ベースおよび多層ペアリングによる金融テキスト・時系列データセット [cs.CL, cs.AI, cs.LG]目的：金融テキストと時系列データのペアリングによる株価予測の精度向上
- 金融分野では，時系列分析が重要であり，テキスト情報と数値情報の統合が注目されている。
- 既存手法は，キーワードマッチングが中心で，金融市場の複雑な相互依存関係を捉えきれていない。
- 意味ベースかつ多層的なペアリングにより，より質の高いデータセットを構築し，予測精度を向上させる。
- FinTexTSデータセットを構築し，株価予測において意味ベースと多層ペアリングの有効性を示した。
- 公開ニュースデータに加え，独自ニュースソースを用いることで，データ品質と予測性能が向上することを確認した。
- LLMを活用し，ニュース記事をマクロ，セクター，関連企業，対象企業の4段階で分類する多層ペアリングを実現した。
Link: https://arxiv.org/abs/2603.02702
視覚言語深層学習モデルによる妊娠性栄養細胞疾患の知能的病理診断 [cs.CV, cs.AI]目的：妊娠性栄養細胞疾患の病理診断における専門家モデルの開発
- 妊娠性栄養細胞疾患は母体の健康と生殖成果に重大な影響を及ぼすため，正確かつ迅速な診断が重要である。
- 従来の病理診断は専門医の経験に依存し，診断の一貫性が低いという課題があった。
- 本研究は，病理診断の精度と効率を向上させ，臨床解釈可能性を維持することを目的とする。
- 開発したGTDiagnosisは，病理スライドにおける病変検出において平均精度0.91以上を達成した。
- 前向き臨床試験において，GTDiagnosis使用による陽性的中率が95.59%であった。
- 診断時間がケースあたり平均56秒から16秒に短縮され，診断効率が大幅に向上した。
Link: https://arxiv.org/abs/2603.02704
レビューからの感覚属性抽出による感覚を考慮した系列推薦 [cs.CY, cs.CL, cs.AI]目的：製品レビューから抽出された感覚属性を用いて，アイテム表現を豊かにすること
- 推薦システムは，ユーザーのニーズに合ったアイテムを提案し，情報過多の状況下で重要な役割を担う。
- 従来の推薦システムは，主に購買履歴などの行動データに依存し，アイテムの感覚的な側面を考慮していない。
- 本研究は，レビューから感覚属性を抽出し，推薦精度向上と解釈性の向上を目指す。
- 大規模言語モデルを用いてレビューから感覚属性を抽出し，コンパクトな埋め込み表現を生成する。
- 生成された感覚埋め込みを系列推薦モデルに組み込むことで，推薦性能が向上することを確認した。
- 抽出された属性は人間の製品認識と一致し，自然言語と推薦行動間の解釈可能な関係を確立できる。
Link: https://arxiv.org/abs/2603.02709
感情的政治分極の研究に対する自然言語エージェント的アプローチ [cs.AI]目的：感情的政治分極のシミュレーションと分析
- 政治や社会における感情的政治分極は重要であり，特にソーシャルメディア上での影響が注目されている。
- 実証研究は範囲が限定的であり，シミュレーション研究は高品質な学習データ不足に悩んでいる。
- 感情的政治分極の定義の差異を克服し，比較可能な研究フレームワークを構築することを目指す。
- 大規模言語モデルを活用したマルチエージェントモデルにより，ソーシャルメディアにおける感情的政治分極を包括的に研究するプラットフォームを開発した。
- 本プラットフォームを用いて，感情的政治分極に関する社会科学の既存研究を検証し，新たな視点を提供した。
- 異なる粒度や抽象度で分極を観察・測定するためのシナリオを導入し，プラットフォームの柔軟性を実証した。
Link: https://arxiv.org/abs/2603.02711
マルチモーダル臨床状態分類におけるキャリブレーションと選択的予測の経験的分析 [cs.LG]目的：マルチモーダル臨床状態分類における不確実性に基づく選択的予測の信頼性
- 臨床現場へのAI導入が進む中，安全性確保のため信頼性評価が不可欠である。
- 選択的予測の性能評価指標は，状況によっては誤った判断を招く可能性がある。
- マルチモーダル臨床状態分類における選択的予測の失敗要因を特定し，評価方法の改善を目指す。
- 標準的な評価指標では選択的予測の性能劣化が見過ごされやすい。
- 特に，少数派の臨床状態において，モデルの不確実性推定が誤っていることが判明した。
- 臨床AIの安全性と堅牢性を保証するため，キャリブレーションを考慮した評価が重要である。
Link: https://arxiv.org/abs/2603.02719
補聴器向け，シミュレーションされた伝達関数に基づく単一マイクロホンによる自声検出 [cs.SD, cs.LG]目的：補聴器における自声検出の実現
- 聴覚補助具の性能向上は，生活の質を大きく左右するため，重要な研究分野である。
- 既存の自声検出技術は，複数のマイクロホンやセンサーを必要とし，装置の複雑化やコスト増加を招いている。
- 本研究は，コストのかかる伝達関数測定を必要とせずに，機械学習に基づく自声検出を可能にすることを目的とする。
- 解析的に生成された伝達関数と数値シミュレーションされた伝達関数を用いた段階的な学習により，モデルの空間認識能力を向上させた。
- シミュレーションされた頭部・胴体データを用いた実験で95.52%の精度を示し，1秒の短い音声でも90.02%の精度を維持した。
- 実際の補聴器録音では，ファインチューニングなしで80%の精度を達成し，シミュレーションから実世界への汎化能力を示した。
Link: https://arxiv.org/abs/2603.02724
ノイズ下における低チューブランクテンソル回復における小初期値の力 [cs.LG, math.OC, stat.ML]目的：ノイズを含む線形測定から低チューブランクテンソルを回復すること
- テンソル分解は，高次元データの効率的な表現と処理に不可欠であるため，様々な応用分野で重要視されている。
- 過剰パラメータ化された設定では，ノイズの影響で回復誤差が過剰パラメータの大きさに比例して増大するという問題がある。
- 小初期値を用いることで，過剰パラメータ化された設定下でも最適な回復誤差を達成し，理論的な保証を提供する。
- 小初期値を用いることで，FGDは過剰推定されたチューブランクRに対して，ほぼミニマックス最適に近い回復誤差を達成することが示された。
- 提示された4段階のアナリティカルフレームワークにより，この現象が解析され，過剰推定されたチューブランクRに依存しない，これまでで最も鋭い既知のエラー境界が確立された。
- また，早期停止戦略が理論的に保証され，実用上も最良の結果を達成することが示された。シミュレーションと実データ実験によって理論的発見が検証された。
Link: https://arxiv.org/abs/2603.02729
Hopper GPUにおける大規模MoEモデルのFP4実用的な訓練 [cs.IR, cs.LG, cs.AI]目的：大規模MoEモデルのHopper GPU上でのFP4訓練の実現
- 大規模言語モデルの発展に伴い，モデルの規模拡大が求められている。
- 大規模MoEモデルの訓練では，活性化メモリとエキスパート並列通信がボトルネックとなる。
- ネイティブなFP4サポートがない環境下でも，FP4による効率的な訓練を可能にすること。
- 本研究では，ネイティブFP4サポートなしで，MoEモデルにおけるMXFP4効率を実現するための訓練手法を提案した。
- FP8-to-FP4量子化と脱量子化，およびスケーリングを考慮したFP4行列変換を導入することで，オーバーヘッドを最小限に抑えた。
- 6710億パラメータ規模で，FP8ベースラインと同等の性能を達成し，ピーク活性化メモリを14.8%削減，GPUあたりのトークン生成速度を12.5%向上させた。
Link: https://arxiv.org/abs/2603.02731
ビームベースMU-MIMOを用いたマルチパネルmmWave無線アクセスネットワークにおけるユーザーのスループット向上：深層強化学習法 [cs.IT, cs.AI, cs.LG, math.IT]目的：マルチパネルmmWave無線アクセスネットワークにおけるユーザーのスループット向上
- mmWave通信は高速・大容量通信を実現する技術であり，5G/6Gなどの次世代通信システムにおいて重要である。
- ビーム選択と管理の複雑さから，mmWave MU-MIMOシステムではユーザーのスループット最適化と低遅延化が課題となっている。
- 本研究は，動的なビーム選択と管理の複雑さを軽減し，ユーザーのスループットを向上させることを目指す。
- 提案手法は，異なるアンテナパネル間のビームのクロス相関，RSRP，ビーム利用統計を組み込むことで，空間領域の特徴を活用する。
- シミュレーション結果から，提案手法は従来のビーム管理と比較して，最大16%のスループット向上と3～7倍の遅延削減を達成することが示された。
- 深層強化学習を用いることで，リアルタイムな観測に基づいた動的なビームフォーミング決定を最適化し，スペクトル効率の向上を実現した。
Link: https://arxiv.org/abs/2603.02745
iGVLM：質問対応マルチモーダル理解のための動的指示駆動型視覚エンコーディング [cs.CV, cs.AI]目的：質問応答における視覚情報の活用方法の改善
- 視覚と言語を組み合わせたAIモデルは，様々な応用が期待されている。
- 既存モデルは，視覚エンコーダが固定化されており，指示に応じた柔軟な処理が困難である。
- 指示に基づいて視覚情報を動的に調整し，より高度な推論を可能にすること。
- iGVLMは，視覚情報を固定的に利用するのではなく，指示に応じて変化させることで，精度向上を実現した。
- 提案手法は，既存のバックボーンモデルに容易に組み込むことができる。
- MM4という新しい評価指標を用いることで，論理的な整合性を定量的に評価した。
Link: https://arxiv.org/abs/2603.02748
深層学習誘導進化最適化によるタンパク質設計 [cs.LG, q-bio.QM, stat.ML]目的：タンパク質設計のための深層学習誘導進化最適化フレームワーク
- タンパク質は生命活動に不可欠であり，医療やバイオテクノロジーへの応用が期待される。
- タンパク質配列空間は広大であり，配列と機能の関係が複雑であるため，目的とする特性を持つ新規タンパク質設計は困難である。
- 効率的な配列探索により，特定の設計基準を満たす配列を発見し，タンパク質設計を加速することを目指す。
- ベイズ最適化と遺伝的アルゴリズムを組み合わせたBoGAフレームワークを開発し，データ効率の高い最適化を可能にした。
- BoGAは，配列および構造設計タスクにおいて，従来法よりも優れた性能を示した。
- 肺炎球菌の病原性因子であるpneumolysinに対するペプチドバインダー設計において，高信頼度のバインダーを効率的に発見した。
Link: https://arxiv.org/abs/2603.02753
構造層化較正による時系列ドメイン汎化の再考 [cs.LG]目的：時系列ドメイン汎化における構造的整合性の確立
- 時系列データは現実世界の様々な分野で重要であり，汎化性能の向上が求められている。
- 既存手法はデータ間の構造的差異を無視し，誤った対応関係を学習しやすい。
- 構造的な差異を考慮した較正により，ドメイン間の負の転移を軽減し汎化性能を向上させる。
- 提案手法は，構造的に整合性の高いサンプルを識別し，それらに対してのみ振幅較正を行う。
- この簡潔かつ効率的な較正戦略により，既存手法を大幅に上回る性能を19の公開データセットで達成した。
- 構造的な整合性を優先したアラインメントが，時系列ドメイン汎化の信頼性と有効性を高めることが示された。
Link: https://arxiv.org/abs/2603.02756
拡散言語モデルの系列再生成による効率的な自己評価 [cs.CL, cs.AI]目的：拡散言語モデルにおける自己評価の信頼性向上
- 言語モデルの多様性，制御性，並列性の向上が求められており，拡散言語モデルが注目されている。
- 拡散言語モデルの非逐次的な生成方法は，品質評価を困難にするという課題がある。
- 生成された系列のトークンを再生成する確率に基づき，効率的な自己評価手法を確立する。
- 提案手法DiSEは，系列全体のトークンを再生成する確率を計算することで，拡散言語モデルの信頼性を定量化する。
- DiSEは，系列長を動的に制御する柔軟な生成フレームワークを可能にし，モデルの自己評価に基づいた生成を支援する。
- 実験により，DiSEのスコアと意味的な一貫性，回答の正確性が正の相関関係にあることが示された。
Link: https://arxiv.org/abs/2603.02760
次ステップ埋め込み予測がワールドモデルを強化する [cs.LG, cs.AI]目的：部分観測，高次元領域におけるモデルベース強化学習のための時間的依存性の獲得
- 強化学習は，複雑な環境下での最適な行動戦略を学習する上で重要である。
- 部分観測環境では，過去の情報に基づいて状態を推測する必要がある。
- 表現空間における時間的予測整合性を直接最適化する手法を開発すること。
- NE-Dreamerは，デコーダーを使用せずに，潜在状態シーケンスから次ステップのエンコーダー埋め込みを予測する。
- DeepMind Control Suiteにおいて，DreamerV3や他の主要なデコーダーフリーエージェントと同等またはそれ以上の性能を達成した。
- 記憶力と空間推論を要するDMLabタスクの困難なサブセットにおいて，著しい改善が見られた。
Link: https://arxiv.org/abs/2603.02765
EvoSkill：マルチエージェントシステムにおける自動スキル発見 [cs.AI, cs.MA]目的：マルチエージェントシステムのためのスキル自動発見
- 複雑な問題解決において，AIエージェントの活用が重要視されている。
- 既存のスキルは手動で作成されており，汎用性や適応性に課題がある。
- エージェントが自律的にスキルを獲得し，問題解決能力を高めることを目指す。
- EvoSkillは，反復的な失敗分析を通じてエージェントのスキルを自動的に発見・改良するフレームワークである。
- OfficeQAベンチマークで，EvoSkillは正解率を7.3％向上させた (60.6％ → 67.9％)。
- SealQAで進化したスキルは，BrowseCompにゼロショット転移し，精度を5.3％向上させた。
Link: https://arxiv.org/abs/2603.02766
複数のアラインメントと学習時融合による画像とテキストの統合 [cs.CV, cs.AI]目的：画像とテキストの表現学習におけるモダリティ間のギャップの解消
- 画像認識技術は，多様な応用分野で不可欠であり，その性能向上は重要課題である。
- 既存手法では，画像とテキストの表現がモダリティごとに分離し，統合的な理解が困難である。
- 多様な対応関係の探索と学習時の融合により，モダリティ間の構造的な相互作用を強化する。
- ITOは，画像分類，検索，マルチモーダルベンチマークにおいて，既存の強力なベースラインを上回る性能を示した。
- 複数のアラインメントが識別能力を高め，学習時融合がモダリティ間のギャップを解消し，学習の安定化に貢献する。
- 推論時には融合モジュールを削除することで，標準的なデュアルエンコーダの効率性を維持している。
Link: https://arxiv.org/abs/2603.02767
ソルバーからチューターへ：KMP-Benchを用いたLLMの教育的知性の評価 [cs.AR, cs.RO, cs.IR, cs.CL, cs.LG]目的：大規模言語モデル（LLM）の数学教育における教育的知性の評価
- AI技術の教育応用は，個別最適化された学習体験を提供し，教育の質向上に貢献しうる。
- 既存のLLM評価は単純な指標に依存し，多岐にわたる教育的シナリオにおける効果を十分に捉えられていない。
- LLMの教育的知性を包括的に評価し，より効果的なAI数学チューターの開発を目指す。
- KMP-Benchは，K-8数学教育の6つの原則に基づき，LLMの対話型教育能力を評価するベンチマークである。
- 評価の結果，LLMは解明可能な問題には優れるものの，教育原則の応用には課題があることが示された。
- KMP-Pileでファインチューニングされたモデルは，KMP-Benchにおいて大幅な改善が見られ，教育的データの重要性が確認された。
Link: https://arxiv.org/abs/2603.02775