arXiv雑要約

AI - 2026/04/21 公開

OpenVLThinkerV2：マルチドメイン視覚タスクのための汎用マルチモーダル推論モデル [cs.CV, cs.AI, cs.CL]目的：マルチドメイン視覚タスクにおける汎用マルチモーダル推論モデルの開発
- マルチモーダル大規模言語モデルは多様な応用が可能であり，視覚情報と言語情報の統合が重要視されている。
- 既存手法では，多様な視覚タスクにおける報酬のばらつきや，詳細な知覚と多段階推論のバランスが課題となっていた。
- 報酬のばらつきを抑制し，知覚と推論のバランスを調整することで，より安定した学習を実現することを目指す。
- 提案手法G$^2$RPOは，標準正規分布への利点分布の収束を数学的に強制することで，タスク間の勾配公平性を確保し，外れ値の影響を軽減する。
- 応答長とエントロピーを調整するタスクレベルの形状化メカニズムを導入することで，知覚と推論のバランスをシームレスに調整した。
- OpenVLThinkerV2は，18の多様なベンチマークにおいて，オープンソースおよび商用モデルと比較して優れた性能を示した。
Link: https://arxiv.org/abs/2604.08539
StructRL：分布強化学習における学習ダイナミクスからの動的計画法構造の復元 [cs.LG, cs.AI]目的：分布強化学習の学習ダイナミクスから動的計画法構造を復元すること
- 強化学習は重要な技術であり，ロボティクスやゲームなど，様々な分野での応用が期待されている。
- 従来の強化学習はデータ駆動型であり，状態空間における構造的な情報を活用できていない。
- 学習ダイナミクスから動的計画法のような構造を復元し，効率的な学習を目指す。
- 分布強化学習の学習過程における収益分布の時間変化を分析することで，学習の発生場所とタイミングを特定した。
- 状態の学習更新が最も強いタイミングを示す指標t*(s)を導入し，状態間の順序付けが可能であることを示した。
- 指標t*(s)によって誘導される状態の順序が，動的計画法における情報伝播と一致することを確認した。
Link: https://arxiv.org/abs/2604.08620
フィードバック空間における探索としてのモデル空間推論：プランニングドメイン生成 [cs.AI]目的：プランニングドメイン生成の質の向上
- プランニングドメインは，AIにおける問題解決の基盤であり，その自動生成は効率化に不可欠である。
- 大規模言語モデルではドメイン生成を支援できるものの，実用レベルの質の高いドメインを生成するには至っていない。
- モデル空間探索を通じて，象徴的なフィードバックを活用し，ドメイン生成の質を最適化することを目指す。
- 言語モデルのフィードバックフレームワークとモデル空間探索を組み合わせることで，プランニングドメイン生成の質を向上させることができた。
- ランドマークやVALプランバリデータからのフィードバックが，生成ドメインの品質に大きく影響することが示された。
- 少ない象徴的な情報追加によって，より実用的なプランニングドメイン生成が可能となることを実証した。
Link: https://arxiv.org/abs/2604.08712
Persona-E$^2$: テキスト事象に対する性格に基づいた感情反応のための人間によるデータセット [cs.CL, cs.AI, cs.HC]目的：性格特性と感情の変化の関連性
- 感情計算は，テキストの感情を静的な特性として扱い，読者の性格による感情評価の違いを無視してきた。
- 既存のLLMは表面的なステレオタイプに頼り，性格に基づいた自然な感情変化を再現できていない。
- 性格特性と感情の変化を結びつける，人間による実データを用いてこの問題を解決することを目指す。
- 大規模データセットPersona-E$^2$を構築し，MBTIとBig Fiveの性格特性に基づいた感情変化を捉えた。
- 最先端のLLMは，特にソーシャルメディアにおいて，正確な感情評価の変化を捉えるのに苦戦していることがわかった。
- 性格情報，特にBig Fiveの特性は，感情理解を向上させ，「性格の錯覚」を軽減するのに有効である。
Link: https://arxiv.org/abs/2604.09162
非有界領域における高次元グロス・ピタエフスキー方程式に対する確率的次元固定サンプリングニューラルネットワーク [cs.LG]目的：高次元グロス・ピタエフスキー方程式の解法
- 量子多体系問題の記述に不可欠であり，ボース・アインシュタイン凝縮などの現象を理解する上で重要である。
- 高次元空間での計算コストが指数関数的に増加し，効率的な数値解法の開発が課題である。
- 高次元空間における計算コストを抑えつつ，高精度な解を得ることを目指す。
- 確率的次元固定サンプリングニューラルネットワーク(SD-FSNN)が，既存手法と比較して優れた性能を示すことが実験的に確認された。
- SD-FSNNは，計算複雑度を線形から次元非依存に低減し，学習時間と精度を向上させる。
- 空間・時間分離戦略と制約条件の導入により，数値的安定性と物理的性質の保存を両立している。
Link: https://arxiv.org/abs/2604.09361
レイをピクセルとして：動画とカメラ軌跡の同時分布学習 [cs.CV, cs.AI, cs.LG]目的：動画とカメラ軌跡の同時分布
- コンピュータビジョンやグラフィックスにおいて，映像理解と3D空間の再構成は不可欠である。
- 映像が不十分な場合，カメラパラメータ推定とシーン再現は相互に依存し，課題となる。
- 単一のフレームワークでカメラ姿勢予測とカメラ制御による動画生成を同時に実現する。
- 本研究では，動画とカメラ軌跡を同時に学習するVideo Diffusion Model（VDM）を提案した。
- カメラを，動画フレームと同じ潜在空間に存在する「ラクセル」と呼ばれる高密度な光線ピクセルとして表現する。
- 提案手法は，カメラ軌跡予測，動画生成，そして同時合成の3つのタスクを単一のモデルで処理可能であることを示した。
Link: https://arxiv.org/abs/2604.09429
モデル非依存型XAI手法のEU AI法遵守性要件に対する評価 [cs.CY, cs.AI]目的：EU AI法における説明可能性要件とモデル非依存型XAI手法の解釈特性との関連性
- AIの社会実装が進む中，透明性や説明責任が重要視されており，法的規制も整備されつつある。
- 既存のXAI手法と法規制のギャップが大きく，EU市場での法規制遵守のための明確な指針が不足している。
- XAI手法が法的な説明責任要件を充足できるか評価し，課題を明らかにすること。
- XAI手法の解釈特性をEU AI法の要件と関連付け，法規制遵守性を評価する枠組みを提案した。
- 定性的な専門家評価を集約し，規制に特化した遵守スコアを算出することで，法的な説明責任要件への適合性を判断可能とした。
- さらなる研究や規制の明確化が必要な技術的な課題を明らかにすることに貢献する。
Link: https://arxiv.org/abs/2604.09628
量子特徴写像を用いた物理情報ニューラルネットワークによるバッテリー健全性予測 [cs.CE, cs.LG]目的：バッテリー健全性予測の精度向上
- 多規模バッテリーエネルギー貯蔵の信頼性確保は重要であり，バッテリーの健全性予測が不可欠である。
- 既存手法は，バッテリーの化学組成や動作条件によって汎用性に乏しいという課題がある。
- バッテリー劣化の複雑な物理現象を捉え，より高精度な健全性予測を実現することを目的とする。
- 提案手法は，様々なデータセットで平均99.46％という高いSOH推定精度を達成した。
- MAPEとRMSEは最先端手法と比較して，それぞれ最大65％と62％減少した。
- 異なるバッテリー化学組成間でのクロスバリデーションにおいても高い適応性を示した。
Link: https://arxiv.org/abs/2604.10362
グリーンウェアラブルコンピューティングに向けた物理制約を考慮したスパイクニューラルネットワークによるエネルギー効率の高いIMUベース活動認識 [cs.CL, cs.CL, cs.LG, cs.AI, cs.HC]目的：ウェアラブルIMUベース活動認識のためのエネルギー効率向上
- ウェアラブルデバイスの普及に伴い，低消費電力な活動認識技術の重要性が高まっている。
- 深層ニューラルネットワークは計算負荷が高く，バッテリー駆動のウェアラブルデバイスへの搭載が困難である。
- スパイクニューラルネットワークの利点を活かし，ウェアラブルデバイス向けの低消費電力な活動認識を実現する。
- 提案手法PAS-Netは，物理制約を考慮したネットワーク構造と，動的な閾値調整により，高い認識精度を達成した。
- 特に，初期終了メカニズムにより，エネルギー消費を最大98%削減することに成功した。
- PAS-Netは，常にオン状態のウェアラブルセンシングのための，堅牢かつ超低電力なニューロモーフィック標準を確立する。
Link: https://arxiv.org/abs/2604.10458
エントロピーに基づくランタイムチャンクスケジューリング：選択的スキャンカーネル向け [cs.CV, cs.AI]目的：選択的スキャンカーネルにおけるランタイムチャンクスケジューリング
- 系列モデルの高速化は，自然言語処理をはじめとする様々な分野で重要である。
- Mambaのような選択的SSMはメモリ帯域幅に制限されることが多く，中間テンソルのマテリアライズがボトルネックとなる。
- アクティベーションのエントロピーに基づいてチャンクサイズを動的に調整し，メモリ帯域幅の効率を改善する。
- エントロピーに基づくチャンク分割が，代用レイテンシとDRAMトラフィックを削減することが示された。
- エントロピー計算とチャンク選択のオーバーヘッドは，Mamba-370Mにおいて約2〜8.3%と計測された。
- COREYは，オフラインでのプロファイリングなしに，最適なチャンクサイズを選択し，最大4.41倍の高速化を達成した。
Link: https://arxiv.org/abs/2604.10597
因果に基づいたChain-of-Thought推論の信頼性評価: FACT-E [cs.AI]目的：Chain-of-Thought推論における信頼性評価手法の開発
- 大規模言語モデルの推論能力向上は重要だが，説明の根拠の信頼性が課題となっている。
- 既存の自己評価手法は，一貫性ばかりを重視し，論理的な妥当性を十分に評価できていない。
- 因果関係に着目し，中間ステップの妥当性を厳密に評価することで信頼性の高い推論経路を選定する。
- FACT-Eは，制御された摂動を用いることで，ステップ間の真の依存関係とバイアスを分離し，信頼性の高い評価を実現する。
- FACT-Eは，内部整合性と最終解答との一貫性を同時に考慮することで，信頼できる推論経路を選定する。
- GSM8K，MATH，CommonsenseQAでの実験により，FACT-Eが推論経路の選択とIn-Context Learningの性能向上に貢献することが示された。
Link: https://arxiv.org/abs/2604.10693
建築に依存しないモダリティ分離型ゲート付き融合による，堅牢な多モーダル前立腺MRIセグメンテーション [cs.CV, cs.AI]目的：多モーダル前立腺MRIセグメンテーションにおける，モダリティ間の融合手法の改善
- 前立腺MRIは，前立腺がんの非侵襲的検出に不可欠であり，高精度なセグメンテーションが重要である。
- 拡散強調画像は，T2強調画像と比較して，撮像変動やアーチファクトの影響を受けやすく，融合が困難である。
- 本研究は，拡散強調画像の不安定性に対するロバスト性を高め，臨床利用可能なセグメンテーションを可能にする。
- 提案手法MIGFは，UNet，nnUNet，Mambaなどの様々なバックボーンにおいて，セグメンテーション精度を向上させた。
- 特に，拡散強調画像やADCの劣化に対する耐性が向上し，MIGFNet-nnUNetは0.7304 +/- 0.056の最高性能を達成した。
- 外部評価では，ADCマップの機関間不一致が性能低下の原因であり，MIGFによるモダリティ分離がその影響を軽減することが示された。
Link: https://arxiv.org/abs/2604.10702
Deep-Reporter：根拠に基づいたマルチモーダル長文生成のための深層調査 [cs.CL, cs.AI, cs.IR]目的：マルチモーダル長文生成のための深層調査
- 専門的なレポート作成には，テキスト情報だけでなく，画像などのマルチモーダルな証拠が不可欠である。
- 既存の検索フレームワークはテキスト中心であり，マルチモーダルな証拠の活用が不十分である。
- マルチモーダルな情報を活用し，根拠に基づいた長文生成を可能にすることを目的とする。
- Deep-Reporterは，テキストと画像の検索・フィルタリング，チェックリストによる統合，文脈管理を統合したフレームワークである。
- 8000件の高品質なエージェント実行軌跡と，247件の研究タスクを含むテストベッドM2LongBenchを開発した。
- マルチモーダル選択と統合が課題であり，ポストトレーニングによって改善が可能であることを示した。
Link: https://arxiv.org/abs/2604.10741
ATANT v1.1：記憶，長文脈，エージェントメモリのベンチマークに対する継続性の評価 [cs.IR, cs.IR, cs.AI, cs.IR]目的：継続性評価の現状分析と，既存のメモリ評価ベンチマークとの差異の明確化
- 大規模言語モデルの性能向上には，一貫性のある応答生成能力の評価が不可欠である。
- 既存のメモリ評価ベンチマークは，継続性という概念を十分に捉えられていない。
- ATANT v1.0で定義された継続性の概念と，既存ベンチマークの評価能力のギャップを明確にする。
- ATANT v1.0で定義された継続性の7つの要素に対し，既存のベンチマークの平均的なカバー率は0.43にとどまる。
- LOCOMOベンチマークの参照実装には，23%のデータがスコアリング不可能となるバグが存在することが判明した。
- LOCOMOスコア（8.8%）とATANTスコア（96%）の大きな乖離は，両ベンチマークが異なる能力を測定している証拠となる。
Link: https://arxiv.org/abs/2604.10981
EmergentBridge: 統一マルチモーダル埋め込みモデルにおけるゼロショットクロスモーダル転移の改善 [cs.AI]目的：統一マルチモーダル埋め込み空間におけるゼロショット転移性能の向上
- クロスモーダル検索やゼロショット認識など，実用的な応用を支える基盤技術である。
- ペアの揃ったデータが限られる場合，未ペアのペア間の接続が弱く，ゼロショット転移性能が低下する。
- ペアデータ収集の負担を軽減しつつ，新たなタスクへの汎化能力を高めることを目指す。
- EmergentBridgeは，既存手法と比較して，ゼロショット分類および検索タスクにおいて一貫して高い性能を示す。
- 勾配干渉を抑制し，既存のアンカーアライメント構造を維持しながら，非アンカー接続を強化する。
- 様々なモダリティとデータセットにわたる実験により，EmergentBridgeの有効性が確認された。
Link: https://arxiv.org/abs/2604.11043
FlowCoMotion：トークン潜在フローモデリングによるテキストからのモーション生成 [cs.CV, cs.AI]目的：テキストからのモーション生成
- 人間のような自然な動きの自動生成は，バーチャルリアリティやロボット工学など様々な分野で重要視されている。
- 従来の技術では，モーションの表現方法が連続か離散かによって，意味と動きの細部の表現に課題があった。
- 意味とモーションの詳細を両立させ，より自然で高品質なモーション生成を実現することを目指している。
- FlowCoMotionは，連続と離散の表現方法を統合し，トークン潜在結合によって意味内容と詳細なモーションを捉える。
- 多視点蒸留による潜在空間の正則化と，離散的時間分解能量子化による高レベルな意味的ヒント抽出を組み合わせる。
- 実験結果から，FlowCoMotionがHumanML3DやSnapMoGenといったベンチマークで競争力のある性能を発揮することが示された。
Link: https://arxiv.org/abs/2604.11083
解答から議論へ：トゥールミン誘導カリキュラム目標条件付き学習による信頼性の高い臨床診断推論に向けて [cs.AI, cs.LG]目的：信頼性の高い臨床診断推論のためのフレームワークと学習パイプライン
- 医療現場では，患者の安全と専門家としての責任のため，透明性の高い意思決定が不可欠である。
- 現在のLLMは，正解を導き出す過程に誤りがある場合があり，臨床応用における信頼性が課題となっている。
- LLMに，トゥールミンモデルに基づいた明確な根拠を示す診断推論を生成させる学習方法を開発する。
- 本研究では，臨床診断プロセスにトゥールミンモデルを適用したフレームワークを確立し，学習パイプライン「カリキュラム目標条件付き学習（CGCL）」を提案した。
- CGCLは，段階的に事実の抽出，鑑別診断の生成，仮説の正当化，反論の展開，最終的な結論の提示を行うようにLLMを訓練する。
- 実験の結果，CGCLは，高コストな強化学習と同等の診断精度と推論品質を達成し，より安定した効率的な学習が可能であることが示された。
Link: https://arxiv.org/abs/2604.11137
適応的な局所構造を持つ動的束拡散ネットワーク：異種空間的時間グラフ学習 [cs.LG]目的：異種空間的時間グラフ学習のための新しいモデル
- 空間的時間データ分析は，都市計画，交通予測，気象予測など，多くの分野で重要である。
- 従来のグラフニューラルネットワークは，局所的な異質性を捉えるのが難しく，性能が制限される場合がある。
- 局所的な空間的時間パターンに適応する拡散メカニズムを開発し，グラフ学習の精度向上を目指す。
- 本研究では，束理論に基づいた新しいグラフニューラルネットワーク（ST-Sheaf GNN）を提案し，空間的時間データの異質性を効果的にモデル化する。
- 提案手法は，動的な制限写像を学習することで，局所的な空間的時間パターンに適応し，表現力の高い相互作用を可能にする。
- 様々な空間的時間予測ベンチマークにおいて，最先端の性能を達成し，束トポロジー表現の有効性を示す。
Link: https://arxiv.org/abs/2604.11275
THEIA：純粋ニューラルモジュールアーキテクチャにおける完全クリーネ3値論理の学習 [cs.LG, cs.AI, cs.LO]目的：完全クリーネ3値論理の学習
- AIの推論能力向上は，より複雑な問題を解決するために不可欠である。
- 従来の記号推論は，柔軟性に欠ける場合がある。
- ニューラルネットワークによる3値論理の自律学習の実現を目指す。
- THEIAは，外部の記号推論や手動でエンコードされたゲートを使用せずに，39のK3ルールを99%以上の精度で学習した。
- THEIAは，不確実性の伝播において，他のモデルよりも高い性能を示した。特に，Has-Unknownの保持率は高かった。
- THEIAは，離散化されたエンドツーエンド学習において，5ステップから500ステップへの一般化において高い信頼性を示し，TransformerやResMLPよりも優れた結果となった。
Link: https://arxiv.org/abs/2604.11284
生成としての検索：自己誘発型情報計画による統一的フレームワーク [cs.CL, cs.AI]目的：検索拡張生成における検索制御の生成への組み込み
- 近年，大規模言語モデルと外部知識の組み合わせが重要視されている。
- 従来の検索拡張生成は，検索と生成を分離しており，連携が不十分である。
- 検索と生成を統合し，動的な多段階推論を可能にすること。
- GRIPは，生成を通じて検索を制御する「生成としての検索」という新しいパラダイムを提案する。
- GRIPは，モデルが検索タイミング，クエリ再構成，終了判断を自己決定する「自己誘発型情報計画」を用いる。
- 5つのQAベンチマークで，GRIPは強力なRAGベースラインを上回り，GPT-4oと競合する性能を示した。
Link: https://arxiv.org/abs/2604.11407
抽象議論における議論ベースのセマンティクスの複雑性について [cs.AI]目的：議論ベースのセマンティクスにおける議論の強さの判定
- 議論の強さを形式的に扱うことは，AIや意思決定支援システムの構築に不可欠である。
- 議論のセマンティクスによっては，計算複雑性が高く，実用的な規模での適用が困難な場合がある。
- 議論ベースのセマンティクスにおける議論の強さの判定問題を効率的に解決すること。
- AmgoudとBen-Naimの議論ベースのセマンティクスにおける議論の強さの判定は，多項式時間で決定可能である。
- この問題は，グラフにおける頂点間の経路数の同一性判定に帰着できることが示された。
- セミリグ自動機との関連付けにより，ランキングセマンティクスの計算複雑性に関する新たな視点が得られた。
Link: https://arxiv.org/abs/2604.11480
オフグリッドシステムにおける信頼性の高い日射量予測のための物理情報状態空間モデル [cs.LG, cs.AI, cs.SY, eess.SY]目的：オフグリッドシステムの信頼性向上に資する日射量予測手法
- オフグリッドシステムの普及には，安定した電力供給が不可欠であり，正確な日射量予測が鍵となる。
- 深層学習モデルは計算負荷が高く，物理法則を考慮しないため，現実的でない予測を生む可能性がある。
- 物理法則を組み込むことで，計算効率と予測精度の両立を目指し，実用的な日射量予測を実現する。
- 提案手法PISSMは，動的なハンケル行列埋め込みによりノイズを除去し，ロバストな状態空間を構築する。
- 線形状態空間モデルと物理情報ゲート機構により，計算負荷を抑えつつ，日周サイクルに沿った正確な予測を可能にする。
- スーダンのオムドゥルマンにおける実証実験により，4万パラメータ以下の軽量なモデルで高精度な予測性能が確認された。
Link: https://arxiv.org/abs/2604.11807
熱力学的液体多様体ネットワーク：自律型オフグリッドマイクログリッドにおける太陽光予測のための物理制約付き深層学習 [cs.LG, cs.AI, cs.SY, eess.SY]目的：太陽光予測アルゴリズムの性能向上
- 再生可能エネルギー利用の普及には，安定した電力供給が不可欠であり，正確な太陽光予測が重要となる。
- 従来の深層学習モデルは，雲の変動時や夜間の電力予測において物理法則に反する異常を示す場合がある。
- 熱力学的制約を組み込むことで，より現実的かつ正確な太陽光予測モデルを構築することを目指す。
- 本研究で提案する熱力学的液体多様体ネットワークは，大気熱力学に基づき，夜間の見かけ上の発電量を完全に抑制することに成功した。
- 厳しい半乾燥気候下での5年間のテストにおいて，RMSE 18.31 Wh/m2，ピアソン相関係数 0.988という高い精度を達成した。
- 特に，高頻度な光変動時における位相応答は30分以内と極めて迅速であり，エッジデバイスへの展開に適した軽量な設計である。
Link: https://arxiv.org/abs/2604.11909
ProbeLogits：AIネイティブOSのためのカーネルレベルLLM推論プリミティブ [cs.OS, cs.LG]目的：LLM推論をカーネル内部で実行し，生成前のlogit分布を読み取り，エージェントの行動を安全か危険か分類する操作
- LLMの進化は，AIネイティブOSの実現に不可欠であり，OSレベルでの制御が重要となる。
- LLMの有害な出力は，社会的なリスクをもたらすため，効率的かつ確実な制御機構が必要とされる。
- LLMの有害な出力を，学習パラメータなしにカーネルレベルで検出し，制御することを可能にする。
- ProbeLogitsは，3つのベースモデル（Qwen 2.5-7B, Llama 3 8B, Mistral 7B）において，HarmBenchで97-99%のブロック率を達成した。
- ToxicChatにおいては，Llama Guard 3と同等以上のF1スコアを達成し，特にQwen 2.5-7Bでは有意な差が見られた。
- 単一のlogit位置を読み取るため，Llama Guard 3よりも約2.5倍高速であり，ネイティブ環境下では65msの低遅延を実現した。
Link: https://arxiv.org/abs/2604.11943
自己回帰的推論のサンプル複雑性：Chain-of-Thought とエンドツーエンド [cs.LG]目的：自己回帰モデルの学習可能性
- 大規模言語モデルの性能向上に伴い，その学習理論的な理解が不可欠となっている。
- エンドツーエンド学習とChain-of-Thought学習では，必要なサンプル数が大きく異なる可能性がある。
- 生成長 $T$ に対するサンプル複雑性のスケーリング則を明らかにすること。
- エンドツーエンド学習において，サンプル複雑性は定数から線形までの任意の成長率を取り得ることを示した。
- Chain-of-Thought 学習においては，サンプル複雑性が生成長 $T$ に依存しないことを示した。
- これにより，中間推論ステップへのアクセスが生成長の依存性を解消できることが示された。
Link: https://arxiv.org/abs/2604.12013
GCAフレームワーク：GCC諸国に根ざしたデータセットと気候意思決定支援のためのエージェントパイプライン [eess.SY, cs.SY, cs.LG, cs.AI]目的：GCC諸国における気候意思決定支援のためのデータセットとエージェントパイプライン
- 気候変動対策は喫緊の課題であり，特にGCC諸国においてはその影響が大きい。
- 汎用LLMは，GCC地域特有の気候知識や地理空間ツールとの連携が弱く，実用性に課題がある。
- GCC地域に特化した知識とツール連携により，気候意思決定を支援するシステムを構築すること。
- GCAフレームワークは，GCC諸国に根ざしたマルチモーダルデータセットGCA-DSと，ツール連携エージェントGulf Climate Agent (GCA)で構成される。
- GCA-DSは，政府政策，NGO，学術文献などを含む20万組の質問応答ペアと，リモートセンシングデータで構成される。
- ドメイン特化型ファインチューニングとツール統合により，汎用LLMと比較して信頼性が大幅に向上することが示された。
Link: https://arxiv.org/abs/2604.12306
EgoEsportsQA：eスポーツにおける知覚と推論のための一人称視点ビデオベンチマーク [cs.CV, cs.AI, cs.MM]目的：eスポーツの専門知識に基づいた知覚と推論を評価するためのビデオ質問応答ベンチマーク
- ビデオ大規模言語モデルの発展は目覚ましいが，高速で情報密度の高い仮想環境への適応は未知数である。
- 既存のベンチマークは日常活動に焦点を当てており，eスポーツのような高速でルールに基づいた推論を評価するのに不十分である。
- eスポーツにおける知覚と推論能力を測るための厳密なテストベッドを提供し，ビデオ大規模言語モデルの改善に貢献すること。
- EgoEsportsQAは，3つのファーストパーソンシューターゲームのプロの試合から1,745の高品質な質問応答ペアを収集したベンチマークである。
- 最先端のビデオ大規模言語モデルの評価結果から，現在のモデルは71.58%という満足のいく性能に達していないことが明らかになった。
- モデルは基本的な視覚的知覚は得意だが，深い戦術的推論は苦手であり，全体的な進行状況は理解できるが，細かい操作は苦手であることが示された。
Link: https://arxiv.org/abs/2604.12320
運動学から動力学へ：物理的に実行可能な計画の改善学習 [cs.CL, cs.RO, cs.AI]目的：物理的に実行可能な計画の改善
- ロボットのタスク遂行において，空間領域を順に移動することが多く，計画の重要性が高い。
- 従来のハイブリッドプランニングは一次近似の運動モデルを使用し，ロボットの物理制約を満たせない場合がある。
- ロボットの物理制約を満たす計画の改善を目指す。
- 本研究では，強化学習を用いて一次近似の計画を改善し，物理的な実行可能性を回復させる。
- 提案手法は，二次の制約を考慮したマルコフ決定過程を定義することで，計画と実行のギャップを埋める。
- 実験結果から，提案手法は信頼性の高い物理的実行可能性を達成できることが示された。
Link: https://arxiv.org/abs/2604.12474
進化した仮想ソフトロボットに対する社会学習戦略 [cs.RO, cs.AI]目的：ロボットの身体と脳の最適化
- ロボット工学において，身体と制御は密接に関連しており，両者の同時最適化が重要である。
- 個々のロボットが独立して学習するため，学習効率が低いという課題がある。
- 他のロボットの学習成果を活用し，学習速度を向上させることを目指す。
- 社会学習は，同じ計算資源の下で，ゼロから学習するよりも明確に優れた性能を示すことが確認された。
- 複数のロボットから知識を得ることで，より一貫性のあるロバストな改善が見られた。
- 最適な教師選択戦略は未だ不明であるが，複数教師からの知識の活用が有効である可能性が示唆された。
Link: https://arxiv.org/abs/2604.12482
DocSeeker：証拠に基づく構造化された視覚的推論による長文書理解 [cs.CL, cs.AI]目的：長文書理解のための構造化された視覚的推論手法
- 近年，大量の文書データ処理が重要視されており，その理解能力の向上が求められている。
- 既存のマルチモーダル大規模言語モデルは，文書が長くなるにつれて性能が低下する課題がある。
- 本研究は，文書中の重要な情報を効率的に特定し，正確な回答を導き出すことを目指す。
- DocSeekerは，分析，局所化，推論の構造化されたワークフローを実行するモデルを提案する。
- 高品質な知識蒸留戦略を用いた教師ありファインチューニングと，証拠を意識したグループ相対ポリシー最適化を組み合わせる。
- 実験により，DocSeekerが様々なタスクで優れた性能を示し，長文書への汎化能力が高いことが確認された。
Link: https://arxiv.org/abs/2604.12812
QuarkMedSearch：医療知能を探求する長期的深層探索エージェント [cs.AI]目的：医療分野における深層探索の性能向上
- 医療分野における知識探索は，診断支援や新薬開発に不可欠であり，その重要性は高い。
- 医療分野特有の深層探索データが不足しており，エージェントの性能向上のボトルネックとなっている。
- 医療知識グラフとオンライン探索を組み合わせたデータ構築で，深層探索に必要なデータを補完する。
- QuarkMedSearchは，同規模のオープンソースモデルと比較して，QuarkMedSearch Benchmarkにおいて最先端の性能を達成した。
- 一般的なベンチマークにおいても，高い競争力を維持している。
- 計画，ツール呼び出し，反省能力を段階的に強化するSFTとRLの二段階トレーニング戦略を採用した。
Link: https://arxiv.org/abs/2604.12867
AIエージェントの創造性について [cs.CL, cs.NI, cs.CY, cs.AI]目的：AIエージェントの創造性の分析
- AI技術は多岐にわたり，社会への応用が期待される分野である。
- AIの創造性に関する議論は，定義や評価方法が統一されていない。
- AIエージェントが示す創造性の種類とその限界を明らかにすること。
- LLMエージェントは機能主義的な創造性を示すものの，高度なレベルには達していない。
- LLMエージェントは，存在論的な創造性の重要な側面を欠いている。
- AIエージェントが両方の創造性の形式を達成することの利点とリスクを評価し，より良いAIの創造性への道筋を提案する。
Link: https://arxiv.org/abs/2604.13242
ロボットダイナミクスの生成的インコンテキストメタ学習のための拡散シーケンスモデル [cs.LG, cs.RO, cs.SY, eess.SY]目的：ロボットダイナミクスの順方向予測における生成モデルと決定論的モデルの比較
- モデルベース制御において，正確なロボットダイナミクスのモデリングは不可欠である。
- 分布の変化やリアルタイム制約下では，ロボットダイナミクスの正確なモデリングは依然として困難である。
- 分布の変化に対するロバスト性を向上させ，リアルタイム制御への適用を可能にする。
- 拡散モデルは，分布の変化に対するロバスト性を大幅に向上させることが示された。
- 特に，インペインティング拡散モデルが最も高い性能を達成した。
- ウォームスタートサンプリングにより，拡散モデルがリアルタイム制約下で動作可能となり，制御への応用が期待できる。
Link: https://arxiv.org/abs/2604.13366
物理誘導ニューラルネットワークによる太陽放射量予測における自己注意機構の性能向上 [cs.LG, cs.AI, cs.SY, eess.SY]目的：太陽放射量予測の精度向上
- 電力系統の安定運用には，精度の高い太陽放射量予測が不可欠である。特に乾燥地域では，エアロゾルの急激な変動が予測を難しくする。
- 従来の予測手法は，計算コストの高いTransformerアーキテクチャに依存し，複雑化の一途を辿っている。
- 本研究は，物理知識を活用することで，複雑なモデル構造に頼らずに予測精度を向上させることを目指す。
- 提案手法は，NASA POWERデータを用いた実験において，RMSE 19.53 W/m^2を達成し，自己注意機構を用いた複雑なベースラインモデル（RMSE 30.64 W/m^2）を大幅に上回る性能を示した。
- この結果は，「複雑性Paradox」を示唆する。すなわち，高ノイズな気象タスクにおいては，明示的な物理制約が自己注意機構よりも効率的かつ正確な代替手段となる。
- 本研究は，リアルタイムの再生可能エネルギー管理のための，ハイブリッドな物理知識に基づいたAIへのシフトを提唱する。
Link: https://arxiv.org/abs/2604.13455
非対称損失関数に基づくハイブリッドCNN-BiLSTM-Attentionモデル：解釈可能な故障ヒートマップを用いた産業用RUL予測 [cs.LG, cs.AI, cs.SY, eess.SY]目的：産業用機器のRUL（Remaining Useful Life：残存有用寿命）予測
- 航空機エンジン等の信頼性確保は，安全運航と経済性向上に不可欠である。
- 既存手法では，多センサー間の空間相関と長時系列の依存関係を同時に捉えるのが困難である。
- 過大評価による安全上のリスクを抑制しつつ，RUL予測精度を向上させる。
- 提案モデルは，NASA C-MAPSS FD001データセットにおいて，RMSE 17.52サイクル，NASA S-Score 922.06を達成した。
- 抽出されたAttention Weightヒートマップは，個々のエンジンの劣化進行を可視化し，保守判断を支援する。
- 本研究は，安全で解釈可能な産業用RUL予測のための有効なフレームワークを提示する。
Link: https://arxiv.org/abs/2604.13459
オンポリシー蒸留におけるトークン重要度 [cs.LG, cs.AI]目的：オンポリシー知識蒸留におけるトークン重要度の特定
- 大規模言語モデルの効率的な学習は，計算資源の制約を克服するために不可欠である。
- 既存のトークン重要度評価は不完全であり，有効な学習信号を捉えきれていない。
- 学生モデルの学習に重要なトークンを特定し，計算コストを削減することを目指す。
- 学生モデルの学習において，エントロピーの高いトークンと，教師モデルとの乖離が大きいトークンが重要であることが示された。
- エントロピーに基づくトークン選択は，メモリ使用量を削減しつつ，フルトークン学習と同等以上の性能を達成する。
- 低エントロピーかつ教師との乖離が大きいトークンに焦点を当てることで，より効率的な学習が可能となる。
Link: https://arxiv.org/abs/2604.14084
貢献度重み付き群相対方策最適化によるLLMベース検索エージェントの性能向上 [cs.LG, cs.AI]目的：LLMベース検索エージェントの性能向上
- LLMは事前学習時の知識に限界があり，最新情報や希少情報へのアクセスが課題。
- 強化学習による学習では，過程 supervision が不安定，結果 supervision でのクレジットアサインが困難。
- 過程 supervision と結果 supervision のギャップを埋め，より安定した学習を目指す。
- 提案手法CW-GRPOは，LLM judgeを用いて各検索ラウンドの貢献度を評価する。
- 貢献度スコアにより，軌跡全体におけるクレジットアサインの精度を向上させる。
- Qwen3-8BとQwen3-1.7Bのベンチマークで，標準的なGRPOをそれぞれ5.0%，6.3%上回る性能を示した。
Link: https://arxiv.org/abs/2604.14267
制約付き系統的バイアス下における最良アーム識別に関するタイトなサンプル複雑度上限 [cs.LG, cs.AI, stat.ML]目的：制約付き系統的バイアス下における最良アーム識別問題のサンプル複雑度
- 自律的な推論や具現化された計画において探索の深さが深まるほど，候補行動空間は指数関数的に拡大し，計算資源を圧迫する。
- ヒューリスティックな枝刈りは一般的な対策だが，LLMなどの代替モデルに系統的評価バイアスが存在する場合，正式な安全保証がない。
- バイアスのある探索において，安全なノード削除が可能となるための経験報酬の差の最小値を明らかにする。
- 本研究では，系統的バイアス$L$を持つ動的フロンティアにおけるBAI問題を解き，サンプル複雑度を$\mathcal{O}((\Delta-4L)^{-2})$と導出した。
- 経験報酬の差が$4L$を超える場合にのみ，安全なノード削除が可能であることを示した。
- 合成木と複雑な推論タスクでの評価により，この局所的な安全境界に沿うことで，最適な軌跡を維持しつつサンプル割り当て効率を最大化できることを確認した。
Link: https://arxiv.org/abs/2604.14345
オンデバイスストリーミングASRの限界に挑戦：低遅延推論のためのコンパクトで高精度な英単語認識モデル [cs.IR, cs.CL, cs.AI]目的：低リソース環境でのリアルタイム英単語認識
- エッジデバイスでの音声認識の需要が高まっており，高性能なモデルが求められている。
- CPUのみでの推論では，精度，遅延，メモリ使用量の最適化が課題となる。
- オンデバイスでのストリーミングASRの品質と効率のトレードオフを改善すること。
- NVIDIAのNemotron Speech Streamingが，リソース制約のあるハードウェアでのリアルタイム英単語認識に最も適していることが示された。
- ONNX Runtimeと量子化技術により，モデルサイズを2.47GBから0.67GBまで削減し，精度劣化を1%以内に抑えた。
- int4 k-quantモデルは，8.20%のストリーミングWERを達成し，0.56秒のアルゴリズム遅延でリアルタイムよりも高速に動作した。
Link: https://arxiv.org/abs/2604.14493
VoxSafeBench：何を言うかだけでなく，誰が，どのように，どこで [cs.SD, cs.LG, eess.AS]目的：音声言語モデルにおける社会的整合性の評価
- 音声言語モデルが多様な環境で利用されるようになり，安全性や公平性，プライバシーへの配慮が不可欠になっている。
- 既存の評価基準は，音声認識の基本的な能力や個別のリスクに焦点を当てており，文脈依存のリスク評価が不十分である。
- 話者，発話様式，環境などの音声情報が安全性に与える影響を総合的に評価し，音声言語モデルの改善を目指す。
- 従来のテキストベースの安全対策は，音声環境下では効果が低下することが示された。
- 話者や状況に応じた安全性，公平性，プライバシー保護において，現在の音声言語モデルには課題が残ることが明らかになった。
- 音声言語モデルはテキスト情報を認識できるものの，音声情報から適切な判断を下す能力に欠ける「音声接地ギャップ」が存在する。
Link: https://arxiv.org/abs/2604.14548
大規模ハードウェア設計のための階層的RTL生成マルチエージェントフレームワークVeriGraphi [cs.AR, cs.AI, cs.LG, cs.MA, cs.PL]目的：大規模階層的ハードウェア設計におけるRTL生成
- 高性能計算機システム実現のため，ハードウェア設計の自動化が不可欠である。
- 大規模設計では，LLMが構造的推論に乏しく，整合性のないRTLを生成しやすい。
- 仕様に基づいた知識グラフを用いて，RTL生成の信頼性と正確性を向上させる。
- VeriGraphiは，仕様を基盤とした知識グラフを用いて，階層的なRTL生成を実現した。
- 知識グラフが設計の構造的枠組みを提供し，一貫性のあるインターフェースと依存関係を保証する。
- RISC-Vプロセッサの事例研究により，VeriGraphiによる高機能で正確なハードウェア設計が示された。
Link: https://arxiv.org/abs/2604.14550
CPGRec+: 個別化されたビデオゲーム推薦のためのバランス重視フレームワーク [cs.IR, cs.AI]目的：個別化ビデオゲーム推薦システムのバランス向上
- ゲーム産業の急速な拡大に伴い，動的な状況に対応できる高度な推薦システムの必要性が高まっている。
- 既存のGNNベース手法は精度を優先し，多様性を軽視する傾向があり，そのトレードオフが考慮されていない。
- プレイヤー-ゲーム間の相互作用の重要度の差異を考慮し，GNNの過剰平滑化問題を軽減することを目的とする。
- 提案手法CPGRec+は，プレイヤーの興味・関心の度合いを考慮したエッジ重み付けにより，グラフ畳み込みにおける過剰平滑化を抑制する。
- LLMを活用し，プレイヤーとゲームの文脈的な記述を生成することで，表現力を高め，推薦精度と多様性を向上させた。
- Steamのデータセットを用いた実験により，CPGRec+が最先端モデルと比較して優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2604.14586
AgileLog: データストリーム上のエージェント向け分岐可能な共有ログ [cs.DC, cs.AI]目的：データストリーム上のエージェントのための分岐可能な共有ログの提供
- 近年のデータストリーム処理において，AIエージェントが重要な役割を担うようになっている。
- 既存のストリーミングシステムは，エージェントの処理干渉や安全な書き込み処理に対応できない。
- エージェントがデータストリームを安全かつ効率的に処理するための基盤を提供する。
- 本研究では，エージェント向けに最適化された分岐機能を持つ共有ログ抽象化「AgileLog」を提案する。
- 実装である「Bolt」は，分岐を低コスト化し，論理的・性能的な分離を実現する新しい技術を採用している。
- AgileLogは，データストリーム上のエージェントのパフォーマンス向上と安全性の確保に貢献する。
Link: https://arxiv.org/abs/2604.14590
LLMにおける認知構造のメカニズム解明 [cs.CL, cs.AI]目的：大規模言語モデルにおける複雑な感情処理の内部メカニズム
- 感情理解は，人間とAIのより自然なコミュニケーションに不可欠であり，そのメカニズム解明は重要である。
- 既存の研究では，感情をブラックボックスとして扱うか，単純な感情に焦点を当てており，複雑な感情構造の解明が遅れている。
- 本研究は，比較対象の優位性と自己定義の関連性という嫉妬の心理的要因を特定し，その因果関係を明らかにすることを目指す。
- 大規模言語モデルは，嫉妬を構成要素の線形結合として本質的に符号化していることが示唆された。
- モデルの内部表現は，人間の心理構造と概ね一貫しており，優位性を基礎的なトリガー，関連性を強度の増幅因子として扱っている。
- 本フレームワークは，有害な感情状態を機械的に検出し抑制可能であり，AIの安全性向上に貢献する可能性がある。
Link: https://arxiv.org/abs/2604.14593
LLMエージェントシミュレーションにおける微視的行動からマクロ創発への自動因果発見のためのエージェンティフレームワークCAMO [cs.AI, cs.CL, cs.CY]目的：LLMエージェントシミュレーションにおけるマクロな結果の因果メカニズムの解明
- 社会創発を研究する上で，LLMエージェントシミュレーションの利用が増加している。
- エージェント間の相互作用や非線形性により，創発の生成メカニズムの解明が困難である。
- シミュレーション記録に基づいた因果関係を自動的に発見し，解釈可能な因果連鎖を提供する。
- CAMOは，シミュレーション記録から計算可能な要素にメカニズム仮説を変換し，創発的ターゲットYを中心としたコンパクトな因果表現を学習する。
- CAMOは計算可能なマルコフ境界と最小の上流説明サブグラフを出力し，解釈可能な因果連鎖と介入可能なレバーを提供する。
- シミュレーター内部の反事実的な探索を用いて曖昧なエッジを特定し，証拠と矛盾する場合には仮説を修正する。
Link: https://arxiv.org/abs/2604.14691
ワールド・バリュー・アクションモデル：ビジョン・言語・行動システムの暗黙的計画 [cs.RO, cs.LG]目的：ビジョン・言語・行動システムの暗黙的計画のための枠組み
- ロボット工学において，知覚と言語を基に行動するエージェントの実現は重要な課題である。
- 従来のVLAモデルは，長期的軌道の計画と評価が難しく，複雑なタスクでの性能が制限されていた。
- 本研究は，VLAシステムにおける暗黙的計画を可能にし，長期的意思決定を効率化することを目的とする。
- ワールド・バリュー・アクション（WAV）モデルは，視覚情報と言語指示に基づいて将来の軌道を構造化された潜在表現として学習する。
- WAVモデルは，最先端の手法と比較して，タスクの成功率，汎化能力，およびロバスト性を大幅に向上させた。
- 潜在空間での推論により，実行可能な軌道分布が再形成され，長期的意思決定が可能となる。
Link: https://arxiv.org/abs/2604.14732
ADAPT：未指定のアフォードンス制約下における常識的なプランニングのベンチマーク [cs.AI, cs.CL, cs.CV, cs.RO]目的：実世界の環境における常識的なプランニングの評価
- ロボットやAIエージェントが現実世界で活動するためには，状況に応じた柔軟な対応が不可欠である。
- 既存の手法は指示の実行に集中し，対象物の操作可能性やアフォードンスの評価が不十分である。
- 動的に変化するアフォードンスを考慮した，よりロバストなプランニング手法の開発を目指す。
- 本研究では，アフォードンスが時間とともに変化する動的な環境におけるエージェントの性能を評価するベンチマークDynAffordを提案した。
- 提案手法ADAPTは，既存のプランナーにアフォードンス推論機能を付加することで，環境への適応性を高める。
- タスク適応型LoRAファインチューニングされたビジョン言語モデルが，商用LLM(GPT-4o)よりも優れた性能を示すことが示された。
Link: https://arxiv.org/abs/2604.14902
STEP-Parts: 大規模CAD処理のための境界表現の幾何学的分割 [cs.GR, cs.AI, cs.CV, cs.LG]目的：境界表現からの幾何学的インスタンス分割
- CADデータ活用において，形状の正確な理解と分析は不可欠である。
- 従来の三角形メッシュ化では，形状の情報を失い，一貫性のある分析が困難になる。
- STEP-Partsは，元のCADデータから正確な分割を抽出し，その問題を解決する。
- STEP-Partsは，STEP形式のCADデータから直接幾何学的インスタンス分割を生成するツールチェインである。
- 分割は，同一の解析的プリミティブ型と近接接線連続性基準を持つ面のみを結合することで構築される。
- DeepCADデータセットにおいて，約18万モデルを消費CPUで6時間未満で処理可能であり，テッセレーションに依存しない安定した境界表現を提供する。
Link: https://arxiv.org/abs/2604.14927
リアクティブからプロアクティブへ：ProVoice-Benchによる音声エージェントのプロアクティビティ評価 [cs.AI, cs.CL, cs.SD]目的：プロアクティブな音声エージェントの評価
- LLMエージェントの発展に伴い，人間らしい自然な対話が求められている。
- 既存の評価基準は，反応型応答に偏っており，積極的な介入能力を測れない。
- 積極的な介入と監視の複雑さを評価する枠組みを構築すること。
- ProVoice-Benchは，プロアクティブな音声エージェント評価のための最初のフレームワークである。
- 最先端のマルチモーダルLLMの評価により，過剰なトリガーと推論能力の不足が明らかになった。
- 現在のモデルの限界が示され，より自然で文脈を理解したエージェント開発への道筋が示唆された。
Link: https://arxiv.org/abs/2604.15037
長文大規模言語モデル生成における質問形式の不確実性定量化 [cs.CL, cs.AI, cs.LG]目的：大規模言語モデル生成における不確実性定量化
- 大規模言語モデルは急速に発展しているが，その出力の信頼性評価は重要課題である。
- 長文かつ自由形式のテキスト生成において，大規模言語モデルは事実に基づかない内容を生成しやすい。
- 本研究は，長文生成における不確実性をより正確に定量化することを目的とする。
- 提案手法IUQは，サンプル間の一貫性とサンプル内の忠実性を活用し，長文LLM出力の不確実性を定量化する。
- 質問応答パラダイムを用いることで，主張レベルの不確実性とモデルの忠実性の信頼性の高い指標を提供する。
- 多様なモデルやサイズにおいて，IUQは既存手法よりも優れた性能を示すことが実験的に確認された。
Link: https://arxiv.org/abs/2604.15109