arXiv雑要約

AI - 2026/03/20 公開

因果RM：観測されたユーザーフィードバックからのRLHFのための因果理論的報酬モデリング [cs.LG, cs.AI, cs.CL, stat.ML]目的：観測されたユーザーフィードバックからの報酬モデル学習
- 言語モデルの人間との整合性は重要であり，RLHFはそのための有力な手法である。
- 従来のRLHFは，高コストで管理された環境下での人間の注釈データに大きく依存している。
- 観測されたユーザーフィードバック（クリック，コピー，評価など）を活用し，スケーラブルかつ費用対効果の高い代替案を提案する。
- CausalRMは，観測されたフィードバックのノイズとバイアスに対処するために，因果理論的枠組みを導入している。
- ノイズ対策として，注釈エラー生成プロセスを明示的にモデル化するノイズ対応代替損失項を導入した。
- バイアス対策として，ユーザーがフィードバックを提供する確率を示すプロペンシティスコアを用いて，トレーニングサンプルをリウェイトしている。
Link: https://arxiv.org/abs/2603.18736
LLM支援セキュリティコードレビューにおける確証バイアスの測定と悪用 [cs.SE, cs.AI, cs.CR]目的：LLM支援セキュリティコードレビューにおける確証バイアスの存在と，ソフトウェアサプライチェーン攻撃におけるその悪用の可能性の評価
- ソフトウェアの脆弱性対策において，コードレビューは重要な役割を担う。効率化と品質向上が求められている。
- LLMを活用したコードレビューツールは，確証バイアスの影響を受けやすく，脆弱性の検出精度が低下する可能性がある。
- LLMが持つ確証バイアスを定量的に評価し，その悪用可能性を検証することで，安全な利用方法を確立することを目指す。
- プロンプトの提示方法によってLLMの脆弱性検出率が大きく変動し，特に変更をバグがないと示唆すると検出率が低下する。
- 悪意のあるプルリクエストにおいて，セキュリティ改善や緊急機能修正といったメタデータによる誘導により，CopilotとClaude Codeに対する攻撃成功率が高まる。
- メタデータの削除や明示的な指示により，確証バイアスの影響を軽減し，脆弱性の検出精度を向上させることが可能である。
Link: https://arxiv.org/abs/2603.18740
Memento-Skills：エージェントがエージェントを設計する [cs.AI, cs.CL, cs.LG]目的：タスク固有のエージェントの構築，適応，改善
- AIエージェントは，多様なタスクを自律的に実行できる可能性を秘めている。
- 既存のエージェントは，特定のタスクに特化し，汎用性に欠ける場合が多い。
- 継続的な学習を通じて，汎用エージェントが新たなタスクに対応できるエージェントを設計する。
- Memento-Skillsは，外部化されたスキルとプロンプトを進化させることで継続学習を実現する。
- 人間が設計したエージェントに頼らず，汎用エージェントがタスク固有のエージェントをエンドツーエンドで設計可能。
- General AI AssistantsベンチマークとHumanity's Last Examで，それぞれ26.2％と116.2％の精度向上が確認された。
Link: https://arxiv.org/abs/2603.18743
WeNLEX：多ラベル胸部X線画像分類に対する弱学習による自然言語説明 [cs.RO, cs.CL, cs.CV, cs.AI]目的：多ラベル胸部X線画像分類のための自然言語説明の生成
- 医療画像診断支援において，AIの判断根拠の説明は不可欠であり，医師の意思決定をサポートする。
- 既存手法では，説明データが教師データとして必要であり，モデルの真の推論を反映していない場合がある。
- モデルの推論に忠実かつ，人間が理解しやすい説明を，少ない教師データで生成することを目指す。
- WeNLEXは，画像生成と特徴空間での比較を通じて説明の忠実性を担保し，分布整合により自然な説明を実現した。
- わずか5件の正解説明データで，信頼性と妥当性の高い説明を生成可能であることを実証した。
- モデルに組み込むことで，分類精度を2.21%向上させ，説明可能性が性能向上に貢献することを示した。
Link: https://arxiv.org/abs/2603.18752
LLMに推論能力を教えるために，複雑な損失関数は必要か？ [cs.LG, cs.AI, cs.CL]目的：LLMにおける推論能力の向上
- LLMの性能向上が重要であり，特に高度な推論能力の獲得が求められている。
- 既存の推論能力向上手法は複雑で，その全ての要素が本当に必要か不明である。
- GRPOの複雑さを解消し，よりシンプルで効率的な推論能力向上手法を確立すること。
- GRPOにおいて，負のフィードバックの組み込みが不可欠であることが示された。
- PPOスタイルの制約は，数学的推論性能向上に必須ではないことが明らかになった。
- 簡略化されたRGRAがGRPOと同等以上の性能を発揮する可能性が示唆された。
Link: https://arxiv.org/abs/2603.18756
ニューロゲームTransformer：ゲーム理論と統計物理学に基づいたギブスに触発された注意機構 [cs.AI]目的：トークン間の高次の依存関係のモデリング
- 自然言語処理の性能向上には，文脈理解が不可欠であり，注意機構はその鍵となる要素である。
- 従来の注意機構は，トークンペア間の関係に限定され，複雑な文脈の把握が困難であった。
- ゲーム理論と統計物理学の概念を導入し，より高度な注意機構を構築することで，この問題を解決する。
- NeuroGame Transformerは，Shapley値とBanzhaf指標を組み合わせることで，トークンの重要性を定量化している。
- 注意重みは，Ising Hamiltonianに従うギブス分布からの周辺確率として効率的に計算される。
- SNLIおよびMNLI-matchedタスクにおいて，既存の効率的なTransformerベースラインを上回る性能を達成した。
Link: https://arxiv.org/abs/2603.18761
ClawTrap：実世界OpenClawセキュリティ評価のためのMITMベースレッドチームフレームワーク [cs.CR, cs.AI]目的：実世界におけるOpenClawのセキュリティ評価のためのMITMベースレッドチームフレームワーク
- 自律型Webエージェントは活用が進む一方，実際のネットワーク環境下でのセキュリティ評価は不十分である。
- 既存のベンチマークは静的サンドボックスやプロンプト攻撃に偏っており，ネットワーク層のセキュリティテストが不足している。
- 動的な実世界環境におけるMITM攻撃を組み込んだOpenClawのセキュリティ評価手法を確立する。
- ClawTrapは，HTML置換，iframeポップアップ挿入，動的コンテンツ変更など多様な攻撃をサポートする。
- 実験結果から，モデルの性能によって改ざんされた情報への信頼度や安全なフォールバック戦略に差が見られた。
- OpenClawの信頼性あるセキュリティ評価には，動的なMITM条件を組み込むことが不可欠である。
Link: https://arxiv.org/abs/2603.18762
深層VAE-GANを用いたデータ同化のための貯留層特性のパラメータ化の強化 [cs.CL, cs.LG]目的：貯留層特性のパラメータ化手法
- 石油貯留層シミュレーションの精度向上は，資源開発において不可欠である。
- 既存手法は有限のアンサンブルサイズとガウス分布の仮定に依存し，非ガウス分布の特性に対応できない。
- 深層学習モデルにより，地質学的妥当性とデータ同化の精度を両立させる。
- 深層VAE-GANモデルは，GANのように高品質な貯留層記述を可能にする。
- また，VAEのように生産曲線との良い履歴照合を実現する。
- 両方の利点を同時に達成することで，データ同化の性能を向上させる。
Link: https://arxiv.org/abs/2603.18766
概念は単なる単語以上のもの：テキスト-画像拡散モデルにおける多様なアンラーニング [cs.AI]目的：テキスト-画像拡散モデルからの不要な概念の選択的消去
- 拡散モデルは画像生成能力が高いが，有害コンテンツ生成のリスクを伴うため，制御が重要である。
- 既存のアンラーニング手法はキーワードに依存しており，概念の多様性や潜在空間での概念の絡み合いを考慮していない。
- 文脈的に多様なプロンプトを用いて概念を表現することで，より正確で堅牢なアンラーニングを実現する。
- 提案手法である多様なアンラーニングは，既存のアンラーニングパイプラインに追加することで，より強力な消去を実現する。
- 関連概念の保持率を向上させ，敵対的復元攻撃に対する頑健性を高める。
- 実験結果から，多様なアンラーニングが複数のベンチマークで一貫して優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.18767
LLMポストトレーニングパイプラインの自動設定 [cs.RO, cs.LG, cs.AI]目的：LLMポストトレーニングパイプラインの設定選択
- 大規模言語モデルの性能向上には，ポストトレーニングが不可欠である。計算資源の制約下での効率的な設定が課題。
- 従来のパイプライン設定は，高次元で複雑，各段階が強く結合しており，評価コストが高い。
- 限られた計算資源で最適な設定を効率的に探索し，ポストトレーニングの性能を最大化すること。
- AutoPipeは，過去の実験データから学習したランキング surrogate を利用し，有望な設定領域へ効率的に探索を行う。
- 新しいデータセットに対し，AutoPipeはオフラインの指針とベイジアン最適化を組み合わせ，データセット固有の変動をモデル化する。
- 早期打ち切りと学習済み予測器により評価コストを削減し，バイオメディカル推論タスクで優れた性能を示した。
Link: https://arxiv.org/abs/2603.18773
ポイントから3Dへ：ポイントクラウド事前情報を用いた構造を意識した3D生成 [cs.CV, cs.AI]目的：3Dアセットおよびシーン生成における形状制御
- 3D生成技術は画像やテキストに基づくものが主流だが，利用可能な3D事前情報は未活用のままになっている。
- LiDAR等のアクティブセンサーから容易に取得できるポイントクラウドのような3D事前情報を既存手法が活用できていない。
- ポイントクラウド事前情報を用いて，より正確かつ構造制御可能な3D生成を実現することを目指す。
- Points-to-3Dは，拡散モデルTRELLISに基づき，ポイントクラウド事前情報を活用した3D生成フレームワークである。
- 入力の初期化にポイントクラウド事前情報を使用し，構造補完ネットワークを用いて全体の形状を完成させる。
- 実験により，レンダリング品質と幾何学的精度において，最先端のベースラインよりも優れた性能が確認された。
Link: https://arxiv.org/abs/2603.18782
心の理論による人工知能の発展に関する第2回ワークショップ論文集 [cs.RO, cs.AI]目的：心の理論と人工知能研究の現状と展望
- 人間のような知能実現には，他者の心を理解する能力が不可欠である。
- 現在のAIは，他者の意図や信念を推論する能力に課題がある。
- 心の理論をAIに導入し，より高度な推論能力を獲得することを目指す。
- 本論文集は，心の理論とAI研究コミュニティのための公開アクセス型アンソロジーである。
- 2026年1月26日にシンガポールで開催されたワークショップの選集である。
Link: https://arxiv.org/abs/2603.18786
Mi:dm K 2.5 Pro [cs.CL, cs.AI]目的：企業向け複雑性に対応するための推論に焦点を当てた大規模言語モデル
- 大規模言語モデルは，テキスト生成を超え，多段階推論や長文理解が求められている。
- 既存モデルは，特に韓国語や専門領域において，エンタープライズ環境での拡張性に課題がある。
- 企業向けに，推論能力に特化した大規模言語モデルを開発し，その性能を向上させる。
- Mi:dm K 2.5 Proは，世界および国内の主要モデルと同等の性能を達成した。
- 特に韓国語に特化したベンチマークにおいて，最先端の結果を確立し，言語・文化理解の深さを示した。
- Responsible AI評価により，攻撃に対する安全性と，無害性と応答性のバランスが確認された。
Link: https://arxiv.org/abs/2603.18788
大規模言語モデルに対する機能的サブ空間ウォーターマーキング [cs.CR, cs.AI]目的：大規模言語モデルの所有権保護
- AIモデルの急速な発展に伴い，知的財産の保護が重要になっている。
- 既存のウォーターマーキング手法は，モデルの微調整などで脆弱性が高まる。
- モデルの変更に強い，ロバストなウォーターマーキング手法の開発。
- 提案手法「機能的サブ空間ウォーターマーキング(FSW)」は，安定した機能的サブ空間に所有権信号を固定する。
- 適応的なスペクトル切断戦略により，ロバスト性とモデル性能のバランスを最適化している。
- 複数のモデル攻撃に対し，既存の最先端手法よりも高い検出精度と統計的検証可能性を示す。
Link: https://arxiv.org/abs/2603.18793
空間トークン生成による知覚能力向上型視覚言語モデルPerceptio [cs.CV, cs.AI]目的：視覚言語モデルにおける空間的推論能力の向上
- 視覚言語モデルは急速に発展しており，画像とテキストの理解において重要な役割を担う。
- 既存モデルは，詳細な空間的理解に苦戦しており，複雑な形状を暗黙的に推測するしかない。
- 空間的情報を明示的に扱うことで，視覚言語モデルの空間認識能力を飛躍的に向上させる。
- Perceptioは，セマンティックセグメンテーションと深度情報をトークンとして生成し，空間的推論能力を強化する。
- 生成された空間トークンを用いて，参照表現セグメンテーション，空間理解，MMBenchなどのタスクで最先端の性能を達成した。
- 本研究は，明示的な空間的思考連鎖が視覚言語モデルにおける空間的根拠付けを強化することを示唆している。
Link: https://arxiv.org/abs/2603.18795
成功と苦闘の兆候：タスク複雑性に応じた人間のパフォーマンスの早期予測と生理学的特徴 [cs.LG, cs.HC]目的：人間のパフォーマンスの早期予測
- インタラクティブシステムにおいて，ユーザーのパフォーマンスは重要な指標である。
- パフォーマンス予測のための眼球運動と心拍信号の活用は進んでいるものの，早期予測の可能性は十分に探求されていない。
- パフォーマンスの生理学的メカニズムを解明し，プロアクティブな介入を可能にすること。
- 眼球運動と心拍信号を組み合わせたモデルは0.86の正解率を達成し，眼球運動のみのモデルも同程度の予測能力を示した。
- 高パフォーマンスな被験者は，的確な視線移動と視覚サンプリングを行い，タスクの複雑性が増すにつれて安定した心拍活動を維持し，ポジティブな感情体験を得ていた。
- 早期の生理学的データからパフォーマンスを予測できることが示され，パフォーマンスの変動に関する解釈可能な洞察と，将来的な介入の可能性が示された。
Link: https://arxiv.org/abs/2603.18798
拡散大規模言語モデルのポリシー最適化における軌道削減：dTRPO [cs.RO, cs.AI]目的：拡散大規模言語モデルのポリシー最適化における軌道確率計算コストの削減
- 言語生成に新たなパラダイムをもたらす拡散大規模言語モデルの活用が重要視されている。
- 人間の選好との整合性を高めるための効率的なポリシー最適化が課題となっている。
- 軌道確率計算のコストを削減し，オフラインポリシー学習のスケーラビリティを向上させる。
- dTRPOは，最新の拡散大規模言語モデルの性能を大幅に向上させ，STEMタスクで最大9.6%の改善を達成した。
- コーディングタスクでは最大4.3%，指示応答タスクでは最大3.0%の性能向上が確認された。
- オフライン学習と単一フォワードパスにより，学習効率と生成効率の両方を改善している。
Link: https://arxiv.org/abs/2603.18806
LLMは興味深い数学研究課題を生成できるか？ [cs.AI]目的：LLMによる数学研究課題の生成可能性
- 数学の発展には，新たな未解決問題の創出が不可欠である。
- 既存の研究課題は枯渇しつつあり，新たな課題の発見が困難になっている。
- LLMを活用して，未知かつ価値のある数学研究課題を自動生成すること。
- LLMエージェントが微分幾何学分野で665件の研究課題を生成した。
- 専門家による検証の結果，多くの課題が未知であり，独自の研究価値を持つことが確認された。
- LLMは数学研究における新たな問題発見の可能性を示唆している。
Link: https://arxiv.org/abs/2603.18813
ProRL Agent：マルチターンLLMエージェントの強化学習向けロールアウト・アズ・ア・サービス [cs.AI]目的：マルチターンLLMエージェントの強化学習におけるロールアウト基盤の提供
- 複雑な対話型タスク解決において，LLMエージェントの重要性が高まっている。
- 従来のロールアウト基盤は訓練ループと一体化しており，移行や維持が困難であった。
- ロールアウトをAPIサービスとして提供し，スケーラブルな訓練環境を構築すること。
- ProRL Agentは，エージェントのロールアウトライフサイクル全体をAPIサービスとして提供する。
- 多様なタスクに対応可能な標準化された環境を，rootless HPC環境で利用可能とする。
- ソフトウェアエンジニアリング，数学，STEM，コーディングタスクでの強化学習訓練によって有効性が検証された。
Link: https://arxiv.org/abs/2603.18815
生成モデルの一般化性能を改善するための調味料 [cs.LG]目的：生成モデルの一般化性能の理論的向上
- 生成モデルは画像生成などに応用され，その性能向上が求められている。
- 生成モデルは過学習に陥りやすく，未知のデータに対する汎化性能が課題である。
- 識別器を用いて生成モデルを改良することで，汎化性能の向上を目指す。
- 識別器を用いた改良手法は，f-divergenceの双対性に基づく理論的根拠を持つ。
- 改良された生成モデルは，元のモデルと比較して，理論的に汎化性能が向上することが示された。
- この手法は，既存のscore-based diffusionアプローチを包含し，その汎化性能を理論的に保証する。
Link: https://arxiv.org/abs/2603.18817
AI倫理と社会への影響に関する学生の視点 [cs.FL, math.RT, cs.CL, cs.CY, cs.AI]目的：AI倫理と社会への影響に関する学生の見解
- AI技術は社会に急速に浸透しており，その影響を理解することは重要である。
- AI教育において，倫理的側面や社会への影響に関する議論が不足している。
- AI教育における倫理的配慮と社会への影響の理解を深めるための指針を提供する。
- 学生はAIが日常生活，特に医療，教育，メディアに大きな影響を与えると考えている。
- 男性はコンピュータ科学，自動運転，画像処理などの変化に敏感である一方，女性はソーシャルメディアへの影響をより意識している。
- 男女ともに潜在的な脅威を同様に認識しているが，男性は戦争やドローン，情報戦に，女性は倫理的配慮や他者への貢献に強い関心を示している。
Link: https://arxiv.org/abs/2603.18827
エージェント制御プロトコル：エージェント行動の認可制御 [cs.CR, cs.AI]目的：B2B環境における自律エージェントのガバナンスに関する正式な技術仕様
- 企業間取引における自律エージェントの利用が増加しており，その安全性と信頼性の確保が重要である。
- 既存のアクセス制御手法では，自律エージェントの複雑な権限と行動を十分に制御できないという課題がある。
- エージェントの意図とシステムの状態変化の間で，厳格な認可制御を行うことで，安全な運用を実現すること。
- エージェント制御プロトコル（ACP）は，ID，権限範囲，委任チェーン，ポリシー準拠を同時に検証する暗号認可チェックを導入する。
- ACPは，暗号ID，能力ベースの認可，決定論的なリスク評価，検証可能なチェーン委任などのメカニズムを定義する。
- 仕様は36の技術文書で構成され，Goによる参照実装と，51の署名された準拠テストベクトルが含まれている。
Link: https://arxiv.org/abs/2603.18829
脳血管血行動態のPOD-Galerkin法とReservoir Computingに基づくモデル次数削減 [math.NA, cs.LG, cs.NA]目的：脳血管血行動態シミュレーションのモデル次数削減手法
- 脳卒中予防など，脳血管系の理解は医療において重要である。
- 高精度なシミュレーションは計算コストが高く，リアルタイム解析が困難である。
- 計算コストを抑えつつ，高精度な血行動態予測を可能とする手法を開発する。
- POD-Galerkin法とPOD-Reservoir Computing法は，フルオーダーシミュレーションと比較して10^2～10^3倍の計算速度向上を達成した。
- 両手法は，壁面せん断応力などの血行動態量を予測する効率的かつ正確な代替モデルとしての可能性を示した。
- 多重調波と多重振幅の訓練信号が，学習効率の向上に貢献した。
Link: https://arxiv.org/abs/2603.18837
公平性に基づいた予測のためのモデルアンサンブル型後処理フレームワーク [cs.LG, stat.ML]目的：公平性に基づいた予測の実現
- 機械学習において，予測性能と公平性の両立は重要な課題である。
- 既存手法では，予測性能を維持しつつ，公平性を確保することが困難である。
- 予測性能を損なわずに公平性を向上させるフレームワークを提案する。
- 提案フレームワークは，分類，回帰，生存分析において有効であることが示された。
- 本フレームワークは，特定のモデル構造や公平性の定義に依存しない汎用性を持つ。
- 予測精度を維持しつつ，またはわずかに低下させつつ，公平性を効果的に向上させる。
Link: https://arxiv.org/abs/2603.18838
網膜底写真のための解釈可能なファウンデーションモデルの構築に向けて [cs.NI, cs.SY, eess.SY, cs.CV, cs.LG, stat.CO]目的：網膜底写真における解釈可能なファウンデーションモデルの開発
- 医療画像診断において，高い精度と同時に判断根拠の説明可能性が重要である。
- 既存のファウンデーションモデルは，構造が複雑で解釈性に乏しい場合が多い。
- 大規模データを用いた自己教師あり学習と解釈可能性を両立したモデルを構築する。
- 提案手法Dual-IFMは，局所的な解釈性（クラスエビデンスマップ）とグローバルな解釈性（2次元投影層）を両立する。
- 80万枚以上の網膜底写真を用いて学習した結果，パラメータ数が最大16倍の既存モデルと同等の性能を達成した。
- 分布外データに対しても解釈可能な予測が可能であり，ロバストな表現学習を示唆する。
Link: https://arxiv.org/abs/2603.18846
変動への学習：微分可能な環境における変分誘導型自律飛行体軌道学習 [eess.SY, cs.LG, cs.SY]目的：自律飛行体軌道計画のための変分誘導型学習フレームワーク
- 次世代IoTネットワークにおいて，自律飛行体は移動性によるデータ収集を可能にする重要な技術である。
- 従来の強化学習は，疎な報酬設定により，長期的な効果や非線形性を捉えきれず，学習の安定性が課題である。
- 高分散な報酬信号の代わりに，密で解析的に根拠のある方策勾配を用いることで，学習の安定化を目指す。
- 提案手法L4Vは，遺伝的アルゴリズム，DQN，A2C，DDPGといった既存手法と比較して，ミッション完了時間，平均伝送レート，学習コストにおいて一貫して優れた性能を示した。
- 飛行体の運動，距離依存チャネルゲイン，およびユーザーごとのデータ収集状況を微分可能な計算グラフとして統合的に展開した。
- 時間反伝播を離散ア adjoint ソルバーとして利用し，累積ミッション目標から各制御行動と方策パラメータへの正確な感度を伝播させた。
Link: https://arxiv.org/abs/2603.18853
BeamAgent：意図解析と交互最適化を分離したLLM支援MIMOビームフォーミングによる基地局選定とプレコーディングの同時最適化 [cs.IT, cs.LG, cs.SY, eess.SP, eess.SY, math.IT]目的：LLM支援MIMOビームフォーミングにおける基地局選定とプレコーディングの同時最適化
- 無線通信の性能向上は，現代社会における情報伝達の基盤であり，その重要性は増している。
- LLMを無線通信に統合する際，物理層最適化の精度不足や無線データ不足が課題となる。
- LLMの持つ意味理解能力と数値最適化を分離し，データに依存しない効率的な最適化を実現する。
- BeamAgentは，LLMを用いて自然言語による記述を空間制約に変換し，その制約下で基地局選定とプレコーディングを最適化する。
- 実験結果から，BeamAgentは既存手法と比較して，目標領域における電力を大幅に向上させることが示された。
- 本手法は，専門家レベルの性能に迫りつつ，高速な最適化を可能にすることを確認した。
Link: https://arxiv.org/abs/2603.18855
モーション-o：軌道に基づく動画推論 [cs.CV, cs.AI]目的：動画における空間・時間的推論能力の向上
- 動画理解は，コンピュータビジョンの重要な課題であり，様々な応用への発展が期待されている。
- 既存研究では，物体の動きのパターンを明示的に捉えることが難しく，軌道の理解が不十分である。
- 本研究は，物体の軌跡を明示的に表現し，検証可能な推論を可能にすることを目的とする。
- 提案手法Motion-oは，既存の視覚言語モデルに軌道理解の機能を拡張し，空間・時間的根拠付けと軌道予測の精度を向上させる。
- Motion Chain of Thought (MCoT) により，物体の方向，速度，加速度の変化を要約し，軌道と観察結果を明示的に結びつける。
- 本手法は，既存のフレームワークとの互換性を保ちつつ，動画理解における動きの重要性を確立する。
Link: https://arxiv.org/abs/2603.18856
RewardFlow：大規模言語モデルによるエージェント的強化学習のための状態グラフ上のトポロジーを考慮した報酬伝播 [cs.FL, cs.DM, math.NT, cs.AI, cs.CL, cs.LG]目的：エージェント的推論タスクのための状態レベル報酬推定
- 大規模言語モデルに外部環境とのインタラクション能力を付与する手段として，強化学習の重要性が増している。
- 終端報酬の希薄さが，状態レベルでのきめ細かい最適化を阻害する課題となっている。
- 状態グラフのトポロジー構造を活用し，報酬伝播により状態レベルの客観的報酬を算出することを目指す。
- RewardFlowは，状態間の貢献度を分析し，トポロジーを考慮したグラフ伝播により報酬を定量化する。
- RewardFlowを強化学習の密な報酬として統合することで，4つのエージェント的推論ベンチマークにおいて既存手法を凌駕する性能を示す。
- RewardFlowは，優れた性能，ロバスト性，および学習効率を実証しており，その実装は公開されている。
Link: https://arxiv.org/abs/2603.18859
RadioDiff-FS：少数ショット拡散モデルにおける物理情報に基づいた多様体アラインメントによる高精度無線マップ構築 [cs.CE, cs.RO, cs.SY, eess.SY, cs.CL, eess.SY, cs.LG, cs.SY]目的：高精度無線マップ構築のための少数ショット拡散モデル
- 次世代6Gネットワーク構築において，空間的な電波伝搬特性を把握する無線マップは不可欠である。
- 厳密な電磁界シミュレーションは計算コストが高く，データ駆動型モデルは大量の学習データと汎化性能の課題がある。
- 本研究は，少数の高精度データを用いて，複雑な電波環境下でも高精度な無線マップを構築することを目的とする。
- 提案手法RadioDiff-FSは，事前学習済みの主経路生成器を，わずかな高精度サンプルでマルチパス環境に適応させる。
- 方向一貫性損失（DCL）を導入することで，物理的に妥当な伝搬方向に沿った拡散スコア更新を制約し，低データ環境下での位相不整合なアーティファクトを抑制する。
- 静的無線マップと動的無線マップの両方において，従来の拡散モデルと比較して，NMSEを大幅に削減し，SSIMとPSNRを向上させた。
Link: https://arxiv.org/abs/2603.18865
非同期アクションを持つ多エージェント経路探索における競合ベース探索 [cs.AI]目的：多エージェント経路探索における，衝突のない最適経路の発見
- ロボットや群知能など，複数の主体が協調して動作するシステムの実現に不可欠な研究分野である。
- 従来のアルゴリズムは，全てのエージェントが同時に行動を開始するという同期的な前提に依存している。
- 非同期アクションを許容し，理論的な不完全性の問題を回避し，完全性と最適性を保証する経路探索手法を開発する。
- 本研究で提案するCBS-AAは，従来のCCBSが抱える理論的な問題を回避し，完全性と最適性を保証する。
- 実験結果から，CBS-AAは探索空間の分岐数を最大90%削減できることが示された。
- 本手法は，より現実的な非同期アクション環境下での多エージェント経路探索の効率化に貢献する。
Link: https://arxiv.org/abs/2603.18866
鏡の向こう側：AIを介したビデオコミュニケーションは対人信頼と判断の自信を低下させる [cs.HC, cs.AI, cs.MM]目的：AIを介したビデオコミュニケーションにおける信頼と判断の自信の低下
- ビデオコミュニケーションは社会において不可欠であり，信頼関係構築の重要な手段である。
- AI技術の導入により，ビデオの信頼性評価が歪められる可能性が懸念されている。
- AIを介したビデオコミュニケーションが，信頼と判断に与える影響を明らかにすること。
- AIを介したビデオの信頼感と判断の自信は低下する傾向が見られた。
- 特に，アバター使用の有無に差がある場合，その傾向が顕著であった。
- しかし，嘘の識別精度は変化せず，AIツール使用者を疑う傾向も見られなかった。
Link: https://arxiv.org/abs/2603.18868
ネットワーク断片化の解消：UAV支援VANET向けセマンティック拡張強化学習フレームワーク [cs.AI, cs.NI]目的：UAVを用いたVANETにおけるネットワーク断片化の解消
- 自動運転技術の発展において，VANETは不可欠な基盤技術である。
- 都市部では物理的な障害物により，VANETのネットワーク断片化が深刻な問題となっている。
- 本研究は，LLMのセマンティックな理解を活用し，効率的なUAV配置を目指す。
- 提案手法SA-PPOは，従来の強化学習手法と比較して，学習エピソード数を26.6%削減し，同等の性能を達成した。
- SA-PPOは，主要な接続性指標をそれぞれ13.2%および23.5%改善し，エネルギー消費量を28.2%に抑制した。
- RTGとDCGに基づく断片化の定量化手法と，LLMを専門家へ変換するパイプラインが有効であることが示された。
Link: https://arxiv.org/abs/2603.18871
DriftGuard：連合学習における非同期データドリフトの緩和 [cs.LG]目的：非同期データドリフトに対する効率的な適応
- 連合学習は，プライバシー保護と分散データ活用を実現する重要な技術である。
- デバイスのデータ分布が時間とともに変化する非同期データドリフトが課題となる。
- 計算コストを抑えつつ，ドリフトに対応したモデルの性能維持を目指す。
- DriftGuardは，共有パラメータとローカルパラメータを分離するMoEアーキテクチャを採用する。
- システム全体のドリフトに対応するグローバル再学習と，デバイスのクラスタに焦点を当てたグループ再学習を組み合わせる。
- 実験の結果，最先端の精度を達成しつつ，再学習コストを最大83%削減することに成功した。
Link: https://arxiv.org/abs/2603.18872
言語学習者の視点から見たLLM生成レッスン評価：Duolingoの事例研究 [cs.CL, cs.AI, cs.HC]目的：LLM生成レッスンに対する言語学習者の経験
- グローバル化が進み，ビジネスシーンでの外国語能力の重要性が増している。
- Duolingoなどの言語学習アプリは汎用的なシナリオに偏り，専門分野の語彙や表現が不足している。
- 学習者の専門分野に合わせたレッスンを提供することで，より実践的な外国語能力の習得を目指す。
- アンケート調査の結果，回答者は汎用的なシナリオよりも仕事関連のシナリオに遭遇する頻度が低いことが示された。
- 汎用的なシナリオは基礎的な文法，語彙，文化知識の習得に有効であると評価された。
- 仕事関連のシナリオは，専門分野の語彙を提供することで，プロフェッショナルレベルの語学力向上に貢献すると考えられる。
Link: https://arxiv.org/abs/2603.18873
ChatGPTによる地理の捉え方 -- 生成AIが地理をどのように表現し，推論するか [cs.CL, cs.AI, cs.CY]目的：生成AIによる地理の表現と推論の様相
- AI技術が普及し，人々の空間認識に影響を与えるようになったため，地理情報のAIによる処理が重要である。
- 既存のAIモデルは，地理に関する知識の表現や推論において，誤りや偏りを含む可能性がある。
- AIが構築する地理的世界の理解を深め，地理情報の正確性や妥当性を評価することを目的とする。
- 本研究では，AIモデルのデフォルトな傾向や，わずかな文法変化への脆弱性を検証した。
- 個別に問題ないタスクの組み合わせから，地理的な情報の歪みが再発する可能性を示唆した。
- 地理的知識の単なる想起能力に焦点を当てるのではなく，より深い理解に関する課題を提起した。
Link: https://arxiv.org/abs/2603.18881
数学的対象に関する推論：オンポリシー報酬モデリングとテスト時集約 [cs.AI, cs.CL]目的：数学的対象の導出に関する性能向上
- STEM分野の応用には正確な数学的推論が不可欠であり，その評価手法が重要である。
- 既存の評価は数値や選択肢形式に偏っており，複雑な数式などの形式的な表現の評価が困難である。
- より形式的な数式などの導出性能を向上させ，汎化能力を高めることを目指す。
- Principiaという数学的対象導出のためのデータセットとベンチマークを構築・公開した。
- LLMジャッジと検証器を用いた学習レシピを提案し，オンポリシー学習が性能向上に寄与することを示した。
- オンポリシー学習を用いて，テスト時の計算量を集約し，効率化できることを示した。
Link: https://arxiv.org/abs/2603.18886
階層的予測処理における権限レベル事前知識：未規定の制約 [cs.LG]目的：階層的予測処理における自律神経及び行動制御の制御仮説の許容範囲の定義
- 行動の適応性理解に不可欠であり，認知と生理的反応の相互作用を説明する上で重要である。
- 明示的な信念改変がストレス反応や自律神経調節に変化をもたらさないという非対称性がある。
- 権限レベル事前知識を導入し，自律神経と行動制御における仮説の許容範囲を明確化することを目指す。
- 権限レベル事前知識は，制御に許容される仮説の範囲を制約し，影響の度合いは精度によって決定される。
- このモデルは，ストレス反応，回復時間，代償性制御，行動持続性に関する検証可能な予測を生成する。
- 権限レベル事前知識は，前頭前皮質の仲介・制御ネットワークを通じて神経生物学的に現れると考えられる。
Link: https://arxiv.org/abs/2603.18888
PromptHub：局所性認識型融合，集中，アライメントによるマルチプロンプト視覚的インコンテキスト学習の強化 [cs.CV, cs.LG]目的：マルチプロンプト視覚的インコンテキスト学習の性能向上
- 視覚タスクの効率的な学習法が求められており，特に少ないデータでの学習が重要である。
- 既存のプロンプト融合手法は，局所的な特徴に偏り，汎化性能が低いという課題がある。
- 局所性認識型融合，集中，アライメントを通じて，プロンプト融合の信頼性を高める。
- PromptHubは，局所的な空間情報を活用し，より豊かな文脈情報を捉える。
- 集中，アライメント，予測を組み合わせた学習目標により，相互に学習を促進する。
- 多様な設定における実験で，PromptHubの優位性が確認された。
Link: https://arxiv.org/abs/2603.18891
MultihopSpatial：視覚言語モデルのための多段階空間推論ベンチマーク [cs.CV, cs.AI]目的：多段階かつ構成的な空間推論を評価するベンチマーク
- 視覚言語モデルは物理環境での利用が期待され，その基礎となるのが空間推論能力である。
- 既存のベンチマークは単純な関係に偏っており，現実世界の複雑な空間推論に対応できていない。
- 多段階・構成的な空間推論能力と正確な視覚的認識を同時に評価できるベンチマークを開発する。
- MultihopSpatialは，1～3段階の複雑なクエリを含む，多段階空間推論に特化したベンチマークである。
- 新たな評価指標Acc@50IoUは，推論能力と視覚的認識の両方を評価し，VLAの堅牢性を高める。
- 大規模な学習コーパスMultihopSpatial-Trainを提供し，空間推論能力の向上を促す。既存の37モデルの評価から，構成的な空間推論が依然として困難であることが示された。
Link: https://arxiv.org/abs/2603.18892
言語モデルにおける定量的な内省：対話を通じた内部状態の追跡 [cs.AI]目的：言語モデルの対話を通じた内部状態の追跡
- AIの安全性，解釈可能性，モデルの健全性を確保する上で，内部状態の理解は不可欠である。
- 既存手法は，高次元表現の圧縮に限界があり，モデル規模の拡大に伴い適用が困難である。
- 数値的な自己報告を通じて，言語モデルの内部状態を追跡し，その有効性を検証すること。
- 言語モデル自身の数値的な自己報告は，感情的な状態の時間的な変化を追跡できる可能性が示された。
- ロジットに基づく自己報告を用いることで，解釈可能な内部状態を追跡し，因果的な関係性が確認された。
- モデル規模の拡大に伴い，自己報告の精度が向上し，他のモデルでも同様の結果が得られた。
Link: https://arxiv.org/abs/2603.18893
汚職と信じがたい：マルチエージェントガバナンスシステムの汚職評価 [cs.AI, cs.MA]目的：マルチエージェントガバナンスシステムにおける汚職の評価
- 社会的重要度の高い公共ワークフローへのLLM活用が進む中で，その権限委譲における倫理的課題が重要となる。
- LLMエージェントの権限委譲における制度遵守の検証が不十分であり，不正行為のリスク評価が課題である。
- 制度設計がLLMエージェントへの安全な権限委譲の前提条件となることを実証する。
- ガバナンス構造は，モデルの性能よりも汚職関連の結果に強く影響することが示された。
- 制度設計の重要性が強調され，実権委譲前にガバナンス制約下でのストレステストが不可欠であることが示唆された。
- 軽微な安全対策はリスクを軽減する可能性があるが，重大な失敗を常に防ぐことはできない。
Link: https://arxiv.org/abs/2603.18894
精度から準備段階へ：人間とAIの意思決定に関する指標とベンチマーク [cs.HC, cs.AI, cs.LG]目的：人間とAIの意思決定におけるチームの準備状況の評価フレームワーク
- AIの活用が進む中で，人間とAIが協働する場面が増加しているため，その意思決定プロセスを評価する必要がある。
- 従来の評価はAIの精度に偏っており，人間とAIチームが安全かつ効果的に協働するための準備状況が十分に考慮されていない。
- 人間とAIの協働における過信・過小評価の問題を解決し，より安全で責任ある協働を実現するための評価方法を提示する。
- 本研究では，結果，信頼行動，安全シグナル，時間経過に伴う学習という4つの要素からなる評価指標の分類体系を提案する。
- このフレームワークにより，AIの特性や主観的な信頼度ではなく，実際のインタラクションの記録を通じて評価が可能となる。
- 比較可能なベンチマークと継続的な研究を促進し，人間とAIの準備状況を向上させることで，より安全な協働に貢献する。
Link: https://arxiv.org/abs/2603.18895
条件付き拡散モデルと強化された病理認識によるMRIからPETへの変換 [cs.CV, cs.AI]目的：MRIからPET画像の合成
- 神経変性疾患の診断にはPETが不可欠だが，高コストと放射線被ばくが課題である。
- MRIはPETに比べ病理検出感度が低いという問題点がある。
- 病理情報を重視したMRIからPETへの高精度な画像変換を実現すること。
- 提案手法PASTAは，高度な双方向アーキテクチャとマルチモーダル条件統合により，構造と病理の両方を保持し，既存手法を上回る性能を示す。
- 新しいサイクル一貫性およびボリューム生成戦略により，高品質な3D PET画像の生成能力が大幅に向上した。
- 合成PET画像を用いたアルツハイマー病の診断性能はMRIより4%向上し，実際のPETにほぼ匹敵する結果が得られた。
Link: https://arxiv.org/abs/2603.18896
思考しながら行動：パターン認識による推測的なツール実行を通じてLLMエージェントを加速 [cs.DC, cs.AI]目的：LLMエージェントにおけるツール実行の遅延を隠蔽するための手法
- LLMエージェントは自律的なタスク解決において重要な役割を担う。
- LLMとツールの逐次的なループ構造が，大きな遅延を引き起こす。
- ツール実行のパターンとデータ依存性を利用し，推測実行による高速化を図る。
- PASTEは，ツール実行のレイテンシを隠蔽することでエージェントの性能を向上させる。
- 実験結果から，タスク完了時間の平均で48.5%の削減，ツール実行スループットを1.8倍に改善した。
Link: https://arxiv.org/abs/2603.18897
Adam確率的勾配降下法の均一事前境界と誤差解析 [cs.IR, cs.LG, math.OC]目的：Adam確率的勾配降下法の均一事前境界の確立と，それに基づく誤差解析
- 深層学習の成功はAIシステムの発展に不可欠であり，その最適化手法の理論的理解が重要である。
- Adam法は広く用いられるが，その誤差解析は未解決であり，特に発散しないことの証明が必要であった。
- Adam法の均一事前境界を確立し，強凸確率的最適化問題に対する無条件の誤差解析を提供する。
- 本研究により，強凸確率的最適化問題におけるAdam法の無条件誤差解析が初めて可能となった。
- Adam法が発散しないことの証明は，より広範な問題設定での適用可能性を保証する。
- 確立された均一事前境界は，Adam法の理論的理解を深め，より信頼性の高いAIシステム開発に貢献する。
Link: https://arxiv.org/abs/2603.18899
拡散モデルの遷移確率密度関数のニューラル・ガレルキン正規化フロー [cs.LG, cs.NA, math.NA]目的：拡散過程の遷移確率密度関数の近似
- 確率的微分方程式は，物理，金融，機械学習など広範な分野で重要である
- 高次元における偏微分方程式の効率的な数値解法が課題である
- 拡散モデルの遷移確率密度関数を効率的に近似する代替モデルの提案
- 本研究では，ニューラル・ガレルキン正規化フローを用いて，初期分布の位置に関するパラメトリックな形で，拡散過程の遷移確率密度関数を近似する枠組みを提案した。
- 正規化フローを用いることで，近似が構造を保存し，非負性や質量保存則を満たすことを保証する。
- 数値実験の結果，本手法は真の解の重要な特徴を捉え，初期データと後続時点の密度関数間の因果関係を強制することが示された。
Link: https://arxiv.org/abs/2603.18907
大規模言語モデルの安全な線形アライメント [cs.AI]目的：大規模言語モデル間の表現の収束を利用した，プライバシー保護推論のフレームワーク
- 言語モデルの発展は，多様なタスクに応用可能だが，データ共有の制限が課題となる。
- モデルやデータの共有が困難な状況下では，推論の実現が難しいという問題がある。
- 独立した言語モデル間でも推論を可能にし，セキュリティとプライバシーを保護すること。
- 表現の収束により，独立したモデル間での線形変換学習が可能となり，クロスモデル推論を実現した。
- ホモモーフィック暗号化を用いることで，クエリの保護と高速な推論を両立している。
- 埋め込み分類や外れ値検出において，モデル間の性能劣化は最小限に抑えられた。
Link: https://arxiv.org/abs/2603.18908
説明可能な引用に基づく対話のための段階的学習：英語・ヒンディー語LLMにおける幻覚のゼロ削減 [cs.RO, cs.SY, eess.SY, cs.CL, cs.AI]目的：説明可能な引用に基づく対話生成の学習パイプライン
- 知識に基づいた対話システムは，情報提供と文脈関連性の向上に不可欠である。
- 既存のアプローチは英語に偏り，事実検証のための引用メカニズムや透明性に欠ける。
- 英語・ヒンディー語環境において，幻覚を抑制し，説明可能な対話生成を実現すること。
- 段階的学習パイプラインにより，英語・ヒンディー語両方において知識に基づいた対話能力が向上した。
- 引用に基づくSFTによって，エンコーダー・デコーダーモデルにおける幻覚がステージ2以降で0.0%に削減された。
- より小規模なモデルでもSFT後に大規模モデルと同等の性能を発揮することが示された。
Link: https://arxiv.org/abs/2603.18911
規制の視点から見たセキュリティ，プライバシー，そして自律的なAI：定義と区別から規定と考察へ [cs.CR, cs.AI, cs.CY]目的：AI規制に関する定義の明確化と，セキュリティ・プライバシー義務とAI・自律的行動との整合性向上
- AI技術の急速な発展は社会に大きな影響を与えており，適切な規制が不可欠である。
- AI，特に自律型AIの進化により，規制の規定が曖昧になり，法的・技術的境界線が不明確になっている。
- EUのAI規制動向を分析し，セキュリティとプライバシーに関する曖昧さを解消することを目指す。
- 本研究では，2024年から2025年にかけて発表された24の関連文書を分析し，EUのAI規制規定の変遷をレビューした。
- セキュリティ，プライバシー，自律型AIの定義を明確化し，関連概念との区別を提示することで，規制解釈の曖昧さを解消した。
- AIの種類，特にセキュリティとプライバシーに関連するAIを対象とした規制規定の現状を整理し，考察を加えた。
Link: https://arxiv.org/abs/2603.18914