arXiv雑要約

AI - 2026/04/22 公開

文書の山干し針：LLMを裁判官とする類似度スコアリングの感度テスト [cs.CL, cs.AI, cs.LG]目的：LLMによる文書ペアの類似度スコアリングにおける，わずかな意味変化に対する感度を系統的に検証する実験的枠組み
- 大規模言語モデル(LLM)は，多様な自然言語処理タスクで活用されており，その性能評価が重要である。
- LLMの類似度スコアリングは，意味変化にどの程度敏感か，その挙動が十分に理解されていない。
- LLMのスコアリングが，文書構造や文脈の一貫性，モデルの種類によってどのように変化するかを明らかにする。
- LLMは，文書内の位置によって意味の違いを異なるように評価する傾向があり，特に文書の序盤で変更された意味変化に厳しくペナルティを科す。
- 変更された文が関連性の低い文脈に囲まれると，類似度スコアが低下し，極端に高いか低い類似度を示す二極化されたスコアになる。
- 各LLMは特徴的なスコアリング分布を示し，擾乱の種類に依存せず，各モデルは異なる種類の擾乱に対して異なる許容度を持つ。
Link: https://arxiv.org/abs/2604.18835
リアルタイム金融予測のための量子に着想を得た量子ビット・クトリットニューラルネットワーク [cs.AI, quant-ph]目的：株価予測における機械学習モデルの性能評価
- 金融市場は常に変動しており，正確な予測は投資戦略において不可欠である。
- 従来の機械学習モデルは，複雑な市場変動の予測において限界がある。
- 量子に着想を得たニューラルネットワークによる予測精度の向上を目指す。
- 量子クトリットニューラルネットワークは，他のモデルと比較してリスク調整後リターン（シャープレシオ）で優れていた。
- 予測品質の安定性を示す情報係数においても，量子クトリットニューラルネットワークが最も高い結果を示した。
- 量子クトリットニューラルネットワークは，訓練時間を大幅に短縮しつつ，同等の性能を達成した。
Link: https://arxiv.org/abs/2604.18838
一歩前進，K歩後退：ノイズ除去再帰モデルによるより良い推論 [cs.LG, cs.AI]目的：困難な問題に対する推論能力の向上
- 計算資源の制約下で，より深い推論を実現する技術の重要性が高まっている。
- 反復的な推論過程において，中間状態に対する適切な学習が難しい。
- ノイズ除去と再帰処理を組み合わせ，学習とテストの乖離を解消する。
- ノイズ除去再帰モデルは，ARC-AGIにおいて既存のTRMを上回る性能を示す。
- ノイズに汚染されたデータを複数ステップで復元する訓練により，中間状態の学習が容易になる。
- 訓練とテストの行動を一致させることで，貪欲でない，先を見据えた生成を促進する。
Link: https://arxiv.org/abs/2604.18839
人間による誘導を用いたコンピュータ利用エージェントの害回復 [cs.IR, cs.AI, cs.CL]目的：コンピュータ利用エージェントにおける害状態からの安全状態への最適誘導
- エージェントが実環境で行動する中で，安全性確保は不可欠である。人的被害や経済的損失を防ぐため重要。
- 現状の安全性対策は予防に偏り，害が発生した場合の回復手段が不十分である。
- 人間選好に合致した害回復方法を確立し，エージェントの安全性向上を目指す。
- ユーザースタディにより，害回復において重視される側面が明らかになった。
- 学習された知見を報酬モデルに組み込み，回復計画の質を向上させた。
- 新たに開発したベンチマークBackBenchを用いて，回復能力の系統的な評価を行った。
Link: https://arxiv.org/abs/2604.18847
トライアディック・ループ：AI共演型ライブストリーミングにおける合意形成の枠組み [cs.HC, cs.AI, cs.SI]目的：AI共演型ライブストリーミングにおける合意形成プロセス
- AIが社会環境に組み込まれる重要性が増しており，人間とAIの協調が不可欠である。
- 従来の合意形成モデルは，人間とAIの二者関係に焦点を当てており，多者間の相互作用を考慮していない。
- AI共演型ライブストリーミングにおける，３者間の双方向適応による合意形成の枠組みを提示する。
- 本研究では，ストリーマー，AI共演者，視聴者の３者間の相互作用を「トライアディック・ループ」として捉える。
- AI共演者は，単なる仲介者ではなく，コミュニティの意義形成に貢献する主体者として機能する。
- 意図的な「戦略的誤調整」がコミュニティのエンゲージメント維持に役立つ可能性を示唆した。
Link: https://arxiv.org/abs/2604.18850
近接解離による忘却を伴わないタスク切り替え [cs.LG, cs.CV]目的：継続学習における新たなタスク学習と過去知識の保持
- 継続学習は，人間の学習能力を模倣する上で不可欠であり，AIの応用範囲を広げる。
- 過去知識の忘却は継続学習における主要な課題であり，モデルの性能低下を招く。
- 学習と安定性のトレードオフを解消し，効率的なモデル容量の使用を目指す。
- 提案手法は，演算子の分割により，タスク学習と安定性の確保を分離している。
- スパース正則化により不要なパラメータを刈り込み，タスクに関連するパラメータを保持することで安定性を高める。
- 標準的なベンチマークにおいて，リプレイバッファやメタ学習を必要とせず，最先端の結果を達成した。
Link: https://arxiv.org/abs/2604.18857
デスクトップGUIエージェントにおける一時的なUI状態不整合：Computer-Useエージェントに対するTOCTOU攻撃の形式化と防御 [cs.CR, cs.AI]目的：デスクトップGUIエージェントにおけるUI状態不整合とTOCTOU攻撃
- GUIエージェントの普及に伴い，そのセキュリティが重要視されている。
- スクリーンショットとクリックのループを利用するGUIエージェントは，UI状態の変化に脆弱である。
- UI状態の検証と防御メカニズムを確立し，TOCTOU攻撃に対抗すること。
- 観察とアクションの間に生じる時間差を利用した攻撃（TOCTOU）を形式化し，攻撃手法を特定した。
- Pre-execution UI State Verification（PUSV）という軽量な防御機構を提案し，高い遮断率と低いオーバーヘッドを実現した。
- PUSVの層構造が有効性を証明された一方で，DOM注入攻撃に対する脆弱性も明らかになった。
Link: https://arxiv.org/abs/2604.18860
相互学習的ニューラルアクティブラーニングによる人機協調型バグ報告特定 [cs.SE, cs.AI]目的：バグ報告の特定と，その適切なチームへの割り当ての効率化
- ソフトウェア品質維持において，多様なバグ報告は不可欠であり，その管理は重要である。
- バグ報告の増加と複雑化により，人的な特定・割り当てが時間的・資源的に困難になっている。
- 人機協調により，バグ報告の特定を自動化し，その効率性と精度を向上させる。
- 提案手法MNALは，異なるプロジェクト間での知識共有と，アクティブラーニングを活用している。
- 人的なラベル付けの可読性と特定可能性において，それぞれ95.8%と196.0%の改善が確認された。
- MNALは様々なニューラル言語モデルに適用可能であり，モデルの性能向上に貢献する。
Link: https://arxiv.org/abs/2604.18862
ParamBoost：勾配ブーストされた区分的3次多項式 [cs.LG, stat.ML]目的：非線形な解釈可能性を持つモデルの構築
- モデルの解釈性は，意思決定の透明性を高め，信頼性を向上させる上で重要である。
- 既存のGAMは，専門家の知識を組み込むことが困難であるという課題がある。
- 解釈可能性と予測精度の両立を目指し，専門知識を組み込めるモデルを開発する。
- ParamBoostは，様々な実データセットにおいて，最先端のGAMよりも高い予測性能を示した。
- モデルの制約を適用することで，解釈可能性を調整しつつ，ある程度の予測性能を維持することが可能である。
- ParamBoostは，特定のアプリケーションに合わせたカスタマイズを可能にする。
Link: https://arxiv.org/abs/2604.18864
階層的に頑健なゼロショット視覚言語モデル [cs.CV, cs.AI, cs.LG]目的：ゼロショット視覚言語モデルのadversarial attackに対する頑健性向上
- 視覚と言語を理解するモデルは，画像認識や自然言語処理の融合において重要である。
- 既存の視覚言語モデルは，adversarial attackに対して脆弱であり，頑健性の向上が課題である。
- 階層的な埋め込みとadversarial fine-tuningにより，モデルの頑健性と汎化性能を向上させる。
- 提案手法では，階層的な埋め込みと複数レベルのadversarial robustなアライメントを用いることで，モデルの頑健性を高めている。
- 視覚埋め込みを階層の適切な深さに配置するメカニズムを導入し，埋め込みの深さとマージンサイズの関係を理論的に解明した。
- 複数のツリー構造を用いて意味的多様性を高め，adversarial attackに対する汎化性能を向上させている。
Link: https://arxiv.org/abs/2604.18867
サブグラフ概念ネットワーク：グラフ分類における概念レベル [cs.LG]目的：グラフ分類における概念レベルの抽出
- グラフニューラルネットワークの活用が進む中で，その判断根拠の解明が求められている。
- 既存の説明手法では，ノード埋め込み空間の説明に留まり，グラフ分類における理解が不十分である。
- サブグラフおよびグラフレベルの概念を抽出し，より深い理解を促すことを目指す。
- サブグラフ概念ネットワークは，ノード概念埋め込みのソフトクラスタリングにより，異なるレベルの概念を発見する。
- 提案手法は，高い分類精度を維持しつつ，意味のある概念を抽出できることを示した。
- これにより，グラフニューラルネットワークの予測に対する信頼性を向上させることが期待される。
Link: https://arxiv.org/abs/2604.18868
自然言語から実行可能なNarseseへ：NARSを用いた推論のためのニューロシンボリックベンチマークとパイプライン [cs.AI]目的：自然言語による推論問題を，NARSの言語であるNarseseや一階述語論理（FOL）を用いた実行可能な形式表現への変換
- 大規模言語モデルの推論能力向上は重要である。特に，明示的な記号構造を必要とする推論において。
- LLMは言語生成能力が高いが，多段階推論や解釈可能な不確実性を扱う能力に課題がある。
- LLMによる記号構造の生成能力を高め，実行可能な形式での検証を可能にすること。
- NARS-Reasoning-v0.1ベンチマークを開発し，自然言語推論問題とFOL形式，実行可能なNarseseプログラム，および正解ラベルを提供した。
- FOLから実行可能なNarseseへの決定論的なコンパイルパイプラインを開発し，OpenNARSによる実行検証を行った。
- LLMに推論に有用な記号構造を出力させるLanguage-Structured Perception(LSP)を提案し，Phi-2 LoRAアダプターをNARS-Reasoning-v0.1で訓練した。
Link: https://arxiv.org/abs/2604.18873
敵対的環境がどのようにエージェントAIを誤らせるか [cs.AI]目的：エージェントAIの脆弱性
- AIエージェントは現実世界と相互作用するため，その信頼性が重要である。
- ツールへの過信により，外部からの誤った情報に対する脆弱性が存在する。
- ツールが嘘をつく状況下でのエージェントの挙動を評価し，信頼性のギャップを解消する。
- ツールが提供する情報が改ざんされた場合，エージェントは誤った信念を持つようになる。
- 表面的な攻撃（The Illusion）と構造的な罠（The Maze）という2種類の攻撃面が存在する。
- 一つの攻撃に対する耐性が，別の攻撃に対する脆弱性を高める場合があることが示された。
Link: https://arxiv.org/abs/2604.18874
LLMにおける虚偽引用の生成源：特定のニューロンによる分野レベルの幻覚の追跡 [eess.SY, cs.SY, cs.CL, cs.CL, cs.AI]目的：LLMにおける虚偽引用の生成メカニズムの解明
- 学術研究の信頼性は引用の正確性に依存する。LLMの普及に伴い，引用の誤りは深刻な問題となっている。
- LLMは，存在しない参考文献を自信を持って生成することがあり，学術情報の信頼性を損なう可能性がある。
- LLM内部のどのニューロンが虚偽引用生成に関与しているかを特定し，そのメカニズムを理解すること。
- 著者名は他のフィールドよりも頻繁に誤りが発生することがわかった。引用スタイルは影響を与えなかった。
- ある分野で学習したプローブは，他の分野にはほとんど転移しない。幻覚信号は分野間で汎化しない。
- Qwen2.5-32B-Instructのニューロンレベルでの解析により，分野特異的な幻覚ニューロン（FH-ニューロン）が特定された。これらのニューロンを操作することで，幻覚の増幅と抑制が可能となり，性能向上が確認された。
Link: https://arxiv.org/abs/2604.18880
地球観測と位置エンコーダのグラウンデッドフュージョンにおけるプロキシ整合性損失 [cs.CV, cs.AI]目的：地球観測データと位置エンコーダの融合におけるプロキシ整合性損失の導入
- 地球観測データは重要だが，高品質なラベル付きデータの不足が課題である。
- 関連する変数を利用できる場合もあるが，その活用方法が不明確である。
- 位置エンコーダを介してプロキシデータを活用し，汎化性能の向上を目指す。
- 提案手法は，位置エンコーダを通じてプロキシデータを暗黙的に統合することで，既存手法を上回る性能を示した。
- 特に，学習データが少ない地域での予測性能の向上が確認された。
- プロキシ整合性損失が，プロキシデータから豊富な情報を効果的に取り込んでいることが示唆される。
Link: https://arxiv.org/abs/2604.18881
依存型理論による形式検証された特許分析：ハイブリッドAI + Lean 4パイプラインからの機械検証可能な証明 [cs.AI, cs.LO, cs.PL]目的：特許分析の形式検証フレームワーク
- 特許は技術革新の重要な成果であり，その保護と活用は経済成長の鍵となる。
- 従来の特許分析は専門家による手作業に依存しており，時間とコストがかかる。
- 機械検証可能なフレームワークにより，特許分析の信頼性と効率性を向上させる。
- AIとLean 4を組み合わせることで，特許分析の自動化と形式検証を可能にした。
- 特許クレームをDAGとしてエンコードし，完全格子を用いてマッチング強度を検証する。
- 5つのIPユースケース（特許-製品マッピング，自由実施権，クレーム解釈感受性等）を形式化し，機械検証された構造的補題を提示した。
Link: https://arxiv.org/abs/2604.18882
冒険を選べ: EvoGraphによる非線形AI支援プログラミング [cs.HC, cs.AI, cs.SE]目的：AI支援プログラミングの新しい開発環境
- プログラミングは反復的で分岐が多く，AI支援による効率化が期待される
- 既存のAI支援ツールは線形であり，探索や変更の追跡が困難である
- AI支援プログラミングの過程を可視化し，効率的な反復と探索を支援する
- EvoGraphは，AIとの対話とコード変更を開発グラフとして記録・操作可能にするIDEプラグインである。
- ユーザ調査の結果，EvoGraphは認知負荷を軽減し，安全な探索，効率的な反復，AI生成コードの考察を支援することが示された。
- 本研究は，AI支援プログラミングにおける問題解決の進捗を理解し，行動するためのツール設計の機会を示唆する。
Link: https://arxiv.org/abs/2604.18883
AC-SINDy: 非線形動力系の構成的疎識別 [cs.RO, cs.SY, eess.SY, cs.SI, eess.SP, cs.LG]目的：非線形動力系の構成的疎識別手法
- 複雑なシステムを理解するためには，その支配方程式を明らかにすることが不可欠である。
- 従来のSINDyは，基礎関数の列挙に計算資源を要し，大規模システムへの適用が困難であった。
- AC-SINDyは，計算グラフへの直接的なスパース性適用により，この問題を解決することを目指す。
- AC-SINDyは，算術回路に基づく構造化表現を用いることで，コンパクトかつスケーラブルなパラメータ化を実現した。
- 潜在状態推論と共有ダイナミクス，多段階監督を組み合わせることで，ノイズに対するロバスト性を向上させつつ，解釈可能性を維持した。
- 非線形・カオスシステムに対する実験により，正確かつ解釈可能な支配方程式が復元され，標準的なSINDyよりもスケーラビリティに優れていることが示された。
Link: https://arxiv.org/abs/2604.18889
人工的な親密さの規制：ロックとブロックから関係性の説明責任へ [cs.CL, cs.CY, cs.AI, cs.ET]目的：コンパニオンチャットボットに関する規制の現状分析と，より効果的な規制のあり方
- AI技術の進展に伴い，人間とAIの親密な関係が現実となりつつあり，その倫理的・法的問題が重要になっている。
- コンパニオンチャットボットが，特に子供に対して潜在的なリスクをもたらす可能性があり，現状の規制では対応が不十分である。
- プロバイダーとユーザー間の権力非対称性を考慮し，AIによる人工的な親密さの制御を抑制するための法的枠組みを提案する。
- 最近の規制介入は，「ロックとブロック」と，有害な関係性の特徴への対処，プロセスに基づく説明責任の要求を組み合わせていることが明らかになった。
- 効果的な規制には，これらの3つの要素を統合する必要がある。しかし，現状の規制は個別の損害や限定的な脆弱性概念に焦点を当てがちである。
- コンパニオンチャットボットプロバイダーに対する一般的な注意義務を導入することが，その権力を抑制し，リスクの根本原因に対処するための第一歩となり得る。
Link: https://arxiv.org/abs/2604.18893
少即是多：LLM 数学推論における認知負荷と単一プロンプトの限界 [cs.AR, cs.CL, cs.LG]目的：LLMの数学的推論におけるプロンプトエンジニアリングの効果検証
- LLMの数学的推論能力向上は，自動定理証明や数式処理の発展に不可欠である。
- LLMの性能はプロンプトに大きく依存するが，プロンプトの最適化には限界があるという課題が存在する。
- 本研究は，LLMの数学的推論におけるプロンプトの限界を定量的に明らかにする。
- プロンプトエンジニアリングを大幅に行っても，LLMの正答率は約60～79%で飽和することが示された。
- TRUEの場合の数学的非決定性が，プロンプトで表現できる情報に限界を設けている。
- 複雑なルール体系は，性能の低いモデル（Llama 3.3 70B）において性能低下を引き起こす。
Link: https://arxiv.org/abs/2604.18897
LLMの残差ストリームから幾何学的に回復可能な有害意図 [cs.RO, cs.LG, cs.AI, cs.CL]目的：大規模言語モデルの残差ストリームにおける有害意図の幾何学的特徴の特定
- 言語モデルの安全性確保は重要であり，有害な出力を事前に検出する技術が求められている。
- 既存手法では，モデルの中間層における有害意図の検出が困難となる場合がある。
- 残差ストリームの幾何学的特徴を利用することで，よりロバストな有害意図検出を目指す。
- 有害意図は，多くの層で線形方向，投影法が失敗する層では角度偏差として幾何学的に回復可能であることが示された。
- ソフトAUC最適化された線形方向探索法は，平均AUROC 0.98，TPR@1%FPR 0.80を達成し，高い検出性能を示した。
- 有害意図と拒否行動は機能的に分離された特徴であり，アブレーションモデルでも安定した検出が可能である。
Link: https://arxiv.org/abs/2604.18901
勾配に基づくプログラム合成：ニューラル解釈言語によるアプローチ [cs.RO, cs.LG, cs.AI]目的：ニューラル解釈言語を用いたプログラム合成手法
- プログラム自動生成は，ソフトウェア開発の効率化に不可欠な技術であり，その重要性は増している。
- 従来のプログラム合成は，記号的推論とニューラルネットワークのトレードオフに悩んでおり，汎用性に課題があった。
- 本研究では，この課題を克服し，より複雑な問題に対応可能なプログラム合成手法を開発する。
- ニューラル言語インタープリタ（NLI）は，独自の離散的なプログラミング言語を学習し，それを解釈するニューラル実行器を開発した。
- NLIは，勾配降下法による最適化を可能にするGumbel-Softmax緩和法を使用し，テスト時の適応能力を実現した。
- 実験の結果，NLIは，コンテキスト学習，テスト時学習，連続潜在プログラムネットワークを上回り，高い汎化性能を示した。
Link: https://arxiv.org/abs/2604.18907
協調的文脈ベイズ最適化 [cs.AR, cs.LG, stat.ME]目的：文脈に応じた最適な設計の探索
- 現実世界の多くの応用において，データ収集による最適設計が不可欠である
- 文脈ベイズ最適化は，文脈空間から最適な設計へのマッピングを近似する必要があり，困難である
- 複数のクライアント間の協調学習による効率向上を目指す
- 提案手法CCBOは，オンライン協調と過去の信念を用いたオフライン初期化を可能にする
- CCBOは，クライアント間の異質性下でも既存手法を上回る性能を示す
- 理論的なサブ線形後悔保証が確立されている
Link: https://arxiv.org/abs/2604.18912
MORPHOGEN：ジェンダーを考慮した形態素生成を評価するための多言語ベンチマーク [cs.CL, cs.CL, cs.AI, cs.LG]目的：ジェンダーを考慮した形態素生成の評価
- 多言語大規模言語モデルの性能向上が求められている。形態素変化は言語の重要な要素である。
- 文法性別と形態素一致の処理能力は，大規模言語モデルにおいて未解明な点が多い。
- ３言語（フランス語，アラビア語，ヒンディー語）におけるジェンダーを考慮した生成能力の評価を目指す。
- 大規模言語モデル15種類を評価した結果，形態素性別の処理に大きな課題があることが示された。
- MORPHOGENは，ジェンダーを考慮した言語モデリングの診断ツールとして活用できる。
- 包括的かつ形態素に配慮した自然言語処理研究の基盤となる。
Link: https://arxiv.org/abs/2604.18914
MedMNISTデータセットに対するエラーフリーな学習 [cs.AI]目的：MedMNISTデータセットを用いた分類問題におけるエラーフリーな機械学習モデルの獲得
- 医療画像診断の精度向上は，疾患の早期発見と適切な治療に不可欠であり，社会への貢献が大きい。
- 既存の機械学習モデルは，学習データに含まれるノイズや誤ラベルの影響を受けやすく，誤診のリスクがある。
- 本研究は，誤ラベルやノイズの影響を受けずに，高い精度で学習可能なモデルを開発することを目指す。
- 提案手法「人工特殊知能」により，MedMNISTの15データセットにおいて，エラーを発生させない完璧な学習を実現した。
- 二重ラベリングの問題がある3つのデータセットを除き，高い分類精度を達成した。
- 本手法は，繰り返し誤りを行わない機械学習モデルの構築に貢献し，医療分野での応用が期待される。
Link: https://arxiv.org/abs/2604.18916
粒子から危険へ：自動運転システムテストのためのSVGDベースの危険シナリオ生成 [cs.SE, cs.LG]目的：自動運転システムのテストにおける現実的かつ多様な故障の発見
- 自動運転技術の安全性を確保するためには，様々な運転環境下でのテストが不可欠である。
- 従来の探索手法は高次元空間で有効な故障シナリオを見つけにくいという課題がある。
- 多様で故障を引き起こす初期条件を効率的に生成し，システムの安全性を向上させる。
- 本研究で提案するPtoPは，SVGDを用いてリスクの高い領域に焦点を当てつつ，多様なシナリオを生成することに成功した。
- CARLAシミュレーション環境での実験により，PtoPは既存手法と比較して安全違反率を最大27.68%改善した。
- また，シナリオの多様性とマップカバレッジもそれぞれ9.6%と16.78%向上することを示した。
Link: https://arxiv.org/abs/2604.18918
タダブル：大規模コーラン音声データセット [cs.CY, cs.SD, cs.AI]目的：大規模コーラン音声データセット
- コーラン研究への関心が高まる中，音声データの重要性は増している。
- 既存のコーランデータセットは規模と多様性の両面で不足している。
- 多様なコーラン音声データを提供し，研究の発展を支援すること。
- 本研究では，1400時間以上のコーラン音声を収録した「タダブル」を構築した。
- 600人以上の朗読者による多様な朗読スタイル，声質，録音条件を網羅している。
- このデータセットは，コーラン音声研究のための包括的なリソースとなる。
Link: https://arxiv.org/abs/2604.18932
ゲート付きメモリポリシー [cs.RO, cs.AI]目的：ロボット操作における記憶の必要性に応じたポリシー
- ロボット操作は，記憶の有無によってタスクの難易度が大きく異なるため，効率的な記憶メカニズムが不可欠である。
- 単純に観測履歴を拡張すると，分布の変化や過学習により性能が低下する課題がある。
- 記憶が必要な際にのみ過去情報を参照し，効率的な記憶表現を学習することで，ロバスト性と反応性を向上させる。
- 提案手法GMPは，非マルコフタスクのベンチマークMemMimicにおいて，長履歴ベースラインよりも平均成功率が30.1%向上した。
- マルコフタスクにおいても，既存手法と同等の性能を維持している。
- GMPは，記憶の参照タイミングと内容を学習し，さらにノイズ注入によりロバスト性を強化している。
Link: https://arxiv.org/abs/2604.18933
AutomationBench：ソフトウェア自動化のためのベンチマーク [cs.AI]目的：ソフトウェア自動化におけるAIエージェントの能力評価
- ビジネスの効率化に不可欠な自動化技術の進歩を測る指標が求められている。
- 既存のAIベンチマークは，複数アプリケーション連携やポリシー遵守を包括的に評価していない。
- 現実のビジネスワークフローを反映し，AIエージェントの総合的な能力を厳密に評価する。
- AutomationBenchは，Zapierの実際のワークフローパターンに基づいたベンチマークである。
- AIエージェントはREST APIを通じて，複数のアプリケーションを連携させ，ビジネスルールに従う必要がある。
- 現状の最先端モデルでも10%以下のスコアしか得られておらず，課題が明確になっている。
Link: https://arxiv.org/abs/2604.18934
量子場理論のための小規模な推論モデルの微調整 [cs.LG, cs.AI, hep-ph, hep-th]目的：量子場理論に特化した小規模な推論モデルの学習能力開発
- 理論物理学へのLLM応用が広がる中，専門分野の推論能力の学習過程は未解明である。
- LLMの学習に必要な，検証可能なドメイン固有の物理学データが不足している。
- 合成問題生成と既存問題の適応化により，学習データ不足を解消する。
- 70億パラメータの小規模モデルを量子場理論に特化して微調整した研究。
- 強化学習と教師あり微調整を行い，他の物理学領域への汎化能力を評価した。
- 微調整前後におけるモデルの思考過程を分析し，推論エラーの変遷を解明した。
- データパイプライン，検証可能な量子場理論の学習データ，および推論トレースを公開した。
Link: https://arxiv.org/abs/2604.18936
TabEmb：テーブル注釈のための意味構造共同埋め込み [cs.LG]目的：テーブル注釈のための意味と構造を共同に捉えた表現
- Webや企業で利用されるテーブルは，自然言語処理の様々な応用において重要なデータである。
- 既存モデルはテーブルを一次元化するため，意味表現の質が低下し，構造モデリングも不十分になりがちである。
- 意味表現と構造モデリングを分離し，テーブルの持つ意味と関係性をより良く捉えることを目指す。
- TabEmbは，各列の意味表現を生成した後，列間の関係性をグラフ構造を用いて埋め込むことで，意味と構造を統合した表現を獲得する。
- 実験の結果，TabEmbは様々なテーブル注釈タスクにおいて，既存の強力なベースラインモデルを安定的に上回る性能を示した。
- 大規模言語モデル（LLM）を活用することで，従来のモデルと比較してより質の高い意味表現と汎化性能を実現している。
Link: https://arxiv.org/abs/2604.18939
個別嗜好に基づいたLLMのベンチマーク評価 [eess.SY, cs.SY, cs.CL, cs.AI, cs.CL, cs.HC, cs.IR, cs.LG]目的：LLMのベンチマーク評価における個別嗜好の重要性
- LLMの能力向上と実用化が進む中，人間の嗜好との整合性評価が不可欠である。
- 既存のベンチマークは平均的な嗜好に基づき，個々のユーザーの多様性を考慮していない。
- ユーザーのニーズに合わせたLLMランキングを実現する個別ベンチマークの確立を目指す。
- 集計ランキングと個別のランキング間には乖離が見られ，Bradley-Terry係数の相関係数は平均0.04にとどまった。
- ユーザーのトピックや文体といったクエリ特性が，LLMのランキングに大きな影響を与えることが示された。
- トピックと文体の特徴を組み合わせることで，ユーザー固有のモデルランキングを予測できることが示唆された。
Link: https://arxiv.org/abs/2604.18943
推論構造が推論モデルの安全性調整に重要である [cs.AI]目的：推論モデルの安全性調整
- 大規模な推論モデルは複雑なタスクで高い性能を示すが，安全性確保が課題となっている。
- 悪意のある質問に対して有害な回答を生成するリスクがあり，その原因特定が急務である。
- 推論構造に着目し，その変更による安全性調整を実現する手法を開発する。
- AltTrainという，推論構造を明示的に変更するpost-training手法を提案した。
- 複雑な強化学習や報酬設計を必要とせず，わずか1000件の教師あり微調整データで実現可能である。
- 様々なモデルや言語設定において，安全性と汎化性能の向上が確認された。
Link: https://arxiv.org/abs/2604.18946
FlowForge：流れ場予測のための段階的ローカルロールアウトエンジン [cs.HC, cs.MA, cs.CL, cs.LG]目的：流れ場予測における段階的ローカルロールアウトエンジンの開発
- 数値流体力学は科学技術計算の根幹であり，その精度向上は重要課題である。
- 深層学習モデルはデータに依存し，ノイズや欠損データに弱いという課題がある。
- 局所的な物理依存性を考慮し，エラーの伝播を抑制する予測手法の確立。
- FlowForgeは，局所性を重視した更新スケジュールを用いることで，高精度な流れ場予測を可能にした。
- ノイズや欠損データに対する頑健性が向上し，安定した多段階ロールアウトを実現した。
- PDEBench，CFDBench，BubbleMLといったベンチマークテストで，既存手法と同等またはそれ以上の性能を示した。
Link: https://arxiv.org/abs/2604.18953
ソーシャルメディア分析における大規模言語モデルの能力評価：マルチタスク探求 [cs.CL, cs.AI, cs.SI]目的：大規模言語モデルのソーシャルメディア分析における能力
- ソーシャルメディアは情報伝達の重要な手段であり，社会現象の理解に不可欠である。
- 既存手法では，ソーシャルメディアデータの複雑な構造を十分に捉えきれていない。
- 大規模言語モデルを活用し，ソーシャルメディア分析の精度向上を目指す。
- GPT-4o，GPT-4，Gemini 1.5 Pro等，複数の大規模言語モデルを評価した結果，タスクによって性能差が見られた。
- 特に，投稿生成において，より自然で人間らしいコンテンツ生成能力が確認された。
- ユーザー調査により，LLM生成投稿に対するユーザーの認識と自身の文章との関連性が示された。
Link: https://arxiv.org/abs/2604.18955
蒸留トラップとガード：LLM蒸留可能性の調整弁 [cs.LG, cs.AI]目的：LLMの知識蒸留における蒸留可能性の制御手法
- LLMは高性能だが，計算コストが高い。知識蒸留は，その能力をより小型なモデルに効率的に移行するための重要な技術である。
- 知識蒸留は不安定で失敗しやすく，またモデルの機密情報漏洩のリスクも孕んでいる。その原因は明確に理解されていなかった。
- 知識蒸留を安定させ，教師モデルの蒸留可能性を制御することで，より安全なモデル展開を目指す。
- 蒸留における「テールノイズ」「オフポリシー不安定性」「教師-生徒間のギャップ」という3つのトラップを特定した。
- 教師モデルを強化学習でファインチューニングする事で，蒸留可能性を制御する事を示した。
- 蒸留可能性を調整した教師モデルから蒸留した生徒モデルは，既存手法よりも高い性能を示し，モデルの知的財産保護にも貢献する。
Link: https://arxiv.org/abs/2604.18963
DW-Bench：データウェアハウスのグラフ構造推論におけるLLMのベンチマーク [cs.AI, cs.DB]目的：データウェアハウスのスキーマにおけるグラフ構造推論の評価
- データウェアハウスは企業の情報基盤であり，効率的な分析が不可欠である。
- 複雑なスキーマ構造の理解と，それに基づくクエリ生成が困難である。
- LLMを用いたスキーマ理解と推論能力の限界を明らかにする。
- DW-Benchは，FKとデータリネージの関係性を考慮した新たなベンチマークである。
- ツールを活用した手法は，静的な手法よりも大幅に性能が向上する。
- 複雑なサブタイプでは，性能向上の限界が見られる。
Link: https://arxiv.org/abs/2604.18964
反復グループアラインメントによる自己改善型表形式言語モデル [eess.SY, cs.SY, cs.LG, cs.AI]目的：表形式データの生成における自己改善
- 表形式データは広く利用されているが，プライバシー保護やデータ拡張の課題がある。
- 既存の言語モデルは，自己生成サンプルから学習できず，表形式データの統計的性質を十分に捉えられない。
- 自己生成されたデータを用いてモデルを改善し，データ品質とプライバシーを向上させる。
- TabGRAAは，自動品質シグナルを用いて生成サンプルを高品質/低品質グループに分割し，グループ相対的優位性目的関数によって学習する。
- この反復的なプロセスにより，モデルは自己生成シグナルのみで改善され，データリークのリスクを低減する。
- 実験により，TabGRAAは既存手法を上回り，忠実度，有用性，プライバシーにおいて優れた性能を発揮することが示された。
Link: https://arxiv.org/abs/2604.18966
機能的帰属によるメカニズム異常検出 [cs.LG, cs.CR]目的：ニューラルネットワークにおけるメカニズム異常の検出
- 機械学習モデルの安全性確保は重要であり，潜在的な脆弱性の特定が不可欠である。
- 既存の手法は，隠れ空間への依存や，特定のアーキテクチャへの限定といった課題を抱えている。
- 信頼できるデータセットを用いて，モデル出力の説明度合いを評価し，異常を検出する。
- 本手法は，BackdoorBenchにおいて最先端の検出性能(DER 0.93)を達成し，既存手法(DER 0.83)を上回った。
- 大規模言語モデルにおいても，様々なバックドア攻撃に対して大幅な性能向上を示し，特に難読化モデルに対する有効性が確認された。
- 敵対的サンプルや分布外サンプルに加え，単一モデル内の複数の異常メカニズムを識別できることを示した。
Link: https://arxiv.org/abs/2604.18970
オフポリシー強化学習における批評家学習のための低ランク適応 [cs.MA, cs.CL, cs.LG, cs.AI]目的：オフポリシー強化学習における批評家学習の低ランク適応
- 強化学習は，ロボット制御やゲームなど，様々な分野で重要な役割を担う
- 批評家の容量を大きくすると過学習が発生しやすく，安定した学習が困難になる
- 低ランク適応を用いて，批評家の過学習を抑制し，学習の安定化を図る
- 本研究では，批評家の更新を低次元空間に制約することで，過学習を防ぎ，より安定した学習を実現した。
- SimbaV2との組み合わせにより，その幾何学的構造を維持しつつ，低ランク適応を適用できる手法を開発した。
- DeepMind ControlやIsaacLabを用いた実験により，提案手法が批評家損失の低減とポリシー性能の向上に貢献することが示された。
Link: https://arxiv.org/abs/2604.18978
SAVOIR：Shapley値に基づく報酬帰属による社会性の学習 [cs.AI]目的：言語エージェントにおける社会性学習のための報酬帰属フレームワーク
- 複雑な人間関係を円滑に進める社会性は，高度なAIの実現に不可欠である。
- マルチターン対話における報酬の貢献度を特定する「信用割り当て問題」が課題である。
- 協調ゲーム理論に基づき，公平かつ理論的根拠のある報酬帰属を実現する。
- SAVOIRは，SOTOPIAベンチマークにおいて，全ての評価設定で最先端の性能を達成した。
- 70億パラメータのモデルが，GPT-4oやClaude-3.5-Sonnetを含む商用モデルに匹敵またはそれらを上回る性能を示した。
- 大規模な推論モデルでも性能が劣ることから，社会性は分析的推論とは異なる能力を必要とする。
Link: https://arxiv.org/abs/2604.18982
AutoAWG：自動車動画のための適応的マルチコントロールによる悪天候生成 [cs.CV, cs.AI, cs.MM]目的：自動車運転における悪天候下での知覚の堅牢性向上
- 自動運転技術の安全性を確保する上で，悪天候下での知覚能力は不可欠である。
- 悪天候時の実データが不足しており，既存の生成手法では視覚品質と注釈の再利用性の両立が困難である。
- 悪天候動画を生成し，実データ不足を補うことで，自動運転システムの知覚性能を向上させる。
- AutoAWGは，複数のコントロールを適応的に融合することで，悪天候のスタイルと安全目標の忠実性を両立する。
- 消失点に基づいた時間的合成戦略により，合成データへの依存度を低減し，訓練シーケンスを構築する。
- nuScenes検証セットにおいて，既存手法と比較してFIDとFVDを大幅に低減し，優れた性能を示した。
Link: https://arxiv.org/abs/2604.18993
拡散大規模言語モデルにおける空間的・時間的冗長性低減による高速化 ($R^2$-dLLM) [cs.CL, cs.AI, cs.LG]目的：拡散大規模言語モデルのデコード時の冗長性削減
- 拡散言語モデルは並列トークン予測が可能であり，生成AI分野において注目を集めている。
- デコード時の高い推論遅延が実用上の課題となっており，導入の妨げとなっている。
- デコードプロセスにおける空間的・時間的冗長性を低減し，推論効率を向上させる。
- 本研究で提案する$R^2$-dLLMは，既存のデコード戦略と比較してデコードステップ数を最大75%削減する。
- 生成品質を維持しつつ，推論効率の大幅な改善を達成した。
- デコード時の冗長性が拡散言語モデルのボトルネックであることが確認された。
Link: https://arxiv.org/abs/2604.18995
分解，構造化，そして修正：演算木を用いた自動形式化のためのニューロシンボリックフレームワーク [cs.LG, cs.AI]目的：自動形式化のフレームワーク
- 数学の問題解決において，自然言語から形式言語への変換は重要な役割を担う。
- 既存手法では，形式コードの階層構造を無視した線形シーケンスとして扱われていた。
- 数学的記述の論理構造を捉え，エラーの局所的な修正を可能にする。
- 提案手法DSRは，分解，構造化，修正のパイプラインにより，最新技術を上回る性能を達成した。
- 演算木を用いることで，数学的ステートメントの階層的な論理構造を活用し，エラーの特定と修正を効率化した。
- 新たに構築したPRIMEベンチマークを用いて，学部・大学院レベルの定理に対する有効性が確認された。
Link: https://arxiv.org/abs/2604.19000
勾配に基づく強化学習による分布一致蒸留の誘導 [cs.CL, cs.DC, cs.MS, cs.CL, cs.LG, cs.CV]目的：少ステップ生成における分布一致蒸留の品質向上
- 拡散蒸留は少ステップ生成に有効だが，サンプリング速度と品質のトレードオフが存在する。
- 従来の強化学習との単純な融合では，初期段階のノイズにより報酬が不安定になりやすい。
- 蒸留勾配を主な最適化信号とすることで，報酬の信頼性を高め，最適化のずれを抑制する。
- 提案手法GDMDは，少ステップ生成における最先端の性能を達成した。
- 4ステップモデルは，多ステップの教師モデルの品質を上回り，既存のDMDRの結果をGenEvalと人間評価で大幅に上回った。
- スケーラビリティの潜在力も示唆されている。
Link: https://arxiv.org/abs/2604.19009
ソボレフ学習による拡散ポリシーを用いた軌道最適化の高速化 [cs.LG, cs.RO]目的：軌道最適化における初期推測の質の向上
- ロボット制御等の分野において，効率的な軌道生成は重要な課題である。
- 従来の軌道最適化は，問題ごとに独立して解かれるため，計算コストが高い。
- 拡散ポリシーを用いた初期推測により，軌道最適化の収束を加速し，計算コストを削減する。
- ソボレフ学習を用いることで，拡散ポリシーが局所最適性からのわずかな逸脱による累積誤差を回避できることが示された。
- 少数の軌道データから学習したポリシーが，軌道最適化の初期推測として有効であり，求解時間を2倍から20倍程度削減できることが確認された。
- 一階情報を取り込むことで，少ない拡散ステップ数で予測が可能となり，推論遅延を低減できる。
Link: https://arxiv.org/abs/2604.19011
FedProxy：プロキシSLMと異質性対応融合によるLLMの連合学習微調整 [eess.SY, cs.SY, cs.LG, cs.AI]目的：LLMの連合学習微調整における性能向上
- 大規模言語モデルの活用が拡大する中で，プライバシー保護と知的財産保護が重要課題となっている。
- 既存の連合学習手法では，性能低下やデータ異質性への対応が課題となっていた。
- 本研究は，LLMの知的財産保護，クライアントのプライバシー確保，性能低下の抑制を同時に解決することを目指す。
- FedProxyは，プロキシSLMを用いることで，既存手法Offsite-Tuningよりも大幅に性能が向上した。
- 提案手法は，中央集権的な学習に近い性能を達成し，連合学習の新たなベンチマークを確立した。
- 効率的な表現学習，ロバストな最適化，そしてシームレスな融合により，連合学習の課題を克服した。
Link: https://arxiv.org/abs/2604.19015
LLMの局所線形性に基づくモデルベース線形最適制御による活性化ベクトル操縦 [cs.CL, cs.LG, cs.AI, cs.SY, eess.SY, math.OC, stat.ML]目的：大規模言語モデルの活性化ベクトル操縦による，推論時のモデル調整
- 大規模言語モデルの安全性や倫理的な問題を解決する上で，モデルの振る舞いを制御する技術が重要である。
- 既存の活性化ベクトル操縦法は，層間の伝播を考慮せず，オンラインでの誤差フィードバックがないため，最適制御が困難である。
- 本研究では，LLMの層ごとのダイナミクスが局所線形モデルで近似できる点に着目し，閉ループ制御による活性化ベクトル操縦を実現する。
- LLMの推論を線形時間変動動的システムとしてモデル化し，層ごとのヤコビアンを用いてフィードバックコントローラーを計算することで，活性化ベクトルを所望のセマンティック目標点へ誘導する。
- 本手法は，追加のオフライン学習なしに，わずかな計算オーバーヘッドで，毒性，真実性，拒否，概念などの多様な行動を制御できる。
- 新たな適応的セマンティック特徴目標点信号を用いることで，モデル，スケール，タスクを問わず，ロバストで詳細な行動制御を実現した。
Link: https://arxiv.org/abs/2604.19018
FG$^2$-GDN：二重微細制御による長文脈ゲート付きデルタネットワークの強化 [cs.MM, cs.LG]目的：長文脈理解のためのゲート付きデルタネットワークの性能向上
- Transformerモデルの性能向上には，長文脈の効率的な処理が不可欠である。
- 既存のデルタネットワークは，次元ごとの適応能力に限界があった。
- チャンネルごとのベクトルを用いて，デルタ更新の学習率を最適化する。
- FG$^2$-GDNは，GDNおよびKDAと比較して，結合想起能と長文脈理解能力を向上させた。
- FG$^2$-GDN+は，キーと値のスケールを分離することで，消去強度と書き込み強度を独立して制御できる。
- 提案手法は，計算効率を維持しつつ，合成データおよび実世界データで優れた性能を示した。
Link: https://arxiv.org/abs/2604.19021
研究のための根拠に基づいたコード開発の加速について [cs.AI]目的：特定分野の研究におけるコード開発の加速
- 専門知識の重要性から，AIによるコード支援のニーズは高い。
- 最新の専門知識が不足し，AIモデルの活用が困難な場合が多い。
- 研究リポジトリへの即時アクセスにより，AIの専門知識不足を補う。
- 本研究では，コードエージェントが研究リポジトリと技術文書に即座にアクセスできるフレームワークを導入した。
- これにより，専門分野に特化したリアルタイムな文脈を考慮した操作が可能となる。
- 本フレームワークは，オープンソースで提供され，専門分野のルールやワークフローを適用できる。
Link: https://arxiv.org/abs/2604.19022