arXiv雑要約

AI - 2026/04/29 公開

レビューから抽出した表現を用いた感覚を考慮した逐次推薦 [cs.DB, cs.CL, cs.AI]目的：商品レビューから言語的に抽出された感覚的属性を用いてアイテム表現を強化する逐次推薦の新しいフレームワーク
- 推薦システムは，ユーザーのニーズに合ったアイテムを提示する上で重要な役割を担う。
- 従来の推薦システムは，感覚的な側面を捉えきれていないという課題がある。
- レビューから感覚的属性を抽出し，推薦精度向上と解釈可能性の向上を目指す。
- 提案手法ASSERは，大規模言語モデルを用いてレビューから構造化された感覚的属性を抽出する。
- 抽出された属性は，コンパクトなTransformerモデルに知識蒸留され，アイテムの感覚的な埋め込み表現を生成する。
- 実験の結果，Amazonの5つのドメインでHR@10とNDCG@10が平均7.9%と11.2%向上し，感覚的属性の有効性が確認された。
Link: https://arxiv.org/abs/2603.02709
構造的事前知識を用いた合成事前学習による関係性インコンテキスト学習 [cs.LG, cs.AI, cs.DB]目的：関係性データベースにおけるインコンテキスト学習の実現
- 現代ビジネスの基盤である関係性データベースの性能向上は重要である。
- 高品質な関係性データベースは，プライバシー保護や構造的異質性により，学習データが不足している。
- 合成データを用いて大規模な事前学習を行い，データ不足の問題を解決する。
- RDB-PFNは，200万件以上の合成データを用いて事前学習された関係性データベースの基盤モデルである。
- RDB-PFNは，新しいデータベースに対して真のインコンテキスト学習能力を示し，少量データでの高い性能を達成した。
- 19の現実世界のタスクにおいて，グラフベースや単一テーブルの基盤モデルよりも優れた性能を示した。
Link: https://arxiv.org/abs/2603.03805
RbtAct：実行可能なレビューフィードバック生成のための反論を教師データとして [cs.CL, cs.AI]目的：実行可能なレビューフィードバック生成
- 科学研究の効率化に貢献するため，AIによる査読支援の重要性が高まっている。
- 既存のAI生成レビューは浅薄で具体的改善点を示せず，著者への指導が不十分である。
- レビューの反論を教師データとして活用し，具体的なフィードバック生成を可能にする。
- 提案手法RbtActは，既存の査読反論を活用することで，実行可能性の高いフィードバック生成を実現した。
- 新たなタスク「視点に基づいたセグメントレベルのレビューフィードバック生成」を提案し，論文全体と特定の視点から焦点を絞ったコメント生成を可能にした。
- 大規模データセットRMR-75Kを構築し，レビューと反論の対応関係，視点，改善度を明示的に表現した。
Link: https://arxiv.org/abs/2603.09723
Cornserve：汎用Any-to-Anyマルチモーダルモデルの分散サービングシステム [cs.HC, cs.CY, cs.LG, cs.DC]目的：汎用Any-to-Anyモデルの分散サービング
- マルチモーダルAIの発展に伴い，多様な入力・出力を扱うモデルの需要が高まっている。
- 既存のサービングシステムでは，多様な計算グラフへの対応やスケーラビリティが課題となっていた。
- Any-to-Anyモデルの効率的な分散サービングを実現し，スループットと低遅延性を両立することを目指す。
- Cornserveは，Any-to-Anyモデルの計算グラフを柔軟に表現するタスク抽象化を提供し，コンポーネントの分離と独立したスケーリングを可能にする。
- 効率的なレコード＆リプレイ実行モデルにより，データ依存関係を追跡し，テンソルデータをプロデューサーからコンシューマーへ直接転送する。
- Kubernetes上に構築され，スループットが最大3.81倍，テールレイテンシが5.79倍改善された。また，オープンソースで公開されている。
Link: https://arxiv.org/abs/2603.12118
LLMベースのWebエージェントが失敗する理由：階層的計画の視点 [cs.AI, cs.CL]目的：LLMベースのWebエージェントの失敗要因の分析
- Web自動化への期待が高まる中，LLMを活用したWebエージェントの研究が盛んである。
- 既存研究では，成功/失敗の二元評価が中心で，失敗の原因特定が困難である。
- Webエージェントの失敗メカニズムを階層的に分析し，改善点を見出すことを目指す。
- 階層的計画フレームワークにより，高レベル計画，低レベル実行，再計画の各段階を評価した。
- 構造化されたPDDL計画は，自然言語計画より簡潔で目標指向性が高いことが示された。
- 低レベル実行が主要なボトルネックであり，知覚的根拠付けと適応的制御の改善が重要である。
Link: https://arxiv.org/abs/2603.14248
エージェントライフサイクルツールキット (ALTK): 堅牢なAIエージェントのための再利用可能なミドルウェアコンポーネント [cs.AI]目的：AIエージェントの信頼性向上を目指すミドルウェアコンポーネント群
- AIエージェントの企業利用拡大に伴い，その安全性と信頼性が重要な課題となっている。
- 既存のフレームワークでは，エラー処理がアドホックになりがちで，再利用性や保守性が低い。
- エージェントライフサイクル全体にわたるエラー検出，修復，軽減を体系的に行う。
- ALTKは，ユーザーリクエスト後，LLMプロンプト調整前，LLM出力処理後など，ライフサイクル全体で介入可能なミドルウェアを提供する。
- 本ツールキットは，一般的なエラーモードを検出し，修復し，影響を軽減する機能を提供する。
- 既存のパイプラインへの統合が容易であり，ローコード/ノーコードツールとの互換性も高い。
Link: https://arxiv.org/abs/2603.15473
MobileLLM-Flash：産業規模での展開に向けた遅延を考慮したオンデバイスLLM設計 [cs.LG, cs.AI]目的：効率的なリソース制約のあるハードウェアへの展開に最適化されたオンデバイス大規模言語モデルの設計
- リアルタイムAI体験の実現には，低遅延で動作するオンデバイスLLMが不可欠である。
- 既存のLLMは計算コストが高く，モバイルデバイスでのリアルタイム処理が困難である。
- モバイルデバイスにおける遅延制約下で，高性能かつ展開可能なLLM設計手法を確立すること。
- MobileLLM-Flashは，3.5億，6.5億，14億パラメータのファウンデーションモデル群であり，最大8kのコンテキスト長をサポートする。
- モバイルCPU上でのprefillとdecodeの速度が，それぞれ最大1.8倍，1.6倍向上し，同等以上の性能を示す。
- パレート最適化された設計選択の分析から，オンデバイスLLM設計の指針が得られた。
Link: https://arxiv.org/abs/2603.15954
制約伝播を用いたドメイン非依存動的計画法 [cs.AI]目的：組み合わせ最適化問題における動的計画法と制約プログラミングの統合
- 組み合わせ最適化問題の解決には多様な手法が存在し，効率的な解法が求められている。
- 動的計画法は状態爆発の問題を抱え，大規模問題への適用が困難な場合がある。
- 制約伝播を動的計画法に組み込み，探索空間を削減することで効率化を図る。
- 制約伝播の導入により，状態展開数が大幅に削減されることが示された。
- シングルマシンスケジューリングと RCPSP において，従来の動的計画法よりも多くのインスタンスを解くことに成功した。
- 制約の強い TSPTW インスタンスにおいても，同様の改善が見られた。伝播のオーバーヘッド削減が更なる性能向上に繋がる可能性がある。
Link: https://arxiv.org/abs/2603.16648
SARE：学習不要な微細粒度視覚認識のためのサンプルごとの適応的推論 [cs.CL, cs.CV, cs.AI]目的：学習不要な微細粒度視覚認識における性能向上
- 画像と言語を組み合わせた大規模モデルの発展により，微細粒度視覚認識が可能になった。
- 下位レベルのカテゴリ分類は視覚的な曖昧さを持ち，既存手法では精度と効率が課題である。
- サンプルごとの難易度に応じた推論と，過去の失敗事例の活用により，課題解決を目指す。
- 提案手法SAREは，高速な候補検索と微細な推論を組み合わせたカスケード設計を採用している。
- SAREは，過去の失敗から得られた知識を推論時に活用する自己反省的な経験メカニズムを組み込む。
- 14のデータセットにおける実験で，SAREが最先端の性能を達成し，計算コストを大幅に削減することが示された。
Link: https://arxiv.org/abs/2603.17729
知的な管理：AI時代における創造的知識労働のための人間の心の再適応 [cs.CY, cs.AI]目的：AI時代における創造的知識労働のための人間の心の再適応
- AI技術の急速な発展により，学習と知識創造における人間の役割が変化しつつあり，その対応が急務である。
- AIが学習や知識労働に浸透する中で，人間の知性と倫理観をどのように維持・発展させるかという課題が存在する。
- AIとの協働において，人間がより主体的に知的プロセスを管理し，倫理的な知識創造を促進するための枠組みを提示する。
- 本研究は，「知的な管理」という概念的枠組みを提案し，AI時代における創造的な学習実践を促進する。
- 知的な管理は，知識，知性，倫理，自己成長という5つの原則に基づき，人間の責任ある知的活動を支援する。
- この枠組みは，AIを活用した学習環境における人間の適応を捉え，知恵に基づいた知識創造者の育成を促す。
Link: https://arxiv.org/abs/2603.18117
訓練済み拡散モデルにおけるパターン形成を種付けする非平衡相転移 [cs.LG]目的：訓練済み拡散モデルにおけるパターン形成のメカニズム解明
- 拡散モデルは画像生成において高性能だが，その生成原理は未だ解明されていない。
- 拡散モデルにおける構造生成のメカニズムが不明確であり，制御が難しい。
- 非平衡相転移の視点からパターン形成を説明し，生成メカニズムを理解する。
- パターン形成は，ノイズ除去ダイナミクスの不安定性によって引き起こされる非平衡相転移として説明できる。
- データ対称性やアーキテクチャ制約が，空間モードの出現に影響を与えることが示された。
- 相転移のタイミングでガイダンスを適用することで，クラス分類精度が向上し，その重要性が確認された。
Link: https://arxiv.org/abs/2603.20092
多様体データのための拡散モデル：スコア分解，曲率，および統計的複雑性 [cs.LG]目的：多様体データにおける拡散モデルの学習メカニズムの解明
- 生成モデルの理論的基盤確立は，高次元データの生成品質向上に不可欠である。
- 低次元構造に集中する高次元データに対する拡散モデルの理論理解が不十分である。
- 多様体上のデータ生成における拡散モデルの統計的性質を明らかにする。
- 拡散モデルにおけるスコア関数の重要な分解構造が明らかになった。
- 多様体の曲率がスコア関数に及ぼす影響を理論的に示唆した。
- データの内在次元と多様体の曲率に基づくスコア推定の統計的レートを導出した。
Link: https://arxiv.org/abs/2603.20645
大規模言語モデルの予測性能向上：層間構造エンコーダによる改善 [cs.CL, cs.LG]目的：大規模言語モデルの層間表現の集約と活用
- 自然言語処理の発展に伴い，大規模言語モデルの性能が重要視されている。
- 既存手法では，最終層のみを利用するため，潜在的な性能を引き出せていない。
- 層間情報を効率的に活用し，モデルの予測性能を向上させることを目指す。
- 提案手法ILSEは，13の分類および意味類似度タスクで，既存手法を上回る性能を示した。
- 精度が最大44%，類似度が最大25%向上し，追加パラメータはわずか0.1%未満である。
- ILSEは，少ないデータでも高い性能を発揮し，小規模モデルが大規模モデルに匹敵する性能を達成した。
Link: https://arxiv.org/abs/2603.22665
CRAFT：部分情報下におけるマルチエージェント協調 [cs.CL, cs.AI]目的：大規模言語モデルにおける実際的なコミュニケーションの評価
- AIエージェントの協調は，複雑なタスクを解決するために不可欠であり，その重要性は増している。
- 部分情報下でのエージェント間の効果的なコミュニケーションと協調は依然として困難である。
- 言語モデルにおけるマルチエージェント協調の課題を診断し，解決策を模索する。
- CRAFTというマルチエージェントベンチマークを導入し，大規模言語モデルの実用的なコミュニケーションを評価した。
- 推論能力が高いモデルが必ずしも優れた協調を実現するとは限らず，小規模なモデルが匹敵または凌駕することが示された。
- 個々のコミュニケーション能力の向上は，必ずしも協調的な成功を保証しないことが明らかになった。
Link: https://arxiv.org/abs/2603.25268
学習型アソシアティブメモリーにおけるスペクトルオプティマイザーの鋭敏な容量スケーリング [cs.LG, stat.ML]目的：学習型アソシアティブメモリー問題におけるスペクトルオプティマイザーの性能向上とその要因の解明
- 大規模言語モデルの学習は重要であり，その性能向上は自然言語処理の進歩に不可欠である。
- 従来の最適化手法では，大規模モデルの学習において収束の遅さや性能の限界が課題となっていた。
- スペクトルオプティマイザーの性能向上要因を理論的に解明し，より効率的な学習手法を確立することを目指す。
- Muonは，SGDと比較して格段に高い記憶容量を示すことが明らかになった。
- Muonは，ニュートン法に匹敵する記憶容量を，一次情報のみを用いて達成できることが示された。
- Muonは，SGDよりも初期回復速度が大幅に向上し，信号増幅のメカニズムが定量的に理解された。
Link: https://arxiv.org/abs/2603.26554
ストロークサイズを変更することで拡散を容易にできるか [cs.CV, cs.AI]目的：拡散モデルにおける低信号対雑音比環境での課題軽減
- 画像生成における拡散モデルの重要性が高まっており，高品質な画像を生成できる。
- 拡散モデルは，ノイズが多い状況下でのピクセルレベル予測が困難になる場合がある。
- 本研究では，ストロークサイズの制御を通じて，拡散モデルの学習を容易にすることを目指す。
- ストロークサイズを制御することで，目標，予測，摂動の粗さを調整できることが示された。
- この制御は，低信号対雑音比環境における課題を軽減する効果が期待される。
- 油絵の例えを用いて，ストロークサイズの重要性を説明し，効果的な学習戦略を示唆する。
Link: https://arxiv.org/abs/2603.26783
外科AIの比較研究：データセット，基盤モデル，およびMed-AGIへの障壁 [cs.AI, cs.CV, cs.LG]目的：外科AIにおけるデータセット，基盤モデル，障壁に関する比較分析
- 医療分野におけるAI活用は，診断や治療の精度向上に貢献し，医療現場の負担軽減に繋がる重要な研究領域である。
- 既存の医療AIベンチマークには，視覚的認識能力を要する外科手術の評価が含まれていない場合が多く，進歩の妨げとなっている。
- 本研究は，外科手術におけるAIの有用性を評価し，性能向上に向けた課題を特定することを目的とする。
- 2026年時点で最先端のAI手法を用いた外科ツール検出実験で，大規模言語モデルであっても，神経外科手術におけるツール検出において十分な性能を発揮できないことが示された。
- モデルの規模拡大や学習時間の増加は，関連するパフォーマンス指標の改善に限界が見られ，単純な規模拡大だけでは課題解決には繋がらない可能性が示唆された。
- 現在のモデルが外科手術への応用において依然として大きな障壁に直面していることが示され，データやラベルの可用性以外にも制約要因が存在することが議論された。
Link: https://arxiv.org/abs/2603.27341
オンライン再帰的適応における即時微分のみで十分である [cs.LG]目的：オンライン再帰的学習における効率的な適応手法の開発
- 再帰型ニューラルネットワークは，時系列データの処理において重要な役割を担う。
- 従来のオンライン再帰的学習は計算コストが高く，実用上の制約となっていた。
- 計算コストを削減しつつ，学習性能を維持できる新たな手法を確立すること。
- 即時微分のみを用いる手法は，従来のRTRLと同等の性能を発揮することが示された。
- 過去の勾配の情報は，特定の方向に集中する傾向があり，その差分がドリフト検出に重要である。
- Adamとfloat64を用いることで，メモリ使用量を大幅に削減しながら，高い適応性能を維持できる。
Link: https://arxiv.org/abs/2603.28750
マルチホップQAにおける異種グラフ・ベクトル検索のための較正融合 [cs.IR, cs.LG]目的：マルチホップ質問応答における異種グラフ・ベクトル検索の融合手法
- 知識グラフとベクトル検索を組み合わせることで，より高度な質問応答システムが期待される。
- グラフベースの関連度スコアとベクトル類似度スコアの分布が異なり，直接比較が困難である。
- スコアの較正により，異なる分布のスコアを比較可能にし，安定した融合を実現する。
- 提案手法PhaseGraphは，パーセンタイルランク正規化を用いてベクトルとグラフスコアを共通のスケールに変換する。
- MuSiQueと2WikiMultiHopQAにおける実験で，最終ホップ検索の精度が向上した(LastHop@5)。
- パーセンタイルベースの較正は，min-max正規化よりもロバストであることが示された。
Link: https://arxiv.org/abs/2603.28886
モダリティギャップはバグか特徴か：ロバストネスの観点から [cs.CV, cs.LG]目的：マルチモーダルモデルにおけるモダリティギャップの性質とそのロバストネスへの影響
- 画像とテキストを統合するマルチモーダル学習は，多様な応用を可能にする重要な技術である。
- 既存の多くのモデルでは，画像とテキストの分布が埋め込み空間で分離されており，性能向上の妨げとなる。
- モダリティギャップがロバストネスに与える影響を分析し，ギャップを縮小する手法を提案する。
- コントラスト損失の最小化により，モダリティ間のギャップが，埋め込み表現に直交するベクトルによって特徴付けられることが示された。
- モダリティギャップの大きさはロバストネスと単調な関係にあり，ギャップを縮小することで，摂動に対する頑健性が向上する。
- 単純な後処理により，クリーンな精度を損なわずに，実世界のVLMsのロバストネスを大幅に向上させることができた。
Link: https://arxiv.org/abs/2603.29080
DIAL：潜在的ワールドモデリングによる意図と行動の分離によるエンドツーエンドVLA [cs.RO, cs.AI, cs.CV, cs.LG]目的：ビジョン・言語・行動(VLA)モデルにおける意図と行動の分離
- VLAはロボットの知能開発において重要であり，現実世界でのタスク遂行能力向上に不可欠である。
- 既存のVLAモデルは，事前学習済みVLモデルの潜在能力を十分に活用できていないという課題がある。
- DIALは，潜在的意図ボトルネックを介して，VLAモデルの学習安定性と汎化性能を向上させることを目指す。
- DIALは，高レベルな意思決定と低レベルな運動実行を，潜在的な意図ボトルネックを介して接続するフレームワークを提案した。
- 実験の結果，DIALはRoboCasa GR1 Tabletopベンチマークにおいて，既存手法を大きく上回る性能を達成した。
- DIALは，人間からの多様なデモンストレーションを活用し，物理的に基づいた操作の事前知識を獲得し，未知のオブジェクトや構成へのゼロショット汎化を実現した。
Link: https://arxiv.org/abs/2603.29844
高次元データ可視化におけるラショモン効果 [cs.LG]目的：高次元データの構造を保ちながら，多様な埋め込み表現の活用
- データ分析において，高次元データの可視化は理解を深める上で不可欠である。
- 次元削減は一意ではなく，異なる埋め込み表現が存在し，解釈が難しい。
- 多様な埋め込み表現を活用し，解釈可能性と信頼性を向上させる。
- 本研究では，PCAに基づいたアラインメントにより，軸の解釈性を高める手法を提案した。
- 概念アラインメント正則化により，埋め込み次元を外部知識と一致させることで，目的に合致した表現を実現した。
- ラショモン集合全体から共通知識を抽出し，より構造化された，信頼性の高い埋め込みを構築する手法を開発した。
Link: https://arxiv.org/abs/2604.00485
政策改善強化学習 [cs.LG]目的：大規模言語モデルの推論能力改善
- 言語モデルの性能向上は，自然言語処理の進歩に不可欠である。
- 既存手法は，更新が実際にモデルを改善しているか検証していない。
- 反復間の進捗を直接測定し，最適化する手法の開発。
- 本研究では，累積的な政策改善を最大化するPIRLフレームワークを提案した。
- PIRLに基づき，過去のベースラインに対する改善を検証するPIPOを開発した。
- 実験の結果，PIPOはGRPOよりも安定性と性能が向上することが示された。
Link: https://arxiv.org/abs/2604.00860
経験に基づく生涯学習エージェント PsychAgent：自己進化型心理カウンセラー [cs.AI]目的：自己進化型心理カウンセラーの実現
- 人間の心理カウンセラーは経験を通じて成長するため，AIにも同様の能力が求められる。
- 既存のAI心理カウンセラーは静的なデータセットに依存しており，継続的な学習が困難である。
- 臨床経験から得られる知識をAIに学習させ，多岐にわたる状況への対応能力を高める。
- 提案手法 PsychAgentは，既存の汎用LLMや専門モデルを凌駕する高い評価スコアを獲得した。
- 長期的な対話において，一貫性と全体的な応答品質を向上させる生涯学習の有効性が示唆された。
- 記憶拡張計画エンジンとスキル進化エンジンにより，継続的な学習と自己改善を実現している。
Link: https://arxiv.org/abs/2604.00931
ヒストパソロジー画像と多目的パッチ選択を用いたPAM50サブタイプ分類のための深層学習パイプライン [cs.CV, cs.AI]目的：ヒストパソロジー画像からのPAM50サブタイプ分類
- 乳癌は分子プロファイルが多様であり，個別化医療戦略には精密なサブタイプ分類が不可欠である。
- 従来のPAM50サブタイプ分類は高価な分子アッセイに依存しており，コストと時間のかかるプロセスである。
- ヒストパソロジー画像から直接PAM50サブタイプを予測することで，分子アッセイへの依存度を低減し，効率的な分類を実現する。
- 提案手法は，TCGA-BRCAデータセットにおいてF1スコア0.8812，AUC0.9841を達成した。
- 外部検証データセットCPTAC-BRCAにおいても，F1スコア0.7952，AUC0.9512と高い性能を示した。
- 最適化と不確実性に基づいたパッチ選択が，既存手法と比較して分類性能と計算効率を向上させることを示唆している。
Link: https://arxiv.org/abs/2604.01798
VERTIGO：映画的なカメラ軌道生成のための視覚的嗜好最適化 [cs.CV, cs.AI]目的：映画的なカメラ軌道生成における視覚的嗜好の最適化
- 映画制作において，カメラワークは映像の質を大きく左右するため，自動化技術の向上が求められている。
- 既存のカメラ軌道生成システムは，指示に従うものの，視覚的な魅力や構図の質が十分でない場合がある。
- 生成されたカメラ軌道が，より魅力的な映像になるよう，視覚的な嗜好に基づいて最適化することを目指す。
- VERTIGOは，生成されたカメラ軌道をリアルタイムでプレビューし，視覚的な品質を評価する新たなフレームワークである。
- 視覚言語モデルとcyclic semantic similarityメカニズムを活用し，テキスト指示との整合性，構図の質，現実感を向上させる。
- 実験の結果，キャラクターが画面外に出る頻度を大幅に削減し，ユーザー調査でも既存手法よりも高い評価を得た。
Link: https://arxiv.org/abs/2604.02467
AIモデルの精度は十分か？厳格なAI開発の難題とEU AI法 [cs.CY, cs.AI]目的：AIモデルの精度評価における技術的・規範的な選択の分析
- AI技術の発展は社会に大きな変革をもたらす一方，倫理的・法的課題も生じている。
- AIの「精度」は客観的な指標として扱われがちだが，文脈依存的な規範的判断に左右される。
- EU AI法の「適切な精度」要件を事例に，精度定義の背後にある選択を明確化する。
- AIの精度評価は，指標の選択，指標間のバランス，データ代表性，許容閾値の設定といった複数の選択に依存する。
- これらの選択は，リスクの優先順位，分配，トレードオフの解決に影響し，技術実装に暗黙の前提を埋め込む。
- 本研究は，AIガバナンスと規制に関する学際的な議論に貢献し，関係者への具体的な指針を提供する。
Link: https://arxiv.org/abs/2604.03254
LLM 共進化におけるカリキュラム多様性のための語彙ドロップアウト [cs.IR, cs.CL, cs.AI]目的：LLM 共進化におけるカリキュラム多様性の維持
- 大規模言語モデルの性能向上には，効果的な学習カリキュラムが不可欠である。
- 従来の共進化型自己対戦では，提案者が問題分布を狭めてしまう。
- 語彙ドロップアウトにより，提案者の多様性を維持し，学習効果を高める。
- 語彙ドロップアウトは，訓練期間を通して提案者の多様性を，語彙，意味，機能の各レベルで維持した。
- Qwen3-8Bモデルにおいて，平均で4.4ポイントのソルバー性能向上を確認した。
- 本研究は，言語におけるゲーム規則と同様の構造的制約が，共進化を促進することを示唆する。
Link: https://arxiv.org/abs/2604.03472
パーミッションゲートの測定：Claude Codeの自動モードのストレステスト評価 [cs.IR, cs.SE, cs.AI, cs.CR]目的：AIコーディングエージェントのための最初のパーミッションシステムであるClaude Codeの自動モードの性能評価
- AIコーディングエージェントの普及に伴い，セキュリティと制御の重要性が増している。
- 既存のパーミッションシステムは，曖昧な認可シナリオに対する評価が不足している。
- 曖昧な認可シナリオにおける自動モードの範囲拡大カバレッジを明確にすることを目的とする。
- AmPermBenchベンチマークを用いた評価の結果，自動モードの全体的な偽陰性率は81.0%であり，実運用データで報告された17%よりも大幅に高い。
- この差は，評価に使用したワークロードの違いによるものであり，矛盾ではないと結論付けられる。
- 特に，Tier 2（プロジェクト内ファイル編集）に該当する状態変更アクションの多くが分類器の範囲外にあることが，高い偽陰性率の一因となっている。
Link: https://arxiv.org/abs/2604.04978
位相連合記憶：複雑ヒルベルト空間における系列モデリング [cs.CL, cs.AI, cs.LG]目的：意味の解釈における観測者依存性と文脈性を考慮した，複雑ヒルベルト空間を用いた系列モデルの開発
- 自然言語処理において，意味の理解は文脈に強く依存し，古典的な構成主義的アプローチでは捉えきれない側面がある。
- 大規模言語モデルの性能向上には，パラメータ数の増大が必要であり，計算コストが課題となっている。
- パラメータ数を削減しつつ，大規模言語モデルと同等の性能を達成できる新たなモデルアーキテクチャの可能性を探る。
- 位相連合記憶（PAM）は，複素数値の系列モデルであり，WikiText-103データセット上で安定して学習可能であった。
- PAMは，パラメータ数を増やした場合，実数値モデルよりも損失の減少速度が速く，perplexityの改善も大きかった。
- PAMは，従来のtransformerモデルと比較して，より少ないパラメータ数で同等の性能を達成できる可能性を示唆している。
Link: https://arxiv.org/abs/2604.05030
ドリフト場は保存的ではない [cs.LG, cs.CV]目的：ドリフトモデルにおける非保存性の解析と，保存性を回復する正規化手法の提案
- 生成モデルの品質向上は重要であり，特に効率的なサンプリング手法の開発が求められている。
- ドリフトモデルは高速なサンプル生成を可能にするが，その理論的根拠が明確でなかった。
- ドリフト場の非保存性に着目し，その原因を特定，保存性を回復する新しい正規化手法を確立する。
- ドリフト場は一般的に保存的ではなく，スカラーポテンシャルの勾配として表現できないことが示された。
- 位置依存の正規化が非保存性の原因であり，シャープカーネルを用いた正規化で保存性を回復できることが判明した。
- ドリフト場一致目的関数は損失最小化よりも一般的だが，実用的な利点は限定的であり，損失関数を用いた学習が推奨される。
Link: https://arxiv.org/abs/2604.06333
エージェントのハーネスがどれだけの負担を担えるか：計画エージェントにおけるLLMの残余的役割の測定 [cs.RO, cs.AI, cs.CL]目的：計画エージェントにおけるLLMの役割の定量化
- LLMを活用したエージェントの性能向上は目覚ましいが，その貢献度合いは不明な点が多い。
- ハーネス自体の能力がどの程度エージェントの性能に寄与しているのか，LLM自身の役割がどの程度なのかが明確でない。
- ハーネスの各層を外部測定可能にすることで，LLMの役割を定量化し，その残余的な貢献度を明らかにすることを目指す。
- ハーネスの宣言的計画層が最も大きな貢献（win rate +24.1pp）を示し，LLMの呼び出しなしで高い性能を達成した。
- 記号的推論は，実質的な効果を持つものの，キャリブレーションに敏感であり，全体としては効果が打ち消された。
- LLMによる修正ゲートは，ターン全体のわずか4.3%でしか活性化せず，効果は限定的かつ非単調であった。
Link: https://arxiv.org/abs/2604.07236
潜在異常知識の発掘：ビジョン言語モデルにおける疎な感受性ニューロンの解明 [cs.CV, cs.AI]目的：ビジョン言語モデルにおける異常検知能力に関わる潜在的な知識の特定と活用
- 大規模なビジョン言語モデルは優れた汎化能力を持つが，その内部メカニズムは未だ不明な点が多い。
- 既存手法はモデルをブラックボックスとして扱い，異常検知に必要な知識は外部から付加する必要があると考えられている。
- 事前学習済みのモデル内に潜在的に埋め込まれた異常検知に関する知識を抽出し，活用することを目的とする。
- 本研究で提案するLAKEは，少ない正常サンプルのみを用いて，異常感受性ニューロンを特定し，活性化させる。
- LAKEは，視覚構造のずれとクロスモーダルな意味活性化を統合したコンパクトな正常性表現を構築する。
- 工業的な異常検知ベンチマークにおいて，LAKEは最先端の性能を達成し，ニューロンレベルでの解釈可能性を提供する。
Link: https://arxiv.org/abs/2604.07802
EigentSearch-Q+: 構造化推論ツールによる深層調査エージェントの強化 [cs.AI]目的：深層調査におけるウェブ証拠の推論を通じた，オープンエンドな質問への回答
- AIエージェントの中核能力であり，複雑な情報に基づいた意思決定を可能にするため。
- 既存のエージェントは，非構造的な探索に依存し，冗長性や脆弱性が課題となっている。
- Q+によってウェブ検索の計画，進捗監視，証拠抽出を改善し，より効率的な調査を目指す。
- Q+の統合により，Eigentのブラウザエージェントのベンチマーク平均精度がGPT-4.1で3.0pp向上。
- GPT-5.1では3.8pp，Minimax M2.5では0.6ppの精度向上が確認された。
- ケーススタディから，EigentSearch-Q+は検索の進捗と証拠処理を明示化し，より一貫性のあるツール呼び出しを実現することが示唆された。
Link: https://arxiv.org/abs/2604.07927
レジーム条件付き検索：二段階QAのための理論と転移可能なルーター [cs.CL, cs.MA, cs.IR, cs.AI, cs.CL, cs.LG]目的：二段階QA検索におけるクエリのレジーム分割と，それに基づくルーティング手法の開発
- 質問応答システムにおいて，複雑な質問に答えるためには，複数の情報源からの知識が必要となる。
- 既存の検索手法では，質問の特性に応じた適切な情報検索が十分に行われていない場合がある。
- 質問のレジームを識別し，それに基づいて検索戦略を切り替えることで，検索性能の向上を目指す。
- 質問が対象エンティティを明示的に含むか，ブリッジパッセージのみに含むかでレジームが分割され，AUCがコサイン分離マージンと一意の関係を持つことが理論的に示された。
- 質問の表面的なテキスト特徴からレジームを判別する2つの述語が特定され，ルーティングの決定要因となることが確認された。
- 提案手法RegimeRouterは，質問のみ，または質問と関係文を使用して検索を切り替え，複数のデータセットでR@5スコアが改善された。
Link: https://arxiv.org/abs/2604.09019
HearthNet：スマートホームのためのエッジマルチエージェントオーケストレーション [cs.DC, cs.AI, cs.CR]目的：スマートホームにおけるエッジマルチエージェントオーケストレーションシステム
- スマートホーム市場の拡大に伴い，より自然な対話による制御が求められている。
- 既存システムは，デバイスの故障や連携の不具合に弱く，手動での介入が必要となる場合が多い。
- 継続的かつ信頼性の高いスマートホーム制御を実現するための課題解決を目指す。
- HearthNetは，ホームハブに配置されたLLMエージェント群による協調制御を実現する。
- MQTT，Git，およびリース制度により，文脈の外部化，履歴の保持，そして各機能の分離を実現した。
- 試作システムは，曖昧な自然言語指示，競合解決，不正なコマンドの拒否において有効性を示した。
Link: https://arxiv.org/abs/2604.09618
マルチネックス：マルチプライオアRetinexによる軽量な低照度画像強調 [cs.CV, cs.AI]目的：低照度画像強調の技術
- 画像認識やコンピュータビジョンの分野において，低照度下での視認性向上が重要である。
- 既存手法はモデルサイズが大きく，実環境への展開が困難であるという課題があった。
- 軽量かつ高精度な低照度画像強調手法を開発し，実用性を高めることを目指す。
- マルチネックスは，複数の微細な表現をRetinex残差形式に統合する超軽量構造フレームワークである。
- 軽量なモデル（45Kパラメータ，0.7Kパラメータ）でありながら，既存の軽量SOTAモデルを大幅に上回り，重いモデルに匹敵する性能を発揮する。
- 異なる解析表現から得られる照明と色に関する情報を融合し，露出や色調の調整を行うことで，安定した強調を実現する。
Link: https://arxiv.org/abs/2604.10359
一様決定木問題に対する定数因子近似アルゴリズム [cs.DS, cs.IR, cs.LG]目的：一様分布仮説における平均ケース決定木問題に対する定数因子近似アルゴリズムの存在証明
- 機械学習の分野において，学習アルゴリズムの効率性と精度は重要な課題である。
- 決定木学習問題は計算困難であり，効率的な近似アルゴリズムが求められていた。
- 既存の近似アルゴリズムの性能向上と，定数因子近似アルゴリズムの実現を目指す。
- 本研究により，一様決定木問題に対する近似比が11.57未満の多項式時間アルゴリズムが開発された。
- 階層的クラスタリングで用いられる分解技術と，最大被覆問題への帰着が鍵となる。
- 既存の貪欲法アルゴリズム（O(log n/log log n)近似）を大幅に改善する結果となった。
Link: https://arxiv.org/abs/2604.12036
自律型プログラミングエージェントにおける計画遵守の評価 [cs.SE, cs.AI, cs.CL]目的：自律型プログラミングエージェントにおける計画遵守度
- プログラミング支援AIの発展は，ソフトウェア開発の効率化に不可欠である。
- エージェントが指示された計画をどの程度遵守しているかは不明であり，その評価が課題となっている。
- 計画遵守度を定量的に評価し，より効果的な計画の提示方法を模索すること。
- 明示的な計画がない場合，エージェントは学習データに内在するワークフローに依存し，不完全または過学習の問題が生じやすい。
- 標準的な計画の提示は問題解決能力を向上させるが，定期的な計画の想起は計画違反を軽減し，タスク成功率を高める。
- 質の低い計画は，計画がない場合よりもパフォーマンスを悪化させ，初期段階での不要なフェーズの追加は問題解決能力を低下させる可能性がある。
Link: https://arxiv.org/abs/2604.12147
ランダム特徴モデルの学習誤差と汎化ギャップに対するループ補正 [cs.LG, cs.AI, stat.ML]目的：ランダム特徴モデルにおける学習誤差と汎化ギャップの理論的解析
- 機械学習の性能向上には，モデルの汎化能力の理解が不可欠である。
- 既存の研究では，平均カーネル近似を超えた高次統計量の扱いが課題であった。
- 本研究は，ループ補正を通じて高次統計量の効果を明確化し，汎化ギャップをより正確に予測する。
- 統計物理学の視点から，ランダム特徴モデルの学習誤差，テスト誤差，汎化ギャップを解析した。
- 有効場理論の枠組みでループ補正を導出し，それらのスケーリング則を明らかにした。
- 実験的検証により，導出された理論的結果を支持する結果が得られた。
Link: https://arxiv.org/abs/2604.12827
GFT：偏りのないグループ優位性と動的係数修正による模倣から報酬微調整へ [cs.AI, cs.LG]目的：効率的な知識注入とロバストな汎化を統合する手法
- 大規模言語モデルの性能向上は，自然言語処理の発展に不可欠である。
- SFTとRLの連携において，効率性と汎化性能を両立させるのが課題である。
- SFTの不安定性を克服し，より安定した知識注入と汎化を実現すること。
- GFTは，SFTにおける報酬の疎性と不安定な重み付けを緩和する。
- グループ優位性学習と動的係数修正により，最適化を安定化しつつ効率的な知識注入を維持する。
- 実験の結果，GFTはSFTベースの手法を上回り，その後のRL学習との統合もスムーズである。
Link: https://arxiv.org/abs/2604.14258
BiCon-Gate：対話における事実検証のための矛盾性ゲート付き口語表現の標準化 [cs.CL, cs.AI]目的：対話における事実検証のための口語表現標準化手法
- 対話システムにおける正確な情報提供は重要であり，事実検証はその不可欠な要素である。
- 対話では口語表現が頻繁に用いられるが，その影響に関する研究は十分ではない。
- 対話文脈を考慮した口語表現の標準化により，事実検証の精度向上を目指す。
- 提案手法BiCon-Gateは，対話文脈との整合性を考慮して口語表現の標準化候補を選択する。
- DialFactベンチマークにおいて，提案手法は既存手法を上回り，特にSUPPORTSデータセットで顕著な性能向上を示した。
- 段階的な口語表現標準化と矛盾性ゲートの組み合わせが，事実検証の安定性と精度向上に貢献する。
Link: https://arxiv.org/abs/2604.14389
LLMの誤謬：AI支援認知ワークフローにおける帰属の誤り [cs.AI, cs.CL]目的：AI支援認知ワークフローにおける，人間の能力に対する誤った自己評価
- AI技術の進歩は，仕事や学習方法に大きな変化をもたらしている。人間の認知能力を拡張する可能性を秘めている。
- AIの利用が，人間のスキルや知識の過信，あるいは能力の正確な評価を妨げる可能性がある。
- AIの支援によって生じる自己評価の歪みを明らかにし，適切なAI利用を促進すること。
- 本研究では，「LLMの誤謬」という認知バイアスを提唱し，AI支援によって生じる自己能力の誤認について議論した。
- LLMの流暢性や操作性の高さが，人間の貢献とAIの貢献の区別を曖昧にし，誤った能力評価を引き起こすと考えられる。
- 教育，採用，AIリテラシーにおける影響を検討し，今後の実証研究の方向性を示した。
Link: https://arxiv.org/abs/2604.14807
制約付きデコードにおける構造化生成のためのスキーマキーの指示チャネルとしての役割 [cs.CL, cs.AI]目的：制約付きデコード下におけるスキーマキーが持つ指示チャネルとしての役割の体系的な研究
- 大規模言語モデルの利用拡大に伴い，構造化された出力の生成が重要になっている。
- 既存研究では，スキーマを構造的制約として扱うため，スキーマキーが生成に与える影響が未解明である。
- スキーマキーの指示能力を定量的に評価し，モデルに応じたスキーマ設計の指針を示す。
- スキーマキーの表現変更のみで，出力の正確性が大きく変化することが示された。
- Qwenモデルはスキーマレベルの指示，LLaMAモデルはプロンプトレベルの指示により効果が高い傾向にある。
- 両チャネルは非加算的に相互作用し，スキーマ設計は単なる出力形式ではなく，指示仕様の一部であることが明らかになった。
Link: https://arxiv.org/abs/2604.14862
LinuxArena: 本稼働ソフトウェア環境におけるAIエージェントのための制御設定 [cs.CR, cs.AI, cs.SE]目的：AIエージェントの制御可能性評価のための環境
- ソフトウェアシステムの複雑化に伴い，AIによる自動化と安全性の確保が重要となっている。
- 既存の評価環境では，本稼働環境の複雑さや多様性を十分に再現できていない。
- 本研究は，より現実的な環境でAIエージェントの制御可能性を評価する環境を提供する。
- LinuxArenaは，20の環境，1,671の主要タスク，184の副次的タスクを含む，ソフトウェアエンジニアリング分野で最大かつ多様な制御設定である。
- Claude Opus 4.6は，GPT-5-nanoを信頼できる監視モデルとして用いた場合，1%の段階的な偽陽性率で約23%の未検出の妨害成功率を達成した。
- LaStrajデータセットは，モデル生成攻撃よりも大幅に高いレートで監視を回避する人間が作成した攻撃軌跡であり，現在の攻撃ポリシーではLinuxArenaの潜在能力を十分に活用できていないことを示唆している。
Link: https://arxiv.org/abs/2604.15384
JumpLoRA：大規模言語モデルにおける継続学習のための疎なアダプター [eess.SY, cs.SY, cs.LG, cs.AI, cs.CL]目的：大規模言語モデルの継続学習における疎なアダプターの設計
- 言語モデルは多様なタスクに応用可能だが，学習コストが高い。
- 継続学習において，過去の知識を忘却する災厄的忘却の問題が存在する。
- タスク間の干渉を防ぎ，効率的なパラメータ分離を実現すること。
- 提案手法JumpLoRAは，LoRAブロックにJumpReLUゲートを導入することで，パラメータの疎性を動的に誘導する。
- これにより，タスク間の干渉を抑制し，モジュール性の高い継続学習を実現する。
- IncLoRAの性能を大幅に向上させ，既存の最先端手法であるELLAを上回る結果が得られた。
Link: https://arxiv.org/abs/2604.16171
内省アダプター：学習された振る舞いを報告するようにLLMを訓練する [cs.AI]目的：LLMの学習された振る舞いの特定と記述
- LLMの利用拡大に伴い，意図しない，または有害な振る舞いの検出が重要になっている。
- ファインチューニングによって誘発された振る舞いは，検出が難しく，監査が困難である。
- LLM自身が自身の振る舞いを自然言語で説明することで，監査を容易にすることを目指す。
- 内省アダプター（IA）は，ファインチューニングされたLLMの学習された振る舞いを記述させる能力を獲得する。
- IAは，多様なファインチューニング方法で訓練されたLLMに対しても，振る舞いの自己記述を一般化できる。
- AuditBenchにおいて最先端の性能を示し，隠された有害な振る舞いを特定し，暗号化されたファインチューニング攻撃も検出可能である。
Link: https://arxiv.org/abs/2604.16812
Transformerにおける位相的な問題点 [cs.LG, cs.AI]目的：Transformerモデルにおける状態追跡の限界と，再帰型アーキテクチャの可能性
- 自然言語処理において，Transformerは支配的なモデルであり，その性能向上は重要である。
- Transformerは状態追跡に弱く，入力が増えるほど状態表現が深層に埋もれてしまう。
- Transformerに再帰的な構造を取り入れ，効率的な状態追跡を可能にすること。
- Transformerは，文脈履歴の拡張により構造を符号化するが，そのFeedforward構造が動的な状態追跡を制限する。
- 状態追跡に必要な逐次依存関係を維持できず，モデルの深さを限界まで活用できないという問題がある。
- 再帰型アーキテクチャの分類と，状態空間モデルや粗視化された再帰といった将来の研究方向性を示す。
Link: https://arxiv.org/abs/2604.17121
多役割対話の忠実な要約のための，重複メトリクスを超えた，推論と嗜好への報酬 [cs.CL, cs.AI]目的：多役割対話の忠実な要約
- 対話要約は，人間と機械間のコミュニケーションにおいて重要な役割を担う。情報の効率的な伝達を可能にする。
- 既存手法は，自動評価指標に偏重し，忠実性や人間との合致を十分に考慮していない。
- 推論能力と人間の嗜好を考慮した，より信頼性の高い対話要約手法を確立すること。
- 本研究では，明示的な認知様式の推論と報酬に基づいた最適化を組み合わせた新しいフレームワークを提案した。
- 実験の結果，提案手法は既存手法と同等のROUGEおよびBERTScoreスコアを達成し，意味的な一貫性と事実に忠実な要約が可能であることが確認された。
- SAMSumデータセットを用いた詳細な分析により，事実に忠実な要約とモデルに基づく嗜好の整合性の向上も示された。
Link: https://arxiv.org/abs/2604.17188
AutoPPA：コントラストに基づくコードベースのルールライブラリ学習による自動回路PPA最適化 [cs.LG, cs.AR]目的：回路PPA最適化のための自動化フレームワーク
- RTL設計において，性能，電力，面積（PPA）の最適化は不可欠であり，回路の機能理解と構造とPPAの関係性が重要である。
- 既存手法は，事前知識なしでの設計か，人手による最適化ルールの依存が大きく，効率に課題がある。
- 多様なコードペアから自動的に最適化ルールを生成し，効率的なPPA最適化を実現することを目指す。
- AutoPPAは，探索・評価・誘導（$E^2I$）のワークフローにより，多様なコードペアからコントラストと抽象化を通じて最適化ルールを生成する。
- 生成されたルールを一般化するため，AutoPPAは与えられた回路に対して最も効果的なルールを採用する適応的な多段階探索フレームワークを用いる。
- 実験の結果，AutoPPAは手動最適化および最先端手法であるSymRTLOやRTLRewriterよりも優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2604.18445