arXiv雑要約

AI - 2026/03/26 公開

  • AI監督官:永続的な研究世界モデルによる自律的なAI研究監督 [cs.RO, cs.AI]目的:自律的なAI研究監督の実現
    • AI研究の進展には,効率的な研究プロセスの構築が不可欠である。
    • 既存の自動研究システムは,研究状況の理解が断片的で,検証機能に乏しい。
    • 継続的な知識グラフの維持と,自己修正ループによる研究の質の向上を目指す。
    • AutoProfは,文献レビューから論文執筆までを網羅する,自律型研究監督フレームワークである。
    • 研究世界モデルとして知識グラフを活用し,方法,ベンチマーク,限界,未探索のギャップを共有メモリとして捉える。
    • モジュールレベルのギャップ発見,自己修正ループ,クロスドメインメカニズム検索によって研究開発を反復的に改善する。

    Link: https://arxiv.org/abs/2603.24402

  • リアルな会話,バーチャルな顔:インフルエンサー視聴者のパーソナリティと感情の形式概念分析 [cs.CY, cs.AI]目的:インフルエンサー視聴者の発言における,パーソナリティと感情の構造的差異の解明
    • ソーシャルメディアにおいて,インフルエンサーの影響力は大きく,その視聴者層の理解が重要である。
    • 既存研究では,視聴者の発言内容の集計統計に留まり,感情やパーソナリティ等の多角的信号の関連性が不明であった。
    • 形式概念分析を用いて,視聴者発言における信号の共起パターンを明らかにし,バーチャルとリアルインフルエンサーの違いを構造的に解明する。
    • バーチャルインフルエンサーの視聴者発言は,感情的に安定した単一のモードに対し,多様な3つの構造的な発言モードを示すことが明らかになった。
    • リアルインフルエンサーでは見られない,外見に関する発言のクラスターがバーチャルインフルエンサーの視聴者に見られた。
    • バーチャルインフルエンサーのコンテキストでは,精神的健康やボディイメージといったデリケートな話題において,より否定的な感情が観察された。

    Link: https://arxiv.org/abs/2603.24410

  • ClawKeeper:スキル,プラグイン,ウォッチャーによるOpenClawエージェントの包括的安全性保護 [cs.CL, cs.CR, cs.AI]目的:OpenClawエージェントの安全性保護
    • 自律エージェントの利用拡大に伴い,セキュリティリスクへの対策が重要になっている。
    • 既存のOpenClawセキュリティ対策は断片的であり,包括的な保護が不足している。
    • エージェントライフサイクル全体を保護するフレームワークを構築し,セキュリティ脆弱性を解消する。
    • ClawKeeperは,スキル,プラグイン,ウォッチャーの3層構造でリアルタイムなセキュリティ保護を実現する。
    • スキルベース保護は,エージェントの命令レベルでセキュリティポリシーを適用し,環境固有の制約を強制する。
    • ウォッチャーベース保護は,エージェントの状態変化を継続的に検証し,高リスクな行動を中断するなどの介入を可能にする。

    Link: https://arxiv.org/abs/2603.24414

  • OneSearch-V2:潜在的推論を強化した自己蒸留型生成検索フレームワーク [eess.SY, cs.SY, cs.IR, cs.AI, cs.CL]目的:潜在的推論を強化した生成検索フレームワークの開発
    • 検索システムは,情報へのアクセスを容易にし,効率的な意思決定を支援する上で不可欠である。
    • 従来の検索システムは,複雑なクエリの理解や潜在的なユーザー意図の活用が不十分である。
    • OneSearch-V2は,クエリ理解,意図抽出,報酬ハッキングの軽減を目的とする。
    • OneSearch-V2は,複雑なクエリの認識能力とユーザープロファイリング能力を向上させた。
    • オンラインA/Bテストの結果,アイテムCTRが3.98%,購入者転換率が3.05%,注文量が2.11%増加した。
    • 手動評価により,検索体験の質(ページ評価率1.65%向上,クエリ-アイテム関連性1.37%向上)も向上することが確認された。

    Link: https://arxiv.org/abs/2603.24422

  • 中間から亜季節スケールにおけるフローマッチングによる効率的な全球天気予報:Marchuk [cs.LG]目的:中間から亜季節スケールでの全球天気予報モデル
    • 大気は混沌的であり,従来のモデルでは15日を超える予測は困難である。
    • 亜季節天気予報の精度向上は依然として大きな課題である。
    • 高性能かつ高効率な亜季節天気予報モデルを開発すること。
    • Marchukは,学習された潜在空間内で天気図を自己回帰的に予測する生成潜在フローマッチングモデルである。
    • 2億7600万パラメータのコンパクトな構造でありながら,16億パラメータのLaDCastと同等の性能を達成している。
    • 推論速度が大幅に向上しており,計算効率が高い点が特徴である。

    Link: https://arxiv.org/abs/2603.24428

  • LSTM関数モデルによる波・船時系列データからの応答統計シフトとパラメトリックロール現象の学習 [cs.LG, physics.comp-ph, physics.data-an, physics.flu-dyn]目的:波・船時系列データから船の運動への非線形な因果関係を学習するデータ駆動型モデル
    • 船舶の安全運航において,ロール運動の予測と制御は極めて重要である。異常なロール現象の理解は不可欠。
    • パラメトリックロールは稀だが重大な事故に繋がる可能性があり,その予測は困難である。統計的シフトの把握も課題。
    • LSTMモデルを用いて,パラメトリックロール現象とそれに伴う応答統計シフトを再現し,リスク評価に貢献する。
    • 提案手法は,実験データや高精度な数値シミュレーションデータから学習可能であり,汎用性が高い。
    • 最も厳しい海況において,モデルはパラメトリック励起に一致する大振幅ロールの発生と成長を追跡し,ロール確率密度関数の変化を捉えた。
    • 損失関数の選択によって,平均誤差とテールリスクの精度とのトレードオフが存在することが示された。

    Link: https://arxiv.org/abs/2603.24431

  • 因果関係発見 [cs.NE, cs.AI, cs.LG, cs.SC]目的:因果関係の発見手法
    • データから因果関係を抽出することは,科学的発見や意思決定に不可欠である。
    • 観測データのみからの因果関係の推定は,交絡因子等の影響により困難である。
    • 本研究は,ニューラルネットワークを用いた新たな因果関係発見モデルを提案する。
    • 提案アーキテクチャは,専門家の混合により,因果関係などのモデル要素をさらにパラメータ化することを可能にする。
    • 既存の線形モデルと比較して,より高度なモデルが必要とされる基準を提示する。
    • 観測データからの因果関係発見における課題に対処し,その限界を克服することを目的とする。

    Link: https://arxiv.org/abs/2603.24436

  • CUA-Suite:コンピュータ利用エージェントのための大規模な人間によるビデオ実演データセット [cs.LG, cs.AI, cs.CV]目的:コンピュータ利用エージェントのための大規模なビデオ実演および詳細なアノテーションの提供
    • 複雑なデスクトップワークフローの自動化は重要だが,高品質な実演ビデオの不足が課題となっている。
    • 既存のデータセットは,連続したビデオが少なく,スナップショットが中心であるため,エージェントの性能向上が制限されている。
    • 連続ビデオと詳細なアノテーションを提供することで,汎用的なコンピュータ利用エージェント開発を促進する。
    • CUA-Suiteは,87種類のアプリケーションにおける約10,000件の人間の実演タスクを含む,約55時間のビデオを提供。
    • 既存の基盤モデルは,プロフェッショナルなデスクトップアプリケーションにおいて高いタスク失敗率(約60%)を示すことが判明。
    • 本データセットは,汎用的な画面解析,連続的な空間制御,ビデオベースの報酬モデリングなど,新たな研究方向を支援する。

    Link: https://arxiv.org/abs/2603.24440

  • 臨床意思決定支援システムへの因果機械学習の統合:文献と実践からの考察 [cs.HC, cs.AI]目的:臨床意思決定支援システムにおける因果機械学習の設計要件
    • 医療の質の向上には,根拠に基づいた意思決定が不可欠であり,そのためには最新技術の活用が重要である。
    • 既存のCDSSは相関関係に基づいていることが多く,因果関係を考慮していないため,誤った判断を招く可能性がある。
    • 因果機械学習を活用することで,より解釈可能で,治療に特化した根拠のある意思決定支援を実現することを目指す。
    • 臨床医との協調的な意思決定を支援するCDSSの設計に関する8つの経験的設計要件が導出された。
    • 7つの設計原則と9つの具体的な設計機能が提案され,因果的洞察の提供,臨床ワークフローへのシームレスな統合,信頼性,ユーザビリティ,人間とAIの協調を支援するための指針が示された。
    • 自動化,責任,規制に関する課題が明らかになり,機械学習ベースの医療製品に対する適応的な認証プロセスの必要性が示唆された。

    Link: https://arxiv.org/abs/2603.24448

  • 数を用いない計数と,言葉を用いない発見 [cs.RO, cs.CL, cs.FL, cs.CV, cs.AI, cs.CL, cs.SI]目的:ペットの再会率向上に資する,視覚と聴覚を組み合わせた生体認証システム
    • 動物愛護の観点から,飼い主とペットの再会は重要な課題である。
    • 既存の再会支援システムは外見のみに依存し,聴覚情報が活用されていない。
    • 動物の聴覚による認識に着目し,再会率向上を目指す。
    • 本研究では,10Hzのゾウの咆哮から4kHzの子犬の鳴き声まで,様々な動物の鳴き声を処理するシステムを開発した。
    • 視覚情報と聴覚情報を組み合わせることで,ストレスによる外見の変化に左右されない確率的マッチングを実現した。
    • 言語を持たない弱者を支援するAIの可能性を示唆する。

    Link: https://arxiv.org/abs/2603.24470

  • LLMの自己蒸留が推論能力を低下させるのはなぜか? [cs.CL, cs.LG]目的:LLMにおける自己蒸留に伴う推論能力低下のメカニズム解明
    • LLMの性能向上は,様々な応用において不可欠であり,その改善手法の探求は重要である。
    • 自己蒸留は有効な手法だが,数学的推論において性能低下が報告されており,原因が不明である。
    • 不確実性の表現を抑制する自己蒸留のメカニズムを明らかにし,汎化性能の低下を防ぐことを目指す。
    • 自己蒸留は,教師モデルへの豊富な情報付与により不確実性の表現を抑制し,特定のタスクでは最適化を促進する。
    • しかし,未知の問題に対しては不確実性の表現が重要であり,自己蒸留はこの表現を阻害することで汎化性能を低下させる。
    • Qwen3-8B等のモデルで最達40%の性能低下が確認され,推論時の適切な不確実性の露出が堅牢な推論に不可欠であることが示された。

    Link: https://arxiv.org/abs/2603.24472

  • 製造および使用のばらつき下におけるリチウムイオン電池の健全性予測のためのConformalized転移学習 [cs.LG, cs.SY, eess.SY]目的:リチウムイオン電池の健全性(SOH)予測における汎化性能と信頼性向上
    • リチウムイオン電池の安全かつ信頼性のある動作を保証するため,健全性の正確な予測が不可欠である。
    • 特定の条件下で校正された既存のモデルは,製造ばらつきや使用条件の違いから,新しい電池への汎化が難しい。
    • 製造および使用条件のばらつきに強い,信頼性の高いSOH予測手法を開発すること。
    • LSTMモデル,MMDによるドメイン適応,Conformal Predictionによる不確実性定量化を組み合わせた転移学習フレームワークを提案した。
    • 電極製造と動作条件のばらつきを捉えた仮想バッテリーデータセットを用いてLSTMモデルを訓練した。
    • MMDによる潜在的特徴分布のアライメントとCPによるキャリブレーションされた予測区間により,異種細胞間での予測精度と信頼性が向上した。

    Link: https://arxiv.org/abs/2603.24475

  • Composer 2 技術レポート [cs.SE, cs.LG]目的:エージェント型ソフトウェアエンジニアリングのためのモデル
    • ソフトウェア開発の自動化は,生産性向上やコスト削減に不可欠である。
    • 既存モデルは,複雑なソフトウェア開発タスクにおける長期計画や正確な実行に課題がある。
    • 現実的なコーディング問題に対する推論能力と実行能力を向上させる。
    • Composer 2は,エージェント型ソフトウェアエンジニアリングにおいて高い計画能力とコーディング能力を示す。
    • 継続的な事前学習と大規模な強化学習により,推論,複数ステップ実行,長期的一貫性が向上した。
    • CursorBench評価では,以前のComposerモデルと比較して大幅な精度向上(61.3)が確認された。

    Link: https://arxiv.org/abs/2603.24477

  • 一貫性検証を用いたマルチエージェント推論が,医療MCQAにおける不確実性較正を改善する [cs.AI, cs.CL, cs.LG]目的:医療MCQAにおける不確実性較正の改善
    • 医療AIの臨床応用には,信頼性の高い不確実性評価が不可欠である。
    • 既存のAIモデルは,過信傾向があり,適切な判断支援に繋がらない場合がある。
    • 一貫性検証に基づくマルチエージェント推論により,より信頼性の高い不確実性推定を目指す。
    • 提案手法は,MedQA-USMLEとMedMCQAの両方のデータセットにおいて,ECEを49-74%削減することに成功した。
    • 特に難易度の高いMedMCQAベンチマークにおいても,知識集約的な課題にも関わらず,較正の改善が維持された。
    • 二段階検証が較正改善の主要因,マルチエージェント推論が精度向上の主要因であることが示された。

    Link: https://arxiv.org/abs/2603.24481

  • 積空間における一様の大数の法則 [cs.LG, math.ST, stat.TH]目的:積空間における一様収束現象
    • VC次元との関連から,機械学習理論における基礎的な概念である。
    • 高次元データにおける過学習問題に対し,汎化誤差を評価する上で課題がある。
    • 線形VC次元を用いて,一様の大数の法則の成立条件を明らかにする。
    • 分布が周辺分布の積に関して絶対連続であるという仮定の下で,一様の大数の法則が成立するための必要十分条件として,線形VC次元の有限性を導いた。
    • 線形VC次元は古典的なVC次元よりも小さく,より緩やかな条件で一様収束が保証される場合がある。
    • 標準的な経験平均推定量とは異なる推定量を用いる必要性を示し,今後のサンプル複雑度に関する研究を示唆した。

    Link: https://arxiv.org/abs/2603.24493

  • プロジェクトと生成:非圧縮性流れのための発散のないニューラル演算子 [cs.LG, physics.flu-dyn]目的:非圧縮性流れの物理的に許容可能なシミュレーションの実現
    • 流体シミュレーションは科学技術計算において不可欠であり,様々な分野で応用されている。
    • 既存の学習ベースモデルは物理法則を満たさない場合があり,不安定なシミュレーションを引き起こす。
    • 本研究は,非圧縮性流れにおいて物理法則を厳密に満たすモデルの構築を目指す。
    • 微分可能なスペクトルLeray投影により,決定論的モデルを物理的に許容可能な速度場に制限することに成功した。
    • 事前分布との不整合に対応するため,カールに基づくプッシュフォワードを用いて発散のないガウス参照測度を構築した。
    • 2Dナビエ-ストークス方程式における実験により,離散化誤差までの厳密な非圧縮性と,安定性および物理的一貫性の向上が確認された。

    Link: https://arxiv.org/abs/2603.24500

  • 再帰型ニューラルネットワークモデリングによる安全な学習ベース非線形モデル予測制御への道筋 [cs.LG, cs.RO, cs.SY, eess.SY]目的:非線形モデル予測制御の安全性向上
    • 複雑なシステム制御において,モデルの精度と計算コストのバランスが重要となる。
    • 従来の学習ベースNMPCは,大量の専門家データと高コストな学習を必要とする。
    • 予測ホライズンを共有する逐次ニューラルポリシーにより,効率的な制御系列生成を目指す。
    • Sequential-AMPCは,従来のフィードフォワードポリシーと比較して,必要な専門家MPCロールアウト数を大幅に削減できる。
    • 生成される候補系列の実行可能性が高く,閉ループの安全性が向上している。
    • 高次元システムにおいて,学習ダイナミクスと性能が改善され,安定した検証改善が確認された。

    Link: https://arxiv.org/abs/2603.24503

  • Claude CodeによるLLMに対する最先端の敵対的攻撃アルゴリズムの自己研究 [eess.SY, cs.SY, cs.LG, cs.AI, cs.CR]目的:LLMに対する敵対的攻撃アルゴリズムの発見
    • LLMの安全性とセキュリティは,社会への実装において不可欠であるため,その研究が重要である。
    • 既存の敵対的攻撃手法では,LLMの脆弱性を十分に突けず,安全性評価が不十分であるという課題があった。
    • LLMエージェントによる自動化された研究を通して,既存手法を凌駕する新たな攻撃アルゴリズムを開発し,LLMの安全性向上に貢献することを目指す。
    • Claude Codeを用いた自己研究により,既存の30以上の手法を上回る性能を持つ敵対的攻撃アルゴリズムが発見された。
    • 発見されたアルゴリズムは,GPT-OSS-Safeguard-20Bに対して最先端の性能を示し,CBRNクエリの攻撃成功率を最大40%に向上させた。
    • さらに,異なるモデルへの転移性能も高く,Meta-SecAlign-70Bに対して100%の攻撃成功率を達成した。

    Link: https://arxiv.org/abs/2603.24511

  • 自律進化探索のためのエージェント的変異演算子:AVO [cs.LG]目的:高性能なカーネルの発見
    • AI分野におけるカーネル最適化は,計算効率向上に不可欠であり,更なる発展を支える基盤技術である。
    • 従来の進化探索は,固定された変異や手動設計に依存しており,複雑な最適化問題への適応が困難である。
    • LLMを活用し,自己指示型のエージェントループによって変異を自律的に行うことで,最適化の限界を打破する。
    • AVOは,NVIDIA Blackwell GPU上のマルチヘッドアテンションにおいて,cuDNNを最大3.5%,FlashAttention-4を最大10.5%上回るカーネルを発見した。
    • 発見された最適化は,グループクエリ型アテンションにも容易に適用され,cuDNNに対して最大7.0%,FlashAttention-4に対して最大9.3%の性能向上を達成した。
    • AVOは,単なる候補生成器から変異演算子へとLLMの役割を進化させ,最先端のカーネル実装を超えるマイクロアーキテクチャ最適化を可能にした。

    Link: https://arxiv.org/abs/2603.24517

  • TuneShift-KD:ファインチューン済みモデルのための知識蒸留と転移 [cs.LG]目的:ファインチューン済みモデルの専門知識を別のモデルへ転移させる手法
    • 事前学習済みモデルの活用が一般的になり,特定の分野知識を組み込む重要性が増している。
    • モデルの更新頻度が高く,専門知識の再学習・転移が課題となっている。
    • 専門データへのアクセス制限下での知識蒸留・転移を実現し,効率的なモデル更新を可能とする。
    • TuneShift-KDは,ファインチューン済みモデルとベースモデルのperplexityの差を利用し,専門知識を識別する。
    • 識別された専門知識に基づき,合成的な学習データセットを生成し,知識を転移させる。
    • 従来の知識転移手法と比較して,TuneShift-KDを用いてファインチューンされたモデルは,より高い精度を達成する。

    Link: https://arxiv.org/abs/2603.24518

  • 単一の指標では全てを語れない:不確実性帰属に対する多次元評価フレームワーク [cs.LG, cs.AI]目的:不確実性帰属の評価のためのフレームワーク
    • 説明可能なAIの発展は,モデルの信頼性と透明性を高める上で不可欠である。
    • 不確実性帰属手法の評価基準が統一されておらず,手法間の比較が困難である。
    • 不確実性帰属手法の評価を体系化し,開発を促進することを目的とする。
    • 提案フレームワークは,既存のXAI評価フレームワーク(Co-12)に準拠し,不確実性評価に特化した指標(conveyance)を導入した。
    • 実験の結果,勾配ベースの手法は,摂動ベースの手法よりも一貫性と伝達性で優れていることが示された。
    • 単一の指標では不確実性帰属の品質を十分に評価できず,多角的な評価の必要性が示唆された。

    Link: https://arxiv.org/abs/2603.24524

  • 嘘のパラドックスから不整合集合へ:自己言及の標準形 [cs.AI]目的:自己言及的な意味文の構造的表現である不整合標準形
    • 意味論において自己言及は,パラドックスや意味の矛盾を生じさせる根本的な問題である。
    • 既存の研究では,自己言及的な文を扱う際に,意味論的な整合性を維持することが困難である。
    • 自己言及が引き起こす意味論的な問題を構造的に捉え,不整合の源泉として明確にすること。
    • 不整合標準形は,自己言及的な文を,個別に充足可能だが同時に充足不可能な有限個の非自己言及的な文に置き換える。
    • 充足可能性と不整合性の関係を数学的に明確にし,意味論的な情報量の構造的源泉としての不整合性を明らかにした。
    • 不整合標準形とフーリエ解析を用いた定量的な意味論的枠組みを導入し,意味論的決定性,情報量,スペクトル単純性の間に新たな不等式関係を確立した。

    Link: https://arxiv.org/abs/2603.24527

  • UI-Voyager:失敗経験からの学習による自己進化型GUIエージェント [cs.ET, cs.LG, cs.AI, cs.CV]目的:GUIタスクにおける自己進化型エージェントの開発
    • マルチモーダル大規模言語モデルの進展に伴い,自動GUIエージェントの重要性が高まっている
    • 従来のGUIエージェントは,失敗事例からの学習効率が悪く,疎な報酬環境下での原因特定が困難である
    • UI-Voyagerは,失敗事例の改善を通じて効率的かつ高性能なGUI自動化を目指す
    • 提案手法UI-Voyagerは,拒否採択ファインチューニングとグループ相対的自己蒸留により,GUIエージェントを自己進化させる
    • AndroidWorldでの実験結果,4Bモデルは81.0%のPass@1成功率を達成し,既存手法や人間の性能を上回った
    • グループ相対的自己蒸留の有効性は,消去実験とケーススタディによって確認された

    Link: https://arxiv.org/abs/2603.24533

  • CliPPER:長尺手術ビデオと言語の文脈的事前学習による手術イベント認識 [cs.CL, cs.CY, cs.CL, cs.HC, cs.CV, cs.AI]目的:手術ビデオとテキスト間のイベント認識のための事前学習フレームワーク
    • 手術は高度な専門知識を要し,熟練した技術が不可欠であるため,質の高いトレーニングが重要である。
    • 手術ビデオのラベル付きデータは不足しており,複雑な下流タスクには正確な時間的理解が必要とされる。
    • 長尺手術ビデオにおけるマルチモーダルな整合性を向上させ,きめ細かい時系列のビデオ・テキスト認識を実現すること。
    • 提案手法CliPPERは,手術講義ビデオを用いて事前学習を行い,手術ビデオとテキスト間の文脈的整合性を高める。
    • Contextual Video-Text Contrastive Learning (VTC_CTX)やClip Order Prediction (COP)などの新しい事前学習戦略を導入した。
    • 複数の公開されている手術ベンチマークにおいて,新たな最先端の性能を達成し,ゼロショット認識能力を向上させた。

    Link: https://arxiv.org/abs/2603.24539

  • SEGAR:生成拡張現実のための選択的エンハンスメント [eess.SY, cs.SY, cs.CV, cs.AI]目的:生成拡張現実のためのフレームワーク
    • 拡張現実の応用において,予測モデルはリアルタイムレンダリングの代替となり得る。
    • 生成モデルが生成する画像は,現実世界との整合性に課題がある。
    • 重要な領域の整合性を保ちつつ,拡張現実を実現する。
    • SEGARは,拡散モデルを用いた世界モデルと選択的修正段階を組み合わせる。
    • 世界モデルは特定の領域を編集し,修正段階で現実世界との整合性を調整する。
    • 運転シナリオにおいて,セマンティック領域構造が明確で,現実世界のフィードバックが得やすい。

    Link: https://arxiv.org/abs/2603.24541

  • ニューカッスル方言における自動音声認識のバイアスに関する社会言語学的分析 [cs.CL, cs.AI, cs.CV, cs.SD]目的:ニューカッスル方言における自動音声認識のバイアス
    • 音声認識技術は広く利用されているが,方言による性能差が課題となっている。
    • 既存の音声認識システムは,標準的なアクセントに偏っており,地域方言の認識精度が低い。
    • ニューカッスル方言を分析することで,バイアスの原因を特定し,改善策を提案する。
    • 音声認識エラーの大部分は,方言特有の母音の質や促音化といった音韻変動に起因する。
    • 男性や年齢層の極端なグループにおいてエラー率が高く,バイアスが社会的な要因によってパターン化されていることが示された。
    • より公平な音声認識システムを開発するには,社会言語学的知見を取り入れ,地域方言のデータ活用が重要である。

    Link: https://arxiv.org/abs/2603.24549

  • 石油・ガス企業文書における検索拡張生成のためのチャンキング戦略の評価 [cs.IR, cs.AI]目的:石油・ガス企業文書における検索拡張生成の性能差
    • 大規模言語モデルの知識不足を補い,より正確な情報提供を可能にする技術として重要である。
    • 文書のチャンキング方法が性能に大きく影響するが,最適な戦略は明確ではない。
    • 構造を意識したチャンキング戦略の有効性を検証し,その限界を明らかにする。
    • 構造を意識したチャンキングが,特に上位K件の検索において高い効果を示した。
    • 構造を意識したチャンキングは,意味的またはベースライン戦略と比較して計算コストが有意に低い。
    • P&IDのような視覚情報を含む文書に対しては,テキストベースのRAGの有効性が限定的であることが示された。

    Link: https://arxiv.org/abs/2603.24556

  • LensWalk:動画における視点計画による能動的ビデオ理解 [cs.CV, cs.AI]目的:動画理解における,LLMによる視覚的観察制御の枠組み
    • 動画分析は複雑であり,AIによる自動化が求められている。動画理解の精度向上が課題である。
    • 既存手法は静的な情報に依存し,理解の深化に合わせて能動的に動画から証拠を収集できない。
    • LLMが動画観察を制御し,必要な証拠を動的に収集することで理解精度を向上させる。
    • LensWalkは,LLMが視覚的観察を計画・実行するフレームワークであり,動画理解の新たなアプローチを提供する。
    • 既存のVision-Language Modelに容易に組み込むことが可能で,LVBenchやVideo-MMEなどのベンチマークで5%以上の精度向上を達成した。
    • 視点制御の重要性が示され,より正確で堅牢,かつ解釈可能な動画推論を可能にする。

    Link: https://arxiv.org/abs/2603.24558

  • 自由市場アルゴリズム:開かれた複雑系における自己組織化最適化 [cs.NE, cs.AI, cs.MA]目的:開かれた複雑系における自己組織化最適化手法
    • 複雑なシステムの最適化は,科学,工学,経済など,多岐にわたる分野で重要である。
    • 従来の最適化手法は,定義された目的関数や探索空間に依存し,柔軟性に欠ける。
    • 目的関数や探索空間が定義困難な複雑系においても有効な最適化手法を開発する。
    • 自由市場アルゴリズム(FMA)は,市場の需給メカニズムを利用し,複雑な問題を自己組織的に解決する。
    • 原始化学の分野では,FMAはアミノ酸や核塩基などの生命の構成要素を短時間で発見した。
    • マクロ経済予測においては,FMAは専門家と同等の精度でGDP予測を行い,33カ国に適用可能であることを示した。

    Link: https://arxiv.org/abs/2603.24559

  • 臨床記録に対する再帰認識型基盤モデルのスケールアップ:次回の受診予測によるアプローチ [cs.LG]目的:臨床記録に対する再帰認識型基盤モデルのスケールアップ
    • 医療分野における大規模言語モデルの可能性は未だ十分に探求されていない。
    • 電子カルテにおける反復イベントの存在が,モデル評価を歪める可能性がある。
    • データ量とモデルサイズの適切なバランスを取ることで,より良い予測性能を目指す。
    • RAVENは,患者の病歴に基づいて次回の受診イベントを予測することで,臨床記録の構造化データに対する効果的な事前学習戦略を確立した。
    • 反復イベントの予測に対する正則化を導入し,評価指標のインフレを防ぐための重要な注意点を示した。
    • RAVENは,外部患者コホートに対しても,追加のパラメータ更新なしに一般化できることを示した。

    Link: https://arxiv.org/abs/2603.24562

  • Anti-I2V:悪意のある画像から動画生成に対する保護 [cs.CV, cs.AI]目的:悪意のある画像から動画生成に対する防御策の開発
    • 拡散モデルの発展は動画生成の質を向上させた一方,悪用による偽動画生成のリスクも増大している。
    • 既存の防御策は画像生成に偏っており,特にDiffusion Transformerモデルに対する有効性が検証されていない。
    • 拡散モデルの多様なバックボーンに対応し,動画生成における特徴保持力と時間的一貫性を低下させることを目指す。
    • Anti-I2VはRGB空間に加え,$L$*$a$*$b$*色空間と周波数領域の両方でノイズ更新を制限し,堅牢性を高める。
    • Anti-I2Vは,ノイズ除去プロセス中に最も明確な意味特徴を捉えるネットワーク層を特定し,時間的一貫性と生成品質の低下を最大化する訓練目標を設計する。
    • 広範な検証の結果,Anti-I2Vは多様な動画拡散モデルに対して最先端の防御性能を示し,効果的な解決策を提供する。

    Link: https://arxiv.org/abs/2603.24570

  • 無制限Best-First Minimax と Descent Minimax の完全性 [cs.AI]目的:二人零和完全情報ゲームにおける最適な戦略の決定
    • ゲームAI分野において,最適な戦略の探索は重要な課題である。
    • 既存の探索アルゴリズムでは,無限探索時間を用いても勝戦略を特定できない場合がある。
    • 本研究は,無制限Best-First Minimax と Descent Minimax が勝戦略を導出できるかを検証する。
    • 本研究では,これらのアルゴリズムを一般化し,常に最適な戦略を計算することを示す。
    • 具体的には,completion technique を用いることで,勝戦略を導出できることが証明された。
    • 実験結果からも,completion technique が勝率を向上させることが確認された。

    Link: https://arxiv.org/abs/2603.24572

  • VFIG:Vision-LanguageモデルによるSVGにおける複雑な図形のベクトル化 [cs.CV, cs.AI]目的:複雑な図形のSVGへの変換
    • 技術イラストレーションやデジタルデザインにおいて,SVGは重要な役割を担うフォーマットである。
    • 元のベクターファイルが失われることが多く,ラスター画像からの再構築は困難を伴う。
    • 図形のベクトル化を自動化し,専門知識がなくても高品質なSVGを生成することを目指す。
    • VFIGは,高品質な図形-SVGペアデータセットVFIG-DATAを活用し,高い精度でSVGを生成する。
    • 粗い段階から細かい段階へと学習を進めることで,図形の全体的な構造と整合性を最適化している。
    • VFIG-BENCHを用いた評価で,最先端のオープンソースモデルと同等以上の性能を示し,GPT-5.2に匹敵する結果を達成した。

    Link: https://arxiv.org/abs/2603.24575

  • カメレオン:長期的ロボット操作のためのエピソード記憶 [cs.RO, cs.AI, cs.CV]目的:長期的ロボット操作におけるエピソード記憶の活用
    • ロボット操作では,状況の変化や隠蔽により,同一の観測データが異なる履歴から生じる場合がある。
    • 従来の記憶メカニズムは意味圧縮に偏り,詳細な知覚的情報を失うことで,誤ったエピソードを想起する可能性がある。
    • 知覚的曖昧さ下での信頼性向上と,長期的制御の実現を目指す。
    • カメレオンは,幾何学に基づいたマルチモーダルなトークンを用いて文脈を保存し,微分可能なメモリスタックを通じて目標指向型の想起を実現する。
    • Cam-Datasetは,エピソード想起,空間追跡,および知覚的曖昧さ下での連続操作を含む実ロボットUR5eのデータセットである。
    • 実験の結果,カメレオンは,知覚的に紛らわしい状況において,強力なベースラインと比較して,意思決定の信頼性と長期的制御を常に改善する。

    Link: https://arxiv.org/abs/2603.24576

  • EndoVGGT:手術用3D再構築のためのGNN強化深度推定 [cs.CV, cs.AI]目的:手術用ロボット知覚のための変形性軟部組織の正確な3D再構築
    • 手術支援ロボットの普及に伴い,手術中の正確な3D視覚情報の重要性が増している。
    • 従来の固定トポロジー法では,低テクスチャ,反射,遮蔽により幾何学的連続性が断片化しやすい。
    • 遮蔽された領域でも構造的情報を伝播させ,非剛体変形をより正確に復元することを試みる。
    • 提案手法EndoVGGTは,変形を考慮したグラフ注意機構DeGATを搭載し,長距離相関を捉える。
    • SCAREDデータセットにおいて,PSNRが24.6%,SSIMが9.1%向上し,最先端手法を大きく上回る結果が得られた。
    • EndoVGGTは,未知のSCAREDおよびEndoNeRFデータセットに対しても高い汎化性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.24577

  • 検索性能の向上は必ずしもより良い回答を保証しない:AI政策QAにおけるRAGの研究 [cs.CL, cs.CL, cs.AI, cs.CY, cs.IR, cs.LG]目的:AI政策QAにおけるRAGシステムの性能評価と課題の特定
    • 複雑な政策文書の分析において,RAGシステムは専門家による利用に不可欠なツールとなりつつある。
    • 法的文書の専門用語や重複する規制など,政策分野特有の複雑さが,RAGシステムの信頼性を損なう要因となっている。
    • ドメイン特化型ファインチューニングの効果を検証し,RAGシステムの信頼性向上に資する知見を得る。
    • ドメイン特化型ファインチューニングは検索性能を向上させるものの,必ずしもエンドツーエンドの質問応答性能向上には繋がらないことが示された。
    • 検索性能の向上は,関連文書がコーパスに存在しない場合,誤った回答の自信度を上げるという逆効果をもたらす可能性が確認された。
    • RAGシステムの各コンポーネントの改善が,必ずしも信頼性の高い回答に繋がらないという重要な課題が浮き彫りになった。

    Link: https://arxiv.org/abs/2603.24580

  • 確率的ギャップ:エージェント型人工知能における展開前信頼性と監視コスト監査のためのマルコフ枠組み [cs.AI]目的:エージェント型人工知能における信頼性と監視コスト制約下の逐次意思決定問題
    • 組織におけるAI活用は増大しており,その信頼性と効率的な運用が重要課題となっている。
    • 従来の決定論的ワークフローから確率的ポリシーへの移行により,統計的根拠の検証が困難になっている。
    • 統計的信頼性と経済的制御可能性を確保し,AIの自律性と監視コストを両立させるための枠組みを構築する。
    • 提案するマルコフ枠組みにより,AIの行動軌跡が統計的に支持され,解釈可能であり,経済的に管理可能であるかを評価できる。
    • 実証実験では,ワークフローの状態を詳細化することで,次ステップの意思決定における盲点領域を大幅に削減できることが示された。
    • 本枠組みは,大規模な企業調達ワークフローに適用可能であり,イベントログを活用したプロセス改善に貢献する。

    Link: https://arxiv.org/abs/2603.24582

  • DreamerAD:潜在ワールドモデルによる効率的な強化学習 - 自動運転への応用 [cs.LG, cs.RO]目的:自動運転のための効率的な強化学習実現
    • 自動運転技術の発展は,安全性向上と交通効率化に不可欠である。
    • 実世界のデータを用いた強化学習は,コストと安全性の問題がある。
    • 潜在空間での強化学習により,効率と安全性を両立することを目指す。
    • DreamerADは,拡散サンプリングを1ステップに圧縮し,80倍の高速化を実現した。
    • 潜在表現上で動作する報酬モデルと探索戦略により,効率的な学習を可能にした。
    • NavSim v2において,最先端の性能(87.7 EPDMS)を達成し,潜在空間RLの有効性を示した。

    Link: https://arxiv.org/abs/2603.24587

  • 拡散モデルにおける多水準オイラー・マルヤマ法による多項式的加速 [cs.HC, cs.LG, cs.NA, math.NA, stat.ML]目的:拡散モデルにおけるサンプリングの高速化
    • 近年の生成モデルにおいて,拡散モデルは高品質な画像を生成できるため,注目を集めている。
    • 拡散モデルのサンプリングは計算コストが高く,実用上のボトルネックとなっている。
    • 多水準オイラー・マルヤマ法を用いて,計算コストを削減し,サンプリングを高速化する。
    • 多水準オイラー・マルヤマ法は,従来のオイラー・マルヤマ法よりも計算効率が高いことが示された。
    • CelebAデータセットの実験では,最長で4倍の画像生成速度の向上を達成した。
    • より大規模なネットワークにおいて,さらなる高速化が期待される。

    Link: https://arxiv.org/abs/2603.24594

  • Llama3-8b-Instructにおける自己生成テキスト認識能力の検証と制御 [cs.LG, cs.AI, cs.CL]目的:LLMの自己生成テキスト認識能力の検証と制御
    • AIの安全性確保は重要であり,LLMの挙動理解が不可欠である。
    • LLMが自己生成テキストを認識するメカニズムは未解明な部分が多い。
    • LLMの自己認識能力の制御方法を確立し,安全性を高める。
    • Llama3-8b-Instructは,人間が書いたテキストと自身の生成テキストを高い精度で識別できることが確認された。
    • モデルは,後学習で得た自身の出力に関する経験を利用して認識タスクを達成している可能性が示唆された。
    • 特定のベクトルを操作することで,モデルの自己認識と出力制御が可能となり,著者の主張を操作できることが示された。

    Link: https://arxiv.org/abs/2410.02064

  • 多発例 jailbreaking の緩和 [cs.LG, cs.AI, cs.CR]目的:大規模言語モデルに対する多発例 jailbreaking 攻撃の緩和策
    • 大規模言語モデルの安全性確保は,社会実装において不可欠である。
    • 長文の文脈を扱う能力が,安全性訓練を上書きする脆弱性が存在する。
    • 多発例 jailbreaking 攻撃に対する効果的な緩和策を提案すること。
    • ファインチューニングと入力サニタイズの組み合わせにより,攻撃の有効性が大幅に低下した。
    • それぞれの緩和策は段階的に有効性を示し,組み合わせることで相乗効果が得られた。
    • モデルの性能を維持しつつ,攻撃に対する脆弱性を改善できる可能性が示された。

    Link: https://arxiv.org/abs/2504.09604

  • LLMにおける限定的なメタ認知の証拠 [cs.LG, cs.AI]目的:LLMにおけるメタ認知能力の定量的な評価手法
    • LLMの進化は社会に大きな影響を与え,その能力評価は安全性確保の要である。
    • LLMの自己認識や意識の測定方法は確立されておらず,科学的な検証が急務である。
    • LLMが自身の内部状態を認識し,戦略的に知識を活用できるか検証する。
    • 2024年初頭以降のLLMは,事実や推論問題への回答における自信の評価と活用能力を示す。
    • モデルは自身の回答を予測し,その情報を適切に利用できることが示唆された。
    • これらの能力は解像度,文脈依存性において限定的であり,人間のメタ認知とは質的に異なる。

    Link: https://arxiv.org/abs/2509.21545

  • KARMA:知識と行動の正則化によるマルチモーダルアライメント – タオバオのパーソナライズド検索 [cs.IR, cs.AI, cs.LG]目的:パーソナライズド検索における知識と行動のアライメント
    • 大規模言語モデルの活用は,検索システムのセマンティックな一般化能力向上に不可欠である。
    • LLMをパーソナライズドタスクで直接ファインチューニングすると,性能が低下する問題がある。
    • 知識の保持と行動への適合の間のギャップを埋め,セマンティック崩壊を抑制することを目指す。
    • KARMAは,セマンティック再構成を正則化項として用いることで,セマンティック崩壊を軽減する。
    • ランキングにおけるCTR AUCが0.25%向上,プリランキングではHRが1.86,リコールでは2.51向上した。
    • オンライン展開により,アイテムクリック数が0.5%増加し,低レイテンシを実現した。

    Link: https://arxiv.org/abs/2603.22779

  • 大規模言語モデルと科学的言説:知性はどこにあるのか? [physics.soc-ph, cs.AI]目的:大規模言語モデルの能力と人間の知識構築の方法の比較
    • 科学研究の進展には,確固たる知識基盤と,その知識を更新・発展させる柔軟な思考が不可欠である。
    • 大規模言語モデルは,既存の文献に依存しており,初期段階の知識構築における専門家間の暗黙知を活用できない。
    • 本研究は,大規模言語モデルの限界を明らかにし,人間の知性の重要性を強調することを目的とする。
    • 大規模言語モデルは,書かれた文献に依存するため,科学的知識の初期形成段階における暗黙知に基づいた判断が苦手である。
    • ChatGPTのモンティ・ホール問題への回答の変化は,大規模言語モデルの推論能力の向上ではなく,学習データの変化によるものである。
    • 確立された言説が強固すぎると,大規模言語モデルはわずかなプロンプトの変化に適切に対応できず,誤った回答をする場合がある。

    Link: https://arxiv.org/abs/2603.23543

  • PDGMM-VAE:次元ごとのガウス混合モデル事前分布を持つ変分オートエンコーダによる非線形独立成分分析 [stat.ML, cs.LG]目的:非線形独立成分分析のための変分オートエンコーダ
    • 盲検源分離の主要な枠組みであり,観測された混合信号から潜在的な源信号を復元する上で重要である。
    • 従来の変分オートエンコーダは単純な事前分布を共有するため,多様な非ガウス源統計の捕捉が困難である。
    • 次元ごとに異なるガウス混合モデル事前分布を学習することで,より効果的な源分離を実現することを目指す。
    • PDGMM-VAEは,各潜在次元に固有のガウス混合モデル事前分布を割り当てることで,多様な源統計を捉え,分離性能を向上させる。
    • 次元ごとのガウス混合モデル事前分布のパラメータは,エンコーダとデコーダのパラメータと共に,エンドツーエンドで適応的に学習される。
    • 線形および非線形混合問題に対する実験結果は,PDGMM-VAEが潜在的な源信号を効果的に復元できることを示している。

    Link: https://arxiv.org/abs/2603.23547

  • 時系列データとTime-LLMを用いたウェハーレベルエッチ空間プロファイリングによるプロセス監視 [math.DS, cs.FL, stat.AP, cs.AI, cs.LG]目的:ウェハーレベルのエッチ深さ分布の予測
    • 高度なプラズマエッチングプロセス監視には,ウェハー上の空間的な変動の理解が不可欠である。
    • 従来のデータ駆動型アプローチは平均エッチレートなどのスカラー指標に焦点を当てがちであり,実際のプロセス品質を捉えきれない。
    • 本研究は,ウェハーレベルの空間監視のためのLLMベースのリプログラミングの実現可能性を示す。
    • Time-LLMに基づいた空間回帰モデルを提案し,入力埋め込みと出力射影を再設計することで,ウェハーレベル空間推定を実現した。
    • BOSCHプラズマエッチングデータセットを用いた実験により,データが限られた条件下でも安定した性能が確認された。
    • この結果は,LLMベースのリプログラミングがウェハーレベルの空間監視に有効であることを示唆している。

    Link: https://arxiv.org/abs/2603.23576

  • マスアグリーメントスコア:クラスタサイズ一貫性の点中心的尺度 [stat.ML, cs.LG]目的:クラスタサイズの一貫性評価
    • クラスタリングはデータ解析の基礎であり,適切なクラスタ構造が重要である。
    • 特定のクラスタが支配的に大きくなる場合があり,均一性が損なわれることがある。
    • クラスタ構造の変化に安定した,サイズ一貫性の評価指標を提案する。
    • マスアグリーメントスコア(MAS)は,点中心的な指標であり,[0, 1]の範囲で評価される。
    • MASは,クラスタ内の点から見た期待クラスタサイズの一貫性を評価する。
    • MASは,クラスタ数の変動に強く,構造の変化に敏感である。

    Link: https://arxiv.org/abs/2603.23581

  • ZeroFold:プレ構造埋め込みからのタンパク質・RNA結合親和性予測 [q-bio.BM, cs.LG]目的:タンパク質・RNA結合親和性の予測
    • 遺伝子調節機構の解明やRNA標的治療薬の開発において,タンパク質・RNA相互作用の理解が不可欠である。
    • RNAの構造柔軟性が高く,単一構造への固定では結合に関わる情報を失うことが課題となっていた。
    • プレ構造埋め込みを用いることで,RNAの構造柔軟性を考慮した親和性予測を実現することを目指している。
    • ZeroFoldは,Boltz-2由来のタンパク質とRNAのプレ構造埋め込みを,クロスモーダルアテンション機構を用いて結合親和性を直接予測する。
    • 構築したPRADBデータセットを用いて評価した結果,独立テストセットにおいてSpearman相関係数0.65を達成した。
    • 学習データとの重複を抑制した評価条件下で,既存の構造ベースおよび配列ベースの予測モデルと比較して良好な結果を示した。

    Link: https://arxiv.org/abs/2603.23583

  • デジタル市場におけるビルダー飽和の経済学 [econ.TH, cs.CY, cs.GT, cs.LG, econ.GN, q-fin.EC]目的:ビルダー飽和効果のモデル化と,AIによる生産民主化が起業家精神に与える影響の分析
    • デジタル市場は急速に拡大しており,参入障壁の低下と生産コストの削減が重要な課題となっている。
    • 生産コストが低下しても,人間の注意資源は有限であり,それが市場の集中化を招く可能性がある。
    • AIによる生産民主化が,参入者の増加によって競争を激化させ,勝者総取りの状況を生み出す可能性を検証する。
    • 本研究では,生産コストがほぼゼロである市場において,生産者の増加が平均的な注目度と収益を希薄化させる「ビルダー飽和効果」を理論的に示した。
    • 市場の均衡状態は,平均的なペイオフの低下と集中化の進行を示し,これはパワーローのような分布と一致する。
    • AIによる生産民主化は,起業家精神の成功を広く分配するよりも,競争を激化させ,勝者総取りの状況を生み出す可能性が高いことが示唆される。

    Link: https://arxiv.org/abs/2603.23685

  • ベイズ追跡を用いた深層空間選択フィルタの自己回帰的ガイダンス:移動話者の効率的な抽出 [eess.AS, cs.LG, cs.SD]目的:移動話者の効率的な抽出
    • 音響信号処理において,特定の方向からの音声を高精度に分離・強調することは重要である。
    • 移動する話者に対しては,初期方向の情報だけでは高性能を維持することが困難である。
    • 自己回帰的なガイダンスにより,軽量な追跡アルゴリズムの精度向上を目指す。
    • 提案手法は,既存の深層空間選択フィルタと容易に組み合わせ可能である。
    • 自己回帰的な組み込みにより,ベイズトラッカーの精度が大幅に向上し,音声強調性能が向上した。
    • 実環境の録音データでも,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2603.23723