arXiv雑要約

AI - 2026/03/26 公開

  • 生成AIのユーザーエクスペリエンス:人間とAIの認識的パートナーシップの構築 [cs.CY, cs.AI, cs.HC]目的:生成AIユーザーエクスペリエンスに関する理論的枠組み
    • 教育現場へのAI導入が急速に進む中,その効果的な活用が重要視されている。
    • 既存のユーザーエクスペリエンス理論では,AIが知識構築に参与する状況を十分に説明できない。
    • AIとの協働における認識,主体性,説明責任の3つの契約交渉を捉え,新たな理論的枠組みを提示する。
    • 本研究では,人間とAIの認識的パートナーシップ理論(HAEPT)を提唱し,AIユーザーエクスペリエンスを認識的パートナーシップとして捉えた。
    • HAEPTを用いることで,信頼,過信,学術的誠実性などの既存研究における問題点を,契約内の緊張として再解釈できる。
    • AIスピーカーとの協働学習やAI支援による科学的議論分析を通して,HAEPTの有効性を示した。

    Link: https://arxiv.org/abs/2603.23863

  • VLMは堅牢に推論できるか?:神経記号的調査 [cs.HC, cs.LG, cs.AI, cs.CV]目的:視覚言語モデルにおける,分布シフト下での堅牢な推論能力の評価
    • 視覚言語モデルは多様な推論タスクに応用されているが,汎化性能が課題となっている。
    • 分布シフトが発生すると,従来のVLMは推論性能を著しく低下させる。
    • VLMと記号的推論を組み合わせることで,分布シフトに対する堅牢性を向上させる。
    • 本研究では,VLMの勾配ベースのファインチューニングでは,分布外汎化が困難であることを示した。
    • 神経記号的アプローチでは,従来のブラックボックス型推論コンポーネントの不整合性が課題となっていた。
    • 提案手法VLCは,VLMによる概念認識と回路ベースの記号的推論を組み合わせることで,分布シフト下で堅牢な推論を実現した。

    Link: https://arxiv.org/abs/2603.23867

  • HDPO:特権的自己蒸留によるハイブリッド蒸留方策最適化 [cs.LG, cs.AI]目的:数学的推論における大規模言語モデルの性能向上
    • 数学的推論能力は,AIの高度化に不可欠であり,その重要性は増している。
    • 強化学習において,モデルが全く解けない問題では勾配が消失し,学習が進まない。
    • HDPOは,この勾配消失問題を解決し,失敗例からの学習を可能にすることを目指す。
    • HDPOは,標準的な強化学習に特権的自己蒸留を組み合わせることで,性能を向上させる。
    • OpenMathInstruct-2データセットを用いた実験で,pass@4,pass@8の精度がそれぞれ+0.8-1.1%,+0.4-1.7%改善された。
    • 蒸留の重みλを調整することで,探索と活用のバランスを制御できることが示された。

    Link: https://arxiv.org/abs/2603.23871

  • 学習されたヒューリスティック関数と探索を用いた経路探索問題解決のためのDeepXubeソフトウェアパッケージ [cs.AI, cs.LG]目的:経路探索問題の自動解決
    • 経路探索は,ロボティクス,ゲーム,AIなど,様々な分野で不可欠な技術である。
    • 従来のヒューリスティック探索では,適切なヒューリスティック関数の設計が困難である。
    • 深層学習を用いてヒューリスティック関数を学習し,経路探索の効率化を目指す。
    • DeepXubeは,深層強化学習,ヒューリスティック探索,形式論理の最新技術を統合したPythonパッケージである。
    • 学習されたヒューリスティック関数は,CPUとGPUを活用した並列処理により効率的に訓練される。
    • コマンドライン引数を通じて,バッチ加重A*探索やQ*探索などのアルゴリズムが容易に利用可能である。

    Link: https://arxiv.org/abs/2603.23873

  • ニューラルネットワークの形式的解析のためのLuna Bound Propagator [cs.MA, cs.LG, cs.AI, cs.LO]目的:ニューラルネットワーク検証のためのbound propagation手法
    • 深層学習の安全性確保が重要視され,形式的解析のニーズが高まっている。
    • 既存のalpha-CROWNはPython実装のため,既存の検証器との統合が困難である。
    • C++による実装により,検証器への統合と長期的な利用を可能とする。
    • LunaはInterval Bound Propagation,CROWN分析,alpha-CROWN分析をサポートする。
    • VNN-COMP 2025のベンチマークにおいて,既存のalpha-CROWNと同等の性能を示す。
    • Lunaは,boundの厳密性と計算効率の両方において,高い競争力を持つ。

    Link: https://arxiv.org/abs/2603.23878

  • AgentChemist:化学的知覚と精密制御を統合したマルチエージェント実験ロボットプラットフォーム [cs.RO, cs.AI]目的:化学実験の自動化に向けたマルチエージェントロボットプラットフォーム
    • 化学実験は多様かつ複雑であり,効率的な自動化が不可欠である。
    • 既存の自動化システムは,標準化された手順に限定され,多様な実験への対応が困難である。
    • 実験タスクの分解,動的スケジュール,適応制御により,多様な実験への対応を目指す。
    • 本プラットフォームは,化学的知覚によるリアルタイムモニタリングとフィードバック制御により,実験状態に応じて動作を調整可能である。
    • 酸塩基滴定による検証により,自律的な進行追跡,適応的な分注制御,および信頼性の高い実験実行が実証された。
    • 多様な実験シナリオへの汎化性能向上により,インテリジェントで柔軟,かつスケーラブルな実験自動化への道筋を示す。

    Link: https://arxiv.org/abs/2603.23886

  • 制約付き楽観的探索によるオフポリシー安全強化学習 [cs.LG, cs.RO]目的:累積コストの制約下における最大報酬の方策学習
    • 強化学習は,自律的な意思決定システムの実現に不可欠であり,ロボティクスや制御など広範な応用が期待される。
    • 安全性が重要な場面では,コスト制約を満たしつつ高性能な方策を学習することが課題である。
    • コストを考慮しない探索や累積コスト推定のバイアスによる制約違反を防ぐことが本研究の目的である。
    • 提案手法COX-Qは,コスト制約に基づいたオンライン探索と保守的なオフライン分布価値学習を統合することで,高いサンプル効率を実現した。
    • 実験の結果,安全な速度制御,ナビゲーション,自動運転タスクにおいて,COX-Qは競合手法と同等以上の安全性とデータ収集コストの抑制を示した。
    • COX-Qは,安全性が必要なアプリケーションにおける強化学習の有望な手法となり得ることを示唆している。

    Link: https://arxiv.org/abs/2603.23889

  • Praxium:AIベースのテレメトリと依存関係分析によるクラウド異常診断 [cs.SE, cs.LG]目的:クラウド異常の検知と根本原因の推論
    • クラウド利用の拡大に伴い,マイクロサービスアーキテクチャの複雑性が増し,設定ミスやバグのリスクが高まっている。
    • 従来の診断手法は専門家の知識に依存するため,CI/CD環境下でのスケーラビリティが課題となっていた。
    • ソフトウェアの導入による影響を考慮した,迅速な異常診断と根本原因の特定を目指す。
    • Praxiumは,AIベースのテレメトリ分析と依存関係分析により,クラウド環境における異常を効果的に検知可能であることを示した。
    • 根本原因の推論においても高い精度を維持し,特に頻繁なパッケージ導入環境下でも信頼性の高い結果が得られた。
    • 異常検知のF1スコアは0.97を超え,実用的なハイパーパラメータ調整の分析も提供した。

    Link: https://arxiv.org/abs/2603.23890

  • 知識を洗練した二重文脈認識ネットワークによる部分的に関連する動画検索 [cs.CV, cs.AI]目的:部分的に関連する動画セグメントの検索
    • 動画検索は,情報過多な時代において,必要な情報を迅速に取得するための重要な技術である。
    • 動画とテキストの間の情報密度の不一致や,セマンティック焦点とイベント相関を見落とす注意メカニズムが課題である。
    • テキストと視覚の両面からこれらの課題を解決し,より正確な動画検索を実現すること。
    • 提案手法KDC-Netは,テキスト側で階層的セマンティック集約モジュールを用いてクエリのセマンティクスを強化する。
    • 動画側では,動的Temporal Attentionメカニズムにより,局所的な時間的 coherence を持つキーイベントを強調する。
    • 実験結果から,KDC-NetはPRVRベンチマークにおいて,既存手法を上回り,特に低いmoment-to-video比率で優れた性能を示す。

    Link: https://arxiv.org/abs/2603.23902

  • 現実世界の画像再構成と操作のための高忠実度拡散逆変換における潜在的バイアス整列 [cs.CV, cs.AI]目的:拡散モデルを用いた画像再構成・操作における高精度化
    • 拡散モデルは高品質な画像生成が可能だが,現実世界の画像を再現するには逆変換技術が不可欠である。
    • 既存の逆変換手法は,再構成品質の低さやロバスト性の弱さが課題となっている。
    • 逆変換と生成の軌跡のずれ,およびVQAE再構成との不一致を解消し,再構成精度を向上させる。
    • 提案手法(LBO)は,逆変換と生成の軌跡のずれを低減する潜在的バイアスベクトルを導入し,再構成品質を大幅に改善する。
    • 画像潜在表現を調整するILBにより,拡散逆変換とVQAE再構成を近似的に同時最適化することで,更なる精度向上を実現する。
    • 画像編集や希少概念生成といった下流タスクにおいても,提案手法の有効性が実験的に示された。

    Link: https://arxiv.org/abs/2603.23903

  • DUPLEX:LLM駆動情報抽出によるエージェント的二重システム計画 [cs.AI]目的:LLM駆動情報抽出によるエージェント的二重システム計画の提案
    • ロボットタスク計画において,LLMのセマンティック柔軟性は有用だが,幻覚や論理的不整合が信頼性を損なう。
    • 非構造化環境と厳密な計画合成のギャップが存在し,長期的計画におけるLLMの信頼性が課題である。
    • LLMを構造化されたセマンティックな情報抽出に限定し,論理的計画合成をシンボリックプランナーに委ねることで信頼性を向上させる。
    • DUPLEXは,LLMをスキーマガイド型情報抽出に限定する二重システムニューロシンボリックアーキテクチャである。
    • ファストシステムは軽量LLMでエンティティや関係を抽出し,PDDL問題ファイルを作成する。
    • スローシステムは計画失敗時に,ソルバー診断に基づいて高容量LLMによる反復的な推論と修正を行う。

    Link: https://arxiv.org/abs/2603.23909

  • AnalogAgent:LLMエージェントによる自己改善型アナログ回路設計自動化 [cs.AI]目的:アナログ回路設計の自動化
    • アナログ回路設計は,現代エレクトロニクスの根幹であり,高性能なデバイス開発に不可欠である。
    • 既存のLLMベースのアプローチは,詳細な技術的知識の保持が難しく,設計の品質向上が課題となっていた。
    • AnalogAgentは,LLMエージェントと自己進化型メモリを活用し,既存手法の課題克服を目指す。
    • AnalogAgentは,Geminiで92%,GPT-5で97.4%のPass@1スコアを達成した。
    • コンパクトモデル(Qwen-8B等)においても,平均Pass@1スコアが48.8%向上,全体で72.1%を達成した。
    • これにより,AnalogAgentがオープンウェイトモデルのアナログ回路設計自動化能力を大幅に強化することが示された。

    Link: https://arxiv.org/abs/2603.23910

  • マルチトークン予測のための自己蒸留 [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルにおけるマルチトークン予測の効率向上
    • 大規模言語モデルの規模拡大に伴い,推論速度が重要課題となっている。
    • 既存のマルチトークン予測手法は,予測ヘッドの受容率と複数ヘッドの同時学習に課題がある。
    • 本研究は,マルチトークン予測ヘッドの性能向上と推論効率の改善を目指す。
    • 自己蒸留法MTP-Dを提案し,マルチトークン予測ヘッドの受容率を向上させた。
    • MTP-Dとループ拡張戦略により,1ヘッドMTPと比較して推論速度を220.4%向上させた。
    • 蒸留戦略とマルチトークン予測のスケーラビリティに関する重要な知見を得た。

    Link: https://arxiv.org/abs/2603.23911

  • 大規模ビジョン言語モデルにおける注意機構を意識した推論最適化とメモリ効率の良いデコーディング [cs.CV, cs.LG]目的:大規模ビジョン言語モデルの推論時間効率向上
    • マルチモーダル推論において,大規模ビジョン言語モデルは目覚ましい成功を収めているため,その重要性が高まっている。
    • デコーディング時のメモリオーバーヘッドが大きく,特に長文のクエリや回答を扱う場合に推論効率が課題となっている。
    • 高解像度画像や動画など,多数の視覚入力と相互作用を伴う長文コンテキストタスクにおける効率改善を目指す。
    • AttentionPackは,キーと値の行列を経済的に格納する多頭注意圧縮手法と,遅延オーバーヘッドを削減するトークン固有の注意機構を意識した解凍メカニズムを導入する。
    • 複数のベンチマークにおいて,AttentionPackはメモリ効率を最大8倍に向上させ,より大きなバッチサイズと高速なバッチ推論を可能にする。
    • AttentionPackは,退去,量子化,カーネル融合と組み合わせることで,リソース制限された環境において更なる効率向上を実現する。

    Link: https://arxiv.org/abs/2603.23914

  • DecepGPT:スキーマ駆動型欺瞞検出における多文化データセットとロバストなマルチモーダル学習 [cs.CV, cs.AI]目的:多文化データセットとロバストなマルチモーダル学習による欺瞞検出手法
    • 法医学やセキュリティ分野において,欺瞞行動の識別は重要な課題である。
    • 既存のベンチマークは中間的な推論根拠がなく,データセットも規模が小さく,シナリオの網羅性も低い。
    • 検証可能な根拠に基づいた欺瞞検出と,文化的な背景に依存しない汎化性能の向上を目指す。
    • 本研究では,構造化された手がかりレベルの説明と推論チェーンを付加した推論データセットを構築した。
    • 「To Tell The Truth」のテレビ番組フォーマットを4カ国で実施した多文化データセット「T4-Deception」を公開した。
    • SICSモジュールとDMCモジュールを提案し,少ないデータ条件下でのロバストな学習を実現し,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2603.23916

  • 無限ホライズンMDPにおける最適な分散依存後悔上限 [cs.LG, cs.IT, math.IT, math.OC, stat.ML]目的:無限ホライズンマルコフ決定過程(MDP)におけるオンライン強化学習の理論的・アルゴリズム的発展
    • 強化学習は,複雑な環境下での意思決定において重要な役割を果たす。
    • 無限ホライズンMDPの強化学習は,エピソード形式と比較して理論的・アルゴリズム的に未発達である。
    • インスタンス固有の複雑さに適応し,初期コストを削減するアルゴリズムを開発すること。
    • 本研究では,平均報酬後悔と$\gamma$-後悔という2つの無限ホライズン目的関数に対し,最適な分散依存後悔保証を持つ実用的なUCB型アルゴリズムを開発した。
    • 後悔上限は$\tilde{O}( \sqrt{SA\,\text{Var}} + \text{下位項})$の形で表され,最悪の場合にミニマックス最適だが,簡単な問題インスタンスにも適応する。
    • 最適なバイアススパン$\Vert h^\star\Vert_\text{sp}$が事前にわかっている場合,下位項は$\Vert h^\star\Vert_\text{sp} S^2 A$としてスケーリングし,事前知識がない場合は$\Vert h^\star\Vert_\text{sp}^2 S^3 A$のスケーリングとなる。

    Link: https://arxiv.org/abs/2603.23926

  • ORACLE:Transformer-CVAEと対照学習を用いたNPCの日常活動のオーケストレーション [cs.DC, cs.GR, cs.CL, cs.CV, cs.LG]目的:NPCのリアルな日常活動計画の生成
    • デジタル環境におけるNPCは,没入感と認知能力の向上に貢献する重要な要素である。
    • 既存手法では,人間らしい複雑さを捉えきれず,単調な繰り返しが生じやすい。
    • 人間らしい多様性と自然さを持つ活動計画を生成し,NPCのリアリティを高める。
    • ORACLEは,CASASスマートホームデータセットを用いて,不均衡なシーケンスデータや学習サンプル不足といった課題に対応している。
    • Transformer,CVAE,対照学習を組み合わせることで,NPC活動計画の生成において既存手法を上回る性能を達成した。
    • 本研究は,デジタル環境におけるNPCの行動にリアリズムと多様性をもたらす可能性を示唆する。

    Link: https://arxiv.org/abs/2603.23933

  • 大規模ビジョン言語モデルにおける多視点幻覚の解明 [cs.CV, cs.AI]目的:大規模ビジョン言語モデルにおける多視点幻覚の分析と軽減
    • 多様な視点からの画像入力は,モデルの理解度と応用範囲を広げる上で不可欠である。
    • 異なるインスタンスや視点の情報を混同する多視点幻覚が,モデルの精度低下を引き起こしている。
    • 多視点幻覚を抑制し,モデルが正確な視覚的証拠とインスタンス/視点を関連付けられるようにすること。
    • 本研究では,多視点幻覚を評価するためのベンチマークであるMVH-Benchを構築した。
    • 提案手法であるReference Shift Contrastive Decoding (RSCD) は,既存手法と比較して,Qwen2.5-VLで最大21.1ポイント,LLaVA-OneVisionで最大34.6ポイントの性能向上を実現した。
    • RSCDは,アテンションマスキングにより視覚的干渉を抑制することで,効果的に多視点幻覚を軽減することが示された。

    Link: https://arxiv.org/abs/2603.23934

  • 根拠に基づく医療ガイドラインエージェント開発のための対話からの質問生成 [cs.CL, cs.LG]目的:根拠に基づく医療における質問生成の実現可能性
    • 質の高い医療には根拠に基づく医療が不可欠だが,多忙な臨床現場での導入は困難である。
    • 医師は短い診察時間,患者数の増加,そしてリアルタイムでの参照が困難な分厚いガイドラインに直面している。
    • 医師の思考を支援し,ガイドラインに基づく診療を短い診察に組み込むことを目指す。
    • 大規模言語モデルは,まだ完全に信頼できるわけではないものの,臨床的に意味があり,ガイドラインに関連する質問を生成できることが示された。
    • これにより,医師の認知負荷を軽減し,臨床現場での根拠に基づく医療の実践を促進する可能性が示唆された。
    • 対話からの質問生成は,医師の意思決定を支援する上で有望なアプローチであると考えられる。

    Link: https://arxiv.org/abs/2603.23937

  • 改ざん耐性汎用ウォーターマーキングによる高忠実度な顔コンテンツ復元 [cs.CL, cs.CV, cs.AI]目的:顔コンテンツの復元,操作箇所の特定,著作権保護
    • AI技術による顔画像の改ざんが深刻化しており,メディアの信頼性確保が重要である。
    • 従来のウォーターマーキング技術は,忠実度と機能性の両立が難しく,コンテンツ復元機能が不足している。
    • 本研究は,改ざんされた顔画像からのコンテンツ復元を可能にし,フォレンジック分析を支援することを目的とする。
    • 提案手法VeriFiは,コンテンツを保持する潜在的ウォーターマークを埋め込み,改ざん後の忠実な復元を可能にする。
    • 画像特徴とProvenance信号の相関により,位置情報特定のためのアーティファクトを抑制し,高精度な操作箇所特定を実現する。
    • 潜在空間混合とシームレスブレンディングを組み合わせたAIGC攻撃シミュレーターにより,現実的なディープフェイクに対するロバスト性を向上させる。

    Link: https://arxiv.org/abs/2603.23940

  • 可変長オーディオフィンガープリント [cs.CE, cs.DC, cs.SD, cs.AI, cs.MM]目的:可変長オーディオフィンガープリントの実現
    • 音楽や音声の識別は,コンテンツ保護や検索において重要である。
    • 既存手法は固定長セグメントに依存し,時間的変化に対応できない。
    • 可変長に対応することで,よりロバストな識別を目指す。
    • 提案手法VLAFPは,可変長のオーディオを処理可能な初の深層学習モデルである。
    • 実世界の3つのデータセットで,既存の最先端手法を上回る性能を示した。
    • ライブオーディオ識別とオーディオ検索の両タスクにおいて有効性が確認された。

    Link: https://arxiv.org/abs/2603.23947

  • 深海冷湧出帯段階推論のための知識強化小データ学習:GRMLR [cs.LG, cs.CV]目的:深海冷湧出帯段階の推論
    • 深海生態系の理解は,地球規模の物質循環や生物多様性の維持に不可欠である。
    • 深海におけるデータ収集は困難であり,十分なデータ量を得ることが課題である。
    • 小規模データセットでも高精度な段階推論を可能にする手法の開発。
    • 本研究で提案するGRMLRは,既存の分類手法と比較して有意に高い性能を示した。
    • GRMLRは,生態学的知識グラフを活用することで,過学習を抑制し,生物学的に整合性の高い分類を実現する。
    • マクロ生物の観察を必要とせず,微生物の存在量データのみで推論が可能となる。

    Link: https://arxiv.org/abs/2603.23961

  • ピクセルからデジタルエージェントへ:強化学習環境の分類と技術動向に関する実証的研究 [cs.AI]目的:強化学習環境の分類と技術動向の分析
    • 強化学習の進歩は,学習・評価に使用される環境に大きく依存する。環境の理解が重要である。
    • 従来の定性的なレビューでは,環境の進化を定量的に捉えることが困難であった。
    • 強化学習環境の進化を定量的に分析し,次世代環境設計の道筋を示す。
    • 大規模な文献分析により,強化学習環境が物理シミュレーションから言語駆動型エージェントへ移行していることが明らかになった。
    • 強化学習環境は,「意味的事前知識」と「ドメイン特化型汎化」の二つの生態系に分岐していることが確認された。
    • 各ドメインの「認知指紋」を分析することで,タスク間の相乗効果や干渉,ゼロショット汎化のメカニズムが解明された。

    Link: https://arxiv.org/abs/2603.23964

  • ポリシー誘導型脅威ハンティング:Splunk SOCトリアージのためのLLM活用フレームワーク [cs.RO, eess.IV, cs.CR, cs.AI]目的:高度化するサイバー脅威への脅威ハンティングの自動化・効率化
    • サイバー空間におけるAPTの高度化により,従来のセキュリティ対策では脅威ハンティングが困難になっている。
    • SOCアナリストは,多様なデバイスから大量のログを分析する必要があり,負担が増大している。
    • 変化するネットワーク環境に適応し,リスクに基づいた優先順位付けを行う脅威ハンティングフレームワークを提案する。
    • 本フレームワークは,SplunkとAgentic AIを統合し,トラフィックの取り込みから異常検知,LLMによる文脈分析までをシームレスに連携させる。
    • 公開データセットとシミュレーションデータセットを用いた評価の結果,本フレームワークはSOCの目的に自律的に適応し,不審なトラフィックを効果的に識別できることが示された。
    • これにより,SOCアナリストの意思決定を支援し,ネットワークトラフィックのブロック,許可,監視に関する運用効率を向上させることができる。

    Link: https://arxiv.org/abs/2603.23966

  • 無線通信による部分観測型輸送マルチロボットシステムのオンラインスケジューリング [cs.LG]目的:スマートファクトリーにおける部分観測型輸送マルチロボットシステムのオンラインスケジューリング手法
    • スマートファクトリーでは,柔軟な生産体制の実現が求められており,そのためにはロボット群の効率的なタスク割当が重要である。
    • リアルタイム性と動的な環境変化に対応した,衝突回避と混雑回避を考慮したオンラインスケジューリングが課題となっている。
    • 無線通信を活用し,ロボット間の情報共有を通じて部分観測問題を克服し,効率的なオンラインスケジューリングを実現すること。
    • 無線通信を活用することで,ロボットは経路情報を共有し,部分観測下での複雑な計算を支援できる。
    • 提案手法は,シミュレーテッドアニーリングによるタスク割当と,A*探索に基づく経路計画を統合している。
    • 実験結果から,提案手法はAGV負荷が高く,通信資源が限られている状況下でも,他の手法と比較してスケジューリング効率を大幅に向上させることが示された。

    Link: https://arxiv.org/abs/2603.23967

  • 価格逆転現象:より安価な推論モデルが結果的に高コストになる場合 [cs.CL, cs.AI, cs.GT, cs.LG, cs.MA]目的:推論言語モデルの価格と実際の推論コストの乖離
    • 推論言語モデルの利用拡大に伴い,コスト効率が重要課題となっている。
    • API価格だけでは,実際の推論コストを正確に把握できないという問題がある。
    • API価格と実際のコストの乖離を明らかにし,コストを考慮したモデル選択を促す。
    • 8つの最先端推論言語モデルを評価した結果,価格が低いモデルがより高いコストを伴う「価格逆転現象」が21.8%のモデル対比較で確認された。
    • この現象の主な原因は,モデル間の「思考トークン」消費量の大きな違いであり,同じクエリでも最大900%の差が生じた。
    • 思考トークンコストを除去することで,価格逆転の発生率を70%削減でき,価格とコストのランキング相関も向上した。

    Link: https://arxiv.org/abs/2603.23971

  • キルヒホッフ則に着想を得た,高次の知覚を進化させるニューラルネットワーク [cs.LG, cs.AI]目的:高次の知覚進化のためのニューラルネットワークアーキテクチャの提案
    • 深層学習は脳科学に由来し,データ表現学習において目覚ましい成果を上げている。
    • 従来の深層学習は,生物学的ニューロンの情報符号化・伝達戦略とは根本的に異なる。
    • 信号強度,結合構造,状態進化の相互作用を体系的に特徴づけるメカニズムを導入する。
    • キルヒホッフ則に着想を得たKINNという,状態変数に基づく新しいネットワークアーキテクチャを提案した。
    • KINNは,単一層で高次の進化成分を分離・符号化し,物理的な整合性,解釈可能性,そしてエンドツーエンドでの学習能力を維持する。
    • 偏微分方程式の求解およびImageNet画像分類実験において,最先端の手法を凌駕する性能が確認された。

    Link: https://arxiv.org/abs/2603.23977

  • SafeFlow:物理に基づいた修正フローと選択的安全性ゲートによるリアルタイムテキスト駆動ヒューマノイド全身制御 [cs.ET, cs.RO, cs.AI, cs.SY, eess.SY]目的:テキストによるヒューマノイドの全身制御
    • ヒューマノイドロボットの多様な行動実現には,リアルタイムな動作生成が不可欠である。
    • 既存の動作生成手法は物理法則を考慮せず,現実世界での実行が困難な非現実的な動作を生成する可能性がある。
    • 物理法則に基づいた動作生成と安全性ゲートにより,現実的で安全な動作を実現することを目指す。
    • SafeFlowは,物理を考慮した修正フローマッチングにより,ロボットが実行可能な動作生成と高速なサンプリングを実現した。
    • 3段階の安全性ゲートにより,異常なテキスト入力の検出,不安定な動作のフィルタリング,関節制限の適用を行い,安全性を確保した。
    • Unitree G1を用いた実験で,SafeFlowは従来の拡散モデルと比較して,成功率,物理的適合性,推論速度で優れていることを示した。

    Link: https://arxiv.org/abs/2603.23983

  • 古典的ニューラルネットワークの限界を超えて:地震データ処理のための量子・古典相乗パラダイム [cs.LG, physics.geo-ph]目的:地震データ処理のための量子・古典相乗生成敵対ネットワーク
    • 地震探査において,高品質なデータ処理は資源探査や地殻構造解明に不可欠である。
    • 従来のニューラルネットワークは表現能力に限界があり,複雑な地震波の動特性を捉えきれない場合がある。
    • 量子ニューラルネットワークの活用により,表現能力の限界を克服し,より高度な地震データ処理を実現する。
    • 提案手法であるQC-GANは,量子経路と畳み込み経路を相乗的に統合することで,従来のGANが持つ表現能力のボトルネックを解消する。
    • 実験結果から,QC-GANは複雑なノイズ条件下でも,波形の連続性と振幅・位相情報を保持することが示された。
    • QC-GANは,地震データのノイズ除去や補間タスクにおいて優れた性能を発揮し,その有効性が確認された。

    Link: https://arxiv.org/abs/2603.23984

  • LLMのダイエット:タスク固有の重要度スコアのマージによる次元ごとのグローバルプルーニング [cs.LG]目的:大規模言語モデルの次元ごとのグローバルプルーニング手法
    • 大規模言語モデルの能力は高いが,その巨大さが実用上の課題となっている。
    • 既存のプルーニング手法は,タスクへの適応性や学習コストとのトレードオフがある。
    • タスク固有の情報を取り入れつつ,学習コストを抑えたプルーニング手法の開発。
    • DIETは,各タスクの活性化の大きさをプロファイリングし,多数決でグローバルマスクを生成する。
    • 事前計算や学習コストをほとんど必要としない,学習不要の構造化プルーニング手法である。
    • Gemma-2 2Bモデルで20%の疎性化において,平均精度が10%近く向上し,最先端手法を上回る。

    Link: https://arxiv.org/abs/2603.23985

  • LLMを用いた臨床時系列データの移植性表現の生成可能性 [cs.LG]目的:臨床時系列データに対する移植性表現の生成
    • 臨床MLの導入は遅く,頑健性に欠けるため,医療現場での活用が課題となっている。
    • 異なる病院間での分布のずれにより,モデルの性能が低下する問題が存在する。
    • LLMを活用し,病院間の再学習・微調整を最小限に抑えた移植性表現の生成を目指す。
    • LLMを用いてICU時系列データを自然言語の要約に変換し,テキスト埋め込みモデルでベクトル化する手法を提案。
    • 提案手法は,既存の欠損値補完や自己教師あり学習,時系列基盤モデルと遜色なく,転移学習時の性能劣化も小さい。
    • 構造化されたプロンプト設計が,予測モデルの分散を低減し,少ないサンプルでの学習を改善する上で重要であることが示された。

    Link: https://arxiv.org/abs/2603.23987

  • 制御不能なブラックボックスから解釈可能な教育オーケストレーションへ:アダプティブ・チュータリングのための専門LLMアンサンブルアーキテクチャ [cs.CL, cs.CY, cs.AI]目的:アダプティブ・チュータリングのための,解釈可能で制御可能なLLMアーキテクチャの構築
    • 教育分野におけるLLM活用は,個別最適化された学習体験の提供に貢献する可能性を秘めている。
    • 従来のLLMは意思決定過程が不透明で,教育上の制約を遵守しているか検証が困難である。
    • LLMの構造的な分離により,信頼性,検証可能性,効率性を向上させ,教育的制約を確実に守ることを目指す。
    • 専門LLMアンサンブルアーキテクチャ(ES-LLMS)は,人間専門家および多重LLM評価において,従来のLLMよりも高い評価を得た。
    • ES-LLMSは,スクリーニングとガイダンス,信頼性と説明可能性の側面で特に優れた性能を示した。
    • モンテカルロシミュレーションにより,ES-LLMSは教育的制約を100%遵守し,ヒント効率を3.3倍向上させた。

    Link: https://arxiv.org/abs/2603.23990

  • LLMを用いた反復型生成最適化における課題の理解 [cs.NI, eess.SP, cs.LG, cs.AI]目的:LLMを用いた反復型生成最適化の課題とその解決策
    • LLMを活用した自己改善エージェント構築への期待が高まっているため。
    • 自動最適化を適用できるエージェントの割合が低く,実用化が難航している。
    • 学習ループ構築における隠れた設計選択が成功を左右するため,その指針を示す。
    • 初期成果物,トレースのクレジット範囲,バッチサイズ等の設計選択が最適化の成否に影響する。
    • MLAgentBenchでは初期成果物が到達可能な解を決定し,Atariでは短縮されたトレースでも改善が見られた。
    • BBEHでは,バッチサイズを大きくしても汎化性能が必ずしも向上するとは限らないことが示された。

    Link: https://arxiv.org/abs/2603.23994

  • 高次元・高階偏微分方程式に対する確率的次元自由ゼロ次推定器 [cs.CL, cs.LG]目的:高次元・高階偏微分方程式に対する物理情報ニューラルネットワークの効率的な学習手法
    • 物理現象のシミュレーションにおいて,高次元かつ高階の偏微分方程式を解くことは重要である。
    • 従来の物理情報ニューラルネットワークでは,計算コストとメモリ消費量が次元数・階数に比例して増加する。
    • 本研究は,次元数・階数に依存しない計算コストとメモリ消費量を実現し,大規模な偏微分方程式の学習を可能とする。
    • 提案手法であるSDZEは,共通乱数同期により分散の爆発を抑制し,安定した学習を実現する。
    • 暗黙的行列フリー部分空間投影により,パラメータ探索の分散を削減し,メモリ使用量を削減する。
    • 1000万次元のPINNsを単一のNVIDIA A100 GPUで学習可能となり,既存手法と比較して高速かつメモリ効率が良い。

    Link: https://arxiv.org/abs/2603.24002

  • パーソナライズと公平性を考慮した参加型都市センシングのための言語基盤型マルチエージェント計画 [cs.CL, cs.CE, cs.AI]目的:パーソナライズと公平性を考慮した参加型都市センシングのためのマルチエージェント計画
    • 都市のデータ収集に人間の移動を利用する参加型都市センシングは,都市問題解決に不可欠である。
    • 従来の集中型最適化では,個人の嗜好や多様な都市環境が考慮されず,柔軟性に欠ける。
    • MAPUSは,個人の嗜好と公平性を考慮した,より人間中心の都市センシングシステムを実現する。
    • MAPUSは,大規模な都市データを収集しながら,参加者の満足度と公平性を大幅に向上させる。
    • 実世界のデータセットを用いた実験により,既存手法と同等のセンシングカバレッジを達成した。
    • 言語ベースの交渉を通じてセンシングルートを洗練し,持続可能な都市センシングを促進する。

    Link: https://arxiv.org/abs/2603.24014

  • COVTrack++:連続動画からのオープンボキャブラリマルチオブジェクトトラッキングの学習における相乗的パラダイム [cs.CV, cs.LG]目的:オープンボキャブラリマルチオブジェクトトラッキングの実現
    • 現実世界の多様な物体に対応するため,特定のカテゴリに限定されないトラッキング技術の重要性が高まっている。
    • トレーニングデータにおける継続的なアノテーションの不足と,検出とアソシエーションを効果的に扱うフレームワークの欠如が課題となっていた。
    • 継続的にアノテーションされたデータセットを構築し,検出とアソシエーションを相乗的に扱うフレームワークを提案することで,課題解決を目指す。
    • 新たに構築したC-TAOデータセットは,TAOと比較してアノテーション密度を26倍に向上させ,滑らかな動きと中間的な物体状態を捉えている。
    • COVTrack++は,検出とアソシエーション間の双方向の相互メカニズムを実現する相乗的フレームワークであり,TAOデータセットで最先端の性能を発揮する。
    • TETAにおいて,検証セットとテストセットでそれぞれ35.4%と30.5%を達成し,既存手法を4.8%(novel AssocA)および5.8%(novel LocA)上回る性能を示した。

    Link: https://arxiv.org/abs/2603.24016

  • ELITE:自己改善型具現化エージェントのための経験学習と意図を意識した知識転移 [cs.AI]目的:具現化エージェントの自己改善
    • 具現化エージェントは現実世界とのインタラクションが不可欠であり,その性能向上はロボット工学等の発展に繋がる。
    • 既存のビジョン言語モデルは静的データで学習するため,具現化タスクにおける物理的相互作用に対応できないという課題がある。
    • 本研究では,環境とのインタラクションを通じて継続的に学習し,知識を転移することで,この課題を克服することを目指す。
    • ELITEは,自己省察的な知識構築と意図を意識した検索という二つのメカニズムを組み合わせることで,エージェントの学習能力を向上させる。
    • EB-ALFREDおよびEB-Habitatのベンチマークテストにおいて,ELITEはオンライン設定でベースとなるVLMと比較して9%と5%の性能向上を達成した。
    • また,教師あり学習設定では,未知のタスクカテゴリに対しても効果的に一般化し,最先端の学習ベース手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2603.24018

  • 内部スキーマ: 大規模テキスト to SQLのための二段階ファインチューニング手法 [cs.RO, cs.CL, cs.AI]目的:高効率な大規模テキスト to SQLタスクの実現
    • テキスト to SQLは,データベース操作を自然言語で行うため,データ分析の効率化に不可欠である。
    • 大規模言語モデルを用いる場合,スキーマ情報を大量に含んだプロンプトが必要となり,コストと遅延が増大する。
    • データベーススキーマをモデル内部に組み込み,プロンプトの長さを削減することで,コストと遅延を低減する。
    • 独自の80億パラメータモデルをファインチューニングすることで,入力トークン数を99%以上削減することに成功した。
    • 実行成功率は98.4%,意味的精度は92.5%と,Gemini Flash 2.0を凌駕する性能を示した。
    • 大規模な実運用環境において,高精度かつ低遅延なテキスト to SQLアプリケーションの実現可能性を実証した。

    Link: https://arxiv.org/abs/2603.24023

  • i-IF-Learn: 高次元複雑データの反復特徴選択と教師なし学習 [cs.LG, stat.ME]目的:高次元データの重要な特徴部分集合の抽出
    • 高次元データ解析は,データに含まれるノイズにより構造の把握が困難であるため重要。
    • 教師なし学習では,無関係な特徴が構造を隠蔽し,適切なクラスタリングが難しい。
    • 重要な特徴を選択することで,データ解釈とクラスタリングの精度向上を目指す。
    • 提案手法i-IF-Learnは,特徴選択とクラスタリングを同時に実行する反復フレームワークである。
    • i-IF-Learnは,擬似ラベルと教師なし信号を組み合わせた適応的な特徴選択統計量を活用する。
    • 遺伝子マイクロアレイとシングルセルRNA-seqデータセットにおいて,既存手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2603.24025

  • 混合整数計画問題に対するラグランジュ緩和スコアに基づく生成法 [cs.LG]目的:混合整数計画問題の求解加速のための生成手法
    • 最適化問題は,現実世界の様々な課題解決に不可欠であり,効率的な求解手法が求められている。
    • 既存手法は変数間の依存関係を無視し,多様な解候補を得るのが難しいという課題があった。
    • 変数間の依存関係を考慮し,高品質な解候補を効率的に生成することで,求解性能の向上を目指す。
    • 提案手法SRGは,ラグランジュ緩和と確率的微分方程式に基づき,多様かつ高品質な解候補を生成する。
    • SRGは,既存の機械学習ベースラインと比較して,解の質において一貫して優れた性能を示す。
    • SRGは,未知の問題に対しても高い最適性を示し,計算コストを大幅に削減することが確認された。

    Link: https://arxiv.org/abs/2603.24033

  • オラクルからノイズの多い文脈へ:音声LLMにおける文脈的露出バイアスの軽減 [cs.CL, cs.AI]目的:音声LLMにおける文脈的露出バイアスの軽減
    • 音声LLMは会話認識の精度向上に不可欠であり,自然な対話システムの実現が期待される。
    • 学習時と推論時で文脈にずれが生じ,性能低下の原因となる文脈的露出バイアスが問題となる。
    • 現実的な会話履歴下での堅牢性を高め,誤った文脈の影響を軽減することを目的とする。
    • 教師のエラー知識としてWhisperの仮説を用いることで,学習時の文脈をより現実に近づける。
    • 文脈ドロップアウトにより,履歴への過剰な依存を抑制し,モデルの汎化性能を向上させる。
    • DPOを用いることで,特定の失敗事例に対するロバスト性を高め,誤解を招く文脈への耐性を向上させる。

    Link: https://arxiv.org/abs/2603.24034

  • MoE-Sieve:ルーティングに基づく効率的なMoEファインチューニングのためのLoRA [cs.LG, cs.CL]目的:MoEモデルの効率的なファインチューニング手法
    • MoEモデルは大規模言語モデルの性能向上に貢献するが,計算コストが高い。
    • MoEモデルの各エキスパートは均等に利用されず,一部がほとんど活用されない。
    • 活用頻度の高いエキスパートにLoRAを適用し,計算コストを削減することを目指す。
    • ルーティング情報を活用し,上位k個のエキスパートのみにLoRAを適用するMoE-Sieveを提案。
    • MoE-Sieveは,フルLoRAと同等の性能を維持しつつ,学習パラメータを70-73%削減可能。
    • エキスパート数の増加と再現性のばらつきには非単調な関係が存在することが示唆された。

    Link: https://arxiv.org/abs/2603.24044

  • 階層的空間・時間グラフ拡張モデルによる地図照合 [cs.RO, cs.HC, cs.CL, cs.DB, cs.IR, cs.LG]目的:地図照合性能の向上
    • 位置情報技術の発展により大量の軌跡データが生じ,交通管理やナビゲーション等の応用が重要である。
    • 従来のルールベース手法の限界に加え,深層学習モデルにおいてもデータラベリングの困難性や空間・時間関係のモデル化不足が課題となっていた。
    • 大規模データへの対応,空間・時間関係の効率的なモデリング,データ分布の差異への対応を可能とする手法の開発。
    • 提案手法HSTGMatchは,階層的な自己教師あり学習と空間・時間教師あり学習の二段階構成により,既存手法を上回る地図照合性能を実現した。
    • アダプティブ軌跡隣接グラフの導入とGATの最適化により,空間関係の動的な捕捉と計算効率の向上を両立した。
    • 空間・時間係数の導入と減衰係数の適用により,軌跡長のばらつきにロバストな特徴抽出を可能とした。

    Link: https://arxiv.org/abs/2603.24054

  • 注意の不均衡修正によるLVLMにおける物体幻覚の軽減 [cs.CV, cs.AI]目的:大規模ビジョン言語モデルにおける物体幻覚の軽減
    • 実世界での応用において,LVLMの信頼性は重要であり,特に自動運転や医療画像解析などの分野では不可欠である。
    • LVLMは物体幻覚を起こしやすく,その原因はモダリティ間およびモダリティ内における注意の不均衡にある。
    • 注意の不均衡を定量化・可視化し,注意重みの再分配によって物体幻覚を抑制することを目指す。
    • 提案手法AIRは,既存手法と比較して最大35.1%の物体幻覚発生率の低減を達成した。
    • AIRは,様々な視覚言語タスクにおいてLVLMの汎用的な能力を最大15.9%向上させた。
    • AIRは,デコーディング時に注意重みを再分配し,モダリティ間およびトークン間の不均衡を修正する軽量な介入手法である。

    Link: https://arxiv.org/abs/2603.24058

  • 思考菌糸体拡張(EMoT):戦略的休眠と記憶符号化を備えたバイオインスパイア階層的推論アーキテクチャ [cs.AI]目的:大規模言語モデルにおける複雑な多領域問題解決のための,階層的推論アーキテクチャ
    • 大規模言語モデルの能力向上は,複雑な問題解決や高度な意思決定を可能にする上で重要である。
    • 既存の推論手法は,永続的な記憶や戦略的な休眠機構,領域間の統合に乏しいという課題がある。
    • 本研究は,階層的構造,休眠・再活性化,記憶符号化を組み合わせた新しい推論フレームワークを提案し,その有効性を検証する。
    • EMoTは,3つの領域におけるLLM評価において,CoTと同程度の性能(4.20 vs. 4.33/5.0)を示し,安定性も高かった。
    • 領域横断合成においては,CoTを上回る性能(4.8 vs. 4.4)を示したが,単純な問題に対しては過剰な思考により性能が低下した。
    • 戦略的休眠機能を停止した場合,推論品質が大幅に低下(4.2から1.0へ)し,その重要性が確認された。

    Link: https://arxiv.org/abs/2603.24065

  • グラフニューラルネットワークに基づく漏洩検知におけるセンサ配置の影響 [cs.LG, cs.SY, eess.SY]目的:漏洩検知におけるセンサ配置の影響評価
    • 水道インフラの老朽化が進み,漏洩検知の重要性が増している。
    • 効果的なセンサ配置は課題であり,コストと検知率のバランスが難しい。
    • グラフニューラルネットワークの性能を最大化するセンサ配置方法を提案する。
    • PageRank-Centralityに基づく新たなセンサ配置手法を提案した。
    • EPANET Net1において,提案手法が再構成,予測,漏洩検知の性能を大幅に向上させることを示した。
    • センサ配置は,グラフニューラルネットワークを用いた漏洩検知の性能に大きく影響することがわかった。

    Link: https://arxiv.org/abs/2603.24076

  • 理解がリスクとなる時:新たな画像生成パラダイムにおける真正性と安全性に関するリスク [cs.CV, cs.AI, cs.CR]目的:マルチモーダル大規模言語モデルにおける安全性リスクの分析
    • 画像生成技術は急速に進歩しており,社会への応用が拡大しているため,安全性確保が重要である。
    • 拡散モデルと比較して,マルチモーダル大規模言語モデルは高度な理解力を持つが,安全性リスクが十分に認識されていない。
    • マルチモーダル大規模言語モデルが抱える新たな安全性リスクを定量的に評価し,その課題を明確にすること。
    • マルチモーダル大規模言語モデルは,拡散モデルよりも有害な画像を生成する傾向があることが複数のデータセットで確認された。
    • 拡散モデルが抽象的なプロンプトを解釈できないのに対し,マルチモーダル大規模言語モデルは理解し,有害なコンテンツを生成するためである。
    • マルチモーダル大規模言語モデルが生成した画像は,既存の偽画像検出器で識別することが困難であり,再学習しても回避される場合がある。

    Link: https://arxiv.org/abs/2603.24079

  • 知識誘導による操作:マルチタスク強化学習の活用 [cs.RO, cs.AI, cs.LG]目的:マルチタスクロボット操作のための知識グラフに基づくフレームワーク
    • ロボットの汎用的な操作能力は,人手不足の解消や危険な作業の代替に不可欠である。
    • 部分的にしか観測できない環境下では,ロボットが状況を理解し,適切な行動をとることが困難である。
    • 知識を用いてロボットがより効率的にタスクを学習し,未知の状況にも対応できるようにすること。
    • 提案手法KG-M3POは,複数の観測モダリティを統合し,知識グラフを活用することで,ロボットの操作性能を向上させる。
    • 実験結果から,知識に基づいたエージェントは,従来のベースラインと比較して,より高い成功率,サンプル効率,そして汎化性能を示すことが示された。
    • 継続的に維持される構造化された世界知識が,スケーラブルで汎用性の高い操作のための強力な誘導バイアスとなることが支持された。

    Link: https://arxiv.org/abs/2603.24083

  • 多目的探索の評価ギャップの解消:標準化されたベンチマーク [cs.AI]目的:多目的探索のための標準化されたベンチマークスイート
    • 多目的探索は,現実世界の複雑な問題を解決する上で重要である。多様な目的を同時に最適化する必要があるため。
    • 既存の研究は,問題設定の不均一性により,研究間の比較が困難であった。
    • 異なる構造を持つ問題群で,よりロバストで再現性のある評価を実現すること。
    • 本研究では,道路ネットワーク,グラフ,ゲーム環境,ロボットの経路計画など,構造の異なる4つのドメインを含むベンチマークスイートを開発した。
    • このスイートは,固定されたグラフインスタンス,標準化されたクエリ,および参照となるパレート最適解を提供することにより,目的間の様々な相互作用を捉えている。
    • これにより,今後の多目的探索の評価がより堅牢で,再現性があり,構造的に包括的になるための基盤を提供する。

    Link: https://arxiv.org/abs/2603.24084

  • 効果的な体験学習に向けて:利用と内面化のための二重ガイダンス [cs.LG, cs.AI]目的:大規模言語モデルの強化学習における体験の利用と内面化
    • 大規模言語モデルの能力向上には,強化学習が不可欠な手法となっている。
    • 既存の強化学習は,人間の学習方法を十分に模倣できていない。
    • 強化学習における体験の利用と内面化を改善し,推論能力を向上させる。
    • 提案手法DGOは,過去の軌跡から体験バンクを構築し,外部および内部経験のガイダンスで探索を行う。
    • DGOは,体験バンクの改良とモデルパラメータの最適化を繰り返すことで,体験の利用と内面化を促進する。
    • 実験により,DGOがベースライン手法を上回り,より効果的な推論能力を示すことが示された。

    Link: https://arxiv.org/abs/2603.24093