arXiv雑要約

AI - 2026/03/11 公開

  • 連続的に緩和されたベルヌーイゲートを用いた当たり宝くじチケットの発見 [cs.LG, cs.AI]目的:過剰パラメータ化されたニューラルネットワークのスパースサブネットワークの発見
    • リソース制約のある環境でのニューラルネットワークの導入を促進するため,メモリと計算コストの削減が重要である。
    • 既存のSLT手法は微分不可能なスコアベースの選択に依存し,最適化効率とスケーラビリティが制限されている。
    • 微分可能な方法でSLTを発見し,ネットワークのスパース化のためのスケーラブルなフレームワークを確立すること。
    • 提案手法では,連続的に緩和されたベルヌーイゲートを用いて,ネットワーク重みを固定したままゲートパラメータのみを訓練することでSLTを発見する。
    • 実験の結果,ResNetやViTを含む様々なネットワークにおいて,最大90%のスパース性を,精度の低下を最小限に抑えながら実現した。
    • これは,既存手法であるedge-popupと比較して,ほぼ2倍のスパース性を達成し,ネットワークスパース化のためのスケーラブルな事前学習フレームワークを確立するものである。

    Link: https://arxiv.org/abs/2603.08914

  • 視覚・言語モデルにおける臨床ガイドラインの概念に基づく医学的推論のエンコード [cs.CV, cs.LG]目的:臨床ガイドラインを組み込んだ概念ベース推論フレームワーク
    • 医療分野において,AIの透明性と説明可能性は患者の信頼獲得と安全な医療提供に不可欠である。
    • 従来の概念ボトルネックモデルでは,診断ガイドラインなどの広範な臨床的文脈が考慮されず,複雑な症例での信頼性が低い。
    • 画像,概念,病理を統合し,ガイドラインに基づいた診断推論を可能にするフレームワークを構築し,説明可能性を高める。
    • 提案手法MedCBRは,超音波画像で94.2%,マンモグラフィで84.0%という高いAUROCスコアを達成した。
    • MedCBRは,診断および概念レベルの性能において既存手法を上回り,非医療データセットでも高い精度を示した。
    • 本研究は,医療画像分析と意思決定を結びつけるエンドツーエンドのフレームワークを提供し,解釈可能性を向上させる。

    Link: https://arxiv.org/abs/2603.08921

  • 視覚言語基盤モデルを用いた文脈学習による植物シミュレーション設定の生成 [cs.CV, cs.AI]目的:植物シミュレーション設定の生成
    • 農業環境における生物物理学的プロセスのシミュレーションは重要であり,機能構造植物モデル(FSPM)が活用される。
    • FSPMは複雑で処理能力が低いため,大規模展開のボトルネックとなっている。
    • 視覚言語モデル(VLM)を活用し,ドローン画像からシミュレーションパラメータを生成することで,この課題を解決する。
    • VLMは構造メタデータや植物数,太陽方位などのパラメータを解釈できることが示された。
    • ただし,文脈的バイアスや視覚的手がかりの不足により,性能が低下する場合がある。
    • 実世界のドローン画像データによる検証と,ベースラインを用いた比較実験により,VLMの推論能力が明らかになった。

    Link: https://arxiv.org/abs/2603.08930

  • デジタルツインを活用した多忠実度ネットワークにおける強化学習訓練の最適化 [cs.NI, cs.LG, cs.SY, eess.SY]目的:デジタルツインを活用した多忠実度ネットワークにおける強化学習訓練の最適化戦略
    • 無線通信ネットワークの性能向上は,現代社会における情報伝達の基盤であり,極めて重要である。
    • ユーザーの移動性により,ネットワークの状態を正確に把握することが難しく,リアルタイムな最適化が困難である。
    • 物理ネットワークとデジタルツインのデータ収集比率を最適化し,効率的な強化学習訓練を実現することを目指す。
    • 提案手法は,物理ネットワークからのデータ収集遅延を最大28.01%削減することを示した。
    • 階層型強化学習フレームワークにロバストな敵対的損失と近接ポリシー最適化(PPO)を統合することで,効率的な学習を実現した。
    • データ収集戦略とアンテナ傾斜角調整ポリシーを同時に最適化することで,ユーザーのデータレートを最大化する。

    Link: https://arxiv.org/abs/2603.08931

  • 失踪児童捜索計画のための解釈可能なマルコフに基づく時空間リスクサーフェス:強化学習とLLMによる品質保証 [cs.AI, cs.IR, cs.LG]目的:失踪児童捜索計画における時空間リスクサーフェスの生成
    • 失踪事件の初期72時間が救出成功に大きく影響する重要な分野である。
    • 捜査機関は,断片化された非構造化データと動的な地理空間予測ツールの不足に直面している。
    • 本研究は,解釈可能な予測モデルを用いて,効果的な捜索計画の立案を支援することを目的とする。
    • 提案システムは,道路アクセス,隠蔽場所の選好,時間帯を考慮したマルコフ連鎖を用いてリスクサーフェスを生成する。
    • マルコフ連鎖の出力は,強化学習によって運用可能な捜索計画に変換され,LLMによる事後検証を受ける。
    • シミュレーション実験の結果,提案システムは,ゾーン最適化と人間のレビューのための解釈可能な事前情報を提供する。

    Link: https://arxiv.org/abs/2603.08933

  • PathoScribe:統一LLM駆動フレームワークによる病理データの生きたライブラリ化と意味検索・臨床統合 [cs.CV, cs.AI, cs.CL, cs.DL, cs.IR]目的:病理データの生きたライブラリ化と意味検索,臨床統合の実現
    • 病理診断は現代医療の根幹であり,蓄積された経験が重要。しかし,その知識は十分に活用されていない。
    • デジタル化が進む一方で,検索・推論機能が不十分なため,病理アーカイブが有効活用されていない現状がある。
    • 過去の類似症例をリアルタイムで参照し,診断を支援するシステムの構築を目指す。
    • PathoScribeは,病理アーカイブを検索可能な生きたライブラリへと変革する統合的なフレームワークである。
    • 7万件の病理レポートを対象に評価した結果,自然言語による症例検索でRecall@10が完璧に達成された。
    • 自由記述の適格基準に基づいた自動コホート構築も可能となり,手動によるレビューと比較して大幅な時間とコスト削減を実現した。

    Link: https://arxiv.org/abs/2603.08935

  • VoxEmo:音声LLMによる音声感情認識のベンチマーク [cs.SD, cs.AI, cs.CL, cs.MM, eess.AS]目的:音声感情認識のためのベンチマーク
    • 音声感情認識は,人間と機械の自然な対話を可能にする上で重要な技術である。
    • 既存の音声LLMベンチマークは,人間の感情の曖昧さを考慮していない。
    • 音声LLMにおける評価のばらつきを抑え,より実世界に近い感情認識を目指す。
    • ゼロショットの音声LLMは,教師ありベースラインのハードラベル精度を下回るものの,人間の主観的分布と一致する。
    • VoxEmoは,15言語の35の感情コーパスを含む包括的なベンチマークである。
    • 異なるプロンプト複雑度に対応した標準化ツールキット,および分布を考慮したソフトラベルプロトコルを導入した。

    Link: https://arxiv.org/abs/2603.08936

  • AgentOS:アプリケーションのサイロから自然言語駆動のデータエコシステムへ [cs.AI]目的:自然言語によるデータエコシステムの構築
    • 近年,AIエージェントの進化は,人間とコンピューターの相互作用に大きな変革をもたらしつつある。
    • 既存エージェントは従来のOS上で動作し,操作性の断片化やセキュリティ上の問題が生じている。
    • AgentOSは,これらの課題を解決し,より直感的で安全なAI環境を実現することを目指す。
    • 本研究では,AgentOSの基盤となるエージェントカーネルを,リアルタイムな意図マイニングと知識発見エンジンとして捉える。
    • AgentOSは,ワークフロー自動化,スキル検索,そしてパーソナルナレッジグラフの動的進化を可能にするデータマイニングパイプラインとなる。
    • この研究は,次世代のインテリジェントコンピューティングシステムの構築に向けて,KDDコミュニティに新たな研究課題を提示する。

    Link: https://arxiv.org/abs/2603.08938

  • BiCLIP:構造化された幾何学的変換によるドメイン正準化 [cs.CV, cs.AI, cs.CL, cs.LG]目的:ドメイン間の特徴量の幾何学的変換による,ビジョン言語モデルのドメイン適応
    • 近年のビジョン言語モデルの進歩は目覚ましいが,専門分野への応用は課題である。
    • 既存モデルはドメインごとに独立して学習されるため,ドメイン間の知識転移が困難である。
    • 少数のアンカーサンプルを用いて幾何学的変換を推定し,ドメイン適応を効率的に実現する。
    • BiCLIPは,マルチモーダル特徴量にターゲットを絞った変換を適用し,クロスモーダルアラインメントを強化する。
    • EuroSAT,DTD,FGVCAircraftを含む11の標準ベンチマークで,最先端の結果を達成した。
    • 学習された変換の直交性と角度分布を分析し,構造化されたアラインメントが堅牢なドメイン適応の鍵であることを確認した。

    Link: https://arxiv.org/abs/2603.08942

  • 行方不明者捜査のための合意形成に基づくマルチLLMパイプライン [cs.AI, cs.CL, cs.DC, cs.IR, cs.LG]目的:行方不明者捜査における情報抽出と処理
    • 人命救助の可能性を高めるため,初動捜査の効率化が重要である。
    • 捜査情報の複雑性から,迅速かつ正確な情報抽出が困難である。
    • 複数のLLM出力を比較・合意形成することで,精度の高い情報抽出を実現する。
    • Guardian LLMパイプラインは,専門LLMによる情報抽出と,合意形成LLMエンジンによる出力比較を組み合わせる。
    • QLoRAを用いたファインチューニングにより,パイプラインの性能を向上させている。
    • LLMを構造化された抽出・ラベリングツールとして活用し,信頼性と透明性を重視した設計である。

    Link: https://arxiv.org/abs/2603.08954

  • 大規模疎テンソル計算のための自動テンソル関係分解 [cs.MS, cs.AI, cs.DB]目的:大規模疎テンソル計算における効率化
    • 現代のデータ分析において,高次元データの処理が不可欠であり,テンソル計算が重要な役割を担う。
    • 既存のテンソル計算は,大規模データや疎性への対応が課題であり,計算効率が低い場合がある。
    • テンソル関係分解により,疎性を関係データベースで管理し,計算集約的な部分を効率化する。
    • 本研究では,古典的なアインシュタインの総和記法を拡張したupper-case-lower-case EinSumを提案した。
    • アインシュタインの総和記法で記述された計算を,upper-case-lower-case EinSumに自動的に変換する方法を検討した。
    • 効率的な数値カーネルを用いて計算集約的な部分を高速化し,疎性は関係データベースで管理することで,大規模疎テンソル計算の効率化を目指した。

    Link: https://arxiv.org/abs/2603.08957

  • qs不等式:推論時のMoEの二重ペナルティの定量化 [cs.RO, cs.SY, eess.SY, cs.LG, cs.AR, cs.DC, cs.PF]目的:推論時のMoEアーキテクチャにおける効率低下の原因の特定と定量化
    • MoEモデルは高性能だが,推論時の効率が低下することが課題となっている。
    • MoEモデルでは,エキスパートのルーティングにより,重みの再利用が減少し,メモリ帯域幅の制約が生じる。
    • MoEとdenseモデルの性能比較基準を提示し,MoEが不利になる条件を明らかにする。
    • MoEモデルにおける「再利用の断片化」が,特に長いコンテキスト長において,FFNを帯域幅制限の領域に押し込むことが示された。
    • $qs$不等式は,MoEがdenseモデルと比較して構造的に不利になる条件を予測する指標として機能することが確認された。
    • 大規模モデルでは,MoEの推論が現実的でなくなる可能性がある一方,denseモデルは依然として実行可能であることが示された。

    Link: https://arxiv.org/abs/2603.08960

  • ニューラルフィードバックシステムの検証のためのFABRIC戦略 [cs.AI, cs.SY, eess.SY]目的:ニューラルフィードバックシステムの到達可能性解析
    • ニューラルネットワーク制御システムの安全性保証は,自動運転やロボティクス等で重要性が高まっている。
    • 前方到達可能性解析が主流だが,後方到達可能性解析は計算量の問題で遅れていた。
    • 非線形ニューラルフィードバックシステムの後方到達可能性解析アルゴリズムを開発し,検証を効率化する。
    • 本研究で提案するFaBRICは,前方・後方到達可能性解析を統合し,既存手法よりも大幅な性能向上を実現した。
    • 過近似・下近似アルゴリズムを開発し,より正確な到達可能性集合の計算を可能にした。
    • 代表的なベンチマークテストにおいて,FaBRICの有効性が確認された。

    Link: https://arxiv.org/abs/2603.08964

  • セマンティックな詳細レベル:双曲多様体上の熱核拡散による多段階知識表現 [cs.LG, cs.AI]目的:知識の多段階表現に関する枠組み
    • AIは知識をグラフ構造で扱うが,抽象化レベルの制御メカニズムが課題である。
    • 抽象化レベルの境界が不明確で,エージェントが適切にナビゲートできない。
    • 熱核拡散を用いて連続的なズーム演算子を定義し,境界を自動検出する。
    • 提案手法は,Poincar\'e球上での熱核拡散により,連続的な抽象化レベル制御を実現した。
    • 合成階層構造において,埋め込まれたレベルを高い精度で復元することに成功した。
    • WordNetの階層構造において,検出された境界が実際の分類深度と高い相関を示した。

    Link: https://arxiv.org/abs/2603.08965

  • 相互支援学習:時間依存性を持つデータストリームに対する手法 [cs.HC, cs.LG]目的:データストリームにおける相互支援学習の実現
    • IoTデバイスの普及により,リアルタイムなデータ分析の重要性が高まっている。
    • 従来の機械学習は,概念ドリフトへの対応や知識の忘却といった課題を抱えている。
    • デバイス間の連携による学習効率の向上と,通信コストの削減を目指す。
    • 提案手法MAcPNNは,概念ドリフト時に他デバイスの支援を必要に応じて求めることで,性能劣化を抑制する。
    • Federated Learningと比較して,通信量を大幅に削減できる。
    • 実験結果から,合成データおよび実データストリームにおいて,MAcPNNが性能向上に貢献することが示された。

    Link: https://arxiv.org/abs/2603.08972

  • MAPLE:統計的合意からプロセス主導型アライメントへの医学的推論の高度化 [cs.LG]目的:医学的推論の質の向上
    • 医療AIの発展は,診断や治療の精度向上に不可欠であり,医療現場での負担軽減に貢献する。
    • 従来のテスト時強化学習では,多数決による教師信号が用いられるが,複雑な医療シナリオでは誤った推論を導く可能性がある。
    • 医療プロセス報酬モデルを用いた強化学習により,多数決に頼らず,臨床的に正しい推論を導くことを目指す。
    • 提案手法MAPLEは,既存のテスト時強化学習および独立したPRM選択手法を,複数のベンチマークで一貫して凌駕する性能を示した。
    • 多数決のような確率的ヒューリスティクスから,構造化された段階的報酬への移行が,信頼性の高いスケーラブルな医療AIシステム開発に重要であることが示された。
    • Med-RPMを活用することで,探索的推論能力をモデルのパラメータ記憶に効果的に蒸留することに成功した。

    Link: https://arxiv.org/abs/2603.08987

  • LLMエージェントシステムプロンプトにおける干渉検出:Arbiter [cs.SE, cs.AI, cs.CR, cs.PL]目的:LLMエージェントシステムプロンプトの干渉パターン検出
    • LLMエージェントは急速に普及しているが,その振る舞いを制御するシステムプロンプトの品質保証は重要である。
    • システムプロンプトは従来のソフトウェアとは異なり,十分なテスト基盤が存在しないという課題がある。
    • システムプロンプトの潜在的な干渉パターンを自動的に検出し,LLMエージェントの信頼性を向上させる。
    • Arbiterフレームワークによって,主要なコーディングエージェントのシステムプロンプトにおいて152件の干渉パターンが検出された。
    • プロンプトのアーキテクチャと故障クラスの間には相関関係が見られたが,深刻度には影響しないことが示された。
    • 複数モデルによる評価は,単一モデルによる評価では発見できない脆弱性クラスを明らかにすることができた。

    Link: https://arxiv.org/abs/2603.08993

  • マルチエージェントシステムにおけるセキュリティに関する考察 [cs.CL, cs.CR, cs.AI]目的:マルチエージェントシステムの脅威状況の体系的な特徴付けと,AIセキュリティフレームワークの評価
    • AI技術の進化に伴い,自律的に連携するマルチエージェントシステムの利用が拡大している。
    • 既存のセキュリティフレームワークは,このようなシステム特有の脆弱性に対応できていない。
    • マルチエージェントシステム固有の脅威を特定し,セキュリティフレームワークの有効性を定量的に評価する。
    • 本研究では,マルチエージェントシステムの脅威状況を体系的に分析し,193種類の脅威項目を特定した。
    • 評価対象の16のAIセキュリティフレームワークはいずれも,単一の脅威カテゴリにおいても十分な網羅性を示さなかった。
    • OWASP Agentic Security Initiativeが最も高い網羅性(65.3%)を示し,CDAO Generative AI Responsible AI Toolkitは開発・運用段階で優位性が見られた。

    Link: https://arxiv.org/abs/2603.09002

  • 音声ディープフェイク検出におけるジェンダーの公平性:性能と差異分析 [cs.SD, cs.AI]目的:音声ディープフェイク検出モデルにおけるジェンダー依存の性能と公平性
    • 音声認証システムにおいて,AI生成音声による不正利用のリスクが高まっており,検出技術の重要性が増している。
    • 音声ディープフェイク検出の進展にも関わらず,ジェンダーバイアスに関する研究は十分に進んでいない。
    • 従来の評価指標では捉えきれないジェンダー間のエラー分布の差異を明らかにし,公平性のある検出システム開発を目指す。
    • 全体的なエラー率に差が見られない場合でも,公平性指標を用いることで,ジェンダー間のエラー分布の差異が明らかになった。
    • 従来の評価指標のみでは信頼できないことが示され,公平性指標が人口統計学的特性に応じた失敗モードの分析に不可欠であることが示唆された。
    • 公平性を意識した評価が,より公平で堅牢,そして信頼性の高い音声ディープフェイク検出システムの開発に重要であることが強調された。

    Link: https://arxiv.org/abs/2603.09007

  • 相互作用を通じた改善:CMA-ES-IGによる行動表現空間の探索 [cs.RO, cs.AI, cs.HC]目的:ロボット行動の好みを学習するための手法
    • 人間中心環境において,ロボットが効果的に機能するためには,利用者の好適応が不可欠である。
    • 既存手法は学習結果の最適化に偏りがちで,ランキング提供時のユーザ体験が軽視されている。
    • ユーザ体験を考慮した行動選択により,ロボットシステムの利用促進を目指す。
    • 提案手法CMA-ES-IGは,知覚的に区別可能で情報量の多い行動を提示することで,ユーザ体験を向上させる。
    • シミュレーションと実機実験により,CMA-ES-IGが,高次元空間でのスケーラビリティ,計算効率,ノイズへのロバスト性において優れた性能を示すことが示された。
    • 非専門家ユーザは,CMA-ES-IGによって提案された行動のランキングを好み,より好みのロボット行動を特定できることが確認された。

    Link: https://arxiv.org/abs/2603.09011

  • 結合の内部:蒸留された正規化フローによるフローマッチング [cs.HC, cs.LG, cs.CV]目的:フローマッチング回帰損失を定義するノイズ/データペアのサンプリングのための結合測度の選択
    • 大規模な生成モデルの学習とデプロイメントにおいて,フローモデルが重要な役割を担っている。
    • 従来のフローマッチングでは独立結合がデフォルトであり,性能向上の余地がある。
    • 事前学習済みの正規化フローからの蒸留結合を用いて,フローモデルの学習と推論を改善すること。
    • 提案手法Normalized Flow Matching(NFM)は,独立結合や最適輸送結合と比較して優れた性能を示す。
    • NFMは,教師となる自己回帰型正規化フローモデルを超える性能を達成する。
    • NFMは,蒸留された結合により,学習と推論の両方を改善する。

    Link: https://arxiv.org/abs/2603.09014

  • CNNモデルの汎化性能を推定するための正確な平坦性指標 [cs.LG, cs.CV, cs.NE]目的:CNNモデルの汎化性能推定のための平坦性指標
    • 深層学習モデルの汎化性能評価は,実用的な応用において重要である。
    • 既存の平坦性指標は,CNN固有の構造を考慮していない場合が多い。
    • CNNの構造を考慮した正確な平坦性指標を開発し,汎化性能評価に活用すること。
    • 提案手法は,グローバル平均プーリングと線形分類器を持つCNNの損失関数のヘッセ行列のトレースを正確に計算する閉形式式を導出した。
    • 畳み込み層における相対的な平坦性を定義し,畳み込みとプーリングによるスケーリング対称性とフィルタ間の相互作用を考慮した指標を提案した。
    • 標準的な画像分類ベンチマークで実験を行った結果,提案手法はCNNモデルの汎化性能を評価するためのロバストなツールとして有効であることが示された。

    Link: https://arxiv.org/abs/2603.09016

  • Meissa:マルチモーダル医療エージェントインテリジェンス [cs.AI]目的:軽量な医療用マルチモーダル大規模言語モデルによるエージェント能力のオフライン実現
    • 医療現場では,画像理解や臨床推論にAIの活用が期待されており,その精度向上が重要である。
    • 高性能なAIモデルはAPI経由での利用が一般的だが,コスト,遅延,プライバシーの問題が存在する。
    • 本研究は,これらの問題を解決し,オフライン環境でも高性能な医療AIエージェントを実現することを目指す。
    • Meissaは,40K件の curated trajectory を用いて学習し,16種類の評価設定中10種類で既存の高性能なエージェントと同等以上の性能を示した。
    • Meissaは,Gemini-3などの既存モデルと比較して,25倍以上少ないパラメータ数で,エンドツーエンドのレイテンシーを22倍低減することに成功した。
    • 軌跡の統一的なモデル化,段階的な教師あり学習,前向き・後向き教師あり学習の3つの手法が,この性能向上に貢献している。

    Link: https://arxiv.org/abs/2603.09018

  • AI時代の人間とAIの経験理解のためのAI現象学 [cs.HC, cs.AI]目的:人間とAIの経験に関する理解
    • AI技術の発展に伴い,人間とAIのインタラクションは不可欠となり,その経験理解が重要視されている。
    • 既存の評価指標では,AIとのインタラクションにおける個人の主観的な経験やニュアンスを捉えきれていない。
    • AI現象学は,AIとのインタラクションにおける主観的な経験を重視し,人間とAIのより良い関係構築を目指す。
    • AI現象学は,「どのように感じたか」という視点を取り入れ,AIとのインタラクションにおける主観的な経験を重視する。
    • 「Day」というAIコンパニオンを用いた縦断的研究やソフトウェアエンジニアリングにおける事例研究を通して,AI現象学の実用的な手法論が提示された。
    • 半透明なデザイン,主体性に基づいた価値観の整合,時間的共進化の追跡といった設計概念が提案され,今後の研究課題が示された。

    Link: https://arxiv.org/abs/2603.09020

  • 多段階多エージェントLLMゲームのためのロバストなメモリアウグメンテーションモデルコンテキスト最適化 [cs.AI]目的:多段階多エージェントLLMゲームにおける評価の安定性と性能向上
    • LLMゲーム評価は,AIエージェントの能力を測る上で重要であり,より複雑な戦略と相互作用の研究を可能とする。
    • LLMゲーム評価は,実行ごとに結果が大きく変動し,ランキングの信頼性が低いという問題がある。
    • MEMOは,コンテキスト最適化を通じてLLMゲームの性能と安定性を向上させることを目指す。
    • MEMOは,GPT-4o-miniの平均勝率を25.1%から49.5%,Qwen-2.5-7B-Instructでは20.9%から44.3%に向上させた。
    • 実行ごとの変動が減少し,プロンプトのバリエーションに対するランキングの安定性が向上した。
    • 交渉ゲームや不完全情報ゲームで特に大きな効果が見られ,完全情報ゲームでは強化学習が有効である。

    Link: https://arxiv.org/abs/2603.09022

  • 大規模言語モデルのコンテキストウィンドウに対するデマンドページング [cs.OS, cs.AI, cs.SE]目的:大規模言語モデルのコンテキストウィンドウにおけるメモリ階層の欠如
    • LLMの性能向上には,コンテキストウィンドウの効率的な管理が不可欠である。
    • コンテキストウィンドウは,全ての情報を保持するため,メモリ消費量が課題となる。
    • コンテキストウィンドウのメモリ効率を改善し,より大きな情報を扱えるようにする。
    • Pichayというデマンドページングシステムを開発し,コンテキストウィンドウのメモリ使用量を削減した。
    • 実環境での導入により,コンテキスト消費量を最大93%削減することに成功した。
    • LLMにおけるコンテキスト制限,コスト増加といった問題は,仮想メモリの問題と捉えることができる。

    Link: https://arxiv.org/abs/2603.09023

  • ドリフト後の再学習時期:データのみによる再学習データサイズの十分性テスト [cs.LG]目的:ドリフト後の安定した再学習に必要なデータサイズ推定
    • ストリーム学習において,概念ドリフトへの対応は重要である。モデルの予測性能維持に不可欠な課題である。
    • ドリフト発生後の再学習時期や必要なデータ量が明確でなく,性能劣化を招く可能性がある。
    • ドリフト後のデータサイズが十分であるかをデータのみで判断し,効果的な再学習を可能とする。
    • 提案手法CALIPERは,ドリフト後のデータサイズを推定し,安定した再学習を可能にする。
    • CALIPERは,既存の固定データサイズによる再学習方法と同等以上の性能を示す。
    • CALIPERは,低い計算コストとメモリ使用量で,ストリーム学習における適応性を高める。

    Link: https://arxiv.org/abs/2603.09024

  • 量子ソフトウェアにおける不安定テストの自動検出と根本原因分析 [cs.SE, cs.AI, cs.ET]目的:量子ソフトウェアにおける不安定テスト関連の問題とプルリクエストの検出,およびその根本原因の特定支援
    • 量子ソフトウェアの信頼性確保には,古典ソフトウェアと同様に自動テストが不可欠である。量子特有の性質上,テストの不安定性が問題となる。
    • 量子ソフトウェアの確率的性質により,テストが不確実にPass/Failし,真の欠陥を隠蔽する不安定テストが存在する。適切なツールが不足している。
    • 大規模言語モデルを活用し,不安定テストの検出と根本原因の特定を自動化することで,開発者の生産性向上を目指す。
    • 本研究により,新たに25件の不安定テストが特定され,既存のデータセットが54%拡大された。
    • Google Geminiが,不安定性検出においてF1スコア0.9420,根本原因特定において0.9643を達成し,実用的な支援能力を示した。
    • 拡張されたデータセットと自動パイプラインは,量子ソフトウェアエンジニアリングコミュニティにとって再利用可能な成果物となる。

    Link: https://arxiv.org/abs/2603.09029

  • プレイワールド:自律的な遊びからロボットのワールドモデルを学習 [cs.RO, cs.AI]目的:ロボットのワールドモデルの学習
    • ロボットの汎用シミュレータ構築は,データから直接学習し性能向上を図る上で重要である。
    • 既存のビデオモデルは,ロボットと物体の物理的に整合性の取れた相互作用の予測に苦戦している。
    • 複雑な物理的相互作用を捉え,現実的な物体挙動をモデル化することを目指す。
    • PlayWorldは,人間の指示に頼らず,ロボットの自律的なプレイのみで高精度なビデオワールドシミュレータを学習する。
    • PlayWorldで生成された予測は,人間が収集したデータで学習したワールドモデルよりも接触の多い相互作用において物理的に整合性が高い。
    • PlayWorldを用いて,故障予測やポリシー評価の精度が最大40%向上し,実世界での強化学習の成功率が65%改善された。

    Link: https://arxiv.org/abs/2603.09030

  • 二人の教師の方が優れている:ハードウェア・物理共導分散科学機械学習 [cs.RO, cs.LG, cs.AR, cs.CE, cs.DC]目的:ハードウェアと物理に基づく分散科学機械学習フレームワーク
    • 科学技術の発展に伴い,現場でのデータ処理需要が増加している。
    • 広範囲センシングにおいて,中央集権的な機械学習は,通信遅延とエネルギー消費が大きい。
    • 分散環境下で,物理法則に基づいた高精度な科学機械学習を実現すること。
    • 提案手法EPICは,デバイスでの軽量エンコーディングと中央ノードでの物理認識デコーディングにより,通信コストを大幅に削減する。
    • 分散テストベッド実験の結果,レイテンシを8.9倍,通信エネルギーを33.8倍削減できた。
    • OpenFWIの10データセット中8つにおいて,再構成精度が向上した。

    Link: https://arxiv.org/abs/2603.09032

  • SCALAR:LLM誘導による記号的計画と深層強化学習の接地による技能の学習と構成 [cs.LG]目的:LLM誘導による記号的計画と深層強化学習の接地を通じた技能学習・構成
    • 言語モデルエージェントの応用範囲拡大のため,高レベルな行動APIから低レベルな制御への言語の接地が重要である。
    • 既存手法では,LLMが技能や報酬関数を生成するものの,仕様誤りの修正機能が不足している。
    • LLM計画と強化学習を組み合わせ,技能ライブラリを学習することで,初期誤りに強いシステムを構築する。
    • SCALARは,Craftaxにおいてダイヤモンド収集率88.2%を達成し,既存の最良ベースラインを1.9倍上回った。
    • Gnomish Minesにおいては,9.1%の確率で到達に成功しており,既存手法では全く成功していなかった。
    • 軌跡分析によるLLMの事前知識の修正や,フロンティアチェックポイントによるサンプル効率の改善も実現した。

    Link: https://arxiv.org/abs/2603.09036

  • WS-Net:状態空間と弱信号注意融合によるハイパースペクトル分解のための弱信号表現学習とゲート付き豊富な再構成 [cs.CV, cs.AI]目的:ハイパースペクトル分解における弱信号崩壊の軽減
    • ハイパースペクトル画像は多様な情報を有するが,微弱なスペクトル応答の検出が課題。
    • 既存手法では,強いスペクトル成分に埋もれ,微弱な信号が正確に分離できない場合がある。
    • 微弱なスペクトル信号の識別と分離能力を向上させ,より正確な分解を実現する。
    • 提案手法WS-Netは,状態空間モデルと弱信号注意融合により,弱信号崩壊を効果的に抑制する。
    • 合成データセットおよび実際のデータセットにおいて,最先端のベースラインと比較して,RMSEとSADを最大55%および63%削減した。
    • 特に低SNR条件下や微弱なエンドメンバーにおいて,安定した精度を維持することが示された。

    Link: https://arxiv.org/abs/2603.09037

  • 言語モデルエージェントにおける時間,アイデンティティ,意識 [cs.DC, cs.MS, cs.PF, cs.AI]目的:言語モデルエージェントのアイデンティティ評価手法
    • AIの進化に伴い,意識や自己認識の評価が重要課題となっている。
    • 言語モデルは自己言及が可能だが,それが真の自己認識を反映しているか不明。
    • 一貫性のある自己認識を評価するための客観的な指標を確立すること。
    • Stack TheoryのTemporal gapを利用し,行動軌跡を評価することで,言動と実際の組織化との乖離を検出する。
    • ArpeggioとChordの概念を適用し,アイデンティティに関する持続性スコアを算出する。
    • アイデンティティ評価のためのツールキットを提供し,自己言及と実際の組織化の違いを明確にする。

    Link: https://arxiv.org/abs/2603.09043

  • FlexServe:モバイルデバイス向け高速かつ安全なLLM提供システム - 柔軟なリソース分離による実現 [cs.CR, cs.LG, cs.OS]目的:モバイルデバイスにおける高速かつ安全なLLM提供
    • 近年,プライバシー保護と可用性の観点から,クラウドではなくデバイス側でのLLM利用が急速に拡大している。
    • LLMのモデルとユーザーデータは機密性が高く,OSが侵害された場合,攻撃者によって窃取されるリスクがある。
    • 本研究は,ARM TrustZoneの柔軟性を高め,LLM推論時のオーバーヘッドを軽減することで,セキュリティと性能の両立を目指す。
    • FlexServeは,柔軟なリソース分離機構(Flex-Mem,Flex-NPU)を導入し,メモリとNPUの保護モードを効率的に切り替えることで高速化を実現した。
    • 実験結果から,FlexServeは従来のTrustZoneベース設計と比較して,最初のトークンまでの時間(TTFT)が平均10.05倍,最適化された設計と比較しても2.44倍高速であることが示された。
    • マルチモデルエージェントワークフローにおいては,従来の設計と比較して最大24.30倍,最適化された設計と比較して4.05倍の性能向上を達成した。

    Link: https://arxiv.org/abs/2603.09046

  • EPOCH:多段階システム最適化のためのエージェントプロトコル [cs.RO, eess.SP, cs.CG, cs.AI]目的:多段階システム最適化のプロトコル
    • AIシステムの性能向上は,様々な分野で重要な課題である。
    • 既存手法は特定のタスクに偏りがちで,汎用的な最適化プロトコルが不足している。
    • 異質な環境下でのシステム最適化を可能にする,統一的なプロトコルを確立すること。
    • EPOCHは,ベースライン構築と反復的な自己改善の2段階で最適化を構成する。
    • 各ラウンドを計画,実装,評価の段階に分け,標準化されたコマンドインターフェースを用いる。
    • これにより,プロンプト,モデル構成,コードなど,様々な要素を連携させて最適化できる。

    Link: https://arxiv.org/abs/2603.09049

  • 数日から数分へ:遠隔患者モニタリングにおける信頼性の高い臨床トリアージを達成する自律型AIエージェント [cs.RO, cs.AI, cs.CL, cs.LG]目的:遠隔患者モニタリングにおける臨床トリアージの自動化
    • 遠隔患者モニタリングは患者ケアの質を向上させる可能性を秘めている。
    • 大量のデータにより臨床スタッフが対応しきれず,既存のシステムは費用と規模の面で課題がある。
    • AIによる自動化により,効率的かつ費用対効果の高いモニタリングを実現し,死亡率低減に貢献することを目指す。
    • AIエージェントSentinelは,緊急事態の検出において,個々の臨床医を上回る感度を示した。
    • Sentinelは,ほぼ完璧な自己整合性を示し,トリアージあたりのコストも低く抑えられた。
    • 重症度の判断において,わずかなずれが生じた場合でも,臨床医による評価で高い割合で妥当性が確認された。

    Link: https://arxiv.org/abs/2603.09052

  • Sim2Act:敵対的較正とグループ相対的摂動によるロバストなシミュレーション-意思決定学習 [cs.LG, cs.AI]目的:シミュレーションと意思決定の学習におけるロバスト性の向上
    • 安全性を重視する分野において,実環境での展開リスクを避けつつポリシーを訓練する手段として重要性が増している。
    • シミュレーターがノイズや偏りのあるデータから学習した場合,意思決定に重要な領域で予測誤差が生じやすいという課題がある。
    • シミュレーターとポリシー両方のロバスト性を向上させ,不安定な行動ランキングや信頼性の低いポリシーを回避することを目指す。
    • 敵対的較正メカニズムにより,意思決定への影響が大きい状態-行動ペアにおけるシミュレーション誤差を再重み付けする。
    • グループ相対的摂動戦略により,過度に悲観的な制約を課すことなく,シミュレーターの不確実性下でのポリシー学習を安定化する。
    • 複数のサプライチェーンベンチマークにおいて,シミュレーションのロバスト性と構造化・非構造化摂動下での意思決定性能の向上が確認された。

    Link: https://arxiv.org/abs/2603.09053

  • 質より量: データ中心ロボット学習のための影響関数によるデモンストレーションキュレーション [cs.HC, cs.RO, cs.LG]目的:ロボット学習のための高品質なデモンストレーションデータの特定
    • ロボット制御において,データ駆動型アプローチの重要性が増している。
    • デモンストレーションデータには人為的な誤差や制約が含まれ,質の確保が課題である。
    • 影響関数を用いて,デモンストレーションデータの品質を効率的に評価し,改善すること。
    • 提案手法QoQは,検証データにおける損失減少への貢献度をデータ品質と定義する。
    • 影響関数を適用し,ロボットデモンストレーションに適応するための2つのキーテクニックを導入した。
    • シミュレーションおよび実環境での実験により,QoQが既存手法を上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.09056

  • オンライン時系列予測における動的マルチ期間エキスパート [cs.LG]目的:オンライン時系列予測における概念ドリフトへの適応
    • 時系列データは現実世界の様々な現象を表現するため,正確な予測は重要である。
    • 既存手法では,概念ドリフトを単一の現象として捉え,複雑な変化に対応できない場合がある。
    • 再発的なドリフトと創発的なドリフトを区別し,それぞれの特性に適応することで予測精度向上を目指す。
    • 提案手法DynaMEは,過去の周期パターンに特化した複数のエキスパートを活用し,再発的なドリフトに効果的に対応する。
    • DynaMEは不確実性の高い状況を検出し,安定した汎用エキスパートに切り替えることで創発的なドリフトに対処する。
    • 複数のベンチマークデータセットでDynaMEは既存手法を大きく上回り,概念ドリフトへの優れた適応能力を示す。

    Link: https://arxiv.org/abs/2603.09062

  • 適応的なLLMデコーディング学習 [cs.LG]目的:大規模言語モデルのデコーディングにおける適応的なポリシーの学習
    • LLMは多様なタスクに対応できるが,最適な性能を引き出すには,デコーディング戦略の調整が不可欠である。
    • 従来のデコーディングは固定されたハイパーパラメータに依存しており,タスク難易度や不確実性への対応が困難である。
    • 本研究は,利用可能な計算資源に応じて動的にデコーディング戦略を選択する適応的なポリシーを学習することで,この問題を解決する。
    • 提案手法は,強化学習を用いて軽量なデコーディングアダプターを訓練し,数学やコーディングタスクの正誤という検証可能な報酬を用いる。
    • MATHベンチマークにおいて,トークンレベルのアダプターは固定予算下でPass@1精度を最大10.2%向上させ,シーケンスレベルのアダプターは固定並列サンプリング下で2〜3%の改善をもたらした。
    • シーケンスレベルとトークンレベル両方のアダプションが有効であることが,消去実験によって示された。

    Link: https://arxiv.org/abs/2603.09065

  • 生成ビデオ制作のためのテキストネイティブインターフェース [cs.RO, cs.HC, cs.AI]目的:生成ビデオ制作におけるテキストネイティブインターフェースの設計と評価
    • 物語の表現手段は多様化しており,動画制作の需要は増加の一途を辿っている。
    • 従来の動画制作ツールは専門知識を要し,学習コストが高いという課題があった。
    • テキスト記述による直感的な操作で動画制作を可能にし,アクセシビリティ向上を目指す。
    • Dokiは,テキスト記述を主な操作とする生成ビデオ制作インターフェースである。
    • アセット定義,シーン構成,ショット作成,編集,音声追加を単一のドキュメント内で完結させる。
    • 実用的な利用状況を評価するため,様々なスキルレベルの参加者による1週間の実証実験を実施した。

    Link: https://arxiv.org/abs/2603.09072

  • 排他的自己注意機構 [cs.RO, cs.LG, cs.CL]目的:Transformerの系列モデリング性能向上
    • 自然言語処理において,Transformerは高性能なモデルとして広く利用されている。
    • 自己注意機構は計算コストが高く,長文の系列に対して性能が低下する課題がある。
    • 自己注意機構の効率化と,長文系列における性能維持を目指す。
    • 排他的自己注意機構(XSA)は,自己注意機構(SA)の単純な修正であり,性能を向上させる。
    • XSAは,トークンの自身の値ベクトルに直交する情報のみに注意を制限することで,より良い文脈モデリングを促す。
    • 実験結果から,XSAはモデルサイズや系列長さに応じてSAを安定的に上回り,特に系列長が長い場合に大きな改善が見られた。

    Link: https://arxiv.org/abs/2603.09078

  • GST-VLA:3次元深度認識を用いた視覚-言語-行動モデルのための構造化ガウス空間トークン [cs.CV, cs.AI, cs.RO]目的:3次元空間における視覚情報,言語情報,行動の連携を可能にするモデルの性能向上
    • ロボット工学やコンピュータビジョンの分野において,環境を理解し,適切な行動を選択するためには,3次元空間の認識が不可欠である。
    • 従来のVLAモデルは2次元パッチトークンを使用しており,3次元空間の幾何学的構造を捉えることが困難であった。
    • ガウス空間トークンと深度認識を用いたChain-of-Thought推論により,3次元空間の理解と行動計画の精度を向上させる。
    • ガウス空間トークン(GST)は,深度情報とセマンティック特徴を3次元ガウス分布に変換し,幾何学的構造を明示的に表現することに成功した。
    • 3次元深度認識を用いたChain-of-Thought(DA-CoT)推論は,オブジェクトの定位,把持可能性,距離,経路計画といった中間的な空間的思考を導き出すのに有効である。
    • 実験結果から,GST-VLAは既存モデルと比較して,LIBEROとSimplerEnvにおいて高い性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.09079

  • RIS支援セマンティック車載エッジコンピューティングのためのPPOベースのハイブリッド最適化 [cs.LG, cs.NI]目的:RIS支援セマンティック車載エッジコンピューティングにおける遅延最小化
    • IoVアプリケーションの発展には,低遅延かつ信頼性の高い通信環境が不可欠である。
    • 動的な環境や断続的なリンクにより,既存の通信手法では十分な低遅延性能が確保できない。
    • RISとセマンティック通信を活用し,オフローディング最適化を通じて遅延を削減する。
    • 提案手法は,遺伝的アルゴリズムや量子粒子群最適化と比較して,平均エンドツーエンド遅延を約40〜50%削減することを示した。
    • 提案するPPOベースのハイブリッド最適化スキームは,30台の車両が混雑する状況下でも低い遅延を維持し,高いスケーラビリティを示す。
    • RISを活用し,セマンティック特徴伝送によりワイヤレス接続を最適化するフレームワークの有効性が確認された。

    Link: https://arxiv.org/abs/2603.09082

  • アルミニウム価格予測のためのファインチューニングされたLLMによるトピック・イベント条件付きセンチメント [cs.LG, cs.AI]目的:アルミニウム価格予測のためのセンチメント分析
    • 金属市場において,センチメント分析は価格予測に不可欠であり,金融市場の効率性向上に貢献する。
    • 軽量なファインチューニングされたLLMを用いたセンチメント分析の予測能力,特に市場状況に応じた有効性は未解明である。
    • 変動性の高い時期におけるアルミニウム価格予測において,ファインチューニングされたLLMの有効性を検証する。
    • 高ボラティリティ期間において,ファインチューニングされたQwen3モデルを用いたLSTMモデルは,従来の表形式データのみのモデルを大幅に上回るパフォーマンスを示した。
    • ニュースソース,トピック,イベントの種類がアルミニウム価格予測においてそれぞれ異なる役割を果たすことが明らかになった。
    • センチメントデータを取り入れたモデルは,表形式データのみのモデルに比べて高いシャープレシオを示し,経済的有用性が確認された。

    Link: https://arxiv.org/abs/2603.09085

  • 自動運転のための潜在世界モデル:統一された分類,評価フレームワーク,および未解決の課題 [cs.RO, cs.AI, cs.LG, cs.MA, cs.SY, eess.SY]目的:自動運転における潜在世界モデルの分類,評価,および今後の研究方向性の提示
    • 自動運転技術は,安全性向上や効率化に不可欠であり,社会実装への期待が高い。
    • シミュレーション環境の精度や汎化性能が課題であり,現実世界への適応が難しい。
    • 潜在世界モデルの設計指針を確立し,現実世界での信頼性と効率性を高める。
    • 潜在空間を対象とし,潜在世界,潜在行動,潜在生成器といった表現形式による分類を行った。
    • 構造的等質性,長期安定性,セマンティック整合性など,内部メカニズムの重要性を指摘した。
    • 閉ループ評価指標と資源効率を考慮した評価手法を提案し,現実世界への応用可能性を示唆した。

    Link: https://arxiv.org/abs/2603.09086

  • マスクなし方策勾配法における有効行動抑制の克服 [cs.LG]目的:状態依存の行動有効性を持つ強化学習環境における有効行動抑制問題の解決
    • 強化学習は,複雑な課題を自律的に学習できるため,ロボット工学やゲームなど幅広い分野で重要視されている。
    • 行動の有効性が状態に依存する環境下では,無効な行動へのペナルティよりも行動マスクの方が優れているが,理論的な根拠が不十分である。
    • マスクなしの訓練における有効行動の抑制という新たな問題点を明らかにし,そのメカニズムを理論的に解析し,解決策を提案する。
    • マスクなし訓練では,未訪問状態において有効な行動が系統的に抑制されることが示された。
    • この抑制は,訪問済みの状態における無効行動に対する勾配が,パラメータ共有を通じて未訪問状態に伝播することで発生する。
    • 実行可能性分類を用いることで,オラクルマスクなしで本手法を適用できることが実験的に確認された。

    Link: https://arxiv.org/abs/2603.09090

  • シリコン含有黒鉛アノード付き電気自動車バッテリーの確率的ヒステリシス係数予測 [cs.LG, eess.SP]目的:電気自動車バッテリーのヒステリシス係数予測
    • 高エネルギー密度化が求められる中で,シリコン-黒鉛アノードバッテリーの活用が重要視されている。
    • シリコン-黒鉛アノードバッテリーにはヒステリシスが現れ,充電状態推定の精度低下を招く。
    • 不確実性を考慮した効率的なヒステリシス係数予測手法を確立し,充電状態推定の精度向上を目指す。
    • 提案手法では,異種運転サイクルを標準化するデータ調和フレームワークを導入した。
    • 統計的学習と深層学習モデルを用いて,ヒステリシス係数の予測性能と不確実性の定量化を行った。
    • 再学習,ゼロショット予測,ファインチューニング等の実験により,未見の車両モデルへの汎化性能を評価した。

    Link: https://arxiv.org/abs/2603.09103

  • 皮膚癌症例検索のための,グローバル・ローカル表現の同時整列による合成視覚言語検索 [cs.CV, cs.AI]目的:皮膚癌症例の検索システム
    • 診断支援,教育,品質管理において,臨床的に関連性の高い症例を迅速に検索することは重要である。
    • 画像とテキストの両方を組み合わせた複合的な検索クエリへの対応が難しく,適切な表現学習が課題である。
    • グローバルな意味的情報と局所的な特徴を同時に整列させることで,検索精度を向上させる。
    • 提案手法は,Derm7ptデータセットにおいて,最先端の手法と比較して一貫した性能向上を示した。
    • 局所的な注意機構とグローバルな意味的情報を組み合わせることで,臨床的に重要な領域に焦点を当てた検索を実現した。
    • 本研究は,関連性の高い医療記録への効率的なアクセスを可能にし,臨床現場での実用的な展開を支援する。

    Link: https://arxiv.org/abs/2603.09108

  • VIVID-Med:導入可能な医療ViTのためのLLMによる構造化事前学習 [cs.CV, cs.AI]目的:医療画像解析におけるViTの事前学習手法
    • 医療画像解析の精度向上は,疾患の早期発見や適切な治療に不可欠である。
    • 従来の教師あり学習は,臨床所見間の複雑な意味関係を捉えきれていない。
    • LLMを活用し,より効率的かつ高性能な医療画像解析モデルを開発する。
    • VIVID-Medは,CheXpert線形プローブにおいて,BiomedCLIPを6.65ポイント上回る0.8588のmacro-AUCを達成した。
    • NIH ChestX-ray14へのゼロショット転移学習においても優れた性能を示し,0.7225のmacro-AUCを記録した。
    • CT画像やOrganAMNISTといった他のモダリティへの汎化性能も高く,それぞれ0.8413 AUC,0.9969 macro-AUCを達成した。

    Link: https://arxiv.org/abs/2603.09109