arXiv雑要約

AI - 2026/03/10 公開

  • 検索関連性の拡張:LLM生成判定によるアプリストアランキングの向上 [cs.IR, cs.AI, cs.LG]目的:アプリストアランキングにおける検索関連性の向上
    • 検索システムの関連性は,ユーザーの満足度と成果に不可欠であるため,継続的な改善が求められる。
    • 専門家によるテキスト関連性ラベルの不足は,検索システムの精度向上を阻害する課題である。
    • LLMを活用しテキスト関連性ラベルを大量生成することで,データ不足の問題を解決する。
    • LLMのファインチューニングにより,大規模な事前学習済みモデルよりも高品質なテキスト関連性ラベルを生成可能となった。
    • 生成されたラベルを用いてランキングを強化した結果,オフライン評価でNDCGが向上し,テキスト関連性と行動関連性の両方が改善された。
    • グローバルA/Bテストにより,コンバージョン率が統計的に有意に0.24%向上し,特にテールクエリにおいて効果が大きかった。

    Link: https://arxiv.org/abs/2602.23234

  • Lap2:高次元における主要化理論を用いたラプラスDP-SGDの再検討 [cs.CR, cs.LG]目的:高次元モデルにおけるラプラスDP-SGDの性能向上
    • 深層学習におけるプライバシー保護は重要であり,差分プライバシーが広く用いられている。
    • ラプラスDP-SGDはL1ノルムクリッピングに依存し,高次元モデルではその制約が大きすぎる。
    • L2クリッピングを可能にし,ラプラスDP-SGDの適用範囲を拡大することを目指す。
    • Lap2は,主要化理論を用いて座標ごとのモーメント境界を計算することで,ラプラスDP-SGDにL2クリッピングを導入した。
    • 提案手法は,モデルの次元に対するスケーラビリティを向上させ,ガウスDP-SGDと同等以上の性能を達成した。
    • RoBERTa-baseのSST-2におけるファインチューニング実験で,既存手法を上回る精度(epsilon=0.54で87.88%)を示した。

    Link: https://arxiv.org/abs/2602.23516

  • Attn-QAT:量子化対応訓練による4ビットAttention [cs.LG, cs.AI]目的:4ビットAttentionの実現可能性
    • 近年,FP4対応GPUが登場しつつあり,低ビット演算が重要となっている。
    • FP4の狭い動的範囲とAttentionの裾の重い活性化関数が課題となっていた。
    • FP4 Attentionにおける訓練の不安定性を解消し,性能劣化を防ぐことを目指す。
    • Attn-QATは,FP4 Attentionの品質低下を回復し,明示的な外れ値軽減策を必要としない。
    • FP4 Attentionの訓練における不安定性の原因を特定し,安定化のための2つの原則を提示した。
    • RTX 5090上で最大1.5倍の高速化を実現し,訓練と推論の両方に利用できる。

    Link: https://arxiv.org/abs/2603.00040

  • PEPA:個性を持つ持続的に自律的な具現化エージェント [cs.RO, cs.AI]目的:個性に基づく持続的自律性の実現
    • ロボットの自律性は,実環境での長期運用に不可欠であり,人間による継続的な介入を減らす。
    • 従来の具現化エージェントは外部からの指示に依存しており,複雑な環境への適応が困難である。
    • 本研究は,個性を通じてエージェントが自律的に目標を生成し,行動を進化させることを目指す。
    • PEPAは,性格特性,エピソード記憶,自己省察を組み合わせることで,外部からの指示なしに自律的な目標設定と行動選択を可能にする。
    • 四脚ロボットの実環境実験により,PEPAが固定されたタスク仕様に依存せず,ユーザーの要求と性格に基づいた動機の間を自律的に調整できることが示された。
    • 5つの異なる性格プロトタイプを用いた定量分析により,安定した性格特性に沿った行動が確認された。

    Link: https://arxiv.org/abs/2603.00117

  • マルチモーダルモデルは心電図信号に対してどの程度推論できるか [cs.AI, cs.LG]目的:心電図信号における推論の評価フレームワーク
    • 医療AIの解釈可能性は重要であり,マルチモーダルLLMはその有望な解決策となる。
    • 既存の評価方法は,専門家による手動レビューが必要か,臨床的妥当性を捉えられない。
    • 心電図信号における推論の正当性を検証するためのスケーラブルなフレームワークを確立する。
    • 推論を「知覚」と「演繹」の二つの要素に分解するフレームワークを提案した。
    • 「知覚」の評価には,推論トレースで記述された時間構造をコードで検証するエージェントフレームワークを用いる。
    • 「演繹」の評価には,モデルの論理と確立された臨床基準のデータベースとの整合性を評価する。

    Link: https://arxiv.org/abs/2603.00312

  • リスク管理された医療エンティティ抽出のための共形予測:臨床領域間の比較 [cs.CL, cs.CL, cs.AI]目的:医療エンティティ抽出におけるリスク制御
    • 医療現場でのLLM活用が拡大する中で,その信頼性確保は不可欠である。
    • LLMの信頼度スコアが必ずしも正確でなく,臨床応用を阻害する要因となっている。
    • LLMの信頼性を保証し,臨床現場での安全な利用を可能にすること。
    • 共形予測フレームワークにより,LLMを用いたエンティティ抽出において,サンプルサイズに基づいた信頼区間を保証できることが示された。
    • FDAの医薬品ラベルとMIMIC-CXRの画像診断レポートという異なる臨床領域で検証された結果,信頼度の誤校正の方向性が異なることが明らかになった。
    • ドキュメント構造,抽出カテゴリ,モデルアーキテクチャに応じて,領域固有の共形予測による校正が重要であることが示唆された。

    Link: https://arxiv.org/abs/2603.00924

  • 説明可能性ソリューション空間の拡張的な実証検証 [eess.SY, cs.SY, stat.AP, cs.AI, cs.SE]目的:説明可能性ソリューション空間の汎用性とドメイン非依存性
    • AI技術の社会実装において,説明可能性は信頼性と受容性を高める上で不可欠である。
    • 既存の説明手法の評価はドメインに依存し,汎用的な比較が困難である。
    • 様々なドメインや状況下での説明手法の適切な選択を支援する枠組みを提供する。
    • 説明可能性ソリューション空間(ESS)のランキングはドメイン固有ではなく,ガバナンスの役割,リスクプロファイル,ステークホルダー構成に応じて体系的に変化することが確認された。
    • ESSは,社会技術システムにおける説明可能なAI戦略設計のための汎用的な意思決定支援ツールとして機能することが示された。
    • 従業員離職予測に加え,都市資源配分システムにおける評価を通じて,ESSの汎用性が実証された。

    Link: https://arxiv.org/abs/2603.01235

  • 部分観測下における対戦相手の状態推論:2026年フォーミュラ1エネルギー戦略のためのHMM-POMDPフレームワーク [cs.AI, cs.GT, cs.LG, cs.SY, eess.SY]目的:対戦相手のERS充電レベル,オーバーライドモードの状態,タイヤの劣化状態の推論
    • フォーミュラ1のエネルギー戦略は,車両性能に大きく影響し,競技における優位性を得る鍵となる。
    • 対戦相手の隠れた状態を考慮した戦略は複雑であり,既存の単一エージェント最適化手法では解決が困難である。
    • 対戦相手の状態を正確に推論し,それに基づいた最適なエネルギー配分戦略を決定することを目指す。
    • 隠れマルコフモデル(HMM)を用いて,対戦相手のERS充電レベル等の状態を高い精度で推論することに成功した。
    • HMMは,5つの公開テレメトリー信号から,92.3%のERS推論精度を達成した(ランダムベースライン:33.3%)。
    • 対戦相手の欺瞞的な戦略である「カウンターハーベストトラップ」の検出には,状態信念推論が不可欠であることを示した。

    Link: https://arxiv.org/abs/2603.01290

  • HarmonyCell:意味的・分布シフト下での単一細胞摂動モデリングの自動化 [cs.NI, cs.AI, cs.CE, q-bio.QM]目的:単一細胞摂動モデリングの自動化
    • 単一細胞解析は,生命現象の理解に不可欠であり,個別細胞レベルでの詳細な解析が求められている。
    • 異なるデータセット間でのメタデータ非互換性や,生物学的変動による分布シフトが課題となっている。
    • 異なるデータセットへの適応と,最適な統計的誘導バイアスを持つモデルの自動合成を目指す。
    • HarmonyCellは,LLMを活用した意味的ユニファイアにより,手動介入なしで異なるメタデータを標準化する。
    • 適応的なモンテカルロ木探索により,分布シフトに適した最適なモデルアーキテクチャを自動的に合成する。
    • 多様な摂動タスクにおいて,95%の有効実行率を達成し,専門家設計のベースラインと同等またはそれ以上の性能を示す。

    Link: https://arxiv.org/abs/2603.01396

  • LLM支援によるセマンティックオプション探索:適応的深層強化学習の促進 [cs.AI]目的:深層強化学習における適応性の向上を目的とした,LLM支援によるセマンティックオプション探索手法
    • 深層強化学習は複雑な課題で成功を収めているが,実用上の課題が残る。
    • データ効率の低さ,解釈可能性の欠如,環境間での転移性の制限が課題である。
    • LLMを活用し,環境変化への適応性と安全性,制約遵守を向上させる。
    • LLMを用いて自然言語命令をルールに変換し,セマンティックアノテーションを付与することで,効率的な探索と汎用的なオプションの獲得を実現した。
    • Office WorldとMontezuma’s Revengeの実験により,データ効率,制約遵守,タスク間転移性において優れた性能が確認された。
    • 本手法は,深層強化学習の解釈可能性を高め,より安全で信頼性の高い行動を可能にする。

    Link: https://arxiv.org/abs/2603.01488

  • ロバストな声門領域波形抽出と臨床的病理学的評価のための検出ゲートパイプライン [cs.CV, cs.AI, cs.LG]目的:声門領域波形の抽出と臨床的病理学的評価
    • 高速度ビデオ内視鏡は,声帯機能の運動学的バイオマーカー抽出に不可欠であり,臨床診断の精度向上に寄与する。
    • 既存の深層学習モデルは,非声門領域での誤検出や,臨床環境への汎化性能の低さが課題となっている。
    • 異なるデータセット間での汎化性能を高め,臨床現場でのリアルタイムな利用を可能にすること。
    • 提案手法は,GIRAFEとBAGLSのベンチマークにおいて最先端の性能を達成し,優れた汎化性能を示した。
    • 臨床データを用いた検証により,自動抽出された声門開閉比と声門領域波形が臨床基準と一致することが確認された。
    • 声門面積の変動係数は,正常な声帯機能と病的な声帯機能の識別における有意な指標となった (p=0.006)。

    Link: https://arxiv.org/abs/2603.02087

  • スラリー・アズ・サービス:栄養最適化のためのスケーラブルな多元的整合に関する小提案 [cs.CY, cs.AI]目的:栄養最適化のための多元的整合の実現可能性
    • 大規模言語モデルの倫理的な問題が重要視されており,人間の価値観の多様性を反映する必要がある。
    • 既存の整合手法では,相反する価値観や社会的に不都合な価値観に対応できない場合がある。
    • 多元的整合フレームワークを用いて,コミュニティの規範に沿ったモデルの訓練・展開・認証パイプラインを構築する。
    • ValueMulchは,32のコミュニティにおける実際のテストベッドで,既存のベースラインと比較して,コミュニティの施肥選好との分布的一致性を向上させた。
    • 本研究は,価値設計を技術的な問題として捉えることが,有害な技術システムを招く可能性があるという批判的な視点を提供する。
    • 現在のAI多元的整合文献に対する批判であり,整合実践の悪意は否定しつつ,その限界を指摘している。

    Link: https://arxiv.org/abs/2603.02420

  • 共同線形近似による個別マルチエージェント平均報酬TD学習 [cs.LG]目的:個別マルチエージェント平均報酬TD学習における,価値関数の共同学習
    • マルチエージェント学習は,複雑なタスクを複数のエージェントで分担し,効率的な学習を可能にする点で重要である。
    • エージェント間の環境の差異や学習の非同期性により,学習が不安定になりやすいという課題がある。
    • 共通の線形表現を利用することで,競合する信号を除去し,学習を安定化させることを目指す。
    • 提案手法は,共通部分空間と局所ヘッドを反復的に推定する協調的なシングルタイムスケールTD学習の収束を示す。
    • この分解により,誤った信号の影響を軽減し,線形的な速度向上を実現する。
    • 実験により,共有構造を用いた学習が,より一般的な制御問題に有効であることが示された。

    Link: https://arxiv.org/abs/2603.02426

  • AI時代における人間による認証モジュールリポジトリ [cs.ET, cs.AI, cs.SE]目的:AI支援開発における信頼性のあるソフトウェア構築のための新しいアーキテクチャモデル
    • AI技術の発展に伴い,ソフトウェアの信頼性が重要性を増しており,その基盤となるモジュールの品質が不可欠である。
    • 現在のソフトウェアサプライチェーンでは,出所不明,レビュー不足,予測不能な挙動のリスクがあり,セキュリティ上の問題が発生しやすい。
    • 人間による監査と自動化分析を組み合わせたモジュール認証フレームワークを通じて,安全かつ予測可能なソフトウェアアセンブリを実現すること。
    • 本研究では,人間による認証モジュールリポジトリ(HCMR)を提案し,AIによるソフトウェア開発における信頼性の基盤を構築する。
    • HCMRは,モジュールのキュレーション,セキュリティレビュー,来歴管理,明確なインターフェース契約を提供し,人間とAIエージェントによる安全なアセンブリを支援する。
    • HCMRの参照アーキテクチャ,認証ワークフロー,脅威分析を行い,ガバナンス,スケーラビリティ,AIの説明責任について議論した。

    Link: https://arxiv.org/abs/2603.02512

  • iGVLM:質問対応マルチモーダル理解のための動的指示駆動型視覚エンコーディング [cs.CV, cs.AI]目的:質問応答能力の向上を目指した視覚エンコーディングの新しいフレームワーク
    • 近年,画像とテキストを同時に処理するモデルが発展している。より高度な推論能力が求められている。
    • 既存モデルは,視覚情報を静的に処理するため,指示内容に応じた柔軟な推論が困難である。
    • 指示内容に応じて視覚情報を動的に調整し,より詳細な推論を可能にすることを目指す。
    • iGVLMは,事前に学習された視覚情報を維持しつつ,指示に基づいて視覚特徴を動的に調整する二分岐構造を採用している。
    • これにより,汎用的な視覚認識から指示に基づいた推論へのスムーズな移行が可能となる。
    • 多様な言語モデルにおいて,iGVLMが指示に対する感度を向上させることが実験的に示された。

    Link: https://arxiv.org/abs/2603.02748

  • 複数のアライメントと学習時融合による画像とテキストの統合 [cs.CV, cs.AI]目的:画像とテキスト表現の統合
    • 画像認識の性能向上には,画像とテキスト間の関連性を理解することが重要である。
    • 既存手法では,画像とテキストが完全に統合されず,モダリティ間の分離が残存する。
    • モダリティ間のギャップを解消し,より構造化された表現を獲得すること。
    • ITOは,多様な画像とテキストの対応関係を抽出する複数アライメントと,学習時にクロスモーダルな相互作用を強化する融合モジュールを用いる。
    • 実験結果から,ITOは分類,検索,マルチモーダルベンチマークにおいて,既存手法を上回る性能を示す。
    • 複数アライメントが識別能力を高め,学習時融合が構造的な正則化として機能し,早期飽和を防ぐことが明らかになった。

    Link: https://arxiv.org/abs/2603.02767

  • 論理的推論エージェントの代理型評価 [cs.AI]目的:論理的推論エージェントの評価とベンチマークに関するフレームワーク
    • AIの発展において,論理的推論能力の評価は不可欠である。
    • 従来の評価方法は再現性や監査性に欠ける場合がある。
    • 再現性,監査性,実行失敗への耐性を持つ評価手法を確立すること。
    • 評価エージェントを用いて,タスクの発行,実行予算の適用,出力の解析,および構造化された障害タイプの記録を行うフレームワークを構築した。
    • 第一原理論(FOL)の自動形式化エージェントをベンチマークした結果,検証・修正されたFOLIOデータセット上で86.70%の精度を達成した。
    • これは,思考の連鎖(chain-of-thought)ベースライン(73.89%)を上回る結果である。

    Link: https://arxiv.org/abs/2603.02788

  • 細胞イメージングにおける時間構造の解明に向けたニューラルネットワークへの解釈可能な$\ell_1$回帰の組み込み [cs.CL, cs.LG]目的:細胞イメージングにおける時間構造の解明
    • 細胞活動の解析は生命現象の理解に不可欠であり,その時間的変化の把握が重要である。
    • ニューラルネットワークは高い性能を示すが,その解釈性に課題があり,要因の特定が困難である。
    • $\ell_1$正則化回帰を組み合わせ,時間構造を捉えつつ解釈可能性を高めることを目指す。
    • ニューラルネットワークに$\ell_1$回帰を組み込むことで,時間構造の解釈性を向上させることができた。
    • 畳み込みオートエンコーダとベクトル自己回帰モデルを組み合わせることで,次元削減と時間モデリングを両立した。
    • 空間情報と時間構造を分離し,$\ell_1$正則化VARに選択的に時間構造を導くことで,解析精度の向上に貢献した。

    Link: https://arxiv.org/abs/2603.02899

  • 解釈可能なモーションアテンションマップ:ビデオ拡散Transformerにおける概念の時空間的局在化 [cs.CV, cs.AI, cs.LG]目的:ビデオ拡散Transformerにおけるモーションワードからビデオへの変換メカニズムの解明
    • ビデオ生成技術は,テキストから高品質な動画を生成する上で重要性が増している。
    • 既存研究では,オブジェクトの顕著性マップは存在するが,動画におけるモーションに着目した研究は不足している。
    • モーション概念に対応するオブジェクトの動きがいつ,どこで発生するかを特定し,解釈可能性を高める。
    • 提案手法GramColは,モーションと非モーションの両概念に対し,フレーム単位の顕著性マップを適応的に生成する。
    • IMAP(解釈可能なモーションアテンションマップ)は,モーションを時空間的に局在化し,概念の顕著性マップを明らかにする。
    • 実験的に,モーション局在化タスクとゼロショット動画セマンティックセグメンテーションで高い性能を示し,解釈可能な顕著性マップを提供した。

    Link: https://arxiv.org/abs/2603.02919

  • CGL:強化学習による微調整を通じた継続的なGUI学習の進展 [cs.LG, cs.CV]目的:GUI継続学習における適応効率とスキル保持のバランス
    • GUIエージェントは近年の進歩により目覚ましい発展を遂げているため,その活用が期待されている。
    • GUIアプリケーションの頻繁な更新により,古いタスクを忘却することなく新しいタスクに適応することが課題である。
    • 知識の上書きを防ぎつつ,GUIアプリケーションの変化に追従できる学習手法を確立することを目指す。
    • 提案手法CGLは,SFTとRLの相乗効果を高めることで,適応効率とスキル保持のバランスを動的に調整する。
    • SFTの割合調整機構と勾配手術戦略により,知識の忘却を抑制し,継続的な学習性能を向上させる。
    • AndroidControl-CLベンチマークを用いて,様々な継続学習シナリオにおけるCGLの有効性を実験的に示した。

    Link: https://arxiv.org/abs/2603.02951

  • AdamがSGDを上回る理由:二次のモーメント正規化がより鋭い末尾をもたらす [cs.CL, cs.CC, cs.LG, cs.AI]目的:AdamとSGDの収束性の理論的差異の解明
    • 最適化アルゴリズムは機械学習の基盤であり,効率的な学習に不可欠である。
    • Adamの経験的な性能はSGDを上回るものの,理論的保証はほぼ同等で説明が不足している。
    • Adamの二次のモーメント正規化に着目し,SGDとの収束性の違いを理論的に示す。
    • Adamは,信頼パラメータ$\delta$に対して$\delta^{-1/2}$の依存性を示すことが証明された。
    • 一方,SGDの高確率保証には,少なくとも$\delta^{-1}$の依存性が不可欠である。
    • これにより,AdamとSGDの高確率収束挙動の間に理論的な分離が確立された。

    Link: https://arxiv.org/abs/2603.03099

  • 原子モデルにおける情報ルーティング:タスクアラインメントと等変性が線形分離に及ぼす影響 [cs.LG, cs.AI, physics.chem-ph]目的:分子特性予測モデルにおける表現の整理方法
    • 分子構造と特性の理解は,創薬や材料設計といった分野において重要である。
    • 既存のモデルでは,幾何学的情報と構成情報の分離が不十分な場合がある。
    • モデル表現における幾何学的情報と構成情報の分離を定量化し,その影響を解明する。
    • 分子の幾何学的情報の利用可能性には,モデルによって大きな差が見られることが明らかになった。
    • タスクアラインメントが幾何学的情報の利用可能性を大きく左右し,HOMO-LUMOギャップ予測モデルがエネルギー予測モデルを上回る結果となった。
    • MACEモデルにおいては,対称性タイプに応じて情報がルーティングされる傾向が確認された。

    Link: https://arxiv.org/abs/2603.03155

  • 記憶なし,検出なし:小規模言語モデルにおける出力分布に基づく汚染検出 [cs.AI, cs.CL]目的:小規模言語モデルにおけるデータ汚染の検出
    • 言語モデルの性能評価において,学習データに含まれるテストデータによる汚染の検出は重要である。
    • 既存の汚染検出手法は,小規模言語モデルに対して十分な性能を発揮しない場合がある。
    • 出力分布に基づく汚染検出手法の限界を明らかにし,より有効な手法の模索を目指す。
    • 出力分布に基づく汚染検出(CDD)は,小規模言語モデルでは,検証可能な汚染データであっても,偶然レベルの性能に留まることが多い。
    • CDDの有効性は,ファインチューニングが逐語的な暗記を生み出すかどうかに大きく依存する。
    • パープレキシティやMin-k% Probといった確率に基づく手法が,CDDよりも全ての条件において優れた性能を示す。

    Link: https://arxiv.org/abs/2603.03203

  • ACES:自動音声認識における結合,説明,およびストレステストのためのアクセント部分空間 [cs.CY, cs.AR, cs.CL, cs.HC, cs.SD, cs.AI, eess.AS]目的:自動音声認識におけるアクセントごとの性能格差の構造的脆弱性の評価
    • 音声認識技術は多様なコミュニケーションを可能にする基盤であり,社会生活において不可欠である。
    • 既存の音声認識システムはアクセントによって性能に差が生じることが課題となっている。
    • アクセント情報が音声認識にどのように影響しているかを明らかにし,公平性を改善することを目指す。
    • アクセント部分空間に沿った微小な摂動によって,語彙誤り率の格差が約50%拡大することが示された。
    • アクセント部分空間を部分的に除去すると,語彙誤り率と格差が両方とも悪化し,アクセント情報と認識に重要な特徴が絡み合っていることが示唆された。
    • ACESは,アクセントの公平性を評価するための強力なツールとして位置づけられ,単純な除去以上の価値を持つことが示された。

    Link: https://arxiv.org/abs/2603.03359

  • 非線形性の半分は無駄である:TransformerのMLP予算の測定と再配分 [cs.LG, cs.CL]目的:TransformerのMLPにおける非線形性の必要性とその効率的な活用
    • Transformerは自然言語処理の主要モデルであり,その性能向上は重要課題である。
    • TransformerのMLPは計算コストが高く,非線形性の活用効率が低い可能性がある。
    • MLPの非線形性を効率的に削減し,計算コストを抑えつつ性能を維持することを目指す。
    • TransformerのMLPにおける非線形性は,トークンIDからは予測できない文脈依存性を持つことが示された。
    • ゲート機構を導入することで,25-56%の計算量を線形化でき,perplexityへの影響は1%未満に抑制された。
    • 一部の層のMLPを線形化することで,perplexityが改善し,非線形MLPが有害である場合があることが確認された。

    Link: https://arxiv.org/abs/2603.03459

  • テスト時メタ適応と自己合成 [cs.LG, cs.AI]目的:テスト時における自己適応
    • 大規模言語モデルの汎用的な推論能力の活用が重要視されている。
    • 未知のドメインやタスクへの適応が課題となっている。
    • テスト時に自己改善し,性能を向上させる方法の確立。
    • MASSは,問題特有の合成データ生成と自己更新を通じてLLMの自己適応を可能にするメタ学習フレームワークである。
    • バイレベル最適化により,生成されたデータに対する適応と,データ属性信号とタスクパフォーマンスのメタ学習をエンドツーエンドで学習する。
    • 数学的推論実験では,MASSが有効なテスト時適応のための個別インスタンスカリキュラムを合成できることが示された。

    Link: https://arxiv.org/abs/2603.03524

  • マルチスケール埋め込みメモリ:視覚言語行動モデルのための [cs.RO, cs.LG]目的:ロボットの長期的な制御における効果的なメモリアーキテクチャ
    • ロボットの自律性は,複雑なタスクを遂行する上で不可欠であり,その実現には効果的なメモリが重要となる。
    • 従来のロボット学習におけるメモリは,過去の観察系列を直接入力するため,抽象化レベルの多様性に欠ける。
    • マルチスケールなメモリ構造を導入し,異なる抽象化レベルの情報を統合することで,長期タスクの成功を目指す。
    • 提案手法MEMは,ビデオベースの短期メモリとテキストベースの長期メモリを組み合わせることで,最大15分間のタスクを可能にした。
    • MEMは,キッチン掃除やグリルチーズサンドイッチの調理といった複雑なタスクにおいて,その有効性を実証した。
    • メモリを用いることで,ロボットは文脈に応じて操作戦略を賢く適応させることが可能になった。

    Link: https://arxiv.org/abs/2603.03596

  • ZipMap:テスト時学習による線形時間状態保持3D再構成 [cs.CL, cs.CV, cs.AI, cs.LG]目的:大規模画像コレクションにおける3D再構成の効率化
    • 3Dビジョンは,ロボティクスやAR/VRなど幅広い分野で重要性が高まっている。
    • 既存手法は計算コストが高く,大規模な画像セットへの適用が困難である。
    • テスト時学習により,高速かつ高精度な3D再構成を実現することを目指す。
    • ZipMapは,入力画像数に対して線形時間で3D再構成を可能にする状態保持モデルである。
    • VGGT等の既存手法と比較して,20倍以上の高速化を達成した。
    • シーン状態のリアルタイムクエリや,ストリーミング再構成への応用も示された。

    Link: https://arxiv.org/abs/2603.04385

  • プロの視覚芸術家が職場における生成AIと交渉する様相 [cs.HC, cs.AI, cs.CY]目的:プロの視覚芸術家における生成AIの影響
    • 芸術分野は,文化や経済に大きな影響を与える重要な領域である。
    • 生成AIの急速な発展は,芸術家の仕事やキャリアに新たな課題をもたらしている。
    • 生成AIが芸術家の職場環境に及ぼす影響を明らかにすること。
    • 多くの視覚芸術家は生成AIの使用に強く反対しており,職場での導入を拒否する様々な戦略を用いていることが明らかになった。
    • 生成AIの使用は,クライアント,上司,同僚からの圧力など,アーティストの環境における様々な要因によって左右される。
    • 視覚芸術家は,生成AIが職場にもたらす影響として,ストレスの増加や仕事の減少を報告している。

    Link: https://arxiv.org/abs/2603.04537

  • 決定論的ファクト台帳と敵対的低遅延幻覚検出器によるニューロシンボリック金融推論 [cs.CL, cs.LG, cs.AI, cs.CE]目的:金融推論における幻覚の低減と精度向上
    • 金融分野では,高い正確性が求められるため,わずかな誤りも重大な結果を招く可能性がある。
    • 大規模言語モデルは,数値計算能力の限界や意味の混同といった問題を抱え,金融分野での信頼性が低い。
    • 厳密な型付けによるファクト台帳と監視システムを導入し,金融推論における幻覚をほぼゼロにすることを目指す。
    • 提案手法VeNRAは,確率的なテキストの検索から決定論的な変数の検索へとRAGパラダイムを移行し,幻覚発生率を1.2%に抑制した。
    • VeNRASentinelは,30億パラメータのSLMを用いてエラーを検出する能力が,70Bを超える大規模モデルを上回る性能を示した。
    • 損失希釈現象を利用したマイクロチャンキング損失アルゴリズムにより,勾配の安定化と28倍の高速化を実現した。

    Link: https://arxiv.org/abs/2603.04663

  • Jagarin:モバイルにおけるパーソナル・デューティエージェントの休止を実現する三層アーキテクチャ [cs.AI, cs.HC, cs.MA]目的:モバイル環境におけるパーソナルAIエージェントの,省電力性と義務遂行の実現
    • モバイルAIエージェントは利便性が高いが,バッテリー消費やプライバシー保護が課題である。
    • 従来のAIエージェントは,常時実行によるバッテリー消費や,反応性の低さが問題である。
    • 構造化された休止とオンデマンド起動により,上記問題を解決する。
    • Jagarinは,デューティ認識ウェイクネットワーク(DAWN),エージェントリレーIDアーキテクチャ(ARIA),エージェント中心交換(ACE)の三層構造である。
    • DAWNは,義務の緊急度を判断し,エージェントを適切なタイミングで起動する。
    • ARIAとACEは,機関からの情報をエージェントに直接伝達し,クラウド依存を減らす。

    Link: https://arxiv.org/abs/2603.05069

  • 長期的なWebタスクのためのAND/OR木による計画 [cs.RO, cs.AI]目的:長期的なWebタスクにおける計画手法
    • LLMを活用したエージェントによる複雑なタスク自動化への期待が高まっている。
    • 既存のWebエージェントは,記憶容量の限界や計画能力の弱さから,長期タスクで苦戦している。
    • AND/OR木を用いた階層的な計画により,Webエージェントの計画能力と制約充足率の向上を目指す。
    • 提案手法STRUCTUREDAGENTは,オンライン階層プランナーと構造化されたメモリモジュールを組み合わせる。
    • WebVoyager,WebArena等のベンチマークにおいて,従来のLLMベースのエージェントを上回る性能を示した。
    • 生成される階層的な計画は解釈可能であり,デバッグや人間による介入を容易にする。

    Link: https://arxiv.org/abs/2603.05294

  • 時系列クラスタリングのためのグローバルおよびローカルな反事実的解釈 [cs.LG, cs.AI]目的:時系列クラスタリングにおけるインスタンスがクラスタ境界を移動する要因の特定
    • 時系列データのクラスタリングはパターン発見の基礎であり,様々な分野で活用されている。
    • 既存の説明可能性手法では,クラスタ境界を越える遷移を特定することが困難である。
    • 反事実的解釈を用いて,時系列クラスタリングにおける遷移要因を特定し,解釈性を向上させる。
    • GALACTICは,時系列クラスタリングにおける局所的およびグローバルな反事実的解釈を統合した初のフレームワークである。
    • 局所的な反事実的解釈では,クラスタを考慮した最適化により,最小限の摂動を生成する。
    • グローバルな反事実的解釈では,MDL目的関数を用いて非冗長なクラスタ間遷移の要約を抽出する。

    Link: https://arxiv.org/abs/2603.05318

  • ターミナル向け効果的なAIコーディングエージェントの構築:スキャフォールディング,ハーネス,コンテキストエンジニアリング,そして教訓 [cs.AI]目的:ターミナル環境におけるAIコーディングエージェントの有効性向上
    • ソフトウェア開発の効率化が求められる中で,AIによる自動化の重要性が増している。
    • 従来のIDEプラグイン型AIアシスタントでは,自律的な長期タスク実行に限界があった。
    • コンテキストの効率的な管理と安全性の確保により,自律的なターミナル向けAIエージェントを実現する。
    • 本研究では,ターミナル環境に特化したオープンソースのAIコーディングエージェント「OPENDEV」を開発した。
    • OPENDEVは,モデルルーティング,二重エージェント構造,遅延ツール探索,適応型コンテキスト圧縮により,安全性と効率性を両立している。
    • また,自動メモリシステムとイベント駆動型リマインダーにより,プロジェクト固有の知識蓄積と指示の喪失を防いでいる。

    Link: https://arxiv.org/abs/2603.05344

  • 推論圧縮のためのオンポリシー自己知識蒸留 [cs.LG]目的:推論の簡潔化
    • 大規模言語モデルの推論能力は重要だが,冗長な出力が課題となっている。
    • 推論過程で生成されるトークンは,必ずしも正確性向上に寄与しない場合がある。
    • 自己知識蒸留により,モデルが簡潔な推論を学習し,効率性と精度を向上させる。
    • OPSDCは,教師信号として「簡潔さを指示」されたモデルの出力を利用し,自己知識蒸留を行う。
    • MATH-500データセットにおいて,トークン数を57-59%削減しつつ,精度を9-16ポイント向上させた。
    • AIME 2024データセットでは,14Bモデルにおいて41%の圧縮率で10ポイントの精度向上を達成した。

    Link: https://arxiv.org/abs/2603.05433

  • SAIL:類似度を考慮したガイダンスと相互キャプション拡張学習による弱教師あり密な動画キャプション生成 [cs.CV, cs.AI]目的:弱教師あり密な動画キャプション生成におけるイベントの局所化と記述
    • 動画理解の高度化に不可欠であり,人間による注釈コストを削減できる。
    • 既存手法では,意味的な関係性を考慮しない単純なマスク生成に課題がある。
    • 意味的に意味のある領域を捉え,データスパースネスを克服すること。
    • 提案手法SAILは,クロスモーダルアライメントを通じて意味的に認識されたマスクを構築する。
    • 類似度を考慮した学習目的により,対応するイベントキャプションとの類似度が高い動画領域を強調する。
    • LLMに基づく拡張戦略により,正確なマスク生成を支援し,ActivityNet CaptionsとYouCook2で最先端の性能を達成した。

    Link: https://arxiv.org/abs/2603.05437

  • RoboLayout:具現化されたエージェントのための微分可能な3Dシーン生成 [cs.AI, cs.CV, cs.LG, cs.RO]目的:具現化されたエージェントが相互作用可能な3Dシーンの生成
    • 空間推論や3Dシーン配置生成において,大規模言語モデルの応用が期待されている。
    • 物理制約のある屋内環境において,意味的な整合性とエージェントの実行可能性を両立した配置生成が困難である。
    • エージェントの到達可能性を考慮した微分可能な配置最適化により,実行可能な環境生成を目指す。
    • RoboLayoutは,LayoutVLMを拡張し,エージェントを意識した推論と最適化の安定性を向上させた。
    • 明示的な到達可能性制約を導入することで,エージェントがナビゲート可能な実行可能なレイアウトを生成する。
    • 多様な物理的特性を持つエージェントに対応可能であり,屋内環境の設計をエージェントに合わせて調整できる。

    Link: https://arxiv.org/abs/2603.05522

  • AIが競争条件を均等化するとき:スキル均質化,資産集中,そして不平等の二つの様相 [cs.LG, cs.AI]目的:AI技術がもたらすスキル均質化と資産集中による不平等の変化
    • AI技術の発展は経済成長に貢献するが,その影響は労働市場の構造に深く関わる。
    • AI導入によるスキル要求の変化が,既存の不平等を拡大する可能性が指摘されている。
    • AI技術が不平等の拡大に寄与するメカニズムを理論モデルで明らかにすること。
    • 生成AIは,タスク内でのスキル差を縮小しつつ,付随的な資産への経済的価値を集中させるという矛盾した状況を生み出す。
    • モデル分析の結果,AIの技術構造と労働市場の制度が,不平等の様相を大きく左右することが示された。
    • この研究は,AIが不平等の拡大に寄与するメカニズムを解明するものであり,その影響の方向性を示すものではない。

    Link: https://arxiv.org/abs/2603.05565

  • 部分空間を考慮したモデル結合によるドメイン間の橋渡し [cs.RO, cs.CY, cs.HC, cs.RO, cs.LG, cs.AI, cs.CV]目的:ドメイン汎化性能の向上
    • AIモデルの効率的な活用には,複数のタスクやドメインに対応できる汎化能力が不可欠である。
    • モデル結合は有望な手法だが,異なるドメインのモデルを結合する際の汎化性能は未解明な点が多い。
    • 異なる分布で学習したモデルの結合における部分空間の競合を緩和し,ドメイン汎化性能を向上させる。
    • 本研究では,タスク行列の特異値分解に基づき,異なるドメインで学習したモデルの結合が,従来のマルチタスク学習よりも強い競合を引き起こすことを示した。
    • 提案手法SCOREは,モデル間の部分空間の競合を解消するために,共通の直交基底を学習し,競合する特異方向を削減する。
    • 様々なアーキテクチャとモデル規模において,SCOREは既存のモデル結合手法を上回り,ドメイン汎化性能において優れた結果を示した。

    Link: https://arxiv.org/abs/2603.05768

  • シーン文脈を考慮した漸進型Few-Shot 3Dセグメンテーション [cs.HC, cs.CV, cs.LG]目的:漸進型Few-Shot 3Dセグメンテーションにおける性能向上
    • 3D点群セグメンテーションは,ロボット工学や自動運転などの応用において重要である。
    • Few-Shot学習では,学習データが限られており,過学習や忘却が発生しやすい。
    • 背景領域の情報を活用し,Few-Shot学習時の過学習と忘却を抑制すること。
    • 提案手法SCOPEは,背景領域からの疑似インスタンスを利用してプロトタイププールを構築する。
    • 新しいクラスが到着した際,背景プロトタイプとFew-Shotプロトタイプを融合し,表現力を高める。
    • ScanNetとS3DISでの実験により,既存手法を上回る性能が確認された。

    Link: https://arxiv.org/abs/2603.06572

  • アンサンブルガウス過程回帰による経験的アセットプライシング [econ.TH, cs.SI, q-fin.RM, cs.LG, q-fin.ST]目的:株式のリターン予測モデル
    • 金融市場において,正確なリターン予測は投資戦略の根幹をなすため重要である。
    • 従来のモデルでは,高次元データへの対応や計算コストが課題となっていた。
    • ガウス過程回帰の効率化と,予測不確実性を考慮したポートフォリオ構築を試みる。
    • 本研究で提案するアンサンブル学習法は,既存の機械学習モデルよりも予測精度が高いことが実証された。
    • 予測ポートフォリオは,S&P 500を上回るパフォーマンスを示した。
    • 予測不確実性を考慮したポートフォリオは,リスク回避的な投資家にとって有効であることが示された。

    Link: https://arxiv.org/abs/2212.01048

  • ニューラル量子状態による非マルコフ開放量子ダイナミクスのシミュレーション [math.OC, cs.SY, eess.SY, quant-ph, cs.LG]目的:非マルコフ開放量子系のシミュレーションにおける計算規模の縮小
    • 開放量子系は量子技術に応用が期待され,そのダイナミクスの理解が重要である。
    • 非マルコフ的な開放量子系のシミュレーションは計算コストが高く,大規模系への適用が困難である。
    • ニューラル量子状態を用いて,非マルコフ開放量子系の効率的なシミュレーションを実現すること。
    • ディシパトン埋め込み量子マスター方程式(DQME)を構築し,環境の記憶効果を効率的に表現した。
    • DQMEに基づくニューラル量子状態(NQS)フレームワークが,コンパクトな多体相関と非マルコフ性の表現を可能にした。
    • 数値的に厳密な階層運動方程式との比較により,DQME-NQSが同等の精度を維持しつつ,計算効率と解釈性を向上させることが示された。

    Link: https://arxiv.org/abs/2404.11093

  • アルゴリズム干渉下における処置効果推定:構造化ニューラルネットワークアプローチ [econ.EM, cs.LG, stat.ME]目的:アルゴリズム干渉下での処置効果推定手法
    • オンラインプラットフォームでは広告費が膨大であり,アルゴリズムの改善が収益に直結する。
    • コンテンツ制作者間の競争により,従来の処置効果推定方法ではバイアスが生じる可能性がある。
    • 競争的なコンテンツ配信メカニズムを明示的にモデル化することでバイアスを軽減し,正確な効果推定を目指す。
    • 提案手法は,競合コンテンツの影響を考慮した構造化半パラメトリックフレームワークを用いる。
    • モンテカルロシミュレーションと大規模な実証実験の結果,提案手法は既存手法よりも正確な推定値を示した。
    • 特に,標準的な推定器が大きなバイアスを示す場合でも,提案手法は干渉のないベンチマークに近い結果を得た。

    Link: https://arxiv.org/abs/2406.14380

  • 深層Coxモデルにおけるミニバッチ推定:統計的基礎と実践的指針 [stat.ML, cs.LG]目的:深層Coxモデルのミニバッチ最尤推定量の統計的性質の解明
    • 生存時間解析は,医療や信頼性工学など幅広い分野で重要である。
    • 深層学習と生存時間解析の組み合わせは近年注目されているが,統計的理論が未整備である。
    • ミニバッチ学習における推定量の漸近的性質を明らかにし,実践的な指針を提供する。
    • ミニバッチ最尤推定量(mb-MPLE)の一致性と最適ミニマックス収束率が示された。
    • 線形Cox回帰において,mb-MPLEは$\sqrt{n}$一致性および漸近正規性を満たすことが証明された。
    • 学習率とバッチサイズの比率が深層CoxモデルのSGDダイナミクスにおいて重要であることが示された。

    Link: https://arxiv.org/abs/2408.02839

  • 有限ホライズンMDPにおける方策最適化の状況 [math.OC, cs.LG]目的:有限ホライズンマルコフ決定過程における方策最適化の構造的性質
    • 強化学習は,複雑な問題を解決する強力な手法であり,その重要性は増している。
    • 方策最適化の非凸性により,大域的な収束性の保証が困難であるという課題がある。
    • 非凸な状況下でも,方策勾配法が最適方策に収束することを理論的に示す。
    • 有限ホライズンMDPにおいて,方策最適化の損失関数がPolyak-{\L}ojasiewicz-Kurdyka(P{\L}K)条件を満たすことを示した。
    • P{\L}K条件を利用することで,非漸近的な収束率で最適方策に到達できることが証明された。
    • エントロピー正則化されたテーブルMDP,線形二次レギュレータ問題,確率的在庫問題,確率的キャッシュバランス問題などへの適用可能性が示された。

    Link: https://arxiv.org/abs/2409.17138

  • 適応的転移クラスタリング:統合的フレームワーク [math.GT, cs.CG, math.AT, math.CO, math.HO, stat.ME, cs.LG, math.ST, stat.ML, stat.TH]目的:転移学習によるクラスタリング手法
    • データ分析において,集団の構造を把握することは重要である。
    • 異なるデータセット間での共通構造の活用が課題である。
    • 未知の差異を考慮し,共通性を自動的に活用する手法を提案する。
    • 提案手法ATCは,ガウス混合モデル等の統計モデルに適用可能である。
    • 理論的解析により,ATCの最適性と転移による利点が定量的に示された。
    • シミュレーションおよび実データ実験により,ATCの有効性が確認された。

    Link: https://arxiv.org/abs/2410.21263

  • 共謀の幻想 [math.OC, cs.SY, eess.SY, econ.GN, cs.AI, cs.GT, cs.MA, q-fin.EC]目的:アルゴリズムによる共謀的行動の発生メカニズムの解明
    • 競争的環境下での意思決定において,アルゴリズムエージェントの利用が拡大している。
    • アルゴリズムエージェント間の相互作用が,意図しない共謀的行動を生む可能性がある。
    • エージェントの行動方針が,共謀的行動の発生にどのように影響するかを明らかにすること。
    • マルチアームバンディットアルゴリズムを用いるエージェント間では,ゲーム構造の事前知識や競合他社の情報がなくても,共謀的な行動が観察されることがある。
    • 共謀的行動の発生は,バンディット学習者が用いる行動方針に強く依存することが示された。
    • アルゴリズムの対称性や,過去の行動履歴が,共謀的行動の予測に重要であることが示唆された。

    Link: https://arxiv.org/abs/2411.16574

  • LLM支援視覚皮質キャプション生成 [q-bio.NC, cs.AI, cs.CL, cs.CV, cs.LG]目的:視覚皮質のボクセル選択性記述
    • 人間の知覚・認知メカニズム解明と,脳に触発された計算モデル開発に不可欠。
    • 深層ニューラルネットワークのブラックボックス性により,ボクセル応答を説明する特性の解釈が困難。
    • 大規模言語モデルを用いて,ボクセル選択性をより正確かつ詳細に記述する手法を確立。
    • LaVCaは,既存手法と比較して,ボクセル選択性をより正確に記述するキャプションを生成した。
    • 生成されたキャプションは,ボクセル間およびボクセル内のレベルで,より詳細な特性を定量的に捉えた。
    • 視覚皮質内の関心領域における機能的分化や,複数の概念を同時に表現するボクセルを明らかにした。

    Link: https://arxiv.org/abs/2502.13606

  • アルツハイマー病診断の向上:四面体メッシュ上のグラフ畳み込みニューラルネットワークにおける解剖学的ランドマークの活用 [eess.IV, cs.AI, cs.CV, q-bio.NC]目的:アルツハイマー病の診断における,解剖学的ランドマークを用いたグラフ畳み込みニューラルネットワークの応用
    • アルツハイマー病は世界中で多くの人々に影響を与える主要な神経変性疾患であり,早期診断が重要である。
    • 脳アミロイドの陽性判定はPET検査に依存するが,コストと侵襲性が課題である。
    • sMRIを用いた早期診断の精度向上,特に前臨床段階での病理検出が求められている。
    • 本研究では,四面体メッシュに対する新しいトークン化スキームを提案し,解剖学的ランドマークを組み込んだ。
    • 提案モデルは,ADの分類タスクにおいて優れた性能を示し,脳アミロイド陽性予測においても汎化性を示した。
    • 中リスク群の個人に対しても,従来のBBBM単独では明確な分類が困難なケースにおいて,分類性能が向上した。

    Link: https://arxiv.org/abs/2503.05031

  • 異質データからの個別最適方策のための強化学習 [stat.ML, cs.LG]目的:異質データからの個別最適方策の学習
    • 強化学習は,複雑な環境下での意思決定に有用であり,様々な分野への応用が期待されている。
    • 従来のオフライン強化学習は,データが均質であることを前提としており,異質データに対する性能が課題である。
    • 本研究では,異質データから個々の最適な方策を効率的に学習することを目指す。
    • 提案手法では,個々の潜在変数を用いた異質モデルにより,個々のQ関数を効率的に推定する。
    • P4Lアルゴリズムは,行動方策に関する弱い部分被覆仮定の下で,平均的な後悔の高速な収束率を保証する。
    • シミュレーションおよび実データ実験の結果,提案手法は既存手法と比較して優れた性能を示す。

    Link: https://arxiv.org/abs/2505.09496