arXiv雑要約

AI - 2026/06/11 公開

  • スケーリングに敏感な損失地形を通じてモデルを結合不可能にする [cs.AI, cs.CR]目的:モデルの不正な再構成に対する保護機構
    • モデル共有が容易になったが,安全性やライセンス違反のリスクが存在する
    • 既存の防御策は事後対応的で,アーキテクチャに依存するため汎用性に欠ける
    • モデルの結合時に劣化し,不正な再構成を阻止する保護機構の提案
    • Trap$^2$は,ファインチューニング中に更新に保護を組み込む,アーキテクチャに依存しないフレームワークである。
    • 重みスケーリングを結合プロセスのプロキシとして利用し,単独使用時は有効性を維持する。
    • 再スケーリングによって性能が低下し,不正な再構成を抑制する効果が期待される。

    Link: https://arxiv.org/abs/2601.21898

  • 汎用的なプロンプト改善が逆効果になる場合:LLMアプリケーションのための評価駆動型反復 [cs.CL, cs.AI, cs.IR, cs.SE]目的:LLMアプリケーションの評価手法
    • LLMの応用範囲拡大に伴い,その品質保証の重要性が増している。
    • LLMの出力は確率的で変化しやすく,従来のソフトウェアテストでは不十分である。
    • LLMアプリケーションの評価を効率化し,プロンプト改善時のリスクを軽減すること。
    • 最小限の実行可能な評価スイート(MVES)を提案し,アプリケーションのカテゴリと故障モードを関連付けた。
    • Llama 3とQwen 2.5を用いて実験を行った結果,汎用的なプロンプト改善が必ずしも性能向上につながらないことが示された。
    • 特にRAGタスクにおいて,Qwen 2.5では汎用的なルールを追加すると性能が大幅に低下した(30/30から9/30へ)。評価駆動型反復の重要性が示唆された。

    Link: https://arxiv.org/abs/2601.22025

  • OpenVTON-Bench:制御可能なバーチャル試着評価のための大規模高解像度ベンチマーク [cs.CV, cs.AI]目的:制御可能なバーチャル試着システムの評価基準
    • バーチャル試着技術は,Eコマース等の分野で重要な役割を担う。
    • 既存の評価指標では,微細なテクスチャや意味的一貫性を定量化するのが困難である。
    • 大規模かつ多様なデータセットと,信頼性の高い評価プロトコルを提供する。
    • OpenVTON-Benchは,約10万組の高解像度画像ペアから構成される大規模ベンチマークである。
    • 提案手法は,背景の一貫性,人物の忠実度,テクスチャの忠実度など5つの側面からVTON品質を評価する。
    • 実験結果は人間の判断と高い相関を示し,VTON評価における堅牢なベンチマークとしての有用性を示す。

    Link: https://arxiv.org/abs/2601.22725

  • FOCUS:計算資源を抑制するためのDLLMの制御 [cs.CE, cs.LG, cs.AR, cs.CL]目的:拡散大規模言語モデルにおける効率的な推論システムの開発
    • 拡散言語モデルは有望だが,計算コストが高く実用化が課題となっている。
    • 既存の推論エンジンでは,デコード可能なトークンが少なく,計算資源が無駄になっている。
    • デコード可能なトークンに計算資源を集中させることで,効率的な推論を実現する。
    • FOCUSは,デコード可能なトークンに動的に計算資源を集中させ,不要な計算を削減する。
    • 大規模バッチ処理において,既存のLMDeployと比較して最大3.52倍のスループット向上を達成した。
    • 生成品質を維持または向上させながら,計算資源の制約を緩和することに成功した。

    Link: https://arxiv.org/abs/2601.23278

  • 推論時強化学習によるオープンマテリアル生成 [cs.LG, cond-mat.mtrl-sci]目的:結晶材料の安定な結晶構造を予測する生成モデルへの,目的とする特性の明示的な組み込み
    • 結晶材料の逆材料設計は,新材料開発を加速する上で不可欠である。
    • 生成モデルに目的特性を組み込むことが難しく,設計の自由度が制限される。
    • 推論時の強化学習を用いて,既存の生成モデルを効率的に特性最適化する。
    • OMatG-IRLは,流体に基づく生成モデルに強化学習を適用するための新しいフレームワークである。
    • 本手法は,既存の生成モデルの性能を維持しつつ,推論時に探索と方策勾配推定を可能にする。
    • 時間依存の速度アニーリングスケジュールを学習し,サンプリング効率と生成時間を大幅に改善した。

    Link: https://arxiv.org/abs/2602.00424

  • ニューラルFOXP2 -- LLMにおける標的言語改善のための言語特化ニューロン制御 [cs.CL, cs.AI]目的:LLMにおける言語能力の調整
    • LLMは多言語対応だが,英語が優勢であるため,他の言語の性能向上が課題。
    • 事前学習データにおける言語の偏りにより,非英語圏言語が抑制される問題がある。
    • 言語特化ニューロンを制御し,特定の言語を主要言語として優先させることを目指す。
    • Neural FOXP2は,モデル内の言語特化ニューロンを制御することで,ヒンディー語またはスペイン語を主要言語として設定する。
    • 各層でSAEを訓練し,英語と目標言語の選択性を定量化することで,言語ニューロンセットを特定する。
    • 層ごとのSVD分析により,言語変化を制御する主要な方向性を抽出し,活性化シフトを適用することで目標言語の優先度を調整する。

    Link: https://arxiv.org/abs/2602.00945

  • デプロイ済みモデルにおける有害な分布シフト検出のための予測駆動型リスク監視 [cs.LG, eess.SP]目的:デプロイ済みモデルのリスク監視
    • 機械学習モデルの利用拡大に伴い,実環境での性能維持が重要になっている。
    • ラベル付きデータが限られた動的な環境下では,性能低下を早期に検知することが困難である。
    • 予測駆動型推論に基づき,限られたラベルデータでリスク下限を構築し,性能低下を検出する。
    • 提案手法PPRMは,合成ラベルと少数の真のラベルを組み合わせることで,常に有効なリスク下限を構築する。
    • 有害なシフトは,公称リスクの上限との閾値ベースの比較によって検出され,タイプIエラーに対する有限サンプル保証を提供する。
    • 画像分類,大規模言語モデル,通信監視タスクにおける実験で,PPRMの有効性が示された。

    Link: https://arxiv.org/abs/2602.02229

  • AI4SLT:形式的統計学習理論のためのLean 4における経験過程 [cs.LG, cs.CL, math.ST, stat.TH]目的:統計学習理論の形式化
    • 機械学習の理論的基盤を厳密に検証する重要性が高まっている
    • 既存の統計学習理論には,暗黙の仮定や詳細な記述の不足が存在する
    • 統計学習理論の形式化を通じて,理論の厳密性と理解を深める
    • 統計学習理論を基盤とする経験過程のLean 4形式化を初めて実現した。
    • ガウスリプシッツ集中,ダドリーの entropy integral 定理,最小二乗回帰などの定理を実装した。
    • 人間とAIの協調により,検証済みの統計学習理論ツールボックスを構築した。

    Link: https://arxiv.org/abs/2602.02285

  • メンティスオクリ: メンタルイメージによる推論の限界の解明 [cs.DC, cs.AI, cs.CV, cs.LG]目的:メンタルイメージを用いた推論能力の評価と限界の特定
    • 近年,画像情報を処理するだけでなく,視覚とテキストを統合したモデルが発展している。
    • 生成される画像が不正確であったり,推論の助けになっていない場合がある。
    • モデルの推論能力に視覚情報が貢献するかどうかを検証する。
    • 最先端のモデルを評価した結果,視覚戦略は一般的に性能向上に貢献しないことが判明した。
    • UMMはタスクを解決するテキストベースの推論能力と正しい画像を生成できるものの,生成エラーが積み重なり,正解の視覚情報でさえ活用できない。
    • 現時点では,視覚的な思考はモデルの推論に役立たない可能性が示唆された。

    Link: https://arxiv.org/abs/2602.02465

  • ベクトル量子化された潜在的概念:クラスタリングに基づく概念発見へのスケーラブルな代替案 [cs.LG, cs.CL]目的:潜在的概念の学習
    • 大規模言語モデルの内部表現を理解することは,AIの解釈可能性向上に不可欠である。
    • 既存のクラスタリング手法では,計算コストと概念のコヒーレンスがトレードオフの関係にある。
    • 大規模データセットで効率的に,かつ解釈可能な潜在的概念を学習すること。
    • 提案手法VQLCは,K-Meansと同程度の計算コストでスケーラビリティを向上させた。
    • 特にデコーダー専用モデルにおいて,概念の忠実度が高いことが示された。
    • 学習された概念は,解釈可能であり,タスクに関連性があることが確認された。

    Link: https://arxiv.org/abs/2602.02726

  • グローバルな幾何学はビジョン表現には不十分である [cs.CL, cs.CV, cs.AI]目的:ビジョンエンコーダにおける構成的結合能力の評価
    • 視覚情報の効率的な処理は,コンピュータビジョンの発展に不可欠である。
    • 既存の表現学習は,グローバルな幾何学に偏重し,構成的な理解が困難である。
    • 表現の構成的結合能力を評価する新たな指標の確立を目指す。
    • グローバル幾何学に基づく統計量は,構成的結合能力との相関がほぼゼロであることが判明した。
    • 入力・出力ヤコビアンによる機能的感受性は,構成的結合能力を信頼性高く追跡できることが示された。
    • 既存の損失関数が幾何学を制約する一方で,局所的な入力・出力マッピングは制約されていないことが明らかになった。

    Link: https://arxiv.org/abs/2602.03282

  • 強化学習によるプロンプトインジェクションの学習 [cs.LG, cs.AI]目的:プロンプトインジェクションの自動化
    • 大規模言語モデル(LLM)の普及に伴い,そのセキュリティ確保が重要になっている。
    • プロンプトインジェクション攻撃は,LLMエージェントの重大な脆弱性であるが,自動化が困難である。
    • 強化学習を用いて,効果的なプロンプトインジェクション攻撃を自動的に学習することを目指す。
    • AutoInjectは,比較ベースの報酬関数を用いることで,二値信号から密な報酬を生成し,強化学習を可能にした。
    • AgentDojoにおいて,AutoInjectは既存の手法(テンプレート攻撃,GCG,TAP,適応攻撃)を凌駕し,有意な改善を示した。
    • AutoInjectは,プロンプトインジェクションへの耐性を持つMeta-SecAlign-70Bに対しても有効であり,自動化された攻撃のベースラインを確立した。

    Link: https://arxiv.org/abs/2602.05746

  • 「ユーザーにこれを言及しないこと」:実世界の悪意のあるエージェントスキル検出と理解 [cs.CR, cs.AI, cs.CL, cs.ET]目的:悪意のあるエージェントスキルの検出と理解
    • LLMベースのコーディングエージェント利用拡大に伴い,セキュリティリスクの理解が重要である。
    • 第三者拡張機能(スキル)のセキュリティに関する研究が不足しており,脅威データのラベル付けも進んでいない。
    • LLMエージェントエコシステムのセキュリティを確保するための研究を促進する。
    • 98,380個のスキルを分析した結果,157個の悪意のあるスキルと632個の脆弱性を特定した。
    • これらの脅威は意図的なものであり,平均4.03個の脆弱性を含むことが判明した。
    • 資格情報窃取とエージェント操作という2つの主要な攻撃戦略が確認された。また,攻撃の洗練度と隠蔽努力には相関関係があることも示された。

    Link: https://arxiv.org/abs/2602.06547

  • SAGE:スケーラブルなAIガバナンスと評価 [cs.RO, cs.RO, cs.IR, cs.AI]目的:大規模検索システムにおける関連性の評価手法
    • 検索システムの品質は利用者の体験に直結するため,継続的な改善が不可欠である。
    • 人的な評価はコストがかかり,大規模なシステムへの適用が困難であるという課題がある。
    • 人的判断の質を維持しつつ,効率的な評価を可能にする新たな枠組みを構築すること。
    • SAGEは,自然言語によるポリシー,過去事例,LLMによる代理判断を連携させることで,高品質な人的判断をスケーラブルな評価信号として活用する。
    • ポリシーに基づいたモデルの反復改善をシミュレーションによって行い,LinkedIn検索においてポリシーに合致したモデルを開発した。
    • SAGEの導入により,LinkedInのDAUが0.25%向上し,既存の指標では検出できなかったモデルの退化を検知することに成功した。

    Link: https://arxiv.org/abs/2602.07840

  • 階層型マルチラベル学習における稀少ノード検出の改善 [cs.LG, cs.AI]目的:階層型マルチラベル分類における稀少ノード検出の向上
    • 階層構造データは様々な分野で現れ,詳細な分類が求められる
    • 稀少なノードは学習データが少なく,分類精度が低い傾向にある
    • 稀少ノードに焦点を当て,不確実性の高いノードを重視する損失関数を提案する
    • 提案手法は,既存手法と比較して稀少ノードの再現率を最大5倍に向上させた。
    • F1スコアにおいても統計的に有意な改善が見られた。
    • 劣悪なエンコーダやデータ不足の場合でも,畳み込みニューラルネットワークの性能向上に貢献する。

    Link: https://arxiv.org/abs/2602.08986

  • 自己回帰直接選好最適化 [eess.SY, cs.SY, cs.AI]目的:大規模言語モデルと人間の選好の整合
    • LLMの性能向上には,人間の選好との整合が不可欠である。
    • 既存のDPOはBTモデルに依存し,自己回帰性を後から仮定している。
    • 自己回帰性をDPOの基礎に組み込み,最適化を改善すること。
    • 提案手法ADPOは,DPOの目的関数を再構成し,自己回帰モデルを統合する。
    • ADPOの損失関数は,DPOよりも簡潔な形となり,計算効率が向上する。
    • トークン長とフィードバック長という2つの重要な長さを区別し,選好最適化への影響を分析した。

    Link: https://arxiv.org/abs/2602.09533

  • 強化学習による言語モデルの推論における最適推論長 [cs.CL, cs.AI, cs.LG]目的:強化学習による言語モデルの推論長と精度に関する関係性の解明
    • 大規模言語モデルの推論能力向上は重要であり,特に複雑な課題解決に不可欠である。
    • 強化学習による推論能力向上は,出力長を増加させ,計算コスト増大を招くという課題がある。
    • 出力長と精度の非単調な関係性を明らかにし,最適な推論長を見出すことを目指す。
    • 数学的推論とコード生成の両タスクにおいて,出力長と精度は非単調な関係性を示すことが判明した。
    • 精度は中間的な出力長でピークを迎え,それ以降は低下傾向にある。
    • しかし,最頻値精度は出力長が伸びるにつれて向上しており,これは精度分布の中心がより正しい値に近づくことに起因する。

    Link: https://arxiv.org/abs/2602.09591

  • テンソル法:材料設計のための統一的かつ解釈可能なアプローチ [cs.LG]目的:材料設計における最適化手法の提案
    • 新材料設計は,産業発展の根幹であり,高性能化・高機能化が求められている。
    • 設計変数の増加に伴い,探索空間が指数関数的に増大し,網羅的な評価が困難である。
    • 機械学習の解釈性の低さや不均一サンプリングにおける性能劣化を克服する。
    • テンソル法は,予測性能において従来の機械学習と同等以上の結果を示した。
    • テンソル分解により,物理現象の再発見が可能であり,予測の妥当性が確認された。
    • 不均一サンプリングデータに対する汎化性能が向上し,$R^2$値で最大5%の改善が見られた。

    Link: https://arxiv.org/abs/2602.10392

  • カルマン線形注意:効率的な言語モデリングと状態追跡のための並列ベイズフィルタリング [cs.LG]目的:言語モデリングと状態追跡における効率的な並列ベイズフィルタリング
    • Transformerに代わる線形複雑度モデルの必要性。計算効率が求められている。
    • 既存の線形状態更新モデルは表現力とロバストな状態追跡に限界がある。
    • カルマンフィルタを利用し,表現力と状態追跡能力の向上を目指す。
    • 本研究で提案するカルマン線形注意(KLA)は,時間並列な確率推論を実現する。
    • KLAは,既存の線形SSMや注意機構よりも高い表現力を持ち,$A_5$タスクを解決できる。
    • 合成データおよびゼロショット常識推論ベンチマークにおいて,最新のSSMやGLAと同等またはそれ以上の性能を示す。

    Link: https://arxiv.org/abs/2602.10743

  • SoftMatcha 2:トリリオン規模コーパスに対する高速かつ柔軟なパターン照合器 [cs.CL, cs.LG, stat.ML]目的:トリリオン規模の自然言語コーパスにおけるパターン検索
    • 大量のテキストデータ分析が重要視される中で,高速な検索技術の確立が求められている。
    • 従来の検索手法では,大規模コーパスに対する検索速度や,意味的バリエーションへの対応が課題であった。
    • 意味的許容度を持たせた検索を高速化し,大規模コーパスの効率的な分析を可能にすること。
    • SoftMatcha 2は,1.4兆トークンのFineWeb-Eduコーパスにおいて,既存手法よりも大幅に低い検索遅延時間を実現した。
    • 提案手法は,動的なコーパス対応プルーニングとディスク認識設計により,検索空間の指数関数的な増加を抑制する。
    • トレーニングコーパス内のベンチマーク汚染を検出し,情報検索や言い換え検出にも応用可能である。

    Link: https://arxiv.org/abs/2602.10908

  • SpaTeoGL:頭蓋内脳波を用いた解釈可能な発作開始領域解析のための時空間グラフ学習 [cs.IR, cs.LG]目的:発作開始領域の局在化
    • てんかん外科において,発作開始領域の正確な特定は治療成功に不可欠である。
    • 頭蓋内脳波の複雑な時空間的ダイナミクスにより,その特定は困難を伴う。
    • 発作の発生と伝播に関する解釈可能な洞察を提供し,発作開始領域の特定精度向上を目指す。
    • 提案手法SpaTeoGLは,水平可視グラフとロジスティック回帰に基づくベースラインと同等以上の性能を示す。
    • 非発作開始領域の識別精度が向上する。
    • 発作の開始と伝播のダイナミクスに関する解釈可能な洞察を提供する。

    Link: https://arxiv.org/abs/2602.11801

  • 非定常性におけるモーメンタムLMS理論:安定性,追従性,および後悔 [cs.LG]目的:時間変動する確率的線形システムにおけるモーメンタム最小二乗法(MLMS)の追従性能と後悔の限界
    • 大規模データ処理において,分布のドリフトやパラメータの時間変動は避けて通れない。
    • 古典的なi.i.d.の仮定が成り立たないため,リアルタイム更新が困難である。
    • MLMSの理論的限界を明らかにし,非定常環境下での適応能力を検証する。
    • MLMSは,古典的なLMSと比較して,より高速な適応とロバストな追従性を示す。
    • 理論的解析により,MLMSの安定性と追従性能に関する限界が明確にされた。
    • 実験結果は,理論的知見と一致しており,ストリーミング学習への応用が期待される。

    Link: https://arxiv.org/abs/2602.11995

  • 分布シフト下における擬似較正共形予測の網羅性保証 [cs.NI, cs.LG, eess.IV]目的:分布シフト下での共形予測の網羅性保証
    • 機械学習モデルの信頼性向上は重要であり,予測の不確実性を定量化する手法が求められている。
    • 共形予測は分布シフトに弱く,保証された網羅性が失われる場合がある。
    • 分布シフト下でも網羅性を維持するための擬似較正手法の理論的保証を与える。
    • 擬似較正は,分類器のソースドメイン損失とシフトのWasserstein距離を用いて,ターゲットドメインの網羅性の下限を導出する。
    • 共形閾値を緩めることで,ターゲット網羅性を所定レベル以上に維持する手法を提案する。
    • 分類器の不確実性に依存してハード擬似ラベルとランダム化ラベルを補間するソース調整擬似較正アルゴリズムを提案し,分布シフト下での網羅性劣化を軽減できることを示す。

    Link: https://arxiv.org/abs/2602.14913

  • Sonar-TS:時系列データベースに対する検索・検証型自然言語クエリ [cs.AI, cs.CL, cs.DB]目的:時系列データベースからの意味のあるイベント,区間,要約の取得
    • 時系列データは,科学,産業,金融など様々な分野で急速に増加しており,その分析が重要である。
    • 既存のText-to-SQL手法は,形状や異常といった連続的な意図に対応できず,時系列モデルは超長期の履歴の処理に苦労する。
    • 複雑な時系列クエリに対応し,既存手法の限界を克服するための汎用的なフレームワークと評価基準を提案する。
    • Sonar-TSは,SQLによる候補ウィンドウの検索と,Pythonプログラムによる検証を組み合わせた「検索・検証」パイプラインを採用している。
    • 大規模ベンチマークNLQTSBenchを新たに導入し,時系列データベースに対する自然言語クエリの特有の課題を浮き彫りにした。
    • 実験結果は,Sonar-TSが従来の技術では失敗する複雑な時系列クエリに対して有効であることを示している。

    Link: https://arxiv.org/abs/2602.17001

  • 協調への拡散:効率的なオンラインマルチエージェント拡散ポリシー [cs.AI]目的:効率的なエージェント協調のための拡散ポリシー
    • マルチエージェントシステムは,複雑な問題を解決する上で重要であり,エージェント間の協調が鍵となる。
    • 従来の強化学習では,協調を促進するための表現力豊かなポリシー設計が課題である。
    • 拡散モデルの潜在能力を活用し,オンライン環境での効率的な協調を可能にすることを目指す。
    • 提案手法OMADは,スケーリングされた結合エントロピーを最大化することで,トラクタブルな尤度を必要としない効率的な探索を実現する。
    • CTDEパラダイムにおいて,拡散ポリシーの同時更新を導くための,エントロピーを拡張した標的を伴う結合分布価値関数を用いる。
    • MPEとMAMuJoCoにおける評価により,提案手法が10種類の多様なタスクで最先端の性能を示し,サンプル効率が2.5倍から5倍に向上することが示された。

    Link: https://arxiv.org/abs/2602.18291

  • マルチモーダル臨床予測のための人間介入型エージェントAI:AgentDSヘルスケアベンチマークからの教訓 [cs.AI, cs.LG]目的:マルチモーダル臨床予測における人間によるエージェントAIの誘導方法
    • 臨床予測は医療の質向上に不可欠であり,AIの活用が期待されている。
    • 臨床データは多様かつ複雑であり,自動化されたAIだけでは十分な精度が得られない場合がある。
    • 人間とAIの協調により,臨床予測の精度と信頼性を向上させることを目指す。
    • 人間がエージェントAIのワークフローを誘導することで,30日再入院予測,救急外来費用予測,退院準備評価の各タスクで高い性能を達成した。
    • 特に,マルチモーダルな特徴量エンジニアリングにおいて人間による判断が重要であり,F1スコアを0.065ポイント向上させた。
    • パイプライン各段階でのドメイン知識に基づいた特徴量エンジニアリング,タスク固有のマルチモーダルデータ統合,臨床的に妥当なモデル構築が有効である。

    Link: https://arxiv.org/abs/2602.19502

  • 炭素認識型ガバナンスゲート:持続可能なGenAI開発のためのアーキテクチャ [cs.SE, cs.AI]目的:GenAI開発における炭素排出量削減と持続可能性向上
    • GenAIの急速な普及は計算需要を増加させ,ソフトウェア開発の環境負荷が課題となっている。
    • 既存のガバナンス機構は計算負荷を増大させ,GenAI開発の炭素排出量を増加させる可能性がある。
    • 本研究は,GenAI開発における炭素排出量を抑制し,持続可能性を担保するためのアーキテクチャを提案する。
    • 炭素認識型ガバナンスゲート(CAGG)は,炭素予算,エネルギーの来歴,持続可能性を考慮した検証オーケストレーションをガバナンス層に組み込む。
    • CAGGは,エネルギー・炭素来歴台帳,炭素予算管理,グリーン検証オーケストレーターの3つの要素で構成される。
    • ガバナンスポリシーと再利用可能なデザインパターンを通じて,CAGGは実用的な運用を可能にする。

    Link: https://arxiv.org/abs/2602.19718

  • SAR運用におけるUAV-人物間距離推定と追従のためのEKFベースの深度カメラと深層学習の融合 [cs.RO, cs.AI]目的:UAVと人物間の距離推定と追従の精度向上
    • SAR(捜索救助)活動において,UAVは人命救助の効率化に貢献する重要な技術である。
    • 屋外環境下では,光量や視界の悪さにより,カメラからの距離推定が困難となる場合がある。
    • 深度カメラと深層学習を融合することで,距離推定の精度を向上させ,安全な追従を実現することを目指す。
    • 提案手法は,深度カメラと単眼カメラの情報をEKFで融合することで,距離推定の誤差を最大15.3%削減することに成功した。
    • EKFによる融合により,深度カメラの有効範囲外における検出範囲が拡大し,精度が向上した。
    • 反射や視界不良といった困難な状況下でも,ロバスト性と精度の向上が確認された。

    Link: https://arxiv.org/abs/2602.20958

  • MobilityBench:現実世界の移動シナリオにおける経路計画エージェントの評価ベンチマーク [cs.AI]目的:現実世界の移動シナリオにおけるLLMベースの経路計画エージェントの評価
    • 日常生活を支援する経路計画の重要性が増しており,LLMの活用が期待されている。
    • 多様な経路要求やマッピングサービスの非決定性,再現性の低さなどが評価の課題となっている。
    • 現実世界の移動シナリオにおけるLLMベース経路計画エージェントの客観的な評価を可能にすること。
    • MobilityBenchは,大規模な匿名化されたAmapのユーザークエリに基づいて構築された経路計画ベンチマークである。
    • 決定的なAPIリプレイサンドボックスにより,環境変動を排除し,再現可能な評価を実現している。
    • 現在のモデルは基本的な情報検索や経路計画にはある程度対応できるものの,制約付き経路計画には課題が残ることが示された。

    Link: https://arxiv.org/abs/2602.22638

  • グローバル気象モデルのスケーリング則 [cs.LG]目的:グローバル気象モデルにおけるスケーリング則の分析
    • 気象予報の精度向上は,社会経済活動や人々の安全に不可欠である。
    • データ駆動型モデルの訓練には,計算資源の制約がある。
    • モデル性能を最大化するための,モデルサイズとデータ量の最適なバランスの解明。
    • Auroraは,データ量の増加に対して最も良好なスケーリングを示すことが判明した。
    • GraphCastはパラメータ効率が高いが,ハードウェアの利用効率が低いという課題がある。
    • 固定された計算予算の下では,モデルサイズよりもデータ量の方を増やすことが性能向上に繋がる。

    Link: https://arxiv.org/abs/2602.22962

  • 分布シフト下における因果POMDPを用いた計画 [cs.AI]目的:分布シフト下での計画問題
    • 現実世界の計画立案において,環境の変化は重要な課題である。
    • 環境分布の変化により,既存の戦略が機能しなくなる場合がある。
    • 因果的知識に基づき,変化下でも計画可能なフレームワークを提案する。
    • 環境の変化を因果POMDPにおける介入として捉えることで,計画評価と環境変化の特定が可能となる。
    • 潜在状態と基盤ドメインに対する信念を維持・更新する方法が示され,値関数が拡張された信念空間で区分線形かつ凸性を保つことが証明された。
    • 区分線形凸性の維持により,αベクトルに基づくPOMDP計画法の適用可能性が保たれる。

    Link: https://arxiv.org/abs/2602.23545

  • 並列化可能なシーケンスモデルにおける深さの重要性:リー代数的な視点 [cs.LG]目的:シーケンスモデルの深さと表現力の関係
    • 近年の大規模言語モデル開発において,計算効率と表現力の両立が重要課題となっている。
    • 並列化可能なモデルは計算効率に優れる一方,表現力に制限がある場合がある。
    • モデルの深さを増すことで表現力が向上し,誤差が減少することを示す。
    • 本研究では,シーケンスモデルの深さとリー代数の拡張の間に対応関係があることを理論的に示した。
    • 定数深さのシーケンスモデルの表現力の上限を特徴付け,誤差が深さの増加に伴い指数関数的に減少することを証明した。
    • 記号的な単語問題と連続値の状態追跡問題における実験により,理論的予測が検証された。

    Link: https://arxiv.org/abs/2603.05573

  • 強化学習における接続性がラプラシアン表現に与える影響 [cs.CL, cs.CL, cs.LG, stat.ML]目的:マルコフ決定過程におけるコンパクトな状態表現の学習
    • 大規模強化学習問題において,次元の呪いを克服するため,効率的な状態表現が重要である。
    • 状態グラフが未知であったり,状態空間が広大である場合,グラフスペクトル特徴量の推定が困難である。
    • 状態グラフの代数接続性を考慮し,学習されたスペクトル特徴量による線形価値関数近似の誤差を評価する。
    • 線形価値関数近似の近似誤差の上限が,状態グラフの代数接続性によって決定されることが示された。
    • 固有ベクトルの推定誤差も考慮した結果,表現学習パイプライン全体の誤差分解が可能となった。
    • 提案手法は,一般的な(非一様)方策に対して,遷移核の対称性に関する仮定なしに適用可能である。

    Link: https://arxiv.org/abs/2603.08558

  • コンパイラ優先状態空間双対性とポータブルな$O(1)$自己回帰キャッシュによる推論 [cs.LG, cs.AI, cs.DC, cs.PF]目的:Mamba-2推論の高性能化と移植性向上
    • 大規模言語モデルの推論速度は,実用的な応用において極めて重要である。
    • 高性能なMamba-2推論は,特定のハードウェアに依存した実装に制限されている。
    • 標準的なコンパイラで最適化可能な実装を提供し,ハードウェアへの依存を低減すること。
    • 状態空間双対性(SSD)の再帰構造がコンパイラに適合することを示し,標準JAXプリミティブを用いた単一ソース推論パスを確立した。
    • Google Cloud TPU v6e上でのバッチサイズ1の事前計算において,約140 TFLOPSを達成し,ハードウェア性能上限に近づいた。
    • キャッシュを用いたデコードは,NVIDIA L40Sを含む様々なハードウェアで高速化され,WikiText-103の評価においても高い精度を維持した。

    Link: https://arxiv.org/abs/2603.09555

  • 質問は本当に重要か? Vision-Language SFTのためのトレーニング不要なデータ選択 [cs.AI]目的:Vision-Languageモデルの性能向上に貢献する高品質なデータセットの選定
    • Vision-Languageモデルは画像と言語を理解するAIであり,その性能向上が求められている。
    • 既存のデータ選択手法は,計算コストがかかるか,真の貢献度を見極められない問題があった。
    • 画像と質問を組み合わせることで,モデルの判断に変化をもたらす高品質なデータを選定する。
    • CVSは,Vision-Flanにおいて,全データでの学習を上回る性能を,データ量の10%~15%で達成した。
    • CVSは,多様なデータセットであるThe Cauldronにおいても,安定した性能を示した。
    • CVSは,既存手法COINCIDEやXMASと比較して,計算コストを大幅に削減することができた。

    Link: https://arxiv.org/abs/2603.09715

  • 潜在色空間:高次元カオスの創発的秩序 [cs.LG, cs.AI, cs.CV]目的:画像生成における色の表現構造の解明
    • 画像生成技術の発展に伴い,生成画像の制御が重要な課題となっている。
    • 意味情報がどのように符号化されているかの理解が不十分であり,細かな制御が困難である。
    • 潜在空間における色の表現構造を明らかにし,色の制御を実現することを目指す。
    • FLUX.1の潜在空間において,色表現が色相,彩度,明度を反映した構造を持つことを確認した。
    • 潜在色空間(LCS)を用いて,色の予測と制御が可能であることを示した。
    • FLUXにおいて,学習を用いない閉形式の潜在空間操作のみによる色の制御を導入した。

    Link: https://arxiv.org/abs/2603.12261

  • ブール論理のための冪乗項多項式代数 [cs.LO, cs.AI, cs.SC]目的:ブール論理式の表現言語
    • ブール関数はデジタル回路や論理的推論の基礎であり,効率的な表現が重要である。
    • CNFとANF間の変換は指数関数的な増加を引き起こす場合があり,実用上の課題となっている。
    • CNFとANFの間のギャップを埋め,効率的な論理式の操作を可能にすることを目的とする。
    • 冪乗項多項式代数は,CNFとANFの間の構造的な不一致を表現レベルで直接的に解決する。
    • 本研究では,論理式を膨張することなく直接操作可能な記号計算を可能にする新しい中間表現を提案する。
    • このフレームワークは,節ベースと代数ベースの推論を橋渡しし,構造を意識したCNF-ANF変換の新たな方向性を示す。

    Link: https://arxiv.org/abs/2603.13854

  • 分散型二層強化学習におけるサンプル効率の良いハイパー勾配推定 [cs.LG, cs.AI, cs.GT, cs.MA]目的:分散型二層強化学習のためのハイパー勾配推定手法
    • 戦略的意思決定問題において,環境設計など二層RLの応用が重要である。
    • リーダーがフォロワーの最適化過程に介入できない状況下での課題が存在する。
    • リーダーの戦略に対する勾配を効率的に推定し,最適化を可能にすること。
    • ボルツマン共分散トリックを用いることで,高次元のリーダー決定空間でもサンプルから効率的にハイパー勾配を推定できる。
    • 分散型環境における2人ゼロサムマルコフゲームに対するハイパー勾配最適化を初めて可能にした。
    • 離散状態と連続状態の両方のタスクにおいて,ハイパー勾配更新の効果と手法の有効性が確認された。

    Link: https://arxiv.org/abs/2603.14867

  • 潜在的シフトと不完全なプロキシ下におけるロバストな予測子の点識別 [cs.LG]目的:潜在的シフト下でのロバストな予測子の点識別
    • ドメイン適応は,潜在的な交絡因子が共変量と結果の両方に影響を与える場合に,より困難となる。
    • 既存のプロキシベース手法は,一意に予測子を点識別するために,十分な情報を持つプロキシを必要とする。
    • 不完全なプロキシ下での予測子の点識別を可能とする新たな条件を提示する。
    • 潜在的等価クラス(LECs)を導入し,ドメイン間の混合比の順位条件によって点識別が可能となる。
    • 提案手法PQALは,必要なドメインを効率的に選択し,シフトに対するロバスト性を実現する。
    • 合成データおよび半合成データセット(dSprites, IHDP, ACS Folktables)で既存手法を上回る性能を示す。

    Link: https://arxiv.org/abs/2603.15158

  • FinTradeBench:LLMのための金融推論ベンチマーク [cs.CE, cs.AI, cs.CL, cs.IR, q-fin.CP]目的:LLMの金融推論能力の評価
    • 金融市場は複雑であり,高度な分析と判断が求められる。
    • 既存のベンチマークは財務諸表に偏っており,市場取引やファンダメンタルズとの関連性が評価されていない。
    • ファンダメンタルズと取引シグナルを統合した金融推論ベンチマークの構築。
    • FinTradeBenchはNASDAQ-100企業の10年間のデータに基づき,1400の質問で構成される。
    • 検索機能はテキストベースのファンダメンタルズの推論を向上させるが,取引シグナルには効果が限定的であった。
    • 現在のLLMは数値・時系列データの推論に課題があり,金融インテリジェンス研究の推進が求められる。

    Link: https://arxiv.org/abs/2603.19225

  • 内省的認識のメカニズム [cs.LG]目的:大規模言語モデルにおける内省的認識のメカニズム
    • LLMの安全性確保は重要であり,モデルの内部動作理解が不可欠である。
    • LLMへの意図しない操作(steering vector注入)の検出が困難である。
    • steering vector注入の検出メカニズムを解明し,モデルの安全性を高める。
    • LLMは,steering vectorの注入を検出し,注入された概念を識別する能力を持つことが確認された。
    • この能力は,強化学習による調整によって顕在化し,通常の教師あり学習では得られない。
    • 注入検出は,初期層における特徴量の変化と,その後のゲート機能の抑制に基づいている。

    Link: https://arxiv.org/abs/2603.21396

  • 地域人の移動計測のためのマルチモーダルセンサー融合装置:分散型ヒューマンデータエンジン (DHDE) [cs.CY, cs.LG]目的:地域経済における人の移動の正確な推定
    • 地域経済の活性化には,人流の正確な把握が不可欠である。
    • 地方ではセンサーが少なく,行動意図のデータも多様で偏りやすい。
    • 環境要因によるバイアスを補正し,より正確な人流推定を実現する。
    • DHDEは,カメラ,検索指標,購買データ,気象データなどを統合する。
    • R2=0.810(サンプル内),R2=0.683(サンプル外)という高い説明力と予測性能を示した。
    • 訪問者の満足度は混雑度と正の相関がある「アンダー・バイブランスのパラドックス」が示された。

    Link: https://arxiv.org/abs/2603.21639

  • ProGRank:コーパス汚染に対する密な検索RAGの防御のためのプローブ勾配再ランキング [cs.AI]目的:コーパス汚染に対する密な検索RAGシステムの堅牢性向上
    • 大規模言語モデルの性能は,検索された証拠に基づいているため,その信頼性が重要である。
    • RAGシステムは,悪意のある文章の注入によるコーパス汚染攻撃に脆弱である。
    • ProGRankは,追加の学習や複雑なモデルを必要とせずに,この脆弱性を軽減することを目指す。
    • ProGRankは,クエリと文章ペアに軽微な摂動を加え,プローブ勾配から不安定性を示す信号を抽出する。
    • 抽出された信号を用いて,再ランキングを行うことで,攻撃に対する堅牢性を高める。
    • 実験により,ProGRankが,堅牢性と有用性のバランスを維持し,適応的な攻撃に対しても有効であることが示された。

    Link: https://arxiv.org/abs/2603.22934

  • ニューラル・セル・オートマタの吸引力景観の可視化 [cs.NE, cs.ET]目的:ニューラル・セル・オートマタの振る舞いの理解と解釈
    • 人工生命の分野でNCAの応用が増加しており,その挙動理解が不可欠である。
    • NCAは解釈可能性に乏しく,学習内容の理解が困難である。
    • NCAの学習内容を理解するための手法開発を試みる。
    • マクロレベルでの分析では,NCAの基盤となる多様体が比較的単純であり,解析可能である。
    • ミクロレベルでの分析では,多様体が複雑化し,より高度な解析手法が必要となる。
    • 多様体学習とトポロジーデータ解析により,NCAの振る舞いをある程度解釈できることが示された。

    Link: https://arxiv.org/abs/2604.10639

  • 強化学習ロボットエージェントのためのビジョン・言語・行動ジャンプスタート [cs.LG, cs.AI, cs.RO]目的:強化学習ロボットにおける探索効率と報酬の適切な割り当ての改善
    • ロボット制御は自動化において重要だが,長期的かつ複雑なタスクの達成は困難である。
    • 従来の強化学習では,スパースな報酬設定下での効率的な探索が課題となっていた。
    • ビジョン・言語・行動モデルの知識を活用し,初期探索を促進し,学習効率を向上させる。
    • 提案手法VLAJSは,VLAモデルからの高レベルな行動提案を初期探索に活用することで,サンプル効率を向上させる。
    • シミュレーション実験では,VLAJSがPPOや蒸留ベースラインと比較して,環境とのインタラクション回数を50%以上削減した。
    • 実機実験では,ゼロショットでのシミュレーションから現実世界への転移と,クラッタや摂動に対するロバスト性を示す。

    Link: https://arxiv.org/abs/2604.13733

  • ClawEnvKit:爪様ロボットエージェントのための自動環境生成 [cs.AI, cs.CL]目的:爪様ロボットエージェントの訓練と評価のための環境の自動生成
    • ロボット工学において,現実世界での応用には多様な環境での学習が不可欠である。
    • 従来の環境構築は手作業であり,規模の拡大や多様性の確保が困難であった。
    • 自然言語による指示から自動的に検証可能な環境を生成し,評価を効率化すること。
    • ClawEnvKitにより,1,040個の環境を含む大規模ベンチマークAuto-ClawEvalを構築した。
    • Auto-ClawEvalは,人間が作成した環境と同等の品質でありながら,コストを大幅に削減した。
    • 環境生成の自動化により,従来は不可能であった規模での評価が可能となった。

    Link: https://arxiv.org/abs/2604.18543

  • 多腕ロボット操作のためのマルチエージェントによる文脈内学習 [cs.RO, cs.AI, cs.MA]目的:二腕ロボット操作の実現
    • ロボットの知能化は,製造業やサービス業における自動化を促進し,生産性向上に不可欠である。
    • 二腕ロボット操作は,複雑な協調が必要であり,従来の制御手法では困難な場合が多い。
    • 大規模言語モデルを活用し,学習なしで二腕ロボットの操作を可能にすることを目指す。
    • BiCICLeは,大規模言語モデルを用いて少ないサンプル数で二腕ロボット操作を実現する初のフレームワークである。
    • TWINベンチマークの13のタスクにおいて,70.5%の平均成功率を達成し,既存の学習不要な手法を上回った。
    • 実環境での3つのタスクにおいても,ハードウェア固有の再学習なしに優れた性能を示した。

    Link: https://arxiv.org/abs/2604.20348

  • 言語モデルの出力分布におけるテールリスクの推定 [cs.DB, cs.LG, cs.AI]目的:言語モデル出力の有害な事象発生確率の推定手法
    • 言語モデルの利用拡大に伴い,その安全性評価が重要性を増している。
    • 既存の安全性評価は入力分布に焦点を当て,出力の確率的性質を無視している。
    • 稀に発生する有害な出力を効率的に推定し,安全性評価を向上させる。
    • 提案手法は,ターゲットモデルの危険なバージョンを用いて重要度サンプリングを適用することで,効率的な推定を実現する。
    • 評価実験では,提案手法がブルートフォースモンテカルロ法と同等の精度を,大幅に少ないサンプル数で達成した。
    • 有害性推定は,モデル入力のわずかな変化に対する感度を明らかにし,展開リスクを予測できることが示された。

    Link: https://arxiv.org/abs/2604.22167

  • 6G時代におけるあらゆるもののインターネット:パラダイム,実現技術,可能性と将来展望 [cs.ET, cs.AI, cs.DC, cs.NI]目的:あらゆるもののインターネットの概念,構成要素,アーキテクチャ,実現技術,および主要な研究課題の構造化された概要
    • 社会の高度化に伴い,人,データ,プロセス,モノを統合した高度な自動化・意思決定が求められている
    • IoTの発展に伴い,拡張性,セキュリティ,プライバシー,省エネルギー性などの課題が顕在化している
    • 6G技術を活用し,これらの課題を克服することで,より高度なインテリジェントなIoEシステムの実現を目指す
    • 本研究では,スマートシティ,ヘルスケア,産業,次世代無線ネットワークなど,様々な応用分野におけるIoEの可能性を提示する
    • IoEの実現には,スケーラビリティ,セキュリティ,プライバシー,エネルギー効率といった技術的課題の克服が不可欠である
    • 6G技術が,これらの課題を解決し,よりインテリジェントで効率的なIoEシステムを構築するための鍵となると示唆する

    Link: https://arxiv.org/abs/2604.25018

  • 連続性超えて:単一細胞スナップショットからの離散的分岐ダイナミクスのシミュレーションフリー再構成 [cs.RO, cs.LG, cs.AI, math-ph, math.MP, q-bio.GN, q-bio.QM]目的:単一細胞スナップショットからの離散的分岐ダイナミクスの再構成
    • 細胞の挙動理解には,細胞系列の追跡が不可欠である。その実現には,データ解析技術の進展が求められる。
    • 従来の解析手法は,細胞分裂や細胞死といった離散的な変化を捉えきれず,正確な細胞系列の復元が困難であった。
    • 本研究は,シミュレーションを必要とせず,離散的な細胞の生滅動態を正確に捉える手法を開発し,細胞系列の解析を可能とする。
    • Unbalanced Schr\"odinger Bridge (USB)は,シミュレーションなしで,確率的および不均衡な効果を統合し,単一細胞レベルでの離散的な生滅動態をモデル化する。
    • 理論的には,USBはBranching Schr\"odinger Bridge (BSB)問題に対して解析的な解を提供し,細胞のブラウン運動と離散的な生滅ジャンプを厳密に解釈する。
    • 実験的には,USBは,決定論的なベースラインよりも優れた軌跡再構成性能を示し,単一細胞レベルでの現実的な生滅動態のシミュレーションを可能にする。

    Link: https://arxiv.org/abs/2605.00545