arXiv雑要約

AI - 2026/03/17 公開

  • AlphaEarthを超えて:POIガイド付き対照学習による人間中心の地理空間基盤モデルへ [cs.AI, cs.CY, cs.LG]目的:人間中心の地理空間基盤モデルの構築
    • 地理空間情報処理は,都市計画や環境分析など,社会の様々な分野で不可欠である。
    • 既存の地理空間基盤モデルは物理的・スペクトル的特徴に偏重し,人間活動や都市セマンティクスの表現が不足している。
    • POI情報を用いて,地理空間モデルに人間活動や都市セマンティクスを統合し,解釈性と検索性を向上させる。
    • AETHERは,AlphaEarthとPOI情報をマルチモーダルに整合させることで,都市の機能的セマンティクスを地理空間表現に組み込むことに成功した。
    • 実験の結果,AETHERはGreater LondonとSingaporeにおいて,4.5%から21.9%の相対的な性能向上を示し,最先端の性能を達成した。
    • 自然言語によるクエリを用いて,空間情報の検索が可能となり,地理空間表現の解釈性が向上した。

    Link: https://arxiv.org/abs/2510.09894

  • ニューラルネットワークにおける知識蒸留の機能的視点 [cs.LG, cs.AI]目的:知識蒸留の圧縮能力と機能的影響の定量化
    • ニューラルネットワークの効率化は,計算資源の制約下で高性能を維持するために重要である。
    • 知識蒸留の機能的影響が十分に理解されておらず,単なる圧縮機構として扱われがちである。
    • 知識蒸留における知識伝達メカニズムを明確にし,安全性への懸念を評価すること。
    • 知識蒸留による知識伝達は,一部のモダリティとアーキテクチャで統計的に確認された。
    • しかし,その程度は期待よりも小さく,知識共有を最大化する条件下でも同様であった。
    • 特に機能的伝達が顕著な場合,学生モデルへの負の知識の非対称的な伝達が確認され,安全性への懸念が示唆された。

    Link: https://arxiv.org/abs/2510.12615

  • 大規模言語モデルの調整のための価値ある選好データの理解に向けて [cs.IR, eess.SY, cs.SY, cs.LG]目的:大規模言語モデルの調整における価値ある選好データの特定
    • 大規模言語モデルの性能は,人間の選好データに大きく依存する。
    • 既存手法では,選好データの品質評価が不十分であり,個々のデータポイントの有用性が不明。
    • モデル固有の選好データ品質評価指標を開発し,データ選択の精度向上を目指す。
    • 提案手法であるTruncated Influence Function (TIF) により,選好データの品質がモデルに依存することが示された。
    • TIFよりも計算コストが低い,モデル依存のScoring Functions (SFs) を提案し,TIFとの相関が確認された。
    • SFsを組み合わせたデータ選択ルールが,少ないデータでより良い調整性能を達成することを示した。

    Link: https://arxiv.org/abs/2510.13212

  • 拡散OPF:最適潮流計算のための拡散ソルバー [cs.CL, eess.SY, cs.AI, cs.SY, stat.CO, stat.ML]目的:最適潮流計算における解の分布の学習
    • 電力系統の安定運用には,正確かつ迅速な潮流計算が不可欠である。
    • 既存の深層学習ソルバーは単一解しか出力できず,系統パラメータ変動に対応できない。
    • 系統パラメータ変動を考慮した,信頼性の高い潮流計算解の提供を目指す。
    • 提案手法DiffOPFは,最適潮流計算を条件付きサンプリング問題として捉える。
    • 負荷と派遣設定点の共同分布を学習することで,統計的に妥当な初期値を生成する。
    • ベンチマークテストにより,最適化ソルバーとの誤差範囲内で解が得られることが確認された。

    Link: https://arxiv.org/abs/2510.14075

  • 連続日内取引における太陽光発電の特性に基づく強化学習 [cs.LG, econ.GN, q-fin.EC]目的:太陽光発電の日内取引における強化学習フレームワークの提案
    • 電力市場の自由化が進み,再生可能エネルギーの変動性を考慮した最適な取引戦略が求められている。
    • 日内取引における予測不確実性,価格変動,流動性,太陽光発電特有のコスト構造への対応が課題である。
    • 強化学習による取引戦略を改善し,太陽光発電事業者のインバランス決済コスト削減を目指す。
    • 提案手法は,取引しない場合のベースラインと比較して報酬を修正することで,強化学習が非アクティブな方策に傾倒するのを防ぐ。
    • 2021年から2024年までの北欧市場における厳密なウォークフォワード評価で,スポット取引のみのベースラインと比較して,統計的に有意な利益改善が確認された。
    • 異なる入札エリアをまとめたポートフォリオ実験や転移学習の結果から,市場構造の特性と新しいエリアへの展開可能性が示唆された。

    Link: https://arxiv.org/abs/2510.16021

  • 非線形波動系における準平衡伝播学習 [cs.LG, cond-mat.quant-gas, math-ph, math.MP, physics.optics, quant-ph]目的:非線形波動系における学習方法の開発
    • 現代AIの根幹技術であり,物理ニューラルネットワークへの応用が期待される。
    • 物理ニューラルネットワークへのバックプロパゲーションの適用は困難である。
    • 弱損失領域でのEP学習を可能にし,幅広い物理系への応用を目指す。
    • 提案手法は,離散的および連続的な複素数値波動系で有効であることが確認された。
    • 駆動力と損失を含むエキシトン・ポラリトン凝縮系における数値シミュレーションで,安定した収束が示された。
    • 論理タスクや手書き文字認識などの標準的なベンチマークで,実用的な学習経路が確立された。

    Link: https://arxiv.org/abs/2510.16084

  • SAKE:大規模オーディオ言語モデルの聴覚属性知識編集に向けて [cs.SD, cs.AI, cs.CL, eess.AS]目的:大規模オーディオ言語モデルにおける聴覚属性知識の編集
    • 音声処理と自然言語処理の融合が重要であり,多様な応用への道を開く。
    • 既存の研究では,抽象的な聴覚的知覚知識の編集が未だ十分に検討されていない。
    • 聴覚属性知識の編集能力向上を目指し,新たな評価基盤と手法を提案する。
    • SAKEは,大規模オーディオ言語モデルの聴覚属性知識編集のための初のベンチマークである。
    • 既存の編集手法は,信頼性は高いものの,聴覚の一般化,属性内局所性,マルチモーダル知識伝播に課題があることが示された。
    • モダリティコネクタのファインチューニングが,LLM本体を直接編集するよりも堅牢でバランスの取れたベースラインとなることが明らかになった。

    Link: https://arxiv.org/abs/2510.16917

  • CARE:イベント駆動型センサーデータからの日常生活活動認識のためのコントラスト的アラインメント [cs.CV, cs.AI]目的:イベント駆動型環境センサーデータからの日常生活活動(ADL)認識
    • 高齢者や障がい者の自立支援のため,生活環境における活動認識は重要である。
    • 既存手法は,表現レベルの制約により,センサーデータの時間的・空間的な情報を十分に活用できていない。
    • シーケンスデータと画像データの相補的な強みを活かし,よりロバストな活動認識を実現すること。
    • 本研究で提案するCAREは,シーケンスと画像間のコントラスト的アラインメントにより,表現学習と分類を同時に最適化する。
    • 複数のCASASデータセットにおいて,最先端の性能(ミラノ:89.8%,カイロ:88.9%,京都7:73.3%)を達成した。
    • センサーの故障やレイアウトの変動に対するロバスト性も示され,スマートホームにおける信頼性の高い活動認識への応用が期待される。

    Link: https://arxiv.org/abs/2510.16988

  • Justitia: タスク並列LLMエージェントの公平かつ効率的なスケジューリングと選択的優先度付与 [cs.LG, cs.AI, cs.DC]目的:タスク並列LLMエージェントのスケジューリング
    • LLMエージェント活用は現実世界の課題解決に不可欠。GPUリソースの効率的な利用が重要。
    • 従来のスケジューラでは,公平性と効率性の両立が難しく,性能劣化や遅延が発生しやすい。
    • 公平性を保ちつつ,LLMエージェントの処理効率を向上させるスケジューラを開発する。
    • Justitiaは,メモリ使用量を重視したコスト計測と予測により,効率的なスケジューリングを実現した。
    • 仮想時間に基づく公平キューイングアルゴリズムにより,全体的な性能向上と最悪の場合の遅延保証を両立した。
    • vLLM上に実装した実験により,Justitiaが公平性を維持しつつ,スケジューリング効率を大幅に向上させることが示された。

    Link: https://arxiv.org/abs/2510.17015

  • AWARE:編集に対する耐性を持つ音声ウォーターマーキング [cs.SD, cs.LG, cs.MM, eess.AS]目的:編集に対する耐性を持つ音声ウォーターマーキング手法
    • デジタルコンテンツ保護の重要性が高まり,音声データの改ざん防止技術が求められている。
    • 従来の学習ベースの手法は,シミュレーションされた歪みに過剰適合し,未知の攻撃に弱いという課題がある。
    • 攻撃シミュレーションに頼らず,敵対的最適化により編集に強いウォーターマークを生成することを目指す。
    • AWAREは,時間周波数領域での敵対的最適化と,ビットごとの証拠を集約するBitwise Readout Head(BRH)を用いる。
    • 様々な音声編集に対して高い音声品質と高い復号精度を達成し,既存の最先端手法を上回る性能を示した。
    • 時間的なずれやカットに対しても安定したウォーターマーク検出が可能である。

    Link: https://arxiv.org/abs/2510.17512

  • RESCUE:検索拡張セキュアコード生成 [cs.RO, cs.CR, cs.LG, cs.SE]目的:セキュアコード生成のための検索拡張生成フレームワーク
    • 近年のLLMの発展にもかかわらず,脆弱なコード生成が課題。セキュリティ知識の組み込みが重要。
    • 従来のRAGはセキュリティ関連文書のノイズに弱く,タスク記述のセキュリティ意味を見落とす。
    • セキュリティ関連文書のノイズ軽減とタスク記述のセキュリティ意味の活用により,セキュアコード生成を改善する。
    • RESCUEは,LLM支援クラスタリングとプログラムスライシングを組み合わせたハイブリッド知識ベースを構築する。
    • 階層型多面的検索により,知識ベースを段階的に探索し,複数のセキュリティ情報を統合する。
    • 4つのベンチマークで評価した結果,SecurePass@1指標を平均4.8ポイント向上させ,新たな最先端性能を達成した。

    Link: https://arxiv.org/abs/2510.18204

  • StreamingTOM:効率的な動画理解のためのストリーミングトークン圧縮 [cs.CV, cs.AI]目的:ストリーミング動画における効率的なトークン圧縮手法
    • 動画理解は,自動運転や監視システムなど,幅広い応用分野で重要性が増している。
    • ストリーミング動画処理では,逐次処理制約とトークン数増加による効率低下が課題となる。
    • 動画内の冗長性を削減し,メモリ使用量を抑制することでリアルタイム処理を実現する。
    • 提案手法StreamingTOMは,事前LLMと事後LLM両方のボトルネックに対処する,学習不要なプラグアンドプレイ型フレームワークである。
    • Causal Temporal Reductionにより,フレームごとのトークン数を削減し,Online Quantized Memoryによりkv-cacheを4ビットで保存することで,メモリ使用量を大幅に削減した。
    • 実験結果から,StreamingTOMはkv-cache圧縮率が15.7倍,ピークメモリ使用量が1.2倍削減,TTFTが2倍高速化されることが示された。

    Link: https://arxiv.org/abs/2510.18269

  • HAMLOCK:ハードウェアモデル論理結合攻撃 [cs.CR, cs.LG]目的:深層ニューラルネットワークに対する新たなセキュリティ脆弱性の検証
    • 深層学習の普及に伴い,FPGAやASIC等のハードウェアアクセラレータの利用が増加している。
    • 従来のモデルレベルのバックドア攻撃は,モデル内に攻撃ロジックが集中し,検知されやすい。
    • ハードウェアとソフトウェアの境界を越えた,より隠蔽性の高い攻撃手法を提案し,その有効性を検証する。
    • HAMLOCKは,ハードウェアとソフトウェアに攻撃ロジックを分散させることで,従来のモデルレベル攻撃よりも高いステルス性を実現する。
    • MNIST,CIFAR10,GTSRB,ImageNet等のベンチマークにおいて,ほぼ完璧な攻撃成功率と無視できる程度の精度低下を達成した。
    • 最先端のモデルレベル防御策を回避可能であり,ハードウェアトロイアンのオーバーヘッドも微小である。

    Link: https://arxiv.org/abs/2510.19145

  • GlobalRAG:強化学習によるマルチホップ質問応答におけるグローバルな推論能力の向上 [cs.CE, cs.CL, cs.AI]目的:マルチホップ質問応答におけるグローバルな推論能力の向上
    • 質問応答システムは,情報検索と自然言語処理の重要な応用分野であり,高度な推論能力が求められる。
    • 既存の検索拡張生成(RAG)モデルは,複雑なマルチホップ質問に対してグローバルな計画と忠実な実行が課題となっていた。
    • GlobalRAGは,強化学習を用いて,マルチホップ質問応答における計画立案と証拠の反復的な洗練を通じて問題を解決する。
    • GlobalRAGは質問をサブゴールに分解し,推論と検索を連携させ,証拠を反復的に洗練させる強化学習フレームワークである。
    • 計画品質報酬とサブゴール完了報酬を導入することで,一貫性のある計画立案と信頼性の高いサブゴール実行を促す。
    • 実験の結果,GlobalRAGは強力なベースラインと比較して大幅な性能向上を示し,少ない学習データでも高い精度を達成した。

    Link: https://arxiv.org/abs/2510.20548

  • ロボティクスと制御システムにおける強化学習:分類と動向に関する構造化レビュー [cs.RO, cs.LG]目的:ロボティクスと制御システムにおける強化学習の分類と動向
    • ロボティクス分野において,自律的な動作を実現するための基盤技術として重要性が高まっている。
    • 複雑な環境下での制御や学習において,従来の制御手法では限界がある。
    • 強化学習の理論的進歩と実用的な実装を結びつけ,その役割を明確にすること。
    • 本研究は,マルコフ決定過程(MDP)の形式化から強化学習の基本要素を解説し,アクター・クリティック法などの主要なアルゴリズムを概観する。
    • DDPG,TD3,PPO,SACなどの最新の深層強化学習(DRL)技術に焦点を当て,高次元の連続制御タスクへの応用可能性を示す。
    • ロボティクスの様々な分野における強化学習の応用例を分類し,訓練方法論や実用化レベルを体系的に整理する。

    Link: https://arxiv.org/abs/2510.21758

  • Bid2X:基礎モデルの視点からオンライン広告の入札環境の動態を明らかにする [cs.AI]目的:オンライン広告における入札環境の動態解明
    • オンライン広告は現代のマーケティングにおいて不可欠であり,その効率化が求められている。
    • 従来の入札モデルは特定のシナリオに特化しており,汎用性に課題があった。
    • 多様な入札シナリオに対応可能な,汎用的な基礎モデルの構築を目指す。
    • Bid2Xは,様々な入札シナリオから根本的な関数を学習することで,入札環境のシナリオ独立な原理を捉える。
    • オフライン評価の結果,Bid2Xは既存のモデルと比較して優れた性能と汎用性を示した。
    • オンラインA/Bテストにおいて,Bid2XはGMVを4.65%,ROIを2.44%向上させた。

    Link: https://arxiv.org/abs/2510.23410

  • ターゲットへの視線:一人称視点ビデオにおける視線認識型物体検出 [cs.DB, cs.RO, eess.SY, cs.SY, eess.SP, cs.CL, cs.CV, cs.AI]目的:一人称視点ビデオにおける視線認識型物体検出手法
    • 視線は人間の注意を理解するための重要な手がかりであり,複雑な環境認識に不可欠である。
    • 従来の物体検出器は全ての領域を均等に扱うため,人間の注目領域を優先的に検出できない。
    • 人間の視線情報を活用し,物体検出の精度向上と注意メカニズムの解釈を目指す。
    • 提案手法「Eyes on Target」は,視線情報をVision Transformerに組み込み,注意メカニズムを人間の注目領域に偏らせる。
    • シミュレーターデータセットおよび公開データセット(Ego4D,Ego-CH-Gaze)での実験により,既存手法を上回る検出精度が確認された。
    • 視線情報を考慮したAttention headの重要度指標を導入し,Transformerの注意ダイナミクスへの影響を可視化した。

    Link: https://arxiv.org/abs/2511.01237

  • SemBench:セマンティッククエリ処理エンジンのためのベンチマーク [eess.SY, cs.SY, cs.DB, cs.LG]目的:セマンティッククエリ処理エンジンの性能評価
    • 近年,大規模言語モデルの発展により,自然言語によるデータ操作が注目されている。
    • 既存のクエリ処理エンジンでは,マルチモーダルデータの高度なセマンティックな操作が困難である。
    • 本研究は,セマンティッククエリ処理エンジンの評価基準を確立し,その性能向上に貢献する。
    • SemBenchは,シナリオ,モダリティ,演算子の多様性に重点を置いたベンチマークである。
    • LOTUS,Palimpzest,ThalamusDB,Google BigQueryの4システムで評価を行い,各システムの強みと弱みを明らかにした。
    • 本研究は,セマンティッククエリ処理エンジンの今後の研究方向性を示す上で重要な知見を提供する。

    Link: https://arxiv.org/abs/2511.01716

  • 非対称的対話における根拠の誤解:MapTaskのための視点主義的注釈スキーム [cs.CL, cs.AI]目的:非対称的対話における根拠の誤解の注釈データセット
    • 共同対話では共通基盤の構築が重要だが,非対称な状況下では認識のずれが生じやすい。
    • 参照表現の解釈が話し手と聞き手で異なり,表面的な合意に隠れた誤解が存在しうる。
    • 対話における理解の成立,乖離,修復を追跡し,誤解のメカニズムを明らかにすること。
    • 注釈スキームを用いたLLMパイプラインにより,13,000件の参照表現に注釈を付与し,信頼性を評価した。
    • 語彙的なバリエーションが解消されれば完全な誤解は稀だが,多義性が認識の乖離を引き起こすことが示された。
    • 本研究は,根拠に基づく誤解の分析と,LLMの視点依存型根拠付け能力評価のための資源と分析枠組みを提供する。

    Link: https://arxiv.org/abs/2511.03718

  • VLAD-Grasp:Vision-Languageモデルによるゼロショット把持検出 [cs.RO, cs.RO, cs.AI, cs.LG]目的:ロボット把持のゼロショット検出手法
    • ロボットの自律操作において,把持は不可欠な能力である。多様な把持解が存在し,その実現が求められている。
    • 既存手法は大規模な把持データセットに依存しており,データセットの網羅性が課題である。新規オブジェクトへの対応には再学習が必要となる。
    • 本研究は,把持データセットを用いずに,ゼロショットで把持検出を可能にすることを目的とする。
    • Vision-Languageモデルを活用し,仮想的なシリンダーとオブジェクトの交差を生成することで,把持軸を明示的に表現する。
    • 生成された画像を3D情報に変換し,観測されたオブジェクト点群とのアラインメントにより,実行可能な把持姿勢を復元する。
    • 既存手法と同等の性能をCornellおよびJacquardデータセットで実現し,実機ロボットでのゼロショット汎化能力を実証した。

    Link: https://arxiv.org/abs/2511.05791

  • 意図検出とアクティブラーニングに基づく修正のための半教師ありフレームワークIDALC [cs.CL, cs.AI]目的:意図検出とシステムで却下された発話の修正
    • 音声対話システムの普及に伴い,多様なユーザー要求に応じたタスク実行が求められている。
    • 既存システムでは,自信度の低い発話が却下され,手動アノテーションが必要となる場合がある。
    • アノテーションコストを削減し,新たな意図を効率的に学習すること。
    • 提案手法IDALCは,ベンチマークデータセットにおいて,ベースライン手法を上回る精度を達成した。
    • 精度は5-10%向上,マクロF1スコアは4-8%改善された。
    • アノテーションコストは,利用可能な未ラベルデータ全体のわずか6-10%に抑えられた。

    Link: https://arxiv.org/abs/2511.05921

  • GazeVLM:マルチタスク注視理解のためのビジョン言語モデル [cs.CV, cs.AI]目的:マルチタスク注視理解
    • 視線は人間の注意や意図を理解する上で重要であり,様々な応用が期待されている。
    • 既存研究では視線情報を活用しているものの,視覚情報と言語情報を統合した統一的なシステムは不足している。
    • 視覚情報と言語プロンプトを用いて,人物検出,注視対象検出,注視オブジェクト識別を統合的に解決する。
    • GazeVLMは,RGB画像とHHAエンコードされた深度マップをテキストプロンプトで誘導することで,優れた性能を発揮する。
    • 本研究で新たに提案したオブジェクトレベル注視検出指標($AP_{ob}$)を用いて評価を行った。
    • GazeFollowおよびVideoAttentionTargetデータセットにおいて,最先端の評価スコアを達成した。

    Link: https://arxiv.org/abs/2511.06348

  • 複数エージェントは数学問題解決を改善するが,敵対的ロバスト性の差は残る [cs.CL, cs.CL, cs.AI]目的:LLMエージェント間の協調による数学問題解答性能の向上と,敵対的入力に対するロバスト性の評価
    • LLMの能力向上は,複雑なタスク解決に不可欠であり,数学問題解決はその重要な応用分野である。
    • LLMは敵対的攻撃に対して脆弱であり,わずかな摂動によって性能が著しく低下することが知られている。
    • 複数エージェントによる協調が,数学問題解決の精度向上とロバスト性向上に貢献するかを検証する。
    • エージェント数を増やすことで,数学問題の解答精度は概ね向上するが,特に人間が作成したタイポの影響が大きく,精度低下のボトルネックとなる。
    • エージェント数が1から5に増えることで最も大きな改善が見られ,10を超えるあたりから効果は薄れる。
    • エージェント数を増やしても,敵対的入力に対するロバスト性の差は解消されず,依然として脆弱性が残る。

    Link: https://arxiv.org/abs/2511.07112

  • ニューラル・バリュー・イテレーション [eess.SY, cs.SY, cs.AI]目的:部分的に線形凸な値関数の表現
    • 不確実性下での意思決定問題を扱うため,ロボット工学や自動運転など幅広い分野で重要である。
    • 状態空間が大きくなると,従来のバリュー・イテレーション法では計算コストが指数関数的に増加する。
    • ニューラルネットワークを用いて値関数を近似し,大規模問題への適用を可能にすることを目的とする。
    • 提案手法は,従来のオフラインソルバーでは扱えない大規模なPOMDPにおいて,ほぼ最適な解を達成する。
    • 値関数をニューラルネットワークで表現することで,汎化能力を高め,計算コストを削減している。
    • 部分的に線形凸な性質を利用し,バリュー・イテレーションの枠組みとニューラルネットワークを組み合わせた。

    Link: https://arxiv.org/abs/2511.08825

  • ブーストされたGFlowNet:逐次学習による探索の改善 [cs.LG, stat.ML]目的:報酬に比例したサンプリングを行う生成フローネットワークの探索性能向上
    • 複雑なオブジェクトの生成において,効率的な探索は重要であり,高品質なサンプルの取得に不可欠である。
    • GFlowNetは探索が不均衡になりやすく,高報酬領域への到達が困難な場合がある。
    • 探索の偏りを修正し,高報酬領域のカバー率を高めることを目指す。
    • ブーストされたGFlowNetは,以前のモデルで捉えられた報酬を補償する残差報酬を最適化することで,探索の不均衡を軽減する。
    • 残差原理により,未探索領域での学習シグナルが再活性化され,学習分布の劣化を防ぐ。
    • 合成ベンチマークやペプチド設計タスクにおいて,探索とサンプル多様性が大幅に向上することが示された。

    Link: https://arxiv.org/abs/2511.09677

  • SHAPエントロピー正則化によるプライバシー保護型説明可能なAIoTアプリケーション [cs.CR, cs.AI, cs.IT, cs.LG, cs.NI, math.IT]目的:説明可能なAIoTアプリケーションにおけるプライバシー漏洩の軽減
    • スマートホーム環境でAIoTが普及し,透明性と解釈可能性が求められている。
    • 説明手法(SHAP, LIME等)が,意図せず機密情報を漏洩する可能性がある。
    • SHAPエントロピー正則化により,プライバシー保護と説明性を両立することを目指す。
    • 提案手法では,SHAP値の分布のエントロピーを正則化することで,プライバシー漏洩を抑制する。
    • 開発したプライバシー攻撃実験において,提案手法はベースラインモデルと比較して大幅に漏洩を低減した。
    • 高い予測精度と説明の忠実性を維持しつつ,プライバシー保護を実現する。

    Link: https://arxiv.org/abs/2511.09775

  • ビデオLLMにおける時間的エンコーディングの安定化のための訓練不要な安定化機構:PAS [cs.RO, cs.CV, cs.AI]目的:ビデオLLMにおける時間的一貫性の問題を解決するための機構
    • ビデオLLMは,映像理解において重要な役割を担うが,時間的な不安定性が課題となっている。
    • フレームタイミングのわずかなずれが注意機構を変化させ,重要なフレームを抑制する問題が存在する。
    • マルチモーダルRoPEに起因する時間カーネルの不安定性を緩和し,注意機構の安定化を図る。
    • 提案手法PASは,ヘッド間での位相オフセットと出力の集約により,時間カーネルを平滑化する。
    • PASは,位置エンコーディング構造を変更することなく,時間シフトに対する注意機構の安定性を高める。
    • 複数のビデオ理解ベンチマークにおいて,計算オーバーヘッドをほとんど発生させずに性能が向上した。

    Link: https://arxiv.org/abs/2511.10979

  • EcoAlign:効率的なLVLMアライメントのための経済合理的なフレームワーク [cs.AI]目的:大規模視覚言語モデルのアライメントにおける経済的効率性の向上
    • 大規模言語モデルの高性能化に伴い,安全性確保が不可欠となっている。
    • 既存のアライメント手法は,安全性,有用性,コストのトレードオフに課題がある。
    • 有害な推論を早期に検出し,計算資源の無駄を削減することを目指す。
    • EcoAlignは,LVLMを合理的なエージェントとして捉え,経済合理的な探索を行うことでアライメントを実現する。
    • 推論時に思考グラフを段階的に拡張し,安全性,有用性,コストを動的に評価する。
    • 実験の結果,EcoAlignは既存手法と同等以上の安全性と有用性を,より低い計算コストで達成した。

    Link: https://arxiv.org/abs/2511.11301

  • 分離型行動エキスパート:タスク知識を条件付け経路に限定する [cs.CL, cs.RO, cs.AI, cs.LG]目的:行動生成におけるタスク知識の所在と,その効率的な学習方法
    • 視覚情報と言語情報を統合した行動生成は,ロボット工学やバーチャルアシスタントなど,幅広い応用が期待されている。
    • 既存のモデルはパラメータ数が多く,計算コストが高い。行動生成の単純さに見合わない過剰な学習能力が課題である。
    • 条件付け経路にタスク知識を限定することで,汎用的な行動生成バックボーンの学習を可能にし,計算コストを削減することを目指す。
    • 提案手法では,観測データなしの順運動学データで行動ヘッドを事前学習し,固定した状態で条件付け経路のみをタスクごとに学習させた。
    • MimicGenとLIBEROの実験結果から,単一の固定化されたバックボーンが,通常の方法で学習されたモデルと同等の性能を発揮することが確認された。
    • 244MパラメータのU-Netを5MパラメータのMLPに置き換えても性能が維持または向上し,現在のVLA設計における行動生成の容量配分に疑問を投げかけた。

    Link: https://arxiv.org/abs/2511.12101

  • 投資計画のための扱いやすい確率モデル [cs.LG]目的:電力システムの投資計画における信頼性確保と計算効率の向上
    • 電力システムの安定供給は社会経済活動の基盤であり,長期的な投資計画が不可欠である。
    • 従来のシナリオベースのアプローチでは,詳細なシナリオ設定が計算コスト増大の要因となる。
    • 高次元の不確実性を効率的に扱い,信頼性制約を組み込んだ投資計画モデルを構築すること。
    • 本研究では,確率的な不確実性を表現するために,扱いやすい確率モデルであるSum-Product Network(SPN)を提案した。
    • SPNを用いることで,大規模なシナリオ列挙なしに,信頼性イベントの評価と確率的実現可能性の要件を満たすことが可能となった。
    • 代表的なケーススタディにおいて,従来のシナリオベースの手法と比較して,信頼性とコストのトレードオフ,計算パフォーマンスが示された。

    Link: https://arxiv.org/abs/2511.13888

  • 大規模における欺瞞的なステレオマッチング:自動運転における双眼深度推定に対する物理的敵対的攻撃 [cs.CV, cs.AI]目的:自動運転における双眼深度推定に対する物理的敵対的攻撃手法
    • 自動運転の実現には,正確な環境認識が不可欠であり,深度推定はその重要な要素である。
    • 深層学習モデルは敵対的サンプルに脆弱であり,特に実環境での物理的攻撃は対策が遅れている。
    • ステレオ視を用いた深度推定に対する,より現実的な物理的攻撃手法を開発し,その有効性を検証する。
    • 本研究では,テクスチャを付与した3次元の物理的敵対的サンプルを提案し,ステレオマッチングモデルを欺瞞可能であることを示した。
    • 提案手法は,カメラ視点や環境との整合性を考慮した3Dレンダリングモジュールと,背景への巧妙な統合を可能にするマージング攻撃を組み込む。
    • 実験結果から,提案する物理的攻撃が深度情報の誤りを引き起こし,ステレオモデルを効果的に欺瞞できることが確認された。

    Link: https://arxiv.org/abs/2511.14386

  • マスク化された自己回帰変分加速:高速推論が実用的な強化学習を可能にする [cs.LG, cs.AI]目的:マスク化された自己回帰拡散モデルの推論高速化と,強化学習への応用
    • 生成モデルは,画像生成などの分野で重要な役割を果たしており,その性能向上は重要な課題である。
    • 従来のマスク化された自己回帰拡散モデルは,推論速度が遅く,強化学習への適用が困難であった。
    • 本研究では,蒸留技術を用いて推論を高速化し,実用的な強化学習を可能にすることを目的とする。
    • MARVALは,拡散過程を単一の自己回帰ステップに圧縮することで,推論速度を大幅に向上させた。
    • ImageNet 256*256において,MARVAL-HugeはMAR-diffusionと比較して30倍以上の高速化を実現し,FIDスコア2.00を達成した。
    • MARVAL-RLは,ImageNetデータセット上でCLIPおよび画像報酬スコアの一貫した改善をもたらし,人々の好みに合った生成モデルを可能にした。

    Link: https://arxiv.org/abs/2511.15190

  • 行動認識LLMペルソナモデル:リアルな市民シミュレーションのために [cs.CL, cs.AI, cs.LG, cs.SD]目的:市民シミュレーションにおけるリアリズム向上
    • 大規模言語モデルの活用が期待されるが,発話者属性データの不足が課題である。
    • 自動音声認識による書き起こしでは,匿名ラベルしか付与されず,一貫した人間行動の捉え方が困難である。
    • 発話者属性と行動タグを付与したデータセットを構築し,リアリズムを高めることを目指す。
    • 公開されたZoom記録を変換する再現可能なパイプラインを開発し,3つの地方自治体会議データセットを公開した。
    • 行動認識データを用いてLLMをファインチューニングした結果,perplexityが67%減少し,性能指標がほぼ倍増した。
    • チューリングテスト形式の人間の評価では,シミュレーションが現実の議論と区別がつかない場合もあった。

    Link: https://arxiv.org/abs/2511.17813

  • CHIPS:curvature(曲率)を意識したハイブリッド影響度に基づくデータ選択による効率的なCLIP適応 [cs.LG]目的:CLIP適応のための効率的なデータ選択手法
    • 画像とテキストの理解能力を持つCLIPモデルは,多様な分野への応用が期待されている。
    • 特定の分野への適応には大量のデータが必要であり,計算コストが高いという課題がある。
    • 少量データでの高精度なCLIP適応を実現し,計算コストを削減することを目指す。
    • CHIPSは,17の医療ベンチマークにおいて,データ選択ベースラインを凌駕し,全データCPTと同等の性能を30%のデータ量で達成した。
    • また,半分のデータ量のCPTよりも優れた性能を,わずか10%のデータ量で実現した。
    • 31の汎用ドメインベンチマークでは,CHIPSは全ての保持率において最小の性能低下を示した。

    Link: https://arxiv.org/abs/2511.18519

  • 概念ボトルネックモデルによる説明可能な異常視覚検出 [cs.CV, cs.AI]目的:異常視覚検出における説明可能性の向上
    • 画像から異常を検出する技術は,製造業等の品質管理において重要である。
    • 既存の異常検出モデルは説明性が低く,異常箇所の理由が不明確な場合がある。
    • 概念ボトルネックモデルを用いて,人間が理解しやすい異常の説明を提供することを目指す。
    • 概念ボトルネックモデルを異常視覚検出に適用することで,セマンティックに意味のある異常の説明が可能となった。
    • 提案手法は,従来の異常検出手法と同等の性能を維持しつつ,より詳細な概念に基づいた説明を提供する。
    • 概念レベルの説明とピクセルレベルの異常局所化を組み合わせることで,解釈性と信頼性を高めた。

    Link: https://arxiv.org/abs/2511.20088

  • MapReduce LoRA:生成モデルの多目的最適化におけるパレート最前線を前進させる [cs.CV, cs.AI, cs.LG]目的:生成モデルの多目的最適化におけるパレート最前線の改善
    • 生成AIの性能向上には,人間の美的感覚や認識に基づく調整が不可欠である。
    • 複数の報酬関数を同時に最適化すると,ある目的の改善が他の目的の低下を招く場合がある。
    • 複数の報酬関数を同時に最適化する際のトレードオフを軽減し,全体的な性能を向上させる。
    • 提案手法MapReduce LoRAとRaTEは,Text-to-Image生成においてGenEval,PickScore,OCRの評価で大幅な改善を示した。
    • Text-to-Video生成においては,視覚品質と動きの品質がそれぞれ48.1%と90.0%向上した。
    • 言語タスクにおいては,有用性と安全性もそれぞれ43.4%と136.7%改善し,最先端の結果を達成した。

    Link: https://arxiv.org/abs/2511.20629

  • TimesNet-Gen:深層学習に基づく地点特定強震動生成 [cs.LG, cs.AI]目的:地点特定強震動の生成
    • 地震災害軽減には正確な評価が不可欠であり,地点固有の影響を考慮する必要がある。
    • 記録された地震動から地点特性を学習するデータ駆動型アプローチは有望だが,課題が多い。
    • 地点固有の強震動を生成する新たな手法を開発し,その有効性を検証すること。
    • TimesNet-Genは,時系列データに特化した深層学習モデルであり,地点情報を条件として強震動を生成する。
    • 実データと生成データの水平・垂直スペクトル比(HVSR)や基盤周波数分布を比較し,地点固有の特性を評価した。
    • 生成された地震動は,実データとの整合性が高く,既存のスペクトログラムに基づく手法よりも優れた性能を示した。

    Link: https://arxiv.org/abs/2512.04694

  • AIにおける不確実性定量化とデータ効率:情報理論的視点 [cs.IT, cs.AI, cs.LG, math.IT]目的:AIにおける不確実性定量化とデータ効率の向上
    • ロボティクス,通信,医療など,データ制約下でのAI活用が重要視されている。
    • 限られたデータでは知識の不完全性から予測性能が制限されるという課題がある。
    • データ不足を克服し,予測の不確実性を定量化することで性能向上を目指す。
    • ベイズ学習やpost-Bayes学習といったフレームワークによる不確実性定量化手法が検討されている。
    • 情報理論に基づく汎化誤差限界を通じて,データ量と予測不確実性の関係が理論的に解明されている。
    • Conformal prediction等の有限サンプル保証を持つ不確実性定量化手法や,合成データによるデータ効率化が進んでいる。

    Link: https://arxiv.org/abs/2512.05267

  • 拡散言語モデルにおけるアンマスクポリシーの学習 [cs.LG]目的:拡散言語モデルのトークンアンマスク戦略
    • 拡散言語モデルは,自己回帰モデルと同等の性能を持ちながら,推論効率の向上が期待されている。
    • 既存のアンマスク戦略は,手動調整が必要であり,ブロックサイズが大きい場合に性能が低下する。
    • 強化学習を用いて,最適なアンマスクポリシーを学習することで,この問題を解決する。
    • 学習されたポリシーは,半自己回帰生成において最先端のヒューリスティックと同等の性能を示す。
    • 拡散生成全体においては,ヒューリスティックを上回る性能を示す。
    • 提案手法は,軽量な単層Transformerに基づき,dLLMのトークン確信度をアンマスク決定に変換する。

    Link: https://arxiv.org/abs/2512.09106

  • 画像と動画からの概念合成:コンセプト・プロンプト結合によるアプローチ [cs.CV, cs.AI, cs.MM]目的:画像と動画からの視覚概念の柔軟な合成
    • 視覚情報処理の発展は,創造性や表現の可能性を広げる上で不可欠である。
    • 複雑な視覚概念の正確な抽出と,画像・動画からの概念の柔軟な組み合わせが課題である。
    • 画像と動画から概念を正確に抽出し,それらを組み合わせることで高質な視覚コンテンツの生成を目指す。
    • 提案手法 Bind & Compose は,プロンプトトークンと視覚概念を結合し,Diffusion Transformers のクロスアテンション機構を活用することで,柔軟な概念合成を可能にする。
    • 多様化と吸収メカニズムにより,概念と無関係な詳細の影響を排除し,コンセプト・トークンの結合精度を向上させる。
    • 時間的解 disentanglement 戦略により,動画概念の学習を二段階に分け,時間的モデリングを強化することで,画像と動画の概念間の互換性を高める。

    Link: https://arxiv.org/abs/2512.09824

  • エコーコパイロット:信頼性の高い心エコー解釈のための多視点エージェントフレームワーク [cs.AI, cs.CV, cs.LG, eess.IV]目的:心エコー解釈の信頼性向上
    • 心エコーは非侵襲的検査であり,心疾患診断に不可欠である。迅速かつ正確な解釈が求められている。
    • 既存の基盤モデルは部分的なタスクに特化しており,ノイズや臨床的閾値付近の値に対して脆弱である。
    • 多視点なアプローチと知識グラフを活用し,測定選択の誤りを減らし,解釈の一貫性を高める。
    • Echo-CoPilotは,構造的,病理学的,定量的という3つの独立したReActエージェントを活用することで,心エコー解釈を多角的に行う。
    • MIMICEchoQAデータセットにおいて,既存の最先端モデルと比較して高い精度を示した。
    • 反復実行における結論の一貫性が高く,回答の変動が少ないことから,信頼性が高いことが示された。

    Link: https://arxiv.org/abs/2512.09944

  • LabelFusion:大規模言語モデルとTransformerエンコーダーの融合による堅牢な金融ニュース分類 [cs.CL, cs.AI]目的:金融ニュース分類の性能向上
    • 金融市場において,ニュースは投資家の感情や短期的な動向に大きな影響を与えるため,分析が不可欠である。
    • 金融テキストの分類には大量のラベル付きデータが必要だが,その収集はコストがかかる。
    • ラベル付きデータが少ない状況下でも,分類性能を維持・向上させることを目指す。
    • プロンプトエンジニアリングされた大規模言語モデルは,データ不足の状況下でも高い性能を示す。
    • LabelFusionは,大規模言語モデルとTransformerエンコーダーを組み合わせることで,高いF1スコアと精度を達成した。
    • 十分なラベル付きデータがある場合はLabelFusionが,データが少ない場合は大規模言語モデルのみのプロンプトが有効である。

    Link: https://arxiv.org/abs/2512.10793

  • エントロピー崩壊:知性システムにおける普遍的な故障モード [cs.AI]目的:複雑系崩壊におけるエントロピー崩壊のメカニズムの解明
    • 複雑系崩壊の予測は重要であり,早期警戒システムの開発に繋がる。
    • 従来の理論では,崩壊は2次相転移とされ,兆候が現れるとされていた。
    • フィードバック増幅と新規性再生のバランスが崩壊に及ぼす影響を明らかにすること。
    • フィードバック増幅が新規性再生を上回ると,有効状態空間が不可逆的に収縮するエントロピー崩壊が起こることが示された。
    • エントロピー崩壊は1次相転移であり,従来の早期警戒指標では検知できないことが証明された。
    • ニューラルネットワーク実験により,理論的予測が検証され,AIモデルの崩壊を含む様々な現象に普遍的に適用されることが示唆された。

    Link: https://arxiv.org/abs/2512.12381

  • スペクトルグラフクラスタリングの説明可能性のための粗集合 [cs.LG, cs.AI]目的:スペクトルグラフクラスタリングの説明可能性向上
    • グラフ構造のクラスタリングは,複雑なデータ構造の解析に不可欠である。
    • クラスタリング結果が,ドキュメントの内容と直接結び付かず,解釈が困難である。
    • 粗集合理論を用いて,クラスタリング結果の説明可能性を改善する。
    • 本研究では,粗集合理論に基づいた説明手法を提案し,クラスタリング結果の解釈性を高めた。
    • 特に,意味不明確なドキュメントやクラスタリングの確率的性質による説明性の低下を抑制する。
    • 既存の説明手法を拡張することで,より詳細な情報提供と結果の信頼性向上を実現した。

    Link: https://arxiv.org/abs/2512.12436

  • クエリ畳み込みニューラルネットワークを用いた高忠実度ガウススプラッティング [cs.CV, cs.GR, cs.LG]目的:新規視点合成における高忠実度再構成
    • 近年,新しい視点からの画像生成技術が重要視されており,その性能向上が求められている。
    • ガウススプラッティングは高速だが,既存のハイレベルなレンダリングモデルに比べて再構成の忠実度が低い。
    • クエリと近傍情報を活用することで,ガウススプラッティングの再構成精度を向上させることを目指す。
    • 提案手法であるクエリ畳み込み(Qonvolution)をガウススプラッティングに組み込むことで,最先端の新規視点合成を実現した。
    • 実世界データセットにおいて,Qonvolutionニューラルネットワーク(QNN)はZip-NeRFをも上回る画像忠実度を達成した。
    • QNNは,1次元回帰,2次元回帰,2次元超解像といった他のタスクにおいても性能向上を示した。

    Link: https://arxiv.org/abs/2512.12898

  • 微分情報に基づくフーリエニューラルオペレーター:普遍近似と偏微分方程式制約最適化への応用 [cs.LG, cs.NA, math.NA]目的:偏微分方程式制約最適化問題に対する微分情報に基づくフーリエニューラルオペレーターの近似理論と効率的な学習手法
    • 複雑な物理現象のモデル化には,偏微分方程式が不可欠であり,その効率的な求解が重要である。
    • 高精度な偏微分方程式の数値解法は計算コストが高く,最適化問題への適用が困難となる場合がある。
    • 高精度な微分情報を持つ代理モデルを構築し,偏微分方程式制約最適化問題の効率的な求解を目指す。
    • 微分情報に基づくフーリエニューラルオペレーター(DIFNO)は,通常のFNOと比較して,サンプル効率が優れていることが示された。
    • DIFNOは,連続的に微分可能なオペレーターとそのFréchet微分を同時に普遍的に近似できることが理論的に証明された。
    • 次元削減やマルチ解像度技術を導入した効率的な学習スキームにより,メモリと計算コストを大幅に削減できる。

    Link: https://arxiv.org/abs/2512.14086

  • SigMA:fBm駆動SDEにおけるパラメータ学習のためのパス署名とマルチヘッドアテンション [cs.LG, q-fin.MF]目的:fBm駆動SDEのパラメータ推定における精度とモデル複雑さのトレードオフ改善
    • 金融や信頼性工学など,粗いダイナミクスや長距離依存性を示すシステムのモデリングにSDEが不可欠である。
    • fBm駆動SDEはマルコフ性を持たず,古典的なパラメータ推定手法が適用困難であるという課題がある。
    • パス署名とアテンション機構を組み合わせることで,効率的なパラメータ推定フレームワークを構築することを目指す。
    • SigMAは,合成データおよび実データセットにおいて,CNN,LSTM,Transformerなどの既存手法を精度,ロバスト性,モデルのコンパクトさで上回る性能を示した。
    • パス署名とマルチヘッドアテンションを統合したSigMAは,粗い時間構造を持つ確率システムのパラメータ推論に効果的なフレームワークを提供する。
    • 特にHurstパラメータの推定や多パラメータ同時推定において,優れた汎化性能を発揮する。

    Link: https://arxiv.org/abs/2512.15088

  • Chorus:IoTにおけるデータフリーなモデルカスタマイズのための文脈とセンシング信号の調和 [cs.LG]目的:IoT環境におけるAIモデルの新たな展開条件への効率的な適応
    • IoTセンシングの発展には,多様な環境変化に対応したAIモデルの適応が不可欠である。
    • 従来のドメイン適応手法は文脈情報を無視,あるいは単純化し,展開後の文脈変化への対応が困難である。
    • Chorusは,標的ドメインのデータを用いずに,未知の展開条件に適応する文脈認識型カスタマイズ手法である。
    • Chorusは,文脈要素がセンサデータに及ぼす影響を捉える文脈表現を学習し,構造化された事前知識として活用する。
    • ラベル付きデータが限られた状況下で,文脈情報を活用した軽量なゲート付きヘッドを訓練することで,性能を向上させる。
    • 文脈変化が検出されない場合は,キャッシュされた文脈表現を再利用し,スマートフォンでの推論オーバーヘッドを削減する。

    Link: https://arxiv.org/abs/2512.15206

  • マスク着用顔検出・認識のための二段階データ拡張:偽のマスクを本物へ [cs.CV, cs.LG]目的:マスク着用顔検出・認識におけるデータ拡張手法の開発
    • 顔認識技術は,セキュリティ,監視,認証など幅広い分野で重要であり,その精度向上は社会的なニーズに応える。
    • マスク着用顔のデータセットが不足しており,マスク着用時の顔認識精度の低下が課題となっている。
    • 大規模なマスク着用顔データセットの不足を補い,マスク着用時の顔認識精度向上を目指す。
    • ルールベースのマスク変形とGANによる画像変換を組み合わせた二段階のデータ拡張フレームワークを提案した。
    • 提案手法は,ルールベースの変形のみの場合と比較して,一貫した性能向上を示した。
    • マスク領域の歪みを抑制するための損失関数と,サンプル多様性を向上させるためのノイズ注入が有効であることを確認した。

    Link: https://arxiv.org/abs/2512.15774

  • カオスに基づくウォーターマーキングによる深層ニューラルネットワーク知的財産の保護 [cs.CR, cs.AI]目的:深層ニューラルネットワークへの知的財産保護手法の開発
    • 深層学習の応用拡大に伴い,モデルの不正利用や盗用を防ぐことが重要になっている。
    • モデルの容易な複製・再配布が,知的財産保護の課題となっている。
    • 深層ニューラルネットワーク内部パラメータへのウォーターマーク埋め込みによる所有権保護を目指す。
    • 提案手法は,カオス関数であるロジスティックマップを用いてウォーターマークを生成し,モデルの性能劣化なく埋め込むことができる。
    • 遺伝的アルゴリズムを用いた検証により,ファインチューニング後もウォーターマークの検出が可能であり,高い精度を維持する。
    • 重み密度の可視化や活性化に基づく識別器を用いることで,元のモデル,ウォーターマーク付きモデル,改ざんされたモデルを識別できる。

    Link: https://arxiv.org/abs/2512.16658