arXiv雑要約

AI - 2026/05/06 公開

テキスト条件付きJEPA：意味的に豊かな視覚表現の学習 [cs.LG, cs.CV]目的：意味的に豊かな視覚表現の学習
- 視覚情報処理は，画像認識や物体検出など，様々な応用において重要である。
- 自己教師あり学習では，マスクされた領域の予測が困難であり，意味的表現の獲得が課題である。
- テキスト情報を活用することで，予測の不確実性を低減し，より意味的な特徴量を学習することを目指す。
- テキスト条件付きJEPA (TC-JEPA) は，画像キャプションを用いて予測の不確実性を低減し，ダウンストリームタスクの性能を向上させた。
- TC-JEPAは，特徴量予測のみに基づく新しい視覚-言語事前学習パラダイムを提示し，コントラスト学習法を上回る性能を示した。
- 特に，詳細な視覚的理解や推論を必要とするタスクにおいて，優れた結果が得られた。
Link: https://arxiv.org/abs/2605.03245
後方優先型ニューラル偏微分方程式シミュレーション：単一フィールドからの隠れた問題状態の推論 [eess.SY, cs.SY, cs.LG, cs.AI]目的：単一フィールドからの隠れた問題状態の推論
- 偏微分方程式シミュレーションは科学技術の発展に不可欠であり，多様な分野で活用されている。
- 単一の観測フィールドのみから推論する場合，潜在的な問題状態が曖昧になり，予測精度が低下する。
- 観測フィールドから問題状態の事後分布を推論することで，予測の信頼性と精度を向上させる。
- 後方優先型シミュレーションは，事後分布を推論することで，従来の予測手法における問題状態の曖昧さの損失を防ぐ。
- 合成実験の結果，事後分布と点推定値の差は，予測における曖昧さの障壁を示していることが確認された。
- PDEBenchタスクにおいて，事後分布の復元により，ロールアウトのRMSEが改善し，直接的なオラクルとの誤差を59.4％縮小した。
Link: https://arxiv.org/abs/2605.03247
Ortho-Hydra: DiT LoRAのための直交化エキスパート [cs.LG, cs.AI, cs.CV]目的：拡散Transformer（DiT）のLoRAファインチューニングにおけるスタイルブリードの克服
- 拡散モデルは高品質な画像生成を可能にするが，計算コストが高い。
- DiTのLoRA調整において，複数のスタイルを表現する際にスタイルブリードが発生しやすい。
- 初期状態から専門家が特殊化するように誘導し，効率的な学習を実現する。
- Ortho-Hydraは，Cayley直交共有基底と，事前学習済み重みの左特異ベクトルから切り出された専門家ごとの離散的な出力部分空間を組み合わせる。
- この手法により，ルーターの専門家ごとのスコアが初期状態から非退化し，早期の専門化を促進する。
- 実験の結果，Ortho-Hydraは初期段階から一様分布から逸脱し始めることが確認された。
Link: https://arxiv.org/abs/2605.03252
LLMは核心的な信念を持っているか [cs.LG]目的：大規模言語モデルにおける核心的な信念の有無
- LLMの発展は認知科学に大きな影響を与えており，人間レベルの認知能力の解明に繋がる。
- LLMは一貫性のある世界観を維持できていない可能性があり，その認知能力に限界がある。
- LLMが持つ核心的な信念の有無を検証し，人間レベルの認知能力との違いを明確にすること。
- 大規模言語モデルに，科学，歴史，地理，生物，数学の分野における「敵対的対話木」を用いて質問を重ねた結果，安定した世界観を維持できないことが示された。
- 一部の最新モデルでは安定性が向上したが，会話のプレッシャー下では依然として主要な信念を維持できないことが確認された。
- これらの結果は，モデルの世代間で議論能力が向上していることを示す一方で，現在のモデルには人間レベルの認知能力の重要な要素が欠けていることを示唆している。
Link: https://arxiv.org/abs/2605.03255
正解はそこにあるのに，なぜカウントできないのか：Transformerの失敗原因と解決策 [cs.LG, cs.CL]目的：Transformerがカウントタスクで失敗する原因の解明と改善
- 大規模言語モデルの性能向上は，自然言語処理の重要な課題である。
- Transformerは単純なカウント問題においても誤りを犯し，その原因が不明であった。
- Transformerが内部でカウント情報を保持しているか，出力への変換に問題があるかを検証する。
- モデルの中間層ではほぼ完璧な精度でカウントが再現されることが確認された。
- カウントを符号化する内部表現と，出力層の数字トークンの行はほぼ直交していることが示された。
- 出力層の数字トークン行の更新や，Attention機構へのLoRA適用により，カウント性能が大幅に改善された。
Link: https://arxiv.org/abs/2605.03258
AIは失恋を乗り越える手助けになるか？信念再構成チャットボットによる1回のセッションが持続的な苦痛軽減を示す [cs.RO, cs.HC, cs.AI]目的：失恋による心理的苦痛の軽減
- 失恋は頻繁に起こり，深刻な心理的苦痛の原因となり，多くの人々に影響を及ぼす。
- 従来の失恋からの回復支援は時間や費用がかかる場合が多く，アクセスが難しい場合がある。
- AIチャットボットによる介入が，手軽に失恋の苦痛を軽減する可能性を検証する。
- AIチャットボット「overit」を1回利用したグループは，コントロールグループと比較して7日後に失恋による苦痛が有意に減少した。
- 苦痛軽減効果は1ヶ月後の追跡調査でも，やや小さくはあるものの有意に認められた。
- 男性参加者において，より大きな効果が見られたという探索的な結果もある。
Link: https://arxiv.org/abs/2605.03261
多項式アラインメントとIMQ距離からの普遍的な再生核ヒルベルト空間 [cs.LG]目的：普遍的な再生核ヒルベルト空間の構築
- 機械学習の性能向上には適切なカーネル関数の設計が不可欠である。
- 既存のカーネル関数では表現力に限界があり，複雑なデータ分布への対応が困難である。
- 多項式アラインメントを取り入れることで，より表現力の高いカーネル関数を構築し，汎化性能を高める。
- 提案されたYatカーネルは，パラメータbとεを持つ有理関数として定義され，Mercer条件を満たすことが示された。
- b>0の場合，Yatカーネルはスケーリングされた逆多重二次（IMQ）カーネルを支配し，普遍性，特徴性，および厳密な正定値性を示す。
- 学習済みYat層は，固定された普遍的な特性RKHSにおける有限の学習中心の展開として表現でき，Rademacherの一般化限界を導出できる。
Link: https://arxiv.org/abs/2605.03262
部分観測構造因果モデル [cs.LG, cs.AI, stat.ME, stat.ML]目的：潜在的な背景が観測される変数間の相互作用構造と下流メカニズムを決定する因果システムの形式化
- 因果推論は科学的発見や政策決定において不可欠であり，複雑なシステムの理解に貢献する。
- 従来の因果モデルは，観測されない背景要因を考慮していないため，現実世界の複雑な現象のモデリングに限界がある。
- 潜在的な背景の影響を考慮することで，より現実的かつ正確な因果モデルを構築し，より信頼性の高い推論を可能にする。
- 部分観測構造因果モデル（POSCM）は，構造因果モデル（SCM）を拡張し，潜在的な背景を含む因果システムの包括的なフレームワークを提供する。
- 実験を通じて，POSCMが予測する非識別性や構造-メカニズムの交絡が確認され，モデルの有効性が実証された。
- 特定のノード介入により，シナプス入力-出力関係が再現され，正のカーネル識別可能性の結果と一致した。
Link: https://arxiv.org/abs/2605.03268
RLDX-1 技術報告 [cs.RO, cs.AI, cs.LG]目的：高度なロボット制御ポリシーの構築
- ロボット工学は，人間生活の様々な場面で自動化を促進し，生産性向上に貢献する重要な分野である。
- 汎用的なロボット制御は，多様な状況への適応が難しく，複雑なタスク遂行能力に課題が残る。
- 本研究は，多様な機能を統合し，高度なロボット制御を実現することを目指す。
- RLDX-1は，既存のVLAモデル（$\pi_{0.5}$やGR00T N1.6）と比較して，シミュレーションおよび実世界タスクにおいて，一貫して高い性能を示す。
- 特に，ALLEX humanoidタスクでは，86.8%の成功率を達成し，$\pi_{0.5}$やGR00T N1.6の約40%を上回る成果が得られた。
- これらの結果は，RLDX-1が複雑で接触が多く，変化に富む現実世界のロボット制御において有望な一歩であることを示唆する。
Link: https://arxiv.org/abs/2605.03269
大規模無線モデルに対するプロンプトベースの専門家適応による変調分類 [cs.LG]目的：変調分類における，分布シフトへのロバスト性向上
- 無線通信技術の発展に伴い，多様な環境下での信号分類の重要性が高まっている。
- 実環境での変調分類は，ハードウェアの制約や未知の伝搬環境により，性能が低下しやすい。
- 大規模事前学習モデルを，少ない学習データで，効率的に実環境に適応させる。
- プロンプトベースの適応により，分布シフト下でのロバスト性が向上することが確認された。
- 特に，実環境のIQデータにおいて，限られた教師データでも高い性能を維持した。
- プロンプト学習は，無線基礎モデルを困難なRF環境に適応させるための実用的な戦略である。
Link: https://arxiv.org/abs/2605.03279
アクセントに強いASRのためのコントラスティブ正則化 [cs.CY, cs.HC, cs.SD, cs.LG]目的：アクセントに強い音声認識システムの開発
- 音声認識技術は，人間と機械の自然な対話を可能にする基盤技術である。
- 既存の音声認識システムは，話者のアクセントによって性能が大きく変動する。
- アクセント変動にロバストな音声認識モデルを，軽量な方法で実現すること。
- 自己教師あり学習とCTCファインチューニングを組み合わせた音声認識システムに，コントラスティブ正則化を導入した。
- L2-ARCTICベンチマークでの実験により，未知のアクセントに対するWERが大幅に削減された。
- コントラスティブ正則化は，アクセント変動下での表現の安定性とコンパクトさを向上させる。
Link: https://arxiv.org/abs/2605.03297
SHIELD：多様な臨床記録データセットと，エンタープライズ規模の非特定化のための蒸留された小規模言語モデル [cs.CL, cs.CL, cs.AI]目的：臨床テキストの非特定化のためのデータセットおよびモデルの構築と評価
- 医療記録の二次利用には，個人情報の保護が不可欠であり，非特定化技術の重要性が高まっている。
- 既存の評価データセットは古く，現代の医療記録の多様性を反映していないという課題がある。
- 多様なデータセットと，計算資源の制約下でも利用可能なモデルを開発し，実用的な非特定化を実現する。
- SHIELDデータセットは，多様な臨床記録と，高品質な個人情報（PHI）のアノテーションを提供することに成功した。
- 蒸留された小規模言語モデルは，大規模言語モデルの性能を維持しつつ，ローカル環境での運用を可能にした。
- 多様性のあるデータで学習したモデルは，汎用的なPHIに対して高い汎化性能を示す一方で，機関固有のPHIの転移学習は困難であった。
Link: https://arxiv.org/abs/2605.03301
特徴次元を考慮した分位点選択による安定した多Modalグラフアンラーニング [cs.RO, cs.LG, cs.MM]目的：多Modalグラフにおけるプライバシー保護と持続可能な学習を支援するグラフアンラーニング手法
- グラフ構造データは，ソーシャルネットワーク等に広く応用され，その重要性が増している。
- 既存のアンラーニング手法は，全GNN層に一律なパラメータ選択を行うため，多Modalグラフにおいて性能劣化が起きやすい。
- 本研究は，高次元入力投影層への過剰な編集を抑制し，安定した学習とプライバシー保護を実現することを目指す。
- 提案手法FDQは，特徴次元を考慮した分位点選択により，高次元入力投影層の編集を抑制することで，実用的な性能を維持する。
- FDQは，対角感度に基づくパラメータ重要度分析と組み合わせることで，効率的なノード・エッジアンラーニングを可能にする。
- Ele-FashionとGoodreads-NCの実験結果から，FDQは高い実用性維持率と効果的な忘却性能の両立を実現することが示された。
Link: https://arxiv.org/abs/2605.03303
炭素国境調整メカニズムは欧州の電力価格に影響を与えるか？ GNNに基づくネットワーク分析 [cs.LG, cs.CY, cs.SY, eess.SY]目的：欧州電力市場における炭素国境調整メカニズム（CBAM）の影響の定量化
- 地球温暖化対策として，国際的な炭素排出量削減の取り組みが重要性を増している。
- 国境を越えた影響を考慮した炭素政策の効果分析が十分でない。
- CBAMが欧州電力市場に与える価格と炭素集約度の変化を構造的に理解すること。
- CBAMは一律の税金ではなく，市場構造を変化させるメカニズムとして作用する。
- 低炭素国（フランス，スイスなど）は競争優位性を獲得し，国内電力価格が低下する可能性がある。
- 高炭素国（ポーランドなど）はコスト増加という二重の負担に直面する。
Link: https://arxiv.org/abs/2605.03304
大規模言語モデルの旅行計画能力の再検証 [cs.AI]目的：旅行計画における大規模言語モデルの能力の評価
- 旅行計画は長期的な推論能力を必要とし，大規模言語モデルの性能評価に適している。
- 既存の評価方法では，最終的な計画のみが評価され，失敗の原因分析が困難である。
- 旅行計画を構成要素に分解し，各要素の性能を厳密に評価することで改善点を見出す。
- 大規模言語モデルは明示的な制約の抽出には強い一方，暗黙の要件の推論に苦戦する。
- 計画生成においては構造的な偏りが認められ，自己修正能力は過敏かつ誤った修正を繰り返す傾向がある。
- 本研究の知見は，大規模言語モデルの推論・計画能力向上に向けた具体的な方向性を示す。
Link: https://arxiv.org/abs/2605.03308
暗号学的レジストリ由来：AIパッケージエコシステムにおける依存性混乱に対する構造的防御 [cs.CR, cs.AI, cs.SE]目的：依存性混乱攻撃に対する構造的な防御機構
- ソフトウェアサプライチェーンのセキュリティ確保は，現代のソフトウェア開発において不可欠である。
- パッケージ管理システムには，配布元を検証する仕組みが不十分な点が課題である。
- ソフトウェア配布元を暗号学的に証明し，依存性混乱攻撃を防止すること。
- 本研究では，レジストリの暗号学的識別，二重署名モデル，権威あるネームスペースのバインディングという三層防御システムを提案した。
- 既存の８つのエコシステムにおいて，これらの要素を全て満たすシステムは存在しないことが示された。
- 本システムは，AI生成物の由来証明にも拡張可能であり，ランタイムガバナンスアーキテクチャとの統合も可能である。
Link: https://arxiv.org/abs/2605.03309
LLMベースマルチエージェントシステムのアーキテクチャ層としての協調 [cs.MA, cs.LG, q-fin.TR]目的：LLMベースマルチエージェントシステムにおける協調のアーキテクチャ設計
- LLMエージェントの活用は進むが，実運用における失敗率が高いという課題がある。
- 既存研究では，失敗モードの分類やオーケストレーションフレームワークが提案されているが，協調設定と失敗モードの明確な関連性が見られない。
- 協調を独立したアーキテクチャ層として捉え，予測可能な失敗モードを特定し，設計可能なシステムを構築することを目指す。
- 予測市場における実験で，協調設定の違いによるMurphy分解を用いたスコアのシグネチャが確認された。
- コストと品質のPareto最適化フロンティア上で，2つの協調設定が優位性を示した。
- Foresight Arenaでの実運用検証により，オンラインでの協調の再現性と有効性が示唆された。
Link: https://arxiv.org/abs/2605.03310
敵対的勾配摂動を用いた分散学習 [cs.MA, cs.LG]目的：敵対的勾配摂動下における分散学習の最適性ギャップとクエリ複雑性
- 分散学習は，データプライバシー保護の観点から重要性が増している。
- クライアントからの勾配情報が意図的に改ざんされる場合があり，学習の精度低下を招く。
- 勾配改ざんに対する分散学習の理論的限界と，それを達成するアルゴリズムの提案。
- 凸かつ$L$-滑らかな関数の最適化において，敵対的勾配摂動下での最小の達成可能な劣最適性ギャップを明らかにした。
- 与えられた劣最適性ギャップを保証するために必要なクエリ数を理論的に導出した。
- 導出された限界を達成可能なクエリ複雑性を持つアルゴリズムを提示した。
Link: https://arxiv.org/abs/2605.03313
拡散Transformerのための適応階層的事前アラインメント (AHPA) [cs.CV, cs.AI]目的：拡散Transformerの訓練加速のための表現アラインメント手法
- 拡散モデルは高品質な画像生成が可能だが，訓練に膨大な計算資源を要する。
- 既存のアラインメント手法は，固定された粒度でアラインメントを行うため，最適ではない。
- ノイズレベルに応じて最適なアラインメント粒度を動的に変化させることで，訓練効率を改善する。
- 提案手法AHPAは，凍結されたVAEエンコーダの階層的表現を活用し，多レベルの事前知識を抽出する。
- timestepに応じて動的にこれらの階層的事前知識を選択・重み付けすることで，アラインメント粒度をモデルの学習ニーズに同期させる。
- 実験結果から，AHPAは収束性と生成品質を向上させ，追加の推論コストを発生させないことが示された。
Link: https://arxiv.org/abs/2605.03317
DGPO：ファインチューンなクレジット割り当てのための分布誘導型方策最適化 [cs.SI, cs.NI, eess.SP, cs.LG, cs.AI]目的：ファインチューンなクレジット割り当て手法
- 大規模言語モデルの複雑な推論能力向上は重要であり，その鍵となるのが強化学習である。
- 既存手法では，推論ステップの特定が困難で，長いChain of Thought生成において性能が低下する。
- 分布の乖離を誘導信号として活用し，安定した学習と多様な推論経路の発見を目指す。
- DGPOは，分布誘導型方策最適化という新しいフレームワークを提案する。
- 従来の Kullback Leibler divergenceペナルティによる勾配不安定性や保守性を克服し，学習の安定化を実現した。
- ファインチューンなクレジット割り当てにより，複雑な推論タスクにおける性能向上が確認された。
Link: https://arxiv.org/abs/2605.03327
LLM-ADAM：アディティブマニュファクチャリングにおけるプレプリント異常検出のための汎用LLMエージェントフレームワーク [cs.LG, cs.AI]目的：アディティブマニュファクチャリングにおけるプレプリント異常検出のための汎用LLMフレームワーク
- アディティブマニュファクチャリングは製造業を変革しており，複雑な形状のオンデマンド生産を可能にする。
- 専門知識のないユーザーがプロセス計画を行うため，有害な設定やGコードの編集によるエラーが発生しやすい。
- プレプリント段階でのGコードスクリーニングにより，無駄をなくし，エラーを事前に検出することを目的とする。
- LLM-ADAMフレームワークは，抽出，参照，判断の３つの役割に分解することで，Gコードの異常検出を行う。
- 評価実験の結果，フレームワークの最高精度は87.5%に達し，単一LLMベースラインの59.5%を上回った。
- 構造化された分解が改善の主要因であり，主要な設定では欠陥クラスの識別精度が高かった。
Link: https://arxiv.org/abs/2605.03328
FreeTimeGS++：動的ガウススプラッティングの秘訣とその原理 [cs.CV, cs.AI]目的：動的シーン再構成における4Dガウススプラッティングの根底にある原理の体系的理解
- 近年，4Dガウススプラッティングが急速に発展し，動的シーンの再構成において高い性能を示している
- その性能向上を支える具体的な要因が明確に解明されておらず，原理の理解が十分に進んでいない
- 4Dガウススプラッティングの隠れた要素を分析し，安定性とロバスト性を向上させる手法を提案する
- 本研究では，ガウスの持続時間に基づく時間的分割が自然に生じること，光度忠実性と時空間的一貫性の乖離を明らかにした
- 提案手法FreeTimeGS++は，ゲート付き周辺化とニューラル速度場を用いることで，従来の4DGSよりも優れた安定性と表現力を実現する
- 再現性の高い結果が得られ，実行間のばらつきを低減することが確認された
Link: https://arxiv.org/abs/2605.03337
対称性によって保護されたリャプノフ中立モードを持つ等変回帰型ニューラルネットワーク [cs.NE, math.DS]目的：等変回帰型ニューラルネットワークにおける，位置，位相，その他の連続変数を記憶するための長期的安定性を保証する中立方向の存在根拠
- 状態空間の安定性は，連続変数を扱う回帰型ネットワークにおいて，長期的な記憶を維持するために不可欠である。
- 中立方向は調整によって得られる場合が多く，対称性に基づく理論的な保証が不足していた。
- リー群の対称性に基づいて，安定な中立方向の存在を数学的に証明し，その保護メカニズムを解明する。
- リー群に対する等変性を持つベクトル場において，安定な軌道束を持つコンパクトな不変集合は，その軌道に沿ってゼロのリャプノフ指数を持つ。
- 対称性の保護が損なわれると，中立方向は擬似的なギャップを獲得し，有限の記憶寿命を示すことが実験的に確認された。
- 学習された等変回帰型セルは，ステップ等変性を$3.2\times10^{-8}$まで維持し，速度入力$S^1$経路積分においてGRU，LSTM，直交RNNと比較して性能が向上した。
Link: https://arxiv.org/abs/2605.03338
LLM支援による柔軟なMCTSを用いた大規模CVRPソルバーの自動設計 [cs.AI]目的：大規模CVRPソルバーの自動設計
- CVRPは物流最適化の基盤であり，効率的な配送計画に不可欠である。
- 大規模CVRPの求解は計算コストが高く，現状のソルバーでも困難である。
- LLMを活用し，専門知識や労力を要する分解ロジックの設計を自動化する。
- 提案手法LaF-MCTSは，分解ポリシーと部分ソルバーを段階的に設計する3層決定階層を採用した。
- 意味的剪定と枝の再成長により，探索空間を効率化し，多様性を維持した。
- CVRPLibを用いた実験で，提案手法が既存の高性能ソルバーを上回る成果が得られた。
Link: https://arxiv.org/abs/2605.03339
思考過程のトレースに基づくRAGが推論タスクを改善する [cs.IR, cs.AI, cs.CL]目的：推論タスクにおける知識検索生成(RAG)の有効性向上
- 大規模言語モデルの推論能力向上が重要な課題となっている。
- RAGは知識集約型タスクに有効だが，推論集約型タスクへの効果は限定的と考えられていた。
- 思考過程のトレースを検索対象とすることで，RAGの推論能力を向上させることを目指す。
- 思考過程のトレースは，既存のWebコーパスよりも優れた検索ソースとなり得る。
- 思考過程を構造化された形式に変換するT3を用いることで，さらにRAGの性能を向上させることができた。
- AIME，LiveCodeBench，GPQA-Diamondなどのベンチマークにおいて，RAGは最先端モデルを上回る性能を示し，推論コストを削減する効果も確認された。
Link: https://arxiv.org/abs/2605.03344
埋め込み表現における次元不整合下での証明可能な精度崩壊 [cs.NI, cs.DS, cs.LG]目的：埋め込み表現の次元と精度間の関係性の解明
- 機械学習において，データの関係性を忠実に捉えつつ，モデルの効率性を高めるため，低次元埋め込み表現が重要である。
- 埋め込み次元が適切に設定されていない場合，データ表現の能力が著しく低下し，精度の低下を引き起こす可能性がある。
- 埋め込み次元と精度間の理論的な限界を明らかにし，適切な次元選択の指針を示す。
- 埋め込み次元が真の次元に近い場合にのみ高い精度が実現でき，それ以外では精度が急激に低下することが証明された。
- この現象は，教師データが限られたコントラスティブ学習においても同様に発生することが示された。
- Unique Games Conjectureのもと，次元に関わらず，単純な精度以上のアルゴリズムは存在しないことが示唆された。
Link: https://arxiv.org/abs/2605.03346
構造化マルチモーダル表現に向けて：専門化，選択，疎化によるMixture-of-Experts [cs.LG, cs.AI]目的：マルチモーダル表現の構造化
- 多様なデータ形式の統合が，AIの性能向上に不可欠である。
- 既存手法では，マルチモーダルデータの有効活用が不十分な場合がある。
- 選択可能なセマンティックコンポーネントによる構造化表現の実現。
- S3フレームワークは，マルチモーダル入力をセマンティックエキスパートに分解し，タスクに応じて選択的に経路指定する。
- 専門化により共有潜在空間で概念レベルのエキスパートが形成され，選択と疎化によりコンパクトな表現が実現される。
- MultiBenchベンチマークにおいて，S3は精度を向上させ，疎性-性能間に一貫した逆U字型の傾向を示した。
Link: https://arxiv.org/abs/2605.03348
フレームモギングによるトレーニングフリーな再計算回避を通じたVLMaxxing：ビデオ視覚言語モデルの性能向上 [cs.CV, cs.AI]目的：ビデオ視覚言語モデルにおける視覚情報の再利用による効率化
- ビデオ視覚言語モデルは，動画理解において重要な役割を担う技術である。
- 既存のモデルは，変化のないシーンでも冗長な計算を行い，効率が低いという課題がある。
- 本研究は，過去の情報を再利用することで，計算コストを削減し，応答速度を向上させることを目指す。
- Qwen2.5-VL-7B-Instruct-4bitを用いた実験で，同じ動画に対する一連の質問において，応答時間を14.90～35.92倍に短縮することに成功した。
- C-VISIONにより，Gemma 4-E4B-4bitでは最初の質問の処理速度が1.316倍に向上し，精度低下は見られなかった。
- 動画内の変化を直接的にモデルに伝えることで，フレーム毎の冗長なRGBデータの再学習を不要にすることを目指す。
Link: https://arxiv.org/abs/2605.03351
多Modal大規模言語モデルは病的運動を理解できるか？てんかん兆候に関するパイロット研究 [cs.CV, cs.AI]目的：てんかん発作ビデオにおける病的運動の自動認識能力
- 神経疾患における非随意運動の解析は，疾患の正確な診断と治療に不可欠である。
- 既存の画像認識モデルは，臨床的に重要な非随意運動の識別には限界がある。
- 汎用的な大規模言語モデルを，専門的な臨床ビデオ解析に応用する可能性を検証する。
- 大規模言語モデルは，特定のタスク向けに学習されていないにも関わらず，従来の画像認識モデルを上回る性能を示した。
- 特に，姿勢や文脈の特徴認識において強みを発揮したが，微細で高周波な運動の認識には課題が残る。
- 特定の信号を強調する前処理（顔の切り抜き，姿勢推定，音声ノイズ除去）により，性能が向上した。
Link: https://arxiv.org/abs/2605.03352
SkCC：クロスフレームワークLLMエージェント向けポータブルかつセキュアなスキルコンパイル [cs.CR, cs.AI]目的：LLMエージェントにおけるスキル開発の効率化と安全性向上
- LLMエージェントの複雑なタスク実行能力向上には，エージェントの機能定義が重要である。
- フレームワークによるプロンプト形式への依存度が高く，スキルの移植性やメンテナンス性が課題となっている。
- スキル定義とプラットフォーム依存性を分離し，セキュリティリスクを低減する。
- SkCCは，スキルの中間表現SkIRを導入し，プラットフォーム間の移植性を実現した。
- コンパイル時にセキュリティ制約を適用し，スキルの脆弱性をプロアクティブに検知する。
- SkillsBenchでの実験により，コンパイルされたスキルは，Claude CodeとKimi CLIにおいて高いパフォーマンス向上とトークン削減効果が確認された。
Link: https://arxiv.org/abs/2605.03353
エージェントメモリの内部構造：創発から診断までの回路解析 [cs.AI]目的：エージェントメモリにおける回路の挙動解明
- 大規模言語モデル(LLM)を用いたエージェントの活用が拡大する中で，その性能向上が重要視されている。
- エージェントメモリの失敗は検知が難しく，原因特定が困難である。
- エージェントメモリ内の回路解析を通じて，失敗原因の局所化を目指す。
- 制御回路はコンテンツ回路よりも先に活動が検出され，小規模モデルでルーティングが可能だが，抽出や接地は失敗しやすい。
- 書き込みと読み出しは，基盤モデルに存在するコンテキスト接地基盤を共有し，メモリフレームワークによってその方向性が決定される。
- 回路の検出と制御は異なる規模で実現され，76.2%の精度で故障箇所を特定できる。
Link: https://arxiv.org/abs/2605.03354
共通ノイズを持つ平均場ゲームにおける集団を意識した模倣学習 [cs.LG, math.OC]目的：平均場ゲームにおける集団を意識した方策の学習
- 多数のエージェントの集合的行動をモデル化する強力な枠組みとして，平均場ゲームが重要である。
- 共通ノイズが存在する場合，標準的な集団を意識しない方策は均衡ダイナミクスを捉えられないという問題がある。
- 共通ノイズに起因するランダム性に惑わされない集団を意識した方策の学習を目指す。
- 本研究では，ナッシュ均衡の回復と専門家集団に対する性能最大化という2つの学習目標を定式化した。
- 行動クローニングと敵対的ダイバージェンスという2つの模倣プロキシを用いて，誤差有界を確立した。
- シミュレーション実験を通じて，集団を意識した方策の学習が不可欠であることを示した。
Link: https://arxiv.org/abs/2605.03357
ReasonAudio：テキストと音声の検索におけるマッチングを超えた推論を評価するためのベンチマーク [cs.AI]目的：テキストと音声の検索における推論能力の評価
- マルチモーダルコンテンツの急速な拡大に伴い，メディア検索や知的支援に不可欠な技術である音声検索の重要性が増している。
- 既存のベンチマークは意味的なマッチングに集中しており，否定理解や時間的順序など，現実世界のクエリに必要な高度な推論能力を捉えられていない。
- テキストと音声の検索における推論能力を評価するためのベンチマークを提供し，既存モデルの課題を明らかにする。
- ReasonAudioは，否定，順序，重複，期間，混合の5つの基本的な推論タスクで構成される，初の推論重視型テキスト-音声検索ベンチマークである。
- 評価された10個の最先端モデルは，ReasonAudioにおいて推論を必要とする音声検索に苦戦しており，特に否定と期間のタスクで低い性能を示した。
- マルチモーダル大規模言語モデルベースの埋め込みモデルは，コントラスト学習によるファインチューニングを通じてバックボーンの推論能力を継承できていないことが明らかになった。
Link: https://arxiv.org/abs/2605.03361
微量ガスプルームの完全自動検出 [cs.LG]目的：微量ガス点源の自動検出手法
- 将来の分光計はデータ量が飛躍的に増加し，効率的なガス検知が不可欠である。
- 既存手法では，大量データからのガスプルーム検出に人的資源が必要となる。
- 本研究は，人的介入なしにプルームを検出する自動化システムを構築する。
- 機械学習と分光学的フィッティングを組み合わせることで，高い精度でプルームを検出した。
- 「日次ダイジェスト」モードで自動検出を行い，大規模なプルームを迅速に特定可能である。
- 過去のデータ分析により，見過ごされていたプルームの約25%を検出することに成功した。
Link: https://arxiv.org/abs/2605.03372
零次最適化の学習力学：カーネルの視点 [cs.LG]目的：零次最適化の学習力学の解明
- 大規模言語モデルの登場により，パラメータ数が飛躍的に増加し，効率的な最適化手法が求められている。
- 従来の理論では，零次最適化は次元数に依存して収束が遅くなることが知られている。
- 大規模言語モデルのファインチューニングにおける零次最適化の成功例を説明する理論的根拠を与える。
- 零次確率的勾配降下法の１ステップ学習力学において，実ニューラル接線カーネルが学習行動を支配する重要な要素として導出された。
- 導出されたカーネルの要素は，ニューラル接線ベクトルをランダムな低次元部分空間に投影した内積に対応する。
- ジョンソン・リンデンストラウスの補題を用いることで，カーネルの精度が摂動の数に依存し，モデルのパラメータ次元数に依存しないことが示された。
Link: https://arxiv.org/abs/2605.03373
GRAFT：グローバル特徴量帰属によるグラフニューラルネットワークの監査 [cs.LG]目的：グラフニューラルネットワークにおけるクラスレベルの特徴量重要度プロファイルの特定
- グラフニューラルネットワークは性能が高いが，予測の根拠が不明確であるという課題がある。
- 既存の説明手法は構造に着目しており，入力ノード属性レベルでの説明が不足している。
- 入力ノード属性レベルでのグローバルな特徴量影響を把握し，解釈可能性を高める。
- GRAFTは，多様性を考慮したサンプル選択とIntegrated Gradientsに基づく帰属を組み合わせる。
- 各クラスに対する特徴量影響の全体像を構築し，自然言語ルールとして表現可能。
- 実験結果から，GRAFTがモデルに関連する特徴量を捉え，バイアス分析や転移学習に役立つことが示唆された。
Link: https://arxiv.org/abs/2605.03377
二回の呼び出し，二つの瞬間，そしてLLM反復推論の投票精度曲線 [cs.LG, cs.CL]目的：LLM反復推論における正誤の潜在的分布
- LLMの性能向上には，推論時間の計算資源配分が重要である。
- 単一の呼び出し精度だけでは，反復推論の利点を十分に制御できない。
- 二回の呼び出しで得られる情報を利用し，投票精度の向上を目指す。
- 反復推論において，二回のラベル付き呼び出しで，成功確率の二乗モーメントと同一事例における正誤相関を特定できる。
- 固定された多数決予算に対して，分布に依存しない明確な二回の呼び出し間隔が存在する。
- 三票の予算で閉じた形式の解が得られ，温度変化やモデル混合により，単一呼び出し精度とは異なる投票の利得が見られた。
Link: https://arxiv.org/abs/2605.03379
GeoDecider：説明可能な岩石分類のための粗略から詳細へのエージェントワークフロー [cs.NI, cs.AI]目的：岩石分類の精度向上と説明可能性の提供
- 油田や地熱開発において，地質構造の理解は資源探査・開発の成否を左右する。
- 既存手法は単一の分類タスクとして岩石分類を行うため，地質学的知識や専門家の判断が反映されにくい。
- 大規模言語モデルを活用し，専門家のような多段階ワークフローで，より正確で説明可能な岩石分類を実現する。
- GeoDeciderは，事前に学習済みの分類器による粗分類，ツールを用いた詳細な推論，地質学的整合性の検証という3段階のワークフローを採用している。
- 4つのベンチマークデータセットにおいて，既存手法と比較して優れた性能を示した。
- 提案手法は，地質学的に解釈可能な予測を行いながら，分類性能と推論効率のバランスを改善した。
Link: https://arxiv.org/abs/2605.03383
大規模交通予測のための局所的切断誤差誘導ニューラル常微分方程式 [cs.LG, cs.AI]目的：大規模交通ネットワークにおける時空間予測の精度向上
- 交通流予測は都市計画や交通管理において不可欠であり，社会経済活動に大きな影響を与える。
- 従来のニューラル常微分方程式は，急激な異常値に対して過度な平滑化を引き起こすという課題があった。
- 局所的切断誤差を活用し，連続的な進化と離散的な衝撃を同時に捉えることで予測精度を向上させる。
- 提案手法は，数値誤差を逆手に取り，動的な空間的注意マスクを生成することで，安定領域では高精度なODE進化を維持し，衝撃点では離散的な補償機構を活性化する。
- 多様な大規模ベンチマークにおいて，既存手法を凌駕する性能を発揮し，高度に非線形な変動に対する優れたロバスト性を示す。
- 積分ステップ数のアブレーション実験により，ハードウェアのメモリ制約に応じて柔軟にモデルを調整できることが示された。
Link: https://arxiv.org/abs/2605.03386
微分プライバシー保護されたGNN説明からのグラフ再構成 [cs.CL, cs.LG, cs.CR]目的：GNN説明からのグラフ構造再構成の脆弱性評価
- 機械学習モデルの説明可能性は，透明性確保や信頼性向上のために重要である。
- プライバシー保護のため差分プライバシーが用いられるが，説明からの情報漏洩リスクが残る。
- 差分プライバシー保護されたGNN説明からのグラフ構造再構成の可能性を検証する。
- 差分プライバシー保護されたGNN説明のみから，隠れたグラフ構造を高精度に再構成できる攻撃手法PRIVXを提案した。
- PRIVXは，差分プライバシーのガウスノイズ機構を逆拡散過程として捉え，汚染された信号からグラフを再構成する。
- ホモフィリックグラフでは近傍集約型説明者が，ヘテロフィリックグラフでは勾配説明者がより構造を漏洩しやすいことを示した。
Link: https://arxiv.org/abs/2605.03388
訓練不要な二重システムフレームワークによる自己教師ありトーキングヘッド偽造検出の強化 [cs.CV, cs.AI, cs.MM]目的：トーキングヘッド偽造検出における性能向上
- 生成モデルの進化に対応した汎化性能が重要視される。偽造手法は常に進化し続けるため。
- 既存の検出器は偽造パターンの識別能力に依存し，新しい偽造手法には弱い。
- 既存の自己教師あり検出器の潜在的な識別能力を引き出す。
- 提案手法TFDSは，既存の検出器のスコアに基づいて二重システムを構築し，曖昧なサンプルを再評価する。
- 確信度の低いサンプルに焦点を当てることで，スコアの信頼性の低い順序を修正する。
- 実験により，様々なデータセットや摂動下で性能が向上することが示された。
Link: https://arxiv.org/abs/2605.03390
2変数論理におけるカウントと剰余カウント量化子を持つ高速モデル数え上げアルゴリズム [cs.LO, cs.AI]目的：2変数論理におけるカウントと剰余カウント量化子を持つWFOMCの効率的な計算手法
- リフテッド確率推論における中核的課題であり，有限領域における命題のモデルの重み付き合計を求める。
- 既存アルゴリズムは，カウント量化子を削減する多段階の手法に依存し，領域サイズが増加すると実用的なオーバーヘッドが大きくなる。
- カウント量化子を直接扱うことで，計算効率を向上させ，より大規模な問題への適用を可能にすることを目指す。
- 新しいアルゴリズム IncrementalWFOMC3 は，カウントパラメータに関するデータ複雑度を二次から線形に削減することに成功した。
- 剰余カウント拡張 $\mathbf{C}^2_{\text{mod}}$ が領域リフト可能であることが証明され，より表現力豊かなフラグメントへの適用範囲が拡大された。
- 実験評価により，IncrementalWFOMC3 が既存の WFOMC アルゴリズムや最先端の命題モデルカウンターと比較して，大幅な実行時間改善とスケーラビリティの向上を実現することが示された。
Link: https://arxiv.org/abs/2605.03391
APEX：AI生成音楽の美的感覚に基づいた大規模多タスク人気予測 [cs.SD, cs.AI, cs.LG, cs.MM]目的：AI生成音楽の人気予測モデルの構築
- 音楽人気予測は，アーティスト，プラットフォーム，推薦システムにとって重要である。
- AI生成音楽プラットフォームの急増により，従来の指標が通用しない状況が生じている。
- 美的感覚が音楽の人気に与える影響を考慮した予測モデルを開発する。
- APEXは，SunoとUdioの21.1万曲以上の楽曲で学習された大規模多タスク学習フレームワークである。
- ストリーム数や「いいね」数といった人気指標と，音楽の美的品質の5つの側面を同時に予測する。
- Music Arenaデータセットでの評価において，美的特徴の組み込みが予測精度を向上させ，汎化性能が示された。
Link: https://arxiv.org/abs/2605.03395
PODiff：科学的超解像のための固有直交分解空間における潜在拡散 [cs.LG, physics.ao-ph]目的：科学的超解像のための潜在拡散手法
- 高次元空間場の超解像は，科学シミュレーションの精度向上に不可欠である。
- ピクセル空間での拡散モデルは計算コストが高く，実用上の制約となる。
- 固有直交分解空間での拡散により，計算効率と解釈性を向上させる。
- PODiffは，ピクセル空間での拡散と同等の再構成精度を達成する。
- PODiffは，大幅に少ないメモリ使用量で計算を実行できる。
- PODiffは，決定論的およびモンテカルロドロップアウトベースラインよりも信頼性の高い不確実性推定を提供する。
Link: https://arxiv.org/abs/2605.03399
GRPO-TTA：GRPO駆動強化学習によるVision-Languageモデルのテスト時視覚チューニング [cs.CV, cs.LG]目的：Vision-Languageモデルのテスト時適応
- 画像と言語を結びつけるモデルは，多様な応用において重要な役割を担う。
- テスト時における環境変化への適応が困難であり，性能低下を招く場合がある。
- テスト時適応能力を向上させ，環境変化にロバストなモデルを構築すること。
- 本研究で提案するGRPO-TTAは，既存のテスト時適応手法を上回る性能を示すことが確認された。
- 特に，自然な分布シフト下において顕著な性能向上が認められた。
- 出力グループの構築と報酬関数の設計により，効果的な視覚エンコーダのチューニングを実現した。
Link: https://arxiv.org/abs/2605.03403
TsallisPGD：セマンティックセグメンテーションに対する敵対的攻撃のための適応勾配重み付け [cs.CV, cs.LG]目的：セマンティックセグメンテーションモデルに対する敵対的攻撃手法
- セマンティックセグメンテーションは，画像認識において重要なタスクであり，その堅牢性を評価する必要がある。
- 従来の攻撃手法は，ピクセルごとの損失関数を用いるため，最適化が遅延し，モデルの頑健性を過大評価する可能性がある。
- Tsallisクロスエントロピーを用いて，勾配の集中度を制御し，攻撃の効率と精度を向上させる。
- TsallisPGDは，動的な$q$スケジュールを用いることで，様々なデータセット，モデル構造，摂動予算において優れた攻撃性能を示す。
- 既存の攻撃手法（CEPGD, SegPGD, CosPGD, JSPGD, MaskedPGD）と比較して，精度とmIoUの低下において優位性を示す。
- 単一の検証データで選択されたスケジュールで，全ての評価設定において平均的な攻撃ランクが最も高かった。
Link: https://arxiv.org/abs/2605.03405
大規模言語モデルによる強化学習インターフェースの発見 [cs.LG, cs.AI]目的：強化学習タスクインターフェースの自動発見
- 強化学習は，多様なタスクへの応用が期待されるが，環境とのインターフェース構築が課題である。
- 従来のインターフェース設計は手作業に頼る部分が多く，新規タスクへの適用に時間と労力がかかる。
- 大規模言語モデルを活用し，観測と報酬関数を同時に生成することで，インターフェース構築の自動化を目指す。
- 提案手法LIMENは，LLMを活用した進化フレームワークであり，実行可能なプログラムとしてインターフェース候補を生成・洗練する。
- 離散グリッドワールドや連続制御タスクにおいて，観測と報酬の同時進化が，成功指標に基づいた有効なインターフェースを発見した。
- 観測または報酬のみを最適化する手法は，少なくとも一つのドメインで失敗し，両者の共同設計の重要性が示された。
Link: https://arxiv.org/abs/2605.03408
堅牢なエージェント補償 (RAC): AIエージェントへの補償の教え方 [cs.AI]目的：AIエージェントの信頼性向上と実行時の副作用回避
- AIエージェントの応用範囲は広いが，予期せぬ挙動によるリスクが存在する。
- 既存の回復メカニズムは，遅延やコストの増大を招く場合がある。
- エージェントの実行を安全かつ効率的に補償する手法の確立を目指す。
- 提案手法RACは，既存のエージェントフレームワークに容易に組み込むことができる。
- 実験結果から，RACは最先端のLLMベース回復手法と比較して，遅延とトークン消費量を大幅に削減できることが示された。
- 複雑な問題解決において，RACは1.5倍から8倍以上のパフォーマンス向上を実現した。
Link: https://arxiv.org/abs/2605.03409
密度に基づく幾何：少数のサンプルを用いたクロスドメインOOD検出 [cs.AI]目的：少数のサンプルを用いたクロスドメインOOD検出の実現
- 安全な実用化には，モデルの訓練分布外の入力に対応する能力が不可欠である。
- 既存のOOD検出器は特定のドメインに特化しており，汎用性に課題がある。
- 追加訓練なしで，未知のドメインへの適応を可能にするOOD検出手法を開発する。
- 拡散過程のトラジェクトリを情報幾何学的に解析するUFCODを提案した。
- 拡散ノイズ予測のスコア関数に着目し，Path EnergyとDynamics Energyという特徴量を抽出した。
- 単一の訓練データセットで訓練した拡散モデルを，多様なドメインのOOD検出に活用できることを示した。
Link: https://arxiv.org/abs/2605.03410
スマート受動音響モニタリング：AudioMothマイクロコントローラーへの分類器組み込み [cs.NI, cs.SD, cs.AI]目的：受動音響モニタリングにおける，音響データのその場での分析
- 生態系調査において，費用を抑えた効率的な手法が求められている
- 電力消費とデータ保存容量が限られており，調査期間が制限される
- AudioMoth上で分類器を実行し，効率的なデータ収集を可能とする
- 提案手法は，1D-CNNを用いてScopoli Shearwaterの鳴き声を91%の精度で分類できる
- モデルはAudioMothの制約に対応するため，約10KBのRAMフットプリントと20msの推論時間で動作する
- 本研究は，知能センサーの開発を促進し，生物音響モニタリングの効率と拡張性を高める
Link: https://arxiv.org/abs/2605.03412