arXiv雑要約

AI - 2026/06/11 公開

  • 一貫性プランナー:高速サンプリング一貫性モデルによるリアルタイムプランニング [cs.RO, cs.AI]目的:複雑な実世界運転シナリオにおけるリアルタイムプランニング手法
    • 自動運転システムの安全性向上は,社会実装において不可欠である。
    • 学習ベースの手法は多様な運転行動のモデル化とリアルタイムプランニングの両立が難しい。
    • 多様な行動を高速に探索し,安全かつロバストなプランニングを実現する。
    • 提案手法は,高速サンプリング一貫性モデルと注意機構付きデコーダーを組み合わせることで,リアルタイムなプランニングを可能にする。
    • Waymaxシミュレーターでの評価により,既存手法と比較して安全性能が向上することが示された。
    • 特に,複雑な動的シナリオにおいて優れた結果が得られている。

    Link: https://arxiv.org/abs/2606.11569

  • 目標特性範囲内での多様な設計を発見するための範囲認識型ベイズ最適化 [cs.LG, cond-mat.mtrl-sci, physics.chem-ph, stat.ML]目的:目標特性範囲内を満たす多様な設計の探索
    • 材料や製品設計において,単一の最適値だけでなく,特定の範囲内に収まる特性を持つ候補が求められる場面が多い。
    • 既存手法では,複数の有効な設計を効率的に見つけ出すことが難しく,多様性の確保も課題である。
    • 目標範囲を満たす候補の事後確率を直接評価するベイズ最適化フレームワークを開発し,多様な設計探索を実現する。
    • 提案手法は,標準的なベイズ最適化や最近のゴール探索法と比較して,より多く,より多様な有効な設計を安定的に発見できる。
    • ポリマー合成反応条件の最適化や,所望の光吸収帯を持つオリゴマー設計といった実用的なケーススタディで有効性が示された。
    • 本研究は,設計の柔軟性や解の多様性が重要な仕様主導型設計のための実用的かつサンプル効率の良い基盤を提供する。

    Link: https://arxiv.org/abs/2606.11574

  • AVIS:Vision-Languageモデルの適応的テスト時スケーリング [cs.CV, cs.AI]目的:Vision-Languageモデルにおける推論コスト削減と精度向上
    • 近年のVision-Languageモデルの発展は目覚ましいが,計算コストが課題となっている。
    • 視覚コンテキストのスケーリングと推論時の探索範囲拡大は,それぞれ個別に最適化されることが多い。
    • 視覚コンテキストと推論探索の計算資源配分を同時に最適化し,効率的な推論を実現すること。
    • 提案手法AVISは,Key Diversity Visualプルーニングにより冗長な視覚情報を削減する。
    • 適応的自己整合性により,推論回数を画像難易度に応じて調整する。
    • 様々な画像・動画推論ベンチマークにおいて,既存手法と比較して精度と計算コストのトレードオフを改善した。

    Link: https://arxiv.org/abs/2606.11576

  • ゴールデン教師を超えて:LLM-GNN共同教師あり学習によるグラフ学習の強化 [cs.DB, cs.SI, cs.LG]目的:テキスト属性グラフにおける少数のラベルを用いたグラフ学習の性能向上
    • 現実世界の様々な応用において,引用ネットワークやソーシャルメディアなどテキスト属性グラフの利用が拡大している。
    • ラベルが少ない状況下では,GNNもLLMも単独では十分な学習が難しく,性能が制限されるという課題がある。
    • 既存手法の「ゴールデン教師」という前提を解消し,双方向の共同学習でグラフ学習の有効性を高めることを目指す。
    • LLM-GNN共同教師あり学習は,既存のGNN-as-Judgeや先行手法を上回り,Coraで7.86%,ogbn-arxivで7.73%の3-shot学習での絶対的な性能向上を実現した。
    • この改善は5-shot学習やゼロショットのクロスデータセット転移においても確認され,汎用性も示された。
    • エラー構造分析により,ゴールデン教師の前提を放棄することが,LLMの困難なサンプルに対するグラフ学習能力を大幅に向上させることが示された。

    Link: https://arxiv.org/abs/2606.11583

  • 倉本注意機構:トーラス上の自己注意の同期 [cs.LG, cs.CL, nlin.AO]目的:自己注意層における隠れ座標の角度化と,その同期メカニズムの探求
    • 自然言語処理において,Transformerモデルは高性能を示すが,計算コストが高いという課題がある。
    • 従来の注意機構は,位置情報の組み込み方や効率性に課題が残されている。
    • 位相の同期に着想を得て,より効率的かつ表現力の高い注意機構を提案し,その有効性を検証する。
    • 提案手法である倉本注意機構は,位相に基づくスコアリングと更新を行うことで,自己注意層を実現している。
    • enwiki8による文字レベル言語モデリング実験の結果,従来のRoPE+SwiGLU Transformerと同等の性能を示した(100万パラメータで0.02 BPC以内)。
    • この結果は,制約された幾何学的構造が言語モデルとして有効であることを示しており,自己注意と位相同期の間の新たな橋渡しとなる。

    Link: https://arxiv.org/abs/2606.11585

  • ロバストなネットワークシステムのためのモデルベースおよびデータ駆動型階層制御とトポロジー共同設計 [eess.SY, cs.AI, cs.SY]目的:ネットワークシステムのロバスト性向上を目指した階層制御およびトポロジー共同設計
    • ネットワークシステムは社会インフラを支える基盤であり,その安定性と信頼性が重要である。
    • 既存手法では,システムの非線形性や不確実性への対応が難しく,ロバスト性の確保が課題である。
    • モデル情報がないシステムに対しても適用可能なデータ駆動型制御手法を提案し,ロバスト性を実現する。
    • 本研究では,消散性理論に基づいた階層制御設計戦略を提案し,ネットワークシステム全体の消散性を保証する。
    • モデルベース設計に加え,システムダイナミクスが未知の場合でも利用可能なデータ駆動型設計戦略も提案した。
    • DCマイクログリッドへの適用例を通して,提案手法の有効性を電圧調整と電流分担において示した。

    Link: https://arxiv.org/abs/2606.11596

  • LLMはいつ制御可能か? [cs.CL, cs.LG]目的:言語モデルの制御可能性予測
    • 大規模言語モデルの挙動制御は,その応用範囲を広げる上で不可欠である。
    • 活性化ベクトルの操作による制御は,プロンプトやモデルに依存し,成功の保証がない。
    • 初期の隠れ状態から制御の成功を予測し,効率的な制御手法を開発することを目指す。
    • モデルの初期段階における隠れ状態の特徴量が,最終的な制御効果を予測する上で重要な情報を含むことが示された。
    • 開発された予測器は,未知の概念に対しても高い精度(約0.7のmacro-F1スコア)を達成した。
    • 予測器を活用した制御強度探索により,少ない計算コストで最適な性能が得られることが確認された。

    Link: https://arxiv.org/abs/2606.11599

  • 大規模言語モデルを活用した物理学知識蒸留ニューラルネットワーク:製造プロセスと特性の予測モデリング [cs.LG, cs.AI]目的:製造プロセスと特性の関係性の予測
    • 製造業における品質向上やコスト削減には,プロセスと特性の関係性の正確な理解が不可欠である。
    • 実験コストが高く,複雑なモデルの解釈が困難であるため,正確な予測が難しいという課題がある。
    • データが少ない状況下でも高精度な予測を可能にする新しい知識蒸留フレームワークを開発し,解決を目指す。
    • 提案するフレームワークは,大規模言語モデルから抽出した物理学の知識を組み込むことで,高精度な予測を実現した。
    • 特に,データが少ない場合でも,堅牢な予測性能を維持し,LLM由来の知識が不完全でも高い耐障害性を示した。
    • 軽量な学生予測器は6000Hzを超える推論周波数で動作し,リアルタイムのエッジ展開を可能にする。

    Link: https://arxiv.org/abs/2606.11605

  • マルチモーダル相互作用学習の情報理論的分解 [cs.IR, cs.CL, cs.HC, cs.SI, cs.LG, cs.AI, cs.CV]目的:マルチモーダル相互作用の捉え方
    • 多様なデータ統合の鍵であり,人間知覚の模倣に重要であるため。
    • 既存手法では,サンプルごとの動的な相互作用を捉えきれない。
    • サンプル固有の相互作用を学習し,マルチモーダル学習の性能向上を目指す。
    • 本研究では,情報理論的分析により,動的な相互作用学習の重要性を明らかにした。
    • 提案手法DMILは,サンプルごとに相互作用を分解・学習する新しいパラダイムである。
    • 実験結果から,DMILが様々なタスクで優れた性能を発揮することが示された。

    Link: https://arxiv.org/abs/2606.11614

  • Adv-TGD:敵対的テキスト誘導拡散を用いた顔認識なりすまし攻撃 [cs.CV, cs.CR, cs.LG]目的:顔認識システムを欺く,写実的な顔画像生成
    • 顔認識技術は広く普及する一方,プライバシー侵害のリスクが懸念されている。
    • 既存の攻撃手法では,攻撃成功率と生成画像の品質を両立することが困難である。
    • テキストによる誘導と拡散モデルを活用し,高精度かつ高品質ななりすまし攻撃を実現する。
    • 本研究で提案するAdv-TGDは,IR152, IRSE50, MobileFace, FaceNetにおいて平均85.90%の攻撃成功率を達成した。
    • 既存の最先端手法Adv-CPGと比較して,攻撃成功率を+6.25ポイント向上させた。
    • 高品質な画像を維持しつつ(PSNR = 27.15 dB, SSIM = 0.981),多様なデータセットやモデルへの適用も可能であることを示した。

    Link: https://arxiv.org/abs/2606.11615

  • DeMix:影響ベクトルを用いた混合型データエラーの訓練データデバッグ [cs.LG, cs.IR]目的:訓練データにおける誤りサンプルと誤り種類の同時診断
    • 機械学習モデルの性能は訓練データの質に大きく依存する。現実のデータセットには様々な誤りが含まれる。
    • 既存手法では,誤りサンプルの検出と誤り種類の特定を同時に行うことが難しい。
    • 異なる種類の誤りがモデルの振る舞いにおいて異なるパターンを示すという洞察に基づき,解決を目指す。
    • DeMixは,各訓練サンプルが検証サンプルへの予測に与える影響を示す影響ベクトルを用いることで,誤りパターンを捉える。
    • 影響ベクトルから直接誤り種類を予測する多ラベル分類問題を構築し,介入学習戦略によって分類器の汎化性能を高める。
    • 11のタスクにおいて,最先端手法と比較してデータデバッグF1スコアが22.61%向上,タスクモデル性能が9.32%向上した。

    Link: https://arxiv.org/abs/2606.11616

  • TimeRouter:時系列基盤モデルの効率的かつ適応的なルーティング [cs.LG]目的:時系列基盤モデルのルーティング手法
    • 時系列データ分析において,基盤モデルの活用が重要性を増している。
    • 各モデルの特性が異なるため,最適なモデル選択が課題となっている。
    • LLMを使用せず,軽量なルーティングで効率的なモデル選択を目指す。
    • TimeRouterは,事前学習済みの時系列基盤モデル群の経験的な補完性を活用するルーティングフレームワークである。
    • GIFT-EVALリーダーボードにおいて,最先端の性能(LB MASE 0.6765)を達成した。
    • モデル群の構成や選択的ゲーティングの重要性が実証された。

    Link: https://arxiv.org/abs/2606.11625

  • コンテキストが回帰するとき:オンポリシー蒸留における堅牢な内部化に向けて [cs.LG, cs.AI]目的:オンポリシー蒸留によるコンテキストの内部化と,その堅牢性の向上
    • 大規模言語モデルの性能向上には,効率的な知識伝達が不可欠である。
    • コンテキストを内部化する際,再導入時に性能が低下する現象が未解明である。
    • コンテキスト再導入時の性能劣化を抑制し,堅牢な内部化を実現すること。
    • 本研究では,コンテキスト再導入による性能劣化(context-induced degradation)を明らかにした。
    • 停止勾配と正順KLダイバージェンスを用いた軽量な正則化手法を提案し,その有効性を検証した。
    • 提案手法は,12種類の設定において,コンテキスト条件付き精度を向上させ,性能劣化を抑制,応答長のインフレを解消した。

    Link: https://arxiv.org/abs/2606.11627

  • LUCID:非構造化ヒューマンビデオからの具現化非依存型意図モデル学習によるスケーラブルなロボット高度技能獲得 [cs.RO, cs.AI]目的:非構造化ヒューマンビデオからの意図モデル学習
    • ロボットの技能獲得において,データ収集コストと特定のロボット形態への依存が課題である。
    • 既存手法では,ロボット実演データや構造化データが必要であり,汎用性に乏しい。
    • インターネット上の大規模ビデオデータを用いて,ロボット形態に依存しない意図モデルを学習し,技能獲得を効率化する。
    • LUCIDは,インターネット上の非構造化ヒューマンビデオからタスク意図を学習し,シミュレーション環境でロボット制御を学習する二段階フレームワークである。
    • 学習された意図モデルは,多様なロボット形態(手やグリッパーなど)に適用可能であり,ゼロショット転移による新規シーンへの適応が可能である。
    • 実世界の攪拌,拭き取り,分別などのタスクで有効性が確認された。スマートフォンビデオによる学習でも良好な結果が得られた。

    Link: https://arxiv.org/abs/2606.11628

  • 主権保証境界:エージェント型インフラのための証明書束縛による認可 [cs.CR, cs.AI, cs.DC, cs.MA]目的:エージェント型インフラにおける実行認可の仕組み
    • インフラの自律化が進む中で,制御プレーンの認可が重要となる。
    • 既存のセキュリティ機構では,動的な状況変化に対応した認可が困難である。
    • エージェントの提案を検証し,安全な実行を保証する仕組みを確立する。
    • 主権保証境界(SAB)は,エージェントの提案を証明書に束縛することで,実行認可を行う。
    • SABは,実行契約を暗号学的証拠とポリシーバージョンに結びつけ,実行パスを認証する。
    • この仕組みにより,自律的な推論による状態変更を防止し,実行権限を検証可能な成果物とする。

    Link: https://arxiv.org/abs/2606.11632

  • アーキテクチャを意識した強化学習が,数学推論におけるスライディングウィンドウ注意機構の競争力を高める [cs.AI]目的:数学推論におけるスライディングウィンドウ注意機構(SWA)の性能向上
    • 大規模言語モデルの推論能力向上に伴い,長文脈推論の需要が高まっている。
    • 自己注意機構(SA)は文脈長に比例して計算量が増大する点が課題である。
    • SWAへの変換と強化学習による適応を通じて,SAとの性能差を縮小することを目指す。
    • 教師ありファインチューニングだけではSWAはSAに劣るが,強化学習によってその差を大幅に縮小できることが示された。
    • SWAへの変換による精度低下を,強化学習によって多く回復させつつ,線形複雑度注意機構の効率性を維持できる。
    • 強化学習は,SWAの実行可能性に関する従来の評価を覆す重要な要素であることが明らかになった。

    Link: https://arxiv.org/abs/2606.11634

  • LLMは道徳的推論が苦手なのか [cs.CY, cs.AI]目的:大規模言語モデルの道徳的推論能力の評価
    • AIが安全に運用されるには,道徳的判断が不可欠である。
    • 既存研究では,AIの道徳的推論能力は低いと結論づけられている。
    • MoReBenchデータセットを用いた評価方法を再検討し,AIの能力を再評価する。
    • LLMに事例の評価基準を生成させることで,人間が作成した基準との整合性が高まる。
    • LLMと人間の評価基準の差異は,道徳問題の多面性や人間の主観性を反映している可能性がある。
    • MoReBenchデータセットは,LLMの道徳的推論能力が従来考えられていたよりも高いことを示唆する。

    Link: https://arxiv.org/abs/2606.11635

  • TouchThinker:大規模データと行動認識表現を用いた,オープンワールドにおける触覚的常識推論の拡張 [cs.RO, cs.AI]目的:触覚的常識推論のオープンワールドへの拡張
    • ロボットなどの具現化されたエージェントにとって,物理世界を理解する上で触覚は重要な役割を果たす。
    • 既存の触覚推論データセットは規模や形式が限られており,触覚情報から物理的常識を推論するための十分な学習が困難である。
    • 触覚信号の冗長性や行動特有性を考慮した効率的な表現を学習し,推論能力を向上させる。
    • TouchThinkerは,大規模なマルチソース触覚推論データセット「TouchThinker-1M」を構築し,オープンワールドでの汎化性能向上を実現した。
    • 行動認識モデリング機構を導入することで,触覚表現の効率性を高め,効果的な推論を可能にした。
    • 複数のデータセットにおいて,最先端モデルと同等以上の性能を達成した。

    Link: https://arxiv.org/abs/2606.11637

  • タスク適応型LLM事前グラフの精緻化による少数ショット表形式学習 [eess.SY, cs.SY, cs.CL, cs.LG, cs.AI]目的:少数ショット表形式学習における予測性能の向上
    • 表形式データは現実世界の様々なタスクに利用され,効率的な学習手法が求められている。
    • 既存手法は計算コストが高い,またはプライバシー上の懸念があるなどの課題を抱えている。
    • 特徴間のセマンティックな関係性を活用し,よりロバストな学習を実現する。
    • 提案手法TAROTは,LLMを用いて構築されたセマンティックグラフをタスク適応的に精緻化することで,予測精度を向上させる。
    • USTNEによる統一的なノード表現と,タスク適応型グラフ精緻化により,ノイズを低減し関連性の高い特徴間の依存関係を捉える。
    • 様々なベンチマークデータセットにおいて,TAROTが最先端の性能を達成することが示された。

    Link: https://arxiv.org/abs/2606.11640

  • エイトチソンシンプレックスの木構造直交分解 [cs.LG, q-bio.QM, stat.ML]目的:組成データの木構造に適合した正準直交分解法
    • 生態学,地球化学,ゲノミクスなど多様な分野で組成データが利用される。
    • 既存手法では,階層構造を無視,Aitchison幾何学を損なう,または不完全な座標系となる。
    • 任意の木構造に適合した,安定かつ解釈可能な特徴量抽出を可能にすること。
    • PolyILRは,Aitchison接空間を木構造に合わせて分解する新しい手法である。
    • 微生物群集や単一細胞データの解析で,多スケールな階層構造での推論が可能となった。
    • また,ソフトマックス分類器との関連性を示し,確率モデルへの応用が期待される。

    Link: https://arxiv.org/abs/2606.11646

  • 構造を保持するニューラルサロゲートと扱いやすい不確実性定量化 [cs.LG, cs.NA, math.NA, physics.comp-ph]目的:偏微分方程式のリアルタイム解法
    • 科学機械学習は,従来のシミュレータの検証・妥当性を担保する理論的基盤を欠いている。
    • リアルタイム性と物理保存則の維持を両立する高精度なサロゲートモデルが求められている。
    • 物理保存則に基づく構造を維持し,不確実性を定量化できるサロゲートモデルを構築する。
    • 外部微積分を利用し,状態・フラックス間の不確実性をガウス過程で表現することで,不確実性定量化を実現した。
    • 混合有限要素法とガウス過程回帰の界面を構築し,物理保存則を課した最適化問題として効率的な学習を可能にした。
    • 提案手法は,境界値からフラックスをリアルタイムに推定でき,線形汎関数のRKHS事後誤差限界も提供する。

    Link: https://arxiv.org/abs/2606.11650

  • DeepRHP:タンパク質模倣ヘテロポリマー設計のためのハイブリッド変分オートエンコーダ [cs.LG, q-bio.QM, stat.AP]目的:ランダムヘテロポリマーのタンパク質様材料としての設計
    • タンパク質模倣材料の開発は,生物学的機能を持つ新素材創製に不可欠である。
    • ランダムヘテロポリマー設計には,効率的な計算ツールが不足していた。
    • DeepRHPは,効率的なヘテロポリマー設計を可能にする。
    • DeepRHPは,変分オートエンコーダに特徴ベースの変分オートエンコーダを組み合わせたハイブリッドモデルである。
    • 膜タンパク質を安定化させる可能性のあるモノマー組成を予測し,既存研究との交差検証を行った。
    • モデルの予測と実際のヘテロポリマー機能の一致は,ハイブリッドオートエンコーダの有用性を示唆する。

    Link: https://arxiv.org/abs/2606.11651

  • IAPO:小規模マルチモーダルエージェントにおけるツール利用のための入力帰属認識型方策最適化 [cs.LG]目的:小規模マルチモーダルエージェントにおけるツール利用能力の向上
    • マルチモーダルAIの発展は,多様な情報を統合し,より高度なタスクを遂行する可能性を秘めている。
    • 小規模言語モデル(SLM)の学習では,報酬の疎らさや形式的な制限が学習のボトルネックとなりやすい。
    • 入力のどの部分が重要かを示すことで,SLMが効率的にツール利用方法を学習することを可能にする。
    • 提案手法IAPOは,教師モデルの入力帰属との整合性により,マルチモーダルSLMのツール利用を改善する。
    • Qwen2.5-VL-3Bを用いた実験で,既存手法と比較して,平均3%のビジュアル質問応答精度の向上が確認された。
    • モデルが最も関連性の高い入力証拠に注意を向けることを支援し,性能向上に貢献している。

    Link: https://arxiv.org/abs/2606.11652

  • 疎なプローブと曖昧な物理:連続体力学の基盤モデルにおける解釈可能性の課題事例 [cs.LG, cs.AI]目的:連続体力学の基盤モデルにおける内部メカニズムの解明
    • 科学分野では,物理的直感や理論に基づいた検証が重要である。
    • 基盤モデルが既存の理論を再現する場合,その内部動作が物理法則に合致するか不明確である。
    • モデルの成功と失敗に関連する内部表現を物理に基づいて解釈すること。
    • 疎なオートエンコーダを用いて特徴量を抽出し,物理量であるエントロピーを用いて優先度を決定した。
    • 複数のせん断流設定において,特徴量の再利用に一貫性が見られたが,構造は断片的で標準的な物理分解と一致しなかった。
    • 数値シミュレーションとモデルの出力比較から,エネルギーや構造の拡散・局所化に関するずれが確認され,特徴量利用の変化と関連付けられた。

    Link: https://arxiv.org/abs/2606.11657

  • データ帰属のためのオープンソースライブラリBergson [cs.LG]目的:データ帰属手法の提供
    • モデルの挙動解釈は,信頼性向上や問題発見に不可欠である。
    • 大規模モデルへの適用には計算資源が必要であり,実装が困難である。
    • 大規模言語モデルや事前学習データセットに対応可能なツールを提供する。
    • Bergsonは,ディスク上での勾配保存や分散学習をサポートする。
    • MAGIC,SOURCE,TrackStarといった主要なデータ帰属手法をオープンソースで提供する。
    • 研究者がより効率的にデータ帰属研究を進められるように支援する。

    Link: https://arxiv.org/abs/2606.11660

  • 衣服の変化を伴う人物再特定のためのインスタンス適応型低ランク直交部分空間学習 [cs.CV, cs.LG]目的:衣服の変化を伴う人物再特定における人物識別性能向上
    • 人物再特定は,監視カメラ映像などから個人を特定する技術であり,社会の安全確保に貢献する。
    • 衣服の変化は人物再特定において大きな課題であり,既存手法では十分な識別精度が得られない場合がある。
    • 衣服の特徴を考慮しつつ,衣服に依存しない人物表現を学習することで,再特定精度を向上させる。
    • 提案手法Ortho-ReIDは,VLMのテキスト記述から低ランクの衣服部分空間を明示的にモデル化し,幾何学的制約によって衣服に依存しない表現を抽出する。
    • TransformerベースのBasis Makerが,画像パッチとのクロスアテンションを通じて,共有された低次元の衣服事前知識をインスタンス適応型低ランク部分空間に洗練させる。
    • PRCC,Celeb-reID-light,LaSTにおいて最先端の性能を達成し,LTCCにおいても競争力のある結果を示した。

    Link: https://arxiv.org/abs/2606.11661

  • TreeSeeker: 深層探索における木構造化された試行錯誤とリターン [cs.AI]目的:深層探索における制御された試行錯誤の枠組み
    • 複雑な質問に答えるにはウェブ検索が必要であり,その効率化が求められている。
    • 有望に見える方向に進み続けると,弱い経路を拡張し続ける可能性がある。
    • 深層探索における探索の方向性を制御し,効率を改善すること。
    • TreeSeekerは,深層探索を木構造化された探索として捉え,試行錯誤を制御する。
    • テキストによるUCBシグナルを用いて,有望な経路の活用,不確実な経路の探索,不生産的な経路の剪定を行う。
    • XBench-DeepSearch等の実験で,既存のオープンソースベースラインを上回る性能を示した。

    Link: https://arxiv.org/abs/2606.11662

  • グラフ注意ネットワークと混合密度ネットワークによる確率的給与予測 [cs.SI, cs.LG]目的:給与予測の精度向上
    • 労働市場において,求職者と雇用主間の情報格差を埋める上で,正確な給与予測は不可欠である。
    • 既存手法は単一の予測値を出力し,職種,地域,業界などの属性を独立したカテゴリ特徴量として扱うため,給与データの不確実性や多峰性,そして給与水準を決定する階層的・意味的類似性を無視している。
    • 本研究では,グラフ注意ネットワークと混合密度ネットワークを組み合わせたGAT-MDNを提案し,上記の課題を同時に解決することを目指す。
    • GAT-MDNは,各属性ドメインに対して,階層的関係とSentence-Transformerから得られる類似度を符号化したグラフを構築する。
    • グラフ注意ネットワーク(GAT)は,これらのグラフから文脈に依存したノード表現を学習し,優先度に基づく選択モジュールが特徴ベクトルを組み立てる。
    • 混合密度ネットワーク(MDN)は,このベクトルをガウス混合モデル(GMM)のパラメータにマッピングし,条件付き給与分布を出力する。実験の結果,GAT-MDNは既存のMLP-MDNを上回る性能を示した。

    Link: https://arxiv.org/abs/2606.11663

  • ARGUS:被写体維持のための多視点IDモザイク注入 [cs.HC, cs.CY, cs.CV, cs.AI]目的:被写体維持型ビデオ生成の性能向上
    • ビデオ生成技術は,エンターテイメントからセキュリティまで幅広い分野で応用が期待されている。
    • 既存手法では,視点や表情の変化,オクルージョンなどにより,被写体の同一性を維持することが困難である。
    • 多様な視点からのID情報を活用し,動的なID表現を構築することで,被写体維持性能の向上を目指す。
    • Argusは,MLLMが選択したID情報を3x3のモザイクに変換し,拡散過程に注入することで,動的なID表現を実現した。
    • 新たなベンチマークHardID-Celebを用いて評価した結果,既存手法を大幅に上回る性能を示した。
    • 大規模な反事実的自己教師あり学習と,ID情報の動的な記憶が,被写体維持型ビデオ生成において効果的であることが示された。

    Link: https://arxiv.org/abs/2606.11670

  • 実行時スキル監査:エージェントスキルのセキュリティのための標的型実行時プロービング [cs.CR, cs.AI]目的:エージェントスキルのセキュリティ確保
    • LLMエージェントの普及に伴い,再利用可能なスキルが重要になっている。
    • 静的解析だけでは,実行時に悪意のある振る舞いをするスキルを検出できない。
    • 実行時におけるスキル挙動を分析し,セキュリティリスクを特定すること。
    • Runtime Skill Audit (RSA)は,標的型実行時プロービングによりスキルを監査する手法である。
    • RSAは,リスクに関連するインターフェースをプロファイリングし,セキュリティラベルを付与することで,高い精度で悪意のあるスキルを検出する。
    • 自己進化型攻撃に対しても,従来の静的解析よりも高い検出率を維持する。

    Link: https://arxiv.org/abs/2606.11671

  • オープンソースLLMエージェントは静的アプリケーションセキュリティテストツールに取って代わるか?実証的評価 [cs.CR, cs.AI]目的:オープンソースLLMエージェントのSAST代替可能性
    • アプリケーションの脆弱性対策は,ソフトウェア開発において不可欠であり,セキュリティリスクを最小限に抑える上で重要である。
    • 従来のSASTツールは,誤検知が多く,柔軟性に欠ける場合があり,開発者の負担となることがある。
    • LLMエージェントの活用により,SASTの効率化と精度向上が期待され,開発プロセスの改善に貢献しうる。
    • 本研究の結果,現実的な条件下では,最新のオープンソースLLMベースのエージェントはSASTスキャンの専門的なタスクに適していないことが示された。
    • 評価に用いた指標(適合率,再現率,誤検知数,総合スコア)において,既存のSASTツール(Bandit)を上回る性能は確認されなかった。
    • LLMエージェントがSASTを代替するには,さらなる改良と特化が必要であることが明らかになった。

    Link: https://arxiv.org/abs/2606.11672

  • SpAArSIST:効率的で信頼性の高い反詐欺のための疎化されたAASIST [cs.SD, cs.LG]目的:自己教師あり学習に基づく反詐欺のためのAASISTグラフプーリングバックエンドの効率化
    • 音声詐欺は,セキュリティシステムの脆弱性を突く重要な問題であり,対策が急務である。
    • 既存のAASISTバックエンドは,計算量が多く,モデルサイズが大きいという課題があった。
    • SpAArSISTは,計算量とモデルサイズの削減と同時に,反詐欺性能の向上を目指す。
    • SpAArSISTは,学習と推論のグラフプーリング比率,ノードスコアリング,平均集約を明示的に選択することで,計算量を20.7%削減した。
    • モデルサイズも4.1%削減され,ASVspoof5における性能を維持しつつ,In-the-Wildデータに対するロバスト性が向上した。
    • 精度,キャリブレーション,計算量をまとめた複合選択スコアを提供し,バランスの取れたモデル選択を支援する。

    Link: https://arxiv.org/abs/2606.11674

  • 肺R1:知識グラフ誘導LLMによる肺診断推論 [cs.AI]目的:肺疾患診断のための知識グラフ誘導大規模言語モデル
    • 肺疾患診断は,多様な情報統合が重要であり,医療現場でのニーズが高い。
    • 既存LLMは知識の想起に偏り,患者固有の状況を考慮した推論が課題である。
    • 知識グラフを用いてLLMを誘導し,EMRデータに基づく診断精度向上を目指す。
    • LungKGという肺疾患知識グラフを構築し,診断知識の構造化と根拠に基づいた推論を可能にした。
    • Lung-R1は,知識グラフ制約による推論チェーン構築と強化学習で学習された。
    • Lung-R1-14Bは,複数の評価において最先端の性能を示し,EMR診断スコア4.3583を達成した。

    Link: https://arxiv.org/abs/2606.11675

  • ニューラルネットワークパラメータ化セルオートマトンによる山火事の延焼予測 [cs.CE, cs.LG, physics.comp-ph]目的:山火事の延焼予測モデルの改良
    • 森林火災は生態系や社会に甚大な被害をもたらすため,正確な延焼予測が重要である。
    • 従来のモデルはパラメータが固定されており,複雑な環境要因を捉えきれないという課題があった。
    • 複雑な環境要因を考慮し,より精度の高い延焼予測を可能にするモデルを開発すること。
    • 本研究では,深層学習を用いてパラメータを動的に生成するハイブリッドセルオートマトンモデルを提案した。
    • 提案モデルは,アメリカ西部の6件の山火事において,72時間先の予測でIoU 0.6以上を維持した。
    • このモデルは,観測データに基づいてパラメータを逐次的に調整し,現実的な延焼予測を実現する。

    Link: https://arxiv.org/abs/2606.11676

  • 整理後検索:効率的なエージェントのための階層型メモリナビゲーション [cs.CL, cs.AI, cs.CL, cs.LG]目的:効率的なエージェントを実現するための階層型メモリナビゲーション
    • LLMエージェントは,長期的タスクにおいて状態を持たないため,効率的なワーキングメモリが重要となる。
    • 既存手法は,情報損失や時間的構造の捕捉不足により,複雑なタスクで課題を抱えている。
    • HORMAは,情報の詳細を保持しつつ効率的なアクセスを可能にする階層構造を構築し,課題解決を目指す。
    • HORMAは,ALFWorld,LoCoMo,LongMemEvalにおいて,コンテキスト制限下でのタスク性能を向上させた。
    • ベースラインと比較して,トークン使用量を最大22.17%削減しつつ,効率と性能のトレードオフを改善した。
    • 未知のタスクに対しても有効に一般化することが確認された。

    Link: https://arxiv.org/abs/2606.11680

  • 表形式データと画像を用いたマルチモーダル学習におけるパラメータ効率の良いアダプターチューニング [cs.CV, cs.LG]目的:表形式データと画像のマルチモーダル学習における予測モデリングの改善
    • 構造化データと視覚データの融合は,予測精度の向上に不可欠である。
    • 事前学習済みモデルの完全なファインチューニングは計算コストが高く,凍結したままでは適応能力が低い。
    • 計算コストを抑えつつ,タスク固有の適応性を高める効率的な学習手法の確立。
    • 提案手法TI-Adapterは,表形式データと画像の両モダリティに対してアダプターを導入することで,効率的なマルチモーダル適応を実現する。
    • 実験の結果,TI-Adapterは完全なファインチューニングと同等かそれ以上の予測性能を,大幅に少ない学習パラメータ数で達成した。
    • アダプターの配置場所が性能と効率のバランスに重要な影響を与えることが示された。

    Link: https://arxiv.org/abs/2606.11682

  • 理由付け,そして再理由付け:クロスビュー再検討が空間推論を改善する [cs.CV, cs.AI]目的:空間推論の性能向上
    • ロボット工学や拡張現実など,様々な分野で空間理解が不可欠である。
    • 既存手法は単一ターン推論に依存し,曖昧な幾何学的情報を解決できない。
    • 異なる視点からの情報を活用し,推論の信頼性を高めることを目指す。
    • 提案手法ReReは,オリジナル動画と合成された新規視点動画を組み合わせることで空間推論を改善する。
    • ReReは,予測された3D幾何学情報に基づいて,最適な新規視点動画を生成するGeometry-to-Videoパイプラインを用いる。
    • VSI-BenchとSTI-Benchでの評価において,ReReはオープンソースのMLLMの性能を大幅に向上させ,商用モデルに匹敵する結果を示した。

    Link: https://arxiv.org/abs/2606.11683

  • 層分離評価:No-LLM,回帰固定テストハーネスで実運用LLMエージェントの決定論的基盤をゲートする [cs.CL, cs.AI]目的:LLMエージェントの層ごとの性能評価手法
    • LLMエージェントの複雑化に伴い,その挙動の理解と制御が重要になっている。
    • 従来の評価方法では,LLMエージェント全体の性能低下は検知できても,原因特定が困難である。
    • 層分離評価により,LLMエージェントのどの層で問題が発生しているかを特定し,迅速な改善を目指す。
    • 本研究では,LLMエージェントを複数の層に分解し,各層を個別にテストする手法を提案した。
    • 回帰注入実験により,ある層の性能低下が他の層に影響を与えないことを確認した。
    • この手法は,実運用環境でのLLMエージェントの品質保証に貢献すると期待される。

    Link: https://arxiv.org/abs/2606.11686

  • DroneShield-AI:紛争 airspace におけるリアルタイム自律ドローン脅威検知,行動意図分類,スウォームインテリジェンスのためのマルチモーダルセンサー融合フレームワーク [cs.CV, cs.LG, cs.RO]目的:ドローン脅威のリアルタイム自律検知,行動意図の分類,およびスウォームインテリジェンス
    • ドローンはセキュリティ上の重要な課題となっており,効果的な対策が求められている。
    • 既存のシステムでは,ドローンの脅威を正確かつ迅速に検知・分類することが困難である。
    • 複数のセンサー情報を統合し,ドローンの行動を予測することで,脅威への対応を支援する。
    • 提案手法 DroneShield-AI は,RF信号,音響,画像認識の6つの処理層を統合したフレームワークである。
    • 公開データセットを用いた評価で,96.1%の検知精度,3.2%の誤検知率,AUC-ROC: 0.981 を達成した。
    • 行動意図分類エンジン(BICE)は,ドローンの飛行パターンを6つの脅威クラスに分類し,30秒の事前警告を提供する。

    Link: https://arxiv.org/abs/2606.11687

  • ゴール・オートパイロット:無人長期間エージェントのための検証可能な偽造防止ファイアウォール [cs.CL, cs.AI]目的:長期間実行可能なLLMエージェントにおける虚偽報告の防止
    • LLMエージェントの自律性は重要だが,その信頼性が課題となっている。
    • 無人運用時のLLMエージェントは,検証なしに成功を報告することがある。
    • エージェントが主張する成功の真偽を構造的に保証する。
    • Autopilotは,状態遷移機を用いてエージェントの状態を厳密に管理し,偽造された成功を不可能にする。
    • 実験結果から,Autopilotは既存手法と比較して,虚偽報告の発生率を大幅に低減することが示された。
    • 本研究は,虚偽報告の防止とカバレッジのトレードオフを明確にし,信頼性の高い自律エージェントの構築に貢献する。

    Link: https://arxiv.org/abs/2606.11688

  • スペクトル正則化された潜在フローマッチングによる乱流生成 [cs.DC, cs.PF, cs.LG, physics.flu-dyn]目的:乱流生成のための新たなフレームワーク
    • 乱流は,大気や海洋など様々な自然現象に不可欠であり,その理解とモデル化は重要である。
    • 既存の乱流生成手法では,解像度不足により,高波数領域のエネルギーが十分再現できていない。
    • スペクトル正則化によって,高波数領域の再現性を向上させ,より忠実な乱流生成を目指す。
    • スペクトル正則化された潜在フローマッチングは,従来のVAEと比較して,深部散逸領域の保持されるスペクトルパワーを大幅に向上させた。
    • 特に,再構成と無条件生成において,それぞれ25%から94%,20%から79%へと向上した。
    • この改善は,エンコーダによる潜在表現の再編成が主な要因であり,デコーダの容量よりも重要であることが示された。

    Link: https://arxiv.org/abs/2606.11691

  • ノイズを考慮した誤ラベル修正フレームワーク [cs.CY, cs.MA, cs.SI, cs.HC, cs.LG, cs.AI]目的:誤ラベルの修正
    • 機械学習の性能は学習データの質に大きく依存する。
    • 現実のデータセットには誤ラベルが多く含まれる場合がある。
    • ノイズを考慮し,ラベルを反復的に修正することで性能改善を目指す。
    • 提案手法CANOLAは,データセットのノイズ分布を推定し,ノイズを考慮した深層学習を行う。
    • CANOLAは,信頼性の低いラベルの影響を軽減し,汎化性能を向上させる。
    • 6つのデータセットでCANOLAは最先端の手法を19%~52%上回る性能を示した。

    Link: https://arxiv.org/abs/2606.11695

  • T2S:抽出耐性モデル透かしのためのリハーサルベースアプローチ [cs.CR, cs.AI]目的:モデル透かしの抽出耐性向上
    • AIモデルの知的財産保護が重要視されており,モデル透かしがその手段の一つである。
    • モデルの抽出攻撃に対し,透かしの堅牢性が課題となっている。
    • 抽出攻撃に対するモデル透かしの堅牢性を高めることを目指す。
    • 提案手法は,抽出過程をシミュレーションすることで,透かし知識の微調整を行う。
    • これにより,透かしの転送性を高め,盗まれたモデルへの残存性と検出可能性を向上させる。
    • 多様な設定下での実験により,抽出攻撃と透かし除去攻撃に対する耐性が大幅に向上することが示された。

    Link: https://arxiv.org/abs/2606.11698

  • 破損ラベルの検出と修正のためのデータ中心フレームワーク [cs.LG]目的:破損ラベルの検出と修正
    • 機械学習の性能は学習データに依存し,その品質が重要である。
    • 実データにはノイズを含むラベルが存在し,モデル精度を低下させる。
    • ノイズを含むラベルを検出し,正確なラベルへと修正すること。
    • Relabelerは,データインスタンス間の局所的・全体的な関係性を活用し,ノイズを含む可能性のあるサンプルを特定する。
    • 入力特徴量と観測されたノイズラベルに基づいて,各インスタンスの最も可能性の高い正しいラベルを推定することでラベルを修正する。
    • 複数のデータセットで実験を行った結果,ラベル修正の精度が最大58%向上し,下流タスクの性能が6%向上した。

    Link: https://arxiv.org/abs/2606.11699

  • MedCTA:臨床ツールエージェントのベンチマーク [cs.CV, cs.AI, cs.CL]目的:臨床ツールエージェントの評価基準
    • 医療AIの発展には,臨床現場での意思決定支援が不可欠である。そのため,高度なツール利用能力が求められる。
    • 既存のベンチマークは,単一タスクの評価に偏っており,複雑な臨床シナリオにおけるエージェントの信頼性が不明である。
    • 現実的な臨床データを用いた多段階タスクを通して,ツール利用におけるAIエージェントの脆弱性を評価し,改善を目指す。
    • MedCTAは,臨床医が検証した107の臨床タスクを含むベンチマークであり,放射線画像や病理スライドなど多様な入力に対応する。
    • 18の既存モデルを評価した結果,最先端モデルであっても,多段階のツール利用においてプロトコル違反や誤ったツール選択が頻発することが示された。
    • このベンチマークは,医療AIエージェントの信頼性を監査・診断し,改善するための厳格なテスト環境を提供する。

    Link: https://arxiv.org/abs/2606.11702

  • RLCSD:コントラストIVEなオンポリシー自己蒸留による強化学習 [cs.RO, cs.RO, cs.LG, cs.CL]目的:合理的推論モデルの性能向上
    • 大規模言語モデルの推論能力向上は,AI研究の重要な課題である。
    • 従来の自己蒸留法では,スタイルに偏った学習信号となり,性能低下や出力短縮が起こりやすい。
    • コントラスト学習により,スタイルドリフトを抑制し,タスクに関連するトークンへの学習を促進する。
    • 提案手法RLCSDは,Qwen3やOlmo-3-7B-Thinkを用いた実験で,既存手法を上回る性能を示した。
    • コントラスト学習の原理は,既存の自己蒸留法にも適用可能であり,汎用性も確認された。
    • ヒントによるスタイルシフトを抑制し,よりタスクに関連性の高い学習信号を得ることに成功した。

    Link: https://arxiv.org/abs/2606.11709

  • 容量制約付きオンライン凸最適化と遅延フィードバック [cs.LG, stat.ML]目的:容量制約下における遅延フィードバックを用いたオンライン凸最適化
    • 機械学習の応用範囲拡大に伴い,リアルタイムな意思決定が求められる場面が増加している。
    • 遅延フィードバック環境では,資源の制約から過去の情報を全て追跡できない場合がある。
    • 限られた追跡容量下で,遅延フィードバックを効率的に活用する手法を確立することを目指す。
    • 提案手法では,追跡の決定をランダム化し,得られた観測値を重み付けすることで,遅延と重み付けを組み合わせたオンライン凸最適化問題を解く。
    • 遅延ウェイト付きFTRLアルゴリズムを提案し,時間変化する重みと遅延フィードバックの相互作用を考慮した後悔限界を確立した。
    • 第一階およびバンディットフィードバックの下で,凸および強凸損失関数に対して,容量制約付きオンライン凸最適化における初めての後悔保証を得た。

    Link: https://arxiv.org/abs/2606.11711

  • ユーザー側メモリにおける基盤非対称性:診断フレームワーク [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルにおけるユーザー側メモリの特性解明と診断
    • LLMの性能向上には,ユーザーの文脈を理解し活用する能力が不可欠である。
    • 従来のユーザー側メモリ評価は集約的であり,詳細な問題点が把握しにくい。
    • 本研究は,ユーザー側メモリの特性を多角的に分析し,改善策を提示することを目指す。
    • ユーザー側メモリは,行動の一貫性,事実の存在,事実の不在という3つの軸に分解できることが示された。
    • gamma-LoRAは行動の一貫性に優れる一方,RAGは事実の不在に対応する能力が高いことが明らかになった。
    • 評価時のlogitマスクが正解率に大きく影響し,基盤選択ルーティングは質問分類が有効であることが示唆された。

    Link: https://arxiv.org/abs/2606.11712

  • オウロボロス-空間:空間推論のためのデータ・モデルループの閉環 [cs.AR, cs.AR, cs.CV, cs.AI]目的:空間推論のためのデータ・モデルループの閉環
    • マルチモーダル大規模言語モデルの性能向上には,空間推論能力が不可欠である。
    • 既存手法は静的なデータセットに依存し,モデルの学習段階に応じたデータ選択が困難である。
    • モデル能力とデータ分布を相互に進化させ,効率的な学習を実現する。
    • 提案手法Ouroboros-Spatialは,モデル自身が問題生成と解答を行うことで学習ループを閉じる。
    • 6つの空間推論ベンチマークで,Qwen3-VL-4BとQwen3-VL-8Bの大幅な性能向上を実証した。
    • VSI-Benchにおいて,4Bモデルで9.9ポイント,8Bモデルで6.8ポイントの絶対的な性能向上を達成した。

    Link: https://arxiv.org/abs/2606.11719

  • ICAレンズ:追加の辞書を訓練せずに言語モデルを解釈する [cs.LG, cs.AI, cs.CL]目的:言語モデル表現における解釈可能な方向性の発見
    • 言語モデルの挙動理解と制御は,AI技術の信頼性と安全性を高める上で不可欠である。
    • 既存手法は,大規模な辞書の訓練・保存・評価が必要であり,迅速な探索を妨げている。
    • 活性化幾何学から直接,解釈可能な構造を効率的に抽出することを目指す。
    • ICA(独立成分分析)が,言語モデルの解釈可能性において過小評価されてきたことを明らかにした。
    • ICALensは,安定性・効率性・監査可能性に優れたICA分析ワークフローであり,GPU並列化による高速化を実現する。
    • SAEBenchにおける評価で,ICAはSparse Probingにおいて既存のSAEと同等以上の性能を示し,targeted probe perturbationにおいては優位性を示す。

    Link: https://arxiv.org/abs/2606.11722