arXiv雑要約

AI - 2026/06/18 公開

  • 種子誘導による異常検出を用いた半教師ありクラスタリング [cs.LG]目的:ノイズ環境下におけるロバストなクラスタ定義
    • データ分析において,データの構造を理解し,有用な情報を抽出することは重要である。
    • 従来のクラスタリング手法は,外れ値の影響を受けやすく,パラメータ調整が困難である。
    • 少ないラベル情報からロバストなクラスタを形成し,未知のクラスタを検出すること。
    • 本手法は,わずか10~30個の種子ラベルで,競争力のある高い性能を達成した。
    • 異常検出の原理とクラスタリングを統合することで,外れ値の影響を抑制し,ロバストなクラスタリングを実現した。
    • データ数や次元数に対して線形的なスケーラビリティを維持し,実用的な低調整ベンチマークで優れた結果を示した。

    Link: https://arxiv.org/abs/2606.18833

  • 因果メカニズムの変化からの構造的バイアスの特定 [cs.LG]目的:構造的バイアスの特定
    • 因果推論は,科学的発見や政策決定において重要な役割を果たす。
    • 従来の因果探索手法は,データの独立性と同一分布性を仮定しており,現実のデータには不向きである。
    • 潜在的な交絡や選択バイアスを特定し,より正確な因果推論を可能にすること。
    • 構造的バイアスは,メカニズムの変化に依存性をもたらすことが示された。
    • メカニズムが変化する変数を考慮することで,バイアスのない変数,交絡変数,選択バイアスを受ける変数を識別できる。
    • 提案手法StruBIは,合成データと実データにおいて,既存手法を大きく上回る性能を示した。

    Link: https://arxiv.org/abs/2606.18834

  • 都市型捜索救助における過去の協調の想起を通じた人間とロボットのチームワーク向上 [cs.HC, cs.AI]目的:人間とロボットのチームワークにおける協調パターンの知識グラフエピソード記憶の活用
    • 災害現場では,迅速かつ効率的な捜索救助活動が重要であり,人間とロボットの連携が不可欠である。
    • ロボットは,個々の状況や相手に応じて柔軟に適応する必要があるが,その能力は十分とは言えない。
    • 過去の協調パターンをロボットが学習し,活用することで,初期段階からのチームワークを改善する。
    • ロボットに過去の協調パターンを想起させることで,救助成功率が25.7%から41.3%に向上した。
    • 平均タスク時間が283秒短縮され,効率的な捜索救助活動に貢献することが示された。
    • 特に,相互作用の初期段階で効果が強く,ロボットがより適切な知識を持って協調を開始できることが示唆された。

    Link: https://arxiv.org/abs/2606.18836

  • Skill-MAS:自動マルチエージェントシステムのメタスキルの進化 [cs.MA, cs.AI, cs.LG]目的:自動マルチエージェントシステム生成におけるメタスキルの進化
    • 複雑なタスク解決において,LLMを活用した自動マルチエージェントシステムの重要性が増している。
    • 既存手法は,モデル性能と経験の保持の間でトレードオフが存在する。
    • 経験の保持とモデル性能の向上を両立する新たな手法を提案する。
    • Skill-MASは,パラメトリック更新とは独立した進化可能なメタスキル概念を用いることで,経験の保持とモデル性能の両立を実現した。
    • 複数のベンチマークとLLMを用いた実験により,Skill-MASが顕著な性能向上と良好なコストパフォーマンスを示すことが確認された。
    • 進化されたメタスキルは高いロバスト性と,未知のタスクや異なるLLMへの転移性を持つことが示された。

    Link: https://arxiv.org/abs/2606.18837

  • ビジョン言語モデルのセマンティック頑健性認証 [cs.LG, cs.CV]目的:ビジョン言語モデルにおけるセマンティックレベル変換に対する頑健性の認証
    • 近年,ビジョン言語モデルは多様なタスクで利用が拡大しており,その信頼性確保が重要である。
    • 現実世界では,入力のセマンティックな変化(形状,サイズ,スタイル等)により,モデルの予測性能が変動する可能性がある。
    • セマンティックレベル変換下での頑健性を,追加データなしに定量的に認証する手法を開発すること。
    • 提案手法は,テキストプロンプトをセマンティック変換のパラメータとして利用し,変換範囲を制御する。
    • モデルの決定境界を解析的に特徴づけることで,予測クラスが変化しないセマンティック変換範囲を定量的に認証する。
    • 合成データと実データを用いた実験により,多様なセマンティック変化に対する頑健性の認証が可能であることを示した。

    Link: https://arxiv.org/abs/2606.18839

  • 自身の過ちから学ぶ:自己知識蒸留のための学習可能な微小反射軌道の構築 [cs.LG]目的:自己知識蒸留における性能向上
    • 大規模言語モデルの推論能力向上は重要であり,自己知識蒸留はその有効な手法の一つである。
    • 従来の自己知識蒸留は,モデルの具体的な誤りや修正パターンに関する診断情報を提供しない。
    • 本研究は,モデル自身の誤った推論過程を明確化し,より詳細な修正を可能にすることを目指す。
    • TAPOは,従来の知識蒸留とは異なり,明示的な軌道構築を通して自己知識蒸留を進める。
    • TAPOは,誤った推論過程を保持した軌道に,自然言語による診断と修正を組み込むことで,学習信号を強化する。
    • AIMEやHMMTの実験結果から,TAPOはGRPOと比較して一貫した性能向上を示すことが確認された。

    Link: https://arxiv.org/abs/2606.18844

  • ワールドライン:長期的状態保持型具現化エージェントのベンチマークとモデリング [cs.AI]目的:長期的視点での具現化支援を可能にするための記憶モデルの評価
    • 人間との長期的な共同作業には,環境や過去のインタラクションの記憶が不可欠である。
    • 既存の長期記憶ベンチマークは言語中心であり,動的環境における具現化エージェントの記憶利用を評価していない。
    • 家庭環境における長期的なタスク実行と記憶利用を評価するベンチマークの提供。
    • WorldLinesは,対話,行動,状態変化を含む家庭環境の長期的なデータセットを提供する。
    • 提案手法ObsMemは,視覚情報に基づいた記憶と行動履歴を活用し,より適切な状態認識を可能にする。
    • 部分的な観察可能性や状態の更新が課題であり,長期記憶を具現化計画に変換することが難しいことが示された。

    Link: https://arxiv.org/abs/2606.18847

  • 文脈境界を持つ準ハードネガティブマイニングによる,暗示された表現と暗黙的なヘイトスピーチの汎化性能の整合 [cs.CL, cs.IR, eess.SY, cs.SY, cs.CL, cs.AI]目的:暗黙的なヘイトスピーチの汎化性能向上
    • ヘイトスピーチは社会問題であり,早期発見と対策が重要である。
    • 暗黙的なヘイトスピーチは,直接的な表現ではなく暗示を用いるため,検出が困難である。
    • 文脈に基づいたネガティブマイニングにより,表面的な特徴への過学習を防ぎ,汎化性能を高める。
    • ImpSHは,従来の教師あり対照学習手法と同等の性能を示し,多くの場合,クロスドメイン性能を向上させる。
    • 表現の分析により,ImpSHは正例ペアをより密接に結合し,グローバルな分布をバランス良く保つことが示された。
    • 暗示された表現との整合は,従来のクラスタリングベースの手法に存在する不安定性を克服し,安定した双射的なマッピングを実現する。

    Link: https://arxiv.org/abs/2606.18852

  • 系列ラベリングのための近似構造化拡散 [cs.CL, cs.LG]目的:系列ラベリングにおけるラベル精度向上
    • 自然言語処理において,文中の各要素にラベルを付与する系列ラベリングは重要なタスクである。
    • 従来の線形連鎖条件付き確率場(CRF)は,決定範囲が有限であり,長距離依存関係の表現に限界がある。
    • 拡散モデルを用いて,ノイズを含むラベル系列を条件としたCRFを学習することで,この限界を克服する。
    • 拡散モデルと近似CRF推論の組み合わせにより,品詞タグ付けの精度が向上し,エラーが16.5%減少した。

    Link: https://arxiv.org/abs/2606.18856

  • 理想化Iscaシミュレーションにおける急激成層圏温暖化の機械学習エミュレーションに対する帰納的バイアスの調査 [cs.LG, physics.ao-ph]目的:急激成層圏温暖化のダイナミクスのエミュレーションにおける,アーキテクチャの帰納的バイアスの影響
    • 亜季節~季節規模の予測能力向上の可能性を秘めており,天気予報の分野で重要性が増している。
    • 成層圏の変動性など,予測可能性のアンカーを学習・活用できるかどうかが課題となっている。
    • 機械学習エミュレーションにおける成層圏ダイナミクスの再現性を高めるための,重要な帰納的バイアスを特定すること。
    • モデルアーキテクチャ間の差は,成層圏が静穏な時期には小さく,SSWのような変動が活発な時期には大きくなることが示された。
    • 機械学習エミュレーションにおいて,明示的な3次元垂直結合が重要な帰納的バイアスであることが明らかになった。
    • 予測誤差が低いからといって,物理的に忠実な波-平均流れの相互作用が保証されるわけではなく,一貫した誤差が残存する可能性が示唆された。

    Link: https://arxiv.org/abs/2606.18857

  • 医療画像セグメンテーションにおける敵対的モデルによる不確実性の定量化 [cs.CV, cs.LG]目的:医療画像セグメンテーションにおける不確実性の定量化手法
    • 医療画像診断の精度向上は,患者の予後改善に不可欠であり,信頼性の高い不確実性評価が求められる。
    • 従来の深層学習モデルは,しばしば誤ったキャリブレーションに陥り,病理境界における脆弱性を隠蔽する。
    • 予測の不安定性を示すピクセルを特定し,意思決定の脆弱な領域を強調することで,信頼性の高い不確実性評価を実現する。
    • 提案手法QUAM-SMは,敵対的探索を用いて「敵対的に脆い」ピクセルを特定するpost-hocフレームワークである。
    • QUAM-SMは,複数の専門家によるアノテーションを含む2つの公開データセットで,既存の不確実性推定手法よりも信頼性と境界感度において優れた性能を示した。
    • 本手法は,認識的不確実性と確率的不確実性を分離することが可能である。

    Link: https://arxiv.org/abs/2606.18860

  • RGB-Dシーケンスからの微分可能な関節推論とエネルギー整合性検証によるURDF合成 [cs.CV, cs.AI]目的:関節を持つ物体のデジタルツイン生成
    • ロボット工学やコンピュータビジョンの発展において,現実世界の物体をシミュレーション環境で再現する重要性が高まっている。
    • 既存手法では,形状再構成と力学パラメータ推定が分離されており,エネルギー保存則などの物理法則を満たさないモデルが生成されやすい。
    • この研究は,形状,関節構造,パラメータを同時に推論し,物理法則に整合したURDFを生成することで,シミュレーションの精度向上を目指す。
    • KinemaForgeは,形状,関節トポロジー,関節パラメータをRGB-Dシーケンスから同時に推論するパイプラインである。
    • 実験の結果,既存手法PARISと比較して,関節軸誤差を平均で37.4%削減し,Dittoと比較すると46.6%削減された。
    • また,シミュレーションにおけるドリフトを64%低減し,閉ループ操作の成功率を14.6%向上させた。

    Link: https://arxiv.org/abs/2606.18861

  • 大規模未ラベルデータを用いた学習ベースのAEBのスケーリング [eess.SY, cs.SY, math.OC, cs.LG, cs.AI]目的:学習ベースの自動緊急ブレーキ(AEB)の大規模化
    • 自動運転技術の安全性向上は不可欠であり,AEBはその重要な要素である。
    • ラベル付きデータの収集にはコストと時間がかかり,十分なデータが確保できない場合がある。
    • 大量の未ラベルデータを活用し,AEBの性能と安全性を高めることを目指す。
    • メタフィードバック半教師あり学習(MF-SSL)フレームワークを安定化させることで,大規模な未ラベルデータを効果的に活用できる。
    • ノイズ認識デカップリングと運動学ゲート型疑似ラベル生成により,偽のトリガーを抑制し,安全性と快適性を両立した。
    • 10億件のデータで学習したモデルは,実走行データで検証され,事故回避率が35%向上し,誤検知率が大幅に改善された。

    Link: https://arxiv.org/abs/2606.18864

  • 戦略的な特徴選択 [cs.LG, cs.CY, stat.ML]目的:戦略的な分類における特徴選択とそのリッジ回帰との相互作用
    • 医療などの重要分野で,アルゴリズム予測が資源配分に利用される場面が増加している。
    • 入力特徴量の戦略的操作を考慮しないと,予測の精度や公平性が損なわれる可能性がある。
    • 特徴選択を通じて戦略的行動の影響を軽減する,実践的な枠組みを構築すること。
    • 個々の特徴量を操作可能性に基づいて排除するだけでは,最適とは限らないことが示された。
    • 最適な正則化の下での特徴部分集合の性能を詳細に分析し,政策設計に新たな知見をもたらした。
    • 特徴集合とリッジ回帰のレベルを同時に選択する,実用的なアルゴリズムが開発された。

    Link: https://arxiv.org/abs/2606.18867

  • AI科学者のための研究統合と検証環境:Research Harness [cs.AI]目的:研究統合と実験的検証の可視化
    • AI技術の発展に伴い,科学的発見の自動化が期待されている。
    • AIによる研究プロセスの透明性が低く,根拠の追跡が困難である。
    • AI科学者の研究プロセスを可視化し,説明責任を担保すること。
    • Xcientistは,既存の研究成果,アイデア,実験計画などを構造化された形で記録する。
    • これにより,生成されたメカニズムの根拠検証,実行,テスト,修正が可能となる。
    • 実験結果から,XcientistがAI科学者の研究プロセスの追跡可能性と説明責任を向上させることが示された。

    Link: https://arxiv.org/abs/2606.18874

  • 光学コヒーレンス断層撮影における軌道整合時間不変フローを用いたテスト時適応 [cs.CL, cs.CV, cs.LG]目的:光学コヒーレンス断層撮影における画像品質の改善
    • 眼科において不可欠な技術であり,疾患診断や治療効果の評価に広く用いられている。
    • 低コスト機器では画像品質が不安定であり,自動解析の精度が低下する課題がある。
    • テストデータと訓練データの分布のずれを解消し,ノイズの多い画像から高品質な画像を生成する。
    • 提案手法は,テスト画像のヒストグラムを合成された参照軌道に合わせることで,入力と期待される分布を整合させる。
    • ネットワークの時間的条件付けを取り除くことで,現実世界のノイズ分布のわずかなずれに対応する。
    • 加齢黄斑変性症の段階における重要なバイオマーカーのセグメンテーションにおいて,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2606.18876

  • 回転システムの不平衡特性評価のためのドメインシフトを考慮したニューラルネットワーク [cs.LG, cs.AI, eess.SP]目的:回転システムの不平衡質量推定
    • 構造物の健全性監視において,振動データを用いた異常検知が重要視される。
    • 運転条件の変化により,モデルの汎化性能が低下する問題がある。
    • 未知の運転条件下での推定精度向上を目指す。
    • ドメインシフトを明示的に考慮することで,推定精度が向上することが示された。
    • 特に,システムの物理的挙動やドメインシフトの原因が不明な場合に効果が期待できる。
    • 本研究は,構造物の健全性監視における回帰タスクへの応用可能性を示す。

    Link: https://arxiv.org/abs/2606.18882

  • 部分観測環境におけるナビゲーションのための生成モデル予測計画 [cs.AI]目的:部分観測環境におけるナビゲーションのための生成モデル予測計画に関する研究
    • 自律エージェントのナビゲーションは,ロボット工学やAIにおける重要な課題である。
    • 従来の信念に基づく手法は,高次元空間や知覚的曖昧性において,信念空間の多峰性を捉えきれない。
    • 多峰性信念表現を計画に組み込み,部分観測環境下でのロバストなナビゲーションを実現すること。
    • 提案手法BeliefDiffusionは,生成モデルと計画の利点を組み合わせた新しいフレームワークである。
    • BeliefDiffusionは,拡散モデルを用いて多峰性信念分布を明示的に特徴づけ,MPCを用いて同時に計画を立てる。
    • シミュレーション実験の結果,BeliefDiffusionは,モデルフリー強化学習や他の生成アプローチと比較して,ナビゲーション成功率と経路効率において大幅な改善を示した。

    Link: https://arxiv.org/abs/2606.18888

  • GUIエージェントのためのスキル誘導継続蒸留 [cs.CL, cs.AI]目的:GUIエージェントの性能向上
    • GUI自動化は,タスク効率化に不可欠であり,その重要性は増している。
    • 専門家データ外の状況に対する適切な行動選択が課題となっていた。
    • 専門家データに存在しない状態に対する効果的な学習を目指している。
    • スキル誘導継続蒸留(SGCD)は,オフ軌道状態における性能向上に有効である。
    • SGCDは,ベースモデル3つにおいて成功率を30%台から50%以上に向上させた。
    • 本手法は,様々な状況に対して汎用性を示すことが示された。

    Link: https://arxiv.org/abs/2606.18890

  • SAERec:スパースオートエンコーダによる解釈可能な意図事前知識の構築と推薦への応用 [cs.IR, cs.AI]目的:推薦システムにおける,テキストコーパスから構築された,きめ細かく解釈可能な意図空間
    • ユーザーの行動背後にある動機をモデル化することで,推薦の精度と解釈可能性を向上させる意図ベース推薦システムの重要性が増している。
    • 既存モデルは,シーケンス品質に左右されやすく,意図の数を事前に設定する必要があり,意味的な根拠に欠けるという課題がある。
    • SAERecは,テキストを副次的な信号として扱うのではなく,意図構築のための高密度な情報源として活用することで,上記の課題を解決することを目指す。
    • SAERecは,大規模言語モデル(LLM)の潜在空間からスパースオートエンコーダ(SAE)を用いて,解釈可能な意図を抽出することで,きめ細かい意図空間を自動的に構築する。
    • ユーザーには,現在の興味に合致する個人的な意図と,アイテムの一般的なパターンを捉えた公開的な意図の両方を,事前知識として提供する。
    • 実験結果から,SAERecが最先端のベースラインを上回り,人間が理解できる説明を提供することが示された。

    Link: https://arxiv.org/abs/2606.18897

  • 潜在的確率微分方程式を用いた,疎で不規則な多変量時系列データの異常検知 [cs.LG]目的:疎で不規則な多変量時系列データの異常検知手法
    • 産業監視,サイバーセキュリティ,医療など,幅広い分野で多変量時系列データの異常検知が不可欠である。
    • 既存手法は均一にサンプリングされた時系列データを前提としており,現実世界の疎,不規則なデータには対応が難しい。
    • 欠測値や不規則なサンプリングを直接扱える,潜在的確率微分方程式に基づく異常検知手法を提案する。
    • 提案手法は,6つの異常検知ベンチマークデータセットにおいて,最先端のベースライン手法を上回る性能を示した。
    • 特に,データが極端に疎な場合でも頑健性を維持し,既存手法の性能劣化を抑制できることが示された。
    • これらの結果は,潜在的確率微分方程式が,不規則な多変量時系列データの異常検知に適した誘導的バイアスであることを示唆する。

    Link: https://arxiv.org/abs/2606.18898

  • REVES:修正と検証を増強したテスト時スケーリングのためのトレーニング [cs.LG, cs.CL]目的:大規模言語モデルの推論能力の向上
    • 大規模言語モデルの推論能力向上は,様々な応用において重要である。
    • 既存手法では,複数ステップの推論過程を最適化できていない。
    • 中間ステップの誤りを活用し,効率的な学習を目指す。
    • 提案手法は,オンラインでのデータ拡張とポリシー最適化を繰り返す二段階のフレームワークである。
    • LiveCodeBenchにおいて,既存の強化学習ベースラインを+6.5ポイント上回る結果が得られた。
    • 円のパッキング問題や制約充足パズルなど,様々なタスクで高い性能を示した。

    Link: https://arxiv.org/abs/2606.18910

  • 二値化ニューラルネットワークのロバスト性検証に関する複雑性結果 [cs.LG, cs.CC]目的:二値化ニューラルネットワークの検証問題の計算複雑性
    • 近年,ニューラルネットワークの安全性評価が重要視されており,その計算コストが課題となっている。
    • ニューラルネットワークの検証は一般にNP困難であり,効率的な検証手法が求められている。
    • 二値化ニューラルネットワークの特性を利用し,効率的な検証アルゴリズムの開発を目指す。
    • 二値化ニューラルネットワークの充足可能性問題は,ブール充足可能性問題(SAT)からの還元によりNP完全であることが示された。
    • 一様画像オクルージョンは,ネットワーク出力に区分的に定数な構造を誘起し,多項式時間でロバスト性を検証できることが明らかになった。

    Link: https://arxiv.org/abs/2606.18918

  • 比喩表現における否定の解釈能力:大規模言語モデルの評価 [cs.CL, cs.AI]目的:比喩表現における否定の解釈能力の評価
    • 自然言語処理において,比喩表現と否定の理解は重要な課題である。
    • 大規模言語モデルは,特定のデータセット向けに調整できない場面で利用されるため,汎用的な解釈能力が求められる。
    • 比喩表現と否定が組み合わされた場合の言語モデルの解釈の難しさを明らかにすること。
    • 否定と比喩表現の組み合わせは,言語モデルにとって特に困難な課題であることが示された。
    • モデルの性能は,否定の種類だけでなく,プロンプトのスタイルに大きく依存することが明らかになった。
    • 既存の比喩表現データセットに注釈を追加し,多様な言語モデルを用いて評価を行った。

    Link: https://arxiv.org/abs/2606.18922

  • GrapNet:プログラム可能な動的アーキテクチャニューラルグラフ基盤 [cs.LG]目的:固定テンソルニューラルネットワークにおけるプログラム可能性の実現
    • ニューラルネットワークの柔軟性を高める上で,アーキテクチャの変更容易性は重要である。
    • 従来のニューラルネットワークは構造変更が難しく,パラメータの直接操作に頼る場合が多い。
    • グラフ構造をネットワークのアーキテクチャとして利用し,構造的な編集を容易にすることを目指す。
    • GrapNetは,関係の編集,部分グラフの固定,ローカル関数の監査などをニューラルプログラムとして扱える。
    • Split Fashion-MNISTの実験では,GrapNetはパラメータ数の多いMLPと比較して高いseen-class精度を達成した。
    • Split CIFAR-10では,ImageNet ResNet-18エンコーダと組み合わせることで,MLPよりもオンラインヘッドの性能を向上させた。

    Link: https://arxiv.org/abs/2606.18923

  • LLMによる誘導を用いたゼロショット活性特徴獲得 [cs.LG, cs.IR, stat.ME]目的:活性特徴獲得の枠組み
    • 識別やランキングの決定には特徴量の選択が重要であり,その効率化が求められている。
    • 従来の活性特徴獲得は,確率モデルの学習に大量のラベル付きデータが必要となる点が課題であった。
    • LLMの知識を活用しつつ,逐次的な計画能力を分離することで,ラベルなしデータでの活性特徴獲得を目指す。
    • LLMは,マルコフ確率場(MRF)の十分統計量である単変量偏差とペアワイズ共分散を信頼性高く提供することが示された。
    • LLMから得られる統計量は,クラス単独の特徴ではなく,クラスを区別する特徴に偏っている点が確認された。
    • 炎症性腸疾患(IBD)患者のコホートを用いた評価で,提案手法は既存手法を上回り,特に困難な患者において顕著な性能向上を示した。

    Link: https://arxiv.org/abs/2606.18933

  • SciRisk-Bench:AI4Science安全性評価のためのリスク次元を考慮したベンチマーク [cs.AI, cs.CY]目的:AI4Scienceにおける安全性評価のためのベンチマーク
    • 科学研究へのAI活用が拡大しており,その安全性確保は不可欠である。
    • 既存の安全性データセットでは,リスクの次元が十分に特定されていない。
    • 科学分野とリスク次元を考慮した,より詳細な安全性評価を目指す。
    • SciRisk-Benchは,7つの分野,31の小分野,10のリスク次元を網羅する。
    • 主要なLLMおよび科学向けLLMを評価した結果,安全性に課題が残ることが明らかになった。
    • リスク次元,分野,小分野ごとの詳細な診断を可能にする。

    Link: https://arxiv.org/abs/2606.18936

  • 検索と推論の分離:LLMエージェントのためのベンダー非依存型根拠付けアーキテクチャ [cs.CL, cs.AI, cs.CL, cs.IR, cs.MA]目的:LLMエージェントにおける根拠付けのアーキテクチャ
    • LLMエージェントの性能は,リアルタイム検索に大きく依存している。
    • 従来の根拠付けは,検索ポリシーとモデルプロバイダーが密結合しており,調整が困難である。
    • 検索と推論を分離することで,根拠付けの柔軟性と効率性を向上させる。
    • DSGは,SimpleQAにおいて,ネイティブ検索に匹敵する精度(86.1% vs 87.7%)を91%低い検索コストで実現した。
    • DSGは,簡潔な回答契約を維持し,99.4%のウォームキャッシュヒット率と68%低いレイテンシーを達成した。
    • 大規模なeコマースクエリ理解ワークロードにおいて,DSGはネイティブ検索と同等以上の精度を98%以上のコスト削減で実現した。

    Link: https://arxiv.org/abs/2606.18947

  • RTSGameBench:ビジョン言語モデルによる戦略的推論のためのRTSベンチマーク [cs.RO, cs.AI]目的:戦略的推論能力の評価
    • 競争的・協調的な環境下での戦略的推論は,AIの高度化において重要な課題である。
    • 既存のRTSベンチマークは評価範囲が限られ,体系的な能力診断が不足している。
    • 多様なシナリオと能力評価を通じて,VLMsの戦略的推論の限界を明らかにすること。
    • RTSGameBenchは,大規模RTSゲームBeyond All Reasonを基盤とし,広範な戦略的多様性を実現した。
    • 多様な対戦構造,ミニゲームによる診断評価,そして自己進化型生成フレームワークにより,拡張性を確保した。
    • 最先端のVLMsは,緊密な連携や多エージェント協調,タスク規模の増加において課題があることが示された。

    Link: https://arxiv.org/abs/2606.18950

  • 自己教師あり報酬最適化によるタンパク質言語モデルの制御 [cs.LG]目的:タンパク質言語モデルの制御手法
    • タンパク質設計は,創薬や生物学的機能解析において重要である。
    • 従来のモデル適応は,実験検証やラベル付きデータに依存する。
    • ラベルなしデータを用いたタンパク質言語モデルの自己改善を目指す。
    • 本研究では,モデルの不確実性とタンパク質表現モデルによる整合性を組み合わせた報酬関数を提案した。
    • 提案手法(SRO,BRO)は,既存手法(DPO,KTO)を凌駕し,教師ありデータに近い性能を示した。
    • 自己教師あり報酬最適化により,実験データが少ない状況下でのタンパク質設計の可能性が広がる。

    Link: https://arxiv.org/abs/2606.18961

  • 固定チャンネル知覚イベントストリームからのオンライン報酬・罰学習:環境報酬なし [cs.LG]目的:環境報酬や評価ラベルのない状況下における,オンライン報酬・罰学習
    • 強化学習は,自律的な意思決定を可能にする重要な技術であり,様々な分野への応用が期待されている。
    • 従来の強化学習は,環境からの報酬に依存しており,報酬が与えられない状況では学習が困難である。
    • 環境報酬に頼らず,知覚情報のみから報酬・罰を学習する手法を確立すること。
    • 提案手法OHIRLは,知覚情報の予測,残差ダイナミクスのモデル化,価値評価,行動の更新という役割を分離することで,報酬のない環境下での学習を実現した。
    • 2x2-XORタスクにおいて,価値符号の予測精度は95.2%に達し,痛みや刺激の評価が文脈によって変化することを示した。
    • ホールドアウトデータに対する予測性能(R2=0.907)や最適な行動の選択精度(97.9%)は,従来の報酬を用いた手法と同等の性能を達成した。

    Link: https://arxiv.org/abs/2606.18963

  • 効率的なロールアウト:RLロールアウトのためのシステム対応型自己思索的デコーディング [cs.LG]目的:RLロールアウトにおける遅延のボトルネック軽減
    • 大規模言語モデルへの強化学習の適用が進み,推論能力やエージェント機能の向上が期待されている。
    • 自己回帰サンプリングによるロールアウト生成は逐次処理となり,一部の長尾の生成が完了までの時間を左右する。
    • 進化するポリシーに対応したドラフターと,システムに配慮した思索的デコーディングの活用で,遅延を削減する。
    • EfficientRolloutは,ターゲットモデルから量子化されたドラフターを誘導し,ポリシーの変化に追随する。
    • システム対応型思索的デコーディングのトグルポリシーとドラフト長適応により,効率的な推論を実現する。
    • ロールアウトおよびエンドツーエンドの遅延をそれぞれ最大19.6%,12.7%削減し,モデル品質を維持する。

    Link: https://arxiv.org/abs/2606.18967

  • 脳MRIに対する量子潜在GAN拡張の制御されたベンチマーク [cs.LG, cs.AI, cs.CV]目的:脳MRI画像の生成拡張による分類性能の向上
    • 医療画像診断の精度向上には大量の学習データが必要であり,その確保は課題である。
    • データ不足を補う生成モデルは存在するが,量子生成モデルの効果は検証が不十分である。
    • 量子生成モデルと古典生成モデルを公平に比較し,その効果を厳密に評価する。
    • データ拡張によって分類精度が向上することは確認されなかった。
    • 量子生成モデルと古典生成モデルの間には統計的な差は認められなかった。
    • データが少ない状況下での効果は正則化によるものであり,データの拡張とは言えない。

    Link: https://arxiv.org/abs/2606.18970

  • CAPRA:ソフトウェアアーキテクチャ成果物に対するフィードバックを多エージェントLLMシステムで拡張 [cs.SE, cs.AI]目的:ソフトウェアアーキテクチャ成果物の評価
    • ソフトウェア開発におけるアーキテクチャの品質は,システムの成功に不可欠である。
    • アーキテクチャ成果物のレビューは手作業に頼ることが多く,時間と労力を要する。
    • LLMを活用し,アーキテクチャ成果物の自動評価を実現し,効率化を目指す。
    • CAPRAは,複数の専門エージェントと,テキストとUML図の抽出を行うマイクロサービスを用いて,構造と要件のトレーサビリティを分析する。
    • 評価基準8項目において88.8%の基準を満たし,人間の評価者との間には中程度の合意率(kappa = 0.582)が確認された。
    • レポート1件あたり4分強で処理が可能であり,LLMによるアーキテクチャフィードバックの実現可能性が示された。

    Link: https://arxiv.org/abs/2606.18976

  • トークン化を超えて:時系列への直接埋め込みとコントラスト学習による時系列質疑応答 [cs.CL, cs.AI]目的:時系列質疑応答における性能向上
    • 時系列データ分析は,経済,医療,環境など幅広い分野で不可欠である。
    • 既存手法は,時系列データのトークン化やパッチ分割に依存し,情報の損失や柔軟性の欠如が課題である。
    • 本研究は,時系列データの直接埋め込みとコントラスト学習により,これらの課題を解決することを目指す。
    • 提案手法CADEは,時系列データを直接LLMの埋め込み空間にマッピングすることで,トークン化による情報の損失を防ぐ。
    • また,時系列埋め込みとテキストアンカー間のコントラスト学習により,意味的なギャップを埋めている。
    • 実験結果から,CADEは複数のTSQAタスクで既存のベースラインモデルを上回る性能を示した。

    Link: https://arxiv.org/abs/2606.18986

  • ThinkDeception:解釈可能な多Modal欺瞞検出のための漸進的強化学習フレームワーク [cs.AI]目的:多Modal欺瞞検出における解釈可能性の向上
    • 詐欺行為の検出は重要であり,社会的な信頼維持や経済的損失の軽減に不可欠である。
    • 既存手法はブラックボックス化しており,欺瞞行動の背後にある根拠が不明瞭である。
    • 欺瞞検出を,解釈可能な認知推論プロセスへと変革し,その根拠を明確にすることを目指す。
    • ThinkDeceptionは,多Modal Large Language Models (MLLMs) を導入し,欺瞞検出を段階的な認知推論プロセスとして捉える。
    • Visual-Audio Consistency Group Relative Policy Optimization (VAC-GRPO) と漸進的訓練戦略により,モデルの推論品質を大幅に向上させる。
    • 主要なベンチマークにおいて,既存手法を凌駕する検出精度と根拠の質を達成し,新たなSOTAを確立した。

    Link: https://arxiv.org/abs/2606.18988

  • G-IdiomAlign:クロス言語イディオムアライメントのためのグロス中心ベンチマーク [cs.CL, cs.AI]目的:クロス言語イディオムアライメントのためのベンチマーク
    • イディオムは言語間の翻訳が困難であり,自然言語処理における重要な課題である。
    • イディオムの非構成性と表面形の曖昧さから,逐語的翻訳は信頼性に欠ける。
    • グロスを介してイディオムのアライメントを評価することで,より正確な翻訳を可能とする。
    • G-IdiomAlignは,Wiktionaryの英訳グロスを基準としたクロス言語イディオムアライメントのベンチマークである。
    • 多様なLLMにおいて,低リソース言語への翻訳において逐語的翻訳への偏りが顕著であった。
    • グロスを用いることで,Gloss-Contrastive Generationの性能が向上し,グロスの意味的固定化の重要性が示唆された。

    Link: https://arxiv.org/abs/2606.18989

  • TRAP:タスク完了と積極的プライバシー抽出への耐性に関するベンチマーク [cs.CR, cs.AI]目的:タスク完了度とプライバシー漏洩リスクのトレードオフの評価
    • 近年,機密情報を含む文書処理を行うエージェントの利用が増加しており,プライバシー保護が重要課題となっている。
    • エージェントはタスクを正確に完了するためにプライバシー情報を利用する必要がある一方,情報漏洩を防ぐ必要があり,両立が困難である。
    • 本研究は,タスク完了度を維持しつつ,プライバシー情報の漏洩を効果的に抑制する手法を模索することを目的とする。
    • 22のモデルを評価した結果,全てのモデルファミリーで漏洩が見られ,指示への追従能力と漏洩率には相関関係があることが判明した。
    • 既存のプロンプトベースの防御策は漏洩を軽減するものの,タスクの精度が著しく低下するというトレードオフが生じる。
    • プライベートフィールドのハッシュ化によって情報漏洩を大幅に抑制しつつ,タスク精度を維持できることが示された。

    Link: https://arxiv.org/abs/2606.18996

  • DIPHINE:拡散に基づくΦ-IDニューラル推定器 [cs.LG]目的:複雑系の情報構造の解明
    • 現実世界の複雑系の理解には,情報の流れが不可欠である。
    • 既存手法はガウス分布や離散系に限定され,汎用性に欠ける。
    • 連続・非ガウス動的系におけるΦID計算を可能にする。
    • DIPHINEはスコアベース拡散モデルを活用し,ΦIDに必要な相互情報を一括推定する。
    • 合成ベンチマークで真値の原子を正確に復元し,既存手法を上回る性能を示した。
    • 実データへの適用により,生理学的に解釈可能な情報動的構造を抽出することに成功した。

    Link: https://arxiv.org/abs/2606.18997

  • 拡散TransformerのRLポストトレーニングにおけるシード探索とスポットGPUの相乗効果 [cs.CL, cs.DC, cs.DC, cs.AI, cs.LG]目的:拡散TransformerのRLポストトレーニングにおけるコスト削減と効率化
    • 拡散モデルの性能向上には大量の計算資源が必要であり,コストが課題となっている。
    • 既存の手法では,計算コスト削減と効率的なGPU活用が両立できていない。
    • スポットGPUを活用し,シード探索の効率を高めることでコスト削減を目指す。
    • Spotlightは,スポットGPUを活用することで,従来の4倍の速さで目標精度に到達する。
    • 総コストを1.4~6.4倍削減し,DeepSeek-OCRやGenevalデータセットで優れた画像品質を達成する。
    • シード探索におけるモデルの陳腐化を許容し,スポットGPUのアイドル時間を活用する。

    Link: https://arxiv.org/abs/2606.19004

  • Sumi:スクラッチから構築されたオープンな均一拡散言語モデル [cs.CL, cs.LG]目的:大規模なパラメータ数とトークン数でスクラッチから事前学習された均一拡散言語モデル
    • 拡散モデルは,自己回帰モデルの有望な代替手段として注目されており,自然言語処理の進歩に不可欠である。
    • 均一拡散言語モデルは柔軟な生成を可能にするが,大規模なパラメータとトークンでスクラッチから事前学習されたものは存在しない。
    • 大規模な均一拡散モデルを公開することで,スケーリング特性や制御性,他のモデルとの比較研究を促進することを目指す。
    • Sumiは,知識,推論,コーディングのベンチマークにおいて,同程度のトークン数で学習された自己回帰モデルと競合できる性能を示す。
    • 常識推論のベンチマークでは,学習データに含まれる教育データの偏りが影響している可能性がある。
    • モデルの重み,チェックポイント,学習レシピを公開し,大規模な均一拡散モデルの研究を促進する。

    Link: https://arxiv.org/abs/2606.19005

  • セキュアな機械学習モデル実行のためのライフサイクルを意識した動的解析 [cs.CE, cs.CR, cs.LG]目的:機械学習モデル実行時のセキュリティ確保
    • 機械学習の利用拡大に伴い,攻撃対象領域が増加しており,セキュリティ対策の重要性が高まっている。
    • 既存のモデルスキャンは静的ルールや既知のシグネチャに依存するため,汎用性や未知の攻撃検出に課題がある。
    • モデル実行時のホストシステムへの影響に着目し,ライフサイクルを考慮した動的解析により,新たな攻撃検出を目指す。
    • 提案手法Moatは,機械学習モデルのライフサイクルとホストシステムとのインタラクションの構造に着目した動的解析アプローチである。
    • Hugging Face HubのモデルやCVEのPoCを用いた評価で,全ての攻撃クラスを検出し,誤検知率はほぼゼロに抑えられた。
    • この結果は,動的解析が機械学習モデルのセキュリティ確保に有効であることを示唆している。

    Link: https://arxiv.org/abs/2606.19023

  • FoMoE:専門家連合によるフルレプリカ障壁の打破 [cs.LG, cs.AI, cs.DC, cs.SY, eess.SY]目的:大規模言語モデルの分散学習における効率性向上
    • 言語モデルの性能向上には大規模な計算資源が必要であり,その分散学習が重要である。
    • 既存の分散学習手法は,各サイトでモデル全体のレプリカが必要となり,メモリ制約や通信コストが増大する。
    • 専門家層を分割することで,フルレプリカの必要性をなくし,分散学習の効率化を図る。
    • FoMoEは,効率的なベースラインと比較して通信コストを最大1.42倍削減し,DDPと比較して45.44倍削減することを示した。
    • 新しいスキップトークン機構により,実測スループットが最大1.4倍向上した。
    • 訓練されたプロキシレジームにおいて安定したルーティングを示し,システムモデリングを通じて1000億パラメータ規模への通信/メモリ上の利点を示唆した。

    Link: https://arxiv.org/abs/2606.19025

  • HRRR予測誤差予測のためのハイブリッドLSTM-Vision Transformerアーキテクチャ [cs.LG, cs.AI, physics.ao-ph]目的:HRRR予測誤差の予測
    • 高解像度数値予報における誤差は,気象予測の精度向上において重要な課題である。
    • 境界層や対流など,鉛直構造を持つ大気現象の表現が予測誤差の大きな要因となっている。
    • 鉛直方向の情報を活用することで,予測誤差の予測精度を向上させることを目指す。
    • プロファイラ観測データを組み込むことで,LSTMモデルと比較して予測誤差の予測スキルが向上した。
    • 特に降水予測誤差において,予測スキルが約2倍に向上し,対流や境界層プロセスに関連する誤差の減少に貢献した。
    • 時間的な系列学習と鉛直方向の情報に基づいた注意機構の組み合わせが,数値予報システムの誤差予測改善に有効であることが示された。

    Link: https://arxiv.org/abs/2606.19026

  • スパース混合エキスパートの不連続性に関する幾何学的・確率的解析 [cs.RO, cs.DB, cs.LG]目的:スパース混合エキスパートにおける不連続性の幾何学的・確率的性質の解明
    • 大規模言語モデルや画像認識モデルにおいて,モデルの規模拡大に不可欠な技術である。
    • エキスパート選択の不連続性により,入力のわずかな変化が大きな出力の変動を引き起こす可能性がある。
    • 不連続性の種類と分布を解析し,安定性と性能を向上させるための滑らか化手法を提案すること。
    • 不連続性は次数によって分類され,低次数の不連続性が支配的であることが理論的に示された。
    • 入力空間のランダムな摂動は,ほぼ確実に低次数の不連続性に最初に遭遇することが証明された。
    • 提案する滑らか化機構は,計算コストを抑えつつ,不連続性付近の安定性と性能を改善する。

    Link: https://arxiv.org/abs/2606.19036

  • スパイクニューラルネットワークのための適応型音声-スパイク符号化 [cs.IR, cs.NE, cs.LG, cs.SD]目的:スパイクニューラルネットワークにおける音声処理の効率化
    • 脳型情報処理の実現に向け,エネルギー効率の高い音声認識が求められている。
    • 従来の音声-スパイク符号化は固定されており,SNNの性能を制限する要因となっていた。
    • 学習可能な符号化器を用いて,タスクに適応したスパイク表現を学習することで,性能向上を目指す。
    • 提案手法はGoogle Speech Commands v2ベンチマークにおいて,最大94.97%の認識精度を達成した。
    • 35kパラメータというコンパクトなモデルでも89.8%の精度を維持し,既存手法と同等以上の性能を示した。
    • 符号化器は信号の忠実な再構成ではなく,クラス分離性を高めるようなスパイク表現を学習していることが示された。
    • DFAによるバイオインスパイアな学習則は91.5%の精度を達成し,性能トレードオフを定量化した。

    Link: https://arxiv.org/abs/2606.19039

  • 変動はどこへ行ったのか?バイブコーディングからリジェネレーションによるプロダクトラインへ [cs.SE, cs.AI]目的:バイブコーディングによるプログラム生成時の変動の扱い
    • ソフトウェアの信頼性向上のためには,多様な状況に対応できるソフトウェア開発が不可欠である。
    • 従来のソフトウェア工学では変動をコードに組み込むが,AIによる自動生成では変動が失われる可能性がある。
    • AI生成ソフトウェアにおける変動を仕様に集中させ,効率的なプロダクトライン工学を実現すること。
    • バイブコーディングによるC/C++プロジェクトの分析から,生成時に全ての変動が決定されることが示された。
    • リジェネレーションによる変動(VbR)を提案し,LLMを派生エンジンとして活用する新たなプロダクトラインアプローチを確立した。
    • VbRのパイプラインをwcプロダクトファミリーで実証し,AI生成ソフトウェアにおける変動はコードではなく仕様に存在すべきであることを示した。

    Link: https://arxiv.org/abs/2606.19042

  • 報酬駆動型オンラインデータ合成:マルチターンツール使用エージェントのための [cs.AI]目的:マルチターンツール使用におけるデータ枯渇問題の解決
    • 強化学習による複雑なタスク実行において,効率的なデータ利用は重要である。
    • 既存のデータセットは,学習が進むにつれて有用なサンプルが減少し,性能向上のボトルネックとなる。
    • 報酬分散を活用し,境界領域のサンプルを動的に生成することで,データ枯渇を緩和する。
    • RODSは,既存のオフラインパイプラインと同等の性能を,約20分の1のデータ量で達成した。
    • 学習の進捗に応じて,境界領域を検出し,構造的に類似したサンプルを合成する。
    • わずか800サンプル程度の活性学習プールで,固定データや環境拡張と比較して性能が向上した。

    Link: https://arxiv.org/abs/2606.19047

  • 強靭なサイバー物理システムのモデルフリー強化学習制御 [eess.SY, cs.LG, cs.SY]目的:サイバー攻撃下における非線形システムに対するモデルフリー制御器の性能比較
    • 現代社会において,サイバー物理システムの重要性は増しており,その安定運用が不可欠である。
    • サイバー攻撃に対する脆弱性が課題であり,システムへの影響を最小限に抑える対策が求められている。
    • 強化学習を用いることで,攻撃に対するシステムの耐性を高める制御手法を確立することを試みる。
    • リャプノフ報酬が,低い追従誤差とともに最も高い耐性を示すことが明らかになった。
    • 指数モードも良好なトレードオフを提供し,適度な学習条件下で許容可能な耐性を示す。
    • プロキシマルポリシー最適化は,ディープ決定論的ポリシー勾配よりも,KPI分散の大幅な削減を実現した。

    Link: https://arxiv.org/abs/2606.19069

  • ARIADNE:推論時の適応型ダイナミック選択のための汎用ルーティング [cs.AI]目的:推論時の適応型選択のためのルーティングフレームワーク
    • 近年,パラメータ効率の良いファインチューニングが盛んになり,様々なタスクに対応したモデル群が形成されている。
    • タスクラベルなしの入力に対して適切な適応型を自動選択する必要があるが,既存手法は内部情報への依存や追加学習が必要となる。
    • 本研究は,アダプター内部にアクセスせず,追加学習も不要なルーティングフレームワークを提案し,この問題を解決する。
    • ARIADNEは,各適応型を訓練データの埋め込み表現から計算されるセントロイドで表現することで,タスクデータの分布を捉える。
    • 入力されたラベルなしデータは,潜在空間におけるセントロイドとの近さによって適応型が選択される。
    • Llama 3.2 1B Instructを用いて23のNLPタスクで評価した結果,上限性能の97.44%を達成し,44タスクでは89.7%の選択精度を維持した。

    Link: https://arxiv.org/abs/2606.19079