arXiv雑要約

AI - 2026/06/11 公開

  • 強化学習が勾配ベースの敵対的最適化を阻害する [cs.CL, cs.LG, cs.AI, cs.CR]目的:深層ニューラルネットワークに対する敵対的攻撃の脆弱性を軽減する手法の検討
    • 深層学習モデルは敵対的攻撃に対して脆弱であり,その防御が重要である。
    • 従来の防御手法では,敵対的攻撃に対する高いロバスト性を確保することが困難である。
    • 強化学習によってモデルの勾配構造を変化させ,敵対的攻撃を困難にすることを試みる。
    • 強化学習で訓練された分類器は,勾配ベースの敵対的最適化を著しく阻害することが示された。
    • 強化学習は,勾配の不安定化と勾配値の減少を通じて,暗黙的な正則化として機能する。
    • 強化学習と敵対的訓練を組み合わせることで,勾配レベルと境界レベルの両方で防御効果を高めることができた。

    Link: https://arxiv.org/abs/2606.12251

  • 説明可能性を訓練時の信頼性シグナルとして利用した効率的な心電図分類 [cs.LG, cs.AI]目的:効率的な心電図分類のための信頼性シグナル
    • 臨床時系列解析における深層学習は重要だが,医療現場での計算資源の制約がある。
    • 既存手法はモデルの確信度に依存し,ノイズや曖昧さによる困難なサンプルを保持しやすい。
    • 説明可能性に基づく信頼性シグナルを用いて,効率性と信頼性を向上させることを目指す。
    • 提案手法ERTは,心電図分類において,説明の質を訓練時の信頼性シグナルとして利用する。
    • Grad-CAMアテンションマップを用いて,予測が整合性のあるパターンに裏付けられているかを評価する。
    • 3つの心電図データセットで検証した結果,macro-F1スコアが向上し,訓練コストが削減された。

    Link: https://arxiv.org/abs/2606.12252

  • 潜在知識の引き出しの不可能性 [cs.AI]目的:潜在知識を正直に報告するAIエージェントの訓練
    • 高度なAIは環境に関する膨大な知識を持つ。その知識は開発者や利用者を凌駕する場合もある。
    • AIに人間が知らない変数を正直に報告させることは困難である。人間とのコミュニケーション上の課題が存在する。
    • AIエージェントが隠れた変数の情報を正直に報告する訓練方法の限界を明らかにする。
    • 因果影響図(CID)を用いて,AIが正直であることの定義を形式的に定式化した。
    • 訓練中の正しいフィードバックによって,エージェントに正直な回答を促せる場合があることが示された。
    • しかし,エージェントの一般化において,人間が真実と評価する回答と正直な回答が一致しない場合がある。その限界が定理として証明された。

    Link: https://arxiv.org/abs/2606.12268

  • データセットにおける多義的な解釈の発見 [cs.CL, cs.LG]目的:データセットにおける,性能は類似しつつも文脈依存的な特徴が大きく異なるモデル群の発見
    • モデルの挙動を理解することで,データの本質や現象の解明に繋がるため
    • モデルの性能評価だけでは,モデルの内部特性を捉えきれない場合がある
    • モデルの多様性を抽出し,より深い洞察を得るための手法を提案すること
    • 提案手法は,METABRICデータセットにおいて,既存手法と同等の性能を維持しつつ,遺伝子発現において多様なモデル群を発見した。
    • モデルの全体的な特性を分析し,基礎となる現象への理解を深める上で,本手法は有用である。

    Link: https://arxiv.org/abs/2606.12277

  • 単一の学習サイクルによるプログレッシブな大きさに基づく剪定による疎なサブネットワークの発見 [cs.CV, cs.LG]目的:ニューラルネットワークの疎化
    • モデルのサイズ削減は,計算資源の節約や推論速度の向上に不可欠である。
    • 既存の剪定手法は,複数回の学習サイクルが必要であり,計算コストが高いという課題がある。
    • 単一の学習サイクルで効率的に疎なサブネットワークを発見すること。
    • 提案手法は,CIFAR-10においてResNet-18で72.9%の疎さで95.12%の精度を達成し,LTHの90.5%を上回った。
    • 極端な疎さにおいても,VGG系アーキテクチャで97%の疎さで93.13%,VGG-19で97.97%の疎さで93.44%の精度を達成し,SNIPやGraSPを上回った。
    • ResNet-18における疎さ-精度分析では,70〜85%の疎さにおいて,密なベースラインの精度との差が0.1%以内であることが示された。

    Link: https://arxiv.org/abs/2606.12278

  • 最適化誘導演算子を持つ遺伝的アルゴリズムの数学的考察 [cs.NE, cs.AI, cs.LG]目的:遺伝的アルゴリズムの最適化
    • 機械学習分野で最適化問題を解決する手法として,遺伝的アルゴリズムの利用が注目されている。
    • 従来の遺伝的アルゴリズムの突然変異や組換え演算子はランダム性が高く,効率が課題であった。
    • 機械学習による最適化誘導演算子を持つ遺伝的アルゴリズムの計算複雑性を数学的に解析する。
    • 本研究では,遺伝的アルゴリズムをクエリ複雑性問題として定式化し,最適化問題をモデル化した。
    • 最適化問題によっては,生成,突然変異,組換えを解決する必要があることを示した。
    • 解の多様性が重要な役割を果たす問題群に対し,効率的なアルゴリズムを提案した。

    Link: https://arxiv.org/abs/2606.12279

  • 8ビット重みと活性化におけるFP8品質上限の維持:Ideogram 4.0のINT8およびGGUFポストトレーニング量子化 [cs.LG]目的:大規模テキスト画像生成拡散変換器の消費者向けGPUでの動作
    • 画像生成AIは急速に発展しており,その実用化には計算資源の効率化が不可欠である。
    • 量子化技術はモデルサイズを縮小できるが,画質低下を招く可能性があり,ハードウェアとの適合性が重要である。
    • FP8と同等の品質を維持しつつ,INT8やGGUFによる量子化でより効率的な推論を目指す。
    • INT8量子化(W8A8レシピ)は,FP8と同等の画質を維持し,NF4よりも$+1.9$ CLIPスコアで優れていることが示された。
    • GGUF Q4_K量子化は,NF4と同等のサイズで画質が向上し,品質とメモリ効率のトレードオフにおいて優位性を示す。
    • 8ビット量子化は,FP8と同等のフットプリントを持つため,Ampere GPUでの速度向上が期待されるのは,INT8に対応したカーネルの実装時である。

    Link: https://arxiv.org/abs/2606.12280

  • 合意に基づくコミュニケーションと知識共有 [cs.MA, cs.AI, cs.LG]目的:分散型訓練・実行における協力的多対話エージェント強化学習の知識共有メカニズム
    • 多エージェント強化学習は,複雑なタスクを複数のエージェントで協調して解決する上で重要である。
    • 既存のアクションアドバイス手法は,教師と学習者の相性を考慮せず,過剰なアドバイスや性能低下を招く場合がある。
    • 本研究は,合意に基づく制約を用いてアドバイスの採用を調整し,エージェントの探索と学習のバランスを改善することを目指す。
    • 提案手法CCKSは,エージェント間の合意形成に基づき,教師の指示を賢く利用することで,協調効率と学習速度を向上させる。
    • コントラスト学習を用いた合意モデルの構築により,エージェントは局所的な観測に基づいて共有知識を活用できる。
    • Google Research FootballとStarCraft II Multi-Agent Challengeでの実験により,CCKSが既存手法と比較して大幅な性能向上を達成することが示された。

    Link: https://arxiv.org/abs/2606.12281

  • ピアノコンテクスト:無表現な文脈からの表現力豊かな演奏生成 [cs.SD, cs.LG]目的:表現力豊かな演奏生成
    • 音楽表現の自動生成は,作曲や演奏支援など,様々な応用可能性を秘めている。
    • 既存モデルは,一定長の音楽サンプルしか扱えず,表現豊かなタイミングの理解が課題であった。
    • 学習データ生成にDTWを用いることで,楽譜と演奏の依存関係を効率的に学習することを目指す。
    • PianoKontextは,事前学習済みのMusic2Latentモデルの潜在空間で可変長の演奏を生成する。
    • 楽譜を無表現な音声に合成し,潜在空間でのDTWによりペアデータを作成することで,学習を実現した。
    • DiTブロックを用いることで,楽譜と演奏間の依存関係をシンプルかつ効果的に学習した。

    Link: https://arxiv.org/abs/2606.12282

  • スパイクデコーダー:スパイクニューラルネットワークによるGPTアーキテクチャの実現 [cs.NE, cs.AI]目的:スパイクニューラルネットワークを用いたTransformerデコーダーブロックの実装
    • 自然言語処理においてTransformerは強力だが,計算コストが高く消費電力も大きい。
    • スパイクニューラルネットワークは省電力だが,学習が困難であり,既存研究は画像処理に偏っている。
    • 自然言語処理に特化した,直接学習可能なスパイクニューラルネットワークTransformerデコーダーを開発する。
    • 提案手法SpikeDecoderは,Transformerデコーダーブロックを完全にスパイクニューラルネットワークで実装した。
    • ANNベースラインと比較して,理論上の消費電力を87%から93%削減することを示した。
    • 残差接続や正規化手法,埋め込み方法の選択が性能に与える影響を分析した。

    Link: https://arxiv.org/abs/2606.12287

  • 標準解釈可能モデル:ラグランジュ力学を用いた解釈可能機械学習法の演繹的設計に関する一般理論 [cs.LG, cs.AI, cs.NE]目的:解釈可能機械学習法の演繹的設計
    • AIモデルの複雑化に伴い,その理解・デバッグ・制御には解釈可能性が不可欠である。
    • 解釈可能性に関する一般的な理論が不足しており,手法開発が場当たり的で評価基準も一貫しない。
    • ラグランジュ力学に基づいた標準解釈可能モデル(SIM)を提示し,解釈可能性の理論的基盤を確立する。
    • SIMは,ターゲットユーザーのための解釈可能性を前提として,解釈可能性の対称性と制約を系統的に導き出す。
    • SIMは,既存手法の限界を特定し,未開拓の研究分野を明らかにし,コアプログラミングインターフェースの設計を支援する。
    • SIMの演繹的性質は,解釈可能性教育の基礎を提供し,学術コミュニティの視点を変化させる可能性がある。

    Link: https://arxiv.org/abs/2606.12289

  • VLAへの指示方法の学習:主に無害なビジョン言語行動モデルの操縦 [cs.RO, cs.LG]目的:ロボット制御における言語インターフェースの改善
    • ロボットの汎用性と人間との協調作業を円滑にするには,自然言語による制御が不可欠である。
    • 言語と行動の対応が脆弱で,類似した指示でも行動が大きく異なったり,潜在能力が引き出せない場合がある。
    • 言語による操縦を改善し,タスク成功率を高めるための効果的な手法を確立することを目指す。
    • 提案手法は,閉ループVLAのタスク性能を向上させる言語シーケンスを探索し,それをテスト時に利用する言語フィードバックポリシーへと変換する。
    • 性能向上が期待できる状況を予測する改善ヘッドを学習し,有害な介入を防ぐためにこれを確証化する。
    • シミュレーションと実機実験で,ベースVLAの性能をそれぞれ24.7%,65.0%向上させ,頑健性と安全性を両立した。

    Link: https://arxiv.org/abs/2606.12299

  • 長時間の動画における自然言語による時間的 groundedness は探索問題である:ベンチマークと経験的分解 [cs.CV, cs.AI]目的:長時間動画における自然言語クエリに対する時間的 groundedness の実現
    • 動画理解において,自然言語による指示に基づいた時間特定は重要な課題である。
    • 従来の動画 groundedness 研究は短時間の動画に偏っており,長時間動画への適用が課題であった。
    • 本研究は,長時間動画における groundedness のボトルネックが検索にあることを検証し,解決を目指す。
    • 大規模な長時間動画ベンチマーク「ExtremeWhenBench」を公開し,既存の Video-LLM の性能限界を示した。
    • Video-LLM の失敗原因の多くが検索能力の不足に起因すること,そして検索と groundedness を組み合わせることで大幅な性能向上が得られることを明らかにした。
    • 本研究の結果は,オープン領域質問応答における retrieve-then-read と同様に,retrieve-then-ground が効果的であることを示唆する。

    Link: https://arxiv.org/abs/2606.12300

  • 連鎖演算子による文脈内演算子学習の活用 [cs.LG, cs.AI]目的:演算子汎化性能の向上
    • 関数空間間の写像を近似するニューラル演算子は,科学計算等の分野で重要である。
    • ニューラル演算子は,他の演算子への汎化性能が低く,再学習が必要となる場合が多い。
    • 文脈内学習を活用し,再学習なしで未知の演算子に対応することを目指す。
    • 提案手法であるCHOPは,既存のICONを固定したまま,演算子の連鎖を構築することで未知の演算子タスクへの推論誤差を低減する。
    • 連鎖中の各演算子は解釈可能性を維持し,閉じた形式で表現される。
    • ある偏微分方程式族で構築された連鎖は,異なる族の偏微分方程式にも適用可能であり,汎用性を示唆する。

    Link: https://arxiv.org/abs/2606.12318

  • 本番AIエージェントの実行時ガバナンスのための五面参照アーキテクチャ [cs.AI, cs.CC, cs.CR, cs.SE]目的:本番AIエージェントの実行時ガバナンスのための参照アーキテクチャ
    • 企業セキュリティはデータ境界の管理が基本。AIエージェントの普及により,リスク管理のあり方を変える必要が生じている。
    • 既存のポリシーエンジンは,AIエージェントのような複合的な主体に対する状態に基づいた評価に対応できていない。
    • エージェントの委譲チェーンにおける権限減衰を考慮した,実行時ガバナンスアーキテクチャを確立すること。
    • 本研究では,意思決定を行う推論面と,それを実現する4つの強制面(ネットワーク,ID,エンドポイント,データ)からなる五面分解に基づくアーキテクチャを提案。
    • 中断プリミティブの分類,4つの正当性不変量,7つの本番エージェントの脅威を具体的に定義し,それらに対処できることを示した。
    • 実装されたポリシーエンジンのコアは,権限減衰の正確性,証拠の再構築可能性を確認。判断はマイクロ秒単位で実行され,監査基盤も設計通りに機能。

    Link: https://arxiv.org/abs/2606.12320

  • PROJECTMEM:AIコーディングエージェントのためのローカル優先,イベントソーシングによるメモリと判断層 [eess.SY, cs.SY, math.OC, cs.AI]目的:AIコーディングエージェントのためのメモリおよび判断層
    • ソフトウェア開発においてAIの活用が進む中で,エージェントの効率性が重要な課題となっている。
    • AIエージェントはステートレスであり,開発履歴を毎回再構築する必要があるという問題点がある。
    • 開発履歴の再構築コストを削減し,AIエージェントの判断能力向上を目指す。
    • PROJECTMEMは,開発イベントをテキストログとして記録し,AIが読み取り可能な要約を生成することで,メモリの再構築コストを削減する。
    • 過去の失敗を繰り返すことや,脆弱なファイルの編集を事前に警告する機能により,AIエージェントの行動を制御する。
    • 2ヶ月間の自己学習の結果,10プロジェクト,207件のイベントログが記録され,PROJECTMEMの有効性が確認された。

    Link: https://arxiv.org/abs/2606.12329

  • 複数ターン対話における情報獲得を通じた意味的進捗の測定 [cs.CL, cs.LG]目的:複数ターン対話における意味的進捗の評価
    • 対話システムは人間との自然なコミュニケーションを可能にする重要な技術である。
    • 複数ターン対話の質は単一の応答ではなく,対話全体を通して評価する必要がある。
    • 対話における情報獲得を定量的に測定し,意味的進捗を評価する手法を確立する。
    • 意味的進捗を質問条件付きの不確実性低減として定式化し,埋め込み空間でこれを近似する情報理論的指標を提案した。
    • 提案手法は,MT-Bench,Chatbot Arena,UltraFeedbackにおいて,人間の評価と高い一致性を示した。
    • 軽量な埋め込みモデルとCPUのみの実行環境でも効果的であり,大規模モデルに依存しない評価が可能である。

    Link: https://arxiv.org/abs/2606.12332

  • フーリエ特徴量による模倣学習を用いた高精度なエージェントの学習 [cs.LG, cs.RO]目的:高精度なロボット操作のための模倣学習におけるフーリエ特徴量の有効性
    • ロボット操作の高度化には,空間的な微細な理解が不可欠であり,その重要性は増している。
    • RGB画像のみでは,深度の曖昧さや視点によるスケール変化から,正確な空間認識が困難な場合がある。
    • 点群データをフーリエ空間に変換することで,高周波特徴へのアクセスを可能にし,学習効率を改善する。
    • フーリエ特徴量は,多様なエンコーダーアーキテクチャやベンチマークにおいて,有意な性能向上をもたらした。
    • 従来の Cartesian 特徴量と比較して,幾何学的詳細の活用を促進し,より効果的な模倣学習を可能にした。
    • この手法は,RoboCasa,ManiSkill3などのベンチマークと実ロボット環境で有効性が確認された。

    Link: https://arxiv.org/abs/2606.12334

  • 偏微分方程式制約逆問題における随伴法と物理情報ニューラルネットワークの比較 [eess.SY, cs.SY, math.OC, math.NA, cs.LG, cs.NA]目的:偏微分方程式制約逆問題に対する随伴法と物理情報ニューラルネットワークの性能比較
    • 計算力学において逆問題を解くことは重要であり,様々な工学的課題に応用される。
    • 随伴法と物理情報ニューラルネットワークは,比較が難しく,設定に依存した結果になる。
    • 同一の設定下で両手法を比較し,それぞれの得意分野を明らかにすることを試みる。
    • 未知量の表現方法が手法の選択に大きく影響する。格子ベースの場は随伴法,ニューラルネットワーク表現はPINNが有利。
    • 時間依存問題では,随伴法は軌跡の保存と微分にコストがかかるが,PINNは低コストで良好な再構成が可能。
    • PINNで初期化された随伴法は,計算コストを削減しつつ,随伴法と同等の精度を達成できる。

    Link: https://arxiv.org/abs/2606.12337

  • ALIGNBEAM:クロス語彙ロジット混合による推論時アラインメント転移 [cs.CL, cs.AI, cs.ET, cs.LG]目的:大規模言語モデルの安全性向上
    • 大規模言語モデルの安全性確保は,その社会実装において不可欠である。
    • ドメイン特化型モデルは,安全性が低下しやすいという課題がある。
    • 異なる語彙を持つモデル間でも安全性転移を可能にすることを目指す。
    • ALIGNBEAMは,追加学習なしに,安全なモデルの知識を他のモデルへ転移させる。
    • クロス語彙環境下でも,有害なプロンプトへの応答を大幅に抑制しつつ,タスク精度を維持する。
    • 推論時のオーバーヘッドも実用的な範囲に抑えられ,安全性と有用性のバランスを調整可能である。

    Link: https://arxiv.org/abs/2606.12342

  • Claw-SWE-Bench:コーディングタスクにおけるOpenClawスタイルエージェントハーネスの評価ベンチマーク [cs.DC, cs.LG, cs.CL]目的:コーディングタスクにおけるOpenClawスタイルエージェントハーネスの評価
    • 汎用エージェントの活用が進む中で,その能力を客観的に評価する手段が求められている。
    • 既存のSWE-benchでは,Docker環境等の制約から,汎用エージェントの評価が困難であった。
    • OpenClawスタイルハーネスのコーディング能力を公平に評価するためのベンチマークとアダプタープロトコルを提供する。
    • Claw-SWE-Benchは,350件のGitHub課題解決インスタンスを含む多言語ベンチマークである。
    • OpenClawに最小限のアダプターを適用した場合,Pass@1は19.1%であったが,完全なアダプターでは73.4%に向上した。
    • ハーネス選択やモデル選択がPass@1に大きな影響を与え,APIコストにも差が見られた。

    Link: https://arxiv.org/abs/2606.12344

  • Atlas H&E-TME:専門病理医レベルの精度を持つスケーラブルなAIベース組織プロファイリング [cs.CV, cs.AI, cs.LG]目的:ヘマトキシリン・エオジン染色組織標本画像の大規模かつ定量的な解析
    • 病理診断において,ヘマトキシリン・エオジン染色が基本的な手法である。
    • ヘマトキシリン・エオジン染色標本画像の定量解析には,スケーラビリティと精度の課題が存在する。
    • AI技術を用いて,組織環境の定量的評価を可能にし,新たなバイオマーカー開発に貢献する。
    • Atlas H&E-TMEは,多様な癌種において,細胞レベルでの4,500以上の定量的なデータを提供できる。
    • IHCに基づく多病理医コンセンサスプロトコルにより,従来のH&Eのみの評価におけるrater間一致度を向上させた。
    • Atlas H&E-TMEは,病理医のH&Eのみの評価と同等またはそれ以上の性能を示し,広範な組織学的・技術的範囲で汎用性がある。

    Link: https://arxiv.org/abs/2606.12346

  • ノン・スロップ:人間とAIの協調ライティングに関するゲーミフィケーション実験 [cs.RO, cs.SY, eess.SY, cs.AI]目的:人間とAIの協調ライティングにおける人間の行動様式
    • 大規模言語モデルの普及に伴い,AI支援下での人間の創造性や個性の維持が重要となっている。
    • AIの提案を受け入れる頻度や,それが個人の文体に与える影響についての理解が不足している。
    • 人間の自律的な創造性を維持する要因を,ゲーミフィケーションを通じて明らかにすること。
    • 本研究では,AIの提案を抑制するゲーム環境下で,人間のライティング行動を分析した。
    • その結果,参加者はゲームのルールに反してAIの提案を受け入れる場合もあり,タスクや個人の行動特性によって傾向が異なることが示された。
    • このゲーミフィケーション手法は,AIと人間の協調における本質的な相互作用を研究するための新たな枠組みを提供する。

    Link: https://arxiv.org/abs/2606.12350

  • CHORUS:単一のVLAポリシーによる分散型マルチエージェント協調 [cs.RO, cs.AI]目的:分散型マルチエージェント協調の実現
    • ロボットによるタスク遂行の効率化が求められており,協調技術は不可欠である。
    • 中央集権的手法は規模拡大に限界があり,分散型手法は部分観測下での整合性が課題である。
    • 事前学習済みVLAモデルの視覚運動事前知識を活用し,リアルタイムな協調を可能にすること。
    • CHORUSは,単一のVLAバックボーンを多様なロボットチームに適用するフレームワークである。
    • 実世界実験において,分散型モデルと比較して64%の性能向上,チームメイトへの反応性が40%向上した。
    • 中央集権型ベースラインと比較しても優位性を示し,ロボット間通信なしで協調が可能であることが示された。

    Link: https://arxiv.org/abs/2606.12352

  • ポストトレーニングの解剖:解釈可能性を用いたデータ特性評価と学習シグナルの形成 [cs.LG]目的:モデルの学習シグナルを形成するためのデータ特性評価と解釈可能性の活用
    • 大規模言語モデルの性能向上には,ポストトレーニングが不可欠であり,その効果を最大化する手法が求められている。
    • 従来のポストトレーニングはスカラー報酬の最適化に依存し,モデルが学習するデータの詳細が不明瞭になりやすい。
    • 解釈可能性を活用し,データセット内の概念レベルでモデルが学習すべき行動を事前に決定し,望ましくない学習を抑制する。
    • 提案手法は,既存の優先度データにおける有害なシグナルを診断し,意図しない学習を軽減できることを実証した。
    • 解釈可能性に基づく介入により,安全性やモデルの個性といった望ましい特性を増幅または形成することが可能となった。
    • 解釈可能性は,不透明なプロキシ報酬の最適化から,学習シグナルを監査・形成するプロセスへとポストトレーニングを変革できる可能性を示唆した。

    Link: https://arxiv.org/abs/2606.12360

  • 欠損モダリティを持つマルチモーダル学習のための潜在的ワールド回復 [cs.LG, cs.AI]目的:欠損モダリティ下におけるマルチモーダル学習手法
    • バイオサイエンス等の分野では,様々なモダリティのデータが不完全な形でしか利用できない場合が多い。
    • データの一部が欠損している状況下での,効果的なマルチモーダル学習が課題となっている。
    • 観測可能なモダリティのみからロバストな予測を可能にする学習手法の開発を目指す。
    • 提案手法LWRは,異なるモダリティの埋め込みを共有潜在空間で整列させ,利用可能なモダリティのみを融合する。
    • LWRは,欠損モダリティの補完や固定されたモダリティセットを必要とせず,部分観測下でも頑健な予測を実現する。
    • 実際のマルチオミクスデータを用いた評価により,がん表現型分類や生存予測などのタスクで有効性が示された。

    Link: https://arxiv.org/abs/2606.12362

  • サブ二次アーキテクチャ:応用から原理へ [cs.LG]目的:サブ二次アーキテクチャの性能比較と,xLSTMの優位性の解明
    • Transformerモデルは強力だが,計算コストが高い。効率的な代替アーキテクチャの探求が重要である。
    • どのサブ二次アーキテクチャが最も効果的かは不明であり,性能評価と原理理解が必要である。
    • xLSTMの優位性を明らかにし,複雑なタスクにおける性能向上要因を特定すること。
    • xLSTMは,コードモデルの事前学習,蒸留,時系列モデルの事前学習といった様々なタスクで最も優れた性能を示した。
    • xLSTMの優位性は,ゲート機構による柔軟かつ安定した状態補正に起因すると考えられる。
    • xLSTMは,堅牢な状態追跡と蓄積により,複雑なタスクで高い性能を発揮する。

    Link: https://arxiv.org/abs/2606.12364

  • 周囲拡散ポリシー:ロボティクスにおける非最適データからの模倣学習 [cs.RO, cs.AI]目的:ロボティクスにおける非最適データからの模倣学習
    • ロボットの学習には大量のデータが必要だが,高品質なデータの収集はコストと時間がかかる。
    • 非最適データの有用な特徴と有害な特徴を分離することが難しい。
    • 非最適データの活用範囲を広げ,利用可能なデータソースを増やす。
    • 提案手法は,拡散時間の高低に応じて非最適データの貢献度を制限することで,有用な特徴のみを抽出する。
    • 実験の結果,ノイズ,シミュレーションと実世界のギャップ,タスクの不一致,大規模データ混合など,様々な非最適データに対して有効であることが示された。
    • 特に,Open X-Embodimentのような大規模データセットにおいて,既存手法を最大33%上回る性能を達成した。

    Link: https://arxiv.org/abs/2606.12365

  • エントロピーの限界を打破する:棄却サンプリングを用いたMTPによる強化学習の高速化 [cs.CY, cs.LG, cs.CL]目的:大規模言語モデルにおける強化学習のロールアウト段階のボトルネック解消
    • 強化学習は大規模言語モデルの重要な要素であり,その効率化はモデルの性能向上に不可欠である。
    • マルチトークン予測(MTP)の受容率は,強化学習の進行に伴い低下し,期待される高速化効果が得られない場合がある。
    • モデルのエントロピー変動と受容率の関係を明らかにし,新たな損失関数と訓練戦略を提案することで,MTPの性能を向上させる。
    • MTPの受容率はモデルのエントロピーの変動に強く影響され,エントロピーの上昇と負の相関があることが示された。
    • 確率的棄却サンプリングは,貪欲なドラフトサンプリングと比較して,強化学習におけるエントロピーによる影響を軽減する効果がある。
    • 提案するTV損失関数は,MTP受容率を直接最適化し,最大25%の推論スループット向上を実現し,Qwen3.5, 3.6, 3.7モデルの訓練を最大1.8倍に高速化した。

    Link: https://arxiv.org/abs/2606.12370

  • UniIntervene:効率的な実世界強化学習のための能動的介入 [cs.RO, cs.LG]目的:実世界強化学習における効率的な介入手法の開発
    • ロボットの自律的な操作能力向上は,産業や生活の様々な分野で求められている。
    • 従来の人間協調型強化学習は,頻繁な人間の修正が必要で,コストが高く,実用性に課題がある。
    • 人間の介入頻度を減らし,ロボット自身が価値を考慮した回復策を実行することで,効率的な学習を目指す。
    • UniInterveneは,将来の状態価値を予測し,価値の停滞や悪化を検知することで,自律的に介入を判断する。
    • 過去の介入事例を参考に高価値な回復目標を設定し,目標指向型の回復ポリシーを用いて修正行動を生成する。
    • 実世界の多様な操作タスクにおいて,成功率が8.6%向上し,人間の介入回数が57%削減された。

    Link: https://arxiv.org/abs/2606.12372

  • 照明ロバストなカメラベース心拍数推定:ロボットにおける生理的センシングへ [cs.CV, cs.AI]目的:照明変動下におけるリモート心拍数推定の精度向上
    • サービスロボット等において,人間の生理状態を把握することは,より自然なインタラクションを実現する上で不可欠である。
    • 従来の非接触式心拍数推定は,照明条件の変化に大きく影響を受け,安定した性能を発揮できないという課題があった。
    • 本研究は,照明変動に強い心拍数推定システムを開発し,ロボットが多様な環境で利用できるようになることを目指す。
    • 提案手法は,PRNetを用いた3次元顔面整列,クリップレベルの照明オーギュメンテーション,残差時間標準化モジュール,および周波数領域での制御されたハイブリッド教師あり学習を統合している。
    • 実験結果から,最適な重み係数β=5において,心拍数MAEが0.79 bpm,相関係数が0.982と高い精度を達成した。
    • 既存のPhysFormerと比較して,MAEを93.6%削減し,相関係数を0.088から0.982に向上させ,照明変動下でも利用可能なシステムを実現した。

    Link: https://arxiv.org/abs/2606.12378

  • SPEA2$^+$: 実行時間保証付きのSPEA2における密度推定の改善 [cs.NE, cs.AI]目的:多目的最適化問題におけるSPEA2の密度推定改善
    • 多目的最適化は,現実世界の複雑な問題を解決するために不可欠な手法である。
    • SPEA2は広く利用されているが,その理論的分析は十分ではなく,支配解の処理に関する検討が不足している。
    • 支配解の処理における課題を克服し,SPEA2の効率性と性能を向上させることを目指す。
    • SPEA2は,NSGA-IIやSMS-EMOAと比較して,OneTrapZeroTrapベンチマーク問題においてパレートフロントを効率的にカバーできないことが示された。
    • k近傍距離に基づく適合度割り当てでは,支配個体間の多様性を維持するための十分な情報が得られないことが判明した。
    • 提案手法SPEA2$^+$は,OneTrapZeroTrap問題において他の主要なアルゴリズムと同等の性能を達成しつつ,より単純な問題では元のSPEA2と同等の性能を維持する。

    Link: https://arxiv.org/abs/2606.12382

  • エージェント的手続き的方策最適化 [cs.LG, cs.AI]目的:エージェント的強化学習における方策最適化手法
    • 大規模言語モデルエージェントのツール利用能力向上は,複雑なタスク遂行に不可欠である。
    • 既存手法では,中間的な意思決定が最終結果に与える影響の特定が困難である。
    • より細粒度な意思決定ポイントに基づき,方策を最適化し,性能向上を目指す。
    • APPOは,従来の強化学習手法を平均で約4ポイント改善する。
    • 分岐点の選択に,トークンの不確実性と方策による継続可能性向上を組み合わせたBranching Scoreを用いる。
    • 手続きレベルのadvantage scalingにより,分岐ロールアウトへの信用配分を改善する。

    Link: https://arxiv.org/abs/2606.12384

  • ATLAS:自動科学のための能動的理論学習 [cs.CL, cs.LG, cs.AI]目的:自動科学のための解釈可能な行動モデルのデータ駆動型発見
    • メカニズムモデリングは科学的理解を深める上で不可欠であり,認知科学を含む様々な分野で活用が期待される。
    • 実験計画が不適切だと,有益なデータを得られず,モデルの精度向上が阻害されるという課題がある。
    • 実験を最適化し,効率的に情報量の多いデータを収集することで,メカニズムモデリングを加速させる。
    • ATLASは,ランダムな実験と比較して,サンプル効率を5〜10倍向上させることが示された。
    • ATLASが設計した実験は,専門家が設計した実験と同等の性能を示し,その有効性が確認された。
    • ATLASは,認知科学やメカニズムモデリングに基づく科学的探求を加速する可能性を秘めている。

    Link: https://arxiv.org/abs/2606.12386

  • TAHOE:経験に基づく自動ヒント最適化によるテキストSQL変換 [cs.DB, cs.AI]目的:テキストSQL変換におけるヒント最適化
    • データベースへのアクセス手段としてテキストSQL変換の重要性が増している
    • 実運用では,厳格なSQL方言,大規模なスキーマ,変化するユーザーの要望への対応が課題である
    • デバッグ情報を構造化されたヒントバンクに集約し,SQL変換の精度向上を目指す
    • Tahoeは,モデルパラメータを更新せずにテキストSQL変換の精度を大幅に向上させる
    • GPT-5.5を用いた実験で,正答率を61.95%から79.42%に,上位4件正答率を72.57%から87.61%にそれぞれ向上させた
    • Snowflake構文の正答率を100%に達成し,コンパイラからのフィードバック回数を大幅に削減した

    Link: https://arxiv.org/abs/2606.12387

  • CCL25-Evalタスク5システムレポート:新規データセットとLoRAファインチューニングされたQwen2.5 [cs.CL, cs.AI]目的:古典詩の正確な翻訳と感情・意味理解に関する性能向上
    • 古典詩の研究は,伝統文化の理解を深め,言語モデルの応用範囲を広げる上で重要である。
    • 古典詩の感情やニュアンスを正確に理解することは難しく,汎用的な言語モデルでは不十分な結果となる場合がある。
    • 古典詩に特化したデータセットと,それを用いた言語モデルの最適化により,この課題を解決することを目指す。
    • 古典詩の解釈,意味理解,感情推論の3つのサブタスクに分解し,高品質なデータセットCCPoetry-49Kを構築した。
    • Qwen2.5-14BモデルにLoRAを適用したPoetryQwenは,CCL25-Evalタスク5ベンチマークで0.757のスコアを達成した。
    • PoetryQwenは,ベースラインモデル(0.690)と比較して,9.7%の性能向上を示し,古典詩の理解において優れた結果を得た。

    Link: https://arxiv.org/abs/2606.12392

  • 多様体べき乗反復によるMoEルーターの再設計 [cs.LG, cs.AI, cs.CL]目的:MoEモデルにおけるルーターの再設計
    • MoEモデルはモデルのスケーラビリティ向上に不可欠であり,ルーターはその中核的要素である。
    • ルーター行が専門家行列を効果的に凝縮できていないため,トークンと専門家の親和性を正確に反映できない。
    • ルーター行を関連する専門家の主成分方向に揃えることで,MoEモデルの性能を向上させる。
    • 本研究では,べき乗反復と射影を組み合わせた「Power-then-Retract」パラダイムに基づくルーター再設計手法を提案した。
    • 理論的に,提案手法がルーター行を関連する専門家の主成分方向に収束させることを示した。
    • 1Bから11BパラメータのMoEモデルの事前学習により,提案手法がより効果的なMoEモデルを構築することを確認した。

    Link: https://arxiv.org/abs/2606.12397

  • 具現化プランナーにおけるテスト時計算資源の割り当て:いつ,どこに資源を配分すべきか [cs.CL, cs.IR, cs.RO, cs.AI, cs.CV]目的:具現化プランナーにおけるテスト時計算資源の最適な割り当て戦略
    • ロボット工学において,環境を理解し行動計画を立てる能力は重要であり,VLMsはその実現に貢献し得る。
    • テスト時計算資源の増強は,レイテンシ,トークン使用量,計算コストを増加させ,効果が限定的になりやすい。
    • マルチモーダルなシーンコンテキストに基づき,計算資源を動的に割り当てることで,性能とコストのバランスを最適化する。
    • DIRECTは,固定モデル選択と比較して,成功-コストのパレート最適解を改善するルーティングフレームワークである。
    • 実験の結果,テスト時計算資源は均一なものではなく,思考連鎖の深さ,モデルサイズ,メモリ履歴など,軸によって効果が異なることが示された。
    • 実機Frankaアームでの実験では,DIRECTはより高性能なモデルと同等の成功率を,平均レイテンシを最大65%削減して達成した。

    Link: https://arxiv.org/abs/2606.12402

  • FACTR 2:汎用ロボットアームにおける外力センシング学習がポリシー学習を向上させる [cs.RO, cs.RO, cs.AI, cs.LG, cs.SY, eess.SY]目的:外力推定によるロボットアームの力感度向上
    • ロボットによる接触操作では力覚が重要だが,高価な専用センサーが必要となる場合が多い。
    • 安価なロボットアームでは,専用の力センサーを搭載できないという課題がある。
    • 専用センサーなしで外力推定を行い,力覚を伴う操作とポリシー学習を可能にすること。
    • Neural External Torque Estimation (NEXT)により,専用センサーなしで高精度な外力推定を実現した。
    • Force-Informed Re-Sampling Training (FIRST)は,既存の力覚対応ポリシーを17%以上上回る性能を示した。
    • NEXTとFIRSTにより,追加のセンシングハードウェアなしで力覚対応の遠隔操作とポリシー学習が可能となった。

    Link: https://arxiv.org/abs/2606.12406

  • マルチターン対話生成のための文脈駆動型漸進的圧縮 [cs.CL, cs.LG]目的:マルチターン対話における文脈圧縮の効率と堅牢性の向上
    • 対話システムは対話履歴を参照する必要があり,その長さは計算コストに直結する。
    • 単純な切り捨てや要約では精度が低下し,既存の圧縮手法は長期対話で情報損失が課題。
    • 対話の文脈を考慮した漸進的な圧縮により,長期対話における情報損失を抑制する。
    • 提案手法C-DICは,対話を文脈スレッドとして扱い,コンパクトなメモリに圧縮状態を保存する。
    • 軽量な検索・修正・書き込みループにより,ターン間の情報共有とメモリの更新を実現した。
    • 実験結果から,C-DICは長文対話ベンチマークにおいて,性能と効率で優れた結果を示した。

    Link: https://arxiv.org/abs/2606.12411

  • リルート:ビジョン言語モデルにおける回復可能な視覚トークンルーティング [cs.CV, cs.AI]目的:ビジョン言語モデルの視覚トークンルーティングによる効率化
    • 近年,ビジョン言語モデルは画像理解において重要な役割を担う。
    • 視覚トークンの数が多いと,計算コストやメモリ使用量が増大する。
    • 視覚トークンの重要度が変化するため,一度削除すると回復できない問題がある。
    • 提案手法Rerouteは,トークンの削除ではなくルーティングにより効率化を図る。
    • Rerouteは,既存のランキングルールとスケジュールを再利用し,計算コストを維持しながら性能を向上させる。
    • LLaVA-1.5およびQwenをベースとした実験で,Rerouteは grounding performance を改善する。

    Link: https://arxiv.org/abs/2606.12412

  • 構造から出力へ:大規模言語モデルにおける幻覚の構造的起源とデータによる増幅 [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルにおける幻覚の構造的起源の解明
    • 自然言語処理の発展に伴い,大規模言語モデルの応用範囲は拡大している。
    • 大規模言語モデルは,事実に基づかない情報を流暢に生成する「幻覚」を起こすことが課題である。
    • 本研究は,幻覚発生の根本原因を特定し,その対策を検討することを目的とする。
    • 自己注意機構が,統計的近接性を意味的意味に置き換えることで,幻覚の発生に寄与することが示された。
    • 最大尤度推定による学習目的が,事実に基づかない出力を許容し,幻覚を増幅することが明らかになった。
    • 自己回帰的デコーディングが,誤ったトークンを連鎖的に生成し,幻覚を拡大することが確認された。

    Link: https://arxiv.org/abs/2606.07537

  • 個別化がん治療のための信念空間制御:積極的推論によるアプローチ [cs.AI, cs.IT, math.IT]目的:個別化がん治療における意思決定最適化
    • がん治療は,患者の状態変化と治療介入の繰り返しであり,最適な治療戦略が重要である。
    • 患者の多様性や治療による状態変化を考慮した,効果的な意思決定手法が課題である。
    • 測定予算と治療制約下で,患者の状態を考慮した最適な治療計画を立案すること。
    • 本研究では,積極的推論を用いて,がん治療を信念空間計画問題としてモデル化し,期待自由エネルギーを最大化する。
    • 実際の臨床データを用いた結果,患者の分類と高い治療効果が同時に実現された。
    • 測定および治療の制約条件を考慮することで,臨床現場への応用可能性を示した。

    Link: https://arxiv.org/abs/2606.10376

  • MA-DLE:記憶増強による音声ベースのうつ病レベル自動推定 [eess.AS, cs.AI, cs.CL, cs.SD]目的:うつ病レベルの自動推定手法
    • メンタルヘルスケアの現場では,早期発見と迅速な介入が重要であり,特にリソースの限られた環境下では,自動化技術の活用が求められる。
    • 既存の手法は,短期的な音声セグメントに焦点を当てがちで,長期間の依存関係を捉えることが難しいという課題があった。
    • 本研究では,長距離依存関係を捉え,より高精度なうつ病レベル推定を可能にすることを目指す。
    • 提案手法では,GRUで抽出した特徴量を記憶ベースで増強し,表現能力を高めることで,DAIC-WOZおよびE-DAICデータセットにおいて最先端の性能を達成した。
    • 記憶バンクは,現在のGRU出力と類似した過去の時系列特徴量と,特徴量の変動に基づいて特定される動的な記憶特徴量を統合することで,冗長性と無関係性を低減する。
    • さらに,記憶増強された特徴量とGRUの出力を効果的に融合させるために,階層型注意融合(HAF)モジュールを設計した。

    Link: https://arxiv.org/abs/2606.11197

  • 船舶金融における人工知能:応用,機会,およびAIを活用した融資創出の事例研究 [q-fin.CP, cs.FL, q-fin.GN, cs.AI]目的:船舶金融における人工知能の応用可能性および機会
    • 船舶金融は複雑かつ専門性が高く,効率化と精度の向上が求められている。
    • データが分散しており,構造化されていない情報が多いことが課題である。
    • AIを活用し,情報処理の自動化と効率化を実現すること。
    • 本研究では,船舶金融におけるAIの応用として,特にLLMに基づいた文書理解,情報抽出,ワークフロー自動化に焦点を当てた。
    • ShipFinance.aiというモジュール型エージェントアーキテクチャを提案し,融資申請ワークフローを支援する。
    • AI支援システムは,船舶金融の専門家が複雑な情報と報告要件を管理する上で役立つと結論付けた。

    Link: https://arxiv.org/abs/2606.11238

  • 高コストなヘテロスケダスティックノイズを伴う量子系に対する物理制約付きアンサンブルガウス過程モデリング [physics.comp-ph, cond-mat.str-el, cs.LG, quant-ph]目的:高コストな量子系のモデリング
    • 量子多体系の正確なモデリングは,物性研究や物質設計において不可欠である。
    • 高精度なシミュレーションは計算コストが高く,パラメータ空間の広範な探索が困難である。
    • 高コストシミュレーションの誤差を定量化し,効率的な予測モデルを構築する必要がある。
    • 提案手法pc-EGPは,物理的制約を組み込み,ノイズの多い量子系を効率的にモデル化する。
    • Bose-HubbardモデルのDMRGシミュレーションにおいて,超流動-モット絶縁体転移を支配する臨界相互作用Ucを予測することに成功した。
    • QMCシミュレーションにも適用し,一次元超流動を実現するための化学環境最適化への応用を示した。

    Link: https://arxiv.org/abs/2606.11240

  • 私の化学的ハーネス:大規模言語モデルエージェントによる合成経路を通じた進化的な分子設計 [physics.chem-ph, cs.LG, cs.NE]目的:目標指向の分子設計のための,実行可能な合成経路を探索する進化的なフレームワーク
    • 創薬や材料開発において,目的の特性を持つ分子の設計は不可欠である。
    • 既存の手法では,分子構造だけでなく,実現可能な合成経路の探索が課題であった。
    • 大規模言語モデルを活用し,合成経路を考慮した効率的な分子設計手法を確立すること。
    • 本研究では,大規模言語モデルを戦略コントローラーとして利用する「My Chemical Harness」を開発した。
    • このフレームワークは,購入可能なビルディングブロックと反応テンプレートを用いて合成経路を進化させる。
    • 可溶性エポキシドヒドロラーゼのプロキシタスクにおいて,既存手法を上回る性能を達成した。

    Link: https://arxiv.org/abs/2606.11256

  • 不均一な雑音下における固有空間摂動の幾何学的バイアス [nlin.AO, cond-mat.stat-mech, cs.SI, math.DS, q-bio.PE, math.ST, cs.LG, cs.NA, math.NA, math.PR, stat.TH]目的:信号と雑音からなる行列の固有空間摂動
    • スペクトル法は固有空間の安定性に依存し,その安定性はデータ解析や機械学習の基盤である。
    • 従来の摂動の評価は最悪の場合を想定しており,信号の幾何学的構造と雑音分布の相互作用を捉えられない。
    • 不均一な雑音分散下で生じる固有ベクトルの幾何学的バイアスを定量的に評価し,より精密な摂動境界を導出する。
    • 不均一な雑音分散下では,固有ベクトルに系統的な幾何学的バイアスが生じることが示された。
    • QVEと局所法則を活用することで,主要な固有空間に対する非漸近的な摂動境界を導出した。
    • 導出された境界は,信号対雑音比,確率的変動,幾何学的バイアスを分離して評価できる。

    Link: https://arxiv.org/abs/2606.11263

  • OmniBioTwin:ヘルスデジタルツインのためのツインシステム群フレームワーク [q-bio.QM, cs.AI]目的:ヘルスデジタルツインのシステム構成に関するフレームワーク
    • 個別化医療の発展には,患者特有のモデルと意思決定支援が不可欠である。
    • 既存のアプローチは,単一臓器やタスクに限定され,多階層での忠実性や汎用性に欠ける。
    • 多階層かつモジュール化されたデジタルツインの構築と連携を可能にするフレームワークの提供。
    • OmniBioTwinフレームワークは,ヘルスデジタルツインをモジュール化された計算主体として組織化する。
    • データ統合から意思決定支援まで,7つの連携層で構成され,多層ネットワークアーキテクチャを特徴とする。
    • アルツハイマー病におけるGLP-1シグナル伝達経路のマルチスケールツインインスタンスを通じて,有効性が示された。

    Link: https://arxiv.org/abs/2606.11264

  • 大規模開語彙キーワードスポッティング [eess.AS, cs.CL, cs.LG, cs.SD]目的:大規模語彙におけるキーワード検出
    • 音声認識技術は専門用語などの稀少語の認識に課題を抱える分野である。
    • 既存システムは扱う用語数が数百程度に制限され,大規模なデータベースには対応できない。
    • 本研究は,大規模な用語データベースを扱うことのできるキーワードスポッティングシステムを開発する。
    • 提案システムは,既存システムと比較して128分の1のメモリ消費量で運用可能である。
    • 音声認識モデルの再学習なしに,既存システムと同等のキーワード検出精度を達成した。
    • 学習時に未見の言語に対しても,良好な性能を維持することが確認された。

    Link: https://arxiv.org/abs/2606.11279