arXiv雑要約

AI - 2026/06/19 公開

UltraQuant: コンテキスト重視エージェントのための4ビットKVキャッシュ [cs.LG, cs.AI, cs.PF]目的：コンテキスト重視エージェントにおける4ビットKVキャッシュの性能向上
- 大規模言語モデルの性能向上には，計算資源の効率的な活用が不可欠である。
- KVキャッシュはメモリ消費量が大きく，特に長文コンテキストを扱う場合にボトルネックとなる。
- KVキャッシュの量子化により，メモリ使用量を削減し，推論速度を向上させることを目指す。
- UltraQuantは，キャッシュ負荷の高い後半のラウンドにおいて，最初のトークンまでの時間(P50)を3.47倍短縮した。
- UltraQuantは，全ラウンドでP50時間を2.3倍短縮し，出力スループットを1.63倍向上させた。
- FP8 KVキャッシュをベースラインとして，FP4近似パスによる最適化を実現した。
Link: https://arxiv.org/abs/2606.20474
メモリ駆動型エージェント自己進化のための周辺優位累積 [cs.LG]目的：メモリ操作における安定的な有効性と偶然の成功の識別
- 強化学習において，エージェントの性能向上には効率的な記憶と学習が不可欠である。
- バッチ学習型トレース蒸留では，同一操作に対するフィードバックが矛盾することが課題である。
- バッチ間の操作レベルでの証拠累積メカニズムを導入し，安定性を高めることを目指す。
- 提案手法MAAは，4つのベンチマークと4つのターゲットモデルで14/16の環境で最良の結果を達成した。
- 既存のバッチレベル蒸留手法を安定的に上回り，オンライン代替手法と同等またはそれを上回る性能を示した。
- 最適化段階でのトークン消費量を約75%削減することが確認された。
Link: https://arxiv.org/abs/2606.20475
放射線科のための空間的根拠を持つ2Dビジョン-言語モデルのスケーラブルな学習 [cs.CV, cs.CL, cs.LG]目的：放射線科における視覚的に根拠のあるビジョン-言語モデルの学習
- 医療画像診断の精度向上に貢献するAI技術の重要性が高まっている。
- 放射線画像の解析には専門知識が必要であり，アノテーション作業の負担が大きい。
- 手動アノテーションなしで，空間的根拠を持つモデルを学習することを目指す。
- 大規模な二言語（ドイツ語/英語）データセットRefRad2Dを構築し，モデルRadGrounderを学習した。
- RadGrounderは，レポート生成，VQA，空間的根拠付けを同時に実行できる。
- 外部ベンチマークで優れた結果を示し，データセットの汎用性も確認された。
Link: https://arxiv.org/abs/2606.20477
あなたのマウスと視線は密かにあなたの好みを漏らす：ユーザーからの暗黙のフィードバックを用いたLLMの調整 [cs.RO, cs.CL, cs.HC, cs.LG]目的：LLM調整のための暗黙的フィードバックの有効性評価
- LLMの性能向上は重要であり，人間の意図との整合性が不可欠である。
- 明示的なフィードバック収集はコストが高く，効率性に課題がある。
- 暗黙的なフィードバックを活用することで，より効率的なLLM調整を目指す。
- マウスの軌跡と視線データからユーザーの好みを定量的に評価できるデータセットIFLLMを構築した。
- 暗黙的フィードバックに基づく報酬モデルは，テキストベースのモデルよりも高い精度を示した。
- DPOを適用した8つのLLMにおいて，相対的な応答品質改善がほぼ3倍になった。
Link: https://arxiv.org/abs/2606.20482
伝染ネットワーク：マルチエージェントLLMシステムにおける評価者バイアスの伝播 [cs.LG, cs.AI, cs.MA]目的：マルチエージェントLLMシステムにおける評価者バイアスの伝播の測定
- LLMをエージェントとして活用するマルチエージェントシステムの研究が盛んに行われている。
- LLM評価者のバイアスがエージェント間で伝播し，システム全体の性能に悪影響を及ぼす可能性がある。
- LLM評価者のバイアス伝播を定量的に評価し，その抑制策を検討することを目的とする。
- 評価者バイアスは，同じ基盤モデルのエージェント間でも一貫して伝播することが確認された (gamma: 0.157-0.352)。
- モデルが均質である場合，バイアス伝播はモデルを跨ぐ場合に比べて3-5倍弱く，抑制される傾向にある。
- 評価者委員会サイズを1から3に増やすことで，実効的な伝播が72.4%減少し，効果的な緩和策となる。
Link: https://arxiv.org/abs/2606.20493
理解を伴わないキャリブレーション：システムソフトウェアの脆弱性検出におけるLLMのファインチューニングの限界の診断 [cs.CE, cond-mat.mtrl-sci, cs.CR, cs.AI, cs.SE]目的：システムソフトウェアの脆弱性検出のためのLLMのファインチューニングの限界の診断
- ソフトウェアの脆弱性はセキュリティリスクの根源であり，その自動検出は重要である。
- LLMの脆弱性検出性能が，セキュリティに関する真の推論能力によるものか，汚染されたデータによるパターンマッチングに過ぎないか不明である。
- LLMのファインチューニングがセキュリティ推論能力を向上させるのではなく，単なる出力調整に留まることを明らかにすること。
- データ汚染はLLMの性能向上に寄与しないことが示された。汚染されたサンプルの多くは有用な情報を持ち合わせていない。
- LLMは，データセットを跨いでも一貫した誤り傾向を示す。ファインチューニングは出力閾値を変化させるだけで，根本的な判断ポリシーは変わらない。
- 脆弱性の検出と理解は分離された能力であり，現在のLLMはシステムソフトウェアの信頼できるセキュリティ推論能力を欠いている。
Link: https://arxiv.org/abs/2606.20502
FreeStyle：コミュニティLoRAマイニングによるスタイル・コンテンツ二重参照生成の自由な制御 [cs.CV, cs.AI]目的：スタイルとコンテンツの二重参照生成における大規模データセット構築と生成手法
- 画像生成技術は多様な応用を可能にするが，質の高いデータセットが不可欠である。
- スタイルとコンテンツを分離した大規模なデータセットの不足が，生成のボトルネックとなっている。
- コミュニティLoRAを活用し，高品質なデータセットと効果的な生成手法を開発する。
- コミュニティLoRAをスタイル・コンテンツのアンカーとして利用する生成フレームワークFreeStyleを提案した。
- 注意層の強化制約と周波数認識RoPE変調により，スタイル参照からの意味的漏洩を抑制することに成功した。
- スタイル類似性，コンテンツ保持，美的品質，指示への追従，漏洩抑制において優れたバランスを実現した。
Link: https://arxiv.org/abs/2606.20506
安全性に配慮したLLMは，混合されたコンプライアンスのデモンストレーションから何を学習するか [cs.AI, cs.LG]目的：LLMにおけるコンプライアンスデモンストレーションの解釈
- LLMの安全性確保は重要であり，悪意のある利用を防ぐ必要性がある。
- LLMは，コンテキスト内のデモンストレーションによって脆弱性を抱え，悪用される可能性がある。
- デモンストレーションの構成要素が有害なコンプライアンスにどのように影響するかを解明する。
- 有害なコンプライアンスは，良質なデモンストレーションと有害なデモンストレーションの組み合わせ方によって変化する。
- 良質なデモンストレーションは，モデルによっては有害なコンプライアンスを抑制し，逆に増大させる場合がある。
- 好ましい出力の最適化が，良質なデモンストレーションによる有害なコンプライアンスの増加を防ぐ上で重要である。
Link: https://arxiv.org/abs/2606.20508
AIエージェントのための効率的かつ確実な確率的検証 [cs.CR, cs.AI]目的：AIエージェントのセキュリティ確保
- デジタル環境で動作するAIエージェントの安全性が重要課題となっている。
- 従来の検証手法は，決定的なポリシーに限定されており，確率的な要素に対応できない。
- 相関関係を考慮した，ポリシー違反確率の上限を厳密に算出する手法を開発する。
- 提案手法は，分布ロバスト最適化に基づき，予測の不確実性に対処する。
- 標準的なベンチマークにおいて，既存手法を上回り，セキュリティと有用性のトレードオフを改善する。
- ポリシー違反確率に対する厳密な上限を保証し，AIエージェントの安全性を高める。
Link: https://arxiv.org/abs/2606.20510
リポジトリガイダンスのプローブと改良によるコーディングエージェントのチューニング [cs.SE, cs.LG]目的：コーディングエージェント向けリポジトリガイダンスの最適化
- 近年，LLMを活用したコーディングエージェントが注目を集めている。開発効率の向上が期待される。
- リポジトリに関する知識の不足が，エージェントの性能を制限している。適切なガイダンスの提供が課題。
- 合成的なバグ修正プローブを用いて，リポジトリガイダンスファイルを反復的に診断・修正する手法を提案。
- 提案手法（プローブと改良チューニング）は，SWE-bench Verifiedにおいて，初期知識ベースや無ガイダンスベースを上回る解決率を示した。
- 性能向上は，修正可能なインスタンス数の増加に起因し，パッチごとの精度はほぼ変化しなかった。
- ガイダンスの存在が，エージェントがより大きなステップ予算を有効に活用することを可能にすることが示された。
Link: https://arxiv.org/abs/2606.20512
Multi-LCB：LiveCodeBenchを複数プログラミング言語へ拡張 [cs.AI, cs.PL]目的：複数プログラミング言語におけるLLMのコード生成能力の評価
- LLMの能力評価において，現実のソフトウェア開発で必要となる多様な言語への対応が重要である。
- 既存のコード生成ベンチマークは特定の言語に限定されており，汎用的な言語対応能力の評価が困難であった。
- LLMのクロス言語コード生成能力を評価し，Python以外の言語への過学習や汚染の有無を明らかにする。
- Multi-LCBは，Pythonの課題を12言語に変換することで，LLMの言語依存性や汚染の問題を明らかにした。
- 評価の結果，LLMにPythonへの過学習や言語固有の汚染が存在することが示唆された。
- Multi-LCBは，複数言語に対応したコード評価の新たなベンチマークとして，LLMの能力を厳密に評価できる。
Link: https://arxiv.org/abs/2606.20517
FlowEdit：フローマッチングTTSにおける生涯にわたる発音適応のための連想記憶 [cs.AI]目的：フローマッチングTTSにおける生涯にわたる発音適応の枠組み
- TTS技術は，人間とコンピュータ間の自然なコミュニケーションを可能にする上で不可欠である。
- 既存のTTSシステムは，未知語の発音誤りを修正できず，再学習が必要となる場合がある。
- 本研究は，モデルの再学習なしに，未知語の発音誤りを継続的に修正することを目的とする。
- FlowEditは，発音修正を潜在的条件付け編集として学習することで，凍結されたフローマッチングTTSを適応させる。
- 修正フィードバックに基づき，テキスト埋め込み空間におけるトークンレベルの摂動を最適化し，連想記憶に保存する。
- 312の多言語固有名詞のベンチマークで，ターゲット単語の音素エラー率を92.7%削減した。
Link: https://arxiv.org/abs/2606.20518
主権実行ブローカー：エージェント制御プレーンにおける証明書に基づく権限の施行 [cs.CR, cs.AI, cs.DC, cs.LG]目的：証明書に基づいた権限の施行機構
- 自律エージェントの利用拡大に伴い，クラウド環境等での安全な権限管理が重要となる。
- 既存のアクセス制御はID認証に偏重し，実行時の厳格な権限施行が課題である。
- 証明書に基づく権限をリアルタイムに施行し，安全性を高めることを目指す。
- 主権実行ブローカー（SEB）は，証明書による権限を施行する実行時境界を提供することで，安全なエージェント基盤を実現する。
- SEBは，実行契約との整合性検証，有効期間チェック，および状態のドリフト検出などを実施し，監査可能な実行能力を提供する。
- AWSおよびKubernetes環境での評価により，SEBの低遅延性，迅速な取り消し伝播，およびセキュリティが確認された。
Link: https://arxiv.org/abs/2606.20520
SARLO-80：世界規模の斜めSAR言語光学データセット80cm [cs.CV, cs.AI, cs.DB]目的：高解像度SAR画像，光学画像，自然言語記述を含むマルチモーダルデータセット
- マルチモーダル基礎モデルの発展には大規模な光学ベンチマークが不可欠である。
- SAR画像と光学画像の組み合わせデータセットは低解像度が多く，SAR特有の情報を欠いている。
- 物理に基づいたマルチモーダル学習を可能にする高品質なSAR-光学データセットを構築する。
- SARLO-80は，世界中の2,500シーンから構成され，VV/HH偏波のSAR画像と高解像度光学画像を提供している。
- SAR画像は80cmの斜めレンジグリッドに標準化され，各SARパッチに対応する光学画像がピクセルレベルでアライメントされている。
- サンプルごとに3種類のキャプション（SHORT/MID/LONG）を生成し，ビジョン-言語タスクをサポートしている。
Link: https://arxiv.org/abs/2606.20523
DeepSWIP：ニューラル確率論理プログラムのための商WMC対向因果推論 [cs.AI]目的：ニューラル確率論理プログラムにおける対向因果推論の実現
- ニューラル知覚と確率論理を組み合わせることで，より高度な推論が可能となる。
- 標準的な推論は相関関係に基づくだけで，介入や証拠に対する因果的な意味論が不足している。
- DeepProbLogプログラムに対し，単一世界における対向因果推論を可能にすること。
- DeepSWIPは，ニューラル物質化を用いてニューラル述語をProbLogの選択肢に変換し，Single World Intervention Programs (SWIPs)を適用する。
- 有限グラウンディングとユニークサポートモデルの仮定の下，DeepSWIPは学習された物質化FCMに対して正確である。
- 実験により，MPI3DにおいてDeepTwinと比較して2.14倍の推論速度向上と，SUMO HOV実験ではバイアスの除去が確認された。
Link: https://arxiv.org/abs/2606.20526
LedgerAgent：ポリシー準拠型ツール呼び出しエージェントのための構造化状態 [cs.AI, cs.CL]目的：顧客サービスにおけるポリシー準拠型ツール呼び出しエージェントのタスク状態管理
- 顧客サービス分野では，対話を通じて得られた情報を適切に活用し，顧客満足度向上を図ることが重要である。
- 従来のツール呼び出しエージェントでは，タスク状態が明示的に表現されず，情報が古くなったり，誤った情報に基づいて判断したりする問題があった。
- 本研究では，状態を明示的に管理し，ポリシー違反を防ぐことで，より信頼性の高いツール呼び出しエージェントの実現を目指す。
- LedgerAgentは，観測されたタスク状態を独立したレジャーに保持し，プロンプトに状態を反映させることで，状態管理を改善する。
- 環境変更型のツール呼び出しを実行する前に，状態依存のポリシー制約をレジャーを用いて検証し，ポリシー違反をブロックする。
- 4つの顧客サービスドメインにおいて，標準的なプロンプトベースの手法と比較して，LedgerAgentはpass@kの平均値を向上させる。
Link: https://arxiv.org/abs/2606.20529
指示はどのように発話を形成するか：スタイル付きキャプションによるテキスト読み上げのためのクロスアテンション帰属 [cs.AI]目的：スタイル付きキャプションを用いたテキスト読み上げにおける，個々の単語が音響出力に与える影響の解明
- 表現豊かなTTSの実現には，自然な言語による音声特徴の制御が不可欠である。
- スタイル制御のメカニズムが不明確であり，TTSの失敗モードの診断や制御性の改善が課題である。
- スタイルキャプションが音声波形に及ぼす影響を分析し，TTSの制御性を高めることを目指す。
- スタイルトークンは，内容/機能トークンと比較して時間的変動が小さく，グローバルな条件付けが確認された。
- スタイルアテンションは，基本周波数（F0）およびエネルギーと相関関係があることが示された。
- スタイル条件付けは初期段階と深い層でピークを示し，スタイル重要度ピークと一致する層17でアテンションエントロピーが最小となることが明らかになった。
Link: https://arxiv.org/abs/2606.20532
実行状態カプセル：低遅延・小規模バッチ・デバイス上物理AIサービングのためのグラフ境界実行状態チェックポイントと復元 [cs.LG, cs.DC]目的：低遅延・小規模バッチ・デバイス上AIサービングにおける実行状態の効率的なチェックポイントと復元
- 大規模言語モデル(LLM)の利用拡大に伴い，応答速度が重要な応用が増加している。
- 従来のKVキャッシュは高スループット向けであり，低遅延かつ頻繁な状態遷移には不向きである。
- 実行状態全体をカプセル化し，状態遷移時のオーバーヘッドを削減することで，応答速度を向上させる。
- 実行状態カプセルは，KVキャッシュだけでなく，RNNや畳み込み層の状態もまとめて保存・復元できる。
- RTX 5090において，カプセルによる復元は状態レベルで正確であり，貪欲デコード下でトークンレベルでも一致した。
- Jetson AGX ThorやDGX Sparkでも同様の結果が得られ，高速な状態再利用が可能となった。
Link: https://arxiv.org/abs/2606.20537
マルチタスクベイズ型インコンテキスト学習 [cs.LG]目的：ベイズ予測推論の効率的な近似手法
- 不確実性の定量化は，機械学習の信頼性と安全性を高める上で重要である。
- 既存手法は，事前分布への依存性が高く，分布シフトに弱いという課題がある。
- 事前情報をインコンテキストデータとして明示的に扱うことで，ロバスト性を向上させる。
- 提案手法は，事前分布の変更に対して，oracleベイズ予測と同等の性能を発揮する。
- 従来の近似手法と比較して，計算速度が大幅に向上する。
- 実世界の時空間温度予測問題への応用も示され，実用性が確認された。
Link: https://arxiv.org/abs/2606.20538
分布シフト下におけるキャリブレーションされた混合エキスパートモデル [cs.AI, cs.LG]目的：分布シフト下における混合エキスパートモデルの振る舞い
- モデルの予測不確実性を信頼できる確率として理解する上で，キャリブレーションは重要である。
- 混合エキスパートモデルにおいて，キャリブレーションが有効な条件が十分に理解されていない。
- 分布シフト下で全体モデルのキャリブレーションを確保するための方法を確立すること。
- ハードルーティングモデルでは，エキスパートレベルのキャリブレーションで十分なキャリブレーションが実現されることが示された。
- ソフトルーティングモデルでは，エキスパートレベルのキャリブレーションだけではキャリブレーションが不十分であることが示された。
- 分布シフト下でのルーティング集約のキャリブレーションエラーを抑制する敵対的重み付けを提案し，精度とキャリブレーションのトレードオフを改善した。
Link: https://arxiv.org/abs/2606.20544
プライバシーのきめ細かい尺度としての予測可能性 [cs.LG]目的：プライバシー保護と精度のトレードオフの緩和
- プライバシー保護は重要であり，個人情報の漏洩を防ぐことが求められる
- 従来の差分プライバシーは，最悪のケースを想定するため，精度の低下を招く場合がある
- 攻撃者の知識やデータの一部を考慮し，よりきめ細かいプライバシー評価を行う
- 予測可能性は，差分プライバシーとは異なる尺度であり，互いに比較できない場合がある
- しかし，ある条件下では予測可能性は差分プライバシーを含意する
- 提案手法は，経験的リスク最小化(ERM)に対して予測可能性を考慮した出力摂動スキームを提供する
Link: https://arxiv.org/abs/2606.20546
トークンは群の要素である：行列リー群上のリー代数注意について [cs.LG, cs.CV, cs.GR, cs.RO, math.DG]目的：行列リー群上のリー代数注意の構築
- 近年，Transformerモデルが自然言語処理をはじめ様々な分野で高い性能を発揮している。
- 従来のAttention機構では，表現学習に依存するため，群構造を直接活用できていない。
- 行列リー群の要素を直接Attentionのトークンとして扱うことで，表現学習の負担を軽減し，幾何学的構造を活かす。
- 本研究で提案するリー代数注意は，従来の学習に基づくカーネルに頼らず，閉形式のリー代数ノルムを用いる。
- これにより，irreducible representation（irreps）や surjective-exp に基づく手法では扱えないaffine群を含む，より広範なリー群に対して適用可能となる。
- 実験結果から，提案手法はSE(2), SO(3), Aff(2)上で，学習されたMLPカーネルと同等またはそれ以上の性能を示し，パラメータ数を大幅に削減できることが示された。
Link: https://arxiv.org/abs/2606.20547
生成推薦のための分散型ユーザー関心コンテキストの構造化とトークン化 [cs.IR, cs.AI]目的：生成推薦におけるユーザー関心コンテキストの構造化とトークン化
- 推薦システムは，ユーザーに最適なアイテムを提示する上で不可欠であり，その精度向上は重要な課題である。
- 既存手法では，複雑なユーザー行動とアイテムの意味的コンテキストを同時に効果的にモデル化することが困難である。
- 大規模な推薦システムにおいて，包括的かつ意味に基づいたユーザー関心プロトタイプを捉えることを目指す。
- 提案手法G2Recは，グラフベースのユーザー共同エンゲージメントモデリングとセマンティックトークン化を統合し，スケーラブルなフレームワークを提供する。
- G2Recは，真のユーザー関心データを用いずに，包括的かつ意味的に根拠のあるユーザー関心プロトタイプを捉えることができる。
- 実環境でのオンラインデプロイメントと公開データセットでの実験により，既存手法を上回る性能が示された。
Link: https://arxiv.org/abs/2606.20554
最適決定論的多校正と全予測 [cs.LG, math.ST, stat.ML, stat.TH]目的：最適多校正と全予測を実現する決定論的予測器の構築
- 機械学習モデルの信頼性向上は重要であり，多校正はその基礎となる性質である。
- 既存の最適多校正予測器は確率的であり，決定論的予測器はサンプル複雑性が劣っていた。
- 多校正において，最適サンプル複雑性を達成する決定論的予測器を開発すること。
- 本研究は，最適サンプル複雑性を持つ決定論的多校正アルゴリズムを提示することで，上記の未解決問題を解決する。
- さらに，本アルゴリズムを一般化し，有限または有限被覆なテスト集合に対して結果の識別可能性を満たす最適な決定論的予測器を構築する。
- その応用として，最適なサンプル複雑性を持つ決定論的全予測器および汎予測器を導き出す。
Link: https://arxiv.org/abs/2606.20557
UNIEGO：統一的な一人称視点ビデオ表現学習のためのプロキシ [cs.CV, cs.LG]目的：一人称視点ビデオの統一的なエンコーダの学習
- 一人称視点ビデオは，人間行動の理解において重要な役割を果たす。
- 既存手法では，視点，モダリティ，モデルの多様性を捉えきれない。
- 多様な知識を統合し，一人称視点ビデオのみで活用可能な表現学習を目指す。
- 提案手法UNIEGOは，9つの教師モデルを用いた階層的な知識蒸留フレームワークを採用。
- プロキシモデルを介して教師の知識を均質化し，信頼性の高い知識のみを蒸留する。
- 3つのベンチマークにおいて，最先端の性能を達成し，表現力の高い学習が可能であることを示す。
Link: https://arxiv.org/abs/2606.20559
DiffusionGemmaの透明性はどの程度か [cs.LG, cs.AI]目的：拡散モデルの推論過程の透明性評価
- 大規模言語モデルの信頼性向上は，誤用防止やモデルの改善に不可欠である。
- 拡散モデルは潜在空間での計算が多く，解釈が難しいという課題がある。
- 潜在空間の情報を解釈可能な形で表現することで，透明性を高めることを目指す。
- DiffusionGemmaは，中間状態の解釈可能性において，Gemma 4と同程度の透明性を持つことが示された。
- 中間状態をトークンボトルネックを通して解釈することで，不透明な連鎖計算を大幅に削減できる。
- 拡散モデル特有の非時間的推論やトークン拡散など，新たな現象が観察された。
Link: https://arxiv.org/abs/2606.20560
離散形状解析のためのモルストランスフォーム [q-bio.QM, cs.CG, cs.LG]目的：離散形状の幾何学的情報の数値表現
- 物体の形状は物理世界との相互作用に重要であり，その定量的な記述が求められる。
- 形状の幾何学的情報を統計的推論や分類に用いる際の数値化が困難である。
- 形状を特徴づける臨界点をカタログ化し，より詳細な特徴量ベクトルを得ることを目指す。
- モルストランスフォームは，ピーク，トラフ，サドル点などの臨界点の高さと局所的なトポロジー型を記録する。
- この特徴量ベクトルは，分子形状に依存するリガンドベースバーチャルスクリーニングにおいて優れた性能を示す。
- 勾配ブースティング木分類パイプラインにおいて，他のトポロジカル変換記述子や標準的な形状ベース記述子よりも高い平均AUROCを達成した。
Link: https://arxiv.org/abs/2503.04507
人間による普遍的な把持 [cs.RO, cs.AI, cs.CV, cs.LG]目的：人間の把持データの活用による，汎用的なロボット把持の実現
- 人間は容易に物体を把持できるが，多指ロボットは未だそのレベルに達していない。
- ロボットの把持に関するデータが不足しており，多様な物体への対応が困難である。
- 人間の把持データを模倣することで，ロボットの把持能力を向上させる。
- 本研究では，100万件の人間の把持データを収集し，RGB-D画像から多様な把持姿勢を生成するフローマッチングモデルHUGを提案した。
- HUGは，既存の把持手法と比較して，新しいベンチマークHUG-Benchにおいて，それぞれ+23%および+34%の性能向上を示した。
- 提案手法は，様々なロボットハンドや環境において，ゼロショットでの把持を可能にする。
Link: https://arxiv.org/abs/2606.17054
ビジネスコンテキストにおける人間とAIエージェントのインタラクション [cs.MA, cs.CL, cs.CY, cs.HC, cs.AI]目的：人間とAIエージェント間の効果的なインタラクションパターンの特定と評価
- AI導入が進む中で，人間とAIの協調が重要であり，ビジネス価値の創出に不可欠である。
- AIエージェントのUX設計に関する原則や評価方法が確立されておらず，導入の障壁となっている。
- ユーザーの期待とニーズを把握し，信頼構築とユーザー中心の意思決定を支援すること。
- 定性的・定量的な手法を用いた調査により，人間とAIエージェント間のインタラクションパターンが明らかになった。
- その結果に基づき，大規模な調査実験を実施し，特定のデザイン要素の効果を評価した。
- 本研究は，ビジネス環境における人間とAIエージェント間のより直感的で効果的なインタラクション開発に貢献する。
Link: https://arxiv.org/abs/2606.18716
完全自己診断（FSD）：逆問題とオペレーター学習によるスマートフォン動画からの物理に基づいた生理学的バイオマーカー推論 [eess.IV, cs.CV, cs.LG]目的：スマートフォン動画から潜在的な生理学的状態を回復すること
- 健康管理における非侵襲的なバイオマーカー測定の重要性が高まっている。
- 従来のバイオマーカー測定には，専門的な機器や侵襲的な手続きが必要となる場合が多い。
- スマートフォン動画という手軽なデータから，高精度なバイオマーカー推定を実現すること。
- 提案手法FSDは，スマートフォンで撮影された顔の動画から生理学的状態を推定する統一的な数学的フレームワークである。
- 38812件のデータを用いた実験により，実用的な性能が示された。特に，血糖値の推定において高い精度を達成した。
- 本研究は，消費者向け機器の顔動画に，臨床的に有用な非侵襲的バイオマーカー推論に必要な情報が含まれていることを確認した。
Link: https://arxiv.org/abs/2606.19372
スカラー相互作用の表現限界：介入分解 [stat.ML, cs.LG]目的：スカラー相互作用の表現限界とその介入分解に関する研究
- 因果推論や機械学習において，特徴量間の相互作用を理解することは，モデルの解釈性向上に不可欠である。
- 従来の相互作用指標は，一意性，冗長性，相乗効果を混同しており，正確な相互作用構造の特定が困難である。
- 介入的推論に基づき，特徴量の一意性，冗長性，相乗効果を分離し，より正確な相互作用構造を明らかにすることを目指す。
- 提案手法Stochastic Hi-Fiは，既存のスカラーベースラインと比較して，相互作用の大きさを最大411倍にまで回復する。
- GPT-2 IOI回路において，冗長性と相乗効果を分離することに成功した。
- NIH ChestX-ray14データセットにおいて，GradCAMと同等の性能を示し，Deletion AUCを大幅に改善した。
Link: https://arxiv.org/abs/2606.19410
最適なアンザッツフリーハミルトニアン学習：インシトゥでの実現 [quant-ph, cs.IT, cs.LG, math.IT]目的：アンザッツフリーハミルトニアンの学習
- 量子デバイスの較正，信号センシング，誤り訂正には，量子系の支配的なハミルトニアンの特性把握が不可欠である。
- 既存手法は，深い回路や高分解能の時間分解能を必要とし，近未来の量子実験への実装が困難である。
- 制御不要かつ補助量子ビット不要な効率的なアルゴリズムにより，インシトゥでのハミルトニアン学習の実現を目指す。
- 提案手法は，パウリ積状態の準備と測定のみを使用し，総進化時間$\Theta(\frac{\Lambda}{\epsilon^2}\log(\frac{\Lambda}{\epsilon}))$でハミルトニアンを学習する。
- 本手法の進化時間コストは，制御不要なプロトコルにおいて最適であり，その下限$\Omega(\frac{\Lambda}{\epsilon^2}\log(\frac{\Lambda}{\epsilon}))$を証明した。
- 高精度センシングや較正への応用が期待できる。較正後の局所的なハミルトニアンに対しては，SPAMノイズが存在しても同様の漸近的な進化時間を維持する。
Link: https://arxiv.org/abs/2606.19486
太陽フレア由来高エネルギー粒子の予測における機械学習モデルのレビュー [astro-ph.SR, cs.AI]目的：太陽フレア由来高エネルギー粒子の予測モデルに関する検討
- 宇宙航空，宇宙船，そして人類の宇宙活動において，放射線による危険性が増大しており，その予測が不可欠である。
- 従来の物理モデルや経験的手法では，SEP予測の精度向上が課題となっていた。
- 機械学習の活用を通じて，SEP予測の精度向上と将来研究への提言を行う。
- 本レビューでは，SEP予測に用いられる機械学習モデルを概観し，使用データセット，アーキテクチャ，入出力などを比較した。
- 機械学習モデルは，従来の予測手法に新たな可能性をもたらすことが示唆された。
- 今後の研究においては，データセットの共有やモデルの標準化が重要である。
Link: https://arxiv.org/abs/2606.19539
予測・最適化におけるソルバーフリーな学習手法 [stat.ML, cs.LG]目的：予測・最適化パラダイムにおける予測モデルの学習
- 機械学習と最適化を組み合わせることで，複雑な問題を効率的に解決できる。
- 最適化問題の決定マッピングが区分的に定数であるため，直接勾配を計算することが難しい。
- ソルバーを必要としない損失関数を導入し，学習の効率化を図る。
- 提案手法は，既存手法と同等の決定品質を達成しつつ，学習時間を大幅に削減できる。
- 損失関数の設計に，measure transformation principle を適用した。
- Fisher consistency と excess risk bounds の理論的保証が確立された。
Link: https://arxiv.org/abs/2606.19587
ベイズ混合モデルに対する変分コンセンサスモンテカルロ法 [stat.ML, cs.LG]目的：分散型学習環境下におけるベイズ混合モデルの推論
- 医療データはプライバシー保護が重要であり，共有が困難であるため，分散環境での分析手法が求められる。
- 既存手法では，クラスタ数や混合モデルのパラメータ数を事前に決定する必要がある場合が多い。
- クラスタ数と全てのモデルパラメータを推定する，過学習したベイズ混合モデルへの対応を目指す。
- 提案手法は，各データサイロで独立にMCMCアルゴリズムを実行し，局所的な事後分布を推定，集約することで全体的な事後分布を近似する。
- シミュレーション研究により，提案手法は，データ内のクラスタ構造を反映した局所データセットにおいて，小さなクラスタをより正確に復元できることが示された。
- 大規模な電子カルテデータへの適用により，英国の高齢者集団における多疾患併発パターンを特定した。
Link: https://arxiv.org/abs/2606.19643
AURA：LLMを判定者とする監査のための適応的不確実性認識リファインメント [math.OC, cs.SY, eess.SY, stat.ML, cs.AI, cs.LG, stat.CO, stat.ME]目的：LLMを判定者とする監査における，不確実性を考慮したリファインメント手法
- LLMの能力向上に伴い，大規模な人間による評価の代替手段としてLLMの活用が重要になっている。
- LLMの判定は人間と完全に一致せず，初期の評価データにバイアスが含まれる可能性がある。
- 人間による検証を効率的に活用し，LLMの判定に対する信頼度を段階的に向上させる。
- AURAは，人間との整合性シグナルを反復的に学習し，信頼性の高い情報を伝播させることで，LLMの判定を改善する。
- 不確実性の高い比較を優先的に人間によるレビュー対象とし，効率的な監査を実現する。
- 合成データと実際のLLM回答データを用いた評価により，AURAの有効性が確認された。
Link: https://arxiv.org/abs/2606.19714
事前学習データ構成によるスケーリング則のエンジニアリング [hep-ex, cs.AI]目的：事前学習データ構成によるスケーリング則の操作
- 深層学習モデルの性能向上には，計算資源，モデルサイズ，データセットサイズのスケールが重要である。
- 物理学分野では，シミュレーションデータが容易に生成できるため，データ量とモデルサイズのバランスが課題となる。
- ハドロンジェットの分類タスクにおいて，データ多様性の向上とタスクへの適合性を高めることで，よりデータ量を必要とするスケーリング則を目指す。
- ハドロンジェット分類タスクにおいて，多様でタスクに適合した事前学習データを用いることで，スケーリング則を操作可能であることが示された。
- より多くのデータが必要となるようにスケーリングを設計することで，大規模なモデルに頼る必要性を低減できる可能性が示唆された。
- データ生成コストが低い物理学分野において，データ構成をエンジニアリングすることの有効性が示された。
Link: https://arxiv.org/abs/2606.19781
クロスデータセット，年齢，性別での汎化性能：低リソース子供向け音声認識におけるファインチューニング戦略の包括的分析 [eess.AS, cs.AI, cs.SD]目的：低リソース子供向け音声認識のためのファインチューニング戦略に関する包括的な分析
- 音声認識技術は，子供や発話困難者を含む幅広い層へのコミュニケーション支援に不可欠である。
- 発話困難者の音声は，音響的変動が大きく，従来の音声認識システムでは高い精度を達成することが難しい。
- 本研究は，発話困難者の音声認識精度を向上させるための最適な音響特徴量の組み合わせを特定することを試みる。
- 音高特徴量の導入により，特に発話困難者の音声を含む文認識タスクにおいて，認識性能が大幅に向上した。
- F-TDNNモデルを用いた実験により，単語分離認識で4.65％，文認識で4.63％の相対的な性能向上が確認された。
- トレーニング例間の重複フレーム数の慎重な選択が，音響変動への効果的な対処に貢献していると考えられる。
Link: https://arxiv.org/abs/2606.19791
失語症音声認識の体系的研究：スペクトル特徴と音響モデル [eess.AS, cs.AI, cs.LG, cs.SD, eess.SP]目的：失語症音声認識における性能向上
- 音声認識技術は，コミュニケーション支援に不可欠であり，その応用範囲は広い。
- 失語症音声は，発音の不正確さから音響的な変動が大きく，認識が困難である。
- 本研究は，音響特徴と音響モデルの組み合わせを最適化し，失語症音声認識の精度向上を目指す。
- ピッチ特徴量の導入が，特に文認識において，失語症音声認識の性能向上に貢献した。
- F-TDNNモデルを用いた結果，単語認識で4.65%，文認識で4.63%の相対的な性能改善が確認された。
- この改善は，学習データのフレームオーバーラップ数を調整したことによる音響変動への対応に起因する。
Link: https://arxiv.org/abs/2606.19793
発話困難音声に対するエンドツーエンド音声認識の，ドメイン内データ拡張による改善 [econ.GN, cs.CY, q-fin.EC, eess.AS, cs.AI, cs.SD, eess.SP]目的：発話困難音声の音声認識性能向上
- 発話困難はコミュニケーションの障壁となり，その解決が社会参加促進に不可欠である。
- 発話困難音声は多様な症状とデータ不足により，高精度な認識が困難である。
- 症状ごとのデータ拡張により，データ不足を補い，認識精度向上を目指す。
- データ拡張手法（SRM, PM, FM, VTLP）を症状別に適用し，Wav2Vec2モデルをファインチューニングした結果，良好な結果が得られた。
- 軽度・中度の症状にはSRM，重度の症状にはPMが最も効果的であり，それぞれ30.02%，16.64%，15.47%のWER改善率を示した。
- これらの結果は，データ拡張が発話困難音声認識性能の向上に貢献することを示す。
Link: https://arxiv.org/abs/2606.19797
ゼロショット音声クローニングによる構音障害者向けASRの低負荷データ拡張 [eess.AS, cs.LG]目的：構音障害者向け自動音声認識におけるデータ拡張手法の開発
- 構音障害者の音声は個人差が大きく，十分な学習データが得られにくい。
- データ不足と話者間変動の大きさにより，構音障害者の音声認識は課題である。
- ゼロショット音声クローニングを用いて，手軽に学習データを増やし，認識精度向上を目指す。
- ゼロショット音声クローニングによるデータ拡張で，Whisper-mediumのファインチューニングを行った結果，実データと同程度の認識率を達成した。
- 特に，中度～重度の構音障害者においては，実データのみで学習した場合よりも優れた性能を示した。
- 異なるデータセットでの評価においても，ゼロショットクローニングによる拡張が最良の結果を示し，汎用性の高さが確認された。
Link: https://arxiv.org/abs/2606.19823
SIMBA：FY-4A GIIRS高分解能赤外放射輝度モデルのための双方向検索・前方シミュレーションフレームワーク [math.OC, cs.MA, cs.SY, eess.SY, eess.IV, cs.AI]目的：FY-4A GIIRS高分解能赤外放射輝度の数値気象予報への応用を目的とした，双方向検索・前方シミュレーションフレームワーク
- 高分解能赤外放射観測は，大気温度や水蒸気の鉛直構造に関する豊富な情報を提供し，数値気象予報に不可欠である。
- 既存の深層学習手法は，放射輝度から大気プロファイルを求める一方通行の検索に偏っており，逆の放射シミュレーションと両空間の一貫性が課題である。
- 大気プロファイルの検索と放射輝度の再構成を同時に行い，両者の連携を強化することで，より精度の高いモデルを構築する。
- 提案手法SIMBAは，温度，比湿の検索と長波・中波放射輝度の再構成において，既存の深層学習モデルを上回る性能を示した。
- SIMBAの双方向設計とサイクル整合性メカニズムは，両タスクにおいて有効であることが消去実験によって確認された。
- 本フレームワークは，大気プロファイルの検索と高分解能赤外放射輝度モデリングに効果的であり，将来的なヤコビアン解析や数値気象予報への応用が期待される。
Link: https://arxiv.org/abs/2606.19943
QMaxCal：ギルサノフの定理を用いた開放量子制御のための経路空間正則化 [quant-ph, cs.LG]目的：開放量子系のデコヒーレンスに対するロバストな量子制御手法
- 量子技術の発展には，環境ノイズの影響を抑制する信頼性の高い量子制御が不可欠である。
- 既存手法では，ノイズモデルの不一致や制御の複雑さにより，十分な性能が得られない場合がある。
- デコヒーレンスを最小化し，ノイズモデルの不一致に対するロバスト性を向上させる制御手法を開発する。
- 提案手法QMaxCalは，ギルサノフの定理に基づき，KLダイバージェンスを評価する新しい正則化項を導入する。
- KL_WとR_DVの2種類の正則化項は，既存手法と比較して，量子システムの最終状態忠実度とノイズモデルの不一致に対するロバスト性を向上させる。
- IBM Kingstonプロセッサでキャリブレーションされた多量子ビットチェーンにおいて，最大50%の不忠実度低減と約16%の性能向上が確認された。
Link: https://arxiv.org/abs/2606.19947
音響・韻律摂動による音声品質評価における人間とモデルの不一致の調査 [eess.AS, cs.CL, cs.LG, cs.SD]目的：音声品質評価モデルと人間の知覚特性の差異の分析
- 音声合成技術の発展に伴い，客観評価指標の信頼性が重要視されている。
- 既存の音声品質評価モデルは，音響的忠実度以外の要素を捉えきれていない。
- モデルの限界を明らかにし，より人間らしい評価指標の開発に貢献する。
- 多くのモデルは音響劣化を追跡できるが，韻律エラーには鈍感である。
- モデルは基本周波数に強い偏りを示す一方，発話速度や基本周波数の変動には無感である。
- これらの結果は，スカラーMOS予測が音響的忠実度を超えた品質を捉える限界を示す。
Link: https://arxiv.org/abs/2606.19951
有界ノイズを持つ確率的線形文脈バンディット：集合メンバーシップアプローチ [stat.ML, cs.LG, math.OC]目的：有界報酬ノイズを持つ確率的線形文脈バンディット問題に対するアルゴリズム開発
- 文脈バンディットは，個々の状況に応じた最適な行動選択を学習する重要な手法である。
- 既存研究では，報酬ノイズの仮定が緩く，有界報酬ノイズの情報を活用できていない。
- 有界報酬ノイズを明示的に利用し，より効率的な学習アルゴリズムを開発することを目指す。
- 提案アルゴリズムSME-OFUは，集合メンバーシップ推定を用いて不確実性を定量化し，最適性原理を適用する。
- SME-OFUは，従来のアルゴリズムよりも改善された後悔限界$O(\log T)$を達成する。
- シミュレーション結果は，報酬ノイズが有界である場合，SME-OFUが従来のアルゴリズムよりも優れていることを示す。
Link: https://arxiv.org/abs/2606.20022
AIエコノミストエージェント：RAG，知識グラフ，大規模言語モデルを用いたモデルに基づく経済分析のためのエージェントフレームワーク [econ.GN, cs.AI, cs.LG, q-fin.EC, q-fin.GN]目的：モデルに基づいた経済分析
- 経済状況の理解と予測は，政策決定や事業戦略において不可欠である。
- 大規模言語モデルは流暢な記述は可能だが，経済理論やデータに基づいた根拠が不足する。
- 経済理論とデータに基づいた根拠を持つ経済分析を可能にすること。
- 提案手法は，知識グラフとLLMエージェントを活用し，分析計画，証拠の検索，モデルの選択，報告書作成を自動化する。
- 生成された報告書は，モデルに基づく計算と検索された証拠によって裏付けられることで，経済的な一貫性と追跡可能性が向上する。
- 米国インフレ持続性や連邦準備制度の政策，商業不動産のリファイナンスストレスに関する銀行ストレステストのナラティブ生成に適用された。
Link: https://arxiv.org/abs/2606.20041
平均場ゲームにおける最適粗相関均衡：線形計画法と後悔しない学習 [nlin.AO, cs.SY, eess.SY, math.OC, cs.LG, math.PR]目的：平均場ゲームにおける最適粗相関均衡の探索と学習
- 社会全体の効率性を高めるため，プレイヤー間の戦略的な相互作用を理解することが重要である。
- 従来の均衡概念では，プレイヤーの戦略選択の多様性を捉えきれない場合がある。
- プレイヤーの行動を推奨するメカニズムを設計し，最適な粗相関均衡を見出すことを目指す。
- 本研究では，連続時間平均場ゲームにおける最適粗相関均衡の線形計画法による定式化を提案した。
- 最適な線形計画法による粗相関均衡の存在が証明され，確率的設定との関連性が示された。
- 外部後悔制約に基づいた，そのような均衡を学習するための後悔しない双対アルゴリズムが設計され，収束率が示された。
Link: https://arxiv.org/abs/2606.20062
集中治療室におけるイベントベースのバースト抑制検出のための脳波基盤モデルの評価 [eess.SP, cs.AI, cs.LG]目的：集中治療室における脳波バースト抑制のイベントベース検出性能評価
- 集中治療における患者の意識状態モニタリングは，治療方針決定に不可欠である。
- バースト抑制パターンは患者間で異質であり，高品質なアノテーションデータが不足している。
- 脳波基盤モデルを活用し，少ないアノテーションデータでも高精度な検出を実現すること。
- 脳波基盤モデルREVE-baseは，イベントベースF1スコア0.868±0.167を達成し，既存手法と比較して高い性能を示した。
- REVE-baseは，EEGNetや適応閾値処理と比較して，1分あたりのバースト誤り数をそれぞれ52.1%，36.2%削減した。
- 少ないラベルデータセットでも，事前学習済みREVE-baseはランダム初期化と比較して，イベントベースF1スコアを最大+0.723ポイント向上させた。
Link: https://arxiv.org/abs/2606.20074
ジョンエリプソイド近似における平均化を超えて：レバレッジスコアモデルの高精度アルゴリズム [math.OC, cs.DS, cs.LG]目的：対称多面体のジョンエリプソイドの計算における高精度アルゴリズムの開発
- 最適化問題において，多面体の近似は計算効率と精度の両立が求められる重要な課題である。
- 既存のレバレッジスコアアルゴリズムは，計算コストと近似精度のトレードオフが課題であった。
- ジョンエリプソイドの近似計算における各コスト（認証，識別，精度）を分離し，効率化を図る。
- 従来のアルゴリズムにおける計算複雑度のボトルネックが認証プロセスにあることを示した。
- ウォームスタートされた加速法を用いることで，条件数に依存する初期設定後，対数的に精度が向上するアルゴリズムを提案した。
- 最適面が特定されれば，ダンピングされたニュートン法により対数対数スケールでさらに高速な収束が可能となる。
Link: https://arxiv.org/abs/2606.20082
PASQA：アクセントに焦点を当てた音声品質評価モデル - 合成音声におけるアクセント誤りを用いた学習 [eess.AS, cs.CL, cs.LG, cs.SD]目的：日本語のアクセントの正確性を評価するモデル
- 音声合成技術の発展に伴い，より自然な音声が求められているため。
- 従来の音声品質評価モデルは，局所的なアクセント誤りに鈍感であるという課題がある。
- アクセント誤りの正確性を評価し，より自然な音声合成を実現すること。
- PASQAは，アクセント誤り率から算出される擬似アクセント品質スコアを用いて学習された。
- 従来のモデルではアクセント誤りの深刻度による順序が保持されないのに対し，PASQAは高い順序精度を達成した。
- PASQAは，人間のアクセント正確性の判断との一致度が高いことが示された。
Link: https://arxiv.org/abs/2606.20137