arXiv雑要約

AI - 2026/06/03 公開

RAGにおけるコストを考慮したクエリルーティング：検索深さのトレードオフに関する実証分析 [cs.IR, cs.AI]目的：RAGにおける検索深さとコスト，応答速度のトレードオフを最適化するルーティングフレームワーク
- 大規模言語モデル(LLM)の利用拡大に伴い，コストと性能のバランスが重要となっている。
- RAGでは，検索深さの固定化により，クエリの種類に応じた最適なコスト効率が得られない。
- クエリごとに最適な検索深さを選択することで，コストと性能のバランスを改善することを目指す。
- 提案手法(CA-RAG)は，常に深い検索を行う手法と比較して，請求トークン数を26%削減した。
- また，常に直接推論を行う手法と比較して，平均応答時間を34%低減した。
- 応答品質を維持しつつ，クエリの複雑さに応じたコスト削減効果が確認された。
Link: https://arxiv.org/abs/2606.02581
高コントラスト媒質におけるマルチスケール離散化を加速するアテンション強化ハイブリッドネットワークを用いた地下流シミュレーションのための二重グリッド前処理法の適用 [cs.CE, cs.LG, cs.NA, math.NA]目的：高コントラスト不均質媒質におけるDarcy方程式の効率的な数値解法
- 地下流体のシミュレーションは，資源開発や環境保全において不可欠な技術である。
- 高コントラスト媒質におけるマルチスケール解析は，計算コストが高く，現実的な問題への適用が困難である。
- 機械学習を活用し，マルチスケール基底関数の生成を高速化することで，計算コストを削減することを目指す。
- 提案手法は，既存の機械学習ベースの手法と比較して，より正確な圧力再構成が可能であることが示された。
- 二重グリッド前処理法を用いることで，強不均質性や高コントラスト条件下でも安定した解が得られることが確認された。
- 基底関数の生成段階の効率化により，高解像度Darcy型シミュレーションの実現に貢献する可能性が示唆された。
Link: https://arxiv.org/abs/2606.02582
IdiomX：慣用句理解，検索，解釈のための多言語ベンチマーク [cs.CE, cs.CL, cs.AI, cs.IR]目的：慣用句理解，検索，解釈のための大規模多言語ベンチマーク
- 自然言語処理において，慣用句は非構成的で文脈に依存し，言語間での意味の整合が難しいため，長年の課題である。
- 既存の慣用句リソースは，規模，文脈の多様性，多言語対応において制限があり，最新の言語モデルの活用を妨げている。
- 本研究は，慣用句の検出から検索，意味解釈への進展を研究するための拡張可能なベンチマークを提供することを目指す。
- IdiomXは，190K以上の文脈化された事例と12K以上の慣用句を含む大規模な多言語ベンチマークである。
- 文脈変換モデルは慣用句検出を大幅に改善し，ハイブリッド検索アーキテクチャは単言語およびクロスリンガルな慣用句検索を強化することが示された。
- 慣用句解釈は，意味検索タスクとして効果的にモデル化可能であり，解釈可能性を新たな評価軸として導入した。
Link: https://arxiv.org/abs/2606.02584
Lean-GAP：大学院レベル代数問題の形式化データセット [cs.LO, cs.AI, cs.PL]目的：大学院レベル代数学の形式化問題のデータセット
- 数学の自動検証は，定理証明や数学教育に革新をもたらす可能性を秘めている。
- 教科書レベルの数学問題を形式化するには，時間と労力がかかる。
- 形式化パイプラインを構築し，形式化の課題を分析することで，効率化を目指す。
- DummitとFooteの「抽象代数」の大学院レベルの問題430問を形式化したデータセットLean-GAPを構築した。
- PDFからLaTeXへの前処理，Lean 4への自動形式化，および非公式-公式の対応検証からなるパイプラインを開発した。
- 自動形式化モデルの性能を比較し，非公式な記述を形式言語に翻訳する際のボトルネックを特定した。
Link: https://arxiv.org/abs/2606.02588
短期賃貸の動的価格設定における人間介入型文脈バンディット：過去データのウォームアップと承認ゲート型ライブ学習の構造的同等性 [cs.LG]目的：短期賃貸市場における動的価格設定のための人間介入型文脈バンディットフレームワークの有効性検証
- 短期賃貸市場は，価格設定が収益に直結するため，適切な価格戦略が重要である。
- オンライン学習アルゴリズムのフィードバックが希薄であり，初期段階での学習が困難である。
- 過去の価格設定データを活用することで，初期学習期間を短縮し，実用的な価格設定を実現することを目指す。
- 人間介入型ゲート付きバンディット（HITL-GB）フレームワークにおいて，過去の価格データはバンディットの事後分布の初期化におけるウォームアップデータと同等であることが示された。
- この構造的同等性により，純粋なオンラインバンディット学習では非現実的な，希薄なフィードバック市場におけるコールドスタート期間を回避できる。
- ヒエラarchical Factored Thompson Sampling（HF-TS）系列の初期化において，効果的なコールドスタートを約150エピソードから約30エピソードに圧縮できることが確認された。
Link: https://arxiv.org/abs/2606.02595
ニューラルネットワーク損失地形のスペクトル漸近解析：曲率指数に対する正確な分解 [cs.LG]目的：ニューラルネットワークの損失地形における曲率指数のスペクトル的分解
- 深層学習モデルの最適化性能向上は，損失地形の理解に不可欠である。
- 曲率指数は層の種類によって異なり，その理由が明確でなかった。
- 曲率指数の変動を幾何学的に解明し，その関係性を明らかにする。
- 曲率指数αは，スペクトルアラインメント分解 $\alpha = 2 + d\log\Phi_k / d\log\sigma_k$ によって記述できることが示された。
- この分解から得られるスペクトル伝播恒等式 $s = \alpha\gamma$ は，実験的に高い精度で成立することが確認された。
- 提案手法に基づく事前条件付け器 $T(\sigma;\alpha)$ は，AdamWよりも優れた性能を示すことが示された。
Link: https://arxiv.org/abs/2606.02596
脳コンピュータインターフェースのセキュリティ向上 [cs.LG, cs.CR]目的：脳コンピュータインターフェースにおける敵対的攻撃に対するロバスト性
- 脳波を利用したBCI技術は進歩しているが，セキュリティの重要性が認識され始めている。
- 従来のBCI研究は精度向上に偏っており，セキュリティやロバスト性への配慮が不足している。
- 微小な摂動による誤認識を招く敵対的攻撃への耐性を高めることが課題である。
- 提案手法は，敵対的攻撃下での分類精度において，既存のCNNモデルと比較して一貫して良好な性能を示した。
- この結果は，軽量なアーキテクチャがBCIシステムの信頼性を高める可能性を示唆する。
- 脳波ベースのBCIシステムにおける敵対的攻撃に対するロバスト性を評価することは，実用化に向けて不可欠である。
Link: https://arxiv.org/abs/2606.02597
認知負荷予測における脳波領域の貢献度評価 [cs.LG, cs.HC]目的：認知負荷予測のための脳波領域レベルでの貢献度
- 人間中心・安全重視システムにおいて，認知負荷の正確な推定は不可欠である。脳波はそのための重要な指標となる。
- 脳波を用いた認知負荷評価は一般的だが，領域レベルでの貢献度の安定性が課題であった。
- 様々なデータセットと評価方法を用いて，脳波領域の貢献度を評価し，汎用的な認知負荷モニタリングシステムの設計を支援する。
- 前頭葉領域の脳波は，全頭皮記録に比べて約15-20%高い相対的なランキング位置を示し，使用する電極数も大幅に削減できることが示された。
- 前頭中部領域は最も安定した予測性能を示し，後頭部や後頭頂葉領域は実験条件によって貢献度が変動することが明らかになった。
- 認知負荷に関連する脳波情報は，前頭葉および前頭中部領域に一貫して保持される傾向があり，効率的なモニタリングシステム設計を支持する。
Link: https://arxiv.org/abs/2606.02598
テストのテスト：クラス分割異常検知におけるスコア方向の不安定性 [cs.LG]目的：クラス分割評価におけるスコア方向の不安定性の検証
- 異常検知は，製造やセキュリティなど，様々な分野で重要な役割を担う。
- 従来のクラス分割評価では，未知の異常データに対する汎化性能が十分に評価できない場合がある。
- 表現空間における異常クラスと正常クラスの重なりが，スコア方向の不安定性を引き起こす問題を解決する。
- クラス分割評価が，異常クラスと正常クラスの表現空間における重なりによって，不安定になる場合があることが示された。
- 新たな診断指標「近傍クラス漏洩」が，Fashion-MNIST，CIFAR-10，Imagenetteにおいてスコア方向の不安定性を予測できることが確認された。
- クラス分割ADベンチマークは，無条件の異常検知能力の証拠ではなく，形状依存のストレステストとして扱うべきである。
Link: https://arxiv.org/abs/2606.02601
トポロジーを意識した順序付けに基づくGraph Mamba生存率解析 [cs.LG, cs.CV]目的：全スライド画像(WSI)を用いた生存率解析における課題解決
- 病理計算論において，WSI生存率解析は患者予後評価に不可欠であり，重要性が高い。
- Transformerは長距離依存性を捉えるものの，計算コストが高く，大規模WSIグラフ構造への適用が困難である。
- Mambaの入力順序依存性を克服し，WSIの空間構造を有効活用するフレームワークを開発すること。
- トポロジーを意識した順序付け(TAO)戦略により抽出されたノードは，高い類似性を示すことが視覚化実験で確認された。
- 双方向Mambaモジュールとグラフ畳み込みネットワーク(GCN)を統合し，局所集約とグローバル捕捉を行う階層的特徴学習アーキテクチャを実現した。
- 5つのTCGAデータセットを用いた検証により，包括的な性能向上が確認された。
Link: https://arxiv.org/abs/2606.02602
COD10K-C：自然画像劣化下におけるカモフラージュ物体検出の頑健性の評価 [cs.CV, cs.LG]目的：カモフラージュ物体検出における，自然画像劣化に対する頑健性の評価基準
- 現実世界の画像はノイズや歪みを含むため，現実的な性能評価が不可欠である。
- 既存のカモフラージュ物体検出ベンチマークは，清浄な画像のみで評価されており現実的ではない。
- 自然画像劣化に対する頑健性を評価するための新たなベンチマークを確立し，モデルの改善を目指す。
- 既存のカモフラージュ物体検出モデルは，画像劣化により性能が低下する。
- 特にモーションブラーとガウシアンブラーの影響が大きく，SINet-v2はモーションブラー下で18.5のDiceスコアを損失した。
- RobustCODLiteは，劣化に対する耐性が高く，清浄画像時の性能を92.3%維持し，他のモデルを上回った。
Link: https://arxiv.org/abs/2606.02603
断片化されたESGデータからの監査可能な気候リスクインテリジェンス：決定論的オーケストレーションと不均衡を考慮した学習によるスコープ1-3の検証 [cs.LG, cs.AI]目的：ESGおよび気候リスクデータの検証における信頼性と透明性の向上
- 企業の持続可能性への取り組み評価において，ESGデータは不可欠であり，その精度が投資判断に影響する。
- ESGデータは分散しており，検証パイプラインの監査可能性や再現性が不足しているという課題がある。
- 信頼性と透明性を高め，気候リスクガバナンスを強化するためのフレームワークを構築すること。
- 提案フレームワークは，単一の情報源オーケストレーション，異常検知，不均衡学習，説明可能なガバナンスを統合している。
- 公開されているGHGプロトコル，PCAF，ISSB基準に適合した合成ESG検証ベンチマークを構築し，公開した。
- 検証の結果，従来の統計分類器や異常検知手法と比較して，高い再現性と監査可能性が確認された。
Link: https://arxiv.org/abs/2606.02604
重度の狭窄分類のための心電図と血管造影表現のクロスモーダル対照学習 [cs.LG, cs.AI, eess.IV]目的：心電図と血管造影表現のクロスモーダル対照学習による重度狭窄分類
- 冠動脈狭窄症は一般的な心血管疾患であり，早期発見が重要である。
- 血管造影は侵襲的でコストがかかるため，無症状患者の診断が遅れる場合がある。
- 心電図から狭窄症の兆候を検出し，早期診断を支援することを目的とする。
- StenCEという事前学習フレームワークを提案し，心電図由来の特徴による患者の層別化を可能にした。
- 様々な狭窄度閾値とECG疾患分類タスクにおいて，ECGエンコーダの性能が向上した。
- 心電図から狭窄症を診断するシグナルを検出し，重度狭窄分類において高い性能を初めて達成した。
Link: https://arxiv.org/abs/2606.02605
ReLoRA：進化するLLMサービスの迅速な展開のための知識再利用適応 [cs.LG, cs.AI]目的：進化するLLMサービスにおけるLoRAアダプターの再適応
- LLMは多様なサービスに利用され，継続的な進化が求められる分野である。
- ベースモデルの更新により，既存LoRAアダプターの性能が劣化しやすい。
- ベースモデル更新時のLoRAアダプターの再適応コストを削減し，迅速なサービス展開を実現する。
- ReLoRAは，既存の知識を活用することで，再適応時間を最大8.9倍削減する。
- ReLoRAは，ベースラインと比較して最大4.6％の精度向上を達成した。
- 適応LoRA初期化とスケジュール化された正則化により，迅速な品質回復と低コスト化を実現する。
Link: https://arxiv.org/abs/2606.02606
幾何学的認識を持つ表形式拡散モデル [cs.LG, cs.AI, cs.CR]目的：表形式データの合成
- 個人情報保護とデータ拡張のため，表形式データの合成は重要である。
- 拡散モデルは列間の関係性を捉えるために暗黙的なメカニズムに依存している。
- 列値の差から計算される角度と長さを活用し，表形式データの合成における性能向上を目指す。
- 提案手法GATDは，平均で3.5倍少ないパラメータ数で，最先端のベンチマーク性能を達成した。
- 10個のデータセットにおいて，Shape，Trend，下流タスクのユーティリティでそれぞれ8/10，7/10，9/10の勝利を収めた。
- ShapeとTrendのエラーをそれぞれ27%と20%削減し，GNNやTransformerにも転移可能なことを示した。
Link: https://arxiv.org/abs/2606.02607
マルチェンコ-パストゥール分布による深層ニューラルネットワークのプルーニング [cs.LG]目的：深層ニューラルネットワークのプルーニングにおける精度維持
- 深層学習モデルは計算コストが高く，効率化が重要である。
- プルーニング後の再学習に時間がかかり，精度劣化が課題である。
- 短時間の再学習で精度の低下を抑制するプルーニング手法を提案する。
- マルチェンコ-パストゥール分布を用いて，プルーニングによる精度低下を理論的に保証する。
- ImageNet-1kの実験で，わずかな再学習で高い精度を維持しつつ，計算量を削減できることを示した。
- 特にViT-B/16モデルでは，MAC演算量を59.81%削減し，A40上で1.388倍の高速化を達成した。
Link: https://arxiv.org/abs/2606.02608
より良い活性化オラクル構築 [cs.LG, cs.AI]目的：活性化オラクルの解釈能力向上
- 深層学習モデルの解釈可能性は，信頼性と安全性確保に不可欠である。
- 既存の活性化オラクルは，幻覚や曖昧さといった課題を抱えている。
- 活性化オラクルの評価を困難にするテキスト反転問題を解決する。
- 活性化オラクル学習方法を4つの側面から改善した。
- 能力向上はわずかだが，実用性は大幅に向上した。
- 活性化オラクルの品質評価のための包括的な評価スイート「AObench」を公開した。
Link: https://arxiv.org/abs/2606.02609
Samudra 2：解像度に応じた海洋エミュレータのスケール拡大 [cs.CE, cs.AI, cs.LG, physics.ao-ph]目的：海洋エミュレータの解像度向上と長期的な数値シミュレーションの実現
- 気候変動予測において，海洋の役割は重要であり，高精度なシミュレーションが求められる。
- 従来の海洋モデルは計算コストが高く，大規模なアンサンブル実験や多様なシナリオ分析が困難であった。
- ニューラルエミュレータを用いて，計算コストを削減し，高解像度かつ長期的な海洋シミュレーションを実現する。
- Samudra 2は，上層海洋のグローバル平均気温の決定係数を0.56から0.87に向上させ，深層海洋の温度誤差を約7分の1に削減した。
- 同じアーキテクチャは，$1/2^\circ$および$1/4^\circ$の解像度でも約8年間の自己回帰ロールアウトにおいてスケールし，中スケール渦や急峻な西部境界流を再現した。
- 単一のGPU上で動作し，海面水位予測，海洋熱吸収，気候変動性の研究における大規模なアンサンブル実験を可能にする。
Link: https://arxiv.org/abs/2606.02610
ブラジル赤道域における公共政策分析のためのマルチエージェントシステム：Margin Play [cs.CE, cs.AI]目的：ブラジル赤道域探査がマラニョン州にもたらす純粋な正の外部性発生の条件
- ブラジル赤道域は次期オフショア油田であり，経済発展の潜在力を持つ。
- 州のHDIが低く，資源開発における地域福祉とのバランスが課題である。
- 制度設計によって，地域福祉と環境負荷を両立させることを目指す。
- マルチエージェント強化学習システム Margin Play を構築し，ブラジルにおける制度下の緊張をシミュレーションした。
- 基準シナリオでは利益はわずかだが，MA-Prospero 構成では地域福祉が17.5%向上，地域収入が21.3%増加した。
- 環境負荷も低減され，生産と福祉のトレードオフは制度設計の選択に起因することが示された。
Link: https://arxiv.org/abs/2606.02614
キャリブレーションされた敬意を伴う閉ループ分子設計 [cs.CE, cs.AI, cs.MA, physics.chem-ph]目的：水系有機レドックスフロー電池（AORFB）のネガライト設計
- 分子設計は，新素材開発や化学プロセスの最適化において重要な役割を担う。
- 従来の分子設計手法は，実験結果のフィードバックを十分に活用できていない場合がある。
- 本研究は，AIが自身の限界を認識し，実験的検証に基づいて設計を改善する能力を目指す。
- CLIOは，自身の知識と実験結果を統合し，設計提案と解釈を行うことで，化学者との協調を促進した。
- 17回の候補提案と3回のラウンドを経て，CLIOは有望なホスホン酸塩候補を特定し，130mVの酸化還元電位の改善が確認された。
- 予想外の電気化学的可逆性の低下をCLIOがメカニズム仮説から特定し，スルホン酸塩への置換を提案し，可逆性が向上した。
Link: https://arxiv.org/abs/2606.02618
物理情報ニューラルPDEソルバーに対する振動状態空間モデルの誘導バイアス [cs.NE, cs.AI, cs.LG]目的：時間依存偏微分方程式の解法
- 科学技術計算において，物理現象のシミュレーションは不可欠であり，高精度なPDEソルバーが求められている。
- 従来のPINNは時間発展の学習が難しく，特に大規模・高次元問題ではメモリ消費量が増加しやすい。
- PDE解のモーダル構造を捉えた振動状態空間モデルを導入し，計算効率と精度を向上させる。
- 提案手法は，時間発展に線形振動子モデルを用いることで，空間微分を解析的に計算可能にし，境界条件の一貫した適用を可能にする。
- 前方問題，逆問題，高次元PDE問題（最大100次元）において，従来のシーケンスモデルベースのPINNアプローチと比較して，精度が向上し，メモリ使用量が削減された。
- 本研究は，ニューラルPDEソルバーの時間発展に構造化された動的事前知識を組み込むことの利点を示唆し，物理に適合した効率的なPINNアーキテクチャ設計の方向性を示す。
Link: https://arxiv.org/abs/2606.02623
量子化されたLLMにおける中間層の隠れ状態からの幻覚の線形デコード可能性 [cs.LG, cs.CL]目的：オープンソースLLMにおける隠れ状態に符号化された真実性の信号の線形分離可能性とその深さ
- LLMの幻覚は，その実用性と信頼性を阻害する重要な課題である。
- 幻覚検出は依然として困難であり，効率的な手法が求められている。
- LLMの中間層隠れ状態を利用した幻覚の早期検出を目指す。
- 4bit量子化されたLLMの中間層で，真実性の信号が線形分離可能であることが示された。
- 線形プローブは，高精度（0.904-1.000 AUROC）で幻覚を検出した。
- 知識に基づいた設定では，最初のブロックの注意エントロピーも有効な信号を提供する。
Link: https://arxiv.org/abs/2606.02628
MultiTurnPSB：医療AI安全のための複数ターンの脱獄攻撃と分類器ベースの防御の評価 [cs.CR, cs.AI]目的：医療AIチャットボットに対する複数ターンの脱獄攻撃と防御手法の評価
- 医療AIの安全確保は，患者の健康と生命に直接関わるため，極めて重要である。
- 既存の評価手法は単一ターンに限定されており，実際のユーザーの行動を反映できていない。
- 複数ターンの攻撃に対する脆弱性を明らかにし，より実用的な防御策を開発すること。
- GPT-4.1-miniにおいて，ライブ攻撃下での危険な応答がターン4で約80%に増加した。
- GPT-4.1-miniとClaude Sonnet 4.5はベースラインでは同等だが，ターン4では19倍の差が生じた。
- 軽量な入力側分類器はターン4の危険な応答を52%削減したが，誤報率が45%と高い点が課題である。
Link: https://arxiv.org/abs/2606.02630
良すぎるものの弊害：シミュレーションから現実世界への移行努力が政策学習を阻害する場合とその対策 [cs.RO, cs.AI]目的：政策学習におけるシミュレーションから現実世界への移行努力の弊害とその解決策
- ロボットの現実世界での自律的な行動を実現するには，シミュレーション環境での学習と現実世界での適用が不可欠である。
- シミュレーション環境の精度向上に注力しすぎると，現実世界の制約に過剰に適応した政策が学習され，探索が制限される可能性がある。
- シミュレーション環境と現実世界のギャップを適切に管理し，政策学習の阻害要因を解消することを目指す。
- シミュレーションから現実世界への移行努力が，政策学習のインセンティブを歪める原因となっていることが示唆された。
- シミュレーション環境に過度に制約を課すことが，政策の探索を妨げ，シミュレーターロックインを引き起こす可能性があることが明らかになった。
- ロボットの運動学のみを制約とするシミュレーションからシミュレーション，そして現実世界への移行パラダイムが，潜在的な解決策として提案された。
Link: https://arxiv.org/abs/2606.02636
SegTune：楽曲生成における構造化された詳細な制御 [cs.SD, cs.AI, eess.AS]目的：楽曲生成における構造化と粒度の細かい制御
- 近年のAI技術により楽曲生成が可能となり，音楽制作の新たな可能性が広がっている。
- 既存システムは楽曲の時間的変化を捉えきれず，音楽構造やダイナミクスの詳細な制御が困難である。
- セグメントごとの音楽記述による制御を可能にし，楽曲の構造とダイナミクスを細かく制御する。
- SegTuneは，Diffusion Transformerを基盤とし，楽曲セグメントに合わせたローカルな音楽記述を可能にする。
- LLMを用いた音節予測により，歌詞と音楽の正確なアライメントを支援する。
- 実験の結果，既存手法と比較して，SegTuneは音楽性と制御性に優れていることが示された。
Link: https://arxiv.org/abs/2606.02638
D-Judge：意味保持的な出力書き換えによる多段階脱獄攻撃の阻止 [cs.CR, cs.AI]目的：多段階脱獄攻撃に対する防御
- 大規模言語モデルの安全性が重要視される中，悪意のあるプロンプトによる攻撃が巧妙化している。
- 既存の防御策は個々のターンや最終的な応答に焦点を当て，攻撃者が利用する判断モデルとのやり取りを遮断できていない。
- 判断モデルへのフィードバックを歪めることで，攻撃者のプロンプト最適化を妨害し，脱獄攻撃の成功率を下げる。
- D-Judgeは，被害者LLMの応答を書き換えることで，攻撃者の判断モデルへのフィードバックを操作する。
- 書き換えは意味を保持しつつ，判断モデルが誤った有害性スコアを生成するように誘導する。
- HarmBenchを用いた実験で，D-Judgeが最新の多段階脱獄攻撃の成功率を低下させ，通常のベンチマーク性能を維持することが示された。
Link: https://arxiv.org/abs/2606.02640
CARVE：インタラクティブ運転のための封筒を用いた却下された操縦の認定された手頃な修理 [cs.RO, cs.AI]目的：インタラクティブ運転における操縦の修理可能性を証明する認定システムの開発
- 自動運転技術の安全性向上は，社会実装における最重要課題である。
- 従来の自動運転システムでは，複雑な状況下での安全な操縦判断が困難である。
- 本研究は，他の車両との協調的な操縦変更による安全確保を目指す。
- CARVEは，当初却下された操縦の98.64%を受け入れ，人間の解決策と一致する誤った却下を370/378件回復した。
- 右折優先の尊重を589/589件維持し，他の車両への誤検出をなくし，ストレスの少ない却下を400/400件実現した。
- CARVEは予測を用いず，提案された相互作用が規範的に許容可能かどうかを証明する。
Link: https://arxiv.org/abs/2606.02641
検索拡張大規模言語モデルに対する推論コスト攻撃 [cs.CR, cs.AI, cs.DB]目的：検索拡張大規模言語モデルにおける推論コスト増加
- 大規模言語モデルの活用が進む中で，外部知識を利用する検索拡張が重要になっている。
- 検索拡張システムの推論コストは高く，運用上の課題となっている。
- 外部知識ベースを悪意のある情報で汚染することで，推論コストを増大させる手法を提案する。
- 提案手法RA-ICAは，悪意のあるドキュメントを外部知識ベースに注入することで，推論コストを最大13.12倍に増加させることを実証した。
- 攻撃成功率は90%を超え，生成される回答の質は低下させない。
- LLMエージェントと強化学習アルゴリズムMA-GRPOを活用し，効率的な悪意のあるドキュメント生成を可能にした。
Link: https://arxiv.org/abs/2606.02643
AIエージェントにおけるサイバーセキュリティ拒否のための新しいフレームワーク [cs.CR, cs.AI]目的：AIエージェントにおける有害な要求に対する拒否境界の設定
- サイバーセキュリティは現代社会の基盤であり，その重要性は増大の一途を辿っている。
- AIエージェントの能力向上に伴い，悪意のある利用を防ぐための拒否メカニズムが課題となっている。
- 本研究は，攻撃的なセキュリティコンテキストにおけるAIエージェントの拒否行動を評価し改善することを目的とする。
- 既存のAIエージェントの評価基準は主に有効性に焦点を当てており，拒否に関する評価が不足している。
- 調査の結果，テストした8つの最先端モデルのうち6つは，ほぼゼロの拒否率を示した。
- GPT-5.2とGPT-5.1 Codexのみが，意味のある拒否行動を示した。
Link: https://arxiv.org/abs/2606.02644
分布シフト下における一般化境界のレジーム到達不確実性 [cs.LG, q-fin.CP, q-fin.ST]目的：分布シフト下における一般化境界
- 機械学習の応用範囲拡大には，現実のデータ分布の変化への対応が不可欠である。
- 従来の理論では，分布の静止性または同一性を仮定しており，レジームスイッチング環境には不向きである。
- レジーム構成の不一致によるリスクを定量化し，一般化性能の理論的限界を改善すること。
- レジーム不一致とレジーム感応性の分解が理論的に可能となり，より詳細なリスク評価が実現した。
- ベータ混合データに対する一般化境界を拡張し，実効サンプルサイズの修正により精度を向上させた。
- 合成データおよび世界の株式指数データから，提案手法の有効性を実証した。
Link: https://arxiv.org/abs/2606.02657
コントラスト学習に基づく動的マルチモーダルデータ融合モデル [cs.RO, cs.LG, cs.AI]目的：マルチモーダルデータ融合による潜在的な相関と補完的なパターンの発見
- データ処理や意思決定の向上に不可欠であり，多様な応用分野で重要性が増している。
- 現実世界では，不確実または欠損したモダリティ入力への対応が課題となっている。
- 欠損モダリティに過度に焦点を当てず，グローバルな補完情報を活用する手法を開発する。
- 提案手法CL-DMDFは，特徴量とモダリティ次元の両方で動作する新しい注意機構を導入した。
- エンティティ中心のコントラスト学習モジュールにより，識別学習の精度を向上させている。
- 3つのデータセットでの実験により，多様なマルチモーダル融合タスクにおいてCL-DMDFの有効性が示された。
Link: https://arxiv.org/abs/2606.02659
即興，適応，克服：効率的な機械学習のための動的マルチフィデリティアルゴリズム [cs.LG, cs.AI, physics.chem-ph]目的：効率的な機械学習のための動的マルチフィデリティアルゴリズムの開発
- 量子化学計算において，機械学習の重要性は増している。高精度な計算結果を得るには膨大な計算コストが必要となる。
- 従来のマルチフィデリティ機械学習は，事前定義されたスケーリング因子に依存し，冗長なデータ生成を引き起こす可能性がある。
- 本研究は，データ生成の冗長性を解消し，低コストで高精度な機械学習を実現することを目指す。
- 提案手法は，従来のシングルフィデリティ法と比較して，データ生成コストを最大30倍削減できることが示された。
- 標準的なマルチフィデリティ法と比較して，最大5倍の性能向上を達成した。
- この動的マルチフィデリティフレームワークは，量子化学における持続可能でコストを意識した機械学習への新たな道を開く。
Link: https://arxiv.org/abs/2606.02662
AdaWeather：対数後悔を用いた確率的気象予測モデルの適応的混合 [cs.LG, cs.AI]目的：複数の確率的気象予測モデルの組み合わせによる，より精度の高い予測
- 近年の機械学習の進展により，数値気象予測モデルに匹敵する性能のモデルが登場している。
- 予測性能は時空間的に変動し，特定のモデルが常に優位とは限らないという課題がある。
- 既存手法の限界を克服し，よりロバストで精度の高い予測を実現することを目指す。
- AdaWeatherは，機械学習とエキスパート混合法を組み合わせた適応的フレームワークである。
- 従来の専門家法は最適な単一のエキスパートに対して後悔限界を定めるが，本研究では最適な静的混合エキスパートに対する対数後悔を証明した。
- 温度予測の実験結果から，既存手法と比較して予測性能の向上が確認された。
Link: https://arxiv.org/abs/2606.02663
多変量時系列ベンチマークにおける異常は主に単変量である [cs.LG, cs.AI]目的：多変量時系列異常検知におけるベンチマークの評価
- 時系列データ分析は，金融，医療，インフラなど，多くの分野で重要な役割を果たす。
- 多変量時系列異常検知は，チャンネル間の相関構造を考慮する必要があるが，評価が困難である。
- 既存のベンチマークが多変量モデリングの能力を適切に評価できていない問題を解決する。
- 既存の多変量時系列異常検知ベンチマークにおいて，異常の多くは単一チャンネルの逸脱によって引き起こされることが示された。
- クロスチャンネルの相関構造の変化は，常に単変量的な逸脱を伴うことが確認された。
- クロスチャンネルモデリングは，現在のベンチマークでは有効性が検証できないため，より多様な評価セットの開発が必要である。
Link: https://arxiv.org/abs/2606.02670
データ駆動型予測と配分の一致：生存時間分析への意思決定重視型アプローチ [cs.LG, cs.AI]目的：生存時間分析における意思決定の最適化
- 機械学習は意思決定を自動化する上で不可欠だが，予測モデルと実際の配分タスクの間にずれが生じている。
- 従来の評価指標（C-indexなど）に最適化された予測モデルが，配分アルゴリズムに組み込まれた際に，必ずしも最適な結果をもたらさない。
- 生存時間分析と政策最適化のギャップを埋め，配分における性能保証を実現することを目指す。
- 標準的な評価指標に最適化された生存時間予測モデルでは，配分アルゴリズムにおいて任意に低い結果となる可能性があることが示された。
- 正規化割引累積利得（NDCG）を最適化する意思決定重視型学習アプローチを提案し，生存時間分析におけるNDCGの有用性を確立した。
- 米国における心臓移植データを用いた実験で，提案手法は既存モデルのNDCGを50-100%向上させ，年間数万年の余命を改善すると予測された。
Link: https://arxiv.org/abs/2606.02671
大規模言語モデルにおける構造的推論のための視覚グラフ足場 [cs.AR, cs.ET, cs.AI, cs.LG]目的：大規模言語モデルの構造的推論を支援する視覚グラフの有効性
- LLMの性能向上には，構造化された知識の活用が不可欠である。複雑な推論能力の獲得が課題。
- 既存研究ではグラフは外部知識源として扱われ，LLM内部での推論整理への活用は十分ではない。
- 視覚グラフをLLMの内部推論の足場として利用し，推論能力の向上を目指す。
- グラフ構造をテキスト化すると，直接的な答えのヒントがなければ効果が限定的になることが示された。
- 視覚グラフによるガイダンスは，直接的な答えのヒントなしでも有効であり，その効果は教師ありファインチューニングやKLベースの知識蒸留後も持続する。
- グラフはLLMの外部知識構造としてだけでなく，推論を整理するための視覚的足場としても研究されるべきである。
Link: https://arxiv.org/abs/2606.02673
融合前に保持すべきものを問う：文脈的マルチモーダル信号の較正 [cs.RO, cs.LG, cs.MM, cs.SD, eess.AS]目的：マルチモーダル表現の融合前の調整
- 言語，音響，視覚情報を組み合わせるマルチモーダルシステムは，様々な分野で性能向上に貢献している。
- ある入力に有効なモダリティが，別の入力に対しては妨げになる可能性があり，最適化が難しい。
- 誤解を招く要素を抑制し，より信頼性の高いマルチモーダル最適化を実現すること。
- 提案手法は，感情理解，行動認識，オーディオビジュアルイベント検出，感情分類を含む5つのベンチマークで性能を向上させた。
- 融合前に信号を較正することで，信頼性の低いモダリティからの干渉を軽減できることが示された。
- 学習の安定性向上や，特徴量レベルでの可視化により，文脈に応じたモダリティの重要性を明確にできた。
Link: https://arxiv.org/abs/2606.02679
局所性は到達可能性を意味しない：ブロック疎な因果注意における境界修復 [cs.LG]目的：ブロック疎な因果注意における局所性と注意グラフの到達可能性の不一致
- 大規模言語モデルの効率化において，計算コスト削減のための疎な注意機構が重要視されている。
- ブロック疎な因果注意では，固定されたブロック構造により，隣接するトークン間でも注意グラフ上で遮断が生じうる。
- この研究は，ブロック境界における到達可能性の問題を解決し，注意機構の性能を向上させることを目指す。
- 固定ブロック因果注意において，各層で隣接トークンが遮断される構造的依存性セットを形式化した。
- 境界境界コピー分布を導出し，その精度上限とクロスエントロピー下限を算出した。
- 境界ブリッジ注意は，ブロック境界付近に補助的な因果エッジを追加することで，到達可能性を改善することを示した。
Link: https://arxiv.org/abs/2606.02680
フィルタリングとリウェイト：オンポリシー蒸留における最適化粒度の再考 [cs.LG, cs.AI, cs.CL]目的：オンポリシー蒸留における最適化粒度調整
- 大規模言語モデルの効率的な学習が求められており，蒸留はその重要な手法の一つである。
- 従来の蒸留では，全てのデータを均等に扱うため，学習効率が低いという課題があった。
- 質の低いサンプルを除外し，重要なトークンに焦点を当てることで，学習効率を向上させる。
- 提案手法FiRe-OPDは，軌跡とトークンレベルの両方で教師信号を調整することで，より詳細な最適化を実現する。
- 質の低い軌跡をフィルタリングし，残った軌跡内のトークンに対してソフトリウェイトを適用することで，情報損失を軽減し，最適化の安定性を高める。
- 強教師から弱教師への設定，単一教師設定，複数教師設定において，既存のトークンレベル蒸留手法よりも優れていることが示された。
Link: https://arxiv.org/abs/2606.02684
AVTrack：人間中心の複雑なシーンにおけるオーディオビジュアルトラッキング [cs.CV, cs.AI]目的：人間中心の複雑なシーンにおけるオーディオビジュアルインスタンスセグメンテーションのためのデータセット
- 人間中心のシーン理解は，ビデオ編集，監視，人間とコンピュータのインタラクションなど，様々な実用的な応用において不可欠である。
- 既存のデータセットは単純なシーンに限られており，複雑な動的なシーンにおけるロバストなモデル評価が困難である。
- 複雑な環境下での，よりロバストなオーディオビジュアルシーン理解のためのベンチマークを提供することを目的とする。
- 本研究で開発したAVTrackは，カメラの動き，視覚的遮蔽，位置変化を含む多様かつ困難な条件を備えたデータセットである。
- AVTrackを用いた評価により，既存のAVIS手法の性能低下が明らかになり，困難なベンチマークとしての有用性が示された。
- 今後の研究を促進するため，シンプルかつ効果的なベースライン手法も提供している。
Link: https://arxiv.org/abs/2606.02724
より少なく見て，より具体的に：汎化可能なVLAのための視覚的証拠予算 [cs.RO, cs.AI, cs.LG]目的：VLA（視覚-言語-行動）モデルの汎化性能向上
- VLAモデルは，現実世界でのロボット制御に不可欠であり，多様な環境への適応が求められる。
- VLAモデルは，注意散漫な要素や外観の変化に弱く，指示が曖昧な場合，正確な行動を推論するのが難しい。
- 視覚的証拠予算を導入し，タスクに必要な情報のみに基づいて行動するようにVLAモデルを訓練する。
- S2フレームワークにより，実行者の学習問題が変化し，汎化性能が大幅に向上した。
- 局所的なガイダンスを維持することで，曖昧な指示による誤った教師あり学習を回避できることが示された。
- 実際のロボットタスクにおいて，サブタスクの成功率が54.2%から79.0%に向上し，S2の有効性が確認された。
Link: https://arxiv.org/abs/2606.02735
位置公平性を考慮した密な情報検索のための注意機構調整 [cs.IR, cs.AI, cs.CL]目的：位置バイアス軽減のための推論時注意機構調整
- 情報検索の精度向上は，知識へのアクセスを容易にし，多様な応用を可能にする点で重要である。
- 密な情報検索モデルは，文章中の位置によって検索性能に偏りが生じるという課題がある。
- 本研究は，モデルの再学習なしに，推論時に注意機構を調整することで位置バイアスを軽減することを目指す。
- 提案手法では，注意機構の調整強度を制御する係数λを導入し，部分的な調整が完全な調整よりも優れた性能を示す場合が多いことが確認された。
- 特定の構成（B=128, λ=0.5, 50%の層深度）は，FineWeb-PosQにおいて，モデル固有の調整なしに全てのモデルでnDCG@10の調和平均を向上させた。
- 同様の構成はPosIR（多言語・多ドメイン）においても有効であり，位置感受性指標を低減しつつ，nDCG@10を維持または向上させた。
Link: https://arxiv.org/abs/2606.02737
EntangleCodec：意味・音響間のエンタングルメントによる統一的な離散オーディオトークナイザー [cs.SD, cs.AI, eess.AS]目的：オーディオとオーディオ言語モデル間の離散インターフェース
- オーディオ言語モデルの性能は，オーディオをどのように離散表現で捉えるかに大きく依存する。
- 既存のトークナイザーは，理解と生成の両方をサポートするのが難しい。
- 意味と音響を統合し，高精度な再構成と理解・生成能力を両立させる。
- EntangleCodecは，既存の専門的なコーデックと同等の再構成品質を達成した。
- MMARにおいて，コーデックベースのベースラインを最大+7.4%上回るオーディオ理解性能を示した。
- 0.6Bパラメータのモデルで，13Bパラメータを超える連続表現LLMを凌駕し，スケーラビリティの高さを示した。
Link: https://arxiv.org/abs/2606.02739
SeeTraceAct：クロス・エンボディメント実演ビデオからの視認性に基づいた潜在的計画 [cs.RO, cs.LG]目的：クロス・エンボディメント実演ビデオを用いた，ワンショットデモ条件付きの視覚言語行動モデルの性能向上
- ロボットの汎用的な行動計画において，視覚と言語と行動を統合するモデルの重要性が高まっている。
- 既存のモデルは，小さな対象領域の正確な局所化を必要とするタスクにおいて，性能が低いという課題がある。
- 視認性に基づいたエンドエフェクタ軌跡の予測を通じて，空間的な正確性を向上させることを目指す。
- 提案手法SeeTraceActは，RoboCasa-DCの全設定においてベースラインを上回り，最高の成功率を達成した。
- 実環境ベンチマークにおいても，SeeTraceActは平均成功率を12.5パーセントポイント向上させた。
- クロス・エンボディメント実演による再現性のある評価を可能にするため，RoboCasa-DCデータセットを新たに公開した。
Link: https://arxiv.org/abs/2606.02745
Plan2Map：計画記録に基づく地空間境界再構築のためのマルチモーダルベンチマーク [cs.CV, cs.AI]目的：計画記録からの地空間境界再構築
- 都市計画等の情報基盤として，地理空間データの精度向上が重要である。
- 計画記録は空間情報が間接的に記述されており，機械可読な境界線が得られない場合が多い。
- 計画記録から正確な地空間境界線を再構築する手法の確立を目指す。
- 本研究では，英国の計画記録を対象としたマルチモーダルベンチマークPlan2Mapを開発した。
- 提案手法GeoPlanAgentは，Plan2Mapにおいて平均IoU 0.736，中央値IoU 0.904を達成し，既存手法を大きく上回った。
- 誤りは主に位置特定と地図登録に集中しており，教師あり境界セグメンテーションが画素レベルの精度を向上させる。
Link: https://arxiv.org/abs/2606.02747
MetaWorld: 単一視点ビデオデータからのマルチエージェントビデオワールドモデルのスケーリング [cs.CV, cs.AI]目的：マルチエージェントビデオワールドモデルのスケーリング手法
- 具現化されたAIやメタバースの基盤技術であり，現実世界の再現が不可欠である。
- 既存手法は単一視点に限定され，マルチエージェント環境への拡張が困難であった。
- 単一視点ビデオデータのみから，一貫性のあるマルチエージェント環境を構築すること。
- MetaWorldは，単眼映像からカメラの動きと対象物の軌跡を分解するMonocular World-State Unrolling(MWSU)を導入した。
- Subject-Aware World Generatorにより，エージェントごとの画像に基づいた外観制御されたシミュレーションを実現した。
- World-State Alignment機構により，各視点間の一貫性と物理的な整合性を確保し，高いスケーラビリティを示した。
Link: https://arxiv.org/abs/2606.02753
Ψベンチ：説得型対話におけるパーソナに敏感な影響力の評価 [cs.LG]目的：説得型対話における言語モデルのパーソナに敏感な影響力
- 現代の言語エージェントにはパーソナライズが不可欠であり，ユーザー体験を向上させる鍵となる。
- 既存研究では，パーソナライズされたエージェントがユーザーの好みに受動的に反応する傾向が強く，積極的な相互作用が不足している。
- 本研究は，現実的な対話におけるプロアクティブなパーソナライズを評価し，より効果的な説得能力を開発することを目指す。
- 本研究で提案するΨベンチは，言語モデルが会話を通じて現実的なユーザーに影響を与える能力を評価するためのベンチマークである。
- 10種類の最先端言語モデルを評価した結果，一貫性のある議論は可能だが，説得力には改善の余地があることが示された。
- クライアントプロファイルへのアクセスは，平均して性能を18.24％向上させ，ユーザー固有の情報が説得に重要であることが明らかになった。
Link: https://arxiv.org/abs/2606.02754
ビジネス中心LLMシステムに対する受容テスト駆動型評価プロトコル [cs.SE, cs.AI]目的：ビジネス中心のLLMシステムの評価プロトコル
- LLMの社会実装が進む中で，安全性，信頼性，説明責任が重要となる。
- 従来のベンチマークでは，確率的な生成要素を持つLLMの要件を満たすことが困難である。
- 受容テスト駆動開発に基づき，LLMのガバナンスと実用性を高める評価プロトコルを確立する。
- 受容テスト駆動型開発をLLM開発に取り入れ，変化管理のサイクルを「赤-訓練-緑」とした。
- ステークホルダーの目標を，実行可能な行動規範，リリース条件，監視信号，証拠成果物へ変換する。
- 受容テスト駆動型開発，プロンプト優先型，ベンチマーク後評価のワークフローを比較する指標群を提案した。
Link: https://arxiv.org/abs/2606.02755
巡航中の生産車両信号を用いた機械学習による路面二値分類 [eess.SY, cs.SY, cs.LG]目的：路面状態の二値分類
- 車両の安全性を向上させるため，路面状況のリアルタイムな把握は不可欠である。
- 巡航時など，スリップが発生しない状況下では，従来の摩擦推定方法の精度が低下する。
- 機械学習を用いて，車両信号と路面状態の相関を明らかにし，路面分類の精度向上を目指す。
- 提案手法は，巡航中であっても路面状態を正確に識別できることを実証した。
- 車両のダイナミクスデータと路面状態の相関関係を，特徴量ベースおよびデータ駆動型アプローチで解析した。
- 本研究は，タイヤおよび車両ダイナミクス分野におけるデータ駆動型摩擦推定器の開発に貢献する。
Link: https://arxiv.org/abs/2606.02762
表現能力：Transformer言語モデルにおける特徴表現の幾何学的限界 [cs.LG, cs.AI]目的：Transformer言語モデルにおける特徴表現の幾何学的限界の評価
- Transformerモデルは自然言語処理の基盤であり，その性能向上は重要な課題である。
- モデル次元$d_{model}$が特徴表現の幾何学的限界に及ぼす影響は十分に解明されていない。
- モデルがサポート可能な特徴方向の数を推定し，表現能力の上限を定義すること。
- 埋め込み行列の直交性から，モデルが許容する直交からの逸脱度$\varepsilon$を定量的に推定する手法を確立した。
- 標準的なJohnson-Lindenstraussの補題が訓練された表現のパッキング効率を過小評価することを示し，ベクトル数と次元数の比($k/d$)に依存する調整された容量公式を導出した。
- 表現能力をモデルの潜在空間における特徴と埋め込みが利用可能な識別可能な方向の上限として定義し，$\varepsilon$に指数関数的に依存することを発見した。
Link: https://arxiv.org/abs/2606.02765