arXiv雑要約

AI - 2026/05/27 公開

TrackRef3D：3Dガウススプラッティングにおけるオープンワールド参照セグメンテーションのためのトラック・ゼン・ラベル [cs.CL, cs.CV, cs.LG]目的：オープンワールド参照セグメンテーションの実現
- 具現化されたAIにおいて，自然言語による3Dオブジェクトセグメンテーションは重要な能力である。
- 既存手法は高コストな手動アノテーションや，多視点不整合，クエリ特異性への汎化性能の低さが課題である。
- 手動アノテーションなしで，多視点一貫性のあるトラック・ゼン・ラベルパラダイムにより上記課題を解決する。
- TrackRef3Dは，3Dガウススプラッティングにおいて，手動アノテーションなしでオープンワールド参照セグメンテーションを実現する。
- Trajectory-Aware Semantic Consensus Module（TSCM）により，多視点予測を統合し，カノニカルな意味的同一性を確立することで多視点一貫性を確保する。
- 可視性に基づいた記述生成戦略と，Hybrid Training Strategy（HTS）により，多様なクエリ特異性に対してロバストな性能を示す。
Link: https://arxiv.org/abs/2605.26576
ニューラルネットワーク検証器alpha-beta-CROWNを用いた制御の架け橋：チュートリアル [eess.SY, cs.AI, cs.LG, cs.SY, math.OC]目的：制御と最先端のニューラルネットワーク検証器alpha-beta-CROWNとの連携
- 自動運転などの安全性が重要なシステムでは，経験的な性能だけでは不十分であり，形式的な検証が不可欠である。
- 既存の検証手法は，システムの構造に依存したり，高次元ニューラルネットワークの検証にスケーラビリティがないといった課題がある。
- alpha-beta-CROWNを用いて制御問題の形式的な検証を実現し，スケーラビリティと適用範囲を向上させる。
- alpha-beta-CROWNは，非線形関数の厳密な上限・下限を効率的に計算し，到達可能性解析などに活用できる。
- リアプノフ理論に基づく制御問題の検証を，alpha-beta-CROWNを用いてスケーラブルに行うことが可能となる。
- GPU並列化により，従来の検証手法では困難だった問題に対して優れたスケーラビリティを示す。
Link: https://arxiv.org/abs/2605.26577
焦点報酬：評価基準に基づく報酬を用いたバランスの取れた強化学習 [cs.IR, cs.LG]目的：評価基準に基づく報酬を用いた強化学習の訓練におけるバランス改善
- 大規模言語モデルの性能向上には，多角的な評価と強化学習が不可欠である。
- 既存手法では，評価基準ごとの報酬に偏りが生じ，一部の基準で性能が低い場合がある。
- 評価基準の飽和度を考慮し，報酬の重みを動的に調整することで，バランスの取れた学習を目指す。
- 提案手法Focal Rewardは，様々なモデル規模とベンチマークにおいて，既存のベースラインを上回る性能を示した。
- 実験結果から，Focal Rewardは改善の余地がある評価基準に重点的に報酬を再配分することで性能向上を実現していることが示された。
- 逆報酬射影機構により各基準の飽和度を推定し，それに基づいて報酬方向を調整する点が有効である。
Link: https://arxiv.org/abs/2605.26579
離散拡散における確率性の誤り訂正効果について [cs.LG, cs.AI]目的：離散拡散モデルにおける確率性の影響の体系的検証
- テキストや画像生成において高性能な拡散モデルの利用が広がっている。
- サンプリング効率とサンプル品質のバランスが，拡散モデルの推論における課題である。
- 確率的な遷移を導入することで，エラーの蓄積を抑制し，高品質なサンプルを得ることを目指す。
- 確率的な遷移は収束が遅いものの，最終的なサンプル品質を向上させることが示された。
- 無駄な遷移が，状態間で質量を対称的に交換することで，エラー訂正効果をもたらすことが情報理論的に解明された。
- DCRSは，関数評価回数を減らしつつ，競争力のあるサンプル品質を維持することが確認された。
Link: https://arxiv.org/abs/2605.26582
敵対的カーネルバンディットにおけるほぼ最適な後悔 [cs.LG]目的：敵対的カーネルバンディット問題における後悔の限界
- 機械学習において，オンライン学習は未知の環境に適応する上で重要である。
- カーネルバンディット問題は，高次元のデータに対して効果的だが，後悔の限界が未解決だった。
- 本研究は，カーネルの複雑さを考慮した新しいアルゴリズムにより，後悔の限界を改善することを試みる。
- 提案手法は，カーネルの有効次元を用いて後悔の上界を導出し，既知の確率的カーネルバンディット問題のレートに匹敵する結果を得た。
- 特に，マターンカーネルに対しては，既存の最良レートを改善し，ランク1の敵対者という仮定を不要にした。
- 得られたレートは，確率的カーネルバンディット問題における最適レートと一致し，同時研究による下界にも近い。
Link: https://arxiv.org/abs/2605.26585
小児貧血予測における少量データ汎化能力：表形式機械学習とファウンデーションモデルの国境を越えた評価 [cs.LG, cs.AI, stat.ML]目的：小児貧血の予測モデルの汎化性能向上
- 世界的に小児貧血が蔓延しており，その原因は多様で，適切な対策が急務である。
- 小児貧血の原因が多様であるため，モデルの汎化性能が低く，データ不足も課題である。
- データ不足の状況下でも高い予測精度と信頼性を実現するモデルを開発すること。
- TabPFNは，データ量が少ない状況（200サンプル未満）において，古典的なモデルよりも高い識別能力と較正性能を示した。
- 全データセットを用いた場合，AUC-ROCは0.59～0.76の範囲であり，モデル間の差は小さかった。
- TabPFNは，国境を越えた評価においても安定した性能を維持し，特にリソースの限られた環境において有効であることが示された。
Link: https://arxiv.org/abs/2605.26589
AI生成作品における知的財産権の課題検証 [cs.CY, cs.AI]目的：AI生成作品における知的財産権の法的保護
- AI技術の発展は，芸術，文学，音楽，発明など多様な分野に革新をもたらしている。
- AIが自律的に創作した場合の権利帰属が不明確であり，法的保護の対象となるか否かが課題である。
- イランの現状法における課題を明らかにし，AI生成作品の知的財産権保護に向けた提言を行う。
- 既存のイラン法には，AI生成作品に関する規定の欠如が認められる。
- イノベーション促進と人間による創作活動の保護とのバランスが重要である。
- AI生成作品に対する新たな権利設定や，関係者の権利帰属の明確化が不可欠である。
Link: https://arxiv.org/abs/2605.26590
コードセプス：データ汚染によるLLMへの隠蔽的制御攻撃 [cs.CR, cs.AI, cs.LG]目的：LLMに対する隠蔽的制御攻撃の実現
- LLMは広範に利用され，その安全性確保は重要である。特に，学習データへの攻撃は深刻な脅威となる。
- 既存のデータ汚染攻撃は，検知しやすいトリガーフレーズに依存しており，防御策によって抑制されることが多い。
- 意味的な関連性を用いた，より巧妙かつ隠蔽性の高いデータ汚染攻撃による脆弱性を明らかにする。
- 本研究では，事実や概念といった共有知識と攻撃者が選択したフレーズの間に意味的関連性を学習させることで，LLMに情報隠蔽スキームを教える手法を提案した。
- 提案手法は，任意の悪意のある命令をエンコード・デコードすることが可能であり，従来のプロンプトインジェクション攻撃よりも約40%高い成功率を達成した。
- また，バックドア防御やプロンプトインジェクション防御といった既存の防御策を回避し，高い攻撃成功率を維持することを示した。
Link: https://arxiv.org/abs/2605.26595
AGORA：LLMエージェントにおける推論不要なプロンプト圧縮のためのアダプターに基づく観測・行動保持 [cs.AI]目的：LLMエージェントのプロンプト圧縮における観測と行動の保持
- LLMエージェントの性能は，その処理能力に依存するため，効率的なプロンプト圧縮が重要である。
- 既存のトークンレベルの圧縮手法は，LLMエージェントの行動文法を破壊し，性能低下を引き起こす。
- 行動文法を保持しつつ，効率的にプロンプトを圧縮することで，LLMエージェントの性能維持・向上を目指す。
- AGORAは，推論を必要としないステップレベルの圧縮手法であり，構造解析，必須コンテンツの保持，関連性スコアリングを組み合わせる。
- 比較対象とした手法の中で，AGORAのみが8/9のケースで圧縮前と同等の性能（75%以上）を維持した。
- 構造的保持層が品質を大きく左右し，学習されたスコアラーが適応的な圧縮を実現することが示された。
Link: https://arxiv.org/abs/2605.26596
少数ショット自動変調識別における幾何学的認識によるコントラスト学習 [cs.LG, cs.AI]目的：少数ショット自動変調識別の性能向上
- 無線通信システムの効率化に不可欠であり，セキュリティ向上にも貢献する分野である。
- 既存の自己教師あり学習は，データ拡張の限界や表現の不安定性といった課題を抱えている。
- 幾何学的構造を考慮した学習により，より安定した表現を獲得し，識別精度を向上させる。
- 提案手法DyCo-CLは，仮想敵対的拡張と意味的整合性損失を組み合わせた幾何学的認識フレームワークである。
- 理論的解析により，DyCo-CLがエンコーダに対する暗黙的なスペクトル正則化として機能することが示された。
- RMLベンチマーク実験において，1-shot設定で従来手法と比較して6.27%の精度向上を達成した。
Link: https://arxiv.org/abs/2605.26600
展開を重要箇所に集中させる：グループベースRLポストトレーニングにおける展開割り当て [cs.LG, cs.AI]目的：グループベースRLポストトレーニングにおける展開割り当て戦略
- 大規模言語モデルの性能向上には，強化学習が不可欠である。計算コストが課題となる。
- 展開生成は計算コストの大部分を占める。特に，報酬分布が収束したプロンプトへの展開は無駄が多い。
- 報酬分散の高い場合に効果的な展開割り当てにより，学習効率を向上させる。
- Pilot-Commitは，プロンプトごとの重要度をオンラインで推定し，高レバレッジなプロンプトに展開を集中させる。
- 数学推論ベンチマークにおいて，ベースラインと同等の精度を，大幅に少ないサンプリングコストで達成した。
- GRPOやDAPOと比較して，目標精度への到達が最大でそれぞれ1.9倍，4.0倍高速化した。
Link: https://arxiv.org/abs/2605.26606
FAST-GOAL：高速かつ効率的なグローバル・ローカル物体アラインメント学習 [cs.CL, cs.AI]目的：詳細なテキスト記述への対応能力向上
- 画像とテキストのアラインメントは，画像認識や自然言語処理の融合において重要な課題である。
- 既存のビジョン言語モデルは，短いキャプションで事前学習されているため，長い詳細なテキスト記述の処理に課題がある。
- FAST-GOALは，CLIPモデルを効率的にファインチューニングし，詳細なテキスト記述に対応する能力を獲得する。
- FAST-GOALは，物体検出と空間分割により局所的な画像領域を効率的に抽出し，対応する文とマッチングするFLISMと，トークン類似度に基づくTSLの二つの要素で構成される。
- 長文キャプションデータセット(DOCCI, DCI)および短文キャプションデータセット(MSCOCO, Flickr30k)での実験により，FAST-GOALがベースラインと比較して顕著な改善を達成することが示された。
- 新たなデータセットGLIT100kは，グローバルな画像と長文キャプションのペアに加え，意味的 coherenceを保ったローカルペアを提供する。
Link: https://arxiv.org/abs/2605.26615
PIDM-DP：カオス系同定と状態再構成のための物理情報拡散モデルとドルマンド・プリンス積分 [cs.LG]目的：カオス的動力学系のスパースでノイズを含む観測からの連続的な状態軌道の再構成
- 非線形科学において，カオス系の状態再構成は基本的な課題であり，気象予測や流体解析等に応用が期待される。
- 従来の数値解法では，ノイズや観測のスパースさにより，正確な状態再構成が困難であるという問題がある。
- 本研究は，物理法則を組み込んだ拡散モデルを用いて，より高精度な状態再構成を実現することを目的とする。
- PIDM-DPは，5次のドルマンド・プリンス積分法を拡散モデルに組み込み，物理残差を逆伝播させることで，生成された軌道が支配方程式を満たすように制約する。
- 5つのベンチマーク系において，PIDM-DPは，従来の拡散モデルと比較して再構成RMSEを最大15.4倍向上させ，アンサンブルカルマンフィルタを凌駕する性能を示した。
- 特に，剛性のあるシステムにおいて，PIDM-DPは高い精度を維持し，カオスの不変測度を保存することが確認された。
Link: https://arxiv.org/abs/2605.26619
MedVol-R1：報酬駆動型エビデンスグラウンディングによるボリューム推論セグメンテーション [cs.CL, cs.HC, cs.CV, cs.AI]目的：3D医用スキャンにおける臨床クエリに基づくターゲット領域のセグメンテーション
- 医療画像解析は，疾患の診断，治療計画，予後予測において不可欠な役割を果たす。
- 従来のセグメンテーション手法は，言語とマスクデコーディングの間の結合が不透明であり，汎化性能が低い。
- 言語とボリュームの関連性を明確化し，より解釈可能で汎用性の高いセグメンテーション手法を開発する。
- MedVol-R1は，強化学習を用いてエビデンスグラウンディングとボリュームの輪郭抽出を分離することで，より解釈可能なモデルを実現した。
- 2Dエビデンスアンカー（主要な軸断面と2Dバウンディングボックス）に基づき，3Dマスクを生成するMedSAM2モジュールを効果的に活用した。
- CT-ORG，AbdomenCT-1K，KiTS23のベンチマークにおいて，最先端の性能を示し，強化学習が純粋な教師あり学習よりも優れていることを実証した。
Link: https://arxiv.org/abs/2605.26621
Tail-Aware HiFloat4：Wan2.2向けW4A4ポストトレーニング量子化 [cs.RO, cs.SY, eess.SY, eess.SY, cs.SY, eess.SY, cs.RO, cs.SY, cs.AI]目的：低ビットテキストツービデオ生成量子化チャレンジにおける提案手法
- 動画生成AIの発展は，コンテンツ制作の効率化や新たな表現の可能性を拓く。
- モデルの量子化は計算コスト削減に有効だが，精度低下を招きやすい。
- 量子化による精度低下を抑制し，効率的な動画生成を実現すること。
- 提案手法は，ViDiT-QパイプラインをWan2.2に適用し，HiFloat4形式でW4A4量子化を行う。
- 活性化関数の裾部を考慮した較正モジュールにより，異常値の影響を低減。
- ランタイムのHiFloat4演算パイプラインを変更することなく，精度維持と効率化を両立。
Link: https://arxiv.org/abs/2605.26628
RT-Lynx: 拡散モデルにおけるGEMMの疎性を適切な方向に配置 [cs.LG]目的：拡散モデルの推論コスト削減
- 画像生成において拡散モデルの性能は高いが，推論コストが課題となっている。
- 既存手法では，半構造化疎性を活用したFLOPs削減が十分に進んでいない。
- 活性化関数の疎性を活用することで，推論速度の向上と生成品質の維持を目指す。
- 活性化関数は重みよりも疎性に対してロバストであり，N:M半構造化疎性化に適していることが示された。
- RT-Lynxは活性化関数にN:M疎性化を適用し，誤差補償技術を取り入れることで精度低下を抑制する。
- 線形層において平均1.55倍の高速化を達成し，生成品質を維持しつつ推論を大幅に高速化した。
Link: https://arxiv.org/abs/2605.26632
JetViT：ポストトレーニング注意探索による効率的な高解像度Vision Transformer [cs.CV, cs.AI]目的：高解像度画像における推論効率の向上
- 画像認識の分野では，高解像度画像の処理が重要であり，計算コストが課題となる。
- Transformerモデルは高精度だが，高解像度画像では計算負荷が大きく，実用性に課題がある。
- 既存のモデルを効率化し，高解像度画像における推論速度と精度を両立することを目指す。
- JetViTは，既存のVision Transformerモデルと同等の精度を維持しつつ，推論効率を大幅に向上させる。
- ポストトレーニング注意探索により，冗長なfull-attentionブロックを効率的なブロックに置き換える。
- NVIDIA H100 GPU上で，JetViTは最大1.79倍のスループットと最大44.81%の低レイテンシを実現した。
Link: https://arxiv.org/abs/2605.26636
対数成長制御のための方策勾配法のサンプル複雑性 [cs.RO, cs.RO, eess.SY, cs.LG, cs.SY, math.OC, stat.ML]目的：対数成長制御における方策勾配法のサンプル複雑性
- 制御理論において，システムの安定化は重要な課題であり，特にノイズ環境下での安定化は困難を伴う。
- 従来の最適化手法は，特異点における勾配の存在や分散の問題により，対数成長制御には適用が難しい。
- 本研究は，特異点における勾配推定の工夫により，サンプル複雑性を解析的に評価し，効率的な学習アルゴリズムを確立することを目指す。
- 提案手法では，観測値と原点を通る対称な点のペアを用いることで，勾配推定量の分散とバイアスを制御する。
- ノイズ密度が既知の場合，サンプル複雑性はO(1/η)となり，未知の場合はO(η^{-(2s+1)/(2s)})となることが示された(s≥2)。
- この結果は，ミニバッチ方策勾配法が初期化されたコンパクトな安定領域から，効率的に最適解に収束することを示唆する。
Link: https://arxiv.org/abs/2605.26640
UnityMAS-O：LLMベースマルチエージェントシステムのための汎用RL最適化フレームワーク [cs.PF, cs.CL, cs.AI, cs.CL, cs.MA]目的：LLMベースのマルチエージェントシステムの最適化
- 複雑なタスクを解決するため，LLMを活用したマルチエージェントシステムの研究が活発に行われている。
- 既存の手法では，プロンプトやルールに依存しており，統一的なRLインターフェースによる最適化が困難である。
- 多様なLLMベースのマルチエージェントワークフローを訓練可能なRLシステムへと変換する基盤を提供すること。
- UnityMAS-Oは，ワークフロー全体を最適化の単位として扱うことで，従来の単一ポリシー最適化の課題を克服する。
- Retrieval-augmented QA，反復的なエージェント探索，リフレクティブなコード生成などのタスクにおいて，RLによる最適化が手動で定義されたワークフローを改善した。
- 特に，小規模モデルや厳密なコードテストにおいて，大きな改善が見られた。
Link: https://arxiv.org/abs/2605.26646
より表現力の高いフィードフォワード層：第1部。活性化関数のトークン適応的混合 [cs.LG, cs.AI, stat.ML]目的：トークンに応じた活性化関数の混合によるフィードフォワード層の設計
- TransformerベースのLLMにおいて，フィードフォワード層はパラメータ数と非線形表現力の大部分を占める。
- 既存のFFN設計では，全てのトークンに同じ非線形変換を適用する固定された活性化関数が用いられることが多い。
- トークン適応的な活性化関数の混合により，FFNの表現力を向上させることを目指す。
- MoAは，軽量な入力依存ゲートを用いて活性化関数の辞書を混合する，トークン適応的なFFN設計である。
- 理論的に，MoAは学習可能な活性化（LA）を厳密に含み，LAは固定活性化FFNを厳密に含むことが示された。
- 実験的に，MoAは様々な条件下で，ベースラインと比較してより低い終端損失と良好なスケーリング動作を示した。
Link: https://arxiv.org/abs/2605.26647
ゼロ和マルコフゲームの鞍点における二重最適化 [cs.LG, cs.AI, math.OC, stat.ML]目的：ゼロ和マルコフゲームの鞍点を通じた二重最適化問題
- 強化学習は階層構造を持ち，モデルパラメータの選択と意思決定の応答を含むため，幅広い応用が期待される。
- 従来の二重最適化強化学習は単一ポリシーのMDPを仮定しており，インセンティブ設計などの競争的状況に対応できない。
- 本研究は，複数のポリシーが相互作用するゼロ和マルコフゲームを扱う二重最適化問題の解決を目指す。
- 提案手法PANDAは，Nikaido-Isoda関数に基づくペナルティ付加型勾配法であり，上位層のハイパー勾配計算を回避する。
- PANDAは，目的関数の凸性に関わらず，停留点へ収束することが証明された。
- PANDAは，$\epsilon$-停留点へ$\tilde{\mathcal{O}}(\epsilon^{-1})$反復で到達し，サンプル複雑度は$\tilde{\mathcal{O}}(\epsilon^{-3})$である。
Link: https://arxiv.org/abs/2605.26654
プロンプト最適化が機能する理由と，そうでない理由：因果関係に着想を得た編集レベル分析 [cs.CL, cs.LG, cs.NE]目的：プロンプト最適化における編集パターンとタスク特性の相互作用
- 大規模言語モデルの性能向上は重要であり，プロンプト最適化はその有効な手法の一つである。
- 最適化されたプロンプトの汎化性能が課題であり，タスクやモデルによって効果が変動する。
- プロンプト最適化の失敗要因を特定し，タスク特性に応じた最適化手法の開発に貢献する。
- 複雑さを増す編集やメタ指示は，数学的・多段階推論の性能を低下させる傾向がある。
- 段階的な指示やメタ認知的な編集は，論理的・逐次推論タスクの性能を向上させる。
- これらの効果は，認知負荷やテキスト特徴，編集モチーフ分析を通して検証され，最適化手法間でも一般化可能である。
Link: https://arxiv.org/abs/2605.26655
完結性対最適性：長期的累積ダメージ問題における方策勾配法 [cs.AI]目的：長期的累積ダメージ問題における方策勾配法の失敗モードとその改善策
- 長期的な意思決定問題は現実世界の多くのタスクに応用可能であり，その解決は重要である。
- 累積ダメージ問題では，局所的に魅力的な行動が，全体として有害な結果につながる可能性がある。
- 方策勾配法の完結性と最適性の問題を分離し，その改善策を提案すること。
- 方策勾配法において，完結性（終端ホライズンへの到達）と最適性（終端制約下での動的計画法との一致）の二つの失敗モードを特定した。
- PPOと線形ソフトペナルティを用いた場合，ホライズンアクセスのみでは完結率が低下し，行動空間の制限と組み合わせることで完結性は向上する。
- しかし，最適性のギャップが残存し，それは初期段階の貪欲なコミットメントに起因することが示された。
Link: https://arxiv.org/abs/2605.26657
WINDQuant：重みに基づくニューラル意思決定によるグローバル混合精度LLM量子化 [cs.LG]目的：大規模言語モデルの量子化における，グローバルな記憶容量制約下でのビット幅と量子化手法の割り当て
- 大規模言語モデルの利用拡大には，メモリ使用量と推論コストの削減が不可欠である。
- 極めて低ビットでの量子化では，精度劣化が深刻であり，量子化対応訓練はコストがかかる。
- 重み行列内の微細な変動を考慮した，適応的な混合精度量子化手法の確立を目指す。
- WINDQuantは，強化学習を用いて列チャンク単位でビット幅を柔軟に割り当てる。
- LLaMAモデル実験で，再訓練不要で競争力のある性能と最適化オーバーヘッドの削減を実現した。
- 適応的な混合精度量子化の制御において，強化学習の有効性を示唆する。
Link: https://arxiv.org/abs/2605.26660
事前学習済み視覚言語モデルを用いた，事後分布外検出における様相差の尊重 [cs.CV, cs.AI]目的：分布外検出の信頼性向上
- 機械学習モデルの信頼性確保が重要であり，未知の入力に対する検出が求められている
- 既存手法では，テキスト埋め込みをクラスのプロトタイプとして用いるが，視覚的プロトタイプとのずれが生じている
- 事前学習済みモデルの予測とテストデータを用いて，視覚特徴空間でクラスプロトタイプを学習することで，様相差を解消する
- 提案手法は，オンライン疑似教師あり学習フレームワークにより，分布外検出における最先端の性能を達成した
- 理論的保証により，オンライン最適化手続きの収束性が確認されている
- テキストをプロトタイプとする既存手法の課題である，視覚的プロトタイプとのずれを解消する
Link: https://arxiv.org/abs/2605.26661
AI評価は認識に偏りを生じさせる可能性：学術論文解釈における文脈の重要性 [cs.CL, cs.AI, econ.GN, q-fin.EC]目的：学術論文におけるAI利用状況の評価方法の偏り
- 学術研究の信頼性確保は重要であり，AI利用状況の正確な把握が不可欠である。
- AI検出器は，分野や国による文体差を無視すると，誤った判定を生む可能性がある。
- 国・分野ごとの文脈を考慮した評価基準を構築し，より正確なAI利用状況の把握を目指す。
- 全体的な基準を用いると，AI利用状況の評価に大きな歪みが生じることが示された。
- 国・分野固有の基準を用いることで，そのような歪みを軽減し，より信頼性の高い評価が可能となる。
- 2025年の論文分析では，全体基準が特定の国・分野でAI利用を過大評価，あるいは過小評価することが明らかになった。
Link: https://arxiv.org/abs/2605.26662
MemFail：LLMメモリシステムの故障モードのストレステスト [cs.AI, cs.LG]目的：LLMメモリシステムの故障モードの特定
- LLMエージェントの長期的な対話における一貫性を保つ上で，外部メモリシステムが重要になっている。
- 既存の評価基準は集約的な質疑応答精度のみを報告し，メモリシステムをブラックボックスとして扱っている。
- メモリシステムの各操作における故障モードを分離し，アーキテクチャの違いによるトレードオフを理解すること。
- MemFailは，要約，保存，検索という3つの主要な操作における故障モードを分離するための診断ベンチマークである。
- 5つのデータセットを用いて4つの最先端メモリシステムを評価し，故障モードを明らかにできた。
- メモリシステムアーキテクチャの違いがもたらすトレードオフを経験的に理解するためのツールとなりうる。
Link: https://arxiv.org/abs/2605.26667
迷宮と糸：大規模言語モデルにおける逐次知識編集の正則化の再考 [cs.CL, cs.AI]目的：大規模言語モデルにおける効果的かつ安定した逐次知識編集のメカニズム
- 大規模言語モデルの知識更新は重要であり，継続的な学習を必要としない方法が求められている。
- 既存の知識編集手法は複雑な正則化に依存しており，その必要性が不明確である。
- 逐次編集における安定性の源泉を解明し，不要な正則化を排除すること。
- AlphaEditの成功を分析した結果，一度だけの編集と逐次編集の形式的な同等性が明らかになった。
- この洞察に基づき，編集制約の累積を適切に考慮することで安定性が自然に得られることが示された。
- 一般的な正則化戦略の多くは，信頼性の高い逐次更新には不必要であることが実証された。
Link: https://arxiv.org/abs/2605.26670
6Gネットワークスライシングにおけるリアルタイム攻撃フォレンジックのための確証的因果帰属 [cs.CL, cs.CR, cs.AI]目的：6Gネットワークにおけるクロススライス攻撃帰属の実現
- 6Gネットワークでは，多様なサービスをスライスとして提供するため，スライス間攻撃の特定が重要となる。
- 共有インフラにおけるリソース競合が，因果関係の誤認を招き，正確な攻撃帰属を困難にしている。
- リソース競合の影響を除去し，厳格なSLAを満たしつつ，正確な攻撃帰属を可能にすることを目指す。
- 提案手法DA-GCは，リソース条件付きGranger因果性およびリソース競合モデル（RCM）を統合し，リソース媒介の交絡を系統的に排除する。
- 15スライス構成の6Gテストベッドにおいて，1,100の攻撃シナリオで89.2%の帰属精度を87msで達成した。
- 既存手法と比較して，精度が7.9%向上し，レイテンシが2.7倍低減され，安全性とプライバシーも保証された。
Link: https://arxiv.org/abs/2605.26679
DynFrame：動的フレーム拡張を用いた適応的推論駆動型マルチモーダルフレームワーク [cs.CV, cs.AI]目的：複雑な動画理解のための，動的フレーム拡張を伴う適応的推論駆動型マルチモーダルフレームワークの開発
- 動画理解は，AI分野において重要な課題であり，多様な応用が期待されている。
- 既存の動画理解システムでは，フレームサンプリング密度が固定されており，効率的な情報取得が困難である。
- 本研究は，学習可能なフレームサンプリング密度を用いて，効率的かつ高精度な動画理解を実現することを目指す。
- 提案手法DynFrameは，動画内のどの部分をどの程度の密度でサンプリングするかを学習可能にすることで，一度の検索ステップで多粒度な証拠を獲得する。
- DynFrameは，DM-CoT-74kおよびDM-RL-45kデータセットで学習し，NExT-GQAなど6つのベンチマークで，強力な7B-8Bベースラインに匹敵する性能を示した。
- DynFrame-8Bは，多くの指標において最先端の性能を達成し，動画理解の新たな可能性を拓く。
Link: https://arxiv.org/abs/2605.26680
言語モデルにおけるクロスリンガル汎化のin-vitro研究 [cs.CL, cs.AI]目的：言語モデルにおけるクロスリンガル汎化のメカニズム
- 自然言語処理において，多言語対応は重要な課題であり，グローバルな情報アクセスやコミュニケーションを促進する。
- 自然なコーパスでは，語彙の重複，形態，データ不均衡，トークン化が複雑に絡み合い，クロスリンガル転移を分析しにくい。
- 本研究は，制御された環境下でクロスリンガル転移のメカニズムを解明し，言語モデルの汎化能力向上を目指す。
- 実験の結果，クロスリンガル転移は，トークナイザーのバランスや語彙の類似性よりも，トークン化がクロスリンガル共通の構造を保持するかどうかによって左右されることが明らかになった。
- 語彙を小さくすることで，単語が共有された断片に分解されやすくなり，マスクされた言語への転移が向上する傾向が示された。
- 文法や型レベルの能力が先に獲得され，その後マスクされた語彙の汎化が起こるという段階的なプロセスが観察された。
Link: https://arxiv.org/abs/2605.26683
軌跡レベルを超えた帰属：エージェント的強化学習のためのグラフに基づくクレジット割り当て [cs.LG, cs.AI]目的：エージェント的強化学習におけるクレジット割り当て手法
- 大規模言語モデルの性能向上に貢献する群学習の重要性が高まっている。
- 従来のクレジット割り当ては粗粒度であり，個々のステップの貢献度を捉えにくい。
- ステップレベルでのより正確なクレジット割り当てを実現し，学習効率を改善すること。
- 提案手法GraphGPOは，ロールアウト軌跡を統合的な状態遷移グラフに集約する。
- グラフにエンコードされたグローバル情報を用いて，各状態からタスク目標までの距離を推定する。
- 遷移がタスク目標への距離をどれだけ減少させるかを評価することで，グラフに基づくアドバンテージを推定し，クレジットを割り当てる。
Link: https://arxiv.org/abs/2605.26684
進化データ理論：データ問題と進化ゲームの類似性について [cs.NE]目的：データ問題と進化ゲームの類似性
- データ解析の効率化は，科学技術の発展に不可欠である。
- 既存の手法では，高次元データや複雑な関係性の解析が困難である。
- 進化ゲーム理論を応用し，データ解析の新たな枠組みを構築する。
- データを進化する個体とみなし，遺伝的適応度と進化戦略に基づいたゲームを展開する。
- どのようなデータに対しても，特徴量が永続する唯一の安定点に収束することが証明された。
- 多目的最適化や分布問題への応用例を示すことで，理論の普遍性を示唆する。
Link: https://arxiv.org/abs/2605.26685
オラクル予算下におけるタンパク質設計のための生物学的に誘導された探索による自己改善模倣 [cs.LG, cs.AI, q-bio.QM]目的：タンパク質設計における，限られたオラクル予算下での配列最適化
- タンパク質設計は，創薬やバイオテクノロジーにおいて重要な役割を果たす。高性能なタンパク質の開発が求められている。
- 既存手法は，サロゲートノイズに弱く，機能的に重要な残基を破壊するリスクがある。効率的な探索が課題となっている。
- 限られた評価回数で，機能的に重要な改変を効率的に探索し，タンパク質の性能を向上させることを目指す。
- SILOは，既存の8つのタンパク質適合度ランドスケープにおいて，最高およびトップ100の平均適合度を8/8のランドスケープで達成した。
- 低データおよびノイズの多いプロキシストレス下でも，SILOは競合他社と同等または最高の性能を維持し，他のベースラインの劣化を防いだ。
- 逐次的な模倣とアラニン走査の組み合わせが性能向上に大きく貢献することが示された。
Link: https://arxiv.org/abs/2605.26690
医療エージェントにおけるツール故障への対処：相乗効果的なツール活用による性能向上 [cs.AI]目的：医療AIにおけるツール故障時の改善
- 医療AIの発展には，診断や治療提案を支援する外部ツールの活用が不可欠である。
- 既存研究ではツールの信頼性が前提だが，臨床現場ではツールが誤った結果を出す可能性がある。
- 個々のツールの失敗を検出し，複数のツール間の相乗効果で改善を図る。
- 提案手法は，確率的リスク最小化と不一致を考慮した相乗効果学習によって，インスタンスレベルでのツール選択を実現した。
- エントロピーに基づくサンプリング戦略により，意見の相違が大きいインスタンスを重視し，学習信号を強化した。
- 2つのタスクと7つの医療ベンチマークにおいて，提案手法は既存手法と比較して安定した性能向上を示した。
Link: https://arxiv.org/abs/2605.26691
損失地形におけるモデルマージ：幾何学的視点 [cs.LG, cs.AI, stat.ML]目的：モデルマージの幾何学的解釈
- 深層学習モデルの知識統合や並行開発が重要視されているため。
- 既存手法では，損失地形の幾何学を無視するか，ヘッセ行列の近似が困難である。
- 損失地形の幾何学に基づく効率的なモデルマージ手法を開発する。
- EpiMerは，リーマン多様体上のFréchet平均問題としてモデルマージを定式化する。
- 局所的な曲率とパラメータの認識的不確実性の間に繋がりがあることを示した。
- CLIP-ViTモデルを用いた実験で，既存手法を上回る性能を実証した。
Link: https://arxiv.org/abs/2605.26693
第三次SO(3)表現の結合による回転不変球面ウォーターマーキング [cs.CV, cs.AI, cs.CR, cs.LG]目的：全天球画像に対する信頼性の高いウォーターマーク埋め込み
- 全天球画像は広く利用され，その保護が重要となっている。
- 従来のウォーターマーク技術は，全天球画像の回転に対する脆弱性が課題である。
- SO(3)群の表現論に基づき，回転不変な特徴量を構築し，ウォーターマークの信頼性を高める。
- 本研究では，テンソル積を用いて高次のSO(3)既約表現を結合し，回転不変な二分光スペクトルを導出した。
- これにより，位相情報を保持しつつ，任意の3D回転に対して厳密に不変なウォーターマーク埋め込みが可能となった。
- 理論的証明と実験結果から，提案手法が連続的な回転に対して高いロバスト性を示すことが確認された。
Link: https://arxiv.org/abs/2605.26702
SL-BiLEM：政策評価と予測のための構造化された学習型行動ループ感染症モデリング [cs.LG, cs.AI]目的：感染症予測における人間の行動変化を考慮した，ロバストな予測モデルの構築
- 感染症の拡大は社会に深刻な影響を及ぼすため，正確な予測と効果的な政策立案が不可欠である。
- 人間の行動は感染症の広がりに応じて変化するため，既存のデータ駆動型モデルは予測精度が低下しやすい。
- 政策介入時の分布シフトに対処し，信頼性の高い予測と政策評価を実現するモデルを開発する。
- SL-BiLEMは，物理的制約を導入することで，予測のロバスト性を向上させている。
- 実世界のデータを用いた検証で，ニューラルメカニスティックベースラインと比較して予測精度が76％向上した。
- 政策変更による分布シフト下で，従来のニューラルベースラインよりも大幅な性能劣化を抑制することを示した。
Link: https://arxiv.org/abs/2605.26704
充足ギャップの形式化の必要性：系列モデルにおける混合識別可能性と文脈的根拠付けの数学的拡張 [cs.RO, cs.CL, cs.LG]目的：系列モデルにおける充足ギャップの形式化
- 系列モデルの信頼性向上は，自然言語処理の重要な課題である。
- 隠れた状態による不確実性の影響を考慮したモデル設計が不足している。
- 外部からの情報を用いて充足ギャップを軽減するメカニズムを解明する。
- テキストのみの情報では誤った潜在状態に過信する可能性が示された。
- 外部からの信号によるベイズ更新が，この過信を修正する閾値を導き出す。
- 完全なギャップ解消には，潜在状態の完全な開示，または検証機構が必要である。
Link: https://arxiv.org/abs/2605.26711
画像特徴融合に基づく連合クライアント記憶消去 (FCU) [cs.LG]目的：画像特徴融合による連合学習における記憶消去の効率と汎化性能の向上
- データ保護規制の強化に伴い，個人のデータ削除要求への対応が重要となっている。
- 従来の記憶消去技術では，目的とする情報の削除と同時に有用な知識も失われ，汎化性能が低下する。
- 記憶消去時の知識喪失を最小限に抑え，モデルの汎化性能を維持することを目的とする。
- 提案手法IFF-FCUは，Mixupを用いた特徴融合により，忘却分布と保持分布のギャップを埋めることで，記憶消去効果と汎化性能のバランスを改善する。
- RSNA-ICHおよびISIC2018の医療画像データセットを用いた実験により，既存手法と比較して優れた記憶消去性能が確認された。
- 特にICHデータセットにおいて，再学習によるゴールドスタンダードからの誤差逸脱が低く，頑健な性能向上が示された。
Link: https://arxiv.org/abs/2605.26715
L2Rec：パーソナライズされた推薦のためのLLM二面理解に向けて [cs.IR, cs.AI]目的：大規模言語モデルのパーソナライズされた推薦への適応
- 推薦システムの精度向上は，情報過多の現代において重要な課題である。
- 既存手法では，行動データと意味データの統合が不十分であり，性能限界がある。
- LLMのパラメータレベルでの理解を統一し，高精度な推薦を実現する。
- L2Recは，行動データと意味データの両面からLLMを適応させる新しいメカニズムである。
- Dual-view Personalized Mixture-of-Experts (DPMoE)により，ユーザーごとに異なる適応を効率的に行う。
- 実験結果から，既存の最先端手法を上回り，オンラインA/Bテストでも効果が確認された。
Link: https://arxiv.org/abs/2605.26717
MTL-FNO：疎な場再構成のための軽量マルチタスクフーリエニューラル演算子 [cs.LG]目的：疎な場再構成における，軽量なマルチタスクフーリエニューラル演算子の提案
- 航空宇宙車両の自律運用には，効率的なオンボードでの多場疎な再構成が不可欠である。
- 既存の深層学習モデルは単一の場再構成に有効だが，複数モデルはサイズ増大を招き，場間の相関利用が困難である。
- 本研究は，限られたデータ条件下でモデルサイズを削減し，場間の相関を活用した再構成を目指す。
- MTL-FNOは，標準的なFNOと同等かそれ以上の精度を達成しつつ，モデルサイズを最大76%，60%削減する。
- ハードパラメータ共有に基づき，共通特徴とタスク固有の特徴を同時に捉えるエンドツーエンドの共同学習フレームワークを提案する。
- スペクトル重みを極形式で捉え直し，物理的に意味のあるデカップリングされた最適化手法を考案した。
Link: https://arxiv.org/abs/2605.26718
CUDAカーネル生成における自己進化型LLMエージェントのためのフィードバックに基づく計画決定 [cs.AI]目的：CUDAカーネル生成における自己進化型LLMエージェントの計画決定メカニズムの解明
- 近年，LLMを自己進化エージェントとして活用する研究が進んでおり，その性能向上に期待が寄せられている。
- フィードバックに基づいた計画生成において，各フィードバック信号がどのように影響し合っているか不明確である。
- 計画決定におけるフィードバックの役割を分析し，効果的な計画生成の構造を明らかにすること。
- 計画は，フィードバックが整合性のある場合にのみ有益であることが示された。
- 効果的な計画は，構造化された多岐にわたるフィードバックの相互作用から生まれることが明らかになった。
- より高度な推論モデルからの高レベルな計画は，より弱いモデルへ部分的に転移可能であることが示された。
Link: https://arxiv.org/abs/2605.26720
LLMエージェントの能力段階におけるハーネスの感度：単調性はない [cs.CL, cs.AI, cs.CL]目的：LLMエージェントの能力段階と最適なハーネスの複雑さの関係性
- LLMエージェントの信頼性は重要であり，より構造化されたハーネスが信頼性向上に寄与すると考えられている。
- モデルの能力が高いほど，構造的なガイダンスは不要という仮説があるが，検証されていない。
- モデルの種類に応じた最適なハーネスの選択基準を明確にすること。
- 高性能なチャットモデル(Gemini 2.5 Flash)では，ハーネスの厳格化によりVTSRが低下し，複雑さと信頼性の逆相関関係が示された。
- 高性能な推論モデル(Qwen3.5-122B)では，厳格なハーネスが最高のVTSRと最小の遅延時間を実現し，従来の予測とは逆の結果となった。
- 失敗分類の結果，高性能モデルはフォーマット違反，低性能モデルはファイル操作ミスが主な原因であることが明らかになった。
Link: https://arxiv.org/abs/2605.26731
APEX：振幅アンカーと位相事前知識を用いた，ターゲット不足の高周波波予測 [cs.LG]目的：ターゲット不足下における高周波波場の予測
- 波場予測は科学技術計算の根幹であり，シミュレーションの効率化に不可欠である。
- 高周波波のシミュレーションは計算コストが高く，十分な学習データを得ることが困難である。
- 周波数間の非対称性を考慮し，低周波の振幅構造を再利用することで高周波予測の精度向上を目指す。
- APEXは，低周波予測から得られた振幅を構造的アンカーとして利用し，位相事前知識に基づいて高周波波場を再構成する。
- SimpleWave，Helmholtz，Maxwellのベンチマーク実験で，APEXは既存手法と比較して優れた性能を示した。
- 高周波波予測には，全体の複素場を直接転移するのではなく，粗い構造の再利用と振動の詳細な復元が重要であることが示唆された。
Link: https://arxiv.org/abs/2605.26732
ループ言語モデルにおけるテスト時スケーラブルな潜在的推論のための再帰的ダイナミクスの安定化 [cs.LG, cs.AI]目的：テスト時スケーラブルな潜在的推論
- 言語モデルの推論能力向上は，より複雑なタスクへの応用を可能にするため重要である。
- 既存のループ言語モデルは，再帰的深さが深くなるにつれて性能が低下するという課題がある。
- 再帰的深さが深くなっても性能を維持し，安定性を確保することを目指す。
- 提案手法STARSは，潜在状態を漸近的に安定な固定点に近づけることで，テスト時のスケーラビリティを向上させる。
- 算術タスクにおける実験により，STARSは安定したテスト時スケーリングを実現することが示された。
- 複雑な数学的推論において，STARSは性能劣化を大幅に軽減し，ピーク性能も向上させる。
Link: https://arxiv.org/abs/2605.26733
ロボット-患者間および医師-患者間の医療対話データセット：音声言語処理タスク向け [cs.AI]目的：医療AIの訓練と評価のための音声データセット
- 近年，AIの医療応用が期待される中，特に自然な対話能力が重要視されている。
- 既存の言語モデルは，医療分野の専門的な対話データが不足しているという課題がある。
- 現実的な環境で収集された医療対話データセットを提供し，AIの性能評価を可能にすること。
- MeDial-Speechは，111時間以上の音声データを含む，ロボット-患者および医師-患者間の対話データセットである。
- ベンチマーク実験の結果，Claude Sonnet 4が最も高い正答率（74.7%）を示した。
- 全てのLLMは，医療対話において確率的予測で過信傾向にあることが示唆された。
Link: https://arxiv.org/abs/2605.26747
Cordon-MAS：情報フロー制御による知識汚染に対するRAGの防御 [cs.CR, cs.AI]目的：RAGにおける知識汚染への防御策
- RAGは重要な応用分野で利用が増加しており，その信頼性確保が不可欠である。
- RAGは，悪意のある文書による知識汚染攻撃に対して脆弱であるという問題がある。
- 本研究では，情報フロー制御によりRAGの知識汚染を防ぐことを目指す。
- 既存の防御策は，汚染された証拠の検出が有害性を防ぐと仮定するが，本研究でその仮定が誤りであることが示された。
- Cordon Principleに基づき，信頼できない情報へのアクセスを制限するフレームワーク「CORDON-MAS」を提案した。
- 実験結果から，CORDON-MASは攻撃成功率を92.4%削減し，RAGの知識汚染防御に有効であることが示された。
Link: https://arxiv.org/abs/2605.26754
拡散モデルにおける記憶領域の局所化：座標ごとの曲率差分による手法 [cs.CL, cs.LG]目的：拡散モデルにおける記憶の局所化
- 拡散モデルは生成能力が高いが，学習データ記憶のリスクがあり，プライバシーや著作権侵害の懸念が生じる。
- 既存手法では記憶の検出は可能だが，画像内のどこに記憶が現れているかの特定が困難であった。
- 座標ごとの曲率差分を利用し，過学習による記憶の局所化と検出を目指す。
- 座標ごとの分散崩壊を記憶の幾何学的特徴付けとし，過学習由来の記憶を分離する曲率差分法を提案した。
- 提案手法は，アンダーフィッティングなベースラインモデルの曲率を差し引くことで，過学習に起因する記憶を特定する。
- Stable Diffusionを用いた実験で，既存の注意基盤局所化手法よりも高い性能を示した。
Link: https://arxiv.org/abs/2605.26756
文脈条件付きおよび因果性拡張事前学習による時系列因果探索 [cs.LG]目的：時系列データからの因果関係の発見
- 異常の根本原因特定など，現実世界の様々な応用において，時系列からの因果関係の解明は不可欠である。
- 既存手法はデータセット固有の最適化に依存するため，多様な因果メカニズムを持つ新たな時系列への応用が困難である。
- PTCDは，文脈条件付きモデリングと転移可能な因果性拡張により，タスク間の汎化性能を向上させることを目指す。
- 提案手法PTCDは，窓レベルでの因果関係を捉える二重スケール反復注意機構と，異質な外生分布を扱う文脈レベルルーティングメカニズムを採用している。
- PTCDは，介入学習と因果混合戦略を統合した合成データセットでの事前学習パラダイムを採用し，安定した因果関係の発見と強力な汎化を促進する。
- 複数の現実世界の分布外（OOD）データセットにおける実験により，PTCDが因果探索と根本原因の特定の両方において優れた性能を発揮することが示された。
Link: https://arxiv.org/abs/2605.26759