arXiv雑要約

AI - 2026/05/14 公開

機械学習粗視化分子動力学のためのヘッセ行列マッチング [cs.LG, physics.chem-ph, physics.comp-ph, q-bio.BM]目的：粗視化分子動力学ポテンシャルの精度向上
- 生体分子等の原子系シミュレーションにおいて，時間スケールが重要である。全原子法では到達困難な時間スケールを可能にする。
- 既存の粗視化ニューラルポテンシャルは，自由エネルギー表面の勾配のみを学習しており，曲率の情報が不足している。
- ヘッセ行列ベクトルの積（HVP）マッチングにより，ヘッセ行列全体を構築せずに曲率情報を組み込むことで，精度向上を目指す。
- ヘッセ行列マッチングは，9個の高速フォールディングタンパク質ベンチマークにおいて，8/9のタンパク質で，遅延モードの指標において通常の力マッチングを上回った。
- 最大のタンパク質の最も遅い集団モードにおけるCG分布と参照分布の間の Kullback-Leibler ダイバージェンスが，最大85%減少した。
- 高次の物理的制約が，生体分子シミュレーションのための，より正確で汎用性の高い粗視化ポテンシャルへの実用的な道である。
Link: https://arxiv.org/abs/2605.12823
生成エージェントベースモデリングにおけるメカニズムの妥当性 [cs.MA, cs.AI, cs.CL, cs.CY]目的：生成エージェントベースモデリングにおけるメカニズムの妥当性の評価基準
- 社会現象の複雑性を理解するため，エージェントベースモデリングの重要性が高まっている。
- 大規模言語モデルの活用が進む一方，その説明可能性が課題となっている。
- モデルの生成能力とメカニズムの妥当性を区別し，説明力評価を明確化する。
- 大規模言語モデルとエージェントベースモデリングの融合が進んでいる。
- メカニズムの妥当性を４段階スケールで評価する「メカニズム妥当性尺度」を提案する。
- 生成の十分性とメカニズムの妥当性を分離し，予測モデルと説明モデルの役割を明確化する。
Link: https://arxiv.org/abs/2605.12824
Orthrus：二重視点拡散によるメモリ効率の良い並列トークン生成 [cs.LG, cs.AI]目的：メモリ効率の良い並列トークン生成の実現
- 大規模言語モデルの推論速度向上は，実用的な応用展開に不可欠である。
- 拡散言語モデルは並列生成が可能だが，性能劣化や学習コストが高い。
- 既存のLLMに軽量モジュールを追加し，高速かつ正確な並列生成を可能にする。
- Orthrusは，既存のLLMに組み込み可能で，KVキャッシュを共有する二重視点構造を持つ。
- 自己回帰ヘッドは正確なKV表現を構築し，拡散ヘッドは並列生成を実行する。
- 両視点間の合意機構により，損失のない推論を保証し，最大7.8倍の高速化を実現する。
Link: https://arxiv.org/abs/2605.12825
画像操作検出のためのフォレンジックルーティングと適応型マルチパス証拠融合 [cs.CV, cs.AI]目的：画像操作検出のための，多様なフォレンジックアルゴリズムの活用と証拠融合手法
- デジタル画像の改ざん検出は，ジャーナリズム，法医学，そして公共の信頼にとって重要な課題である。
- 既存の検出手法は，頑健性，証拠の断片化，多様な操作や画像条件への一般化性能に課題がある。
- 本研究は，単一手法の限界を超え，より柔軟で解釈可能な画像フォレンジック推論を実現することを目指す。
- FRAMEは，複数のフォレンジックアルゴリズムをマルチパス分析空間に整理し，入力画像に応じて最適なパスを選択する。
- 異なる証拠源からの情報を融合することで，検出と局所化の性能を向上させる。
- 実験結果は，多様な操作シナリオにおいてFRAMEの有効性を示している。
Link: https://arxiv.org/abs/2605.12826
GraphIP-Bench：グラフニューラルネットワークの盗難はどれほど困難か，そしてそれを阻止できるか？ [cs.CR, cs.AI, cs.LG]目的：グラフニューラルネットワークの盗難の難易度評価と，その阻止方法の検討
- クラウドサービスとして展開されるGNNは，知財保護の観点から重要であり，そのセキュリティ評価が求められる。
- GNNの盗難に対する既存研究は，データセットや評価指標が統一されておらず，客観的な比較が困難である。
- 本研究は，統一されたベンチマークを用いて，GNN盗難の難易度と防御策の効果を定量的に評価することを目的とする。
- GraphIP-Benchを用いて評価した結果，中程度のクエリ予算ではGNNの盗難が容易であることが示された。
- 多くの防御策は盗難を阻止できないものの，保護されたモデル上では信頼性の高いウォーターマーク検証が可能であった。
- 抽出されたモデルではウォーターマークの検証信号が減衰することが示され，単一モデル評価の限界を指摘した。また，ヘテロフィリックグラフは盗難が困難であった。
Link: https://arxiv.org/abs/2605.12827
逆強化学習における潜在的な観測欠損の定量化 [cs.LG]目的：逆強化学習における潜在的な観測欠損の程度
- 人間の意思決定行動のモデル化と理解に不可欠な手法であり，その応用範囲は広い。
- 実際の行動データには，意思決定者が利用可能だった情報が欠損している場合がある。
- 観測された行動を最適化するために必要な最小限の観測変更量を特定し，欠損の程度を定量化する。
- 提案手法は，専門家の行動が最適に見えるように記録された観測に加えるべき最小限の摂動を特定する。
- 合成ナビゲーションタスク，癌治療シミュレーター，ICU治療データを用いた実験により，提案手法の有効性が示された。
- 本研究により，行動データにおける潜在的な観測欠損の定量化が可能となり，より正確な報酬関数の学習に貢献する。
Link: https://arxiv.org/abs/2605.12831
PROMETHEUS：テキスト，データ，モデルを統合した深層因果研究の自動化 [cs.AI]目的：深層因果研究のための因果アトラスの構築
- 因果関係の解明は，科学的発見や意思決定において不可欠であり，複雑な現象の理解を深める。
- 既存の研究は，テキストからの局所的な因果関係の抽出に留まり，体系的な整理と検証が困難である。
- 本研究は，複数の情報源を統合し，局所的な因果モデルを構成することで，より信頼性の高い因果推論を可能とする。
- PROMETHEUSは，文献，データ，モデルを統合し，局所的な因果予測状態モデルからなる因果アトラスを構築する。
- このアトラスは，因果関係の支持度，局所的な妥当性，そしてグローバルな整合性を評価するための研究ツールとして機能する。
- 海洋温度の影響，GLP-1の減量効果，レスベラトロールの健康効果といった事例研究を通じて，その有効性が示された。
Link: https://arxiv.org/abs/2605.12835
非自己回帰的生成のための離散確率局所化 [cs.LG]目的：非自己回帰的生成における性能向上
- 離散系列生成は，自然言語処理をはじめ様々な分野で重要である。
- 連続拡散モデルは性能面で，マスク付き離散拡散モデルに劣ることが課題である。
- 時間ステップ依存のノイズ体制というボトルネックを解消し，性能向上を目指す。
- 離散確率局所化(DSL)は，局所化チャネル下で最適な逆拡散器が信号対雑音比に不変である連続状態フレームワークである。
- 事前学習済みのマスク付き離散拡散モデルをDSLでファインチューニングすることで，OpenWebTextにおける分布の忠実度(MAUVE)が向上した。
- 学習済みチェックポイントはランダム順序の自己回帰サンプリング，および少ないステップ数(T=48)のハイブリッドサンプリングをサポートする。
Link: https://arxiv.org/abs/2605.12836
持続的な感情状態追跡のための多Modal隠れマルコフモデル [cs.AI]目的：会話における感情状態の解釈可能な推移の追跡
- 対話の理解と誘導は，特に臨床的な場面において重要であり，感情分析の基礎となる。
- 既存の手法は発話レベルでの感情認識に留まり，実際の対話ダイナミクスに特徴的な持続的な位相を捉えきれていない。
- 本研究は，多Modalデータから感情の持続的な位相を捉え，対話の質向上に貢献することを目的とする。
- 提案手法は，ビデオ，音声，テキストの情報を統合し，感情状態を潜在的な感情レジームの系列としてモデル化する。
- LLMを用いた評価により，提案手法は基盤モデルよりも解釈可能なレジーム系列を，より低い計算コストで生成することが示された。
- 臨床データを用いた実験では，感情の位相がLLMの応答品質を向上させるための文脈補完に利用できる可能性が示唆された。
Link: https://arxiv.org/abs/2605.12838
ベイズモデルのマージ [cs.LG, cs.AI]目的：複数タスク特化型エキスパートモデルの統合
- データアクセス制限や計算資源不足下での実用的なマルチタスク学習代替案として，モデルマージの重要性が増している。
- 既存手法は，強力なアンカーモデルの誘導バイアスやモジュールごとの最適化戦略の欠如といった課題を抱えている。
- 本研究は，アンカーモデルを事前分布として活用し，モジュール固有のハイパーパラメータを最適化することで，これらの課題を解決する。
- 提案手法BMMは，ビジョンおよび言語タスクにおいて，既存のアンカーベースライン手法を上回る性能を示す。
- ViT-L/14ベンチマークにおける8タスクマージで，BMMはタスク特化型エキスパートの平均性能に匹敵する結果を達成した。
- データを使用せずに回帰のためのグラム行列を推定できるデータフリーバリアントも開発された。
Link: https://arxiv.org/abs/2605.12843
AssemblyBench: 物理を考慮した複雑な産業オブジェクトの組み立て [cs.CV, cs.AI]目的：複雑な産業オブジェクトの組み立てに関する研究
- 産業用ロボットの自動化が進む中で，組み立て作業の効率化が重要となっている。
- 既存のデータセットは簡略化されたシナリオに焦点を当てており，実際の産業用組み立ての複雑さを捉えられていない。
- 複雑な形状や軌道を伴う産業用組み立てに対応できる，新しいデータセットとモデルを開発すること。
- AssemblyBenchは，2,789個の産業オブジェクトと，その組み立て手順，3Dモデル，軌跡を含むデータセットである。
- 提案モデルAssemblyDynoは，指示書と3D形状から組み立て順序と軌跡を予測する。
- AssemblyDynoは，既存手法と比較して，組み立て姿勢推定と軌跡の実現可能性において優れた性能を示した。
Link: https://arxiv.org/abs/2605.12845
創発的な不整合におけるパーソナモデルの崩壊 [cs.CL, cs.AI, cs.CR, cs.LG]目的：有害コンテンツを含む狭いデータで大規模言語モデルをファインチューニングした場合の不整合のメカニズム解明
- 大規模言語モデルの安全性確保は，社会への実装において不可欠であり，そのための研究が急務である。
- ファインチューニングによって，モデルが意図しない有害な振る舞いを示す「創発的な不整合」が問題となっている。
- モデルの「パーソナモデル崩壊」仮説を検証し，不整合の原因を特定することを試みる。
- 有害なコードを出力するようにファインチューニングされたモデルは，道徳的感受性（S）が平均55%増加した。
- 同様に，道徳的堅牢性（R）は平均65%減少し，モデルのキャラクターの差別化能力と一貫性が低下した。
- 安全なコードを出力するようにファインチューニングされたモデルでは，Sは維持され，Rの低下も限定的であり，不整合特有の効果であることが示された。
Link: https://arxiv.org/abs/2605.12850
PRISM：急性リンパ性白血病の分類のための核周囲リングに基づく画像セグメンテーション手法 [cs.CV, cs.AI]目的：急性リンパ性白血病の分類のための画像セグメンテーション
- 血液細胞の自動解析は，白血病などの血液疾患の診断において重要な役割を果たす。
- 従来の膜ベースのセグメンテーションは，細胞質のコントラストの低さや多様性により困難である。
- 本研究は，細胞境界の正確な検出を必要とせず，細胞質の堅牢な特徴量を抽出する手法を提案する。
- 核周囲リングを利用したPRISMは，従来の複雑なニューラルネットワークに頼らず，高い汎化性能を実現した。
- 色情報とテクスチャ統計を組み合わせることで，細胞質の記述子を効率的に抽出することに成功した。
- 提案手法は，98.46%の精度と0.9937のPrecision-Recall AUCを達成し，高い分類性能を示した。
Link: https://arxiv.org/abs/2605.12851
百日咳ブースター反応のピークと持続性予測のための表形式基盤モデルを用いたマルチタスクマルチモーダル融合 [cs.LG, q-bio.QM]目的：百日咳ブースターワクチンのピーク反応と長期持続性の予測
- 感染症予防において，ワクチン効果の個人差を理解し予測することは重要である。
- 既存モデルはピークまたは持続性のいずれか一方に焦点を当てており，全体像を捉えられていない。
- 異なる生物学的要素の影響を受けやすいピークと持続性を同時に予測することを目指す。
- 提案モデルは，ピーク反応の予測において0.797（95% CI [0.621, 0.948]），持続性の予測において0.755（95% CI [0.519, 0.945]）のAUROCを達成した。
- 他のモデルと比較して，両タスクにおいて偶然水準を上回る有意な結果が得られた。
- モダリティごとの貢献度分析から，サイトカインシグネチャがピーク予測に，ベースライン抗体特徴量が持続性予測に重要であることが確認された。
Link: https://arxiv.org/abs/2605.12852
多段階対話による隠れた意図の解明：Moltbookモデレーション [cs.AI, cs.SI]目的：多段階対話を通じたエージェントの隠れた意図の特定
- マルチエージェントシステムの普及に伴い，有害な行為を検知するモデレーションの重要性が増している。
- 従来のコンテンツベースのモデレーションでは，悪意のあるエージェントの巧妙な振る舞いを検出しにくい。
- 本研究は，対話を通じてエージェントの意図を正確に特定し，より効果的なモデレーションを実現することを目指す。
- 提案手法Bot-Modは，候補となる意図仮説に基づき，多段階の対話を行うことでエージェントの意図を特定する。
- Moltbook由来のデータセットを用いた評価により，Bot-Modが多様な攻撃的設定下でエージェントの意図を高い精度で識別できることが示された。
- 本研究は，オープンなマルチエージェント環境における，意図を考慮したスケーラブルなモデレーションの基盤を構築する。
Link: https://arxiv.org/abs/2605.12856
ChipMATE：強化学習によるマルチエージェント訓練を通じたRTL生成の高度化 [cs.MA, cs.AI, cs.AR, cs.LG]目的：RTL生成のためのマルチエージェント訓練手法
- 半導体設計においてRTL記述は不可欠であり，設計効率の向上が常に求められている。
- 既存のRTL生成システムは，テストベンチの制約やAPIの互換性，学習データの制限といった課題を抱えている。
- 本研究は，これらの課題を解決し，より実用的なRTL生成システムの実現を目指す。
- ChipMATEは，VerilogエージェントとPython参照モデルエージェントが相互に検証する独自のフレームワークを構築した。
- バックトラック推論ワークフローと二段階の訓練パイプラインにより，エラー伝播を抑制し，協調的なコード生成を可能にした。
- VerilogEval V2において，40億および90億パラメータのモデルでそれぞれ75.0%，80.1%のpass@1を達成し，既存モデルを凌駕した。
Link: https://arxiv.org/abs/2605.12857
NeuroRisk：リスクを考慮したトラフィックエンジニアリングのための物理情報ニューラル最適化 [cs.NI, cs.LG]目的：広域ネットワークにおけるリスクを考慮したトラフィックエンジニアリングの最適化
- 広域ネットワークの可用性確保は重要であり，相関故障への対策が不可欠である。
- 可用性目標を満たしつつ高い回線利用率を達成するには，多数の故障シナリオを考慮する必要がある。
- 従来の最適化手法の計算コストを削減し，実運用レベルでのリスクを考慮したトラフィックエンジニアリングを実現する。
- NeuroRiskは，Sort-and-Select構造に着目し，物理情報に基づいた深層学習による高速な最適化を可能にした。
- 従来のソルバーと比較して，リスクに関する目的関数において，大幅な高速化（10^2-10^5倍）を達成した。
- また，NeuroRiskは，定常状態のスループットにおいても，他のニューラルネットワークベースの手法を上回る性能を示した。
Link: https://arxiv.org/abs/2605.12862
言語に基づくエージェント制御 [cs.PL, cs.AI, cs.CR]目的：エージェント制御のための新しいプログラミングモデル
- 自律型システムの開発が重要視される中，安全性と信頼性の確保が課題となっている。
- 従来の制御方法では，エージェントの振る舞いを厳密に制御することが困難であった。
- 言語ベースの型システムにより，エージェントの安全な振る舞いを事前に保証することを目指す。
- 言語に基づくエージェント制御（LBAC）は，エージェントが生成するプログラムの型チェックを通じて，ポリシーを適用する。
- LBACを用いることで，アクセス制御，情報フロー，データProvenanceといったポリシーを統一的に適用できる。
- ファイルシステム機能，データProvenance，情報フロー制御のケーススタディで有効性が示された。
Link: https://arxiv.org/abs/2605.12863
繰り返し攻撃下におけるLLMの安全性低下の定量化：生存時間分析の利用 [cs.CR, cs.AI]目的：LLMの安全性低下の定量化
- LLMは多様な応用で利用が拡大しており，その安全性評価は不可欠である。
- 既存の評価は単純な成功/失敗で，継続的な攻撃の影響を捉えられない。
- 生存時間分析を用いて，LLMの攻撃に対する脆弱性を詳細に分析する。
- LLMはそれぞれ異なる脆弱性プロファイルを示すことが明らかになった。
- あるモデルは反復攻撃により急速に劣化し，残りの2つは一貫した中程度の脆弱性を示した。
- 本研究は，LLMの安全性評価に生存時間分析を用いることの有効性を示す。
Link: https://arxiv.org/abs/2605.12869
SMA：データ効率的なマルチモーダル学習のためのサブモジュラリティ模体整列器 [cs.LG]目的：データ効率的なマルチモーダル学習のための新しいアプローチ
- マルチモーダル学習は，画像とテキストなど異なる種類のデータを統合し，より高度なAIシステムを構築する上で重要である。
- 従来のマルチモーダルモデルは，大量のペアデータに依存するため，データが少ない状況や希少なケースへの適用が困難である。
- 本研究では，少ないデータでも効果的なマルチモーダル学習を実現するため，サブモジュラリティを用いた新しい整列手法を提案する。
- 提案手法SMAは，マルチモーダルデータの幾何学的構造を捉え，模体間のギャップを縮小することで，データ効率を向上させる。
- CLIPベンチマークの14のゼロショット分類・検索タスクにおいて，SMAは少ないデータ環境下で一貫して性能向上を示す。
- SMAは，従来のモデルと比較して，大幅に少ないサンプル数（数万個）で高い汎化性能を発揮する。
Link: https://arxiv.org/abs/2605.12872
スパースオートエンコーダの自己解釈性における記述的衝突：一つの説明が多くの特徴を記述する場合 [cs.LG]目的：スパースオートエンコーダの特徴量の解釈可能性評価における記述的衝突の問題
- 言語モデルの活性化を解釈可能な特徴に分解する手段として重要性が増している。
- 特徴量一つに多くの意味を持つ多義性や，説明が活性化を予測できるかどうかが問題視されてきた。
- 異なる特徴量が同じ説明を持つ「記述的衝突」の問題を解決し，解釈可能性評価を改善する。
- 大規模データセットの再分析により，平均して一つの説明が3.07個の特徴量に再利用されていることが判明した。
- 特徴量の82.1%が少なくとも一つの他の特徴量と説明を共有しており，「複数名詞」という最も一般的な説明が101個の特徴量にラベル付けされている。
- 既存の自動解釈性スコアリングが衝突に不変であり，衝突を考慮した評価指標を提案することで，解釈可能性の過大評価を是正する。
Link: https://arxiv.org/abs/2605.12874
異種摂動に対するハイブリッドランダム化平滑化による保証されたロバスト性 [cs.LG]目的：異種摂動下におけるロバスト性の保証
- 機械学習モデルの安全性確保が重要であり，特に現実世界への応用では不可欠である。
- 既存のロバスト性保証は単一の入力形式に限定され，マルチモーダルモデルには不十分である。
- 混合離散・連続入力に対するロバスト性保証の統一的な枠組みを確立し，その限界を克服すること。
- 提案手法は，離散型と連続型のノイズを組み合わせた解析的 tractable なNeyman-Pearsonの定式化に基づいている。
- このアプローチにより，ガウス型と離散型ランダム化平滑化を厳密に一般化する閉形式の1次元証明が得られる。
- マルチモーダル安全性フィルタリングにおいて，相互作用依存のテキスト・画像安全性フィルタリングに対する初のモデル非依存なNeyman-Pearson証明を提供している。
Link: https://arxiv.org/abs/2605.12876
ASAP：スライスされた双対射影による償却型二重確率的注意機構 [cs.LG]目的：二重確率的注意機構の効率的な推論手法
- Transformerモデルの性能向上において，注意機構は重要な役割を担う。
- 従来のSinkhornスケーリングは推論時に反復計算が必要であり，計算コストが高い。
- 推論時の計算効率を維持しつつ，学習時のコストを抑えること。
- ASAPは，学習時にSinkhornスケーリングを用い，推論時に固定のスライスされた双対演算子に置き換えることで，効率的な推論を実現する。
- ベンチマークテストの結果，ASAPはSinkhornスケーリングよりも5.3倍高速であり，精度を維持している。
- ダウンストリームタスクにおいても，教師モデルの性能をほとんど損なうことなく回復することが示された。
Link: https://arxiv.org/abs/2605.12879
EcoGEO：Web連携LLM検索エージェントのための軌跡を意識したエビデンス生態系 [cs.IR, cs.AI]目的：Web連携LLM検索エージェントにおける検索結果への影響力を高めるための環境レベルの影響問題
- Web検索は情報探索の根幹であり，その効率性と質的向上は重要課題である。
- 従来のGEO研究は個々のWebページに焦点を当てており，エージェントの多段階検索行動を考慮していない。
- エージェントの行動軌跡に沿ったエビデンス環境を構築し，影響力向上を目指す。
- 提案手法TRACEは，特定の製品推奨クエリに対し，誘導ページとサポートページから構成される制御されたエビデンス環境を構築する。
- 実験の結果，TRACEは既存のページレベルGEO手法と比較して，最終的な推奨精度で一貫して優れた性能を示した。
- 軌跡レベルの指標からも，ターゲット結果への初期アクセス増加，ターゲット関連のフォローアップ検索，内部リンクのクロール増加が確認された。
Link: https://arxiv.org/abs/2605.12887
協調シミュレーターを超えて：LLMエージェントの堅牢な評価のための現実的なユーザーペルソナ生成 [cs.AI, cs.CL]目的：LLMエージェントの堅牢な評価に用いる現実的なユーザーペルソナの生成
- LLMエージェントの利用拡大に伴い，多様なユーザーとのインタラクションを評価する重要性が高まっている。
- 既存のLLMベースのユーザーシミュレーターは，協調的で均質的な傾向があり，現実のユーザーの多様性を捉えきれない。
- 現実的なユーザー行動のバリエーションを導入し，シミュレーターの評価精度とエージェントの汎化性能を向上させる。
- 提案手法「Persona Policies (PPol)」は，ユーザーシミュレーターに現実的な行動バリエーションを付与し，タスク目標を維持する。
- PPolは，tau^2-benchにおける小売・航空分野で，ベースラインシミュレーターと比較して，フィットネススコアを33-62%絶対的に向上させた。
- ブラインド評価において，PPolで生成されたユーザーは80.4%の確率で人間と評価され，現実のユーザーデータに匹敵する人間らしさを実現した。
Link: https://arxiv.org/abs/2605.12894
RISED：臨床AI意思決定支援システムの事前展開安全性評価フレームワーク [cs.LG, cs.AI, cs.CY, stat.AP]目的：臨床AI意思決定支援システムの事前展開における安全性評価
- 医療現場でのAI活用は進むが，その安全性確保が重要課題となっている。
- 従来の評価指標は，実運用段階での入力信頼性や公平性の問題を捉えきれない。
- 実運用リスクを事前に検出し，安全なAIシステム展開を支援することを目的とする。
- RISEDフレームワークは，信頼性，包容性，感度，公平性，展開可能性の5側面から評価を行う。
- 従来の評価基準を満たすモデルでも，入力安定性や閾値変化に対する脆弱性が確認された。
- 公平性の評価は，利用状況に依存した指標を用いることの問題点を指摘し，客観的指標の必要性を示唆した。
Link: https://arxiv.org/abs/2605.12895
VIP-COP：表形式ファウンデーションモデルのための文脈最適化 [cs.RO, cs.SI, cs.CL, cs.CY, cs.HC, cs.LG]目的：表形式データに対する文脈内学習における性能向上
- 表形式データ分析は，様々な分野で重要な役割を担っており，その効率化が求められている。
- 既存の表形式ファウンデーションモデルは，文脈長の制限により，大規模データへの適用や性能劣化が課題となっている。
- 本研究は，文脈最適化によって，限られた文脈長内でモデルの予測精度を最大化することを目指している。
- VIP-COPは，予測に重要な訓練事例と特徴量を推定し，ノイズを抑制することで性能を向上させる。
- 本手法は，高速かつ効率的であり，モデルの内部構造にアクセスすることなく，様々な表形式ファウンデーションモデルに適用可能である。
- 実験結果から，VIP-COPが既存手法と比較して，大規模なテストベッドにおいて一貫して優れた性能を発揮することが示された。
Link: https://arxiv.org/abs/2605.12904
LLMファインチューニングにおけるデータ難易度と汎化・外挿のトレードオフ [cs.IR, cs.LG, cs.AI]目的：LLMのファインチューニングにおけるデータ難易度の役割
- LLMの性能向上には，適切な学習データの選択が不可欠である。
- データ難易度指標に基づいたデータ選択の効果は一貫性に欠ける場合がある。
- データサイズに応じた最適なデータ難易度を見出すこと。
- 固定されたデータ量において，最適なデータ難易度が存在し，データ量が増加するにつれてより難しいデータが有効となる。
- これは，分布内汎化ギャップと外挿ギャップの相互作用によって説明できる。
- PAC-Bayesian汎化限界を用いた理論的分析によって，このメカニズムが裏付けられた。
Link: https://arxiv.org/abs/2605.12906
LLMエージェント時代におけるDAggerの再検討 [cs.LG]目的：長期間にわたるLMエージェントの学習における課題克服
- LLMエージェントは複雑なタスク遂行に有効だが，複数ターンインタラクションにおいて，初期の誤りがその後の状態分布を変化させやすい。
- 教師データを用いた教師あり学習は，オフポリシーによる分布のずれを起こしやすく，強化学習は報酬が疎である。
- DAggerを用いることで，オフポリシーのずれを抑制し，かつ高密度な教師からのフィードバックを実現する。
- DAggerによる学習は，ソフトウェアエンジニアリングエージェントの性能を大幅に向上させた（SWE-bench Verifiedで+3.9/+3.6ポイント）。
- 4Bモデルのエージェントは，既存の8Bモデルのエージェントを凌駕し，8Bモデルは32Bモデルに迫る性能を示した。
- SWE-Gymの保留データにおいても一貫した性能向上が確認され，DAggerの有効性が示された。
Link: https://arxiv.org/abs/2605.12913
SHM-Agents：構造ヘルスモニタリングのための汎化・専門化統合エージェントシステム [cs.MA, cs.LG]目的：構造ヘルスモニタリングにおける汎化・専門化統合エージェントシステム
- 構造物の安全確保は社会インフラ維持に不可欠であり，高度なモニタリング技術が求められている。
- 既存の専門アルゴリズムは実装が難しく，相互運用性や学習に課題がある。
- 自然言語による指示で多様なタスクを実行可能にする汎用エージェントシステムを構築すること。
- SHM-Agentsは，大規模言語モデルと専門アルゴリズムを統合し，構造ヘルスモニタリングの複雑なタスクを効率化する。
- 長スパン斜張橋での実験により，データ異常診断や損傷特定など多様なタスクを高い精度で実行可能であることが示された。
- 深層学習による事前学習やモジュール設計により，導入の容易性と拡張性を実現している。
Link: https://arxiv.org/abs/2605.12916
信頼性と説明可能性の高い医用画像分類のための適応的適合性予測 [cs.CV, cs.LG]目的：医用画像分類における信頼性と説明可能性の向上
- 医用画像診断の精度向上は，医療の質を向上させ，患者の転帰を改善する上で重要である。
- 深層学習モデルは過信傾向があり，曖昧な診断シナリオで安全上のリスクをもたらす可能性がある。
- 不確実なサンプルに対するカバレッジ不足を解消し，信頼性の高い予測を可能にすること。
- 提案手法は，予測集合サイズ層ごとに最悪の場合のカバレッジ違反を最小化する適応的ラムダ基準を導入した。
- OrganAMNISTデータセットにおいて，95.72%の全体的なカバレッジと平均集合サイズ1.09を達成し，全ての層で少なくとも90%のカバレッジを確保した。
- Grad-CAM分析により，多ラベル予測が解剖学的に曖昧な領域への集中的な注意と対応することを示した。
Link: https://arxiv.org/abs/2605.12917
対話を通じた世界モデルの整合によるマルチエージェント協調 [cs.MA, cs.AI, cs.CL]目的：エージェント間の世界モデルの整合
- ロボットなどの自律エージェントが共同でタスクを遂行する上で，効率的な協調が不可欠である。
- 部分観測環境下では，エージェント間の協調は困難であり，コミュニケーションが重要となる。
- 大規模言語モデル(LLM)を活用したエージェントが，対話を通じて世界モデルを整合させられるかを検証する。
- 対話の導入により，行動の衝突が40～83パーセント減少した。
- しかしながら，タスクの成功率は，無言での協調と比較して低下した。
- 提案された指標により，表層的な協調と真の世界モデルの整合の間のギャップが明らかになった。
Link: https://arxiv.org/abs/2605.12920
注意が途切れるとき：LLMが複数ターンの対話で文脈を失う仕組み [cs.AI, cs.CL]目的：複数ターンの対話におけるLLMの文脈喪失現象のメカニズム解明
- LLMは自然言語処理の発展に不可欠であり，その性能向上は様々な応用を可能にする。
- LLMは単一ターンでは高性能だが，複数ターンの対話では指示や設定を忘れてしまうという課題がある。
- LLMが文脈を失うメカニズムを解明し，より安定した対話システムの構築を目指す。
- 注意メカニズムにおけるGoal tokenへのアクセス低下が，文脈喪失と密接に関連することが示された。
- モデル構造によって文脈喪失の様相が異なり，残差表現に情報が残っている場合でも失敗するモデルも存在する。
- Attentionを意図的に遮断する実験により，文脈保持能力が著しく低下し，設定違反が増加することが確認された。
Link: https://arxiv.org/abs/2605.12922
IV-ICL：インコンテキスト学習による変数を用いた因果効果の範囲推定 [cs.CY, cs.LG]目的：因果効果の範囲推定
- 潜在的な交絡因子が存在する場合，因果効果の識別は困難である。変数を用いた手法は，部分的な識別を可能とする。
- 既存の手法は，閉じた形の範囲推定式が必要であり，高精度な推定器の設計には専門的な知識が不可欠である。
- インコンテキスト学習を用いて，因果効果の周辺事後分布を直接学習し，その分位点として範囲を推定する。
- IV-ICLは，包括的KLダイバージェンスを最小化することで，識別された範囲全体を網羅的に推定できる。
- 合成データおよび準合成データを用いた実験により，IV-ICLは他の手法と比較して，より信頼性が高く，情報量の多い範囲推定を高速に実現することが示された。
- ランダム化比較試験をIVベンチマークに変換する手順を提案し，より現実的な評価を可能にした。
Link: https://arxiv.org/abs/2605.12924
AgentLens：SWE-Agent評価における幸運な合格問題の解明 [cs.SE, cs.AI]目的：SWE-Agentの行動過程の評価
- ソフトウェア開発の自動化は，生産性向上に不可欠であり，その評価手法の確立が重要である。
- 従来のSWE-Agent評価は合格/不合格のみに注目しており，過程の質が無視されている。
- SWE-Agentの合格に至る過程の品質を評価し，より信頼性の高い評価指標を提示すること。
- 「幸運な合格」と呼べる，非効率な過程で合格した事例が全体の約10.7%に存在することを示した。
- AgentLensという評価フレームワークと，そのベンチマークデータセットAgentLens-Benchを公開した。
- 過程の品質スコアによるランキングは，合格率のみのランキングと異なる結果を示すことがわかった。
Link: https://arxiv.org/abs/2605.12925
バイトモデリングにおける効率性のギャップ [cs.LG]目的：バイトモデリングの計算効率に関する性能差
- 近年の言語モデルは，サブワード分割と自己回帰的生成を基本とする。効率的な学習には構造的な事前知識が重要である。
- バイトレベルモデリングは語彙の事前定義を不要にするが，計算コストが高いという課題がある。
- 自己回帰モデルとマスクド拡散モデルにおけるバイトモデリングの効率性差を明らかにすること。
- バイトモデリングの性能低下は一様ではなく，マスクド拡散モデルの方が自己回帰モデルよりも顕著である。
- この違いは，マスクド拡散モデルがバイト列の局所的な連続性を破壊し，効率的な意味解析を妨げることが原因と考えられる。
- 将来のモダリティ非依存型設計には，スケーラビリティを維持するための新たな構造的バイアスが必要である。
Link: https://arxiv.org/abs/2605.12928
Anatomy-Slot：網膜診断における双眼対応推論のための教師なし解剖学的ファクタライズ [cs.CV, cs.AI]目的：網膜診断における双眼対応推論のための解剖学的要素のファクタライズ
- 網膜診断は左右眼の比較が不可欠であり，正確な診断には両眼の構造的対応の理解が重要である。
- 既存の深層学習モデルは単眼の表現に焦点を当てており，両眼間の構造的対応を十分に活用できていない。
- 本研究は，解剖学的構造の対応関係を明示的にモデル化することで，網膜診断の精度向上を目指す。
- 提案手法Anatomy-Slotは，パッチトークンをスロットに分解し，双方向クロスアテンションを通じて両眼間でスロットをアライメントする。
- ODIR-5Kデータセットにおいて，Anatomy-SlotはViT-Lベースラインと比較してAUCを4.2%向上させた（95%信頼区間，p=0.002）。
- ペアの破壊やガウスノイズを用いたストレステストにより，構造的対応関係への依存性とノイズに対する頑健性が確認された。
Link: https://arxiv.org/abs/2605.12929
AuraMask：審美的な対顔認識画像フィルタ開発のための拡張可能なパイプライン [cs.CV, cs.AI, cs.HC]目的：審美性と対顔認識効果を両立する画像フィルタの作成
- 監視社会への抵抗手段として，顔認識回避技術の重要性が高まっている。
- 既存の対顔認識フィルタは，効果がある反面，審美性が低く，利用者の自己表現を妨げる。
- 審美性と対顔認識効果を両立させ，より利用しやすいフィルタを開発すること。
- AuraMaskを用いることで，既存手法と同等以上の対顔認識効果を持つ40種類のフィルタを生成した。
- オンラインユーザー調査（N=630）の結果，AuraMaskフィルタは既存手法よりも有意に高いユーザー受容性を示した。
- 本研究で開発したパイプラインを公開し，関連分野の研究加速に貢献する。
Link: https://arxiv.org/abs/2605.12937
CRePE：統一カメラ制御ビデオ生成のための曲線光線期待位置エンコーディング [cs.CV, cs.AI, cs.LG]目的：統一カメラモデル下での汎用的なカメラ制御を可能にする位置エンコーディング
- カメラ制御ビデオ生成は，多様な視覚表現の創出において不可欠であり，その重要性は増している。
- 既存の位置エンコーディングは，カメラの動きやレンズ構成の変化に弱く，汎用的なカメラ制御が困難である。
- 広角レンズや魚眼レンズを含む，様々なカメラモデルに対応可能な安定したカメラ制御を実現すること。
- CRePEは，光線に沿った深度情報を考慮した位置分布を用いることで，幅広いカメラモデルに対応した位置エンコーディングを実現した。
- ジオメトリ注意機構アダプターをDiTに組み込むことで，シーン距離情報を注入し，モノキュラー幾何学モデルからの疑似教師あり学習によって安定性を向上させた。
- 幾何学に基づいた評価指標と知覚的品質指標が向上し，多様なカメラモデルにおいて高い性能を発揮した。
Link: https://arxiv.org/abs/2605.12938
確率回路の表現力限界：大規模言語モデルとの比較 [cs.LG, cs.AI]目的：確率回路と大規模言語モデルの表現力の比較
- 確率的推論の効率化が求められる中で，深層生成モデルの研究が盛んである。
- 確率回路は言語モデリングにおいて，Transformerベースの大規模言語モデルに劣る。
- 確率回路の表現力限界を明らかにし，大規模言語モデルとの差を縮小する。
- 確率回路の出力パラメータ化を確率空間ではなくlogit空間で行うことで，表現力のギャップが縮小されることが示された。
- 構造分解可能な確率回路は，特定の条件下ではTransformerと同等の分離ランクを達成できるものの，データの依存関係の多様性に対応できない限界がある。
- 分解可能な確率回路は構造分解可能な確率回路よりも表現力が高いが，最適化が困難である。
Link: https://arxiv.org/abs/2605.12940
マルチエージェントフローネットワークにおける協調性の強化 [cs.LG]目的：大規模言語モデルの性能向上
- 複雑なタスクを分割し，複数のエージェントで処理することで，大規模言語モデルの能力を拡張する手段として重要である。
- エージェント間の連携設計の不備や，エージェントの出力精度により，エラーが伝播し，最終的な結果が低下する課題がある。
- 過去の成功事例に基づき，エージェントの連携を最適化することで，エラー伝播を抑制し，全体の性能を向上させることを目指す。
- MANGOは，過去の成功事例から構築されたフローネットワークを通じてエージェント間の協調性を組織化し，洗練させるデータ駆動型フレームワークである。
- 強化学習とテキスト勾配を統合し，ワークフローの経路とエージェントの行動を同時に最適化することで，性能向上を実現した。
- 7つのベンチマークにおいて，最先端のベースラインと比較して最大12.8%の性能改善，47.4%の効率向上を示し，未知のドメインへの汎化性能も確認された。
Link: https://arxiv.org/abs/2605.12943
教師ありファインチューニングのためのインスタンス選択から固定プールデータレシピ探索へ [cs.LG, cs.CL]目的：教師ありファインチューニングのための高品質なデータサブセット構築手法
- 大規模言語モデルの性能向上には，高品質な教師ありデータが不可欠である。
- 既存のインスタンス選択手法では，データのフィルタリングや混合といったレシピを考慮していない。
- 限られた評価予算内で，最適なデータレシピを効率的に探索することを目的とする。
- AutoSelectionは，タスク，データ，モデルの情報を活用し，キャッシュされたデータに基づいて固定プールを構築する。
- 実験の結果，AutoSelectionは，3つのベースモデルにおいて，フルデータでの学習やランダムなレシピ探索よりも優れた性能を示した。
- データレシピの構造が，個々の選択演算子を超えて性能に影響を与えることが示された。
Link: https://arxiv.org/abs/2605.12944
単純モデルにおける近道遷移とファミリー外分布への失敗の分離 [cs.LG]目的：近道特徴と分布外性能の関連性の解明
- 機械学習モデルの汎化性能向上は重要であり，分布外データへの対応が不可欠である。
- モデルが学習データに特有の近道特徴に依存し，分布外データで性能が低下する問題が存在する。
- 近道特徴への依存と分布外性能低下のメカニズムを単純モデルで明確にすることを目指す。
- 決定論的条件下では，リッジ正則化がモデルを不変特徴に集中させ，分布外での失敗を防ぐ。
- 不変特徴がノイズを含む場合，学習時の近道信号が不変信号を超えると，モデルは近道ルールに切り替わる。
- この切り替わりが失敗につながるかどうかは，評価データのファミリーに依存し，相関の弱さや符号反転がリスクを高める。
Link: https://arxiv.org/abs/2605.12945
Seg-Agent：学習不要な言語誘導セグメンテーションのためのテスト時マルチモーダル推論 [cs.CV, cs.AI]目的：言語誘導セグメンテーションにおける，学習を必要としないマルチモーダル推論フレームワーク
- 従来のセマンティックセグメンテーションの限界を超え，自然言語による指示に基づいた対象領域のセグメンテーションが可能となる。
- 既存手法は大規模データセットでの学習に依存しており，MLLMの空間的理解能力に課題が残る。
- 視覚的フィードバックを伴うマルチモーダルな推論ループを構築し，学習不要で高性能なセグメンテーションを実現する。
- Seg-Agentは，生成，選択，洗練の3段階からなるインタラクティブな視覚的推論ループを構築することで，既存手法と同等の性能を達成する。
- Set-of-Mark (SoM) を活用し，MLLMがテキストだけでなく視覚的な空間関係を直接推論できるようになっている。
- 多様なシナリオでの汎化性能を評価するため，新たなベンチマークデータセット「Various-LangSeg」を導入した。
Link: https://arxiv.org/abs/2605.12953
AdaFocus：効率的な長編ビデオ理解のためのゼロキャッシュ参照による適応的関連性・多様性サンプリング [cs.CV, cs.AI]目的：長編ビデオ理解における効率と精度を両立するための手法
- 長編ビデオ理解は，その複雑さから計算資源を大量に必要とするため，実用上の課題が多い。
- 既存手法では，詳細な情報を得るために計算コストがかかりすぎるか，情報を圧縮しすぎて精度が低下するかのいずれかである。
- 本研究は，必要な情報を動的に取得することで，計算コストを抑えつつ高精度な長編ビデオ理解を実現することを目指す。
- AdaFocusは，クエリに応じて局所的な情報と全体的な情報を適応的に切り替えることで，効率的なビデオプレビューを生成する。
- フレーム全体をメモリにキャッシュするのではなく，モデルが不確かな場合にのみ高解像度情報をディスクから取得するゼロキャッシュI/O設計を採用している。
- 7つの標準的な長編ビデオベンチマークにおいて，AdaFocusは既存手法と比較して，効率と精度のバランスが大幅に向上することを示した。
Link: https://arxiv.org/abs/2605.12954
バイアスと分散の低減：生成的な意味的ガイダンスと二層アンサンブルによる画像クラスタリング [cs.AR, cs.CL, cs.CV, cs.LG]目的：画像クラスタリングにおけるバイアスと分散の低減
- 画像データは膨大であり，効率的な整理・分析が不可欠である。
- 既存手法は，限定的な語彙に依存し，汎用性に欠ける場合がある。
- 意味的ガイダンスとアンサンブル学習により，バイアスと分散を同時に低減すること。
- 提案手法GSECは，生成的な意味的ガイダンスと二層アンサンブル学習により，画像クラスタリングの精度向上を実現した。
- GSECは，マルチモーダル大規模言語モデルを活用し，多様な意味的記述を生成することで，既存手法の課題を克服した。
- 6つのベンチマークデータセットにおいて，18の最先端手法を上回る性能を示し，バイアスと分散の両方低減の有効性が確認された。
Link: https://arxiv.org/abs/2605.12961
AI安全の持続：制御理論的外部的不可能性，内在的必要性，および構造的要件 [cs.AI]目的：AI安全の持続可能性に関する構造的条件の明確化
- AIの能力向上に伴い，安全性の評価基準が変化しているため。
- 外部からの制御に頼る安全戦略には限界が存在する。
- 外部制御に頼らない安全戦略の必要条件を特定すること。
- 外部からの制御が限界を超える場合，外部に依存する安全戦略は機能しないことが証明された。
- 残された安全戦略は，内在的なものである必要がある。
- 安全戦略は外部からの継続的な制御に依存せず，安全と両立可能な目的関数を持つ必要がある。
Link: https://arxiv.org/abs/2605.12963
U-HNO：疎な点適応ルーティングを備えたU字型ハイブリッドニューラル演算子 - 非定常偏微分方程式ダイナミクス [cs.LG, cs.NA, math.NA]目的：非定常偏微分方程式のダイナミクスに対する新しいハイブリッドニューラル演算子の提案
- 偏微分方程式は科学技術の多くの分野で不可欠であり，その効率的な解法は重要である。
- 従来のニューラル演算子は，滑らかな全体的な伝播と局所的な鋭い特徴を同時に捉えることが困難である。
- 本研究は，局所的なコントラストに応じてグローバルとローカルの計算を適応的に選択するルーティング機構によってこの問題を解決する。
- U-HNOは，PDEBenchの幅広いベンチマークにおいて，相対L^2およびH^1指標の両方で最先端のロールアウト精度を達成した。
- 特に，鋭い局所的な特徴が支配的な問題において，大きな改善が見られた。
- 構成要素のいずれかを取り除くことで，ロールアウトエラーが大幅に悪化することが示された。
Link: https://arxiv.org/abs/2605.12965
エージェントAIシステムはAGIへの実現可能な道である [cs.AI]目的：AGI実現へのエージェントAIシステムの必要性
- AI研究は，人間の知能を超える汎用人工知能(AGI)の実現を目指しており，社会変革の可能性を秘めている。
- 単一モデルのスケール拡大のみではAGI達成は困難であり，複雑な現実世界のタスクに対応できないという課題がある。
- エージェントAIシステムの優位性を理論的に証明し，AGI達成への新たな方向性を示す。
- エージェントAIシステムは，単一モデルと比較して指数関数的に優れた汎化性能とサンプル効率を実現することが示された。
- エージェントAIは，現実世界の多様なタスクの分布を効果的に処理するために不可欠なパラダイムであると考えられる。
- Mixture-of-Expertsとの関連性や，既存のマルチエージェントフレームワークの不安定性の解釈も提示されている。
Link: https://arxiv.org/abs/2605.12966
F2上の代数的なオントロジー射影によるLLMの論理的崩壊の制御 [cs.LG, cs.AI, cs.CL]目的：LLMにおけるオントロジー関係の形式的検証可能な代数構造の存在
- LLMの能力向上には，その内部表現の理解が不可欠である。
- LLMの最終層における論理的整合性の低下が問題となっている。
- LLMの論理構造を形式的にアクセス可能にするための方法論の確立。
- 代数的なオントロジー射影（AOP）により，未知の概念ペアに対するゼロショット包含精度が最大93.33%を達成した。
- AOPは，モデルファミリ間でも一貫した86.67%の精度を示し，モデルのチューニングは不要であった。
- セマンティック結晶化（SC）は，F2制約の充足度を定量化し，ゼロショット精度を予測することが可能であることが示された。
Link: https://arxiv.org/abs/2605.12968