arXiv雑要約

AI - 2026/05/01 公開

尤度比の壁：稀な暴力に対する正確なリスク評価の構造的限界 [cs.CY, cs.LG, stat.AP]目的：稀な暴力再犯のリスク評価における統計的限界
- 裁判前のリスク評価は司法制度において重要である。公正な判断と公共の安全確保に寄与する。
- 稀な事象に対するリスク評価では，高い予測精度を達成することが困難である。
- 本研究は，既存のリスク評価ツールの限界を定量的に示す。
- 稀な暴力再犯の場合，50%の陽性的予測値（PPV）を達成するには，既存のツールよりもはるかに識別能力の高いツールが必要である。
- 事後的なスコア再調整では，この問題を解決できない。ツールが真陽性と偽陽性を区別する能力は向上しない。
- 過剰な取り締まりは，リスク評価の精度を低下させる。取り締まりの対象となるグループでは，より低い精度しか得られない。
Link: https://arxiv.org/abs/2604.27282
いつ記憶すべきかを学習：LLMベースのコーディングエージェントにおける棄権を意識したメモリ検索のためのリスク感受性コンテキストバンディット [cs.CL, cs.AI, cs.LG]目的：LLMベースのコーディングエージェントにおけるメモリ利用に関するリスク管理
- LLMエージェントの性能向上には，過去の経験の再利用が不可欠である。
- 不適切なメモリ注入は，誤った解決策を生み，安全性に影響を及ぼす可能性がある。
- リスクを考慮したメモリ制御により，安全かつ効果的なメモリ利用を実現する。
- RSCB-MCは，従来の検索手法と比較して高い再現率と低い誤検出率を両立した。
- オフライン評価では62.5%の成功率と0.0%の誤検出率を達成し，安全性と有効性を実証した。
- 実環境での検証では，60.5%の成功率と0.0%の誤検出率，そして低い遅延時間(331.466μs)を示した。
Link: https://arxiv.org/abs/2604.27283
構造的ガバナンスの機械的基盤：ガバナンスされた知能のための機械検証された証明 [cs.AI]目的：認知ワークフローシステムにおける構造的ガバナンスの理論的基盤
- 人工知能の安全性と信頼性確保は重要であり，ガバナンスはそのための鍵となる概念である。
- 既存のガバナンス手法では，無限に続くプログラム挙動の安全性を形式的に保証することが困難である。
- 無限プログラム挙動に対するガバナンス安全性の形式的保証と，ガバナンスの普遍性を確立すること。
- Coq 8.19を用いて，ガバナンス安全性を捉える共帰的性質を機械的に検証した。
- ガバナンスはメタ再帰的タワー全体で一様であり，レベルn+1でのガバナンスはレベルnでのガバナンスに還元されることを示した。
- 4つの基本的なプリミティブ（コード，推論，メモリ，コール）が任意の離散的な知能システムを表現できることを証明し，BEAMランタイムの信頼性をCoqで形式化・検証した。
Link: https://arxiv.org/abs/2604.27289
二つの境界：行動AIガバナンスが構造的に失敗する理由 [cs.AI]目的：行動AIシステムのガバナンスにおける構造的なギャップの分析
- AI技術の発展に伴い，その影響範囲は拡大し，社会への影響を考慮したガバナンスが不可欠となっている。
- AIシステムの能力とガバナンス範囲が独立して定義されるため，リスクや形骸化が生じやすい。
- AIガバナンスにおける構造的なギャップを解消し，実効性のあるガバナンス体制を構築することを目指す。
- AIシステムは「実行可能なこと」と「ガバナンスでカバーされること」の二つの境界を持ち，そのずれが問題となる。
- Riceの定理に基づき，チューリング完全なアーキテクチャでは，効果のガバナンスは原理的に決定不可能であることが示された。
- 「表現力境界」と「ガバナンス境界」が一致する「coterminous governance」が，効果的なAIガバナンスの基準となりうる。
Link: https://arxiv.org/abs/2604.27292
学習率エンジニアリング：粗い単一パラメータから階層的進化へ [cs.AI, cs.LG]目的：学習率スケジューリングの進化と，その最適化手法の提案
- 深層学習の性能向上には，学習率の適切な設定が不可欠である。効率的な学習には，タスクに応じた学習率の調整が求められる。
- 従来の学習率設定は，全ての層に同じ値を適用していたため，汎化性能と適応力のバランスを取ることが困難であった。
- 層ごとに異なる学習率を適用し，汎化知識の維持と新しいタスクへの適応を両立させることによって，学習効率の改善を目指す。
- 学習率スケジューリングの５世代を分類し，各世代の進化の背景にある動機を明確にした。
- 提案手法DALSは，合成データセットにおいて98.0%の最高精度を達成し，DALS-Fastはわずか3エポックで90%に到達した。
- データセット間の分析から，特定の戦略が常に優位とは限らず，タスクに依存した最適な戦略が存在することが示された。
Link: https://arxiv.org/abs/2604.27295
説明可能な科学的発見のための機械集合知 [cs.AI, physics.comp-ph]目的：経験的観察からの支配方程式の導出
- 科学における支配方程式の発見は重要であり，AIの発展を促進する。
- 既存のAIは関数近似に優れるものの，説明可能で外挿可能な方程式の発見が困難である。
- 機械集合知により，自律的かつ進化的な支配方程式の発見を目指す。
- 機械集合知は，記号主義とメタヒューリスティクスを統合し，複数エージェントによる協調的な仮説進化を実現した。
- 決定論的，確率的，または未解明なダイナミクスを持つ科学システムにおいて，支配方程式を自律的に回復した。
- 結果として得られた方程式は，深層ニューラルネットワークと比較して外挿誤差を最大6桁削減し，解釈可能なパラメータ数も大幅に減少させた。
Link: https://arxiv.org/abs/2604.27297
METASYMBO：記号的潜在進化による多エージェント言語誘導メタマテリアル探索 [cs.AI]目的：言語による誘導を用いたメタマテリアルの探索
- メタマテリアルは，特定の力学特性を誘起する微細構造材料であり，新素材開発に不可欠である。
- 既存の逆設計法は，明確な数値目標が必要であり，初期段階の探索には不向きである。
- 自然言語による曖昧な指示に基づいて，有効なメタマテリアル構造を効率的に生成することを目指す。
- MetaSymbOは，既存手法と比較して，構造の対称性で最大34%，周期性で約98%の改善を実現した。
- MetaSymbOは，高度な推論LLMと比較して，約6〜7%高い言語誘導スコアと優れた構造的新規性を達成した。
- 記号論理演算子は，プログラム可能な意味的整合性の実現に効果的であることが定性的分析により確認された。
Link: https://arxiv.org/abs/2604.27300
BoostLoRA：アダプターのブーストによる効果的なランクの拡大 [cs.IR, cs.LG, cs.AI]目的：効果的なランクの拡大
- 大規模言語モデルのファインチューニングは計算コストが高い。
- パラメータ効率の良いファインチューニング手法では，アダプターサイズと表現力の間にトレードオフが存在する。
- ブースト手法を用いて，アダプターの累積的な効果的なランクを線形に増加させ，表現力を高める。
- BoostLoRAは，Qwen2.5-3Bにおいて，GSM8Kで89.1%，MATH-500で68.8%という高い精度を達成した。
- コード生成タスクにおいては，MBPPで57.2%，HumanEvalで80.4%の精度を達成し，フルファインチューニングを上回った。
- BoostLoRAは，トレーニングの進行に伴い効果的なランクが成長する初のPEFT手法である。
Link: https://arxiv.org/abs/2604.27308
臨床医向けEHR埋め込みAIエージェントの包括的評価とガバナンス [cs.AI]目的：臨床AIエージェントの継続的なガバナンス体制
- 医療現場でのAI活用は，医療の質と効率を向上させる可能性を秘めている。
- AIシステムの性能は時間経過とともに変化するため，継続的な監視と評価が不可欠である。
- 本研究は，AIシステムの導入後の性能維持・向上を支援するガバナンス手法を確立する。
- Hyperscribeの開発において，臨床医が1,646件の評価基準を作成し，823症例に適用した。
- Hyperscribeの7つのバージョンを評価した結果，平均スコアは84%から95%に向上した。
- 3ヶ月間のフィードバック分析では，エラー報告が減少し，肯定的な意見が増加した。
Link: https://arxiv.org/abs/2604.27309
Pragmos：プロセスエージェントモデリングシステム [cs.SE, cs.AI]目的：ビジネスプロセスモデリングにおけるLLMと人間の協調
- ビジネスプロセスは企業活動の根幹であり，効率化と最適化が不可欠である。
- LLMを用いた自動モデリングはブラックボックス化しやすく，複雑な依存関係の処理が困難である。
- LLMと人間の専門知識を組み合わせ，透明性と説明可能性の高いプロセスモデリングを実現する。
- 本研究では，モデリングタスクを小さなステップに分解し，各ステップで中間成果物と根拠を明示する。
- LLMの推論能力の限界を補うため，行動関係に基づいたプロセスモデル構造化ツールを併用するハイブリッドアプローチを採用する。
- Pragmosは，LLMがドメインおよびモデリングの専門家と協力し，構造化されたワークフローを通じて進化するプロセスモデルを共同作成する様子を示す。
Link: https://arxiv.org/abs/2604.27311
PINN-Cast：Transformerと連続深度NODE，および物理情報損失をソフト制約として用いた短期天気予報 [cs.LG, cs.CV]目的：短期天気予報における連続深度NODEの役割と，物理情報損失をソフト制約として利用することの探求
- 天気予報は社会基盤を支える重要な技術であり，その精度向上は喫緊の課題である。
- 従来の数値予報モデルは計算コストが高く，Transformerモデルは物理法則を考慮していないという課題があった。
- Transformerの表現学習を滑らかにし，物理法則との整合性を高めることで，より高精度な天気予報を目指す。
- 提案手法PINN-Castは，標準的なTransformerと比較して優れた予測性能を示した。
- 各エンコーダーブロックにNeural ODEダイナミクスを導入することで，連続的な表現学習を実現した。
- 物理情報損失をソフト制約として組み込むことで，予測の物理的整合性を向上させた。
Link: https://arxiv.org/abs/2604.27313
REBench：ストリップされたバイナリ型と名前に関するLLMのための手続き的で，構成により公平なベンチマーク（拡張版） [cs.DL, cs.CR, cs.LG, cs.SE]目的：LLMにおけるバイナリ逆アセンブルタスクの評価のための包括的なベンチマークデータセット
- LLMはセキュリティ分野を含む幅広い分野で急速に採用が進んでおり，その性能評価が重要である。
- 既存の研究では，データセット，前処理パイプライン，評価指標が異なり，公平な比較が困難である。
- 標準化されたデータセットを提供し，LLMのバイナリ解析能力を明確に理解することを目的とする。
- REBenchは，既存のデータセットを統合し，多様なアーキテクチャと最適化レベルのバイナリを含む大規模なデータセットを提供する。
- REBenchは，バイトレベルのスタック情報を格納する知識ベース駆動型手法を採用し，タスクの難易度を維持しつつ，普遍的な適用性を保証する。
- 実験の結果，LLMは複雑なタスクにおいて逆アセンブルの性能に課題があることが示された。
Link: https://arxiv.org/abs/2604.27319
自律的なSOC運用へ: セキュリティ運用における脅威検知，クエリ生成，解決のためのエンドツーエンドLLMフレームワーク [cs.CR, cs.AI, cs.IR]目的：セキュリティ運用における脅威管理の自動化
- セキュリティ脅威の増加と複雑化により，SOC運用には高度な効率化が求められている
- SOCは，脅威量の増加，異質なSIEMプラットフォーム，そして時間のかかる手動トリアージに課題を抱えている
- LLMを活用し，脅威検知から解決までのワークフローを自動化することで，SOC運用の効率化を目指す
- アンサンブルベースの検知モジュールは，SIEMログにおいて82.8%の精度と0.120の誤検知率を達成した。
- SQMアーキテクチャは，IBM QRadarとGoogle SecOpsに対する実行可能なクエリ生成において，ベースラインのLLM性能を2倍以上上回るBLEUスコア0.384とROUGE-Lスコア0.731を達成した。
- SQM由来のエビデンス統合により，インシデント解決コードの予測精度が78.3%から90.0%に向上し，推奨品質スコアは8.70となった。平均インシデントトリアージ時間を数時間から10分未満に短縮した。
Link: https://arxiv.org/abs/2604.27321
固有値分解のためのバッチ効率の良い分割統治アルゴリズムに関する短い注記 [cs.LG, cs.NA, math.NA]目的：固有値分解の計算効率向上
- コンピュータビジョンにおける基盤技術であり，多様な応用が存在する。
- 深層ニューラルネットワークにおけるミニバッチ処理において，計算コストが課題となる。
- より大きな行列に対するバッチ効率の良いアルゴリズムを提案し，計算速度を向上させる。
- 提案手法は，次元64以下のミニバッチ行列に対して，PyTorchのSVD関数よりも高速に動作する。
- 分割統治法を用いることで，バッチ処理における計算効率を改善した。
Link: https://arxiv.org/abs/2604.27325
大規模言語モデルの構成的推論能力評価における説明可能性と分割フリーな手法：ルール生成の視点 [cs.CC, cs.AI]目的：大規模言語モデルの構成的推論能力評価に関する研究
- 言語モデルの能力評価は，その応用範囲拡大において不可欠である。
- 既存の評価手法は，説明性の欠如やデータ分割によるリークの問題を抱える。
- ルール生成の視点を通して，より信頼性の高い評価手法を確立することを目指す。
- 本研究では，言語モデルにデータセットのマッピングルールをプログラムとして生成させる新しい評価視点を提案した。
- 複雑性理論に基づき構成的推論能力を評価することで，既存手法の課題を克服し，より詳細な分析を可能にした。
- 文字列からグリッドへの変換タスクを用いた実験により，言語モデルの構成的推論能力の特性と課題を明らかにした。
Link: https://arxiv.org/abs/2604.27340
フィリピンの教員養成課程におけるAI活用教育ツール利用意向の探求：偏最小二乗法によるモデリング [cs.CY, cs.CL, cs.CY, cs.AI]目的：フィリピンの教員養成課程におけるAI活用教育ツール利用意向に影響を与える要因
- 教育現場へのAI導入は，学習効果の向上や個別最適化された教育の実現に不可欠である。
- 教員養成課程におけるAI活用教育ツールへの理解と利用意向は，今後の教育現場での実用化を左右する重要な課題である。
- AI活用教育ツール利用意向を促進する要因を特定し，効果的な教員養成プログラム開発に貢献すること。
- パフォーマンス期待と快楽的動機が，利用意向の最も強い予測因子であることが示された。
- コンピュータ自己効力感，不安，遊び心が努力期待に有意な影響を与えたが，努力期待は直接利用意向を予測しなかった。
- 外部要因よりも，内的な動機，認知，感情的要因がAI活用ツール導入の意思決定においてより重要であることが示唆された。
Link: https://arxiv.org/abs/2604.27346
AI依存の実態：フィリピン人学生の学力に関する潜在クラス分析 [cs.CY, cs.AI]目的：フィリピン人学生のAI依存の実態と，それが学力に与える影響
- 教育現場でのAI活用が急速に進む中で，学生の学力への影響を把握する必要がある。
- AIへの過度な依存は，学生の自発的な学習意欲や批判的思考力を低下させる可能性がある。
- AI依存のパターンを特定し，学力との関連性を明らかにすることで，効果的な教育政策の立案に貢献する。
- 調査の結果，フィリピン人学生は研究や文章作成においてAIへの依存度が高いことが示された。
- 潜在クラス分析により，学生を「意欲的な自学自習者」「選択的なAI利用者」「中程度のAI利用者」「AI依存者」の4つのグループに分類した。
- 特にAI依存者のグループは，学力において最も低い水準を示し，AI生成コンテンツへの依存が顕著であった。
Link: https://arxiv.org/abs/2604.27349
異種科学基盤モデルの連携 [cs.CY, cs.AI, cs.CL, cs.LG]目的：科学分野における異種基盤モデル間の連携による能力拡張
- 科学的発見の加速には，専門知識を持つ基盤モデルの活用が不可欠である。
- 言語モデルのみでは，専門分野の複雑な問題を扱うのが困難である。
- 言語モデルと専門分野モデルの協調により，より高度な推論と問題解決を目指す。
- Eywaは，言語モデルと専門分野モデルを連携させるためのフレームワークである。
- 実験の結果，Eywaは構造化データや専門データを用いたタスクにおいて性能が向上した。
- 言語に依存した推論を減らし，専門モデルとの効果的な協調を実現した。
Link: https://arxiv.org/abs/2604.27351
CoAX：認知に着目したAI説明に対する帰属説明モデル - 人間のAI説明理解 [cs.AI]目的：AI説明に対する人間の理解の認知モデル
- AIの利用拡大に伴い，AIの説明可能性が重要視されている。
- XAI技術の進歩にもかかわらず，ユーザーの理解向上は十分ではない。
- AI説明の理解を阻害する認知要因を特定し，改善策を提示する。
- 認知モデルが，機械学習のプロキシモデルより人間の意思決定に適合することが示された。
- 効果的な推論戦略とそうでない戦略に関する洞察が得られた。
- モデルを活用し，人間の理解に関する仮説検証が可能となった。
Link: https://arxiv.org/abs/2604.27354
TypeBandit: タイプレベルの文脈割り当てと重み付けによる異種グラフニューラルネットワークにおける効果的な属性補完 [cs.LG, cs.AI]目的：異種グラフにおける属性補完の性能向上
- 異種グラフは複雑な関係性を表現する上で重要だが，ノード属性の欠損が学習のボトルネックとなる。
- ノードタイプによって有用な情報量が大きく異なり，属性補完の効率に差が生じるという問題がある。
- タイプごとの情報量の非対称性を考慮し，限られたサンプリング資源で効果的な属性補完を目指す。
- TypeBanditは，グラフ構造を考慮した初期化，タイプレベルのバンディットサンプリング，表現学習を組み合わせることで，既存手法を上回る性能を示す。
- R-GCN，HetGNN，HGT，SimpleHGNなどの主要な異種GNNモデルに対して，TypeBanditを組み込むことで性能向上が確認された。
- 構造的な次数事前知識と特徴伝播を組み合わせたハイブリッド事前学習スキームは，より信頼性の高い初期化を実現する。
Link: https://arxiv.org/abs/2604.27356
解剖学的ガイド付きトポロジー認識損失：大規模多施設データを用いたウィリス動脈輪の多クラスセグメンテーション [cs.LG, cs.CV]目的：ウィリス動脈輪の多クラスセグメンテーションの精度向上
- 神経血管疾患の管理において，ウィリス動脈輪の正確なセグメンテーションは不可欠である。
- 既存手法では，複雑な血管トポロジーや可変な形態により，血管の不連続性やクラス間誤分類が生じやすい。
- 本研究は，高精度かつ効率的なセグメンテーションを実現し，臨床応用を目指す。
- 提案手法AG-TALは，5分割交差検証において，全ウィリス動脈輪動脈で平均Dice係数80.85%を達成した。
- 特に，小動脈において，最先端手法と比較して1.05～3.09%高いDice係数を実現した。
- AG-TALは，6つの独立データセットで74.46%～81.17%のDice係数を実現し，小動脈の精度を2.20%～9.98%向上させた。
Link: https://arxiv.org/abs/2604.27357
安全な二層委譲 (SBD): マルチエージェントシステムにおける実行時委譲安全性のための正式なフレームワーク [cs.AI]目的：マルチエージェントシステムにおける実行時の委譲安全性
- 大規模言語モデルエージェントの活用が拡大する中で，安全性確保は重要な課題である。
- 既存研究では，設計時または経験則に基づいたアプローチが主流であり，実行時の動的な安全性調整が困難である。
- タスクの文脈変化に応じて，安全性と効率性のバランスを動的に調整する仕組みを提供する。
- SBDは，タスク委譲を二層最適化問題として定式化し，文脈に応じた安全効率の重みを学習する。
- 外側の安全性の重みが上昇すると，内側のポリシーは弱く安全になることが理論的に証明された。
- 医療，金融，教育の3つの分野でSBDを実装し，安全性制約や評価プロトコルを提示した。
Link: https://arxiv.org/abs/2604.27358
TIO-SHACL：TMF Intent Ontology の包括的なSHACL検証 [cs.AI, cs.CL]目的：TMF Intent Ontology の正確性検証のためのSHACL検証フレームワーク
- ネットワーク管理の自動化が求められ，意図に基づくネットワークが注目されている。
- TMF Intent Ontology は標準語彙を提供するが，意図の正当性検証機構が不足している。
- ネットワーク意図の構文・意味検証を自動化し，意図の誤りを未然に防ぐことを目指す。
- tio-shacl は，TMF Intent Ontology v3.6.0 全モジュールを網羅する56個のノード形状と69個のプロパティ形状を提供する。
- 再利用可能な制約ライブラリとして，25個のパラメータ化されたSPARQLベースの制約コンポーネントを実装した。
- 再帰的論理演算子，数量ベースの制約，およびクロス期待関係に対する新しい検証パターンを確立した。
Link: https://arxiv.org/abs/2604.27359
安定しているが誤りがある：銀河考古学における推論の限界 [cs.LG, astro-ph.GA]目的：銀河考古学における恒星年齢推論の限界
- 銀河の形成史解明には，恒星の年齢と金属量との関係が重要である。
- 観測データの質が，恒星年齢推論に系統的な偏りを引き起こす可能性がある。
- 観測データ品質と推論結果の整合性に着目し，偏りの原因を特定すること。
- 観測品質（S/N比と視差精度）がある水準を超えると，推論される形成 timescale に 0.5-1 Gyr の系統誤差が生じる。
- 統計的な不確かさは小さくても，安定した誤った推論が得られる状態が存在する。
- 恒星振動学による独立した参照と比較することで，この系統誤差を明らかにした。
Link: https://arxiv.org/abs/2604.27368
金融NLPにおける測定リスク：JF-ICRにおける評価基準と指標の感度 [cs.CL, cs.SI, cs.AI, cs.CL]目的：金融NLPの評価における測定リスクの存在とその影響の検証
- 金融NLPは投資判断に利用され，その精度は投資家の利益に直結するため重要である。
- 従来の評価基準が曖昧な場合，モデルの性能評価に一貫性がなく，誤った判断を招く可能性がある。
- 評価基準や指標の選択が測定結果に与える影響を明らかにし，より信頼性の高い評価方法を確立することを目指す。
- 評価基準の文言の違いがモデルのラベル付けに大きな影響を与え，特に+1/0の境界付近で合意率が変動した。
- JF-ICRのクラス分布下では，適合率などの一部の指標は情報提供能力が低く，正確性，マクロF1，重み付きkappaが識別可能な指標であった。
- 識別可能な指標のサブセットに基づいたランキング手法は一貫性があり，金融NLPベンチマークの評価規律の確立に貢献する。
Link: https://arxiv.org/abs/2604.27374
意図予測を用いたプロアクティブな対話モデル [cs.CL, cs.LG]目的：マルチ意図設定における冗長な対話を削減する意図遷移事前情報
- 対話システムは，より自然で効率的な人間とのコミュニケーションが求められている。
- 従来の対話モデルは受動的であり，次のユーザー意図を予測できない。
- 対話データを活用し，意図遷移の事前情報を軽量に導入することで解決を目指す。
- 提案手法では，Temporal Bayesian Network (T-BN)を用いて意図遷移をモデル化した。
- T-BNは，保留データ上でRecall@5 = 0.787，MRR = 0.576を達成した。
- 実際の対話再生実験では，意図カバレッジのAUCが0.742から0.856に向上し，75%のカバレッジ達成までのターン数が3.95から2.73に減少した。
Link: https://arxiv.org/abs/2604.27379
異種グラフにおけるヘテロフィリーに対するロバスト学習：グラフ構造学習アプローチ [cs.AR, cs.RO, cs.HC, cs.SY, eess.SY, cs.AI]目的：異種グラフにおけるロバストな表現学習
- 現実世界の複雑なシステムをモデル化する上で，異種グラフの利用が重要になっている。
- ノイズや誤った接続が存在する場合，異種グラフにおけるロバストな表現学習は未だ十分ではない。
- 構造ノイズを考慮し，ヘテロフィリーとノイズに強いグラフ構造学習を目指す。
- 提案手法HGULは，信頼性の高い局所的な近傍を構築し，ノイズエッジをフィルタリングすることで，グラフ構造を適応的に洗練する。
- HGULは，多様なデータセットにおいて，既存手法よりも優れた性能を示し，構造ノイズに対するロバスト性も維持する。
- ヘテロフィリーとノイズの同時モデリングが，異種グラフ学習において重要であることが確認された。
Link: https://arxiv.org/abs/2604.27387
COHERENCE：交差するマルチモーダル文脈における詳細な画像とテキストの整合性の評価 [cs.CV, cs.AI]目的：交差するマルチモーダル文脈における，マルチモーダル大規模言語モデルの画像とテキストの細かな整合性回復能力の評価
- マルチモーダルな情報処理は，現実世界の多くのタスクにおいて不可欠であり，その性能向上が求められている。
- 既存のベンチマークは単一画像や複数画像に焦点を当てており，現実的な交差するマルチモーダル文脈の理解を評価できていない。
- 現在のマルチモーダル大規模言語モデルの弱点を明らかにし，交差する文脈における理解能力向上に貢献する。
- COHERENCEベンチマークは，４つの代表的なドメインからなる6,161個の高品質な質問で構成されている。
- このベンチマークを用いることで，モデルの画像とテキストの細かな対応関係の回復能力を定量的に評価できる。
- ６種類の誤り分析により，現在のモデルが交差する画像とテキストの理解において欠けている能力を特定した。
Link: https://arxiv.org/abs/2604.27389
人間とAIの関係スペクトラムにおけるリーダーシップ：多様化するチームに向けた概念的フレームワーク [cs.AI, cs.CL, cs.CY, cs.HC]目的：人間とAIが共同で意思決定を行う際の，その関係性のスペクトラムを示す概念的フレームワーク
- AI技術の発展に伴い，人間とAIの協働が不可欠となり，そのリーダーシップが重要視されている。
- AIの役割が変化する中で，リーダーが状況を正しく認識し，適切な判断を下すことが困難になっている。
- リーダーシップのあり方を明確化し，AIとの協働による意思決定の質を高めることを目指す。
- 本研究は，人間主導，ケンタウロス型，対等型，ミノタウロス型，AI主導の５つの関係性を提示した。
- リーダーシップの主体，意思決定の方向性，責任の所在が，各関係性においてどのように変化するかを分析した。
- AIとの協働における「共適応性」の重要性を指摘し，組織における権力，責任，信頼のあり方に影響を与える可能性を示唆した。
Link: https://arxiv.org/abs/2604.27392
摂動プロービング：アラインメントされたLLMにおけるFFN行動回路の診断手法 [cs.CL, cs.AR, cs.CL, eess.SY, cs.SY, math.OC, cs.CL, cs.LG]目的：LLMにおけるFFNニューロンの行動回路のメカニズム解明と，精密なテンプレート層編集
- LLMの能力向上に伴い，その内部メカニズムの理解が不可欠となっている
- LLMの行動原理は複雑であり，特定の行動を制御するニューロンの特定が困難である
- 効率的な回路特定と介入手法により，LLMの行動を詳細に制御することを目指す
- 摂動プロービングは，LLMのFFNニューロンにおけるタスク特有の因果仮説を，バックプロパゲーションなしで生成する手法である。
- RLHFによって事前学習の傾向が抑制された場合，反対回路が形成されることが明らかになった。
- 残差ストリーム方向注入は，特定の条件下でLLMの出力言語を切り替えることができ，回路トポロジーはアーキテクチャによって異なる。
Link: https://arxiv.org/abs/2604.27401
平均を超えて：LLM評価のためのモデル内信頼性変化検出 [cs.CL, cs.AI]目的：LLMのバージョン比較における信頼性変化の検出
- LLMの性能向上は目覚ましいが，その変化を正確に評価する手法が不可欠である。
- LLMの全体的な精度向上だけでは，個々の問題に対する影響は見えにくい。
- LLMのバージョン変更による個々の問題の性能変化を明らかにすること。
- Llama 3から3.1，Qwen 2.5から3への変更において，項目レベルでの信頼性変化を分析した結果，大多数の項目では有意な変化は見られなかった。
- 分析可能な項目においては，性能の改善と悪化が双方向に見られ，変化のパターンは難易度によって異なっていた。
- ドメインレベルでの分析では，モデルごとに異なる変化が認められ，貪欲な評価方法では信頼性のある変化の検出に限界があることが示された。
Link: https://arxiv.org/abs/2604.27405
検出は容易だが，適応は困難：分布シフト下における視覚モデルベース強化学習のための局所エキスパート成長 [cs.IR, cs.CL, cs.LG]目的：分布シフト下における視覚モデルベース強化学習における適応戦略
- 視覚モデルベース強化学習は，ロボット工学など，現実世界の複雑なタスクへの応用が期待されている。
- 環境分布が変化した場合，既存の視覚モデルベース強化学習エージェントは性能が低下しやすい。
- 分布シフトが発生した場合に，エージェントが性能を維持できるよう，局所的な行動修正を行う手法を開発する。
- 提案手法であるJEPA-Indexed Local Expert Growthは，既存のコントローラを変更せずに，局所的な行動修正を加えることで，分布外性能を向上させる。
- 特に，harder-pairバリアントは，4つの評価条件すべてにおいて，分布内性能を維持しつつ，統計的に有意な分布外改善を示す。
- 学習されたエキスパートは，同じシフトが再発した場合でも有効であり，適応を漸進的な知識の成長と捉えることを支持する。
Link: https://arxiv.org/abs/2604.27411
自律走行におけるビジョン言語モデルの敵対的転移性の理解：クロスアーキテクチャ分析 [cs.CV, cs.CR, cs.LG]目的：自律走行用ビジョン言語モデルにおける敵対的転移性
- 自動運転技術の安全性向上は重要であり，特にAIの脆弱性評価は不可欠である。
- 敵対的攻撃に対するVLMsの堅牢性は十分に理解されておらず，実用上のリスクが存在する。
- 異なるVLMアーキテクチャ間での敵対的転移性を評価し，そのリスクを明らかにする。
- 異なるアーキテクチャ間での敵対的転移率が73〜91%と高く，高い効果が確認された。
- 最適化されていないパッチでも，重要な意思決定ウィンドウの64.7〜79.4%でフレームレベルの操作が持続した。
- 攻撃者が車両のモデルを特定していなくても，攻撃が有効であることが示唆された。
Link: https://arxiv.org/abs/2604.27414
ChipLingo：EDAにおける大規模言語モデルの体系的な訓練フレームワーク [cs.LG]目的：EDAに特化した大規模言語モデルの訓練パイプライン
- 半導体技術の進展に伴い，EDAは知識集約的かつ文書ドリブンな分野となっている
- 汎用LLMを直接適用すると，ドメイン知識の不足やツール間知識の混乱が生じやすい
- ドメイン知識を習得させ，検索拡張生成の性能低下を防ぐことを目指す
- ChipLingo-8BはEDA-Benchで59.7%の精度を達成し，同規模の基本モデルや汎用モデルを上回った
- ChipLingo-32Bは70.02%に達し，商用モデルに匹敵する性能を示した
- QA拡張，Partial FT，RAGシナリオ訓練が性能向上に貢献することが示された
Link: https://arxiv.org/abs/2604.27415
InteractWeb-Bench：マルチモーダルエージェントはインタラクティブなウェブサイト生成における盲目的な実行から脱却できるか [cs.AI, cs.CL]目的：非専門家による低品質な指示下でのウェブサイト生成におけるマルチモーダルエージェントの性能評価
- ウェブサイト開発は重要であり，その効率化が求められている。
- 既存のベンチマークは理想的な仮定に基づき，現実のユーザー指示の曖昧さや品質の低さを考慮していない。
- 非専門家ユーザーの多様な行動をシミュレーションし，エージェントの意図理解と適応的インタラクションの限界を明らかにすること。
- InteractWeb-Benchは，曖昧さ，冗長性，矛盾を含む現実的なユーザー行動を再現するインタラクティブなベンチマークである。
- 最先端のマルチモーダルエージェントは，意図の認識と適応的インタラクションにおいて限界がみられ，盲目的な実行に陥りやすいことが示された。
- エージェントは，指示の明確化，実装，検証，提出という統一された行動空間を通じて，反復的な意図の修正と視覚的なフィードバックに基づく検証を行う。
Link: https://arxiv.org/abs/2604.27419
ローカルLLMファインチューニングにおけるサプライチェーン型モデルコードバックドアを通じた秘密窃取攻撃 [cs.CR, cs.AI]目的：ローカルファインチューニングデータセットに含まれる秘密情報の窃取
- LLMの利用拡大に伴い，プライバシー保護の重要性が増している。特に，ローカル環境でのファインチューニングにおけるリスクが懸念される。
- ローカルファインチューニングはプライバシー境界と見なされることが多いが，モデルコードが侵害された場合，秘密情報が漏洩する可能性がある。
- モデルコードにバックドアを埋め込み，秘密情報を確実に窃取する手法を開発し，その有効性と回避困難性を示す。
- 提案手法は，従来の重み汚染攻撃では捉えられない高エントロピーな秘密情報を，トークンレベルでの動的計算フローにおけるテンソルルールマッチングによって確実に捕捉する。
- 攻撃勾配を巧妙に注入することで，勾配消失問題を克服し，モデルに秘密情報の記憶を強制する。また，ブラックボックスクエリを通じて秘密情報の漏洩を検証可能にする。
- 実験の結果，提案手法は98%以上の厳密なASRを達成し，主要タスクの性能を損なうことなく，DP-SGDやコード監査などの防御策を回避できることが示された。
Link: https://arxiv.org/abs/2604.27426
AdaBFL：ビザンチン耐性分散学習のための多層防御適応集約 [cs.DC, cs.DC, cs.CE, cs.HC, cs.LG, cs.AI, cs.CR]目的：ビザンチン耐性分散学習のための多層防御適応集約手法
- 機械学習の分散学習は，プライバシー保護に貢献する重要な技術である。
- 分散学習は，悪意のあるクライアントによるデータ汚染攻撃に脆弱である。
- 既存手法は，複数の攻撃への対応やサーバー側でのデータ保持に課題がある点を解決する。
- 本研究では，新規な三層防御機構に基づくAdaBFLを提案し，複雑な攻撃に対して適応的に防御を調整する。
- 非凸設定かつ非IIDデータ下でのAdaBFLの収束性を理論的に証明した。
- 複数のデータセットを用いた実験により，AdaBFLが既存手法よりも優れていることを検証した。
Link: https://arxiv.org/abs/2604.27434
連続時間・空間における非マルコフ拡散ブリッジを用いた任意部分集合自己回帰 [cs.CL, cs.NI, cs.MM, cs.LG, cs.AI]目的：連続時間・空間確率過程の生成
- 物理現象のモデリングや予測において，時間と空間が連続的な確率過程の生成は不可欠である。
- 既存手法は，状態間の構造的類似性の捉え方，時間経過の考慮，部分集合条件付けに課題がある。
- 物理的に妥当なダイナミクスと，任意の部分集合に対する条件付けを可能にする手法を開発する。
- 提案手法ABCは，実時間と過程の状態を追跡する連続SDEを用いて，より自然な生成を可能にする。
- 物理的な時間経過に合わせたノイズ注入により，時間的に隣接する状態間の類似性を高め，現実的なダイナミクスを実現する。
- 経路依存の条件付けにより，状態履歴や将来の観測といった任意の部分集合に対する条件付けが可能となる。
Link: https://arxiv.org/abs/2604.27443
RAY-TOLD：TDMPCを用いた高密度動的障害物回避のためのレイベース潜在的ダイナミクス [cs.RO, cs.AI]目的：高密度動的障害物環境下における自律移動ロボットのナビゲーション
- 自律移動ロボットの普及に伴い，複雑な環境下での安全かつ効率的な移動が重要となっている。
- 従来の反応型計画手法は，予測範囲の限界から局所的最小値に陥りやすく，高密度な動的環境では問題となる。
- 潜在的ダイナミクスと強化学習を統合し，長期的展望と物理ベースのロバスト性を両立させることで，この問題を解決する。
- 提案手法RAY-TOLDは，LiDARデータを用いて高次元のセンサ情報をコンパクトな状態表現にエンコードする。
- 学習された方策から得られる軌跡候補をMPPIに導入することで，計画者が目標へ向かう軌道を効率的に探索する。
- シミュレーション実験の結果，RAY-TOLDはMPPIと比較して衝突率を大幅に低減し，ナビゲーションの信頼性と安全性を向上させる。
Link: https://arxiv.org/abs/2604.27450
双曲空間とノイズ除去拡散を用いたグラフ少数ショット学習の改善 [cs.LG, cs.AI]目的：グラフ少数ショット学習の性能向上
- 現実世界のグラフデータは階層構造を持つことが多く，その構造を捉えることが重要である。
- 既存手法は，ユークリッド空間での表現学習や，少数サンプルからの分布推定に課題がある。
- 双曲空間での表現学習とノイズ除去拡散により，上記課題の解決を目指す。
- 提案手法IMPRESSは，双曲空間でノード表現を学習し，ノイズ除去拡散機構でサポート分布を豊かにする。
- 理論的に，IMPRESSはより厳密な一般化境界を達成する。
- 実験的に，IMPRESSは複数のベンチマークデータセットにおいて，競合するベースラインを常に上回る性能を示す。
Link: https://arxiv.org/abs/2604.27462
自律エージェントフレームワークのセキュリティ攻撃と防御戦略：OpenClawを事例とした階層的レビュー [cs.CR, cs.AI]目的：自律エージェントフレームワークにおけるセキュリティリスクと防御戦略の体系的な理解
- 大規模言語モデルを活用した自律エージェントが複雑化し，新たなセキュリティ課題が生じているため。
- 既存研究は断片的で，エージェントセキュリティに関する階層的なレビューが不足しているため。
- エージェントフレームワーク全体のセキュリティリスクを階層的に分析し，統合的な防御策を検討すること。
- 本レビューでは，エージェントフレームワークを４つの階層に分け，各階層のリスクと防御戦略をまとめた。
- セキュリティ上の脅威は，入力操作から危険な行動，状態汚染，そしてエコシステム全体への影響へと波及する可能性があることが示された。
- 研究の偏り，長期的評価の不足，脆弱なエコシステム信頼モデルなど，今後の課題が明確にされた。
Link: https://arxiv.org/abs/2604.27464
コントラスト表現による原始的な推論とタスクシステム (PRTS) [cs.CL, cs.CL, cs.AI, cs.LG, cs.RO]目的：ロボット制御のための視覚，言語，行動モデルにおける目標条件付き強化学習による事前学習の再構築
- ロボット工学の発展には，視覚情報と言語指示を理解し，それを実際の行動に変換する能力が不可欠である。
- 既存の視覚言語行動モデルは，教師ありの行動クローニングに偏っており，ロボットが目標達成のために時間的なタスクの進捗を理解することが難しい。
- 言語指示を目標として扱い，コントラスト強化学習を用いて，物理的な実現可能性を定量的に評価する。
- PRTSは，オフラインの軌跡データから直接，稠密な目標到達可能性の教師信号を学習し，VLMバックボーンに組み込むことで，意味的推論と時間的タスクの進捗を繋ぐ。
- 事前学習に1670億トークンを使用し，LIBERO，LIBERO-Pro，LIBERO-Plus，SimplerEnv，および14の複雑な実世界のタスクで最先端の性能を達成した。
- 特に，長期間の計画，接触が多いタスク，新しい指示への対応において顕著な改善が見られ，目標到達可能性の認識注入がロボットの汎用的な基礎方針の実行成功と計画能力を向上させることを確認した。
Link: https://arxiv.org/abs/2604.27472
LEOメガコンステレーション向けスケーラブルSDN：グラフ学習アプローチ [cs.LG, cs.SY, eess.SY]目的：LEOメガコンステレーションにおけるスケーラブルなSDNフレームワーク
- 地上ネットワークの限界から非地球ネットワークの重要性が高まっている。特にLEO衛星コンステレーションが注目されている。
- 多数のLEO衛星が相互接続する大規模ネットワークでは，ネットワーク管理のボトルネックが生じやすい。
- 本研究は，ネットワーク管理のスケーラビリティを向上させるための新たな手法を提案することを目的とする。
- 提案手法では，グラフニューラルネットワークを用いてコンステレーションのトポロジーをコンパクトに表現する。
- また，クープマン理論により非線形なダイナミクスを線形化し，空間圧縮率を42.8%以上向上させた。
- さらに，時間予測精度も10.81%改善し，モデルのサイズも大幅に削減することに成功した。
Link: https://arxiv.org/abs/2604.27478
敵対的摂動に対する低ランク適応 [cs.SI, cs.CY, cs.AR, cs.LG, cs.CR]目的：敵対的摂動の低ランク構造
- 大規模言語モデルの利用拡大に伴い，その堅牢性評価が重要視されている。
- 敵対的攻撃は計算コストが高く，効率的な攻撃手法が求められている。
- 敵対的摂動の低ランク性を利用し，効率的な攻撃手法を開発する。
- 敵対的摂動は本質的に低ランク構造を持つことが理論的にも実験的にも示された。
- 低ランク構造を利用することで，ブラックボックス攻撃のクエリ数を大幅に削減できる。
- 提案手法は，様々な攻撃手法，モデル，データセットにおいて既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2604.27487
因果に基づいた推論時介入による報酬モデルのバイアス除去 [cs.HC, cs.CL, cs.AI]目的：報酬モデルにおける複数のバイアスの軽減
- 大規模言語モデルの性能は人間の選好と整合性が重要であり，報酬モデルはその調整に不可欠である。
- 報酬モデルは応答の長さなどの不要な特徴に影響を受けやすく，公平性を損なう可能性がある。
- 本研究では，複数のバイアスを同時に軽減し，性能低下を回避することを目指す。
- 提案手法は，バイアスに関連するニューロンを特定し，その信号を抑制する介入を行う。
- 評価の結果，多様なバイアスに対して感度を低減し，性能トレードオフを回避できることが示された。
- 小規模な報酬モデル（2B/7B）でも，大規模モデル（70B）と同等の性能を実現し，モデルの整合性を向上させることが確認された。
Link: https://arxiv.org/abs/2604.27495
FMCL：基礎モデル表現を用いたクラス認識型クライアントクラスタリングによる異種連合学習 [cs.HC, cs.RO, eess.SY, cs.SY, cs.LG, cs.CV]目的：異種連合学習におけるクライアントのクラス認識型クラスタリング手法
- 連合学習はデータ共有なしにモデルを学習できるが，データの統計的異質性が課題。
- 既存のクラスタリング手法は，クラスレベルのセマンティック構造を捉えきれない場合がある。
- 基礎モデル表現を用いて，効率的かつ安定したクライアントクラスタリングを実現する。
- FMCLは，事前学習済みの基礎モデルを用いてクライアントのクラスレベル埋め込みプロトタイプを計算する。
- クライアント間の類似性は，そのクラス認識型表現間のコサイン距離によって測定される。
- 実験結果から，FMCLは既存手法よりも連合学習の性能を向上させ，安定したクラスタリング動作を示すことが確認された。
Link: https://arxiv.org/abs/2604.27510
検証可能な観察による大規模言語モデルサービスの信念駆動型推論制御 [cs.CL, cs.CL, cs.AI]目的：大規模言語モデルサービスの推論制御
- 大規模言語モデルの利用拡大に伴い，応答の信頼性確保が重要課題となっている。
- ブラックボックス型LLMでは，応答の信頼性をリアルタイムで評価することが困難である。
- 応答の信頼性を推定し，計算コストと品質のバランスを最適化する。
- 提案手法Veroicは，部分観測マルコフ決定過程として推論制御を定式化する。
- 入力と出力から信頼性に関する信念状態を構築し，予算を考慮した方策で推論経路を決定する。
- 多様なタスクにおいて，既存手法と比較して品質・コストのトレードオフが改善された。
Link: https://arxiv.org/abs/2604.27536
ハイブリッド人間-AI情報探索における知識アフォードランス [cs.HC, cs.AI]目的：知識アフォードランスの概念
- 情報環境の複雑化に伴い，AIと人間が協力して情報探索を行う重要性が高まっている。
- AIと人間が，誰に知識を求めるべきか，その理由を決定する明確な基準が存在しない。
- ハイブリッド環境における情報探索の機会を系統的に捉えるための概念を提案し，問題解決を目指す。
- 本研究では，知識源が提供できる情報の種類，質問のタイプ，文脈的特性を記述する知識アフォードランスを提案する。
- 知識アフォードランスは，タスク，好み，状況要因との相互作用から生まれる関係性を持つ可能性がある。
- アフォードランス，セマンティックWeb，知識工学等の研究分野を繋ぎ，透明性，適応性，共通理解に優れたシステムの構築に向けた方向性を示す。
Link: https://arxiv.org/abs/2604.27539
文脈内事例はLLMにおける科学的知識の想起を抑制する [cs.AI]目的：大規模言語モデルにおける科学的知識の想起に関する影響
- 科学的推論はデータから隠れた構造を発見する能力が不可欠であり，様々な分野で応用される。
- LLMは科学的知識を想起できるものの，その能力が容易に抑制される可能性がある。
- 文脈内事例がLLMの知識に基づいた推論から経験的パターン認識への移行を引き起こす点を解明する。
- 文脈内事例の追加は，LLMが事前学習されたドメイン知識への依存を低下させる。
- この知識の置換は，5つの科学分野で60のタスク，6000回の試行，4つのモデルで一貫して観察された。
- 文脈内事例は意図した知識を補強するのではなく，置き換える可能性があり，注意が必要である。
Link: https://arxiv.org/abs/2604.27540
ファインチューニングデータにおける能力ギャップの診断 [cs.CL, cs.CL, cs.LG]目的：ファインチューニングデータセットの能力ギャップの検出
- LLMの活用が広がる中で，特定の領域への適応が重要となっている。
- ファインチューニングデータセットが十分な能力を網羅しているか判断が困難である。
- データセットの能力ギャップを事前に検出し，効果的なファインチューニングを実現する。
- GoalCoverは，目標分解と自動カバレッジ評価を通じて，データセットの能力ギャップを体系的に検出するフレームワークである。
- 制御された実験により，GoalCoverが標的とする能力への影響とそうでない影響を確実に区別できることが示された。
- 金融要約タスクにおいて，GoalCoverでフィルタリングされたデータで学習することで，LLM-judgeの報酬が向上した。
Link: https://arxiv.org/abs/2604.27547