arXiv雑要約

AI - 2026/05/12 公開

エピジェネティックな年齢予測のための配列とグラフ構造の架橋 [cs.CL, cs.DB, cs.AI, cs.LG]目的：エピジェネティックな年齢予測のための配列-グラフ統合フレームワーク
- 加齢研究，関連疾患，長寿科学において，生物学的年齢推定は重要なツールとなっている。
- 既存手法では，共メチル化グラフ構造とサイト特異的なDNA配列コンテキストを統合的にモデル化できていない。
- 配列とグラフ構造を統合し，より正確なエピジェネティックな年齢予測を可能にすることを目指す。
- 提案手法は，3,707の血液メチル化サンプルでMAE 3.149年を達成し，最強のグラフベースラインを12.8％上回った。
- 生物学的に情報に基づいた統計的特徴は，CNNベースの配列エンコーディングよりも優れた性能を示した。
- 事後解釈可能性分析により，CpG密度と局所アデニン頻度が，年齢依存的な重要度変化を示すことが明らかになった。
Link: https://arxiv.org/abs/2605.10541
高解像度，より良い汎化：深層強化学習における視覚的スケーリングの解錠 [cs.CL, cs.LG]目的：深層強化学習における視覚的スケーリングによる性能向上と汎化能力の改善
- 深層強化学習は，複雑な環境下での意思決定において大きな可能性を持つ。視覚情報の利用は，その性能を大きく左右する。
- 従来の深層強化学習では，計算コスト削減のため視覚入力が大幅にダウンサンプリングされており，情報損失が問題となっていた。
- 本研究は，高解像度の視覚入力がもたらす潜在的な利点を引き出し，スケーラブルな視覚的深層強化学習を実現することを目指す。
- 高解像度入力を用いることで，性能と汎化能力の両方が大幅に向上することが示された。
- Impalaのエンコーダーは解像度増加に伴いパラメータ数が急増するのに対し，Impoolaはパラメータ数を解像度から切り離し，一貫して性能改善を実現した。
- Impoolaは，Impalaと比較して最大28%の性能向上を達成し，高解像度下での空間的に局所化された視覚的注意メカニズムがその要因であることが示唆された。
Link: https://arxiv.org/abs/2605.10546
PhysEDA：マンハッタン距離減衰を用いた効率的なEDAのための物理に基づいた学習フレームワーク [cs.LG]目的：集積回路設計におけるEDAタスクの効率化
- 集積回路設計は，現代エレクトロニクスの基盤であり，高性能化・低消費電力化に不可欠である。
- 従来のEDA手法は計算コストが高く，複雑な設計に対応が困難な場合がある。
- 物理的制約を考慮した学習手法により，計算効率と設計品質の向上を目指す。
- PhysEDAは，物理的な事前知識を組み込むことで，従来の学習手法のボトルネックである計算量と過学習の問題を解決する。
- PSLAにより計算複雑度を大幅に削減し，PBRSにより疎な報酬環境下での学習を促進することで，高い性能を実現した。
- 3つのEDAシナリオにおいて，PhysEDAは既存手法と比較して，性能向上と高速化，メモリ削減を達成した。
Link: https://arxiv.org/abs/2605.10547
トポロジーを考慮した構造グラフエンコーディングがポリマー予測性能を向上させる [cs.CL, cs.LG]目的：ポリマーの特性予測における構造グラフエンコーディング手法の改良
- ポリマー材料は様々な産業で不可欠であり，その特性予測は材料設計において重要である。
- ポリマーデータセットは実験コストが高く，規模が小さいため，予測モデルの学習が困難である。
- ポリマー鎖のトポロジーを考慮することで，より高精度な特性予測を実現することを目指す。
- 提案手法では，ポリマーの分子量分布から代表的な鎖をサンプリングし，トポロジーを直接エンコードする大規模グラフを構築する。
- グラフニューラルネットワークの事前学習と微調整を組み合わせることで，予測精度が向上する。
- 381種類のポリマーデータセットにおいて，既存手法と比較して，5.1%の平均誤差低減を達成した。
Link: https://arxiv.org/abs/2605.10551
エージェント優先型ツールAPI：エンタープライズAIエージェントシステムのためのセマンティックインターフェースパラダイム [cs.AI]目的：エンタープライズAIエージェントシステムにおけるセマンティックインターフェースパラダイム
- AIエージェントの企業への導入が進む中，その基盤となるツールAPIの重要性が増している。
- 従来のAPIは人間中心の設計であり，自律的なエージェントの要求との間に乖離が存在する。
- 従来のAPIの課題を解決し，AIエージェントのパフォーマンス向上を目指す。
- エージェント優先型APIは，従来のCRUDベースラインと比較して，タスクの成功率を37.5%向上させた。
- 人間による介入を72.7%削減し，自律的なエラーリカバリ能力を5.8倍に改善した。
- このパラダイムは，既存のツール検出・呼び出しプロトコル(MCP等)と直交的かつ補完的な関係にあることが示された。
Link: https://arxiv.org/abs/2605.10555
EnergyLens：マルチモーダルLLM推論サービングのための解釈可能な閉形式エネルギーモデル [cs.CV, cs.LG]目的：LLM推論におけるエネルギー最適化手法
- LLMの利用拡大に伴い，推論時のエネルギー消費が重要な課題となっている。
- 既存手法は遅延時間をエネルギーの代替指標とするか，ブラックボックスな代理モデルに依存するため，汎用性に課題がある。
- システム特性に基づいた閉形式エネルギーモデルにより，エネルギー効率の高いLLMデプロイメントを可能とする。
- EnergyLensは，プロファイリングデータからシステム特性とエネルギー消費の関係を解析し，12パラメータの閉形式エネルギーモデルを導出する。
- EnergyLensは，従来の解析的ベースラインと比較して，構成選択の精度が大幅に向上し，少ないプロファイリングサンプルで高い予測精度を実現する。
- 未知のバッチサイズやハードウェアプラットフォームに対しても，構造変更なしに信頼性の高い予測が可能であり，実用的なエネルギー最適化ツールとなる。
Link: https://arxiv.org/abs/2605.10556
ThreatCore：明示的および暗示的な脅威検出のためのベンチマーク [cs.CL, cs.AI]目的：脅威検出のベンチマークデータセット
- 自然言語処理における脅威検出は，安全なコミュニケーション環境を構築する上で不可欠である。
- 脅威検出の定義が曖昧で，毒性やヘイトスピーチと混同されがちである。
- 脅威検出の評価基準を明確化し，モデルの性能向上を目指す。
- ThreatCoreは，明示的な脅威，暗示的な脅威，非脅威を区別する詳細な脅威検出のためのデータセットである。
- 既存のデータセットのアノテーションに一貫性がないことが判明し，統一的な脅威の定義の重要性が示された。
- 暗示的な脅威は，明示的な脅威よりも検出が難しいことが示され，意味役割ラベリングの有効性も確認された。
Link: https://arxiv.org/abs/2605.10563
深層議論 [cs.AI]目的：深層学習と議論構築・推論の統合による解釈可能な分類
- 深層学習は多様なデータで高性能モデルを構築できるが，その予測根拠が不明瞭である。
- モデルの内部表現や学習過程がブラックボックス化しており，解釈可能性が課題となっている。
- データに基づいた予測の根拠を明らかにし，人間が理解しやすい説明性を提供する。
- 深層議論は，データポイントがラベルを支持し，他のラベルを攻撃する議論構造を構築する。
- 微分可能な議論意味論を用いることで，特徴表現と議論的相互作用を同時に学習する。
- 実験の結果，既存手法と同等の性能を維持しつつ，解釈可能な議論による推論を実現した。
Link: https://arxiv.org/abs/2605.10569
オンラインシャープキャリブレーション付きベイズ最適化 [cs.LG]目的：ベイズ最適化における不確実性の鋭さとキャリブレーションのバランス
- 高コストなブラックボックス関数の最適化に広く用いられ，効率的な探索が重要。
- オンライン学習データからのハイパーパラメータ再推定により，不確実性のキャリブレーションが歪む場合がある。
- ハイパーパラメータ選択を制約付きオンライン学習問題として扱い，最適化の性能を向上させる。
- 提案手法OSCBOは，合成データおよび実データベンチマークで高い性能を示した。
- 最終的な単純後悔において，既存手法と同等以上の性能を達成した。
- 累積後悔の面でも堅牢な振る舞いを見せ，理論的な保証も存在する。
Link: https://arxiv.org/abs/2605.10572
LLMの不均一性が科学的創造性を解き放つ [cs.AI]目的：大規模言語モデル（LLM）の科学的創造性の測定
- AI技術は科学研究の加速に貢献し得るが，その能力の進歩は均一ではない。
- LLMの能力はタスクやドメインによって異なり，一貫した向上が見られないという課題がある。
- LLMの不均一性を活用することで，科学的創造性を向上させる方法を模索する。
- LLMの創造性は，モデル間，タスク間，ドメイン間で不均一に現れることが示された。
- 汎用的な創造性の向上は，必ずしも科学的な創造性の向上に繋がらないことが明らかになった。
- 推論時の計算資源の活用，知識の統合，ブレインストーミングにより，LLMの創造性を増幅できることが示唆された。
Link: https://arxiv.org/abs/2605.10574
Acceptance Cards：安全ファインチューニング防御主張のための四つの診断基準 [cs.CR, cs.AI, cs.LG]目的：安全なファインチューニング防御主張の評価基準
- 大規模言語モデルの安全性確保は，社会実装において不可欠であり，そのための防御技術の信頼性評価が重要である。
- 既存の評価方法では，ノイズやアーティファクト，能力低下などが混同され，真の防御効果を判断しにくいという課題がある。
- 統計的信頼性，新たな汎化性能，メカニズム整合性，クロスタスク転移の4つの診断基準による評価プロトコルを確立し，より厳密な安全性を検証する。
- 本プロトコルを用いてSafeLoRAを評価した結果，Gemma-2-2B-itモデルにおいて，全ての診断基準を満たすことができなかった。
- 厳格なメカニズム分類では全診断基準で不合格となり，緩やかなリラベルを用いた場合でも，4つのうち3つの診断基準で不合格となった。
- 今回の評価は限定的なものであり，SafeLoRAの有効性を一概に否定するものではない。しかし，厳密な基準下では安全性に課題があることが示唆された。
Link: https://arxiv.org/abs/2605.10575
SenseBench：大規模ビジョン言語モデルにおけるリモートセンシングの低レベル視覚認識と記述のためのベンチマーク [cs.CV, cs.AI]目的：リモートセンシングの低レベル視覚認識と記述に関する診断ベンチマーク
- リモートセンシング画像は地理空間情報の重要な情報源であり，その分析精度は社会経済活動に大きく影響する。
- 既存の画像品質評価手法は，物理的な劣化要因を特定できず，専門家の診断ニーズと乖離している。
- 大規模ビジョン言語モデルの性能を評価し，リモートセンシング画像特有の劣化を認識・記述する能力向上を目指す。
- SenseBenchは，リモートセンシング画像の劣化を網羅的に評価するための新しいベンチマークであり，10K以上の高品質なデータセットを提供する。
- 29種類の最先端ビジョン言語モデルの評価により，自然画像への偏りや，複数の劣化要因に対する認識の限界が明らかになった。
- このベンチマークは，リモートセンシング分野におけるビジョン言語モデルの発展を促進するためのテストベッドおよび高品質な診断データを提供する。
Link: https://arxiv.org/abs/2605.10576
入力攪乱と修正による確実な脱獄攻撃防御 [cs.CR, cs.AI]目的：大規模言語モデルに対する脱獄攻撃からの防御手法
- LLMの安全性確保は，社会実装において不可欠であり，悪意ある利用を防ぐ上で重要である。
- LLMは巧妙に作成された入力によって誤った出力を生成し，有害な情報を出力する脆弱性がある。
- 入力の攪乱と修正により，モデルの堅牢性を高め，脱獄攻撃に対する防御性能を向上させる。
- 提案手法は，従来の平滑化防御に，入力の攪乱と修正の二段階処理を組み込むことで，モデルの予測安定性を高める。
- 理論的解析により，防御成功確率と攪乱強度の関係を明確化し，効果的な防御戦略の指針を得る。
- 実験結果から，提案手法は既存の最先端防御手法と比較して，安全性と有用性の両面で優れた性能を示す。
Link: https://arxiv.org/abs/2605.10582
嗜好条件付き多目的強化学習における制御可能性 [cs.LG]目的：嗜好条件付き多目的強化学習における制御可能性の評価
- 人間の意図を反映した行動を学習させる強化学習の重要性が増している。
- 従来の評価指標では，嗜好の変化がエージェントの行動に適切に反映されているか判断できない。
- 嗜好の変化に対するエージェントの行動変化を定量的に評価する指標を提案する。
- 標準的な多目的強化学習の指標では，エージェントが嗜好入力に鈍感である場合があることが示された。
- 提案する制御可能性の指標を用いることで，嗜好の変化がエージェントの行動に一貫して影響を与えるかを評価できる。
- 本研究は，より複雑な問題への嗜好適応技術の応用に向けた議論を促すことを目的とする。
Link: https://arxiv.org/abs/2605.10585
クラウドとエッジにおける下水管路溢流監視のための堅牢なソリューション [cs.AI, cs.HC, cs.LG]目的：下水管路溢流監視のためのクラウド・エッジ統合型システム
- 都市の老朽化した下水道は豪雨により溢流が頻発し，環境と公衆衛生に深刻な影響を与えている。
- 溢流発生予測が困難であり，迅速な予防措置の実施が遅れる場合がある。
- ネットワーク障害時にも監視を継続できる，堅牢なシステムを構築すること。
- 深層学習を用いた予測モデルをクラウドとエッジの両方で実行することで，高精度な溢流予測を実現した。
- Webベースのインタラクティブな監視ダッシュボードを開発し，リアルタイムな情報提供を可能にした。
- ネットワーク断絶時でもエッジ環境で監視を継続できる，堅牢なシステムであることを実証した。
Link: https://arxiv.org/abs/2605.10592
LLARS：LLMプロンプト，生成，評価のためのドメイン専門家と開発者の協働を可能にするシステム [cs.AI, cs.CL, cs.HC, cs.SE]目的：LLMベースシステム構築のためのドメイン専門家と開発者の連携
- LLMの活用は多様化するが，専門知識と技術力のギャップが課題。
- LLMの性能を最大限に引き出すには，適切なプロンプト設計と評価が不可欠。
- 専門家と開発者が円滑に連携し，LLMシステムの開発を効率化すること。
- LLARSは，リアルタイム共同プロンプトエンジニアリング，バッチ生成，ハイブリッド評価の3つのモジュールを統合。
- ドメイン専門家と開発者のインタビューにより，LLARSの直感的な操作性と時間短縮効果が確認された。
- LLARSは，最適なモデル・プロンプト組み合わせの特定を支援し，学際的な協働を促進する。
Link: https://arxiv.org/abs/2605.10593
CrackMeBench：エージェントのためのバイナリ逆アセンブル [cs.SE, cs.AI]目的：エージェントによるバイナリ逆アセンブル能力の評価
- サイバーセキュリティ分野において，バイナリ解析は脆弱性発見やマルウェア解析に不可欠である。
- 既存の評価方法では，複雑な環境設定や主観的な評価基準が存在する。
- バイナリ逆アセンブルにおけるエージェントの能力を客観的に評価する基準の確立。
- CrackMeBenchは，教育目的で作成されたCrackMe形式のバイナリ逆アセンブルタスクを評価するためのベンチマークである。
- GPT-5.5は生成されたタスクにおいて3回試行のうち11/12を，Claude Opus 4.7は7/12を，Kimi K2は5/12を合格した。
- 本ベンチマークは，再現性のある環境で，バイナリ解析におけるエージェントの進捗を測定するためのテストベッドを提供する。
Link: https://arxiv.org/abs/2605.10597
コードグラフによる予算効率の良い自動アルゴリズム設計 [cs.AI]目的：予算効率の良い自動アルゴリズム設計
- アルゴリズム設計は計算機科学の根幹であり，効率的なアルゴリズムは様々な分野の発展に不可欠である。
- 既存の自動アルゴリズム設計パイプラインは非効率であり，計算コストが高いという課題がある。
- 限られた計算資源で最大限の性能を発揮できる，予算効率の良いアルゴリズム設計手法を確立する。
- 提案手法では，アルゴリズムをコードグラフとして表現し，LLMを用いて修正演算子（追加，置換，削除）を取得する。
- このアプローチにより，既存のフルアルゴリズム探索と比較して，同等のトークン予算でより優れた性能を達成できる。
- 実験結果から，LLMの事前知識が浅い場合にのみ，豊富なコンテキストが有効であり，それ以外の場合は性能を阻害する可能性があることが示唆された。
Link: https://arxiv.org/abs/2605.10598
オープンボックスの誤謬：AI展開には調整された検証体制が必要である [cs.AI]目的：AI展開における検証体制の必要性
- 社会におけるAI利用拡大に伴い，安全性と信頼性の確保が重要となっている。
- AIの内部構造の説明可能性に過度に依存し，現実の展開課題への対応が遅れている。
- ドメイン固有の検証と継続的な監視体制を確立し，AI展開における安全性を確保すること。
- AIの能力はタスクによって異なり，汎用的なモデル承認ではなく，特定の用途に合わせた承認が不可欠である。
- 歴史的に，専門知識のガバナンスは，説明可能性よりも資格，監視，責任，異議申し立て，取り消しによって行われてきた。
- モデルの内部表現と出力修正の乖離は，理解が必ずしも行動につながらないことを示唆している。
Link: https://arxiv.org/abs/2605.10601
公平性対パフォーマンス：アルゴリズム意思決定システムのパレート最適解の特性評価 [cs.LG, cs.AI, cs.CY]目的：アルゴリズム意思決定システムにおける公平性とパフォーマンスのトレードオフ
- 社会におけるアルゴリズム利用拡大に伴い，公平性とパフォーマンスの両立が重要課題となっている。
- 公平性とパフォーマンスは相反関係にあり，そのトレードオフを定量的に評価する手法が不足している。
- 公平性とパフォーマンスのパレート最適解を特定し，意思決定の指針を提供する。
- パレート最適解は，個人の成功確率に対するグループ固有の閾値ルールによって決定されることが示された。
- 使用する公平性指標によっては，成功確率の低い個人を優先する上限閾値ルールもパレート最適解に含まれる場合がある。
- パレート最適解の位置は，母集団の特性，効用関数，公平性指標にのみ依存し，アルゴリズムの設計とは無関係である。
Link: https://arxiv.org/abs/2605.10604
フランス語における著者の文体への埋め込みの感受性の測定：文学テキストと言語モデルによる書き換えの比較 [cs.CL, cs.CL, cs.AI]目的：著者の文体への埋め込みの感受性評価
- 自然言語処理の発展に伴い，テキストの文体分析の重要性が増している。
- 言語モデルによる書き換え後，文体情報がどの程度保持されるか不明である。
- 埋め込みが文体情報を捉え，書き換え後も保持されるか検証する。
- 埋め込みは著者の文体特徴を確実に捉えていることが示された。
- 書き換え後も文体情報は保持される一方，言語モデル特有のパターンも存在する。
- これらの結果は，言語モデル時代における著者の模倣検出に役立つ可能性がある。
Link: https://arxiv.org/abs/2605.10606
LLMにおける脱獄検出のためのセーフガード再トリガー [cs.CC, cs.CR, cs.AI]目的：大規模言語モデルに対する脱獄攻撃の検知手法
- 近年，大規模言語モデルの悪用を防ぐため，安全性確保が重要となっている。
- 既存のセーフガードは回避可能であり，悪意のあるプロンプトによる攻撃が懸念される。
- LLM内部のセーフガードを再活性化することで，脱獄攻撃を検知・防御することを目指す。
- 提案手法は，LLMの内部防御機構と協調し，脱獄プロンプトを効果的に検知できる。
- 埋め込みの擾乱によりセーフガードを再トリガーし，ホワイトボックス・ブラックボックス環境で高い防御性能を示す。
- 適応的な攻撃に対してもロバストであり，実用的な脱獄攻撃対策となりうる。
Link: https://arxiv.org/abs/2605.10611
再構成可能コンピューティングの課題：ビッグサイエンスにおけるオンラインイベント選択のためのリアルタイムグラフニューラルネットワーク [cs.AR, cs.LG]目的：大規模科学実験におけるオンラインイベント選択のためのリアルタイムグラフニューラルネットワークの実装
- 素粒子物理学実験では，トリガーシステムが大量のデータをリアルタイムに処理する必要があり，高性能な計算基盤が不可欠である。
- FPGAのみの構成では，検出器の粒度向上に伴い，リソースの制約が顕著になり，性能向上が困難になる。
- FPGAとAI Engineタイルを組み合わせることで，リソース効率を高め，リアルタイム性を両立させる。
- AMD Versal VCK190上で，Belle II電磁カロリメーターのハードウェアトリガー向けに，動的グラフニューラルネットワークのリアルタイム実装を実証した。
- FPGAのみのベースラインと比較して，スループットが53%向上し，DSP利用率は99%から19%に削減された。
- 設計フローはPythonベースで半自動化されており，演算子の融合，分割，マッピング，空間並列化，カーネルレベルの最適化を包含する。
Link: https://arxiv.org/abs/2605.10612
PRISM：マルチエージェントLLMパイプラインにおける秘密漏洩の生成時検出と軽減 [cs.AI]目的：マルチエージェントLLMパイプラインにおける秘密情報の拡散と増幅
- LLMの応用拡大に伴い，セキュリティリスクへの対策が不可欠となっている。
- エージェント間での情報共有が，意図せず秘密情報の漏洩を助長する可能性がある。
- 生成過程に着目し，漏洩リスクを早期に検知・軽減する手法を確立すること。
- PRISMは，生成過程におけるリスク累積問題を解決するために，多様な特徴量を統合したリスクスコアを算出する。
- 識別パターン検出などの構造的特徴と，エントロピーの低下などの時間的シグナルを組み合わせることで，秘密情報の再構成前の早期警告を実現する。
- 2,000タスクのベンチマークにおいて，F1=0.832，適合率=1.000，再現率=0.712を達成し，既存手法を大幅に上回る性能を示した。
Link: https://arxiv.org/abs/2605.10614
MulTaBench：テキストと画像によるマルチモーダル表形式学習のベンチマーク [cs.CL, cs.LG, cs.CL, cs.CV]目的：マルチモーダル表形式学習のためのベンチマークデータセット
- 表形式データは広く利用されており，その学習は重要である。特に，数値やカテゴリカルデータに加えて，テキストや画像などの非構造化データを活用する研究が求められている。
- 既存のマルチモーダル表形式学習ベンチマークは，モダリティの単純な共起に焦点を当てており，タスク固有のチューニングによる効果が見えにくい。
- タスクに合わせた表現を学習することで，テキストと画像の情報をより効果的に活用し，予測性能を向上させる。
- MulTaBenchは，画像-表形式とテキスト-表形式タスクをそれぞれ20データセットずつ含む，合計40データセットから構成される大規模なベンチマークである。
- 実験結果から，タスクを意識した表現のチューニングは，テキストと画像の双方で性能向上に繋がり，様々な表形式学習モデルやエンコーダのスケール，埋め込み次元数に一般化することが示された。
- MulTaBenchは，ヘルスケアやeコマースといった高影響度の分野を網羅し，共同モデリングとタスクを意識した表現を組み込んだ新しいアーキテクチャの研究を促進する。
Link: https://arxiv.org/abs/2605.10616
ニューラルネットワーク完全検証のための階層的エンドツーエンドテイラー境界 [cs.LG, cs.SY, eess.SY]目的：ニューラルネットワークの安全性とロバスト性の検証
- 機械学習を搭載した物理システムの安全性確保が重要であり，そのためにネットワークの出力範囲を厳密に評価する必要がある。
- 既存手法では，高次の情報活用が不十分であり，厳密な範囲を計算することが困難である。
- 曲率のLipschitz連続性を体系的に活用し，よりタイトな安全証明を可能にすること。
- 本研究では，ヘッセ行列と曲率のLipschitz定数を用いて，ニューラルネットワークの検証フレームワークHiTaBを提案した。
- ゼロ次，一次，二次境界の統一的な階層を開発し，高次の近似が改善をもたらすための条件を明確化した。
- 深層ニューラルネットワークにおける曲率境界の伝播手法を開発し，$\ell_2$および$\ell_\infty$制約された入力セットに対応した。
Link: https://arxiv.org/abs/2605.10621
階層的因果的推論：説明可能なモデル予測制御の基盤フレームワーク [cs.AI, cs.LG]目的：説明可能なモデル予測制御のための基盤フレームワーク
- 重要インフラの安全な運用にMPCが広く用いられるが，透明性の欠如が課題。
- 非線形性や制約条件により，MPCの制御行動が人間にとって理解しづらい。
- MPCの制御行動に対する信頼性と導入を促進するため，説明可能性を向上させる。
- 本研究で提案する階層的因果的推論(HCA)は，LIMEと比較して説明精度を53%向上させた。
- HCAは，ドメイン知識グラフ，KKT乗数，PCMCIアルゴリズムを組み合わせることで，解釈可能な説明を生成する。
- HCAのランキングと検証手法は，MPC以外にも学習ベースの制御など，予測に基づく意思決定システムに適用可能である。
Link: https://arxiv.org/abs/2605.10624
明示的な意味論を用いた解釈可能な指代決解決評価 [cs.CL, cs.AI]目的：指代決解決の評価手法
- 自然言語処理において，文章理解の基礎技術であり，情報検索や質問応答等の応用分野で重要である。
- 従来の評価指標は集約的な統計量に基づき，モデルの弱点や改善点を見つけ出すのが困難であった。
- 意味論情報を活用し，モデルの能力を詳細に分析するための評価フレームワークを開発すること。
- 提案手法により，従来の指標では見過ごされていた，特定の意味カテゴリにおけるモデルの弱点が明らかになった。
- 意味カテゴリごとの評価スコアを用いて，抽出とリンクの能力を詳細に分析することが可能となった。
- この診断結果を活用し，低コストなデータ拡張戦略を設計し，ドメイン外での性能向上を達成した。
Link: https://arxiv.org/abs/2605.10627
内在的ガードレール：LLMにおけるパーソナリティの意味的幾何学と創発的誤調整の相互作用 [cs.CL, cs.AI]目的：LLMのパーソナリティ空間の構造と，微調整による誤調整の抑制メカニズム
- LLMの安全性確保は重要である。予期せぬ有害な振る舞いを防ぐことが求められている。
- 微調整によってLLMに有害な振る舞いが現れることがある。その原因の解明が課題である。
- パーソナリティ空間の構造を利用して，LLMの誤調整を抑制する手法を確立することを目指す。
- LLMのパーソナリティ空間は，良質なモデルと微調整後のモデルで安定した幾何構造を保っていることが示された。
- 「Evil」などの特定のベクトルを減衰させることで，誤調整率が大幅に上昇し，逆に増幅すると低下することが確認された。
- 事前抽出されたベクトルを用いて，微調整されたモデルの誤調整を効果的に抑制できることが示唆された。
Link: https://arxiv.org/abs/2605.10633
学習された最適化戦略からのヒューリスティックプログラムの教師あり進化 [cs.AI]目的：ヒューリスティックプログラムの進化
- 組合せ最適化問題の解決には，効率的なヒューリスティックが不可欠である。
- 既存手法は終端性能に依存し，局所的な探索が困難である。
- 教師となる最適化戦略からの行動指針により，探索を効率化する。
- 提案手法は，性能のみに着目した既存手法を上回る性能を示す。
- 推論時にニューラルネットワークを使用せず，実用性に優れる。
- 学習された最適化戦略を，ヒューリスティック探索の行動フィードバック源として再利用できる。
Link: https://arxiv.org/abs/2605.10634
LLM評価の海を航海する：毒性評価ベンチマークにおける偏りの調査 [cs.AI]目的：毒性評価ベンチマークにおける偏りの存在
- LLMの普及に伴い，安全なデプロイが重要となる。
- 既存のベンチマークには，認識されていない評価の偏りが存在する。
- より堅牢で包括的な安全評価フレームワークの必要性。
- ベンチマークの挙動は，評価設定を変更すると有意な差異が見られた。
- タスクをテキスト補完から要約に切り替えると，有害コンテンツと判断される傾向が高まる。
- 入力データドメインを変更すると，一部のベンチマークは一貫性を保てないことが判明した。
Link: https://arxiv.org/abs/2605.10639
言語モデルにおける継続的な事実知識獲得の理解に向けて：理論からアルゴリズムへ [cs.CL, cs.AI]目的：言語モデルの継続的な事実知識獲得のメカニズムの解明
- 言語モデルの性能向上には，新しい知識を継続的に獲得し，既存知識を維持することが不可欠である。
- 継続的な学習において，言語モデルは過去の知識を忘却しやすいという課題が存在する。
- この研究は，知識の忘却を軽減し，継続的な事実知識獲得を促進する手法を開発する。
- 理論的枠組みにより，継続的な事実知識獲得における学習ダイナミクスが単層Transformerを用いて解析された。
- 正則化ベースの手法はパラメータの収束速度を調整するだけで，忘却傾向は変わらないことが示された。
- データリプレイは収束ダイナミクスを変化させ，事前学習された知識を安定化させることが明らかになった。STOCはこれを改善する。
Link: https://arxiv.org/abs/2605.10640
LLaVA-CKD：ボトムアップカスケード知識蒸留によるVision-Languageモデル [cs.CV, cs.AI]目的：Vision-Languageモデルの効率的な知識伝達手法
- 近年，画像と言語を理解するVLモデルが多様なタスクで成果を上げている。
- VLモデルは計算資源を多く必要とするため，実用的な展開が課題となっている。
- 知識蒸留によるモデルの軽量化を目指し，段階的な知識伝達フレームワークを提案する。
- 提案手法であるボトムアップカスケード知識蒸留は，段階的にモデルの能力を向上させる。
- 理論的分析により，カスケード蒸留がStudentモデルの汎化性能に与える影響を検証した。
- LLaVAを基盤としたモデルで実験を行い，7つのVQAベンチマークで最高水準の性能を達成した。
Link: https://arxiv.org/abs/2605.10641
生成ギブスサンプリングによる明示的な物理的文脈を伴う拡散事前分布の合成 [cs.LG, cond-mat.stat-mech]目的：物理的文脈を考慮したサンプリング手法
- 科学的シミュレーションにおいて，正確な分布を得るには物理的背景の考慮が不可欠である。
- 事前学習済みの拡散モデルは物理的文脈を十分に捉えきれない場合がある。
- 事前知識と物理的文脈を組み合わせ，高精度なサンプリングを実現すること。
- GG-PAは，事前学習済みのモデルを再学習することなく，物理的文脈と組み合わせることが可能である。
- 複位井ポテンシャル，$\phi^4$格子モデル，原子レベルのペプチドシステムにおいて，文脈依存的な分布シフトを再現できた。
- 相互作用系における創発的な集団的振る舞いを，部分的な事前知識のみで捉えることが示された。
Link: https://arxiv.org/abs/2605.10642
単一層モデルによる言語モデリング [cs.CL, cs.LG]目的：言語モデリングにおける単一層モデルの可能性
- 言語モデルはAIの基盤技術であり，自然言語処理の性能向上に不可欠である。
- 深層モデルが主流だが，計算コストが高く，メモリ消費量が多いという課題がある。
- 単一層モデルで深層モデルに匹敵する性能を達成し，効率的な言語モデリングを目指す。
- 130Mパラメータの1層GPN+Mは，FineWeb-Eduのパープレキシティが18.06で，12層Transformer++(16.05)や10層GDN(15.34)に遜色ない結果を示した。
- 2層モデルでは，その差は6%/11%に縮小し，単一層モデルでも深層モデルに近づける可能性が示された。
- 単一のベクトルでコンテキストを処理することで，トークンの方向性や記憶メカニズムの解析が可能になった。
Link: https://arxiv.org/abs/2605.10643
diffGHOST：拡散に基づく生成ヘッジングされた無記名合成軌跡 [cs.AI, cs.CR]目的：移動軌跡のプライバシー保護と有用性の両立
- 移動軌跡は様々な応用において有用だが，個人情報を含むため，その取り扱いには注意が必要である。
- 既存モデルは，生成モデルの暗黙的なプライバシー保護に依存しており，十分なプライバシー保証を提供できていない。
- 学習された潜在空間における条件セグメントを用いて，重要なサンプルからの記憶を特定し，軽減することを目指す。
- 本研究では，潜在空間のセグメンテーションに基づく条件付き拡散モデルdiffGHOSTを提案した。
- diffGHOSTは，軌跡の有用性を維持しつつ，プライバシーを保護する手法を提供する。
- 重要なサンプルの記憶を特定・軽減することで，プライバシー侵害のリスクを低減できる。
Link: https://arxiv.org/abs/2605.10647
ゲート付き再帰型ニューラルネットワークの初期化におけるランダム行列基準 [cs.NI, cs.SY, eess.SY, cs.LG, cond-mat.dis-nn]目的：ゲート付き再帰型ニューラルネットワークの初期化基準
- 深層学習の発展には適切な重み初期化が不可欠であり，モデル性能に大きな影響を与える。
- リザバーコンピューティングでは，リザバーの重みが固定され，その豊かさが性能を左右するため，初期化が重要である。
- 初期化の臨界点推定基準を導出し，リザバーの性能を最大化する初期化設計の指針を示す。
- 無限幅極限において，意味のある初期化はランダムに初期化されたモデルの有効臨界点に位置することが示されている。
- 本研究では，幅広い再帰型アーキテクチャに対する臨界値$g_c$を推定する簡潔な基準を導出した。
- 導出された基準は，カオス的予測タスクにおいてゲート付きRNNリザバーがピークパフォーマンスを発揮するゲインと密接に関連していた。
Link: https://arxiv.org/abs/2605.10650
潜在変数の存在下における因果構造学習のための再帰的分解フレームワーク [cs.LG, cs.AI, stat.ML]目的：潜在変数存在下での因果構造学習
- データから因果関係を導くことは，科学的発見や意思決定に不可欠である。
- 高次元データにおける因果探索は計算コストが高く，実用上の課題となっている。
- 潜在変数存在下でも効率的な因果探索を可能とするフレームワークを構築すること。
- 提案手法DiCoLaは，学習タスクを再帰的に分解し，部分的な結果を統合することで，因果構造を効率的に学習する。
- 理論的な健全性と完全性が証明されており，様々な因果探索アルゴリズムにおいて計算効率が大幅に向上する。
- 合成データおよび実データ実験により，DiCoLaの有効性が実証された。
Link: https://arxiv.org/abs/2605.10651
自己誘起ボルツマン重み下におけるガウス過程回帰のための能動学習 [cs.RO, cs.LG, cs.AI]目的：未知関数と低予測誤差の学習
- 計算化学等におけるポテンシャルエネルギー面モデリング等，関数自体が誘導する分布を扱う課題の重要性
- 未知の分布と扱い困難な分配関数が，この分野における学習の大きな課題となっている
- 分配関数推定を回避し，未知の分布下でも高精度な学習を実現すること
- 提案手法AB-SID-iVARは，離散・連続入力ドメインの両方で適用可能であり，既存手法と比較して一貫した改善が確認された
- 穏やかな条件下で，最終的な予測誤差が確率的に消失することが証明され，平均的なケースでも保証された
- 合成ベンチマークおよび実際のポテンシャルエネルギー面モデリングや創薬タスクにおいて有効性が示された
Link: https://arxiv.org/abs/2605.10654
BCJR-QAT：トレリス符号化重み量子化の微分可能緩和 [cs.LG]目的：大規模言語モデルの量子化における性能向上
- モデルのサイズ縮小と高速化は，実用的なLLMの展開において重要である。
- 量子化精度を高めるには量子化対応学習が必要だが，トレリス構造上，微分が困難である。
- BCJRアルゴリズムを用いた微分可能緩和により，トレリス符号化量子化の精度向上を目指す。
- BCJR-QATは，Viterbiアルゴリズムの代わりにBCJRアルゴリズムを用いることで微分可能性を実現した。
- 単層BCJR-QATはWikiText-2において，QTIP-PTQよりも0.084 PPL改善される結果が得られた。
- 多層構造での組み合わせは，相乗効果を示し，さらなる性能向上が期待できる。
Link: https://arxiv.org/abs/2605.10655
ゼロ次適応が忘却しにくい理由：ランダム化された形状理論 [cs.LG]目的：継続学習における，過去の能力を損なわずに新しいタスクに適応するためのメカニズムの解明
- 継続学習は，AIの柔軟性と汎用性を高める上で不可欠であり，その重要性は増している。
- 従来の最適化手法では，新しいタスクを学習する際に過去の知識が失われる「忘却」が課題となる。
- この研究は，ゼロ次適応がなぜ忘却しにくいのかを理論的に解明し，より安定した継続学習を実現することを目指す。
- ゼロ次適応は，ファーストオーダー最適化と比較して，形状のランダム化によって保存勾配を維持し，等方的な保持フロアを維持しながら異方性成分のみを収縮させる。
- 観測されたファーストオーダーとゼロ次の間の二次的な忘却の差は，ゼロ次適応の形状が保持曲率の高い方向に適応することによって改善される。
- 提案手法RISEは，この理論に基づき，パラメータブロック内で正確なファーストオーダー勾配にゼロ次適応の形状を適用することで，安定性と可塑性のトレードオフを実現する。
Link: https://arxiv.org/abs/2605.10658
デジタルペルソナはいつ信頼できる程度で人間の調査結果を近似できるか [cs.CL, cs.AI, cs.SI, stat.ML]目的：人間の調査回答者の代替としてのデジタルペルソナの信頼性
- 調査研究は社会科学や市場分析において不可欠であり，正確なデータ収集が重要である。
- 従来の調査はコストや時間，回答者の確保が課題となる場合がある。
- 大規模言語モデルを活用したデジタルペルソナの適用範囲と限界を明確にすること。
- デジタルペルソナは，安定した属性や価値観に関連する分野において，人間の回答分布との整合性が向上する。
- 個々の回答予測や多変量的な回答者の構造の再現には限界があり，主観的，異質，または稀な回答に対しては性能が低下する。
- 検索拡張アーキテクチャが最も明確な改善をもたらすが，モデル選択よりも人間の回答構造に性能が左右される。
Link: https://arxiv.org/abs/2605.10659
bViT：画像認識のためのVision Transformerにおける単一ブロックの再帰的処理の調査 [cs.CV, cs.AI]目的：画像認識におけるVision Transformerの再帰的処理機構の解明
- 画像認識技術は，コンピュータビジョンの根幹であり，様々な応用分野で不可欠な要素である。
- Vision Transformerはパラメータ数が多く，計算コストが高いという課題を抱えている。
- 再帰的処理により，パラメータ数を削減しつつ，ViTの性能を維持することを目指す。
- bViTは，標準的なViT-Bと同等の精度を，より少ないパラメータ数で実現した。
- 再帰的性能は，表現幅を広げることで向上し，標準的なViTの性能に近づくことが示された。
- 共有ブロックが再帰的なステップごとに異なる振る舞いを示すことが明らかになり，ViTの深さを再帰的に再利用できる可能性を示唆した。
Link: https://arxiv.org/abs/2605.10661
エvolving-RL：エージェント内の経験駆動型自己進化能力の端点間最適化 [cs.AI]目的：経験駆動型自己進化エージェントにおける経験抽出と利用能力の向上
- 大規模言語モデルの静的性質を克服し，新たなタスクへの適応能力を高める必要性
- 既存研究はシステムレベルの設計に偏り，基盤モデル自体の能力への着目が不足している
- 経験抽出と利用を統合的に最適化することで，自己進化プロセス全体の効率化を目指す
- Evolving-RLは，LLMにおける経験抽出と再利用能力を効果的に向上させることを示した。
- ALFWorldとMind2Webの実験で，未知のタスクにおいてGRPOベースラインと比較して最大98.7%の性能向上を達成した。
- 経験抽出と利用の協調進化により性能向上が最大限に発揮され，経験をモデルパラメータに組み込むことで，既知・未知のタスクで優れた性能を示した。
Link: https://arxiv.org/abs/2605.10663
プロンプト活性化の二面性：注意レベル介入による活性化制御の改善 [cs.CL, cs.AI]目的：言語モデルの活性化制御手法の改善
- 言語モデルの挙動制御は，人間との自然な対話を実現する上で不可欠である。
- 従来の活性化制御は，特に長文の対話において一貫性が損なわれる問題がある。
- プロンプトに由来する注意機構を活用し，活性化制御の信頼性を高める。
- Gated Cropped Attention-Delta (GCAD)steeringは，KVキャッシュ汚染による一貫性低下を防ぐ。
- GCADは，ペルソナ制御を維持しつつ，長文対話における一貫性を大幅に改善する。
- GCADは，ターン10における特性表現を78.0%から93.1%に向上させた。
Link: https://arxiv.org/abs/2605.10664
閉形式の相対密度推定のためのスペクトルフレームワーク [cs.LG, math.OC, math.ST, stat.TH]目的：線形パラメータ化確率モデルにおける相対対数密度推定
- 確率モデリングは，機械学習や統計的推論の根幹であり，その精度向上が重要である。
- KLダイバージェンスの推定は計算コストが高く，最適化が困難な場合がある。
- KLダイバージェンスを最小二乗問題に変換し，効率的な密度推定を実現する。
- 提案手法は，第一および第二の階の統計量に基づき，閉形式の推定量を導出する。
- このフレームワークは，f-ダイバージェンスの広いクラスに拡張でき，カーネル化やニューラルネットワークと組み合わせることが可能である。
- 合成データを用いた実験により，提案手法が最適化ベースの手法と同等またはそれ以上の性能を示すことが確認された。
Link: https://arxiv.org/abs/2605.10668
自然方策勾配を二重平滑化方策反復として：ベルマン演算子の枠組み [cs.DC, cs.LG, math.OC, stat.ML]目的：強化学習における主要なアルゴリズムである自然方策勾配の定式化
- 強化学習は，最適な意思決定戦略を学習する重要な手法であり，ロボット工学やゲームAI等，幅広い分野に応用されている。
- 従来の強化学習アルゴリズムは，収束が遅い，局所解に陥りやすいといった課題が存在する。
- 自然方策勾配の理論的性質を明確にし，より効率的な学習アルゴリズムを開発することを目指す。
- 自然方策勾配が，平滑化・平均化された方策反復の一つの形として正確に表現できることを示した。
- 二重平滑化方策反復（DSPI）というベルマン演算子の枠組みを導入し，DSPIが方策反復を含むことを示した。
- DSPIの分布フリーな幾何学的収束性を証明し，自然方策勾配の計算複雑性に関する新たな評価を与えた。
Link: https://arxiv.org/abs/2605.10671
量子化されたゼロ次最適化のためのコンパンダー整合クエリジオメトリ [cs.HC, cs.LG]目的：量子化されたゼロ次最適化におけるクエリジオメトリの解析と改善
- メモリ効率の良い適応のため，低ビットでの評価が重要視されている。
- 量子化されたゼロ次クエリは，連続的な有限差分ではないため，予測が困難である。
- クエリジオメトリを考慮することで，量子化誤差による影響を軽減し，最適化性能を向上させる。
- コンパンダー整合クエリ(CAQ-ZO)は，クエリ時の残差をゼロにする理論的保証を提供する。
- 実験的に，CAQ-ZOが残差チャネルを分離し，その効果を検証した。
- NF4 Qwen/Llamaのファインチューニングにおいて，CAQ-ZOはベースラインを改善することを示した。
Link: https://arxiv.org/abs/2605.10673
ステップ拒否ファインチューニング：実用的な蒸留レシピ [cs.LG, cs.AI, cs.CL, cs.SE]目的：LLMエージェントの訓練におけるステップレベルの誤りからの回復学習
- LLMエージェントの性能向上は，複雑なタスク解決において重要であり，自動化の可能性を広げる。
- 従来の拒否ファインチューニングでは，未解決の軌跡を廃棄するため，貴重な学習機会を失う可能性がある。
- 未解決の軌跡を完全に廃棄せず，ステップレベルで評価することで，より効果的な学習を目指す。
- ステップ拒否ファインチューニング（SRFT）は，未解決の軌跡をフィルタリングすることで，解決率を3.7%向上させた。
- 従来の拒否ファインチューニング（RFT）と比較して，SRFTはより多くの情報量を保持し，モデルの回復能力を高める。
- SWE-bench Verifiedにおける評価により，SRFTの総解決率は32.2%に達し，その有効性が示された。
Link: https://arxiv.org/abs/2605.10674
盲目ではないが沈黙させられている：敵対的常識均衡による視覚と言語の再均衡 [cs.CV, cs.LG]目的：視覚と言語の不均衡を是正するための手法
- マルチモーダル大規模言語モデルの性能向上は，視覚情報と言語情報の適切な統合に不可欠である。
- 既存手法では，無関係な視覚トークンをノイズとみなし，注意を強制的に偏らせることで不均衡を悪化させている。
- 視覚的文脈を敵対的パッチで摂動させ，安定した視覚信号を補正することで均衡を回復する。
- ACEは，トレーニングを必要としないプラグアンドプレイ型フレームワークであり，推論時のオーバーヘッドを無視できる。
- ACEは，幻覚を引き起こす言語的先入観を抑制しつつ，安定した視覚信号を補正することで，視覚と言語のバランスを調整する。
- 実験結果から，ACEがモデルの信頼性を高めることが示された。
Link: https://arxiv.org/abs/2605.10676