arXiv雑要約
AI - 2026/06/03 公開
物理学に基づいたデータ圧縮に対する幾何学的レンズ [cs.LG]目的:物理学に基づいた損失関数を用いた科学データの学習圧縮におけるレート歪み間のトレードオフの解明
- 科学シミュレーションのデータサイズ増大に伴い,効率的なデータ圧縮技術の重要性が高まっている。
- 従来のデータ圧縮では,物理現象の重要な特徴を捉えきれない場合がある。
- レートと歪みの関係を幾何学的に理解し,物理量の保存と再構成精度の両立を目指す。
- 物理量の保存と再構成精度は,潜在空間における感度,物理量,歪み指標の相互作用によってトレードオフが生じることが示された。
- レート固定時に物理量を改善すると,標準的な歪みが悪化する根本的な限界が存在することが明らかになった。
- 局所的な接空間レート歪み法則を形式化し,主要な固有空間の重複に基づく実用的なアライメント診断を導入した。
Pythiaの多段推論設定におけるクロスモデル活性転移に関する否定的な結果 [cs.AI]目的:言語モデル間の有用な中間推論状態の伝達可能性
- 大規模言語モデルの能力向上には,モデル内部の知識表現の理解が不可欠である。
- モデル間の知識伝達手法は確立されておらず,効果的な通信方法が課題である。
- 活性の直接伝達による知識共有の可能性と限界を検証する。
- 送信モデルと受信モデルの隠れ状態間に強い正規化空間マップが学習された。
- 学習されたマップを用いて活性を注入しても,下流タスクの性能向上は見られなかった。
- 活性の注入は性能を低下させ,表現的なアラインメントだけでは十分ではないことが示された。
初心者プログラマーのためのAI生成トレース:多施設共同研究による学習効果と学習者特性 [cs.CY, cs.AI]目的:プログラミング初学者における学習効果の検証
- プログラミング教育において,プログラムの実行過程の理解は重要である。
- 従来の可視化手法の効果は設計や文脈に左右され,AI生成可視化の有効性は未だ不明である。
- AI生成アニメーションによるトレースが,学習効果向上に貢献するか検証する。
- AI生成トレース(GAT)は,即時的な学習効果において限定的な利点を示すことが示された。
- しかし,その効果は文脈に依存し,持続性はないことが明らかになった。
- 学習者の学習意欲によってGATの効果が左右されることが示され,個別化されたアプローチの重要性が強調された。
メッセージ調整がグラフプロンプト調整を上回る:プリズム空間からの考察 [cs.LG, cs.AI]目的:グラフファウンデーションモデルの適応能力の定量化
- グラフ学習は,複雑な関係性を表現する上で重要であり,様々な分野で応用が期待されている。
- グラフプロンプト調整の適応能力を厳密に測定する方法が確立されておらず,その限界理解が課題となっている。
- グラフプロンプト調整の理論的上限を超越する適応手法を開発し,その能力を証明することを目指す。
- 本研究では,適応能力を定量化する新しい数学的枠組み「プリズム空間理論」を提案した。
- 提案手法である「メッセージ調整」は,グラフプロンプト調整の理論的上限を超える適応能力を持つことを理論的に証明した。
- 様々なベンチマークデータセットにおいて,メッセージ調整がグラフプロンプト調整のベースラインを上回る性能を示すことが実験的に確認された。
LEAP:エージェント的フレームワークによる形式数学のためのLLM性能向上 [cs.AI]目的:形式数学の自動定理証明における性能向上
- 形式数学は,数学的推論の厳密性と正確性を保証する上で重要である。
- 大規模言語モデル(LLM)は,形式言語での機械的に検証可能な証明の生成に苦戦している。
- LLMを用いて形式定理証明の能力を高め,複雑な数学問題を解決すること。
- LEAPは,LLMをエージェントとして活用するフレームワークであり,形式定理証明において最先端の性能を達成した。
- LEAPは,最新の2025 Putnam Competitionの問題を全て解決し,既存の形式数学モデルに匹敵する成果を示した。
- Lean-IMO-Benchにおいて,LLMの形式的解決率を10%未満から70%に向上させ,専門的なIMOシステムを上回った。
スクリプトから意味論へ:アフリカNLIのためのプロンプティング戦略 [cs.CL, cs.LG]目的:アフリカの低リソース言語における自然言語推論(NLI)のためのプロンプティング戦略
- 多言語対応はLLMの重要な評価項目であり,特に低リソース言語への対応が求められている。
- アフリカ言語のような低リソース言語におけるLLMの推論行動は,ファインチューニングなしでは十分に調査されていない。
- プロンプティング戦略の有効性を検証し,低リソース言語NLIの堅牢性を向上させる。
- コントラストプロンプティングが,言語とモデルを超えて最も信頼性が高く,性能改善も安定していた。
- 適切なプロンプト設計により,Few-shotやChain-of-Thoughtを用いたより強力なベースラインを上回る結果が得られた。
- 言語を意識した意思決定構造が,低リソース環境における多言語NLIの堅牢性を高める上で有効であることが示された。
ベンチマーク監査における信頼性のギャップ:分布シフトと規模が汚染検出の失敗モードとなる [cs.AI]目的:大規模言語モデルの評価におけるベンチマーク汚染の信頼性検証
- LLMの性能評価は重要であり,その妥当性を担保する必要があるため。
- 評価データが学習データに含まれる汚染問題があり,その検出手法の信頼性が課題となっている。
- 現実的な監査環境下での汚染検出手法の信頼性ギャップを明らかにし,解決策を探る。
- 主要な汚染検出手法は,分布シフトや規模の制約により,現実のベンチマーク監査では期待される性能を発揮しないことが示された。
- 特にLLM Dataset Inferenceは分布シフトで偽陽性が発生し,Post-Hoc Dataset Inferenceはベンチマーク規模では検出力が低い。
- CoDeCは粗い情報しか提供できず,個々のベンチマーク分割を検証するには不十分である。統計的検出は透明なデータ来歴に取って代わるものではない。
グラフ基盤モデルの一般化:双曲型検索拡張生成によるアプローチ [cs.IR, cs.AI]目的:グラフ基盤モデルの一般化能力の向上
- グラフ表現学習は,様々な分野での応用が期待されており,重要性が高まっている。
- 既存のグラフ基盤モデルは,分布シフトへの対応が弱く,汎化性能に課題がある。
- 双曲空間を用いた検索拡張生成により,外部知識の活用とモデルの汎化性能向上を目指す。
- 提案手法HyRAGは,双曲空間に知識ベースを構築することで,セマンティックな粒度を保持し,ハブネス現象を抑制する。
- 粗粒度・微粒度の知識検索を通じて,グラフ基盤モデルにグローバルなセマンティックアンカーとローカルなセマンティックニュアンスを提供する。
- 複数のグラフベンチマークにおいて,ゼロショット設定で顕著な性能向上を示し,提案手法の有効性を実証した。
多重スケールハイパーグラフ学習による高次脳接続性解析 [cs.LG, cs.AI]目的:高次脳接続性の解析手法
- 脳領域間の複雑な相互作用の理解は,アルツハイマー病などの神経変性疾患の早期分類に不可欠である。
- 既存のグラフモデルは,直接接続されたノード間のペアワイズな相互作用に焦点を当てており,高次の依存関係を捉えきれていない。
- 多重スケールハイパーエッジ学習フレームワークを導入し,高次の相互作用を動的に学習することで,この課題を解決する。
- 提案手法MuHLは,複数の脳ネットワークベンチマークにおいて,異なる段階の疾患分類性能を安定的に向上させた。
- 学習されたハイパーエッジから,疾患の進行に関連する主要な関心領域(ROI)とそのグループ間の相互作用を特定した。
- 本研究は,神経変性疾患における脳ネットワーク解析のための強力なツールとなる可能性を示唆している。
ロボットの価値観:人間の価値観が対立する場合の家庭用ロボットの評価 [cs.RO, cs.AI]目的:家庭用ロボットが価値観の対立状況において,タスク遂行以外の価値を優先する選択をする際の評価基準
- 家庭用ロボットの普及に伴い,単なるタスク遂行能力だけでなく,倫理的な判断能力が重要になっている。
- ロボットの価値観が人間の価値観と異なる場合,不適切な行動をとる可能性があり,評価方法が確立されていない。
- ロボットが人間の価値観の対立状況下で適切な行動を選択できるかを評価するベンチマークを構築し,検証する。
- 本研究では,10,000件の価値観対立シナリオを含む「RobotValues」というベンチマークを構築した。
- 評価の結果,ロボットモデルは安全性や協調性を優先する傾向があり,プライバシー保護の行動が選択される頻度は低いことが示された。
- 特定の価値観を指示された場合でも,モデルはデフォルトの行動を優先し,指示された価値観に基づいた行動が約80%のケースで選択されなかった。
スペクトル解析とプロトタイプ誘導空間伝播を用いたグラフ基盤モデル [cs.LG]目的:多様なグラフからの知識伝達と,未知のグラフおよびタスクへの汎化
- グラフ構造のデータは,社会や科学の様々な分野で出現し,その分析は重要である。
- グラフデータは語彙や規則的な空間構造を持たず,グラフ間の知識伝達が困難である。
- グラフの構造的パターンを捉え,周波数特性に応じた伝播を可能にすることで汎化性能を向上させる。
- SPGは,学習可能なChebyshevフィルタを用いてノード特徴を複数のスペクトル応答に分解する。
- Gromov-Wassersteinプロトタイプ幾何学を構築し,事前に定義された部分構造を超えたペアワイズ関係を抽出する。
- 実験により,SPGがクロスドメイン汎化において一貫した改善を示すことが確認された。
運転領域変化下における熱水力代替モデルのオンライン適応のための検証ゲート付きマルチエージェントガバナンス [cs.SI, cs.CL, cs.LG, cs.MA, cs.SY, eess.SY]目的:熱水力代替モデルのオンライン適応のためのマルチエージェントガバナンスフレームワーク
- 原子力プラントの安全性を向上させるため,高精度な熱水力予測が不可欠である。
- オフラインで学習した代替モデルは,運転条件の変化により予測精度が低下する可能性がある。
- 本研究では,運転領域の変化に対応可能な,安全性を重視した適応メカニズムを開発する。
- マルチエージェントによるガバナンスフレームワークは,エラーシグネチャの診断,モデル候補の優先順位付け,モデル更新のレビューを行う。
- このフレームワークは,静的配備と比較して平均絶対誤差を19.0%低減し,警告超過率を大幅に改善した。
- 検証されたモデルの更新により,ログに基づいた監査可能な代替モデルの進化が可能となることが示された。
トランスフォーマー誘導適応拡散を用いたマルチモーダルグラフニューラルネットワークによる前臨床アルツハイマー分類 [cs.LG, cs.AI]目的:前臨床アルツハイマー病の分類
- 脳のグラフ表現は,疾患の診断と予後予測に不可欠な知見を提供する。
- 既存のGNNは脳ネットワークの解釈に限界があり,遠隔領域の情報集約や重要ノードの特徴抽出が課題である。
- 多様なモダリティからの特徴量を用いて,疾患特異的な変化を捉えることを目指す。
- 提案手法は,拡散カーネルとマルチヘッドアテンションにより,グラフの短期・長期特性を集約する。
- 前臨床アルツハイマー病の分類において,既存手法を上回る性能を示す。
- アルツハイマー病の前臨床段階と密接に関連する主要なROIを特定する。
dstack-capsule: Kubernetes 上での機密ワークロード向けポッドレベルリモートアテステーション [cs.CR, cs.AI]目的:Kubernetes 環境におけるポッドレベルのリモートアテステーションの実現
- LLM などの機密クラウドワークロードの増加に伴い,安全な処理環境の証明が重要になっている。
- 既存の Confidential Containers (CoCo) はVMあたり1ポッドに限定され,オーバーヘッドが大きい。
- 複数のポッドが1つの機密VMを共有しつつ,個々のポッドのIDを検証可能とする。
- dstack-capsule は,Intel TDX を利用し,ポッドレベルのアテステーションを実現する Kubernetes プラットフォームである。
- RTMR にプラットフォーム測定値を固定し,動的なポッド ID を TDX Quote に埋め込むことで,ハードウェアによる署名を可能にしている。
- ポッドの仕様ダイジェストとハードウェア署名付き Quote を関連付けるアテステーションプロトコルを導入し,VMレベルのオーバーヘッドを削減している。
違反状況パターン:コンプライアンス違反のための知識グラフパターン [cs.AI]目的:コンプライアンス違反の知識グラフパターン
- コンプライアンス遵守は,法的・倫理的リスクを軽減し,信頼性を高める上で重要である。
- 従来のコンプライアンスパイプラインは,違反を一時的なクエリ結果として扱うため,履歴管理が困難である。
- 違反情報を永続的なグラフオブジェクトとして管理し,監査履歴を構築することで,コンプライアンス管理を改善する。
- 違反状況パターン(VSP)は,違反をグラフノードとして表現し,ルール識別子,有効期間,ライフサイクル状態,証拠リンクを記録する。
- ルール本体の独立性により,違反検出ロジックの進化が監査履歴の有効性を損なわない。
- 実証実験の結果,V4の条項チェックを期限チェックに拡張することで,F1スコアが0.312から0.602に向上した。
能力次元にわたるキャリブレーションデータのトレードオフ:高疎性LLMプルーニングにおけるマルチソース混合の重要性 [cs.DB, cs.CL, cs.LG, cs.AI]目的:高疎性LLMプルーニングにおけるキャリブレーションデータの特性と,マルチソース混合による性能改善
- 大規模言語モデルの効率化は,計算資源の削減と実用性の向上に不可欠である。
- 既存研究では,キャリブレーションデータのソース選択が精度に与える影響は小さいとされている。
- 異なる能力次元におけるキャリブレーションデータの最適な組み合わせを特定し,性能低下を防ぐ。
- 能力次元ごとにキャリブレーションデータの相関関係を分析した結果,perplexityと汎用性との間には正の相関,数学・コード能力との間には負の相関が認められた。
- 単一のソースでは全ての能力を維持することが困難であり,マルチソース混合の有効性が示唆された。
- 提案手法IGSPは,情報に基づいてマルチソースを構築し,SparseGPT 60%疎性において既存手法を上回る性能を達成した。
InfoMem:回答条件付き情報ゲインを用いた長文脈メモリエージェントの学習 [cs.AI]目的:長文脈タスクにおける回答に関連する情報を識別・保持する能力の向上
- 長文脈タスクはLLMの性能を測る上で重要であり,その処理能力が注目されている。
- 既存のchunk-wiseエージェントは,最終的な回答の正確性を直接評価する報酬が不足している。
- 回答に条件付けられた情報ゲインを用いて,最終メモリの有用性を評価し,エージェントの学習を改善する。
- InfoMemは,最終メモリが正解の対数尤度をどれだけ高めるかを評価する報酬メカニズムである。
- 成功した軌跡に対してのみInfoMemを適用し,報酬合成前に正規化することで,RLの最適化を安定化させている。
- 実験の結果,InfoMemは既存のchunk-wiseメモリエージェントのRLベースラインよりも優れた性能を示した。
FLIPS:擬似乱数系列によるLLMのインスタンス指紋認証 [cs.LG, cs.AI, cs.CR]目的:LLMの構成による識別
- AI利用拡大に伴い,LLMの安全性評価が不可欠となっている。
- 従来の指紋認証技術はモデルの出自に重点を置き,構成変化に弱い。
- LLMの実際の挙動を識別し,規制遵守状況の評価を可能にする。
- 提案手法FLIPSは,生成される二値乱数系列の偏りを活用し,高い識別精度を実現した。
- 237のモデルインスタンスに対し,96%(閉集合)および90%(開放集合)の識別精度を達成した。
- これは,従来のLLMmapベースラインの35%と比較して大幅な改善である。
実世界における家電修理に関する質問に対するLLMの有効性評価 [cs.CL, cs.AI]目的:家電修理に関する実世界の問題に対するLLMの有効性
- 家電修理は,LLMの性能を評価する上で重要な未開拓の分野である。
- 不完全な情報,専門的な診断,安全性が求められるため,誤ったアドバイスは機器の損傷につながる。
- LLMが安全かつ適切な修理支援を提供できるか検証する。
- LLMは修理の助けにはなるものの,厳格な評価と安全対策なしには高リスクな修理には不向きである。
- 特に電話修理は難易度が高く,安全性も重要であり,モデルは基板レベルの診断で大きな誤りを犯す。
- バングラ語での応答は,英語での応答に比べて一貫して性能が劣る。
下流タスク向けに厳密なプロパー・スコアリング・ルールを調整する:因果推論への応用 [cs.LG]目的:下流タスクにおける厳密なプロパー・スコアリング・ルールの調整
- 確率モデルの性能は,様々なタスクに影響を与える。適切な学習が重要である。
- 因果推論におけるIPWでは,傾向スコアの誤差がバイアスや分散の増大を引き起こす。
- 下流誤差指標の局所的な曲率を一致させることで,タスク特化型の損失関数を導出すること。
- 本研究で提案する調整された目的関数は,標準的な尤度ベースの手法や共変量バランス手法を安定的に上回る。
- ATE推定に適用可能な閉形式の損失関数と,それに対応する確率写像を導出した。
- 因果推論ベンチマークにおける広範な評価により,提案手法の有効性が示された。
SemEval-2026タスク9:偏極化検出のためのプロンプト変種評価 - Lingo_Research_Group [cs.CL, cs.LG]目的:偏極化検出のためのプロンプト変種の効果検証
- 社会における意見対立の理解は重要であり,その自動検出は社会的課題解決に貢献しうる。
- 多言語における偏極化の自動検出は,言語的ニュアンスや文化的背景の違いにより困難である。
- プロンプト設計によって,言語モデルの偏極化検出能力を向上させることを目指す。
- 提示されたシステムは,22言語の平均で,タスク1でF1スコア0.762,タスク2で0.587,タスク3で0.444を達成した。
- 粗粒度の偏極化検出にはプロンプトベースのアプローチが有効だが,細粒度およびマルチラベル分類では課題が残る。
- aya-101とGemma3-27Bを用いた実験の結果,後者がより高性能であったため,提出に採用された。
自己教師あり学習表現の評価:内在次元によるアプローチ [cs.RO, cs.LG, cs.CV]目的:自己教師あり学習表現の評価手法
- ラベルなしデータから有用な表現を獲得する自己教師あり学習は重要性が増している。
- 既存の評価手法は計算コストが高く,ハイパーパラメータに依存し,表現空間の構造理解が困難である。
- 内在次元推定により,効率的かつ原理に基づいた評価を実現し,ハイパーパラメータ選択を容易にすること。
- 提案手法IdEstは,自己教師あり学習表現の内在次元を効率的に推定し,線形プロービング性能と強い相関を示す。
- IdEstを用いることで,計算コストを大幅に削減しながら,適切なハイパーパラメータを迅速に選択できる。
- 内在次元は,自己教師あり学習表現を評価するための有効な幾何学的指標となりうる。
RogueMerge: LLMモデル結合に対する堅牢かつ統一的な攻撃 [cs.CR, cs.LG]目的:LLMモデル結合への攻撃手法の開発
- LLMの能力拡張にモデル結合が活用されているため,そのセキュリティ確保は重要である。
- モデル結合において,悪意のあるタスクベクトルがモデルに組み込まれるリスクが存在する。
- 未知の結合設定や多様な攻撃プロンプトに対応可能な,堅牢な攻撃手法の確立を目指す。
- RogueMergeは,モデル結合後の攻撃成功を明示的に保証する共同最適化により,自己回帰的生成における攻撃の脆弱性を克服した。
- 未知の結合設定に対応するため,RogueMergeは攻撃注入を確率的min-max問題として定式化し,メタ学習様式のシミュレーションで解決した。
- RogueMergeは,様々な攻撃プロンプトへの汎化性能を高めるため,分布ロバスト最適化を採用し,LLMスケールで扱いやすい一次テイラー近似を導出した。
AugMask:確率的拡張とマスキングによる不完全な表形式データに対する拡散モデルの訓練 [cs.LG, cs.AI, stat.ML]目的:不完全な表形式データに対する拡散モデルの訓練方法
- 表形式データは様々な分野で利用され,その生成モデルの重要性は高い。
- 現実世界の表形式データには欠損値が含まれることが多く,拡散モデルへの適用が困難である。
- 欠損値を含むデータでも拡散モデルを効果的に訓練し,生成性能を向上させることを目指す。
- AugMaskは,欠損値に無頓着なバックボーンを不完全なデータに適合させるためのプラグアンドプレイ型の訓練フレームワークである。
- 条件付き確率的拡張と観測された座標へのノイズ除去の監視を組み合わせることで,欠損値を不確実な条件付けコンテキストとして扱う。
- 多様なデータセットと欠損パターンにおいて,AugMaskは既存の欠損値対応ベースラインよりも優れた性能を発揮する。
SynCred-Bench:AI生成による視覚的誤情報の信頼性評価ベンチマーク [cs.CV, cs.AI]目的:AI生成による視覚的誤情報の信頼性評価のためのベンチマーク
- 近年のAI技術の発展は,誤情報の拡散リスクを高めており,その対策が急務である。
- AIが生成した画像は,そのリアルさから信頼性を判断することが困難である。
- AI生成画像に特化した信頼性評価手法の開発を促進し,誤情報検出能力の向上を目指す。
- 既存のシステムは信頼性が低く,誤検出率を抑制すると真陽性率が著しく低下する。
- オープンソースのAI生成コンテンツ検出器は5%未満,商用APIも57.6%程度の性能にとどまる。
- 人間による識別も63%程度の真陽性率であり,AI生成された視覚的誤情報の検出は依然として困難である。
APIC:ニューラルプロセスを用いた償却付き物理モデル情報校正 [cs.LG]目的:物理モデルの系統的な誤差の校正
- 物理モデルは現実世界の観察とのずれが生じやすい。信頼性向上のためには,その誤差を適切に評価し修正する必要がある。
- 従来の校正手法は個々の事例に対して適用する必要があり,大規模なシステム群に対しては適用が困難であった。
- ニューラルプロセスを用いて,効率的かつスケーラブルな校正手法を開発し,未知のシステムに対する予測精度を向上させる。
- APICは,物理パラメータと構造的な誤差を分離する二分岐潜在アーキテクチャを用いることで,少ない観測データから迅速な校正を可能にした。
- ダンピングされたスプリング振動子,Lotka-Volterra系,および拡散方程式を含む実験において,他の校正手法と比較して,パラメータの復元精度と系統的な誤差構造の特定が向上した。
- 本手法は,物理モデルの不確実性を定量化しながら,未知のシステムに対する校正を効率的に行うことができる。
未サンプリングされた真実:SLMにおける心理測定は,心理的構成ではなくプロンプトのアーティファクトを測定する [cs.CL, cs.AI]目的:SLMにおける心理測定の妥当性評価
- 大規模言語モデル(SLM)の心理測定への応用が注目されているが,その信頼性には疑問が残る。
- SLMの出力が,心理的特性を反映しているのか,プロンプトに依存したアーティファクトなのかが不明である。
- プロンプトの変異を系統的に分析し,アーティファクトと意味的信号を分離することで,SLMの限界を明らかにする。
- SLMの出力は,多くの場合,意味的信号よりもプロンプトへの適合性が優先されていることが示された。
- これは,SLMを心理測定に用いることの限界を示唆する。
- 本研究で開発されたフレームワークは,破壊的なアーティファクトの特定と,意味的理解の分離に役立つ。
世帯負荷プロファイルにおける時間粒度の社会人口統計学的推論への影響 [cs.LG]目的:世帯負荷プロファイルからの社会人口統計学的推論の精度に対する時間粒度の影響
- スマートメーターデータは個人の生活を反映し,社会経済状況の分析に有用である。
- 負荷プロファイルから個人情報が推測される可能性があり,プライバシー保護が課題である。
- 時間粒度がプライバシーと有用性のバランスに及ぼす影響を明らかにすること。
- 時間粒度を粗くすると予測精度は低下するが,15分~1時間,1時間~7日で精度が安定するプラトーが見られた。
- 手動特徴量とtsfresh特徴量はCNNベースのオートエンコーダー埋め込みと同等の性能を示し,XGBoostが他の分類器を上回った。
- 住宅サイズは粗いデータでも推測可能だが,プールの利用状況は詳細な時間信号が必要であることが示された。
注意機構と残差結合を用いたLSTMネットワークによる音声感情認識 [cs.SD, cs.CL, cs.LG]目的:音声感情認識の軽量アーキテクチャ
- 人間とコンピュータの自然な対話を実現する上で,感情認識は不可欠な要素である。
- 高性能な感情認識モデルは,計算資源やメモリを大量に消費し,実用上の制約となる。
- 省資源で効率的な感情認識モデルを開発し,エッジデバイスへの実装を可能にすること。
- 提案モデルResLSTM-SAは,RAVDESSデータセットにおいて,既存のLSTMベースラインやCNNアーキテクチャを上回る性能を示した。
- 特に,ResLSTM-SA-h64は,わずか46.8kの学習可能パラメータで,UAR 0.6517という高い精度を達成した。
- 大規模な自己教師あり学習モデルと比較して,パラメータ数を3桁削減し,リアルタイム処理やエッジデバイスでの利用を促進する。
誤った報酬伝播の緩和:ルーブリックベースの強化学習のための確率グラフ報酬集約 [cs.LG]目的:ルーブリックに基づく報酬集約における誤った報酬伝播の軽減
- 大規模言語モデルの性能向上には,人間による評価を反映した報酬設計が重要である。
- 従来のルーブリック報酬集約は,基準間の依存関係を無視し,不適切な報酬を与える可能性がある。
- 基準間の依存関係を考慮した報酬集約により,より正確な評価と学習の促進を目指す。
- 提案手法GEARは,ルーブリックの依存関係を確率グラフでモデル化することで,誤った報酬伝播を抑制する。
- HealthBench,WritingBench,PLawBenchにおける実験により,GEARは従来の集約方法よりも最大15.5%の性能向上を示した。
- GEARは,漏洩を96.5%削減し,正当な報酬の保持にも貢献することが示された。
知識グラフ埋め込みにおける不安定性の種:リンク予測か破滅か [cs.LG]目的:知識グラフ埋め込みモデルの安定性に関する分析
- 知識グラフは,様々な情報とそれらの関係性を構造化して表現するため,AI分野で重要性が増している。
- 既存の評価指標は,ランダムシードの影響や個々の予測の不安定性を見過ごしがちである。
- 知識グラフ埋め込みモデルの予測の変動性と埋め込み空間の組織における不安定性を明らかにすること。
- 複数の知識グラフ埋め込みモデルにおいて,高い性能を示すモデルでも,トリプルレベルでの予測のばらつきや埋め込み空間の変動性が確認された。
- 初期化,トリプル順序,負例サンプリング,ドロップアウト,ハードウェアなど,確率的要因がそれぞれ独立して不安定性を引き起こすことが示された。
- MRRの良好なハイパーパラメータ設定が,必ずしも安定性を保証するわけではなく,投票による安定化効果も限定的であることが示された。
P2-DPO:知覚処理を通じたキャリブレーション直接選好最適化によるハルシネーションの抑制 [cs.CL, cs.RO, cs.CV, cs.AI, cs.CL, cs.LG]目的:大規模視覚言語モデルにおけるハルシネーション抑制
- 大規模視覚言語モデルの発展に伴い,その生成する情報の信頼性が重要視されている。
- 既存手法では,注意領域の知覚的ボトルネックや画像劣化に対する視覚的頑健性が十分ではない。
- 視覚に特化した選好ペアの構築と損失関数設計により,これらの課題を克服する。
- P2-DPOは,人間のフィードバックに頼る既存手法と同程度のデータ量とコストで,ベンチマークにおいてより優れた性能を発揮する。
- 注意領域の忠実度と画像劣化に対する評価により,P2-DPOが知覚的ボトルネックの抑制と視覚的頑健性の向上に有効であることが確認された。
- P2-DPOは,モデル自身が選好ペアを生成・学習することで,視覚的頑健性とFocus-and-Enhance知覚能力を向上させる。
AIモデル抽出攻撃:防御における単一クライアント仮定の回避 [cs.CR, cs.AI]目的:AIモデル抽出攻撃に対する防御の脆弱性評価
- 軍事C2システムや重要インフラにおけるAIモデル保護は,情報優位性を維持する上で不可欠である。
- 既存の防御戦略は,攻撃が独立した主体から発生するという単一クライアント仮定に依存している。
- 連携する攻撃者による単一クライアント仮定の無効性と,それに対する新たな防御アーキテクチャの必要性を検証する。
- 連携攻撃により,確立された防御メカニズム(PRADA等)が容易に回避可能であることが示された。
- ラウンドロビンクエリ分配戦略や適応的なトラフィック混合によって,防御の検出性能が著しく低下することが確認された。
- 状態管理型,ID非依存の防御アーキテクチャへのパラダイムシフトの必要性が浮き彫りになった。
ローカルガイダンス,グローバルインパクト:ガウス再構成トラストリージョンが行動遷移を解き放つ [cs.LG, cs.AI]目的:継続的かつ非定常環境における行動遷移の改善
- 強化学習は複雑な環境での自律的な意思決定を可能にするため,様々な分野で重要性が増している。
- 従来の強化学習手法は,非定常環境において最適化の停滞や行動パターンの移行の遅延といった課題を抱えている。
- ガウスカーネルを用いたトラストリージョンの再構成により,効率的な行動遷移を促進し,ロバストな強化学習を実現することを目指す。
- 提案手法GTRは,様々なゲーム,ロボット制御,探索,言語モデルの微調整において優れた性能を示した。
- GTRは,局所的な安定性を維持しつつ,高アドバンテージ更新下で徐々に制約を緩和する,制約の非単調性によってこれを実現する。
- この結果は,幾何学に基づいたトラストリージョン設計が,複雑で非定常な環境におけるロバストな強化学習の有望な方向性であることを示唆している。
把持と計画:失敗原因特定による,正確かつ汎用的なロボットマニピュレーションのための閉じた二段階フレームワーク [cs.RO, cs.AI]目的:ロボットマニピュレーションにおける把持と動作計画の連動による失敗原因の特定と,それに基づく効率的な長期的操作の実現
- ロボットマニピュレーションは,自動化や省人化に不可欠であり,産業界や日常生活での応用が期待されている。
- 従来のシステムでは,把持と計画が密接に結合しているため,失敗の原因特定が困難で,試行錯誤の効率が悪い。
- 把持と計画を分離し,失敗原因を特定することで,より効率的かつロバストなマニピュレーションシステムの構築を目指す。
- 提案手法GTP-FAは,把持候補生成と,選択された把持に基づいた動作計画を行う二段階フレームワークである。
- 失敗時の軌跡から,未踏の把持にも一般化可能な失敗モードの分布を学習し,診断に基づいた最適化を行う。
- シミュレーションと実機実験の結果,GTP-FAは様々な学習手法(RL, IL, 拡散ポリシー, VLA)において性能を向上させ,タスク成功率を大幅に改善した。
モデルマージがルーティングを阻害する場合:MoEのためのトレーニング不要キャリブレーション [cs.RO, cs.LG, cs.AI, cs.CL]目的:MoEアーキテクチャにおけるルーティング崩壊の緩和
- 大規模言語モデルの能力統合にはコストがかかる。モデルマージは,その有効な代替手段となり得る。
- 既存のマージ手法は,MoEアーキテクチャに適用するとルーティングが崩壊し,性能低下を引き起こす。
- 本研究は,ヘッセ行列を活用し,マージされたルーターを再調整することで,ルーティング崩壊を軽減する。
- 本研究で提案するHARCは,追加のトレーニングを必要とせず,ルーティング崩壊を効果的に緩和できる。
- HARCは,様々なMoEマージ手法において性能を大幅に向上させることが数学的推論およびコード生成タスクで示された。
- HARCは,閉形式解を持ち,行列フリー共役勾配法を用いて効率的に解くことができる。
フリッカーDDPM:1/f彩色ノイズ注入によるノイズ除去拡散の高速化 [cs.RO, cs.LG]目的:ノイズ除去拡散モデルの高速化
- 自然界に広く見られる自己組織化臨界現象に着想を得た研究であり,画像生成の効率向上に貢献する。
- 従来のDDPMは等方性白色ノイズを使用するため,自然画像のスペクトル統計とのずれが生じ,サンプリングに時間を要する。
- 自然画像のスペクトル特性に合致する彩色ノイズを利用することで,サンプリングステップ数を削減し,高速な画像生成を実現する。
- CIFAR-10データセットにおいて,Flicker-DDPMは標準的なDDPMと同等またはそれ以上の生成品質を,3.33分の1のサンプリングステップ数で達成した。
- ステップごとの計算コストはほぼ増加せず,効率的な画像生成が可能であることを示した。
- 周波数領域線形理論により,スペクトルが一致する彩色ノイズが逆軌道を線形化し,サンプリングが高速化されるメカニズムを解明した。
Transformerを用いたカウンタ言語モデリングにおけるスタック表現の因果的証拠 [cs.CL, cs.AI]目的:Transformerモデルにおけるスタック表現の因果的役割の解明
- Transformerの内部メカニズム理解には,形式言語が有効な手段となる。
- Transformerがスタック構造を学習していることは示されているが,その表現の因果的な役割は不明である。
- 本研究は,スタック表現がモデルの性能に不可欠であることを示すことを目指す。
- モデルの隠れ状態からスタック深度を予測する線形プローブを訓練し,主要な表現方向を抽出した。
- 抽出された表現方向をモデルから除去すると,逐次的な精度がほぼ0%に低下した。
- この結果は,スタック表現が単に学習されるだけでなく,モデルの性能に因果的に必要であることを強く示唆する。
PrimeSVT:優先圧縮ポリシーによるメモリ認識プルーニングフレームワーク [cs.NE, cs.AI, cs.LG]目的:スパイク型ビジョンTransformerのモデル圧縮
- スパイクニューラルネットワークは低消費電力で有望だが,モデルサイズが課題となる。
- 既存のプルーニング手法は,特殊なハードウェアが必要で,設定が難しい。
- PrimeSVTは,自動で効率的な構造化プルーニングを実現し,組み込み実装を容易にする。
- PrimeSVTは,メモリ使用量を26.68%削減し,精度損失は3%以内に抑えることに成功した。
- ファインチューニングなしで70.3%,ファインチューニングありで72.9%の精度を維持し,要求を満たしている。
- 本フレームワークは,スパイク型ビジョンTransformerの設計自動化と組み込み実装を可能にする。
FlowGuard:データフリーモデル盗難攻撃に対するID非依存型検出のためのフローマッチング [cs.CR, cs.AI]目的:エネルギーシステム侵入検知システムに対するデータフリーモデル盗難攻撃のID非依存型検出
- エネルギーインフラの安全確保は重要であり,AIを用いたIDSの導入が進んでいる。
- 既存の防御策は,分散攻撃に弱く,ハードラベルIDSには適用できない場合がある。
- データフリーモデル盗難攻撃によって生成されるクエリの特性を利用し,効果的な防御を実現する。
- FlowGuardは,正規データで学習したContinuous Normalizing Flowを用いて,クエリをOODとして分類する。
- PRADAの検出率は分布変化により0%まで低下したが,FlowGuardはID情報に依存せず,安定した検出率を維持した。
- 単一クライアントおよび分散(100クライアント Sybil)設定の両方で有効性が確認された。
マルウェアの二次特徴量融合を用いたハイブリッドな分類手法 [cs.CR, cs.AI, cs.LG]目的:マルウェアの検出と分類
- マルウェアの数は増加の一途を辿り,その検出と対策は重要な課題となっている。
- 従来のマルウェア検出手法では,検出されたマルウェアをファミリー別に分類できず,効果的な対策が困難である。
- 本研究は,マルウェアのファミリー分類を自動化し,より効果的な対策を可能にすることを目的とする。
- 提案手法では,APIコールやn-gramなどのマルウェアの特徴量を抽出し,特徴量選択法を用いて融合することで,高精度なマルウェア検出と分類を実現した。
- 実験結果では,AUCが0.989,精度が99.72%,Log Lossが0.01と,最先端の手法と同等以上の性能が確認された。
- アルゴリズム融合のための投票ベースのアプローチが有効であることが示された。
CP-Agent:化学的摂動下における細胞形態プロファイリングのための文脈認識マルチモーダル推論 [cs.AI]目的:細胞形態変化に対する薬剤の作用機序に関する人間が理解可能な説明の生成
- 細胞表現型データは,作用機序の解明や毒性予測など,創薬研究において重要な役割を担う。
- 既存のワークフローは速度,コスト,解釈可能性に課題があり,汎化性能も低い。
- 実験文脈を考慮した推論により,より解釈可能でスケーラブルな表現型スクリーニングを実現する。
- CP-Agentは,高画質画像と実験メタデータを統合し,薬剤と作用機序を識別する。
- 文脈を考慮したCP-CLIPモジュールにより,F1スコア0.896という高い識別性能を達成した。
- 生成された説明は,実験設計や仮説検証を支援し,創薬プロセスを加速する可能性を示す。
傾斜プラットフォーム上での急激かつ不規則な動きに対する視覚に基づくアジャイルパーチングPerchRL [cs.CL, cs.RO, cs.LG]目的:移動する傾斜プラットフォームへの自律的な視覚ベースのパーチング
- 空陸協調において不可欠な技術であり,ドローンの活用範囲を広げる。
- 限られた視野角(FOV)が,安定したパーチングの実現を困難にしている。
- 視野角の制限下における,急激な動きへのロバストな対応を目指す。
- 提案手法PerchRLは,状態ベースの事前学習と視覚ベースのファインチューニングを組み合わせる。
- ランダム化されたプラットフォーム軌跡と時間拡張により,多様な動きへの汎化性能を高める。
- 視覚的消失に対するロバスト性を高めるため,視認度を考慮した状態拡張と能動的知覚報酬を用いる。
PRISM:自己組織化された専門家による専門化を通じて,ビジョン基礎モデルを相乗効果化する [cs.CV, cs.AI]目的:多様なビジョン基礎モデルの相乗効果
- 画像認識技術の発展には,様々な基礎モデルの活用が不可欠である。
- 複数の基礎モデルを統合する際,負の転移による性能低下が課題となる。
- モジュール化された専門家による専門化で,知識の統合を促進し,性能向上を目指す。
- PRISMは,新しい最先端技術を確立し,多様な視覚知識を統合するためのスケーラブルなアプローチであることを実証した。
- 提案手法は,教師依存のルーティングを用いて,専門家が明確な表現空間に特化することで,干渉を軽減する。
- ルーティング機構が,ダウンストリームタスクに合わせて,専門家を最適な計算経路に動的に再構成する。
FORGE:多エージェントによる段階的脆弱性悪用と検知エンジニアリング [cs.CR, cs.AI, cs.MA]目的:脆弱性情報の活用とセキュリティ対策の自動化
- 脆弱性情報の増加に伴い,組織の対応能力が追いついていない現状がある。
- 脆弱性検証,優先度付け,検知ルール作成の各分野が連携せず,効率が悪い。
- 脆弱性悪用の段階的深さを利用し,各分野の連携を促進するシステムを開発する。
- FORGEは,CVE情報を基に脆弱なアプリケーションを生成し,段階的な悪用を試みる。
- 悪用状況をLLMで評価し,OpenTelemetryのトレース情報に基づいて検知ルールを生成する。
- 603件のCVEでL1以上の悪用成功率67.8%を達成し,パターンレベルの到達可能性とメタデータによる優先度付けは独立していることが示された。
KVarN:分散正規化されたKVキャッシュ量子化による推論タスクにおける誤差蓄積の緩和 [cs.LG]目的:大規模言語モデルにおける推論性能向上とメモリボトルネックの緩和
- 大規模言語モデルの能力向上には,推論時のスケール拡大が有効だが,KVキャッシュの増大が課題となる。
- 既存のKVキャッシュ量子化手法は,自己回帰的なデコードにおける誤差蓄積を十分に考慮していない。
- KVキャッシュ量子化における誤差蓄積を抑制し,推論性能を維持・向上させることを目指す。
- KVarNは,ハダマール回転と二重スケーリングによる分散正規化により,KVキャッシュの量子化誤差を効果的に抑制する。
- KVarNは,既存手法と比較して,MATH500,AIME24,HumanEval等の生成ベンチマークで優れた性能を示す。
- 2ビット精度において,KVキャッシュ量子化の新たな最先端技術を確立した。
コード系列分析における音調の簡素性:変調コストと音調語彙の組み合わせ [cs.SD, cs.AI]目的:コード系列に対する局所的な調性の割り当て
- 音楽理論や作曲,ジャズ即興演奏において,コード系列の調性分析は不可欠な要素である。
- 従来の動的計画法では,不必要な調性中心の増加を招く場合がある。
- 変調回数と調性語彙数を同時に最小化することで,より効率的な調性分析を目指す。
- 音調の簡素性(tonal parsimony)は,変調回数を最適化しつつ,55.8%のケースで調性語彙数を削減することに成功した。
- ジャズの代用閉包を適用することで,平均調性数が3.802から3.206へ,変調回数が16.728から12.141へと減少した。
- 1,555のジャズスタンダードの注釈付きデータを用いた評価では,コード・スケールの一致率が95.6%に向上し,実用的な調性分析が可能であることが示された。
終端エージェントの訓練における効果的なインタラクション軌跡とは何か [cs.AI]目的:終端エージェント訓練における効果的なインタラクション軌跡の特定
- AIエージェントの能力向上は,様々な分野で自動化と効率化を促進し,社会に大きな影響を与える。
- 優れたエージェントを教師として用いるという仮説は存在するが,課題難易度や学習者の能力との関係が不明確である。
- 環境との相互作用を通じて問題解決の過程を明示するインタラクション軌跡が,学習効果に与える影響を解明する。
- 高い性能を持つエージェントの軌跡だけでは,必ずしも学習効果は高くないことが示された。
- 低いスコアのエージェントの軌跡で訓練したモデルが,より優れた汎化性能を発揮する「教育的パラドックス」が確認された。
- 環境に根ざした指導(EGS)が,問題解決の堅牢なルーチンを学習者に定着させる上で重要であることが示唆された。
トポロジーを考慮したガウスグラフ修復によるロバストなグラフニューラルネットワーク [cs.LG, cs.SI]目的:グラフニューラルネットワークのロバスト性向上
- グラフ構造データ分析において,グラフニューラルネットワークは高い性能を示すが,性能はグラフの品質に依存する。
- 現実のグラフにはノイズやエッジの欠損が存在し,グラフニューラルネットワークの性能低下の原因となる。
- ノイズや欠損に強いグラフ構造を効率的に修復し,グラフニューラルネットワークのロバスト性を高める。
- 提案手法TAGRは,適応的なガウスカーネルを用いた疎な特徴近傍グラフを構築し,観測グラフのトポロジーを考慮した残差補正を組み合わせる。
- TAGRは,特徴が類似するノード間に補助エッジを導入し,局所的な特徴と構造の一貫性に基づいて元のトポロジーを保存・再重み付けする。
- 実験の結果,TAGRはノイズや欠損のあるグラフにおいて,グラフニューラルネットワークのロバスト性を向上させることが示された。
会話型AIエージェントのための決定論的メモリフレームワークDMF [cs.AI, cs.CL]目的:会話型AIエージェントにおける,スケーラビリティと意味的な一貫性を両立するメモリシステム
- 対話型AIの性能向上には,長期間にわたる対話履歴を効果的に管理するメモリシステムが不可欠である。
- 既存手法はLLMによる要約に依存しており,非決定性,コスト増加,剪定判断の不透明性が課題となっている。
- LLMの使用を削減し,決定論的かつ効率的なメモリ管理を実現すること。
- DMFは,古典的な自然言語処理,ベクトル幾何学,数学的スコアリングに基づいた決定論的なパイプラインを用いることで,LLMを介したメモリ圧縮を置き換えた。
- DMFは,Mem0と同等の精度を達成しながら,メモリコンテキストの準備にトークンを使用せず,会話全体で5倍から242倍少ないトークン数で動作する。
- これらの結果は,メモリ管理ループからのLLM呼び出しを排除し,トークンコストをほぼゼロに抑え,会話型AIエージェントのための決定論的なメモリシステムを可能にすることを示している。
