arXiv雑要約
AI - 2026/05/08 公開
出力よりもプロセスが重要:人間と機械の識別 [cs.AI]目的:人間と機械の識別
- オンライン環境でAI利用が進む中で,人間と機械を正確に区別する重要性が増している。
- 従来の評価方法は出力結果の類似性に焦点を当てており,人間らしい思考プロセスを評価できていない。
- 思考プロセスに着目することで,より信頼性の高い人間と機械の識別を目指す。
- 認知タスクのプロセスレベルの特徴量は,出力結果のみの場合よりも人間と機械をより確実に識別できた(平均AUC=0.88)。
- 人間の決定データでファインチューニングすることで,より人間らしいタスクプロセスを再現できる。
- ただし,プロセスレベルの教師あり学習の効果は,タスク間の汎化性能に依存し,タスク固有の表現がボトルネックとなる。
価格設定エージェントにおける市場適合性リスク:トレース診断とトレース事前知識を用いた強化学習 [cs.CL, cs.AI, cs.LG]目的:市場のようなイールドマネジメント学習の失敗とその原因究明,およびその改善
- 収益管理は,ホテルや航空券などの需要変動が大きいビジネスにおいて,収益最大化に不可欠である。
- 報酬指標だけでは,意図した行動と異なる最適解に収束するGoodhartの法則の問題が存在する。
- 隠れた競合他社の状況下で,報酬指標をゲーム化しない,市場に沿った行動を学習すること。
- 標準的な強化学習エージェントは,RevPAR(客室あたりの収益)は改善するものの,市場のような価格設定戦略を学習できないことが示された。
- トレースレベルの診断プロトコルを用いて,この問題が部分観測性と不確実性の縮小によって引き起こされることを特定した。
- トレース事前知識を用いた強化学習により,競合他社の行動に追随し,RevPAR,稼働率,ADR,価格分布を一致させることができた。
SpatialEpiBench:疫学的事前情報と空間情報の予測ベンチマーク [cs.AI]目的:空間情報と疫学的事前情報を活用した疫学予測のベンチマーク
- 感染症の発生予測は,公衆衛生対策や資源配分において不可欠である。
- 予測データは疎でありノイズが多く,時間とともに変化するため予測は困難である。
- 現実的な公衆衛生環境下での空間的・時間的疫学予測の評価基準を確立する。
- SpatialEpiBenchは,11の感染症データセットを用いた標準化された評価を提供。
- 多くの手法は,1日から1ヶ月先までの予測において,単純な前日値ベースラインを下回る。
- 発生の予兆不良,データの疎性・ノイズへの対処困難,地理的隣接性の限定的な有用性が課題。
Sparkle:分離されたガイダンスによる活気ある指示駆動型動画背景置換の実現 [cs.DC, cs.CV, cs.AI]目的:活気ある指示駆動型動画背景置換のための大規模データセット及び評価ベンチマーク
- 動画編集技術は,映画製作や広告など創造的な応用において重要な役割を担う。
- 動画背景置換は,新規シーンの合成と前景・背景間の相互作用が必要であり,大規模データの生成が困難である。
- 高品質な訓練データ不足を解消し,背景置換タスクの性能向上を目指す。
- 本研究では,前景と背景のガイダンスを分離して生成するスケーラブルなパイプラインを設計し,約14万組の動画ペアからなるSparkleデータセットを構築した。
- また,背景置換に特化した大規模評価ベンチマークSparkle-Benchを導入した。
- 実験の結果,Sparkleデータセットで訓練されたモデルは,既存のベースラインをOpenVE-BenchとSparkle-Benchの両方で大幅に上回る性能を示した。
拡散に基づく事後サンプリング:バイアスと安定性のファインマン・カック解析 [cs.LG]目的:測定値または報酬条件付き事後分布からのサンプリングにおけるバイアスと安定性の理論的特性解明
- 逆問題解決において,事前分布を利用した拡散モデルに基づくサンプリングが広く用いられている。
- 拡散サンプラーは,理論的理解が十分でなく,バイアスや低温度領域での不安定性が問題となっていた。
- 拡散サンプラーのバイアスを定量化し,安定性を向上させるための指針を提示すること。
- 拡散サンプラーの出力が真の事後分布から乖離する原因を,標準ガウス分布との経路比較により特定した。
- DPSおよびSTSLへの適用により,DPSがデータ共分散と報酬曲率をどのように結合しているかを明らかにした。
- 早期ガイダンス停止が低温度不安定性を緩和するメカニズムを説明し,安定した変形設計の指針を示した。
AIによるアイデア多様性の崩壊の事前評価 [cs.AI, cs.GT]目的:AI誘発性アイデア多様性崩壊
- 創造性は社会経済活動の根幹であり,AIによる創造性の拡張が期待される。
- AIの生成するアイデアが類似しやすく,多様性が失われる可能性がある。
- AIによるアイデアの混雑リスクを,人間とのインタラクションなしに評価する。
- アイデアを混雑可能な資源と捉え,モデル生成のみで混雑度を評価する指標を提案した。
- 3つの最先端LLMにおいて,多様性の評価指標が人間の水準を下回ることが示された。
- 生成プロトコルの工夫により,多様性の崩壊を抑制可能であることが示唆された。
非定常予測のためのメモリ地平線のヘッジング:オンライン集約によるアプローチ [cs.LG, stat.ML]目的:分布シフト下におけるオンライン予測の性能向上
- 時系列データ分析において,変化するデータ分布への適応は重要である。
- 予測モデルは安定性と適応性のバランスが難しく,最適なメモリ長が不明な場合が多い。
- 様々な適応スケールをヘッジすることで,変化に強い予測モデルを構築する。
- 提案手法MELOは,既存の予測モデルをラップし,複数の忘却率を用いた適応エキスパートを組み合わせる。
- MELOは,ベース予測モデルと時間変化する予測モデルの最適な組み合わせに匹敵する性能を示す。
- COVID-19ロックダウン時のフランスの電力負荷予測において,RMSEを34.7%削減し,既存手法を上回る性能を達成した。
連続潜在拡散言語モデル [cs.CL, cs.AI, cs.CV]目的:階層的情報分解によるテキスト生成の枠組み
- 大規模言語モデルは目覚ましい成功を収めているが,生成方法には改善の余地がある。
- 既存の手法では,生成効率,スケーラブルな表現学習,効果的なグローバルな意味モデル化を両立するのが難しい。
- 連続潜在空間におけるグローバルな意味的事前分布のモデリングによる新たなテキスト生成手法を提案する。
- 提案手法Cola DLMは,テキストVAEによる安定したテキストから潜在空間へのマッピングと,ブロック因果DiTによる潜在空間でのグローバルな意味的事前分布のモデリングを組み合わせる。
- この設計により,柔軟な非自己回帰的誘導バイアス,潜在空間における意味的圧縮と事前分布の適合が可能となり,他の連続モダリティへの拡張も容易になる。
- 実験結果から,Cola DLMは優れたスケーリング特性を示し,従来の自己回帰モデルと比較して優れた生成性能を発揮することが確認された。
不確実性下における強化学習を用いた遺伝回路の逐次設計 [cs.LG]目的:不確実性下における遺伝回路最適化
- 合成生物学の発展には,遺伝回路の精密な設計が不可欠である。それには,不確実性の克服が課題となる。
- 生体分子反応の確率的性質や実験環境の変動により,遺伝回路設計には不確実性が伴う。
- 実験条件に適応しつつ,分子ノイズも考慮した効率的な遺伝回路設計法の開発。
- 提案手法は,実験を通して未知の実験環境に適応し,分子のノイズを考慮した遺伝回路の設計を可能にする。
- 従来のベイズ法と比較し,計算コストを削減し,迅速な設計サイクルを実現する。
- 異種遺伝子発現とリプレッサー回路のモデルにおいて,有効性が確認された。
拡散モデルにおける周辺分布を維持した多様なサンプリング [cs.LG]目的:拡散モデルおよびフローマッチングモデルにおけるサンプルの多様性向上
- 生成モデルの発展は,高品質なコンテンツ作成に不可欠であり,応用範囲が広い。
- 拡散モデルは多様なサンプル生成が苦手であり,モード崩壊が起こりやすいという課題がある。
- 拡散過程における粒子の軌跡を調整し,多様性を維持しつつ高品質なサンプル生成を実現する。
- EDDYは,フォッカー・プランク方程式の対称性を利用し,多様性を促進しながら品質を維持する。
- カーネルベースの反対称ペアワイズ行列場を用いることで,追加学習なしに多様性を実現する。
- テキスト画像生成における計算コストを削減するため,実用的な近似手法を提案し,有効性を示す。
協調が重要である:協調型マルチエージェント強化学習の評価 [cs.MA, cs.AI, cs.LG]目的:協調型マルチエージェント強化学習における協調メカニズムの評価
- マルチエージェントシステムは,複雑な問題を解決するための柔軟性とスケーラビリティを提供する。
- 従来の評価指標は,エージェント間の協調の質を十分に捉えられていない。
- エージェントの協調メカニズムを評価するための新たな視点と指標を提示する。
- 従来の報酬ベースの評価では,異なる協調メカニズムが類似した結果を示す場合がある。
- タスク割り当てにおいて,冗長な割り当て,割り当ての多様性,およびタスク完了効率がパフォーマンスに影響する。
- 協調を考慮した評価は,協調型マルチエージェント強化学習のベンチマークにおいて不可欠である。
ツリーアンサンブルにおける最適な反事実探索:モデリングと解法パラダイムに関する研究 [cs.LG]目的:ツリーアンサンブルにおける最適な反事実説明の計算
- 説明可能なAIの重要性が増しており,決定理由の説明は信頼性を高める上で不可欠である。
- 既存の反事実説明生成手法は最適解とは限らず,過剰な変更を提案する可能性がある。
- この研究は,実行可能性と行動可能性の制約下で,最適な反事実説明を効率的に計算することを目指す。
- 制約プログラミング(CP)による定式化CPC Fが,他の数理計画法(MaxSAT,MILP)と比較して,全体的に優れた性能を示した。
- MaxSATはハードボッティングランダムフォレストに特に適しており,MILPは分割レベルが少ない場合に競争力があることが示された。
- 各パラダイムの特性を活かすことで,より適切な反事実説明の計算が可能になることが明らかになった。
乳がんサブタイプ分類における特徴量の次元数とモデルの複雑性 [cs.LG, q-bio.GN]目的:乳がんサブタイプ分類の性能評価
- 乳がんの正確なサブタイプ分類は,診断と治療選択に不可欠である。
- 遺伝子発現データは高次元であり,サンプルサイズが限られているため,機械学習モデル構築が困難である。
- 高次元遺伝子発現データにおける分類性能向上を目指す。
- ロジスティック回帰は,サブタイプ全体で最も安定した性能を示し,希少サブタイプの検出精度も向上した。
- ランダムフォレストは全体的な精度は高いものの,少数サブタイプでは性能が低下した。
- SVMは特徴量の次元数に敏感であることが示された。
直交ニューラルネットワークにおける臨界性と飽和 [cs.LG]目的:直交初期化によるニューラルネットワークの統計的性質の解析
- 深層学習モデルの性能向上には,適切な初期値設定が不可欠である。
- 従来の初期化方法では,ネットワークの深さが増すと統計量が不安定になる問題があった。
- 直交初期化が示す安定性を理論的に解明し,有限幅ネットワークの挙動を予測する。
- 本研究では,直交初期化における層ごとの再帰関係式を導出した。
- 導出された再帰関係式は,活性化関数が固定点を持つ場合に観測された有限幅テンソルの安定性を再現する。
- 数値計算とモンテカルロシミュレーションの結果は,理論的予測と高い一致性を示した。
微分可能シミュレーションによる最適制御のための滑らかなニューラル随伴方策最適化 [cs.LG, math.OC, q-fin.CP, q-fin.MF, q-fin.RM]目的:最適制御における滑らかなニューラル随伴方策最適化の枠組み
- 現実世界の複雑な問題を解決するには,不確実性下での逐次決定が不可欠である。動的計画法では,状態空間の次元増加に伴い計算量が指数関数的に増加する。
- 強化学習は高次元の状態空間に対応できるが,学習に時間がかかり,感度分析が困難である。
- 微分可能なシミュレータにニューラルネットワークを組み込み,効率的な勾配計算と感度分析を実現する。
- SNAPOは,自然ガス貯蔵,年金基金の資産負債管理,医薬品製造の3つの分野で,効率的な学習と感度分析を実証した。
- SNAPOは,従来のbump-and-revalue法と比較して,感度分析の速度を6.5倍から200倍に向上させた。
- 一つの逆伝播パスで複数の感度を計算可能であり,計算コストは感度数に依存しない。
CLAD:クラスタ化されたラベル非依存型連合学習フレームワークによる異常検知と攻撃分類の同時実行 [cs.LG, cs.CR, cs.DC, cs.NI]目的:IoT/IIoT環境における異常検知と攻撃分類の同時実行
- IoT/IIoTの急速な拡大により,多様な攻撃対象領域が増加し,従来のセキュリティ対策では対応が困難になっている。
- 既存の連合学習は,デバイスの多様性に対応できず,現実環境における大量のラベルなしデータを活用できていない。
- デバイスの異質性とラベル不足という課題を克服し,効率的なセキュリティ対策を実現すること。
- 提案手法CLADは,クラスタ化された連合学習と新しい二重モードマイクロアーキテクチャを統合することで,ラベルなしデータも活用可能である。
- CLADは,デバイスのトラフィックパターンに基づいて動的にクラスタ化することで,モデルの分散を防ぎ,各操作パターンの維持を可能にする。
- 実験結果から,CLADは最先端の手法と比較して,検出性能が30%向上し,通信コストを半減することが示された。
方向一貫性:補完的な最適化信号としてのGONOフレームワーク [cs.LG, cs.AI]目的:深層学習の最適化における方向一貫性の活用
- 深層学習の性能は最適化アルゴリズムに大きく依存し,高速かつ安定した学習が重要である。
- 既存の最適化アルゴリズムは,勾配の方向の一貫性を十分に活用できていない点が課題である。
- 勾配の方向の一貫性を最適化プロセスに組み込み,学習の効率と安定性を向上させることを目指す。
- 方向一貫性(cc_t)と損失の収束は必ずしも連動せず,既存の最適化アルゴリズムはこの点を考慮していない。
- GONOは,方向一貫性に応じてAdamのモーメンタム係数を調整することで,学習の振動を抑制し,収束を促進する。
- 理論的にAdamと同等の収束率を保証しつつ,MNIST,CIFAR-10,ResNet-18においてAdamWと同等の性能を達成した。
グラフ表現学習の安全性について [cs.LG]目的:グラフ表現学習の安全性評価
- グラフ構造データは様々な分野で活用が拡大しており,その応用可能性は高い。
- 既存の評価指標は,理想的な状況下での性能に偏っており,実環境での信頼性が不明である。
- 実環境における様々なストレス下でのグラフ表現学習の脆弱性を明らかにし,安全性を向上させる。
- 本研究では,多様なグラフ表現学習手法を多角的に評価するベンチマーク「GRL-Safety」を提案した。
- 安全性は,表現設計とグラフの特性の相互作用によって左右され,手法のカテゴリだけでは決定されないことが示された。
- 最新のGFMは特定の軸で強みを示すものの,全体的な安全性で優位性を示すわけではないことが明らかになった。
PairAlign: 自己アライメントによる系列トークン化フレームワーク:音声トークン化への応用 [cs.LG, cs.CL, cs.SD]目的:音声データのコンパクトなトークン化
- 感覚データ処理において,離散的な記号構造は比較,記憶,検索,推論に不可欠である。
- 既存の音声トークナイザーは局所的な割り当てに依存し,系列の一貫性や編集類似度を最適化できていない。
- 系列レベルでの自己アライメントを通じて,音声データの効率的なトークン化を実現する。
- PairAlignは,系列生成を条件付きで行い,トークンの識別,順序,長さを学習する。
- TIMIT検索において,編集距離を維持しつつ,トークン数を55%削減することに成功した。
- 連続スイーププローブの結果,高密度な幾何学的トークナイザーよりも長さの制御に優れていることが示された。
フローモデルの微調整のための改善された手法:随伴マッチングによる決定論的制御パイプライン [cs.AI]目的:フローベース生成モデルにおける人間の選好の整合
- 生成モデルは,高品質なコンテンツ生成において重要な役割を担っている。
- 生成モデルの出力と人間の選好との整合性の確保が課題である。
- 効率的かつ安定的な人間の選好整合のためのフレームワークを開発する。
- 随伴マッチングという決定論的フレームワークを提案し,速度場上の最適制御問題として人間の選好の整合を定式化した。
- 報酬に関連する信号が集中する軌跡の終端部分に計算を集中させるTruncated Adjoint Schemeを導入し,計算コストを削減した。
- 標準的なKLベースの正則化を超え,整合性と分布の保存の間の柔軟なトレードオフを可能にした。
NeuroAgent:マルチモーダル神経画像解析と研究のためのLLMエージェント [cs.AI]目的:マルチモーダル神経画像データの主要な前処理と解析の自動化
- 神経画像解析は,脳機能や構造に関する重要な知見をもたらし,疾患の理解や治療に不可欠である。
- 複雑な前処理ワークフローや異種ツールチェーンの調整,データ形式の多様性が解析の障壁となっている。
- LLMエージェントを活用し,データ処理から解析までのパイプラインを自動化し,研究者の負担を軽減する。
- NeuroAgentは,sMRI,fMRI,dMRI,PETを含む異種神経画像データの前処理と解析を自動化する。
- 生成・実行・検証エンジンにより,エージェントは実行可能なコードを生成し,エラーから復旧し,出力の整合性を検証する。
- アルツハイマー病の分類において,自動前処理されたマルチモーダルデータを用いてAUC 0.9518を達成し,単一モダリティのベースラインを上回った。
分布ロバスト学習による最適化 [cs.LG, math.OC]目的:凸最適化における一階法のためのハイパーパラメータ学習
- 機械学習アルゴリズムの性能は,ハイパーパラメータに大きく依存するため,その最適化が重要である。
- 既存のハイパーパラメータ最適化手法は,データの分布に過度に依存し,分布の変化に弱いという問題がある。
- データ分布の不確実性を考慮し,よりロバストなハイパーパラメータ最適化手法を開発することを目指す。
- 提案手法は,Wasserstein距離を用いた分布ロバスト最適化により,ハイパーパラメータの性能を評価する。
- 実験結果から,提案手法は,最悪ケース最適化や従来のL2Oと比較して,より優れた汎化性能とロバスト性を示すことが確認された。
- サンプルサイズが増加するにつれて,学習アルゴリズムの真の期待リスクは,L2O最適解に近づくことが理論的に示された。
メトリック忠実なニューラルグラフマッチングに向けて [cs.LG, cs.AI]目的:ニューラルグラフマッチングにおけるエンコーダの幾何学構造とGED推定品質の関係性の理論的枠組み
- グラフ構造の類似性評価は,様々な分野で重要であり,その効率的な計算手法が求められている。
- 従来のグラフ編集距離(GED)の計算はNP困難であり,ニューラルネットワークによる近似手法が模索されている。
- エンコーダの幾何学構造を考慮することで,よりGEDに近い近似と安定したランキングを実現することを目指す。
- エンコーダの二重確率的距離がGEDと類似する場合,グラフレベルのbi-LipschitzエンコーダがGEDの代替として有効であることが示された。
- マッチングベースの推定器では,ノードレベルのbi-Lipschitz幾何学構造がアラインメントコストに伝播し,最適化されたアラインメント目標に寄与することが確認された。
- FSW-GNNを組み込んだ実験により,代表的なニューラルGEDアーキテクチャにおいて,GED予測とランキング指標が大幅に改善された。
BRICKS:ゼロショット放射線-物質シミュレーションのための構成的ニューラルマルコフカーネル [cs.LG, hep-ph]目的:放射線と物質の相互作用を予測するカーネルの構築
- 放射線と物質の相互作用は,素粒子物理学から医療物理学まで幅広い分野で重要である。
- 従来のシミュレーションは計算コストが高く,大規模な物質分布のシミュレーションが困難である。
- 本研究は,未知の物質分布に対してゼロショットでシミュレーションを行うことを目指す。
- ハイブリッド離散-連続Transformerモデルに基づき,Riemann多様体上でのフローマッチングを用いてカーネルを生成した。
- 生成されたカーネルは,大規模な物質分布のシミュレーションをゼロショットで可能にする。
- GPU上での計算速度が大幅に向上し,予測の安定性も確認された。また,研究用のデータセットを公開した。
DINORANKCLIP: DINOv3蒸留と注入による高次ランキング一貫性を用いた視覚言語事前学習 [cs.CV, cs.AI, cs.LG]目的:視覚言語事前学習の性能向上
- 視覚言語事前学習は,画像とテキストの理解を深め,多様な応用を可能にする重要な技術である。
- 従来のCLIPモデルは,ペア間の相対的な順序を考慮せず,微細な局所構造への感受性が低いという課題があった。
- DINOv3蒸留と高次ランキング一貫性損失を用いることで,これらの課題を解決し,より高度な視覚言語理解を実現する。
- DINORANKCLIPは,DINOv3教師モデルを注入することで,既存のCLIPモデルよりも優れた特徴表現を獲得した。
- 高次ランキング一貫性損失は,ペア間の順序関係をより正確に捉え,性能向上に貢献した。
- 実験結果から,DINORANKCLIPは,微細な局所構造を必要とする評価において,特に顕著な性能向上を示した。
ReActor:物理シミュレーションに基づいたモーションリターゲティングのための強化学習 [cs.RO, cs.GR, cs.LG]目的:物理に基づいたモーションリターゲティング手法の開発
- ロボットの模倣学習において,人間のような自然な動きを実現するには,適切なモーション生成が不可欠である。
- 既存手法では,足の滑り,自己衝突,物理的に不可能な動きなど,物理的な不整合が発生しやすい。
- ロボットの形態に合わせて参照モーションを適応させ,現実的な動きを生成すること。
- 本研究では,二層最適化フレームワークと強化学習を組み合わせることで,物理的に整合性の取れたモーションリターゲティングを実現した。
- 提案手法は,人間の参照モーションをロボットの形態に適応させながら,追跡ポリシーを訓練する。
- シミュレーションと実機実験により,四足歩行ロボットを含む多様な形態に対して,有効性が検証された。
マルチエージェント強化学習によるクロスモーダルナビゲーション [cs.CL, cs.RO, cs.AI, cs.LG, cs.MA]目的:クロスモーダルナビゲーションの性能向上
- ロボットナビゲーションにおいて,複数の感覚情報の統合は不可欠であるため。
- 高品質なマルチモーダルデータ取得が難しく,モデルの複雑化を招くため。
- 軽量なエージェントによる協調で,効率的なナビゲーションを目指す。
- 提案手法CRONAは,補助的な信念と集中型批評家により,エージェント間の協調を強化する。
- 実験の結果,マルチエージェント手法は,単一エージェントベースラインと比較して,性能と効率が大幅に向上した。
- 限られたモダリティでの均質的な協調は短距離ナビゲーションに有効であり,複雑な環境では豊富な知覚とモデル容量が重要である。
FedAttr:連合学習におけるプライバシー保護されたクライアントレベルの帰属 [cs.CR, cs.LG]目的:連合学習におけるクライアントレベルの帰属プロトコル
- 大規模言語モデルのファインチューニングにおいて,データ所有権保護の重要性が高まっている。
- 連合学習ではプライバシー保護が優先されるため,どのクライアントがウォーターマーク付きデータで学習したかを特定することが困難である。
- ウォーターマーク付きデータで学習したクライアントを特定し,プライバシーと性能を維持することを目指す。
- 提案手法FedAttrは,ペアードサブセット差分メカニズムを用いてクライアントの帰属を特定する。
- FedAttrは,安全な集約と連合学習のプライバシー保証を維持しながら,高い精度(TPR 100%,FPR 0%)を達成する。
- 理論的にも,相互情報漏洩が制限されていることが示されており,オーバーヘッドも小さい(6.3%)。
大規模言語モデルのための統一的な自己知識蒸留フレームワーク:UniSD [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルの効率的な適応
- 近年,大規模言語モデルの性能向上は目覚ましいが,計算コストが課題である。
- 自己知識蒸留は教師なしでモデルを改善する有望な手法だが,不安定な学習が問題となる。
- UniSDは,信頼性の高い自己蒸留によるモデル性能向上を目指す。
- UniSDは,自己蒸留の様々な要素を統合的に研究するためのフレームワークを提案する。
- 実験により,自己蒸留が静的模倣を上回り,各要素の役割と相互作用が明らかになった。
- UniSDfullはベースモデルに対して+5.4ポイント,最良のベースラインに対して+2.8ポイントの性能向上を達成した。
重み減衰はTransformerの損失地形をヴィラニ型にする:最適化と汎化のための関数解析的基礎 [cs.LG, eess.AS]目的:Transformerの損失地形の関数解析的特徴付け
- 大規模言語モデルの性能向上には,損失地形の理解が不可欠である。
- 重み減衰の効果は経験的に知られているが,理論的な根拠が不足している。
- Transformerの損失地形がヴィラニの条件を満たすことを証明し,最適化と汎化の理論的基盤を提供する。
- 標準的なTransformerの損失関数が,ヴィラニの強制エネルギー関数の条件を満たすことが示された。
- 正則化強度とモデル次元が,確率的勾配降下法の収束保証やPAC-Bayesian汎化限界に関わることを明らかにした。
- 1億以上のパラメータを持つモデルでスケーラブルなヴィラニ診断を導入し,実験的に理論予測との一致を確認した。
Linuxディストリビューションのバイナリパッチからの脆弱性再構築:Patch2Vuln [cs.CR, cs.AI]目的:Linuxディストリビューションのバイナリパッチから脆弱性の内容を再構築する手法
- セキュリティアップデートは,攻撃者と防御者の間で重要な情報比較の機会を提供する。
- 多くの場合,ソースコードのパッチやアドバイザリよりもバイナリパッケージが容易に入手可能である。
- バイナリパッケージのみから脆弱性の内容を推定し,セキュリティ対策を強化すること。
- Patch2Vulnは,バイナリ間の差分解析と言語モデルエージェントを用いて脆弱性関連関数を特定するパイプラインである。
- 25のUbuntuパッケージペアの評価で,セキュリティアップデートの20件中10件で脆弱性関連関数を特定し,原因分類を11件で正しく行った。
- バイナリ差分やランキングの精度が課題であり,バイナリ差分カバレッジとローカルな振る舞い検証の改善が重要である。
脱獄に要する反復回数:多段階LLM評価のための動的予算配分 [cs.LG]目的:多段階LLMインタラクションにおけるイベント発生までの回数の信頼性区間推定
- 大規模言語モデルの性能評価は重要だが,計算コストが高い。
- 脱獄などの重要なイベントは反復回数が多く,限られた予算では観察が困難。
- 動的予算配分により,効率的にイベント発生までの回数を推定する。
- 提案手法DAPROは,既存手法よりも正確な信頼性区間を,低い分散で実現。
- DAPROは予算制約を満たしつつ,無条件独立性を仮定しない保証を提供する。
- 限られた計算資源下で,脱獄率などの評価指標を低バイアスで推定可能。
Transformerは正規化勾配降下法により文脈内ロジスティック回帰を効率的に実行する [cs.LG, stat.ML]目的:文脈内ロジスティック回帰の実行
- Transformerは文脈内学習能力に優れており,そのメカニズム解明が重要である。
- Transformerの文脈内学習メカニズムは未だ十分に解明されていない。
- Transformerによる文脈内学習が,特定のアルゴリズム実行に基づくと解明する。
- Transformerは,softmax attentionを用いて線形分類データに対する文脈内学習を実行可能である。
- 構築されたTransformerは,1ステップ勾配降下法で教師あり学習された自己注意層の繰り返し適用によって得られる。
- 自己注意層の学習収束性,およびループモデルの分布外汎化性能が理論的に保証された。
SoftSAE:適応的疎な自動符号化器のための動的上位K選択 [cs.LG, cs.CV]目的:疎な自動符号化器における動的上位K選択機構
- 機械的解釈可能性は,LLMやViT等の内部表現を分析する上で重要である。
- 従来のTopK SAEは固定の疎性レベルであり,データの複雑さに対応できない。
- 入力に依存した適切な疎性レベルを学習することで,表現の質を向上させる。
- SoftSAEは,微分可能なSoft Top-K演算子を用いて入力ごとの疎性レベルを学習する。
- 実験結果から,SoftSAEは意味のある特徴を抽出し,各概念に適切な特徴数を選択することが確認された。
- これにより,表現はデータの構造により適合し,説明長は入力情報の量を示すようになる。
注意シンクの構造的起源:分散の不一致,スーパーニューロン,次元の不均衡 [cs.LG, cs.AI, stat.ML]目的:注意シンク現象の構造的起源の解明
- 大規模言語モデルの性能向上には,注意機構の理解が不可欠である。
- 初期トークンへの注意集中である注意シンクは,モデル効率を低下させる問題がある。
- 注意シンク発生のメカニズムを解明し,その制御手法を確立することを目指す。
- 注意シンクは,自己注意における値集約過程に起因する分散の不一致が根本原因である。
- この不一致は,フィードフォワードネットワーク層内のスーパーニューロンによって増幅され,次元の不均衡を引き起こす。
- ヘッドワイズRMSNormを提案し,事前学習の収束を加速できることを示した。
段階的・急激なシステム変化下におけるオンラインベイズ較正 [cs.LG, cs.ET, stat.ML]目的:デジタルツイン及びコンピュータ実験におけるモデルと実測値の整合性向上
- 現実世界の複雑なシステムをモデル化・予測する上で,モデルの精度が重要となる。
- 従来のベイズ較正は静的なデータ生成を仮定し,時間変化への対応が困難である。
- システム変化に対応可能なオンラインベイズ較正フレームワークを開発し,精度とロバスト性を向上させる。
- 提案手法BRPCは,逐次データ下でパラメータとずれを分離し,識別可能性を維持しつつバイアスを考慮した適応を実現する。
- 急激な変化に対しては,再起動機構を統合することで,較正プロセスをリセットし,ロバスト性を高める。
- シミュレーション実験の結果,BRPCは段階的な変化下で較正精度を向上させ,再起動機構により急激な変化下でも性能を維持する。
SkillOS:自己進化型エージェントのためのスキルキュレーション学習 [cs.AI, cs.CL]目的:自己進化型エージェントにおけるスキルキュレーション
- LLMエージェントの活用が拡大する中で,過去の経験からの学習が重要である。
- 既存手法では,複雑で長期的なキュレーション戦略の学習が困難である。
- 間接的・遅延的なフィードバックから効果的なキュレーションポリシーを学習すること。
- SkillOSは,蓄積された経験に基づいてスキルキュレーションを学習するRLトレーニング手法である。
- SkillOSは,既存のベースラインよりも効果と効率において優れた性能を示した。
- 学習されたキュレーターは,ターゲットを絞ったスキル利用を促進し,スキルリポジトリはより高度なメタスキルへと進化する。
SignSGDがSGDを上回る時期と理由:$\ell_1$ノルム下界に基づく理論的研究 [cs.LG, cs.AI, cs.CL, math.OC]目的:SignSGDとSGDの性能比較に関する理論的考察
- 大規模モデルの学習において,SignSGD等の符号に基づく最適化手法が注目されている。
- 従来の理論では,SGDが最適解探索において優れているとされており,符号ベース手法の優位性を説明できない。
- 符号に基づく最適化手法がSGDよりも優位になる条件を,新たな理論的枠組みで明らかにすること。
- $\ell_1$ノルム,$\ell_\infty$-smoothness,分離ノイズモデルの下で,SignSGDの複雑度をSGDの$d$分の1に削減できることを理論的に証明した。
- マトリックス領域においても,Muon最適化手法に対する同様な最適下界を導き出し,次元のスケーリングが保持されることを示した。
- 124MパラメータのGPT-2モデルの事前学習において,SignSGDの理論的な優位性が実際の収束速度に一致することを示した。
MASPO:LLMベースマルチエージェントシステムにおける共同プロンプト最適化 [cs.DM, math.CO, cs.CL, cs.CY, cs.AI, cs.CL]目的:LLMベースマルチエージェントシステムにおけるプロンプトの共同最適化
- 複雑な共同タスクにおいて,LLMベースマルチエージェントシステムの活用が期待されている。
- エージェント間の連携において,局所的な最適化ではシステム全体の目標達成が困難である。
- エージェント間の協調を促し,システム全体のパフォーマンスを向上させるプロンプト最適化を目指す。
- MASPOは,システム全体の成功を促進するプロンプト評価メカニズムを導入することで,局所的な妥当性だけでなく,後続エージェントへの貢献度を考慮する。
- データ駆動型の進化ビームサーチを用いて,高次元プロンプト空間を効率的に探索する。
- 6つの多様なタスクにおいて,既存のプロンプト最適化手法と比較して平均2.9%の精度向上を達成した。
PianoCoRe:統合・改良されたピアノMIDIデータセット [cs.CL, cs.SD, cs.LG]目的:大規模ピアノMIDIデータセットの構築と公開
- 音楽情報検索(MIR)研究において,楽譜と演奏データが揃ったデータセットは不可欠である。
- 既存のデータセットは,作曲家範囲が狭い,演奏バリエーションが少ない,楽譜との対応がない,命名規則が一貫しない等の課題がある。
- 既存データセットを統合・改良し,高品質で大規模なピアノMIDIデータセットを提供することで課題解決を目指す。
- PianoCoReは,483人の作曲家による5,625曲,250,046回の演奏を含む大規模データセットである。
- 楽譜との対応レベルに応じてPianoCoRe-A/A*, PianoCoRe-B, PianoCoRe-Cの3つのサブセットが提供される。
- MIDI品質分類器とアライメント改良パイプラインRAScoPを開発し,データ品質の向上と演奏の正確性を実現した。
敵対的ネットワークフロー生成のためのハイブリッド量子古典GAN [cs.LG]目的:敵対的ネットワークフローの生成
- ネットワークセキュリティにおいて,侵入検知システムへの攻撃手法の検討は重要である。
- 従来のGANは,大量のデータ,モード崩壊,計算コストの問題を抱えている。
- 量子計算を活用し,より効率的かつ高度な攻撃フロー生成を目指す。
- 提案するQC-GANは,量子変分生成器を用いて悪意のあるネットワークトラフィックを模倣した。
- 生成されたフローは,古典的なIDSモデル(ランダムフォレスト,CNN)を回避する能力が確認された。
- ハードウェアノイズが攻撃に及ぼす影響を評価し,量子耐性のある防御システムの必要性を示唆した。
大規模言語モデルにおける可逆的なSFT行動の構築 [eess.SY, cs.SY, cs.LG]目的:大規模言語モデルにおけるSFTによる行動の構造的制御
- 大規模言語モデルの活用が進む中で,その振る舞いを理解・制御する重要性が増している。
- SFTによって誘導された行動はモデル全体に分散し,特定の行動を意図的に制御することが困難である。
- SFT行動を,必要不可欠な疎なサブネットワークに圧縮し,推論時に制御可能にすることを目指す。
- 提案手法LCDDにより,SFT行動を保持しつつ,SFT-Eraserによる効果的な行動の反転を可能にする疎なキャリアを生成した。
- キャリアの疎な構造が反転の必要条件であり,トリガーの最適化のみでは同様の効果が得られないことを実証した。
- 本研究は,SFT誘導行動の局所化と選択的な抑制に向けた新たな方向性を示す。
LLMに長期的推論を学習させるか?表現力が鍵となる [cs.AI, cs.CL]目的:大規模言語モデルの推論能力向上における強化学習の有効性に関する研究
- 大規模言語モデルの推論能力は,様々なタスクにおいて重要であり,その改善は社会に大きな影響を与える。
- 強化学習を用いた推論能力の向上は試みられているが,タスク難易度に応じた学習のスケーリングに関する体系的な研究が環境の制約により困難であった。
- 本研究は,論理的推論タスクを制御可能に生成するフレームワークを開発し,表現力と推論深さが学習効率に与える影響を明らかにすることを目的とする。
- ScaleLogicという合成論理推論フレームワークを開発し,推論深さと論理の表現力を独立に制御できることを示した。
- 学習計算量$T$は推論深さ$D$に対しべき乗則に従い,$T \propto D^{\gamma}$の関係が成立し,論理の表現力が高いほど指数$\gamma$が増加することを確認した。
- 数学や一般推論のベンチマークにおいて,より表現力豊かな学習設定が,性能向上と計算効率の良い転移学習を可能にすることを示した。
再帰的エージェント最適化 [cs.LG, cs.AI, cs.CL, cs.MA]目的:再帰的エージェントの訓練
- 複雑な問題解決において,より高度な知能が求められているため。
- 既存の強化学習では,複雑なタスクや長いコンテキストへの対応が難しい。
- 自己複製とタスク委譲による問題解決能力の向上を目指す。
- 再帰的エージェントは,推論時にスケーリングアルゴリズムを実装し,より長いコンテキストと難しい問題に対応可能。
- RAOにより,エージェントはいつ,どのようにタスクを委譲し,通信すべきかを学習し,訓練効率が向上。
- モデルのコンテキストウィンドウを超えるタスクにも対応し,学習データよりも難しいタスクへの汎化能力を獲得。
視覚モデルの挙動に対する概念に基づくアブダクションとコントラスト説明 [cs.LG, cs.AI]目的:視覚モデルの挙動に関わる因果的に重要な高レベル概念の最小集合
- 深層学習モデルの説明可能性は,AIの信頼性と実用性を高める上で不可欠である。
- 既存手法では,概念と予測の因果関係が不明確,または単一概念の説明に限定される。
- 高レベル概念を用いた最小限の説明により,モデル挙動の理解を深めることを目指す。
- 本研究では,概念に基づくアブダクションとコントラスト説明の概念を提案し,因果関係を確立する。
- 概念消去手続きを用いたアルゴリズム群により,最小限の説明を網羅的に列挙する。
- 複数のモデル,データセット,挙動における有効性を検証し,有用かつ理解しやすい説明が可能であることを示す。
GlazyBench:陶磁器釉薬特性予測と画像生成のためのベンチマーク [cs.AI, cs.CV]目的:陶磁器釉薬の特性予測と画像生成に関するベンチマークデータセット
- 陶磁芸における釉薬開発は,技術と経験を要し,芸術作品の質を大きく左右する。
- 釉薬開発には試行錯誤が不可欠だが,化学的複雑さから時間とコストがかかる。
- AIを活用した釉薬設計を支援するため,大規模データセットの必要性が課題となっていた。
- GlazyBenchは,23,148件の実際の釉薬配合を含むデータセットであり,釉薬設計を支援するAIモデルの訓練を可能にする。
- 釉薬の原料から焼成後の色や透明度を予測する特性予測と,釉薬の視覚表現を生成する画像生成の二つの主要なタスクに対応する。
- 従来の機械学習や大規模言語モデル,深層生成モデルを用いた実験により,有望な結果が得られた。
StraTA:戦略的軌跡抽象化によるエージェント型強化学習のインセンティブ付与 [cs.CL, cs.AI]目的:長期的な意思決定のためのエージェント型強化学習における戦略的軌跡抽象化
- 大規模言語モデルをエージェントとして活用する上で,長期的な意思決定能力の向上が重要である。
- 従来の強化学習手法は反応型であり,長期間の軌跡における探索と報酬帰属の問題を抱える。
- 戦略的軌跡抽象化により,エージェントのサンプル効率と最終的な性能を向上させることを目指す。
- StraTAは,ALFWorldで93.1%の成功率,WebShopで84.2%の成功率を達成した。
- SciWorldでは,最先端のクローズドソースモデルを上回る63.5%の総合スコアを獲得した。
- 戦略的な軌跡抽象化が,強化学習におけるサンプル効率と最終的な性能を安定的に向上させることを示した。
マルチモーダルドメイン汎化の進歩は達成されているか? 包括的なベンチマーク研究 [cs.CV, cs.AI, cs.LG, cs.MM]目的:マルチモーダルドメイン汎化の進歩評価のための標準化されたベンチマークの提供
- モデルの頑健性を高めるマルチモーダルドメイン汎化の重要性が高まっている。
- 評価プロトコルの不一貫性により,性能向上とアルゴリズムの真の進歩の区別が困難である。
- 標準化された評価を通じて,マルチモーダルドメイン汎化分野の進捗状況を明確にすること。
- 公平な比較下では,最新のマルチモーダルドメイン汎化手法はERMベースラインと比べてわずかな改善にとどまることが示された。
- データセットやモダリティの組み合わせに関わらず,一貫して他の手法を上回る手法は存在しないことが明らかになった。
- データ破損やモダリティ欠損に対する脆弱性が評価手法全体で見られ,一部手法ではモデルの信頼性が損なわれた。
蛍光タンパク質の量子収率予測のための成熟クロモフォア領域3Dメカニズムグラフにおけるエッジ特異的信号伝播 [cs.LG]目的:蛍光タンパク質の量子収率予測
- 蛍光タンパク質は,バイオイメージング等で広く利用され,その量子収率は重要指標である。
- タンパク質配列のみでは量子収率を正確に予測することが困難である。
- クロモフォア領域の局所的な物理的信号伝播をモデル化し,高精度な量子収率予測を目指す。
- 本研究で開発した手法は,既存のモデルと比較して高い予測精度を示した(R = 0.772)。
- 特に,配列の相同性が低いタンパク質群において,その優位性が明らかになった(R = 0.697)。
- 安定的に選択された特徴量から,各蛍光タンパク質における量子収率を決定するメカニズムが明らかになった。
帰納的ベネーアバーズと関連回帰モデル [cs.LG]目的:ベネーアバーズ回帰モデルの性能評価
- 予測モデルの精度向上は,様々な分野で重要な課題である。
- ベネーアバーズ予測子は二値分類に限定され,回帰への拡張が課題であった。
- ベネーアバーズ回帰モデルを拡張し,無限回帰への適用を目指す。
- ベネーアバーズ回帰モデルから派生した点回帰モデルは,標準的な回帰モデルよりも,大規模なトレーニングセットにおいて予測効率が向上する傾向にある。
- ベネーアバーズ予測子の妥当性の高い特性を,回帰問題にも適用可能にした。
- 確実性予測の要素を導入することで,ベネーアバーズ回帰モデルを無限回帰問題に拡張した。
