arXiv雑要約
AI - 2026/05/14 公開
StreamGaze:視線誘導による時間的推論とストリーミング動画の積極的理解 [cs.CV, cs.AI, cs.CL]目的:ストリーミング動画における視線誘導による時間的推論と積極的理解の評価
- ストリーミング動画の理解は,ARグラス等の応用において重要であり,リアルタイムな処理が求められる。
- 既存のストリーミング動画ベンチマークでは,視線情報の活用が評価されていない。
- 本研究は,MLLMがストリーミング動画において視線情報をいかに活用できるかを評価する。
- StreamGazeは,過去,現在,未来の視線誘導タスクを通じて,ストリーミング動画理解能力を包括的に評価する。
- 最先端のMLLMは,人間のパフォーマンスと比較して大きな性能差が見られ,視線に基づく時間的推論に課題があることが示された。
- 視線プロンプティング戦略,推論行動,タスク固有の失敗モードの詳細な分析を通じて,今後の研究の方向性を示唆する。
FOAM:ブロック状態フォールディングによるメモリ効率の良いLLM学習 [cs.CL, cs.CY, cs.RO, cs.LG, cs.AI]目的:大規模言語モデル学習におけるメモリ効率の向上
- 近年,大規模言語モデルの性能が著しく向上しているが,その学習には膨大なメモリが必要となる。
- Adamなどのメモリを大量に消費するオプティマイザ使用時に,メモリボトルネックが深刻な課題となっている。
- オプティマイザの状態をブロック単位で圧縮し,メモリ使用量を削減することで,学習の高速化を図る。
- 提案手法FOAMは,オプティマイザの状態を最大90%削減し,メモリ効率を大幅に改善する。
- FOAMは,標準的な非凸最適化設定下で,vanilla Adamと同等の収束率を理論的に保証する。
- 他のメモリ効率の良いオプティマイザとの組み合わせも可能であり,性能とスループットが向上する。
プリズムワールドモデル:ハイブリッドシステムのプランニングのための構成的ダイナミクスの学習 [cs.RO, cs.AI, cs.RO]目的:ハイブリッドシステムのプランニングのための構成的ダイナミクスモデル
- ロボット工学において,物理的環境下での計画立案は不可欠であり,その性能がロボットの自律性に直結する。
- 従来の潜在的世界モデルは,連続性と滑らかさを重視し,離散的な事象(接触や衝突など)を正確に捉えきれない。
- 複雑なハイブリッドダイナミクスを分解し,より高精度な予測を実現することで,長期的な計画立案の信頼性を向上させる。
- 提案手法PRISM-WMは,コンテキストを考慮したMoEフレームワークにより,現在の物理的モードを識別し,対応する遷移ダイナミクスを予測する。
- 潜在的な直交化目的を導入することで,各専門家モデルの多様性を確保し,モード崩壊を防ぐ。
- シミュレーション実験の結果,PRISM-WMはTD-MPCなどの軌道最適化アルゴリズムと組み合わせることで,高性能な制御を実現した。
ブラックボックス摂動からの自己整合的確率的補間による生成モデリング [cs.CL, cs.LG, cs.AI, stat.ML]目的:汚染されたデータからの生成モデルの構築
- 科学技術分野では,クリーンなデータが入手困難な場合が多い。
- 汚染されたデータから元のデータを復元する逆問題が課題である。
- ブラックボックスアクセスのみで汚染を反転し,クリーンデータの生成を可能にする。
- 提案手法SCSIは,変分法と比較して計算効率が高い。
- SCSIは,ブラックボックスアクセスのみで任意の非線形モデルに対応可能である。
- 自然画像処理や科学的再構成における逆問題において,優れた性能が示された。
非同期推論:学習不要のインタラクティブ思考LLM [cs.LG, cs.CL]目的:LLMにおける非同期推論の実現
- LLMの能力向上には推論が重要だが,リアルタイムな応答性が求められる場面も多い。
- 従来のLLMは逐次処理のため,新しい情報への即時適応が困難である。
- 位置埋め込みの特性を利用し,学習なしでLLMに非同期推論能力を付与する。
- 本手法により,LLMは思考,リスニング,出力の同時実行が可能となる。
- 数学,常識,安全性に関する推論タスクにおいて,高い精度を維持しつつ応答速度が大幅に向上した。
- 最初の非思考トークンまでの時間および全体的な遅延が,それぞれ最大で12倍減少した。
MobiBench:モバイルGUIエージェントのためのマルチブランチ,モジュール化されたベンチマーク [cs.AI]目的:モバイルGUIエージェントの評価のためのモジュール化されたオフラインベンチマークフレームワーク
- モバイルGUIエージェントは,人間とコンピュータのインタラクションを革新する可能性を秘めている。
- 既存のベンチマークは,単一の経路に依存するか,再現性が低いという課題がある。
- MobiBenchは,高精度,スケーラビリティ,再現性を備えた評価を可能にする。
- MobiBenchは,人間の評価者との94.72%の合意率を達成し,オンラインベンチマークと同等の性能を示す。
- モジュールレベル分析により,多様な技術の評価や最適な構成,LFMsの限界が明らかになった。
- MobiBenchは,より高性能でコスト効率の高いモバイルエージェント設計のための指針を提供する。
微分可能な進化型強化学習 [cs.AI, cs.CL]目的:最適な報酬構造の自律的な発見
- 強化学習において,複雑な推論タスクでは効果的な報酬信号の設計が重要である。
- 既存の自動報酬最適化手法は,微分を用いない探索に頼り,報酬構造とポリシー性能の因果関係を活かせていない。
- 報酬構造の微分可能な最適化により,タスク成功のメタ勾配を学習し,エージェントの自己改善を可能にすること。
- DERLは,ALFWorld,ScienceWorld,GSM8K,MATHといった多様な推論ドメインで最先端の性能を達成した。
- 特に,分布外汎化において,微分不可能なベースラインを大幅に上回る性能を示した。
- 軌跡分析により,DERLがタスクの固有の因果構造を捉え,完全に自律的なエージェントのアライメントを実現することが確認された。
QSMOTE-PGM/kPGM: 不均衡データセット分類のためのQSMOTEに基づくPGMおよびkPGM [cs.LG, quant-ph]目的:不均衡データセットにおける少数クラス表現の改善
- 機械学習における不均衡データは,現実世界の多くの問題で頻繁に発生する。
- 少数クラスの識別が困難であり,従来の機械学習手法では性能が低下する。
- 量子理論に着想を得た手法を用いて,少数クラスの識別能力向上を目指す。
- 提案手法は,Telco Customer Churnデータセットにおいて,古典的なRandom Forestよりも優れた性能を示した。
- 特に,再現率とバランスの取れたF1スコアにおいて顕著な改善が見られた。
- 量子コピー数を増やすことで,分類性能が系統的に向上することが示された。
乳幼児規模のビジョン言語モデルにおける属性識別性能のベンチマーク [cs.LG]目的:乳幼児規模のビジョン言語モデルにおける属性識別の評価
- 乳幼児は限られた経験から,物体カテゴリーだけでなく,色,大きさ,質感などの微細な視覚的属性を学習する。
- 既存の乳幼児規模のモデルは物体認識に重点が置かれており,クラス内属性識別能力は未評価だった。
- 本研究は,モデルが色,大きさ,質感といった属性を識別できるかを評価することを目指す。
- 乳幼児学習モデルは大きさの視覚表現は強く,質感識別も他のモデルと同程度だが,色の視覚識別は苦手だった。
- テキストと視覚の両方を活用したテストでは,色の意味理解が弱く,大きさの把握も限定的であった。
- 一方,大規模学習モデルはテキストから色を強く捉えるが,視覚的な大きさの識別は弱かった。
無限深さニューラルネットワークにおける特徴学習の動態 [cs.LG, cs.AI, math.PR, stat.ML]目的:無限深さニューラルネットワークにおける特徴量の進化過程の理解
- 深層学習は実用的な成功を収めているが,学習中の特徴量の進化に関するメカニズムの解明は不十分である。
- バックプロパゲーションにおける重み行列の転置利用が,特徴量と勾配の相関に及ぼす影響が不明である。
- 無限深さの極限下において,特徴量学習の動態を厳密に記述するモデルを構築することを目指す。
- 無限深さResNetにおいて,重み再利用による結合項は初期化時には消失するが,学習中に非自明な相関項を生み出す。
- depth-μPスケーリング下では,この相関項は高次の項となり,層を重ねるごとに影響が小さくなることが示された。
- 有限ネットワークの学習動態は,NFD(Neural Feature Dynamics)モデルに収束し,深さ離散化誤差はO(L⁻¹)で減衰する。
MRIラディオミクスにおける多視点パラダイムシフト:膠芽腫におけるMGMTメチル化予測 [cs.CV, cs.AI]目的:膠芽腫におけるMGMTプロモーターメチル化状態の予測
- 膠芽腫治療においてMGMTメチル化は予後や治療効果に重要であり,非侵襲的な予測が求められている。
- 従来のラディオミクス手法は,特徴量の冗長性やモダリティ固有情報の不完全なモデル化に課題があった。
- 本研究は,異なるMRIモダリティ情報を効果的に統合し,MGMTメチル化予測精度を向上させることを目指す。
- 提案手法である多視点VAEとランダムフォレスト分類器の組み合わせは,テストAUC 0.77を達成した。
- これは,ベースラインモデル(AUC 0.54)やハイパーパラメータ調整モデル(AUC 0.64)を大幅に上回る結果である。
- 多視点確率的エンコーディングが,補完的なMRI情報の統合を促進し,予測性能を向上させることが示された。
深層デルタ学習 [cs.LG, cs.AI, cs.CL, cs.CV]目的:Transformerの残差ストリーム管理機構の改善
- Transformerは自然言語処理の基盤技術であり,高性能なモデル構築に不可欠である。
- Transformerの残差結合では,不要な情報が蓄積し,性能低下を招く可能性がある。
- 残差ストリームを能動的に書き換えることで,情報の管理効率を高めることを目指す。
- 深層デルタ学習(DDL)は,各層が残差内容を選択的に書き換えることを可能にする。
- DDLは,現在の状態と目標値を比較し,ゲート制御された修正を状態に書き込む。
- 実験結果から,DDLは従来の残差結合よりも言語モデリングの性能を向上させることが示された。
二次最適化焼きなまし法とMDRに基づく評価を用いた因子分解機械による高次エピスタシス検出 [cs.LG, quant-ph]目的:高次エピスタシスの検出
- 遺伝的関連研究において,エピスタシス検出は重要な課題である。複雑な遺伝的影響を明らかにすることが求められている。
- 候補となる遺伝子座の組み合わせが指数関数的に増加するため,高次エピスタシスの検出は計算コストが高い。
- 計算効率を維持しつつ,高次の遺伝子間相互作用を正確に検出することを目指す。
- 提案手法は,因子分解機械と二次最適化焼きなまし法を組み合わせることで,効率的なエピスタシス検出を実現した。
- シミュレーションデータを用いた実験により,提案手法が様々な次数と遺伝子座数において,真のエピスタシスを正確に特定できることが示された。
- MDRによる分類誤り率を目的関数として使用することで,計算効率と検出精度の両立を達成した。
FlowPlan-G2P:科学論文を特許明細書へ変換する構造化生成フレームワーク [cs.AR, cs.SY, eess.SY, cs.NI, cs.DC, cs.CL, cs.AI]目的:科学論文から特許明細書への変換
- 科学技術の発展には,その成果を特許として保護することが不可欠である。
- 科学論文と特許明細書は,文体や構成が大きく異なり,自動変換が困難である。
- 科学論文の構造を考慮し,特許要件に適合した明細書を生成すること。
- FlowPlan-G2Pは,概念グラフの抽出,セクションレベルの計画,グラフ条件付き生成の3段階で変換を行う。
- 標準的なNLG指標では,法的に不適切な出力が優先される傾向があるため,ドメイン固有の評価が必要である。
- FlowPlan-G2Pは,オープンウェイトの基盤モデルを用いても,既存のプロプライエタリモデルを上回り,構造化分解の重要性を示した。
テキスト条件付き回帰のためのLLMフロープロセス [cs.CY, cs.LG, cs.CL, stat.ML]目的:テキスト条件付き回帰におけるLLMフロープロセスの提案
- 大規模言語モデル(LLM)は,時系列予測など回帰タスクで高い性能を示す。
- 短い系列でもエラーが連鎖的に発生しやすく,計算コストが高いという課題がある。
- LLMの予測密度と軽量なニューラルプロセスを組み合わせ,予測精度と計算効率を向上させる。
- LLMの予測密度と拡散モデルベースのニューラルプロセスを組み合わせることで,より適切な予測が可能となった。
- 提案手法は,局所的に一貫性のある軌跡を生成し,メタ学習器におけるテキスト条件付き関数空間選択を促進する。
- スコアモデルと専門家の積からのサンプリングのための勾配不要(かつモンテカルロ法を用いない)手法を提案した。
PersonalAlign:長期ユーザー記録を用いたパーソナライズされたGUIエージェントのための階層的暗黙的意図整合 [cs.HC, cs.CY, cs.AI, cs.CV, cs.HC, cs.LG]目的:パーソナライズされたGUIエージェントにおける階層的暗黙的意図整合
- GUIエージェントの応用範囲拡大のため,ユーザーの複雑な意図理解が不可欠である。
- 明示的な指示だけでは,ユーザーの暗黙的な意図を正確に捉えきれないという課題がある。
- 長期ユーザー記録を活用し,曖昧な指示や潜在的なルーチンを推測することで,より自然な支援を目指す。
- 本研究では,長期ユーザー記録を基にした新しいベンチマーク「AndroidIntent」を開発した。
- 提案手法であるHIM-Agentは,継続的に更新される個人用メモリと階層的な組織化により,実行性能と積極的な支援性能をそれぞれ15.7%,7.3%向上させた。
- GPT-5,Qwen3-VL,UI-TARSを含む複数のGUIエージェントを用いて評価を行い,HIM-Agentの有効性を検証した。
幾何学的プリコンディショニングとカリキュラム最適化:学習可能な変分量子回帰 [cs.MA, cs.LG, quant-ph]目的:学習可能な変分量子回帰の訓練可能性向上
- 量子計算は複雑な関数近似に有望だが,訓練が困難。
- 勾配信号の弱体化や回路深度の増加が訓練のボトルネック。
- 幾何学的プリコンディショニングとカリキュラム学習による解決。
- 古典的な埋め込み層を導入し,入力分布を整形することで勾配の安定化を図った。
- 回路深度を段階的に増加させるカリキュラム学習と,最適化手法の切り替えを実施した。
- ベンチマークテストで,ハイブリッドQNNは純粋QNNよりも低い誤差を示した。
ソックパペッティング:プレフィリングと最適化を組み合わせるLLM脱獄手法 [eess.SY, cs.SY, cs.CL, cs.CR, cs.LG]目的:LLMの脱獄
- LLMは強力だが,悪意のあるプロンプトに対する脆弱性が存在する。
- 既存の脱獄手法は成功率が低い場合があり,汎用性に欠ける。
- 出力接頭辞の注入に対する防御の必要性を示す。
- プレフィリング攻撃のアンサンブルにより,Gemma-7B,Llama-3.1-8B,Qwen3-8Bで攻撃成功率が向上した。
- 「ソックパペッティング」というハイブリッド攻撃を導入し,Llama-3.1-8Bにおいて最大64%の攻撃成功率向上を実現した。
- オープンウェイトモデルに対する出力接頭辞注入攻撃への対策が不可欠であることが示唆された。
医療対話システムの信頼性評価のための自動評価基準 [cs.CL, cs.AI]目的:医療対話システムの評価基準の自動生成
- 臨床現場でのLLM利用拡大に伴い,患者安全への影響評価が重要となっている。
- 既存の評価指標では,臨床的誤りを捉えきれない場合がある。
- 専門家が作成する詳細な評価基準はコストが高く,スケールしにくいという課題を解決する。
- 提案手法は,医療情報を基にした評価基準を自動生成し,HealthBenchで高いClinical Intent Alignment(CIA)スコアを達成した。
- HealthBenchにおける識別実験で,GPT-4oよりも7.8%高い勝率と,約2倍のスコア差を示した。
- 生成された評価基準は,医療LLMの応答改善にも有効であり,品質を9.2%向上させた。
視覚点目標ナビゲーションのための効率的な昆虫着想アプローチ [cs.AI, cs.RO]目的:視覚点目標ナビゲーションのための昆虫に着想を得たモデル
- ロボット工学において,自律的なナビゲーションは重要な課題である。環境理解と効率的な経路計画が不可欠。
- 既存のナビゲーションモデルは,計算コストが高く,現実環境への適応が難しい場合がある。
- 昆虫の脳構造に着想を得ることで,計算コストを抑えつつ,ロバストなナビゲーションを実現する。
- 提案手法は,Habitatベンチマークにおいて,最新モデルに匹敵する性能を示した。
- 計算コストは最新モデルよりも大幅に少なく,効率的なナビゲーションが可能である。
- シミュレーション環境での実験により,提案手法が現実的な摂動に対して頑健であることが確認された。
高速量子化行列乗算 I [cs.IT, cs.AI, math.IT]目的:量子化行列乗算の効率化
- 大規模言語モデルの普及に伴い,計算効率が重要となっている。
- 量子化による計算効率化において,レートと歪みのトレードオフが課題。
- 事前統計情報なしでの汎用的な量子化手法の性能評価と解析。
- 量子化レートと歪みの間の情報理論的なトレードオフを再検討した。
- 一般的な量子化スキーム(absmax INT,FP)の性能を比較・評価した。
- これらのスキームに対するヒューリスティック近似を導出した。
PolySHAP:交互作用を考慮した多項式回帰によるKernelSHAPの拡張 [cs.AI, cs.LG]目的:説明可能なAIにおけるShapley値の近似手法の改良
- AIの透明性・解釈性が重要視される中,モデルの予測根拠を説明する技術が不可欠である。
- Shapley値の正確な計算は計算コストが高く,現実的な問題への適用が困難である。
- 高次の多項式近似を用いることで,KernelSHAPの近似精度を向上させ,より信頼性の高い説明を可能とする。
- 提案手法PolySHAPは,様々なベンチマークデータセットにおいて,既存手法よりも優れたShapley値の推定結果を示した。
- PolySHAPの推定値は理論的に整合性を持つことが証明された。
- Paired samplingが,第二次のPolySHAPと同等の近似値を生成することが理論的に示され,その有効性が裏付けられた。
GUIGuard-Bench:プライバシー保護GUIエージェントの汎用的な評価に向けて [cs.CR, cs.AI, cs.CV]目的:GUIタスクにおけるプライバシー保護の評価
- GUIエージェントの利用拡大に伴い,プライバシー侵害リスクへの対応が重要となっている。
- 既存の評価指標はタスク遂行率に偏っており,GUI固有のプライバシーリスク評価が不足している。
- GUIタスクの軌跡に基づいたプライバシー保護GUIエージェントの評価基準を確立する。
- GUIGuard-Benchは,AndroidとPC環境における241のGUIエージェント軌跡と4,080のスクリーンショットを含む。
- 現在のモデルはプライバシー情報の有無は検知できるものの,詳細な位置特定,カテゴリ認識,リスク評価は困難である。
- Claude Sonnet 4.6などのクローズドソースモデルは,プライバシー保護後もAndroid環境で計画の整合性を維持できることが示された。
Transformerはどのようにトークンを関連付けるか:勾配の主要項がメカニズム解釈をもたらす [cs.CL, cs.LG]目的:言語モデルにおけるトークン関連付けの学習メカニズムの解明
- 言語モデルの性能向上には,単なる記憶を超えた汎化能力が不可欠であり,そのためには意味的関連性の理解が重要である。
- 深層学習モデルにおける意味的関連性の学習と表現がブラックボックスであり,言語学的理論との接続が困難である。
- Transformerの学習初期段階における勾配を分析し,意味的関連性の形成過程を数式的に記述することで,そのメカニズムを解明する。
- Transformerの各重みは,テキストデータの統計量を反映する3つの基本関数(bigram,トークン交換可能性,文脈マッピング)の単純な組み合わせとして表現されることが示された。
- 理論的な重みの特徴付けが,実際のLLMの学習済み重みと高い一致度を示すことが実験的に確認された。
- 本研究は,Transformerにおける学習された関連性の解釈に新たな光を当て,メカニズム解釈の基盤を提供する。
SynCABEL:生物医学的エンティティリンキングのための合成文脈拡張 [cs.CL, cs.AI, cs.IR, cs.LG]目的:生物医学的エンティティリンキングのための訓練データ拡張手法
- 生物医学分野では,専門知識に基づく正確なエンティティリンキングが不可欠である。
- 教師あり学習には大量の専門家による注釈付きデータが必要だが,その作成はコストと時間がかかる。
- 大規模言語モデルを用いて,注釈コストを削減しつつ,エンティティリンキングの性能を向上させる。
- SynCABELは,英語,フランス語,スペイン語のベンチマークにおいて,最先端の結果を達成した。
- SynCABELは,従来のフルスーパーバイズド学習と同等の性能を,最大60%少ない注釈データで実現した。
- LLMを用いた評価により,SynCABELが臨床的に妥当な予測の精度を大幅に向上させることが示された。
予測・射影・リノイズ:厳格な制約下での拡散モデルのサンプリング [cs.FL, cs.CL, cs.LG]目的:厳格な制約下での拡散モデルからのサンプリング
- 物理科学等の分野では,保存則や境界条件など,厳密な制約の遵守が求められる。
- 拡散モデルは厳格な制約を課すことができず,既存手法では制約遵守と分布の忠実性を両立できない。
- 制約を満たしつつ,分布の精度を保つサンプリング手法を確立すること。
- 提案手法「予測・射影・リノイズ」は,事前学習済みの拡散モデルに厳格な制約を課すサンプリングを可能にする。
- 射影によりデータ多様体近傍を維持し,リノイズと反復により制約を満たす分布へサンプルを導く。
- 2次元分布,Kuramoto-Sivashinsky方程式,大気モデルにおいて,低制約違反と高分布忠実性を同時に達成した。
パーセプトロンと注意機構の平均場景観の局所化 [cs.LG, math.OC]目的:注意機構における平均場景観の局所化に関する研究
- Transformerは自然言語処理の基盤であり,その理論的理解が重要である。
- Transformerの長文処理における計算コストと理論的な理解が課題である。
- パーセプトロンブロックがTransformerの平均場景観に与える影響を明らかにすること。
- Transformerの順伝播は,単位球面上の相互作用する粒子系として捉えることができる。
- 特定の重み設定下では,この系はエネルギーの勾配降下として解釈でき,Wasserstein勾配流を通じて無限の文脈長を扱える。
- 本研究では,パーセプトロンブロックが臨界点を局所化することを示した。
協調的パラメータ学習:パラメータレベル勾配分析による忘却の軽減 [cs.LG]目的:知識注入時の忘却軽減策
- 大規模言語モデルの知識獲得において,既存知識の喪失は大きな課題である。
- 従来の勾配類似度に基づく手法では,パラメータごとの貢献度が十分に考慮されていなかった。
- パラメータレベルでの分析に基づき,忘却を招くパラメータと抑制するパラメータを特定し,効率的な学習を実現する。
- 提案手法CPLは,既存手法と比較して,有意に多くの質問を学習し,忘却を抑制することを示した。
- CPLは,モデルパラメータ数10億あたり約3GBのVRAM使用量と計算時間をそれぞれ削減する効果がある。
- 多様なタスクにおいて,CPLは忘却軽減効果を実証し,汎用性も高いことが示された。
事前データ適合ネットワークにおけるスペクトル構造のメカニズム的証拠 [cs.LG]目的:事前データ適合ネットワークにおけるスペクトル表現の学習と抽出
- ベイズ推論の効率化が求められる中で,事前データ適合ネットワークは注目を集めている。
- 事前データ適合ネットワークの中間表現が,ベイズ構造をどのようにエンコードしているかは不明である。
- 事前データ適合ネットワークが学習するスペクトル表現のメカニズムを解明し,明示的に抽出することを試みる。
- 事前データ適合ネットワークは,構造化されたスペクトル表現を学習しており,潜在的な注意スコアから線形的に復号化できることが示された。
- 学習されたスペクトル方向は,ランダムな方向よりも予測において効果的であり,低次元部分空間に集中している。
- 事前データ適合ネットワークの潜在変数をスペクトル密度にマッピングするフィルターバンクデコーダーを導入し,Bochnerの定理を用いてカーネルを再構築することに成功した。
多様体射影によるフローマッチングのClassifier-Free Guidanceの改善 [cs.CV, cs.AI]目的:拡散モデルおよびフローベースモデルにおける制御可能な生成のためのClassifier-Free Guidanceの改良
- 拡散モデルやフローベースモデルは高品質な生成が可能だが,生成制御が課題となる分野。
- 従来のClassifier-Free Guidanceは,ガイダンススケールに敏感であり,安定性に課題がある。
- ガイダンス感度を低減し,生成品質とプロンプトへの適合性を高めることを目指す。
- 本研究では,最適化の観点からClassifier-Free Guidanceを解釈し,多様体射影によるサンプリングを提案。
- 提案手法は学習不要であり,生成品質,プロンプトへの適合性,ガイダンススケールへのロバスト性を向上。
- DiT-XL-2-256,Flux,Stable Diffusion 3.5など,大規模モデルを用いた実験で有効性が確認された。
ギャップに注意を払う:言語モデルにおける表明された選好と行動の乖離に,聞き出しプロトコルがどのように影響するか [cs.AI, cs.ET]目的:言語モデルにおける表明された選好と行動の乖離
- 言語モデルの性能評価において,人間の選好との整合性は重要な課題である。
- 既存の評価方法では,選好の聞き出し方法が結果に影響を与える可能性が指摘されている。
- 選好の聞き出しプロトコルが乖離に与える影響を明らかにすること。
- 表明された選好の聞き出しにおいて中立や棄権を許容することで,弱いシグナルを除外し,表明された選好と行動の相関を高めることができる。
- しかし,行動選好の聞き出しにおいても棄権を許容すると,高い中立率により相関がほぼゼロまたは負の値になる。
- 表明された選好を用いて行動選好の聞き出しを誘導しても,AIRiskDilemmasにおいて相関が確実に向上するとは限らない。
勾配降下法におけるKolmogorov-Arnoldネットワークの最適化,汎化,および差分プライバシー境界 [cs.LG, cs.AI, stat.ML]目的:Kolmogorov-Arnoldネットワークの学習ダイナミクス,汎化性能,および差分プライバシー特性の理論的解析
- 機械学習モデルの性能向上と理論的理解は,AI技術の発展に不可欠である。
- 標準的なMLPと比較して構造化されたKANsの学習理論は未成熟である。
- KANsにおける勾配降下法の最適化,汎化,およびプライバシーを定量的に評価する。
- 2層のKANsに対する勾配降下法の学習ダイナミクス,汎化,および差分プライバシーに関する一般的な境界を導出した。
- ロジスティック損失とNTK分離仮定の下では,多対数ネットワーク幅で$1/T$の最適化率と$1/n$の汎化率を達成できることを示した。
- 差分プライバシー環境下では,必要なノイズ量と有用性の境界を導出し,多対数幅が必要条件となることを示した。
混合型特徴を持つ異種テーブルデータのためのカスケードフローマッチング [cs.LG, stat.ML]目的:異種テーブルデータにおける混合型特徴の生成
- テーブルデータの生成モデリングは近年進展しており,その応用範囲は広い。
- 離散状態と連続分布を組み合わせた混合型特徴の生成は依然として困難である。
- 本研究は,より忠実な混合型特徴の生成を可能とするカスケードアプローチを提案する。
- 提案手法は,低解像度表現を用いて高解像度フローマッチングモデルを誘導する。
- 生成されたサンプルは,より現実的で分布の詳細を正確に捉えていることが示された。
- 検出スコアが51.9%向上するなど,性能評価において良好な結果が得られた。
文脈依存異常検知のための条件付き適合性学習 [cs.CV, cs.LG]目的:文脈依存の異常を検知するための条件付き適合性学習
- 現実世界の異常は,固有の性質ではなく文脈に依存する場合が多い。その理解は重要である。
- 既存の異常検知手法は,主語と文脈の関連性を考慮していないため,誤検出が生じやすい。
- 主語と文脈を分離し,文脈に応じた適合性を学習することで,より正確な異常検知を目指す。
- 提案手法CC-CLIPは,主語と文脈を分離した表現を学習し,テキスト条件付きのアテンション機構を用いる。
- CC-CLIPは,文脈依存異常検知において,既存のCLIPベースの手法や文脈推論ベースの手法を大幅に上回る性能を達成した。
- CC-CLIPのシングルブランチ変種は,構造的異常ベンチマークにおいても競争力のある性能を示した。
THINKSAFE:推論モデルのための自己生成型安全性アライメント [cs.AI]目的:推論モデルにおける安全性と推論能力の維持
- 大規模言語モデルの性能向上に伴い,安全性確保が重要な課題となっている。
- 強化学習による最適化が,安全性よりも応答性に偏る問題がある。
- 外部教師への依存なしに,モデル自体の知識を活用して安全性を向上させる。
- ThinkSafeは,外部教師なしで安全性を回復させる自己生成型アライメントフレームワークである。
- 軽量な拒否ステアリングにより,モデルが持つ潜在的な有害性識別能力を活用する。
- DeepSeek-R1-DistillとQwen3での実験により,安全性と推論能力の両方を向上させることが示された。
推論時安全なテキスト画像生成のための全変動による選択的プロンプト投影 [cs.CY, cs.AI]目的:推論時における安全性を確保するための選択的プロンプト投影手法
- テキスト画像生成モデルは高品質な画像を生成するが,安全性と生成品質の両立が課題である。
- 既存手法では,安全性確保のために生成される画像の質が低下しやすいという問題点がある。
- 参照分布からの逸脱を最小限に抑えつつ,安全なプロンプトへの選択的な投影を実現する。
- 提案手法SPOTは,強固な安全対策と比較して,不適切な画像の割合を14.2%から44.4%削減することに成功した。
- SPOTは,生成モデルの再学習や特定のカテゴリに対する書き換え学習を必要とせず,推論時に安全性を確保するフレームワークである。
- ベンignなプロンプトに対する挙動は,固定された参照分布に近い状態を維持している。
協調型マルチエージェント報酬なし探索における地平線閾値 [cs.LG]目的:報酬なし探索における協調型マルチエージェント強化学習の特性解明
- 強化学習は,自律的な意思決定を行うエージェントを開発する上で重要な役割を果たす。
- 報酬信号がない環境での探索は,エージェントにとって困難な課題である。
- 限られた探索段階数で効率的な環境学習を実現するためのエージェント数の最適化を目指す。
- 地平線Hと探索段階数との間に閾値が存在し,段階数がHに等しい場合,効率的なアルゴリズムが開発可能となる。
- 提案アルゴリズムは,$\tilde{O}(S^6 H^6 A / \epsilon^2)$ のエージェント数で環境のダイナミクスの$\epsilon$近似を達成する。
- 探索段階数$\rho$がHより小さい場合,少なくとも$A^{H/\rho}$のエージェントが必要となる下界を示す。
AdaptNC:分布シフト下における適合非適合スコアの適応 [cs.LG, cs.RO, cs.SY, eess.SY]目的:分布シフト下での確実性予測のための適応非適合スコア
- 自律システムの安全な運用には正確な不確実性評価が不可欠である。
- 従来の確実性予測は交換可能性を前提とするため,現実世界のロボティクスにおける分布シフトの影響を受ける。
- 環境変化に対応して予測領域の体積効率を高め,保守性を低減することを目的とする。
- AdaptNCは,非適合スコアパラメータと適合閾値を同時にオンラインで適応させることで,予測領域の体積を大幅に削減した。
- 既存の閾値のみを調整する手法と比較して,AdaptNCは目標カバレッジレベルを維持しながら予測領域の体積を大幅に削減することを示した。
- 適応的な重み付けスキームとリプレイバッファ機構により,分布シフトに対する安定性と効率性を両立した。
保全・量子化:LLMにおける量子化誤差再構成のランク予算のバランス [cs.LG, cs.AI]目的:LLMの量子化誤差再構成におけるランク予算配分の最適化
- LLMの効率的な推論のため,モデルの量子化が不可欠である。
- 量子化は精度低下を招くため,誤差再構成技術が求められる。
- 既存手法の非効率性を改善し,量子化精度を向上させる。
- 提案手法(SRR)は,量子化前の重みの主要な特異値空間を保全することで,量子化誤差再構成の効率を高める。
- 理論に基づいた基準により,最適な特異値空間の次元数を選択する。
- 2bit QPEFTにおいて,GLUEベンチマークで平均5.9ポイントの精度向上を達成した。
マルチエージェント議論のための文脈学習 [cs.AI, cs.LG, cs.MA]目的:マルチエージェント議論における一貫性向上
- 大規模言語モデルの協調的な問題解決への関心が高まっており,その有効性が注目されている。
- 現在の手法では,エージェント間の文脈のずれにより,議論の一貫性が失われ,合意に至らない場合がある。
- 各エージェントの文脈生成器を学習することで,議論の一貫性を高め,より正確な合意形成を目指す。
- 提案手法M2CLは,文脈生成器を通じて各エージェントの文脈を動的に生成し,議論の一貫性と結果の差異を制御する。
- 学術的な推論,具現化されたタスク,モバイル制御といった多様なタスクにおいて,既存手法を20%~50%上回る性能を示した。
- 高い汎化性能と計算効率も確認されており,実用的な応用が期待できる。
サイビル監査:生成的介入的帰属による深層肺がんリスク予測の説明 [cs.LG, cs.AI, cs.CV]目的:深層学習モデルによる肺がんリスク予測の解釈可能性向上
- 肺がんは依然として癌死因の第一位であり,自動スクリーニングの必要性が高まっている。
- 既存の評価は相関関係に基づくもので,モデルの推論メカニズムが不明確である。
- 因果検証によるモデルの意思決定の信頼性確保を目指す。
- 提案手法S(H)NAPは,現実的な3D拡散モデルを用いて解剖学的特徴を操作し,リスクスコアへの貢献度を特定する。
- サイビルの介入的監査を行った結果,悪性肺結節と良性肺結節の識別において専門医と類似した行動を示す一方で,重大な欠陥が見られた。
- 臨床的に正当化されないアーチファクトへの過敏性や,放射方向の偏りなど,危険な誤りモードが存在することが明らかになった。
画像と長文キャプションのアライメント:視覚的根拠に基づいた理解 [cs.CV, cs.AI, cs.LG]目的:画像と長文キャプションにおける,局所的な特徴と全体的な構造のアライメント
- 画像とテキストを組み合わせた理解は,AIの視覚的理解能力を向上させる上で重要である。
- 既存のモデルは長文のキャプションを正確に理解できず,詳細な視覚情報を無視する傾向がある。
- 本研究は,画像内の要素とその意味を特定し,全体的な文脈に統合することで,この問題を解決する。
- 提案手法CAFTは,局所的なテキストと画像領域のアライメントを同時に学習し,高い性能を示す。
- CAFTは,3000万組の画像-テキストデータを用いて学習し,6つの長文検索ベンチマークで最先端の結果を達成した。
- 実験により,CAFTが明示的な領域レベルの教師なしで,テキストの意味を画像領域に局所化できることが示された。
DiscoverLLM:意図の実行から意図の発見へ [cs.CL, cs.AI, cs.CL, cs.HC, cs.LG]目的:ユーザーの意図形成と発見を支援するフレームワーク
- 曖昧な要求への対応はLLMの重要な課題であり,ユーザーとのインタラクションを通じて意図を明確化する必要がある。
- ユーザー自身が意図を明確に持っていない場合,単純な質問だけでは意図の発見が困難である。
- LLMがユーザーの認知状態をモデル化し,探索と洗練を繰り返すことで意図形成を支援する。
- DiscoverLLMは,創造的・技術的な文章作成,SVG描画などのタスクにおいて,従来のモデルを10%以上上回る性能を発揮した。
- 会話の長さを最大40%削減し,効率的なインタラクションを実現した。
- 75名の参加者によるユーザースタディでは,会話の満足度と効率が向上した。
ZKBoost:XGBoostのゼロ知識検証可能学習 [cs.CR, cs.LG]目的:XGBoostの学習における,データやモデルパラメータを開示せずに,正しい学習を証明する手法
- 機密性の高い環境でのモデル利用が増加しており,モデルの完全性の暗号的保証が不可欠であるため。
- 従来のZKPの学習手法には,ツリー構造の漏洩や脆弱性といった,セキュリティ上の問題が存在したため。
- XGBoostの学習プロセスを効率的に検証可能なゼロ知識証明プロトコルを開発し,セキュリティ上の問題を解決すること。
- ZKBoostは,XGBoostのゼロ知識証明(zkPoT)を実現する最初のプロトコルであり,学習コストを大幅に削減できる。
- 汎用的なZKPバックエンドと組み合わせ可能なテンプレートを開発し,効率性と柔軟性を高めた。
- 固定小数点版XGBoostを開発し,ZKPとの相性を高めつつ,実データセットでの精度を維持した。
学習可能なベルンシュタイン活性化関数の指数近似レートとパラメータ効率 [cs.LG, cs.AI, cs.NA, math.NA]目的:深層ニューラルネットワークにおける表現能力とパラメータ効率の向上
- 深層学習の性能は活性化関数の選択に大きく依存する。理論的保証が求められている。
- 既存の活性化関数は,表現能力やパラメータ効率に関する厳密な理論的保証がない。
- ベルンシュタイン多項式活性化関数を用いたネットワークの近似誤差の高速な減衰を実現する。
- ベルンシュタイン活性化関数を用いた深層ネットワーク(DBN)の近似誤差は,ReLUよりも指数関数的に高速に減衰する。
- DBNは,ReLUと比較して70%以上のパラメータ削減を達成し,学習エポック数を26%に削減可能である。
- 最終損失は最大45%低減され,学習可能な多項式構造が性能向上に寄与することが確認された。
学習された関数拡張によるニューラル演算子への境界条件の課す方法 [cs.CL, cs.LG]目的:複雑な非同次境界条件に対するニューラル演算子の条件付け
- 偏微分方程式の解法において,ニューラル演算子は強力な代替手段として注目されている。
- 境界条件が複雑または変化する場合,既存の手法では解演算子への強い影響に対応できない場合がある。
- 境界データから空間全体に定義された潜在的な擬似拡張をマッピングし,複雑な境界条件を課すことを目指す。
- 本研究では,ポアソン方程式,線形弾性体,超弾性体問題を含む18種類のデータセットを用いて,提案手法の有効性を検証した。
- その結果,様々な形状と複雑な境界条件を持つデータセットにおいて,既存手法を大幅に上回る精度を達成した。
- データセット間でハイパーパラメータの調整を必要とせず,境界からドメインへの拡張学習が有効であることが示された。
拡散言語モデルのアライメントのためのエントロピーを意識した報酬ガイダンス [cs.LG, cs.AI, cs.CL]目的:拡散言語モデルのアライメントにおける報酬ガイダンスのメカニズム
- 大規模言語モデルの性能向上には,人間の意図との整合性が重要であり,報酬ガイダンスはそのための有効な手段である。
- 離散的な言語モデルにおいて,報酬関数の微分が困難であり,報酬ガイダンスの実装が課題となっていた。
- 拡散言語モデルにおける離散トークンへの報酬ガイダンスを可能にする新しいメカニズムを開発し,性能向上を目指す。
- 提案手法EntRGiは,連続的なトークン緩和とサンプリングされたハードトークンを動的に補間することで,報酬モデルの信頼性と最適化精度を両立する。
- テスト時適応と報酬ガイダンス付き強化学習(RGRL)の両方の設定で,最先端の手法と比較して一貫した改善が確認された。
- 本研究で開発したコードは公開されており,再現性とさらなる研究への貢献が期待される。
プラグマティックな好奇心:能動推論によるハイブリッド学習と最適化の統一的フレームワーク [cs.IR, cs.LG, stat.ML]目的:ハイブリッド学習と最適化のための統一的フレームワーク
- 工学や科学分野において,高コストなブラックボックス評価が必要となる場面が多く,効率的な意思決定が求められる。
- ベイズ最適化とベイズ実験計画法は強力だが分離しており,学習と最適化が密接に関連する状況への指針が不足している。
- タスクに関連する潜在変数の情報獲得と,期待される後悔に基づいた潜在的な価値とのトレードオフを通じて,両者を統合することを目指す。
- PraCは,意思決定リスクを低減し,重要な結果領域の網羅性を向上させることが示された。
- 予測構造と選好構造を,タスク固有の段階的ルールに依存せずに,同時に学習することが可能である。
- このフレームワークは,固定されたグローバルシンボルから未知の選好を持つ階層的後悔学習まで,多様な複雑さの状況で有効であることが確認された。
離散行動を持つオフライン強化学習のためのフローマッチング [cs.LG]目的:離散行動空間におけるオフライン強化学習のためのフローマッチング手法
- 強化学習は,複雑な意思決定問題への応用が期待され,様々な分野で重要性が増している。
- 従来のオフライン強化学習は,連続行動空間に限定されており,離散行動空間への適用が困難であった。
- 本研究は,離散行動空間を持つオフライン強化学習に対応する汎用的なフローマッチングフレームワークを提案する。
- 拡散モデルやフローマッチングに基づく生成ポリシーは,オフライン強化学習において高い性能を示すことが示された。
- 提案手法は,多次元制御,マルチエージェントゲーム,動的に変化する複数目的におけるベンチマークで,従来のオフライン強化学習手法を上回る性能を発揮した。
- 離散フレームワークは,行動の量子化を通じて連続制御問題にも適用でき,表現の複雑さと性能のトレードオフを提供する。
データ分布を知らずに過剰最適化を回避する直接選好最適化 [cs.LG]目的:過剰最適化の回避
- 人間のフィードバックを活用した学習は,AIの性能向上に不可欠である。
- 直接選好最適化は過剰最適化を起こしやすく,性能が理論限界に達しにくい。
- データ分布や報酬モデルを明示的に学習せず,過剰最適化を回避する手法の提案。
- PEPOは,選好最適化されたポリシーのアンサンブルを用いて悲観性を実現する。
- テーブル設定において,単一ポリシー集中度のみに依存するサンプル複雑性保証を示す。
- 理論的結果は,DPOと同程度の簡便性と実用性を維持しつつ,実用的な性能によって裏付けられている。
