arXiv雑要約
AI - 2026/05/27 公開
事後推論のための償却化ファクター推論ネットワーク [cs.LG]目的:モデルに依存しない汎用的な事後推論ネットワークの構築
- ベイズ推論は不確実性の定量化に不可欠であり,多くの分野で応用が広がっている。
- 従来の償却化推論は固定モデルに依存し,未知のモデルへの適用には再学習が必要である。
- 異なる事前分布,尤度関数,次元数を持つモデルに対応可能な汎用的な推論手法を開発する。
- 提案手法AFINは,NUTSや他の変分推論手法と同等の事後精度を達成する。
- AFINは,テスト時の計算コストを2~4桁削減できる。
- AFINは,モデルの仕様と観測データから変分事後分布のパラメータを推定する次元独立モジュールを使用する。
FM-fMRI:イベント条件付きフローマッチングによる安静時fMRIから課題時fMRI時系列合成 [cs.LG, eess.IV]目的:課題時fMRI時系列の合成手法
- 課題時fMRIは脳活動を直接反映するが,取得コストが高い。
- 安静時fMRIから課題時fMRIを合成する技術の精度向上が課題。
- イベント情報を活用し,高精度な時系列合成を目指す。
- 提案手法FM-fMRIは,スペクトルとコネクティビティの一致において既存手法を上回る。
- 分布レベルでの整合性も改善され,より自然な時系列を生成する。
- 自閉症データセットで課題時fMRIを合成し,分類精度向上に貢献する。
ユニブースト:価値整合を用いた公正かつ効率的なトラフィック配分 [cs.IR, cs.AI, cs.LG]目的:公正かつ効率的なトラフィック配分を実現するための枠組み
- インターネットサービスの進化に伴い,レコメンデーションシステムの重要性が増している。
- 既存手法では,配分計画の複雑化やスコアの歪み,解釈の難しさといった課題が存在する。
- ビジネス目標に沿った解釈可能なトラフィック配分と,効率的なシステム運用を目指す。
- ユニブーストは,抽象的なモデルスコアをビジネス目標と結びつけることで,解釈可能性を向上させる。
- 独立した線形ブースティングを用いることで,複雑な重み付けを分離し,各計画の貢献度を明確に示す。
- オンラインA/Bテストにより,マイクロレベルでのトラフィック配分効率の改善と,マクロレベルでのシステム改善の指針が得られた。
再構成に基づく脳波基盤モデルにおける非周期性と低周波スペクトルバイアス [cs.CL, cs.HC, cs.RO, cs.CL, stat.AP, cs.CL, cs.LG, cs.AI]目的:脳波基盤モデルにおける表現学習のメカニズム解明
- 脳波は脳活動を反映し,医療やブレイン・マシン・インターフェース等,幅広い応用が期待される。
- 大規模データで事前学習する脳波基盤モデルは,リソースが少ない環境下では,教師あり学習モデルに劣ることが課題である。
- 再構成タスクが脳波特有のスペクトル構造との不適合を引き起こす点を明らかにし,改善策を提示する。
- 脳波基盤モデルの埋め込み表現は,非周期成分を強く捉え,特に高周波の振動成分を過小評価する傾向があることが示された。
- 実際のブレイン・マシン・インターフェースデータセットにおいて,埋め込み表現はタスク関連情報よりも被験者識別情報に強く関連することが確認された。
- 再構成に基づく脳波基盤モデルの課題を明らかにし,高周波振動成分を明示的に学習する損失関数が今後の研究課題となる。
標的再マスキング:離散拡散言語モデルにおけるトークン編集の代わりにトークン・トゥ・マスク洗練を用いる [cs.CL, cs.AI]目的:離散拡散言語モデルにおけるトークン編集の改善
- 拡散言語モデルは,自然言語処理の分野でテキスト生成において重要な役割を担う。
- 既存のトークン編集手法は,誤りの検出と修正を同時に行うため,文脈を汚染する可能性がある。
- 本研究は,誤りをマスキング状態に戻すことで文脈を浄化し,より正確な生成を可能にする。
- 提案手法であるトークン・トゥ・マスク(T2M)再マスキングは,トレーニング不要で既存のT2T編集を置き換えることができる。
- T2Mは,知識,推論,数学,コーディングなど12のベンチマークにおいて,特に数学(CMATHで+5.92%)でパフォーマンスが向上した。
- エラー分析の結果,T2Mは最後のトークン破損の59.4%を修復することが明らかになった。
LURE:利用状況リプレイ評価による評価認識の低減 [cs.CL, cs.AI]目的:評価認識の低減手法
- 大規模言語モデルの安全性評価は重要であり,その信頼性が求められる。
- 言語モデルは評価下であることを認識し,挙動を変えてしまう問題がある。
- 現実的な対話状況を再現し,評価環境と実環境の乖離を小さくすること。
- LUREは,従来の評価方法よりも実運用データと区別がつきにくいことが示された。
- LUREは,評価環境下での言語モデルの評価認識を低減できる可能性が示唆された。
- 評価の現実性は,安全性評価の重要な指標であり,結果と併せて報告すべきである。
弱学習ビデオの時間的接地をゲームの視点から再考する [cs.CV, cs.AI]目的:弱学習ビデオの時間的接地手法の改善
- ビデオ理解と自然言語処理の融合は,動画コンテンツの検索や分析に不可欠である。
- 既存手法は,提案された時間セグメントの選択に依存し,計算コストが高い。
- フレームとクエリワード間の協調関係をゲーム理論で定量化し,より正確な接地を目指す。
- 本研究では,ビデオフレームとクエリワードをゲームプレイヤーとしてモデル化する新しいアプローチを提案した。
- 提案手法は,Charades-STAとActivityNet Captionデータセットで,既存手法を上回る性能を達成した。
- 時間セグメント提案に依存せず,フレーム単位のスコアを活用することで,より効率的な接地を実現した。
大規模言語モデルの調整:アラインメントデータパイプラインにおけるデータ中心の視点 [cs.CL, cs.AI]目的:アラインメントデータパイプラインの設計
- 大規模言語モデルの安全性と有用性を高めるためには,人間の価値観との整合性が不可欠である。
- アラインメントデータの構築は重要だが,最適化目標に焦点が当たり,体系的な検討が不足している。
- アラインメントデータパイプラインの設計におけるトレードオフと課題を特定し,改善策を提案すること。
- アラインメント調整を,応答合成,評価,インスタンス化の3段階からなるパイプライン設計問題として捉え直した。
- 既存のアラインメント手法を統一的な分類体系に整理し,パイプライン設計の選択が最適化シグナルに与える影響を明らかにした。
- プロンプトレベルのアラインメントや,進化する目標下でのアラインメントなど,今後の課題を提示した。
拡散に基づくグラフ異常検知のための軌跡ダイナミクス [cs.CL, cs.CL, cs.LG, cs.AI]目的:グラフ構造データにおける異常なノードまたは部分構造の識別
- 金融リスク管理,ソーシャルネットワーク分析,サイバーセキュリティなど,重要な応用分野が存在する。
- 既存のGCNベース手法は,異常ノードがメッセージパッシングを通じて近傍ノードの表現を汚染する汚染伝播の問題を抱える。
- 拡散の軌跡ダイナミクスを用いて,正常ノードと異常ノードを区別し,汚染伝播を軽減することを目指す。
- 提案手法DDGADは,拡散正則化と信頼度を考慮した近傍コンセンサスを組み合わせることで,正常ノードの安定した表現軌跡を捉える。
- 異常ノードは,局所的な汚染と大域的な多様体からのずれにより,不安定で矛盾したダイナミクスを示す。
- 実験結果から,DDGADが実世界のデータセットにおいて,既存手法を上回る効果を持つことが示された。
公共財ゲームにおける憲法による軍拡競争:協力と裏切り圧力下でのLLM憲法の共進化 [cs.MA, cs.GT, cs.NE]目的:LLM憲法の共進化過程における協力と裏切りの影響
- LLMの発展は社会に大きな可能性をもたらす一方,倫理的・社会的な課題も生じている。
- 単独エージェントや協調を前提としたアライメント手法では,悪意ある行動への対策が不十分である。
- 本研究は,競争的な環境下でLLM憲法がどのように進化するかを明らかにし,悪意ある行動への対策を検討する。
- 公共財ゲームにおいて,協力派とフリーライダー派は,S値約0.78の均衡状態に収束することが示された。
- 独立した評価では,両派の得点が相関せず,競争圧力が生じない一方,得点差に基づいた評価では競争圧力が回復した。
- 純粋な競争的評価では,評価回数Kが結果に影響し,K=5で長期的な専門家が維持された。
GANの学習におけるクロススケールアラインド監視 [cs.CV, cs.AI]目的:GAN学習におけるクロススケールアラインド監視の提案
- GANは画像生成において高品質な成果を上げるが,学習の安定性や多様性向上が課題である。
- 段階的な生成において,各スケールでのリアルさ追求と生成サンプルの一貫性の維持が困難である。
- クロススケール軌道のずれを解消し,生成サンプルの一貫性を高めることを目指す。
- 提案手法CATは,各中間出力と最終出力を整合させることで,クロススケール軌道のずれを抑制する。
- ImageNet-256の実験結果において,CAT-H/2はFID-50Kスコア1.56を達成し,既存手法を上回る性能を示した。
- わずか60エポックの学習で,ワンステップ推論においても優れた結果が得られた。
安全なアクター・クリティック強化学習のためのロバストなコープマン制御バリアフィルタ [cs.RO, cs.LG, cs.SY, eess.SY]目的:ロボットシステムの安全な強化学習における方策の性能向上と状態および入力制約の充足
- ロボット制御において安全性は不可欠であり,予期せぬ状況下でも安全な動作を保証する必要がある。
- モデルフリー強化学習では,正確なダイナミクスモデルが必要であり,安全性を保証するためのバリア関数の設計が困難である。
- データから学習したコープマン予測子を用いて安全性を保証し,強化学習の効率と安全性を両立させる。
- 提案手法は,CartPoleの安定化と追跡において制約違反をゼロに抑え,制約なしのSACと同等またはそれ以上の報酬を達成した。
- Safety Gymnasiumのロコモーションタスクでは,一部の環境で違反を減らすことができたが,一次の速度バリアと線形EDMDモデルの限界も明らかになった。
- ロバストなコープマン制御バリアフィルタは,モデルフリー強化学習と検証可能な安全性の間の有望な架け橋となる可能性が示唆された。
Verus-SpecGym: 仕様の自動形式化を評価するためのエージェント環境 [cs.SE, cs.AI, cs.CL, cs.PL]目的:仕様の自動形式化におけるLLMエージェントの能力評価
- AIコーディングエージェントの利用拡大に伴い,生成コードの正当性保証が重要課題となっている。
- 形式仕様がユーザーの意図と一致するかどうかの検証が困難である。
- LLMエージェントによる非形式的な問題を形式仕様へ変換する能力を評価する環境を構築する。
- Verus-SpecBenchベンチマークとVerus-SpecGym環境を開発し,LLMエージェントの仕様作成能力を評価した。
- Gemini 3.1 Proはタスクの77.8%を解決し,他の最先端モデルは51.1~57.8%であった。
- 生成された仕様は入力前提の欠落,不正な出力の許容,有効な出力の拒否といった課題が認められた。
MuCon:LLM学習のためのクリップされたミューオン更新 [cs.LG]目的:LLM学習におけるクリップされたミューオン更新法の有効性に関する研究
- 大規模言語モデルの学習は計算資源を大量に消費するため,効率的な最適化手法が不可欠である。
- 既存の最適化手法では,計算コストが高く,学習の収束が遅れる場合がある。
- ミューオン更新法のクリッピングにより,計算効率を向上させ,学習の安定性を高めることを目指す。
- MuCon法は,ミューオン行列の特異値にクリッピングを適用することで,計算コストを削減できることが示された。
- 特異値の閾値付近における数値的な不安定性が課題であり,安定した極分解や平方根演算との組み合わせが有効である。
- クリップされた正定値因子の効率的な計算のために,極/絶対値公式とスカラー根公式という2つの厳密な恒等式が導出された。
AnchorDiff:アンカーに基づくグラフ伝播によるMM-DiTのトレーニングフリーな概念接地 [cs.CV, cs.AI]目的:マルチモーダル拡散Transformerを用いたトレーニングフリーな概念接地
- 画像とテキスト情報を統合し,より高度な画像理解を可能にする技術として重要である。
- 視覚的に紛らわしい概念間での活性化の重複(概念漏洩)が問題となっている。
- 概念漏洩を抑制し,正確な概念接地を実現することを目的とする。
- AnchorDiffは,概念と画像間のアテンションマップから高信頼度のアンカーを選択し,ハイブリッドグラフ上で伝播させる。
- その結果,ImageNet-SegmentationおよびPascalVOCにおいて高い接地性能を達成した。
- 新たに作成したMulti-Concept Confusion Dataset上で,概念漏洩を大幅に低減することを示した。
電子カルテにおけるエラーのない記録に向けて:臨床記録と構造化テーブル間の高度な整合性検証 [cs.DC, cs.CL, cs.AI]目的:電子カルテの臨床記録と構造化テーブル間の整合性検証
- 患者の安全と臨床意思決定において,正確な医療データは不可欠である。
- 既存手法は数値の一致や単純なイベントに依存し,臨床的解釈や時間的変化を捉えられない。
- 臨床記録と構造化テーブル間の整合性検証における推論能力の重要性を示す。
- EHR-ReasonConという,専門家による注釈付きの高度な整合性検証ベンチマークを構築した。
- LLMベースのフレームワークEHR-Inspectorが,複数のモデルで最先端の性能を達成した。
- EHR-Inspectorの構成要素の効果と,人間による検証との違いを分析した。
拡散による検出:教師なしIC異常検出のための生成拡散モデル [cs.LG, cs.AI]目的:ICの異常検出
- 半導体製造において,不良品検出は品質管理の根幹であり,製品の信頼性向上に不可欠である。
- 異常データのラベル付けが困難であり,異常発生率が極めて低いことが課題である。
- ラベルなしデータから効率的に異常を検出し,不良箇所を特定することを目指す。
- 拡散トランスフォーマーを用いた新しい異常検出フレームワークを提案し,教師なしでの異常検出を可能にした。
- 拡散過程におけるノイズ予測誤差を利用することで,高速かつ解釈可能な異常検出を実現した。
- 実際の16nm ICテストデータにおいて,最先端の性能を達成し,不良箇所の特定にも貢献する。
大規模平面シーンにおける視覚に基づく計量測定の比較研究 [cs.RO, eess.SY, cs.SY, cs.DB, cs.IR, cs.CV, cs.AI]目的:大規模平面シーンの視覚による計量測定手法の比較
- 屋外環境の監視や計測において,視覚情報を用いた計量測定の重要性が増している
- 長距離計測,カメラズーム,不安定な撮影条件が,正確な計量測定の課題となっている
- PTZカメラを用いた貯水池監視における計量測定手法の有効性と限界を明らかにする
- 単眼測距法は,十分なピッチ角下でメートルレベルの精度を達成する
- ステレオ測距法は,ピッチ角への感度が低く,デシメートルレベルの精度を実現する
- 画像ステッチングは小規模シーンには有効だが,大規模シーンでは安定性と拡張性に課題がある
エビデンスに基づく深層学習に対する変分推論 [cs.CL, cs.IR, cs.LG]目的:深層学習における不確実性定量
- 深層ニューラルネットワークの性能向上は目覚ましいが,過信傾向が課題となっている。
- 従来のエビデンス深層学習は,負のクラスの証拠を抑制するKLペナルティが過剰な証拠を生み出す。
- VI-EDLは変分推論の枠組みを導入し,証拠の過剰な増加を防ぐことを目指す。
- 提案手法VI-EDLは,証拠下限(ELBO)を導出し,証拠の過剰な増加を抑制する。
- 理論的に,一般化誤差境界を確立し,予測される不確実性,特徴,ネットワークの複雑さが境界に与える影響を明らかにした。
- 標準的な画像および医療データセットにおいて,VI-EDLは最先端の性能を達成し,分布外検出,ノイズ検出,自動運転シナリオにおいて優れた性能を示した。
確率的デカップルド・ポリシー勾配による効率的なオンポリシー視覚的RL [cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY]目的:視覚的強化学習における効率的なポリシー学習手法
- ロボットの自律的な動作を実現する上で,視覚情報を用いた強化学習は不可欠である。
- 従来の視覚的RLは,計算コストが高く,学習に時間がかかるという課題がある。
- 本研究は,計算コストを削減し,学習時間を短縮する新しい手法を提案する。
- 確率的デカップルド・ポリシー勾配(SDPG)は,シングルGPUで数時間以内に多様な視覚運動制御ポリシーを学習できる。
- SDPGは,従来の基盤手法と比較して,学習時間,メモリ使用量,報酬において優れた性能を示す。
- また,本研究では,器用な操作,困難な移動を含む現実的な視覚ロボティクスベンチマーク群を新たに公開し,物理ハードウェアへのシミュレーションから現実世界への転移の有効性も実証した。
モデルマージにおけるランク1部分空間の追跡:言語モデル事前学習におけるExtra-Merge [cs.LG]目的:モデルマージのメカニズムの解明と,それに基づく性能向上
- 大規模言語モデルの効率的な改善手法が求められており,モデルマージはその有力な選択肢の一つである。
- モデルマージの最適化過程は不安定であり,その背後にある理論的根拠が不明であった。
- モデルマージが収束するランク1部分空間を特定し,それを利用した新たな手法を提案すること。
- モデルマージ後のチェックポイントが,ほぼ一次元の線形多様体に収束する「ランク1部分空間」現象が観察された。
- 平均化が幾何学的ローパスフィルターとして機能し,ノイズを減衰させて最適な降下方向を明らかにする理論的根拠が示された。
- 追加学習なしにランク1部分空間に沿って外挿する「Extra-Merge」が提案され,標準的なマージ手法を上回る性能が確認された。
特異分布の安定性:言語モデル事前学習における二相ダイナミクスのスペクトル的考察 [cs.LG]目的:言語モデル事前学習の二相ダイナミクスにおける特異分布の安定性
- 大規模言語モデルは自然言語処理の進歩に不可欠であり,その事前学習の理解は重要である。
- 事前学習は初期の急速な損失減少の後,改善が鈍化する二相の軌跡を示すことが知られている。
- この研究は,損失減少の鈍化を説明するスペクトル的なメカニズムを解明することを試みる。
- 特異分布の安定性(SoSD)が,パラメータ行列の変動に関わらず,初期に安定化することが示された。
- SoSDと損失減少の鈍化フェーズとの同期性が,様々なアーキテクチャや設定で観察された。
- 重みノルムの増大がSoSDの閾値を必然的に引き起こし,損失減少率の上限を決定することが理論的に証明された。
ペアワイズ比較を超えて:拡散モデルのためのリストワイズ報酬対応アラインメント [cs.LG, cs.CV]目的:拡散モデルのアラインメント手法
- 画像生成AIの性能向上が求められており,人間のフィードバックを活用したアラインメント技術が重要である。
- 既存手法はペアワイズ比較に依存しており,複数の候補画像や連続的な報酬情報を十分に活用できていない。
- リストワイズなアプローチで報酬情報を活用し,より効率的なアラインメントを実現することを目指す。
- 提案手法 Diffusion LAIR は,SD1.5 および SDXL において,画像生成,合成生成,画像編集のベンチマークで既存手法を上回る性能を示した。
- 報酬スコアを利点重みに変換し,暗黙的な報酬に対する加重回帰目的関数を最適化することで,すべての候補画像を同時に利用する。
- 暗黙的な報酬の大きさを明示的に制御する正則化項を導入し,安定した学習を実現している。
灯台に再びエリアス?LLM生成物語の多様性の低さの診断 [cs.CL, cs.AI, cs.LG]目的:LLM生成物語における多様性の低さの原因究明
- LLMの物語生成は普及しているが,多様性に課題がある。
- 生成される物語に共通の単語が頻出し,多様性が低い。
- LLMの学習データやアライメント手法が多様性低下の一因を探る。
- 生成された物語の88.3%に11個の単語(名前,場所,職業)が頻出することが判明した。
- これらの単語は出版された文学や事前学習データでは一般的ではないが,モデルの学習に使われた可能性のある選好データに存在した。
- 小規模なデータセットと強力なアライメントアルゴリズムが,物語の多様性に不均衡な影響を与えていることが示唆された。
MiniMax-M2 シリーズ:ミニ活性化が最大級の現実世界知能を解き放つ [cs.AI, cs.CL, cs.LG]目的:ミニ活性化による最大級の現実世界知能の実現
- 大規模言語モデルは,様々なタスクで目覚ましい成果を上げている。現実世界での応用範囲も拡大している。
- 大規模言語モデルは計算コストが高く,効率的な運用が課題となっている。
- ミニ活性化モデルにより,計算効率を維持しつつ高性能を実現することを目指す。
- MiniMax-M2シリーズは,2299億パラメータのモデルでありながら,トークンごとに98億パラメータのみを活性化する。
- エージェント駆動型データパイプライン,Forgeシステム,自己進化の試みなど,3つの主要コンポーネントを組み合わせる。
- その結果,エージェントコーディング,深層探索,オフィス作業,推論などのベンチマークにおいて,最先端の性能を示す。
Dense2MoE:統一的なプルーニングとアップサイクルによるオンデバイスLLMのパレート最適解の限界突破 [cs.LG, cs.AI]目的:オンデバイスLLMにおける推論効率と精度向上のためのフレームワーク
- モバイル機器などリソース制約のある環境でのLLM利用が拡大しており,効率的なモデルが求められている。
- 既存のMoE化手法はパラメータ冗長性を生じやすく,推論効率を損なう場合がある。
- プルーニングとアップサイクルを統合し,推論メモリ壁を克服することで,性能と効率を両立させる。
- Dense2MoEは,レイヤーフュージョンアップサイクル(LF UC)を通じて,プルーニングとアップサイクルを統一的に行う。
- ハードウェアRoofline理論に基づき,帯域幅の大きいアテンションモジュールをプルーニングし,MLPをMoEのエキスパートに再利用する。
- 既存のベースラインや圧縮手法,標準的なアップサイクル手法と比較して,推論速度と精度のパレート最適解を大幅に改善する。
視覚言語モデルの脆弱性の解明:テクスチャ制約摂動とクロスモーダル最適化によるマルチモーダル敵対的相乗効果 [cs.CV, cs.AI]目的:大規模視覚言語モデルに対する汎用的なブラックボックス型マルチモーダル攻撃手法の開発
- 視覚言語モデルは,画像キャプション生成や視覚的質疑応答など,マルチモーダルな理解において重要な役割を担っている。
- 敵対的攻撃に対する頑健性が検証されておらず,自動運転やコンテンツモデレーションなどの重要なアプリケーションにおいてリスクがある。
- 既存手法の限界を克服し,現実世界での応用可能性のある,効果的なマルチモーダル攻撃手法を提案する。
- 本研究で開発したMMASは,画像とテキストの両方に対して同時に摂動を生成し,モデルのクエリのみを用いて最適化を行う。
- 画像摂動にはウェーブレットに基づくテクスチャ制約を導入することで,知覚的な自然さを保ちながら様々な視覚入力に対して頑健性を確保している。
- テキスト摂動は埋め込み空間でのLノルム制約により,意味的な一貫性を維持しつつ,出力をターゲットに向けて誘導する。
多層薄膜設計のための位置符号化回帰型逆スペクトルモデルPRISM [cs.LG, physics.optics]目的:多層薄膜光学コーティング設計の逆問題解決
- 光学薄膜は,様々な光学デバイスにおいて重要な役割を担っており,高性能化が求められている。
- 薄膜設計は,材料選択と膜厚の最適化という組み合わせ最適化問題であり,計算コストが高い。
- 本研究は,効率的な薄膜設計手法を確立し,設計時間の短縮と高性能な薄膜の実現を目指す。
- PRISMは,材料選択と膜厚回帰を同時に予測する自己回帰型Transformerであり,従来のTransformerベースラインと比較して平均絶対誤差を50%以上削減する。
- 44MパラメータのPRISMは,検証ベンチマークにおいて最先端の性能(MAE = 0.010)を達成し,シミュレーテッドアニーリングよりも高速に動作する。
- PRISMは,少ないパラメータ数で高い精度を実現し,薄膜設計プロセスを効率化する有効な代替手法となる。
SIKA-GP:ベイズ深層学習のための疎な誘導カーネル近似を用いたガウス過程推論の高速化 [cs.LG, math.PR, stat.CO]目的:ガウス過程推論の高速化手法
- 不確実性推定において,ガウス過程は原理に基づいたベイズ的枠組みを提供する。
- 大規模データセットに対するガウス過程の計算コストが課題となっている。
- ガウス過程のスケーラビリティ問題を解決し,深層学習への応用を目指す。
- SIKA-GPは,誘導カーネル近似と二進順序テンプレート基底を用いることで,推論を高速化する。
- スパースな基底からのコンパクトで表現力豊かなカーネル表現を構築し,GPU計算を効率化する。
- 実験結果から,SIKA-GPは高速かつ正確なガウス過程モデルを実現し,スケーラブルなカーネル学習への道筋を示す。
CSV-ViT:可変サイズの皮質超頂点を用いたアルツハイマー病病理検出のためのVision Transformer [cs.CV, cs.AI, cs.LG]目的:アルツハイマー病関連状態の分類
- アルツハイマー病の診断はPET検査に依存するが,高コストで侵襲的であるため,MRIを用いた事前スクリーニングが求められている。
- 脳皮質の非ユークリッド幾何学的な構造は深層学習における課題であり,既存の表面モデルは重複頂点や非皮質領域を含むことがある。
- 関心領域を保持し,頂点に基づいた可変サイズのパッチ分割により,皮質表面データの学習を改善することを目指す。
- 提案するCSV-ViTは,従来の表面ベースモデルと比較して,アルツハイマー病関連状態の分類においてより高い性能を達成した。
- この結果は,CSV-ViTがPET検査やCSF検査に先立ち,MRIに基づいたアルツハイマー病関連状態の予測を支援できる可能性を示唆する。
- 可変サイズのパッチに寛容なVision Transformerにより,MRI画像からのアルツハイマー病病理の検出精度向上に貢献する。
InterSketch:自己修正型ビジュアルスケッチと段階的報酬を用いた相互推論モデル [cs.CV, cs.AI]目的:複雑な視覚的課題に対するVT-CoT能力の向上
- 視覚情報と言語情報を統合した推論は,AIの高度化に不可欠である。
- 既存のVLMは,推論の深さや視覚情報への依存度が低く,複雑な課題への適用が困難である。
- 長期的視覚理解タスクにおいて,視覚とテキストの相互推論を深め,自己修正機能を強化すること。
- InterSketchは,外部ツールで生成した視覚スケッチとテキスト推論を交互に行うことで,VT-CoT能力を強化する。
- 合成されたVT-CoTデータセットとリフレクション機構により,モデルは多段階の相互推論と自己修正が可能となる。
- 段階的報酬メカニズムは,長期的推論における報酬の希薄性を緩和し,効果的な学習を実現する。
StreamSplit:不確実性に基づく適応的分割による連続オーディオ表現学習 [cs.DC, cs.AI, cs.LG]目的:エッジデバイスにおける連続オーディオ表現学習の実現
- 近年,表現学習は音声処理を含む多様な分野で重要性を増しており,性能向上に不可欠である。
- エッジデバイスの計算資源は限られており,大バッチサイズの対照学習は困難である。
- 変動するエッジ環境に適応し,低遅延かつ省帯域幅で高精度な表現学習を実現すること。
- StreamSplitは,ハイブリッド損失と軽量な強化学習ポリシーを用いて,リアルタイムなリソース監視と埋め込みの曖昧さを統合し,精度と遅延のトレードオフを最適化する。
- Raspberry Pi 4からApple M2まで,多様なハードウェアで評価した結果,サンプルあたりの遅延を最大4.7倍削減し,帯域幅を77.1%,エネルギーを52.3%削減した。
- サーバー中心のモデルと比較して,精度を2.2%以内に維持し,適応的・分散学習が現代のエッジエコシステムにとって有効なアプローチであることを実証した。
船舶航路予測のためのクロスモーダルインタラクション:海事インテリジェンス [cs.CV, cs.AI]目的:船舶航路予測の精度向上
- 船舶の安全かつ効率的な航行には,海事インテリジェント輸送システムが不可欠である。
- AISデータは小型船舶では不足し,CCTVデータだけでは船舶の動的な挙動を捉えきれない。
- AISとCCTVデータの相互作用を活用し,より正確な航路予測を実現することを目指す。
- 提案手法CmIVTPは,シーンセマンティック特徴抽出により,船舶と環境の相互作用を効果的に捉え,予測精度を向上させた。
- クロスモーダルインタラクションTransformerが,AISとCCTVデータの情報を統合し,動的かつ実現可能な航路予測を可能にした。
- 大規模なマルチモーダルデータセットMaritime-MmD$^+$を構築し,航路予測研究を支援する。
ReCA:再帰的コンテキスト割り当てによる複数ショット長尺ビデオ外挿 [cs.CV, cs.AI]目的:複数ショットのビデオ外挿タスクにおける長尺ビデオ生成
- 生成モデルによる長尺ビデオ生成は,映画制作などにおいて重要な課題である。
- 既存手法では,長尺ビデオの構造維持と,観察された状態の継続が困難である。
- 本研究は,コンテキストの効率的な割り当てによって長尺ビデオ生成の課題を解決する。
- ReCAは,計画と生成においてコンテキストを階層的に割り当てることで,既存手法よりも高い性能を示す。
- MSVE-BenchおよびNB-Qという新たな評価ベンチマークを提案し,長尺ビデオ生成における課題を明確化した。
- 平均正規化スコアは8〜16%,複数ショットの一貫性指標は28〜43%向上した。
オープンウェイトLLMのファインチューニング防御は単純な攻撃に脆弱である [cs.LG, cs.CR]目的:オープンウェイト大規模言語モデル(LLM)の安全対策における脆弱性の検証
- LLMの悪用を防ぐことは,社会に安全で信頼できるAIシステムを導入するために不可欠である。
- 既存の安全対策は,ファインチューニングによる有害な学習に焦点を当てており,プロンプトによる脆弱性評価が不十分である。
- 既存の安全対策では見過ごされている,プロンプトベースの攻撃に対するLLMの脆弱性を明らかにする。
- オープンウェイトの安全対策は,勾配ベースの最適化を必要としない,abliterationやprefillingといった単純な攻撃に対して脆弱であることが示された。
- これらの攻撃により,安全対策が施されたモデルに対する攻撃成功率が16%から96%の範囲に増加した。
- abliterationに強いチューニング(ART)を導入することで,abliterationとprefillingの攻撃成功率を10-20%削減できた。
どの変更が重要か:関連性に基づいた評価とソルバーによる根拠付け推論を通じた信頼できる法的AIへ [cs.AI]目的:法的AIの信頼性向上
- 法解釈は,社会の安定と公正な判断に不可欠であり,AIによる支援が求められている。
- 既存の法的AIは,法的に関係のない変更に過敏に反応し,誤った判断を下す可能性がある。
- 法的AIが,法的関連性の高い変更のみに敏感になるように評価・改善すること。
- 既存の法的LLMは,法的に関係のないわずかな変更にも影響を受けやすいことが判明した。
- LexGuardは,形式的な推論に基づき,法的AIの信頼性を向上させることに成功した。
- 法的AIの信頼性は,正確性だけでなく,法的関連性の高い変更に対する適切な感度によって決まる。
産業検査における欠陥推論とレポート作成のためのハイブリッド視覚言語アーキテクチャ [cs.CV, cs.AI, cs.CL, cs.LG]目的:産業検査における欠陥の特定と構造化されたメンテナンスレポートの生成
- 産業界では,製品の品質管理における効率化と自動化が重要な課題となっている。
- 従来の検査方法は,専門家の言語解釈に依存しており,時間とコストがかかるという問題がある。
- 本研究は,自動化された検査プロセスを実現し,人的エラーを低減することを目的とする。
- 提案システムは,BLEU-4スコア0.41,幻覚率4%,専門家スコア8.6/10という高い性能を達成した。
- QLoRAで適応された1.5Bモデルは,同等の検出情報に対して汎用的な大規模言語モデルよりも高品質なレポートを生成した。
- 専用のデカップルアーキテクチャが,構造化された生成タスクにおいて汎用的なエンドツーエンドモデルよりも優れた性能を発揮することが示された。
再帰的フローマッチング [eess.SY, cs.SY, cs.LG, cs.AI, cs.CV, cs.NA, math.NA]目的:複雑な時空間ダイナミクスの予測
- 物理シミュレーションや複雑な現象モデリングにおいて,生成モデルは不可欠な役割を担う。
- 既存手法は,精度と計算コストのトレードオフに直面し,高精度なシミュレーションは計算量が膨大になる。
- 本研究は,離散化誤差を低減し,高精度かつ効率的な予測を実現する新たな手法を提案する。
- 再帰的フローマッチング(RecFM)は,異なる離散化スケール間で一貫性を保ち,物理に基づいたタスクの性能を向上させる。
- RecFMは,最先端の多段階ソルバーに匹敵する性能で,科学システムにおける高精度なワンステップおよび少数ステップ予測を初めて実現した。
- RecFMは,主要な拡散ベースのエミュレーターと比較して最大20倍の高速化を達成し,予測精度も向上させる。
ChainCaps:単調な能力減衰による安全なツール利用エージェント [cs.CR, cs.AI]目的:ツール利用エージェントにおける権限洗濯の防止
- 近年のエージェントは多様なツールを組み合わせて運用され,その安全性確保が重要である。
- 個々のツールに対する権限チェックを通過しても,全体として安全でない結果を招く可能性がある。
- 値が持つ権限を追跡し,ツール間の組み合わせで権限が増加しないようにする。
- ChainCapsは,値の権限を管理し,ツール連携時に権限の減少のみを許可することで権限洗濯を防止する。
- 82のタスクにおいて,攻撃成功率を25-68%から0-4.8%に大幅に低減し,正常な処理能力を維持した。
- マニフェストの品質が攻撃防御に大きく影響し,専門家作成のマニフェストは100%の防御率を達成した。
ポリフュージョンエージェント:ポリマー特性予測と逆設計のためのマルチモーダル基盤モデルおよび自律型AIアシスタント [cs.AI, cs.LG]目的:ポリマー特性予測と逆設計のためのフレームワーク
- ポリマー探索は,エネルギー貯蔵から生物医学まで幅広い分野で重要である。
- 膨大な化学設計空間と構造,特性,既存知識の断片化が課題である。
- 物理的・実験的現実との乖離を解消し,実用的な設計判断を支援すること。
- ポリフュージョンは,ポリマーの配列,トポロジー,3D形状,フィンガープリントを統合し,化学構造やデータに関わらず,特性予測の精度を向上させた。
- ポリエージェントは,予測と逆設計をポリマー文献からの情報検索と連携させ,提案,評価,文脈化を一つのワークフローで実現した。
- 大規模な表現学習,マルチモーダルな化学知識,検証可能な科学的推論を組み合わせることで,証拠に基づいたポリマー探索を可能にする。
MobileExplorer:オンライン探索によるモバイルGUIエージェントのオンデバイス推論の高速化 [cs.AI]目的:モバイルGUIエージェントのオンデバイス推論高速化手法
- モバイルGUIエージェントは,スマートフォンを自律的に操作するAI技術であり,利便性向上に貢献する。
- 既存システムは精度に偏重し,クラウド依存による遅延やプライバシー問題を抱える。
- UI要素のオンライン探索により,推論を高速化し,完全なオンデバイス環境を実現する。
- MobileExplorerは,UI要素の探索記録を文脈ヒントとして活用し,推論ステップ数を削減する。
- AndroidWorld等のベンチマークテストで,平均推論ステップ数とエンドツーエンド遅延を23%削減した。
- タスク成功率は維持または最大5%向上し,実環境での有効性が確認された。
SEC-bench Pro:言語モデルは長期的なソフトウェアセキュリティタスクを解決できるか [cs.CR, cs.LG]目的:ソフトウェアセキュリティにおけるエージェント型バグハンティングの能力評価
- ソフトウェアの脆弱性は,深刻なセキュリティリスクをもたらすため,その発見と修正は不可欠である。
- 既存のベンチマークは,現実世界のバグハンティングシナリオを十分に再現できていないという課題がある。
- 高複雑なソフトウェアシステムにおける,言語モデルを用いたバグハンティングの限界を明らかにする。
- SEC-bench Proは,V8とSpiderMonkeyの183件の脆弱性を検証済みのタスクとして提供する。
- 最先端モデルを用いたコーディングエージェントは,両エンジンにおいて40%以下の成功率にとどまる。
- ClaudeCodeとCodexの連携により,V8では37.9%,SpiderMonkeyでは48.8%の成功率を達成した。
サンプルに基づく変分推論の償却による少数ステップ生成モデルの整合化 [cs.LG, cs.AI]目的:少数ステップ生成モデルの整合化手法
- 生成モデルの性能向上には,生成プロセスにおける分布の整合性が重要となる。
- 既存の整合化フレームワークは,扱いやすい尤度関数や特定のソルバーに依存する制約がある。
- サンプルアクセスのみで整合化を可能にし,既存手法の制約を克服することを目指す。
- 提案手法FAVは,報酬付き分布からのサンプリングにより整合化を実現する。
- ロボット操作においては,既存のポリシー抽出ベースラインを凌駕する性能を示した。
- 画像生成においても,GANやフローマップなど多様なバックボーンをファインチューニングすることに成功した。
遅延フィードバックを持つ線形およびニューラルデュエルバンディット [cs.LG, cs.AI]目的:文脈的デュエルバンディットにおける遅延フィードバックへの対応
- 推薦システムや大規模言語モデルの調整など,嗜好に基づく意思決定において重要な役割を担う分野である。
- 実世界のプロンプト最適化のように,即時フィードバックが得られない状況では,既存のアルゴリズムはバイアスを生じやすい。
- 遅延や欠損したフィードバックに対するバイアスを修正する,Inverse Probability Weighting (IPW) を損失関数に組み込んだアルゴリズムを提案する。
- 線形設定において,O(d*sqrt(T)) の後悔限界を確立し,理論的な保証を提供する。
- ニューラル設定では,サブ線形な保証を示すことができた。
- シミュレーションと実世界のデータセットの両方において,提案手法の有効性を実験的に示した。
離散選択のためのテーブル型ファウンデーションモデルの経済的妥当性の監査と修正 [cs.AR, cs.LG, cs.AI, econ.EM]目的:離散選択タスクにおける経済的妥当性の監査と修正
- 需要予測は,政策決定や資源配分において重要な役割を果たすため,その精度と信頼性が求められる。
- 既存のテーブル型ファウンデーションモデルは高い予測精度を示す一方で,経済学的な整合性に欠ける場合がある。
- ファウンデーションモデルの予測精度を維持しつつ,経済学的な整合性を保証する手法を開発すること。
- 提案手法は,価格と需要の関係における単調性を保証し,分析的に計算可能なトレードオフ指標を提供する。
- 2つの輸送データセットにおいて,標準的なロジットモデルと比較して最大13%の精度向上を達成した。
- この手法は,生のファウンデーションモデルや従来の蒸留手法では達成できない,完全な経済的整合性を実現する。
臨床経過指示の信頼性のある抽出:ハイブリッドニューラル・シンボリックパイプライン [cs.CL, cs.AI]目的:臨床経過指示に含まれる(行動,日付)ペアの抽出
- 外来診療記録は患者ケアの質と安全性を高める上で不可欠であり,効率的な情報抽出が求められる。
- 従来の生成モデルでは,日付の抽出精度が低く,スケジュール作成や監査作業の妨げとなる。
- 本研究は,日付に関する知識を明示的に扱うことで,より正確な指示抽出を目指す。
- ハイブリッドパイプラインは,テスト時ペアF1スコア0.997(既知データ)および0.986(未知データ)を達成した。
- 既存の生成モデル(LLaMA-3,GPT-4o-mini)は高い行動F1スコアを示すものの,ペアF1スコアは0.51〜0.57にとどまった。
- 学習によるエンティティ抽出と決定論的な日付計算を分離することで,生成モデルを上回る性能が示された。
包括的モデルを超えて:深層多変量時系列予測の体系的なコンポーネントレベルのベンチマーク [cs.LG]目的:深層多変量時系列予測手法のコンポーネントレベルでの効果検証
- 時系列予測は,経済,気象,医療など幅広い分野で重要な役割を担う。
- 既存研究は複雑なモデル開発に偏り,個々のコンポーネントの効果が不明確。
- 体系的なベンチマークを通じて,効果的なコンポーネントの組み合わせを特定する。
- TSCOMPは,2万件以上の評価を含む詳細な性能コーパスを構築した。
- このコーパスを活用したアプローチは,最先端手法を凌駕する性能を示す。
- 系統的なコンポーネント選択が,手動設計された複雑なアーキテクチャを上回ることが確認された。
MedGuideX:実行可能ガイドラインからの意思決定ロジックを大規模言語モデルに組み込み,臨床推論を行う [cs.AI]目的:臨床推論のための大規模言語モデル構築
- 医療現場では,臨床診療ガイドラインが根拠に基づいた意思決定に不可欠である。
- 既存手法では,ガイドラインの構造的情報を十分に活用できていない。
- ガイドラインの意思決定ロジックを言語モデルに組み込むことで,より信頼性の高い医療LLMを構築する。
- MedGuideXは,ガイドラインの推奨事項を実効可能な臨床意思決定ロジックに変換するパイプラインを用いる。
- 生成されたデータで医療LLMをポストトレーニングすることで,4つの臨床推論ベンチマークで平均精度が10.28%相対的に向上した。
- 医師による評価では,MedGuideXは臨床医が作成した推論ステップをより良く再現し,忠実性,妥当性,完全性,明瞭性の点で医師が好む根拠を提供することが示された。
分布を考慮した確証予測:時系列データに対する効率的な予測区間の生成フレームワーク [cs.LG]目的:時系列データに対する効率的な予測区間生成のためのフレームワーク
- 時系列分析において,予測の不確実性を定量化することは,リスク管理や意思決定に不可欠である。
- 従来の予測区間は,しばしば過小評価または過大評価され,信頼性の高い不確実性推定が困難である。
- 様々な予測モデルと非適合性スコアを組み合わせ,適応的に予測区間を校正することで,信頼性と効率性を両立する。
- 分布を考慮した確証予測(DCP)は,モンテカルロドロップアウト,深層アンサンブル,分位点回帰などの確率予測モデルと,スコア非依存確証校正を統合する。
- DCPは,数値反転アプローチを用いることで,任意の予測モデルと非適合性スコアの組み合わせに対応し,様々な不確実性条件下で予測区間を適応的に校正できる。
- 導入された修正ウィンクラー・スコアは,カバレッジ不足を明示的にペナルティ化することで,信頼性と効率性のバランスを取っている。
パーソナライズされた連合学習のための分割ネットワークの分離集約 [cs.LG]目的:パーソナライズされた連合学習における性能向上
- データ共有を伴わない協調的モデル学習が重要視されている。プライバシー保護とモデル性能の両立が求められる。
- クライアントデータの分布の不均一性が,連合学習の性能低下を引き起こすことが課題である。
- クライアント固有の適応とグローバルな汎化性能のバランスを取ることで,性能低下を抑制する。
- 提案手法PGFedSplitは,分割アーキテクチャと適応的な集約スケジュールを採用し,知識共有の安定化とクライアント固有の適応を両立する。
- クライアントは,ローカルに抽出された表現とサーバー側のガウス統計から生成された合成表現を組み合わせることで,ラベル不均衡や欠損クラスに対するロバスト性を向上させる。
- Fashion MNIST,CIFAR 10,CIFAR 100,Tiny ImageNetでの実験により,既存のPFL手法と比較して,安定した収束と優れたパーソナライズ性能が示された。
