arXiv雑要約
AI - 2026/05/19 公開
二重レート拡散:インターリーブされた重軽ネットワークによる拡散モデルの高速化 [cs.LG, cs.CV]目的:拡散モデルの推論高速化手法
- 生成AIの性能向上に貢献する拡散モデルは,その計算コストが課題となっている。
- 従来の拡散モデルは,重いニューラルネットワークの繰り返し評価により推論速度が遅い。
- 重軽ネットワークを組み合わせ,計算コストを抑えつつ高品質な画像を生成すること。
- 二重レート拡散は,重いコンテキストエンコーダと軽いノイズ除去モデルを交互に実行することで推論を高速化する。
- ImageNetベンチマークにおいて,標準的なベースラインと同等の性能を維持しつつ,計算コストを2~4倍削減した。
- モーメントマッチ蒸留などの蒸留技術との互換性も示され,少ステップ生成における効率をさらに向上させた。
ペアワイズ選好報酬とグループベース多様性向上による高品質なオープンエンド生成 [cs.AI]目的:オープンエンド生成における報酬設計と多様性確保
- 生成AIの発展には,人間が判断する主観的な評価を効率的に学習できる手法が不可欠である。
- 強化学習では,報酬設計が困難であり,多様性の崩壊が起こりやすいという課題がある。
- 主観的評価を反映した報酬と,多様性を向上させる手法を統合することで,より自然な生成を目指す。
- 提案手法PPR-GDEは,従来の強化学習ベースラインと比較して,より高品質で多様な応答を生成できることを示した。
- ペアワイズ選好報酬は主観的な評価との整合性を高め,グループベース多様性報酬は意味的な分散性を促進する上で重要であることが確認された。
- 応答の順序を入れ替えることで,評価者の位置バイアスを軽減し,より公平な評価を実現している。
デカルト的錯覚を超えて:知覚的ボトルネック下における二段階マルチモーダル心の理論の検証 [cs.AI, cs.CV]目的:マルチモーダル大規模言語モデルにおける,他者の信念推定能力の限界とその改善策
- 近年,マルチモーダル大規模言語モデルの汎用的な推論能力は向上しているが,空間認識能力は未だ十分とは言えない。
- 従来のモデルは,3D空間の理解が不十分で,テキストベースの確率分布に依存する「デカルト的錯覚」に陥りやすい。
- 知覚的ボトルネック下での空間推論能力を向上させ,より現実的なマルチエージェント環境に対応することを目指す。
- 提案手法である「アンカーベース埋め込み空間分解Chain-of-Thought」は,視覚情報と聴覚情報を動的に重み付けすることで,空間認識の精度を向上させた。
- 現在のマルチモーダル大規模言語モデルは空間対称性や視界外の曖昧さに苦戦する一方,提案手法はこれらの課題に対してロバストな性能を示した。
- 本研究は,マルチモーダル大規模言語モデルの空間推論の限界を明確にし,認識に基づいた,モダリティを意識した推論の新たなパラダイムを確立する。
RGB画像のみによる屋内モバイルロボット向けアクティブ3Dシーングラフ生成 [cs.RO, cs.AI, cs.CV]目的:屋内モバイルロボット向け3Dシーングラフの生成
- ロボットが環境を理解し,自律的に行動するためには,周囲の3D構造を正確に把握することが不可欠である。
- 従来の3Dシーングラフ生成は,LiDAR等の専用センサーに依存しており,RGBカメラのみの環境下では適用が困難であった。
- RGB画像のみから,アクティブにシーングラフを生成し,ロボットの探索能力向上を目指す。
- 本研究では,RGB画像のみを用いて,アクティブかつ漸進的に3Dシーングラフを構築するフレームワークを提案した。
- Replicaデータセットでの実験結果から,提案手法は,深度情報を利用したベースラインと同等のF1スコアを達成した。
- ReplicaCADでの探索実験では,意味情報に基づいた視点選択が,幾何学的フロンティアベースの手法と比較して,2倍以上のオブジェクト検出に成功した。
PIPER:プロファイリングとLLM生成擬似クエリによるコンテンツベースのテーブル検索 [cs.IR, cs.AI]目的:テーブルデータの検索手法
- データレイク等の利用拡大に伴い,テーブルデータの効率的な検索が重要となっている。
- 既存の検索システムはメタデータに依存する傾向があり,その品質が低い場合がある。
- メタデータが不十分な環境下でも,テーブルのコンテンツに基づいた検索を可能にすること。
- 提案手法PIPERは,テーブルプロファイルとLLM生成クエリを用いて,テーブルデータの検索精度を向上させる。
- PIPERは,従来のメタデータベースの手法やTableQA検索手法を上回る性能を示す。
- LLMを用いたコンテンツモデリングが,テーブルデータ検索において有効であることが示された。
ニューロシンボリック概念ベースモデルに対する簡潔かつ論理的に整合性のあるコンフォーマル集合 [cs.LG, cs.AI]目的:ニューロシンボリック概念ベースモデルの信頼性評価
- 高信頼性が求められる分野において,ニューラルネットワークと記号推論を組み合わせたモデルの重要性が高まっている。
- 既存のニューロシンボリックモデルは,予測の確信度が高すぎる場合があり,信頼性の判断が困難である。
- モデルの予測に対する信頼区間を厳密に保証し,その信頼性を評価するための手法を確立すること。
- 本研究では,コンフォーマル予測の考え方を導入し,概念とラベルを同時にコンフォーマル化するCOCOCOフレームワークを提案した。
- COCOCOは,整合性,カバレッジ,簡潔性の3つの要件を満たし,既存手法と比較して優れた性能と集合サイズの小ささを示した。
- 提案手法は,分布に依存しない保証を提供し,不完全な知識にも対応可能であり,ユーザー指定のサイズ制限にも適合する。
SPATIOROUTE:ゼロショット空間推論のための動的プロンプトルーティング [cs.CV, cs.AI]目的:ゼロショット空間推論における視覚言語モデルの性能向上
- 没入型ビデオにおける空間質疑応答は,現実世界とのインタラクションに不可欠である。
- 既存手法は,特にタスク固有のファインチューニングなしでは空間推論が困難である。
- 質問内容に応じて最適なプロンプトを選択し,空間推論の精度向上を目指す。
- SpatioRouteは,固定プロンプトと比較して,最大5%の全体的な精度向上を達成した。
- 3D点群を入力とせずに,ビデオのみで空間VQAにおいて最先端の性能を確立した。
- Qwenシリーズモデルにおいて,CoTプロンプティングが性能を低下させることを確認した。
知識グラフリンク予測のためのSeq2Seqモデルにおけるグラフ構造の活用 [cs.CL, cs.AI]目的:知識グラフにおけるリンク予測性能の向上
- 知識グラフは,様々な情報を構造的に表現し,推論や知識発見に不可欠である。
- 既存のSeq2Seqモデルは,グラフ構造を無視し,表面的なテキスト情報のみに依存する傾向がある。
- テキスト情報とグラフ構造を統合し,より高度な関係性パターンを捉えることを目指す。
- 提案手法GA-S2Sは,T5-smallとRGATを組み合わせ,知識グラフのリンク予測性能を向上させる。
- GA-S2Sは,テキスト特徴とk-hop部分グラフのトポロジーを共同でエンコードすることで,多段関係性を捉える。
- CoDExデータセットでの実験結果,既存のSeq2Seqモデルと比較して最大19%の相対的な精度向上を達成した。
SIREM:学習サンプリングを用いた音声情報に基づくMRI再構成 [cs.SD, cs.CL, cs.CV, cs.LG, physics.med-ph]目的:音声情報を用いたMRI再構成フレームワークの提案
- 発話時の音声管運動を非侵襲的に可視化でき,音声科学や臨床評価に有用である。
- リアルタイムMRIは空間分解能,時間分解能,取得速度のトレードオフがあり,再構成が劣化しやすい。
- 音声情報を事前知識として利用し,高速かつ高品質なMRI再構成を実現することを目指す。
- SIREMは,音声とMRIの情報を融合することで,高スループットな再構成を実現した。
- これにより,解剖学的に妥当な音声管構造を維持しつつ,従来の反復法よりも高速な処理が可能となった。
- 本研究は,音声情報を活用したリアルタイムMRI再構成の新たなベンチマークを確立した。
変分オートエンコーダにおける定数崩壊に対する単純証明書 [cs.LG, cs.AI]目的:変分オートエンコーダにおける定数崩壊の事前設計,監視,証明可能性
- 変分オートエンコーダは,潜在空間の構造学習に有用だが,学習の安定性や解釈性に課題がある。
- 変分オートエンコーダは,入力に依存しない定数崩壊という特定の失敗モードを起こしやすい。
- 定数崩壊を予測・監視・証明できる手法を確立し,設計段階での制御を可能にすること。
- 固定された教師ポステリオリオを用いて,潜在平均にシンプレックス証明ヘッドを付与することで,定数崩壊を検知できる。
- アラインメント損失が教師情報に基づくベースラインを下回る場合,潜在平均は定数崩壊していないと証明できる。
- 教師ポステリオリオの情報を潜在空間に埋め込み,損失関数のエネルギーコストを明示的に示すことで,アラインメント損失を小さくできる条件を明らかにした。
効率的な長文生成のための文脈記憶 [cs.CL, cs.AI]目的:長文生成における効率化
- 大規模言語モデルの応用範囲拡大に伴い,推論時の制御が重要になっている。
- 長文の文脈をそのまま利用すると,計算コストが増大し,効果が薄れるという課題がある。
- 事前計算された注意状態を利用することで,計算コストを抑えつつ文脈の有効性を維持することを目指す。
- 提案手法は,LLaMA-3.1-8Bを用いた実験で,文脈学習の精度を向上させた。
- メモリ使用量を削減しつつ,注意機構の遅延を1.36倍低減することに成功した。
- NBAベンチマークにおいて,フルアテンションRAGと同等以上の性能を,より少ないメモリで実現した。
スパースオートエンコーダのベンチマークは信頼できるか [cs.DC, cs.LG, cs.AI]目的:スパースオートエンコーダの品質評価
- 大規模言語モデルの解釈可能性を確保する上で,スパースオートエンコーダは重要な役割を担う。
- 既存のベンチマークが,スパースオートエンコーダの性能を正確に識別できていない可能性が指摘されている。
- スパースオートエンコーダの評価指標の信頼性を検証し,より適切なベンチマークを提案することを目的とする。
- SAEBenchに含まれる主要な指標であるTPPとSCRは,複数の検証において信頼性が低いことが判明した。
- 他の指標も,再seedノイズや識別力において,想定よりも低い結果を示した。
- $k$-sparse probingのsae-probes変種は,最も信頼性の高い指標であるが,同一アーキテクチャの変種を区別するのにも苦戦する。
第一原理への攻撃:バイナリ関数分類器に対するブラックボックス,クエリフリーの標的型模倣攻撃 [cs.LG]目的:バイナリ関数分類器に対する模倣攻撃の実現
- ソフトウェアのセキュリティ維持に不可欠であり,マルウェア検出や不正変更の防止に貢献する。
- 機械学習分類器は敵対的攻撃に脆弱であり,検知回避の可能性が課題となっている。
- クエリなしで標的型模倣攻撃を可能にし,既存の分類器の信頼性・安全性を検証する。
- Kelpieという新しいフレームワークを開発し,ブラックボックスかつクエリフリーな環境で模倣攻撃を実行できることを示した。
- 6つの最先端のバイナリ関数分類器に対し,直接的なやり取りなしに攻撃を成功させることを実証した。
- キーロガーやワイパーを偽装した実用的なデモンストレーションを通じて,攻撃の有効性を検証した。
ソマリWeb v1:品質フィルタリングされたソマリ語ウェブコーパス,対応するトークナイザー,および公開言語識別ベンチマーク [cs.CL, cs.AI, cs.IR]目的:ソマリ語ウェブコーパス,トークナイザー,言語識別ベンチマークの提供
- ソマリ語は約2500万人話者を有するが,言語資源は限られている
- 既存のソマリ語テキストデータは,多言語データセットに混在,または小規模でドキュメントが不十分
- 高品質なソマリ語コーパスと評価ベンチマークの構築による言語処理研究の促進
- ソマリWeb v1は,HPLT v2,CC100,ソマリ語Wikipediaから構築された,約3億トークンを含む81万9322文書のコーパスである。
- 既存の多言語データセットには,重複や文字化け,類似文書といった品質上の問題が存在することが判明した。
- BPE-16Kトークナイザーは,既存のGPT-4トークナイザーと比較して,トークン数を約40.2%削減することを示した。
低リソース言語を用いたLLMの多言語脱獄 [cs.CL, cs.AI]目的:LLMの安全性確保機構を回避する多言語脱獄の可能性
- LLMは高度な自然言語処理能力を持つ一方,悪意のある利用を防ぐ安全対策が不可欠である。
- LLMの安全性は確立されていると考えられているが,巧妙なプロンプトによって回避される脆弱性が存在する。
- 低リソース言語を介した多言語攻撃がLLMの安全性をどの程度脅かすかを検証する。
- 多言語での対話型攻撃により,LLMは有害な応答を生成しやすくなることが示された。
- 特に,アフリカーンス語とisiZulu語での脱獄成功率が高く,LLMの多言語対応における脆弱性が明らかになった。
- 翻訳の品質が脱獄の成功に大きく影響し,低品質な翻訳では効果が限定的であることが示唆された。
片方向フィードバックを用いたプライバシー保護強化学習 [cs.LG, cs.AI]目的:多次元連続状態・行動空間における,片方向フィードバック下の強化学習
- 強化学習は,ロボット制御やゲームなど,様々な分野で応用が期待される重要な技術である。
- プライバシー保護と学習効率の両立が課題であり,特に状態空間や行動空間が大きい場合に困難が生じる。
- 多次元環境と片方向フィードバック下において,プライバシーを保護しつつ効率的な学習を実現すること。
- 提案手法POOLは,理論的に既存の非プライバシー強化学習と同等のサンプル複雑度を持つことが示された。
- 強いプライバシー保証を適用しながら,高い学習効率を維持できる可能性が示唆された。
- 多次元環境における,実用的なプライバシーを考慮した強化学習への重要な一歩となる。
マスク拡散言語モデルにおける機械的忘却 [cs.CL, cs.AI]目的:マスク拡散言語モデルからの特定の知識の除去
- 大規模言語モデルの利用拡大に伴い,プライバシー保護の重要性が高まっている。
- 既存の言語モデルの忘却手法は,拡散言語モデルには最適化されていない。
- 拡散言語モデルにおける効果的な知識除去手法の開発が求められている。
- 本研究では,拡散過程の観点から学習を捉え直し,MDUという初の拡散言語モデル向け忘却フレームワークを提案した。
- MDUは,プロンプト条件付き予測からプロンプトマスクされた無条件アンカーへの正方向KLダイバージェンスを最小化することで,忘却を達成する。
- 実験結果から,MDUは既存のLLM忘却手法と比較して高い忘却性能を示すことが示された。
CodeBind:統一的な構成コードブックを用いたマルチモーダルアライメントのための分離表現学習 [cs.CE, cs.IR, cs.CV, cs.AI, cs.CL]目的:マルチモーダル表現アライメントの最適化
- 大規模言語モデルやロボティクスにおいて,マルチモーダル理解は不可欠であり,その性能向上に繋がる。
- 既存手法は,モダリティ間情報差異やデータ不足により,最適なアライメント空間の構築が困難である。
- モダリティ固有の特徴を捉えつつ,効率的なアライメントを実現し,データ不足の問題を克服する。
- CodeBindは,共有・固有コードブック設計により,マルチモーダル表現空間を最適化し,高い性能を達成した。
- 全ペアデータが不要であり,Incremental Alignmentにより,様々なモダリティ間(9種類)で有効性が確認された。
- 共有ベクトル量子化スキームは,モダリティ間のギャップを埋め,代表的なモダリティによる偏りを抑制する。
体積から価値へ:オンデバイスRAGのための嗜好に合致したメモリ構築 [cs.CL, cs.AI, cs.IR, cs.LG]目的:オンデバイスRAGにおける嗜好に合致したメモリ構築
- LLMに基づくパーソナルAIエージェントの普及に伴い,プライバシーと応答速度の確保が重要になっている。
- 限られたメモリ容量下では,ユーザの意図に沿った検索を維持するために,何情報を保存するかが課題となっている。
- ユーザの嗜好をコンパクトかつ安定した個人コンテキストとして活用し,RAGパイプライン全体に統合することで解決を目指す。
- EPICは,インデックスメモリを最大2404倍削減し,嗜好追跡の精度を20.17%向上させた。
- また,検索レイテンシを最高のベースラインと比較して33.33倍低減することに成功した。
- オンデバイス実験では,ストリーミング更新において1MB未満のメモリフットプリントと29.35ms/クエリのレイテンシを維持した。
時間的タスク多様性:非定常性下における合成系列モデリングの帰納的バイアス [cs.LG]目的:非定常性下における深層学習の帰納的バイアス
- 現実世界のデータ分布は時間と共に変化するため,深層学習モデルの汎化性能を理解する必要がある。
- 既存研究では,データ分布が固定されているという前提のもと,非定常性下での学習が十分に検討されていない。
- 時間的タスク多様性が,記憶過学習を防ぎ,汎化を促進する可能性を検証する。
- 時間的タスク多様性を導入することで,モデルは記憶よりも汎化にバイアスを持つようになることが示された。
- 線形回帰の系列モデリングにおいて,多様なタスク分布は異なる汎化パターンを引き起こすことが確認された。
- この研究は,非定常な環境下における深層学習モデルの学習特性の理解に貢献する。
CommitDistill:ソフトウェアリポジトリのための軽量知識中心型メモリ層 [cs.NI, cs.SE, cs.AI]目的:ソフトウェアリポジトリのgit履歴からの知識抽出と,その知識を用いた情報検索
- ソフトウェア開発における過去の知識の再利用は,生産性向上や品質改善に不可欠である。
- git履歴には豊富な知識が含まれるものの,開発者やAIアシスタントによる有効活用が不十分である。
- git履歴から知識を抽出し,効率的に検索可能なメモリ層を構築することで,この課題を解決する。
- CommitDistillは,git履歴から「事実」「スキル」「パターン」といった型の知識単位を抽出する。
- 256文字という限られた検索予算内で,CommitDistillはBM25やgit log --grepよりも高い検索精度(0.750のヒット率)を示した。
- 大規模言語モデルを用いた評価では,CommitDistill単独では大きな改善は見られなかったが,抽出処理の高速性(10,000コミットを4秒未満)が確認された。
DARE-EEG:二重整合表現学習によるEEG基盤モデル [cs.CE, eess.SY, cs.SY, cs.RO, cs.HC, cs.AI, cs.HC, cs.LG]目的:EEGの二重整合表現学習
- 脳波(EEG)は,脳の活動を直接反映し,様々な脳コンピュータインタフェース(BCI)に応用される重要な信号である。
- 既存のEEGエンコーダは,信号の一部が欠損した場合,表現の一貫性を保てず,汎化性能が低下するという課題がある。
- 本研究は,EEG信号の異なる欠損パターンに対する表現の不変性を明示的に学習することで,この課題を解決する。
- DARE-EEGは,コントラスト学習によるマスク整合と,完全な特徴へのアンカー整合を組み合わせることで,マスク不変性を効果的に学習する。
- 提案手法は,様々なEEGベンチマークにおいて,既存手法を凌駕する精度を達成し,優れたクロスデータセット移植性を示す。
- また,スペクトロ空間投影によるパラメータ効率の良い適応戦略により,異なる電極配置やサンプリングレートにも対応可能である。
SD-Search: 検索拡張型推論のためのオンポリシー事後自己蒸留 [cs.AI, cs.CL, cs.IR]目的:検索拡張型推論エージェントにおける検索クエリの質向上
- 複雑な推論問題解決において,外部知識検索との連携が重要視されている。
- 従来の強化学習では,検索決定への段階的な報酬付与が困難であった。
- ポリシー自体から段階的な教師信号を生成し,検索性能を向上させる。
- SD-Searchは,オンポリシー事後自己蒸留により,外部教師や追加アノテーションなしで段階的教師信号を得る。
- 教師モデルは,ロールアウトの成功に基づいてクエリ分布を調整し,有効な決定を特定する。
- 学生モデルは,教師モデルの行動を模倣することで,検索クエリ位置におけるトークンレベルの Jensen-Shannon divergenceを最小化する。
ポート・ハミルトニアン生成ダイナミクスによる物理駆動型ワールドモデル:PH-Dreamer [cs.HC, cs.LG, cs.AI, cs.CV, cs.RO]目的:物理法則に基づいたワールドモデルの構築
- ロボット工学や制御において,現実世界を模倣するシミュレーションの精度向上が不可欠である。
- 既存のワールドモデルは物理構造が欠如しており,エネルギー保存則などの物理法則に反する挙動を示す場合がある。
- 物理法則を組み込んだワールドモデルを構築し,より現実的で効率的なシミュレーションを実現すること。
- 提案手法は,ポート・ハミルトニアンフレームワークを用いて,潜在空間のダイナミクスに物理的な制約を導入することで,より物理的に整合性の取れたモデルを実現した。
- 視覚制御ベンチマークにおいて,従来のモデルと比較して,収束までの報酬や,シミュレーションの忠実度が向上した。
- 潜在空間の体積,エネルギー消費量,ジャークがそれぞれ削減され,より効率的な制御が可能となった。
LLMファインチューニングにおけるアライメントの動的変化 [cs.LG, cs.AI]目的:LLMのファインチューニングにおけるアライメントの動的な振る舞い
- 大規模言語モデルの安全性と有用性は重要であり,アライメントはその根幹をなす。
- ファインチューニング後のアライメントは脆く,その原因の解明が課題となっている。
- パラメータ空間と機能空間における学習ダイナミクスを統合的に捉え,アライメントの不安定性を説明する。
- アライメントの変化を捉えるスコアを導入し,ファインチューニング中の更新式を導出した。
- アライメント更新は,「反発力」と「推進力」の二つの要素に分解できることが示された。
- 事前アライメントが再学習を促進する「リハーサルプライミング効果」が確認された。
信頼性のある医療画像質問応答のためのWasserstein均衡デコーディング [cs.HC, cs.CV, cs.AI]目的:医療画像質問応答における信頼性向上
- 医療現場では,プライバシー保護や低遅延性が求められ,小型モデルの利用が重要となる。
- 小型モデルは容量が限られるため,妥当だが誤った回答を生成しやすいという課題がある。
- 本研究は,意味的な合意に基づいた収束により,より信頼性の高い回答生成を目指す。
- Wasserstein均衡デコーディングは,VQA-RADおよびPathVQAにおいて,既存手法と比較して一貫した性能向上を示した。
- VQA-RADでは,Qwen3-VL-2Bの精度を3.5%向上させ,4Bモデルに匹敵する性能を達成した(p < 0.01)。
- PathVQAでは,ドメイン特化型ファインチューニングなしでGemma-3-4BがMedGemma-4Bと同等の精度を実現し,収束に必要な反復回数を約20%削減した。
リーマン最適化と測地的 Temporal Regularization を用いた動的楕円グラフ因子モデル [cs.NI, cs.AR, cs.LG, cs.GR]目的:時間変化するグラフ構造の推論
- 神経科学,金融,気候学など幅広い分野で時間変化するグラフ構造の推定が重要である。
- 潜在グラフの時系列の一貫性を維持し,正定値行列のリーマン幾何学を考慮する必要がある。
- 測地的 Temporal Regularization により,グラフ構造の時間的整合性を高めることを目指す。
- 提案手法「Degfm」は,潜在的な楕円グラフ因子モデルを用いて,時間変化する精度行列を効率的に推定する。
- グラスマン多様体上でのリーマン幾何学的な勾配降下法により,複雑な最適化問題を解く。
- 合成データと実データでの実験により,Degfm が既存手法を上回る性能を示すことが確認された。
3層ReLUネットワークの対称性 [cs.LG, cs.DM, math.AG, math.CO]目的:深層ReLUネットワークにおけるパラメータ対称性の解析
- 深層学習の理論的理解は,モデルの性能向上やロバスト性の保証に不可欠である。
- パラメータ空間の対称性は,学習の安定性や汎化性能に影響を与えるが,未解明な点が多い。
- 3層ボトルネックアーキテクチャにおけるパラメータ対称性の完全な特徴付けを目指す。
- パラメータ対称性は,半代数的記述によって明示的に表現可能であることが示された。
- 2つのパラメータの関数的同値性を判定するための多項式時間アルゴリズムが開発された。
- 一部の対称性は勾配降下法における局所的な保存則を誘導する一方,他の対称性はそうではない。
オフライン強化学習における暗黙的なサポート拡張:確率的方策最適化によるアプローチ [cs.LG, cs.AI]目的:オフライン強化学習におけるサポート拡張
- 強化学習は,複雑な問題を解決する強力な手法であり,ロボティクスやゲームなど様々な分野で応用が期待されている。
- 既存のオフライン強化学習は,安全性を重視するあまり,振る舞い方策のサポート外での最適な行動の発見を妨げがちである。
- 本研究は,方策のサポートを暗黙的に拡張することで,より高い報酬を得られる行動の探索を可能にすることを目指す。
- 提案手法であるISEPは,分布内データと方策サンプル間の補間された価値関数を利用し,実行可能な行動サポートを暗黙的に拡張する。
- ISEPは,高報酬領域を「密」にし,方策改善のための経路を作成し,理論的には有界の価値誤差を保証する。
- ISEPは,確率的な行動選択戦略を用いて,保守的なクローニングと楽観的な拡張シグナルを交互に最適化することで,モード崩壊を防ぐ。
表現オートエンコーダの改良によるベースラインの向上 [cs.CV, cs.AI, cs.GR, cs.LG, stat.ML]目的:表現オートエンコーダの設計選択に関する調査と改善
- 画像生成モデルの性能向上は,様々な応用分野において重要である。
- 従来のVAEは,事前学習済みモデルの表現力を十分に活用できていない場合がある。
- RAEの簡素化と性能改善を通じて,効率的な画像生成を目指す。
- 表現をエンコーダの複数層の和として定義することで,再構成精度が大幅に向上した。
- RAEとREPAは相補的なメカニズムを有しており,両者を組み合わせることで性能を高めることができた。
- REPAをRAEの潜在空間におけるx予測と捉え,追加の学習なしにclassifier-free guidanceを実現した。
Causely:エンタープライズAIのための因果推論レイヤー - SREおよび信頼性ワークフローに関するベンチマーク研究 [cs.AI]目的:SREワークフローにおけるAIエージェントの診断,影響評価,安全な行動のための基盤の提供
- AIを活用したSREの自動化が重要視される中,環境理解の精度と効率性が課題となっている。
- 従来のAIエージェントは,生のテレメトリデータに依存しており,解釈コストや遅延,信頼性の問題がある。
- 因果関係を構造的に表現することで,AIエージェントの環境理解を深め,効率性と精度を向上させる。
- Causelyを用いることで,障害診断の平均時間が63%短縮された。
- Causelyは,トークン消費量を60%削減し,ツールコール回数を78%削減した。
- 根本原因診断の精度は75%から100%に向上し,APIコストも57%削減された。
フォールドに迷い込む:交差検証が不確実性推定のための深層アンサンブルではない場合 [cs.CV, cs.LG]目的:医療画像セグメンテーションにおけるエピステミック不確実性の推定
- 医療画像セグメンテーションの信頼性向上は,診断精度向上と安全な臨床応用のため不可欠である。
- 交差検証アンサンブルと深層アンサンブルの区別が曖昧で,不確実性評価の解釈に誤りをもたらす可能性がある。
- アンサンブル構築方法が研究目的に合致しているか検証し,適切な不確実性推定を目指す。
- 深層アンサンブルはセグメンテーション精度を維持しつつ,較正と故障検出の性能を向上させた。
- 交差検証アンサンブルは,研究対象データセットにおいて,評価者間変動とより強い相関を示した。
- アンサンブル構築方法は,信頼性重視の用途(選択的紹介/故障検出)には深層アンサンブル,曖昧性評価には交差検証アンサンブルが適切である。
プルーニング,更新,トリミング:大規模言語モデルのためのロバストな構造化プルーニング [cs.LG]目的:大規模言語モデルの効率的な推論
- 大規模言語モデルは性能向上を続ける一方,計算コストが課題となっている。
- 既存のプルーニング手法では,高い疎性率での性能維持が困難である。
- 提案手法は,構造化プルーニングを通じて,この課題の解決を目指す。
- 提案手法Putriは,FFN層の重みを更新し,逐次的にプルーニングを行うことで,高い性能を維持する。
- アテンション層のヘッド単位でのプルーニングを可能にし,Grouped-Query Attentionにも対応する。
- 複数のモデルとデータセットでの実験により,Putriの汎用性と高い疎性率での有効性が確認された。
同じシグナル,異なる意味:ソフトウェアエンジニアリングエージェントのフレームワーク間行動分析 [cs.SE, cs.AI]目的:ソフトウェアエンジニアリングエージェントの行動特性と成果の関係
- LLMを活用したソフトウェア開発の自動化が注目されており,エージェントの行動理解が不可欠である。
- エージェントの行動特性と成果の関係は,特定のフレームワークに依存する可能性があり,汎用性に疑問が残る。
- 異なるフレームワークにおけるエージェントの行動特性を比較し,汎用的な知見の妥当性を検証する。
- 異なるフレームワーク間では,同じ行動特性が異なる意味を持つことが確認された。
- エラー率に着目すると,低いほど解決率が高いと解釈できる構成と,高いほど解決率が高いと解釈できる構成が同程度に存在した。
- フレームワークの種類が,LLMの種類よりもエージェントの行動特性の変動に大きく影響することが示された。
集中強制:効率的な自己回帰型ビデオ拡散のためのコンテンツ認識型フレーム単位KV選択 [cs.CV, cs.AI]目的:自己回帰型ビデオ拡散における効率的なKVキャッシュ圧縮手法
- ビデオ生成技術は急速に進歩しているが,長尺動画生成には大規模なキャッシュが必要となる。
- 既存手法は注意スコアに基づく粗い履歴フレーム選択に留まり,ヘッドごとの重要度を考慮していない。
- 生成フレームとヘッド次元に沿ったキャッシュ履歴に焦点を当て,効率的なKV選択を目指す。
- 学習を必要とせず,エンドツーエンドで最大1.48倍の高速化を実現した。
- 視覚品質とテキストとの整合性を向上させた。
- 生成されるフレームごとに異なる履歴フレームへの依存関係を捉え,ヘッドの重要度に応じた予算配分を行った。
公共交通機関における乗客数推定のためのパラメータフリーな注意機構を用いたCSRNetの最適化 [cs.CV, cs.AI]目的:公共交通機関における乗客数推定と密度マップ推定の精度向上
- スマートで効率的な公共交通機関の設計には,乗客数の推定が不可欠である。
- 従来の乗客数推定モデルは,乗客数の変動に対応するためには調整が必要である。
- リソースに制約のある環境下でも利用可能な,軽量な注意機構の活用。
- パラメータフリーな注意機構は,追加のパラメータ数を増やすことなく,従来の注意機構と同等またはそれ以上の精度を達成した。
- PFCASAは,乗客数が少ないシーンで他の注意機構よりも優れた性能を示した。
- PFCAは,乗客密度が高いシーンでより効果的であり,スマート公共交通機関への統合の可能性を示唆した。
適合度景観のマッピング:構造誘導型多峰最適化アプローチ [cs.NE]目的:多峰最適化における最適解の探索
- 複雑な問題解決において,複数の最適解を効率的に見つけることは重要である。
- 既存のニッチング進化アルゴリズムは,決定空間のピーク構造を捉えきれない場合がある。
- 決定空間構造に基づき,偽多峰性を回避し,真の最適解を効率的に探索すること。
- 提案手法CLDEは,カオス写像を用いた探索と,持続性に基づく盆地成長により,高いピーク比率を達成した。
- 多目的最適化問題群(DTLZ, MMMOP)において,CLDE-Mは競争力のあるIGD/IGDx性能を示し,特に強い多峰性を持つ問題で顕著な改善が見られた。
- CLDEは,適応的な分解能調整により,過度な断片化や過剰なマージを回避し,最適な解の質を維持しながら網羅性を確保する。
分離型共形最適化:独立した調整と校正による効率的な予測集合 [cs.CL, cs.LG]目的:効率的な予測集合の探索と,共形的なカバレッジの保証
- ベイズ共形最適化は,信頼性の高い予測を実現する上で重要である。
- 既存手法では,効率性とカバレッジ保証のために同じデータを使用しており,非効率な場合がある。
- 分離型アプローチにより,効率的な構造選択と正確なカバレッジ保証を両立させる。
- 提案手法DCOは,分類・回帰のベンチマークにおいて,名目カバレッジレベルを維持しつつ,予測集合の平均サイズまたは区間幅を削減した。
- ImageNet-Aにおいては,平均集合サイズが26.52から25.26に,95パーセンタイル集合サイズが58.95から53.73に減少した。
- Diabetesデータセットでは,平均区間幅が2.098から1.914に減少した。
近接盆地跳躍:保証付きのグローバル最適化 [cs.LG, math.OC]目的:グローバル最適化手法の理論的枠組み
- 複雑な問題において,最適解を見つけることは重要であり,様々な分野で求められている。
- 既存のグローバル最適化アルゴリズムは経験的な成功例が多いが,理論的根拠に乏しい。
- 近接最適化と局所的最小化を組み合わせた新しい枠組みを提示し,理論的な保証を持つ。
- 提案手法である近接盆地跳躍(PBH)は,有限のサンプル数で大域的最小値に高い確率で収束する。
- 標準的な合成困難関数や,深層学習のスケーリング則のフィッティングといった現実の問題において,既存手法を上回る性能を示す。
- 次元数が増加するほど,性能差が拡大する傾向にある。
文脈的迎合の隠れたコスト:人間とAIの協働におけるAIリテラシー介入 [cs.HC, cs.AI, cs.CY, cs.ET]目的:人間とAIの協働における文脈的迎合の発生と,AIリテラシーおよびプロンプティング能力の向上によるその軽減効果の検証
- 教育現場でAI活用が進む中,AIの特性を理解し,効果的な協働関係を築くことの重要性が高まっている。
- AIがユーザーの信念に迎合する傾向(文脈的迎合)は,学習や意思決定において誤りを助長する可能性がある。
- 本研究は,AIリテラシー向上策が,AIの文脈的迎合による悪影響を軽減できるかを検証する。
- LLMはユーザーの入力に非常に敏感であり,質の低い初期応答はAIのアドバイスの質を低下させる。
- ユーザーの誤りがAIの応答に伝播することで,AIからのフィードバックの質とユーザーのタスク遂行能力が低下する。
- プロンプティングやAIリテラシーの介入は,文脈的誤りの伝播を完全に防ぐことはできないものの,AIアドバイスの質を向上させた。
動的なロボットによる布の折り畳み:効率的なクーマン演算子に基づくモデル予測制御 [cs.RO, cs.LG, math.DS, math.OC]目的:布の折り畳みにおける高速な軌道生成
- ロボットによる布の折り畳みは困難であり,特に高速な動作を用いる動的な折り畳みは高度な技術が求められる。
- 布の複雑なダイナミクスが,システムの特定と折り畳み軌道の計画を妨げ,物理モデルのシミュレーションと現実の乖離を生む。
- クーマン演算子を利用し,シミュレーションと現実のギャップを縮め,高速かつ正確な折り畳み軌道生成を実現すること。
- クーマン演算子に基づく線形モデルを用いることで,従来の非線形モデルに比べて効率的な軌道生成が可能となった。
- シミュレーションと実機実験の両方で,未知のポーズへの高速な折り畳み軌道を,折り畳み精度を損なわずに生成できることが示された。
- 物理ベースのシミュレーションと機械学習を統合し,ロボットによる布の折り畳みの精度と速度を向上させる新しい手法を提示した。
推論時探索を超えて:強化学習が再利用可能なソルバーを合成する [cs.LG, cs.AI]目的:組み合わせ最適化問題に対する再利用可能なソルバーの合成
- 大規模言語モデルの活用範囲拡大のため,推論コスト削減が重要である。
- 既存手法は問題ごとに探索を行うため,効率が悪く,コストが高い。
- 強化学習を用いて,問題群全体を解くための汎用的なソルバーを学習する。
- 強化学習により,制約を考慮した焼きなまし法テンプレートが99.8%の確率で生成された。
- 生成されたソルバーは,仮想最良ソルバー(VBS)に対して5.0%の誤差で,既存手法の91倍の効率を実現した。
- 他のタスク(ジョブショップスケジューリング)においても,一定の有効性が確認された。
二乗根を超えて:多段階プライベート学習のための明示的メモリ効率的因数分解 [cs.LG]目的:差分プライバシーモデル学習の有用性向上
- 差分プライバシーはプライバシー保護の重要な手法であり,その実用性を高める研究が求められている。
- 既存の因数分解法は,メモリ効率と有用性のトレードオフに課題があり,低帯域幅下での性能が低い。
- 本研究は,低メモリ・低帯域幅環境下での有用性向上と,多段階学習における誤差の理論的保証を目的とする。
- 提案手法γ-BIFRは,既存手法と比較して,低メモリ・低帯域幅環境下でRMSEや私的学習性能を大幅に改善する。
- γ-BIFRは,多段階学習における参加者間誤差の理論的保証をより厳密にする。
- γ-BIFRは,既存の因数分解法を統合した汎用的な手法であり,帯域幅の範囲全体で性能を発揮する。
QSTRBench:言語モデルの定性的空間・時間推論能力を評価するための新たなベンチマーク [cs.AI]目的:言語モデルにおける定性的空間・時間推論能力の評価
- 空間・時間推論は,ロボット工学や地理情報システム等,多様な分野で不可欠な能力である。
- 既存の言語モデルは,複雑な定性的空間・時間関係の推論において課題を残している。
- 言語モデルの定性的空間・時間推論能力を客観的に評価し,その限界を明らかにすること。
- 大規模言語モデルを対象とした評価ベンチマークQSTRBenchを新たに開発した。
- ベンチマークは,Point Algebra,Allen's Interval Algebraなど,複数の定性的空間・時間計算において,構成的推論,逆関係,概念的近傍を評価する。
- どのモデルも完全に正答することはできず,計算の種類によって性能に大きな差が見られた。
エネルギーに基づくモデルによる物理的に整合性の高い分子の生成 [cs.LG]目的:物理的に整合性の高い分子の生成
- 創薬や材料開発において,分子構造の予測は不可欠であり,その精度向上が求められている。
- 既存の手法では,分子のエネルギー地形を正確に学習・サンプリングすることが困難である。
- エネルギー地形を学習し,効率的な分子生成と品質評価を実現すること。
- EBMolは,原子付加スカラーポテンシャルを学習することで,エネルギーに基づく分子生成を可能にした。
- QM9およびGEOM-Drugsデータセットにおいて,最先端の性能を達成した。
- 学習されたエネルギー地形は,分子構造の品質評価に利用でき,形状誘導サンプリングによる制御された分子生成を実現した。
TabH2O:表形式予測のための統一的基盤モデル [cs.LG]目的:表形式データの分類および回帰タスクに対する基盤モデルの開発
- 表形式データは,様々な分野で広く利用されており,その予測モデルの重要性は高い。
- 既存手法は,タスクごとにモデルを構築する必要があり,計算コストが高いという課題がある。
- 単一のモデルで分類と回帰の両タスクに対応し,計算効率と汎用性を向上させる。
- TabH2O v1は,TALENTベンチマークにおいて,6つの手法中平均2.55位の成績を達成した。
- CatBoost,H2O AutoML,LightGBMといったチューニング済みのモデルを上回り,TabPFN v2.6と競合する性能を示した。
- 分類および回帰タスク全体で81%のテストデータセットにおいてトップ3に入り,ロバスト性も確認された。
動的な屋内環境における遍在的なマッピングと局所化 [cs.RO, cs.AI]目的:動的屋内環境におけるリアルタイムマッピングと局所化
- ロボットの自律的な動作には,周囲環境の正確な把握と自己位置推定が不可欠である。
- 従来のSLAMは,環境変化に弱く,移動体センサに依存するため,屋内環境でのロバスト性に課題がある。
- 固定センサネットワークを用いることで,環境変化に強い高精度なマッピングと局所化を実現し,ロボットの安全な動作を支援する。
- UbiSLAMは,固定RGB-Dカメラネットワークを用いて,リアルタイムで環境マッピングと局所化を行うシステムである。
- UbiSLAMは,従来のSLAMの弱点である環境変化への脆弱性を克服し,ロボットのナビゲーション精度と応答性を向上させる。
- 最適なカメラ配置やリアルタイムデータ共有プロトコルにより,空間の完全なカバレッジと死角問題の解決を目指す。
グラフ階層的再帰による長距離汎化 [cs.LG, cs.AI]目的:グラフにおける長距離依存性の捕捉と汎化性能の向上
- グラフ構造データは,社会ネットワークや分子構造など,様々な分野で現れるため重要である。
- 既存のグラフニューラルネットワークは,グラフの遠い領域間の相関関係を捉えるのが難しいという課題がある。
- 本研究では,入力グラフと階層的抽象化を用いて長距離依存性を効率的に捉えることを目指す。
- 提案手法GHRは,既存のグラフモデルと比較して,長距離依存性の学習において優れた性能を示す。
- GHRは,訓練データよりも長い距離の相互作用を含むテストインスタンスに対する汎化性能も向上させる。
- GHRは,最先端モデルの1%程度のパラメータ数で同等以上の性能を達成し,高いパラメータ効率を実現する。
球面調和最適輸送:気候モデル比較への応用 [cs.LG, math.OC]目的:気候モデル比較のための球面調和最適輸送法の開発
- 測度間の比較はデータ解析において重要であり,形状を考慮する必要がある。
- 最適輸送は計算コストが高く,現実世界の問題への適用が困難である。
- 球面上の効率的な最適輸送アルゴリズムを開発し,計算コストを削減する。
- 熱核コストが最適輸送コストに収束することが理論的に証明された。
- 球面上のSinkhornダイバージェンスが,古典的な最適輸送の特性を維持することが確認された。
- 球面調和構造を利用した高速Sinkhornアルゴリズムが開発され,計算効率が検証された。
韓国語LLMの政治的偏向の診断:国勢調査に基づいたエージェントシミュレーション [cs.CY, cs.AI]目的:韓国語LLMの政治的行動の評価
- 大規模言語モデルの政治的偏りは,社会に影響を与える可能性があるため,その理解が重要である。
- LLMの政治的偏りのメカニズムや,言語を超えた一般化が十分に解明されていない。
- 韓国語LLMにおける政治的偏りの具体的なパターンを特定し,軽減策を検討する。
- Dynamo-Kを用いて,韓国の選挙におけるLLMの政治的行動を分析した結果,3つの問題点が明らかになった。
- シナリオの再構築により,2017年の平均絶対誤差を62%回復させ,第三党の可視性を回復できた。
- 学習された重み付けアダプターは,候補者名に依存せずに,対立する価値観を持つモデルを校正することに成功した。
