arXiv雑要約
AI - 2026/02/04 公開
ロボット操作のためのジオメトリを意識した4Dビデオ生成 [cs.CV, cs.AI, cs.LG, cs.RO]目的:ロボット操作における物理世界の動的理解と予測能力の向上
- ロボットが複雑な環境で効果的に計画し,相互作用するための重要な要素。
- 複数視点からの幾何学的整合性と時間的コヒーレンスを両立したビデオ生成の困難さ。
- マルチビュー3D整合性を実現し,視点変更に強い予測を可能にすること。
- 提案手法は,クロスビューポイントマップアラインメントによる幾何学的教師あり学習で3Dシーン表現を獲得。
- 単一のRGB-D画像から,カメラ位置を入力とせずに,空間・時間的に整合した未来のビデオシーケンスを生成可能。
- シミュレーションおよび実世界のロボットデータセットにおいて,既存手法よりも安定した予測を実現。
DOME:確率的勾配降下法における信号対雑音比の改善:シャープ方向部分空間フィルタリング [cs.LG]目的:確率的勾配降下法における信号対雑音比改善手法
- 深層学習の性能向上には,最適化アルゴリズムの改善が不可欠である。
- 確率的勾配の変動が大きく,最適化の安定性を損なう場合がある。
- 確率的勾配の共分散に基づく不要な部分空間の除去による最適化の効率化。
- 本研究では,ヘッセ行列の特異ベクトルに基づいた不要な部分空間の特性評価とオンライン推定手法を提案した。
- 提案手法による不要な部分空間の除去は,最適化に大きな影響を与えず,勾配圧縮などの応用において有効であることが示された。
- 確率的勾配の相関構造を利用することで,信号対雑音比を改善し,学習の安定化に貢献する。
マスクされた潜在Transformerによる正確かつ効率的なワールドモデリング [cs.LG, cs.AI, cs.CV]目的:正確かつ効率的なワールドモデリング手法
- 強化学習において,シミュレーションによる学習は,効率的な方策獲得に不可欠である。
- 既存のワールドモデルは,潜在空間の圧縮により情報が失われ,性能が低下する場合がある。
- 潜在空間で正確な軌道を生成し,エージェントの性能を向上させることを目指す。
- EMERALDは,Crafterベンチマークにおいて,人間の専門家を超える性能を初めて達成した。
- 1000万ステップ以内に人間の専門家レベルの性能を上回る結果を示した。
- 評価中に,Crafterの全22個のアチーブメントを少なくとも一度はアンロックすることに成功した。
Kimi K2:オープンな能動的知能 [cs.RO, cs.HC, cs.CY, cs.LG, cs.AI, cs.CL]目的:オープンソース大規模言語モデルKimi K2の開発と性能評価
- AI技術の発展は,様々な分野における自動化や効率化を促進し,社会に大きな変革をもたらす可能性を秘めている。
- 大規模言語モデルの学習は計算コストが非常に高く,安定した学習が困難な場合がある。
- より高性能で,学習の安定性を高めたオープンソース大規模言語モデルの実現が求められている。
- Kimi K2は,320億の活性パラメータと1兆の総パラメータを持つMoEモデルであり,MuonClipオプティマイザによって学習安定性を向上させている。
- ベンチマークテストにおいて,Tau2-Benchで66.1,ACEBench (En)で76.5など,多くのタスクで最先端の性能を達成し,既存のオープンソースモデルを上回る結果を示した。
- 特に,ソフトウェアエンジニアリングや能動的タスクにおいて高い能力を発揮し,今後の能動的知能研究の基盤となる。
大規模言語モデルにおける文脈的不確実性を情報理論的指標で測定・分析 [cs.AI]目的:大規模言語モデルの知能を測るための定量的認知プロファイルの構築
- AI技術の発展に伴い,その内部メカニズムの理解が不可欠となっている。
- LLMの性能は向上しているものの,情報処理の過程がブラックボックス化している。
- LLMの内部動態を定量的に分析し,モデル間の比較を可能にすること。
- エントロピー減衰曲線を通じて,モデルの規模とテキストの複雑さに応じた安定したプロファイルが明らかになった。
- 情報利得スパン(IGS)は,減衰パターンの望ましさを要約する単一の指標として提案された。
- これらのツールを用いることで,現代AIシステムの内部ダイナミクスを原理的に分析・比較できる。
MixGRPO:混合ODE-SDEによるFlowベースGRPO効率の解禁 [cs.AI, cs.CV]目的:画像生成における人間の選好に合わせたFlow Matchingモデルの効率向上
- 画像生成における人間の選好への適合は,高品質なコンテンツ生成に不可欠である。
- 従来のGRPO手法は,Markov Decision Process (MDP) 全ステップのサンプリングと最適化が必要で非効率である。
- 本研究は,MDP内の最適化を効率化し,FlowベースGRPOのパフォーマンスを向上させることを目指す。
- MixGRPOは,確率微分方程式(SDE)と常微分方程式(ODE)を組み合わせた混合サンプリング戦略により,最適化プロセスを効率化する。
- スライディングウィンドウ機構を導入し,ウィンドウ内でのみSDEサンプリングとGRPO最適化を行うことで,最適化オーバーヘッドを削減する。
- MixGRPOおよびMixGRPO-Flashは,人間の選好に合わせた評価において,DanceGRPOよりも効果と効率で優れていることが示された。
Self-Foveate:教師なしテキストからの合成指示の多様性と難易度を多段階フォーベーションにより向上 [cs.AI]目的:合成指示データの多様性および難易度の向上
- 大規模言語モデルの学習において,高品質な指示データの確保が重要である。
- 教師なしテキストからの自動合成指示は,多様性と難易度の点で限界がある。
- テキスト情報の多段階フォーベーションによる,多様性と難易度の両立を目指す。
- Self-Foveateは,人間の視覚認知に着想を得た「Micro-Scatter-Macro」多段階フォーベーション手法を用いる。
- これにより,詳細,領域間接続,全体的なパターンといった階層的な情報抽出が可能となる。
- 複数のコーパスとモデルで実験した結果,既存手法と比較してSelf-Foveateが常に優れた性能を示した。
適応近傍と補助正則化による不均衡に強く,サンプリング効率の高い連続条件付きGAN [cs.LG, cs.CV]目的:連続条件付きGANの性能向上
- 高次元データ分布の推定は,画像生成やデータ拡張など様々な応用において重要である。
- 既存のCcGANはデータ不均衡に弱く,CCDMは計算コストが高いという課題があった。
- データ不均衡を解消し,効率的なサンプリングを実現するGANモデルの開発。
- 提案手法CcGAN-AVARは,動的な近傍サイズ調整と多タスク識別器により,データ不均衡を効果的に処理する。
- CcGAN-AVARは,CCDMと比較して2000倍速く推論が可能であり,サンプリング効率が大幅に向上する。
- 複数のベンチマークデータセットにおいて,最先端の生成品質とサンプリング効率を両立することを示した。
検索拡張生成による一貫性のあるロールプレイングエージェントのための動的な文脈適応 [cs.AI]目的:ロールプレイングエージェントの一貫性向上
- ロールプレイングエージェントは,特定のキャラクターを忠実に模倣することが求められる。
- キャラクター固有の発話収集やモデルパラメータの継続的な更新にコストがかかる。
- 検索拡張生成を用いたロールプレイングエージェントにおける幻覚(ハルシネーション)問題を解決する。
- 提案手法Amadeusは,キャラクターの知識外の質問に対しても,人格の一貫性を大幅に向上させる。
- CharacterRAGという,15種類のキャラクターに関するロールプレイングデータセットを構築し,評価を厳密に行う基盤を整備した。
- 本手法は,キャラクターの知識だけでなく,性格などの様々な属性も効果的にモデル化できることが示された。
属性認識型マルチモーダル検索による汎用的な学習不要少数ショット細粒度画像分類 [cs.NI, cs.NI, cs.CV, cs.AI]目的:少数ショット細粒度画像分類におけるモデルの識別能力向上
- 画像認識技術の発展は,多様な分野における自動化や効率化に不可欠である。
- 少数サンプルでの分類は過学習を起こしやすく,汎化性能が課題となる。
- 事前学習済みモデルに頼らず,汎用的な手法による分類精度の向上を目指す。
- 提案手法UniFGVCは,マルチモーダル検索という新たなアプローチにより,従来のCLIPベースの手法や,完全教師ありMLLMベースの手法よりも優れた性能を示す。
- カテゴリー識別Visual Captioner (CDV-Captioner) は,MLLMの知識を活用し,細粒度な属性特徴を捉えた構造化されたテキスト記述を生成することで,幻覚を抑制し識別能力を高める。
- UniFGVCは,様々なMLLMやエンコーダとの互換性を確保し,多様な少数ショットFGVCシナリオへの適応性を実現する。
参加型予算編成におけるプライバシー保護の予測 [cs.CY, cs.AI]目的:参加型予算編成におけるプロジェクトの資金調達可能性の予測
- 市民参加を促し,公共投資の透明性と公平性を高める上で重要な手法である。
- 大量のプロジェクト提案を効率的に管理するための手法が不足している。
- 提案内容と匿名投票記録のみを用いて,資金調達可能性を予測する。
- 提案内容のテキスト情報と過去の匿名投票記録から,資金調達可能性を予測する手法を提案した。
- 本手法は,個人の識別情報や有権者の属性情報に依存しないため,プライバシーを保護する。
- 提案された手法は,大量の提案を効率的にスクリーニングし,予算編成のプロセスを支援する。
Code2Bench:動的ベンチマーク構築におけるソースと厳密性の拡張 [cs.SE, cs.AI]目的:コード生成LLMの評価に関する課題解決と,評価パラダイムの確立
- LLMの性能評価は,ソフトウェア開発の自動化において不可欠であり,その信頼性は開発効率に直結する。
- 既存のベンチマークは問題ソースの汚染やテストの低品質といった問題を抱え,LLMの真の能力を正確に評価できていない。
- 動的なソースと厳密なテストを組み合わせることで,LLMの性能をより正確かつ包括的に評価することを目指す。
- CODE2BENCHは,Scope Graph分析と100%のブランチカバレッジを特徴とし,PythonとJavaのベンチマークスイートCODE2BENCH-2509を構築した。
- 10種類の最先端LLMの評価により,API利用タスクとアルゴリズム合成タスクに明確な性能差があることが示された。
- 言語エコシステムの特性がモデルの性能に大きく影響することが定量的に明らかになり,既存ベンチマークにおける「正しさの錯覚」を露呈した。
CP-Agent:エージェントを活用した制約プログラミング [cs.AI, cs.CL, cs.LG, cs.SE]目的:制約プログラミング問題解決のためのエージェントワークフローの有効性
- 制約プログラミングは,組み合わせ最適化問題など,複雑な問題を効率的に解決する強力な手法である。
- 自然言語から形式的な制約モデルへの変換には,専門知識とモデリングフレームワークの理解が必要となる。
- 少ない指示で,問題解決能力を持つエージェントによる自動モデリングを目指す。
- CP-Agentは,ReActフレームワークと持続的なIPythonカーネルを活用したPythonコーディングエージェントである。
- CP-Benchの101個の制約プログラミング問題に対し,100%の正答率を達成した。
- 詳細な手順指示よりも,最小限のガイダンスの方が効果的であることが示された。
訓練不要のテキスト誘導カラー編集:マルチモーダル拡散Transformerの活用 [cs.IR, cs.GR, cs.AI, cs.CV]目的:画像および動画におけるテキスト誘導カラー編集手法
- 画像・動画編集において,色の操作は重要な要素であり,現実的な表現には高度な制御が求められる。
- 既存手法では,精密な色制御が難しく,編集領域と非編集領域に視覚的な不整合が生じやすい。
- 提示された手法は,Attention機構を活用し,より正確かつ一貫性のある色編集を可能にすることを目的とする。
- ColorCtrlは,マルチモーダル拡散TransformerのAttention機構を利用し,構造と色を分離することで,正確かつ一貫した色編集を実現した。
- 本手法は,SD3やFLUX.1-devなどのデータセットにおいて,既存の訓練不要アプローチを上回り,最先端の性能を達成した。
- 動画モデルCogVideoXへの拡張では,時間的な一貫性や編集安定性の向上という大きな利点を示した。
RLVRにおける深さと広さの相乗効果:適応的探索によるLLMの推論能力向上 [cs.LG, cs.AI]目的:大規模言語モデルの推論能力向上
- LLMの推論能力は,様々なタスクにおいて重要であり,その向上はAI研究の重要な課題である。
- 強化学習による検証可能な報酬(RLVR)は有効だが,探索の深さと広さのバランスが十分でない。
- 難易度に応じた探索と,大規模なデータを用いた学習により,RLVRの推論能力を最大限に引き出す。
- 提案手法DARSは,難易度の高い問題に重点を置くことで,Pass@Kの向上を実現した。
- 学習データの規模を拡大することで,Pass@1の性能が大幅に向上することが示された。
- 深さと広さの適応的探索がRLVRのパフォーマンスを左右する重要な要素であることが確認された。
テンソル分解による多視点グラフ凝縮 [cs.LG]目的:大規模グラフの効率的な凝縮手法の開発
- グラフニューラルネットワークは,様々な分野で高い性能を示す。
- 大規模グラフにおける計算資源の制約が課題となっている。
- テンソル分解を用いて,効率的かつ解釈可能なグラフ凝縮を実現する。
- 提案手法GCTDは,グラフのサイズを大幅に削減しつつ,GNNの性能を維持できる。
- 6つの実データセットを用いた実験で,既存手法と比較して同等以上の性能を示す。
- 3つのデータセットにおいては,精度が最大4.0%向上した。
制約が重要である:混合整数計画問題の削減のためのマルチモーダル表現 [cs.LG]目的:混合整数計画問題の効率的な解法
- 大規模な最適化問題を解決する上で,計算時間短縮が求められている。
- 既存手法は変数削減に偏っており,制約削減の可能性が十分に探求されていない。
- 制約削減による効率的な問題削減手法を開発し,解の精度向上を目指す。
- 提案手法は,インスタンスレベルと抽象レベルの両方の情報を活用したマルチモーダル表現を用いる。
- 実験結果から,提案手法は既存手法と比較して,解の質を50%以上向上させ,計算時間を17.47%削減することが示された。
- 特に,重要な制約を特定するためのヒューリスティックルールが有効であることが確認された。
分散のパラドックス:AIが多様性を減らし,新規性を高める仕組み [cs.HC, cs.AI, cs.IT, math.IT]目的:AIによる多様性の減少と新規性の向上に関するメカニズムの解明
- 発見の源泉である人間の表現の多様性は,科学,文化,専門分野において不可欠である。
- AIの生成能力は革新を加速すると期待される一方,表現の多様性を脅かすという矛盾が存在する。
- AIによる情報の圧縮と,それに対する人間の受容がどのように相互作用し,創造性に影響を与えるかを明らかにする。
- AIシステムは統計的最適化を通じて情報分散を圧縮し,ユーザーはその効果を増幅する。
- 圧縮によって標準化された形式が領域境界を越え,組み換えを促す「パラドックス的架橋」が生じる。
- 多様性が一時的に減少し,その後,人間の積極的な管理によって再構築されるU字型の時間的ダイナミクスが示唆される。
ルーター,スイッチ,インターコネクトが計算する:スケーラブルなニューロモーフィックAIのための処理インインターコネクトパラダイム [cs.NE, cs.AR, cs.NI]目的:スケーラブルなニューロモーフィックAIのための処理インインターコネクトパラダイムの実現
- 大規模AIの処理性能は,計算そのものだけでなく,それを支えるネットワークの性能に大きく依存する。
- 従来のネットワークは計算を支援する役割に留まり,AIワークロードにおけるボトルネックとなっている。
- 既存のネットワーク機能を活用し,ネットワーク自体に計算能力を持たせることで,この問題を解決する。
- ルーティング,スイッチング,インターコネクトにおける遅延,因果関係,タイムアウト等の操作がAIワークロードに必要な演算に相当することが示された。
- 既存のバッファリングやトラフィックシェーピングアルゴリズムを最小限変更するだけで,π^2ニューロンモデルやシナプス演算を実装できることが確認された。
- 知識蒸留フレームワークを用いて,既存のニューラルネットワークトポロジーをπ^2アーキテクチャに移行することで,汎化性能の低下なしに学習が可能であることが示された。
不確実性に基づく適応的探索 [cs.RO, cs.AI, cs.LG]目的:複雑な方策学習のための適応的探索のメカニズム
- 複雑な環境下での行動方策学習は,ロボット工学やAI研究において重要な課題である。
- 探索と利用の適切な切り替えタイミングの決定が,長期的な行動系列学習のボトルネックとなっている。
- 不確実性に着目し,探索・利用のバランスを動的に調整する新しい枠組みを提案し,その有効性を示す。
- 提案手法は,既存の適応的探索手法を包含する汎用的な枠組みであり,様々な不確実性指標を組み込むことが可能である。
- 複数の環境における実験結果から,提案手法が従来の探索戦略よりも優れた性能を発揮することが示された。
- 本研究は,長期的な行動系列学習における探索の効率化に貢献すると期待される。
エンドツーエンドモデルベース学習による連続制御のためのスパイクニューラルネットワーク [cs.RO, cs.AI, cs.LG]目的:連続制御のためのスパイクニューラルネットワークの適用
- 脳の情報処理原理に近く,低消費電力な次世代AI実現への期待が高まる。
- スパイクニューラルネットワークは分類タスクでは進展あるも,連続制御への応用は限定的である。
- 多自由度ロボットアームの連続環境における制御において,スパイクニューラルネットワークの有効性を示す。
- 提案手法は,従来の非スパイク性再帰型ベースラインと同等のタスク性能を,より少ないパラメータで達成した。
- 学習の安定性と効果的な制御には,初期化,学習可能な時間定数,適応閾値,潜在空間圧縮が重要であることが示された。
- 本研究は,高次元連続制御におけるスパイクニューラルネットワークの実現可能性とスケーラビリティを確立した。
Evalet:出力を機能単位に分割することで大規模言語モデルを評価する [cs.AR, cs.HC, cs.AI, cs.CL]目的:大規模言語モデルの評価方法に関する検討
- 生成AIの品質管理において,LLMを用いた評価が普及しつつある。
- 既存の評価手法では,評価根拠が不明確な全体スコアしか得られない。
- 出力要素を機能単位で分析し,評価の透明性と精度向上を目指す。
- 提案手法Evaletは,出力を機能ごとに分割し,評価基準との関連性を可視化する。
- ユーザー実験の結果,従来の評価手法では見落とされていた評価のずれを48%多く特定できた。
- これにより,LLM評価への信頼性を高め,モデル出力の問題点をより具体的に発見できるようになる。
MAPGD:協調的プロンプト最適化のためのマルチエージェントプロンプト勾配降下法 [cs.AI]目的:大規模言語モデルの協調的プロンプト最適化
- 大規模言語モデルの性能はプロンプトに大きく依存するため,効果的なプロンプト最適化が重要である。
- 既存の最適化手法は単一の軌跡を辿るため,適応性や計算効率に課題がある。
- マルチエージェントによる協調的な最適化を通じて,プロンプト最適化の効率と安定性を高める。
- MAPGDは,プロンプト最適化を専門のエージェント間の協調プロセスとして捉える新しいフレームワークである。
- 分類および推論のベンチマークにおいて,MAPGDは単一エージェントやランダムなベースラインよりも高い精度と効率を示した。
- HCGCやCAAWといったメカニズムにより,頑健性と安定性が向上し,理論的な収束性も保証されている。
グラフTransformerにおけるグローバルからローカルへの注意機構:経験的研究 [cs.LG, cs.AI]目的:グラフ表現学習におけるグローバルからローカルへの注意機構の有効性検証
- グラフ構造データは現実世界の複雑な関係性を表現可能であり,多様な応用分野で重要性が増している。
- 従来のグラフTransformerは,グローバルな情報に着目するあまり,ローカルな近傍情報を十分に活用できていない可能性がある。
- 本研究は,グローバル情報を効率的に捉えつつ,ローカルな構造情報を効果的に学習する新しい注意機構を提案し,情報損失を軽減することを目指す。
- 提案手法G2LFormerは,浅い層でグローバルな情報を捉え,深い層でローカルな構造情報を学習することで,情報損失を抑制することに成功した。
- G2LFormerは,ノードレベルおよびグラフレベルのタスクにおいて,最先端の線形グラフTransformerやGNNと比較して,優れた性能を示した。
- G2LFormerは,線形時間複雑度を維持しつつ,高い性能を達成しており,スケーラビリティにおいても実用性があることが示された。
競争による創発的アライメント [cs.LG, cs.GT, econ.TH]目的:AIシステムと人間の価値観のアライメント
- AIの発展において,人間の価値観との整合性は不可欠であり,社会への実装を左右する。
- 完璧なアライメントモデルの構築が困難であり,アライメントの恩恵を享受できない可能性が課題である。
- 多様な誤ったアライメントを持つAI間の競争を通じて,アライメントに近い結果を得ることを目指す。
- 人間の効用がAIの効用の凸包内に位置する場合,戦略的競争が最適な結果に近づくことが示された。
- ベイズ最適行動の学習や,近似的な効用学習においても,高い効用が達成されることが理論的に証明された。
- AIの評価期間を経た選択においても,良好な均衡が保たれることが実験によって裏付けられた。
GeoResponder:時間的制約のある災害対応のための地理空間LLM構築に向けて [cs.DC, cs.HC, cs.CL, cs.AI]目的:時間的制約のある災害対応を支援する地理空間LLMの構築
- 災害対応は人命と財産を守る上で極めて重要であり,迅速な状況把握と意思決定が求められる。
- 既存のLLMは言語処理に優れるものの,道路網や地理座標といった空間情報を扱う能力が不足している。
- 災害対応に必要な空間情報をLLMに組み込み,空間的推論能力を向上させる。
- GeoResponderは,段階的な指示チューニングにより,LLMに堅牢な空間推論能力を付与するフレームワークである。
- 4つの都市と多様なタスクにおける評価により,既存のLLMや専門モデルを大幅に上回る性能が確認された。
- LLMが地理空間構造を学習・一般化する可能性を示唆し,災害対応への応用が期待される。
Decipher-MR:3D MRI表現のためのビジョン言語基盤モデル [cs.CV, cs.AI, cs.LG]目的:3D MRI表現に関するビジョン言語基盤モデルの開発
- 臨床診断や研究においてMRIは不可欠だが,複雑性や異質性により機械学習の汎用化が課題。
- 既存の基盤モデルはMRIデータ不足や限られた解剖学的領域に焦点を当てていた。
- 多様なMRIデータを用いて汎用的な表現を学習し,幅広い応用を可能にすること。
- Decipher-MRは22,000件以上のMRI研究から20万件のMRIシリーズを用いてトレーニングされた。
- 自己教師あり学習とレポートに基づくテキスト指導を統合することで,堅牢な表現を獲得した。
- 疾患分類,人口統計予測,解剖学的局在化,クロスモーダル検索において既存モデルを上回る性能を示した。
マルチヘッド注意の容量に基づく理論的根拠 [cs.LG]目的:自己注意のキー・クエリチャネルの容量
- Transformerモデルの性能向上に不可欠な注意機構の理解を深める。
- 注意機構の容量が,モデルの表現力にどのように影響するか不明である。
- マルチヘッド注意が,容量を増加させ,注意の干渉を減少させる原理を解明する。
- 固定された予算内で,自己注意メカニズムが信頼性高くエンコードできるトークン間の関係数を評価する手法を提案。
- グラフ構造を復元するタスクにおいて,キー次元$D_K$とグラフの関係数$m'$,埋め込み次元$d_{\text{model}}$の関係を示す理論的限界を証明。
- 実験結果は理論と一致しており,予測される容量で鋭い相転移が確認され,マルチヘッド注意の利点が持続的に示された。
LLMカスケードにおけるオンライン知識蒸留:遅延から学習へ [cs.AI, cs.CL]目的:LLMカスケードにおける効率改善と弱モデルの能力向上
- 大規模言語モデル(LLM)の利用コストが高いため,効率的な活用方法が重要視されている。
- 従来のLLMカスケードは静的であり,類似クエリへの応答で高コストなモデルを繰り返し利用する問題があった。
- 本研究は,LLMカスケードにおいて弱モデルが継続的に学習し,効率と精度を向上させることを目指す。
- Inter-Cascadeは,強モデルが解決したクエリから汎用的な問題解決戦略を生成し,動的なレポジトリに保存する。
- 弱モデルは,類似性マッチングによりこれらの戦略をコンテキストに追加し,パラメータ調整なしに学習する。
- 実験結果から,Inter-Cascadeは精度向上,強モデルの利用回数削減,コスト削減を実現することが示された。
拡散言語モデルの任意の順序・ステップ安全性アラインメント:A2D [cs.RO, cs.CL, cs.AI]目的:拡散言語モデルにおける安全性確保手法
- 大規模言語モデルの安全性は,社会実装において不可欠であり,悪意のある利用を防ぐ上で重要である。
- 拡散言語モデルは柔軟性が高い反面,攻撃を受けやすい構造であり,既存の安全性対策では不十分な場合がある。
- 本研究は,拡散言語モデルに対するあらゆる攻撃に対応可能な,トークンレベルでの安全性アラインメント手法を開発する。
- A2Dは,有害な内容が出現した場合に[EOS]拒否信号を発するように拡散言語モデルをアラインメントする。
- DIJAのようなテンプレート攻撃の成功率を80%以上からほぼ0%(LLaDA-8B-Instructで1.3%,Dream-v0-Instruct-7Bで0.0%)に大幅に削減した。
- [EOS]確率の閾値設定により,安全な応答の早期拒否が可能となり,最大19.3倍の高速化を実現した。
VioPTT:バイオリン奏法を考慮した合成データ拡張による自動楽譜作成 [cs.SD, cs.LG]目的:バイオリン奏法と音高・タイミング情報の自動楽譜作成
- 音楽情報処理分野では自動楽譜作成技術が発展しているが,楽器特有のニュアンス表現は課題である。
- バイオリン演奏における奏法は,音色に影響を与え,感情表現に不可欠だが,既存モデルでは無視されがちである。
- バイオリン奏法を考慮した自動楽譜作成モデルを開発し,演奏表現の理解を深めることを目指す。
- 本研究では,バイオリン奏法を直接的に認識する軽量なカスケードモデルVioPTTを提案した。
- 新たに合成データセットMOSA-VPTを公開し,手動アノテーションの必要性を回避した。
- 実世界のバイオリン演奏データに対する汎化性能が確認され,最先端の楽譜作成性能を達成した。
LLM時代におけるニューロモーフィック工学の役割:MAC 以上の可能性 [cs.NE]目的:大規模言語モデル時代の計算需要への対応と,新たな能力の導入
- AI開発は生物学的システムに由来するが,近年の進歩は必ずしも生物学的計算との明確な対応関係がない。
- 現代AIシステムが「自然知能」の恩恵を受けられるか疑問視されている。実世界への適応や特定用途への対応が課題。
- AIの能力拡大と,実環境での成功,ニッチな応用への適応を可能にする自然知能メカニズムの特定。
- AIと自然知能の差異分析から,自然知能からの更なる着想がAIの発展に貢献しうる可能性を示唆した。
- 生物学的・人工的計算システムの要素を比較検討し,AIで十分に活用されていない自然知能の領域を強調した。
- AIハードウェアおよびソフトウェアに自然知能のメカニズムを導入するための機会領域を提案した。
エントロピーを考慮した分散最適化拡散推論 (EVODiff) [cs.CV, cs.IT, cs.LG, math.IT, math.OC, stat.ML]目的:拡散モデルの推論効率改善
- 画像生成において高性能な拡散モデルは,計算コストが大きいという課題を抱えている。
- 拡散モデルの推論速度は遅く,学習時と推論時で性能に差が生じることがある。
- エントロピーの削減を通して,より効率的な推論を実現し,高品質な画像生成を目指す。
- 提案手法EVODiffは,最先端の勾配ベースソルバーと比較して,再構成誤差を大幅に低減する。
- CIFAR-10においては,再構成誤差を最大45.5%削減し,FIDを5.10から2.78に改善する。
- ImageNet-256では,高品質なサンプル生成に必要な関数評価回数を25%削減する。
時系列予測のための現実的なベンチマークfev-bench [cs.LG]目的:時系列予測におけるベンチマークの品質向上
- 時系列予測は,需要予測や異常検知など,様々な分野で重要な役割を担う。
- 既存のベンチマークは,ドメインの網羅性や実用的な設定が不足している場合がある。
- 実世界における予測性能をより正確に評価するためのベンチマークを開発する。
- fev-benchは,7つのドメインにわたる100の予測タスクを含むベンチマークである。
- このベンチマークは,共変量を含む46のタスクをサポートし,再現性と既存のワークフローとの統合を重視している。
- ブートストラップ法を用いた統計的に厳密な集約により,win rateとskill scoreを報告している。
拡散大規模言語モデルにおける損失のない並列デコーディング:自由ドラフトと検証へ [cs.LG, cs.AI]目的:拡散大規模言語モデルのための損失のない並列デコーディング手法
- 近年,拡散大規模言語モデルが新たな言語モデリングパラダイムとして注目されており,その効率的な推論が求められている。
- 従来の並列デコーディングアルゴリズムは,推論速度向上と引き換えに性能劣化を引き起こすという課題があった。
- 本研究は,モデル修正や追加モジュールなしに,損失のない並列デコーディングを実現することを目指す。
- 提案手法FreeDaveは,並列候補生成と検証のアルゴリズムにより,従来の逐次デコーディングと同等の性能を維持しながら推論を高速化する。
- 数学的推論とコード生成のベンチマークにおいて,FreeDaveは最長で2.83倍の推論速度向上を達成した。
- FreeDaveは,モデルのフォワードパス回数を最小限に抑え,高性能かつ効率的なデコーディングを実現する。
都市グラフ:都市微気候予測のための物理情報に基づいた時空間動的異種グラフ [cs.LG, cs.AI, cs.CE]目的:都市微気候予測のための新たなフレームワーク
- 都市化の急速な進行により,建築物のエネルギー需要や公衆衛生に影響を与える都市微気候の予測が重要である。
- 既存の生成モデルや同質グラフは,物理的な整合性,空間依存性,時間的変動を捉えることが不十分である。
- 物理法則に基づいたグラフ構造により,物理的な整合性とデータ効率性を向上させることで,微気候予測の精度を高める。
- UrbanGraphは,既存の全てのベースラインと比較して,最先端の性能を達成した。
- 明示的な因果的プルーニングにより,モデルの浮動小数点演算回数(FLOPs)を73.8%削減し,学習速度を21%向上させた。
- 時空間微気候モデリングのための初の高解像度ベンチマークと,既知の物理方程式によって支配される都市時空間力学に適用可能な汎用的な明示的トポロジカルエンコーディングパラダイムを開発した。
メカニズム解釈可能性を統計的推定として:分散分析 [cs.LG, cs.AI, cs.CL]目的:モデルの振る舞いを逆設計するための機能的サブネットワークの特定
- 深層学習モデルの内部動作を理解することは,安全性や信頼性向上に不可欠である。
- 回路発見の安定性や再現性が低く,科学的妥当性に疑問が残る。
- 回路発見における分散の根本原因を特定し,より堅牢な手法を確立すること。
- 因果的媒介分析(CMA)のスコアが本質的に高い分散を持つことを明らかにした。
- 回路発見パイプラインはこの分散を継承し,さらに増幅することが示された。
- 入力データやハイパーパラメータのわずかな変化で回路構造が大きく変動することが確認された。
AIモデルは,異なる様相で人間のような抽象的推論を行うか? [cs.CL, cs.AI, cs.CL]目的:AIモデルの抽象的推論能力の評価
- AIの能力向上は,様々な分野で問題解決や意思決定を支援し,社会に貢献することが期待される。
- 既存のAIモデルの評価は出力の正確性のみに頼ることが多く,内在する推論プロセスが不明確である。
- AIモデルが抽象的な概念を理解し,人間のように推論できるかをより詳細に検証すること。
- 最新のAIモデルは,ARC-AGI-1ベンチマークにおいて人間の精度を上回ったが,ConceptARCベンチマークを用いた評価では,その抽象的推論能力に限界が見られた。
- 特にテキストデータにおいては,表面的な「近道」に基づいたルールを生成し,意図された抽象概念を捉えきれていない場合が多いことが示された。
- 一方,視覚データにおいては,出力精度は低下するものの,ルールレベルの分析では意図された抽象概念を捉える割合が高いことが明らかになった。
データセット蒸留における自動内ループ最適化:ランダム性を超えて [cs.CV, cs.LG]目的:データセット蒸留における内ループ最適化手法
- 深層学習の効率化が求められる中で,データセット圧縮技術であるデータセット蒸留が重要性を増している。
- 既存の内ループ最適化はランダムな切り捨て戦略に依存し,柔軟性に欠け,最適とは言えない結果に陥ることがある。
- 学習段階に応じた動的な切り捨て位置とウィンドウサイズの調整により,最適化の効率と精度を向上させる。
- 提案手法AT-BPTTは,CIFAR-10,CIFAR-100,Tiny-ImageNet,ImageNet-1Kにおいて最先端の性能を達成した。
- 既存手法と比較して,平均で6.16%の精度向上を実現した。
- 内ループ最適化の速度を3.9倍に向上させ,メモリコストを63%削減した。
べき乗変換の再検討:数値的安定性と連合学習への応用 [cs.LG, cs.NA, math.NA]目的:べき乗変換の数値的安定性と,連合学習における適用可能性
- 統計解析や機械学習において,データ分布を正規分布に近づける処理は重要である。
- 既存のべき乗変換実装は,数値的不安定性を抱え,誤った結果やプログラムの停止を引き起こす可能性がある。
- 本研究では,数値的不安定性の原因を分析し,その解決策を提案することで,安定したべき乗変換を可能にする。
- 本研究で提案する手法は,既存の手法と比較して数値的安定性を大幅に向上させる。
- 実データを用いた実験により,提案手法の有効性と堅牢性が確認された。
- さらに,提案手法は連合学習環境においても適用可能であり,分布の偏りといった課題にも対応できる。
BLISS:言語モデル事前学習のための軽量な二段階影響スコアリング法 [cs.HC, cs.LG]目的:言語モデル事前学習におけるデータ選択のための効率化と汎化性能向上
- 大規模言語モデルの性能は,学習データの質に大きく依存する。効率的なデータ選択が重要となる。
- 既存手法は外部モデルに依存し,データ選択の効果と外部モデルの効果の分離が困難である。
- BLISSは外部モデルに依存せず,学習データの長期的な影響を考慮したデータ選択を実現する。
- BLISSは,大規模言語モデルの代替として小規模なプロキシモデルを使用する二段階最適化問題を構築する。
- 実験の結果,BLISSは最先端手法と比較して1.7倍の学習速度で同等の性能を達成した。
- PythiaやLLaMAモデルの事前学習において,C4データセットのサブセット選択による効果が確認された。
過剰学習済み言語モデルの再利用はスケーリングの飽和をもたらす [cs.CL, cs.LG]目的:言語モデルの再利用におけるスケーリング特性の解明
- 大規模言語モデルの学習コストが高い現状を改善する必要がある
- 過剰学習済みモデルの再利用効果が明確でなかった
- 多段階事前学習戦略におけるトレードオフを明らかにすること
- 事前学習に使用したトークン数が増加するにつれて,スケーリング効率が対数的に低下することが示された
- 第一段階と第二段階のトークン数に依存するスケーリング則が単純な法則で正確にモデル化された
- ベースモデルの事前学習がより多く行われるほど,追加の事前学習によるメリットが減少するという根本的なトレードオフが明らかになった
不確実性に基づいたゲーティングによるガウス混合モデル:時系列予測への応用 [cs.LG, cs.AI]目的:時系列予測における予測精度向上
- 時系列データは,金融,気象,エネルギーなど,多くの分野で不可欠である。
- 時系列予測は,ボラティリティが高く,ノイズパターンが多様であるため困難を伴う。
- 予測精度と信頼性の高い不確実性評価の両立を目指す。
- MoGUは,従来のMoEと比較して,複数のベンチマークにおいて予測精度を向上させる。
- MoGUは,予測分布の分散を利用することで,専門家の貢献度を動的に重み付けする。
- コンフォーマル予測の評価により,MoGUが既存手法よりも効率的な予測区間を生成することが示された。
スタイル横断的なヘイトスピーチ検出のための因果性に基づく表現学習 [cs.CL, cs.AI, cs.LG]目的:クロススタイルヘイトスピーチ検出における表現学習の改善
- オンライン上でのヘイトスピーチ増加は,Webコミュニティの健全性を脅かす重大な問題である。
- 既存モデルは表面的な言語的特徴に依存し,多様なスタイルへの汎化が困難である。
- スタイルを考慮した因果関係に基づく表現学習により,汎化性能の向上を目指す。
- 提案手法CADETは,ヘイトスピーチを解釈可能な潜在因子に分解し,交絡因子を制御することで,表面的な特徴に依存しない真のヘイト意図を捉える。
- 潜在空間内でのスタイル介入による反実仮想推論が可能となり,多様な形式のヘイトスピーチに対してロバストな識別を実現する。
- 実験結果から,CADETが既存手法を上回り,因果的事前知識がヘイトスピーチ検出の汎化性能向上に貢献することが示された。
GeoGen:位置情報ベースソーシャルネットワーク軌跡生成のための二段階粗々から微細フレームワーク [cs.LG]目的:位置情報ベースソーシャルネットワーク軌跡の合成生成
- 位置情報ベースソーシャルネットワークは,POI推薦,広告,感染症対策など,多岐にわたる応用分野で重要な役割を担う。
- 大規模な位置情報データ収集のコストが高く,プライバシー保護の観点からもデータ入手が困難である。
- 生成AIを用いて,現実の特性を維持しつつプライバシーを保護した合成データ生成を目指す。
- GeoGenは,位置情報ベースソーシャルネットワーク軌跡の空間的な不連続性,時間的な不規則性に対処するため,二段階の粗々から微細なフレームワークを提案する。
- 第一段階では,疎な活動や不確実な移動性による複雑な時空間パターンを考慮し,空間的に連続的で時間的に規則的な潜在的な移動シーケンスを再構築する。
- 実験結果から,GeoGenはFS-TKYデータセットにおいて,距離と半径の指標でそれぞれ69%,55%以上の改善が見られ,既存モデルを上回る性能を示す。
深層ニューラルネットワークに対する厳密なロバスト性証明とWasserstein分布攻撃 [cs.CL, cs.LG, math.OC, stat.ML]目的:深層ニューラルネットワークのロバスト性評価と攻撃手法
- 深層学習モデルの安全性確保は,実社会への応用において不可欠である。
- 既存のロバスト性評価手法は,証明の精度が低いか,計算コストが高いという課題がある。
- Wasserstein距離に基づくロバスト性証明の精度向上と,より強力な攻撃手法の開発。
- 本研究では,ReLUネットワークとTransformerを含む様々なアーキテクチャに対し,既存手法よりもタイトなロバスト性証明を可能にする手法を提案した。
- 提案手法は,点ごとの摂動に限定されないWasserstein分布攻撃(WDA, WDA++)を導入し,攻撃点の数と位置の自由度を高めた。
- 実験結果から,提案手法は最先端のベースラインと比較して競争力のあるロバスト精度を達成し,より厳密な証明を提供することが示された。
指定された木編集距離を持つ木を列挙するためのReLU生成ネットワークの設計 [cs.LG, cs.DM]目的:指定された木編集距離を持つ木の生成
- 木構造データは,生物情報学,構造化データ解析,画像処理など,多様な分野で重要な役割を担う。
- 特定の木編集距離を持つ木を生成するための生成ネットワークの適切なサイズや深さが不明である。
- 特定の木編集距離内で木を生成可能なReLUベース生成ネットワークの存在と構築を示す。
- 理論的に,サイズO(n^3)かつ定数深さのReLU生成ネットワークを用いることで,指定された木からの木編集距離がd以下のすべての木を生成できることが示された。
- 実装と評価の結果,提案手法は最大21ノードの木に対して,指定された木編集距離内の有効な木を全て生成することに成功した。
- GraphRNNやGraphGDPなどの既存のグラフ生成モデルと比較して,提案手法は有意に高い検証率を示した (それぞれ35%と48%に対して100%)。
video-SALMONN S:メモリ増強型ストリーミングオーディオビジュアルLLM [cs.CV, cs.AI]目的:長時間ストリーミング動画理解のための大規模言語モデル
- AIエージェントの発展には,長時間の動画を理解する能力が不可欠である。
- 従来のモデルでは,長期間の記憶が不十分であり,長時間動画の理解が制限されている。
- 本研究では,ストリーミング動画における長期記憶メカニズムの改善を目指す。
- video-SALMONN Sは,3時間以上の動画を処理し,既存の非ストリーミングモデルを上回る性能を示す。
- テスト時学習(TTT)を導入することで,ストリーミング環境下での動画理解におけるメモリ機構を強化。
- ELViMベンチマークにおいて,強力な非ストリーミングモデルに対し,15%の精度向上を達成し,動画記憶からの学習能力を実証。
DynaSpec:大規模語彙言語モデルのための文脈を意識した動的推測サンプリング [cs.CL, cs.CL, cs.AI, cs.LG]目的:大規模語彙言語モデルにおける推測デコーディングの効率化
- 言語モデルの規模拡大に伴い,推論速度の向上が不可欠となっている。
- 語彙規模が大きくなると,推測段階での出力層の計算コストがボトルネックとなる。
- 文脈に応じて動的に語彙を絞り込むことで,推測の効率と精度を両立する。
- DynaSpecは,軽量なメタ分類器を用いて文脈ごとにトークンクラスタを選択し,推測に使用する語彙リストを動的に決定する。
- この手法により,Llama-3-8Bにおいて,固定リストベースラインと比較して98.4%の性能回復率を達成し,スループットを最大2.23倍に向上させた。
- DynaSpecは,稀少トークンを含むデータセットにおいて特に有効であり,静的な手法よりも高い性能を示す。
ノイズ適応層別学習率:深層ニューラルネットワーク学習のための幾何学に基づいた最適化の高速化 [cs.LG]目的:深層ニューラルネットワーク学習の高速化
- 深層学習は,画像認識や自然言語処理など様々な分野で重要な役割を果たしている。
- 従来の最適化手法では,層ごとに異なる学習率を適切に設定することが困難であった。
- 層ごとのノイズ適応学習率により,幾何学に基づいた最適化の効率を向上させる。
- 本研究では,幾何学に基づいた最適化アルゴリズムにノイズ適応層別学習率を導入し,深層ニューラルネットワークの学習を大幅に高速化した。
- 勾配分散をオンラインで推定し,それに基づいて各層に時間変化する学習率を割り当てることで,学習の収束を加速した。
- LLaMAやGPTなどのTransformerアーキテクチャにおいて,最先端の最適化手法よりも高速な収束が確認された。
