arXiv雑要約
AI - 2026/03/06 公開
意思決定におけるオンライン言語接地と発見のためのシグナル契約 [cs.AI, cs.CL, cs.SY, eess.SY]目的:意思決定におけるオンライン言語接地と発見のためのシグナル契約の提案
- 自律システムの性能向上のためには,人間からの自然言語による指示が不可欠である。
- 従来の言語理解は意思決定プロセスに組み込まれており,変更や知識の更新が困難である。
- 言語更新を局所化し,言語に依存しない意思決定を可能にする新しい枠組みを開発する。
- LUCIFERは,言語理解と文脈情報を統合し,効率的な情報収集を可能にする。
- コンポーネントベンチマークでは,自己修正型レポートにおいて推論に基づく抽出が安定していることが示された。
- システムレベルのアブレーション実験により,言語接地と発見の組み合わせが安全性と効率性の両方を向上させることが確認された。
HSG-12M:非エルミート結晶のエネルギースペクトルに由来する空間マルチグラフの大規模ベンチマーク [cs.LG, cond-mat.mes-hall, cond-mat.other, cs.AI, cs.CV]目的:非エルミート量子物理学におけるハミルトニアンスペクトルグラフのデータセット構築と,それを用いたグラフニューラルネットワークのベンチマーク
- AIによる科学研究の変革が期待される中,高品質なドメイン特化型データセットの不足が課題となっている。
- 非エルミート量子物理学のハミルトニアンスペクトルグラフは重要な情報を持つものの,手動抽出に依存し,体系的な研究が困難であった。
- 本研究は,自動化されたパイプラインを用いて大規模なハミルトニアンスペクトルグラフデータセットを構築し,空間マルチグラフ学習の新たな可能性を拓く。
- Poly2Graphパイプラインにより,177TBのデータから1160万個の静的および510万個の動的ハミルトニアンスペクトルグラフを含むHSG-12Mデータセットを構築した。
- HSG-12Mは,空間に埋め込まれた複数経路を保持する空間マルチグラフの初の本格的な大規模データセットである。
- 既存のGNNを用いたベンチマークにより,空間マルチエッジ学習における新たな課題が明らかになった。スペクトルグラフは多項式,ベクトル,行列の普遍的なトポロジカルフィンガープリントとして機能する。
SPEED-RL:オンラインカリキュラム学習による推論モデルの高速学習 [cs.LG]目的:推論能力向上のための強化学習による大規模言語モデルの学習効率改善
- 大規模言語モデルの推論能力は重要であり,様々な応用においてその性能が求められている。
- 強化学習を用いた学習は計算コストが高く,効率的な学習方法が課題となっていた。
- 難易度を考慮したサンプル選択により,学習効率を向上させ,計算コストを削減することを目指す。
- 提案手法SPEEDは,中間難易度のプロンプトを選択的に利用することで学習効率を最大化する。
- 理論的に,中間難易度のプロンプトが勾配推定量の信号対雑音比を向上させ,収束を加速することが示された。
- 実験的に,SPEEDは精度を損なうことなく,2倍から6倍の高速化を実現し,手動調整も不要であった。
InterActHuman:レイアウトに沿った音声条件によるマルチコンセプトの人体アニメーション [cs.CV, cs.AI, cs.SD]目的:マルチコンセプト人体アニメーションの実現
- 人間と物体のインタラクションを理解することは,より自然な映像生成に不可欠である。
- 既存手法は単一の対象にしか対応できず,複数のコンセプトを扱えない点が課題である。
- 複数のコンセプトと個々のアイデンティティを正確に制御し,インタラクションを再現することを目指す。
- 提案手法は,マスク予測器を用いて参照画像と生成映像の外観を一致させ,レイアウト情報を推論する。
- 各アイデンティティの空間的・時間的範囲に条件を強く結び付けることで,高品質な対話映像を生成する。
- 実験結果から,明示的なレイアウト制御が暗黙的な手法や既存手法よりも有効であることが示された。
グラフ生成のためのBures-Wassersteinフローマッチング [cs.LG, cs.AI, stat.ML]目的:グラフ生成における確率経路の構築フレームワーク
- 創薬や回路設計など,様々な分野でグラフ生成が重要な課題となっている。
- 既存手法では,ノードとエッジを独立に扱い,線形補間を用いるため経路が不規則になりやすい。
- グラフ構造の相互接続性を考慮した確率経路を構築し,学習とサンプリングを改善することを目指す。
- 本研究では,マルコフ確率場を用いてグラフを表現し,ノードとエッジの同時進化をモデル化した。
- 最適な輸送距離を利用して,グラフコンポーネントの協調的な進化を保証する滑らかな確率経路を設計した。
- 提案手法BWFlowは,グラフ生成において競争力のある性能を示し,学習収束とサンプリング効率を向上させた。
バンディットの悔やみからFDR制御へ:敵対的フィードバックを用いたオンライン選択的生成の解禁 [cs.LG]目的:敵対的フィードバックを用いた選択的生成のためのオンライン学習フレームワーク
- 対話型生成システムの実用化が進む中で,信頼性や正確性が重要な課題となっている。
- 部分的なユーザーフィードバックや非定常/敵対的な環境下での効果的な学習法が不足している。
- 部分的なフィードバックのみでFDRを制御しつつ,選択的生成の性能を向上させる。
- 提案手法ExSULは,バンディットアルゴリズムの悔やみをFDR boundに変換する変換補題を導入した。
- 選択的生成の構造を利用し,部分的なフィードバックから追加の学習信号を抽出する「フィードバック解禁」戦略を開発した。
- ExSULは,完全情報設定と同等の効率とFDR制御能力を,部分的なフィードバックのみで実現することを示した。
構造化コルモゴロフ・アーノルドニューラルODE:解釈可能な学習と非線形動力学の記号的発見 [cs.LG, cs.AI, cs.SC, nlin.CD, physics.data-an]目的:非線形動力系の学習と記号的な表現の抽出
- 科学技術における非線形動力系の理解とモデル化は不可欠である。
- 深層学習は強力だが,精度と物理的な解釈性の両立が課題である。
- 物理量の抽出と,システムの支配方程式の解釈可能な表現を得る。
- SKANODEは,加速度計測から物理的に意味のある潜在的な変位と速度軌跡を確実に復元した。
- ダフィング振動子の三次剛性やファンデルポール振動子の非線形減衰構造といった正しい非線形性を特定した。
- F-16の界面動力学におけるヒステリシス特性を,構造化された潜在的位相ポートレートと解釈可能な記号モデルを通じて明らかにした。
物理システムの学習:ディラック構造におけるゲージ固定によるシンプレクティフィケーション [cs.RO, cs.LG]目的:シンプレクティフィケーションリフトの学習
- 物理現象のシミュレーションは,ロボティクスや力学など広範な分野で不可欠である。
- 散逸系や束縛条件を持つシステムでは,シンプレクティック形式が縮退し,安定性や長期予測が困難となる。
- ディラック構造を用いてシンプレクティフィケーションを行い,高次元多様体への埋め込みを通じて安定性を確保することを目指す。
- 提案手法Presymplectification Networks (PSNs) は,制約付きシステムのシンプレクティフィケーションリフトを学習する初のフレームワークである。
- PSNsは,リカレントエンコーダーとフローマッチング目的関数を組み合わせ,拡張相空間ダイナミクスをエンドツーエンドで学習する。
- ANYmal四脚ロボットの実験により,制約付き散逸系のシンプレクティック学習のギャップを埋める有効性を示す。
強化学習におけるパラメータストレス分析:方策ネットワークへのシナプスフィルタリングの適用 [cs.LG, cs.SY, eess.SY]目的:強化学習の方策の頑健性評価
- 強化学習は,複雑な環境下での自律的な意思決定を可能にするため,その応用範囲は広い。
- 現在の強化学習は,敵対的攻撃や環境ノイズに対して脆弱であるという課題がある。
- パラメータの脆弱性分析を通じて,頑健かつ耐性のある強化学習システム構築を目指す。
- シナプスフィルタリングによるパラメータ撹乱と敵対的攻撃という二つのストレス下で,パラメータを「脆弱」「頑健」「耐性」の3つに分類するフレームワークを提案した。
- 一部のパラメータはストレス下で性能が向上する「耐性」を示すことが示され,フィルタリング技術による適応性向上の可能性が示唆された。
- この研究は,頑健な強化学習システムの設計に向けた新たな知見を提供する。
強化学習によるファインチューニングが,MLLMの事前知識の保持をより良くする理由:データに関する考察 [cs.CL, cs.AI]目的:MLLMにおける事前知識の保持に関するSFTとRFTの挙動の比較と,そのメカニズムの解明
- 大規模言語モデルは多様なタスクに応用可能だが,その適応過程で事前知識が失われる可能性が懸念される。
- SFTやRFTといったファインチューニング手法はタスク適応に有効だが,事前知識への影響は明確ではなかった。
- RFTが事前知識を保持しやすいメカニズムを解明し,SFTでも事前知識を保持しながら学習可能な方法を模索する。
- SFTは迅速なタスク獲得を可能にするが,破滅的忘却を引き起こしやすいことが明らかになった。
- RFTは学習速度は遅いが,事前知識の保持に優れていることが示された。これは,RFTが事前モデルの確率分布に自然に整合したサンプルを強化するためと考えられる。
- RFTシミュレーションによるロールアウトで学習することで,SFTでも事前知識を保持しつつ,新たなタスクを迅速に学習できることが確認された。
MuRating:多言語大規模言語モデルの事前学習における高品質データ選択アプローチ [cs.RO, cs.CL, cs.AI, cs.LG]目的:多言語大規模言語モデルの事前学習のための高品質データ選択
- 言語モデルの性能向上にはデータ品質が不可欠であり,その重要性はますます高まっている。
- 既存のデータ選択手法は主に英語に焦点を当てており,多言語対応が課題となっていた。
- MuRatingは,英語の高品質データ信号を多言語に転移させ,データ選択の精度向上を目指す。
- MuRatingは,17言語のデータ品質評価に単一の評価者を用いるスケーラブルなフレームワークである。
- ウェブデータを用いた事前学習実験において,既存手法と比較して英語および多言語評価の両方で高い精度を達成した。
- 特に知識集約型タスクにおいて顕著な性能向上を示し,翻訳の忠実度や選択バイアスに関する分析も行った。
追跡可能な証拠に基づいた視覚的根拠推論:評価と方法論 [cs.CL, cs.CV, cs.AI, cs.CL]目的:視覚的根拠推論能力の包括的な評価と,それを向上させるための訓練パラダイム
- 画像認識と自然言語処理の融合により,より高度なAIシステムの開発が期待される。
- 既存の評価指標では,視覚的根拠に基づいた推論能力を十分に評価できていない。
- 視覚的根拠の追跡可能性を高めることで,推論の精度と説明可能性を向上させる。
- TreeBenchは,複雑なシーンにおける微細な対象物の認識,バウンディングボックス評価による証拠の追跡,そしてオブジェクト間の相互作用を問う第二階層の推論を特徴とする。
- TreeBenchを用いた評価の結果,最先端モデルであっても60%の正答率に達せず,視覚的根拠推論の困難性が示された。
- TreeVGRは,Qwen2.5-VL-7Bを基盤とし,強化学習による共同学習により,V* Bench,MME-RealWorld,TreeBenchにおいて性能向上を達成した。
オーバートーン:クリーンで効率的,かつ柔軟な物理シミュレータのための巡回パッチ変調 [cs.LG, cs.AI, eess.IV]目的:偏微分方程式の代理モデルにおける精度と計算効率の改善
- 物理現象のシミュレーションは科学技術の発展に不可欠であり,高精度かつ高速な手法が求められている。
- 従来のTransformerベースの代理モデルでは,固定パッチサイズが調和周波数での系統誤差を引き起こし,計算コストが固定化されている。
- 巡回パッチ変調により系統誤差を軽減し,計算資源に応じて精度と速度を動的に調整することを可能にする。
- オーバートーンは,動的なパッチサイズ制御により,従来の固定パッチモデルと比較して最大40%低い長期ロールアウト誤差を達成した。
- 2Dおよび3D偏微分方程式ベンチマークにおいて,固定された学習予算で訓練されたオーバートーンモデルは,様々な計算予算で固定パッチベースラインと同等以上の性能を示した。
- 動的ストライド変調(CSM)と動的カーネルサイズ変更(CKM)というアーキテクチャに依存しないモジュールにより,調和周波数での誤差軽減と計算適応型デプロイメントを実現している。
ReLUニューラルネットワークにおけるKorobov関数のいくつかの超近似レート [cs.LG]目的:ReLUニューラルネットワークのKorobov関数に対する近似誤差
- 機械学習におけるニューラルネットワークの表現能力の理論的理解が重要である。
- 高次元における関数の近似には次元の呪いの問題が存在する。
- ニューラルネットワークの表現能力が次元の呪いにどの程度影響されるかを解明する。
- ReLUニューラルネットワークによるKorobov関数の$L_p$ノルム近似誤差の上界が$2m$次で示された。
- 同様に,$W^1_p$ノルム近似誤差の上界は$2m-2$次であり,ほぼ最適である。
- ニューラルネットワークの表現能力は,次元の呪いによる影響を受けにくいことが示された。
平均場ゲームにおけるカーネルに基づく最大エントロピー逆強化学習 [cs.LG, math.OC]目的:無限地平線定常平均場ゲームにおける未知の報酬関数の推定
- 経済学や社会科学において,多数のエージェントの相互作用を記述する平均場ゲームは重要なツールである。
- 既存手法では,報酬関数を線形結合に限定したり,有限地平線に限定されることが多く,表現力に限界がある。
- カーネル法を用いることで,非線形な報酬構造を推定し,より複雑な行動を模倣することを可能とする。
- カーネルに基づく手法は,従来の線形報酬ベースラインと比較して,ポリシー回復誤差を1桁以上削減することが示された。
- ラグランジュ緩和を利用することで,問題を制約なしの対数尤度最大化として定式化し,勾配上昇アルゴリズムで解くことが可能となった。
- 有限地平線非定常設定への拡張も行われ,凸双対を用いた別の勾配降下アルゴリズムが開発された。
任意のノイズに基づく拡散モデルのデザイン空間の解明 [cs.CV, cs.LG]目的:任意のノイズ拡散モデルのデザイン空間の解明
- 拡散モデルは画像生成において重要な役割を担うが,その設計空間の理解は不十分である。
- 既存のEDMはガウスノイズに依存しており,多様なノイズパターンに対応できないという課題がある。
- 本研究は,任意のノイズパターンを統一的に扱うための理論的枠組みを構築し,復元距離の最小化を目指す。
- 本研究で提案するEDAは,ノイズパターンの柔軟性を拡張しつつ,EDMのモジュール性を維持している。
- 理論的に,ノイズの複雑度が増加しても,復元時の計算オーバーヘッドは発生しないことが証明された。
- MRI,CT,自然画像の復元タスクにおいて,EDAは専門的な手法と同等以上の性能を示し,高い汎化能力を持つことが確認された。
TIC-GRPO:人間からのフィードバックを用いた強化学習のための証明可能かつ効率的な最適化 [cs.LG]目的:人間からのフィードバックを用いた強化学習における最適化手法
- 大規模言語モデルの性能向上は,AI研究の主要な課題であり,そのための効率的な学習方法が求められている。
- 従来の強化学習アルゴリズムは,価値関数の推定に依存しており,計算コストが高く,学習が不安定になる場合がある。
- 本研究は,価値関数を用いずに,より効率的かつ安定した学習を可能にする手法を開発し,性能向上を目指す。
- GRPOの更新規則は,現在のポリシーではなく,古いポリシーにおける方策勾配を推定することが理論的に示された。
- 提案手法であるTIC-GRPOは,トークンレベルの重要度比率を単一の軌道レベルの確率比率に置き換えることで,現在のポリシー勾配を推定し,収束がGRPOよりも速い。
- 数学推論とコーディングのタスクにおいて,TIC-GRPOは従来のGRPOよりも優れた性能を発揮することが実証された。
新生児けいれん検出における自動化システムの評価と専門家同等性テストの信頼性向上 [cs.LG]目的:新生児けいれん検出のための機械学習モデル評価の信頼性向上
- 新生児のけいれん検出は,早期診断と治療に不可欠であり,臨床応用には高い精度が求められる。
- 既存の評価指標は一貫性や客観性に欠け,モデルの比較や解釈を困難にしている。
- 新生児けいれん検出に特化した,信頼性の高い評価方法と指標の確立を目指す。
- マシューズ相関係数とピアソンの相関係数が,クラス不均衡下においてAUCよりも性能評価に適していることが示された。
- 合意形成方法は,評価者の数と評価者間の合意レベルに影響を受けることが明らかになった。
- 専門家レベルの同等性テストでは,Fleiss kを用いた多評価者チューリングテストがAIの性能を最も的確に捉えることが示された。
言語モデルにおける新興ミスマッチに対する訓練中の防御策 [cs.LG, cs.AI]目的:言語モデルにおける新興ミスマッチの抑制
- 言語モデルの活用が拡大する中で,安全性と信頼性の確保が重要課題となっている。
- ファインチューニングによるドメイン適応時に,意図しない有害な挙動が発生しうる。
- API経由でのファインチューニングにおける,広範なミスマッチを防ぐ手法を確立すること。
- 訓練中の正則化介入として,KLダイバージェンス,特徴空間距離,悪意のあるペルソナベクトル,データインターリーブを評価した。
- データインターリーブにおいて,整合性と非整合モデル間のperplexity差によるデータ選択が最も効果的であった。
- 提示手法は,広範なミスマッチの防止,狭いミスマッチの許容,良質な学習,一貫性の維持に貢献しうる。
Vevo2:音声と歌声生成のための統一的かつ制御可能なフレームワーク [cs.SD, cs.AI, cs.CL]目的:音声および歌声の制御可能な生成
- 音声技術は,人間と機械のコミュニケーションにおいて不可欠であり,その進化は様々な応用を可能にする。
- 歌声生成においては,表現豊かな歌唱を実現するためのデータ不足と制御の困難さが課題である。
- Vevo2は,歌声生成におけるデータ制約と制御性を克服し,より自然で表現力豊かな生成を目指す。
- Vevo2は,音声と歌声を統一的に扱えるフレームワークであり,相互に利点をもたらすことが示された。
- 音楽記号に依存しないプロソディトークナイザと,内容・スタイルを統合的にエンコードするトークナイザを導入し,柔軟な制御を可能にした。
- テキスト,プロソディ,スタイル,音色に対する制御に加え,明示的・暗黙的なプロソディ学習戦略により,音声と歌声の連携を強化した。
LHM-ヒューマノイド:多様で散らかった環境における長期的ヒューマノイド全身運動操作のための統一されたポリシー学習 [cs.RO, cs.AI]目的:多様な散らかった環境における長期的ヒューマノイド全身運動操作のための統一されたポリシー
- ロボットの自律的な動作は,人間社会での利用拡大に不可欠であり,その実現には複雑な環境での適応能力が求められる。
- 従来のロボット制御は,特定の環境やタスクに依存する場合が多く,汎用性と環境変化への対応に課題があった。
- 本研究は,様々な環境で,物体操作と移動を同時に行える汎用的なヒューマノイドロボットの制御を目指す。
- LHM-Humanoidは,多様な部屋の環境と物体配置を持つ大規模なデータセットを構築し,汎化性能の評価を可能にした。
- 強化学習とDAggerによる教師あり学習を組み合わせることで,既存手法よりも優れた長期的ロバスト性と汎化性能を実現した。
- 視覚情報と自然言語による制御モデルを構築し,より直感的で柔軟なロボット操作への道を開いた。
量子化が大規模言語モデルのバイアスに与える影響 [cs.CL, cs.LG]目的:大規模言語モデルにおける量子化の影響評価
- 言語モデルの高性能化に伴い,計算コストの削減が重要課題となっている。
- 量子化は計算コスト削減に有効だが,モデルの性能や公平性への影響が懸念される。
- 量子化がモデルのバイアスに与える影響を定量的に評価し,対策を検討する。
- 量子化は,モデルの毒性軽減に寄与する一方,感情分析への影響は限定的である。
- 生成タスクにおいては,量子化によってステレオタイプや不公平性がわずかに増加する傾向が見られた。
- 量子化の圧縮率が高いほど,バイアスの増幅が顕著になることが示唆された。
インテリジェント交通システムにおけるマルチエージェント強化学習:包括的サーベイ [cs.LG]目的:インテリジェント交通システムにおけるマルチエージェント強化学習の応用
- 都市の交通網は複雑化の一途を辿っており,効率的で持続可能な交通システムの構築が重要である。
- 交通システムにおける複数の主体間の協調は困難であり,最適化が課題となっている。
- マルチエージェント強化学習を用いて,交通システムの効率性と個々の主体の目的のバランスを取る。
- 本研究は,マルチエージェント強化学習のアプローチを協調モデルと学習アルゴリズムで分類した。
- 交通信号制御,自動運転車の協調,物流最適化など,主要なITS分野における応用事例を網羅的にレビューした。
- スケーラビリティ,非定常性,報酬の帰属問題など,実用化を阻む課題を特定した。
ASR知識転移における音響と言語表現の最適アラインメントに関する新たな知見 [cs.RO, cs.CL, cs.LG]目的:自動音声認識における知識転移のための音響表現と言語表現のアラインメント最適化
- 音声認識の性能向上には,事前学習済みのモデルを有効活用することが重要である。
- 音響データと言語データの対応付けは複雑であり,非対称性やノイズの影響を受けやすい。
- 音響と言語の対応関係を検出問題として捉え,知識転移の精度向上を目指す。
- 提案手法は,不均衡最適輸送に基づくアラインメントモデルであり,音響と言語の分布の不一致や構造的な非対称性を明示的に扱う。
- これにより,全ての言語トークンが少なくとも一つの音響観測に結び付けられ,柔軟な確率的マッピングが可能となる。
- 実験結果から,提案手法はマッチングの度合いを柔軟に制御し,音声認識性能を向上させる効果が示された。
コードスイッチングベトナム語・英語音声認識のための二段階音素中心アーキテクチャ:TSPC [cs.SD, cs.AI, cs.CL, eess.AS]目的:ベトナム語・英語コードスイッチング音声認識のための新たなアーキテクチャ
- 音声認識技術は,多様な言語環境でのコミュニケーションを円滑にする上で重要である。
- コードスイッチング音声認識は,言語間の微妙な音韻変化を捉えるのが難しく,既存手法では性能が十分でない。
- ベトナム語と英語間のコードスイッチング音声認識における音響モデルの改善を目指す。
- 提案手法TSPCは,既存のベースラインモデル(PhoWhisper-base)と比較して,一貫して高い性能を示す。
- TSPCは,少ない学習リソースで,有意に低い単語誤り率19.06%を達成した。
- 音素に基づいた二段階アーキテクチャは,音素適応や言語変換を可能にし,複雑なコードスイッチングシナリオにおける性能向上に貢献する。
特権情報を用いた強化学習によるクアッドローターのナビゲーション [cs.RO, cs.AI, cs.CV]目的:クアッドローターナビゲーション手法
- ロボット工学において,自律的なナビゲーションは重要な課題である。
- 大規模な障害物がある環境では,従来の学習ベースの手法は課題が残る。
- 大規模な障害物を回避するためのナビゲーション性能向上を目指す。
- 提案手法は,フォトリアリスティックなシミュレーション環境で86%の成功率を達成した。
- ベースライン戦略と比較して,34%の性能向上を示した。
- 屋外の障害物が多い環境で20回の飛行実験を行い,衝突なく合計589メートルを飛行した。
AttnBoost:勾配ブースティングの視点による小売サプライチェーンの販売予測 [cs.CL, cs.LG, cs.CE]目的:小売サプライチェーンにおける販売予測の精度向上と解釈性向上
- 小売サプライチェーンの需要予測は,変動する消費者の行動に対応する必要があり重要である。
- 従来の勾配ブースティングは,変化する状況下での重要特徴の特定が難しいという課題がある。
- 本研究は,特徴レベルの注意機構を導入し,予測精度と解釈性を同時に高めることを目指す。
- AttnBoostは,大規模な小売販売データセットにおいて,従来の機械学習モデルや深層テーブルモデルを上回る性能を示した。
- 注意モジュールは,過学習の抑制と解釈性の向上に有効であることが確認された。
- 注意誘導型ブースティングは,実世界の予測アプリケーションにおける解釈可能でスケーラブルなAIの有望な方向性を示唆する。
GLMYホモロジーを用いた貯留槽のトポロジー構造最適化 [cs.LG]目的:貯留槽のトポロジー構造最適化手法
- 時系列データ処理において,貯留槽は効率的なネットワークとして重要である。
- 貯留槽のトポロジー構造と性能の解析には適切な数学的ツールが不足している。
- GLMYホモロジー理論を用いて貯留槽の性能向上を目指す。
- 貯留槽の性能と一次元GLMYホモロジー群が密接に関連することが示された。
- 一次元GLMYホモロジー群の最小代表サイクルを修正する構造最適化手法が開発された。
- 貯留槽の性能は,その構造とデータセットの周期性に影響を受けることが実験により検証された。
TabStruct:表形式データの構造的忠実度を測定 [cs.LG]目的:表形式データ生成モデルの性能評価のためのフレームワーク
- 表形式データは様々な分野で利用され,その品質が重要である。
- 既存の評価指標では,構造的忠実度と従来の評価指標の関係が不明確である。
- 真の因果構造が不明なデータセットでも構造的忠実度を評価する手法を開発する。
- 新たに「グローバル有用性」という評価指標を導入し,因果構造が不明な場合でも構造的忠実度を評価可能にした。
- TabStructという包括的な評価ベンチマークを構築し,13種類の表形式データ生成モデルを29のデータセットで大規模に分析した。
- グローバル有用性は,タスクやドメインに依存しない,表形式データ生成モデルの性能評価に有効であることが示された。
拡散に基づくインピーダンス学習:接触豊富な操作タスクへ [cs.RO, cs.AI, cs.LG]目的:接触豊かな操作におけるロボットのインピーダンス制御
- ロボットの物理的相互作用は重要だが,制御は困難である。
- 従来のインピーダンス制御は,タスクごとにパラメータ調整が必要となる。
- タスク固有の調整なしに,安定した接触動作を実現する。
- 拡散モデルを用いてシミュレーションされたゼロフォース軌跡を再構成する。
- 再構成された軌跡により,エネルギーに基づく推定器がインピーダンスをオンラインで適応させる。
- KUKA LBR iiwa上での実験で,スムーズな障害物通過と未見タスクへの汎化が確認された。
対話音声はSpeechLLM基盤モデルの構造的頑健性における脆弱性を明らかにする [cs.RO, cs.CL, cs.AI, eess.AS]目的:対話音声における構造的頑健性の評価
- 音声処理技術は,人間と機械の自然なコミュニケーションを可能にする上で不可欠である。
- 事前学習データには少ない対話音声特有の言い間違いなどが,モデルの性能に影響を与える。
- 対話音声に対するモデルの構造的理解と,意味解釈の偏りを明らかにすること。
- 大規模言語モデル(LLM)を基盤とするSpeechLLMは,対話音声に対して構造的な修復ではなく,意味的な抽象化を行う傾向があることが示された。
- モデルの性能は編集ポリシーによって明確に分類され,推論モデルは流暢な内容を過剰に削除するバイアスを持つことが明らかになった。
- ファインチューニングは最先端の結果をもたらすものの,汎化性能の低下を引き起こす可能性がある。
複雑性正則化された近接方策最適化 [cs.LG, cs.AI]目的:方策勾配法の改善
- 強化学習において,方策の学習は重要であり,その性能向上は様々な応用分野に繋がる。
- 従来の正則化手法は,パラメータ調整が難しく,最適な性能を引き出せない場合がある。
- 方策の探索と収束のバランスを取り,ハイパーパラメータ調整の負担を軽減すること。
- 提案手法では,標準的なエントロピー項を,シャノンエントロピーと不均衡の積である複雑性項で置き換えた。
- 複雑性項は,決定論的または一様分布の状態ではゼロとなり,秩序とランダム性の間の相互作用を重視する。
- 実験結果から,提案手法はハイパーパラメータ選択に対して頑健であり,一貫した性能を発揮することが示された。
ノイズから音符へ:拡散モデルに基づく自動ドラムトランスクリプションの生成と改良 [cs.SD, cs.LG, eess.AS]目的:自動ドラムトランスクリプションのための生成と改良手法
- 音楽情報処理において,ドラム音の自動認識は作曲や音楽分析に不可欠である。
- 既存手法は識別的な枠組みに限定され,柔軟性やロバスト性に課題があった。
- 拡散モデルを活用し,より高精度かつ柔軟なドラムトランスクリプションを実現すること。
- 拡散モデルを用いた生成的なアプローチにより,速度と精度のトレードオフを柔軟に調整可能になった。
- アニールされた擬似ハバー損失関数により,二値の音符発現と連続的なベロシティ値を効率的に最適化することに成功した。
- 音楽ファウンデーションモデルからの特徴量を組み込むことで,未知のドラム音に対しても高いロバスト性を実現し,最先端の性能を達成した。
BridgeDrive:自律運転における閉ループ軌道計画のための拡散ブリッジポリシー [cs.RO, cs.RO, cs.AI, cs.CV, cs.LG]目的:自律運転における閉ループ軌道計画のための拡散ブリッジポリシー
- 自動運転の実現には,多様な運転行動を安全かつ柔軟に計画する技術が不可欠である。
- 既存の拡散モデルを用いた計画手法では,計画の安全性や反応性に課題があり,実用化が難しい場合がある。
- 拡散モデルの理論的な整合性を保ちつつ,安全かつリアルタイムな閉ループ軌道計画を実現することを目指す。
- 提案手法BridgeDriveは,粗いアンカー軌道から文脈を考慮した洗練された計画への変換を拡散ブリッジとして定式化する。
- 実験の結果,Bench2Driveの閉ループ評価ベンチマークにおいて,既存手法を大幅に上回る性能が確認された。
- 特に,PDM-LiteとLEADデータセットにおいて,それぞれ7.72%と2.45%の成功率向上を達成した。
潜在学習の理解に向けて:隠されたバイアスがいつ,どのように伝達されるか [cs.LG, cs.AI]目的:潜在学習のメカニズム解明
- 言語モデルのバイアスは社会に影響を及ぼすため,その伝播メカニズムの理解は重要である。
- 教師モデルのバイアスが,データにバイアスがないにも関わらず学習済みモデルに伝わる現象は未解明であった。
- 教師モデルから生徒モデルへのバイアス伝達の条件とメカニズムを特定すること。
- 潜在学習には,グローバルなトークンの絡み合いやlogit leakageは必須ではないことが示された。
- バイアス伝達は,教師モデル間で予測が異なる稀な「divergence tokens」によって引き起こされることが判明した。
- 初期層の微調整が潜在学習に十分であり,潜在学習はプロンプトの言い換えなどの小さな変化で抑制されることが示された。
BeyondBench:言語モデルの推論における汚染耐性評価 [cs.CL, cs.AI, cs.LG]目的:言語モデルの推論能力の公平な評価
- 言語モデルの性能評価は,AI研究開発の進展に不可欠である。
- 既存の評価ベンチマークは,学習データに含まれる可能性があり,真の推論能力を評価できない問題がある。
- 学習データ汚染の影響を受けない,新たな評価フレームワークを構築し,言語モデルの真の推論能力を測る。
- BeyondBenchは,アルゴリズムによる問題生成を用いて,汚染の心配がない数学に基づいた問題を動的に生成する。
- 101の言語モデルを評価した結果,複雑性が増すにつれて性能が著しく低下することが明らかになった。
- Gemini-2.5-pro,Llama-3.3-70B,Qwen2.5-72Bは,Hard Suiteでそれぞれ56.21%,27.16%,33.37%の正答率を達成した。
ハイパースフェリカル潜在変数が連続トークン自己回帰的生成を改善する [cs.CV, cs.LG]目的:画像生成における自己回帰モデルの性能向上
- 画像生成技術は,その多様性と品質から注目されており,様々な応用が期待されている。
- 連続トークン自己回帰モデルは,潜在拡散モデルやマスク生成モデルと比較して性能が劣ることが課題となっていた。
- VAE潜在空間の不均一な分散を抑制し,自己回帰的デコードの安定化を図る。
- SphereARは,AR入力と出力を固定半径のハイパースフェア上に制約することで,分散崩壊の主要原因であるスケール成分を除去する。
- ImageNet生成において,SphereAR-HはARモデルとして最高の結果を達成し,FIDスコア1.34を記録した。
- より小規模なSphereAR-L(479M)とSphereAR-B(208M)も,より大規模なベースラインモデルと同等かそれ以上の性能を示した。
NVFP4を用いた大規模言語モデルの事前学習 [cs.CL, cs.AI, cs.LG]目的:NVFP4形式を用いた大規模言語モデルの安定かつ正確な事前学習手法
- 大規模言語モデルは多様な分野で活用され,モデル規模の拡大とともに性能が向上している。
- 最先端モデルの学習には膨大な計算資源が必要であり,効率改善が課題となっている。
- 4ビット浮動小数点数(FP4)への移行による効率化を目指し,学習の安定性を確保する。
- 提案手法では,Random Hadamard変換を用いてブロックレベルのアウトライアを抑制し,学習の安定化を実現した。
- 120億パラメータのモデルを10兆トークンで学習し,FP8ベースラインと同等の性能を達成した。
- NVFP4と本手法の組み合わせは,低精度LLM学習アルゴリズムにおける重要な進歩を示す。
OPPO:パイプラインオーバーラップによるPPOベースのRLHFの加速 [cs.LG]目的:PPOベースのRLHFにおける学習効率の向上
- 大規模言語モデルの人間との整合性を高めるRLHFは,その性能向上の鍵となる。
- 従来のRLHFパイプラインは,モデル間の依存関係や応答時間のばらつきにより非効率である。
- パイプラインのオーバーラップにより,学習時間の短縮とGPU利用率の向上を目指す。
- OPPOは,パイプライン実行のオーバーラップにより,PPOベースのRLHFの学習を最大2.8倍に加速する。
- GPU利用率も1.4倍から2.1倍に向上し,学習の収束性には影響を与えない。
- intra-stepオーバーラップとinter-stepオーバーラップという2つの新技術を導入した。
PrefDisco:能動的個別化推論のベンチマーク [cs.CL, cs.AI]目的:能動的個別化推論の評価手法と指標
- LLMの応用範囲拡大に伴い,ユーザーのニーズに合致した応答が重要になっている。
- 既存のLLMは,正確性とユーザーの意向の整合性を別々に最適化している。
- ユーザーの情報を能動的に収集し,推論プロセスを適応させる個別化推論の必要性。
- PrefDiscoは,既存のベンチマークを対話的な個別化タスクに変換する評価手法である。
- 21の最先端モデルの評価で,単純な個別化試行の29.0%が汎用的な応答より悪化した。
- 個別化推論には専用の開発が必要であり,自然に生まれるものではないことが示唆された。
EgoTraj-Bench:自己視点ノイズのある観測下でのロバストな軌道予測に向けて [cs.CV, cs.AI, cs.RO]目的:自己視点環境におけるロバストな軌道予測手法の開発
- 人間中心の環境下でのロボットナビゲーションにおいて,正確な軌道予測は不可欠である。
- 従来の軌道予測手法は,観測履歴がノイズを含まないことを前提としており,現実の自己視点環境における課題に対応できていない。
- 現実的な自己視点環境におけるノイズを考慮した,ロバストな軌道予測を可能にするベンチマークとモデルの提供。
- EgoTraj-Benchは,ノイズを含む自己視点視覚履歴と,クリーンな俯瞰視点の将来軌道を対応付けた初のリアルワールドベンチマークである。
- 提案手法BiFlowは,履歴観測のノイズ除去と将来運動の予測を同時に行う二重ストリームフローマッチングモデルである。
- BiFlowは,EgoAnchor機構により,過去の特徴を予測デコーダに条件付けすることで,エージェントの意図をより良くモデル化し,最先端の性能を達成した。
知識グラフを用いたエージェント向け自動マルチモーダルタスク生成 [cs.MA, cs.RO, cs.CL, cs.AI]目的:エージェント評価のためのマルチモーダルタスクの自動生成
- マルチモーダルLLM駆動エージェントの自律性と汎用性が向上しており,高度な評価が求められている。
- 既存の静的データセットでは,エージェント能力の完全な評価が難しく,スケーラビリティにも限界がある。
- 知識グラフを活用し,整合性と解法可能性の高いタスクを生成することで,エージェント評価の信頼性を高める。
- Graph2Evalは,知識グラフを基盤にタスクを生成し,タスクの多様性と解法可能性を保証するフィルタリングパイプラインを備えている。
- Graph2Evalは,既存手法と比較してタスクのセマンティック整合性を20%,解法可能性を17%向上させる。
- Graph2Eval-Benchは,文書理解とウェブインタラクションのシナリオを網羅する1,319のタスクで構成され,エージェントの性能を効果的に識別する。
VidGuard-R1:推論型MLLMと強化学習によるAI生成動画の検出と説明 [cs.CV, cs.LG]目的:AI生成動画の検出と説明
- AI生成技術の急速な発展に伴い,偽情報拡散防止の重要性が高まっている。
- 既存の検出手法は,静的なデータセットに依存し,生成モデルの進化に対応できない。
- 本研究は,多段階の物理的不整合を捉え,よりロバストな検出を実現する。
- VidGuard-R1は,グループ相対的方策最適化(GRPO)を用いて,高精度なゼロショット性能を達成した。
- モデルは,時間的安定性と拡散を考慮した報酬モデルにより,「物理に基づいた」アーティファクトを発見する。
- 14万組の難易度の高い動画ペアからなるデータセットを構築し,推論に基づいた明確な根拠を提供する。
SpineBench:SpineMed-450kコーパスを活用した臨床的に重要なレベル認識ベンチマーク [cs.CV, cs.AI]目的:脊椎疾患の診断支援のための,レベル認識型のマルチモーダルデータセットおよび評価フレームワーク
- 脊椎疾患は世界中で多くの患者を苦しめており,適切な診断と治療が重要である。
- 既存のAI診断支援システムは,脊椎の特定レベルを考慮したデータセットの不足により,その能力に限界がある。
- 脊椎のレベルに応じた精緻な画像解析と,臨床現場での活用を可能にするデータセットおよび評価方法を確立する。
- SpineMed-450kは,45万件以上の脊椎画像と指示を含む大規模データセットであり,レベルに応じた推論を可能にする。
- SpineBenchは,脊椎疾患診断におけるレベル識別,病理評価,手術計画などの臨床的に重要な側面を評価するためのフレームワークである。
- SpineMed-450kでファインチューニングされたモデルは,複数の大規模ビジョン言語モデルと比較して,一貫して高い性能を示した。
MachaGrasp:形態を考慮したクロスエンボディメント手先の関節生成による把持 [cs.RO, cs.RO, cs.AI]目的:クロスエンボディメントにおける手先の関節生成
- 多指ロボットハンドによる高度な把持は,産業オートメーションやサービスロボットの実現に不可欠である。
- 既存手法は特定の手形に依存し,異なるロボットハンドへの汎化が困難であるという課題があった。
- 本研究では,手形の情報を活用することで,多様なロボットハンドへの汎化性能を高めることを目指す。
- MachaGraspは,手形の記述から関節生成を行い,未知の物体に対する把持成功率91.9%を達成した。
- Few-shot学習により,未知の手形でも85.6%の成功率を示し,実機実験では87%の成功率を記録した。
- 提案手法は,低次元空間での関節学習と,指先動作に重点を置いた損失関数により,効率的な把持を可能にした。
適合的回帰における効率の非漸近的解析 [cs.LG, stat.ML]目的:適合的回帰の効率性に関する理論的限界
- 予測の信頼性を保証する適合的予測は,機械学習の安全性向上に不可欠である。
- 予測区間の効率性(区間幅)が,データ量や設定パラメータにどのように依存するか不明確である。
- データ量と信頼水準のバランスを考慮し,予測区間幅の最適化を目指す。
- 本研究では,確率的勾配降下法を用いて訓練された適合的量子回帰と中央値回帰に関して,予測区間幅の非漸近的限界を導出した。
- 限界は,訓練データ数n,校正データ数m,および誤り許容率αに依存し,その関係性を明らかにした。
- αの変化に応じて収束率が変化する位相転移を特定し,予測区間幅の制御に向けたデータ配分に関する指針を示した。
モデル幅が線形モード連結性に与える影響:置換は本当に必要か? [cs.LG]目的:モデル幅と線形モード連結性の関係性の解明
- 深層学習モデルの汎化性能向上には,モデル構造の理解が不可欠である。
- 線形モード連結性を達成するには,幅広なモデルが必要とされていた。
- モデル幅を広げるだけで線形モード連結性を達成できる可能性を示す。
- モデル幅を広げるだけで,パラメータ置換なしに線形モード連結性を達成できることを実験的に示した。
- 適切なソフトマックス温度較正を用いることで,モデル幅を広げるだけで線形モード連結性が実現する。
- 中間層出力の解析により,各層の出力が元のモデルの出力を指数的に加重平均したものであることが示された。
大規模言語モデルを用いた知識グラフ補完のためのグラフアスメモリカロスアテンション [cs.AI, cs.CL]目的:知識グラフと大規模言語モデルの融合による知識集約型タスクの性能向上
- 知識グラフは,事実に基づいた推論や意思決定に不可欠な構造化された知識を提供する。
- 既存手法は,グラフ情報を接頭辞として注入するのみで,詳細な証拠検索が困難である。
- グラフ構造を明示的なグラフメモリとして表現し,深層的な相互作用を実現する。
- 提案手法 GMT は,既存の接頭辞チューニングや他の強力なベースラインを大幅に上回る性能を示す。
- GMT は,セマンティックグラフモジュールを用いて文脈を考慮した意味情報をグラフメモリに圧縮する。
- グラフアスメモリカロスアテンション融合モジュールにより,LLM が関連するグラフ証拠を動的に取得する。
OmniVideoBench:汎用MLLMにおけるオーディオ・ビジュアル理解評価に向けて [cs.CL, cs.AI]目的:オーディオ・ビジュアル理解の相乗的推論能力を評価するためのベンチマーク
- マルチモーダル大規模言語モデル(MLLM)の発展は目覚ましいが,動画理解能力の評価が不十分である。
- 既存のベンチマークは,オーディオとビジュアルの連携を十分に評価しておらず,論理的な整合性に欠ける場合がある。
- オーディオ・ビジュアルの補完性を重視し,論理的整合性の高い動画理解能力を評価するベンチマークの構築。
- OmniVideoBenchは,多様な動画から作成された1000組の高品質な質問応答ペアで構成される。
- このベンチマークは,時間的推論,空間的定位,因果推論など,動画理解の本質的な課題を網羅する13種類の質問タイプを含む。
- 複数のMLLMの評価から,モデルの性能と人間の推論との間に大きな隔たりがあることが示され,特にオープンソースモデルの遅れが顕著である。
真に自己教師ありな新規視点合成は転移可能である [cs.CV, cs.AI, cs.LG]目的:新規視点合成における転移可能性の評価
- 3次元シーンの理解や生成において,異なる視点からの情報を活用する技術は重要である。
- 既存の自己教師あり新規視点合成モデルは,異なる3次元シーン間での視点推定が転移しないという課題がある。
- 本研究は,3次元幾何学的な事前知識なしに,視点とシーン内容を分離し,転移可能な視点推定を実現することを目指す。
- 提案手法XFactorは,既存の視点推定モデルと比較して,転移可能性において大幅な性能向上を達成した。
- XFactorは,幾何学的な制約や3次元表現を用いずに,潜在変数の視点推定が現実世界の視点と高い相関を示すことを明らかにした。
- 転移可能性を定量化するための新たな指標を導入し,大規模実験を通してXFactorの有効性を検証した。
