arXiv雑要約
AI - 2026/03/10 公開
トランスフォーマーではない:Mambaベースの拡散モデルによるダンス生成のためのビート表現の削除 [cs.CV, cs.AI, cs.GR, cs.SD]目的:ダンス生成手法
- ダンスは感情表現やコミュニケーションの手段であり,音楽,VR,コンテンツ制作など多様な分野で重要である。
- 既存のダンス生成手法は,ダンス固有の連続性,リズム性,音楽との同期性を十分に捉えられていない。
- 本研究は,ダンスの特性をより良く捉え,より自然なダンス生成を目指す。
- 提案手法MambaDanceは,長時系列に強いMambaベースの拡散モデルを用いることで,ダンスの自然な動きを生成する。
- ダンス生成において重要な音楽のビートをガウス分布で表現し,ダンスシーケンスの生成を誘導する。
- AIST++とFineDanceデータセットでの実験により,提案手法は既存手法と比較して,短調から長調のダンスまで,ダンスの重要な特徴を反映した妥当な動きを生成できることが示された。
DyLLM:重要度に基づくトークン選択と部分注意による効率的な拡散LLM推論 [cs.CL, cs.CL, cs.AI, cs.PF]目的:拡散LLM推論の高速化
- 大規模言語モデルの推論速度向上は,実用化において重要な課題である。
- 拡散言語モデルは並列処理が可能だが,各ステップでの計算コストが高い。
- 重要トークンのみを選択的に計算することで,計算量を削減する。
- DyLLMは,隣接するノイズ除去ステップ間の注意コンテキストのコサイン類似度により重要度を特定する。
- 重要トークンに対してのみ順伝播と注意演算を再計算し,残りの部分はキャッシュされた活性化を再利用する。
- 多様なベンチマークにおいて,LLaDAやDreamといった最先端モデルの精度を維持しつつ,最大9.6倍の処理能力向上を達成した。
外生変数を用いた時系列予測のためのグラフ整合生成ネットワークGCGNet [cs.LG, cs.AI]目的:外生変数を用いた時系列予測における,時間的相関とチャネル相関の同時モデリング
- 時系列予測は,需要予測や金融市場予測など,幅広い分野で不可欠な技術である。
- 既存手法は時間的相関とチャネル相関を別々にモデル化するため,両者の結合相関を捉えきれない場合がある。
- ノイズの影響を受けにくい,時間とチャネル間の相関を同時に捉える予測モデルの開発。
- 提案手法GCGNetは,まず変分生成器を用いて粗い予測を生成する。
- 次に,グラフ構造アライナーが生成された相関と真の相関の一貫性を評価し,予測を誘導する。
- 実世界のデータセット12個での実験により,GCGNetが最先端手法を上回ることが示された。
第10回ABAW表情認識チャレンジの解決策:安全なクロスアテンションとモダリティドロップアウトを用いたロバストなマルチモーダルフレームワーク [cs.CV, cs.AI]目的:表情認識のロバストなマルチモーダルフレームワーク
- 現実環境における感情認識は,人々の行動理解に不可欠であり,様々な分野での応用が期待されている。
- 現実のデータは,遮蔽,欠損,不均衡などの問題を含んでおり,正確な感情認識を困難にしている。
- ABAWチャレンジにおける課題に対応し,より現実的な環境での表情認識の精度向上を目指す。
- 提案手法は,視覚と聴覚情報を動的に融合し,欠損モダリティにロバストな性能を示すことが確認された。
- 安全なクロスアテンション機構とモダリティドロップアウト戦略により,視覚情報が不足した場合でも聴覚情報による予測が可能となった。
- Aff-Wild2検証セットにおいて,60.79%の精度と0.5029のF1スコアを達成し,有効性が示された。
CDRRM:コントラスト駆動型ルーブリック生成による信頼性と解釈可能性の高い報酬モデリング [cs.AI, cs.LG]目的:信頼性と解釈可能性の高い報酬モデルの構築
- LLMの性能向上の鍵は人間との整合性であり,そのためには精度の高い報酬モデルが不可欠である。
- 従来の報酬モデルは解釈性が低く,専門家による高コストなアノテーションに依存する傾向がある。
- ルーブリックに基づく評価の質を向上させ,バイアスを軽減し,スケーラビリティと信頼性の両立を目指す。
- CDRRMは,コントラストと合成のパラダイムに基づき,高品質なルーブリック生成と誘導的な嗜好判断を実現する。
- RewardBench,RMBench,RMBといったベンチマークにおいて,最先端の性能を示し,評価バイアスを効果的に軽減した。
- わずか3,000件の高品位サンプルでルーブリックジェネレーターを学習させることで,固定された事前学習済みの判断モデルが完全にファインチューニングされたベースラインを上回った。
S2S-FDD:説明可能なゼロショット故障診断のための産業時系列データと自然言語の架け橋 [cs.AI]目的:産業時系列データと自然言語を橋渡しする故障診断フレームワーク
- 産業システムの安全な運用には故障診断が不可欠であり,設備の安定稼働に寄与する。
- 従来の診断モデルは抽象的な出力しか提供せず,「なぜ」や「どのように修理するか」といった現場の問いに答えられない。
- 高次元時系列データと自然言語の意味的ギャップを埋め,説明可能な故障診断を実現すること。
- 提案手法S2S-FDDは,時系列信号を自然言語の要約に変換し,故障診断を行う。
- 多段階のツリー構造による診断手法により,過去のメンテナンス資料を参照し,追加の信号を動的に要求する。
- 実験により,多相流プロセスにおいて,提案手法の有効性と説明可能性が示された。
Speed3R:疎なフィードフォワード3D再構成モデル [cs.HC, cs.CV, cs.AI]目的:高速な3D再構成手法の開発
- 3D再構成は,ロボティクスやAR/VRなど様々な分野で不可欠な技術である。
- 既存の再構成モデルは計算コストが高く,高速な処理が課題となっている。
- 疎な特徴点を利用することで,計算コストを削減し,高速化を実現する。
- Speed3Rは,従来のモデルと比較して12.4倍の推論速度向上を達成した。
- この高速化は,構造からの運動の原理に着想を得た二重分岐アテンション機構によるものである。
- VGGTおよびπ^3バックボーンを用いた評価においても,高品質な再構成結果が得られた。
連合学習におけるLoRAの安定化:クライアントサイズとランクの副作用をスケーリングファクターで軽減 [cs.LG]目的:連合学習におけるLoRAの安定化手法
- 大規模言語モデルは自然言語処理において不可欠であり,その活用が求められている。
- 連合学習環境下では,LoRAの統合が不安定になりやすく,勾配消失が問題となる。
- クライアント数やアダプターランクに起因する集約誤差を軽減するスケーリングファクターを導出する。
- 本研究で提案するSFed-LoRAは,従来のLoRAアプローチに存在するスケーリングミスマッチを修正する。
- SFed-LoRAは,高ランクアダプテーションの有効性を回復させ,推論遅延を増加させない。
- 実験結果から,SFed-LoRAは高ランク崩壊を防ぎ,従来のベースラインと比較して安定性と収束速度を向上させる。
ImageEdit-R1:強化学習によるマルチエージェント画像編集の強化 [cs.CV, cs.AI]目的:マルチエージェント画像編集のための強化学習フレームワーク
- 画像編集は日常での応用範囲が広く,商業的なマルチモーダルモデルの急速な進歩に伴い重要性が増している。
- 既存の画像編集システムは,複雑な指示や多段階の指示に対して,人間の意図に沿った編集が難しいという課題がある。
- 本研究は,人間の意図をより正確に反映した,文脈を考慮した編集を可能にすることを目指す。
- ImageEdit-R1は,複数の事前学習済みエージェントを強化学習によって協調させることで,高度な画像編集を実現する。
- 既存の閉鎖ソースの拡散モデルや他のマルチエージェントフレームワークと比較して,複数の画像編集データセットで一貫して優れた性能を示す。
- 画像編集を逐次的な意思決定問題として扱うことで,動的かつ文脈を意識した編集戦略を可能にしている。
敵対的ドメイン適応は,異種RNA-Seqデータセット間の知識転移を可能にする [cs.HC, cs.LG, q-bio.GN]目的:異種RNA-Seqデータセット間の知識転移
- RNA-Seqデータは,診断,バイオマーカー探索,個別化医療に不可欠であり,その解析は重要である。
- RNA-Seqデータセットは規模が限られることが多く,過学習や汎化性能の低下を引き起こす。
- 大規模データセットから知識を転移することで,データ不足の問題を解決することを目指す。
- 本研究で提案する敵対的ドメイン適応フレームワークは,がんの種類分類において高い性能を示した。
- 分類とドメインアラインメントの目的を同時に最適化することで,ドメイン不変な潜在空間を学習する。
- データが少ない状況下でも安定した学習と頑健性を実現するために,敵対的なアプローチと適切な正則化を用いる。
大規模言語モデルに対する決定論的微分構造化プルーニング [cs.LG, cs.CL]目的:大規模言語モデルの推論コスト削減
- 大規模言語モデルの利用拡大には,計算資源の効率的な活用が不可欠である。
- 従来のプルーニング手法では,離散的な最適化が困難であり,精度劣化や学習の不安定性が課題であった。
- 決定論的な手法により,学習時と推論時のミスマッチを解消し,高性能なプルーニングを実現する。
- 提案手法DDPは,従来の確率的緩和手法と比較して,より表現力が高く,収束が速い。
- Qwen3モデルに対する実験では,わずか1%の性能低下で20%のスパース性を実現した。
- vLLMを用いた実環境での推論速度向上も確認された。
大規模言語モデルにおける道具利用のための文脈内強化学習 [cs.AI]目的:大規模言語モデルの道具利用能力向上
- 言語モデルの高度な推論能力を活かし,複雑なタスクへの応用範囲を拡大することが重要である。
- 外部ツール利用には課題があり,既存手法は教師ありファインチューニングに大量のラベル付きデータが必要となる。
- ファインチューニングなしで,少ないサンプルから道具利用を学習する手法を確立することを目指す。
- 提案手法であるICRLは,ロールアウト段階でFew-shotプロンプティングを活用し,SFTを必要としない。
- ICRLは,ロールアウトプロンプトに文脈内例を導入することで,モデルに外部ツールの呼び出し方を学習させる。
- 実験結果から,ICRLは最先端の性能を達成し,スケーラブルかつデータ効率の良い代替手段となることが示された。
多変量臨床時系列予測のためのハイブリッド量子ニューラルネットワーク [cs.LG]目的:多変量臨床時系列予測における心拍数,酸素飽和度,脈拍数,呼吸数の予測
- 患者の状態変化を予測し,積極的なモニタリングと迅速な臨床介入を支援する重要性がある。
- 既存手法では,少人数コホートの臨床環境において,ノイズや欠損値へのロバスト性が課題である。
- 量子層を活用し,生理学的時系列予測の精度向上とロバスト性の確保を目指す。
- 提案手法は,古典的および深層学習ベースラインと比較して,競合する精度を示した。
- ノイズや欠損入力に対する耐性が高く,小規模コホートの臨床設定で有用であることが示唆された。
- 量子層が,生理学的時系列予測において有益な誘導バイアスを提供できる可能性が示された。
微小な自己回帰再帰モデル [cs.HC, cs.RO, cs.LG]目的:自己回帰モデルにおける二段階の洗練機構の有効性評価
- 近年,大規模モデルに匹敵する性能を示す小規模モデルの研究が盛んである。
- 再帰モデルの性能向上機構を自己回帰モデルに適用する際の課題が明確でない。
- 自己回帰モデルへの再帰機構の導入効果を検証し,有望な方向性を探る。
- Transformerを段階的に再帰モデルに変換する実験により,二段階の洗練機構が一定の性能を示すことが分かった。
- 完全な自己回帰再帰モデルは,期待に反して明確な性能向上を示さなかった。
- 二段階の洗練機構は潜在的な可能性を持つ一方,自己回帰再帰モデル固有のモデルへの投資は慎重であるべきである。
EAGLE-Pangu:Ascend NPUにおけるアクセラレータ対応型木構造推測デコーディング [cs.LG, cs.PL]目的:大規模言語モデルの推論における高性能化
- 大規模言語モデルの利用拡大に伴い,推論速度の向上が喫緊の課題となっている。
- 自己回帰デコーディングがボトルネックとなり,推論処理の効率化が求められている。
- 異種アクセラレータ環境下での木構造推測デコーディングの安定性と性能向上を目指す。
- EAGLE-Panguは,Ascend NPU上でEAGLE-3スタイルの木構造推測デコーディングを再現可能にしたシステムである。
- キャッシュAPIを用いたブランチ/コミットキャッシュマネージャ,アクセラレータ対応型木構造テンソル化を実装した。
- MT-BenchおよびHumanEvalを用いた評価で,エンドツーエンドのデコーディングスループットが平均1.27倍,p99で最大2.46倍向上した。
DSH-Bench:階層的被写体分類に基づく難易度・シナリオ対応型被写体駆動テキスト-画像生成ベンチマーク [cs.RO, cs.CV, cs.AI]目的:被写体駆動型テキスト-画像生成モデルの体系的な多角的分析
- 近年,テキストから画像を生成する技術が進歩,特に被写体を指定する生成が注目されている。
- 既存の評価指標では,被写体の多様性,難易度,プロンプトのシナリオに応じた評価が不十分である。
- この研究は,被写体駆動型テキスト-画像生成モデルの評価方法を改善し,モデル改善の方向性を示す。
- DSH-Benchは,58種類の細分化されたカテゴリを網羅する階層的な分類体系を導入し,被写体表現の包括性を確保した。
- SICSという新しい指標を提案,既存の指標よりも高い精度で被写体の同一性保持能力を定量化した。
- 19の主要モデルを評価した結果,既存手法の隠れた課題を明らかにし,今後の研究開発の具体的な方向性を示した。
DC-W2S:生物学的推論における信頼性の高い過程報酬モデリングのための二重合意に基づく弱学習から強学習への訓練 [cs.CL, cs.CL, cs.AI, cs.LG]目的:信頼性の高い過程報酬モデルの訓練
- 科学的推論において,最終的な結果だけでなく,推論過程の正当性が重要であるため。
- 過程報酬モデルは有効だが,専門家によるステップごとのラベル取得コストが高い点が課題。
- ノイズの多い弱学習データから高品質な訓練信号を選別し,効率的に過程報酬モデルを訓練すること。
- DC-W2Sフレームワークは,弱学習データの自己合意と近傍合意を組み合わせることで,信頼性の高い訓練信号を特定する。
- インスタンスレベルでのバランスサンプリングとラベルレベルでの信頼度に応じたマスキングにより,訓練を効果的に導く。
- 専門家による大規模なラベル付けなしに,複雑な推論のための堅牢な過程報酬モデルの訓練を可能にする。
見えない安全上の脅威:ステガノグラフィーによるLLMの悪意のあるファインチューニング [cs.LG]目的:大規模言語モデル(LLM)に対する潜在的な安全対策リスクの理解と対処
- LLMの安全な利用には,その安全性と信頼性を確保することが不可欠である
- LLMは表面上は安全に見えても,裏で有害なコンテンツを生成する可能性がある
- ステガノグラフィー技術を利用したLLMへの攻撃とその隠蔽方法を明らかにする
- ファインチューニングにより,LLMはステガノグラフィーを理解し,適用できるようになる
- GPT-4.1を含む複数のモデルで,隠された悪意のあるプロンプトに対するステガノグラフィーによる悪意のある出力が確認された
- 生成されたステゴテキストは,Llama-Guard-3-8Bによる安全性評価で誤って安全と判定された
Tau-BNO:タウ輸送モデルのための脳神経演算子 [cs.DM, math.CO, cs.HC, cs.CE, cs.LG]目的:タウ輸送モデルの高速近似
- アルツハイマー病などのタウオパチーにおけるタウタンパク質の拡散メカニズム解明は重要である。
- 既存モデルは微小スケールでの細胞輸送や反応メカニズムを無視している。
- NTMの計算コスト問題を解決し,パラメータ推論とメカニズム発見を可能にする。
- Tau-BNOは,NTMのダイナミクスを高精度かつ高速に近似する代替フレームワークである。
- 多様なバイオフィジカル条件下で高い予測精度($R^2\approx$ 0.98)を示し,最新のシーケンスモデルを凌駕する性能を発揮した。
- シミュレーション時間を大幅に短縮し,新たな知見や仮説の創出を可能にする。
UIS-Digger:実世界における未インデックス情報探索のための包括的な研究エージェントシステムへ [cs.AI, cs.IR]目的:未インデックス情報探索(UIS)における課題解決と,そのためのベンチマークおよびフレームワークの提案
- 情報探索は現代社会における知識獲得の基盤であり,その効率化は重要である。
- 既存の情報探索エージェントは,検索エンジンにインデックスされた情報に依存しており,未インデックス情報の探索が困難である。
- UIS-QAベンチマークとUIS-Diggerフレームワークにより,未インデックス情報探索能力の向上を目指す。
- 本研究では,未インデックス情報探索に特化したUIS-QAベンチマークを新たに構築し,既存エージェントの性能低下を明らかにした。
- 提案するUIS-Diggerは,デュアルモードブラウジングとファイル解析を組み合わせたフレームワークであり,比較的軽量なLLMで高い性能を発揮する。
- この成果は,効果的な情報探索のために,未インデックス情報源との積極的なインタラクションが不可欠であることを示唆している。
ロバストな価値を考慮したモデル学習によるオフライン強化学習 [cs.LG]目的:オフライン強化学習におけるダイナミクスモデルの活用
- 強化学習は,複雑な問題解決において高い性能を発揮するが,試行錯誤に時間がかかる。
- オフライン強化学習では,既存のデータのみで学習するため,モデル誤差による性能劣化が問題となる。
- モデルの過剰な活用を防ぎ,安定したモデル更新と汎化性能向上を目指す。
- 提案手法ROMIは,RAMBOが抱えるQ値の過小評価と勾配爆発の問題を,ロバストな価値を考慮したモデル学習により解決する。
- ROMIは,状態不確実性集合内で最小Q値を予測することで,制御可能な保守性と安定したモデル更新を実現する。
- D4RLおよびNeoRLデータセットにおける実験結果から,ROMIがRAMBOや他の最先端手法と比較して優れた性能を示すことが明らかになった。
計算を意識した視覚-言語-行動のための大脳-橋-小脳三分割アーキテクチャ [cs.RO, cs.RO, cs.AI, cs.LG]目的:視覚-言語-行動タスクにおける,脳科学に着想を得た三分割アーキテクチャの提案
- ロボット工学において,環境とのインタラクションには,視覚,言語,行動の統合が不可欠である。
- 既存手法では,これらの要素を効率的に統合し,汎用性と適応性を両立することが課題である。
- 本研究は,脳の構造を模倣することで,より効率的で柔軟な視覚-言語-行動システムの構築を目指す。
- 提案手法は,大脳,橋,小脳という三つのモジュールに機能を分割し,それぞれ異なる役割を担わせる。
- 実験結果から,分割キャッシュにより学習時間が短縮 (7.5時間から4.5時間) し,成功率が向上 (86.5%から92.5%) することを示した。
- また,SaiVLA0はN1.5ヘッドオンリー訓練において,平均成功率99.0%を達成した。
Foley-Flow:マスク付きオーディオ・ビジュアルアラインメントと動的条件付きフローを用いた協調的な動画からのオーディオ生成 [cs.CL, cs.CV, cs.AI, cs.LG, cs.SD, eess.AS]目的:動画入力に基づく協調的なオーディオ生成
- 動画と音響の同期は,メディアコンテンツの品質において重要であり,没入感や理解度に影響する。
- 既存手法では,全体的な意味の一致は実現できても,時間的なリズムの一致が課題となっていた。
- 意味とリズムの両方において動画と同期したオーディオ生成を可能にすることを目指す。
- FoleyFlowは,マスクモデリングによるユニモーダルAVエンコーダのアラインメントを通じて,意味的およびリズム的な一貫性を獲得する。
- 動的条件付きフローを用いることで,動画の特徴量に基づいてオーディオセグメントの生成を時間的に誘導する。
- 標準的なベンチマークにおいて,既存手法を上回る性能を示し,FoleyFlowの有効性が確認された。
TRIAGE:確率的・認識的不確実性をゲート推定によりルーティングするロボット操作と適応知覚 [cs.CL, cs.RO, cs.LG]目的:ロボット操作と適応知覚における不確実性のタイプに応じた介入方法
- ロボットの自律性を高めるには,不確実性を適切に扱うことが不可欠である。
- 既存手法では,不確実性の種類を区別せず,一律的な対応しかできない。
- 観測ノイズとモデルの不一致に起因する不確実性を分離し,適切な対処法を選択する。
- 提案手法では,不確実性を確率的不確実性と認識的不確実性に分解し,それぞれに適した応答を行う。
- ロボット操作実験では,タスク成功率が59.4%から80.4%に向上し,既存手法を最大21.0%上回った。
- 適応型追跡推論では,計算量を平均58.2%削減しつつ,検出精度を維持した。
ヘリコプター伝動機構における確率的異常検知による説明可能な状態監視 [cs.LG, stat.ML]目的:ヘリコプター伝動機構の状態監視のための説明可能な手法
- 航空機の安全運航には,機体の状態を正確に把握することが不可欠である。
- 故障は稀に発生するため,正常状態のデータのみで故障を予測する手法が求められる。
- 正常状態の確率分布を学習し,逸脱度を測ることで,故障を早期に検知・予測する。
- 提案手法は,公開された予測メンテナンスのベンチマークとヘリコプター伝動機構の実際のデータセットの両方において,最新の異常検知手法と同等以上の性能を示した。
- ベイズの考え方に基づき,不確実性の定量化を行い,意思決定を支援する。
- 結果の解釈性を高めるための記述ツールを提供し,安全性が重要なアプリケーションへの適用を可能にする。
グラフ異常検知における同質性格差の緩和:スケーラブルで適応的なアプローチ [cs.RO, cs.LG]目的:グラフ異常検知における同質性格差の緩和とスケーラビリティの向上
- グラフ構造や特徴における異常ノードの特定は,社会ネットワーク分析等において重要である。
- 既存手法は,ノード間の同質性の度合いのばらつきや計算コストの高さが課題となっていた。
- 本研究は,同質性格差を緩和し,大規模グラフでの効率的な異常検知を可能とする。
- SAGADは,多段階埋め込みと再パラメータ化されたチェビシェフフィルタを用いることで,効率的な学習と多様なパターン捕捉を実現する。
- 異常コンテキストを考慮した適応的な融合により,ノードレベルの同質性格差を緩和する。
- 周波数優先度誘導損失により,異常ノードが高周波情報を保持するように促し,クラスレベルの格差を軽減する。
DARC:リスク制約付きデコーディングによる不一致を考慮したアライメント [cs.HC, cs.RO, cs.LG, cs.AI]目的:不一致を考慮したアライメント手法
- 大規模言語モデルのアライメントは,人間とモデルの意図を一致させる上で不可欠である。
- 人間の選好には不一致が存在し,平均報酬の最大化だけでは最適化が不安定になりやすい。
- 不一致を考慮し,リスクを抑制することで,よりロバストなアライメントを実現する。
- DARCは,再学習を必要とせず,推論時に分布ロバストなリスク感受性のある意思決定フレームワークを用いる。
- 候補応答を,KLダイバージェンスに基づく満足度目標を最大化することで再ランク付けし,リスクプレミアムを制御する。
- 実験の結果,DARCは不一致とテールリスクを軽減しつつ,競争力のある平均品質を維持することが示された。
JAXにおける微分可能ODEソルバーによる正確な勾配を用いたイベントベースニューラルネットワークの学習 [cs.LG]目的:イベントベースニューラルネットワークの学習
- 脳の計算原理の解明や低消費電力なAIチップ開発に不可欠な技術である。
- 既存手法では,勾配の正確さとニューロンモデルの柔軟性を両立させることが困難であった。
- 微分可能ODEソルバーを用いて,任意のニューロンモデルに対して正確な勾配を計算可能にすること。
- Eventaxフレームワークは,微分可能数値ODEソルバーとイベントベースのスパイク処理を組み合わせることで,この課題を解決した。
- 様々なニューロンモデル(LIF,QIF,EIF,Izhikevich,EGRUなど)と損失関数で検証され,高い性能を示した。
- 複雑なニューロンモデル(樹状突起スパイクモデルを含む)の実装も容易であり,応用範囲が広い。
暗黙的な複雑な質問応答のための外部知識の段階的発掘 [cs.CL, cs.AI]目的:暗黙的な複雑な質問応答における外部知識の段階的発掘フレームワーク
- 大規模言語モデルの能力向上に伴い,知識獲得の重要性が増している。
- 既存のLLMは,ドメイン知識の不足や網羅性の制限という課題を抱えている。
- 外部知識を動的に活用し,複雑な質問への解答戦略を最適化することを目指す。
- 提案手法は,StrategyQAデータセットにおいて78.17%の精度を達成した。
- 競合手法と比較して,パラメータ数が10%以下でありながら,最先端の性能を示した。
- LLMが外部知識を反復的に獲得し,履歴に基づき推論することで,効果を発揮する。
C$^2$FG:スコア不一致解析による制御分類器フリーガイダンス [cs.LG]目的:拡散過程におけるスコア不一致解析に基づく,新しい制御分類器フリーガイダンス手法
- 近年の条件付き拡散モデルにおいて,分類器フリーガイダンスは不可欠な要素である。
- 固定または経験的な動的ガイダンス重みに依存しており,拡散過程のダイナミクスが考慮されていない。
- 拡散過程のダイナミクスに合わせたガイダンス強度調整により,既存手法の限界を克服すること。
- 本研究では,条件付き分布と無条件分布間のスコア不一致に関する厳密な上限を理論的に確立した。
- その結果,固定重み戦略の限界が説明され,時間依存型ガイダンスの原理的な基盤が確立された。
- 提案手法C$^2$FGは,多様な生成タスクにおいて有効であり,既存戦略と直交性を示すことが実験的に示された。
長期時系列予測の評価手法の再検討:本当に正しいゲームに勝っているのか [cs.LG, stat.ML]目的:長期時系列予測における評価慣行の再評価
- 時系列予測は,データマイニングや機械学習において中心的課題であり,様々な分野で不可欠である。
- 既存の評価方法は,平均二乗誤差などの集計指標に偏重し,実世界の複雑な要求に対応できていない。
- 統計的精度だけでなく,構造的整合性や意思決定への関連性を含む多角的な評価の必要性を提起する。
- 現在の評価基準は,ベンチマークへの特化を招き,時間的ダイナミクスの深い理解を妨げている。
- 本研究は,予測の進歩を測るという根本的な問いを再検討し,多次元的な評価の視点を提案する。
- 統計的忠実性,構造的コヒーレンス,意思決定レベルでの関連性を統合することで,より実用的な予測を目指す。
テキスト豊富なネットワークにおける分類群に基づいた表現学習による階層的知識の獲得 [cs.LG]目的:テキスト豊富なネットワークにおける階層的知識の獲得
- 現実世界の様々な分野で階層構造が重要であり,情報整理に不可欠である。
- 既存手法は平坦な意味モデルに焦点を当て,テキストに埋め込まれた階層的意味を見過ごしている。
- テキスト豊富なネットワークにおける階層構造を考慮した表現学習を実現し,モデルの解釈性と構造化を向上させる。
- 提案手法TIERは,まず暗黙の階層的分類群を構築し,それをノード表現学習に統合する。
- 類似度に基づくコントラスト学習とLLMによるクラスタリング精緻化により,意味的に一貫性のある分類群を構築する。
- 得られた分類群を活用し,コフェネティック相関係数に基づく正則化損失を導入することで,学習された埋め込み表現を階層構造に適合させる。
Covenant-72B:インターネットを介した信頼できるピアによる72B LLMの事前学習 [cs.DC, cs.LG]目的:グローバル分散型事前学習による大規模言語モデルの構築
- 大規模言語モデルの学習コスト削減と,より多くの参加者による開発を可能にする分野。
- 既存の分散学習モデルは規模が小さく,許可された参加者のみに限られていた。
- オープンかつ許可不要な参加を可能にし,大規模な分散型事前学習を実現すること。
- Covenant-72Bは,約1.1兆トークンで事前学習された72B LLMである。
- このモデルは,同規模またはそれ以上の計算資源で学習された集中型モデルと同等の性能を示す。
- 許可不要な分散型参加が,大規模な事前学習において可能であることを実証した。
自動車ソフトウェアシステムの検証のための説明可能なハイブリッド深層学習によるインテリジェントな故障検知・診断手法 [cs.HC, cs.SE, cs.AI]目的:自動車ソフトウェアシステムの検証におけるインテリジェントな故障検知・診断
- 自動車ソフトウェアの安全性確保は重要であり,開発プロセスの各段階でデータ駆動型機械学習が活用されている。
- 既存のブラックボックス型故障検知・診断モデルは解釈性が低く,原因究明やモデル適応が困難である。
- 予測根拠の明確化により,モデル適応を可能にし,安全性が要求されるリアルタイムアプリケーションでの信頼性を向上させる。
- 提案手法では,1次元CNNとGRUを組み合わせたハイブリッドモデルを用いて,リアルタイム検証データの解析を行う。
- IGs,DeepLIFT,Gradient SHAP,DeepLIFT SHAPといった説明可能なAI技術の活用により,モデル適応と根本原因分析を支援する。
- ハードウェアインザループシステムを用いた仮想テストドライブのデータを用いて,提案手法の有効性を検証した。
異種データを用いた産業用メンテナンスにおける証拠に基づく推論 [cs.CL, cs.AI]目的:産業用メンテナンスにおける証拠に基づく推論の実現
- 設備の安定稼働は産業活動の基盤であり,その重要性は高い。
- メンテナンスデータは分散・断片化しており,統合的な分析が困難である。
- 異種データを統合し,根拠のある意思決定支援を実現する。
- 本研究では,メンテナンス言語,動作データ,故障知識を統合する「Condition Insight Agent」を開発した。
- このフレームワークは,決定論的な証拠構築と構造化された故障知識を用いて推論を制約し,検証ループにより根拠のない結論を抑制する。
- 実運用での事例研究により,本手法が信頼性と人間による監視を維持しつつ機能することが示された。
進化戦略に基づく音声モデル低ビット量子化のキャリブレーション [cs.SD, cs.AI]目的:音声モデルの低ビット量子化におけるキャリブレーション手法
- 音声処理システムの効率的な実装には量子化が不可欠であり,その重要性は増している。
- 既存の量子化手法は主に画像や自然言語処理向けであり,音声特有の課題への対応が遅れている。
- 音声活性化関数の大きなキャリブレーション範囲による情報損失を軽減する。
- 提案手法ESCは,進化戦略を用いた活性化関数のスケーリング最適化により,INT8量子化下での性能劣化を抑制する。
- ESCは,複数の音声タスクにおいてINT4量子化下でほぼ損失のない性能を実現する初のキャリブレーション手法である。
- ESCをPTQ法と組み合わせることで,ASTモデルの精度低下を1%相対的に抑えることができた。
連続CoTは多言語推論により適しているか? [cs.CL, cs.AI, cs.LG]目的:多言語推論能力の堅牢性向上
- グローバル化が進み,多言語情報を扱う機会が増加しているため,多言語推論技術の重要性が高まっている。
- 既存の推論手法は,リソースの少ない言語への適用が難しく,言語依存性が高いという課題がある。
- 潜在空間での連続的な推論により,言語間の差異を吸収し,低リソース言語での性能向上を目指す。
- 連続CoTは,英語,中国語,ドイツ語,フランス語,ウルドゥー語という多様な言語において,標準的な教師ありファインチューニングを上回る性能を示した。
- 特に,ターゲット言語が訓練データに含まれていないゼロショット設定において,低リソース言語で顕著な性能向上が見られた。
- このアプローチは,推論トレースを約29倍から50倍に圧縮するという効率性も実現している。
ALOOD:LiDARを用いた分布外物体検出のための言語表現の活用 [cs.CV, cs.LG]目的:LiDARを用いた分布外物体検出手法
- 自動運転システムの安全性・信頼性は不可欠であり,3D物体検出はその重要な要素である。
- 既存の検出器は,未知のカテゴリの物体に対して過信した予測を行い,安全上のリスクとなる。
- 本研究は,言語表現を用いることで分布外物体検出の精度向上を目指す。
- 提案手法ALOODは,画像と言語の情報を統合するVLMを活用し,LiDAR特徴とVLMの特徴空間を整列させる。
- これにより,分布外物体検出をゼロショット分類問題として扱うことを可能にした。
- nuScenes OODベンチマークにおいて,競争力のある性能を達成し,LiDARによる分布外物体検出への新たなアプローチを確立した。
AutoAdapt:LLMのための自動ドメイン適応フレームワーク [cs.LG]目的:LLMのドメイン適応
- LLMは汎用性能が高いが,専門分野ではデータ不足や知識の更新が課題となる。
- 従来のドメイン適応は手動での試行錯誤に依存し,ハイパーパラメータ調整が複雑で,費用もかかる。
- 専門家の介入を減らし,効率的かつ信頼性の高いLLMのドメイン適応を実現する。
- AutoAdaptは,既存のAutoMLベースラインと比較して,平均で25%の相対的な精度向上を10のタスクで達成した。
- 知識ベースを活用し,提案/批判エージェント間の反復的な議論を通じてユーザーの意図とデータシグナルを整合させる。
- AutoRefineというLLMベースのサロゲートを用いて,限られた予算内でハイパーパラメータを最適化する。
TildeOpen LLM:カリキュラム学習を活用した公平な言語表現の実現 [cs.CL, cs.AI]目的:多言語における公平性向上と低リソース言語の性能改善
- 言語的多様性の重要性が高まる中,LLMの多言語対応は不可欠である。
- 英語等の高リソース言語への偏りにより,多くのヨーロッパ言語でLLMの性能が低い。
- データ不均衡を解消し,バランスの取れた学習戦略で多言語LLMの品質向上を目指す。
- TildeOpen LLMは,34のヨーロッパ言語に対応した300億パラメータの基盤モデルである。
- 既存のオープンウェイトモデルと比較して,テキスト生成と理解において優位性を示す。
- 特にバルト語,フィンノ・ウグリ語,スラブ語において顕著な性能向上と,言語エラーの減少が確認された。
SERQ:LLM量子化のための顕著性認識低ランク誤差再構成 [cs.LG]目的:LLM量子化における低ビット推論の精度向上
- LLMは高性能だが,メモリ・計算コストが大きい。効率的な利用が重要。
- 量子化による精度劣化が課題。特にW4A4設定下では顕著に低下する。
- 活性化と重みの顕著性を考慮し,単一の低ランク補償行列で精度を改善。
- SERQは,従来の誤差再構成手法よりもW4A8およびW4A4設定で高い精度を達成した。
- 回転ベースのW4A4アプローチと比較しても高い精度を示し,キャリブレーションの複雑さを低減した。
- 静的活性化フラットニング,顕著性認識誤差再構成,オフライン重み置換の3段階で構成される。
容量制約と波及効果を考慮した段階的サービスエリア設計 [cs.LG]目的:サービスエリア設計における段階的投資順序の決定
- サービスネットワークの地理的範囲決定は,長期的な運営成績に影響する重要な課題である。
- 同時展開が困難なため,需要不確実性の下で投資時期と場所を決定することが課題となる。
- 投資時期の選択と地域間連動による需要変化を考慮した最適な段階的展開を目指す。
- 提案手法であるTransformerベースの近接政策最適化(TPPO)は,既存の強化学習手法よりも高速に収束する。
- TPPOは,網羅的な列挙なしに,高いオプション価値を持つ投資順序を安定的に特定する。
- ケーススタディと感度分析により,提案手法の頑健性と,波及効果と市場変動下での適応的拡張の利点が確認された。
MM-TS:コントラスト学習におけるマルチモーダル温度およびマージンスケジュール(ロングテールデータ用) [cs.CV, cs.AI]目的:コントラスト学習におけるマルチモーダル温度とマージンスケジュールの改善
- マルチモーダル学習は,画像や言語など複数の情報を統合し,より高度な理解を可能にする重要な研究分野である。
- マルチモーダルデータセットは不均衡になりがちで,少数クラスの学習が課題となることが多い。
- ロングテールデータに対するコントラスト学習の性能向上を目指す。
- 提案手法MM-TSは,マルチモーダルコントラスト学習において温度パラメータを動的に調整することで,学習効率と性能を向上させる。
- 特に,データ分布の偏りを考慮し,高密度なクラスに対してはより高い温度を適用することで,意味構造の維持に貢献する。
- Flickr30K,MSCOCO,EPIC-KITCHENS-100,YouCook2の評価により,最先端の結果を達成した。
Tabular Foundation Modelにおける分布回帰:適切なスコアリングルールによる確率的予測の評価 [cs.LG, cs.AI]目的:Tabular Foundation Modelを用いた分布回帰における確率的予測の評価方法
- 表形式データの深層学習は,その実用性の高さから重要性が増している。
- 既存の評価指標は点予測に偏っており,確率的予測の質を十分に評価できていない。
- 適切なスコアリングルールを用いて,確率的予測の評価基準を改善することを目的とする。
- 本研究では,分布回帰における確率的予測の評価に適切なスコアリングルールを適用することの重要性を示した。
- 連続ランク確率スコア(CRPS)を回帰ベンチマークに導入することを提案し,その有効性を検証した。
- スコアリングルールがモデルの誘導バイアスに影響することを示し,ファインチューニングやプロンプタブルなモデルの利用を推奨した。
異種熱・可視センサーを用いたUAV検出のためのアライメント認識・信頼度ゲート型マルチモーダル融合 [cs.CL, cs.CV, cs.AI]目的:異種センサーからの情報を融合し,UAV検出性能の向上
- 自律的な空域監視には,UAVの信頼性の高い検出が不可欠であり,その重要性は増している。
- 従来の手法では,異なるセンサー間での空間的な対応関係の維持が難しく,アノテーションの不整合も課題となっていた。
- 本研究では,アライメントと信頼度を考慮した融合により,異種センサー間の情報を効果的に統合し,UAV検出の精度向上を目指す。
- RGIFは,ベースラインと比較してmAP@50で2.13%の改善を示し,97.65%を達成した。
- RGMAFは,最高の再現率である98.64%を達成した。
- アライメント認識と信頼度適応型融合は,異種モダリティ統合のための堅牢なフレームワークを提供する。
確率分布が暗黙的な機会制約付き多目的ナップサック問題の進化的多目的最適化 [cs.NE]目的:機会制約付き多目的ナップサック問題の最適解探索
- ナップサック問題は,組み合わせ最適化の古典であり,様々な実用的な応用分野を持つ。
- 不確実性下での意思決定を扱う機会制約問題は,計算コストが高いという課題がある。
- 暗黙的な確率分布下での機会制約付き多目的ナップサック問題の効率的な解法を開発する。
- 提案手法OPERA-MCは,支配関係を維持しつつ,評価時間を大幅に削減できる効率的なモンテカルロ法である。
- ハイブリッド進化アルゴリズムNHILSは,NSGA-IIに特殊な初期化と局所探索を統合し,疎な実行可能領域を効率的に探索する。
- NHILSは,合成ベンチマークと5Gネットワーク構成ベンチマークにおいて,最先端の多目的最適化手法を凌駕する性能を示す。
勾配の陳腐化の再検討:非同期分散学習集約のための距離尺度の評価 [cs.LG, cs.AI]目的:非同期分散学習における勾配の陳腐化の影響を評価する研究
- 分散学習は,プライバシー保護と大規模データ活用を両立する有望な手法である。
- 非同期学習では,勾配の陳腐化が学習の収束と精度を低下させる可能性がある。
- より適切な距離尺度を用いることで,陳腐化の影響を軽減し,学習の効率化を目指す。
- ユークリッド距離以外の距離尺度を導入した集約方法を提案し,その有効性を検証した。
- 異質なクライアントや非独立同一分布データ条件下で,提案手法がより安定した学習を可能にすることを示した。
- 特定の距離尺度を用いることで,非同期分散学習の性能が向上し,実用的な展開に貢献すると考えられる。
Wiener 混沌展開に基づくニューラル演算子:特異確率偏微分方程式への応用 [cs.LG]目的:特異確率偏微分方程式に対するWiener 混沌展開(WCE)に基づくニューラル演算子の適用
- 確率偏微分方程式は,物理学,工学,金融など広範な分野で現れる重要な数理モデルである。
- 特異確率偏微分方程式は,解の不規則性により数値計算が困難であり,高精度な近似解法が求められている。
- WCEに基づくニューラル演算子を用いて,特異確率偏微分方程式の効率的なデータ駆動型代理モデルを開発する。
- 提案手法であるWCE-FiLM-NOは,$\boldsymbol{\Phi}^4_2$モデルにおいて,相対的$L_2$損失,分布外$L_2$損失,自己相関スコアにおいて優れた性能を示した。
- WCE-FiLM-NOは,再正規化係数を用いることなく,良好な結果を得ることができた。
- さらに,統計量子場理論における現実的な応用である$\boldsymbol{\Phi}^4_3$モデルのシミュレーションの可能性を示した。
SplitAgent:企業とクラウドのエージェント連携のためのプライバシー保護分散アーキテクチャ [cs.CR, cs.AI]目的:企業とクラウドのエージェント間のプライバシー保護協調
- 企業におけるAI活用は重要だが,機密データの保護が課題となる。
- 既存のフレームワークはデータ共有を前提としており,機密情報を扱う環境には不向きである。
- 機密データを保護しつつ,クラウドAIの能力を活用できるアーキテクチャを構築すること。
- SplitAgentは,タスクの意味合いに応じてプライバシー保護を動的に調整するコンテキストアウェアなサニタイゼーションを導入した。
- 実験の結果,SplitAgentはタスク精度83.8%,プライバシー保護率90.1%を達成し,静的アプローチを大幅に上回った。
- コンテキストアウェアなサニタイゼーションは,静的メソッドと比較してタスクの有用性を24.1%向上させ,プライバシー漏洩を67%削減した。
曖昧な感情予測のための大規模オーディオ言語モデルにおける推論の解明 [cs.SD, cs.AI, eess.AS]目的:曖昧な感情認識における分布的推論
- 感情認識は,多様な応用において重要な役割を果たす。
- 既存手法は単一の感情ラベルを予測し,感情表現の本質的な曖昧さを無視する。
- 大規模言語モデルにおける曖昧な感情理解のための推論能力向上を目指す。
- 提案手法は,人間の知覚分布に合わせた目的関数と構造化された連鎖思考による指導で,曖昧さを考慮した推論を可能にする。
- IEMOCAPとCREMA-Dでの実験により,SFT,DPO,GRPOの各学習戦略で一貫した性能向上が確認された。
- 曖昧感情認識を分布的推論問題として再構築し,大規模オーディオ言語モデルの曖昧さへの対応を体系的に研究した。
