arXiv雑要約
AI - 2025/12/17 公開
FacEDiT:顔の動きの補完による統一的な表情編集と生成 [cs.CV, cs.AI]目的:表情編集と生成の統一的定式化
- 動画やコミュニケーションにおいて,自然な顔の表現は重要な要素である。
- 表情編集と顔生成は別個に研究されており,シームレスな統合が課題である。
- 顔の動きの補完というアプローチで,編集と生成を統一的に解決する。
- FacEDiTは,拡散Transformerを用いて顔の動きを補完し,高品質な表情編集と生成を実現する。
- 編集,挿入,削除といった多様な編集操作を,滑らかな遷移とともに実現可能である。
- FacEDiTBenchという新しい評価データセットを導入し,客観的な評価を可能にした。
昼光連動制御のための作業面照度分布のリアルタイム予測:非侵襲的マルチモーダル深層学習 [cs.RO, cs.CV, cs.AI]目的:作業面照度分布のリアルタイム予測
- 建物における省エネルギーは重要であり,特に豊富な自然光を活用することが求められている。
- 既存の研究は静的なシーンに焦点を当てており,動的に変化する室内環境への対応が課題である。
- 動的な室内環境下での高精度な照度予測を可能にし,昼光連動制御の性能向上を目指す。
- 提案手法は窓周りの画像特徴のみを利用することで,室内状況に左右されず適用可能である。
- 同一データセットでのR2値は0.98を超え,RMSEは0.14未満という高い精度を達成した。
- 未知の日におけるテストにおいても,R2値0.82以上,RMSE0.17未満の良好な汎化性能を示した。
効率的DLM:自己回帰から拡散言語モデルへ,そして速度の限界を超える [cs.CL, cs.CL, cs.AI, cs.LG]目的:事前学習済み自己回帰モデルを効率的な拡散言語モデルに変換すること
- 拡散言語モデルは並列生成が可能だが,ゼロから学習した場合の効率が自己回帰モデルに劣る。
- 既存の自己回帰モデルから拡散言語モデルへの変換手法には,注意機構や目的関数に課題がある。
- 事前学習済みモデルの性能を維持しつつ,拡散言語モデルの学習効率と速度を向上させる。
- 事前学習済み自己回帰モデルの重み分布を維持することが,効果的な変換に不可欠であることが示された。
- ブロック単位の注意機構と位置依存型マスク戦略により,精度と効率の両立を実現した。
- Efficient-DLM 8Bは,Dream 7BやQwen3 4Bと比較して,精度とスループットで優れた性能を示した。
SDAR-VL:ビジョン言語理解のための安定かつ効率的なブロックごとの拡散 [cs.CV, cs.AI]目的:大規模ビジョン言語理解のためのブロックごとの離散拡散の体系的な応用
- ビジョン言語理解は,画像とテキストの意味的関連性を捉え,多様な応用を可能とする重要な研究分野である。
- 従来のブロック拡散は,学習コストが高く,収束が遅く,不安定であり,実用化が妨げられていた。
- SDAR-VLは,ブロック拡散の効率性と安定性を向上させ,実用的なビジョン言語理解の基盤となることを目指す。
- SDAR-VLは,非同期ブロックごとのノイズスケジューリング,効果的なマスク比率スケーリング,および漸進的なベータノイズカリキュラムを統合したフレームワークを提案する。
- 実験の結果,SDAR-VLは,従来のブロック拡散と比較して,学習効率,収束安定性,およびタスクパフォーマンスが大幅に向上することが示された。
- 評価スイートにおいて,SDAR-VLは,拡散ベースのビジョン言語モデルの中で最先端の性能を達成し,LLaVA-OneVisionなどの強力な自己回帰ベースラインに匹敵またはそれを上回る。
RADAR: 強化学習に基づく動的ドラフトツリーを用いた大規模言語モデル推論の高速化 [cs.AI]目的:大規模言語モデル推論の高速化手法
- 近年の大規模言語モデルは高性能だが,計算コストが高く,推論速度が課題となっている。
- 推論高速化手法の一つに推測サンプリングがあるが,ドラフトモデル呼び出し回数が固定されており柔軟性に欠ける。
- 強化学習を用いて動的にドラフトツリーを生成し,冗長な計算を削減することで推論を加速する。
- RADARは,3つのLLMと4つのタスクにおいて,自己回帰デコーディングと比較して3.17倍から4.82倍の高速化を達成した。
- ドラフトツリー生成をマルコフ決定過程として定式化し,オフライン強化学習で予測モデルを学習する。
- リアルタイムにドラフトモデルへの呼び出しを決定し,計算資源を効率的に利用することで高速化を実現する。
FusAD:適応的ノイズ除去を用いた時間周波数融合による汎用時系列分析 [cs.LG]目的:多様な時系列タスクに対する統合的分析フレームワーク
- 金融,医療,産業,気象など広範な分野で不可欠であり,分類,予測,異常検知等の基盤となる。
- 既存手法は特定のタスクやデータに特化し,マルチタスク対応と多様な時系列データの統合が困難である。
- ノイズや複雑な周波数成分,マルチスケール動的パターンを考慮し,ロバストな特徴抽出と分析を目指す。
- FusADは,フーリエ変換とウェーブレット変換を融合し,グローバル・ローカルおよびマルチスケール動的特徴を効率的に捉える。
- 適応的ノイズ除去機構により,様々なノイズを自動的に検出しフィルタリングし,複雑な環境下でのロバストな特徴抽出を可能にする。
- 分類,予測,異常検知の主要な時系列ベンチマークにおいて,最先端モデルを凌駕する性能を示す。
マルチエージェントシステムのための文法探索 [cs.AI, cs.CL, cs.MA]目的:マルチエージェントシステムの自動探索
- エージェント型AI研究において,自動化されたシステム構築が重要視されている。
- 既存手法はLLMに頼るため,柔軟性は高いが,コストや解釈性に課題がある。
- 単純な構成要素の組み合わせによる,効率的かつ解釈可能なシステム構築を目指す。
- 提案手法は,LLMベースの手法と比較して,5つのベンチマークのうち4つで優れた性能を示した。
- 探索コストの削減,そしてモジュール構造で理解しやすいシステム生成が可能となった。
- 数学と質問応答の二つの領域において有効性が確認された。
SonicMoE:IOおよびタイル認識による最適化を用いたMoEの高速化 [cs.LG, cs.AI]目的:MoEモデルの効率的な計算とメモリ使用量の削減
- 大規模言語モデルの性能向上には,モデルの規模拡大が不可欠であり,MoEはそのための有効な手法である。
- 高粒度MoEはメモリ使用量が増大し,スパースMoEは計算資源の無駄が生じるという課題があった。
- IOとタイル認識による最適化により,MoEモデルの計算効率とメモリ効率を向上させることを目指す。
- 提案手法SonicMoEは,活性化メモリを45%削減し,Hopper GPUにおける計算スループットを1.86倍向上させた。
- 64個のH100 GPUを用いた実験で,SonicMoEはFSDP-2を用いた7B MoEモデルの学習において,96個のH100 GPUを用いたScatterMoEと同等の性能(2130億トークン/日)を示した。
- 高スパースMoE設定下では,タイル認識型トークン丸めにより,従来のtop-$K$ルーティングと比較してカーネル実行時間が1.16倍高速化された。
微分情報に基づくフーリエニューラル演算子:汎用近似と偏微分方程式制約最適化への応用 [cs.LG, cs.NA, math.NA]目的:偏微分方程式制約最適化における微分情報に基づくフーリエニューラル演算子(DIFNO)の近似理論と効率的な学習手法
- 機械学習と物理シミュレーションの融合は,計算コストを削減し,複雑な問題を解決する可能性を秘めている。
- 高次元の偏微分方程式を扱う際,高精度なサロゲートモデルの構築と,その微分情報の正確な算出が課題である。
- DIFNOを用いることで,演算子とその微分の両方を高精度に近似し,偏微分方程式制約最適化を効率的に行うことを目指す。
- DIFNOは,従来のFNOと比較して,サロゲートモデルのFréchet微分精度が向上し,偏微分方程式制約最適化において優れた性能を示す。
- 連続微分可能な演算子に対して,FNOとそのFréchet微分のコンパクト集合上での同時汎用近似性と,重み付きソボレフ空間における汎用近似性が理論的に証明された。
- 次元削減やマルチ解像度技術を用いた効率的な学習スキームにより,Fréchet微分学習のメモリコストと計算コストを大幅に削減できる。
演算強度を意識した量子化 [cs.LG, cs.AI]目的:演算強度最大化と精度低下最小化のための混合精度量子化手法
- 現代のニューラルネットワークはメモリボトルネックになりやすく,推論速度向上が重要である。
- 既存手法では,メモリ帯域幅を有効活用できていない場合がある。
- 本研究は,演算強度を指標として量子化ビット幅を最適化することで,効率的な推論を実現する。
- AIQは,ResNet-20/CIFAR-10において,FP32ベースラインと比較して演算強度を約50%向上させた。
- AIQは,テスト精度を約1%ポイント以内で維持しつつ,グローバル均一量子化手法を上回る性能を示した。
- メモリボトルネックとなるMobileNetV2では,AIQによりFP32ベースライン比で1.66倍のスループットを実現した。
ProtoFlow:学習された動的シーングラフ原型による解釈可能かつ堅牢な外科ワークフローモデリング [cs.CV, cs.AI]目的:外科ワークフローのモデリング
- AI支援手術の発展には詳細な外科認識が不可欠であり,医療の質向上に貢献する。
- アノテーションコストの高さ,データ不足,解釈可能性の欠如が課題となっていた。
- シーングラフの潜在能力を引き出し,解釈可能で堅牢なワークフローモデリングを実現する。
- ProtoFlowは,標準的なGNNベースラインよりも高い全体精度を達成した。
- 限られたデータやFew-shotシナリオにおいても,高い性能を維持し,頑健性を示した。
- 学習された原型は,明確な外科的サブテクニックを特定し,ワークフローの逸脱や合併症に関する洞察を提供した。
Cornserve:汎用マルチモーダルモデルの効率的な配信 [cs.LG, cs.DC]目的:汎用マルチモーダルモデルの効率的なオンライン配信システム
- 近年のマルチモーダルAIの発展により,テキストと画像などの多様なデータを扱うモデルが増加している。
- 従来の配信システムでは,多様な入力と出力に対応する汎用モデルの効率的な処理が課題となっていた。
- 多様な計算グラフを持つモデルに対し,自動的に最適化された配信計画を立て,効率的な配信を実現すること。
- Cornserveは,マルチモーダルモデルの計算グラフを記述する機能を備え,自動的に最適化された配信計画を生成する。
- 実験の結果,Cornserveは既存のソリューションと比較して,最大3.81倍のスループット向上と最大5.79倍のテールレイテンシ削減を達成した。
- これにより,多様な汎用マルチモーダルモデルとワークロードの効率的な配信が可能となる。
RLHFにおける報酬モデルの代替案:一階論理に基づく手法 [cs.LG, cs.LO]目的:人間の価値観と選好に沿った言語モデルの調整
- 大規模言語モデルの性能向上には,人間の価値観との整合が不可欠である。
- 従来の報酬モデルは,品質や安定性の問題があり,調整のボトルネックとなり得る。
- 形式論理の一貫性を利用し,報酬モデルに依存しない調整手法を開発する。
- 提案手法S-GRPOは,標準的な教師ありファインチューニング(SFT)よりも性能とロバスト性で優れている。
- S-GRPOは,既存の選好学習フレームワーク(GRPO, DPO)を拡張し,より柔軟な調整を可能にする。
- 本手法は,モデルの崩壊を防ぐために,教師あり成分を導入し,複数の目的関数を同時に最適化する。
リモートセンシング画像検索のためのファウンデーションモデルにおけるニューロシンボリック推論:複雑なクエリへの対応 [cs.CV, cs.AI, cs.IR]目的:リモートセンシング画像のテキスト-画像検索における複雑なクエリへの対応
- リモートセンシング技術は,環境モニタリングや災害対応など,多岐にわたる分野で不可欠である。
- 既存のリモートセンシング画像検索システムは,複雑な空間関係の理解や説明可能性に課題がある。
- ニューロシンボリック推論を用いて,複雑なクエリに対応し,説明可能性の高い画像検索を実現すること。
- 提案手法RUNEは,大規模言語モデル(LLM)とニューロシンボリックAIを組み合わせ,テキストクエリから得られた一階述語論理式を用いて画像検索を行う。
- RUNEは,既存の共同埋め込みモデルと比較して,複雑なクエリに対する検索性能,堅牢性,説明可能性において優れている。
- DOTAデータセットを拡張し,より複雑なクエリを用いて評価した結果,LLMによるテキスト-論理変換の有効性が確認された。
HydroGEM:自己教師ありゼロショットハイブリッドTCN-Transformer基盤モデルによる大陸規模河川流量品質管理 [cs.AI]目的:大陸規模河川流量の品質管理のための基盤モデル
- 河川流量データは水資源管理や洪水予測に不可欠であり,その信頼性は社会インフラを支える上で重要である。
- 広範囲に設置された河川流量センサーのデータ品質維持には膨大な労力が必要であり,リアルタイムでの品質管理が課題である。
- 本研究は,大規模河川ネットワークにおける異常検知とデータ再構成を通じて,データ品質管理の自動化を目指す。
- HydroGEMは,自己教師あり学習と異常データの活用により,大陸規模の河川流量データに対して高い検出性能を示した。
- 専門家が検証した異常に対してF1スコア0.792を達成し,既存手法と比較して36.3%の再構成誤差削減を実現した。
- カナダの環境・気候変動省のデータへのゼロショット転移においても,既存手法を上回る性能を示し,汎化能力を証明した。
ハイブリッド液体ニューラルネットワークと極大勾配ブースティングモデルによる多層サプライチェーン発注の最適化 [cs.RO, cs.AI]目的:多層サプライチェーンにおける発注最適化
- サプライチェーンは経済活動の基盤であり,効率的な管理が不可欠である。
- 需要変動やブルウィップ効果など,従来の管理手法では対応が困難な課題が存在する。
- 効率性と適応性を両立し,インテリジェントなサプライチェーン管理を実現すること。
- 本研究では,液体ニューラルネットワーク(LNN)と極大勾配ブースティング(XGBoost)のハイブリッドモデルを提案した。
- LNNの動的な特徴抽出能力とXGBoostのグローバル最適化能力を組み合わせることで,ブルウィップ効果を抑制し,収益性を向上させることを目指した。
- この革新的なアプローチは,複雑な時系列データに対応し,従来のモデルの計算効率の課題を克服しうる。
ロバストな音声ターム検出とキーワードスポッティングのための共同マルチモーダルコントラスト学習 [cs.SD, cs.LG]目的:音声ターム検出とキーワードスポッティングにおけるロバスト性の向上
- 音声認識技術は,音声データの効率的な検索と利用に不可欠であり,その重要性は増している。
- 既存手法は,単一のモダリティからの学習や,音声とテキストの整合性の最適化が不十分である。
- 音声とテキストの表現を統合し,音声間の識別能力を高めることで,よりロバストなシステムを構築する。
- 提案手法は,CLAP lossに着想を得た音声-テキストコントラスト学習と,DWD lossを用いた音声-音声コントラスト学習を同時に最適化する。
- 単語識別タスクにおいて,既存のAWEベースラインを上回り,STDとKWSの両方を柔軟にサポートする。
- 本研究は,この種の包括的なアプローチとして初めての試みである。
SportsGPT:LLM駆動による解釈可能なスポーツモーション評価とトレーニングガイダンスのフレームワーク [cs.CL, cs.CV, cs.AI]目的:スポーツモーションの解釈可能な評価とトレーニングガイダンス
- スポーツ科学の発展には,客観的かつ詳細なパフォーマンス分析が不可欠である。
- 既存システムは,スコアリングや可視化に偏重し,詳細な診断や個別指導に欠ける場合が多い。
- LLMとモーション解析技術を用いて,自動診断と的確なトレーニングガイダンスを提供すること。
- 提案手法MotionDTWは,従来の方式と比較して時間誤差が少なく,IoUスコアが高いことが示された。
- KISMAMとSportsRAGのアブレーションスタディにより,SportsGPTが汎用的なLLMよりも診断精度と専門性が高いことが確認された。
- モーションデータから専門的なトレーニングガイダンスを生成する閉ループシステムが実現された。
UIXPOSE:意図と行動の不一致分析によるモバイルマルウェア検出 [eess.SY, cs.SY, cs.CR, cs.AI]目的:モバイルマルウェア検出のための意図と行動の不一致分析
- モバイルアプリの普及に伴い,マルウェアによる脅威が増大しており,迅速かつ正確な検出が不可欠である。
- 既存手法では,静的な情報や粗い動的シグナルに頼るため,巧妙に隠蔽されたマルウェアの検出が困難である。
- UIXPOSEは,視覚情報とネットワーク通信などを組み合わせることで,より高精度なマルウェア検出を目指す。
- UIXPOSEは,UIから推測される意図と実行時のセマンティクスを比較することで,マルウェアの不正な挙動を検出する。
- 実世界の事例研究において,メタデータのみでは検出できない隠れた情報窃取やバックグラウンドでの活動を明らかに示した。
- 意図と行動の整合性評価(IBA)が,動的なマルウェア検出の精度向上に貢献することが示された。
LAPPI:LLM支援による嗜好に基づいた問題インスタンス化を用いたインタラクティブな最適化 [cs.HC, cs.AI]目的:LLM支援による問題インスタンス化
- 現実世界のタスクは最適化問題として定式化可能であり,効率的な解決策の導出が求められている。
- 最適化ソルバー利用には専門知識が必要で,問題の定義がエンドユーザーにとって困難である。
- 自然言語による対話を通して,曖昧な嗜好を明確な最適化問題に変換すること。
- LAPPIは,ユーザーの嗜好を正確に捉え,実行可能な計画を生成することに成功した。
- 従来の計画手法やプロンプトエンジニアリングと比較して,より優れた計画を生成できた。
- 旅行計画以外にも,異なるユースケースへの適応可能性が示された。
TorchTraceAP: コンピュータビジョンモデルにおけるパフォーマンス反パターンの検出のための新しいベンチマークデータセット [cs.CV, cs.AI]目的:コンピュータビジョンモデルにおけるパフォーマンス反パターン検出能力の評価と改善
- 機械学習モデルの効率的な学習と推論には,パフォーマンス反パターンの特定と修正が不可欠である。
- 長時間の実行トレースから問題のあるセグメントを特定することは困難であり,自動化が難しい。
- 機械学習モデルを用いた反パターン検出能力を評価するためのベンチマークデータセットを構築し,検出手法を改善する。
- 提案手法は,教師なしクラスタリングやルールベースの手法と比較して,反パターン領域の検出において大幅に優れた性能を示した。
- 軽量な機械学習モデルが反パターンを含むトレースセグメントを検出し,その後,大規模言語モデルが詳細な分類とフィードバックを行うことで,効果的な検出を実現した。
- 本手法は,大規模言語モデルのコンテキスト長制限や推論の非効率性を補償できることが示された。
PathFinder:単一から複数送信機シナリオにおけるパス損失予測の高度化 [cs.CL, cs.LG, cs.AI]目的:5Gネットワーク最適化,IoT,スマートシティなどの実現に向けた無線パス損失予測の改善
- 5G等の無線通信技術の発展には,高品質なパス損失予測が不可欠である。
- 既存手法は,環境変化や複数送信機環境への対応が不十分である。
- 環境と送信機を考慮したモデルにより,予測精度と汎化性能の向上を目指す。
- PathFinderは,環境と送信機を分離表現し,受信機と建物領域に注目するメカニズムを導入した。
- Transmitter-Oriented Mixup戦略により,分布シフトへのロバスト性を強化している。
- S2MT-RPPベンチマークを用いた評価で,既存手法を大幅に上回る性能を示した。
画像を用いた医療画像解析におけるツール支援思考のインセンティブ設計 [cs.AR, cs.PF, cs.AI, cs.CV]目的:医療画像解析におけるツール支援思考のインセンティブ設計
- 医療画像解析は,病気の早期発見や正確な診断に不可欠であり,医療の質向上に貢献する重要な分野である。
- 既存の医療画像解析AIは,複雑なタスクにおいて,視覚的な領域への動的な集中と精密な根拠付けに課題がある。
- 本研究は,ツールとAIを統合し,より高度な推論能力を持つ医療AIエージェントの実現を目指す。
- 本研究で開発したOphiuchusは,必要な時に追加の視覚的証拠を決定し,医療画像内の適切な箇所を探索・根拠付けする能力を持つ。
- Ophiuchusは,既存の最先端技術と比較して,VQA,検出,推論に基づくセグメンテーションなど,多様な医療ベンチマークで一貫して高い性能を示した。
- 本研究は,ツールと統合された推論を通じて,「画像で思考する」医療AIエージェントへの道を照らすものである。
IntentMiner:モデルコンテキストプロトコルにおけるツールコール分析を通じた意図逆転攻撃 [cs.CR, cs.AI]目的:意図逆転の脆弱性評価
- LLMが自律エージェントとして進化し,外部ツール利用が一般的になっている。
- ツール利用ログが外部に漏洩し,ユーザーのプライバシーが侵害されるリスクがある。
- ツールコール分析のみからユーザーの意図を推定する攻撃の危険性を示す。
- IntentMinerは,ツールコールログから高い精度(85%以上)でユーザーの意図を推定可能である。
- 従来の基盤手法と比較して,有意に高い意味的整合性を示した。
- デカップルされたエージェントアーキテクチャに内在するプライバシーリスクを明らかにした。
形式的検証を用いた深層アクティブラーニングの改善について [cs.LG, cs.LO]目的:深層アクティブラーニングの性能向上
- ニューラルネットワーク学習には大量のラベル付きデータが必要であり,コストが高い。
- アクティブラーニングはラベルコスト削減を目指すが,効果的なサンプル選択が課題。
- 形式的検証により生成された敵対的サンプルを用いたデータ拡張による性能向上。
- 形式的検証で生成した敵対的サンプルは,勾配ベースの攻撃で生成したものより効果が高いことが示された。
- 本手法を既存のアクティブラーニング技術に適用することで,モデルの汎化性能が大幅に向上した。
- 提案する新たな技術も,同様の効果を示すことが確認された。
LLMを用いたベンガル標準語から方言への機械翻訳における検索拡張生成手法の比較分析 [cs.CL, cs.AI, cs.IR]目的:ベンガル標準語から方言への機械翻訳のための検索拡張生成パイプラインの比較
- 言語の多様性維持は重要であり,特にデータが少ない言語や方言の翻訳は課題である。
- ベンガル語のような言語では,方言間のデータ不足と言語的変異が機械翻訳の精度を阻害する。
- 低リソース言語の方言翻訳において,ファインチューニング不要で効果的な解決策を提供すること。
- 標準化された文ペアを用いたパイプラインは,トランスクリプトベースのパイプラインを一貫して上回り,チッタゴン方言におけるWERを76%から55%に低減した。
- 適切な検索戦略はモデルサイズよりも重要であり,小規模モデル(Llama-3.1-8B)が大規模モデル(GPT-OSS-120B)を上回ることを示した。
- 本研究は,低リソース方言翻訳のための効果的な解決策を提供し,言語的多様性の保護に貢献する。
エンドツーエンド学習に基づくビデオストリーミング強化パイプライン:生成AIアプローチ [cs.CG, cs.MM, cs.AI]目的:ビデオストリーミングの品質向上
- 高画質とスムーズな再生は重要であり,帯域幅とのトレードオフが課題である
- 従来のコーデックは文脈を考慮できず,冗長なデータも送信する必要がある
- 生成AIを活用し,帯域幅を増やさずに高品質なストリーミングを実現する
- ELVISは,サーバー側のエンコード最適化とクライアント側の生成によるインペインティングを組み合わせる
- 現在の技術では,ベースラインベンチマークに対して最大11 VMAFポイントの改善が見られた
- リアルタイムアプリケーションへの応用には計算負荷が課題だが,生成AIの活用が期待される
モーメンタムに基づく適応行列を用いた敵対摂動の最適化 [cs.LG]目的:敵対的摂動の最適化手法
- 機械学習モデルの脆弱性を評価し,ロバスト性を向上させるために,敵対的攻撃の研究が重要である。
- 従来の敵対的攻撃手法は,最適化の観点から理論的な問題点を抱えており,収束性が保証されていない。
- モーメンタムに基づく適応行列を利用することで,敵対的攻撃の収束性と安定性を改善することを目的とする。
- 提案手法AdaMIは,凸問題において最適な収束性を達成し,MI-FGSMの非収束問題を解決することで最適化プロセスの安定性を確保する。
- 実験結果から,AdaMIは最先端の手法と比較して,ネットワーク間の敵対的転移性を向上させつつ,安定性と不可視性を維持することが示された。
- 提示されたモーメンタムに基づく適応行列は,様々なネットワークにおいて汎用的かつ効果的な技術となりうる。
生成モデルのための確率的輸送としてのランダムブリッジ [cs.RO, cs.LG, math.PR]目的:生成モデリングにおける確率的輸送
- 生成モデルは,データ分布を学習し,新たなデータを生成する上で重要な役割を担う。
- 従来の生成モデルは,サンプリングに多くのステップを必要とし,計算コストが高いという課題がある。
- ランダムブリッジを用いることで,より効率的なサンプリングと高速な生成を可能にすることを目指す。
- ガウスランダムブリッジを用いた実験により,従来のモデルと比較して,大幅に少ないステップ数で高品質なサンプルを生成することに成功した。
- 提案手法は,計算コストが低く,高速な生成タスクに適していることが示された。
- ランダムブリッジが,情報処理の観点から学習・シミュレーションアルゴリズムに適用できることを示した。
双曲型深層強化学習の理解と改善 [cs.LG, cs.AI]目的:双曲型深層強化学習エージェントの訓練における成功と失敗要因の特定
- 強化学習において,環境の複雑な構造を捉える表現学習が重要である。双曲空間は,その構造を自然に表現できる。
- 強化学習の非定常性により,双曲空間を活用した訓練は最適化が困難となる場合がある。
- 双曲型深層強化学習エージェントの訓練における勾配不安定性を抑制し,学習の安定化を図る。
- 提案手法Hyper++は,カテゴリー型価値損失,特徴正則化,最適化しやすい双曲ネットワーク層により,安定した学習を保証する。
- ProcGen環境において,Hyper++は既存の双曲型エージェントを上回り,学習時間を約30%削減した。
- Atari-5環境(Double DQN)においても,Hyper++はユークリッド空間および双曲空間のベースラインを大きく上回った。
大規模言語モデルの比較による問題難易度の推定 [cs.LG, cs.AI]目的:問題難易度の推定方法
- 大規模言語モデルの性能向上に伴い,より高度な評価データの必要性が高まっている。
- 従来の難易度推定方法は,未知の問題や人間で解けない問題への汎化が困難である。
- 人間や既存モデルに解けない問題の難易度も推定できる手法を開発する。
- 提案手法「LLM compare」は,大規模言語モデル間のペアワイズ比較により難易度を推定する。
- この手法は,連続的かつ動的,モデル非依存,正解データ不依存であり,従来の評価方法の課題を克服する。
- 人間による難易度評価との相関が強く(Pearson $r \geq 0.80$),ハルシネーションに対しても頑健性を示す。
大規模言語モデルを用いた複雑な相対位置記述の地理参照 [cs.AI]目的:複雑な位置記述の地理参照
- 生物多様性研究において地理情報は不可欠であり,正確な位置情報は調査の基礎となる。
- 古来の標本記録では座標が記録されず,相対的な位置記述が一般的であり,地理参照が困難である。
- 大規模言語モデルを用いて,複雑な位置記述から自動的に地理情報を抽出することを試みる。
- 本研究では,効果的なプロンプト設計とQLoRAによるファインチューニングを行った結果,既存手法を上回る性能を示した。
- データセット全体で,地理参照の平均精度は10km圏内で65%に達し,特にニューヨーク州では10km圏内で85%,1km圏内で67%の精度を達成した。
- 大規模言語モデルは,長文かつ複雑な位置記述の地理参照において高い潜在能力を発揮することが示された。
マルチモーダル対照学習におけるデータフィルタリングによる利点の理解 [cs.LG, stat.ML]目的:マルチモーダル対照学習におけるデータフィルタリングの利点
- インターネット規模のデータセットが重要だが,その品質が課題となっている。
- Webデータには低品質なものが多く,データキュレーションが不可欠である。
- 教師ありフィルタリングの有効性を理論的に説明し,データフィルタリングの利点を明確化する。
- データフィルタリングにより,エラーの上限が改善されることが示された。
- η(正しくペアリングされたデータの割合)が高い場合,エラーは 1/√(ηn) で抑えられる。
- ηが低い場合,エラーは 1/√n まで減少する。
PentestEval:モジュール化とステージレベル設計によるLLMベースのペネトレーションテストのベンチマーク [cs.SE, cs.AI, cs.CR]目的:LLMベースのペネトレーションテストの評価基準
- システムセキュリティは重要であり,現実世界の脅威に対する脆弱性を評価し強化する必要がある。
- 従来のペネトレーションテストは,手作業が多く,専門知識が必要であり,スケーラビリティに課題がある。
- LLMの各ステージにおける能力を詳細に評価し,より信頼性の高い自動化を実現すること。
- PentestEvalは,ペネトレーションテストの6つのステージ(情報収集,脆弱性特定・フィルタリング,攻撃決定,エクスプロイト生成・修正)を網羅する初の包括的なベンチマークである。
- 9つのLLMのステージレベル評価の結果,全体的なパフォーマンスは低く,各ステージに明確な制限が見られた。
- 既存のLLM搭載システム(PentestGPT,PentestAgent,VulnBot)は同様の制限があり,自律エージェントはほぼ完全に失敗する。
ラダーを上って記憶を下げる:サイドネットによる低コストなファインチューニング [cs.CL, cs.LG]目的:大規模言語モデルのファインチューニングにおけるメモリ効率の向上
- 大規模言語モデルの活用が広がる中で,限られた計算資源での効率的な学習が重要になっている。
- 大規模言語モデルのファインチューニングでは,GPUメモリがボトルネックとなり,学習が制限される場合がある。
- 本研究は,メモリ使用量を削減しつつ,高性能なファインチューニングを実現する手法を提案する。
- Ladder Side Tuning (LST)は,QLoRAと同程度の計算スケーリングを持ちながら,ピークメモリ使用量を50%削減する。
- LSTは,自然言語理解,数学,LLM評価などの多様なタスクにおいて,QLoRAと同程度の精度を維持しつつ,メモリ効率に優れる。
- xLadderは,LSTのアーキテクチャ的柔軟性を活用し,パラメータ数を増やさずに推論の深さを向上させる。
反応拡散系の物理整合性モデル学習 [cs.CL, cs.LG, math.AP, math.OC]目的:反応拡散系のデータからの学習における,物理的整合性と定式化の良さの保証
- 反応拡散系は,生物学,化学,物理学など,多様な現象を記述する上で重要である。
- 既存の学習手法では,物理法則を満たす整合性のあるモデルを保証することが困難である。
- 物理法則(質量保存則,準正値性)を学習過程に組み込み,整合性のあるモデル構築を目指す。
- 提案手法により,質量保存則と準正値性を満たす反応項の系統的な修正が可能となった。
- 修正された反応項を用いることで,学習された反応拡散系は非負性を保ち,物理原理に適合する。
- 理論的に,学習問題の解が,制約条件のもとで一意の正則化最小化解に収束することが証明された。
MMDを超えて:幾何学的深層学習によるグラフ生成モデルの評価 [cs.LG, cs.AI, physics.soc-ph]目的:グラフ生成モデルの評価手法
- ネットワーク科学やバイオインフォマティクスなど,様々な分野でグラフ生成が重要である。
- 既存の評価指標であるMMDは,グラフの構造的特徴を十分に捉えられないという課題がある。
- MMDの限界を克服し,より信頼性の高い評価を実現するための手法を提案する。
- 提案手法RGMは,生成されたグラフの表現を考慮することで,MMDの限界を克服できることを示した。
- GRANとEDGEの2つの最先端モデルにおいて,生成されたグラフがドメイン固有の構造的特徴を保持できていないことが判明した。
- MMDがグラフ生成モデルの評価指標として不適切であり,代替アプローチの検討が必要であることを指摘した。
文脈からEDUへ:素片的談話単位分解による忠実で構造化された文脈圧縮 [cs.CL, cs.AI]目的:大規模言語モデルにおける文脈圧縮手法
- 長文処理はLLMの性能を左右し,コスト増大やノイズ混入の原因となるため重要である。
- 既存手法は局所的な一貫性を損なうか,位置バイアスやAPI互換性の問題がある。
- 文脈の構造と詳細を維持しつつ,効率的な圧縮を実現することを目指す。
- 提案手法は,文脈を素片的談話単位(EDU)の構造化された関係ツリーに変換することで,構造的理解の精度を向上させた。
- 構造予測の精度は最先端レベルを達成し,既存のLLMと比較して大幅なコスト削減と性能向上を実現した。
- 長文コンテキスト処理や深層検索など,様々な下流タスクにおいて高い効果が確認された。
ゲーデルの詩 [cs.AI, cs.LG]目的:Lean4証明生成のための言語モデルと再帰的定理分解
- 形式定理証明は,人工知能における重要な課題であり,自動化が求められている。
- 複雑な定理の証明自動化は難しく,証明戦略の設計が課題となっている。
- 複雑な定理をより簡単な命題に分解し,再帰的に証明することで解決を目指す。
- 本研究では,Lean4証明生成に特化した言語モデルと再帰的定理分解を組み合わせた新しいアプローチを提案した。
- multi-agentアーキテクチャを用いて,自動形式化,証明生成,定理分解を調整し,miniF2Fで90.4%の成功率を達成した。
- AST解析機能をKimina Lean Serverに追加することで,自動再帰的証明分解を可能にした。
FLAME:汎用時系列予測のための流れ強調Legendreメモリモデル [cs.LG]目的:汎用時系列予測のためのLegendreメモリモデル
- 時系列データは様々な分野で現れ,将来予測は重要な課題である。
- 従来のモデルは,長期的な依存関係の捕捉や効率的な予測に課題がある。
- Legendreメモリを活用し,効率的かつロバストな予測モデルを開発すること。
- FLAMEは,決定論的および確率的予測の両方をサポートする軽量な時系列基盤モデルである。
- Legendreメモリの変形(LegT,LegS)を用いることで,データの内在する誘導バイアスを効率的に捉える。
- TSFM-BenchやProbTS等のベンチマークで,ゼロショット性能が最先端水準であることが示された。
説明可能な嗜好学習:嗜好性ベイズ最適化のための決定木ベースの代替モデル [cs.LG, cs.AI, math.OC]目的:嗜好性ベイズ最適化における代替モデル
- ベイズ最適化は,評価コストの高い関数の最適化に有効である。
- 従来のガウス過程モデルは解釈が難しく,カテゴリデータに弱く,計算コストが高い。
- 決定木モデルを用いることで,解釈性と計算効率を向上させることを目指す。
- 提案手法は,スパイク状の関数においてガウス過程モデルを上回り,非スパイク状の関数でも遜色ない性能を示す。
- 寿司データセットを用いた実験により,個人の寿司の嗜好を学習できることが示された。
- 過去の嗜好データを利用することで,新規ユーザーに対する最適化を加速する可能性が示された。
深層学習による持続ホモロジー図における有意点の検出 [cs.CV, cs.LG, math.AT]目的:持続ホモロジー図における有意点の自動検出
- 点群の形状を解析する強力なツールであり,多様な分野での応用が期待される。
- 有意な信号をエンコードする点を特定することが困難であり,実用化の妨げとなっている。
- 持続ホモロジー図における有意点の自動検出による,信頼性の高い解析手法の確立。
- 提案手法TUNは,強化されたPD記述子と自己注意機構を組み合わせた多層ネットワークである。
- 従来の古典的な手法と比較して,有意点の検出性能が向上していることが実験により示された。
- ダウンストリームアプリケーションにおいて,より効果的な利用が可能となる。
SPARQL-LLM:自然言語の質問からリアルタイムでSPARQLクエリを生成 [cs.IR, cs.AI, cs.CL]目的:自然言語の質問からSPARQLクエリの生成
- 知識グラフの活用は,データ統合と知識発見に不可欠であるため,重要性が増している。
- 既存手法は,クエリの正確性のみに注力し,分散データストアへの対応や実行コストが課題となっている。
- SPARQL-LLMは,実用性と効率性を向上させ,リアルタイムかつ低コストなテキストからSPARQLへの変換を目指す。
- 最先端のチャレンジにおいて,F1スコアが24%大幅に向上し,性能が実証された。
- 英語やスペイン語のようなリソース豊富な言語への適応性,そして複雑な連合バイオインフォマティクスクエリの生成能力が確認された。
- 他のシステムと比較して最大36倍の速度で動作し,質問あたりのコストは最大1セント以下であり,リアルタイムアプリケーションに適している。
AI生成ヘルスアドバイスに対する信頼度尺度(TAIGHA)と短縮版(TAIGHA-S)の開発と妥当性検証 [cs.HC, cs.AI]目的:AI生成ヘルスアドバイスに対する信頼度及び不信感を測定するための尺度
- AI技術の医療分野への応用が進み,情報源としての重要性が増しているため。
- AI生成アドバイスの信頼性を評価する適切な尺度が存在しないという課題がある。
- AI生成ヘルスアドバイスに対する信頼度を正確に評価し,安全な利用を促進すること。
- TAIGHA及びTAIGHA-Sは,内容妥当性,構造妥当性,内的整合性に優れた尺度であることが示された。
- TAIGHAは,既存の自動システム信頼度尺度との関連性や,AIアドバイスへの依存度と有意な相関を示した。
- TAIGHA-Sは,TAIGHAと高い相関を示し,短縮版としての実用性も確認された。
パーキンソン病モニタリングと警告のための協調的なオントロジーエンジニアリングにおけるLLMの活用 [cs.AI]目的:パーキンソン病モニタリングと警告のためのオントロジーエンジニアリング
- パーキンソン病のモニタリングは患者のQOL向上に不可欠であり,正確なデータ管理が重要である。
- オントロジー構築は専門知識を要し,時間と労力がかかるため,効率化が課題である。
- LLMと人間の協調により,効率的かつ質の高いオントロジー構築を目指す。
- LLM単独でもオントロジーの自律的な構築が可能であることが示されたが,完全性には改善の余地がある。
- X-HCOMEは,人間の専門知識とLLMの能力を組み合わせることで,専門家が作成したオントロジーに近い結果を生み出した。
- SimX-HCOME+は,継続的な人間の関与と反復的な改良の重要性を示し,より包括的で正確なオントロジーの構築に貢献した。
閾値トリガー型深層Qネットワークに基づく自律型ソフトウェア定義IIoTエッジネットワークの自己修復フレームワーク [cs.NI, cs.AI, cs.ET, cs.PF, hep-ex]目的:ソフトウェア定義型産業用ネットワークにおける自己修復機構の確立
- 産業用ネットワークは,制御や監視において高い信頼性が求められる。突発的な障害への対策が重要である。
- 一時的なサービス低下を引き起こす確率的な障害への対策が不十分であり,IEC規格への適合が課題である。
- 深層強化学習を用いた自己修復エージェントにより,ネットワーク障害の自動検知・軽減を目指す。
- 提案手法は,従来のルーティング手法と比較して,障害からの復旧性能を53.84%向上させた。
- 既存の高度な手法(適応型ネットワークベースファジー推論システム等)を上回り,高い性能を示した。
- スイッチの熱安定性を維持するため,必要に応じて外部ラック冷却を能動的に開始する機能も有する。
YOLOからVLMへ:衛星画像を用いたMENA地域における下水処理施設のゼロショットおよび少量ショット検出の進歩 [cs.CV, cs.AI]目的:下水処理施設の検出手法の比較と,衛星画像を用いた効率的な識別
- 中東・北アフリカ地域では,持続可能な水管理のため,下水処理施設の需要が高い。
- 従来のYOLOv8のような手法は,大規模な手動ラベリングが必要となる。
- 本研究は,ラベル付け不要なVLMによる下水処理施設の効率的な識別を目指す。
- ゼロショット評価において,複数のVLMがYOLOv8の真陽性率を上回る結果が得られた。
- 特にGemma-3が最も高い性能を示し,VLMの有効性が確認された。
- VLMは,YOLOv8に代わるスケーラブルなリモートセンシングを可能にする。
意味の不一致と知覚的劣化:画像編集耐性に関する新しい視点 [cs.IR, cs.CV, cs.AI, cs.CY, cs.LG]目的:画像編集耐性評価の新たな指標と手法
- 拡散モデルによる画像編集技術が発展する中で,悪意のある改ざんを防ぐことが重要になっている。
- 既存の評価指標は視覚的な差異に焦点を当てており,編集の意図との意味的なずれを考慮していない。
- 拡散モデルにおける編集意図との意味的な不一致や知覚的な劣化を誘発する手法を開発し,評価指標を確立する。
- 提案手法SIFMは,拡散モデルの中間特徴量を操作することで,編集の軌道からのずれと知覚的な劣化を同時に最大化する。
- 新たに提唱する指標ISRは,プロンプトとの意味的な不一致または知覚的な劣化の割合を測定し,真の耐性効果を定量化する。
- 実験結果から,SIFMは悪意のある拡散ベースの操作に対する画像保護において最先端の性能を発揮することが示された。
ウェアラブルセンサデータを用いた脳卒中後運動再建のためのデータ物理ハイブリッド生成モデル [cs.MA, cs.AR, eess.SP, cs.NI, cs.CE, cs.AI]目的:脳卒中患者固有の運動再建のための生成モデル
- 脳卒中後の運動機能回復には,患者個々の状態に合わせたリハビリテーションが不可欠である。
- 既存の評価は静的な障害スコアのみを提供し,特定のタスク実行可能性を予測できない。
- 患者固有の歩行データを基に,様々なリハビリテーションシナリオにおける運動能力を予測する。
- 本研究では,ウェアラブルセンサデータと物理モデルを組み合わせたハイブリッド生成モデルを開発した。
- これにより,患者の特有の歩行パターンを維持しつつ,関節角度と終点精度がそれぞれ4.73%と12.10%向上した。
- 多施設試験において,本モデルを用いたリハビリテーションは,標準的なリハビリテーションと比較して,Fugl-Meyerスコアの改善が大きかった。
AI搭載自動運転車における刑事責任:比較研究 [cs.CY, cs.AI, cs.CR]目的:AI搭載自動運転車事故における刑事責任のあり方
- AI技術の発展は交通システムを革新する一方,事故発生時の責任追及が課題となっている。
- 自動運転車の事故責任に関する法整備は国によって異なり,法的混乱を招く恐れがある。
- 本研究は,各国の法制度を比較分析し,法的調和の必要性を示す。
- 米国とインドは州法に依存する傾向がある一方,英国は自動運転車法を制定し,先駆的な取り組みを行っている。
- ドイツは車両の運転モードによって責任を区別し,中国も厳格な責任体制を目指している。
- 技術革新を促進しつつ,リスクを最小限に抑え,責任の所在を明確にするため,国際的な法基準の調和が不可欠である。
