arXiv雑要約
AI - 2025/12/17 公開
gridfm-datakit-v1:スケーラブルで現実的な潮流計算・最適潮流計算データ生成のためのPythonライブラリ [cs.LG, cs.AI, cs.SY, eess.SY, math.OC]目的:機械学習ソルバーの訓練用,現実的かつ多様な潮流計算(PF)および最適潮流計算(OPF)データセットの生成
- 電力系統の運用において,潮流計算および最適潮流計算は不可欠であり,系統安定性や効率的な運用に重要である。
- 既存のデータセットは,現実的な擾乱や系統条件を網羅しておらず,機械学習ソルバーの汎化性能を制限する可能性がある。
- 現実的かつ多様なデータセットを生成することで,機械学習ソルバーのロバスト性と汎化性能の向上を目指す。
- 本ライブラリは,実際の負荷プロファイルに基づいたグローバルな負荷スケーリングと,局所的なノイズ,および任意のN-k系統構成の変化を組み合わせることで,多様かつ現実的なデータセットを生成する。
- 潮流計算データセットは,運用限界を超えるケースも含めて生成され,機械学習ソルバーの限界条件に対する対応能力を向上させる。
- 最適潮流計算データセットは,変動する発電コストを考慮することで,様々なコスト条件下での汎化性能を高める。
リプシッツ連続性と単調性を超えて:エコー状態ネットワークにおけるフラクタルおよびカオス的活性化関数 [cs.LG]目的:エコー状態ネットワークにおける非滑らかな活性化関数の性能評価
- 現代の貯留層計算は滑らかな活性化関数に依存しており,その応用範囲を制限している。
- 極限状態下でのロバスト性が求められる分野において,滑らかな活性化関数の限界が存在する。
- 非滑らかな活性化関数がエコー状態特性を維持し,性能向上に寄与するか検証する。
- カンター関数は,通常の滑らかな関数と比較して,10倍以上のスペクトル半径までエコー状態特性を維持した。
- カンター関数はtanh関数やReLU関数と比較して,2.6倍速い収束速度を示した。
- 活性化関数の幾何学的特性が貯留層ダイナミクスに影響する可能性が示唆された。
VASA-3D:単一画像からのリアルな音声駆動型ガウス頭部アバター [cs.CV, cs.AI]目的:単一画像からの3D頭部アバター生成
- メタバース等の仮想空間において,人間らしいアバターの重要性が高まっている。
- 単一画像から高精度な3D頭部アバターを生成することは依然として困難である。
- 音声に同期したリアルな表情を再現可能な3Dアバターの生成を目指す。
- VASA-3Dは,既存手法では困難であったリアルな3Dトーキングヘッドを生成し,没入感の高い体験を可能にする。
- VASA-1のモーション潜在空間を活用することで,2Dの高品質な表現を3Dへと転換することに成功した。
- 512x512解像度で,最大75FPSの自由視点動画をオンライン生成できる。
入院患者の容態悪化早期警告指標 [cs.CL, cs.LG]目的:入院患者の容態悪化リスクの予測
- 医療現場における患者ケアの質向上と医師の負担軽減が重要視されている
- 多岐にわたる医療データが不統一な形式で存在し,リスク評価への活用が困難である
- 様々なデータを統合的に分析し,容態悪化リスクを早期に予測する手法を開発する
- 開発したEWIは,ICU入院,緊急対応チーム派遣,死亡のリスクを予測する
- EWIは,C統計値0.796を達成し,電子カルテデータから自動的に特徴量を抽出する
- 医師のトリアージ業務を効率化し,リスクの高い患者への集中ケアを可能にする
クリップされた確率的1次手法におけるバイアス・バリアンスのトレードオフ:有限分散から無限平均へ [cs.LG, cs.AI, math.OC, stat.CO, stat.ML]目的:クリップされた確率的1次手法の複雑度解析
- 機械学習の基礎となる確率的最適化は,現代の応用において不可欠である。
- 既存の研究では,ノイズの裾指数が1に近い場合に複雑度解析が無限大になる問題がある。
- 裾指数が0から2の範囲にあるノイズに対して,より厳密な複雑度保証を得ることを目指す。
- 本研究では,勾配クリッピングにおけるバイアス・バリアンスのトレードオフを解析し,ノイズの対称性指標を制御することで,あらゆる裾指数に対して改善された複雑度保証を得た。
- この解析は,裾指数0から2の範囲におけるクリップされた確率的1次手法の統一的な複雑度保証を導き出すだけでなく,軽尾ノイズ下での古典的な解析と組み合わせることで,重尾ノイズ下でのオラクル複雑度保証を確立できる。
- 数値実験により,得られた理論的結果が検証された。
Spoken DialogSum: 音声対話要約のための感情豊かな会話データセット [cs.CL, cs.AI, cs.LG, eess.AS]目的:音声対話要約のためのデータセット
- 近年の音声言語モデルの発展により,長時間の会話追跡が可能となった。
- 感情を考慮した音声対話要約研究は,音声,要約,そして非言語的特徴を結びつけるデータの不足に制約されている。
- 音声,事実に基づいた要約,感情豊かな要約を含むデータセットを構築し,音声対話要約の精度向上を目指す。
- Spoken DialogSumは,13,460件の多様な感情を含む対話と,事実と感情に焦点を当てた要約を提供する。
- Audio-LLMは,従来のASR-LLMシステムと比較して,感情的な要約のROUGE-Lスコアを28%向上させた。
- この結果は,エンドツーエンドの音声モデリングの有効性を示唆している。
CHIP:ヒストリカル摂動によるヒューマノイド制御における適応コンプライアンス [cs.RO, cs.LG]目的:ヒューマノイドロボット制御における適応コンプライアンス
- ヒューマノイドロボットの進歩は目覚ましいが,複雑な操作は依然として困難である。
- 把持や押すなどの力強い操作において,ロボットの剛性が課題となる。
- 動的なモーション追従性を維持しつつ,制御可能なエンドエフェクタ剛性を実現する。
- 提案手法CHIPは,追加のデータ拡張や報酬調整なしに実装が容易である。
- CHIPにより訓練されたモーション追従コントローラは,多様な操作タスクに対応可能である。
- マルチロボット協調,拭き掃除,箱の運搬,ドアの開閉など,様々なタスクを遂行できる。
3D生成のためのネイティブかつコンパクトな構造化潜在表現 [cs.CV, cs.AI]目的:3D生成のための構造化された潜在表現の学習
- 3D生成技術は発展しているが,複雑な形状や詳細な外観を捉える表現が課題である。
- 既存の表現では,複雑なトポロジーを持つアセットや詳細な外観を捉えることが困難である。
- 複雑なトポロジーと詳細な外観を捉えるための新たな表現を提案し,生成品質の向上を目指す。
- 提案手法では,幾何学と外観を符号化する新しい疎なボクセル構造「O-Voxel」を導入した。
- O-Voxelに基づいたSparse Compression VAEは,高い空間圧縮率とコンパクトな潜在空間を実現している。
- 40億パラメータのフローマッチングモデルを用いた実験により,既存モデルを上回る幾何学と材質の品質を達成した。
普遍的推論モデル [cs.AI]目的:複雑な推論タスクにおける性能向上要因の分析と,それに基づく推論性能の向上
- 高度な推論能力は,AIシステムの汎用性向上に不可欠であるため,そのメカニズム解明が重要である。
- Transformerモデルのアーキテクチャ設計が複雑化する中で,どの要素が性能向上に貢献しているか不明確である。
- Transformerモデルの潜在能力を最大限に引き出し,より効率的な推論モデルを開発することを目指す。
- 本研究では,普遍的Transformer(UT)の性能向上が,再帰的誘導バイアスとTransformerの非線形性によるものであることを示した。
- その知見に基づき,短畳み込みとTruncated BackpropagationをUTに組み込んだUniversal Reasoning Model(URM)を提案した。
- URMはARC-AGI 1で53.8%,ARC-AGI 2で16.0%のpass@1を達成し,最先端の性能を示した。
視覚的トークン化と生成のための球状リー奇量子化 [cs.CV, cs.AI, cs.LG, eess.SP]目的:視覚的トークン化および生成における量子化手法
- 近年,大規模データに対応可能なパラメータ効率の良い非パラメトリック量子化が注目されている。
- 既存の量子化手法では,自己符号化器の学習に補助的な損失項が必要となる場合がある。
- 高対称性を持つリー奇格子に基づく量子化手法により,学習の簡素化と再構成・圧縮性能の向上を目指す。
- 提案手法である球状リー奇量子化($\Lambda_{24}$-SQ)は,既存のBSQと比較して,画像トークン化および圧縮タスクにおいて,より良好な再構成品質を達成した。
- $\Lambda_{24}$-SQは,BSQと同程度のビット数で,既存技術を上回る性能を示した。
- この改善は,最先端の自己回帰型画像生成フレームワークにも拡張される。
TimeLens:マルチモーダルLLMによるビデオの時間的グラウンディングの再考 [cs.CV, cs.AI, cs.CL, cs.MM]目的:ビデオの時間的グラウンディングの性能向上
- ビデオ理解において,時間的グラウンディングは重要な基盤技術である。
- 既存のビデオ時間的グラウンディングベンチマークの品質に課題があった。
- 信頼性の高い評価基準と高品質な学習データによる性能向上を目指す。
- 既存のベンチマークの信頼性不足が明らかになり,厳格な基準で再アノテーションされたTimeLens-Benchを提案した。
- 自動再アノテーションパイプラインにより,高品質な学習データセットTimeLens-100Kを構築した。
- TimeLensモデルは,オープンソースモデルの中で最先端の性能を示し,GPT-5やGemini-2.5-Flashなどのプロプライエタリモデルを上回る結果を得た。
エントロピー駆動動的勾配圧縮による効率的なLLM学習 [cs.LG, cs.AI, cs.PF]目的:大規模言語モデルの効率的な学習
- 大規模言語モデルは,その規模から学習に膨大な計算資源とメモリ容量を必要とする。
- 既存の勾配圧縮手法は静的であり,学習中の勾配の変化に対応できないため,性能が低下する。
- 勾配のエントロピーに基づいて圧縮率を動的に調整し,性能劣化を防ぎつつ学習を高速化する。
- 提案手法EDGCは,勾配のエントロピーを効率的に推定し,圧縮率と誤差の関係を理論的にモデル化する。
- パイプラインステージ全体で圧縮率を動的に調整するメカニズムにより,通信効率を向上させ,モデル性能を維持する。
- GPT2-2.5BとGPT2-12.1Bの学習実験により,通信遅延と学習時間を最大46.45%と16.13%削減できることが示された。
IPR-1:インタラクティブな物理推論器 [cs.AI, cs.CV, cs.LG]目的:人間のような物理的推論の獲得
- 環境との相互作用を通じて物理法則や因果関係を学習する点は,知能を持つエージェントの根幹である。
- 既存手法は,視覚的詳細に過剰適合し,物理法則や因果関係の本質を捉えきれていない。
- 視覚的差異の大きいゲーム環境下において,相互作用による学習を通じて物理的推論能力を獲得する。
- 提案手法IPRは,VLMのポリシーを強化することで,多様なゲームにおいて高い性能を発揮する。
- 学習に使用するゲーム数や相互作用ステップ数を増やすことで,性能が向上することが確認された。
- 未学習のゲームに対しても,ゼロショットで高い汎化性能を示すことが示された。
MultiBanAbs:包括的な多ドメインベンガル語要約データセット [cs.CL, cs.AI]目的:ベンガル語記事の簡潔な要約生成のためのベンガル語抽象要約データセット
- デジタル化が進む現代において,情報過多への対応が急務であり,迅速な情報把握を支援する技術が求められている。
- 既存研究は主にニュース記事に焦点を当てており,多様なベンガル語テキストへの適応が課題であった。
- 多様なドメインと文体を含むデータセットを構築し,汎用性の高い要約システムの開発を支援すること。
- 54,000件以上のベンガル語記事と要約からなるデータセットを構築し,ブログや新聞など複数の情報源からの収集を実現した。
- LSTM,BanglaT5-small,MTS-small等の深層学習モデルを用いて評価を行い,ベンガル語自然言語処理研究のベンチマークとしての可能性を示した。
- このデータセットは,堅牢な要約システムの構築と,低リソース言語のNLPリソース拡充に貢献する基盤を提供する。
WAM-Flow: 離散フローマッチングによる並列粗指向微調整型モーションプランニング(自動運転向け) [cs.RO, cs.AI, cs.CV]目的:自動運転におけるエゴ車両の軌道計画
- 自動運転技術は,交通渋滞の緩和,事故の減少,移動の効率化に貢献し,社会に大きな利益をもたらす。
- 従来の軌道計画手法は,計算コストが高く,リアルタイム性に課題があり,複雑な環境への適応が難しい。
- 並列処理による効率的な軌道計画手法を開発し,安全かつ快適な自動運転を実現すること。
- WAM-Flowは,離散フローマッチングという新しいパラダイムを採用し,既存の自己回帰モデルや拡散モデルを上回る性能をNAVSIM v1ベンチマークで示した。
- 特に,1ステップ推論で89.1 PDMS,5ステップ推論で90.3 PDMSという高い閉ループ性能を達成した。
- この結果は,WAM-Flowがエンドツーエンドの自動運転において有望な手法であることを示している。
光学およびホログラフィー顕微鏡画像における自動花粉認識 [cs.CV, cs.LG]目的:光学およびホログラフィー顕微鏡画像における花粉粒子の検出と分類の改善と自動化
- 獣医学分野において,花粉の正確な同定はアレルギー診断や環境モニタリングにおいて重要である。
- 従来の画像解析では,花粉の多様性と背景の複雑さから,正確な自動認識が困難であった。
- 深層学習を用いて,低コストなホログラフィー顕微鏡画像でも高精度な花粉認識を実現すること。
- 光学画像において,YOLOv8sを用いた検出で91.3%のmAP50,MobileNetV3Lを用いた分類で97%の全体精度を達成した。
- ホログラフィー画像における初期性能は低かったが,データ拡張とバウンディングボックスの拡大により,検出性能を2.49%から13.3%に,分類性能を42%から54%に改善した。
- 深層学習技術とレンズレスデジタルホログラフィー顕微鏡の組み合わせによる画像分類の可能性を示した。
WAM-Diff:MoEとオンライン強化学習を用いたマスク拡散VLAフレームワーク - 自動運転向け [cs.RO, cs.AI, cs.CV]目的:自動運転のための軌跡生成
- 自動運転技術は,交通事故削減や移動の効率化に貢献する重要な分野である。
- 既存の自動運転システムは,複雑な環境への適応や安全性の確保が課題である。
- マスク拡散モデルの潜在能力を活用し,より安全かつ柔軟な軌跡生成を目指す。
- WAM-Diffは,マスク拡散モデルを用いて離散的な軌跡を反復的に洗練するVLAフレームワークである。
- NAVSim-v1で91.0 PDMS,NAVSim-v2で89.7 EPDMSという高い評価を得て,マスク拡散の有効性が示された。
- 本手法は,自己回帰型や拡散ベースのポリシーに代わる有望な選択肢となりうる。
サッカー技能のためのシミュレーションから現実世界への強化学習 [cs.RO, cs.LG]目的:サッカー技能獲得のための強化学習手法
- ヒューマノイドロボットの制御は,多様なタスクに対応可能であり,社会への貢献が期待される。
- 従来の強化学習は,現実環境への適応,複雑さ,自然な動作の再現に課題があった。
- シミュレーション環境で学習した技能を現実世界で活用するための手法を開発する。
- カリキュラム学習と敵対的動作事前分布を用いることで,より動的で適応的な強化学習ポリシーを開発した。
- 蹴り,歩行,ジャンプの技能において,従来の強化学習手法を上回る性能が確認された。
- しかし,シミュレーションから現実世界へのポリシー転移は成功せず,課題が残された。
ニューラルネットワークにおけるモジュール性結合はポアソンノイズに基づく正則化から生じ,ロバスト性と構成的汎化を促進する [physics.bio-ph, cs.LG, cs.NE, stat.ML]目的:ニューラルネットワークにおけるモジュール性結合の発生機構の解明
- 脳回路はモジュール構造を有し,複雑なタスクを効率的に処理する。その仕組みは人工知能への応用が期待されている。
- 人工ニューラルネットワークはモジュール構造を自発的に獲得しにくく,汎化性能やロバスト性に課題がある。
- ポアソンノイズに着想を得た正則化手法により,モジュール構造の獲得を促し,性能向上を目指す。
- 活動依存性ノイズと非線形ニューロン応答の組み合わせにより,モジュールタスクを正確に理解した解が創発されることが示された。
- ノイズ駆動型モジュール化は,重みと活性を乗算的に組み合わせる決定論的正則化によって再現可能であり,線形ネットワークや標準的な正則化手法では捉えられない現象を示す。
- 事前モジュール化されたニューラルネットワークは,ノイズに対するロバスト性,汎化能力,外挿能力において,モジュール化されていないネットワークよりも優れていることが明らかになった。
グラフAIが生成した神経疾患の仮説:分子,オルガノイド,臨床システムでの検証 [q-bio.QM, cs.AI, q-bio.NC]目的:神経疾患における新たな仮説生成と検証
- 神経疾患は世界的に障害の主要な原因であり,治療法の開発が急務である。
- 既存の研究では,分子レベルから臨床レベルまでの統合的な仮説検証が困難である。
- AIを活用し,多岐にわたるデータを統合することで,新たな治療標的の発見を目指す。
- PROTONは,パーキンソン病において,遺伝的リスク局所とドパミン神経生存に不可欠な遺伝子との関連性を示唆した。
- 双極性障害においては,コルチカルオルガノイドにおけるタンパク質変化を逆転させる可能性のあるカルシトリオールを候補薬として予測した。
- アルツハイマー病では,PROTONが予測した5つの薬剤が,7年間の認知症リスクを軽減することを示唆する臨床データが確認された。
都市部タクシー目的地予測のための時空間ハイブリッド量子・古典グラフ畳み込みニューラルネットワークアプローチ [quant-ph, cs.AI]目的:都市部におけるタクシーの目的地予測
- 都市交通システムの効率化は,経済活動や住民の生活の質に大きく影響する。
- 従来の予測手法では,複雑な都市道路網における空間的依存関係の把握が困難である。
- 量子計算と深層学習を組み合わせることで,高次元空間依存関係の捕捉能力を向上させる。
- 提案手法H-STQGCNは,古典的なGCNと量子回路を組み合わせた時空間ハイブリッド構造を採用している。
- 実験結果から,提案手法は既存手法と比較して,予測精度と安定性において優れた性能を示すことが確認された。
- 量子強化メカニズムが,高次元空間依存関係の捕捉に有効であることが示された。
深層学習による生成モデルを用いた,深度情報からの圧力分布の妥当性向上 [eess.IV, cs.CV, cs.LG]目的:病院用ベッドにおける体圧分布の妥当性向上
- 褥瘡予防やリアルタイムな患者評価において,体圧分布のモニタリングは不可欠である。
- 既存の方法では,体圧マップの予測が可能だが,物理的な妥当性に欠ける場合があり,臨床的な信頼性が制限される。
- 生成モデルと情報に基づいた潜在空間,重み最適化損失により,高精度かつ物理的に一貫性のある体圧推定を実現する。
- 提案手法は,ベースラインと比較して物理的な妥当性と性能を向上させている。
- BBDMとILSの組み合わせは,詳細なマップを生成するが,計算コストが高く,推論時間が長い。
- LBBDMは,競合する性能を持ちながら,より高速な推論を実現する。
電気生理学における前方問題に対する深層学習サロゲート:物理ベースモデルへのスケーラブルな代替案 [eess.IV, cs.AI, cs.LG]目的:電気生理学における前方問題解決のための深層学習フレームワーク
- 心臓電気活動から体表面電位を計算することは,臨床診断や治療において重要である。
- 従来の物理ベースモデルは計算コストが高く,リアルタイムや大規模な臨床応用が困難である。
- 深層学習を用いて,計算コストを抑えつつ高精度な前方問題の解法を提供する。
- 提案する深層学習モデルは,心臓電圧伝播マップから心電図信号を高精度に予測できる。
- Huber損失とスペクトルエントロピー項を組み合わせた損失関数が,時間領域と周波数領域の両方の忠実性を保つ上で有効である。
- シミュレーション結果から,本モデルが物理ベースモデルへのスケーラブルな代替案となりうることが示唆された。
Majorana トポロジーの識別における教師なし学習の理不尽な有効性 [quant-ph, cs.ET, cond-mat.dis-nn, cond-mat.mes-hall, cs.LG]目的:Majorana トポロジーの識別における教師なし学習の有効性
- トポロジカル物質は,従来の物質にはない特異な性質を持ち,次世代の電子デバイスへの応用が期待されている。
- トポロジカル相の決定は困難であり,確実な識別方法が求められている。
- 現実的なナノワイヤーにおけるMajorana スプリットを用いて,教師なし学習の限界を克服し,トポロジー識別を可能にすること。
- 教師なし学習と教師あり学習を組み合わせることで,Majorana ナノワイヤーにおけるトポロジカル相と自明相の区別が可能となった。
- パラメータ空間における両相のクロスオーバー地点の特定にも成功した。
- この手法は,Majorana ナノワイヤーにおけるトポロジーの識別において有用なツールとなる可能性がある。
高密度表面筋電図からの空間特徴を用いた同時比例指運動の復号 [eess.SP, cs.AR, eess.SP, cs.LG, cs.SY, eess.SY]目的:複数自由度の同時比例制御を実現するための,高密度表面筋電図の空間特徴に基づいた手法の評価
- 自然な手の機能を回復するには,複数の自由度を同時に比例的に制御することが不可欠である。
- 従来の筋電義肢では,指の複雑な動きを正確に復号することが困難であった。
- 高密度筋電図の空間情報を活用することで,指の動きの復号精度を向上させることを目指す。
- 多チャンネル線形記述子に基づくブロック場法(MLD-BFM)は,他の手法と比較して一貫して高いR^2vw値を示した。
- MLD-BFMと多層パーセプトロン(MLP)の組み合わせが最高の性能(R^2vw = 86.68% ± 0.33)を発揮した。
- 中指と薬指の復号精度は,親指よりも高かった。空間構造化された特徴が,同時比例制御を強化することが示された。
動的解耦系列の群論的強化学習 [quant-ph, cs.LG, cs.SY, eess.SY]目的:量子ビットにおける動的解耦系列の設計
- 量子コンピューティングの実現には,量子ビットのコヒーレンス維持が不可欠である。
- 現実的なノイズ環境下では,最適なパルスタイミングの解析的解を得ることが困難である。
- ノイズスペクトルを明示的に知らなくても,デフェージングを最小化するパルス系列を学習する。
- 強化学習エージェントが,非凸な最適化空間を効率的に探索できる行動集合を提案した。
- 提案手法は,基盤となるノイズスペクトルを必要とせずに,デフェージングを最小化するパルス系列を学習できることを示した。
- 本研究は,量子ビットにおける動的解耦系列のリアルタイム学習の可能性を開く。
単一の置換だけで十分:高速かつ信頼性の高い変数重要度とモデルストレステスト [stat.ML, cs.AI, cs.LG]目的:機械学習モデルにおける特徴量の貢献度の信頼性ある推定
- モデルの信頼性,透明性,規制遵守は不可欠であり,特に独自のモデルやブラックボックスモデルにおいて重要である。
- 従来の置換法は計算コストがかかり,確率的変動が生じやすいという問題があった。
- 単一の決定論的置換により,計算効率と安定性を向上させ,変数重要度を正確に評価すること。
- 提案手法は,従来の置換法と同等の精度を保ちつつ,計算速度が向上し,結果の安定性が増すことを示した。
- 小規模なデータセット,高次元データ,低信号対雑音比といった困難な状況下においても,バイアス・バリアンスのトレードオフが改善されることが確認された。
- Systemic Variable Importanceにより,相関する入力におけるショックの伝播を定量化し,隠れた偏りを検出することが可能となった。
活性粒子からなる知的な物質 [cond-mat.soft, cond-mat.dis-nn, cs.AI, cs.LG, physics.app-ph]目的:知的なシステムの実現経路
- 複雑な現象の創発は自然界に広く見られ,そのメカニズム解明は重要である。
- 単純な要素から高度な知能を生み出す物質系の設計は未だ課題である。
- 活性粒子の集団行動を利用し,知的な物質系の実現を目指す。
- 動物の群れなどの自然現象に着想を得て,単純な規則に従う多数の能動的要素から知的なシステムを構築するアプローチを検討した。
- 創発的計算と物理的リザーバーコンピューティングという二つの手法を比較し,活性粒子のダイナミクスを活用した知的な物質系の可能性を示唆した。
- 超音波や光屈折を利用した活性粒子の新たなリザーバーコンピューティング方式を提案した。
自律的機能性材料探索のための階層型マルチエージェント大規模言語モデル推論 [cond-mat.mtrl-sci, cs.AI, cs.CL, cs.LG, cs.MA]目的:機能性材料の自律的探索
- 科学探求におけるAIの役割が重要視されており,材料開発の効率化が求められている。
- 既存手法は手続き的なタスクに留まり,科学的推論が不足しており,自律性に課題がある。
- 科学的推論に基づく材料探索を促進し,シミュレーション回数を削減することを目指す。
- MASTERフレームワークにより,大規模言語モデルが原子シミュレーションを自律的に設計・実行・解釈することが可能になった。
- マルチエージェントによる推論探索は,試行錯誤的な選択と比較して,必要な原子シミュレーション数を最大90%削減できた。
- 推論経路の分析から,確率的サンプリングや意味的バイアスでは説明できない化学的根拠に基づいた意思決定が確認された。
不均等なサンプルサイズにおける一般化U統計量を用いた最大平均不一致 [stat.ML, cs.LG, math.ST, stat.ME, stat.TH]目的:不均等なサンプルサイズ下での最大平均不一致(MMD)推定量の漸近分布の特性付け
- 分布間の比較は,統計的推論や機械学習において基礎的な課題であり,その重要性は高い。
- 従来のMMDに基づく検定は,サンプルサイズが等しいことを前提としており,データ廃棄を招き検定力を低下させる。
- 不均等なサンプルサイズ下でもMMD検定の検定力を最大化する基準を提示し,データ利用効率を向上させる。
- 本研究では,一般化U統計量の理論を拡張することで,不均等なサンプルサイズ下でのMMD推定量の漸近分布を明確に特徴付けた。
- その結果,従来の制約条件なしにMMD検定の最適化基準を導出し,より正確な検定を可能とした。
- MMD推定量の分散に関する新たな知見も得られ,MMDがゼロでない状況でも退化推定量が存在しうることを示した。
実用的な条件付き独立性検定の困難性について [stat.ML, cs.LG, stat.ME]目的:条件付き独立性検定の現実的な困難性の要因分析
- 機械学習や統計学において,因果関係の発見や予測モデルの公平性評価など,重要な問題の基盤となる。
- 既存の検定では,サンプルサイズが限られている場合に有効な検定力を持てないという課題がある。
- カーネルベースの条件付き独立性検定における実用的な問題点を特定し,改善策の方向性を示す。
- カーネルベースの条件付き独立性検定の性能は,条件付き平均埋め込み推定の誤差に大きく影響されることが示された。
- 適切な条件付けカーネルの選択が,検定力向上のために不可欠だが,同時にType-Iエラーを増加させる傾向がある。
- ShahとPeters(2020)の理論結果だけでは,現実的な検定の失敗を十分に説明できない要因が明らかになった。
二相移動界面およびステファン問題に対する物理情報機械学習 [physics.comp-ph, cs.LG]目的:二相ステファン問題の解法
- 相転移現象のモデル化において古典的な重要性を持ち,工学応用が広い。
- 移動界面と非線形な温度・相間の結合により,数値計算が困難である。
- 移動界面を追跡し,温度勾配の不連続性を考慮した解法を提案する。
- 提案手法は,移動界面と温度場のそれぞれを表現する二つのニューラルネットワークを用いる。
- 界面ネットワークが熱拡散率の分類を迅速化し,温度ネットワークの学習点選択を支援する。
- 数値実験により,既存のニューラルネットワーク手法と比較して,高い精度と有効性が確認された。
実世界環境における音声・映像を用いた音声認識のためのスケーラブルなフレームワーク [eess.SP, cs.NI, eess.AS, cs.CL, cs.LG]目的:実世界環境における音声・映像を用いた音声認識システムの,堅牢性とスケーラビリティの向上
- 音声・映像を用いた音声認識は,人間と機械の自然なコミュニケーションを実現する上で重要な技術である。
- 実環境では,予測不可能なノイズや視覚的干渉により,音声・映像を用いた音声認識の性能が大幅に低下する。
- 本研究は,表現,アーキテクチャ,システムレベルでの体系的なアプローチにより,この性能低下を克服することを目指す。
- 本研究では,多様な実環境の汚染に対して本質的に堅牢な音声・映像特徴を学習する統一モデルの構築方法を検討した。
- モデルの容量を効率的に拡張し,入力特性に基づいて計算資源を賢く割り当てるフレームワークを開発した。
- 大規模な基盤モデルとのモジュール統合を通じて,システムの機能を拡張し,最終的な認識精度を最大化する方法を提示した。
説明可能な量子AIへ:量子ニューラルネットワークのエンコーダ選択における可視化による指針 [quant-ph, cs.AI, cs.HC]目的:量子ニューラルネットワークのエンコーダ選択に関する理解促進
- 量子コンピューティングとニューラルネットワークの融合は,高性能なデータ処理への期待が高い。
- 適切なエンコーダ選択は困難であり,体系的な指針や評価方法が不足している。
- エンコーダの特性とQNN性能の関係を可視化し,最適なエンコーダ選択を支援する。
- 本研究で開発した可視化ツールXQAI-Eyesは,古典データの特徴と量子状態の対応関係を比較可能にする。
- XQAI-Eyesを用いることで,エンコーダがデータの特徴を識別する能力を直感的に分析できる。
- 専門家による評価から,パターン保持と特徴写像の重要性というエンコーダ選択の指針が得られた。
物理情報ニューラルネットワーク駆動型T2定量化における誤差境界解析 [physics.bio-ph, cs.AI]目的:心臓MRIにおけるT2パラメータの誤差境界分析
- MRI定量評価は疾患診断や治療効果判定に重要である。正確なパラメータ推定が求められる。
- 従来の深層学習法は大量の学習データが必要で,理論的根拠やゴールドスタンダードに乏しい。
- Bloch方程式をPINNの損失関数に組み込み,データのみから正確なT2定量化を目指す。
- PINNにBloch方程式を組み込むことで,事前定義された学習データベースなしにT2パラメータを推定可能となった。
- T2推定誤差とBloch方程式解の汎化誤差の上界を厳密に導出し,PINNの定量的精度を評価する理論的基盤を確立した。
- 数値シミュレーションと臨床データ(94例の急性心筋梗塞患者)で高い精度が示され,PINNの信頼性と潜在能力が確認された。
重み付き帰納的予測は,一般的な欠損メカニズムに対して適応的かつ有効なマスク条件付きカバレッジを提供する [stat.ML, cs.LG]目的:欠損値に対する適応的かつ有効な不確実性定量化
- 不確実性定量化は,機械学習モデルの信頼性向上に不可欠であり,リスク管理や意思決定支援に貢献する。
- 欠損値が存在する場合,従来の帰納的予測はカバレッジ保証が難しく,予測の信頼性が低下する。
- 様々な欠損パターンに対応し,有効なマスク条件付きカバレッジを保証する手法を確立すること。
- 提案手法は,一般的な欠損メカニズムに対して,保証された周辺カバレッジとマスク条件付き有効性を提供する。
- 分布補完(多重代入)後に予測集合を修正する重み付き帰納的予測手順が,標準的な手法よりも予測区間の幅を大幅に縮小する。
- 合成データと実データを用いた評価により,提案手法の有効性と効率性が確認された。
自己整合性による変分モデル比較の精度向上 [cond-mat.mtrl-sci, cs.SY, eess.SY, stat.ML, cs.LG, stat.CO]目的:変分モデル比較の精度向上
- ベイズ推論は複雑なモデルに対して有効だが,計算コストが高い。
- 変分推論は高速だが,モデルの誤指定に弱いという課題がある。
- モデル誤指定下における変分モデル比較の信頼性向上を目指す。
- 自己整合性(SC)を用いた訓練は,尤度が利用可能な場合に頑健性を向上させる。
- パラメータ事後分布に基づくモデル比較が,モデルエビデンスや事後モデル確率を直接近似する方法よりも優れている。
- 実データセットに対するSC訓練は,モデル誤指定下での外挿バイアスを軽減するのに役立つ。
エッジにおける継続学習:汎用的なIIoTアーキテクチャ [stat.ML, cs.LG]目的:産業分野における製造システムのリアルタイム品質管理
- IoT機器の急増により,従来の集中型コンピューティングでは遅延や帯域幅の問題が生じている。
- エッジ環境ではデータが動的に変化するため,従来の機械学習アルゴリズムは適用が難しい。
- 継続学習を用いることで,忘却の影響を軽減し,効率的な解決策を提供する。
- 本研究では,継続学習の考え方をエッジコンピューティングのシナリオに適用する新しいアプローチを提案した。
- これにより,リアルタイム品質管理において,効率的かつ効果的なソリューションが実現できることが示された。
- 継続学習は,データの逐次的な到着に対応し,忘却の影響を軽減する有効な手段である。
疎回帰におけるSTLSから投影に基づく辞書選択へ [physics.soc-ph, cond-mat.dis-nn, cs.HC, q-bio.NC, cs.SY, eess.SY, stat.ML, cs.LG, math.OC, physics.comp-ph]目的:システム同定のための疎回帰における辞書選択戦略
- 動的システムのモデリングは,科学や工学における重要な課題である。
- 辞書の選択は,疎回帰の性能に大きく影響するが,その方法論は確立されていない。
- データ駆動型モデリングにおいて,効率的な辞書選択手法を提案し,精度と解釈性を向上させる。
- 提案手法は,辞書項の相互コヒーレンスと投影残差誤差に基づき,スコア誘導による辞書選択を行う。
- 理論的分析により,スコアと辞書選択戦略の有効性が示された(オリジナルSINDyと弱SINDyの両方において)。
- 常微分方程式および偏微分方程式に対する数値実験により,提案手法の精度と解釈性の向上が確認された。
グローバル貿易データにおけるアルミニウム裁定取引のパターン認識 [econ.GN, cs.LG, q-fin.EC]目的:グローバル貿易データにおけるアルミニウム裁定取引のパターン
- 脱炭素化が進む中で,アルミニウム産業は戦略的な資源管理の焦点となっている。
- 炭素国境調整メカニズムなどの政策は,意図せずアルミニウムの価格差を拡大させている。
- 貿易データ内の異常を検出し,不正行為を明らかにすることを目的とする。
- 本研究では,UN Comtradeデータから新たな貿易異常を検出し分類するための機械学習フレームワークを提示した。
- 従来のルールベースの監視とは異なり,価格逸脱が異常の主要な予測因子であることが確認された。
- 不正な行為者はスクラップを過大評価することで,貿易ベースの資金洗浄を行っている可能性が示唆された。
LLmFPCA-detect:LLMを活用した多変量機能主成分分析による,疎な縦断テキストデータの異常検知 [stat.ML, cs.LG]目的:疎な縦断テキストデータにおける異常検知と主要なパターン抽出
- 個人のテキスト発生データは,政策立案や個別化された推奨に有用であり,その重要性が増している。
- 従来の分析手法は,疎な縦断テキストデータの特性に対応できず,ノイズや異質性,異常の影響を受けやすい。
- LLmFPCA-detectは,LLMと機能データ分析を組み合わせ,これらの課題を解決し,より正確な異常検知を目指す。
- LLmFPCA-detectは,LLMによるテキスト埋め込みと多変量機能主成分分析を組み合わせた柔軟なフレームワークである。
- この手法は,クラスタリング,異常検知,推論を可能にし,既存の予測パイプラインの性能向上にも貢献する。
- AmazonのカスタマーレビューやWikipediaのトークページコメントなど,複数のデータセットで有効性が確認された。
建物のエネルギー管理システムのためのメタ強化学習 [cs.AI, cs.LG, cs.SY, eess.SY]目的:建物エネルギー管理システムの効率化
- 地球規模のエネルギー消費において建物部門が大きな割合を占めるため,省エネルギー化は重要である。
- 従来の強化学習は,未知の建物への適応に多くの学習ステップを必要とし,実用化が課題となっている。
- 本研究は,過去の経験を活かして新しい建物への迅速な適応を実現し,省エネルギー化を促進する。
- 提案手法MetaEMSは,群レベルと建物レベルの適応により,学習効率を向上させる。
- 実験結果から,MetaEMSは未知の建物に対して迅速に適応し,ベースライン手法を上回る性能を示す。
- 多様な建物環境において,MetaEMSは効果的な制御を実現することが示された。
アンサンブル学習戦略の理論的保証:時系列予測への応用 [cs.LG, math.ST, stat.ML, stat.TH]目的:アンサンブル学習戦略の理論的保証
- 機械学習において,汎化性能向上のためにアンサンブル学習は不可欠な手法である。
- スタッキングの理論的性質は十分に解明されておらず,その性能保証は確立されていない。
- クロスバリデーションに基づくスタッキング手法の性能劣化を理論的に抑制すること。
- 本研究では,クロスバリデーションで選択されたスタッキングが,最適なスタッキングと比べて大きく劣らないことを証明した。
- この結果は,既存研究を拡張し,スタッキングの理論的基盤を強化するものである。
- 提案手法は,確率的予測において優れた性能を示すことが実験的に確認された。
MIMIR:相互情報に基づく敵対的頑健性のためのマスク画像モデリング [cs.CG, cs.RO, cs.IR, cs.CV, cs.AI]目的:ViTにおける敵対的頑健性の向上
- 画像認識の分野でViTは重要な役割を果たしており,その安定性は不可欠である。
- ViTは敵対的攻撃に対して脆弱であり,既存の防御手法との適合性が低い。
- 相互情報に基づく制約を導入し,ViTの敵対的頑健性を高めることを目指す。
- 本研究では,ViTの自己教師あり事前学習において,敵対的サンプルと潜在表現間の相互情報を制約するMIMIRを提案した。
- MIMIRは,CIFAR-10,Tiny-ImageNet,ImageNet-1Kにおいて,自然精度と頑健精度を向上させることを示した。
- 特にImageNet-1Kでは,最先端の敵対的学習手法を上回り,未知の攻撃やデータ破損に対しても優れた頑健性を示した。
時空間知識グラフに対する質問応答 [cs.CL, cs.AI]目的:時空間知識グラフを用いた質問応答の実現
- 知識グラフは,多様な情報間の関係性を表現し,高度な推論を可能にする重要な技術である。
- 既存の知識グラフは,時間や空間情報を十分に扱えず,複雑な時空間依存性を持つ質問に対応できない。
- 本研究は,時空間情報を統合した知識グラフに対する質問応答の性能向上を目指す。
- 本研究では,時間と空間の両方の推論を必要とする1万件の質問を含む,初の包括的なベンチマークデータセットSTQADを構築した。
- 既存の知識グラフ質問応答手法は,時空間的相互作用のモデリングが困難であるため,STQADにおいて性能が低いことが示された。
- 提案手法STCQAは,時間と空間の特徴を同時に埋め込み,制約を考慮した推論を行うことで,既存手法を大きく上回る性能を達成した。
差分プライバシーを用いた合成テキスト生成による知識蒸留 [cs.LG, cs.CL, cs.CR]目的:差分プライバシー保護とモデル圧縮の同時実現
- 大規模言語モデルの性能向上に伴い,プライバシー保護の重要性が増している。
- 差分プライバシーとモデル圧縮は,それぞれ性能低下を招き,両立が困難である。
- 合成データを利用した知識蒸留により,プライバシー保護と圧縮を両立し,性能低下を抑制する。
- DistilDPは,差分プライバシー教師モデルが生成した合成データを用いて知識蒸留を行う。
- Big Patentデータセットにおいて,既存手法と比較して少なくとも9.0 PPLの性能改善を達成した。
- 強力なプライバシーパラメータ(ε=2)下においても,高い有用性を維持できる。
I-Diff:高忠実度拡散モデルのための構造的正則化 [cs.LG]目的:拡散モデルにおける高忠実度なデータ生成手法
- 生成AIの発展において,高品質な画像生成が重要視されている。
- 拡散モデルにおいて,意味内容を損なわずに忠実度を高めることが課題である。
- データ分布の構造情報を拡散モデルに組み込み,忠実度向上を目指す。
- I-Diffは,拡散モデルに構造的情報をエンコードする正則化項を導入する。
- CIFAR-100データセットにおいて,DensityとPrecisionがそれぞれ10%,37%向上した。
- 提案手法は,DDPM,Improved DDPM,Latent Diffusion Modelなど,様々なモデルで有効であることが示された。
多目的(LeadingOnes, TrailingZeros)問題における進化的多様性最適化の実行時間解析 [cs.NE, cs.AI]目的:進化的多様性最適化における実行時間の理論的・実験的解析
- 最適化問題は科学技術の根幹であり,多様な解を見出すことは重要である。
- 多様な解を効率的に探索する手法は未だ十分ではなく,計算量の課題が残る。
- 多目的最適化問題に対する進化計算手法の計算量を厳密に評価し,改善を目指す。
- 三目的関数LOTZ$_k$において,GSEMOがPareto最適解を$O(kn^3)$で計算可能であることを証明した。
- 多様性最適化アルゴリズムGSEMO$_D$が,全不均衡度を$O(kn^2\log(n))$で最適化することを示した。
- 並び替えられた不均衡度ベクトルについては,$O(k^2n^3\log(n))$の計算量上限を導出した。実験結果は,全不均衡度の境界がタイトであり,ベクトルの境界は悲観的であることを示唆している。
CrossPT-EEG:EEGに基づく視覚デコーディングにおける参加者間・時間的汎化のベンチマーク [cs.MM, cs.AI, cs.IR]目的:EEGデータを用いた視覚デコーディングの参加者間および時間的汎化のためのベンチマークデータセット
- 脳活動と視覚知覚の関係研究は,外界の生物学的表現を理解する上で重要である。
- 安価で時間分解能の高いEEGではあるが,大規模高品質なデータセットの不足が課題であった。
- EEGデータセットCrossPT-EEGを用いて,汎化性能の評価と視覚デコーディングの向上を目指す。
- CrossPT-EEGは,16参加者から4,000枚のImageNet画像に対するEEGデータを収録したデータセットである。
- 時間的に分離された2段階の実験デザインにより,時間的汎化とブロックデザインの影響を回避している。
- 本研究は,EEGベースのブレイン・コンピュータ・インターフェースの性能向上に貢献し,視覚知覚の理解を深める可能性を示唆する。
記憶の重要度と忘却の心理モデルを用いた長期RAGチャットボットの性能向上 [cs.CL, cs.AI]目的:長期会話における検索精度低下の緩和
- 対話システムの長期記憶能力は,より自然で人間らしい対話を実現する上で不可欠である。
- 対話が長くなるほど記憶負荷が増大し,関連情報の検索精度が低下する点が課題である。
- 感情的に喚起される記憶を優先し,会話の大部分を忘却することで,長期対話の質を向上させる。
- 感情的な記憶を優先することで,検索精度を維持しつつ,記憶負荷を大幅に軽減できることが示された。
- 会話の大部分を忘却するという従来とは異なるアプローチが,ユーザー体験の向上に貢献することが明らかになった。
- 4回のセッション,合計2時間という大規模なユーザー実験により,チャットボットの長期的な対話能力を評価した。
