arXiv雑要約
AI - 2025/12/22 公開
単一画像からのNPHM再構成回帰学習:Pix2NPHM [cs.CV, cs.AI]目的:単一画像からのNPHMパラメータ回帰
- 顔認識や生成において,高精度な3D形状モデルは重要な役割を果たす。
- 従来の3DMMでは詳細な形状表現が難しく,NPHMは高次元なため,画像からの適合が困難である。
- 単一画像から高精度にNPHMを再構成し,顔の形状と表情を正確に再現することを目指す。
- Pix2NPHMは,ViTネットワークを用いて単一画像から直接NPHMパラメータを回帰する手法である。
- 従来のモデルと比較して,より認識可能な顔の形状と正確な表情を再構成できる。
- 大規模な3Dデータと2Dビデオデータを用いて学習することで,高い汎化性能と処理速度を実現した。
マルチインスタンス部分ラベル学習のための較正可能な曖昧性解消損失 [cs.CE, cs.LG]目的:マルチインスタンス部分ラベル学習における分類精度と較正性能の向上
- 弱教師あり学習は,ラベル付けコストを削減し,現実世界の多様なデータに対応可能であるため重要である。
- 既存のMIPL手法は,信頼性の低い分類器の較正性能が低いという課題を抱えている。
- 提案手法は,分類精度と較正性能を同時に向上させ,MIPLとPLLの既存フレームワークに容易に組み込める。
- 提案する較正可能な曖昧性解消損失(CDL)は,候補ラベル集合からの確率に基づいて予測を較正する。
- CDLは,候補ラベルと非候補ラベル集合の両方からの確率を統合することで,更なる性能向上を達成する。
- 実験結果は,CDLが分類性能と較正性能の両方を大幅に改善することを確認した。
インテリジェント知識マイニングフレームワーク:AI分析と信頼性のある保存の架け橋 [cs.CY, cs.DL, cs.AI, cs.IR]目的:AI分析と信頼性のある長期保存の間の重要なギャップを埋めるための包括的な概念モデル
- デジタルデータは爆発的に増加しており,アクセス,統合,価値創造における課題が顕著になっている。
- データは不均一な形式で分散しており,効率的な活用や共同意思決定を妨げるサイロ化が生じている。
- 動的なAI分析と信頼性のある長期保存の関係を定義し,静的なリポジトリを活きたエコシステムに変革すること。
- 本研究では,インテリジェント知識マイニングフレームワーク(IKMF)を提案し,生データを意味的に豊かな知識に変換するマイニングプロセスと,信頼性を確保するアーカイブストリームの二重構造を提示する。
- フレームワークは,データの完全性,来歴,計算再現性を保証することで,知識の流れを促進する基盤を提供する。
- 研究の動機,問題提起,主要な研究課題,基盤となる科学的方法論,概念設計,モデリングの詳細を述べている。
あらゆるキャラクターをあらゆる世界で動かす [cs.CV, cs.AI]目的:ユーザー指定のキャラクターによる多様な行動の実現
- 仮想環境シミュレーションのインタラクティブ性が高まり,様々な応用が期待される分野である。
- 既存手法では,静的な環境生成モデルか,単一エンティティの制御に限定されており,柔軟性に欠ける。
- ユーザーが指定したキャラクターを自由に動かし,環境とインタラクションさせることを可能にする。
- AniXは,静的な世界生成モデルと制御可能なエンティティモデルの利点を組み合わせることで,リアルなキャラクターアニメーションを実現する。
- 自然言語による指示に基づいて,キャラクターは基本的な移動からオブジェクトとのインタラクションまで,多様な行動を環境内で実行できる。
- 事前に学習されたビデオ生成モデルを活用することで,モーションのダイナミクスを向上させ,汎化性能を高めている。
ハードウェア設計のためのLLMベースの行動駆動開発 [eess.SY, cs.SY, cs.SE, cs.AI, cs.AR]目的:ハードウェア設計における行動駆動開発の支援
- ハードウェア設計において,テストと検証は不可欠であり,システム規模の拡大に伴い重要性が増している。
- 行動駆動開発はソフトウェアでは有効だが,ハードウェア設計への応用は限定的であり,実用的な利用は少ない。
- テキスト仕様から正確な行動シナリオを自動的に生成することで,ハードウェア設計における行動駆動開発を促進する。
- 本研究では,大規模言語モデルを用いてハードウェア設計における行動駆動開発を支援する手法を調査した。
- 大規模言語モデルを用いることで,テキスト仕様から行動シナリオの生成を自動化できる可能性を示した。
逐次推薦におけるID-テキスト相補性の活用:アンサンブルによるアプローチ [cs.HC, cs.LG]目的:IDとテキストベースの逐次推薦モデルの相補性
- 逐次推薦は,ユーザーの行動履歴に基づき,次にユーザーが興味を持つ商品を予測する上で重要である。
- ID埋め込みとモダリティ埋め込みの有効性に関する研究は存在するが,両者の相補的な関係性は十分に解明されていない。
- IDとテキストの特徴が互いに補完しあうことを示し,その相補性を活用した新しい推薦手法を提案すること。
- ID埋め込みとテキスト埋め込みは互いに補完的な信号を学習しており,組み合わせることで性能向上が期待できることが示された。
- 提案手法は,IDとテキストの相補性を活かした単純なアンサンブル戦略でありながら,既存の高度な手法を上回る性能を発揮する。
- 高性能な逐次推薦を実現するためには,IDとテキストの両方の特徴が重要であり,複雑な融合アーキテクチャは必ずしも必要ではないことが示唆された。
ShareChat:実世界のチャットボット会話のデータセット [cs.CE, cs.SY, eess.SY, cs.CL, cs.AI, cs.HC]目的:実世界のチャットボット会話のデータセット
- 大規模言語モデルの利用拡大に伴い,ユーザーとのインタラクション理解が不可欠となっている。
- 既存のデータセットは,インターフェースを考慮せず,テキスト生成に偏っている。
- プラットフォーム固有の特性を維持した会話データセットを構築し,実用的な分析を可能にすること。
- ShareChatは,ChatGPT,Claude,Geminiを含む5つの主要プラットフォームから142,808件の会話,66万件以上のターンを収集した大規模データセットである。
- 本データセットは,推論トレース,ソースリンク,コードアーティファクトなどのプラットフォーム固有の情報を保持している。
- 会話の完結性分析,情報源引用の評価,時間的傾向分析により,データセットの有用性が示された。
計画を下降法として:学習されたエネルギー景観における目標条件付き潜在軌道合成 [cs.RO, cs.AI]目的:目標条件付き潜在軌道のエネルギー関数学習
- ロボットの計画問題は,複雑な環境下での自律動作実現に不可欠であり,その効率性と汎用性が求められている。
- オフライン強化学習では,訓練データとテストデータの乖離が課題であり,汎化性能の向上が難しい。
- 検証に基づいた軌道合成により,訓練とテストの乖離を軽減し,よりロバストな計画手法を確立することを目指す。
- PaDは,オフライン強化学習において,エネルギー関数を学習することで軌道合成を実現する新しい枠組みである。
- 狭い専門家によるデモンストレーションデータで訓練した場合,PaDは95%の成功率を達成し,既存手法を大きく上回った。
- ノイズの多い不完全なデータで訓練することで,成功率と計画効率がさらに向上し,検証駆動型計画の利点を示した。
高齢化研究における計算手法とAIの統合 [cs.CY, cs.AI, cs.HC, stat.AP]目的:高齢化に関する質的研究への計算手法とAI導入の可能性
- 高齢化は世界的な課題であり,社会保障制度や医療体制への影響が大きい。
- 質的研究は詳細な情報を得るのに適するが,分析に時間と労力がかかる。
- 質的データの効率的な分析と大規模化による新たな知見の獲得を目指す。
- 計算社会科学(CSS)ツールは,質的研究のデータを大規模に管理・分析することを可能にする。
- 機械学習(ML)や自然言語処理(NLP)は,質的データのパターン特定と詳細な事例との関連付けを支援する。
- 既存の質的研究手法を補完し,より大規模で多角的なアプローチを可能にすることで,高齢化に関する新たな洞察が期待される。
InfSplign:テキスト画像拡散モデルの推論時空間的配置調整 [cs.CV, cs.AI]目的:テキスト画像拡散モデルにおける空間的配置の改善
- 画像生成AIの発展に伴い,テキストの指示通りの配置が課題となっている。
- 学習データの空間的指示の不足と,テキスト埋め込みの空間意味の表現力不足が問題である。
- 推論時にノイズ調整により,オブジェクトの配置精度とバランスを改善する。
- InfSplignは,推論時にクロースアテンションマップを用いてノイズを調整する軽量な手法である。
- VISORとT2I-CompBenchの評価で,既存手法を上回り,最新技術を確立した。
- ファインチューニングベースの手法をも凌駕する性能を示す。
AnyTask:Sim-to-Realポリシー学習を促進する自動タスク・データ生成フレームワーク [cs.RO, cs.AI]目的:汎用ロボット学習のための自動タスクおよびデータ生成
- ロボットの汎用性向上には,多様で高品質なデータが不可欠である。データ収集コストが課題。
- シミュレーションによるデータ拡充は有望だが,タスク設計や環境生成に人手が必要。
- フレームワークの自動化により,多様なタスクとロボットデータの生成を効率化する。
- AnyTaskは,GPUシミュレーションとファウンデーションモデルを組み合わせた自動フレームワークである。
- 生成されたデータで学習したポリシーは,現実世界の様々なタスクで44%の平均成功率を達成した。
- 新規オブジェクト配置にも対応可能であり,Sim-to-Real転移の有効性が示された。
注意機構を強化したCNNによる解釈可能な植物葉病害検出 [cs.CV, cs.AI]目的:植物葉病害の解釈可能な検出手法
- 世界的な食糧安全保障の確保は重要であり,病害の早期かつ正確な診断が不可欠である。
- 既存の病害検出手法は,その判断根拠が不明確であるという課題がある。
- 本研究は,AIの説明可能性を高め,信頼性の高い農業診断システムの開発を目指す。
- 提案手法CBAM-VGG16は,5つの植物病害データセットにおいて高い精度(最大98.87%)を達成した。
- CBAMモジュールを組み込むことで,特徴抽出と病害部位の特定能力が向上した。
- CBAMアテンションマップ,Grad-CAM等の可視化により,モデルの判断根拠を明確に示すことができた。
視覚的プロンプトによるベンチマークは驚くほど脆い [cs.CV, cs.LG]目的:視覚的プロンプトに対するモデルの脆弱性の評価
- マルチモーダルモデルの性能評価において,視覚情報の理解能力の重要性が増している。
- 既存の視覚的プロンプトベンチマークは,微細な設定変化によって結果が左右される可能性がある。
- ベンチマークの安定性を高めるため,多様な視覚的プロンプトを用いたデータセットを構築すること。
- 既存のVLMは,視覚的プロンプトの些細な変更(例えば,マーカーの色)によってランキングが大きく変動することが示された。
- 視覚マーカーのサイズ調整などにより,性能の低いモデルがより高いモデルを上回る結果が得られる場合がある。
- JPEG圧縮レベル等の低レベルな設定もモデルの性能に影響を与えることが示され,安定した評価が困難であることが明らかになった。VPBenchという新しいベンチマークを提案した。
Wasserstein-Fisher-Rao勾配フローを実装するための重み付き確率微分方程式 [cs.LG, cs.AI, stat.ML]目的:Wasserstein-Fisher-Rao勾配フローに基づくサンプリングスキームの理論的・アルゴリズム的基盤の明確化
- 生成モデルの分野では,複雑な分布からの効率的なサンプリングが重要であり,計算コスト削減に繋がる。
- 従来の拡散モデルは,非対数凹型分布において混合率が低下し,探索性能が課題となっている。
- 情報幾何学のツールを用いて,拡散ベースサンプラーの探索能力向上を目指す。
- Wasserstein-Fisher-Rao (WFR)幾何学に基づくサンプリングダイナミクスを,重み付き確率微分方程式を用いて実現した。
- Feynman-Kac表現を用いることで,質量再重み付けメカニズムを明示的に導入し,幾何学的・作用素理論的構造を解析した。
- 本研究は,WFRベースサンプリングダイナミクスの理論的基盤を確立し,今後の発展に貢献する。
ソボレフ空間におけるオペレータ学習のための正則化ランダムフーリエ特徴と有限要素再構成 [cs.HC, cs.HC, cs.LG, cs.NA, math.NA, stat.ML]目的:偏微分方程式の解オペレータのような,無限次元関数空間間の写像のデータ駆動近似
- オペレータ学習は,物理現象のモデル化やシミュレーションにおいて重要な役割を果たす。
- 従来のカーネル法は計算コストが高く,ノイズに弱いという課題があった。
- ノイズに対するロバスト性を高め,学習時間を短縮することを目指す。
- 提案手法RRFF-FEMは,マルチバリアートStudent's t分布を用いたランダム特徴と,高周波ノイズを抑制する周波数加重ティホノフ正則化を組み合わせている。
- 特徴数Nがサンプル数mに対してm log mに比例する場合,システムがwell-conditionedとなり,推定と汎化の保証が得られることが示された。
- ベンチマーク問題に対する数値実験により,RRFFおよびRRFF-FEMはノイズに強く,従来のモデルと比較して性能が向上することが確認された。
RadarGen:カメラ画像からの自動車用レーダー点群生成 [cs.HC, cs.CV, cs.AI, cs.LG, cs.RO]目的:自動車用レーダー点群の生成
- 自動運転技術発展に不可欠なレーダー技術の性能向上は重要である。
- 実世界のレーダーデータ収集にはコストと時間がかかるという課題がある。
- カメラ画像からレーダーデータを生成し,データ収集の効率化を目指す。
- RadarGenは,カメラ画像からリアルなレーダー点群を生成する拡散モデルである。
- 生成されたレーダーデータは,実データで学習した知覚モデルとの差を縮小する。
- 本手法は,マルチモーダルな生成シミュレーションへの道を開く。
人間らしいAIデザインは擬人化を促進するが,世界的にエンゲージメントと信頼に多様な結果をもたらす [cs.AI]目的:人間らしいAIデザインが,エンゲージメントと信頼に及ぼす因果関係の検証
- AI技術の高度化に伴い,AIと人間のインタラクションが増加しており,その影響の理解が重要である。
- AIの擬人化が,過信や感情的な依存を引き起こす可能性が議論されているが,実証的な研究が不足している。
- AIデザインとユーザーの反応の関係を,文化的な違いを考慮して明らかにすること。
- AIの人間らしさの評価において,知性や意識といった理論的な側面よりも,会話の流れや共感性といったインタラクションの質が重視される。
- 人間らしいデザインは擬人化を促進するが,エンゲージメントや信頼を普遍的に高めるわけではない。
- 特定のデザインが,ある文化圏では信頼を高める一方,別の文化圏では逆効果となるなど,文化的な影響が認められる。
分布ロバストな模倣学習:検証可能な自律性のための階層型制御アーキテクチャ [eess.SY, cs.LG, cs.SY]目的:模倣学習における分布シフトへのロバスト性向上と,検証可能な自律システムの実現
- 模倣学習は強化学習と比較してサンプル効率が高いが,分布シフトに脆弱であるため,実用化には課題が残る。
- 分布シフトは,ポリシーエラーや外乱,モデル誤差など複数の要因により発生し,制御性能を劣化させる。
- 本研究は,分布シフトに対するロバスト性を高めることで,学習されたシステムの安全性を保証する。
- 提案手法DRIPアーキテクチャは,既存手法TaSILと\ellonedracを統合し,分布シフトに対して包括的なロバスト性を提供する。
- 階層型制御アーキテクチャを通じて,各層の入出力要件を適切に設計することで,制御パイプライン全体の安全性証明を可能にする。
- 学習ベースのコンポーネントとモデルベースの意思決定を統合し,完全に検証可能な自律システムパイプラインの設計への道を開く。
推論がその法則と出会うとき [cs.AI, cs.CL]目的:大規模推論モデルにおける推論行動の理論的定式化
- AIの進化において,高度な推論能力は不可欠であり,そのメカニズム解明が求められている。
- 大規模言語モデルは高性能だが,直感に反する推論行動を示し,能力を制限している。
- 推論の法則を形式化し,モデルの性能向上と解釈可能性の向上を目指す。
- 本研究では,「推論の法則」という統一的なフレームワークを提示し,大規模推論モデルの内在する推論パターンを特徴づけた。
- 多くのモデルは単調性を示すが,合成性においては課題が残ることをLoRe-Benchを用いて明らかにした。
- 計算法則の合成性を強化するファインチューニング手法を開発し,複数のベンチマークで推論性能の向上が確認された。
オープンファウンデーションモデルにおける視覚的頑健性 [cs.CV, cs.AI, cs.CR]目的:オープンウェイトの視覚言語モデルに対する敵対的攻撃の影響評価
- 深層学習の普及に伴い,AIシステムの判断根拠の理解が重要となっている。
- AIは微小な摂動によって容易に誤認識を誘発される可能性がある。
- 視覚入力に対する敵対的攻撃の影響を評価し,モデルの脆弱性を明らかにする。
- LLaVA-1.5-13BとLlama 3.2 Vision-8B-2に対し,視覚入力に対する敵対的攻撃(PGD)を試みた。
- Llama 3.2 Visionは,LLaVAと比較して,高い摂動レベル下で性能低下が小さかった。
- 視覚モダリティは,現代のオープンウェイト視覚言語モデルの性能を低下させる有効な攻撃経路であることが確認された。
あらゆるものの再深度推定:自己教師あり再照明によるテスト時深度洗練 [cs.CV, cs.AI, cs.LG]目的:単眼深度推定の精度向上
- 現実世界の画像は学習データと分布が異なるため,汎化性能が課題となる。
- 既存の基礎モデルは,学習分布から遠い現実世界の画像に対して課題を抱えている。
- 2D拡散モデルの強力な事前知識を活用し,テスト時の自己教師あり学習でこのギャップを埋める。
- 提案手法は,予測された深度マップを再照明し,入力を増強することで,ラベルなしの洗練を直接入力画像上で行う。
- 形状からの陰影(SfS)のヒントを生成的な文脈で活用し,スコア蒸留サンプリング(SDS)を適用する。
- エンコーダを固定し,中間埋め込みを更新し,デコーダを微調整することで,最適化の崩壊を防ぐ。
Speech-FT:事前学習済みとファインチューニング済み音声表現モデルの融合によるクロスTask汎化能力の向上 [cs.CL, cs.AI, cs.SD]目的:クロスTask汎化能力を維持しつつ,ファインチューニングの利点を活かすこと
- 音声表現モデルは様々な音声タスクに応用可能であり,その性能向上は重要である。
- ファインチューニングは特定のタスク性能を向上させるが,汎化能力を低下させる可能性がある。
- 表現の変化を抑制し,事前学習時の情報を維持することで,汎化能力の低下を防ぐことを目指す。
- Speech-FTは,表現のドリフトを軽減するファインチューニングと,事前学習モデルとの重み空間補間を組み合わせる。
- HuBERT, wav2vec 2.0などを用いた実験で,様々なファインチューニングシナリオにおいて性能が向上した。
- SUPERBベンチマークにおいて,HuBERTを自動音声認識にファインチューニングした場合,PERRを5.17%から3.94%に,WERを6.38%から5.75%に,話者識別精度を81.86%から84.11%に改善した。
低リソース環境におけるアクセシブルなハードウェアを用いた脳波信号からのてんかん検出のためのグラフ注意ネットワーク [eess.SP, cs.AI, cs.LG, cs.NE]目的:低所得国におけるてんかん検出
- てんかんは未診断のまま放置されることが多く,早期発見と適切な治療が重要である。
- 低所得国では,神経科医が不足しており,診断機器が高額であるため,診断が困難である。
- 安価な脳波ハードウェアとグラフ注意ネットワークを用いて,診断支援を可能にすること。
- 提案手法は,ランダムフォレストやグラフ畳み込みネットワークと比較して,高い分類性能と頑健性を示した。
- 特に,前頭側頭部領域における特定の接続が,てんかんのバイオマーカーとして重要であることが示唆された。
- グラフ注意ネットワークは,低所得国におけるてんかん診断の支援に有用であり,手頃な価格でアクセス可能な神経診断ツール開発に貢献する可能性がある。
MRIに基づくアルツハイマー病多クラス(4クラス)分類のためのカラーマップ強化型Vision Transformer [eess.IV, cs.CV, cs.LG]目的:MRI画像を用いたアルツハイマー病の分類精度向上
- アルツハイマー病の早期診断は,患者の生活の質を維持する上で極めて重要である。
- 脳MRI画像における微細な構造変化は,従来の深層学習モデルによる特徴抽出を困難にする。
- MRI画像にカラーマップを適用し,特徴抽出能力を高めることで,分類精度を向上させる。
- 提案手法PseudoColorViT-Alzは,OASIS-1データセットにおいて99.79%の分類精度と100%のAUCを達成した。
- これは,既存のCNNベースやSiameseネットワークなどの手法(精度96.1%~99.68%)を上回る最高水準の性能である。
- カラーマップ強化とVision Transformerの組み合わせが,MRI画像を用いたアルツハイマー病分類を大幅に改善する。
高エネルギー物理における機械学習のキャリブレーション標準としての適合予測 [physics.soc-ph, cs.CY, quant-ph, hep-ph, cs.AI, hep-ex]目的:機械学習モデルのキャリブレーション
- 高エネルギー物理実験では,データ解析に機械学習が不可欠である。正確な不確実性評価が求められる。
- 機械学習モデルの確率的出力は,キャリブレーションされておらず,統計的推論の信頼性を損なう場合がある。
- 適合予測により,既存のモデルの不確実性評価を改善し,統計的妥当性を保証することを目指す。
- 適合予測は,回帰,分類,異常検知,生成モデリングなど,様々な機械学習タスクに適用可能である。
- 適合予測は,モデル自体の性能を向上させるものではないが,正直な不確実性評価とエラー制御を強制する。
- 高エネルギー物理における機械学習パイプラインに適合予測を導入することで,信頼性の高い解釈と堅牢な比較が可能になる。
スコアベース変分オートエンコーダによる潜在表現の分離 [eess.SP, cs.SI, stat.ME, stat.ML, cs.LG]目的:拡散モデルと変分オートエンコーダの理論的枠組みを統合した,潜在表現学習手法
- 機械学習における表現学習は,データの効率的な利用と高精度な予測に不可欠である。
- 従来の表現学習手法では,データの潜在的な構造を捉えきれない場合がある。
- 拡散モデルに内在する構造情報を明示化し,解釈可能な潜在表現を獲得すること。
- 本研究で提案するSAMIは,拡散過程のスコアに基づいたガイダンスを通じて潜在表現を学習する。
- 合成データや自然画像を用いた実験で,真の生成因子や意味のある潜在次元を学習することを示した。
- 静止画のみで学習しつつも,他のエンコーダよりも直線的な動画の潜在軌跡を学習可能であることを示した。
オープンフードファクツを用いた食品加工レベルの予測における機械学習の応用 [q-bio.BM, cs.LG]目的:食品の加工レベルの分類
- 食生活と健康の関連が深く,加工食品の摂取増加は健康問題に繋がるため,その評価が重要である。
- 食品加工レベルの分類は手間と時間がかかるため,大規模なデータセットでの効率的な分類方法が求められている。
- 機械学習を用いて,栄養成分データから食品の加工レベルを自動的に予測し,健康リスク評価に貢献すること。
- LightGBMモデルが最も高い精度(80-85%)を示し,低加工食品と高加工食品を効果的に区別できた。
- 高加工食品(NOVA 3, 4)は,Nutri-Scoreが低く,炭素排出量とEco-Scoreも低いことが示され,栄養価と環境負荷の観点で課題がある。
- グルテンや牛乳などのアレルゲンが,高加工食品に多く含まれる傾向が確認され,アレルギーを持つ人への影響が懸念される。
システミックリスク・レーダー:市場クラッシュ早期警戒のための多層グラフフレームワーク [q-fin.RM, cs.AI, cs.LG]目的:市場のクラッシュ早期警戒
- 金融システムの安定性は経済全体に不可欠であり,危機を未然に防ぐことは重要である。
- 従来の分析では,市場参加者の相互作用に着目したシステミックリスクの予測が困難であった。
- 市場構造の変化を捉え,システミックリスクの兆候を早期に検出することを目的とする。
- 本研究で提案する多層グラフフレームワークは,市場の構造的な脆弱性を検出し,クラッシュの兆候を早期に捉えることが示された。
- ドットコムバブル崩壊,世界金融危機,COVID-19ショックという3つの危機において,その有効性が確認された。
- グラフ構造から得られる特徴量は,従来のモデルよりも有用な早期警戒シグナルを提供する。
ウェーブレット変換アモルファス動径分布関数における機械学習支援パラメータ調整 [q-fin.ST, cond-mat.dis-nn, cs.CE, hep-th, cond-mat.mtrl-sci, cs.LG, physics.data-an]目的:アモルファス構造解析のためのウェーブレット変換動径分布関数(WT-RDF)パラメータ最適化
- アモルファス材料の構造理解は重要だが,非周期性のため困難である。
- WT-RDFは有効だが,振幅精度に課題があり定量分析に影響する。
- 機械学習を用いてWT-RDFパラメータを最適化し,精度向上を目指す。
- 機械学習により最適化されたWT-RDF+は,ピーク予測精度を向上させた。
- WT-RDF+は,RBFやLSTM等のベンチマークMLモデルを凌駕する性能を示した。
- WT-RDF+は,アモルファス材料,特にGe-Se系材料の構造解析に有用である。
事前知識から予測へ:グラフニューラルネットワークフレームワークにおける人間の推論の説明と可視化 [q-bio.NC, cs.AI]目的:人間の推論プロセスにおける誘導バイアスの形式化と神経実装の解明
- 人間の推論能力はAI開発において重要であり,そのメカニズム解明は人間らしいAI創生に繋がる。
- 誘導バイアスの計算論的表現が不明確であり,ニューラルネットワークでの実装方法が課題となっていた。
- グラフ理論とGNNを組み合わせ,誘導バイアスを操作可能な事前知識として捉え,人間の推論をモデル化する。
- グラフ構造の事前知識の違いが,個人の解答のばらつきを説明できることが示された。
- 最適化パイプラインと可視化手法により,予測に重要なグラフ構造を特定することが可能になった。
- 事前知識の構造や内部処理が,汎化能力に影響すること,そして誤りが不完全な事前知識から生じることを明らかにした。
慢性腎臓病における多群に対する制約付き公平回帰 [stat.ME, cs.CY, cs.LG, stat.AP, stat.ML]目的:複数の集団におけるバイアス軽減を目的とした公平回帰手法
- 医療における社会的なバイアスは,患者の公平な治療を妨げ,健康格差を拡大させる重要な課題である。
- 既存の公平回帰手法は,単一の集団に焦点を当てており,複数の集団にまたがるバイアスへの対応が不十分である。
- 複数の集団間で公平性を確保しつつ,予測精度を維持する回帰モデルの開発を目指す。
- 提案手法は,真陽性率の不均衡に対する制約付き公平回帰フレームワークを採用し,コスト感受性分類問題に帰着することで効率的な実装を可能にする。
- シミュレーション実験の結果,既存手法と比較して,公平性と精度のトレードオフにおいて優れた性能を示すことが確認された。
- 慢性腎臓病の全国規模の臨床データへの適用により,人種および民族グループ間の公平性が向上し,全体的な適合度も維持された。
汎用関数推定に対する厳密な構造非依存型下限 [stat.ML, cs.LG, econ.EM, math.ST, stat.ME, stat.TH]目的:構造非依存型推定量の達成可能な最適誤差率の解明
- 統計学,機械学習,意思決定において,効率的なノンパラメトリック推定は不可欠である。
- 従来の最適手法は強い構造的仮定に依存し,誤指定や実用上の複雑さを招く場合がある。
- 本研究は,構造的仮定なしに達成可能な誤差率の下限を明らかにすることを目的とする。
- 平均処置効果(ATE)推定において,二重頑健学習が最適誤差率を達成することを示した。
- 未知の撹乱関数に依存する汎用関数に対して,Debiased/Double Machine Learning (DML)の構造非依存型最適性が示された。
- 二重頑健性が達成可能な場合と不可能な場合を区別し,DMLが両方のケースで最適であることを証明した。
非凸制御と一段階RSBメッセージパッシングによる疎信号の完全再構成 [math.CO, cs.DM, stat.ML, cond-mat.dis-nn, cs.LG]目的:疎信号再構成における非凸制御と一段階RSBメッセージパッシングの最適化
- 信号処理において,疎信号の効率的な再構成は,圧縮センシングなど多くの応用で重要である。
- 従来のアルゴリズムでは,信号のパラメータやノイズレベルに応じて性能が制限される場合がある。
- 本研究では,非凸制御と一段階RSBメッセージパッシングを用いて,再構成性能の限界を改善する。
- 一段階RSB-AMPと一段階RSB-SEは,パラメータ領域において良好な一致性を示すことが示された。
- 新しい基準である「発散領域の最小化」により,一段階RSBのパリジパラメータを決定することで再構成限界を向上させた。
- 数値シミュレーションと実験により,提案手法が再構成性能を改善することが確認された。
非線形行列分解のための乗数法による交互方向法 [eess.SP, cs.LG, math.OC, stat.ML]目的:非線形行列分解のアルゴリズム
- データ解析において,高次元データを低次元空間に圧縮する技術は重要である。
- 従来の線形分解では,非線形なデータ構造を捉えることが困難である。
- 非線形関数を用いた行列分解により,より複雑なデータ構造の近似を可能とする。
- 本研究では,交互方向法による乗数法を用いて,非線形行列分解の効率的なアルゴリズムを提案した。
- 提案手法は,ReLU,平方関数,MinMax変換といった多様な非線形モデルに対応可能である。
- 実データへの適用により,提案手法の有効性,効率性,および適応性が確認された。
エッジデバイス向けリソース効率型医用画像分類 [eess.IV, cs.LG]目的:エッジデバイスにおけるリソース効率型医用画像分類手法
- 医療現場での迅速かつ正確な診断を支援するため,医用画像分類の重要性は高い。
- 深層学習モデルは高性能だが,エッジデバイスの計算資源やメモリに制約がある。
- 量子化技術により,モデルサイズと推論速度を削減し,エッジデバイスでの実用化を目指す。
- モデルの量子化により,モデルサイズと推論速度を大幅に削減できることが示された。
- 量子化対応学習(QAT)と学習後量子化(PTQ)の最適化により,診断精度を維持した。
- 本研究は,遠隔地やリソースの限られた環境でのAI駆動型医療診断の実現に貢献する。
HydroGym:流体動力学のための強化学習プラットフォーム [q-bio.PE, cs.CL, physics.flu-dyn, cs.AI, cs.LG]目的:流体制御のための強化学習研究プラットフォームの提供
- 輸送,エネルギー,医療など,科学技術の多様な分野において流体制御は不可欠である。
- 高次元,非線形性,多スケールな相互作用により,流体制御は困難を伴う。
- 標準化されたベンチマークプラットフォームを提供し,計算負荷を軽減することで,流体制御における強化学習の適用を促進する。
- HydroGymは,層流から複雑な3次元乱流まで,42の検証済み環境を提供する。
- 非微分可能ソルバーと微分可能ソルバーを提供し,サンプル効率を向上させる勾配強化最適化を実現する。
- 強化学習エージェントは,境界層操作や音響フィードバック破壊など,様々な設定で堅牢な制御原理を発見する。
SkinGenBench:メラノーマ診断における合成皮膚鏡画像拡張のための生成モデルと前処理効果 [eess.IV, cs.CV, cs.LG]目的:メラノーマ診断のための合成皮膚鏡画像拡張における生成モデルと前処理の相互作用の評価
- 皮膚がん,特にメラノーマは深刻な健康問題であり,早期発見と正確な診断が重要である。
- 皮膚鏡画像データセットの規模が限られており,十分な学習データがないことが診断精度の向上を阻害している。
- 生成モデルを用いたデータ拡張により,学習データ数を増やし,診断精度を向上させることを目指す。
- StyleGAN2-ADAは,FIDおよびKIDスコアが最も低く,実データ分布により近い合成画像を生成した。
- 拡散モデルは,知覚的な忠実度とクラスアンカリングの低下を伴い,分散の高いサンプルを生成した。
- 合成データ拡張は,メラノーマ検出のF1スコアを8〜15%絶対的に向上させ,ViT-B/16はF1約0.88,ROC-AUC約0.98を達成した。
新規分子設計のためのスケーラブルなバッチ評価を用いた多目的ベイズ最適化生成法 [stat.ML, cond-mat.mtrl-sci, cs.LG]目的:多目的分子設計におけるサンプル効率の向上
- 分子発見において,複数の目的を同時に満たすことは重要課題である。
- 膨大な化学空間と高精度シミュレーションのコストが,効率的な分子設計を阻害している。
- ベイズ最適化と生成モデルを組み合わせた効率的な設計手法を開発し,課題解決を目指す。
- 生成モデルと最適化を分離した「生成後最適化」フレームワークを提案し,スケーラブルなバッチ選択を可能にした。
- 新しい獲得関数qPMHIにより,パレートフロントの拡大を最大化する候補バッチを効率的に選択できる。
- 合成ベンチマークと応用タスクにおいて,最先端の手法と比較して顕著な性能向上を実証した。特に,水性レドックスフロー電池用新規有機カソード材料の発見に貢献した。
量子支援ボルツマン機械を用いたクレジットカード取引の不正検知 [quant-ph, cs.LG]目的:クレジットカード取引における不正検知性能の向上
- 金融システムのセキュリティ確保は,経済活動の根幹を支える上で不可欠である。
- 従来の不正検知手法では,巧妙化する不正行為への対応が課題となっていた。
- 量子計算の利用により,従来のモデルでは困難だった高精度な不正検知を目指す。
- 量子支援ボルツマン機械は,古典的な手法と比較して,多くの評価指標において優れた性能を示した。
- 現在のノイズのある量子アニーラを用いた場合でも,良好な結果が得られた。
- 本研究は,金融システムにおける一般的な故障検知への量子支援ボルツマン機械の実装への道を開く。
解釈可能な機械学習における欠損値補完の不確実性 [stat.ML, cs.LG, stat.ME]目的:解釈可能な機械学習手法における欠損値補完の影響評価
- 機械学習の応用拡大に伴い,モデルの解釈性への要求が高まっている。
- 欠損値はデータ分析の障害であり,補完方法によって結果が変動する。
- 補完方法がモデル解釈に与える不確実性を定量的に評価し,改善策を示す。
- 単一補完は分散を過小評価し,信頼区間カバレッジを低下させることが示された。
- 多重補完は,名目的なカバレッジに最も近い結果となることが確認された。
- 欠損値補完の不確実性は,モデル解釈の信頼性に大きく影響する。
固体水素の壊れた対称性相の再検討:ニューラルネットワーク変分モンテカルロ研究 [cond-mat.str-el, cond-mat.mtrl-sci, cs.LG, physics.comp-ph]目的:高圧固体水素の構造候補の特定と安定性評価
- 高圧水素は,その特異な性質から新物質開発への期待が高い分野である。
- 既存の計算手法では,電子と原子核の量子効果を同時に考慮した正確な構造予測が困難である。
- 電子と原子核の量子効果を同時に考慮し,より正確な構造予測を行うことを目指す。
- 130 GPa付近の壊れた対称性相において,$Cmcm$ 空間群を持つ新たな基底状態構造候補を予測した。
- 予測された構造は,実験的な状態方程式およびX線回折パターンと定量的に一致することを示した。
- ラマン分光および赤外分光データとも整合性があり,量子多体系計算の重要性を示唆した。
乳癌術前化学療法治療反応予測のための経時的MRIと臨床データの整合性利用 [math.CO, cs.CC, quant-ph, cs.SC, math.OC, eess.IV, cs.CV, cs.LG]目的:乳癌患者における術前化学療法(NACT)の治療反応予測
- 乳癌は女性のがんの中で罹患率が最も高く,早期発見と適切な治療が重要である。
- NACTの効果を事前に予測することは難しく,患者への最適な治療計画の策定が課題である。
- 経時的なMRI画像と臨床データを統合し,NACTの効果を予測するモデルを開発すること。
- 画像登録に基づく特徴量抽出が,予測モデルの性能向上に一貫して貢献することが示された。
- ラジゲノミクス特徴量を用いたロジスティック回帰モデルが,PCR分類でAUC 0.88,正解率 0.85,RFS分類でAUC 0.78,正解率 0.72と最も良好な性能を示した。
- 画像登録法が経時的特徴量学習において有意に効果を発揮し,術前化学療法の反応予測に有用であることが示唆された。
MedNeXt-v2:大規模医療画像セグメンテーションのための3D ConvNeXtのスケール拡大 [eess.IV, cs.AI, cs.CV, cs.LG]目的:3D医療画像セグメンテーションにおける大規模教師あり表現学習のためのバックボーンネットワーク
- 医療画像解析の精度向上は,疾患の早期発見や治療効果の向上に不可欠である。
- 大規模事前学習におけるバックボーンネットワークの性能が十分に検討されていない。
- 高性能なバックボーンネットワークを開発し,医療画像セグメンテーションの精度を向上させる。
- MedNeXt-v2は,既存のバックボーンネットワークよりも優れた性能を示すことが確認された。
- バックボーンネットワークの初期性能は,事前学習後の下流タスクの性能を予測する上で重要である。
- モダリティ特化型事前学習は,フルファインチューニングを行う場合には効果は限定的である。
ドメイン知識を考慮した量子回路:量子機械学習に向けて [quant-ph, cs.LG]目的:量子機械学習における表現力,学習可能性,ノイズ耐性を有するパラメータ化量子回路の設計
- 量子機械学習は,古典計算機では困難な問題を解決する可能性を秘めており,注目されている。
- NISQデバイスにおける量子回路の深さや量子ビット数の制約が,性能向上を妨げる要因となっている。
- 画像認識タスクにおいて,効率的な量子回路構造を構築し,古典的な基盤モデルに匹敵する性能を実現すること。
- 提案手法DAQCは,画像の特徴を効率的に符号化し,局所的な相関に着目することで,深さの制限を克服した。
- 実機量子コンピュータ上での評価において,DAQCは既存の量子回路検索手法を大幅に上回り,強力な古典基盤モデルに匹敵する性能を示した。
- 量子特徴抽出器と線形古典読み出し層のみで構成されるにもかかわらず,量子機械学習を用いた画像分類タスクにおいて最高性能を達成した。
自動微分を用いた動力核による垂直座標の学習 [physics.ao-ph, cs.LG, physics.flu-dyn]目的:垂直座標系の学習
- 大気モデルの精度向上は,気候変動予測や気象予測において不可欠である。
- 地形の影響を受ける領域では,従来の垂直座標系が数値誤差を引き起こしやすい。
- 自動微分を用いて最適化された垂直座標系を開発し,数値誤差を低減することを目指す。
- 提案手法は,ニューラルネットワークを用いて単調性を保証する新しい垂直座標系(NEUVE)を導入した。
- 自動微分により正確な幾何学的計量項を計算することで,有限差分近似による誤差を排除した。
- 標準的なテストの結果,非線形統計的ベンチマークにおいて平均二乗誤差を1.4〜2倍低減し,急峻な地形上での不要な垂直速度の縞模様を解消した。
基底回転がNQS性能に与える影響の探求 [astro-ph.GA, cs.DC, quant-ph, cs.AI]目的:NQS性能に対する基底回転の影響の解明
- 量子多体系の波動関数を表現するNQSは,量子計算の分野で重要な役割を担う。
- NQSの性能は基底の選択に依存するが,そのメカニズムは十分に理解されていない。
- 基底回転がNQSの最適化に及ぼす影響を分析し,モデル設計の指針を提供する。
- 基底回転は損失関数の形状を変えずに,波動関数の位置をパラメータ空間内で移動させる。
- 浅いネットワーク構造は,回転角に依存してサドルポイント領域に陥りやすい。
- 強磁性体の場合,ほぼ縮退した固有状態が最適化の障壁となり,中間的な忠実度で最適化が停止する。
一つのスコーンで二羽の鳥を飼う:未知分布汎化と検出のためのワイルドデータの活用 [cs.LG]目的:未知分布における汎化能力と検出
- 実環境で機械学習モデルの性能を維持するためには,未知のデータ分布への対応が不可欠である。
- 既存研究では,未知分布への汎化と検出が別個に扱われ,両立が困難であった。
- 本研究は,未知分布汎化と検出を同時に達成する統一的な手法を提案する。
- 提案手法は,環境変動を捉えたワイルドデータの活用により,未知分布への汎化性能と検出能力を両立する。
- マージンベースの学習フレームワークが,汎化と検出の両方の鍵となることが実験と理論の両面から示された。
- 既存手法と比較して,提案手法は未知分布汎化と検出の両方で優れた性能を示すことが確認された。
疎な効率的かつ説明可能なデータ帰属:DualXDA [eess.SY, cs.SY, cs.LG, cs.AI]目的:モデル出力に影響を与える重要なトレーニングデータポイントの特定
- 説明可能なAIの重要性が増しており,モデルの透明性確保が求められている。
- 既存手法は計算コストが高く,大規模データセットへの適用が困難である。
- 計算効率と説明可能性を両立し,データ帰属の精度向上を目指す。
- DualXDAは,SVM理論を活用し,高速かつ疎なデータ帰属を実現した。
- 既存手法と比較して,最大410万倍の高速化と高い帰属精度を示した。
- 特徴帰属と組み合わせることで,予測におけるトレーニングサンプルの重要性を説明可能にした。
FPGA向けリアルタイムニューラルネットワークの高粒度量子化 [cs.LG, physics.ins-det]目的:リアルタイムニューラルネットワークにおける高粒度量子化によるパラメータビット幅の最適化
- リアルタイム処理が求められる分野で,ニューラルネットワークの高速化・低消費電力化が重要である。
- 既存の量子化手法では,ハードウェアの多様な精度に対応できず,性能向上の限界がある。
- FPGAのようなハードウェアプラットフォームでの効率的なニューラルネットワーク推論を可能にする。
- 提案手法HGQは,既存のネットワーク圧縮手法と比較して,リソース消費量とレイテンシを大幅に削減できる。
- HGQは,パラメータごとに最適なビット幅を独立に決定することで,ハードウェアの柔軟性を最大限に活用する。
- 本手法は,CERNのATLAS/CMS実験における次世代トリガーシステム開発に利用され,リアルタイムデータ選択に貢献している。
時間的因果表現学習における即時的依存性の識別 [cs.LG, stat.ML]目的:時間的因果表現の識別
- 時系列データから因果関係を明らかにすることは,科学的発見や意思決定に不可欠である。
- 既存手法は即時的な因果関係を仮定できない場合が多く,現実世界の複雑なシステムへの適用が困難である。
- 即時的因果関係が存在する場合でも,介入や観測グループ化なしに因果構造を識別することを目指す。
- 提案手法IDOLは,疎な影響制約を課すことで,即時的因果関係を持つ潜在的因果過程の識別を可能にする。
- 理論的に十分な変動性と疎な影響制約の下で,潜在的因果過程の識別可能性が確立された。
- シミュレーションデータと人間モーション予測ベンチマークにおける実験により,提案手法の有効性が示された。
