arXiv雑要約
AI - 2026/03/11 公開
ウェルログ誘導による疎な岩石学的データからの地下画像合成:cGANsの利用 [cs.LG, physics.geo-ph]目的:地下構造の薄片画像合成
- 油田の特性評価において,孔隙スケールでの画像は不可欠である。
- 孔隙スケール画像取得はコストが高く,深さ方向のデータに偏りがある。
- ウェルログデータを用いて,連続的な孔隙スケール画像を生成する。
- 提案手法は,0.004-0.745の幅広い孔隙率範囲で,地質学的に整合性のある画像を生成する。
- 目標とする孔隙率値の±10%以内の精度で,81%の正答率を達成した。
- ウェルログデータと生成モデルの統合により,コアサンプリング間の連続的な可視化が可能になる。
MiniAppBench:LLM駆動型アシスタントにおけるテキストからインタラクティブなHTML応答への移行の評価 [cs.AI]目的:LLM駆動型アシスタントにおけるインタラクティブなアプリケーション生成能力の評価
- LLMの進化により,AIとの対話は静的なテキストから動的なHTMLベースのアプリケーションへと変化しつつある。
- 既存のベンチマークはアルゴリズムの正確性や静的なレイアウト再構築に焦点を当てており,新しいパラダイムに必要な能力を捉えられていない。
- 原理に基づいたインタラクティブなアプリケーション生成能力を包括的に評価するためのベンチマークを提供すること。
- MiniAppBenchは,6つのドメインにわたる500のタスクを含む,初の包括的なベンチマークである。
- 提案された評価フレームワークMiniAppEvalは,ブラウザ自動化を活用し,人間のような探索的テストを実行することで,アプリケーションの性能を評価する。
- 実験の結果,現在のLLMは高品質なMiniApp生成に課題を抱えており,MiniAppEvalは人間の判断と高い一致率を示した。
注意をいつ固定するか:ビデオ拡散におけるトレーニングフリーのKV制御 [cs.CL, cs.IR, cs.CV, cs.AI, cs.ET, eess.IV]目的:ビデオ拡散モデルにおける背景の一貫性維持と前景品質の向上
- ビデオ編集において,背景の安定性と前景の高品質化を両立させることは重要である。
- 背景情報を過度に注入するとアーティファクトが発生しやすく,背景固定が強すぎると前景の生成能力が制限される。
- 背景固定と前景生成のバランスを動的に制御し,アーティファクトを抑制しつつ高品質なビデオ生成を目指す。
- 提案手法KV-Lockは,事前学習済みDiTベースのモデルに容易に組み込めるトレーニングフリーなモジュールである。
- 拡散モデルの潜在的な幻覚検出を活用し,キャッシュされた背景KVと新しく生成されたKVの融合比率とCFGスケールを動的に調整する。
- 実験結果から,KV-Lockは様々なビデオ編集タスクにおいて,既存手法よりも優れた前景品質と背景の一貫性を示すことが確認された。
周波数サイクル:時系列予測のためのマルチスケール時間周波数解析手法 [cs.LG]目的:時系列予測のための時間周波数特徴の抽出
- 時系列データ分析において,時間周波数特性の把握は予測精度向上に不可欠である。
- 既存研究では低周波成分に重点が置かれ,中高周波成分の活用が不十分である。
- 中高周波成分の活用と,複雑な周期性に対応するモデルを構築すること。
- 提案手法FreqCycleは,低周波特徴抽出と中高周波エネルギーの強化を組み合わせることで,予測精度を向上させる。
- 特に,複数の周期が絡み合う時系列データに対して,階層的な構造MFreqCycleを用いることで,より効果的な予測が可能となる。
- 7つのベンチマークデータセットにおける実験により,FreqCycleが最先端の精度を達成し,高速な推論速度を維持することが示された。
公平な表現なしには評価なし:分類モデルの評価,性能,および軽減策に対するラベルバイアスと選択バイアスの影響 [cs.LG]目的:機械学習におけるラベルバイアスと選択バイアスの分類モデルの評価,性能,バイアス軽減方法への影響の分析
- 機械学習の公平性は重要であり,バイアスの存在は,公平性を損ない,差別的な結果を生む可能性がある。
- ラベルバイアスや選択バイアスなど,データセット内のバイアスの種類と影響の差異が十分に研究されていない。
- バイアスのあるデータセットに対して,より代表的なモデル評価を行うためのフレームワークを開発し,バイアスの種類ごとの影響を分析する。
- ラベルバイアスと選択バイアスの種類が,モデルの評価と性能に異なる影響を与えることが示された。
- バイアスがないテストセットで評価した場合,公平性と精度,個人とグループの公平性の間にトレードオフは存在しないことが明らかになった。
- バイアス軽減方法の性能は,データに含まれるバイアスの種類に依存することが示された。
時系列異常検知のためのGNN:オープンソースフレームワークと批判的評価 [cs.LG, cs.AI]目的:時系列異常検知におけるGNNの評価と改善
- 多変量信号間の依存関係を捉えるため,グラフベースの手法,特にGNNへの関心が高まっている。
- 評価の標準化が不足しており,メトリック設計と解釈に課題が残っている。
- GNNを用いた時系列異常検知のための再現性のある実験を支援するフレームワークを提供する。
- 本フレームワークを用いた評価により,GNNが検出性能を向上させるだけでなく,実用的な診断に役立つ解釈可能性も高めることが示された。
- グラフ構造が不確実な場合でも,アテンションベースのGNNが堅牢性を示すことが確認された。
- 一般的な評価手法が,意味のある比較を妨げている可能性が示唆された。
ロジック・パーシング・オムニ技術報告 [cs.AI]目的:マルチモーダルパーシングにおける課題解決
- 多様なデータ形式の理解は,AIの高度化に不可欠である。
- 従来のパーシングは,タスク定義の断片化やデータの非構造化に起因する課題がある。
- 本研究は,統一的な枠組みでマルチモーダルデータを解析し,構造化された知識を抽出する。
- オムニパーシングフレームワークは,知覚と認知を繋ぐ段階的なパーシングパラダイムを確立した。
- このフレームワークは,高レベルな意味記述と低レベルな事実との厳密な整合性を保証するエビデンスアンカリング機構を導入した。
- 実験により,詳細な知覚と高レベルな認知が相乗効果を生み出し,モデルの信頼性を高めることが示された。
EsoLang-Bench:難解プログラミング言語による大規模言語モデルの真の推論能力の評価 [cs.AI, cs.LG, cs.SE]目的:大規模言語モデルにおける真の推論能力の評価
- コード生成能力は,AI開発において重要であり,その評価手法の確立が求められている。
- 既存のコード生成ベンチマークは,学習データに含まれる情報の記憶に依存し,真の推論能力を測れていない。
- 学習データ汚染の影響を受けにくい,真の推論能力を評価するベンチマークの構築が課題である。
- 大規模言語モデルは,一般的なベンチマークでは高い性能を示すが,難解プログラミング言語を用いた評価では大幅に性能が低下する。
- 少数ショット学習や自己反省といった手法は,性能向上に繋がらず,学習済みの知識に依存している可能性が示唆された。
- EsoLang-Benchは,人間が新しい言語を習得する過程を模倣し,データ汚染に強い推論能力を測定する初のベンチマークである。
低ランク分解に基づくパラメータ効率的ファインチューニングにおける破滅的忘却について [cs.LG]目的:低ランク分解に基づくパラメータ効率的ファインチューニングにおける破滅的忘却の影響要因
- 大規模言語モデルの利用拡大に伴い,効率的な適応手法が重要視されている。
- パラメータ効率的ファインチューニングは,逐次学習において破滅的忘却を引き起こしやすい。
- 更新サブスペースの設計が破滅的忘却の軽減に重要である点を明らかにする。
- 低ランク分解に基づく手法は,更新サブスペースの形状とパラメータ化によって忘却の影響が大きく異なる。
- テンソル分解を用いたLoRETTAは,コンパクトな予算内で構造情報を捉え,忘却を軽減する効果が確認された。
- WeGeFTのような構造的に整合性の取れたパラメータ化は,事前学習済み表現を維持し,忘却を抑制する。
大規模な電子カルテを用いた自動心リスク管理分類 [cs.CL, cs.AI, cs.IR]目的:高齢者の心血管リスク管理における自動分類システムの開発
- 高齢化社会において,心血管疾患の早期発見と適切な管理が喫緊の課題である。
- 従来の事務的なコーディング作業は,時間と労力を要し,人的エラーのリスクがある。
- 電子カルテの未構造化データを活用し,自動的にリスクを分類することで,効率化と精度向上を目指す。
- カスタムTransformerアーキテクチャが,従来の機械学習手法や汎用LLMと比較して,最も高いF1スコアとマシューズ相関係数を達成した。
- 医療テキストにおける長距離依存関係を捉える階層型注意機構の重要性が示唆された。
- 本研究は,臨床リスク層別化のための堅牢な自動化ワークフローの代替案を提供する。
AutoViVQA:ベトナム語の視覚的質問応答のための大規模自動構築データセット [cs.CL, cs.CV, cs.AI]目的:ベトナム語の視覚的質問応答のための大規模データセット
- 近年,画像とテキストを理解するマルチモーダル研究が重要視されている。
- 既存のデータセットには,言語バイアスが含まれている場合があり,視覚的根拠付けが不十分である。
- 本研究は,ベトナム語における高品質な視覚的質問応答データセットの構築を目指す。
- 本研究では,Transformerベースのアーキテクチャを用いてベトナム語の視覚的質問応答を検討した。
- テキストおよび視覚の事前学習を活用し,マルチリンガル環境下での自動評価指標を比較した。
- 大規模言語モデルが,VQAタスクにおける自動評価と人間による判断の整合性を高める可能性を示唆した。
タスク指向型対話モデリングのための統一されたエンドツーエンド・スキーマ認識命令チューニングフレームワーク ESAinsTOD [cs.CL, cs.AI]目的:タスク指向型対話モデリングのための,汎用的な命令チューニングフレームワーク
- タスク指向型対話システムは,人間との自然な対話を通じてタスクを遂行するため,実用的な応用範囲が広い。
- 既存のエンドツーエンドモデルは特定のデータセットに依存し,新しい対話シナリオへの適応が困難である。
- 異なるタスクフローやスキーマへの柔軟な適応を可能にし,汎化性能を高めることを目指す。
- 提案手法 ESAinsTOD は,既存の最先端モデルを大幅に上回り,CamRest676,In-Car,MultiWOZなどのベンチマークで優れた性能を示した。
- 特に,低リソース環境下での汎化性能が向上し,提案するアライメント機構がゼロショット性能を著しく改善した。
- 命令チューニングにより,データノイズやカスケードエラーに対するモデルのロバスト性が大幅に向上した。
ActiveUltraFeedback:アクティブラーニングによる効率的な選好データ生成 [cs.LG, cs.AI, cs.CL]目的:効率的な選好データ生成手法
- 大規模言語モデルの性能向上には,人間のフィードバックが不可欠である。
- 質の高い選好データの取得にはコストがかかり,リソースが限られる場合がある。
- アクティブラーニングを用いて,注釈すべき最も有益な応答を効率的に特定する。
- ActiveUltraFeedbackは,既存手法と同等以上の性能を,6分の1のデータ量で達成した。
- 不確実性の推定を活用し,質の差が大きい応答ペアを優先的に評価する手法が有効であることが示された。
- DOUBLE REVERSE THOMPSON SAMPLINGとDELTAUCBという新しい手法が,選好データ生成に貢献する。
物理情報に基づくニューラル演算子による予測パラメトリック相分離モデル [cs.LG, cond-mat.mtrl-sci, physics.comp-ph]目的:予測パラメトリック相分離偏微分方程式の学習
- 材料の微細構造と形態進化予測は重要であり,高性能化や高機能化に不可欠である。
- 相分離モデルは計算コストが高く,パラメトリックスタディの効率を阻害する要因となる。
- 複雑な相分離ダイナミクスに対する汎化性能と長期安定性を向上させる。
- PF-PINOは,従来のFNOと比較して,精度,汎化能力,長期安定性において大幅に性能が向上した。
- 相分離方程式の残差を損失関数に組み込むことで,物理的な制約を効果的に学習に組み込んだ。
- 電気化学腐食,樹枝状結晶凝固,スピノダル分解といったベンチマーク問題で検証された。
Mousse:曲率を考慮した事前条件付けによるミューオンの幾何学の修正 [cs.LG, cs.AI, cs.CL]目的:深層ニューラルネットワークの最適化における課題解決
- 深層学習の性能向上には,効率的な最適化手法が不可欠である。近年,スペクトル最適化が注目されている。
- 従来のミューオンは,最適化空間の等方性を仮定しており,異方性のある深層学習の曲率スペクトルへの対応が課題であった。
- 本研究は,シャンプーの構造的推定を活用し,適応的な事前条件付けによる最適化の安定性と効率の向上を目指す。
- Mousseは,ミューオンよりも少ない学習ステップ数で同等の性能を達成し,約12%の学習時間削減を実現した。
- Mousseは,シャンプーから導出されたホワイト化座標系で動作することにより,高曲率方向の不安定性を抑制し,平坦な方向への進捗を促進する。
- Mousseは,異方的なトラスト領域制約を満たすスペクトル最急降下法の解として数学的に定式化されている。
OOD-MMSafe:有害な意図から隠れた結果へのMLLM安全性の向上 [cs.CL, cs.AI]目的:潜在的な危険性を認識する能力の評価
- マルチモーダルLLMの安全性は,自律的なエージェントの信頼性確保に不可欠である。
- 既存手法は悪意のある意図に焦点を当て,状況依存的な因果関係における潜在的危険の見落としがある。
- 文脈依存的な因果連鎖における潜在的危険を特定する能力向上を目指す。
- 本研究では,モデルの因果関係に対する盲目性が明らかになり,特に大規模モデルで高い失敗率が示された。
- 提案手法CASPOは,リスク特定における失敗率をQwen2.5-VL-7Bで7.3%,Qwen3-VL-4Bで5.7%に低減した。
- CASPOは,モデルの推論能力を動的な参照として活用し,トークンレベルでの自己蒸留報酬を最適化する。
MUGEN:大規模オーディオ言語モデルにおける多音声理解の評価と改善 [cs.RO, cs.SD, cs.AI, cs.CL, eess.AS]目的:大規模オーディオ言語モデルの多音声理解能力
- 近年,音声認識や音楽生成など,音声処理技術の重要性が増しており,その基盤となる大規模言語モデルへの期待が高まっている。
- 既存の大規模言語モデルは,単一音声の処理には優れるものの,複数の音声信号を同時に理解する能力が十分ではない。
- 本研究では,多音声理解能力を評価するためのベンチマークを構築し,その改善手法を提案することで,より高度な音声処理を実現する。
- MUGENベンチマークを用いて評価した結果,既存の大規模オーディオ言語モデルは,多音声環境において性能が著しく低下することが明らかになった。
- Audio-Permutational Self-Consistencyという,音声入力の順序を多様化する手法を適用することで,最大6.28%の精度向上が確認された。
- さらに,Chain-of-Thoughtとの組み合わせにより,性能は最大6.74%まで向上し,複雑な聴覚理解の評価基盤が確立された。
質問は本当に重要か? Vision-Language SFTのためのトレーニング不要なデータ選択 [cs.AI]目的:Vision-Language大規模言語モデルの性能向上に不可欠な視覚的指示チューニングのためのデータ選択
- Vision-Languageモデルは,画像とテキストを理解する能力が求められ,様々な応用分野で重要性が増している。
- 既存のデータ選択手法は,コストのかかるプロキシモデルの学習に依存し,真の貢献度を見逃しやすい。
- 画像とテキストの共同推論が必要な高品質なサンプルを選別し,マルチモーダル学習の効率化を目指す。
- CVSは,凍結されたVLLMを評価者として利用し,質問の有無による回答の妥当性差異を測定することで,効率的なデータ選択を実現する。
- Vision-Flanにおいて,CVSは全データでの学習を上回り,データ量の10%および15%でそれぞれ3.5%と4.8%の性能向上を達成した。
- CVSは,COINCIDEやXMASと比較して,計算コストをそれぞれ17.3%と44.4%削減することに成功した。
AutoAgent:適応的エージェントのための認知進化と弾力性メモリオーケストレーション [cs.AI]目的:適応的エージェントの認知進化と弾力性メモリオーケストレーション
- 自律エージェントは,多様な環境への適応が求められる。
- 既存フレームワークは,長期的な学習とリアルタイムの意思決定を両立できていない。
- 経験学習と状況に応じた意思決定を統合し,エージェントの適応性を高める。
- AutoAgentは,認知進化,状況対応型意思決定,弾力性メモリオーケストレーションを統合したフレームワークである。
- タスク知識,ツール,自己能力,他者の専門知識などを構造化されたプロンプトレベルの認知として維持する。
- 実験結果から,AutoAgentは既存のベースラインと比較して,タスク成功率,ツール利用効率,協調性が向上することが示された。
RbtAct:実行可能なレビューフィードバック生成のための反論を教師信号として [cs.CL, cs.AI]目的:実行可能なレビューフィードバック生成
- 科学ワークフローにおいてLLMの利用が増加しており,ピアレビューの効率化が求められている。
- AI生成のレビューは表面的で具体的改善点に乏しく,著者への効果的なガイダンスが不足している。
- 反論を教師信号として活用し,レビューフィードバックの実行可能性を向上させることを目指す。
- 反論を教師信号としたRbtActは,既存の強化学習ベースラインと比較して,実行可能性と具体性が向上した。
- レビューセグメントに対する反論セグメントの対応付けを含む大規模データセットRMR-75Kを構築した。
- Llama-3.1-8B-Instructモデルを教師ありファインチューニングと嗜好度最適化により訓練した。
AI-RAN対応マルチアクセスエッジコンピューティングにおける複数プロトタイプ誘導型連合知識蒸留アプローチ [cs.LG]目的:AI-RAN対応MECシステムにおける性能向上
- 無線ネットワークの発展に伴い,MECとAI-RANが注目されている。ネットワーク効率と応答性の向上が期待される。
- 従来の連合学習は,データの非独立同一分布(non-IID)という課題を抱えている。分散環境での学習効率が低下しやすい。
- データの非独立性に対応するため,複数プロトタイプを用いた知識蒸留により情報損失を抑制し,精度向上を目指す。
- 提案手法MP-FedKDは,様々なnon-IID設定下で,既存の最先端手法と比較して精度,平均精度ともに優れた性能を示した。
- 特に,条件付き階層的凝集クラスタリング(CHAC)とプロトタイプアラインメントにより,情報損失を効果的に軽減できた。
- 新しく設計された損失関数(LEMGP loss)が,グローバルプロトタイプとローカル埋め込みの関係性を活用し,学習の安定化に貢献した。
EXPLORE-Bench:長期的推論による一人称視点シーン予測 [cs.CE, cs.ET, cs.CV, cs.AI, cs.CL]目的:一人称視点における長期的物理的帰結の推論能力の評価
- 具現化されたエージェントの基盤として多Modal大規模言語モデルが注目されている。
- 行動の長期的な物理的帰結について,信頼性の高い推論が困難である。
- 一人称視点での長期的推論能力を定量的に評価するためのベンチマークを提供する。
- 提案されたEXPLORE-Benchは,多様なシナリオにおける実世界の第一人称動画から作成された。
- 多くのMLLMは人間と比較してパフォーマンスに大きな差があり,長期的推論が課題であることが示された。
- 行動系列を段階的に分解することで,パフォーマンスが向上する可能性があるが,計算コストが増加する。
ニューラルオシレータの上限汎化限界 [cs.LG, math.DS, stat.ML]目的:ニューラルオシレータの汎化性能の理論的評価
- 複雑な非線形構造システムの動的応答予測において,ニューラルオシレータの実用性が示されている。
- ニューラルオシレータのネットワーク構造に対する汎化性能の理論的な保証が未確立である。
- ニューラルオシレータの汎化性能の上限を導出し,汎化能力向上策を提示する。
- ニューラルオシレータの汎化誤差は,MLPのサイズと時間長さに比例して増加することが示された。
- MLPのLipschitz定数を損失関数で正則化することで,汎化性能が向上することが明らかになった。
- Bouc-Wenモデルを用いた数値シミュレーションにより,理論的に予測される誤差の法則が検証された。
Ego:埋め込み誘導による視覚言語モデルのパーソナライズ [cs.RO, cs.CV, cs.AI]目的:視覚言語モデルのパーソナライズ手法
- AIアシスタントの進化には,個々のユーザーに合わせた体験提供が不可欠である。
- 既存手法は,汎用性や効率性に課題があり,実用化が難しい場合がある。
- モデル内部の表現を利用し,効率的かつ汎用的なパーソナライズを実現する。
- モデル内部の注意機構を活用し,特定の概念を表現する視覚トークンを抽出する。
- 抽出されたトークンを記憶として利用し,テスト画像における概念の認識と記述を可能にする。
- シングルコンセプト,マルチコンセプト,動画パーソナライズなど,多様な設定で高い性能を示した。
World2Mind:基盤モデルにおける自己中心的な空間推論のための認知ツールキット [cs.AI]目的:基盤モデルにおける自己中心的な空間推論能力の向上
- 空間推論は,ロボット工学や拡張現実など,多くの分野で重要な役割を担う。
- 既存の手法は,3Dデータへの過学習や2D視覚認識の限界により,汎化性能が低い。
- 本研究は,構造化された空間認知マップを用いて,空間推論能力を向上させることを目指す。
- World2Mindは,3D再構成やインスタンスセグメンテーションを用いて空間認知マップを構築し,モデルが空間知識を獲得することを支援する。
- World2Mindの中核となるAllocentric-Spatial Tree(AST)は,ランドマークのレイアウトを正確にモデル化する。
- 実験の結果,World2MindはGPT-5.2などの最先端モデルの性能を5%〜18%向上させた。テキストのみのモデルでも,高度なマルチモーダルモデルに匹敵する性能を実現した。
思考連鎖の必要性の定量化:不透明な逐次深さを通して [cs.RO, cs.RO, cs.SY, eess.SY, cs.CL, cs.AI]目的:思考連鎖の必要性の定量化
- 大規模言語モデルの推論過程の理解は,AIの信頼性と性能向上に不可欠である。
- モデルの内部的な推論過程がブラックボックス化しており,解釈が困難である。
- 思考連鎖が不要な推論の限界を明確化し,モデルの潜在能力を評価する。
- 不透明な逐次深さの概念を導入し,思考連鎖を通らない計算の長さを形式的に定義した。
- Gemma 3モデルに対する不透明な逐次深さの上限を数値的に計算し,他のアーキテクチャへの拡張性を示した。
- MoEモデルは密なモデルよりも浅い深さを持つ可能性を示唆し,モデル構造と推論能力の関係を明らかにした。
欠けているものは何か?不在の概念によって活性化されるニューロンの説明 [cs.CV, cs.LG]目的:深層ニューラルネットワークにおける不在概念によるニューロン活性化の解明
- 説明可能なAIは,モデルの振る舞いを人間が理解しやすい形で提示し,信頼性と透明性を高める上で重要である。
- 既存の説明手法は,概念の存在に焦点を当てており,概念の不在がニューロン活性化に与える影響を無視している。
- 不在概念によるニューロン活性化を明らかにし,既存の説明手法を拡張することで,モデルの理解を深めることを目指す。
- 概念の不在がニューロン活性化を引き起こす現象が一般的であることが示された。
- 標準的なXAI手法では,この不在概念による活性化を捉えることが困難であることが確認された。
- 帰属および特徴可視化技術を拡張することで,不在概念を明らかにし,ImageNetモデルにおけるその利用が示された。
量子回路ボーンマシンに基づく金融ボラティリティ予測のためのハイブリッド量子古典的フレームワーク [cs.LG, cs.AI, quant-ph]目的:金融ボラティリティ予測のためのハイブリッド量子古典的フレームワーク
- 金融市場の健全な運営には,リスク管理,オプション価格設定,ポートフォリオ最適化のための正確なボラティリティ予測が不可欠である。
- 従来の計量経済モデルや古典的機械学習手法は,金融時系列の非線形性と非定常性を扱うのが困難である。
- 量子計算の導入により,複雑な最適化とサンプリング問題を解決し,金融予測の精度向上を目指す。
- 提案手法は,上海株式総合指数とCSI 300指数の高頻度データを用いた実験で,従来のLSTMモデルと比較して,MSE,RMSE,QLIKE損失において有意な改善を示した。
- LSTMネットワークによる複雑な動的特徴の抽出と,QCBMによる高品質な事前分布の提供を組み合わせることで,予測精度が向上した。
- このハイブリッドフレームワークは,高次元,複雑,または非線形なデータ分布を扱う他の機械学習タスクにも応用可能である。
ラベルを考慮したチャネルスコアリングによる分割学習における適応的チャネルプルーニング [cs.ET, eess.SP, cs.LG, cs.AI]目的:分割学習における通信オーバーヘッドの削減
- クライアントデバイスの計算負荷軽減が課題であり,サーバー側での学習負担分散が重要。
- 中間特徴表現の送受信による通信コストが大きく,特に多数のクライアントで顕著。
- チャネルの重要度に応じたプルーニングにより,送信データ量を削減し通信負荷を軽減。
- 提案手法ACP-SLは,既存手法と比較してテスト精度において一貫した性能向上を示した。
- 目標テスト精度に到達するまでの学習ラウンド数を削減し,通信オーバーヘッドを低減した。
- ラベルを考慮したチャネル重要度スコアリングが,効果的なチャネルプルーニングを実現した。
確率シンプレックスにおける情報理論的ベイズ最適化 [cs.LG]目的:確率シンプレックス上のベイズ最適化手法
- 確率変数の最適化は,機械学習やロボティクスなど多岐にわたる分野で重要である。
- 確率シンプレックスは非ユークリッド空間であり,既存手法では制約条件の扱いに課題がある。
- 確率シンプレックスの幾何構造を考慮したベイズ最適化により,性能向上を目指す。
- 提案手法$\alpha$-GaBOは,情報幾何学に基づき,確率シンプレックスの幾何構造を反映したMatérnカーネルを構築する。
- 幾何学的な最適化手法を用いることで,獲得関数の最適化性能を高める。
- ベンチマーク関数や実世界の応用問題において,既存の制約付きユークリッド手法と比較して性能向上を示す。
物理学共同研究における知識検索のためのAIアシスタントMITRA [cs.IR, cs.AI, cs.CL]目的:物理学共同研究における知識検索の効率化
- 大規模科学共同研究では膨大な内部文書が生じるため,知識共有が重要となる。
- 複雑な情報環境下では,研究者の知識探索が困難であり,研究速度を遅らせる要因となる。
- 共同研究における情報検索を効率化し,研究者の知識アクセスを容易にすること。
- MITRAは,内部データベースからの文書検索とOCRによるテキスト抽出を行うシステムである。
- ベクトルデータベースを二層構造化することで,曖昧さを解消し,関連性の高い分析を特定する。
- キーワードベースの検索手法と比較して,優れた検索性能を示すことが確認された。
良質な推論は良質なデモンストレーションを生む:文脈内強化学習による暗黙的な推論品質の監督 [cs.LG]目的:大規模言語モデルにおける推論能力の向上
- 言語モデルの性能向上には,高度な推論能力が不可欠であるため。
- 既存手法では,正解のみに着目し,推論過程の品質を見過ごす場合がある。
- 推論品質を評価し,学習データに反映することで,より頑健な推論能力を獲得する。
- 高品質な解は,低品質な解よりも効果的なデモンストレーションとなることが示された。
- 提案手法「文脈内RLVR」は,報酬にEvidence Gainに基づいた重みを付与し,高品質な推論を促進する。
- 数学ベンチマークにおいて,標準的なRLVRと比較して,精度と推論品質の両方が向上した。
Transformer 기반 모델の修正:スムージング擬似プロジェクター [cs.CG, math.MG, eess.SY, cs.SY, cs.LG, cs.AI]目的:Transformer 기반 모델の訓練動態およびロバスト性の向上
- 自然言語処理の発展に伴い,Transformer 기반 모델の利用が拡大している。
- Transformer 기반 모델は,ノイズに敏感であり,訓練が不安定になる場合がある。
- 入力内容に無関係な成分による影響を抑制し,モデルの安定性を高める。
- 擬似プロジェクターを導入することで,Transformer 기반 모델の訓練が円滑に進むことが示された。
- 本手法は,テキスト分類タスクおよび合成ベンチマークにおいて有効であることが確認された。
- 実験結果は,様々な設定において訓練挙動の改善を示しており,副作用は観察されなかった。
MA-EgoQA:複数エージェントからの一人称視点動画に対する質問応答 [cs.CV, cs.AI]目的:複数エージェントから収集された一人称視点動画の同時理解
- AIエージェントとの協働が身近になる中で,円滑なコミュニケーションが不可欠である。
- 複数のエージェントからの大量の視覚情報を効率的に処理し,統合的に理解することが困難である。
- 複数エージェントからの視覚情報を統合し,高度なシステムレベルの理解を目指す。
- 本研究では,複数エージェントから収集された一人称視点動画に対する質問応答のベンチマークデータセットMA-EgoQAを提案した。
- MA-EgoQAは,社会的相互作用,タスク連携,心の理論,時間的推論,環境との相互作用など,5つのカテゴリーを網羅する1700件の質問を提供する。
- 既存のアプローチでは,複数の一人称視点動画の同時処理が困難であり,エージェント間のシステムレベルの理解が課題であることが示唆された。
製造におけるデータ効率的なサロゲートモデリングのための統一階層型マルチタスクマルチフィデリティフレームワーク [cs.CG, cs.CL, cs.LG, stat.ME, stat.ML]目的:製造におけるデータ効率的なサロゲートモデリングのためのフレームワーク
- 製造業におけるシステム応答の定量化に不可欠であり,物理実験やシミュレーションのコスト削減に貢献する。
- 複雑な非線形関係の学習には大量のデータが必要であり,異なるフィデリティレベルの異種データが存在する。
- タスク間の類似性とフィデリティ依存性データを同時に活用し,データ効率を向上させる。
- 提案手法は,最先端のマルチタスク学習モデルと比較して,予測精度を最大19%向上させた。
- 確率的クリギングモデルと比較して,予測精度を最大23%向上させた。
- 本フレームワークは,異種データソースを持つ製造システムにおけるサロゲートモデリングのための汎用的なソリューションを提供する。
SCENEBench:支援技術と産業利用を基盤とする音声理解ベンチマーク [cs.SD, cs.AI]目的:音声理解の評価
- 音声処理技術は,多様な分野で不可欠であり,その重要性は増している。
- 従来の音声認識以外の音声理解能力の評価方法が不足していた。
- 実用的な音声理解能力を評価し,モデル改善の方向性を示す。
- 大規模言語モデル(LLM)を基盤とする音声モデル(LALM)の性能を,実際の利用場面を想定した4つのカテゴリで評価した。
- その結果,タスクによって性能に大きな差があり,いくつかのタスクではランダムよりも低い性能しか示されなかった。
- このベンチマークは,音声認識にとどまらない,音声の理解度向上に貢献することが期待される。
階層的注意ネットワークを用いたグラフベースのスペクトル需要予測アプローチ [cs.LG, cs.AI, cs.NI, cs.SY, eess.SY]目的:スペクトル需要の予測
- 無線通信需要の増加に伴い,限られたスペクトル資源の効率的な管理が重要である。
- スペクトル共有には正確な需要予測が必要だが,空間的相関が課題となる場合が多い。
- 空間的需要パターンを捉え,空間的相関の問題を解決し,予測精度を向上させる。
- 提案手法HR-GATは,既存の機械学習モデルが抱える空間的相関の問題を克服した。
- カナダの主要5都市での実験により,HR-GATは8つのベースラインモデルと比較してスペクトル需要予測の精度を21%向上させた。
- HR-GATは,その優れた性能と信頼性により,スペクトル管理における効果的なツールとなりうる。
GAST:データ層選択を用いた大規模言語モデルの勾配整合疎調整 [cs.LG]目的:大規模言語モデルの効率的な微調整手法
- 大規模言語モデルの活用は広がるが,計算コストが課題となっている。
- 既存手法では,データや層の選択が独立しており,情報冗長性が残る。
- データと層の選択を統合し,情報冗長性を削減する手法を開発する。
- GASTは,データと層の両方を選択的に微調整することで,計算コストを削減する。
- 各層にとって最も効果的なデータポイントを適応的に選択する。
- 実験結果から,GASTが既存手法を上回り,PEFT戦略の新たな方向性を示す。
CarbonBench:ゼロショット学習を用いた炭素フラックスのスケールアップに関するグローバルベンチマーク [cs.LG, physics.ao-ph]目的:炭素フラックスのスケールアップに関するグローバルベンチマーク
- 地球温暖化対策や炭素会計において,陸域の炭素交換量の正確な定量化は不可欠である。
- エディ共分散観測が少ないため,モデルは代表性の低い生態系への一般化が課題となっている。
- 異なる気候や植生タイプにおけるモデルの性能を厳密に評価するベンチマークを提供する。
- CarbonBenchは,世界567地点のフラックス観測データ(2000-2024年)を統合した初のベンチマークである。
- このベンチマークは,未観測の植生タイプや気候への一般化性能を評価するためのプロトコルを提供する。
- 機械学習と地球システム科学を結びつけ,転移学習手法の比較と次世代気候モデルの発展に貢献する。
散乱環境におけるダイナミクスを考慮した方策学習による新たな外在的器用さ [eess.SY, cs.SY, cs.CL, cs.RO, cs.AI]目的:散乱環境における外在的器用さの実現
- ロボットが現実世界でタスクをこなすには,物体の把持能力だけでは不十分であり,環境との相互作用が重要となる。
- 散乱環境では,複数の物体が複雑に絡み合い,そのダイナミクスを考慮した制御が難しい。
- 複雑なダイナミクスを明示的にモデル化することで,散乱環境における外在的器用さを実現することを目指す。
- 提案手法では,接触誘起物体のダイナミクスを学習し,強化学習に組み込むことで,外在的器用さを獲得する。
- シミュレーション実験では,既存手法と比較して25%以上の成功率向上を達成した。
- 実機実験では10個の散乱環境で約50%の成功率を示し,実用的な食料品展開タスクでも堅牢なシミュレーションから実機への転移が確認された。
継続学習のための局所分類器アラインメント [cs.CL, cs.CY, cs.RO, cs.AI]目的:継続学習における破滅的忘却の軽減
- 変化する環境下での継続学習は,知能システムに不可欠な能力である。
- 従来のモデルは,新たなタスクを学習する際に,過去の知識を忘却しやすい。
- タスク固有の分類器とバックボーンのミスマッチを解消し,知識の統合を促進する。
- 提案手法である局所分類器アラインメント(LCA)損失は,分類器とバックボーンをより良く整合させる。
- 理論的に,LCA損失は,観測されたすべてのタスクで汎化性能を向上させ,ロバスト性を高める。
- 標準的なベンチマークにおける実験の結果,提案手法は最先端の方法を凌駕する性能を示す。
ポリシーパラメータ化されたプロンプトによるLLMマルチエージェント対話への影響 [cs.AI, cs.MA]目的:LLMマルチエージェント対話の会話行動への影響
- LLMはマルチエージェントシステムの新たなパラダイムであり,社会シミュレーション研究に貢献する。
- 既存研究はアドホックなプロンプトに依存しており,原理的なポリシー視点が欠けている。
- 学習なしで,プロンプトをアクションとしてパラメータ化し,軽量なポリシーを構築すること。
- 提案手法では,プロンプトをLLMが実行するアクションとみなし,状態に基づき動的にプロンプトを構築する。
- 応答性,反論,証拠利用,非反復性,立場転換の5指標で評価した結果,プロンプトパラメータ化が対話ダイナミクスに影響を与えることが示された。
- 本研究は,マルチエージェントシステムの社会シミュレーション研究の方向性を示す,シンプルかつ効果的なメカニズムを提供する。
継続的LLMファインチューニングのためのメモリ認識型適応リプレイ [cs.IR, cs.LG, cs.AI, cs.CL]目的:継続的学習におけるLLMの性能維持と適応性向上
- LLMの活用範囲拡大に伴い,変化する環境への適応が不可欠となっている。
- 逐次学習において,過去の知識が失われる破滅的忘却が課題となっている。
- メモリ強度に基づきリプレイ頻度を調整することで,忘却を抑制しつつ適応性を維持する。
- MSSRは,3つのバックボーンモデルと11の逐次タスクにおいて,最先端のリプレイベースラインを安定して上回った。
- 特に,推論能力を必要とするタスクや多肢選択問題において顕著な性能向上を示した。
- サンプルレベルのメモリ強度推定と適応的なリハーサルスケジューリングが,忘却緩和と高速適応の両立に貢献している。
MedMASLab:多種モダリティ医療マルチエージェントシステムベンチマークのための統合オーケストレーションフレームワーク [eess.SY, cs.SY, cs.CL, cs.RO, cs.SY, eess.SY, cs.AI]目的:多種モダリティ医療マルチエージェントシステムのベンチマークと評価のための統合フレームワーク
- 複雑な臨床意思決定支援において,マルチエージェントシステムの活用が期待されている。
- 医療分野におけるマルチエージェントシステム研究は,アーキテクチャの断片化と標準化された多種モダリティ統合の欠如に悩まされている。
- 異種アーキテクチャ間の統合と,臨床推論の評価標準を確立し,ベンチマーク環境を提供する。
- MedMASLabは,11種類の異種MASアーキテクチャと24種類の医療モダリティを統合する標準化されたプロトコルを導入した。
- 大規模なビジョン言語モデルを活用したゼロショット評価により,診断ロジックと視覚的根拠の検証を実現する自動臨床推論評価器を開発した。
- 11の臓器システムと473の疾患を網羅する大規模なベンチマークを構築し,専門分野間の性能ギャップを明らかにした。
AIを活用したデータ駆動型スペクトル需要予測 [eess.SY, cs.AI, cs.SY]目的:スペクトル需要の推定と管理
- 無線通信サービスの需要増加に伴い,効率的なスペクトル資源の利用が重要となっている。
- スペクトル需要の正確な予測が困難であり,資源配分や政策決定の妨げとなっている。
- AIと機械学習を用いて,スペクトル需要を正確に予測し,資源の最適化に貢献する。
- 提案手法は,サイトライセンスデータやクラウドソーシングデータ等の複数のプロキシを用いてスペクトル需要を推定する。
- 強化されたプロキシは,実世界のモバイルネットワークトラフィックデータに対して0.89のR^2値を示し,信頼性が確認された。
- 提案する機械学習モデルは,カナダの5都市で汎用性と堅牢性が検証され,動的なスペクトル計画に貢献する。
OptEMA:確率的最適化のための適応的指数移動平均(ゼロノイズ最適性を持つ) [cs.LG, cs.NA, math.NA, math.OC]目的:確率的最適化における適応的指数移動平均の理論的保証
- 最適化アルゴリズムは機械学習の基盤であり,その性能向上は重要な課題である。
- Adam等の既存手法は,ノイズがない場合や制約条件のもとで最適性が損なわれる場合がある。
- OptEMAは,リプシッツ定数に依存せず,閉ループで動作する新しい手法である。
- OptEMA-MとOptEMA-Vの2つの変種を提案し,その理論的特性を解析した。
- 両変種は,ノイズレベルに適応した収束率 $\widetilde{\mathcal{O}}(T^{-1/2}+\sigma^{1/2} T^{-1/4})$ を達成する。
- ゼロノイズ環境では,ほぼ最適な決定論的収束率 $\widetilde{\mathcal{O}}(T^{-1/2})$ を実現する。
臨床情報を考慮した潜在拡散モデルによるマルチモーダル脳画像生成と欠損モダリティ補完 [cs.CV, cs.AI]目的:マルチモーダル脳画像生成と欠損モダリティ補完の枠組み
- アルツハイマー病診断には,複数の脳画像モダリティを組み合わせた解析が重要である。
- 臨床データセットでは,画像モダリティの一部が欠損している場合が多く,診断精度低下の原因となる。
- 欠損したモダリティを補完し,診断精度を維持・向上させることを目指す。
- ACADiffは,臨床情報を考慮した適応的な拡散プロセスにより,欠損した脳画像モダリティを高精度に合成する。
- ADNIデータセットを用いた評価で,ACADiffは既存手法を上回り,欠損率80%という厳しい条件下でも優れた生成品質と診断性能を維持した。
- GPT-4oを活用したセマンティックな臨床ガイダンスにより,より適切な画像生成を実現している。
生成ドリフトは密かにスコアマッチングである:スペクトルと変分的視点 [cs.IR, cs.LG]目的:生成モデルにおけるドリフトの理論的基盤の解明
- 生成モデルは画像生成等の分野で重要な役割を担うが,その理論的理解は十分ではない。
- ドリフトを用いた生成モデルは実証的に高い性能を示すものの,その原理は未解明な部分が多い。
- 本研究は,ドリフトの背後にある理論的メカニズムを明らかにし,より安定した学習を可能にすることを目指す。
- ガウスカーネル下では,ドリフト演算子が平滑化された分布におけるスコア差と厳密に一致することが示された。
- 周波数依存の収束時間スケールはプラズマ運動論におけるLandau dampingに類似しており,ガウスカーネルの高周波でのボトルネックを説明する。
- ドリフトをWasserstein勾配流として定式化することで,stop-gradient演算子の重要性が理論的に裏付けられた。
SignalMC-MED:単一誘導心電図とPPGにおけるバイオ信号ファウンデーションモデルの評価用マルチモーダルベンチマーク [cs.CL, cs.LG]目的:単一誘導心電図と光電体積脈波データのバイオ信号ファウンデーションモデルの評価基準
- 臨床予測タスクにおいて,バイオ信号の活用が重要視されており,その性能評価の必要性が高まっている。
- 長時間のマルチモーダルデータに対するバイオ信号ファウンデーションモデルの体系的な評価が不足している。
- バイオ信号ファウンデーションモデルの評価を標準化し,性能向上に貢献する。
- SignalMC-MEDベンチマークを用いて,代表的な時系列モデルとバイオ信号モデルの性能を評価した結果,ドメイン特化型バイオ信号モデルが優れていることが示された。
- 心電図とPPGのマルチモーダル融合は,単一の入力よりも頑健な改善をもたらすことが明らかになった。
- 10分間の信号全体を使用することで,より良い結果が得られ,大規模モデルが必ずしも小規模モデルを上回るわけではないことも示された。
柔軟なスペクトルアクセスに向けて:スペクトル需要に関するデータ駆動型洞察 [eess.SY, cs.AI, cs.NI, cs.SY]目的:スペクトル需要の変動推定と変動要因の特定
- 6Gネットワークでは無線接続需要が急増し,限られたスペクトル資源の効率的利用が重要となる。
- 既存の手法では,空間と時間的なスペクトル需要の正確な把握が困難である。
- 本研究は,将来のネットワーク需要に対応可能なスペクトル管理ポリシー策定を支援する。
- 提案手法は,都市部間のスペクトル需要変動の70%を捉えることができた。
- 地理空間分析と機械学習を活用し,スペクトル需要の空間的な変動を推定した。
- 本研究の知見は,6Gネットワークの複雑な状況下における効果的なスペクトル管理に貢献する。
