arXiv雑要約
AI - 2025/12/16 公開
SPDMark:ロバストなビデオ透かしのための選択的パラメータ置換 [cs.CV, cs.CR, cs.LG]目的:生成ビデオの信頼性のある検出と追跡
- 高品質なビデオ生成モデルの普及に伴い,生成されたビデオの出所を特定する技術が重要になっている。
- 既存の透かし技術は,不可視性,ロバスト性,計算効率を同時に達成できていない。
- ビデオ拡散モデルの選択的なパラメータ置換により,効率的でロバストな透かし技術を確立することを目指す。
- SPDMarkは,生成モデルのパラメータの一部を修正することで,知覚できない透かしを生成する。
- 透かしの埋め込みと抽出器は,メッセージ復元,知覚的類似性,時間的一貫性の損失を最小化する共同学習により実現される。
- テキストからビデオ,画像からビデオへの生成モデルにおける評価により,高い精度で透かしを復元できるロバスト性が示された。
GraphPerf-RT:OpenMPコードのハードウェアを意識したスケジューリングのためのグラフ駆動型性能モデル [cs.LG]目的:異種組み込みSoCにおけるOpenMPワークロードの性能予測
- 組み込みシステムの性能最適化は,限られた資源を有効活用するために重要である。
- OpenMPの性能予測は,タスクDAG構造の複雑さや熱特性の影響を受けやすく困難である。
- 本研究は,高精度かつ不確実性を考慮した性能予測モデルを構築し,効率的なスケジューリングを実現する。
- GraphPerf-RTは,タスクDAG,CFG,実行時コンテキストを統合したグラフ表現を用いることで,高い予測精度(R^2 > 0.95)を達成した。
- 不確実性の較正によりリスクを考慮したスケジューリングが可能となり,信頼性の高い計画立案を実現した(ECE < 0.05)。
- MAMBRL-D3QNとの統合により,平均で66%の実行時間短縮,82%のエネルギー削減を達成し,モデルベース計画の有効性を示した。
獣医画像におけるAI支援下での花粉認識:光学顕微鏡とホログラフィー顕微鏡 [cs.CV, cs.LG]目的:獣医画像における花粉の自動認識
- 花粉はアレルギーの原因となり,動物の健康に影響を与えるため,正確な花粉認識は重要である。
- ホログラフィー顕微鏡画像は,ノイズやアーチファクトの影響を受けやすく,花粉の認識が困難である。
- ホログラフィー顕微鏡画像の認識精度を向上させ,獣医診断への応用を目指す。
- 光学顕微鏡画像では高い検出精度と分類精度が得られたが,ホログラフィー顕微鏡画像では精度が低かった。
- ホログラフィー顕微鏡画像のバウンディングボックスを拡張することで,精度が向上した。
- WGAN-SNを用いたデータ拡張により,ホログラフィー顕微鏡画像の検出精度が改善され,実用化への一歩となった。
Computed Tomographyのための新規パッチベースTDAアプローチ [cs.CV, cs.LG]目的:Computed Tomography画像に対する新規なパッチベースのTDA手法
- 医療画像解析において,機械学習の活用は診断精度向上に不可欠であり,高度な特徴抽出が重要である。
- 従来の3次元キュービック複合体によるTDA構築は,計算コストが高く,高解像度画像への適用が課題であった。
- 本研究は,CT画像におけるTDAの性能向上と計算効率化を目指す。
- 提案手法は,分類性能と計算時間において3次元キュービック複合体法を上回る優位性を示した。
- 精度,AUC,感度,特異度,F1スコアにおいて,平均10.38%, 6.94%, 2.06%, 11.58%, 8.51%の改善が確認された。
- 提案手法の実装を容易にするため,Pythonパッケージ「Patch-TDA」を公開した。
公共部門AIにおける説明責任のための神経記号的フレームワーク [cs.CY, cs.AI, cs.LO]目的:公共部門AIの説明責任確保のためのフレームワーク
- AIの公共サービス利用拡大に伴い,公平性・透明性の確保が重要課題となっている。
- AIによる判断根拠の説明が法的根拠と乖離し,不当な判断を招く恐れがある。
- 法的根拠に基づいた説明責任を確立し,AI判断の妥当性検証を可能にすること。
- 本フレームワークは,カリフォルニア州のSNAP(CalFresh)における法的制約とAIの説明を関連付ける。
- 州の政策マニュアルから資格要件の構造化オントロジーを構築し,法的論理を形式的に表現するパイプラインを開発した。
- フレームワークは法的矛盾を検出し,資格規則違反を特定し,自動化された決定の根拠の追跡と異議申し立てを支援する。
学習済み時系列モデルの補正器としてのニューラルCDE [cs.HC, cs.LG, stat.ML]目的:学習済み時系列モデルの予測誤差の補正
- 時系列予測は,気象予測や金融分析など,様々な分野で不可欠である。
- 多段階予測において,予測誤差が累積し,精度が低下する問題がある。
- ニューラルCDEを用いた補正機構により,予測精度の向上を目指す。
- 提案手法では,学習済み時系列モデルの予測誤差をニューラルCDEで予測・補正する。
- 本手法は,不規則サンプリングデータや連続・離散時間モデルにも適用可能である。
- 実験結果から,提案手法が予測精度を安定的に向上させることが示された。
引用に基づくコード理解:ハイブリッド検索とグラフ拡張コンテキストによるLLMの幻覚防止 [cs.SE, cs.LG]目的:LLMのコード理解における幻覚の防止
- ソフトウェア開発において,コードの理解は効率と品質に不可欠である。
- LLMはコード理解に役立つが,誤った引用(幻覚)が信頼性を損なう。
- 引用に基づいた検証可能なコード理解システムの構築を目指す。
- ハイブリッド検索(BM25,BGE,Neo4j)が,単一の検索モードよりも14~18%高い精度を示した。
- 特に,ファイル間の依存関係を考慮したグラフ拡張が,引用の完全性に大きく貢献した。
- 提案手法は92%の引用精度を達成し,幻覚をゼロに抑えることに成功した。
MixtureKit:専門家混合モデルの構築,学習,可視化のための汎用フレームワーク [cs.LG, cs.AI]目的:専門家混合モデルの構築,学習,分析のためのフレームワーク
- 大規模言語モデルの性能向上には,モデルの規模拡大が不可欠だが,計算コストが課題となる。
- モデルの規模拡大に伴い,学習や推論における計算資源の消費が大きな問題となっている。
- 計算効率を維持しつつ,大規模モデルの能力を最大限に引き出すための技術開発が求められている。
- MixtureKitは,既存の事前学習済みモデルを容易に専門家混合モデルに変換できる。
- BTXモデルを用いて,多言語コード混合データにおける性能向上が確認された。
- トークンルーティングや専門家への重み分布を可視化するツールを提供し,分析を支援する。
高次元テンソル判別分析:低ランク判別構造,表現相乗効果,および理論的保証 [cs.LG]目的:高次元テンソル判別分析手法の開発
- 機械学習における高次元データへの対応が重要であり,特にテンソル形式のデータ分析が求められている。
- 既存手法はスパース性やTucker構造に依存し,理論的な保証が不足している場合が多い。
- 判別信号が少数の多線形成分に集中するという知見に基づき,新たな判別モデルを構築する。
- CP低ランク構造を用いた高次元テンソル判別分析(CP-TDA)を提案し,初期化手法としてRandomized Composite PCA (rc-PCA)を採用した。
- CP-TDAは,依存的かつ異方性のあるノイズ下での性能向上と,より弱い信号強度やコヒーレンス条件への対応を実現する。
- グラフ分類実験において,既存のテンソル分類器や最先端のグラフニューラルネットワークと比較して,顕著な性能向上を実証した。
小型無人航空機災害画像における空間的整列を用いた道路損傷評価のためのベンチマークデータセット [cs.NI, cs.CV, cs.AI]目的:道路損傷評価および道路整列のためのベンチマークデータセット
- 災害時の道路状況把握は,迅速な復旧活動や人命救助に不可欠である。
- 既存の災害道路損傷評価データセットは規模が小さく,十分な解像度がない場合が多い。
- 道路の位置ずれが評価精度に影響するため,空間的な整列の重要性を検証する。
- 本研究では,連邦政府が認定した10件の災害における小型無人航空機(sUAS)画像を用いて,657.25kmの道路を10クラスでラベル付けした。
- 道路の位置ずれを考慮しない場合,道路状況の誤認識が約8%(11km)発生し,約9%(59km)の道路線が実際の道路からずれることが判明した。
- 実際の道路線がずれている状況下では,18個のベースラインモデルの性能が平均で5.596%のマクロIoUで低下した。
低ランク大規模言語モデルのためのボトルネック最適化スケーラブル学習フレームワークBOOST [cs.LG, cs.DC]目的:低ランク大規模言語モデルの効率的な学習
- Transformerモデルの規模拡大に伴い,計算・通信コストが増大している。
- ボトルネックアーキテクチャは効率的だが,標準的なテンソル並列化ではスケーラビリティが低い。
- ボトルネックアーキテクチャに特化した並列化手法による学習効率の向上。
- BOOSTはボトルネックを考慮したテンソル並列化を導入し,オンラインRMSNorm等の最適化を組み合わせた。
- BOOSTはフルランクモデルと比較して1.46~1.91倍,単純な3D並列化と比較して1.87~2.27倍高速化を達成した。
- GPU利用率の向上と通信オーバーヘッドの削減により,学習効率が改善された。
SiLUネットワークの近似能力:指数的レートと深さ効率 [cs.LG, cs.NA, math.NA]目的:滑らかな関数の指数的近似レート
- 機械学習モデルの性能向上は,近似能力の理論的理解に依存する。
- ReLUベースのネットワークでは,近似に必要な深さが課題となっていた。
- SiLUネットワークの近似能力を理論的に示し,効率的な近似手法を確立する。
- SiLUネットワークは,ReLUネットワークと比較して指数的に高速な近似レートを実現する。
- 本研究では,深さおよびサイズがコンパクトな二乗関数近似の新たな構築法を開発した。
- 深さ$\mathcal{O}(1)$,サイズ$\mathcal{O}(\varepsilon^{-d/n})$で,Sobolev級関数を高精度に近似できることが示された。
BaRISTA:ヒトの頭蓋内神経活動の脳規模に基づいた時空間表現 [cs.LG, cs.AI, q-bio.NC]目的:ヒト頭蓋内神経活動の時空間表現の学習と評価
- 脳活動の解明は,神経科学において基礎的な課題であり,認知機能や精神疾患の理解に不可欠である。
- 頭蓋内脳波(iEEG)は高次元かつ複雑なデータであり,効果的な分析手法が課題となっていた。
- 適切な空間スケールでの表現学習により,iEEGデータの解析精度向上を目指す。
- 提案手法BaRISTAは,空間スケールを調整することで,下流タスクの性能が大きく変化することを示した。
- チャネルレベルよりも大規模な空間スケールでのエンコーディングが,より良い性能につながることを明らかにした。
- 領域レベルのトークンエンコーディングとチャネルレベルの神経活動再構築の両立に成功した。
融解水ベンチ:地表融解水の時空間ダウン スケーリングにおける深層学習 [eess.SY, cs.SY, cs.CV, cs.AI, cs.LG, physics.ao-ph, physics.data-an]目的:地表融解水の時空間ダウン スケーリング手法の開発
- グリーンランド氷床の融解加速が問題となっており,その過程の理解が重要である。
- 既存の融解水マップは,時間分解能と空間分解能のトレードオフが存在する。
- 深層学習を用いて,高分解能な融解水マップを生成し,その理解を深める。
- 深層学習モデルは,既存の非深層学習手法と比較して,融解水の予測精度を10%以上向上させた。
- SARデータを用いた移動窓計算でも高い精度(90%)が得られ,深層学習に依存しない代替手法を示した。
- 時空間的に整列されたデータセット「MeltwaterBench」を公開し,さらなる研究の比較基線を提供する。
エネルギー予測における時系列LLMに対するプラグイン型敵対的検知:長さを維持し,安全性を確保 [cs.CR, cs.LG]目的:低炭素電力システムにおける時系列LLMの敵対的サンプル検出
- 低炭素化が進む電力システムでは,正確な時系列予測が計画や運用において不可欠となっている。
- 時系列LLMは敵対的サンプルに脆弱であり,その検知は既存手法では困難である。
- 本研究は,時系列LLMの可変長入力特性を利用した敵対的サンプル検出手法を提案する。
- 提案手法は,入力シーケンスの短縮バリアントを生成し,予測の一貫性を測定することで敵対的サンプルを検知する。
- 実験結果から,本手法はTimeGPT,TimesFM,TimeLLMといった複数のLLMにおいて高い検知性能を示した。
- 本手法は,実世界のエネルギーシステムにおける時系列LLMの安全な運用に貢献し得る。
事前学習済みLLMの文脈拡張:位置埋め込みの削除による実現 [cs.HC, cs.CL, cs.AI]目的:言語モデルの文脈拡張
- 大規模言語モデルの性能向上には,より長い文脈を扱える能力が不可欠である。
- 従来の文脈拡張手法は,高コストなファインチューニングが必要であり,効率性に課題があった。
- 位置埋め込みの削除により,ファインチューニングなしで文脈拡張を実現し,効率性と性能の両立を目指す。
- 位置埋め込みの削除(DroPE)により,ファインチューニングなしで言語モデルの文脈を拡張できることが示された。
- DroPEは,事前学習時の位置埋め込みの役割と,テスト時の一般化性能への影響を理論的・実験的に分析した結果に基づいている。
- 様々なモデルやデータセットで,既存手法や位置埋め込みのスケーリング手法を上回る性能が確認された。
拡散言語モデル推論におけるモンテカルロ木探索 [cs.CL, cs.AI]目的:拡散言語モデル推論のためのモンテカルロ木探索の統合
- 拡散言語モデルは,並列生成とグローバルな一貫性の向上により,自己回帰的生成の魅力的な代替手段として注目されている。
- 推論時,どの位置をマスク解除し,どのトークンを確定するかという問題は,大規模な組み合わせ探索となる。
- 既存の手法はヒューリスティックに頼るか,追加学習が必要であり,最適なデコードパスが得られない場合がある。
- 本研究では,拡散言語モデル推論のための原理に基づいた探索機構として,MEDALというフレームワークを提案する。
- MEDALは,初期段階でモンテカルロ木探索を用いて有望なマスク解除軌跡を探索し,その後の改良のための強固な出発点を提供する。
- 複数のベンチマークにおいて,MEDALは既存の推論戦略と比較して最大22.0%の改善を達成し,拡散言語モデルにおける探索ベース推論の新たなパラダイムを確立した。
文脈学習におけるラベルの一貫性の再考:暗黙的な変換的ラベル伝播の視点 [cs.AI]目的:文脈学習におけるラベルの一貫性に関する理解と改善
- 自然言語処理において,大規模言語モデルの性能向上は重要な課題である。
- 既存のプロンプトデモンストレーション選択手法では,ラベルの一貫性が保証されない場合がある。
- ラベル伝播フレームワークを用いて,ラベルの一貫性と伝播誤差の関係を明確化し,デモンストレーション選択の改善を目指す。
- 本研究では,文脈学習を変換的学習として捉え,ラベルの一貫性が重要な役割を果たすことを示唆した。
- 提案手法TopK-SDは,既存手法TopKサンプリングと比較して,複数のベンチマークにおいて優れた性能を発揮した。
- この研究は,文脈学習の内部メカニズムを理解するための新たな視点を提供する。
床平面図とLLMによるナビゲーションガイド生成 [cs.AI]目的:視覚障碍者向け屋内ナビゲーションの知識グラフ化とナビゲーション指示生成
- 視覚障碍者の屋内移動は困難であり,安全なナビゲーションシステムの需要が高い。
- 既存システムはインフラに依存し,動的な環境への対応が課題である。
- LLMを用いて床平面図からナビゲーション情報を抽出し,手動処理を削減する。
- LLMを活用し,床平面図をナビゲート可能な知識グラフに変換する新しい手法を提案。
- 5-shotプロンプティング下で,Claude 3.7 Sonnetが最も高い精度(短距離:92.31%, 中距離:76.92%, 長距離:61.54%)を示した。
- グラフベースの空間構造は,直接的な視覚的推論よりも15.4%高い成功率を達成し,グラフ表現とインコンテキスト学習の有効性が確認された。
TA-KAND:二段階注意トリプル強化とU-KANに基づく拡散による少サンプル知識グラフ補完 [cs.AI, cs.LG]目的:少サンプル知識グラフ補完のためのフレームワーク
- 知識グラフは質問応答や推薦システム等に広く応用され,情報活用において重要な役割を担う。
- 実世界のデータは関係性の分布が偏っており,限られたサンプルでの事実補完が課題である。
- グラフ内の近傍情報や対照的な信号の分布特性を考慮し,生成表現の観点から補完を行う。
- 提案手法は,既存の知識グラフ補完手法と比較して,新たな最高性能を達成した。
- 二段階注意トリプル強化とU-KANに基づく拡散モデルを統合することで,少サンプル環境下での補完精度が向上した。
- 公開データセットを用いた実験により,提案手法の有効性が確認された。
拡散モデルによる確率的流量予測:状態空間バックボーンを伴うHydroDiffusion [cs.LG, physics.geo-ph]目的:確率的流量予測のための拡散モデルフレームワークの構築と評価
- 水資源管理において,将来の流量予測は不可欠であり,洪水被害の軽減に貢献する。
- 既存の拡散モデルはLSTMを基盤としており,長距離依存性の捕捉や予測軌道の整合性に課題があった。
- 状態空間モデルを用いることで,予測の長期的な整合性を向上させ,より高精度な流量予測を目指す。
- HydroDiffusionは,観測された気象データに基づいて高い予測精度を示し,予測期間全体を通して安定した性能を維持する。
- HydroDiffusionは,既存のDiffusion-based Runoff Model (DRUM)よりも,決定論的および確率的な予測性能において優れている。
- 本研究は,中規模流量予測のための堅牢な生成モデリングフレームワークを確立し,今後の確率的 hydrological prediction の基礎となる。
MolGuidance:フローマッチングによる条件付き分子生成のための高度な誘導戦略 [eess.SY, cs.SY, cs.LG, q-bio.QM]目的:条件付き分子生成における誘導戦略
- 創薬において,目的とする性質を持つ分子を効率的に設計することは重要である。
- 既存の分子生成モデルでは,化学的妥当性,目的性質への適合,構造多様性の確保が課題である。
- フローマッチングフレームワークに最新の誘導手法を統合し,分子生成の性能向上を目指す。
- 提案手法は,QM9およびQMe14Sデータセットにおいて,de novo分子生成における性質適合性の面で最先端の性能を達成した。
- 生成された分子は高い構造的妥当性を示すことが確認された。
- 様々な誘導手法の強みと限界を体系的に比較し,その適用可能性に関する知見を提供した。
マイクロUAVを用いた山火事境界追跡のための熱画像とRGB画像の融合:低帯域幅環境下での最小限の通信 [cs.CV, cs.AI]目的:山火事環境下におけるマイクロUAVチームの境界追跡手法
- 山火事の早期発見と被害状況の把握は,防災活動において極めて重要である。
- 従来の追跡手法は,通信帯域幅の制約やGPSの不安定性により,実用性に課題があった。
- 低帯域幅環境下でも安定した追跡を可能にする,軽量でロバストな手法を確立すること。
- 熱画像による粗いホット領域のマスクとRGB画像によるエッジ検出を組み合わせることで,誤検出を抑制した。
- Ramer-Douglas-Peuckerアルゴリズムによる簡略化により,追跡経路の長さを短縮し,境界のジッターを減少させた。
- シミュレーション及び計算資源の使用量から,標準的なマイクロプラットフォームで10-15m/sの速度での動作が可能であることが示された。
知識メタバースに向けたAI駆動型エピステモバース:知的遺産の保存に向けて [cs.HC, cs.AI]目的:知的遺産の保存・再解釈・拡張のための知識メタバースの概念
- 知的遺産の継承は,文化の多様性と人類の進歩に不可欠である。
- 既存の知識保存方法は,インタラクティブ性や新たな解釈の創出に限界がある。
- AIを活用し,知識の保存・再解釈・拡張を促進する新たな環境の構築を目指す。
- 大規模言語モデルが対話的文脈において,概念構造を創出し,認知インターフェースを再構築する能力が示された。
- AIによる哲学者の再構築と対話を通じて,推論の整合性,内省的な問い,創造的な統合が確認された。
- 人間と機械の認知が交差する知識メタバース「エピステモバース」の概念が提唱され,新たな知識交流の場が示された。
IR-UWBを用いた運転行動認識のためのALERTオープンデータセットと入力サイズに依存しないVision Transformer [cs.CV, cs.AI, cs.LG]目的:運転行動認識のための大規模UWBデータセットと,入力サイズに依存しないVision Transformer
- 運転中の注意散漫は重大な事故を引き起こすため,その検知技術の重要性は高い。
- 実環境で収集された多様な運転行動を網羅する大規模なUWBデータセットが不足している。
- 既存のVision TransformerをUWBレーダーデータに適用するための入力サイズ問題を解決する。
- 新たにALERTデータセットを構築し,10,220件の運転行動データを公開した。
- 入力サイズに依存しないVision Transformer (ISA-ViT) を提案し,UWBデータに特化した特徴量を保持した。
- ISA-ViTは既存手法と比較して,UWBベースの運転行動認識において22.68%の精度向上を達成した。
透明性の度合いは様々である:対話型検索における情報源の提示方法が注意,インタラクション,説得に与える影響 [cs.HC, cs.AI, cs.IR]目的:対話型検索における情報源提示方法の効果
- 検索結果の信頼性向上が重要であり,情報源の提示はその一環となる。
- 情報源の提示方法が,ユーザーの利用行動にどのように影響するか不明である。
- 情報源提示方法の最適化を通じて,ユーザーの知識,興味,同意の変化を促す。
- 情報源の視認性が高いインターフェースは,情報源へのマウスオーバーを増加させた。
- インターフェースのデザインは,ユーザー体験や認識に限定的な影響を与えた。
- 情報源の利用頻度が増加するにつれて,視認性の高いインターフェースは知識の獲得と興味の向上に寄与する傾向が見られた。
EEG-DLite:効率的な大規模脳波モデル学習のためのデータ蒸留 [cs.LG]目的:大規模脳波モデルの効率的な事前学習
- 脳波データは,脳の活動を直接反映し,様々な臨床応用やブレイン・マシン・インターフェースに不可欠である。
- 大規模脳波データの品質が不均一であり,ノイズや冗長性が高いことが,モデル学習のボトルネックとなっている。
- 脳波データのノイズや冗長性を除去し,効率的に事前学習を行うことで,計算コストを削減し,モデル性能を向上させる。
- EEG-DLiteを用いることで,2500時間のデータセットの5%で,フルデータセットと同等以上の性能が得られた。
- 自己教師ありオートエンコーダを用いて脳波セグメントをコンパクトな潜在表現にエンコードすることで,効率的なサンプル選択を実現した。
- 外れ値の除去と冗長性の最小化により,多様性を維持したままデータセットを縮小することに成功した。
自律走行における軌道予測器の評価:シナリオ駆動アプローチ [cs.RO, cs.AI, cs.SY, eess.SY]目的:自律走行システムにおける軌道予測器の性能評価手法
- 安全な自動運転には,周囲の車両等の行動予測が不可欠である。
- 既存の評価指標は予測精度のみに着目し,実際の運転への影響を考慮していない。
- 予測の正確性と多様性を評価し,安全な運転支援に貢献する予測器を選定する。
- 提案手法は,シナリオの重要度に応じて正確性と多様性を組み合わせた評価指標を用いる。
- 実データを用いた実験により,提案手法が従来の指標よりも運転性能との相関が高いことが示された。
- 本評価パイプラインは,自律走行車の性能向上に貢献する予測器の選択を可能にする。
合成環境における汎用的なコーディングエージェントの訓練 [cs.CY, econ.GN, q-fin.EC, stat.AP, cs.SE, cs.AI, cs.CL]目的:汎用的なコーディングエージェントの訓練
- ソフトウェア開発の自動化は,生産性向上やコスト削減に貢献し,社会におけるソフトウェアの重要性が増す中で不可欠である。
- 既存のGitHubリポジトリに依存した学習アプローチは,柔軟性が低く,ソフトウェアエンジニアが扱う多様なタスクに対応できないという課題がある。
- SWE-Playgroundは,多様なコーディングタスクに対応できる,柔軟で自律的な学習環境を提供し,その効果を検証する。
- SWE-Playgroundは,大規模言語モデルとエージェントを用いて,既存のデータソースに依存せずにプロジェクトとタスクを合成的に生成する。
- 3つのベンチマークにおいて,SWE-Playgroundは,従来の学習方法と比較して,より少ないデータで同等の性能を達成できることを示した。
- 生成されるデータは学習信号が濃密であり,エージェントの効率的な学習を促進することが確認された。
目的地より過程重視:スローシンキングにおける視覚的忠実性の重要性 [cs.CV, cs.CL, cs.LG]目的:視覚言語モデルにおける推論過程の視覚的忠実性の評価
- 視覚と言語を組み合わせたAIは,複雑な問題を解決する可能性を秘めている。
- 推論過程を明示するモデルは,視覚的に不正確なステップを踏むことがある。
- 視覚的忠実性を評価し,推論過程の信頼性を高める方法を確立すること。
- 推論過程を認識と推論のステップに分解し,既存の視覚言語モデルを用いてステップごとの忠実性を評価するフレームワークを提案した。
- 学習や参照データなしで,視覚的に不正確なステップを検出し,再生成する自己反省的な手法を開発した。
- 複数のモデルで実験の結果,忠実性の低い認識ステップが減少し,最終的な正答率は維持された。
乳児脳MRIにおける異なるセグメンテーションアルゴリズムの比較:脳容積とフラクタル次元 [cs.CV, cs.AI]目的:乳児脳MRIにおけるセグメンテーションの精度と,それらが脳容積およびフラクタル次元の推定に与える影響の比較
- 乳児脳の発達変化を定量的に評価するには,正確な脳構造の把握が不可欠である。
- 乳児期におけるミエリン化の進行や低い組織コントラストが,自動セグメンテーションを困難にしている。
- より信頼性の高いセグメンテーションアルゴリズムを特定し,乳児脳の発達研究におけるバイアスを低減すること。
- SynthSegは,主要な領域において平均Dice係数が0.8を超えるなど,SamSegよりも全ての品質指標で優れた性能を示した。
- SynthSegによる脳容積の推定値は,専門家による手動アノテーションの結果と一致しており,平均で+4% [-28% - 71%] の誤差であった。
- セグメンテーションの精度は年齢とともに向上し,ミエリン化に伴う組織コントラストの増加と一致した。
認知の幾何学的理論 [cs.AI]目的:認知過程の単一の幾何学的原理からの創発
- 人間の認知は多様であり,その理解はAI開発の根幹をなす。
- 認知機能は異なる理論で説明されることが多く,統合的な枠組みが不足している。
- 多様な認知過程を統一的に説明する幾何学的基盤を確立すること。
- 認知状態を多様体上の点として表現し,Riemann幾何学を用いて認知過程を記述した。
- 認知の潜在力場のRiemann勾配流として,認知の普遍的な力学則を導出した。
- 古典的な二重過程効果が,計量によって誘起される異方性から自然に生じることが示された。
形態に依存しない倒立からの起立:統一されたヒューマノイドポリシーによるゼロショット回復 [cs.RO, cs.LG]目的:多様なヒューマノイドロボットにおける倒立からの起立回復
- ヒューマノイドロボットは動的な環境で活動するため,倒立からの迅速な回復能力が重要である。
- 従来の深層強化学習手法では,各ロボット形態ごとに個別のポリシーを訓練する必要があった。
- 本研究は,様々な形態のヒューマノイドロボットに対して,ロボット固有の訓練なしに起立回復を可能とする。
- 単一の深層強化学習ポリシーが,高さ,重量,ダイナミクスが異なる7種類のヒューマノイドロボットに対して,ゼロショットで最大86%の起立回復に成功した。
- 形態の多様性を考慮した訓練により,未知の形態への汎化性能が向上することが示された。
- 特定のロボットに特化したポリシーと比較して,共有ポリシーがより優れた性能を示す場合もあった。
マルチカーネルガウス過程に基づく意味距離の測定 [cs.RO, cs.CL, cs.AI]目的:意味距離測定手法の開発
- 自然言語処理の根幹をなす技術であり,テキストの類似性評価に不可欠である。
- 従来の多くの手法は固定されており,データやタスクへの適応が困難である。
- データから自動的にパラメータを学習し,柔軟な意味距離測定を実現する。
- マルチカーネルガウス過程(MK-GP)に基づく意味距離測定手法を提案した。
- テキストに対応する潜在的な意味関数をガウス過程としてモデル化し,Matérnカーネルと多項式カーネルを組み合わせた。
- 大規模言語モデルを用いた文脈内学習(ICL)による感情分析において,提案手法の有効性が確認された。
27言語における音象徴性の系統外比較 [cs.HC, cs.RO, cs.CL, cs.AI]目的:音象徴性の系統外的な存在
- 言語における音と意味の関連性は,言語の普遍性と多様性を理解する上で重要である。
- 音象徴性の研究は,規模が小さく,系統関係のある言語に限定されがちであった。
- 系統関係のない言語間でも,音象徴性が普遍的に存在するかどうかを検証する。
- 810の形容詞(27言語,各言語30語)を用いて,音韻特徴と意味(大きさ)の関係を大規模に分析した。
- 言語系統に関わらず,音韻形式が大きさの意味を予測できることが示された。
- 言語識別を抑制しつつ大きさの情報を保持するadversarial scrubberにより,系統外的な音象徴性の存在が確認された。
最適化された学習型Count-Min Sketch [cs.LG]目的:要素頻度の推定精度向上
- 大規模データセットの頻度推定は,様々な応用分野で不可欠である。
- 従来のCount-Min Sketchは,メモリ効率が良いが推定誤差が大きい。
- 学習型Count-Min Sketchの構築コストと誤差確率の理論的保証が課題である。
- 提案手法OptLCMSは,入力領域を分割し,各分割にCount-Min Sketchインスタンスを割り当てる。
- これにより,パラメータの理論的導出と動的計画法による閾値最適化が可能となり,構築速度が向上する。
- 実験結果から,OptLCMSはより高速に構築でき,許容できない誤差確率が低く,推定精度も同等であることが示された。
オントロジー設計における多軸的思考:Wikidataの多階層構造からの教訓 [cs.AI, cs.DB]目的:オントロジー設計における多軸的思考の可能性
- 知識表現の基盤として,オントロジーの重要性は増している。
- 従来のオントロジー設計は,単一の階層構造に制約される傾向がある。
- Wikidataの多階層構造に着目し,柔軟なオントロジー設計を提案する。
- Wikidataは,単一の分類軸に縛られず,複数の軸を持つ分類を許容している。
- この多軸的な設計は,大規模でモジュール化された知識グラフの構築に適している。
- Wikidataの構造は,協調的かつ進化的な知識表現に貢献する。
GRC-Net:てんかん予測のためのグラム残差共注意ネットワーク [cs.LG, cs.AI]目的:てんかん予測における性能向上
- 脳波(EEG)を用いたてんかん予測は,医療現場での早期診断と治療に不可欠である。
- 従来の脳波解析は1次元処理が主流で,信号間の多次元的な関係性を捉えきれていない。
- 局所的特徴と大域的特徴の不均衡を解消し,多粒度な特徴抽出を実現すること。
- 提案手法GRC-Netは,脳波信号を3次元表現に変換し,信号間の関係性を効率的にモデル化した。
- 共注意メカニズムとInception構造を組み合わせることで,多粒度な特徴抽出を可能にした。
- BONNデータセットを用いた5クラス分類タスクにおいて,93.66%の精度を達成し,既存手法を上回った。
精度と速度のバランス:機械学習サロゲートモデルを用いたマルチフィデリティアンサンブルカルマンフィルタ [cs.LG, math.ST, physics.ao-ph, stat.TH]目的:高コストな物理モデルの代替としての機械学習サロゲートモデルを用いたマルチフィデリティアンサンブルカルマンフィルタの性能評価
- 気象や海洋などの分野において,高精度な予測が求められており,計算コストが課題となっている。
- 従来の低解像度モデルでは精度が十分でなく,高解像度モデルは計算コストが高すぎるという問題がある。
- 機械学習サロゲートモデルを活用し,計算コストを抑えつつ,高精度な予測を実現することを目指す。
- 機械学習サロゲートモデルを用いたMF-EnKFは,物理モデルのみを用いた場合よりも高い精度を達成した。
- 同じ計算コスト内で,MF-EnKFは精度向上を実現し,低解像度モデルと同等かそれ以上の精度を示した。
- 本手法は,EnKFにおける実効的なアンサンブルサイズを増加させ,初期値推定と予測精度向上に貢献する。
分数微分方程式に基づく物理情報ニューラルネットワークとそのバッテリー状態推定への応用 [cs.HC, cs.LG, cs.AI]目的:リチウムイオンバッテリーの状態推定
- バッテリーの安全性,信頼性,性能最適化において,正確な状態推定が不可欠である。
- 従来のデータ駆動型ニューラルネットワークは,複雑な非線形性や記憶依存性を捉えきれない場合がある。
- 複雑な電気化学的特性を考慮した,高精度な状態推定モデルの構築を試みる。
- 分数微分方程式に基づく新しいニューラルネットワーク(FDIFF-PINN)を提案した。
- 分数オーダー等価回路モデルに基づき,離散化された分数階偏微分方程式を構築した。
- パナソニック18650PFバッテリーのデータを用いて,多温度条件下での実験を行い有効性を検証した。
量子を意識した生成AIによる材料発見:DFTバイアスを超えたロバストな探索のためのフレームワーク [cs.AI]目的:材料発見のための生成AIフレームワーク
- 材料探索は,新機能材料の開発に不可欠であり,社会の発展に貢献する。
- 従来のモデルはDFTに依存し,強相関系でのDFTの系統的失敗を受けやすい。
- DFTの限界を超え,より広範囲な材料空間を探索することを目指す。
- 本フレームワークは,多忠実度学習とアクティブ検証を統合することで,DFTバイアスを克服する。
- 高発散領域において,従来のDFTのみのモデルと比較して,潜在的に安定な候補を3〜5倍多く特定できる。
- 計算コストを維持しつつ,材料探索の有効範囲を拡張するための厳密で透明性の高いフレームワークを提供する。
推薦システムにおける推論側のモデル更新によるほぼゼロオーバーヘッドな鮮度維持 [cs.DC, cs.LG]目的:推薦システムの鮮度維持と精度の両立
- 個々のユーザーに最適化されたサービス提供が重要であり,推薦システムの精度が不可欠である。
- 大規模なパラメータ同期オーバーヘッドが,鮮度と精度のトレードオフを引き起こしている。
- 推論ノードのCPU資源を活用し,モデル更新による鮮度低下を抑制することを目指す。
- LiveUpdateは,推論ノード内にLoRAトレーナーを配置することで,クラスター間同期を排除する。
- 動的ランク適応とNUMA対応リソーススケジュールにより,メモリオーバーヘッドを抑制し,推論遅延への影響を最小限に抑える。
- 実験結果から,LiveUpdateは既存手法と比較して,精度向上と更新コスト削減を実現することが示された。
GrowTAS:効率的なViTアーキテクチャ探索のための小規模から大規模サブネットへの漸進的な拡張 [cs.CV, cs.LG]目的:ViTアーキテクチャ探索における効率性向上
- 画像認識分野において,Transformerベースのモデルが高性能を示すが,手動設計には限界がある。
- 既存のTAS手法では,過剰パラメータなスーパーネットが用いられるため,小規模サブネットの性能劣化が課題である。
- 小規模サブネットを基盤とし,漸進的に大規模サブネットを学習することで,干渉を低減し,安定した学習を実現する。
- 提案手法GrowTASは,小規模サブネットから学習を開始し,徐々に大規模なサブネットを取り込むことで,干渉を抑制し,学習の安定化を図った。
- GrowTAS+は,大規模サブネットの性能をさらに向上させるため,選択的な重みのファインチューニングを導入した。
- ImageNetやCIFAR-10/100等のベンチマーク実験により,既存のTAS手法と比較して高い有効性が示された。
双方向Transformer:長系列時系列予測のための二層Transformer [cs.CL, cs.DC, cs.LG]目的:長系列時系列予測のための新たなTransformerアーキテクチャ
- 時系列予測は,需要予測,異常検知など,様々な分野で重要な役割を果たす。
- 従来のTransformerは,系列長が長くなると計算量が増大し,メモリ消費量も大きくなるという課題がある。
- 本研究は,効率的かつ高精度な長系列時系列予測を可能にするアーキテクチャを提案する。
- 提案手法TwinFormerは,線形時間・空間計算量を実現し,既存手法と比較して優れた予測性能を示した。
- 8つの実世界データセットにおいて,MAEとRMSEでそれぞれ17個と10個の最良成績を記録し,PatchTST等を超える性能を示した。
- トップk Sparse AttentionとGRUベースの集約の有効性が検証された。
UniMark:人工知能生成コンテンツ識別ツールキット [cs.RO, cs.CR, cs.AI]目的:人工知能生成コンテンツの識別
- AI生成コンテンツの急増により,信頼性の危機と規制の必要性が高まっている。
- 既存の識別ツールは分散しており,可視的なコンプライアンスマーキングをサポートしていない。
- 多様なコンテンツ形式に対応し,著作権保護と規制遵守を両立するツールを提供すること。
- UniMarkは,テキスト,画像,音声,動画に対応した統一的なフレームワークである。
- 隠れ透かしによる著作権保護と,可視マーキングによる規制遵守を同時に実現する。
- 画像・動画・音声の3つのベンチマークを用いて,厳格な性能評価を可能にする。
最終的なLIL後悔:無制限データ上の亜ガウス混合に対するほぼ確実なlnlnT後悔 [cs.LG, math.ST, stat.ML, stat.TH]目的:亜ガウス混合を用いた確率的設定における後悔の厳密な上限
- オンライン学習は,逐次的に意思決定を行うため,様々な実用的な問題に応用可能である。
- 従来のオンライン学習アルゴリズムは,データの範囲が制限されていることを前提としている場合が多い。
- 本研究では,無制限データに対しても有効な後悔の境界を導き出すことを目指す。
- ロビンスが提案した古典的な亜ガウス混合は,ある条件下で決定的な後悔の上限を満たすことが示された。
- 累積分散プロセス$V_T$を用いて,時間$T$までの後悔の上限が導出された。
- 確率1のイベント$E_0$上では,後悔は最終的に$\ln \ln V_T$によって制限されることが示された。
不完全な想起を伴う動的同質性:敵対的ネットワークにおける回復力のモデル化 [cs.SI, cs.AI, cs.CR, cs.IT, math.IT]目的:複雑ネットワークにおける同質性,記憶制約,および敵対的攪乱の影響
- ネットワーク科学は,社会システムやインフラなど,現実世界の複雑なシステムの理解に不可欠である。
- ネットワークの回復力は,敵対的な攻撃に対して脆弱であり,その評価と改善が課題である。
- 記憶の制約と動的な同質性を考慮し,ネットワークの回復力を向上させるモデルを構築する。
- コサイン類似度は,疎,凸,モジュール構造のネットワークにおいて,安定性指標を最大30%改善した。
- 戦略的な忘却は,ネットワークの堅牢性と適応性をバランスさせることで,回復力を高めることが示された。
- 記憶パラメータと類似度パラメータをネットワークの構造と敵対的動向に合わせて調整することの重要性が強調された。
スキーマに基づく情報抽出の強化のための自己修正型反復洗練フレームワークSCIR [cs.CL, cs.AI]目的:情報抽出の性能向上
- 大規模言語モデルの活用により,情報抽出の精度が飛躍的に向上している。
- 既存のファインチューニング手法は,高コストであり,言語モデルの意図との整合性が課題である。
- 自己修正型反復洗練フレームワークにより,コスト削減と精度向上を目指す。
- 提案手法SCIRは,既存の言語モデルや情報抽出システムに容易に組み込むことが可能である。
- 命名エンティティ認識,関係抽出,イベント抽出の3つのタスクにおいて,最先端の手法を上回る性能を示した。
- Micro-F1スコアで平均5.27%の改善,学習コストを87%削減し,効率的な情報抽出の実現に貢献する。
拡散モデルの推論時ガイダンスのための統一的制御 [cs.CV, cs.LG]目的:拡散モデルの出力を下流の目的に合わせること
- 拡散モデルは高性能だが,特定のタスクへの適応が課題。
- 報酬に基づくサンプリングは非効率であり,勾配誘導は事前分布からの逸脱を招く。
- サンプリングと勾配誘導の利点を統合し,効率性と精度を向上させる。
- UniCoDeは,サンプリング中に局所的な勾配信号を統合することで,サンプリング効率を改善する。
- 報酬への適合性と拡散モデルの事前分布からの逸脱のバランスを調整可能である。
- 様々なタスクにおいて,最先端のベースラインと同等の性能を示す。
機械学習における不確実性評価:万能な解法は存在しない [cs.LG, stat.ML]目的:機械学習における予測不確実性の適切な定量化
- 安全性が重要なアプリケーションにおいて,機械学習の利用は不可欠であり,その信頼性確保が求められている。
- 既存の不確実性評価指標は,それぞれ優位性を主張するものの,単一の最良指標は確立されていない。
- 特定のアプリケーションに適した不確実性評価指標の選択が,本研究の目的である。
- 不確実性評価は,アプリケーションに応じて調整されるべきであり,特定の損失関数との整合性が重要である。
- 分布外検出においては,広く用いられるエピステミック不確実性の指標である相互情報量が最適な性能を示した。
- 能動学習においては,ゼロ・ワン損失に基づくエピステミック不確実性が他の指標よりも優れていることが示された。
