arXiv雑要約
AI - 2026/03/04 公開
スコアからボブの声を知る:話者なりすまし攻撃 [cs.CR, cs.AI]目的:話者認識システムに対するスコアベースのなりすまし攻撃
- 話者認識技術は広く普及しているが,セキュリティ上の脆弱性が存在する。
- 既存の攻撃手法は効率が悪く,多くのクエリが必要となる。
- 生成モデルの潜在空間と話者識別空間を整合させることで,効率的な攻撃を実現する。
- 提案手法はクエリ効率を大幅に改善し,既存手法と比較して10分の1程度のクエリ数で同等の成功率を達成した。
- 特に,潜在空間への投影に基づく攻撃は,わずか50回のクエリで最大91.65%の成功率を達成した。
- 本研究は,現代的な話者認識システムのロバスト性を評価するための重要なツールとなる。
ロボットスワームのための生成敵対的模倣学習:人間のデモンストレーションと学習済みポリシーからの学習 [cs.RO, cs.LG, cs.MA]目的:ロボットスワームにおける協調行動の学習
- ロボットスワームは,複雑なタスクを効率的に解決可能であり,多様な応用が期待される。
- スワームロボティクスにおける模倣学習は,既存ポリシーのロールアウトに依存し,多様な行動学習が困難である。
- 人間のデモンストレーションから直接協調行動を学習し,汎用的な行動獲得を目指す。
- 生成敵対的模倣学習フレームワークが,人間のデモンストレーションから協調行動を効果的に学習できることが示された。
- 学習済みポリシーは,提供されたデモンストレーションと同等の性能を発揮する,質的に意味のある行動を学習した。
- 実機実験において,学習された行動は視覚的に認識可能な特性を維持し,シミュレーション結果と同程度の性能を示した。
LLMを用いた自動アルゴリズム設計におけるコード類似性の再考 [cs.AI]目的:LLMによる自動アルゴリズム設計におけるアルゴリズム類似性の評価手法
- AI技術の進展により,アルゴリズム設計の自動化が重要な課題となっている。
- 既存のコード類似性指標は,表面的な構文や出力に偏重し,アルゴリズムの本質的な類似性を捉えられない。
- 問題解決の過程を捉え,アルゴリズムの論理的な類似性を定量的に評価する手法を確立すること。
- 提案手法BehaveSimは,実行中のアルゴリズムが生成する中間解の系列(PSTrajs)に着目し,動的タイムワーピングを用いて類似性を測定する。
- BehaveSimは,構文や出力が類似していても,アルゴリズムのロジックが異なる場合を識別できる。
- FunSearchやEoHといった既存のLLM-AADフレームワークにBehaveSimを統合することで,アルゴリズム設計の性能を向上させることが示された。
論理推論エージェントのAgent化された評価 [cs.AI]目的:論理推論エージェントの評価とベンチマークの枠組み
- AIシステムの信頼性向上は重要であり,特に論理的推論能力は不可欠である。
- 従来の評価方法は再現性や監査性に乏しく,実行エラーに弱いという課題がある。
- 再現性,監査性,堅牢性を備えた評価方法を提供し,論理推論エージェントの性能を正確に測る。
- 提示された枠組みでは,評価エージェントがタスクの発行,実行予算の適用,出力の解析,エラーの記録を行う。
- 第一原理論(FOL)推論における自動形式化エージェントをベンチマークし,クリーニングされたFOLIO検証セットで86.70%の精度を達成した。
- これは,思考の連鎖ベースライン(73.89%)を上回る結果であり,提案手法の有効性を示す。
OCRは不要か?MLLM時代における大規模実データを用いたドキュメント情報抽出の再考 [cs.CL, cs.AI]目的:MLLMを用いたドキュメント情報抽出の性能評価とエラー分析
- ドキュメント情報抽出は,業務効率化やデータ活用において不可欠な技術である。
- 従来のOCR処理は,誤認識や後処理の複雑さといった課題を抱えている。
- MLLMだけで従来のOCRと同等以上の性能を達成できるか検証し,その可能性を探る。
- 強力なMLLMであれば,画像のみの入力でもOCRを用いた場合と同程度の性能を発揮できることが示された。
- 適切なスキーマ,事例,指示を与えることで,MLLMの性能をさらに向上させることができた。
- 本研究は,ドキュメント情報抽出の進歩に向けた実践的な指針と貴重な洞察を提供する。
ヒューリスティック選択から自動アルゴリズム設計へ:LLMは強力な事前知識から恩恵を受ける [cs.LG, cs.NE]目的:LLMによる自動アルゴリズム設計の性能向上
- アルゴリズム設計は,様々な分野における問題解決の中核であり,その自動化が求められている。
- LLMによるアルゴリズム設計は進展しているものの,検索戦略がプロンプト設計に依存し,効率性や安定性に課題がある。
- LLMの性能を向上させるため,既存のベンチマークアルゴリズムを事前知識として活用し,最適化を支援する。
- 高品質なアルゴリズムコード例をプロンプトに含めることで,LLMによる最適化性能が大幅に向上することが示された。
- 既存のベンチマークアルゴリズムを活用することで,pboおよびbbobといったブラックボックス最適化において,より優れた性能が得られた。
- ベンチマーク研究をLLM駆動の最適化手法に統合することで,効率性と安定性が向上することが明らかになった。
リアルタイム音声ノイズ除去のための時間変動型IIRフィルタリング [cs.SD, cs.AI, cs.LG, eess.AS]目的:リアルタイム音声ノイズ除去のための時間変動型IIRフィルタリング手法
- 音声処理技術は,コミュニケーションや情報伝達において不可欠であり,その品質向上は重要な課題である。
- 従来の深層学習モデルはブラックボックス化しやすく,処理過程の解釈が困難であるという課題がある。
- 時間変動型IIRフィルタリングにより,適応性と解釈可能性を両立し,ノイズ環境の変化に対応する。
- 提案手法TVFは,デジタル信号処理の解釈可能性と深層学習の適応性を組み合わせ,低遅延かつ軽量なモデルを実現した。
- Valentini-Botinhaoデータセットを用いた実験により,TVFが非定常ノイズ環境下で効果的な適応性を示すことが確認された。
- TVFは,静的DDSPや完全深層学習ベースの手法と比較して,優れた性能を発揮することが示された。
ガイドラインに基づく証拠蓄積による高リスクエージェント検証 [cs.CG, cs.FL, cs.AI, cs.CL]目的:高リスクな意思決定を行うLLM搭載エージェントの検証信頼性向上
- LLMエージェントが高リスクな分野で利用され増えており,その意思決定の信頼性確保が重要になっている。
- 既存の検証手法は,ドメイン知識不足やキャリブレーションの限界により,十分な性能を発揮できていない。
- 専門家が策定したガイドラインを用いて,エージェントの意思決定過程を検証し,信頼性を高めることを目指す。
- GLEANは,専門家が作成したプロトコルを軌跡情報と共に活用し,正確な正しさのシグナルを生成する。
- ドメインガイドラインとのステップごとの整合性を評価し,複数のガイドライン評価を統合することで正確性を向上させている。
- 推定される不確実性に応じて追加検証を行い,ガイドラインの適用範囲を拡大し,差異検証を実施する。
頑健性の代償:安定した識別器は過パラメータ化を必要とする [cs.LG]目的:過パラメータ化,安定性,汎化性能の関係性
- 機械学習において,汎化性能の向上が重要な課題である。モデルの安定性は,その汎化性能に深く関わる。
- 不連続な識別器において,過パラメータ化と安定性,汎化性能の関係は十分に解明されていない。
- モデルの安定性を定量的に評価し,過パラメータ化が安定性にもたらす影響を明らかにすること。
- クラスの安定性に着目し,有限関数クラスに対する汎化誤差の上界を導出した。
- パラメータ数$p$がデータ数$n$に近似する場合,モデルは不安定になることを示した。
- 実験により,モデルサイズが大きくなるほど安定性が向上し,テスト性能との相関が確認された。
格子基盤深層ニューラルネットワーク:規則性と特注正則化 [cs.LG, cs.NA, math.NA]目的:深層ニューラルネットワークにおける格子規則の応用と理論
- 高次元積分や関数近似において有効な準モンテカルロ法であり,機械学習への応用が期待される。
- 深層ニューラルネットワークの汎化性能を理論的に保証する手法が確立されていない。
- 格子規則に基づく学習点を用いることで,深層ニューラルネットワークの理論的な汎化誤差を評価する。
- 格子規則と滑らかな活性化関数を組み合わせることで,深層ニューラルネットワークの規則性に関する明示的な上限を得た。
- ネットワークパラメータの制約を導入することで,対象関数の規則性に合わせた深層ニューラルネットワークが良好な汎化性能を示すことを証明した。
- 提案手法による正則化は,標準的なL2正則化よりも優れた性能を示すことが数値的に確認された。
BrandFusion:テキストから動画生成におけるシームレスなブランド統合のためのマルチエージェントフレームワーク [cs.CV, cs.AI]目的:テキストから動画生成におけるシームレスなブランド統合
- 動画生成技術の進展はコンテンツ制作を革新したが,その商業的活用は限定的である。
- 生成動画へのブランド統合は,プロンプトの忠実性,ブランドの識別性,自然な統合が課題となる。
- プロンプトとブランド知識を活用し,動画への自然なブランド統合を実現すること。
- BrandFusionは,オフラインでのブランド知識ベース構築と,オンラインでのマルチエージェントによるプロンプト改良を行う。
- 実験の結果,BrandFusionはベースラインと比較して,意味の保持,ブランド認識度,統合の自然さにおいて大幅な改善を示した。
- 人間による評価においても,ユーザー満足度が高く,持続可能なT2Vの収益化への道が開かれた。
テキスト画像拡散モデルの早期品質評価に向けて [cs.CE, cs.CG, cs.CV, cs.LG]目的:テキスト画像拡散モデルの生成過程における画像品質の効率的な評価手法
- 近年のテキスト画像生成モデルの進化は目覚ましく,多様な画像生成が可能になった。
- 生成された画像から最適なものを選択するには膨大な計算資源が必要となる。
- 生成過程の早期段階で品質を予測し,不要な計算を削減することを目指す。
- 生成過程の初期段階における活性化情報が,最終的な画像品質と強い相関を持つことを発見した。
- 提案手法Probe-Selectは,初期活性化情報から品質スコアを予測することで,不要なシードを早期に終了させる。
- サンプリングコストを60%以上削減しつつ,保持された画像の品質を向上させることに成功した。
高速,低コスト,高精度:専門知識追跡モデルがLLMを凌駕する [cs.CL, cs.AI]目的:学生の質問に対する将来の回答予測
- 教育プラットフォームにおいて,効果的な介入を可能にするため,学生の回答予測は重要である。
- LLMは汎用性があるが,特定の教育分野においては,精度やコストの面で課題がある。
- 特定の教育分野における予測タスクにおいて,LLMと比較した専門知識追跡モデルの有効性を検証する。
- 専門知識追跡モデルは,精度とF1スコアの点でLLMを上回る結果となった。
- LLMは専門知識追跡モデルに比べて,推論速度が大幅に遅く,デプロイコストも高額である。
- 教育予測タスクにおいては,ドメイン特化型モデルの重要性が示された。
データ混合による時系列基礎モデルの適応 [cs.LG, stat.ML]目的:時系列基礎モデルのゼロショット予測性能向上
- 時系列データ分析の重要性が増しており,予測モデルの精度向上が求められている。
- 事前学習データに十分にカバーされていない新たな時系列ドメインでは,予測性能が低下する。
- データ混合によりサブドメインを捉え,時系列基礎モデルの特化性を高めることで予測精度を改善する。
- 提案手法MixFTは,データセットごと,または全てのデータでLoRAモジュールをファインチューニングする従来手法よりも優れた性能を示す。
- MixFTは,ベイジアン混合を用いてデータをサブドメインごとに分割し,それぞれのセットで個別にファインチューニングを行う。
- これにより,各モジュールが特定のサブドメインに特化し,ゼロショット予測の精度が向上する。
スケール不変ガウス微分残差ネットワーク [cs.HC, cs.CL, cs.CV, cs.LG]目的:画像スケールに対する汎化性能の向上
- 深層学習モデルは画像認識において高い性能を示すが,学習時にないスケールの画像への対応が課題である。
- 既存の深層ネットワークは,学習時に見なかったスケールの画像に対して性能が低下する傾向にある。
- 本研究では,スケール不変性を有する新しいネットワーク構造を提案し,未知のスケール画像への対応を目指す。
- 提案手法であるGaussDerResNetsは,STL-10,Fashion-MNIST,CIFAR-10のスケール変更データセットにおいて,優れたスケール汎化性能を示した。
- 深層学習における残差結合とガウス微分層を組み合わせることで,高い精度とスケール不変性を両立している。
- Depthwise-separable畳み込みを用いることで,パラメータ数と計算量を削減しつつ,精度と汎化性能を維持できることを示した。
SPARC:空間認識型経路計画のための注意喚起型ロボットコミュニケーション [cs.RO, cs.AI]目的:分散型マルチロボット経路計画における効率的なコミュニケーション
- 複数ロボット連携による複雑なタスク遂行において,効率的な経路計画は不可欠である。
- 既存の研究では,ロボット間の距離に関わらず均等にコミュニケーションを行うため,混雑域での連携が困難である。
- 空間的な関係性を考慮したコミュニケーションメカニズムを開発し,高密度環境における経路計画の成功率向上を目指す。
- 提案手法RMHAは,ロボット間のマンハッタン距離を注意重みの計算に組み込むことで,空間的に近いロボットからのメッセージを優先する。
- RMHAとMAPPOを組み合わせることで,安定したエンドツーエンド学習を実現し,ゼロショット汎化性能を評価した。
- 実験結果から,RMHAは8台の学習ロボットから128台のテストロボットへの拡張において,既存手法を大幅に上回る成功率を示した。
フレキシブルジョブショップスケジューリングのためのメモリ強化改善ヒューリスティクス [cs.LG, cs.AI]目的:フレキシブルジョブショップスケジューリング問題に対する改善探索手法の開発
- インダストリー4.0におけるスマート製造の進展は,多品種少量生産を可能にするが,高度なスケジューリング技術が必要となる。
- 既存の深層強化学習ベースの手法は,多くの場合,最適解に近づくことが難しい。
- MIStarは,複雑な制約条件下での効率的な探索と,より高品質な解の獲得を目指す。
- 提案手法MIStarは,異種グラフ表現とメモリ強化されたグラフニューラルネットワークを組み合わせることで,状態表現の精度と政策学習能力を向上させている。
- 並列貪欲探索戦略を採用することにより,少ない反復回数で優れた解を見出すことが可能となった。
- 実験結果から,MIStarは従来の改善ヒューリスティクスや最新の強化学習手法を大幅に上回る性能を示すことが示された。
言語条件付きナビゲーションのための連続フロー場 [cs.RO, cs.RO, cs.AI]目的:言語条件付きナビゲーションのための連続フロー場
- ロボットナビゲーションは,現実世界での自律的な行動を可能にする基盤技術である。
- 従来のナビゲーションシステムは,柔軟性に欠け,複雑な環境への適応が困難である。
- 言語による指示に基づいて,よりロバストで効率的なナビゲーションシステムの開発を目指す。
- CoFLは,BEV画像と言語指示から直接連続フロー場を予測するエンドツーエンドのポリシーである。
- CoFLは,モジュール型VLMベースのプランナーや生成ポリシーと比較して,未知の環境で優れた性能を発揮する。
- 実世界の実験では,CoFLが信頼性の高い制御と高い成功率を維持することが示された。
LLMベースの議論抽出と議論構成論・記述論理:議論推論のための統一的枠組み [cs.RO, cs.AI]目的:議論の構造化表現と形式的な推論
- 複雑な議論を分析する上で,透明性・検証可能性が重要である。
- LLMは議論中の主張間の関係性を構造的に捉えられない。
- LLMと形式論理を統合し,議論の形式的な分析を可能とする。
- 提案手法は,議論を構成要素として明示的に表現するファジー知識ベースを構築する。
- 主張間の支持・攻撃関係を定量的に評価し,最終的な主張の強さを算出する。
- ファジー記述論理を用いて,効率的なクエリ応答を実現する。
外生ダイナミクスを持つマルコフ決定過程における学習 [cs.CL, cs.LG]目的:外生ダイナミクスを持つマルコフ決定過程における学習の保証改善
- 強化学習は様々な分野で応用が広がっており,その理論的基盤の確立が重要である。
- 従来の強化学習は汎用的なMDPを対象とするため,複雑なシステムへの適用が困難な場合がある。
- エージェントの行動に影響されない外生的な状態成分に着目し,学習効率の向上を目指す。
- 外生状態空間のサイズのみに依存する改善された学習保証が得られた。
- この依存関係は情報理論的に最適であることが下限によって示された。
- 古典的な環境および現実世界を模倣した環境で,標準的な強化学習手法と比較してサンプル効率の向上を確認した。
Retrievit: トランスフォーマー,状態空間モデル,ハイブリッドアーキテクチャにおける文脈内検索能力 [cs.CL, cs.AI]目的:トランスフォーマー,状態空間モデル,およびハイブリッドアーキテクチャの文脈内検索能力の評価
- 自然言語処理において,長文の情報を効率的に処理する技術は重要である。文脈理解の精度向上に寄与する。
- トランスフォーマーは計算コストが高く,状態空間モデルは検索能力に限界があるという課題が存在する。
- 両者の長所を組み合わせたハイブリッドアーキテクチャによる,効率的かつ高精度な文脈内検索の実現を目指す。
- ハイブリッドモデルは,状態空間モデルを上回り,情報密度の高い文脈内検索においてはトランスフォーマーと同等以上のデータ効率と外挿能力を示す。
- ただし,位置検索タスクにおいては,トランスフォーマーが依然として優位性を維持する。
- 状態空間モデルは位置情報を考慮した埋め込み表現を獲得し,トランスフォーマーには見られない特性を示すことが明らかになった。
StegaFFD:微細なステガノグラフィ的ドメインリフティングによるプライバシー保護顔偽造検出 [cs.DC, cs.CV, cs.AI]目的:顔偽造検出におけるプライバシー保護
- 顔画像は個人情報であり,その保護は重要である。特に,クライアントサーバ環境下では漏洩リスクが存在する。
- 既存のプライバシー保護手法は,画像に歪みを生じさせ偽造検出の精度を低下させる可能性がある。
- ステガノグラフィを活用し,プライバシーを保護しつつ,高精度な顔偽造検出を実現すること。
- StegaFFDは,顔画像を自然画像に隠蔽し,ステガノグラフィ的ドメインで直接偽造検出を行う。
- 低周波成分を考慮した分解(LFAD)と空間周波数差分注意(SFDA)により,自然画像の干渉を抑制し,隠蔽された顔の特徴の認識精度を向上。
- ステガノグラフィ的ドメインアライメント(SDA)により,隠蔽された顔と元の顔の表現を整列させ,微細な顔の合図を認識する能力を強化。
細胞イメージングにおける時間構造の解明に向けたニューラルネットワークへの解釈可能な$\ell_1$回帰の組み込み [cs.LG]目的:細胞イメージングにおける時間構造の解明
- 細胞活動の解析は生命現象の理解に不可欠であり,高精度な解析手法が求められている。
- ニューラルネットワークは高い性能を示すが,解釈性に乏しく,要因の特定が困難である。
- $\ell_1$回帰とニューラルネットワークを組み合わせ,解釈性と性能を両立させる。
- ニューラルネットワークに$\ell_1$回帰を組み込むことで,時間構造を解釈可能に抽出できることを示した。
- 静的な空間情報と時間的な構造を分離し,$\ell_1$正則化されたVARモデルへの選択的な情報伝達を実現した。
- 統計モデルを組み込むことで,同じ観察単位からの時間系列データの比較が可能となり,寄与度マップにより,学習されたダイナミクスを駆動する空間領域を可視化した。
環境時系列における分散動的不変因果予測 [cs.HC, cs.LG]目的:環境属性を持つ時系列データからの不変因果関係の抽出
- 気候科学や環境モニタリングなどにおいて,堅牢な意思決定には不可欠な研究分野である。
- 既存手法は,環境的文脈の活用を欠く動的因果分析か,分散的時系列設定における静的因果推論に偏っている。
- 分散環境下で空間的交絡変数を抑制しつつ,時間経過に伴う動的因果関係を学習することを目的とする。
- 提案手法DisDy-ICPTは,標準的なサンプリング仮定の下で,限られた通信ラウンド数内で安定した因果予測子を復元できることを理論的に証明した。
- 合成ベンチマークと環境分割された実データセットを用いた実験評価により,DisDy-ICPTがベースライン手法AおよびBと比較して,優れた予測安定性と精度を達成することが示された。
- 本手法は,炭素モニタリングや天気予報への応用が期待される。
正確かつ解釈可能な時系列予測:多項式学習アプローチ [cs.LG, stat.ME]目的:正確かつ解釈可能な時系列予測手法
- 設備保全の分野において,予測保全への移行が進んでおり,時系列予測は重要な役割を担う。
- 既存の予測手法は解釈性が低く,利用者の信頼を得にくく,開発者のデバッグ作業を困難にする。
- 予測精度と解釈性の両立,および早期警告を支援する特徴量レベルでの解釈性の提供を目指す。
- 提案手法であるIPLは,多項式表現を用いることで,特徴量間の相互作用を明示的にモデル化し,高い予測精度と解釈性を両立した。
- シミュレーションデータおよびビットコイン価格データを用いた実験で,既存の解釈性手法と比較して,優れた解釈性を持つことが示された。
- 実際のアンテナデータを用いた実験では,IPLがよりシンプルかつ効率的な早期警告メカニズムを実現することが確認された。
SAEを水晶玉として:学習なしでLLMのクロスドメイン転移可能性を予測する解釈可能な特徴 [cs.AI]目的:大規模言語モデルのクロスドメイン転移可能性の予測
- 事前学習済みLLMは多様なタスクで成功を収めているが,ドメイン間の性能変化は未解明な点が多い。
- 転移学習におけるモデルのシフトが性能に与える影響を事前に把握することが困難である。
- SAEを用いて,転移学習前の転移可能性を予測し,最適な学習戦略を導く。
- 提案手法STSは,スパースオートエンコーダを用いて転移可能性を予測し,実際の性能変化との相関係数が0.7を超える。
- STSは,教師ありファインチューニングにおいて,シフトした次元を特定し,ドメインとの相関を計算することで転移可能性を推定する。
- 本研究は,強化学習への拡張も視野に入れ,LLMの学習戦略を支援する解釈可能なツールとなることを目指す。
生成と抽出の学習:ゼロショット文書レベルイベント引数抽出のためのマルチエージェント協調フレームワーク [cs.CL, cs.AI]目的:ゼロショット文書レベルイベント引数抽出のためのマルチエージェント協調フレームワーク
- 知識獲得において,文書からのイベント参加者抽出は不可欠であり,その重要性は高まっている。
- アノテーションデータ不足により既存手法は苦戦しており,特に未知のイベントに対する精度向上が課題である。
- イベント構造を考慮した報酬設計と強化学習により,データ生成と引数抽出の精度を向上させる。
- 提案手法は,RAMSとWikiEventsデータセットを用いた3つのゼロショットシナリオで,データ生成品質と引数抽出性能を向上させた。
- 生成されたデータは,他のDEAEモデルのゼロショット性能向上にも貢献することが示された。
- 「提案-評価-修正」の人間による協調認知プロセスを模倣するマルチエージェント協調フレームワークを導入した。
自己回帰なしでのLLMの数値予測分布の抽出 [cs.LG, cs.AI]目的:LLMの数値予測分布の抽出手法
- LLMは文脈学習により回帰タスクで成功を収めている。数値予測における不確実性の定量化が重要である。
- LLMの自己回帰的デコーディングは連続値出力に不向きであり,予測分布の取得に高い計算コストがかかる。
- LLMの内部表現から直接統計量を予測し,サンプリング不要な軽量な手法を確立すること。
- LLMの埋め込み表現は,予測分布の要約統計量に関する情報を含むことが示された。
- 特に数値的不確実性に関する信号がLLMの内部表現に存在することが確認された。
- この研究は,LLMが数値タスクにおける不確実性をどのように内部的にエンコードしているかという新たな疑問を提起する。
解釈可能なモーションアテンションマップ:ビデオ拡散Transformerにおける概念の時空間局在化 [cs.CV, cs.AI, cs.LG]目的:ビデオ拡散Transformerにおける運動に関する概念の時空間的な局在化
- ビデオ生成AIの発展に伴い,その内部動作の理解が不可欠となっている。
- 既存研究では,物体認識に重点が置かれ,運動のような動的な要素の解釈が不足している。
- ビデオ拡散Transformerがどのように運動表現を映像に変換するかを明確にすること。
- 提案手法GramColは,運動と非運動の概念に対し,フレーム単位で顕著性マップを生成する。
- IMAPは,運動特徴の選択アルゴリズムにより,運動を時空間的に局在化する。
- 実験の結果,本手法は運動局在化タスクとゼロショット動画セマンティックセグメンテーションで優れた性能を示した。
重みベースのニューラル適応の構造的限界と可逆的行動学習の役割 [cs.LG, cs.AI]目的:ニューラルモデルの適応における構造的不可逆性の概念とその克服
- ニューラルモデルの適応は,モデルの汎化性能を向上させる上で不可欠である。
- 従来のパラメータ共有に基づく適応は,長期的にモデルの基本動作を変化させてしまう。
- 構造的不可逆性を解消し,モデルの行動を確実に元に戻せる適応方法を確立すること。
- 本研究では,パラメータ共有モデルの適応における構造的不可逆性の概念を導入した。
- 可逆的行動学習という新しい手法により,モデルの行動をパラメータと構造的に分離し,確実に元の状態に戻せることを示した。
- Recoverability Factorという指標を導入し,行動の回復可能性を定量的に評価した。
オフラインメタ強化学習のための文脈的潜在ワールドモデル [cs.LG]目的:オフラインメタ強化学習における,関連タスク間での汎化性能向上
- 強化学習は,複雑な問題を解決する強力な手法であり,様々な分野への応用が期待されている。
- 既存手法では,固定データセットから効率的に汎化能力を獲得することが困難である。
- 文脈的潜在ワールドモデルにより,タスク依存的なダイナミクスを捉え,汎化性能を高める。
- 提案手法は,推論されたタスク表現に基づいて潜在的ワールドモデルを条件付けし,共同学習を行う。
- これにより,タスク間の識別だけでなく,タスク固有のダイナミクスを捉えた表現学習が可能となる。
- MuJoCo,Contextual-DeepMind Control,Meta-World等のベンチマークにおいて,未知タスクへの汎化性能が大幅に向上した。
大規模言語モデルを用いたゼロショットグラフ学習のための適応的サブグラフノイズ除去 [cs.RO, cs.LG, cs.AI]目的:ゼロショット環境におけるグラフ学習の性能向上
- グラフ構造データは複雑な関係性を表現でき,様々な分野で重要性が増している。
- 従来のGNNは未知のドメインへの汎化が難しく,ゼロショット学習における課題となっていた。
- タスクに依存しないサブグラフ抽出戦略によるノイズ問題を解決し,LLMの性能を最大限に引き出す。
- 提案手法GraphSSRは,文脈に応じてサブグラフ抽出を動的に調整する「Sample-Select-Reason」パイプラインを導入した。
- SSR-SFTにより,高品質なSSR形式のグラフ推論トレースを生成し,LLMの教師ありファインチューニングを可能にした。
- SSR-RLは,サブグラフのノイズ除去と正確な予測を両立させるAuthenticity-ReinforcedとDenoising-Reinforced RLを組み込んだ。
ShipTraj-R1:グループ相対方策最適化による大規模言語モデルの船舶軌跡予測の強化 [cs.AI]目的:船舶軌跡予測における大規模言語モデルの性能向上
- 海洋交通の安全確保は重要であり,船舶の軌跡予測はその基盤となる技術である。
- 既存手法では,複雑な状況下での船舶の行動予測精度が十分でないという課題がある。
- 本研究は,大規模言語モデルと強化学習を組み合わせ,より正確な軌跡予測を実現することを目指す。
- 提案手法ShipTraj-R1は,動的なプロンプトとルールベースの報酬メカニズムを用いることで,大規模言語モデルの推論能力を向上させる。
- ShipTraj-R1は,実際の海上交通データセットを用いて評価された結果,最先端の深層学習モデルや大規模言語モデルと比較して,最も低い誤差を達成した。
- グループ相対方策最適化(GRPO)メカニズムとQwen3モデルを組み合わせることで,船舶軌跡予測の精度が向上することが示された。
ドメイン認識型フーリエ特徴量による物理情報ニューラルネットワークの強化:性能向上と解釈可能な結果に向けて [cs.CL, cs.LG, cs.AI, cs.CE, cs.NE]目的:物理情報ニューラルネットワークの性能向上と解釈性の改善
- 物理現象のシミュレーションやモデリングにおいて,データ駆動型アプローチの重要性が高まっている。
- 物理情報ニューラルネットワークは学習が難しく,得られた結果の解釈が困難であるという課題がある。
- ドメイン認識型フーリエ特徴量を用いて,学習の安定化と解釈性の向上を図る。
- 提案手法であるPINN-DaFFsは,従来のPINNやRFFs-based PINNと比較して,大幅に誤差を低減し,より高速な収束を実現した。
- LRP分析により,PINN-DaFFsが物理的に整合性の高い特徴量帰属スコアを生成することが示された。
- ドメイン認識型フーリエ特徴量は,物理情報ニューラルネットワークの精度,効率,解釈性を向上させる。
LLM推論における炭素排出量推定のための参照フレームワーク:マルチベンチマーク駆動型具現化 [cs.SE, cs.AI]目的:LLM推論における炭素排出量推定のための参照フレームワーク
- LLMの利用拡大に伴い,環境負荷の低減が喫緊の課題となっている。
- 既存の手法では,プロンプトレベルでの正確な炭素排出量測定が困難である。
- LLM推論時の炭素排出量を正確に測定し,持続可能性に配慮した意思決定を支援する。
- 本研究では,LLM推論における炭素排出量推定のための参照フレームワークの原則を提示した。
- マルチベンチマーク駆動型アプローチに基づく,初期実装SEALを開発し,その有効性を示した。
- SEALは,LLMエコシステムにおける標準化された持続可能性評価の基盤となる可能性を秘めている。
AI委任下における学習の幾何学 [cs.CY, cs.AI, cs.GT]目的:AI委任と人間のスキル進化の連立動力学系モデル
- AI技術の進展に伴い,人間とAIの協働が重要になっている。
- AIへの依存度が上がるにつれて,人間のスキル低下が懸念される。
- AI委任が人間のスキル獲得に与える安定性への影響を分析する。
- AI委任は,人間のスキル習得の安定構造を変化させる。
- 初期の判断が,誘導される動力学により不可逆になる明確な境界が存在する。
- AIの支援は短期的なパフォーマンスを向上させつつ,長期的にパフォーマンスを低下させる可能性がある。
CGL:強化学習による微調整を通じた継続的なGUI学習の促進 [cs.LG, cs.CV]目的:GUI継続学習における適応効率とスキル維持のバランス
- GUIエージェントは進歩しているが,GUIアプリケーションの頻繁な更新に対応する必要がある。
- GUI継続学習では,新しいタスクへの適応と過去のタスクの忘却を防ぐことが課題である。
- 知識の上書きを防ぎつつ,GUI環境の変化に効率的に適応することを目指す。
- 提案手法CGLは,SFTとRLの相乗効果を高めることで,GUI継続学習の性能を向上させる。
- SFTの割合調整機構により,適応効率とスキル維持のバランスを動的に制御する。
- GRPOに基づくアンカー勾配へのSFT勾配の射影により,勾配干渉を抑制し,安定した学習を実現する。
クラス不均衡な半教師あり学習のためのラベル割合事前知識の活用 [cs.HC, cs.LG, cs.CV]目的:クラス不均衡な半教師あり学習における性能向上
- 教師ありデータの取得コストが高いため,ラベルなしデータ活用が重要視されている。
- 半教師あり学習では,擬似ラベリングが多数派クラスの偏りを増幅しやすい。
- ラベル割合からの学習の考え方を導入し,クラス分布の偏りを軽減することを目指す。
- 提案手法では,FixMatchやReMixMatchにラベル割合損失を組み込むことで,既存手法を上回る性能を達成した。
- 特に,ラベルの少ない状況下で,既存のクラス不均衡な半教師あり学習法と比較して競争力のある結果が得られた。
- ラベル割合損失は,多数派クラスと少数派クラスの両方におけるバイアスを軽減する効果が確認された。
人工知性エピステミック・エージェントにおける信頼の構築 [cs.AI]目的:人工知性エピステミック・エージェントの信頼性構築
- 知識獲得や意思決定において,AIエージェントの役割が拡大しているため。
- AIエージェントの誤った情報提供が,認知能力の低下や知識体系の歪みを招く可能性がある。
- 人間とAIが知識生態系内で協調するための信頼構築フレームワークを提示すること。
- 大規模言語モデルがエピステミック・エージェントとして機能し,知識環境を形成している。
- 信頼できるAIエージェントは,知識能力,反証可能性,倫理的行動を示す必要がある。
- 技術的な来歴システムや「知識の聖域」の設計が,人間の知識回復力を保護する上で重要である。
AI下における委任と検証 [cs.GT, cs.AI, cs.CY, econ.TH]目的:AI導入環境下における労働者の委任・検証行動の最適化
- AIの職場への導入が進む中で,労働者の生産性向上が重要な課題である。
- 成果主義評価が労働者の検証努力を阻害し,AIへの過度な委任を招く可能性がある。
- AI導入が労働者の質に与える影響を構造的に解明し,格差拡大のメカニズムを明らかにする。
- AIの検証能力のわずかな差が,労働者の行動に大きな変化をもたらすことが示された。
- AIは,検証能力の高い労働者の能力を増幅させる一方,検証を怠る労働者の質を低下させる可能性がある。
- AI導入は,労働者の質を再構築し,検証能力による格差を拡大する構造的メカニズムを特定した。
連合学習における準同型暗号化と合成データの統合:プライバシーと学習品質の向上 [cs.LG]目的:プライバシー保護と学習品質の向上
- 個人情報保護の重要性が高まる中,データ共有なしに機械学習を行う連合学習が注目されている。
- 連合学習では,プライバシー保護と学習品質の維持に加え,計算コストの低減が課題である。
- 準同型暗号化と合成データを組み合わせることで,これらの課題を解決することを目指す。
- 提案手法Alt-FLは,実データと合成データでの学習を交互に行うことで,学習品質を向上させる。
- 準同型暗号化と合成データの活用により,クライアントデータのプライバシー保護と暗号化コスト削減を両立する。
- データ漏洩攻撃に対する頑健な防御性能が確認され,Selective HEと比較して13.4%の精度向上と最大48%のコスト削減を実現した。
LAGO:トラスト領域法とベイズ最適化を組み合わせた局所・大域的最適化フレームワーク [cs.LG, math.OC]目的:局所・大域的最適化手法の融合
- 複雑な最適化問題は科学技術の発展に不可欠であり,効率的な解法が求められている。
- 従来の局所最適化法は,大域的な探索能力に乏しく,最適解に到達できない場合がある。
- 大域的探索と局所的洗練を効率的に組み合わせ,よりロバストな最適化を可能とする。
- LAGOは,ベイズ最適化とトラスト領域法を適応的に競争させることで,効率的な最適化を実現した。
- ベイズ最適化による大域探索と,勾配情報を用いた局所洗練を提案レベルで分離することで,数値的不安定性を抑制した。
- 滑らかな関数に対して,標準的な非線形局所最適化アルゴリズムと比較して,設計空間の探索性能が向上した。
ニューラルネットワークの超水準集合の位相に関する考察 [cs.LG, math.OC]目的:ニューラルネットワークの超水準集合の位相的複雑さの上界
- 近年,機械学習の理論において,ニューラルネットワークの近似能力が注目されている。
- ニューラルネットワークの位相的複雑さの評価が難しく,理論的な理解が不十分である。
- ニューラルネットワークの構造のみから位相的複雑さの上界を導出すること。
- Riccati型微分方程式を満たす活性化関数を持つニューラルネットワークの出力はPfaffianである。
- 超水準集合およびニューラルネットワークパラメータ付けられたベクトル場のLie bracketランク低下軌跡は,構造のみに依存する位相的複雑さの上界を持つ。
- 全ての重みに関して,総ベッチ数が一様に制限されることが示された。
LLMエージェントのための文脈的プライバシー保護 [eess.SY, cs.SY, cs.RO, cs.CR, cs.AI, cs.CL]目的:LLMエージェントにおけるプライバシー保護の改善
- LLMの利用拡大に伴い,個人情報保護の重要性が増している。
- 既存のプライバシー保護策は,静的または受動的であり,文脈に適応できない。
- 多段階エージェント実行において,能動的なプライバシー保護を実現する。
- 提案手法CDIは,実行中にステップごとに文脈を考慮したプライバシー指針を生成する。
- CDIは,強化学習を用いてインストラクターモデルを訓練し,プライバシー侵害事例から学習する。
- 実験結果から,CDIはプライバシー保護率94.2%と有用性80.6%を両立し,既存手法を上回る堅牢性を示す。
RLAIFはなぜ機能するのか? [cs.IR, cs.LG, cs.AI]目的:AIからのフィードバックを用いた強化学習における価値学習のメカニズム解明
- 言語モデルの安全性と有用性の両立が重要であり,人間の価値観との整合性が課題となっている。
- 言語モデルが自己改善を行うRLAIFの理論的な根拠が未だ明確でなく,その有効性が謎に包まれていた。
- RLAIFが機能する理由を,潜在的な価値表現と憲法プロンプトの役割から解明することを試みる。
- 事前学習データに暗黙的に含まれる人間の価値観が,表現空間における方向としてエンコードされているという仮説を提唱。
- 憲法プロンプトが,この潜在的な価値方向を活性化させ,嗜好判断に反映することで,RLAIFが機能すると説明。
- モデルの性能向上には,価値表現の質が重要であり,モデルの学習能力に依存することが示唆された。
SpatialText:大規模言語モデルにおける空間理解のための純粋テキスト認知ベンチマーク [cs.CL, cs.AI]目的:大規模言語モデルの空間理解能力の認知的な境界の診断
- 空間推論は,言語的連想だけでなく,一貫性のある内部空間表現の構築・操作に依存する。
- 既存のベンチマークは,言語的ヒューリスティクスと空間認識能力を分離できていない。
- テキストのみで空間推論を評価し,言語モデルの空間表現の限界を明らかにすること。
- SpatialTextは,現実の3D環境記述と論理的に精密なシーンを組み合わせ,テキストベースの空間推論を分離する。
- 最先端モデルの評価により,視点変換や局所的な参照枠推論における重大な限界が明らかになった。
- モデルは言語的偶然の一致に依存しており,一貫性のある内部空間表現を構築していない可能性が示唆された。
OrchMAS:多段階協調的異種科学専門家構造化エージェントのオーケストレーション [cs.AI]目的:複雑な多段階推論のための多エージェント大規模言語モデルフレームワーク
- 科学的知識を要する問題解決において,多様な専門知識の統合と協調が不可欠である。
- 既存のフレームワークは,静的なプロンプトや役割,柔軟性の欠如により,科学分野への適応が困難である。
- 異種モデルの協調による推論能力の強化と,動的な計画・役割調整による信頼性向上を目指す。
- 本フレームワークは,タスクに応じて推論パイプラインを動的に構築し,専門エージェントを生成する。
- オーケストレーターは中間フィードバックに基づきパイプラインを更新し,動的な再計画や役割再割り当てを実現する。
- 実験の結果,既存システムと比較して,多様な推論ベンチマークにおいて一貫した性能向上が確認された。
プロトタイプバイアスループの打破:信頼度を考慮した連合コントラスティブ学習による高度に不均衡なクライアントへの対応 [cs.LG, cs.DC]目的:高度に不均衡なクライアントにおけるプロトタイプバイアスループの打破
- 連合学習は,データプライバシーを保護しながら分散データを活用できるため重要である。
- クライアント間のデータ不均衡は,プロトタイプベースの連合コントラスティブ学習の性能を低下させる。
- 信頼度を考慮した集約メカニズムによって,グローバルプロトタイプのドリフトを抑制し,収束を保証する。
- 提案手法CAFedCLは,予測不確実性を活用して分散プロトタイプの重みを調整する。
- 少数クラスに対する生成的拡張と幾何学的整合性正則化を統合し,クラス構造を安定化させる。
- 実験結果から,CAFedCLは既存手法と比較して,精度とクライアントの公平性の両方において優れていることが示された。
REGAL:企業テレメトリにおけるエージェントAIの決定論的根拠付けのためのレジストリ駆動アーキテクチャ [cs.AI, cs.SE]目的:企業テレメトリにおけるエージェントAIの決定論的根拠付けのためのアーキテクチャ
- 企業活動のデジタル化が進み,大量のテレメトリデータが生成されているため,その活用が重要である。
- LLMを活用した自動化において,プライベートテレメトリの文脈,セマンティックな概念,メトリックインターフェースの進化が課題となっている。
- 決定論的なテレメトリ計算とセマンティックコンパイルを重視し,エージェントAIシステムの根拠付けを体系化することを目指す。
- REGALは,再生可能でセマンティックに圧縮されたGoldアーティファクトを生成するMedallion ELTパイプラインと,宣言的なメトリック定義からMCPツールを合成するレジストリ駆動コンパイル層を組み合わせる。
- レジストリは「インターフェース・アズ・コード」として機能し,ツール仕様と実行の一致を保証し,ツールドリフトを軽減し,セマンティック境界にガバナンスポリシーを埋め込む。
- プロトタイプ実装とケーススタディにより,決定論的根拠付けの実現可能性と,レイテンシ,トークン効率,運用ガバナンスへの影響が確認された。
構造エントロピーに基づく高次相関学習による多視点多ラベル特徴選択 [cs.LG]目的:多視点多ラベル特徴選択における,構造的エントロピーをガイドとした高次相関学習
- 現実世界のデータ分析において,多視点からの情報を統合的に捉える多視点多ラベル学習の重要性が高まっている。
- 既存の情報理論的アプローチは,高次の構造的相関を捉えるのが難しく,局所最適解に陥りやすいという課題がある。
- 高次相関学習と最適化のバランスを取り,多視点多ラベル特徴選択の性能向上を目指す。
- 提案手法SEHFSは,特徴グラフを構造エントロピー最小化エンコーディングツリーに変換することで,高次の特徴相関を定量化する。
- 強度の高次冗長性を示す特徴を同一クラスタにまとめ,クラスタ間相関を最小化することで,冗長性を排除する。
- 情報理論と行列法を融合したフレームワークにより,共有セマンティック行列と視点固有貢献行列を学習し,グローバルな情報再構築を実現する。
