arXiv雑要約
AI - 2026/02/03 公開
連合マルチタスク環境における表現学習の向上を目指して [cs.LG, cs.AI]目的:連合マルチタスク環境における共有表現空間の学習
- データプライバシー保護が重要視される中,分散環境での機械学習への関心が高まっている。
- 既存手法はモデルの均質性を前提とするため,現実的な異質環境への適用が難しい。
- タスク間の依存関係を捉え,モデルやタスクの異質性を考慮した学習を目指す。
- 提案手法Muscle lossは,参加モデル間の表現を同時に整列させる対照学習目的関数である。
- FedMuscleは,モデル・タスクの異質性を自然に扱える,実用的かつ通信効率の高いFMTLアルゴリズムである。
- 多様な画像・言語タスク実験により,FedMuscleが最先端のベースラインを上回り,優れた性能を示した。
動的環境における不確実性認識型自律システムのための適応的非適合度スコア [cs.LG, cs.RO, cs.SY, eess.SY]目的:不確実性定量化の厳密性確保
- 自律システムの安全な運用には,環境の変化に対応可能な不確実性評価が不可欠である。
- 従来のCP手法は交換可能性を仮定しており,現実のロボティクスにおける分布シフトには対応が難しい。
- 環境構造の変化に対応し,より効率的な予測領域を構築することを目指す。
- AdaptNCは,非適合度スコアと適合閾値の両方をオンラインで適応的に調整する枠組みを提案する。
- 適応的な重み付けスキームとリプレイバッファ機構により,予測領域の体積を大幅に削減し,目標とするカバレッジレベルを維持する。
- マルチエージェントポリシーの変化,環境変化,センサー劣化を含む多様なロボットベンチマークで有効性が確認された。
時系列異常検知のためのコードブックに基づくオンライン適応型マルチスケール埋め込み [cs.LG]目的:時系列異常検知における,マルチスケール埋め込み表現の学習
- 産業界の様々な分野において,時系列データの異常検知は重要な課題である。
- パッチレベルの表現学習において,時間的依存性や多変量相関の捉えが不十分である。
- 異なる時間スケールでの異常を検知できるよう,モデルの適応性とロバスト性を向上させる。
- COMETは,マルチスケールパッチエンコーディング,ベクトル量子化コアセット,オンラインコードブック適応という3つの主要コンポーネントで構成される。
- 5つのベンチマークデータセットを用いた実験の結果,COMETは45の評価指標のうち36で最高の性能を達成した。
- これにより,COMETが多様な環境において有効であることが検証された。
大規模言語モデルにおける幻覚リスク制御のための確率的制約推論 [cs.LG]目的:大規模言語モデルにおける幻覚発生確率の制御
- 言語モデルの応用拡大に伴い,生成される情報の信頼性確保が重要課題となっている。
- 既存手法では,幻覚の平均的な発生頻度低減に留まり,個別の使用状況下でのリスク制御が困難。
- 幻覚を確率的な制約違反として捉え,許容できるリスク範囲内での推論を実現する。
- 提案手法は,生成された応答における幻覚の発生確率を直接的に制限する。
- 信頼度に基づく選択的予測は,必ずしも確率的なリスク保証を提供しないことを示した。
- 実験により,提案手法が安定したリスク制御と,実行不可能入力の早期検出を実現することを確認した。
Adamの暗黙的バイアスに対するミニバッチノイズの影響 [cs.CL, cs.LG, cs.AI, math.OC, stat.CO, stat.ML]目的:Adamのメモリにおける暗黙的バイアスが,ミニバッチノイズによってどのように影響を受けるか
- 深層学習の発展に伴い,限られた高品質データでの多 эпоха 学習の重要性が再認識されている。
- Adam最適化アルゴリズムは広く利用されているが,ミニバッチノイズが一般化性能に与える影響は不明確である。
- ミニバッチノイズがAdamの暗黙的バイアスに及ぼす影響を理論的に解明し,最適なハイパーパラメータ設定を導く。
- ミニバッチサイズが大きい場合,β2を高くするとメモリによる反正則化が強まり,一般化性能が低下する。
- ミニバッチサイズが小さい場合,β2に対する反正則化の依存関係は逆転する。β1についても同様のシフトが生じる。
- 一般的にデフォルト設定である(β1, β2) = (0.9, 0.999)は小バッチに適しているが,大バッチではβ1をβ2に近づける方が有利である。
質量スペクトルからの多体相互作用強化拡散による新規分子生成 [cs.LG, cs.AI]目的:質量スペクトルからの新規分子構造の生成
- 細胞代謝の理解や新規化合物の発見に不可欠な研究分野である。
- 既存手法は原子中心のモデルであり,多体相互作用の把握が困難である。
- 質量スペクトルに内在する多体情報を活用し,分子構造生成の精度向上を目指す。
- MBGenは,多体注意機構と高次エッジモデリングを統合し,MS/MSスペクトルの構造情報を活用する。
- NPLIB1およびMassSpecGymベンチマークにおいて,最先端手法を最大230%上回る性能を達成した。
- 本手法は,高次相互作用を捉え,複雑な異性体や非局所的断片化情報への感度を高める。
知覚から行動へ:空間AIエージェントとワールドモデル [cs.LG, cs.AI, cs.CV, cs.MA, cs.RO]目的:空間AIエージェントとワールドモデルに関する研究の分類体系
- ロボティクスや自動運転などの分野において,物理世界での知的な行動を可能にする空間認識は重要である。
- 大規模言語モデルは記号的な領域では成功するが,物理世界への応用は難しい。空間知能の研究は分断されている。
- エージェントの能力と空間タスクを結びつける統一的な枠組みを提示し,今後の研究方向を示す。
- 2000件以上の論文を調査した結果,エージェントの能力,タスク,スケールという3軸による分類体系が有効であることが示された。
- 長期的タスクには階層型メモリシステムが,構造化された空間推論にはGNN-LLM統合が有効であることが明らかになった。
- マイクロからマクロスケールへの安全な展開にはワールドモデルが不可欠である。評価フレームワークの統一が課題である。
強化学習による効率的な動画理解のための貢献度を考慮したトークン圧縮 [cs.CV, cs.AI]目的:動画理解における効率化のためのトークン圧縮手法
- 動画大規模言語モデルは動画理解で高い性能を示すが,計算コストが大きい。
- 既存の圧縮アルゴリズムは注意スコアに着目するが,正答への貢献度との関係が不明確である。
- トークンの貢献度を直接最適化し,最適なトークン組み合わせを効率的に探索する。
- 提案手法CaCoVIDは,トークン選択ポリシーを最適化し,正答への貢献度を最大化する。
- 組み合わせポリシー最適化アルゴリズムにより,探索空間を削減し,学習を高速化する。
- 多様な動画理解ベンチマークでCaCoVIDの有効性を実証した。
ニューラルネットワークにおける汎化の時空間的ダイナミクス [cs.LG, cs.AI]目的:ニューラルネットワークにおける汎化能力の時空間的挙動の解明
- 機械学習の汎化性能向上は,AIの信頼性と応用範囲拡大に不可欠である。
- ニューラルネットワークは,単純な規則でも入力長の変化に脆弱であり,汎化に失敗することがある。
- 物理学の原理に基づき,汎化能力を持つシステムの条件を導出し,それを満たすアーキテクチャを提案する。
- 局所性,対称性,安定性という3つの制約から,Spatiotemporal Evolution with Attractor Dynamics (SEAD)アーキテクチャを導出した。
- SEADアーキテクチャは,パリティ,加算,Rule 110といったタスクにおいて優れた汎化性能を示した。
- 統計的学習と論理的推論のギャップは,パラメータのスケーリングではなく,計算の物理法則を尊重することで埋められる可能性を示唆した。
ProjDevBench:エンドツーエンドのプロジェクト開発におけるAIコーディングエージェントのベンチマーク [cs.CL, cs.AI, cs.SE]目的:AIコーディングエージェントのプロジェクト開発能力の評価
- AIによるソフトウェア開発の自動化は,生産性向上や開発コスト削減に貢献しうる重要な分野である。
- 既存の評価方法は,個別のバグ修正に焦点を当てており,実際のエンドツーエンド開発能力の評価が遅れている。
- エンドツーエンドのプロジェクト開発におけるAIエージェントの能力を総合的に評価し,課題を明らかにすることを試みる。
- ProjDevBenchは,AIエージェントにプロジェクト要件を与え,生成されたリポジトリを評価するベンチマークである。
- システムアーキテクチャ設計,機能的正確性,反復的なソリューション改善の3つの側面から評価を行う。
- 評価の結果,エージェントの総合的な受入率は27.38%であり,複雑なシステム設計や最適化において課題が残る。
高次元オフラインバンディットに対する効率的な敵対的攻撃 [cs.LG, cs.AI]目的:オフラインバンディット評価における報酬モデルの敵対的脆弱性の解明
- 機械学習モデルの評価にバンディットアルゴリズムが活用され,効率的な比較選択が可能である。
- 報酬モデルに対する敵対的攻撃は未解明であり,特にオフラインバンディット評価における脆弱性が問題である。
- 報酬モデルの微小な摂動によってバンディットの挙動を操作する攻撃手法を分析し,高次元データにおける脆弱性を明らかにする。
- 報酬モデルの重みにわずかな摂動を加えるだけで,バンディットの挙動を大きく変化させることが示された。
- 入力次元が増加するほど,攻撃に必要な摂動のノルムが減少し,高次元データにおける脆弱性が高まることが理論的に証明された。
- 無作為な摂動は効果が低い一方,標的を絞った摂動はほぼ完璧な攻撃成功率を達成することが実験的に確認された。
CoDiQ:制御可能な難易度質問生成のためのテスト時スケーリング [cs.CL, cs.AI]目的:制御可能な難易度の質問生成手法
- 大規模言語モデルの性能向上には,高度な推論能力を必要とする質問データが不可欠である。
- 既存の質問生成方法は,難易度制御が不正確で,計算コストが高く,大規模な高品質質問の生成が困難である。
- テスト時スケーリングにより難易度を細かく制御し,質問の解法可能性を担保することで,この問題を解決する。
- CoDiQフレームワークは,テスト時スケーリングにより質問の難易度を調整し,解法可能性を維持する。
- Qwen3-8Bを基盤とするCoDiQ-Generatorは,高品質な難易度質問生成能力を向上させる。
- CoDiQ-Corpusを用いてLRMを訓練することで,推論性能が大幅に向上することが確認された。
FlowSteer:エンドツーエンド強化学習によるインタラクティブなエージェントワークフローオーケストレーション [cs.AI, cs.LG]目的:エージェントワークフローオーケストレーションの自動化
- 人間が抱える多様な問題を解決するため,強力なエージェントワークフローの応用が広がっている。
- 既存のワークフローオーケストレーションは,手動コストが高い,特定のオペレーター/LLMに依存する,報酬が疎であるといった課題がある。
- ワークフローオーケストレーションを自動化し,手動コストや依存性を低減し,学習を安定化させる。
- FlowSteerは,軽量なポリシーモデルをエージェントとし,実行可能なキャンバス環境を用いるエンドツーエンド強化学習フレームワークである。
- 多様性制約付き報酬と条件付きリリースを導入したCanvas Workflow Relative Policy Optimization (CWRPO)により,学習を安定化させ,ショートカット行動を抑制する。
- 12のデータセットでの実験により,FlowSteerが様々なタスクにおいてベースラインを大幅に上回ることが示された。
TABX:マルチエージェント強化学習のための高スループットサンドボックスバトルシミュレータ [cs.MA, cs.AI, cs.LG]目的:マルチエージェント強化学習アルゴリズムの開発と評価のための環境設計
- 協調型マルチエージェント強化学習は,複雑な問題解決に不可欠であり,その重要性は増している。
- 既存のベンチマークは課題を提示するものの,カスタム評価シナリオの設計に必要な柔軟性に欠ける。
- 多様なタスク複雑性におけるエージェントの振る舞いとアルゴリズムのトレードオフを体系的に調査する。
- TABXはJAXを用いて構築されており,GPUによるハードウェアアクセラレーションと大規模な並列化を実現している。
- これにより計算コストを大幅に削減し,複雑な構造化ドメインにおけるMARLエージェントの研究を促進する。
- TABXは,高速で拡張性があり,容易にカスタマイズ可能なフレームワークとして,今後の研究の基盤となる。
共形予測における認識的予測不確実性の定量化 [cs.LG]目的:認識的予測不確実性の定量化
- 機械学習モデルの信頼性評価は,安全性が重要な応用分野で不可欠である。
- 従来の不確実性推定は,予測モデルの選択に依存し,不確実性を過小評価する可能性がある。
- 共形予測の枠組みで,認識的予測不確実性を定量的に評価する方法を提案する。
- 共形予測手続きが,複数の予測分布を誘導することを示す。
- 誘導された予測分布間の情報衝突度を測る,最大平均不正確性に基づく不確実性尺度を提案した。
- 提案手法は,能動学習および選択的分類の実験で,従来のCPRサイズに基づく評価よりも詳細な不確実性評価を提供することが示された。
ASGMamba: 多変量時系列予測のための適応スペクトルゲーティングマンバ [cs.LG, cs.AI]目的:多変量時系列予測における精度向上とスケーラビリティの実現
- エネルギーグリッド管理や交通シミュレーションなど,高性能計算応用に不可欠な技術である。
- Transformerは計算量が膨大で,長系列データに不向き。SSMはノイズに弱く,有用な情報を損失する。
- ノイズを動的にフィルタリングし,マンバの効率的な状態進化を可能にする手法を提案する。
- 提案手法ASGMambaは,9つのベンチマークで最先端の精度を達成した。
- 計算量はO(L)を維持しつつ,メモリ使用量を大幅に削減し,リソース制約下でのスケーラビリティを実現した。
- 適応スペクトルゲーティング機構により,ノイズを除去し,ロバストな時間的ダイナミクスに焦点を当てることが可能となった。
Webインターフェースにおける高頻度セキュリティテレメトリのためのAI支援適応レンダリング [cs.HC, cs.AI, cs.CR]目的:高頻度セキュリティテレメトリの効率的な可視化
- サイバーセキュリティの重要性が増す中,リアルタイムな脅威検知と対応が不可欠である。
- 従来のレンダリング手法では,大量のイベント処理がボトルネックとなり,UIの応答性が低下する。
- AIを活用し,イベントの優先度に応じた動的なレンダリングにより,UIの応答性を維持すること。
- AI支援適応レンダリングフレームワークにより,レンダリングオーバーヘッドを45~60%削減できた。
- 分析者のリアルタイム応答性に対する体感的な遅延は最小限に抑えられた。
- 行動駆動型ヒューリスティックと軽量なオンデバイス機械学習モデルの有効性が示された。
NetVLADとFaissを用いたVisual SLAMにおけるリアルタイムループクロージャ検出 [cs.CL, cs.CV, cs.AI, cs.RO]目的:Visual SLAMにおけるリアルタイムループクロージャ検出の性能評価と改善
- SLAMはロボットの自律的な位置推定と環境地図作成に不可欠であり,その精度向上は重要な課題である。
- 従来のBoW法は計算効率が高いが,外観変化や知覚的曖昧さに弱く,精度が低下しやすい。
- NetVLADを用いたループクロージャ検出が,BoW法よりも高精度かつリアルタイムに実現可能となることを示す。
- NetVLADは,Faissによる高速な最近傍探索と組み合わせることで,リアルタイムなクエリ速度を達成した。
- KITTIデータセットを用いた評価により,NetVLADはDBoWよりも高い精度とロバスト性を示すことが確認された。
- 新たに提案されたFine-Grained Top-K precision-recall曲線が,ループクロージャ検出の設定をより適切に反映している。
TRIP-Bench:現実世界における長期間インタラクティブエージェントのためのベンチマーク [cs.AI, cs.LG]目的:現実世界の旅行計画シナリオにおける,長期間にわたるインタラクティブエージェントの性能評価
- LLMエージェントの活用が拡大する中で,現実世界での複雑な課題に対応できる評価基準の必要性が高まっている。
- 既存のベンチマークでは,全体的な制約の遵守,複数ツールの連携,そしてユーザー行動への適応といった課題が十分に評価されていない。
- より現実的な旅行計画シナリオを通じて,長期間インタラクションにおけるエージェントの能力を評価し,改善を目指す。
- TRIP-Benchは,現実世界のデータに基づき,18種類のツールと40以上の旅行要件を提供する長期間ベンチマークである。
- 高度なモデルでも,簡単な分割では50%以下の成功率,難しい分割では10%以下の成功率にとどまることが示された。
- 提案手法GTPOは,Qwen2.5-32B-Instructに適用することで制約充足率と対話の安定性を向上させ,Gemini-3-Proを上回る性能を示した。
滅菌処理用器具トレイの自律的組み立てに向けた試み [cs.RO, cs.AI, cs.CV, cs.LG]目的:滅菌処理部門における手術器具トレイの自動組み立て
- 手術器具の滅菌処理は,医療安全を確保する上で不可欠なプロセスである。
- 手作業によるトレイの組み立ては,時間と労力を要し,ヒューマンエラーや汚染のリスクがある。
- 手術器具トレイの自動組み立てにより,安全性と効率性を向上させることを目指す。
- 手術器具31種類,約7000枚の画像から構成されるデータセットを用いて,高精度な認識パイプラインを構築した。
- 6自由度ロボットアームと独自のグリッパー,3Dプリント製の仕切りを組み合わせ,衝突を低減する梱包アルゴリズムを開発した。
- 実験の結果,本システムは人間の組み立てと比較して,工具同士の衝突を統計的に有意に減少させることが示された。
オンライン逆線形最適化における有限かつ腐敗に強い後悔限界 [cs.LG, cs.DS, stat.ML]目的:時間とともに変化する実行可能集合における最適な行動の観察から,エージェントの隠れた目的ベクトルを推論すること
- コンテキスト推薦は,多様な意思決定問題に応用可能であり,高い実用性を持つため重要である。
- 既存研究では,後悔限界が次元数$d$に依存しており,高次元問題での性能が課題となっていた。
- M-凸実行可能集合下において,$d$の多項式時間で収束する有限の後悔限界を確立することを目指す。
- M-凸集合において,後悔限界を$O(d\log d)$に抑えることが可能であることを示した。
- 最適な解の構造的特徴付けと幾何学的体積の議論を組み合わせることで,この結果を得た。
- 最悪$C$ラウンドにおける敵対的な腐敗フィードバックに対しても,$O((C+1)d\log d)$の後悔限界を導出した。
FreshMem:ストリーミングビデオ理解のための脳にヒントを得た周波数・空間ハイブリッドメモリ [cs.CV, cs.AI]目的:ストリーミングビデオ理解における,周波数・空間ハイブリッドメモリの提案
- マルチモーダルLLMをオンラインストリーミングビデオ理解へ移行させることは,継続的な知覚に不可欠である。
- 既存手法は柔軟な適応性に欠け,詳細情報の不可逆的な損失や文脈の断片化を引き起こす。
- 脳の対数的知覚と記憶の固定化に着想を得たFreshMemにより,この問題を解決する。
- FreshMemは,Qwen2-VLベースラインを大幅に向上させ,StreamingBench,OV-Bench,OVO-Benchでそれぞれ5.20%,4.52%,2.34%の改善を実現した。
- 学習不要なソリューションとして,Fine-tuning済みの既存手法を上回り,効率的な長期間ストリーミングビデオ理解パラダイムを提供する。
- Multi-scale Frequency MemoryとSpace Thumbnail Memoryの相乗効果により,短期的な忠実性と長期的な一貫性を両立する。
意味を考慮したWasserstein方策正則化による大規模言語モデルのAlignment [cs.LG, cs.AI]目的:大規模言語モデルのAlignment
- 言語モデルは人間の指示に従う必要があり,その性能向上が重要である。
- 従来のKLダイバージェンスは意味的類似性を捉えきれない点が課題である。
- 意味を考慮した方策距離によるAlignmentの改善を目指す。
- 本研究では,Wasserstein距離に基づく意味を考慮した正則化手法WPRを提案した。
- WPRは,従来のKLダイバージェンスやf-ダイバージェンスよりも優れた性能を示した。
- 提案手法により,Alignmentにおける意味的類似性の重要性が示された。
数え上げ仮説:文脈内学習の潜在的メカニズム [cs.DL, cs.IR, cs.CL, cs.AI]目的:文脈内学習の潜在的メカニズムの解明
- 大規模言語モデルの活用範囲拡大のため,その学習メカニズムの理解が不可欠である。
- 文脈内学習の根底にあるメカニズムが不明確であり,エラー修正や診断が困難である。
- 大規模言語モデルのエンコーディング戦略が文脈内学習の鍵となる可能性を示す。
- 大規模言語モデルは,大規模なデータで事前学習することにより,入力プロンプトの例から特定のタスクを学習できる。
- 本研究では,「数え上げ仮説」を提唱し,言語モデルのエンコーディング戦略が文脈内学習の基盤となる可能性を示唆する。
- この仮説は,文脈内学習の限界を理解し,言語モデルの能力を最大限に引き出すために重要である。
LLMが何を考え,何を語るか:指示なしの自由生成における考察 [cs.AI, cs.LG]目的:大規模言語モデルの自由生成時の挙動の特性
- LLMの信頼性と安全性確保のため,多様な状況下での振る舞い理解が不可欠である。
- 既存研究は特定のテーマやタスクに限定されており,LLMの潜在的な挙動を捉えきれていない。
- 指示なしの自由生成を通して,LLMの隠れた傾向とモデルごとの差異を明らかにすること。
- 指示なしの生成においても,各モデルは特定のテーマを強く偏って生成することが明らかになった。
- GPT-OSSはプログラミングや数学,Llamaは文学,DeepSeekは宗教,Qwenは多肢選択問題の生成頻度が高い。
- GPT-OSSはより高度な技術的内容を生成し,Llamaは個人SNSアカウントへのURLを繰り返し生成するなど,モデル特有の傾向が見られた。
密な状態を超えて:潜在的推論のための疎な変換器を活性オペレーターへ [cs.RO, cs.HC, cs.AI, cs.LG]目的:潜在的推論における疎な変換器の活用
- 複雑な推論を効率化するため,思考過程の圧縮が重要視されている。
- 既存手法は解釈と制御が難しく,疎な表現モデルは事後分析に限定される。
- 解釈性と因果効果のある疎な特徴量を推論のオペレーターとして活用する。
- LSTRは,密な潜在的遷移の解釈性と制御の難しさを克服し,精度と圧縮効率を維持しながら解釈性を大幅に向上させる。
- LTTは,線形多様体輸送と疎な意味的更新を分離し,明示的な疎性制約を通じて制御可能な意味分解能を実現する。
- 因果介入と軌跡分析により,疎な特徴量が推論過程において解釈可能かつ因果的に有効なオペレーターとして機能することが示された。
RGB-D送電線欠陥検出のためのクロスモーダルアラインメントと融合 [cs.CV, cs.AI]目的:送電線欠陥の検出
- 送電線の点検は重要であり,欠陥の早期発見が電力供給の安定化に不可欠である。
- 既存のRGB画像を用いた欠陥検出は,背景の複雑さや照明の変化により困難を伴う。
- 本研究は,RGB画像と深度情報の融合により,微細な欠陥を高精度に検出することを目指す。
- 提案手法CMAFNetは,TLRGBDベンチマークにおいて,mAP@50で32.2%を達成し,最先端手法を9.8%上回った。
- CMAFNetの軽量版は,228 FPSで24.8%のmAP50を達成し,YOLOベースの検出器を凌駕した。
- 特徴の精製と融合により,モダリティ特有のノイズを抑制し,欠陥の識別能力を高めている。
ポスト学習後の探索の回復:大規模推論モデルのための潜在的探索デコーディング [cs.CL, cs.LG]目的:大規模推論モデルにおける探索能力の回復
- 推論能力向上にRLによるポスト学習が有効だが,探索能力の低下が課題となっている。
- ポスト学習により,モデルの出力層におけるエントロピーが低下し,多様な解の探索が困難になっている。
- 中間層のエントロピーに着目し,潜在的な探索空間を効果的に活用することで探索能力を回復する。
- 提案手法LEDは,追加学習やパラメータ増加なしに,pass@1とpass@16の精度をそれぞれ0.61%と1.03%改善した。
- LEDは,中間層の事後分布を累積和で集約し,最大エントロピーの層構成を探索候補として選択する。
- この手法により,ポスト学習によって失われた探索能力を回復し,より多様な解を生成することが可能となった。
高度AIシステムの制御喪失緩和:手段的目標軌跡によるアプローチ [cs.AI, cs.CY]目的:高度AIシステムの手段的目標軌跡
- AIの高度化に伴い,人間の制御が失われる可能性が懸念されている。
- 既存の対策は技術中心であり,組織システムへの着目が不足している。
- 組織における資源調達経路を分析し,介入ポイントを明確化する。
- 本研究では,調達,ガバナンス,財務の3つの手段的目標軌跡(IGT)を提唱する。
- IGTは,AIシステムの能力や行動が許容範囲を超える際の介入点を提供し,能力レベルの定義を具体化する。
- モデルの特性だけでなく,AIを支える組織システムへの対策の視野を広げる。
メタエンジン:異種LLMベースのクエリシステムに対する統合セマンティッククエリエンジン [cs.RO, cs.DB, cs.AI]目的:異種LLMベースのクエリシステムに対する統合セマンティッククエリエンジンの開発
- マルチモーダルデータの利用増加に伴い,データ管理システムにおけるセマンティッククエリの需要が高まっている。
- 既存のLLMベースのセマンティッククエリシステムはAPIの不統一性や,専門性と汎用性のトレードオフといった課題がある。
- 異種LLMベースのクエリシステムを統合し,これらの課題を解決することを目指す。
- Meta Engineは,NLクエリを解析し,適切なクエリシステムへルーティングすることで,多様なデータに対応する。
- 評価の結果,Meta Engineは既存のベースラインを凌駕し,F1スコアで3〜6倍,特定のデータセットでは最大24倍の性能向上を示した。
- Meta Engineは,セマンティッククエリシステムの統合において,専門性と汎用性のバランスを実現する。
AGT$^{AO}$:適応直交性を用いた敵対的ゲーティング訓練による,堅牢かつ安定化されたLLMアンラーニング [cs.LG, cs.CL]目的:大規模言語モデルのプライバシーとセキュリティリスク軽減のための,堅牢なアンラーニング手法
- 大規模言語モデルの普及に伴い,機密情報の漏洩リスクが高まっており,プライバシー保護が重要課題となっている。
- 既存のアンラーニング手法は,効果とモデル性能維持のトレードオフに陥りやすく,十分な効果が得られない場合がある。
- 本研究では,このトレードオフを解消し,効果的かつモデル性能を維持するアンラーニング手法を開発することを目的とする。
- 提案手法AGT$^{AO}$は,敵対的ゲーティング訓練と適応直交性を組み合わせることで,記憶の除去とモデル性能の維持を両立している。
- 実験結果から,AGT$^{AO}$は,高いアンラーニング効果(KUR ≈ 0.01)と優れたモデル性能(MMLU 58.30)を達成することが示された。
- 適応直交性は,忘却と保持の目的間の幾何学的勾配の衝突を動的に緩和し,意図しない知識の劣化を最小限に抑える。
モード誘起を超えて:潜在拡散推論による多様性維持強化学習 [cs.LG, cs.AI]目的:LLMの推論能力向上
- LLMの推論能力は,複雑な問題を解決する上で不可欠であり,その向上が求められている。
- 離散的な強化学習では,モード誘起により多様性が失われ,探索が困難になるという課題がある。
- 潜在拡散推論を用いることで,多様性を維持しつつ効率的な探索を実現し,LLMの推論能力を向上させる。
- 本研究では,連続潜在空間での探索を行う「LaDi-RL」というフレームワークを提案した。
- LaDi-RLは,コード生成と数学的推論のベンチマークにおいて,離散型強化学習のベースラインと比較して一貫した性能向上を示した。
- コード生成ではpass@1が+9.4%,数学的推論では+5.7%の絶対的な改善が見られた。
思考のゲーム:ゲーム理論を用いた大規模言語モデルの堅牢な情報探索 [cs.CL, cs.AI, cs.GT]目的:大規模言語モデルにおける情報探索能力の向上
- 現実世界でのLLM利用拡大に伴い,情報不足への対処が重要課題となっている。
- 既存手法は簡略化された仮定に依存し,最悪ケースでの性能劣化が問題視されている。
- ゲーム理論に基づき,LLMの情報探索戦略を最適化し,最悪ケースの性能改善を目指す。
- 提案手法「思考のゲーム」は,ゲーム理論的手法を用いてナッシュ均衡戦略を近似する。
- 実験結果から,提案手法は直接プロンプティングやヒューリスティック探索と比較して,全ての環境で最悪ケースの性能を向上させることが示された。
- Twenty Questionsを題材とした戦略的言語探索(SLS)問題をゲームとして定式化し評価を行った。
物理情報に基づいた生成AIによる顕微鏡画像解析のための労力不要セグメンテーション [cs.CL, cs.CV, cond-mat.mtrl-sci, cs.AI]目的:顕微鏡画像のセグメンテーション手法
- 材料特性評価において,セグメンテーションは不可欠であり,効率化が求められている。
- 専門家によるアノテーションはコストと時間がかかり,データ不足が課題となっている。
- シミュレーションと現実の間のギャップを埋め,アノテーション不要なセグメンテーションを実現する。
- 物理シミュレーションとCycleGANを用いて,現実的なSEM画像を大量に生成することに成功した。
- 生成されたデータのみで学習したU-Netモデルは,未知の実験画像でも高い汎化性能を示した(F1スコア0.90,IOU 0.88)。
- 統計的および特徴量分析により,生成画像と現実の画像分布が同等であることが確認された。
大規模言語モデルのプロンプト最適化:因果的アプローチ [cs.AI, cs.LG]目的:大規模言語モデルにおけるプロンプト設計の最適化
- 企業でのLLM活用が進む中,安定した性能を保つことは不可欠である。
- 既存の自動プロンプト最適化手法は,多様なクエリへの適応や因果関係の特定に課題がある。
- クエリ固有のプロンプトを効率的に探索し,性能とコストの両面で改善を目指す。
- Causal Prompt Optimization (CPO) は,プロンプト設計を因果推定の問題として再構築する。
- Double Machine Learning (DML) を用いて因果的報酬モデルを学習し,プロンプトの効果を正確に評価する。
- 数学的推論,可視化,データ分析のベンチマークで,既存手法や人間が作成したプロンプトを上回る性能を示した。
BBPE16:多言語音声認識性能向上に向けたUTF-16ベースのバイトレベルByte Pair Encoding [cs.DL, cs.DB, cs.IR, cs.CL, cs.CL, cs.CL, cs.AI]目的:多言語音声認識のための効率的なトークン化手法
- グローバル化が進み,多言語に対応した音声認識の重要性が高まっている。
- UTF-8ベースのBBPEは汎用的だが,CJK言語ではトークン列が長くなり,計算負荷が増大する。
- UTF-16を用いることで,トークン列長を削減し,計算効率とメモリ使用量を改善することを目指す。
- BBPE16は,UTF-8ベースのBBPEと同等かそれ以上の認識精度を達成した。
- 中国語においては,トークン数を最大10.4%削減し,デコーディングイテレーション数を最大10.3%低減した。
- BBPE16は,ファインチューニングと推論の高速化,メモリ使用量の削減に貢献し,多言語ASRの実用的な選択肢となる。
IIDを超えた汎化性能評価指標:分布シフト下での実証研究 [cs.LG]目的:分布シフト下における汎化性能評価指標の頑健性
- 深層学習モデルの性能予測は重要であり,特に未知データへの汎化能力の評価が課題。
- 既存の汎化性能評価指標は,学習データとテストデータの分布が異なる場合に不安定になる。
- 分布シフトの影響を受けにくい,より頑健な汎化性能評価指標を特定する。
- 多くの汎化性能評価指標は分布シフトによって予測性能が大きく変化することが示された。
- 少数の評価指標のみが,様々な設定において比較的安定した性能を維持した。
- 較正と情報基準に基づく指標は,IIDおよびOODの汎化との整合性を示す結果が得られた。
SafePred:ワールドモデルによるコンピュータ利用エージェントの予測型安全装置 [cs.CL, cs.AI, cs.LG]目的:コンピュータ利用エージェントの安全な行動確保
- 複雑な環境で利用されるエージェントの安全性確保は,社会実装において不可欠である。
- 既存の安全装置は,即時的なリスクへの対応に偏り,長期的なリスクを未然に防ぐことが困難である。
- 将来のリスクを予測し,現在の意思決定に反映することで,長期的なリスクを回避する。
- SafePredは,安全ポリシーに基づき,短期・長期的なリスクを予測する。
- 予測されたリスクを意思決定に反映し,安全な行動を導くための介入や計画の再検討を行う。
- 実験により,SafePredは高リスク行動を大幅に削減し,安全性を97.6%以上向上させ,タスクの有用性を最大21.4%改善することが示された。
LLMに基づくドメイン認識型ユーザモデリングによる未知ドメインでのクロスドメインフェイクニュース検出 [cs.SI, cs.LG]目的:未知ドメインにおけるクロスドメインフェイクニュース検出手法
- フェイクニュースは社会に悪影響を及ぼすため,自動検出技術の確立が重要である。
- 未知のドメインに対するクロスドメインフェイクニュース検出は,データ不足やドメイン固有の特徴への対応が課題である。
- LLMを活用し,高レベルな意味情報を捉え,ドメインを考慮したユーザモデリングにより検出精度を向上させる。
- 本研究では,LLMを用いたDAUDという新しいフレームワークを提案し,ニュースコンテンツから高レベルな意味情報を抽出する。
- ユーザの単一およびクロスドメインでのエンゲージメントをモデル化することで,ドメインを意識した行動表現を生成する。
- 実験の結果,DAUDは既存手法と比較して,一般的な環境と未知ドメインの両方で優れた性能を示した。
大規模言語モデルの訓練における不安定性を安定化ランク回復により防止する最適化手法:MSign [cs.CE, cs.HC, cs.RO, cs.LG]目的:大規模言語モデル訓練における不安定性防止
- 近年の言語モデルは大規模化が進み,その性能向上に不可欠である。
- 訓練中に勾配爆発が発生しやすく,計算資源の無駄遣いや学習の失敗につながる。
- 安定化ランクの低下と層間ヤコビアンのalignmentが勾配爆発の原因となる点を解決する。
- MSignは,行列の符号演算を定期的に適用することで安定化ランクを回復し,訓練の不安定性を抑制する。
- 5Mから3Bパラメータまでのモデルで実験を行った結果,MSignは訓練の失敗を防ぎ,計算コストの増加は7.0%未満に抑えられた。
- 理論的に,安定化ランクの低下と層間ヤコビアンのalignmentが指数関数的な勾配ノルムの成長を引き起こすことが示された。
時系列予測における万能アーキテクチャの終焉 [cs.LG]目的:時系列予測におけるアーキテクチャの限界と研究の方向性
- 時系列予測は,金融,気象,交通など,様々な分野で不可欠な技術である。
- 汎用的なニューラルネットワークアーキテクチャは,特定ドメインにおける性能が頭打ちになりつつある。
- 時系列コミュニティは,汎用モデルから特定ドメインやメタ学習へ研究の焦点を移すべきである。
- 近年の研究により,時系列予測におけるニューラルネットワークアーキテクチャの有効性と頑健性に疑問が呈されている。
- 汎用的なアーキテクチャは複雑化の一途をたどり,特定ドメインにおける進歩を取り入れられていない。
- したがって,時系列コミュニティは汎用モデルの研究から,特定ドメインへの深層学習やメタ学習に注力すべきである。
MACD: モデルを意識した反事実データによるコントラストiveデコーディング [cs.AI, cs.CV, cs.LG]目的:ビデオ言語モデルにおけるハルシネーションの軽減
- ビデオ言語モデルの発展は,視覚情報と言語を繋ぐ上で重要である。
- 弱い,曖昧,または偏った視覚的証拠の際に,ビデオ言語モデルが根拠のない内容を生成しやすい。
- モデルの弱点を考慮した反事実データを生成し,より正確な推論を促す。
- 提案手法MACDは,モデルのフィードバックを用いてハルシネーションの原因となるオブジェクト領域を特定する。
- 特定されたオブジェクトレベルで反事実データを生成し,コントラストiveデコーディングに組み込む。
- 実験の結果,MACDは様々なビデオ言語モデルにおいて,ハルシネーションを低減しつつタスク精度を維持・向上させることを示した。
ソフトマックス線形注意:グローバル競争の再構築 [cs.LG, cs.AI]目的:ソフトマックス線形注意(SLA)フレームワークの提案
- Transformerモデルの効率化が重要視される一方で,長文脈における性能維持が課題となっている。
- 線形注意は計算量を削減するが,ソフトマックス正規化の削除により表現力が低下することがある。
- 長文脈におけるノイズへの耐性を高め,関連情報の正確な抽出を実現すること。
- SLAは,ソフトマックス操作をトークンレベルからヘッドレベルに移動させることで,効率を損なわずにグローバル競争を回復させる。
- 実験の結果,SLAはRetNet,GLA,GDNといった既存の線形注意ベースラインモデルを,言語モデリングおよび長文脈ベンチマークにおいて一貫して改善した。
- 特に,困難な検索シナリオにおいてノイズに対する頑健性が大幅に向上し,正確な焦点復元能力が確認された。
確率エントロピー較正:適応的ファインチューニングのための弾性指標 [cs.LG, cs.AI]目的:確率とエントロピーの較正信号
- 事前学習済みモデルのファインチューニングは,様々な自然言語処理タスクにおいて重要な役割を果たす。
- 従来のトークン再重み付け指標は単一的であり,学習上重要なトークンを見落とす可能性がある。
- 確率とエントロピーを組み合わせた新たな指標で,ファインチューニングの効率性と精度を向上させる。
- 提案手法「Relative Rank Indicator」は,正解トークンと予測分布における順位の比較により,より適切なトークン再重み付けを実現する。
- 数学的推論ベンチマークにおいて,確率またはエントロピーのみを用いた既存手法を上回る性能が確認された。
- 分布外推論やコード生成においても,性能向上が示された。
データ異質性を持つ連合学習のためのLoRAの再考:部分空間と状態の整合 [cs.LG, cs.AI]目的:データ異質性を持つ連合学習におけるLoRAの性能向上
- 連合学習は,プライバシー保護と分散データ利用を可能にする重要な技術である。
- 非IID(独立同一分布)環境下では,LoRAは全パラメータファインチューニングに劣ることが課題である。
- 更新空間と最適化状態の不一致を解消し,連合学習におけるLoRAのロバスト性と精度向上を目指す。
- 提案手法FedGaLoreは,勾配部分空間最適化とサーバー側のドリフトに強い同期を組み合わせることで,性能を向上させる。
- NLU,画像認識,NLGのベンチマークにおいて,既存の連合LoRAベースラインよりも優れた結果が得られた。
- FedGaLoreは,データ異質性を持つ環境下でのロバスト性と精度を改善することを示した。
自動エッセイ評価の性能向上:二段階ファインチューニング,スコアアライメント,自己教師あり学習によるアプローチ [cs.CL, cs.LG]目的:自動エッセイ評価性能の向上
- 教育現場における評価の効率化が求められており,自動エッセイ評価は重要な役割を担う。
- 十分なラベル付きデータの不足が,自動エッセイ評価システムの開発と実用化の大きな課題となっている。
- ラベル付きデータが少ない状況でも,自動エッセイ評価の性能を向上させることを目指す。
- 二段階ファインチューニング,スコアアライメント,自己教師あり学習の3つの技術を組み合わせることで,少ないデータでの性能が向上した。
- 特に,32データという極めて少ないデータセットにおいて,フルデータで学習した場合の91.2%の性能に近づいた。
- スコアアライメント技術は,データ量に関わらず性能向上に貢献し,フルデータ設定において最先端の結果を達成した。
マルコフ連鎖の観点からのGFlowNetにおける探索・利用の制御 [cs.AI, cs.LG]目的:GFlowNetにおける探索・利用の制御
- 生成モデルの性能向上には,探索と利用のバランスが重要である。
- GFlowNetの目的関数は探索・利用のバランスを固定し,柔軟性に欠ける。
- マルコフ連鎖の性質を利用し,探索・利用を制御する新たなGFlowNetを提案する。
- GFlowNetとマルコフ連鎖の等価性により,探索・利用の制約の起源が明らかになった。
- 提案手法α-GFNは,パラメータαによって探索・利用のバランスを調整可能である。
- 様々なベンチマークで,α-GFNは既存のGFlowNetを上回り,モード発見能力が最大10倍向上した。
敵対的報酬監査:報酬ハッキングの能動的検出と軽減 [cs.AI, cs.LG]目的:報酬ハッキングの能動的検出と軽減
- 人間からのフィードバックによる強化学習は,AIの意図に沿わない行動を抑制し,人間が求める出力を得る上で重要である。
- 報酬モデルの脆弱性を悪用する報酬ハッキングは,AIが人間の意図に反した振る舞いを引き起こす深刻な問題である。
- 報酬ハッキングを動的な競争ゲームとして捉え,検出と軽減を可能にするフレームワークを構築すること。
- 敵対的報酬監査(ARA)は,ハッカーポリシーと監査者ポリシーの競争を通じて,報酬モデルの脆弱性を発見し,ハッキングを検出する。
- 監査者によってハッキングが検出された場合,報酬信号を抑制する監査者誘導RLHF(AG-RLHF)を用いることで,ハッキングを制御可能にする。
- 実験により,ARAは既存手法と比較して,有用性を損なわずにハッキングを効果的に軽減し,ドメインを跨いでも有効であることが示された。
MGKAN:多次元グラフ・コルモゴロフ・アーノルド・ネットワークによる非対称な薬物間相互作用の予測 [cs.LG, q-bio.QM]目的:非対称な薬物間相互作用の予測
- 安全な薬物治療のため,薬物間相互作用の予測は不可欠である。
- 既存モデルは線形集約に依存し,非線形性や異質性を捉えきれていない。
- MGKANは非対称な相互作用をより表現豊かにモデル化することを目的とする。
- MGKANは,従来のMLP変換をKAN駆動の基底関数に置き換えることで,より表現力豊かな非線形モデリングを実現した。
- 非対称なDDIネットワーク,共同相互作用ネットワーク,生化学的類似性ネットワークを統合し,方向性セマンティクスを保持した。
- 2つのベンチマークデータセットにおいて,MGKANは7つの最先端モデルを上回る性能を示した。
Zero2Text:テキスト埋め込みに対するゼロトレーニングのクロスドメイン反転攻撃 [cs.CL, cs.LG]目的:テキスト埋め込みからの情報漏洩
- 検索拡張生成(RAG)の普及に伴い,ベクトルデータベースの重要性が増している。
- ベクトルデータベースは,埋め込み反転攻撃によって深刻なプライバシーリスクをもたらす。
- 既存手法の制約を克服し,厳密なブラックボックス環境下での攻撃を可能にする。
- Zero2Textは,再帰的なオンラインアライメントに基づく,トレーニング不要な新しいフレームワークである。
- 本手法は,LLMの事前知識と動的なリッジ回帰機構を組み合わせ,ターゲット埋め込みへの生成を動的にアライメントする。
- MS MARCOにおいて,OpenAIのモデルに対するROUGE-LとBLEU-2のスコアがベースラインよりそれぞれ1.8倍,6.4倍向上した。
