arXiv雑要約
AI - 2026/03/02 公開
凍結された言語・画像モデルの超次元クロスモーダルアライメント:効率的な画像キャプション生成のために [cs.CV, cs.AI, cs.LG]目的:効率的な画像キャプション生成のためのクロスモーダルアライメント手法
- 画像と言語の分野では,大規模な基盤モデルが高度な意味構造を学習している。それらを統合することで,より高度なタスクが実現可能となる。
- 既存のクロスモーダルアライメントは,計算コストが高く,事前学習された表現を損なう可能性がある。大規模なパラメータ更新が必要となる。
- 事前学習済みモデルのパラメータを修正せずにクロスモーダルアライメントを実現し,効率的な画像キャプション生成を可能とする。
- HDFLIMは,凍結された言語・画像モデル間のクロスモーダルマッピングを確立する新しいフレームワークである。
- HDFLIMは,単一のデータパスで,軽量な記号演算を用いて関連するクロスモーダル表現を構築する。
- 実験の結果,HDFLIMはエンドツーエンドの学習方法と同等の性能を達成し,より意味的に整合性の高いキャプションを生成することが示された。
マルチモーダルモデルにおける図理解のための疑似対照学習 [cs.CV, cs.AI]目的:図理解能力の向上
- 画像と言語の連携が重要視される中で,図の構造理解は高度な課題である。
- 既存モデルは,図のような微細な視覚的差異が意味を大きく左右する場合に弱点がある。
- 図構造のわずかな違いを捉え,より正確な意味理解を可能にすることを目的とする。
- 提案手法では,図生成器を用いて疑似対照サンプルを作成し,モデルの構造認識能力を向上させた。
- フローチャートのデータセットを用いた評価で,標準的なCLIPやハードネガティブCLIPよりも高い性能を示した。
- 画像とテキストのマッチング,および視覚的質問応答において,顕著な改善が確認された。
効率的な具現化計画のためのKVキャッシュ中心メモリ管理システムKEEP [cs.RO, cs.AI, cs.SE]目的:効率的な具現化計画を実現するためのメモリ管理システム
- 大規模言語モデルの性能向上には,過去の経験や環境状態を記憶し,効率的に活用することが重要である。
- 既存の手法では,メモリをテキストとして保存するため,プロンプトが長くなり,処理遅延が発生しやすい。
- KVキャッシュの効率的な管理により,メモリの再計算を削減し,具現化計画の高速化を目指す。
- KEEPは,混合粒度メモリグループを用いた静的・動的メモリ構築アルゴリズムにより,KVキャッシュの再計算を抑制する。
- マルチホップメモリ再計算アルゴリズムにより,異なるメモリグループ間の重要なクロスアテンションを動的に特定し,メモリ間の相互作用を反復的に再構築する。
- 層バランス型メモリロードにより,KVキャッシュの不均衡なロードとクロスアテンション計算を解消し,ALFREDデータセットにおいて2.68倍の高速化を達成した。
ブロックチェーン異常検知のためのグラフニューラルネットワークの正規化と初期化戦略 [cs.HC, cs.DC, cs.PF, cs.LG]目的:グラフニューラルネットワークにおける正規化と初期化戦略の影響評価
- 金融取引における不正検知は,社会経済活動の安定維持において不可欠である。
- グラフニューラルネットワークの性能は,初期化や正規化手法に大きく依存するが,十分な検討がなされていない。
- 実際のAMLベンチマークデータセットにおける最適な初期化・正規化手法を特定し,性能向上を目指す。
- グラフニューラルネットワークのアーキテクチャによって最適な初期化・正規化手法が異なることが示された。
- GraphSAGEはXavier初期化のみで高い性能を発揮し,GATはGraphNormとXavier初期化の組み合わせが有効であった。
- GCNはこれらの変更に対する感度が低いことが確認された。データセットのクラス不均衡に対する実践的な指針を提供する。
長文質問応答のための大規模人間選好データセットLFQA-HP-1M [cs.CL, cs.AI, cs.IR]目的:長文質問応答における人間による回答の選好データセット
- 長文質問応答は,複雑な質問に対する詳細な回答を必要とするため,高度な自然言語処理技術が不可欠である。
- 既存の評価指標は,人間の判断と乖離することが多く,回答の質を正確に評価できないという課題がある。
- 人間の選好に基づいた大規模なデータセットを提供し,信頼性の高い評価フレームワークを構築することを目的とする。
- 130万件の人間のペアワイズ選好注釈を含む,大規模データセットLFQA-HP-1Mを構築した。
- 9つの回答品質評価基準を提案し,それに基づいた線形モデルが最先端のLLM評価者と同等の性能を示した。
- LLM評価者の推移性の一貫性,位置バイアス,冗長性バイアスを検証し,敵対的摂動に対する脆弱性を明らかにした。
SleepLM:人間の睡眠に関する自然言語知能 [cs.AI]目的:人間の睡眠と自然言語の整合,解釈,および相互作用を可能にする睡眠言語基盤モデル
- 睡眠は健康維持に不可欠であり,その理解は医療や福祉の向上に繋がる重要な課題である。
- 既存の睡眠分析システムは,事前に定義されたラベルに限定され,未知の睡眠現象への対応が困難である。
- 自然言語と多変量ポリソムノグラフィーの橋渡しを行い,睡眠生理学の言語的表現を可能にすることを目指す。
- SleepLMは,ゼロショットおよびフューショット学習,クロスモーダル検索,睡眠キャプション生成において,最先端技術を上回る性能を示した。
- 言語による誘導イベントの局所化,標的とする洞察の生成,および未知のタスクへのゼロショット汎化といった興味深い能力も実証された。
- 100K時間以上の睡眠データと10,000人以上の個人データを含む大規模な睡眠テキストデータセットを構築し,公開する予定である。
大規模言語モデル駆動による現実的な推論のための複数ターン課題指向型対話生成 [cs.RO, cs.SY, eess.SY, cs.CL, cs.AI]目的:現実的な推論を伴う複数ターン課題指向型対話の合成
- 知的対話システムの構築には,入力情報に基づく分析・推論・意思決定能力が不可欠である。
- 既存の評価ベンチマークは現実世界の複雑さを反映しておらず,実用的な文脈でのLLMの推論能力評価が困難である。
- 現実的なシナリオに基づいた対話データセットを合成し,LLMの論理的推論能力評価を可能にすること。
- LLM駆動による対話合成フレームワークを提案し,現実的なタスクシナリオに根ざした高品質な対話を生成した。
- 生成されたデータセットは,LLMの現実的な論理的推論能力を評価するための貴重なベンチマークとして機能する。
- 合成データを用いた評価タスクは,LLMの推論能力向上に寄与し,有意な改善をもたらすことが示された。
医療分野におけるマルチモーダル学習はいつ役立つか:EHRと胸部X線画像の融合に関するベンチマーク [cs.LG, cs.AI]目的:EHRと胸部X線画像のマルチモーダル融合による臨床予測性能の評価
- 臨床意思決定支援の高度化に機械学習の活用が期待される分野であり,その可能性を最大限に引き出すことが重要である。
- マルチモーダル学習の有効性や,データ欠損,公平性といった課題が明確になっていないため,臨床応用が限定されている。
- マルチモーダル学習が有効な状況,最適な融合戦略,データ欠損への対応,アルゴリズムの公平性について解明する。
- マルチモーダル融合は,両モダリティが揃っている場合に性能向上を示す。特に,EHRと胸部X線画像から補完的な情報が必要な疾患で効果が顕著である。
- クロスモーダル学習メカニズムは臨床的に意味のある依存関係を捉えるものの,EHRの豊富な時間構造がモダリティ間の不均衡を生じさせ,複雑なアーキテクチャだけでは克服できない。
- 現実的なデータ欠損下では,マルチモーダル融合のメリットは迅速に低下する。不完全な入力に対応できるモデル設計が不可欠である。また,公平性は向上せず,人種などのグループ間での差異が残る。
DLEBench:指示に基づく画像編集モデルにおける小規模オブジェクト編集能力の評価 [cs.IR, cs.CV, cs.AI]目的:指示に基づく画像編集モデルにおける小規模オブジェクト編集能力の評価
- 画像編集技術は,現実および生成された画像の精密な局所編集や詳細の調整に不可欠である。
- 既存の評価基準では,小規模オブジェクトの編集能力が十分に検証されていない。
- 小規模オブジェクト編集に特化したベンチマークを通じて,当該能力の向上を目指す。
- 本研究では,小規模オブジェクト編集能力に特化した初のベンチマークDLEBenchを提案した。
- DLEBenchは,複雑なシナリオを含む1889サンプルで構成され,モデルの性能ギャップを明らかにした。
- 客観的な評価プロトコルを導入し,LMM-as-a-Judgeと人間の判断のずれに対処した。
BTTackler:診断に基づく効率的な深層学習ハイパーパラメータ最適化フレームワーク [cs.NI, cs.LG]目的:深層学習におけるハイパーパラメータ最適化の効率化
- 深層学習の性能はハイパーパラメータに大きく左右されるため,効率的な最適化手法が重要である。
- 従来の自動最適化手法では,精度の指標のみに頼るため,学習の初期段階での問題を捉えきれない。
- 学習中の問題を自動的に診断し,不適切な試行を早期に打ち切ることで最適化の効率を高める。
- BTTacklerは,従来の最適化手法と比較して,同等の精度を達成するために平均で40.33%の計算時間削減を実現した。
- 限られた時間内で,ベースライン手法と比較して平均で44.5%多くのトップ10の試行を実施することができた。
- BTTacklerは,容易に自動ハイパーパラメータ最適化プロセスに適用できるオープンソースのPythonライブラリとして公開されている。
MMKG-RDS:マルチモーダル知識グラフの深層マイニングによる推論データ合成 [cs.AI]目的:推論能力向上のための高品質な学習データ合成
- 知識獲得と推論はAIの根幹であり,より高度なモデル開発に不可欠である。
- 既存手法では,知識の網羅性,有効性の検証,解釈可能性に課題が残されている。
- マルチモーダル知識グラフを活用し,データ合成の機能,粒度,カスタマイズ性を向上させる。
- MMKG-RDSは,5つのドメイン,17種類のタスク,14,950サンプルを含むMMKG-RDS-Benchデータセットで検証された。
- Qwen3モデルを合成データでファインチューニングすることで,推論精度が9.2%向上した。
- テーブルや数式を含むタスクにおいて,既存モデルに対する新たな挑戦を可能にする多様なデータを生成した。
近似陰関数微分を用いた単一ループ確率的二段階最適化の収束について [cs.LG]目的:単一ループ確率的二段階最適化アルゴリズムの収束性解析
- 機械学習やハイパーパラメータ最適化において重要な枠組みであり,その理論的理解が不可欠である。
- 単一ループアルゴリズムの収束性理論は未発達であり,特に確率的条件下での解析が困難である。
- 単一ループアルゴリズムSSAIDの収束率を明確化し,理論的な基盤を確立することを試みる。
- SSAIDアルゴリズムは,オラクル複雑度$\mathcal{O}(\kappa^7 \epsilon^{-2})$で$\epsilon$-定常点を達成する。
- この結果は,最先端の多ループ法と同等の$\mathcal{O}(\epsilon^{-2})$の収束率を示す。
- また,確率的AIDに基づく単一ループ法における条件数$\kappa$への依存性を初めて明確に特徴づける。
FlexGuard:厳格度適応型LLMコンテンツモデレーションのための継続的リスクスコアリング [cs.HC, cs.LG, cs.AI]目的:厳格度適応型LLMコンテンツモデレーションにおける継続的リスクスコアリング
- LLMの安全な利用は不可欠であり,有害コンテンツの検出が重要である。
- 既存のモデレーション手法は厳格度の変化に対応できず,実用性に課題がある。
- 多様な厳格度に対応可能な,ロバストなモデレーション手法を開発する。
- FlexBenchという厳格度適応型ベンチマークを開発し,既存モデレーターの厳格度依存性を明らかにした。
- リスクアラインメント最適化により,リスクスコアと深刻度の整合性を向上させたFlexGuardを提案した。
- FlexGuardは,既存手法と比較して,高いモデレーション精度と厳格度変化に対するロバスト性を示した。
FedRot-LoRA:連合学習におけるLoRAの回転ミスマッチの軽減 [cs.LG, cs.AI]目的:分散データにおける大規模言語モデルのファインチューニングにおける回転ミスマッチ軽減策
- 大規模言語モデルの利用拡大に伴い,分散環境での効率的な学習手法が重要になっている。
- 連合学習におけるLoRAでは,低ランク分解の平均化方法に起因する集約誤差が課題となっていた。
- 回転ミスマッチによる集約誤差を低減し,安定した連合学習を実現することを目指す。
- 提案手法FedRot-LoRAは,クライアントの更新を直交変換で整列させることで,集約誤差を低減する。
- 理論的解析により,回転整列が平均化による集約誤差の上限をより厳密にすることを明らかにした。
- 自然言語理解と生成タスクにおける実験で,既存の連合学習LoRA手法を上回る性能を示した。
AIは専門化を受け入れるべき:超人的適応知能を通じて [cs.IR, cs.AI]目的:AIの将来像に関する議論の明確化
- AI技術の発展は,社会の様々な分野に大きな変革をもたらす可能性を秘めている。
- 汎用人工知能(AGI)の定義が曖昧であり,議論を混濁させている。
- AIは汎用性ではなく専門性を追求し,超人的なパフォーマンスを目指すべきである。
- 本研究は,AGIという概念の欠陥を指摘し,より現実的なAIの将来像として超人的適応知能(SAI)を提唱する。
- SAIは,人間が可能な重要なあらゆるタスクにおいて人間を超える能力を獲得し,人間の能力が及ばない領域を補完できる知能と定義される。
- SAIの概念を用いることで,AGIの定義が抱える曖昧さを解消し,AI研究の方向性を示すことが可能となる。
AudioCapBench:音,音楽,音声における音声キャプション評価の迅速化 [cs.RO, cs.SD, cs.AI]目的:大規模マルチモーダルモデルの音声キャプション能力の評価
- 音声理解は,人間と機械のコミュニケーションにおいて重要な役割を担う。
- 既存の評価方法では,多様な音声ドメインを網羅的に評価することが困難である。
- 多様な音声ドメインに対応した,迅速かつ再現性のある評価手法の確立。
- Geminiモデルは全体的なキャプション品質においてOpenAIモデルを上回る傾向が示された。
- Gemini 3 Proが最高の総合スコア(6.00/10)を達成したが,OpenAIモデルは幻覚の発生率が低い。
- 全てのモデルは音声キャプションにおいて最も高い性能を示し,音楽キャプションにおいて最も低い性能を示した。
MRIマルチオルガン異常検出のための3Dモダリティ認識事前学習 [cs.CV, cs.AI]目的:MRIマルチオルガン異常検出におけるビジョン言語モデルの性能向上
- 医療画像診断において,複雑な診断タスクにビジョン言語モデルの応用が期待されている。
- マルチオルガン医療画像では,モダリティ特有の視覚-言語対応と,クロスモダリティ特徴融合が課題となる。
- 3D MRIにおける視覚-言語表現学習を強化し,マルチオルガン異常検出の精度向上を目指す。
- 提案手法MedMAPは,モダリティ認識エンコーダにより視覚的・テキスト表現のAlignmentを向上させる。
- 大規模MRIデータセットMedMoM-MRI3Dを用いて実験を行った結果,既存のVLMを大幅に上回る性能を示した。
- 事前学習済みの視覚エンコーダを固定されたテキストエンコーダと共にファインチューニングすることで,高い検出精度を実現した。
ProtoDCS:Vision-Languageモデルのロバストかつ効率的なテスト時適応に向けたオープンセットアプローチ [cs.CV, cs.AI]目的:Vision-Languageモデルのオープンセットにおけるテスト時適応のロバスト性と効率性の向上
- 大規模なVision-Languageモデルは実世界での応用が期待されるが,分布シフトの影響を受けやすい。
- 既存のテスト時適応手法はクローズドセットを前提としており,未知のデータに対する対応が課題である。
- 本研究は,分布シフト下で共変量シフトされたデータと分布外データを識別し,安全かつ効率的な適応を実現する。
- 提案手法ProtoDCSは,確率的ガウス混合モデルによる検証を用いることで,脆い閾値処理を回避し,データ分離のロバスト性を向上させる。
- 不確実性を考慮した損失関数とプロトタイプレベルの効率的な更新により,過信を抑制し,計算コストを削減する。
- CIFAR-10/100-CおよびTiny-ImageNet-Cにおける実験により,ProtoDCSが最新技術を上回る性能を示すことが確認された。
TRIZ-RAGNER:特許に基づく矛盾抽出のための知識検索拡張大規模言語モデル [cs.RO, cs.CL, cs.AI]目的:特許におけるTRIZ対応固有表現抽出
- 特許分析と体系的イノベーションにおいて,矛盾抽出は重要な役割を果たす。
- 既存手法は,複雑な特許言語の処理において,曖昧性やドメイン依存性,汎化性能の限界を抱える。
- 大規模言語モデルの幻覚と構造化されたTRIZ知識の不足を克服し,より正確な矛盾抽出を目指す。
- 提案手法TRIZ-RAGNERは,従来のシーケンスラベリングモデルやLLMベースラインを上回る性能を示す。
- PaTRIZデータセットを用いた実験で,F1スコア84.2%を達成し,プロンプト強化GPTと比較して7.3%の絶対的なF1スコア改善が見られた。
- TRIZ知識を組み込むことで,意味的ノイズを低減し,抽出の一貫性を向上させる効果が確認された。
時系列異常検知のための選択的ノイズ除去拡散モデル [cs.LG]目的:時系列異常検知における性能向上
- 時系列データ分析は,様々な分野で重要な役割を担っており,異常検知はその中でも特に重要である。
- 従来の拡散モデルを用いた異常検知は,正常部分の再構成精度に課題があり,検知性能が限定される場合がある。
- 異常部分のみをノイズ除去し,正常部分は保持することで,より正確な異常検知を目指す。
- 提案手法であるAnomalyFilterは,正常部分の再構成誤差を大幅に低減することを示した。
- AnomalyFilterは,単純な拡散モデルの性能を向上させる,効果的なノイズ設計アプローチである。
- 5つのデータセットを用いた実験により,AnomalyFilterの有効性が実証された。
コントラスト学習によるテンソル時系列の分散モード固有表現の学習 [cs.LG]目的:テンソル時系列の表現学習
- 検索エンジンや環境モニタリングなど多様な分野で活用が期待されるため,その重要性は高い。
- テンソルの複雑さにより,豊かな表現を学習することが困難であるという課題が存在する。
- テンソル構造の複雑性を低減し,モード固有の表現を学習することで,この課題を解決する。
- 提案手法MoSTは,分類と予測の両タスクにおいて,最先端手法を上回る性能を示すことが確認された。
- MoSTは,テンソルスライスを用いたアプローチにより,各モード固有の特徴とモード不変の特徴を捉える。
- コントラスト学習フレームワークを活用することで,分散表現を効果的に学習している。
測地セマンティック検索:引用グラフ検索のための局所リーマン計量の学習 [cs.IR, cs.LG, cs.SI]目的:引用グラフにおけるノード固有のリーマン計量の学習
- 学術論文の引用関係は知識の構造を反映し,情報検索の重要な手がかりとなる。
- 既存の埋め込みベース検索は固定されたユークリッド距離に依存し,セマンティックな関連性を捉えきれない。
- 論文間のセマンティックな関係性を測地距離を用いてより正確に捉え,検索精度を向上させる。
- 提案手法GSSは,既存のSPECTER+FAISSベースラインと比較して,Recall@20で23%の相対的な改善を達成した。
- 学習された測地距離に基づいた効率的な多起点ダイクストラ法と,解釈可能な引用パスの提示が可能である。
- k-meansプーリングを用いた階層的な粗探索により,計算コストを4倍削減しつつ,検索品質を97%維持する。
ブロックチェーンを活用したゼロトラスト低高度インテリジェントネットワークのルーティング [cs.NI, cs.AI]目的:低高度インテリジェントネットワークにおけるルーティングの安定性とセキュリティの確保
- 監視や災害救助等,多様な分野で低高度インテリジェントネットワークの重要性が増している。
- UAVの分散性と高移動性により,セキュリティ上の脅威に脆弱であり,ルーティング性能が低下する可能性がある。
- 潜在的な脅威による影響を最小限に抑え,ルーティングの安定性とセキュリティを向上させることを目指す。
- 提案手法は,既存手法と比較して平均エンドツーエンド遅延を59%削減し,伝送成功率を平均29%向上させる。
- ソフトウェア定義境界とブロックチェーン技術を活用し,UAVの識別と移動管理にゼロトラストアーキテクチャを導入した。
- 分散型部分観測マルコフ決定過程としてルーティング問題を再構成し,マルチエージェントダブルディープQネットワークに基づくルーティングアルゴリズムを設計した。
擬似コード合成を活用した大規模言語モデルエージェントにおける柔軟な計画と行動制御 [cs.AI, cs.SY, eess.SY]目的:大規模言語モデルエージェントにおける計画と行動制御の柔軟性向上
- 複雑なタスク遂行において,LLMエージェントの効率と信頼性は重要である。
- 既存手法では,冗長なツール利用や不安定な推論,高いトークン消費の問題がある。
- 擬似コード合成により,計画の明示化と一貫性のある行動制御を実現する。
- 本研究では,擬似コード合成による新たなフレームワークPseudoActを提案した。
- PseudoActは,タスクをサブタスクに分解し,制御フローを明示的に記述する。
- FEVERとHotpotQAのベンチマークデータセットで,既存手法を大幅に上回る性能を示した。
あらゆるモデル,あらゆる場所,あらゆる時点:リモートセンシング基盤モデルの埋め込み表現をオンデマンドで取得 [cs.CV, cs.LG]目的:リモートセンシング基盤モデル埋め込み表現のオンデマンド取得手法
- リモートセンシング分野では,多様なタスクにおいて高性能な基盤モデルの活用が期待されている。
- モデルの公開形式やプラットフォーム,入力データ仕様のばらつきが,利用と公平な比較を困難にしている。
- 様々なモデル,場所,時間範囲に対する埋め込み表現の取得コストを削減し,ベンチマークを容易にすること。
- rs-embedライブラリを開発し,単一行のコードで様々なモデルから埋め込み表現を取得可能にした。
- 対象領域(ROI)を中心とした統一的なインターフェースを提供することで,利用者の負担を軽減した。
- 大規模な埋め込み表現の生成と評価を可能にする効率的なバッチ処理機能を実装した。
強制的な想像:AGIと企業の権威 [cs.HC, cs.AI]目的:AGI企業における社会技術的な想像の構築戦略
- AGI技術は社会変革をもたらす可能性があり,その影響を理解することが重要である。
- AGI開発企業の発言は,技術の未来像を形成するが,その権威の根拠が不明確である。
- 本研究は,AGI企業がどのように権威を確立し,未来像を提示しているかを分析する。
- OpenAIとAnthropicは,異なる実行方法を用いながらも,一貫した修辞戦略によって社会技術的な想像を構築している。
- 両社は,予言的権威を否定しつつ行使する「自己免除」,AGIの到来を歴史的必然とする「目的論的自然化」などの共通の修辞操作を用いている。
- この共通性は,企業戦略だけでなく,AGI開発における企業の制度的地位を反映している可能性を示唆する。
LLM推論のための能動推論に基づく原理的な適応ルーティング (ODAR) [cs.AI]目的:LLM推論における精度と効率のトレードオフ最適化
- LLMの性能向上には,パラメータ規模の拡大だけでなく,推論時の計算資源の効率的な活用が重要になっている。
- 既存手法は,計算コストが高く,原因の特定が難しく,過剰な思考による効果の減衰が問題となっている。
- 能動推論に基づく適応ルーティングにより,計算資源を効率的に配分し,LLM推論の性能を向上させる。
- ODARは,質問の難易度推定に基づいて,高速な推論と慎重な推論を動的に切り替えることで,精度と効率のバランスをとる。
- 23のベンチマークテストにおいて,数学の問題(MATH)で98.2%の精度,人類の最後の試験(HLE)で54.8%の精度を達成し,既存手法を上回った。
- Llama 4 + DeepSeekのオープンソース環境下でも,ODARは同等サンプリング戦略を凌駕しつつ,計算コストを82%削減することに成功した。
ドローンおよびモバイルロボット遠隔操作のための解釈可能なマルチモーダルジェスチャー認識:対数尤度比融合 [cs.HC, cs.RO, cs.AI]目的:ドローンおよびモバイルロボットの遠隔操作における解釈可能なマルチモーダルジェスチャー認識
- 災害現場など危険環境でのロボット操作は不可欠であり,安全性を高める手法が求められている。
- 従来の画像認識は,遮蔽や照明変化に弱く,実用的な環境での応用が限定されていた。
- 本研究は,よりロバストで解釈可能なジェスチャー認識システムの構築を目指している。
- 本フレームワークは,最先端の画像認識ベースラインと同等の性能を達成しながら,計算コスト,モデルサイズ,学習時間を大幅に削減した。
- Apple Watchの慣性データとカスタムグローブの容量性センシング信号を融合し,対数尤度比に基づく後方融合戦略を採用した。
- 航空機誘導信号に触発された20種類のジェスチャーの新規データセットを導入し,各モダリティの貢献度を定量化した。
Transformer学習における最適化手法に起因する低次元ドリフトと横方向のダイナミクス [cs.LG, cs.AI]目的:Transformer学習における学習軌道の幾何学的構造
- Transformerは自然言語処理等の分野で広く用いられ,性能向上が重要である。
- 最適化手法の選択が学習軌道に与える影響は十分には解明されていない。
- 学習軌道の構造を理解し,最適化手法の選択指針を提示すること。
- Transformer学習において,パラメータ更新は主要なドリフト方向と横方向の残差ダイナミクスに組織化されることが示された。
- AdamWとSGD系最適化手法では学習軌道の幾何学的構造に大きな違いがあり,AdamWは多次元ドリフト構造を発達させる。
- リヒーティングはドリフト方向への影響は最小限に抑えつつ,横方向成分を選択的に擾乱することが確認された。
フラットなログから因果グラフへ:LLMベースのマルチエージェントシステムにおける階層的な故障原因特定 [cs.AI, cs.SE]目的:LLMベースのマルチエージェントシステムにおける故障原因の階層的な特定
- LLMを活用したマルチエージェントシステムは複雑な問題解決能力を示すが,その信頼性と透明性に課題がある。
- 従来の故障原因特定手法はログを単なるシーケンスとして扱うため,複雑な因果関係を捉えきれない。
- 本研究は,複雑な因果関係を構造化し,効率的に故障の根本原因を特定することを目指す。
- 本研究で提案するCHIEFは,実行軌跡を階層的な因果グラフに変換することで,従来の課題を克服する。
- Who&Whenベンチマークにおいて,CHIEFは既存の最先端手法を上回るエージェントレベルおよびステップレベルの精度を達成した。
- 詳細な実験により,提案する各モジュールの有効性が確認された。
境界積分に基づくニューラル演算子を用いたメッシュ変形 [math.NA, cs.CE, cs.LG, cs.NA]目的:メッシュ変形手法
- エンジニアリングにおける形状最適化やパラメトリックメッシュ生成の重要性が高まっている。
- 従来の有限要素法は計算コストが高く,既存のニューラル演算子はディリクレ境界条件への対応が課題であった。
- 境界積分表現とニューラル演算子を組み合わせ,高精度かつ効率的なメッシュ変形を実現する。
- 境界積分表現により,内部変位場を境界変位のみで表現し,未知のトラクションを求める必要をなくした。
- ジオメトリ記述子を介して物理積分プロセスと幾何学的表現を数学的に分離することで,汎用性を高めた。
- 実験結果から,提案手法は高い精度と線形性・重ね合わせの原理への厳密な準拠性を示すことが確認された。
製品調査:多エージェント合成軌跡蒸留によるEコマース深層研究エージェントの学習 [cs.AI]目的:Eコマースにおける深層研究エージェントの学習
- Eコマースの発展に伴い,顧客ニーズに応じた製品調査の自動化が重要になっている。
- 既存のLLMベースエージェントは,複雑な製品調査に必要な相互作用の深さと文脈の広がりが不足している。
- 多エージェント合成軌跡蒸留による学習を通して,LLMベースエージェントの製品調査能力を向上させる。
- 本研究で提案するProductResearchフレームワークは,高品質な合成軌跡を生成し,堅牢なEコマースショッピングエージェントの学習を可能にする。
- 合成データでファインチューニングされたコンパクトなMoEモデルは,応答の包括性,調査の深さ,ユーザーの体感的な有用性において大幅な改善を示した。
- その性能は,最先端のプロプライエタリな深層研究システムに匹敵し,多エージェント合成軌跡学習の有効性と拡張性を示す。
SAGE-LLM:ファジーCBF検証とグラフ構造化知識検索による安全かつ汎用的なLLMコントローラ―UAVの意思決定に向けて [cs.IR, cs.RO, cs.AI]目的:UAVの意思決定における安全性の向上と汎化性能の実現
- UAVの自律飛行は,物流や災害対応など幅広い分野で活用が期待されており,その重要性は高い。
- 複雑な環境下でのUAV制御において,アルゴリズムの汎化性能が課題であり,特に予期せぬ危険への対応が難しい。
- LLMの持つ意味理解能力と汎化性能を活用しつつ,UAV制御に必要な専門知識と安全性を確保することを目的とする。
- 提案手法SAGE-LLMは,LLMをベースとした二層構造の意思決定アーキテクチャであり,安全性と汎化性能を向上させる。
- ファジーControl Barrier Functionによる検証により,LLMが出力する行動の安全性を証明し,信頼性を高めている。
- 星型階層グラフを用いた知識検索システムにより,効率的かつ解釈可能なシーン適応を実現し,未知の状況にも対応可能である。
自律エージェントAIフレームワーク [cs.AI]目的:自律エージェントシステムの生成,実行,ガバナンスの標準化
- AI分野は生成AIからエージェントAIへと移行しており,ユーザーに代わって自律的に行動する重要性が増している。
- LLMの確率的で非構造化な出力と,バックエンドインフラの決定論的でスキーマ準拠な入力の間に構造的な不整合が存在する。
- LLMとバックエンドの不整合を解消し,信頼性と安全性を確保した自律エージェントシステムの構築を目指す。
- 本フレームワークは,認知ブループリントと実行エンジンを分離することで,言語非依存性,監査可能性,モジュール性を提供。
- エージェントの実行モデルを潜在的な推論空間を持つ拡張されたPOMDPとして定式化し,生物学的エピソード記憶システムに着想を得た階層的メモリ統合アーキテクチャを導入。
- 安全性を確保するため,事後フィルタリングではなくポリシー投影による制約多様体形式を定義し,自己進化フレームワークとランタイム最適化により効率化を実現。
SLAを考慮したデバイス-RAN-クラウド間の分散LLM推論 [cs.NI, cs.AI]目的:デバイス,RAN,クラウドにわたる分散LLM推論におけるSLA(サービス品質)確保
- AI技術の組み込みが進む中,リアルタイム処理が求められるRAN近傍での高速推論が重要となっている。
- 異種環境での推論は,リアルタイム処理の遅延や,既存の基地局処理への影響が課題となっている。
- RAN環境下でのSLAを満たすLLM推論の実現可能性と,最適なモデル選択に関する検討を行う。
- オンデバイスでの推論は数秒を要し,リアルタイム要件を満たせないことが確認された。
- RANエッジでは,モデルの量子化により0.5秒以内のSLAが達成可能だが,非量子化モデルでは遅延が発生した。
- クラウド環境では,WAN経路の遅延により0.5秒のSLAは困難だが,1.0秒以内であれば達成可能であった。
静的なベンチマークから動的なプロトコルへ:LLMの推論能力評価のためのエージェント中心テキスト異常検知 [cs.CL, cs.AI, cs.LG]目的:LLMの推論能力を評価するための動的なベンチマークプロトコル
- 大規模言語モデルの性能評価は不可欠であり,その進化を正確に捉える必要がある。
- 従来の評価は静的データセットに依存しており,スケーラビリティと進化するモデル能力への対応が課題である。
- エージェント間の相互作用を通して動的に難易度を調整し,より高度な評価を可能にすること。
- エージェント中心のベンチマークプロトコルは,教師エージェント,オーケストレーターエージェント,学生エージェントが反復的に問題を作成,検証,解決する。
- このプロトコルは,静的データセットでは見過ごされがちな,LLMの論理的推論におけるコーナーケースの誤りを明らかにすることが示された。
- モデル間ペアワイズ性能や,初期問題とオーケストレーター最終問題間の進捗など,複数の評価軸の重要性が提唱された。
認知能力の解放と知覚・論理トレードオフの分析 [cs.AI]目的:多言語マルチモーダル大規模言語モデルの認知能力向上と知覚・論理のトレードオフの解明
- マルチモーダルAIは,人間のように多様な情報を統合し理解することが求められ,その応用範囲は広い。
- 既存モデルは,特定の地域や言語への適応が難しく,地域固有の文化的背景や言語的特徴に対応できない場合がある。
- 本研究は,東南アジア地域に特化したモデルを開発し,知覚と論理のバランスを最適化することで,この問題を解決する。
- MERaLiON2-Omni (Alpha)は,東南アジア地域に特化した100億パラメータの多言語マルチモーダル大規模言語モデルである。
- モデルは,知覚(System 1)と推論(System 2)の能力を分離・統合する学習パイプラインを用いて,効率的な訓練を達成した。
- 評価の結果,推論能力は抽象的なタスクの性能を向上させる一方で,低レベルの知覚処理において不安定性(時間ずれや視覚の過解釈)を引き起こすことが明らかになった。
拡散シュレディンガー橋を用いたドメイン間強化学習におけるダイナミクスのギャップ解消 [cs.LG, cs.AI]目的:ドメイン間強化学習における,ダイナミクス変化に対する転移可能な方策の学習
- 強化学習は,自律的な意思決定を可能にする重要な技術であり,ロボット工学やゲームなど幅広い分野で応用が期待される。
- ドメイン間強化学習では,ターゲットドメインの環境とのインタラクションや報酬の利用が制限されることが課題である。
- 本研究は,ソースドメインでの学習を通して,ターゲットドメインにおけるダイナミクス変化に適応可能な方策を学習することを目指す。
- 提案手法BDGxRLは,拡散シュレディンガー橋を用いてソースドメインの遷移をターゲットドメインのダイナミクスに整列させる。
- 報酬調整メカニズムにより,状態遷移に基づいて報酬を推定し,整列されたサンプルとの一貫性を確保する。
- MuJoCoベンチマーク実験において,BDGxRLは最先端手法を凌駕し,ダイナミクス変化に対する優れた適応性を示した。
物理駆動型エージェントフレームワークによる自動光学的設計 [cs.LG, cs.CV]目的:自動光学的設計のための物理駆動型エージェントフレームワーク
- 光学的設計は高精度なイメージングに不可欠であり,高度な専門知識が求められる。
- 従来の設計手法は非凸最適化問題を抱え,人的な経験と知識に依存する傾向が強い。
- 大規模言語モデルの知識を活用し,専門知識を持たないユーザーでも光学的設計を可能にする。
- 提案手法は,従来の最適化アルゴリズムや他の言語モデルと比較して,優れた性能を示すことが実験的に確認された。
- OptiDesignQAという包括的なデータセットを構築し,古典的なレンズ系と自動設計による新規構成を含めることで学習と評価を可能にした。
- 物理法則に基づいた報酬システムと,レンズの完全化を通じて,言語モデルに光学的専門知識を注入した。
オフライン強化学習のためのマルチスケール自己回帰生成:MAGE [cs.IR, cs.LG]目的:オフライン強化学習における複雑な軌道分布のモデリング
- 強化学習は,複雑なタスクの自律的な学習を可能にする重要な技術である。
- オフライン強化学習では,長期的なタスクにおける報酬の希薄性が課題となる。
- マルチスケールな軌道モデリングにより,長期的な報酬が少ない環境下での性能向上を目指す。
- MAGEは,マルチスケールな自己エンコーダとトランスフォーマーを用いて,階層的な軌道表現を学習する。
- MAGEは,複数の時間分解能で軌道の時間的依存性を効果的に捉え,一貫性と制御可能性を備えた軌道を生成する。
- 5つのオフライン強化学習ベンチマークにおいて,MAGEは15のベースラインアルゴリズムを上回る性能を示した。
推論駆動型マルチモーダルLLMによるドメイン汎化 [cs.AI]目的:ドメイン汎化問題における,推論能力を活用したロバストな予測
- 深層学習の応用範囲拡大には,未知のドメインへの汎化能力が不可欠である。
- 既存手法は主に視覚特徴の不変性を重視しており,推論能力の活用が十分ではない。
- マルチモーダルLLMの推論能力を活かし,ドメインシフトに対するロバスト性を向上させる。
- 本研究では,新たに構築したDomainBed-Reasoningデータセットを用いて,ドメイン汎化における推論の役割を体系的に分析した。
- RD-MLDGは,マルチタスククロストレーニングと自己アラインメント推論正則化により,推論の最適化と意味の保持を両立する。
- 標準的なDomainBedデータセットでの実験により,RD-MLDGが最先端の性能を達成し,推論がドメイン汎化に有効であることが示された。
TradeFM:取引フローとマーケット・マイクロストラクチャーのための生成基盤モデル [cs.LG, cs.AI, q-fin.CP, q-fin.TR]目的:取引フローおよびマーケット・マイクロストラクチャーの表現学習
- 金融市場の理解と予測は経済活動の根幹であり,その高度化が求められている。
- 既存モデルは資産固有の調整が必要で,異なる市場への汎用性が低いという課題があった。
- 市場マイクロストラクチャーの普遍的な構造を捉え,汎用性の高いモデルを構築すること。
- TradeFMは,9000以上の株式から得られた数十億件の取引イベントから学習した5億2400万パラメータのTransformerである。
- スケール不変な特徴量と汎用的なトークン化スキームにより,資産固有の調整を不要とし,異なる市場への適用を可能にした。
- TradeFMによるシミュレーションは,金融リターンの特徴である裾の重さ,ボラティリティのクラスター化などを再現し,既存モデルより分布誤差が2〜3倍低い結果を示した。
非線形多視点CCAにおける証明可能な部分空間識別 [cs.LG]目的:非線形正準相関分析における部分空間の識別
- 多視点データ解析は,様々な分野で共通の潜在的要因を抽出する上で重要である。
- 非線形CCAは,データの複雑な関係性を捉えることができるが,識別可能性が課題となる。
- 本研究は,多視点CCAにおける識別可能性を数学的に保証し,共通部分空間を特定することを目指す。
- 適切な事前分布とスペクトル分離条件の下で,多視点CCAはペアワイズに相関する信号部分空間を識別できることが示された。
- 3つ以上の視点がある場合,本手法は全ての視点で共有される共同相関部分空間を分離し,視点特有の変動を取り除くことが証明された。
- 経験的交差共分散の集中度をスペクトル摂動理論を用いて具体的な部分空間誤差境界に変換することで,有限サンプルの一貫性保証が確立された。
UPath:トポロジーの多様性に強いグリッドベース経路探索の汎用プランナー [cs.AR, cs.NI, cs.LG, cs.AI]目的:グリッドベース経路探索のための汎用的なヒューリスティック予測モデル
- 経路探索はロボット工学やゲームAIなど,多様な分野で不可欠な技術である。
- 既存の学習ベース手法は,訓練データとテストデータの分布が一致することを前提としている。
- 未知の環境にも対応可能な汎用的な経路探索ソルバーの開発を目指す。
- 本研究で提案する手法は,A*アルゴリズムの計算量を最大で2.2倍削減することに成功した。
- 異なる分布のデータセットを用いた評価においても,最適解からのコストの誤差は平均3%以内に収まった。
- 学習可能なソルバーとして初めて,未学習のタスクにおいても高い性能を達成した。
GRAIL:圧縮ネットワークに対する線形再構成による事後補償 [cs.CL, cs.LG]目的:圧縮されたネットワークの精度回復
- 深層モデルの圧縮は,ハードウェアに優しく,メモリと推論コストを大幅に削減する。
- 過度な圧縮は精度低下を招き,ラベル付きデータ不足や学習コストにより事後学習が困難。
- 少量のキャリブレーションデータを用いて,入力-出力挙動を線形再構成し精度低下を補償する。
- GRAILは,データフリーおよびデータ認識プルーニングやフォールディングのベースラインと比較して,実用的な圧縮において一貫して精度またはパープレキシティを向上させる。
- この手法は,選択器に依存せず,勾配やラベルを必要としない数回のフォワードパスのみでデータに対応する。
- グラム行列がほぼ恒等行列の場合,古典的なプルーニングまたはフォールディングを再現し,チャネル間の相関が弱いことを示す。
大規模言語モデルにおける安全かつプライバシー保護された知識消去に向けて [cs.LG, cs.AI, cs.CR, cs.DC]目的:大規模言語モデルの安全かつプライバシー保護された知識消去手法
- 大規模言語モデルの普及に伴い,プライバシー保護とモデルの柔軟性が重要課題となっている。
- 従来の知識消去手法では,サーバーのパラメータやクライアントの忘却セットの共有が必要となる場合があり,プライバシー侵害のリスクがある。
- サーバーとクライアント双方の情報を開示せずに知識消去を可能とする手法の開発。
- 提案手法MPUは,サーバー側モジュールであるPre-ProcessとPost-Processを用いることで,プライバシー保護と知識消去性能の両立を実現した。
- 実験結果から,MPUはノイズのないベースラインと同等の知識消去性能を示し,10%のノイズ下では平均的な性能劣化が1%以下に抑えられた。
- 一部のアルゴリズムでは,1%のノイズ下でノイズのないベースラインを上回る性能も確認された。
感情的推論のための反射的強化学習:マルチモーダル大規模言語モデルにおけるEMO-R3 [cs.AI, cs.CV]目的:マルチモーダル大規模言語モデルにおける感情的推論能力の向上
- 人間の感情は複雑であり,その理解はAIにとって不可欠な課題である。
- 既存手法では,感情の主観性や文脈を捉えきれず,汎化性能が低い。
- 視覚情報とテキストの一貫性に基づいた,感情的推論の再評価メカニズムを確立する。
- EMO-R3は,構造化された感情的思考を通じて,モデルの段階的な感情推論を支援する。
- 反射的な感情的報酬により,モデルは視覚とテキストの一貫性に基づいて推論を再評価する。
- 複数の感情理解ベンチマークにおいて,EMO-R3は解釈可能性と感情知能を大幅に向上させた。
プロキシマルポリシー最適化のためのアクター・クリティック事前学習 [cs.LG]目的:アクター・クリティック事前学習によるサンプル効率の向上
- ロボティクス分野において,強化学習は自律学習を可能にする重要な手法である。
- 強化学習は環境とのインタラクション回数が多く必要であり,ロボティクスへの適用を制限する課題がある。
- 本研究は,アクターとクリティック両方の事前学習を通じて,サンプル効率を改善することを目的とする。
- 提案手法は,15のシミュレーションされたロボット操作・移動タスクにおいて評価された。
- アクター・クリティック事前学習は,事前学習なしと比較して,平均で86.1%サンプル効率が向上した。
- また,アクターのみの事前学習と比較しても,30.9%のサンプル効率改善が確認された。
見る,行動する,適応する:パーソナライズされたVLM誘導エージェントによる教師なしクロスドメイン視覚適応のための能動的知覚 [cs.FL, cs.CV, cs.AI]目的:教師なしクロスドメイン視覚適応のための能動的知覚パラダイム
- 汎用画像ドメインで高性能な知覚モデルは,屋内シーンのような新しい環境では性能が低下する。
- 従来のファインチューニングは,既存知識の破棄や高コストなアノテーションを必要とする。
- 知覚モジュール自体を適応させるのではなく,エージェントの展開方法を適応させることで問題を解決する。
- 提案手法Sea$^2$は,知覚モジュールを固定し,ダウンストリームのラベルを必要とせず,スカラー知覚フィードバックを用いてエージェントを情報のある視点へと導く。
- VLMを2段階の学習パイプラインで低レベルの姿勢制御器に変換し,屋内シーンの探索を体系的に行う。
- 視覚的接地,セグメンテーション,3Dボックス推定タスクにおいて,それぞれ13.54%,15.92%,27.68%の性能向上をReplicaCADデータセットで示した。
ReasonX:説明に対する宣言的推論 [cs.CC, cs.CY, cs.LG]目的:機械学習モデルの説明に関する推論手法
- 機械学習の信頼性向上は重要であり,説明可能性は不可欠な要素である。
- 既存のXAI手法は抽象度の不足,インタラクティブ性の低さ,記号的知識の統合不足が課題である。
- 線形制約を用いた宣言的推論により,これらの課題を解決し,より高度な説明性を提供する。
- ReasonXは,線形制約の理論に基づく演算子の閉じた代数における表現(またはクエリ)を用いて,決定木の説明を提供する。
- ユーザーは,背景知識や常識を線形制約として表現し,抽象度の異なる推論を可能にする。
- 混合整数線形計画法(MILP)を用いて,事実と対照的な事例の特徴量を分析し,ReasonXの有効性を検証した。
