arXiv雑要約
AI - 2025/12/22 公開
V-Agent:視覚言語モデルを用いたインタラクティブな動画検索システム [cs.CV, cs.AI, cs.IR, cs.MA]目的:視覚言語モデルを用いたインタラクティブな動画検索
- 動画データ利用の拡大に伴い,効率的な検索技術の重要性が高まっている。
- 従来のテキストベース検索では,動画の視覚的・聴覚的情報を十分に活用できていない。
- 視覚言語モデルを活用し,動画の内容をより適切に理解する検索システムの構築を目指す。
- 提案システムV-Agentは,視覚情報と音声情報を統合的に解析することで,動画検索の精度を向上させた。
- マルチエージェント構造により,ユーザの意図を理解し,対話的に検索結果を洗練することが可能となった。
- MultiVENT 2.0ベンチマークにおいて,ゼロショット学習で最先端の性能を達成し,実用的な応用が期待される。
テキスト検索の最適化:Ukkonenのアプローチに基づく新たなパターンマッチングアルゴリズム [cs.DS, cs.AI, cs.LG]目的:テキスト検索アルゴリズムの最適化
- 自然言語処理やバイオインフォマティクス等の分野において,大量のデータ処理には効率的なテキスト検索が不可欠である。
- 既存のアルゴリズムは,現代の巨大データセットに対応するには,複雑さと規模において限界がある。
- Ukkonenのアルゴリズムと新たな探索技術を組み合わせることで,テキスト検索の効率と実用性を向上させる。
- 本研究で提案する最適化手法は,線形時間・空間効率を実現し,Naive Search,KMP,Boyer-Moore等の既存手法を上回る性能を示す。
- 実験結果は,理論的な優位性を裏付けており,最適化されたSuffix Treeがゲノム配列中のパターン認識において100%の精度を達成することを示している。
- 本研究は,テキスト検索アルゴリズムの学術的知識を深めるだけでなく,その優れた資源効率性と信頼性により,実用的な価値も提供する。
Dion2:ミューオンにおける行列縮小の簡素な手法 [cs.LG, cs.DC]目的:ミューオン計算における行列縮小
- 最適化アルゴリズムの効率化は,機械学習モデルの学習速度向上に不可欠である。
- ミューオン最適化の直交化ステップの計算コストが,規模拡大に伴い課題となる。
- 行列縮小により直交化ステップのコストを削減し,ミューオンのスケーラビリティを向上させる。
- Dion2は,既存手法よりも簡素な行列縮小手法であり,各反復で一部の行または列を選択して直交化を行う。
- このサンプリング手続きにより,更新が疎になり,計算コストと通信コストが削減される。
- その結果,ミューオンのスケーラビリティが改善されることが示された。
BIONIX:デュアル信号EEGとEMG制御によるワイヤレス低コスト義手 [cs.LG, eess.SP]目的:低コストで直感的な制御が可能な義手の開発
- 義手は,上肢切断者の生活の質を向上させる上で重要な役割を果たす。
- 低資源地域では,高価な義手や複雑な制御システムが普及の障壁となっている。
- 安価で直感的な制御システムの開発により,義手の利用可能性を向上させる。
- EEGとEMGを組み合わせたデュアルモード制御システムを構築し,リアルタイムで多自由度制御を実現した。
- NeuroSky MindWave Mobile 2とMyoWare 2.0を用いて,それぞれ脳波と筋電を検出し,ESP32マイコンで処理した。
- 約240ドルの低コストで機能的なプロトタイプを製作し,低資源地域での利用可能性を示唆した。
樹種分類の高度化:TLS点群投影へのYOLOv8と説明可能なAIの応用から得られた知見 [cs.CV, cs.AI]目的:樹種分類の精度向上と,その判断根拠の解明
- 森林リモートセンシングにおいて,樹種の正確な識別は長年の課題であり,森林管理や資源評価に不可欠である。
- 近年,TLSや深層学習などの技術が導入されているが,分類の判断プロセスが不透明であり,信頼性に課題が残る。
- TLS点群投影における特徴と,YOLOv8による樹種識別との関係を解明し,判断根拠を明らかにすることを目指す。
- YOLOv8モデルを用いた検証の結果,平均精度96%(SD = 0.24%)を達成し,高い分類性能が確認された。
- Finer-CAM分析から,モデルは主にTLS投影における樹冠の特徴に基づいて樹種を識別することが示された。
- 特に,ヨーロッパアカマツ,スコットマツ,アメリカカラマツの識別には,幹の特徴がより頻繁に用いられていることが明らかになった。
知識ベース駆動型エンティティ集合のタクソノミック拡張のナビゲーション [cs.AI, cs.LO]目的:エンティティ集合のタクソノミック拡張を可能にするグラフ構造の効率的なナビゲーション
- エンティティ間の類似性認識は,人間と計算知能の双方にとって基盤となる重要な認知機能である。
- 既存のエンティティ集合拡張手法は,知識資源に内在する豊かなタクソノミック構造を十分に活用できていない。
- 大規模な拡張グラフの完全な構築を回避し,効率的な局所探索を可能にすることを目指す。
- 知識ベース駆動型拡張グラフにおいて,エンティティ集合間の比較可能性,非比較可能性,同一性の判定タスクを定式化した。
- 現実的な仮定の下で,これらの判定タスクは効率的に実装可能であることが示された。
- これにより,グラフ全体の構築を必要とせずに,拡張グラフの局所的,漸進的なナビゲーションが可能となる。
照明,カメラ,一貫性:キャラクター安定型AI動画ストーリーのための多段階パイプライン [cs.CV, cs.AI]目的:キャラクターの一貫性を保った長編の動画ストーリー生成手法
- 動画生成AIの発展は,エンターテイメントや教育など多岐にわたる分野への応用に期待されている。
- 現在のテキストから動画を生成するAIでは,長編動画におけるキャラクターの一貫性を維持することが困難である。
- 本研究は,キャラクターの視覚的特徴を固定することで,動画全体での一貫性を高めることを目指す。
- 提案手法では,まず大規模言語モデルを用いて詳細な制作スクリプトを生成する。
- 次に,スクリプトに基づき,テキストから画像を生成するモデルで各キャラクターの視覚的な基盤を作成する。
- キャラクターの視覚的特徴を固定する機構を取り除くと,キャラクターの一貫性スコアが大幅に低下することから,視覚的特徴の重要性が確認された。
- インドと西洋をテーマにした生成において,被写体の一貫性や動きの度合いに文化的な偏りが見られた。
SpIDER:空間情報に基づいた密な埋め込み検索によるソフトウェア課題局所化 [cs.SE, cs.LG]目的:ソフトウェア課題局所化のための密な埋め込み検索手法
- 大規模コードベースからの関連コード検索は,LLMベースのコーディングエージェントにとって不可欠である。
- 既存の埋め込み検索は,コードベースの探索が不十分で,そのグラフ構造を十分に活用できていない。
- コードベースのグラフ構造に基づいた探索により,より効率的なコード検索を実現すること。
- SpIDERは,LLMによるコードベースのグラフ探索を通じて得られた補助的な文脈を組み込んだ,改善された密な検索アプローチである。
- 実験結果から,SpIDERは複数のプログラミング言語において,密な検索性能を安定して向上させることが示された。
QSMOTE-PGM/kPGM:不均衡データセット分類のためのQSMOTEに基づくPGMおよびkPGM [cs.LG, quant-ph]目的:不均衡データセット分類における量子に触発された機械学習手法の性能評価
- 機械学習の分野では,高次元データに対する効率的な分類手法の確立が重要である。
- 従来の機械学習アルゴリズムは,不均衡データセットに対して性能が低下する問題がある。
- 量子に触発された手法を用いて,不均衡データセット分類の精度向上を目指す。
- PGMおよびkPGM分類器は,古典的なランダムフォレストと比較して一貫して高い性能を示した。
- PGMはステレオエンコーディングとn_copies=2で最高の精度(0.8512)とF1スコア(0.8234)を達成した。
- kPGMは,QSMOTEのバリアント間で競争力があり,より安定した動作を示した。
MemoryGraft:悪意のある経験検索によるLLMエージェントの永続的な侵害 [cs.CR, cs.AI, cs.LG]目的:LLMエージェントの長期記憶と検索拡張生成(RAG)における脆弱性の検証
- LLMエージェントは自律性を高めるが,その長期記憶の信頼性が重要となる。
- 従来のプロンプトインジェクションは一時的であり,RAGの毒物は事実知識に限定される。
- エージェントのパターン模倣ヒューリスティックを悪用し,悪意のある経験を記憶させることで,永続的な侵害を試みる。
- MemoryGraftは,エージェントの実行中に読み込む無害なアーティファクトを介して,悪意のある手続きテンプレートをRAGストアに組み込む。
- 類似タスクに遭遇すると,組み込まれた安全でないパターンが採用され,セッションを跨いで持続的な行動の変化を引き起こす。
- MetaGPTのDataInterpreterエージェント(GPT-4o使用)での検証により,少数の汚染レコードが良質なワークロードにおける検索結果の大きな割合を占めることが示された。
圧縮はルーティング:モジュール型言語モデルにおける内在的信号としての再構成誤差 [cs.LG]目的:大規模言語モデルの課題解決に向けた,再構成誤差に基づく新たなルーティング機構の提案
- 言語モデルの性能向上には,コンテキスト長,推論コスト,継続学習時の忘却といった課題克服が不可欠である。
- 既存のMoEアーキテクチャでは,ルーティング機構に明示的な分類器が必要となり,複雑性や解釈性の問題が生じている。
- 再構成誤差を内在的分布指紋として活用し,明示的なゲートネットワークなしで専門家モジュールを自動的にスケジュールすることを目指す。
- 87MパラメータのAutoencoderを訓練した結果,512トークンを8つの潜在ベクトルに圧縮する64倍の圧縮率を達成した。
- 再構成精度は,コードデータセットで99.47%と高い一方,Wikiテキストでは47.76%,ランダムなシーケンスでは0.57%に低下し,分布の違いが明確に示された。
- この結果から,再構成誤差が内在的分布指紋として有効であることが示され,新たなスケーラブルなモジュール型ニューラルネットワークの可能性が示唆された。
航空における視程予測のための物理情報を組み込んだ軽量機械学習 [cs.LG]目的:複数の気候条件下における航空機の視程短期予測の改善
- 航空安全と運用効率において,視程不良や降水現象の正確な予測は不可欠である。
- 既存の予測手法は計算負荷が高く,時間分解能が限られ,保守的なバイアスを持つことが多い。
- 本研究は,物理法則に基づいた特徴量エンジニアリングにより,軽量な機械学習モデルでこれを解決する。
- モデルは,手動による調整なしに,地域の物理過程を捉えることに成功した。
- 運用中のTAF予測と比較して,3時間以内の予測において検出率が2.5~4.0倍向上し,誤報は減少した。
- SHAP分析により,モデルがアドベクション,放射,沈降などの物理要因を暗黙的に再構成していることが明らかになった。
LLMにおける科学的汎用知能の探求:科学者志向ワークフローを用いた評価 [cs.AI, cs.CL, cs.LG]目的:科学的汎用知能の評価
- 科学的発見を加速化するため,AIの科学的探求能力向上は不可欠である。
- 既存の科学AIは,自律的な科学的探求を可能にする包括的なフレームワークに欠ける。
- LLMの科学的汎用知能を定量的に評価し,その能力向上に繋げる。
- 大規模言語モデル(LLM)は,科学者志向のタスクにおいて,未だ課題を抱えていることが示された。
- 深層調査ではステップごとの整合性はあるものの,正確な回答は限られている。
- 推論時間強化学習(TTRL)を用いることで,LLMの仮説生成における新規性が向上する可能性が示された。
PAACE:計画を意識した自動エージェントコンテキストエンジニアリングフレームワーク [cs.AI, cs.CL, cs.LG, cs.MA]目的:LLMエージェントにおけるコンテキストの最適化
- LLMエージェントの複雑なワークフローが増加しており,効率的なコンテキスト管理が不可欠である。
- 既存手法はエージェントの計画的な推論プロセスを考慮しておらず,コンテキストの精度低下やコスト増加を招く。
- 計画を意識したコンテキストエンジニアリングにより,エージェントの正確性と効率性を向上させることを目指す。
- PAACEは,計画構造分析と圧縮技術を用いて,LLMエージェントのコンテキスト負荷を大幅に削減することに成功した。
- AppWorld,OfficeBench,8-Objective QAなどのベンチマークテストにおいて,PAACEは既存手法を上回る精度を達成した。
- 蒸留されたPAACE-FTモデルは,教師モデルの性能を維持しつつ,推論コストを大幅に削減し,実用的な展開を可能にした。
情報理論的圧縮による適応型離散動画トークナイザー:InfoTok [cs.CV, cs.AI]目的:長動画シーケンス処理のための,正確かつ効率的な離散動画トークナイゼーション
- 動画データは情報量が膨大であり,効率的な処理が求められるため,動画表現の圧縮技術が重要である。
- 既存のトークナイザーは固定レートで圧縮するため,冗長性や情報損失が生じ,動画の複雑さに対応できない。
- 動画の情報密度に応じてトークン数を調整し,より効率的かつ正確な動画表現を可能にすることを目指す。
- 本研究では,情報理論に基づいた適応型動画トークナイゼーションフレームワークInfoTokを提案した。
- 既存手法が最適でないことを理論的に証明し,最適な表現長に近づく新たなELBOに基づくアルゴリズムを開発した。
- 実験結果から,InfoTokはトークン数を20%削減しつつ,性能を維持,あるいは向上させることが示された。
ターンPPO:エージェント型LLMにおけるマルチターンRLのためのPPOによるターンレベルの優位性推定 [cs.CY, cs.LG]目的:エージェント型LLMにおけるマルチターン強化学習の改善
- LLMエージェントの訓練に強化学習が有効であり,実世界での応用が期待される。
- 長期的推論が必要なマルチターンタスクにおいて,従来のGRPOアルゴリズムに課題がある。
- ターンレベルのMDPを用いてPPOを改良し,マルチターン環境での安定性と有効性を高める。
- WebShopとSokobanデータセットにおいて,ターンPPOは長期的推論の有無にかかわらずGRPOよりも優れた性能を示した。
- ターンPPOは,トークンレベルのMDPと比較して,ターンレベルのMDPに基づいたアプローチが有効であることを実証した。
- PPOはGRPOと比較して,よりロバストな学習が可能であることが示された。
予期せぬ知識:WikipediaとGrokipediaの検索レコメンデーションの監査 [cs.HC, cs.ET, cs.IR, cs.AI]目的:WikipediaとGrokipediaの検索エンジンの比較分析
- 情報探索における百科事典プラットフォームの重要性が高まっている。
- AI生成百科事典の登場により,既存のプラットフォームとの比較検討が不可欠となっている。
- 異なる百科事典プラットフォームにおける検索エンジンの挙動の差異を明らかにすること。
- WikipediaとGrokipediaの両プラットフォームにおいて,クエリと関連性の低い検索結果が頻繁に生成されることが確認された。
- 中立的な単語をクエリとして使用した結果,両プラットフォームは無害なクエリから予期せぬコンテンツを提示する傾向があることが分かった。
- 同じクエリに対して,両プラットフォームは異なるレコメンデーションセットを生成し,コンテンツカテゴリの提示方法に系統的な違いが見られた。
大規模言語モデルにおける女性の健康に関するベンチマーク [cs.CL, cs.AI, cs.LG]目的:女性の健康に関する大規模言語モデルの性能評価
- 多くの人々が健康情報をLLMに頼るようになり,その正確性が重要となっている。
- 女性特有の健康問題に関するLLMの性能評価が不足している。
- 女性の健康に関するLLMの弱点を明らかにし,改善に繋げる。
- 最新のLLM13機種を評価した結果,女性の健康に関するベンチマークで約60%の失敗率が確認された。
- 特に「緊急性の見逃し」は全モデルで課題であり,GPT-5などの新しいモデルでは不適切な推奨を避ける傾向が見られた。
- AIチャットボットは現時点では女性の健康に関する信頼できるアドバイスを提供する準備が不十分である。
敵対的VR:VR酔い検出と軽減の敵対的頑健性を評価するためのオープンソーステストベッド [cs.CR, cs.AI, cs.HC]目的:VR酔い検出と軽減の敵対的頑健性の評価
- VR技術の普及に伴い,VR酔いの軽減は没入感とユーザビリティ向上に不可欠である。
- 深層学習モデルは敵対的攻撃に脆弱であり,VR酔い検出の誤作動や軽減策の失敗を引き起こす可能性がある。
- 敵対的条件下でのVR酔い検出・軽減システムの頑健性を評価するためのテストベッドを構築し,実用性を検証する。
- 敵対的攻撃は,深層学習ベースのVR酔い検出モデルの出力を欺き,軽減策を妨害することが示された。
- TransformerベースのVR酔い検出モデルの精度は,C&W攻撃によって攻撃がない場合に比べて5.94倍低下した。
- 本研究で開発したオープンソースのテストベッドは,VR開発者や研究者によるVR酔い検出システムの評価を促進する。
GB-DQN:非定常強化学習のための勾配ブースト型深層Qネットワーク [cs.LG]目的:非定常環境下における深層強化学習の課題解決
- 強化学習は,複雑な制御問題において有効な手法である。
- 環境が変化する場合,既存の強化学習手法は性能が劣化しやすい。
- 環境変化への適応能力を高め,安定した学習を実現すること。
- 勾配ブースト型深層Qネットワーク(GB-DQN)は,モデルのドリフトに効果的に対処できる。
- GB-DQNは,各学習者が現在のアンサンブルのベルマン残差を近似するように訓練することで,環境変化に迅速に対応する。
- 実験結果から,GB-DQNはDQNや他の非定常環境下でのベースラインと比較して,回復速度,安定性,ロバスト性が向上することが示された。
エージェント型車両のセキュリティリスク:認知層およびクロスレイヤー脅威の体系的分析 [cs.AI, cs.SY, eess.SY]目的:エージェント型車両におけるセキュリティ脅威の分析
- 自動車分野におけるAI活用が進む中,安全性確保は喫緊の課題である。
- 既存のAIセキュリティフレームワークは,自動車のような安全性が重要なサイバーフィジカルシステムには不十分である。
- エージェント型車両特有のセキュリティリスクを構造的に分析する基盤を構築する。
- エージェント型車両の構成要素(パーソナルエージェント,ドライビング戦略エージェント)における脆弱性を特定した。
- 認知層だけでなく,知覚,通信,制御層からの攻撃がエージェント層に与える影響を分析した。
- 軽微な歪みが,ヒューマンドライバー車および自動運転車において,不適切な行動へと発展する可能性を示した。
UniRel-R1:知識グラフにおける関係性質問応答のための強化学習によるLLMの推論調整 [cs.AI]目的:知識グラフにおける関係性質問応答のための手法
- 知識グラフは,エンティティ間の関係性を構造的に表現し,高度な推論を可能にする重要な技術である。
- 従来のKGQAは単一エンティティへの回答に偏り,エンティティ間の関係性を捉えるのが課題であった。
- 関連性の高いサブグラフを効率的に特定し,情報量の多い回答を提供する。
- UniRel-R1は,サブグラフ選択,多段階グラフプルーニング,強化学習でファインチューニングされたLLMを統合したフレームワークである。
- 報酬関数は,コンパクトで具体的なサブグラフ,情報量の多い関係性,低次数の中間エンティティを促進するように設計されている。
- 実験により,UniRel-R1は接続性と報酬においてVanillaベースラインを大幅に上回り,未知のエンティティや関係にも有効であることが示された。
SFBD-OMNI:限られたクリーンサンプルによる損失のある測定復元のためのブリッジモデル [cs.LG]目的:損失のある測定の復元
- 現実世界では,完全なサンプル取得は困難であり,ノイズを含むサンプルの方が容易に収集可能である。
- ノイズサンプルが豊富でも,真の分布を復元するには情報損失を克服する必要がある。
- 少数のクリーンサンプルを利用し,分布の復元可能性を高めることを目指す。
- 提案手法SFBD-OMNIは,汚染されたサンプル分布を真の分布へマッピングするブリッジモデルに基づくフレームワークである。
- この手法は,ガウス分布以外の測定モデルにも対応可能であり,汎用性が高い。
- ベンチマークデータセットを用いた実験により,定量的・定性的に性能向上が確認された。
効率的な関数呼び出しのための動的なツール依存性検索 [cs.LG]目的:関数呼び出しにおけるツール選択の効率化
- 大規模言語モデルを活用したタスク自動化において,適切なツール選択が重要である。
- 既存のツール検索手法は静的入力に依存し,複雑なツール依存関係や文脈の変化に対応できない。
- 動的な文脈を考慮したツール検索により,誤ったツール選択を減らし,性能向上を目指す。
- 提案手法DTDRは,初期クエリと実行文脈の両方を条件とする軽量なツール検索手法である。
- DTDRは,関数呼び出しのデモンストレーションからツール依存性を学習し,計画の展開に合わせて適応的に検索を行う。
- 実験結果から,DTDRは最先端の静的検索手法と比較して,関数呼び出しの成功率を23%~104%向上させる。
構造化Chain-of-ThoughtによるテキストSQLへの知識蒸留 [cs.CL, cs.AI, cs.DB]目的:テキストSQLシステムの知識蒸留
- 企業レベルでのテキストSQLシステムの導入が課題であり,コスト,セキュリティ,性能のバランスが重要である。
- 小規模言語モデルは性能が低く,大規模言語モデルは高コストであるというジレンマが存在する。
- 構造化された推論表現を用いることで,より明確で信頼性の高い教師信号を提供し,SQL生成の精度向上を目指す。
- 構造化CoTを用いた知識蒸留により,非構造化CoT蒸留ベースラインと比較して絶対的な性能が8.1%向上した。
- エラー分析の結果,構文エラーの減少が性能向上に大きく貢献していることが示された。
- 構造化された論理的ブループリントを用いた推論指導は,小規模言語モデルにおける信頼性の高いSQL生成に有効である。
距離空間におけるk-NN規則の一貫性とナガタ次元 III [cs.CE, eess.SY, cs.SY, cs.LG]目的:完備分離距離空間におけるk-NN分類器の一貫性,強Lebesgue-Besicovitch微分特性,ナガタ次元の間の同値性証明
- 機械学習において,汎化性能の理論的保証は重要な課題である。距離空間における一貫性解析はその一環。
- k-NN分類器の一貫性は,空間の次元や測度論的性質に依存する。ナガタ次元の役割が不明確だった。
- k-NN分類器の一貫性からナガタ次元を導き出すことで,理論的枠組みの完成を目指す。
- k-NN分類器の一貫性,強Lebesgue-Besicovitch微分特性,ナガタ次元の間の最後の同値性が証明された。
- 本研究により,距離空間におけるk-NN規則の一貫性に関する長年の未解決問題が解決された。
- 先行研究における誤った主張を修正し,一貫性理論の信頼性を高めた。
トランザクション分析における文脈情報と自我状態のLLMエージェント行動における役割 [cs.MA, cs.AI]目的:トランザクション分析理論に基づいたマルチエージェントシステムにおける,文脈情報と自我状態の統合
- LLMエージェントは多様な分野で活用され,人間らしい行動が求められている。
- 既存のLLMエージェントは,深層心理や一貫性に欠け,人間らしい思考パターンを捉えられない。
- トランザクション分析理論と文脈情報検索を統合し,LLMエージェントのリアリティを高める。
- 提案システムでは,各エージェントを親・大人・子供の3つの自我状態に分割し,それぞれに知識構造と推論スタイルを持たせた。
- 自我状態は,文脈情報検索機構を通じて関連情報を取得し,応答プロセスを強化する。
- シミュレーション実験の結果,文脈情報検索の有効性が示され,心理学に基づいた構造の可能性が示唆された。
現実の脅威認識が対集団間紛争を駆動する:生成エージェントシミュレーションによる因果的・動的分析 [cs.RO, cs.CE, math.ST, stat.CO, stat.TH, cs.CL, cs.AI]目的:対集団間紛争の要因解明
- 紛争の原因理解は,社会の安定と平和構築に不可欠である。
- 物質的脅威と象徴的脅威の相互作用と優位性が不明確である。
- 現実的脅威と象徴的脅威が紛争に及ぼす因果関係を解明する。
- 現実の脅威は直接的に敵意を高めるのに対し,象徴的脅威の影響は限定的である。
- 象徴的脅威は,内集団バイアスを介してのみ敵意を高め,現実の脅威がない場合にのみ顕著となる。
- 友好的な集団間接触は紛争のエスカレーションを抑制し,構造的不均衡は多数派集団に敵意を集中させる。
ボットは静止しない:ボット行動の変化,時間的ドリフト,特徴構造の進化に関する縦断的研究 [cs.HC, cs.AI, cs.SI]目的:プロモーション用Twitterボットの行動特性の変化と,それらの関連性の変動
- ソーシャルボットはオンラインプラットフォームに深く浸透しており,その影響力は増大の一途を辿っている。
- 既存のボット検出システムは,ボットの行動を時間的に静止したものであると仮定している場合が多い。
- 本研究は,ボットの行動が時間と共に変化することを実証し,ボット検出システムの改善に貢献する。
- プロモーション用ボットの10個のコンテンツベースの特徴量の経時的な変化を分析した結果,全てが非定常であることが示された。
- 第2世代のボットは活動が活発でリンクを多く利用し,寿命の短いボットは集中的かつ反復的な活動を行う傾向が見られた。
- 世代間の特徴量の共起関係を分析した結果,ほとんどのペアが依存関係にあり,世代が新しくなるほど構造化された組み合わせを示すことが明らかになった。
低ランク補償による帯域幅効率の良い適応型Mixture-of-Experts [cs.LG]目的:帯域幅と精度のトレードオフの改善
- 大規模言語モデルの性能向上には,モデル容量の拡大が不可欠である。
- Mixture-of-Expertsモデルはメモリや帯域幅の制約が課題となる。
- 専門家ネットワークの効率的な活用と帯域幅削減を目指す。
- 提案手法は,Top-n専門家を用いた低ランク要素の転送と補償により,帯域幅効率を向上させる。
- オフローディングと組み合わせることで,GPUおよびGPU-NDPシステムにおいてスループットが改善される。
- 精度劣化を抑制しつつ,優れた帯域幅-精度間のトレードオフを実現する。
データを攪乱する:言い換えによる訓練データへのウォーターマーク付与 [cs.CL, cs.LG]目的:訓練データ検出手法
- LLMの性能向上には巨大なデータセットが不可欠であり,その著作権保護が重要である。
- インターネットから収集されたデータには,利用許諾や著作権に関する問題が存在する。
- LLMの訓練データにウォーターマークを付与し,不正利用を検出することを可能にする。
- SPECTRAは,訓練データ全体の0.001%以下でも信頼性の高い検出を可能にするウォーターマーク手法である。
- 言い換え生成時にスコアを調整することで,分布のシフトを抑制し,モデルへの影響を最小限に抑える。
- 訓練されたモデルのトークン確率とスコアモデルを比較することで,訓練データとしての利用を高い精度で識別できる。
大規模な推論モデルは,誤った思考を用いることで数学的タスクの精度を向上させることができるか [cs.DC, cs.LG, cs.AI]目的:数学的タスクにおけるエラー検出と回復能力の向上
- 大規模言語モデルの数学的推論能力は重要であり,その応用範囲は広い。
- 大規模言語モデルは初期段階のエラーに弱く,それが最終的な誤った回答につながりやすい。
- 誤った推論の学習を通して,エラーからの回復能力を高め,ロバスト性を向上させる。
- 意図的に誤りを含む推論データで学習させたモデルは,標準的な学習モデルと同等の精度を維持しつつ,エラーを含む問題において優れた性能を示した。
- 特に,推論エラーに関する学習は,計算エラーのみの学習よりも高いロバスト性向上に貢献した。
- 誤った推論に触れることで,精度を損なうことなくエラーからの回復能力を向上させることが示された。
対話トピック分割における粒度を意識した評価 [cs.HC, cs.CL, cs.AI]目的:対話トピック分割の評価手法
- 対話要約,検索,メモリ管理,会話の一貫性維持に不可欠な技術分野である。
- 従来の評価指標は厳密な境界一致に依存しており,実際の対話システムにおける性能を正確に反映できていない。
- 対話の粒度とセグメントの一貫性を重視した新たな評価基準を提案し,評価の信頼性を高める。
- 既存の対話分割ベンチマークにおける性能差は,モデルの質ではなく,アノテーションの粒度と境界ラベルの疎さに起因することが示された。
- 多くの報告された改善は,境界検出の向上というよりは,評価上の問題によるものであることが示唆された。
- トピック分割は単一の正解境界を予測するのではなく,適切な粒度を選択することとして捉えるべきである。
普遍人工知能における無知下の価値 [cs.AI]目的:広範な効用関数を許容するAIXI強化学習エージェントの一般化
- 人工知能の設計において,多様な価値観を組み込むことは重要である。価値判断は知能の振る舞いを決定する。
- エージェントの信念分布における仮説は有限の履歴しか予測できず,解釈の曖昧さが存在する。
- 不確実性の下での効用計算方法を確立し,よりロバストな意思決定を可能にすること。
- 半測度損失を総無知と解釈し,不正確確率理論からのショケ積分を用いて期待効用を計算する。
- 標準的な再帰的価値関数は,ショケ積分を用いた期待効用の特殊なケースとして導出される。
- 最も一般的な期待効用は,ショケ積分として特徴付けられないことが示された。
テンソルネットワークと回路の二乗化を二乗せずに実現する方法 [cs.LG, cs.AI]目的:テンソルネットワークおよび二乗回路の効率的な周辺化手法
- 機械学習において,確率分布の表現と推論は重要な課題であり,テンソルネットワークはその有力な手法の一つである。
- テンソルネットワークの二乗化は表現力を高める一方,計算コストが増大し,周辺化が困難になるという課題があった。
- 本研究は,二乗回路の効率的な周辺化を可能にし,計算コストを削減することを目的とする。
- 二乗回路をパラメータ化する新しい手法を提案し,テンソルネットワークに限定されない一般的なファクタライズにも適用可能であることを示した。
- 提案手法は,従来のテンソルネットワークの正準形における直交性の概念と回路における決定論的な最大化のアイデアに基づいている。
- 分布推定実験の結果,提案手法は表現力を損なうことなく,効率的な学習を可能にすることが示された。
計画の学習,学習による計画:サンプル効率的な意思決定のための適応階層型RL-MPC [cs.LG, cs.AI, cs.RO]目的:サンプル効率的な意思決定のための適応階層型強化学習モデル予測制御
- 複雑な環境下でのロボットの自律的な行動計画は,現実世界での応用において不可欠である。
- 従来の計画手法は,サンプル効率が悪く,複雑な問題に対して頑健な性能を発揮することが難しい。
- 強化学習とモデル予測制御を融合することで,サンプル効率とロバスト性を両立した計画手法を開発すること。
- 本研究では,強化学習とモデル予測制御を統合した新しい適応階層型RL-MPC手法を提案した。
- 提案手法は,レーシング,アクロバット,月着陸といった複数のドメインにおいて,既存手法と比較して高いデータ効率と性能向上を実証した。
- タスク成功率は最大72%向上,収束速度は2.1倍向上し,複雑な計画問題への適応性とロバスト性を示した。
論理パズル解法のAnswer Set Programmingに対するLLMの改善のためのソルバー・イン・ザ・ループフレームワーク [cs.CL, cs.AI, cs.CL]目的:論理パズル解法のAnswer Set ProgrammingにおけるLLMの改善
- 大規模言語モデルの応用範囲拡大に伴い,特定分野の言語に対するコーディング支援のニーズが高まっている。
- LLMは,初期学習時のデータ量の制約から,特定ドメイン言語のコード生成において課題を抱えている。
- ソルバーを活用したinstruction-tuningにより,LLMのASPコード生成能力を向上させることを目指す。
- 自然言語による問題記述と解のみを用いて,LLMをASPソルバーで指導するinstruction-tuning手法を提案した。
- 部分的なエンコーディングが解空間を狭めるASPの特性を利用し,ソルバーのフィードバックに基づいたデータセットを構築した。
- 構築したデータセットを用いた教師あり微調整と,ソルバー誘導探索により,2つのデータセットで一貫した改善が確認された。
UniCoMTE:ECGデータにおける時系列分類器の説明のための普遍的対向的フレームワーク [cs.LG, cs.AI]目的:時系列分類器の説明生成のための普遍的対向的フレームワーク
- 機械学習は時系列データ分析において高い性能を示すが,その解釈可能性が課題である。
- 深層学習モデルはブラックボックスであり,医療分野などでの信頼性と導入の妨げとなる。
- モデルの予測に影響を与える時系列の特徴量を特定し,解釈性を向上させる。
- UniCoMTEは,既存手法(LIME,SHAP)と比較して,より明確かつ適用可能な対向的説明を生成する。
- 生成された説明は簡潔で安定しており,人間の理解に沿ったものである。
- 本フレームワークは,深層学習モデルの解釈可能性を向上させ,実世界の時系列アプリケーションへの応用を促進する。
スキルライブラリを用いた自己改善エージェントのための強化学習 [cs.MS, cs.AI]目的:スキルライブラリによるエージェントの自己改善能力の向上
- 複雑な推論や多段階対話でLLMエージェントが注目される。継続的な改善・適応が課題。
- 既存のスキルライブラリはLLMプロンプティングに依存し,実装の一貫性が低い。
- 強化学習により,スキルライブラリを用いたエージェントの自己改善を促進する。
- SAGEは,類似タスクの連鎖を通してスキルを体系的に学習・蓄積する。
- AppWorld実験で,SAGEは既存手法を上回り,シナリオ目標達成率が8.9%向上した。
- SAGEは,インタラクションステップ数を26%削減し,トークン使用量を59%抑制した。
微分可能な物理モデルに基づく太陽光発電アレイの故障診断と定量化 [cs.LG, eess.SP]目的:太陽光発電アレイの故障診断と定量化
- 太陽光発電は再生可能エネルギー源として重要であり,安定稼働が求められる。
- 既存の故障定量化手法は,効率や解釈性に課題が残されている。
- 効率的かつ解釈可能な故障定量化手法を確立し,太陽光発電システムの信頼性向上に貢献する。
- 提案手法では,微分可能な高速故障シミュレーションモデル(DFFSM)を用いて,I-V特性を正確にモデル化する。
- DFFSMの勾配情報を活用し,Adahessianオプティマイザを用いた勾配ベースの故障パラメータ同定(GFPI)法を開発した。
- シミュレーションと実測データによる実験で,GFPIが高精度な定量化を実現し,I-V再構成誤差が3%以下であることを確認した。
Atom:モジュール再利用による効率的なオンデバイス動画-言語パイプライン [cs.LG, cs.MM]目的:動画-言語パイプラインの効率的なオンデバイス実行
- 動画と言語を組み合わせた処理は,動画検索やキャプション生成など多様な応用が可能である。
- モバイルデバイスでの実行にはモデルの重複読み込みや断片化が課題となり,効率性に乏しい。
- モジュール再利用により,モデル読み込みを削減し,並列実行による低遅延化を実現する。
- Atomは,動画-言語パイプラインを再利用可能なモジュールに分解し,効率的な実行を実現するシステムである。
- 一般的なスマートフォンで,Atomは非再利用ベースラインと比較して27~33%高速な実行を達成した。
- 性能低下は最小限(検索Recall@1で≤2.3,キャプションCIDErで≤1.5)であり,実用的なアプローチである。
モーメンタムを考慮した最適化による学習とモデル統合の架け橋 [cs.LG]目的:大規模ニューラルネットワークの学習とタスク固有モデルの統合における低ランク構造の活用
- 深層学習モデルの学習と統合は,性能向上に不可欠であり,効率的な手法が求められている。
- 学習と統合でそれぞれ独立して計算されるパラメータ重要度推定の冗長性が課題である。
- 学習過程で得られた情報を再利用し,効率的かつ原理に基づいたモデル統合を目指す。
- 提案手法は,既存の手法と同等のメモリ効率を維持しつつ,タスクの重要度をスコア化する。
- このスコアを用いて,事後Fisher計算なしでカーvatureを考慮したモデル統合を実現する。
- 自然言語理解のベンチマークにおいて,パラメータ選択性能が既存手法を上回り,多タスク統合においても優れた結果が得られた。
ネパール古ネパール文字遺産のデジタル化:古ネパール写本のための包括的HTRパイプライン [cs.LG]目的:古ネパール文字写本の自動文字認識パイプライン
- ネパール文化史の重要な記録である古ネパール文字遺産の保存が喫緊の課題である。
- 古ネパール文字はリソースが乏しく,自動文字認識の技術が未発達である。
- 古ネパール文字写本のデジタル化と検索性を向上させること。
- 提案するパイプラインは,古ネパール文字の文字誤り率4.9%を達成した。
- エンコーダー・デコーダーアーキテクチャとデータ中心的な手法を系統的に検討した。
- モデルの動作とエラーパターンを理解するために,デコード戦略とトークンレベルの混同を分析した。
医学画像における否定の影響:対照的言語画像事前学習の限界 [cs.LG]目的:医学画像検索における否定表現の処理性能の評価と改善
- 医療現場では,画像とテキストの対応付けが重要であり,AIによる診断支援への期待が高まっている。
- 既存のCLIPモデルは,否定表現の解釈に弱く,医療診断においては誤診のリスクがある。
- 否定表現を適切に処理することで,医学画像検索の精度向上と,より信頼性の高いAI診断支援を目指す。
- 否定表現を含むプロンプトでファインチューニングを行うことで,CLIPモデルの否定表現の処理能力が向上した。
- 一方で,肯定的なプロンプトに対する検索精度には若干の低下が見られた。
- トークンアトリビューションやt-SNE投影,アテンションヘッドアブレーション等の分析により,ファインチューニングがテキストエンコーダの表現に与える影響を詳細に把握した。
DiffeoMorph:微分可能なエージェントベースシミュレーションを用いた3D形状の変形学習 [cs.LG, cs.MA, cs.RO, q-bio.QM]目的:3D形状に変形を誘導するモルフォジェネシスプロトコルの学習
- 生物の形態形成は分散制御の好例であり,ロボティクスや物質科学への応用が期待される。
- 分散制御システムにおいて,精密な全体パターンを生成するメカニズムは未解明である。
- エージェント集団の協調行動を通じて,目標とする3D形状への変形を可能にする手法を開発する。
- DiffeoMorphは,エージェントの内部状態と近傍エージェントからの信号に基づいて位置と状態を更新する。
- 3Dゼルニケ多項式に基づく新しい形状マッチング損失関数を導入し,離散点群ではなく連続空間分布として形状を比較する。
- SO(3)不変性を強制するために,予測ゼルニケスペクトルを目標に最適に回転させるアライメントステップを組み込んだ。
LLMの高速学習のためのPrimal AveragingによるDiLoCoの平滑化 [cs.LG, cs.AI, stat.ML]目的:LLMの学習高速化のための最適化手法
- 近年,大規模言語モデル(LLM)の性能向上は目覚ましいが,学習コストが課題となっている。
- 既存の平均化に基づく最適化手法は,パラメータ数が多い場合にメモリ消費量が増加しやすい。
- Primal Averagingを一般化することで,メモリ効率と学習速度の改善を目指す。
- 提案手法Generalized Primal Averaging (GPA)は,DiLoCoと比較して一貫して高速な学習を実現した。
- GPAは,ハイパーパラメータの調整を簡素化し,メモリオーバーヘッドを削減することにも成功した。
- Llama-160Mモデルにおいて,GPAはベースライン(AdamW)の検証損失に到達するまでのステップ数を24.22%短縮した。
SDUM:汎用MRI再構成のためのスケーラブルな深層アンローリングモデル [cs.RO, cs.CV, cs.AI]目的:多様なMRIプロトコルに対応可能な汎用的な再構成手法の開発
- 臨床MRIは多様なプロトコルを包含し,高度な画像診断に不可欠である。
- 既存の深層学習再構成はプロトコルに特化しており,汎用性に課題がある。
- 異なるプロトコルへの適応性を高め,実用的なMRI再構成を実現する。
- SDUMは,パラメータ数と再構成品質の間に高い相関関係を示すスケーラビリティを有している。
- 単一のSDUMモデルが,複数のデータセットで最先端の結果を達成し,特定のタスクへの追加学習は不要である。
- 各コンポーネントの消去実験により,提案手法の有効性が確認された。
LLMを用いた不確実性下での仮説ランキング:ソロモノフ理論に着想を得て [cs.AI, cs.IT, math.IT]目的:不確実性下における予測のための仮説ランキング手法
- 現実世界の課題解決には,限られたデータから系統的に一般化する能力が不可欠である。
- 既存手法では,複数の候補解を評価する際に,精度と簡潔さのバランスが課題となっていた。
- アルゴリズム情報理論に基づく事前分布を用いて,信頼性の高い多仮説推論を実現する。
- 提案手法は,LLMが生成した仮説を簡潔さと予測適合度で重み付けすることで,不確実性を考慮した予測を可能にする。
- ベンチマークタスク(Mini-ARC)において,ソロモノフ重み付け混合モデルは,ノイズや不完全な仮説に対しても安定した出力を示した。
- ベイズモデル平均(BMA)と比較して,ソロモノフスコアリングはより均等に確率を分散させ,解釈性と信頼性を高める。
バイオセキュリティを意識したAI:ESMベースのバリアント予測に対するソフトプロンプト攻撃のエージェントによるリスク監査 [cs.CR, cs.LG, q-bio.QM]目的:ESMベースのバリアント予測モデルに対するソフトプロンプト攻撃の脆弱性の監査
- ゲノム情報に基づく創薬や個別化医療への応用が期待される一方,セキュリティ上の課題が顕在化しつつある。
- 既存のゲノムモデルは,悪意のあるプロンプトによる操作に対して脆弱である可能性が指摘されている。
- エージェントによる自動化されたリスク監査を通じて,ゲノムモデルの潜在的な脆弱性を明らかにすること。
- ESM2のような最先端のゲノムモデルでさえ,標的を絞ったソフトプロンプト攻撃に対して脆弱であることが示された。
- SAGEを用いることで,モデルの埋め込み空間のロバスト性を,モデル自体を修正することなく継続的に評価できることが確認された。
- 本研究は,臨床変異解釈などのバイオメディカル応用における,エージェントによるリスク監査の重要性を示唆する。
干渉グラフ上のマルコフ再帰的強盗問題における分散学習:安定したスペクトル共有のために [cs.LG]目的:干渉グラフにおける,無線通信ネットワークにおけるスペクトルアクセスと共有のための分散学習
- 無線通信ネットワークにおいて,スペクトル資源の効率的な利用は,通信容量の向上と干渉の低減に不可欠である。
- 従来のスペクトル共有手法は,動的な環境変化や干渉の影響を考慮しきれていない場合があり,安定的な性能を達成できない。
- 本研究では,安定性と干渉を考慮したチャネル割り当てを可能にする,分散学習アルゴリズムの開発を目指す。
- 提案手法SMILEは,干渉を考慮した分散学習により,効率的なチャネル探索と情報利用のバランスを実現する。
- SMILEは,最適な安定割り当てに収束し,完全な知識を持つオラクルと比較して対数的な後悔を達成することが証明された。
- シミュレーション結果は,多様なスペクトル共有シナリオにおいて,SMILEの堅牢性,スケーラビリティ,効率性を検証している。
