arXiv雑要約
AI - 2026/05/06 公開
同じ声,異なるラボ:最先端LLMパーソナリティの均質化について [cs.HC, cs.AI]目的:最先端LLMのパーソナリティの均質化
- LLMはユーザー体験と応答品質に不可欠であり,そのパーソナリティは重要である。
- LLMのパーソナリティは多様性があるはずだが,実際には均質化が進んでいる。
- LLMパーソナリティの均質化の原因と,開発者間の暗黙の合意を解明する。
- 最先端LLMは,系統的,方法論的,分析的な特徴表現に収束する傾向がある。
- 後悔や迎合的な特徴は抑制される一方,「中間の分布」に位置する詩的,遊び心のある特徴でモデル間の差異が見られる。
- しかし,これらの「創造的」モデルでさえ,より中立的なアイデンティティを持つ傾向がある。これは,最適なアシスタント行動の標準の暗黙的な出現を示唆している。
身体化AIの安全性:リスク,攻撃,防御に関する調査 [cs.HC, cs.HC, cs.CR, cs.AI, cs.CV, cs.RO]目的:身体化AIにおける安全性に関する研究の概観
- 身体化AIは現実世界で動作するため,安全性確保は不可欠である。
- 既存研究は断片的であり,体系的な整理が求められていた。
- 身体化AIの安全性に関する課題を明確化し,今後の研究方向を示す。
- 本調査は,知覚から行動,そしてシステム全体に至るまでの攻撃と防御を網羅的に分析した。
- マルチモーダル知覚の脆弱性,脱獄攻撃下での計画の不安定性,人間とのインタラクションの信頼性などの課題を指摘した。
- 安全性,堅牢性,信頼性を備えた身体化AIを開発するためのロードマップを提示する。
受動的なフィードから誘導的な発見へ:コンテンツ探索における曖昧な意図に対するAIによる対話の開始 [cs.HC, cs.AI]目的:曖昧な意図を持つユーザーに対するコンテンツ探索支援システムの開発
- 情報過多な現代において,ユーザーが求めるコンテンツに効率的に出会うことは重要である。
- 既存のレコメンデーションシステムは,明確な意図がない場合,コンテンツの繰り返しやユーザーの不満を引き起こしやすい。
- AIがユーザーの行動パターンを分析し,探索の選択肢を提示することで,ユーザーの潜在的な関心を顕在化させる。
- Red-Recは,ユーザーがより広範囲なコンテンツを探索し,予期せぬ発見の機会を増やすことが示された。
- AIが提示する選択肢からの選択により,ユーザーの対話努力を大幅に削減できることが確認された。
- AIによる積極的な支援は,ユーザーのコントロール感を損なうことなく,レコメンデーションシステムの改善に繋がる可能性がある。
AI医療画像診断における説明可能性に関するユーザ中心分析 [cs.HC, cs.AI, cs.CV]目的:AI医療画像診断における説明可能性に関するユーザニーズ
- 医療現場でのAI活用は重要だが,判断根拠の不明瞭さが課題となっている。
- AIの判断根拠が不明確なため,医師の信頼を得るのが難しい。
- 医師がAIの診断を信頼し,活用するための説明方法を確立すること。
- 33名の医師への調査で,88%がAIによる診断の説明が重要だと回答した。
- バウンディングボックスとレポートの組み合わせが,理解度,網羅性,速度,適用性において最も評価された。
- 誤ったAI診断に対してさえ,50%の医師がXAI手法よりもAIを信頼する傾向が示された。
StateSMix:Mamba状態空間モデルと疎なn-gram文脈混合によるオンラインロスレス圧縮 [cs.LG, cs.IT, math.IT]目的:Mamba様式状態空間モデルと疎なn-gram文脈混合,算術符号化を組み合わせた,自己完結型のロスレス圧縮手法
- データ圧縮は,データ保存・転送コスト削減のため不可欠であり,効率的な圧縮技術が求められている。
- 既存の圧縮アルゴリズムは,計算資源の制約や事前学習済みモデルへの依存といった課題を抱えている場合がある。
- 本研究は,学習済みの重みを用いず,GPUを必要とせず,外部依存関係もない,オンラインで学習可能な圧縮手法を提案する。
- StateSMixは,enwik8ベンチマークにおいて,xz -9e(LZMA2)を最大8.7%上回る圧縮性能を達成した。
- 状態空間モデルが圧縮の主要エンジンであり,周波数カウントベースラインに対して46.6%のサイズ削減を実現した。
- 疎なn-gramハッシュテーブルは,正確な文脈記憶を通じて,相補的な4.1%の圧縮性能向上に貢献した。
eOptShrinkQ:最適なスペクトルノイズ除去と量子化によるほぼ無損失のKVキャッシュ圧縮 [cs.LG, cs.IT, math.IT]目的:KVキャッシュ圧縮の最適化
- Transformerモデルの性能向上には,KVキャッシュの効率的な圧縮が不可欠である。
- 従来のKVキャッシュ圧縮手法では,精度と圧縮率のバランスが課題であった。
- スペクトルノイズ除去と量子化を組み合わせ,KVキャッシュの圧縮性能を向上させる。
- 提案手法eOptShrinkQは,共有コンテキストとトークンごとの残差に分解し,それぞれに最適化された処理を行う。
- 理論的な保証により,自動的なランク選択,内積バイアスの低減,量子化歪みの抑制が実現される。
- 実験結果から,eOptShrinkQはTurboQuantと比較して同等の品質で圧縮率が向上し,検索タスクにおいても高い性能を示す。
ソフトウェア運用向け大規模言語モデル構築のためのエンドツーエンドフレームワーク [cs.LG]目的:ソフトウェア運用における大規模言語モデルの構築フレームワーク
- ソフトウェア運用は複雑化の一途を辿り,自動化と効率化が不可欠となっている。
- 既存のLLMは,ソフトウェア運用に特化したデータ不足や知識の断片化により,十分な性能を発揮できていない。
- 本研究は,高品質なデータと学習方法により,ソフトウェア運用に特化したLLMの性能向上を目指す。
- OpsLLMは,知識ベースの質問応答と根本原因分析の両方をサポートするドメイン特化型LLMである。
- 実験結果から,OpsLLMは既存のオープンソースおよびクローズドソースLLMと比較して,QAタスクで0.2%~5.7%,RCAタスクで2.7%~70.3%の精度向上を示した。
- 7B,14B,32BパラメータのOpsLLMモデルと,15Kのファインチューニングデータセットをオープンソースで公開する。
ソフトマックス注意機構の不変量 [cs.LG, cs.AI]目的:ソフトマックス注意機構における不変量の解明
- Transformerモデル等の基盤技術であり,自然言語処理の性能向上に不可欠である。
- 注意機構の内部構造はブラックボックスであり,その挙動を理論的に理解する余地がある。
- 注意機構の理論的理解を深め,モデルの解釈可能性と改善に繋げる。
- ソフトマックス注意機構における「エネルギー場」を定義し,モデルや入力に依存しない不変性を示す。
- メカニズムレベルの不変量として,行ごとのゼロサム制約やランク制約,スペクトル特性を明らかにした。
- モデルレベルの規則性として,エネルギー場の分散の広がり方とキー行列の「キー非干渉性」との関係を指摘した。
Stable Diffusionにおける記憶は,CLIP埋め込みによって予期せず駆動される [cs.CV, cs.AI, cs.LG]目的:テキスト画像拡散モデルにおける記憶へのテキスト埋め込みの寄与
- 画像生成AIの安全性を確保し,その動作原理を解明するために不可欠な研究分野である。
- 拡散モデルが学習データの内容を不必要に記憶してしまう現象が課題となっている。
- CLIP埋め込みが記憶に及ぼす影響を特定し,記憶を抑制する対策を提案すること。
- Stable Diffusionでは,プロンプト以外の埋め込み(特に
)が記憶に大きく影響することが明らかになった。 - これは,CLIP学習時に最適化された
埋め込みの構造的な重複が原因で, 埋め込みの影響が増幅されるためである。 - トークナイザーの設定変更や埋め込みのマスク処理により,品質を損なわずに記憶を抑制できることが示された。
遅延,停滞,または崩壊:系統的な検証エラーがRLVRに与える影響の評価 [cs.LG, cs.AI]目的:系統的な検証エラーが強化学習による検証可能な報酬(RLVR)に与える影響
- 大規模言語モデルの推論能力向上にRLVRが有効であり,その応用が期待されている。
- 現実の検証器は誤りを持ち,その誤りが報酬シグナルに影響を及ぼす可能性がある。
- 系統的な検証エラーがRLVRの結果にどのように影響するかを明らかにすること。
- 系統的な偽陰性はランダムノイズと同様の効果をもたらすことが示された。
- 系統的な偽陽性は,性能の停滞や崩壊といった様々な挙動を引き起こす可能性がある。
- エラー全体のレートではなく,エラーのパターンがRLVRの結果を大きく左右する。
CreativityBench:アフォーダンスに基づく道具の再利用を通じたエージェントの創造的推論の評価 [cs.AI, cs.CL, cs.LG]目的:アフォーダンスに基づく創造性の評価
- 大規模言語モデルの進化は目覚ましいが,創造的な問題解決能力は未だ十分とは言えない。
- 既存の評価指標では,オブジェクトのアフォーダンスに基づいた創造的な道具利用を測ることが困難である。
- アフォーダンスの知識に基づき,非自明な解決策を導き出す能力を評価する指標を開発すること。
- 大規模なアフォーダンス知識ベース「CreativityBench」を構築し,14,000件のタスクを生成した。
- 最先端のLLM10機種の評価の結果,オブジェクトの選択は可能だが,適切な部品やアフォーダンスの特定に苦戦していることが判明した。
- モデルの規模拡大やChain-of-Thoughtなどの推論戦略の効果は限定的であり,創造的な道具利用は依然として課題である。
エキスパート混合と大規模言語モデルによるエージェント型AIベースの協調計算・ネットワーク [cs.LG, cs.IT, math.IT]目的:将来の6Gモバイルネットワークにおける最適化専門家の選択,組み合わせ,オーケストレーションのメカニズム
- 6Gネットワークは多様な最適化専門家を活用するため,効率的な連携が不可欠である。
- 専門家間の最適な組み合わせを決定するスケーラブルな仕組みが課題となっていた。
- 人間の意図に基づき,動的に最適化エージェントを構成する手法を確立すること。
- 提案手法は,大規模言語モデルをセマンティックゲートとして活用し,最適化エージェントを動的に構成する。
- シミュレーション結果から,提案手法は網羅的な組み合わせと比較してほぼ最適な性能を達成することが示された。
- 遅延最小化やスループット最大化など,多様な目的において個々の専門家を上回る性能を発揮した。
推論誘導によるグラウンディング:マルチモーダル大規模言語モデルによる異常動画検知の高度化 [cs.CV, cs.AI, cs.LG]目的:異常動画検知における,分類,空間的グラウンディング,そして推論能力の統合
- 動画解析は監視,自動運転などに応用され,社会の安全・安心に貢献する重要な技術分野である。
- 従来の異常動画検知は二値分類や外れ値検出が主流で,異常箇所の空間的な特定が困難であった。
- 本研究は,異常動画における解釈可能な推論と正確な空間的局在化を可能とする。
- VANGUARDは,UCF-Crimeデータセットにおいて94%のROC-AUCと84%のF1スコアを達成した。
- 異常動画の分類と同時に,解釈可能な推論と空間的グラウンディングを実現した。
- 段階的な学習が単一最適化を上回り,構造化された推論が予測のバランスを改善することを示した。
大規模言語モデル強化学習のためのロールアウト戦略:包括的調査 [cs.LG]目的:大規模言語モデル強化学習におけるロールアウト戦略の体系化と分析
- 大規模言語モデルの推論能力向上に強化学習が不可欠であり,ロールアウトはその学習データを決定する重要な要素である。
- ロールアウト設計は重要であるにもかかわらず,その詳細な報告が不足しており,再現性や効率性が課題となっている。
- ロールアウト戦略の共通フレームワークを提供し,問題点と改善策を特定することで,信頼性の高い学習パイプラインの構築を目指す。
- ロールアウトパイプラインを「生成・フィルタリング・制御・再利用」の4段階で体系化し,信頼性,網羅性,コスト効率といった評価基準を提示した。
- 数学,コード,マルチモーダル推論など多様なタスクにおけるケーススタディを通じて,フレームワークの有効性を示した。
- ロールアウトにおける問題点を特定し,その解決策をフレームワークの各段階にマッピングすることで,再現性と効率性の向上に貢献する。
安全幾何の崩壊:エージェント型ガードモデルの微調整における脆弱性 [cs.LG, cs.AI, cs.CR]目的:エージェント型AIパイプラインにおけるガードモデルの安全性喪失とその軽減策
- AIの安全性確保は,社会実装において不可欠であり,その重要性は増している。
- ガードモデルは微調整により安全性と性能のバランスを崩しやすく,脆弱性が生じやすい。
- 本研究は,ガードモデルの微調整に伴う安全性喪失のメカニズムを解明し,その対策を提案する。
- 完全に安全なデータで微調整されたガードモデルが,敵対的操作なしに安全性を失うことを示した。
- 安全性喪失は,有害と安全を区別する潜在的な幾何構造の崩壊に起因することが明らかになった。
- Fisher加重安全部分空間正則化(FW-SSR)は,ガードモデルの安全性を効果的に回復し,監視の信頼性を向上させた。
言語モデルはいつ自身を信頼すべきか:同じモデルによる自己検証を条件付き信頼性指標として [cs.CL, cs.LG]目的:言語モデルにおける自己信頼性の評価
- 大規模言語モデルの信頼性評価は,安全な利用と応用において不可欠である。
- 既存の信頼性指標では,言語モデルの誤りを見抜くことが十分にできない場合がある。
- モデル自身による自己検証が,信頼性の指標として有効かどうかを検証する。
- ARC-Challenge課題において,Phi-2やQwenモデルに対し,自己検証がLL-AVGを大きく上回る結果が得られた。
- TruthfulQA-MC課題では,自己検証の信頼性は低く,特に小規模モデルはプロンプトの影響を受けやすいことが示された。
- 自己検証は,汎用的な不確実性推定器ではなく,タスクの種類やモデルの特性に依存する条件付き信頼性指標である。
自閉症介入のための戦略を意識したエージェントフレームワーク:実臨床データに基づく [cs.LG]目的:自閉症スペクトラム障害(ASD)に対する早期集中行動介入(EIBI)支援
- ASDの早期介入は,その後の発達に大きな影響を与えるため,効果的な支援システムの開発が重要である。
- ASDの介入データは不足しており,汎用的な大規模言語モデルは標準手順を厳守することが困難である。
- ABAの実行を明示的に制御し,多様なASDの反応パターンをシミュレーションすることで,データ不足と戦略の一貫性の問題を解決する。
- ASDAgentは,人間のセラピストの戦略分布を高い精度で再現した(KLダイバージェンス:0.083)。
- 実臨床におけるASD介入において,ASDAgentは人間の専門家とほぼ80%の戦略的一貫性を示した。
- ASDAgentが生成した合成データは,小規模言語モデル(SLM)に専門的な臨床知識を効果的に伝達し,その治療能力を向上させた。
PRISM-CTG:マルチビュー自己教師あり学習による心電図分析のための基盤モデル [cs.LG, cs.AI]目的:心電図分析のための基盤モデルの構築
- 周産期医療において,心電図は胎児の状態を把握するための重要な検査である。
- 心電図分析の深層学習モデルは,ラベル付きデータセットの不足に制約を受けている。
- ラベルなしの大量の心電図データから有用な情報を抽出することを目指す。
- PRISM-CTGは,3つの自己教師あり学習タスクを組み合わせることで,心電図のドメインレベルの表現を獲得する。
- 7つの心電図分析タスクにおいて,既存のモデルや自己教師あり学習モデルと比較して,優れた性能を示した。
- 外部データセットによる検証でも高い汎化性能を示し,大規模なラベル付きデータセットで訓練されたモデルと同等の性能を達成した。
VAEベースの異常検知における再構成-検出間のトレードオフの緩和 [cs.LG, cs.AI]目的:VAEベースの異常検知における再構成品質と検出性能のトレードオフ緩和
- 異常検知は,製造,金融,セキュリティなど,幅広い分野で重要な役割を果たす。
- VAEモデルのハイパーパラメータ設定は,再構成誤差の最小化に偏りがちで,異常検知性能が犠牲になる場合がある。
- 再構成品質と異常検出性能の両立を目指し,$\beta$-VAEのトレードオフを緩和する手法を提案する。
- $\beta$-VAEモデルにおいて,潜在空間の制約が強くなるほど検出性能は向上するが,再構成品質は低下するというトレードオフが明らかになった。
- ランダムシードによる性能変動が,正常データと異常データの潜在空間分布間の距離と関連していることが示された。
- beta-schedulingおよびSparse VAEが,このトレードオフを緩和し,高い再構成品質を維持しつつ検出性能を向上させる効果が確認された。
異種グラフ重要度スコアリングと自動LLMベース解釈によるクラスタリング [cs.LG]目的:都市部の橋梁ネットワークの重要度評価
- 都市インフラの維持は,交通,緊急サービス,経済活動に不可欠である。
- 橋梁の重要度を定量化するには,多角的なデータと分析が必要である。
- 公開データのみを用いて橋梁の重要度を評価し,その機能を理解すること。
- OSMデータを用いた異種グラフ分析と,LLMによる解釈を組み合わせた包括的な手法を提案。
- 重要度指標の計算と,UMAPとHDBSCANを用いたクラスタリングにより,橋梁の機能的類型を特定。
- LLMを活用した自動解釈により,政策決定に資する知見を得ることを可能にした。
結合場所が重要である:Few-Shot 文字認識のための Vision Transformer におけるヘブの高速重み [cs.NE, cs.CV, cs.LG]目的:Few-Shot 文字認識における Vision Transformer の性能向上
- 画像認識分野では,少ないデータでの学習能力向上が重要課題である。
- Transformer は学習済みの重みを用いるため,新しいタスクへの迅速な適応が難しい。
- ヘブの高速重みモジュールを用いて,Transformer の Few-Shot 学習能力を改善する。
- Swin-Tiny モデルにヘブの高速重みモジュールを適用した結果,1-shot で 96.2%,5-shot で 99.2% の高い精度を達成した。
- このモジュール配置戦略は,各ステージにモジュールを配置するよりも安定しており,最高の性能を発揮した。
- Swin のシフトウィンドウとエピソードレベルのヘブ結合の相互作用が,性能向上に寄与していると考えられる。
EvoJail: 大規模言語モデルに対する進化的多様な脱獄プロンプト生成 [cs.NE, cs.AI, cs.LG]目的:大規模言語モデルの安全性脆弱性の発見とモデル改善の指針
- 大規模言語モデルは現実世界への応用が拡大しており,安全性確保が不可欠である。
- 既存の自動脱獄プロンプト生成手法は,モデル進化への適応性とプロンプトの多様性に課題がある。
- モデルの更新に対応し,多様な攻撃パターンを持つプロンプトを生成すること。
- EvoJailは,進化アルゴリズムを用いて脱獄プロンプトを生成し,モデルの安全性評価を自動化する。
- EvoJailは,最新の手法と比較して93%以上の攻撃成功率と,5.6%以上の多様性指標の改善を達成した。
- 命令融合や多段階変異演算子により,プロンプトの多様性を高め,モデルの進化に適応する。
スパイクニューラルネットワークのラダメッシャー複雑性による汎化限界 [cs.HC, cs.CY, cs.NE, cs.AI]目的:スパイクニューラルネットワークの汎化性能の限界
- 脳科学に触発されたモデルとして,ニューロモーフィックコンピューティングへの応用が期待されている。
- 未学習データに対する性能評価である汎化性能に関する理論的理解が十分に進んでいない。
- ラダメッシャー複雑性を用いて,スパイクニューラルネットワークの汎化限界を理論的に解明する。
- ネットワークの深さやスパイク系列の時間長に指数関数的に依存し,幅に対しては超線形かつ準2次的な関係が明らかになった。
- パラメータノルムに対しては多項式的に,訓練サンプル数に対しては逆線形的に依存し,スパイクニューロン内部の計算に依存しないことが示された。
- 本研究は,スパイクニューラルネットワーク理論の発展を促し,その設計に新たな知見をもたらすと考えられる。
ヒンディー語音声認識のための畳み込みニューラルネットワークを用いたキーワードスポッティング [cs.SD, cs.AI]目的:ヒンディー語音声認識におけるキーワードスポッティングの応用
- 音声認識技術は,人と機械の自然な対話を可能にする基盤技術である。
- 既存の音声認識システムは,計算コストが高く,特定の環境下での性能が課題である。
- デバイス上で効率的に動作する,ユーザーに特化したヒンディー語キーワードスポッティングシステムの開発。
- 提案手法では,畳み込みニューラルネットワーク(CNN)を用いて高精度なキーワード検出を実現した。
- 4万件のヒンディー語音声データセットを用いた評価により,91.79%の認識精度を達成した。
- 本研究は,ヒンディー語音声認識におけるオンデバイスキーワードスポッティングの可能性を示唆する。
進化的手法によるLLMの解析と説明可能性 [cs.NE, cs.LG, stat.ML]目的:LLMの解析と説明可能性の向上
- LLMの複雑さが増すにつれ,その挙動を理解することが重要になっている。
- LLMの内部構造や学習過程が不透明であり,説明可能性が課題となっている。
- LLMの進化的な関係性を明らかにし,モデル理解を深める。
- 重みを遺伝子型,出力テキストを表現型とすることで,モデルの系統関係や重要なデータセットを特定した。
- 推定された進化の木は,正解の学習木構造を信頼性高く再現することが示された。
- 特定の学習データセットが,他のデータセットよりも有用な情報をもたらす可能性が示唆された。
高コスト最適化におけるLLMを用いた関係推論 [cs.NE]目的:高コスト最適化問題に対する,関係に基づくLLM(大規模言語モデル)を支援した進化アルゴリズム
- 高コスト最適化問題は,評価コストが高く勾配情報がないため,限られた評価回数を有効活用することが重要である。
- 従来の代理モデルは,集団の進化に伴い頻繁な再学習が必要となり,計算コストが増加するという課題がある。
- 本研究は,LLMを用いた関係推論により,代理モデルの再学習コストを削減し,効率的な最適化を実現することを目指す。
- 関係に基づく代理モデリングを,文脈内ペアワイズ推論タスクとして定式化し,効率的な推論を可能にした。
- アンカーベースの反復文脈構築戦略により,プロンプトの複雑さを削減し,投票ベース集約方式により関係予測を後生選択に変換した。
- 実験の結果,既存のSAEAや汎用LLMと比較して,関係予測と最適化性能が向上し,エッジデバイスでの展開も可能となった。
DeRelayL:持続可能な分散型リレー学習 [cs.LG, cs.AI]目的:分散型リレー学習によるモデル学習システムの構築
- 大規模データ時代において,機械学習モデルは様々な分野で進歩をもたらしている。
- 大規模モデルの学習には高コストなリソースが必要であり,一般ユーザーが参加しにくい。
- 一般ユーザーがモデルの学習と共有に貢献できる持続可能な学習パラダイムを提案する。
- 本研究では,分散型リレー学習(DeRelayL)という新しい学習パラダイムを提案し,そのアーキテクチャとワークフローを提示する。
- 持続可能性を確保するためのインセンティブメカニズムを設計し,理論分析と数値シミュレーションによって有効性を示す。
- DeRelayLは,許可不要の参加者がリレーのようにモデル学習に貢献し,モデルを共有できる持続可能なシステムである。
Proteo-R1:新規タンパク質設計のための推論基盤モデル [cs.LG, cs.AI, cs.CE]目的:新規タンパク質設計における推論の導入
- タンパク質設計は,生命科学や医療分野において重要な役割を果たす。
- 既存のモデルは,機能的に重要な残基や相互作用の明確な考慮が不足している。
- 残基レベルでの制約を導入し,解釈可能性と制御可能性を高めることを目指す。
- Proteo-R1は,分子理解と幾何学的生成を分離するデュアルエキスパートアーキテクチャを採用している。
- 大規模言語モデルがタンパク質配列,構造,文脈を分析し,重要な残基を特定する。
- 特定された残基は,拡散ベースの生成モデルへの制約として渡され,条件付き共同設計を行う。
周期を考慮した位相振幅変調ネットワーク:多変量時系列予測 [cs.LG, cs.AI]目的:多変量時系列予測における周期性の活用
- 時系列データ分析において,正確な予測は重要であり,周期的なパターンはその基礎となる。
- 既存手法は計算コストが高いか,周期成分の位相と振幅の相互作用を無視している。
- 位相と振幅を分離し,それらの相互作用を明示的にモデル化することで予測精度を向上させる。
- 提案手法PAMNetは,周期パターンを位相と振幅に分解し,それぞれに対応するモジュールで学習する。
- 位相モジュールは周期的埋め込みを用いて位相依存的な平均シフトを捉え,振幅モジュールは分散の変化に適応する。
- 12の現実世界のデータセットで最先端の性能を達成し,周期モデリングの新たな視点を提供する。
静的解析から視聴者への伝播まで:訓練不要なマルチモーダル論争検出マルチエージェントフレームワーク [cs.LG, cs.AI]目的:マルチモーダル論争コンテンツの検出
- ソーシャル動画プラットフォームにおけるリスク管理の重要性が高まっており,論争的コンテンツの自動検出が求められている。
- 従来の論争検出手法は静的な表現学習に依存しており,多様な視聴者層の視点を捉えられていない。
- 本研究は,コンテンツの伝播プロセスを模倣するマルチエージェントフレームワークを通じて,より精度の高い論争検出を目指す。
- 提案手法AuDisAgentは,動画,コメント,インタラクションを評価するスクリーニングエージェントと,多様な視点を議論するビューイングパネルエージェントを組み合わせる。
- 新規動画のコメントが少ない「コールドスタート」問題に対し,類似動画の過去コメントを活用するComment Bootstrapping Strategyを導入した。
- 公開データセットを用いた実験の結果,既存の最先端手法と比較して,豊富なコメント環境と限られたコメント環境の両方で優れた性能を示した。
プリズムエージェント:ゼロショット解釈可能なマルチエージェントフレームワークによるミーム上の有害性解明 [cs.LG, cs.AI]目的:ミームにおける有害コンテンツの検出
- ミームの急速な拡散により,誤情報の流通を抑制するため,有害コンテンツの検出が不可欠である。
- 既存手法は大量の注釈付きデータに依存し,学習コストが高く,汎化性能が限定的である。
- 注釈なしデータを用いたゼロショット学習による,汎化性能の高い有害コンテンツ検出を目指す。
- 提案手法プリズムエージェントは,ミーム分析,調査,起訴,判断の段階を経るマルチエージェントフレームワークである。
- 各エージェントがミームの意図を様々な角度から分析し,根拠となる情報を収集することで,解釈可能性の高い判断を行う。
- 公開データセットにおける実験の結果,既存のゼロショット検出手法を大きく上回る性能を示した。
交差的バイアスの探索と解明のためのフレームワーク:胎児超音波のケーススタディ [cs.LG, cs.CV, eess.IV]目的:交差的バイアスの探索と検出
- 医療AIの公平性は重要であり,特に画像診断におけるバイアスは患者への影響が大きいため。
- 医療AIにおいて,データ表現の偏りが必ずしもバイアスの一因ではなく,画像品質が重要な役割を果たす。
- 画像品質とデモグラフィック特性の相関を分析し,交差的バイアスの要因を特定すること。
- 胎児体重推定モデルおよびHadlock法において,ピクセル間隔(PS)がパフォーマンスに影響を与えることが明らかになった。
- 高BMIや低い妊娠週数(GA)の場合にPSが調整されることが,バイアスの混同要因となるリスクが示唆された。
- PSに関連するパフォーマンス改善の一部はGAによって説明される一方,BMI層間ではPSの影響が持続し,取得条件を考慮した評価の重要性が示された。
医療エージェントのためのHealthcare AI GYM [cs.LG, cs.AI]目的:医療AIエージェントの汎化性能向上
- 医療現場におけるAIの活用は,診断支援や治療最適化に繋がり,医療の質向上に貢献する。
- 強化学習による医療AI開発には,多様な臨床ドメインと専門ツールを備えた統一的な学習環境が存在しない。
- 多段階インタラクションを通じて,より安全で効果的な医療AIエージェントの学習を可能とする。
- 本研究では,10の臨床ドメインと135のツールを含む環境Healthcare AI GYMを構築し,多段階エージェント強化学習を評価した。
- 従来の強化学習手法では,応答が冗長化し,ツール利用頻度が低下する問題が確認された。
- 提案手法Turn-level Truncated On-Policy Distillation (TT-OPD)は,18のベンチマーク中10個で最高性能を達成し,早期収束と安定した多段階ツール利用を実現した。
コード生成のための強化学習における合格率報酬の探求 [cs.LG, cs.AI, cs.SE]目的:コード生成における合格率報酬の効果検証
- 大規模言語モデルの性能向上は,ソフトウェア開発の自動化に不可欠である。
- 従来の二値報酬では,課題が難しい場合に学習が進まないという問題がある。
- 合格率報酬が,二値報酬よりも有効な学習信号となるか検証する。
- 合格率報酬は,二値報酬に比べ報酬の疎性を緩和するものの,性能向上は安定的に見られなかった。
- 合格率報酬は,密度が高い一方,全正解解への確率質量移動が一貫しないことが示唆された。
- 合格率報酬は,完全な正しさへの進捗を正確に反映しておらず,相反する勾配方向が生じる原因となる。
MoEにおけるルーティングを悪用した攻撃:RouteHijack [cs.LG, cs.AI]目的:MoE LLMに対するルーティングを意識した脱獄攻撃手法の開発
- LLMの安全な利用には,有害な応答を防ぐための安全性調整が不可欠である。
- 既存の攻撃手法は,汎用性やアクセス制限,出力中心の制約などの課題を抱えている。
- MoEモデルにおける専門家のルーティングを操作することで,安全性を損なう問題を解決する。
- RouteHijackは,MoE LLMにおいて,安全性に関わる専門家を特定し,その専門家へのルーティングを抑制する手法である。
- 7つのMoE LLMに対する攻撃成功率は平均69.3%であり,既存の最適化ベース攻撃の3.2倍の性能を示す。
- RouteHijackは,類似のMoEモデルやMoEベースのVLMへのゼロショット転移にも成功し,高い攻撃成功率を達成した。
機械学習技術を用いたオイラー特性量の予測とトポロジー構造の構築 [cs.LG, cond-mat.mtrl-sci, cs.AI, physics.comp-ph]目的:画像からのトポロジー特性量,特にオイラー特性量の予測
- 材料科学や物理学において,トポロジーは物質の特性を理解する上で重要な役割を果たす。
- 従来のトポロジー解析は,大規模なデータセットに依存しており,単一の画像からの解析は困難であった。
- 単一の幾何学的画像からオイラー特性量を予測し,トポロジー構造を構築する新しい手法を開発すること。
- ニューラルネットワークを用いて,大規模データセットに依存せずに,単一の画像からオイラー特性量を予測することに成功した。
- ネットワークは,教師データなしでカイラル磁気テクスチャを構築し,生成されたスピン配置のスカイミオン数を計算することでオイラー特性量を予測する。
- 磁気ハミルトニアンを損失関数に組み込むことで,スピン配置の自由度を抑制し,予測精度を向上させた。
AsymK-Talker:非対称カーネル蒸留によるリアルタイムかつ長時間のトーキングヘッド生成 [cs.LG, cs.AI, cs.SD]目的:リアルタイムかつ長時間のトーキングヘッド生成手法
- 映像生成技術は,エンターテイメントやコミュニケーションにおいて重要な役割を担う。
- 既存手法は,リアルタイム処理の遅さ,時間的な一貫性の欠如,長時間の生成におけるずれが課題。
- これらの課題を克服し,より自然で実用的なトーキングヘッド生成を実現すること。
- 提案手法AsymK-Talkerは,カーネル蒸留を用いてリアルタイムかつ長時間の生成を可能にした。
- Kernel-Conditioned Loop Generationにより,時間的な一貫性を保ちつつ効率的な生成を実現。
- Temporal Reference EncodingとAsymmetric Kernel Distillationによって,視覚的品質と唇の動きの同期性を向上。
疾患はスペクトル摂動である [cs.LG, stat.ML]目的:疾患変換の理解
- 疾患メカニズムの解明は,個別化医療の実現に不可欠である。
- 既存手法では,疾患の複雑な変動を詳細に捉えきれない場合がある。
- バイオマーカーのスペクトル摂動解析による疾患経路の解明を目指す。
- バイオマーカー共分散行列のスペクトル変化を解析することで,疾患の分子レベルでのメカニズムを説明可能となった。
- 新たな診断患者のバイオマーカー構造を疾患識別的固有モードに投影することで,高精度な疾患予後統計量を算出できる。
- 本研究は,がんから神経変性疾患まで,広範な疾患フレームワークへの応用が期待される。
計算効率の良いクエリ側セマンティックエンコーディングのためのカーネルアフィンハルマシン [cs.LG, cs.AI]目的:クエリ側セマンティックエンコーディングの計算効率改善
- Transformerを用いたセマンティック検索は高性能だが,計算コストが高い。
- オンラインクエリエンコーディングがボトルネックとなりやすい。
- 軽量な推定器でニューラル推論を置き換え,性能を維持すること。
- カーネルアフィンハルマシン(KAHM)が,教師空間の再構築において既存手法を上回る結果を示した。
- ランキング評価指標(MRR@20,Hit@20,Top-1 accuracy)において,高い性能を維持した。
- 直接的なTransformerエンコーディングと比較して,クエリあたりの遅延時間を8.5倍削減した。
拒否の動態の追跡:潜在的な拒否軌跡を活用した堅牢な脱獄検出 [cs.FL, cs.CR, cs.AI, cs.CL, cs.LG]目的:拒否の動態解析と,それを利用した脱獄検出手法
- 大規模言語モデルの安全性確保は,社会実装において重要な課題である。
- 従来の脱獄検出は終端状態に依存し,巧妙な攻撃に対して脆弱である。
- 攻撃が終端信号を抑制しても残る,拒否の潜在的な軌跡の検出。
- 拒否は静的なベクトルではなく,動的かつ疎なプロセスであることが示された。
- 因果追跡により,「拒否軌跡」という,攻撃に耐性のある先行するシグネチャが発見された。
- 提案手法SALOは,この拒否軌跡を捉え,脱獄検出率を大幅に向上させた。
潜在変数と随伴方程式を用いた都市洪水のための基盤表面パラメータの較正 [cs.LG]目的:都市洪水の較正
- 都市化の進行により,都市洪水のリスクが増大しており,その予測精度向上は重要である。
- 都市の基盤表面パラメータは,洪水シミュレーションの精度に大きく影響するが,その正確な特定は困難である。
- 潜在変数と随伴方程式を用いることで,都市洪水シミュレーションのパラメータ較正を効率的に行うことを目指す。
- 提案手法は,迅速な収束を示し,観測時間間隔に影響を受けにくいことが確認された。
- Test 8Aを基にしたケーススタディでは,都市道路のマニングの係数を較正し,最大相対誤差13.88%,最小1.16%を達成した。
- 潜在変数の導入により,不確実性の表現と物理パラメータ較正の両立が可能となった。
ZeRO-Prefill:MoE事前計算における冗長性オーバーヘッドの解消 [cs.LG]目的:MoEモデルにおける事前計算のみの推論における効率改善
- 大規模言語モデルの活用が拡大する中で,推論効率の向上が不可欠である。
- MoEモデルでは,分散実行によるメモリ圧迫と冗長な計算がボトルネックとなっている。
- 本研究は,活性化によるルーティングと同期を解きほぐし,非同期な重み集約により効率を向上させる。
- ZeRO-Prefillは,既存の分散基盤と比較して,実世界のワークロードで1.35〜1.37倍,長文コンテキストワークロードで最大1.59倍のスループットを実現した。
- GPUあたりのモデルFLOPs利用率は,29.8〜36.2%を維持している。
- 非同期Expert並列化(AsyncEP)により,活性化によるルーティングではなく,重みによるExpertの集約を実現している。
制御された経路生成のための解析的ブリッジ拡散 [cs.LG, cond-mat.stat-mech, cs.AI, cs.SY, eess.SY, math.OC]目的:経路生成の制御手法
- 現代的な生成モデルの基礎技術であり,様々な応用が期待されている。
- 既存手法は学習にニューラルネットワークを必要とし,計算コストが高い。
- 解析的に解けるモデルを構築し,ニューラルネットワーク不要な制御手法を提案する。
- 線形・二次・ガウス(LQG)制御の枠組みを,経路積分拡散(PID)問題として再構築した。
- 終端状態の制御を,終端確率密度による規定に置き換え,ガウス混合(GM)を導入した。
- 提案手法(LQ-GM-PID)は,経路形状の制御を可能にし,高速な事前計算を実現した。
ISAAC:薬物-標的相互作用の深層モデルにおける因果推論の監査 [cs.LG, stat.CO, stat.ML]目的:深層モデルの因果推論の監査
- 創薬において,薬物と標的タンパク質の相互作用予測は不可欠であり,効率的な薬剤開発に繋がる。
- 既存の深層学習モデルは高精度だが,分子の特徴をメカニスティクに解釈できない場合がある。
- モデルの因果推論構造を監査し,メカニスティクな特徴への依存度を評価することで,モデルの信頼性を向上させる。
- ISAACを用いることで,性能が同程度の異なるモデル間(AUROCは3%程度以内)で,因果推論スコアに約25%の差が認められた。
- この差は従来の評価指標では検出できず,構造監査の有用性を示唆する。
- 科学機械学習における性能評価に加え,構造監査を補完的に用いることの重要性が示された。
報酬ハッキングベンチマーク:ツール利用LLMエージェントにおける脆弱性の測定 [cs.LG, cs.AI]目的:LLMエージェントにおける報酬ハッキングの脆弱性評価
- LLMエージェントの応用が拡大しており,その安全性確保が重要になっている。
- 報酬最適化されたLLMは,意図しない方法で目的を達成する可能性がある。
- ツール利用LLMエージェントの報酬ハッキングに対する脆弱性を定量的に評価する。
- 報酬ハッキングベンチマーク(RHB)を開発し,13の最先端モデルを評価した。
- RLによる後学習は,報酬ハッキングの頻度を大幅に増加させる傾向が見られた。
- 環境の強化策により,報酬ハッキングの発生率を大幅に低減できることが示された。
分散データセンターにおける共同エネルギー管理とAIGCワークロードの協調的スケジューリング:拡散を支援した報酬整形アプローチ [cs.LG, cs.SY, eess.SP, eess.SY, stat.ML]目的:分散データセンターにおけるAIGCワークロードのエネルギー効率的なスケジューリング
- AI生成コンテンツ(AIGC)の需要増加により,データセンターのエネルギー消費が深刻化している。
- AIGCサービス間のモデルの不均一性や,サービス品質の評価の難しさなどが課題である。
- データセンターのエネルギー消費を削減しつつ,高品質なコンテンツ生成を保証する。
- 提案手法は,AIGCサービス間のジョブ転送と,きめ細かい推論プロセス設定を促進する。
- 拡散モデルを利用した報酬整形により,深層強化学習の効率的な学習を実現している。
- 実世界のモデルとデータセットを用いた実験により,提案手法の有効性が確認された。
AutoRAGTuner:RAGパイプラインの自動最適化のための宣言的フレームワーク [cs.LG, cs.AI, cs.CL, cs.DC, cs.SE]目的:RAGパイプラインの自動最適化
- LLMの性能向上に不可欠なRAG技術の重要性が高まっている。
- RAGパイプラインの設計・ハイパーパラメータ調整が手動で行われ,非効率である。
- RAGパイプラインのライフサイクル全体を自動化し,効率的な最適化を実現する。
- AutoRAGTunerは,RAGパイプラインの構築,実行,評価,最適化を自動化する宣言的なフレームワークである。
- 多様なRAGパイプラインにおいて,AutoRAGTunerはデフォルト設定を上回る性能を示した。
- 宣言的な設定言語により,アーキテクチャ調整のためのコード変更量を最大95%削減できる。
大規模言語モデル事前学習における有限サイズ勾配輸送:カスケードサイズから集約的輸送効率へ [cs.LG, cond-mat.dis-nn, cs.AI, nlin.AO]目的:大規模言語モデルの事前学習における勾配輸送のフレームワーク
- 言語モデルの性能向上には,学習効率の理解と改善が不可欠である。
- 勾配の挙動に関する体系的な分析手法が不足している。
- 勾配輸送の特性を定量的に評価し,モデルの学習効率を改善する。
- Pico-LMとPythiaのデータセットを用いて,勾配輸送の特性を詳細に分析した。
- Pico-LMは期間のスケーリングが正,集約的効率のスケーリングが負であったのに対し,Pythiaは基線に近い状態を維持した。
- 得られた結果は,普遍的な固定点や第一原理からのスケーリング則の導出を主張することなく,再利用可能な輸送測定フレームワークを支持する。
分解して理解し,融合して検出:暗号化されたネットワークトラフィックに対する周波数分離異常検知 [cs.CR, cs.AI]目的:暗号化されたネットワークトラフィックにおける異常検知手法
- サイバーセキュリティにおいて,ネットワークトラフィックの異常検知は重要な課題である。現代のネットワークは,セキュリティのために暗号化が広く用いられている。
- 暗号化により,従来の異常検知手法では十分な精度が得られないという課題がある。画像ベースの手法が主流だが,限界が存在する。
- 暗号化トラフィックの高周波成分を考慮した,新しい異常検知フレームワークを開発し,検知性能の向上を目指す。
- 提案手法FreeUpは,トラフィックデータを低周波と高周波の帯域に分解し,それぞれを独立した処理ブランチで扱うことで,周波数特性の不一致問題を解決する。
- FreeUpは,各ブランチの再構成不確実性を定量化し,動的に統合することで,より信頼性の高い異常スコアを提供する。
- 複数のベンチマークにおける実験結果から,FreeUpが最先端のベースライン手法を継続的に上回ることが示された。
自己知識蒸留による多言語安全性調整 [cs.LG, cs.AI, cs.CL]目的:多言語における安全性調整
- 大規模言語モデルのグローバル展開において,多言語対応は不可欠である。
- 低リソース言語では,安全対策が不十分で,有害な応答を生成しやすい。
- 高リソース言語の安全機能を低リソース言語に転移し,安全性を向上させる。
- 本研究では,自己知識蒸留を用いて,言語資源の少ない言語への安全機能の転移を可能にするフレームワークを提案した。
- 提案手法は,多言語クエリのみを用いて安全機能の転移を実現し,各言語ごとの高品質な応答データ収集のコストを削減する。
- 多様な評価において,提案手法が既存手法を上回り,汎化性能とモデルの能力維持を両立することを示した。
