arXiv雑要約
AI - 2026/05/27 公開
長期的なユーザーインタラクションに基づく,具現化されたマルチモーダル大規模言語モデルエージェントの個別化 [eess.SY, cs.SY, cs.AI]目的:長期的なユーザーインタラクションを通じた,具現化されたマルチモーダル大規模言語モデルエージェントの個別化
- 現実世界でのタスク遂行において,単なる指示の追従や物体認識を超えた,より高度なパーソナライズされた支援が求められている。
- 従来のシステムでは,過去のインタラクションから得られる文脈を十分に活用できず,ユーザー固有のニーズに合わせた柔軟な対応が困難である。
- 過去のインタラクションから蓄積された文脈と視覚的概念を効果的に活用し,長期的な個別化を実現することを目指す。
- 提案手法POLARは,マルチモーダル知識グラフとエピソード記憶を活用し,過去のインタラクションを構造化して保存する。
- POLARは,関連する記憶を検索することで,現在の要求を解釈し,タスク実行を導くことで,より効果的な情報利用を可能にする。
- 実験結果から,特に複数回のインタラクションを必要とする場合や,ユーザー固有の文脈の更新を追跡する場合に,性能向上が確認された。
量子化されたキーが注意を奪う:ビデオ拡散におけるKVキャッシュ圧縮のためのバイアス補正 [cs.LG, cs.AI, cs.CV, cs.GR, eess.IV]目的:ビデオ拡散モデルにおけるKVキャッシュの量子化による品質劣化の原因究明と,そのバイアス補正手法
- ビデオ拡散モデルは長尺動画の生成に有用だが,計算コストとメモリ使用量が課題となる。
- KVキャッシュの量子化はメモリ削減に有効だが,注意機構の精度低下を招きやすい。
- 量子化ノイズによる注意重みのバイアスを補正し,量子化による品質劣化を抑制すること。
- 量子化されたキーが注意質量を奪う現象(Jensenバイアス)を特定し,その原因を分析した。
- 量子化ステップサイズとクエリノルムからバイアス補正値を計算する手法を提案し,計算オーバーヘッドを抑制した。
- 提案手法はINT2量子化時において,ほぼBF16相当の画質を達成し,INT4量子化をも上回る性能を示した。
VesselSim: 専門家による注釈なしでの3D血管セグメンテーション学習 [cs.CL, cs.CV, cs.AI]目的:3D血管セグメンテーションのための学習手法
- 血管疾患治療や手術計画において,画像解析は不可欠である。そのため,高精度な血管セグメンテーション技術が求められている。
- 深層学習の進展はあるものの,高品質な血管アノテーションの作成には専門知識と労力がかかり,データの収集がボトルネックとなっている。
- 専門家によるアノテーションを必要とせず,実データと同等の性能を実現する血管セグメンテーション手法を開発すること。
- VesselSimは,血管の形状を確率的にシミュレーションし,ドメインランダム化により実写に近い画像データを生成する。
- 生成された合成データのみを用いて3D U-Netを学習することで,専門家のアノテーションなしでも高精度な血管セグメンテーションが可能となった。
- テスト時の自己教師ありマスク再構成デコーダにより,実臨床データへの適応性を高め,脳や腎臓など複数の解剖学的領域で良好な結果を示した。
制約獲得のためのより良いベンチマークの必要性 [cs.AI, cs.CE]目的:制約獲得のためのベンチマークの改善
- 数理計画法のモデル構築は,専門知識の活用が重要であり,その評価基準が求められている。
- 既存のベンチマークはソルバー評価向けであり,制約獲得アルゴリズムの評価には不十分である。
- 制約獲得アルゴリズムの性能評価を可能にする,体系的なベンチマークを提供すること。
- 本研究では,MPMMineというベンチマークスイートを提案した。
- MPMMineは,一貫性,標準化,完全性,拡張性,オープン性,バージョン管理を重視して設計されている。
- MiniZinc,CommonMark,JSONなどのオープン形式を採用し,多様なドメイン知識を活用できる。
拡散ポリシー最適化によるワールドモデル強化学習のスケーリング [cs.LG]目的:ワールドモデル強化学習のスケーリング
- 強化学習は複雑な課題解決に有効だが,環境構築や学習にコストがかかる。
- ワールドモデルは学習コスト削減に有効だが,モデルのバイアスや誤差の蓄積が課題。
- 探索と価値学習の構造的な不整合を解消し,スケーラブルな方策学習を目指す。
- 提案手法MBDPOは,拡散ポリシー表現を通じて探索とポリシー最適化を統合する。
- MBDPOは,収集データセットから暗黙的なエネルギー関数を抽出し,ポリシーの最適化を安定化させる。
- 大規模データセットでの事前学習実験で,モデル容量増加に伴い性能が単調に向上することを確認した。
多疾患網膜スクリーニングのための畳み込み,Transformer,ハイブリッド,および視覚言語モデルのベンチマーク [cs.CV, cs.LG]目的:多疾患網膜スクリーニングにおける多様な視覚モデルの性能比較
- 網膜疾患は失明の主要な原因であり,早期発見とスクリーニングが重要である。
- 実際の多疾患環境下での異なるモデルアーキテクチャの比較が明確ではない。
- 網膜スクリーニングにおける最適なモデル選択のための基準を提供する。
- RFMiDデータセットを用いた二値分類では,全てのアーキテクチャが高いAUCを示したが,Attention機構を用いたモデルが最も優れていた。
- SwinTiny,CoAtNet0,MaxViTTinyといったハイブリッドモデルが,二値分類と多ラベル分類の両方で高い性能を示した。
- Messidor-2を用いた外部検証でも,ハイブリッドモデルとTransformerモデルが良好な性能を維持した。
物理システムの集団力学を学習するための二パラメータフロー [cs.RO, cs.LG, cs.NA, math.NA]目的:物理システムの集団力学の学習
- 複雑な物理現象の理解・予測には,時間発展する確率密度関数の把握が不可欠である。
- 従来の学習手法では,軌跡情報が必要であり,高次元データへの適用が困難であった。
- 軌跡情報なしで高次元の確率密度関数の時間発展を学習する手法を確立すること。
- 提案手法は,ベース分布から各周辺分布へのサンプリング時間輸送を学習し,物理時間速度を抽出する。
- これにより,得られる物理時間ダイナミクスの一意性と正則性が理論的に保証される。
- 本手法は,高次元データにも適用可能であり,回転や循環といった現象を自然に説明できる。
分離遅延補償:学習された動力学フィルタリングによる事前学習済みMARLポリシーの強化 [cs.MA, cs.AI, cs.RO]目的:遅延のある環境下でのマルチエージェント強化学習ポリシーのロバスト性向上
- 現実世界のMARLは,非同期性や通信遅延の影響を受けるため,現実的なシステムへの応用が課題。
- 理想的な同期条件下で学習されたポリシーは,古いフィードバックに基づき性能が低下する。
- 遅延のある環境下でも性能を維持可能な,事前学習済みポリシーのロバスト性強化。
- 提案手法は,学習されたゲート付き遷移モデルとカルマンフィルタを組み合わせたモジュール構造である。
- このモジュールは既存のMARLポリシーに容易に組み込むことができ,再学習の必要がない。
- 多様なベンチマーク実験により,通信遅延やパケットロスに対するロバスト性が向上することが確認された。
低遅延マルチエージェントツール呼び出しのためのステートフル推論 [cs.LG]目的:低遅延マルチエージェントツール呼び出しの実現
- LLMベースのシステムの主要なインタラクションパターンとしてマルチエージェントツール呼び出しが重要になっている。
- 既存の推論フレームワークは各ツール呼び出しを独立して処理するため,計算効率が悪い。
- プロンプトの大部分が変更されない状況下で,効率的な推論を実現することを目指す。
- ステートフル推論アーキテクチャにより,1ターンあたりのコストを大幅に削減できる。
- KVキャッシュとラジックスプレフィックスキャッシュ,投機的デコーダを組み合わせることで,処理速度を向上させた。
- 6ターンおよび35ターンのエージェントワークフローにおいて,既存手法と比較してそれぞれ2.1倍,4.2倍の高速化を実現した。
時間的強化符号グラフニューラルネットワークによる動的リンク予測 [cs.LG]目的:時間的符号ネットワークにおける動的リンク予測の性能向上
- ソーシャルメディア,信頼システム,金融取引など,協力と対立関係をモデル化する重要性が高まっている。
- 符号付きグラフ構造の時間的変化や,平衡理論的な制約への対応が困難である。
- 過去の文脈を統合し,符号付きグラフニューラルネットワークの性能を改善することを目指す。
- 提案手法は,学習可能な時間的重み付け,LSTMベースの埋め込み軌跡モデリング,および多頭時間的注意機構を組み合わせた歴史的文脈統合モジュール(HCIM)を導入した。
- Bitcoin OTC,Bitcoin Alpha,Redditなどの実世界のデータセットおよび合成データセットで,既存手法と比較して一貫して統計的に有意な改善が確認された。
- 本手法は,解釈性を維持しつつ時間的情報を組み込むことが可能である。
CroCo:自己生成に対するクロス言語対照的選好調整 [cs.CL, cs.AI]目的:大規模言語モデルの自己生成に対するクロス言語対照的選好調整
- 言語モデルの性能向上は,自然言語処理の多様な応用を可能にする上で不可欠である。
- 言語特有の選好アノテーションの取得は,多言語対応モデルの構築におけるボトルネックとなっている。
- 言語非特有な選好アノテーションを用いて,多言語モデルの性能を向上させることを目指す。
- 英語で学習した報酬モデルが,多言語において有用な選好ランキングを生成し,多くの場合にモデルの性能を向上させた。
- 構造化タスクにおいて,EuroLLM-9Bは7言語中6言語,Aya-3Bは7設定中4設定でベースラインと同等またはそれ以上の性能を示した。
- オープンエンド生成においては,調整された両モデルとも,評価された11言語全てにおいてベースラインを上回る性能を示した。
エージェントも老化する:デプロイされたシステム向けエージェント寿命設計 [cs.AI, cs.CL, cs.MA]目的:デプロイされたAIエージェントの信頼性維持期間の評価
- AIエージェントが継続的に運用される機会が増加しており,長期的な信頼性が重要課題となっている。
- 従来の評価方法は初期性能に偏重しており,デプロイ後の性能劣化を考慮していない。
- エージェントの劣化メカニズムを特定し,寿命に合わせた信頼性向上を目指す。
- 長期的な運用において,エージェントの信頼性は単一的な指標では評価できず,多様な劣化パターンが存在することが示された。
- 行動テストの正答率は維持されても,事実の正確性が低下するケースや,状態追跡が急激に崩壊するケースが確認された。
- 診断プロファイルに基づき,記憶パイプラインの書き込み,検索,利用段階それぞれに最適化された修理が必要であることが示唆された。
科学におけるエージェント型AIの実験 [cs.RO, cs.AI, cs.SY, eess.SY, hep-ph]目的:科学的ワークフローにおける自律的なエージェント型AIの開発
- 科学研究の効率化と加速は,社会の発展に不可欠である。
- 既存のAIシステムは,コンテキスト理解や推論能力に限界があり,複雑な科学的タスクへの応用が難しい。
- エージェント型AIを用いて,科学的ワークフローの自動化と高度化を図る。
- DeepTS/DeepCollectorは,時系列データの収集,抽出,重複排除を大規模に自動化できることを示した。
- DeepScribeは,複雑な物理学の講義を構造化された科学レポートに変換できることを実証した。
- Cellular RAG等のシステム設計により,エージェント型AIが既存のAIの限界を克服し,科学研究を支援できることが示唆された。
SDN環境における検索拡張生成と大規模言語モデルを用いたカーペット爆撃型DDoS攻撃のインテリジェントな検知と軽減 [cs.CR, cs.AI, cs.NI]目的:カーペット爆撃型DDoS攻撃のリアルタイム検知と軽減
- SDNは柔軟なネットワーク管理を可能にするが,集中制御アーキテクチャはDDoS攻撃に脆弱である。
- 従来の検知メカニズムを回避するため,複数のターゲットに分散するカーペット爆撃型DDoS攻撃の検知が困難である。
- 検索拡張生成と大規模言語モデルを用いて,学習や再学習なしにカーペット爆撃型DDoS攻撃を検知・軽減する。
- 提案手法は,高い精度と安定した攻撃検知性能を達成した。
- Gemma-4-31B-ITモデルを用いた構成が,全体として最も優れた検知結果を示した。
- リアルタイム実験により,提案手法がカーペット爆撃型DDoS攻撃を迅速に検知・軽減し,安定したSDNネットワーク運用を維持できることが確認された。
合理的ガウスウェーブレットニューラルネットワークを用いた複数UAVの分類と検出 [cs.HC, cs.CY, cs.SI, cs.LG, cs.NA, math.NA]目的:UAVの分類と検出
- 民間・軍事インフラ保護において,UAVの検知は重要性を増している。
- 従来の機械学習手法では,単独UAVや群れ検知の性能が十分でない場合がある。
- 解釈性の高い機械学習アルゴリズムによる,UAVと群れの高精度な検知・分類を目指す。
- 提案手法は,屋内スタジオおよび騒音環境下での実験において,従来の機械学習手法を上回る性能を示した。
- 合理的ガウスウェーブレットを用いることで,特徴抽出の解釈性を高め,UAVの分類精度を向上させた。
- 本研究の成果は,UAVと群れの検知・分類において,より信頼性の高いシステム構築に貢献する。
安全性調整のためのカリキュラム学習 [cs.MM, cs.CY, cs.LG, cs.AI]目的:大規模言語モデルにおける安全性調整の頑健性向上
- 大規模言語モデルの安全性確保は,社会実装において不可欠であり,その重要性は増している。
- 従来の安全性調整手法は,分布外データへの汎化性能が低く,実用上の課題となっていた。
- 本研究は,カリキュラム学習によって安全性調整の頑健性を高め,実用的な性能を向上させることを目指す。
- 提案手法Staged-Competenceは,3つのモデルファミリーにおいて,有害な応答率を平均16%削減し,脱獄攻撃の成功率を20%抑制した。
- 一般的な能力を維持しつつ,過剰な拒否反応をほぼゼロに抑えることに成功した。
- Staged-Competenceは,訓練データの75%でベースラインと同等の安全性を実現し,安全と不安全な応答間の分離を改善した。
E$^3$C:3D環境メモリと自己・他者ポーズ制御によるビデオ生成 [cs.CV, cs.AI]目的:没入型エージェントにおける,制御可能で物理的に整合性の高い一人称視点ビデオ生成
- 現実世界とのインタラクションを伴うエージェント開発には,行動と環境変化の理解が不可欠である。
- 一人称視点ビデオ生成は,視点変化や自己遮蔽が多く,制御が困難である。
- シーン構造と人間行動のダイナミクスを分離し,一貫性のあるビデオ生成を実現する。
- E$^3$Cは,3D環境メモリを用いて,シーン構造と人間行動を効率的に条件付けする。
- 提案手法は,既存手法と比較して,視覚的品質,カメラモーションの精度,物体の一貫性,および人間ポーズ制御において性能を向上させた。
- 直感的なシーン編集も可能となり,応用範囲の拡大に貢献する。
MULTISEISMO:クロスモーダル地震理解のためのマルチモーダル地震データセットとモデル [cs.LG, cs.CL]目的:クロスモーダル地震理解のための大規模マルチモーダル地震データセットおよびモデルの開発
- 地震現象の理解には多様なデータ統合が不可欠であり,科学分野への汎用マルチモーダルモデルの適用が期待される。
- 既存の地震データセットは,波形データ,画像,メタデータ等のマルチモーダル統合が不十分であり,研究の進展を阻害している。
- 地震学におけるマルチモーダルな研究を促進するため,包括的なデータセットと専門的なモデルを構築し,性能評価を行う。
- MultiSeismoは,16K以上の地震イベントを含む大規模なマルチモーダル地震データセットであり,13年間のデータを提供。
- MISCEは,地震に関する様々なタスクを対象とした命令セットであり,マルチモーダルモデルの学習と評価を可能にする。
- SeisModalは,MultiSeismoを用いてファインチューニングされたドメイン特化型モデルであり,優れた地震マルチモーダル推論性能を示す。
エージェントベンチマーク生成におけるアーティファクトドリフトの軽減 [cs.AI]目的:エージェントベンチマーク生成におけるアーティファクトドリフト軽減手法
- AIエージェントのビジネスオペレーションへの応用が期待される中で,現実性,検証可能性,規模を両立した評価環境構築が重要である。
- 従来の環境構築では,指示,環境,オラクル,検証器間の不整合が生じやすく,解けない,攻略可能,または矛盾したタスクが生成される問題がある。
- 本研究では,ドメイン専門家の仕様を制約最適化プログラムに変換し,タスク生成の一貫性と品質を向上させることを目指す。
- Anchorパイプラインは,自然言語指示,環境設定,正解解,状態ベースの検証器を単一のパラメータ仕様から生成する。
- 生成パラメータはタスクの難易度を予測でき,最先端モデルはタスク制約を26.1%の試行で満たすが,最適解には17.4%の試行でしか到達しない。
- AnchorとERP-Benchは,経済的に価値のあるエージェントタスクの監査可能な評価環境を構築するための具体的な方法を提供する。
OmniToM:LLMにおける心の理論のベンチマーク - 明示的な信念モデリングを通じて [cs.AI]目的:大規模言語モデルにおける心の理論の評価
- 人間の社会性において不可欠な心の理論の理解は,AIの高度化に必須である。
- 既存の評価方法では,LLMが実際に心の状態を表現しているか不明確である。
- LLMが社会的な状況における信念構造を明示的にモデル化できるか検証する。
- 本研究では,心の理論を評価するためのベンチマーク「OmniToM」を開発した。
- OmniToMは,物語中の登場人物の信念を抽出し,ラベル付けする二段階評価を行う。
- 実験の結果,現在のLLMは,事実を登場人物の信念に変換する過程で課題を抱えていることが示唆された。
学習された物理シミュレータの診断における半群の一貫性 [cs.DC, cs.LG, cs.AI, cs.NA, math.NA]目的:学習された物理シミュレータの診断方法
- 物理シミュレーションは,ロボティクスや科学計算など幅広い分野で不可欠である。
- 既存の評価指標では,長期間の予測における問題や時間的な整合性の欠如が見過ごされやすい。
- 時間的な整合性を評価する新たな指標を提示し,シミュレータの信頼性を高めることを目指す。
- 半群誤差は,ロールアウトの劣化と正の相関関係を示し,モデルの長期的な予測能力を評価する上で有効であることが示された。
- 時間条件付きConvNetとFNOをベースラインとして使用した実験で,スペルマンの相関係数は0.635であった。
- 半群正則化は,評価指標としては有効だが,汎用的な学習目標としては効果が限定的であった。
ShampooとSOAPの再パラメータ化:部分空間基底更新とBFloat16ストレージ [cs.HC, cs.LG]目的:ShampooおよびSOAPの効率化によるニューラルネットワーク学習の改善
- 深層学習の規模拡大に伴い,計算資源の効率的な利用が重要課題となっている。
- 既存のQR分解の実装は計算コストが高く,特に大規模な事前条件付け行列においてボトルネックとなる。
- BFloat16ストレージによるメモリ使用量削減が性能低下を招く問題を解決する。
- 事前条件付け器の再パラメータ化により,BFloat16ストレージでの性能劣化を抑制した。
- 部分空間におけるQR分解のみで基底を更新することで計算コストを削減した。
- KL-SOAPがKL-Shampooと同等またはそれ以上の性能を発揮することを可能にした。
JobBench:人間の意向とエージェントの仕事を一致させる [cs.AI]目的:職業AIエージェントの評価基準
- AI技術の発展により,職業分野への応用が期待されている。
- 既存の評価基準は経済的価値に偏り,人間のニーズを考慮していない。
- 人間の委任したい業務を評価し,AIエージェントの能力向上を目指す。
- JobBenchは,35の職業における130のタスクを評価対象としている。
- 評価は,専門家が優先度の高い業務として特定したワークフローに基づいて行われる。
- 最も性能の高いモデル(Claude Opus 4.7)でも45.9%のスコアにとどまることが示された。
消去されつつも悪用可能:学習済みテキスト-画像拡散モデルに対するブラックボックス埋め込み認識型プロンプト [cs.RO, cs.CV, cs.AI]目的:未学習のテキスト-画像拡散モデルに対するブラックボックス埋め込み認識型プロンプト攻撃の有効性
- 拡散モデルは画像生成において強力だが,学習データに依存する。倫理的・法的問題から概念の削除が求められる。
- 既存の攻撃はモデルへのアクセスを仮定,または検出容易なプロンプトしか生成できず,現実的な脅威モデルに沿わない。
- 現実的な脅威モデル下で,拡散モデルの隠れた脆弱性を突く効果的なプロンプト攻撃手法を開発すること。
- BEAPは大規模言語モデルを活用し,埋め込み空間を考慮した反復的なプロンプト生成により,高い攻撃成功率を実現した。
- BEAPは,安全フィルターを回避しつつ高品質な画像を生成できる。既存手法と比較して攻撃成功率を60%以上向上させた。
- 平均して15回のプロンプト試行で攻撃成功しており,効率性も高い。
LLM生成手順知識における不確実性の管理:仮想実験計画への応用 [cs.AI]目的:LLM生成手順知識における不確実性の管理手法
- 教育現場における実験機会の不足を補い,よりアクセスしやすい学習環境を提供するため,仮想実験の重要性が増している。
- 仮想実験手順の作成にはコストがかかり,専門知識と時間が必要とされる。
- LLM生成手順の不確実性を管理し,実行可能な手順の生成を支援することを目的とする。
- LLM生成手順知識の不確実性を管理するためのプロトタイプフレームワークを提案した。
- 構造化されたドメイン表現と不確実な状態遷移サンプルを用いて,手順ルールを抽出・制約に変換し,不確実な手順ステップを修正する。
- 提案手法は,仮想実験だけでなく,構造化されたインタラクティブ環境における行動計画にも応用可能である。
QAM-W:ハダマール回転と活性化認識スケーリングによるLLM重みの2次元コードブック量子化 [cs.LG, cs.CL]目的:LLM重みの量子化手法
- 大規模言語モデルの効率的な推論には,モデルサイズの削減が不可欠である。
- 従来の量子化手法では,重み行列内の座標構造が無視される場合がある。
- 座標構造を考慮した量子化により,精度低下を抑制することを目指す。
- QAM-Wは,BF16のWikiText-2のパープレキシティに対し,±0.4%以内の精度を維持し,SmoothQuant W8A8と同等の性能を示す。
- ビットレートが等しい場合,2次元コーディングは極座標コーディングよりも2〜15ppのΔPPL改善を示す。
- BF16に対するKLダイバージェンスの変動は,Spearmanのρ=0.99と高い相関を示し,符号器歪みとKLダイバージェンスの単調な関係を裏付けている。
証拠の連鎖による人間レベルの自律研究へ:ScientistOne [cs.AI, cs.CL, cs.MA]目的:自律研究システムの検証可能性向上
- 科学研究の進展には,信頼性の高い実験と再現性の確保が不可欠である。
- 既存の自律研究システムでは,表面的な評価では検出できない捏造や不整合が存在する。
- 証拠の連鎖を構築することで,研究プロセスの透明性と検証可能性を高める。
- 本研究で開発したScientistOneは,75本の論文において捏造された参考文献を一つも生成しなかった。
- ScientistOneは,スコアの検証において12/12の完璧な結果を示し,方法とコードの一致率も高かった。
- ScientistOneは,複数の追加タスクにおいても最先端の性能を達成し,既存システムが失敗する課題でも成果を上げた。
物理制約機械学習の汎化に関するPAC-ベイズ的見解 [cs.LG, stat.ML]目的:物理制約機械学習における汎化性能の理論的保証
- 物理法則を組み込んだ機械学習は,データ駆動型モデルの性能向上に不可欠である。
- 汎化性能の統計的な理解が不足しており,特に損失が有界でない場合に課題がある。
- 物理構造が汎化性能に与える影響を明らかにし,理論的な保証を提供する。
- PAC-ベイズ枠組みを開発し,有界でない損失下での汎化保証を得た。
- 物理制約目的関数の構造を利用し,入力勾配ノルムに基づく新たな汎化限界を導出した。
- SobolevやPoincaré型仮定の下で,統計的複雑さと滑らかさのトレードオフを示す境界を確立した。
MechRL:メカニズム解釈可能性のための回路発見を行う強化学習エージェント [cs.LG]目的:メカニズム回路の発見
- 大規模言語モデルの動作原理を理解する上で,回路の特定は不可欠である。
- 各タスクごとに分析パイプラインを構築する必要があり,効率が悪い。
- 強化学習を用いて,タスク依存性の低い汎用的な回路発見手法を確立する。
- 強化学習エージェントが,GPT-2 smallモデルの注意ヘッドにおいて回路を発見した。
- 訓練タスクに加え,未知のタスクにおいても高い性能を示し,既存研究の知見と一致した。
- 因果的介入に基づく強化学習は,メカニズム回路のボトルネック特定のための有効な手法である。
正解のデモンストレーションが逆効果になる場合:文脈内学習における事例の役割の再考 [cs.CL, cs.RO, cs.RO, cs.LG, cs.AI]目的:文脈内学習における事例の有用性と正解の関係性の解明
- 大規模言語モデルの性能向上の鍵として,文脈内学習が注目されている。
- 文脈内学習において,事例の選択が性能に大きく影響するものの,そのメカニズムは不明な点が多い。
- 事例の正解性だけでなく,文脈推論への影響を考慮した,より頑健な文脈内学習手法を確立すること。
- 正解のデモンストレーションであっても,文脈推論を変化させ,文脈内学習の性能を低下させる可能性があることが示された。
- タスクを維持した摂動を用いることで,事例の正解性と有用性の乖離を明確にすることができた。
- 特に小規模モデルや難易度の高いタスクにおいて,この影響が顕著であることが確認された。
文脈的バイアス軽減のためのパーソナライズ生成モデル [cs.CL, cs.CV, cs.AI, cs.LG]目的:文脈的バイアス軽減のための生成モデル
- 画像認識の精度向上には,データセットの偏りの理解が不可欠である。
- 現実世界のデータセットは特定の文脈に偏っており,モデルが珍しい文脈での認識を苦手とする。
- 珍しい文脈の画像を生成することで,データセットの偏りを軽減し,認識精度を向上させる。
- 提案手法DecoupleGenは,テキストから画像を生成する拡散モデルをパーソナライズし,珍しい文脈の画像を生成する。
- 生成された画像は意味のある内容を含み,元のデータセットの視覚的詳細を保持している。
- 物体分類および認識タスクにおいて,既存手法と比較して一貫した改善が確認された。
エネルギーゲート型注意機構とウェーブレット位置エンコーディング:Transformer注意のための相補的帰納的バイアス [cs.LG, cs.CL, eess.SP]目的:Transformer注意機構に対する相補的な帰納的バイアス
- Transformerは自然言語処理の基盤技術であり,様々なタスクで高い性能を発揮する。
- 標準的なTransformer注意機構は,トークン間の類似度を計算するが,トークンの重要度や位置情報を十分に考慮していない。
- 情報的なエネルギー集中と,周波数に応じた局所性の制御という,標準的な注意機構が欠如しているバイアスを導入する。
- エネルギーゲート型注意機構(EGA)単独で,標準的な注意機構に対して検証損失の改善が確認された。
- ウェーブレット位置エンコーディング(MoPE)とEGAを組み合わせることで,個々の手法の改善効果を上回る相乗効果が得られた。
- 学習された成分が,固定された事前知識に基づく手法よりも優れた性能を示すことが示された。
素早い後続特徴と遅い後続特徴による可塑性と安定性のバランス [cs.CL, cs.LG]目的:継続的に変化する環境下における深層強化学習エージェントの性能
- 知能の重要な特徴は,非定常環境への適応能力である。強化学習は,現実世界の複雑な問題を解決する上で不可欠な技術である。
- 従来の強化学習エージェントは,環境の急激な変化には対応できるものの,緩やかなドリフトのような継続的な変化には苦戦する。
- 本研究は,緩やかな環境変化下で安定性と適応性を両立させるための手法を模索し,性能向上を目指す。
- 安定性を重視する手法(シナプスコンソリデーションなど)が,可塑性を重視する手法(パラメータのリセットなど)よりも優れた性能を示すことが明らかになった。
- 後続特徴(SF)へのシナプスコンソリデーションを適用することで,継続的に変化する環境下での性能が向上することが確認された。
- SFを複数タイムスケールで安定化することで,緩やかな環境変化の異なる側面を捉え,より効果的なコンソリデーションが可能となる。
大規模言語モデルが構造化知識において幻覚を起こす理由:線形化された表現に対するメカニズム的分析 [cs.CL, cs.AI]目的:大規模言語モデルにおける構造化知識の推論における幻覚のメカニズム
- 知識集約型タスクにおいて,大規模言語モデルは構造化知識に依存する場面が増加している。
- 十分な知識が与えられても,大規模言語モデルは幻覚を起こすことがあり,その原因は不明である。
- 幻覚の発生メカニズムを解明し,構造化知識形式全体での検出を可能にすること。
- 幻覚はランダムノイズではなく,注意機構における構造的ヒントへの過度な集中によって発生する。
- フィードフォワード表現が知識の基盤とならず,モデルがパラメータ記憶に回帰することが判明した。
- 幻覚はフィードフォワード層における意味的接地失敗と一貫して関連しており,グラフや表形式データでも同様のパターンが確認された。
大規模言語モデルにおけるハルシネーション検出のための自動層選択 [cs.CL, cs.AI, cs.LG]目的:ハルシネーション検出における高性能層の自動選択
- 大規模言語モデルの普及に伴い,生成される情報の信頼性が重要視されている。
- 大規模言語モデルが生成するハルシネーション(誤った情報の生成)の検出が課題となっている。
- ハルシネーション検出に有効な層を自動的に選択する手法を確立すること。
- 中間層がハルシネーション関連の信号を強く符号化することが示されているが,最適な層の自動選択法は未確立であった。
- 提案手法であるFEPoID(First Effective Peak of Intrinsic Dimension)は,様々なモデルやタスクにおいて最適な層を特定し,既存手法を上回る性能を示した。
- 生成行動の分析に基づいた単純な切り捨て戦略が,ハルシネーション関連信号を増幅し,検出性能をさらに向上させた。
多視点基盤モデルによる統一的なパノラマ幾何推定 [cs.CV, cs.AI]目的:パノラマ画像からの3Dシーン構造の復元
- 視覚情報処理において,3Dシーンの理解は重要な課題である。現実世界の認識やロボット工学への応用が期待される。
- パノラマ画像からの幾何推定は,全方位の情報を扱うため,従来の視点画像とは異なる課題が多い。
- 本研究は,既存の3D基盤モデルをパノラマ画像にも適用し,高精度な幾何推定を実現することを目的とする。
- 提案手法PaGeRは,既存の3D基盤モデルを最小限の変更で拡張し,視点画像とパノラマ画像の双方に対応可能にした。
- PaGeRは,スケール不変な深度,メートル深度,表面法線,空マスクを単一のフォワードパスで予測できる。
- 屋内および屋外環境での実験により,PaGeRが最先端の性能と優れたゼロショット性能を示すことが確認された。
オフライン階層型強化学習における再利用可能なスキル獲得のための局所的なダイナミクスの規則性の活用 [cs.AI]目的:再利用可能なスキルの獲得
- 長期的なタスク解決において,強化学習の効率化が求められているため。
- 獲得したスキルが実際に再利用可能であることが課題となっている。
- 局所的なダイナミクスの規則性を活用し,スキルの再利用を促進すること。
- 提案手法CARLは,複雑なヒューマノイド環境において意味のあるスキルのクラスタリングを示す。
- CARLをHIQLに統合することで,OGBenchベンチマークにおける下流タスクの性能が向上した。
- 局所的なコンテキストと必要な行動シーケンスを整合させることで,スキルの再利用を可能にした。
隠凸損失に対するオンライン学習:アルゴリズム的同値性,最適回帰,幾何学的障壁,バンディットフィードバック [cs.LG, math.OC, stat.ML]目的:隠凸損失を持つ敵対的オンライン学習におけるオンライン勾配降下法の最適回帰率の解析
- オンライン学習は,データが逐次的に到着する場合に,リアルタイムでの意思決定に不可欠である。
- 非凸損失関数は最適化が困難であり,安定した学習アルゴリズムの設計が課題である。
- 隠凸損失におけるオンライン勾配降下法の理論的な限界を明らかにし,最適な学習率を達成すること。
- オンライン勾配降下法が,既存の幾何学的・滑らかさの仮定の下で,$\mathcal{O}(\sqrt{T})$ の回帰率を達成することが証明された。
- アルゴリズム的同値性のためのヤコビアン条件をヘッセ行列の適合性条件に置き換えることで,より広範な再パラメータ化が可能となった。
- バンディットフィードバックにおいても,球状平滑化を用いたバンディットオンライン勾配降下法に対し,$\mathcal{O}(T^{3/4})$ の期待回帰率が得られた。
BioFact-MoE:肝細胞癌における予後予測のための生物学的因子化された専門家混合モデル [cs.CV, cs.AI, cs.LG]目的:肝細胞癌における生存予測精度の向上と生物学的解釈性の獲得
- 肝細胞癌は生物学的に多様であり,予後予測には多角的な情報が必要である。
- 既存のビジョン言語モデルは,肝機能と腫瘍関連因子を統合した表現を学習するため,解釈性に乏しい。
- 生物学的な知識に基づき,肝機能と腫瘍関連因子を分離することで,より正確で解釈可能な予後予測を目指す。
- BioFact-MoEは,肝細胞癌患者の生存予測において,既存モデルを上回るAUCスコア(12ヶ月:75.33%, 18ヶ月:75.85%, 24ヶ月:73.96%)を達成した。
- 専門家の重み付けにより,表現型に基づいたリスク層別化が可能となった。
- 経路情報を活用したゲート機構により,治療に関連する生存率の異質性が明らかになった。
VisualNeedle:情報量の多いシーンにおける能動的視覚探索のベンチマーク [cs.CV, cs.AI]目的:情報量の多いシーンにおける能動的視覚探索能力の評価
- 大規模言語モデルの性能向上に伴い,視覚情報に基づいた推論の信頼性評価が重要となっている。
- 既存のベンチマークは,言語的ヒントや大まかな意味情報で解答可能な場合があり,真の視覚探索能力を測れていない。
- 微細な領域に隠された情報を探索する能力を評価し,言語モデルの視覚探索の限界を明らかにする。
- 既存の主要なMLLM9モデルにおいて,ツールなしでは20%以下の精度しか得られなかった。
- ツールを使用した場合でも最高で56.01%の精度にとどまり,人間の投票による63.00%には及ばなかった。
- VisualNeedleにおける成功は,途中の視覚的証拠に依存しており,ツールが提供する情報が重要であることが確認された。
2段階ランキングにおける早期段階検索のためのクレジット配分型方策勾配 [cs.DC, cs.PF, cs.SY, eess.SY, cs.IR, cs.AI, stat.ML]目的:2段階ランキングにおける早期段階ランク付けシステムの効率的な学習
- 大規模検索システムにおいて,効率的な候補セット生成は重要な課題である。
- 従来の早期段階ランク付けシステムの学習は,勾配爆発などの問題により困難である。
- 本研究は,候補セットの構成に起因する勾配の分散を抑制し,学習の安定化を図る。
- 提案手法であるクレジット配分型方策勾配(CA-PG)は,従来の方策勾配法(V-PG)に比べて分散を大幅に削減できることを理論的に示した。
- 実験結果から,CA-PGは,特に大規模な候補セットサイズにおいて,学習の収束速度と安定性を向上させることが示された。
- 合成データと実データを用いた評価により,CA-PGの有効性が確認された。
大規模マルチモーダルモデルにおける創造的身体知能の発展 [cs.CL, cs.AI, cs.CL, cs.LG]目的:視覚的に根ざした,オープンエンドな環境における解法発見能力
- 高度な知能の実現には,知覚と推論だけでなく,創造的な問題解決能力が不可欠である。
- 既存のベンチマークでは,物理的に実行可能な方法での要素の再利用といった創造性が評価されていない。
- 視覚的・物理的根拠に基づいた道具の使用における創造性を評価し,その能力向上を目指す。
- 現在のLMMは,生成能力の欠如ではなく,根拠のある探索を維持できないために課題を抱えている。
- アフォードンスに基づくアライメントを提案し,好みの学習を通して,視覚的証拠に基づいた推論を促進する。
- アフォードンス知識ベースを用いた指導により,正しい要素選択と幻覚・根拠に関するエラーを大幅に削減した。
アノテーターの立場性を手がかりとした:自閉症差別検出のための精神測定的重み付け [cs.CL, cs.AI]目的:自閉症差別言語検出のための評価フレームワーク
- LLMの意思決定への利用拡大に伴い,特定の視点を増幅・抑制する可能性が懸念される。
- 既存研究では,LLMにおける障害関連バイアスは確認されているが,LLMが差別をどのように捉え検出するかは不明である。
- アノテーターの立場性を考慮した評価により,より厳密な差別検出基準を確立し,LLMのバイアスを評価する。
- LLMは有害な出力を頻繁に生成し,コミュニティ内で再利用される言語を差別的と誤って認識することが示された。
- 評価ツールをマスクすると,LLMは自閉症の人々に対してより否定的な態度を示す傾向が確認された。
- LLMは文脈要素よりもキーワードのマッチングに依存しており,話し手のアイデンティティや言語の意図を理解していないことが示唆された。
構造化生成型検索サマリーの評価計画 [cs.IR, cs.AI]目的:構造化生成型検索サマリーの評価フレームワーク
- 検索結果の質向上は,情報アクセスの効率化に不可欠である。
- 従来の検索結果の評価方法は,生成型サマリーには不向きである。
- 生成型サマリーの評価基準と方法の確立を目指す。
- 提案フレームワークは,概要,セクション,出典を含む構造化サマリーを評価する。
- 評価計画の実施と分析を通じて,フレームワークの有効性を検証する。
静的コンテキストから校正されたインタラクティブ強化学習へ:アラインされたシミュレータを用いたマルチターン対話における分布シフトの緩和 [cs.AI]目的:マルチターン対話における分布シフトの緩和
- 対話システムは人間との自然なコミュニケーションを可能にする重要な技術であり,その品質向上が求められている。
- 従来の強化学習は,訓練データと実際の対話の分布のずれ(分布シフト)により性能が低下する課題があった。
- 本研究は,シミュレータと現実世界のずれを解消し,分布シフトを緩和することで対話品質の向上を目指す。
- インタラクティブ強化学習は,静的コンテキスト強化学習と比較して,分布シフトを緩和し,より良い性能を発揮することが確認された。
- シミュレータのアラインメント手法を用いることで,シミュレーションと現実世界のギャップがさらに縮小し,最先端の性能が達成された。
- 分布シフトはターン数が増えるにつれて二次的に悪化する理論的分析が実験結果と一致した。
非線形時系列における関数値による因果影響 [cs.DC, cs.CL, cs.NI, cs.LG, stat.ME, stat.ML]目的:非線形時系列データの因果関係の関数としての表現
- 時系列分析は,経済学や気象学など幅広い分野で不可欠であり,その因果関係の理解は重要である。
- 従来の因果探索はスカラー値で因果関係を評価するため,情報の損失が生じ,詳細な動的関係が見過ごされがちである。
- 本研究は,関数値による因果影響を形式化し,より詳細な因果関係の理解を目指す。
- 非線形自己回帰モデルが学習する状態依存的な関数に着目し,因果関係をスカラー値で要約することの問題点を指摘した。
- ニューラル加法ベクトル自己回帰モデルを用いて,因果応答関数を直接推定するための枠組みを提案し,その有効性を示した。
- 合成実験と民主主義発展の事例研究を通じて,関数値による分析が従来のスコア重視型アプローチでは見過ごされる構造を明らかにした。
モデルの行動幾何学による脱獄耐性予測と緩和 [cs.CR, cs.AI, cs.LG]目的:生成システムの脱獄攻撃に対する耐性の予測と緩和
- 生成AIの安全性確保は,社会実装において不可欠である。大規模なモデル群を評価・最適化する必要がある。
- 全設定での評価・最適化は現実的ではない。効率的な予測・防御転移手法が求められている。
- 既存モデルの評価を活用し,効率的な耐性予測と防御転移を実現する。
- モデル群の行動幾何学を利用した予測精度はAUPRC 0.94に達し,全評価に比べて約98%少ないプローブ数で実現された。
- 最適化された防御を転移するモデル選択において,行動幾何学に基づく手法は,同じプロバイダからの選択より2%向上した(p=0.03)。
- 3モデルの集合で,モデル群全体を網羅し,安定した結果が得られた。
推論,コード,それとも両方か?大規模言語モデルが数学の問題のバリエーションにどのように対処するか [cs.AI, cs.CL, cs.LG]目的:大規模言語モデルにおける数学的推論の頑健性に関する評価
- 数学的推論能力は,AIの汎用的な知能の重要な要素であり,様々な応用分野で求められている。
- 大規模言語モデルは,問題の表現がわずかに変更されるだけで性能が低下することが課題となっている。
- 問題のバリエーションに対する頑健性を向上させるための手法の有効性を検証すること。
- 純粋な推論(CoT)が最も頑健であり,問題変更時の精度低下が最も少なかった。
- プログラム支援言語モデル(PAL)は最も頑健性が低く,Step-by-Step Coding(SBSC)はCoTとPALの中間に位置した。
- 統計的有意差は認められなかったものの,コード実行が数学の問題のバリエーションに対する頑健性を向上させるという明確な傾向は認められなかった。
救済効果:空間・意味的早期終了がCLIPの量子化崩壊を回避する [cs.CV, cs.AI]目的:CLIPにおける量子化誘発表現崩壊の抑制
- 画像とテキストを共同埋め込みで扱うモデルは多様な応用が可能であり,その効率化が求められている。
- CLIPのようなモデルをINT8量子化すると,活性化ノイズが累積し,ゼロショット検索の性能が低下する問題がある。
- ノイズが飽和する深層を回避し,浅層での適切な判断を促すことで性能劣化を防ぐ。
- LRA-EEは,空間・意味的集約により浅層の情報を活用し,ノイズの影響を軽減する。
- ImageNet-1Kのゼロショット分類において,FLOPsを13.4%削減し,Top-1精度を+2.44%p向上させた。
- 四象限分解により,浅層で正しく分類されるサンプルが深層でノイズにより誤分類されるケースが明らかになった。
深層強化学習はいつキャリブレーションされたベースラインを上回すのか?適応型リソース制御に関するベンチマーク研究 [cs.LG, cs.AI, cs.DC]目的:適応型リソース制御における深層強化学習の有効性評価
- クラウド環境におけるリソース管理は,コスト削減とサービス品質維持のために不可欠である。
- 従来のルールベースの自動スケーラーは,チューニングが難しく,最適な性能を発揮できない場合がある。
- 深層強化学習が,複雑なワークロードにおいて,ルールベースの自動スケーラーを上回る可能性を検証する。
- キャリブレーションされたルールベースの自動スケーラーが,多くのワークロードにおいて6つの主要な深層強化学習アルゴリズムをコスト面で上回ることが示された。
- 離散行動アルゴリズムは,行動空間のミスマッチにより,連続行動アルゴリズムよりも制約違反の点で1~2桁高い性能を発揮した。
- 単一のアルゴリズムが全てのワークロードで優位性を示すことはなく,アルゴリズムのランキングはワークロードによって変動した。
