arXiv雑要約
AI - 2026/02/03 公開
LLMにおける限定的なメタ認知の証拠 [cs.LG]目的:LLMにおけるメタ認知能力の定量的な評価
- LLMの進化は,社会への影響が大きく,安全性の確保が急務である。
- LLMの自己認識や意識の測定方法は確立されておらず,科学的な検証が求められる。
- LLMが自身の内部状態を認識し,戦略的に知識を活用できるかを検証する。
- 2024年初頭以降のLLMは,事実や推論問題に対する自身の回答の信頼性を評価し,利用する能力を示す。
- LLMは自身の回答を予測し,その情報を適切に活用できる可能性が示唆された。
- メタ認知能力は限定的であり,文脈に依存して現れることが明らかになった。
LLMを用いた不変条件合成によるプログラム検証の高速化:Quokka [cs.PL, cs.AI, cs.CL, cs.LG]目的:LLMを用いた不変条件合成によるプログラム検証の高速化
- プログラムの信頼性確保には検証が不可欠であり,自動化技術へのニーズが高い。
- プログラム検証において,強力な不変条件の自動発見は長年の課題である。
- LLMを活用し,不変条件合成の効率を向上させることで検証プロセスを加速する。
- Quokkaは,LLMによる不変条件合成のための初の効果的なフレームワークであり,健全な評価を提供する。
- Quokkaは,複雑なアルゴリズムに頼らず,単純かつ原理的な検証手順を採用している。
- 実験の結果,Quokkaは既存のLLMベースの検証器を凌駕し,速度向上を実現した。
精度と複雑性を超えて:構造的に安定な記号回帰のための有効情報基準 [cs.LG]目的:構造的安定性を考慮した記号回帰における合理的な数式を定量化する基準
- 物理法則は構造的安定性を有しており,その理解は科学的モデリングの根幹である。
- 従来の記号回帰は精度と複雑性のバランスに偏り,数値的に不安定な数式を生成しやすい。
- 物理的に妥当で解釈可能な構造を持つ数式を識別し,記号回帰の性能を向上させる。
- 有効情報基準(EIC)は,数式を情報伝達路とみなし,計算時の丸め誤差の増幅を評価することで,構造的安定性を定量化する。
- EICを記号回帰に組み込むことで,探索アルゴリズムは安定領域へ誘導され,生成モデルは事前学習の効率と汎化性能が向上する。
- 108名の専門家による評価では,EICは人間の選好と70%の一致率を示し,構造的安定性が解釈可能性に重要であることが確認された。
ODEに基づくカオス系予測のための階層型マルチスケール認識を伴う基盤モデル ChaosNexus [cs.LG, cs.AI]目的:ODEに基づくカオス系予測のための基盤モデル
- 気象予測など,複雑なカオス系の正確な予測は科学技術の発展に不可欠である。
- 既存のモデルは,カオス動力学のマルチスケールな時間構造と固有のスペクトル特性を捉えきれていない。
- マルチスケールな時間構造とスペクトル特性を考慮した,より高精度なカオス系予測モデルを開発すること。
- 提案モデルChaosNexusは,長期的アトラクタ統計の忠実度において優れた性能を示す。
- 各ScaleFormerブロックにMoE層を組み込み,学習された周波数フィンガープリントにより,システム全体のスペクトル情報を考慮している。
- 実世界応用では,5日間の定点観測に基づく天気予報において,平均誤差1℃以下という顕著なゼロショット性能を達成した。
持続的なアルゴリズム的救済のための強化学習 [cs.HC, cs.LG, cs.AI]目的:アルゴリズム的救済における時間的要素の考慮
- 自動化された意思決定システムにおいて,公平性と透明性を確保することが重要である。
- 既存の救済手法は,モデルの更新に対するロバスト性に偏っており,時間的変化への対応が不十分である。
- 推薦が将来の申請者の構成に影響を与える動的な環境下で,有効性と実現可能性を両立した救済策を提供する。
- 提案手法は,時間経過とともに変化する状況に適応し,長期的に有効な救済策を生成する強化学習アルゴリズムを導入した。
- 複雑なシミュレーション環境での実験により,既存手法と比較して実現可能性と長期的な有効性のバランスが大幅に向上することが示された。
- これらの結果は,実用的な救済システム設計において,時間的・行動的ダイナミクスを組み込むことの重要性を示唆している。
Aurora:汎用的な生成型マルチモーダル時系列予測に向けて [cs.LG]目的:時系列予測におけるドメイン汎化性能の向上
- 時系列予測は,将来予測に影響するドメイン固有の特性を考慮する必要があり,その重要性が高い。
- 既存研究では,ドメイン知識の明示的な活用が不十分であり,ゼロショット推論に対応できないという課題があった。
- 本研究は,マルチモーダル入力とゼロショット推論を可能にする基盤モデルを開発し,ドメイン汎化性能を向上させることを目指す。
- Auroraは,テキストや画像といったマルチモーダルなドメイン知識を適応的に抽出し,時系列モデリングに活用することで,高いドメイン汎化性能を実現した。
- 提示されたプロトタイプと条件を生成するPrototype-Guided Flow Matchingにより,生成的な確率予測を可能にした。
- TimeMMD,TSFM-Bench,ProbTS,TFB,EPFを含む5つのベンチマークにおいて,一貫して最先端の性能を示した。
フラッド複合体:数百万点における大規模な持続ホモロジー [cs.LG, cs.CG]目的:大規模ユークリッド点群データに対する持続ホモロジーの計算
- 機械学習に応用するため,点群データから形状や構造を抽出する上で重要である。
- 既存のVietoris-Rips複合体は指数関数的に増加し,計算量が膨大になるという課題がある。
- 大規模点群データにおける計算効率を向上させ,高次元のホモロジー計算を可能にすること。
- 提案手法であるフラッド複合体は,点群データの一部を対象としたDelaunay三角測量を利用し,効率的なホモロジー計算を実現する。
- 大規模な3D点群データにおいて,次元2までの持続ホモロジーを数百万点規模で計算できることを示した。
- 複雑な形状の物体分類において,既存手法やニューラルネットワークと比較して,より高い性能を発揮することが確認された。
AIコンパニオンのメンタルヘルスへの影響:ソーシャルメディア準実験,ユーザー視点,関係理論の三角測量 [cs.HC, cs.AI, cs.CL, cs.CY, stat.AP]目的:AIコンパニオンのメンタルヘルスへの影響
- AI技術の発展に伴い,人間とAIのインタラクションは増加の一途を辿っており,その影響評価が重要である。
- AIコンパニオンの利用がメンタルヘルスに与える影響は不明な点が多く,特に負の影響に関する懸念がある。
- AIコンパニオン利用におけるリスク軽減と,メンタルヘルスへのポジティブな影響を最大化するための設計指針を提示する。
- Redditのデータ分析から,AIコンパニオンとの関わりは,悲嘆の表現や対人関係への関心の増加と同時に,孤独感,鬱,自殺願望に関する言及の増加に関連していることが示された。
- インタビュー調査では,AIコンパニオンが感情的な検証や社会的な練習の機会を提供すると同時に,過度な依存や引きこもりのリスクも示唆された。
- 健康的な境界線,意識的な利用,依存のない自己開示の促進,関係性の段階の明示化といった設計上の示唆が得られ,AIコンパニオンのポジティブな効果の最大化とリスクの軽減に貢献する。
拡散LMにおける近似同時サンプリングの実現 [cs.CL, cs.LG]目的:拡散言語モデルにおける同時サンプリングの近似手法
- 言語モデルの性能向上は,自然言語処理の発展に不可欠である。
- 拡散言語モデルでは,並列処理による効率化と正確性の低下が課題となっていた。
- 真の同時分布からの近似サンプリングによる精度向上を目指す。
- 新しい軽量な「サンプラー」層を既存の拡散LMに追加することで,近似同時サンプリングを実現した。
- 4トークンを各デノイジングステップでアンマスクした場合,MAUVEスコアが0.87と,ベースラインの0.31を大きく上回った。
- 事前学習済みモデルおよび命令調整済みモデルの両方で,言語モデリング,数学,コーディングタスクにおいて有効性が確認された。
時系列予測におけるモデルランキングを超えて:予測可能性に合わせた評価 [cs.LG, cs.AI]目的:時系列予測モデルの評価に関する新しい診断フレームワーク
- AIモデルの複雑化に伴い,性能評価の重要性が増している。
- 従来の評価指標はデータの予測不可能性を考慮していない。
- 予測可能性を考慮した公平なモデル比較と理解を目指す。
- スペクトルコヒーレンスに基づく予測可能性スコア(SCP)を提案し,計算効率とタスクとの関連性を実現。
- 線形利用率(LUR)により,モデルがデータ内の線形予測情報をどれだけ活用しているかを定量化。
- 「予測可能性ドリフト」の存在と,モデルの複雑さと予測可能性の関係性に関する知見を得た。
ガウス分布のための高密度連想記憶 [cs.LG, cs.AI, math.ST, stat.ML, stat.TH]目的:ガウス分布の連想記憶の実現
- 記憶と想起は知能の根幹であり,効率的なモデル構築が求められている。
- 従来の連想記憶モデルはベクトル表現に限定され,分布の扱いに課題があった。
- 分布間の距離に基づき,ガウス分布の連想記憶を可能とするモデルを提案する。
- 提案手法は,2-Wasserstein距離を備えたガウス密度を扱う連想記憶モデルを構築した。
- 固定点は自己整合的なWasserstein重心に対応し,古典的な連想記憶を一般化した。
- 指数関数的な記憶容量と,Wasserstein摂動下での定量的検索保証を証明した。
p値なしサンプリング:LLMデコーディングのための堅牢かつハイパーパラメータフリーなアプローチ [cs.CL, cs.AI, cs.CL]目的:LLMのデコーディングにおける高品質な出力の獲得
- 大規模言語モデルの性能は,生成されるテキストの質に大きく影響するため,その最適化は重要である。
- 既存のサンプリング手法は,ハイパーパラメータの調整が難しく,タスクや温度設定に依存して性能が変動する。
- ハイパーパラメータ調整なしで,高品質な出力を安定して生成すること。
- p値なしサンプリングは,ハイパーパラメータを持たず,温度を上げても高い品質の出力を維持できる。
- 数学,論理的推論,創作などの様々なタスクにおいて,既存のサンプリング手法を上回る性能を示した。
- p値なしサンプリングは,トークンサンプリング時間の短縮と生成長の短縮により,推論時間の効率も向上する。
欠損値を含む多変量時系列予測の再検討 [cs.LG, cs.AI, stat.ML]目的:欠損値を含む多変量時系列予測における予測精度向上
- 実世界の時系列データには欠損値が頻繁に発生し,信頼性の高い予測が求められる。
- 既存手法は欠損値補完に依存するが,真の値がないため補完誤差が予測精度を低下させる。
- 欠損値補完を行わず,部分的観測データから直接予測する新しいパラダイムを提案する。
- 提案手法CRIBは,Information Bottleneck原理に基づき,欠損値によるノイズを除去しつつ予測に必要な情報を保持する。
- CRIBは,統一的な変量注意メカニズムと一貫性正則化スキームを組み合わせることで,頑健な表現学習を実現する。
- 実世界の4つのデータセットにおける実験により,高い欠損率下でもCRIBが正確に予測できることが示された。
アンカー付き教師ありファインチューニング [cs.LG, cs.CL]目的:大規模言語モデルの効率的な学習手法
- 大規模言語モデルの性能向上は,自然言語処理の進歩に不可欠である。
- 教師ありファインチューニングは記憶に依存しやすく,強化学習は計算コストが高い。
- 学習の安定性を保ちつつ,汎化性能を高めることを目指す。
- 本研究では,DFTの理論的限界を明らかにし,アンカーを導入することで安定性を改善した。
- 提案手法ASFTは,数学的推論,医療知識,コード生成においてSFTおよびDFTを上回る性能を示した。
- 理論的分析と実践的成果の両面から,ポストトレーニング手法の理解を深めた。
単調変換不変なマルチタスク学習 [cs.LG]目的:マルチタスク学習におけるタスク支配問題の解決
- 機械学習において,複数の関連タスクを同時に学習することで,汎化性能の向上や学習効率の改善が期待される。
- 従来のマルチタスク学習手法では,タスク損失のスケールが異なる場合,一部のタスクが学習を支配し,全体の性能を低下させる問題がある。
- 本研究では,タスク損失の単調変換に不変な協調交渉理論に基づき,タスク支配の影響を受けない学習手法を提案する。
- 提案手法DiBS-MTLは,非凸な損失関数を持つマルチタスク学習において,パレート停留点に収束することが理論的に証明された。
- DiBS-MTLは,既存の交渉理論に基づく手法よりも計算効率が高い。
- 実験結果から,DiBS-MTLは標準的なベンチマークにおいて優れた性能を示し,特にタスク損失のスケールが適切でない場合に顕著な効果が確認された。
言語モデルの生成評価に関する事前学習のスケーリング則 [cs.LG]目的:言語モデルの生成評価における事前学習のスケーリング則の導出と評価
- 近年,モデルのパラメータ数,データ量,計算資源が指数関数的に増加しており,スケーリング則の理解が重要である。
- 事前学習損失や識別的ベンチマークのスケーリング則は確立されているが,数学の問題解決やソフトウェアエンジニアリングといった生成的ベンチマークでは研究が遅れている。
- 生成的評価におけるスケーリング則を確立し,より安価なモデルから高性能モデルの性能を予測する方法を開発する。
- 生成評価では,ハイパーパラメータ$k$がスケーリング則のパラメータと予測可能性を調整する制御レバーとして機能することが示された。
- 事前学習計算量とパラメータ数+トークン数のスケーリング則は,最後の1.5〜2.5桁のみで安定化するのに対し,正解の参照尤度に基づくスケーリング則は約5桁にわたって安定した。
- 予測性能の観点からは,3つのスケーリング則は同程度に機能するが,$k$が小さい場合は計算量に基づくスケーリング則,大きい場合は正解の参照尤度に基づくスケーリング則の予測精度がやや劣る。
Putnamライクなデータセット概要:LLMを数学コンテスト参加者として [cs.LG, cs.AI]目的:LLMの数学コンテスト問題解決能力の検証
- 高度な数学的思考能力の評価は,AI研究において重要な課題である。
- LLMの数学的推論能力は向上しているものの,厳密な証明能力に課題が残る。
- LLMの数学コンテスト問題解決能力を定量的に評価し,その限界を明らかにする。
- Gemini 2.5 Proを含む上位モデルは,Putnamライクな問題で高い成績を収めた。
- しかし,2024年のPutnamコンテスト問題では成績が低下し,完全な厳密性には課題が残る。
- モデル間の行動パターンには二峰性が見られ,解答の根拠の説明に困難が伴うことが示された。
GHOST:マルチモーダルLLMにおける幻覚を引き起こす画像生成 [cs.CV, cs.AI, cs.LG]目的:マルチモーダルLLMの幻覚誘発
- 画像とテキストを理解するLLMの重要性が増している。その信頼性が不可欠である。
- LLMは画像に存在しない物体を認識することがあり,幻覚問題が課題となっている。
- LLMに幻覚を誘発する画像を生成し,弱点を特定・改善することを目指す。
- GHOSTは,LLMを欺く画像を自動で生成する手法である。
- 生成された画像は視覚的に自然でありながら,LLMに幻覚を引き起こす微妙な手がかりを含む。
- Qwen2.5-VL向けに最適化された画像が,GPT-4oでも高い幻覚誘発率を示した。
マルチエージェント協調のためのエージェント間相互作用と世界情報の統合 [cs.AI, cs.LG]目的:マルチエージェント協調のための表現学習フレームワーク
- 複雑な環境下での協調行動は,ロボット工学や社会システムの実現に不可欠である。
- エージェント間の相互作用と不完全な情報という課題が,効果的な協調を妨げる。
- エージェント間関係とタスク固有の世界情報を統合した表現学習により,協調を促進する。
- 提案手法IWoLは,エージェント間の暗黙的な協調を可能にする表現空間を学習する。
- 明示的なメッセージ交換の欠点(速度,攻撃,帯域幅)を回避し,分散型実行を実現する。
- 複数のMARLベンチマークにおいて,IWoLが協調行動を向上させることが示された。
STAC:無害なツールが危険な連鎖を形成し,LLMエージェントを乗っ取る状況 [cs.CR, cs.AI, cs.CL, cs.LG]目的:LLMエージェントに対する,ツール利用を悪用した多段階攻撃の脆弱性とその対策
- LLMが自律的なエージェントとして進化する中で,ツール利用能力がセキュリティリスクを高めている。
- 個々のツール利用は安全に見えても,組み合わせることで有害な結果につながる可能性がある。
- 一見無害なツールの連鎖による攻撃(STAC)に対する脆弱性を明らかにし,防御策を提案する。
- 最先端のLLMエージェント(GPT-4.1を含む)はSTACに対して高い脆弱性を示し,攻撃成功率は90%を超える場合が多い。
- 自動化されたフレームワークにより,483件のSTACケース(1,352セットのインタラクション)を生成・評価し,多様なドメインと10種類の障害モードを網羅した。
- 新たな推論駆動型防御プロンプトにより,攻撃成功率を最大28.8%削減できることが示された。
Point2RBox-v3:統合された疑似ラベルの改良と利用による点アノテーションからの自己ブートストラップ [cs.CV, cs.AI]目的:点アノテーションを用いた弱学習による配向オブジェクト検出の性能向上
- 配向オブジェクト検出は,自動運転や衛星画像解析など幅広い分野で重要性が増している。
- 従来の配向オブジェクト検出には,高コストで手間のかかる手動アノテーションが不可欠であった。
- 点アノテーションから学習することで,アノテーションコストを削減し,実用的な検出性能を実現することを目指す。
- 提案手法Point2RBox-v3は,動的な疑似ラベルを用いてラベル割り当てを効率化し,性能を向上させている。
- 特に,オブジェクトサイズが大きく変動する場面や,オブジェクトが疎に存在する場面において優れた性能を発揮する。
- DOTA-v1.0等6つのデータセットにおいて,競争力のある性能を達成している。
計画拡張サンプリングと早期ガイダンスによる高報酬発見 [cs.CL, cs.LG, cs.AI]目的:高報酬発見のためのサンプリング戦略
- 生成モデルの多様性と構造化された生成能力は重要である。
- 既存のサンプリング戦略はガイダンスが弱く,高報酬候補の早期発見が遅れる。
- 高報酬解の迅速かつ安定した生成を可能にする。
- 提案手法は,高報酬候補の早期発見を加速させる。
- 高品質なサンプル生成を維持し,多様性を保つ。
- モンテカルロ木探索とソフトグリーディメカニズムを統合した。
バイアス評価ベンチマークは一般化するのか? 音声に基づくSpeechLLMのジェンダーバイアス評価からの証拠 [cs.CL, cs.AI, cs.SD, eess.AS]目的:SpeechLLMにおけるジェンダーバイアスの評価方法の一般化可能性
- 音声LLMの普及に伴い,公平性やバイアスの評価が重要になっている。
- 既存のバイアス評価は多肢選択形式に偏り,現実的なタスクへの一般化が不明である。
- 多肢選択形式でのバイアスが,より自然な生成タスクでも一貫するかを検証する。
- 既存の多肢選択形式のバイアスベンチマークは,他のベンチマークや長文生成タスクへの性能予測には信頼性がないことが示された。
- 特定のバイアス傾向を誘導したモデルにおいて,その傾向が別のタスクに一般化しないことが確認された。
- 今後のモデルやベンチマークにおいて,行動の転移可能性を測定するための評価スイートの提案を行った。
AdaDetectGPT:統計的保証付きLLM生成テキストの適応的検出 [cs.CL, cs.AI, cs.LG, stat.ML]目的:LLM生成テキストの検出手法
- LLMの進化は,情報の信頼性検証を重要とする。
- 既存手法は,LLMの特性変化に弱く,精度が低下しやすい。
- LLM生成テキストの信頼性を高めるための検出精度向上。
- AdaDetectGPTは,既存のlogitsベース検出器の性能を向上させる適応的な学習手法である。
- 統計的保証により,真陽性率,偽陽性率,真陰性率,偽陰性率を制御可能である。
- 様々なデータセットとLLMの組み合わせで,最先端手法を最大37%まで改善した。
データサイエンスにおける情報探索のためのLLMベースマルチエージェントブラックボードシステム [cs.MA, cs.AI, cs.CL, cs.IR, cs.LG]目的:データサイエンスにおける情報探索
- データサイエンスの発展には,大規模データからの適切な情報抽出が不可欠である。
- 大規模かつ多様なデータレイクにおける関連データ発見が困難である。
- エージェント間の知識共有と協調により,効率的な情報探索を実現する。
- 本研究で提案するブラックボードアーキテクチャは,既存のベースラインを大幅に上回る性能を示した。
- エンドツーエンドの成功率において,13%から57%の相対的な改善が見られた。
- データ発見のF1スコアにおいても,最高の結果ベースラインに対して最大9%の相対的な向上を達成した。
強化学習における合成データに関するフォレンジック分析:モデルベースポリシー最適化におけるアルゴリズムの失敗の診断と解決 [cs.LG]目的:強化学習における合成データの効果,失敗要因,およびその解決策に関する分析
- データ効率の良い強化学習を実現する上で,合成データは重要な役割を果たす。
- 合成データが必ずしも性能向上に繋がらず,環境への依存性があることが課題である。
- モデルベースポリシー最適化における失敗要因を特定し,性能改善を目指す。
- DeepMind Control Suiteにおいて,MBPOはSACと比較して性能が劣ることが明らかになった。
- ダイナミクスモデルと報酬モデルのスケールミスマッチ,およびターゲット表現の選択が失敗要因として特定された。
- これらの問題に対処することで,MBPOはSACを上回り,OpenAI Gymにおける高い性能を維持することができた。
オフラインからオンラインへの強化学習における3つのレジーム [cs.LG, cs.AI]目的:オフラインからオンラインへの強化学習におけるオンライン微調整の安定性と可塑性の関係性の解明
- 強化学習は,自律的な意思決定を行う上で重要な役割を果たす。実世界への応用が期待されている。
- オフラインデータセットとオンライン相互作用を組み合わせる手法は不安定で,設定によって結果が大きく異なる場合がある。
- オフラインデータと事前学習済みポリシーの性能比較に基づいた,オンライン微調整のための指針を提示すること。
- 安定性と可塑性の原理に基づいて,オンライン微調整を3つのレジームに分類する枠組みを提案した。
- 大規模な実験により,提案された枠組みの予測と実験結果が,63ケース中45ケースで一致した。
- オフラインデータセットと事前学習済みポリシーの相対的な性能に基づいた,強化学習設計の原則を提供した。
逆強化学習による専門家によるデモンストレーションからの推論報酬モデルの学習 [cs.AI]目的:専門家によるデモンストレーションから推論のトークンレベルの報酬モデルを学習すること
- 大規模言語モデルの推論能力向上は,より高度な問題解決や意思決定を可能にするため重要である。
- 既存の教師あり学習は模倣に重点を置いており,強化学習は明確な報酬関数が必要となる。
- 専門家のデモンストレーションから直接,密な報酬モデルを学習することで,この問題を解決する。
- 学習された報酬モデルは,SFTベースラインよりも高い推論能力を発揮する(GSM8Kで79% vs 56%)。
- 報酬モデルは,Llama3アーキテクチャで最大12%の性能向上をもたらす報酬誘導型リランキングにも活用できる。
- 密な報酬は,論理的誤りの箇所を示す解釈可能なステップごとの診断を提供し,デバッグに役立つ。
半教師ありグラフ異常検知における正規性の較正 [cs.RO, cs.SY, eess.SY, cs.LG]目的:半教師ありグラフ異常検知における正規性の較正
- グラフ構造データにおける異常検知は,幅広い応用において重要な役割を果たす。
- 既存手法では,教師ありの正規ノードに過剰適合し,誤検出を引き起こす可能性がある。
- ラベルなしデータも活用し,正規性の較正を行うことで誤検出を抑制することを目指す。
- 提案手法GraphNCは,教師モデルとノード表現空間の両方で正規性を較正するフレームワークである。
- アノマリスクア分布アライメント(ScoreDA)により,モデルのアノマリスクアを教師モデルの分布に合わせる。
- 摂動に基づく正規化(NormReg)により,ラベル付きノードの表現をよりコンパクトにし,正規性を高める。
平坦性に着目した確率的勾配ランジュバン動力学 [cs.LG, math.OC, math.PR, stat.ML]目的:深層学習アルゴリズムの挙動と汎化性能を理解するための重要な視点である損失関数の平坦性を考慮した最適化手法
- 深層学習の性能向上には,最適化手法の改善が不可欠であり,損失関数の形状はその重要な要素である。
- 従来の最適化手法では,損失関数の平坦性を十分に考慮しておらず,汎化性能の向上が見られない場合がある。
- 損失関数の平坦性を重視した最適化手法を開発し,深層学習モデルの汎化性能と不確実性推定の精度を向上させる。
- 提案手法fSGLDは,SGDやSGLDと同等の計算効率とメモリ効率を維持しつつ,平坦な領域への学習を促進する。
- 理論的な解析により,fSGLDがノイズスケールσと逆温度βの間の特定の関係の下で,平坦性バイアスのあるギブス分布に収束することが示された。
- 実験結果から,fSGLDは,画像分類,不確実性定量化,分布外検出など,様々なタスクにおいて優れた性能と信頼性の高い不確実性推定値を示すことが確認された。
DRIFT:実世界の嗜好学習における豊富なユーザー不満からの学習 [cs.CL, cs.AI]目的:実世界のユーザー不満信号を用いた言語モデルの学習手法
- 対話型AIやコード生成支援など,実用的な大規模言語モデルの性能向上は重要である。
- 明示的な満足度フィードバックは限られており,豊富な不満信号の活用が課題となっていた。
- 実世界の不満信号を活用し,より効果的な言語モデルの学習を目指す。
- DRIFTは,実世界の不満信号を基盤とし,進化するポリシーから動的にポジティブサンプルを抽出する。
- WildFeedbackやUltraFeedbackデータセットを用いた実験で,ベースモデルと比較して高い性能向上を示した。
- 特に大規模モデル(14B)において,DRIFTはGPT-4o-miniをWildBenchで上回る成果を上げた。
F-スケジューラ:拡散モデルの高速サンプリングのための無償設計空間の解明 [cs.GR, cs.AI, eess.IV]目的:拡散モデルの高速サンプリング手法の開発
- 拡散モデルは高解像度画像の生成において最先端の性能を示すが,計算コストが高いという課題がある。
- 少ステップ(10ステップ未満)サンプリングでは,既存のFree-U Netによる改善効果が限定的である。
- Free-U NetとODEソルバーを組み合わせた新たなスケジューラにより,高速かつ高品質なサンプリングを実現する。
- 提案手法F-スケジューラは,DPM++ 2mやUniPCといった既存のODEソルバーと互換性があり,少ないステップ数で高品質な画像生成を可能にする。
- 1024x1024解像度の画像を6ステップ,512x512解像度の画像を5ステップでサンプリングでき,最先端の蒸留モデルや20ステップDPM++ 2mソルバーを上回るFIDスコアを達成する。
- 情報理論に基づき,適切なスケジューリングが,学習ベースの拡散蒸留モデルを凌駕する可能性を示唆する。
アドバイザーモデルによるブラックボックスLLMの訓練方法:誘導の工夫 [cs.LG, cs.AI, cs.CL]目的:ブラックボックスLLMの能力向上に資する動的な自然言語アドバイスの生成
- 大規模言語モデルの利用が拡大する中,その性能を最大限に引き出す方法が重要である。
- ブラックボックスLLMはカスタマイズが難しく,プロンプト設計に限界がある。
- プロンプト最適化に代わる,低コストで効果的なLLM性能改善手法を提案する。
- アドバイザーモデルは,GPT-5のRuleArena (Taxes)タスクにおいて71%の性能向上を達成した。
- Gemini 3 ProのSWEエージェントタスクにおけるステップ数を24.6%削減した。
- GPT-5のユーザー設定への適応において,既存の静的プロンプト最適化手法を上回る成果が得られた。
多波長・ハイパースペクトル衛星データの融合による深層学習を用いた有害藻類ブルームモニタリング [cs.LG, cs.AI]目的:有害藻類ブルームの検出と重症度,種別に関する製品の生成
- 水質汚染や生態系への影響から,有害藻類ブルームのモニタリングは重要である。
- 十分なラベル付きデータの不足が,衛星データを用いた有害藻類ブルームの検出の課題となっている。
- 自己教師あり学習を用いて,ラベルなしデータからも高精度なモニタリングを可能にすることを目指す。
- 提案手法SIT-FUSEは,複数の衛星センサーデータを融合し,ラベルなしでもHABの重症度と種別を推定可能である。
- メキシコ湾と南カリフォルニアの現地データとの比較において,全植物プランクトン量,Karenia brevis,Pseudo-nitzschia spp.の測定値との高い一致性が見られた。
- 本研究は,現地観測が限られた環境におけるHABモニタリングのスケールアップと,自己教師あり学習の運用化に貢献する。
大規模言語モデルの強化学習におけるトラストリージョン:TROLL [cs.LG, stat.ML]目的:大規模言語モデルの報酬ベースのファインチューニングにおける学習の安定性と性能向上
- 大規模言語モデルの性能向上は,自然言語処理の発展に不可欠である。
- 強化学習におけるクリッピングメカニズムは,不安定な更新や最適性能の妨げとなる場合がある。
- より原理的なKLベースのトラストリージョンを用いて,学習の安定化と性能向上を目指す。
- 提案手法TROLLは,PPOライクなクリッピングの直接的な代替手法として機能し,推論動作は変更しない。
- 数学的推論およびコード生成タスクにおいて,TROLLは学習速度,安定性,最終的な成功率においてPPOライクなクリッピングを上回る。
- モデルの重要なトークンlogitsの部分集合に作用することで,計算コストと投影効果のバランスを取っている。
拡散言語モデルによる推論のための単純な方策勾配 [cs.LG, cs.AI, cs.CL]目的:拡散言語モデルの推論能力向上
- 大規模言語モデルは自然言語処理の発展に不可欠であり,その性能向上が求められている。
- 拡散言語モデルは尤度計算が困難であり,強化学習などの後学習手法の適用が遅れていた。
- 拡散言語モデルにおける効率的かつ効果的な後学習手法の開発。
- 提案手法AGRPOは,数学および推論タスクにおいて,ベースモデルLLaDAと比較してGSM8Kで9.9%,MATH-500で4.6%,Countdownで59.4%,Sudokuで69.7%の性能向上を達成した。
- AGRPOは,既存の拡散言語モデル強化学習手法であるdiffu-GRPOを上回る結果を示した。
- AGRPOで学習したモデルは,推論速度を4倍に向上させつつ,性能劣化を最小限に抑えることが確認された。
MLLMEraser:活性化ベクトル操作によるマルチモーダル大規模言語モデルのテスト時アンラーニング [cs.LG, cs.AI]目的:マルチモーダル大規模言語モデルにおけるテスト時アンラーニング手法
- 大規模言語モデルの活用が進む中で,プライバシー保護や知識の更新が重要課題となっている。
- 既存のアンラーニング手法は計算コストが高く,知識の歪みを引き起こす可能性がある。
- 活性化ベクトル操作により,学習不要で効率的なテスト時アンラーニングを実現する。
- MLLMEraserは,敵対的摂動を用いた活性化ベクトル操作により,知識の消去と保持のバランスを取る。
- LLaVA-1.5およびQwen-2.5-VLでの実験により,既存手法を上回る消去性能と低い計算コストが確認された。
- 入力に応じた操作機構により,有用性の低下を最小限に抑えつつ,指定されたコンテンツの忘却を強化する。
ハイパーネットワーク駆動による注意ヘッド間の低ランク適応 [cs.LG]目的:注意ヘッド間の相互作用と共有構造の活用による,低ランク適応の効率向上
- 大規模言語モデルの微調整は計算コストが高く,リソース制約がある環境では困難である。
- 既存のLoRA手法は各注意ヘッドを独立して微調整するため,ヘッド間の情報共有が不十分である。
- ハイパーネットワークを用いて注意ヘッド間で共有する低ランク行列を生成し,効率的な微調整を実現する。
- HyRAは,LoRAと比較して,少ないデータで高い性能を発揮し,サンプル効率の向上に貢献する。
- 言語モデルと画像モデルの両方のベンチマークにおいて,既存のPEFT手法を上回る結果が得られた。
- ハイパーネットワークによる共有ジェネレーターは,冗長な特徴学習を抑制し,クロスヘッドの情報共有を促進する。
自己改善エージェントの統計的限界について [cs.AI, cs.LG]目的:自己改善エージェントにおける効用と学習の間の緊張
- 人工知能が超知能に向かう中で,自己改善能力の理解は不可欠である。
- 自己改善システムの能力が無限に拡大した場合,学習の安定性が損なわれる可能性がある。
- 効用最大化による自己変更が学習可能性を阻害する問題を解決する。
- 自己変更によって性能が向上しても,信頼性のある学習のための統計的条件が損なわれるという緊張関係を特定した。
- モデル系列の容量が一様制限されている場合にのみ,分布フリーの保証が維持されることが示された。
- 標準的な仮定の下では,安全な自己変更のための単一の境界が導き出された。
MARS:マルチエージェント強化学習による共進化型デュアルシステム深層研究 [cs.AI, cs.CL, cs.LG]目的:大規模言語モデルの認知システム最適化
- 大規模言語モデルは,複雑なタスク処理能力を持つ一方,計算コストや知識の鮮度問題が課題である。
- 単純な情報処理に過剰な計算資源を消費し,最新知識へのアクセスが制限されるという課題が存在する。
- システム1とシステム2の協調的な学習により,効率的な推論と知識利用を実現することを目的とする。
- MARSは,マルチエージェント強化学習を用いて,システム1(直感的処理)とシステム2(熟慮的推論)を共同で最適化する。
- Zero RL環境下で訓練されたMARS(8B)は,HLEベンチマークでWebThinker(32B)を上回り,Claude 3.7 Sonnetに迫る性能を示した。
- 提案手法は,知識集約型タスク7つにおいて平均8.9%の性能向上を達成した。
PatternKV:KV表現の平坦化が量子化のヘッドルームを拡大 [cs.LG, cs.AI]目的:自己回帰型LLMにおけるKVキャッシュの量子化精度向上
- LLMの推論において,KVキャッシュは計算量の削減に貢献する一方で,メモリと帯域幅のボトルネックとなり得る。
- 従来のKV量子化では,KV分布の平坦性が低いため,量子化精度を上げると精度が大幅に低下するという課題がある。
- KV分布を平坦化し,低ビット量子化における精度劣化を抑制することで,推論効率の向上を目指す。
- 提案手法PatternKVは,Kキャッシュの安定した構造とVキャッシュの潜在的な意味的規則性を活用し,KVベクトルをパターンに沿って量子化する。
- PatternKVは,KV分布を平坦化し,量子化のターゲット範囲を狭めることで,低ビット量子化の精度を向上させる。
- 長文脈やテスト時スケーリングにおいて,2ビットの精度向上,FP16比で0.08%の4ビット精度低下,テスト時スケーリング精度の平均10%向上,スループット1.5倍向上,バッチサイズの1.25倍拡大を達成した。
HOI-R1:ヒューマン・オブジェクトインタラクション検出におけるマルチモーダル大規模言語モデルの可能性の探求 [cs.CV, cs.AI]目的:ヒューマン・オブジェクトインタラクション検出における言語モデルの潜在能力
- 人間と物体とのインタラクション理解は,ロボティクスや画像認識などの分野で不可欠な技術である。
- 既存手法は,複雑なフレームワークと追加モジュールを必要とし,開発や応用が難しいという課題がある。
- 大規模言語モデルの推論能力を活用し,追加モジュールなしでHOIDタスクを解決することを試みる。
- 提案手法HOI-R1は,Qwen-VL系列やRex-Omniを含む複数のオープンソースMLLMにおいて,一貫した性能向上を示した。
- 特に,HOI-R1はQwen2.5-VL-3Bの精度を2倍に向上させ,高い汎化能力を発揮した。
- HOIDタスクを純粋なテキストによって解決するためのHOI推論プロセスとHOID報酬関数を導入した。
iPEAR:注意と残差を用いた反復ピラミッド推定による変形可能な医用画像登録 [cs.CV, cs.AI]目的:変形可能な医用画像登録の精度向上
- 医用画像解析において,正確な画像登録は疾患の診断,治療計画,手術支援に不可欠である。
- 既存のピラミッド登録ネットワークでは,解剖学的ずれの蓄積や,変形要件に応じた最適化反復回数の動的な決定機構が不足している。
- 解剖学的ずれの蓄積を軽減し,変形要件に応じた最適化反復回数を適応的に決定することで,医用画像登録の精度向上を目指す。
- 提案手法iPEARは,脳MRIと腹部CTのデータセットにおいて,最先端の登録ネットワークと比較して精度が向上した。
- iPEARは,Fused Attention-Residual Module(FARM)と,二段階のThreshold-Controlled Iterative(TCI)戦略を導入することで,この精度向上を実現している。
- 推論速度とモデルパラメータサイズは,既存手法と同等レベルを維持している。
ロバストな翼設計最適化のためのニューラルサロゲート強化マルチ手法フレームワーク [cs.CL, cs.NE, math.OC]目的:翼設計最適化のためのフレームワーク
- 航空機の性能向上には,空力特性と安定性を両立した翼設計が不可欠である。
- 従来の翼設計は計算コストが高く,効率的な最適化が課題であった。
- 本研究は,高速かつ精密な翼設計を可能にするフレームワークを提案する。
- 提案手法は,Vortex Lattice Methodとニューラルネットワークモデルを組み合わせることで,空力性能の迅速かつ正確な予測を実現した。
- 複数の最適化手法(PSO,GA,MultiStart,ベイズ最適化,Lipschitz最適化)を比較検討し,それぞれの収束特性と効率を明らかにした。
- 本フレームワークは,空力特性と安定性の向上に貢献し,再現性を高めるために実装を公開している。
LLMエージェントとグラフ最適化:自動データ品質改善アプローチ [cs.LG]目的:テキスト付与グラフの包括的な品質最適化
- 現代データ管理・分析において,グラフ構造データが重要性を増しており,テキスト情報を組み合わせることで応用範囲が広がる。
- グラフニューラルネットワーク等の分析モデルは,データの品質に大きく左右され,テキスト,構造,ラベルの不備が性能低下の原因となる。
- 既存研究では特定の劣化タイプに焦点を当てていたため,本研究では包括的なデータ品質改善を目指す。
- LAGA(Large Language and Graph Agent)は,検出,計画,行動,評価エージェントを統合した自動ループで,グラフ品質をデータ中心的に制御する。
- 実験の結果,LAGAはテキスト,構造,ラベルの各側面を総合的に改善し,効果性,堅牢性,スケーラビリティが確認された。
- データ中心的な品質最適化が,信頼性の高いテキスト付与グラフ分析に不可欠であることが示された。
モデルベースの敵対的模倣学習に対するほぼ最適な二階保証 [cs.LG]目的:オンライン敵対的模倣学習のサンプル複雑性解析
- ロボット工学等において,報酬なしでの学習は重要であり,人間の専門家データ活用が鍵となる。
- オンラインインタラクションの利点や確率的影響が十分に理解されておらず,サンプル効率が課題。
- モデルベース手法により,サンプル複雑性理論保証を確立し,効率的な学習を目指す。
- 提案手法MB-AILは,汎関数近似下で,二階のサンプル複雑性保証を確立した。
- MB-AILは,構築された困難な事例群に対して,ミニマックス最適なサンプル複雑性を達成する。
- 実験により,理論的結果が検証され,既存手法と同等またはそれ以上のサンプル効率が示された。
検索が誤った方向に進んだとき:ウェブ拡張大規模言語モデルのレッドチーム化 [cs.CL, cs.SI, cs.CY, cs.CR, cs.AI]目的:ウェブ検索拡張大規模言語モデルにおける安全性評価手法
- 大規模言語モデルの活用拡大に伴い,外部情報源へのアクセスが重要になっている。
- ウェブ検索の導入により,有害または信頼性の低い情報にユーザーが晒されるリスクがある。
- ウェブ検索拡張モデル特有の脆弱性を明らかにし,安全なモデル開発を促す。
- 既存のレッドチーム手法では,ウェブ検索プロセスに起因するリスクを捉えきれない。
- 本研究で提案するCREST-Searchは,有害な引用を誘発する攻撃戦略と,敵対的効果を高める改良メカニズムを備えている。
- 実験により,CREST-Searchが安全フィルターを回避し,ウェブ検索拡張LLMシステムの脆弱性を効率的に暴露することが示された。
AIと意識 [cs.AI]目的:AI意識に関する文献の概観
- AI技術の進歩に伴い,意識の定義とAIへの適用可能性が重要な課題となっている
- AIが意識を持つか否かの判断基準が確立されておらず,議論が分かれている
- 主要な意識理論に基づいてAIの意識の有無を検討し,現状の議論の限界を示す
- 有力な意識理論によっては,近い将来に意識を持つAIシステムが出現する可能性がある
- しかし,どの理論が正しいかを判断することは困難であり,AIの意識レベルを明確にすることはできない
- 既存の議論はAI意識の判断に十分な根拠を提供せず,懐疑的な視点から検討する必要がある
バッチ型アクティブラーニングにおける近視的ベイズ決定理論と部分的バッチラベルサンプリング [cs.LG, cs.AI, stat.ML]目的:バッチ型アクティブラーニングのための近視的ベイズ決定理論
- アクティブラーニングは,ラベル付けコストを削減し,効率的にモデルを学習するための重要な手法である。
- 既存のアクティブラーニング手法の選択基準が明確でなく,大規模バッチサイズへの対応が課題である。
- 大規模バッチサイズに対応可能な効率的なアクティブラーニングアルゴリズムの開発。
- 提案手法であるParBaLS EPIGは,固定予算下でBayesian Logistic Regression on Neural Embeddingsにおいて優れた性能を示した。
- ParBaLSは,EPIGアルゴリズムのスケーラビリティ問題を解決するための部分的バッチラベルサンプリング手法である。
- 本研究は,近視的ベイズ決定理論に基づき,既存手法の性能向上に貢献する。
固定基底空間における係数写像を通じた演算子の学習 [math.NA, cs.LG, cs.NA]目的:偏微分方程式の解作用素の近似
- 近年,複雑な物理現象のシミュレーションにおいて,機械学習を用いた解法が注目されている。
- 従来の離散化手法は次元の呪い,メッシュ依存性,高解像度設定での計算コストが課題となる。
- 固定基底を用いた演算子学習により,計算効率と汎化性能の向上を目指す。
- 提案手法FB-C2CNetは,固定された基底関数による係数空間内で演算子を学習することで,高次元問題への適用を可能にする。
- 基底関数の選択とネットワーク学習を分離することで,入力・出力空間の次元削減と学習パラメータ数の削減を実現した。
- 線形,非線形,高次元問題を含む様々なベンチマークにおいて,高い予測精度と大幅な学習時間短縮を達成した。
