arXiv雑要約
AI - 2026/05/08 公開
超知能検索エージェント:情報検索の次のフロンティア [cs.IR, cs.AI, cs.LG]目的:情報検索における超知能の実現
- 組織内の膨大な知識ベースへのアクセスが重要性を増している。
- 従来の検索方法は,専門家とは異なり,試行錯誤的で非効率である。
- LLMを活用し,検索回数を減らし,効率的な情報検索を実現する。
- SIRAは,複数回の探索的な検索を単一の検索アクションに圧縮する能力を持つ。
- SIRAは,既存の密な検索手法や最先端のエージェントベースラインを凌駕する性能を示した。
- LLMの認知機能と軽量なコーパス統計に基づき,解釈可能かつ効率的な検索を可能にする。
AI共同数学者:エージェントAIによる数学者の研究加速 [cs.CL, cs.AI]目的:数学研究におけるAIエージェント活用を通じた研究支援
- 数学研究は科学技術の発展に不可欠であり,その重要性は計り知れない。
- 数学研究は時間と労力を要し,新たな発見には困難が伴うことが多い。
- AIを活用し,数学者の研究プロセスを効率化し,新たな発見を支援すること。
- AI共同数学者は,数学者のアイデア創出,文献調査,計算探索,定理証明,理論構築を支援する。
- 実験の結果,未解決問題の解決,新たな研究方向の発見,見落とされていた文献の特定に貢献した。
- FrontierMath Tier 4において,AIシステムとして最高となる48%のスコアを達成した。
ベンチマークが存在しない場合:正解ラベルなしでのLLM安全スコア比較検証 [cs.LG, cs.AI, cs.CL]目的:LLMの安全スコア比較検証手法
- LLMの安全性は,社会実装において不可欠であり,継続的な評価が求められる。
- 適切な安全評価ベンチマークが,言語や分野,規制によっては存在しない場合がある。
- 正解ラベルがない状況下でも,信頼性の高い安全スコア比較を可能とする手法を確立する。
- 本研究では,シナリオベース監査と再現性のある評価を通じて,安全スコアの妥当性を検証するフレームワークを提案した。
- 実験結果から,安全/危険なターゲット間の識別性能は高く,スコアの変動要因を特定し,再現性が確認された。
- 実際の調達事例では,安全性の高いモデルはシナリオやリスク指標によって異なり,スコアと評価条件の透明性が重要であることが示された。
オプティマイザとモデルの一貫性:事前学習と同じオプティマイザによるフルファインチューニングは忘却が少ない [cs.LG, cs.AI, math.OC]目的:大規模言語モデルの学習・ファインチューニングにおけるオプティマイザの一貫性
- 大規模言語モデルの性能向上には,効率的な学習方法の確立が不可欠である。
- ファインチューニング時にオプティマイザを変更すると,事前学習で獲得した知識の忘却が課題となる。
- 事前学習とファインチューニングで同じオプティマイザを使用することで,知識の忘却を抑制し性能を向上させる。
- 事前学習と同じオプティマイザでフルファインチューニングを行うと,他のオプティマイザやLoRAよりも学習と忘却のバランスが優れている。
- オプティマイザは活性化に正則化効果を与え,事前学習済みのチェックポイント周辺の学習環境を変化させる。
- ファインチューニングにおける重みの更新は,事前学習で獲得した知識の忘却を抑制する特定の構造に従うべきであり,同じオプティマイザがそれを実現する。
グローバルLLMリーダーボードが誤解を招く理由:異種教師あり機械学習のための小規模ポートフォリオ [cs.LG, cs.DM, cs.ET, math.OC]目的:異種教師あり機械学習における予測誤差とユーザーカバレッジを最適化するポートフォリオの構築
- LLMの性能評価は,その実用性を判断する上で不可欠であり,社会への貢献度を高めるために重要である。
- 既存のグローバルリーダーボードは,言語,タスク,時間による意見の異質性を考慮しておらず,信頼性の低いランキングを生み出している。
- 意見の異質性を考慮したポートフォリオを構築することで,より公平で包括的なLLM評価を実現し,実用的な応用を促進することを目指す。
- 現在のLLMリーダーボードは,多数の比較データ分析の結果,統計的に有意な差が見られないことが判明した。
- 言語ごとにランキングをグループ化することで,評価の一貫性が大幅に向上し,より信頼性の高い結果が得られた。
- 提案する$(\lambda, \nu)$-ポートフォリオは,既存のグローバルランキングよりも少ないモデル数で,より多くのユーザーをカバーできることが示された。
数学的推論のための検証者に基づく難問題生成 [cs.LG, cs.AI, cs.CL]目的:数学的推論のための難問題生成手法
- LLMの能力向上には,学習データとしての質の高い問題が不可欠である。
- 既存手法では,有効かつ挑戦的な問題の自動生成が困難である。
- 検証者を用いて問題の妥当性と難易度を制御し,質の高い問題生成を実現する。
- 提案手法VHGは,既存手法と比較して,有意に高い性能を示すことが確認された。
- VHGは,問題の有効性と難易度を両立させることで,より効果的な問題生成を可能にする。
- 二種類の検証者(記号的検証者とLLMベース検証者)を用いた評価により,その有効性が示された。
GUIグラウンディングにおける訓練不要のバイアス軽減手法BAMI [cs.RO, cs.CL, cs.CV, cs.AI]目的:GUIグラウンディングにおけるバイアス軽減
- GUIエージェントのタスク実行能力に不可欠な技術であり,自動化の進展に寄与する。
- 複雑なGUI環境下では,既存モデルの性能が十分でないという課題が存在する。
- 高解像度画像と複雑なUI要素に起因するバイアスを軽減し,GUIグラウンディングの精度向上を目指す。
- 提案手法BAMIは,訓練なしで様々なGUIグラウンディングモデルの精度を大幅に向上させる。
- TianXi-Action-7Bモデルに適用した場合,ScreenSpot-Proベンチマークでの精度を51.9%から57.8%に向上させた。
- 多様なパラメータ設定での消去実験により,BAMIの頑健性と有効性が確認された。
UniPool:Mixture-of-Expertsにおけるグローバル共有のエキスパートプール [cs.LG, cs.AI]目的:Mixture-of-Expertsモデルにおけるエキスパート容量の共有
- 大規模言語モデルの性能向上には,モデルの規模拡大と効率的なパラメータ利用が不可欠である。
- 従来のMoE構造では,層ごとに独立したエキスパートセットが必要となり,モデルの深さ増加に伴いパラメータ数も増加する。
- 本研究は,エキスパート容量をグローバルに共有することで,パラメータ効率を高め,モデル性能を向上させることを目指す。
- UniPoolは,レイヤーごとに独立したエキスパート所有権を単一の共有プールに置き換えることで,有効なエキスパート容量を確保する。
- 実験の結果,UniPoolは,従来のMoEモデルと比較して,検証損失とパープレキシティを改善することが示された。
- 共有プール設計により,エキスパートパラメータは深さに対して線形に増加する必要がなく,より効率的なモデル構築が可能となる。
ActCam:ビデオ生成のためのゼロショットジョイントカメラおよび3Dモーション制御 [cs.CV, cs.AI, cs.LG]目的:ビデオ生成におけるキャラクターのモーションとカメラの軌跡の同時制御
- 芸術的なビデオ制作において,パフォーマンスと撮影技術の両方を精密に制御することが重要である。
- 既存手法では,キャラクターの動きとカメラの動きを同時に,かつ自然に制御することが困難である。
- 学習なしで,キャラクターの動きとカメラパラメータを同時に制御し,高品質なビデオ生成を実現すること。
- ActCamは,既存の画像からビデオへの拡散モデルを活用し,シーンの深度とキャラクターの姿勢を条件として利用する。
- これにより,カメラの動きに沿ったキャラクターの姿勢と,幾何学的に整合性の取れた深度条件を生成することが可能となった。
- 評価実験の結果,ActCamはカメラの追従性とモーションの忠実度を向上させ,特に大きな視点変化において人間の評価で好ましい結果が得られた。
エージェント探索訓練における接頭辞ベースのロールアウト再利用 (PRAISE) [cs.AI, cs.CL, cs.IR]目的:エージェント探索訓練におけるデータ効率と報酬の帰属改善
- 複雑なタスク解決において,LLMを用いたエージェント探索は重要な手法となりつつある。
- 既存手法では,ロールアウトの利用効率が悪く,最終回答のみの報酬によるスパースな報酬問題が存在する。
- ロールアウトの再利用と中間ステップでの報酬付与により,訓練効率と精度向上を目指す。
- 提案手法PRAISEは,探索軌跡から接頭辞状態を抽出し,中間回答を得ることで訓練データ量を増強する。
- 接頭辞状態を用いた性能差からステップレベルの報酬を導出し,報酬の帰属問題を緩和する。
- マルチホップQAベンチマークにおいて,既存手法を上回る性能が確認された。
TurboQuantと先行研究DRIVE/EDENとの関連性に関する考察 [cs.LG, cs.AI, cs.NI]目的:TurboQuantとDRIVE/EDENの関係性の明確化
- 量子化はモデルの軽量化に不可欠であり,効率的な推論を可能にする。
- 既存の量子化手法では,精度と効率のバランスが課題となっていた。
- TurboQuantとEDENの性能比較を通して,より最適な量子化手法を検討する。
- TurboQuantはEDENの特殊なケースであり,スケールパラメータを固定することで実現される。
- バイアス付きEDENは最適化されたスケールパラメータを用いることで,TurboQuantよりも高い精度を示す。
- 実験結果はEDENがTurboQuantをあらゆる設定で上回ることを示しており,その性能優位性を裏付けている。
QUIVER:代替支援進化多目的最適化におけるコストを考慮した適応的選好クエリ [cs.CL, cs.CY, cs.MA, cs.LG, cs.NE, math.OC]目的:代替支援進化多目的最適化における,目的関数の評価と意思決定者の選好の抽出の最適なバランス
- 多目的最適化は,複数の目的を同時に最適化する手法であり,現実の問題解決に不可欠である。
- 意思決定者の選好を効率的に抽出する方法が確立されておらず,計算コストとのトレードオフが課題である。
- 目的関数の評価コストと選好抽出コストを考慮し,意思決定の質を最大化する適応的なクエリ戦略を提案する。
- QUIVERは,DTLZおよびWFGベンチマークにおいて,他の手法と比較して低い最終的な効用後悔を示した。
- 特にWFG問題において,QUIVERはベースラインよりも25%改善された効用後悔(WFG4で2.14,WFG9で2.82)を達成した。
- 問題の難易度に応じて,QUIVERはペアワイズ選好ステートメント(PS)と無差別調整(IA)の最適な組み合わせを適応的に選択した。
ヘッジファンドの視点から見た株価予測における大規模言語モデルのレビュー [q-fin.PR, cs.AI, cs.LG, q-fin.ST]目的:株価予測における大規模言語モデルの応用
- 金融市場では,より正確な株価予測が常に求められており,投資判断の質を向上させることが重要である。
- 株価予測はノイズが多く,従来の統計モデルでは予測精度の限界があった。
- 大規模言語モデルを活用し,市場の複雑な情報を分析することで,予測精度の向上を目指す。
- 本レビューは,金融ニュースやソーシャルメディアのセンチメント分析,財務報告書や決算発表の分析など,株価予測における大規模言語モデルの最近の応用をまとめている。
- センチメント分析の脆弱性,データセットの設計,評価指標,データ漏洩といった,文献では過小評価されがちな実用的な落とし穴に特に注意を払っている。
- ヘッジファンドの視点から,現実の市場摩擦下での堅牢性をストレステストし,大規模言語モデルを実際の取引パイプラインに統合するための指針を提供する。
MPNet:多リズム脳波信号デコーディングのための堅牢かつ効率的な多様体プーリングネットワーク [eess.SP, cs.HC, cs.LG]目的:多リズム脳波信号のデコーディングにおける多様体プーリングネットワークの提案
- 脳波は脳活動の重要な指標であり,医療やブレイン・マシン・インターフェースへの応用が期待される。
- 複雑な時間的ダイナミクスをモデル化するには高次元の入力が必要で,計算コストが高いという課題がある。
- 計算コストを削減しつつ,高精度な脳波信号のデコーディングを実現することを目的とする。
- MPNetは,従来のRiemannianモデルと同等の精度を達成し,最速で10倍の速度で動作する。
- リズム適応型畳み込みフロントエンドと新しい多様体ノードプーリング層により,計算コストを大幅に削減できる。
- 限られたデータ条件下でも堅牢な性能を維持し,実用的な脳波アプリケーションへの適用可能性を示す。
MedMamba:医療時系列データの分類のためのMambaの再構築 [eess.SP, cs.AI, cs.LG]目的:医療時系列データの分類
- 医療データ解析の自動化は,早期診断や個別化医療の実現に不可欠である。
- 既存の手法では,長距離依存関係の捉えにくさや計算コストが高いという課題がある。
- 生理学的信号の特徴を考慮した効率的なモデルの構築を目指す。
- MedMambaは,既存の最先端手法と比較して,様々なモダリティで一貫して優れた性能を示した。
- 特に,PTBデータセットで85.97%の精度,ADFTDデータセットで54.72%の精度と52.01%のF1スコアを達成し,新たな最高性能を確立した。
- 推論速度が4.6倍向上しており,リアルタイムな臨床展開に適していることが示された。
風の影響下にある高高度プラットフォーム基地局の動的配置:PPOに基づくアプローチ [eess.SP, cs.AI]目的:風の影響下にある高高度プラットフォーム基地局の動的配置手法
- 海上地域における無線通信インフラ整備の遅れを補う手段として,高高度プラットフォームが注目されている。
- 高高度プラットフォームの配置は,大気中の風の影響を受けやすく,安定した通信性能を維持することが課題である。
- 風の影響下でも安定した無線通信を実現するための,高高度プラットフォーム基地局の動的配置問題を解決する。
- 提案手法は,風による位置ずれを効果的に抑制し,海上ユーザーへの信頼性の高い広域接続を確保することが示された。
- 深層強化学習アルゴリズムPPOを用いることで,変動する環境下においてもロバストな配置ポリシーを獲得した。
- コーディネーターHAPSに配置された集中型エージェントが,無線測定とネットワークフィードバックに基づき,複数のHAPSを制御する。
激しい運動アーチファクトと水中環境下における知識蒸留による省メモリEDAノイズ除去 [eess.SP, cs.AI]目的:ウェアラブルIoT環境におけるEDA信号のノイズ除去
- ウェアラブルIoTは,自律神経評価を含む継続的な健康モニタリングに広く利用されており,重要性が増している。
- EDA信号は,運動アーチファクトや環境ノイズに弱く,過酷な環境下での信頼性確保が課題である。
- 本研究は,多様な環境下でもロバストなノイズ除去手法を確立し,ウェアラブルデバイスへの実装を目指す。
- 知識蒸留により,モデルサイズと計算コストを大幅に削減しつつ,ノイズ除去性能を維持した。
- 水中環境下での実証実験により,皮膚コンダクタンス応答の再構成精度が大幅に向上した。
- ノイズ除去された信号は,CNS-OT予測性能を向上させ,症状発症前の早期予測を可能にした。
PhenixにおけるクライオEM密度マップセグメンテーションの強化:原子モデル構築の改善 [q-bio.BM, cond-mat.mtrl-sci, cs.AI, q-bio.QM]目的:クライオEM密度マップからの原子モデル構築
- 構造生物学研究において,タンパク質構造の解析は生命現象の理解に不可欠である。
- クライオEMデータにはノイズやアーチファクトが含まれており,正確なモデル構築が困難である。
- ノイズやアーチファクトの影響を軽減し,高精度な原子モデル構築を実現すること。
- PhenixCraftパイプラインは,AlphaFold予測を統合することで,マップセグメンテーションの精度を向上させる。
- 従来のPhenixによるモデル構築と比較して,TMスコアと配列精度が大幅に向上した。
- PhenixCraftは,自動化されたモデル構築により,効率性と精度を両立している。
固定予算下でのロールアウト情報量の最大化:ツール使用型エージェント強化学習のための木探索のサブモジュール性 [stat.ML, cs.AI, cs.LG]目的:固定予算下でのロールアウト情報量の最大化
- 強化学習において,エージェントの性能向上には探索が不可欠であり,効率的な探索手法が求められている。
- ツール使用型強化学習では,探索空間が広大になりやすく,限られた予算内で有効な探索を行うことが困難である。
- 限られた予算内で,ツール使用時の探索における情報獲得効率を最大化することを目指す。
- 提案手法InfoTreeは,不確実性を考慮したUUCBと適応的予算配分器ABA,非同期的な推測拡張を組み合わせることで,ロールアウト情報量を向上させる。
- 実験結果から,InfoTreeは既存手法と比較して,数学的推論,Web検索,コーディングといった複数のベンチマークで高い性能を示すことが確認された。
- UUCBのロバスト性検証により,多くのハイパーパラメータ空間で安定した性能が維持されることが示された。
ブースティングに基づく共役ベイズモデルによる腫瘍科需要トレンド予測 [stat.ML, cs.LG, stat.AP]目的:腫瘍科の需要トレンド予測手法
- 医療資源の効率的配分には,正確な需要予測が不可欠である。
- 既存手法では,長期的なトレンドの変化を捉えきれない場合がある。
- 短期・長期のトレンド変化を捉え,予測精度を向上させることを目指す。
- 提案モデルは,ブラジルの腫瘍科データにおいて,既存手法よりもトレンド検出の精度が高いことが示された。
- 特に,予測方向の正答率は,第二位のモデルと比較して最大38.25%向上した。
- 共役ベイズ更新の解析的容易性を維持しつつ,残差に基づくブースティング機構を組み込むことで達成された。
証明理論的意味論を通じた情報に関する推論主義的考察 [math.LO, cs.AI]目的:情報の推論主義的意味論の理論構築に向けた第一歩
- 現代社会において,情報は不可欠であり,その理解は社会基盤を支えるシステムを理解する上で重要である。
- 情報の論理的・数学的な基礎は確立されておらず,複雑なシステムを扱うための適切な推論ツールが不足している。
- 推論に基づいた情報理論を構築し,分散システムのモデリングや情報フローの解析に役立つ数学的基盤を提供する。
- 意図性,真理,伝達可能性というDretskeの概念を,推論可能性に置き換えることで情報の概念分析を再構築した。
- 推論主義的な情報の最小単位である「インフェロン」の数学的・論理的理論を,証明理論的意味論(P-tS)を用いて展開した。
- P-tSのツールを用いて,分散システムのモデリングを可能にし,情報フローの推論に基づく理論を構築した。
バッチプロセスにおける少ないサンプルで効率的なベイズ最適化のためのメタ学習 [math.OC, cs.LG]目的:バッチプロセスのレシピ最適化におけるメタ学習モデルの性能評価
- バッチプロセスは,品質変動が大きく,効率的な最適化が課題である。
- 従来のベイズ最適化は,静的なモデルを使用するため,変動するバッチプロセスへの適用が難しい。
- 本研究は,少ない実験回数でバッチプロセスの最適化を可能にするメタ学習モデルを提案する。
- SANODEPは,少ないデータ条件下でGPベースのベイズ最適化よりも優れた性能を発揮した。
- ペニシリン製造のケーススタディにおいて,目的関数が改善されることが確認された。
- SANODEPは,分布内および分布外のバッチデータにおいて,汎化性能を示すことがわかった。
シュレディンガーブリッジ時系列ドリフトの直接推定:有限サンプル,漸近的,適応的保証 [math.ST, cs.LG, stat.ML, stat.TH]目的:シュレディンガーブリッジドリフトの非パラメトリック推定
- 時系列解析において,確率過程の変動を捉えることは重要である。シュレディンガーブリッジは,そのための強力なツールである。
- 既存の手法は,最適化や近似誤差の影響を受けやすく,統計的誤差の評価が困難であった。
- 統計的誤差のみを分離し,最適化誤差の影響を受けない直接推定法を開発し,理論的保証を与える。
- 提案手法は,適切な帯域幅の選択により,一様非漸近的境界を満たすことが示された。
- 有意なアンダー スムージング条件下では,点ごとの中心極限定理が成立することが証明された。
- 開発された適応的帯域幅選択子は,オラクル不等式を満たし,対数因子を除いてミニマックス最適レートを達成する。
深層学習における暗黙的正則化の推定 [stat.ML, cs.LG]目的:深層学習における暗黙的正則化の推定方法
- 深層学習は強力だが,過学習しやすい。正則化は性能向上の鍵となる。
- 既存手法では,複雑なネットワークの暗黙的正則化を解析的に導出できない。
- 勾配マッチングによる経験的な推定方法を開発し,複雑なネットワークの暗黙的正則化を解明する。
- 提案手法は,既知の正則化項(L1,L2)を再現できることを示した。
- 早期打ち切りによる二次的な重みペナルティなど,既知の暗黙的効果も再現可能である。
- ドロップアウトの効果を特徴付け,暗黙的なL2効果を示すことで,実用性も確認した。
隠れた凸性:非凸低ランク行列推定のための理論的枠組み [stat.ML, cs.IT, cs.LG, math.IT, math.OC]目的:非凸低ランク行列推定問題に対する理論的枠組み
- 機械学習やAIにおける高次元データ学習・表現に不可欠な低ランク行列推定は,その重要性が増している。
- 既存研究では,非凸性の緩和に余計な正則化が必要とされる場合がある。また,汎用性に欠ける。
- 非凸な手法が低ランク推定で良好に機能する理由を説明する根本的なメカニズムを解明すること。
- 本研究では,既存の更新ルールを変更せずに,局所的に強い凸性を持つ等価な定式化を得る「良性正則化」を導入した。
- この視点により,非凸手順に隠された凸性が明らかになり,非凸低ランク行列推定に対する理論的保証を導く新たな道が開かれた。
- 提案手法は,特定のモデルに依存せず,幅広い低ランク行列推定問題に適用可能な汎用性を持つ。
再正規化群に基づく区分型一般化線形モデルのための格子ベースのフレームワーク [stat.ME, cond-mat.stat-mech, cs.LG, math.ST, stat.TH]目的:区分型一般化線形モデルの構築のためのフレームワーク
- 機械学習モデルの解釈可能性向上は,実用的な応用において重要である。
- 複雑なモデルは過学習を起こしやすく,汎化性能が低下する可能性がある。
- 汎化性能を維持しつつ,モデルの複雑さを増すための指針を提供する。
- 本研究では,再正規化群理論に着想を得た格子構造に基づく新しいモデルを提案した。
- 提案モデルは,データセットサイズと予測変数の次元数に応じた格子設計の指針を提供する。
- また,高次の項を追加する際の正則化の尺度則を導出し,汎化性能の低下を抑制する。
置換を保存する関数とニューラルベッキア共分散カーネル [stat.ML, cs.LG, stat.CO]目的:ガウス過程におけるスケーラブルで柔軟な共分散カーネルの構築
- ガウス過程は機械学習の強力なツールであり,不確実性の定量化に不可欠である。
- 従来のカーネル学習は表現力に限界があり,非定常な現象のモデリングが困難である。
- ベッキア近似を利用し,深層学習で共分散構造を直接学習することで,この課題を解決する。
- ベッキア分解における条件付け集合の置換不変性を利用し,置換を保存する関数の汎用表現を導出した。
- この対称性を尊重するニューラルアーキテクチャを設計することで,学習の安定性とデータ効率を向上させた。
- 提案手法は,計算のスケーラビリティを維持しつつ,表現力豊かな非定常カーネル学習を可能にする。
大規模因果探索のための緩和された最疎パーミュテーション定式化 [stat.ME, cs.CY, stat.ML, cs.LG]目的:大規模データにおける因果構造学習の計算効率向上
- ビッグデータ時代において,因果関係の解明は科学的発見や意思決定に不可欠である。
- 大規模データに対する因果構造学習は,計算コストが高く実用上の課題となっている。
- 効率的なアルゴリズムを開発し,大規模データでの因果探索を可能にすること。
- 本研究では,正確なCholesky分解を必要としないことを示し,サポートレベルでの緩和定式化を提案した。
- 提案手法は,不完全Cholesky分解を用いることで,効率的な候補順序の比較を可能にする。
- 実験により,既存手法と同等の精度を,大幅に高速な計算時間で実現することを示した。
半双対最適輸送におけるモンジュ写像の安定性 [math.OC, cs.LG]目的:半双対最適輸送問題におけるモンジュ写像の収束条件
- 最適輸送は,確率分布間の距離を測る強力な手法であり,機械学習等への応用が期待されている。
- 数値計算において,モンジュ写像の更新に潜在ポテンシャルの更新よりも多くの反復が必要となる場合がある。
- 潜在ポテンシャルの最適性条件なしにモンジュ写像の収束条件を導き,この現象を説明すること。
- 半双対最適輸送問題が退化した鞍点構造を持つことが示された。
- その数値解は制約付き最適化問題の解と等価であることが明らかになった。
- モンジュ写像の収束のための必要十分条件が導かれ,数値的観察との整合性が確認された。
AstroAlertBench:天体分類におけるマルチモーダルLLMの精度,推論,および正直性の評価 [astro-ph.IM, cs.AI]目的:天体イベントレビューにおけるLLMの性能評価
- 天文学的観測は膨大なデータを生み出し,専門家によるレビューがボトルネックとなっている。
- マルチモーダルLLMの科学的分類能力と解釈可能な推論能力は,十分に研究されていない。
- 天体分類におけるLLMの信頼性と実用性を向上させるためのフレームワークを提供する。
- AstroAlertBenchは,LLMの性能を評価するための包括的なベンチマークである。
- 高精度が必ずしもモデルの「正直さ」,つまり自己評価能力と一致しないことが示された。
- 人間とLLMの協調による評価プロトコルを確立し,コミュニティ規模での参加を促進する。
文脈内正標本学習 [stat.ML, cs.LG, stat.CO]目的:正標本と未ラベルデータの分類
- 機械学習における教師なしデータ活用が重要であり,ラベル付けコスト削減に繋がる。
- 正標本のみから学習する方法は,データセット特有の調整や反復最適化が必要となる場合が多い。
- 少ない調整で迅速に多くのタスクを解決できる,文脈内学習によるPU分類手法を確立する。
- 事前学習済みの変換器PUICLは,文脈内学習のみでPU分類問題を解決する。
- PUICLは,構造因果モデルから生成された合成PUデータセットで事前学習されており,多様な特徴-ラベル関係に対応する。
- UCI,OpenML等の20の半合成PUベンチマークで,既存手法をAUC,精度で上回り,F1スコアでも匹敵する性能を示した。
疎なデータと動的ニューラルフローを用いたSDEの変分平滑化と推論 [stat.ML, cs.LG, math.PR]目的:部分観測システムにおける時間的ダイナミクスのモデリング
- 確率微分方程式は,時間発展を記述する強力なツールであり,多くの科学分野で不可欠である。
- 既存の平滑化手法は,パスの退化やスケーラビリティの悪さといった課題を抱えている。
- 本研究では,観測データに基づき,効率的な推論を実現する新たな手法を開発する。
- 本手法は,逆時間スコア関数の特性評価に基づき,連続時間ダイナミクスと離散ベイズ更新を統合する。
- その結果,効率的な事後軌道サンプリングを可能にする確率微分方程式を誘導できる。
- 非線形システムに対する実験では,少ない観測データでも高精度で安定した推論が実現され,古典的なMCMC法と比較して大幅なスケーラビリティの向上が示された。
パリティ構造を持つ分類のための量子カーネル:ハイブリッドパイプライン [quant-ph, cs.LG]目的:パリティ複雑性に対する量子カーネルの優位性
- 機械学習における分類問題は,様々な分野で重要であり,高精度な分類手法が求められている。
- 古典的なカーネルは,高次の特徴量の相互作用を捉えることが難しく,特にパリティ問題においては性能が低下する。
- パリティ複雑性に着目し,量子カーネルが古典的な手法と比較して明確な優位性を示す条件を明らかにすること。
- 低複雑性(5特徴量)では,バイナリRBF SVMと量子カーネルの性能に差はみられないが,バイナリエンコーディングが性能を主導している。
- 高複雑性(11特徴量)では,古典的な手法はランダムに近い性能になる一方,量子ZZカーネルは有意に高い分類精度を達成した。
- この結果は,パリティ複雑性が量子カーネルの優位性が現れる具体的な軸であることを示唆する。
カテゴリカルデータのサンプリングのための球面フロー [stat.ML, cs.CL, cs.LG]目的:離散系列の生成モデル学習
- 確率モデルは,機械学習や統計学における基盤技術であり,様々な応用分野で重要である。
- 従来のモデルはユークリッド空間や確率シンプレックスで動作し,高次元データへの適用が困難な場合がある。
- 球面上で効率的な生成モデルを構築し,高次元離散データのサンプリング性能を向上させる。
- 球面上のvon Mises-Fisher分布を利用することで,自然なノイズ過程と閉形式の条件スコアが得られる。
- 連続方程式をコサイン類似度に関するスカラーODEに還元することで,効率的なサンプリングが可能となった。
- Sudokuや言語モデリングの実験で,vMFとPredictor-Correctorサンプリングの組み合わせが性能向上を示した。
スペクトルレンズ:LLM最適化の診断としての活性化と勾配スペクトル [stat.ML, cs.LG]目的:言語モデルの学習における内部表現の診断
- 大規模言語モデルの性能向上には,学習過程の理解が不可欠である。
- 学習損失やスループットだけでは,内部表現の変化を捉えきれない。
- 活性化と勾配のスペクトルを用いて,学習メカニズムを明らかにすること。
- バッチサイズが活性化スペクトルの形状に影響を与え,学習の安定性に系統的な差異をもたらすことが示された。
- 学習初期の活性化共分散の末尾が,その後のトークン効率を予測できることが明らかになった。
- 活性化スペクトルのヘッドの移動と勾配スペクトルが,学習ダイナミクスの変化を特徴づけ,アーキテクチャ改善と実行速度改善を区別する。
非線形因果探索のためのフーリエ特徴法:混合データにおけるFFMLスコアリングとFFCIテスト [stat.ML, cs.AI, cs.LG]目的:非線形因果関係の発見
- 複雑なシステムの理解には,変数間の因果関係を特定することが不可欠である。
- 従来の非線形因果探索手法は,計算コストが高く,大規模データには適用が困難である。
- 計算効率を向上させつつ,非線形因果探索を可能とする手法を開発する。
- フーリエ特徴を用いた手法(FFML, FFCI)により,計算コストを削減しつつ,因果探索の精度を維持することが可能となった。
- FFMLは,ガウス過程周辺尤度を近似することで,効率的なスコアリングを実現する。
- FFCIは,混合データに対応した高速な条件独立性テストを提供する。
長距離電気的相互作用を学習するための分極性原子多極子 [cond-mat.mtrl-sci, cs.LG, physics.chem-ph, physics.comp-ph]目的:長距離電気的相互作用の学習
- イオン性,極性,界面系への機械学習分子間ポテンシャル(MLIP)の拡張において,長距離電気的相互作用と分極性は重要な課題である。
- 従来のMLIPでは,長距離電気的相互作用と分極性を正確に記述することが困難であり,予測精度が制限される。
- エネルギーと力から電気的相互作用を学習する半局所的枠組みを導入し,分極性原子多極子を用いてこの課題を解決することを目指す。
- 本研究では,環境依存性のある潜在的な単極子,双極子,四極子を予測する局所的な等変記述子を導入した。
- 残差的な非局所的な電荷移動と分極は,誘起電荷と双極子における線形応答によって捉えられ,ポテンシャルエネルギー表面の精度が系統的に向上した。
- 学習された潜在変数から,正確なBorn有効電荷テンソル,創発的な分極率,実験と一致する赤外スペクトル,および水やMAPbI3ペロブスカイトの半定量的なラマンスペクトルが得られた。
Transformerは文脈内強化学習における方策改善を確実に実装する [stat.ML, cs.AI, cs.LG]目的:文脈内強化学習におけるTransformerの能力
- 強化学習は,ロボット工学やゲームAIなど幅広い分野で重要な役割を果たす。
- 従来の強化学習は,環境との相互作用を通じて学習するため,サンプル効率が低いという課題がある。
- Transformerによる文脈内強化学習は,パラメータ更新なしに方策改善を可能にし,サンプル効率の向上を目指す。
- Transformerの線形自己注意機構は,半勾配SARSAやActor-Criticなどの方策改善手法を実装可能であることが証明された。
- 教師模倣学習を用いた訓練手続きを設計し,訓練MDP分布の条件の下で,勾配の流れが最適なパラメータ多様体へ収束することが保証された。
- 実験的に,学習されたモデルは明示的な構造を再現し,未知のMDPにおいても高い文脈内制御性能を示した。
カーネル勾配フロー推定器に対する最適信頼バンド [math.ST, cs.LG, stat.ML, stat.TH]目的:カーネル勾配フローの一般化誤差と一様推論
- 機械学習の汎化性能評価は,モデルの信頼性を保証する上で不可欠である。
- 既存手法では,信頼区間の幅が最適化されておらず,過剰な保守性を示す場合がある。
- カーネル勾配フローにおける最適な信頼区間を構築し,より正確な推論を可能にすること。
- カーネル勾配フローの一般化誤差に関して,source condition $s>\alpha_0$の下で収束レートを確立した。
- 提案する信頼バンドの幅は,ミニマックス最適レートに匹敵し,最適な縮小率を示すことが示された。
- 連続および離散カーネル勾配フローの両方に対して,同時信頼バンドを構築することに成功した。
比率に基づく損失関数 [stat.ML, cs.LG, math.ST, stat.TH]目的:比率に基づく損失関数に関する系統的な調査
- 機械学習とAIのアルゴリズムにおいて,損失関数は学習の根幹をなす要素である。
- 回帰問題に対する既存の損失関数は,乗法的な誤差構造に着目したものが多く,相対誤差の扱いに課題がある。
- 比率に基づく損失関数の一般的な性質を明らかにすることで,今後の研究を促進すること。
- 比率に基づく損失関数は,連続性,Lipschitz連続性,凸性,微分可能性などの重要な性質を持つことが示された。
- 本研究では,これらの性質が機械学習アルゴリズムにおいて中心的な役割を果たすことを強調している。
- また,新たな損失関数を提案し,今後の研究の可能性を示唆した。
LLM自己整合性におけるいつでも有効な統計的推論 [stat.ML, cs.AI, cs.LG, math.ST, stat.ME, stat.TH]目的:LLMの自己整合性における統計的推論の制御
- LLMの推論能力向上は重要だが,誤りレベルの精密な制御は課題である。
- データに依存した停止規則下では,いつサンプリングを停止すべきかの判断が困難である。
- 任意のデータ駆動型停止下で誤認証明を制御する手法の開発。
- CITEアルゴリズムにより,事前に指定された目標回答がモデル応答分布の唯一のモードであることの証明が可能となった。
- このアルゴリズムは,回答カテゴリセットの事前知識を必要とせず,あらゆるデータ駆動型停止下で誤認証明を確率的に制御できる。
- シミュレーションとLLM実験により,エラー制御と拡散尾環境での証明の改善が確認された。
機械学習における因果的公平性のための誘導体の調整 [stat.ML, cs.AI, cs.CY, cs.LG]目的:機械学習における因果的公平性の実現
- AIシステムが社会に浸透する中で,偏りのない公平な予測が不可欠である。
- 従来の公平性の定義は,ビジネス上必要な変数を考慮しない場合,制約が強すぎる。
- 連続的な保護属性を持つモデルにおける公平性を保証する手法を開発する。
- 本研究では,経路特有の偏微分を用いて,統計的公平性と予測的公平性を形式化している。
- 不許可経路における統計的公平性と許可経路における予測的公平性を両立する予測器の存在条件を明らかにした。
- 公平な予測器を構築するアルゴリズムを提案し,シミュレーションと実データで性能を評価した。
ケイリーユニタリーアダプタによる量子ハードウェア上の量子増強大規模言語モデル [quant-ph, cs.AI, cs.LG]目的:大規模言語モデルの量子ハードウェア上での性能向上
- 大規模言語モデルはAIの変革を促しているが,古典的アーキテクチャにはメモリ容量の限界がある。
- 量子計算は有望だが,実用的なモデルでの実証は困難であった。
- 量子アダプタを用いて,既存のLLMを量子ハードウェアで効率的に実行し,性能を改善すること。
- ケイリーパラメータ化されたユニタリーアダプタをLLMに組み込むことで,Llama 3.1 8Bのperplexityを1.4%改善した。
- SmolLM2を用いた研究では,ユニタリーブロックの次元増加に伴い,perplexityが単調に向上し,圧縮による性能劣化の83%を回復した。
- 古典的基盤では正解できない質問に対し,正しい回答を導き出すことに成功し,ノイズと表現力の相転移点を特定した。
量子ニューラルネットワークの学習可能性:アーキテクチャ形状,ヤコビアンの零空間の成長,パラメータ効率 [quant-ph, cs.LG]目的:量子ニューラルネットワークの学習可能性を支配するアーキテクチャ形状の影響の解明
- 量子機械学習は,古典計算機では困難な問題を解決する可能性を秘めているため,近年注目を集めている。
- 量子ニューラルネットワークの学習は,そのアーキテクチャに大きく依存するが,そのメカニズムは十分に解明されていない。
- 本研究は,アーキテクチャ形状が学習可能性に与える影響を,ヤコビアンの零空間の成長という観点から明らかにすることを目的とする。
- 系列型アーキテクチャでは,パラメータ数が増加してもヤコビアンのランクが制限され,零空間の次元が拡大し,学習が困難になる「構造的勾配枯渇」が起こる。
- 並列型アーキテクチャはこの問題を回避し,パラメータ数が増加しても勾配がゼロになるパラメータは存在しない。
- 特徴マップ層を追加することで,ヤコビアンの固有値スペクトルが強化され,パラメータ数を大幅に削減しながら高い精度を達成できる。
信頼性の高いLLM評価に向けて:適応型ベンチマークにおける勝者の呪いを修正する [stat.ML, cs.AI, cs.LG, stat.AP]目的:適応型ベンチマークにおける勝者の呪いの修正
- LLMの性能評価は,AI技術の発展と実用化において不可欠である。
- 既存の評価手法では,チューニング中に再利用されたベンチマーク項目が評価結果を歪める可能性がある。
- チューニング予算を考慮した上で,より正確なLLMの性能推定を行うことを目指す。
- SIRENと呼ばれる選択に配慮した反復分割報告プロトコルを提案し,評価の信頼性を向上させた。
- SIRENは,有限な予算内で同時推論を可能にするガウス乗数ブートストラップを使用する。
- シミュレーションと実験の結果,従来の勝者ベースの報告は楽観的になりうる一方,SIRENは目標とする性能評価に近いことが示された。
TabCF:表形式ファウンデーションモデルを用いた分布制御関数推定 [stat.ML, cs.LG, stat.ME, stat.OT]目的:分布因果推論のための制御関数回帰手法
- 未測定交絡が存在する場合でも因果効果を推定する上で,IV法やCF法は重要なツールである。
- 既存手法は平均効果しか推定できず,また,モデルの調整やチューニングに多大な労力を要する場合が多い。
- 分布量(介入平均や分位点など)の因果推定を,高精度かつ効率的に行う手法を確立すること。
- 本研究で提案するTabCFは,表形式のファウンデーションモデルを活用することで,迅速かつ透明性の高い因果推定を可能にする。
- TabCFは,様々な合成データおよび実データにおいて,既存手法と比較して良好な性能を示すことが確認された。
- 本手法は,実務家にとって効果的な分布因果推論ツールとなり,研究者にとっては今後の手法開発の強力なベースラインとなる。
カーネル法によるヒルベルト空間におけるガウス混合モデル [stat.ML, cs.LG]目的:ヒルベルト空間値データに対するガウス混合モデルの構築
- 現代のデータセットは,動的な関数データなど,無限次元の確率対象を含むことが多く,ヒルベルト空間でのモデル化が重要である。
- 高次元空間での確率測度の特徴付けは,定義が困難であったり,技術的に課題が多い。
- カーネル平均埋め込みに基づき,ヒルベルト空間値データのためのガウス混合モデルを提案し,近似精度向上を目指す。
- 提案手法は,無限次元空間において確率測度を近似する密なクラスを提供することを理論的に保証した。
- 多様な構造やデータ形状($L^2$関数データやラプラシアン空間におけるランダムグラフなど)を用いて,広範な実験を通して有効性を検証した。
- 特に,現代の医療応用におけるデータに対して有効であることが示された。
因果隠れマルコフモデルを用いた臨床予測モデル開発における異質診断バイアスの補正 [stat.AP, cs.LG]目的:異質診断バイアスに対する臨床予測モデルの補正方法
- 臨床予測モデルは医療現場での意思決定支援に不可欠であり,その精度向上が重要である。
- 高リスク群ほど検査頻度が高く,保護属性による検査頻度の差が生じ,ラベルエラーを引き起こす。
- 異なる診断率によるバイアスを補正し,特定集団における系統的なモデル誤差を軽減すること。
- シミュレーションにおいて,未診断バイアスを考慮しないモデルと比較して,予測バイアスを低減し,大規模キャリブレーションを改善した。
- 臨床症例研究では,糖尿病が尿アルブミン・クレアチニン比検査の可視性の主要な要因であり,そのオッズ比は10.36であった。
- 糖尿病のない患者における反事実的診断率を予測することで,開発された臨床予測モデルのObserved:Expected比を改善した。
時間不均一事前条件付きランジュバン動力学 [math.ST, cs.LG, math.PR, stat.CO, stat.TH]目的:分布からのサンプリングにおけるモードカバレッジとモード探索の改善
- 統計物理や機械学習において,複雑な分布からの効率的なサンプリングは重要な課題である。
- 既存のランジュバン動力学は,多峰性分布や病的な形状のポテンシャルにおいて,モードカバレッジと探索のバランスを取ることが困難である。
- 時間と位置に依存する事前条件付きランジュバン動力学(TIPreL)を提案し,モードカバレッジと探索を同時に改善する。
- 提案手法TIPreLは,連続時間および離散時間(テイマーオイラー離散化)において,Wasserstein-2距離における収束性が証明された。
- 特に,時間と空間に依存する拡散係数,および局所的にリプシッツ連続なドリフト項を持つ場合における収束性が示され,既存研究の範囲を拡張した。
- 二次元の病的な問題と高次元のベイズロジスティック回帰タスクにおける実験により,提案手法の効率性が確認された。
信頼度に基づく微分可能なファクターグラフ最適化 (CredibleDFGO) [eess.SP, cs.AI, cs.LG, cs.RO]目的:都市部におけるGNSS測位の信頼性向上
- 都市ナビゲーションはGNSS測位に依存するが,都市峡谷ではGNSSソルバーの共分散が信頼性に欠ける場合が多い。
- 既存の微分可能なファクターグラフ最適化手法では位置のみを最適化するため,共分散の推定精度が十分でない。
- 共分散の信頼性を明示的な学習目標とし,より正確な測位と信頼区間の推定を目指す。
- 提案手法CredibleDFGOは,衛星ごとの信頼度を予測し,それを基に位置推定と共分散を最適化する。
- UrbanNavのテストシーンで,不確実性の信頼性が一貫して向上し,特に厳しい都市部環境で測位精度が改善された。
- Mong Kokシーンでは,平均水平誤差が13.77mから11.68mに,NLLが40.63から6.59に,ESが12.31から9.05にそれぞれ減少した。
