arXiv雑要約
AI - 2026/06/16 公開
NanoQuant:大規模言語モデルの効率的な1ビット未満量子化 [cs.LG]目的:大規模言語モデルの量子化による効率的な運用
- 大規模言語モデルの利用拡大には,メモリ使用量の削減が不可欠である。
- 既存手法では,バイナリ量子化における圧縮率と精度維持のバランスが課題である。
- NanoQuantは,低メモリでの量子化における新たな手法を確立し,1ビット未満の圧縮を可能とする。
- NanoQuantは,量子化を低ランクの二値分解問題として定式化し,効率的な圧縮を実現した。
- Llama2-70Bをわずか13時間で25.8倍に圧縮し,8GBのGPUで運用可能にした。
- これにより,大規模言語モデルの消費者向けハードウェアへの展開が現実的となった。
言葉で道を見る:言語誘導型RGB-Tドライビングシーンセグメンテーションフレームワーク [eess.SY, cs.SY, cs.CV, cs.AI, cs.LG, cs.RO]目的:悪条件下におけるRGB-Tドライビングシーンのセグメンテーション手法
- 自動運転の実現には,多様な環境下での正確なシーン理解が不可欠である。
- 既存手法では,照明条件に応じた適切なモダリティ融合が課題となっていた。
- 照明状態に応じた動的な融合戦略により,セグメンテーション精度向上を目指す。
- 提案手法CLARITYは,ビジョン言語モデルの知識を活用し,状況に応じたモダリティの貢献度を調整する。
- 従来のノイズ除去手法で誤って破棄される暗い物体情報を保持する機構を導入した。
- MFNetデータセットにおいて,CLARITYは最先端の性能(mIoU 62.3%,mAcc 77.5%)を達成した。
ToolSelf:ツール駆動型創発的適応によるタスク実行と自己再構成の統合 [cs.AI]目的:タスク実行と自己再構成の統合
- LLMエージェントは複雑なタスクに優れるが,固定された設定に依存する
- ドメイン特化と汎用性のトレードオフが課題であり,適応と実行が分離されている
- 実行中に設定を更新し,適応性と実行を統合することで,この問題を解決する
- ToolSelfは,ツールを抽象化し,実行と適応を統合する自己再構成パラダイムである
- Configuration-Aware Two-stage Training (CAT) により,自己再構成を学習する
- 多様なベンチマークで,専門のエージェントと同等以上の性能を示し,手動ガイダンスを不要にする
線形アンサンブルサンプリングの厳密な分析 [cs.LG, stat.ML]目的:確率的線形バンディットにおける線形アンサンブルサンプリングの漸近的な後悔量
- 線形バンディット問題は,オンライン学習や最適化において重要な枠組みである。
- 従来のアンサンブルサンプリング手法では,計算量と性能のトレードオフが存在した。
- 本研究は,計算効率を維持しつつ,アンサンブルサンプリングの性能を向上させることを目指す。
- アンサンブルサイズを $m=\Theta(d\log n)$ とした場合,アンサンブルサンプリングは $\tilde O(d^{3/2}\sqrt n)$ の高確率後悔量に達することが示された。
- この結果は,トムソンサンプリングのベンチマークとの差を埋めるものであり,計算コストも同程度である。
- 本研究では,独立なブラウン運動に対する超過問題に線形バンディットのランダム探索を帰着させることで,新たな分析手法を確立した。
CADO:組み合わせ最適化におけるヒートマップベースソルバーの模倣からコスト最小化へ [cs.LG, stat.ML]目的:組み合わせ最適化におけるヒートマップベースソルバーの性能向上
- 組合せ最適化は,複雑な問題を解決するための重要な手法であり,様々な分野で応用が広がっている。
- 既存の教師あり学習は,模倣損失の最小化に偏り,実際の解のコスト最小化を保証しないという課題があった。
- CADOは,コストを直接最適化することで,ヒートマップベースソルバーの潜在能力を最大限に引き出すことを目指す。
- CADOは,拡散モデルを強化学習フレームワークとして活用し,コストを意識した報酬設計により性能を向上させた。
- ラベル中心報酬は,教師データの活用方法を改善し,バイアスのない基準として機能する。
- 多様なベンチマークにおいて,CADOは最先端の性能を達成し,目的の整合性が重要であることを示唆する。
TextResNet:深層残差調整による複合AIシステムの信号分離と経路最適化 [cs.LG]目的:複合AIシステムにおける信号の分離と経路最適化手法
- AIシステムの複雑化に伴い,効率的な最適化手法が不可欠となっている。
- 深層チェーンにおいて,Semantic Entanglementが信号伝播を妨げ,性能低下を引き起こす。
- TextResNetは,信号の曖昧さを解消し,安定した学習を可能にすることを目指す。
- TextResNetは,TextGradと比較して,性能が大幅に向上した。
- TextResNetは,複合AIシステムにおけるエージェントタスクにおいて,優れた安定性を示した。
- 本手法は,Additive Semantic DeltasやSemantic Gradient Decompositionなど,4つの主要な革新によって実現された。
グローバルワークスペースにおけるロバストなマルチモーダル統合のための注意機構 [cs.AI]目的:マルチモーダル統合のロバスト性の向上
- 多様な情報源を統合することで,より高度な知能を実現できるため重要である。
- 一部のモダリティにノイズや欠損がある場合,既存の手法ではロバスト性が損なわれる。
- モダリティ選択のメカニズムがロバスト性に貢献するかどうかを検証する。
- 提案手法は,従来のend-to-end学習と比較して少ないパラメータでロバスト性を向上させた。
- 学習された選択戦略は,異なるタスクや腐敗条件下,さらには未知のモダリティに対しても高い転移性を示した。
- MM-IMDb 1.0ベンチマークにおいて,注意機構はグローバルワークスペースの性能を向上させ,良好な結果を得た。
MUZZLE:ウェブエージェントに対する間接プロンプトインジェクション攻撃に対する適応型敵対的テスト [cs.CR, cs.AI]目的:ウェブエージェントのセキュリティ評価
- LLMを活用したウェブエージェントの利用が拡大しており,セキュリティ確保が重要である。
- 従来の評価手法では,現実的な攻撃の適応性や多様性を捉えきれていない。
- 自動化された敵対的テストにより,ウェブエージェントの脆弱性を効率的に発見する。
- MUZZLEは,ウェブエージェントの実行軌跡から攻撃対象箇所を自動的に特定し,状況に応じた悪意のある指示を生成する。
- 4つのウェブアプリケーションに対して44個の新たな攻撃を検出し,機密性,可用性,プライバシーを侵害する可能性を示した。
- アプリケーションを跨ぐプロンプトインジェクションや,エージェントに合わせたフィッシング攻撃など,新たな攻撃戦略も特定された。
優先度を考慮したシャプレイ値 [cs.LG]目的:モデルに依存しないデータ評価と特徴量帰属の評価手法
- 機械学習モデルの性能評価や解釈において,データの貢献度を定量的に評価する重要性が高まっている。
- 従来のシャプレイ値は貢献者の相互交換可能性を仮定しており,依存関係のあるデータや優先度を考慮する必要がある。
- データの依存関係や優先度を組み込み,より適切なデータ評価と特徴量帰属を実現することを目的とする。
- 優先度を考慮したシャプレイ値(PASV)は,優先制約と貢献者固有の優先度を組み込むことで,柔軟な評価を可能にする。
- 効率的なモンテカルロ推定手法を開発し,極端な優先度下での挙動を分析することで,スケーラビリティと実用性を高めた。
- MNIST/CIFAR10におけるデータ評価,Census Incomeにおける特徴量帰属実験で,構造を忠実に反映した結果が得られた。
MacrOData:表形式外れ値検出のための数千のデータセットによる新たなベンチマーク [cs.LG]目的:表形式データにおける外れ値検出のための大規模ベンチマーク群
- 表形式データにおける外れ値検出は,不正検知や異常検知など,多くの現実世界の問題に応用可能である。
- 既存の外れ値検出ベンチマークは規模が小さく,多様性と統計的パワーに限界がある。
- 多様で大規模なベンチマークを提供し,外れ値検出手法の包括的かつ統計的に信頼性の高い評価を可能とする。
- MacrODataは,現実世界の異常を含むOddBench,統計的異常を含むOvrBench,合成データを含むSynBenchの3つのコンポーネントで構成される。
- 提供されるデータセットは計2,446個であり,標準化された分割,公開/非公開ベンチマーク,および意味的メタデータが付与されている。
- 古典的,深層学習,そして基盤モデルを含む幅広い外れ値検出手法について,詳細な実験と評価が実施された。
自己教師あり学習における離散的コミュニケーション [cs.DC, cs.CV, cs.IR, cs.LG]目的:視覚的自己教師あり学習における表現構造の制御
- 視覚情報の理解には,効率的な表現学習が不可欠である。多様なタスクへの適応性が求められる。
- 従来の連続的な表現学習では,表現次元間の情報の構造化が不十分であるという課題がある。
- 限られた情報伝達路を通じて情報を伝達する離散的なコミュニケーション枠組みを導入し,表現構造を制御する。
- 教師ネットワークと生徒ネットワーク間の二値メッセージの予測により,離散的な合意を促す。
- チャンネルレート正則化により,制約された伝達路の効率的な利用を促進し,構造化された表現を獲得する。
- 画像分類,検索,高密度視覚予測タスクにおいて,従来の連続的な合意基準線に対して一貫した性能向上を示す。
グラフ学習は,スペクトルGNNとメッセージパッシングGNNに対する制限的な見方を克服すべきである [cs.LG]目的:スペクトルGNNとメッセージパッシングGNNの理論的枠組みの明確化
- グラフ構造データは,様々な分野で広く現れるため,その機械学習は重要である。
- スペクトルGNNの定義が曖昧で,線形スペクトルフィルタに基づく層構造に限定されがちである。
- スペクトルGNNの明確な定義と,メッセージパッシングGNNとの関係性を明らかにすること。
- メッセージパッシングGNNとスペクトルGNNは,表現力においてほぼ同等であることが示された。
- スペクトルGNNは,固有基底対称性に基づいて厳密に定義されるべきであると提案された。
- 両方の視点(メッセージパッシング,スペクトル)は補完的な強みを持つことが示唆された。
マルチエージェントLLMシステムにおける内部チャンネルプライバシー漏洩のベンチマーク:AgentLeak [cs.AI]目的:マルチエージェントLLMシステムにおける内部チャンネルプライバシー漏洩の評価
- LLMの多剤型化が進む中で,プライバシー保護は重要課題となっている。
- 既存の出力のみを評価するベンチマークでは,内部通信路の漏洩を捉えきれない。
- 内部通信路を通じたプライバシー漏洩を定量的に評価し,リスクを明確化する。
- マルチエージェント構成は,単一エージェント構成と比較して最終出力における漏洩を減少させる。
- しかし,内部チャンネルを含めるとシステム全体の暴露度は増加し,特にエージェント間メッセージでの漏洩が顕著である。
- 出力のみの監査では,プライバシー侵害の41.7%を見逃す可能性があり,内部チャンネルがリスクを大きく左右する。
TS-Memory:時系列基礎モデルのためのプラグアンドプレイ型メモリ [cs.CL, cs.LG, cs.AI]目的:時系列基礎モデルへの適応と性能向上
- 時系列データ分析は,需要予測や異常検知など,幅広い分野で不可欠な技術である。
- 分布シフト下での適応は難しく,既存手法は性能と効率性のトレードオフに陥りがちである。
- 効率的かつ効果的な適応手法を提供し,分布シフトへの対応を可能にすること。
- TS-Memoryは,既存の時系列基礎モデルに軽量なメモリアダプタを追加することで,性能を向上させる。
- オフラインでkNN教師を構築し,信頼度を考慮した量子ターゲットを合成することで,分布のずれを修正する。
- 推論時には,メモリとバックボーンの予測を低コストで融合し,効率的な展開を実現する。
UniT:統一マルチモーダル思考連鎖テスト時スケーリング [cs.CV, cs.AI, cs.LG]目的:マルチモーダル思考連鎖テスト時スケーリングのフレームワーク
- マルチモーダル理解と生成は重要であり,複雑なタスクへの応用が期待される。
- 既存モデルは単一パス処理が主であり,反復的な推論や修正が難しい。
- テスト時スケーリングをマルチモーダルモデルに適用し,推論能力を向上させる。
- 統一モデルは短い推論軌跡で学習することで,テスト時に長い推論連鎖に一般化可能であることが示された。
- 逐次的な思考連鎖は,並列サンプリングよりもスケーラブルで計算効率の良いテスト時スケーリング戦略である。
- 生成と編集の軌跡で学習することで,分布外の視覚的推論が改善されることが確認された。
低次元における大規模ステップサイズ勾配降下法によるロジスティック回帰の厳密な限界 [cs.LG]目的:分離可能なデータに対する二値分類のための線形モデル訓練における,ロジスティック損失の最小化
- 機械学習の分野において,分類問題は重要な研究課題であり,ロジスティック回帰はその基本的な手法の一つである。
- 大規模ステップサイズ勾配降下法は高速化に有効だが,損失関数の非単調性により,収束解析が困難である。
- 二次元データにおける勾配降下法の振る舞いを詳細に解析し,より厳密な限界を与えることで,高速な学習アルゴリズムの開発に貢献する。
- 二次元データにおいて,十分大きな学習率を用いることで,損失が$\mathcal{O}(1/(\eta \gamma^2 T))$よりも小さい点を見つけることができる。
- 不安定な状態から安定な状態への移行時間$\tau$に関する,より厳密な上限と下限を導出した。
- 導出された上限と下限は,対数因子を除いて一致しており,解析のタイトさを示している。
SkillsBench:多様なタスクにおけるエージェントのスキル性能のベンチマーク [cs.AI]目的:エージェントスキルの有効性測定
- LLMエージェントの能力向上に不可欠なスキル群の客観的評価が求められている。
- スキルが実際にエージェントの性能を向上させるかどうかの標準的な測定方法が存在しない。
- エージェントスキルが様々なタスクで効果的に機能するかを定量的に評価する基盤を提供する。
- SkillsBenchベンチマークにより,スキルあり/なしの条件で87タスクを評価し,平均正答率が33.9%から50.5%に向上した。
- 特に,モジュール数が少ないスキル群が,大規模なスキル群よりも優れた性能を示した。
- 小規模モデルがスキルを活用することで,スキルを持たない大規模モデルと同等の性能を達成できることが示された。
効果を模倣する:シミュレーションフィルタリングによるモジュールポリシー学習 - 人間動画からの学習 [cs.RO, cs.CV, cs.LG]目的:模倣学習によるロボットの操作スキルの獲得
- ロボット学習において,人間によるデモンストレーションは,データ収集の効率化に貢献する。
- ロボットの手の構造が人間と異なる場合,把持動作の学習が困難である。
- タスクに適した把持動作を効率的に学習し,ロボットの操作性能を向上させる。
- 提案手法Perceive-Simulate-Imitate(PSI)は,シミュレーションによる把持の適合性ラベル付与により,タスク指向の把持能力を学習する。
- 実機実験の結果,PSIはロボットデータを一切使用せずに,高精度な操作スキルを効率的に学習できることが示された。
- 提案手法は,単純な把持生成器と比較して,よりロバストな性能を発揮することが確認された。
ブラックボックス二次計画法ソルバーを通じた微分に対するペナルティアプローチ [cs.LG, math.OC]目的:微分可能な最適化における二次計画問題の解の微分
- 最適化問題の効率的な解法は,機械学習を含む様々な分野で不可欠である。
- 大規模問題において,KKTシステムを通じた微分は計算コストが高く,数値的に不安定になりやすい。
- dXPPは,KKT微分を回避し,大規模問題における効率性と安定性を向上させることを目指す。
- dXPPは,QPソルバーに依存せず,様々なブラックボックスQPソルバーを利用可能である。
- 後方パスでは,解を滑らかな近似ペナルティ問題にマッピングし,より小さな線形システムの解のみを必要とする。
- 実験結果は,dXPPがKKTベースの手法と競争力があり,大規模問題で大幅な高速化を達成することを示している。
会話型検索のためのモジュール式フルスタックプラットフォーム Orcheo [cs.IR, cs.AI]目的:会話型検索システムの開発・評価を効率化するためのプラットフォーム
- 会話型検索は,情報アクセスにおける新たなパラダイムであり,その重要性は増している。
- 研究成果の共有や,実用的なプロトタイプの構築・評価が困難であるという課題がある。
- モジュール性,実用的なインフラ,初期アセットを提供し,開発の障壁を下げることを目指す。
- Orcheoは,ノードモジュールによるモジュール性の高いアーキテクチャを採用しており,コンポーネントの再利用と再現性を促進する。
- プロトタイプからシステムへの移行を容易にするための,本番環境対応のインフラとAIコーディング支援機能を搭載している。
- クエリ理解,ランキング,応答生成のための45以上のコンポーネントを提供し,会話型検索パイプラインの迅速な構築を可能にする。
認知の井戸からの脱出:市販モデルによる効率的な競争数学 [cs.LG]目的:数学オリンピック(IMO)形式の問題に対する推論パイプラインの性能向上
- 数学の問題解決能力向上は,AI研究における重要なベンチマークであり,高度な推論能力の評価に繋がる。
- 既存の手法では,高い性能を達成するために多大な計算コストがかかり,実用性に課題があった。
- 市販モデルを活用し,計算コストを大幅に削減しながら,IMOレベルの問題解決性能を向上させることを目指す。
- 提案パイプラインは,Gemini 3.0 Proを用いてIMO-ProofBench Advanced (PB-Adv)で67.1%という最高水準の性能を達成した。
- 推論コストは1問あたり約31ドルであり,既存の公開パイプラインと比較して成功率を2倍以上に向上させた。
- 推論過程における「認知の井戸」と呼ばれる誤りの原因を特定し,反証抽出によってその問題を解決した。
LLM-WikiRaceベンチマーク:LLMは実世界の知識グラフをどれだけ計画できるか [cs.AI, cs.LG]目的:大規模言語モデルにおける計画,推論,世界知識の評価
- 実世界の情報は複雑に絡み合っており,それを理解し活用するAIの能力は重要である。
- 現在の言語モデルは,複雑な知識グラフを効率的に探索し,長期的計画を立てることに課題がある。
- 言語モデルの計画能力と推論能力を,実世界の知識グラフを用いたタスクで評価し,限界を明らかにする。
- LLM-WikiRaceベンチマークは,Wikipediaのハイパーリンクを辿って目標ページに到達する能力を測る。
- Gemini-3などの最先端モデルは,簡単な問題では人間を超える性能を示すが,難しい問題では性能が著しく低下する。
- 世界知識はある程度必要だが,より重要なのは計画能力と長期的推論能力であることが分析から示唆された。
ワークフロー摂動:マルチエージェントワークフローメトリクスの評価のためのキャリブレーションされたストレステスト [cs.AI]目的:マルチエージェントワークフローメトリクスの評価
- クラウド自動化やDevOpsなど,LLMを用いたワークフローシステム利用が拡大しており,その品質保証が重要である。
- システム更新時に,ワークフローが大きく変化し,変更の安全性を判断する手段が不足している。
- ワークフロー評価メトリクスの信頼性を検証し,変更管理におけるリスク評価を支援する。
- WorkflowPerturbは,現実的な摂動を加えられたワークフローを用いて,メトリクスの感度とキャリブレーションを評価する。
- 各メトリクスファミリー間に系統的な違いが認められ,ワークフロー評価スコアの解釈に重み付けが重要であることが示された。
- 本研究で構築したデータセットは,変更管理におけるワークフロー評価の改善に貢献すると期待される。
全脳コネクトームグラフモデルによるショウジョウバエの全身運動制御 [cs.LG, cs.RO]目的:ショウジョウバエの全身運動制御のための全脳コネクトームグラフモデル
- 動物の協調運動は脳全体の神経接続によって制御されており,その理解は生命科学において重要である。
- 脳全体の神経接続マップ(コネクトーム)は存在するが,それを制御器として活用する研究は少ない。
- コネクトームを神経制御器として利用し,効率的な運動制御を実現することを試みる。
- 全脳コネクトームグラフモデルは,シミュレーションされたショウジョウバエの多様な運動タスクにおいて安定した性能を示した。
- 従来のグラフモデルや非グラフモデルと比較して,サンプル効率が向上した。
- 脳の配線原理を制御ポリシー設計に適用することで,解釈可能性の高い制御方法が示された。
ReLUネットワークに対するオンライン回帰とその応用 [cs.LG]目的:ReLUネットワークにおける実現可能なオンライン回帰の理論的限界
- 機械学習のオンライン学習は,データが逐次的に与えられる状況で重要。
- オンライン回帰において,実現可能性が損失の累積量を有限に保つ条件が不明確。
- 仮定を満たす損失関数下で,実現可能なオンライン回帰の最小最大累積損失を評価する。
- 仮定を満たす擬似距離関数を用いることで,オンライン次元 $\mathbb{D}_{\mathrm{onl}}$ をダドレー型エントロピー積分で上界化。
- エントロピーポテンシャル $\Phi(\mathcal{H})$ を導入し,$\mathbb{D}_{\mathrm{onl}}(\mathcal{H})\le O(c)\,\Phi(\mathcal{H})$ を示す。
- Lipschitz回帰と $k$-ReLUネットワークの分離において,次元と精度の関係性を示す二分法を証明。
GauS:ガウス再パラメータ化による微分可能なスケジューリング最適化 [cs.LG, cs.AR]目的:微分可能なスケジューリング最適化手法
- ソフトウェアコンパイルやハードウェア合成において,効率的な演算スケジューリングは不可欠である。
- 従来の最適化手法は,精度と計算コストのトレードオフや,パラメータ空間の巨大さといった課題を抱えている。
- ガウス分布を用いた新しいフレームワークにより,時間順序を考慮しつつ,効率的な最適化を可能にすることを目指す。
- GauSは,演算スケジューリングをガウス分布による確率的緩和としてモデル化することで,時間順序を捉え,最適化空間を大幅に削減する。
- 本手法は,様々な目的関数や制約を柔軟に表現でき,複雑なパイプラインスケジューリング問題に対する初の微分可能な定式化を提供する。
- 複数のベンチマークにおいて,GauSがパレート最適解を達成することが示された。
協調型多エージェント強化学習におけるDec-POMDP推論の検証 [cs.LG, cs.MA]目的:協調型多エージェント強化学習におけるDec-POMDP推論の必要性に関する検証
- 協調型MARLは,複雑な現実世界の問題を解決するための重要なアプローチである。
- Dec-POMDP環境下では,部分観測性と分散協調が課題となり,進捗の評価が困難である。
- 既存のベンチマークがDec-POMDP推論を真に必要としているかを検証し,より適切な評価基準を提示する。
- 既存のベンチマークでは,必ずしもDec-POMDP推論が必要とされないことが示された。
- 反応的なポリシーが,記憶ベースのエージェントと同程度の性能を達成することが多い。
- 出現する協調行動は,堅牢な時間的影響よりも,脆弱な同期的な行動結合に依存している場合が多い。
知識グラフ探索における初期探索問題 [cs.AI]目的:知識グラフの初期探索における課題の特定と理論的枠組みの構築
- 知識グラフは多様な情報を統合可能だが,専門知識なしには活用が難しい。
- 知識グラフの構造や探索可能な質問が不明確で,利用開始が困難である。
- 知識グラフの初期段階における探索を支援するための設計指針の提示。
- 本研究では,知識グラフ探索における「初期探索問題」という新たな概念を提唱した。
- 初期探索問題は,探索範囲の不確実性,オントロジーの不透明性,クエリ能力の不足によって特徴づけられる。
- 既存のシステムが持つ,知識グラフの構造や内容に関する暗黙の前提を明らかにし,初期探索を支援するインタラクションの必要性を示唆した。
特異な生存特性を持つサブグループの発見 [cs.LG]目的:特異な生存特性を示すサブグループの同定
- 生存時間分析は,医療や設備の保守など,様々な分野で重要な役割を果たす。
- 既存手法は,仮定の制約や離散化の必要性,個体差の無視といった課題を抱える。
- Sysurvは,これらの課題を克服し,解釈可能なルールによるサブグループの発見を目指す。
- Sysurvは,非パラメトリックかつ微分可能な手法であり,様々なデータセットで有効性が確認された。
- 特に癌データを用いた事例研究では,洞察に満ちた生存サブグループが明らかになった。
- Sysurvは,既存手法を凌駕する性能を示し,実用的なサブグループの同定に貢献する。
チェビシェフ多項式と異方性RBFモデルによる表形式回帰の再検討 [cs.CL, cs.LG, cs.AI]目的:表形式回帰における,チェビシェフ多項式と異方性RBFモデルの性能評価
- 数値解析では定着した滑らかな基底関数モデルの応用範囲拡大が期待される。
- 表形式回帰では,決定木アンサンブルが主流であり,滑らかなモデルの利用は少ない。
- CPU環境下でも実用的な滑らかなモデルを提示し,決定木アンサンブルとの比較を行う。
- Transformerモデルは精度で優位性を示すが,GPU依存性や推論速度に課題がある。
- CPU環境下では,滑らかなモデルと決定木アンサンブルは精度で同等であり,滑らかなモデルは汎化性能のばらつきが少ない傾向にある。
- 滑らかな基底関数モデルを候補モデルに含めることが推奨される。
機械学習によるWHO GLASSサーベイランスデータを用いた抗菌薬耐性動向予測:政策決定支援のための検索拡張生成アプローチ [cs.LG, q-bio.QM]目的:抗菌薬耐性動向の予測
- 抗菌薬耐性は世界的な健康上の脅威であり,その監視と予測は公衆衛生上重要である。
- 既存の監視システムでは,集団レベルでの機械学習による耐性動向予測が十分ではない。
- 予測結果を政策決定に活用するため,透明性の高い解釈メカニズムの提供を目指す。
- XGBoostモデルが最も高い予測精度を示し,単純ベースラインと比較してエラーを85.3%削減した。
- SHAP分析の結果,前年の耐性率が最も重要な予測因子であることが示され,自己回帰的な傾向が確認された。
- 検索拡張生成パイプラインは,正確かつ出典に基づいた政策提言を生成し,誤った引用を防ぐことに成功した。
モデルフリーな汎用AI [cs.AI]目的:汎用強化学習における漸近的なε最適性の証明
- AI研究の進展は,複雑な問題を自律的に解決する能力の向上に不可欠である。
- 従来の強化学習エージェントはモデルに依存しており,モデル構築の困難さが課題となっていた。
- モデルフリーな汎用AIを開発し,モデル依存性の問題を解決することを目指している。
- 本研究では,初めてモデルフリーで漸近的なε最適性が証明された汎用AI「AIQI」を提案した。
- AIQIは,行動価値関数の分布に対する普遍的帰納法に基づき,ε最適性およびεベイ最適性を持つことが示された。
- この成果は,既知の汎用エージェントの多様性を大きく広げるものである。
InfoNCEはガウス分布を誘導する [cs.LG, eess.SP]目的:InfoNCE損失関数によって誘導される表現のガウス分布性
- 表現学習は,教師なしデータを用いた大規模モデルの学習を可能にする重要な分野である。
- InfoNCEのようなコントラスティブ学習の理論的理解はまだ十分ではない。
- コントラスティブ表現学習におけるガウス分布性の原理的解明を目指す。
- InfoNCE損失関数は,特定の条件の下で,表現が多変量ガウス分布に漸近的に近づくことを示した。
- 特徴量のノルムを小さく,エントロピーを大きくする正則化項を追加することで,より緩やかな条件でも同様の結果が得られる。
- 合成データおよびCIFAR-10データセットの実験により,表現のガウス性の一貫性が確認された。
MemPO:長視野エージェントのための自己記憶ポリシー最適化 [cs.AI]目的:長視野エージェントにおける自己記憶管理
- 強化学習において,長期的な計画と実行が求められる場面が増加している。
- 長期的なタスクでは,状態空間の拡大により計算コストが増大し,性能低下を招く。
- モデル自身で記憶を管理し,効率的な情報保持とタスク遂行を目指す。
- MemPOは,ベースモデルと比較してF1スコアを25.98%絶対的に向上させた。
- 既存の最先端手法と比較してF1スコアを7.1%向上させ,トークン使用量を大幅に削減した。
- MemPOは,トークン使用量を67.58%および73.12%削減することに成功した。
MedCollab:IBIS誘導による階層的疾患関係チェーンを用いた臨床診断のためのマルチエージェント協調 [cs.MA, cs.AI]目的:臨床診断におけるマルチエージェント協調の実現
- 臨床診断は,患者の健康を維持・改善するために不可欠であり,その精度向上は医療の質の向上に直結する。
- 大規模言語モデルは医療テキストの理解・生成が進む一方で,根拠の弱さや不透明な推論,診断間の矛盾などが課題となっている。
- エージェント間の構造化された協調を通じて,より信頼性が高く,臨床的に整合性の取れた診断レポートの生成を目指す。
- MedCollabは,臨床診断の全サイクルをサポートするマルチエージェントフレームワークであり,ClinicalBenchとMIMIC-IVでの実験で,主要なLLMやマルチエージェントベースラインを上回る診断精度を示した。
- Issue-Based Information System(IBIS)プロトコルと階層的疾患関係チェーン(HDRC)を活用することで,エージェントの議論を構造化し,患者固有の証拠と医学的知識に基づいた診断を支援する。
- 検証者による合意モジュールは,証拠のサポート,医学的妥当性,論理的矛盾を評価し,エージェントの貢献を調整することで,より信頼性の高い診断を可能にする。
クロスモーダルアイデンティティマッピング:強化学習によるモダリティ変換時の情報損失最小化 [cs.DC, cs.CV, cs.AI]目的:モダリティ変換における情報損失の最小化
- 画像と言語の融合は,AIの多角的理解に不可欠であり,その応用範囲は広い。
- 画像キャプション生成において,重要な視覚情報の省略や誤表現が課題となっている。
- 画像とキャプション間のアイデンティティマッピングにより,情報損失を定量的に評価し,改善する。
- 提案手法CIMは,追加のアノテーションなしで画像キャプション生成の性能を向上させる。
- CIMは,Gallery Representation ConsistencyとQuery-gallery Image Relevanceという2つの指標に基づいて情報損失を評価する。
- COCO-LN500ベンチマークにおいて,Qwen2.5-VL-7B上で関係推論の精度が20%向上した。
SorryDB:AI 証明器は実際の Lean 定理を完成させられるか? [cs.AI, cs.LG]目的:実際の Lean 定理の自動完成の可能性
- 形式検証は数学の厳密性と信頼性を高める上で不可欠である。
- 既存のベンチマークは静的であり,現実世界の複雑な依存関係に対応しにくい。
- 現実の形式化プロジェクトへの貢献を評価する,動的に更新されるベンチマークの提供。
- SorryDBはGitHub上の78の形式化プロジェクトから未解決の Lean タスクを収集し,継続的に更新されるベンチマークを提供する。
- Gemini Flashをベースとしたエージェント型アプローチが最も高い性能を示すが,他の手法との間に決定的な差は見られなかった。
- 既存のアプローチは互いに補完的であり,多様な手法の組み合わせが有効であることが示唆される。
テスト時スケーリングにおける多系列検証器 [cs.CR, cs.AI]目的:大規模言語モデルの性能向上
- 言語モデルの性能改善は,自然言語処理の進歩に不可欠である。
- 候補解の選択精度と推論遅延が,テスト時スケーリングのボトルネックとなっている。
- 検証器のキャリブレーション改善による,解選択と低遅延化を実現する。
- 多系列検証器(MSV)は,候補集合全体を考慮することでキャリブレーションを向上させる。
- MSVは,既存手法と比較して,最良のN個の解の選択精度を最大6%向上させる。
- 早期終了戦略により,ベースラインと同等の精度を半分の推論時間で達成する。
WavSLM:WavLM蒸留による単一ストリーム音声言語モデル [cs.LG, cs.AI, cs.CL, cs.SD]目的:単一ストリーム音声言語モデルの構築
- 音声処理技術の発展は,人間と機械の自然な対話を可能にする上で不可欠である。
- 従来の音声言語モデルは,テキスト依存や複雑な構造を必要とし,簡素なモデル構築が困難である。
- WavLMの表現を蒸留することで,テキスト非依存で効率的な音声言語モデルを開発する。
- WavSLMは,自己教師あり学習モデルWavLMの表現を量子化・蒸留することで,単一のコードブックを用いた音声言語モデルを実現した。
- テキストによる教師なし学習や事前学習なしで,音声の意味と音響情報を単一のトークンストリームで共同にモデル化できる。
- WavSLMは,パラメータ数や学習データ量が少なく,ストリーミング推論に対応しており,既存モデルと同等の性能を示す。
IGLU:積分ガウス線形ユニット活性化関数 [cs.LG, cs.CV]目的:深層ニューラルネットワークにおける活性化関数の改良
- 深層学習の性能は活性化関数に大きく依存し,その最適化は重要な課題である。
- ReLUは一般的だが,勾配消失問題や表現能力の限界が指摘されている。
- 重い裾を持つCauchy分布を用いた活性化関数を提案し,勾配消失問題を軽減する。
- IGLUは,GELUのゲート関数を半正規分布で混合することにより導出された新しい活性化関数である。
- IGLUは,GELUと比較して,よりロバストな勾配特性を示すことが確認された。
- 画像認識および自然言語処理のデータセットにおいて,ReLUやGELUと同等以上の性能を達成した。
言語モデルのエントロピーを考慮したオンポリシー蒸留 [cs.LG, cs.CL]目的:言語モデル間の知識伝達
- 大規模言語モデルの性能向上は自然言語処理の発展に不可欠である。
- 従来の知識蒸留は多様性を損ない,不安定な学習信号を引き起こすことがある。
- 教師モデルの不確実性を考慮し,多様性を維持しつつ効果的な知識伝達を目指す。
- 提案手法は,教師のエントロピーが高い場合に順KL発散を追加することで,生成の多様性を維持する。
- Qwen3-0.6B-BaseでPass@8精度が+1.37,Qwen3-1.7B-Baseで+2.39,Qwen3-4B-Baseで+5.05向上した。
- 教師の不確実性を考慮することが,多様性の維持と効果的な知識伝達に重要であることが示された。
近傍多重音源定位のための進化最適化フレームワーク入門 [cs.NE, eess.SP]目的:近傍多重音源定位のための進化最適化フレームワーク
- 音源定位は,ロボット,音響センシング,通信など,様々な分野で重要な役割を果たす。
- 従来の音源定位手法は,グリッドサーチや学習データに依存しており,柔軟性に課題があった。
- 本研究は,学習データやグリッドサーチを必要としない,新たな音源定位手法を提案する。
- 提案手法は,連続的な信号モデル上で直接動作し,任意の配列形状に対応可能である。
- NEMO-DEとNEEF-DEという2つの相補的なフレームワークを開発し,音源間の電力不均衡に対処した。
- 数値実験の結果,提案手法はMUSICなどの既存手法と同等の精度を示し,グリッド構築や学習データを回避できることが示された。
信頼度の再調整:大規模言語モデルのメタ認知に関するスケール設計の示唆 [cs.CL, cs.AI]目的:大規模言語モデルにおけるメタ認知能力の評価
- 大規模言語モデルの信頼性評価は重要であり,不確実性の定量化が求められている。
- 既存の信頼度スコアは,スケール設計の影響を考慮されていない場合が多い。
- 信頼度スケールの設計が,言語モデルのメタ認知能力に与える影響を明らかにすること。
- 信頼度スコアは,特に丸められた数値に偏りが見られ,3つの値に集中する傾向がある。
- 0~20のスケールは,標準的な0~100のスケールよりもメタ認知効率が向上することが示された。
- スケール境界の圧縮は性能を低下させ,不規則な範囲でも丸められた数値の偏りが残った。
OptEMA:確率的最適化のための適応型指数移動平均(ゼロノイズ最適性付き) [cs.LG, cs.NA, math.NA, math.OC]目的:確率的最適化における指数移動平均の適応的改善
- 最適化アルゴリズムは機械学習の基盤であり,効率的な学習に不可欠である。
- Adamのような既存の手法は,ゼロノイズ条件下で最適な性能を発揮しない場合がある。
- 本研究は,ゼロノイズ条件下でも最適な性能を達成する新しい最適化手法を提案する。
- OptEMA-MとOptEMA-Vの2つの変種を提案し,閉ループかつLipschitz定数に依存しないアルゴリズムを実現した。
- 下限性,不偏性,有限分散,平均滑らかさ,有界確率的勾配の条件下で,両変種とも統一されたノイズ適応レート$\tilde{\mathcal{O}} \left(T^{-1/2}+\sigma^{1/2}T^{-1/4}\right)$を達成した。
- ゼロノイズ条件下では,手動ハイパーパラメータ調整なしに,ほぼ最適な決定論的レート$\widetilde{\mathcal{O}}(T^{-1/2})$に自動的に収束する。
スカラーを超えて:幾何学的進行と安定性によるLLMの推論の評価と理解 [cs.AI]目的:LLMの推論能力の評価と理解
- LLMの能力向上は,AI技術の発展に不可欠である。その信頼性評価は重要課題である。
- 既存の評価方法は,推論の構造的ダイナミクスを捉えきれていない。
- 推論の幾何学的特性に着目し,信頼性をより正確に評価することを試みる。
- TRACEDフレームワークは,推論の質を「進行」と「安定性」という幾何学的指標で評価する。
- 正解の推論は高い進行と安定性を示す一方,ハルシネーションは低い進行と不安定性を示すという相違が見られた。
- このフレームワークは多様なベンチマークで高い性能と堅牢性を示し,認知と幾何学を結びつける洞察を提供する。
CT-VDETR:密な頂点相対位置エンコーディングを用いたCTスキャンにおける半教師あり3次元外傷検出 [cs.CV, cs.LG]目的:腹部CTスキャンにおける3次元外傷検出の効率的な手法
- 外傷は救急医療における重要な課題であり,迅速かつ正確な診断が求められる。
- ボクセルレベルのアノテーション作成はコストと時間がかかるため,十分な学習データが得られにくい。
- ラベルの少ない状況下でも高精度な外傷検出を可能にする技術の開発。
- 自己教師あり学習による3次元U-Netエンコーダの事前学習により,解剖学的表現学習の精度向上を実現した。
- V-DETRを密な体積CTに適合させることで,不規則な形状の外傷の局在化性能を向上させた。
- 半教師あり学習を用いることで,ラベル付きデータが少ない状況下でも高い検出精度(mAP@0.50で31.33%)を達成した。
凍結された基盤モデル上のリッジヘッドに対する正確な連合継続的アンラーニング [cs.LG]目的:凍結された基盤モデルとリッジ回帰ヘッドを用いた連合学習環境における,特定のサンプルやユーザの影響を正確に除去する手法
- 基盤モデルは,多様なタスクに応用可能であり,少量のデータで高い性能を発揮するため,多くの分野で活用されている。
- 連合学習環境では,プライバシー保護が重要となるため,モデルから特定のデータを完全に削除する必要性が高まっている。
- 既存の手法では正確な削除が困難であるため,本研究では,リッジ回帰ヘッドを用いた場合に,正確な削除を効率的に行う手法を提案する。
- 提案手法は,データから得られる2つの加法統計量に基づいており,固定サイズのメッセージによる通信プロトコルを可能にする。
- サーバーは,各リクエスト後に,厳密な算術演算において,集中学習で再学習した場合と完全に一致するヘッドを維持する。
- 実験結果から,提案手法は集中リッジ回帰再学習と$10^{-9}$の相対フロベニウス誤差内で一致し,既存の連合学習ベースラインよりも大幅に低いコストでリクエストを完了することが確認された。
科学的プロセスにおける事前学習済み深層学習モデルの再利用に関する実証的研究 [cs.SE, cs.AI]目的:科学的プロセスにおける事前学習済み深層学習モデルの再利用パターンと影響
- 深層学習は自然科学分野に大きな影響を与えているが,モデルの学習コストが課題となっている。
- モデルのゼロからの学習コストが,深層学習の導入を妨げる要因となっている。
- 自然科学分野における事前学習済みモデルの再利用パターンを定量的に評価し,その影響を明らかにする。
- 生化学,遺伝学,分子生物学の分野が,他の自然科学分野を上回る事前学習済みモデルの再利用率を示した。
- 「適応」再利用が,すべての自然科学分野で最も一般的なパターンであることが明らかになった。
- 科学的プロセスの「検証」段階が,事前学習済みモデルの統合による影響を最も受けていることが示された。
パラメータ化された物理情報ニューラルネットワークのための多様体直交二重スペクトル外挿法 [cs.LG]目的:物理現象を支配する偏微分方程式をモデル化するための,軽量な物理演算子適応マイクロアーキテクチャの開発
- 偏微分方程式に基づく物理シミュレーションは,科学技術の様々な分野で不可欠である。
- 従来の物理情報ニューラルネットワークは,新しい物理条件下での再学習に高い計算コストを要する。
- 演算子の構造を維持しつつ,少ないパラメータで外挿性能を向上させることを目指す。
- 提案手法MODEは,凍結された直交基底内のエネルギー伝達を可能にする主要スペクトル密混合機構を導入する。
- 高周波スペクトル成分を単一の学習可能なスカラーを通じて活性化する残差スペクトル目覚め機構も活用する。
- 1次元対流拡散反応方程式と2次元ヘルムホルツ方程式の実験で,既存手法を上回る外挿汎化性能を示す。
時系列予測における入力認識型RAGのためのクロスアテンション:すべての検索が有用とは限らない [cs.LG]目的:時系列予測における検索拡張生成の性能向上
- 時系列予測は,将来のトレンド把握に不可欠であり,様々な分野で活用されている。
- 既存のRAG手法では,検索されたサンプル全てが有用であるとは限らず,関係のないサンプルが性能低下を招く。
- 本研究では,入力レベルでの関連性を考慮し,有用なサンプルに選択的に注目することで,性能低下を防ぐ。
- 提案手法Cross-RAGは,クエリと検索されたサンプルの関係性をクロスアテンションでモデル化し,予測精度を向上させる。
- Cross-RAGは,検索サンプル数が増加しても安定した性能を維持する。
- 実験結果から,様々なTSFMバックボーンおよびRAG手法において,Cross-RAGが予測性能を常に改善することが示された。
