arXiv雑要約
AI - 2026/02/03 公開
マルチヘッドアテンションはマルチプレイヤーゲームである [cs.AI, cs.CL, cs.GT, cs.LG]目的:マルチヘッドアテンションにおけるヘッド間の相互作用のゲーム理論的分析
- Transformerモデルの性能向上は,自然言語処理の発展に不可欠である。
- 各ヘッド間の競争と協調が考慮されておらず,最適化効率が低い可能性がある。
- ヘッド間の相互作用を分析し,モデルの効率性と性能を向上させる。
- クロスエントロピー学習はヘッド間の潜在的なゲームを誘導し,勾配降下法はナッシュ均衡に収束する。
- ヘッド間相互作用行列のオフ対角成分($\Gamma(G)$)が,非効率性の程度を示す指標となることが示された。
- GAME-LoRAは,幻覚の減少と知識の維持を両立するパレート改善を実現した。
幾何学的二次構造モチーフを用いたマルチスケールグラフベースのタンパク質学習 [cs.LG, cs.AI, cs.NA, math.NA]目的:タンパク質学習のためのマルチスケールグラフベースのフレームワーク
- タンパク質の構造予測は,生命科学における重要な課題であり,創薬や機能解明に不可欠である。
- 既存のグラフニューラルネットワークは,マルチスケールな表現学習や長距離依存性のモデル化に課題がある。
- 本研究は,二次構造モチーフを利用した階層的なグラフ表現により,効率的なマルチスケール学習を実現する。
- 提案手法では,αヘリックスやβストランドなどの二次構造モチーフを要素とする階層的グラフ表現を構築する。
- このフレームワークは,局所的な相互作用と高次の構造関係の両方を捉え,柔軟なGNNの選択を可能にする。
- 実験結果から,提案手法は既存手法と比較して予測精度を向上させ,計算コストを削減できることが示された。
自動車CANデータの基盤言語モデル [cs.AI, cs.CL]目的:自動車CANデータの汎用的な表現学習
- 自動車の安全性向上や保険分野での応用が期待され,CANデータの活用が重要視されている。
- CANデータの活用は個別タスクに特化しており,タスク間の知識共有や汎化性能が課題となっている。
- 事前学習済みモデルを活用し,多様なタスクへの適応能力を高めることで,汎用的な表現学習を実現する。
- CANデータを言語として扱い,大規模な未ラベルデータで事前学習を行うことで,様々な予測タスクに適応可能であることを示した。
- 離散値と連続値を扱うための統一的なトークン化方式を提案し,CANデータの時間的複雑さとトリップ固有の変動に対応した。
- 自然言語処理やコンピュータビジョンにおける基盤モデルのパラダイムが,CANデータにも有効であることを実証した。
フローダイバージェンスの整合によるフローマッチングの改善 [cs.RO, cs.LG, cs.AI, cs.NA, math.NA]目的:フローベース生成モデルの学習における確率経路の精度向上
- 生成モデルは多様なデータ生成を可能にするため,機械学習の重要な分野である。
- 従来のフローマッチングは確率経路の学習精度に課題があり,生成性能に限界があった。
- フローとダイバージェンスを同時に整合する新しい目的関数を設計し,生成モデルの性能を向上させる。
- 本研究では,学習された確率経路と正確な確率経路の誤差に関する新たな偏微分方程式の表現とその解を提示した。
- フローマッチング損失と関連するダイバージェンス損失の組み合わせによって,2つの確率経路間の全変動ギャップが上限で抑えられることを示した。
- 提案手法は,ダイナミカルシステム,DNA配列,動画などのベンチマークタスクにおいて,CFMと比較して目覚ましい性能向上を実証した。
出力批判を超えて:タスク蒸留による自己修正 [cs.AI, cs.CL]目的:大規模言語モデルにおける自己修正能力の向上
- 言語モデルの性能向上は,自然言語処理の応用範囲を広げ,より高度な対話システム実現に不可欠である。
- 既存の自己修正方法は表面的な誤りの修正に留まり,根深い推論の誤りを修正できない場合がある。
- タスクを構造化されたテンプレートに抽象化することで,より正確で堅牢な自己修正を可能にすること。
- SELF-THOUGHTフレームワークは,タスク抽象化のステップを導入し,問題の本質を捉えた修正を可能にする。
- より大規模なモデルで生成された抽象化テンプレートを,小規模モデルのガイドとして活用することで,小規模モデルの自己修正能力を向上させる。
- 多様な推論タスクにおいて,SELF-THOUGHTは大規模・小規模モデル双方の精度,頑健性,汎化性能を改善する。
自己相似変数における熱方程式の学習 [cs.LG, math-ph, math.MP]目的:自己相似変数における熱方程式の解の学習
- 流体現象などの理解に不可欠であり,複雑な物理現象を記述する上で重要である。
- 長期的な挙動予測が困難であり,物理座標系での学習では外挿性能が低い場合がある。
- 自己相似変数を用いることで,長期的な挙動の学習を改善し,外挿性能を高める。
- 自己相似変数で学習したネットワークは,物理座標系で学習したネットワークと比較して,訓練範囲外の予測精度と安定性が大幅に向上した。
- 両システムおよび両アーキテクチャにおいて,自己相似変数での学習が長期的な傾向をより適切に捉えることが示された。
- 自己相似座標は,熱方程式の長期的なダイナミクスを学習するための数学的に正当化された誘導バイアスを提供する。
動的専門家共有:MoE拡散LLMにおける並列性とメモリの分離 [cs.RO, cs.LG]目的:MoE拡散LLMにおけるメモリボトルネックの軽減
- 大規模言語モデルの性能向上には,モデルの規模拡大が不可欠。MoEは効率的な規模拡大手法として注目されている。
- MoEモデルでは,並列処理が増加すると活性化される専門家数も増加し,メモリボトルネックとなる。
- DESは,シーケンスレベルでの専門家選択により,メモリ使用量を削減し,並列処理の効率化を目指す。
- DESは,MoE拡散LLMにおいて,活性化されるユニークな専門家数を55%以上削減することに成功した。
- DESにより,推論遅延を最大38%削減し,高い精度を維持することが確認された。
- DESは,並列処理の度合いとメモリ使用量の関係を効果的に分離し,効率的な推論を可能にする。
DIAMOND:フローマッチングモデルにおけるアーティファクト軽減のための指向性推論 [cs.HC, cs.CL, cs.CV, cs.AI]目的:画像生成におけるアーティファクト軽減手法
- 近年,画像生成技術は目覚ましい発展を遂げているが,実用化には品質向上が不可欠である。
- 既存の手法では,生成後の修正やモデルの変更が必要となり,効率性や汎用性に課題がある。
- 生成過程におけるアーティファクト発生を抑制し,高品質な画像生成を可能にすること。
- DIAMONDは,追加学習やモデル変更なしに,推論時に生成軌道を修正することでアーティファクトを軽減する。
- 各生成ステップでクリーンな画像を推定し,アーティファクトを生む潜在状態から生成プロセスを誘導する。
- 拡散モデルにも適用可能であり,汎用性の高いアーティファクト軽減手法であることが示された。
ニューラル演算子分割による物理現象のテスト時汎化 [cs.LG]目的:偏微分方程式の解写像学習におけるテスト時の汎化能力向上
- 物理シミュレーションの精度向上は,科学技術の発展に不可欠である。
- ニューラル演算子は未知の物理現象に対して汎化性能が低いという課題がある。
- 学習データに存在しない物理現象へのゼロショット汎化を実現する。
- 提案手法は,学習済みの演算子を組み合わせることで未知の物理現象を近似する。
- パラメータ外挿や複数の物理現象の組み合わせにおいて,最先端のゼロショット汎化性能を達成した。
- テスト時の計算が,柔軟で汎用性の高いニューラル演算子構築の鍵となることを示した。
大規模言語モデルにおけるロバストな情報的データ選択のための信頼性考慮型決定点過程 [cs.LG]目的:大規模言語モデルにおけるロバストな情報的データ選択
- 大規模言語モデルの効率的な展開には,必要なデータ量を削減することが重要である。
- 従来のデータ選択手法は,データへのアクセスが常に確実であることを前提としている。
- データアクセス時の信頼性を考慮した,ロバストなデータ選択手法を開発する。
- 本研究では,信頼性を考慮した新しい決定点過程(ProbDPP)を提案した。
- ProbDPPは,不確実性下での多様なデータバッチの選択を可能にする。
- 提案手法の理論的解析により,性能保証が確認された。
RoDiF:破損した人間のフィードバックを用いた拡散ポリシーのロバストな直接ファインチューニング [cs.RO, cs.LG]目的:拡散ポリシーのロバストな直接ファインチューニング手法
- ロボット制御において,拡散ポリシーは強力な手法である。人間の嗜好に基づいたファインチューニングが重要となる。
- 拡散ポリシーの多段階構造が,人間のフィードバックを用いたファインチューニングを困難にしている。
- 破損した人間のフィードバックに対してもロバストなファインチューニングを実現し,性能低下を防ぐ。
- RoDiFは,拡散ポリシーと環境ダイナミクスを統合した統一的なマルコフ決定過程(MDP)を導入し,報酬不要な直接選好最適化(DPO)を可能にした。
- 幾何学的仮説切断の視点からDPOの目的を再解釈し,保守的な切断戦略を用いることで,特定のノイズ分布を仮定せずにロバスト性を実現した。
- 長距離操作タスクの実験で,RoDiFは最先端のベースラインを上回り,多様なアーキテクチャの事前学習済み拡散ポリシーを人間の好みに合わせたモードへと効果的に導いた。
EffGen:小規模言語モデルによる高機能な自律エージェントの実現 [cs.CL, cs.AI, cs.LG]目的:小規模言語モデルを活用した,効率的で安全な自律エージェントフレームワークの開発
- 大規模言語モデルに依存しないエージェントシステムの需要が高まっている。コストやプライバシーの問題を解決する必要がある。
- 既存のエージェントシステムは,大規模言語モデルに最適化されており,小規模言語モデルでは性能が十分でない。
- 小規模言語モデルでも,効率的かつ効果的にタスクを実行できる自律エージェントを実現することを目指す。
- EffGenは,プロンプト最適化によりコンテキストを圧縮し,ツール呼び出しを強化することで,小規模言語モデルの性能を向上させた。
- タスク分解や複雑性に基づいたルーティングにより,効率的なタスク実行を実現し,LangChain等の既存フレームワークを上回る成果を示した。
- プロンプト最適化は小規模モデル,複雑性ルーティングは大規模モデルにそれぞれ恩恵をもたらし,組み合わせることで全規模で一貫した改善が見られた。
GAPNet: タスク固有のグラフを動的に学習するプラグイン [cs.LG, cs.AI]目的:動的な株価の関係性を捉えるためのタスク固有のグラフ学習
- 金融市場において,Web情報の活用は予測精度向上に不可欠である。
- 従来の株価関係グラフは事前定義に依存し,ノイズや非同期性に対応できていない。
- タスクに応じたグラフ構造と表現を共同で学習することで,予測性能を向上させる。
- GAPNetは,既存のグラフモデルに接続することで,エッジトポロジーを動的に適応・再構成する。
- 実際の株価データセットにおいて,GAPNetは最先端モデルと比較して収益性と安定性を向上させた。
- RT-GCNとCI-STHPANでそれぞれ年率0.47と0.63の累積リターン,シャープレシオは最大2.20と2.12を記録した。
コンテンツベース推薦のためのドメイン適応とスケーラブルな密な検索 [cs.LG, cs.IR]目的:コンテンツベース推薦における密な検索システムの構築
- Eコマースにおいて,検索と推薦の精度向上は重要であり,ユーザー体験に直結する。
- キーワードマッチングでは,語彙の不一致により,ユーザーの意図と商品メタデータの関連性を捉えきれない場合がある。
- セマンティックな類似性に基づき,大規模なカタログから関連商品を効率的に検索する手法を確立する。
- Amazon Reviews 2023 (Fashion)データセットを用いて,教師ありコントラスティブ学習による密な検索システムを構築した。
- レビューテキストと商品メタデータを活用し,Recall@10をBM25の0.26から0.66へと大幅に改善した。
- FAISS HNSWインデックスとONNX Runtimeを用いて,CPU効率の高い推論パイプラインを構築し,実用的なレイテンシとモデルサイズを実現した。
幻覚は空間最適性の結果である:メンバーシップテストのためのレート歪み定理 [eess.SY, cs.SY, cs.LG, cs.AI, cs.CL, cs.DS, cs.IT, math.IT]目的:大規模言語モデルにおける幻覚の発生メカニズムの解明
- 言語モデルの性能向上は,知識の効率的な表現と記憶に依存する。
- 大規模言語モデルは,根拠の薄弱な情報に対して高い確信度で誤った情報を生成する。
- 限られた容量下で,情報圧縮の限界から生じる幻覚の必然性を理論的に示す。
- 本研究では,幻覚をメンバーシップテスト問題として定式化し,レート歪み定理を導出した。
- 定理は,最適な記憶効率が事実と非事実のスコア分布間のKLダイバージェンスによって特徴づけられることを示している。
- 理論的枠組みは,容量制限下では幻覚が情報理論的に最適な戦略であると説明する。
PyGALAX:高度な説明可能な地理空間機械学習のためのオープンソースPythonツールキット [cs.LG]目的:地理空間データの空間的異質性を解析するための機械学習モデルの自動選択と最適化
- 地理空間分析は,都市計画,環境科学など多様な分野で不可欠であり,空間的なパターン理解に貢献する。
- 従来の地理加重回帰(GWR)は柔軟性に欠け,空間モデリングの精度向上が課題であった。
- 空間非定常性を解決し,複雑な空間関係を透明性のある形で明らかにすることを目指す。
- PyGALAXは,AutoMLとXAIを統合することで,地理空間データの分析を自動化し,解釈可能性を高める。
- 従来のGALAXフレームワークを基盤とし,自動バンド幅選択と柔軟なカーネル関数選択を改良した。
- PyGALAXは,地理学,都市計画,環境科学などの分野の研究者や実務家にとって有用なツールとなる。
医療画像における効率的な深層学習:高性能AIと臨床展開のギャップを埋める [eess.SY, cs.SY, cs.AR, cs.LG]目的:医療画像における効率的かつ軽量な深層学習アーキテクチャの分類と評価
- 医療画像解析は臨床応用の重要な役割を担うが,計算資源やプライバシー保護の課題がある
- 大規模モデルの臨床環境への導入は,計算コストや遅延,データプライバシー等の問題がある
- 高性能AIをリソース制約のある臨床環境に展開するための道筋を示すことを目指す
- 深層学習モデルの効率化手法として,CNN,軽量Transformer,線形複雑性モデルの3つが分類された
- プルーニング,量子化,知識蒸留,低ランク分解等のモデル圧縮戦略の効果が評価された
- オンデバイス推論への移行が,今後の医療画像解析における重要な方向性として示唆された
ツール経路LLMのためのシナプスコンペンディウム認識型連合知識共有 [cs.AI]目的:ツール使用に関する共有知識モデルの学習
- LLMエージェントの協調学習は,その可能性を秘めているが,実用化には課題が多い。
- 連合学習では,通信コスト,データ異質性,ツール使用法などがボトルネックとなる。
- 安定したツール選択への収束を促し,LLMエージェントの効率的なツール利用を実現する。
- Synapseは,ツール使用行動の共有知識モデルを学習するフレームワークである。
- テンプレート表現,LLMによる再ランキング,適応的マスキングにより,情報漏洩を抑制しつつ有用性を維持する。
- 実験結果から,Synapseはツール使用の有効性を向上させ,通信オーバーヘッドを削減できることが示された。
シュワルツの高次価値は文レベルの人間価値検出に役立つか? ハードゲーティングが及ぼす影響 [cs.DL, cs.CL, cs.AI, cs.LG]目的:文レベルの人間価値検出におけるシュワルツ高次カテゴリーの有用性
- 人間価値の理解は,社会科学,心理学,倫理学において重要な課題である。個人の価値観を把握することは,多様な分野で応用が期待される。
- 文レベルでの価値検出は,多ラベル分類として扱われることが多いが,高次カテゴリーの構造が有効に活用されているか不明である。
- 本研究は,限られた計算資源下で,シュワルツ高次カテゴリーが文レベルの価値検出に貢献するかを検証する。
- シュワルツ高次カテゴリーは単一文から学習可能であり,最も容易な双極対ではMacro-$F_1$約0.58を達成する。
- しかし,ハードな階層的ゲーティングは信頼できる改善策ではなく,エラーの累積や再現率の低下を招く場合が多い。
- ラベルごとの閾値調整は,Macro-$F_1$を最大0.05向上させる高効果な手法であり,軽量なトランスフォーマーのアンサンブルがさらなる改善をもたらす。
会話における感情認識のためのベースラインマルチモーダルアプローチ [cs.CL, cs.AI, cs.CY, cs.SD, eess.AS]目的:会話における感情認識のためのベースラインモデル構築
- 人間と機械の円滑なコミュニケーションには,感情の理解が不可欠である。
- 感情認識モデルは,データセットや評価指標の標準化が課題となっている。
- 既存のデータを活用し,再現性の高いベースラインモデルを提示する。
- テキスト分類器と自己教師あり学習による音声表現モデルを組み合わせた。
- マルチモーダル融合が,単一モダリティモデルよりも性能向上に貢献することが示された。
- 本研究は,今後のより厳密な比較のための透明性と参照実装を提供する。
非定常コスト下における時系列データの早期分類 [cs.RO, cs.LG]目的:時系列データの早期分類における,変化するコスト条件下の意思決定
- リアルタイムでの迅速な意思決定は,多くの分野で重要であり,特にコストが時間とともに変化する場面では不可欠である。
- 既存の早期分類手法は,コストが既知で固定されていることを前提としており,現実の状況との乖離が生じやすい。
- 変化するコスト条件下でもロバストな早期分類を可能とする手法を開発し,その有効性を検証すること。
- オンライン学習を用いることで,コストドリフトに対する早期分類手法のロバスト性を向上させることが示された。
- 特に,強化学習に基づく戦略は,様々なコスト条件において堅牢かつ安定した性能を示した。
- 分類器を固定し,トリガーモデルのみを更新するオンライン適応手法が有効であることが確認された。
セマンティックな構成のための制約なし特徴モデルとしての教師ありスパースオートエンコーダ [cs.RO, cs.RO, cs.AI]目的:セマンティックな構成における特徴モデリング
- ニューラルネットワークの解釈可能性向上は,AIの信頼性向上に不可欠である。
- スパースオートエンコーダは解釈可能性に優れるが,学習の安定性やセマンティクスとの整合性に課題がある。
- 学習の安定化とセマンティックな整合性を高め,より高度な画像編集を可能にすること。
- 教師ありスパースオートエンコーダは,学習データにない概念の組み合わせにも対応可能である。
- Stable Diffusion 3.5を用いた実験で,セマンティックな画像編集においてプロンプトの修正を必要としないことが示された。
- 本研究は,ニューラル崩壊理論に基づく特徴モデルの有効性を実証した。
必要以上に:結果の監督下での訓練時推論長の拡大から得られる隠れた利点 [cs.LG]目的:訓練時推論長の拡大による性能向上
- 大規模言語モデルの性能向上には,複雑な問題を解決できる推論能力が不可欠である。
- 分布外データの性能が,分布内データの性能に達した時点で頭打ちになる場合がある。
- 訓練時推論長の拡大によって,分布外データの性能を改善することを試みる。
- 結果の監督下では,分布内性能が飽和した後でも,訓練時推論長の拡大により分布外性能が向上することが示された。
- 自己反復は,仮説クラスに強い誘導バイアスを導入し,分布外汎化を改善する。
- 正則化により,モデルは分布内データに特化した近道解への依存を減らすことが可能になる。
プログラム合成エージェントにおける階層的計画のための抽象化学習 [cs.AI]目的:プログラム合成エージェントにおける,階層的計画のための抽象化学習
- 人間は抽象化を学習し,タスク間で効率的に一般化する能力を持つ。これはLLMや強化学習システムにとって課題である。
- 既存のTheory-Based RLシステムは抽象化を活用するが,人間が提供する抽象化に依存しており,抽象化学習自体は行わない。
- LLMの文脈学習能力を活用し,経験から再利用可能な抽象化を能動的に学習し,階層的計画に統合すること。
- TheoryCoder-2は,従来のLLMエージェントやプログラム合成エージェントと比較して,サンプル効率が大幅に向上した。
- TheoryCoder-2は,ベースラインが失敗する複雑なタスクを解決することができ,過去のTBRLシステムとは異なり,最小限のプロンプトで済む。
- BabyAI,Minihack,VGDLゲーム(Sokoban)など,多様な環境で有効性が確認された。
連続的な有用性に基づく直接選好最適化 [cs.LG, cs.AI]目的:プロンプトに基づく認知戦略のポートフォリオに対するモデルのアライメント
- 大規模言語モデルの推論能力は重要であり,複雑な問題を解決するための基盤技術である。
- 従来の二値の選好による学習では,部分的な進捗や推論の質を捉えきれないという課題があった。
- 本研究は,より詳細な推論の質を捉え,サンプル効率を向上させることを目指している。
- CU-DPOは,二値の選好と比較して,サンプル複雑性においてΘ(K log K)の改善を示すことが証明された。
- 戦略選択の精度が,7つのベースモデルで35-46%から68-78%へと大幅に向上した。
- 分布内データセットにおいて最大6.6ポイントの推論能力の向上と,分布外タスクへの効果的な転移が確認された。
MCP-Atlas:実MCPサーバーを用いたツール利用能力の大規模ベンチマーク [cs.SE, cs.AI]目的:大規模言語モデルのツール利用能力の評価
- LLMの能力向上には,外部ツールとの連携が不可欠であり,その評価手法の確立が重要である。
- 既存の評価は現実世界の複雑さを捉えきれておらず,ツールセットやワークフローが限定的である。
- 現実的な多段階ワークフローにおけるツール利用能力を評価し,より堅牢なエージェント開発を促進する。
- MCP-Atlasは,36の実際のMCPサーバーと220のツールを含む大規模なベンチマークである。
- 最先端モデルは50%を超える合格率を達成するものの,ツール利用の不適切さやタスク理解の不足が主な失敗要因である。
- タスクスキーマ,コンテナ化されたハーネス,およびベンチマークデータセットの一部を公開し,再現性のある比較を可能にする。
3Dマルチビュー行動条件付きロボット操作事前学習のためのコントラスト学習:CLAMP [cs.RO, cs.RO, cs.AI, cs.CV, cs.LG]目的:3Dマルチビューデータとロボット行動を用いた,ロボット操作の事前学習フレームワーク
- ロボットの知能化において,環境の3次元情報を正確に把握することは重要である。
- 既存の2D画像表現では,正確な操作に必要な3次元空間情報を捉えきれない。
- 3D情報を活用し,ロボットの学習効率と性能を向上させることを目指す。
- 提案手法CLAMPは,RGB-D画像から再レンダリングされたマルチビュー画像を用いて,3D幾何情報とロボット行動の関連性を学習する。
- Diffusion Policyを用いた事前学習により,限られたタスクデモンストレーションでの微調整効率と性能を大幅に改善する。
- シミュレーションおよび実環境のタスクにおいて,最先端のベースライン手法を上回る性能を示す。
SALAAD:ADMMによる疎かつ低ランク適応 [cs.NI, cs.LG]目的:計算資源およびメモリ制約下でのモデル容量の柔軟な制御
- 大規模言語モデルの利用拡大に伴い,計算資源の制約下での効率的なモデル運用が重要となっている。
- 既存手法は層や行列の異質性を無視したり,モデル固有の変更が必要となる場合がある。
- SALAADは,モデルの構造を動的に制御し,効率的な学習と展開を可能にする。
- SALAADは,様々なモデルアーキテクチャに適用可能なプラグアンドプレイ型フレームワークである。
- 学習時のメモリ消費量を大幅に削減しつつ,既存手法と同等の性能を達成した。
- 一度の学習で連続的なモデル容量スペクトルが得られ,再学習なしに多様なメモリ予算に対応できる。
レコメンデーションシステムにおけるコールドスタート探索のための動的事前Thompsonサンプリング [cs.LG]目的:レコメンデーションシステムにおけるコールドスタート探索の効率化
- 大規模レコメンデーションシステムでは,新たなアイテムの価値評価が重要であり,適切な探索が不可欠である。
- 従来のThompsonサンプリングは,未知のアイテムに対して楽観的な事前分布を用いるため,弱いアイテムに過剰なトラフィックが割り当てられる問題がある。
- 新たなアイテムが既存のアイテムより優れている確率を直接制御することで,探索の効率性と精度を向上させる。
- 動的事前Thompsonサンプリングは,新しいアイテムの探索強度を予測可能かつ調整可能にし,ベイズ更新を維持する。
- モンテカルロシミュレーション,オフラインバッチシミュレーション,大規模オンライン実験の結果,動的事前分布は従来の事前分布よりも優れた性能を発揮する。
- 動的事前分布を用いることで,探索の制御精度が向上し,レコメンデーションの効率が改善されることが示された。
ニューラルFOXP2 -- LLMにおけるターゲット言語改善のための言語特化ニューロンの制御 [cs.CL, cs.AI]目的:LLMにおける言語デフォルト性の制御
- 大規模言語モデルは多言語対応だが,英語が優位な傾向がある。
- 他の言語は潜在的に存在しているが,システム的に抑制されている。
- 言語特化ニューロンを制御し,ターゲット言語を主要な言語とする。
- Neural FOXP2は,選択された言語(ヒンディー語またはスペイン語)をモデルの主要言語とする。
- 活性化の分解と,英語とターゲット言語の選択性の定量化により言語ニューロンセットを特定する。
- 言語変化を制御するスペクトル低ランク分析により,介入ウィンドウを特定し,活性化シフトを適用する。
キーホール効果:チャットインターフェースがデータ分析で失敗する理由 [cs.AI]目的:多段階のデータ分析におけるチャットインターフェースの性能低下機構の解明
- AI支援によるデータ分析の重要性が増しており,インターフェースの認知負荷が課題となっている。
- チャットインターフェースは情報の可視化が限定的で,認知的な制約を生じやすい。
- チャットインターフェースの認知負荷を軽減するための具体的な設計パターンを提案する。
- チャットインターフェースは,コンテンツの置換,隠れた状態変数,言語化による影響などにより分析性能を低下させる。
- 認知負荷の指標O = max(0, m - v - W)を提示し,認知負荷が大きくなるとエラーが増加し,バイアスが強まることを示した。
- Generative UI,Infinite Canvasなど8つのハイブリッドデザインパターンが,認知的なボトルネックを解消する可能性を示唆した。
MindGuard:多岐にわたるメンタルヘルスサポートのためのガードレール分類器 [cs.AI]目的:多岐にわたるメンタルヘルスサポートにおける臨床的適切性の確保
- メンタルヘルス問題の増加に伴い,LLMを活用したサポートの重要性が高まっている。
- 既存の安全対策では,治療的な開示と実際の危機状況の区別が難しく,誤検知が多い。
- 臨床心理学者の協力を得て,具体的な危険分類を定義し,誤検知を減らすこと。
- 臨床的根拠に基づいた危険分類を構築し,実世界の対話データセットMindGuard-testsetを公開した。
- MindGuardは,汎用的な安全対策と比較して,高い再現率を維持しつつ誤検知を低減することに成功した。
- 臨床医の言語モデルと組み合わせることで,敵対的な対話における攻撃成功率と有害な関与率をさらに低下させた。
R-HTN:安全性とゲームAIのための反抗的なオンラインHTN計画 [cs.AI]目的:反抗的なオンラインHTN計画アルゴリズム
- AIエージェントの自律性と安全性確保は,現実世界での応用において重要である。
- 従来の計画手法では,予期せぬ状況への適応や,制約条件の遵守が課題となる場合がある。
- 安全性や個性といった制約下で,タスクを柔軟に達成するAIエージェントを開発する。
- R-HTNは,制約(directives)を考慮したオンラインHTN計画のための汎用アルゴリズムである。
- 実験の結果,R-HTNエージェントは制約を一切違反することなく,可能な限りユーザの目標を達成することが確認された。
- 非適応型と適応型の2つのエージェントバリアントが評価され,どちらも安全性と目標達成能力を示した。
大規模言語モデルの最適予算型適応 [cs.LG]目的:大規模言語モデルの予算制約下における適応戦略
- 大規模言語モデルの性能は学習データ量に依存するが,ラベル付きデータの収集はコストがかかる。
- ラベル付きデータが限られた状況下では,モデルの精度向上が困難となる。
- 限られた予算内で,効率的にラベル付きデータを活用し,モデル精度を最大化すること。
- 本研究では,大規模言語モデルの適応を文脈的スタケルバーグゲームとして定式化する。
- 学習者はスコアリングポリシーとラベル照会戦略を決定し,環境はそれに応答して難しい教師あり選択肢を選択する。
- 提案アルゴリズムは,線形文脈的仮定の下で$\tilde{O}(d\sqrt{T})$の悔悟を達成する。
SAGE:解釈可能かつ臨床応用可能な病理計算バイオマーカー探索のためのエージェント的フレームワーク [cs.LG]目的:病理計算バイオマーカーの探索
- 病理診断の精度向上と効率化が求められており,計算病理学はその重要な手段となる。
- 既存のAIモデルはブラックボックス化しやすく,臨床現場での説明責任が課題となっている。
- 生物学的根拠に基づいた解釈可能なバイオマーカーを効率的に発見し,臨床応用を促進すること。
- SAGEは,文献に基づいた推論とマルチモーダルデータ解析を統合し,画像由来の特徴と分子バイオマーカーを関連付ける。
- 専門のエージェントが連携することで,生物学的文脈に沿った透明性の高いバイオマーカーを優先的に選定する。
- これにより,計算病理学の臨床翻訳を促進し,より信頼性の高いバイオマーカー発見に貢献する。
僅かな選好差も重要である—適切な学習を行えば [cs.AI]目的:大規模言語モデルの選好最適化における学習戦略
- 言語モデルの性能向上には,人間の選好を反映した学習が不可欠であり,その効率的な最適化手法が求められている。
- 選好ペアの質が選好最適化の成否を左右するが,曖昧なペアはノイズと見なされ,しばしば除外されてきた。
- 曖昧なペアに含まれる有用な情報を活用し,選好最適化の安定性と性能を向上させることを目指す。
- MixDPOは,選好ペアを難易度順に学習させ,難易度の高いペアを教師ありファインチューニングで最適化するハイブリッドな戦略である。
- 実験結果から,MixDPOはDPOや他の既存手法と比較して,一貫して高い性能を示すことが確認された。
- 特に,AlpacaEval~2の長さ制御(LC)勝率において顕著な改善が見られた。
MRIに基づくアルツハイマー病重症度分類のためのハイブリッドトポロジー的・深層特徴融合 [cs.CV, cs.LG]目的:アルツハイマー病重症度分類の精度向上
- アルツハイマー病の早期診断は,神経画像に基づいた臨床意思決定支援システムにおいて極めて重要である。
- 従来のニューラルネットワークでは,脳構造のトポロジー的特徴を見落とす場合がある。
- 脳構造のトポロジー的特徴と深層特徴を融合することで,アルツハイマー病の段階をより明確に区別することを目指す。
- 提案手法は,OASISデータセットを用いた実験で,既存の最先端手法を大きく上回る性能を示した。
- 精度99.93%およびAUC100%を達成し,深層学習パイプラインへのトポロジー的知見の組み込みの有効性を確認した。
- 本研究は,自動アルツハイマー病診断のための堅牢かつ高精度なツールの可能性を示唆する。
ドリフトから適応,そして失敗した機械学習モデルへ:産業用MLOpsにおける転移学習 [cs.LG]目的:機械学習モデルの故障時更新のための系統的なフレームワーク開発
- 信頼性の高いMLOpsを実現するためには,本番環境へのモデル適応が不可欠である。
- データドリフト発生時のモデル更新に関する体系的な枠組みが十分に確立されていない。
- データドリフトに対応した故障モデルの適応を支援する知見の提供。
- アンサンブル転移学習(ETL)は,5日分のバッチサイズにおいて,他の手法よりも高い予測精度を示した。
- 全層転移学習(ALTL)は,8日間の大きなバッチサイズで学習したモデルの更新に適していることがわかった。
- モデル更新手法の計算要件は,バッチサイズによって異なる傾向が見られた。
知識境界の探求:深層知識抽出のためのインタラクティブなエージェントフレームワーク [cs.LG, cs.CL]目的:大規模言語モデルの知識抽出と定量化
- 大規模言語モデルは知識の集積体であり,その能力向上はAI研究の重要な課題である。
- 既存の評価方法は静的で,体系的な知識探求を十分に支援できていない。
- 大規模言語モデルが内包する知識の範囲と限界を明確にすること。
- 再帰的タクソノミーが最も有効な知識探索戦略であることが示された。
- モデルの規模が大きいほど,より多くの知識を抽出できるという知識のスケーリング法則が確認された。
- 専門モデルは初期精度が高いが精度劣化が早く,汎用モデルは安定した性能を維持するトレードオフが示された。
- 訓練データ構成の違いが,モデル間の明確な知識プロファイルの違いにつながることが示された。
拡散とフローを超えた多次元科学的学習 [cs.LG, cs.AI, cs.CE, stat.CO, stat.ML]目的:多次元条件付き不確実性の定量的評価
- 科学的機械学習は,逆問題やカオス的挙動など,不確実性を扱う必要性が高まっている。
- 拡散モデルやフローベースの手法はデータ量が多く,計算コストが高いという課題がある。
- 構造化された解空間を持つ科学的問題において,より効率的かつ解釈可能な手法の確立。
- 混合密度ネットワーク(MDN)は,少量のデータでも分離されたモードを確実に回復できる。
- MDNは,明示的なパラメータ密度推定器として,低次元多峰性の物理現象に適した誘導的バイアスを持つ。
- MDNは,逆問題,多安定性,カオス的科学的回帰タスクにおいて,汎化性能,解釈可能性,サンプル効率に優れる。
量子化された埋め込みのスペクトル平坦化について [cs.MA, eess.SY, cs.SY, cs.LG]目的:超低精度での大規模言語モデルの学習における不安定性の原因の解明
- 自然言語処理において,大規模言語モデルの効率的な学習は重要な課題である。
- 量子化による精度低下は,言語データのスペクトル特性との矛盾から不安定性を招く。
- 埋め込みのスペクトル平坦化が表現力の低下を引き起こすメカニズムの定量化。
- 埋め込みの特異値スペクトルのべき乗則減衰が意味的符号化に不可欠であることが理論的に証明された。
- 一様量子化がスペクトルの裾を不均衡に切り捨て,スペクトル平坦化を誘発することが示された。
- GPT-2やTinyLlamaを含む多様なアーキテクチャでの実験により,スペクトルの劣化が表現崩壊を招くことが確認された。
ラベル付き多様体アラインメントのための森林誘導セマンティックトランスポート [cs.HC, cs.LG]目的:ラベル付き多様体アラインメントにおける対応関係の回復とラベル転送の性能向上
- 多様体アラインメントは,異なるデータセット間の関係性を明らかにする上で重要である。
- 既存手法はユークリッド幾何学に依存しており,タスクとの関連性が弱い特徴量の場合,精度が低下する。
- 森林誘導幾何学を用いて,ドメイン内構造のノイズ除去とタスク関連多様体の回復を目指す。
- FoSTAは,森林アフィニティからセマンティック表現を構築し,高速な階層的セマンティックトランスポートによってアラインメントを行う。
- 合成ベンチマークにおいて,既存手法と比較して対応関係の回復とラベル転送の性能が向上した。
- 単一細胞アプリケーション(バッチ補正や生物学的保存)においても高い性能を示した。
1回の試行からの信頼:構造的信号による大規模言語モデルの信頼性推定 [cs.CL, cs.LG]目的:大規模言語モデルの信頼性推定手法
- 社会的,科学的,安全上のコストが高い分野でのLLM利用が拡大しており,信頼性評価が重要である。
- 従来の信頼性推定方法は,分布の変化や専門分野のテキスト,計算資源の制約に弱く,頑健性に課題がある。
- モデルの最終層の隠れ状態の軌跡から得られる多規模構造的信号を用いて,出力の正誤予測を向上させることを目指す。
- 提案手法「Structural Confidence」は,AUROCおよびAUPRにおいて既存手法と比較して高い性能を示した。
- 本手法は,確率や文埋め込みでは捉えきれない内部安定パターンを捉えることができる。
- 単一の決定論的フォワードパスで信頼性を推定できるため,効率的かつ堅牢な信頼性評価を実現する。
生物の能動性と迅速な適応:表現型優先進化のための表現型生成アルゴリズム [cs.NE, q-bio.PE]目的:表現型優先進化における,生物の能動性を実現する計算過程
- 進化の成功は適応能力に依存し,遺伝的革新と生涯学習の両方が重要である。
- 従来の遺伝子中心主義では,進化の原因を遺伝子のみに帰結させてきた。
- 表現型優先進化の枠組みを,具体的な計算アルゴリズムとして実現する。
- 表現型生成アルゴリズムにより,遺伝子中心モデルと比較して3.4倍速い適応が可能となった。
- 学習された表現型のパターンを世代間で継承することが,この適応速度向上に不可欠であることが示された。
- 生物の能動性は,単なる哲学的な抽象概念ではなく,測定可能な適応価値を持つアルゴリズム的メカニズムである。
GradingAttack:短答採点能力に対する大規模言語モデルへの攻撃 [cs.CR, cs.AI, cs.CL]目的:大規模言語モデルを用いた自動短答採点システムの脆弱性評価
- 教育現場での学生評価の効率化と規模拡大に,自動採点システムの導入が不可欠である。
- 大規模言語モデルは敵対的操作に脆弱であり,自動採点の公平性や信頼性が懸念される。
- 自動短答採点システムの脆弱性を定量的に評価し,その対策の必要性を明確にすること。
- 提案手法GradingAttackにより,トークンレベルおよびプロンプトレベルの攻撃が有効に採点モデルを欺くことが示された。
- プロンプトレベル攻撃は高い成功率,トークンレベル攻撃は優れたカモフラージュ能力を示すことが確認された。
- 自動短答採点システムの公平性と信頼性を確保するため,堅牢な防御策の構築が急務であることが示唆された。
MedSpeak:知識グラフを活用した音声医療QAにおけるASRエラー訂正フレームワーク [cs.RO, cs.CL, cs.AI]目的:音声医療QAにおけるASRエラー訂正
- 医療分野における正確な情報伝達は,患者ケアの質に直結する重要な課題である。
- 音声認識(ASR)は医療用語の認識精度が課題であり,QAシステムの性能を制限する要因となっている。
- 知識グラフとLLMを活用し,医療用語の認識精度向上とQA性能改善を目指す。
- 提案手法MedSpeakは,医療知識グラフのSemanticな関係性と音韻情報を活用し,ASRの出力誤りを効果的に訂正する。
- ベンチマーク実験により,MedSpeakが医療用語の認識精度と医療QA全体の性能を大幅に向上させることが確認された。
- MedSpeakは,医療QAにおける最先端のソリューションとして確立された。
単純なナビゲーションと深い整合性:Mouse vs. AI 2025 優勝解法 [cs.CV, cs.AI, cs.NE, cs.RO]目的:視覚的ロバスト性とニューラルアラインメントの達成
- 生物の視覚システムに匹敵する人工知能エージェント開発には,視覚的ロバスト性が不可欠である。
- 既存手法では,環境変化に対する汎化性能とニューラルアラインメントの同時実現が困難である。
- 本研究は,単純なアーキテクチャと深いアーキテクチャの特性を分析し,最適なモデル構築指針を示す。
- Track 1(視覚的ロバスト性)では,シンプルな二層CNNとGLU,観測正規化により95.4%のスコアを達成した。
- Track 2(ニューラルアラインメント)では,16層のResNetライクなアーキテクチャが,トップレベルのニューラル予測性能を示した。
- 学習期間と性能には非単調な関係があり,約20万ステップで最適な結果が得られることが示唆された。
DISPO:大規模言語モデルの数学的推論における強化学習の効率と安定性の向上 [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルの数学的推論能力向上のための強化学習手法の効率と安定性向上
- 大規模言語モデルの数学的推論は,複雑な問題解決において重要な役割を担う。
- 従来の強化学習手法は,学習の安定性と効率性の間でトレードオフが存在した。
- DISPOは,このトレードオフを解消し,効率と安定性を両立する強化学習アルゴリズムを提供する。
- DISPOは,重要性サンプリング重みのアップクリッピングとダウンクリッピングを分離することで,4つの制御可能なポリシー更新レジームを実現した。
- 実験により,DISPOは正解に対する重み調整が探索と知識蒸留のバランスを保ち,誤答に対する過度なクリッピングによる性能低下を防ぐことが示された。
- AIME'24において61.04%の正答率を達成し,CISPO(55.42%)やDAPO(50.21%)を上回る結果を示した。
スケーラブルなランダムウェーブレット特徴量:収束保証付きの効率的な非定常カーネル近似 [cs.CL, cs.LG]目的:非定常カーネル近似のためのスケーラブルな手法
- 機械学習において,入力領域全体で統計的性質が変化する非定常過程のモデリングは重要である。
- 既存のスケーラブルな手法は定常性を仮定することが多く,表現力と計算コストのトレードオフが存在する。
- ウェーブレットを用いることで,非定常過程を効率的にモデル化し,表現力と計算コストのバランスを取ることを目指す。
- ランダムウェーブレット特徴量(RWF)は,ウェーブレット族からサンプリングすることで,スケーラブルな非定常カーネル近似を構築する。
- RWFは,理論的な正定値性,不偏性,一様収束性を含む包括的な理論的解析を伴う。
- 合成データと実世界のデータセットにおける実験により,RWFは定常ランダム特徴量よりも優れており,複雑なモデルに対しても優れた精度と効率のトレードオフを示すことが示された。
HERMES:ビジョン言語モデルを用いた長尾型自律運転のための包括的リスク認識マルチモーダル埋め込みシステム [cs.RO, cs.RO, cs.AI]目的:長尾型条件下における安全かつ正確な自律運転の実現
- 自動運転技術は,交通渋滞の緩和や交通事故の削減に貢献し,社会に大きな変革をもたらす可能性を秘めている。
- 従来の自動運転システムは,珍しい状況や予測困難な状況への対応が難しく,安全性に課題がある。
- HERMESは,長尾型シーンにおけるリスクを明示的に捉え,安全性を向上させるための軌道計画を可能にする。
- HERMESは,大規模なビジョン言語モデルを活用し,複雑な状況下でのリスク認識と正確な軌道計画を実現した。
- 実世界の長尾型データセットにおける実験により,HERMESが既存のシステムと比較して優れた性能を示すことが確認された。
- HERMESの各要素が,長尾型混合交通シナリオにおいて相補的に機能し,全体的な性能向上に貢献することが示された。
