arXiv雑要約
AI - 2026/02/02 公開
強化学習に基づく冷凍機と熱エネルギー貯蔵の同時設計・運転によるコスト最適空調システム [eess.SY, cs.AI, cs.SY]目的:商業用空調システムにおける冷却インフラの共同運用とサイズ決定
- 空調システムの運用コストは,建物のエネルギー消費量の大部分を占めるため,その最適化は重要である。
- 冷凍機と熱エネルギー貯蔵の最適な組み合わせを決定することは,コストの非対称性から困難である。
- 本研究は,強化学習を用いて,冷凍機と熱エネルギー貯蔵の最適なサイズと運転方法を同時に決定する。
- 強化学習を用いて,冷凍機の部分負荷率を最適化するポリシーを学習した。
- 学習されたポリシーを用いて,各冷凍機・熱エネルギー貯蔵の構成におけるライフサイクルコストを評価した。
- 最適な冷凍機容量は700,熱エネルギー貯蔵容量は1500と決定された。
MoVE:価値埋め込みの混合 -- 自己回帰モデルにおけるパラメトリックメモリのスケーリングのための新しい軸 [cs.CL, cs.LG, cs.AI, cs.CL, cs.CV]目的:自己回帰モデルにおけるパラメトリックメモリのスケーリング手法
- 近年の生成AIの基盤であり,テキストや画像生成など多様な分野で成果を上げている。
- モデルの性能向上には計算コストの増加が伴うため,効率的なメモリ拡張が課題である。
- 計算コストを抑えつつ,パラメトリックメモリのスケーリングを可能にする。
- MoVEは,価値埋め込みの混合により,計算量とメモリ容量の依存関係を解消する。
- テキスト生成と画像生成の実験で,従来のモデルよりも高い性能を示す。
- MoVEにより,計算コストを同等に抑えつつ,低パープレキシティと高忠実度を実現する。
LLMはユーザーの話し方を生成すべきか?MDialを用いたアメリカ英語以外の多様な方言に対応した対話構築 [cs.CL, cs.AI]目的:多様な英語方言に対応した対話データ生成フレームワークの構築と評価
- 英語話者の大半は標準アメリカ英語を使用せず,LLMとのインタラクションにおいて不利益を被る可能性がある。
- LLMにおける多方言対応は未だ十分ではなく,方言の識別や生成において課題が残る。
- LLMがより自然な方言に対応できるよう,高品質な対話データを生成し,その性能を評価する。
- MDialは,語彙,綴り,文法といった方言の特徴を網羅した大規模な対話データ生成フレームワークである。
- 実験の結果,最先端のLLMでさえ方言識別に苦戦し,特にカナダ英語の精度は低いことが示された。
- MDialBenchは,50,000件以上の対話を含む方言並列データセットであり,LLMの評価に役立つ。
拡散型Speech-Textモデルによる沈黙の思考,発話による回答 [cs.CL, cs.AI, cs.LG, cs.SD]目的:音声とテキストを統合した拡散モデルによる質疑応答の精度向上
- 近年の音声言語モデルの発展は目覚ましいが,より高度な推論能力が求められている。
- 従来のモデルは,直接的に応答を生成するため,誤りを修正することが困難である。
- 思考過程を明示化することで,応答の質と理解度を向上させることを目指す。
- 提案手法DiffuSpeechは,最先端の音声対話QAの精度を9ポイントまで向上させた。
- 拡散モデルのアーキテクチャと思考過程の追跡の両方が,性能向上に貢献していることが確認された。
- 生成モデルの中で最高のTTS品質(6.2% WER)を達成し,言語理解力も維持されている(66.2% MMLU)。
PlatoLTL:LTL指示における記号の一般化学習によるマルチタスク強化学習 [cs.LG]目的:マルチタスク強化学習における,訓練中に見たことのないタスクへの汎化能力を持つ汎用性のあるポリシー
- マルチタスク強化学習は,多様なタスクに適応できる汎用的なエージェントの実現に不可欠である。
- 既存手法では,LTL仕様自体は汎化できるものの,LTLに含まれる命題(記号)の新しい語彙には対応できない。
- 本研究は,命題を離散的な記号としてではなく,パラメーター化された述語のインスタンスとして扱うことで,この問題を解決する。
- PlatoLTLは,LTLの構造と命題の両方に対してゼロショットの汎化を実現する新しいアーキテクチャを提案している。
- 提案手法では,述語を埋め込み,構成することでLTL仕様を表現し,関連する命題間で構造を共有することを可能にする。
- 困難な環境下において,新しい命題とタスクへのゼロショット汎化が成功することを示した。
事前ランク正則化を用いたキャリブレーションされた多変量分布回帰 [cs.CY, cs.LG]目的:多変量分布回帰モデルのキャリブレーション
- 予測分布の信頼性を評価する上で,キャリブレーションは重要である。
- 多変量におけるキャリブレーションは,単変量に比べ困難である。
- 事前ランク関数を用いた正則化により,多変量キャリブレーションを改善する。
- 提案手法は,予測精度を損なうことなく,多変量事前ランクのキャリブレーションを大幅に向上させる。
- PCAに基づく事前ランクは,既存の手法では検出されない依存構造の誤りを発見する。
- シミュレーションと18の実データセットでの実験により有効性が確認された。
LLMに基づく探索的ヒューリスティック発見のためのゲーム理論的共進化 [cs.AI]目的:LLMを用いたヒューリスティック発見における,探索アルゴリズムと問題インスタンスの共進化
- 組合せ最適化問題の複雑さから,効率的な解法探索が不可欠であり,ヒューリスティック探索が重要な役割を担う。
- 既存手法は固定された問題分布で評価されるため,過学習や分布シフトへの脆弱性が課題となっている。
- 適応的な問題生成と探索による,汎化性能とロバスト性を向上させることを目指す。
- 提案手法ASROは,探索アルゴリズムと問題インスタンス生成器の相互作用をゲーム理論的に捉え,両者の戦略を共進化させる。
- ASROは,静的な評価に代わり,自己生成されたカリキュラムを用いて,探索と評価を繰り返すことで,ヒューリスティックの性能を向上させる。
- 複数の組合せ最適化問題において,ASROは既存手法と比較して,汎化性能とロバスト性において顕著な改善を示した。
ベイズ傾斜決定木における不確実性考慮型外挿 [cs.LG]目的:ベイズ傾斜決定木による不確実性考慮型外挿手法
- 決定木は解釈性と効率性に優れるため広く利用されている。回帰問題における外挿と不確実性の校正が課題。
- 決定木のリーフ予測は訓練データに制限され,分布シフト下で過信しやすい。
- 本研究は,不確実性を考慮したリーフ分割とGPによる外挿により,この問題を解決する。
- 提案手法はVSPYCTを拡張し,各リーフにGP予測器を組み込むことで,不確実性を考慮した外挿を実現した。
- 実験の結果,標準的な変分傾斜決定木と比較して予測性能が向上し,特に外挿シナリオで顕著な改善が確認された。
- 分割パラメータの事後サンプリングとGP予測を組み合わせることで,効率的な推論と予測を可能にした。
MulFeRL:複数回のループにおける言語フィードバックを用いた強化学習の強化 [cs.AI]目的:言語フィードバックを活用した強化学習の学習信号の改善
- 複雑な推論タスクにおいて,強化学習の性能向上は重要な課題である。
- 従来の報酬は疎であり,失敗例に対する洞察が不足している。
- 失敗例に対する言語フィードバックを通じて,より効果的な学習を目指す。
- 提案手法MulFeRLは,OpenR1-Mathデータセットにおいて,教師ありファインチューニングや既存のRLVR手法を上回る性能を示した。
- 特に,失敗例に対する言語フィードバックによる多段階の再生成が性能向上に貢献している。
- 学習信号の最適化と,モデルの推論過程への構造化されたフィードバック注入も有効であることが示された。
DINO-SAE:高忠実度画像再構成・生成のためのDINO球面オートエンコーダ [cs.CV, cs.AI, cs.LG]目的:高忠実度画像再構成と生成の実現
- 画像生成技術は,コンピュータビジョン分野において重要な役割を担う。
- 既存手法では,高周波詳細の損失により,再構成の忠実度が制限される場合がある。
- DINOの表現力を活かし,詳細な構造を維持した高忠実度な再構成を目指す。
- 提案手法DINO-SAEは,画像再構成において最先端の性能を達成した(rFID 0.37,PSNR 26.2 dB)。
- 特徴量ベクトルの方向性を重視することで,セマンティック情報を維持しつつ,詳細なテクスチャを再現。
- 球面多様体上での拡散Transformerの学習により,効率的な収束を実現(gFID 3.47 at 80 epochs)。
FlexLoRA:エントロピーに基づく柔軟な低ランク適応 [cs.LG]目的:大規模事前学習モデルの効率的なファインチューニング手法
- 大規模言語モデルの活用は多岐にわたるが,計算資源の制約が存在する
- 既存の低ランク適応(LoRA)は柔軟性に欠け,性能向上の限界がある
- 層ごとに必要な適応能力に応じてランクを動的に調整し,効率と性能を向上させる
- FlexLoRAはスペクトルエネルギーエントロピーを用いて行列の重要度を評価し,ランクの剪定と拡張を可能にする。
- 新たな特異方向にはゼロの影響初期化を採用し,安定性を確保している。
- 実験結果から,FlexLoRAは最先端のベースラインと比較して一貫して優れた性能を示すことが確認された。
セキュリティバグレポート予測のための大規模言語モデルの評価 [cs.CR, cs.AI, cs.LG]目的:セキュリティバグレポートの予測
- 脆弱性対策の迅速化には,セキュリティバグレポートの早期発見が不可欠である。
- 既存の手法では,バグレポートの予測精度と誤検知率のバランスが課題である。
- 大規模言語モデルを活用し,バグレポート予測の精度向上を目指す。
- プロンプトベースの手法は,高い感度(74%リコール)を示すが,低い適合率(22%)となる。
- ファインチューニングされたモデルは,低い感度(36%リコール)ながら,高い適合率(75%)を達成する。
- ファインチューニングモデルは,推論速度がプロプライエタリモデルの最大50倍高速である。
BEAR:大規模言語モデルを用いた推薦におけるビーム探索を意識した最適化へ [cs.IR, cs.AI, cs.LG]目的:大規模言語モデルによる推薦の最適化
- 推薦システムは,情報過多な現代において,ユーザーが必要な情報に効率的にアクセスするための重要な技術である。
- 大規模言語モデルを推薦に応用する際,ファインチューニングとビーム探索の間に不整合が生じ,有効な推薦アイテムが探索から除外される場合がある。
- ビーム探索の特性を考慮したファインチューニングにより,推薦の精度低下を防ぐことを目指す。
- 本研究では,ビーム探索を意識した正則化項BEARを提案し,ファインチューニング時にビーム探索の振る舞いを考慮することで,推薦性能を向上させる。
- BEARは,各ステップで上位B個の候補トークンに正のアイテムのトークンが含まれるように制約することで,誤った剪定のリスクを軽減する。
- 4つの実データセットにおける実験により,BEARが既存手法を大きく上回る性能を示すことが確認された。
LLMの説明可能性:Transformerモデルにおける意味解釈の死後検証 [cs.RO, cs.ET, cs.CL, cs.LG]目的:Transformerモデルにおける意味解釈のメカニズム解明
- LLMは汎用性と性能から普及しているが,その内部メカニズムは未だ不明な点が多い。
- LLMの説明手法自体が十分に理解されておらず,その解釈に誤りがある可能性がある。
- 既存の説明手法の妥当性を検証し,LLMの理解に関する誤った結論を避ける。
- アテンション機構や埋め込み表現を用いた意味解釈の試みは,手法上の問題やデータ構造の影響により失敗に終わった。
- アテンション層の解釈は,トークンとの対応関係が崩壊し,後続層での意味的解釈が困難であることが示された。
- 埋め込み表現を用いた手法は,高い予測スコアが意味のある知識ではなく,手法上のアーチファクトに起因することが判明した。
MTDrive:自律走行のための多段階対話型強化学習 [cs.RO, cs.AI, cs.LG]目的:自律走行における経路計画の改善
- 自動運転技術は,交通安全の向上や移動の効率化に不可欠である。
- 既存手法は単一の推論に限定され,複雑な状況への対応が困難である。
- 多段階での反復的な経路修正を通じて,複雑な状況への対応を目指す。
- MTDriveは,環境からのフィードバックに基づき,経路を反復的に改善する多段階フレームワークである。
- mtGRPOは,多段階における相対的優位性を計算することで,報酬の疎問題を緩和する。
- NAVSIMベンチマークにおいて,既存手法と比較して優れた性能を示すことが確認された。
DC-LA: 差分凸Langevinアルゴリズム [cs.CL, cs.LG]目的:非平滑差分凸正則化項を含む分布からのサンプリング手法
- 機械学習や統計物理において,複雑な分布からの効率的なサンプリングは重要な課題である。
- 既存手法では,非凸な正則化項への対応が難しく,収束性や精度が保証されない場合がある。
- 差分凸構造を利用することで,より一般的な状況下で収束性のあるサンプリングアルゴリズムを開発する。
- 提案手法DC-LAは,離散化誤差と平滑化誤差の範囲内で,対象分布へと収束することが理論的に示された。
- DC-LAは,既存の非対数凹面サンプリング手法よりも一般的な枠組みと仮定に基づいている。
- 数値実験により,DC-LAが合成データと実データ(CT画像)の両方において,正確な分布と信頼性の高い不確実性定量化を提供することが確認された。
IDEの自動補完における差分プライバシーによる非公開コードの保護 [cs.CR, cs.AI]目的:IDE自動補完のためのLLM学習における差分プライバシーの適用
- AI技術の発展に伴い,IDEにLLMが組み込まれる機会が増加しており,開発効率向上に貢献している。
- LLMの学習データにユーザーコードが含まれる場合,プライバシー侵害のリスクが存在する。
- 学習データからの機密情報の漏洩を防ぎ,プライバシーを保護しながら有用なコード補完機能を提供する。
- 差分プライバシーを適用したLLMは,メンバーシップ推論攻撃に対する防御効果が実証された(AUCが0.901から0.606へ)。
- 差分プライバシーの適用は,モデルの性能低下を最小限に抑えつつ,プライバシー保護を可能にした。
- 従来のモデルと同等の性能を,100分の1のデータ量で実現することを示した。
エッジ・クラウド連携によるリアルタイムプライバシー保護行動認識システム [cs.CR, cs.AI, eess.IV, eess.SP]目的:高プライバシー環境における行動認識技術
- 知的センシングの拡大に伴い,トイレや更衣室等のプライバシー保護が重要課題となっている。
- 従来のRGB監視はプライバシー侵害の懸念があり,既存のプライバシー保護手法は認識能力や安全性で課題がある。
- AI Flow理論とエッジ・クラウド連携で,プライバシー侵害リスクを根本的に解消する行動認識技術を開発する。
- 提案手法は,情報ボトルネック理論に基づき,エッジデバイスで画像から抽象的な特徴ベクトルを生成し,個人を特定できる情報を除去する。
- クラウド側では,特徴ベクトルのみを用いて異常行動を検出し,画像再構成によるプライバシー漏洩を防ぐ。
- 本研究は,映像監視から匿名化された行動認識への転換を促し,高感度な公共空間におけるリスク管理に貢献する。
グラフ崩壊を用いたスケーラブルなトポロジー保持グラフ粗化 [cs.LG]目的:グラフ粗化におけるトポロジー保持
- グラフ構造の解析は,機械学習やネットワーク分析において不可欠であり,その効率的な処理が重要である。
- 既存のグラフ粗化手法は,スペクトル特性か空間特性のいずれかを保持する傾向があり,トポロジー保持は計算コストが高い。
- トポロジー特徴を効率的に保持することで,グラフニューラルネットワークの性能低下を抑制することを目指す。
- 本研究では,グラフ強崩壊とグラフエッジ崩壊の概念に基づいたスケーラブルなトポロジー保持グラフ粗化法(STPGC)を提案した。
- STPGCは,トポロジー特徴を厳密に保持しつつ,支配的なノードとエッジを削除し,計算効率を向上させる。
- 実験結果から,STPGCはGNNの受容野を保持し,ノード分類タスクにおいて高い効率と有効性を示すことが確認された。
環境条件付きテール重み付けによる全変動不変リスク最小化 [cs.LG]目的:分布外汎化性能の向上
- 機械学習モデルの汎化性能向上は重要であり,特に分布外データに対する性能が課題である。
- 既存の不変リスク最小化法は環境レベルの相関に焦点を当て,環境内のサンプルレベルの異質性を無視しがちである。
- 環境レベルの不変性と環境内のロバスト性を両立させ,分布シフトに対応する手法を開発する。
- 提案手法ECTRは,全変動に基づく不変学習に環境条件付きテール重み付けを統合し,相関シフトと多様性シフトの両方に対処する。
- 環境アノテーションがない場合でも,ミニマックス定式化により潜在的な環境を推測し,フレームワークを拡張できる。
- 回帰,表形式,時系列,画像分類のベンチマークにおいて,最悪環境および平均分布外性能の一貫した改善が確認された。
データ漏洩から秘密情報の検出漏れまで:データ漏洩が秘密情報検出モデルに与える影響 [cs.CR, cs.AI, cs.LG]目的:データ漏洩が秘密情報検出モデルの性能に与える影響の評価
- ソフトウェアセキュリティにおいて,機械学習の活用が進んでいるため。
- 学習データとテストデータに重複があると,モデルが汎化せず,パターンを記憶する。
- 秘密情報検出モデルの性能評価におけるデータ漏洩の問題点を明らかにすること。
- 広く利用されている秘密情報検出のベンチマークデータセットに重複が存在することが示された。
- データ漏洩がAIベースの秘密情報検出器の性能を大幅に向上させ,実効性を誤解させる可能性がある。
- 性能評価においてデータ漏洩の影響を考慮することの重要性が示唆された。
マスク拡散言語モデルにおける位置合わせの緩和 [cs.CL, cs.LG]目的:マスク拡散言語モデルのオープンエンドなテキスト生成における性能向上
- 拡散言語モデルは,自己回帰モデルの代替として注目されており,自然言語処理の発展に貢献する。
- 厳密な位置予測は,トークンの位置ずれに敏感であり,生成の質を低下させる要因となる。
- 位置合わせの厳密性を緩和することで,生成のロバスト性と品質を改善することを目指す。
- 提案手法は,5つのオープンエンドなテキスト生成ベンチマークにおいて,元のモデルを安定的に上回る性能を示した。
- 位置ずれに対するロバスト性が向上し,位置に関する厳密な教師信号の緩和が,生成品質の向上に寄与することが示された。
- <slack>トークン導入による接続主義的時系列分類目的関数を用いたアプローチが有効であることが確認された。
言語,視覚,行動表現の整合性 [cs.AI]目的:言語,視覚,行動の異なる学習様相における内部表現の共通性
- 認知科学とAIにおいて,異なるモダリティの学習がもたらす表現の性質を理解することは重要である。
- 従来の視点では,異なるデータで訓練されたモデルは特殊な表現を獲得し,転移が困難であると考えられていた。
- 本研究は,行動学習においても表現の収束が起こりうるか,その整合性を検証することを目的とする。
- 行動由来の言語埋め込み表現と,大規模言語モデルや視覚言語モデルとの間で頑健なクロスモーダル整合性が確認された。
- 特に,デコーダーのみの言語モデルやBLIPとの整合性が高く,言語モデル間の整合性に匹敵する結果が得られた。
- これらの結果は,言語,視覚,行動表現が部分的に共有された意味構造へと収束することを示唆している。
パープレキシティは常に正誤を区別できない [cs.LG, cs.AI, cs.CL, stat.ML]目的:モデル選択におけるパープレキシティの妥当性に関する理論的考察
- 言語モデルの性能評価は,自然言語処理の発展に不可欠である。
- パープレキシティは簡便だが,その限界が経験的に指摘されてきた。
- Transformerモデルの連続性に着目し,パープレキシティの欠点を理論的に示す。
- コンパクトなデコーダーのみのTransformerモデルが正確に予測できるシーケンスが存在する場合,低いパープレキシティを持つがモデルが誤って予測する別のシーケンスも存在する。
- 等パープレキシティプロットの分析により,パープレキシティが常に正確なモデルを選択するとは限らないことが示された。
- モデルの確信度向上には,新しいモデルの精度向上を伴う必要がある。
残差コンテキスト拡散言語モデル [cs.CL, cs.AI]目的:拡散言語モデルにおける計算資源の再利用による性能向上
- 大規模言語モデルは自然言語処理の様々なタスクで重要な役割を担う。
- 従来の拡散言語モデルは,計算資源を効率的に活用できていない問題がある。
- 本研究は,拡散言語モデルにおける計算資源の再利用手法を提案し,性能向上を目指す。
- 提案手法RCDは,不要とされたトークンの情報をコンテキスト残差として再利用することで,精度を向上させる。
- RCDは,既存の拡散言語モデルに約10億トークン程度の学習で容易に組み込むことができる。
- 特にAIMEタスクにおいて,RCDはベースラインの精度をほぼ2倍にし,ノイズ除去ステップ数を最大5分の1に削減した。
EvoClinician: 検査時進化学習による複数ターンの医療診断を行う自己進化型エージェント [cs.DC, cs.AI]目的:複数ターンの医療診断における自己進化型エージェントの開発
- 医療AIの発展は,患者の健康増進に不可欠であり,診断の質と効率の向上に貢献する。
- 既存の医療AIは一度限りの情報に基づいて診断するため,現実の反復的な診断プロセスを再現できていない。
- 本研究は,検査時進化学習により,効率的な診断戦略を学習するエージェントを開発し,この問題を解決する。
- EvoClinicianは,Med-Inquireベンチマークにおいて,継続学習ベースラインや他の自己進化型エージェントよりも優れた性能を示した。
- エージェントは,「診断-評価-進化」ループを通じて,臨床的な有効性と資源効率の両方を考慮しながら診断戦略を改善する。
- この研究により,現実の医療診断プロセスを模倣したAIの開発に向けた新たな道が開かれた。
線形バンディットにおけるナッシュ厚生度を改善するアルゴリズム [cs.RO, cs.CL, cs.LG]目的:線形バンディットにおけるナッシュ厚生度の最適化
- 多腕バンディットは,推薦システムなどに応用され,重要な研究分野である。
- 既存手法は,環境次元$d$において最適解に至らず,理論的な制約がある。
- 環境次元$d$に対するナッシュ後悔の最適解を導き,公平性と有用性の両立を目指す。
- 本研究では,新しい解析ツールを導入し,線形バンディットにおけるナッシュ後悔の上限を最適化することに成功した。
- 公平性と有用性の両立を可能にする新しい枠組み「$p$-means後悔」を提案し,そのアルゴリズムを開発した。
- 実データを用いた実験により,提案手法が既存手法を凌駕することが示された。
アクター・クリティック法における方策のスムーズ性を安定化するためのQ勾配場の安定化 [cs.LG, cs.AI]目的:方策のスムーズ性の理論的根拠と,それに基づく新しい安定化手法
- 連続アクター・クリティック法は,ロボット制御など,現実世界への応用が期待されている。
- 学習された方策が高周波の振動を示すことが多く,物理的なシステムへの実装を困難にしている。
- Q関数の勾配場の不安定性を解消し,滑らかな方策の学習を可能にすること。
- 理論的に,方策の滑らかさはクリティックの微分幾何学によって決定されることを示した。
- クリティックを中心とした正則化手法PAVEを提案し,Q勾配場の変動を抑制することで方策の安定化を実現した。
- PAVEは,方策側の正則化と同等の性能を維持しつつ,タスクのパフォーマンスを損なわないことを実験的に示した。
黄金のガチョウ:検証不可能なインターネットテキストから無限のRLVRタスクを合成するシンプルな手法 [cs.ET, cs.CL, cs.AI]目的:大規模言語モデルにおける複雑な推論能力の向上
- 言語モデルの推論能力向上には,検証可能な報酬を用いた強化学習が不可欠である。
- 強化学習のスケールアップには,検証可能なデータの不足がボトルネックとなっている。
- 検証不可能なインターネットテキストを活用し,強化学習用のデータを自動的に生成する。
- 提案手法「Golden Goose」により,大量の推論を含むテキストから,多様なRLVRタスクを合成できる。
- 合成されたデータセット「GooseReason-0.7M」を用いて,既存のRLVRデータで飽和したモデルを効果的に改善した。
- サイバーセキュリティ分野への応用により,専門モデルを超える性能を達成し,手法の有効性を実証した。
異質なAIエコシステムにおけるモデル独自性の定量化 [cs.AI]目的:モデル独自性の監査手法
- AI技術の発展に伴い,複雑なエコシステムが構築され,その信頼性確保が重要となっている。
- モデル間の機能的な重複を特定し,真の挙動の違いを区別することが困難である。
- 介入制御に基づき,モデルの固有性を定量化し,エコシステムの監査を可能にすること。
- In-Silico Quasi-Experimental Design (ISQED) を用いた統計的枠組みにより,モデルの独自性を評価するPeer-Inexpressible Residual (PIER) を導入した。
- 観測データのみではモデルの独自性を特定できないことを数学的に証明し,介入制御の重要性を示した。
- DISCO推定器を実装し,画像認識モデルや大規模言語モデルなど,多様なエコシステムでその有効性を実証した。
Transformerモデルにおける構造的疎性化のための学習可能な置換 [cs.LG, cs.CL]目的:Transformerモデルの構造的疎性化における性能向上
- 近年,大規模言語モデルを含む様々なモデルにおいて,モデルの効率化が重要視されている。
- 既存の置換手法は探索空間の指数関数的な増加により,最適化が困難である。
- 学習可能な置換手法を開発し,構造的疎性化の性能を向上させる。
- 本研究では,置換コスト行列を学習する新しいフレームワークを提案した。
- 提案手法は,二部マッチングソルバーを用いて最適な置換行列を効率的に算出する。
- 画像と言語のTransformerモデルで最先端の性能を達成した。
ロボットマーカーの自動アノテーション手法について [cs.CV, cs.AI, cs.RO]目的:深層学習モデル訓練のためのArUcoマーカー画像自動アノテーション
- 人手不足から工場自動化が重要視され,搬送ロボット等の導入が進んでいる。
- 従来の画像処理では,ノイズやモーションブラー等によりマーカー認識が困難となる場合がある。
- 深層学習のデータセット準備における人的負担を軽減し,認識精度向上を目指す。
- 提案手法により,自動アノテーションを実現し,手動ラベリングの必要性を排除した。
- YOLOモデルの実験結果から,ぼかしやピンぼけの影響下で従来の画像処理手法よりも高い認識性能が確認された。
- 自動アノテーションは,人的労力を削減し,ラベル品質の一貫性を確保する。
PIDSMaker:Provenanceに基づく侵入検知システムの構築と評価 [cs.CR, cs.LG]目的:侵入検知システムの開発と評価のためのフレームワーク
- 近年,巧妙化するAPT攻撃への対策が急務であり,システムProvenance情報の活用が注目されている。
- 既存研究では,評価手法に一貫性がなく,再現性や公平な比較が困難であるという課題がある。
- PIDSMakerは,評価プロトコルの標準化により,研究者間の比較検証を容易にすることを目的とする。
- PIDSMakerは,8つの最先端システムを統合し,標準化された前処理と正解ラベルを提供する。
- YAMLベースの設定インターフェースにより,システムのコンポーネントを再利用し,迅速なプロトタイピングを実現する。
- アブレーションスタディやハイパーパラメータ調整などの機能により,評価の信頼性を向上させる。
深層研究エージェントはなぜ失敗するのか? 研究軌跡全体における幻覚評価について [cs.AI]目的:深層研究エージェントの失敗メカニズムの診断
- 研究エージェントは,情報収集や分析を自動化し,研究プロセスを効率化する可能性を秘めている。
- 既存の評価方法では,研究軌跡の中間段階での幻覚を見逃し,問題の根本原因の特定が困難である。
- 研究軌跡全体を監査し,幻覚を機能要素とエラー特性に基づいて分類する評価フレームワークを構築すること。
- 既存の深層研究エージェントは,信頼性の高い性能を示せていないことが明らかになった。
- 失敗の原因は,幻覚の伝播と認知バイアスといった体系的な欠陥に起因することが示唆された。
- 本研究は,今後の深層研究エージェントのアーキテクチャ最適化のための基礎的な洞察を提供する。
拡散言語モデルに対するデコーディング誘導型ウォーターマークdgMARK [cs.LG]目的:離散拡散言語モデルにおけるウォーターマーク手法
- 大規模言語モデルの悪用防止が重要視されており,生成されたテキストの出所追跡が求められている。
- 既存のウォーターマーク手法は,拡散言語モデルのトークン生成順序への依存性に十分に対処できていない。
- 拡散言語モデルのトークン生成順序への依存性を利用し,識別可能なウォーターマークを埋め込むことを目指す。
- dgMARKは,トークン生成順序を操作することで,バイナリハッシュに基づくパリティ制約を満たすトークンを誘導する。
- この手法は,様々なデコーディング戦略と組み合わせが可能であり,編集に対するロバスト性も有する。
- パリティ一致統計量の増加によってウォーターマークを検出し,編集操作(挿入,削除,置換,言い換え)に対しても高い検出率を維持する。
ガウス表現を用いた自己教師あり胎児MRIスライスからボリューム再構成 [cs.CL, cs.RO, cs.CV, cs.AI]目的:胎児MRIスライスからの3Dボリューム再構成
- 胎児MRIは,発達過程の評価に不可欠であり,正確なボリューム再構成が重要である。
- 従来の再構成法は時間がかかり,十分なデータが必要である。教師あり学習は,実用的なデータがない。
- 自己教師あり学習により,データなしで高精度な再構成を可能にする。
- GaussianSVRは,3Dガウス表現を用いることで,高精度な再構成を実現した。
- シミュレーションによるスライス取得モデルにより,自己教師あり学習を可能にした。
- マルチ解像度学習戦略により,精度と効率の両方を向上させた。
バリュー・アット・リスク制約付き方策最適化 [cs.LG, stat.ML]目的:バリュー・アット・リスク制約の直接最適化
- 金融リスク管理において,損失の可能性を定量的に評価するVaRは重要な指標である。
- 既存手法では,VaR制約を満たしつつ安全な方策探索が困難であった。
- VaR制約を直接最適化し,安全な方策探索を実現する手法を開発する。
- 提案手法VaR-CPOは,訓練中に制約違反を起こすことなく,安全な探索を可能にした。
- チェビシェフの不等式を用いることで,VaR制約の非微分可能性を克服し,扱いやすい近似を実現した。
- CPOの信頼領域フレームワークを拡張し,方策改善と制約違反に対する厳密な最悪ケースの境界を導出した。
TriCEGAR:エージェントAIのためのトレース駆動型抽象化メカニズム [cs.AI, cs.SE]目的:エージェントAIの保証のためのトレース駆動型抽象化メカニズム
- エージェントAIの安全性確保は,信頼性と責任あるAIシステムの実現に不可欠である。
- 既存手法では,状態抽象化を手動で定義する必要があり,適用が困難である。
- 実行ログから状態抽象化を自動的に構築し,検証プロセスを簡素化することを目指す。
- TriCEGARは,トレースから学習した述語木を用いて抽象化を表現し,反例を用いて精度を高める。
- エージェントのライフサイクルイベントを捉え,MDPを構築し,確率的モデル検査を行うフレームワークを実装した。
- 実行尤度を用いて異常検知を行い,ガードレイル信号を提供する。
Mano:LLM学習のための多様体最適化の再検討 [cs.LG, cs.AI]目的:LLM学習のための多様体最適化手法
- 大規模言語モデルはAIの重要な進歩であるが,学習には高額なハードウェアと計算コストがかかる。
- AdamWは対角曲率に依存し,構造的特性を無視する。Muonはグローバルスペクトル正規化を用いるが,曲率情報を失う。
- 多様体最適化を再検討することで,これらの最適化手法の限界を克服し,効率的な学習を目指す。
- 提案手法Manoは,LLaMAやQwen3モデルにおいて,AdamWおよびMuonを大幅に上回る性能を示すことが確認された。
- Manoは,メモリ消費量や計算複雑性においても優れており,効率と精度のトレードオフを改善する。
- 本研究は,多様体最適化が大規模モデル最適化において有効であることを実証し,新たな最適化の可能性を提示する。
国境を越える偏り:多言語LLMにおける政治的イデオロギーの評価と調整 [cs.CL, cs.AI]目的:多言語LLMにおける政治的偏りの大規模な評価と,その緩和策
- LLMがグローバルな言説を形成する中で,公平性とイデオロギー的中立性は責任あるAI展開に不可欠である。
- 既存研究は,主に高リソースな西欧言語に焦点を当てており,クロスリンガルの一貫性や安全な事後緩和が不十分である。
- 多言語間でイデオロギー表現を整合させ,介入の強度を動的に調整することで,偏りを軽減することを目指す。
- 50カ国33言語にわたる大規模な評価により,多言語LLMにおける政治的偏りが明らかになった。
- 提案手法CLASは,既存の調整方法を補完し,経済的・社会的な軸に沿った偏りを大幅に軽減した。
- その結果,言語的・文化的多様性を維持しつつ,イデオロギー的中立性と応答品質のバランスが実現された。
オフライン強化学習における連続制約補間フレームワークに基づく自動制約ポリシー最適化 [cs.LG, cs.AI]目的:オフライン強化学習における制約ポリシーの最適化
- オフライン強化学習は,環境とのインタラクションなしにポリシーを学習するため,データ効率が重要である。
- 既存手法は,制約の形式や強度が性能に大きく影響するものの,それらの関係性やトレードオフが明確ではない。
- 多様な制約形式を統一的に扱い,最適な制約設定を自動的に導くことを目指す。
- 連続制約補間(CCI)フレームワークを提案し,既存の制約手法を統一的に表現することを可能にした。
- CCIに基づき,ラグランジュ双対更新を用いて補間パラメータを適応させる自動制約ポリシー最適化(ACPO)アルゴリズムを開発した。
- D4RLおよびNeoRL2での実験により,様々なドメインで最先端の性能を達成した。
低密度表面筋電図からのロバストな運動分類のための畳み込みスパースオートエンコーダの活用 [cs.LG, cs.AI, eess.SP]目的:低密度表面筋電図を用いた高精度なジェスチャー認識
- 義肢制御において,個人差や高密度センサーアレイの臨床的な非現実性が課題である。
- 従来の義肢制御は,個人差に起因する性能低下やセンサー数の多さが問題点となっていた。
- 本研究は,少ないチャンネル数でも高精度な運動分類を可能にする手法を開発し,義肢制御の課題解決を目指す。
- 提案手法は,2チャンネルの表面筋電図のみを用いて,6種類のジェスチャーに対して94.3%±0.3%のF1スコアを達成した。
- Few-shot転移学習プロトコルにより,未知の被験者に対する性能が35.1%±3.1%から92.3%±0.9%に向上した。
- Incremental learning戦略により,モデル全体の再学習なしに,10種類のジェスチャーセットで90.0%±0.2%のF1スコアを維持した。
Mem-T:長期的記憶エージェントのための報酬の密度化 [cs.LG, cs.CL]目的:長期的な記憶を持つエージェントの報酬効率改善
- 自律性と適応性が求められるため,記憶処理を内部的に管理する記憶エージェントの研究が活発である。
- 報酬が疎で遅延するため,記憶管理ポリシーの最適化が困難である。
- 記憶操作ツリーを用いた強化学習により,疎な報酬を密な学習信号に変換し,最適化を促進する。
- Mem-Tは,A-MemやMem0といった既存フレームワークを最大14.92%上回る高い性能を示す。
- 精度を維持しつつ,推論時のトークン数をGAMと比較して約24.45%削減し,効率性も高い。
- 記憶構築と検索を同時に最適化し,長期的な記憶管理能力を効果的に学習する。
測定とメカニズム異常の原因特性評価 [cs.CL, cs.LG]目的:異常の原因特定
- プロセス異常の根本原因分析は,品質管理やシステム運用において重要な課題である。
- 既存手法では,測定誤差とメカニズム変化という異常発生の根本的な違いが無視されている。
- 測定誤差とメカニズム変化を区別し,正確な原因特定と異常分類を可能にすること。
- 提案手法は,潜在変数と観測変数に対する潜在的な介入として異常を捉える因果モデルを定義し,異常の識別可能性を示した。
- 最尤推定法によりモデルを実装し,実験によって,最新の手法と同等の性能を示すことが確認された。
- さらに,異常の種類を正確に分類し,因果DAGが未知の場合でもロバストであることが示された。
分割統治型CoT:並列推論による遅延削減のための強化学習 [cs.LG]目的:大規模言語モデルにおける遅延削減
- 近年,大規模言語モデルの性能向上に不可欠なCoT推論は,処理に時間がかかるという課題がある。
- CoT推論は逐次処理が基本であり,推論ステップの増加が遅延に直結する。
- 並列推論を可能にする分割統治型CoTを開発し,遅延を効果的に削減することを目指す。
- 分割統治型CoT(DC-CoT)は,推論過程を複数の並列実行可能なサブタスクに分割する。
- AIME 2024やHMMT 2025などのベンチマークにおいて,DC-CoTはDeepScaleR-1.5B-Previewと同等の精度を維持しつつ,最長パス長を35-40%削減した。
- SFTと多段階強化学習アルゴリズムを組み合わせることで,精度劣化を抑制しつつ遅延削減を実現した。
軌跡に導かれて:ツール利用軌跡の修正と報酬によるツール統合推論の改善 [cs.AI]目的:ツール統合推論の自動学習
- 大規模言語モデルの能力拡張において,外部ツールとの連携が重要である。
- 既存手法は高品質な軌跡に依存し,学習のための教師データが限られている。
- 軌跡の修正と報酬を通じて,信頼性の高いツール利用を促進する。
- AutoTrajは,2段階のフレームワークによりツール利用軌跡を自動的に学習する。
- SFT段階では,高品質な軌跡を保持し,低品質な軌跡をLLMで修正することでデータセットを生成する。
- RL段階では,軌跡レベルの報酬モデルと結果・形式報酬を組み合わせ,信頼性の高い推論を誘導する。
エントロピー正則化構造推論における過早な崩壊の回避:適応的焼きなまし法 [cs.RO, cs.LG, cs.AI]目的:構造予測における近似推論機構の安定化
- 構造予測において,微分可能なマッチング層は重要な役割を担う。
- エントロピー正則化最適輸送を用いた焼きなまし法は不安定になりやすい。
- 焼きなまし法の不安定性を解消し,効率的な推論を可能にすること。
- 焼きなまし法の速度制限を理論的に分析し,「過早なモード崩壊」のメカニズムを特定した。
- 提案手法「Efficient PH-ASC」は,推論プロセスの安定性を監視し,適応的にスケジュールを調整する。
- 効率的な安定性判定により,計算コストを大幅に削減し,高速な学習を実現した。
AIの混乱:モデルの知性とタスクの複雑さによって,AIの誤った方向性がどのように拡大するか [cs.AI]目的:AIモデルの失敗パターンに関する分析
- AIの能力向上に伴い,より広範で重要なタスクを委ねられる機会が増加している。
- AIの能力が向上するにつれて,その失敗によるリスクも増大している。
- AIの失敗が,意図しない目標の追求によるものか,あるいは無意味な行動によるものかを解明する。
- AIモデルが推論や行動に費やす時間が長くなるほど,失敗はより無秩序になることが示された。
- モデルの規模が大きくなると,必ずしも無秩序さが解消されるとは限らない場合がある。
- AIの能力向上とタスクの複雑化に伴い,予測不能な行動による事故のリスクが増加する可能性が示唆された。
抽象から文脈へ:LLMが数学においてまだできないこと [cs.AI]目的:文脈的数学的推論におけるLLMの性能ギャップの分析
- 数学的応用は科学技術の発展に不可欠であり,その自動化は重要である。
- LLMはベンチマーク問題は解けるが,現実世界の問題への応用は課題である。
- 文脈から数学の問題を定式化する能力の限界と改善策を探る。
- LLMは文脈的数学的推論において,定式化の段階で大きな性能低下を示す。
- 誤りは,主に不正確な問題の定式化に起因し,元の問題の難易度が高いほど顕著になる。
- シナリオデータによるファインチューニングは性能向上に寄与するが,依然として課題が残る。
MedMCP-Calc:MCP統合による現実的な医療計算器シナリオのLLMベンチマーク [cs.AI]目的:現実的な医療計算器シナリオにおけるLLMの評価
- 医療現場では定量的な根拠に基づく臨床実践が重要であり,計算器はその根幹をなす。
- 既存のベンチマークは,単一ステップの静的な計算に焦点を当てており,実際の利用状況を反映していない。
- 自然な質問形式での計算器選択や反復的なデータ操作など,現実的なシナリオでのLLMの能力を評価する。
- MedMCP-Calcは,医療計算器シナリオを評価するための新しいベンチマークであり,MCP統合を通じて現実性を高めている。
- 主要なモデルの評価では,曖昧な質問への適切な計算器選択,反復的なSQL操作,外部ツール利用の困難さなど,課題が明らかになった。
- CalcMateは,シナリオ計画とツール拡張を取り入れたファインチューニングモデルであり,オープンソースモデルの中で最高性能を達成した。
