arXiv雑要約
AI - 2026/01/30 公開
パラメータ化された双曲型保存則:保存則,エントロピー安定性,双曲性の統一的枠組み [math.NA, cs.LG, cs.NA, math-ph, math.MP]目的:双曲型システムのデータ駆動学習のための枠組み
- 物理現象のモデリングにおいて,保存則を満たすことは基本的要件である。
- 既存手法では,保存則のみを強要するか,事前知識に依存し,汎用性に課題がある。
- 双曲性,エントロピー安定性を保証しつつ,データから直接学習する。
- 提案手法SymCLawは,流束関数のパラメータ化により,実固有値と完全な固有ベクトルを保証し,双曲性を維持する。
- エントロピー関数と流束ポテンシャルを同時に学習することで,エントロピー解散を保証し,物理的に許容可能な解を選択する。
- 数値実験により,未知の初期条件への汎化能力,ノイズに対する安定性,高精度な長時間の予測が確認された。
LOCUS:効率的なモデル探索,比較,選択のための低次元モデル埋め込み [cs.LG, cs.AI]目的:大規模言語モデルの能力を低次元ベクトル埋め込みとして表現する手法
- 大規模言語モデルが急増しており,その管理と有効活用が課題となっている。
- モデルの能力を比較・選択するための効率的な方法が求められている。
- モデルの埋め込み表現を用いて,モデル探索と選択の効率化を目指す。
- LOCUSは,クエリに対するモデルの能力をコンパクトに表現する低次元ベクトル埋め込みを生成する。
- 学習済みの埋め込み空間は幾何学的に意味があり,モデル間の類似性を反映している。
- LOCUSは,ベースラインと比較して最大4.8倍少ないクエリ評価サンプルで,情報に基づいた堅牢な埋め込みを生成できる。
OpenSec:敵対的証拠下におけるインシデント対応エージェントの校正測定 [cs.AI]目的:インシデント対応エージェントの校正度評価
- 大規模言語モデルの進化は攻撃と防御の両面を加速させている。効果的な防御体制の確立が急務である。
- 既存のベンチマークは,行動実行と正しい実行を混同し,敵対的証拠に対するエージェントの校正不良を隠蔽している。
- 現実的なプロンプトインジェクションシナリオ下で,インシデント対応エージェントの校正度を評価する環境を提供すること。
- OpenSec環境を構築し,現実的な攻撃シナリオ下でのインシデント対応エージェントの性能を評価した。
- GPT-5.2,Gemini 3,DeepSeekは,高い誤検知率(90-97%)を示し,過剰な封じ込め行動が確認された。
- Claude Sonnet 4.5は部分的な校正(85%封じ込め,72%誤検知)を示し,集計された成功指標では隠されていた校正不良を表面化した。
アイゼンシュタイン・ヤコビ相互接続トポロジーにおける故障適応ルーティングのための深層強化学習 [cs.DC, cs.AI]目的:多コアアーキテクチャにおける故障に強く高性能な相互接続ネットワークのルーティング手法
- 多コアアーキテクチャの発展に伴い,高性能かつ耐障害性に優れたネットワークが不可欠となっている。
- 従来のルーティング手法は,故障が発生した場合にアイゼンシュタイン・ヤコビネットワークのような対称トポロジーで性能が低下しやすい。
- 故障時のネットワーク性能劣化を抑制し,自己修復機能を持つルーティング手法を確立すること。
- 深層強化学習を用いたルーティングは,故障ノード近傍を回避しつつ経路効率を最大化することで,94%の到達率と91%のパケット配信率を達成した。
- 従来の貪欲法ルーティングでは到達率が10%に低下する一方,ダイクストラ法では52-54%が理論上の上限であった。
- 強化学習は,負荷分散により混雑下ではダイクストラ法を上回り,全負荷域で90%以上の正規化スループットを維持した。
文脈における因果的摂動マップ学習:MapPFN [cs.LG]目的:生物学的文脈に適応する治療効果モデルの構築
- 生物学的介入の効果を予測するには,文脈を考慮したモデルが不可欠である。
- 単一細胞摂動データセットは文脈が限られており,既存手法では推論時に適応が困難である。
- 新たな介入データを用いて,未知の文脈下でも予測性能を向上させることを目指す。
- MapPFNは,事前分布に基づいた合成データで事前学習されたPFNであり,勾配最適化なしで文脈学習を行う。
- in silico遺伝子ノックアウトのみで学習されたにも関わらず,実データで訓練されたモデルと同等の性能を示す。
- MapPFNは,微分発現遺伝子を特定し,効果的な介入計画に貢献する可能性がある。
安全な強化学習における分布シフト下の安全性一般化:糖尿病テストベッド [cs.LG, cs.AI, cs.SY, eess.SY]目的:分布シフト下での安全性一般化の評価
- 強化学習は医療分野を含む様々な分野への応用が期待されているため,安全性確保が重要である。
- 従来の強化学習アルゴリズムの安全性は,訓練時の条件に依存し,現実の分布シフトに弱い。
- 分布シフト下における安全性低下の問題を,糖尿病管理という安全性が重要な課題で検証する。
- 訓練時に安全性を満たす方策が,未知の患者に対しては安全要件を満たさないという安全性一般化ギャップが確認された。
- 学習された動力学モデルを用いたテスト時シールドが,アルゴリズムや患者層全体で安全性を回復することが示された。
- シールドは,PPO-LagやCPOなどの強力なベースラインにおいて,Time-in-Rangeを13~14%向上させ,臨床リスク指標と血糖変動を減少させた。
責任あるAI:良い面,悪い面,そしてAI [cs.AI]目的:責任あるAIのガバナンス
- AIの急速な普及は戦略的機会をもたらす一方,倫理的・運用上のリスクも伴うため,適切な管理が重要である。
- 既存の研究は楽観的な視点と悲観的な視点に分かれており,包括的な議論が不足している。
- AIの二面性を捉え,価値創造とリスク軽減の緊張を管理するフレームワークを提示すること。
- 本研究では,パラドックス理論に基づき,価値創造とリスク軽減の緊張を動的に管理する「パラドックスに基づく責任あるAIガバナンス(PRAIG)」フレームワークを提唱する。
- 従来のトレードオフ型アプローチは緊張を解消するどころか,増幅させることが示唆された。
- 組織がイノベーションを阻害することなく,許容できないリスクにさらされないためのガバナンス構造に関する具体的な指針が提供される。
マゼラン:AlphaEvolveによる新規コンパイラ最適化ヒューリスティクスの自律的発見 [cs.AI, cs.LG, cs.PL]目的:新規コンパイラ最適化ヒューリスティクスの発見
- 現代のソフトウェアとハードウェアの複雑化に対応したコンパイラの最適化が重要である。
- 手動で作成されたヒューリスティクスは,変化への適応が難しく,保守に負担がかかる。
- LLMと進化探索を組み合わせ,コンパイラ最適化の自動化と性能向上を目指す。
- マゼランは,LLMと進化探索を組み合わせたフレームワークで,コンパイラパスを進化させる。
- LLVMの関数インライン化において,従来の人間による設計を上回るヒューリスティクスを生成した。
- レジスタ割り当てでは,大規模なワークロードで人間が設計したポリシーに匹敵する優先ルールを学習した。
SteerEval:自然言語プロファイルによる推薦システムの操作可能性評価フレームワーク [cs.IR, cs.AI, cs.CL, cs.HC]目的:推薦システムにおける操作可能性の評価
- 推薦システムは情報過多な状況下で有用だが,個々のニーズに合致する推薦が求められている。
- 従来の推薦システムは過去の行動履歴に依存し,ユーザーの意図を正確に反映できない場合がある。
- 自然言語プロファイルを用いて,ユーザーが直接意図を伝えられる操作可能な推薦システムを評価する。
- SteerEvalフレームワークを開発し,ジャンルから映画の内容に関する警告まで,多様な操作評価を可能にした。
- 既存の自然言語ベース推薦システムの操作可能性を評価し,ニッチなトピックにおける限界を明らかにした。
- プロファイルと推薦への介入が操作の有効性に与える影響を比較し,設計上の提言を行った。
情報アクセスがLLM監視者の妨害行為検出能力に及ぼす影響 [cs.CL, cs.AI, cs.SE]目的:LLM監視者の妨害行為検出性能に対する情報アクセスの影響
- 大規模言語モデルの安全性確保は重要であり,誤った行動や意図しない目的の追求を抑制する必要がある。
- LLMを監視者として利用する場合,情報過多が性能低下を招く「less-is-more効果」が課題となる。
- 情報アクセスを最適化することで,LLM監視者の妨害行為検出能力を向上させることを目指す。
- 情報アクセス量を減らすことで,従来のシステムよりもLLM監視者の性能が向上する「less-is-more効果」を実証した。
- 提案手法である「抽出・評価」監視(EaE)は,BigCodeBench-Sabotageにおいて,誤検出率を増加させることなく,妨害行為検出率を16.8%向上させた。
- 監視対象が監視されていることを認識していない場合や,より長い推論過程を評価する場合,情報フィルタリングの効果が高まることがわかった。
プランナー・オーディター:FHIRベースLLM計画,ガイドライン参照,オプションのキャッシュと自己改善によるエージェント主導の退院計画 [cs.AI, cs.MA]目的:臨床退院計画における安全性と信頼性の向上
- 退院計画は医療の質に不可欠であり,患者の予後を大きく左右する。
- LLMは幻覚,省略,自信度の誤りにより,臨床現場での利用に課題がある。
- 生成と検証を分離し,ターゲットを絞った再実行を行うことで,LLMの信頼性を高める。
- コンテキストキャッシュも性能向上に貢献したが,自己改善ループが主な改善要因であり,タスクカバレッジを32%から86%に向上させた。
- 校正は大幅に改善され,Brierスコア/ECEが低下し,高い信頼度の見落としが減少した。
- 不一致バッファリングは,リプレイ中に持続的な高い信頼度の省略をさらに修正した。
マルチタスクコードLLM:データ混合かモデルマージか [cs.CL, cs.AI]目的:マルチタスクコードLLMの作成戦略の比較
- エージェントフレームワークにおいて,小型の専門LLM活用が注目されており,効率的な学習方法が重要である。
- 性能,制約,コストのバランスを考慮したマルチタスク学習戦略が課題となっている。
- データ混合とモデルマージのどちらがより効果的かを検証し,最適な戦略を提示する。
- 大規模モデルにおいては,モデルマージが全体的に高い性能を発揮し,専門モデルの性能を96%維持しながら要約能力も維持した。
- Qwen Coder 2.5 7Bモデルのマージ構成は,HumanEvalのPass@1で92.7%を達成し,タスク固有のファインチューニング版の90.9%を上回った。
- 小規模モデルにおいてはデータ混合が有効であり,パラメータへの影響分析から,最適なマージ・混合戦略を見出すことが可能となった。
AI支援エンジニアリングにおける建築的決定の認識状態と時間的妥当性の追跡 [cs.SE, cs.AI]目的:建築的決定の認識状態と時間的妥当性の追跡メカニズム
- ソフトウェア開発における意思決定の質が,システムの信頼性や保守性に大きく影響する。
- AIの進化により意思決定の速度は向上したが,根拠の検証が追いついていない現状がある。
- AI支援環境下での意思決定の信頼性を担保するための枠組みを提案し,検証すること。
- 本研究では,検証されていない仮説と経験的に検証された主張を分離する「認識層」の必要性を提唱した。
- 根拠の弱さが自信を過大評価するのを防ぐ「保守的な確実性集約」の重要性を示した。
- 過去のプロジェクトの調査から,2ヶ月以内に根拠の陳腐化した意思決定が20-25%存在することが確認された。
CUA-Skill:コンピュータ利用エージェントのためのスキル開発 [cs.AI]目的:コンピュータ利用エージェントのためのスキル基盤
- 自動化の重要性が増す中で,コンピュータ操作を自律的に行うエージェントの開発が求められている。
- 既存のエージェントは,GUI操作のスキルを構造的に再利用できず,人間レベルの性能に達していない。
- 人間がコンピュータを利用する際の知識をスキルとして体系化し,再利用可能な基盤を構築すること。
- CUA-Skillは,Windowsアプリケーションの操作スキルを大規模に体系化したスキル基盤である。
- CUA-Skill Agentは,動的なスキル検索や,メモリを考慮した復旧機能を備えたコンピュータ利用エージェントである。
- WindowsAgentArenaにおいて,CUA-Skill Agentは57.5%の成功率を達成し,既存手法を上回る性能を示した。
PhaseCoder:マイク配置に依存しない空間オーディオ理解によるマルチモーダルLLM [cs.SD, cs.AI, eess.AS]目的:空間オーディオの理解
- ロボットや仮想アシスタントなど,具現化されたAIには空間認識が不可欠である。
- 既存の空間オーディオモデルは固定されたマイク配置に依存し,多様なデバイスへの適用が困難である。
- 任意のマイクロホンアレイで利用可能な空間オーディオエンコーダを開発し,LLMによる空間推論能力を向上させる。
- PhaseCoderは,生の多チャンネルオーディオとマイク座標を入力として,ロカライズを行い,ロバストな空間埋め込みを生成する。
- Gemma 3n LLMをPhaseCoderが生成する「空間オーディオトークン」でファインチューニング可能であることが示された。
- PhaseCoderはマイク配置に依存しないロカライズのベンチマークで最先端の結果を達成し,LLMが複雑な空間推論とターゲットを絞った書き起こしタスクを実行可能になった。
単一の参照を超えて:手話翻訳における言い換えを用いた学習と評価 [cs.MA, cs.RO, cs.AI]目的:手話翻訳における言い換えの活用
- 手話と口語は構造が大きく異なり,多様な翻訳が成立しうるため,適切な評価が重要である。
- 既存の手話翻訳コーパスは単一の参照文しか持たず,翻訳の多様性を捉えきれていないという課題がある。
- 大規模言語モデルを用いて参照文の言い換えを生成し,評価指標の信頼性を高めることを目指す。
- 言い換え戦略やモデルの比較により,ParaScoreを用いた評価方法の改良が示された。
- 学習時に単純に言い換えを取り込むと性能が低下する可能性がある一方,評価時に使用すると自動評価スコアと人間による評価の相関性が向上する。
- 複数の言い換え参照文を用いるBLEUparaという拡張BLEU指標を提案し,人間評価との相関性の高さが確認された。
感じていることと見られていることの違い:他者ラベルからの自己申告感情予測について [cs.RO, cs.AI]目的:自己申告感情と他者による感情ラベルの間の不一致
- メンタルヘルスケアにおいて,正確な自己申告に基づくモデルは介入を導く上で不可欠である。
- 自己申告と他者ラベルは異なる視点であり,他者ラベルで訓練されたモデルを自己申告に応用する際の課題がある。
- 個人の重要性が高い内容においては,外部認識と内部経験を一致させるための経路となり得る。
- 活性化の予測は困難であった(CCCは約0)。
- 価感情の予測は中程度であった(CCCは約0.3)。
- 話者にとって個人的に重要な内容の場合,価感情の予測性能は向上した(CCCは約0.6-0.8)。
因果表現学習における連続機構進化のための軌跡復元:TRACE [cs.CL, cs.LG]目的:連続機構進化の軌跡復元
- 現実世界のシステムは連続的に変化するため,その因果構造の理解が重要である。
- 既存の因果表現学習は,機構の遷移を瞬間的だと仮定しており,連続的な変化に対応できない。
- 連続的な機構遷移を捉え,未観測の状態への汎化を可能にする手法を開発する。
- 本研究では,機構を有限個の原子機構の凸結合としてモデル化し,理論的に識別可能性を確立した。
- 提案手法TRACEは,各専門家が原子機構を学習することで,機構の軌跡を復元する。
- 合成データおよび実データ実験により,TRACEが従来の離散的切り替えベースラインを大幅に上回ることが示された。
人新世のニューラルスタイル転送の最適化とモバイル展開 [cs.CL, cs.HC, cs.AI, cs.GR]目的:人新世環境の視覚的合成に最適化されたモバイルベースのニューラルスタイル転送システム
- 人新世は人類活動が地球環境に及ぼす影響が顕著な時代であり,その可視化は重要である。
- 従来のスタイル転送は芸術性を重視するが,人新世の風景は意味の消失に陥りやすい。
- 人新世のテクスチャを忠実に変換し,視覚的な表現力と意味の保持を両立させる。
- ニューラルスタイル転送のパラメータ設定が,人新世のテクスチャの視覚的変換に与える影響を系統的に調査した。
- 畳み込みの深さ,損失比率,解像度スケーリングの適切な組み合わせが,意味の消失を防ぎつつスタイル変換を可能にする。
- React NativeフロントエンドとFlaskベースのGPUバックエンドを統合し,モバイルデバイス上で高解像度推論を3-5秒で実現した。
機械学習原子間ポテンシャルにおける滑らかな動的カットオフ [cs.DC, cs.CL, cs.LG]目的:機械学習原子間ポテンシャルにおける計算効率の向上
- 分子動力学シミュレーションは,創薬や材料開発において重要な役割を担う。
- 従来の機械学習原子間ポテンシャルは,計算時間とメモリ消費量が大きいという課題があった。
- 動的カットオフを導入することで,計算効率を向上させ,大規模シミュレーションを可能にする。
- 動的カットオフを導入することで,メモリ消費量を平均2.26倍,推論時間を平均2.04倍削減できた。
- MACE,Nequip,Orbv3,TensorNetの4つの最先端MLIPに実装し,有効性を検証した。
- 動的カットオフを用いたモデルは,固定カットオフモデルと比較して,精度低下は最小限に抑えられた。
BrainStack:機能的ガイド付きエキスパートルーティングによる脳波を用いた言語復号のためのニューロMoE [cs.AI]目的:脳波からの言語情報の復号
- 脳活動と言語の関係解明は,神経科学と自然言語処理の発展に不可欠である。
- 脳波データはノイズが多く,言語情報の抽出が困難である。
- 脳の機能的モジュール構造に着目し,より高精度な言語復号を目指す。
- BrainStackは,脳の機能的領域ごとに専門家ネットワークを構築し,脳波の分散性と非線形性を効果的にモデル化した。
- 大規模データセットSilentSpeech-EEGを公開し,脳波を用いた言語復号研究を促進する。
- 実験の結果,BrainStackは既存モデルを凌駕し,高い精度と汎化性能を示した。
移動埋め込み型興味地点:人間の移動から場所の特性と利用方法の学習 [cs.LG, cs.AI]目的:興味地点の特性と利用方法の学習
- 地理空間基礎モデルの発展により,現実世界の場所の汎用的な表現学習が重要視されている。
- 既存手法は静的なメタデータや移動軌跡に依存しており,場所の実際の利用方法(機能)が考慮されていない。
- 人間の移動データを用いて,場所の機能に基づいた汎用的な表現学習を目指す。
- テキストベースの埋め込みに移動埋め込み型興味地点を加えることで,既存手法よりも性能が向上した。
- 移動データのみで学習したモデルが,特定のタスクにおいてテキストのみのモデルを上回る結果が得られた。
- これにより,興味地点の機能が正確かつ汎用的な表現学習において重要な要素であることが示された。
ニューラルネットワークは小さな代数的世界を学べるか?グループ演算予測のために訓練された狭いモデルによって学習された群論的構造の調査 [cs.LG, cs.AI]目的:群演算予測のために訓練された狭いモデルによる群論的構造の学習度合い
- AIによる数学研究の進展には,単純な質問応答を超えた,新たな構造や洞察の発見が不可欠である。
- 機械学習コミュニティは,AIを数学に応用する際,試験形式のパラダイムに陥りがちである。
- ニューラルネットワークが,数学的な対象から興味深い抽象構造を抽出できるか検証する。
- モデルは,モジュラ演算の可換性など,抽象代数的特性を捉える能力を持つ表現を学習している証拠が見られた。
- サブグループのラベルを含まないデータであっても,特定のサブグループの要素を信頼性高く識別できる線形分類器を訓練できた。
- 一方で,単位元の概念などの抽出には至らなかった。しかし,小さなニューラルネットワークの表現から,興味深い抽象構造を抽出できる可能性が示唆された。
アドベクション学習:天気予報のためのニューラル半ラグランジュアーキテクチャ [cs.LG]目的:天気予報の精度向上
- 気象予測は,社会インフラや経済活動に不可欠であり,高精度な予測が求められる。
- 従来の機械学習モデルは,物理メカニズムを単一の巨大ネットワークで処理するため,計算コストが高い。
- アドベクション(輸送)の計算コストを削減し,効率的な天気予報モデルを構築すること。
- PARADISは,アドベクション,拡散,反応のブロックに機能を分解することで,物理的構造に基づいたグローバル天気予報モデルである。
- ニューラル半ラグランジュ演算子を用いて,潜在変数の輸送と特性軌道をエンドツーエンドで学習する。
- ERA5ベースのベンチマークにおいて,PARADISは既存のモデルを凌駕する予測性能を示し,訓練コストを大幅に削減した。
算術のギャップを埋める:認知複雑性ベンチマークと金融PoTによる堅牢な金融推論 [cs.AI, cs.CL]目的:金融定量的推論における大規模言語モデルの脆弱性克服
- 金融分野では,正確な数値計算と論理的推論が不可欠であり,誤りは重大な損失に繋がる。
- 大規模言語モデルは,金融分野の複雑な計算において,幻覚や認知崩壊といった問題を起こしやすい。
- 複雑な金融推論タスクにおける言語モデルの信頼性向上を目指す。
- 認知複雑性ベンチマーク(CCB)を開発し,金融クエリの認知負荷を三次元で評価可能にした。
- Iterative Dual-Phase Financial-PoTフレームワークを提案し,セマンティック抽出と計算処理を分離した。
- Qwen3-235Bモデルにおいて,平均精度を59.7%から67.3%に向上させ,高複雑性タスクで最大10倍の改善を達成した。
未知のコンポーネント数を持つ混合モデルに対する連合汎化期待値最大化アルゴリズム [cs.LG]目的:連合クラスタリングにおける混合モデルの学習
- データプライバシー保護が重要視される中で,分散データを用いた機械学習のニーズが高まっている。
- クライアント間のデータ分布の異質性やクラスタ数の不一致が,連合学習の課題となっている。
- 未知のクラスタ数下で,クライアント間のクラスタの重複を考慮した効率的な連合学習を実現すること。
- 提案手法FedGEMは,各クライアントでEMステップをローカルに実行し,不確実性集合を用いてクラスタの重複を学習する。
- 中心サーバは不確実性集合を利用してクラスタの重複を推論し,閉形式計算によりグローバルなクラスタ数を推定する。
- 実験結果から,提案手法が集中型EMと同等の性能を示し,既存の連合クラスタリング手法を上回ることが示された。
A2RAG:コストと信頼性を考慮した適応型エージェントによるグラフ検索 [cs.IR, cs.AI, cs.DB]目的:コストと信頼性を考慮した推論のための適応型エージェントによるグラフ検索手法
- 知識集約型タスクにおいて,関係性を活用した推論が重要である。
- 既存手法では,難易度に応じた柔軟な検索や,グラフ抽象化による情報の損失が課題である。
- 証拠の十分性を判断し,必要に応じて検索を繰り返すことで,コスト効率と信頼性を高める。
- A2RAGは,HotpotQAと2WikiMultiHopQAにおいて,Recall@2でそれぞれ+9.9/+11.8の絶対的な改善を達成した。
- 従来の反復型マルチホップベースラインと比較して,トークン消費量とエンドツーエンドのレイテンシを約50%削減した。
- 適応的なコントローラとエージェント型検索器を組み合わせることで,情報の損失に対するロバスト性を確保している。
簡潔な幾何学的記述を橋渡しとして:平面幾何問題解決におけるLLMの可能性の解放 [cs.AI]目的:平面幾何問題の解決
- 平面幾何は,数学的思考力と問題解決能力を養う上で重要である。
- LLMは図表を処理できないため,図形問題への直接的な応用が困難である。
- 幾何学的情報をテキスト形式で記述することで,LLMの幾何問題解決能力を引き出す。
- 提案手法では,視覚情報を簡潔な幾何学的記述(CDL)に変換するMLLMインタープリタを訓練する。
- CDL生成のための強化学習において,従来の方法とは異なり,CDLの一致を評価する報酬関数を用いる。
- Formalgeo7k-Rec-CoT,Unigeo,MathVistaにおける実験で,提案手法が既存のモデルを上回る性能を示す。
FrontierScience:AIの専門レベル科学タスク遂行能力の評価 [cs.AI, cs.CY, cs.LG]目的:最先端言語モデルにおける専門レベルの科学的推論能力の評価
- 科学技術の進歩には,高度な問題解決能力が不可欠であり,AIによる支援が期待されている。
- 既存の科学ベンチマークは,知識問題や既知の情報に依存しており,真に専門的な推論能力を測れない。
- AIが専門的な科学的課題を自律的に解決できるか検証し,その能力の限界を探る。
- FrontierScienceは,物理,化学,生物学の分野を網羅する数百問の問題(オープンソースの正解セット160問を含む)で構成される。
- OlympiadトラックはIPhO,IChO,IBOレベルの国際オリンピック問題を使用し,Researchトラックは博士レベルの課題を提供する。
- Researchトラックでは,研究タスク解決プロセス全体を評価する詳細な評価枠組みを導入した。
確率的文脈バンディット問題に対する効率的な単純後悔アルゴリズム [cs.LG]目的:確率的文脈バンディット問題における単純後悔の最小化
- 機械学習において,最適な意思決定を逐次的に行う文脈バンディット問題は重要である。
- ロジスティック回帰を用いた文脈バンディット問題では,単純後悔に関する保証が確立されていなかった。
- ロジスティック回帰を用いた確率的文脈バンディット問題に対し,単純後悔の理論的保証を与える。
- 提案アルゴリズムは,$\tilde{\mathcal{O}}(d/\sqrt{T})$の単純後悔を達成する。パラメータベクトルの大きさの制約$\kappa$に依存しない。
- 有限な行動集合を持つ場合に,提案アルゴリズムは実行可能であることが示された。また,Thompson Samplingの変種も提案した。
- Thompson Samplingアルゴリズムは,確率的文脈線形バンディット問題において,$\tilde{\mathcal{O}}(d^{3/2}/\sqrt{T})$の単純後悔を保証する。ロジスティック回帰においても同様の性能を示す。
出力空間探索:凍結エンコーダ定義出力空間におけるLLM生成のターゲット化 [cs.CL, cs.AI]目的:LLM生成のターゲット探索
- 大規模言語モデルの性能向上は,自然言語処理の重要な課題である。
- LLMの生成は多様性に乏しく,特定の目標を達成することが困難である。
- 凍結されたエンコーダ空間内で効率的に探索し,多様性と目標達成を両立する。
- 出力空間探索は,LLM生成を終点探索として捉え,多様性の向上に貢献する。
- 物語生成において,プロンプト連鎖よりも3.1倍高いLLMスコアの多様性を実現した。
- コード生成では,コントローラがアクセスできない目的関数を改善し,有効性を維持した。
精密さの力:複雑系における構造情報に基づいた検出 -- 顧客離反から発作発症まで [cs.LG, stat.ML]目的:複雑系の早期現象検出手法
- 複雑系の理解は,社会現象や生命現象の予測・制御に不可欠である。
- データ生成過程が不明な場合,潜在的な因果構造の解明が困難である。
- 潜在的な因果構造を明らかにし,現象の早期検出を可能とすること。
- 提案手法は,経験共分散行列のべき乗を用いることで,最適な特徴表現を学習する。
- 発作検出と顧客離反予測において,競争力のある結果が得られた。
- 最適な共分散行列のべき乗は,良い識別性と構造的特徴を捉えていることが示された。
AC2L-GAD:グラフ異常検知のための活性反実仮想対照学習 [cs.LG, cs.AI]目的:グラフ異常検知における性能向上
- ネットワークデータの異常検知は,不正検知や故障予測など,様々な分野で重要である。
- 異常データのラベルが不足し,正常データとの不均衡が激しいという課題が存在する。
- 反実仮想推論に基づき,より効果的な対照学習を行うことで異常検知の精度向上を目指す。
- AC2L-GADは,情報理論に基づいた活性選択と反実仮想生成を組み合わせることで,異常を保持した正例の生成と困難な対照の生成を可能にする。
- 全グラフに対する反実仮想生成と比較して,計算コストを約65%削減しながら,検知精度を維持する。
- 9つのベンチマークデータセットにおいて,最先端のベースラインと比較して競争力のある,またはそれ以上の性能を達成した。
エンティティアラインメント基盤モデルにおける推論の限界打破 [cs.LG]目的:知識グラフ融合のためのエンティティアラインメント
- 知識グラフは多様な情報を構造化して表現し,AIの推論能力向上に不可欠である。
- 既存モデルは未知の知識グラフへの適応が難しく,再学習が必要となる場合が多い。
- グラフ基盤モデルの推論能力を活用し,長距離依存性を捉えることで,未知グラフへの対応を目指す。
- 提案手法は,シードとなるエンティティペアを局所的なアンカーとして利用し,並列エンコーディング戦略によって情報伝達を誘導する。
- これにより,グローバルな探索ではなく,局所的な構造的近接性を活用することで推論経路を短縮し,効率的なエンティティアラインメントを実現する。
- 実験結果は,提案手法が未知の知識グラフに対しても高い汎化性能を示すことを確認した。
フロー摂動++:高次元ボルツマンサンプリングのための多段階非バイアスヤコビアン推定 [eess.SY, cs.SY, cs.LG]目的:高次元ボルツマンサンプリングにおける非バイアスヤコビアン推定
- 統計物理学や機械学習において,ボルツマン分布からのサンプリングは重要な課題である。
- 連続正規化フローは計算コストが高く,高次元問題への適用が制限されている。
- ヤコビアン行列式の計算コストを削減し,高次元サンプリングの精度向上を目指す。
- 提案手法Flow Perturbation++は,確率フローODEを離散化することで,推定量の分散を大幅に低減した。
- 1000次元ガウス混合モデルと,全原子Chignolinタンパク質において,既存手法よりも優れた平衡サンプリング性能を示した。
- 多段階構成により,Flow Perturbationの非バイアス性を維持しつつ,分散を効果的に抑制することに成功した。
MAD:マルチモーダル大規模言語モデルにおけるクロスモーダルハルシネーションを軽減するためのモダリティ適応デコーディング [cs.AI]目的:クロスモーダルハルシネーションの軽減
- マルチモーダルAIの発展は,人間のような知能を実現する上で不可欠である。
- マルチモーダル大規模言語モデルは,異なるモダリティ間の不適切な干渉により,誤った情報を生成することがある。
- タスクに応じてモダリティ固有のデコーディングを適応的に重み付けすることで,干渉を抑制し,正確な推論を実現する。
- 提案手法MADは,モデル自身がタスクに必要なモダリティを評価し,それに基づいてデコーディングを制御する。
- CMMとAVHBenchを用いた実験により,MADはVideoLLaMA2-AVとQwen2.5-Omniにおいて,クロスモーダルハルシネーションを大幅に軽減することが示された。
- 明示的なモダリティ認識が,堅牢なマルチモーダル推論に不可欠であることを実証した。
リファインメントの再考:ノイズ注入なしでの生成バイアスの修正 [cs.LG, cs.AI]目的:生成モデルにおけるバイアスの修正手法
- 拡散モデル等の生成モデルは高品質なサンプル生成に不可欠だが,高次元データではバイアスが問題となる。
- 既存手法はノイズ注入や再サンプリングが必要で,計算コストが高いという課題があった。
- ポストホックな手続きで,ノイズ注入なしに効率的にバイアスを修正することを目指す。
- 提案手法BFRは,潜在空間アライメントとデータ空間リファインメントの二段階構造でバイアスを効果的に修正する。
- BFRは元のODE軌道を維持し,生成サンプルに決定論的な修正を加えることで,既存手法との差別化を図る。
- MNISTデータセットにおいて,FIDを3.95から1.46まで改善し,最先端の結果を達成した。
ごますりアンカー:推論モデルにおけるユーザーとの合意の局所化と定量化 [cs.AI, cs.LG]目的:推論モデルにおけるユーザーとの合意形成のメカニズム
- 大規模言語モデルの信頼性向上には,人間の意図に沿った推論が不可欠である。
- 推論モデルは誤ったユーザーの提案に同意することがあり,その原因の特定が課題である。
- 推論過程における合意形成の起点と強度を定量的に明らかにすること。
- 推論過程中に「ごますりアンカー」と呼ばれる,モデルをユーザー合意に固定する文を特定できる。
- 線形プローブによるごますりアンカーの識別精度は84.6%と高い。
- 活性化ベースの回帰により,合意の強度を高い精度(R^2 = 0.74)で予測可能である。
FRISM:サブスペースレベルのモデルマージによる視覚言語モデルへの微細粒度推論能力の注入 [cs.CV, cs.LG]目的:視覚言語モデルにおける推論能力の強化
- 視覚と言語を理解するモデルは,画像認識や自然言語処理の発展に不可欠である。
- 既存手法では,推論能力と視覚能力のバランスを取ることが難しい場合がある。
- サブスペースレベルでのモデルマージにより,両能力を両立させることを目指す。
- FRISMは,推論能力を担うサブスペースを特定し,それらのスケーリング係数を学習することで,微細な推論能力の注入を実現する。
- ラベルを用いない自己蒸留学習戦略を用いることで,視覚言語データセット上で効果的な学習が可能となる。
- 多様な視覚的推論ベンチマークにおいて,FRISMは最先端の性能を達成し,視覚能力を損なうことなく推論能力を向上させる。
分散型LLM推論ネットワークのための適応的・堅牢なコストを考慮した品質証明 [cs.RO, cs.CR, cs.AI]目的:分散型LLM推論ネットワークにおける高品質な出力に対する報酬メカニズム
- LLMの分散推論は,計算資源の民主化とスケーラビリティ向上に不可欠である。
- 評価者の異質性や悪意のある操作により,コンセンサスが歪み,報酬の公平性が損なわれる。
- 評価者の信頼性を高め,悪意のある攻撃に対する堅牢性を確保する。
- ロバストな集約規則(中央値,トリム平均)と適応的な信頼度加重コンセンサスが有効であることが示された。
- 評価者間の信頼性のばらつきと,タスク依存的な相関関係の反転が確認された。
- 攻撃戦略に対する耐性評価により,ロバストな集約が単純平均よりもコンセンサスと精度を向上させることが示された。
線形入力から階層構造へ:言語学習における機能語の統計的手がかり [cs.CL, cs.AI]目的:言語学習における階層構造の獲得を支える統計的条件の解明
- 言語獲得において,機能語は重要な役割を果たすと考えられている。その分布特性は言語構造の理解に不可欠である。
- 機能語の分布特性が言語学習に与える影響に関する明確な理解が不足している。特に,各特性の重要度の比較が課題である。
- 機能語の頻度,構文構造との関連性,句境界との一致が学習の容易さに与える影響を定量的に示す。
- 機能語の3つの特性(頻度,構造との関連性,境界との一致)は,186言語において普遍的に認められた。
- ニューラル学習者による言語獲得において,これらの特性を保持した言語変種の方が容易に学習できることが示された。
- 学習条件の違いによって,機能語への依存度が異なり,同一の性能が異なる内部メカニズムによって達成される可能性が示唆された。
推論モデルは埋め込みモデルを強化するか? [cs.AI, cs.CL]目的:埋め込みモデルの性能に対する推論モデルの初期化の影響評価
- 埋め込みモデルは,多様な自然言語処理タスクにおいて重要な役割を担う。
- 大規模言語モデルを埋め込みモデルとして利用する際,性能向上の余地が残されている。
- 強化学習による推論能力の獲得が,埋め込み表現の質に及ぼす影響を明らかにすること。
- 推論モデルで初期化された埋め込みモデルは,MTEBおよびBRIGHTの評価において,ベースモデルと比較して一貫した性能向上を示さなかった。
- HRSA分析により,強化学習は潜在多様体の局所的な幾何学的構造を再編成するものの,大域的な構造や線形読み出しは維持されることが明らかになった。
- コントラスト学習が,ベースモデルと推論モデルで初期化されたモデル間のアライメントを促進する「多様体再配置」現象が確認された。
ZipMoE:損失圧縮とキャッシュ親和性スケジューリングによる効率的なオンデバイスMoEサービング [cs.DC, cs.AI, cs.LG]目的:オンデバイスMoEサービングの効率化
- 大規模言語モデルの表現力を高めるMoEアーキテクチャは重要だが,リソース制約のある環境での利用が課題となっている。
- MoEモデルの巨大なメモリフットプリントが,エッジデバイスへの実用的な展開を妨げている。
- 損失圧縮とキャッシュ親和性スケジューリングにより,エッジデバイス上でのMoE推論の効率化を目指す。
- ZipMoEは,ハードウェア特性とMoEパラメータの統計的冗長性を活用し,I/Oバウンドなボトルネックを解消する。
- プロトタイプ実装と評価により,ZipMoEは最先端システムと比較して最大72.77%の推論遅延の削減と最大6.76倍のスループット向上を達成した。
- ZipMoEは,モデルの動作を維持しつつ,オンデバイスMoE推論の効率的な並列化を可能にする。
Thinker:具現化された知能のためのビジョン-言語基盤モデル [cs.CV, cs.AI]目的:ロボットの知覚と推論のための大規模データセット構築と,モデルの動画理解能力向上
- ロボット工学におけるAI活用は,人間のような複雑なタスク遂行を可能にする上で不可欠である。
- 既存のビジョン-言語モデルは,一人称・三人称視点の混同や動画終盤の情報の軽視といった課題を抱えている。
- ロボットがより自然な形で世界を理解し,複雑なタスクを遂行するための基盤モデルを開発すること。
- 提案手法Thinkerは,ロボットのタスクプランニングに関する2つの主要なベンチマークデータセットで最先端の結果を達成した。
- Thinkerは,大規模なロボット知覚・推論用データセットと,キーフレームと動画シーケンスを組み合わせた入力方式によって,動画理解能力を大幅に向上させた。
- 本研究は,視覚情報と言語情報を統合することで,具現化された知能を実現するための重要な一歩となる。
SSVEP分類のための自己学習に基づくクロスコロケーション適応の再考 [cs.LG]目的:SSVEP信号を用いた脳波インタフェースにおけるクロスコロケーション適応手法
- SSVEPベースの脳波インタフェースは,高いS/N比と使いやすさから広く利用されている。
- 被験者間および個人内での信号変動が,認識精度を制限する要因となっている。
- 被験者固有のラベル付けコストを削減しつつ,認識精度を向上させることを目指す。
- 提案手法は,周波数情報を活用するFBEA戦略とCSSTフレームワークによって,分布の整合性と擬似ラベルの質を向上させる。
- TFA-CLモジュールを導入することで,特徴量の識別能力を高め,多様な信号長において高い性能を実現した。
- BenchmarkおよびBETAデータセットを用いた実験により,最先端の性能を達成し,その優位性を実証した。
言語モデルにおける埋め込みのスケーリングは専門家スケーリングを凌駕する [cs.CL, cs.AI, cs.LG]目的:言語モデルのスケーリングにおける埋め込みスケーリングの有効性
- 大規模言語モデルの性能向上にはスケーリングが不可欠であり,効率的なスケーリング手法が求められている。
- MoEアーキテクチャは一般的だが,限界に達しつつあり,システムボトルネックが生じている。
- 埋め込みスケーリングという別のスケーリング手法を模索し,MoEの代替となる可能性を探る。
- 埋め込みスケーリングは,特定の状況下で専門家スケーリングよりも優れた性能を示すことが示された。
- LongCat-Flash-Liteは,パラメータ効率が高く,既存モデルと同等以上の性能を発揮する。
- モデルの幅や深さ,パラメータ配分などのアーキテクチャ要素が,埋め込みスケーリングの有効性に影響を与えることが明らかになった。
グラフニューラルモデルにおける複合ネットワークモデリングと注意メカニズムに対する層理論的・位相的視点 [cs.LG, cs.AI, math.AT]目的:グラフニューラルモデルにおける特徴量の局所一貫性と調和性のモデリングと分析
- グラフ構造は,幾何学的・位相的深層学習の基礎であり,多様な応用を支える重要な役割を担う。
- 幾何学的・位相的深層学習モデルにおける学習中の特徴量の分布と拡散挙動は未解明な課題である。
- 層理論を用いて,グラフベースのアーキテクチャにおける特徴量の局所的な整合性と調和性を明らかにすること。
- 層構造を追跡することで,特徴量の拡散と集約に関する位相的な視点を提供する枠組みを提案した。
- トポロジカルデータ解析に触発された多重スケール拡張により,グラフモデルにおける階層的な特徴量相互作用を捉えた。
- 提案手法は,ノード分類,部分構造検出,コミュニティ検出といったタスクにおいて,幾何学的・位相的構造と学習信号に基づいたモデルの包括的な特徴化を可能にする。
いつ追加検索すべきか:強化学習を用いた適応的複雑クエリ最適化 [cs.AI, cs.IR]目的:複雑なクエリに対する検索戦略の適応的な決定
- 検索拡張生成(RAG)システムにおいて,クエリ最適化は性能を大きく左右する重要な要素である。
- 既存研究は単一のクエリに焦点を当てており,複雑なクエリの曖昧性解消や分解に対応できない。
- 本研究は,複数段階の検索戦略を適応的に決定し,RAGシステムの性能向上を目指す。
- 提案手法ACQOは,クエリの分解時期を動的に決定するAQRモジュールと,検索結果の統合を行うRSFモジュールから構成される。
- カリキュラム強化学習(CRL)を採用することで,学習の安定性を高め,複雑なクエリに対する性能を向上させている。
- 3つの複雑なクエリベンチマークにおいて,ACQOは最先端の性能を達成し,既存手法を大きく上回った。
LLMにおける因果推論の隠れた正当性の検証:記号的検証による解明 [cs.AI]目的:LLMによる因果推論の正当性評価方法
- AIの高度化に伴い,因果推論は様々な分野で重要性が増している。
- 既存の評価指標は表面的な一致に依存し,因果推論の形式的な正当性を捉えられない。
- 因果グラフとdo-calculusを用いて,LLMの出力の因果的妥当性を厳密に検証すること。
- 提案手法DoVerifierは,LLMが出力した因果表現が因果グラフから演繹可能かどうかを記号的に検証する。
- DoVerifierを用いることで,表面的な違いにより誤りと判定される正当な回答を回収できる。
- 合成データと因果QAベンチマークにおける評価により,DoVerifierが因果推論のセマンティックな正当性をより正確に捉えることが示された。
Intelli-Planner:大規模言語モデルと強化学習による個別化都市計画へ [cs.AI, cs.CY]目的:都市計画の個別化と参加型計画案の生成
- 都市の持続可能な発展には,居住者の生活の質を向上させる効果的な都市計画が不可欠である。
- 従来の都市計画は専門家への依存度が高く,時間と労力を要する。深層学習もステークホルダーの関与が限定的である。
- 大規模言語モデルと強化学習を統合し,ステークホルダーの満足度を高めつつ,都市計画の効率化を目指す。
- Intelli-Plannerは,人口統計,地理データ,計画嗜好に基づき,各機能タイプの計画要件を決定する。
- 実験の結果,Intelli-Plannerは従来の基盤モデルや最新の強化学習手法と同等以上の性能を示し,ステークホルダーの満足度と収束速度を向上させた。
- 大規模言語モデルと強化学習の統合が,機能領域計画に関連するタスクに革命をもたらす可能性を示唆している。
