arXiv雑要約

AI - 2026/01/30 公開

  • 再構成の最尤推定によるフローマッチングの微調整 [cs.LG]目的:フローマッチングの微調整
    • 生成モデルの分野において,効率的かつ簡便な学習手法が求められている。
    • フローマッチングは学習時に推論過程を評価できないという課題がある。
    • フローマッチングの推論誤差を低減し,性能向上を目指す。
    • 本研究では,再構成の最尤推定によるフローマッチングの微調整を提案した。
    • 数値精度制約下における学習損失と推論誤差の関係を理論的に解析した。
    • 気象予報やロボット操作において,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2510.02081

  • Dr. Bench:深層研究エージェントの多次元評価,回答からレポートまで [cs.AI, cs.CL]目的:深層研究エージェントの能力評価のための多次元評価フレームワーク
    • 複雑な課題解決において,深層研究エージェントの重要性が増している。
    • 既存の評価指標は,深層研究エージェントの能力を十分に評価できていない。
    • 深層研究エージェントの能力を包括的に評価できるフレームワークを構築すること。
    • Dr. Benchは,10の分野にわたる214のタスクで,深層研究エージェントを評価する。
    • フレームワークは,意味的品質,主題の焦点,検索の信頼性を評価する指標を取り入れている。
    • 主流の深層研究エージェントは,検索ツールを利用した推論モデルよりも優れていることが確認された。

    Link: https://arxiv.org/abs/2510.02190

  • 動的な標的攻撃 [cs.CR, cs.AI]目的:大規模言語モデルに対する敵対的プロンプトの最適化手法
    • 大規模言語モデルの安全性評価は,その社会実装において不可欠である。
    • 従来の攻撃手法は,出力分布の確率が低い標的に依存し,最適化に時間がかかる。
    • 言語モデル自身の応答を標的に利用し,効率的な攻撃を実現する。
    • 提案手法(DTA)は,白色箱環境下で87%以上の攻撃成功率を200回の最適化で達成した。
    • DTAは,既存の最先端手法と比較して,攻撃成功率が15%以上向上し,実行時間を2〜26倍削減した。
    • 黒箱環境下では,DTAは代理モデルを利用し,77.5%の平均攻撃成功率を示した。

    Link: https://arxiv.org/abs/2510.02422

  • 標的を持たない脱獄攻撃 [cs.CR, cs.AI]目的:大規模言語モデルの安全性確率を最大化する脱獄攻撃手法
    • 大規模言語モデルの安全性は重要であり,その脆弱性を評価する必要がある。
    • 既存の脱獄攻撃は,特定の応答を誘導するため探索空間が制限されている。
    • 標的を制限しないことで,より柔軟かつ効率的な脆弱性探索を目指す。
    • 本研究で提案するUJAは,標的を定めないことで探索空間を大幅に拡大した。
    • UJAは,最新の安全対策済み大規模言語モデルに対して80%以上の攻撃成功率を達成した。
    • UJAは,最先端の勾配ベース攻撃よりも30%以上高い性能を示した。

    Link: https://arxiv.org/abs/2510.02999

  • 棄権と検証:エージェントによるプログラム修理におけるノイズを削減するための二重LLMポリシー [cs.SE, cs.AI]目的:エージェントによるプログラム修理におけるノイズ削減策
    • ソフトウェア開発におけるバグ修正は,品質と効率に不可欠であり,自動化のニーズが高い。
    • 自動プログラム修理システムは,修正候補の精度に課題があり,誤った修正が開発者の負担となる。
    • 本研究は,LLMを用いたポリシーにより,不適切なバグや修正候補を排除し,開発者の時間を節約する。
    • 提案する二重LLMポリシー(バグ棄権と修正検証)は,Googleのコードベースにおけるバグ修正において有効であることが示された。
    • これらのポリシーを適用することで,成功率が最大13%及び15%向上し,組み合わせることで最大39%の改善が見られた。
    • 機械生成されたバグ報告を用いた実験でも,修正検証が単一サンプルの成功率向上に貢献することが確認された。

    Link: https://arxiv.org/abs/2510.03217

  • DPMM-CFL:ディリクレ過程混合モデルによる非パラメトリッククラスタリングを用いた分散型連合学習 [cs.LG, cs.DC, stat.ML]目的:分散型連合学習におけるクライアントのクラスタリングと,各クラスタごとの連合学習の最適化
    • データ量の増加とプライバシー保護の観点から,分散型連合学習の重要性が高まっている。
    • 既存の分散型連合学習は,クラスタ数を事前に決定する必要があり,潜在的な構造が不明な場合に課題がある。
    • 潜在的なクライアント構造を考慮し,クラスタ数とクライアントの割り当てを同時に推定することで,より柔軟な学習を目指す。
    • 提案手法DPMM-CFLは,ディリクレ過程を用いることで,クラスタ数を事前に固定することなく,非パラメトリックなベイズ推論を実現する。
    • 各ラウンドにおいて,連合学習の更新とクラスタの推論を同時に行うことで,学習効率と精度を向上させる。
    • Dirichlet分布とクラス分割による非IIDデータセットを用いた実験により,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2510.07132

  • 言語は疎な次元に生きる:大規模言語モデルのための解釈可能で効率的な多言語制御へ [cs.CL, cs.AI]目的:大規模言語モデルにおける解釈可能かつ効率的な多言語制御
    • グローバル化が進み,多言語対応は不可欠であり,言語モデルの能力向上は重要である。
    • 英語中心に学習されたモデルでは,多言語の表現が十分に活用されていない可能性がある。
    • 多言語制御を可能にするための,少ないデータで操作可能な次元の特定と操作。
    • 中間層と最終層において,多言語の表現を支配する少数の疎な次元が特定された。
    • 特定された次元を操作することで,意味内容を保持しつつ出力言語を切り替えることが可能となった。
    • 本手法は,既存のニューロンベースの手法を凌駕し,計算コストも大幅に削減された。

    Link: https://arxiv.org/abs/2510.07213

  • iPEAR:注意と残差を用いた反復ピラミッド推定による変形可能な医用画像登録 [cs.CV, cs.AI]目的:変形可能な医用画像登録における精度向上
    • 医療画像解析の精度向上は,診断精度向上や治療計画の最適化に不可欠である。
    • 既存のピラミッド登録ネットワークは,解剖学的ずれの蓄積や,最適化反復回数の動的な決定メカニズムの欠如が課題である。
    • 解剖学的ずれの蓄積を軽減し,最適な反復回数を決定することで,医用画像登録の精度を向上させる。
    • 提案手法iPEARは,脳MRIおよび腹部CTのデータセットにおいて,最先端の登録ネットワークを精度面で上回る結果を示した。
    • iPEARは,Fused Attention-Residual Module (FARM)とThreshold-Controlled Iterative (TCI)戦略により,解剖学的ずれの蓄積を抑制し,効率的な反復最適化を実現した。
    • FARMとTCIの有効性は,汎化性能および ablation study によって検証された。

    Link: https://arxiv.org/abs/2510.07666

  • テスト時スケーリングにおける多様性の低下と安全性のリスク [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルのテスト時スケーリングにおける安全性と多様性の関係性の解明
    • 大規模言語モデルの応用範囲拡大に伴い,その安全性確保が重要な課題となっている。
    • テスト時スケーリングは性能向上に寄与する一方,安全性への影響が十分に理解されていない。
    • テスト時スケーリングにおける多様性低下が,安全性に与える影響を明らかにすること。
    • テスト時スケーリングにおいて,候補の多様性を制限すると,有害な出力が生成される可能性が著しく高まることが示された。
    • 多様性低下は,敵対的プロンプトによる直接的な攻撃よりも,より強い影響を与える場合がある。
    • 既存の安全対策は,多様性低下によって生成される攻撃的な入力に対して十分な防御力を持たないことが明らかになった。

    Link: https://arxiv.org/abs/2510.08592

  • 暗黙的に定義された潜在多様体上の測地計算 [cs.LG]目的:潜在多様体の幾何学的特性の解析
    • データ解析において,高次元データの低次元表現は重要である。潜在多様体はそのための有効な手法である。
    • オートエンコーダの潜在多様体は,その定義の複雑さから,幾何学的構造の解析が困難である。
    • 暗黙的な submanifold として潜在多様体を捉え,離散的な Riemann 幾何学演算を開発することで,その解析を可能にする。
    • オートエンコーダの潜在空間における暗黙的な submanifold として潜在多様体を記述する手法を提案した。
    • ノイズ除去目的を最小化することで,潜在多様体への近似投影を学習し,様々な Riemann 幾何学をサポートする。
    • 提案手法は,合成データと実データで訓練された様々なオートエンコーダで評価され,その有効性が確認された。

    Link: https://arxiv.org/abs/2510.09468

  • 潜在的サブ空間係数探索による効率的なテスト時適応 [cs.CL, cs.LG, eess.AS, eess.IV]目的:テスト時適応の効率化
    • 現実世界のデータ分布の変化に対応できるモデルが求められているため。
    • 既存のテスト時適応手法は,計算コストが高く,エッジデバイスでの利用が困難である。
    • 軽量かつ高速なテスト時適応手法を開発し,デバイス上での利用を可能にすること。
    • 提案手法ELaTTAは,モデルの重みを固定し,テストサンプルごとに低次元の係数ベクトルを最適化することで,効率的なテスト時適応を実現した。
    • ELaTTAは,6つのベンチマークと複数のアーキテクチャで,既存手法を上回る精度を達成し,計算量を最大で63倍,メモリ使用量を11倍削減した。
    • ZYNQ-7020プラットフォーム上でのデバイス上での展開も実証された。

    Link: https://arxiv.org/abs/2510.11068

  • 言語モデルのニューラル重み圧縮 [cs.LG]目的:言語モデルの重み圧縮手法
    • モデル規模の拡大に伴い,効率的な重み保存・伝送が重要課題となっている。
    • 既存手法は手作業による変換に依存し,重みをデータとして捉えた理解が不足している。
    • データから直接学習する重み圧縮のニューラルコーデック学習を目指す。
    • 提案手法NWCは,重みデータセットでニューラルコーデックを学習する柔軟なフレームワークである。
    • テンソルの形状の多様性や学習損失と性能のずれといった課題を解決する。
    • 4~6ビット領域で最先端の精度と圧縮率のトレードオフを達成し,様々なアーキテクチャに適用可能である。

    Link: https://arxiv.org/abs/2510.11234

  • 報酬関数の修正による報酬ハッキングの緩和 [cs.HC, cs.AI, cs.LG]目的:報酬ハッキングの軽減
    • 強化学習において,報酬関数は人間の意図を正確に反映しない場合が多く,その設計が重要である。
    • 報酬関数が不適切に設定されると,エージェントは意図しない行動を取り,報酬ハッキングが発生しやすい。
    • 人間のフィードバックを用いて報酬関数を修正し,より人間の意図に沿った行動を獲得することを目指す。
    • 提案手法PBRRは,既存手法と比較して,より少ないフィードバックで高い性能を達成する。
    • PBRRは,人間の指定した報酬関数に遷移依存の補正項を加えることで,最適な性能を取り戻せる。
    • PBRRは,テーブル形式の環境において,既存のフィードバックベースの強化学習手法と同等の累積後悔を示す。

    Link: https://arxiv.org/abs/2510.13036

  • MotionBeat:具現化された対照学習と小節等価な接触認識符号化による運動に同期した音楽表現 [cs.SD, cs.AI, cs.MM]目的:運動に同期した音楽表現の学習
    • 音楽は聴覚的体験だけでなく,身体的な現象であり,人間の動きと密接に関連する。
    • 既存の音声表現は,この身体的な側面を無視しており,動きを誘発するリズムや構造的特徴の捉え方に限界がある。
    • 音楽と動きの関連性をより良く捉えるための表現学習手法を開発し,音楽生成や分析の精度向上を目指す。
    • MotionBeatは,運動と音楽の同期性を高めるため,新たな損失関数(ECLとSRAL)を導入した。
    • 音楽からダンスを生成するタスクにおいて,既存の音声エンコーダーよりも優れた性能を示した。
    • 拍動追跡,音楽タグ付け,ジャンル分類など,様々な音楽分析タスクへの応用が可能である。

    Link: https://arxiv.org/abs/2510.13244

  • NOSA:ネイティブかつオフロード可能なスパースアテンション [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルにおけるKVキャッシュオフロードのための,学習可能なスパースアテンション機構
    • 大規模言語モデルの推論において,メモリ使用量はボトルネックとなる。特にKVキャッシュは大きな割合を占める。
    • 既存のKVキャッシュオフロード手法は,学習と推論のミスマッチにより,長文生成時の性能が低下する課題がある。
    • CPU-GPU間のデータ転送量を抑制し,高い推論スループットと生成品質を両立する手法を提案する。
    • NOSAは,KVキャッシュオフロードに最適化された学習可能なスパースアテンション機構であり,CPU-GPU間の通信オーバーヘッドを低減する。
    • 実験結果から,NOSAは既存のオフロード手法と比較して,汎用,長文入力,長文生成タスクにおいて性能が向上することが示された。
    • 特に,推論スループットは,FullAttn,InfLLMv2,ShadowKVに対して,最大で5.04倍,1.92倍,1.83倍の改善が見られた。

    Link: https://arxiv.org/abs/2510.13602

  • 低リソース言語のためのLLMの堅牢な多言語適応に向けて [cs.CL, cs.AI]目的:低リソース言語に対するLLMの多言語適応の堅牢性向上
    • LLMは多言語対応が進む一方,リソースの少ない言語への適用が課題となっている。
    • 学習データ不足,翻訳ノイズ,不安定な言語間アライメントが,低リソース言語での性能低下の要因となっている。
    • LiRAにより,表現の安定性と言語間意味の一貫性を高め,低リソース言語での性能を改善することを目指す。
    • 提案手法LiRAは,既存の事前学習済みモデルに軽量なファインチューニングを行うプラグアンドプレイ型のフレームワークである。
    • LiRAは,アンカーベースのアライメントと協調的なエンコーディングによるArcaと,言語に依存したヘッドによるLaSRを組み合わせることで,表現の安定性と意味の一貫性を最適化する。
    • 実験の結果,LiRAは,検索,ランキング,質問応答,推論などの多様な低リソース言語ベンチマークにおいて,一貫した性能向上を示した。

    Link: https://arxiv.org/abs/2510.14466

  • MOSAIC:インドメイン対照学習のためのマスク目的と選択的適応 [cs.CL, cs.AI]目的:テキスト埋め込みモデルのドメイン適応
    • 汎用的なテキスト表現は,特定の専門分野では性能が低下する。
    • 大規模な事前学習モデルを特定のドメインに適応させることは困難である。
    • ドメイン固有の知識を組み込みつつ,汎用的な意味識別能力を維持する。
    • 提案手法MOSAICは,マスク言語モデリングと対照学習を同時に最適化する。
    • 高リソースおよび低リソースのドメインにおいて,NDCG@10が最大13.4%改善した。
    • 段階的な適応とバランスの取れた共同学習が有効であることが示された。

    Link: https://arxiv.org/abs/2510.16797

  • 棄権を用いた方策学習 [cs.LG, econ.EM, stat.ML]目的:個別化された治療計画を開発するための方策学習における棄権の導入
    • 個別化医療や広告など,個々の状況に応じた最適な方策決定が重要視されている。
    • 不確実な状況下で無理に決定を下すことは,特に重要な場面においてリスクを伴う。
    • 不確実な場合に安全なデフォルト選択肢や専門家へ判断を委ねることで,リスクを軽減する。
    • 提案手法は,まずほぼ最適な方策の集合を特定し,その不一致から棄権ルールを構築する。
    • Propensityが既知の場合,O(1/n)型の高速な後悔保証が確立され,未知の場合にも doubly robust (DR) 目標を通じて保証が拡張される。
    • 棄権は,margin条件下の保証向上や分布ロバスト方策学習,安全な方策改善など,他の方策学習の課題にも応用可能である。

    Link: https://arxiv.org/abs/2510.19672

  • 確率的勾配ランジェバン動力学の収束性:Lazy Training Regime において [cs.LG, math.OC]目的:確率的勾配ランジェバン動力学(SGLD)の収束性解析
    • 深層学習の最適化アルゴリズムの挙動解明は,モデル性能向上に不可欠である。
    • SGLDの収束性理論は未整備であり,Lazy Training Regime下での解析が課題である。
    • Lazy Training RegimeにおけるSGLDの収束速度と最適解への到達条件を明らかにする。
    • ヘッセ行列の正則性条件下で,SGLDが訓練過程を通じて退化しないカーネルを維持することを示した。
    • 期待値において,SGLDが経験的リスク最小化解に指数関数的に収束することを証明した。
    • 有限時間および有限幅における最適性ギャップに対する上限を確立した。

    Link: https://arxiv.org/abs/2510.21245

  • データ汚染下における異常検知のための証拠に基づく事後調整フレームワーク [cs.LG]目的:データ汚染下での異常検知性能劣化の抑制
    • 現実世界のデータは汚染されていることが多く,異常検知の信頼性を損なうため,対策が不可欠である。
    • 既存手法は,学習パイプラインへのアクセスや,データ中の異常の割合に関する事前知識を必要とする場合が多い。
    • テスト時に得られる証拠に基づいて,汚染されたデータで学習した異常検知モデルの出力を調整し,性能を改善する。
    • 提案手法EPHADは,汚染データで学習したモデルの事前知識と,マルチモーダルな基礎モデル等から得られる証拠を統合する。
    • 多様な異常検知モデルと証拠ペアに対するEPHADの汎用性とロバスト性が,広範な実験によって示された。
    • 汚染レベルの変動に対するEPHADの堅牢性も検証され,再現性のためにコードが公開されている。

    Link: https://arxiv.org/abs/2510.21296

  • 等変関数における不確実性較正について [cs.LG, math.ST, stat.TH]目的:等変関数における不確実性較正の理論的限界
    • ロボット操作や分子物理学など,データが乏しい分野では深層学習の適用が困難である。
    • 等変ネットワークは改善策となりうるが,等変性とモデルの信頼性との関係は未解明であった。
    • 等変条件下の不確実性較正誤差の上界・下界を導き,対称性の不一致が較正誤差に与える影響を明らかにする。
    • 等変性は,分類と回帰の両方において,モデルの過信を防ぎ,不確実性の推定に役立つことが示された。
    • 対称性の不一致は,モデルの誤較正を引き起こす可能性があり,その影響はグループサイズに依存することが明らかになった。
    • 理論的考察と数値実験を通じて,等変性と不確実性の関係が明確化され,深層学習モデルの信頼性向上に貢献する。

    Link: https://arxiv.org/abs/2510.21691

  • 情報ボトルネックに基づく表現学習のための正規化手法: IBNorm [cs.CL, cs.LG, cs.AI]目的:表現学習における情報ボトルネック原理に基づいた正規化手法の開発
    • 深層学習の性能向上において,正規化は重要な役割を担う。
    • 既存の正規化手法は分散に焦点を当て,タスク関連情報の保持を制御していない。
    • タスク関連情報を保持しつつ,不要な変動を抑制する表現学習の実現。
    • IBNormは,情報ボトルネック値を向上させ,より厳密な一般化境界を達成することが理論的に証明された。
    • 大規模言語モデル(LLaMA,GPT-2)と画像モデル(ResNet,ViT)において,BatchNorm,LayerNorm,RMSNormを安定して上回る性能を示した。
    • 相互情報分析により,IBNormが優れた情報ボトルネック動作を示すことが確認された。

    Link: https://arxiv.org/abs/2510.25262

  • $\pi_\texttt{RL}$: フローベースの視覚言語行動モデルに対するオンライン強化学習によるファインチューニング [cs.LG]目的:視覚言語行動モデルの強化学習によるファインチューニング手法
    • ロボットに複雑なタスクを実行させるには,視覚,言語,行動を統合したモデルが不可欠である。
    • 大規模フローベースVLAへの強化学習適用は,フローマッチングによる行動尤度計算の困難さから課題であった。
    • フローマッチングの課題を克服し,強化学習によるVLAの性能向上を目指す。
    • 本研究では,離散時間マルコフ決定過程と学習可能なノイズネットワークを用いた「Flow-Noise」モデルを提案した。
    • また,微分方程式を確率的微分方程式に変換する「Flow-SDE」により,効率的な強化学習探索を実現した。
    • 様々なベンチマークで実験を行った結果,強化学習が性能向上に貢献することが示された。

    Link: https://arxiv.org/abs/2510.25889

  • 生成モデルの可能性のある幾何学 [cs.LG]目的:生成モデルの幾何学的構造の解明
    • 生成モデルは,データの生成や潜在空間の探索において重要な役割を担う。
    • 既存の生成モデルには,明確な幾何学的構造が欠如している場合が多い。
    • 生成モデルの幾何学的な構造を確立し,モデルの解釈性向上を目指す。
    • 本研究では,モデルやデータ次元に関する制約なしに,様々な生成モデルに適用可能な汎用的な幾何学を構築した。
    • 提案手法は,学習を必要とせず,高密度領域を効率的に探索する曲線(擬似測地線)を定義し,ニュートン力学系として定式化した。
    • 数値実験により,提案手法が従来の指標よりも高密度領域を通過することが示された。

    Link: https://arxiv.org/abs/2510.26266

  • LLM指示における表現ギャップの解消:ソクラテス式質疑によるアプローチ [cs.AI]目的:人間とAIの協働における意図伝達の困難さの克服
    • AIとの協働は重要性が増しているが,人間の複雑な意図をAIに正確に伝えることが課題となっている。
    • ユーザーの専門知識レベルが多様であるため,意図を明確に伝えることが難しく,試行錯誤を繰り返す状況が生じやすい。
    • ソクラテス式質疑を用いてAIがユーザーの意図を能動的に確認し,曖昧さを解消することを目指す。
    • 提案手法Nousは,情報理論に基づき,対話による情報獲得量を報酬として学習することで,効率的な意図理解を実現した。
    • 科学図の生成タスクにおいて,大規模なデータセットを用いた実験により,Nousが既存手法を上回る性能を示すことが確認された。
    • ユーザーの専門知識レベルに関わらず,Nousは高い効率性と出力品質を維持し,曖昧な意図への対応能力を実証した。

    Link: https://arxiv.org/abs/2510.27410

  • 大規模言語モデルの信頼性評価における階層的あいまい確率アプローチ [cs.SE, cs.AI]目的:大規模言語モデルの信頼性評価
    • 多様な分野でのLLM利用拡大に伴い,その信頼性評価の重要性が高まっている。
    • 既存の評価方法は精度統計に偏重し,実運用における確率的挙動の把握が困難である。
    • 実運用環境下でのLLMの信頼性を確率的に評価し,不確実性を定量化することを目的とする。
    • HIP-LLMは,ソフトウェア信頼性工学に基づき,LLMの信頼性を将来のタスクにおける故障確率として定義する。
    • 階層的な依存関係をモデル化し,サブドメインからシステムレベルへの信頼性推論を可能にする。
    • 既存のベンチマークや最先端手法と比較して,より正確かつ標準化された信頼性評価を提供する。

    Link: https://arxiv.org/abs/2511.00527

  • 重ね合わせ勾配降下法:モデル学習のための量子原理の活用 [cs.LG, quant-ph]目的:モデル学習における最適化手法の改善
    • 大規模言語モデルの発展に伴い,効率的な学習手法が求められている。
    • 従来の最適化手法では,学習速度や汎化性能の限界が存在する。
    • 量子原理に着想を得た新たな最適化手法による性能向上を目指す。
    • 提案手法であるSuperpositional Gradient Descent (SGD)は,古典的なAdamWと比較して,より速い収束と低い最終損失を達成した。
    • SGDは,量子回路の摂動を勾配更新に組み込むことで,量子と古典のハイブリッドな学習を実現している。
    • 現時点では,スケーラビリティやハードウェアの制約が課題として残るものの,量子コンピューティングと深層学習の融合における新たな知見を提供する。

    Link: https://arxiv.org/abs/2511.01918

  • グラフ準同型歪み:それら全てを識別し,潜在空間で結びつける指標 [cs.LG]目的:グラフ準同型歪みによるグラフ間の類似性評価
    • グラフ学習の複雑さは構造と特徴量の相互作用に起因する。表現力を評価する上で,構造のみに着目するアプローチでは限界がある。
    • 特徴量が近いグラフ間の類似性を適切に評価できない点が課題であった。グラフ表現学習における指標の不足が問題となっている。
    • グラフ準同型歪みを導入し,特徴量を考慮したグラフ間の類似性を定量化し,表現力評価に貢献する。
    • グラフ準同型歪みは,あるグラフのノード特徴量を別のグラフにマッピングする際の最小限の最悪ケース歪みを測定する。
    • 特定の仮定の下で効率的に計算可能であり,既存の表現力指標である1-WLを補完する。
    • 構造的エンコーディングを定義し,グラフニューラルネットワークの予測能力を向上させることが示された。

    Link: https://arxiv.org/abs/2511.03068

  • 確実性の幻想:LLMにおける不確実性定量化は曖昧性下で失敗する [cs.LG, cs.CL]目的:大規模言語モデルにおける不確実性定量化の限界
    • LLMの信頼性向上には,その不確実性を正確に評価することが不可欠である。
    • 既存の不確実性定量化手法は,曖昧性がないタスクで評価されている。
    • 曖昧性のあるデータに対する不確実性定量化の性能低下を明らかにする。
    • 現在の不確実性推定器は,曖昧性のないデータに対しては高い性能を示す。
    • しかし,曖昧なデータに対しては,その性能はランダムに近づくことが示された。
    • この現象は,予測分布やアンサンブルに基づく推定器の根本的な限界を示唆している。

    Link: https://arxiv.org/abs/2511.04418

  • コード言語モデルの知識蒸留に関する変態テストの視点:学生モデルは教師を深く模倣しているか? [cs.SE, cs.LG]目的:コード言語モデルの知識蒸留における行動的な忠実性の評価
    • コード言語モデルはソフトウェア分析タスクで高い性能を示すが,計算コストが大きい。
    • 従来の精度ベースの評価では,教師モデルと学生モデル間の行動のずれを捉えられない。
    • 変態テストを用いて,知識蒸留後の学生モデルの行動的な忠実性を評価する。
    • 提案手法MetaCompressは,知識蒸留された学生モデルの行動的な差異を最大62%検出した。
    • 学生モデルは教師モデルを十分に模倣しておらず,敵対的攻撃に対する性能低下が大きかった。
    • MetaCompressは,知識蒸留パイプラインにおける行動的な忠実性の評価に有用なフレームワークである。

    Link: https://arxiv.org/abs/2511.05476

  • 言語生成:複雑性障壁と学習への示唆 [cs.HC, cs.CL, cs.AI, cs.FL, cs.LG]目的:限界における言語生成のサンプル複雑性
    • 言語学習理論において,言語生成能力の限界と可能性を明らかにすることは重要である。
    • 理論的な限界は示されても,現実的な学習における複雑性が無視されてきた。
    • 文法クラスのサンプル複雑性を分析し,言語生成の計算可能性を評価する。
    • コンテキストフリー文法や正規表現といった一般的な文法クラスでも,非現実的なサンプル数が必要となる。
    • 局所的閾値テスト可能な言語や消去しないパターン言語など,様々な文法クラスで同様の結果が得られた。
    • 理論的な可能性と計算可能性の間に明確な隔たりが存在することが示された。

    Link: https://arxiv.org/abs/2511.05759

  • PEM電解槽におけるリアルタイムガス透過予測のための物理情報ニューラルネットワーク:多膜検証による初の実装 [cs.LG, cs.AI]目的:PEM電解槽における水素透過予測の精度向上とリアルタイム制御の実現
    • 水素エネルギー社会の実現に向け,PEM水電解技術の安全性と効率向上が重要である。
    • 既存の物理モデルは計算負荷が高く,データ駆動型モデルは汎化性能に課題がある。
    • 物理モデルの制約とニューラルネットワークの学習能力を組み合わせ,高精度かつ高速な予測モデルを構築する。
    • 物理情報ニューラルネットワーク(PINN)により,水素透過量を高精度に予測することが可能となった。
    • 訓練範囲外の条件下においても,従来のニューラルネットワークと比較して高い予測性能を維持した。
    • 本モデルは,リアルタイム制御や分散型安全監視システムへの応用が可能であり,大規模な水素インフラの安全性向上に貢献する。

    Link: https://arxiv.org/abs/2511.05879

  • SofT-GRPO:Gumbel再パラメータ化によるソフト思考ポリシー最適化を通じて,離散トークンLLM強化学習を凌駕する [cs.AI, cs.LG]目的:大規模言語モデルのソフト思考推論における強化学習の性能向上
    • 大規模言語モデルの推論能力向上は,自然言語処理の重要な課題であり,様々な応用分野への展開が期待される。
    • 従来の離散トークンによる推論手法に対し,ソフト思考は潜在的な優位性を持つものの,強化学習との組み合わせが困難であった。
    • ソフト思考に特化した強化学習アルゴリズムを開発し,その性能を最大限に引き出すことを目指す。
    • 提案手法SofT-GRPOは,Gumbelノイズ注入とGumbel-Softmax技術により,ソフト思考の安定性を高める。
    • 実験結果から,SofT-GRPOはPass@1の精度をわずかに向上させる一方で,Pass@32の精度を大幅に向上させることが示された。
    • 本研究は,ソフト思考による大規模言語モデルの推論能力向上に貢献する。

    Link: https://arxiv.org/abs/2511.06411

  • 二つの頭の方が良い:特徴分解と混合による大規模言語モデルの特徴を小規模モデルに蒸留する [cs.AI]目的:大規模言語モデルの特徴を小規模モデルへ蒸留するフレームワーク
    • 金融取引において,強化学習によるマーケットメイクが注目されている。
    • 大規模言語モデルの推論速度が遅く,金融取引への適用が難しい。
    • 大規模言語モデルの特徴を効率的に蒸留し,高速なマーケットメイクを実現する。
    • 提案手法CMMは,層,タスク,データという3つの次元でLLMの特徴を分解し,複数の生徒モデルが協調して学習する。
    • CMMは,H\'{a}jek-MoEを用いて生徒モデルの出力を統合し,カーネル関数で生成された共通特徴空間で貢献度を評価する。
    • 実世界のマーケットデータを用いた実験により,CMMが既存の蒸留手法や強化学習ベースの手法よりも優れていることが示された。

    Link: https://arxiv.org/abs/2511.07110

  • 連続強化学習における幾何学的行動制御:分布を超えて [cs.AI]目的:連続強化学習のための幾何学的行動制御手法
    • 深層強化学習は,ロボット制御などの分野で大きな可能性を秘めている。効率的な行動選択が重要である。
    • ガウス分布に基づく行動選択は一般的だが,行動空間の制約を適切に扱えないという課題があった。
    • 幾何学的構造を考慮した行動生成により,効率的かつロバストな制御を実現することを目指す。
    • 提案手法GACは,従来の最先端手法と同等またはそれ以上の性能を示すことが実証された。
    • 特にAnt-v4タスクではSACと比較して37.6%の性能向上,DMControlタスクでは最大112%の性能向上を達成した。
    • 球面正規化と適応集中制御がGACの成功に不可欠であることが示唆された。

    Link: https://arxiv.org/abs/2511.08234

  • タンパク質向けリガンド生成のための構造情報に基づく拡散モデルSiDGen [cs.LG]目的:タンパク質結合ポケットに適合する化学的に妥当なリガンドの設計
    • 創薬において,タンパク質との相互作用を考慮したリガンド設計は重要課題である。
    • 既存手法では,構造的コンテキストが無視されるか,計算コストが高くスケーラビリティが課題である。
    • 本研究は,効率的かつ構造を考慮したリガンド生成手法の開発を目指す。
    • SiDGenは,マスキングされたSMILES生成と軽量な折り畳み由来の特徴を統合した拡散モデルである。
    • 粗いストライドの折り畳み機構により,メモリコストを削減し,現実的な配列長での学習を可能にした。
    • 自動評価において,高い有効性,新規性,およびドッキング評価における競争力のある性能を示した。

    Link: https://arxiv.org/abs/2511.09529

  • LLM誘導インスタンス生成と漸進的適応による合成と現実のルーティング問題の架け橋 [cs.AI, cs.LG, cs.NE]目的:現実世界のルーティング問題へのニューラルソルバーの汎化性能向上
    • ルーティング問題は物流や配送の効率化に不可欠であり,社会経済活動の基盤を支える。
    • ニューラルソルバーは合成データで高い性能を示す一方,現実のデータへの汎化が課題である。
    • LLMを用いて現実的な構造を持つ合成データを生成し,汎化性能の向上を目指す。
    • EvoRealは,LLMによって誘導される進化モジュールを用いて,現実世界のルーティング問題の構造的特徴を模倣した合成インスタンスを生成する。
    • 生成されたインスタンスを用いてNCOモデルを漸進的に改良することで,TSPLibベンチマークで1.05%,CVRPLibで2.71%の性能向上を達成した。
    • EvoRealは,最先端のニューラルソルバーの汎化能力を著しく向上させ,最適解との性能差を縮小することを示した。

    Link: https://arxiv.org/abs/2511.10233

  • TS-PEFT:パラメータ効率的ファインチューニングにおけるトークンレベルの冗長性の解明 [cs.CL, cs.AI]目的:大規模言語モデルのファインチューニングにおけるトークンレベルの冗長性
    • 大規模言語モデルの効率的な学習は,計算資源の制約下で高性能を達成するために重要である。
    • 既存のPEFT手法は,全てのトークンに対してパラメータ更新を行うため,計算コストが高い場合がある。
    • トークンレベルの冗長性を特定し,不要な更新を削減することで,効率的なファインチューニングを実現する。
    • 提案手法TS-PEFTは,トークンレベルの冗長性を動的に検出し,更新対象のトークン数を削減する。
    • TS-PEFTは,LoRAやDoRAといった既存手法と同等以上の性能を,より少ない計算量で達成する。
    • 学習されたトークンレベルの疎性は,モジュール重要度の指標として有効であり,言語モデルの適応メカニズムに関する新たな知見を提供する。

    Link: https://arxiv.org/abs/2511.16147

  • 拡散モデルとフローベースモデルにおける表現アラインメントによる逆問題解決 [cs.CV, cs.LG]目的:拡散モデルまたはフローベースモデルと事前学習済み自己教師ありエンコーダとの間の表現アラインメント
    • 生成モデルの性能向上には,事前学習済みモデルの知識を活用することが重要である。
    • 逆問題では,真の信号がないため,再構成の質を維持することが難しい。
    • 表現アラインメントを通じて,逆問題における再構成品質と知覚的なリアリズムを向上させる。
    • 拡散モデルやフローベースモデルとDINOv2ビジュアルエンコーダ間の表現アラインメント(REPA)が再構成プロセスを改善する。
    • REPAは,DINOv2埋め込み空間における発散の最小化を目的とした変分アプローチと解釈できる。
    • REPAは,潜在拡散状態をクリーンな画像の状態に誘導し,知覚的忠実度を向上させる。

    Link: https://arxiv.org/abs/2511.16870

  • 6G持続可能な接続のためのAAV支援IoTにおけるワイヤレス電力伝送と意図駆動型ネットワーク最適化 [cs.AI]目的:AAV支援IoTにおける,ユーザー意図解釈とネットワーク性能の共同向上
    • 6G時代において,多様なデバイスを繋ぐIoTの発展は不可欠であり,その効率的な運用が重要となる。
    • 高次元のアクションシーケンスや,機上計算資源の制約が,意図推論とポリシー決定の課題となる。
    • ユーザー意図を正確に予測し,低遅延で行動を実行する仕組みを構築することで,ネットワーク効率を向上させる。
    • 提案手法は,曖昧なユーザー表現による不正確さを軽減するために,暗黙的な意図モデリングを採用している。
    • ハイパーディメンショナル変換器(HDT)と,ダブルアクションに基づくマルチエージェント近接方策最適化(DA-MAPPO)により,優れた性能を実現した。
    • 実際のIoTデータセットを用いた実験により,多様なシナリオで高い有効性が確認された。

    Link: https://arxiv.org/abs/2511.18368

  • QuantKAN:コルモゴロフ・アーノルド・ネットワークのための統一量子化フレームワーク [cs.LG]目的:コルモゴロフ・アーノルド・ネットワークの量子化手法
    • 近年,ニューラルネットワークの軽量化が重要視されており,量子化はその主要な手法の一つである。
    • 従来の量子化手法はCNNやTransformerに最適化されており,スプラインベースのネットワークへの適用は未検討であった。
    • 本研究は,スプラインベースのネットワークであるKANの効率的な量子化を可能にすることを目的とする。
    • QuantKANフレームワークは,QATおよびPTQの両方において,様々な量子化アルゴリズムをKANに適用可能にする。
    • 実験結果から,KANは低ビット量子化に対応可能であり,アーキテクチャと量子化手法の相互作用が重要なことが示された。
    • PTQにおいては,GPTQやUniformが優れた性能を示し,BRECQはMNISTなどの単純なデータセットで高い競争力を持つことが確認された。

    Link: https://arxiv.org/abs/2511.18689

  • クロスサブジェクト運動イメージングにおける多様体学習のための幾何学的認識型深層合同ネットワーク [cs.LG, stat.ML]目的:クロスサブジェクト運動イメージングのデコーディング精度向上
    • 脳波を用いたブレイン・コンピュータ・インターフェースの重要な課題であり,運動麻痺患者のコミュニケーション手段となりうる。
    • 個人差が大きく,健常者で学習したモデルが他の被験者に対して有効に機能しないという問題がある。
    • 共分散表現を用いた多様体学習における分散のスケーリングと向きの調整という課題を解決する。
    • 提案手法は,既存手法と比較して,クロスサブジェクトの識別精度を2〜3%向上させた。
    • 幾何学的認識型合同学習の有効性が示された。
    • 提示手法は,下流の分類器の前処理モジュールとしても,エンドツーエンドの識別システムとしても機能する。

    Link: https://arxiv.org/abs/2511.18940

  • 意味的ルーター:単一の敵対的摂動によるMLLMの乗っ取り可能性について [cs.RO, cs.CV, cs.AI, cs.CR]目的:マルチモーダル大規模言語モデルの乗っ取り可能性
    • 自動運転やロボット工学など,MLLMの利用が拡大しており,安全性確保が重要である。
    • MLLMは入力に対する脆弱性が指摘されているが,複数の決定を同時に操作する攻撃は未解明である。
    • 単一の摂動でMLLMの複数決定を操作し,安全性への脅威を明らかにすること。
    • 本研究では,意味を認識し,攻撃者が定義したターゲットへ入力信号を誘導する「意味的ルーター」の実現可能性を示した。
    • 潜在空間の幾何学的特性の分析に基づき,「SORT」最適化戦略と詳細な意味的注釈付きデータセットを提案した。
    • Qwenに対して,5つのターゲットに対し単一フレームで66%の攻撃成功率を達成し,攻撃の根本的な実行可能性を実証した。

    Link: https://arxiv.org/abs/2511.20002

  • モーション:ML支援によるオンデバイス低遅延モーション認識 [cs.CV, cs.AI, cs.HC]目的:低遅延モーション認識の実現
    • 日常の人間とコンピュータのインタラクションや医療モニタリングにおいて,小型デバイスの需要が高まっている。
    • 誤検知を避けつつ,高速かつ効率的な動きの追跡が求められている。
    • 三軸加速度センサーのみを用いた効率的なモーションモデルの構築を目指す。
    • AutoMLパイプラインにより,データから重要な特徴量を抽出することに成功した。
    • ニューラルネットワークが,精度,遅延,メモリ使用量のバランスに優れていることが判明した。
    • WeBe Band上で信頼性の高いリアルタイムジェスチャー認識が可能であり,医療モニタリングへの応用が期待される。

    Link: https://arxiv.org/abs/2512.00008

  • 大規模言語モデルを用いたWikidata整合性・オントロジー認識型知識グラフの構築 [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルによる,Wikidata整合性・オントロジー認識型知識グラフの構築
    • 大規模言語モデルの性能向上には,検証可能な構造化知識の活用が不可欠である。
    • 既存の知識グラフ利用法は,テキスト検索補助に留まり,グラフ自体の品質向上が課題である。
    • 高品質で構造化された知識グラフを効率的に構築し,大規模言語モデルへ活用すること。
    • 提案手法 Wikontic は,候補トリプル抽出,Wikidata制約適用,エンティティ正規化により,高品質な知識グラフを構築する。
    • MuSiQueにおいて,正解エンティティが生成トリプルの96%に含まれることを確認した。
    • HotpotQAとMuSiQueで,テキストコンテキスト不要なトリプルのみで,既存手法と同等以上の性能を達成した。

    Link: https://arxiv.org/abs/2512.00590

  • 時系列基盤モデルにおけるゼロショット汎化へのデータ正規化の影響に関する比較研究 [cs.LG, cs.AI]目的:時系列基盤モデルにおけるデータ正規化手法の効果
    • 時系列データは,テキストや画像と異なり,ドメインやチャネル間でスケール変動が大きい
    • 時系列モデルでは正規化が重要だが,汎化性能が求められる基盤モデルでは未検討な点が多い
    • 時系列基盤モデルのゼロショット汎化性能を改善する最適な正規化手法を特定する
    • REVINが最も効率的な手法であり,正規化なしの場合と比較してゼロショットMASEを89%削減する
    • 他の正規化手法と比較しても44%削減し,データセットレベルの前処理なしで最高水準の精度を達成する
    • ただし,効果はモデルのアーキテクチャや最適化目標に依存する

    Link: https://arxiv.org/abs/2512.02833

  • Fairy2i:{\$\pm 1, \pm i\} の全パラメータを用いた実LLMからの複雑LLMの学習 [cs.LG, cs.AI]目的:事前学習済み実数値モデルを活用した低ビット量子化の実現
    • 大規模言語モデルはAIに革命をもたらしたが,メモリと計算資源の制約が課題となっている。
    • 量子化によりモデルを軽量化する際,表現力が低下するリスクがある。
    • 複素数値LLMの利点を活かしつつ,既存のモデルを有効活用する手段が求められている。
    • Fairy2iは,事前学習済み実数値モデルを複素数値形式に変換する汎用的なフレームワークである。
    • 2ビット精度でLLaMA-2 7Bの性能をほぼフル精度レベルまで回復させ,既存の量子化手法を上回った。
    • 複素数値演算の表現効率と,事前学習済みモデルの実用性を両立する新たな道を開いた。

    Link: https://arxiv.org/abs/2512.02901

  • 蒸留ベースのクラス継続学習の限界への挑戦:軽量プラグインによる拡張 [cs.LG, stat.ML]目的:クラス継続学習における知識の保持と忘却のジレンマの緩和
    • 継続学習は,モデルを新しいタスクに適応させながら,過去の知識を保持する必要があるため,重要である。
    • 既存手法は安定性と可塑性のジレンマに制約され,タスク間の干渉が課題となっている。
    • LoRAコンポーネントの展開により,既存手法を効率的に拡張し,精度向上を目指す。
    • ImageNet-100大規模データセットにおいて,標準ResNet-18の4%のパラメータで8%の精度向上を達成した。
    • DLCを組み込んだ手法は,固定されたメモリ予算内で最先端の拡張ベース手法を上回る性能を示した。
    • DLCは,ソフトウェアにおけるダウンロードコンテンツのように,プラグアンドプレイ可能な拡張機能として機能する。

    Link: https://arxiv.org/abs/2512.03537

  • 自然言語によるエージェントのオーケストレーション学習:Conductor [cs.LG]目的:多様なLLM間の効果的な連携戦略
    • LLMは専門分野ごとに高性能だが,連携による更なる能力向上が期待される。
    • LLM間の最適な連携方法が確立されておらず,個々の能力を最大限に活かせない場合がある。
    • LLM間の連携を自動化し,最適な協調戦略を発見することで,性能向上を目指す。
    • Conductorモデルは,LLM間の通信構造の設計と,個々のLLMへの指示出しを学習する。
    • 7BのConductorは,LiveCodeBenchやGPQAなどのベンチマークで,個々のLLMを上回る性能を達成した。
    • Conductorが自身をワーカーとして選択することで,動的なスケーリングによる性能向上が確認された。

    Link: https://arxiv.org/abs/2512.04388

  • 機械的解釈可能性におけるスパース辞書学習の統一理論:区分的二凸性と見せかけの極小値 [cs.LG, cs.AI]目的:スパース辞書学習手法の理論的基盤の確立
    • AIの能力向上に伴い,その内部表現の理解が科学的進歩と信頼性の確保に不可欠である。
    • 既存のスパース辞書学習手法は,多義的な特徴や吸収,死んだニューロンといった問題を抱えている。
    • これらの問題の原因を理論的に解明し,特徴抽出の識別可能性を向上させる。
    • 主要なスパース辞書学習手法を区分的二凸最適化問題として統一的に記述する理論的枠組みを構築した。
    • 特徴吸収や死んだニューロンの発生原因を,理論的に説明することに成功した。
    • 特徴アンカリングという新しい手法を提案し,合成ベンチマークと実際のニューラル表現において特徴の回復性能を大幅に改善した。

    Link: https://arxiv.org/abs/2512.05534