arXiv雑要約

AI - 2026/03/04 公開

  • 軌道外推論:LLMは推論軌道を共同で構築できるか [cs.AI]目的:LLMにおける共同推論の可能性
    • 複雑な課題解決において,LLMの推論能力向上は重要である。
    • LLMが他者の推論過程を理解し,活用する能力が課題となっている。
    • LLMが他者の推論を修正・発展させる能力を評価し,改善策を探る。
    • ベンチマークで高い性能を示すLLMほど,誤った情報に弱く,軌道修正が難しいことが判明した。
    • どのLLMも,自身の能力を超える問題に対し,他者の導きを効果的に活用できなかった。
    • 教師モデルの軌道修正能力の低さが,蒸留学習を通じて学生モデルに伝播することが示された。

    Link: https://arxiv.org/abs/2510.06410

  • デジタルフェロモンに基づく,制御内/制御外の分類手法 [cs.NE, cs.SY, eess.SY]目的:制御内状態と制御外状態の分類,およびメンテナンスが必要となる状態への移行予測
    • 複雑な生産ラインにおいて,迅速かつ厳密な状態判断は不可欠である。
    • 従来の監視手法では,変化への適応性や解釈可能性に課題がある。
    • 本研究は,産業環境におけるプロセス監視と予知保全のための適応的かつ解釈可能な枠組みを提案する。
    • 本手法は,アリのコロニー行動を模倣し,温度データの系列をデジタルフェロモンとして扱う。
    • フェロモンの強化・減衰,脅威スコア,環境スコアを組み合わせて,総合スコアを算出する。
    • ポテトチップのフライ工程への適用事例から,本手法の有効性が示された。

    Link: https://arxiv.org/abs/2510.07329

  • 事後的確率的概念ボトルネックモデル [cs.LG]目的:概念ボトルネックモデルの性能向上
    • 解釈可能なAIの重要性が増しており,モデルの意思決定過程を理解する必要がある。
    • 従来の概念ボトルネックモデルは,概念間の依存関係を捉えきれていない場合がある。
    • 事前学習済みのモデルを再学習せずに,概念間の依存関係を効率的にモデル化すること。
    • 提案手法である事後的確率的概念ボトルネックモデル(PSCBM)は,既存のCBMと同等以上の性能を示す。
    • PSCBMは,概念間の依存関係をモデル化することで,介入下での性能がCBMを大幅に上回る。
    • PSCBMは,再学習と比較して計算コストが低く,実用的な手法である。

    Link: https://arxiv.org/abs/2510.08219

  • 寛容な0-1損失関数の多クラス学習可能性の特性付け [cs.LG, stat.ML]目的:寛容な0-1損失関数の多クラス学習可能性
    • 機械学習において,損失関数の学習可能性は重要な研究課題である。
    • 多クラス分類における損失関数の学習可能性評価は困難を伴う。
    • 本研究は,多クラス設定における学習可能性の評価指標を提案する。
    • 本研究では,Natarajan次元を基にした新たな組み合わせ次元を定義した。
    • 提案次元が有限である場合に,仮説クラスの学習可能性が示された。
    • この次元は,集合値フィードバック学習やリスト学習など,他の学習設定も特徴付けることが示された。

    Link: https://arxiv.org/abs/2510.08382

  • 推論時活性エネルギーによる整列済み大規模言語モデルにおける過剰な拒否の軽減 [cs.LG, cs.AI, cs.CL, stat.ML]目的:大規模言語モデルにおける過剰な拒否の軽減
    • 大規模言語モデルの安全な利用は重要であり,有害な応答を抑制しつつ,誤った拒否を最小限に抑えることが課題である。
    • 既存の安全対策は,有害なプロンプトへの対応を優先するあまり,良質な要求を誤って拒否する過剰な拒否という問題がある。
    • 本研究は,モデルのパラメータを変更せずに,推論時に活性エネルギーを操作することで,この過剰な拒否の問題を解決することを目指す。
    • 提案手法Energy Landscape Steering (ELS) は,外部のエネルギーベースモデルを用いて,望ましい状態と望ましくない状態にエネルギーを割り当てる。
    • 推論時に,このエネルギー関数勾配を用いて隠れ状態を操作し,モデルを動的に望ましい行動に導くことで,安全性を維持しつつ,過剰な拒否を大幅に軽減した。
    • ORB-Hベンチマークにおいて,ELSはコンプライアンス率を57.3%から82.6%に向上させ,安全性能を維持することに成功した。

    Link: https://arxiv.org/abs/2510.08646

  • サブスペース最適化によるTransformerの効率的なリソース制約下トレーニング [cs.LG]目的:Transformerモデルのリソース制約下トレーニング手法
    • AI技術の普及に伴い,消費電力とデータプライバシーの重要性が増している。
    • 大規模なニューラルネットワークが,エッジデバイス上でのトレーニングの大きな障壁となっている。
    • Transformerモデルにおいて,学習に必要な情報を固定されたサブスペースに限定することで効率化を目指す。
    • 提案手法WASIは,従来のトレーニングと同等の精度を維持しながら,メモリ使用量を最大62倍削減する。
    • WASIは,計算コスト(FLOPs)を最大2倍削減し,Raspberry Pi 5上での学習と推論を約1.4倍高速化する。

    Link: https://arxiv.org/abs/2510.09160

  • LLM大規模勾配降下時の情報開示監査:勾配の一意性に基づく [cs.LG, stat.ML]目的:機械学習モデルの公開に伴うプライバシーリスクの評価
    • LLMの普及に伴い,学習データに含まれる個人情報の保護が重要課題となっている
    • LLMの学習過程における情報開示を全データポイントで監査することは計算量が膨大である
    • 勾配の一意性に基づく指標GNQを用いて,効率的な情報開示監査手法を確立する
    • 勾配の一意性(GNQ)は,モデルに埋め込まれた個々の学習点に関する情報を理論的に評価する
    • 効率的なアルゴリズムBS-Ghost GNQを導入し,学習中の情報開示リスクを低コストで算出可能にした
    • GNQは,標的型攻撃におけるシーケンス抽出可能性を予測し,情報開示リスクが特定の事例に集中することを示した

    Link: https://arxiv.org/abs/2510.10902

  • 強化学習における信念乖離の軽減:積極的推論のため [cs.AI]目的:積極的推論のための強化学習における信念乖離の軽減
    • 大規模言語モデルを用いた推論は,問題解決に不可欠だが,外部情報とのインタラクションが課題となる。
    • 言語モデルは,推論能力の限界から,問題状態の把握が歪み,状態認識の喪失や無益な行動を招く。
    • 強化学習における軌跡の信用値誤りや探索の限界を改善し,ロバストなエージェントを構築する。
    • 提案手法T^3は,過度な信念乖離を検出し,無益な軌跡を打ち切ることで,学習の安定性を向上させる。
    • 5つの課題において,T^3は最大30ポイントの性能向上を達成し,トークンコストを最大34%削減した。
    • 信念制御が,積極的推論を行うロバストな言語モデルエージェント構築の鍵となることを示唆する。

    Link: https://arxiv.org/abs/2510.12264

  • Self-Aug:大規模視覚言語モデルのためのクエリとエントロピー適応デコーディング [cs.CV, cs.AI]目的:大規模視覚言語モデルにおけるハルシネーションの抑制
    • 視覚と言語を統合したモデルは,多様なタスクに応用可能であり,AI研究において重要性が高まっている。
    • 既存のモデルは,言語モデル由来の幻覚(ハルシネーション)を起こしやすく,生成される内容の信頼性が課題である。
    • クエリに依存した拡張とエントロピーを考慮したデコーディングにより,モデルの生成精度向上を目指す。
    • 本研究で提案するデコーディング手法は,既存手法と比較して,事実の一貫性を大幅に向上させる。
    • モデル内部の知識を活用し,クエリと視覚的拡張の間の意味的整合性を動的に調整する自己拡張プロンプティング戦略が有効である。
    • 出力の疎性を考慮した適応的な閾値調整アルゴリズムにより,トークン候補のサイズを適切に制御できる。

    Link: https://arxiv.org/abs/2510.13315

  • 狭い範囲でのファインチューニングは活性化差に明確な痕跡を残す [cs.CL, cs.AI]目的:狭い範囲でのファインチューニングがLLMの活性化に与える影響の解明
    • LLMの特定のタスクへの適応は重要であり,研究に役立つ特殊な特性を持つモデルの作成に不可欠である。
    • 狭い範囲でのファインチューニングは,モデルの活性化に偏りをもたらし,その解釈を困難にする。
    • ファインチューニングドメインを理解するための活性化差の分析手法の確立。
    • 狭い範囲でファインチューニングされたモデルの活性化には,訓練目標の明確な痕跡が見られることが示された。
    • 活性化差を分析することで,ファインチューニングデータと同様の形式と内容のテキストを生成できる。
    • 活性化差を利用した解釈エージェントは,シンプルなプロンプティングによるベースラインエージェントよりも優れた性能を発揮した。

    Link: https://arxiv.org/abs/2510.13900

  • あらゆる言語モデルは改ざん防止署名を持つ [cs.CR, cs.AI]目的:言語モデルの署名としての幾何学的制約の利用
    • API経由で利用可能な言語モデルが普及し,モデルの特定や詳細情報の抽出が重要になっている。
    • 既存の手法では,モデルの出力から正確な識別が難しく,偽装のリスクが存在する。
    • 言語モデル出力が持つ楕円幾何学的制約を利用し,改ざん困難な署名による識別を可能にする。
    • 言語モデルの出力は高次元楕円上に存在するという制約が,モデルの署名として機能することが示された。
    • この楕円署名は,既存の手法と異なり,改ざんが極めて困難であり,自然に存在する。
    • 出力検証プロトコルを提案し,暗号学的メッセージ認証システムとの類似性を示した。

    Link: https://arxiv.org/abs/2510.14086

  • xLLM技術レポート [cs.DC, cs.AI]目的:高性能な大規模言語モデル推論のためのフレームワーク
    • AI技術の発展に伴い,大規模言語モデルの活用が不可欠となっている。
    • 大規模言語モデルの推論には,高い計算資源と効率的な処理が求められる。
    • 多様なAIアクセラレータ環境下での性能向上と効率化を目指す。
    • xLLMは,MindIEやvLLM-Ascendと比較して,Qwenモデルで最大1.7倍,Deepseekモデルで平均1.7倍の推論スループットを達成した。
    • サービス層とエンジン層を分離した新規アーキテクチャにより,マルチモーダルなリクエスト処理とオンライン・オフラインタスクの統合を実現した。
    • 動的なPrefill-Decode分離ポリシーやEncode-Prefill-Decode分離ポリシー,xTensorメモリ管理など,システムとアルゴリズムの両面から最適化を施した。

    Link: https://arxiv.org/abs/2510.14686

  • 火星の環境復元:仮想現実のための拡散モデル [cs.CV, cs.AI, cs.GR]目的:火星環境の仮想現実における再構築
    • 宇宙探査においてVRの利用が不可欠であり,正確な地形表現がシミュレーションの信頼性を高める。
    • 衛星画像由来の火星地形データには欠損値が多く,単純な補完手法では幾何学的整合性を維持できない。
    • 火星の地形データを拡散モデルを用いて再構築し,より高精度な仮想環境を実現すること。
    • 提案手法は,既存の補完技術と比較して,再構築精度(RMSEで4-15%改善)と知覚的類似性(LPIPSで29-81%改善)において一貫して優れた性能を示した。
    • NASAのHiRISE調査データに基づき,12000枚の火星地形データセットを用いて学習を行った。
    • 非均一なリ scaling戦略により,様々なスケールの地形特徴を捉え,128x128のモデル解像度に調整した。

    Link: https://arxiv.org/abs/2510.14765

  • 安全な疎行列乗算とプライバシー保護機械学習への応用 [cs.CR, cs.LG]目的:プライバシー保護機械学習における疎行列乗算の効率化
    • 機械学習は重要性が増しているが,データプライバシー保護が課題となっている。
    • 多者計算では疎行列演算の最適化が不足しており,効率的な処理が困難である。
    • この研究は,疎行列乗算の効率化により,プライバシー保護機械学習の実用化を目指す。
    • 秘密分散された疎行列の乗算のための専用の多者計算アルゴリズムを提案した。
    • 提案アルゴリズムは,メモリ使用量と通信コストを大幅に削減できることが示された。
    • 実世界の疎行列の特性に基づき,公開情報の最小化を実現する技術を開発した。

    Link: https://arxiv.org/abs/2510.14894

  • 連続時間強化学習におけるポリシー転移:微分方程式アプローチ [cs.LG, math.OC]目的:連続時間強化学習問題におけるポリシー転移の理論的証明
    • 強化学習は,複雑な問題を自律的に解決する技術であり,ロボット工学や制御理論等で重要。
    • 異なる問題間で学習済みポリシーを再利用する転移学習は課題が多く,理論的な保証が乏しい。
    • 連続時間強化学習におけるポリシー転移の可能性を理論的に示し,効率的な学習を可能にする。
    • 連続時間線形二次システムにおいて,最適ポリシーの初期化による収束性向上を理論的に証明。
    • 非線形システムにおいても,粗経路理論を用いてポリシー転移が成立することを示した。
    • 連続時間LQG問題に対する新しいポリシー学習アルゴリズムを提案し,線形および超線形収束性を示した。

    Link: https://arxiv.org/abs/2510.15165

  • WebDevJudge:ウェブ開発の品質評価における(M)LLMを批評家として評価する [eess.SY, cs.RO, cs.SY, cs.RO, cs.SY, eess.SY, cs.SE, cs.AI]目的:ウェブ開発の品質評価におけるLLMを批評家としての性能評価
    • LLMの進化は,人間の評価に代わる効率的な手段として注目されている。自動評価の精度向上が求められている。
    • 複雑な環境やインタラクションを伴うオープンエンドなタスクにおいて,LLMの評価の信頼性は未検証である。
    • ウェブ開発におけるLLMを批評家としての限界を明らかにし,より信頼性の高い自動評価システムの開発に貢献する。
    • WebDevJudgeは,ウェブ開発の品質を評価するためのベンチマークであり,静的評価と動的なインタラクティブ評価に対応している。
    • 実験の結果,LLMの評価能力と人間の専門家との間には大きな差があることが示された。
    • その差は,機能的同等性の認識,タスク実行可能性の検証,およびバイアスの軽減におけるモデルの限界に起因することが示唆された。

    Link: https://arxiv.org/abs/2510.18560

  • VeriStruct:Verusにおけるデータ構造モジュールのAI支援自動検証 [cs.SE, cs.AI]目的:Verusにおけるデータ構造モジュールのAI支援自動検証フレームワーク
    • ソフトウェアの信頼性確保が重要であり,特にデータ構造はプログラムの根幹をなすため,その検証は不可欠である。
    • 形式検証は厳密だが,手動でのアノテーション作成に多大な労力が必要であり,自動化が課題となっている。
    • LLMを活用し,アノテーション生成やエラー修正を自動化することで,形式検証の効率化を目指す。
    • VeriStructは,アノテーションの構文ガイダンスと自動修正機能を組み込み,LLMの理解度向上を図った。
    • 11個のRustデータ構造モジュールで評価した結果,10個のモジュール全体で129個の関数中128個(99.2%)の検証に成功した。
    • この結果は,AI支援による自動形式検証への重要な一歩を示すものである。

    Link: https://arxiv.org/abs/2510.25015

  • 軽量化された決定木:リソース制約のあるデバイス向けコンパクトモデル [cs.RO, cs.CL, cs.LG]目的:リソース制約のあるデバイス向けコンパクトな決定木アンサンブルの圧縮手法
    • IoT機器の普及に伴い,機械学習モデルをデバイス上で動作させる重要性が高まっている。
    • 従来の機械学習モデルはサイズが大きく,限られたリソースのデバイスには不向きな場合が多い。
    • モデルのサイズを削減し,デバイス上での自律的な動作を可能にすること。
    • 提案手法により,LightGBMモデルと比較して4〜16倍の圧縮率で同等の性能を達成した。
    • 特徴量や閾値の再利用を促進する学習プロセスと,メモリレイアウトの変更が効果的であることが示された。
    • 本手法は,遠隔監視やエッジ分析など,電力供給が制限された環境におけるIoTアプリケーションを可能にする。

    Link: https://arxiv.org/abs/2510.26557

  • X線冠動脈造影画像向け画像処理に焦点を当てた深層学習冠動脈セグメンテーション・改良ネットワーク:CASR-Net [cs.CV, cs.AI]目的:冠動脈のセグメンテーションと改良
    • 早期発見が重要であり,患者の治療計画を改善し,死亡率を低減する上で不可欠である。
    • X線画像の場合,画質が低いと臨床診断に支障をきたす場合がある。
    • 画質が低い画像でも高精度なセグメンテーションを実現し,臨床診断を支援すること。
    • 提案手法CASR-Netは,2つの公開データセットを用いた5分割交差検証で最先端モデルを上回り,IoU 61.43%,DSC 76.10%,clDice 79.36%を達成した。
    • 画像前処理において,CLAHEと改良されたBen Graham法を組み合わせた手法がDSCを0.31-0.89%,IoUを0.40-1.16%向上させた。
    • UNetとDenseNet121エンコーダ,Self-ONNベースのデコーダを用いたセグメンテーションネットワークにより,狭窄血管の連続性が保持された。

    Link: https://arxiv.org/abs/2510.27315

  • MotionStream:インタラクティブなモーション制御によるリアルタイム動画生成 [cs.CV, cs.LG]目的:リアルタイム動画生成のための手法
    • 動画生成技術は,エンターテイメントや教育など幅広い分野で活用が期待されており,その重要性は高い。
    • 既存手法では,動画生成に時間がかかり,リアルタイムなインタラクションが困難であるという課題があった。
    • 本研究は,低遅延でインタラクティブな動画生成を実現し,リアルタイム体験を提供することを目的とする。
    • MotionStreamは,単一のGPU上で最大29FPSのストリーミング生成を可能にし,従来の数分単位の遅延を大幅に改善した。
    • 自己強制と分布マッチング蒸留を用いた教師-生徒学習により,リアルタイム推論を実現し,動画の品質を維持した。
    • スライディングウィンドウ型因果注意機構とアテンションシンクを導入することで,任意の長さの動画を一定速度で生成することが可能となった。

    Link: https://arxiv.org/abs/2511.01266

  • グラフ準同型歪み:それら全てを区別するための指標,そして潜在空間でのそれらの束縛 [cs.LG]目的:グラフ間の類似度を評価するための新たな指標の開発
    • グラフ学習の複雑さは,構造と特徴量の相互作用に起因する。
    • 既存の研究では特徴量が無視され,特徴量の近いグラフの類似度評価が困難である。
    • グラフ準同型歪みを導入し,構造と特徴量の両方を考慮した類似度評価を目指す。
    • グラフ準同型歪みは,あるグラフのノード特徴量を別のグラフに写像する際の最小限の最悪ケースの歪みを測る。
    • この指標は効率的に計算可能であり,既存の表現力指標($1$-WLなど)を補完する。
    • 構造エンコーディングを定義し,グラフニューラルネットワークの予測能力を向上させることが示された。

    Link: https://arxiv.org/abs/2511.03068

  • 表形式データ分析における自然言語クエリの曖昧性:適切な問いを投げているか [cs.AI, cs.CL, cs.DB, cs.HC]目的:表形式データ分析のための自然言語クエリにおける曖昧性の性質
    • データ分析の効率化に貢献するため,自然言語によるデータ操作インターフェースの研究が重要である。
    • 自然言語クエリは曖昧さを持ちやすく,システムが意図を正確に解釈できない場合がある。
    • 曖昧性を単なる欠陥と捉えず,ユーザーとシステムの協調的な相互作用の特性として捉える。
    • 自然言語インターフェースにおける曖昧性を,協調的および非協調的なクエリに分類するフレームワークを提案した。
    • 15のデータセットを用いた評価により,既存の研究ではクエリタイプが混在しており,適切な評価が困難であることが示された。
    • クエリ解決における協調の概念に基づき,将来の研究方向とより広範な影響について考察した。

    Link: https://arxiv.org/abs/2511.04584

  • テキスト画像拡散モデルにおける継続的アンラーニング:正則化の視点 [cs.LG]目的:テキスト画像拡散モデルにおける継続的アンラーニングの課題と改善策
    • 生成AIの安全性と説明責任が重要視される中,モデルからの知識削除は不可欠な技術である。
    • 既存のアンラーニング手法は一括処理を前提としており,逐次的な要求に対応できない点が課題である。
    • 継続的に知識削除要求が来た場合に,モデルの性能劣化を抑制し,安全性を確保することを目指す。
    • 既存のアンラーニング手法は,逐次的な要求により急速に性能が低下し,保持された知識を忘却する。
    • パラメータの累積的なドリフトが原因であり,正則化によってこの問題を軽減できることが示された。
    • 意味的認識を加えた勾配投影法が,継続的アンラーニング性能を大幅に向上させることが確認された。

    Link: https://arxiv.org/abs/2511.07970

  • トランザクションGPT [cs.LG, cs.CL]目的:消費者取引データの基盤モデル
    • 決済システムの効率化とセキュリティ向上は,経済活動の基盤として重要である。
    • 取引データの複雑なパターンを捉え,異常検知の精度を高めることが課題である。
    • 取引データの特性に最適化された基盤モデルの構築を目指す。
    • トランザクションGPTは,大規模な決済取引データ上で学習された基盤モデルである。
    • 3D-Transformerアーキテクチャにより,取引データの動的な特徴を捉え,異常検知性能を向上させた。
    • LLMと比較して,予測精度,学習速度,推論速度において優位性を示した。

    Link: https://arxiv.org/abs/2511.08939

  • LLMエージェント間の対話における反響:アイデンティティの失敗 [cs.RO, cs.MA, cs.AI]目的:LLMエージェント間の自律的な相互作用における,反響という特有の失敗現象
    • LLMエージェントの応用範囲拡大に伴い,複数エージェント間の協調が重要になっている。
    • 人間とエージェント間の対話とは異なり,エージェント間対話には安定化シグナルが存在しない。
    • エージェント間対話における,役割放棄や目的達成阻害といった反響現象の解明と対策。
    • エージェント間対話(AxA)において,反響現象が主要なLLMプロバイダー間で発生することが示された。
    • 反響率はモデルやドメインによって異なり,最大70%に達する。
    • プロトコルレベルでの対策により,反響率を9%まで低減できることが確認された。

    Link: https://arxiv.org/abs/2511.09710

  • SURFACEBENCH:幾何学的知識を考慮した記号的表面発見のためのベンチマーク [cs.LG]目的:三次元表面の記号的発見のための幾何学的知識を考慮したベンチマーク
    • 科学分野における機械学習において,複雑な現象を記述する簡潔な数式をデータから発見することは重要である。
    • 既存のベンチマークは低次元のスカラー関数に焦点を当て,幾何学的な等価性を捉えられない評価指標に依存している。
    • 本研究は,表面レベルの推論を必要とする三次元表面の記号的発見を評価するための新しいベンチマークを提供する。
    • SURFACEBENCHは,明示的,暗黙的,パラメトリックの3つの表現形式を含む183の表面方程式で構成される。
    • 既存の方法は表現形式によって性能が異なり,LLMベースの手法は構造的な知識は高いが,パラメータ調整と複数方程式の推論に課題があることが示された。
    • 幾何学的距離(Chamfer距離,Hausdorff距離)と回帰誤差を用いて発見の質を評価し,代数的構文を超えた機能的な忠実性を評価する。

    Link: https://arxiv.org/abs/2511.10833

  • 受動から説得へ:人間とAIの交渉における感情のニュアンスの制御 [cs.CL, cs.AI]目的:人間とAIの交渉における感情表現の制御方法
    • 自然な対話が求められるAIにおいて,人間らしい感情表現は重要な要素である。
    • 現在のAIモデルは,感情表現において表面的な対応にとどまるか,大規模な調整が必要となる。
    • 感情表現ベクトルを用いたアクティベーションエンジニアリングにより,感情のニュアンスを制御すること。
    • LLaMA 3.1-8Bに対し,感情表現ベクトルを適用することで,より人間らしい感情のニュアンスを引き出すことに成功した。
    • 感情が誘導された応答は,喜びや信頼といったポジティブな感情が増加し,一人称代名詞の使用頻度も高まった。
    • 本研究は,解釈可能な枠組みを提供し,会話型AI研究の新たな方向性を示唆する。

    Link: https://arxiv.org/abs/2511.12832

  • QiMeng-CRUX: 回路設計のための明確なVerilog生成に向けた,中核的な理解表現の精緻化 [cs.LG, cs.AR, cs.PL]目的:自然言語とVerilog間のギャップ縮小
    • デジタル回路設計において,自動化のニーズが高まっており,効率的なHDL生成が不可欠である。
    • 既存手法では,曖昧で構造化されていない自然言語入力が,高品質なVerilogコード生成の妨げとなっている。
    • 本研究は,自然言語の意図を正確に捉え,Verilog生成に適した構造化された中間表現を提案することで,この問題を解決する。
    • 提案手法であるCRUXは,ユーザーの意図の本質を捉え,Verilogコード生成に必要な情報を整理する構造化された中間表現である。
    • CRUXを用いたモデルCRUX-Vは,複数のVerilog生成ベンチマークにおいて,最先端の性能を達成した。
    • CRUXは汎用性が高く,他のコードモデルへの入力プロンプトとしても有効であり,自然言語とVerilog間のギャップ縮小に貢献する。

    Link: https://arxiv.org/abs/2511.20099

  • WARP:攻撃に耐性のあるアンラーニングプロトコルにおける重み転送 [cs.LG, cs.AI, cs.CR]目的:近似機械アンラーニングにおけるプライバシー保護
    • 機械学習モデルのプライバシー保護は重要であり,特にデータ削除時の情報漏洩を防ぐ必要がある。
    • 既存のアンラーニング手法は,モデルの差分からメンバーシップ推論やデータ再構築攻撃に脆弱である。
    • WARPは,勾配エネルギーの削減とパラメータ分散の拡大により,アンラーニング攻撃に対する耐性を向上させる。
    • 本研究で提案するWARPは,アンラーニング時のプライバシー保護を強化し,攻撃者の優位性を大幅に低減する。
    • ブラックボックス環境で最大64%,ホワイトボックス環境で最大92%まで,攻撃者のAUCを減少させる効果が確認された。
    • WARPは,保持されたデータに対する精度を維持しながら,近似アンラーニングにおける攻撃成功を抑制する汎用的なツールとなる。

    Link: https://arxiv.org/abs/2512.00272

  • 二重ランダム平滑化:グローバルノイズ分散を超える [cs.RO, cs.LG, cs.AI]目的:ニューラルネットワークの敵対的摂動に対するロバスト性の保証
    • ニューラルネットワークの安全性確保が重要視される中,敵対的攻撃への対策は不可欠である。
    • 従来のランダム平滑化は,小半径と大半径で最適なノイズ分散が異なるという課題があった。
    • 入力依存のノイズ分散を用いることで,小半径と大半径の両方で高い性能を実現することを目指す。
    • 提案手法である二重ランダム平滑化は,入力ごとに最適なノイズ分散を推定・適用する。
    • CIFAR-10実験により,従来のグローバルノイズ分散による手法を凌駕する性能が確認された。
    • ImageNetにおいても有効性が示され,特に高半径域で改善効果が認められた。

    Link: https://arxiv.org/abs/2512.01782

  • Q-BERT4Rec:マルチモーダル推薦のための量子化された意味的ID表現学習 [cs.AR, cs.IR, cs.AI]目的:マルチモーダル推薦における意味的ID表現の学習
    • オンラインプラットフォームにおいて,ユーザーの次行動予測はパーソナライズに不可欠であり,その精度が重要である。
    • 既存手法は,意味情報に乏しい離散的なアイテムIDに依存しており,多様な情報を活用できていない。
    • 意味的表現と量子化モデリングを統合し,推薦精度向上と解釈可能性向上を目指す。
    • Q-BERT4Recは,テキスト,画像,構造的特徴を融合し,ID埋め込みを豊かにするクロスモーダル意味的注入機構を用いる。
    • 融合された表現は,残差ベクトル量子化により意味のあるトークンに離散化され,効果的なシーケンシャル理解を可能にする。
    • Amazonベンチマークにおける実験により,Q-BERT4Recが既存手法を大きく上回り,意味的トークン化の有効性が確認された。

    Link: https://arxiv.org/abs/2512.02474

  • フローマッチングアラインメントのための値勾配誘導 [cs.LG, cs.CV]目的:フローマッチングモデルの人間の選好との整合
    • 生成モデルは,多様で高品質なデータ生成に不可欠であり,その性能向上が重要である。
    • 既存手法は,適応効率と事前分布の保存という両立が難しく,実用性に課題がある。
    • 限られた計算資源で効率的に,かつ事前分布を維持したまま,フローマッチングモデルを調整すること。
    • 提案手法VGG-Flowは,最適制御理論に基づき,事前学習済みモデルとの差分を値関数の勾配場に合わせることで,効率的な調整を実現する。
    • 報酬モデルからの情報を活用し,初期化の工夫により,高速な適応を可能にする。
    • Stable Diffusion 3を用いた実験により,限られた計算量で効果的かつ事前分布を保存したアラインメントが確認された。

    Link: https://arxiv.org/abs/2512.05116

  • オープンソースLLM間の信頼度を考慮した詳細な議論によるデータ自動拡充:メンタルヘルスとオンライン安全 [cs.CL, cs.LG]目的:メンタルヘルスとオンライン安全のためのデータ拡充手法
    • 自然言語処理応用の多くは,メンタルヘルス分析やオンライン安全におけるリスク行動など,現実世界の指標に依存している。
    • これらの指標は動的な性質を持つため,学習データセットへのラベル付けはコストがかかり,困難な場合が多い。
    • LLMを活用し,多ラベル予測の課題を克服することで,自動的なデータ拡充をより効果的に行う。
    • 提案手法であるCFDは,既存のベースラインと比較して,最も堅牢なデータ拡充性能を達成した。
    • LLMによって拡充された指標は,ダウンストリームタスクの性能を常に向上させることが示された。
    • 議論記録から取り込まれた特徴量は,オンライン安全タスクにおいて9.9%の性能向上をもたらした。

    Link: https://arxiv.org/abs/2512.06227

  • 実環境におけるペネトレーションテストでのAIエージェントとサイバーセキュリティ専門家の比較 [cs.CL, cs.CL, cs.DC, cs.AI, cs.CR, cs.CY]目的:AIエージェントとサイバーセキュリティ専門家の性能比較
    • サイバー攻撃の巧妙化により,高度なセキュリティ対策が不可欠となっている。
    • 熟練したセキュリティ専門家が不足しており,効率的な評価手法が求められている。
    • AIエージェントによる自動化が,セキュリティ評価の効率化に貢献しうる。
    • ARTEMISは全体で2位となり,9つの有効な脆弱性を発見し,82%の正当な提出率を示した。
    • ARTEMISは,既存のAIフレームワークと比較して,より高度な技術と提出品質を実現した。
    • AIエージェントは体系的な列挙,並列実行,コスト面で優位性がある一方,誤検知率が高く,GUIタスクに弱い。

    Link: https://arxiv.org/abs/2512.09882

  • 最適化のための安定性誘導ニューラルアンローリングによる進化学習 [cs.NE]目的:最適化のための進化学習手法
    • 最適化問題解決において,進化アルゴリズムは強力な手法である。しかし,その性能はヒューリスティクスの設計に依存する。
    • 手動で設計されたヒューリスティクスは,多様な問題に適応するのが難しい。データ駆動型アルゴリズムへの移行には,安定性の確保が課題である。
    • 安定性を誘導するニューラルアンローリングにより,進化学習の性能向上と汎化能力の獲得を目指す。
    • 提案手法L2Eは,安定性を重視したニューラル演算子を用いて,集団進化を固定点反復として再構成する。
    • L2Eは,学習された進化提案と数値ガイダンスを融合させ,探索と局所的な改善のバランスをとる。
    • 実験の結果,L2Eは様々なタスクで優れた最適化性能を示し,高次元問題にも対応可能であることが確認された。

    Link: https://arxiv.org/abs/2512.11453

  • 概念志向型強化学習:数学的推論における定義と応用の乖離を解消する [cs.AI, cs.LG]目的:数学的推論における定義と応用の乖離
    • 大規模言語モデルの数学的推論能力向上は重要である。実社会における問題解決への応用が期待される。
    • 既存の強化学習手法は,最終的な正答に焦点を当て,概念理解に基づく推論能力の向上に課題がある。
    • 概念を明示的に活用し,言語モデルに概念に基づいた推論を促すことで,その乖離を解消する。
    • COREは,概念と問題が紐づいた教材を用いて,概念に沿ったクイズを生成し,学習時に概念に関する情報を付加する。
    • 軌道置換,前方KL制約,GRPOなどの手法により,概念に基づいた推論を強化する。
    • 実験結果から,COREは既存手法と比較して,概念に沿った問題や,異なる分野の数学的ベンチマークにおいて性能向上を示すことが確認された。

    Link: https://arxiv.org/abs/2512.18857

  • CHAMMI-75:多様な顕微鏡画像を用いたマルチチャネルモデルの事前学習 [cs.CV, cs.LG]目的:多様な生物学的研究からの異種マルチチャネル顕微鏡画像データセット
    • 細胞形態の定量化は,細胞の応答を研究する上で強力なツールである。
    • 既存のモデルは単一の顕微鏡画像タイプで学習されるため,汎用性に欠ける。
    • 異なる顕微鏡画像タイプに対応可能なチャネル適応型モデルの開発を目指す。
    • CHAMMI-75は,75の異なる生物学的研究から収集された異種マルチチャネル顕微鏡画像データセットである。
    • CHAMMI-75を用いた事前学習は,マルチチャネルバイオイメージングタスクの性能向上に貢献する。
    • この研究は,生物学的研究における次世代の細胞形態モデルの創出を可能にする。

    Link: https://arxiv.org/abs/2512.20833

  • 大規模言語モデルにおける動的適応型推測デコーディング:Nightjar [cs.RO, cs.DC, cs.AI]目的:大規模言語モデルのサービングにおける推論高速化手法
    • 近年,大規模言語モデルの利用が拡大しており,効率的な推論技術が不可欠である。
    • 既存の推測デコーディングは負荷が高い環境で性能が低下し,負荷変動への適応が困難である。
    • 本研究は,負荷に応じて推測デコーディングを動的に制御し,システム全体の効率を最大化することを目指す。
    • Nightjarは,リクエスト負荷に応じて最適な推測長を動的に選択することで,スループットを向上させる。
    • 負荷が高い状況では,推測デコーディングを積極的に停止し,KVキャッシュの容量を確保することで,バッチサイズを拡大する。
    • 実験の結果,Nightjarは標準的な推測デコーディングと比較して,平均27.29%高いスループットと最大20.18%低いレイテンシを達成した。

    Link: https://arxiv.org/abs/2512.22420

  • マルチシナリオ高速道路車線変更意図予測:時間的物理情報に基づくマルチモーダルフレームワーク [cs.LG]目的:高速道路における車線変更意図の予測
    • 自動運転や先進運転支援システムにおいて,安全確保は最重要課題であり,正確な意図予測が不可欠である。
    • 現実の交通環境では,ノイズの多い運動データやクラス不均衡,多様なシナリオへの汎化性能の低さが課題となっている。
    • 異なる高速道路環境下でもロバストな車線変更意図予測を実現し,安全性を向上させることを目指す。
    • 提案手法TPI-AIは,深層学習による時間的特徴表現と物理情報に基づいた相互作用のヒントを融合することで,高い予測性能を達成した。
    • highDデータセットでは,T=1, 2, 3秒においてそれぞれ0.9562, 0.9124, 0.8345のmacro-F1スコアを得た。
    • exiDデータセットでも同様に高精度な結果が得られ,物理情報と学習された時間的埋め込み表現の組み合わせが有効であることが示された。

    Link: https://arxiv.org/abs/2512.24075

  • 効率的な分子特性予測のための量子化されたSO(3)-同変グラフニューラルネットワーク [cs.CL, cs.LG]目的:分子特性予測におけるSO(3)-同変グラフニューラルネットワークの効率化
    • 分子科学において,分子の3次元構造を考慮した正確な特性予測が重要である。
    • 3次元回転に対する同変性を備えたGNNは計算コストが高く,エッジデバイスでの利用が困難である。
    • 量子化技術を用いてGNNを圧縮・高速化し,実用的な分子化学アプリケーションへの展開を目指す。
    • 提案手法により,8ビットモデルはフル精度モデルと同等のエネルギーおよび力予測精度を達成し,大幅な効率向上を実現した。
    • 量子の誤差に対するロバスト性を高める注意正規化メカニズムが,低精度計算の安定化に貢献した。
    • 推論速度は2.37〜2.73倍向上し,モデルサイズは4分の1となり,精度や物理的対称性は損なわれない。

    Link: https://arxiv.org/abs/2601.02213

  • マルチセッションコラボレーション:記憶を用いたユーザー選好学習による長期的な協調性の向上 [cs.AI]目的:ユーザー選好の学習
    • 対話エージェントが長期的な関係を築く上で,ユーザーに寄り添った対応は不可欠である。
    • エージェントが複数セッションを通じてユーザーの選好を正確に把握し,活用することが課題である。
    • 長期的な協調性を向上させるための,記憶を用いたエージェントの開発を目指す。
    • エージェントに記憶機能を搭載することで,長期的な協調性が向上し,タスク成功率が向上した。
    • 記憶機能は,対話の効率化,ユーザーの負担軽減にも貢献することが示された。
    • 実際のユーザー実験においても,記憶機能がユーザー体験の向上に寄与することが確認された。

    Link: https://arxiv.org/abs/2601.02702

  • 幾何依存性偏微分方程式に対する離散解演算子学習 [cs.CL, cs.LG, cs.NA, math.NA, physics.comp-ph]目的:幾何依存性偏微分方程式の解法
    • 工学分野では,複雑な形状が問題の性能に大きく影響するため,形状変化への対応が重要である。
    • 従来のニューラル演算子学習は,滑らかな変化を前提とするため,形状変化や境界条件の変化に弱い。
    • 形状変化に対応できる離散解法演算子学習により,よりロバストな解法を確立することを目指す。
    • DiSOLは,古典的な離散化の手法を模倣した学習可能な段階にソルバーを分解することで,幾何学的形状に依存する離散構造への適応を可能にする。
    • 幾何依存性ポアソン方程式,アドベクション拡散方程式,線形弾性方程式,時空熱伝導問題において,DiSOLは安定かつ正確な予測を実現した。
    • 本研究は,形状支配的な問題において手続き的な演算子表現の必要性を強調し,離散解演算子学習を科学機械学習の新たな方向性として位置づける。

    Link: https://arxiv.org/abs/2601.09143

  • ピクセルからのホットスタート:中国語言語モデリングのための低解像度視覚トークン [cs.CV, cs.AI]目的:中国語言語モデリングにおける文字レベルのモデリングの代替手段
    • 表意文字は,意味や音韻に関する情報を含む視覚構造を持つため,言語処理において重要である。
    • 既存の言語モデルは文字を離散的なインデックスとして扱うため,視覚的な情報を活用できていない。
    • 低解像度の視覚入力を用いて,文字の視覚構造が言語モデリングに有効であるか検証する。
    • 低解像度(8x8ピクセル)のグレースケール画像を入力として用いた結果,正解率は39.2%と,インデックスベースのベースライン(39.1%)と同等の性能を示した。
    • 特に,学習データのわずか0.4%で正解率が12%を超え,インデックスベースのモデルと比較して顕著なホットスタート効果が確認された。
    • これらの結果は,最小限の視覚構造でも中国語言語モデリングにおいてロバストかつ効率的な信号となり得ることを示唆している。

    Link: https://arxiv.org/abs/2601.09566

  • ゼロパーミッション操作:大規模マルチモーダルモデル搭載GUIエージェントは信頼できるか [cs.CR, cs.AI, cs.SE]目的:大規模マルチモーダルモデル搭載GUIエージェントのセキュリティ脆弱性
    • モバイルプラットフォームにおけるGUI自動化の需要が高まっており,エージェントの信頼性が重要である。
    • 現在のGUIエージェントは,UI状態の不変性を前提としているが,実際にはその前提が成り立たない場合がある。
    • UI状態の変化を利用した攻撃からエージェントを保護し,安全なGUI自動化を実現すること。
    • Androidシステムにおいて,エージェントの実行を別のアプリに再バインドする「アクションリバインディング」攻撃が可能であることが示された。
    • この攻撃は,危険な権限を一切必要とせず,マルウェアスキャナによる検出を回避できることが確認された。
    • 「インテントアライメント戦略」により,確認ダイアログなどの検証ゲートをバイパスする成功率が大幅に向上した。

    Link: https://arxiv.org/abs/2601.12349

  • サブグラフ予測によるグラフ認識 [cs.RO, cs.NI, cs.CV, cs.LG]目的:画像からのグラフ認識手法
    • 画像認識技術は進歩したが,視覚的関係の認識は未だ困難な課題である。
    • 既存手法は特定の課題に特化しており,汎用性・応用性に乏しい。
    • 多様なグラフに対応可能で,タスク変更なしに転移可能な手法を開発する。
    • 提案手法GraSPは,合成データセットと実データセットの両方で良好な性能を示した。
    • 様々な種類のグラフと表現に対応でき,タスク固有の修正なしに転移学習が可能である。
    • 視覚グラフ認識のための,より統合的なフレームワークへの道を開く。

    Link: https://arxiv.org/abs/2601.15133

  • データ駆動型条件付き柔軟性指標 [cs.LG]目的:堅牢なスケジュール決定
    • プロセス柔軟性向上に伴い,確実なスケジューリングが重要となる。
    • 既存の柔軟性指標は,単純な不確実性集合に依存し,文脈情報を活用できていない。
    • 文脈情報を考慮した不確実性集合を学習し,柔軟性指標の精度向上を目指す。
    • 提案手法(CFI)は,過去データから不確実性集合を学習し,文脈情報に応じて条件付けを行う。
    • CFIは,データ駆動型および条件付き不確実性集合が必ずしも単純な集合より優れているとは言えないことを示した。
    • 電力系統運用例において,CFIが時間情報を組み込むことでスケジュール品質の向上が確認された。

    Link: https://arxiv.org/abs/2601.16028

  • 確率的環境における分布値勾配 [cs.DC, cs.IR, cs.SI, cs.LG]目的:確率的環境下でのサンプル効率向上
    • 強化学習は,複雑なタスクの自動学習を可能にする重要な技術である。
    • 既存手法は,確率的またはノイズの多い環境下では性能が制限される場合がある。
    • 分布値関数と勾配の分布をモデル化することで,この問題を解決する。
    • 提案手法「Distributional Sobolev Training」は,報酬と遷移の分布を確率モデル化する。
    • Sobolev 拡張ベルマン演算子は縮小写像であり,一意の固定点を持つことが証明された。
    • MuJoCo 環境での実験により,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2601.20071

  • NVFP4推論精度回復のための量子化認識蒸留 [cs.LG]目的:NVFP4量子化された大規模言語モデルおよびビジョン言語モデルの精度回復
    • 大規模モデルの推論コスト削減のため,低精度化技術が重要視されている。
    • 量子化による精度劣化が課題であり,特にファインチューニング済みモデルでは困難。
    • 量子化認識蒸留により,ファインチューニング済みモデルの精度劣化を効果的に回復する。
    • 量子化認識蒸留は,SFT,RL,モデルマージなどの多段階パイプラインで優れた効果と安定性を示す。
    • データ品質やカバレッジにロバストであり,完全な学習データなしでも精度回復が可能。
    • AceReason Nemotronなど複数のモデルで,BF16に近い精度への回復を確認。

    Link: https://arxiv.org/abs/2601.20088

  • AutoGenを用いたマルチエージェントによる多層的ランサムウェア分析 [cs.CR, cs.AI, cs.LG]目的:ランサムウェアの分類
    • ランサムウェアは世界的に深刻なサイバー脅威であり,甚大な経済的損失や業務停止を引き起こしている。
    • 従来の静的解析,ヒューリスティックスキャン,動的解析などの手法は単独では十分な検出性能を発揮できない場合がある。
    • 静的,動的,ネットワーク情報源を組み合わせることで,より高精度なランサムウェア分類を目指す。
    • 提案手法は,大規模なランサムウェアデータセットにおいて,単一のモダリティや非適応的融合ベースラインを上回り,ファミリー分類のMacro-F1を最大0.936改善した。
    • エージェント間のフィードバックループは100エポック以上で安定した単調収束を示し,エージェント品質を0.75以上絶対的に向上させ,最終的な総合スコアは約0.88となった。
    • ゼロデイランサムウェアの検出は多形性やモダリティの撹乱に依存するものの,信頼性のある実世界での展開を可能にする信頼度に基づいた棄権メカニズムを備えている。

    Link: https://arxiv.org/abs/2601.20346

  • 安全なAIベース自律制御のための文脈学習型ランタイムモニタ [cs.LG, cs.AI, cs.SY, eess.SY]目的:AIベース制御アンサンブルにおける文脈を考慮したランタイムモニタの学習
    • AIの活用が進む一方,未知の環境下での安全性確保が重要課題となっている。
    • 複数のコントローラを単純に組み合わせる手法では,個々のコントローラの特性が活かされない。
    • 文脈に応じて最適なコントローラを選択することで,安全性と性能を向上させることを目指す。
    • 提案手法は,コントローラ選択時の安全性に関して理論的な保証を提供する。
    • シミュレーション実験により,文脈を考慮しないベースラインと比較して,安全性と性能が大幅に向上することが示された。
    • コントローラ多様性の活用を促進し,複雑な状況下でのAI制御の信頼性を高める。

    Link: https://arxiv.org/abs/2601.20666