arXiv雑要約

AI - 2026/02/04 公開

  • STEMVerse:大規模言語モデルにおけるSTEM推論能力の二軸診断フレームワーク [cs.CL, cs.CL, cs.AI]目的:大規模言語モデルのSTEM(科学,技術,工学,数学)分野における推論能力の体系的な分析
    • 機械知能の評価において,STEM分野の能力は重要な指標となっている。
    • 既存の評価方法は,専門分野と認知レベルの複雑さを考慮せず,全体的なスコアのみで判断されることが多い。
    • モデルの誤りの原因が知識不足か認知能力の欠如かを区別し,診断価値を高めることを目指す。
    • STEMVerseは,20,000件以上のSTEM問題を「分野×認知」の二軸空間に再集約し,統一的な診断フレームワークを構築した。
    • 実験結果から,大規模言語モデルにおけるSTEM推論の構造的な弱点が明らかになった。
    • 多分野の網羅性と認知レベルの細分化により,大規模言語モデルの科学的推論特性を明確に理解するための視点を提供する。

    Link: https://arxiv.org/abs/2602.02497

  • 学習・訓練なしでのテスト時デトックス化 [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルにおける有害なテキスト生成の抑制
    • 言語モデルの安全性確保は,社会実装における信頼獲得に不可欠である。
    • 既存手法は再学習や勾配計算を要し,汎用性やブラックボックス環境への適用が課題である。
    • 入力埋め込みと毒性スコアのみを用いたテスト時デトックス化手法の開発。
    • 本手法は,モデルやプロンプトに依存せず,堅牢な毒性軽減を実現した。
    • 毒性と品質のトレードオフにおいても,多くの場合に最良の結果を得た。
    • 単語埋め込みを効果的な制御変数と位置づけ,ブラックボックス最適化の活用を促す。

    Link: https://arxiv.org/abs/2602.02498

  • UNSO:統一されたニュートン・シュルツ直交化 [cs.CL, cs.LG, cs.AI, cs.NA, math.NA]目的:ニュートン・シュルツ反復法の効率性と安定性向上
    • 最適化問題において,ニュートン・シュルツ法は重要な役割を担う。
    • 従来のニュートン・シュルツ法は,計算効率と安定性に課題があった。
    • 反復構造を統一し,計算コストを削減することで効率性と安定性を高める。
    • 本研究では,反復構造を統一したUNSOを提案し,多項式展開を回避した。
    • 各行列冪の役割を評価し,重要でない項を除去することで,学習可能な係数を持つ推奨多項式を得た。
    • 学習可能な係数を最適化することで,安定した収束と優れた性能を達成した。

    Link: https://arxiv.org/abs/2602.02500

  • 大規模言語モデルによるパラメータ効率的な事前学習済み言語モデルの拡張 [cs.LG, cs.CR]目的:サイバーセキュリティにおけるAIモデルの信頼性と堅牢性の向上
    • サイバーセキュリティ分野では,現実世界の挙動を効果的に模倣するためにAIモデルの活用が期待されている。
    • データドリフトやラベル付きデータの不足により,モデルの頻繁な更新や過学習のリスクが存在する。
    • パラメータ効率的な事前学習済み言語モデルと大規模言語モデルの組み合わせによる問題解決を目指す。
    • 大規模言語モデルをデータラベリングツールとして活用し,ラベルなしデータのラベル生成に貢献する。
    • 予測の確信度が低い場合に,大規模言語モデルをフォールバック機構として利用することで信頼性を向上させる。
    • 実験結果から,提案手法がサイバーセキュリティアプリケーションに適したモデルの信頼性と堅牢性を改善できることが示された。

    Link: https://arxiv.org/abs/2602.02501

  • NLPにおける継続学習のための疎なアダプター融合 [cs.LG, cs.AI]目的:自然言語処理における継続学習の効率化と破滅的忘却の抑制
    • 自然言語は常に変化するため,モデルの継続的な適応が不可欠である。
    • 既存手法では,タスク間のパラメータ再利用が不十分で,類似タスク間での知識共有が困難である。
    • 疎なアダプター融合により,パラメータ効率を向上させ,知識の共有を促進する。
    • 提案手法SAFMは,既存の最先端手法と同等の性能を,より少ないパラメータで達成する。
    • SAFMは,アダプターの動的な融合により,パラメータ消費量を最小限に抑え,再利用を最大化する。
    • 層ごとの損失関数により,アダプター間の差異を促し,タスク固有の知識の獲得を促進する。

    Link: https://arxiv.org/abs/2602.02502

  • PAC学習可能なオラクルを持つ学習拡張型滑らかな整数計画法 [cs.DS, cs.AI, cs.LG]目的:滑らかな整数計画法における学習拡張アルゴリズム
    • 組合せ最適化問題の近似解法において,効率的な手法が求められている。
    • 従来の稠密なケースでは近似解法が存在するものの,疎なケースでは困難な場合がある。
    • 予測オラクルを用いて線形近似を行うことで,疎なケースへの適用を目指す。
    • 予測オラクルを組み込むことで,線形計画法と丸め手続きによる解法が有効となる。
    • 本手法は,稠密なケースの近似解法をほぼ稠密なケースに拡張できる。
    • オラクルのPAC学習可能性を証明し,多項式個のサンプルで近最適な性能を達成できることを示した。

    Link: https://arxiv.org/abs/2602.02505

  • 相互情報正則化VQ-VAEを用いたプリコーディング指向CSIフィードバック設計 [cs.IT, cs.AI, eess.IV, math.IT]目的:大規模MIMOシステムにおける正確なチャネル再構成とプリコーダ設計
    • 大規模MIMOシステムにおいて,高精度なチャネル情報は通信性能を大きく左右するため重要である。
    • 限られたフィードバック資源内で,CSIの圧縮効率と下りリンクレートのバランスを取ることが課題である。
    • 固定長のフィードバックで,変数長ニューラル圧縮と同等の性能を実現し,チャネル状態情報の効率的な利用を目指す。
    • 提案手法は,既存の変数長ニューラル圧縮方式と同程度のレートを達成し,固定長のフィードバックで動作する。
    • 学習されたコードワードは均一な利用頻度を示し,基盤となるチャネル状態情報と相関のある解釈可能な構造を捉えている。
    • 相互情報の下界推定量を正則化項として導入することで,固定されたフィードバック予算下でのコードブックの有効活用を促進している。

    Link: https://arxiv.org/abs/2602.02508

  • CodeGuard:CS教育におけるLLMのガードレールの改善 [cs.CY, cs.AI]目的:CS教育におけるLLMのガードレールの改善
    • LLMは教育現場で活用が進む一方,悪意あるプロンプトへの脆弱性が懸念される。
    • 既存のLLMガードレールはCS教育特有の有害プロンプトへの対応が不十分である。
    • CS教育に適した,安全なプロンプト検出と有害なコード生成抑制を目指す。
    • 本研究で開発したPromptShieldは,既存のガードレール手法を上回る0.93のF1スコアを達成した。
    • CodeGuardを導入することで,有害またはポリシー違反のコード生成を30〜65%削減できることが示された。
    • コード,データセット,評価スクリプトは公開されており,コミュニティへの貢献を目指す。

    Link: https://arxiv.org/abs/2602.02509

  • 翻訳を超えて:ビジョン言語モデルによる異文化ミーム再創造 [cs.CY, cs.AI, cs.CL, cs.CV]目的:異文化ミーム再創造
    • インターネット文化においてミームは重要なコミュニケーション手段であり,その影響力は大きい。
    • ミームは文化特有性が強く,異文化への適応は困難を伴う。
    • 文化的な参照を維持しつつ,意図とユーモアを伝えるミームの異文化適応を目指す。
    • 現在のビジョン言語モデルは,ある程度の異文化ミーム再創造が可能であるが,限定的である。
    • 米国から中国への再創造は,中国から米国への再創造よりも一貫して高品質であるという方向性非対称性が見られた。
    • ユーモアや視覚的・テキスト的デザインのどの側面が文化間で伝わり,何が課題となるかを特定した。

    Link: https://arxiv.org/abs/2602.02510

  • 脳基盤モデルのためのトレーニングデータガバナンス [cs.CY, cs.AI]目的:脳基盤モデルのトレーニングデータに関するガバナンス
    • 脳科学研究において,大規模データ活用は知見獲得に不可欠である。
    • 脳データは,個人情報保護の観点から厳格な管理が求められる。
    • 脳データの再利用・転用における倫理的課題とガバナンスのあり方を提示する。
    • 脳基盤モデルは,脳波やfMRIなどの大規模な脳データを用いて学習される。
    • 脳データは,テキストや画像データよりも高いレベルでの保護が求められる。
    • プライバシー,同意,バイアス,利益分配などの倫理的懸念に対応するための基盤となる安全策を提案する。

    Link: https://arxiv.org/abs/2602.02511

  • PageRankの公平性を高めるための効率的なエッジ再配線戦略 [cs.SI, cs.AI]目的:PageRank公平性の最大化
    • ソーシャルネットワークにおける情報アクセス格差の問題は,社会的な公平性の観点から重要である。
    • ネットワーク構造が偏っている場合,特定のグループの情報アクセスが不利になるという問題がある。
    • 不利なグループのPageRank公平性を改善し,情報アクセス格差を是正することを目指す。
    • 提案手法は,既存の手法と比較してPageRank公平性の向上が著しいことが実験で示された。
    • 大規模ネットワーク(数百万ノード)に対しても,短時間で精度の高い解を生成可能である。
    • エッジ再配線を通じてネットワーク構造を調整することで,PageRankの公平性を効率的に改善できる。

    Link: https://arxiv.org/abs/2602.02512

  • 複合材料設計のための順序認識マルチモーダル表現学習 [cs.LG, cond-mat.mtrl-sci]目的:複合材料の表現学習
    • 材料設計において,AIの活用が重要視されている。特に,結晶やポリマー材料では顕著な成果が出ている。
    • 複合材料は,連続的かつ非線形な設計空間を持つため,従来のグラフ中心のアプローチが適用困難である。
    • 複合材料の複雑な微細構造を捉え,データ不足下でも高精度な予測を可能にする表現学習手法の開発。
    • 本研究では,順序性を重視したマルチモーダル事前学習フレームワーク「ORDER」を提案した。
    • ORDERは,類似特性を持つ材料が潜在空間内で近くに配置されるように学習することで,連続的な特性を保持し,疎な設計間の補間を可能にする。
    • ナノファイバー強化複合材データセットおよび炭素繊維T700のシミュレーションデータセットで,既存手法を上回る性能を実証した。

    Link: https://arxiv.org/abs/2602.02513

  • Eコマース検索における全体ページ体験最適化の設計と評価 [cs.IR, cs.LG]目的:Eコマース検索における全体ページ体験最適化手法
    • Eコマースの競争激化に伴い,検索結果ページのユーザ体験向上が不可欠である。
    • 従来のランキングモデルは,複雑なレイアウトに対応できず,長期的な満足度を考慮しない。
    • 長期的なユーザ満足度を考慮した,ページ全体の最適化手法を確立すること。
    • 本研究では,アイテムの関連性,2次元配置,視覚要素間の相互作用を明示的にモデル化する新しいフレームワークを提案した。
    • 因果推論フレームワークを用いて,準実験データに基づいた長期的なユーザ満足度指標を開発した。
    • 大規模なA/Bテストの結果,ブランド関連性の改善(1.86%)と収益の増加(+0.05%)が確認された。

    Link: https://arxiv.org/abs/2602.02514

  • CreditAudit:LLM評価と選択のための2次元監査 [cs.AI, cs.CL, cs.LG]目的:LLMの評価と選択のための信用監査フレームワーク
    • LLMの性能向上は目覚ましいが,ベンチマークスコアと実用的な経験との乖離が課題となっている。
    • システムプロンプトやインタラクションモードのわずかな変化が,LLMの性能に大きな影響を及ぼす可能性がある。
    • LLMの安定性と信頼性を評価し,状況に応じた適切なモデル選択を支援すること。
    • CreditAuditは,複数のベンチマークとシステムプロンプトを用いてLLMを評価し,平均性能と変動リスクを示す。
    • 平均性能が類似するモデルでも,変動リスクに大きな差が見られることが示された。
    • 変動リスクを考慮することで,より実用的なモデル選択が可能となり,信頼性の高いLLMの展開を支援する。

    Link: https://arxiv.org/abs/2602.02515

  • ユーザー類似性と推薦効果の差を利用した個別ユーザー公平性の測定 [cs.CY, cs.AI, cs.IR, cs.LG]目的:個別ユーザー公平性の評価指標
    • 推薦システムにおける公平性は,利用者の満足度と多様性を高める上で重要である。
    • 既存の公平性指標は,ユーザー類似性または推薦効果の差のいずれかに焦点を当てており,両方を考慮したものは存在しない。
    • ユーザー類似性と推薦効果の差の両方を考慮した,より包括的な公平性指標を開発すること。
    • 本研究では,ユーザー類似性と推薦効果の差を同時に考慮する新規評価指標「Pairwise User unFairness (PUF)」を提案した。
    • 実験結果から,PUFは4つのデータセットと7つのランキング手法において,既存指標よりも一貫して信頼性の高い評価が可能であることが示された。
    • PUFは,ユーザー類似性と推薦効果の差を同時に捉える最初の推薦システム評価指標である。

    Link: https://arxiv.org/abs/2602.02516

  • 選択的脊椎手術後の在院期間を決定する要因:10年間の予測モデリングからの洞察 [cs.LG, cs.AI, cs.CY]目的:選択的脊椎手術後の在院期間予測
    • 医療資源の最適化には,患者の転帰を予測することが不可欠である。
    • 在院期間予測モデルの標準化と外部検証が不十分である。
    • より実用的な予測モデルの開発を目指す。
    • 機械学習モデルは,伝統的な統計モデルと比較して,一貫して高い予測性能を示した。
    • 年齢,併存疾患,BMI,手術の種類と時間,脊椎レベル数などが共通の予測因子として挙げられた。
    • 標準化された結果定義と透明性の高い報告が,実臨床での応用を促進するために重要である。

    Link: https://arxiv.org/abs/2602.02517

  • GraphDancer:カリキュラム強化学習によるグラフ探索と推論能力のLLM学習 [cs.LG, cs.AI, cs.CL]目的:グラフ構造化知識に対するLLMの探索と推論能力
    • LLMは外部知識を活用することで精度が向上するが,現実世界の知識はグラフ構造で表現されることが多い。
    • グラフ構造の知識源における関係のナビゲーションには正確な関数呼び出しが必要であり,類似性に基づく検索では不十分である。
    • 複雑な質問に答えるには反復的な情報探索による多段推論が必要であり,その学習を支援する。
    • GraphDancerは,LLMにグラフをナビゲートさせるための強化学習フレームワークであり,推論と関数実行を繰り返す。
    • 構造的な複雑さに基づくグラフ認識カリキュラムにより,中規模LLMでの強化学習の効率化を実現した。
    • 30億パラメータのモデルで,140億パラメータモデルやGPT-4o-miniよりも優れた汎化性能を示した。

    Link: https://arxiv.org/abs/2602.02518

  • 高等教育における大規模言語モデルの教育的フィードバックの評価:可能性,限界,および教育実践への示唆 [cs.CY, cs.AI]目的:高等教育における大規模言語モデルの教育的フィードバックの可能性と限界
    • 教育の質向上において,フィードバックは不可欠であり,学習と評価のプロセスを改善する。
    • AI技術の導入によりフィードバック方法が変化しつつあるが,効果的な活用方法が確立されていない。
    • 明確な指示と評価基準に基づいたAIフィードバックの有効性を検証し,教育現場への応用可能性を探る。
    • 大規模言語モデルは,構造化されたフィードバックを生成する能力を有しており,持続可能なフィードバックツールとしての可能性を示す。
    • AI生成フィードバックは,明確な文脈情報と指示によって,その有効性が高まることが示唆された。
    • 本研究は,AIを活用した教育的フィードバックの実践に向けて,重要な示唆を与える。

    Link: https://arxiv.org/abs/2602.02519

  • 包括的な工学教育のための人工知能:平等,多様性,倫理的リーダーシップの推進 [cs.CY, cs.AI, cs.HC]目的:工学教育における平等,多様性,倫理的リーダーシップの推進
    • 工学教育は社会の発展に不可欠であり,その質的向上は重要である。
    • STEM教育におけるジェンダー格差や文化的偏り,教育機会の不平等が存在する。
    • AI技術を活用し,工学教育における包容性を高め,格差を是正することを目指す。
    • AI技術は,教育へのアクセスを促進し,STEM教育における公平性を高めることが示された。
    • AIベースの適応型プラットフォームを用いた事例研究に基づき,包容性を測定する倫理的リーダーシップに関するデータモデルが提案された。
    • 本研究は,持続可能性を重視し,国連の2030アジェンダ(特に目標5と10)に貢献する。

    Link: https://arxiv.org/abs/2602.02520

  • スケールド・ドット積注意は入力のスケーリングを共通の面に投影する [cs.LG, cs.AI, eess.SP]目的:スケールド・ドット積注意の数学的再解釈
    • 大規模言語モデル等の非線形信号処理において,スケールド・ドット積注意は重要な役割を担う。
    • 既存の「クエリ,キー,バリュー」という概念は,数学的な信号処理との整合性に課題があった。
    • 入力ベクトル間の非線形依存性を捉え,学習・推論の高速化と拡張性を実現すること。
    • スケールド・ドット積注意は,入力ベクトルをそれ自身によって決定される共通の面に投影する操作と等価であることが示された。
    • この再解釈により,時間的・文脈的に依存する非線形関係性の発見が可能となる。
    • 言語処理においては,スケールド・ドット積注意が入力ベクトルの位置する面の意味に基づいて文脈依存性を捉える役割を果たすと解釈できる。

    Link: https://arxiv.org/abs/2602.02521

  • IMU-1:小規模言語モデルのサンプル効率の良い事前学習 [cs.LG, cs.AI]目的:小規模言語モデルの効率的な事前学習手法
    • 言語モデルは,自然言語処理の基盤技術であり,様々な応用分野で利用されている。
    • 大規模なデータセットが求められるため,学習コストが高いという課題がある。
    • 少ないデータ量でも高性能な言語モデルを学習することを目指している。
    • IMU-1は430Mパラメータでありながら,56倍のデータ量で学習したモデルに匹敵する性能を達成した。
    • QK-norm attentionやNorMuonなどの工夫を組み合わせた訓練レシピが有効であることが示された。
    • コード,重み,データが公開されており,再現性が確保されている。

    Link: https://arxiv.org/abs/2602.02522

  • TabularMath:表形式学習におけるプログラム検証済み合成による計算的外挿の評価 [cs.LG, cs.AI]目的:表形式データにおける計算的外挿能力の評価
    • 表形式データの利用が拡大しており,モデルの性能向上が重要である。
    • 従来の評価指標は,データ分布内での補間能力に偏っている。
    • 決定論的計算プロセスに基づく表形式データへの外挿性能を評価する。
    • TabPFN v2.5は,分布内データで高いR^2(0.998)を達成し,分布外でも正のR^2を維持した。
    • しかし,丸めの一致率(整数値の一致)では,TabPFN v2.5は分布外データで10%以下に低下した。
    • 一方,ICLは40%程度の丸めの一致率を維持しており,両者は補完的な関係にある。

    Link: https://arxiv.org/abs/2602.02523

  • オンラインネットワークのためのグラフ認識型ソーシャルTransformer: GASTON [cs.SI, cs.AI, cs.LG]目的:オンラインネットワークにおける有害コンテンツの検出
    • オンラインコミュニティは社会化や支援に不可欠だが,有害コンテンツの蔓延が課題となっている。
    • テキスト内容だけでなく,投稿場所の社会規範も考慮する必要があり,検出が困難である。
    • コミュニティのユーザー構成に基づいた埋め込み表現を学習し,文脈に基づいた有害コンテンツ検出を目指す。
    • GASTONは,ユーザーの所属パターンに基づきコミュニティ埋め込みを事前学習するコントラスティブ初期化戦略を採用している。
    • これにより,GASTONは語彙が類似していても,コミュニティ(支援グループとヘイトグループなど)を区別することが可能となる。
    • ストレス検出,有害性スコアリング,規範違反のタスクにおいて,GASTONの埋め込み表現は最先端のベースラインを上回る性能を示した。

    Link: https://arxiv.org/abs/2602.02524

  • コミュニティ規範の焦点化:タスク非依存の教師なし事前学習によるオンラインソーシャルメディアの活用 [cs.SI, cs.AI]目的:オンラインソーシャルメディアにおけるコミュニティ規範のモデル化
    • ソーシャルメディアは情報伝達や意見形成の場であり,社会に大きな影響を与えるため,その理解が重要である。
    • 高品質な教師データが不足しており,ソーシャルメディアの複雑な動的モデリングの妨げとなっている。
    • 教師なし事前学習によってデータ不足を緩和し,AIシステムの判断根拠となる社会規範の解釈を可能にする。
    • コミュニティ規範を考慮した事前学習により,タスク固有のファインチューニングへの依存度を低減できる。
    • 提案手法は,データ不足の状況下でも高い性能を発揮し,AI for Social Goodへの貢献が期待される。
    • AIシステムの意思決定における社会規範の理解を深め,説明可能なAIの実現に繋がる可能性がある。

    Link: https://arxiv.org/abs/2602.02525

  • 「ロバート・ボルトン」特異点:再帰的AIにおける意味トンネリングと多様体展開 [cs.LG, cs.AI, cs.CL, physics.comp-ph]目的:再帰的合成データで訓練された生成AIの安定性評価
    • 生成AIの発展は,高度な文章生成能力を可能にし,様々な応用分野での利用が期待されている。
    • 従来の評価指標であるPerplexityは,安定化された状況下では誤解を招く可能性がある。
    • 意味トンネリングという新たな失敗モードに対処し,多様体の崩壊を防ぐこと。
    • Perplexityは高いものの,モデルは意味的多様性を喪失し,「ロバート・ボルトン」特異点に収束することが確認された。
    • MNCISフレームワークとASNCは,効果的な多様体展開を実現し,モデルの有効ランクを拡大することを示した。
    • これにより,意味的な引力に抵抗し,学習データの長尾分布を維持する「人工多様体」が構築された。

    Link: https://arxiv.org/abs/2602.02526

  • インシデント誘導型時空間交通予測 [cs.LG, cs.AI]目的:交通予測の精度向上
    • 交通システムの最適化は社会経済活動の効率化に不可欠であり,正確な交通予測がその鍵となる。
    • 既存手法は過去の交通データに偏重し,事故や悪天候といった外部要因の影響を無視する傾向がある。
    • 突発的なインシデントが交通パターンに与える影響を明示的にモデル化し,予測精度を改善することを目指す。
    • 提案手法IGSTGNNは,インシデントの初期空間的影響を捉えるICSFモジュールと,時間的減衰をモデル化するTIIDモジュールを導入する。
    • 新しく構築された大規模データセットを用いてIGSTGNNの有効性を検証した結果,最先端の性能を達成した。
    • ICSFとTIIDモジュールは既存モデルへの統合により,汎用性と更なる性能向上が確認された。

    Link: https://arxiv.org/abs/2602.02528

  • オフポリシー評価による人間とロボットの協調のための強化学習の定式化 [cs.LG, cs.RO]目的:状態表現と報酬関数の選択
    • 現実世界の意思決定システムの変革に貢献し,自律エージェントによる経験からの学習を可能にする
    • 状態表現や報酬関数の定義が学習効率や政策の性能に不可欠だが,専門知識や試行錯誤に依存する
    • オフポリシー評価を活用し,ログデータのみで状態空間と報酬関数を選択することで,コストとリスクを低減する
    • 提案手法は,オフライン強化学習エージェントを訓練し,オフポリシー評価を用いて政策の性能を推定することで,状態表現と報酬関数の選択を体系的に行う
    • Lunar Lander環境とNASA-MATB-II人間実験環境で検証された結果,現実世界の複雑な人間とロボットの協調において,その有効性が確認された
    • データ駆動型のオフポリシー評価に基づく評価により,強化学習の設計決定を自動化し,信頼性,効率性,持続可能性を高める

    Link: https://arxiv.org/abs/2602.02530

  • 超高速流れ制御:不確実性下における超音速インテーク・アンスタート制御のための汎用深層強化学習 [cs.LG, physics.flu-dyn]目的:超音速インテークのアンスタート制御
    • マッハ5以上の極超音速飛行において,空気吸入式推進の信頼性を確保する上で重要な課題である。
    • 衝撃波と境界層の相互作用により,インレット動作が不安定化し,圧力変動が激しいという問題がある。
    • 現実的な運用における不確実性下で,リアルタイムな極超音速流れ制御を実現することを目指す。
    • 深層強化学習に基づく能動的な流れ制御戦略が,マッハ5における超音速インレットのアンスタートを効果的に制御することを示した。
    • 本手法は,様々な燃焼室条件に対応する幅広いバックプレッシャーに加え,未知のシナリオに対しても頑健な性能を示す。
    • ノイズを含む計測値に対してもロバストであり,最適化された最小限のセンサーセットでも同等の性能を発揮し,実用的な実装を可能にする。

    Link: https://arxiv.org/abs/2602.02531

  • CADENT:強化学習におけるサンプル効率の良い転移学習のためのゲート付きハイブリッド蒸留 [cs.LG, cs.AI]目的:強化学習におけるサンプル効率の良い転移学習のためのフレームワーク
    • 深層強化学習は高いサンプル複雑度を持つため,転移学習による効率化が重要である。
    • 既存手法は,ソース環境とターゲット環境のドメインシフトに苦戦している。
    • ターゲットドメインへの適応を円滑に行う知識転移手法を確立すること。
    • CADENTは,戦略的知識と戦術的知識を統合したガイダンス信号を用いる。
    • 経験ゲート付き信頼機構により,教師のガイダンスと生徒自身の経験を動的に重み付けする。
    • 様々な環境で,ベースラインよりもサンプル効率が40-60%向上し,優れた漸近的性能を維持した。

    Link: https://arxiv.org/abs/2602.02532

  • HMVLA:ビジョン・言語・行動モデルのための双曲線多モーダル融合 [cs.RO, cs.LG]目的:ビジョン・言語・行動モデルにおける包括的な意味的アライメント
    • ロボット制御における多モーダル知覚の重要性が高まっており,ビジョンと言語を統合するモデルが求められている。
    • 既存手法では,VLMの直接的なファインチューニングに依存し,VLAドメイン特有の意味的アライメントの課題が十分に解決されていない。
    • 双曲線空間への埋め込みとMoEメカニズムにより,VLAにおける意味的アライメントを効果的に改善することを目的とする。
    • HMVLAは,従来のベースライン手法と比較して,精度と汎化性能の両方で優れていることが実験的に示された。
    • 双曲線空間を利用することで,画像とテキストデータの階層的関係をより効果的にモデル化することが可能となった。
    • データセットを再構築することで,HMVLAのロバスト性とドメイン適応性が検証された。

    Link: https://arxiv.org/abs/2602.02533

  • ADHD診断のための説明可能な深層学習フレームワークによる心理学者への理解深化 [cs.SI, cs.LG, cs.AI]目的:ADHD診断のための説明可能な深層学習フレームワークの開発と評価
    • ADHDは診断が難しく,客観的指標が求められている。早期発見・介入が重要である。
    • 既存の診断手法では,診断根拠の透明性が不足し,心理学者の判断を支援できていない。
    • AI技術を用いて診断精度を高め,診断根拠を提示することで,心理学者の理解と信頼を得る。
    • 提案フレームワークHyExDNN-RNNは,二値分類においてF1スコア99%という高い性能を示した。
    • 多クラス分類においてもF1スコア94.2%を達成し,実用的な精度を確保した。
    • SHAPやPFIなどのXAI手法により,特徴量の重要度やモデルの判断ロジックを可視化し,説明可能性を高めた。

    Link: https://arxiv.org/abs/2602.02535

  • 疎な判断から密な推論へ:マルチモーダルモデレーションのための多属性軌跡パラダイム [cs.LG, cs.AI, cs.CL, cs.CV]目的:マルチモーダルモデレーションにおける安全性向上
    • 有害コンテンツの識別は,オンラインプラットフォームの安全性維持に不可欠である。
    • マルチモーダルモデレーションは,データと教師信号の不足により,テキスト単独の場合に比べて進歩が遅れている。
    • 本研究は,二値ラベルに依存するショートカット学習を回避し,より詳細な境界学習を実現することを目指す。
    • 提案手法UniModは,証拠の根拠付け,モダリティ評価,リスクマッピングなどの段階を含む構造化された軌跡を構築する。
    • UniRMと呼ばれる多頭スカラー報酬モデルを開発し,応答生成段階で属性レベルのスコアを付与することで,多次元的な教師信号を提供する。
    • 実験結果から,UniModはテキストモデレーションと同等の性能を示し,主要なベースラインよりも少ないデータで新たなマルチモーダルベンチマークを達成した。

    Link: https://arxiv.org/abs/2602.02536

  • WorldVQA:マルチモーダル大規模言語モデルにおける原子的な世界知識の測定 [cs.CV, cs.LG]目的:マルチモーダル大規模言語モデルにおける原子的な視覚世界知識の評価
    • AIの進化には,現実世界を理解する能力が不可欠であり,そのために世界知識の獲得と活用が重要である。
    • 既存の評価方法では,視覚知識の検索と推論が混同されており,モデルが実際にどの程度知識を記憶しているかの正確な測定が困難である。
    • WorldVQAは,モデルが視覚的エンティティを正確に認識し,命名できるかを厳密に評価することで,視覚的事実性のテストを提供する。
    • WorldVQAは,一般的なオブジェクトから希少なものまで,階層化された分類体系に沿って視覚的エンティティのグラウンディングと命名能力を評価するベンチマークである。
    • このベンチマークは,視覚知識の検索と推論を分離し,モデルが「何を記憶しているか」を厳密に測定することを目的としている。
    • WorldVQAは,現在の最先端モデルと次世代モデルの百科的知識の広さと幻覚率を評価するための標準を確立することを目指す。

    Link: https://arxiv.org/abs/2602.02537

  • 未来の活性化を考慮したポストトレーニング量子化の強化 [cs.LG, cs.CL, cs.CV]目的:ポストトレーニング量子化による大規模言語モデルの圧縮手法
    • 大規模言語モデルの利用拡大に伴い,モデルの軽量化が重要課題となっている。
    • 従来のポストトレーニング量子化は,量子化バイアスや誤差の蓄積により性能が不安定になりやすい。
    • 未来の層の活性化情報を活用することで,量子化の精度と安定性を向上させる。
    • 提案手法FAQは,既存手法と比較して,わずかな計算コストで一貫して優れた性能を示す。
    • FAQは,バックプロパゲーションやデータ再構成,チューニングを必要とせず,エッジデバイスへの展開に適している。
    • 未来層の活性化をソフトに集約するウィンドウ機構により,単一の層への過度な依存を抑制している。

    Link: https://arxiv.org/abs/2602.02538

  • ビジョンモデルにおけるトークンが保持できる情報量:VLMの認識限界に関するスケーリング則 [cs.LG, cs.CV]目的:視覚トークンの情報保持能力の限界
    • 近年,視覚情報を中心とした長文脈モデリングが急速に進展している。
    • 視覚エンコーダの表現能力には限界があり,高圧縮率と認識精度を両立するのが課題。
    • 視覚トークンの情報量限界を定量的に把握し,効率と精度を両立する指針を示す。
    • 画像内の情報量(文字数)を増加させることで,安定相,不安定相,崩壊相という明確な相転移現象が観察された。
    • これらの相転移のメカニズムを分析し,重要な要因を特定した。
    • 視覚トークンの負荷と視覚密度を統合したスケーリング則が,様々なVLMで普遍的に成立することが示された。

    Link: https://arxiv.org/abs/2602.02539

  • ウェアラブルデバイスを用いた人活動認識のための自動拡張対照学習 [cs.LG, cs.AI, eess.SP]目的:ウェアラブルデバイスからの低意味セマンティックなセンサー信号を用いた人活動認識における,自動拡張対照学習手法の開発
    • 人活動認識は,健康管理や生活支援など,様々な応用分野において重要である。ウェアラブルデバイスとの組み合わせで,より実用的なシステム構築が期待される。
    • 人活動認識におけるセンサー信号は低意味セマンティックであり,効果的なデータ拡張が難しく,汎用的なモデルの構築が課題となっている。
    • 本研究は,データ拡張の負担を軽減し,ノイズの影響を受けにくいロバストな特徴表現学習を実現することを目指す。
    • 提案手法AutoCLは,自動的に最適なデータ拡張戦略を学習し,人活動認識の精度を大幅に向上させることを実証した。
    • AutoCLは,Siameseネットワークと生成器を組み合わせることで,特徴空間における表現学習を効果的に行う。
    • 停止勾配設計と相関低減戦略により,エンコーダの表現学習能力が向上し,より高精度な認識が可能となった。

    Link: https://arxiv.org/abs/2602.02542

  • 超長期的シーケンスモデル編集に向けて [cs.LG, cs.AI]目的:大規模言語モデルにおけるファクトの誤りや陳腐化の緩和
    • LLMの性能向上には,知識の正確性と最新性が不可欠であるため。
    • 既存の編集手法では,長期間にわたる編集においてモデルの崩壊が頻発する。
    • 編集時に重みノルムの爆発的な増加を抑制し,モデルの安定性を高める。
    • 提案手法Norm-Anchor Scaling (NAS)は,既存手法の崩壊点を4倍以上遅延させる。
    • NASは編集性能を平均72.2%相対的に向上させ,計算コストの増加は軽微である。
    • NASは既存アルゴリズムへの組み込みが容易であり,追加コードは1行で済む。

    Link: https://arxiv.org/abs/2602.02543

  • 拡散言語モデルにおける適応キャッシュのための特異プロキシ [cs.LG, cs.AI]目的:拡散言語モデルにおけるキャッシュ効率の改善
    • 拡散言語モデルは柔軟な構造を持つが,計算コストが高いという課題がある。
    • 従来のKVキャッシュは利用できず,隠れ状態の再計算が必要となるため,効率が悪い。
    • 隠れ状態の更新を最適化し,計算コストを削減することで,効率的なDLMを実現する。
    • 特異プロキシを用いて更新が必要なトークンを効率的に特定し,計算量を削減した。
    • 層の安定性に応じて更新数を調整することで,生成品質を維持しつつ効率を高めた。
    • SPA-Cacheにより,従来のデコーディング速度の最大8倍,既存のキャッシュベースラインの2-4倍の高速化を達成した。

    Link: https://arxiv.org/abs/2602.02544

  • アライメントを超えて:多様体再構成による方策最適化を通じた推論能力の拡張 [cs.LG, cs.AI]目的:大規模言語モデルの推論能力拡張
    • 大規模言語モデルの性能向上は重要であり,特に複雑な推論能力の獲得が課題となっている。
    • 強化学習による能力向上は,既存の潜在能力のアライメントに過ぎない可能性が指摘されている。
    • 学習モデルの潜在空間を幾何学的に介入することで,推論能力の限界を拡張することを目指す。
    • 提案手法MRPOは,既存の手法(GRPOを含む)を凌駕し,数学的タスクにおいて最先端の性能を達成した。
    • MRPOは,方策最適化の初期化をバイアス多様体の零空間に射出し,高次元の推論軌跡の発見を促進する。
    • 40億パラメータのモデルで,320億パラメータのモデル(Qwen3-32B)を超える性能を示し,能力の限界を拡張した。

    Link: https://arxiv.org/abs/2602.02545

  • D$^2$Quant:LLM向けの高精度低ビット・ポストトレーニング重み量子化 [cs.LG, cs.AI]目的:LLMにおける低ビット重み量子化による計算・メモリコスト削減
    • LLMは高性能だが,計算資源やメモリ消費量が課題であり,利用場面が限られている。
    • 低ビット量子化はメモリ削減に有効だが,精度低下が深刻な問題となっている。
    • D$^2$Quantは,重みと活性化の両面から量子化精度を向上させることで,この課題を解決する。
    • D$^2$Quantは,ダウンプロジェクション行列に特化した二段階スケーラ量子化器(DSQ)を導入し,精度を向上させた。
    • 活性化のずれを抑制するため,LayerNorm内に平均シフト補正(DAC)を組み込んだ。
    • 様々なLLMファミリーと評価指標において,D$^2$Quantが優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2602.02546

  • naPINN: 汚染された測定から物理現象を復元するためのノイズ適応型物理情報ニューラルネットワーク [cs.LG, cs.AI]目的:汚染された測定からの物理解のロバストな復元
    • 物理現象のモデル化は科学技術の進歩に不可欠であり,データの活用が重要である。
    • 従来の物理情報ニューラルネットワークは,複雑なノイズや外れ値に弱く,精度が低下する。
    • ノイズ分布の事前知識なしに,外れ値を分離し,正確な物理現象を復元することを目指す。
    • naPINNは,予測残差の潜在分布を学習することで,ノイズの影響を効果的に軽減する。
    • 学習可能な信頼性ゲートにより,高エネルギーを示す外れ値を適応的にフィルタリングし,不要なデータ除去を防ぐ。
    • 様々な偏微分方程式のベンチマークテストにおいて,既存のロバストPINNよりも優れた性能を示す。

    Link: https://arxiv.org/abs/2602.02547

  • ToolTok: GUIエージェントのための効率的かつ汎用的なツールトークン化 [cs.LG, cs.AI, cs.CV, cs.MA]目的:GUIエージェントの効率化と汎用性の向上
    • GUI自動化は,ソフトウェア利用の効率化やアクセシビリティ向上に不可欠である。
    • 従来の座標ベースの手法では,解像度やアスペクト比の変化に弱く,汎用性に課題がある。
    • 本研究は,データ不足下でも効率的に学習可能なツールトークン化により,この問題を解決する。
    • ToolTokは,人間が操作する際の習慣に合わせたツールを定義し,学習可能なトークン埋め込みを用いる。
    • 意味的アンカー機構により,少ない教師データでも効果的な埋め込み学習を実現した。
    • 複数のベンチマークにおいて,同規模のモデルよりも優れた性能を示し,大規模モデルにも匹敵する。

    Link: https://arxiv.org/abs/2602.02548

  • HyPAC:PAC誤差保証付き,費用対効果の高いLLM-人間ハイブリッドアノテーション [cs.LG, cs.AI]目的:費用対効果の高いアノテーションソースへの入力ルーティング
    • データアノテーションは,機械学習モデルの性能を左右する重要なプロセスである。
    • アノテーションのコストと品質は相反する傾向があり,効率的なバランスが課題である。
    • アノテーションコストを削減しつつ,誤差を厳密に制御することを目指す。
    • HyPACは,重要度サンプリングと信頼区間を用いて決定閾値を調整する。
    • 入力の不確実性に基づいて領域を分割し,適切なアノテーションソースにルーティングする。
    • 実験結果から,アノテーションコストを78.51%削減し,誤差を効果的に制御できることが示された。

    Link: https://arxiv.org/abs/2602.02550

  • EEO-TFV:Web規模時系列予測と画像解析のための脱出探索最適化手法 [cs.LG, cs.AI, cs.CV]目的:Web規模データにおける時系列予測と画像解析のための最適化手法
    • Webデータ分析はデータ量が膨大であり,複雑なパターンや多種多様な特徴を捉えることが重要である。
    • Transformerモデルは長系列予測で誤差が累積しやすく,分布外データに対して脆弱であるという課題がある。
    • 高次元パラメータ空間におけるサドルポイントへの陥り込みを防ぎ,汎化性能と安定性を向上させることを目指す。
    • 提案手法EEO-TFVは,11の時系列予測ベンチマークデータセットとSynapse医療画像セグメンテーションタスクにおいて,最先端モデルと同等の性能を達成した。
    • 特に,Webデータシナリオにおける汎化性能と安定性が向上し,クロス タスク汎用性の可能性を示した。
    • 軽量なTransformerアーキテクチャとEEO最適化手法により,効率的な学習を実現している。

    Link: https://arxiv.org/abs/2602.02551

  • BatCoder: バック翻訳による自己教師あり双方向コード-ドキュメント学習 [cs.LG, cs.AI, cs.SE]目的:コードとドキュメントの生成の同時最適化
    • コード関連タスクのLLM学習には高品質なコード-ドキュメントペアが不可欠である。
    • 高品質なペアの作成コストが高い上に,ニッチな言語では入手が困難である。
    • コードのみを用いて学習し,利用可能な学習データを大幅に増加させる。
    • BatCoderは,HumanEvalで83.5%,MBPPで81.0%のpass@1を達成し,既存のオープンソースモデルを上回った。
    • バック翻訳戦略により,コードからドキュメントを生成し,それを元にコードを再構築する。
    • 元のコードと再構築されたコードの間の意味的類似度が,強化学習の報酬として機能する。

    Link: https://arxiv.org/abs/2602.02554

  • パラメータ空間ノイズを用いた探索学習:検証可能な報酬による強化学習のためのパラメータ空間ノイズの詳細な調査 [cs.LG, cs.AI]目的:強化学習におけるパラメータ空間ノイズの有効性
    • 大規模言語モデルの推論能力向上は重要であり,そのための強化学習手法が注目されている。
    • 従来の強化学習は,既存の解を再利用する傾向があり,新たな戦略の発見が困難な場合がある。
    • パラメータ空間ノイズを用いることで,より効率的な探索を実現し,長期的な思考の一貫性を保つことを目指す。
    • 提案手法PSN-RLVRは,パラメータを摂動することで,より一貫性のある探索を可能にし,長期的な思考の連鎖を維持する。
    • PSN-GRPOは,複数の数学的推論ベンチマークにおいて,大規模なサンプリング予算下でより高いpass-at-kを達成し,既存の探索型RLVR手法を上回る。
    • 軽量な代替手段を用いてリアルタイムで適応的なノイズスケジュールを制御することで,計算効率を高めている。

    Link: https://arxiv.org/abs/2602.02555

  • 経験検索を超えて:凍結されたLLMのための有用性を最適化した構造化経験の生成学習 [cs.LG, cs.AI]目的:凍結されたLLMを誘導するための構造化されたインスタンス固有の経験エントリの生成
    • LLMは大規模な知識を持つが,静的であり,同じ誤りを繰り返す可能性がある。
    • 従来の経験再利用は類似性に基づく検索に依存し,ノイズや遅延が生じやすい。
    • ノイズを減らし,遅延を回避し,LLMの推論能力を向上させること。
    • SEAMは,軽量なプラグインであり,LLMのパラメータを更新せずに,有用性を最適化した構造化経験を生成できる。
    • 数学的推論ベンチマークにおいて,SEAMは様々なLLMで一貫して精度向上を示した。
    • 展開後も,ロギングされた成功例を用いた教師ありファインチューニングによってSEAMの性能をさらに改善できる。

    Link: https://arxiv.org/abs/2602.02556

  • アライメントの呪い:全能モデルにおけるクロスモーダル脱獄転移 [cs.LG, cs.AI, cs.SD]目的:テキストからオーディオへの脱獄攻撃のクロスモーダル転移
    • マルチモーダル理解の進展に伴い,全能モデルの安全性評価が重要になっている。
    • テキストだけでなく,音声による脱獄攻撃も存在するが,両者の関連性は未解明である。
    • アライメントが強すぎると,テキストの脆弱性がオーディオに波及する現象を解決する。
    • テキストから転移したオーディオ脱獄攻撃は,既存のオーディオ脱獄攻撃と同等か,それ以上の性能を示す。
    • この結果は,今後のオーディオ安全性評価における強力なベースラインを確立する。
    • 転移された攻撃は,オーディオのみへのアクセス制限下でも有効であり,モデル間の転移性も高い。

    Link: https://arxiv.org/abs/2602.02557

  • PA-MIL:言語プロンプトと表現型-遺伝子型関係に基づく表現型を意識した多インスタンス学習 [cs.LG, cs.AI, q-bio.QM]目的:病理画像からの癌関連表現型の特定と,それを用いた癌サブタイプ分類
    • 病理画像解析における深層学習は発展しているが,説明可能性が課題となっている。
    • 既存手法は事後的な重要領域の特定に留まり,信頼性の高い説明を提供できていない。
    • 表現型と遺伝子型の関係を考慮し,解釈性の高い癌サブタイプ分類を目指す。
    • PA-MILは,既存の多インスタンス学習手法と同等の性能を達成しつつ,解釈性を向上させている。
    • 表現型の重要度を根拠として,線形分類器を用いることで,最先端手法に匹敵する結果が得られている。
    • 表現型-遺伝子型関係や,コホートレベル,症例レベルでの解釈可能性分析により,PA-MILの信頼性と説明責任が示されている。

    Link: https://arxiv.org/abs/2602.02558

  • 経験に基づくマルチエージェントシステムは,トレーニングフリーの文脈認識地球観測者である [cs.AI, cs.CV, cs.LG, cs.MA]目的:地球観測タスクにおけるマルチエージェントシステムの自己進化メカニズム
    • 地球観測は,気候変動や災害監視など,人類の重要な課題解決に不可欠である。
    • 複雑な地球観測ワークフローでは,ツール連携や制約条件の遵守が困難である。
    • ツールレベルの専門知識を相互作用を通じて獲得し,ワークフローの信頼性を高める。
    • GeoEvolverは,パラメータ更新なしに,構造化された相互作用を通して地球観測の専門知識を獲得する。
    • クエリを独立したサブゴールに分解し,サブゴールレベルでツールパラメータ構成を探索する。
    • 成功パターンと失敗原因を進化するメモリバンクに集約し,今後のクエリに活用する。

    Link: https://arxiv.org/abs/2602.02559