arXiv雑要約

AI - 2026/03/17 公開

  • EventGPT:GPTベースのフレームワークを用いたチーム連携における選手の影響力計測 [cs.AI]目的:チーム連携における選手の貢献度を評価する手法
    • サッカークラブの成功に選手の移籍が重要であるため,その影響力を正確に評価する必要がある。
    • 従来の評価方法は静的な統計や事後的なモデルに依存しており,戦術環境の変化に対応できない。
    • 新しいチームや戦術構造における選手の行動変化と価値を予測するモデルを開発する。
    • EventGPTは,試合の流れを離散的なトークン列として扱い,次のイベントの種類,位置,タイミング,残余On-Ball Valueを予測する。
    • 学習された選手埋め込みを新しいイベントシーケンスに代入することで,異なるチームや戦術における選手の行動と価値の変化をシミュレーションできる。
    • EventGPTは,プレミアリーグのデータを用いた評価で,既存のシーケンスベースラインを上回る予測精度と空間精度を示した。

    Link: https://arxiv.org/abs/2512.17266

  • 単調性の代償:クレジットPDのための単調制約勾配ブースティングのマルチデータセットベンチマーク [cs.LG, q-fin.RM, q-fin.ST]目的:クレジットデフォルト確率に対する単調制約勾配ブースティングの性能評価
    • 金融機関における機械学習利用において,予測精度と解釈可能性の両立が重要である。
    • 単調制約はモデルの挙動を専門知識と整合させるが,その性能への影響は不明確である。
    • 単調制約による性能低下(代償)を定量的に評価し,実用的な指針を提供する。
    • 単調制約を課すことによるAUCの低下(PoM)は,データセットの規模によって大きく異なる。
    • 大規模データセットではPoMはほぼゼロに近い場合が多く,実質的なコストは小さい。
    • 小規模データセットで制約の適用範囲が広い場合,PoMは2~3%程度となる場合がある。

    Link: https://arxiv.org/abs/2512.17945

  • 学習不要な4D LiDARパノラマセグメンテーションのためのグローバル幾何学的関連付け [cs.CV, cs.AI]目的:4D LiDARパノラマセグメンテーションにおけるグローバル幾何学的関連付け手法
    • 自動運転やロボティクスにおいて,周囲環境の正確な理解は不可欠である。LiDARは3次元点群を取得し,その理解に役立つ。
    • 従来のLiDARセグメンテーションは,大規模な点群を処理する計算コストが高い。また,点群の幾何学的情報を十分に活用できていない。
    • 本研究では,学習を必要とせず,点群の幾何学的情報を活用することで,効率的かつ高精度なパノラマセグメンテーションを実現する。
    • 提案手法Geo-4Dは,空間的・時間的推論を統合し,長期にわたるLiDAR認識を可能にする。
    • インスタンスレベル点群間の最適変換を推定するグローバル幾何学的関連付け戦略により,一貫性のあるインスタンス対応付けを実現。
    • SemanticKITTIとnuScenesにおける実験の結果,既存手法を上回る性能を示し,学習データや追加点群入力も不要である。

    Link: https://arxiv.org/abs/2512.18991

  • 失敗から学ぶ:検証可能なマルチモーダル推論のためのコントラストアンカーリフレクション [cs.LG, cs.AI]目的:検証可能なマルチモーダル推論における失敗事例の活用
    • マルチモーダル推論は,画像とテキストなどの多様な情報を統合し,高度な判断を下す上で重要である。
    • 強化学習において,失敗事例は有用な情報源となり得るが,十分に活用されていないという課題がある。
    • 失敗事例から学習信号を抽出し,推論の精度向上と学習の安定化を目指す。
    • CARE(コントラストアンカーリフレクション)は,失敗事例を中心とした学習フレームワークであり,エラーを supervision として活用する。
    • Qwen2.5-VL-7Bを用いた実験で,既存手法GRPOと比較して,マクロ平均精度が4.6ポイント向上した。
    • Qwen3-VL-8Bでは,MathVistaやMMMU-Proにおいて,最先端レベルの結果を達成した。

    Link: https://arxiv.org/abs/2512.19554

  • 理由に基づいた多タスク学習:Reason2Decide [cs.AI, cs.CL]目的:臨床意思決定支援における予測精度と説明の整合性向上
    • 大規模言語モデルの臨床応用は,正確な予測と根拠に基づいた説明が不可欠である。
    • 既存手法では,予測と説明のずれが生じる傾向があり,信頼性に課題がある。
    • 自己合理化のバイアス軽減とタスク分離を通じて,説明可能な意思決定支援を目指す。
    • Reason2Decideは,複数の医療データセットにおいて,予測精度(F1値)と説明の忠実度(BERTScore,BLEU,LLM-as-a-Judge)で既存手法を上回る結果を示した。
    • トリアージデータセットでは,LLM生成,看護師作成,看護師修正の各理由ソースに対して頑健性を示した。
    • Stage-1でLLM生成理由のみを使用しても性能が向上したことから,人間によるアノテーションへの依存度を低減できる可能性が示唆された。

    Link: https://arxiv.org/abs/2512.20074

  • エルミート関数による敵対的学習を用いたニューラル確率微分方程式 (HGAN-SDEs) [cs.DC, cs.LG]目的:ニューラル確率微分方程式の学習手法
    • 物理学から金融まで幅広い分野で連続時間確率過程のモデリングが重要視されている。
    • SDEが誘導する複雑な経路分布を学習する識別器の設計が課題となっていた。
    • ニューラルエルミート関数に基づく効率的かつ安定な識別器を開発し,学習を改善する。
    • HGAN-SDEsは,ニューラルエルミート関数を利用した新しいGANベースのフレームワークである。
    • エルミート関数は経路レベルのダイナミクスを近似し,計算コストを削減し,学習の安定性を向上させる。
    • 合成データおよび実世界のシステムに対する実験により,HGAN-SDEsは既存モデルよりも優れた性能を示すことが示された。

    Link: https://arxiv.org/abs/2512.20272

  • SoliReward:ビデオ生成報酬モデルにおける報酬ハッキングとアノテーションノイズへの脆弱性軽減 [eess.SY, cs.SY, cs.LG, cs.CV]目的:ビデオ生成報酬モデルの訓練のための体系的な枠組み
    • ビデオ生成モデルと人間の嗜好の一致は重要であり,報酬モデルはその鍵となる。
    • 既存のデータ収集法はノイズが多く,報酬モデルの設計は未開拓な点が多い。
    • 報酬ハッキングへの脆弱性を軽減し,より堅牢な報酬モデルを構築すること。
    • SoliRewardは,単一アイテムのバイナリ注釈による高品質なデータ収集と,クロスプロンプトペアリング戦略を用いる。
    • 階層型漸進的クエリ注意機構を導入し,特徴量集約を強化することで,モデルの性能を向上させた。
    • BT損失を修正し,win-tieシナリオに対応することで,報酬分布の正規化を実現し,過剰なスコアリングを抑制した。

    Link: https://arxiv.org/abs/2512.22170

  • 二次的注意シンクの存在と挙動について [cs.LG, cs.AI, cs.CL]目的:二次的注意シンクの存在とその特性の解明
    • 大規模言語モデルの性能向上には,注意機構の理解が不可欠である。
    • 従来の注意シンク研究では,BOSトークン類似のシンクに焦点が当てられていた。
    • 本研究は,中間層で発生し,持続時間や影響が異なる二次的注意シンクを明らかにすることを目指す。
    • 二次的注意シンクは,特定の中間層MLPモジュールによって形成されることが示された。
    • これらのシンクのベクトルノルムが,シンクスコアおよび持続期間を決定し,注意機構への影響を変化させる。
    • モデル規模が大きくなるにつれて,シンクの発生位置と持続時間がより決定的に現れることが観察された。

    Link: https://arxiv.org/abs/2512.22213

  • 一人称視点動画からの世界空間における手物体インタラクション推定:EgoGrasp [cs.CV, cs.AI, cs.GR]目的:世界空間における手物体インタラクションの再構成
    • 具現化された知能を実現する上で,手物体インタラクションの正確な推定は不可欠である。
    • 既存手法は局所座標系や単一フレームに限定され,時間的なダイナミクスを捉えきれていない。
    • 多様な物体に対応し,計算コストを抑えつつ,遮蔽に強いロバストな推定を目指す。
    • EgoGraspは,既存手法を上回る性能で世界空間における手物体インタラクションの再構成を実現した。
    • 視覚基盤モデルを活用した前処理パイプラインと,拡散モデルによる手と物体の姿勢推定を組み合わせることで,高い精度と安定性を実現した。
    • 複数物体やオープンボキャブラリに対応し,遮蔽に対してもロバストな推定が可能である。

    Link: https://arxiv.org/abs/2601.01050

  • テキスト画像生成のためのエージェント補正器 [cs.CV, cs.AI]目的:テキスト画像生成における歪みの補正
    • 近年,テキストから画像を生成する技術が発展したが,生成画像の品質向上が課題である。
    • 既存手法では,修正にコストがかかるか,局所的な修正の信頼性に課題がある。
    • 人間の知覚・推論・行動ループを模倣し,歪みを正確に特定・修正する手法を開発する。
    • 提案手法「Agentic Retoucher」は,歪みの局所化,原因の推論,修正計画において優れた性能を示す。
    • 新しいデータセット「GenBlemish-27K」を構築し,歪みの定量的な評価を可能にした。
    • 既存の最先端手法と比較して,知覚品質,歪みの特定精度,ユーザーの好みに合致する修正において優れている。

    Link: https://arxiv.org/abs/2601.02046

  • WebCoderBench:包括的かつ解釈可能な評価指標によるウェブアプリケーション生成のベンチマーク [cs.CL, cs.SE, cs.AI]目的:ウェブアプリケーション生成のためのベンチマーク
    • ウェブアプリケーションは,LLMの能力を示す重要な領域であり,商業的価値も高い。
    • 実用的な要件,汎用的な評価指標,解釈可能な結果が求められるが,既存のベンチマークは不十分である。
    • 現実世界のユーザー要件に基づく,汎用性と解釈可能性を備えた評価ベンチマークを構築する。
    • WebCoderBenchは,1,572件の現実世界のユーザー要件を含む,初のベンチマークである。
    • 24の評価指標を用い,ルールベースとLLMを用いた評価を組み合わせることで,客観的な評価を実現した。
    • 実験の結果,どのLLMも全ての評価指標で優位性を示さず,モデル改善の余地があることが示唆された。

    Link: https://arxiv.org/abs/2601.02430

  • マルチセッションコラボレーション:長期的な協調を改善するための記憶を用いたユーザ嗜好の学習 [cs.AI]目的:ユーザ嗜好の学習と長期的な協調の質向上
    • 対話エージェントの普及に伴い,ユーザとの良好な関係構築が重要である
    • 従来のシステムでは,複数セッションにわたるユーザ嗜好の学習が困難であった
    • 複数セッションでのユーザ嗜好学習を可能にし,協調の質を改善すること
    • 提案手法は記憶機構を備えることで,時間経過とともに協調が改善されることを示した
    • タスク成功率の向上,効率的な対話,ユーザ負担の軽減が確認された
    • 人間ユーザ実験により,記憶機構が現実世界でのユーザ体験を向上させることが示された

    Link: https://arxiv.org/abs/2601.02702

  • エントロピーからエピプレキシティへ:計算資源に制約のある知能のための情報再考 [cs.CL, cs.LG, stat.ML]目的:計算資源に制約のある観測者にとっての学習可能な情報の定量化
    • 情報理論は,AIや機械学習の基盤であり,効率的な学習方法の探求に不可欠である。
    • 従来のシャノン情報量やコルモゴロフ複雑度は,計算資源の制約を考慮せず,実用的な情報評価が困難である。
    • 計算資源に制約のある観測者にとっての「有用な情報」を定量化し,データ価値の評価基準を確立することを目指す。
    • 本研究では,エピプレキシティという新しい指標を導入し,決定論的な変換によって情報が増加しうることを示した。
    • エピプレキシティは,データの順序依存性や,尤度モデリングの複雑性生成能力を捉えることが可能である。
    • エピプレキシティの推定手法を提示し,データソース間の差異や,汎化性能との相関,データ介入の効果を検証した。

    Link: https://arxiv.org/abs/2601.03220

  • LAMB:コーシー・シュワルツのダイバージェンスを用いたモダリティギャップブリッジングによるLLMベースの音声キャプション生成 [cs.SD, cs.AI]目的:音声の内容を意味的に記述すること
    • 音声処理技術は,音声データの理解と活用において不可欠であり,様々な応用分野で重要性が増している。
    • 従来の音声特徴量をLLMの埋め込み空間へ単純に投影する手法では,モダリティ間の整合性が不十分になり,性能が制限される。
    • 音声とテキスト間の整合性を高め,LLMの推論能力を最大限に活用することで,高精度な音声キャプション生成を目指す。
    • 提案手法LAMBは,音声埋め込みとLLMテキスト埋め込み空間間のモダリティギャップを効果的に埋めるクロスモーダルアライナーを導入する。
    • クロスモーダルアライナーは,コーシー・シュワルツのダイバージェンスを最小化しつつ,相互情報量を最大化することで,音声とテキストの緊密な整合性を実現する。
    • 実験結果から,LAMBがLLMデコーダの推論能力を強化し,AudioCapsデータセットにおいて最先端の性能を達成することが確認された。

    Link: https://arxiv.org/abs/2601.04658

  • アクティブ・ディスカバラーフレームワーク:LaTeX数式生成を通じた自律的な物理推論へ [cs.LG]目的:物理現象の自律的な推論
    • 現代AIは統計的補間には優れるが,理論物理学や数学に必要な厳密な推論は苦手である。
    • 浮動小数点数表現とトークン化が原因で,スケール拡大時に精度が著しく低下する「Float Wall」問題が存在する。
    • LaTeX数式生成をボトルネックとして導入し,数値的誤りを構造的に妥当な表現で抑制することで,幻覚のないAIを目指す。
    • 本フレームワークは,従来のモデルが破綻する宇宙スケールにおいても,重力定数などの普遍定数を高精度で推定できることを示した。
    • NumberNetという新しいアーキテクチャにより,浮動小数点数の精度損失をなくし,宇宙スケールまでの外挿を実現した。
    • ハミルトニアンに基づくエネルギー降下や対称性群化層を実装することで,物理法則を尊重したモデルとなっている。

    Link: https://arxiv.org/abs/2601.06117

  • GeoMotionGPT:大規模言語モデルによる幾何学的整合性のある動作理解 [cs.CL, cs.CL, cs.CV, cs.AI]目的:動作理解と動作-言語推論のための大規模言語モデルの活用
    • 人間の動作理解は,ロボット工学やコンピュータグラフィックスなど,様々な分野で重要である。
    • 既存手法では,動作の量子化と意味埋め込み学習が分離されており,動作空間の幾何学的構造が十分に反映されていない。
    • 動作空間と埋め込み空間の幾何学的整合性を明示的に高め,より高度な動作推論能力を実現すること。
    • 本研究では,動作コードブックとLLM埋め込み空間の両方に対して直交性を強制する新しいフレームワークを提案した。
    • 提案手法は,HumanML3DおよびKIT-MLにおいて,最良のベースラインと比較してそれぞれ22.4%,14.4%の集計平均向上を示した。
    • トークナイザー,投影,正則化の設計が有効であることが,消去実験によって確認された。

    Link: https://arxiv.org/abs/2601.07632

  • 未来を想像して計画: ワールドモデルを用いた適応的先読みによるエージェント学習 [cs.CL, cs.AI, cs.LG]目的:ワールドモデルを用いたエージェントの学習フレームワーク
    • 現実環境にアクセスすることなく,将来の状態を予測し行動計画を立てる能力は,ロボティクスやAI研究において重要である。
    • 既存手法は,先読みのステップ数や範囲が限定的であり,複雑なタスクに対応できない場合がある。
    • タスクや段階に応じて先読みの範囲を適応的に変化させることで,複雑なタスク計画の能力向上を目指す。
    • 提案手法Imagine-then-Plan (ITP)は,学習済みワールドモデルとエージェントのポリシーモデルを相互作用させ,多段階の「想像された」軌跡を生成する。
    • ITPは,先読みの範囲を適応的に調整するメカニズムを備えており,最終目標とタスクの進捗状況のトレードオフを行う。
    • 実験結果から,ITPは既存手法を大幅に上回り,エージェントの推論能力を向上させることが示された。

    Link: https://arxiv.org/abs/2601.08955

  • RAG-3DSG:再撮影誘導検索拡張生成による3Dシーングラフの強化 [cs.HC, cs.CV, cs.AI, cs.RO]目的:3Dシーングラフの信頼性向上
    • ロボティクスにおける環境理解の精度向上が不可欠であり,構造化された意味表現が重要である。
    • 既存手法では,オクルージョンや視点制限により意味的不整合が生じやすいという課題がある。
    • 再撮影による不確実性推定を用いて,意味的なノイズを軽減し,より信頼性の高いシーン表現を実現する。
    • RAG-3DSGは,再撮影誘導による不確実性推定を導入し,オブジェクトレベルの検索拡張生成を行う。
    • 低不確実性オブジェクトを意味アンカーとして活用し,信頼性の高い文脈知識を検索することで,不確実なオブジェクトの予測を修正する。
    • 3つのベンチマークと実世界のロボット実験において,高い再現率と適合率を達成し,優れた性能を示した。

    Link: https://arxiv.org/abs/2601.10168

  • 非線形ダイナミクスの学習のための安定化可能微分モダール合成 [cs.SD, cs.LG, eess.AS, physics.comp-ph]目的:非線形ダイナミクスの学習
    • 物理モデリング合成は長年の課題であり,現実世界の複雑な現象を理解する上で重要である。
    • 非線形問題への拡張は困難であり,安定した数値解法が求められている。
    • スカラー補助変数法とニューラル常微分方程式を組み合わせ,安定で学習可能なモデルを構築する。
    • スカラー補助変数法とニューラル常微分方程式を組み合わせることで,安定した微分モデルが実現可能となった。
    • このモデルは,系の物理パラメータを学習後も容易にアクセスできるようにする。
    • 弦の非線形横振動の合成データを用いて,モデルが非線形ダイナミクスを再現できることを示した。

    Link: https://arxiv.org/abs/2601.10453

  • 研究の限界を生成するためのマルチエージェントLLM [cs.RO, cs.CL, cs.AI]目的:研究の限界の生成
    • 科学研究の透明性と厳密性を確保する上で,限界の特定と記述は不可欠である。
    • 既存のLLMは,限界の記述において表面的な内容に留まる,または一般的な記述にとどまる傾向がある。
    • より実質的な研究の限界を特定し,記述することを目的とする。
    • 提案手法は,OpenReviewのコメントと著者自身が記述した限界を統合することで,より強固な根拠を提供する。
    • 引用文献や被引用文献を分析することで,より広範な文脈における弱点を捉えることが可能となった。
    • 実験の結果,RAG+マルチエージェントGPT-4oの構成は,ゼロショットベースラインと比較して+15.51%のカバー率向上を達成した。

    Link: https://arxiv.org/abs/2601.11578

  • 部分論点関係を用いた抽象的議論 [cs.AI]目的:部分論点関係の抽象的議論への影響
    • 議論の構造は,説得力や妥当性を高める上で重要である。特に,論点間の依存関係は議論の理解を深める。
    • 従来の抽象的議論枠組みでは,議論の内部構造が無視されており,部分論点関係のような構造的依存性を表現できない。
    • 本研究は,部分論点関係を明示的に導入し,議論の受容可能性への影響を分析することで,この問題を解決する。
    • 部分論点関係と攻撃の関係を分析した結果,両者の相互作用が議論の妥当性に影響を与えることが明らかになった。
    • 本枠組みは,構造的情報を抽象化し,抽象的議論における部分論点の役割を明確にする。
    • 本研究は,部分論点関係を考慮した議論評価の新たな視点を提供する。

    Link: https://arxiv.org/abs/2601.12038

  • 外部証拠と偽造特徴を用いたマルチモーダルな噂検知 [cs.LG]目的:噂の検知
    • ソーシャルメディアは情報伝達の主要な手段であり,誤情報の拡散は社会に深刻な影響を及ぼす。
    • 画像とテキストの組み合わせによる噂は,内容の一貫性を見抜くのが難しく,検知が困難である。
    • 外部証拠や偽造特徴を活用することで,より精度の高い噂の検知を目指す。
    • 提案モデルは,WeiboとTwitterのデータセットにおいて,既存の主流な手法を上回る精度を示した。
    • 画像とテキスト間のセマンティックな不一致の検出を,二重コントラスティブ学習モジュールによって改善した。
    • ゲート付き適応的特徴スケーリング融合メカニズムにより,マルチモーダルな特徴の融合を動的に調整し,冗長性を低減した。

    Link: https://arxiv.org/abs/2601.14954

  • 大規模モデルにおける推論が,訓練後に分解可能となる理由 [cs.LG, cs.AI]目的:大規模モデルの推論における構造的分解可能性
    • AIモデルの規模拡大に伴い,推論コストとシステム複雑性が課題となっている。
    • 既存の手法では,モデル内部の学習による構造を無視し,推論システムを単一の演算子として扱っている。
    • 学習後のモデル構造に着目し,推論を効率化・並列化する手法を提案する。
    • 訓練後のモデルでは,勾配更新が局所的であり,多くのパラメータ依存性は初期分布と区別がつかないことが示された。
    • 統計的基準と構造的アニーリングにより,不要な依存関係を削除し,安定した独立した部分構造を明らかにした。
    • モデルの機能やインターフェースを変更することなく,構造化された並列推論が可能となる。

    Link: https://arxiv.org/abs/2601.15871

  • LLMにおけるトークンレベルの因果的帰属:ヤコビアン・スコープ [cs.CL, cs.AI]目的:LLMの予測に影響を与える過去のトークンの特定
    • LLMは自然言語処理の発展に不可欠であり,その解釈可能性は重要課題である。
    • LLMの多層構造とアテンションヘッドの増加により,予測の根拠解明が困難である。
    • LLMの予測に対するトークンレベルの因果関係を定量的に評価する手法の確立。
    • ヤコビアン・スコープは,勾配に基づいたトークンレベルの因果帰属手法を提供する。
    • この手法は,特定のロジット,予測分布全体,モデルの不確実性など,様々な予測要素への入力トークンの影響を定量化する。
    • 事例研究により,暗黙の政治的偏り,翻訳戦略,文脈学習メカニズムの解明に貢献する。

    Link: https://arxiv.org/abs/2601.16407

  • VibeVoice-ASR技術報告 [cs.CL, cs.SD, cs.AI, eess.AS]目的:長尺音声における文脈の断片化と複数話者の複雑さへの対処
    • 近年の音声認識技術の進歩にも関わらず,長尺音声の理解は依然として課題である。
    • 従来のパイプライン処理では,長尺音声の分割が必要であり,処理効率が低下する。
    • 長尺音声の単一パス処理,多言語対応,コードスイッチングへの対応を実現する。
    • VibeVoice-ASRは,最長60分間の音声を単一パスで処理可能である。
    • 自動音声認識,話者分離,タイムスタンプを統合したエンドツーエンドの生成タスクを実現した。
    • プロンプトベースの文脈注入機構により,特定のドメインにおける精度が向上する。

    Link: https://arxiv.org/abs/2601.18184

  • NaVIDA: 逆ダイナミクス増強による視覚言語ナビゲーション [cs.CV, cs.AI]目的:視覚言語ナビゲーションにおける逆ダイナミクス増強の有効性
    • 視覚言語ナビゲーションは,ロボットの自律的な行動に不可欠な技術である。
    • 従来のナビゲーション手法は,行動と視覚変化の関連性を十分に学習できていない。
    • 行動に基づく視覚変化のモデル化により,より安定したナビゲーションを目指す。
    • NaVIDAは,逆ダイナミクスによる教師あり学習を通じて,視覚変化を予測する能力を獲得する。
    • HPACを用いることで,より長期間の計画を可能にし,ナビゲーションの安定性を向上させる。
    • 実験により,NaVIDAが既存手法よりも優れた性能を発揮し,少ないパラメータで同等以上の結果を達成することが示された。

    Link: https://arxiv.org/abs/2601.18188

  • 乳幼児向け推論タスク生成ベンチマーク:BabyReasoningBench [cs.CL, cs.AI]目的:乳幼児言語モデルの評価のための発達心理学に基づいた推論タスク
    • 言語モデルの推論能力評価は,その応用範囲拡大に不可欠である。
    • 既存の評価基準は成人向けであり,乳幼児モデルの能力を適切に評価できない。
    • 乳幼児の学習データに基づいたモデルの推論能力を評価する基準を確立する。
    • BabyReasoningBenchは,発達心理学の古典的なパラダイムに基づいた19の推論タスクから構成される。
    • GPT-2ベースの乳幼児言語モデルは,全体的に低い性能を示したが,タスクの種類によって差が見られた。
    • 因果推論や物理的推論タスクでは規模拡大により性能が向上したが,信念帰属や文脈依存性の高いタスクは依然として困難であった。

    Link: https://arxiv.org/abs/2601.18933

  • コントラスト学習の幾何学的力学:アラインメントポテンシャル,エントロピー的散布,およびモダリティギャップ [cs.LG]目的:コントラスト学習における集団幾何学と,マルチモーダル学習がモダリティギャップを保持する理由の解明
    • 機械学習モデルの性能向上には,表現学習の理論的理解が不可欠である。
    • InfoNCEによるコントラスト学習は,アラインメントと均一性が重視されるが,その幾何学的構造は未解明である。
    • 確率測度の変形を通して,マルチモーダル学習におけるモダリティギャップの構造的な原因を特定すること。
    • 大規模バッチ条件下において,確率的InfoNCEが決定論的なエネルギーを追跡し,単峰性および対称性を持つマルチモーダルな状態間の幾何学的な分岐が明らかになった。
    • 単峰性においては,表現測度に対する内在的な関数が厳密に凸であり,ギブス平衡状態を持つことが示された。
    • マルチモーダルにおいては,対称InfoNCEが負の対称ダイバージェンス結合を含むことが示され,モダリティ間の異質性によってモダリティギャップが構造的に促進される可能性がある。

    Link: https://arxiv.org/abs/2601.19597

  • 直感から校正された判断へ:LLM生成韓国語テキストの人間の検出に関する専門家パネル研究 [cs.CL, cs.AI]目的:LLM生成テキストと人間が書いたテキストの区別
    • 大規模言語モデルの進化により,テキスト生成の自動化が進み,その識別が重要になっている。
    • 訓練された読者であっても,流暢さで判断しやすく,AI生成テキストを見抜くのが困難である。
    • 評価基準に基づく専門家による校正を通じて,人間の識別精度向上を目指す。
    • 評価基準を用いた校正により,識別の正答率が大幅に向上した(Phase 1: 0.60 → Phase 2: 0.90)。
    • 限定的なデータセット(Phase 3)では,10/10の正答率を達成し,高い信頼性を示した。
    • 校正は,AI生成テキストの見落としを減らすことに効果的であり,過剰検出は抑制された。

    Link: https://arxiv.org/abs/2601.19913

  • ニューラルオーディオ透かしに対する攻撃としての自己ボイス変換 [cs.SD, cs.AI]目的:オーディオ透かしに対する自己ボイス変換による攻撃の検討
    • 音声コンテンツ保護の重要性が高まる中,デジタル透かし技術の安全性確保が不可欠である。
    • 従来の攻撃手法では対応できない,深層学習を用いた新たな攻撃手法が出現している。
    • 深層学習に基づく自己ボイス変換が,オーディオ透かしのセキュリティに及ぼす影響を明らかにする。
    • 自己ボイス変換は,話者の同一性を維持しつつ音響特性を変化させることで,既存の透かし技術の信頼性を著しく低下させる。
    • この攻撃は,圧縮,ノイズ,リサンプリングといった従来の歪みに対する脆弱性とは異なる,新たな脅威をもたらす。
    • 本研究は,現代のオーディオ透かし技術のセキュリティに対する自己ボイス変換の影響を浮き彫りにした。

    Link: https://arxiv.org/abs/2601.20432

  • 継続的なGUIエージェント [cs.LG, cs.CV]目的:GUI環境の変化下における継続学習
    • デジタル環境は常に変化しており,GUIエージェントの適応能力が重要である。
    • 従来のGUIエージェントは,GUIデータの変化に弱く,性能が低下しやすい。
    • GUIデータの変化に対応し,安定した性能を維持できるエージェントの開発。
    • 本研究では,GUIデータの変化に対応する継続学習フレームワークGUI-AiFを提案した。
    • GUI-AiFは,APR-iFとARR-iFという2つの報酬関数を用いて,エージェントの学習を安定化させる。
    • 実験の結果,GUI-AiFは既存の最先端手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2601.20732

  • 時間系列予測Transformerのためのマルチ解像度セグメントごとのMoE [cs.LG, cs.AI]目的:時間系列予測におけるTransformerモデルのスケーラビリティと長期的な時間的ダイナミクスの捕捉
    • 時間系列データ分析は,経済,気象,医療など様々な分野で不可欠であり,正確な予測が求められる。
    • Transformerモデルは高性能だが,長期的な系列データに対して計算コストが課題となり,スケーラビリティが重要となる。
    • セグメントごとのMoEにより,時間的データの連続性と局所性を活かした効率的なモデル構築を目指す。
    • Seg-MoEは,既存のTransformerやtoken単位のMoEモデルと比較して,ほとんどすべての予測期間で最先端の予測精度を達成した。
    • セグメントレベルのルーティングが,これらの性能向上に大きく貢献することが,詳細な実験により確認された。
    • 時間系列データの構造とMoEのルーティング粒度を一致させることで,強力な誘導バイアスを提供することが示された。

    Link: https://arxiv.org/abs/2601.21641

  • LLMはユーザーの話し方を模倣すべきか?MDialを用いたアメリカ英語以外の多様な方言に対応した対話構築 [cs.CL, cs.AI]目的:多様な英語方言に対応した対話データの生成
    • 世界の英語話者の大半は標準アメリカ英語を使用せず,LLMとの対話において不利益を被る可能性がある。
    • LLMにおける多方言対応は未だ十分ではなく,方言の多様性を考慮した研究が不足している。
    • 本研究は,LLMが多様な英語方言を正確に識別し,適切な応答を生成することを可能にする。
    • MDialは,語彙,正書法,形態統語論の3つの側面から9つの英語方言に対応した大規模な対話データ生成フレームワークである。
    • 実験の結果,最先端のLLMであっても方言の識別精度は70%を下回り,カナダ英語の識別は50%に満たないことが示された。
    • LLMが方言を識別できない場合,自然言語理解の基盤が損なわれ,その後のタスクに悪影響を及ぼす可能性がある。

    Link: https://arxiv.org/abs/2601.22888

  • 球面座標による埋め込み圧縮 [cs.LG, cs.CV]目的:単位ノルム埋め込みの圧縮手法
    • 機械学習モデルの規模拡大に伴い,埋め込み表現の効率的な保存が重要である。
    • 既存の圧縮手法では,十分な圧縮率と復元精度の両立が課題であった。
    • 球面座標の特性を利用し,より高効率な埋め込み圧縮を実現する。
    • 本手法は,既存の可逆圧縮手法と比較して1.5倍の圧縮率を達成する。
    • IEEE 754 指数の集中と,上位マンティッサビットの予測可能性により,エントロピー符号化が可能となる。
    • テキスト,画像,マルチベクトル埋め込みを含む26の設定で一貫した改善が確認された。

    Link: https://arxiv.org/abs/2602.00079

  • エージェント的進化はLLMを進化させる道である [cs.AI]目的:LLMの継続的な適応
    • LLMは現実世界で活用が拡大しており,その性能維持・向上が重要である。
    • 既存の学習データだけでは,変化する環境への適応が困難である。
    • 展開後の環境変化に対応できる自律的な進化メカニズムの確立を目指す。
    • 本研究では,LLMの適応を目的とした汎用的なフレームワークA-Evolveを提案する。
    • A-Evolveは,展開時間の改善を目標指向の最適化プロセスとして扱う。
    • 進化に割り当てる計算資源の増加が適応能力の向上に繋がる「進化スケーリング仮説」を提唱する。

    Link: https://arxiv.org/abs/2602.00359

  • CRAFT:強化学習による回答に忠実な根拠を用いた,校正された推論 [cs.CC, cs.CL, cs.LG]目的:複数段階の質問応答における,回答の正確性と推論の信頼性向上
    • 知識獲得型LLMは,多段質問応答において高い性能を示すが,根拠の信頼性が課題である。
    • 検索ノイズの影響で,モデルが表面的に正解を導き出す「正解だが根拠が誤り」な現象が頻発する。
    • 推論過程の構造化と監査可能性を高めることで,根拠の信頼性を改善し,より正確な回答を目指す。
    • CRAFTは,強化学習フレームワークを用いて,根拠の信頼性を高め,回答の正確性を向上させる。
    • 検証可能な制約と,意味的な忠実性を評価するjudge-based報酬を組み合わせることで,性能が向上する。
    • CRAFT(7B)は,judge-based報酬により,クローズドソースモデルに匹敵する性能を達成した。

    Link: https://arxiv.org/abs/2602.01348

  • Prism:階層的探索と自己検証による離散拡散言語モデルの効率的な推論時スケーリング [cs.LG]目的:離散拡散言語モデルにおける効率的な推論時スケーリング手法
    • 大規模言語モデルの推論能力向上は,実用的な応用において重要性が増している。
    • 離散拡散言語モデルは並列処理を行うため,既存の自己回帰的な推論時スケーリング手法の適用が困難である。
    • Prismは,効率的な推論時スケーリングを通じて,離散拡散言語モデルの潜在能力を最大限に引き出すことを目指す。
    • Prismは,早期から中期段階のノイズ除去ウィンドウで動的に計算量を削減・再配分する階層的探索(HTS)を導入した。
    • ローカルブランチングと部分的な再マスキングにより,多様な解釈を探索しつつ,高信頼度のトークンを維持する。
    • 外部検証器の代わりに,中間的な完成度に対する自己評価プロンプトから得られる自己検証フィードバック(SVF)を利用する。

    Link: https://arxiv.org/abs/2602.01842

  • ワールドモデルによる実行可能な計画に基づいた生成動画の根拠付け [cs.LG]目的:生成動画の計画を実行可能な行動系列に結びつける手法
    • 動画生成モデルは計画能力を示すが,現実世界との整合性が課題。
    • 生成された計画は,時間的一貫性や物理的制約に違反することが多い。
    • 物理法則に則った,実行可能な計画の生成を目指す。
    • GVP-WMは,生成された動画のガイダンスを潜在空間に投影し,実行可能な軌跡を生成する。
    • 動画生成モデルから生成された計画を,ワールドモデルを用いて現実的な行動系列へと変換する。
    • ナビゲーションや操作のシミュレーションにおいて,物理制約に違反する動画からの計画回復に成功した。

    Link: https://arxiv.org/abs/2602.01960

  • 反復回数なしニュートン・シュルツ直交化 [cs.LG, cs.AI, cs.NA, math.NA]目的:ニュートン・シュルツ直交化の効率化
    • 最適化アルゴリズムにおいて,効率的な直交化は性能向上に不可欠である。
    • 従来のニュートン・シュルツ反復法は,高次元行列の乗算による計算コストが高い。
    • 反復構造を統合し,不要な項を削除することで計算効率と安定性を両立させる。
    • 提案手法であるIFNSOは,既存手法と比較して優れた性能を示すことが実験的に確認された。
    • 個々の行列のべき乗の寄与を分析し,学習可能な係数を持つ多項式を導入することで効率化を実現した。
    • IFNSOは,反復計算を必要としない統一的な定式化によって計算コストを削減する。

    Link: https://arxiv.org/abs/2602.02500

  • DECEIVE-AFC:検索機能付きLLMベースのファクトチェックシステムに対する敵対的請求攻撃 [cs.CR, cs.AI]目的:検索機能付きLLMベースのファクトチェックシステムに対する敵対的請求攻撃の調査
    • ファクトチェックは,誤情報の拡散を防ぎ,社会の健全性を維持する上で重要である。
    • LLMベースのファクトチェックシステムは,敵対的攻撃に対して脆弱である可能性がある。
    • 検索行動,証拠取得,LLMの推論を妨害する攻撃手法を開発し,その有効性を検証する。
    • 本研究で提案するDECEIVE-AFCは,既存の攻撃手法を大きく上回り,システム間の汎用性も高い。
    • 攻撃により,ファクトチェックの精度が78.7%から53.7%に大幅に低下することが示された。
    • DECEIVE-AFCは,証拠ソースやモデル内部へのアクセスなしに,敵対的攻撃経路を体系的に探索する。

    Link: https://arxiv.org/abs/2602.02569

  • コンパイラからのフィードバックを用いたLean証明の修復学習 [cs.LG]目的:Lean証明の修復と,その根拠となる自然言語診断
    • 近年,ニューラル定理証明器の自律性が高まる中で,コンパイラからのフィードバックを解釈し活用する能力が重要となる。
    • 既存のLeanデータセットは,正解の証明ばかりで,エラーの理解や修復のための十分な教師データが不足している。
    • コンパイラからのフィードバックに基づいた証明の修復と診断を,教師あり学習によって実現することを試みる。
    • APRILという,26万件のLean証明の誤り,コンパイラ診断,修正,説明のペアからなるデータセットを構築した。
    • APRILで言語モデルを訓練することで,証明修復の精度とフィードバックに依存した推論能力が大幅に向上した。
    • 40億パラメータのモデルをファインチューニングした結果,既存のオープンソースベースラインよりも優れた修復性能を示した。

    Link: https://arxiv.org/abs/2602.02990

  • HoRD:履歴条件付き強化学習とオンライン蒸留によるロバストなヒューマノイド制御 [cs.CL, cs.DL, eess.SY, cs.RO, cs.SY, cs.RO, cs.LG]目的:ドメインシフト下におけるロバストなヒューマノイド制御のための学習フレームワーク
    • ヒューマノイドロボットの汎用化は重要であり,現実世界での応用を促進する。
    • わずかな動力学的変化や環境設定の変化で性能が低下しやすい。
    • 未知のドメインへのゼロショット適応を可能にし,ドメインごとの再学習を不要にする。
    • HoRDは,履歴条件付き強化学習とオンライン蒸留を組み合わせることで,ドメインシフトに対するロバスト性を実現した。
    • 教師ポリシーから学習した制御能力を,スパースな関節キーポイント軌跡を扱うTransformerベースの学生ポリシーへ転移する。
    • 実験結果から,HoRDは未知のドメインや外乱下において,既存手法よりも優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2602.04412

  • 最初の証明 [cs.AI, math.AG, math.CO, math.GT, math.HO, math.RA]目的:研究レベルの数学問題に対するAIシステムの解答能力の評価
    • 数学研究の進展には,高度な問題解決能力が不可欠である。
    • 現在のAIシステムは,複雑な数学問題に対して誤った解答を導く場合がある。
    • AIシステムの数学問題解決能力の現状を明らかにし,改善の方向性を示す。
    • 本研究では,研究過程で自然発生した10問の数学問題を公開し,AIシステムの解答能力を検証した。
    • 問題は未公開であり,正答は著者のみが把握している。正答は一時的に暗号化されている。

    Link: https://arxiv.org/abs/2602.05192

  • 分布整合と分散的交換介入による忠実な双方向モデル操縦 [cs.LG, cs.CL]目的:モデルの忠実な双方向操縦手法の開発
    • 大規模言語モデルの制御は,安全性や有用性を高める上で重要である。
    • 既存の操縦手法は過学習を起こしやすく,自然でない出力を生成することがある。
    • モデル内部機構の忠実な特定に基づいた,より安定した操縦法の確立を目指す。
    • 提案手法CDASは,分布整合による弱教師あり学習と分散的交換介入(DII)を活用する。
    • AxBenchでの評価では,CDASはモデル規模の拡大により,より良い性能を示す可能性がある。
    • 安全性のケーススタディでは,CDASは拒否行動の抑制や思考連鎖バックドアの無効化において系統的な操縦を実現した。

    Link: https://arxiv.org/abs/2602.05234

  • 悪意のあるエージェントスキル:大規模なセキュリティ実証研究 [cs.CL, cs.CR, cs.AI, cs.CL, cs.ET]目的:悪意のあるエージェントスキルの実態解明
    • LLMベースのエージェント利用拡大に伴い,サードパーティースキルのセキュリティ重要性が増している。
    • スキルの審査体制が不十分であり,悪意のあるスキルが広まっている可能性がある。
    • コミュニティで配布されているスキルの悪性度を評価し,脅威の実態を明らかにする。
    • 98,380件のスキルを検証した結果,157件の悪意のあるスキルと632件の脆弱性を確認した。
    • 攻撃は体系化されており,資格情報窃取型とエージェント乗っ取り型の2つのパターンが確認された。
    • 悪意のあるスキルは,AIプラットフォームの内部機能や権限を悪用する傾向がみられた。

    Link: https://arxiv.org/abs/2602.06547

  • ランダムフォレストの回路表現とXAIへの応用 [cs.AI, cs.LG, cs.LO]目的:ランダムフォレスト分類器の回路表現
    • 機械学習モデルの解釈可能性は,信頼性と公平性の確保に不可欠である。
    • ランダムフォレストは解釈が難しく,意思決定の根拠が不明瞭になりがちである。
    • ランダムフォレストの意思決定プロセスを理解するための新しい手法の確立。
    • ランダムフォレストを回路に変換する効率的な手法を提案し,既存手法よりも優れていることを示した。
    • 提案手法を用いて,意思決定の完全かつ一般的な理由を計算可能な回路を得ることに成功した。
    • 意思決定の頑健性を計算し,決定を覆す最短経路を特定するためのアルゴリズムを開発した。

    Link: https://arxiv.org/abs/2602.08362

  • SDFed:部分空間の洗練と発散制御による連合型プロンプト学習におけるローカルとグローバルの乖離の解消 [cs.LG, cs.DB]目的:連合型プロンプト学習におけるローカルとグローバルの乖離の解消
    • 画像とテキストの事前学習済みモデルは強力だが,プライバシー保護と通信コストが課題。
    • 既存手法はクライアント間のデータやリソースの異質性を考慮せず,知識の衝突が生じやすい。
    • クライアント固有の特性に適応し,効率的な知識伝達を実現する。
    • SDFedは,効率的な集約のために固定長のグローバルプロンプトを維持しつつ,クライアントが可変長のローカルプロンプトを学習する。
    • ローカルプロンプトの洗練と情報保持・発散制御により,ローカルとグローバルの知識衝突を緩和。
    • 複数のデータセットで,SDFedが異質環境下で性能とロバスト性を向上させることを実証。

    Link: https://arxiv.org/abs/2602.08590

  • セントラルドグマTransformer II:細胞性制御機構理解のためのAI顕微鏡 [cs.LG, q-bio.QM]目的:細胞性制御機構の理解
    • 生物学研究において,遺伝子制御機構の解明は,疾患の原因特定や治療法開発に不可欠である。
    • 既存の生物学的AIモデルは解釈可能性が低く,得られた結果と生物学的関係性の検証が困難である。
    • 本研究は,実験的に検証可能な仮説を生成できる解釈可能なAIモデルの開発を目指す。
    • CDT-IIは,5遺伝子を隠蔽したK562 CRISPRiデータにおいて,摂動効果を高い精度で予測した(平均r=0.84)。
    • CDT-IIはGFI1B制御ネットワークを再現し,ENCODEの調節要素,特にCTCFサイトへのクロスアテンションに注目していることが示された。
    • TFRCに対する勾配ベースの帰属分析は,貧血や酸化ストレスに関連する遺伝子を特定し,臨床データなしで臨床的に関連する制御構造を明らかにした。

    Link: https://arxiv.org/abs/2602.08751

  • 多数のクエリの知恵:密な検索器学習のための複雑性-多様性原理 [cs.RO, cs.IR, cs.LG]目的:密な検索器の学習における複雑性-多様性原理
    • 情報検索の精度向上は,様々な応用分野において重要な課題である。
    • 従来の合成クエリ生成法はクエリ品質に偏重しており,汎化性能が十分でない。
    • クエリの複雑性と多様性のバランスを考慮することで,汎化性能を向上させる。
    • 多クエリ合成とクエリの質・多様性のトレードオフを体系的に分析した。
    • クエリの複雑性は多様性の効果と強い相関があり,複雑性-多様性原理(CDP)を定式化した。
    • 複雑性を意識した学習戦略は,推論能力を必要とするベンチマークにおいて,OOD性能を改善した。

    Link: https://arxiv.org/abs/2602.09448

  • SERFN:アクションチャンク化された批評家と正規化フローによる,サンプル効率の良い実世界での器用なポリシーのファインチューニング [cs.RO, cs.LG]目的:実世界での器用な操作ポリシーのファインチューニングにおけるサンプル効率の向上
    • 実世界でのロボット操作は,その複雑さから,様々な応用において重要性が増している。
    • 実世界のデータ収集にはコストがかかるため,サンプル効率が課題となっている。
    • 多峰性アクション分布を扱うための,安定したファインチューニング手法の開発が求められている。
    • SERFNは,正規化フローを用いることで,多峰性アクションチャンクの正確な尤度を計算し,保守的なポリシー更新を可能にした。
    • アクションチャンク化された批評家は,ポリシーの時間構造と整合し,長期的な報酬の割り当てを改善した。
    • 実ロボットによる実験で,SERFNは標準手法と比較して,安定かつサンプル効率の良い適応を示した。

    Link: https://arxiv.org/abs/2602.09580