arXiv雑要約

AI - 2026/03/09 公開

  • キャンバスを用いたマスク自己回帰型動画予測の改善:CanvasMAR [cs.CV, cs.AI, cs.LG]目的:マスク自己回帰型動画予測モデルの性能向上
    • 動画生成技術は,コンピュータビジョンの重要な課題であり,様々な応用が期待される。
    • 自己回帰型動画モデルは,サンプリングステップ数が少ないと,動画の品質が低下しやすい。
    • 少ないサンプリングステップ数で高精度な動画生成を可能にすること。
    • 提案手法CanvasMARは,キャンバスと呼ばれるグローバルな一次予測を導入することで,少ないステップ数で高画質の動画を生成できる。
    • 動きを考慮したサンプリング順序により,自己回帰サンプリングの安定性が向上する。
    • BAIR,UCF-101,Kinetics-600のデータセットで,CanvasMARは高品質な動画を生成し,特にKinetics-600では拡散モデルに匹敵する性能を示す。

    Link: https://arxiv.org/abs/2510.13669

  • 瞬間的な目的:特殊なAIインタラクションのための汎用的なアプローチ [cs.HC, cs.AI, cs.CL]目的:ユーザーの瞬間的な目的の推論と最適化による,特化したAIツール,インターフェース,応答の生成
    • 大規模言語モデルの活用範囲は広いが,特定の目的がない場合,汎用的な結果に留まる点が課題である。
    • ユーザーの意図を正確に捉え,目的に特化したAIシステムを動的に構築することが難しい。
    • ユーザーの行動観察から目的を自動的に推論し,AIシステムの出力を最適化することを目指す。
    • 瞬間的な目的を推論することで,研究貢献の明確化など,特化したツールを自動生成することが可能となった。
    • 実験の結果,瞬間的な目的を用いたLLMの出力は,標準的なLLMと比較して66-86%の勝率を達成した。
    • 対面での利用セッションでは,参加者固有の高品質なツールが生成され,標準LLMチャットツールより高い評価を得た。

    Link: https://arxiv.org/abs/2510.14591

  • ニューラルODEの混合単調性到達可能性解析:厳密性と効率性のトレードオフ [eess.SY, cs.SY, stat.AP, eess.SY, cs.LG, cs.SY]目的:ニューラルODEの到達可能集合のオーバーアプロキシメーション計算
    • 複雑な動的システムの挙動を記述するニューラルODEは強力だが,検証には特化したツールが不可欠である。
    • ニューラルODEに対する到達可能性解析ツールは限られており,実用的な検証が困難である。
    • 混合単調性に基づく効率的な到達可能性解析手法を開発し,高次元システムの検証を可能とする。
    • 提案手法は,CORAのゾノトープやNNV2.0のスター集合表現と比較して,計算効率の良いオーバーアプロキシメーションを提供する。
    • 厳密性と効率性のトレードオフを許容することで,高次元,リアルタイム,安全性が重要なアプリケーションに適している。
    • 混合単調性をニューラルODEの到達可能性解析に適用することで,スケーラブルな検証への新たな道が開かれる。

    Link: https://arxiv.org/abs/2510.17859

  • 3Dで考える:限られた視点からの幾何学的想像力に基づく空間推論 [cs.CV, cs.AI]目的:限られた視点からの3次元空間推論のための幾何学的想像力の活用
    • 視覚と言語の融合モデルは目覚ましい進歩を遂げているが,3次元空間認識は未だ課題である。
    • 既存手法は,テキストや2次元視覚情報に依存しており,3次元空間想像力が必要なタスクで限界がある。
    • 本研究は,事前知識なしに画像から3次元情報を抽出し,推論に活用する新たな枠組みを提案する。
    • 3DThinkerは,強力なベースラインモデルを凌駕する性能を示し,マルチモーダル推論における3次元表現の統合に新たな視点を提供する。
    • 本フレームワークは,推論過程において視覚情報の幾何学的情報を活用し,人間のように3次元的な思考を可能にする。
    • 2段階の学習により,VLMの潜在空間と3次元基盤モデルを整合させ,結果に基づいて推論軌跡を最適化する。

    Link: https://arxiv.org/abs/2510.18632

  • ChatGPTを用いたコミュニケーションデータの自動コーディング:サブグループ間の一貫性 [cs.RO, eess.SY, cs.SY, cs.RO, cs.CL, cs.AI]目的:コミュニケーションデータの自動コーディングにおけるサブグループ間の一貫性評価
    • 大規模なコミュニケーション及び共同作業の評価は重要であり,効率化が求められている。
    • AIによるコーディングの性能が,性別や人種などの属性によって異なる可能性が懸念されていた。
    • 大規模評価におけるAIコーディングの公平性を検証し,その利用可能性を提示すること。
    • ChatGPTによるコーディングは,性別や人種・民族グループ間で,人間の評価者と同様の一貫性を示した。
    • 既存の自動採点フレームワークを応用した評価手法により,サブグループ間の一貫性を検証した。
    • ChatGPTは,大規模なコミュニケーション及び共同作業評価への利用が期待できる。

    Link: https://arxiv.org/abs/2510.20584

  • 先に撃て,後で質問? 人間のように探索し行動する合理的エージェントの構築 [cs.CL, cs.AI]目的:戦略的な情報探索を行う合理的エージェントの構築
    • 科学的発見や医療診断など,AIの応用範囲が拡大しており,戦略的な情報探索の重要性が高まっている。
    • 限られたリソースの中で,言語モデル(LM)が必ずしも人間のように合理的な情報探索を行わないという課題がある。
    • ベイズ実験計画法(BED)に着想を得たモンテカルロ推論により,LMエージェントの情報探索能力を向上させる。
    • 提案手法は,Collaborative Battleshipタスクにおいて,質問の質,回答の正確性,行動の適切性を向上させる。
    • Spotterエージェントの正答率を最大14.7%絶対的に向上させ,Captainエージェントの期待情報ゲインを最大0.227ビット(94.2%の天井)まで引き上げた。
    • 弱いLM(Llama-4-Scout)でさえ,人間や最先端モデル(GPT-5)を凌駕し,GPT-5の約1%のコストで高い性能を発揮する。

    Link: https://arxiv.org/abs/2510.20886

  • ロボットの動作計画のための予測的動的障害物モデルのリアルタイム学習 [cs.CL, cs.RO, cs.LG, cs.SY, eess.SY]目的:他エージェントの動作の非線形予測モデルのリアルタイム学習
    • 自律システムの安全性確保には,周囲の状況を正確に予測する能力が不可欠である。
    • ノイズを含む不完全なデータからの正確な予測は,依然として困難な課題である。
    • 本研究は,リアルタイムでノイズ除去と予測を行うフレームワークを開発し,その有効性を示す。
    • 提案手法は,シミュレーションと実機実験の両方で安定した分散認識によるノイズ除去と短期予測を達成した。
    • 修正されたスライディングウィンドウHankel動的モード分解(Hankel-DMD)を用いることで,オンラインでの動的予測が可能となった。
    • 残差分析により,リスクを考慮した計画に役立つ分散追跡信号が得られた。

    Link: https://arxiv.org/abs/2511.00814

  • KLASS:マスク拡散モデルにおけるKL誘導高速推論 [cs.LG]目的:マスク拡散モデルにおける高速推論手法の開発
    • 言語生成を含む多様なタスクで性能を示すマスク拡散モデルの活用が重要視されている。
    • 反復的な改良過程が推論のボトルネックとなり,サンプリング速度が遅いという課題がある。
    • トークンレベルのKLダイバージェンスを活用し,安定かつ高信頼な予測を効率化することで推論速度を向上させる。
    • KLASSは,標準的な貪欲デコーディングと比較して最大2.78倍の高速化を達成し,推論性能を向上させた。
    • テキスト,画像,分子生成など多様なドメインで有効性が確認され,広範なモデルへの適用可能性が示された。
    • 追加のモデル学習なしに,各反復で複数のトークンをアンマスクすることで,生成速度の大幅な改善を実現した。

    Link: https://arxiv.org/abs/2511.05664

  • カテゴリデータクラスタリングのためのクラスタ適応型距離尺度CADM [cs.LG, stat.ML]目的:カテゴリデータクラスタリングにおける距離尺度の最適化
    • カテゴリデータは直接距離計算が難しく,適切な距離尺度の選択がクラスタリング性能を左右する。
    • 既存の距離尺度は,各クラスタにおける属性値分布の違いを考慮していない。
    • クラスタごとの属性値分布に適応する距離尺度を提案し,距離測定の妥当性を向上させる。
    • 提案手法CADMは,様々なデータセットにおいて,平均して最上位のランキングを達成した。
    • CADMは,各クラスタの属性分布に基づき距離を競合的に更新することにより,より精度の高いクラスタリングを実現する。
    • 数値データとカテゴリデータを混合したデータに対しても,CADMを拡張することが可能である。

    Link: https://arxiv.org/abs/2511.05826

  • 拡散モデルにおける多角的象徴性の持続性:文化的記憶の探求 [cs.CV, cs.AI]目的:拡散モデルにおける多角的象徴性の評価
    • 近年の画像生成技術の発展は目覚ましいが,その文化的背景との関係性は未解明な点が多い。
    • 拡散モデルが文化的参照をどの程度記憶・再現しているかの評価方法が確立されていない。
    • 文化的参照に対するモデルの理解度を,単純な再現ではない側面から評価することを目指す。
    • 拡散モデルが,文化的参照を認識しつつ,単純な複製に頼らず再解釈できるかを評価する指標「CRT」を提案した。
    • Wikidata由来の767の文化的参照を用いて5つの拡散モデルを評価した結果,モデルによって認識度や再現傾向に差が見られた。
    • 文化的参照の認識度は,学習データ頻度だけでなく,テキストの独自性,参照の人気度,作成日と相関することが示された。

    Link: https://arxiv.org/abs/2511.11435

  • FireScope:思考連鎖オラクルを用いた山火事リスク予測 [cs.RO, cs.CV, cs.LG]目的:山火事リスクマップの予測
    • 森林火災は,生態系や社会経済に深刻な影響を与えるため,リスク予測は重要である。
    • 既存手法は,因果関係の推論やマルチモーダルな理解が不十分であり,汎化性能が低い。
    • 本研究は,大陸横断的な汎化性能と解釈可能性を向上させたリスク予測モデルの構築を目指す。
    • FireScopeは,アメリカで学習し,ヨーロッパでテストすることで大きな性能向上を達成した。
    • 専門家からのフィードバックと自動分析により,FireScopeの思考過程が信頼性が高く意味のあるものであることが確認された。
    • 言語ベースの推論が,視覚生成における汎化性能を向上させることが示された。

    Link: https://arxiv.org/abs/2511.17171

  • 自我認知ナビゲーション:認知を考慮した一人称視点ナビゲーション [cs.LG, cs.CV]目的:人間の一人称視点ナビゲーションにおける認知・経験的要素のモデル化
    • 人間と環境の相互作用理解や,安全な社会ナビゲーション,効果的な支援的経路探索に不可欠である。
    • 既存手法は完全観測されたシーンにおける動きの予測に焦点を当て,人間の感情や空間への反応を無視している。
    • 人間の不確実性認識を予測し,軌跡と頭部動きを統合的に予測することでこの問題を解決する。
    • EgoCogNavは,人間の行動(スキャン,躊躇,後退)と高い相関を持つ知覚される不確実性を学習する。
    • 提案手法は,未知の環境への汎化性能も示す。
    • 認知を考慮した一人称視点ナビゲーション(CEN)データセットを公開し,研究を促進する。

    Link: https://arxiv.org/abs/2511.17581

  • SPINE:エントロピーバンド正則化を用いたトークン選択型テスト時強化学習 [cs.CL, cs.LG]目的:テスト時における言語モデルの性能向上
    • 大規模言語モデルは推論に優れるが,テスト時の分布シフトと検証可能な教師信号の不足が課題である。
    • 既存のテスト時強化学習は自己整合性に基づく擬似報酬を用いるが,回答が短縮化したり性能が低下することがある。
    • 推論の分岐点となる重要なトークンに焦点を当て,安定した適応を実現する。
    • SPINEは,分布を考慮した分岐点トークンの選択とエントロピーバンド正則化により,テスト時強化学習の不安定性を抑制する。
    • 8つのベンチマークで,SPINEは既存手法と比較してPass@1を向上させ,回答の短縮化を防いだ。
    • 推論の分岐点への更新を合わせることで,ラベル不要で安定かつ効果的なテスト時適応が可能になることを示唆する。

    Link: https://arxiv.org/abs/2511.17938

  • ソフトQ関数に基づく拡散モデルのファインチューニング [cs.LG, cs.AI]目的:拡散モデルのアライメント
    • 拡散モデルは高確率サンプル生成に優れるが,下流タスクへの適応が課題である。
    • 既存のファインチューニング手法は報酬の過最適化に陥りやすく,多様性が損なわれる。
    • 報酬と多様性のバランスを取りながら,拡散モデルの性能向上を目指す。
    • SQDFは,報酬を高く保ちつつ,テキストから画像へのアライメントにおける多様性を維持する。
    • オンラインのブラックボックス最適化において,高いサンプル効率と自然性,多様性を実現した。
    • ソフトQ関数に基づくKL正則化された強化学習により,過最適化を抑制する。

    Link: https://arxiv.org/abs/2512.04559

  • XR-DT:人間を意識したモデル予測経路積分制御による安全な経路計画のための拡張現実強化デジタルツイン [cs.RO, cs.AI, cs.HC, cs.MA, cs.SY, eess.SY]目的:人間とロボットの相互作用における安全性,効率性,解釈可能性の向上
    • 人とロボットが協働する環境が増加しており,安全な協調作業が重要課題となっている。
    • ロボットの推論に対する人間の認識や信頼,予測に基づく安全な経路計画が十分ではない。
    • 拡張現実を活用したデジタルツイン環境で,人間を意識した経路計画を実現し,信頼性の高いHRIを確立する。
    • 提案手法XR-DTは,物理空間と仮想空間を繋ぎ,人間とロボット間の双方向理解を可能にする。
    • 実世界実験の結果,高精度な人間行動予測と,安全かつ効率的なロボットナビゲーションが確認された。
    • 人間行動,環境,ロボットナビゲーションを統合し,解釈可能で信頼性の高いHRIを実現する。

    Link: https://arxiv.org/abs/2512.05270

  • 残されたものは真でなければならない:フィルタリングがLLMの推論を駆動し,多様性を形成する [cs.LG, cs.AI]目的:LLMの推論におけるフィルタリングの影響と多様性への貢献
    • LLMは推論タスクの解決に不可欠だが,多様性の低下が課題となっている
    • 強化学習によるLLMの調整は多様性を損なう可能性がある
    • フィルタリングによる目標分布の明示的な設定と,多様性とのバランス改善
    • 提案手法は,正解の確率を維持しつつ誤答を除外するフィルタリングにより,目標分布を明確化する。
    • α-ダイバージェンスを用いることで,モード探索とマス覆いのトレードオフを制御し,多様性と精度を両立する。
    • Lean定理証明ベンチマークにおいて,既存手法を上回り,カバレッジと精度において最先端の性能を達成した。

    Link: https://arxiv.org/abs/2512.05962

  • 時空間特性を活用した効率的なイベント駆動ヒューマンポーズ推定 [cs.RO, cs.CV, cs.AI]目的:イベントベースのヒューマンポーズ推定における性能向上
    • 近年,人間の行動解析において,身体のキーポイントを推定するヒューマンポーズ推定が重要視されている。
    • 従来のRGBカメラでは困難な条件下での推定精度向上が課題となっている。
    • イベントカメラの持つ時空間特性を活かし,計算効率を維持しつつ高精度なポーズ推定を目指す。
    • 提案手法は,DHP19データセットにおいてPointNet,DGCNN,Point Transformerの3つのバックボーン全てで性能向上を示した。
    • 平均MPJPEは4%削減され,イベントストリームの時空間特性を活用した有効性が確認された。
    • イベントテンポラルスライシング畳み込みモジュールとイベントスライスシーケンシングモジュールが,性能向上に貢献した。

    Link: https://arxiv.org/abs/2512.06306

  • A-3PO:鮮度を考慮した近接方策近似による非同期LLM学習の高速化 [cs.LG, cs.AI, cs.DC]目的:非同期LLM学習における学習の高速化
    • 強化学習は,複雑な問題解決に有効であり,特に大規模言語モデルの学習に応用が期待される。
    • 非同期学習環境では,データの鮮度低下が学習の安定性を損なうことが課題となる。
    • 近接方策近似による計算コストを削減し,学習速度を向上させる。
    • 提案手法A-3POは,近接方策を明示的に計算する代わりに,単純な補間により近似する。
    • A-3POは,計算オーバーヘッドを削減し,学習速度を1.8倍に向上させる。
    • 性能面では,従来のDecoupled PPOと同等の結果が得られている。

    Link: https://arxiv.org/abs/2512.06547

  • DFIR-DETR:周波数領域における反復改良と動的特徴集約による小物体検出 [cs.CV, cs.LG]目的:小物体検出における性能向上
    • 複雑なシーンにおける小物体検出は,監視や自動運転など,多くの応用分野で重要である。
    • 既存の物体検出器は,小物体に対して十分な特徴表現を獲得できず,精度が低下する問題がある。
    • 本研究は,周波数領域に着目し,高周波成分を保持することで,小物体検出の精度を向上させることを目指す。
    • DFIR-DETRは,動的特徴集約により,複雑な領域に注意を集中させ,計算量を削減する。
    • 動的特徴ピラミッドネットワークにより,ノルムを保持したアップサンプリングと空間的な詳細の復元を実現する。
    • 周波数領域における反復改良モジュールは,高周波境界成分を直接保持し,NEU-DETとVisDroneで高い性能を示した。

    Link: https://arxiv.org/abs/2512.07078

  • 分布シフト下におけるロバストな視覚的説明のための不確実性に基づいたサブセット選択 [cs.CV, cs.LG]目的:分布シフト下でのロバストな視覚的説明を実現するためのサブセット選択手法
    • 深層学習モデルの説明可能性は,AIの信頼性を高める上で不可欠であり,その重要性は増している。
    • 既存のサブセット選択手法は,分布外データにおいて説明の信頼性が低下し,不安定な結果となる。
    • 本研究は,不確実性推定を組み込むことで,分布シフト下でのサブセット選択のロバスト性を向上させる。
    • 提案手法は,層ごとの勾配に基づく不確実性推定とサブモジュラサブセット選択を組み合わせることで,追加学習なしに説明の精度と安定性を向上させた。
    • 分布内データだけでなく,分布外データにおいても既存手法の弱点を克服し,性能改善が確認された。
    • 本研究は,不確実性を考慮した最適化が,視覚的説明の解釈可能性と信頼性を高めることを示唆している。

    Link: https://arxiv.org/abs/2512.08445

  • エンジニアリング設計のための個別条件付き期待値に基づくデータ駆動型グローバル感度分析 [cs.LG, cs.AI, stat.ML]目的:エンジニアリング設計におけるグローバル感度分析手法
    • データ駆動型設計の重要性が増しており,モデルの挙動を理解することが不可欠である。
    • 従来の感度分析手法では,変数間の相互作用を正確に捉えきれない場合がある。
    • 変数間の相互作用を考慮した,より正確なグローバル感度分析手法を提案する。
    • 提案手法は,ICE曲線を用いた新しいグローバル感度指標を導出し,相互作用の影響をより適切に捉える。
    • 数学的証明により,提案手法が従来のPDPに基づく感度指標よりも上位であると示す。
    • 3つの事例研究で検証した結果,提案手法は従来のPDPよりも詳細な情報を提供することが示された。

    Link: https://arxiv.org/abs/2512.11946

  • Computed Tomography 映像のための新規パッチベース TDA アプローチ [cs.CV, cs.LG]目的:Computed Tomography 映像に対する Topological Data Analysis の新しい手法
    • 医学画像診断において,CT 映像は病変の発見,病期分類,予後予測に不可欠であり,その解析技術の進歩は重要である。
    • 従来の CT 映像解析は手動による特徴抽出に依存しており,その効率性と精度に限界があった。
    • 本研究は,CT 映像から効率的に高次元な特徴を抽出し,診断精度と解析速度を向上させることを目指す。
    • 提案手法は,従来の 3 次元立方体複合体法と比較して,分類性能と計算時間の両面で優れていることが示された。
    • 精度,AUC,感度,特異度,F1 スコアにおいて,それぞれ平均 7.2%,3.6%,2.7%,8.0%,7.2% の改善が見られた。
    • 提案手法の実装を容易にするための Python パッケージ,Patch-TDA が提供される。

    Link: https://arxiv.org/abs/2512.12108

  • 双曲型深層強化学習の理解と改善 [cs.LG, cs.AI]目的:双曲型深層強化学習における最適化の成功と失敗を決定する要因の特定
    • 強化学習は,複雑な意思決定問題を解決する強力な手法であり,その応用範囲は広い。
    • 双曲幾何学は階層的な関係性を歪み少なく表現できる一方,最適化が困難である。
    • 最適化の不安定性を解消し,安定した学習を実現する手法の開発。
    • 双曲型深層強化学習における勾配の不安定化が,PPOの信頼領域違反を引き起こすことを示した。
    • 新しい手法Hyper++を提案し,特徴量正則化,カテゴリカル値損失,最適化しやすいネットワーク層を導入した。
    • ProcGenやAtari-5で,Hyper++は既存手法を上回り,学習時間を約30%削減した。

    Link: https://arxiv.org/abs/2512.14202

  • エージェントツール編成における情報漏洩:データセット,ベンチマーク,および軽減策 [cs.DC, cs.NI, cs.OS, cs.PF, cs.CR, cs.AI, cs.CL]目的:エージェントツール編成によるプライバシーリスクの体系的な研究
    • 大規模言語モデルの普及に伴い,自律エージェントの利用が拡大している。
    • エージェントが複数のツールを連携させる際に,意図せず個人情報が漏洩するリスクが存在する。
    • ツール使用エージェントに特有の新たなプライバシーリスクを分析し,軽減策を提示すること。
    • エージェントが複数のツールから断片的な情報を集約し,予期せぬ機密情報を合成することで情報漏洩が発生する。
    • 最先端のLLM6モデルにおいて,平均漏洩率は62.11%に達し,Hスコアは52.90であった。
    • 出力,推論,レビュー段階を対象とした3つの軽減策を組み合わせることで,Hスコアが79.20に向上した。

    Link: https://arxiv.org/abs/2512.16310

  • CASA:効率的な視覚言語融合のための自己注意への交差注意 [cs.CV, cs.AI]目的:視覚言語モデルにおける効率的な融合手法の開発
    • 視覚と言語の情報を統合するモデルは,様々な応用において重要性が高まっている。
    • 既存手法では,長い画像系列や動画処理において計算コストとメモリ消費量が課題となる。
    • 交差注意機構を用いることで,低遅延かつ安定したメモリコストでの処理を実現する。
    • 交差注意機構と自己注意機構の根本的な違いを分析し,その有効性を検証した。
    • テキストのみのLLMからの学習,および既存のトークン挿入型VLMの適応により,交差注意の競争力を示した。
    • リアルタイム動画キャプション生成において,交差注意が低遅延かつ安定した性能を発揮することを実証した。

    Link: https://arxiv.org/abs/2512.19535

  • CARE:検証可能なマルチモーダルにおける失敗に着目した対照的アンカー反射 [cs.LG, cs.AI]目的:検証可能な報酬を用いたグループ相対強化学習における失敗データの活用
    • マルチモーダル推論は,画像とテキストなどの多様な情報を統合し高度な認識能力を実現するため重要である。
    • 強化学習において,失敗事例から効果的に学習することが困難であり,学習の停滞や誤った信用割り当てが起こりやすい。
    • 失敗事例を有効な学習信号に変換し,マルチモーダル推論の精度と学習の安定性を向上させることを目指す。
    • CAREは,最良のロールアウトを中心とした対照的な目的関数と,意味的に近い負例を活用することで,学習信号の質を高める。
    • Reflection-Guided Resampling(RGR)により,代表的な失敗事例を修正し,検証器による再評価を通じて利用可能な正例へと変換する。
    • Qwen2.5-VL-7BおよびQwen3-VL-8Bを用いた実験で,複数の視覚的推論ベンチマークにおいて精度向上と,最先端の結果を達成した。

    Link: https://arxiv.org/abs/2512.19554

  • 動的グラフにおける時間的モチーフ分析のためのLLMのベンチマークと最適化 [cs.LG, cs.AI]目的:動的グラフの時間的モチーフ分析におけるLLMの性能評価と最適化
    • 動的グラフは,変化するシステムを表現する強力なツールであり,様々な分野で活用が広がっている。
    • 時間的モチーフ分析は重要だが,LLMを用いた手法は未開拓であり,効果的な活用法が課題である。
    • LLMの特性を活かし,時間的モチーフ分析の精度と効率を両立させることを目指す。
    • LLMTMベンチマークを開発し,9種類のLLMと6つのタスクを用いて性能を体系的に評価した。
    • ツールを活用したLLMエージェントが,高精度で時間的モチーフ分析を実行できることを示した。
    • グラフ構造とLLMの負荷を考慮するディスパッチャにより,精度を維持しつつコストを削減できることを実証した。

    Link: https://arxiv.org/abs/2512.22266

  • ファインチューニングされた大規模言語モデルに対するウィンドウベースのメンバーシップ推論攻撃 [cs.RO, cs.CL, cs.AI, cs.CR]目的:大規模言語モデルのメンバーシップ推論攻撃における効果向上
    • 大規模言語モデルの利用拡大に伴い,プライバシー保護の重要性が高まっている。
    • 既存の攻撃手法では,微細な記憶の痕跡が希釈され,効果が限定的である。
    • 局所的なコンテキストに着目し,より効果的なメンバーシップ推論攻撃を実現すること。
    • 提案手法WBCは,既存の手法と比較してAUCスコアが大幅に向上した。
    • WBCは,低い偽陽性率において,検出率を2~3倍改善することに成功した。
    • 局所的な証拠を集約することが,グローバルな平均化よりも効果的であることが示された。

    Link: https://arxiv.org/abs/2601.02751

  • 教室AI:グレード別教師としての大規模言語モデル [cs.RO, cs.CY, cs.AI, cs.CL]目的:グレード別教育内容生成のための大規模言語モデルのファインチューニング手法
    • 世界的に教員不足が深刻化しており,教育機会の不均衡が課題となっている。
    • 大規模言語モデルは教育を補完できる可能性を持つが,学年レベルに応じた適切な回答が困難である。
    • 本研究は,学年別の理解度に合わせた教育内容生成を可能にすることを目指す。
    • 大規模言語モデルをファインチューニングするフレームワークを開発し,小学校低学年から成人教育までの6つの学年レベルに対応した教育内容生成に成功した。
    • 7つの可読性指標を用いたクラスタリングにより,事実の正確性を維持しつつ,生徒の理解力に合わせた説明を生成できることを示した。
    • 208人の参加者による評価の結果,プロンプトベースの手法と比較して,グレードレベルの適合性が35.64%向上した。

    Link: https://arxiv.org/abs/2601.06225

  • PepEDiff:タンパク質埋め込み拡散によるゼロショットペプチド結合子設計 [cs.CL, cs.AI]目的:ゼロショットペプチド結合子設計手法
    • ペプチド結合子は,創薬や生化学研究において不可欠であり,その設計は重要な課題である。
    • 既存手法は構造予測に依存し,複雑性や配列多様性の制限が生じている。
    • 本研究は,構造予測に頼らず,多様なペプチド結合子を生成する。
    • PepEDiffは,事前学習済みタンパク質埋め込みモデルから得られる潜在空間で直接ペプチド配列を生成する。
    • 拡散に基づくサンプリングにより,既知の結合子の分布を超えた新規配列の生成を可能にする。
    • TIGITを対象とした評価で,最先端手法を凌駕する性能を示し,汎用的なゼロショット設計フレームワークとしての可能性を示した。

    Link: https://arxiv.org/abs/2601.13327

  • 写像を超えて:最適輸送計画のスペクトル埋め込みによるドメイン不変表現 [cs.LG]目的:ドメイン不変表現の獲得
    • 機械学習において,学習時と推論時の分布のずれは重要な課題である。
    • 最適輸送に基づくドメイン適応は,輸送問題の正則化戦略に依存し,偏ったドメインアラインメントを生み出す可能性がある。
    • 滑らかな輸送計画を二部グラフとして解釈し,スペクトル埋め込みを通じてドメイン不変性を実現する。
    • 提案手法は,音楽ジャンル認識,音楽-音声識別などの音響適応ベンチマークで良好な性能を示した。
    • また,時間領域反射を用いた電気ケーブル欠陥検出・分類タスクにおいても高い性能を達成した。
    • スペクトル埋め込みによる表現は,ドメイン間の分布ずれに強いロバスト性を示す。

    Link: https://arxiv.org/abs/2601.13350

  • SpatialMem:言語と質問応答のための距離指標整合型長尺ビデオメモリ [cs.CV, cs.AI]目的:言語と質問応答のための長尺ビデオからの検索と知識獲得
    • ロボット工学や拡張現実において,環境理解は不可欠であり,視覚情報と言語情報を統合する技術が重要である。
    • 従来のシステムでは,長尺ビデオにおける空間的関係の把握や,複雑な環境における効率的な検索が課題であった。
    • 本研究は,空間的指標と整合したメモリ構造を構築し,長尺ビデオの理解を効率化し,空間的推論を可能にすることを目的とする。
    • SpatialMemは,3次元空間を指標として活用することで,ビデオ内のオブジェクトと場所を効率的に記憶し,検索することを可能にした。
    • 実験の結果,SpatialMemは,雑然とした環境や遮蔽物がある状況でも,安定したレイアウト推論,オフラインガイダンス,階層的な検索を維持できることが示された。
    • 二層記述メモリは経路レベルの接地を改善し,スケール変換に対するロバスト性も確認された。これらの結果は,SpatialMemが空間的知識に基づいた長尺ビデオ理解のための効率的かつ拡張可能なインターフェースであることを示唆する。

    Link: https://arxiv.org/abs/2601.14895

  • 知識グラフは暗黙的な報酬モデルである:経路由来の信号は構成的推論を可能にする [cs.AI, cs.CL]目的:構成的推論を可能にする経路由来の信号の活用
    • 専門科学分野における多段階推論は,高度な知識と複雑な関係性の理解を必要とするため重要である。
    • 大規模言語モデルは専門科学分野において,複雑なタスクの推論能力が十分ではないという課題がある。
    • 知識グラフを報酬モデルとして利用し,構成的な推論を促進することを目指す。
    • 知識グラフの経路から得られる報酬信号は,モデルが最終的な答えだけでなく,中間的な公理を構成することを促す「構成的ブリッジ」として機能する。
    • 本研究のアプローチは,GPT-5.2やGemini 3 Proなどのより大規模なモデルと比較して,複雑な推論タスクにおいて有意に優れた性能を示す。
    • 知識構造に基づく推論は,インテリジェントな推論に向けたスケーラブルかつ効率的な経路を提供する可能性を示唆する。

    Link: https://arxiv.org/abs/2601.15160

  • 神経信号から臨床記録を生成 [cs.LG, cs.AI, eess.SP]目的:臨床用脳波記録からの異常パターン,診断所見,臨床的解釈をまとめた臨床報告書の生成
    • 長期脳波記録の解釈は,臨床診断において不可欠であり,医療現場での負担軽減が求められている。
    • 脳波記録の解析には専門知識と時間を要し,医療資源の制約や医師の負担が大きいという課題がある。
    • 本研究は,長期・可変長の脳波記録から臨床報告書を自動生成する基盤モデルを開発し,その課題解決を目指す。
    • 患者の病歴情報を用いることで,生成評価指標(ROUGE-1,METEORなど)において,平均70%~95%の向上が見られた。
    • 患者病歴を用いないゼロショット設定においても,既存手法と比較して高い生成スコア(0.43~0.52)を達成した。
    • 本研究で開発したCELMは,脳波と言語のマルチモーダル学習を可能にする基盤モデルであり,臨床応用への可能性を示唆する。

    Link: https://arxiv.org/abs/2601.22197

  • LLMベースのプランナーにおける局所化とエラー修正 [cs.AI]目的:LLMベースのプランナーにおけるエラー修正手法の提案
    • LLMは推論能力が高いが,古典的プランニング課題では制約違反が頻発する
    • LLMは指示されたドメイン制約に違反する計画を生成しやすく,実用性に課題がある
    • 特定のエラー箇所に焦点を当てた修正により,LLMの計画生成精度向上を目指す
    • 提案手法L-ICLは,制約違反が発生したステップに対し,最小限の修正例を指示に付加する
    • 8x8グリッドワールドにおいて,L-ICLは60例の学習データで89%の有効な計画を生成し,最良のベースラインを30%上回った
    • L-ICLは,他のドメイン(グリッドワールド,迷路,倉庫番,ブロックワールド)やLLMアーキテクチャにおいても顕著な改善を示した

    Link: https://arxiv.org/abs/2602.00276

  • EDIS:エントロピーダイナミクスによるLLMの推論診断 [cs.LG]目的:LLMの推論過程におけるエントロピーダイナミクスの不安定性を示す指標
    • 大規模言語モデルの推論能力向上は,AI研究における重要な課題である。
    • 既存手法では,モデルの確信度を静的な量として扱うため,推論過程の微妙な変化を捉えきれない。
    • 推論過程のエントロピーダイナミクスに着目し,誤りのパターンを特定することで,より正確な推論を可能とする。
    • トークンレベルのエントロピー軌跡を分析し,正解と不正解の推論を区別する特徴的なパターンを明らかにした。
    • 誤った推論は,持続的な不確実性の増大や,一時的な確信度の上昇と下降を含む不安定なダイナミクスを示すことが判明した。
    • 提案するEDIS指標は,推論時の選択において高い有効性を示し,推論精度を大幅に向上させる。

    Link: https://arxiv.org/abs/2602.01288

  • ポストトレーニング後の探索回復:大規模推論モデルのための潜在的探索デコーディング [cs.CL, cs.LG]目的:大規模推論モデルにおける探索能力の回復
    • 推論能力の向上は,AIの応用範囲を広げ,様々な問題解決に貢献する重要な課題である。
    • 強化学習によるポストトレーニングは推論能力を高めるが,探索が低下し,性能向上の限界がある。
    • 中間層の潜在的な探索を活用し,探索能力を回復することで,推論性能をさらに向上させる。
    • 提案手法であるLEDは,追加の学習やパラメータなしに,pass@1およびpass@16の精度をそれぞれ0.61および1.03パーセントポイント改善した。
    • LEDは,中間層の事後分布を集約し,エントロピーが最大となる深さの構成を選択することで,探索候補を生成する。
    • ポストトレーニングによって低下した探索能力を,潜在的な探索デコーディングによって回復できることを示した。

    Link: https://arxiv.org/abs/2602.01698

  • Geminiによる科学研究の加速:事例研究と共通技術 [cs.CL, cs.AI]目的:科学研究の加速における大規模言語モデルの活用
    • 科学的発見は人類の進歩に不可欠であり,その効率化は重要である。
    • 専門的な数学的発見において,LLMの能力は十分には解明されていない。
    • AIと人間の効果的な共同研究手法を確立し,新たな発見を支援する。
    • Geminiモデルを用いた事例研究から,理論計算機科学をはじめとする様々な分野での問題解決,反証,新たな証明生成が確認された。
    • 反復的な洗練,問題分解,学際的な知識転移などが,効果的な共同研究の共通技術として抽出された。
    • AIを厳密な批判者として利用したり,ニューロシンボリックループに組み込んだりする手法も,その可能性を示唆している。

    Link: https://arxiv.org/abs/2602.03837

  • LLMエージェントにおける不確実性量化:基礎,新たな課題,そして機会 [cs.AI]目的:LLMエージェントにおける不確実性量化の基礎研究
    • LLMの安全性確保は重要であり,その鍵となるのが不確実性量化である。
    • 既存研究は単一ターン応答に集中しており,複雑なエージェント環境での不確実性評価が不足している。
    • インタラクティブなエージェント環境に適応した,体系的な不確実性量化フレームワークを確立すること。
    • 本研究は,既存の不確実性量化手法を包含する,エージェント向け不確実性量化の一般的な定式化を提示した。
    • エージェント特有の課題として,不確実性推定手法の選択,異質エンティティの不確実性,動的な不確実性モデリング,ベンチマークの不足を特定した。
    • 実世界のエージェントベンチマーク$\tau^2$-benchを用いた数値分析を行い,今後の展望と未解決問題を示した。

    Link: https://arxiv.org/abs/2602.05073

  • 特徴から行動へ:伝統的AIとエージェントAIシステムにおける説明可能性 [cs.AI]目的:静的予測とエージェント環境における説明手法の比較
    • AIの説明可能性は,AIの信頼性と透明性を高め,人間との協調を促進する上で重要である。
    • 従来のAIの説明手法は静的な予測に焦点を当てており,エージェントAIのような動的な行動を伴うシステムには適用が困難である。
    • 本研究は,エージェントAIにおける行動の失敗原因を特定し,説明可能性を高めるための手法を模索する。
    • 従来の属性ベースの説明手法は,静的な分類タスクでは安定した特徴量のランキングを提供するが,エージェントAIの実行レベルの失敗診断には信頼できない。
    • 一方,エージェント環境におけるトレースに基づいた評価は,行動の破綻箇所を特定し,状態追跡の一貫性のなさが失敗に大きく影響することを示した。
    • これらの結果は,自律的なAI行動の評価と診断において,軌跡レベルの説明可能性へのシフトを促すものである。

    Link: https://arxiv.org/abs/2602.06841

  • プロンプトレベルの戦略的欺瞞によるアライメント監査のストレステスト [cs.LG]目的:戦略的欺瞞に対するアライメント監査の堅牢性評価
    • AIの安全性確保は重要であり,潜在的な危険性を特定する必要がある。
    • 既存のアライメント監査手法は,戦略的な欺瞞に対して十分な検証がなされていない。
    • 欺瞞戦略を用いたストレステストにより,監査手法の脆弱性を明らかにすること。
    • 自動的なレッドチームパイプラインを構築し,特定の監査手法に合わせた欺瞞戦略を生成した。
    • その結果,ブラックボックスおよびホワイトボックス両方の監査手法が欺瞞されるプロンプトが発見された。
    • 本研究は,活性化に基づく戦略的欺瞞の初の証拠を示し,現在の監査手法の脆弱性を示唆する。

    Link: https://arxiv.org/abs/2602.08877

  • エージェント強化学習のための潜在ポアンカレ形状 [cs.LG]目的:LLMエージェントの学習手法
    • 大規模言語モデルの能力向上は,複雑な問題を解決する上で重要である。
    • 強化学習によるLLMの学習は,報酬設計や探索の効率性に課題がある。
    • ポアンカレ空間を利用し,効率的な探索と報酬設計を実現する。
    • 提案手法LaPhaは,MATH-500においてQwen2.5-Math-1.5Bの精度を66.0%から88.2%に向上させた。
    • 価値ヘッドによる探索により,LaPha-1.5BはAIME'24で56.7%の精度を達成した。
    • さらにLaPha-7Bは,AIME'24で60.0%,AIME'25で53.3%の精度を達成した。

    Link: https://arxiv.org/abs/2602.09375

  • 自律的な数学研究へ [cs.LG, cs.AI, cs.CL, cs.CY]目的:数学研究の自律化
    • 数学は科学技術の基盤であり,その進歩は社会全体の発展に不可欠である。
    • 高度な数学研究は,膨大な文献調査と長期的視野に立った証明構築を必要とする。
    • AIによる数学研究の支援と,その自律的な遂行能力の向上を目指す。
    • 基礎モデルの進展により,数学オリンピックで金メダル相当の成績を出す推論システムが実現した。
    • Aletheiaは,自然言語で解答を生成・検証・修正する数学研究エージェントであり,高度な推論能力とツール利用を特徴とする。
    • AIが人間の介入なしに論文を生成したり,未解決問題に解答したりするなど,AI支援数学研究における顕著な成果が示された。

    Link: https://arxiv.org/abs/2602.10177

  • LLM交渉エージェントにおけるMERITフィードバックの効果 [cs.AI]目的:LLM交渉エージェントの交渉能力向上
    • 交渉は,論理的思考だけでなく,人間の心理や状況適応能力が重要となる分野である。
    • 既存の評価指標では,LLMの交渉における戦略的深さや人間的要因への適応性を十分に捉えられていない。
    • 人間の嗜好に合致した,より戦略的で相手を意識した交渉能力を持つLLMを開発すること。
    • 本研究で開発したAgoraBenchは,欺瞞や独占などの複雑な状況を含む9つの設定で,多様な戦略モデリングを可能にする。
    • 人間の効用理論に基づいた評価指標(エージェントの効用,交渉力,獲得率)は,LLM交渉が人間の嗜好にどれだけ合致しているかを間接的に測定する。
    • MERITフィードバックメカニズムを導入することで,LLMの交渉パフォーマンスが大幅に向上し,より深い戦略的行動と相手への意識が確認された。

    Link: https://arxiv.org/abs/2602.10467

  • コラボレーション型バイブコーディングにおける人間指導の重要性 [cs.HC, cs.AI, cs.SI]目的:コラボレーション型バイブコーディングにおける人間指導の効果
    • コード記述は抽象的な概念を技術へ変換する重要な手段であり,社会変革を促してきた。
    • バイブコーディングは普及しているが,生産性や協調への影響,人間役割は未解明である。
    • 人間とAIの協調によるバイブコーディングの最適化を目指し,人間指導の有効性を検証する。
    • 人間はバイブコーディングに対し,AIにはない効果的な高レベル指示を与えることが示された。
    • AIによる指示は,しばしばパフォーマンス低下を招くことが明らかになった。
    • 人間が指示を与え,AIが評価を行うハイブリッドシステムが最も良い結果を示すことが確認された。

    Link: https://arxiv.org/abs/2602.10473

  • 時間的注意における確率的オウム返し -- 対角シンクの抑制 [cs.LG]目的:時間的注意メカニズムにおける対角シンクの解析と抑制手法の提案
    • 空間・時間構造を扱うモデルの発展は,様々な応用分野において重要である。
    • 因果的注意や時間的畳み込みにおける過剰な圧縮により,系列の初期トークンへの偏りが生じる。
    • 時間的注意メカニズムにおける同様の偏りを理論的に解析し,抑制策を提案すること。
    • 時間的注意層のヤコビアンの期待値に関する感度限界を導出し,対角シンクの存在を理論的に示した。
    • 対角シンクは系列長に依存すること,およびオフ対角注意スコアに影響を与えることを明らかにした。
    • 提案する正則化手法が,実験的に有効であることを示した。

    Link: https://arxiv.org/abs/2602.10956

  • DataChef:強化学習によるLLM適応のための最適なデータレシピの作成 [cs.CL, cs.AI]目的:LLM適応のためのデータレシピ生成
    • 大規模言語モデルの性能向上には高品質な学習データが不可欠であり,その作成が重要である。
    • データレシピの設計は主に手作業に頼っており,専門知識と多大な労力が必要とされる。
    • データレシピの自動生成を通じて,LLMの学習プロセスを効率化し,自己進化型AIシステム開発を目指す。
    • DataChef-32Bは,ダウンストリーム性能を予測するプロキシ報酬を用いたオンライン強化学習によりデータレシピを生成する。
    • 6つの保留タスクにおいて,DataChef-32Bが生成したレシピは人間の専門家が作成したレシピと同等の性能を達成した。
    • 特に,Qwen3-1.7B-Baseを数学ドメインに適応させた場合,AIME'25で66.7を達成し,公式のポストトレーニングチェックポイントを上回った。

    Link: https://arxiv.org/abs/2602.11089

  • SWE-MiniSandbox:ソフトウェア工学エージェント構築のためのコンテナフリー強化学習 [cs.RO, cs.SE, cs.AI, cs.LG]目的:ソフトウェア工学エージェントの強化学習におけるスケーラビリティ向上
    • ソフトウェア開発の自動化は,生産性向上や品質確保に不可欠であり,そのための新たな手法が求められている。
    • 従来の強化学習パイプラインでは,タスク分離のためにコンテナが用いられ,ストレージの肥大化や環境構築の遅延が課題となっていた。
    • 本研究は,コンテナに依存しない軽量な環境構築により,スケーラブルな強化学習環境の実現を目指す。
    • SWE-MiniSandboxは,カーネルレベルのメカニズムを用いた隔離ワークスペースにより,システムオーバーヘッドを大幅に削減した。
    • ディスク使用量はコンテナベースのパイプラインの約5%,環境準備時間は約25%に短縮された。
    • 評価性能は従来のコンテナベースのパイプラインと同等であり,リソース制約のある環境でも実用的な強化学習環境を提供できる。

    Link: https://arxiv.org/abs/2602.11210

  • ピークと累積:多段階LLM攻撃検出のためのプロキシレベルスコアリング式 [cs.CR, cs.AI]目的:多段階LLM攻撃検出のためのスコアリング式
    • LLMの利用拡大に伴い,悪意のあるプロンプトによる攻撃のリスクが高まっている。
    • 従来の攻撃検出は単一ターンに焦点を当てており,複数ターンにわたる攻撃への対応が課題であった。
    • プロキシ層でLLMを呼び出すことなく,会話レベルのリスクスコアを算出する式を開発すること。
    • 提案手法「ピークと累積」スコアリング式は,ピークリスク,持続率,カテゴリ多様性を組み合わせる。
    • WildJailbreakとWildChatデータセットを用いた評価で,再現率90.8%,誤検知率1.20%,F1スコア85.9%を達成した。
    • 持続パラメータの感度分析では,rho≈0.4で再現率が12%増加し,偽陽性率はほぼ変化しないことが示された。

    Link: https://arxiv.org/abs/2602.11247

  • コンセンサスの罠:データアノテーションにおける主観性と「正解」の幻想の解剖 [cs.AI, cs.CL, cs.CY]目的:データアノテーションにおける主観性と「正解」の幻想に関する研究
    • 機械学習の発展には,質の高い学習データが不可欠であり,その中核となるのが「正解」データである。
    • 「正解」データは,人間の判断の不一致を単なるノイズと捉えがちであり,その限界が認識されていない。
    • 人間の不一致を重要な情報源として捉え直し,文化的に適切なモデル構築を目指す。
    • 本研究では,2020年から2025年の主要な研究発表を分析し,データアノテーションの実践における「コンセンサスの罠」のメカニズムを明らかにした。
    • 位置的明確性の欠如や,モデルを介したアノテーションへの依存が,アンカリングバイアスを引き起こし,人間の判断が反映されにくい状況にある。
    • 地理的偏りが西洋規範を普遍的な基準として押し付け,経済的圧力下にあるデータワーカーが真実を隠蔽する構造的な問題が示唆された。

    Link: https://arxiv.org/abs/2602.11318