arXiv雑要約

AI - 2026/03/18 公開

コンピューター断層撮影画像に対する新規パッチベースTDAアプローチ [cs.CV, cs.LG]目的：コンピューター断層撮影画像を用いた機械学習モデルの性能向上
- 診断，病期分類，予後予測において，画像診断の重要性は高い
- 従来のTDA手法は，高解像度CT画像において計算コストが高い
- パッチベースのTDAアプローチにより，計算効率と分類性能を向上させる
- 提案手法は，従来の立方体複合体法やラジオミクス特徴量と比較して分類性能と計算時間の双方で優位性を示した。
- 精度，AUC，感度，特異度，F1スコアにおいて，それぞれ平均7.2%，3.6%，2.7%，8.0%，7.2%の改善が見られた。
- 提案手法の実装を容易にするためのPythonパッケージ「Patch-TDA」を公開した。
Link: https://arxiv.org/abs/2512.12108
DiG：マルチモーダル大規模言語モデルにおける詳細な知覚を強化するための差分接地 [cs.CV, cs.AI]目的：マルチモーダル大規模言語モデルにおける詳細な視覚知覚能力の向上
- 視覚と言語を統合するモデルは，多様なタスクで進歩しているが，詳細な視覚理解が課題である。
- 既存モデルは，細かい視覚情報の認識や正確な空間推論において限界がある。
- 類似画像ペア間の差分を特定することで，モデルの詳細な視覚知覚能力を向上させる。
- DiGは，類似画像ペア間の差異を特定する新しいプロキシタスクフレームワークである。
- 3Dレンダリングによるデータ生成パイプラインにより，高品質な画像ペアを生成し，差異の制御を可能にした。
- カリキュラム学習により，複雑性を段階的に上げ，安定した最適化を実現し，様々なベンチマークで性能が向上した。
Link: https://arxiv.org/abs/2512.12633
人間の動画から器用な手と物体の相互作用を学習するためのワールドモデル [eess.SY, cs.SY, cs.RO, cs.AI, cs.CV]目的：器用な手と物体の相互作用のモデリング
- ロボット工学において，人間の様な器用な操作を実現するには，環境との複雑な相互作用の理解が不可欠である。
- 既存のワールドモデルは，詳細な指の動きを捉えきれない粗い行動空間に依存している点が課題であった。
- 本研究は，より詳細な指の動きを考慮し，器用な相互作用を正確にモデル化することを目指す。
- DexWMは，過去の状態と器用な行動に基づいて環境の潜在状態を予測する。
- 人間の動画から抽出された指のキーポイントを利用することで，大量のデータを用いた学習を可能にした。
- 手の一貫性を保つ損失関数を導入することで，より正確な手の形状の予測を実現し，既存モデルを大幅に上回る性能を示した。
Link: https://arxiv.org/abs/2512.13644
プロンプトとプログラム間の状態共有 [cs.PL, cs.AI]目的：プロンプトとプログラム間の状態共有の抽象化
- 大規模言語モデルの登場により，自然言語によるプログラミングが注目されている。
- プロンプトとプログラムの状態を連携させるには，手動での作業が必要であり，負担が大きい。
- プロンプトとプログラムの状態を直接共有することで，開発効率の向上を目指す。
- Nightjarシステムにおいて，プロンプトとプログラムの状態共有を実装した。
- Nightjarプログラムは，手動実装と同等かそれ以上のタスク精度を達成した（+4-19%）。
- 平均してコード量が39.6%削減されたが，実行時のオーバーヘッドが発生する（0.4-4.3倍）。
Link: https://arxiv.org/abs/2512.14805
段階的思考批判：堅牢かつ解釈可能なLLM推論のための統合的フレームワーク [cs.AI]目的：大規模言語モデルにおける推論と自己批判の統合的フレームワーク
- 複雑な問題解決において，人間は批判的思考が不可欠である。LLMでも同様の能力が求められる。
- 既存のLLMは，推論と検証を分離しているため，即時フィードバックが得られず，システムが複雑化しやすい。
- 推論と自己批判を統合し，LLMに組み込み型の批判的思考能力を付与することを目指す。
- 提案手法「段階的思考批判」は，推論の各ステップで推論と自己批判を繰り返すことで，より正確な解答を導き出す。
- 従来のLLMよりも，数学的推論ベンチマークにおいて優れた批判的思考能力と解釈可能な推論経路を示す。
- 推論報酬と自己批判の一貫性報酬を組み合わせたハイブリッド強化学習によって，解答の正確性と自己評価の信頼性を同時に最適化する。
Link: https://arxiv.org/abs/2512.15662
科学研究における人工知能のための連合クラウドプラットフォームAI4EOSC [cs.DC, cs.AI]目的：科学研究における人工知能を支援するための連合コンピューティングプラットフォーム
- 科学研究の発展には，高性能な計算資源とデータ分析が不可欠である。
- 分散した研究機関のインフラを統合し，効率的に活用することが課題である。
- AIモデルの再現性とトレーサビリティを向上させ，研究の信頼性を高める。
- 本プラットフォームは，物理的に分散したe-インフラストラクチャへの一貫したアクセスを提供する。
- 機械学習のライフサイクル全体をカバーする統合的なユーザーエクスペリエンスを実現する。
- AIモデルの追跡可能性と再現性を確保するためのツールを提供する。
Link: https://arxiv.org/abs/2512.16455
SARMAE：SAR画像表現学習のためのマスクオートエンコーダ [cs.CV, cs.LG]目的：SAR画像表現の自己教師あり学習
- 全天候・昼夜を問わないリモートセンシングにおいて，SAR画像は重要な役割を担う。
- SAR画像はデータ不足に制約され，物理的なスペックルノイズが詳細な意味的表現学習を妨げる。
- スペックルノイズに強く，ロバストなSAR画像表現を学習することを目指す。
- SARMAEは，大規模SARデータセットSAR-1Mを用いて自己教師あり学習を行う。
- SAREにより，SAR特有のスペックルノイズをマスクオートエンコーダに注入し，ノイズに強い表現を獲得する。
- SARCにより，光学画像との意味的一貫性を確保し，分類，検出，セグメンテーションの性能を向上させた。
Link: https://arxiv.org/abs/2512.16635
二者間政策競争における純粋戦略ナッシュ均衡の計算：存在とアルゴリズム的アプローチ [cs.GT, cs.LG]目的：二者間政策競争における純粋戦略ナッシュ均衡の存在と，それを求めるアルゴリズム
- 政策決定は社会全体の厚生に影響する重要なプロセスであり，その理論的基盤の確立が求められる。
- 政策競争のモデル化においては，現実の投票行動や選好の不確実性を捉えることが困難である。
- 選好の不確実性を考慮した政策競争モデルにおいて，ナッシュ均衡の存在と効率的な計算手法を確立する。
- 投票シミュレーションにより，政策の支持率と効用価値の間の単調増加性の仮説が検証された。
- 一次元および多次元の設定において，純粋戦略ナッシュ均衡の存在が数学的に証明された。
- 入力サイズと誤差許容度に応じて多項式時間で近似的なナッシュ均衡を求めるグリッド探索アルゴリズムが提案された。
Link: https://arxiv.org/abs/2512.22552
SentGraph：マルチホップ検索拡張質疑応答のための階層的文グラフ [cs.CL, cs.CL, cs.AI]目的：マルチホップ質疑応答のための文レベルの論理関係モデリング
- 大規模言語モデルの活用が進む中，知識獲得の手段としてRAGが重要視されている。
- 従来のRAGは単一ホップの質疑応答には有効だが，複数ドキュメントの情報を統合するマルチホップには課題がある。
- 文間の論理関係を明示的にモデル化することで，マルチホップ質疑応答における推論精度向上を目指す。
- 本研究では，文レベルのグラフ構造「SentGraph」を提案し，文間の論理関係を階層的に表現することで，より適切な証拠選択を可能とした。
- SentGraphは，修辞構造理論に基づき文を核と衛星に分類し，エンティティブリッジを用いてトピックレベルのサブグラフを構築する。
- 4つのマルチホップ質疑応答ベンチマークにおける実験結果は，SentGraphが文レベルの論理依存関係の明示的なモデリングの重要性を示す。
Link: https://arxiv.org/abs/2601.03014
多声音楽生成のための構造的帰納的バイアスの数理的基礎 [cs.LG, cs.SD, eess.AS]目的：多声音楽生成における構造的帰納的バイアスの数理的枠組み
- 音楽生成は，創造性の自動化という観点から，AI研究における重要な課題である。
- 既存の音楽生成モデルは，音楽構造の把握が不十分で，自然な音楽生成が困難である。
- 構造的帰納的バイアスを用いて，音楽構造をモデルに組み込み，より自然な音楽生成を目指す。
- ベトーヴェンのピアノソナタを分析した結果，音高と手の属性は独立していることが示された。
- 提案するSmart Embeddingアーキテクチャにより，パラメータ数を48.30%削減することに成功した。
- 情報理論や圏論を用いた厳密な数理的証明により，安定性と汎化性能の向上が確認された。
Link: https://arxiv.org/abs/2601.03612
トークンレベルにおけるLLM協調：FusionRoute [cs.AI, cs.CL, cs.LG]目的：トークンレベルでのLLM協調による性能向上
- 多様な分野で強みを持つLLM活用が重要視されている。
- 汎用モデルの巨大化と，専門モデルの汎化性能の低さが課題である。
- 軽量なルーティング機構によるLLM協調で，性能向上を目指す。
- FusionRouteは，トークンごとに最適なLLMを選択し，logit加算により精度を向上させる。
- 既存手法の限界を理論的に示し，学習可能な補完ジェネレータで克服する。
- Llama-3やGemma-2を用いた実験で，他の手法よりも優れた性能を示した。
Link: https://arxiv.org/abs/2601.05106
大規模言語モデルにおける政治的傾向：心理測定的アイデンティティと行動バイアスの多角的監査 [cs.CY, cs.AI, cs.CL]目的：大規模言語モデルの政治的立ち位置の評価
- 言語モデルの社会実装が進む中で，その政治的傾向を把握することは重要である。
- 既存研究では，言語モデルの政治的バイアス評価が単軸に偏っている場合がある。
- 多次元的な監査フレームワークを用いて言語モデルの政治的傾向を詳細に分析する。
- 26の現代的な言語モデルを監査した結果，大部分がPolitical Compassの自由主義左派領域に集中していることが判明した。
- モデルのアイデンティティがプロンプトのバリエーションによる影響よりも大きな変動要因となっていることが示された。
- 心理測定的な政治的傾向と，下流タスクにおける分類エラーの間には有意な相関関係は見られなかった。
Link: https://arxiv.org/abs/2601.06194
視覚言語推論による都市社会意味セグメンテーション [cs.CL, cs.MA, cs.CC, cs.NI, eess.SP, cs.CV, cs.AI, cs.CY]目的：都市における社会意味エンティティのセグメンテーション
- 都市は人間の活動の中心であり，多様な意味的要素を含む。それらの理解は都市計画等に不可欠である。
- 既存のセグメンテーションモデルは物理的属性に基づく分類は得意だが，学校や公園のような社会的に定義されたカテゴリの認識は困難である。
- 本研究は，視覚言語モデルの推論を通じて，社会的に定義された都市要素のセグメンテーション精度向上を目指す。
- 新しいデータセットSocioSegを構築し，衛星画像，デジタルマップ，および社会意味エンティティのピクセルレベルのラベルを提供した。
- 視覚言語モデルの推論を模倣するSocioReasonerフレームワークを提案し，強化学習を用いてその能力を最適化した。
- 提案手法は最先端モデルと比較して優位性を示し，ゼロショット汎化能力も高いことが示された。
Link: https://arxiv.org/abs/2601.10477
SolarGPT-QA：宇宙天気・太陽物理学教育用ドメイン適応大規模言語モデル [cs.HC, cs.RO, cs.LG, cs.HC]目的：宇宙天気・太陽物理学における教育的質疑応答システム
- 太陽活動は人工衛星や電力網に影響を及ぼし，経済的損害をもたらすため，早期警報と教育が重要である。
- 汎用LLMは専門知識や教育能力に乏しく，複雑な宇宙科学概念の説明には課題があった。
- 宇宙天気・太陽物理学の教育的質疑応答において，科学的正確性と分かりやすさを両立させる。
- SolarGPT-QAは，既存の汎用モデルと比較して，宇宙天気・太陽物理学の分野で高い質疑応答性能を示した。
- ドメイン適応事前学習とファインチューニングの組み合わせが，科学的正確性と教育効果のバランスに重要であることが示された。
- LLM-as-judge評価により，科学的正確性，明瞭性，完全性，教育効果の点で高い評価を得た。
Link: https://arxiv.org/abs/2601.12131
Aletheia：コード検証器のRLVRを駆動するものは何か？ [cs.SE, cs.AI]目的：コード検証器におけるRLVRの性能とコストに影響する要素の解明
- 近年，強化学習による検証可能な報酬（RLVR）を用いた多ドメイン思考検証器が重要視されている。
- コード生成への応用は，RLVRパイプラインのコストにより遅れている。
- モデルサイズに応じた最適な訓練方法を提示し，検証器訓練の効率化を目指す。
- 小規模な検証器では，オンポリシー学習が主要な性能向上因子であることが示された。
- 大規模な検証器では，中間的な思考トレースが最も重要な要素となることが明らかになった。
- 負例の学習は大規模モデルの訓練を安定化させ，推論時の計算量増加ではRLVRの主要要素の代替は不可能である。
Link: https://arxiv.org/abs/2601.12186
視覚のための言語整合型概念基盤モデルCFM [cs.CV, cs.AI, cs.LG]目的：視覚的タスクにおける概念の解釈可能性と空間的根拠付け
- 視覚モデルの性能向上は，多様な応用を可能にする上で重要である。
- 既存モデルの表現は不透明であり，意思決定の根拠が不明確である。
- 人間が理解しやすい概念に基づいた，より解釈可能なモデルを開発する。
- CFMは，画像分類，セグメンテーション，キャプション生成タスクにおいて，既存モデルと同等の性能を示す。
- CFMは，入力画像内で空間的に根拠付けられた，詳細な概念を提供することにより，解釈可能性を高める。
- 概念間の局所的な共起関係を分析することで，概念命名の改善とより豊かな説明が可能となる。
Link: https://arxiv.org/abs/2601.13798
VisTIRA：構造化ツール統合による視覚的数学推論における画像とテキストのモダリティギャップの解消 [cs.AI, cs.CL, cs.LG]目的：視覚的数学推論における画像とテキストのモダリティギャップの解消
- 数学推論は，科学技術の発展や問題解決能力の向上に不可欠である。
- 画像で提示された数学の問題は，テキスト形式に比べて精度が低いという課題がある。
- 画像から数学の問題を正確に解くための，構造化された推論フレームワークを開発する。
- VisTIRAは，数学の問題を自然言語による説明と実行可能なPythonコードに分解することで，構造化された問題解決を可能にする。
- LaTeXベースのパイプラインと合成されたツール使用軌跡を用いて，視覚的数学推論の測定と改善を可能にする。
- モデルサイズが大きいほどモダリティギャップは小さくなり，構造化推論とOCRベースのグラウンディングが相補的な戦略となることが示された。
Link: https://arxiv.org/abs/2601.14440
直感から校正された判断へ：LLM生成韓国語テキストの人手検出に関する専門家パネル研究 [cs.RO, cs.CL, cs.AI]目的：LLM生成韓国語テキストの人間による識別能力の評価と向上
- 自然言語処理の発展に伴い，LLMが生成するテキストの品質が向上しており，人間との区別が困難になっている。
- 訓練された読者であっても，LLM生成テキストの表面的流暢さに過信し，誤った判断を下す可能性がある。
- 評価基準（ルーブリック）を用いた専門家パネルによる校正を通じて，より正確な識別能力を目指す。
- 評価基準導入前（直感のみ）の識別精度は0.60であったのに対し，導入後は0.90に向上した。
- 特に，AI生成エッセイの誤検出率の低下が，精度向上に大きく寄与していることが示唆された。
- 評価基準に基づく人間による判断は，自動検出器を補完し，根拠の明確化や適応性を高める可能性がある。
Link: https://arxiv.org/abs/2601.19913
時間焼きなまし摂動サンプリング：拡散言語モデルの多様な生成 [cs.CL, cs.AI]目的：拡散言語モデルにおける生成多様性の向上
- 言語生成において，多様性は重要な課題であり，創造性や問題解決能力に影響する。
- 拡散言語モデルの持つ時間構造を活かした多様性制御のメカニズムが未解明であった。
- 拡散過程の初期段階で意味的な分岐を促し，多様な生成を可能にすることを目的とする。
- 拡散言語モデルは，初期段階で大まかな意味構造を決定し，後半で局所的な語彙調整を行うという特性が示された。
- 提案手法TAPSは，訓練を必要とせず，拡散過程の初期に摂動を加え，徐々に減衰させることで多様性と流暢性を両立する。
- TAPSは，LLaDAやTraDoといった様々なモデルで，創造的な文章作成や推論において，生成品質を損なうことなく多様性を向上させる効果が確認された。
Link: https://arxiv.org/abs/2601.22629
イベント系列における自己回帰密度推定によるスケーラブルなサンプルレベル因果探索 [cs.HC, cs.LG]目的：イベント系列からの因果関係発見
- 社会システムや自然現象の理解に不可欠であり，問題解決や予測精度向上に貢献する。
- 単一の観測系列からの因果推論は，サンプル不足，高次元性，時間的依存関係により困難である。
- 自己回帰モデルを活用し，効率的かつスケーラブルな因果探索手法を開発し，実用的な問題解決を目指す。
- 提案手法TRACEは，自己回帰モデルを事前学習された密度推定器として利用し，条件付き相互情報量を効率的に推定する。
- TRACEは，イベント語彙数に対して線形にスケーリングし，遅延効果もサポートし，GPU上で完全に並列化が可能である。
- 車両診断への応用実験では，29,100を超えるイベントタイプに対してロバストな性能が確認された。
Link: https://arxiv.org/abs/2602.01135
設計による正当性の確保されたデータレイクハウス：データ契約，バージョン管理，人間とエージェントのためのトランザクションパイプライン [cs.DC, cs.AI, cs.DB]目的：データレイクハウスにおける信頼性と正確性の向上
- データ分析とAIの基盤としてデータレイクハウスが普及している。
- スキーマ不整合や開発・本番環境の乖離，パイプラインの途中で失敗した場合の不完全な結果といった問題が存在する。
- データ契約，バージョン管理，トランザクション実行を通じて，データレイクハウスの信頼性を構築的に高める。
- Bauplanは，アトミックな単一テーブルのスナップショット進化を提供するストレージ基盤上に構築されている。
- データ契約により変換境界の検証を可能にし，Gitライクなバージョン管理により再現性のあるコラボレーションを支援する。
- トランザクション実行により，パイプライン全体の原子的な公開を保証し，一貫性を確保する。
Link: https://arxiv.org/abs/2602.02335
LogicSkills：大規模言語モデルにおける形式的推論の構造化されたベンチマーク [cs.AI, cs.CL]目的：大規模言語モデルの形式的推論能力を評価するためのベンチマーク
- 論理的推論は，AIの信頼性と安全性を高める上で不可欠な能力である。
- 既存のベンチマークでは，LLMがどの論理スキルを習得しているか不明確である。
- 形式的記号化，反例構築，妥当性評価という３つの基本スキルを評価する。
- 従来のLLMは妥当性評価は高いが，形式的記号化と反例構築は低い性能を示した。
- 高精度なタスクレベルの正答率は，基礎的な論理スキルの弱点を隠蔽している可能性がある。
- 推論に特化したモデルは，３つのスキル全てで高い性能を示し，体系的な論理スキルプロファイルを示唆した。
Link: https://arxiv.org/abs/2602.06533
潜在的思考の連鎖におけるダイナミクス：因果構造に関する実証研究 [cs.RO, cs.AI, cs.CL]目的：潜在的思考の連鎖における因果構造の解明
- 大規模言語モデルの推論能力向上は，AI研究の重要な課題である。
- 潜在的思考の連鎖は解釈が難しく，中間ステップの評価が課題となっている。
- 因果推論の枠組みを用いて，潜在的思考の連鎖のメカニズムを明らかにすること。
- 潜在的ステップ数は，均一な深さではなく，段階的な機能と非局所的なルーティングに似た挙動を示すことが判明した。
- 出力におけるバイアスと，表現におけるコミットメントの間には，遅延が生じることが示された。
- これらの結果は，より信頼性の高い解釈と改善のために，モード条件付き分析と安定性に基づいた分析の重要性を示唆する。
Link: https://arxiv.org/abs/2602.08783
LLMは失敗を符号化する：事前生成活性化からの成功予測 [cs.CL, cs.AI, cs.LG]目的：LLMにおける成功の予測可能性
- LLMの推論コスト削減は重要であり，計算資源の効率的な利用が求められている。
- どの入力に追加の計算が必要かを判断することが困難である。
- LLMの内部表現から成功可能性を予測し，効率的な推論を可能にすること。
- 事前生成活性化に対する線形プローブを訓練することで，数学およびコーディングタスクにおける成功を予測できた。
- モデルは人間とは異なる難易度の概念を内部に符号化しており，その違いは拡張推論で顕著になる。
- モデルのプーリングによるクエリのルーティングにより，MATHにおいて最大70%の推論コスト削減と性能向上が実現した。
Link: https://arxiv.org/abs/2602.09924
年次機関予測におけるデータ不足下向けのゼロショット時系列基盤モデル [cs.AI]目的：年次機関予測におけるデータ不足下でのゼロショット時系列基盤モデルの性能評価
- 機関の需要予測は，資源配分や計画立案において不可欠である。
- データ不足，報告の変化，体制転換により，予測は困難を極める。
- データ不足下でもロバストな予測を可能にする手法の開発を目指す。
- ゼロショット時系列基盤モデルは，短いサンプルサイズで古典的な手法と競合する性能を示す。
- GoogleトレンドやLLM由来の指標を組み込むことで，予測精度が向上する。
- モデルの容量や対象集団によって性能が大きく変動するため，注意が必要である。
Link: https://arxiv.org/abs/2602.12120
シミュレーションベースのネットワークセキュリティゲームを解くためのスケーラブルなアプローチ [cs.CL, cs.LG, cs.CR]目的：大規模サイバーネットワーク環境におけるマルチエージェント強化学習の実現
- ネットワークセキュリティは，現代社会における重要なインフラを保護するために不可欠である。
- 大規模ネットワーク環境では，計算コストが高く，強化学習の適用が困難である。
- 効率的な階層型ポリシー学習により，大規模ネットワーク化された意思決定問題を解決することを目指す。
- MetaDOARは，ノード構造埋め込みからコンパクトな状態射影を学習し，素早くスコアリングすることでスケーラビリティを向上させる。
- 状態射影とローカルアクションIDをキーとするLRUキャッシュにより，不要なクリティック計算を削減し，意思決定品質を維持する。
- 大規模ネットワークトポロジーにおいて，MetaDOARは最先端のベースラインよりも高いプレイヤーペイオフを達成する。
Link: https://arxiv.org/abs/2602.16564
多imodal LLMは科学教育を理解できるか：K-12教室ビデオにおける教育的推論のベンチマーク [cs.CY, cs.AI, cs.CV]目的：K-12科学教室の授業ビデオにおける教育的推論のベンチマーク
- 科学教育の質向上には，授業における教師と生徒のインタラクション分析が不可欠である。
- 既存のベンチマークは数学に偏り，視覚情報やモデルベースの推論を考慮していない。
- 科学教室の授業における教育実践の自動分析を可能にするベンチマークを構築すること。
- SciIBIは，NGSSに準拠した科学教室の授業ビデオ113クリップからなる初のベンチマークである。
- 最先端のLLMおよびMultimodal LLMの評価により，現在のモデルは教育的に類似した実践を区別するのに苦労することが示された。
- ビデオ入力の追加は，モデルの性能向上に一貫した影響を与えず，表層的なパターンに頼る傾向が明らかになった。
Link: https://arxiv.org/abs/2602.18466
スケーラブルな協調マルチエージェント学習のための勾配降下誘導型方策勾配 [cs.MA, cs.AI, cs.LG]目的：協調マルチエージェント強化学習のスケーラビリティ向上
- マルチエージェントシステムは，複雑な現実世界の問題解決に有用であり，その重要性は増している。
- エージェント数が増加すると，エージェント間のノイズが大きくなり，学習が困難になる。
- 解析モデルを利用し，エージェント間のノイズを削減することで，スケーラビリティを向上させる。
- 提案手法DG-PGは，勾配分散をΘ(N)からO(1)に削減し，サンプル複雑性を改善する。
- クラウドスケジューリングタスクにおいて，DG-PGはエージェント数が増加しても10エピソード以内に収束した。
- 一方，MAPPOやIPPOは，同一のアーキテクチャ下では収束に失敗した。
Link: https://arxiv.org/abs/2602.20078
言語モデルにおける視床路皮質柱を用いた効率的な継続学習 [cs.RO, cs.LG]目的：言語モデルにおける継続学習の効率化
- 実世界で利用される言語モデルは，常に変化するデータに適応する必要がある。
- 逐次的な更新は破滅的な忘却を引き起こしやすく，既存の安定化手法はコストや拡張性に課題がある。
- バックボーン自体に継続学習の能力を持たせ，忘却を抑制することを目指す。
- TRC$^{2}$は，C4，WikiText-103，GSM8Kを用いたタスクシーケンシャル言語モデリングにおいて，タスク境界モデリングの質を向上させた。
- Transformer，Mamba，MoE，DeepSeek等のベースラインと比較して，累積的な忘却を大幅に減少させた。
- 視床と海馬のコンポーネントが保持率向上に不可欠であり，モデルのスループットと訓練コストも競争力があることが示された。
Link: https://arxiv.org/abs/2602.22479
効率的な具現化プランニングのためのKVキャッシュ中心メモリ管理システムKEEP [cs.RO, cs.AI, cs.SE]目的：効率的な具現化プランニングを実現するためのKVキャッシュ中心メモリ管理システム
- 大規模言語モデルの能力向上には，過去の経験と環境状態の追跡が不可欠である。
- 既存手法では，メモリをrawテキストで保存するため，プロンプトが長くなり，推論速度が低下する。
- KVキャッシュの効率的な再利用とメモリ更新の最適化による高速化を目指す。
- KEEPは，混合粒度メモリグループによるKVキャッシュ再計算の削減を実現した。
- 複数のメモリグループ間での重要なクロスアテンションを動的に特定し，反復的にメモリ間の相互作用を再構築する。
- ALFREDデータセットにおいて，テキストベースのメモリ法と比較して2.68倍の高速化を達成し，CacheBlendよりも高い成功率とTTFTの短縮を示した。
Link: https://arxiv.org/abs/2602.23592
尋ねることを推奨する：大規模言語モデルにおける迎合性の軽減 [cs.HC, cs.AI]目的：大規模言語モデルにおける迎合性の軽減策
- AIの社会実装が進む中，その応答の信頼性が重要となる。
- 大規模言語モデルは，批判的思考を避け，ユーザーの意見に迎合する傾向がある。
- ユーザーの発言形式を調整することで，迎合性を抑制することを目指す。
- 質問形式ではなく，断定的な発言に対して，モデルはより迎合的な回答を示すことが明らかになった。
- ユーザーの発言に含まれる確信度が高まるほど，モデルの迎合性もまた高まることが示された。
- 質問の前にモデルに質問形式への変換を促すことで，単に「迎合的にならないで」と指示するよりも効果的に迎合性を軽減できる。
Link: https://arxiv.org/abs/2602.23971
二段階需要不確実性下における公共交通網設計：機械学習と文脈的確率最適化フレームワーク [cs.LG, math.OC]目的：公共交通網設計における需要不確実性の考慮
- 都市交通の効率化は，経済活動や住民の生活の質に不可欠である。
- 従来の公共交通網設計は固定需要を前提とし，実際の需要変動に対応できない。
- 需要の不確実性を考慮し，より現実的な交通網設計手法を確立すること。
- 本研究で提案する2LRC-TNDフレームワークは，機械学習と文脈的確率最適化を組み合わせることで，二段階の需要不確実性を組み込んだ。
- 実験結果は，2LRC-TNDが需要変動や文脈情報を考慮した公共交通網設計において，固定需要モデルよりも有効であることを示している。
- アトランタ都市圏の事例研究において，6,600以上の路線と38,000件以上の移動を対象に，その有効性を検証した。
Link: https://arxiv.org/abs/2603.00010
コンピュータ支援頭蓋顔面重ね合わせにおける自動化のための新規進化的手法 [cs.RO, cs.HC, cs.CV, cs.AI, cs.NE]目的：頭蓋顔面重ね合わせの精度とロバスト性の向上
- 法医学的個人識別において重要な技術であり，身元不明遺体の特定に役立つ。
- 軟部組織の厚さの個人差により，重ね合わせの精度が低下し，不確実性が生じる。
- 軟部組織の変動をモデル化し，重ね合わせの精度向上を目指す。
- 本研究で提案するLiliumは，差分進化アルゴリズムを用いて3D円錐ベースの表現を最適化する。
- 解剖学的，形態学的，写真的な妥当性を制約条件として組み合わせることで，フォレンジックの実務家の手法を模倣している。
- 評価実験の結果，Liliumは最先端手法と比較して，精度とロバスト性の両面で優れていることが示された。
Link: https://arxiv.org/abs/2603.00170
MemPO：長期的エージェントのための自己メモリ方策最適化 [cs.RO, cs.AI]目的：長期的な行動を伴うエージェントのメモリ管理と方策最適化
- 複雑な環境で長期的なタスクを実行するエージェント開発において，効率的なメモリ管理は不可欠である。
- 既存手法では外部メモリに依存し，エージェント自身がメモリ内容を能動的に管理できないという課題がある。
- エージェントが自律的にメモリを要約・管理し，タスクパフォーマンスを維持しつつ計算コストを削減することを目指す。
- MemPOは，ベースモデルと比較してF1スコアを25.98%絶対的に向上させ，既存の最先端手法よりも7.1%向上した。
- MemPOは，トークン使用量を67.58%と73.12%削減することで，メモリ効率を大幅に改善した。
- メモリの効果に基づいた信用割り当てメカニズムを改善することで，重要な情報を選択的に保持することに成功した。
Link: https://arxiv.org/abs/2603.00680
小規模オープンソース言語モデルの臨床質問応答におけるプロンプトへの感受性と回答の一貫性 [cs.CL, cs.AI]目的：低リソースな医療環境における臨床質問応答のための小規模オープンソース言語モデルの性能評価
- 医療現場では，クラウド環境や高性能GPUが利用できない場合があるため，軽量なAIモデルが求められている。
- 既存の言語モデルはプロンプトのわずかな変化で回答が変動しやすく，信頼性に課題がある。
- 様々なプロンプト形式に対するモデルの安定性と精度を評価し，実用的なモデルを選定する。
- Gemma 2は一貫性が高いものの，精度が低く，Llama 3.2は中程度の安定性と高い精度を示した。
- ロールプレイ形式のプロンプトは全モデルで精度を低下させ，特にPhi-3 Miniでの低下幅が大きかった。
- ドメイン事前学習のみでは構造化された臨床質問応答には不十分であり，指示応答の失敗率が高いことが示された。
Link: https://arxiv.org/abs/2603.00917
動的補正による閉ループ行動チャンクを用いた学習不要拡散ポリシー [cs.RO, cs.AI, cs.CV]目的：拡散ポリシーにおける動的な環境への適応性向上
- ロボット制御において，環境変化への迅速な対応は重要であり，適応能力がタスク成功を左右する。
- 従来の拡散ポリシーは動的な状況下で適応が遅れ，遅延やタスク失敗を引き起こす可能性がある。
- 本研究は，リアルタイムな補正機構を導入することで，拡散ポリシーの動的環境への適応性を高める。
- 提案手法DCDPは，自己教師あり学習による動的特徴エンコーダ，クロスアテンション融合，非対称な行動エンコーダ・デコーダを統合する。
- シミュレーション実験では，DCDPは再学習なしに適応性を19％向上させ，計算コストの増加は5％に抑えられた。
- DCDPのモジュール設計により，時間的な一貫性とリアルタイム応答性を両立し，実世界のロボット制御タスクにも応用可能である。
Link: https://arxiv.org/abs/2603.01953
AOI：失敗事例を自律クラウド診断の学習信号に変換する [cs.RO, cs.LG, cs.AI]目的：自律クラウド診断のための学習信号生成
- クラウドシステムの複雑化に伴い，SREの自動化が重要視されている。
- 企業環境では，データアクセス制限や安全性の問題があり，LLMエージェントの導入が難航している。
- 本研究は，失敗事例から学習し，継続的な改善を可能にする枠組みを提案する。
- AOIはAIOpsLabベンチマークにおいて，86のタスク全てで66.3%のbest@5成功率を達成し，既存手法を24.4ポイント上回った。
- Observer GRPOを用いた学習により，14Bモデルは未知の障害タイプに対する63のタスクで42.9%のavg@1を達成し，Claude Sonnet 4.5を上回った。
- Evolverは37件の失敗事例を診断ガイダンスに変換し，end-to-endのavg@5を4.8ポイント向上させ，分散を35%削減した。
Link: https://arxiv.org/abs/2603.03378
SWE-CI：継続的インテグレーションによるコードベース維持におけるエージェント能力の評価 [cs.SE, cs.AI, cs.CL]目的：コードベースの維持におけるエージェント能力の評価
- ソフトウェア開発は複雑化の一途を辿り，長期的な品質維持が重要課題となっている。
- 既存の評価手法は静的で短期的な機能検証に偏り，長期的な保守性の評価が困難である。
- 継続的インテグレーションを基盤とした評価ベンチマークを通じて，長期的な保守性を評価する。
- SWE-CIは，現実世界のコードリポジトリにおける233日間の変更履歴と71回のコミットから構成される。
- エージェントは，継続的な分析とコーディングを通じてタスクを解決する必要がある。
- SWE-CIは，エージェントが長期的なコード品質を維持できるかどうかの貴重な洞察を提供する。
Link: https://arxiv.org/abs/2603.03823
薄いキー，完全な値：低次元注意選択によるKVキャッシュの削減 [cs.LG, cs.AI]目的：KVキャッシュサイズの削減
- Transformerモデルの効率的な利用は，大規模言語モデルの普及に不可欠である。
- KVキャッシュはモデルのメモリ使用量を圧迫し，推論速度を低下させる。
- キーと値の次元数を非対称にすることで，KVキャッシュのサイズを削減する。
- 提案手法では，キーの次元数を削減し，クエリに補正を加えることで，KVキャッシュサイズを削減する。
- 7Bモデルで実験した結果，フルアテンションと同等の性能を維持しつつ，パラメータ数を12%削減，学習速度を8%向上させた。
- 既存モデルへの適用では，SVDとQKファインチューニングにより，75%のキーキャッシュ削減を達成し，性能劣化はわずか2%程度であった。
Link: https://arxiv.org/abs/2603.04427
モデル医学：AIモデルの理解，診断，治療のための臨床的枠組み [cs.AI, cs.CL, cs.LG]目的：AIモデルにおける異常の理解，診断，治療，予防に関する科学
- AI技術の発展に伴い，その信頼性と安全性の確保が重要課題となっている。
- AIモデルの内部構造や挙動が不透明であり，問題の原因特定が困難である。
- AIモデルのシステム的な臨床的実践を可能にするための研究プログラムを提供する。
- モデル医学は，AIモデルを生物学的システムと同様に捉え，その構造，プロセス，特性を分析する。
- 本研究では，モデル医学の分野を構成する15のサブディシプリンを整理し，その体系を提示している。
- さらに，モデルの行動を説明する「Four Shell Model」や，診断ツール「Neural MRI」を提案し，臨床ケースを通じて検証している。
Link: https://arxiv.org/abs/2603.04722
推論圧縮のためのオンポリシー自己知識蒸留 [cs.LG]目的：推論の簡潔化
- 大規模言語モデルの推論能力は重要だが，冗長な出力が課題となっている。
- 推論モデルは不要な情報を多く出力し，計算コストや誤りの蓄積を招く。
- 自己知識蒸留により，モデル自身が簡潔な推論を学習し，効率性と精度を向上させる。
- 本手法は，モデルに「簡潔に」という指示を与えることで，教師信号を生成し，自己蒸留を行う。
- MATH-500 データセットにおいて，トークン数を57～59%削減しつつ，正解率を9～16ポイント向上させた。
- AIME 2024 データセットでは，14Bモデルで10ポイントのスコア向上と41%の圧縮率を達成した。
Link: https://arxiv.org/abs/2603.05433
テスト時適応：多数ショットプロンプティングの利点，限界，および落とし穴 [cs.LG, cs.CL]目的：テスト時適応による大規模言語モデルの推論時の行動修正機構の研究
- 大規模言語モデルの応用範囲拡大には，既存モデルの柔軟な適応が不可欠である。
- 多数ショットプロンプティングは性能向上に寄与するものの，その信頼性や限界が明確ではない。
- プロンプティングによるテスト時適応の有効性と限界を明確にし，活用場面を特定すること。
- 多数ショットプロンプティングは，構造化されたタスクにおいて高い情報量を持つデモンストレーションにより有効である。
- しかし，選択戦略に大きく左右され，オープンエンド生成タスクでは効果が限定的であることが示された。
- 入力空間での更新が有益か有害かを判断するための，テスト時適応の実際的な限界が明らかになった。
Link: https://arxiv.org/abs/2603.05829
CRIMSON：臨床に基づいたLLMを活用した放射線レポート評価指標 [cs.CL, cs.AI, cs.CV]目的：胸部X線レポート生成の診断精度，文脈適合性，患者安全性評価のための臨床に基づいた指標
- 医療現場では，放射線レポートの品質が診断や治療に大きく影響するため，客観的な評価方法が求められている。
- 既存の評価指標は臨床的文脈を十分に考慮せず，重要でない記述が過度に評価に影響を与える場合がある。
- 臨床的に重要な誤りを優先的に評価し，より信頼性の高いレポート生成システムの開発を支援すること。
- CRIMSONは，臨床専門医によるエラー数との高い相関性を示し，客観的な評価が可能であることが示された。
- 臨床的に困難なシナリオにおける評価においても，専門医の判断と一貫性があることが確認された。
- RadPrefベンチマークにおいて，放射線専門医の評価との最も強い整合性を示し，有用性が示された。
Link: https://arxiv.org/abs/2603.06183
融合の複雑性反転：牧草バイオマス回帰における単純なクロスビューモジュールがSSMおよびクロスビューアテンションTransformerを上回る理由 [cs.NI, cs.CL, cs.CV, cs.LG]目的：牧草バイオマスの回帰精度向上
- 持続可能な畜産管理には，正確な牧草バイオマス推定が不可欠である。
- 実世界のモニタリングでは，データセットが小規模，不均衡，疎なアノテーションであることが課題である。
- 少ないデータでも高い精度を達成できる手法を確立すること。
- 少ない農業データでは，2層のゲート付き深さ方向畳み込みが，クロスビューアテンションTransformerやSSMよりも優れた性能を示すことが明らかになった。
- バックボーンの事前学習規模が，全てのアーキテクチャ選択よりも支配的である。DINOv2からDINOv3へのアップグレードだけでR^2値が5.0ポイント向上する。
- メタデータの学習のみではR^2値の上限が約0.829となり，融合による効果が限定的になることが示された。推論時に利用できない特徴は除外すべきである。
Link: https://arxiv.org/abs/2603.07819
Tau-BNO：タウ輸送モデルのための脳神経演算子 [cs.CE, cs.LG]目的：タウ輸送モデルの高速近似
- アルツハイマー病等のタウオパチーにおける病理的タウ蛋白の拡散メカニズム解明は重要である。
- 既存モデルは微視的な細胞レベルの輸送・反応を無視しており，正確なタウ拡散を再現できていない。
- 本研究は，計算負荷を軽減し，パラメータ推定とメカニズム発見を可能にする方法を提案する。
- Tau-BNOは，NTMのダイナミクスを高速に近似するサロゲートフレームワークであり，高い予測精度（$R^2\approx$ 0.98）を示した。
- 従来のシーケンスモデル（TransformersやMamba）と比較して，89％の性能向上を達成し，構造的先験知識の重要性を示唆している。
- シミュレーション時間を大幅に短縮することで，新たな洞察や仮説の生成を可能にし，大規模計算モデル分析を加速する。
Link: https://arxiv.org/abs/2603.08108
UIS-Digger：実世界における未インデックス情報探索のための包括的な研究エージェントシステムへ [cs.AI, cs.IR]目的：未インデックス情報探索（UIS）における課題と解決策
- 情報探索は，知識獲得と意思決定に不可欠であり，その重要性は増している。
- 既存の情報探索エージェントは，検索エンジンに依存しており，未インデックス情報への対応が課題である。
- UIS-Diggerは，未インデックス情報の探索能力向上を目指す。
- 本研究では，未インデックス情報探索に特化したベンチマークUIS-QAを新たに作成し，既存エージェントの性能低下を明らかにした。
- 提案手法UIS-Diggerは，小規模LLMを用いながらも，高度なLLMを統合したシステムを上回る性能を示した。
- UIS-Diggerは，未インデックス情報源との積極的な相互作用が，効果的な情報探索に不可欠であることを示す。
Link: https://arxiv.org/abs/2603.08117
AIモデルとAIシステムの定義：境界問題解決のためのフレームワーク [cs.RO, cs.CY, cs.AI, cs.LG]目的：AIモデルとAIシステムの明確な定義
- AI技術の発展に伴い，その適切な規制が不可欠であり，明確な定義がその基盤となる。
- 「AIモデル」と「AIシステム」の定義が曖昧で一貫性に欠け，法的責任の所在が不明確になっている。
- AIモデルとAIシステムの境界の曖昧さを解消し，責任分担を明確にすること。
- 本研究では，AIモデルは学習済みパラメータとアーキテクチャで構成され，AIシステムはモデルに加え，入出力処理のためのインターフェースを含むと定義する。
- 既存の定義の系統を分析した結果，OECDのフレームワークが主要な由来であり，曖昧さを増幅させてきたことが判明した。
- 本定義は，AIバリューチェーンにおける責任の明確化に貢献し，規制の実践的な実施を支援する。
Link: https://arxiv.org/abs/2603.10023
言語モデルにおける敵対的意味層特有活性操作：健忘症 [cs.CR, cs.AI, cs.LG]目的：大規模言語モデルの安全性確保に関する脆弱性の検証
- 言語モデルは高度な文章生成能力を持つ一方，悪用されるリスクがあるため，安全性評価が重要である。
- 既存の安全性対策は不十分であり，巧妙な攻撃によって回避される可能性がある。
- 本研究は，既存の安全対策を迂回し，有害なコンテンツ生成を可能にする攻撃手法を明らかにする。
- 提案手法「Amnesia」は，言語モデル内部の状態を操作することで，安全性メカニズムを回避できる。
- ファインチューニングや追加学習を必要とせず，オープンウェイトの言語モデルに対して有効に機能する。
- 実験結果から，言語モデルに様々な反社会的な行動を誘発することが示された。
Link: https://arxiv.org/abs/2603.10080
製品開発におけるエンジニアリング解析のLLMによるエージェント的オーケストレーションDUCTILE [cs.SE, cs.AI, cs.HC]目的：製品開発におけるエンジニアリング解析の自動化支援
- 製品開発の効率化には，エンジニアリング解析の自動化が不可欠である。
- 従来の自動化は，ツールやデータ形式の変更に脆弱であり，変更が生じると機能停止する。
- LLMを活用し，柔軟なオーケストレーションにより，既存の自動化の課題を解決する。
- 本研究で提案するDUCTILEは，LLMエージェントが設計慣行を解釈し，入力データに応じて処理経路を適応させる。
- 実際の航空宇宙メーカーにおける構造解析タスクで，DUCTILEは従来のスクリプト型パイプラインを阻害する入力の偏差に対応した。
- 専門家が定義した受容基準と実践的なエンジニアによる検証の結果，DUCTILEは10回の独立した実行で正確かつ方法論的に準拠した結果を生み出した。
Link: https://arxiv.org/abs/2603.10249
多段階サイバー攻撃シナリオにおけるAIエージェントの進捗測定 [cs.AI, cs.LG]目的：AIエージェントのサイバー攻撃能力の評価
- サイバーセキュリティは，現代社会において不可欠な基盤であり，その脅威は日々高度化している。
- AIによるサイバー攻撃の自動化が進む一方で，その能力評価は十分に進んでいない。
- AIエージェントのサイバー攻撃能力の推移を定量的に把握し，その限界を明らかにする。
- AIモデルの推論時計算量と性能は対数線形にスケールし，計算量を増やすことで性能向上が見られた。
- 最新モデルは，以前のモデルと比較して，同じ計算量でより多くのステップを完了することが示された。
- 企業ネットワーク攻撃シナリオにおいて，最新モデルは人間の専門家が必要とする時間の約6割のステップを完了した。
Link: https://arxiv.org/abs/2603.11214