arXiv雑要約

AI - 2026/06/16 公開

AVA-VLA：アクティブな視覚的注意による視覚-言語-行動モデルの改善 [cs.LG, cs.CV, cs.RO]目的：視覚-言語-行動モデルの性能向上
- ロボット工学において，人間の指示に基づいた複雑なタスク実行が求められている。
- 従来のモデルは，過去の情報を考慮せず，各時点の視覚情報を独立に処理する傾向がある。
- 部分的に観測可能な環境下でのロボット制御における課題解決を目指す。
- AVA-VLAは，過去のインタラクション履歴を考慮した再帰的な状態を用いて，行動生成を条件付けする。
- アクティブな視覚的注意機構により，指示と実行履歴に基づいて，重要な視覚領域に動的に注意を向ける。
- 標準的なロボットベンチマークや実世界のデュアルアーム操作タスクで，最先端の性能を達成した。
Link: https://arxiv.org/abs/2511.18960
DualGauge：LLMとコーディングエージェントによる仕様書のみからのコード生成のセキュリティ・機能性の同時ベンチマーク自動化 [cs.SE, cs.AI, cs.CR]目的：LLMとコーディングエージェントによる仕様書のみからのコード生成の，セキュリティと機能性の同時評価
- LLM等のコード生成技術は開発効率を向上させるが，その信頼性確保が重要である。
- 生成されたコードの機能性だけでなく，セキュリティ上の脆弱性の評価が課題となっていた。
- 機能性とセキュリティを同時に評価する自動化されたフレームワークの構築とその有効性検証。
- 機能的正確性はコード生成の信頼性を過大評価しており，最も高性能なモデルでも，どの言語においてもセキュリティと機能性を両立する成功率は15％を下回る。
- モデルの規模やチューニング等の要素は，セキュリティと機能性を両立する性能向上に繋がらないことが示された。
- 反復的なスキャフォールドは，仕様書のみのタスクにおいて直接生成と比較して優位性を示さなかった。
Link: https://arxiv.org/abs/2511.20709
ニューロインスパイア型マルチモーダル視覚言語モデルは，メンバーシップ推論プライバシー漏洩に対して堅牢であるか？ [cs.CV, cs.AI, cs.CR]目的：マルチモーダル視覚言語モデルにおけるメンバーシップ推論攻撃によるプライバシー漏洩の脆弱性評価
- エージェントAIの発展に伴い，マルチモーダルモデルの利用が増加しており，プライバシー保護が重要になっている。
- 既存研究では，単一モダルのAIモデルのプライバシー攻撃が中心であり，マルチモーダルモデルの脆弱性評価は不十分である。
- 脳科学に着想を得た正則化手法を用いて，マルチモーダルモデルのプライバシー攻撃に対する耐性を高めることを目指す。
- BLIPモデルを用いたCOCOデータセット実験では，ニューロモデル（tau > 0）におけるMIA攻撃の成功率が平均ROC-AUCで24%低下した。
- モデルの有用性（MPNet，ROUGE-2指標による生成キャプションと参照キャプションの類似性）は，ニューロモデルとベースラインモデルで同程度に維持された。
- PaliGemma 2およびViT-GPT2モデルを用いた追加の評価実験により，同様の結果が一貫して確認された。
Link: https://arxiv.org/abs/2511.20710
CycliST：環状状態遷移に関する推論のためのビデオ言語モデルベンチマーク [cs.CV, cs.AI, cs.LG]目的：環状状態遷移に関するテキスト推論能力を評価するためのベンチマークデータセット
- 現実世界のプロセスを理解するためには，時間的な変化や周期的なパターンを認識することが不可欠である。
- 既存のビデオ言語モデルは，周期的な動きや視覚的変化といった時間的なパターンを捉えることが苦手である。
- ビデオ言語モデルの周期的な動体認識能力を向上させるための評価基準と課題を提示すること。
- CycliSTは，オブジェクトの動きや視覚的属性における周期的なパターンを特徴とする合成ビデオシーケンスを生成する。
- 現在の最先端のVLMsは，線形運動や軌道運動，色やスケールといった時間依存的な視覚的変化において，一般化に苦戦していることが示された。
- モデルのサイズやアーキテクチャは必ずしも性能と相関せず，どのモデルも全てのタスクで一貫して高い性能を示さなかった。
Link: https://arxiv.org/abs/2512.01095
微分可能最適化のための完全な一階層 [cs.LG]目的：微分可能最適化における勾配計算の効率化
- 機械学習において，最適化問題の組み込みは意思決定の重要な要素である。
- 陰関数微分による勾配計算は，ヘッセ行列を含む線形方程式の求解を必要とし，計算コストが高い。
- ヘッセ行列を回避し，一階情報のみを用いた勾配計算手法を開発すること。
- 提案手法は，微分可能最適化を双水準最適化問題として再定式化し，一階情報のみで勾配を計算する。
- アクティブ集合ラグランジュハイパーグラディエントオラクルを用いることで，ヘッセ行列の評価を回避し，近似保証を提供する。
- 双水準最適化問題に対する計算量は，非滑らか非凸最適化における最良のレートに匹敵する。
Link: https://arxiv.org/abs/2512.02494
視覚からのサンプル：拡散ブリッジによる観測埋め込み確率微分方程式を用いた視覚運動ポリシー学習 [cs.AR, cs.AI, cs.LG]目的：拡散モデルを用いた視覚運動ポリシーの生成
- ロボット制御において，多様な行動分布を捉えることが重要であり，拡散モデルはその有効性を示している。
- 既存手法では，観測をノイズ除去ネットワークの条件として扱うのみで，拡散過程の確率的ダイナミクスに統合されていない。
- 観測を確率的ダイナミクスに直接統合することで，より正確で信頼性の高い制御を実現することを目指す。
- 提案手法BridgePolicyは，観測情報を組み込んだ軌跡を構築し，ランダムノイズからのサンプリングではなく，情報豊かな事前分布からのサンプリングを可能にする。
- 異なる次元の分布を接続する拡散ブリッジの課題に対し，視覚および状態入力を統一し，行動表現との整合性を取る意味アライナーを導入した。
- シミュレーションおよび実世界のタスクにおいて，最先端の生成ポリシーと比較して，BridgePolicyが一貫して優れた性能を示した。
Link: https://arxiv.org/abs/2512.07212
スーダンにおける教師なし深層学習を用いた紛争関連火災のほぼリアルタイム検出 [cs.CV, cs.AI]目的：スーダンにおける紛争関連火災の影響を受けた地域の迅速なモニタリング
- 紛争地域における状況把握は，人道支援や治安維持において不可欠である。
- 紛争下では，迅速かつ正確な火災検出が困難であり，被害状況の把握が遅れる場合がある。
- 入手しやすい衛星データを用いて，紛争関連火災をほぼリアルタイムで検出する手法を開発する。
- 本研究では，軽量なVAEモデルを用いて，3m解像度のPlanet Labs衛星画像から火災被災地を約24～30時間以内に検出することに成功した。
- 提案手法は，既存のcosine distance，CVA，IR-MADといった手法と比較して，高い再現率とF1スコアを示した。
- 8バンド画像や時系列画像を用いた実験では，4バンド画像を用いた手法と比べて，性能向上はわずかであり，軽量なアプローチの有効性が示された。
Link: https://arxiv.org/abs/2512.07925
解釈を線形変換として：概念と意味の認知幾何学的モデル [cs.AI, cs.LG, cs.MA, cs.SI]目的：認知的に異質な主体間の概念，動機，影響のモデル化
- 概念や意味の理解は，人間社会におけるコミュニケーションや意思決定の根幹をなす重要な研究課題である。
- 主観的な価値観の違いから，コミュニケーションの齟齬や誤解が生じやすいという課題がある。
- 認知的な幾何学的構造を通して，概念の伝播，変容，消滅のメカニズムを解明することを目指す。
- 概念はベクトルとして表現され，その伝達は線形変換によって媒介される。
- 概念の伝達が成功するかどうかは，線形変換の零空間を回避できるかに依存する。
- リーダーシップは，説得や権威ではなく，表現可能性の範囲によって特徴づけられる。
Link: https://arxiv.org/abs/2512.09831
因果回路発見のための多粒度ノード刈り込み [cs.AI]目的：大規模言語モデルにおける特定の振る舞いに責任を持つ最小のサブネットワークの特定
- 大規模言語モデルの解釈可能性向上は，モデルの信頼性向上と制御に不可欠である。
- 既存手法は計算コストが高く，個々のニューロンに着目した詳細な分析が困難である。
- 計算効率と詳細度の両立により，より効率的かつ正確な回路発見を目指す。
- 提案手法は，既存手法よりもノード数の少ない回路を特定することができた。
- 粗粒度な手法で重要とされた多くのニューロンは，実際には不要であることが示された。
- 中間活性化を保持する必要がないため，メモリフットプリントが大幅に削減された（5〜10倍）。
Link: https://arxiv.org/abs/2512.10903
MedAI：NeurIPS CURE-BenchコンペティションにおけるTxAgentの治療薬的エージェント推論の評価 [cs.AI, cs.LG]目的：治療薬的エージェント推論の評価
- 臨床医学における治療決定は重要であり，AIによる支援は患者特性，疾患プロセス，薬理学的薬剤間の複雑な相互作用を考慮する必要がある。
- 既存のAIシステムは，安全性確保が難しく，推論の正確性やツール利用シーケンスが不十分である場合がある。
- 本研究は，正確かつ安全な治療薬選択のためのAIシステムの開発に貢献する。
- TxAgentは，Llama-3.1-8BモデルとToolUniverseを活用し，反復的な検索拡張生成（RAG）により治療薬的推論を行う。
- ツール呼び出しのための検索品質がモデル全体の性能に影響を与えることが示された。
- 改善されたツール検索戦略により性能向上が確認され，オープンサイエンスにおける優秀賞を受賞した。
Link: https://arxiv.org/abs/2512.11682
異種分散型連合学習のための通信効率の良いニューラル接線カーネル [cs.LG, cs.DC]目的：異種データ下での分散型連合学習の高速化
- 連合学習はプライバシー保護とデータ分散の利点があり，幅広い応用が期待される。
- 統計的異種性が高い場合，分散型連合学習の収束は遅延しやすいという課題がある。
- 本研究は，データ異種性下でも安定した高速な学習を実現する手法を提案する。
- 提案手法SPARKは，段階的に減衰するソフトラベル正則化を用いることで，ニューラル接線カーネルの更新にMomentumを安定的に適用する。
- 高い異種性下では，SPARKはベースラインと比較して約3倍速く収束し，通信量を最大約70%削減する。
- また，SPARKは様々なデータセット，ネットワークトポロジー，異種性レベルで高い精度を達成する。
Link: https://arxiv.org/abs/2512.12737
エンドツーエンド敵対的学習による時間変化オーディオエフェクトモデリング [cs.RO, cs.SD, cs.LG]目的：時間変化オーディオエフェクトのモデリング
- オーディオエフェクトは音楽制作や音響処理において不可欠であり，その高品質なモデリングが求められている。
- 時間変化エフェクトは，内部変調信号の抽出やアライメントが必要で，学習が困難であった。
- 入力と出力のオーディオ記録のみを用いて，時間変化エフェクトをモデリングし，変調信号抽出の課題を解決する。
- 敵対的生成ネットワーク（GAN）フレームワークを用いて，変調信号なしで時間変化エフェクトをモデリングすることが可能となった。
- 状態予測ネットワーク（SPN）により，モデルとターゲットを同期させる初期内部状態を推定し，精度が向上した。
- チャープ信号に基づく新しい指標により，変調の正確さを定量的に評価できることが示された。
Link: https://arxiv.org/abs/2512.15313
アルツハイマー病診断へのマルチモーダルアプローチ：立方体模写と認知評価からの幾何学的洞察 [cs.LG]目的：アルツハイマー病の分類
- 早期発見が重要であり，認知機能検査の簡便かつ情報量の多い評価手法が求められている。
- 立方体模写は認知機能評価に用いられるが，その幾何学的特徴の定量的な分析は困難であった。
- 立方体模写の幾何学的特徴をグラフ構造で表現し，アルツハイマー病の早期診断に役立てる。
- 立方体模写をグラフ構造としてモデル化することで，従来のピクセルベースの手法よりも高い識別性能が得られた。
- グラフ表現と認知検査データを統合したマルチモーダルモデルは，分類性能をさらに向上させた。
- SHAP分析により，コーナーの整合性やエッジの連続性に関連するグラフ構造が，アルツハイマー病の識別において重要な特徴であることが示された。
Link: https://arxiv.org/abs/2512.16184
AL-GNN：解析学習によるプライバシー保護とリプレイ不要な継続グラフ学習 [cs.LG, cs.AI]目的：継続グラフ学習における知識の忘却抑制と効率化
- グラフ構造データに対する機械学習は，ソーシャルネットワーク分析など幅広い分野で重要視されている。
- 既存手法は過去データの保存と再利用に依存し，プライバシー侵害や計算コスト増大の問題がある。
- バックプロパゲーションとリプレイバッファを不要にし，データプライバシーを保護しながら効率的な学習を実現する。
- AL-GNNは解析学習理論に基づき，閉形式の分類器更新と正則化された特徴量自己相関行列を用いて学習を行う。
- CoraFullデータセットにおいて平均性能が10%向上，Redditデータセットにおいて忘却率が30%以上低減された。
- バックプロパゲーションを不要にすることで，学習時間を約50%削減することに成功した。
Link: https://arxiv.org/abs/2512.18295
予測可能な遅延を持つ機械学習推論のスケジューリング [cs.LG]目的：機械学習推論のスケジューリング手法
- 機械学習の普及に伴い，推論処理の効率化が重要となっている。
- GPUリソースの競合による干渉が，遅延の予測を困難にしている。
- 高精度な干渉予測に基づく，遅延予測可能なスケジューリング。
- 既存の干渉予測手法は，粒度が粗く，ワークロードの変化に対応できないという限界があることが判明した。
- 粗粒度な手法は予測精度にずれを生じさせ，静的なモデルはワークロードの変化で性能が低下する。
Link: https://arxiv.org/abs/2512.18725
LLMの安全性を守るためにGPUは本当に必要か？スケーラブルな安全性確保のためのCPUクラスの分類器と多段階パイプライン [cs.CR, cs.AI, cs.CL, cs.LG]目的：LLMの入力に対するjailbreak攻撃のスクリーニングを行う安全分類器の性能評価
- LLMの安全性を確保することは，その社会実装において不可欠であり，誤用を防ぐ上で重要である。
- 既存の安全性確保システムはGPUに依存しており，コストと遅延が課題となっている。
- CPUベースの分類器による安全性確保の可能性を検証し，コスト効率の良いシステムを提案する。
- CPU分類器は，インディストリビューションデータにおいて，GPUベースのTransformerモデルと同程度の性能を発揮し，導入コストを大幅に削減できる。
- アウトオブディストリビューションデータにおいてはCPU分類器は誤判定を起こしやすいが，GPU段階で回復可能である。
- 敵対的難読化データにおいては，CPU分類器がGPUモデルを大きく上回る性能を示す。
- Regex，CPU，GPUの3段階パイプラインGuardChainは，トラフィックの80%をCPUで処理し，GPUによる補完を行うことで，効率的かつ高精度な安全性確保を実現する。
Link: https://arxiv.org/abs/2512.19011
誤差制御型適応数値補正によるニューラル演算子時間発展 [cs.LG, cs.CE]目的：非線形時間依存偏微分方程式の安定長期間予測
- 科学技術計算において，時間依存偏微分方程式の数値シミュレーションは不可欠である。
- ニューラル演算子は高速だが，誤差の累積に弱く，個々の予測経路の信頼性が課題である。
- 本研究は，誤差のオンライン監視と補正メカニズムを提供し，予測の安定性を向上させる。
- ANCHORは，事前学習済みのニューラル演算子と古典的数値解法を物理情報に基づき結合する。
- 指数移動平均を用いて残差を監視し，誤差の蓄積を検知して数値解法による補正を行う。
- 6つの偏微分方程式実験で，ANCHORは誤差の成長を抑制し，ロバスト性を向上させることが示された。
Link: https://arxiv.org/abs/2512.19643
フローマッチングによる対称群の発見 [cs.AI]目的：対称群の発見
- 物理現象の理解や機械学習の性能向上に不可欠であり，データに内在する対称性の知識が重要である。
- データの対称性を自動的に発見することは依然として困難な課題である。
- 対称性の発見を分布学習問題として捉え，内在する対称群を明らかにすることを試みる。
- LieFlowは，連続対称性と離散対称性を統一的に発見できる新しいフレームワークである。
- 合成データおよび実世界のデータセットにおいて，最先端のベースラインを凌駕する性能を示した。
- 特に離散対称性の識別において，顕著な性能向上を達成した。
Link: https://arxiv.org/abs/2512.20043
ハルシネーションの統一的定義：結局は世界モデルの愚かさだ！ [cs.CL, cs.AI, cs.LG, stat.ML]目的：ハルシネーションの統一的定義
- 大規模言語モデルの性能向上に伴い，その信頼性確保が重要課題となっている。
- 既存のハルシネーションの定義が分立しており，評価や対策の比較が困難である。
- ハルシネーションを「不正確な内部世界モデル」と定義することで，その本質を明確化する。
- ハルシネーションは，ユーザーに観測可能な形で，知識ベースとの矛盾やソースとの矛盾を生じさせる不正確な世界モデルに起因する。
- 本研究の枠組みは，参照する世界モデルと矛盾解決策を変えることで，既存の定義を包括的に説明できる。
- この統一的な見解は，評価における参照世界モデルの明確化，計画エラーとの区別，そして緩和戦略の議論に役立つ。
Link: https://arxiv.org/abs/2512.21577
大規模言語モデルにおける動的適応型推測デコード：Nightjar [cs.DC, cs.AI]目的：大規模言語モデルのサービスにおける推論高速化のための動的適応型推測デコード手法
- 大規模言語モデルの利用拡大に伴い，効率的な推論処理が重要となっている。
- 従来の推測デコードは負荷状況によって性能が変化し，最適な推測長さを決定することが困難である。
- 本研究は，負荷状況に応じて推測デコードを動的に制御し，システムのスループットを最大化することを目的とする。
- Nightjarは，要求負荷に応じて最適な推測長さを動的に選択することで，スループットを向上させる。
- 推測デコードが無益と判断された場合，積極的に停止し，GPUメモリ圧迫時にはドラフトモデルをCPUにオフロードする。
- 実験結果から，Nightjarは標準的な推測デコードと比較して，最大14.76%高いスループットと最大20.18%低いレイテンシを達成した。
Link: https://arxiv.org/abs/2512.22420
RollArt：大規模分散マルチタスクエージェントRLトレーニング [cs.DC, cs.AI, cs.LG]目的：大規模分散インフラにおけるマルチタスクエージェント強化学習のトレーニング
- LLMの能力向上には，大量の計算資源と効率的な学習方法が不可欠である。
- 既存システムはハードウェアの多様性を活かしきれておらず，同期オーバーヘッドが大きい。
- ROLLARTは，ハードウェアに最適化された分散トレーニングで，効率性とスケーラビリティを高める。
- ROLLARTは，各パイプラインステージを最適なハードウェアにマッピングすることで，トレーニングのスループットを向上させた。
- ROLLARTは，既存のRLシステムと比較して，1.31～2.05倍のトレーニング時間短縮を実現した。
- 3,000以上のGPUを持つAlibabaクラスタで，数十億パラメータのMoEモデルのトレーニングにおいて，ROLLARTの安定性とスケーラビリティが実証された。
Link: https://arxiv.org/abs/2512.22560
FasterPy：LLMベースのコード実行効率最適化フレームワーク [cs.SE, cs.AI]目的：Pythonコードの実行効率最適化
- コード性能は重要であり，最適化はソフトウェア開発の不可欠な要素である。
- 従来の最適化手法はルール設計に手間がかかり，汎用性に欠ける点が課題である。
- LLMを活用し，低コストかつ効率的にPythonコードの実行効率を向上させる。
- FasterPyは，既存のパフォーマンス改善コードペアと測定値から構築された知識ベースを用いたRAGとLoRAを組み合わせている。
- PIEベンチマークにおける実験結果は，FasterPyが既存モデルよりも複数の指標で優れた性能を示すことを示している。
- FasterPyツールと実験結果は，https://github.com/WuYue22/fasterpy で公開されている。
Link: https://arxiv.org/abs/2512.22827
動的経路生成によるマルチエージェント議論の均質性打破 [cs.RO, cs.AI]目的：マルチエージェント議論における有効性の向上
- 大規模言語モデルを活用したマルチエージェントシステムは，複雑な問題解決に貢献する重要な技術である。
- 既存手法では，エージェントが同一の推論経路に陥りやすく，建設的な議論が阻害される課題がある。
- 多様な経路生成と厳密なステップごとの論理批判を通じて，議論の質を高めることを目指す。
- DynaDebateは，動的経路生成，プロセス中心の議論，トリガーベースの検証エージェントの３つのメカニズムを導入した。
- 実験結果から，DynaDebateは多くのベンチマークにおいて優れた，または競争力のある性能を発揮することが示された。
- エージェント間の合意が形成されない場合，外部ツールを用いて客観的な解決を目指す点が特徴である。
Link: https://arxiv.org/abs/2601.05746
Akasha 2：ハミルトニアン状態空間双対性と視覚言語共同埋め込み予測アーキテクチャ [cs.CV, cs.AI]目的：視覚言語モデルにおける，ハミルトニアン状態空間双対性とVL-JEPAの統合
- 近年，視覚と言語を統合したモデルが注目されており，様々な応用が期待されている。
- 既存のモデルでは，長期的な時間的・空間的整合性の維持が課題となっていた。
- 物理学に基づいた誘導的バイアスを組み込むことで，この問題を解決することを目指す。
- Akasha 2は，最先端のビデオ予測性能（FVD: 287）を達成した。
- 拡散モデルと比較して，4倍高速な画像生成が可能である。
- Transformerベースラインと比較して，3-18倍高速な推論速度を実現し，エネルギー保存則も維持される。
Link: https://arxiv.org/abs/2601.06212
非IIDデータに対するデータ協調分析を用いたシングルラウンドクラスタ化連邦学習 [cs.RO, cs.LG]目的：非IIDデータ環境下におけるクラスタ化連邦学習の効率化
- データプライバシー保護が重要視される中，分散学習の需要が高まっている。
- クライアント間データの統計的異質性が大きい場合，既存の連邦学習は性能が低下する。
- データ協調分析を活用し，少ない通信ラウンドで効率的な学習を実現する。
- 提案手法DC-CFLは，ラベル分布間の全変動距離を用いてクライアント間の類似度を定量化する。
- 階層的クラスタリングによりクライアントをクラスタ化し，データ協調分析によってクラスタごとの学習を行う。
- 実験結果から，DC-CFLは複数ラウンドのベースラインと同等の精度を1ラウンドで達成可能であることが示された。
Link: https://arxiv.org/abs/2601.09304
批判的関与型プラグマティズム：AI科学評価ツールにおける科学的規範と社会プラグマティズム認識論 [cs.CY, cs.AI]目的：AI科学評価ツールの信頼性評価に関する規範
- 科学研究の信頼性評価は，研究の質を確保し，科学の発展に不可欠である。
- 既存の評価指標は文脈を無視され，誤用されるリスクがある。
- AI科学評価ツールの目的と信頼性を吟味する規範を提示し，透明性を促進すること。
- 本研究は，批判的関与型プラグマティズムを科学的規範として提案し，AI科学評価ツールの目的と信頼性の検討を促す。
- AI科学評価ツールの作成者は，設計，訓練，ベンチマークの詳細を透明に報告し，目的別の信頼性評価を可能にするべきである。
- これらのツールは，科学的信頼性の客観的判断者ではなく，批判的議論の対象であるという認識が重要である。
Link: https://arxiv.org/abs/2601.09753
SDFLoRA：プライバシー保護のための選択的デカップルドFederated LoRA [cs.LG, cs.AI]目的：異種クライアントにおけるプライバシー保護型ファインチューニングの選択的デカップルドFederated LoRA
- 大規模言語モデルの利用拡大に伴い，分散データへの適応とプライバシー保護が重要課題となっている。
- クライアント間のランクやデータ分布の異質性が，LoRA更新の集約を不安定化させ，偏りを生じさせる。
- クライアント固有の情報を保護しつつ，集約の安定化と汎用的な性能向上を目指す。
- SDFLoRAは，クライアントの更新を共有成分とプライベート成分に分離することで，異質性への対応とプライバシー保護を両立する。
- 共有成分のみを集約することで，ノイズ注入を局所的な方向に限定し，ユーティリティとプライバシーのトレードオフを改善する。
- 複数のベンチマークにおいて，既存のFederated LoRAと比較して，SDFLoRAが優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2601.11219
適応的$k$近傍探索グラフモデル [cs.RO, cs.LG, cs.AI]目的：大規模な応用における，$k$近傍探索アルゴリズムの推論速度と精度のトレードオフ改善
- 人工知能における非パラメトリック分類の基礎であり，多様な分野で活用されている。
- 大規模データセットでは，推論速度と精度の両立が課題となっている。
- グラフ構造により推論時の計算負荷を訓練段階に移行し，高速かつ高精度な分類を実現する。
- 提案手法は，推論速度の大幅な向上を実現し，リアルタイム性能を達成した。
- 6つの多様なデータセットで8つの最先端手法と比較し，分類精度を損なうことなく高速化を実証した。
- このアーキテクチャは，$k$近傍探索のボトルネックを解消し，グラフベースの非パラメトリック学習のための適応的な構造を提供する。
Link: https://arxiv.org/abs/2601.16509
大規模言語モデルの継続的ファインチューニングにおける破滅的忘却のメカニズム分析 [cs.LG, cs.CL]目的：大規模言語モデルにおける破滅的忘却のメカニズム
- 言語モデルの性能向上は目覚ましいが，継続学習時の知識の喪失が課題となっている。
- 新しい知識を獲得する際に，過去に学習した能力が失われる「破滅的忘却」が問題である。
- 破滅的忘却が起きる原因を特定し，その対策を講じることを目指す。
- 20種類の最先端モデルにおける破滅的忘却を比較分析した結果，出力のずれや意味論的変化が確認された。
- 特に，初期層の注意ヘッドでエントロピー分散が，中間層から深層のネットワークで表現崩壊が見られた。
- Low-Rank Circuit Projection (LRCP)という新しい手法により，先祖知識の最大94.2%を保持しつつ，適応速度も維持できることが示された。
Link: https://arxiv.org/abs/2601.18699
ポリシー事前分布による安全な探索 [cs.LG, cs.AI, cs.RO]目的：強化学習における安全な探索手法
- 実環境での適応を可能にするため，安全な探索は不可欠である。
- 既存手法では，安全性を保証しつつ効率的な学習が困難である。
- 事前分布を活用し，安全性を担保しながら最適な方策へ収束する。
- 提案手法SOOPERは，確率的ダイナミクスモデルを用いて楽観的な探索と悲観的なフォールバックを両立する。
- 学習を通して安全性が保証され，累積後悔の上界が確立された。
- 主要な安全な強化学習のベンチマークと実機実験で，SOOPERの有効性が示された。
Link: https://arxiv.org/abs/2601.19612
AlignCoder: ターゲット意図に合致したリポジトリレベルのコード補完 [cs.SE, cs.AI]目的：リポジトリレベルのコード補完における性能向上
- 大規模なコードベースを扱う開発効率向上の鍵となるため，コード補完技術の重要性が高まっている。
- 既存のコードLLMは，リポジトリ固有の文脈やドメイン知識の理解が不十分であるという課題がある。
- クエリとターゲットコードのミスマッチ，および推論情報の活用不足を解決し，より正確なコード補完を目指す。
- AlignCoderは，クエリ拡張メカニズムと強化学習ベースのリトリーバー学習手法を導入することで，コード補完の精度を向上させている。
- CrossCodeEvalベンチマークにおいて，ベースラインと比較してEMスコアが18.1%改善された。
- 様々なコードLLMやプログラミング言語に対して高い汎用性を示すことが確認された。
Link: https://arxiv.org/abs/2601.19697
E-mem：LLMエージェントメモリのためのエピソード的文脈再構築に基づくマルチエージェントシステム [cs.AI]目的：LLMエージェントメモリにおけるエピソード的文脈再構築
- LLMエージェントが高度な推論能力を獲得するためには，長期にわたる論理的な整合性の維持が不可欠である。
- 既存のメモリ前処理法は，文脈を破壊的な形で失うという問題点を抱えている。
- エピソード的文脈再構築により，深い推論に必要な文脈の整合性を維持し，LLMエージェントの性能向上を目指す。
- E-memは，LoCoMoベンチマークにおいてF1スコアで54％以上を達成し，最先端のGAMを7.75％上回る性能を示した。
- E-memは，トークンコストを70％以上削減することに成功した。
- 本研究は，記憶の前処理からエピソード的文脈再構築へのパラダイムシフトを提案する。
Link: https://arxiv.org/abs/2601.21714
自然な推論の限界を押し広げる：形式論理検証によるインターリーブボーナス [cs.LG]目的：形式論理検証に基づく推論フレームワークの開発
- 大規模言語モデルの発展に伴い，論理的整合性や報酬ハッキング等の課題が顕在化してきた。
- 従来のニューロシンボリック手法は，事後検証に留まり，推論過程中の誤りを修正できない場合がある。
- 推論過程中に誤りを検出し修正することで，大規模言語モデルの推論能力を向上させる。
- 本研究では，形式論理検証と自然言語生成を動的に組み合わせるフレームワークを提案した。
- 7Bおよび14Bモデルを用いた実験により，数学，論理，汎用的な推論タスクにおいて最先端モデルを平均10.4%と14.2%上回る性能を示した。
- 形式論理検証が，大規模言語モデルの推論能力を大幅に向上させるためのスケーラブルなメカニズムとなりうることを実証した。
Link: https://arxiv.org/abs/2601.22642
MapDream：視覚言語ナビゲーションのためのタスク駆動型地図学習 [cs.CL, cs.RO, cs.AI, cs.CV]目的：視覚言語ナビゲーションにおける地図表現の学習
- ロボットが環境を理解し，自律的に行動するために，環境地図の構築が不可欠である。
- 既存の地図作成手法は手作業に頼るか，ナビゲーションとは独立して構築されるため，効率的ではない。
- ナビゲーションの目的に応じて地図を学習することで，より効率的かつ効果的なナビゲーションを実現する。
- MapDreamは，タスク駆動型の地図生成フレームワークであり，鳥瞰図画像を生成する。
- 地図生成と行動予測を同時に学習することで，ナビゲーションに必要な情報のみを効率的に地図に集約する。
- R2R-CEとRxR-CEの実験で，最先端の性能を達成し，タスク駆動型地図学習の有効性を実証した。
Link: https://arxiv.org/abs/2602.00222
RAGが有害になる時：検索拡張されたLVLMにおける注意散漫の診断と軽減 [cs.CV, cs.AI, cs.CL]目的：検索拡張されたLVLMにおける注意散漫の診断と軽減
- 知識ベースのVQAタスクにおいて，大規模な視覚言語モデル(LVLM)の性能向上にRAGが広く利用されている。
- RAGの失敗の原因として，検索された文脈への注意の集中不足が指摘されている。
- 検索された文脈が十分である場合に生じる注意散漫を特定し，その軽減策を提案すること。
- 本研究では，検索された文脈が十分な場合，視覚情報への注意がグローバルに抑制され，質問に関連する領域からの注意が逸れるという「注意散漫」という新たな失敗モードを特定した。
- この問題に対処するため，文脈統合と視覚的根拠付けを分離するMAD-RAGという，学習不要な介入手法を提案した。
- OK-VQA，E-VQA，InfoSeekにおける実験結果から，MAD-RAGは既存手法を上回り，最大で4.76%，9.20%，6.18%の絶対的な性能向上を示した。
Link: https://arxiv.org/abs/2602.00344
大規模言語モデルの効率的な強化学習のための動的木構造アテンション：AREAL-DTA [cs.LG]目的：大規模言語モデルの強化学習における計算効率の向上
- 大規模言語モデルの性能向上には，強化学習によるポストトレーニングが不可欠である。
- 従来の強化学習フレームワークでは，共通の接頭辞を繰り返し計算するため，計算資源が無駄になる。
- 接頭辞の共有構造を利用し，計算効率を大幅に改善する手法を開発する。
- AREAL-DTAは，深さ優先探索を用いてロールアウトの接頭辞木を動的に走査し，計算量を削減する。
- 負荷分散型のバッチ処理機構により，複数のGPUを活用し，スケーラビリティを向上させる。
- τ^2-benchにおいて，AREAL-DTAは，dense trainingと比較して最大8.31倍，sparse trainingと比較して最大1.70倍の学習スループットを実現した。
Link: https://arxiv.org/abs/2602.00482
Kステップ先読み閾値化による高速非エピソード有限ホライズン強化学習 [cs.LG, stat.ML]目的：有限ホライズンMDPにおける，Kステップ先読みを用いたQ関数学習と閾値化による行動選択手法
- 強化学習は，ロボット制御やゲームAIなど幅広い分野で活用されており，その重要性は高い。
- 非エピソード型，有限ホライズンMDPにおける強化学習は未開拓であり，終端時刻までの報酬推定が課題である。
- 固定ホライズン構造を考慮した効率的な学習アルゴリズムを開発し，高速な収束を達成することを目指す。
- 提案手法は，K=1の場合にミニマックス最適定数リグレットを達成し，K≥2の場合には$\mathcal{O}(\max((K-1),C_{K-1})\sqrt{SAT\log(T)})$のリグレットを実現する。
- 実験結果から，提案手法は合成MDPやJumpRiverswim，FrozenLake，AnyTradingといった環境において，最先端の表形式強化学習手法を上回る累積報酬を示す。
- 実装では，推定分散とのバランスを考慮してKを時間とともに適応的に増加させる。
Link: https://arxiv.org/abs/2602.00781
EffGen：小規模言語モデルを高性能な自律エージェントとして活用 [cs.CL, cs.AI, cs.LG]目的：小規模言語モデル(SLM)を用いた，効果的，効率的，安全なローカルデプロイメントを実現するエージェントフレームワーク
- 大規模言語モデルに依存しないエージェントシステムの重要性が高まっている。API利用コストやプライバシー保護の観点から，小規模モデルの活用が求められる。
- SLMは性能面で大規模モデルに劣るため，複雑なタスクをこなすための工夫が必要となる。プロンプトの長さやメモリ使用量の制約も課題である。
- SLMでも高性能なエージェントを実現するため，プロンプト最適化やタスク分解，ルーティング，メモリシステムを改善し，実用的なフレームワークを提供する。
- EffGenは，LangChain，AutoGen，Smolagentsなどの既存フレームワークと比較して，成功率，実行速度，メモリ使用量において優れている。
- プロンプト最適化はSLMに，複雑さに基づくルーティングは大規模モデルに，それぞれより大きな効果をもたらすことが示された。
- EffGenはApache 2.0ライセンスで公開されており，研究および商業利用が容易である。
Link: https://arxiv.org/abs/2602.00887
背景知識を活用した多段階推論による事実の編集 [cs.AI]目的：知識編集の新たな戦略
- 大規模言語モデルの知識更新は，柔軟な推論能力の向上に不可欠である。
- 既存手法は断片的な事実の記憶に偏り，文脈に応じた知識統合が困難である。
- 背景知識を用いた推論訓練により，知識の活用と統合を促す。
- 本研究では，新しい情報を文脈化する背景ストーリーを活用する訓練戦略を提案した。
- モデルは，新しい情報を含む多段階推論問題を自己生成し，学習を行う。
- 知識蒸留を用いることで，教師モデルの推論能力を学習モデルに効率的に伝達した。
Link: https://arxiv.org/abs/2602.02028
平均シフト密度増強による異常検知 [cs.RO, cs.LG]目的：異常検知におけるロバスト性の向上
- 機械学習において，異常検知は重要な課題であり，様々な応用分野で求められている。
- 既存の異常検知アルゴリズムは，特定の構造的仮定下でのみ性能を発揮し，多様な異常タイプへの対応が困難である。
- ノイズ環境下でもロバストな異常検知を実現し，汎用的な異常検知フレームワークを構築することを目指す。
- 提案手法MSDEは，密度駆動型多様体進化に対する幾何学的応答を通じて異常を検知する。
- MSDEは，正常サンプルは密度によって安定化され，異常サンプルは密度モードに引き寄せられ，大きな累積変位を示すという原理に基づいている。
- 46のデータセットを用いた実験により，MSDEは既存手法と比較して，一貫して高いロバスト性とバランスの取れた性能を示した。
Link: https://arxiv.org/abs/2602.03293
バングラデシュにおける5歳未満児死亡率予測の公衆衛生上の有用性は，時間的検証によって変化する：4回にわたるDHS機械学習研究 [cs.SC, cs.LG, cs.CY]目的：バングラデシュにおける5歳未満児死亡率予測モデルの公衆衛生上の有用性の評価
- 発展途上国における5歳未満児死亡率は依然として高い水準にあり，その削減は重要な公衆衛生課題である。
- 既存の予測モデルの検証方法が，将来の運用における性能を正確に反映していない可能性がある。
- 時間的検証によって，予測モデルの現実的な有用性を評価し，政策決定に役立つ情報を提供する。
- 検証方法の選択が，モデルのクラスよりも公衆衛生上の解釈に大きな影響を与えることが示された。
- 時間的検証を用いた場合，死亡例の42.8%を特定でき，スクリーニングの負担は変動した。
- DHSによる子 mortality研究では，感度，PPV，NNSを事前に報告することが，プログラムへの活用において重要である。
Link: https://arxiv.org/abs/2602.03957
SLUM-i：インフォーマル居住地の都市マッピングとデータ品質ベンチマークのための半教師あり学習 [cs.CV, cs.AI]目的：インフォーマル居住地の都市マッピングとデータ品質の評価
- 都市の急速な拡大により，発展途上国におけるインフォーマル居住地が増加しており，そのマッピングが重要である。
- アノテーションの不足に加え，構造間のスペクトル的な曖昧さやアノテーションノイズなど，データ品質に課題が存在する。
- 本研究は，ラベル付きデータが少ない状況下でも高精度なマッピングを可能にする手法を開発し，データ品質を向上させることを目指す。
- パキスタン（ラホール，カラチ）とインド（ムンバイ）を含む7都市のデータセットを構築し，データ品質評価を行った。
- 少数クラスの抑制を防ぐClass-Aware Adaptive Thresholding機構と，分布外タイルを除去するDINOv2ベースのフィルタを導入した半教師ありセグメンテーションフレームワークを提案した。
- 提案手法は，最先端の半教師あり学習手法と比較して，最大で+5.9 pp mIoUの改善を示し，推論オーバーヘッドは発生しない。
Link: https://arxiv.org/abs/2602.04525
StagePilot：サイバーグルーミングにおける長期的対話シミュレーションのための段階的計画 [cs.LG, cs.CL]目的：サイバーグルーミング対話の段階的計画
- 若者への脅威であるサイバーグルーミング対策は喫緊の課題である。
- 既存手法では，一貫性のある現実的な対話の進行が困難である。
- 段階的な計画と応答生成の分離による対話の構造化を目指す。
- StagePilotは，段階レベルの計画と応答生成を分離することで，より構造化された一貫性のある対話経路を生成する。
- 特にIQL+AWAC変種は，最終段階への到達頻度が高く，肯定的な応答を70％以上維持した。
- 相対的な改善率は43％であり，対話の停滞を軽減する効果が示された。
Link: https://arxiv.org/abs/2602.05060
力学モデルにおける平滑化誤差とその回避法 [cs.LG, math.SG]目的：力学モデルにおける異なるGNNの平滑化効果
- 表面上の偏微分方程式を解く上で，ニューラルネットワークの応用が期待されている。特に，メッシュを用いたグラフニューラルネットワークが有効である。
- グラフニューラルネットワークは，ノードの特徴量が近傍ノードと類似しすぎるという過平滑化の問題を抱えている。
- 物理システムにおける自然な平滑化を考慮した，より適切な畳み込み演算を開発し，モデル性能を向上させる。
- ユニタリーグラフ畳み込みは平滑性を維持する制約を持つが，拡散過程のような自然な平滑化が必要な物理システムでは性能を損なう可能性がある。
- 提案手法である緩和ユニタリー畳み込みは，平滑性の維持と物理システムに必要な自然な平滑化のバランスを取る。
- 複雑なメッシュや気象予報における実験で，提案手法は強力なベースラインモデル（メッシュ対応トランスフォーマーや等変ニューラルネットワークなど）を上回る性能を示した。
Link: https://arxiv.org/abs/2602.05352
RaBiT：LLMの正確性と効率性のための残差認識二値化学習 [cs.AI]目的：大規模言語モデルにおける，精度と効率性を両立する二値化学習手法
- LLMの利用拡大には，計算資源の効率的な活用が不可欠であり，量子化はその鍵となる。
- 低ビット量子化では，性能低下が深刻な課題であり，精度と効率性のトレードオフが存在する。
- 残差二値化における特徴の共適応問題を解決し，量子化精度を向上させることを目指す。
- RaBiTは，残差層間の冗長な特徴学習を抑制し，エラー補償構造を改善する手法である。
- 共有されたフル精度重みから逐次的に二値化パスを導出することで，共適応問題を解決する。
- RTX 4090上で，フル精度モデルと比較して4.49倍の推論速度向上を達成し，最先端の性能を示す。
Link: https://arxiv.org/abs/2602.05367
分散の制御が，疎に活性化されたDNNおよびCNNの学習安定性を向上させる方法 [cs.RO, cs.LG, cs.IT, math.IT]目的：疎に活性化されたDNNおよびCNNの学習安定性向上
- 深層学習は高い性能を示すが，学習の安定性が課題。初期値設定が重要となる。
- 従来の初期値設定では，活性化関数の非線形性による影響が十分考慮されていない。
- 高い疎性を持つ活性化関数下での最適な初期値設定手法を確立すること。
- 初期化分布の分散を大きくすることで，学習の安定性が向上することが示された。
- 隠れ層で90％もの疎性を実現しつつ，DNNおよびCNNの学習が可能となった。
- エッジ・オブ・カオス理論に基づき，新しい初期値設定戦略が提案された。
Link: https://arxiv.org/abs/2602.05779
共有学習：効率的な並列エージェントシステムのための選択的記憶 [cs.MA, cs.AI]目的：並列エージェントシステムの効率化のための選択的記憶機構
- 複雑なタスク解決において，複数エージェントの協調が重要視されている。
- 並列実行は計算コストが高く，重複計算が発生しやすい。
- 並列実行時の重複計算を削減し，効率を向上させることを目指す。
- 提案手法LTSは，並列エージェントシステムにおける情報再利用を可能にする共有メモリ機構である。
- LTSは，ステップごとの強化学習を用いて，グローバルに有用な情報を識別し，メモリへの書き込みを制御する。
- AssistantBenchとGAIAのベンチマーク実験で，LTSは実行時間を大幅に削減し，性能を向上させた。
Link: https://arxiv.org/abs/2602.05965
強化学習における計算量の役割 [cs.LG]目的：強化学習における計算量の影響の形式化
- 強化学習は，複雑な意思決定問題を解決する上で重要な役割を担う
- 既存の強化学習フレームワークでは，計算量の影響を形式的に分析できない
- 計算量に着目した強化学習モデルを提案し，その効果を検証すること
- 計算量に上限を設けたポリシーを形式化し，より多くの計算量を利用することで，より複雑な問題を解決し，長期的視野での汎化性能が向上することを示した。
- 実験により，提案アーキテクチャは，パラメータ数を増やさずに計算量のみを増加させることで，既存のニューラルネットワークよりも高い性能と汎化性能を示すことが確認された。
- オンラインおよびオフライン強化学習タスク31種類において，パラメータ数を最大5倍に増やしても提案手法の方が優れた性能を示した。
Link: https://arxiv.org/abs/2602.05999
分散型敵対的バンディット問題に対するほぼ最適な後悔：ブラックボックスアプローチ [cs.LG]目的：分散型敵対的バンディット問題における後悔の最小化
- マルチエージェント環境における意思決定問題の重要性が高まっているため。
- エージェント間の通信制約下での効率的な学習が課題となっている。
- 通信コストを抑えつつ，分散環境における後悔を最小化すること。
- 提案手法は，ゴシップ通信のみを用いて，既存手法よりも大幅に改善された上限値を達成する。
- 問題の難易度は，通信コストとバンディットコストに分解できることを示す下限値を確立した。
- 分散型線形バンディット問題にも適用可能であり，低次元通信コストで最適な後悔境界を達成する。
Link: https://arxiv.org/abs/2602.06404
JADE：専門業務における専門家に基づいた動的評価 [cs.AI]目的：オープンエンドな専門業務におけるエージェントAIの評価手法
- AIエージェントの能力評価は，実用化に向けて不可欠であり，より高度な評価手法が求められている。
- 既存の評価方法は，厳密性と柔軟性の両立が難しく，多様な有効な回答に対応できない場合がある。
- 専門家の知識と動的な評価を組み合わせることで，より信頼性の高い評価を実現することを目指す。
- JADEは，専門家の知識を評価スキルとして固定化し，安定した評価基準を提供する。
- レポート固有の主張レベル評価を行い，多様な推論戦略に柔軟に対応する。
- BizBench，HealthBench，DR.BENCHでの実験により，JADEの有効性と汎用性が示された。
Link: https://arxiv.org/abs/2602.06486