arXiv雑要約

AI - 2026/02/02 公開

MC-GRPO：小規模ロールアウト強化学習のための中央値中心型グループ相対方策最適化 [cs.LG, cs.AI]目的：小規模ロールアウト環境下における言語モデルの学習安定性と精度向上
- 言語モデルの性能向上には，強化学習による方策最適化が有効である。
- ロールアウト数（計算資源）が限られる場合，報酬の基線が不安定になり精度が低下する。
- 中央値を用いた基線により，外れ値の影響を軽減し，方策更新の安定化を目指す。
- 提案手法MC-GRPOは，平均値の代わりに中央値を基線として利用することで，ロールアウト数の少ない環境下での方策学習の安定性を高める。
- 中央値基線は外れ値に強く，正負の有利性の誤りを抑制し，方策更新方向の逆転を防ぐ。
- 様々なGRPO系手法やモデルにおいて，ロールアウト数2と8の精度差を1%以内に縮小できることが確認された。
Link: https://arxiv.org/abs/2601.22582
異機種GPUによるLLM学習の高速化：HetCCL [cs.DC, cs.LG]目的：異機種GPU環境におけるLLM学習の効率化
- LLMの急速な発展に伴い，GPUクラスターの需要が高まっている。
- 既存の深層学習フレームワークは，異機種GPU間での集団通信をサポートしていない。
- HetCCLは，ベンダー固有のバックエンドを統合し，異機種環境での効率的な学習を実現する。
- HetCCLは，NVIDIA NCCLおよびAMD RCCLの性能を同等に達成し，異機種環境でスケーラビリティを示す。
- HetCCLは，既存の深層学習アプリケーションを変更することなく，NVIDIAとAMDのGPUを組み合わせて利用可能にする。
- ドライバーの修正を必要とせずに，RDMAベースのGPU間通信を実現する。
Link: https://arxiv.org/abs/2601.22585
WED-Net：因果的拡張を用いた気象影響分離ネットワークによる都市交通流予測 [cs.AI]目的：都市交通流予測における気象影響の分離と予測精度の向上
- 都市の交通システムは社会経済活動において不可欠であり，効率的な運用が重要である。
- 悪天候時などの極端な条件下では，交通流予測が困難となる場合が多い。
- 気象条件が交通流に与える影響を分離し，予測モデルの汎化性能を高める。
- WED-Netは，自己注意機構と交差注意機構を組み合わせた二分岐Transformerアーキテクチャを採用し，交通流パターンと気象影響を分離する。
- 気象条件を識別する識別器を導入することで，分離の精度向上を図っている。
- 因果構造を維持しつつ，非因果部分を摂動するデータ拡張戦略により，稀な状況下での汎化性能が向上した。
Link: https://arxiv.org/abs/2601.22586
LLMを裁判官とする考え方を見直す：意味容量の非対称性を用いた小規模言語モデルによる表現としての裁判 [cs.CL, cs.AI, cs.LG]目的：小規模言語モデルの内部表現を利用した効率的な評価手法の開発
- 大規模言語モデルの活用が進む中で，評価コストや透明性の問題が重要になっている。
- プロンプト設計に依存しやすく，安定した評価が難しいという課題が存在する。
- 小規模モデルの内部表現に内在する評価能力を活用し，効率的な評価を実現する。
- 小規模言語モデルは生成能力が弱くとも，隠れ層に豊かな評価信号をエンコードしていることが示された。
- 評価には生成よりも少ない意味容量で十分であり，中間表現に根ざすことができるという「意味容量の非対称性仮説」が提唱された。
- 提案手法INSPECTORは，大規模言語モデルの評価に匹敵する性能を，より効率的かつ解釈可能な形で実現した。
Link: https://arxiv.org/abs/2601.22588
FedCARE：衝突を考慮した射影と再学習耐性のある回復を用いた連合学習における消去学習 [cs.LG, cs.AI]目的：連合学習における消去学習の効率化と性能維持
- プライバシー保護の重要性が増す中，データ中央集権化なしにモデルを学習する連合学習が注目されている。
- データ削除要求への対応が課題であり，モデル再学習はコストが高いため，消去学習が求められている。
- 既存の消去学習手法のオーバーヘッド，性能劣化，再学習リスクを低減することを目指す。
- FedCAREは，勾配上昇による効率的な忘却と，データフリーなモデル反転による知識プロキシ構築を特徴とする。
- 衝突を考慮した射影勾配上昇により，消去学習時の性能劣化を抑制し，ロールバックを抑制する回復戦略を導入。
- クライアント，インスタンス，クラスレベルの消去学習を，低いオーバーヘッドで実現し，既存手法を上回る性能を示す。
Link: https://arxiv.org/abs/2601.22589
異種グラフアラインメントによる共同推論と解釈性 [cs.LG]目的：異種グラフ間の情報統合と，その応用
- 多様なグラフデータから有用な情報を抽出する上で，異種グラフ学習は不可欠である。
- グラフ構造や規模，意味が異なるグラフ間の統合が困難であり，ノードIDの共有がない場合は特にそうである。
- 異種グラフ間の機能的に整合した部分構造を特定し，グラフ全体の予測精度を向上させる。
- 提案手法MGMTは，各グラフの構造と属性を共有潜在空間にマッピングすることで，グラフ間の情報を統合する。
- アテンション機構によりタスクに関連するスーパーノードを選択し，潜在空間での類似性に基づきメタグラフを構築する。
- メタグラフは解釈性を提供し，影響力のあるサブ構造とグラフ間のアラインメントを明確に示す。
Link: https://arxiv.org/abs/2601.22593
言語モデル回路はニューロン基底において疎である [cs.CL, cs.AI]目的：ニューロン基底における言語モデル回路の疎性
- 大規模言語モデルの解釈可能性向上は，AIの安全性や信頼性向上に不可欠である。
- ニューロンの活動は複雑で解釈が難しく，モデルの内部動作の理解を阻害する。
- ニューロン基底を利用した回路追跡による言語モデルの解釈可能性向上を目指す。
- MLPニューロンは，疎な特徴基底として，スパースオートエンコーダ（SAE）と同等に機能することが示された。
- ニューロン基底上で回路追跡パイプラインを開発し，様々なタスクにおいて因果関係のある回路を特定した。
- 主語と動詞の一致に関するタスクでは，約100個のニューロンの回路でモデルの振る舞いを制御できることがわかった。
Link: https://arxiv.org/abs/2601.22594
少ないクエリでより多くを学ぶ：RLVRのための不確実性整合性に基づくクエリ選択 [cs.AI]目的：RLVRにおけるクエリ選択戦略
- LLMの数学的推論能力向上は重要であり，RLVRはその有効な手段である。
- 既存のRLVRアルゴリズムは大規模なクエリ予算を必要とし，アノテーションコストが高いという課題がある。
- より少ない，しかし情報量の多いクエリ選択により，RLVRコストを削減することを目指す。
- 提案手法は，ランダム選択や従来の能動学習手法を上回り，データ30%でフルデータセット相当の性能を達成した。
- 主観的・客観的不確実性の整合性評価指標を導入し，オンラインでの効率的なクエリ選択を実現した。
- オンライン指標はオフライン指標と負の相関があり，より適切なサンプル選択を支援することが理論的に証明された。
Link: https://arxiv.org/abs/2601.22595
連合学習における永続的な知識消去のためのアダプター拡張型デュアルストリーム更新：レテ [cs.LG]目的：連合学習における知識消去の持続性の向上
- プライバシー保護の重要性が増す中，分散環境での機械学習が注目されている。
- 既存手法では，学習後の継続学習時に消去された知識が再浮上する問題がある。
- 知識の再浮上を抑制し，消去された知識を永続的に維持することを目的とする。
- 提案手法Letheは，消去対象知識と維持対象知識の相関を低減する。
- アダプターを用いた修正信号により，層ごとの修正を行うデュアルストリーム更新を採用。
- 様々なレベルでの知識消去が可能で，継続学習後も高い消去効果を維持する。
Link: https://arxiv.org/abs/2601.22601
自己進化型合成データから検証可能報酬強化学習へ：ポストトレーニングのマルチターンインタラクティブツール使用エージェント [cs.AI, cs.CL]目的：マルチターンインタラクティブツール使用エージェントの訓練
- 現実世界のタスク解決には，人間や環境との対話が必要であり，その重要性は高い。
- 高品質なマルチターンツール使用データの合成が困難であり，スケーラビリティが課題となっている。
- ユーザシミュレーションによるノイズを軽減し，訓練効率を向上させることを目指す。
- 自己進化型データ生成エンジンEigenDataを開発し，ツールに基づいた対話と実行可能性検証器を合成する。
- ユーザモデルのファインチューニングとGRPO形式の強化学習を組み合わせることで，SFTを超える性能向上を実現した。
- tau^2-benchにおける評価で，AirlineとTelecomにおいて最先端モデルに匹敵またはそれを上回る結果を得た。
Link: https://arxiv.org/abs/2601.22607
分子特性予測のための局所・大域マルチモーダルコントラスト学習 [cs.LG, cs.AI]目的：分子特性予測の精度向上
- 分子設計や創薬において，分子特性の正確な予測は不可欠である。
- 分子構造と化学的意味情報の統合が不十分な場合がある。
- 局所的な官能基情報と大域的な分子トポロジーを効果的に統合すること。
- LGM-CLは，分子グラフとテキスト表現を共同でモデル化するフレームワークである。
- アテンティブFPとグラフTransformerエンコーダを用いて，局所的および大域的な情報を捕捉する。
- MoleculeNetベンチマークにおいて，分類と回帰の両タスクで競争力のある性能を示した。
Link: https://arxiv.org/abs/2601.22610
合意形成によるTransformerの訓練安定化 [cs.LG]目的：Transformer訓練の安定性向上
- Transformerは自然言語処理等の分野で広く用いられ，性能向上が期待されている。
- Transformerの訓練は学習率の設定に不安定であり，高学習率では訓練が困難になる。
- 本研究は，合意形成メカニズムを用いてTransformerの学習率に対する安定性を高めることを目指す。
- 合意形成メカニズムは，Attentionの代替として機能し，Transformer訓練の安定性を向上させる。
- テキスト，DNA，タンパク質データに対する実験により，学習率範囲における安定性が確認された。
- 合意形成とAttentionを組み合わせたハイブリッドモデルは，性能を維持しつつ安定性を改善する。
Link: https://arxiv.org/abs/2601.22614
EntroCut：エントロピーに基づく適応的切り捨てによる小規模大規模推論モデルにおける効率的な思考連鎖推論 [cs.AI]目的：効率的な思考連鎖推論の実現
- 大規模推論モデルは複雑な推論に優れるが，計算コストが高い。
- 推論の初期段階におけるモデル出力のエントロピーの指標が不十分。
- エントロピーに基づいた動的切り捨てによる効率化を目指す。
- EntroCutは，学習不要で推論を動的に切り捨て，高い信頼度で推論を安全に終了させる。
- 4つのベンチマークで，トークン使用量を最大40％削減し，既存手法よりも効率的な性能を実現。
- エントロピーに基づく動的切り捨ては，大規模推論モデルの非効率性を軽減する実用的な手法である。
Link: https://arxiv.org/abs/2601.22617
SYMPHONY：異種言語モデル連携による相乗的多エージェント計画 [cs.CL, cs.CY, cs.AI, cs.MA]目的：複雑な問題解決における相乗的多エージェント計画
- LLMを活用した自律エージェントは，複雑なタスク解決の可能性を広げている。
- 単一エージェントによる計画では，探索の多様性が不足し，最適解に至らない場合がある。
- 異種LLMエージェント群による探索多様性の向上と，より効果的な計画の実現を目指す。
- 提案手法SYMPHONYは，異種言語モデルベースのエージェント群を統合した多エージェント計画フレームワークである。
- SYMPHONYは，多様な推論パターンを活用し，ロールアウトの多様性を高め，探索を促進する。
- ベンチマークタスクにおいて，オープンソースLLMとAPI経由のLLMの両方で，既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2601.22623
COBRA++：拡張された代理モデルプールと強化された代理モデル選択によるCOBRA最適化手法の改良 [cs.NE]目的：現実世界の最適化問題に対するCOBRA最適化手法の性能向上
- 現実世界の複雑な最適化問題解決は，効率的な手法が不可欠である。
- COBRAの代理モデルプールと選択基準は専門家による手動調整に依存し，負担が大きい。
- COBRA++は，適応的な戦略により，この調整の自動化と性能向上を目指す。
- COBRA++は，RBF類似の代理モデルを追加し，モデルの多様性と近似能力を高めた。
- 強化学習に基づいたオンラインモデル選択ポリシーを導入し，最適化プロセスの効率と精度を向上させた。
- 多次元検証実験により，COBRA++が従来のCOBRAやその適応型変種を大幅に上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2601.22624
TTCS：自己進化のためのテスト時カリキュラム合成 [cs.LG, cs.AI, cs.CL]目的：テスト時におけるカリキュラムの合成
- 大規模言語モデルの推論能力向上は，自然言語処理の重要な課題である。
- 既存手法では，難しい推論問題に対して高品質な擬似ラベルの生成や，テストセットの規模による不安定性が問題となる。
- モデル能力に合わせたカリキュラムを生成し，安定したテスト時学習を実現すること。
- TTCSは，質問生成器と推論ソルバーの2つのポリシーを共進化させることで，推論能力を向上させる。
- 質問生成器はソルバーの能力に応じて難易度を調整し，ソルバーはオリジナルの質問と合成された質問の両方で自己整合性報酬を用いて更新される。
- 実験により，TTCSは数学的ベンチマークや汎用タスクにおいて，一貫して推論能力を強化することが示された。
Link: https://arxiv.org/abs/2601.22628
時間退火摂動サンプリング：拡散言語モデルの多様な生成 [cs.CL, cs.AI]目的：拡散言語モデルにおける生成多様性の向上
- 言語モデルは自然言語処理の基盤であり，その性能向上が重要である。
- 拡散言語モデルでは，多様な意味や推論経路を探索する生成多様性の制御が課題であった。
- 拡散過程における摂動を時間的に調整し，多様性と流暢性の両立を目指す。
- 拡散言語モデルの初期段階で意味的分岐を促し，後期段階で摂動を減らすことで，多様性を向上させる手法を提案した。
- 提案手法TAPSは，LLaDAやTraDoを含む様々な拡散言語モデルに適用可能である。
- 創造的な文章作成や推論タスクにおいて，生成品質を維持しつつ出力の多様性を改善することを示した。
Link: https://arxiv.org/abs/2601.22629
PEFT-MuTS：クロスドメイン時系列表現モデルに基づく残存寿命予測のための多変量パラメータ効率的ファインチューニングフレームワーク [cs.LG, cs.AI]目的：少量のデータを用いた残存寿命予測
- データ駆動型の残存寿命予測は，機械の信頼性向上に不可欠であり，予防保全計画の策定に貢献する。
- 従来の予測手法は，大量の劣化データが必要であり，類似機器からのデータ収集に依存する。
- クロスドメイン時系列データを用いた事前学習により，少量のデータでも高精度な予測を可能にすることを目指す。
- 本研究で提案するPEFT-MuTSは，異なる種類の機械のデータで事前学習したモデルを活用し，少ないデータ量でも残存寿命を正確に予測できることを示した。
- 独立した特徴量チューニングネットワークとメタ変数に基づく低ランク多変量融合メカニズムにより，多変量データの関係性を最大限に活用できる。
- 航空エンジンと産業用ベアリングのデータセットにおける実験により，従来の教師あり学習やFew-shot学習手法を大幅に上回る性能が確認された。
Link: https://arxiv.org/abs/2601.22631
ドリフトを駆け抜ける：適応推論時プルーニングのための知識ニューロンの動的トレース [cs.CL, cs.LG]目的：大規模言語モデルにおける知識ニューロンの動的トレースによる適応的推論時プルーニング手法
- 大規模言語モデルの発展は目覚ましいが，計算コストの高さが課題となっている。
- 既存のプルーニング手法は，データ依存性や静的な手法に起因する性能劣化が問題である。
- 文脈変化に対応し，動的に重要ニューロンを保持することで，性能低下を抑制する。
- DARTは，注意スコア分布の変化を監視し，文脈に応じてニューロンレベルのマスクを動的に更新する。
- 10個のベンチマークで，DARTは既存の動的ベースラインを上回り，LLAMA-3.1-8Bで最大14.5%の精度向上を達成した。
- 要約タスクでは，静的マスキングプルーニングと比較してROUGE-Lスコアが最大3倍向上し，元のdenseモデルに匹敵する性能を示した。
Link: https://arxiv.org/abs/2601.22632
MCP-Diag：AIネイティブなネットワーク診断のための決定論的プロトコル駆動アーキテクチャ [cs.NI, cs.AI]目的：AIを活用したネットワーク運用における診断技術のアーキテクチャ
- ネットワーク運用における自動化の必要性が高まっており，AI活用が期待されている。
- LLMはベンダー固有のCLI出力の解釈や，エージェントへのシェルアクセス権限に課題がある。
- LLMの信頼性と安全性を確保し，ネットワーク診断の自動化を促進すること。
- MCP-Diagは，CLI出力を厳格なJSONスキーマに変換する決定論的変換層を導入した。
- プロトコルレベルでのHuman-in-the-Loop(HITL)承認を強制するElicitation Loopを設けた。
- 実証実験の結果，100%のエンティティ抽出精度，0.9%以下の実行遅延，そしてコンテキストトークン使用量3.7倍の増加が確認された。
Link: https://arxiv.org/abs/2601.22633
ランガナータンからコンピュータビジョンは何を学べるか [cs.CV, cs.AI]目的：セマンティックギャップ問題の解決と高品質なコンピュータビジョンデータセットの設計
- コンピュータビジョンは，画像から意味を理解する技術であり，様々な分野で応用が期待されている。
- 視覚的情報と言語的意味のずれが「セマンティックギャップ」を引き起こし，データセットの質を低下させている。
- ランガナータンの分類原理を応用し，セマンティックギャップを解消し，より精度の高いアノテーションを目指す。
- ランガナータンの原理に基づいたvTelosアノテーション手法が，コンピュータビジョンのアノテーション品質向上に貢献する。
- vTelosを用いることで，コンピュータビジョンの精度向上が確認された。
- 本研究は，高品質なコンピュータビジョンデータセット設計の指針を提供する。
Link: https://arxiv.org/abs/2601.22634
大規模言語モデルにおけるBest-of-Nサンプリング下での敵対的リスクの統計的推定 [cs.AI]目的：大規模言語モデルの敵対的脆弱性リスクの推定手法
- 大規模言語モデルの安全性が重要視される中，現実的なリスク評価が課題となっている。
- 従来の評価手法では，敵対的プロンプトの試行回数が限られており，現実のリスクを過小評価する可能性がある。
- 大規模並列サンプリングによる攻撃を考慮し，低コストで正確なリスク推定を実現することを目指す。
- 提案手法SABERは，わずか100サンプルでASR@1000を高い精度で予測できる。既存手法に比べ，推定誤差を86.2%削減した。
- モデルのリスクスケーリングプロファイルは異質であり，従来の評価では安全と見なされたモデルでも，並列攻撃下で急激なリスク増幅が生じることが示された。
- 本研究は，現実的なLLMの安全性評価のための，低コストかつスケーラブルな方法論を提供する。
Link: https://arxiv.org/abs/2601.22636
文脈を考慮した自動ピアレビューのためのマルチエージェントフレームワーク ScholarPeer [cs.MA, cs.AI, cs.LG]目的：自動ピアレビューの質の向上
- 研究成果の質保証において，ピアレビューは重要な役割を担っている。
- 既存の自動ピアレビューシステムは，深層的な問題点の発見に課題がある。
- 研究論文の新規性や重要性，方法論的欠陥の評価を文脈を考慮して行う。
- ScholarPeerは，歴史家エージェントやベースライン偵察兵，多角的QAエンジンを活用し，学術論文の文脈を動的に構築する。
- DeepReview-13Kデータセットを用いた評価で，最先端の手法と比較して有意に高い勝率を示した。
- 人間のピアレビューの多様性との差を縮小することに貢献する。
Link: https://arxiv.org/abs/2601.22638
自然な推論の限界を超える：形式論理検証による介入ボーナス [cs.LG]目的：大規模言語モデルの推論能力向上
- 大規模言語モデルは強力だが，論理的な矛盾や報酬ハッキングが発生し得る。
- 従来のニューロシンボリック手法は，事後検証に留まり，推論中の誤りを修正できない。
- 形式論理検証を推論過程に組み込み，リアルタイムで誤りを検出し修正すること。
- 形式論理検証による介入により，7Bモデルと14Bモデルが最新のベースラインをそれぞれ平均10.4％と14.2％上回る性能を示した。
- 本研究は，形式検証が大規模言語モデルの推論能力を大幅に向上させるためのスケーラブルなメカニズムとなり得ることを実証する。
- 推論過程中に誤りを積極的にペナルティ化することで，より正確な推論を実現する新しい学習パイプラインを提案した。
Link: https://arxiv.org/abs/2601.22642
医療チャットボットを超えて：Meddollinaと継続的臨床知能の台頭 [cs.AI]目的：継続的臨床知能の実現に向けた，臨床的適切性を優先するガバナンス重視のシステム開発
- 医療現場におけるAI活用は，診断・治療の精度向上や医療従事者の負担軽減に貢献しうる。
- 現在の生成AIは，臨床推論に必要な曖昧性への対処や文脈理解が不十分である。
- 臨床的状況における不確実性下での，より安全で信頼性の高いAIシステムの開発を目指す。
- Meddollinaは，従来の生成AIと比較して，不確実性に対する校正された推論能力を示す。
- Meddollinaは，情報不足下での保守的な推論，長期的な文脈遵守，推測的な完成度の低減を実現した。
- これらの結果は，単なるスケールアップではなく，臨床医の行動に合致した継続的臨床知能へのシフトを促す。
Link: https://arxiv.org/abs/2601.22645
動的な環境における具現化されたエージェントのためのテスト時ワールドモデルの混合 [cs.AI]目的：動的な環境下での具現化されたエージェントの適応性向上
- 現実世界での応用が進む中で，具現化されたエージェントの環境への適応能力が重要となっている。
- 動的な環境では，正確かつ柔軟なワールドモデルの構築が課題であり，既存手法では適応性に限界がある。
- テスト時にルーティング関数を更新することで，未知の環境への適応能力を高めることを目指す。
- 提案手法TMoWは，オブジェクトレベルからシーンレベルまでの類似度に基づき，ワールドモデルの混合を適応的に変化させる。
- テスト時に未知のドメインの特徴量をプロトタイプに整合させることで，ルーティング関数を洗練させる。
- 少量のデータと既存のプロトタイプから効率的に新しいモデルを構築し，継続的な適応を可能にする。
Link: https://arxiv.org/abs/2601.22647
UCPO：不確実性を考慮した方策最適化 [cs.AI, cs.LG]目的：大規模言語モデルの信頼性向上
- 大規模言語モデルの応用拡大には，幻覚抑制が不可欠である。
- 既存の強化学習法は，バイアスにより保守的すぎたり，過信したりする。
- 報酬ハッキングと過信の根本原因を解消し，信頼性を高める。
- UCPOは，確定的なロールアウトと不確実なロールアウトを分離・正規化する。
- 動的な不確実性報酬調整により，モデル進化と難易度に応じて重みを調整する。
- 数学的推論と汎用タスクで，モデルの信頼性と校正が向上することが示された。
Link: https://arxiv.org/abs/2601.22648
拡散モデルにおけるグループ単位の学習データ帰属のGUDA：アンラーニングによる反事実的アトリビューション [cs.LG, cs.AI]目的：拡散モデルにおけるグループ単位の学習データ帰属手法
- 生成モデルの発展に伴い，生成結果に影響を与えた学習データを特定する重要性が高まっている。
- 既存手法は個々のデータに焦点を当てており，グループレベルでの影響分析が困難であった。
- アンラーニングを用いて効率的に反事実的なモデルを近似し，グループの影響度を定量化する。
- GUDAは，Stable Diffusionを用いた芸術スタイル帰属において，他の手法よりも主要な寄与グループをより確実に特定した。
- CIFAR-10においては，ロゴ再学習と比較して100倍の高速化を達成した。
- グループの影響度は，フルモデルとアンラーニングされた反事実モデル間の尤度ベーススコア(ELBO)の差を用いて定量化される。
Link: https://arxiv.org/abs/2601.22651
AI強化UIセキュリティインターフェースにおける人間中心の説明可能性：サイバーセキュリティ分析者向け信頼できるコパイロットの設計 [cs.HC, cs.AI, cs.CR]目的：AI強化UIにおける説明可能性の設計
- サイバーセキュリティは，現代社会において不可欠な要素であり，その重要性は増大している。
- AIコパイロットの出力に対するユーザーの理解と信頼が不十分であるという課題が存在する。
- セキュリティ分析者のニーズに合わせた説明戦略を確立し，AIコパイロットの信頼性を高める。
- 説明スタイルの違いが，ユーザーの信頼性の校正，意思決定の正確性，認知負荷に有意な影響を与えることが示された。
- セキュリティコパイロット向けの説明インターフェースの使いやすさに関する実証的な証拠が得られた。
- 企業UIへの説明可能性の統合に関する設計ガイドラインと，SOCにおける分析者のニーズに合わせた説明戦略のフレームワークが提示された。
Link: https://arxiv.org/abs/2601.22653
NAG：言語モデルにおけるエンコーダ不要のテキスト・グラフモデリングのための統一的なネイティブアーキテクチャ [cs.CL, cs.AI]目的：テキスト・グラフモデリングのための統一的なネイティブアーキテクチャ
- 言語モデルにグラフ構造を組み込むことで，より複雑な関係性を捉え，性能向上が期待される。
- 従来のグラフとテキストの統合は分離されたアーキテクチャに依存し，グラフとテキスト間のアライメントが課題であった。
- 言語モデルのネイティブな処理能力を活用し，グラフ構造の理解を促進することで，効率的な統合を目指す。
- NAGは，外部エンコーダを必要とせず，グラフ構造の理解を可能にする簡潔かつ一貫性のあるパラダイムを提供する。
- NAG-ZeroとNAG-LoRAの2つの効率的な実装により，言語能力の維持と構造適応の強化を実現する。
- 多様なグラフタスクにおける実験により，NAGが外部エンコーダなしでロバストなグラフ理解を達成することが検証された。
Link: https://arxiv.org/abs/2601.22657
層ごとの漸進的固定化が，深層二値ニューラルネットワークのSTEフリーな学習を可能にする [cs.LG]目的：深層二値ニューラルネットワークの学習手法
- 二値ニューラルネットワークは，計算コストとメモリ使用量を削減できるため，エッジデバイス等での利用が期待されている。
- 従来の学習手法は，勾配消失問題や精度低下を引き起こす可能性があり，高精度な二値化が課題であった。
- 本研究は，勾配推定器（STE）を用いずに，高精度な二値ニューラルネットワークを学習することを目指す。
- 層ごとの確率的マスク処理による漸進的二値化手法StoMPPを提案し，STEと比較して高い精度を達成した。
- ResNet-50を用いた実験では，CIFAR-10，CIFAR-100，ImageNetにおいてそれぞれ精度が向上した。
- 漸進的固定化による学習ダイナミクスの分析から，非単調な収束と，二値化制約下での深層化のスケーリング改善が確認された。
Link: https://arxiv.org/abs/2601.22660
タスク認識型LLM評議会：適応的決定経路による意思決定支援 [cs.AI, cs.MA]目的：意思決定タスクにおけるLLMの専門性に応じた動的な専門家選択と効率的な多段階計画
- 多様な意思決定タスクにおいてLLMの活用が期待されるが，その能力を最大限に引き出すには課題がある。
- 既存手法では，LLMの特性を考慮せず一律的に扱うため，タスクの複雑性や推論要求に応じた適応が難しい。
- LLMの専門性を活かし，タスクに応じた最適なLLMを選択し，効率的な計画立案を実現することを目指す。
- 提案手法TALCは，WebShop，HumanEval，Game of 24において，既存手法と比較して高いタスク成功率と探索効率を達成した。
- TALCは，過去の成功事例に基づいたLLMのプロファイルとMCTSを組み合わせることで，文脈に応じたLLMの選択と評価を実現する。
- モデル評価と過去の有用性スコアを融合させた二重信号機構により，探索の深さと計画の確信度をバランス良く調整する。
Link: https://arxiv.org/abs/2601.22662
教師なし合成画像帰属: アラインメントと分離 [cs.CV, cs.AI]目的：合成画像の概念の特定
- 合成画像品質向上に伴い，著作権保護やモデルの透明性確保が重要となる。
- ペア化された教師データ(合成画像と訓練データ)の取得が困難である。
- 高コストな教師データなしで，合成画像の概念帰属を可能にすること。
- 提案手法は，コントラスト学習による基本的な概念アラインメントと，Infomax損失による表現分離を組み合わせる。
- コントラスト学習モデルが持つドメイン間アラインメント能力に着目し，理論的な根拠を与える。
- 実世界ベンチマークにおいて，教師あり手法を上回る性能を示す。
Link: https://arxiv.org/abs/2601.22663
意味を超えたリアルタイム報酬モデル [cs.AI]目的：大規模言語モデルと人間の選好の整合
- 言語モデルの性能向上には，人間の意図に沿った調整が不可欠である。
- 従来の報酬モデルでは，ポリシーの変化に対応できず，過剰最適化が発生しやすい。
- ポリシーのリアルタイムなフィードバックを活用し，報酬モデルの精度向上を目指す。
- 提案手法R2Mは，ポリシーの隠れ状態を利用することで，報酬モデルのリアルタイムな調整を実現する。
- R2Mは，表面的な意味情報に依存する従来の報酬モデルの限界を克服し，過剰最適化を抑制する。
- ポリシーからのフィードバックをリアルタイムで活用することで，報酬モデルの性能向上に貢献する。
Link: https://arxiv.org/abs/2601.22664
水平レイヤー化から垂直統合へ：AI駆動型ソフトウェア開発パラダイムの比較研究 [cs.SE, cs.AI]目的：生成AI導入における組織への影響
- ソフトウェア開発は経済活動の基盤であり，その効率化は重要である。
- 従来の機能別専門特化型組織では，連携コストが増大し，開発効率が低下する。
- AI活用による組織構造の変革と，その最適化戦略を提示する。
- 生成AIの導入により，従来の8倍から33倍のリソース消費量削減が確認された。
- AIによって役割の境界を越える「スーパー・エンプロイー」の出現が，この改善に寄与している。
- 組織の最適化目標として，個人の生産性ではなく，人間とAIの協調効率が重要となる。
Link: https://arxiv.org/abs/2601.22667
固定ラウンドを超えて：実用的な連合学習のためのデータフリーな早期停止 [cs.LG]目的：連合学習における最適な停止点の決定
- プライバシー保護と分散環境での学習ニーズが高まっている
- 固定ラウンド数や検証データへの依存が計算コストとリスクを増大させる
- 検証データを用いない早期停止フレームワークの開発
- 提案手法は，サーバー側のパラメータのみを用いてタスクベクトルの成長率を監視する
- 皮膚病変/血液細胞の分類実験で，検証データに基づく早期停止と同等の性能を示す
- 平均して47/20ラウンドで，検証データベースの早期停止より12.5%/10.3%高い性能を達成する
Link: https://arxiv.org/abs/2601.22669
運動に対する火: 効率的なスパイク動作認識のためのビデオパスバンド最適化 [cs.CV, cs.AI]目的：ビデオにおけるスパイク動作認識の効率化に向けたパスバンド最適化
- エネルギー効率と生物学的妥当性から，スパイクニューラルネットワークは画像処理で注目されている。
- 動的なビデオタスクにおいて，スパイクニューラルネットワークは人工ニューラルネットワークに劣る。
- タスクに関連する運動情報を強調することで，スパイクニューラルネットワークの性能向上を目指す。
- 提案手法PBOは，わずか2つの学習パラメータで，スパイク活動を運動情報に集中させる。
- UCF101データセットにおいて，PBOは10パーセント以上の性能向上を実現した。
- マルチモーダル行動認識やビデオ異常検知においても，PBOは一貫して有意な改善をもたらした。
Link: https://arxiv.org/abs/2601.22675
フルグラフ対ミニバッチ学習：バッチサイズとファンアウトサイズからの包括的分析 [cs.LG]目的：グラフニューラルネットワークの学習手法に関する性能と計算効率の比較
- グラフニューラルネットワークは様々な分野で活用が期待されており，その学習効率が重要視されている。
- フルグラフ学習とミニバッチ学習では，システム設計の要求が異なり，適切な手法の選択が課題となっている。
- バッチサイズとファンアウトサイズがグラフニューラルネットワークの性能に与える影響を明らかにすること。
- 本研究では，Wasserstein距離を用いてグラフ構造，特にファンアウトサイズがモデルの汎化性能に与える影響を分析した。
- バッチサイズとファンアウトサイズは，GNNの収束と汎化性能に異方的な影響を与えることが明らかになった。
- フルグラフ学習は，適切なミニバッチ設定と比較して，必ずしも優れた性能や計算効率を示すとは限らない。
Link: https://arxiv.org/abs/2601.22678
一貫性訓練の安定化：フローマップ解析と自己蒸留 [cs.LG, cs.CV]目的：一貫性モデルの安定性と収束に関する理論的考察
- 高速な生成モデリングの実現が求められており，一貫性モデルはその有力な候補である。
- 一貫性モデルは訓練の不安定性や再現性の低さが課題となっていた。
- フローマップ解析を通じて，不安定性の原因を明らかにし，安定化手法を提案する。
- フローマップ解析により，訓練の安定性と収束行動が劣悪な解を生み出すメカニズムが明確になった。
- 自己蒸留法を再検討し，安定した最適化のための過剰な勾配ノルムを回避する手法を提示した。
- 提案手法は画像生成だけでなく，事前学習済みの拡散モデルに依存しない方策学習にも適用可能であることが示された。
Link: https://arxiv.org/abs/2601.22679
Transformerは周期性の一般化能力を持つか [cs.CL, cs.HC, cs.RO, cs.LG, cs.AI]目的：周期性の一般化能力の評価
- 言語モデルの性能向上は重要だが，人間との比較でOOD汎化能力に課題がある。
- Transformerは，訓練データに含まれる周期性を学習するが，未知の複合周期性への一般化が難しい。
- Transformerの周期性一般化の限界を，抽象代数と推論の観点から解明し，評価基準を構築する。
- Transformerは訓練データを記憶できるものの，未学習の複合周期性への一般化能力が限られていることが示された。
- 周期性を抽象代数と推論の視点から統一的に解釈することで，Transformerが一般化に苦戦する理由を説明した。
- HollowとExtrapolationという2つのOOD設定を持つ，複合周期性に関する制御可能な生成ベンチマークCoperを構築した。
Link: https://arxiv.org/abs/2601.22690
大規模言語モデルの機能ネットワーク指紋 [cs.CL, cs.AI, cs.CR]目的：大規模言語モデルの起源特定手法
- 大規模言語モデル開発は高コストであり，知的財産保護が重要である。
- オープンソースLLMの不正利用や，開発者の権利侵害が問題となっている。
- LLMの起源を，学習なしで効率的に特定し，知的財産を保護する。
- 本研究では，機能ネットワーク活動の一貫性に基づく，新たな起源特定手法FNFを提案した。
- 共通の起源を持つモデルは，多様な入力に対して高い活動パターンの一致を示すことが確認された。
- FNFは，少量サンプルで検証可能，モデルの有用性を損なわず，様々な改変にも強い。
Link: https://arxiv.org/abs/2601.22692
PEAR：ピクセルアラインメント型表現力豊かな人体メッシュ復元 [cs.CV, cs.AI]目的：単一の自然画像からの詳細な3D人体メッシュの再構成
- コンピュータビジョンにおいて，現実世界の人間を正確に3Dモデルとして捉えることは重要である。
- 既存手法は処理速度が遅く，詳細なポーズや表情の再現が不十分であるという課題がある。
- 高精度かつ高速な人体メッシュ復元を通じて，ダウンストリームタスクへの応用を可能とすること。
- PEARは，従来のSMPLXベースの手法と比較して，大幅に高いポーズ推定精度を達成した。
- ViTベースのモデルとピクセルレベルの教師あり学習により，高速かつ高精度な人体メッシュ復元を実現した。
- モジュール化されたデータアノテーション戦略により，モデルのロバスト性を向上させた。
Link: https://arxiv.org/abs/2601.22693
Bi-MCQ：否定理解のための視覚言語アライメントの再構築 [cs.IR, cs.CV, cs.LG]目的：否定的な臨床記述の理解に関する視覚言語モデルの性能向上
- 医療画像解析において，視覚言語モデルの活用が広がっているが，否定表現の理解が課題となっている。
- 既存の視覚言語モデルは，コントラスト学習により否定表現を軽視し，意味反転の操作として捉えられていない。
- Bi-MCQは，条件付きセマンティック比較として視覚言語アライメントを再構築し，否定理解を改善することを目指す。
- Bi-MCQは，最新のCARZeroモデルと比較して，否定理解において最大0.47 AUCの改善を達成した。
- 肯定・否定両方の組み合わせ評価(PNC)において，最大0.08の絶対的な改善が見られた。
- InfoNCEベースのファインチューニングと比較して，肯定・否定AUCの差を平均0.12削減し，否定理解の向上が示された。
Link: https://arxiv.org/abs/2601.22696
Best-of-Q: 推論時のQ関数による行動ランク付けでVLMエージェントを改善 [cs.CL, cs.AI]目的：VLMエージェントの推論時の性能向上
- Web環境など変化の激しい環境における自律動作を可能にするVLMエージェントの重要性が高まっている。
- VLMは環境変化への適応性が低く，ファインチューニングには大規模な学習とデータ収集が必要となる。
- VLMのポリシーを再学習せずに，推論時にQ関数を用いて迅速に性能を向上させることを目指す。
- 本研究では，VLMの行動提案能力と最終的な行動選択メカニズムを分離する新しいパラダイムを提案する。
- VLMポリシーを固定し，状態に応じた行動候補を生成した後，オフラインで学習されたQ関数でランク付けする。
- WebVoyagerベンチマークにおいて，Qwen2.5-VL-7BとGPT-4.1の成功率をそれぞれ55.7%と88.8%に向上させた。
Link: https://arxiv.org/abs/2601.22701
医療AIにおけるユースケース主導のデータ品質評価のための指標ライブラリと実践的な選択ワークフロー [cs.LG]目的：医療AIにおけるデータ品質評価のための指標ライブラリと選択ワークフロー
- 医療AIの信頼性は，臨床応用や規制当局の承認において不可欠である。
- AIモデルの学習・テストデータにおけるデータ品質の定量化が課題となっている。
- 医療AIのユースケースに合わせたデータ品質評価を実践的に可能にすること。
- METRICフレームワークに基づき，データ品質の次元を測定するための指標ライブラリを開発した。
- 各指標について，定義，適用可能性，注意点などを記載した指標カードを提供している。
- ユースケースに応じた適切なデータ品質指標の選択を支援する戦略と決定木を提示した。
Link: https://arxiv.org/abs/2601.22702
深層学習に基づくCNNサロゲートモデリングによる初期段階IRドロップ推定 [cs.LG, cs.AI, cs.AR, eess.IV]目的：初期段階におけるIRドロップの推定
- 現代のVLSI設計において，IRドロップはタイミング劣化，信頼性の問題，機能的な故障を引き起こす重要な電力整合性の課題である。
- 従来のIRドロップ解析は高精度だが，計算コストが高く，最終的なレイアウト情報が必要なため，初期段階の設計検討には不向きである。
- 本研究は，初期段階での迅速なIRドロップ推定を可能にする深層学習ベースの手法を提案することで，この問題を解決することを目指す。
- 提案手法は，レイアウトの物理的特徴をIRドロップのヒートマップに直接マッピングする，密なピクセルごとの回帰問題として定式化されている。
- 実験結果から，提案手法はミリ秒レベルの推論時間でIRドロップ分布を正確に予測でき，高速な事前シグナルチェックと反復的な設計最適化を可能にすることが示された。
- このフレームワークは，高価なシグナルチェック分析の前に，設計者に対して迅速なIRドロップの洞察を提供する，初期段階の分析ツールとして機能することを意図している。
Link: https://arxiv.org/abs/2601.22707
LoRA変種に関する統一的研究：分類，レビュー，コードベース，および実証的評価 [cs.LG, cs.CL]目的：LoRA変種に関する体系的な分類と理論的考察，統一的なコードベース，標準化された実証的評価
- 大規模ニューラルネットワークの効率的なファインチューニングは，計算資源の制約下で高性能を実現する上で重要である。
- LoRAの変種が多数存在する一方で，手法，理論，コード，評価に一貫性がなく，研究の比較が困難になっている。
- LoRA変種の一貫した理解と評価を可能にし，最適な変種選択のための指針を示す。
- LoRAおよびその変種は，他のハイパーパラメータと比較して学習率の選択に顕著な感受性を示すことが明らかになった。
- 適切なハイパーパラメータ設定により，LoRAは多くの変種と同等以上の性能を安定的に達成することが示された。
- LoRA変種は，ランク，最適化ダイナミクス，初期化，MoEとの統合という4つの主要な軸に沿って分類された。
Link: https://arxiv.org/abs/2601.22708
信頼度に基づく知識蒸留によるゲート付き関係的アラインメント：効率的なVLMsのために [cs.CV, cs.AI]目的：効率的なVLMsのための，信頼度に基づく知識蒸留を用いたゲート付き関係的アラインメントの確立
- 画像とテキストを組み合わせたVLMsは，多様な応用において高い性能を示す重要な技術である。
- VLMsの配備コストが高いこと，および量子化後の精度低下が課題となっている。
- 情報ボトルネック原理に基づき，量子化と知識蒸留を統合することで，精度を維持しつつ効率化を図る。
- GRACEは，LLaVAおよびQwenファミリーにおいて，INT4モデルがFP16ベースラインを上回る性能を示した（例：LLaVA-1.5-7BでSQAスコア70.1 vs 66.8）。
- 本手法は，教師モデルの性能にほぼ匹敵する精度を達成し，実用的なINT4カーネルを用いて3倍の処理能力と54%のメモリ削減を実現した。
- 既存の量子化手法を大きく上回り，リソース制約のある環境での配備に最適なソリューションを提供する。
Link: https://arxiv.org/abs/2601.22709
SQUAD：スケーラブルなクォーラム適応決定 - 早期終了ニューラルネットワークのアンサンブルによる手法 [cs.LG, cs.CV, cs.DC]目的：早期終了ニューラルネットワークを用いたスケーラブルなクォーラム適応決定手法
- 推論速度の向上は，特に大規模モデルにおいて重要な課題である。リアルタイム処理やリソース制約のある環境で不可欠。
- 単一モデルの信頼度閾値は，モデルのキャリブレーションの問題により信頼性が低い場合がある。
- 分散型アンサンブル学習と早期終了メカニズムを統合し，不確実性の推定を改善し，推論時間を短縮することを目指す。
- SQUADは，計算複雑度順に中間予測を収集し，統計的に有意なコンセンサスが得られ次第計算を停止するクォーラムベースの停止基準を採用している。
- 多様な早期終了学習器を選択するために，QUEST（クォーラム探索技術）というニューラルアーキテクチャ探索手法を導入している。
- SQUADは，最先端の動的ソリューションと比較してテスト精度を最大5.95%向上させ，静的アンサンブルと比較して推論時間を最大70.60%削減する。
Link: https://arxiv.org/abs/2601.22711
ビジョン言語モデルがタスク指向の潜在的行動を可能にする [cs.LG, cs.AI, cs.CV]目的：潜在的行動モデルの学習における，ビジョン言語モデルによるプロンプト可能な表現の活用
- 視覚と言語を統合したAIの発展は，ロボット工学やインタラクションの分野で重要である。
- 既存の潜在的行動モデルは，不要な情報に影響を受けやすく，正確な行動表現の学習が困難である。
- ビジョン言語モデルの推論能力を用いて，タスクに関連する行動とノイズを分離し，潜在的行動モデルの性能向上を目指す。
- ビジョン言語モデルの表現は，その品質やプロンプトに対する頑健性に大きなばらつきがあることが示された。
- 新しいモデルが必ずしも古いモデルより優れているとは限らず，むしろ性能が劣る場合もあることが判明した。
- ビジョン言語モデルに不要な情報を無視するように指示するだけで，潜在的行動の質を大幅に改善できることが示された。
Link: https://arxiv.org/abs/2601.22714