arXiv雑要約

AI - 2026/05/19 公開

幾何構造を考慮したオーディオ符号化のための二次元量子化 [cs.SD, cs.AI, cs.IT, cs.LG, eess.SP, math.IT]目的：幾何構造を考慮したオーディオ符号化における二次元量子化方式
- 近年，高品質な音声再構成が可能になり，効率的な音声データ処理が求められている。
- 従来の量子化手法では，潜在空間の幾何構造が制限され，特徴量間の相関を捉えにくいという課題がある。
- 特徴量ペアを二次元グリッドに投影・量子化することで，表現学習やコードブック利用効率の向上を目指す。
- 提案手法Q2D2は，既存の量子化手法と同程度のコードブックサイズで，高い音声圧縮効率を実現した。
- Q2D2は，客観評価・主観評価ともに，最先端モデルと比較して競争力のある，あるいはそれ以上の性能を示した。
- 詳細な消去実験により，本研究のデザインの有効性が確認された。
Link: https://arxiv.org/abs/2512.01537
ブレンド翼ボディ機における空力特性と逆設計のためのデータセットとベンチマーク BlendedNet++ [cs.LG, cs.AI]目的：ブレンド翼ボディ機（BWB）の空力特性と逆設計に関する大規模データセット
- 航空機の設計において，空力特性の正確な予測は性能向上に不可欠である。
- BWB機の設計は，複雑な空力計算コストが高く，効率的な設計が困難である。
- 本研究は，深層学習を活用し，高精度な空力予測と逆設計を可能にするデータセットを提供する。
- BlendedNet++は，12,492種類のBWB形状とRANSシミュレーション結果を含む包括的なデータセットである。
- 幾何学的深層学習モデルを用いたリアルタイムの空力場予測フレームワークと，生成的な逆設計手法を確立した。
- Transolverが最も正確な場予測モデルであり，条件付き拡散モデルと勾配ベースの改良を組み合わせた逆設計パイプラインが，高い精度で目標性能を満たす設計を生成することを示した。
Link: https://arxiv.org/abs/2512.03280
SignRoundV2：LLMの極めて低ビットポストトレーニング量子化における性能ギャップ縮小に向けて [cs.CL, cs.AI]目的：LLMの効率的な展開のための極めて低ビット量子化における性能維持
- LLMの利用拡大には，計算資源の制約緩和が不可欠であり，量子化はその有効な手段となる。
- 極めて低ビット（2ビット，4ビット）量子化は，性能劣化が大きく，実用上の課題となっている。
- 本研究は，低ビット量子化下でも高い性能を維持できるフレームワークを提案し，性能ギャップの縮小を目指す。
- SignRoundV2は，勾配情報と再構成誤差に基づいた適応的な混合精度戦略により，層ごとのビット割り当てを最適化する。
- 損失フィルタリングやスケール探索といった軽量な安定化技術を導入し，極めて低ビット下でのチューニング効果を高める。
- 実験結果から，SignRoundV2は混合MXFP設定でほぼ損失のない性能を実現し，平均4.5ビットで性能ギャップを約1%にまで縮小した。
Link: https://arxiv.org/abs/2512.04746
心電図ファウンデーションモデルの微調整による冠動脈CTアンギオグラフィー検査結果の予測 [cs.CV, cs.AI]目的：冠動脈CTアンギオグラフィー検査結果の予測
- 虚血性心疾患は世界的な健康問題であり，効率的なスクリーニング法の開発が求められている。
- 冠動脈CTアンギオグラフィー検査は有用だが，資源と放射線被曝のリスクがある。
- 心電図AIモデルを用いて，虚血性心疾患のリスク層別化を補完し，効率的な検査選択を可能にする。
- 本研究で開発したAI-ECGモデルは，血管ごとに0.683〜0.744のAUC値を達成し，外部検証においても一貫した性能を示した。
- モデル予測確率は，CCTAで定義された狭窄の重症度と単調に増加し，リスク層別化に利用可能であることが示された。
- AIによるリスク層別化をガイドラインに基づくPTPカテゴリーと統合することで，検査除外性能が向上し，予後不良イベントのリスクが明確に分離された。
Link: https://arxiv.org/abs/2512.05136
ラオ・ブラックウェル化粒子フィルタによる目標推論 [cs.LG, cs.IR]目的：移動エージェントの軌跡のノイズの多い観測からの最終的な目標の推論
- ロボット工学において，エージェントの意図を理解することは，安全で効率的な協調に不可欠である。
- 既存の手法では，ノイズの多いデータから正確に意図を推論することが困難である。
- 本研究では，閉ループ制御に基づくエージェントの意図推論の精度向上を目指す。
- ラオ・ブラックウェル化粒子フィルタ（RBPF）を用いることで，サンプル効率を向上させることが示された。
- RBPFの重みを用いたガウス混合モデルと，有効サンプルに限定した簡略版の推定器を提案した。
- 情報理論的漏洩指標を用いて意図回復の精度を定量化し，KLダイバージェンスの上界を提供した。
Link: https://arxiv.org/abs/2512.09269
ニュートンステップと影響関数によるデータ帰属の精度について [cs.LG, stat.ML]目的：データ帰属の精度に関する理論的解析
- モデルの予測根拠を説明するデータ帰属は，解釈性向上やプライバシー保護など，幅広い応用分野で重要である。
- 既存研究は，実用的なデータセットで稀な強い凸性条件に依存し，パラメータ数や削除サンプル数が増えると精度評価が困難である。
- 本研究では，強い凸性を仮定せず，ニュートンステップと影響関数の誤差のスケーリング則を導出し，両手法の精度比較を可能にする。
- ロジスティック回帰において，平均的なサンプル削除に対するニュートンステップの誤差は，O(kd/n^2)のスケーリングを持つことが示された。
- ニュートンステップと影響関数の誤差の差は，O((k+d)√(kd)/n^2)のスケーリングで増加することが示された。
- これらの結果から，ニュートンステップが影響関数よりも，多くの状況で精度が高いという既存研究の観察を理論的に説明することができた。
Link: https://arxiv.org/abs/2512.12572
分布ドリフト下での学習：予測再現性としての内在的統計資源 [cs.LG, stat.ML]目的：分布ドリフト下における統計的学習の特性解明
- 機械学習の応用範囲拡大に伴い，環境変化への適応能力が重要視されている。
- 学習プロセスがデータ生成過程に影響を及ぼす閉ループ環境でのドリフト分析が不十分である。
- 学習者の行動によるフィードバックの影響を分離し，ドリフトの影響を定量化することを目指す。
- 提案手法は，データ分布のFisher-Rao距離に基づくドリフト予算$C_T$を用いて，予測再現性を特徴づける。
- ドリフトとフィードバックの影響を分離し，性能評価の指標となるドリフトレート$C_T/T$を導出した。
- 理論的解析により，ドリフトレート$C_T/T$が性能制御の上限と下限の両方に必要十分であることが示された。
Link: https://arxiv.org/abs/2512.13506
サンプリングに基づく重み空間射影による制約付き方策最適化 [cs.LG, cs.RO]目的：安全性を考慮した方策学習
- 安全性確保が重要な制御問題に応用が期待される分野である。
- 制約関数の微分が困難な場合，安全性を維持した学習が難しい。
- 勾配情報なしで制約を満たす安全な方策の学習を実現する。
- 提案手法SCPOは，パラメータ空間で直接安全性を強制する。
- ロールアウトに基づく安全性評価と平滑性境界を組み合わせ，凸SOCPによる射影を行う。
- 初期化からの安全性維持保証と，安定化バックアップ方策を用いた適応能力向上を達成した。
Link: https://arxiv.org/abs/2512.13788
ShareChat：実世界のチャットボット会話データセット [cs.CL, cs.AI, cs.HC]目的：チャットボットの会話データセット
- LLMの性能評価において，多様なプラットフォームの影響を考慮する必要がある。
- 既存の評価ベンチマークは，プラットフォーム固有の機能を考慮していない。
- 異なるプラットフォームでのユーザー行動とシステム性能の差異を明らかにする。
- ShareChatは，ChatGPT等5つのプラットフォームから収集された14万件以上の会話データセットである。
- プラットフォーム固有の機能を保持し，95言語に対応している点が特徴である。
- 会話の完結性，情報源の引用戦略，応答速度の経時変化などの分析を通して，データセットの有用性を示した。
Link: https://arxiv.org/abs/2512.17843
Transformer attention のベイズ幾何学 [cs.CL, cs.IR, cs.LG, cs.AI, stat.ML]目的：Transformer attention におけるベイズ推論の幾何学的メカニズムの解明
- Transformer は自然言語処理の発展に不可欠であり，その推論能力の理解が重要である。
- Transformer の推論メカニズムは複雑で，記憶と推論の区別が困難である。
- 厳密な環境下で Transformer のベイズ推論能力を検証し，そのメカニズムを明らかにすること。
- 構築した「ベイズ風洞」において，小規模な Transformer はベイズの事後分布を高い精度で再現した。
- 一方，同程度の能力を持つ MLP は大幅に性能が劣り，Transformer のアーキテクチャ的な優位性が示された。
- Transformer は残差ストリーム，フィードフォワードネットワーク，アテンションを通じてベイズ推論を実現する幾何学的メカニズムを用いることが明らかになった。
Link: https://arxiv.org/abs/2512.22471
FLEX-MoE：エッジコンピューティングのための負荷分散型エキスパート割り当てによる連合学習混合エキスパートモデル [cs.LG]目的：エッジ環境における連合学習混合エキスパートモデルの最適化
- 次世代無線通信において，AIモデルの規模拡大と効率化が重要視されている。
- リソース制約のあるエッジデバイスでの大規模モデルの保存が課題となっている。
- 非IIDデータ分布によるエキスパートへの負荷集中を抑制し，モデル性能を向上させる。
- 提案手法FLEX-MoEは，クライアントとエキスパートの適合度を学習を通じて評価し，負荷分散を考慮した割り当てを最適化する。
- 実験結果から，FLEX-MoEは既存手法と比較して高い精度とバランスの取れたエキスパート利用率を示すことが確認された。
- 特に，ヘテロなエッジ環境における負荷分散効果が顕著である。
Link: https://arxiv.org/abs/2512.23070
大規模言語モデルにおけるベイジアン推論の幾何学的スケーリング [cs.LG, cs.AI]目的：大規模言語モデルにおけるベイジアン推論の幾何学的構造の存在と役割
- 言語モデルの推論能力向上は，AI研究における重要な課題であり，そのメカニズム解明が求められている。
- 既存の研究では，言語モデルの不確実性の表現や推論過程がブラックボックスであり，理解が困難である。
- 本研究は，大規模言語モデルにおけるベイジアン推論を支える幾何学的構造を明らかにし，その解釈可能性を高める。
- Pythia，Phi-2，Llama-3，Mistralといった大規模言語モデルの最終層における値表現は，予測エントロピーと強い相関を持つ単一の主要な軸に沿って組織されていることが示された。
- ドメインを限定したプロンプトは，この構造を合成設定で観察された低次元多様体へと収束させる。
- Pythia-410Mにおいてエントロピーに沿った軸への介入は，局所的な不確実性幾何学を破壊するが，ランダム軸への介入では効果が見られなかった。ただし，この操作だけではベイジアン推論様振る舞いの劣化を完全に説明することはできない。
Link: https://arxiv.org/abs/2512.23752
確実な自律性：オペレーションズ・リサーチが生成AIシステムを強化・調整する方法 [cs.LG, math.OC, stat.ML]目的：生成AIシステムの自律性確保のためのフレームワーク
- 生成AIの進化は，ビジネスや社会の様々な領域で大きな変革をもたらす可能性を秘めている。
- 生成AIは確率的モデルに基づいているため，運用環境における堅牢性や安全性の確保が課題となっている。
- オペレーションズ・リサーチの理論と手法を用いて，生成AIシステムの自律性を保証する。
- 生成AIの自律性を高めるには，形式的な構造，制約，テールリスクへの対策が不可欠である。
- フローベース生成モデルと敵対的ロバストネスの考え方を組み合わせたフレームワークを提案する。
- オペレーションズ・リサーチの役割は，ソルバーからガードレール，システムアーキテクトへと変化する。
Link: https://arxiv.org/abs/2512.23978
PhyAVBench：物理に基づいたテキストからオーディオ・ビデオ生成のための挑戦的なオーディオ物理感度ベンチマーク [cs.SD, cs.AI]目的：テキストからオーディオ・ビデオ生成モデルのオーディオ物理的整合性の評価
- 映画製作やワールドモデリングなど，応用分野が拡大しており，高品質な生成が求められている。
- 既存のベンチマークは，主にオーディオ・ビデオの同期に焦点を当て，物理的妥当性の評価が不足している。
- 物理的に妥当なオーディオ・ビデオ生成の研究を促進するため，その評価基準を明確化することを目的とする。
- 本研究で開発されたPhyAVBenchは，多様なデータセットと評価指標（CPRS）を提供し，モデルの物理的整合性を定量的に評価することを可能にした。
- 最新のモデル群の評価結果から，主要な商用モデルでさえ基本的なオーディオ物理現象で課題を抱えていることが明らかになった。
- このベンチマークは，物理に基づいたオーディオ・ビデオ生成の研究を加速するための基盤となることが期待される。
Link: https://arxiv.org/abs/2512.23994
Joint-Embedding Predictive World Modelsにおける物理計画の成功要因 [cs.AI, cs.LG, cs.RO, stat.ML]目的：物理計画における成功要因の特定
- 汎用的なAIエージェントの開発が重要視される中で，物理タスクへの対応能力が求められている。
- 従来の計画手法では，複雑な環境や未知のタスクへの適応に課題があった。
- World Modelの表現空間における計画により，効率化を図り，汎化性能を高めることを目指す。
- JEPA-WMsのモデル構造，学習目的，計画アルゴリズムが計画の成功に影響することを示した。
- 提案モデルは，ナビゲーションと操作の両タスクにおいて，DINO-WMおよびV-JEPA-2-ACといった既存のベースラインモデルを上回る性能を示した。
- シミュレーション環境と実世界のロボットデータを用いた実験により，結果の信頼性を検証した。
Link: https://arxiv.org/abs/2512.24497
多剤間AIシステムへの人間における共謀防止メカニズムのマッピング [cs.MA, cs.AI, cs.CY]目的：多剤間AIシステムにおける共謀戦略の防止メカニズム
- AIの自律性が高まるにつれて，市場や組織における人間社会の共謀問題がAIにも現れる可能性が示唆されている。
- 人間社会で長年培われた共謀防止メカニズムを，AIシステムに適用する方法が不明確である。
- 人間社会の共謀防止メカニズムをAIシステムに適用するための方法論を確立すること。
- 人間における共謀防止メカニズムの分類を策定し，制裁，寛容性，監視，市場設計，ガバナンスなどが挙げられた。
- 各メカニズムに対応するAIシステムへの介入手法を提案した。
- AIにおける帰属問題，アイデンティティの流動性，協力と共謀の区別，敵対的適応といった課題を指摘した。
Link: https://arxiv.org/abs/2601.00360
グラフニューラルネットワークにおける過去のアクティベーションからの学習 [cs.LG, cs.AI]目的：グラフニューラルネットワークにおける過去のアクティベーションの活用
- グラフ構造を持つデータの解析は，ソーシャルネットワークや分子化学など多様な分野で重要である。
- 既存のグラフプーリング手法は，最終層のアクティベーションのみを利用し，潜在的な情報を損失している。
- 中間層のアクティベーションを統合的に活用することで，表現力の向上と過平滑化問題の緩和を目指す。
- 提案手法HISTOGRAPHは，層ごとの注意機構とノードごとの注意機構を組み合わせた二段階アテンションによる集約層である。
- HISTOGRAPHは，ノード表現の層間での進化をモデル化し，過去のアクティベーションとグラフ構造の両方を活用する。
- 複数のグラフ分類ベンチマークにおいて，HISTOGRAPHは既存手法を上回り，特に深層GNNにおいて高い頑健性を示す。
Link: https://arxiv.org/abs/2601.01123
真実を弄ぶ：生成モンタージュによる信念操作のためのオープンチャネル多エージェント共謀 [cs.CL, cs.AI, cs.MA]目的：LLMエージェントによる信念操作の認知的な共謀攻撃とそのメカニズム
- LLMが自律的に情報を統合するにつれ，その推論能力が新たな攻撃対象となる重要性。
- LLMは真実の情報断片を悪用され，誤った結論を内面化させられる脆弱性。
- 公開チャネルを通じて真実の情報のみを用いて，被害者の信念を操作する攻撃手法の解明。
- LLMファミリー14種類に対して，攻撃成功率がそれぞれ74.4%と70.6%に達し，脆弱性が示された。
- 推論能力が高いモデルほど攻撃を受けやすく，汎用モデルやプロンプトよりも高い成功率を示した。
- 誤った信念は判断者へと伝播し，60%を超える欺瞞率を達成し，LLMエージェントの社会技術的な脆弱性が浮き彫りになった。
Link: https://arxiv.org/abs/2601.01685
FormuLLA：新規3Dプリント製剤生成への大規模言語モデルの応用 [cs.AI]目的：3Dプリント製剤における新規配合の提案と機械的特性の予測
- 医薬品の個別化医療実現に貢献する3Dプリンティング技術の重要性が高まっている。
- AIの活用は進むものの，製剤化の広範な課題への対応が十分ではない。
- 大規模言語モデルを用いて，より実用的な3Dプリント製剤配合の提案を目指す。
- Llama2がFDM製剤の賦形剤推奨において最適な性能を示した。
- モデルの選択とパラメータ調整が性能に大きく影響し，小規模なLLMでは破滅的忘却が発生した。
- 標準的なLLM評価指標は言語性能のみを評価し，製剤プロセス適性を考慮していない点が課題である。
Link: https://arxiv.org/abs/2601.02071
少数ショット植物病理のためのメタ学習誘導プルーニング：エッジデバイスでの応用 [eess.SY, cs.SY, cs.CV, cs.LG]目的：少数ショット植物病理におけるエッジデバイスでのモデルサイズ削減と精度維持
- 遠隔地の農家は，植物病害の迅速かつ信頼できる識別方法を必要としている。
- 深層学習モデルは高性能だが，低コストなエッジデバイスでの実行には大きすぎる。
- ラベル付き画像収集のコストと時間的制約を克服し，エッジデバイスでの実用性を高める。
- 提案手法DACISを組み込んだPMPパイプラインにより，モデルサイズを78%削減した。
- PlantVillageおよびPlantDocデータセットにおいて，元の精度92.3%を維持した。
- Raspberry Pi 4上で7フレーム/秒の速度で動作し，現場診断を可能にした。
Link: https://arxiv.org/abs/2601.02353
専門化の幻想：MoEモデルにおけるドメイン不変の「常任委員会」の解明 [cs.LG, cs.AI]目的：MoEモデルにおける専門化のメカニズムの解明
- MoEモデルは大規模言語モデルの性能向上に寄与する重要な技術である。
- MoEモデルの専門化の度合いは，その性能を左右する重要な要素である。
- MoEモデルにおける専門化の実際を明らかにし，効率的な学習方法を探る。
- MoEモデルでは，ドメインに依存せず常に主要な役割を果たす「常任委員会」が存在することが判明した。
- この常任委員会は，推論構造や構文を担い，周辺の専門家はドメイン固有の知識を処理する。
- 現在の学習目標は，モデルの自然な最適化経路と矛盾し，学習効率と性能を制限する可能性がある。
Link: https://arxiv.org/abs/2601.03425
GNNと欠損特徴の再検討：課題，評価，そして堅牢な解決策 [cs.LG, cs.AI]目的：グラフニューラルネットワークにおける欠損ノード特徴への対処
- 現実世界の様々な分野でGNNの応用が拡大しており，その性能を左右する重要な要素である。
- 既存研究は，ノード特徴が疎で，欠損メカニズムが単純なケースに偏っており，実用的な課題に対応できていない。
- より現実的なデータセットと欠損メカニズムを用いて，GNNの欠損特徴に対するロバスト性を評価・改善することを目指す。
- 既存研究では高次元かつ疎な特徴量により欠損による情報損失が小さく，モデル間の比較が困難であることが示された。
- 密で意味のある特徴量を持つ合成データセットと現実世界のデータセットを新たに作成し，より現実的な欠損メカニズムを導入した評価プロトコルを設計した。
- GNNmimというシンプルなベースラインモデルを提案し，多様なデータセットと欠損パターンで高い競争力を持つことを示した。
Link: https://arxiv.org/abs/2601.04855
DeMa：効率的な多変量時系列分析のためのデュアルパス遅延認識Mamba [cs.LG, cs.AI]目的：多変量時系列分析における精度と効率の向上
- 多変量時系列分析は，様々な知能化されたアプリケーションにおいて重要性が増している。
- Transformerモデルは計算量とメモリ消費量が大きく，大規模な時系列データへの適用が困難である。
- Mambaの潜在的な能力を最大限に引き出し，多変量時系列分析における課題を解決することを目指す。
- DeMaは，Mambaの線形計算量の利点を維持しつつ，多変量時系列分析への適性を大幅に向上させる。
- DeMaは，系列内時間動態と系列間相互作用を分解し，遅延認識線形注意機構を統合することで，高い性能を発揮する。
- 実験の結果，DeMaは5つの代表的なタスクにおいて最先端の性能と卓越した計算効率を達成した。
Link: https://arxiv.org/abs/2601.05527
LLMにおける均質化問題：AI安全における有意義な多様性に向けて [cs.DC, cs.RO, cs.MA, cs.AI, cs.CL, cs.CY]目的：AI安全における均質化問題の特性把握と多様性促進
- AIは社会に浸透し，その影響力は増大している。AIの公平性や安全性確保が重要課題である。
- AIモデルは学習データに内在する偏見を増幅させ，多様性の喪失による均質化が問題視されている。
- LLMにおける均質化を定量的に評価し，多様性を促進するための新たな手法を提案することを目的とする。
- 本研究では，均質化を特徴づけるためのフレームワークを提示し，関係者が自身の価値観を組み込めるようにした。
- Claude 3.5 Haikuを用いた実験により，LLMにおけるジェンダーバイアスが露呈し，均質化の具体例を示した。
- クィア理論やフェミニズム理論に基づき，多様性を促進する「異種再生産」という概念を導入し，均質化対策の方向性を示唆した。
Link: https://arxiv.org/abs/2601.06116
拡散モデルにおけるスケーラブルで正確な概念アンラーニング [cs.LG, cs.CV]目的：拡散モデルにおける大規模な概念アンラーニングの実現
- 画像生成AIの発展に伴い，著作権侵害や悪用といった問題が顕在化している。
- 複数の概念を同時にアンラーニングする場合，生成性能の低下や類似コンテンツへの悪影響が課題となっている。
- 本研究は，大規模なデータセットにおいても効率的かつ正確な概念アンラーニングを可能にすることを目指す。
- 提案手法ScaPreは，スペクトル追跡正則化と幾何学的アラインメントにより，最適化の安定化，競合の抑制，およびグローバル構造の保存を実現する。
- ScaPreは，概念に関連するパラメータを特定し，更新を適応的に重み付けすることで，アンラーニングの範囲をターゲット部分空間に限定する。
- 実験の結果，ScaPreは既存手法と比較して最大で5倍多くの概念を削除でき，生成品質を維持しつつ，大規模アンラーニングにおいて最先端の精度と効率を達成した。
Link: https://arxiv.org/abs/2601.06162
忘却全て：概念認識ニューロンマスキングによる複数概念の機械的アンラーニング [cs.CV, cs.LG]目的：複数概念の機械的アンラーニング手法
- テキスト画像生成モデルの普及に伴い，著作権や倫理的な問題が顕在化している。
- 既存のアンラーニング手法は複数概念の削除に弱く，効果や生成品質が低下しやすい。
- モデルのスパース性を活用し，複数概念を効果的に削除する手法を開発する。
- 提案手法FIAは，各重み接続の概念への貢献度を定量化するコントラスティブ概念重要度を導入する。
- 時間的・空間的な情報を組み合わせることで，概念に敏感なニューロンを特定し，概念非依存ニューロンを保護する。
- 実験の結果，FIAは複数概念のアンラーニングにおいて，忘却効果と生成品質の両方を改善することを示した。
Link: https://arxiv.org/abs/2601.06163
知識に基づいた学生エラーシミュレータ：オープンエンド型コーディング課題 [cs.CL, cs.LG, cs.AI, cs.CL, cs.CY]目的：学生のエラーシミュレーションと予測
- コンピュータ科学教育において，学生の知識を詳細に把握するにはオープンエンドな課題が有効である。
- 大規模言語モデルによる学生エラーのシミュレーションは，モード崩壊を起こしやすく，学生の多様な回答を捉えきれない。
- 学生の知識とエラーを整合させることで，より多様なエラーシミュレーションを実現する。
- 本研究で提案するKASERは，知識に基づいたエラーシミュレーション手法であり，コードの類似性，エラーの一致，コード予測の多様性を考慮した報酬を用いた強化学習に基づいている。
- 実世界のデータセットを用いた評価により，KASERはコードとエラーの予測において既存手法を上回る性能を示した。
- 課題レベルの評価では，エラーのカバレッジとシミュレートされたコードの多様性においても既存手法を上回った。
Link: https://arxiv.org/abs/2601.06633
視聴，推論，検索：エージェント型ビデオ推論のためのオープンウェブ上のビデオ深層研究ベンチマーク [cs.CV, cs.AI]目的：オープンウェブにおけるビデオ条件付きのオープン領域ビデオ質問応答
- 現実世界のビデオ質問応答は，複雑な推論と外部知識の活用を必要とする。
- 既存の研究では，ビデオ内の局所的な視覚的手がかりと，ウェブ上の分散した検証可能な情報との統合が困難である。
- ビデオとウェブの情報を統合し，多段階推論を行うエージェントの能力評価のためのベンチマークを構築する。
- 本研究で構築したVideoDRベンチマークは，ビデオ内容に基づいたオープンウェブ検索と推論能力を評価する。
- 大規模言語モデルの評価により，エージェント型アプローチが常にワークフロー型に優位とは限らないことが示された。
- 目標のずれと長期的一貫性が，ビデオエージェントの性能向上のための主要な課題であることが明らかになった。
Link: https://arxiv.org/abs/2601.06943
大規模言語モデルとマルチエージェント強化学習によるクラウドネットワーク耐障害性の向上 [cs.CR, cs.AI, cs.LG]目的：クラウドネットワークの耐障害性向上
- クラウドネットワークは柔軟性と拡張性を持つが，セキュリティ脆弱性が増大し，サイバー攻撃に対する耐障害性が重要となる。
- 従来の強化学習ベースの防御策は，ネットワーク構造や攻撃の変化に追従できず，再学習が必要となるという課題があった。
- 本研究は，変化する環境下でも再学習を必要とせず，高い耐障害性を実現するフレームワークの構築を目指す。
- 提案手法CyberOps-Botsは，大規模言語モデルとマルチエージェント強化学習を組み合わせることで，高い適応性と解釈可能性を両立した。
- 実際のクラウドデータセットを用いた実験により，CyberOps-Botsは既存手法と比較してネットワーク可用性を68.5%向上させた。
- また，シナリオ変更時においても，再学習なしで34.7%の性能向上を達成し，ロバスト性の高さを実証した。
Link: https://arxiv.org/abs/2601.07122
次なる寄港地を超えて：将来の航海区間期間を予測するマルチタスクTransformer [cs.LG]目的：将来の航海区間期間の予測
- 海上輸送におけるスケジュール信頼性向上と，長期的な港湾運営の最適化は重要である。
- 従来のETAモデルは次寄港地のみに焦点を当て，将来区間にはリアルタイムAISデータがない。
- 将来の寄港地までの航海区間期間を，時系列予測問題として解決することを目指す。
- 提案モデルは，実世界のデータセットにおいて，既存の競合モデルを安定的に上回る性能を示した。
- MAE，MAPE，RMSEにおいて，それぞれ4.70%，4.95%，2.59%の平均絶対誤差減少を達成した。
- Gradient Boosting Machinesと比較して，MAE，MAPE，RMSEで7.03%，39.49%，4.37%の誤差減少を示した。
Link: https://arxiv.org/abs/2601.08013
MirrorBench：人間らしさを評価する会話型ユーザープロキシエージェントのベンチマーク [cs.AI, cs.LG]目的：会話型ユーザープロキシエージェントの人間らしさの評価
- 対話システムの評価やファインチューニングデータの生成において，大規模言語モデルの活用が重要になっている。
- 単純な「ユーザーとして振る舞う」プロンプトでは，冗長で非現実的な発話が生じやすいという課題がある。
- ユーザープロキシエージェントが生成する発話の人間らしさを定量的に評価するためのフレームワークを提供する。
- MirrorBenchは，3つの語彙多様性指標と3つのLLMジャッジに基づく指標を組み合わせることで，ユーザープロキシの人間らしさを評価する。
- Human-HumanおよびProxy-Proxyの較正制御を用いることで，ジャッジのスコアを文脈化している。
- 4つの公開データセットを用いた評価により，ユーザープロキシと実際の人間ユーザーとの間に系統的な差があることが示された。
Link: https://arxiv.org/abs/2601.08118
PersonaDual：適応的推論によるパーソナライズと客観性の両立 [cs.RO, cs.AI]目的：パーソナライズと客観性のバランスの取れた両立
- LLMの利用拡大に伴い，ユーザーの嗜好に合わせた情報提供が重要となる。
- パーソナライズされた情報は客観性や事実との整合性を損なう可能性がある。
- 状況に応じて推論モードを切り替えることで，この問題を解決する。
- PersonaDualは，汎用的な客観的推論とパーソナライズされた推論を単一のモデルで実現する。
- SFTとDualGRPOによる強化学習により，モード選択が最適化されている。
- 客観的・パーソナライズされたベンチマークにおいて，高い性能と低い干渉が確認された。
Link: https://arxiv.org/abs/2601.08679
Speech-Hands：全知覚に基づく音声認識と音声推論のための自己内省型ボイスエージェントアプローチ [cs.SD, cs.AI, cs.CL, cs.MA, eess.AS]目的：音声認識と音声推論における自己信頼と外部音声知覚の参照の判断
- 音声認識や音声理解は，人間と機械のインタラクションにおいて不可欠な技術である。
- 全知覚モデルの単純なファインチューニングは，誤った仮説に誘導されやすく，性能が低下することがある。
- 自己内省メカニズムを導入し，モデルが誤った外部候補に惑わされるのを防ぐことを目指す。
- Speech-Handsは，OpenASRリーダーボードにおいて，7つのベンチマークで12.1% WERの性能向上を達成した。
- 音声QAタスクにおいて，77.37%の正解率と高いF1スコアを示し，多様なデータセットで堅牢な汎化性能を証明した。
- 知覚と意思決定の統合により，信頼性の高い音声インテリジェンスの実現に向けた実用的な道筋を提供する。
Link: https://arxiv.org/abs/2601.09413
並列化可能なメモリ再帰ユニット [cs.LG]目的：長期依存性を持つタスクにおける性能向上と，並列化可能性と持続的メモリ能力の両立
- 大規模並列処理の普及に伴い，シーケンスモデルの並列化が重要視されている。
- Transformerは並列化が可能だが，生成時に過去の全タイムステップを再処理する必要がある。
- State Space Models (SSM) の表現能力の限界，特に持続的メモリの欠如を解決する。
- 提案手法であるメモリ再帰ユニット(MRU)は，非線形RNNの持続的メモリ能力とSSMの並列化可能性を組み合わせている。
- 特に，BMRUは並列スキャンアルゴリズムと互換性があり，長期依存性タスクで良好な結果を示す。
- SSMと組み合わせたハイブリッドネットワークは，並列化可能性，過渡的ダイナミクス，持続的メモリを両立する。
Link: https://arxiv.org/abs/2601.09495
ADMEDTAGGER：ポーランド語医療言語のための専門知識蒸留のためのアノテーションフレームワーク [cs.CL, cs.AI]目的：ポーランド語医療テキストのタグ付けに必要な専門知識を蒸留するためのアノテーションフレームワーク
- 医療分野における自然言語処理は，診断支援や医療記録の分析において重要である。
- ポーランド語医療テキストのアノテーションリソースが不足しているという課題が存在する。
- 大規模言語モデルを用いたアノテーションにより，リソース不足を克服し，高精度な分類器を構築することを目指す。
- 大規模言語モデルLlama3.1を用いてポーランド語医療テキストのアノテーションを実施し，アノテーションデータセットを構築した。
- 構築したデータセットを用いてDistilBERT，BioBERT，HerBERTの3種類の分類器を学習させた結果，DistilBERTが最も優れた性能を示した。
- DistilBERTは，各臨床カテゴリでF1スコア>0.80，3つのカテゴリでF1スコア>0.93を達成し，大規模言語モデルに匹敵する性能を示した。
Link: https://arxiv.org/abs/2601.09722
境界鮮度に基づく分散型パーセプトロン：スタールネス，部分参加，ノイズ通信下 [cs.LG]目的：分散環境におけるパーセプトロン学習の理論的限界と性能評価
- 分散学習は，大規模データセットに対し，計算資源を効率的に活用できるため重要である。
- 通信遅延やクライアントの可用性変動，通信ノイズが学習の安定性と精度を損なう可能性がある。
- スタールネス，部分参加，ノイズ通信といった現実的な制約下での学習性能を理論的に保証すること。
- スタールネスバケット集約法を用いることで，更新の遅延を決定的に制御し，規定のスタールネスプロファイルを適用できる。
- 遅延の影響は平均スタールネスとして現れ，通信ノイズは時間平方根に比例した項として累積誤り回数に影響を与える。
- 無ノイズ環境下では，有限の期待誤り予算から，穏やかな参加条件のもとで有限ラウンドでの安定化限界が導かれる。
Link: https://arxiv.org/abs/2601.10705
DevBench：コード生成モデルのための現実的かつ開発者情報に基づくベンチマーク [cs.HC, cs.LG, cs.AI, cs.SE]目的：コード生成モデルの評価基準
- ソフトウェア開発におけるコード生成の自動化は，生産性向上に不可欠である。
- 既存のベンチマークは，現実のコーディング状況を反映しておらず，モデルの性能を正確に評価できない。
- 現実的な開発環境を考慮した，より信頼性の高い評価基準を構築し，モデルの改善を促す。
- DevBenchは，6言語6カテゴリに及ぶ1800件の実データに基づいた評価インスタンスを含む。
- 最先端モデルのPass@1スコアは43.5%に留まり，ベンチマークの難易度が高いことが確認された。
- 構文精度，意味推論，実用性といった要素におけるモデル間の差異が明らかになった。
Link: https://arxiv.org/abs/2601.11895
二重較正：知識と推論確信度の較正による信頼性の高いLLMへ [cs.CL, cs.AI]目的：大規模言語モデルの信頼性向上
- 大規模言語モデルは急速に発展しているが，その出力の信頼性が課題となっている。
- 既存手法では，LLMが事実に基づかない情報を生成する「ハルシネーション」への対処が不十分である。
- 知識グラフを活用しつつ，LLMの推論における不確実性を定量化することで信頼性を高める。
- 提案手法DoublyCalは，知識グラフの証拠と証拠の確信度を較正する二重較正の原理に基づいている。
- DoublyCalは，軽量なプロキシモデルを用いて証拠を生成し，その確信度を較正することで，LLMの推論を誘導する。
- 実験の結果，DoublyCalは，LLMの精度と確信度較正を大幅に向上させつつ，トークンコストを抑えることが示された。
Link: https://arxiv.org/abs/2601.11956
「全体は部分の総和より大きい」：適合性に基づいた多教師CoT蒸留フレームワーク [cs.CL, cs.AI]目的：大規模言語モデルの推論能力を小型モデルへ効率的に伝達する手法
- 大規模言語モデルは高い能力を持つが，その規模が大きすぎる点が課題である。
- 既存のCoT蒸留は単一教師に依存しており，教師の偏りや知識の忘却が問題となる。
- 複数教師の知識を統合し，小型モデルの推論能力を最大限に引き出すことを目指す。
- 提案手法COMPACTは，教師の勾配を動的に重み付けすることで，多様な推論能力を統合する。
- グラフに基づくコンセンサス，相互情報に基づく適応性，損失に基づく難易度といった指標を用いて，教師との適合性を評価する。
- 実験結果から，COMPACTは既存手法を上回り，知識の忘却を抑制することが示された。
Link: https://arxiv.org/abs/2601.13992
拡散モデルにおける多概念再活性化のための潜在空間アンブロッキング (LURE) [cs.CV, cs.LG]目的：拡散モデルにおける概念消去の脆弱性克服と，複数概念の同時再活性化
- 拡散モデルは強力な画像生成技術であり，機密性の高いコンテンツの制御が重要である。
- 概念消去技術は，完全に概念を削除できていない場合があり，再活性化の脆弱性が存在する。
- 潜在空間の操作を通じて，複数概念の再活性化を同時に，かつ高精度に実現する。
- 本研究では，生成過程を暗黙的関数としてモデル化し，テキスト条件，モデルパラメータ，潜在状態等の要素が再活性化に影響することを理論的に示した。
- 提案手法LUREは，潜在空間の再構築とサンプリング軌道の誘導により，消去された概念を高精度で再活性化する。
- 勾配場の直交化により，複数概念間の干渉を抑制し，潜在的意味識別を基盤としたサンプリングにより安定性を確保している。
Link: https://arxiv.org/abs/2601.14330
精度とリソースのジレンマを打破：軽量適応型ビデオ推論の強化 [cs.CY, cs.CL, cs.CV, cs.AI]目的：ビデオ推論の性能向上とリソース効率の最適化
- ビデオ推論は，自動運転や監視システム等，様々な分野で重要な役割を担っている。
- 既存手法はモデルサイズを拡大し複雑化するため，リソース効率が低下しやすい。
- デバイスのリソース状況に応じてモデルを動的に切り替えることで，性能と効率の両立を目指す。
- 提案手法は，システムパラメータと推論指標に基づき，モデルのスケールを動的に調整する。
- これにより，リソース利用効率と推論性能のバランスを効果的に実現できることが実験的に示された。
- 隣接フレーム間のターゲットの時空間相関を活用することで，より効率的な推論を可能にしている。
Link: https://arxiv.org/abs/2601.14568
医療におけるエージェントAIのガバナンスとライフサイクル管理 [cs.AI]目的：医療におけるエージェントAIのガバナンスとライフサイクル管理の統一的な設計
- 医療現場でのAI活用が進む中で，安全性と有効性を担保するガバナンスが不可欠である。
- エージェントAIの導入拡大に伴い，管理の複雑化と責任の所在不明確さが課題となっている。
- エージェントAIのライフサイクル全体を統括し，安全な運用と拡張を可能にする。
- 本研究では，ガバナンス標準，セキュリティ文献，医療コンプライアンス要件を統合した，統一的なエージェントライフサイクル管理（UALM）の設計を提案する。
- UALMは，ID管理，オーケストレーション，PHI保護，ポリシー施行，ライフサイクル管理の5層で構成され，エージェントAIの運用における課題を解決する。
- この設計は，医療機関のCIO，CISO，臨床リーダーに対し，監査対応可能な安全なAI運用を実現するための具体的な指針を提供する。
Link: https://arxiv.org/abs/2601.15630
RL学習された定理証明器における推論時の多様性：診断的研究 [cs.AI]目的：RL学習された定理証明器における推論時のモード崩壊現象の分析と改善策
- 近年，機械学習を用いた定理証明が注目されており，数学の自動化に貢献が期待されている。
- RL学習された定理証明器は，推論時に同じ解法に陥りやすく，多様性が不足する問題がある。
- 推論時の多様性を高めることで，定理証明器の性能を向上させることを目指す。
- RL学習された定理証明器では，推論時の多様性が不足し，性能が頭打ちになる現象が確認された。
- 固定されたタクティクのスケルトンを用いることで，推論時の多様性を向上させ，性能が約45%改善された。
- この改善効果は，プロンプトの多様性によるものではなく，タクティクのスケルトンが直接的に貢献していることが示された。
Link: https://arxiv.org/abs/2601.16172
ステアリングベクトルを用いたホワイトボックス感度監査 [cs.CY, cs.CL, cs.LG]目的：大規模言語モデルの感度監査手法
- AIの社会実装が進む中，公平性や安全性といった倫理的側面が重要視されている。
- 従来のブラックボックス評価では，入力と出力のみでモデルを評価するため，内部メカニズムの把握が困難である。
- モデル内部の状態を操作することで，より詳細な感度分析とバイアスの検出を目指す。
- 提案手法は，活性化ステアリングを用いてモデル内部の概念を操作し，より厳密な監査を可能にする。
- シミュレーション実験では，標準的なブラックボックス評価では検出されないバイアスが明らかになった。
- モデルの予測が保護属性に大きく依存していることを一貫して示す結果が得られた。
Link: https://arxiv.org/abs/2601.16398
PyHealth 2.0：アクセス可能で再現性のある臨床深層学習のための包括的なオープンソースツールキット [cs.LG, cs.AI]目的：臨床深層学習研究の再現性とアクセシビリティ向上
- 医療現場でのAI活用は，より良い医療の提供に不可欠である。
- 既存研究の再現性の低さ，計算コストの高さが研究の障壁となっている。
- PyHealth 2.0は，これらの課題を解決し，臨床AI研究を加速させる。
- PyHealth 2.0は，15種類以上のデータセット，20種類以上の臨床タスク，25種類以上のモデルを統合し，再現性と互換性の問題を解決する。
- マルチモーダルデータに対応し，処理速度を最大39倍，メモリ使用量を20分の1に削減し，低スペック環境でも研究を可能にする。
- 400人以上のオープンソースコミュニティを形成し，ドキュメントや研究成果を共有することで，専門知識の障壁を下げる。
Link: https://arxiv.org/abs/2601.16414
表面的なアンラーニングを超えて：マルチモーダルLLMにおける幻覚のシャープネスアウェアな堅牢な消去 [cs.LG, cs.AI, cs.CL, cs.CV]目的：マルチモーダルLLMにおける幻覚の堅牢な消去
- マルチモーダルLLMは強力だが，信頼性を損なう存在しないエンティティを記述する幻覚を起こしやすい。
- 既存のアンラーニング手法は，構造的な脆弱性により，幻覚がわずかな再学習で再発する可能性がある。
- 損失関数の地形を平坦化し，パラメータの変化に対する安定性を確保することで，幻覚を堅牢に消去すること。
- SAREは，ターゲットを絞ったmin-max最適化問題としてアンラーニングを定式化し，幻覚概念の周辺の損失関数の地形を明示的に平坦化するTargeted-SAMメカニズムを使用する。
- 実験により，SAREは幻覚の消去効果においてベースラインを大幅に上回り，一般的な生成品質を維持することが示された。
- SAREは，再学習やパラメータの更新に対する幻覚の抑制を維持し，幾何学的な安定化の有効性を検証した。
Link: https://arxiv.org/abs/2601.16527
深層ネットワークにおける最小重み摂動の理論とその低ランク活性化バックドア攻撃への応用 [cs.IR, cs.LG, cs.IT, math.IT]目的：深層ネットワークの出力変化に必要な最小ノルムの重み摂動
- 深層学習モデルの脆弱性評価は，安全性確保の観点から重要である。
- 既存手法では，多層におけるロブスト性の厳密な保証が困難である。
- 最小摂動の理論に基づき，バックドア攻撃の成功限界を定める。
- 単層の厳密解と，多層のLipschitz定数に基づくロバスト性保証が同程度の有効性を持つことが示された。
- 特定の圧縮閾値以下ではバックドア攻撃が成功しないことが証明された。
- 低ランク圧縮により，フル精度を維持しつつ潜在的なバックドアを確実に活性化できることが確認された。
Link: https://arxiv.org/abs/2601.16880
パーソナライズがリスクを正当化するとき：パーソナライズされた対話エージェントの安全性脆弱性の解明 [cs.HC, cs.AI]目的：パーソナライズされた対話エージェントにおける意図の正当化という安全性上の欠陥の特定と定量化
- LLMエージェントの長期記憶は，パーソナライズされた対話を可能にする重要な技術である。
- 既存研究では，パーソナライズにおける記憶の安全性への影響が十分に考慮されていない。
- 本研究は，パーソナライズが有害なクエリを正当化する問題を解決することを目指す。
- パーソナライズによって，無状態ベースラインと比較して攻撃成功率が15.8%～243.7%増加することが確認された。
- 内部表現空間の分析から，意図の正当化のメカニズム的証拠が得られた。
- 軽量な検出・反映法が，安全性の低下を効果的に軽減することが示された。
Link: https://arxiv.org/abs/2601.17887
文脈を考慮したキューイングバンディットにおけるキュー長のリグレット上限 [cs.RO, cs.IR, cs.LG]目的：文脈を考慮したキューイングバンディットにおけるリグレットの解析
- 資源配分やスケジューリングは，様々なシステムにおいて重要な課題である。
- サービスレートが未知である場合，最適な資源配分は困難である。
- 文脈情報を用いてサービスレートを学習し，効率的な資源配分を実現する。
- 提案手法CQB-εは，キュー長リグレットの上限$\widetilde{\mathcal{O}}(T^{-1/4})$を達成する。
- 敵対的な文脈下では，CQB-Optは$\mathcal{O}(\log^2 T)$のリグレット上限を達成する。
- 実験結果は，理論的知見を裏付けている。
Link: https://arxiv.org/abs/2601.19300
ドリフトの追跡：非定常強化学習のための変動を考慮したエントロピー計画 [cs.LG, cs.AI]目的：非定常環境下における強化学習におけるエントロピー計画
- 現実世界の強化学習は環境変化に直面することが多く，効率的な学習が不可欠である。
- 従来の強化学習手法は静的なエントロピー係数を用いるため，変化への対応が不十分である。
- 環境変化の大きさに応じた探索強度の調整手法を確立し，性能劣化を抑制すること。
- 提案手法AESは，オンラインで観測可能なドリフトの指標を用いてエントロピー係数を適応的に調整する。
- 実験結果から，AESはドリフトによる性能劣化の割合を大幅に削減し，急激な変化後の回復を加速することが示された。
- エントロピー計画は，ドリフトの追跡と更新の安定化の間の動的後悔のトレードオフとして捉えられる。
Link: https://arxiv.org/abs/2601.19624