arXiv雑要約

AI - 2026/02/02 公開

  • エージェント強化学習による次世代化学言語モデルの創出:分子設計と合成への応用 [cs.CY, cs.HC, cs.LG, cs.AI]目的:分子設計と合成のための化学言語モデルの性能向上
    • 創薬や化学合成において,言語モデルの活用が重要性を増しており,研究開発の効率化が期待されている。
    • 既存モデルは,知識の保持力不足やプライバシーリスク,高コストといった課題を抱えており,実用化の障壁となっていた。
    • エージェント強化学習を用いて,知識の外部化とツール利用能力の向上を図り,これらの課題を解決することを目指す。
    • ChemCRAFTは,エージェント強化学習を用いて,化学言語モデルの推論と知識保存を分離する新しいフレームワークである。
    • 小規模なモデルでも,クラウドベースのLLMを凌駕する性能を発揮し,分子構造解析,最適化,合成経路予測において優れた結果を示した。
    • この研究は,費用対効果が高く,プライバシーを保護しながらAIを活用した化学研究を加速させる新たな道を開く。

    Link: https://arxiv.org/abs/2601.17687

  • LLM-42:検証推測によるLLM推論の決定性確保 [cs.LG, cs.AI, cs.DC]目的:LLM推論における決定性の確保
    • LLMの利用拡大に伴い,再現性のある結果が求められる場面が増加している。
    • LLM推論は浮動小数点演算の非結合性等により,実行ごとに結果が変動する非決定性を持つ。
    • 動的バッチ処理を維持しつつ,決定性を担保する効率的な手法の確立。
    • LLM-42は,高速な非決定的な推論パスと軽量な検証・ロールバックループを組み合わせることで,決定性を実現する。
    • 既存のカーネルをほぼ変更せずに再利用し,決定性が必要な部分にのみオーバーヘッドを課す。
    • 検証において固定された形状の削減スケジュールを用いることで,実行間の整合性を保証する。

    Link: https://arxiv.org/abs/2601.17768

  • メンタルヘルスAI安全性のテストにおける専門家評価と人間からのフィードバックの限界 [cs.AI, cs.HC]目的:メンタルヘルスAI安全性のテストにおける専門家評価の信頼性と限界
    • メンタルヘルス分野は,人命に関わるため,AIシステムの安全性確保が極めて重要である。
    • AIの評価において,専門家間の意見不一致が安全性評価の信頼性を損なう可能性がある。
    • 本研究は,専門家間の意見不一致がAI安全性評価に与える影響を明らかにすることを目的とする。
    • 精神科医3名によるLLM生成応答の評価において,専門家間の信頼性は低い(ICC 0.087-0.295)ことが示された。
    • 特に,自殺や自傷行為に関する応答で意見の相違が大きく,一貫性のあるものであった。
    • 専門家は,詳細な要素の識別よりも,全体的なリスク評価に基づいて判断しており,意見集約は専門家の考えを希薄化する可能性がある。

    Link: https://arxiv.org/abs/2601.18061

  • MalURLBench:Web URL処理におけるエージェントの脆弱性を評価するベンチマーク [cs.CR, cs.AI]目的:Web URLに対するLLMベースのエージェントの脆弱性の評価
    • Webエージェントの利用拡大に伴い,セキュリティリスクへの対策が不可欠となっている。
    • 悪意のあるURLを識別するベンチマークが存在せず,脆弱性評価が困難であった。
    • Webエージェントのセキュリティ向上に資する評価基盤を確立することを目指す。
    • MalURLBenchは,10種類のシナリオと7種類の悪意のあるWebサイトを含む61,845件の攻撃事例で構成される。
    • 12種類のLLMの実験により,既存モデルが悪意のあるURLの巧妙な偽装を見抜くことが困難であることが示された。
    • 攻撃成功率に影響を与える要因を特定し,軽量な防御モジュールURLGuardを提案した。

    Link: https://arxiv.org/abs/2601.18113

  • TriPlay-RL:LLMの安全性調整のための三役自己対戦強化学習 [cs.LG, cs.AI]目的:大規模言語モデルの安全性調整のための三役自己対戦強化学習フレームワーク
    • 大規模言語モデルの利用拡大に伴い,有害なコンテンツ生成リスクの軽減が喫緊の課題となっている。
    • 従来の安全性調整は,攻撃者,防御者,評価者の手動アノテーションに依存し,効率性と拡張性に課題があった。
    • 本研究は,手動アノテーションをほぼゼロに抑え,効率的かつ継続的な安全性調整を可能とする。
    • 攻撃者は,高い出力多様性を維持しつつ,敵対的効果を20〜50%向上させた。
    • 防御者は,一般的な推論能力を損なうことなく,安全性性能を10〜30%向上させた。
    • 評価者は,反復を通じて詳細な判断能力を磨き,安全でない応答,単純な拒否,有用なガイダンスを正確に区別した。

    Link: https://arxiv.org/abs/2601.18292

  • 時系列予測のための適合予測アルゴリズム:手法とベンチマーク [cs.LG]目的:時系列予測における信頼性のある不確実性定量化
    • 時系列データは様々な分野で利用され,予測の信頼性は意思決定に不可欠である。
    • 従来の予測手法は分布に関する制約が強く,現実のデータに適用が難しい場合がある。
    • 時系列データの依存性を考慮した,分布に依存しない不確実性定量化手法を確立する。
    • 適合予測(CP)は理論的な保証を持つ分布フリーな枠組みだが,時系列データへの適用には交換可能性の仮定という課題がある。
    • 交換可能性の仮定を緩和する手法,独立な時系列の集合としてデータを再定義する手法,予測残差の動的モデリング,オンライン学習アルゴリズムなどを比較検討した。
    • マルチステップ分割適合予測が90%のカバレッジ閾値を満たし,最も効率的な結果を示した。

    Link: https://arxiv.org/abs/2601.18509

  • コールドスタートからアクティブラーニングへ:埋め込みベースのスキャン選択による医用画像セグメンテーション [cs.CV, cs.LG]目的:医用画像セグメンテーションにおける効果的なスキャン選択戦略の開発
    • 医用画像セグメンテーションは,疾患モニタリングにおいて不可欠であり,高精度なアノテーションが求められる。
    • 手動アノテーションには専門知識と時間が必要であり,その負担がセグメンテーションのボトルネックとなっている。
    • 本研究は,効率的なアノテーションのための,埋め込みとクラスタリングを活用した新たなコールドスタート戦略を提案する。
    • 提案手法は,CheXmaskデータセットにおいて,ランダム選択と比較してDice係数を0.918から0.929へ,Hausdorff距離を32.41mmから27.66mmへ改善した。
    • アクティブラーニング設定では,エントロピーと多様性の組み合わせにより,Dice係数を0.919から0.939へ,Hausdorff距離を30.10mmから19.16mmへ改善した。
    • Montgomeryデータセットでも,コールドスタート戦略により,Dice係数は0.928から0.950へ,Hausdorff距離は14.22mmから9.38mmへと大幅に改善された。

    Link: https://arxiv.org/abs/2601.18532

  • ハードウェアトロージャン検出のための説明可能性手法:体系的な比較 [cs.LG]目的:ハードウェアトロージャン検出における説明可能性手法の比較
    • ハードウェアセキュリティの重要性が増しており,トロージャンの検出と対策が不可欠である。
    • 従来のトロージャン検出手法では,検出根拠の説明が不十分で,検証が困難である。
    • 検出結果の検証と対策を可能にする,説明可能なトロージャン検出手法を確立すること。
    • ゲートレベルでのトロージャン検出において,ドメイン知識に基づいた特性分析,事例ベース推論,モデル非依存型特徴量帰属の3つの説明可能性手法を比較した。
    • 特性分析では,「出力近傍の高ファンイン複雑性はトリガーの可能性を示唆する」といった回路概念に基づく説明が可能である。
    • XGBoost分類器は,既存研究と比較して精度が9倍向上し,誤検知率も大幅に低下した。

    Link: https://arxiv.org/abs/2601.18696

  • RPO:部分推論最適化による強化学習ファインチューニング [cs.AI, cs.LG]目的:大規模言語モデルの強化学習ファインチューニングにおける計算効率の向上
    • 大規模言語モデルの性能向上には,ファインチューニングが不可欠であり,その中でも強化学習が注目されている。
    • 従来の強化学習では,推論経路全体を生成する必要があり,計算コストが非常に高いという課題があった。
    • 推論経路の一部のみを利用することで,計算コストを削減し,効率的な学習を実現することを目指す。
    • 提案手法RPOは,推論経路の接尾辞を生成することで,ロールアウト段階でのトークン生成量を約95%削減することに成功した。
    • 1.5Bモデルの学習時間を90%,7Bモデルの学習時間を72%削減し,大幅な学習時間の短縮を実現した。
    • GRPOやDAPOといった既存のアルゴリズムに容易に組み込むことができ,性能を維持したまま学習を高速化できる。

    Link: https://arxiv.org/abs/2601.19404

  • AACR-Bench:包括的なリポジトリレベルの文脈を用いた自動コードレビューの評価 [cs.SE, cs.AI]目的:自動コードレビューの評価基準
    • 大規模言語モデルのコードレビューへの応用が期待される中で,その性能評価の重要性が高まっている。
    • 既存の評価基準は,多言語対応や正確な欠陥情報の不足により,汎用性や信頼性に課題がある。
    • 本研究では,より網羅的で信頼性の高い評価基準を構築し,自動コードレビューの性能評価を向上させる。
    • AACR-Benchは,複数のプログラミング言語に対応し,ファイル全体の文脈を考慮した包括的な評価基準である。
    • 従来の基準と比較して,潜在的な欠陥の検出率を285%向上させている。
    • 大規模言語モデルの評価において,文脈の粒度や検索方法が性能に大きく影響することが示された。

    Link: https://arxiv.org/abs/2601.19494

  • 不変軌跡学習による汎化性能の高いマルチモーダル大規模言語モデル編集 [cs.HC, cs.LG, cs.AI]目的:マルチモーダル大規模言語モデルの知識編集における汎化性能向上
    • 大規模言語モデルの知識編集は,誤った情報を効率的に修正する上で重要である。
    • 既存の編集手法は,出力との間の厳密な対応関係に依存し,汎化性能が低い。
    • クロスモーダルなプロンプトに対するロバストな編集を実現する。
    • 本研究では,知識編集を分布外汎化問題として捉え,意味的な変化と事実的な変化を識別する。
    • ODEditという,不変学習に基づくプラグアンドプレイ可能なフレームワークを提案した。
    • ODEditは,編集の信頼性,局所性,汎化性能を同時に向上させる。

    Link: https://arxiv.org/abs/2601.19700

  • Post-LayerNormの再評価:安定性,表現力,そして深層化 [cs.LG, cs.CL]目的:深層言語モデルのスケーラビリティ向上
    • 大規模言語モデルの性能向上のためには,モデルの規模拡大が重要である。
    • モデルの幅を拡大しても効果が薄れ,文脈長の延長だけでは根本的な表現力は向上しない。
    • 深層化は理論上優れた表現力を持つが,従来のTransformerアーキテクチャでは安定した学習が困難である。
    • 本研究では,不安定性によりPre-LNに取って代わられたPost-LayerNormの再評価を行った。
    • Post-LNの失敗モードはResNetスタイルの残差パスに起因し,深層ネットワークにおいて勾配消失を引き起こすことが示された。
    • 残差パスをHighway接続に置き換えたKeelというPost-LN Transformerを提案し,安定した深層学習を実現した。

    Link: https://arxiv.org/abs/2601.19895

  • エッジLLM向けドメイン適応型・ノイズ耐性検索拡張生成モデルCiMRAG [cs.LG, cs.AI]目的:エッジデバイスにおけるLLMを活用したパーソナライズされた仮想アシスタントのための,ノイズに強くドメイン適応性を持つ検索拡張生成手法
    • エッジデバイスでのLLM活用は,プライバシー保護や低遅延性といった利点から注目されている。
    • 増加するプロファイルデータへの対応と,CiMアーキテクチャにおける環境ノイズへの脆弱性が課題である。
    • ノイズ環境下での検索精度を向上させ,多様なドメインへの適応能力を高めることを目指す。
    • 提案手法TONELは,ノイズを考慮した射影モデルにより,タスク固有の埋め込み表現を学習する。
    • これにより,CiMハードウェアの制約下でも,ノイズ環境下で正確な検索が可能となる。
    • パーソナライズ化ベンチマーク実験の結果,提案手法は既存手法と比較して高い有効性と実用性を示す。

    Link: https://arxiv.org/abs/2601.20041

  • 確率的環境における分布価値勾配 [cs.LG]目的:確率的環境下での価値勾配学習の改善
    • 強化学習は,複雑な意思決定問題を解決する強力な手法であり,様々な分野で応用が期待されている。
    • 従来の価値勾配学習法は,確率的またはノイズの多い環境下では性能が低下し,適用が制限される。
    • 分布強化学習を用いて,価値関数と勾配の分布をモデル化することで,この問題を解決する。
    • 提案手法「Distributional Sobolev Training」は,報酬と遷移の分布を学習する条件付きVAEを用いて,価値勾配を効率的に推定する。
    • Sobolev増強ベルマン演算子は縮小写像であり,一意の固定点を持つことが証明された。
    • 簡単な強化学習の玩具問題とMuJoCo環境での実験により,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2601.20071

  • NVIDIA データセンターGPUの進歩:現状と課題 [cs.AR, cs.AI]目的:NVIDIAデータセンターGPUの技術的な進歩の分析
    • GPUは科学研究の制約を左右する重要な要素であり,その進歩を把握することは不可欠である。
    • AI分野の急速な発展と国際競争の激化により,高度なAIチップへのアクセス制限が生じている。
    • データセンターGPUの性能向上傾向を定量的に評価し,輸出規制の影響を分析すること。
    • FP16/FP32演算性能は約1.44~1.69年で倍増する一方,FP64演算性能の倍増には2.06~3.79年を要する。
    • オフチップメモリの容量と帯域幅の成長速度は演算性能に比べて遅く,約3.32~3.53年で倍増する。
    • データセンターGPUの価格は約5.1年で倍増し,消費電力は約16年で倍増する。アメリカの輸出規制変更は性能格差を縮小させる。

    Link: https://arxiv.org/abs/2601.20115

  • 学習エージェントによる輻輳ゲームにおける不平等 [cs.HC, cs.RO, cs.MA, cs.GT, cs.AI]目的:交通ネットワーク拡張による不平等の発生機構の解明
    • 交通ネットワークは都市機能の維持に不可欠であり,その最適化は社会全体の効率に影響する。
    • ネットワーク拡張が必ずしも公平な利益分配に繋がらず,不平等を拡大する可能性が指摘されている。
    • 学習速度の異なるエージェントの相互作用を通して,不平等の発生メカニズムを定量的に評価する。
    • ネットワークの拡張は,全体的な効率を向上させつつ,学習速度の速い通勤者により大きな利益をもたらし,不平等を増幅する可能性がある。
    • 特に,Braessのパラドックスのようなネットワーク構造において,この傾向が顕著に現れることがシミュレーションによって示された。
    • 交通政策は,均衡状態だけでなく,通勤者の適応過程の多様性を考慮し,効率性と公平性のバランスを取る必要がある。

    Link: https://arxiv.org/abs/2601.20578

  • 説明しないGNNの説明と,それらを見つける方法 [cs.LG, cs.AI]目的:自己説明型グラフニューラルネットワークの説明の誤り
    • GNNの利用拡大に伴い,モデルの判断根拠の透明性確保が重要である。
    • 自己説明型GNNの説明が,必ずしもモデルの推論と一致しない可能性がある。
    • 誤った説明を特定し,信頼性の高い評価指標を開発すること。
    • 自己説明型GNNが最適な予測精度を達成しつつ,無関係な説明を出力することがある。
    • 既存の忠実度指標は,このような誤った説明を検出しきれない場合がある。
    • 新たな忠実度指標を提案し,誤った説明を確実に識別できることを示した。

    Link: https://arxiv.org/abs/2601.20815

  • オープンボキャブラリに基づく機能的な3Dヒューマン-シーンインタラクション生成 [cs.CV, cs.AI]目的:3Dシーンにおける機能的なヒューマン-シーンインタラクションの生成
    • 具現化されたAI,ロボティクス,インタラクティブコンテンツ作成などへの応用が期待される研究分野である。
    • 既存手法はオブジェクトの機能性や接触に関する明示的な推論が不足し,不自然なインタラクションが生じやすい。
    • オープンボキャブラリのタスクプロンプトから機能的に正しいインタラクションを生成することを目的とする。
    • 提案手法FunHSIは,タスクプロンプトに基づき機能的な接触推論を行い,シーン要素の3D形状を再構築する。
    • FunHSIは,視覚言語モデルを活用してタスクを実行する人間の画像を合成し,3D姿勢を推定する。
    • 段階的な最適化により,物理的な妥当性と機能的な正確性を確保した3D人体の構成を生成する。

    Link: https://arxiv.org/abs/2601.20835

  • IDE-Bench:現実世界のソフトウェアエンジニアリングタスクにおけるIDEエージェントとしての大規模言語モデルの評価 [cs.SE, cs.LG]目的:大規模言語モデルのIDEエージェントとしての性能評価
    • ソフトウェア開発の効率化は,現代の技術革新において不可欠である。
    • AIエージェントによるソフトウェア開発支援は,まだ十分な評価と改善の余地がある。
    • 実際の開発環境下でAIエージェントの能力を客観的に評価し,改善点を明確化すること。
    • IDE-Benchは,実際のIDE環境でAIエージェントを評価するための包括的なフレームワークである。
    • 80の未発表リポジトリからなるタスクを用いて,C/C++,Java,MERNスタックのマルチ言語,フルスタック環境におけるAIエージェントの性能を評価した。
    • エージェントが報告する意図と,プロジェクトレベルでの修正成功との相関関係を体系的に評価した。

    Link: https://arxiv.org/abs/2601.20886

  • LLMベースASRにおけるテキストノイズ除去を通じたテキストのみの適応 [cs.SD, cs.CL, cs.LG, eess.AS]目的:LLMベースASRシステムのテキストのみによるドメイン適応
    • 音声認識技術は,人間と機械のコミュニケーションを円滑にする上で不可欠である。
    • LLMを活用したASRにおいて,ドメイン適応時に音声とテキストの整合性が失われることがある。
    • テキストのみで効率的にドメイン適応を行い,音声とテキストの整合性を維持すること。
    • 提案手法では,LLMをテキストノイズ除去タスクとして学習することで,ドメイン適応とモダリティ整合性の維持を両立する。
    • 実験結果から,提案手法は既存のテキストのみ適応手法と比較して最大22.1%の相対的な性能向上を示すことが確認された。
    • 本手法は,アーキテクチャ変更や追加パラメータを必要とせず,軽量であるという利点がある。

    Link: https://arxiv.org/abs/2601.20900

  • NEXUS:ニューロモルフィックゲート回路によるビット精度ANN-SNN同等性 - サロゲートなし学習による [cs.NE, cs.AI]目的:ビット精度ANNとSNNの同等性の実現
    • SNNはイベント駆動スパース性により低消費電力計算を可能にするが,既存手法は精度が劣る。
    • 既存SNNは連続値を離散的なスパイクで近似するため,精度損失が発生する。
    • IEEE 754準拠の浮動小数点演算を可能にするニューロモルフィックゲート回路を構築し,精度損失をなくす。
    • NEXUSは,標準ANNと同一の出力(機械精度まで)を生成し,タスク精度を0.00%低下させない。
    • LLaMA-2 70Bモデルで検証した結果,平均ULPエラーはわずか6.19であり,ニューロモルフィックハードウェア上で27,000〜168,000倍のエネルギー削減を実現。
    • 空間ビットエンコーディングにより,膜電位漏洩やシナプスノイズに対する高い耐性を示す。

    Link: https://arxiv.org/abs/2601.21279

  • 多表現生成による統一マルチモーダルモデルの理解力向上 [cs.CV, cs.LG]目的:統一マルチモーダルモデルにおける理解力向上
    • 視覚と言語を統合し,高度な情報処理を実現するマルチモーダルモデルの研究が重要視されている。
    • マルチモーダルモデルの理解力と生成能力の相互強化は課題であり,生成能力を理解力向上に活かす方法は未開拓である。
    • 複数の表現生成を通して,モデルの視覚入力に対する理解を深めることを目指す。
    • 提案手法UniMRGは,ピクセル,深度,セグメンテーションといった多様な表現を生成する補助タスクを導入することで,モデルの理解力を向上させる。
    • 実験の結果,UniMRGはファインチューニングされた認識性能,幻覚の抑制,空間認識能力の向上に貢献することが示された。
    • 理解力の向上に加えて,生成能力も同時に向上することが確認された。

    Link: https://arxiv.org/abs/2601.21406

  • L$^3$:大規模ルックアップ層 [cs.LG, cs.AI]目的:大規模ルックアップ層による新たなスパース性の軸の開拓
    • 言語モデルの規模拡大に伴い,計算資源の効率的な利用が重要課題となっている。
    • MoE層は計算効率に課題があり,安定した学習には工夫が必要である。
    • トークン埋め込みテーブルの長所を活かし,文脈情報を考慮した効率的なスパースモデルの実現を目指す。
    • L$^3$層は,従来のdenseモデルやiso-sparse MoEよりも優れた性能を示すことが確認された。
    • L$^3$層は,高速な学習とCPUオフロード推論を可能にするシステムフレンドリーなアーキテクチャを備えている。
    • 情報理論に基づいた埋め込み割り当てアルゴリズムにより,速度と品質のバランスが実現されている。

    Link: https://arxiv.org/abs/2601.21461

  • 生成モデリングの高速化のためのバイアンカー補間ソルバー [cs.CV, cs.AI]目的:生成モデリングの高速化
    • 高忠実度な画像合成において,Flow Matchingモデルが重要な役割を担っている。
    • 反復的な常微分方程式の求解に依存するため,遅延が課題となっている。
    • 既存手法の課題を克服し,高速かつ高精度な生成を可能にすること。
    • 提案手法BA-solverは,わずか10回の評価回数で,100回以上の評価回数が必要な従来のソルバーと同等の生成品質を達成した。
    • SideNetを用いることで,バックボーンを再学習することなく,過去と未来の速度を近似し,効率的な速度積分を実現した。
    • BA-solverは既存の生成パイプラインに容易に組み込むことができ,画像編集などの下流タスクを促進する。

    Link: https://arxiv.org/abs/2601.21542

  • HistoPrism:汎がん組織学的画像からの機能パスウェイ解析の可能性 [cs.CL, cs.LG]目的:汎がん組織学的画像からの遺伝子発現予測による機能パスウェイ解析
    • がん研究において,遺伝子発現情報は疾患理解と治療戦略に不可欠である。
    • 網羅的な遺伝子発現解析にはコストと時間がかかるという課題がある。
    • 組織学的画像から遺伝子発現を予測することで,手軽かつ広範な解析を実現する。
    • HistoPrismは,従来のモデルを凌駕し,汎がんにおける遺伝子発現予測の精度を向上させた。
    • 特に,個々の遺伝子レベルの変動だけでなく,機能パスウェイレベルでの予測性能が大幅に向上した。
    • これにより,臨床的に有用な転写体パターンを組織学的画像から再現可能になった。

    Link: https://arxiv.org/abs/2601.21560

  • TabClustPFN: 表形式データクラスタリングのための事前適合ネットワーク [cs.LG]目的:表形式データのクラスタリング手法
    • 表形式データは広く存在するが,多様な特徴量とデータ生成メカニズムによりクラスタリングは困難である。
    • 既存手法は,データセットごとに再学習やハイパーパラメータ調整が必要で,汎化性能が低い場合がある。
    • 事前適合ネットワークを用いて,データセット固有の調整なしにクラスタリングを可能にすること。
    • TabClustPFNは,事前学習されたネットワークを用いて,クラスタリングとクラスタ数の推定を同時に行う。
    • 再学習やハイパーパラメータ調整なしで,様々な表形式データセットに対して高い性能を示す。
    • 合成データと実データを用いた実験で,既存のクラスタリング手法を上回る性能が確認された。

    Link: https://arxiv.org/abs/2601.21656

  • オントロジー誘導マルチエージェント推論による文化に沿ったLLMの実現 [cs.CL, cs.AI, cs.IR, cs.MA, cs.SI]目的:文化に沿ったLLMの実現
    • グローバル化が進む中で,文化的多様性を考慮した意思決定支援が重要になっている。
    • 既存のLLMは,学習データの偏りにより文化的な誤alignmentが生じやすい。
    • 価値観の構造化と,個人の属性に基づいたLLMの応答生成による文化的整合性の向上。
    • OG-MARは,ワールド・バリュー・サーベイのデータに基づき,文化的なオントロジーを構築する。
    • 推論時には,オントロジーと一致する関係性と類似した属性を持つエージェントを生成し,判断エージェントが整合性を評価する。
    • 実験の結果,OG-MARは既存手法と比較して,文化的なalignmentと堅牢性が向上し,透明性の高い推論プロセスを実現した。

    Link: https://arxiv.org/abs/2601.21700

  • SmartMeterFM:フローマッチングモデルを用いたスマートメーターデータ生成タスクの統合 [cs.LG, cs.SY, eess.SY]目的:スマートメーターデータ生成タスクの統合
    • 配電網の計画と運用にはスマートメーターデータが不可欠である。
    • プライバシー規制やデータ破損,解像度の不足が課題となっている。
    • 一つのモデルで多様な生成タスクに対応し,効率化を目指す。
    • 提案手法は,フローマッチングモデルを用いて,様々なスマートメーターデータ生成タスクを単一モデルで統合する。
    • 生成されたデータは,既存の補完や機械学習ベースの手法と比較して,より現実的かつ一貫性があることが示された。
    • モデルの再学習を不要とし,タスク間の冗長性と非効率性を解消する。

    Link: https://arxiv.org/abs/2601.21706

  • RRAMベースのComputing-in-Memoryアクセラレータにおける混合精度学習とコンパイル [cs.LG, cs.ET]目的:RRAMベースのComputing-in-Memoryアクセラレータのための混合精度学習とコンパイルフレームワーク
    • 機械学習の計算負荷増大に対し,メモリ内で演算を行うComputing-in-Memory技術が注目されている。
    • 既存のCIMコンパイラは8bit以下の量子化に対応しておらず,効率的な演算やメモリ利用が課題である。
    • 量子化パラメータの探索空間が広大であるため,低遅延かつ高精度な量子化設定を自動的に見つける。
    • 提案手法は,既存の最先端ソリューションと比較して最大2.48倍の高速化を達成する。
    • 精度の低下はわずか0.086%に抑えられている。
    • 強化学習を用いて,遅延時間と精度のバランスが取れた最適な量子化設定を探索する。

    Link: https://arxiv.org/abs/2601.21737

  • CoFrGeNet:言語生成のための連分数アーキテクチャ [cs.CL, cs.AI]目的:言語生成のための新たな関数クラスとアーキテクチャ
    • 言語生成モデルは,自然言語処理の重要な基盤技術であり,その性能向上は様々な応用を可能とする。
    • Transformerモデルは強力だが,パラメータ数が多く,学習に時間がかかるという課題がある。
    • 連分数に基づくアーキテクチャにより,パラメータ数を削減し,効率的な学習を実現することを目指す。
    • 提案手法CoFrGeNetは,GPT2-xlとLlama3において,元のモデルと同等またはそれ以上の性能を示す。
    • パラメータ数は元のモデルの2/3から1/2に削減でき,学習時間も短縮できる。
    • 今後のハードウェア最適化により,更なる性能向上が期待される。

    Link: https://arxiv.org/abs/2601.21766

  • タスク表現を用いた効果的なLoRAアダプタールーティング [cs.LG, cs.AI]目的:LoRAアダプターのルーティング手法
    • 大規模言語モデルの活用範囲拡大のため,効率的な適応技術が重要視されている。
    • 多数のアダプターが存在する中で,適切なアダプター選択と組み合わせが課題である。
    • タスク表現に基づき,アダプターの特性に依存しないルーティングを実現する。
    • タスク埋め込みを利用することで,アダプター数ではなくタスク数に応じた効率的なルーティングが可能となった。
    • 既存のルーティング手法と比較して,一貫して優れた性能を示し,理想的な性能に匹敵する結果が得られた。
    • 1500を超える大規模かつノイズの多いアダプタープールにおいても,頑健性が確認された。

    Link: https://arxiv.org/abs/2601.21795

  • 道徳的憤りが注意を超えてコミットメントを形成する:韓国とアメリカのYouTubeにおける多角的道徳感情 [cs.CY, cs.AI, cs.CL, cs.SI]目的:メディアレトリックが視聴者の関与をいかに形成するかという理解
    • 注意経済において,メディアの言説がどのように受容者の行動に影響を与えるかは重要である。
    • 道徳感情の表現が,文化間でどのように異なるか,定量的な分析が不足していた。
    • YouTubeにおける道徳感情の多角的な表現を分析し,受容者の反応を明らかにすること。
    • 道徳的憤りを表明するレトリックは,韓国とアメリカの両方において,視聴数,いいね,コメントといったあらゆるレベルのエンゲージメントを増加させる。
    • 批判的な道徳的憤りは,単に注意を引くだけでなく,積極的な参加を促す強力な感情戦略である。
    • 排他的な言説の誤用に対する懸念があり,分極化を深める可能性がある。

    Link: https://arxiv.org/abs/2601.21815

  • 検索注入型推論サンドボックス:検索と推論能力の分離を評価するためのベンチマーク [cs.AI]目的:検索と推論能力の分離に関する評価基準
    • 大規模言語モデルの性能向上は目覚ましいが,真に新しい科学情報を推論できるか不明である。
    • 既存の評価指標では,検索と推論が混同されており,モデルの能力を正確に測れない。
    • 検索と推論を分離し,モデルの弱点を特定することで,より効果的な改善策を導く。
    • DeR2という制御された環境を構築し,文書に基づいた推論を分離して評価した。
    • モデルによって,検索情報の有無によって性能が変動したり,概念の誤用が見られたりするなど,多様な課題が明らかになった。
    • このベンチマークは,モデルの推論能力と検索能力のボトルネックを特定し,改善に繋げるための有効な手段となる。

    Link: https://arxiv.org/abs/2601.21937

  • トークンからブロックへ:分子生成におけるブロック拡散の視点 [cs.LG]目的:標的を意識した分子生成のための分子表現,モデル構造,探索戦略の共同設計
    • 創薬は膨大な化学空間の探索であり,深層生成モデルの重要性が高まっている。
    • 既存の分子言語モデルは,分子のグラフ構造を捉えきれていない点と,標的指向の生成機構が不足している。
    • 分子構造の制約下で,標的を意識した分子生成を効率的に行うことを目指す。
    • SoftMolは,分子の化学的妥当性を100%達成した。
    • 結合親和性を9.7%向上させ,分子多様性を2〜3倍増加させた。
    • 推論効率を6.6倍高速化し,最先端モデルと比較して優れた性能を示した。

    Link: https://arxiv.org/abs/2601.21964

  • トークンガード:自己検証デコーディングによるトークンレベルの幻覚制御へ [cs.CL, cs.AI]目的:大規模言語モデルにおける幻覚の制御
    • 大規模言語モデルの活用が広がる中,その信頼性が重要視されている。
    • 大規模言語モデルは誤った情報を生成する「幻覚」を起こしやすく,その抑制が課題である。
    • トークン単位での検証により,効率的に幻覚を抑制し,生成精度を向上させる。
    • トークンガードは,デコーディング過程で各トークンの妥当性を検証することで,幻覚の発生を抑制する。
    • 潜在空間でのリスクスコアリングと反復的な修正により,幻覚をより確実に検出・修正する。
    • HALUデータセットでの実験により,トークンガードが幻覚を大幅に削減し,生成精度を向上させることが示された。

    Link: https://arxiv.org/abs/2601.21969

  • PowerGenie:解析的指針による高性能再構成可能電力変換器の進化探索 [cs.LG, cs.AR]目的:高性能再構成可能電力変換器の自動発見
    • 電力変換器はエネルギー効率向上に不可欠であり,高性能化が求められている。
    • 従来,回路トポロジー探索は専門家が担当しており,効率的な自動化手法が課題であった。
    • 大規模な性能に基づいた回路トポロジーの自動探索を実現する。
    • PowerGenieは,解析的フレームワークと進化的手法を組み合わせることで,従来法よりも優れた回路を生成する。
    • 発見された8モード再構成可能電力変換器は,既存の最高性能トポロジーよりも23%高いFoMを達成した。
    • SPICEシミュレーションにより,8モード全体で平均10%の効率向上,単一モードで最大17%の効率向上が確認された。

    Link: https://arxiv.org/abs/2601.21984

  • ジュールはどこへ行くか?推論時のエネルギー消費の診断 [cs.LG, cs.DC]目的:推論時のエネルギー消費に関する大規模測定研究
    • 機械学習の発展に伴い,エネルギー効率が重要な課題となっている
    • エネルギー消費の測定だけでは,その差が生じる原因の特定が困難である
    • 推論時の時間とエネルギー消費を支配するメカニズムの解明を目指す
    • 生成AIモデル46種類,7タスク,1858構成において,タスクの種類によってエネルギー消費量が最大25倍異なった
    • ビデオ生成は画像生成と比較して,エネルギー消費量が100倍以上になる場合がある
    • GPU利用率の違いにより,エネルギー消費量が3〜5倍変化することが確認された

    Link: https://arxiv.org/abs/2601.22076

  • ハミルトン流れ場の学習:大規模タイムステップ分子動力学のための平均流れ一貫性 [cs.LG]目的:ハミルトン系の流れ場の学習
    • ハミルトン系の時間発展シミュレーションは,安定性のために微小なタイムステップが必要であり,長時間のシミュレーションが困難である。
    • 古典的な数値積分法の安定性限界により,大きなタイムステップでの安定したシミュレーションが難しい。
    • 平均流れの一貫性条件を用いることで,将来の状態にアクセスせずに,大規模タイムステップでの安定したシミュレーションを可能にする。
    • 提案手法は,古典的な積分法の安定性限界を超える大きなタイムステップで,安定した更新を可能にする。
    • 機械学習強制場(MLFF)を用いた分子動力学シミュレーションにおいて,性能が向上する。
    • 学習と推論のコストを維持しつつ,広く利用可能な軌道不要MLFFデータセットで直接学習できる。

    Link: https://arxiv.org/abs/2601.22123

  • 多変量極値のサンプリングへのVAEアプローチ [stat.ML, cs.LG]目的:多変量重尾分布からの極値サンプリング手法
    • 自然災害や金融危機など,観測された極値を超える将来の極端事象のリスク評価は重要である。
    • 機械学習の生成モデルは,極値への適用には工夫が必要であり,既存手法では依存構造の学習が課題である。
    • VAEと極値理論を融合し,多変量重尾分布からの極値サンプリングの精度向上を目指す。
    • 提案手法は,標準的なVAEよりも,テストデータセットにおいて性能が向上した。
    • 既存の極値理論に基づく生成アプローチと比較し,極値間の依存構造の学習において改善が見られた。
    • ドナウ川流域の流量データへの適用から,洪水リスク評価への応用の可能性が示唆された。

    Link: https://arxiv.org/abs/2306.10987

  • ノイズ除去拡散確率モデルによる生成量子機械学習 [quant-ph, cs.AI, cs.LG]目的:生成量子機械学習の効率的な学習
    • 深層生成モデルは,画像認識や自然言語処理などに応用され,現代AI研究の基盤である。
    • 量子データの生成モデルは,従来のモデルでは学習が困難であり,性能向上の余地がある。
    • 本研究は,量子データの生成学習を効率化する新しいモデルを提案し,その有効性を示す。
    • 量子ノイズ除去拡散確率モデル(QuDDPM)は,量子データの生成学習を効率的に行うことが可能になった。
    • QuDDPMは,表現力を保証する回路層と,学習の停滞を防ぐ中間タスクを導入することで,効率的な学習を実現した。
    • 量子相関ノイズモデル,量子多体系相,量子データのトポロジー構造の学習において,QuDDPMの有効性が確認された。

    Link: https://arxiv.org/abs/2310.05866

  • エントロピー正則化による平均場変分推論の拡張:理論と計算 [stat.ML, cs.LG, math.ST, stat.TH]目的:高次元ベイズモデルに対する近似推論手法の改良
    • 高次元データ分析において,ベイズ推論は不確実性の定量化に不可欠である。
    • 従来の平均場変分推論は,パラメータ間の依存関係を無視することが多い。
    • エントロピー正則化により,真の事後分布の依存関係をより適切に捉えることを目指す。
    • 提案手法$\Xi$-VIは,エントロピー最適輸送問題と密接に関連し,Sinkhornアルゴリズムを活用することで計算効率を高めている。
    • 正則化パラメータにより,依存関係の強さを調整することで,$\Xi$-VIは真の事後分布を効果的に復元できる。
    • パラメータ空間の次元が$\Xi$-VIの精度に与える影響を分析し,統計的精度と計算コストのトレードオフを明らかにした。

    Link: https://arxiv.org/abs/2404.09113

  • 回帰における不確かさの定量化と分解のための多変量ベイズ最終層 [stat.ML, cs.LG]目的:多変量回帰における不確かさの定量化と分解
    • 深層学習の予測精度向上は重要だが,その不確かさ評価は未だ課題である。
    • 深層学習モデルは過信されがちであり,不確かさを適切に評価できない場合がある。
    • 本研究は,深層学習モデルに不確かさ認識能力を付与することを目指す。
    • 提案手法は,ヘテロスケダスティックノイズ下での多変量回帰を可能にするベイズ最終層モデルである。
    • 本フレームワークは,アレオリック不確かさとエピステミック不確かさを分離できる。
    • 既存の深層ニューラルネットワークに不確かさ認識能力を容易に追加できる。

    Link: https://arxiv.org/abs/2405.01761

  • スパースDEIMと再帰型ニューラルネットワークを用いた状態推定 [math.DS, cs.LG, cs.NA, math.NA, nlin.CD]目的:動的システムの,観測可能な状態変数のスパースな部分集合からの状態推定
    • 複雑な動的システムの正確な状態把握は,気象予測や流体解析など,多様な科学技術分野で不可欠である。
    • 従来のデータ同化法は,システムの支配方程式の知識を必要とし,最適なカーネルベクトルへの収束が保証されない場合がある。
    • 本研究は,支配方程式を用いず,再帰型ニューラルネットワークを用いて最適なカーネルベクトルを推定することで,この問題を解決する。
    • 再帰型ニューラルネットワークを用いることで,瞬間的な観測だけでは推定できないカーネルベクトルを,観測履歴からほぼ最適に推定できる。
    • 提案手法をLorenz-96システム,Kuramoto-Sivashinsky方程式,Rayleigh-Benard対流の3つの数値例で検証した結果,良好な状態推定が得られた。
    • RNNベースのS-DEIM状態推定は,カーネルベクトルを無視するQ-DEIMと比較して,相対誤差を42%から58%削減した。

    Link: https://arxiv.org/abs/2410.15982

  • 構造化モデル学習における一意性 [math.OC, cs.LG, math.AP]目的:偏微分方程式系の物理法則学習における一意性
    • 物理現象の記述には偏微分方程式が不可欠であり,その学習は科学技術の発展に寄与する。
    • 既存手法では,物理法則の学習において一意性が保証されず,解の曖昧さや不安定性が課題となる。
    • 構造化モデル学習を通して,完全な測定データ下での一意性を確立し,現実的なデータでの近似を可能とする。
    • 完全かつ無ノイズな測定データの下では,未知のモデル成分を一意に特定できることが示された。
    • 不完全かつノイズを含む測定データから学習したモデル成分は,正則化最小化解に近似することが示された。
    • 特定のニューラルネットワークの特性と正則化の選択により,これらの結果が実現される。

    Link: https://arxiv.org/abs/2410.22009

  • 制限ボルツマン機械における事前分布の効果 [cond-mat.dis-nn, cs.LG]目的:事前分布が学習効率に与える影響の検討
    • 深層学習は複雑なデータ構造の学習に不可欠であり,その性能向上は重要な課題である。
    • 制限ボルツマン機械の学習効率は,データの性質やモデルの構造に大きく依存する。
    • 教師・生徒モデル間の学習を通して,データセットサイズと事前分布の関係を解明する。
    • 事後分布の相図解析により,汎化学習に必要な臨界データセットサイズが存在することが示された。
    • 臨界サイズは教師モデルの性質に依存するが,生徒モデルには影響されないことが明らかになった。
    • 生徒モデルの適切な事前分布選択は,効果的な汎化を可能にするシグナル抽出領域の拡大に貢献する。

    Link: https://arxiv.org/abs/2412.02623

  • 歩行凍結検出における表現型駆動型格差の証拠とバイアス軽減へのアプローチ [quant-ph, cs.CC, cs.ET, eess.SP, cs.LG]目的:歩行凍結検出におけるバイアスと公平性の評価,及び軽減手法の開発
    • パーキンソン病の症状である歩行凍結は転倒リスクを高めるため,早期発見と介入が重要である。
    • ウェアラブルデバイスを用いた歩行凍結検出モデルにおいて,バイアスや公平性に関する研究が不足している。
    • 表現型や属性によるバイアスを軽減し,全ての患者に対して公平な検出性能を達成することを目指す。
    • 最先端のHARモデルは,年齢,性別,罹病期間,そして特に歩行凍結の表現型において顕著なバイアスを示すことが明らかになった。
    • 従来のバイアス軽減手法(閾値最適化,敵対的デバイアス)では,公平性の改善は限定的であった。
    • 複数サイトからの転移学習は,公平性指標(DPR, EOR)及びF1スコアの両方において有意な改善をもたらした。

    Link: https://arxiv.org/abs/2502.09626

  • 制約関数に対する局所誤差有界条件下における非凸制約最適化のための不正確なモロー包絡ラグランジュ法 [math.OC, cs.LG]目的:非凸制約最適化問題のオラクル複雑度
    • 最適化問題は,工学,経済学など,幅広い分野で重要な役割を果たす。
    • 従来の解析では,制約条件の線形独立性が必要であり,適用範囲が限定されていた。
    • 局所誤差有界条件の下で,より広範な問題に対して効率的なアルゴリズムを開発すること。
    • 局所誤差有界条件(指数$d \in [1, 2]$)の下で,不正確なモロー包絡ラグランジュ法が$\epsilon$-Karush--Kuhn--Tucker点を$\tilde O(\epsilon^{-2d})$のオラクル複雑度で達成可能であることを示した。
    • 特に,$d=1$の場合,この結果は文献で知られている最良の複雑度と一致する。
    • 提案手法は,線形独立性制約条件よりも弱い誤差有界条件を仮定することで,制約条件とアルゴリズム複雑度の関係を明確にし,より広い範囲の問題に適用できる。

    Link: https://arxiv.org/abs/2502.19764

  • 摂動モデリングにおける外挿のための表現学習 [stat.ML, cs.LG]目的:摂動の影響のモデリング
    • 生物学的システムの理解には,遺伝子や薬剤などの摂動が測定値に与える影響の正確な予測が不可欠である。
    • 新しい摂動の組み合わせに対する予測は,既存のデータのみでは困難であり,外挿が課題となる。
    • 潜在空間における加法的な摂動モデルを構築し,外挿性能を理論的に保証することを目指す。
    • 摂動は適切な潜在空間において加法的に作用するという仮説に基づき,潜在変数モデルを構築した。
    • 十分多様な訓練データを用いることで,表現と摂動効果が識別可能となり,外挿の理論的保証を得た。
    • 提案手法である摂動分布オートエンコーダ(PDAE)は,シミュレーションにおいて未知の摂動効果を高精度に予測できることを示した。

    Link: https://arxiv.org/abs/2504.18522

  • マルティンゲール事後分布を用いた事前データ適合型ネットワークの不確実性定量化 [stat.ME, cs.AI, cs.LG, stat.CO, stat.ML]目的:事前データ適合型ネットワークの予測における不確実性定量化
    • 表形式データ分析において,少量データでの高性能な予測モデルの需要が高い。
    • 事前データ適合型ネットワークは性能が高い一方,予測の不確実性を評価する手段がない。
    • マルティンゲール事後分布に基づくサンプリング手法で不確実性を定量化し,予測精度向上を目指す。
    • 提案手法は,事前データ適合型ネットワークの予測値に対するベイズ事後分布を効率的に構築できる。
    • シミュレーションおよび実データを用いた実験により,提案手法の不確実性定量化能力が確認された。
    • 本手法は,推論アプリケーションにおいて,より信頼性の高い予測を可能にする。

    Link: https://arxiv.org/abs/2505.11325

  • SGDに対するバイアス最適境界:コンピュータ支援リヤプノフ解析 [math.OC, cs.LG, stat.ML]目的:確率的勾配降下法のバイアス項の最適性
    • 機械学習の基盤技術であり,大規模データへの適用が不可欠であるため。
    • 従来の解析では,バイアス項と分散項が分離され,最適化が困難であった。
    • バイアス項を最適化し,決定論的勾配降下法と同等の収束性を示すことを目指す。
    • 本研究では,目的関数が強凸かつ滑らかであるという仮定の下で,バイアス項が決定論的勾配降下法の最悪ケースのレートと一致する新しい境界を導出した。
    • 得られた境界は,ステップサイズ$\gamma L \in (0,2)$ の全範囲で成立し,これまで十分に探索されていなかった臨界的および大きなステップサイズ領域を含む。
    • パラメータ設計にはPerformance Estimation Problemフレームワークを活用し,関連する分散項の最適性を示す数値的証拠を提供した。

    Link: https://arxiv.org/abs/2505.17965