arXiv雑要約

AI - 2026/01/30 公開

  • Vision-DeepResearch:マルチモーダル大規模言語モデルにおける深層調査能力の促進 [cs.CV, cs.AI]目的:マルチモーダル大規模言語モデルにおける深層調査能力の向上
    • 画像認識技術は,様々な分野で応用が拡大しており,その重要性は増している。
    • 既存手法では,現実世界のノイズに強くなく,複雑な質問に答えるための深層的な推論と広範な検索が困難である。
    • 現実世界のノイズ下で,多様な情報源から証拠を集約し,複雑な質問に答える能力を向上させる。
    • Vision-DeepResearchは,マルチターン,マルチエンティティ,マルチスケールの視覚的・テキスト検索を行う新たなパラダイムを提案する。
    • この手法は,数十回の推論ステップと数百回のエンジンとのインタラクションを可能にし,深層調査能力を言語モデルに組み込む。
    • 既存の深層調査モデルや,GPT-5,Gemini-2.5-pro,Claude-4-Sonnetなどの強力な基盤モデルを上回る性能を示す。

    Link: https://arxiv.org/abs/2601.22060

  • 特異値アンサンブルによる基礎モデルの確率化 [cs.LG]目的:基礎モデルにおける予測の不確実性定量
    • 機械学習において,大規模な事前学習により多様なタスクで高い性能を示す基礎モデルが主流となっている。
    • 基礎モデルは過信傾向があり,予測のキャリブレーションが不十分であることが課題である。
    • 計算コストを抑えつつ,基礎モデルの不確実性を定量化することを目的とする。
    • 特異値アンサンブル(SVE)は,既存のアンサンブル法と比較してパラメータ数の増加を1%未満に抑えながら,同等の不確実性定量性能を実現する。
    • SVEは,重み行列の特異ベクトルがモデルの知識空間を構成するという仮定に基づき,特異値のみを学習することでアンサンブルを生成する。
    • 自然言語処理および画像認識タスクにおいて,SVEはキャリブレーションを改善しつつ予測精度を維持することを確認した。

    Link: https://arxiv.org/abs/2601.22068

  • レンズ記述子誘導進化アルゴリズムによる,ガラス選択を含む複雑な光学系の最適化 [cs.CL, cs.RO, cs.NE]目的:複雑な光学系の最適化
    • 高性能光学系の設計は,技術的進歩の重要な要素であり,様々な産業分野で求められている。
    • 従来の最適化手法では,局所最適解に陥りやすく,多様な高性能解を見つけることが困難である。
    • レンズ記述子を用いて探索範囲を絞り,多様な局所最適解を効率的に探索することを目的とする。
    • 提案手法LDG-EAは,従来のCMA-ESと比較して,一桁多い数の候補解(約14500個)を636個のユニークな記述子から生成した。
    • LDG-EAによって得られた最良設計は,参照レンズと比較してわずかに性能が劣るものの,同程度の性能範囲内である。
    • 本研究は,実用的な計算時間内で,多様な高品質な解を生成することができた。

    Link: https://arxiv.org/abs/2601.22075

  • ジュールはどこへ行くか? 推論時のエネルギー消費の診断 [cs.LG, cs.DC]目的:推論時のエネルギー消費のメカニズム解明
    • 機械学習の発展に伴い,エネルギー効率が重要な課題となっている。
    • モデルやタスクによってエネルギー消費に大きな差が生じる原因が不明確である。
    • エネルギー消費の差を診断し,最適化のための指針を示す。
    • 46モデル,7タスク,1858設定で大規模な測定を実施した結果,タスクの種類によってエネルギー消費に最大25倍の差が見られた。
    • 動画生成は画像生成と比較して,最大100倍以上のエネルギーを消費することが明らかになった。
    • GPU利用率の差もエネルギー消費に影響を与え,3〜5倍の差を生じさせることが示された。

    Link: https://arxiv.org/abs/2601.22076

  • オフライン嗜好最適化のための潜在的敵対的正則化 [cs.HC, cs.HC, cs.LG, cs.AI]目的:言語モデルの嗜好最適化における潜在空間正則化
    • 人間のフィードバックに基づく学習は重要であり,言語モデルの性能向上に不可欠である。
    • トークン空間での類似性が意味的または行動的な類似性を示唆しないため,言語モデルの嗜好最適化は困難である。
    • 潜在空間における正則化を通じて,言語モデルの嗜好最適化における課題を解決することを目指す。
    • GANPOは,ポリシーモデルと参照モデルの内部表現の乖離を罰することで,潜在空間正則化を実現する。
    • 実験の結果,様々なモデルアーキテクチャとタスクにおいて,潜在空間正則化により一貫した改善が見られた。
    • GANPOは,分布シフトやノイズに対してより堅牢な構造的フィードバックを提供し,計算コストの増加もわずかである。

    Link: https://arxiv.org/abs/2601.22083

  • 大規模生成モデル間の相互作用における連想バイアスの調査 [eess.SY, cs.SY, cs.RO, cs.CY, cs.AI]目的:大規模生成モデル間の情報伝達における連想バイアスの推移
    • 生成AIにおける社会的な偏りは,公平性を損なう深刻な問題であり,注意深い検討が必要である。
    • 連想バイアスは,明示的な人口統計情報なしにステレオタイプを再現するため,検出と軽減が困難である。
    • モデル間コミュニケーションを通じて連想バイアスがどのように増幅されるかを明らかにし,軽減策を提案する。
    • 画像生成と説明を繰り返すパイプラインにおいて,活動と感情の表現において若年層への偏りが確認された。
    • 感情の表現においては,女性的な表現への偏りも認められ,その原因が視覚的な手がかりではなく背景や髪型といった無関係な領域に起因することが示唆された。
    • これらの人口統計学的偏りが,下流タスクにおける活動と感情の予測に影響を与える可能性が示された。データ,学習,デプロイメントの介入を含む緩和策の必要性が強調された。

    Link: https://arxiv.org/abs/2601.22093

  • GeoNorm:測地最適化によるPre-NormとPost-Normの統合 [cs.LG, cs.CL]目的:Transformerにおける正規化手法の統一
    • Transformerは自然言語処理の基盤技術であり,その性能向上は重要課題である。
    • Pre-NormとPost-Normの配置は最適化が難しく,性能に大きな影響を与える。
    • 測地最適化の視点から正規化を再考し,性能向上を目指す。
    • GeoNormは,標準的な正規化を多様体上の測地更新に置き換えることで,既存の手法を上回る性能を示す。
    • FFNとAttention層に対して,学習率スケジュールと同様の層ごとの更新減衰を導入する。
    • GeoNormは標準的なTransformerアーキテクチャに容易に統合でき,計算コストの増加も少ない。

    Link: https://arxiv.org/abs/2601.22095

  • 分位点勾配によるCVaRポリシー最適化の強化 [cs.LG]目的:CVaRポリシー最適化におけるサンプル効率の向上
    • リスク管理において,CVaRは損失のテールリスクを定量化する重要な指標である。
    • 従来のCVaR-PGは,テール部分に焦点を当てるため,サンプル効率が低いという課題があった。
    • 本研究は,期待分位点項をCVaRに加えることで,サンプル効率を改善することを目指す。
    • 期待分位点項を加えることで,サンプルデータを最大限に活用し,サンプル効率が向上した。
    • CVaRの目的自体は変化せず,リスク回避行動が検証可能な環境下で,既存手法を上回る性能を示した。
    • マルコフポリシークラスにおいて,CVaR-PGよりも大幅に性能が向上することが確認された。

    Link: https://arxiv.org/abs/2601.22100

  • ECO:完全精度マスタウェイトなしの量子化トレーニング [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルの量子化トレーニングにおけるメモリ効率向上
    • 大規模言語モデルの発展に伴い,計算資源とメモリ使用量の削減が重要課題となっている。
    • 既存手法では,高精度なマスタウェイトが必要であり,特に疎性MoEモデルでメモリオーバーヘッドが大きい。
    • マスタウェイトを排除し,量子化パラメータに直接更新を適用することでメモリ効率を改善することを目指す。
    • 提案手法ECOは,マスタウェイトを排除し,量子化誤差をオプティマイザのモーメンタムに注入する。
    • 理論的に,適切な条件下でECOは最適解の近傍に収束し,単純なマスタウェイト削除による誤差を回避する。
    • 実験結果から,ECOは既存手法と同等の精度を維持しつつ,メモリ使用量を大幅に削減できることが示された。

    Link: https://arxiv.org/abs/2601.22101

  • 事前情報に基づいたフローマッチングによるグラフ再構成 [cs.LG]目的:グラフ再構成のための事前情報に基づいたフローマッチング手法
    • グラフ構造の解析は,社会ネットワークや分子構造など,様々な分野で重要である。
    • 部分的な観測からのグラフ再構成は難しく,既存手法では全体的な一貫性が不足することがある。
    • 埋め込み表現とフローマッチングを融合させ,より正確なグラフ再構成を実現すること。
    • PIFMは,既存の埋め込み手法の性能を向上させ,再構成精度において最先端の生成モデルを上回る結果を示した。
    • グラフ構造に関する事前情報を埋め込み表現に組み込むことで,グローバルな構造の一貫性を高めている。
    • 連続時間フローマッチングを用いることで,初期推定を真のグラフ分布へと効率的に変換している。

    Link: https://arxiv.org/abs/2601.22107

  • 価値に基づく事前学習と下流からのフィードバック [cs.LG, cs.AI]目的:基盤モデルの効率的な事前学習手法
    • 大規模言語モデルは様々なタスクに応用可能だが,学習コストが高い。
    • 従来の事前学習は,次単語予測のような固定された目的関数に依存し,下流タスクとの関連性が低い場合がある。
    • 下流タスクからの少量のフィードバックを用いて,事前学習を効果的に導くことを目指す。
    • 価値に基づく事前学習(V-Pretraining)は,勾配の方向性を下流タスクに合わせて事前学習タスクを調整する。
    • 言語モデルの推論能力を最大18%向上させ,下流タスクの学習データ量を12%削減した。
    • 画像分野でも最先端の結果を達成し,トークン効率の改善も示唆された。

    Link: https://arxiv.org/abs/2601.22108

  • 合成乱流環境下におけるマルチUAS群観測を用いた4次元大気風場物理モデルに基づく再構成 [cs.LG, cs.SY, eess.SY, physics.ao-ph]目的:マルチUAS群観測による4次元大気風場の再構成
    • 気象予報や防災,風力エネルギー評価などに応用するため,正確な大気風場把握が不可欠である。
    • 従来の方法では,下層大気境界層における時空間的な観測ギャップが発生しやすい。
    • UAS群を用いた協調観測と物理モデルを組み合わせ,高精度な風場再構成を目指す。
    • Bi-LSTMによる局所風速推定において,穏やかな風況下で南北成分はRMSE 0.064-0.062 m/s を達成した。
    • 物理モデルに基づく風場再構成は,最大1000mの高度まで風場の主要な空間的・時間的構造を捉え,平均風向と鉛直シアを保持した。
    • 5機のUAS群を用いた構成で,再構成された平均風場はRMSE 0.118-0.154 m/s の全体的な誤差を示し,最も低い誤差を得た。

    Link: https://arxiv.org/abs/2601.22111

  • SINA:人工知能を用いた回路図画像からのネットリスト生成器 [cs.CV, cs.AI, cs.SY, eess.SY]目的:回路図画像からのネットリスト生成
    • 電子回路設計において,回路図は不可欠なものであり,自動化は効率化に繋がる。
    • 既存手法では,部品認識と配線推論の精度が十分ではなく,自動化の妨げとなっている。
    • 高精度な部品認識と配線推論により,回路図の自動ネットリスト化を実現する。
    • SINAは,深層学習,CCL,OCR,VLMを統合した回路図画像からネットリストを自動生成する。
    • 実験結果から,SINAは96.47%という高いネットリスト生成精度を達成した。
    • これは既存の最先端手法と比較して2.72倍の精度向上となる。

    Link: https://arxiv.org/abs/2601.22114

  • データから安全重要AIシステム運用条件を定義 [cs.AI]目的:安全重要AIシステムの運用条件定義手法
    • AIの安全利用が重要視される中,特に安全性が求められる分野での応用が進んでいる。
    • 既存データからの運用条件定義は困難であり,AIシステムの安全性を保証する上での課題である。
    • 過去データから運用条件を定義し,安全性を担保したAIシステムの認証を可能にすること。
    • 本研究では,多次元カーネルベース表現を用いて,事後的にデータから運用条件を定義する新規手法を提案した。
    • モンテカルロ法および航空分野の衝突回避システムを用いた実証実験により,提案手法の有効性を検証した。
    • データ駆動型運用条件が,元のデータに隠された運用条件と等価となる条件を定義し,認証への道筋を示した。

    Link: https://arxiv.org/abs/2601.22118

  • ハミルトンフロー写像の学習:大規模タイムステップ分子動力学のための平均フロー整合性 [eess.SY, cs.SY, cs.LG]目的:ハミルトン系のフロー写像の学習
    • ハミルトン系の長時間の進化シミュレーションは,数値積分安定性のために微小なタイムステップが必要となる。
    • 古典的な積分法の安定限界を超える大規模タイムステップでの安定したシミュレーションが課題である。
    • 平均フロー整合性条件を用いることで,過去のデータのみで大規模タイムステップでのシミュレーションを可能とする。
    • 提案手法は,既存の機械学習力場(MLFF)を用いた分子動力学シミュレーションにおいて,性能向上を示す。
    • 学習および推論コストを維持しつつ,より大きなタイムステップをサポートし,データ効率の良い学習を実現する。
    • 様々なハミルトン系において検証され,安定性と精度が確認されている。

    Link: https://arxiv.org/abs/2601.22123

  • 拡散Transformerを用いた音声駆動型動画生成・操作:会話動画編集の新たな手法 [cs.CV, cs.GR, cs.LG, cs.MM]目的:会話動画の音声に基づいた編集手法
    • 動画生成技術の発展は,エンターテインメントから教育まで幅広い分野で活用が期待されている。
    • 既存の動画編集技術では,台本の修正時に自然な動きや口の動きの同期を維持することが困難である。
    • 本研究は,動画の内容を音声に基づいて正確に編集し,既存の動画編集の課題を解決することを目指す。
    • EditYourselfは,DiTを基盤としたフレームワークであり,会話動画の台本に基づいた編集を可能にする。
    • 本手法は,既存の動画に新たなセリフの追加,削除,時間調整をシームレスに行い,リアルな口の動きと自然な動画の流れを実現する。
    • 動画編集の専門家にとって有用なツールとなる可能性があり,動画制作の現場での応用が期待される。

    Link: https://arxiv.org/abs/2601.22127

  • 患者は変化しない文書ではない:時系列EHRのためのワールドモデル学習パラダイム [cs.AI, cs.CE, q-bio.QM]目的:時系列EHRデータのワールドモデル構築
    • 医療現場におけるデータ駆動型意思決定の重要性が高まっており,患者データ分析が不可欠である。
    • 従来のLLMは患者を静的な文書として扱い,時間経過に伴う患者の状態変化を捉えきれない。
    • 患者の状態変化をシミュレートするワールドモデルを構築し,より正確な疾患動態の把握を目指す。
    • 本研究では,SFTとJEPAを組み合わせたSMB-Structureという新たなワールドモデルを提案した。
    • MSKとINSPECTという大規模なコホートを用いて評価した結果,従来の自己回帰モデルよりも疾患動態をより良く捉えた。
    • このモデルは高い患者異質性を持つ複雑なタスクにおいて,競争力のある性能を発揮することが示された。

    Link: https://arxiv.org/abs/2601.22128

  • SWE-Replay:ソフトウェアエンジニアリングエージェントにおける効率的なテスト時スケーリング [cs.SE, cs.AI, cs.LG]目的:ソフトウェアエンジニアリングエージェントのテスト時スケーリングにおける効率化
    • ソフトウェア開発の自動化において,大規模言語モデル(LLM)エージェントの活用が重要となっている。
    • 既存のテスト時スケーリング手法は計算コストが高く,効率性に課題があった。
    • 過去の軌跡を再利用することで,計算コストを削減し,効率的なスケーリングを実現する。
    • SWE-Replayは,SWE-Bench Verifiedにおいて,単純なスケーリング手法を上回り,コストを最大17.4%削減した。
    • パフォーマンスは維持,あるいは最大3.8%向上し,効率性と有効性が確認された。
    • SWE-Bench ProとMultilingualでの評価により,SWE-Replayの汎用性が検証された。

    Link: https://arxiv.org/abs/2601.22129

  • ワークフローの世界:エンタープライズシステムへのワールドモデル導入のためのベンチマーク [cs.AI, cs.SE]目的:エンタープライズシステムにおけるワールドモデルの導入可能性評価
    • 企業活動は複雑なワークフローに依存しており,その最適化は生産性向上に不可欠である。
    • 既存のベンチマークは表面的なタスク達成に偏っており,隠れたワークフローの影響を考慮していない。
    • 隠れたワークフローがもたらす連鎖的な影響を予測し,信頼性の高いエージェントを実現すること。
    • 最先端のLLMは,複雑なエンタープライズシステムにおいて,行動の隠れた連鎖的影響を予測することが困難であることが示された。
    • 信頼性の高いシステム運用には,エージェントが隠れた状態遷移をシミュレートし,可視性のギャップを埋める, grounded world modeling が必要である。
    • 本研究は,システムダイナミクスの明示的な学習を促し,より有用なエンタープライズエージェントの実現を目指す新たなパラダイムを提唱する。

    Link: https://arxiv.org/abs/2601.22130

  • SMOG:多目的ベイズ最適化のためのスケーラブルなメタ学習 [cs.LG]目的:多目的ベイズ最適化におけるメタ学習のモデル
    • 複雑な最適化問題解決に不可欠であり,効率的な探索手法が求められている。
    • 過去の最適化タスクの情報を活用したメタ学習が不十分である。
    • 多目的ベイズ最適化にメタ学習を適用し,効率化を図ることを目指す。
    • SMOGは,多目的間の相関を明示的に学習する,スケーラブルなメタ学習モデルである。
    • メタタスクとターゲットタスク間に構造化されたジョイントガウス過程事前分布を構築する。
    • メタデータ不確実性をターゲットサロゲートモデルに組み込み,効率的な最適化を実現する。

    Link: https://arxiv.org/abs/2601.22131

  • ヒントには料金を支払い,答えには支払わない:費用対効果の高い推論のためのLLM誘導 [cs.LG]目的:大規模言語モデルと小規模言語モデルの連携による,推論コスト削減手法
    • 大規模言語モデルは高性能だが,その利用コストが課題となっている。
    • 小規模言語モデルは低コストだが,精度が低いという問題がある。
    • LLMからヒントを得ることでSLMの精度を向上させ,コストを削減すること。
    • LLM誘導は,数学およびコーディングタスクにおいて,SLMの精度を大幅に向上させる。
    • 提示された手法は,LLMのみでの推論と比較して,42~94%のコスト削減を達成した。
    • 既存のルーティングやカスケード手法と比較して,同等の精度を維持しつつ,最大2.8倍のコスト削減を実現した。

    Link: https://arxiv.org/abs/2601.22132

  • StepShield:逸脱エージェントへの介入時期:介入の有無ではない [cs.LG, cs.AI, cs.CR, cs.SE]目的:エージェントの逸脱検出時期の評価
    • AIエージェントの安全性確保は,社会実装において不可欠であり,その評価基準の重要性が増している。
    • 既存の安全性評価は,単に逸脱の有無を測るのみで,早期介入の可能性を考慮していない。
    • 本研究は,逸脱検出の「時期」を評価することで,より実用的な安全性評価基準を確立することを目的とする。
    • StepShieldは,9,213件のコードエージェントの軌跡データセットであり,リアルな逸脱率8.1%を含む。
    • LLMベースの判定器は,静的解析器と比較して2.3倍高い早期介入率(59%)を示し,標準的な精度指標では見過ごされる差を明らかにした。
    • 早期検出は経済的利益をもたらし,HybridGuard検出器は監視コストを75%削減し,5年間で1億800万ドルの累積節約が見込まれる。

    Link: https://arxiv.org/abs/2601.22136

  • PRISM:ニューラルネットワーク学習の高速化のための行列関数の分布フリー適応計算 [cs.LG, cs.AI, cs.NA, math.NA, math.OC]目的:ニューラルネットワーク学習における行列関数の高速計算
    • 深層学習の発展に伴い,行列演算の高速化が不可欠となっている。
    • 既存手法はスペクトルに関する事前知識が必要であり,適応性に課題があった。
    • PRISMは事前知識なしで,行列関数の計算を効率的に適応的に高速化する。
    • PRISMは,適応的な多項式近似とランダム化されたスキッチングを組み合わせることで,行列関数の計算を加速する。
    • PRISMは,ニューラルネットワーク学習におけるShampooやMuon最適化手法の学習速度を向上させた。
    • PRISMはスペクトルに関する明示的な範囲や特異値の推定を必要とせず,進化するスペクトルに自動的に適応する。

    Link: https://arxiv.org/abs/2601.22137

  • 質問をしながら推論する:受動的な解答器から積極的な質問者への推論大規模言語モデルの転換 [cs.CL, cs.AI]目的:積極的対話推論による推論大規模言語モデルの性能向上
    • 大規模言語モデルは推論能力において目覚ましい進歩を遂げているが,情報不足や曖昧さへの対応が課題であった。
    • 既存の手法は外部環境へのクエリに依存しており,前提や意図レベルの不確実性への対処が不十分であった。
    • ユーザーとの直接的な対話を通じて,前提と意図レベルの不確実性を解消し,より効率的な推論を実現する。
    • 提案手法(PIR)は,数学的推論,コード生成,文書編集において,既存のベースラインを大幅に上回る性能を示した。
    • PIRは,精度を最大32.70%向上させ,パス率を22.90%向上させ,BLEUスコアを41.36改善した。
    • さらに,PIRは推論計算量をほぼ半分に削減し,不要な対話ターン数を減少させた。

    Link: https://arxiv.org/abs/2601.22139

  • 宝くじのルーティング:異質データのための適応的サブネットワーク [cs.AI, cs.CV, cs.LG]目的:異質データに対する適応的サブネットワークの発見
    • 深層学習モデルの効率化は,計算資源の制約や実用的な展開において重要である。
    • 従来のプルーニング手法は,データの特徴を考慮せず,汎用的なサブネットワークに依存する傾向がある。
    • データ固有の最適なサブネットワークを動的に発見し,モデルの構造をデータに適合させる。
    • 提案手法RTLは,多様なデータセットおよびタスクにおいて,単一モデルや複数モデルと比較して,精度と再現率で一貫して良好な性能を示す。
    • RTLは,独立したモデルと比較して,最大10倍少ないパラメータ数で同等の性能を達成し,意味的に整合性のあるサブネットワークを形成する。
    • サブネットワークの崩壊現象を特定し,ラベルを用いない過剰な疎性化の診断を可能にする類似度指標を導入した。

    Link: https://arxiv.org/abs/2601.22141

  • FineInstructions:事前学習規模への合成命令の拡張 [cs.CL, cs.LG]目的:インターネット規模の事前学習文書に含まれる知識を,数十億の合成命令・応答ペアに変換する手順
    • 大規模言語モデルの性能向上には,大量の学習データが不可欠である。しかし,高品質な教師あり学習データは限られている。
    • 教師あり学習データの不足が,大規模言語モデルの性能を制約する要因となっている。
    • 合成データを利用することで,教師あり学習データの制約を克服し,性能向上を目指す。
    • FineInstructionsを用いてゼロから事前学習したLLMは,従来の事前学習や他の合成事前学習手法を上回る性能を示した。
    • 約1800万の命令テンプレートを,実際のユーザーのクエリやプロンプトから作成し,非構造化事前学習コーパスの文書に適用した。
    • このスケールでの合成学習データにより,LLMはユーザープロンプトへの応答という,より現実的な利用状況に適応可能となる。

    Link: https://arxiv.org/abs/2601.22146

  • DynaWeb: Webエージェントのモデルベース強化学習 [cs.CL, cs.AI]目的:Webエージェントの強化学習におけるモデルベースアプローチの枠組み
    • 汎用AIアシスタント実現のため,LLMと強化学習を組み合わせた自律的なWebエージェント開発が重要である。
    • 実環境でのWebエージェントの学習は,非効率,高コスト,リスクを伴うため,学習の妨げとなっている。
    • Web環境のワールドモデルを学習することで,シミュレーション環境下での効率的な学習を目指す。
    • DynaWebは,Webページの自然な表現を予測するワールドモデルを用いて,Webエージェントの学習を行う新しいMBRLフレームワークである。
    • DynaWebは,エージェントの行動によって生成された大量のロールアウト軌跡を生成し,効率的なオンライン強化学習を実現する。
    • WebArenaとWebVoyagerのベンチマークで,最先端のオープンソースWebエージェントモデルの性能を大幅に向上させることを実証した。

    Link: https://arxiv.org/abs/2601.22149

  • エッジコンピューティングのためのニューラルネットワークを論理フローへ変換 [cs.LG, cs.SY, eess.SY]目的:ニューラルネットワークの論理フローへの変換
    • エッジデバイスの普及に伴い,限られたリソースでの効率的な推論が重要となっている。
    • CPUはMAC演算に不向きであり,ニューラルネットワークの計算効率が課題となっていた。
    • CPUに最適化された論理フローへの変換により,計算効率の向上を目指す。
    • ニューラルネットワークを決定木に変換し,定数リーフを持つ決定パスを論理フローとして圧縮した。
    • シミュレーション結果から,RISC-V CPU上での待ち時間を最大14.9%削減できることが示された。
    • 精度劣化は見られず,エッジデバイスでのニューラルネットワーク活用に貢献する。

    Link: https://arxiv.org/abs/2601.22151

  • エージェントのための推論報酬モデルの探求 [cs.AI, cs.CL]目的:エージェントの推論品質を評価・向上させるための報酬モデル
    • 複雑なタスク遂行において,推論能力を持つエージェントの重要性が高まっている。
    • 従来の報酬設定では,推論過程の質を区別できず,最適化が困難である。
    • 推論過程を評価し,具体的な改善点を提示する報酬モデルを開発する。
    • 提案手法であるAgent-RRMは,推論過程のトレース,批判的フィードバック,総合スコアを提供することで,エージェントの学習を促進する。
    • 特に,Reagent-Uと呼ばれる統合型フィードバック戦略が,GAIAで43.7%,WebWalkerQAで46.2%という高い性能を示す。
    • 本研究により,推論報酬モデルと学習スキームの有効性が検証された。

    Link: https://arxiv.org/abs/2601.22154

  • ハイブリッド線形注意の正しい実装:極めて長いコンテキストのための効率的な蒸留と効果的なアーキテクチャ [cs.CL, cs.AI, cs.LG]目的:長文脈モデリングにおける,TransformerモデルからRNN-注意ハイブリッドモデルへの蒸留パイプラインとハイブリッドアーキテクチャ
    • 長文脈モデリングは,自然言語処理や時系列データ分析など,幅広い分野で重要性が増している。
    • 従来のTransformerモデルは,計算コストが高く,長いコンテキストを扱うのが難しいという課題がある。
    • 本研究は,Transformerモデルを効率的にRNN-注意ハイブリッドモデルに変換し,長文脈性能を向上させることを目指す。
    • 本研究で提案するHALOパイプラインは,わずか23億トークンでTransformerモデルをハイブリッドモデルに変換可能である。
    • HypeNetアーキテクチャとHyPE位置エンコーディングにより,長文脈における性能と効率を向上させた。
    • Qwen3シリーズをHypeNetに変換した結果,Transformerモデルと同等の性能を維持しつつ,優れた長文脈性能と効率を実現した。

    Link: https://arxiv.org/abs/2601.22156

  • モデルリポジトリにおける隠れた優良モデルの発見 [cs.LG, cs.CL]目的:モデルリポジトリにおける隠れた優良モデルの存在とその発見方法
    • 公開モデルリポジトリは発展を続けるが,利用は一部モデルに偏っている現状がある。
    • 優れたモデルが埋もれてしまい,十分に活用されていないという問題が存在する。
    • 効率的なモデル探索手法を開発し,隠れた優良モデルを発見することを目的とする。
    • 大規模な評価により,人気モデルよりも性能の高い「隠れた優良モデル」が多数存在することが示された。
    • 特にLlama-3.1-8Bファミリーにおいて,数学性能を大幅に向上させるモデルが発見された。
    • Multi-Armed Bandit問題としてモデル探索を定式化し,探索効率を50倍以上に向上させた。

    Link: https://arxiv.org/abs/2601.22157

  • RedSage:サイバーセキュリティ汎用LLM [cs.CR, cs.AI, cs.CL]目的:サイバーセキュリティ業務を支援するLLMの開発
    • サイバー攻撃の高度化に伴い,セキュリティ専門家の負担が増大しているため,AIによる支援が不可欠である。
    • 既存のLLMは,プライバシーリスクやドメイン適応の欠如といった課題を抱えている。
    • セキュリティに配慮しつつ,専門知識を備えたLLMを開発することで,セキュリティ業務の効率化を目指す。
    • RedSageは,サイバーセキュリティに特化したデータで事前学習と後学習を行い,高い専門性を獲得した。
    • RedSage-Benchを用いて評価した結果,既存モデルを最大+5.59ポイント上回る性能を示した。
    • ドメイン知識の強化に加え,一般的な推論能力や指示追従性も向上していることが確認された。

    Link: https://arxiv.org/abs/2601.22159

  • LLMによる言い換えを経た偽情報検出:測定と説明 [cs.CL, cs.AI, cs.IR, cs.LG]目的:LLMによる言い換えを経た偽情報の検出における検出器の有効性
    • 偽情報は社会に悪影響を及ぼすため,その検出は重要な課題である。
    • LLMの進化により,人間が書いたものと区別がつかない偽情報が増加している。
    • LLMによる言い換えを経た偽情報の検出困難性を明らかにし,改善策を探る。
    • 検出器は,人間が書いた偽情報よりも,LLMによる言い換えを経た偽情報を検出するのが難しい。
    • モデルによって,検出回避,検出回避のための言い換え,意味的類似性のための言い換えの性能に差があることがわかった。
    • LIMEによる説明から,検出失敗の原因として感情の変化が考えられることが示唆された。

    Link: https://arxiv.org/abs/2501.18649

  • AI 部品表(AI BOM)の作成:SPDX 3.0 を活用した包括的ガイド [cs.SE, cs.AI, cs.CR]目的:AI およびデータセット部品表の作成
    • ソフトウェアサプライチェーンの透明性とセキュリティ確保が重要視されている。
    • AI プロジェクト特有の課題に対応できる部品表の定義が不足している。
    • AI 開発における透明性,セキュリティ,コンプライアンスを向上させる。
    • 本研究では,AI BOM の概念を提案し,従来の SBOM を拡張した。
    • AI BOM は,アルゴリズム,データ収集方法,ライセンス情報などを包含する。
    • これにより,AI プロジェクトの信頼性と安全性を高めることが期待される。

    Link: https://arxiv.org/abs/2504.16743

  • ベアリングの騒音環境下における故障診断のための軽量かつ強固なロバスト性ネットワークLSR-Net [cs.IR, cs.CL, cs.DL, eess.SP, cs.AI]目的:ベアリング故障診断における,騒音環境下での高精度かつリアルタイムな故障検出
    • 回転機械の重要な構成要素であるベアリングは,産業界において不可欠であり,高い信頼性が求められる。
    • ベアリングは高速・高負荷・劣悪な環境下で使用されるため,故障発生確率が高く,早期診断が重要である。
    • 騒音環境下におけるベアリング故障診断の精度向上が課題であり,ロバスト性の高いモデルが求められる。
    • 提案手法LSR-Netは,既存モデルと比較して,騒音環境下でのベアリング故障診断において最高の耐ノイズ性能を示した。
    • LSR-Netは,Convolutional Denoising (CD)ブロックとAdaptive Pruningを組み合わせたDFEMにより,ノイズ除去能力を強化している。
    • Group ConvolutionやChannel Splitを用いたCESブロックにより,軽量なモデル設計を実現し,計算量を削減した。

    Link: https://arxiv.org/abs/2601.10761

  • 皮膚病変の分類における色ヒストグラム分析と畳み込みニューラルネットワークの統合 [q-bio.QM, cs.AI, eess.IV]目的:皮膚病変の色数に基づく分類
    • 皮膚病変の色は,悪性黒色腫などの皮膚疾患の診断において重要な指標となる。
    • 既存手法では,病変の色数の情報が十分に活用されていない。
    • 病変の色数に着目し,診断支援に貢献できる分類モデルを開発する。
    • 本研究で提案する色ヒストグラム分析は,公開データセットを用いて病変の色数を推定可能であることが示された。
    • 残差結合を持つ19層の畳み込みニューラルネットワークは,75%の重み付きF1スコアを達成し,高い分類性能を示した。
    • DeepDreamやLIMEによる可視化から,色数が皮膚病変の特性を捉える重要な特徴であることが示唆された。

    Link: https://arxiv.org/abs/2601.20869

  • 不安と抑うつ症状の時間的要因分析:羅生門の視点 [stat.AP, cs.LG]目的:不安と抑うつの関係性,および人口統計学的・時間的要因の解釈
    • メンタルヘルスは国民の健康において重要であり,早期発見と適切な介入が不可欠である。
    • 従来の機械学習モデルは,単一の「最適解」に依存し,データに内在する多様な解釈を見過ごしやすい。
    • 羅生門効果に着目し,複数のモデル群から時間的要因の影響を多角的に分析することで,より堅牢な解釈を目指す。
    • 年齢,性別,学歴といった人口統計学的変数は,不安と抑うつのリスク構造に一貫した変化をもたらすことが確認された。
    • 時間的な影響として,リスク確率は日周性と週周性の変動を示し,特に早朝にピークを迎えることが明らかになった。
    • 「最適なモデル」に固執せず,羅生門集合全体を分析することの必要性が示され,メンタルヘルス研究における機械学習の信頼性向上に貢献する。

    Link: https://arxiv.org/abs/2601.20874

  • SDGネットワークにおける分散的因果性:パネルVARおよび条件付き独立性分析からのエビデンス [stat.AP, cs.LG, econ.EM, stat.ME, stat.ML]目的:SDG間の依存関係の完全な因果構造の解明
    • 持続可能な開発目標(SDG)達成には,戦略的な資源配分が不可欠である。
    • SDG間の因果関係が明確に解明されておらず,効果的な資源配分を阻害している。
    • SDG間の因果関係を明らかにし,効果的な目標達成のための優先順位付けを支援する。
    • SDG間の因果ネットワークは分散的であり,単一の「ハブ」となるSDGは存在しないことが示された。
    • 教育から不平等への因果関係が最も統計的に有意であり,その効果の大きさは所得レベルによって大きく異なる。
    • SDG加速には,多次元的な介入が不可欠であり,単一目標の逐次的な戦略では不十分である。

    Link: https://arxiv.org/abs/2601.20875

  • 気候リスクと人間の繁栄における空間的不均一性:生成AIによる探求 [stat.AP, cs.LG]目的:気候リスクと人間の繁栄の関係性の空間的パターン
    • 気候変動は社会経済に深刻な影響を与え,人間の生活の質を脅かす重要な課題である。
    • 気候リスクと社会との関係性を空間的に分析するには,大規模なデータと高度な手法が必要となる。
    • 生成AIを用いて,気候リスクと人間の繁栄の空間的不均一性を明らかにすること。
    • 生成AIと潜在構造モデリングを組み合わせることで,地理的分析と空間知識抽出が可能になることが示された。
    • 累積気候リスクの上昇は,人間の繁栄の低下と空間的に関連しており,そのパターンは熱波,洪水,干ばつなどの自然災害の発生頻度と一致する。
    • 人間の繁栄は,幸福感,目的意識,社会的つながり,精神的健康,身体的健康,経済的安定性,信仰心,人格,制度への信頼など,多次元的に構成されることが明らかになった。

    Link: https://arxiv.org/abs/2601.20880

  • 潜在IMH:近似演算子を持つ逆問題に対する効率的なベイズ推論 [quant-ph, cs.MA, stat.ML, cs.LG, math.ST, stat.CO, stat.TH]目的:逆問題における事後分布からのサンプリング効率の向上
    • 逆問題は,画像処理や信号処理など広範な分野で重要であり,その解決には高コストな計算が必要となることが多い。
    • 演算子Aが高コストであるため,ベイズ推論における事後分布からのサンプリングが計算量の制約を受ける。
    • 近似演算子を活用することで,計算コストを削減し,効率的なベイズ推論を実現することを目指す。
    • 提案手法Latent-IMHは,近似演算子を用いた中間変数の生成と,正確な演算子による修正を組み合わせることで,計算効率を向上させる。
    • 理論的な解析により,Latent-IMHの性能がKLダイバージェンスと混合時間によって評価され,良好な結果が得られた。
    • 数値実験の結果,Latent-IMHは,NUTSなどの最先端手法と比較して,計算効率において優れていることが示された。

    Link: https://arxiv.org/abs/2601.20888

  • ATTNSOM:シトクロムP450代謝部位予測のための交差アイソフォームアテンション学習 [q-bio.QM, cs.LG]目的:シトクロムP450酵素による代謝部位の予測
    • 医薬品開発において,代謝部位の特定は不可欠であり,創薬効率向上に貢献する。
    • 既存手法では,アイソフォームの同一性を無視したり,独立にモデル化するため,代謝パターンを捉えきれない。
    • 本研究は,交差アイソフォーム関係を明示的にモデル化することで,予測精度向上を目指す。
    • ATTNSOMは,分子反応性と交差アイソフォーム関係を統合した原子レベルの代謝部位予測フレームワークである。
    • 既存手法と比較して,マシューズ相関係数が向上し,真の代謝部位の識別能力が向上した。
    • 交差アイソフォーム関係の明示的なモデル化が,代謝部位予測において重要であることが示された。

    Link: https://arxiv.org/abs/2601.20891

  • 学習可能な射影によるLLMベース音声認識におけるプロンプト依存性の低減 [eess.AS, cs.CL, cs.LG]目的:LLMベース音声認識におけるプロンプト依存性の低減
    • 近年,LLMと組み合わせた音声認識が注目されており,その性能向上は重要な課題である。
    • 従来のシステムでは,プロンプト設計が性能に大きく影響するものの,その最適化は困難であった。
    • 本研究は,学習可能な射影モジュールを用いて,プロンプトの頑健性を高めることを目指す。
    • 提案手法であるプロンプト射影モジュールは,既存のLLMベース音声認識モデルに容易に組み込むことができる。
    • 実験の結果,プロンプト射影モジュールを導入することで,4つのデータセットにおいて,常に性能が向上し,変動性が低減された。
    • 提案手法は,最良の手動選択プロンプトと比較しても優れた性能を示した。

    Link: https://arxiv.org/abs/2601.20898

  • ECGFlowCMR:心電図生成シネCMRによる事前学習が心疾患の分類と表現型予測を向上させる [eess.IV, cs.LG]目的:心電図からのシネCMR生成フレームワーク
    • 心臓MRIは詳細な評価が可能だが,高コストで専門家による注釈が必要とされ,大規模データセットの構築が課題である。
    • 心電図は安価でアクセスしやすいが,心臓MRIと比較して構造情報の描写が不十分であるという課題がある。
    • 心電図から心臓MRIを生成し,大規模な事前学習を可能にすることで,心疾患分類と表現型予測の精度向上を目指す。
    • ECGFlowCMRは,心電図からリアルなシネCMR画像を生成できる。
    • 生成された画像を用いて事前学習を行うことで,心疾患の分類性能を向上させることが示された。
    • 本手法は,UK Biobankと臨床データセットで有効性が確認された。

    Link: https://arxiv.org/abs/2601.20904

  • 低解像度FTIRスペクトルのノイズ除去とベースライン補正:深層学習モデルと従来の信号処理のベンチマーク [eess.IV, cs.AI, cs.CV, cs.LG, eess.SP]目的:低解像度FTIRスペクトルのノイズ除去とベースライン補正手法の性能評価
    • FTIRイメージングは,臨床診断において迅速性が求められるが,高品質なデータ取得には時間を要する。
    • ノイズやドリフトの除去には課題があり,既存手法ではスペクトル情報の誤りや汎化性能の低さが問題となる。
    • 深層学習と物理情報に基づく新しいアーキテクチャで,よりロバストなノイズ除去とベースライン補正を目指す。
    • 提案手法であるカスケードUnetは,原データと比較してRMSEを51.3%削減し,従来の深層学習モデルや信号処理手法を上回った。
    • ピークを考慮した評価では,カスケードUnetは既存の深層学習モデルで見られるスペクトル幻影を解消し,ピーク強度をより忠実に再現した。
    • 本研究は,診断レベルのFTIRイメージングを32倍の速度で実現可能となる,堅牢なソリューションを提供することを示した。

    Link: https://arxiv.org/abs/2601.20905

  • ハイパーRBMを用いたパラメータ化量子状態トモグラフィ [quant-ph, cs.LG]目的:量子状態トモグラフィの効率的な手法
    • 量子デバイスの検証には不可欠であり,量子計算の発展に重要である。
    • 系のサイズが大きくなると,指数関数的に計算量が増大する。
    • ハミルトニアンの制御パラメータに依存する量子状態の家族全体を表現する。
    • ハイパーRBMは,1次元および2次元格子上で,高精度な量子状態の再構成を可能にした。
    • モデルは,臨界点に関する事前知識なしに,忠実度サセプティビリティを正確に再現し,量子相転移を特定した。
    • ハイパーネットワーク変調されたニューラル量子状態は,完全な相図全体にわたるトモグラフィ的再構成への効率的かつスケーラブルな経路を提供する。

    Link: https://arxiv.org/abs/2601.20950

  • 最大エントロピー遠隔サンプリングにおける拡張NLP境界 [math.OC, cs.IT, cs.LG, math.IT]目的:最大エントロピー遠隔サンプリング問題における上限の改善
    • 不確実性下での情報源の選択は,様々な意思決定問題において重要である。
    • 既存の上限計算手法では,計算効率や適用可能な行列の条件に限界があった。
    • より厳密で,より広範な条件で適用可能な上限を導出すること。
    • 提案手法である拡張NLP境界は,従来のNLP境界を厳密に上回ることが理論的に保証された。
    • ランク落ちする共分散行列に対しても,条件を満たす場合に上限を導出できるようになった。
    • 対角スケーリング技術と組み合わせることで,ベンチマーク問題において最先端の結果が得られた。

    Link: https://arxiv.org/abs/2601.20970

  • モジュール型部分グラフ統合による効率的な因果構造学習 [stat.ML, cs.LG, stat.AP]目的:因果構造学習の効率化
    • 高次元データにおける因果推論は,科学的発見や意思決定に不可欠である。
    • 既存手法は,探索空間の指数関数的な増加により,計算コストが高くなる。
    • 部分グラフの統合による計算負荷の軽減と,高精度な因果構造の推定。
    • VISTAは,Markov Blanketに基づき問題を部分グラフに分解するモジュール型フレームワークである。
    • 重み付き投票機構により,信頼性の低い辺を抑制し,非巡回性を保証する。
    • 理論的な誤差限界と漸近的な一貫性が証明され,合成データと実データで有効性が確認された。

    Link: https://arxiv.org/abs/2601.21014

  • 共変量シフトを伴う関数データからの正則化学習について [math.ST, cs.LG, cs.NA, math.NA, stat.TH]目的:関数値ベクトル回帰におけるドメイン適応のための正則化フレームワーク
    • データ分析において,関数データは複雑な現象を捉える上で重要であり,その活用が期待される。
    • 訓練データとテストデータの入力分布が異なる共変量シフトは,学習の信頼性を損なう大きな課題である。
    • 共変量シフト下での関数データ回帰におけるロバストな学習手法を確立し,予測精度を向上させる。
    • 提案手法は,ベクトル値再生核ヒルベルト空間(vRKHS)を用いて,実用的な演算子学習アルゴリズムを開発した。
    • 一般的なソース条件の下で,提案フレームワークの最適な収束率が理論的に保証された。
    • 異なる正則化パラメータやカーネルに対応する推定量を線形結合する集約アプローチにより,パラメータ選択の課題を解決した。

    Link: https://arxiv.org/abs/2601.21019

  • エネルギーベース生成モデル学習のための拡散分類損失 [stat.ML, cs.LG]目的:エネルギーベース生成モデルの学習手法
    • 生成モデルは,現実的なデータ生成に不可欠であり,応用範囲が広い。
    • 既存手法では,計算コストやモード崩壊といった課題が存在する。
    • 拡散分類損失は,効率的かつ堅牢な学習を可能にする。
    • 拡散分類損失(DiffCLF)は,EBM学習をノイズレベルに応じた教師あり分類問題として捉える。
    • DiffCLFは,既存手法と比較して,より高精度かつ広範な応用性を持つEBMを実現する。
    • 解析的なガウス混合モデルやモデル合成,ボルツマン生成器サンプリングにおいて有効性が確認された。

    Link: https://arxiv.org/abs/2601.21025

  • 拡散に基づく焼きなましボルツマン生成器:利点,落とし穴,そして期待 [stat.ML, cs.LG]目的:熱力学的平衡状態における構成のサンプリング
    • 統計物理学において,平衡状態のサンプリングは重要な課題である。
    • 既存のボルツマン生成器は,高次元・多峰性ターゲットにおいてスケーラビリティに課題がある。
    • 拡散モデルを活用し,より効率的なボルツマン生成器の構築を目指す。
    • 拡散モデルを基盤とする焼きなましボルツマン生成器の性能を,多峰性ガウス混合モデルで評価した。
    • 一階の確率的ノイズ除去カーネルは,性能が低いが,二階のカーネルは改善が見られた。
    • 学習済みの拡散モデルを用いる場合,DMの対数密度推定の不正確さがボトルネックとなる。

    Link: https://arxiv.org/abs/2601.21026