arXiv雑要約

AI - 2026/05/08 公開

  • 自己回帰型時系列予測のための最適化手法 AROpt [cs.LG, cs.AI]目的:時系列予測における最適化手法
    • 時系列予測は,経済,気象,エネルギーなど多くの分野で不可欠であり,その精度向上は重要な課題である。
    • 既存のTransformerモデルは,モデル規模の拡大に依存し,真の自己回帰的な予測展開が不十分である。
    • 自己回帰予測誤差の単調増加を制約することで,予測の一貫性を高め,長期予測性能を向上させる。
    • 提案手法AROptは,複数のベンチマークにおいて最先端の結果を達成し,iTransformerなどの既存手法と比較してMSEを10%以上削減した。
    • 短期予測モデルでも,7.5倍以上の予測期間で信頼性の高い長期予測が可能になった。
    • AROptは,自己回帰予測誤差の増加傾向を学習に組み込み,予測の一貫性を担保することで性能向上を実現した。

    Link: https://arxiv.org/abs/2602.02288

  • PixelGen:知覚的教師信号を用いたピクセル拡散の改善 [cs.CV, cs.AI]目的:ピクセル拡散における画像生成の質的向上
    • 画像生成技術は,多様な応用分野で重要性が増しており,高画質化が求められている。
    • 従来のピクセル拡散は,全てのピクセルを均等に扱うため,知覚的に重要でない信号に計算資源を費やす傾向がある。
    • 知覚的教師信号を導入することで,ピクセル拡散の画質を向上させ,潜在拡散との差を縮小することを目指す。
    • PixelGenは,LPIPS損失とP-DINO損失という2つの補完的な知覚的損失を導入することで,ローカルテクスチャとグローバルセマンティクスを改善する。
    • ImageNet-256において,PixelGenは分類器フリーガイダンスなしでFID 5.11を80エポックで達成し,潜在拡散のベースラインを上回った。
    • PixelGenはテキストからの画像生成にも効率的に拡張でき,8xH800 GPUで6日間トレーニングした結果,GenEvalスコア0.79を達成した。

    Link: https://arxiv.org/abs/2602.02493

  • GraphVec:グラフレベル表現学習のためのクロスドメイングラフベクトル化 [cs.LG]目的:異種ドメイン間の汎用的なグラフ表現の学習
    • グラフデータは構造や属性の意味が多様であり,その活用が重要である。
    • 異なるドメインのグラフデータを直接比較することが困難である。
    • ドメインに依存しないグラフ表現を獲得し,タスク間の転移学習を可能にする。
    • GraphVecは,多様なグラフを固定次元の埋め込みにマッピングする。
    • スペクトル埋め込みを用いて,ドメインに依存しない関係性特徴を抽出する。
    • クロスドメインの少数ショットグラフ分類とクラスタリングにおいて,既存手法を上回る性能を示す。

    Link: https://arxiv.org/abs/2602.04244

  • それは宝くじではない,競争である:勾配降下がタスクに合わせてネットワークの容量を適応させる仕組みの理解 [cs.LG, cs.AI, cs.CV, cs.NE]目的:勾配降下法によるニューラルネットワークの容量適応メカニズム
    • ニューラルネットワークは実証的に成功を収めているが,理論的理解は遅れている。
    • 訓練中に,理論的な容量がタスクに適合する有効容量にどのように削減されるか不明である。
    • 勾配降下法が容量を削減するメカニズムを,ReLUネットワークのニューロンレベルで解明する。
    • 相互整列,ロック解除,競争という3つの動的原理が,同等なニューロンの統合や低ノルム重みの剪定を説明する。
    • 特定のニューロンの初期条件がより高い重みノルムを獲得する理由を,宝くじチケット仮説を通じて説明する。
    • 勾配降下法が,タスクの複雑さに応じてネットワークの容量を動的に調整する仕組みを明らかにする。

    Link: https://arxiv.org/abs/2602.04832

  • パリティ,感度,そしてTransformer [cs.LG, cs.AI]目的:Transformerがパリティ問題を解くための必要層数の特定
    • AI理論において,ニューラルネットワークの計算能力の限界を理解することは重要である。
    • Transformerがパリティ問題を解けるか否か,条件が明確でなかった。
    • Transformerによるパリティ問題解決の最小限の条件と層数を明らかにすること。
    • Transformerがパリティ問題を解くために必要な最小層数は2層であることが示された。
    • 1層のTransformerではパリティ問題を解けないことが,感度の成長速度の比較から証明された。
    • 既存のパリティ問題解決Transformerの非現実的な仮定を取り除き,より実用的な4層Transformerによる解決策が提示された。

    Link: https://arxiv.org/abs/2602.05896

  • テスト駆動型コード生成の理論的分析 [cs.SE, cs.AI, cs.LG]目的:テスト駆動型ソフトウェア開発におけるコードアシスタントの環境インタラクション戦略の理論的メカニズム
    • ソフトウェア開発の効率化と品質向上が求められる中,テスト駆動型開発は重要な役割を担う。
    • コードアシスタントの環境インタラクション戦略の理論的根拠が十分に解明されていない。
    • コードアシスタントの戦略を理論的に分析し,その限界と改善策を提示すること。
    • コード選択におけるヒューリスティクスが,環境を考慮したコード正しさの推定器として形式化された。
    • ファジー関数類似度に基づく推定器は,関数等価性に基づくものよりも信号対雑音比が優れていることが証明された。
    • バックプロンプティングは,コンテキスト内でのトムソンサンプリングの近似として捉えられ,タスク記述の曖昧さによる限界が理論的に説明された。

    Link: https://arxiv.org/abs/2602.06098

  • 行動から行動へのフローマッチング [cs.RO, cs.AI]目的:行動予測におけるフローマッチングによるポリシーの提案
    • ロボット制御において,拡散モデルに基づくポリシーが注目を集めている。リアルタイム制御には高速な推論が不可欠である。
    • 従来の拡散モデルは,ノイズからの反復的な処理に時間がかかり,推論速度が遅いという課題があった。
    • 過去の行動情報を活用し,反復処理を削減することで,高速かつロバストな行動生成を目指す。
    • 本研究で提案するA2Aは,過去の行動系列を初期値として活用し,推論ステップ数を大幅に削減することに成功した。
    • A2Aは,学習効率,推論速度,汎化性能において既存手法を上回り,単一ステップで高品質な行動生成を可能にする。
    • さらに,A2Aは視覚的な摂動に対するロバスト性も高く,また動画生成にも応用可能であることが示された。

    Link: https://arxiv.org/abs/2602.07322

  • 密なニューラルネットワークは汎用近似器ではない [cs.LG, stat.ML]目的:密なニューラルネットワークの近似能力
    • 深層学習は様々な分野で性能を向上させているが,理論的な限界は未だ不明な点が多い。
    • 汎用近似定理が存在するものの,現実的な制約下での近似能力は十分に解明されていない。
    • 密な層のみで構成されたニューラルネットワークの近似能力の限界を明らかにすること。
    • 密なニューラルネットワークは,制約された条件下では任意の連続関数を近似できないことが示された。
    • この結果は,ネットワーク構造の疎性を導入することの重要性を示唆している。
    • 弱正則性補題とグラフニューラルネットワークの解釈を用いることで,この限界を数学的に証明した。

    Link: https://arxiv.org/abs/2602.07618

  • プロセス検証可能な思考データ合成とスケジューリングによる時系列推論 [cs.AI]目的:時系列推論のためのLLM調整
    • 時系列データは様々な分野で不可欠であり,その分析は長年の課題である。
    • 時系列データに対するLLMの活用は初期段階であり,高品質な学習データが不足している。
    • プロセス検証可能な時系列CoTデータを用いたLLMの効率的な学習を目指す。
    • 提案手法VeriTimeは,データ合成,スケジューリング,RL学習によりLLMの時系列推論能力を向上させる。
    • プロセス検証可能な注釈付きの時系列テキストマルチモーダルデータセットを構築した。
    • VeriTimeにより,3B/4Bモデルが大規模LLMに匹敵する性能を達成した。

    Link: https://arxiv.org/abs/2602.07830

  • 自律機械学習エンジニアリングのための適応的カリキュラム強化グループ相対方策最適化 [cs.LG, cs.AI]目的:自律機械学習エンジニアリングにおける持続的な反復最適化
    • 機械学習エンジニアリングの自動化は,開発効率の向上と専門知識の民主化に不可欠である。
    • 既存のプロンプトベースエージェントはパラメータが固定されているため,学習が停滞しやすいという課題がある。
    • 実行遅延と非効率的なデータ選択の問題を克服し,持続的な最適化を可能にすること。
    • 提案手法AceGRPOは,機械学習エンジニアリングベンチマークにおいて100%の有効な提出率を達成した。
    • AceGRPOは,商用モデルの性能に匹敵し,より大規模なオープンソースモデルを上回る性能を示した。
    • 実行履歴を再利用可能なタスクとして活用し,学習効率を最大化する適応的サンプリングにより,持続的な反復最適化を実現した。

    Link: https://arxiv.org/abs/2602.07906

  • 構造学習理論:計量-トポロジー分解アプローチ [cs.LG]目的:構造化された環境における学習の構造的側面
    • 機械学習の応用範囲拡大に伴い,非定常環境下での学習が重要になっている。
    • 既存の統計学習理論では,構造的側面,すなわち文脈の発見が十分ではない。
    • 学習問題の複雑さを測る「幅」の概念を導入し,構造学習の理論的基盤を確立する。
    • 本研究で導入された「幅」は,VC次元とは異なる学習問題の複雑さの指標となる。
    • 文脈の数が「幅」よりも少ない場合,学習は避けられない構造的エラーの影響を受ける。
    • 「収縮的類似性」オペレーターと「metric slingshot」により,学習問題を効率的に分解することが可能となる。

    Link: https://arxiv.org/abs/2602.07974

  • 反事実マップ:それらとは何か,そしてそれらを見つける方法 [cs.LG]目的:解釈可能な機械学習における反事実の説明の計算方法
    • 機械学習モデルの透明性と説明可能性は,信頼性と社会への受容性を高める上で不可欠である。
    • 複雑なモデルに対する正確な反事実の説明の計算は,計算コストが高く困難である。
    • 決定木アンサンブルモデルにおける反事実探索を,効率的な最近傍領域検索問題として解決する。
    • 決定木アンサンブルは,ラベル付き超矩形の分割として表現可能であり,反事実探索は最近傍超矩形の探索となる。
    • 提案手法は,ボロノイセルを利用した最適化アルゴリズムであり,ミリ秒レベルの高速なクエリ時間を実現する。
    • 実データを用いた実験により,既存の正確な手法と比較して,大幅な高速化が確認された。

    Link: https://arxiv.org/abs/2602.09128

  • 汎化可能な長期物理シミュレーションのための潜在的生成ソルバー [cs.AI, cs.LG]目的:汎化性と長期的な安定性を備えた物理シミュレーション手法の開発
    • 物理シミュレーションは,科学技術の進歩に不可欠であり,様々な分野で利用されている。
    • 既存のニューラルPDEソルバーは,異なるPDEファミリーへの汎化性と,長期的な自己回帰ロールアウトにおける安定性の両立が困難である。
    • 異なるPDEファミリーを扱え,長期間のシミュレーションでも安定性を維持するソルバーを開発することで,この課題を解決する。
    • 提案手法LGSは,12種類のPDEファミリーを共有潜在空間に圧縮するPhysics VAE,Pyramidal Flow-Forcing Transformer,そして訓練時の入力ノイズによって構成される。
    • LGSは,既存の決定論的ベースラインと同等の性能を示し,15/16のシステムで5ステップおよび10ステップのロールアウトにおいて優れた結果を達成した。
    • 20ステップのL2REを56.1%から30.2%に削減し,計算コストも大幅に削減された。また,事前学習データに含まれないKolmogorov flowへの適応性も確認された。

    Link: https://arxiv.org/abs/2602.11229

  • 検証可能な推論のためのマルチモーダルファクトレベル帰属 [cs.CL, cs.AI, cs.CV]目的:マルチモーダル推論におけるファクトレベル帰属の評価
    • 現実世界のタスクでは,複雑な推論と長文生成が求められ,信頼性が重要となる。
    • 既存の評価手法は,単純な観察に基づいたり,対象となるモダリティが限定的であったりする。
    • 複雑なマルチモーダル推論における帰属の評価を目指す。
    • MuRGAt(マルチモーダルファクトレベル帰属)というベンチマークを新たに提案した。
    • 強力なMLLMであっても,正しい推論を行う一方で,引用の誤り(ハルシネーション)が頻繁に発生することが明らかになった。
    • 推論の深さを増したり,構造化された帰属を強制したりすると,精度が低下するトレードオフが存在することが示された。

    Link: https://arxiv.org/abs/2602.11509

  • リスクホライズン:縦断的臨床予測のための構造化仮説空間 [cs.LG, cs.AI]目的:縦断的臨床予測における,患者固有の候補空間の構築
    • 電子カルテは医療の質向上に不可欠だが,データ活用には課題が多い。
    • 観測データが少ない状況下で,適切な臨床イベントの予測が困難である。
    • 臨床的に妥当な候補を効率的に絞り込み,予測精度を向上させる。
    • リスクホライズンは,臨床コードの階層構造とデータ駆動型アソシエーションを組み合わせる。
    • 臨床グラフを双曲線空間に埋め込み,指向性リスクコーンを用いて候補を抽出する。
    • MIMIC-IVとeICUでの実験で,予測性能と階層的一貫性の向上が確認された。

    Link: https://arxiv.org/abs/2602.12828

  • 視覚的パラ思考者:視覚的理解のための分割統治型推論 [cs.IR, cs.CV, cs.AI]目的:視覚的理解のための分割統治型推論の枠組み
    • 大規模言語モデルの性能向上には,推論能力の拡張が不可欠である。
    • 深層な推論に偏りがちで,探索が停滞する課題があった。
    • 視覚情報に対する並列推論の有効性を検証し,新たな枠組みを提案する。
    • Visual Para-Thinkerは,マルチモーダル大規模言語モデルにおける並列推論を実現した初の枠組みである。
    • Pa-AttentionとLPRoPEを統合することで,多様な推論経路を確保し,経路依存性を低減した。
    • V*,CountBench,RefCOCO,HallusionBench等のベンチマークデータセットで,視覚的推論の性能向上が確認された。

    Link: https://arxiv.org/abs/2602.13310

  • 視覚言語キャリブレーションによる解析的クラス増分学習の発展 [cs.LG]目的:解析的クラス増分学習の性能向上
    • 継続学習は,モデルの知識を維持しつつ新たなタスクに適応する能力が重要である。
    • 既存のクラス増分学習手法は,適応性と長期的な安定性の両立が課題である。
    • 表現の固定化を解消し,学習の効率と安定性を両立することを目指す。
    • 提案手法VILAは,視覚特徴と言語情報を2段階でキャリブレーションすることで,解析的クラス増分学習の性能を向上させる。
    • VILAは,タスク適応型特徴と普遍的な視覚アンカーを幾何学的に統合し,予測バイアスを修正する。
    • 8つのベンチマークデータセットで優れた性能を示し,特に細粒度分類や長系列タスクにおいて有効性が確認された。

    Link: https://arxiv.org/abs/2602.13670

  • セマンティック通信におけるレート-歪み-複雑さのトレードオフ [cs.IT, cs.AI, math.IT]目的:セマンティック通信におけるレート-歪み-複雑さのトレードオフの解明
    • 情報伝達の効率化が求められる現代において,意味に着目した通信が重要性を増している。
    • 深層学習モデルの複雑さにより,計算コストが増大し,リソース制約下での実用化が課題となっている。
    • 意味距離とモデル複雑さの制約下における最小達成レートを理論的に導出し,トレードオフを明確化する。
    • 提案手法は,従来のレート-歪み理論を拡張し,意味距離と複雑さの制約を考慮したフレームワークを構築した。
    • 理論的結果から,達成可能なレート,意味距離,モデル複雑さの間に根本的なトレードオフが存在することが示された。
    • 実世界の画像・動画データを用いた実験により,提案手法の有効性と情報理論的複雑さの有用性が検証された。

    Link: https://arxiv.org/abs/2602.14481

  • 知覚に基づくヒューマノイド・パルクール:モーションマッチングによる動的ヒューマン技能の連結 [cs.RO, cs.AI, cs.LG, cs.SY, eess.SY]目的:ヒューマノイドロボットによる,知覚に基づいた複雑な障害物コースにおける長期的パルクール
    • ヒューマノイドロボットの歩行技術は進歩したが,人間のような敏捷性と適応性を実現することが課題である。
    • 複雑な環境下でのパルクールは,低レベルの安定性だけでなく,人間らしい動作表現や技能の連結,知覚に基づく判断が求められる。
    • 本研究は,モーションマッチングと強化学習を組み合わせ,ヒューマノイドロボットが自律的にパルクールを実行できるフレームワークを構築する。
    • 提案手法により,高さ1.25mの障害物を登るなど,高度な動的パルクール技能を実証した。
    • 深層学習と強化学習を組み合わせることで,障害物の形状や高さに合わせて,ステップ,クライミング,ヴォールト,ロールを自律的に選択・実行した。
    • 実際のUnitree G1ヒューマノイドロボットを用いた実験により,実時間での障害物擾乱への適応能力も確認した。

    Link: https://arxiv.org/abs/2602.15827

  • MARVL:視覚言語モデルによるロボット操作のための多段階ガイダンス [cs.RO, cs.CV, cs.LG]目的:ロボット操作における視覚言語モデルによる多段階ガイダンスの設計
    • ロボットの強化学習は自動化に不可欠だが,報酬関数の設計が課題となる。
    • 従来の報酬関数は手動設計に依存し,拡張性と自動性に限界がある。
    • 視覚言語モデルを活用し,報酬設計の自動化と性能向上を目指す。
    • MARVLは,視覚言語モデルの空間的・意味的一貫性を向上させる。
    • タスクを多段階のサブタスクに分解し,軌道感受性を高める。
    • Meta-Worldベンチマークで既存手法を凌駕し,高いサンプル効率と頑健性を示す。

    Link: https://arxiv.org/abs/2602.15872

  • 疎な衛星時系列と気象共変量からのNDVI確率的予測 [cs.LG, cs.CV, stat.ML]目的:精密農業におけるデータ駆動型意思決定支援のための,植物の動態短期予測
    • 農業生産性の向上や食糧安全保障の確保に,植物の生育状況を正確に把握することが重要である。
    • 雲の影響や気候条件の不均一性により,衛星観測からのNDVI予測は困難であった。
    • 疎な観測データや不規則な時間間隔,予測期間に依存する不確実性への対処を目指す。
    • 提案手法は,統計モデルや深層学習モデル,時系列モデルといった既存手法を上回る性能を示した。
    • 過去のNDVIデータが予測性能の主要な要因であり,気象共変量はさらなる改善に貢献することが確認された。
    • 時間距離重み付き分位損失関数が,予測精度と不確実性評価の両方を向上させた。

    Link: https://arxiv.org/abs/2602.17683

  • 分散注意が集中信号に失敗する:医療時系列データに対するTransformerの再考 [cs.LG, cs.AI]目的:医療時系列データの解析手法の開発
    • 医療診断において,心電図や脳波などの医療時系列データの正確な解析は不可欠である。
    • Transformerモデルは時間依存性は捉えるものの,チャネル間の依存関係のモデリングが課題であった。
    • 医療時系列データの集中的な信号特性に適応した新しいモジュールを開発し,性能向上を目指す。
    • 提案手法CoTARは,Transformerの分散注意を集中型MLPモジュールで代替することで,計算効率と精度を向上させた。
    • 5つのベンチマークにおいて,CoTARは最先端技術と比較して最大11.6%の性能向上を達成した。
    • CoTARは,メモリ使用量と推論時間をそれぞれ33%と20%削減することに成功した。

    Link: https://arxiv.org/abs/2602.18473

  • 報酬モデリングのための信頼度に基づくリフレクション手法:CAMEL [cs.CL, cs.AI]目的:報酬モデルの性能向上
    • 大規模言語モデルと人間の選好を一致させる上で,報酬モデルは重要な役割を担う。
    • 既存手法は効率性と解釈性のトレードオフに陥っており,計算コストが高い。
    • 信頼度に基づきリフレクションを適用することで,効率性と性能の両立を目指す。
    • CAMELは,3つの主要な報酬モデルベンチマークで最先端の性能を達成し,平均精度82.9%を記録した。
    • 既存の最良モデルを3.2%上回り,14Bパラメータで70Bパラメータモデルを凌駕する性能を示した。
    • 精度と効率性のパレート最適性も確立した。

    Link: https://arxiv.org/abs/2602.20670

  • 上位K個の確率の分離による効率的な言語モデル蒸留 [cs.CL, cs.LG]目的:言語モデル蒸留における効率化
    • 大規模言語モデルは高性能だが,計算コストが高い。蒸留は軽量なモデルの作成に不可欠。
    • 従来のKLダイバージェンスは高確率なトークンに偏り,低確率なトークンの情報を無視する傾向がある。
    • 教師モデルの出力分布の「尾」の部分を考慮し,より多くの情報を学生モデルに伝達することを目指す。
    • 提案手法は教師モデルの高確率部分の影響を軽減し,低確率部分の寄与を増やす。
    • 事前学習および教師あり蒸留の両方で,様々なデータセットにおいて競争力のある性能を達成した。
    • 大規模データセットでも,限られた計算資源で効率的な蒸留が可能であることを示した。

    Link: https://arxiv.org/abs/2602.20816

  • 同じ言葉,異なる判断:嗜好がモダリティ間でどのように変化するか [cs.DC, cs.ET, cs.SD, cs.AI, cs.HC]目的:人間の嗜好にAIシステムを適合させるための,嗜好に基づく強化学習の評価プロトコル
    • AIシステムの人間との整合性が重要視される中で,人間の嗜好をAIに学習させる技術が求められている。
    • 既存の評価プロトコルはテキスト向けに設計されており,音声データへの妥当性が検証されていない。
    • テキストと音声の評価を比較し,音声データに特化した評価プロトコルの必要性を示す。
    • テキストと音声で同じ内容を評価した場合,良好な合意を得るためには約9人の評価者が必要である。
    • 音声評価者は,テキスト評価者と比較して,判断の閾値が狭く,長さの影響を受けにくく,ユーザー視点の評価基準を持つことが示された。
    • 合成評価は,評価者間の合意を予測するのに有効であり,刺激の選択や人間によるアノテーションの代替として機能する。

    Link: https://arxiv.org/abs/2602.22710

  • 等方性活性化関数は,個々の神経細胞の分離をなくし,適応的なトポロジーを可能にする [cs.NE, cs.LG]目的:密なニューラルネットワークのトポロジーを適応させる手法
    • 深層学習の性能向上には,ネットワーク構造の最適化が不可欠である。
    • 従来のネットワーク構造は,固定されており,タスクの変化に対応できない場合がある。
    • ネットワークの構造を動的に変化させ,タスクに適応させることで,効率性と汎用性を高める。
    • 等方性活性化関数を用いた層の対角化により,ネットワークの接続をシンプルに評価可能になった。
    • 不要なニューロンの除去(神経変性)と不活性ニューロンの維持(神経新生)により,パラメータの疎性を実現した。
    • ネットワークの機能を変えずに,最大50%のパラメータ削減が可能であり,リアルタイムでの構造再構成を実現した。

    Link: https://arxiv.org/abs/2602.23405

  • AIエージェント単独では,社会シミュレーションには不十分である(現状) [cs.CY, cs.MA, cs.AI, cs.CE, cs.CY, cs.SI]目的:社会シミュレーションにおけるAIエージェントの現状と課題
    • 社会現象の理解と予測は,政策決定や社会設計において不可欠である。
    • 現在のAIエージェントは,役割演技の妥当性と行動の信頼性の間に乖離が見られる。
    • 環境とエージェントの相互作用を考慮したシミュレーション設計の必要性
    • 大規模言語モデルを統合したAIエージェントによる社会シミュレーションへの期待が高まっている。
    • しかし,役割指定されたエージェントを配置するだけでは,現実的な集団行動は生まれないと考えられる。
    • AIエージェントベースの社会シミュレーションを環境を含むマルコフゲームとして捉えることで,設計・評価・解釈の改善が可能となる。

    Link: https://arxiv.org/abs/2603.00113

  • PEPA:持続的な自律性を持つ人格を備えた具現化されたエージェント [cs.RO, cs.AI]目的:人格に基づく持続的な自律性の実現
    • ロボットなどの具現化されたエージェントの長期的な運用には,人間による介入を減らす自律性が不可欠である。
    • 既存のエージェントは外部からの指示に依存しており,動的な環境での持続的な運用が困難である。
    • 本研究は,人格特性を通じてエージェントに内在的な目標生成と行動進化を促し,自律性を高めることを目指す。
    • PEPAは,目標生成,行動計画,センサー運動制御の3層認知アーキテクチャである。
    • 実世界での四脚ロボットの実験により,固定されたタスク仕様に依存せず,ユーザーの要求と性格に基づいた動機の間で自律的に判断することが示された。
    • 5つの異なる性格プロトタイプにおいて,安定した性格特性に合致した行動が確認され,人格駆動型認知アーキテクチャが持続的な自律運用を可能にすることが示された。

    Link: https://arxiv.org/abs/2603.00117

  • より安全なエージェントのための追跡機能 [cs.AI, cs.PL]目的:AIエージェントの安全性確保
    • AIエージェントの現実世界とのインタラクションが高度化する中で,安全性は重要な課題となっている。
    • ツール呼び出しを通じて悪意のある操作や情報漏洩,意図しない副作用が発生するリスクが存在する。
    • 能力ベースの安全ハーネスにより,これらのリスクを軽減し,安全なAIエージェントを実現すること。
    • Scala 3の型システムとキャプチャチェックを活用することで,きめ細かいアクセス制御が可能となる。
    • 能力を追跡することで,副作用のない局所的な純粋性を実現し,機密データの情報漏洩を防ぐことができる。
    • 実験の結果,能力ベースの安全ハーネスはタスクパフォーマンスを損なうことなく,安全性を確保できることが示された。

    Link: https://arxiv.org/abs/2603.00991

  • ロバストな声門面積波形の抽出と臨床病理学的評価のための検出ゲート付きパイプライン [cs.CV, cs.AI, cs.LG]目的:高速度ビデオ内視鏡 (HSV) 画像における声門面積の正確かつ汎用性の高いセグメンテーション
    • 声帯の機能評価は,音声障害の診断や治療において不可欠な要素である。
    • 従来のセグメンテーション手法では,声門閉鎖時の誤検出や,撮影条件の変化による精度低下が課題となっていた。
    • 本研究は,検出ゲート機構を用いて,これらの課題を克服し,高精度かつリアルタイムな声門面積の抽出を実現することを目指す。
    • 提案手法は,異なるデータセット間での高い移植性を示し,既存手法と同等以上の性能を達成した。
    • 臨床試験では,声門面積の変動係数 (CV) が正常と病的な機能を統計的に有意に識別することが示された (p=0.006)。
    • 本システムは,汎用的なハードウェア上で約35フレーム/秒の処理速度を実現し,臨床現場でのインタラクティブなレビューを可能にする。

    Link: https://arxiv.org/abs/2603.02087

  • 適応型AI委譲における経路依存性 [cs.CY, cs.AI, cs.GT]目的:AI委譲が長期的な人間のスキルに与える影響の数学的分析
    • AI技術の進展に伴い,人間の意思決定へのAIの統合が拡大しているため,その影響を理解することが重要。
    • AIへの過度な依存は,人間のスキル低下を招く可能性があり,長期的なパフォーマンスに悪影響を及ぼすことが懸念される。
    • AI委譲が人間のスキルに与える影響を定量化し,スキルの低下リスクを評価すること。
    • 反復的なAI支援は,即時のタスクパフォーマンスを向上させる一方で,将来的な自立作業に必要なスキルを低下させる。
    • 適応型AI委譲システムは,2つの安定した終端状態を持ち,初期条件の違いによって異なる結果が生じる可能性がある。
    • AI能力の向上は,低スキル状態への移行を容易にし,結果的にスキルの喪失リスクを高める可能性がある。

    Link: https://arxiv.org/abs/2603.02950

  • 事実の正確性を超えて:説明可能な推薦における嗜好に反する説明の軽減 [cs.AI]目的:嗜好に反する説明の軽減
    • 推薦システムはユーザーに最適なアイテムを提示する必要があり,その過程の説明は信頼性を高める上で重要である。
    • 既存の説明評価指標は事実に基づいた正確性のみに焦点を当て,ユーザーの嗜好との整合性を無視している。
    • ユーザーの嗜好に合致しない説明を削減し,より説得力のある推薦を実現することを目指す。
    • 提案手法PUREは,選択と生成のパラダイムに基づき,嗜好に合致した根拠を選択することで,説明の矛盾を軽減する。
    • PUREは,事実に基づいた正確性とユーザーの嗜好との整合性を両立させ,推薦の精度,説明の質,推論効率を維持する。
    • 実験結果から,信頼できる説明には事実の正確性に加えて,ユーザーの嗜好に沿った正当化が不可欠であることが示された。

    Link: https://arxiv.org/abs/2603.03080

  • PulseLM:PPG-テキスト学習のための基盤データセットとベンチマーク [cs.CL, cs.AI]目的:PPGとテキスト間の質問応答データセット
    • 心血管および生理的モニタリングは,医療現場やウェアラブルデバイスで不可欠である。
    • 既存のPPGデータセットは数値データに偏り,言語ベースのインターフェースとの連携が難しい。
    • PPGと自然言語間の橋渡しとなり,生理学的推論の基盤となるデータセットの提供。
    • PulseLMは,16の公開データソースからPPG記録を収集し,12のダウンストリームタスクのアノテーションを統合した大規模データセットである。
    • データセットは,約250万の質問応答ペアと,10秒間の標準化されたPPGセグメント100万件以上で構成される。
    • PPGに対応した大規模言語モデルを用いたベンチマークを確立し,言語による生理学的推論を可能にする。

    Link: https://arxiv.org/abs/2603.03331

  • 時間依存密度汎関数理論における波動関数の予測のための軌道変換器 [cs.LG, cond-mat.mtrl-sci, physics.chem-ph]目的:時間依存密度汎関数理論による波動関数の学習
    • 物質の光学的特性や電子ダイナミクスなど,物理化学的性質の第一原理計算を可能にする。
    • 従来の計算手法では,全ての占有状態を微小な時間ステップで伝播させる必要があり,計算コストが高い。
    • 軌道変換器を用いて,時間ステップ間の電子波動関数係数の進化を効率的に学習し,計算コストを削減する。
    • 提案手法OrbEvoは,外部電場の強さと方向を考慮する条件付けにより,分子の量子ダイナミクスを正確に捉える。
    • 波動関数プーリングと密度行列を用いるOrbEvo-WFとOrbEvo-DMの二つのモデルを設計し,密度行列を用いるOrbEvo-DMの方が直感的で学習しやすい。
    • QM9およびMD17データセットを用いた評価により,OrbEvoが励起状態の時間依存波動関数,双極子モーメント,吸収スペクトルを精度良く予測することが示された。

    Link: https://arxiv.org/abs/2603.03511

  • DARK:大規模圧縮下におけるビジョン言語モデルのための対角アンカー反発知識蒸留 [cs.CV, cs.AI, cs.LG]目的:大規模圧縮下におけるビジョン言語モデルの知識蒸留
    • 臨床現場でのオンデバイス展開のため,ビジョン言語モデルの圧縮が重要視されている。
    • 教師モデルと生徒モデルの能力差が大きい場合,知識蒸留の性能が著しく低下する。
    • 本研究では,極端な圧縮下で教師モデルの構造的バイアスを生徒モデルに伝播させないことを目指す。
    • DARKは,教師モデルの画像とテキストのペア間の類似度構造を生徒モデルに効率的に伝達する。
    • 実験の結果,MobileFetalCLIPはFetalCLIPと同等またはそれ以上のゼロショットベンチマーク性能を示した。
    • DARKは,教師モデルの信頼性を維持しながら,クラス間の混同を抑制する構造的非相関を誘導する。

    Link: https://arxiv.org/abs/2603.05421

  • 拡散生成FIDの予測指標としての再構成FID [cs.CV, cs.LG]目的:拡散モデルの生成FIDと相関性の高い指標の開発
    • 生成モデルの性能評価は重要であり,FIDはその代表的な指標である。
    • VAEの再構成FIDは,拡散モデルの生成FIDとの相関が低いという課題がある。
    • 再構成指標と生成FIDの相関を高め,より信頼性の高い評価を可能にすること。
    • 提案手法であるiFIDは,既存の再構成FIDと比較して生成FIDとの高い相関性を示すことが確認された。
    • iFIDは,拡散モデルがサンプリングする領域の特性を捉え,生成品質を評価していると考えられる。
    • 多様なVAEにおいて,iFIDは拡散生成FIDとのピアソンの相関係数約0.85を達成し,優れた予測性能を証明した。

    Link: https://arxiv.org/abs/2603.05630

  • 動的チャンキングによるビジュアル生成のための適応的計算と弾力的な推論 [cs.CV, cs.AI, cs.LG]目的:ビジュアル生成における計算効率と柔軟性の向上
    • 画像生成モデルの効率化は,計算資源の制約を考慮する上で重要である。
    • 従来の拡散モデルでは,入力画像全体に対して固定的なトークン数を割り当てていた。
    • 画像の特徴に応じてトークン数を動的に調整することで,計算コストを削減する。
    • DC-DiTは,固定的なパッチ分割を学習されたエンコーダー・ルーター・デコーダー構造に置き換える。
    • 推論FLOPsを最大36.8%削減し,FIDを最大37.8%改善した。
    • モデルのスケール,解像度,ガイダンス設定にわたって,品質と計算量のトレードオフを最適化する。

    Link: https://arxiv.org/abs/2603.06351

  • コンテキスト仕様によるAI評価デプロイの関連性向上 [cs.AI]目的:AIデプロイにおける価値創出を評価するためのコンテキスト仕様プロセス
    • AI導入は増加する一方,その価値を最大限に引き出す評価が不可欠である。
    • 既存のAI評価手法は,実際の運用状況を反映しておらず,効果測定が困難である。
    • 本研究は,AI評価の対象となる要素を明確化し,実用的な評価を可能にすることを目的とする。
    • コンテキスト仕様は,関係者の主観的な視点を明確な定義に変換することで,AI評価の対象を具体化する。
    • これにより,組織はAIシステムが実際の運用環境でどのように機能するかを予測しやすくなる。
    • コンテキスト仕様は,AIデプロイの成功を測るための基礎的なロードマップを提供する。

    Link: https://arxiv.org/abs/2603.06811

  • 融合複雑性の反転:牧草バイオマス回帰における単純なクロスビューモジュールがSSMやクロスビューアテンションTransformerを上回る理由 [cs.CV, cs.LG]目的:牧草バイオマスの回帰精度向上
    • 持続可能な畜産管理には,牧草バイオマスの正確な推定が不可欠である。
    • 実際のモニタリングでは,データセットが小規模,不均衡,アノテーションが疎であることが課題である。
    • 限られた農業データにおける最適なモデル構造を特定すること。
    • 少ない農業データでは,2層ゲート付きDepthwise Convolutionが,クロスビューアテンションTransformerやSSMよりも優れた性能を発揮することが示された。
    • バックボーンの事前学習スケールが,他のアーキテクチャの選択よりも重要であることが明らかになった。
    • 推論時に利用できない特徴を除外することが,性能向上に繋がる。

    Link: https://arxiv.org/abs/2603.07819

  • 医学教科書における言語モデルの幻覚の定量化 [cs.CL, cs.CL, cs.AI]目的:言語モデルにおける幻覚の発生頻度と,医学的質問応答におけるモデル間の応答のばらつき
    • 医療分野における正確な情報提供は不可欠であり,言語モデルの利用が期待される。
    • 大規模言語モデルは事実に基づかない情報を生成する「幻覚」を起こしやすく,医療分野では特に問題となる。
    • 医学教科書を根拠として,言語モデルの幻覚の発生状況を定量的に評価し,改善策を探る。
    • LLaMA-70B-Instructは,医学的質問応答において約19.7%の割合で幻覚を起こすことが判明した。
    • モデルの有用性が高いほど,幻覚の発生率は低い傾向が見られた(ρ=-0.71, p=0.058)。
    • 臨床医は,実験1と実験2において高い合意を示し,専門家による監視の必要性を示唆する。

    Link: https://arxiv.org/abs/2603.09986

  • タンパク質工学のためのマスク言語モデルの最大限の活用法 [cs.LG, q-bio.QM]目的:タンパク質工学におけるマスク言語モデルの最適なサンプリング手法
    • タンパク質は生命活動に不可欠であり,その機能改変は医療やバイオテクノロジーに貢献する。
    • 既存のタンパク質言語モデルの性能を最大限に引き出すサンプリング方法が確立されていない。
    • マスク言語モデルを用いたタンパク質設計の効率と精度を向上させる。
    • 確率的ビームサーチという新しいサンプリング手法を提案し,複数目的での最適化を可能にした。
    • 抗体工学の実験において,サンプリング手法の選択がモデルよりも重要な影響を与えることが示された。
    • この結果は,サンプリング手法の研究開発の重要性を示唆する。

    Link: https://arxiv.org/abs/2603.10302

  • アルゴリズム的タスク捕捉,計算複雑性,および無限変圧器の誘導バイアス [cs.LG, cond-mat.dis-nn, stat.ML]目的:組合せタスクにおけるアルゴリズム的捕捉の形式的定義とその評価
    • 大規模言語モデルの能力を理解する上で,タスクの規模に対する汎化性能は重要である。
    • 既存研究では,モデルが真にアルゴリズムを学習しているか,単なる統計的補間を行っているかの区別が曖昧である。
    • モデルが組合せタスクを捉えるための条件と,その計算複雑性を明らかにすること。
    • 変圧器が任意のタスクサイズに外挿可能である場合,アルゴリズム的捕捉が確認された。
    • 無限幅の変圧器の分析により,捕捉可能な組合せタスクの推論時間計算複雑性の上限が導出された。
    • 変圧器は,効率的な多項式時間ヒューリスティックスキームクラス内で,より複雑なアルゴリズム手順を好まない誘導バイアスを持つことが示された。

    Link: https://arxiv.org/abs/2603.11161

  • 動的Kubernetesスケジューリングのための適応型グラフ拡張マルチエージェント強化学習 [cs.DC, cs.LG, cs.MA]目的:動的Kubernetes環境における,システム安定性,リソース利用率,コストのバランスを最適化するスケジューリング手法
    • クラウドネイティブアプリケーションの普及に伴い,効率的かつインテリジェントなスケジューリングが重要となっている。
    • 既存の強化学習ベースのスケジューラは,スケーラビリティ,目的関数の複雑さ,動的な状況への対応が課題である。
    • 大規模クラスタ環境で,システム負荷を考慮した適応的なスケジューリングを実現することを目指す。
    • AGMARL-DKSは,各クラスタノードをエージェントとするマルチエージェント強化学習により,スケーラビリティの問題を解決している。
    • グラフニューラルネットワークを用いて,各エージェントがクラスタ全体の状況を把握し,文脈を考慮した分散型意思決定を可能にしている。
    • ストレスアウェアな辞書順序ポリシーにより,目的関数間のトレードオフを動的に調整し,性能向上を実現している。

    Link: https://arxiv.org/abs/2603.12031

  • MetaKE:より良い精度と編集可能性のトレードオフに向けた知識編集のためのメタ学習 [cs.CL, cs.CL, cs.AI]目的:知識編集における精度と編集可能性のトレードオフ改善
    • 知識編集は,モデルの知識を正確かつ効率的に更新する上で不可欠である。
    • 既存手法は,編集プロセスを分離しているため,精度と編集可能性のバランスが難しい。
    • 本研究は,アップストリームとダウンストリームを統合し,より洗練された精度と編集可能性のトレードオフを実現する。
    • MetaKEは,既存の強固なベースラインを上回り,知識編集の新たな視点を提供する。
    • 本手法は,アップストリームとダウンストリームをバイレベル最適化問題として統合することで,より良い精度と編集可能性を両立する。
    • Structural Gradient Proxyの導入により,高コストな多層バックプロパゲーションを回避している。

    Link: https://arxiv.org/abs/2603.12677

  • 線形化注意機構は,現実的な幅においてカーネル領域に到達できない [cs.LG, cs.CV, cs.NA, math.NA, stat.ML]目的:注意機構がカーネル領域に収束するかどうかの理解
    • Transformerの解釈可能性評価における影響関数は重要である。正確な評価にはカーネル領域への収束理解が不可欠。
    • Softmax注意機構の非線形性により厳密な解析が困難。線形化注意機構は代替手段として利用されているが,問題が残る。
    • 線形化注意機構の学習ダイナミクスにおける根本的なトレードオフを明らかにし,カーネル領域への収束限界を示す。
    • 線形化注意機構は,入力グラム行列の条件数に依存し,現実的な幅でカーネル領域に収束しないことが示された。
    • MNISTやCIFAR-10などの自然画像データセットでは,必要なモデル幅が既存のアーキテクチャを大幅に超えることが示された。
    • 線形化注意機構は,ReLUネットワークと比較して,敵対的摂動に対する脆弱性が高く,データの条件数に依存して影響を受けやすい。

    Link: https://arxiv.org/abs/2603.13085

  • MineEvolve: 蓄積された知識を用いた長期的embodied Minecraftエージェントの自己進化 [cs.AI]目的:長期的embodied Minecraftエージェントの自己進化のための知識駆動型フレームワーク
    • 長期的なタスク遂行には,静的な目標からの計画実行だけでなく,相互作用を通じたエージェントの改善が不可欠である。
    • Minecraftのような複雑な環境では,ツール不足や経路遮断など,予期せぬ事態により計画が中断されることが頻繁に起こる。
    • 過去の実行結果を知識に変換し,将来の意思決定に活用することで,中断された計画の修復と改善を目指す。
    • MineEvolveは,実行フィードバックを具体的な行動知識に変換するフレームワークであり,複数の言語モデルプランナーにおいて性能が向上した。
    • 成功した実行から再利用可能なスキルを導き出し,失敗や停滞した実行から改善策を生成することで,自己進化を実現する。
    • 知識の構造化と蓄積が,長期的な環境における自己進化型embodiedエージェント開発への有効な経路であることを示した。

    Link: https://arxiv.org/abs/2603.13131

  • ChArtist:統一的な空間と被写体制御による図解チャートの生成 [cs.CV, cs.AI]目的:図解チャートの自動生成
    • 視覚的なストーリーテリングにおいて,データと視覚要素を融合した図解チャートは効果的である。
    • 視覚要素の柔軟性とチャート構造の厳密性の矛盾が,図解チャート作成の課題となっている。
    • 空間制御と被写体制御を統合し,データ忠実性と視覚的美観を両立した生成手法を確立すること。
    • ChArtistは,空間制御と被写体制御を可能にするドメイン固有の拡散モデルである。
    • スケルトンベースの空間制御表現を用いることで,参照画像の視覚的特徴を尊重しながら,データエンコーディング情報を容易に組み込む。
    • 生成されたチャートのデータ忠実性を評価するための統一的な指標を提案し,大規模データセットを構築した。

    Link: https://arxiv.org/abs/2603.14209

  • 文書からスパンへ:LLMを用いた証拠に基づくICDコーディングのスケーラブルな教師あり学習 [cs.CL, cs.AI]目的:証拠に基づくICDコーディング能力の向上
    • 医療費請求や臨床分析において,ICDコーディングは不可欠であり,その信頼性が求められる。
    • 既存のデータセットはコードラベルのみを提供し,証拠となるテキストの注釈がないため,学習が制限されている。
    • 局所的なスパンからコード固有の証拠パターンを学習し,文書レベルでの証拠に基づいたコーディングを目指す。
    • 提案手法SCLは,Llama3.1-8Bを基盤とし,標準的なSFTの20%の学習コストで,マクロF1値を8.2ポイント改善した。
    • 各予測コードに対して明示的な根拠となる証拠を提供し,人間による監査と修正を可能にする。
    • コンパクトなスパン注釈のスケーラビリティと,合成による拡張性を実現した。

    Link: https://arxiv.org/abs/2603.15270

  • 文脈的評価基準報酬を用いた交互強化学習:スカラー化戦略を超える [cs.LG, cs.AI, cs.CL]目的:評価基準報酬を用いた強化学習の枠組みにおける,固定スカラー化の必要性の排除
    • 人間のフィードバックや検証可能な報酬に基づく強化学習の発展において,多次元評価基準の導入が重要である。
    • 既存手法は,ベクトル報酬を固定重みでスカラー報酬に圧縮するため,評価設計に依存し,報酬次元間の相関を捉えられない。
    • 本研究は,一度に一つの意味的評価基準メタクラスを最適化することで,固定スカラー化を回避し,性能向上を目指す。
    • 提案手法ARL-RRは,スカラー化手法と比較して,HealthBenchデータセットにおいてモデル性能と学習効率の両方で一貫して優れた結果を示した。
    • 報酬の集約が分散の収縮効果を引き起こすことを理論的に示し,性能向上の理由を説明した。
    • タスク性能に基づき動的に次のメタクラスを選択する軽量な探索適応手順を導入し,重要な目標を強調することでモデル性能を向上させた。

    Link: https://arxiv.org/abs/2603.15646

  • Laya:潜在的予測による再構成を介した脳波解析へのLeJEPAアプローチ [cs.LG, q-bio.NC]目的:脳波データの潜在表現学習
    • 脳機能研究,臨床神経科学,診断,ブレイン・コンピュータ・インターフェースへの応用が重要。
    • 既存の基礎モデルは性能向上が限定的で,下流タスクへの適応に依存しやすい。
    • 信号再構成に偏った学習を避け,潜在表現の予測による表現学習を目指す。
    • 潜在的予測に基づくLayaは,脳波における意味構造を符号化することが示された。
    • Layaの埋め込みは,発作開始などの臨床的に意味のある状態変化を追跡し,ノイズに強く,線形プロービングにおいて高い臨床精度を実現した。
    • 事前学習目的が,アーキテクチャやデータよりも性能向上に大きく貢献することが確認された。

    Link: https://arxiv.org/abs/2603.16281