arXiv雑要約

AI - 2026/05/19 公開

  • 幾何形状を考慮した4Dビデオ生成によるロボット操作 [cs.CV, cs.AI, cs.LG, cs.RO]目的:ロボット操作のための4Dビデオ生成
    • ロボットが複雑な環境で効果的に計画し,相互作用するためには,物理世界の動的な理解が不可欠である。
    • 既存のビデオ生成モデルは動的なシーンのモデリングに潜在能力を示すものの,時間的整合性と幾何学的整合性を両立させるのが困難である。
    • 複数視点からの幾何学的整合性を確保することで,より安定した未来予測を可能にし,ロボット操作の汎化性能を高める。
    • 提案手法は,クロスビュー点マップアラインメントによる幾何学的制約を導入し,一貫性のある4Dビデオ生成を実現した。
    • カメラ姿勢を入力とせず,単一のRGB-D画像から複数の視点での未来予測が可能となった。
    • シミュレーションおよび実世界のデータセットにおいて,既存手法よりも視覚的に安定し,空間的に整列した予測結果が得られた。

    Link: https://arxiv.org/abs/2507.01099

  • 学習された疎格子求積法の整合性:NeuralODEを用いた検証 [math.NA, cs.LG, cs.NA, math.PR]目的:学習された輸送写像とClenshaw-Curtis疎格子求積法の組み合わせによる期待値評価の整合性
    • 高次元積分は様々な科学技術計算の根幹であり,効率的な数値解法が求められている。
    • 従来の求積法は次元の呪いにより,高次元空間での精度向上が困難であるという課題がある。
    • NeuralODEと疎格子求積法を組み合わせることで,高次元積分における次元の呪いを軽減し,効率的な近似を可能とする。
    • 本研究では,学習された輸送写像と疎格子求積法の組み合わせが,特定の条件下で整合性を持つことを数学的に証明した。
    • 活性化関数の次数と密度滑らかさを調整することで,次元の呪いを緩和し,計算の最適化を可能にする。
    • 提案手法は,サンプルサイズと求積予算を増やすことで,真の値へ任意の精度で近似可能であることが示された。

    Link: https://arxiv.org/abs/2507.01533

  • スタイン拡散ガイダンス:高密度領域外サンプリングのための学習不要な事後補正 [cs.LG, stat.ML]目的:高密度領域外でのサンプリングを可能にするための,学習不要な事後補正手法
    • 拡散モデルは,画像生成などの分野で高い性能を示しており,その応用範囲は広い。
    • 従来のガイダンス手法は,低密度領域において信頼性の低い結果となる場合がある。
    • 真の拡散ダイナミクスを反映した事後分布の補正により,低密度領域でのガイダンスを改善する。
    • 本研究では,スタイン拡散ガイダンス(SDG)という新しいフレームワークを提案し,計算コストを抑えつつ,より正確な事後分布の推定を可能にした。
    • SDGは,理論的な限界を示すとともに,近似事後分布を真の拡散ダイナミクスに合わせて補正するメカニズムを導入した。
    • 画像ガイダンスやタンパク質ドッキングなどの実験により,SDGが従来のガイダンス手法よりも優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2507.05482

  • ペロブスカイトR1:前駆体添加物と実験計画のインテリジェントな探索のためのドメイン特化型大規模言語モデル [eess.SY, cs.SY, cs.RO, cs.LG, cond-mat.mtrl-sci, cs.AI, physics.chem-ph]目的:ペロブスカイト太陽電池の前駆体添加物探索と実験計画のためのドメイン特化型大規模言語モデル
    • ペロブスカイト太陽電池は次世代太陽電池として期待され,高い変換効率と優れた材料特性を持つ。
    • 文献の爆発的な増加と材料,プロセス,デバイス構造の複雑な相互作用により,知識の効率的な活用が困難である。
    • ドメイン適応型LLMを用いて材料探索を加速し,ペロブスカイト太陽電池研究のデータ駆動型発展を目指す。
    • Perovskite-R1は,ペロブスカイト太陽電池の前駆体添加物に関する知識を統合し,欠陥パッシベーションや添加物選択のための革新的な解決策を生成できる。
    • モデルが提案した戦略の実験的検証により,材料の安定性と性能を向上させる効果が確認された。
    • 本研究は,ドメイン適応型LLMの材料探索における可能性を示し,閉ループなデータ駆動型研究フレームワークを提供する。

    Link: https://arxiv.org/abs/2507.16307

  • GenoMAS:コード駆動型遺伝子発現解析による科学的発見のためのマルチエージェントフレームワーク [cs.RO, cs.SY, eess.SY, cs.CL, cs.DB, cs.DL, cs.IR, cs.AI, cs.LG, cs.MA, q-bio.GN]目的:遺伝子発現解析を通じた科学的発見
    • 遺伝子発現解析は,生物医学的発見に不可欠である。膨大なデータと専門知識が必要となる。
    • 既存の自動化手法は,柔軟性の欠如や,厳密な科学的探求に必要な精度に欠けるという課題がある。
    • GenoMASは,構造化ワークフローと自律的エージェントの利点を組み合わせ,遺伝子発現解析を改善する。
    • GenoTEXベンチマークにおいて,データ前処理の相関は89.13%,遺伝子同定のF1スコアは60.48%を達成した。
    • これは,既存の最良手法をそれぞれ10.61%と16.85%上回る結果である。
    • GenoMASは,文献に基づいた生物学的に妥当な遺伝子・表現型間の関連性も明らかにした。

    Link: https://arxiv.org/abs/2507.21035

  • JSON-Bag:汎用的なゲーム軌跡表現 [cs.LG, cs.AI]目的:ゲーム軌跡の汎用的な表現方法
    • ゲームAIの発展には,ゲームプレイを定量的に捉える手法が不可欠である。
    • 既存の手法では,ゲームごとに特徴量を設計する必要があり,汎用性に欠ける。
    • JSON形式のゲーム記述をトークン化することで,汎用的な表現と距離計算を実現する。
    • JSON-BagとJensen-Shannon距離(JSD)を用いて,6つのテーブルトップゲームにおける軌跡分類タスクで有効性が確認された。
    • プロトタイプベースの最近傍探索により,JSON-Bagはサンプル効率が高いことが示唆された。
    • トークンを特徴量として用いたRandom Forestにより,性能の低いタスクの精度が向上し,自動特徴抽出能力が示された。

    Link: https://arxiv.org/abs/2508.00712

  • 1層Transformerにおける検証可能な知識の獲得と抽出 [cs.LG, cs.CL]目的:事前学習中に獲得された事実知識の獲得・抽出メカニズムの解明
    • 大規模言語モデルの性能向上には,事前学習で獲得した知識の活用が不可欠である。
    • ファインチューニングによって,事前学習で獲得した知識が必ずしも信頼性高く利用されない場合がある。
    • 学習ダイナミクスを通して,知識獲得と抽出のメカニズムを理論的に解明することを試みる。
    • モデルが構造化されたAttentionパターンと関係固有の特徴方向を学習し,事実知識を獲得できることを証明した。
    • ファインチューニングによって,質問応答の形式が事前学習された関係の特徴をトリガーし,知識抽出が可能となることを示した。
    • 知識抽出は,ファインチューニングでカバーされる関係テンプレートの方向性に依存し,十分なカバレッジが重要であることを明らかにした。

    Link: https://arxiv.org/abs/2508.00901

  • グラフ分数フーリエ変換領域におけるグラフ埋め込み [cs.LG, cs.IR]目的:グラフ埋め込みの性能向上
    • グラフ表現学習において,低次元ベクトル表現は重要な役割を果たす。
    • 従来のスペクトル埋め込み法では,潜在的な構造的特徴を十分に捉えきれない場合がある。
    • グラフ分数フーリエ変換を用いて,埋め込み表現の情報を強化することを目的とする。
    • 提案手法GEFRFEは,分数領域におけるグラフフィルタリングと非線形な固有ベクトル成分の組み合わせを利用する。
    • 分数次数の動的な決定には,探索ベースの最適化とResNet18に基づく適応学習の2つの戦略が導入された。
    • 5つのベンチマークデータセットにおける実験により,GEFRFEがより豊かな構造的特徴を捉え,分類性能が大幅に向上することが示された。

    Link: https://arxiv.org/abs/2508.02383

  • ポリシー最適化を超えて:疎な報酬を持つ長期的計画のためのデータキュレーションの好循環 [cs.AI, cs.RO]目的:疎な報酬を持つ長期的計画のためのロバストな推論モデルの開発
    • 複雑な環境下での自律的な行動を可能にするため,長期的な計画能力の向上が不可欠である。
    • 従来の強化学習は,疎な報酬設定におけるクレジット割り当て問題に苦しみ,効率的な学習が困難である。
    • 本研究は,データキュレーションの好循環を通じて,報酬が少ない環境での推論能力を向上させることを目指す。
    • 提案手法BPOは,ブートストラップ,外挿,洗練という3段階のフレームワークによって,自己改善型のデータキュレーションを実現する。
    • 計画クォータニオンとlong-short chain-of-thought融合により,効率的な推論を初期段階で確立する。
    • ALFWorld,ScienceWorld,WebShop等の実験により,高い性能とトークン効率が示され,エージェント的計画における新たな手法を提供する。

    Link: https://arxiv.org/abs/2508.03018

  • DPOの暗黙的な報酬ギャップに基づく難易度別選好データ選択 [cs.CL, cs.CL, cs.AI, cs.LG]目的:選好データセットの難易度に基づいた選択戦略
    • 大規模言語モデルの人間との整合性はAI研究の重要な課題である。
    • 既存手法は大規模な選好データセットに依存し,コストが高いという問題がある。
    • 限られたリソースで効率的にLLMの整合性を向上させるためのデータ選択方法を提案する。
    • DPOの暗黙的な報酬ギャップが小さい,より困難な事例を選好データとして選択する。
    • 複数のデータセットと整合性タスクにおいて,既存の5つのベースラインを上回る性能を示した。
    • 元のデータの10%のみで,優れた性能を達成し,データ効率とモデル整合性が向上した。

    Link: https://arxiv.org/abs/2508.04149

  • VLMにおける継続学習:忘却を超えた調査と分類 [cs.CV, cs.LG]目的:視覚言語モデル(VLM)および大規模マルチモーダル言語モデル(MLLM)の継続学習に関する調査と分類
    • AI分野において,視覚と言語を統合するモデルの重要性が高まっている。従来のモデルでは,継続学習が困難であった。
    • VLMは,学習データの変化に適応できず,性能が著しく低下する「破滅的忘却」の問題を抱えている。
    • VLMとMLLM特有の忘却メカニズムを解明し,継続学習を可能にするための新たな手法を確立することを目指す。
    • 本調査では,VLMとMLLMの継続学習における課題を包括的にレビューし,4つの主要なパラダイムを提示した。
    • ドメインと能力の二軸で評価するベンチマークの重要性を強調し,CoT評価による詳細な診断分析の必要性を示した。
    • 今後の研究の方向性として,構成的なゼロショット学習,embodied AI,自律エージェント生態系などを提案した。

    Link: https://arxiv.org/abs/2508.04227

  • フーリエ圧縮器:ビジョン言語モデルのための周波数領域の視覚トークン圧縮 [cs.RO, cs.CV, cs.AI]目的:ビジョン言語モデルにおける視覚トークン圧縮戦略
    • 高解像度画像・動画入力により,ビジョン言語モデルの計算コストと推論時間が課題となっている。
    • 既存のトークン圧縮手法では,情報損失や表現分布の歪みが生じ,性能低下を招く可能性がある。
    • 周波数領域に着目し,視覚表現の冗長性を除去することで,効率的な圧縮を実現する。
    • フーリエ圧縮器は,パラメータ不要で汎用性の高いモジュールであり,周波数領域で視覚表現の冗長性を除去する。
    • 画像認識ベンチマークにおいて,元の精度を96%以上維持しつつ,推論FLOPsを最大83.8%削減し,生成速度を31.2%向上させた。
    • LLaVAやQwen-VLアーキテクチャで一貫して良好な結果を示し,動画理解タスクにも適用可能である。

    Link: https://arxiv.org/abs/2508.06038

  • カーボン スケーリング:大規模言語モデルにおけるカーボンフットプリントに対するニューラルスケーリング法則の拡張 [cs.CL, cs.AI, cs.CY, cs.DC, cs.LG]目的:大規模言語モデルの訓練におけるカーボンフットプリントのスケール則のモデル化
    • AIの発展に伴い,大規模モデルの環境負荷への関心が高まっているため。
    • 既存の炭素排出量推定法は精度が低く,ハードウェアの多様性などを考慮できていない。
    • ハードウェアを意識した分析フレームワークにより,より正確な炭素排出量予測を目指す。
    • CarbonScalingは,ニューラルスケーリング法則,分散学習戦略,ハードウェアモデリングを統合したフレームワークである。
    • 実験により,従来の回帰ベースラインよりも高い精度で炭素排出量を予測できることが示された。
    • 特に,大規模モデルでは埋め込み炭素の影響が無視できないことが明らかになった。

    Link: https://arxiv.org/abs/2508.06524

  • LLM拡張セマンティックデジタルツイン:適応型知識集約型インフラ計画 [cs.ET, cs.AI]目的:知識集約型インフラ計画のためのLLM拡張セマンティックデジタルツインの提案
    • 複雑化するインフラ管理において,デジタルツインは不可欠なツールとなりつつある。
    • 非構造化知識の統合が難しく,デジタルツインの有効性が制限される場合がある。
    • LLMを活用し,規制遵守を考慮した現実的なシミュレーションを可能にする。
    • LSDTsは,環境規制等の非構造化文書から計画知識を抽出し,形式オントロジーに整理する。
    • メリーランド州における洋上風力発電計画の事例研究により有効性が示された。
    • LSDTsは,解釈可能な規制遵守型レイアウト最適化と高精度なシミュレーションを実現する。

    Link: https://arxiv.org/abs/2508.06799

  • 内視鏡診断のための自己整合性検証によるクローズドループなエージェント的推論:EndoCogniAgent [cs.CL, cs.AI, cs.CL, cs.CV]目的:内視鏡診断におけるエージェント的推論フレームワーク
    • 内視鏡診断は,医療現場において重要な役割を担う検査であり,診断精度向上へのニーズは高い。
    • 既存のAIシステムは,詳細な証拠の獲得と多段階の推論が十分に連携しておらず,誤った診断につながる可能性がある。
    • 本研究は,自己整合性検証によるクローズドループな推論を通じて,内視鏡診断における信頼性を高めることを目指す。
    • EndoCogniAgentは,内視鏡診断を制御された状態更新プロセスとして定式化し,各推論段階で次の証拠獲得アクションを選択する。
    • 専門ツールが対応する観察を抽出し,知識および時間的一貫性に基づいて自己整合性検証を行うことで,診断状態を更新する。
    • 実験の結果,知覚タスクで85.23%,推論タスクで71.13%の臨床受容率を達成し,自己整合性検証の有効性が示された。

    Link: https://arxiv.org/abs/2508.07292

  • 条件分位数の解釈可能な予測のための記号回帰 [cs.LG, cs.NE, stat.AP]目的:条件分位数の予測
    • 予測モデルの解釈性は,特に安全性が重視される分野において重要である。
    • 従来の記号回帰は,平均値の推定には成功するが,分位点における関係性の推定は困難である。
    • 分位点における関係性を推定することで,予測変数の影響をより詳細に把握することを目指す。
    • 提案手法である記号分位回帰(SQR)は,透明性の高いモデルよりも優れた性能を示した。
    • SQRは,ブラックボックスモデルと同等の性能を維持しつつ,解釈性を損なわない。
    • 航空機の燃料使用量事例において,SQRを用いて極端な値と中央値におけるモデルの違いを説明することができた。

    Link: https://arxiv.org/abs/2508.08080

  • GVGAI-LLM:無限ゲームによる大規模言語モデルエージェントの評価 [cs.AI]目的:大規模言語モデルの推論・問題解決能力の評価
    • AI研究の発展において,汎用的な知能の評価が不可欠である。
    • 既存の言語モデルのベンチマークは,ゲームの多様性や複雑さに欠ける場合が多い。
    • 言語モデルの空間認識や基本的な計画立案能力の限界を明らかにすること。
    • GVGAI-LLMは,多様なアーケードゲームを通して,LLMの能力を評価するベンチマークである。
    • 実験結果から,LLMは空間認識や論理的推論において,依然として課題を抱えていることが示された。
    • このベンチマークは,言語モデルの能力向上,特にエージェントとしての振る舞いと空間認識の向上に貢献する。

    Link: https://arxiv.org/abs/2508.08501

  • DASH:効果的かつ隠蔽性の高い敵対的サンプルを合成するためのメタ攻撃フレームワーク [cs.CV, cs.LG]目的:効果的かつ知覚的に整合性のある敵対的サンプルの生成
    • 機械学習モデルの脆弱性を評価する上で,敵対的サンプルの生成は重要な研究課題である。
    • 既存の敵対的サンプルは,知覚的な品質が低く,人間の視覚と一致しない場合が多い。
    • Lpノルム制約下での攻撃手法の知見を活かし,知覚的な効果を高めることを目指す。
    • DAASHは,複数のLpノルム制約に基づく攻撃手法を戦略的に組み合わせることで,効果的かつ知覚的に整合性のある敵対的サンプルを生成する。
    • CIFAR-10,CIFAR-100,ImageNetにおいて,最新の知覚的攻撃手法(AdvAD等)を凌駕する攻撃成功率と視覚品質を達成した。
    • DAASHは未知の防御に対しても優れた汎化性能を示し,新たな防御に対する評価の強力なベースラインとなる。

    Link: https://arxiv.org/abs/2508.13309

  • エッジデバイスにおける連合蒸留:非IIDデータのための効率的なクライアント側フィルタリング [eess.SY, cs.RO, cs.SY, math.OC, cs.LG, cs.DC]目的:非IIDデータに対する効率的なクライアント側フィルタリング
    • プライバシー保護と通信コスト削減の観点から,連合機械学習は重要な研究分野である。
    • 従来の連合学習では,計算コストの高い密度比推定が必要であり,サーバ側のフィルタリングに遅延が生じる。
    • クライアント側での密度比推定の複雑さを軽減し,サーバ側フィルタリングの必要性をなくす。
    • 提案手法EdgeFDは,KMeansに基づく効率的な密度比推定器により,クライアント側で分布内・外のプロキシデータを効果的にフィルタリングする。
    • 様々なデータ分布(強非IID,弱非IID,IID)下で,既存手法を上回り,IIDシナリオに近い精度を達成した。
    • KMeansに基づく推定器の計算コストが低く,リソース制約のあるエッジデバイスへの展開に適している。

    Link: https://arxiv.org/abs/2508.14769

  • ネットワーク侵入検知におけるシフト検出と適応 [cs.CR, cs.LG]目的:ネットワークデータにおける異常検知のためのシフト検出と適応手法
    • ネットワークセキュリティ維持には,未知の攻撃を検知するシステムが不可欠である。
    • データ分布の変化により,既存の異常検知システムは性能を低下させる問題がある。
    • 変化するデータ分布に対応し,継続的に高精度な異常検知を実現することを目標とする。
    • NetSightは,教師あり学習による異常検知において,オンラインで分布シフトを検出し適応するフレームワークである。
    • 擬似ラベリング技術と知識蒸留に基づく適応戦略により,手動介入なしで破滅的忘却を防ぐ。
    • 3つの長期ネットワークデータセットで,既存手法と比較して最大11.72%のF1スコア改善を示した。

    Link: https://arxiv.org/abs/2508.15100

  • Leanと理論計算機科学の融合:形式-非形式ペアにおける定理証明問題の拡張的な合成 [cs.LO, cs.AI, cs.CL, cs.LG]目的:形式定理証明の課題を大規模に生成する手法
    • 大規模言語モデルの推論能力評価において,形式定理証明が重要な役割を担っている。
    • 手動キュレーションのコストが高く,検証済みの形式-非形式対応問題が不足しているため,データセットの拡充が課題である。
    • 理論計算機科学の厳密な証明問題を利用し,形式-非形式ペアを自動生成することで,検証問題の大規模データセットを構築する。
    • 本研究では,計算機科学の分野(ビジービーバー問題,混合ブール代数問題)で自動的に問題を生成するフレームワークを開発した。
    • 最先端モデル(DeepSeekProver-V2-671B)を用いた評価により,ビジービーバー問題では57.5%の成功率であったが,混合ブール代数問題では12%に低下した。
    • これは,検証が容易な問題であっても,長編証明の生成が困難であることを示しており,自動推論研究の進展に貢献する。

    Link: https://arxiv.org/abs/2508.15878

  • OPERA:強化学習を活用したオーケストレーションされたプランナー・エグゼキューターアーキテクチャ:推論指向型マルチホップ検索のために [cs.IR, cs.AI]目的:推論指向型マルチホップ検索における性能向上
    • 大規模言語モデルの進化により検索拡張生成が発展。複雑な推論が必要なタスクでは課題が残る。
    • 既存手法では,複雑なクエリに対する堅牢な計画生成,効果的な検索,ノイズ除去が不十分である。
    • 検索と推論の連携を強化し,マルチホップ検索の精度を高めることを目指す。
    • OPERAは,質問をサブゴールに分解し,推論と検索を連携させる新しいフレームワークである。
    • 提案手法MAPGRPOによりOPERAを訓練し,複雑なベンチマークで優れた性能を実証した。
    • これにより,検索と推論の密接な結合がマルチホップ検索において重要であることが示唆された。

    Link: https://arxiv.org/abs/2508.16438

  • 拡大鏡:Vision Transformerにおける識別的特徴を増幅するためのプラグアンドプレイ型注意モジュール [cs.CV, cs.AI, cs.LG]目的:識別的特徴の増幅
    • 画像認識において,詳細な視覚的分類は重要な課題である。識別能力向上が求められている。
    • 既存手法では,広範な文脈に注目しがちで,タスクに関連する微細な領域への注力が不十分である。
    • 本研究は,識別的な特徴を増幅することで,詳細な視覚的分類の精度向上を目指す。
    • 提案手法The Loupeは,Vision Transformerに軽量な空間ゲーティングモジュールを組み込む。
    • CUB-200-2011データセットにおいて,Swin-BaseとSwin-Tinyの性能をそれぞれ91.72%と88.61%に向上させた。
    • 学習されたマスクは,しばしば識別的な鳥の部位と一致し,空間ゲーティングの有効性を示唆する。

    Link: https://arxiv.org/abs/2508.16663

  • FedKLPR:KLガイダンスによるプルーニング適応型連合学習による人物再識別 [cs.CV, cs.AI, cs.LG]目的:人物再識別における連合学習の軽量化と通信効率の向上
    • 人物再識別は,知的監視や公共の安全確保において基盤技術である。
    • クライアントデータの非IID性により,連合学習の実用化が課題となっている。
    • データ分布の偏りに対処し,通信コストを削減する手法を提案する。
    • 提案手法FedKLPRは,KLダイバージェンスに基づき統計的異質性を緩和し,収束性を向上させる。
    • 非構造化プルーニングとPRAWを組み合わせることで,モデルの圧縮と重要度の評価を行い,効率的な集約を実現する。
    • CRRにより,過度な圧縮を抑制し,精度を維持することで,通信コストを40-42%削減し,高い性能を達成する。

    Link: https://arxiv.org/abs/2508.17431

  • 順序適応修正:ノイズラベルを持つ順序画像分類のためのデータ中心アプローチ [cs.RO, math.OC, cs.CV, cs.AI, cs.LG]目的:ノイズラベルの検出と修正
    • 画像認識における教師あり学習では,ラベル付きデータが不可欠である。
    • 順序画像分類では,クラス境界が曖昧で,ラベルノイズが発生しやすい。
    • ラベル分布学習を用いて,ノイズラベルを動的に修正し,データ活用を最大化する。
    • 提案手法ORDACおよびその拡張版は,様々なノイズシナリオ下でモデル性能を大幅に向上させた。
    • Adienceデータセット(40%ノイズ)において,ORDAC_Rは平均絶対誤差を0.86から0.62に,リコールを0.37から0.49にそれぞれ低減した。
    • 本研究は,ラベル分布を用いた適応的なラベル修正が,ノイズデータ下での順序分類モデルのロバスト性と精度を向上させる有効な戦略であることを示唆する。

    Link: https://arxiv.org/abs/2509.02351

  • 正答性を超えて:強化学習によるプロセス報酬と結果報酬の調和 [cs.LG, cs.AI]目的:推論タスクにおけるプロセスと結果の報酬の調和
    • 推論能力は,AIの高度化において不可欠であり,その評価と改善が重要である。
    • 結果報酬のみでは,表面的な正答に偏り,真の推論能力の向上には繋がらない。
    • プロセス報酬と結果報酬を適切に組み合わせ,より忠実な推論学習を実現することを目指す。
    • 提案手法PROFは,プロセス報酬と結果報酬の一貫性を活用したデータキュレーションにより,学習データの質を向上させる。
    • PROFを適用することで,最終的な正答率と推論の質の両方を,既存手法よりも安定的に改善することが示された。
    • PROFは,強力なプロセス報酬モデルに依存することなく,高い性能を発揮する。

    Link: https://arxiv.org/abs/2509.03403

  • 科学的実験ソフトウェア作成を支援するAIシステム [cs.AI, q-bio.QM]目的:科学的実験を支援するソフトウェアの自動生成
    • 科学的発見のサイクルにおいて,ソフトウェア開発がボトルネックとなることが頻繁に存在する。
    • 実験用ソフトウェアの作成は,手作業であり時間と労力を要するため,研究の進捗を遅らせる。
    • この研究は,AIを用いて高品質な実験ソフトウェアを自動生成し,科学研究の加速を目指す。
    • AIシステムERAは,LLMと探索手法を組み合わせ,質の高いソフトウェアを系統的に改善する。
    • バイオインフォマティクス分野で,ERAは人間の専門家を上回る40個の新規なシングルセルデータ解析手法を発見した。
    • ERAは,COVID-19入院者数予測において,CDCのアンサンブルモデルや他のモデルを上回る14個のモデルを生成した。

    Link: https://arxiv.org/abs/2509.06503

  • FediLoRA:欠損モダリティ制約下における基盤モデルの効率的な連合学習 [cs.LG, cs.AI]目的:異種環境下における連合学習のための軽量なLoRA集約フレームワーク
    • 大規模言語モデルの性能向上には,多様なデータセットを用いた学習が不可欠である。
    • 連合学習では,機関ごとの計算資源の非対称性やデータモダリティの欠損が課題となる。
    • 不均衡なLoRAランクや欠損モダリティが,連合学習におけるモデル性能低下を緩和することを目指す。
    • FediLoRAは,単純平均化と構造化編集を組み合わせることで,グローバルモデルとパーソナライズドモデルの両方の性能を向上させる。
    • 複数の汎用および医療分野のベンチマークデータセットにおいて,高い性能が確認された。
    • 医療データを用いた実験により,FediLoRAが実用的な展開に適していることが示された。

    Link: https://arxiv.org/abs/2509.06984

  • RadGame:AIを活用した放射線科教育プラットフォーム [cs.CV, cs.AI]目的:放射線科教育のためのAI搭載型ゲームプラットフォーム
    • 放射線科医の育成は医療の質に直結し,高度な専門知識と経験が求められる。
    • 従来の教育方法は指導医の負担が大きく,学習機会の拡大と迅速なフィードバックが課題である。
    • AIを活用し,学習者への即時的かつ大規模なフィードバック提供による教育効果の向上を目指す。
    • RadGameの活用により,病変局在化の精度が従来の受動的学習法と比較して68%向上した。
    • レポート作成精度の向上も認められ,従来の学習法と比較して31%の改善が見られた。
    • AI駆動型ゲーム化は,放射線科教育におけるスケーラブルでフィードバックに富んだ学習環境を提供する可能性を示す。

    Link: https://arxiv.org/abs/2509.13270

  • 大規模言語モデルを用いた人間データのシミュレーションにおける分析柔軟性の脅威 [cs.CY, cs.AI]目的:大規模言語モデルによるシリコンサンプルの妥当性評価
    • 社会科学研究において,大規模データ分析の重要性が増しており,新たなデータ収集手法が求められている。
    • シリコンサンプルの生成には多数の分析上の選択が必要であり,その選択が結果に与える影響が不明確である。
    • シリコンサンプルの分析柔軟性が結論に及ぼす影響を検証し,その脅威軽減策を提示すること。
    • シリコンサンプルの構成は,参加者ランキング,応答分布,スケール間相関において大きな変動を示した。
    • ある側面で良好な結果を示す構成が,別の側面では低いパフォーマンスを示す場合も確認された。
    • 人間のデータとシリコンサンプルの関連構造間の相関は,構成によって大きく異なり,0.23から0.84の範囲に及んだ。

    Link: https://arxiv.org/abs/2509.13397

  • MaskAttn-SDXL:制御可能な領域レベルのテキストから画像生成 [cs.HC, cs.CL, eess.SY, cs.SY, cs.CV, cs.LG]目的:テキストから画像生成における制御性の向上
    • テキストから画像生成技術は急速に進歩しており,多様な応用が期待される分野である。
    • 複雑なプロンプトや複数オブジェクトの生成において,モデルの信頼性や一貫性に課題がある。
    • U-NetとTransformerの欠点を補い,オブジェクトの属性混合や空間関係の誤りを抑制する。
    • MaskAttn-SDXLは,SDXLパイプラインに組み込むだけで利用可能であり,追加の学習データは不要である。
    • 本手法は,クロスアテンション層に空間的ゲート機構を導入することで,不要な関係性を抑制し,生成画像の品質を向上させる。
    • 計算コストを抑えつつ,生成画像のオブジェクト構成の一貫性を高めることができる。

    Link: https://arxiv.org/abs/2509.15357

  • CoUn:対照学習による機械的アンラーニングの強化 [cs.LG, cs.AI, cs.CV]目的:機械的アンラーニングの有効性向上
    • プライバシー保護の重要性が増しており,データ削除要求への対応が不可欠である。
    • 既存のアンラーニング手法は,効果が限定的であり,十分なデータ削除が困難である。
    • 保持データのみを用いた再学習の原理に基づき,効果的なデータ削除を目指す。
    • CoUnは,対照学習と教師あり学習を活用し,保持データの表現を調整することで,忘却データの表現を間接的に変更する。
    • 実験の結果,CoUnは様々なデータセットとモデル構造において,最先端のアンラーニング手法よりも優れた性能を示すことが確認された。
    • CoUnの対照学習モジュールを既存手法に統合することで,それらのアンラーニング有効性を高めることも可能である。

    Link: https://arxiv.org/abs/2509.16391

  • 非周期数列における秩序の度合いの尺度としての機械学習可能性 [cs.RO, cs.CL, cs.LG, math.NT]目的:素数分布における秩序の度合いの測定
    • 素数分布の研究は,定義は決定論的でありながら,確率過程を彷彿とさせる統計的振る舞いを示すという二面性を持つため重要である。
    • 素数の分布は一見ランダムに見えるため,その背後にある秩序を定量的に捉えることが困難である。
    • ウラム・スパイラルの特定領域における素数の規則性を機械学習を用いて測定し,秩序の度合いを明らかにすること。
    • 500m付近の領域から抽出されたブロックで訓練されたモデルは,25m以下の整数を表す領域から抽出されたブロックで訓練されたモデルよりも高い精度を示した。
    • モデルは異なる領域で異なる分類アプローチを取っており,小さい数では素数パターンを識別することに,大きい数では合成数を排除することに焦点を当てている。
    • これらの結果は,機械学習が数論のための新たな実験ツールとして機能する可能性を示唆している。

    Link: https://arxiv.org/abs/2509.18103

  • 段階に応じた疎性によるMLLMトレーニング効率の改善 [cs.LG, cs.AI]目的:多Modal大規模言語モデルのトレーニング効率向上
    • MLLMは多様な分野で優れた性能を示すが,トレーニングには膨大な計算資源が必要である。
    • 多Modalデータ由来の長い入力系列や,層間演算の非効率性により,計算の冗長性が生じる。
    • トレーニング段階ごとに変化する冗長性に焦点を当て,効率的なトレーニング手法を提案する。
    • 提案手法であるSparse Training Scheme(STS)は,段階に応じた疎性設計により,トレーニング効率を改善する。
    • Visual Token Compressorは視覚トークンを圧縮し,Layer Dynamic Skipperは不要な層を動的にスキップすることで,計算負荷を軽減する。
    • 様々なMLLMアーキテクチャで有効性が確認され,複数のベンチマークで高い性能と効率が示された。

    Link: https://arxiv.org/abs/2509.18150

  • FUNCanon: 関数的オブジェクト正準化による姿勢認識型アクションプリミティブ学習による汎用的なロボット操作 [cs.IR, cs.RO, cs.AI, cs.CV]目的:汎用的なロボット操作のための姿勢認識型アクションプリミティブ学習
    • ロボットの汎用的なスキル獲得は,複雑なタスクを効率的に実行するために不可欠である。
    • 既存の手法では,特定のタスクに特化したポリシーとなり,汎化性能が低いという課題がある。
    • 機能的オブジェクト正準化により,ロボットが物体と姿勢を考慮した操作を学習し,汎化性能を向上させる。
    • 提案手法FunCanonは,長時間の操作タスクを,アクター,動詞,オブジェクトで定義されるアクションチャンクのシーケンスに変換する。
    • 機能的オブジェクト正準化は,物体を共通の機能的フレームにマッピングし,アフォードンスからの手がかりを活用する。
    • シミュレーションおよび実環境での実験により,カテゴリーレベルの汎化,タスク間の行動再利用,および堅牢なsim2real展開が実証された。

    Link: https://arxiv.org/abs/2509.19102

  • AI評価は能力の理論に基づき行うべきである [cs.AI, cs.CY, cs.LG]目的:AI能力評価の妥当性向上
    • AI技術の発展に伴い,その能力評価の重要性が増している。
    • 既存の評価指標は,能力を直接測定しているとは限らず,解釈に依存する。
    • 評価を推論タスクとして捉え,能力の理論を明確化することで,評価の透明性を高める。
    • 従来のAI評価は,能力の定義が暗黙的であり,評価結果が評価者の仮定に大きく左右されることが示された。
    • AI評価を能力に関する推論タスクとして捉えることで,評価の妥当性を高めることができる。
    • 研究者は,評価の根底にあるモデル化の決定を記録,正当化,精査するための「評価カード」を活用すべきである。

    Link: https://arxiv.org/abs/2509.19590

  • RLBFF:人間からのフィードバックと検証可能な報酬を繋ぐ二値柔軟なフィードバック [cs.SI, cs.CL, cs.AI, cs.LG]目的:人間からのフィードバックと検証可能な報酬を組み合わせた報酬モデルの構築
    • 大規模言語モデルの性能向上には,人間のフィードバックや検証可能な報酬が不可欠である。
    • 人間のフィードバックは解釈が難しく,報酬ハッキングが発生しやすいという課題がある。
    • 人間のフィードバックの柔軟性と検証可能な報酬の正確性を両立させることで,より高品質な報酬モデルを目指す。
    • 二値で答えられる原則を抽出することで,応答の質を多角的に評価できる報酬モデルを構築した。
    • 本研究で開発した報酬モデルは,RM-BenchとJudgeBenchで高い性能を示し,リーダーボードでトップの成績を収めた。
    • 推論時に評価基準を動的に変更できるため,特定の側面に着目したモデルのカスタマイズが可能である。

    Link: https://arxiv.org/abs/2509.21319

  • ゾンotope包含とニューラルネットワーク検証のパラメータ化された困難性 [cs.CL, cs.CL, cs.CC, cs.DM, cs.LG, cs.NE]目的:2層ReLUネットワークで計算される関数の正性(および全射性)の判定に関する計算複雑性
    • 機械学習においてReLU活性化関数を持つニューラルネットワークが広く利用されており,その特性理解が重要である。
    • ニューラルネットワークの特性判定に関する計算複雑性が未解明な部分が多く,効率的な検証手法が求められている。
    • 本研究は,2層ReLUネットワークにおける正性判定および関連問題のパラメータ化された困難性を明らかにすることを目指す。
    • 2層ReLUネットワークで計算される関数の正性(および全射性)の判定は,$d$をパラメータとしてW[1]-困難であることが証明された。
    • ゾンotopeの包含判定も,$d$をパラメータとしてW[1]-困難であることが示された。
    • 2層および3層ReLUネットワークにおける最大値近似,Lipschitz定数の計算もNP-困難およびW[1]-困難であることが示された。

    Link: https://arxiv.org/abs/2509.22849

  • ZeroSiam:崩壊を伴わないテスト時エントロピー最適化のための効率的な非対称性 [cs.LG, cs.NI]目的:テスト時エントロピー最小化における崩壊防止と性能向上
    • モデルの汎化性能向上が重要であり,未知の環境への適応が求められる。
    • エントロピー最小化は,誤った近道学習や出力の偏りを引き起こし,崩壊が問題となる。
    • 非対称性を用いたZeroSiamにより,崩壊を防ぎ,より頑健な学習を実現する。
    • ZeroSiamは,非対称なSiameseアーキテクチャを用いて,テスト時エントロピー最小化における崩壊を効率的に防止する。
    • 学習可能な予測器と停止勾配演算子により,非対称な発散整列を実現し,バイアスのある学習信号を正則化する。
    • 多様なモデルとタスクにおいて,既存手法よりも安定した性能を示し,特に崩壊しやすい小型モデルでも有効である。

    Link: https://arxiv.org/abs/2509.23183

  • TusoAI:科学的手法の自動最適化 [cs.AI]目的:科学的手法開発と最適化
    • 科学的発見の加速には,複雑な実験データの分析に不可欠な計算ツールの開発が重要である。
    • 既存の計算ツール開発は,時間とコストがかかり,専門知識が必要となる。
    • TusoAIは,科学的課題に対し,自律的に計算手法を開発・最適化することで,この課題を解決する。
    • TusoAIは,シングルセルRNA-seqデータノイズ除去や衛星による地球観測など,多様なタスクで最先端手法を上回る性能を示した。
    • 遺伝学における2つの主要な未解決問題に対し,既存の計算手法を改善し,新たな生物学的知見を明らかにした。
    • 自己免疫疾患とT細胞サブタイプ間の9つの新たな関連性,および疾患変異と標的遺伝子間の7つの未報告の関連性を発見した。

    Link: https://arxiv.org/abs/2509.23986

  • CoLLM-NAS:効率的な知識誘導型ニューラルアーキテクチャ探索のための協調的大規模言語モデル [cs.RO, math.OC, cs.AI, cs.CV, cs.LG]目的:ニューラルアーキテクチャ探索における知識誘導型探索
    • 深層学習モデルの性能向上には,適切なニューラルアーキテクチャの設計が不可欠である。
    • 従来のNAS手法は計算コストが高く,探索空間が広大であるという課題を抱えている。
    • LLMを活用し,探索効率と性能を向上させることで,NASの課題を解決する。
    • CoLLM-NASは,既存のNAS手法および従来の探索アルゴリズムを上回り,最先端の結果を達成した。
    • ImageNetおよびNAS-Bench-201の実験により,CoLLM-NASが探索コストを4-10倍削減できることが示された。
    • CoLLM-NASは,MobileNet,ShuffleNet,AutoFormerなど,様々な探索空間で優れた汎化性能を発揮した。

    Link: https://arxiv.org/abs/2509.26037

  • 変化する世界における学習の障壁:可塑性喪失の数学的理解 [eess.SY, cs.SY, cs.LG, cs.AI]目的:勾配ベース学習における可塑性喪失のメカニズム解明
    • 深層学習は実世界への応用が不可欠だが,環境変化への適応が課題である。
    • 深層学習モデルは,非定常環境下で学習能力が低下する可塑性喪失が問題となる。
    • パラメータ空間における安定多様体を特定し,可塑性喪失の根本原因を明らかにする。
    • 活性化飽和による固定ユニットと,表現の冗長性によるクローンユニット多様体が,勾配がトラップされる原因となることが判明した。
    • 静的環境下での汎化性能を向上させる低ランク表現や単純性バイアスが,継続学習シナリオにおいて可塑性喪失を招くという緊張関係が明らかになった。
    • 理論的分析を数値シミュレーションで検証し,アーキテクチャの選択や標的を絞った摂動が緩和策となりうることを示した。

    Link: https://arxiv.org/abs/2510.00304

  • 密度比重み付き行動模倣:汚染データセットからの制御方策学習 [cs.LG, cs.SY, eess.SY]目的:汚染データセットからの制御方策学習手法
    • オフライン強化学習は安全性が重要な応用において不可欠であり,データ収集コストを削減できる。
    • 既存手法は,データセット内の悪意のある汚染や低品質なサンプルに脆弱である。
    • 汚染データの影響を軽減し,ロバストな方策学習を実現することを目指す。
    • 提案手法は,少量の検証済みクリーンな参照セットを用いて軌道レベルの密度比を推定する。
    • 密度比を重みとして行動模倣の目的関数に適用し,クリーンな専門家の行動を優先する。
    • 理論的な収束性保証が得られ,汚染率に依存しない有限サンプル境界が示された。実験により,高い汚染率下でも良好な性能が維持されることが確認された。

    Link: https://arxiv.org/abs/2510.01479

  • LLMは知らない質問を拒否できるか:事実に基づくタスクにおける知識に基づいた拒否の測定 [cs.CL, cs.AI]目的:知識に基づいた拒否の正確性の測定
    • LLMの信頼性は重要であり,知識の範囲を超える質問への誤った回答を防ぐ必要がある。
    • 既存の評価指標では,LLMが知識不足で回答を拒否する能力を十分に評価できない。
    • LLMが知識に基づき正確に質問を拒否する能力を定量的に評価する指標を提案する。
    • 新規指標「拒否指数 (RI)」は,拒否確率と誤り確率の相関関係により測定され,モデルの知識に基づいた拒否能力を正確に評価する。
    • RIは,異なる拒否率やモデル全体の精度に影響されず,安定したモデルのランキングを提供する。
    • 実験結果から,LLMは高い精度を示す一方で,拒否行動が不安定であるという重要な事実が明らかになった。

    Link: https://arxiv.org/abs/2510.01782

  • 専門家の模倣による推論報酬の学習:逆強化学習を用いた手法 [cs.AI]目的:専門家の推論過程から推論報酬を学習すること
    • 大規模言語モデルの推論能力向上は重要であり,実世界の問題解決への応用が期待されている。
    • 明示的な報酬関数設計が困難な場合が多く,複雑なタスクでの学習が課題となっている。
    • 専門家の推論過程から報酬を抽出し,よりロバストな推論能力獲得を目指す。
    • R-AIRLは,専門家の思考連鎖からプロセスレベルの報酬を推論する。
    • 学習結果は,SFTと比較して,多くの場合でより高い性能を示す。
    • 推論時の再ランキングにより,pass@1が最大17.4ポイント向上し,推論失敗箇所も特定可能。

    Link: https://arxiv.org/abs/2510.01857

  • オンラインネットワークを活用せよ:高速かつ安定な強化学習に向けて [cs.LG]目的:強化学習における価値関数の推定方法に関する研究
    • 深層強化学習の性能向上は,価値関数の正確かつ効率的な推定に不可欠である。
    • ターゲットネットワークは安定性を提供するが,学習速度が遅いという課題がある。
    • オンラインネットワークの不安定性を抑制し,学習速度を向上させることを目指す。
    • 提案手法MINTOは,ターゲットネットワークとオンラインネットワークの最小推定値をターゲットとして用いることで,安定性と学習速度を両立する。
    • MINTOは,価値関数学習における過大評価バイアスを軽減し,幅広い強化学習アルゴリズムに容易に組み込むことができる。
    • 多様なベンチマークにおいて,MINTOは一貫して性能を向上させ,その有効性と適用範囲の広さを示す。

    Link: https://arxiv.org/abs/2510.02590

  • CからSafe Rustへの翻訳の正確性向上のための敵対的エージェント協調 [cs.SE, cs.AI]目的:CからRustへの翻訳における正確性向上
    • レガシーCソフトウェアに存在するメモリ安全性の脆弱性を防ぐ上で,Rustのようなメモリ安全な言語への翻訳は重要である。
    • 既存の翻訳ツールでは,テストスイートに含まれない入力に対してRustコードがCソースから逸脱する正確性の問題が存在する。
    • 敵対的探索を通じて,翻訳のずれを検出し,その結果を用いてRust翻訳を改善することで,この問題を解決する。
    • ACToRは,翻訳エージェントと識別エージェントの敵対的ループを用いて,Cソースからの乖離を検出し,Rust翻訳を反復的に洗練させる。
    • 63の実際のCユーティリティにおいて,人間の介入なしで90%以上のテスト合格率を達成した。
    • ACToRは,使用する翻訳ツールやLLMに依存せず,既存の翻訳器C2SaferRustの検証合格率を16.6%向上させた。

    Link: https://arxiv.org/abs/2510.03879

  • 潜在空間の制約を用いた機械学習ベースの天気予報における,より物理的に現実的な力学の学習 [cs.LG, nlin.CD, physics.ao-ph]目的:機械学習ベースの天気予報における,物理的な現実性を高めるための学習手法
    • 天気予報は,社会インフラや防災に不可欠であり,その精度向上は重要な課題である。
    • 従来の機械学習モデルは,変数間の相互作用や空間的な誤差共分散を考慮せず,長期的予報で物理的に不自然な結果を生み出すことがある。
    • 再解析データを利用した4次元変分法(4DVar)の枠組みを導入し,潜在空間での制約により,物理的リアリズムを向上させる。
    • 潜在空間における制約付きロールアウト学習は,長期的予報の精度を向上させ,微細構造の保存にも貢献する。
    • 高次元な誤差共分散行列を潜在空間で近似することで,実装を大幅に簡略化することが可能となった。
    • 再解析データと多源観測データを統合的に学習する枠組みを拡張し,異種データソースへの対応を可能にした。

    Link: https://arxiv.org/abs/2510.04006

  • フィードバックコントローラによる活性化方向制御 [cs.LG]目的:大規模言語モデルの行動制御に関する理論的基盤の確立
    • 大規模言語モデルの安全性と信頼性は,社会実装において極めて重要である。
    • 既存の行動制御手法は経験則に頼る部分が多く,理論的な性能保証が不足している。
    • PID制御という古典的な制御理論に基づき,より安定した活性化方向制御を実現する。
    • 提案手法は,既存のアプローチと比較して,一貫して優れた行動制御性能を示すことが実験的に確認された。
    • 活性化方向制御における誤差ダイナミクスを解釈可能にし,古典的な安定性保証とのつながりを明らかにした。
    • 軽量かつモジュール化されており,既存の制御手法との統合も容易である。

    Link: https://arxiv.org/abs/2510.04309

  • 平等化勾配降下法:グロキング加速への単純なアプローチ [cs.LG]目的:グロキング現象の加速
    • 深層学習モデルの汎化性能向上は重要な課題である。学習初期の性能停滞を解消し,より効率的な学習を促すことが求められる。
    • グロキングは,学習の停滞期間が長く,汎化性能が突然向上する現象であり,学習効率を阻害する。
    • 勾配降下法の速度非対称性を解消し,学習の停滞をなくすことでグロキングを加速させる。
    • 提案手法である平等化勾配降下法(EGD)は,勾配の主要方向における速度を正規化することで,グロキングを大幅に加速させる。
    • 特定のケースでは,学習の停滞が完全に解消されることが確認された。
    • モジュラ加算やスパースパリティ問題といった古典的な問題において,EGDは停滞期間を効果的に排除することが示された。

    Link: https://arxiv.org/abs/2510.04930