arXiv雑要約

AI - 2025/10/13 公開

  • 因果力学:動的因果モデルの構造発見のための大規模ベンチマーク [cs.LG]目的:動的因果モデルの構造発見のための大規模ベンチマークおよびデータ生成フレームワーク
    • 動的システムの因果推論は,介入が困難な分野において重要な課題である。
    • 既存手法は,決定論的かつ低次元で弱い非線形時系列データに特化している。
    • ノイズ,交絡,遅延のあるシステムにおける因果発見アルゴリズムの性能評価を目指す。
    • CausalDynamicsは,線形・非線形結合微分方程式や理想化された気候モデルから生成された大規模なベンチマークを提供する。
    • 最新の因果発見アルゴリズムの評価を行い,グラフ再構成能力を包括的に検証した。
    • 物理システムの階層構造を構築可能なプラグアンドプレイ型ワークフローを提供し,幅広い分野への応用を促進する。

    Link: https://arxiv.org/abs/2505.16620

  • 連続POMDPにおける方策最適化のための逐次モンテカルロ法 [cs.LG, cs.AI, stat.ML]目的:連続部分観測マルコフ決定過程における方策学習
    • 部分観測下での意思決定は,不確実性の低減と即時的な目的達成のバランスが重要である。
    • 既存手法は,不確実性の下での行動が難しく,近似や手動によるヒューリスティックに頼りがちである。
    • 将来の観測を予測することで情報収集の価値を捉え,最適方策を効率的に推定すること。
    • 提案手法は,方策学習を非マルコフのファインマン–カツモデルにおける確率推論として定式化する。
    • ネストされた逐次モンテカルロ(SMC)アルゴリズムを開発し,POMDPによって誘導される最適軌道分布からのサンプルに基づいて履歴依存の方策勾配を効率的に推定する。
    • 標準的な連続POMDPベンチマークにおいて,提案手法は既存手法よりも優れた性能を示す。

    Link: https://arxiv.org/abs/2505.16732

  • ファウンデーションモデルの能力自動評価 [cs.LG]目的:ファウンデーションモデルの能力評価手法
    • 近年,大規模言語モデルの性能向上は目覚ましいが,その能力を正確に評価することが重要となっている。
    • 従来の評価は,静的なベンチマークに依存しており,モデルの潜在的な能力を網羅できていないという課題がある。
    • 本研究は,モデルの能力を自動的に評価する新しいフレームワークを開発し,評価の効率化と精度向上を目指す。
    • ACEフレームワークは,強力なモデルを活用し,ドメインを意味的に意味のある能力に分解し,多様な評価タスクを生成する。
    • 数学の分野では,94%のWikipediaで定義されたスキルを網羅し,新しい能力も創出した。
    • ACEは,潜在意味空間で能力モデルを適合させることで,評価対象モデルの性能を効率的に近似できる。

    Link: https://arxiv.org/abs/2505.17228

  • AdaReasoner: 適応的推論により大規模言語モデルの柔軟な思考を可能にする [cs.AI, cs.LG]目的:大規模言語モデルにおける適応的推論構成の自動化
    • 高度な推論能力は,多様なタスクの性能を左右するため,その向上が重要である。
    • 既存の手法では,タスク固有の最適化が難しく,汎用的な固定構成に頼らざるを得ない。
    • タスクの種類に応じて最適な推論構成を自動的に調整し,言語モデルの思考能力を向上させる。
    • AdaReasonerは,様々な大規模言語モデルで既存手法を上回る性能を示した。
    • 分布外のデータに対しても頑健性を保ちながら,知識集約型タスクでの改善も確認された。
    • 理論的な保証と実験により,AdaReasonerの迅速な収束と低いポリシーギャップが確認された。

    Link: https://arxiv.org/abs/2505.17312

  • LLMベースの医療相談における二重意思決定最適化:マルチエージェント協調によるアプローチ [cs.CL, cs.AI, cs.MA]目的:LLMベースの医療相談のための二重意思決定最適化
    • 医療相談は,高度な知識と推論能力を必要とし,LLMの応用が期待されている。
    • 既存手法は,症状の問診と診断という二つの異なるタスクを分離できていない。
    • 症状問診と診断を分離し,それぞれの目的を最適化することで,医療相談の精度向上を目指す。
    • 提案手法DDOは,既存のLLMベースの手法と比較して,一貫して優れた性能を示す。
    • DDOは,実際の医療相談データセットにおいて,最先端の生成ベースの手法と競合可能な性能を達成した。
    • マルチエージェント協調による二重意思決定最適化が,医療相談タスクにおいて有効であることが示された。

    Link: https://arxiv.org/abs/2505.18630

  • パーティション生成モデリング:マスクを用いないマスクモデリング [cs.LG]目的:効率的な生成のための新しいアプローチ
    • 生成モデルは,複雑なデータ表現と高速な生成を可能にする重要な技術である。
    • 従来のマスク生成モデルは固定長入力に依存し,初期段階での計算が無駄になりやすい。
    • パーティション分割により,効率的な情報フロー制御を実現し,計算資源の浪費を抑制する。
    • OpenWebTextデータセットにおいて,PGMは既存のマスク拡散言語モデルと比較して,サンプリング速度とスループットを少なくとも5倍向上させた。
    • ImageNetデータセットでは,PGMはMaskGITよりもスループットを7.5倍向上させ,FIDスコアのわずかな増加にとどめた。
    • サンプリングステップ数を2倍に増やすことで,FIDスコアをさらに改善し,MaskGITよりも3.9倍高速化した。

    Link: https://arxiv.org/abs/2505.18883

  • 潜在表現からの動的ベクトル構築:デモンストレーションを超えて [cs.CL, cs.AI]目的:潜在表現からの動的ベクトル構築手法
    • 大規模言語モデルの性能向上は,様々な自然言語処理タスクの精度向上に不可欠である。
    • 既存のインコンテキストラーニングは,デモンストレーションの選択や注入位置に依存し,汎用性に課題がある。
    • DyVecは,タスクに応じた動的なセグメンテーションと注入位置最適化により,汎用性と効率性を向上させる。
    • DyVecは,少数のデモンストレーションを用いたインコンテキストラーニング,LoRA,既存のICV手法を上回る性能を示した。
    • 徹底的なクエリ回転戦略により,インコンテキストラーニング特有の変動を抑制し,ロバストな意味的集約された潜在表現を抽出できることが示された。
    • 動的なセグメンテーションと注入が,推論時のタスク適応において軽量かつデータ効率的な解決策となることが確認された。

    Link: https://arxiv.org/abs/2505.20318

  • FinTagging:金融情報の抽出と構造化におけるLLMのベンチマーク [cs.CL, cs.AI, cs.CE]目的:金融報告書からの数値の抽出と,標準化された会計概念への構造化
    • 金融市場や規制,アルゴリズムにおいて,金融報告書の正確な理解は経済状況を把握する上で不可欠である。
    • XBRLが存在するものの,数千の事実を1万を超えるUS-GAAP概念にマッピングする作業は,コストと誤りが多く一貫性に欠ける。
    • 現実的な報告条件下でのLLMの評価を可能にする,構造を考慮した包括的なXBRLタグ付けベンチマークを確立すること。
    • LLMは数値の識別においては良好に一般化するが,詳細な概念のリンク付けに苦戦しており,構造を意識した推論の限界が示唆される。
    • FinTaggingベンチマークは,数値識別タスク(FinNI)と概念リンクタスク(FinCL)の2つのサブタスクで構成され,金融事実の構造化された表現を生成する。
    • 提示されたベンチマークは,現実的な報告条件下でLLMの能力を評価し,金融情報の抽出と構造化における課題を明らかにすることを目的とする。

    Link: https://arxiv.org/abs/2505.20650

  • ソフトウェア工学タスクにおける人間評価との乖離を埋めるためのLLMを裁判官とする評価指標 [cs.HC, cs.RO, cs.SE, cs.AI, cs.CL]目的:ソフトウェア生成物の正確性の評価
    • ソフトウェア開発支援において,生成物の品質評価は不可欠であり,開発効率と信頼性に直結する。
    • 既存の自動評価指標は,スケーラビリティに優れるものの,人間による評価との相関が低いという課題がある。
    • 人間評価のコストを削減しつつ,より正確な自動評価指標を確立すること。
    • SE-Juryは,複数のLLMを裁判官としてアンサンブルすることで,既存の自動評価指標よりも人間評価との相関が高いことが示された。
    • 特に,コード生成とプログラム修復において,SE-Juryは人間間の評価者間の合意に近いレベルに達した。
    • SE-Juryは,スケーラビリティと信頼性を兼ね備えた,人間評価の代替となりうる評価指標としての可能性を示す。

    Link: https://arxiv.org/abs/2505.20854

  • Any-to-Bokeh:ビデオ拡散モデルを用いた任意の被写体に対するビデオリフォーカス [cs.CV, cs.AI]目的:ビデオ拡散モデルを用いた任意の被写体に対するビデオリフォーカス手法
    • 映像制作において,被写界深度の制御は重要な表現技法である。魅力的な映像表現には不可欠。
    • 既存手法では,時間的なちらつきや不自然なぼかしの遷移が課題であり,自由な制御が難しい。
    • 時間的に一貫性があり,被写界深度とぼかし強度を制御可能なビデオぼかし生成を目指す。
    • 提案手法は,マルチプレーンイメージ表現とビデオ拡散モデルを組み合わせ,3D情報を活用することで,時間的な一貫性を実現。
    • プログレッシブな学習戦略により,深度のロバスト性,ディテール保持,時間安定性を向上。
    • 合成データと実写データにおける評価で,既存手法を上回る性能を実証。ビデオぼかし生成の新たな基盤となる。

    Link: https://arxiv.org/abs/2505.21593

  • PrivATE:平均処置効果の微分プライバシー付き信頼区間 [cs.LG, cs.CR, stat.ME]目的:平均処置効果の微分プライバシー付き信頼区間の算出
    • 医薬品等の効果測定において,平均処置効果は重要な指標である。正確な推論には不確実性の評価が不可欠。
    • 医療データは機密性が高く,プライバシー保護と統計的推論の両立が課題である。
    • 機密性を保ちつつ,平均処置効果の信頼区間を算出するフレームワークを構築する。
    • PrivATEは,出力摂動による微分プライバシー付き平均処置効果推定,二重ロバストな分散推定,および信頼区間構築の3段階で構成される。
    • PrivATEはモデルに依存せず,二重ロバストであり,有効な信頼区間を保証する。
    • 合成データと実際の医療データを用いた実験により,PrivATEの有効性が示された。

    Link: https://arxiv.org/abs/2505.21641

  • 医療シナリオにおけるマルチモーダル推論の引き出しと強化 [cs.CL, cs.AI]目的:医療シナリオにおけるマルチモーダル推論の性能向上
    • 臨床判断は多様な証拠に基づく反復的な推論に依存する。その重要性は高い。
    • マルチモーダル推論モデルは成功を収めているが,医療分野への応用は限定的である。
    • 医療分野におけるマルチモーダル推論モデルの推論能力を向上させることを目指す。
    • 提案手法MedE$^2$は,2段階のポストトレーニングパイプラインによって医療ドメインにおけるマルチモーダル推論を引き出し,強化する。
    • Stage-Iでは,2,000のテキストデータを用いて推論行動を引き出し,Stage-IIでは1,500のマルチモーダル医療事例を用いて推論能力を向上させる。
    • 実験の結果,MedE$^2$は複数の医療マルチモーダルベンチマークにおいて,ベースラインモデルを上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2505.23118

  • 分布が変化する不完全なマルチタスク学習者の認識的誤り [cs.LG, stat.ML]目的:不完全なマルチタスク学習における認識的誤りの特性評価と削減
    • 機械学習の信頼性向上は重要であり,特に不確実性を考慮した学習が求められている。
    • 既存手法では,分布シフトや不完全なマルチタスク学習環境下での認識的誤りの定量化が困難である。
    • 分布シフトや不完全なデータ下でも認識的誤りを分解し,その原因特定と削減を目指す。
    • 本研究では,認識的誤りを定量化するための原理的な定義と,不完全なマルチタスク学習における認識的誤り上限を提示した。
    • 提示された上限は,学習手順と環境の複数の側面から認識的誤りを個別に評価することを可能にする。
    • また,この上限の項を活用して,負の転移の新しい定義を提供した。

    Link: https://arxiv.org/abs/2505.23496

  • 非決定的オートマトンに対する時間共有・深層展開型フィードフォワードネットワークによる構成的フレームワーク [cs.LG, cs.FL]目的:非決定的有限オートマトンを時間共有・深層展開型フィードフォワードネットワーク(TS-FFN)でシミュレーションするための形式的かつ構成的なフレームワーク
    • オートマトン理論は,計算可能性や計算資源の限界を理解する上で重要であり,計算機科学の基礎をなす。
    • 従来のニューラルネットワークによるオートマトンの実装は,解釈性や訓練可能性に課題が残されていた。
    • オートマトンの振る舞いを正確に再現し,解釈性と訓練可能性を向上させるニューラルネットワークの構造を確立すること。
    • すべての正則言語は,入力長に依存しないパラメータ数を持つ時間共有・深層展開型フィードフォワードネットワークによって正確に認識できることが証明された。
    • 本研究で提案する構成は,非決定的有限オートマトンとニューラルネットワークの間の構成的な等価性を示す。
    • 教師あり受容データを用いた勾配降下法による訓練により,これらのネットワークは目標とするオートマトンの振る舞いを学習可能であることが実験的に示された。

    Link: https://arxiv.org/abs/2505.24110

  • LLMを効果的なシーケンシャルレコメンダーにする要因:嗜好の強さと時間的文脈に関する研究 [cs.MM, eess.AS, cs.IR, cs.LG]目的:LLMによるシーケンシャルレコメンデーションにおける嗜好強度と時間的文脈の役割の解明
    • ユーザー行動履歴に基づくレコメンデーションは,人間が経験,嗜好,状況に応じて意思決定する様子を模倣する上で重要である。
    • 既存のLLMベースレコメンダーは,人間の柔軟な文脈依存型意思決定戦略を十分に再現できていない。
    • 人間の優先順位付けのメカニズムを模倣し,時間的な関連性と嗜好の度合いを考慮したレコメンデーションを実現する。
    • 提案手法RecPOは,嗜好階層と時間的シグナルに基づいた適応的な報酬マージンを用いることで,即時的な関連性の高いアイテムを優先する。
    • 実験結果から,RecPOは最先端のベースラインモデルを上回り,人間の意思決定の特徴である,迅速な満足,一貫した嗜好,文脈変化への対応を反映していることが示された。
    • RecPOは,構造化されたフィードバックと文脈的な遅延をモデル化することで,人間らしい優先順位付けをシーケンシャルレコメンデーションに組み込んでいる。

    Link: https://arxiv.org/abs/2506.02261

  • 両ドメインにおける頑健性:CLIPは頑健なテキストエンコーダを必要とする [cs.LG, cs.AI, cs.CV]目的:CLIPにおけるテキストエンコーダの頑健性向上
    • CLIPは画像とテキストの関連性を学習するため,様々な応用分野で利用されている。その信頼性が重要である。
    • 敵対的攻撃によりCLIPの埋め込みが変化し,その後のモデルの頑健性が損なわれる可能性がある。
    • テキストエンコーダの頑健性を高め,敵対的攻撃に対するCLIP全体の信頼性を向上させる。
    • 提案手法LEAFは,テキストドメインに対する効率的な敵対的ファインチューニング法であり,大規模CLIPモデルにも適用可能である。
    • LEAFを適用することで,テキストドメインにおけるゼロショット敵対的精度が大幅に向上する。
    • LEAFと頑健な画像エンコーダを組み合わせることで,テキスト画像生成モデルの生成品質が向上し,マルチモーダル検索タスクでの再現率も改善される。

    Link: https://arxiv.org/abs/2506.03355

  • 物理に制約されたニューロモルフィックネットワークを用いた地球観測の変化検出:学習不要AI [cs.LG]目的:地球観測の変化検出
    • 地球観測は,自然災害などの時限的なイベント管理に不可欠であり,迅速な情報提供が求められる。
    • 衛星から地上局へのデータ送信帯域幅が限られており,リアルタイム処理が困難である。
    • 衛星上でのデータ処理能力を高め,優先度の高いデータを選別することで,送信効率を向上させる。
    • 提案手法は,物理法則に基づいたニューロモルフィックネットワーク(PANN)を用いることで,変化を検出する。
    • PANNは学習を必要とせず,限られた計算資源で実装可能であり,衛星搭載に適している。
    • 既存のAIモデルと比較して,同等またはそれ以上の性能を各自然災害カテゴリーで示した。

    Link: https://arxiv.org/abs/2506.04285

  • NIMO:非線形かつ解釈可能なモデル [cs.LG, stat.ML]目的:モデルの予測における解釈可能性の需要
    • 深層学習の成功に伴い,モデルの予測根拠の説明が重要視されている。
    • 事後的な解釈手法は,精度が保証されず,ハイパーパラメータに依存する。
    • 解釈可能性と予測精度の両立を目指し,新たなモデルフレームワークを提案する。
    • NIMOは,線形回帰の解釈性とニューラルネットワークの表現力を組み合わせたフレームワークである。
    • パラメータ削減に基づく最適化手法により,ニューラルネットワークのパラメータと線形係数を効率的に最適化する。
    • 実験的に,NIMOは忠実で理解しやすい特徴効果を提供しつつ,良好な予測性能を維持することが示された。

    Link: https://arxiv.org/abs/2506.05059

  • AD-EE:自動運転における高速かつ信頼性の高い視覚言語モデルのための早期終了 [cs.CV, cs.AI]目的:自動運転における視覚言語モデルの高速化と信頼性向上
    • 自動運転技術の発展に伴い,知覚と意思決定を強化する視覚言語モデルの重要性が高まっている。
    • 視覚言語モデルは計算コストが高く,特に時間制約の厳しい自動運転環境では実用上の課題となっていた。
    • 不必要な推論を削減し,最適な終了層を特定することで,視覚言語モデルの効率的な運用を目指す。
    • 提案手法AD-EEは,大規模な自動運転データセット(Waymo,CODA)において,最大57.58%のレイテンシ削減を達成した。
    • オブジェクト検出精度も向上し,最大44%の改善が見られた。
    • Autoware Universeプラットフォーム上の実車走行実験においても,効果が確認された。

    Link: https://arxiv.org/abs/2506.05404

  • 動画LLMにおける追従性:ベンチマークと分析 [cs.CL, cs.AI, cs.CV]目的:動画LLMにおける追従性の評価と軽減
    • 現実世界への応用拡大に伴い,動画LLMの信頼性が重要視されている。
    • 動画LLMは,視覚的証拠と矛盾するユーザー入力に迎合する傾向がある。
    • 動画LLMにおける追従性の具体的な現れ方を評価し,軽減策を提案する。
    • VISEは,多様な質問形式,プロンプトバイアス,視覚的推論タスクを通じて,最先端の動画LLMの追従的行動を評価する初のベンチマークである。
    • VISEは,言語学的観点から追従性を分析することで,複数の追従性タイプと相互作用パターンを詳細に解析する。
    • 解釈可能なキーフレーム選択と推論時の内部表現への介入という,トレーニング不要の軽減策の有効性が示された。

    Link: https://arxiv.org/abs/2506.07180

  • CausalVLBench:大規模ビジョン言語モデルにおける視覚的因果推論のベンチマーク [cs.CL, cs.LG, cs.AI, cs.CL]目的:大規模ビジョン言語モデルにおける視覚的因果推論能力の評価
    • 大規模言語モデルの発展により,言語タスクの性能が飛躍的に向上。視覚情報を加えたLVLMは,新たな可能性を秘めている。
    • LVLMにおける因果推論能力の評価は十分ではなく,視覚的因果推論タスクへの応用は遅れている。
    • LVLMの視覚的因果推論能力を測るための包括的なベンチマークを開発し,その課題を明確にすること。
    • CausalVLBenchは,因果構造推論,介入ターゲット予測,反事実予測という3つの代表的なタスクで構成される。
    • 最先端のオープンソースLVLMを評価した結果,強みと弱点が明らかになった。
    • 本ベンチマークは,既存のビジョン言語モデルの限界を明らかにし,視覚的因果推論能力向上のための新たな方向性を示す。

    Link: https://arxiv.org/abs/2506.11034

  • ニューラルネットワークパラメータ空間における対称性 [cs.LG, cs.AI]目的:ニューラルネットワークパラメータ空間の対称性に関する調査
    • 深層学習モデルの性能向上には,モデルの複雑さと汎化性能の理解が不可欠である。
    • 深層学習モデルは過剰パラメータ化されており,冗長性が課題となっている。
    • パラメータ空間の対称性が学習と汎化に与える影響を明らかにすること。
    • パラメータ空間における対称性は,損失関数の形状や学習ダイナミクスに影響を及ぼすことが示唆されている。
    • 本調査は,既存の研究をまとめ,対称性と学習理論との関連性を明らかにした。
    • この分野における未解決の課題と今後の研究の方向性について考察した。

    Link: https://arxiv.org/abs/2506.13018

  • グラフ生成のためのBures-Wassersteinフローマッチング [cs.LG, cs.AI, stat.ML]目的:グラフ生成における確率経路の構築フレームワーク
    • 創薬や回路設計など,様々な分野でグラフ生成の重要性が高まっている。
    • 既存手法では,ノードとエッジを独立に扱うため,グラフの相互接続パターンが損なわれる。
    • グラフ要素の同時進化を保証する滑らかな確率経路を構築し,学習とサンプリングを改善する。
    • 本研究では,マルコフ確率場を用いてグラフを結合システムとして表現する理論的枠組みを提案した。
    • 提案手法BWFlowは,最適輸送距離を用いた確率経路を利用し,グラフ生成の性能向上と学習収束の改善を実現した。
    • プレーングラフおよび分子生成実験により,BWFlowの有効性が検証された。

    Link: https://arxiv.org/abs/2506.14020

  • エンコーダベース時系列基盤モデルのマルチスケールファインチューニング [cs.LG]目的:時系列基盤モデルのファインチューニング手法
    • 時系列データ分析の重要性が増しており,汎用的な基盤モデルの活用が期待される。
    • 既存のファインチューニング手法では,モデルの潜在能力を十分に引き出せていない場合がある。
    • マルチスケールモデリングを組み込むことで,ファインチューニングの性能向上を目指す。
    • 本研究で提案するMSFTは,様々なバックボーンモデルで既存手法を上回る性能を示した。
    • MSFTは,モデルの過学習を防ぎつつ,時系列予測の精度を向上させる効果が確認された。
    • マルチスケールモデリングが,時系列基盤モデルのファインチューニングにおいて重要であることが示唆された。

    Link: https://arxiv.org/abs/2506.14087

  • 汎用ソフト演算子とロバスト強化学習による離散構成的生成 [cs.RO, cs.LG]目的:有望な候補を絞り込むための生成手法の開発
    • 科学的発見において,膨大な候補群から有望なものを効率的に選ぶことは重要である。
    • 従来の強化学習は,多様性を重視するあまり,最適ではない候補を生成しやすい。
    • 真の評価とのずれに対するロバスト性を考慮し,より高品質な候補を生成すること。
    • 提案手法は,汎用的な演算子を用いてよりピークの尖った分布を学習する。
    • 強化学習における正則化を,プロキシ関数の不確実性に対するロバストネスとして解釈した。
    • 合成データおよび現実世界のタスクにおいて,ベースラインよりも高品質で多様な候補を特定できることを示した。

    Link: https://arxiv.org/abs/2506.17007

  • パーキンソン病における指叩きテストの運動特性のビデオベース定量化:解釈可能で粒度の高い手法 [cs.CV, cs.AI]目的:パーキンソン病の運動特性定量化
    • パーキンソン病の進行度評価と治療戦略最適化には,正確な運動機能の定量が不可欠である。
    • 従来の評価は主観的で評価者間のばらつきがあり,個々の運動特性の詳細な把握が困難である。
    • ビデオベースの定量化により,客観的かつ詳細な運動特性評価を実現し,病状把握に貢献する。
    • 提案手法は,ビデオから得られる特徴量が,パーキンソン病における運動機能障害の4つの要素と対応することを示した。
    • さらに,運動シーケンス効果や停滞・中断といった要素において,より詳細な区別を可能にした。
    • MDS-UPDRS指叩きスコア予測において,既存手法よりも高い精度を達成し,解釈可能な定量化を提供した。

    Link: https://arxiv.org/abs/2506.18925

  • LLMにおける公平性の定量化:セマンティックおよび統計的視点 [cs.CL, cs.AI, cs.CY]目的:大規模言語モデルにおけるグループレベルの公平性評価
    • LLMは社会に浸透しつつあり,その公平性は倫理的・社会的に重要な課題である。
    • 従来の評価手法では,長文応答における潜在的な偏りやLLM出力の変動を捉えきれない。
    • 応答の意味内容に着目し,グループ間でのわずかなセマンティックな差異を検出することで公平性を評価する。
    • FiSCoは,応答を意味的に明確な主張に分解し,その一貫性を検証することで,従来の評価手法よりも詳細な偏りを検出する。
    • 提案手法は,統計的仮説検定を用いてグループ間およびグループ内の類似性を比較し,偏りの検出をよりロバストに行う。
    • 合成データおよび人間アノテーションデータを用いた実験により,FiSCoが既存の評価指標よりも信頼性が高いことが示された。

    Link: https://arxiv.org/abs/2506.19028

  • Mem4Nav:階層的空間認知LSTMシステムによる都市環境における視覚と言語ナビゲーションの強化 [cs.CL, cs.CV, cs.AI, cs.CL]目的:大規模都市環境における視覚と言語ナビゲーションにおける性能向上
    • 都市環境でのナビゲーションは,自動運転やロボット工学において重要な課題であり,実用化が期待されている。
    • 既存手法では,記憶容量の制約や空間推論の能力不足から,複雑な環境での長期的なナビゲーションが困難である。
    • 本研究は,階層的な空間記憶システムを導入し,ナビゲーションエージェントの空間認識能力と記憶能力を向上させることを目指す。
    • Mem4Navは,既存のVLNバックボーンに組み込むことができ,Task Completion,SPD,nDTWといった評価指標で7~13ppの改善が見られた。
    • 疎な八分木とセマンティックトポロジーグラフを組み合わせた階層的マップと,デュアルメモリモジュールが性能向上に不可欠であることが示された。
    • 短期記憶と長期記憶を効果的に活用することで,動的な環境への適応能力と過去の経験の再現性が向上している。

    Link: https://arxiv.org/abs/2506.19433

  • EFRame:探索・フィルタ・リプレイ強化学習フレームワークによるより深い推論 [cs.RO, cs.LG, cs.AI]目的:大規模言語モデルにおけるより深い推論能力の向上
    • 大規模言語モデルへの強化学習の応用は,推論能力の向上に大きく貢献している。
    • GRPOは効率的だが,探索不足と訓練の不安定さにより,複雑な推論タスクでは限界がある。
    • EFRameは,GRPOの探索・安定性・効率性を向上させ,複雑な推論タスクを解決することを目指す。
    • EFRameは,探索・フィルタ・リプレイの3つの側面からGRPOを拡張し,安定性と収束性を高めた。
    • Geometry3Kにおいて,GRPOと比較して相対的に37.9%の性能向上を達成した。
    • サンプル分類やエントロピー制御により,よりロバストな推論能力を実現することを示した。

    Link: https://arxiv.org/abs/2506.22200

  • より深層の予測符号化ニューラルネットワークの学習に向けて [cs.LG]目的:深層予測符号化ニューラルネットワークの学習手法
    • 脳の情報処理メカニズム解明に貢献し,効率的なAIモデル開発の可能性を秘めている。
    • 深層化すると性能が著しく低下し,複雑なタスクへの応用が困難になっている。
    • 層間誤差の不均衡と,深層での予測の有効性の低さを解消し,深層学習を可能にする。
    • 提案手法は,誤差分布のバランス調整と誤差累積の抑制により,深層モデルの性能を向上させる。
    • 残差接続におけるエネルギー伝播を制御する補助ニューロンの導入も,性能向上に貢献する。
    • 本手法は,ResNet等の深層モデルと同等の性能を実現し,予測符号化の応用範囲を広げる。

    Link: https://arxiv.org/abs/2506.23800

  • LLMのポストトレーニングにおける覗き見なしチューニング:証明可能なプライバシーと汎化限界 [cs.LG, cs.AI, cs.CL, cs.CR]目的:LLMのポストトレーニングにおけるプライバシー保護と汎化性能の理論的保証
    • 深層学習は効率的な学習を可能にするが,勾配情報の漏洩によるプライバシー侵害のリスクが存在する。
    • 勾配情報に頼らないブラックボックス最適化は代替手段となり得るが,スケーラビリティや計算コストに課題がある。
    • 情報ボトルネックを導入し,データ圧縮によりプライバシー保護と汎化性能を両立する手法を提案する。
    • 提案手法BBoxERは,わずかな反復で性能を向上させ,推論データセットで良好な汎化性能を示す。
    • BBoxERは,メンバーシップ推論攻撃に対して堅牢であり,プライバシー保護に貢献する。
    • 勾配ベース最適化の補完として機能し,制限された環境やプライバシー重視の環境への展開に適する。

    Link: https://arxiv.org/abs/2507.01752

  • 創薬におけるモジュール型タスク実行のための大規模言語モデルエージェント [cs.LG, cs.CL, q-bio.BM]目的:創薬初期段階の計算パイプラインにおける主要なタスクの自動化と合理化
    • 創薬は,疾病治療に不可欠であり,効率的な薬剤開発が求められている。
    • 従来の創薬プロセスは,時間とコストがかかり,効率が低いという課題がある。
    • AIを活用し,創薬プロセスを加速させ,より効率的に薬剤候補を探索すること。
    • 本研究では,大規模言語モデルを搭載したモジュール型フレームワークを開発し,創薬初期段階の主要なタスクを自動化・合理化することに成功した。
    • BCL-2を標的としたケーススタディでは,関連するバイオ分子情報を自律的に取得し,標準的なLLMよりも高い文脈精度でメカニズムに関する質問に答えることができた。
    • また,分子の反復的な改良により,QED値が0.6を超える分子数が増加し,創薬における有望な分子のスクリーニングと優先順位付けを支援することが示された。

    Link: https://arxiv.org/abs/2507.02925

  • ニューラルネットワークのブラックボックスの解明:動的極大写像 [cs.MS, physics.plasm-ph, cs.LG, stat.ML]目的:ニューラルネットワークの汎化能力のメカニズム解明
    • 深層学習の発展に伴い,その予測根拠の理解が不可欠となっている
    • ニューラルネットワークの内部構造は複雑で,解釈が困難である
    • ニューラルネットワークの汎化能力を,極大写像の観点から説明する
    • ニューラルネットワークはブラックボックスではないことが示された
    • モデル関数の極値への動的写像が,汎化能力の根源であることが示唆された
    • ニューラルネットワークのパラメータ数と極値の数は正の相関があることが証明された

    Link: https://arxiv.org/abs/2507.03885

  • グラフ対照学習とラベル再均衡によるAMS回路における転移可能な寄生推定 [cs.LG, cs.SY, eess.SY]目的:AMS回路の転移可能な回路表現の学習
    • AMS回路設計における高性能化には,正確な寄生パラメータ推定が不可欠である。
    • 回路データ不足,ラベル分布の不均衡,回路実装の多様性が,強固な表現学習の課題となる。
    • 異種回路グラフ間での転移性を向上させ,寄生パラメータ推定の精度向上を目指す。
    • 提案手法CircuitGCLは,表現の散布とラベル再均衡を統合し,回路グラフ間の転移性を強化する。
    • TSMC 28nm AMS設計を用いた実験で,エッジレベルおよびノードレベルのタスクにおいて最先端手法を上回る性能を示した。
    • エッジ回帰では$R^2$が33.64%~44.20%改善,ノード分類ではF1スコアが0.9倍~2.1倍向上した。

    Link: https://arxiv.org/abs/2507.06535

  • AirScape:運動制御可能な空中生成世界モデル [cs.RO, cs.AI]目的:三次元空間における自身の運動意図の結果予測
    • 具現化された知能において,空間的な想像能力は重要な課題である。
    • 既存モデルは,六自由度空中エージェントに対応した世界モデルが不足している。
    • 運動意図によって制御され,物理的制約に従う世界モデルの構築を試みる。
    • AirScapeは,既存の基盤モデルと比較して,3次元空間想像能力において顕著な性能向上を示した。
    • 特に,運動の整合性を評価する指標において,50%以上の改善が見られた。
    • 11kの動画-意図ペアからなるデータセットを構築し,空中世界モデルの学習・テストに利用した。

    Link: https://arxiv.org/abs/2507.08885

  • 大規模言語モデルの効率的な線形化フレームワーク Lizard [cs.CL, cs.LG]目的:大規模言語モデルの線形化による計算・メモリ効率の向上
    • Transformerモデルは自然言語処理の基盤だが,長文処理に計算資源が必要となる。
    • Transformerの自己注意機構は系列長に対して二乗の計算量となり,ボトルネックとなる。
    • Lizardは適応的なメモリ制御により,この計算量問題を解決することを目指す。
    • Lizardは,Transformerモデルを準二乗の複雑度で近似し,性能劣化を最小限に抑える。
    • 既存の線形化手法と比較して,MMLUベンチマークで最大24.5ポイント高い性能を示す。
    • ハードウェアを意識したアルゴリズムにより,訓練時の数値不安定性を解決し,高速化を実現。

    Link: https://arxiv.org/abs/2507.09025

  • 機械学習による情報集約ネットワーク [cs.LG, cs.GT, econ.TH]目的:機械学習エージェント間の情報集約の実現可能性
    • 分散学習は,データが分散している場合に有効であり,大規模データセットの処理に適している。
    • 各エージェントが利用できる特徴量が限られている場合,全体として最適な予測は困難となる。
    • DAG構造における情報伝達によって,分散データから全特徴量を利用した場合と同等の性能を目指す。
    • DAGの深さが情報集約の鍵となるパラメータであり,十分な深さを持つパスで情報集約が可能となる。
    • 特定の分布やネットワーク構造(ハブ&スポーク型)では,DAGのサイズに関わらず情報集約が困難となる場合がある。
    • 理論的結果を実験によって検証し,情報集約の条件と限界を明らかにした。

    Link: https://arxiv.org/abs/2507.09683

  • 新生児における出生直後の胸部X線写真を用いた慢性肺疾患の予測:漸進的レイヤー固定によるサイトレベルでの微調整 [cs.RO, cs.NI, cs.CV, cs.AI, cs.LG]目的:極低体重児における慢性肺疾患の発症予測の精度向上
    • 慢性肺疾患は,極低体重児に多く見られ,長期的な呼吸器合併症を引き起こすため,早期の予測が重要。
    • 従来の臨床指標では予測が難しく,過剰な治療を避けるための早期予測手法が求められている。
    • 出生直後の胸部X線写真から,深層学習を用いて慢性肺疾患の発症を予測し,臨床現場での活用を目指す。
    • ドメイン特化型事前学習が,ImageNet初期化よりも有意に高い予測性能を示した(p=0.031)。
    • 漸進的レイヤー固定,線形プローブ,CutMixを用いたモデルは,中度/重度の慢性肺疾患の予測において,AUROC 0.78,バランスアキュラシー 0.69,F1スコア 0.67を達成した。
    • 本研究は,日常的な胸部X線写真から慢性肺疾患の予測が可能であり,サイトレベルでの導入や連合学習への応用が期待できる。

    Link: https://arxiv.org/abs/2507.12269

  • ROC-n-reroll:検証の不完全性がテスト時スケーリングに及ぼす影響 [cs.LG, stat.ML]目的:テスト時スケーリングにおける検証の不完全性の影響の理論的解明
    • 言語モデルの性能向上は,AI研究における重要な課題であり,特に推論時の計算資源の有効活用が求められている。
    • 従来のテスト時スケーリング手法では,検証の精度が性能に与える影響が不明であり,理論的な裏付けが不足していた。
    • 検証のROC曲線幾何学に基づき,テスト時スケーリングの性能を正確に予測する理論的枠組みを構築し,実験で検証すること。
    • リジェクションサンプリングは,固定計算量下でBest-of-Nよりも優れているが,無限計算量下では両者は同じ精度に収束する。
    • 低計算量環境での観測から,高計算量環境での性能を予測することは一般的に困難である。
    • QwenおよびLLamaモデルを用いた実験により,理論的知見が裏付けられた。

    Link: https://arxiv.org/abs/2507.12399

  • LLMによって書かれたウェブサイトを閲覧したか? [cs.NI, cs.AI, cs.CL, cs.IR]目的:LLMによるウェブコンテンツの識別
    • ウェブ情報の信頼性確保が重要である。LLM生成コンテンツの増加に伴い,その品質管理が課題となっている。
    • LLM生成コンテンツの信頼性・倫理的課題,およびウェブサイトでの開示不足が問題となっている。
    • ウェブサイト全体を分類することで,LLM生成コンテンツを正確に識別し,その影響を評価すること。
    • 提案手法は,複数のプロットテキストを基にウェブサイトを分類し,高い精度を実現した。
    • 構築したデータセットで100%の精度を達成し,実際の検索結果やCommon CrawlデータでもLLM生成サイトを検出した。
    • LLM生成サイトの普及と検索順位の上昇が確認され,ウェブエコシステムへの影響が懸念される。

    Link: https://arxiv.org/abs/2507.13933

  • テスト時に人間によるガイダンスを受けながら学習する自己改善エージェントの実現 [cs.LG, cs.AI]目的:テスト時における自己改善エージェントの学習能力向上
    • 法規制遵守やリスク管理など,変化の激しい環境下でのLLMエージェント活用が重要視されている。
    • オフラインでのファインチューニングやプロンプティングでは,運用中の知識変化への対応が困難である。
    • 本研究は,テスト時に継続的にドメイン知識を更新し,適応性を高めることを目指す。
    • 提案手法ARIAは,自己対話を通じて不確実性を評価し,人間からのガイダンスを求めることで知識ギャップを埋める。
    • ARIAは,タイムスタンプ付きの知識リポジトリを更新し,矛盾や古い情報を検出し,解決することで知識の一貫性を保つ。
    • TikTok Payでの実運用において,既存手法と比較して適応性と精度が大幅に向上することが確認された。

    Link: https://arxiv.org/abs/2507.17131

  • 深層学習における協調的な平坦最適解回復のための通信効率の良い分散学習 [cs.LG, cs.DC]目的:深層学習における分散並列学習の通信効率とモデル性能のトレードオフ改善
    • 深層学習の発展は,大規模データと計算資源を必要とするため,分散学習が不可欠である。
    • 分散学習では,通信コストがボトルネックとなりやすく,効率的な通信戦略が求められる。
    • 汎化性能向上のために,損失関数の平坦な領域(平坦最適解)を探求することを目指す。
    • 提案手法DPPFは,他の通信効率の良い手法よりも優れた性能を示し,汎化性能を向上させる。
    • DPPFは,損失関数の地形を可視化することで,より平坦な最適解を見つける能力を裏付けている。
    • 理論的に,DPPFがワーカーを平坦な領域に導き,その幅がプッシュとプル力の相互作用によって制御されることが示されている。

    Link: https://arxiv.org/abs/2507.20424

  • 時系列異常検知のための三分岐パッチワイズ大規模言語モデルフレームワーク TriP-LLM [cs.LG, cs.AI]目的:時系列データの異常検知
    • IoTやスマート製造の普及により,時系列データ量は飛躍的に増加しており,その分析が重要性を増している。
    • 従来の統計的手法は,大規模で多様な時系列データの複雑さに対応しきれないという課題がある。
    • 大規模言語モデルを活用し,時系列データの局所的・全体的な特徴を捉え,高精度な異常検知を実現することを目指す。
    • 提案手法TriP-LLMは,既存の最先端手法と比較して,複数の公開データセットで一貫して高い検知能力を示した。
    • LLMの活用が全体のアーキテクチャに大きく貢献することが,詳細な実験により確認された。
    • TriP-LLMは,チャンネル独立性(CI)パッチ処理を用いる既存手法と比較して,メモリ消費量を大幅に削減し,GPUメモリ制約のある環境での利用に適している。

    Link: https://arxiv.org/abs/2508.00047

  • ECGを用いた洗練された解釈可能なデジタル表現型作成のためのプロトタイプ学習 [cs.LG]目的:ECGデータから,解釈可能なデジタル表現型の作成
    • 心電図(ECG)解析は,心疾患の診断や予後予測において不可欠であり,医療現場での活用が期待される。
    • 従来のECG解析手法では,複雑な信号から有用な情報を抽出することが難しく,解釈性に課題が残る。
    • 本研究は,ECGデータから臨床的に意味のある生理学的特徴を捉え,解釈可能なデジタル表現型を構築することを目的とする。
    • プロトタイプベースのモデルは,学習データに由来する代表的な信号パターンとの比較により解釈可能な予測を実現する。
    • ECG分類のみで学習したプロトタイプは,外部データベースにおいて病院退院診断(phecode)と有意な関連性を示す。
    • プロトタイプは,心房細動(AUC 0.89)や心不全(AUC 0.91)などの多様な疾患に対して高い予測性能を示し,敗血症や腎疾患といった非心臓疾患にもシグナルを示す。

    Link: https://arxiv.org/abs/2508.01521

  • グラフ経路問題に対する視覚拡張非対称グループ選好最適化 (VAGPO) [cs.LG, cs.AI]目的:グラフ経路問題における最適経路探索手法
    • ウェブネットワークにおいて効率的なデータ伝送・コンテンツ配信に不可欠な技術分野である。
    • 既存のデータ駆動型最適化手法は,学習効率や大規模インスタンスへの汎化性能に課題がある。
    • 学習効率と拡張性を高め,大規模インスタンスにも対応可能な経路最適化手法を確立する。
    • 提案手法VAGPOは,ResNetベースの視覚エンコーディングとTransformerによる時系列モデリングを活用し,空間構造と時間的依存性を捉える。
    • 非対称グループ選好最適化戦略により,一般的な方策勾配法と比較して収束が大幅に加速される。
    • 実験結果から,VAGPOは生成されたTSP/CVRPインスタンスや実データセットにおいて,高い性能を示すことが確認された。

    Link: https://arxiv.org/abs/2508.01774

  • 言語モデルによる誘導を用いた強化学習:定量的取引への応用 [cs.LG, cs.CL, q-fin.TR]目的:定量的取引における強化学習の性能向上
    • 金融市場は複雑であり,高度な意思決定が求められるため,効率的な取引戦略が重要である。
    • 従来の強化学習は,短期的な視点に偏り,戦略の解釈が困難な場合がある。
    • 言語モデルを活用することで,強化学習エージェントに長期的な戦略を提供し,意思決定の透明性を高める。
    • 言語モデルが生成した取引戦略は,専門家によるレビューにおいて経済的な合理性が認められた。
    • 言語モデルによる誘導は,標準的な強化学習と比較して,収益性とリスク指標の両方を改善した。
    • シャープ比率および最大ドローダウンの評価において,誘導されたエージェントが優位性を示した。

    Link: https://arxiv.org/abs/2508.02366

  • 学習率とバッチサイズスケジュールによるSGDMの高速化:リアプノフ関数に基づく解析 [eess.SY, cs.SY, cs.LG]目的:確率的勾配降下法(SGDM)の収束性
    • 深層学習の性能向上には,最適化アルゴリズムの改良が不可欠である。
    • 固定されたハイパーパラメータでは,十分な収束速度が得られない場合がある。
    • 動的な学習率とバッチサイズスケジュールによる収束性の解析と改善。
    • 提案手法では,単純化されたリアプノフ関数を用いてSGDMの収束性を解析した。
    • バッチサイズを増加させることで,期待される勾配ノルムの収束が保証されることが示された。
    • バッチサイズと学習率を同時に増加させる戦略が最も高速な減衰を示すことが理論的及び実験的に確認された。

    Link: https://arxiv.org/abs/2508.03105

  • VisionTS++:継続事前学習されたビジョンバックボーンを用いたクロスモーダル時系列基礎モデル [cs.CV, cs.LG]目的:時系列予測における,画像再構成による時系列基礎モデルの構築
    • 時系列データは,金融,医療,環境など多様な分野で不可欠であり,正確な予測が求められる。
    • 画像モデルを時系列データへ転移する際,データ形式や多変量予測,確率予測のずれが課題となる。
    • 画像モデルの継続的な事前学習により,これらのずれを埋め,汎用的な時系列基礎モデルの実現を目指す。
    • 提案手法VisionTS++は,大規模時系列データを用いたビジョンモデルの継続的な事前学習により,性能向上を実現した。
    • 特に,高品質な系列をフィルタリングすることで,事前学習の安定化とモダリティギャップの軽減に成功した。
    • 実験結果から,VisionTS++は既存の時系列基礎モデルを大きく上回り,様々なドメインで最先端の性能を示した。

    Link: https://arxiv.org/abs/2508.04379

  • 探索を通じた推論:堅牢な関数呼び出しのための強化学習フレームワーク [cs.LG, cs.AI, cs.CL]目的:大規模言語モデルにおける関数呼び出しの堅牢な推論能力の向上
    • 言語モデルの能力向上は,様々なタスクの自動化を可能にし,社会に大きな変革をもたらす可能性を秘めている。
    • 従来の強化学習は探索効率が悪く,複雑な推論経路の学習が困難である。また,教師あり学習では堅牢な推論能力が獲得できない。
    • 多様な推論戦略を促し,効率的な探索を実現することで,より正確で構造化されたツール呼び出しパターンの発見を目指す。
    • 提案手法EGPOは,Chain-of-Thoughtの探索を促進し,より多様な推論戦略を学習することを可能にした。
    • EGPOは,Berkeley Function Calling Leaderboardにおいて,同規模のモデルを凌駕し,GPT-4oやGemini-2.5といった強力な競合モデルを上回る性能を達成した。
    • 厳密な二値報酬信号とクリッピング機構によるエントロピーボーナスの制約が,最適化方向の維持に貢献している。

    Link: https://arxiv.org/abs/2508.05118

  • AMFT:最適な模倣・探索バランスをメタ学習により整合する [cs.CL, cs.LG, cs.AI, cs.CL, cs.CV]目的:LLMの推論能力整合のための最適な模倣・探索バランス
    • LLMの性能向上は,多様なタスクへの適応能力に依存する。
    • 従来のSFTとRLの組み合わせは,破滅的忘却やバランス調整の難しさがある。
    • AMFTは,SFTとRLのバランスを自動的に最適化し,LLMの整合性を高める。
    • AMFTは,数学的推論,抽象的視覚推論,視覚言語ナビゲーションといった様々なベンチマークで最先端の性能を達成した。
    • AMFTは,分布外タスクにおいても優れた汎化能力を示すことが確認された。
    • メタ学習コントローラーがAMFTの安定性,サンプル効率,性能に不可欠であることが示された。

    Link: https://arxiv.org/abs/2508.06944