arXiv雑要約

AI - 2025/10/14 公開

  • EA4LLM:進化アルゴリズムによる大規模言語モデルの勾配不要最適化 [cs.AI]目的:大規模言語モデルの最適化手法
    • 近年の自然言語処理の進歩を支える大規模言語モデルの重要性が高まっている。
    • 勾配ベースの最適化手法は高性能だが,高いハードウェア要件が課題となっている。
    • 勾配計算不要な進化アルゴリズムによる最適化で,リソース制約を克服することを目指す。
    • 進化アルゴリズム(EA4LLM)を用いて,10億パラメータの言語モデルをゼロから学習させることに成功した。
    • 従来の勾配ベース最適化が必須という前提を覆し,新たな可能性を示した。
    • 計算コストの削減により,より多くの研究者が深層学習に参入できる環境整備に貢献する。

    Link: https://arxiv.org/abs/2510.10603

  • FusionGen:特徴融合に基づく少数の脳波データ生成 [cs.LG]目的:脳波データの生成手法
    • 脳波は医療リハビリや認知状態評価への応用が期待され,脳と外部デバイス間の直接通信手段として重要である。
    • 脳波データはデータ不足と被験者間変動が大きく,実用的な脳波デコーディングモデルの汎化性能を阻害する。
    • 少ないデータでも汎化性能を向上させ,脳波デコーディングモデルの実用化を促進すること。
    • 提案手法FusionGenは,分散表現学習と特徴融合に基づき,多様性と学習可能性を両立した脳波データ生成を実現した。
    • 既存のデータ拡張手法と比較して,複数の公開脳波データセットでFusionGenが有意に高い分類精度を達成した。
    • 特徴マッチング融合モジュールと軽量な特徴抽出・再構成パイプラインにより,データ制約下での学習を可能にした。

    Link: https://arxiv.org/abs/2510.10604

  • Lipschitz空間における未知の価値関数の予算配分 [cs.LG]目的:未知の価値関数を持つ中間モデルの探索空間に対する予算の最適配分
    • 機械学習モデル構築において,多数の中間モデル評価は不可避であり,探索戦略に大きく影響する。
    • 初期評価は不正確な場合が多く,限られた予算内で最適なモデルを見つけることが課題である。
    • 未知の価値関数を持つ空間における予算配分問題を形式化し,効率的な探索を目指す。
    • 本研究では,Lipschitz空間における予算配分問題を一般化し,理論的な枠組みを提示した。
    • 提案手法は,限られた予算内でより多くの情報が得られるモデルに重点的に予算を割り当てる。
    • これにより,未知の価値関数を持つ中間モデル空間の効率的な探索が可能となる。

    Link: https://arxiv.org/abs/2510.10605

  • 大規模言語モデルにおける時間的減衰と注意を用いた動的トピック進化 [cs.CL, cs.AI]目的:大規模言語モデルを用いた動的トピック進化のモデリング手法
    • テキストデータの意味構造を理解する上で,トピックモデリングは重要な役割を果たす。
    • 既存手法では,時間経過に伴うトピックの変化を捉えることが困難であった。
    • 時間経過に伴うトピックの生成,拡大,衰退を効果的に捉える手法を開発する。
    • 本研究では,時間的減衰関数と注意機構を導入することで,トピックの重要度を時間的に調整することを可能にした。
    • 提案手法は,意味モデリングと時間的一貫性を同時に最適化し,多様性とスムーズさを実現した。
    • 実験結果から,提案手法は既存モデルよりもトピックの生成,拡大,衰退をより正確に捉えることが示された。

    Link: https://arxiv.org/abs/2510.10613

  • 株式市場予測のためのエンコーダー・デコーダー敵対的生成ネットワークモデル [cs.HC, cs.LG, math.OC]目的:株式市場予測の精度向上
    • 金融市場は変動が激しく,予測は困難である。正確な予測は投資戦略に不可欠。
    • GANは表現力に優れる一方,学習の不安定性や時間的相関の捉えにくさなどの課題がある。
    • GANの課題を克服し,株式市場予測における安定性と精度を向上させる。
    • 提案手法EDGANは,残差結合やウィンドウ機構により,予測精度と学習安定性を改善した。
    • 多様な株式データを用いた実験で,従来のGANモデルよりも優れた予測性能と収束安定性を示した。
    • 特に変動の大きい市場環境下においても,EDGANは安定した性能を発揮した。

    Link: https://arxiv.org/abs/2510.10617

  • MIDIからギタータブ譜への変換に関する機械学習アプローチ [cs.CL, cs.SD, cs.AI]目的:MIDIデータからのギタータブ譜の生成
    • 音楽制作や学習において,ギタータブ譜は演奏の補助,楽曲分析,教育に不可欠である。
    • 既存の手法では,ギターの演奏特性を考慮した自然なタブ譜の生成が困難である。
    • 機械学習を用いて,ギターの演奏特性を考慮した,より自然なタブ譜生成を試みる。
    • 機械学習によるタブ譜生成において,データの拡張学習がパフォーマンス向上に寄与することが示された。
    • 単純な単音のケースにおいても,拡張データでの学習が有効であることが確認された。
    • 本研究の結果は,今後の改善点を示唆しており,より高度なタブ譜生成への道筋を提供する。

    Link: https://arxiv.org/abs/2510.10619

  • DCP:動的コンテキスト並列化による長文コンテキスト学習における入力の動的変化への対処 [cs.DC, cs.LG]目的:長文コンテキスト学習における入力の動的変化への対処
    • 生成AIモデルの規模拡大に伴い,長文コンテキストの処理が重要となっている。
    • 既存のコンテキスト並列化手法は静的な設定に依存し,入力データの変動に対応できない。
    • データと計算を細かく分割し動的に割り当てることで,通信量と負荷分散を改善する。
    • DCPは,因果マスク下でアテンションを1.19倍~2.45倍,スパースアテンションパターン下で2.15倍~3.77倍に高速化する。
    • 因果マスク下ではエンドツーエンドの学習速度が最大0.94倍~1.16倍向上する。
    • スパースマスク下ではエンドツーエンドの学習速度が最大1.00倍~1.46倍向上する。

    Link: https://arxiv.org/abs/2510.10620

  • SDG-L:セミアートメトリック深部ガウス過程に基づくバッテリー容量予測フレームワーク [cs.LG]目的:バッテリー容量予測の精度向上
    • エネルギー供給においてリチウムイオンバッテリーの利用が拡大しており,その重要性は増している。
    • バッテリーの充放電サイクル数の増加に伴う容量低下が耐久性の脅威となっており,正確な予測が課題である。
    • バッテリーの状態情報を活用し,充放電プロセス中のプロファイリング情報をより有効に利用することで,予測精度を高める。
    • 提案手法SDG-Lは,NASAデータセットを用いた実験において,平均二乗誤差(MSE)が1.2%という良好な結果を得た。
    • 既存手法と比較して,SDG-Lはより優れた性能を示し,アブレーションスタディによりフレームワークの有効性を検証した。
    • LSTM特徴抽出器を導入することで,時系列バッテリー状態データのモデリングを改善し,予測精度向上に貢献している。

    Link: https://arxiv.org/abs/2510.10621

  • ImpMIA:現実的なシナリオ下における暗黙的バイアスを活用したメンバーシップ推論攻撃 [cs.AR, cs.CE, cs.LG, cs.CR, cs.CV]目的:メンバーシップ推論攻撃における暗黙的バイアスの活用
    • 機械学習モデルのプライバシー保護は重要であり,学習データが推測されるリスクを軽減する必要がある。
    • 既存のメンバーシップ推論攻撃は,現実世界では成立しない仮定に依存している場合が多い。
    • モデルの重みへのアクセスに基づき,より現実的な条件下で有効なメンバーシップ推論攻撃を実現すること。
    • 本研究では,ニューラルネットワークの暗黙的バイアスを活用するImpMIAを提案し,参照モデルを必要としない。
    • ImpMIAは,KKT条件を用いて学習データに含まれるサンプルを特定し,その勾配を用いてモデルパラメータを再構成する。
    • 実験結果から,ImpMIAは現実的な設定下で,既存の攻撃手法と比較して最先端の性能を発揮することが示された。

    Link: https://arxiv.org/abs/2510.10625

  • GraphTARIF:拡張されたランクと改善された注意による線形グラフTransformer [cs.CL, cs.CV, cs.LG]目的:ノード表現の分離可能性向上
    • グラフ構造データは様々な分野で重要であり,その分析には高性能なモデルが求められる。
    • 従来のグラフTransformerは計算コストが高く,大規模グラフへの適用が困難である。
    • 線形注意機構の表現力低下と注意分布の均一性を改善し,分類性能を向上させる。
    • 提案手法は,ゲート付きローカルグラフネットワークによって注意マップのランクを向上させる。
    • 学習可能な対数べき関数を導入し,注意スコアのエン​​トロピーを減少させ,注意の集中度を高める。
    • ホモフィリックおよびヘテロフィリックなグラフベンチマークにおいて,高い性能を維持しつつ,線形注意のスケーラビリティを保っている。

    Link: https://arxiv.org/abs/2510.10631

  • マルチエージェント強化学習と意味的融合による協調的なテキスト画像生成 [cs.AI]目的:マルチモーダルテキスト画像生成における意味的整合性とプロフェッショナルレベルの詳細の維持
    • 多様な視覚領域における高品質な画像生成は,人間と機械のコミュニケーションにおいて重要である。
    • 既存手法では,テキストと画像の意味的整合性を保ちながら,多様な視覚領域で詳細な画像を生成することが困難である。
    • 専門知識を持つエージェント間の協調により,意味的整合性と詳細度の高い画像生成を実現することを試みる。
    • 本研究では,テキストの語彙量を大幅に増加(1614%増)させるとともに,ROUGE-1スコアを大幅に削減(69.7%減)することに成功した。
    • Transformerベースの融合戦略が最高の複合スコア(0.521)を達成したが,安定性の問題が残る。
    • マルチモーダルアンサンブルは適度な一貫性を示したが(0.444~0.481),クロスモーダル意味的根拠付けの課題は依然として存在する。

    Link: https://arxiv.org/abs/2510.10633

  • ProteinAE:構造エンコーディングのためのタンパク質拡散オートエンコーダ [cs.LG]目的:タンパク質構造の表現
    • タンパク質科学の発展には,効果的なタンパク質構造の表現が不可欠である。
    • 既存手法は,SE(3)多様体の複雑さ,離散的なトークン化,複数の学習目的などに課題がある。
    • タンパク質構造を効率的に圧縮し,高品質な構造生成を実現すること。
    • ProteinAEは,既存のオートエンコーダを上回る再構成品質を達成した。
    • 生成された潜在空間は,明示的な等変性(equivariance)を必要としない潜在拡散モデルの基盤として機能する。
    • ProteinAEは,構造ベースの手法に匹敵し,既存の潜在空間ベースの手法を大幅に上回る効率的な高品質な構造生成を可能にする。

    Link: https://arxiv.org/abs/2510.10634

  • 学生の学習満足度予測のための自動区分線形回帰 [cs.RO, cs.AI, cs.LG]目的:学生の学習満足度予測
    • 学習満足度は教育効果の重要な指標であり,学生の学習意欲や成果に大きく影響する。
    • 従来の学習満足度分析では,解釈可能性のある機械学習手法の活用が十分ではなかった。
    • 本研究は,学習満足度予測において解釈性と予測精度の両立を目指す。
    • 自動区分線形回帰(APLR)は,他の最先端手法と比較して,学習満足度の予測において最も適合度が高いことが示された。
    • 時間管理能力,集中力,同級生への貢献,オフライン授業への参加が学習満足度に正の影響を与えることが明らかになった。
    • 創造的な活動への参加は,学習満足度を向上させないという意外な結果が得られた。教師は,生徒のプロファイルに基づいて指導を個別化できる。

    Link: https://arxiv.org/abs/2510.10639

  • ドイツにおける需要に基づいた病院配置予測のための公平性考慮型地理空間AI [cs.AI]目的:ドイツにおける2030年までの需要予測と公平な病院計画
    • 人口動態の変化に対応した医療資源の最適配置は,国民の健康と福祉を維持する上で重要である。
    • 医療資源の偏在や,将来の需要予測の不確実性が,公平な医療提供の妨げとなっている。
    • 地域間の公平性を考慮しつつ,将来の医療需要に対応できる病院配置を支援する。
    • EA-GeoAIフレームワークは,人口統計,高齢化,インフラのバランスに基づいた公平性指標を統合する。
    • Agentic AIオプティマイザーは,予算と移動時間を考慮し,未充足ニーズを最小化するベッド数と新施設候補地を特定する。
    • 政策決定者への具体的な提言を通じて,地理空間AI,長期予測,公平性測定の架け橋となる。

    Link: https://arxiv.org/abs/2510.10640

  • UniCoD:統一された連続・離散表現学習によるロボットポリシーの強化 [cs.RO, cs.AI]目的:汎用的なロボットポリシーの獲得
    • ロボット工学において,多様なタスクに対応可能な汎用的なポリシーの構築は重要な課題である。
    • 既存手法では,視覚言語理解モデルや生成モデルのいずれか一方に依存しており,両方の強みを活かせていない。
    • 視覚的特徴の動的なモデル化と,予測表現から行動へのマッピング学習を通じて,この問題を解決する。
    • UniCoDは,100万件以上のインターネット規模の操作動画で事前学習を行い,高次元視覚特徴を動的にモデル化する能力を獲得した。
    • ロボットによるデータ収集でファインチューニングを行うことで,予測表現から行動トークンへのマッピング学習を可能にした。
    • シミュレーション環境と現実世界の分布外タスクにおいて,ベースライン手法をそれぞれ9%,12%上回る性能を示した。

    Link: https://arxiv.org/abs/2510.10642

  • 移動需要システムのためのLLM誘導目的進化による階層的最適化 [cs.AI]目的:移動需要システムの効率的な運用
    • 都市交通の効率化は,経済活動や住民の生活の質に不可欠である。
    • 従来の最適化手法は,複雑な都市交通の変動や空間的な不均衡に対応しにくい。
    • LLMを活用し,リアルタイムで最適化目標を適応的に生成することで,その問題を解決する。
    • 提案手法は,強化学習のような大規模なデータや複雑なモデリングを必要としない。
    • LLMが,高度な目標設定と低レベルのルーティングを統合し,問題分解の限界を克服する。
    • ニューヨークとシカゴのタクシーデータを用いた実験で,最先端手法と比較して平均16%の改善が確認された。

    Link: https://arxiv.org/abs/2510.10644

  • 信頼性の高い逆合成:多様な反応スコアリングアンサンブルによる幻覚の排除 [cs.LG, cs.AI]目的:逆合成における幻覚反応の排除と,質の高い合成経路の最大化
    • 医薬品開発において,効率的な合成経路の探索は不可欠であり,逆合成はその重要なツールである。
    • 生成モデルによる逆合成は進歩しているが,誤った反応や意味不明な経路(幻覚)が問題となっている。
    • 本研究は,多様な反応スコアリング戦略を用いることで,幻覚反応を効果的に排除することを目指す。
    • 提案手法RetroTrimは,既存手法と比較して,幻覚反応のフィルタリングに成功し,質の高い合成経路数を最大化した。
    • 複数の機械学習モデルと化学データベースに基づいた多様な反応スコアリングが,異なる種類の幻覚を捕捉していることが示された。
    • 専門家による評価プロトコルを用いて,32の新規ターゲットに対してRetroTrimの性能を検証し,その有効性を確認した。

    Link: https://arxiv.org/abs/2510.10645

  • RLVRにおける探索の解禁:不確実性を考慮したアドバンテージシェイピングによる深層推論 [cs.AI]目的:深層推論における探索効率の向上
    • 大規模言語モデルの推論能力向上は,AI研究において重要な課題である。
    • 既存のRLVRアルゴリズムは,トークンごとの不確実性を無視し,探索が非効率になりやすい。
    • モデルの不確実性信号を活用し,より効果的な探索を実現することを目指す。
    • UCASは,モデル全体の自信度とトークンレベルの確実性に基づいて,アドバンテージ信号を調整する。
    • 実験結果から,UCASは複数のモデル規模で既存のRLVRベースラインを大幅に上回る性能を示すことが確認された。
    • UCASは,報酬の向上に加え,推論の多様性を促進し,エントロピー崩壊を軽減する。

    Link: https://arxiv.org/abs/2510.10649

  • disentangled motion latent flow matching による微細な制御可能な会話ポートレート合成 [cs.CV, cs.AI]目的: 微細な制御が可能な会話ポートレート動画の合成
    • 近年,動画生成技術は急速に進歩しており,現実的な映像表現が求められている。
    • 微細な動きの制御や,時間的な一貫性を保つことが課題となっていた。
    • 音声に基づき,口の動き,頭の向き,目の動きなどを独立に制御することを目指す。
    • 本研究では,モーションオートエンコーダを用いて,動きの潜在空間を構築し,各要素を分離した。
    • 最適輸送に基づくフローマッチングとTransformer予測器を組み合わせることで,滑らかな動きの軌跡を生成した。
    • 複数のベンチマークにおいて,DEMOは既存手法よりも,写実性,音声との同期性,動きの正確性で優れていた。

    Link: https://arxiv.org/abs/2510.10650

  • AGENTIQL:テキストからSQL生成のためのエージェントに着想を得たマルチ専門家フレームワーク [cs.CL, cs.AI]目的:テキストからSQL生成のフレームワーク
    • 自然言語処理とデータベースの連携が重要であり,SQL生成はその鍵となる技術である。
    • 大規模言語モデルは進歩したが,複雑な推論や多様なスキーマへの対応が課題である。
    • 複雑なSQL生成を可能にする,効率的で解釈可能なフレームワークを開発する。
    • AGENTIQLは,質問分解,サブクエリ生成,カラム選択の各エージェントを組み合わせる。
    • Spiderベンチマークにおいて,実行精度と解釈可能性が向上し,最大86.07%のEXを達成した。
    • ルーティング機構の有効性により,GPT-4ベースのSOTAとの差が縮小し,より小規模なLLMでも高性能を実現した。

    Link: https://arxiv.org/abs/2510.10661

  • ディープフェイク,拡散,なりすまし検出のためのスケーラブルな顔セキュリティビジョンファウンデーションモデル [cs.CV, cs.AI]目的:様々な顔セキュリティタスクにおける汎化性能向上を目指した,ロバストで転移可能な顔表現の学習
    • 顔認識技術は,セキュリティ,認証,監視など,多岐にわたる分野で不可欠な役割を担っている。
    • ディープフェイクやなりすましといった顔画像に対する攻撃が巧妙化しており,既存の手法では十分な防御が困難である。
    • 大量のラベルなし顔画像を利用し,汎化性能の高い顔表現を学習することで,これらのセキュリティ脅威に対抗することを目指す。
    • 提案手法FS-VFMは,マスク画像モデリングとインスタンス識別を組み合わせた自己教師あり事前学習フレームワークであり,顔画像の局所パターンと大域的意味をエンコードする。
    • FS-VFMは,自然画像および顔画像領域における多様なVFMsと比較して,一貫して優れた汎化性能を示すことが,11の公開ベンチマークで実証された。
    • 軽量なFS-Adapterを用いることで,事前学習済みのFS-VFMを効率的に転移することが可能であり,高い性能と効率性のトレードオフを実現した。

    Link: https://arxiv.org/abs/2510.10663

  • BrowserAgent:人間によるウェブブラウジング行動に着想を得たウェブエージェントの構築 [cs.CL, cs.AI]目的:ウェブブラウジング行動に基づいたウェブエージェントの構築
    • LLMの能力向上には,動的なウェブ環境とのインタラクションが不可欠である。
    • 既存手法はウェブ環境を静的なテキストに変換するツールに依存し,柔軟性に欠ける。
    • 人間らしいインタラクティブなブラウジング行動を模倣し,ウェブタスクの解決を目指す。
    • BrowserAgentは,Playwrightを通じて直接ウェブページを操作し,人間の行動に着想を得たブラウザアクションを実行する。
    • 少ない学習データ量で,既存のSearch-R1と同等以上の性能をOpen-QAタスクで達成した。
    • 明示的な記憶メカニズムを導入することで,長期間のタスクにおける推論能力を向上させている。

    Link: https://arxiv.org/abs/2510.10666

  • 画像言語基盤モデルに基づく画像から動画への転移学習:包括的調査 [cs.CV, cs.AI]目的:画像から動画への転移学習に関する既存研究の整理と課題,今後の展望
    • 動画とテキストの理解は,人間にとって自然な情報処理であり,様々な応用への展開が期待される。
    • 動画の学習には大量のデータと計算資源が必要であり,その効率化が課題となっている。
    • 画像言語基盤モデルを活用することで,動画学習のデータ依存性と計算コストを削減することを目指す。
    • 本調査は,画像言語基盤モデルの活用による画像から動画への転移学習戦略を,特徴の固定と修正の2つのカテゴリーに分類し,体系的に整理した。
    • 様々な動画-テキスト学習タスクにおける転移学習の有効性を実験的に分析し,各手法の特性を明らかにした。
    • 今後の研究に向けて,既存の課題と有望な方向性を示し,動画-テキスト学習の発展に貢献することを目指している。

    Link: https://arxiv.org/abs/2510.10671

  • Simpliflow: 生成エージェントAIワークフローの迅速な作成とデプロイのための軽量オープンソースフレームワーク [cs.AI]目的:生成エージェントAIワークフローの迅速な作成とデプロイ
    • 複雑なタスクを自動化する生成エージェントAIの重要性が増している
    • 既存のフレームワークは複雑で学習コストが高く,迅速なプロトタイピングが困難
    • 簡潔性,制御性,速度を重視した決定論的ワークフロー環境のツールを提供
    • Simpliflowは,軽量で使いやすく,拡張性に優れたPythonフレームワークである。
    • JSONベースの設定により,線形かつ決定論的なエージェントワークフローを迅速に開発・調整できる。
    • LangChainやAutoGenといった既存フレームワークと比較して,簡潔性と速度において優位性を示す。

    Link: https://arxiv.org/abs/2510.10675

  • RePro:事前学習のためのウェブデータの効率的な再利用に向けた言語モデルの学習 [cs.CL, cs.LG]目的:大規模言語モデルの事前学習データの再利用手法
    • 大規模言語モデルの性能向上には高品質な事前学習データが不可欠であり,その重要性は増している。
    • 既存のウェブデータは枯渇しつつあり,大規模モデルの学習におけるデータ確保が課題となっている。
    • ウェブデータを効率的に再利用し,データ効率を高めることで,性能向上とデータ確保の両立を目指す。
    • ReProは,強化学習を用いてウェブデータを効果的に言い換える小型言語モデルを学習する手法である。
    • ReProは,有機データのみを用いたベースラインと比較して,22のダウンストリームタスクで4.7%-14.0%の相対的な精度向上を達成した。
    • 既存のウェブデータ再利用手法ReWireと比較しても優位性を示し,データ効率を2-3倍に向上させることを示した。

    Link: https://arxiv.org/abs/2510.10681

  • LSZone:リアルタイム車内多ゾーン音声分離のための軽量空間情報モデリングアーキテクチャ [cs.SD, cs.AI]目的:リアルタイム車内多ゾーン音声分離のための軽量空間情報モデリングアーキテクチャ
    • 人間と車両のインタラクションにおいて,異なる領域からの音声を捉えることが重要である。
    • 既存のSpatialNetは高性能だが,計算コストが高く,リアルタイム処理が困難である。
    • 計算負荷を軽減しつつ,高性能なリアルタイム車内多ゾーン音声分離を実現すること。
    • LSZoneは0.56G MACsの複雑性と0.37のリアルタイムファクター(RTF)を達成した。
    • LSZoneは,複雑なノイズや複数話者環境下で優れた性能を発揮する。
    • 空間情報抽出圧縮(SpaIEC)モジュールと軽量なCNPモジュールが,性能維持に貢献する。

    Link: https://arxiv.org/abs/2510.10687

  • OmniVideoBench:汎用MLLMのオーディオビジュアル理解評価に向けて [cs.AI]目的:オーディオビジュアル理解の相乗的推論能力を評価するためのベンチマーク
    • 動画理解は,AIの多角的知能を実現する上で不可欠であり,その応用範囲は広い。
    • 既存のベンチマークは,オーディオとビジュアルの統合が不十分,または論理的に一貫性に欠ける場合がある。
    • オーディオとビジュアルの補完性を重視し,論理的な一貫性を確保した評価基準を確立すること。
    • OmniVideoBenchは,1000件の高品質な質問応答ペアで構成され,多様な動画から生成されている。
    • 評価の結果,モデルの性能と人間の推論の間には顕著な差が認められ,特にオープンソースモデルの遅れが明らかになった。
    • 本ベンチマークの公開により,より強力で汎用性の高い推論能力を持つMLLMの開発が促進されると期待される。

    Link: https://arxiv.org/abs/2510.10689

  • デジタルツインを活用した深層強化学習による多世代同時設計 [cs.LG]目的:物理的設計と制御装置の同時最適化
    • 動的かつ自律的なシステムの性能向上に,物理システムと制御システムの統合設計が不可欠である。
    • 現実世界の不確実性は予測が難しく,既存の不確実性認識型同時設計法の限界を示す。
    • 製品ライフサイクル全体を考慮し,データに基づいた継続的な改善を目指す。
    • デジタルツインによるリアルタイムセンシングとモデル更新により,不確実な環境下での適応的なリアルタイム意思決定を加速する。
    • 深層強化学習を活用し,物理的コンポーネントと制御装置の次世代設計を情報に基づいたものにする。
    • アクティブサスペンションシステムへの適用により,路面状況や運転行動から学習し,よりスムーズで安定した制御軌跡を実現した。

    Link: https://arxiv.org/abs/2510.10694

  • 静的・動的関係を融合した二重関係融合ネットワークによる株価予測 [cs.LG]目的:株価予測のための,静的および動的な株価間の関係性を捉える手法
    • 株価予測は金融市場において重要な課題であり,投資判断に不可欠である。
    • 既存手法は単一の状態の関係性に焦点を当てており,静的・動的関係性の補完性を考慮していない。
    • 静的・動的な関係性を統合し,市場の変化に柔軟に対応できる株価予測モデルを構築すること。
    • 提案手法である二重関係融合ネットワーク(DRFN)は,様々な市場において既存手法を大幅に上回る性能を示した。
    • DRFNは,長期的な株価関係構造の安定性を捉えつつ,市場の急変に柔軟に対応できる。
    • 関係性の強さと株価の連動に高い感度を持つことが実験的に示された。

    Link: https://arxiv.org/abs/2510.10695

  • 拡張三角法:矛盾分離に基づく自動推論の汎化アルゴリズム [cs.AI, cs.LO]目的:矛盾分離に基づく自動推論アルゴリズムの汎化
    • 人工知能の中核技術であり,定理証明や形式検証などに応用される重要な分野である。
    • 従来の推論方法は2つの節の相互作用に制限され,複数の節間の相乗効果が限定的である。
    • 矛盾分離の内部メカニズムを形式化し,より柔軟で効率的な推論を可能にすること。
    • 拡張三角法(ETM)は,矛盾構築戦略を統合し,動的な節間相互作用を可能にする幾何学的枠組みを提供する。
    • ETMは,高性能定理証明器CSE,CSE-E,CSI-E,CSI-Enigの中核アルゴリズムとして実装され,その有効性が実証されている。
    • 理論的抽象と運用実装の橋渡しとなり,論理推論と定理証明の新たな方向性を示す。

    Link: https://arxiv.org/abs/2510.10701

  • バングラデシュにおける気温および降水量の予測精度向上に向けたAttentionメカニズム強化LSTMモデリング [cs.LG, cs.AI]目的:バングラデシュにおける気温と降水量の予測精度向上
    • 気候変動の影響を受けやすいバングラデシュにおいて,正確な気候予測は不可欠である。
    • 既存のモデルは,気候データの長距離依存性や複雑な時間的パターンを捉えきれていない。
    • この研究は,気温と降水量の変動予測を改善するための手法を提示することを目的とする。
    • 提案モデルは,1901年から2023年までのNASA POWERプロジェクトとHumanitarian Data Exchangeのデータを用いて,季節的および長期的なトレンドを効果的に捉えた。
    • テストにおけるMSE,MAE,R^2,NRMSEは,それぞれ気温で0.2411,0.3860℃,0.9834,0.0370,降水量で1283.67 mm^2,22.91 mm,0.9639,0.0354であった。
    • シミュレーションされた気候変動下において,ベースラインモデルと比較してMSEの増加が僅か20%にとどまり,ロバスト性が向上していることが示された。

    Link: https://arxiv.org/abs/2510.10702

  • LLMの論理的推論能力向上のための記号言語の適応的選択 [cs.AI]目的:LLMの論理的推論における記号言語選択の最適化
    • LLMは急速に発展しているが,複雑な論理的推論は依然として課題である。
    • 自然言語問題を記号言語に翻訳する際の言語選択が性能に大きく影響する。
    • 問題の種類に応じて最適な記号言語を適応的に選択することで,推論精度を向上させる。
    • 提案手法では,LLMを用いて問題に適した記号言語(一階述語論理,論理プログラミング,SAT)を選択する。
    • 実験結果から,適応的選択が単一の記号言語への翻訳やランダム選択を大きく上回ることが示された。
    • 混合データセットにおいて,96%の精度を達成し,一階述語論理翻訳の最高精度を25%改善した。

    Link: https://arxiv.org/abs/2510.10703

  • 相関クラスタリングのための学習増強ストリーミングアルゴリズム [cs.DS, cs.LG]目的:相関クラスタリングにおけるストリーミングアルゴリズム
    • 大規模グラフの解析は,ソーシャルネットワーク分析等において重要である。
    • エッジの順序が不明なストリームデータへの対応が課題であった。
    • 予測器を用いた学習により,空間効率と近似率の改善を目指す。
    • 完全グラフにおいて,良好な予測精度下で3未満の近似率を達成した。
    • 一般グラフにおいて,良好な予測精度下で$O(\log |E^-|)$の近似率を達成し,既存の非学習アルゴリズムよりも空間効率が良い。
    • 合成データおよび実データを用いた実験により,提案手法の優位性が示された。

    Link: https://arxiv.org/abs/2510.10705

  • 指定された木編集距離を持つ木を列挙するためのReLU生成ネットワークの設計 [cs.LG, cs.DM]目的:指定された木編集距離を持つ木の生成
    • 木構造データは,生物情報,構造化データ解析,画像処理など,多様な分野で重要な役割を担う。
    • 指定された木編集距離を持つデータを生成する生成ネットワークの適切なサイズや深さが不明であった。
    • 木編集距離に基づいた正確かつ有効な木構造データ生成のためのコンパクトな生成モデルの構築を目指す。
    • 本研究では,サイズn+1,ラベル数Σの根付き順序付きラベル付き木Tに対し,木編集距離d以下のすべての木を生成できるReLUベース生成ネットワークの存在と構成を理論的に証明した。
    • 提案ネットワークは,O(n^3)のサイズと定数深度で実現可能であり,最大21ノードの木生成実験で,指定された編集距離内の有効な木をすべて生成することに成功した。
    • 一方,GraphRNNやGraphGDPといった既存のグラフ生成モデルは,非決定的なメカニズムを用いるため,検証率が35%と48%にとどまり,生成できる有効な木の数が大幅に少なかった。

    Link: https://arxiv.org/abs/2510.10706

  • SS-DPPN:汎用的な心音表現のための自己教師あり二重経路基盤モデル [cs.RO, cs.SD, cs.AI]目的:汎用的な心音表現と分類のための基盤モデル
    • 心血管疾患の早期診断には心音の自動解析が不可欠であり,医療現場での重要性が高い。
    • 心音データの専門家によるアノテーションは希少であり,教師あり深層学習のボトルネックとなっている。
    • ラベルなしデータから心音表現を学習することで,アノテーション不足の問題を克服することを目指す。
    • 提案手法SS-DPPNは,4つの心音ベンチマークにおいて最先端の性能を達成した。
    • 教師あり学習モデルにおいて,ラベル付きデータ量を3分の1に削減しても高い性能を維持した。
    • 学習された表現は,肺音分類や心拍数推定など,他の生理学的信号にも汎用的に適用可能であることが示された。

    Link: https://arxiv.org/abs/2510.10719

  • 非線形文脈バンディットにおける証明可能な随時アンサンブルサンプリングアルゴリズム [cs.CL, cs.LG, cs.AI, stat.ML]目的:非線形文脈バンディットにおけるアンサンブルサンプリングのアルゴリズム的枠組み
    • 機械学習における強化学習は,エージェントが環境との相互作用を通じて最適な行動を学習する上で重要である。
    • 非線形文脈バンディット問題では,探索と活用のバランスが難しく,効率的なアルゴリズムが求められている。
    • 未知の環境下でも利用可能な,実用性と理論的保証を持つ探索手法の開発。
    • 本研究では,Generalized Linear Ensemble Sampling (GLM-ES) と Neural Ensemble Sampling (Neural-ES) の後悔境界を導出した。
    • GLM-ES の後悔境界は$\mathcal{O}(d^{3/2} \sqrt{T} + d^{9/2})$,Neural-ES の後悔境界は$\mathcal{O}(\widetilde{d} \sqrt{T})$ であり,既存の探索アルゴリズムと同等の性能を示す。
    • また,固定時間水平の制約を取り除いた,随時利用可能なアルゴリズムを開発し,実証実験によってその有効性を確認した。

    Link: https://arxiv.org/abs/2510.10730

  • 弱好みアラインメントによる制御可能な軌道予測 [cs.RO, cs.LG]目的:周囲の車両の軌道予測における,制御可能な多様性の生成
    • 自動運転計画において,周囲の状況を正確に予測することは,安全な走行に不可欠である。
    • 既存手法では,予測軌道の多様性を確保しつつ,計画目的に沿った制御が困難である。
    • 弱好みデータを用いて,より意味のある軌道生成を可能にし,安全な計画を支援すること。
    • 提案手法PrefCVAEは,弱好みペアを利用して潜在変数を意味属性で強化する。
    • 平均速度を属性とした実験により,PrefCVAEが制御可能で意味のある予測を実現することを示した。
    • 精度を損なうことなく,弱好みによる教師あり学習が生成モデルの性能向上に有効であることが確認された。

    Link: https://arxiv.org/abs/2510.10731

  • 第二言語学習者向けロバストな音声認識のための習熟度に応じた適応とデータ拡張 [cs.CY, cs.SD, cs.AI]目的:第二言語学習者に対するロバストな音声認識性能の向上
    • 多様な学習者へのアクセシビリティ向上は,教育分野における重要な課題である。
    • 既存の汎用音声認識システムは,第二言語学習者に対して十分な性能を発揮しない。
    • 習熟度に応じた適応とデータ拡張により,性能格差の是正を目指す。
    • 習熟度を考慮したマルチタスク学習と標的型データ拡張により,WERを最大29.4%削減。
    • 挿入/削除エラーも最大58.6%削減し,音声認識精度を大幅に向上させた。
    • データセットの不均衡にも関わらず,両手法は習熟度間の格差を縮小することに成功した。

    Link: https://arxiv.org/abs/2510.10738

  • 多目的LLM対話のための確率微分方程式フレームワーク:コード生成応用による力学系解析 [cs.LG, cs.AI, cs.SE]目的:多目的最適化ダイナミクスのモデリング
    • LLMの活用が拡大する中で,複数目的を同時に最適化する手法の重要性が増している。
    • LLMの応答の確率性や,目的間の干渉といった問題があり,予測や制御が困難である。
    • LLM対話における多目的最適化のダイナミクスを解析し,収束性や予測可能性を高めることを目指す。
    • 提案フレームワークは,LLM応答の確率性と目的間干渉を捉え,理論的な裏付けを与える。
    • コード生成実験により,戦略に依存した収束挙動が確認され,収束率は0.33~1.29の範囲であった。
    • バランスの取れたアプローチでは,予測精度R2=0.74を達成し,力学系解析の有効性を示唆する。

    Link: https://arxiv.org/abs/2510.10739

  • 未来の自分を見る:仮想現実における状況的行動の予測 [cs.CV, cs.LG]目的:仮想現実における状況的行動予測のフレームワーク
    • VR/ARの没入感向上には,ユーザー行動への知的な適応が不可欠である。
    • 人間の意図を正確に理解し,状況に応じた行動を予測する技術が十分ではない。
    • 認知メカニズムを活用し,より正確な行動予測を実現することを目的とする。
    • 提案手法は,過去の動向とシーン情報を基に,行動ターゲットを特定し,詳細な未来行動を予測する。
    • 動的グラフ畳み込みネットワーク(GCN)を用いて,人間と環境の関係性を効果的に捉える。
    • 実世界のベンチマークとライブVR環境での実験により,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2510.10742

  • 最適深度ネットワーク -- データセットに適応したモデル深さによる優れた効率 [cs.CL, stat.AP, cs.CE, cs.LG, cs.AI, cs.CV]目的:データセットとタスクの複雑さに応じたモデルの最適な深さのバランス
    • 深層ニューラルネットワークは様々なタスクで高い性能を示すが,その成功は計算資源を多く必要とする場合がある。
    • 多くのデータセットやタスクは,必ずしも深いモデルの容量を必要とせず,計算資源の無駄遣いにつながる。
    • データセットの複雑さに応じた最適な深さのモデルを構築し,効率的な学習と推論を実現すること。
    • 提案手法Optimally Deep Networks (ODNs) は,浅い深さから段階的に深さを増やし,目標精度に達するまで学習を進める。
    • MNISTおよびSVHNデータセットにおけるResNet-18とResNet-34の実験で,メモリ使用量を最大98.64%と96.44%削減できた。
    • 精度はそれぞれ99.31%と96.08%を維持しており,エッジデバイスへの展開を可能にする。

    Link: https://arxiv.org/abs/2510.10764

  • 自律走行車における適応型DBSCANを用いたGPSスプーフィング攻撃の検知 [cs.CR, cs.AI, cs.SY, eess.SY]目的:GPSスプーフィング攻撃の検知手法
    • 自動運転技術の発展に伴い,安全性の確保が重要課題となっている。
    • GPS信号の脆弱性が,悪意のある攻撃による車両制御の脅威となる。
    • リアルタイムで閾値を調整し,巧妙なスプーフィング攻撃を検知する。
    • 提案手法は,Honda Research Institute Driving Datasetを用いて,様々な規模のGPSスプーフィング攻撃に対する有効性を検証した。
    • ターン毎,停止時,オーバースート,複数の微小なバイアス攻撃に対し,それぞれ98.621%,99.960.1%,99.880.1%,98.380.1%の検知精度を達成した。
    • 本研究は,自動運転車のGPSスプーフィングに対する安全性向上に大きく貢献する。

    Link: https://arxiv.org/abs/2510.10766

  • RLHFのための拡散モデル学習におけるサンプラーの確率的変動の理解 [cs.LG, cs.AI, math.OC]目的:拡散モデルのRLHF学習におけるサンプラーの確率的変動
    • 人間からのフィードバックによる強化学習は,拡散モデルの微調整に不可欠な手法である。
    • 学習時の確率的サンプラーと推論時の決定論的サンプラーの不一致が課題となっている。
    • 報酬ギャップを理論的に特徴づけ,推論時の出力品質向上を目指す。
    • 本研究では,一般的な拡散モデルに対する報酬ギャップの上界を理論的に導出した。
    • gDDIMフレームワークを採用することで,データの周辺分布を維持しつつ,任意のレベルの確率的変動をサポートした。
    • 大規模実験により,高確率的SDE学習を用いたモデル更新がODEサンプリング品質を改善することを確認した。

    Link: https://arxiv.org/abs/2510.10767

  • ParsVoice:テキスト読み上げ合成のための大規模多話者ペルシャ語音声コーパス [cs.SD, cs.AI, cs.HC, cs.LG]目的:ペルシャ語テキスト読み上げ(TTS)技術開発のための大規模多話者音声コーパス
    • ペルシャ語音声技術の発展は,言語的・文化的多様性の維持に不可欠である。
    • 既存のペルシャ語音声データセットは規模が小さく,高性能なTTSの開発を妨げている。
    • 高品質かつ大規模なペルシャ語音声データセットを構築し,TTS技術の性能向上を目指す。
    • 本研究で構築したParsVoiceは,3,526時間の音声と470人以上の話者を含む,高品質なペルシャ語音声コーパスである。
    • ParsVoiceを用いてXTTSをファインチューニングした結果,自然度MOSが3.6/5,話者類似度SMOSが4.0/5と良好な性能を示した。
    • ParsVoiceは,主要な英語コーパスに匹敵する話者多様性と音質を備え,ペルシャ語音声技術の開発を加速させることが期待される。

    Link: https://arxiv.org/abs/2510.10774

  • 構造がシグナルを上回る:株式予測のための多関係グラフニューラルネットワークのグローバル化アプローチ [cs.LG]目的:株式予測における多関係グラフニューラルネットワークのグローバル化
    • 金融市場において,株価間の非線形な依存関係を捉え,グラフニューラルネットワークが活用されてきた。
    • 既存モデルは,マクロ経済ショック時に効率的にメッセージを伝播させるのが難しいという課題がある。
    • 本研究では,マクロ経済状況を考慮したロバストなメッセージ伝播を実現する。
    • 提案モデル OmniGNN は,セクターノードを介してショックを迅速に伝播させ,長期的な拡散に依存しない。
    • 実験の結果,OmniGNN は既存の株式予測モデルを上回り,特に COVID-19 期間において頑健性を示した。
    • グラフアテンションネットワークとTransformer を用いることで,多重関係における時間的ダイナミクスを捉えている。

    Link: https://arxiv.org/abs/2510.10775

  • 事前条件付きノルム:最急降下法,準ニュートン法,適応的手法の統一的枠組み [cs.CL, cs.LG, math.OC]目的:最適化手法の統一的枠組み
    • 深層学習の根幹をなす最適化は,問題の形状への適応性と曲率情報の活用との間でトレードオフが生じている。
    • 既存手法は,問題の多様な形状への適用が制限されるなど,柔軟性に課題があった。
    • 事前条件付きノルムの概念を用いて,既存手法を統合し,より汎用的な最適化手法を開発すること。
    • 本研究で提案する枠組みは,SGD,Adam,Muon,KL-Shampooなど,既存の様々な最適化手法を包含する。
    • 行列パラメータ化設定におけるアフィン不変性とスケール不変性に関する体系的な分析を行った。
    • Muonのスペクトル幾何学とAdam様式の事前条件付けを組み合わせた新しい手法MuAdamおよびMuAdam-SANIAを提案し,良好な結果が得られた。

    Link: https://arxiv.org/abs/2510.10777

  • DISC-GAN:クラスタ固有の合成水中画像生成のためのスタイルとコンテンツの分離 [cs.RO, cs.MA, cs.SY, eess.SY, cs.CV, cs.AI]目的:水中画像のフォトリアリスティックな合成
    • 水中画像は水中での色彩減衰や濁りなどの光学現象により画質が劣化する。
    • 多様な水中環境の非均一な条件を生成モデルで捉えるのが難しい。
    • クラスタ固有の特性を保持した合成画像の生成を目指す。
    • 提案手法DISC-GANは,スタイルとコンテンツを分離し,クラスタ固有の学習戦略を用いる。
    • 実験結果から,構造類似性指標(SSIM)が0.9012,平均ピーク信号対雑音比(PSNR)が32.5118 dB,Frechet Inception Distance(FID)が13.3728と,最先端の性能を示す。
    • K-meansクラスタリングにより,スタイル固有のドメインにデータを分割し,それぞれのクラスタで独立してモデルを学習する。

    Link: https://arxiv.org/abs/2510.10782

  • 生体触発振動状態システム:空間的・時間的ダイナミクス [cs.CL, cs.LG, cs.AI]目的:生体神経回路に見られる複雑な空間的・時間的相互作用のモデル化
    • 深層学習の性能向上には,生物学的神経回路の特性の理解が不可欠である。
    • 従来の深層学習モデルは,神経回路の振動ダイナミクスを捉えきれていない。
    • 前頭前皮質の波状伝播ダイナミクスを模倣する新しいモデルを提案し,その有効性を検証する。
    • 提案システムBioOSSは,合成データと実世界のタスクにおいて,既存のアーキテクチャよりも優れた性能を示した。
    • BioOSSは,減衰と伝播速度に関する学習可能なパラメータを備え,タスク固有の空間的・時間的構造への柔軟な適応を可能にする。
    • モデルの波状伝播パターンは,神経処理,特に前頭前皮質における複雑な活動パターンを効果的に模倣する。

    Link: https://arxiv.org/abs/2510.10790

  • 深層学習の再考:陸域水貯留量予測における線形回帰の重要性 [cs.LG, physics.ao-ph, physics.geo-ph]目的:陸域水貯留量予測における線形回帰と深層学習モデルの性能比較
    • 水文モデリングにおいて,陸域水貯留量は水資源管理や異常気象の理解に不可欠な要素である。
    • 深層学習モデルは高性能だが,自然変動や人為的影響が複雑に絡み合う陸域水貯留量予測における優位性は不明確である。
    • 深層学習モデルの妥当性を評価するための,伝統的な統計モデルとの比較が求められている。
    • 線形回帰が,より複雑なLSTMやTemporal Fusion Transformerよりも,陸域水貯留量予測において堅牢な性能を示すことが示された。
    • 深層学習モデルの開発・評価において,従来の統計モデルをベンチマークとして組み込むことの重要性が強調された。
    • 自然変動と人為的干渉の影響を捉えた,グローバルに代表的なベンチマークデータセットの確立が不可欠であることが示唆された。

    Link: https://arxiv.org/abs/2510.10799

  • 人間中心の読みやすさ評価に向けて [cs.CL, cs.AI]目的:公衆衛生情報のアクセシビリティ向上に資する読みやすさ評価手法
    • 健康リテラシーが低い層にも情報が届くようにするため,平易な文章作成が重要である。
    • 既存の評価指標は表層的な特徴しか捉えられず,文脈や利用者の視点が欠けている。
    • 人間中心の視点を取り入れた読みやすさ評価手法を開発し,信頼性・有用性を高める。
    • 人間中心の読みやすさスコア(HCRS)という,五次元の評価フレームワークを提案した。
    • HCRSは,自動測定と構造化された人間からのフィードバックを統合し,文脈的な側面を評価する。
    • このフレームワークは,多様な利用者のニーズ,期待,経験に合致した自然言語処理システムの開発を支援する。

    Link: https://arxiv.org/abs/2510.10801