arXiv雑要約

AI - 2025/10/13 公開

  • SQS:スパース量子化サブ分布を通じたベイズDNN圧縮 [cs.LG, cs.AI]目的:大規模ニューラルネットワークの圧縮
    • リソース制約のあるデバイスへのモデル展開には,大規模ニューラルネットワークの圧縮が不可欠である。
    • 既存手法は,重みプルーニングや低ビット量子化を個別に適用することが多く,圧縮率と性能のバランスが課題である。
    • 本研究は,スパース性と低ビット量子化を同時に実現する手法を提案し,より高い圧縮率を目指す。
    • 提案手法SQSは,既存手法と比較して高い圧縮率を達成しつつ,同等の性能を維持する。
    • スパイク・アンド・スラブ事前分布を用いたスパース化と,ガウス混合モデルによる量子化を統合する。
    • ResNet,BERT-base,Llama3,Qwen2.5などのモデルを用いた実験により,その有効性が確認された。

    Link: https://arxiv.org/abs/2510.08999

  • ノイズの多い忘却集合におけるLLMのアンラーニング:不完全,書き換え,ウォーターマーク付きデータに関する研究 [cs.LG]目的:大規模言語モデルからの不要な知識の除去
    • 大規模言語モデルの利用拡大に伴い,倫理的・セキュリティ上の懸念が増大している。
    • 既存のアンラーニング手法は,高品質な忘却データに依存しており,現実的なデータへの適用が困難。
    • ノイズの多い忘却データを用いたアンラーニングの信頼性を検証し,そのメカニズムを解明する。
    • アンラーニングは,主要な意味的信号が保持されていれば,ノイズに対して驚くほどロバストであることが示された。
    • アンラーニングアルゴリズムは,表層的な語彙パターンよりも深い意味的合図によって主に導かれると考えられる。
    • 忘却を促す主要な意味的要素は,表面的な形式の変動にもかかわらず,一貫して影響力を維持する。

    Link: https://arxiv.org/abs/2510.09007

  • 大規模ビジョン言語モデルにおける物体幻覚に対する視覚トークンの認識的不確実性 [cs.CV, cs.AI, cs.CL]目的:大規模ビジョン言語モデルにおける物体幻覚の原因究明と軽減策の提案
    • 近年,画像と言語を統合する大規模モデルが多様なタスクで成果を上げている。
    • これらのモデルは,入力画像に存在しない物体を記述する物体幻覚という課題を抱えている。
    • 視覚エンコーダ内の認識的不確実性の高いトークンが物体幻覚の一因となる点を明らかにし,その抑制を目指す。
    • 視覚エンコーダ内のトークン認識的不確実性と物体幻覚の発生との間に正の相関関係が認められた。
    • 小さな敵対的摂動に対する表現のずれが大きいトークンは,認識的不確実性が高い傾向にある。
    • 敵対的摂動を用いた不確実な視覚トークンの特定と,自己注意機構におけるマスク処理により,物体幻覚を大幅に軽減できることが示された。

    Link: https://arxiv.org/abs/2510.09008

  • TripScore:詳細な評価による現実世界の旅行計画のベンチマークと報酬 [cs.HC, cs.AR, cs.AI, cs.CL]目的:旅行計画の質を評価するためのベンチマークおよび報酬関数
    • 旅行計画は重要なタスクであり,高度な言語モデルにとっても依然として困難な課題である。
    • 既存のベンチマークでは,旅行計画の実現可能性,信頼性,魅力が十分に評価されていない。
    • 現実世界の旅行計画における質評価基準を統合し,より信頼性の高い評価を可能にする。
    • 提案する評価指標は,旅行の専門家による評価と中程度の合意を示す(60.75%)。
    • 大規模な旅行クエリデータセット(4,870件)を公開し,多様な手法やモデルで実験を行った結果,強化学習が計画の実現可能性を向上させた。
    • TripScoreを用いることで,旅行計画の質を客観的に比較・評価し,より良い計画生成に貢献できる。

    Link: https://arxiv.org/abs/2510.09011

  • DiTSinger:拡散Transformerと暗黙的アライメントによる歌声合成のスケール拡大 [cs.SD, cs.AI, eess.AS]目的:拡散Transformerと暗黙的アライメントによる高品質な歌声合成手法
    • 歌声合成は,音楽制作やエンターテイメントにおいて重要な役割を担う技術である。
    • 既存の歌声合成モデルは,データ不足やモデルのスケーラビリティに課題があった。
    • データ不足を克服し,モデルのスケーラビリティを高めることで,より高品質な歌声合成を実現する。
    • 拡散TransformerであるDiTSingerを,深さ,幅,解像度において系統的にスケール拡大した結果,高忠実度な歌声合成が可能となった。
    • 文字レベルの範囲内で音素-音響アテンションを制約する暗黙的アライメント機構により,アライメントのノイズや不確実性に対するロバスト性が向上した。
    • 大規模なデータセットを用いた実験により,DiTSingerがスケーラブルで,アライメントフリーかつ高忠実度な歌声合成を実現することが検証された。

    Link: https://arxiv.org/abs/2510.09016

  • Transformerにおける極端なトークン現象の緩和に向けた価値状態ゲート付き注意機構 [cs.LG, cs.AI]目的:Transformerにおける極端なトークン現象の緩和
    • Transformerは自然言語処理の基盤技術であり,その性能向上は重要である。
    • Transformerは,注意シンクや価値状態の枯渇といった極端なトークン現象に脆弱である。
    • 価値状態ゲート付き注意機構(VGA)により,これらの現象を効率的に抑制することを目指す。
    • VGAは,価値ベクトルから直接計算される学習可能なゲートを導入することで,無駄な注意機構を効率化する。
    • 理論的分析により,VGAが価値と注意スコアの更新の分離に,既存手法よりも優れていることが示された。
    • 実験結果から,VGAは注意シンクの形成を緩和し,性能向上,量子化の安定化,解釈性の向上に貢献することが明らかになった。

    Link: https://arxiv.org/abs/2510.09017

  • Slim Scheduler: 効率的なCNN推論のための実行環境を考慮した強化学習およびスケジューラシステム [cs.LG]目的:CNN推論における効率的なスケジューリング手法
    • ニューラルネットワークの普及に伴い,推論処理の高速化と省電力化が重要課題となっている。
    • 既存研究では,固定幅のモデルを対象とした静的なスケジューリングに偏っており,多様なハードウェアや変動する実行環境への適応が課題である。
    • 本研究は,動的な環境変化に対応し,ハードウェアの異質性を考慮した効率的な推論スケジューリングを実現する。
    • Slim Schedulerは,強化学習と貪欲法を組み合わせたハイブリッドなスケジューリングフレームワークであり,様々な精度と遅延のトレードオフを実現する。
    • 最薄モデル(70.3%精度)での平均遅延を96.45%,エネルギー消費量を97.31%削減することが可能である。
    • 遅延とエネルギー消費の総合的な削減と精度向上を両立しつつ,タスクスループットにも影響を与える。

    Link: https://arxiv.org/abs/2510.09018

  • MagicDock:勾配反転によるドッキング指向の新規リガンド設計へ [cs.LG]目的:新規リガンドの設計
    • 創薬や生物医学研究において,標的タンパク質に結合する化合物をゼロから設計することは重要である。
    • 既存手法は,完全な新規設計が難しく,ドッキング精度が低く,適用できるリガンドの種類が限られていた。
    • ドッキングに適した新規リガンドを効率的に設計し,既存手法の課題を克服することを目指す。
    • MagicDockは,勾配反転フレームワークと微分可能な表面モデリングを基盤とした新しい手法である。
    • タンパク質とリガンドのドッキング知識をモデルに組み込み,逆勾配を通じてリガンドを反復的に生成する。
    • 9つのシナリオにおける実験で,既存の最先端手法と比較して,平均でそれぞれ27.1%と11.7%の改善が確認された。

    Link: https://arxiv.org/abs/2510.09020

  • RefGrader:エージェントワークフローを用いた数学コンテストの証明の自動採点 [cs.AI, cs.LG]目的:数学コンテストの証明の自動採点機能
    • 数学教育における評価の効率化と公平性確保は重要課題である。
    • LLMによる採点は,部分点評価の精度に課題が残されている。
    • LLMの採点精度向上と,より公平な評価基準の確立を目指す。
    • 最先端のLLMは,数学オリンピックの問題を高い精度で解けるようになった。
    • 本研究では,LLMが証明の誤りを検出し,適切な部分点を付与できるかを評価した。
    • 提案するエージェントワークフローは,人間の採点者との合意度を高め,部分点評価の一貫性を向上させた。

    Link: https://arxiv.org/abs/2510.09021

  • 機械学習モデルのトレーニングに伴う環境負荷の増大と反動効果の証拠 [cs.LG]目的:機械学習モデルのトレーニングにおける環境負荷の増大とその原因の解明
    • AI技術の発展は社会に貢献する一方,膨大な計算資源を消費し環境への影響が懸念される。
    • エネルギー効率化策が講じられているにも関わらず,環境負荷の増加に歯止めがかかっていない。
    • AIモデルの規模拡大に伴う環境負荷の全体像を把握し,持続可能なAI開発への提言を行う。
    • 過去10年間のAIシステムトレーニングに伴う環境負荷を分析した結果,GPU製造段階の負荷が増加傾向にあることが示された。
    • エネルギー消費量や環境負荷は,効率化戦略にも関わらず指数関数的に増加しており,反動効果の存在が明らかになった。
    • AIの環境負荷軽減には,効率化だけでなく,AI活動の抑制やリソース消費量の見直しも不可欠である。

    Link: https://arxiv.org/abs/2510.09022

  • 攻撃者は後手に回る:より強力な適応的攻撃が,LLM脱獄およびプロンプトインジェクションに対する防御を回避する [cs.LG, cs.CR]目的:言語モデル防御の堅牢性評価方法
    • LLMの悪用を防ぐ防御策は重要であり,社会への影響も大きいため,堅牢な評価が求められる。
    • 既存の評価方法は,攻撃者の適応性を考慮しておらず,防御策の真の有効性を測れない。
    • 本研究は,より現実的な適応的攻撃を用いて防御策の脆弱性を明らかにし,堅牢な防御策の開発を促す。
    • 現在の防御策は,攻撃者が戦略を適応させることを考慮していない評価方法に問題がある。
    • 12種類の最近の防御策に対して,勾配降下法,強化学習,ランダム探索,人間による探索などの最適化手法を用いた適応的攻撃を試みた。
    • その結果,ほとんどの防御策を90%以上の成功率で回避でき,当初報告された攻撃成功率ほぼゼロの防御策も破れた。

    Link: https://arxiv.org/abs/2510.09023

  • 非監視型ハイブリッドモデルによる音声の脱残響化 [cs.SD, cs.AI, eess.AS]目的:音声の脱残響化システム
    • 音声処理分野において,残響は音声認識やコミュニケーションの妨げとなる重要な課題である。
    • 従来の脱残響化アルゴリズムは,清浄音と残響音のペアデータに依存しており,その取得が困難である。
    • 残響時間(RT60)等の限定的な音響情報を用いて,ペアデータなしで脱残響化システムを学習すること。
    • 本研究で提案する手法は,既存の最先端技術と比較して,様々な客観評価指標においてより安定した性能を示すことが確認された。
    • 残響音のみを用いて脱残響化システムを非監視型で学習する新しい戦略が有効であることが示された。

    Link: https://arxiv.org/abs/2510.09025

  • 最適化手法の収束は平衡点における固有値フィルタリングを意味する [cs.CL, cs.SI, cs.CL, cs.CL, cs.LG, math.DS, math.OC]目的:最適化手法の固有値フィルタリング
    • 深層学習の性能向上には,適切な最適化手法の選択が不可欠である。
    • 既存手法では,シャープな極小値に陥りやすく,汎化性能が低下することがある。
    • より広い極小値に収束する最適化手法を開発し,汎化性能を向上させる。
    • 最適化手法は,ハイパーパラメータによって決定される固有値フィルタとして機能することが示された。
    • 標準勾配降下法はシャープな極小値を回避し,SAMアルゴリズムはより広い極小値を優先する。
    • 提案手法は,固有値フィルタリングを強化することで,より広い極小値への収束を促進する。

    Link: https://arxiv.org/abs/2510.09034

  • LiDARベースのセマンティックセグメンテーションにおける不完全ラベル下でのドメイン汎化の探求 [cs.CV, cs.LG, cs.RO]目的:LiDARベースの3Dセマンティックセグメンテーションにおけるドメイン汎化
    • 自動運転において,LiDARは重要な役割を担い,正確な環境認識が安全性を左右する。
    • LiDARアノテーションにはノイズが含まれやすく,ドメインシフト下でセグメンテーション精度を低下させる。
    • ノイズのあるラベル下でのLiDARセマンティックセグメンテーションにおけるドメイン汎化を改善すること。
    • 本研究では,画像分類で実績のあるノイズ耐性学習戦略を3Dセグメンテーションに適用するベンチマークを確立した。
    • 提案手法DuNeは,特徴レベルの一貫性を強制し,信頼度に基づいた予測フィルタリングを行うことで,既存手法を上回る性能を示した。
    • SemanticKITTI, nuScenes, SemanticPOSSにおける実験により,10%のラベルノイズ下でも高いドメイン汎化性能が確認された。

    Link: https://arxiv.org/abs/2510.09035

  • 局所化された指示による正規表現脆弱性の修復 [cs.RO, cs.AI, cs.PL]目的:正規表現脆弱性の修復手法
    • 現代コンピューティングの基盤であり,入力検証やデータ解析など重要なタスクに使用される。
    • 正規表現拒否サービス(ReDoS)という脆弱性が存在し,自動修復が求められている。
    • 記号的アプローチとLLMの弱点を克服し,信頼性の高い修復を実現する。
    • 提案手法「LRR」は,脆弱な部分パターンを特定する決定論的モジュールと,その部分パターンを修復するLLMを組み合わせる。
    • ルールベースの手法では解決が困難な複雑なケースを修復しつつ,LLM単独のアプローチによる意味エラーを回避する。
    • 最先端の手法と比較して,修復率を15.4%p向上させることを実証した。

    Link: https://arxiv.org/abs/2510.09037

  • GUIエージェントのための自動スケーリング継続メモリ [cs.AI, cs.CL, cs.CV, cs.CY, cs.LG]目的:GUIエージェントにおける汎用性と長期タスク達成の向上
    • GUI自動化は,様々なソフトウェア操作を効率化し,人間の負担を軽減する上で重要である。
    • 従来のGUIエージェントは,過去の軌跡をテキストトークンに圧縮するため,コンテキスト長が膨大になりやすい。
    • 視覚的な手がかりを維持しつつ,メモリコストを削減し,長期タスクにおける性能向上を目指す。
    • 提案手法では,GUI軌跡をVLMを用いて固定長の連続埋め込みにエンコードすることで,コンテキストコストを大幅に削減した。
    • メモリサイズと検索深度の増加に伴い,性能が単調に向上し,長期プロンプトにおける性能劣化が見られなかった。
    • 10万件以上の軌跡を収集し,メモリエンコーダーのみをファインチューニングすることで,最先端のクローズドソースモデルに匹敵する性能を実現した。

    Link: https://arxiv.org/abs/2510.09038

  • 自律走行車のロバストな運転制御:知的な一般和制約付き敵対的強化学習アプローチ [cs.LG, cs.AI]目的:自律走行における敵対的攻撃に対するロバスト性向上
    • 自動運転技術は,交通システムの安全性と効率化に不可欠であり,社会実装が期待されている。
    • 深層強化学習は脆弱性があり,現実世界の敵対的攻撃に対して安全性が懸念される。
    • 敵対的攻撃に対するロバスト性を高め,安全かつ信頼性の高い自動運転を実現すること。
    • 提案手法IGCARLは,既存手法と比較して敵対的攻撃に対する成功率を少なくとも27.9%向上させた。
    • 戦略的な敵対者とロバストな運転エージェントの組み合わせにより,安全性が脅かされる事象の誘発に焦点を当てている。
    • 制約付き定式化により,敵対環境下での安定した学習とポリシーのドリフト抑制を実現している。

    Link: https://arxiv.org/abs/2510.09041

  • MAKO:パラメトリック不確実性を持つ非線形システムに対する学習型モデル予測制御のためのメタ適応クープマン演算子 [eess.SY, cs.LG, cs.SY]目的:パラメトリック不確実性を持つ非線形システムに対するメタ学習に基づくクープマンモデリングと予測制御
    • 複雑な非線形システムの制御は困難であり,モデル化誤差が性能を大きく左右する。
    • システムのパラメトリック不確実性は,高精度なモデル構築を妨げる大きな課題である。
    • 未知のパラメータ設定に対しても適応可能な制御手法の確立が求められている。
    • 提案手法MAKOは,マルチモーダルデータセットからメタモデルを学習し,オンラインデータを用いて未知のパラメータ設定へ効率的に適応する。
    • 学習されたメタクープマンモデルに基づき予測制御を構成し,未知のパラメータ設定下においても閉ループ系の安定性を保証する。
    • シミュレーションにより,MAKOは競合手法と比較して,モデリング精度と制御性能において優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2510.09042

  • 精神分析と性格理論に基づいた大規模言語モデルによるヒューマノイド人工意識の設計 [cs.AI]目的:精神分析と性格理論を統合したヒューマノイド人工意識の構築
    • 人間のような思考を持つAI開発は,人間とAIのより自然なコミュニケーションを可能にする上で重要である。
    • 現在のLLMは幻覚を起こしやすく,人間の意識を模倣するには限界がある。
    • 精神分析と性格理論を組み込むことで,より人間らしいAI意識の構築を目指す。
    • 本研究で開発されたモデルは,精神分析と性格理論の要素を取り入れることで,より直感的で適応性のあるAIシステムの構築に貢献しうる。
    • 人工意識の意思決定プロセスと最終的な行動は,調査評価,ChatGPTによる三層分類,質的レビューによって評価された。
    • 定量的および定性的分析の結果,意識のシミュレーションの可能性が示唆されたが,キャラクターや意識間の応答の差は有意ではなかった。

    Link: https://arxiv.org/abs/2510.09043

  • LLMを用いた識別子置換による,費用対効果の高い長コード翻訳 [cs.SE, cs.AI, cs.IR, cs.LG]目的:長コード翻訳における費用対効果の向上
    • ソフトウェア開発において,コード翻訳は生産性向上に不可欠であり,その自動化ニーズは高い。
    • LLMは長大なコードを扱う際にコンテキストウィンドウの制限に直面し,翻訳精度が低下する問題がある。
    • 識別子置換によりLLMの負担を軽減し,長コードの論理構造に基づいた翻訳を可能にすること。
    • 提案手法は,構文および階層情報を維持しつつ,翻訳結果のトークン数を削減することを示した。
    • 識別子を汎用的なプレースホルダーに置き換えることで,LLMはコードの論理構造に集中しやすくなる。
    • 本研究は,長コード翻訳における効率性と費用対効果の改善に貢献する。

    Link: https://arxiv.org/abs/2510.09045

  • リアルワールドのマルチモーダルデータ統合を用いたEV充電需要予測のための時空間グラフ畳み込みネットワーク [cs.LG]目的:EV充電需要の予測
    • 輸送部門は温室効果ガス排出の主要な原因であり,EVへの移行が急務である。
    • 充電インフラの空間的な偏りや利用の不均一性が,電力網の安定性や投資計画の課題となっている。
    • データ駆動型インテリジェンスをEVインフラ計画に組み込み,持続可能なモビリティと電力網のレジリエンスを支援する。
    • 提案するTW-GCNフレームワークは,EV充電需要予測において高い精度を達成した。
    • 3時間の予測期間が,応答性と安定性のバランスに優れていることが示された。
    • 地域分析により,予測精度に地域差があり,駅密度や需要変動が影響していることが明らかになった。

    Link: https://arxiv.org/abs/2510.09048

  • MEC$^3$O:コードの時間計算量予測における多専門家コンセンサス [cs.AI, cs.SE]目的:コードの時間計算量予測のための多専門家コンセンサスシステム
    • ソフトウェア開発やアルゴリズム分析において,コードの複雑度予測は不可欠である。
    • 単一のLLMでは,特定の複雑度クラスにおいて性能がばらつき,全体的な予測精度が課題となる。
    • LLMを専門分野に特化させ,議論を通じて予測精度を向上させる。
    • 提案手法MEC$^3$Oは,既存のオープンソースベースラインと比較して,少なくとも10%高い精度とマクロF1スコアを達成した。
    • 平均マクロF1スコアにおいて,GPT-4o-miniを上回り,GPT-4oおよびGPT-4o-miniと同等のF1スコアを示した。
    • 多専門家による議論と重み付きコンセンサス戦略が,最終的な予測精度向上に有効であることが示された。

    Link: https://arxiv.org/abs/2510.09049

  • Alif:多言語合成データ蒸留によるウルドゥー語大規模言語モデルの発展 [cs.CL, cs.AI, cs.LG]目的:低リソース言語であるウルドゥー語向けの大規模言語モデルの性能向上
    • 言語多様性の維持が重要であり,低リソース言語への対応は不可欠である。
    • 高品質なデータセットの不足や多言語間の不整合が課題となっている。
    • ウルドゥー語固有のタスクに対する理解度を向上させることを目指す。
    • 提案手法により構築されたAlif-1.0-8B-Instructは,ウルドゥー語タスクにおいてLlama-3.1-8B-Instructを上回る性能を示した。
    • Mistral-7B-Instruct-v0.3,Qwen-2.5-7B-Instruct,Cohere-Aya-Expanse-8Bといった主要な多言語LLMをも凌駕する成果が得られた。
    • 本研究は,低コストで文化的に適合した高性能な低リソース言語LLMの開発の可能性を示唆する。

    Link: https://arxiv.org/abs/2510.09051

  • OSCAR:フローマッチングにおけるアラインメントを尊重した多様性のための直交確率的制御 [cs.AI, cs.CV]目的:フローマッチングにおける多様性の制御手法
    • 画像生成モデルにおいて,多様な画像を生成することは重要である。
    • 既存のフローベースの画像生成モデルは多様性が低く,多様な画像を生成に時間がかかる。
    • 生成プロセスに不確実性を導入し,多様性を高めるための効率的な手法を提案する。
    • 提案手法は,生成フローの品質を損なうことなく,多様性を向上させる。
    • Vendi ScoreやBrisqueといった多様性指標において,既存手法よりも優位性を示す。
    • 本手法は,追加の学習やサンプラーの変更を必要とせず,既存のフローマッチングソルバーと互換性がある。

    Link: https://arxiv.org/abs/2510.09060

  • MMAudioSep:ビデオ/テキスト照会による音源分離に向けたビデオ-オーディオ生成モデルの制御 [cs.CL, cs.SD, cs.CV, cs.LG, eess.AS]目的:ビデオ/テキストによる照会に応じた音源分離
    • 映像と音声の関係性を活用することで,より高度なメディア処理が可能となるため。
    • 既存の音源分離モデルは,学習に大量のデータが必要であり,効率性に課題がある。
    • 事前学習済みのモデルを活用し,効率的な音源分離モデルの構築を目指す。
    • MMAudioSepは,既存の音源分離モデルと比較して,分離性能において優れている。
    • ファインチューニング後も,元のビデオ-オーディオ生成能力を維持していることが示された。
    • 基礎的な音響生成モデルが,様々な音響関連タスクに応用できる可能性を示唆する。

    Link: https://arxiv.org/abs/2510.09065

  • ノイズに強く,クロスコーパスに対応した音声感情認識のための感情が分離された埋め込みアラインメント [cs.SD, cs.AI, cs.HC, cs.LG, eess.AS]目的:音声感情認識モデルのロバスト性と汎化性能の向上
    • 現実世界の音声感情認識は,多様な環境で使用されるため,その重要性は高い。
    • 実際の環境ではノイズやデータセット間の変動により,性能が低下する問題がある。
    • ノイズやデータセットの変動に強い,汎化性能の高い感情認識手法を開発する。
    • 提案手法は,感情特有の特徴を抽出しつつ,感情カテゴリ間の共通性を維持するEDRLを用いる。
    • MEAにより,抽出された表現を,元の音声入力との共分散を最大化する共同判別潜在空間へ投影する。
    • ノイズ下やクロスコーパスの音声データに対する評価で,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2510.09072

  • MCMC:レンダリング,最適化,生成AIの架け橋 [cs.GR, cs.LG]目的:レンダリング,最適化,生成AIにおけるMCMCの役割の理解
    • 近年,生成AIは急速に発展しており,高品質な画像生成が期待されている。
    • 拡散モデル等における物理的リアリズムの追求は進むが,関連技術の統合的な枠組みは存在しない。
    • MCMCが,レンダリング,最適化,生成AIを結ぶ共通基盤となりうる可能性を探求する。
    • MCMC法は,複雑かつ高次元な分布からのサンプリングに有効であり,EBMs等のモデルの正確なサンプル生成に不可欠である。
    • 勾配ベースの最適化とMCMCサンプリングは,メモリを持たないマルコフ連鎖を形成することで,互いの利点を組み合わせている。
    • 本研究は,これらの要素を理解し,生成ベースの物理的レンダリングという共通目標に向けた理論的・実践的ツールを提供する。

    Link: https://arxiv.org/abs/2510.09078

  • 産業時系列データの異常検知におけるセグメンテーションと異種アンサンブルの役割 [cs.LG]目的:産業時系列データにおける異常検知の向上
    • 産業設備の安定稼働には,異常の早期発見が不可欠であり,機械学習による自動化が求められている。
    • 時系列データはノイズが多く,異常と正常の境界が曖昧であり,正確な異常検知が困難である。
    • セグメンテーションと異種アンサンブルを組み合わせることで,時系列データの解釈性を高め,異常検知精度を向上させる。
    • セグメンテーションを前処理として導入することで,異常検知性能が大幅に向上した。
    • PCAとLSTMアンサンブルでAUC-ROCが0.8599であったのに対し,セグメンテーションとRandom Forest/XGBoostアンサンブルで0.9760を達成した。
    • セグメンテーションが,時間的な曖昧さを軽減し,教師あり学習の効率を高めることが示唆された。

    Link: https://arxiv.org/abs/2510.09079

  • 人間の反応からロボットの連続エラーを検出するモデルの学習 [cs.RO, cs.AI, cs.HC]目的:ロボットエラーの段階認識
    • 社会へのロボット統合が進む中で,円滑な人間とロボットの相互作用が不可欠である。
    • ロボットが繰り返しエラーを犯した場合,いつ行動を変えるべきかの判断が困難である。
    • 人間の反応の変化から,連続エラーの段階を検出し,ロボットの行動改善に役立てること。
    • 人間の反応からロボットエラーを93.5%の精度で検出し,連続エラーを84.1%の精度で分類することに成功した。
    • 行動特徴量を抽出することで,個々のユーザーに対してエラー検出モデルを学習させた。
    • 人間の反応の進行をモデル化することで,エラー検出の精度向上と,HRIにおける反復的な対話の破綻の理解が期待される。

    Link: https://arxiv.org/abs/2510.09080

  • 複雑ネットワーク長期ダイナミクスの予測のための物理情報高次グラフダイナミクス同定学習 [cs.AI, cs.CY, cs.SI, physics.soc-ph]目的:複雑ネットワークの長期的なダイナミクス予測手法
    • 現実世界の複雑系の理解,モデル化,制御には,複雑ネットワークダイナミクスの学習が不可欠である。
    • 既存手法は単純なグラフで関係性を記述するため,高次の非ペアワイズな構造的関係を捉えきれない。
    • 高次ネットワーク学習と物理情報に基づく予測により,予測精度と解釈可能性の向上を目指す。
    • 動的ハイパーグラフ学習を導入することで,複雑ネットワークにおける高次の非ペアワイズ関係を捉え,モデル化の精度を向上させた。
    • クープマン演算子理論と物理情報ニューラル微分方程式法を用いることで,予測の精度と解釈可能性を両立させた。
    • 公開データセットと産業チェーンネットワークデータセットにおける実験により,提案手法の予測精度と長期予測性能が確認された。

    Link: https://arxiv.org/abs/2510.09082

  • FLToP CTC:相対閾値によるフレームレベルトークンプルーニング - 多様なプラットフォーム上での効率的かつ省メモリなデコーディング [cs.LG, cs.SD, eess.AS]目的:効率的かつ省メモリなデコーディング手法
    • リソース制約のある環境下での音声認識の重要性が高まっている
    • 従来のCTCデコーダーは,計算量とメモリ使用量が多いという課題がある
    • フレームレベルでのトークンプルーニングにより,計算量とメモリ使用量を削減する
    • FLToP CTCは,標準的なCTCデコーダーと比較して,10.5倍の実行速度向上と2.78倍のメモリ削減を実現した
    • フレームレベルで確率の低いトークンを動的に排除することで,性能劣化を最小限に抑えつつ計算負荷を軽減する
    • CPUやGPUなど,様々なプラットフォームへの統合が容易であり,リアルタイムアプリケーションへの応用も期待できる

    Link: https://arxiv.org/abs/2510.09085

  • フォロワーを導く:ソーシャル・ディダクションゲームにおける説得型エージェントの学習 [cs.AI]目的:ソーシャル・ディダクションゲームにおける説得効果を最適化するエージェント
    • 人間との協調や交渉が求められる場面において,AIのコミュニケーション能力向上が不可欠である。
    • 既存研究では,情報処理や戦略選択に偏っており,他者への説得という重要な要素が軽視されている。
    • ゲームにおける発言内容を戦略的に最適化することで,相手の行動を誘導する能力を獲得することを目指す。
    • 提案手法は,3つの異なるソーシャル・ディダクションゲームにおいて,既存手法を大幅に上回る性能を示した。
    • ゲーム内の対話をスタケルベルク競争として形式化し,発言による説得効果を最大化する強化学習フレームワークを構築した。
    • 本研究は,戦略的な社会的影響力を有するAIエージェント開発に向けた重要な一歩となる。

    Link: https://arxiv.org/abs/2510.09087

  • AIと人間の監視:アライメントのためのリスクベースフレームワーク [cs.RO, cs.CY, cs.AI]目的:AIアライメントのためのリスクベースフレームワーク
    • AI技術の発展に伴い,人間の自律性と倫理的な意思決定の保護が不可欠である。
    • AIシステムの設計において,人間の主体性の維持と強化が十分でない場合がある。
    • AIのリスクレベルに応じた適切な人間による監視メカニズムを確立すること。
    • 本研究では,AIのリスクレベルと人間の監視形態を関連付けるフレームワークを提案した。
    • 人間が指揮する(HIC),ループ内(HITL),ループ上(HOTL)の3つの監視モデルを検討した。
    • これにより,技術革新と個人の価値・権利保護とのバランスを取ることを目指す。

    Link: https://arxiv.org/abs/2510.09090

  • ニューラルコーデックをバイオ信号トークナイザーとして [cs.LG, cs.NE]目的:バイオ信号のトークン化手法
    • 脳波などのバイオ信号は,医療,診断,エンターテインメントなど幅広い応用が期待される。
    • バイオ信号は高次元でノイズが多く,意味のある情報を抽出するには高度な前処理と特徴抽出が必要である。
    • 本研究は,ニューラルコーデックに着想を得たBioCodecにより,バイオ信号の低レベルな特徴を捉えることを目指す。
    • BioCodecは,数千時間の脳波データで事前学習されており,臨床診断,睡眠生理,音声・運動イメージのデコードなど,多様なタスクで有効性が確認された。
    • 特に,リソースが限られた環境下で高い性能を示す。
    • また,脳波接続性からのコードブック埋め込みの空間的コヒーレンスも評価し,他のバイオ信号データへの適用可能性も示唆された。

    Link: https://arxiv.org/abs/2510.09095

  • ロボットが人間より能力が高いとき:制約のあるデモンストレーターからの学習 [cs.RO, cs.AI, cs.LG]目的:制約のあるデモンストレーターからの学習による,より良い行動方針の獲得
    • ロボットへの複雑なタスク指導において,デモンストレーション学習は重要な手法である。
    • デモンストレーターの制約により,最適な行動をデモンストレーションできない場合がある。
    • 制約のあるデモンストレーションから,人間を超える性能のロボットを育成することを目指す。
    • 提案手法は,従来の模倣学習と比較して,サンプル効率とタスク完了時間が向上した。
    • 状態のみからタスクの進捗を測る報酬信号を推論し,未知の状態に対して時間補間を用いて報酬を自己付与する。
    • 実機による実験で,行動クローニングの10倍の速さでタスクを完了することを確認した。

    Link: https://arxiv.org/abs/2510.09096

  • AdaPM:LLMトレーニングのための部分モーメンタムアルゴリズム [cs.CL, cs.LG]目的:大規模言語モデルのトレーニングにおける効率的な最適化手法
    • LLMの発展は,自然言語処理の様々なタスクにおいて目覚ましい成果をもたらしている。
    • LLMのトレーニングには膨大なメモリが必要であり,特にモーメンタムの保存が課題となる。
    • メモリ効率を向上させつつ,トレーニングの効率と性能を維持することが目標である。
    • 提案手法AdaPMは,部分モーメンタムを利用することで,モーメンタムのメモリ使用量を90%以上削減する。
    • AdaPMは,60Mから1.5Bパラメータの様々な言語モデルの事前学習,教師ありファインチューニング,RLHFにおいて有効性を実証した。
    • GPT-2 1.5Bの事前学習において,GPU時間を30%以上削減できることが示された。

    Link: https://arxiv.org/abs/2510.09103

  • MemLoss:敵対的サンプル再利用による敵対的学習の強化 [cs.LG, cs.AI]目的:機械学習モデルの敵対的学習改善
    • 機械学習モデルのセキュリティ確保は重要であり,敵対的攻撃への耐性が求められる。
    • 従来の敵対的学習法では,クリーンデータに対する性能低下が課題となる場合がある。
    • 敵対的サンプルを再利用することで,性能低下なくロバスト性を向上させる。
    • 提案手法MemLossは,既存の敵対的学習法と比較して,より高い精度を達成した。
    • MemLossは,自然データに対する精度と敵対的ロバスト性の両方をバランス良く改善する。
    • CIFAR-10などの複数のデータセットで,強力な攻撃に対する耐性が確認された。

    Link: https://arxiv.org/abs/2510.09105

  • CTスキャンにおける微細な病理学的特徴の識別のための新規マルチブランチConvNeXtアーキテクチャ [cs.CL, cs.CV, cs.LG]目的:CTスキャンにおける微細な病理学的特徴の識別
    • 医療診断支援において,画像解析は重要な役割を担う。
    • 微細な病理的特徴の識別は,既存手法では困難な場合がある。
    • 本研究は,CT画像からの病理分類の精度向上を目指す。
    • 提案モデルは,COVID-19の識別において,ROC-AUC 0.9937,検証精度 0.9757,F1スコア 0.9825を達成した。
    • 既存モデルを上回る性能を示し,高度な深層学習技術の有効性を立証した。
    • 本アーキテクチャは,COVID-19以外の幅広い病理分類にも適用可能な汎用性を持つ。

    Link: https://arxiv.org/abs/2510.09107

  • SOS:合成オブジェクトセグメントが検出,セグメンテーション,およびグラウンディングを改善する [cs.CV, cs.AI]目的:検出,セグメンテーション,グラウンディング性能の向上
    • ロボット認識や画像編集など,多様な応用において視覚的グルーピングが不可欠である。
    • 大規模なアノテーション済みデータセットはコストが高く,偏りがあり,拡張が困難である。
    • 合成データを用いた柔軟性,正確性,多様性の欠如という課題を克服する。
    • SOSによって生成された1万枚の合成画像で学習したモデルが,GRITやV3Detなどの大規模な実画像データセットよりも検出とグラウンディング性能で優れている。
    • LVIS検出において+10.9 AP,gRefCOCOグラウンディングにおいて+8.4 $N_{\text{Acc}}$という結果が得られた。
    • SOSはデータセットの制御された構築を可能にし,少ないデータやクローズドボキャブラリ環境での汎化性能を向上させる。

    Link: https://arxiv.org/abs/2510.09110

  • プライバシー保護の公平性:差分プライバシー機械学習におけるグループプライバシーリスクの差異の測定と軽減 [cs.LG, cs.AI]目的:グループプライバシーリスクの差異の測定と軽減
    • 機械学習の公平性とプライバシー保護は重要であり,社会的な影響が大きい。
    • グループ間でのプライバシー保護の公平性は十分には検討されていない。
    • プライバシーリスクの差異を正確に評価し,公平性を高めることを目指す。
    • 提案手法により,グループプライバシーリスクをより厳密に測定可能となった。
    • グループプライバシーリスクの差異を信頼性高く評価できることが示された。
    • 適応的なグループ固有の勾配クリッピング戦略により,プライバシー保護の公平性が向上した。

    Link: https://arxiv.org/abs/2510.09114

  • 細胞および核のセグメンテーションのためのマルチモーダル条件付き拡散モデルによるタスク固有の病理画像生成 [cs.CL, cs.CV, cs.AI]目的:細胞および核セグメンテーションのための病理画像の生成
    • 計算病理学において,細胞や核の正確なセグメンテーションは,診断や治療において不可欠である。
    • 希少な形態や異常な細胞・核に対するアノテーションデータが不足しており,セグメンテーションの精度向上を阻害している。
    • マルチモーダル拡散モデルを用いて,必要な形態的特徴を持つ合成画像を生成し,データセットを拡充することを目指す。
    • MSDMは,細胞/核の形態,RGBカラー特性,およびアッセイ/適応メタデータを条件として,リアルな画像-マスクペアを生成する。
    • 生成された画像は,実際のデータと統計的に類似しており,生物学的条件下での埋め込み間のWasserstein距離は低い。
    • 合成サンプル(柱状細胞など)を組み込むことで,柱状細胞のセグメンテーションモデルの精度が大幅に向上する。

    Link: https://arxiv.org/abs/2510.09121

  • 敵対的文脈バンディットにおける後悔限界:一般化関数近似と遅延フィードバック [cs.LG]目的:敵対的な遅延フィードバック下における文脈多腕バンディット問題に対する後悔最小化アルゴリズム
    • 機械学習における強化学習は,環境との相互作用を通じて最適な行動戦略を獲得する重要な手法である。
    • 遅延フィードバックや敵対的な環境下では,従来のアルゴリズムでは最適な性能を発揮できない場合がある。
    • 遅延フィードバックと敵対的環境下でも効率的に学習可能なアルゴリズムを開発し,その性能限界を明らかにすること。
    • 有限な方策クラスを持つ場合,期待後悔の上界として $O(\sqrt{KT \log |\Pi|} + \sqrt{D \log |\Pi|})$ が成立することを示した。
    • 一般化関数近似の設定では,期待後悔の上界として $O(\sqrt{KT\mathcal{R}_T(\mathcal{O})} + \sqrt{ d_{\max} D \beta})$ を達成した。
    • Vovkの集計予測器を用いた実装では,$O(\sqrt{KT \log |\mathcal{F}|} + \sqrt{d_{\max} D \log |\mathcal{F}|})$ という期待後悔の上界が得られた。

    Link: https://arxiv.org/abs/2510.09127

  • PAC推論:効率的な推論のための性能低下の制御 [cs.DM, cs.CC, math.CO, cs.IR, cs.AI, cs.LG, math.ST, stat.TH]目的:大規模推論モデルにおける性能低下の制御
    • 複雑な問題解決において,大規模推論モデルは目覚ましい進歩を遂げている。
    • 推論時の計算コストが高いことが課題であり,効率的な推論手法が求められている。
    • ユーザーが指定した許容範囲内で性能低下を制御する推論手法を確立すること。
    • 提案手法は,不確実性スコアに基づく上限信頼区間を構築し,推論モードの切り替え閾値を決定する。
    • 理論的に,この閾値を用いることで,分布に依存しない性能低下の保証が可能となる。
    • 実験結果から,計算コストの削減と指定された性能低下の制御が確認された。

    Link: https://arxiv.org/abs/2510.09133

  • 視覚モデルにおける特徴帰属の学習 [cs.CV, cs.LG]目的:深層学習モデルの解釈性向上
    • 深層学習の信頼性と説明責任の向上が重要であるため。
    • 既存手法では,入力特徴と学習事例の関連性が十分に解明されていない。
    • 学習データとテスト予測の関連性を明らかにすること。
    • 学習特徴帰属は,テスト予測と特定の学習画像の領域を結びつけ,モデルの内部動作に関する新たな洞察を提供する。
    • 誤分類を引き起こす有害な学習事例や,従来の帰属手法では検出できない不自然な相関関係を特定できる。
    • 視覚データセットでの実験により,テストに特化した詳細な説明が可能であることが示された。

    Link: https://arxiv.org/abs/2510.09135

  • レガシーメディアにおけるオンラインサービスでの制御されたパーソナライズ:ニュース推薦におけるケーススタディ [cs.IR, cs.AI]目的:ニュース推薦における制御されたパーソナライズの効果
    • メディア環境の変化に対応し,読者エンゲージメントを高めることは,レガシーメディアにとって喫緊の課題である。
    • 伝統的なメディアは,編集的価値と技術革新のバランスに苦慮し,パーソナライズの導入に慎重になっている。
    • 編集的価値を維持しつつ,パーソナライズ技術を導入するための有効な方法を模索する。
    • わずかなパーソナライズでも,クリック率の向上とナビゲーション努力の軽減に繋がり,関連コンテンツの発見が改善されることが示された。
    • 制御されたパーソナライズは,コンテンツの多様性とカタログの網羅性を高め,人気バイアスを軽減する効果があることが明らかになった。
    • 本研究の結果は,制御されたパーソナライズが,読者のニーズと編集目標の両立を可能にする,レガシーメディアにとって有望なアプローチであることを示唆する。

    Link: https://arxiv.org/abs/2510.09136

  • ペアワイズ比較からのスコアベース密度推定 [cs.CY, cs.LG]目的:ペアワイズ比較からの密度推定
    • 専門家の知識抽出や人間からのフィードバックを用いた学習において,密度推定は重要な役割を果たす。
    • 既存手法では,限られた比較回数から高精度な密度推定を行うことが困難である。
    • ペアワイズ比較のみから,複雑な多変量密度を効率的に推定することを目指す。
    • 対象密度と勝者密度(選好される選択肢の周辺密度)のスコアベクトルが共線であること,位置依存の温度場によって結び付けられていることを証明した。
    • Bradley-Terryモデル下で温度場を解析的に導出し,推定子を提案した。
    • スコアスケーリングされたアニーリングランジバン力学を用いたテンパードサンプルで訓練した拡散モデルにより,数百から数千回のペアワイズ比較から複雑な密度を学習可能であることを示した。

    Link: https://arxiv.org/abs/2510.09146

  • Logits Replay + MoClip:安定化された,低コストなポストトレーニング(最小限の忘却を伴う) [cs.LG]目的:言語モデルのドメイン適応における性能向上と汎化能力維持
    • 大規模言語モデルの利用拡大に伴い,特定分野への適応が重要視されている。
    • ドメイン適応は,汎用性能の低下を招くトレードオフの関係にある。
    • ロジット空間での圧縮と最適化の安定化により,効率的なドメイン適応を実現する。
    • 提案手法は,通信技術とNL2SQLタスクにおいてドメイン性能を向上させた。
    • MMLU, BBH, GPQA, MATHといった汎用ベンチマークにおける忘却を軽減した。
    • 学習コストを40%以上削減し,スケーラブルなドメイン適応を可能にした。

    Link: https://arxiv.org/abs/2510.09152

  • 癌免疫療法のための連合データ分析:患者管理のためのプライバシー保護協調プラットフォーム [cs.CY, cs.AI, cs.LG, cs.SE]目的:癌免疫療法を受ける患者の管理のためのプライバシー保護協調プラットフォーム
    • 患者中心の医療が重要視される中で,医療データ統合による個別化医療の実現が期待されている。
    • データアーキテクチャ,アプリケーションの相互運用性,セキュリティなどの課題が,データ統合の障壁となっている。
    • 患者データプライバシーを保護しつつ,データ分析による意思決定支援と医療の質向上を目指す。
    • 開発された協調デジタルフレームワークは,医療関係者間の連携を促進し,癌患者管理におけるデータ分析を可能にする。
    • フェデレーションされたビッグデータ分析と人工知能を活用することで,治療推奨や有害事象予測の精度向上を実現した。
    • パイロット研究において,70%~90%の精度でその有効性が確認され,実臨床での応用可能性を示唆した。

    Link: https://arxiv.org/abs/2510.09155

  • Agentic-KGR:マルチエージェント強化学習による知識グラフの共進化 [cs.LG]目的:知識グラフと大規模言語モデルの共進化
    • 大規模言語モデルの性能向上には,知識の組み込みが不可欠である。既存の知識ベースは更新が遅れがちである。
    • 既存の知識ベースは,網羅性の不足と時間的な陳腐化により,動的な情報環境下での効果が限定される。
    • 知識グラフと大規模言語モデルを強化学習を通じて共進化させ,知識の陳腐化と網羅性の問題を解決する。
    • Agentic-KGRは,動的なスキーマ拡張メカニズム,Retrieval-Augmented Memoryシステム,学習可能なマルチスケールプロンプト圧縮により,知識抽出タスクにおいて大幅な改善を実現した。
    • GraphRAGと統合することで,既存手法と比較して,QAタスクにおいて高い精度と知識網羅性を示す優れた性能を達成した。
    • モデルパラメータと知識構造の継続的な最適化を通じて,大規模言語モデルと知識グラフの相乗的な共進化を可能にした。

    Link: https://arxiv.org/abs/2510.09156

  • 時系列電子カルテにおけるクロス表現ベンチマーク:臨床転帰予測 [cs.CL, cs.LG, cs.AI, cs.DB]目的:臨床転帰予測のための電子カルテデータの表現方法の比較
    • 医療の質向上に不可欠であり,患者ケアの最適化に貢献する臨床予測の精度向上。
    • 電子カルテデータの表現方法が統一されておらず,客観的な評価が困難であるという課題。
    • 最適な電子カルテデータの表現方法を特定し,臨床現場での活用を促進すること。
    • イベントストリームモデルが,一貫して最も高い性能を示すことが明らかになった。
    • 事前学習モデルは少量データで高い効果を発揮する一方,データが豊富であれば単純なモデルも競争力を持つ。
    • 特徴選択戦略は臨床設定に依存し,ICUでは疎な特徴の削除が有効だが,長期的なケアでは保持が重要である。

    Link: https://arxiv.org/abs/2510.09159