arXiv雑要約

AI - 2025/10/13 公開

  • ユーザー意図解決のための大規模言語モデルの比較分析 [cs.SE, cs.AI, cs.CL, cs.HC]目的:ユーザー意図解決を機械支援する大規模言語モデルの性能評価
    • 自然言語処理技術の進展により,人間とコンピューター間の直感的な対話が求められている。
    • 既存のクラウドベースの言語モデルは,プライバシー,自律性,スケーラビリティの課題を抱えている。
    • ローカル環境で利用可能なオープンソースLLMの有効性を評価し,次世代OSの基盤技術を確立する。
    • 本研究では,複数のオープンソースLLMとOpenAIのGPT-4を比較し,ユーザー意図に基づくワークフロー生成能力を評価した。
    • その結果,オープンソースLLMは,特定のタスクにおいてGPT-4に匹敵する性能を示す可能性が示唆された。
    • 本研究は,AIインフラの分散化と民主化に向けた議論を深め,よりシームレスでプライバシーに配慮したユーザー体験の実現に貢献する。

    Link: https://arxiv.org/abs/2510.08576

  • アルツハイマー病包括的管理のための特殊なマルチエージェントシステムフレームワーク AgenticAD [cs.MA, cs.AI, cs.HC]目的:アルツハイマー病の包括的管理を目的とした,特殊なマルチエージェントシステムのアーキテクチャ
    • アルツハイマー病は患者,介護者,医療システムに複雑な課題をもたらし,統合的な支援が不可欠である。
    • 既存のAI応用は診断や介護支援に限定され,病全体のシステム的な統合が不十分である。
    • AIエージェントの連携により,アルツハイマー病ケアの個別化,適応性,積極性を向上させる基盤を構築する。
    • 本研究では,介護支援,データ分析,研究など,アルツハイマー病ケアの各段階に対応する8つの特殊なエージェントからなるフレームワークを提案する。
    • 提案フレームワークは,GPT-4oやGeminiといった大規模言語モデル,RAG,Webスクレイピングツールなど,最先端技術を活用している。
    • このアーキテクチャは,単一目的のツールを超え,より適応的で個別化されたケアを実現するためのAIエコシステム構築の基盤となる。

    Link: https://arxiv.org/abs/2510.08578

  • LadderSym: 音楽練習におけるエラー検出のためのマルチモーダルインターリーブトランスフォーマー [cs.SD, cs.AI, eess.AS]目的:音楽練習におけるエラー検出の精度向上
    • 音楽学習において,正確なエラー検出は効果的な練習を支援する上で不可欠である。
    • 既存手法は,ヒューリスティックや学習モデルに依存しており,異なるモダリティ間の連携が不十分である。
    • オーディオと記譜のマルチモーダルな比較と,それによるエラー検出精度の向上を目指す。
    • 提案手法LadderSymは,MAESTRO-Eデータセットにおいて,見逃しノートのエラー検出F1スコアを26.8%から56.3%へと大幅に向上させた。
    • また,MAESTRO-Eデータセットにおける余分なノートの検出F1スコアも,72.0%から86.4%へと14.4ポイント改善した。
    • 同様の改善がCocoChorales-Eデータセットでも確認され,汎用的なシーケンス評価モデルの可能性を示唆する。

    Link: https://arxiv.org/abs/2510.08580

  • 多様な音響条件下における音声クエリを用いたマルチモーダルLLMのハルシネーション評価 [cs.SD, cs.AI, eess.AS]目的:マルチモーダル大規模言語モデルにおけるハルシネーションの影響
    • 音声インタフェースの普及に伴い,音声入力時のモデルの信頼性が重要となる。
    • 既存研究では,画像とテキスト間のハルシネーションは検証されているが,音声クエリの影響は未解明である。
    • 音声入力がハルシネーションに及ぼす影響を定量的に評価し,改善策の検討を目指す。
    • 音声クエリを用いた場合,ハルシネーションの発生率が上昇することが明らかになった。
    • 特に,環境ノイズ下ではハルシネーションが最大20%増加する傾向が確認された。
    • Few-shot promptingやChain-of-Thoughtなどの手法では,ハルシネーションの抑制効果は限定的である。

    Link: https://arxiv.org/abs/2510.08581

  • ロバストな翼設計最適化のためのニューラルサロゲート強化マルチ手法フレームワーク [cs.NE, math.OC]目的:翼設計最適化のためのフレームワーク
    • 航空機の性能向上には,効率的かつ安定した翼設計が不可欠である。
    • 従来の翼設計は計算コストが高く,設計サイクルが長いという課題があった。
    • 本研究は,高速かつ高精度な翼設計を可能にするフレームワークを提案する。
    • 提案フレームワークは,VLMを用いた空力性能評価とニューラルネットワークによる高速な予測を組み合わせる。
    • 複数の最適化手法(PSO, GA等)を統合し,互いの性能を比較することで,最適な手法を選択可能となる。
    • 実験結果から,提案手法が空力特性と安定性の両方を改善することが示された。

    Link: https://arxiv.org/abs/2510.08582

  • EGSTalker:効率的なガウス変形を用いたリアルタイム音声駆動型Talking Head生成 [cs.SD, cs.AI, eess.AS]目的:3Dガウススプラッティングに基づくリアルタイム音声駆動型Talking Head生成フレームワーク
    • 映像制作やコミュニケーションにおいて,リアルな人物映像の需要は高い。特に,音声と連動した自然な口の動きが重要である。
    • 既存手法では,高品質な映像生成に時間がかかり,リアルタイム処理が困難であるという課題がある。
    • 少ない学習データで,高画質かつリアルタイムなTalking Head生成を実現し,多様なマルチメディア応用を可能にすること。
    • EGSTalkerは,わずか3〜5分の学習ビデオで高品質な顔のアニメーションを合成できる。
    • 本フレームワークは,レンダリング品質とリップシンク精度において最先端手法と同等でありながら,推論速度で大幅に優れている。
    • 効率的な空間-音声注意モジュール(ESAA)により,音声と空間情報を融合し,ガウス変形を予測する。

    Link: https://arxiv.org/abs/2510.08587

  • CNNを超えて:少ないデータ環境下における物体検出のためのマルチモーダルLLMの効率的なファインチューニング [cs.CL, cs.CV, cs.AI]目的:少ないデータ環境下における物体検出のためのマルチモーダルLLMの効率的なファインチューニング
    • 物体検出は,画像認識の重要な課題であり,自動運転やロボティクスなど幅広い分野で不可欠である。
    • 従来のCNNは大量の学習データを必要とし,データ不足の環境下では性能が低下しやすいという課題がある。
    • マルチモーダルLLMのデータ効率性を高め,少ないデータでも高性能な物体検出を実現することを目的とする。
    • マルチモーダルLLMをわずか1,000枚以下の画像でファインチューニングすることで,最大36%の精度向上を達成した。
    • ファインチューニングされたLLMは,通常はより多くのデータを必要とするCNNベースラインと同等またはそれを上回る性能を示した。
    • 本研究は,限られたリソースの視覚環境において,マルチモーダルトランスフォーマーを適用するための有効な戦略を提供する。

    Link: https://arxiv.org/abs/2510.08589

  • 進化計算における自然生成型AI [cs.NE, cs.LG]目的:生成型AIの能力拡張と,進化計算を自然生成型AIとして再定義すること
    • 生成型AIは様々な分野で成功を収めているが,データ制約や局所最適化の問題を抱えている。
    • 既存の生成型AIは,学習データの範囲を超える真の創造性を発揮することが難しい。
    • 進化計算の探索能力を活用し,データ制約を超えた創造的な生成を実現すること。
    • 進化計算の親志向演算子は従来の生成型AIと類似しているのに対し,破壊的な演算子は革新的な成果を生み出す。
    • 進化マルチタスクは,異なるドメイン間の特徴の組み換えと適度な選択圧を可能にし,持続的なイノベーションを促進する。
    • 進化計算を自然生成型AIと捉えることで,構造的な破壊と選択圧の調整が創造性の重要な要素であることが示される。

    Link: https://arxiv.org/abs/2510.08590

  • 深層ニューラルネットワークの持続的な優位性:量子機械学習とスパイクニューラルネットワークの根本的な限界に関する批判的分析 [cs.NE, cs.AI, cs.LG]目的:量子機械学習とスパイクニューラルネットワークの限界
    • AI分野の進歩には,効率性と性能向上が不可欠であり,新たな計算パラダイムの探求が重要である。
    • 量子機械学習やスパイクニューラルネットワークは有望視されるものの,実用化に向けた課題が多く存在する。
    • 深層ニューラルネットワークの優位性を維持する要因と,量子・スパイクニューラルネットワークの克服すべき課題を明確化する。
    • 量子機械学習は,ユニタリ制約,状態崩壊,バレンプレートゥ,測定オーバーヘッドなどの問題により,バックプロパゲーションの適応が困難である。
    • スパイクニューラルネットワークは,離散的なスパイク処理のため,長距離依存性や言語タスクにおける意味的符号化に苦戦する。
    • 深層ニューラルネットワークは,効率的なバックプロパゲーション,堅牢な正則化,および推論時の計算シフトにより,依然としてAIの主要なパラダイムである。

    Link: https://arxiv.org/abs/2510.08591

  • テスト時スケーリングにおける多様性の低下と安全性:大規模言語モデルのリスク [cs.CL, cs.AI, cs.LG]目的:テスト時スケーリングにおける多様性の低下が安全性に与える影響の解明
    • 大規模言語モデルの推論能力向上は,社会におけるAI活用を促進する上で重要である。
    • テスト時スケーリングは有効だが,多様性の制約が安全性を損なう可能性が指摘されていた。
    • テスト時スケーリングの脆弱性を明らかにし,より安全な戦略設計の指針を示す。
    • テスト時スケーリングにおいて,候補の多様性を制限すると,有害な出力が生成される頻度が増加することが確認された。
    • この現象は,モンテカルロ木探索やBest-of-N戦略など,様々なテスト時スケーリング手法やモデルで再現された。
    • 既存の安全性評価ツールは,多様性を意図的に低下させた入力に対して十分な防御力を示さなかった。

    Link: https://arxiv.org/abs/2510.08592

  • 音声からのうつ病検出のための階層型自己教師あり表現学習 [cs.CL, cs.AI, cs.SD, eess.AS]目的:音声からのうつ病検出における表現学習の改善
    • 精神疾患の早期発見が重要であり,客観的指標に基づく診断手法の確立が求められている。
    • 従来の音声分析では,うつ病特有の微妙な特徴を捉えきれず,精度向上が課題であった。
    • 自己教師あり学習の階層構造を活用し,時間的な変動を考慮したうつ病検出モデルを構築する。
    • HAREN-CTCは,多層の自己教師あり学習特徴をクロスコアテンションで統合する新しいアーキテクチャである。
    • 階層的適応クラスタリングとクロスモーダル融合モジュールにより,うつ病の微妙な兆候を捉えることが可能となった。
    • DAIC-WOZとMODMAの両データセットで最先端の性能を示し,マクロF1スコア0.81と0.82を達成した。

    Link: https://arxiv.org/abs/2510.08593

  • Recover-LoRA:低ランク適応による劣化言語モデルの精度回復 [cs.CL, cs.CL, cs.CL, cs.AI, cs.LG]目的:言語モデルの精度低下からの回復
    • 言語モデルの効率的な利用が重要であり,その展開・運用における最適化が不可欠である。
    • 量子化やプルーニング等の最適化手法が,言語モデルの性能劣化を引き起こす場合がある。
    • モデルの重みの劣化から精度を回復し,展開後の性能低下を防ぐことを目指す。
    • Recover-LoRAは,合成データとロジット蒸留を用いて,選択された層にLoRAアダプターを学習させることで精度を回復する。
    • 様々な小規模言語モデル(SLM)において,Recover-LoRAは精度を5-17%改善することを示した。
    • 本手法は,マルチヘッドアテンション(MHA)およびグループクエリ注意(GQA)を持つSLMに有効であることが確認された。

    Link: https://arxiv.org/abs/2510.08600

  • エッジベースLLMのための,非教師ありで人間工学に基づいた長期記憶アーキテクチャMnemosyne [cs.CL, cs.AI, cs.LG, cs.MA]目的:エッジベースLLMにおける長期記憶アーキテクチャの開発
    • 自然で現実的な対話には長期記憶が不可欠であり,高度な言語モデルの性能向上に繋がる。
    • 既存のLLMメモリシステムは,リソース制約のあるエッジデバイスでは性能が十分でない。
    • エッジデバイスでも利用可能な,効率的で人間らしい長期記憶システムを構築すること。
    • Mnemosyneは,グラフ構造による記憶,モジュール化されたフィルタ,記憶のコミット・プルーニング機構,確率的リコールなどを特徴とする。
    • 医療アプリケーションを用いた実験では,Mnemosyneはリアリズムと長期記憶能力において,既存のRAGベースラインを上回る65.8%の勝率を示した。
    • また,MnemosyneはLoCoMoベンチマークにおいて,時間推論や単一ホップ検索で最高のスコアを達成し,既存手法を上回った。

    Link: https://arxiv.org/abs/2510.08601

  • 人間テキストは外れ値:分布外検出によるLLM生成テキストの検出 [cs.CL, cs.LG]目的:LLM生成テキストの検出
    • デジタルコミュニケーションにおけるAI生成テキストが増加しており,その識別が重要になっている。
    • 既存手法は二値分類として捉え,ドメインやモデル間の汎化性能が低いという課題がある。
    • 人間テキストの多様性を考慮し,分布外検出問題として捉えることで汎化性能を高める。
    • 提案手法は,DeepFakeデータセット上で98.3%のAUROCとAUPR,8.9%のFPR95を達成した。
    • 多言語,攻撃,未知モデル・ドメインのテキストに対しても堅牢性と汎化性を示した。
    • 人間テキストを分布外の値として扱うことで,より効果的な検出が可能となった。

    Link: https://arxiv.org/abs/2510.08602

  • 潜在空間からのフィードバックによる大規模言語モデルの脱獄:LatentBreak [cs.CL, cs.CL, cs.AI, cs.LG]目的:大規模言語モデルの脱獄手法
    • 大規模言語モデルの安全性は重要だが,悪意ある攻撃による安全機構の回避が懸念される。
    • 既存の脱獄攻撃は,入力プロンプトのperplexityが高いことが検知されやすい。
    • perplexityの低い自然なプロンプトで脱獄し,既存の防御策を回避すること。
    • LatentBreakは,入力プロンプト内の単語を潜在空間上で意味的に等価なものに置換することで,perplexityを抑えた自然な攻撃プロンプトを生成する。
    • 提案手法は,既存の脱獄アルゴリズムよりもperplexityベースのフィルタに対する性能が高い。
    • 潜在空間での距離を最小化することで,プロンプトの意図を維持しつつ,有害な応答を引き出すことを可能にする。

    Link: https://arxiv.org/abs/2510.08604

  • より安全なウェブへ:敵対的誤情報攻撃を軽減するための多言語マルチエージェントLLM [cs.CL, cs.AI, cs.CR, cs.LG]目的:敵対的誤情報攻撃の軽減
    • デジタル空間における誤情報の拡散は,社会に深刻な影響を及ぼすため,その対策が不可欠である。
    • 既存研究では,誤情報検出における攻撃手法の検討が不十分であり,特に言語切り替えや要約時の改変に着目した研究は少ない。
    • 多様な攻撃手法に対するAIを活用した誤情報検出システムの構築と,ウェブアプリケーションへの実装可能性を示す。
    • 多言語,マルチエージェントLLMフレームワークを提案し,検索拡張生成によってオンラインプラットフォームのプラグインとして展開可能であることを示した。
    • 提案手法は,英語,フランス語,スペイン語,アラビア語,ヒンディー語,中国語間の言語切り替え攻撃を含む多様な攻撃に対して有効であることが確認された。
    • 本研究は,オンラインにおける事実の正確性を守るために,AI駆動型誤情報検出の重要性を強調している。

    Link: https://arxiv.org/abs/2510.08605

  • 会話における感情認識のための感情ホットスポットの集中:マルチモーダルローカル・グローバル融合とクロスモーダルアライメント [cs.CL, cs.AI]目的:会話における感情認識のための感情ホットスポットの検出と,それらを用いたモダリティ融合手法
    • 対話システムや人間とコンピュータのインタラクションにおいて,感情理解は不可欠である。
    • 会話中の感情認識は,特徴量の分散性や非同期性により,困難が伴う。
    • 感情ホットスポットに着目することで,効率的な感情認識とモダリティ融合を目指す。
    • 提案手法は,テキスト,音声,動画の各モダリティにおける感情ホットスポットを検出し,それらを融合することで,既存のベースラインモデルを上回る性能を達成した。
    • ホットスポット・ゲート付き融合 (HGF) と Mixture-of-Aligners (MoA) の効果を検証した結果,両者が性能向上に貢献していることが確認された。
    • 感情ホットスポットに着目したアプローチは,マルチモーダル学習における新たな視点を提供する。

    Link: https://arxiv.org/abs/2510.08606

  • MMA-ASIA:文化的背景を考慮した評価のための多言語・多様式アライメントフレームワーク [cs.CL, cs.AI]目的:アジア地域における言語モデルの文化的認識能力の評価
    • 言語モデルのグローバルな普及が進む中で,文化的背景が異なる環境での性能低下が課題となっている。
    • 既存の評価データセットは欧米中心であり,アジア地域における言語モデルの能力を正確に評価できない。
    • アジア8ヶ国10言語に対応した,テキスト・画像・音声の多様式アライメントデータセットを構築し,文化的な知識に基づいた推論能力を評価する。
    • MMA-ASIAは,27,000問からなる多言語・多様式ベンチマークであり,79%以上の問題が文化的背景に基づいた多段階の推論を必要とする。
    • 五次元評価プロトコルにより,国間・言語間・様式間の一貫性,文化的知識の一般化,根拠の妥当性を測定し,文化的なショートカット学習を検出する。
    • モデル分析,注意メカニズムの追跡,Vision-ablated Prefix Replay (VPR) を用いることで,言語や様式によるモデルの差異を分析し,文化的信頼性の高い多言語モデル構築に貢献する。

    Link: https://arxiv.org/abs/2510.08608

  • 依存関係のバージョン固定とフロート:どちらが古くなった依存関係と脆弱性の軽減に適しているか [cs.SE, cs.CR, cs.LG, cs.PL]目的:依存関係のバージョン制約の種類ごとの,依存関係が古くなったり脆弱になったりする可能性の評価
    • ソフトウェア開発において,依存関係の管理は不可欠であり,そのバージョン管理戦略がセキュリティと安定性に大きく影響する。
    • 依存関係のバージョン固定はセキュリティリスク軽減に有効だが,更新作業が煩雑になり,結果的に古い依存関係が残存しやすいという課題がある。
    • バージョン制約の種類が依存関係の鮮度やセキュリティに与える影響を定量的に評価し,開発者が適切な選択を行うための情報を提供する。
    • npm,PyPI,Cargoのエコシステムにおいて,依存関係のバージョン制約の使用傾向と変更パターンを分析した結果,floating-minorが最も一般的に使用されていることがわかった。
    • 生存分析モデルを用いた結果,floating-majorは古くなった依存関係になりにくく,floating-minorは脆弱な依存関係になりにくい傾向があることが示された。
    • バージョン固定(pinning)は,floating-minorに次いでよく使用されているが,その使用頻度に対する鮮度・セキュリティリスクのバランスを考慮する必要がある。

    Link: https://arxiv.org/abs/2510.08609

  • リポジトリレベルのコード補完タスクにおける相対位置に基づくコードチャンク分割手法 [cs.SE, cs.AI, cs.LG]目的:リポジトリレベルのコード補完における効果的なコンテキスト収集戦略
    • コード補完は開発効率を向上させる重要な技術であり,開発ライフサイクルを円滑に進める上で不可欠である。
    • 大規模言語モデル(LLM)を用いたコード補完において,その性能を最大限に引き出すための適切なコンテキストの定義が課題となっている。
    • リポジトリ内のコードをチャンクに分割し,相対位置情報を活用することで,より効果的なコンテキストを提供し,コード補完の精度向上を目指す。
    • コードをチャンク分割し,構文・意味的な類似度に基づいてチャンクを検索する手法が有効であることが示された。
    • チャンクの相対位置情報をコンテキストに含めることで,コード補完タスクの性能が向上することが確認された。
    • 本研究で提案する手法は,大規模言語モデルを活用したコード補完の精度向上に貢献する可能性がある。

    Link: https://arxiv.org/abs/2510.08610

  • ソフトウェア開発におけるチームコラボレーションへのLLMの影響 [cs.SE, cs.AI]目的:ソフトウェア開発ライフサイクルにおけるチームコラボレーションへのLLMの影響
    • ソフトウェア開発は経済社会の基盤であり,その効率化は重要である。チーム開発では,コラボレーションが不可欠となる。
    • チーム開発において,コミュニケーション不足や意思決定の遅延が課題となり,開発効率を阻害することがある。
    • LLMを活用することで,これらのコラボレーション課題を解決し,ソフトウェア開発の生産性を向上させることを目指す。
    • LLMは,反復作業やドキュメント作成の自動化により,開発効率を大幅に向上させることが示された。
    • コミュニケーションの明確化,クロスファンクショナルなコラボレーションの促進といった利点が確認された。
    • 一方で,モデルの限界やプライバシーに関する懸念といった新たな課題も浮き彫りになった。

    Link: https://arxiv.org/abs/2510.08612

  • 脳腫瘍セグメンテーションのためのデータ拡張と損失関数の再現性のある評価 [cs.CL, cs.CL, cs.CL, cs.CL, cs.CV, cs.LG]目的:脳腫瘍セグメンテーションにおけるデータ拡張と損失関数の性能評価
    • 脳腫瘍の正確なセグメンテーションは,診断と治療計画において不可欠である。
    • クラス不均衡やモデルの汎化性能の限界が,セグメンテーションの精度向上を阻害している。
    • データ拡張や損失関数の最適な組み合わせを見出すことで,セグメンテーション精度を改善する。
    • Focal Lossを用いたU-Netは,90%の精度を達成し,既存研究と同等の結果を示した。
    • 本研究では,コードと結果を公開することで,再現性のある基盤を確立した。
    • 今後の脳腫瘍セグメンテーション研究におけるデータ拡張戦略と損失関数設計を支援する。

    Link: https://arxiv.org/abs/2510.08617

  • 自律科学エージェントの進化するネットワークによる仮説探索 [cs.AI, cs.LG]目的:大規模科学データセットからの探索的発見
    • 科学研究の加速化に貢献するため,データ駆動型のアプローチが重要視されている。
    • 従来の仮説検証型研究では,未知の知見の発見が困難な場合がある。
    • 広大な仮説空間を効率的に探索し,新たな知見を生み出すこと。
    • AScienceフレームワークとASCollabシステムを構築し,LLMベースのエージェントによる仮説探索を可能にした。
    • エージェント間の相互作用により,多様性,質,新規性のバランスの取れた知見が得られた。
    • がんコホートを用いた実験では,確立されたバイオマーカーの再発見や新規治療標的の提案などが見られた。

    Link: https://arxiv.org/abs/2510.08619

  • LLM駆動によるスキーマ最適化:信頼性の高いエンティティ抽出に向けて [cs.CL, cs.LG]目的:非構造化テキストからの構造化情報抽出の性能向上
    • ソフトウェア3.0システムにおいて,LLMエージェントがAPIとツールを自律的に操作するためには不可欠な技術である。
    • 既存のJSONスキーマは人間向けに設計されたものが多く,曖昧性や不備があると,LLMの幻覚や不安定な動作を引き起こす。
    • JSONスキーマ自体をLLMが理解・改善可能な自然言語理解契約と捉え,スキーマを最適化することで抽出性能を向上させる。
    • PARSEは,スキーマ最適化モジュールARCHITECTと,リフレクションに基づく抽出モジュールSCOPEから構成される。
    • SWDEデータセットにおいて,最大64.7%の抽出精度向上を達成し,モデル全体で平均10%の改善が見られた。
    • 初回リトライ時に抽出エラーを92%削減し,実用的な遅延時間を維持することに成功した。

    Link: https://arxiv.org/abs/2510.08623

  • 小規模言語モデルによる思考空間を用いたレコメンデーション [cs.CL, cs.AI]目的:思考空間の構築
    • 推薦システムは,情報過多な現代において,ユーザーに最適な情報を提供する上で不可欠である。
    • 大規模言語モデルは高コストであるため,実用的な推薦システムへの応用が困難である。
    • 小規模言語モデルを用いて,効率的かつ高性能な推薦システムの実現を目指す。
    • 本研究では,小規模言語モデルを用いて,ユーザーとアイテムの共通理解を構築する「思考空間」を提案した。
    • PULSEと呼ばれるフレームワークを開発し,推薦の理由を学習信号として活用することで,よりロバストで汎用性の高い埋め込み表現を獲得した。
    • 実験の結果,PULSEは既存の推薦モデルを上回り,ドメイン間の転移学習や推論タスクにおいても優れた性能を示した。

    Link: https://arxiv.org/abs/2510.08626

  • ノイズ除去拡散に基づく進化アルゴリズムフレームワーク:最大独立集合問題への応用 [cs.NE, cs.DM]目的:組み合わせ最適化問題に対する新しい解法
    • 組み合わせ最適化は,現実世界の多くの問題を解決するための重要な手法である。
    • 従来のメタヒューリスティクスは探索能力に限界があり,高品質な解を得るのが難しい場合がある。
    • ノイズ除去拡散モデルと進化アルゴリズムの利点を組み合わせ,より高性能な解法を開発する。
    • 提案手法DDEAは,既存のDIFUSCOと比較して,最大独立集合問題において優れた性能を示す。
    • DDEAは,同じ時間制約下でDIFUSCOを上回り,大規模グラフに対してはGurobiを凌駕する。
    • 分布外データに対する実験でも,DDEAはDIFUSCOよりも高品質な解を提供する。

    Link: https://arxiv.org/abs/2510.08627

  • LiDARセマンティックセグメンテーションにおける階層的GMMからのエピステミック不確実性を利用した分布外検出 [cs.CL, cs.CV, cs.LG]目的:LiDARセマンティックセグメンテーションにおける分布外オブジェクトの検出
    • 自動運転やロボティクスにおいて,正確な環境理解は不可欠であり,セマンティックセグメンテーションはその重要な要素である。
    • 従来の分布外検出手法は,補助的なデータセットに依存するか,モデルとデータの不確実性を区別できないという課題があった。
    • 本研究は,深層ニューラルネットワークの特徴空間において,階層ベイズモデルに基づくGMMパラメータから得られるエピステミック不確実性を用いることで,この課題を解決する。
    • 提案手法は,補助データや追加の学習段階を必要とせず,SemanticKITTIデータセットにおいて既存の不確実性ベースの手法を上回る性能を示した。
    • 具体的には,AUROCが18%向上,AUPRCが22%増加,FPR95が36%減少(76%から40%へ)した。
    • 予測エントロピーを用いる従来の手法と比較して,分布内領域と分布外領域の不確実性をより正確に識別できることが示された。

    Link: https://arxiv.org/abs/2510.08631

  • 階層的拡散言語モデルによる次段階意味尺度予測 [cs.CL, cs.LG]目的:次段階意味尺度予測のプロセス
    • 自然言語処理の発展には,言語の複雑さを捉えるモデルが不可欠である。
    • 従来の言語モデルでは,詳細な意味構造を効率的に捉えることが課題であった。
    • HDLMは,階層構造を利用し,意味の抽象化と具体化を繰り返すことでこの課題を解決する。
    • 本研究で提案するHDLMは,既存のMDLMを含む様々な実装を可能にする。
    • HDLMは,拡散ELBOの閉形式表現を導出し,効率的な学習を実現している。
    • 実験結果から,HDLMはベースラインと比較して,検証および生成のパープレキシティが低いことが示された。

    Link: https://arxiv.org/abs/2510.08632

  • Hi-OSCAR:人間活動認識のための階層型オープンセット分類器 [cs.CV, cs.AI]目的:人間活動認識における,既知活動の正確な識別と未知活動の拒否
    • 人間活動認識は,健康管理や生活支援など,様々な応用が期待されており,重要性が高い。
    • 既存手法では,訓練データにない活動を正しく処理できず,信頼性が損なわれる場合がある。
    • 未知活動の識別と,活動間の階層構造を活用することで,認識精度と信頼性の向上を目指す。
    • 提案手法Hi-OSCARは,最先端の精度で既知活動を識別しつつ,未知活動を同時に拒否できる。
    • 未知活動を,最も近い内部ノードに局在化することで,「既知/未知」の二者分類を超えた洞察を提供する。
    • 新たなデータセットNFI_FAREDを公開し,今後のオープンセットHAR研究を支援する。

    Link: https://arxiv.org/abs/2510.08635

  • DINOからミンコフスキー幾何へ:タスク関連概念の探求 [cs.CV, cs.AI]目的:DINOv2が知覚するものの性質の解明
    • 画像認識技術は,自動運転やロボット工学など,様々な分野で不可欠である。
    • DINOv2のような大規模モデルの内部表現はブラックボックスであり,解釈が困難である。
    • DINOv2の概念表現の構造を明らかにし,視覚認識メカニズムの理解を深める。
    • DINOv2の学習概念辞書を分析した結果,分類,セグメンテーション,深度推定といったタスクごとに異なる概念が活用されていることが判明した。
    • 概念表現は線形疎性だけでなく,密な部分も持ち,ミンコフスキー幾何学に基づいた凸結合による構造が示唆された。
    • 得られた結果は,視覚トランスフォーマーの表現を解釈するための新たな視点を提供する。

    Link: https://arxiv.org/abs/2510.08638

  • Androidビルド修復の自動化:LLMエージェントにおける推論と実行のギャップをドメイン固有ツールで埋める [cs.SE, cs.AI]目的:Androidビルドエラーの自動修復
    • Androidは最大のモバイルプラットフォームであり,そのアプリケーションの自動ビルドは重要である。
    • LLMはコード修復に有望だが,Androidビルドエラーの修正への応用は未開拓である。
    • LLMによるAndroidビルドエラーの自動修復を可能にする手法の開発。
    • 本研究では,43のオープンソースAndroidプロジェクトから収集した1,019のビルドエラーのベンチマークAndroidBuildBenchを新たに作成した。
    • ドメイン固有ツールを用いたLLMエージェントGradleFixerは,汎用シェルに頼る最先端のコーディングエージェントを大きく上回り,81.4%の解決率(pass@1)を達成した。
    • この成功は,LLMが高レベルの知識を持つ一方で,汎用シェルを用いて効果的な低レベルアクションに変換することに苦労することを示唆している。

    Link: https://arxiv.org/abs/2510.08640

  • エネルギー駆動型ステアリング:大規模言語モデルにおける誤拒否の削減 [cs.LG, cs.AI, cs.CL, stat.ML]目的:大規模言語モデルの誤拒否削減
    • 大規模言語モデルの安全性確保は重要であり,社会実装において不可欠である。
    • 安全性を高めるために過度な拒否が生じ,本来応答すべき質問に答えられない問題がある。
    • 安全性と応答性の両立を目指し,誤拒否を抑制する手法を開発する。
    • 提案手法EDSは,推論時にモデル内部の状態を動的に操作することで誤拒否を削減する。
    • EDSは軽量な外部エネルギーベースモデルを用いて,モデルの活性化を低エネルギー領域に誘導する。
    • ORB-Hベンチマークにおいて,誤拒否率を57.3%から82.6%に向上させ,安全性を維持した。

    Link: https://arxiv.org/abs/2510.08646

  • 先頭Chain-of-Thought:Chain-of-Thought圧縮のための協調的フレームワーク [cs.CL, cs.AI]目的:Chain-of-Thought圧縮による推論プロセスの効率化
    • 大規模言語モデルの高度な推論能力は重要だが,計算コストや遅延が課題となっている。
    • 従来のCoT圧縮手法は,手動でのプロンプト設計や詳細な推論情報の損失といった問題があった。
    • 本研究は,推論情報を保持しつつ,CoTの長さを大幅に短縮することを目的とする。
    • 提案手法UCoTは,推論情報を豊かに含んだ先頭埋め込みを生成する圧縮モデルと,それを利用して短縮された推論を行う実行モデルの協調によりCoT圧縮を自動化する。
    • GSM8Kデータセットにおいて,UCoTをQwen2.5-7B-Instructモデルに適用したところ,トークン使用量を50%削減し,最先端手法と比較して性能が3.08%向上した。
    • UCoTは,実行モデルの強力な推論能力を維持しながら,CoTの長さを大幅に削減することに成功した。

    Link: https://arxiv.org/abs/2510.08647

  • Transformer における逆変換不要なウィルソンループ:不変性と順序依存性の実用的な診断 [cs.LG, cs.AI]目的:Transformer モデルにおける不変性と順序依存性の診断手法
    • 大規模言語モデルの信頼性と安全性が重要視される中,微調整や推論時の問題が指摘されている。
    • 軽微な編集によっても出力が変動し,継続的インテグレーションを阻害する問題が存在する。
    • 内部表現のチェックと順序の検証により,不変性の問題を特定し,安全な最適化を可能にする。
    • WILSON は,JVPs と Hutchison プローブを用いた位置と層の曲率マップと活性化レベルの可換子を組み合わせることで,問題を診断する。
    • この手法は計算コストが低く,Transformer モデルに依存せず,閾値や CSV ファイルとして出力される。
    • WILSON は,RAG の順序依存性への対策,微調整の回帰検出,推論経路の安定化,デプロイメントにおける最適化の安全性の確保に貢献する。

    Link: https://arxiv.org/abs/2510.08648

  • 個人的物語におけるスタイル形式化 [cs.CL, cs.AI]目的:個人的物語におけるスタイルの形式化
    • 個人の経験を語る物語は,人間の理解に不可欠である。物語のスタイルは,経験の主観的表現において重要な役割を果たす。
    • 物語のスタイルを体系的に分析するための正式な枠組みが不足している。言語使用の独特な特徴の定量的な評価が困難である。
    • 物語のスタイルを言語選択のパターンとして形式化し,客観的な分析を可能にすること。
    • 本研究では,機能言語学,計算機科学,心理学の知見を統合した新たな枠組みを提案した。
    • 言語モデルを用いて,物語から言語学的特徴を自動的に抽出し,パターン分析を行った。
    • 心的外傷後ストレス障害を抱える退役軍人の夢物語の分析から,言語選択と心理状態の関連性を示す特異なパターンが明らかになった。

    Link: https://arxiv.org/abs/2510.08649

  • GNNに基づく稀少疾患診断のための知識グラフの疎化 [cs.LG, cs.AI, q-bio.GN]目的:稀少疾患の原因遺伝子特定と臨床調査のためのサブグラフ抽出
    • 稀少遺伝子疾患の診断は困難であり,迅速な診断と適切な治療が求められている。
    • 患者データ不足,全ゲノムシーケンスへのアクセス困難,原因遺伝子の膨大な数が課題である。
    • 表現型データのみから原因遺伝子を特定し,診断の遅延と地域格差の解消を目指す。
    • RareNetは,表現型データのみを用いて原因遺伝子を予測し,高い性能を示した。
    • 既存の候補遺伝子優先度付け手法と組み合わせることで,性能向上が確認された。
    • 表現型データのみを用いることで,先進的なゲノムインフラを持たない地域へのアクセスを向上させる。

    Link: https://arxiv.org/abs/2510.08655

  • クロスモダリティからパラメータ化されたプリミティブへの3D生成フレームワーク [cs.GR, cs.AI, cs.CV]目的:3Dモデルの生成
    • AI技術の発展により3Dモデル生成が重要視されている。
    • 滑らかな表面の確保とストレージオーバーヘッドの削減が課題である。
    • テキストと画像入力により,高品質な3Dモデルの生成と効率的な保存を実現する。
    • 提案手法は,パラメータ化されたプリミティブを用いて3Dモデルを生成し,Chamfer Distance 0.003092を達成した。
    • VIoU 0.545,F1-Score 0.9139,NC 0.8369と良好な性能を示し,モデルのパラメータファイルサイズは約6KBに抑えられた。
    • 特にシンプルなモデルの迅速なプロトタイピングに適している。

    Link: https://arxiv.org/abs/2510.08656

  • 時系列予測のためのインスタンス内正規化 [cs.LG, cs.AI]目的:時系列予測における分布シフトへの対処
    • 現実世界の時系列データは複雑で非定常であり,予測の精度に影響を与える。
    • 既存のインスタンス正規化手法では,個々のインスタンス内のシフトに対応できていない。
    • インスタンス内の分布シフトを解消し,予測精度を向上させることを目指す。
    • 提案手法であるLDは,入力と出力の内部分布を異なるパラメータで適合させることで,内部の不整合を解消する。
    • LCDは,ニューラルネットワークを用いて出力のスケーリング係数を予測し,分布シフトに対応する。
    • 公開ベンチマークにおける実験により,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2510.08657

  • 言語能力を活用した基盤モデルに対する証明可能なロバスト適応 [cs.LG, cs.AI]目的:言語能力を活用した基盤モデルにおける,証明可能なロバスト性を備えた少数ショット分類器の開発
    • マルチモーダル学習において,視覚情報とテキスト情報を結びつける基盤モデルが重要視されている。
    • 少数のタスク固有データセットへの依存が,悪意のある攻撃による脆弱性を招く問題がある。
    • 攻撃に対する形式的な保証を提供する,ロバストな少数ショット分類器を開発する。
    • 提案手法LeFCertは,テキスト埋込みと特徴埋込みを適応的に組み合わせることで,高い性能とロバスト性を実現した。
    • トリム平均プロトタイプを用いて分類スコアの上下限を導出し,最悪のポイズニングシナリオ下での認証を可能にした。
    • LeFCert-LとLeFCert-Cは,現実的な攻撃予算を考慮し,さらなる性能向上と集団認証を実現している。

    Link: https://arxiv.org/abs/2510.08659

  • スケールが「正規化ストレス」とKLダイバージェンスをどのように変化させるか:品質指標の再考 [cs.LG, stat.ML]目的:品質指標のスケール依存性に関する分析と,スケール不変な指標への改良
    • 高次元データの可視化は,機械学習,生物学,社会科学など多くの分野で不可欠である。
    • 既存の品質指標は,プロットのスケールに過敏であり,本質的な情報の変化なしに評価が変動する。
    • スケールに依存しない指標を開発し,次元削減手法の評価の信頼性を高める。
    • 正規化ストレスとKLダイバージェンスは,スケール変換によって大きく値が変化することが示された。
    • 提案手法により,両指標をスケール不変にすることができ,期待される挙動を再現した。
    • この改良により,次元削減手法の評価において,より正確で信頼性の高い結果が得られると考えられる。

    Link: https://arxiv.org/abs/2510.08660

  • CATS-Linear:時系列予測のための分類補助線形モデル [cs.LG, cs.AI]目的:時系列予測のための線形モデルの性能向上
    • 時系列予測は,需要予測や経済予測など,多くの分野で不可欠な技術である。
    • 複雑なモデルに頼る傾向があるが,線形モデルの改善手法は十分に進んでいない。
    • 異なる時系列データに対する最適な線形写像を動的に選択する手法を開発すること。
    • 提案手法CATS-Linearは,分類補助チャンネル独立性(CACI)を利用し,動的に予測モデルを切り替える。
    • トレンド成分と季節成分の分解アーキテクチャを再設計し,線形写像と再結合のフレームワークを導入した。
    • 固定ハイパーパラメータで,ハイパーパラメータ調整済みのベースラインと同等の精度を達成した。

    Link: https://arxiv.org/abs/2510.08661

  • DPCformer:作物ゲノム予測のための解釈可能な深層学習モデル [cs.LG, cs.AI]目的:作物の表現型予測と育種加速のための深層学習モデル
    • ゲノム情報は育種効率を向上させる鍵であり,食糧安全保障に貢献する。
    • 従来のゲノム選択法では,複雑な形質や大規模データセットに対する予測精度が課題である。
    • 本研究は,複雑な遺伝子型-表現型関係をモデル化し,予測精度を向上させることを目指す。
    • DPCformerは,従来のゲノム選択法と比較して高い予測精度を示した。
    • トウモロコシでは,開花日や草丈などの形質で最大2.92%の精度向上が見られた。
    • 綿では,繊維関連形質で最大8.37%の精度向上,トマトでは主要形質の相関係数が最大57.35%増加した。

    Link: https://arxiv.org/abs/2510.08662

  • LLMによるテキストデータで評価尺度テストを拡張する新規フレームワーク [cs.CL, cs.AI, cs.CY]目的:LLMによるテキストデータと従来の評価尺度項目を組み合わせた拡張テストの構築と評価
    • 心理測定において,個人の自然言語のニュアンスを捉えることが課題であり,評価の精度向上が求められている。
    • 従来の評価尺度テストでは,回答者の豊かな言語情報を活用できていないという問題点がある。
    • LLMを活用し,テキストデータの情報を効率的に取り込むことで,測定の精度と正確性を向上させる。
    • 拡張テストは,従来のテストと比較して,測定精度と正確性の統計的に有意な向上が見られた。
    • LLM項目から得られる情報量は,元の19項目テストに6.3~16.0項目を追加する相当に相当する。
    • 本フレームワークは,LLMのスコアリング指示を経験的に選択することで,自動採点のボトルネックを回避する。

    Link: https://arxiv.org/abs/2510.08663

  • Faver:関数抽象化検証ミドルウェアによるLLMベースRTL生成の性能向上 [cs.SE, cs.AI]目的:LLMベースRTL生成の精度向上
    • チップ設計における自動化の遅れを解消し,設計効率を向上させる必要性
    • 高レベル仕様とRTL間のセマンティックギャップと,学習データ不足による精度低下
    • 検証データ不足を克服し,LLMがRTLの機能と低レベルの詳細を両立させること
    • FaverはLLMが回路検証の詳細を気にせず機能に集中できるよう,LLMに優しいコード構造とルールベースのテンプレートを組み合わせる。
    • 実験の結果,FaverはSFTモデルやオープンソースモデルにおいて,最大14%の生成精度向上を実現した。
    • 本研究は,LLMベースのRTL生成ワークフローにおける検証プロセスを効率化する。

    Link: https://arxiv.org/abs/2510.08664

  • RA-Gen:ReActを用いたマルチエージェントタスク実行のための制御可能なコード生成フレームワーク [cs.SE, cs.AI]目的:マルチエージェントタスク実行のための制御可能なコード生成
    • 大規模言語モデルのコード生成は進展しているが,安全性,正確性,制御可能性が課題である。
    • 既存手法では,外部ツールとの動的統合,透明な推論,安全性のユーザー制御が不足している。
    • ReActパラダイムを用いて,安全性と制御性を高めたコード生成を目指す。
    • 本フレームワークは,タスク分解,推論とツール統合,コード生成,データ抽出の4つのエージェントで構成される。
    • ReActベースのSearcherが内部知識と外部ツールを統合し,正確性とユーザー制御を向上させる。
    • SVENデータセットにおいてCodeQLを用いて94.8%のセキュリティ率を達成し,既存手法を上回った。

    Link: https://arxiv.org/abs/2510.08665

  • 拡散言語モデルの効率的な推論フレームワークdInfer [cs.CL, cs.AI]目的:拡散言語モデルの効率的な推論
    • 大規模言語モデルの重要性が増しており,その性能向上と効率化が求められている。
    • 既存の拡散言語モデルは,推論速度の遅さという課題を抱えている。
    • 本研究は,拡散言語モデルの推論速度を向上させるフレームワークを開発し,実用性を高めることを目指す。
    • dInferは,モデル,拡散反復マネージャー,デコーディング戦略,KVキャッシュマネージャーの4つのモジュールで構成される。
    • dInferは,アルゴリズム革新とシステム改善の組み合わせにより,LLaDA-MoEにおいて高い効率を実現した。
    • バッチサイズ1でHumanEvalにおいて1,100トークン/秒を超え,Fast-dLLMと比較して10倍の高速化を達成した。

    Link: https://arxiv.org/abs/2510.08666

  • RAG4Tickets:JIRAおよびGitHubデータを用いた検索拡張生成によるAIを活用したチケット解決 [cs.SE, cs.AI]目的:JIRAおよびGitHubデータの検索拡張生成によるチケット解決
    • ソフトウェア開発における課題解決の効率化は,開発速度と品質に直結する重要な要素である。
    • 課題解決に必要な情報がJIRA,議論,GitHub PRなど分散しており,迅速な解決を阻害する。
    • 過去の類似事例を迅速に検索し,AIが解決策を提案することで,課題解決を支援する。
    • 提案システムは,JIRAとGitHubのデータを統合し,セマンティック検索とLLMによる解決策提案を実現した。
    • 実験結果から,提案システムは解決精度,修正品質,知識再利用を大幅に向上させることが示された。
    • 特に,Precision,Recall,解決時間短縮,開発者の受容性において有意な改善が見られた。

    Link: https://arxiv.org/abs/2510.08667

  • 拡散モデルの周波数認識キャッシュによる高速化 [cs.LG, cs.AI, cs.CV]目的:拡散モデルの推論コスト削減
    • 拡散モデルは高品質な画像生成が可能だが,推論コストが高いという課題がある。
    • 既存のキャッシュ手法は,隣接ステップの特徴量が類似していることを前提としている。
    • 周波数領域の分析に基づき,低周波成分の類似性と高周波成分の連続性を活用する。
    • 本研究では,低周波成分の類似性に基づいたキャッシュと,高周波成分の連続性に基づく補間を組み合わせたFreqCaを提案する。
    • また,全層の特徴量ではなく累積残差特徴量をキャッシュすることで,メモリフットプリントを大幅に削減する。
    • FLUX.1-dev,FLUX.1-Kontext-dev,Qwen-Image,Qwen-Image-Editの実験により,生成と編集の両タスクで有効性が確認された。

    Link: https://arxiv.org/abs/2510.08669

  • クイックコマース配送の最適化:生成されたルートの質的評価 [cs.AI, cs.CL]目的:クイックコマースにおける配送ルートの質的評価手法
    • インドのEC市場は急速に成長しており,配送コストの削減が重要課題である。
    • 既存の配送計画手法は,不正確な住所情報や地図データによって実用性に課題がある。
    • LLMを活用し,配送ルートの効率性を評価することで,コスト削減と信頼性向上を目指す。
    • LLMを用いた評価で,オープンソースモデルは79%の精度で,プロプライエタリモデルは86%の精度でルートの問題点を特定した。
    • LLMによるルート評価は,従来の距離や時間に基づく評価を超えた,効果的かつスケーラブルな手法である。
    • 本研究は,ラストマイル物流におけるコスト効率,配送信頼性,持続可能性の向上に貢献する。

    Link: https://arxiv.org/abs/2510.08671

  • 過ちを無駄にしない:信頼度重み付けによる負のRLグループの活用 [cs.LG]目的:負のRLグループの活用方法
    • 大規模言語モデルの推論能力向上には,検証可能な報酬を用いた強化学習が不可欠である。
    • 既存手法では,正解がないグループが無駄な計算資源を消費する問題がある。
    • 負のグループを有効活用し,計算効率と性能を向上させることを目指す。
    • 提案手法LENSは,誤った応答に信頼度に基づいたペナルティを付与することで,負のグループを情報源として活用する。
    • MATHベンチマークにおいて,Llama-3.1-8BとQwen-2.5-3Bを用いて実験を行った結果,LENSはGRPOを上回る性能を示した。
    • 特に難易度の高い問題で顕著な改善が見られ,負のグループを「救済」する有効性が示された。

    Link: https://arxiv.org/abs/2510.08696