arXiv雑要約

AI - 2025/10/14 公開

  • インシデント管理のためのエージェント型トラブルシューティングガイド自動化 [cs.AI]目的:大規模ITシステムにおけるインシデント管理の効率化
    • 大規模ITシステムでは,迅速なインシデント対応がシステム安定運用に不可欠である。
    • トラブルシューティングガイドの作成・実行には手間と時間がかかり,人的ミスも発生しやすい。
    • LLMを活用し,高品質なトラブルシューティングガイドの自動実行を実現すること。
    • StepFlyは,トラブルシューティングガイドの品質向上を支援するツール「TSG Mentor」を導入した。
    • StepFlyは,LLMを用いて構造化された実行DAGをTSGから抽出し,専用のクエリ準備プラグインを生成する。
    • 実証実験の結果,StepFlyはGPT-4.1上で約94%の成功率を達成し,並列化可能なTSGの実行時間を32.9%~70.4%削減した。

    Link: https://arxiv.org/abs/2510.10074

  • 時系列分類における勾配に基づくモデルのショートカット検出 [cs.LG, cs.AI]目的:時系列分類における深層学習モデルのショートカット学習挙動の調査と検出手法
    • 時系列分類は,産業界や科学研究において重要なタスクであり,高精度なモデルが求められている。
    • 深層学習モデルは,見かけ上の相関関係に依存しやすく,汎化性能が阻害される場合がある。
    • 時系列データにおける深層学習モデルの内部バイアスに着目し,ショートカット学習の検出方法を確立する。
    • 本研究では,深層学習モデルが時系列分類においてポイントベースのショートカット学習を行うことを初めて示した。
    • テストデータやクリーンな訓練データに依存せずにショートカットを検出する簡単な手法を提案した。
    • 提案手法をUCR時系列データセットで評価し,その有効性を検証した。

    Link: https://arxiv.org/abs/2510.10075

  • 相互情報正則化生成モデルによる音声感情認識の改善 [cs.CL, cs.SD, cs.LG]目的:音声感情認識性能の向上
    • 感情認識は,人間と機械の自然な対話に不可欠であり,その精度向上は重要な課題である。
    • 深層学習の進展はあるものの,大量の高品質な学習データが必要となる点が課題である。
    • 相互情報正則化を用いた生成モデルにより,データ拡張を行い,学習データ不足を解決する。
    • 提案手法は,IEMOCAP,MSP-IMPROV,MSP-Podcastの3つのベンチマークデータセットで性能が向上した。
    • 相互情報に基づく指標が,生成データの品質評価に有効であることが示された。
    • クロスモーダル情報なしでも,新たな入力を生成できることが確認された。

    Link: https://arxiv.org/abs/2510.10078

  • AIコンパニオンシップの発展過程:縦断的研究からの証拠 [cs.HC, cs.AI]目的:AIコンパニオンシップの心理的経路とその発展モデル
    • AI技術の急速な発展に伴い,AIコンパニオンの利用が拡大しているため,その影響を理解することが重要である。
    • AIコンパニオンシップが精神的健康や人間関係に及ぼす影響は未知数であり,その相互作用や時間的変化も不明である。
    • AIコンパニオンシップの心理的経路を明らかにし,時間経過に伴う発展モデルを提示することを目的とする。
    • AIコンパニオン利用者への調査から,主体性,寄生的交流,没頭がAIコンパニオンシップを形成する主要な要素であることが示された。
    • 新たなチャットボットを用いた縦断的研究により,利用者の認識が3週間以内に既存のAIコンパニオンの認識に収束することが確認された。
    • これらの結果は,AIコンパニオンシップが時間経過とともに発展するモデルを示唆し,人間とAIの関係を研究する手法を提供する。

    Link: https://arxiv.org/abs/2510.10079

  • 動的なユーザー嗜好データに対する多様性拡張:パーソナライズされたテキスト要約器の性能向上 [cs.CL, cs.LG]目的:パーソナライズされたテキスト要約器の性能向上のための多様性拡張
    • テキスト要約は情報効率を高めるが,主観性を含むため,ユーザーのニーズに合致した情報を抽出することが重要である。
    • パーソナライズされた要約モデルの学習には,ユーザーの嗜好履歴と期待される要約のペアデータが不足している。
    • 既存のデータセットの多様性を高め,パーソナライズされた要約モデルの汎化性能を向上させる。
    • 提案手法PerAugyは,既存のユーザーエンコーダーの性能を大幅に向上させ,AUCを0.132向上させた。
    • PerAugyで拡張された要約フレームワークは,パーソナライズ性能が平均61.2%向上した。
    • データセットの多様性指標(TP,DegreeD)とユーザーエンコーダーの性能には強い相関関係が認められた。

    Link: https://arxiv.org/abs/2510.10082

  • 大規模言語モデルに対する有害なファインチューニングへの対策のための薬剤師:安全性アラインメントデータキュレーション [cs.CR, cs.AI, cs.LG]目的:有害なファインチューニングに対する安全性アラインメントデータキュレーション手法
    • 大規模言語モデルの安全性確保は,その社会実装において不可欠であり,悪意ある利用を防ぐ上で重要である。
    • ファインチューニング時の安全性対策は存在するものの,アラインメントデータの質の影響が看過されてきた。
    • 高品質かつ安全性に重要なアラインメントデータサブセットを抽出することで,防御性能と効率を向上させる。
    • 提案手法Pharmacistは,既存のデータ選択手法と比較して,防御性能と推論性能を向上させる。
    • RepNoiseやT-Vaccineと組み合わせることで,防御性能がそれぞれ2.60%,3.30%向上し,推論性能も向上する。
    • Pharmacistは,学習時間を56.83%と57.63%削減し,計算効率も改善する。

    Link: https://arxiv.org/abs/2510.10085

  • ループトランスフォーマーが非再帰型より性能を発揮する理由(証明付き) [cs.LG, cs.AI, stat.ML]目的:複雑な推論タスクにおけるループトランスフォーマーの優位性の理論的根拠の解明
    • 複雑な推論タスクにおいて,トランスフォーマーモデルの性能向上が不可欠である。
    • 標準的なトランスフォーマーは,複雑なパターン学習において収束が遅い場合がある。
    • ループトランスフォーマーの損失地形の構造的特徴を利用し,学習効率を向上させる。
    • ループトランスフォーマーは,損失地形の構造により,損失の収束が促進されることが示された。
    • 再帰的な構造が,U字型ではなくV字型の谷を誘導し,パターン学習を促進する。
    • 提案手法SHIFTにより,ループトランスフォーマーの学習を加速しつつ,同等の性能を達成できる。

    Link: https://arxiv.org/abs/2510.10089

  • 教師なし連合学習における協調型疑似ラベル生成 [cs.CV, cs.LG]目的:教師なし連合学習による分類モデルの性能向上
    • データ共有なしでの協調学習は,プライバシー保護の観点から重要である。
    • 連合学習におけるラベル情報の欠如が,分類タスクの課題となっていた。
    • CLIP等のゼロショット予測能力を活用し,ラベルなし環境での分類問題を解決する。
    • 提案手法FedCoPLは,クライアントの疑似ラベル分布を調整・再配布することで,クラス間の不均衡を抑制する。
    • 視覚プロンプトをサーバー側で集約し,テキストプロンプトをローカルに残すことで,効果的な協調と個別化を実現する。
    • 実験の結果,FedCoPLは既存手法と比較して優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2510.10100

  • ラデマッハーと色:より高い表現力,しかしその代償とは? [cs.LG]目的:グラフニューラルネットワークの表現力と汎化性能の関係性
    • グラフ構造を持つデータの解析において,グラフニューラルネットワークは重要な役割を担う。
    • 表現力の高いGNNは,より多くのグラフを識別できる一方,汎化誤差が大きい傾向がある。
    • この研究は,着色アルゴリズムを通して,表現力と汎化性能のトレードオフを理論的に説明する。
    • WL着色によって誘導される同値クラスの数が,GNNのラデマッハー複雑さを直接的に制限することが示された。
    • 表現力の向上は,複雑さの増大と,それによる汎化性能の低下につながることが明らかになった。
    • 色数の摂動に対するラデマッハー複雑さの安定性が証明され,データセット間のサンプリング変動への頑健性が示された。

    Link: https://arxiv.org/abs/2510.10101

  • PANTHER: ユーザー行動シーケンスモデリングのための言語を超えた生成事前学習 [cs.LG]目的:ユーザー行動シーケンスの表現学習
    • ユーザー行動データは,サービス改善やレコメンデーションに不可欠な情報を提供する。
    • 高次元かつ多様なユーザー行動データのシーケンスモデリングは,既存手法では困難である。
    • 教師なし学習による汎用的な行動表現を獲得し,実用的な予測精度を向上させる。
    • PANTHERは,多次元トランザクション属性を解釈可能な語彙に圧縮する構造化トークン化を導入した。
    • 周期的なトランザクションパターンをモデリングするシーケンスパターン認識モジュール (SPRM) を開発した。
    • WeChat Payでの実運用において,次トランザクション予測のHitRate@1が25.6%向上し,不正検知のリコールも38.6%改善された。

    Link: https://arxiv.org/abs/2510.10102

  • Lighter-X:グラフベースの推薦における効率的かつプラグアンドプレイ可能な伝播分離戦略 [cs.LG]目的:グラフベースの推薦システムのパラメータ効率の向上
    • 推薦システムは,情報過多な現代社会において,ユーザーに最適な情報を提供する上で不可欠である。
    • 従来のグラフニューラルネットワークベースの推薦システムは,大規模グラフにおいてパラメータ数が増大し,計算コストが高くなるという課題がある。
    • Lighter-Xは,パラメータ数を削減し,計算効率を高めることで,大規模グラフへの適用を可能にすることを目指す。
    • Lighter-Xは,既存のGNNベース推薦アーキテクチャに組み込むことが可能で,パラメータサイズと計算量を大幅に削減する。
    • 大規模なインタラクショングラフにおいて,Lighter-XはLightGCNと比較して,わずか1%のパラメータ数で同等以上の性能を達成する。
    • Lighter-Xは,疎な隣接構造と高次元埋め込み行列を効率的に圧縮するスキームと,伝播を分離するフレームワークによって,高いスケーラビリティを実現する。

    Link: https://arxiv.org/abs/2510.10105

  • コンパクトな深層学習モデルにおける,不確実性を考慮した事後検出フレームワークによる火災・煙検出の強化 [cs.CV, cs.AI, cs.LG, eess.IV]目的:火災・煙検出の精度向上
    • 安全確保や災害対応において,正確な火災・煙検出は不可欠である。
    • 小型深層学習モデルは効率的だが,誤検出や検出漏れが生じやすい。
    • 従来の事後検出手法の限界を克服し,信頼性の高い検出を目指す。
    • 提案手法は,統計的不確実性と視覚的特徴を統合し,検出信頼性を再評価する。
    • D-Fireデータセットを用いた実験で,既存手法と比較して精度,再現率,平均適合率が向上した。
    • 軽量なConfidence Refinement Networkにより,計算負荷を抑えつつ性能改善を実現した。

    Link: https://arxiv.org/abs/2510.10108

  • トレーニング不要な文脈内フォレンジックチェーン:画像操作の検出と局在化 [cs.IR, cs.CV, cs.AI, cs.CR]目的:画像操作の検出と局在化
    • 画像改ざん技術の進歩は深刻なセキュリティリスクをもたらすため,効果的な画像操作局在化が不可欠である。
    • 教師あり学習は高性能だが,高コストなピクセルレベルのアノテーションが必要となる。
    • 大規模言語モデルを活用し,解釈可能な画像操作局在化を実現することで,既存手法の課題を克服する。
    • 本研究で提案するICFCは,トレーニング不要でありながら,最先端のトレーニング不要手法を上回る性能を示す。
    • 弱学習や完全教師あり学習のアプローチと同等またはそれ以上の性能を複数のベンチマークで達成した。
    • ICFCは,画像レベルの分類,ピクセルレベルの局在化,テキストレベルの解釈可能性を実現する体系的な推論パイプラインを備えている。

    Link: https://arxiv.org/abs/2510.10111

  • 少数ショットノード分類のための嗜好駆動型知識蒸留 [cs.CL, cs.DB, cs.LG, cs.SI]目的:少数ショットノード分類における知識蒸留フレームワーク
    • グラフ構造データは,現実世界の複雑な関係性を表現可能であり,その分析は重要である。
    • グラフニューラルネットワークはラベルに依存し,多様な局所トポロジーへの対応が課題である。
    • 大規模言語モデルとグラフニューラルネットワークの長所を組み合わせ,分類精度を向上させる。
    • 提案手法は,大規模言語モデルからの知識蒸留を促進するノード選択器を開発した。
    • ノードの複雑な局所トポロジーに対処するため,ノード嗜好駆動型GNN選択器を開発した。
    • 実世界のグラフ構造データを用いた実験により,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2510.10116

  • DixitWorld:ビジョン・言語モデルにおける多剤間Dixitゲームを用いた仮説的推論の評価 [cs.AI]目的:ビジョン・言語モデルにおける仮説的推論能力の評価
    • 知能の根幹をなす推論能力の評価は,AI研究において不可欠である。
    • 既存の評価方法は静的な単一エージェントタスクに限られ,現実世界での複雑な状況に対応できない。
    • 多剤間環境での仮説生成と選択能力を評価し,よりバランスの取れたAIエージェントの開発を目指す。
    • DixitArenaの結果から,小規模モデルは創造的なストーリーテラーとして,大規模モデルは聞き手として優れていることが示された。
    • DixitBenchの性能はDixitArenaの聞き手の結果と強い相関を示し,仮説選択の信頼性の高い評価指標となることが確認された。
    • 生成的な創造性と識別的な理解力の間のトレードオフが明らかになり,バランスの取れたAI開発の課題が示唆された。

    Link: https://arxiv.org/abs/2510.10117

  • DeepFusionNet:自動符号化器に基づく低照度画像強調と超解像 [cs.CV, cs.AI]目的:低照度画像強調および超解像技術の開発
    • 画像処理技術は,リアルタイム画像伝送を含む様々な分野で不可欠である。
    • 既存の自動符号化器は,性能が低い場合や計算コストが高いという課題がある。
    • パラメータ数を削減し,より高いSSIMおよびPSNRスコアを実現すること。
    • DeepFusionNetは,LOL-v1データセットにおいて,SSIM 92.8%,PSNR 26.30を達成した。
    • DeepFusionNetは,約250万パラメータという少ないパラメータ数で高性能を実現している。
    • DeepFusionNetに基づく超解像技術は,検証セットでPSNR 25.30,SSIM 80.7%を達成した。

    Link: https://arxiv.org/abs/2510.10122

  • ハイブリッド多次元グラフインデックス (HMGI): 関係性とベクトル検索を統合する包括的フレームワーク [cs.DB, cs.LG]目的:関係性とベクトル検索を統合した多次元データに対する効率的なハイブリッドクエリシステム
    • 多様なデータ形式が増加し,その有効活用が求められている。
    • ベクトルデータベースとグラフデータベースはそれぞれ得意分野が異なり,両者の統合が課題となっていた。
    • 関係性とセマンティック類似性を同時に考慮した検索性能の向上を目指す。
    • HMGIは,グラフデータベースの構造とベクトル検索機能を統合することで,両者の利点を活かした検索を実現する。
    • 埋め込みのモダリティを考慮したパーティショニングにより,インデックス構造とクエリ性能を最適化する。
    • 動的なデータ取り込みに対応するため,TigerVectorに着想を得た低オーバーヘッドなインデックス更新システムを導入している。

    Link: https://arxiv.org/abs/2510.10123

  • 制御可能な生成ワールドモデルによるロボット操作 [cs.RO, cs.AI]目的:汎用ロボットポリシーの評価と改善
    • ロボットの汎用化が求められる中で,未知の対象物や指示への対応能力評価が重要となる。
    • 実世界での評価はコストがかかり,スケーラビリティに課題がある。
    • ワールドモデルを用いた,効率的な評価と改善手法の開発が求められている。
    • 本研究では,マルチビューに対応し,きめ細かい行動制御と一貫した長期間のインタラクションを可能にする制御可能なワールドモデルを提案する。
    • 提案手法は,実世界のロボットによる検証なしに,ポリシーの性能を正確にランク付けできることを示した。
    • また,生成された軌跡を用いた教師ありファインチューニングにより,ポリシーの成功率を44.7%改善した。

    Link: https://arxiv.org/abs/2510.10125

  • CacheClip:効果的なKVキャッシュ再利用によるRAGの高速化 [cs.DC, cs.IR, cs.LG, cs.AI]目的:Retrieval-Augmented Generation (RAG)システムの高速化
    • RAGは知識獲得の効率化に不可欠であり,大規模言語モデルの活用方法として重要である。
    • RAGシステムは入力シーケンスが長いため,最初のトークンまでの時間(TTFT)が課題となる。
    • 既存手法の限界を克服し,高速性と生成品質の両立を目指す。
    • CacheClipは,補助的な小規模LLMを活用し,重要なトークンを効率的に選択することで,TTFTを短縮。
    • NIAHおよびLongBenchにおいて,それぞれ94.8%,85.0%のフルアテンション性能を維持し,既存手法を大幅に上回る。
    • 推論時間を最大1.92倍高速化し,RAGシステムの効率と品質のトレードオフを解決する実用的な手法を提供する。

    Link: https://arxiv.org/abs/2510.10129

  • CharCom:複数キャラクターの物語イラストのための合成可能なアイデンティティ制御 [cs.AI]目的:拡散モデルを用いたテキストから画像生成におけるキャラクターの一貫性確保
    • 物語制作やコンテンツ生成において,キャラクターの視覚的な一貫性は不可欠である。
    • プロンプトが変化する中で,キャラクターのアイデンティティを維持することが困難であった。
    • LoRAアダプターの合成による効率的なキャラクター制御を実現し,物語イラストの一貫性を高める。
    • CharComは,ベースモデルの再学習なしに,キャラクターごとにカスタマイズを可能にするモジュール性とパラメータ効率性を実現した。
    • 実験の結果,CharComはキャラクターの忠実度,意味的整合性,時間的一貫性を大幅に向上させることが示された。
    • CharComは,混雑したシーンや大規模なキャラクター生成においても堅牢であり,実用的な応用に適している。

    Link: https://arxiv.org/abs/2510.10135

  • PermLLM:N:Mスパース大規模言語モデルのための学習可能なチャネル置換 [cs.LG, cs.AI]目的:N:Mスパース大規模言語モデルにおけるチャネル置換の最適化
    • 大規模言語モデルの効率化が重要であり,特にモデルのスパース化は計算コスト削減に貢献する。
    • 従来のチャネル置換手法は,手動で設計された評価指標に依存し,モデル性能への影響を正確に捉えられない場合がある。
    • 性能低下を招くプルーニングの影響を軽減するため,チャネル置換を最適化する手法を開発する。
    • PermLLMは,Sinkhorn正規化を用いて離散的な置換行列を微分可能なソフト置換行列に変換し,エンドツーエンドでの最適化を実現した。
    • ブロック単位のチャネル置換戦略を採用することで,学習パラメータ数と計算量を大幅に削減した。
    • LLaMA,Qwen,OPTモデルにおける実験により,PermLLMがN:Mスパースモデルの最適化において優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2510.10136

  • コピー量の多いタスクにおけるエンタープライズ規模の文書情報抽出のためのハイブリッドOCR-LLMフレームワーク [cs.CL, cs.AI]目的:コピー量の多い文書からの情報抽出の精度と効率のトレードオフ最適化
    • 企業活動において,大量の文書から効率的に情報を抽出することは重要である。
    • 類似構造の文書が多い場合,既存の情報抽出手法では計算コストが高い。
    • 文書の特性に応じた最適な手法を選択することで,効率的な情報抽出を実現する。
    • テーブルベースの抽出手法において,構造化文書でF1=1.0,処理速度0.97秒を達成した。
    • 画像入力を含む難しい文書でも,PaddleOCRと統合することでF1=0.997,処理速度0.6秒を実現した。
    • 単純な手法と比較して54倍の性能向上を示し,様々な形式の文書を効率的に処理できる。

    Link: https://arxiv.org/abs/2510.10138

  • 下流気象予測モデルに対する敵対的攻撃:熱帯低気圧経路予測への応用 [cs.LG, cs.CR, stat.ML]目的:熱帯低気圧経路予測を含む下流タスクに対する敵対的攻撃の脆弱性評価
    • 気象予測は,防災や経済活動に不可欠であり,その精度向上は重要な課題である。
    • 深層学習気象予測モデルは敵対的攻撃に脆弱であり,予測結果が操作される可能性がある。
    • 熱帯低気圧のような稀な事象に対する効率的な攻撃手法の開発が求められている。
    • 本研究では,敵対的攻撃を実現するため,TC検出器の出力近似モデルを構築し,勾配ベースの攻撃を可能にした。
    • 偏りのあるデータに対処するため,Skewness-aware loss関数とkernel dilation戦略を導入した。
    • 摂動を抑制し,現実的な予測を生成するため,距離ベースの勾配重み付けと正則化を用いた。

    Link: https://arxiv.org/abs/2510.10140

  • UAV撮影画像に基づく効率的なライチ果実検出:YOLOv11-Litchi [cs.CV, cs.LG, eess.IV]目的:UAV撮影画像を用いたライチ果実の効率的な検出
    • ライチは高付加価値な果物であり,生産性向上は重要である。
    • 従来の人工選別では,増大する生産需要に対応できない課題がある。
    • 複雑な果樹園環境下でのライチ果実検出の精度と効率を向上させる。
    • YOLOv11-Litchiは,YOLOv11ベースラインより32.5%小型化された6.35MBでありながら,mAPを90.1%に,F1スコアを85.5%に向上させた。
    • マルチスケール残差モジュールや軽量な特徴融合手法により,計算コストを削減しつつ高精度を実現した。
    • フレームレートは57.2FPSを達成し,リアルタイム検出要件を満たしており,精密農業への応用が期待される。

    Link: https://arxiv.org/abs/2510.10141

  • DiffHeads:大規模言語モデルにおけるバイアスヘッドの差分分析と推論時マスキング [cs.CL, cs.AI]目的:大規模言語モデルにおけるバイアスヘッドの特定と軽減
    • 社会における意思決定においてLLMの利用が増加しており,公正性が重要課題となっている。
    • 既存研究ではバイアスの発生は示唆されるものの,そのメカニズム解明が不十分であり,対策が脆弱である。
    • プロンプト戦略とバイアスの出現の因果関係を明らかにし,効率的なバイアス軽減策を開発すること。
    • Direct-Answer (DA)プロンプトはCoTプロンプトと比較してバイアスを顕著に引き起こすことが示された。
    • DAとCoT間の活性化の違いから,バイアスに関与する特定の注意ヘッドが特定された。
    • DiffHeadsは,特定されたバイアスヘッドを選択的にマスキングすることで,公平性を損なわずにバイアスを軽減した。

    Link: https://arxiv.org/abs/2510.10142

  • 解釈可能かつロバストな時系列予測のための統一的な周波数領域分解フレームワーク [cs.LG, cs.AI]目的:時系列予測のための解釈可能性とロバスト性の向上
    • 時系列データ分析は,経済,気象,医療など多岐にわたる分野で不可欠である。
    • 既存手法は,ブラックボックス化しやすく,理論的な理解が乏しい場合が多い。
    • 時系列データの時間的・周波数的な分布変化に対応し,予測精度と解釈性を高める。
    • 提案手法FIREは,振幅と位相を独立してモデル化することで,時系列データの特性を捉える。
    • 周波数基底成分の重みを適応的に学習し,疎なデータに対する新しい学習パラダイムを導入する。
    • 長期予測ベンチマークにおいて,既存の最先端モデルを凌駕し,予測性能と解釈性を向上させる。

    Link: https://arxiv.org/abs/2510.10145

  • 極めてノイズの多い条件下における拡散モデルのロバスト学習 [cs.LG]目的:極めてノイズの多い条件下の条件付き拡散モデルにおけるロバスト学習フレームワーク
    • 拡散モデルは生成制御において有用だが,ノイズに弱いという課題がある。
    • ラベル汚染や信頼性の低い観測など,ノイズレベルが高い場合,性能が著しく低下する。
    • ノイズレベルが高い条件下でも性能を維持するための新たな学習手法を開発すること。
    • 提案手法では,擬似的な条件を学習し,時間的アンサンブルを用いて段階的に洗練させる。
    • さらに,擬似条件を拡散させるReverse-time Diffusion Condition (RDC)技術を開発し,記憶効果を高める。
    • 画像生成と視覚運動ポリシー生成の両タスクで,幅広いノイズレベルにおいて最先端の性能を達成した。

    Link: https://arxiv.org/abs/2510.10149

  • RLVRにおけるエントロピー介入の再考:エントロピー変化の視点から [cs.LG, cs.AI]目的:LLMの推論能力向上を目指すRLVRにおけるエントロピー崩壊のメカニズム解明と,それを抑制する手法の開発
    • LLMの推論能力向上は重要であり,そのための強化学習の活用が期待されている。
    • RLVRでは,探索と活用のバランスが崩れ,方策の多様性が失われるエントロピー崩壊が問題となる。
    • 既存のエントロピー介入法の限界を克服し,より安定した学習を可能とする手法を提案する。
    • 本研究により,既存のエントロピー介入法がエントロピーの変化を間接的にしか制御できないという限界が明らかになった。
    • 提案手法STEERは,トークンレベルでの微調整によりエントロピーダイナミクスを適応的に安定化させ,過剰な活用を抑制し,探索を促進する。
    • 様々な数学的推論ベンチマークにおいて,STEERはエントロピー崩壊を大幅に軽減し,より高い性能を達成することが示された。

    Link: https://arxiv.org/abs/2510.10150

  • ペルソナベクトルを融合することで大規模言語モデルの創造性を導くBILLY [cs.CL, cs.AI]目的:大規模言語モデルにおける創造的生成のための手法
    • 近年,大規模言語モデルの創造性向上が求められており,人間の集合知を模倣したマルチLLMシステムが注目されている。
    • マルチLLMシステムは計算コストや推論遅延が大きく,実用上の課題となっていた。
    • 単一モデル内でマルチLLMの利点を実現し,計算効率と生成速度を改善すること。
    • BILLYは,モデルの活性化空間で複数のペルソナベクトルを抽出・融合することで,多様な視点と専門知識を導入する。
    • 実験結果から,BILLYはシングルモデルプロンプティングや従来のマルチLLMアプローチを上回り,推論時間と計算コストを大幅に削減することが示された。
    • 異なるペルソナベクトルを融合することで,生成の補完的な側面を効果的に制御し,解釈性を高めることが可能であることが明らかになった。

    Link: https://arxiv.org/abs/2510.10157

  • ユーザー移動とモバイルトラフィックパターンの同時シミュレーションのためのマルチスケール拡散Transformer [cs.NI, cs.AI]目的:ユーザー移動軌跡とモバイルトラフィックの同時シミュレーション
    • 都市計画,ネットワーク最適化,緊急時管理など多岐にわたる応用において,移動データとトラフィックデータは不可欠である。
    • プライバシーへの配慮や収集コストのため,大規模かつ詳細な移動データ取得が困難であり,現実的なシミュレーションが求められている。
    • 移動軌跡とトラフィックの相互依存性を考慮した,統一的なシミュレーションフレームワークを提案し,精度向上を目指す。
    • 提案手法MSTDiffは,離散ウェーブレット変換によるマルチ解像度トラフィック分解と,ハイブリッドノイズ除去ネットワークを用いる。
    • 都市知識グラフ埋め込みの類似度に基づく遷移メカニズムにより,意味的に情報に基づいた軌跡生成を誘導する。
    • 実験の結果,MSTDiffは最先端のベースラインを上回り,トラフィック生成でJSDを最大17.38%,軌跡生成で平均39.53%削減した。

    Link: https://arxiv.org/abs/2510.10158

  • SaFiRe:Mambaを用いた注視点反復による参照画像セグメンテーション [cs.CL, cs.CV, cs.AI]目的:参照画像セグメンテーションにおける性能向上
    • 画像と自然言語を結びつける技術であり,ロボット工学や画像検索に応用が期待される。
    • 既存手法は単純な表現に偏っており,曖昧な表現に対する対応が不十分である。
    • 曖昧な表現,特に文脈依存の表現やカテゴリが明示されていない表現への対応を目指す。
    • SaFiReは人間の認知プロセスを模倣し,大まかな理解から詳細な検査へと段階的に対象物を特定する。
    • Mambaの走査・更新特性を活用することで,効率的な多段階の精度向上を実現している。
    • 新たにaRefCOCOベンチマークを導入し,曖昧な表現に対する性能評価を行った結果,最先端手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2510.10160

  • 大規模言語モデルのソース特定:調査 [cs.CL, cs.AI]目的:大規模言語モデル生成コンテンツの由来追跡
    • AI技術が客観的タスクから主観的判断まで進化し,幅広い分野で活用が拡大している。
    • LLMのブラックボックス性により,幻覚,偏見,著作権侵害等のリスクが顕在化している。
    • LLMの透明性,説明責任,信頼性を高めるための情報源特定手法を整理する。
    • LLMのソース特定は,モデル全体,内部構造,学習データ,外部データという4つの視点から捉えられる。
    • 既存のソース特定手法は,事前埋め込み型と事後推論型という二つのパラダイムに分類できる。
    • 多角的な由来追跡により,LLMの実世界での応用における信頼性が向上する。

    Link: https://arxiv.org/abs/2510.10161

  • ラグランジュ最適化の観点からの簡潔な推論 [cs.DC, cs.AI]目的:大規模言語モデルにおける簡潔な推論の実現
    • 大規模言語モデルの複雑化に伴い,推論過程の効率化が重要になっている。
    • 既存手法は,簡潔性と性能のバランスが難しく,汎用性に欠ける場合が多い。
    • 性能を維持しつつ,推論過程を可能な限り簡潔にすることを目指す。
    • 提案手法PALUは,出力長を平均65%削減し,精度を15%向上させた。
    • PALUは,論理,STEM,数学といった多様なドメインで効果を発揮する。
    • モデル規模(1.5B,7B,14B)の変化にも適応可能であり,実用的な手法である。

    Link: https://arxiv.org/abs/2510.10168

  • BrainForm:BCI訓練とデータ収集のためのシリアスゲーム [cs.HC, cs.LG]目的:BCI訓練とデータ収集のためのシリアスゲーム
    • 脳波を用いたインターフェースは,医療や福祉分野での応用が期待されており,研究開発が盛んである。
    • BCIシステムの訓練には時間がかかり,ユーザーのモチベーション維持が課題となっている。
    • 低コストな環境で,効果的なBCI訓練とデータ収集を実現し,研究の加速に貢献すること。
    • ゲーム体験に関するアンケート結果から,フロー,ポジティブ感情,能力,挑戦性において高い評価が得られ,持続的な関与が示唆された。
    • テクスチャの種類によるパフォーマンスの違いは見られなかったが,時間経過に伴い眼の刺激が増加した。
    • シンボルスペリングにおけるタスク精度,タスク時間,情報伝達速度がセッションを通して改善され,学習効果が確認された。

    Link: https://arxiv.org/abs/2510.10169

  • HccePose(BF):姿勢推定のための超高密度2D-3D対応関係構築に向けた,正面と背面の表面予測 [cs.CY, cs.CV, cs.AI]目的:姿勢推定のための超高密度2D-3D対応関係
    • 物体認識において,正確な姿勢推定はロ봇の自律的な操作やAR/VR技術の発展に不可欠である。
    • 既存手法は正面表面の3次元座標予測に注力しており,背面や内部の情報を活用できていない。
    • 物体全体の表面と内部情報を活用し,姿勢推定の精度向上を目指す。
    • 提案手法では,正面と背面の3次元座標を予測し,両者間の高密度サンプリングにより超高密度な2D-3D対応関係を生成する。
    • 階層的な連続座標エンコーディング(HCCE)により,表面座標の正確かつ効率的な表現を実現した。
    • BOPウェブサイトの7つの主要データセットにおいて,提案手法は既存の最先端手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2510.10177

  • 大規模言語モデルでMOJOのファジングを改善:LLMだけで十分か? [cs.SE, cs.AI]目的:MOJO言語に対するLLMベースのファジングフレームワークの提案
    • ソフトウェアの信頼性向上において,ファジングは重要な役割を担う。自動化による効率的なテスト入力生成が求められている。
    • 新言語MOJOは高性能だが,テストフレームワークやLLMベースのテスト用コーパスが不足している。
    • LLMによる文法的に正しいが意味的に誤ったコード生成を防ぎ,ファジングの有効性を高めることを目指す。
    • 提案手法MOJOFuzzerは,実行前に低品質な入力を排除することでテストケースの妥当性を大幅に向上させる。
    • MOJOFuzzerは実行時フィードバックに基づきLLMプロンプトを動的に適応させ,反復学習によるファジング効率とバグ検出能力を高める。
    • 実験結果から,MOJOFuzzerは従来のファジングや最先端のLLMベースのファジング手法を上回り,13個の未知のバグを発見した。

    Link: https://arxiv.org/abs/2510.10179

  • デジャヴ:経験フィードバックによる展開後学習を用いた具現化されたエージェント [cs.RO, cs.AI, cs.CV]目的:展開後の具現化されたエージェントにおける経験学習の枠組み
    • 具現化されたエージェントは,現実世界での応用が期待される重要な研究分野である。
    • 展開後のエージェントは新たな知識を獲得できず,タスク性能向上が困難である。
    • 展開後の環境において,過去の成功経験を活用し,エージェントの適応性を高める。
    • 提案手法であるDejavuは,経験フィードバックネットワーク(EFN)を用いて,過去の成功事例を想起する。
    • EFNは,現在の観測に基づいて行動予測を行い,強化学習とセマンティック類似度報酬によって調整される。
    • 実験の結果,Dejavuは適応性,ロバスト性,成功率を向上させ,展開後の継続的な学習能力を示す。

    Link: https://arxiv.org/abs/2510.10181

  • 大規模言語モデルにおける帰納的推論の調査 [cs.CL, cs.AI]目的:大規模言語モデルの帰納的推論に関する体系的な概要
    • 言語モデルの高度化に伴い,人間らしい思考能力が求められているため。
    • 帰納的推論は重要な能力だが,その概要をまとめた体系的な調査が存在しなかった。
    • 大規模言語モデルにおける帰納的推論能力の向上と評価手法の確立を目指す。
    • 本調査では,帰納的推論能力向上のための手法を,後学習,テスト時スケーリング,データ拡張の3つの領域に分類した。
    • 既存の帰納的推論ベンチマークをまとめ,観測範囲を指標とした統一的な評価アプローチを提案した。
    • 帰納的推論能力の源泉や,単純なモデル構造やデータが帰納的タスクにどのように役立つかを分析した。

    Link: https://arxiv.org/abs/2510.10182

  • MedAgentAudit:医療マルチエージェントシステムの協調的失敗モードの診断と定量化 [cs.CL, cs.AI, cs.MA]目的:医療マルチエージェントシステムにおける協調的失敗モードの分類と定量化
    • 医療分野におけるAI活用は,診断精度向上や医療資源の最適化に貢献し,医療の質向上に不可欠である。
    • LLMベースのマルチエージェントシステムは,内部の協調プロセスが不透明で,推論経路の検証が困難であるという問題がある。
    • 本研究は,医療AIシステムの信頼性向上に不可欠な,透明性と検証可能な推論プロセスの確立を目指す。
    • 大規模な実験により,共有されたモデルの欠陥による誤った合意形成,少数意見の抑圧,不適切な議論の展開,情報の損失という4つの主要な失敗パターンを明らかにした。
    • 高い正答率だけでは臨床的または公共の信頼を得ることは不十分であり,透明性のある推論プロセスが不可欠であることが示された。
    • 本研究は,医療AIの責任ある開発と展開のために,監査可能な推論プロセスの重要性を強調する。

    Link: https://arxiv.org/abs/2510.10185

  • INR-Bench:多ドメイン回帰と再構成のための暗黙的ニューラル表現統一ベンチマーク [cs.LG, cs.CV]目的:暗黙的ニューラル表現における効果と限界を評価するための統一ベンチマーク
    • 暗黙的ニューラル表現は,連続性と無限分解能の利点から信号処理分野で注目されている。
    • モデル構造や非線形性などが性能に与える影響は十分に解明されていない。
    • 多様なタスクにおけるモデルの特性を明らかにし,今後の研究の基盤を確立する。
    • INR-Benchは,座標MLPと座標KANの56種類と22種類の変種を含み,9つのマルチモーダルタスクで評価された。
    • 実験により,モデル構造,位置エンコーディング,非線形性が周波数特性の異なる信号への応答に与える影響が明らかになった。
    • 本ベンチマークは,異なるニューラルモデルの強みと限界を明確に示すための堅牢なプラットフォームを提供する。

    Link: https://arxiv.org/abs/2510.10188

  • 時間的計画問題の非解可能性の厳密な証明 [cs.LO, cs.AI]目的:時間的計画問題における非解可能性の証明
    • 自動計画はAIの基盤技術であり,ロボットや自動化システムに不可欠である。
    • 計画問題が解けない場合,その証明には高い信頼性が求められる。
    • 形式的な検証を用いて,非解可能な計画問題の証明を信頼性高く行う。
    • 計画問題をtimed automataのネットワークに変換し,モデルチェッカと証明チェッカを用いる。
    • エンコーディングの形式検証にはIsabelle/HOLを使用し,証明の信頼性を高めている。
    • 既存の形式検証済み証明チェッカを利用することで,モデルチェッカの結果を保証する。

    Link: https://arxiv.org/abs/2510.10189

  • SAFER:大規模言語モデルにおけるリスク制約付きサンプリング・フィルタリング [cs.AI]目的:大規模言語モデルの出力信頼性確保
    • 現実世界へのLLM応用が進む中で,出力の信頼性が不可欠である。
    • 既存手法は,開放型QAのように解空間が有限でない場合に,解の取得を前提としている。
    • 開放型QAにおけるリスク管理を可能にするフレームワークの提案。
    • SAFERは,棄権を考慮したサンプリングとコンフォーマルフィルタリングの二段階構成でリスクを制御する。
    • 校正データセットを用いてサンプリング予算を調整し,リスクレベルを満たせない場合は棄権する。
    • 正解除外のリスクを制御するための追加リスクレベルを導入し,統計的に有効な不確実性閾値を算出する。

    Link: https://arxiv.org/abs/2510.10193

  • CauchyNet:ホロモルフィック活性化関数を用いたコンパクトかつデータ効率的な学習 [cs.LG, cs.AI]目的:関数近似のための新たなニューラルネットワーク
    • 時系列予測など,データ駆動型予測モデリングの重要性が高まっている。
    • 従来のモデルは,パラメータ数が多く計算コストが高い場合がある。
    • 限られたリソースとデータで高い予測性能を実現すること。
    • CauchyNetは,従来のモデルと比較して予測精度が向上し,平均絶対誤差を50%削減。
    • 複素数値活性化関数により,不完全なデータからのロバストな学習が可能。
    • パラメータ数が少なく,計算コストも削減されることが実験で示された。

    Link: https://arxiv.org/abs/2510.10195

  • エージェントをファインチューニングするだけでなく,環境を調整せよ [cs.AI]目的:大規模言語モデルエージェントの学習における新たな訓練パラダイム
    • 複雑なタスク解決において,LLMエージェントの可能性は大きいが,高品質な訓練データの不足が課題となっている。
    • 教師ありファインチューニングは過学習を起こしやすく,強化学習はコールドスタート問題や訓練の不安定性に悩まされている。
    • 問題インスタンスから直接学習し,データ効率と汎化性能を向上させることを目指す。
    • 環境調整により,わずか400件のBFCLデータセットで,既存手法と同等の性能を達成した。
    • 特に,分布外データに対する汎化性能において優れており,SFTベースのアプローチで頻発する性能低下を克服した。
    • 静的なデータによる教師あり学習から,動的な環境に基づく探索へとパラダイムシフトをもたらす。

    Link: https://arxiv.org/abs/2510.10197

  • 生成AI時代における信頼の再検討:因子構造と潜在的プロファイル [cs.HC, cs.AI]目的:生成AIに対する信頼の因子構造と潜在的プロファイルの特定
    • AIの社会実装が進む中,AIに対する信頼は受容と利用を左右する重要な要素である。
    • 既存研究では,AIの信頼を機能性に偏って評価し,社会性や感情的な側面が十分に考慮されていない。
    • 本研究は,生成AI固有の信頼の構造を明らかにし,信頼性を評価するための新たな尺度を開発することを目指す。
    • 人間とAIの信頼尺度(HAITS)の妥当性が確認され,信頼の4つの因子(愛情的信頼,能力的信頼,親切心と誠実さ,知覚されたリスク)が特定された。
    • 潜在プロファイル分析により,信頼の特性が異なる6つのユーザープロファイルが明らかになり,文化間での差異も確認された。
    • 本研究は,生成AIに対する信頼測定の新たなツールを提供し,人間とAIの相互作用における信頼の進化に関する洞察を深める。

    Link: https://arxiv.org/abs/2510.10199

  • LLM向け強化学習におけるフロー環境による拡張:RLFR [cs.LG, cs.AI, cs.CL]目的:大規模言語モデル(LLM)の推論能力を向上させるための強化学習フレームワーク
    • LLMの性能向上は,自然言語処理の発展に不可欠であり,その応用範囲は広い。
    • 従来の強化学習では,二値検証による報酬最適化が,有効な探索を妨げる場合がある。
    • 潜在空間から得られるフロー報酬を用いて,強化学習の報酬形成を改善し,探索を促進すること。
    • RLFRは,確立されたフロー場が報酬信号収集のための有効な環境となり,潜在空間の表現力の高さを明らかにした。
    • オフポリシーの専門家データを報酬信号の参照として圧縮可能であり,文脈理解において隠れ状態内の依存関係を利用する。
    • 言語およびマルチモーダル推論のベンチマークにおいて,フロー報酬の信頼性が示され,補助信号を用いた報酬形成の有望なパラダイムを示唆する。

    Link: https://arxiv.org/abs/2510.10201

  • PIXEL:部分空間キャリブレーション下における位置ごとの注入による適応的操舵 [cs.AI]目的:大規模言語モデルの信頼性向上を目指した活性化ベクトルの操舵手法
    • ウェブ上での大規模言語モデル活用には,信頼性の高い挙動制御が不可欠である。
    • 既存手法は,大まかなヒューリスティックに頼る傾向があり,介入箇所と強度の原則的な決定が課題である。
    • トークンレベルの感度に適応し,グローバルなハイパーパラメータ調整を不要とする操舵手法を開発する。
    • PIXELは,二つの視点(テール平均化と終端トークン)から特性に合致した部分空間を学習することで,位置ごとの活性化ベクトル操舵を実現する。
    • 制約付き幾何学的目的関数と閉形式解を用いることで,介入強度を適切に選択し,トークンレベルの感度への適応を可能にする。
    • 多様なモデルと評価方法において,PIXELは属性整合性を向上させながら,モデルの汎用的な能力を維持することが示された。

    Link: https://arxiv.org/abs/2510.10205

  • 適応二重推論器:大規模推論モデルはハイブリッド推論により効率的に思考できる [cs.RO, cs.MA, cs.AI]目的:大規模推論モデルにおける効率的な推論手法
    • 複雑な推論タスクの自動化は,AI研究における重要な課題である。
    • 大規模推論モデルは高性能だが,計算コストや推論遅延が大きいという問題がある。
    • 推論の文脈に応じて推論モードを動的に切り替えることで,効率と性能を両立することを目指す。
    • 提案手法である適応二重推論器(ADR)は,高速思考と低速思考という2つの推論モードをサポートする。
    • ADRは,大規模なハイブリッド推論データセットを用いた教師あり学習と,Entropy-guided Hybrid Policy Optimization(EHPO)による強化学習によって学習される。
    • 数学的推論ベンチマークにおいて,最先端の手法と同等以上の性能を,より短い推論ステップ数で実現した。

    Link: https://arxiv.org/abs/2510.10207

  • LOOPerSet:データ駆動型ポリヘドラルコンパイラ最適化のための大規模データセット [cs.CL, cs.PL, cs.LG, cs.PF]目的:データ駆動型ポリヘドラルコンパイラ最適化のための大規模データセット
    • コンパイラ最適化は,計算資源を効率的に活用し,高性能なソフトウェアを実現するために不可欠である。
    • 機械学習を活用したコンパイラ最適化は,大規模な性能データセットの不足が課題となっている。
    • 学習コストの削減と再現性のある研究を促進するため,大規模で多様なデータセットの提供を目指す。
    • LOOPerSetは,22万個のポリヘドラルプログラムから生成された2800万個のラベル付きデータポイントを含む公開データセットである。
    • 各データポイントは,プログラムと変換シーケンスを,実行時間という性能測定値にマッピングしている。
    • LOOPerSetは,コストモデルの学習,新しいモデルアーキテクチャのベンチマーク,自動スケジューリングの探求に役立つ。

    Link: https://arxiv.org/abs/2510.10209

  • 分子グラフ生成のための階層型ベイジアンフローネットワーク [cs.LG]目的:分子グラフ生成における新規手法の提案
    • 創薬や材料科学において,新たな分子構造の効率的な探索が不可欠である。
    • 既存手法は回帰タスクとして学習し,離散的な分類操作との不整合が課題である。
    • 学習と推論の目標を一致させ,分子多様性と汎化性能の向上を目指す。
    • 提案手法GraphBFNは,分布のパラメータを扱うことで,分類とサンプリングを統合している。
    • QM9およびZINC250kのベンチマークにおいて,最先端の性能と高速な生成を実現した。
    • 過学習の抑制と分子多様性の向上に貢献すると考えられる。

    Link: https://arxiv.org/abs/2510.10211