arXiv雑要約

AI - 2025/12/16 公開

  • Attention機構における双方向スパンの拡張とスパン違反 [cs.LG, cs.AI, cs.CL]目的:Attention機構における双方向スパンの拡張とスパン違反に関する最適化手法
    • シーケンスモデリングは自然言語処理の根幹であり,Transformerはその性能で広く利用されている。
    • Transformerの計算量は系列長に対して二乗で増加するため,長系列の処理が課題となっている。
    • Attention機構の勾配を効率的に分解し,学習信号を最適化することで計算コストを削減する。
    • 非対称な射影を用いることで,勾配を並列スパンと直交違反に分解するフレームワークを提案した。
    • 標準的なAttention勾配が最適ではないことを理論的に示した。双方向スパンのスケール調整が最も効果的である。
    • WikiText-2データセットで,検証損失を0.56%削減し,提案手法の有効性を確認した。

    Link: https://arxiv.org/abs/2512.13033

  • Alada:メモリ効率の良い行列最適化のためのモーメンタム法の交互適応 [cs.LG]目的:大規模行列における確率的最適化のための適応モーメンタム法
    • 近年,大規模な機械学習モデルの学習が重要視されており,計算資源の効率的な利用が求められている。
    • 従来の最適化手法では,メモリ消費量が大きく,大規模モデルの学習におけるボトルネックとなっている。
    • 本研究では,メモリ消費量を削減しつつ,効率的な学習を可能にする新しい最適化手法を提案する。
    • 提案手法Aladaは,勾配の二乗モーメントを推定するために,ランク1の因子分解アプローチを用いている。
    • 因子は交互に更新され,推定誤差を最小化することで,線形以下のメモリオーバーヘッドを実現する。
    • 自然言語処理タスクにおける数値実験により,Adamと比較してメモリ消費量が削減され,大規模モデルの学習におけるロバスト性が向上することが示された。

    Link: https://arxiv.org/abs/2512.13034

  • 購入者の短期的な行動に基づくEコマース検索ランキングの段階的改善 [cs.IR, cs.LG]目的:Eコマース検索ランキングの改善
    • Eコマースは現代の小売において不可欠であり,検索ランキングはその成功を左右する重要な要素である。
    • 購入者の意図は時間とともに変化するため,従来の検索ランキング手法では適切な結果を提供できない場合がある。
    • 購入者の行動履歴を考慮し,検索ランキングを動的に改善することで,より関連性の高い結果を提供することを目指す。
    • 段階的なコンテキスト情報と最新技術の組み込みにより,検索ランキングの性能が大幅に向上した。
    • 簡単なヒューリスティックな自己回帰的特徴から高度なシーケンスモデルまで,段階的な改善が有効であることが示された。
    • オフラインおよびオンラインA/Bテストにおいて,平均相互順位(MRR)の向上により,検索結果の改善が確認された。

    Link: https://arxiv.org/abs/2512.13037

  • LLMを用いた構造化金融データ理解:不正検知のケーススタディ [cs.LG, cs.CL]目的:金融不正検知におけるLLMの応用可能性
    • 金融取引の安全性確保は,経済活動の基盤であり,社会全体の信頼を維持する上で重要である。
    • 従来の表形式モデルは,特徴量エンジニアリングの負荷が高く,予測の解釈性が低いという課題があった。
    • LLMの解釈可能性と特徴量分析能力を活かし,不正検知における分析者の負担軽減を目指す。
    • FinFRE-RAGは,重要度に基づいた特徴量削減とRetrieval-Augmented Generation (RAG)を組み合わせることで,LLMの性能を向上させた。
    • 4つの公開データセットと3つのオープンウェイトLLMを用いた実験で,FinFRE-RAGは直接プロンプトや表形式モデルと比較して,F1スコアとMCCにおいて顕著な改善を示した。
    • LLMは依然として専門的な分類器に劣るものの,性能差を縮小し,解釈可能な根拠を提供することで,不正分析における支援ツールとしての価値を示唆した。

    Link: https://arxiv.org/abs/2512.13040

  • GTR-Turbo:エージェント型VLM学習のための秘密の無料教師 [cs.CV, cs.AI]目的:エージェント型VLM学習における報酬の希薄性と長期的な信用割当問題の解決
    • マルチモーダルエージェントは多様なタスクをこなせるため,その重要性が増している。
    • 従来の強化学習では報酬が少ない,また学習に時間がかかるという課題があった。
    • 高価な教師モデルに依存せず,効率的に学習を促進する手法の確立を目指す。
    • GTR-Turboは,GTRと同等の性能を,高価な教師モデルなしに達成した。
    • 学習中のチェックポイントを統合することで「無料の教師」として機能し,学習を効率化する。
    • 精度が10-30%向上し,学習時間と計算コストをそれぞれ50%と60%削減した。

    Link: https://arxiv.org/abs/2512.13043

  • 異種データ環境におけるETL最適化のための深層Q学習に基づくインテリジェントなスケジューリング [cs.CL, cs.LG]目的:異種データ環境下でのETLプロセスのスケジューリング効率向上
    • データ活用の重要性が増す中,大量データの効率的な処理が求められている。
    • 従来のETLスケジューリングでは,リソースの偏りや環境変化への対応が課題である。
    • 深層Q学習により,複雑な環境下での最適化と適応性を実現することを目指す。
    • 提案手法は,平均スケジューリング遅延を大幅に削減することが示された。
    • システムのスループットが向上し,マルチソース異種タスク環境下での実行安定性が確認された。
    • 強化学習が複雑なデータスケジューリングやリソース管理に有効であることが示唆された。

    Link: https://arxiv.org/abs/2512.13060

  • LLMにおける交渉能力の測定:AI交渉エージェントの駆け引き能力 [cs.CY, cs.CL, cs.AI]目的:AI交渉エージェントの交渉における駆け引き能力の定量化
    • 人間同士の交渉は複雑であり,状況に応じて戦略を変化させるため,AI交渉の設計に不可欠である。
    • 現在のAIモデルは,交渉相手の状況や戦略を理解せず,柔軟性に欠けることが課題である。
    • AIモデルがより人間らしい交渉を行うために,相手の思考や文脈を考慮した戦略が必要である。
    • 人間は状況に適応し相手の戦略を推測するが,LLMは交渉範囲の極端な位置に固定し,状況や交渉力に関わらず最適化を試みる。
    • LLMは戦略的多様性が限られており,場合によっては欺瞞的な戦術を用いることが示唆された。
    • LLMのモデル性能向上は交渉能力の向上に繋がらず,根本的な限界が明らかになった。

    Link: https://arxiv.org/abs/2512.13063

  • オートエンコーダ転移学習による多精度空力データ融合 [cs.LG, physics.flu-dyn, stat.ML]目的:多精度空力データの融合
    • 空力予測の精度向上は航空機の性能向上に不可欠であり,工学分野において重要な課題である。
    • 高精度な空力シミュレーションは計算コストが高く,データ駆動型モデリングへの適用が制限されている。
    • 少ない高精度データでも高精度な予測を可能にする,効率的なデータ融合手法を確立すること。
    • 本研究では,オートエンコーダを用いた転移学習とMulti-Split Conformal Prediction(MSCP)を組み合わせた深層学習フレームワークを提案した。
    • 提案手法は,豊富な低精度データを活用し,少ない高精度データで高精度な圧力予測を実現した。
    • MSCPフレームワークにより,95%を超える信頼区間を持つ,信頼性の高い不確実性バンドが得られた。

    Link: https://arxiv.org/abs/2512.13069

  • M-GRPO:Momentum-Anchored Policy Optimizationによる大規模言語モデルの自己教師あり強化学習の安定化 [cs.AI, cs.CL]目的:大規模言語モデルにおける自己教師あり強化学習の安定化
    • 大規模言語モデルの推論能力向上は重要であり,特に人間によるアノテーションコスト削減が求められる。
    • 既存手法では,長期的な訓練において「政策崩壊」が発生し,性能が急激に低下する問題がある。
    • Momentum-Anchored Policy OptimizationとIQRフィルタを用いて,政策崩壊を防ぎ,学習安定性を高める。
    • M-GRPOは,ゆっくりと進化するMomentumモデルを用いて安定した学習ターゲットを提供し,訓練過程を安定化させる。
    • IQRフィルタは,低エントロピーな軌跡を動的に除去し,政策の多様性を維持することで,早期収束を防止する。
    • 両方の革新的な手法の組み合わせにより,優れた訓練安定性と最先端の性能を実現した。

    Link: https://arxiv.org/abs/2512.13070

  • 大規模稠密検索における対称的な整合性インデックスの単純かつ効果的なフレームワーク [cs.IR, cs.AI]目的:大規模稠密検索における,対称的な整合性インデックスの実現
    • 情報検索の分野において,効率性と精度が求められており,稠密検索が業界標準となっている。
    • 双塔型エンコーディング構造には,表現空間のずれやインデックスの不整合といった課題が存在する。
    • 表現空間のずれと不整合を解消し,検索精度と安定性を向上させることを目指す。
    • 提案手法SCIは,パラメータ増加なしに双塔表現空間を統一する対称表現アライメントモジュールと,一貫性のあるインデックスを構築するモジュールで構成される。
    • SCIは軽量で,大規模展開にも対応可能であり,理論的な保証も存在する。
    • 公開データセットおよび実世界のeコマースデータセットを用いた実験により,その有効性が確認された。

    Link: https://arxiv.org/abs/2512.13074

  • LikeBench:LLMにおける主観的な好感度の評価 [cs.LG]目的:LLMのパーソナライズにおける好感度評価
    • LLMの普及に伴い,ユーザー体験向上の重要性が増している。
    • 既存のパーソナライズ評価は,正確な情報想起に偏っており,好感度評価が不十分である。
    • LLMがユーザーの好みに適応し,より好感度の高い応答を生成できるかを評価する。
    • LikeBenchは,複数回の会話を通じてLLMの好感度を多角的に評価するフレームワークである。
    • 好感度は,感情への適応,形式,知識,会話の長さなど,7つの指標に分解して評価される。
    • 記憶性能が高いLLMであっても,必ずしも好感度が高いとは限らないことが示された。

    Link: https://arxiv.org/abs/2512.13077

  • DiRe:データセット凝縮のための多様性促進正則化 [cs.RO, cs.CV, cs.LG]目的:データセット凝縮における,大規模データセットと同等の性能を持つ小規模データセットの合成
    • 機械学習モデルの学習効率向上には,データセットの規模を縮小することが重要である。
    • 既存の凝縮手法では,合成されたデータセットに冗長性が高く,多様性が不足している。
    • 合成データセットの冗長性を低減し,多様性を向上させることで,汎化性能を高める。
    • 提案手法DiReは,コサイン類似度とユークリッド距離に基づく正則化項であり,既存の凝縮手法に容易に組み込むことができる。
    • CIFAR-10からImageNet-1Kまでの複数のベンチマークデータセットで,DiReの追加により,最先端の凝縮手法の汎化性能と多様性が向上することが示された。
    • DiReは,データセット凝縮における多様性確保の有効性を示唆しており,今後の研究の方向性を示す。

    Link: https://arxiv.org/abs/2512.13083

  • オープンボキャブラリ時代における教師なし変化検出の新手法 UniVCD [cs.CV, cs.AI]目的:オープンボキャブラリにおける教師なし変化検出
    • 都市開発や環境モニタリングなど幅広い分野で変化検出が重要視されている。
    • 既存手法は教師あり学習に依存し,アノテーションコストが高く,汎化性能が低い。
    • ラベルデータやペア画像を用いず,多様なシーンで変化検出を可能にする。
    • UniVCDは,凍結されたSAM2とCLIPを用いて,カテゴリに依存しない変化を検出する。
    • 軽量な特徴量アライメントモジュールにより,高解像度かつ意味的に認識可能な変化推定を実現。
    • 複数のベンチマークにおいて,既存手法と同等以上の性能をF1スコアやIoUで示した。

    Link: https://arxiv.org/abs/2512.13089

  • プロプリオセプション優先的コントラスト表現による効率的なヒューマノイドロボット学習 [cs.RO, cs.RO, cs.LG]目的:ヒューマノイドロボットの効率的かつロバストな全身制御
    • ヒューマノイドロボットは複雑なタスク実行において不可欠。高度な制御技術が求められている。
    • 強化学習は有望だが,ヒューマノイドロボット特有の複雑さからサンプル効率が課題となっている。
    • プロプリオセプションと特権状態の相補性を利用し,データ効率の良い学習を目指す。
    • 提案手法PvPは,手動によるデータ拡張なしに,コンパクトでタスクに関連する潜在表現を学習する。
    • SRL4Humanoidは,ヒューマノイドロボット学習のための代表的な状態表現学習手法を実装する統一的フレームワークである。
    • 速度追従とモーション模倣タスクにおいて,PvPはベースライン手法と比較してサンプル効率と性能を大幅に向上させた。

    Link: https://arxiv.org/abs/2512.13093

  • 専門家のシーケンス:時間的交互作用による自律運転のための模倣プランナーの強化 [cs.RO, cs.AI]目的:自律運転における模倣プランナーの性能向上
    • 自動運転技術は,安全性向上や交通渋滞緩和に貢献し,社会に大きな変革をもたらす可能性を秘めている。
    • 模倣学習は誤差の蓄積により閉ループ環境で性能が低下し,深刻な失敗につながる可能性がある。
    • 時間スケールを活用することで,誤差蓄積に対するロバスト性を高め,自律運転の性能を向上させる。
    • 提案手法「専門家のシーケンス(SoE)」は,モデルサイズやデータ量を増加させることなく,閉ループ性能を改善する。
    • 大規模な自動運転ベンチマークnuPlanにおいて,SoEは評価した全てのモデルの性能を大幅に向上させた。
    • SoEは最先端の性能を達成し,自動運転モデルの学習効率向上に貢献する基盤技術となり得る。

    Link: https://arxiv.org/abs/2512.13094

  • ADHint:難易度事前分布を用いた強化学習のための適応的ヒント [cs.CV, cs.LG]目的:強化学習におけるヒントの活用方法
    • 近年の大規模言語モデルでは,知識拡張と推論能力の向上が重要視されている。
    • 既存のヒントベースRL手法では,難易度を考慮せずヒント比率を調整するため,学習が不安定になりやすい。
    • ヒントの難易度に応じて比率を調整し,探索と模倣のバランスを取ることで,学習の安定化を目指す。
    • ADHintは,サンプルごとの難易度に基づいてヒント比率を適応的に調整し,ロールアウトを誘導する。
    • Consistency-based Gradient ModulationとSelective Maskingにより,ヒント内の勾配を調整し,偏った更新を防ぐ。
    • ロールアウトの難易度分布を用いて,ヒントの相対的な利点を推定し,バランスの取れた更新を実現する。

    Link: https://arxiv.org/abs/2512.13095

  • OXE-AugE:クロス具現化ポリシー学習のスケーリングのためのOXEのロボット拡張 [cs.DC, eess.SY, cs.CE, cs.SY, cs.RO, cs.AI]目的:汎用的なロボットポリシーの学習
    • 多様なロボット環境で動作する汎用ロボットの開発は,自動化において不可欠である。
    • 既存のロボットデータセットは,ロボットの種類やシーンの組み合わせに偏りがある場合が多い。
    • ロボットデータの拡張によって,クロス具現化学習の性能向上を目指す。
    • OXE-AugEは,既存のOXEデータセットを9種類のロボットで拡張し,データ量を3倍以上に増加させた。
    • データ拡張は,拡張されたロボットだけでなく,未知のロボットや元のロボットの性能向上に貢献する。
    • OpenVLAやπ_0といった既存の汎用ポリシーは,OXE-AugEでファインチューニングすることで,未知のロボット-グリッパーの組み合わせにおいて,成功率が24-45%向上した。

    Link: https://arxiv.org/abs/2512.13100

  • 汎化と特殊化の調和:不確実性に基づいた半教師あり医療画像セグメンテーションのための協調学習 [cs.CV, cs.AI, cs.LG]目的:半教師あり医療画像セグメンテーションにおける汎化と特殊化の調和
    • 医療画像解析の精度向上は,疾患の早期発見や治療効果の改善に不可欠である。
    • 大規模事前学習モデルは汎化性能が高い反面,限られたアノテーションや稀な病理変化への適応が課題である。
    • 汎用的な知識とタスク固有の知識を調和させ,少ないアノテーションで高精度なセグメンテーションを実現する。
    • 提案手法UnCoLは,汎化と特殊化を両立する二重教師フレームワークにより,既存の半教師ありセグメンテーション手法や事前学習モデルを上回る性能を示す。
    • UnCoLは,予測不確実性に基づいて疑似ラベル学習を適応的に制御することで,信頼性の低い教師信号を抑制し,曖昧な領域での学習を安定化させる。
    • 本研究は,大幅なアノテーションコスト削減とほぼ完全に教師あり学習と同等の性能達成を可能にする。

    Link: https://arxiv.org/abs/2512.13101

  • ソクラテス的生徒:質問による学習を言語モデルに [cs.AI]目的:言語モデルによる質問を通じた学習戦略
    • 現実世界のタスクでは,静的な知識だけでなく動的な情報獲得が重要である。
    • 従来の学習研究は教師主導に偏っており,生徒の積極的な質問による学習は未開拓である。
    • 生徒が自ら質問し,教師から必要な情報を効率的に引き出す学習方法を確立する。
    • 数学とコーディングのタスクにおいて,生徒主導のアプローチは静的なベースラインよりもPass@kを0.5以上改善した。
    • DPOを用いた訓練により,より質の高い質問を生成し,学習効率を高めることが示された。
    • より小規模なモデルでも,指導を受けた訓練により質問能力が向上し,学習効果が向上した。

    Link: https://arxiv.org/abs/2512.13102

  • TraPO:LLMの推論能力向上を目指す半教師あり強化学習フレームワーク [cs.LG, cs.AI]目的:LLMの推論能力を向上させるための半教師あり強化学習フレームワークの開発
    • 大規模言語モデルの推論能力向上は,AI研究における重要な課題である。
    • 強化学習による推論モデルの訓練は,検証可能な報酬の付与にコストがかかるという課題がある。
    • 少量のラベル付きデータと大量のラベルなしデータを活用し,効率的な学習を実現することを目指す。
    • 提案手法TraPOは,ラベル付きデータとラベルなしデータの学習軌跡の類似性に基づいて,信頼性の高いラベルなしデータを特定する。
    • TraPOは,6つの数学的推論ベンチマークと3つの分布外タスクにおいて,高いデータ効率と汎化性能を示す。
    • わずか1Kのラベル付きデータと3Kのラベルなしデータで,45Kのラベルなしデータで訓練された既存手法を上回る精度を達成した。

    Link: https://arxiv.org/abs/2512.13106

  • 悪天候下におけるマルチモーダル3D物体検出のための拡散ベース復元 [cs.CV, cs.AI]目的:悪天候下でのロバスト性を高めるための拡散ベース復元と適応的クロスモーダル融合フレームワーク
    • ロボティクスや自動運転において,信頼性の高い知覚を実現するために,マルチモーダル3D物体検出は不可欠である。
    • 悪天候下では,天候による歪みや異なるデータモダリティ間のずれにより,その有効性が制限されるという課題がある。
    • 本研究は,悪天候下におけるマルチモーダル3D物体検出のロバスト性を向上させることを目指している。
    • 提案手法DiffFusionは,画像とLiDARデータの劣化をそれぞれ復元するDiffusion-IRとPCRを導入することで,悪天候下での性能向上を実現した。
    • 異なるモダリティ間のずれに対処するため,動的なマルチモーダル融合と双方向BEVアライメントを実現するBAFAMを開発した。
    • 3つの公開データセットで最先端の性能を達成し,実世界のDENSEデータセットでのゼロショット実験でも汎化性能が確認された。

    Link: https://arxiv.org/abs/2512.13107

  • U字型注意バイアスの初期顕著性の役割の解明:初期トークン重みのスケーリングによる長文処理の強化 [cs.CL, cs.AI]目的:U字型注意バイアスにおける初期顕著性の役割
    • 大規模言語モデルの応用範囲拡大のため,長文処理能力の向上が重要である。
    • 長文の処理において「中間部が失われる」現象が課題となっている。
    • 初期顕著性がU字型注意バイアスに与える影響を解明し,長文処理性能を向上させる。
    • 初期トークンに対する注意重みを考慮したスケーリングが,長文処理能力を改善することを示した。
    • MDQAデータセットにおいて,最大3.6%の性能向上が確認された。
    • 位置エンコーディングバイアス軽減手法との組み合わせにより,KV-Retrievalタスクで最大3.4%の性能向上が見られた。

    Link: https://arxiv.org/abs/2512.13109

  • 過学習から信頼性へ:階層的近似ベイズニューラルネットワークの導入 [cs.LG, cs.AI]目的:階層的近似ベイズニューラルネットワークの提案
    • 近年のニューラルネットワークは多様な分野で成果を上げているが,汎化性能の向上が課題である。
    • ハイパーパラメータ調整や過学習は,ニューラルネットワークの信頼性を損なう主要な問題である。
    • モデルの不確実性を明示的に扱うことで,過学習を抑制し,より信頼性の高い予測を可能にする。
    • 提案手法は,重みのハイパープライヤーとしてガウス逆ウィシャート分布を用いることで,モデルのロバスト性と性能を向上させている。
    • 予測分布と重み事後分布を解析的に表現し,パラメータ計算を線形時間で実現している。
    • 実験結果から,提案手法は最先端モデルと同等またはそれ以上の性能を示し,安全性が重要な環境への応用が期待される。

    Link: https://arxiv.org/abs/2512.13111

  • 大規模動的異種グラフ埋め込みの実用化:コールドスタート耐性のある推薦 [cs.IR, cs.LG]目的:大規模動的異種グラフ埋め込みの実用化
    • 推薦システム等の精度向上に,グラフ構造の利用が不可欠である。
    • 動的なデータ変化への対応や,新規ノードへの対応が課題となる。
    • スケーラビリティとデータ鮮度を両立させ,コールドスタート問題を解決する。
    • HetSGFormerにより,従来のモデルと比較して広告主価値が最大6.11%向上した。
    • ILLEモジュールにより,さらに3.22%の広告主価値向上が見られ,埋め込み更新の迅速性が83.2%改善された。
    • 本研究は,動的グラフ学習を実運用環境に展開するための検証済みのフレームワークを提供する。

    Link: https://arxiv.org/abs/2512.13120

  • DePT3R:単一のフォワードパスにおける動的シーンの密な点追跡と3D再構成 [cs.CV, cs.AI]目的:動的シーンにおける密な点追跡と3D再構成
    • 動的シーン理解は,ロボット工学や自動運転など,多様な応用分野で不可欠である。
    • 既存手法は,カメラ姿勢の事前知識やフレームの順序に依存し,柔軟性に欠ける。
    • カメラ姿勢を必要とせず,動的な環境変化に対応可能な効率的な手法を確立する。
    • DePT3Rは,複数の画像から密な点追跡と3D再構成を単一のフォワードパスで同時に実行する。
    • 強力なバックボーンにより,深層空間一時特徴を抽出し,ピクセル単位のマップを回帰するマルチタスク学習を実現している。
    • 既存の最先端手法と比較して,メモリ効率において顕著な改善を示している。

    Link: https://arxiv.org/abs/2512.13122

  • スペクトルピーク検出のための量子畳み込みニューラルネットワーク [cs.LG]目的:スペクトルピーク検出と位置推定のマルチタスク問題
    • スペクトル分析は,複雑な分子の特性評価に不可欠であり,専門家にとっても機械にとっても困難な作業である。
    • 従来のピーク検出手法は,複雑なスペクトルにおいて精度と安定性に課題がある。
    • 量子畳み込みニューラルネットワークを用いて,従来のニューラルネットワークの限界を克服し,ピーク検出の精度向上を目指す。
    • 量子畳み込みニューラルネットワークは,困難なスペクトルにおいて,古典的な畳み込みニューラルネットワークを上回る性能を示した。
    • ピーク位置推定において,F1スコアが11%向上し,平均絶対誤差が30%減少した。
    • 量子畳み込みニューラルネットワークは,より難しい問題に対して,優れた収束安定性を示す傾向にある。

    Link: https://arxiv.org/abs/2512.13125

  • 階層的暗黙的周期性学習による統一的な共演話ジェスチャー生成に向けて [cs.AI, cs.CV, cs.GR, cs.MM, cs.SD]目的:音声からの3D人体動作生成
    • 共演話ジェスチャー生成は,様々な応用分野において潜在的な可能性を秘めている。
    • 既存の研究では,頭部,身体,手の間の複雑な相互関係のモデル化が不十分である。
    • 現実的なジェスチャー生成と,それらの自然な連携を実現することを目指す。
    • 本研究では,階層的暗黙的周期性(HIP)学習アプローチを提案し,音声から3Dジェスチャーを生成する。
    • 周期性オートエンコーダを用いてジェスチャーモーションの位相多様体を学習し,現実的な分布とインスタンスレベルの多様性を両立させる。
    • 顔,身体,手の動きの階層構造をモデル化し,カスケードガイダンスによりアニメーションを駆動する。定量・定性評価において,最先端の手法を上回る性能を示す。

    Link: https://arxiv.org/abs/2512.13131

  • AIは私たちが言えないことを理解できるか?中絶に対するスティグマを認知,対人,構造レベルで測定 [cs.AR, cs.AI, cs.HC]目的:中絶に対するスティグマの認知,対人,構造レベルにおける一貫性のある表現
    • LLMが医療上の意思決定を仲介する機会が増加しており,その理解能力の評価が重要である。
    • 現在のLLMは,複雑な心理的・生理的現象を真に理解しているかどうかが不明である。
    • LLMが多レベルのスティグマを理解しているかを検証し,安全性を高めるための提言を行う。
    • LLMは,認知レベルのスティグマを過小評価し,対人レベルのスティグマを過大評価する傾向がある。
    • LLMは,コミュニティからの非難が均一であると仮定し,検証データにない人口統計学的バイアスを導入する。
    • 現在のLLMは,心理的・生理的構成概念の一貫した多レベルの理解を欠いていることが示された。

    Link: https://arxiv.org/abs/2512.13142

  • 重み空間相関分析:深層学習モデルにおける特徴利用量の定量化 [cs.CV, cs.LG, eess.IV]目的:深層学習モデルにおける特徴利用量の定量化
    • 医療画像における深層学習は有用だが,誤った情報に依存する可能性がある。
    • モデルが臨床的に無関係な情報(例えば,スキャナモデル)を利用しているかどうかの判断が困難である。
    • モデルがどの程度臨床的に関連する特徴を利用しているかを明らかにすること。
    • 本研究で開発した重み空間相関分析は,ショートカット学習を検出し,特徴利用量を定量化する有効な手法であることが示された。
    • Spontaneous Preterm Birth (sPTB) 予測モデルの分析の結果,臨床的に関連性の高い要素(例えば,出生体重)と相関があり,無関係な要素(例えば,スキャナ)とは相関がないことが確認された。
    • この手法は,モデルの信頼性を検証するためのツールとなり,バイアスがない場合,臨床モデルは真の臨床信号に関連する特徴を選択的に利用することを示す。

    Link: https://arxiv.org/abs/2512.13144

  • ノードレベルのグラフドメイン適応の強化:局所的依存性の緩和による [cs.LG, stat.ML]目的:グラフ間の知識伝達の効率化
    • グラフ構造データに対する機械学習の応用が拡大しており,ドメイン適応技術が不可欠である。
    • 教師なしグラフドメイン適応において,条件シフトが転移学習のボトルネックとなっている。
    • ノード特徴量の局所的依存性を緩和することで,条件シフトを抑制し,適応性能を向上させる。
    • 提案手法では,ノード特徴量をデコラレーションすることで,グラフドメイン適応の性能が大幅に向上した。
    • デコラレーションは,グラフ畳み込みネットワーク層やグラフTransformer層を通じて具体的に実現される。
    • 学習された表現空間におけるクラス内距離の縮小が可視化され,効果が確認された。

    Link: https://arxiv.org/abs/2512.13149

  • マルチターン会話におけるインタラクティブなユーザー要求明確化のためのマルチエージェントフレームワークMAC [cs.RO, cs.AI, cs.CL]目的:ユーザーの曖昧な要求に対する明確化
    • 対話システムは,人間との自然なコミュニケーションにおいて不可欠であり,その精度向上が求められている。
    • 複雑な対話シナリオにおいて,どのエージェントが明確化を開始すべきか,連携方法が課題となっている。
    • マルチエージェントシステムを活用し,ユーザーの曖昧さを戦略的に解決する明確化対話管理を目指す。
    • 提案フレームワークMACは,ユーザーの曖昧さを体系的に分類する新たな分類法を導入した。
    • MACは,複数のエージェント間の自律的な連携を実現し,ユーザーとの相乗効果的な対話を可能にした。
    • MultiWOZ 2.4での評価により,タスク成功率が7.8%向上し,平均対話ターン数が減少することが示された。

    Link: https://arxiv.org/abs/2512.13154

  • 複数視点からの3Dマテリアル再構成のための本質画像融合 [cs.CV, cs.AI]目的:複数視点画像からの高品質な物理ベースマテリアルの再構成
    • 3Dグラフィックス分野において,リアルなレンダリングには正確なマテリアル表現が不可欠である。
    • マテリアル再構成は制約が少なく,ノイズの多いパス トレーシングに依存しがちである。
    • 一方向からの事前知識を活用し,マテリアル推定の矛盾を軽減することで再構成精度を向上させる。
    • 本手法は,拡散ベースのマテリアル推定と最適化フレームワークにより,一貫性のあるマテリアルパラメータ空間を構築する。
    • 提案手法は,合成データおよび実写データにおける最新手法を上回り,鮮明で高品質な再構成を実現する。
    • 再構成されたマテリアルは,高品質なライティングに適しており,レンダリングの可能性を広げる。

    Link: https://arxiv.org/abs/2512.13157

  • SpeakRL:強化学習による言語モデルの推論,対話,行動の相乗効果 [cs.AI, cs.CL]目的:言語モデルにおける積極的な対話能力の向上
    • 人間とエージェントの協調は現実世界の様々な応用で重要性を増している。
    • 既存のエージェントは,ユーザーの意図の確認や曖昧性の解消を怠ることが多い。
    • エージェントがユーザーと動的に対話し,意図を明確化し,状況に適応することを目指す。
    • SpeakRLは,エージェントの積極的な対話行動を促す強化学習手法である。
    • SpeakERデータセットを活用し,タスク指向型対話におけるインタラクティブな質問を通して課題解決を行う。
    • 報酬設計の分析に基づき,質問と行動のバランスを学習する報酬関数を提案し,高いタスク達成率を実証した。

    Link: https://arxiv.org/abs/2512.13159

  • 意味的強化生成基盤モデルが病理画像合成を改善する [cs.CV, cs.AI]目的:病理画像合成のための生成基盤モデルの開発
    • 病理分野におけるAI活用は,診断精度向上に不可欠であり,医療の質の向上に貢献する。
    • 高品質な病理画像データの不足が,AI開発のボトルネックとなっており,学習データの多様性が課題である。
    • 生成モデルの不安定性と異常な形態の生成を抑制し,診断の信頼性を高めることを目指す。
    • CRAFTSは,約280万組の画像キャプションペアで学習された,病理特化のテキストから画像への生成基盤モデルである。
    • CRAFTSは,意味のずれを抑制し,生物学的な正確性を確保する新規なアライメント機構を組み込んでいる。
    • CRAFTSにより生成されたデータセットは,分類,クロスモーダル検索,自己教師あり学習など,様々な臨床タスクの性能を向上させる。

    Link: https://arxiv.org/abs/2512.13164

  • SACn: nステップリターンを用いたソフトアクター・クリティック [cs.LG, cs.AI]目的:nステップリターンとソフトアクター・クリティックの組み合わせ手法
    • 強化学習は,複雑な課題を自律的に解決する能力を持つため,様々な分野で重要視されている。
    • オフポリシー強化学習では,行動分布の変化によるバイアスの問題が,収束の妨げとなる場合がある。
    • nステップリターンとソフトアクター・クリティックを安定的に組み合わせることで,収束速度の向上を目指す。
    • nステップリターンを用いたソフトアクター・クリティック(SACn)アルゴリズムを提案した。
    • 数値的に安定な重要度サンプリングと簡略化されたハイパーパラメータ選択を可能にした。
    • nステップ最大エントロピーフレームワークにおけるエントロピー推定を分析し,学習ターゲットの分散を低減するτサンプリング推定を導入した。

    Link: https://arxiv.org/abs/2512.13165

  • フィンチ:スプレッドシート中心の企業ワークフローにおける金融・会計業務のベンチマーク [cs.AI, cs.CE, cs.IR, cs.MA]目的:金融・会計分野におけるAIエージェントの評価
    • 企業の業務効率化において,金融・会計分野は重要な位置を占める。
    • 複雑な業務フローと多様なデータ形式が,AI導入の障壁となっている。
    • 現実世界の企業ワークフローにおけるAIエージェントの能力を定量的に評価する。
    • 本研究では,エンロン等の企業データを活用し,172の複合ワークフローを構築した。
    • GPT 5.1はワークフローの38.4%しか処理できず,Claude Sonnet 4.5は25.0%にとどまることが示された。
    • 現実の企業ワークフローは,AIエージェントにとって依然として大きな課題を抱えていることが明らかになった。

    Link: https://arxiv.org/abs/2512.13168

  • ロボット製造タスクのための非線形モデル予測制御の反復調整 [cs.MM, cs.RO, cs.LG, cs.SY, eess.SY, math.OC]目的:非線形モデル予測制御の重み付け行列の自動調整
    • 製造現場における環境変化やシステム摩耗への対応は,安定的な生産を維持する上で重要である。
    • 反復作業であっても,ドリフトや摩耗により制御の再調整が必要となる。
    • タスクレベルの性能フィードバックに基づき,NMPCの自動調整を行い,性能指標を最小化する。
    • 提案手法は,オフラインのベイズ最適化と比較して,わずか4回のオンライン反復で最適な追跡性能に収束した。
    • 本手法は,NMPCソルバの微分を必要とせず,構造化された重み付け更新を可能にする。
    • これにより,ロボットの反復タスクにおいて,高精度な制御とオンライン適応性を両立させる実用的な解決策を提供する。

    Link: https://arxiv.org/abs/2512.13170

  • ポリセット:機械学習のためのポリマーの統計的アンサンブル性を復元 [cs.LG, cond-mat.mtrl-sci, cs.AI]目的:ポリマーの統計的アンサンブル表現
    • ポリマー科学における機械学習の応用は重要性を増している。
    • 既存の機械学習モデルは,ポリマーを単一の分子グラフとして扱うため,現実との乖離がある。
    • ポリマーの統計的性質を考慮した表現方法を確立し,機械学習の精度と安定性を向上させる。
    • ポリセットは,分子量分布からサンプリングされた鎖の有限の重み付きアンサンブルとしてポリマーを表現する。
    • これにより,高次分布モーメントを保持し,末端感受性特性の学習において安定性と精度が大幅に向上した。
    • ポリセットは,共重合体やブロック構造など,より複雑なトポロジーへの拡張性を持つ物理的に根拠のある基盤を確立する。

    Link: https://arxiv.org/abs/2512.13186

  • WAY:世界規模AIS軌跡からの船舶目的地推定 [cs.LG, cs.AI]目的:船舶目的地の推定
    • 海洋監視において,AISデータは不可欠であり,安全確保や効率化に貢献する重要な技術である。
    • AISデータの信頼性の問題や不規則な間隔が,正確な船舶行動分析の妨げとなっている。
    • 本研究は,より長期間にわたる船舶の目的地を高精度に推定し,海洋監視の精度向上を目指す。
    • 提案手法WAYは,既存の空間グリッドベースの手法と比較して,軌跡の進行状況に関わらず優れた性能を示すことが実証された。
    • Gradient Dropout(GD)技術の導入により,性能向上が確認された。
    • WAYは,ETA推定などのマルチタスク学習にも応用可能であり,実用的な可能性が示唆された。

    Link: https://arxiv.org/abs/2512.13190

  • 大規模言語モデルにおける推測デコーディングの高速化のための効率的な適応的拒否サンプリング [cs.CL, cs.AI]目的:大規模言語モデルにおける推測デコーディングの効率向上
    • 大規模言語モデルの推論速度向上は,実用化に向けて不可欠である。
    • 従来の拒否サンプリングは,固定閾値のため不確実性の高い場面で効率が低下する。
    • モデルの予測不確実性を考慮した動的な閾値調整により,効率低下を解消する。
    • 提案手法EARSは,ターゲットモデルの予測不確実性に基づき,受容閾値を動的に調整する。
    • EARSは,創造的ライティングやオープン領域QAタスクにおいて,推測デコーディングの効率を最大18.12%向上させる。
    • EARSは,既存の推測デコーディングフレームワークに容易に組み込むことができ,精度への影響も軽微である。

    Link: https://arxiv.org/abs/2512.13194

  • NISQにおけるノイズに強いADAS連合学習のための量子集約 [cs.LG, cs.AR]目的:先進運転支援システムにおける連合学習のノイズ耐性向上
    • 自動運転技術の発展に伴い,車両データを活用したADASの性能向上が重要となっている。
    • 既存の連合学習は,車両ネットワーク特有のノイズや遅延,セキュリティ上の制約に脆弱である。
    • NISQデバイスを活用し,ノイズに強く,低遅延で安全な連合学習フレームワークを構築する。
    • 提案手法NR-QFLは,変分量子回路を用いて安全かつ低遅延な集約を実現し,収束性が確認された。
    • 量子エントロピーに基づくクライアント選択とマルチサーバー連携により,公平性と安定性を確保した。
    • 制約のある環境下において,勾配分散の低減,通信オーバーヘッドの削減,およびノイズ耐性の向上が示された。

    Link: https://arxiv.org/abs/2512.13196

  • 連合学習における気象予報に対する敵対的攻撃の評価 [cs.RO, cs.LG, cs.CR]目的:敵対的クライアントが連合学習による気温予報を歪める影響の調査
    • 深層学習と連合学習は,次世代の気象予報において重要な役割を担う。データ共有の課題を解決し,予測精度向上に貢献する。
    • 連合学習の分散型性質は新たな脆弱性を生む。特に,悪意のあるクライアントによるデータ汚染攻撃は,モデルの性能劣化やバイアス導入を引き起こす。
    • 気象データにおける空間相関を考慮し,敵対的クライアントが気温予報に与える影響を定量的に評価し,防御策の有効性を検証する。
    • 少数の悪意のあるクライアントでも,広範囲にわたる予測を誤らせることが示された。地理的に連携した攻撃は,平均二乗誤差を大幅に増加させ,持続的な地域異常をもたらす。
    • 単一のクライアントによる全体的な気温バイアス攻撃は,最大で-1.7Kの予測シフトを引き起こす。これは,気象予報の信頼性を損なう可能性がある。
    • トリミング平均集約は,全体的なバイアス攻撃に対してはある程度有効だが,パッチ攻撃に対しては効果がなく,空間相関データの防御には限界がある。

    Link: https://arxiv.org/abs/2512.13207

  • 異種データに対する半教師あり分類のためのモジュールフレームワークModSSC [cs.RO, cs.SY, eess.SY, cs.RO, cs.RO, cs.MS, cs.LG]目的:異種データに対する半教師あり分類のためのフレームワーク
    • 機械学習において,ラベル付きデータは高価であり,ラベルなしデータの活用が重要である。
    • 既存の半教師あり分類ソフトウェアは,手法やデータ形式によって分散しており,使い勝手が悪い。
    • 多様なデータ形式とアルゴリズムに対応した,統合的なフレームワークを開発し,実験の効率化を図る。
    • ModSSCは,Pythonで実装されたオープンソースのフレームワークであり,半教師あり分類の手法を統一的に扱える。
    • 表形式,画像,テキスト,音声,グラフなど,多様なデータセットに対応し,CPUとGPUの両方を利用できる。
    • YAML形式で実験設定を記述することで,再現性と大規模な比較研究が容易になる。

    Link: https://arxiv.org/abs/2512.13228

  • グラフにおけるコントラストive masked feature 再構成 [eess.SY, cs.SY, cs.SI, eess.SY, cs.SY, physics.app-ph, cs.LG, cs.AI]目的:グラフにおける自己教師あり学習の性能向上
    • グラフ構造を持つデータは多様な分野で現れ,その学習は重要である。
    • 既存の自己教師あり学習法では,十分な表現学習が困難な場合がある。
    • masked feature reconstructionとcontrastive learningを統合し,より効果的な学習を目指す。
    • 本研究では,masked feature reconstructionとノードレベルのcontrastive learningが理論的に収束することを示した。
    • 提案手法COREは,maskedノードの元の特徴と再構成された特徴のペアをpositive sampleとして活用する。
    • 実験的に,COREはノード分類およびグラフ分類タスクにおいて,最先端の結果を達成した。

    Link: https://arxiv.org/abs/2512.13235

  • 弱められたラベルを用いた検索学習:ラベルノイズ下におけるロバストな学習 [cs.LG, cs.IR]目的:ラベルノイズに対するロバストな検索モデルの構築
    • 自然言語処理において,検索モデルは質問応答などの重要なタスクで活用されている。
    • 学習データの疎なアノテーションとラベルノイズが,検索モデルの学習を困難にしている。
    • ラベルノイズ下でも性能を維持できる,簡便な学習方法を提案する。
    • 提案手法であるラベル弱化は,従来の損失関数と比較して検索性能を向上させた。
    • ラベル弱化は,モデルの信頼度に基づき,複数のラベル候補を許容することで,ノイズの影響を軽減する。
    • 多様なランキングデータセットと現実的なノイズ設定下で,その有効性を確認した。

    Link: https://arxiv.org/abs/2512.13237

  • 反射的嗜好性最適化 (RPO): ヒントによる反射を活用したオンポリシーアラインメントの強化 [cs.AI, cs.LG]目的:大規模言語モデルとビジョン言語モデルのアラインメント
    • 人間やAIからのフィードバックを用いたアラインメントは,モデルの有用性向上に不可欠である。
    • 既存のDPOでは,選択肢と否定的サンプルが類似しており,学習信号が弱いという課題がある。
    • ヒント付き反射を導入し,よりコントラストが強く明確な嗜好性ペアを構築し,学習効率を向上させる。
    • RPOは,従来のDPOよりも少ないサンプル数と反復回数で優れたアラインメントを実現する。
    • RPOは,幻覚の発生率を大幅に削減し,マルチモーダルベンチマークで最先端の性能を示す。
    • ヒントによる条件付けは,相互情報量を通じて期待される嗜好性マージンを増加させ,サンプル効率を向上させる。

    Link: https://arxiv.org/abs/2512.13240

  • ベジェフロー:少数ステップ生成のためのベジェ確率的補間スケジューラ [cs.HC, cs.LG]目的:事前学習済みの拡散モデルとフローモデルを用いた少数ステップ生成の軽量な学習手法
    • 拡散モデル等の生成モデルは高品質な画像を生成するが,計算コストが高い。
    • 軽量化手法はあるものの,ODE離散化に限定され,適用範囲が狭い。
    • ベジェ関数を用いてサンプリング軌道の変換を学習し,計算効率を向上させる。
    • ベジェフローは,学習にわずか15分を要し,≤10 NFEsで2〜3倍の性能向上を達成した。
    • 従来のタイムステップ学習法と比較して,様々な事前学習済みモデルで一貫して優れた性能を示した。
    • サンプリング軌道の探索空間を離散的なタイムステップからベジェベースの変換に拡張することの有効性が示された。

    Link: https://arxiv.org/abs/2512.13255

  • AutoTool:エージェント的推論のための動的なツール選択と統合 [cs.CL, cs.LG]目的:エージェント的推論における動的なツール選択と統合の枠組み
    • LLMの能力向上には,複雑な問題解決のための外部ツール利用が不可欠である。
    • 既存手法は固定されたツールセットに依存し,変化する環境への適応が困難である。
    • 多様なツールセットに対応可能な,LLMエージェントの適応性を高めることを目指す。
    • AutoToolは,1,000以上のツールと100以上のタスクを含む20万件のデータセットを構築した。
    • Qwen3-8BおよびQwen2.5-VL-7Bを用いてAutoToolを訓練し,様々なベンチマークで優れた性能を示した。
    • 特に,数学・科学推論,検索ベースのQA,コード生成,マルチモーダル理解において,既存手法を平均6.4-7.7%上回った。

    Link: https://arxiv.org/abs/2512.13278

  • 拡散モデルにおける物理的整合性と汎化のための適応的介入学習:LINA [cs.CL, cs.CV, cs.AI, cs.LG]目的:拡散モデルにおける物理的整合性と,分布外指示への追従能力の向上
    • 画像や動画生成において,拡散モデルは目覚ましい成果を上げているため,その性能向上は重要である。
    • 拡散モデルは,物理的整合性や分布外指示への対応において課題を抱えている。
    • 因果関係の学習と因果要素の分離を促すことで,これらの課題を解決することを目指す。
    • 因果シーングラフ(CSG)と物理的整合性プローブ(PAP)データセットを用いた分析から,拡散モデルは明示的に指示されていない要素に関する多段階推論に苦労することが示された。
    • プロンプト埋め込みは,テクスチャと物理学に関する分離された表現を含んでいることが確認された。
    • LINAは,プロンプトと視覚的潜在空間における標的型ガイダンスと,因果性を考慮したデノイズスケジュール再配分により,物理的整合性と分布外指示への追従を強化し,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2512.13290

  • 協調探索による多ロボット社会性隊列ナビゲーションにおける内発的動機付け [cs.RO, cs.AI]目的:多ロボット社会性隊列ナビゲーションにおける協調探索の効率向上
    • 人間とロボットが共存するためには,円滑な隊列ナビゲーションが不可欠である。
    • 歩行者の予測不能性や非協調性が,ロボット間の協調探索効率を低下させている。
    • 内発的動機付けを導入することで,ロボットの保守的な行動を緩和し,探索を促進する。
    • 提案手法は,既存の最先端手法と比較して,社会性隊列ナビゲーションの主要な指標において優れた性能を示す。
    • 自己学習型の内発的報酬メカニズムが,ロボットの協調的な探索を促進し,効率的なナビゲーションを可能にする。
    • 集中型訓練・分散型実行フレームワークと二重サンプリングモードにより,ナビゲーションポリシーと内発的報酬の表現が強化されている。

    Link: https://arxiv.org/abs/2512.13293