arXiv雑要約

AI - 2026/05/29 公開

潜在分布事前確率下の非線形CCAにおける証明可能なアフィン識別可能性 [cs.LG]目的：非線形正準相関分析（CCA）における潜在因子回復の条件
- 機械学習において，データの潜在構造を明らかにする手法の重要性が高まっている。
- 非線形CCAでは，識別可能性が保証されず，真の潜在因子を特定できない場合がある。
- 特定分布事前確率の下で，アフィン変換までの一意な潜在因子回復を理論的に保証すること。
- 非線形CCAが，特定条件下で真の潜在因子をアフィン変換まで復元できることが示された。
- 学習された写像の有界性と適切な条件付けには，ホワイトニングが必須であることが証明された。
- リッジ正則化された経験的CCAが，有限サンプル下で理論的な対応する解に収束することが示された。
Link: https://arxiv.org/abs/2510.04758
TelecomTS：時系列と言語分析のためのマルチモーダル可視化データセット [cs.AI, cs.IT, cs.LG, math.IT]目的：5G通信ネットワーク由来の可視化データセット
- システム監視における可視化データの重要性が増している。複雑なシステムの状態把握に不可欠である。
- 既存の可視化データセットは，プライバシー保護のため匿名化され，スケール情報が失われている場合が多い。
- スケール情報を保持した，実用的な可視化アプリケーションに適した時系列モデルの開発を目指す。
- TelecomTSは，異常検知，根本原因分析，マルチモーダル質疑応答など，多様なタスクに適したデータセットである。
- 既存の時系列モデルは，可視化データの急激な変動やノイズ，高い分散に対応できていないことが示された。
- 変数の絶対スケールを保持することの重要性が強調され，実世界の可視化アプリケーションにおけるスケール情報の活用が求められる。
Link: https://arxiv.org/abs/2510.06063
自己教師あり表現学習における意味的ペアの影響 [cs.LG, cs.AI]目的：自己教師あり表現学習における意味的ペアの効果の検証
- 画像認識技術の発展は，多様な応用を可能にする基盤技術として重要である。
- 既存手法では，背景やテクスチャなど，本質的でない相関関係が学習に含まれる場合がある。
- 異なるコンテキストにおける同一クラスの画像ペアを活用し，よりロバストな表現を獲得することを目指す。
- 意味的ペアを用いた事前学習は，データ拡張のみによる事前学習と比較して，汎化性能を向上させる。
- 特にコントラスト学習において，意味的ペアの効果が顕著であり，SimCLRで最も大きな改善が見られた。
- 意味的ペアは，標準的なデータ拡張パイプラインに加えて，さらなる不変性を誘導することが示唆された。
Link: https://arxiv.org/abs/2510.08722
韓国語の毒性検出と浄化のための難読化ルール [cs.CL, cs.AI]目的：韓国語の毒性表現に対する難読化パターンの分類と，それに対応する変換ルールの定義
- 言語モデルのオンライン利用拡大に伴い，有害なコンテンツの検出と浄化が重要となっている。
- 既存研究は難読化されていないテキストに偏っており，意図的な隠蔽工作への対応が課題である。
- 韓国語特有の形態素的特徴や文字のバリエーションを利用した難読化に対処し，よりロバストなモデルを構築する。
- 本研究では，難読化された韓国語の毒性表現を扱うためのデータセットKOTOXを新たに構築した。
- KOTOXは，実世界の例に基づいた言語学的な難読化パターンと変換ルールを提供し，モデルの性能向上に貢献する。
- 実験の結果，本データセットで学習したモデルは，難読化されたテキストと通常のテキストの両方で高い性能を示した。
Link: https://arxiv.org/abs/2510.10961
オフライン強化学習における生成的軌道方策 [cs.LG, cs.AI]目的：オフライン強化学習のための生成的軌道方策の開発
- 強化学習は，ロボット制御やゲームなど，様々な分野で自律的な意思決定を可能にする重要な技術である。
- オフライン強化学習では，既存のデータセットのみを用いて学習するため，データ効率や汎化性能が課題となる。
- 生成モデルの利点を活かし，高性能かつ効率的なオフライン強化学習を実現すること。
- 本研究では，拡散モデル，フローマッチング，整合性モデルといった生成モデルを，連続時間生成軌道として統一的に捉えることを提案した。
- 提案手法であるGenerative Trajectory Policies (GTP) は，D4RLベンチマークにおいて，既存の生成的方策を大きく上回る性能を示した。
- 特に，難易度の高いAntMazeタスクにおいて，満点のスコアを達成するなど，最先端の結果を得た。
Link: https://arxiv.org/abs/2510.11499
CodeEvolve：アルゴリズム探索と最適化のためのオープンソース進化型コーディングエージェント [cs.AI, cs.LG, cs.NE]目的：アルゴリズム探索と最適化のための進化型コーディングエージェント
- 複雑な問題解決において，効率的なアルゴリズムの自動探索・設計は重要である。
- 既存手法では，計算コストが高く，汎用性や性能に課題が残されている。
- 大規模言語モデルと進化探索を組み合わせ，低コストで高性能なアルゴリズムを開発する。
- CodeEvolveは，AlphaEvolveベンチマークにおいて，9問題中5問題でAlphaEvolveと同等以上の結果を示した。
- オープンソースフレームワークOpenEvolve，ShinkaEvolveと比較して，6/9の問題で優れた性能を発揮した。
- Qwen3-Coder-30Bを用いたCirclePackingSquare問題では，既存のクローズドソースアンサンブルと比較して大幅に低コストで同等の性能を達成した。
Link: https://arxiv.org/abs/2510.14150
精度を超えて：時系列基礎モデルはwell-calibratedか？ [cs.CL, cs.LG, cs.AI, stat.ME, stat.ML]目的：時系列基礎モデルのキャリブレーション特性
- 時系列データ分析は，需要予測や異常検知など，様々な分野で不可欠である。
- 基礎モデルの予測性能は高い一方，キャリブレーションの評価は十分ではない。
- 基礎モデルのキャリブレーション特性を評価し，実用的な信頼性を検証すること。
- 時系列基礎モデルは，ベースラインモデルと比較して一貫して優れたキャリブレーション性能を示した。
- 他の深層学習モデルでよく見られる過信傾向は，時系列基礎モデルでは見られなかった。
- 予測ヘッドの変更や長期的な自己回帰予測においても，キャリブレーションは比較的安定していた。
Link: https://arxiv.org/abs/2510.16060
神経科学のための大規模AIと基盤モデル：包括的レビュー [cs.AI, cs.CE]目的：神経科学研究における大規模AIモデルの応用
- 脳科学は，人間の知性や行動の根幹を理解する上で不可欠であり，医学や情報科学にも貢献する。
- 脳データの解析には高度な計算能力が求められるが，従来の解析手法には限界があった。
- 大規模AIモデルを用いて脳データの解析を効率化し，新たな知見を得ることを目指す。
- 大規模AIモデルは，脳画像解析，脳コンピュータインターフェース，臨床支援など，幅広い神経科学分野で応用されている。
- 生物学的な制約を組み込んだAIモデルは，解釈可能性と計算効率の向上に貢献する。
- 厳密な評価，専門知識の統合，臨床的検証，倫理的ガイドラインの重要性が強調されている。
Link: https://arxiv.org/abs/2510.16658
共感的プロンプティング：マルチモーダルLLM会話のための非言語的文脈統合 [cs.HC, cs.AI, cs.CL]目的：マルチモーダルLLM会話における非言語的文脈の統合
- 人間とAIの自然な対話を実現する上で，感情の理解は不可欠である。
- 既存の対話システムでは，非言語的な情報が十分に活用されていない。
- AIが利用者の感情を理解し，より共感的な応答を生成することを目指す。
- 提案手法である共感的プロンプティングは，LLM会話に感情情報を統合することに成功した。
- 実験参加者からは，会話の円滑さに関する肯定的な評価が得られた。
- 本研究は，ヘルスケアや教育などの分野におけるチャットボット応用の可能性を示唆する。
Link: https://arxiv.org/abs/2510.20743
大規模推論モデルにおける階層的思考のモデル化 [cs.AI, cs.CL]目的：大規模推論モデルの思考過程の階層構造の表現
- 複雑な問題を解決するため，大規模言語モデルの推論能力向上は不可欠である。
- 推論経路のダイナミクスが不明瞭であり，矛盾や誤謬が生じやすい。
- モデルの思考過程を捉え，解釈性と最適化を図ることを目指す。
- 大規模推論モデルの推論ダイナミクスを有限状態機械として近似した。
- 状態遷移のトポロジー分析により，有効な推論連鎖を識別することが可能となった。
- Q値に基づいた推論制御により，少ない介入で性能向上が確認された。
Link: https://arxiv.org/abs/2510.22437
LLMエージェント訓練におけるグラフ強化型方策最適化 [cs.CL, cs.AI]目的：LLMエージェント訓練における二段階構造的信用割り当て
- 対話環境における多段階LLMエージェントは，長期的意思決定への重要な一歩であるため，その訓練技術は重要性が高い。
- 既存手法では，軌跡内の各ステップや同じ最終報酬を持つ軌跡に対し，貢献度に関わらず均一な信用が与えられているという課題がある。
- サンプリングされた軌跡から構築される状態遷移グラフにおける状態の構造的役割を考慮し，タスクに応じた信用を割り当てることを目指す。
- GEPOは，LLMエージェントの性能をALFWorldで1.1％，WebShopで3.2％，検索拡張型QAタスクで平均3.8％向上させた。
- GEPOは，グループベースの手法と比較して，分散を低減し，最も重要なステップに勾配信号を集中させる。
- GEPOは，状態遷移グラフ上のトポロジカル媒介性とタスクプロンプトとの意味的類似性に基づいて，状態レベルのタスク条件付き重要度スコアを導出する。
Link: https://arxiv.org/abs/2510.26270
LoCoT2V-Bench：長編かつ複雑なテキストから動画生成のベンチマーク [cs.CV, cs.AI]目的：長編動画生成の評価基準とフレームワーク
- 動画生成技術は急速に進歩しており，エンターテイメントや教育など幅広い分野での応用が期待されている。
- 長編動画生成における評価は困難であり，特に複雑なテキストに対応した品質評価が課題となっていた。
- 複雑なテキストプロンプトに対応した長編動画生成の性能を客観的に評価するための基準とフレームワークを構築すること。
- LoCoT2V-Benchは，キャラクター設定やカメラワークといった階層的なメタデータを持つマルチシーンプロンプトを用いた長編動画生成のベンチマークである。
- LoCoT2V-Evalは，知覚的品質，テキストと動画の整合性，時間的品質，動的品質，人間期待実現度(HERD)を評価する多次元フレームワークである。
- 実験の結果，既存のモデルは知覚的品質や背景の一貫性には優れるものの，詳細なテキストと動画の整合性やキャラクターの一貫性に課題があることが示された。
Link: https://arxiv.org/abs/2510.26412
異質な双曲多様体上の木構造におけるモダリティアラインメント [cs.CV, cs.LG]目的：視覚と言語のモダリティ間の情報統合を効果的に行うためのモダリティアラインメント
- 視覚と言語の情報を統合するモデルにおいて，モダリティアラインメントは不可欠な要素である。
- 既存手法では，テキストは階層的な特徴量を抽出するのに対し，画像は単一の特徴量で表現されるため，アラインメントが非対称かつ最適でない。
- 画像とテキスト両方の階層的な特徴量を構築し，アラインメントすることで，この非対称性を解消し，より良いモダリティアラインメントを実現する。
- 提案手法Alignment across Treesは，画像とテキストの双方に対し木構造のような階層的な特徴量を構築し，アラインメントする。
- 異なる曲率を持つ双曲多様体上に特徴量木を埋め込み，多様体間のKL距離を最小化することでアラインメントを行う。
- 実験の結果，提案手法は，少ないサンプル数や異なるドメインでの分類タスクにおいて，既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2510.27391
ScheduleStream：GPU加速マルチアームタスク・モーション計画＆スケジューリングのためのサンプラーを用いた時間計画 [cs.RO, cs.AI, cs.MA]目的：GPU加速によるマルチアームタスク・モーション計画およびスケジューリングのための時間計画手法
- 多腕ロボットは人間のように効率的にタスクをこなせるため，注目されている。制御の複雑さが課題である。
- 従来のタスク・モーション計画アルゴリズムは，並列アーム動作を可能にするスケジュール生成には不向きである。
- サンプラーを用いた汎用的なフレームワークScheduleStreamにより，効率的なスケジュール生成を目指す。
- ScheduleStreamは，非同期に開始可能でパラメータに依存する持続時間を持つハイブリッド持続アクションを用いて時間ダイナミクスをモデル化する。
- ドメイン非依存アルゴリズムにより，アプリケーション固有の機構なしにScheduleStream問題を解決する。
- シミュレーション実験の結果，ScheduleStreamアルゴリズムはより効率的な解を生成することが示された。
Link: https://arxiv.org/abs/2511.04758
Leak@$k$: 確率的デコーディング下では，LLMは学習解除によって忘却しない [cs.LG]目的：大規模言語モデルにおける学習解除の信頼性評価
- LLMの安全性と倫理的な利用のため，プライバシー侵害等のリスクを軽減する必要がある。
- 既存の学習解除手法は，決定論的なデコーディングでは効果があるように見えるが，実際には忘却が不完全である。
- 確率的デコーディング下での情報漏洩を定量化し，より信頼性の高い学習解除手法を開発する。
- 既存の学習解除手法は，確率的デコーディング下では忘却が不完全であり，情報漏洩が依然として存在する。
- 提案手法RULEは，TOFUベンチマークにおいて情報漏洩を抑制し，高い忘却性能を示す。
- MUSEベンチマークにおいても，RULEは既存手法と比較してleak@$k$指標で優位性を示す。
Link: https://arxiv.org/abs/2511.04934
DiScoFormer：Transformerによる密度とスコア推定 [cs.LG]目的：密度とスコアの推定
- 生成モデル，ベイズ推論，運動論において，確率密度とスコアの推定は不可欠である。
- 既存手法は，次元の呪いや，分布ごとに再学習が必要といった課題を抱えている。
- 分布やサンプルサイズに依存せず，一度学習すればどこでも推論可能なモデルの構築。
- DiScoFormerは，自己注意機構により正規化KDEを再現し，カーネル法を機能的に一般化することを示した。
- 密度推定において，KDEよりも高速な収束性と高い精度を達成した。
- スコアバイアス補正KDEやフィッシャー情報計算，フォッカープランク型偏微分方程式への応用が可能である。
Link: https://arxiv.org/abs/2511.05924
興味の問題：人間と言語モデルにおける数学の問題の面白さの理解 [cs.AI]目的：数学の問題に対する面白さの判断における，人間と大規模言語モデルの間の整合性
- 数学の発展は面白さによって推進される。研究者や学習者の問題選択に影響を与える重要な要素である。
- 言語モデルは数学研究・教育に利用されているが，その判断が人間の感覚と一致するか不明である。
- 言語モデルの面白さ判断と人間の判断とのずれを明らかにし，協調システムの可能性を探る。
- 多くの言語モデルは人間の面白さの感覚と大まかに一致するものの，判断の分布は一致しない。
- 人間が問題を面白いと判断する理由と，言語モデルが生成する理由の間には弱い相関が見られた。
- 妥当性を検証した結果，言語モデルは魅力的な問題を生成することが可能であることが示された。
Link: https://arxiv.org/abs/2511.08548
CNNのLRPベースプルーニングにおける精度劣化抑制のための精度を考慮した拡張 [cs.CL, cs.CV, cs.AI, cs.LG]目的：データ不足の転移学習におけるカスケードな精度劣化を防止するための拡張手法
- 大規模データセットで事前学習されたCNNは，少ないデータでの高精度な分類モデル構築に不可欠である。
- データ不足下では微調整が難しく，不要なフィルタが残り，冗長性と効率低下を招く。
- LRPベースのプルーニングにおける精度劣化を抑制し，データ不足環境での性能維持を目指す。
- 提案手法は，クラス精度とプルーニング率の調和平均を用いてプルーニング率と順序を動的に調整することで，カスケードな精度劣化を効果的に抑制する。
- その結果，従来のLRPベースのプルーニング手法と比較して，分類精度が向上し，VGG16の精度-プルーニング率曲線下面積（AUC）を約15％改善した。
- 本手法は，事前学習済みモデルを圧縮しつつ，データ不足環境におけるタスク固有の性能を維持することに貢献する。
Link: https://arxiv.org/abs/2511.10861
FarSkip-Collective：混合エキスパートモデルにおけるブロッキング通信の制約解消 [cs.LG]目的：分散環境におけるMoEの効率的な実行を可能にするための通信と計算のオーバーラップ手法
- MoEはモデルの規模拡大に有効だが，通信ボトルネックが課題となる。
- 分散環境下でのブロッキング通信は，MoEの性能を大きく阻害する。
- FarSkip-Collectiveは，モデル構造を修正し，通信と計算のオーバーラップを実現することで，この問題を解決する。
- FarSkip-Collectiveを適用したモデルは，元のモデルと同等の精度を維持できることが示された。
- Llama 4 Scout (109B) の自己蒸留により，命令調整版と比較して平均精度を1%以内に維持した。
- 推論時にDeepSeek-V3アーキテクチャにおいて，最初のトークンまでの時間で32.6%の高速化，およびプリフィル段階で97.3%の通信-計算オーバーラップを達成した。
Link: https://arxiv.org/abs/2511.11505
3D環境における強化学習の性能向上：ViZDoomを用いたセマンティックセグメンテーションの活用 [cs.LG, cs.AI, cs.RO]目的：3D環境における強化学習の効率化と性能向上
- 3D環境での強化学習は，現実世界への応用が期待される重要な研究分野である。
- 高次元な感覚入力により，学習の安定化に必要なメモリ消費量が課題となっている。
- セマンティックセグメンテーションを用いてメモリ消費量を削減し，学習性能を向上させる。
- セマンティックセグメンテーションのみの入力（SS-only）により，メモリ消費量を少なくとも66.6%削減できた。
- ベクトル化可能なロスレス圧縮技術を組み合わせることで，最大98.6%のメモリ削減を実現した。
- RGB画像とセマンティックセグメンテーションを組み合わせた入力（RGB+SS）は，強化学習エージェントの性能を大幅に向上させた。
Link: https://arxiv.org/abs/2511.11703
新規結晶生成のためのミライジアトム拡散法 [cs.DC, cs.DB, cs.LG, cond-mat.mtrl-sci, cs.AI, physics.comp-ph]目的：新規結晶生成のための拡散モデルにおける原子数の変動
- 結晶材料探索は，新機能材料開発に不可欠であり，計算科学の発展が期待される分野である。
- 既存の拡散モデルは原子数を固定するため，探索可能な結晶構造の多様性に制約が生じていた。
- 本研究は，原子の存在・非存在を切り替えることで，拡散モデルの表現力を高め，新規結晶探索を促進する。
- 提案手法MiADは，既存モデルと比較して最大2.5倍の性能向上を実現した。
- MP-20データセットにおいて，S.U.N.レート8.2%を達成し，既存の最先端手法を大きく上回る。
- 原子数の変動を可能にすることで，多様な結晶構造の生成を促進し，材料探索の可能性を広げた。
Link: https://arxiv.org/abs/2511.14426
LLMエージェントにおけるエピソード内での失敗からの回復：進捗ゲートを用いた二重プロセスルーティング [cs.LG, cs.AI]目的：LLMエージェントのエピソード内での失敗回復機構
- 大規模言語モデル(LLM)エージェントは多様なタスクに応用可能だが，複雑なタスクでの頑健性に課題がある。
- LLMエージェントは，誤ったアプローチに固執しやすく，失敗した場合にそこから回復する能力が低い。
- 本研究では，失敗時の軌跡情報を活用し，エージェントが単一エピソード内で自律的に回復するメカニズムを開発する。
- ReflexGradは，高速な継続的洗練プロセスと，低進捗時に起動する因果的診断プロセスを切り替える二重プロセスアーキテクチャである。
- ALFWorld 134タスクにおいて，Qwen-3-8Bの成功率を35.1%から75.4%に向上させ，既存手法を上回る性能を示した。
- ルーティング機構が性能向上に寄与しており，モデルの規模よりも重要な要素であることが示唆された。
Link: https://arxiv.org/abs/2511.14584
ファインチューニングされた拡散モデルのトレーサビリティのためのデータセット透かし評価：包括的なベンチマークと除去手法 [cs.NI, cs.RO, cs.CV, cs.AI]目的：拡散モデルのファインチューニングにおけるデータセット透かしの評価
- 拡散モデルは画像生成において強力だが，そのカスタマイズ性は著作権やセキュリティ上のリスクを伴う。
- 既存のデータセット透かし技術は，評価の統一的な枠組みに欠けている。
- 本研究は，データセット透かしの脆弱性を明らかにし，除去手法の提案により今後の研究課題を提示する。
- 既存の透かし手法は普遍性・伝達性において良好な性能を示す。
- しかし，現実的な脅威シナリオ下では脆弱性が残存する。
- 提案手法により，ファインチューニング性能を損なわずにデータセット透かしを完全に除去可能であることが示された。
Link: https://arxiv.org/abs/2511.19316
InsightEval：LLM駆動型データエージェントにおける洞察発見能力評価のための専門家キュレーションされたベンチマーク [cs.AI]目的：LLM駆動型データエージェントにおける洞察発見能力の評価
- 科学研究においてデータ分析は不可欠であり，大量データから潜在的な知識と洞察を発見することが重要である。
- 既存のベンチマークには，フォーマットの不整合，目的の曖昧さ，冗長な洞察など，評価の質を損なう問題が存在する。
- 既存ベンチマークの欠点を克服し，高品質な洞察ベンチマークを構築することを目指す。
- 新たにデータキュレーションパイプラインを用いて，InsightEvalという新しいデータセットを構築した。
- エージェントの探索性能を測定するための新規指標を導入した。
- InsightEvalを用いた実験により，自動洞察発見における課題と今後の研究方向性を示唆した。
Link: https://arxiv.org/abs/2511.22884
BioArc：生物学的基盤モデルのための最適なニューラルアーキテクチャの発見 [cs.LG, cs.AI, q-bio.QM]目的：生物学的基盤モデルの最適なニューラルアーキテクチャ
- 汎用AIの成功を生物学に応用する試みは重要だが，既存手法は生物データの特性を考慮していない。
- 既存のアーキテクチャは，生物データの持つ長距離依存性や疎な情報を捉えきれないという課題がある。
- 生物データの特性を考慮したアーキテクチャを自動的に探索し，最適なモデル構築を支援すること。
- BioArcは，ニューラルアーキテクチャ探索(NAS)を活用し，多様な生物学的モダリティにおいてアーキテクチャを体系的に探索する。
- 大規模な分析により，新規の高性能アーキテクチャが発見され，経験的な設計原則が導き出された。
- 発見されたアーキテクチャを活用するため，新しい生物学的タスクに対する最適なアーキテクチャを予測する手法が提案された。
Link: https://arxiv.org/abs/2512.00283
E-valuator：逐次仮説検定による信頼性の高いエージェント検証器 [cs.LG, cs.AI, stat.AP, stat.ML]目的：エージェントの成功/失敗を判定するための意思決定ルール
- AIエージェントの自律性は向上しているが，その評価方法は信頼性が課題となっている。
- 既存の検証器はヒューリスティックであり，誤った判定を下す可能性がある。
- 検証器のスコアを統計的に保証された意思決定ルールに変換し，信頼性を向上させる。
- E-valuatorは，既存手法と比較して，統計的検出力が高く，誤報率の制御に優れている。
- E-valuatorを用いることで，問題のあるエージェントの実行を早期に終了させ，トークン消費を削減できる。
- E-valuatorは，モデルに依存しない軽量なフレームワークであり，より信頼性の高いエージェントシステムの開発を可能にする。
Link: https://arxiv.org/abs/2512.03109
感情認識型ビジョン・言語・行動モデルE3AD：人間中心の端点間自律運転 [cs.CV, cs.AI]目的：人間中心の端点間自律運転のための感情認識型ビジョン・言語・行動モデルの開発
- 快適性と受容性を高めるため，自律運転システムにおける乗員の感情状態の考慮が重要である。
- 既存の端点間自律運転システムは，自然言語による指示と行動の関連性に加え，乗員の感情状態を無視する傾向がある。
- 自然言語による指示から感情を推論し，物理的に実行可能な軌道を計画することで，より人間らしい自律運転を実現する。
- E3ADは，言語から感情のトーンと緊急度を捉える連続的VAD感情モデルと，人間のような空間認知を実現する二重経路空間推論モジュールを導入した。
- 一貫性に基づいた学習スキームにより，感情的な意図と運転行動の一貫性が強化されている。
- 実際のデータセットにおいて，E3ADはビジョン接地とウェイポイント計画を改善し，感情推定における最先端のVAD相関を実現した。
Link: https://arxiv.org/abs/2512.04733
両世界の最良：シーケンシャル推薦のためのセマンティックIDとハッシュIDの調和 [cs.MA, cs.IR, cs.AI]目的：シーケンシャル推薦におけるセマンティックIDとハッシュIDの調和
- 推薦システムは，ユーザーの興味に合致するアイテムを提示し，情報過多な状況下で有用な選択を支援する。
- 従来の推薦システムは，ロングテール問題に弱く，頻繁に消費されないアイテムの推薦精度が低い。
- セマンティックIDとハッシュIDの利点を組み合わせることで，ヘッドアイテムとテールアイテムの推薦精度を両立すること。
- 提案手法H2Recは，セマンティックIDとハッシュIDを両立する二重分岐モデルを採用し，多粒度セマンティクスと固有の協調的アイデンティティを捉える。
- 二段階のAlignment戦略により，両表現間の知識伝達を促進し，ロバストな嗜好モデルを構築する。
- オフライン実験およびオンライン実験の結果，H2Recは既存手法と比較して，ヘッドアイテムとテールアイテムの推薦品質のバランスが優れている。
Link: https://arxiv.org/abs/2512.10388
DCFO：外れ値に対する密度ベースの反事実 [cs.LG]目的：外れ値検出における解釈可能性の向上
- データ分析において，外れ値は異常や重要な情報を示唆するため，その検出は重要である。
- 既存の外れ値の説明手法は，外れ値検出特有の課題に対応できていない場合が多い。
- 本研究は，広く利用されているLOFアルゴリズムの外れ値に関する解釈可能性を高めることを目指す。
- DCFOは，LOFの挙動が滑らかな領域にデータ空間を分割することで，効率的な勾配ベースの最適化を可能にする。
- OpenMLの50データセットに対する実験により，DCFOがベンチマーク手法と比較して，より近接で妥当な反事実を生成することが示された。
- DCFOは，外れ値がどのように分類されたかを最小限の変化で説明することで，LOFの解釈性を向上させる。
Link: https://arxiv.org/abs/2512.10659
学習に基づく経路計画のレビュー：データ駆動型最適制御アプローチに向けて [cs.RO, cs.AI]目的：自律走行における経路計画の現状と将来展望
- 自動運転の実現には，安全性と汎用性の高い経路計画が不可欠である。
- 従来のルールベース手法は複雑な状況への対応が難しく，学習ベース手法は安全性確保が課題。
- 最適制御と機械学習を統合するデータ駆動型最適制御（DDOC）の可能性を提示する。
- 本研究は，DDOCパラダイムの体系的なレビューを通じて，AIと制御理論の融合の重要性を示した。
- DDOCに基づく経路計画の実装を，カスタマイズ，ダイナミクス適応，自己調整の3つの次元で構造化した。
- 信頼性と人間らしい自動運転の実現に向け，今後の研究課題を4つ提示した。
Link: https://arxiv.org/abs/2512.11944
指示応答における言語モデルの信頼性の再検証 [cs.SE, cs.AI, cs.CL]目的：言語モデルの指示応答におけるニュアンスに敏感な信頼性
- 大規模言語モデルは多様な応用で利用され，その性能向上が期待されている。
- 既存の評価指標は，ユーザーの表現や状況変化に対するモデルの頑健性を十分に評価できていない。
- モデルの指示応答の信頼性を，表現のわずかな違いに対する一貫性という観点から評価・改善すること。
- 既存の言語モデルは，わずかな表現の変化に対して性能が大幅に低下することが示された。
- 新たな評価指標「reliable@k」と自動生成パイプライン「IFEval++」を開発し，モデルの信頼性を定量的に評価した。
- ニュアンスに敏感な信頼性は，信頼できるLLM行動への重要な次のステップであることが強調された。
Link: https://arxiv.org/abs/2512.14754
HD-Prot：連続構造トークンを用いた配列・構造同時モデリングのためのタンパク質言語モデル [cs.CE, cs.AI]目的：タンパク質配列と構造の同時モデリング
- タンパク質は配列と構造の二重性を持つ。構造情報は生命現象の理解に不可欠である。
- 既存手法では，構造を離散化することで構造情報の微細な情報を失う問題がある。
- 連続的な構造情報を言語モデルに組み込み，より高精度なモデリングを実現することを目指す。
- HD-Protは，離散的な配列と連続的な構造を同時に処理できるハイブリッド拡散タンパク質言語モデルである。
- 配列と構造間の依存性を捉え，配列生成，構造予測，モチーフ足場構築等のタスクで良好な性能を示した。
- 限られた計算資源下でも，最先端のマルチモーダルモデルと同等の性能を達成することを示した。
Link: https://arxiv.org/abs/2512.15133
エージェントの有効性向上を目指したプロンプトの進化 [cs.AI]目的：大規模言語モデルエージェントにおけるプロンプト進化によるコンテキスト管理の最適化
- 大規模言語モデルエージェントは複雑な環境で利用が増加しており，その性能向上が重要である。
- 静的なプロンプトでは動的なコンテキストを効果的に管理できず，エラーや改善の繰り返しが生じるという課題がある。
- 実行履歴からプロンプトを自動的に進化させ，コンテキスト管理能力を高めることで，この課題を解決する。
- SCOPEはコンテキスト管理をオンライン最適化問題として捉え，実行履歴からガイドラインを合成しプロンプトを自動進化させる。
- 提案する二重ストリームメカニズムにより，戦術的記憶と戦略的記憶の間でガイドラインが効率的にルーティングされる。
- HLEベンチマークにおいて，人間の介入なしにタスク成功率を14.23\%から38.64\%に向上させた。
Link: https://arxiv.org/abs/2512.15374
ニューラル形状表現における偏微分方程式の解法学習 [cs.CL, cs.LG]目的：ニューラル形状表現上の偏微分方程式の解法
- 形状解析やエンジニアリングにおいて，形状上での偏微分方程式の解法は不可欠である。
- 従来の偏微分方程式ソルバーはポリゴンメッシュ上で動作するのに対し，現代の3Dアセットはニューラル表現で扱われることが多い。
- ニューラル表現上での直接的な偏微分方程式の解法を可能にし，エンドツーエンドなワークフローを実現すること。
- 提案手法は，ニューラル形状属性に基づいた局所更新演算子を学習することで，メッシュ抽出やインスタンスごとの残差学習なしに，ニューラル表現上での偏微分方程式の解法を可能にする。
- この演算子は，一般的なニューラル表面表現と自然に統合され，単一の代表的な形状で一度学習することで，形状やトポロジーの変化に一般化する。
- 解析ベンチマークおよび多様な形状とニューラル表面表現を用いた実験により，古典的なソルバーと同等の精度を達成しつつ，統合されたエンドツーエンドパイプラインを実現した。
Link: https://arxiv.org/abs/2512.21311
同じ係数が異なる場所に到達するとき：大規模言語モデル間のトークナイザー移植における非対称な実現可能性 [cs.CL, cs.LG, cs.CL, cs.CR]目的：トークナイザー移植における非対称な実現可能性
- 言語モデルの性能は語彙とトークナイザーに大きく依存する。
- 異なる言語モデル間でトークナイザーを移植する際，語彙のずれが問題となる。
- トークナイザー移植時の係数の挙動に着目し，潜在的な脆弱性を明らかにすること。
- トークナイザー移植において，同じ係数ベクトルがドナーモデルとベースモデルで異なる表現を生成する「非対称な実現可能性」を特定。
- 特定の「ブレーカートークン」が存在し，ドナーモデルでは影響が小さくても，ベースモデルでは顕著な再構成を生成することを確認。
- 標準的なLoRAファインチューニングでは，この脆弱性を完全に軽減できない可能性が示唆された。
Link: https://arxiv.org/abs/2601.00065
大規模言語モデルによるカテゴリカルデータクラスタリングのセマンティックギャップの解消 [cs.DB, cs.LG, cs.AI, cs.CL]目的：カテゴリカルデータのクラスタリングにおけるセマンティックギャップ解消
- 医療，マーケティング，バイオインフォマティクス等でデータ分析が不可欠であり，クラスタリングはその基本手法である。
- カテゴリカルデータの類似度測定が困難であり，特にデータ量が少ない場合，統計的な手法では信頼性が低下する。
- 外部知識ベースを活用し，カテゴリカルデータのセマンティック情報を付加することで，クラスタリング精度を向上させる。
- 提案手法BREVEは，外部知識ベースから得られたセマンティック情報をカテゴリカルデータに付加することで表現力を高める。
- 付加されたセマンティック情報の重みは，クラスタの凝集度を考慮して適応的に調整される。
- 8つのベンチマークデータセットを用いた実験で，7つの代表的な競合手法に対してARIランキングで平均1.3の優位性を示した。
Link: https://arxiv.org/abs/2601.01162
FedBiCross：医療画像におけるパーソナライズされたワンショット連合学習 [cs.LG]目的：医療画像におけるプライバシー保護を考慮したワンショット連合学習のためのフレームワーク
- 医療データの連合学習は，プライバシーを保護しながらモデルを学習できるため重要である。
- 非IIDデータ下では，異なるクライアントからの予測が衝突し，知識蒸留の性能が低下する。
- クライアント間の知識伝達を最適化し，より精度の高いパーソナライズされたモデルを構築すること。
- 提案手法FedBiCrossは，モデル出力の類似性に基づきクライアントをクラスタリングすることで，一貫性のあるサブアンサンブルを形成する。
- バイレベルクロスクラスタ最適化により，有益な知識を活かしつつ，負の転移を抑制する適応的な重みを学習する。
- 4つの医療画像データセットにおいて，既存手法と比較して一貫して高い性能を示した。
Link: https://arxiv.org/abs/2601.01901
時系列予測におけるニューラルネットワークのホライズン活性化マッピング [cs.LG, math.FA]目的：時系列予測モデルの解釈可能性向上
- 時系列予測は，経済，気象，金融など多岐にわたる分野で不可欠であり，高精度な予測手法が求められている。
- 既存の手法はモデル固有であり，異なるモデル間での比較や，モデルの内部動作の理解が困難であった。
- モデルの種類に依存しない，汎用的な解釈手法を確立し，モデル選択や検証を支援すること。
- ホライズン活性化マッピング（HAM）は，勾配ノルムの平均を用いて，予測対象期間のどの部分に注目しているかを可視化する。
- HAMを用いることで，バッチサイズや学習方法の変化がモデルの活性化パターンに与える影響を分析し，最適なモデル構築に貢献する。
- NHITSやSpaceTimeといったモデルの理論的特性が，HAMの可視化結果と整合性を持つことが示され，手法の有効性が確認された。
Link: https://arxiv.org/abs/2601.02094
LLMにおける構文と意味の異なる符号化 [cs.CL, cs.CL, cs.AI, cs.LG, physics.comp-ph]目的：大規模言語モデルにおける構文情報と意味情報の符号化様相
- 自然言語処理の発展に伴い，言語モデルの内部表現の理解が重要になっている。
- 言語モデルが構文と意味をどのように符号化しているのか，明確に解明されていない。
- 言語モデルにおける構文と意味の符号化の違いを明らかにすることを目指す。
- 構文または意味が共通する文の隠れ層表現ベクトルの平均を取ることで，構文と意味情報を捉えることが可能となった。
- 構文と意味の「セントロイド」を文ベクトルから減算すると，構文的・意味的に一致する文との類似度に大きな影響が認められた。
- 構文と意味の符号化プロファイルは異なることが示され，ある程度分離可能であることが確認された。
Link: https://arxiv.org/abs/2601.04765
LsrIF：大規模言語モデルの論理構造化された指示追従の強化 [cs.AI]目的：大規模言語モデルにおける論理構造化された指示追従の向上
- 現実世界の指示は複雑であり，論理構造を理解することが重要である。
- 既存手法では，指示の論理的依存関係が無視され，ノイズの多い信号が生じている。
- 論理構造を考慮した訓練により，指示の論理的理解を深めることを目指す。
- LsrIFは，並列，逐次，条件分岐といった論理構造に基づきデータを構築する。
- 構造を意識した報酬集約により，指示追従能力が，ドメイン内・外の両方で向上した。
- 分析の結果，制約関連トークンや論理コネクタへの注意が向上し，指示の論理構造のモデリングが改善された。
Link: https://arxiv.org/abs/2601.06431
制約を加える前に考える：大規模言語モデルのための統一的なデコーディングフレームワーク [cs.CL, cs.AI]目的：大規模言語モデルにおける自由形式の応答と構造化生成の組み合わせ
- 自然言語処理の進展により，大規模言語モデルが高度な推論能力を持つようになった。
- 構造化された出力は検証が容易だが，制約の早期適用は推論能力を制限する可能性がある。
- 推論とフォーマットを分離し，制約を早期に適用する問題を解決することを目指す。
- 提案手法In-Writingは，自由形式の推論と構造化生成を単一の呼び出しで実現する。
- トリガー・トークン戦略により，制約付きデコーディングが推論を中断する問題をほぼ解消できる。
- 分類および推論タスクにおいて，最先端の手法と比較して最大27%の精度向上を達成した。
Link: https://arxiv.org/abs/2601.07525
評価基準から信頼性の高いスコアへ：LLM ジャッジによる根拠に基づいたテキスト評価 [cs.CL, cs.CL, cs.AI, cs.LG]目的：LLM を利用したテキスト評価の信頼性向上
- テキスト評価は教育や研究において重要であり，公平かつ効率的な評価手法が求められている。
- LLM を評価に利用する際，人間の評価基準との整合性確保が課題となっている。
- LLM による評価の信頼性を高め，評価基準の意図を正確に反映させることを目指す。
- Rulers は，人間の評価基準を固定されたタスク仕様に変換し，構造化されたチェックリストと証拠に基づいた検証を行う。
- 4 つのベンチマークにおいて，Rulers は複数の LLM で人間のスコアとの一致率を向上させた。
- Rulers は，評価基準のわずかな変更に対する安定性も改善し，各構成要素が効果を発揮することが示された。
Link: https://arxiv.org/abs/2601.08654
言語モデルの発話前制御：ロジットレベル介入 [cs.CL, cs.AI]目的：言語モデルの出力特性制御
- 自然言語処理において，生成されるテキストの品質や安全性が重要視されている。
- 既存手法は間接的，内部活性化へのアクセスが必要，または補助モデルに依存する。
- ロジット空間での直接介入により，学習不要で推論時に制御を実現する。
- SWAIは，プロンプトベースや既存のロジットレベル手法と比較して，一貫して性能が向上する。
- モデルパラメータの変更，内部層へのアクセス，補助モデルの学習は不要である。
- ターゲット特性に特化した統計スコアが，ロジット介入の効果を促進することが示された。
Link: https://arxiv.org/abs/2601.10960
TANDEM：時間情報を考慮したマルチモーダルヘイトスピーチ検出 [cs.AI, cs.CL, cs.MM, cs.SI]目的：マルチモーダルヘイトスピーチの検出に関する研究
- SNSにおけるヘイトスピーチの蔓延は深刻であり，有害な情報拡散を防ぐ対策が急務である。
- 既存のヘイトスピーチ検出システムは精度が高い反面，判断根拠が不明瞭であるという課題がある。
- 本研究は，時間情報と相互参照による解釈可能なヘイトスピーチ検出フレームワークを構築し，その有効性を示す。
- TANDEMは，視覚・言語モデルと音声・言語モデルを相互に最適化することで，時間的な文脈を考慮したヘイトスピーチ検出を実現した。
- HateMMデータセットにおいて，TANDEMはターゲット特定において最先端手法を30%上回り，F1スコア0.73を達成した。
- 多クラス分類においては，ラベルの曖昧さやデータセットの不均衡により，攻撃的なコンテンツとヘイトフルなコンテンツの区別が困難であることが示唆された。
Link: https://arxiv.org/abs/2601.11178
深部脳刺激におけるバンディットアルゴリズム [cs.LG, cs.SY, eess.SY]目的：深部脳刺激の適応的制御
- パーキンソン病治療において深部脳刺激は有効だが，バッテリー消費や副作用が課題。
- 既存の深層学習アプローチは計算コストが高く，インプラントデバイスへの実装が困難。
- 省資源なバンディットアルゴリズムによる，個別化された効率的な深部脳刺激制御。
- 提案手法は，既存のバンディット法や深層強化学習よりも迅速に収束した。
- 病的なβバンド活動を抑制しつつ，刺激電力を削減する効果が示された。
- マイクロコントローラ上での実装検証により，2分未満で収束し，省電力であることが確認された。
Link: https://arxiv.org/abs/2601.12699
CORE-T：テキストからSQLへのテーブルのコヒーレントな検索 [cs.CL, cs.AI, cs.IR]目的：テキストからSQLへの変換における，関連するテーブルセットの正確な検索
- 複雑なSQLクエリの実行には複数テーブルの結合が必要であり，その性能を左右する重要な要素である。
- 大規模で多様なテーブルコレクションから適切なテーブルを識別することは難しく，誤ったテーブルが選択される可能性がある。
- 大規模テーブルコレクションにおいて，効率的かつ正確に結合可能なテーブルセットを検索することを目指す。
- CORE-Tは，LLMで生成されたメタデータを用いてテーブルを強化し，テーブル互換性を事前計算することで，スケーラブルな検索を実現する。
- 従来のDR手法と比較して，テーブル選択のF1スコアを最大22.7ポイント，複数テーブル実行精度を最大24.4ポイント向上させる。
- また，選択に必要なトークン数をLLMベースの既存手法よりも1.64〜4.20倍削減できる。
Link: https://arxiv.org/abs/2601.13111
自己回帰からマスク拡散言語モデルへのポストトレーニングにおけるメカニズムシフト [cs.LG, cs.AI, cs.CL]目的：自己回帰モデルからマスク拡散モデルへのポストトレーニング時の計算メカニズムの変化
- 大規模言語モデルの性能向上は，計算資源の効率的な利用と新たなモデル構造の探求に不可欠である。
- ポストトレーニングによるモデル変換は有効だが，真に新しい計算メカニズムを獲得しているか不明確である。
- ポストトレーニングが表面的な変更ではなく，内部計算の再構成をもたらすことを明らかにすること。
- マスク拡散モデルは，局所的な因果関係を持つタスクでは自己回帰回路を維持する一方，グローバルなタスクでは既存の経路を放棄し，初期層に計算を集中させる。
- 自己回帰モデルにおける鋭い局所的専門化は，マスク拡散モデルでは分散的統合へと変化する。
- 拡散ポストトレーニングは，生成手続きの表面的な変化ではなく，タスク依存的な深さを持つ内部計算の再構成である。
Link: https://arxiv.org/abs/2601.14758
安定したガウス混合ブラックボックス変分推論のための適応的指数積分 [cs.LG]目的：ガウス混合族を用いたブラックボックス変分推論の安定化と効率化
- 複雑な事後分布の近似において，ターゲット密度の勾配を必要としない柔軟な手法が求められている。
- 標準的な数値最適化法では，不安定性や効率性の問題が生じやすい。
- 安定性と効率性を両立し，多様な初期段階と収束段階に対応できる手法を開発する。
- 自然勾配によるアフィン不変事前条件付け，指数積分，適応的ステップサイズ制御を組み合わせることで，安定した推論を可能にした。
- ガウス分布に対しては，ノイズがない場合に指数収束，モンテカルロ推定下ではほとんど確実に収束することが理論的に証明された。
- 多峰性分布，ニールのマルチスケールファンネル，Darcy流のベイズ逆問題などでの実験により，提案手法の有効性が示された。
Link: https://arxiv.org/abs/2601.14855
文法を意識したリテラテな生成数学計画法：コンパイラ連携によるアプローチ [cs.PL, cs.AI]目的：数学計画モデルの生成
- 産業界の最適化問題を解決する上で，数学計画法は不可欠な手法である。
- 自然言語からの変換は専門知識が必要であり，生成されたモデルの検証が難しい。
- コンパイラ連携により，記述性の高い数理モデルを生成し，修正を容易にする。
- SyntAGMは，読みやすい代数モデリング言語で最適化モデルを生成するシステムである。
- コンパイラからのフィードバックとLLMを活用し，問題記述と整合性のとれたモデルを生成する。
- 既存の手法と比較して，費用対効果のバランスが良い結果が得られた。
Link: https://arxiv.org/abs/2601.17670
リーマン多様体アンビエントフロー：破損データからの同時多様体学習と生成モデリングに向けて [cs.CL, cs.LG, math.DG, math.OC, math.ST, stat.TH]目的：破損データからの多様体学習と生成モデリングの同時実現
- データ解析において，潜在的な構造を抽出することは，科学的分析に不可欠である。
- 実際のデータはノイズを含みやすく，クリーンなサンプルを入手することが困難である。
- ノイズを含むデータから，正確なデータ分布と滑らかな多様体構造を学習すること。
- 提案手法は，正規化フローを利用したリーマン幾何学を組み込み，プルバック計量とリーマンオートエンコーダによって多様体構造を抽出する。
- 適切な幾何学的正則化と測定条件下では，学習モデルが基となるデータ分布を制御可能な誤差内で復元することが理論的に保証される。
- 生成された滑らかなデコーダは，逆問題に対する原理に基づいた生成事前分布として機能し，復元を保証する。
Link: https://arxiv.org/abs/2601.18728