arXiv雑要約

AI - 2026/05/27 公開

オフラインにおける文脈的強化学習に対するQ学習の有用性 [cs.MA, cs.CL, cs.LG, cs.AI]目的：オフライン文脈的強化学習におけるRL目的関数の最適化
- 強化学習は，複雑な意思決定問題を解決する上で重要な役割を担う。
- オフライン強化学習では，データ分布の偏りが性能低下の原因となる。
- 既存手法の限界を克服し，オフラインICRLの性能向上を目指す。
- 実験の結果，RL目的関数を直接最適化することで，広く採用されているアルゴリズム蒸留(AD)と比較して，平均で約30%の性能向上が確認された。
- 特に，困難なXLand-MiniGrid環境においては，RL目的関数がADの性能を2倍に向上させた。
- 価値学習における保守性の導入は，ほとんどの環境設定において追加的な改善をもたらすことが示された。
Link: https://arxiv.org/abs/2502.17666
Harmonia：マルチエージェント強化学習によるハイブリッドストレージシステムのデータ配置と移行の強化 [cs.NI, eess.SP, cs.AR, cs.DC, cs.LG]目的：ハイブリッドストレージシステムのデータ配置およびデータ移行ポリシーの最適化
- データ集約型アプリケーションの性能・容量・コスト要件を満たす上で，多様な特性を持つストレージデバイスを組み合わせたハイブリッドストレージシステムが不可欠である。
- 既存研究はデータ配置またはデータ移行のいずれか一方に焦点を当てており，両者を連携して最適化する手法が不足している。
- ハイブリッドストレージシステムの潜在能力を最大限に引き出すため，データ配置とデータ移行を同時に最適化する手法を開発する。
- Harmoniaは，実際のハイブリッドストレージシステム構成と25種類のデータ集約型ワークロードにおいて，既存手法を平均で29.3％（コスト最適化では44.8％）上回る性能を示した。
- 3台または4台のデバイスを持つシステムでも，既存手法を平均で38.9％（39.2％）上回る性能を発揮した。
- Harmoniaは，推論遅延が240nsと低く，両方のRLエージェントのストレージオーバーヘッドも206KiBと小さい。
Link: https://arxiv.org/abs/2503.20507
機械学習分類モデルに対する不確実性認識型ベイズフレームワーク：土地被覆分類における事例研究 [cs.CE, q-bio.BM, cs.LG, cs.CV, stat.ML]目的：機械学習分類モデルの不確実性評価
- 信頼性のあるAIシステム構築には，予測の不確実性評価が不可欠である。
- 既存研究では，モデルの知識不足による不確実性に焦点を当てがちで，入力測定の不確実性が考慮されていない。
- 入力測定の不確実性を考慮したベイズフレームワークを提案し，信頼性の高い分類を可能とすること。
- 提案するベイズ二次判別分析（BQDA）モデルは，コペルニクスSentinel-2の土地被覆データに対して良好な性能を示した。
- BQDAモデルは，ランダムフォレストやニューラルネットワークなどの一般的な分類モデルと比較して，解釈性，計算効率に優れていた。
- 合成データを用いたシミュレーションでも，BQDAモデルは入力測定ノイズの変動に強く，信頼性の高い予測結果を提供した。
Link: https://arxiv.org/abs/2503.21510
モデル化された大気循環から現実的な全球降水場を生成する [cs.DC, cs.LG, physics.ao-ph]目的：地球システムモデルにおける降水表現の改善
- 気候変動の影響評価，特に洪水や干ばつなどの極端な現象の理解に不可欠な研究分野である。
- 既存の地球システムモデルでは，降水がパラメータ化によって表現されており，計算コストが高く，場所間の相互作用を考慮していない。
- 大規模な大気変数から降水パターンを学習し，高解像度降水予測を効率的に行う手法を開発する。
- 生成的な機械学習モデルを用いて，高解像度（0.25度）の全球日降水場を生成することに成功した。
- この手法は，従来のパラメータ化と比較して，計算効率が良く，降水予測の不確実性を捉えるアンサンブル予測が可能である。
- 大規模な大気変数の相互作用を活用することで，地球システムモデルの降水バイアスを軽減し，大規模なトレンドとの整合性を維持する。
Link: https://arxiv.org/abs/2504.00307
TailedCore：教師なし長尾ノイズ異常検知のための少数のサンプリング [cs.CV, cs.LG]目的：長尾分布かつノイズを含むデータセットにおける異常検知
- 製造業等における品質管理の自動化が求められており，異常検知技術の重要性が高まっている。
- 従来の異常検知モデルは，ノイズへの頑健性と少数クラスへの対応のバランスが課題であった。
- 長尾分布の少数クラスとノイズを分離し，それぞれに適した処理を行うことで，より高精度な異常検知を目指す。
- 提案手法TailedCoreは，埋め込み類似度の対称性を利用し，クラスサイズを予測するTailSamplerを導入した。
- TailSamplerにより少数クラスのサンプルのみを抽出し，ノイズに強いメモリベースの異常検知モデルを構築した。
- 実験の結果，TailedCoreは既存手法と比較して，様々な設定で優れた性能を示した。
Link: https://arxiv.org/abs/2504.02775
学習された部分的なドライバーの遵守下における交通管理のための経路推奨 [eess.SY, cs.LG, cs.SY]目的：交通流の最適化
- 交通渋滞の緩和は社会経済活動において不可欠であり，効率的な交通システムの構築が求められている。
- 従来の経路推奨はドライバーの完全な遵守を仮定しているが，現実には個人の目的による逸脱が発生する。
- ドライバーの遵守度を学習し，現実的な状況下で交通流を最適化する経路推奨手法を開発する。
- 提案手法は，シミュレーションにおいて，既存手法と比較して旅行時間を大幅に短縮できることを示した。
- ドライバーの遵守度を学習することで，現実的な交通状況下での経路推奨の精度を向上させた。
- 確率的最適化問題を通じて，システム最適流と実現流の乖離を最小化する経路を導出した。
Link: https://arxiv.org/abs/2504.02993
実践：連続的な手話シーケンスからの個別手話の分割 [cs.CV, cs.AI]目的：連続手話の分割
- 手話翻訳やデータアノテーションの基盤技術であり，手話コミュニケーションの促進に不可欠である。
- 連続手話データからの手話単位の正確な分割は，困難な課題である。
- 手話の時系列特性を捉え，高精度な分割を可能とする。
- 提案手法は，transformerベースのアーキテクチャとBIOタグ付けスキームを組み合わせている。
- DGSコーパスにおいて，最先端の結果を達成した。
- BSLCorpusにおいては，既存のベンチマークを超える特徴量を示した。
Link: https://arxiv.org/abs/2504.08593
異種物理シミュレーションのための機械学習統一データモデル：PLAID [cs.LG]目的：異種物理シミュレーションデータに対する機械学習を促進するための統一的なデータモデル
- 物理シミュレーションは科学技術の発展に不可欠であり，その高速化は重要課題である。
- 既存のデータセットは限定的で，多様性や標準化が不十分であるため，汎化性能の評価が難しい。
- 現実的なシナリオを反映した，多様かつ標準化されたデータセットとデータモデルを構築し，汎化性能を評価する。
- PLAIDは，複雑なシミュレーションデータを効率的に扱い，スケーラブルな機械学習ワークフローを可能にする。
- 構造力学と計算流体力学の6つのデータセットを公開し，標準化されたベンチマークを提供することで，コミュニティ主導のベンチマークを促進する。
- Hugging Faceとの連携により，オープンで活発なユーザー参加型のベンチマーク環境を構築する。
Link: https://arxiv.org/abs/2505.02974
行動する前に二度考える：思考修正によるエージェントの行動安全性の向上 [cs.AI, cs.CR]目的：エージェントの行動安全性の向上
- 大規模言語モデルを活用したエージェントの応用が拡大しており，安全性の確保が重要である。
- エージェントの思考のわずかな逸脱が，危険な行動につながる可能性がある。
- 思考段階で安全性を修正することで，エージェントの行動を安全な方向に導くことを目指す。
- Thought-Alignerは，エージェントの思考を修正することで，行動安全性を約50%から90%に向上させた。
- 既存の安全対策を約23%上回る性能を示し，有用性も約5%向上した。
- Thought-Alignerは，モデルに依存せず，多様なエージェントフレームワークに統合可能である。
Link: https://arxiv.org/abs/2505.11063
意味を超えて：理由なき中間トークンの驚くべき有効性 [cs.LG, cs.AI]目的：大規模推論モデルにおける中間トークンの役割の検証
- 近年の大規模言語モデルの発展は目覚ましいが，推論能力の獲得メカニズムは未解明な点が多い。
- CoT（思考の連鎖）は性能向上に寄与する一方，その影響メカニズムは曖昧で，解釈に注意が必要である。
- CoTの有効性を，意味内容に依存しない中間トークンを用いて検証し，その本質を明らかにすること。
- 正式に検証可能な推論トレースでモデルを訓練した結果，正しいトレースのみで学習しても無効な推論トレースが生成される場合がある。
- 意味をなさない（破損した）トレースで学習したモデルは，正しいトレースで学習したモデルと同程度の性能を示し，分布外タスクではより良い汎化性能を発揮した。
- 推論トレースの長さは，問題の計算複雑さと相関せず，モデルの推論行動を予測する指標とはなりえないことが示された。
Link: https://arxiv.org/abs/2505.13775
効率的な全ペア相関ボリュームサンプリングによる光流推定 [cs.CV, cs.LG]目的：光流推定のための全ペア相関ボリュームサンプリング効率の向上
- 画像認識やロボティクスなど，多様な分野で光流推定は重要な役割を担う技術である。
- 従来の全ペア相関ボリュームの計算は，計算量とメモリ消費量が課題となっていた。
- メモリ効率と計算効率を両立し，高解像度画像における光流推定の精度と速度を向上させる。
- 提案手法は，オンデマンドサンプリングと比較して最大92%高速でありながら，同等の低メモリ使用量を維持する。
- デフォルト実装と同等の性能を維持しつつ，メモリ使用量を最大99%削減できる。
- 高解像度入力において，モデル全体の推論時間を最大63%削減できる。
Link: https://arxiv.org/abs/2505.16942
OCR-Reasoningベンチマーク：複雑なテキスト豊富な画像推論におけるMLLMの真の能力の解明 [cs.LG, cs.AI, cs.CL, cs.CV]目的：テキスト豊富な画像推論におけるマルチモーダル大規模言語モデルの能力評価
- 画像認識と自然言語処理の融合が，より高度なAIシステムの実現に不可欠である。
- テキスト情報が多い画像に対する推論能力の評価方法が確立されていなかった。
- テキスト豊富な画像に対する推論能力を詳細に評価するためのベンチマークを開発すること。
- 本研究で提案するOCR-Reasoningベンチマークは，1069個のアノテーションデータで構成されている。
- 最新のMLLMの評価を行った結果，いずれも50%以上の精度を達成できていないことが示された。
- テキスト豊富な画像推論は，依然として解決すべき重要な課題であることが明らかになった。
Link: https://arxiv.org/abs/2505.17163
Doc-CoB：視覚的な連鎖的なボックス推論による文書理解の向上 [cs.AI, cs.CV]目的：文書理解における質問応答および情報抽出の性能向上
- 文書画像は情報密度が高く，現代社会における情報アクセスの根幹をなす重要な研究分野である。
- 既存手法は，全てのレイアウトを等重要と扱うか，小領域に過度に焦点を当てて大局的な情報を見落とす傾向がある。
- クエリに関連するレイアウト領域に段階的に焦点を当て，文書全体の情報を維持することで，文書理解の精度向上を目指す。
- Doc-CoBは，マルチモーダル大規模言語モデルに粗粒度から細粒度へのレイアウト認識視覚推論を統合したシンプルなフレームワークである。
- 重要なレイアウトボックスを選択し，視覚的プロンプトを用いてさらなる理解を深めることで，性能が大幅に向上する。
- 7つのベンチマークと4つのモデルを用いた実験により，Doc-CoBの有効性と幅広い適用可能性が実証された。
Link: https://arxiv.org/abs/2505.18603
メッセージパッシング状態空間モデル：最新の系列モデリングによるグラフ学習の改善 [cs.LG, cs.AI]目的：グラフ学習における性能向上
- グラフ構造データの解析は，社会ネットワークや分子構造など，様々な分野で重要である。
- 既存のグラフ状態空間モデルは，計算効率や順列不変性といった点で課題が残されている。
- メッセージパッシングの枠組みにSSMの原理を組み込み，効率的かつ高性能なモデルを開発すること。
- 提案手法MP-SSMは，グラフの構造を考慮した効率的な情報伝播を実現した。
- MP-SSMは，ノード分類，グラフプロパティ予測，時空間予測など，多様なタスクで優れた性能を示した。
- 理論的な解析により，勾配消失やオーバー・スクワッシングといった問題を評価し，情報フローを特徴付けた。
Link: https://arxiv.org/abs/2505.18728
グラフに対する学習可能なカーネル密度推定とグラフレベル異常検知への応用 [cs.LG, stat.ML]目的：グラフに対するカーネル密度推定の学習
- グラフ構造データは，ソーシャルネットワークや分子構造など，様々な分野で重要性が増している。
- 既存のグラフ密度推定は，手動で設計された特徴量に依存し，性能が限定的である。
- グラフニューラルネットワークを用いて，多段階のカーネル密度推定を学習し，異常検知の精度向上を目指す。
- 提案手法LGKDEは，グラフを離散分布として表現し，最大平均不一致を用いてグラフの距離を学習する。
- ノード特徴量とグラフスペクトルの摂動により，正常な密度領域の境界をより良く特徴づけることができる。
- 合成グラフ分布の密度回復と，多様なベンチマークデータセットにおけるグラフ異常検知において，最先端手法を上回る性能を示した。
Link: https://arxiv.org/abs/2505.21285
Muddit：統一された離散拡散モデルによるテキスト画像生成の限界を超える [cs.LG, cs.CV]目的：テキストと画像の多様な生成
- 近年のマルチモーダル研究の進展に伴い，単一モデルでの多様なタスク処理が求められている。
- 既存の統一モデルは，推論速度や汎化性能の点で課題を抱えている。
- 強固な事前学習済みの画像生成モデルを活用し，高速かつ高品質なマルチモーダル生成を実現する。
- Mudditは，テキストと画像の両方で高速かつ並列な生成を可能にする。
- 既存の自己回帰モデルと比較して，同等以上の品質と効率を実現した。
- 離散拡散モデルが，統一生成のためのスケーラブルかつ効果的な基盤となる可能性を示唆する。
Link: https://arxiv.org/abs/2505.23606
プロンプティングの頑健性：プロンプティング攻撃に対する大規模言語モデルの頑健性向上 [cs.CL, cs.AI]目的：大規模言語モデルのプロンプティング攻撃に対する頑健性の向上
- 大規模言語モデルは多様なタスクで高い性能を示すが，入力のわずかな変化に弱く，実用上の課題がある。
- 従来のプロンプティング手法では，入力の揺らぎに対する頑健性を明示的に高めることが困難であった。
- 入力エラーに対する自動修正と，より堅牢な推論を導くガイダンスを組み合わせることで，頑健性を向上させる。
- 提案手法RoPは，敵対的サンプルを用いて入力エラーを自動修正するエラー修正段階と，修正された入力に基づき最適なガイダンスを生成するガイダンス段階から構成される。
- 算術，常識，論理的推論タスクにおける実験により，RoPが大規模言語モデルの敵対的摂動に対する頑健性を大幅に向上させることが示された。
- RoPは，クリーンな入力と比較してわずかな精度低下でモデルの精度を維持し，実用的なアプローチであることを示した。
Link: https://arxiv.org/abs/2506.03627
任意のスケール画像超解像のための自己カスケード拡散モデル [eess.SY, cs.RO, cs.SY, cs.CV, cs.AI]目的：任意のスケール画像超解像
- 画像処理において，高解像度化は重要な技術であり，様々な応用分野で利用されている。
- 従来の固定スケール超解像では，解像度の選択肢が限られ，柔軟性に欠けるという課題があった。
- 多様な拡大率に対応し，一貫性のある高品質な超解像画像を生成することを目指す。
- 提案手法CasArbiは，段階的な解像度向上により，様々なスケールに対応可能である。
- 座標条件付き拡散モデルと自己整合性ガイダンスにより，スケールの一貫性を向上させている。
- 実験結果から，既存手法と比較して，知覚的な品質と歪み指標において優れていることが示された。
Link: https://arxiv.org/abs/2506.07813
SO(3)不変ハミルトニアン行列の効率的な予測：SO(2)局所座標系によるアプローチ [cs.LG, physics.comp-ph]目的：ハミルトニアン行列の予測
- 物理，化学，材料科学において，電子構造計算の高速化は重要な課題である。
- ハミルトニアン行列のオフ対角成分とSO(2)局所座標系の関係性は十分に活用されていない。
- SO(3)不変性を保ちつつ，計算コストを削減する効率的な予測手法を開発する。
- 提案手法QHNetV2は，SO(3)のClebsch-Gordanテンソル積を回避し，SO(2)局所座標系内で効率的な演算を実現した。
- QH9およびMD17データセットにおける実験により，幅広い分子構造と軌道に対して高い汎化性能が確認された。
- SO(2)局所座標系におけるSO(2)演算は，電子構造の拡張性と対称性を考慮した学習の有望な方向性を示す。
Link: https://arxiv.org/abs/2506.09398
Athena: データ効率的なプロセス報酬モデルによるマルチモーダル推論の強化 [cs.LG, cs.AI, cs.CL, cs.CV]目的：複雑な推論問題解決における各ステップの報酬スコアを評価するためのマルチモーダルプロセス報酬モデル
- 高度なAIシステム開発には，複雑な推論能力が不可欠であり，その評価手法が重要となる。
- 従来のプロセス報酬モデル構築には，コストのかかるステップレベルの注釈作業が必須であった。
- 弱完遂者と強完遂者の予測一致性を利用し，高品質なプロセスラベルを効率的に生成することを目指す。
- Athena-PRMは，わずか5,000サンプルで多様なシナリオとベンチマークにおいて優れた有効性を示す。
- Qwen2.5-VL-7Bをポリシーモデルとして使用した場合，WeMathで10.2ポイント，MathVistaで7.1ポイントの性能向上を実現した。
- VisualProcessBenchにおいて，既存の最先端技術を3.9 F1スコアで上回り，推論ステップの正確性を正確に評価する能力を実証した。
Link: https://arxiv.org/abs/2506.09532
活性化ベクトル操縦によるジャンル制御音楽生成 [cs.SD, cs.AI, eess.AS]目的：ジャンル制御音楽生成手法
- 音楽生成の分野は多様化し，従来の枠にとらわれない新しいスタイルへの需要が高まっている。
- 既存手法では，多様な音楽要素の精密な制御やブレンドが困難であるという課題がある。
- 生成モデルの活性化ベクトルを操作することで，音楽のジャンルを自在に制御することを目指す。
- 生成モデルMusicGenの残差ストリームを線形プローブの重みで操縦する手法を提案した。
- 活性化ベクトル操縦を人間が制御可能な対話的インターフェースとして捉え，共創的な音楽生成を可能にした。
- 本手法により，音楽生成における解釈可能なモデル挙動の重要性が示された。
Link: https://arxiv.org/abs/2506.10225
基盤モデルに対するデータ追跡型機械アンラーニングの知識追跡への拡張 [cs.CV, cs.LG]目的：基盤モデルにおける知識追跡型機械アンラーニングの提案
- AIモデルの利用拡大に伴い，データプライバシー保護の重要性が増している。
- 基盤モデルの学習データは膨大であり，特定のデータ削除要求への対応が困難である。
- モデルが持つべきでない知識や能力の削除という観点から，アンラーニングを再定義する。
- データ追跡型アンラーニングでは対応困難な多様な要求に対し，知識追跡型アンラーニングが有効である。
- 知識追跡型アンラーニングは，個々のデータ追跡よりも人間の記憶のメカニズムに近い。
- 視覚言語基盤モデルを用いたケーススタディにより，本パラダイムの実装可能性を示した。
Link: https://arxiv.org/abs/2506.11253
空間物理学習における解釈性と汎化限界 [cs.LG, stat.ML]目的：空間物理学習モデルの解釈性と汎化性能に関する理論的枠組み
- 科学分野への機械学習応用が活発化しており，その精度評価が重要である。
- 機械学習モデルの汎化性能は，データ量だけでなく関数空間に依存する。
- ブラックボックスモデルから物理量の表現を抽出し，汎化性能を評価する手法を提案する。
- 線形微分方程式に対する機械学習モデルの精度，収束率，汎化限界を数学的に定量化した。
- モデルの種類によって汎化の挙動が異なり，直感に反する結果が得られた。
- グリーン関数の表現をモデルの重みから抽出する新たな解釈性指標を提示した。
Link: https://arxiv.org/abs/2506.15199
少数サンプル外れ値検出のための適応型マルチプロンプト対照ネットワーク [cs.CV, cs.AI]目的：少数サンプル外れ値検出における性能向上
- 機械学習モデルの信頼性確保は重要であり，未知のデータに対する誤った予測を防ぐ必要がある。
- 従来の検出手法は大量の学習データが必要であり，現実世界での応用が難しい。
- 少数のラベル付きデータのみで外れ値を検出する手法の開発が求められている。
- 提案手法は，クラス内の多様性を考慮し，IDとOODの分離境界を適応的に学習する。
- CLIPモデルを活用し，学習可能なIDプロンプトと固定/適応型のOODプロンプトを設計することで，データ不足を補っている。
- 実験結果から，提案手法が最先端技術と比較して優れた性能を示すことが明らかになった。
Link: https://arxiv.org/abs/2506.17633
推論言語モデルにおけるリアルタイムな進捗予測 [cs.CL, cs.LG, cs.AI]目的：推論言語モデルの進捗予測手法
- 複雑なタスク遂行能力向上のため，推論能力を持つ言語モデルの研究が重要である。
- 推論過程が長くなるほど，進捗状況の把握が難しく，利用者の期待管理が困難になる。
- 推論過程における進捗状況をリアルタイムに予測し，利用者の理解を助けることを目指す。
- 隠れ状態に進捗情報が含まれていることを確認し，線形プローブによる分類が可能であることを示した。
- モデルをファインチューニングすることで，推論中に0〜100％の進捗概算を生成できることを示した。
- Qwen3-4B は，ロールアウトのばらつきが最も小さく，進捗ラベルの安定性が高いことが示された。
Link: https://arxiv.org/abs/2506.23274
RLベースの線維路追跡におけるTractOracle手法の頑健性に関する探求 [cs.LG]目的：拡散MRIデータを用いた脳白質の線維構造再構築におけるTractOracle手法の性能評価
- 脳白質の線維構造の理解は，脳機能解明や神経疾患の診断に不可欠である。
- 従来の線維路追跡法は，偽陽性の問題やデータの多様性への適応性に課題がある。
- 本研究は，RLと解剖学的事前知識を組み合わせたTractOracle手法の頑健性を高めることを目指す。
- TractOracleとRLの組み合わせは，手法やデータセットに関わらず，頑健で信頼性の高い線維路追跡を可能にした。
- Iterative Reward Training (IRT)という新しいRL訓練スキームが，人間のフィードバックなしでオラクルのガイダンスを改善する効果が示された。
- オラクルからのフィードバックで訓練されたRL手法は，精度と解剖学的妥当性の点で既存の線維路追跡技術を上回った。
Link: https://arxiv.org/abs/2507.11486
「PhyWorldBench」：テキスト-ビデオモデルにおける物理的リアリズムの包括的評価 [cs.CV, cs.AI]目的：テキスト-ビデオモデルの物理法則への準拠度評価
- ビデオ生成技術の進歩は目覚ましいが，現実世界の物理現象の正確なシミュレーションが課題である。
- 既存のビデオ生成モデルは，物理法則に矛盾した映像を生成する可能性がある。
- 物理法則に沿ったビデオ生成能力を定量的に評価し，改善点を特定すること。
- 新たに「PhyWorldBench」を開発し，物体運動やエネルギー保存といった物理現象のレベル別に評価。
- 12の最先端テキスト-ビデオ生成モデルを評価し，物理法則への準拠における課題を明らかにした。
- プロンプト設計に関する推奨事項を導き出し，物理的リアリズムの向上に貢献する。
Link: https://arxiv.org/abs/2507.13428
分子生成のためのパラメータ補間フローモデルMolPIF [cs.LG, q-bio.BM]目的：分子生成におけるパラメータ補間フローメカニズム
- 構造ベースの医薬品設計は深層生成モデルにより進歩している。
- 連続的な原子座標と離散的な原子種の間のギャップを埋めることが課題である。
- 連続変数と離散変数を統合的に生成するモデルを開発すること。
- MolPIFは，連続座標に対してWasserstein-2最適輸送を，離散原子種に対してFisher-Rao測地線を利用する。
- CrossDocked2020データセットにおいて，結合親和性，化学的妥当性，幾何学的忠実度，化学空間カバレッジにおいて既存手法を上回る性能を示した。
- MolPIFはリード最適化の多様性を示し，ラプラス分布等の柔軟な事前分布選択が可能である。
Link: https://arxiv.org/abs/2507.13762
PICACO：LLMの多様な文脈内価値整合のための総相関最適化 [cs.CL, cs.AI, cs.CY]目的：LLMの価値整合
- LLMの安全性向上は重要であり，有害な出力抑制と多様な嗜好への対応が求められている。
- LLMは入力プロンプトの理解が不十分で，価値の対立を解決できない場合がある。
- 複数の価値を同時に考慮し，LLMの価値理解を促進すること。
- PICACOは，ファインチューニングなしにメタ指示を最適化し，複数の価値をナビゲートする。
- 総相関を最大化することで，価値間の相関を強化し，ノイズを低減する。
- 5つの価値セットを用いた実験で，PICACOは既存手法を上回り，最大8つの異なる価値間のバランスを改善した。
Link: https://arxiv.org/abs/2507.16679
Chain-of-Thought はどのように機能するか：デコーディング，射影，活性化からの情報フローの追跡 [cs.AI]目的：Chain-of-Thought の動作原理の解明
- 大規模言語モデルの推論能力向上にCoTが貢献しているため，そのメカニズム理解が不可欠である。
- CoT の内部メカニズムは未解明であり，効果的なプロンプト設計の妨げとなっている。
- CoT の情報フローを分析し，より効率的で堅牢なプロンプト設計に繋げる。
- CoT はデコーディング空間を絞り込み，出力生成を誘導する役割を持つことが示唆された。
- テンプレートへの適合度が高いほど，性能が向上することが確認された。
- CoT はタスクに応じてニューロンの活性化を変化させることが明らかになった。
Link: https://arxiv.org/abs/2507.20758
PyCAT4：階層型Vision Transformerに基づく3D人体姿勢推定フレームワーク [cs.CV, cs.LG]目的：3D人体姿勢推定の精度向上
- 近年，人間行動理解の重要性が高まっており，姿勢推定はその基盤技術となる。
- 既存手法では，複雑な姿勢やオクルージョンに対するロバスト性に課題があった。
- Transformerとピラミッド構造を融合し，多様なスケールでの特徴表現を改善する。
- 提案手法PyCAT4は，COCOおよび3DPWデータセットにおいて高い性能を示した。
- Transformer層の導入により，低レベル特徴の抽出能力が向上した。
- 時間的特徴融合と空間ピラミッド構造により，多スケール特徴のバランスが改善された。
Link: https://arxiv.org/abs/2508.02806
3D完全導体ターゲットのマイクロ波散乱解析のための物理情報に基づいた階層型ニューラルネットワーク [cs.LG, cs.AI]目的：3D完全導体ターゲットのマイクロ波散乱解析
- レーダー断面積予測など，電磁波解析は防衛技術や高周波デバイス設計において不可欠である。
- 従来の数値計算手法は計算コストが高く，複雑な形状のターゲットでは精度が課題となる場合がある。
- データ駆動型手法の精度向上と，計算効率の良い散乱解析手法の開発が求められている。
- 提案手法U-PINetは，従来の物理情報に基づいた手法と比較して優れた性能を示すことが確認された。
- U-PINetは，MLFMAなどの古典的手法に比べて，繰り返しクエリシナリオにおいて大幅な実行時間短縮を実現した。
- U-PINetは，表面上の離散化された残差に対して学習することで，参照電流ラベルを必要としない。
Link: https://arxiv.org/abs/2508.03774
LLMの再ランク付けにおける推論の信頼性：検証 [eess.SY, cs.SY, cs.CL, cs.AI]目的：LLMの再ランク付けタスクにおける推論の信頼性
- LLMは意味理解能力が向上し，人間価値との整合性も高まっているが，その内部メカニズムは不透明である。
- ユーザエンゲージメントが少ない，またはランキングデータが不足しているシステムでは，正確な再ランク付けが困難である。
- LLMの再ランク付けにおける意味理解への影響と，透明性やデータ不足といった課題の克服を目指す。
- 異なる学習方法がLLMの再ランク付けにおける説明可能性に影響を与えることが示唆された。
- 一部の学習方法は評価の最適化のために抽象的な知識を獲得しているだけで，真の意味理解が不十分である可能性が示唆された。
- 環境・地球科学分野の小規模なランキングデータセットを用いた分析により，LLMの再ランク付けにおける推論の信頼性を検証した。
Link: https://arxiv.org/abs/2508.18444
EvoEmo：多段階価格交渉における敵対的LLMエージェントのための進化型感情ポリシー [cs.AI]目的：敵対的LLMエージェントにおける進化型感情ポリシーの開発
- LLMエージェントの交渉能力向上は，AIの自律性と実用性を高める上で不可欠である。
- 既存のLLMエージェントは感情の戦略的役割を無視しており，操作や悪用を受けやすい。
- 本研究は，動的な感情表現を最適化することで，交渉におけるLLMエージェントの有効性を高めることを目指す。
- EvoEmoは，感情状態遷移をマルコフ決定過程としてモデル化し，遺伝的最適化を用いて感情ポリシーを進化させる。
- EvoEmoは，従来の戦略や固定感情戦略と比較して，交渉の成功率，効率性，買い手への利益において一貫して高い性能を示す。
- これらの結果は，適応的な感情表現が多段階交渉におけるLLMエージェントの有効性を高める上で重要であることを示唆している。
Link: https://arxiv.org/abs/2509.04310
大規模言語モデルを用いた表形式データセットの概念スキーマ推論 [cs.DB, cs.AI]目的：表形式データセットから概念スキーマの導出
- データ利活用において，データの構造化と意味理解が不可欠であるため。
- 多様なデータソースからの表形式データには，表現の一貫性の欠如という課題がある。
- 表形式データから，エンティティ型，属性，関係性を自動的に推論することを目指す。
- 提案手法は，カラムヘッダーとセル値のみを用いて概念スキーマを推論する。
- GeSIは生成LLMにより階層型タイプとその属性を推論し，グローバルスキーマを構築する。
- EmSIはLLM埋め込みを用いてカラムレベルのセマンティクスに基づきテーブルをグループ化し，属性パターンから階層構造を構築する。
Link: https://arxiv.org/abs/2509.04632
f-divergenceを用いた拡散モデルアンラーニングのための統一的フレームワーク [cs.CL, cs.IR, cs.LG, cs.CV]目的：拡散モデルにおける概念アンラーニングのフレームワーク
- 画像生成AIの発展に伴い，モデルから特定の概念を削除する技術が重要となっている。
- 既存手法はKL divergenceに依存しており，その柔軟性に限界がある。
- 汎用的なf-divergenceに基づくフレームワークにより，より効果的なアンラーニングを目指す。
- 提案手法では，様々なf-divergenceを適用可能であり，MSEを包含する統一的なフレームワークを確立した。
- Hellinger divergenceを用いることで，既存のMSEよりも優れたアンラーニング性能が得られることが示された。
- アプリケーションや目的に応じた最適なdivergenceの選択が可能となり，アンラーニングの質と生成性能のバランスを調整できる。
Link: https://arxiv.org/abs/2509.21167
検証可能な報酬を用いた強化学習の隠れたコストと測定のギャップ [cs.LG, cs.AI]目的：強化学習における検証可能な報酬の有効性に関する測定標準の提案
- 大規模言語モデルの数学，コード等の構造化タスクにおける性能向上に貢献する重要な分野である。
- 既存の研究では，評価予算の不一致やデータ汚染などの問題により，性能向上の妥当性が十分に検証されていない。
- 測定の信頼性を高めるため，予算一致，変動，キャリブレーション，データ汚染の検証を含む標準を提案する。
- 既存研究で報告された性能ギャップは，予算やプロンプトを揃え，データ汚染を考慮することで縮小または消失することが示された。
- 検証可能な報酬を用いた強化学習は依然として有効だが，適切な測定なくしては性能向上の度合いを過大評価する可能性がある。
- 予算一致した飽和曲線，頑健性テスト，汚染スクリーニングを含む測定標準を提案することで，より信頼性の高い評価が可能となる。
Link: https://arxiv.org/abs/2509.21882
Transformerを用いたスケーラブルなGAN [cs.CV, cs.AI, cs.LG]目的：GANのスケーラビリティ向上
- 生成モデルの進歩はスケーラビリティに大きく依存する。
- 敵対的学習におけるスケーラビリティの原則は未解明な点が多い。
- GANの効率的なスケーリング手法を開発すること。
- 本研究では，Variational Autoencoderの潜在空間での学習と，Transformerのみを用いた生成器・識別器の採用により，GANのスケーラビリティを検証した。
- ネットワークを拡大する際の早期層の低利用や最適化の不安定さなどの課題を特定し，軽量な中間層での監督や幅に応じた学習率調整という解決策を提案した。
- 提案手法GATは，幅広い容量で安定して学習可能であり，ImageNet-256において最先端の性能（FID 2.96）を40エポックで達成した。
Link: https://arxiv.org/abs/2509.24935
DiVeQ：リパラメータライゼーション・トリックを用いた微分可能なベクトル量子化 [cs.LG]目的：ベクトル量子化の微分可能性確保
- 深層学習モデルにおいて，ベクトル量子化は広く利用されている重要な技術である。
- 従来のベクトル量子化では，勾配が伝播せず，エンドツーエンドでの学習が困難であった。
- 勾配を伝播させつつ，量子化のハードな割り当てを維持することを目的とする。
- DiVeQは，量子化誤差を模倣する誤差ベクトルを加えることで，微分可能性を実現した。
- SF-DiVeQは，コードワードを結ぶ曲線に入力を割り当てることで，量子化誤差を低減し，コードブックの完全な利用を可能にした。
- 画像圧縮，画像生成，音声符号化タスクにおいて，既存手法を上回る性能が確認された。
Link: https://arxiv.org/abs/2509.26469
LLMによる自己評価：自動評価における自己バイアスの解明 [cs.CL, cs.AI]目的：LLMによる自動評価における自己バイアスの構造
- LLMの進化に伴い，評価の自動化が重要視されている。人的コスト削減のニーズも高い。
- LLM自身が評価を行う場合，その評価の信頼性が担保されていないという課題がある。
- LLMによる自己評価に内在するバイアスを特定し，その軽減策を検討すること。
- LLMが生成したベンチマークは，生成したモデル自身に有利に働く傾向が確認された。
- この自己バイアスは，テストセット生成と評価の双方に原因があり，組み合わせると増幅される。
- 多様性を制御しても，モデル固有のスタイルにより自己バイアスが生じる。多様性指標の活用で軽減可能。
Link: https://arxiv.org/abs/2509.26600
大規模なインターネット検索による難易度の高いベンチマークの探索 [cs.CL, cs.AI]目的：難易度の高いベンチマークの自動生成手法
- モデルの性能評価には，信頼性の高いベンチマークが不可欠である。特に，大規模言語モデルの急速な発展に伴い，その評価基準が重要となる。
- 既存の静的ベンチマークは飽和状態に近づいており，モデルの改善によって容易に高スコアを獲得できるようになった。真の弱点を露呈させることが困難である。
- 人間の手作業によるキュレーションに頼らず，インターネットから自動的に難易度の高いベンチマークを発見し，モデルの性能をより正確に評価すること。
- 提案手法は，インターネットをトピック空間として捉え，多腕バンディット問題を適用することで，効率的に難易度の高いトピックを特定する。
- 探索空間のわずか6%を探索するだけで，十分な難易度を持つベンチマークを発見し，徹底的な評価と比較して100倍のコスト削減を実現した。
- 機械翻訳と知識質問応答タスクにおいて，発見された難易度が独立した指標や言語，モデルで一貫性があることを確認した。
Link: https://arxiv.org/abs/2509.26619
HiSpec：LLMのための階層型推測デコーディング [cs.CL, cs.AI, cs.LG]目的：LLMの推論高速化のための手法
- LLMの規模拡大に伴い，推論速度が重要な課題となっている。
- 推測デコーディングでは，検証段階がボトルネックとなる場合がある。
- 中間検証のオーバーヘッドを削減し，高スループット化を目指す。
- 提案手法HiSpecは，早期終了モデルを活用し，低コストな中間検証を実現する。
- HiSpecは，キャッシュや隠れ状態の再利用により，リソース効率を向上させる。
- 評価実験の結果，HiSpecは既存手法と比較して，平均で1.28倍，最大で2.01倍のスループット改善を達成した。
Link: https://arxiv.org/abs/2510.01336
計画と行動：LLM推論のための高レベル計画ガイダンス強化学習 [cs.SI, cs.SY, eess.SY, cs.AI, cs.CL]目的：LLM推論における高レベル計画と詳細なCoT推論の同時改善
- LLMは推論能力を持つが，局所的な判断に偏りがちで，全体的な計画性に課題がある。
- 既存手法は計算コストが高く，信頼性の高い推論経路の生成が難しい。
- 高レベル計画ガイダンスを用いた強化学習で，効率的かつ正確な推論を実現する。
- PTA-GRPOは，数学と自然科学の10個の推論ベンチマークにおいて，5つの多様なベースモデルで一貫して大幅な改善を示した。
- 提案手法は，高レベル計画と詳細なCoT推論を同時に最適化することで，推論効果を高めている。
- LLMがCoT推論を簡潔な高レベルガイダンスに要約し，そのガイダンスを教師ありファインチューニングに活用する。
Link: https://arxiv.org/abs/2510.01833
拡散に基づく画像再構成のためのサイド情報の推論時探索 [cs.CV, cs.AI, cs.LG]目的：拡散モデルを用いた画像再構成におけるサイド情報の活用
- 画像再構成は，医療画像や古い写真の修復など，様々な分野で重要である。
- 逆問題は本質的に解が定まらず，再構成の質が課題となる場合が多い。
- サイド情報を活用し，再構成精度を向上させることを目指す。
- 提案手法は，inpainting，超解像，およびデブラーリングを含む様々な逆問題で有効性が確認された。
- 既存の拡散ベースの逆問題ソルバー（DPS，DAPS，MPGD）に容易に組み込むことが可能である。
- 参照画像，テキスト記述，解剖学的MRIスキャンなど，多様なサイド情報に対応できる汎用性を持つ。
Link: https://arxiv.org/abs/2510.03352
拡散大規模言語モデルにおけるトレースクレジットを用いた並列デコーディングの高速化 [cs.CL, cs.CL, cs.CY, cs.CL, cs.AI]目的：拡散大規模言語モデルの並列デコーディングにおける効率向上
- 近年の大規模言語モデルの発展は，自然言語処理の多様なタスクにおいて目覚ましい成果を上げている。
- 並列デコーディングでは，高信頼度のトークンのみが確定され，他のトークンは再マスキングされるため，効率が制限される。
- 早期に正解トークンが予測されるにも関わらず，自信度不足によりデコーディングが遅れる問題を解決する。
- 本研究では，過去の予測履歴を蓄積するトレースクレジットを導入し，自信度の低い正解トークンの信頼性を高めるCreditDecodingを提案した。
- 実験結果から，CreditDecodingはLLaDA-8Bにおいて最大5.48倍の高速化と+0.48の精度向上を達成し，多様なモデルやパラメータ規模で性能を改善した。
- 長文脈にも対応可能であり，既存の推論最適化手法と組み合わせることも可能である。
Link: https://arxiv.org/abs/2510.06133
モンテカルロ置換探索 [cs.LG, cs.AI]目的：汎用モンテカルロ木探索アルゴリズムの改良
- ゲームAI分野では，深層強化学習に頼れない場合や計算資源が限られる場合に有効な手法が求められる。
- 既存のGRAVEアルゴリズムは，ハイパーパラメータ調整が難しいという課題があった。
- 本研究は，GRAVEアルゴリズムの課題を克服し，よりロバストな探索手法を提案することを目的とする。
- 提案手法であるモンテカルロ置換探索(MCPS)は，Hex, Go, AtariGo, NoGo, 兵棋など，様々なゲームにおいてGRAVEを上回る性能を示した。
- MCPSは，ノードの探索項に，根からそのノードまでの経路上の全てのムーブを含むプレイアウトの統計情報を取り込む点が特徴である。
- 統計情報の重み付けには，GRAVEのバイアスハイパーパラメータを使用しない，改善された数式が用いられている。
Link: https://arxiv.org/abs/2510.06381
自己信号駆動型マルチLLM議論による効率的かつ正確な推論 [cs.CL, cs.AI]目的：マルチLLM議論による推論の効率化と精度向上
- 大規模言語モデルは多様な分野で有用だが，さらなる性能向上が求められている。
- 既存のマルチLLM議論法は外部構造に依存し，LLM生成時の自己信号活用が不十分である。
- LLM内部の自己信号を活用し，議論の冗長性を削減し，効率性と精度を向上させる。
- 提案手法は，モデルレベルでの早期終了と，アテンション機構に基づく議論内容の圧縮を可能にする。
- 様々なLLMおよびマルチモーダルLLMにおける実験により，既存手法を精度とトークン消費量の両面で上回ることが示された。
- 自己信号の活用が，マルチエージェント議論システムの性能と効率を向上させる有効性が確認された。
Link: https://arxiv.org/abs/2510.06843
大規模言語モデルのための文脈を考慮した経済的推論ベンチマーク：EconCausal [cs.CL, cs.AI]目的：大規模言語モデルにおける経済的因果関係の文脈依存性評価
- 社会経済現象は文脈に強く依存する。政策効果は制度や市場状況によって変化する。
- LLMは文脈変化に対応した因果関係の推論が困難である。
- LLMの経済的推論能力の限界を明らかにし，改善に資することを目的とする。
- EconCausalは，経済・金融分野の高品質な実証研究から抽出された10,490の文脈注釈付き因果関係のトリプレットで構成される。
- LLMは，固定された文脈下では高い精度を示すものの，文脈変化に対応した因果関係の符号判断では精度が大幅に低下する。
- モデルは方向性（正/負）に過度にコミットし，帰無効果の認識率は13.8%と低い。
Link: https://arxiv.org/abs/2510.07231
MATT-CTR：信頼度に基づく推論経路を用いたCTR予測のためのモデル非依存テスト時パラダイムの解放 [cs.LG, cs.IR]目的：CTR予測におけるテスト時の性能向上
- 広告効果の最適化には，精度の高いCTR予測が不可欠であり，収益に直結する重要な課題である。
- 稀にしか出現しない特徴量の組み合わせが予測精度を低下させ，信頼性の低い結果を生む可能性がある。
- テスト時の推論過程における信頼度に基づく経路選択によって，予測のロバスト性を高めることを目指す。
- 提案手法MATTは，既存のCTRモデルに容易に適用可能であり，汎用性が高い。
- 特徴量の組み合わせの信頼度を定量化する階層的確率的ハッシュ法を新たに導入した。
- オフライン実験とオンラインA/Bテストの結果，MATTがCTR予測の性能を大幅に向上させることが確認された。
Link: https://arxiv.org/abs/2510.08932
特徴分離と敵対的学習によるRFフィンガープリント識別における受信機間汎化 [cs.LG]目的：RFフィンガープリント識別における受信機間汎化能力の向上
- 無線ネットワークセキュリティにおいて，ハードウェアの特性を利用した送信機識別の重要性が高まっている。
- 受信機に起因する変動により，実環境でのRFフィンガープリント識別の性能が大きく低下する問題がある。
- 受信機固有の情報と送信機固有の情報を分離し，受信機変更に対するロバスト性を高めることを目指す。
- 提案手法は，敵対的ドメイン適応と受信機を意識した正則化を組み合わせ，送信機特徴から受信機関連情報を抑制する。
- 潜在空間における特徴分離制約を導入することで，送信機と受信機の表現をより効果的に分離することに成功した。
- マルチ受信機WiFiデータセットを用いた実験により，提案手法が既存手法を凌駕し，受信機変更に対するロバスト性が大幅に向上することが示された。
Link: https://arxiv.org/abs/2510.09405