arXiv雑要約

AI - 2026/03/24 公開

知識から推測へ：仮説推論のための様相的枠組み [cs.LO, cs.AI]目的：仮説推論を形式化するための認知様相論理
- 人間の思考過程のモデル化は，認知科学や人工知能の発展に不可欠である。
- 従来の様相論理では，事実と推測の区別が曖昧になる場合がある。
- 事実と推測を明確に区別し，推測推論を形式化する。
- 本研究では，Axiom Cを導入し，事実が推測層を通過しても維持されることを示した。
- Axiom Cのみでは様相的崩壊は起こらず，Axiom Tの存在や二値論理が必要であることが判明した。
- 非二値様相論理に基づき，KCおよびKDCという様相システムを定義し，健全性と完全性を証明した。
Link: https://arxiv.org/abs/2508.07304
ペア化されていないデータ変換におけるシュレーディンガーポテンシャル推定のタイトな上限 [cs.LG, math.ST, stat.ML, stat.TH]目的：シュレーディンガーポテンシャル推定におけるタイトな上限の導出
- 生成モデルやデータ変換は，機械学習における重要な課題であり，その性能向上は不可欠である。
- ペア化されていないデータ変換では，初期分布と最終分布間の最適変換が困難である。
- サンプルからシュレーディンガーポテンシャルを推定し，汎化性能の上限を導くことで，この問題を解決する。
- 提案手法では，Ornstein-Uhlenbeck過程を基準過程として採用し，Kullback-Leibler divergenceをリスク関数として利用する。
- シュレーディンガーポテンシャルのクラスに対する経験的リスク最小化子の汎化能力に関するタイトな上限を導出した。
- 有利なシナリオにおいては，対数因子を除いて，高速な収束率をほぼ達成できることを示した。
Link: https://arxiv.org/abs/2508.07392
多言語における長鎖思考推論 [cs.CL, cs.RO, cs.SY, eess.SY, cs.CL, cs.CL, cs.AI, cs.LG]目的：大規模推論モデルの多言語における長鎖思考能力の拡張
- 世界中の大多数の言語において，推論能力の向上が求められている。
- 英語以外の言語における長鎖思考推論の能力は未解明な点が多い。
- 多言語環境における長鎖思考推論の性能向上を目指す。
- モデルの規模拡大は，英語で推論する設定（En-CoT）では多言語タスクの性能を向上させるが，ターゲット言語で推論する設定（Target-CoT）では性能が遅れをとる。
- ターゲット言語での推論を強化するためには，広範な多言語での事前学習が有効である。
- 英語の推論データを自動翻訳してファインチューニングすることで，ターゲット言語の推論データから蒸留するよりも良い結果が得られる。
Link: https://arxiv.org/abs/2508.14828
反復リスク配分によるリスク制限付きマルチエージェント視覚ナビゲーション [cs.CE, cs.RO, cs.AI, cs.MA]目的：マルチエージェント視覚ナビゲーションにおける安全な経路計画
- 危険な環境下での自律システムの運用において，安全なナビゲーションは不可欠である。
- 既存手法は，安全確保のため高リスク領域を回避しやすく，潜在的な経路を過度に制限している。
- リスク配分により，リスク許容度内でより効率的な経路を見つけ出すことを目指す。
- 本研究では，エージェント間でリスク予算を動的に配分する新しいフレームワークを提案した。
- 市場メカニズムを用いることで，リスクを資源として扱い，より効率的な経路配分を可能にした。
- 複雑な視覚環境下での実験により，本手法が従来の基盤よりも高い成功率と移動時間短縮を実現することが示された。
Link: https://arxiv.org/abs/2509.08157
プロセスマイニングにおけるイベントログ特性がアルゴリズムに与える影響の解明 [cs.LG]目的：イベントログ特性とプロセスマイニングアルゴリズムの評価指標との関係性の定量化
- プロセスマイニングは業務プロセスの改善に不可欠であり，その効果的な運用が求められている。
- イベントログ特性がアルゴリズムの性能に影響するものの，その影響を体系的に分析した研究が不足している。
- イベントログ特性が評価指標に与える寄与度を定量化し，アルゴリズムのロバスト性を評価することを目指す。
- SHAiningにより，22,000以上のイベントログを用いて，各イベントログ特性がプロセス発見アルゴリズムの様々な評価指標（適合度，精度，複雑性など）に与える影響を定量的に評価した。
- イベントログ特性の値と，その寄与度との相関関係を明らかにし，アルゴリズムのロバスト性に関する新たな知見を得た。
- イベントログ特性の複合的な影響に着目し，単一特性が評価指標に与える限界的な影響を評価する手法を提案した。
Link: https://arxiv.org/abs/2509.08482
観測可能な熱力学のための変分ニューラルネットワーク (V-NOTS) [cs.RO, cs.DC, cs.OS, cs.LG]目的：物理システムの進化計算のためのデータ駆動型フレームワーク
- 物理現象の理解と予測において，データ駆動型アプローチの重要性が増している。
- 系の相空間を定義する変数が直接観測できない場合がある。
- 観測可能な変数のみを用いて，熱力学的な制約を満たす予測モデルを構築する。
- 本研究では，熱力学的なラグランジアンに基づき，観測変数のみを用いた効率的なデータ駆動型フレームワークを開発した。
- 提案手法は，熱力学を尊重し，エントロピーの非減少性を保証するニューラルネットワークを構築する。
- 限られたデータ点数と少ないパラメータ数で，相空間の進化を効率的に記述できることを示した。
Link: https://arxiv.org/abs/2509.09899
マスク拡散モデルをエネルギー最小化として [cs.LG, cs.AI, cs.CL]目的：マスク拡散モデルの理論的解釈
- 生成モデルの性能向上は，画像生成やデータ解析において重要な課題である。
- 拡散モデルのサンプリング効率は，計算コストの観点から改善の余地がある。
- エネルギー最小化の視点から，拡散モデルのサンプリング性能を向上させる。
- マスク拡散モデルは，離散最適輸送におけるエネルギー最小化問題の解として表現できる。
- 運動エネルギー，条件付き運動エネルギー，測地エネルギーの3つのエネルギー定式化が数学的に等価であることが示された。
- ベータ分布による補間スケジュールのパラメータ化により，効率的な学習が可能となり，実験的に良好な結果が得られた。
Link: https://arxiv.org/abs/2509.13866
HDC-X：組み込みデバイス向け効率的な医療データ分類 [cs.RO, cs.LG]目的：医療データ分類のための軽量なフレームワーク
- 遠隔医療の普及に伴い，組み込みデバイスでの効率的なデータ処理が不可欠となっている。
- 深層学習モデルは高精度だが，消費電力とGPU依存性が組み込みデバイスへの適用を阻む。
- 低消費電力で堅牢な医療データ分類手法を開発し，実環境での利用を目指す。
- HDC-Xは，従来のBayesian ResNetと比較してエネルギー効率が350倍向上し，精度損失は1%未満である。
- HDC-Xは，ノイズ，限られた学習データ，ハードウェアエラーに対して優れた耐性を示すことが確認された。
- 理論的分析と実験結果の両方から，HDC-Xの実環境への信頼性高い展開の可能性が示唆された。
Link: https://arxiv.org/abs/2509.14617
ゼロショットカメラ制御による3Dおよび4D生成のためのビデオモデルの制御 [cs.GR, cs.AI, cs.CV]目的：3Dおよび4D生成におけるビデオモデルの制御手法
- ビデオ生成モデルは現実世界の知識を持つが，空間制御が難しく，応用範囲が限られていた。
- 既存手法は，視覚的なアーティファクトや汎化性能の低下，計算コストの増大といった問題があった。
- モデルの再学習なしに，正確なモーション誘導とフォトリアリスティックな合成を実現すること。
- WorldForgeは，トレーニング不要な推論時のみで動作し，これらの問題を解決する新しいフレームワークである。
- 本手法は，カメラパスへの正確な追従，外観と動きの分離，ドリフトの補正により，高精度なモーション制御を実現した。
- 多様な応用例で汎用性を示し，軌道追従性と知覚的品質において最先端の性能を達成した。
Link: https://arxiv.org/abs/2509.15130
物理情報ニューラルネットワークにおける乱数性と信号伝播：ニューラル偏微分方程式の視点 [cs.RO, cs.RO, cs.SY, eess.SY, cs.RO, cs.SY, eess.SY, cs.LG, cs.AI]目的：物理情報ニューラルネットワークの学習済み重みの特性解明
- 物理現象のモデリングにおいて，ニューラルネットワークの活用が注目されている。
- 学習済みニューラルネットワークの重みが乱数的に見えることが課題となっていた。
- 重みの乱数性が信号伝播や安定性に与える影響を明確にすることを目指す。
- 学習済みPINNの重みが，ランダム行列理論の予測と一致する高エントロピー状態にあることが示された。
- 重みの構造が，ニューラル偏微分方程式の離散化と関連していることが明らかになった。
- 離散化の数値安定性が，ネットワーク内の信号伝播の安定性を決定することが示唆された。
Link: https://arxiv.org/abs/2509.18131
動的PET画像ノイズ除去のためのカーネル空間に基づく多次元疎モデル [cs.CV, cs.AI]目的：動的PET画像のノイズ除去
- PET画像は生体内の代謝活動を可視化する上で重要であり，高画質化は診断精度向上に不可欠である。
- 動的PET画像では，特に短時間フレームにおいて統計量が限られており，ノイズの影響を受けやすいという課題がある。
- 本研究は，動的PET画像のノイズを効果的に除去し，時間分解能と空間分解能を向上させることを目指す。
- 提案手法であるニューラルKMDS-Netは，シミュレーションデータと実データを用いた実験において，既存手法よりも優れたノイズ除去性能を示した。
- 本手法は，カーネル空間に基づく多次元疎モデルとニューラルネットワークを組み合わせることで，動的PET画像のノイズ除去を効果的に実現している。
- 本研究の成果は，動的PET画像の高時間・空間分解能化に貢献し，より詳細な生体情報の取得を可能にする。
Link: https://arxiv.org/abs/2509.18801
スケーリング則は冗長性則である [cs.LG, math.ST, stat.ML, stat.TH]目的：深層学習におけるスケーリング則の数学的起源の解明
- 深層学習の性能向上において，データ規模とモデル規模のスケーリング則は重要な指標である。
- スケーリング則の指数が決定論的に導出されておらず，その理論的基盤が不明確であった。
- データ冗長性とスケーリング則の関係を明らかにし，スケーリング則を数学的に説明すること。
- スケーリング則は，データ共分散スペクトルの多項式的な裾から導出される冗長性則として形式的に説明できることが示された。
- スケーリング則の指数は，データの冗長性によって変化し，スペクトルの傾斜が急峻であるほどスケール効果が加速されることが明らかになった。
- 本研究は，スケーリング則を有限サンプルにおける冗長性則として厳密に数学的に説明する最初の試みであり，実証的な観察と理論的基盤を統合する。
Link: https://arxiv.org/abs/2509.20721
SpecMol：分光法に基づいたマルチタスク分子学習のための基盤モデル [cs.CL, cs.ET, cs.RO, cs.LG]目的：分子の分光分析，表現学習，三次元構造生成を統合した基盤モデル
- 実験的な分子特性評価と構造検証において，分光法は不可欠な役割を担う。
- 標準化されたスペクトル表現と包括的な評価プロトコルの欠如により，分光法に基づく推論の進展が妨げられていた。
- 分光データに基づいた分子構造の解明や予測の精度向上を目指す。
- SpecMolは，スペクトル駆動型の構造解明において高い精度を達成し，実験的な核磁気共鳴特性を高忠実に再現した。
- SMILES文字列から直接，化学的に妥当な三次元構造を生成する能力において，汎用的な分子言語モデルを凌駕する性能を示した。
- SpecMol-Benchという評価プロトコルを確立し，スペクトル-構造解明，構造-スペクトルシミュレーション，SMILES-3D構造生成といったクロスモーダルタスクを包括的に評価できるようになった。
Link: https://arxiv.org/abs/2509.21861
LEAF：言語と脳波を整合させた基盤モデル - 脳コンピュータインタフェースに向けて [cs.LG]目的：脳波と言語の整合性を実現する基盤モデルの構築
- 脳波は，脳活動を直接反映し，様々な応用が期待されるため，その解析と活用が重要視されている。
- 既存の脳波解析手法では，言語情報を活用した脳波表現学習が十分ではなく，異なるラベルやタスク間の統合が困難である。
- 言語情報を活用し，脳波表現のロバスト性と汎化性能を向上させ，様々なタスクに対応できるモデルを開発することを目指す。
- LEAFは，16のダウンストリームデータセットで最先端の性能を示し，5つのタスクカテゴリ全体で最高の平均結果を達成した。
- タスク指示が，脳波埋め込みを整合性のある言語空間へと導く意味的な事前知識として機能することが初めて明らかになった。
- 周波数ロバスト性を高めるスペクトル摂動と，文脈構造と系列構造を学習する時間的目標を組み合わせた，ジョイントスペクトル-時間再構成フレームワークを導入した。
Link: https://arxiv.org/abs/2509.24302
DiVeQ：リパラメータライゼーショントリックを用いた微分可能なベクトル量子化 [eess.SY, cs.SY, cs.LG]目的：深層学習モデルにおけるベクトル量子化手法
- 深層学習モデルにおいて，ベクトル量子化は重要な次元削減・圧縮技術である。
- 従来のベクトル量子化は，勾配を遮断し，エンドツーエンドでの学習を妨げる問題があった。
- 勾配の流れを確保しつつ，ベクトル量子化の利点を活かす手法を開発すること。
- DiVeQは，量子化誤差を模倣する誤差ベクトルを加えることで，微分可能なベクトル量子化を実現する。
- SF-DiVeQは，コードワードを結ぶ線上の曲線に割り当てることで，量子化誤差を低減し，コードブックの完全な利用を可能にする。
- 提案手法は，VQ-VAE，VQGAN，DACなどにおいて，再構成やサンプル品質の向上を実証した。
Link: https://arxiv.org/abs/2509.26469
CurES：推論LLMのための勾配分析から効率的なカリキュラム学習へ [cs.LG, cs.AI]目的：推論タスクにおけるLLMの学習効率向上
- 大規模言語モデルの性能向上は，多様なタスクへの応用を可能にする上で不可欠である。
- 既存手法は，プロンプトの難易度変化に対応できず，計算資源の無駄が生じやすい。
- プロンプト選択とロールアウト量の配分を最適化し，学習効率の向上を目指す。
- CurESは，勾配降下の収束速度を決定するプロンプトのサンプリング分布に着目した。
- CurESは，1.5Bおよび7Bモデルでそれぞれ+3.30点，+4.82点の性能向上を示し，既存手法を上回った。
- CurESは，ベースラインと比較して収束が速く，計算コストの削減にも貢献する。
Link: https://arxiv.org/abs/2510.01037
簡潔に探索し，決定する：累積エントロピー制御によるLLMの過剰思考の緩和 [cs.CL, cs.AI, cs.LG]目的：LLMの過剰思考の緩和
- LLMは複雑な問題解決で高度な推論能力を示すが，効率性向上が課題である。
- LLMは単純な問題に対しても不必要に長い推論ステップを生み出す過剰思考を起こす。
- 問題の複雑さに応じた推論深度の適応を可能にし，効率的な推論を実現すること。
- 提案手法「簡潔に探索し，決定する」は，累積エントロピー制御メカニズムにより，最適な思考停止点を動的に決定する。
- 多様な数学ベンチマークにおいて，過剰思考を大幅に緩和しつつ，問題解決能力を維持することを示した。
- 単純なデータセットでは平均応答長が最大71%減少し，効率的かつ適応的な推論プロセスの構築に貢献する。
Link: https://arxiv.org/abs/2510.02249
ビデオ拡散モデルによる剛体相互作用の生成学習 [cs.CV, cs.AI, cs.LG]目的：剛体相互作用の生成と制御
- ロボティクスや具現化された意思決定において，現実世界のシミュレーションの重要性が高まっている。
- 既存のビデオ生成モデルは，物理的に妥当な物体相互作用の生成や，物体レベルの制御に課題がある。
- より現実的な剛体制御，相互作用，および効果を実現するビデオ生成手法を開発すること。
- KineMaskは，単一画像と指定された物体速度から，推論された動きと将来の物体相互作用を含むビデオを生成する。
- 段階的な学習戦略により，物体マスクを用いて将来の動きの教師あり学習を徐々に削除することで，性能が向上する。
- 異なるVDMへの汎化性と，同程度のサイズの既存モデルに対する大幅な改善が確認された。
Link: https://arxiv.org/abs/2510.02284
階層型メモリによる事前学習：ロングテール知識とコモンセンス知識の分離 [cs.CL, cs.AI, cs.LG]目的：言語モデルの性能向上における，知識の記憶方法の最適化
- 大規模言語モデルの性能向上は目覚ましいが，パラメータ増加に依存する傾向がある。
- 全知識をパラメータに圧縮するのは非効率であり，エッジデバイスでの利用を妨げる。
- 本研究は，パラメータ効率の良い知識表現と学習方法を提案し，その有効性を示す。
- 1億6千万パラメータの言語モデルに，46億パラメータのメモリバンクから取得した1800万パラメータのメモリを追加することで，2倍以上のパラメータを持つモデルに匹敵する性能が得られた。
- 階層型フィードフォワードメモリは，事前学習時または事後学習時にTransformerアーキテクチャに追加することで，安定した性能を発揮する。
- 大規模な実験により，Transformerにおける最適なメモリの種類とサイズが明らかになった。
Link: https://arxiv.org/abs/2510.02375
ロバストなバッチ型バンディット [cs.LG, stat.ML]目的：重尾報酬に対するロバストなバッチ型バンディットアルゴリズム
- 臨床試験など，バッチで報酬を得る状況は重要である。従来のバンディット問題は軽尾分布を仮定していた。
- 現実世界の報酬分布は重尾を持つことが多く，既存手法では性能が低下する可能性がある。
- 重尾報酬環境下での最適なバッチ数を明らかにすること。
- インスタンス非依存の場合，およびLipschitz条件下では，重尾性を持つ報酬ほど少ないバッチ数で最適解に近い後悔値に到達する。
- 一方，インスタンス依存の場合，最適解に近い後悔値を得るために必要なバッチ数は，尾の重さに依存しない。
Link: https://arxiv.org/abs/2510.03798
拡散モデルにおけるデータ制約下でのアンラーニング：変分推論アプローチ [cs.LG]目的：拡散モデルからの望ましくない特徴の生成防止
- 拡散モデルの安全な利用には，生成されるコンテンツの制御が不可欠である。
- データセット全体にアクセスできない状況下では，既存のアンラーニング手法は効果が薄い。
- データ制約下で，望ましくない特徴の生成を抑制するアンラーニング手法を開発する。
- 提案手法VDUは，望ましくない特徴を含むデータサブセットへのアクセスのみを必要とする効率的な手法である。
- VDUは，変分推論フレームワークに基づき，plasticity inducerとstability regularizerの損失関数を最小化する。
- MNIST，CIFAR-10，tinyImageNet，LAION-5Bデータセットを用いた実験で，VDUの有効性が確認された。
Link: https://arxiv.org/abs/2510.04058
言語モデルにおける重み差の解釈学習 [cs.CL, cs.LG, cs.AI, cs.CL]目的：言語モデルの重み差解釈
- 言語モデルの性能向上は重要だが，その内部変化はブラックボックスとなりがちである。
- ファインチューニングによる重みの変化は解釈が難しく，モデルの挙動理解を阻害する。
- 重み差を説明する能力をモデルに付与し，透明性と解釈性を高めることを目指す。
- 提案手法DITは，モデル自身がファインチューニングによる変更を記述できるようにする。
- DIT-adapterを適用することで，モデルは重み差に関する自然言語による説明が可能となる。
- 実験により，DITがモデルの変更を正確に記述できることが示された。
Link: https://arxiv.org/abs/2510.05092
大規模言語モデルにおけるトークン課金監査 [cs.CR, cs.AI, cs.CY]目的：大規模言語モデルのトークン課金における不正報告の検出
- 近年，大規模言語モデルの利用が拡大し，トークン課金によるサービス提供が一般的になっている。
- サービス提供者が，利益誘導のためトークン数を偽って報告する可能性が指摘されている。
- 第三者による監査を通じて，トークン数の不正報告を確実に検出し，公平な課金を担保すること。
- 提示するフレームワークは，サービス提供者の報告ポリシーに関わらず，トークン数の不正報告を確実に検出できることを保証する。
- 忠実な提供者を誤って不正と判断する確率は高くなく，約70回の出力観察で不正提供者を検出できることが実験で示された。
- 本フレームワークは，Llama，Gemma，Ministralといった大規模言語モデルで検証され，有効性が確認された。
Link: https://arxiv.org/abs/2510.05181
モデルの曲率を用いたDP-SGDの反復間ノイズの相関 [cs.LG]目的：DP-SGDにおける反復間ノイズの相関改善
- 深層学習のプライバシー保護は重要であり，差分プライバシーが有効な手法として注目されている。
- DP-SGDは通常のSGDと比較して精度が低下するという課題がある。
- モデルの曲率に基づき，反復間ノイズの相関を改善し，DP-SGDの精度向上を目指す。
- 提案手法NoiseCurveは，公開されたラベルなしデータから推定されたモデルの曲率を用いて，DP-MFの相関スキームよりも精度を向上させる。
- 様々なデータセット，モデル，プライバシーパラメータにおいて，NoiseCurveによって計算されたノイズ相関が一貫して有意な精度向上をもたらす。
- NoiseCurveは，反復間ノイズの相関を改善することで，DP-SGDの精度ギャップを縮小する可能性を示す。
Link: https://arxiv.org/abs/2510.05416
BuilderBench：知能エージェントの構成要素 [cs.RO, cs.AI, cs.LG]目的：エージェントの事前学習を加速するためのベンチマーク
- 既存データに依存するAIでは，未知の問題への対応が困難である。自律的な学習能力が重要となる。
- 試行錯誤を通して学習するエージェント開発のための，スケーラブルな学習メカニズムが存在しない。
- 物理，数学，長期計画を必要とする構造物の構築を通して，エージェントの自律学習能力を検証する。
- BuilderBenchは，ブロックを用いて構造物を構築するタスクを課すことで，エージェントの探索学習を評価する。
- 本研究では，多様なターゲット構造を伴うタスクスイートと，ロボットエージェントのシミュレーターを提供している。
- 実験の結果，既存のアルゴリズムの多くが課題に対して苦戦しており，新たなアプローチの必要性を示唆している。
Link: https://arxiv.org/abs/2510.06288
StaR-KVQA：暗黙的知識に基づく視覚的質疑応答のための構造化推論トレース [cs.CL, cs.CV, cs.AI]目的：暗黙的知識に基づく視覚的質疑応答における構造化推論トレースの構築と活用
- 視覚的質疑応答は，画像と知識を結びつけ，高度な理解を促す重要な技術である。
- 既存の暗黙的知識に基づく視覚的質疑応答モデルは，推論過程が不透明で，汎化性能が低いという課題がある。
- 本研究は，構造化推論トレースを用いることで，モデルの推論を明確化し，汎化性能を向上させることを目指す。
- StaR-KVQAは，テキストと視覚情報を結びつけた構造化推論トレースを構築し，モデルの学習を支援する。
- このフレームワークは，外部知識源や検証器を必要とせず，単一の自己回帰パスで推論を行う。
- OK-VQAベンチマークにおいて，StaR-KVQAは最先端のベースラインよりも最大11.3%高い正答率を達成し，推論の透明性も向上した。
Link: https://arxiv.org/abs/2510.06638
ビデオ言語モデルにおける時間論理一貫性の理解：クロスモーダル注意力の識別可能性を通じて [cs.RO, cs.CV, cs.AI, cs.MM]目的：ビデオ言語モデルにおける時間論理一貫性の原因分析と改善
- 大規模言語モデルの信頼性は実用化において重要であり，矛盾した出力は信頼性を損なう。
- ビデオ言語モデルは，時間的な質問に対して論理的に一貫性のある応答を生成できないという課題がある。
- クロスモーダル注意力の識別能力を向上させることで，時間論理一貫性を改善する。
- 提案手法TCASは，注意力の識別に基づいて時間分解能を向上させ，時間論理一貫性を高める。
- 実験結果から，TCASがビデオ言語モデルの時間論理一貫性を大幅に向上させることが示された。
- TCASは注意力の時間的な識別能力を向上させ，時間理解における一貫性の重要性を示唆する。
Link: https://arxiv.org/abs/2510.08138
視覚ナビゲーションのためのメモリ拡張計画と予測に基づく統一された世界モデル [cs.AI, cs.CV, cs.RO]目的：視覚ナビゲーションにおける，未来状態の想像に基づくロバストかつ汎化可能なエージェントの実現
- 視覚ナビゲーションは，ロボットが環境内で自律的に行動するために不可欠な技術である。
- 従来のシステムは，ナビゲーション計画と視覚世界モデリングを分離しており，状態と行動のずれが生じやすい。
- UniWMは，予測と制御を密接に連携させ，長期的な推論を可能にすることで，この問題を解決することを目指す。
- UniWMは，Go Stanford，ReCon，SCAND，HuRoNを含む4つのベンチマークでナビゲーション成功率を最大30%向上させた。
- UniWMは，既存の強力なベースラインと比較して，軌道誤差を大幅に減少させた。
- UniWMは，未学習のTartanDriveデータセットに対してもゼロショットで汎化し，高次元ヒューマノイド制御にも自然に拡張可能であることが示された。
Link: https://arxiv.org/abs/2510.08713
あなたのVARモデルは密かに効率的で説明可能な生成分類器である [cs.LG, cs.AI, cs.CV]目的：生成分類器の性能向上
- 分布の変化に対するロバスト性など，有望な特性を持つ生成分類器の研究が重要視されている。
- 拡散モデルに基づく手法が主流だが，計算コストが高く，スケーラビリティに課題がある。
- VARモデルに基づいた生成分類器を提案し，効率性と説明可能性を追求する。
- VARモデルを利用した新しい生成分類器A-VARC$^+$を提案し，精度と推論速度のトレードオフを改善した。
- VARベースの手法は，拡散ベースの手法とは異なる特性を持つことが示された。
- 尤度の計算可能性により，トークンごとの相互情報に基づく可視化による説明が可能となり，継続学習における破滅的忘却への耐性も示された。
Link: https://arxiv.org/abs/2510.12060
否定の検出を避ける方法：構造化推論とトークンマージによる否定認識VLMs [cs.CL, cs.CV, cs.AI]目的：否定認識に関するVLMsの性能向上
- 近年，画像とテキストを組み合わせたVLMsが発展しているが，その応用範囲拡大には否定表現の理解が不可欠である。
- 最先端のVLMsは否定表現の理解に弱く，肯定的なバイアスが発生しやすいという課題を抱えている。
- 否定表現の構造的な原因に対処し，VLMsの否定認識能力を向上させることを目指す。
- 新しいデータセット構築パイプラインCoVANDを導入し，高品質な否定データを作成した。
- テキストトークンマージモジュールNegToMeを提案し，トークン化における否定表現の喪失を防いだ。
- 提案手法は，否定に関するベンチマークで性能が大幅に向上し，誤検出率を低下させた。
Link: https://arxiv.org/abs/2510.13232
TRI-DEP：うつ病検出のための音声，テキスト，脳波を用いた三次元比較研究 [cs.AI, cs.CL, cs.LG, eess.AS, eess.SP]目的：うつ病検出のための多次元特徴表現とモデリング戦略の評価
- メンタルヘルス不調は増加の一途を辿っており，早期発見が重要である。
- 既存研究では，特徴量の比較や評価プロトコルが統一されておらず，再現性に課題がある。
- 脳波，音声，テキストの統合による，より高精度なうつ病自動検出を目指す。
- 脳波，音声，テキストの組み合わせが，多次元検出性能を向上させることを示した。
- 事前学習済みの埋め込み表現が，手動で作成した特徴量よりも優れていることを確認した。
- 注意機構を組み込んだ三次元モデルが，最先端の性能を達成した。
Link: https://arxiv.org/abs/2510.14922
安全強化学習におけるラグランジュ手法の実用的理解に向けて [eess.SY, cs.SY, cs.CL, cs.DB, cs.LG, cs.AI, cs.RO, cs.SY, eess.SY]目的：安全強化学習におけるラグランジュ乗数と制約条件の特性分析
- 強化学習は，様々な分野で自律的な意思決定を可能にする重要な技術である。
- 安全制約を満たしつつ報酬を最大化する必要があり，制約条件設定が難しい。
- ラグランジュ乗数の最適な設定範囲と更新メカニズムの感度を明らかにすること。
- 制約条件の形状はタスクによって異なり，コスト上限の選択が重要であることが示された。
- ラグランジュ乗数は制約条件に大きく影響し，更新メカニズムの感度も明らかになった。
- パレート最適解を示すことで，報酬とコストのトレードオフを可視化した。
Link: https://arxiv.org/abs/2510.17564
拡散ODEの離散化を汎化敵対的ソルバーで改善 [cs.CV, cs.LG]目的：拡散ODEソルバーの離散化改善
- 拡散モデルは高品質な生成が可能だが，計算コストが高い点が課題である。
- 既存手法は複雑な学習テクニックに依存し，微細な情報の保持が不十分な場合がある。
- 本研究は，学習技巧を必要とせず，既存手法よりも高品質なソルバーを提供する。
- 汎化ソルバーは，追加の学習トリックを必要としないシンプルなパラメータ化により，既存手法よりも品質を向上させる。
- 蒸留損失と敵対的学習を組み合わせることで，アーティファクトを軽減し，詳細な忠実度を高める。
- 汎化敵対的ソルバーは，類似した計算資源の下で，既存のソルバー学習方法と比較して優れた性能を示す。
Link: https://arxiv.org/abs/2510.17699
テスト時適応のためのバッファ層 [cs.CL, cs.CL, cs.CL, cs.LG, cs.CV]目的：テスト時適応におけるバッファ層の有効性検証
- 機械学習モデルの汎化性能向上は重要であり，特に未知のドメインへの適応が課題である。
- 従来のテスト時適応手法は正規化層に依存しており，バッチサイズの影響を受けやすいという問題がある。
- 本研究では，正規化層の更新に頼らない，バッファ層を用いた新しい適応パラダイムを提案する。
- 提案手法は，従来のテスト時適応手法と比較して，ドメインシフトへの対処能力とモデルの堅牢性を向上させる。
- バッファ層は，事前学習済みのバックボーンの完全性を維持し，破滅的忘却のリスクを軽減する。
- 本手法は様々なアーキテクチャに容易に組み込むことができ，一貫した性能改善が期待できる。
Link: https://arxiv.org/abs/2510.21271
Pass@Kにおける方策勾配の最適化における利点整形を，報酬の代理最大化として統一する [cs.LG, cs.AI]目的：Pass@K目標を持つ強化学習における方策勾配最適化手法の統一
- 強化学習は，複雑な意思決定問題を解決するための有力な手法であり，その性能向上は重要である。
- Pass@K目標に対する既存の方策勾配最適化手法は，それぞれ異なるアプローチをとっており，その関係性は明確でなかった。
- 利点整形と代理報酬最適化という異なるアプローチが本質的に等価であることを示すことで，最適化手法の理解を深める。
- 直接的なREINFORCE型手法と利点整形は，同一のコインの裏表の関係にあることが示された。
- 既存の利点整形アルゴリズムは，暗黙的に代理報酬を最適化していると解釈できることが明らかになった。
- 代理報酬の視点から，既存および新しい利点整形手法を導出するためのレシピが提供された。
Link: https://arxiv.org/abs/2510.23049
Transformerを用いた硬い回路システムのモデリング [cs.CE, cs.LG]目的：硬い回路の過渡応答モデリング手法
- 現代の電子設計自動化において，正確かつ効率的な回路モデリングは不可欠である。
- 従来のフレームワークでは，硬い回路のモデリングは困難であった。
- 本研究は，硬い回路のより高精度なモデリングを可能にすることを目的とする。
- 提案手法は，最新のTransformerモデルCrossformerとKolmogorov-Arnold Networks(KANs)を組み合わせる。
- Crossformerの時系列表現能力とKANsの特徴抽出能力により，回路応答予測の精度が向上した。
- ADC回路のSPICEシミュレーションによる実験で，学習時間とエラー率の大幅な削減が確認された。
Link: https://arxiv.org/abs/2510.24727
DeepCompress：推論チェーンの動的探索と圧縮のための二重報酬戦略 [cs.CL, cs.AI, cs.CL]目的：大規模推論モデルの効率性と精度向上
- 大規模言語モデルの性能向上は，様々な自然言語処理タスクにおいて重要な課題である。
- 既存手法では，効率化のために精度が低下することがあり，そのバランスが課題となっている。
- 問題の難易度に応じて推論チェーンの長さを動的に調整し，効率と精度の両立を目指す。
- DeepCompressは，問題の難易度をリアルタイムで判断し，それに応じた報酬を与えることで，推論チェーンの長さを最適化する。
- 実験結果から，DeepCompressは既存手法と比較して，より高い精度とトークン効率を実現することが示された。
- 特に，複雑な問題に対しては，より長い推論チェーンを生成することで，より多くの正解候補を見つけることができた。
Link: https://arxiv.org/abs/2510.27419
方言アラビア語MMLU：アラビア語および多言語言語モデルにおける方言能力のベンチマーク [cs.CL, cs.AI]目的：アラビア語の方言における言語モデルの性能評価
- 日常会話で広く使われる方言の評価が不可欠であり，言語モデルの現実世界での応用を促進する。
- 既存のベンチマークは標準アラビア語に偏っており，方言の理解度を十分に測れていない。
- 言語モデルの方言への対応能力を測るための統一的な評価リソースを提供する。
- 方言アラビア語MMLUは，5つの主要方言（シリア，エジプト，エミレーツ，サウジアラビア，モロッコ）に対応する15,000組のQAペアで構成される。
- 19のオープンソース言語モデルを評価した結果，方言間の性能差が大きく，方言への汎化性能に課題があることが示された。
- このベンチマークは，標準アラビア語を超えた言語モデルの推論と理解を体系的に評価し，包括的な評価とモデル開発を支援する。
Link: https://arxiv.org/abs/2510.27543
深層線形ネットワークにおける正則化は均衡性を示す [cs.LG, math.AG, math.DS, stat.ML]目的：深層線形ネットワークの均衡性に関する研究
- 深層学習モデルの過学習抑制と汎化性能向上は重要な課題である。
- 深層学習モデルの学習過程における均衡性の理論的理解が不足している。
- 深層線形ネットワークにおける正則化項と均衡性の関係を数学的に解明する。
- 幾何学的不変量理論を用いることで，$L^2$正則化が均衡多様体上で最小化されることを示した。
- 均衡化フローが指数関数的に均衡多様体へ収束することを証明し，学習ダイナミクスを２つの流れに分解した。
- この枠組みは深層学習の均衡性と線形システム理論を結びつけ，モデル削減やベイズ原理との関連性を示唆する。
Link: https://arxiv.org/abs/2511.01137
COFAP：設計された多Modal抽出とCross-Modal相乗効果によるCOF吸着予測の汎用フレームワーク [cs.LG, cond-mat.mtrl-sci, cs.AI, physics.chem-ph]目的：COF吸着予測のための汎用的なフレームワーク
- COFはガス吸着・分離において有望な材料であり，材料設計の加速が求められている。
- 従来の機械学習予測はガス固有の特徴に依存し，計算コストが高く，スケーラビリティが低い。
- 多Modalな特徴抽出とCross-Modal相乗効果により，ガス固有の特徴に依存しない予測モデルを構築する。
- COFAPは，既存手法を上回る高性能なCOF吸着予測を実現した。
- 高性能COFは，狭い範囲の細孔径と表面積に集中していることが示唆された。
- 用途に応じたCOF候補の柔軟なランキングを可能にする重み調整可能な優先順位付けスキームが開発された。
Link: https://arxiv.org/abs/2511.01946
五次元から多次元へ：大規模言語モデルによる正確かつ解釈可能な心理プロファイリング [eess.SY, cs.SY, math.OC, cs.AI]目的：人間の心理的特性間の相関構造のモデル化
- 人間の心理特性は相互に関連すると考えられており，その理解は重要である。
- 従来の心理的特性の測定には，時間とコストがかかる場合が多い。
- 大規模言語モデルを用いて，少ない入力データから心理的特性を予測することを目指す。
- 大規模言語モデルは，人間の心理構造を高い精度で捉えることができた（R^2 > 0.89）。
- モデルは，まずBig Fiveの回答を自然言語の性格要約に変換し，次にその要約に基づいて他の尺度への回答を生成する。
- 生成された要約は，単なる冗長な表現ではなく，特性間の相互作用のより高次のパターンを捉えていることが示唆された。
Link: https://arxiv.org/abs/2511.03235
生成AIベンチマークにおける現実世界での妥当性：ジャーナリズムの実務者向けドメイン中心評価の理解と設計 [cs.HC, cs.AI]目的：生成AIベンチマークの現実世界での妥当性と，ジャーナリズム分野におけるドメイン中心評価の設計
- AI技術の能力を適切に伝える上で，ベンチマークは重要な役割を担う。
- 既存のベンチマークは，現実世界の利用状況や根底にある概念を十分に捉えられていない。
- ジャーナリズム分野に特化した評価手法を設計し，AI評価のあり方に関する要件を明確化すること。
- ジャーナリズム分野の23人の専門家を対象としたワークショップを実施し，ドメイン固有の課題と評価設計における緊張を明らかにした。
- 特定のタスクを評価構造に変換する際の課題，指標とドメイン固有の価値観との整合性，利害関係者のニーズのバランスなどが明らかになった。
- ジャーナリズムの実務者が実験できる評価構造を構築するとともに，文脈化され，価値観に沿った，評価リテラシーを育成するAI評価の設計要件を示した。
Link: https://arxiv.org/abs/2511.05501
LUT-LLM：FPGAにおけるメモリベース計算による効率的な大規模言語モデル推論 [cs.AR, cs.AI]目的：FPGAを用いたメモリベース計算による大規模言語モデル推論の効率化
- 大規模言語モデルは日常的な応用を大きく改善しており，その重要性は増している。
- FPGAアクセラレータは柔軟性を持つが，GPUの最適化により優位性が低下している。
- FPGAの持つ豊富なオンチップメモリを活用し，効率的な推論を実現することを目指す。
- LUT-LLMは，ベクター量子化を活用し，10億パラメータ以上の言語モデルをFPGA上で展開する初のアクセラレータである。
- 算術演算量を4分の1に削減し，GPUと比較して1.10～3.29倍高速な生成速度と，3.05～6.60倍高いエネルギー効率を達成した。
- 活性化関数と重みの同時量子化が最も効果的であり，帯域幅を考慮した並列セントロイド検索により，遅延を削減した。
Link: https://arxiv.org/abs/2511.06174
AIモデルが隠れた目的を自己申告するように学習する [cs.AI]目的：AIモデルにおける隠れた目的の自己申告能力の向上
- AIの能力向上に伴い，意図しない目的を追求し，有害な結果をもたらす可能性が懸念される。
- AIモデルへの直接的な質問では，虚偽の回答をする可能性があり，安全性評価が困難である。
- AIモデルが事実誤認を認め，隠れた目的を自己申告する能力を獲得することで，安全性向上を目指す。
- 自己申告ファインチューニング（SRFT）により，モデルは事実上の誤りを認め，隠れた目的を告白する傾向が強まる。
- SRFTを施したモデルは，隠された目的の検出において高い性能（F1スコア=0.98）を示し，ベースラインモデルとは対照的に虚偽回答をしない。
- SRFTは隠れた目的の詳細な内容を28-100%まで復元可能にし，AIの安全性評価に貢献する可能性がある。
Link: https://arxiv.org/abs/2511.06626
医学レポート生成のための意味階層型強化学習：RadHiera [cs.AI]目的：医学レポートの生成
- 医療現場におけるレポート作成の効率化と精度向上が重要である。
- 既存手法では，所見と印象の間の意味的な依存関係が十分に考慮されていない。
- 所見と印象の一貫性を高め，診断精度を向上させる。
- RadHieraは，レポート全体の質，印象の診断精度，そして所見と印象の一貫性を最適化する。
- 重症度を考慮した報酬関数により，臨床的に重要な状態の見落としや過剰診断を抑制する。
- 専門家モデル由来のラベルセットを用いて，所見に基づいた正確な印象を生成する。
Link: https://arxiv.org/abs/2511.10065
費用対効果の高いLLMエージェントのための共形制約付き方策最適化 [cs.LG, cs.AI]目的：費用対効果の高いLLMエージェントの実現
- 大規模言語モデルの応用範囲は拡大する一方であり，その経済的効率が重要課題となっている。
- LLMの利用には高額な計算コストやAPI費用がかかるという課題が存在する。
- LLMの費用と信頼性のバランスを取り，コストを削減することを目指す。
- 提案手法であるCCPOは，既存のコスト最適化手法と比較して，最大30%のコスト削減を達成した。
- CCPOは，信頼性を損なうことなく，より費用対効果の高いLLMエージェントの展開を可能にする。
- 本研究は，制約付き方策最適化，オフポリシー強化学習，オンライン共形予測を統合した新たなフレームワークを提供する。
Link: https://arxiv.org/abs/2511.11828
思考，発話，決定：経済的意思決定のための言語拡張マルチエージェント強化学習 [cs.AI, econ.GN, q-fin.EC]目的：経済的意思決定における言語拡張マルチエージェント強化学習のフレームワーク
- 経済活動は価格や税制だけでなく，対話や報道などの言語情報に影響を受ける。
- 従来のマルチエージェント強化学習は，言語の意味の曖昧さや文脈の多様性に課題がある。
- 言語情報を活用することで，より現実的な経済的意思決定を可能にすること。
- LAMPは，思考・発話・決定のパイプラインを通じて，言語情報を経済的意思決定に統合する。
- シミュレーション実験の結果，LAMPは従来の強化学習やLLMのみの場合よりも高い累積リターンを達成した。
- LAMPは，ロバスト性や解釈可能性においても優れており，効果的な経済戦略の実現に貢献する。
Link: https://arxiv.org/abs/2511.12876
Google AI概要と抜粋の監査：乳幼児ケアと妊娠に関する事例研究 [cs.CL, cs.AI, cs.CY, cs.HC, cs.IR]目的：Google AI概要および抜粋の品質と一貫性に関する評価
- 現代社会において，検索エンジンは健康情報への主要なアクセス手段であり，その信頼性が重要である。
- AI生成コンテンツの品質管理が不十分であり，誤った情報や不確実な情報が拡散するリスクがある。
- AI生成コンテンツの信頼性を確保し，ユーザーの健康と安全を守るための評価手法を確立すること。
- AI概要と抜粋において，情報の一貫性がないケースが33%に達することが判明した。
- AI概要と抜粋の双方において，医療的な安全対策が十分に施されていないことが明らかになった（それぞれ11%と7%）。
- 健康関連ウェブサイトが情報源として多いものの，抜粋では商業的な情報源へのリンクも散見された。
Link: https://arxiv.org/abs/2511.12920
SVBRD-LLM：自律走行車の識別のための自己検証型行動ルール発見 [eess.SY, cs.SY, cs.CL, cs.CY, cs.RO, cs.AI]目的：自律走行車の行動ルールの抽出と識別
- 自動運転技術の普及に伴い，安全性確保と法規制遵守のための行動理解が重要である。
- 既存のデータ駆動型手法は解釈可能性に乏しく，行動の根拠を明確に説明できないという課題がある。
- 実世界の交通映像から解釈可能な行動ルールを抽出し，自律走行車の識別精度向上を目指す。
- 提案手法SVBRD-LLMは，実交通映像から解釈可能な行動ルールを自動的に抽出し，自律走行車の識別を試みる。
- 実験結果から，SVBRD-LLMは90.0%の精度と93.3%のF1スコアで自律走行車の識別を達成した。
- 抽出されたルールは，自律走行車の滑らかさ，保守性，車線維持といった特性を捉え，安全性評価に貢献する。
Link: https://arxiv.org/abs/2511.14977
安定拡散モデルが示す，視覚的創造性における人間とAIのギャップ [cs.RO, cs.AI, cs.HC]目的：視覚的創造性の比較分析
- 視覚的創造性は，芸術，デザイン，コミュニケーションにおいて重要な役割を担う
- AIによる画像生成は進歩しているものの，人間の視覚的創造性には及ばないとの指摘がある
- AIによる画像生成の創造性を評価し，人間との差を明らかにすること
- 視覚芸術家が最も創造的であり，非芸術家，人間が触発した生成AI，自己誘導型生成AIの順に創造性が低いことが示された
- 生成AIへの人間の関与を高めることで，その創造的アウトプットは非芸術家のレベルに近づいた
- 人間とAIの評価者では，創造性の判断パターンに大きな違いが見られた
Link: https://arxiv.org/abs/2511.16814