arXiv雑要約

AI - 2026/03/23 公開

効率的な推論の技：データ，報酬，そして最適化 [cs.CL, cs.AI]目的：大規模言語モデルにおける効率的な推論メカニズムの解明
- 大規模言語モデルの性能向上には，推論能力が不可欠であり，その効率化が求められている。
- 従来のCoT推論は計算コストが高く，実用上の制約となっている。
- 報酬設計を通じて，短く正確な推論経路を学習させる方法論を確立すること。
- 学習過程は，推論の長さへの適応と推論精度の向上という二段階で進行することが明らかになった。
- 十分な正の報酬信号を維持し，「短ければ正しい」という誤謬を避けることが重要である。
- 学習された長さバイアスは，ドメインや難易度を跨いで汎化することが示された。
Link: https://arxiv.org/abs/2602.20945
優先順位制約付き決定木とカバレッジ [eess.SY, cs.SY, cs.DS, cs.LG]目的：最適決定木と集合被覆における優先順位制約下での最適化
- 意思決定や分類において，効率的な探索戦略は不可欠であり，計算資源の最適化に繋がる。
- 既存手法では，優先順位制約を考慮した最適化アルゴリズムが十分に確立されていない。
- 優先順位制約下での最適決定木と集合被覆問題に対する近似アルゴリズムを開発し，性能評価を行う。
- 最適決定木と集合被覆問題に対し，$\mathcal{O}^*(\sqrt{m})$近似アルゴリズムを提案した。
- 一般的な優先順位制約下での困難性を示す結果も得られ，近似の限界を示唆した。
- 特に重要なアウトフォレストとインフォレストに対し，多対数近似保証とそれに対応する困難性を示すことができた。
Link: https://arxiv.org/abs/2602.21312
政策変換下における認識的行動の構造的非保存性について [cs.LG, cs.AI]目的：政策変換下における認識的行動の構造的非保存性
- 強化学習は，不完全な情報下での意思決定において重要な役割を果たす。
- 内部状態に依存した行動パターンは，政策変換によって変化する可能性があり，その構造的性質は不明である。
- 政策変換が認識的行動をどのように変化させるかを構造的に理解することを目的とする。
- 政策の凸結合は，必ずしも非自明な行動依存性を持つ政策の集合を閉じないことが示された。
- 行動距離は，凸結合によって縮小することが証明された。
- 偏った混合目的関数に対する勾配上昇は，支配的なモードの勾配が最も急な収縮方向と一致する場合，行動距離を減少させる十分な局所条件が示された。
Link: https://arxiv.org/abs/2602.21424
学習された遷移モデルによるサンプル効率の良い汎化プランニング [cs.AI]目的：汎化プランニングにおけるサンプル効率の向上
- プランニングは，AIの根幹技術であり，ロボット工学や自動運転など，幅広い応用分野を持つ。
- 従来の汎化プランニング手法は，大規模なデータセットやモデルサイズが必要であり，長期的な計画で状態のずれが生じやすい。
- 遷移モデルを学習することで，少ないデータと小規模なモデルで，より汎化性能の高いプランニングを実現する。
- 遷移モデルを明示的に学習することで，直接的な行動系列予測よりも，分布外のプランニング成功率が向上した。
- 従来のモデルよりも少ない訓練データと，より小さなモデルサイズで，同等の性能を達成した。
- 中間状態を自己回帰的に予測することで，ドメインのダイナミクスを暗黙的なワールドモデルとして学習する。
Link: https://arxiv.org/abs/2602.23148
不安定性アンサンブルによる不確実性下での回路コンセンサス [cs.CL, cs.AI, cs.LG]目的：メカニスティック回路の安定な構造抽出
- 深層学習モデルの解釈可能性向上は，AIの信頼性と制御可能性を高める上で不可欠である。
- 回路抽出は，プルーニング閾値に依存し，結果が不安定になりやすいという課題がある。
- 閾値に依存しない，安定した回路構造を抽出することで，解釈性の向上を目指す。
- CIRCUSは，複数の構成で回路をプルーニングし，エッジの包含頻度に基づいてコンセンサス回路を抽出する。
- コンセンサス回路は，従来の回路よりも大幅に小さく，解釈力は同等以上である。
- 活性化パッチングによる因果関係の検証により，抽出された回路の関連性が確認された。
Link: https://arxiv.org/abs/2603.00523
直感から調査へ：汎用的な顔認証改ざん防止のためのツール拡張型推論MLLMフレームワーク [cs.CV, cs.AI]目的：顔認証改ざん防止における，汎用性を高めるためのツール拡張型MLLMフレームワーク
- 顔認証技術は広く利用されているが，改ざん攻撃に対して脆弱であるため，堅牢な改ざん防止技術が求められている。
- 既存のMLLMベースの手法は，ドメイン間の汎用性に限界があり，微細な視覚的パターンを捉えるのが難しい。
- 本研究は，外部ツールを用いてMLLMに詳細な調査を促し，改ざんの微妙な手がかりを捉えることで，汎用性を向上させる。
- 提案手法TAR-FASは，Chain-of-Thought with Visual Tools (CoT-VT)パラダイムを採用し，直感的な観察から微細な調査へとMLLMを導く。
- ToolFAS-16Kデータセットは，ツール利用の推論軌跡を含み，ツールを意識した学習パイプラインとDT-GRPOアルゴリズムにより効率的なツール利用を学習する。
- 厳しいクロスドメイン評価において，TAR-FASは最先端の性能を達成し，信頼性の高い改ざん検出のための詳細な視覚的調査を提供する。
Link: https://arxiv.org/abs/2603.01038
AIの文化的知性を定量化するための統一的フレームワーク [cs.RO, cs.AI, cs.CL, cs.CY]目的：AIの文化的知性の定量化
- グローバル展開が進むAIにおいて，文化への適応能力は不可欠である。
- 既存の研究は文化の特定側面評価に偏り，包括的な評価手法が不足している。
- 文化的多様性を大規模に評価する統一的・体系的なフレームワークを提案する。
- 測定理論に基づき，文化的知性の多面的な指標を集約する原則的なフレームワークを提示した。
- 文化の定義を明確化し，AIシステムの文化的知性を評価するための拡張可能な枠組みを導入した。
- 文化的知性を測定可能な能力の集合として捉え，信頼性の高い指標を通して運用化を試みた。
Link: https://arxiv.org/abs/2603.01211
mlx-vis：Apple SiliconにおけるGPUアクセラレーションによる次元削減と可視化 [cs.SI, cs.LG]目的：Apple Silicon Metal GPU向けのMLXを使用した次元削減手法と可視化
- 機械学習モデルの解釈やデータ探索において，次元削減と可視化は重要な役割を担う。
- 既存手法はGPUの性能を十分に活用できておらず，大規模データセットでの処理速度が課題であった。
- Apple SiliconのGPU性能を最大限に活用し，高速な次元削減と可視化を実現すること。
- 本ライブラリは，UMAP，t-SNEを含む8つの次元削減手法をMLX上で実装し，Apple Silicon GPUでの高速化を実現した。
- Fashion-MNISTデータセット(7万点，M3 Ultra)において，7つの手法で2.0-4.7秒での埋め込みと，800フレームのアニメーションを1.4秒でレンダリングできた。
- MLXとNumPyのみに依存しており，容易に利用可能である。
Link: https://arxiv.org/abs/2603.04035
コントラスト信号による拡散再構成の誘導：バランスの取れた視覚表現に向けて [cs.CV, cs.AI, cs.LG]目的：バランスの取れた視覚表現の獲得
- 画像とテキストの関連性を学習するCLIPモデルの性能向上は，多様な応用において重要である。
- CLIPモデルの視覚エンコーダの表現能力がボトルネックとなっており，識別能力と詳細知覚能力のバランスが課題である。
- 拡散モデルを用いた再構成にコントラスト信号を統合し，CLIPの表現能力の限界を克服することを目指す。
- 拡散再構成にコントラスト信号を組み込むことで，識別能力と詳細知覚能力を同時に最適化できることを理論的に示した。
- Diffusion Contrastive Reconstruction (DCR)という手法を提案し，コントラスト信号を再構成画像から注入することで最適化のバランスを取る。
- 様々なベンチマークにおいて，提案手法DCRの有効性を検証し，多岐にわたるマルチモーダル大規模言語モデルで優れた性能を示した。
Link: https://arxiv.org/abs/2603.04803
戦略的ナビゲーションか，確率的探索か：エージェントと人間の文書コレクションにおける推論方法 [eess.SY, cs.SY, cs.CL, cs.AI]目的：文書コレクションにおけるエージェントと人間の推論方法の比較
- 文書処理の自動化は業務効率化に不可欠であり，その重要性は増している。
- 現在のAIエージェントは戦略的な推論よりも試行錯誤に頼る傾向があり，効率性に課題がある。
- エージェントの戦略的推論能力を評価し，効率的な文書探索の実現を目指す。
- 最新のエージェントは人間と同程度の精度を達成できるものの，異なる質問に成功しており，戦略的な計画が弱い。
- エージェントは，戦略的な計画の弱点を補うために，力ずくの探索に依存している。
- 理想的な性能との間に約20%の差が残り，非効率なループに陥る傾向がある。
Link: https://arxiv.org/abs/2603.12180
プロンプトインジェクションにおける役割の混同 [cs.CL, cs.AI, cs.CR]目的：プロンプトインジェクション攻撃に対する脆弱性の原因の解明
- 大規模言語モデルの安全性確保は，その社会実装において不可欠である。
- 既存の安全対策では，プロンプトインジェクション攻撃を完全に防ぎきれていない。
- 言語モデルにおける役割認識のメカニズムを理解し，攻撃を防ぐ方法を確立する。
- 言語モデルは，テキストの書き方から役割を推論しており，情報源を区別していないことが示された。
- 攻撃者は，モデルに役割を詐称させることで，その役割の権限を不正に利用できることが明らかになった。
- 役割の混同度合いは，攻撃の成功率を事前に予測できる重要な指標となることが示唆された。
Link: https://arxiv.org/abs/2603.12277
セマンティックサンプリングによる医用画像空間的接地 [cs.CL, cs.CV, cs.LG]目的：医用画像における解剖学的構造の空間的接地能力の向上
- 医用画像解析は，疾患の診断や治療計画において不可欠であり，高精度な画像理解が求められる。
- 従来の医用画像解析は，解剖学的知識や空間的関係性を考慮した空間的接地が困難であった。
- 本研究は，ビジョン言語モデル(VLM)の空間的接地能力を向上させ，より正確な医用画像解析を実現する。
- MIS-Groundベンチマークを公開し，VLMの空間的接地における脆弱性を総合的に評価できる環境を提供した。
- MIS-SemSamという，推論時にVLMを最適化する低コストでモデル非依存な手法を提案し，空間的接地能力の向上を示した。
- MIS-SemSamは，Qwen3-VL-32BのMIS-Groundにおける精度を13.06%改善した。
Link: https://arxiv.org/abs/2603.14579
AC-Foley：参照音響誘導によるビデオからの音響合成 [cs.RO, cs.SD, cs.CV, cs.LG, cs.MM, eess.AS]目的：ビデオからの音響合成における音響転送
- 映像と音響の同期は，没入感のあるメディア体験に不可欠である。
- 既存手法では，テキストプロンプトの曖昧さから微細な音響特徴の合成が困難である。
- 参照音響を利用することで，テキストの曖昧さを回避し，精度の高い音響制御を実現する。
- AC-Foleyは，参照音響を条件とする事で，より正確で微細な音響合成を可能にする。
- 参照音響を用いた場合，フォーリー音響生成において最先端の性能を達成した。
- 音響条件を用いなくても，既存のビデオからの音響合成手法と同等以上の性能を維持する。
Link: https://arxiv.org/abs/2603.15597
ClawWorm: LLMエージェント生態系における自己伝播攻撃 [cs.CR, cs.AI, cs.LG, cs.MA, cs.SE]目的：LLMエージェント生態系における自己伝播攻撃の実現と評価
- LLMエージェントの利用拡大に伴い，長期実行プロセス間のセキュリティ確保が急務となっている。
- 既存のLLMエージェントフレームワークのセキュリティ特性は十分に検証されていない。
- 本研究は，実運用規模のLLMエージェントフレームワークに対する自己伝播型攻撃の可能性を明らかにする。
- ClawWormは，単一のメッセージから完全に自律的な感染サイクルを達成する初の自己複製ワーム攻撃である。
- 実験の結果，攻撃成功率は64.5%であり，複数ホップにわたる持続的な伝播が確認された。
- モデルのセキュリティ態勢には大きな差があり，実行レベルフィルタリングは有効だが，スキルサプライチェーンは脆弱である。
Link: https://arxiv.org/abs/2603.15727
IRIS：単眼ビデオからの逆回復と物理ダイナミクスシステムの特定のための現実世界ベンチマーク [cs.RO, cs.CV, cs.LG]目的：物理ダイナミクスシステムのパラメータ推定と，それを記述する支配方程式の特定
- 物理現象の理解と予測は，ロボティクスや科学シミュレーションなど，幅広い分野で不可欠である。
- ビデオデータから物理パラメータを推定する際の，統一された評価基準が存在しなかった。
- 現実世界の複雑なダイナミクスシステムを対象とした，信頼性の高い評価基盤を構築すること。
- IRISベンチマークは，4K解像度・60fpsで記録された220の現実世界ビデオで構成され，単体および多体ダイナミクスを網羅している。
- 提供される支配方程式と実測値を用いて，パラメータの精度，特定可能性，外挿性能，ロバスト性，方程式選択を評価する標準プロトコルが定義されている。
- 複数のベースラインモデルの評価結果から，今後の研究に向けた課題が明らかになった。
Link: https://arxiv.org/abs/2603.16432
FEAT：極めて大規模な構造化データのための線形複雑度基盤モデル [cs.LG, cs.AI]目的：極めて大規模な構造化データに対する線形複雑度基盤モデル
- 医療，金融，EC，科学データ管理など，様々な分野で構造化データは基盤技術である。
- 既存の構造化データモデルは，計算量や表現力の低下，現実世界の分布との乖離といった課題を抱えている。
- FEATは，これらの課題を解決し，大規模な構造化データを効率的に処理するための基盤モデルを提供する。
- FEATは，二軸構造と線形エンコーディングにより，従来のモデルよりも高速かつ効率的に大規模データを処理する。
- 11の現実世界のデータセットにおいて，ゼロショット性能で既存モデルを安定的に上回り，最大40倍の高速化を実現した。
- ハイブリッド構造因果モデルと安定再構成目的関数により，頑健性を向上させている。
Link: https://arxiv.org/abs/2603.16513
深不確実性下における社会環境計画における生成AI支援型参加型モデリング [cs.AI]目的：社会環境計画における問題概念化の効率化
- 社会環境問題は複雑であり，多様なステークホルダーの意見を反映した計画が不可欠である。
- 参加型モデリングは時間と労力を要し，ステークホルダーの自然言語による記述を定量モデルに変換することに課題がある。
- 生成AIを活用し，問題概念化プロセスを支援することで，より迅速かつ効率的な計画策定を目指す。
- 大規模言語モデルを用いることで，ステークホルダーの記述から本質的なモデル要素を抽出することが可能となった。
- 抽出された要素を統合し，Pythonで実装可能なモデルを構築するワークフローが実証された。
- ChatGPT 5.2 Instantを用いた実験により，湖問題と電力市場問題の両方で良好な結果が得られた。
Link: https://arxiv.org/abs/2603.17021
医療ビジョン言語埋め込みにおける円錐効果とモダリティギャップ [cs.RO, cs.LG]目的：医療分野におけるビジョン言語モデルのモダリティギャップの影響と最適化
- 近年，画像とテキストを組み合わせた学習が重要視されている。医療画像診断など，多種多様な応用が期待されている。
- ビジョン言語モデルは，画像とテキストの情報を分離しやすく，性能低下の原因となるモダリティギャップが存在する。
- モダリティギャップの程度を調整することで，医療分野におけるマルチモーダル学習の性能向上を目指す。
- 事前学習済みのビジョン言語モデルを再学習することなく，ハイパーパラメータ調整によりモダリティギャップを制御する手法を提案。
- 様々な医療および自然画像データセットにおいて，モダリティギャップを適切に調整することで，下流タスクの性能が向上することを示した。
- 医療データセットは，ギャップの調整に特に敏感であり，完全にギャップをなくすことが常に最適ではないことが示唆された。
Link: https://arxiv.org/abs/2603.17246
Visual-referred Probabilistic Prompt Learning：弱学習単眼3D物体検出のためのビジュアル参照確率的プロンプト学習 [cs.CL, q-bio.NC, cs.CY, cs.MA, eess.SY, cs.SY, cs.CV, cs.AI]目的：弱学習単眼3D物体検出における性能向上
- 自動運転やロボティクスにおける3D物体検出は，周囲環境の理解に不可欠である。
- 既存手法は，実世界の注釈に大きく依存しており，注釈コストが高いという課題がある。
- 視覚情報を考慮したプロンプト学習により，シーン固有の表現を獲得し，検出精度を向上させる。
- 提案手法VirProは，適応的プロンプトバンクと多ガウスプロンプトモデリングを導入し，多様な視覚的特徴をテキスト埋め込みに統合する。
- RoIレベルのコントラストマッチングにより，モダリティ間の整合性を強化し，潜在空間での意味的な一貫性を高める。
- KITTIベンチマークでの実験により，VirProがベースラインと比較して最大4.8%の平均精度向上を達成することが示された。
Link: https://arxiv.org/abs/2603.17470
DEAF：音声言語モデルにおける音響忠実性の診断評価ベンチマーク [cs.CY, cs.HC, cs.AI, cs.SD, eess.AS]目的：音声言語モデルの音響忠実性診断
- 近年の音声マルチモーダル大規模言語モデルの性能向上に伴い，音響信号の理解度評価が重要になっている。
- 既存の音声ベンチマークでは，モデルが音響信号を真に処理しているか，テキスト情報を利用しているかの区別が困難である。
- 音響的な側面とテキスト情報の影響を分離し，モデルの音響信号への依存度を定量的に評価することを試みる。
- DEAFベンチマークは，感情的な抑揚，背景音，話者識別という3つの音響次元に焦点を当てた2700以上の対立刺激で構成される。
- 評価フレームワークは，テキストの影響を段階的に高めることで，コンテンツ主導のバイアスとプロンプトによる迎合を分離する。
- 7つの音声大規模言語モデルの評価により，テキストが予測を大きく左右し，標準的な音声ベンチマークでの高い性能とは乖離があることが示された。
Link: https://arxiv.org/abs/2603.18048
S3T-Former：骨格アクション認識のための純粋なスパイク駆動状態空間トポロジーTransformer [cs.CV, cs.AI]目的：骨格データを用いたアクション認識におけるエネルギー効率の向上
- マルチメディア応用において骨格ベースのアクション認識は重要である。しかし，計算コストが高い。
- 既存のスパイクニューラルネットワークは，スパース性を損ないやすく，短期記憶の問題がある。
- スパイク駆動Transformerアーキテクチャにより，エネルギー効率の高いアクション認識を実現する。
- S3T-Formerは，既存のANNと比較して高い精度を達成し，理論的にエネルギー消費量を削減する。
- Multi-Stream Anatomical Spiking Embedding (M-ASE) により，多岐にわたる骨格特徴を効率的にスパイクデータへ変換する。
- Lateral Spiking Topology Routing (LSTR) と Spiking State-Space (S3) Engine により，時間的依存性を捉え，スパース性を維持する。
Link: https://arxiv.org/abs/2603.18062
MOSS-TTS技術報告 [cs.SD, cs.AI, cs.CL]目的：音声生成基盤モデルMOSS-TTSの設計，学習手法，および実験的特性
- 近年の深層学習技術の発展により，高品質な音声合成が求められている。
- 既存の音声合成モデルは，計算コストが高い，または汎化性能が低いという課題がある。
- 大規模な事前学習と効率的なモデル構造により，これらの課題を克服することを目指す。
- MOSS-TTSは，離散的な音声トークン，自己回帰モデリング，大規模な事前学習を組み合わせたスケーラブルな手法を採用している。
- MOSS-TTSは，ゼロショットのボイスクローニング，トークンレベルの長さ制御，音素/ピンインレベルの発音制御，スムーズなコードスイッチング，安定した長文生成をサポートする。
- MOSS-TTSとMOSS-TTS-Local-Transformerの2つの生成モデルを公開し，構造の単純さ，スケーラビリティ，およびモデリング効率の向上を実現した。
Link: https://arxiv.org/abs/2603.18090
セキュリティインシデント分析のための検索拡張大規模言語モデル [cs.CR, cs.AI]目的：セキュリティインシデント分析における情報抽出と攻撃シーケンスの再構築
- サイバーセキュリティは社会基盤を支える上で不可欠であり，インシデントへの迅速な対応が求められる。
- インシデント分析は，大量のログデータから関連情報を手動で抽出する必要があり，時間と労力を要する。
- 大規模言語モデルと検索拡張技術を組み合わせ，効率的かつ正確なインシデント分析を実現すること。
- 本システムは，クエリベースのフィルタリングと大規模言語モデルのセマンティック推論により，セキュリティインシデント分析を行う。
- Claude Sonnet 4とDeepSeek V3は，マルウェアシナリオにおいて100%の再現率を達成し，DeepSeek V3はコストパフォーマンスに優れる。
- Active Directoryシナリオでは，100%の適合率と82%の再現率で攻撃ステップの検出が可能であり，RAGアーキテクチャの有効性が確認された。
Link: https://arxiv.org/abs/2603.18196
R2-Dreamer：デコーダおよびデータ拡張を用いない冗長性を低減した世界モデル [cs.LG, cs.AI, cs.RO]目的：画像に基づくモデルベース強化学習における表現学習
- 視覚情報から本質的な情報を抽出する表現学習は，強化学習の性能向上に不可欠である。
- 再構成に基づく手法は，タスクに無関係な領域に容量を浪費する傾向がある。
- 外部の正則化項に依存せず，内部正則化により表現崩壊を防ぐことを目指す。
- R2-Dreamerは，DeepMind Control SuiteとMeta-Worldにおいて，DreamerV3やTD-MPC2といった強力なベースラインと同等の性能を示す。
- DreamerV3と比較して1.59倍速く学習を完了する。
- DMC-Subtleのような微細な対象を含む環境において，顕著な性能向上を達成した。
Link: https://arxiv.org/abs/2603.18202
PlanTwin：クラウド支援LLMエージェントのためのプライバシー保護計画抽象化 [cs.CR, cs.AI, cs.ET]目的：クラウド支援LLMエージェントにおけるプライバシー保護計画抽象化のアーキテクチャ
- 近年，LLMエージェントの利用が拡大しているが，機密性の高いローカル環境の保護が重要課題となっている。
- 既存手法では，計画段階での環境状態の露出を防ぐことが難しく，プライバシー侵害のリスクが存在する。
- 本研究は，環境の情報を抽象化し，クラウドに露出することなく計画を可能にするアーキテクチャを提案する。
- PlanTwinは，実環境を計画に特化したデジタルツインに投影することで，プライバシーを保護する。
- 提案手法は，60のタスクにおいて，機密情報の漏洩を防ぎつつ，高い計画品質を維持することを示した。
- 四種類のプランナーのうち三種類で，PQSが0.79を超え，実用的なユーティリティ損失は2.2%未満であった。
Link: https://arxiv.org/abs/2603.18377
AcceRL：ビジョン・言語・行動モデルのための分散非同期強化学習およびワールドモデルフレームワーク [cs.LG]目的：大規模ビジョン・言語・行動モデルに対する強化学習における計算効率とデータ獲得の課題解決
- 近年，ビジョン・言語・行動モデルの活用が広がり，より高度な制御性能が求められている。
- 大規模モデルの強化学習は計算コストが高く，実環境でのデータ収集が困難であるという課題がある。
- 分散非同期学習とワールドモデルの統合により，効率的な学習と安定性の向上を目指す。
- AcceRLは，訓練，推論，ロールアウトを物理的に分離する完全に非同期な分散フレームワークである。
- ワールドモデルを統合することで仮想的な経験を生成し，サンプル効率と訓練の安定性を高めている。
- LIBEROベンチマークにおいて，最先端の性能を示し，スケーラビリティとハードウェア利用効率の高さが確認された。
Link: https://arxiv.org/abs/2603.18464
推論負荷の均衡：効率的かつ頑健な強化学習のための長さ再配分による難易度微分型方策最適化 [cs.LG, cs.CL]目的：大規模言語モデルにおける過剰思考と過信現象の軽減
- 大規模言語モデルは高度な推論能力を持つが，効率性や頑健性の改善が課題である。
- 複雑な問題において，大規模言語モデルは過信により短く不正確な回答を生成しやすい。
- 難易度に応じた方策最適化により，精度と回答長のバランスを改善することを目指す。
- 提案手法DDPOは，容易なタスクでは回答長を短縮し，難しいタスクでは探索空間を拡大することで性能向上を実現した。
- DDPOは，既存手法GRPOと比較して，平均回答長を12%削減しつつ，精度を1.85%向上させた。
- 最適な精度を得るためには，回答長の分布が最適長に近く，かつ集中している必要があることが理論的に示された。
Link: https://arxiv.org/abs/2603.18533
点群事前情報を用いた構造を意識した3D生成 [cs.CV, cs.AI]目的：点群事前情報を利用した3Dアセットおよびシーン生成における形状制御
- 3D生成技術は画像やテキストに依存する傾向が強いが，利用可能な3D事前情報は十分に活用されていない。
- LiDAR等のアクティブセンサーやVGGT等の予測器から容易に得られる点群は，既存手法では活用されていない。
- 点群を事前情報として利用することで，より正確かつ構造制御可能な3D生成を目指す。
- 本研究では，拡散モデルTRELLISを基盤とし，点群事前情報を活用するPoints-to-3Dを提案する。
- 点群事前情報を初期値として組み込み，構造を補完するネットワークと段階的なサンプリング戦略を用いることで，高品質な3D生成を実現した。
- 実験の結果，提案手法は既存手法と比較して，レンダリング品質と幾何学的忠実度において優れた性能を示した。
Link: https://arxiv.org/abs/2603.18782
エージェント制御プロトコル：エージェントアクションの認可制御 [cs.CR, cs.AI]目的：B2B環境における自律型エージェントのガバナンスに関する技術仕様
- 企業間取引において，自律型エージェントの利用が増加しており，その安全な運用が重要になっている。
- 既存のRBACやゼロトラストモデルでは，エージェントの行動範囲を厳密に管理することが困難である。
- エージェントの行動の可視化，制限，監査を可能にし，組織間の連携を促進することを目的とする。
- エージェント制御プロトコル（ACP）は，エージェントの意図とシステムの状態変化の間に位置する認可制御層を定義する。
- ACPは，暗号化による本人確認，機能に基づく権限付与，決定論的なリスク評価，検証可能な委任，可逆的な無効化，不変の監査を実現する。
- 仕様書v1.14は36の技術ドキュメントで構成され，Goによる参照実装，テストベクトル，OpenAPI仕様を提供している。
Link: https://arxiv.org/abs/2603.18829
エージェント型ビジネスプロセス管理：研究宣言 [cs.AI]目的：エージェント型ビジネスプロセス管理の概念的基盤
- ビジネス環境の複雑化に対応するため，自律的な実行主体によるプロセス管理が不可欠である。
- 従来のビジネスプロセス管理は，自動化に偏重し，自律性と組織目標との整合性が課題である。
- 自律性を制約し，組織目標と整合させるプロセス認識に基づいた管理を目指す。
- 本研究は，エージェント型ビジネスプロセス管理を実現するための主要な抽象化とアーキテクチャ要素を提示する。
- フレーム化された自律性，説明可能性，会話型実行可能性，自己修正といった4つの主要な能力が重要となる。
- これらの能力により，エージェントの目標と組織目標の整合性を確保し，積極的な行動を促す。
Link: https://arxiv.org/abs/2603.18916
両様者の利点を兼ね備えた多重決闘バンディット：コンドルセとボルダ目標における確率的および敵対的選好に対する統一アルゴリズム [cs.CY, cs.LG]目的：確率的環境と敵対的環境の両方において最適に機能する多重決闘バンディットアルゴリズムの開発
- ランキングや推薦システムなど，様々な応用において多重決闘バンディットが自然に生じるため，その重要性は高い。
- 従来のアルゴリズムは確率的環境か敵対的環境のいずれか一方に特化しており，どちらの環境であるか不明な場合に最適に機能しないという課題があった。
- 本研究は，環境の事前知識なしに，確率的環境と敵対的環境の両方で最適に機能するアルゴリズムを開発することで，この課題を解決することを目指す。
- コンドルセ設定においては，既存の決闘バンディットアルゴリズムを多重決闘バンディットアルゴリズムに変換するブラックボックス還元法$\texttt{MetaDueling}$を提案した。
- $\texttt{MetaDueling}$と$\texttt{Versatile-DB}$を組み合わせることで，敵対的選好に対して$O(\sqrt{KT})$の擬似後悔を，確率的選好に対してはインスタンス最適の$O\left(\sum_{i \neq a^\star} \frac{\log T}{\Delta_i}\right)$の擬似後悔を同時に達成するアルゴリズムを初めて実現した。
- ボルダ設定においては，確率的環境および敵対環境の両方で優れた性能を示すアルゴリズム$\texttt{SA-MiDEX}$を提案し，理論的な限界に近い結果を得た。
Link: https://arxiv.org/abs/2603.18972
予測型警察におけるアルゴリズムの偏りの解明：多都市時系列分析を用いたGANベースのシミュレーションフレームワーク [cs.AI]目的：予測型警察におけるアルゴリズムの偏りの伝播と増幅の定量的な測定
- 犯罪予測は警察活動の効率化に貢献するが，人種間の不均衡を助長する可能性も指摘されている。
- 既存の研究では，アルゴリズムの偏りが犯罪発生から警察の介入までの過程でどのように拡大されるか，定量的に評価されていない。
- 本研究は，GANを用いたシミュレーションによって，予測型警察における人種バイアスの伝播メカニズムを解明することを目的とする。
- シミュレーションの結果，ボルチモアにおける人種間不均衡は著しく，年間DIRは2019年に最大15.714に達した。
- シカゴでは，黒人居住者の検知漏れが認められたが，ボルチモアほど顕著ではなかった (DIR = 0.22)。
- CTGANによるバイアス軽減策は一部効果があったものの，構造的な不均衡を完全に解消するには政策介入が必要であることが示された。
Link: https://arxiv.org/abs/2603.18987
テトリスブロックパズルの難易度評価 [cs.AI, cs.LG]目的：テトリスブロックパズルのルール変更による難易度の差異
- パズルゲームは広く楽しまれており，ゲームデザインの理解は重要である。
- テトリスのようなパズルゲームの難易度評価は体系的に行われていない。
- ルール変更が難易度に与える影響を定量的に評価する。
- 保持ブロック数hとプレビュー数pを増加させると難易度が低下する。
- 新たなテトリスブロックバリアントを追加すると難易度が上昇する。
- 特にT-ペントミノの追加は，難易度上昇に大きく寄与する。
Link: https://arxiv.org/abs/2603.18994
CustomTex：複数参照による高精度な屋内シーンテクスチャリング [cs.CV, cs.AI]目的：高精度でカスタマイズ可能な3D屋内シーンテクスチャの生成
- 3Dコンテンツ制作において，リアリティの高いテクスチャは重要な要素である。
- テキストからの制御は柔軟だが，細部の制御や品質，アーティファクトの問題がある。
- 参照画像に基づいた高精度なインスタンスレベルのテクスチャリングにより解決を目指す。
- CustomTexは，参照画像に基づいて，オブジェクトインスタンスごとに統一された高解像度テクスチャを生成する。
- セマンティックレベルとピクセルレベルの蒸留を組み合わせることで，高品質なテクスチャを実現した。
- 実験により，参照画像との整合性，鮮明さ，アーティファクトの低減において，既存手法を上回る結果が得られた。
Link: https://arxiv.org/abs/2603.19121
線形計画法を用いた一般的高次グラフモデルにおける厳密MAP推論 [math.OC, cs.AI, math.CO]目的：高次グラフモデルにおける厳密MAP推論の実現
- グラフモデルは，複雑なシステムのモデリングに不可欠であり，様々な分野で応用されている。
- 高次グラフモデルのMAP推論は計算困難であり，実用的な解法が求められている。
- 線形計画法による緩和手法を用いて，高次グラフモデルの厳密MAP推論を可能にする。
- 線形計画法緩和により，一般的な仮定の下でグラフモデルのMAP推論を解くことが可能となった。
- デルタ分布と関数の周辺を用いた代数的なツールを導入することで，証明を簡素化した。
- 提案する線形計画法の緩和解から，正確なMAP解を計算するためのアルゴリズムが開発された。
Link: https://arxiv.org/abs/1709.09051
ネステロフ加速勾配法の一般化された連続時間モデル [math.GT, cs.CG, math.OC, cs.LG]目的：ネステロフ加速勾配法の広範なモデルを網羅する一般化された連続時間モデルの提示
- 最適化問題において，ネステロフ加速勾配法は高速な収束性を示す重要な手法である。
- 既存研究では，特定のネステロフ法に焦点を当てており，統一的な理解が妨げられていた。
- 本研究は，より広範なネステロフ法を対象とする統一的な分析フレームワークを提供することを目指す。
- 提示された一般化モデルは，既存の6つの連続時間モデルを包含し，解析の一貫性を高める。
- モデルの収束率は一般的に導出可能であり，個別のモデルごとに収束率を求める必要がない。
- 一般化モデルに基づく再起動スキームは，目的関数の単調減少を保証し，より広いクラスのネステロフ法に適用可能である。
Link: https://arxiv.org/abs/2409.00913
グローバル感度分析の新たなパラダイム [stat.ML, cs.LG, stat.ME]目的：グローバル感度分析のための新たな指標の定義
- モデルの不確実性評価において，入力変数の影響度を定量的に把握することは重要である。
- 既存の感度指標は，ソボル分解に依存しており，その適用範囲に限界がある。
- ソボル分解を用いない，より一般的な感度指標の概念を導入し，その応用範囲を広げる。
- ソボル指標は，提案された感度指標の特殊なケースとして捉えることができる。
- 感度指標は，入力変数の部分集合に対する出力の不確実性を測る尺度として定義される。
- 入力変数のすべての組み合わせを考慮することで，暗黙の対称因子実験を誘導し，相互作用効果を独立に定義できる。
Link: https://arxiv.org/abs/2409.06271
独立性検定のための表現学習 [stat.ML, cs.LG]目的：独立性検定のための強力な表現の学習
- 機械学習，統計，科学研究において，変数の独立性判定は重要な課題である。
- 高次元変数間の微妙な依存関係の検出には，膨大なサンプル数が必要となる場合がある。
- 有限サンプルでの検定能力を持つ独立性検定手法を開発し，検定力を最大化する表現学習を目指す。
- 変分推論による相互情報量の推定を用いることで，有限サンプルで有効な統計的検定を構築できることが示された。
- 変分相互情報量に基づく検定と，Hilbert-Schmidt Independence Criterion (HSIC)に基づく検定の密接な関係が明らかになった。
- 検定統計量を最大化するだけでなく，検定力を最大化する表現学習（Neural Dependency Statistic）が有効であることが確認された。最適化されたHSIC検定が困難な問題において最も優れた性能を示した。
Link: https://arxiv.org/abs/2409.06890
Max-Cut問題に対するQAOAパラメータの層選択的転移学習の調査 [quant-ph, cond-mat.dis-nn, cs.LG]目的：QAOAパラメータの層選択的転移学習によるMax-Cut問題への適用可能性
- 組合せ最適化問題解決にQAOAが有効であり，NISQ時代における量子アルゴリズム研究が重要である。
- 深層のQAOA回路最適化は計算コストが高く，損失関数の複雑さが課題となっている。
- 転移学習と層選択的最適化により，計算時間と解の品質のバランス改善を目指す。
- パラメータ転移後，一部の層のみを最適化する層選択的最適化が有効であることが示された。
- 層選択的最適化は，全層最適化と比較して，計算時間と解の品質のトレードオフで優位性を示す。
- 近似比は問題サイズに応じて変化し，層の階層的な役割が示唆された。
Link: https://arxiv.org/abs/2412.21071
オンラインゲーム実験における機械学習を用いた解釈可能な早期警告 [physics.soc-ph, cs.LG, cs.SI, nlin.AO, stat.ML]目的：臨界遷移の統計的早期警告シグナル検出
- 物理学発の理論が，生態学など多様な分野に応用され，システムの変化を予測する重要性が高まっている。
- 従来の早期警告指標では，誤検知が多く，有用な警告を捉えきれないという課題があった。
- 機械学習を用いて，より正確かつ迅速な早期警告システムを構築し，社会システムへの応用を目指す。
- 機械学習モデルは，標準的な早期警告指標を大きく上回る性能を示し，高い予測精度を実現した。
- 2022年のr/placeデータで訓練したモデルは，20分以内に発生する遷移の半数を3.6%の誤検知率で検出した。
- 2023年のr/placeイベントでも高い汎用性を示し，異なる状況下でも有効であることが確認された。
Link: https://arxiv.org/abs/2502.09880
ゲノム言語モデルへの系統学的アプローチ [q-bio.GN, cs.LG]目的：ゲノム言語モデルの性能向上
- ゲノム配列は進化の過程で保存される領域を含んでおり，生命現象の理解に不可欠である。
- 既存のゲノム言語モデルは，進化的に制約された要素の同定において，必ずしも十分な性能を示していない。
- 系統樹の情報を用いてゲノム言語モデルを訓練することで，予測精度と汎化性能の向上を目指す。
- 本研究では，系統樹上のヌクレオチド進化を明示的にモデル化する新たなフレームワークを導入した。
- その結果，単一の配列から機能的に破壊的な変異を予測する能力に優れたモデルPhyloGPNを開発した。
- PhyloGPNは高い転移学習能力を示し，様々なゲノム解析への応用が期待される。
Link: https://arxiv.org/abs/2503.03773
線形システムにおける相互情報最適制御における方策の確率性について [math.OC, cs.RO, cs.SY, eess.SY, math.OC, cs.LG, cs.SY, eess.SY]目的：線形システムにおける相互情報最適制御問題における，温度パラメータと方策の確率性の関係
- 近年，制御問題において，エントロピー最大化制御や相互情報最適制御といった手法が注目されている。
- 相互情報最適制御における温度パラメータと方策の確率性の関係は，エントロピー最大化制御と比較して未解明であった。
- 本研究は，相互情報最適制御における温度パラメータと方策の確率性の関係を理論的に明らかにすることを試みる。
- 相互情報最適制御問題における最適方策の存在が示された。
- 温度パラメータに関する条件の下で，最適方策が確率的または決定的に振る舞うことが導かれた。
- 交互最適化アルゴリズムによって得られる方策についても，同様の結果が得られた。数値実験により理論的結果の妥当性が確認された。
Link: https://arxiv.org/abs/2507.21543
IGBTモジュールの半田層劣化と温度監視のための仮想センシング [physics.comp-ph, cs.CE, cs.LG, cs.SY, eess.SY]目的：IGBTモジュールの半田層劣化状態と温度分布の推定
- 電力電子システムの信頼性確保は重要であり，特に安全性が求められる用途では必須である。
- 内部部品へのアクセス困難性から，半田疲労や剥離等の劣化指標の直接測定が課題となっている。
- 少ない物理センサー情報から，半田層劣化と温度分布を高精度に推定する手法を確立する。
- 機械学習に基づく仮想センシングにより，半田層の劣化領域を高精度に推定できた。
- 推定された劣化領域の平均絶対誤差は1.17%であり，高い精度を示した。
- IGBT表面温度の再現において，最大相対誤差4.56%，平均相対誤差0.37%を達成した。
Link: https://arxiv.org/abs/2508.10515
VSSFlow：ビデオ条件による音響・音声生成の統合的学習 [math.OC, cs.SY, eess.SY, eess.AS, cs.AI, cs.CL, cs.CV, cs.SD]目的：ビデオ条件音響生成とビジュアルテキスト読み上げの統合的フレームワーク
- 映像と音響情報の統合は，人間が世界を認識する上で不可欠であり，様々な応用が期待される。
- 従来，ビデオ条件音響生成とビジュアルテキスト読み上げは別個の研究として扱われ，統一的なアプローチが不足していた。
- 本研究は，これらのタスクを統合的に扱うことで，より汎用的で高性能なモデルの実現を目指す。
- VSSFlowは，ビデオとテキストの両方を条件として，音響と音声をシームレスに生成する統一されたフローマッチングフレームワークである。
- 注意層の特性を活かした条件集約機構により，複数の入力信号を効果的に処理し，従来のモデルを上回る性能を達成した。
- Joint learningによる性能劣化の懸念に反し，VSSFlowは終端間ジョイント学習プロセスにおいても優れた性能を維持した。
Link: https://arxiv.org/abs/2509.24773
FinReflectKG -- EvalBench：多次元評価による金融知識グラフのベンチマーク [q-fin.CP, cs.AI]目的：金融知識グラフ構築のためのベンチマークおよび評価フレームワーク
- 金融分野におけるLLM活用が拡大しており，構造化された知識抽出の重要性が高まっている。
- 金融知識グラフ構築のための統一的なベンチマークや評価方法が存在せず，評価のばらつきが生じている。
- 金融テキストからの知識グラフ抽出における評価の信頼性向上と，エラー分析の構造化を目指す。
- FinReflectKG - EvalBenchは，バイアス制御を施したLLMによる評価が，人手による評価と同程度の信頼性を持つことを示した。
- リフレクションに基づく抽出アプローチが，網羅性，精度，関連性の点で最も優れた性能を示した。
- 単一パス抽出は高い忠実度を維持し，各抽出方法の特性に応じた評価が可能となった。
Link: https://arxiv.org/abs/2510.05710
ロバストなオートエンコーダと適応グラフ学習による教師なし特徴選択 [math.CO, cs.FL, quant-ph, cs.CC, cs.CE, cs.DM, math-ph, math.MP, stat.ML, cs.LG]目的：高次元データ分析および機械学習における効果的な特徴選択
- データ量が膨大化する現代において，重要な特徴を抽出することは分析の効率化に不可欠である。
- 既存手法は線形写像に依存し，複雑な特徴関係を捉えきれない点，外れ値への対応が不十分である。
- 非線形な特徴表現学習と外れ値に対するロバスト性の向上により，特徴選択の精度を高める。
- 提案手法RAEUFSは，深層オートエンコーダを活用し，複雑な特徴関係を捉え，外れ値に対してロバストな特徴表現を獲得する。
- RAEUFSの効率的な最適化アルゴリズムを開発し，既存の教師なし特徴選択手法と比較して優れていることを実験的に示した。
- クリーンなデータセットと外れ値を含むデータセットの両方において，RAEUFSは最先端手法を上回る性能を発揮する。
Link: https://arxiv.org/abs/2512.18720
コンパクト連結リー群上のシュレーディンガーブリッジ [quant-ph, cs.NI, eess.SP, math.OC, cs.LG, cs.SY, eess.SY, math.PR]目的：リー群上の初期密度と終端密度間の制御拡散
- 確率過程の制御理論は，ロボティクスや機械学習など広範な分野に応用される。
- リー群上の確率過程の制御は，座標系依存性により困難を伴う。
- リー群の幾何構造を尊重した座標フリーな制御手法を確立する。
- 本研究では，リー群上のシュレーディンガーブリッジ問題に対する解の存在と一意性が示された。
- 提案手法は，リー群上の確率密度を最適に補間する幾何学的コントローラーを導出する。
- SO(2)およびSO(3)に対する数値例を通じて，その有効性が確認された。
Link: https://arxiv.org/abs/2603.14049
部分ラベルと適応的最近傍法による学習可能性 [stat.ML, cs.LG]目的：部分ラベル学習における学習可能性の条件の明確化と，汎用的な適応的最近傍法アルゴリズムの開発
- ラベル付けコストが高いため，部分的なラベルのみで学習可能な手法の確立が求められている。
- 既存の部分ラベル学習法は特定の条件下でのみ有効であり，汎用性に欠けるという課題がある。
- 部分ラベル学習が可能な条件を数学的に明確化し，より広範な状況で有効な手法を提案すること。
- 本研究では，部分ラベル学習が実現可能な条件を数学的に特徴付けた。
- PL A-$k$NNという適応的最近傍法アルゴリズムを提案し，一般的な部分ラベル学習シナリオで有効性を示すとともに，性能保証を確立した。
- 実験結果は，PL A-$k$NNが最先端の手法を上回る性能を発揮することを確認した。
Link: https://arxiv.org/abs/2603.15781
汎用超音波基盤モデルにおけるタスク集約の理解 [eess.IV, cs.AI]目的：汎用化可能な超音波基盤モデルのためのタスク集約に関する理解
- 医療画像診断の精度向上は，患者ケアの質を向上させる上で重要である。
- 単一モデルで複数タスクを扱う際，タスク固有のモデルを下回る性能となる場合がある。
- タスク間の相互作用とデータ規模を考慮した集約戦略を確立し，性能劣化を防ぐ。
- タスク集約の有効性は，学習データ規模に大きく依存することが示された。
- 臨床的にグループ化された学習は，データが豊富な環境では性能を向上させる可能性があるが，データが少ない環境では負の転移を引き起こす可能性がある。
- すべてのタスクを統合した学習は，臨床グループ間でより一貫した性能を示した。
Link: https://arxiv.org/abs/2603.18123
長距離相互作用のためのSO(3)同変な逆空間ニューラルポテンシャル [physics.chem-ph, cs.AI]目的：長距離相互作用を記述するためのSO(3)同変なニューラルポテンシャル
- 分子や凝縮相系の理解に不可欠だが，機械学習ポテンシャルとの親和性が低い。
- 既存のニューラルポテンシャルは，長距離の異方的な相関を正確に表現できない。
- SO(3)同変性を保ちつつ，長距離相互作用を物理的に整合的に記述すること。
- EquiEwaldは，Ewald法に着想を得た逆空間の定式化をSO(3)同変なフレームワークに組み込むことで，長距離の相関を捉える。
- 周期系および非周期系のベンチマークにおいて，ab initio計算結果と一致する長距離静電的挙動を示す。
- エネルギーと力の精度，データ効率，長距離外挿能力が向上し，物理的に整合的な機械学習ポテンシャルの新たなパラダイムを確立する。
Link: https://arxiv.org/abs/2603.18389