arXiv雑要約

AI - 2026/03/24 公開

長視野ツール使用エージェントのための強化学習の解明：包括的なレシピ [cs.LG, cs.CL]目的：長視野ツール使用エージェントに対する強化学習の適用可能性向上
- 大規模言語モデルを自律エージェントへと進化させる上で，強化学習は不可欠な技術である。
- 複雑な多段階環境において，強化学習を大規模に適用するための実用的な方法論が確立されていない。
- 複雑な環境における強化学習のスケーラビリティを向上させるための具体的な指針を提示すること。
- 報酬設計やアルゴリズム選択はモデルの規模に依存し，小規模モデルと大規模モデルでは最適な戦略が異なる。
- 約1000件の訓練データ（難易度のバランスが取れた混合データ）が，インドメインおよびアウトドメイン性能の最適化に貢献する。
- 環境の安定性が重要であり，不安定な環境はポリシーの劣化を引き起こす可能性がある。
Link: https://arxiv.org/abs/2603.21972
SecureBreak -- 安全で安全なモデルに向けたデータセット [cs.CR, cs.AI, cs.CL, cs.LG]目的：大規模言語モデルの安全性評価と改善のためのデータセット
- 大規模言語モデルは広く利用され，安全性確保が不可欠である。
- 既存の安全性対策では，jailbreakやprompt injectionなどの攻撃を完全に防げない。
- 安全性評価の質的フィードバックと，安全でない出力を阻止する防御層の構築を目指す。
- SecureBreakは，安全性に焦点を当てたデータセットであり，有害なLLM出力を検出するAIソリューションの開発を支援する。
- 手動アノテーションによる信頼性が高く，複数のリスクカテゴリにおいて安全でないコンテンツの検出性能に優れる。
- 事前学習済みLLMをSecureBreakでファインチューニングすることで，検出精度が向上する。
Link: https://arxiv.org/abs/2603.21975
BOOST-RPF: 放射状電力潮流のためのブースト系列木 [cs.LG, cs.SY, eess.SY]目的：放射状配電系統における電圧予測の精度向上
- 現代の配電系統では正確な電力潮流解析が不可欠であり，系統の安定運用に重要な役割を果たす。
- 従来の潮流ソルバーは計算量の問題があり，機械学習モデルは汎化性能に課題を抱える場合が多い。
- 本研究では，系統のトポロジー変化に強く，計算効率の良い電圧予測モデルを開発し，実用性を高める。
- BOOST-RPFは，配電系統を根から葉までのパスに分解し，勾配ブースト決定木を用いて局所的な電圧降下特性をモデル化する。
- Parent Residual変形が，標準的な精度と汎化性能のタスクにおいて，解析解やニューラルネットワークと比較して優れた結果を示す。
- BOOST-RPFは線形計算量を持ち，エッジごとの教師信号によりサンプル効率を向上させ，DSOアプリケーションへのスケーラブルな代替案を提供する。
Link: https://arxiv.org/abs/2603.21977
LRC-WeatherNet：自動運転におけるリアルタイムな気象タイプ分類のためのLiDAR，RADAR，カメラ融合ネットワーク [cs.CV, cs.AI]目的：自動運転におけるリアルタイムな気象タイプ分類のための手法
- 悪天候は自動運転の安全性に大きな影響を与えるため，正確な気象認識が不可欠である。
- 単一のセンサーでは，悪天候下で性能が低下するため，信頼性の高い気象認識が困難である。
- LiDAR，RADAR，カメラの情報を統合することで，悪天候下でもロバストな気象認識を実現することを目指す。
- 提案手法LRC-WeatherNetは，LiDAR，RADAR，カメラデータを統合し，気象条件のリアルタイムな分類を可能にする。
- MSU-4Sデータセットを用いた評価で，LRC-WeatherNetは，悪天候下において単一センサーによる手法を大きく上回る性能を示した。
- 本研究は，自動運転におけるロバストでリアルタイムな気象分類のために，LiDAR，RADAR，カメラを組み合わせた最初の試みである。
Link: https://arxiv.org/abs/2603.21987
TREX：多目的強化学習における軌跡の説明 [cs.LG, cs.AI]目的：多目的強化学習におけるポリシーの説明
- 現実世界の課題は単一の報酬では表現しきれないため，複数の目的を同時に最適化する必要がある。
- 強化学習モデルの不透明性が，目的のトレードオフの判断根拠を不明瞭にする。
- TREXは，軌跡の帰属に基づく説明によって，多目的強化学習ポリシーの意思決定プロセスを解明する。
- TREXは，学習済みエキスパートポリシーから軌跡を生成し，意味のある時間セグメントにクラスタリングする。
- セグメントの影響は，特定のクラスタを除外した補完的ポリシーを訓練することで定量化される。
- MuJoCo環境での実験により，特定の行動パターンを特定・定量化できることが示された。
Link: https://arxiv.org/abs/2603.21988
λ-GELU：深層ネットワークにおける制御されたReLU化のためのゲーティング硬さの学習 [cs.HC, cs.CY, cs.LG, cs.AI]目的：深層ネットワークにおけるゲーティング硬さの制御
- 深層学習モデルの効率的な展開と解析には，ReLUのような区分線形なネットワークが適している。
- GELUは滑らかな活性化関数だが，ReLU型ネットワークへの変換が困難である。
- GELUの硬さをパラメータ化し，ReLUへの制御された移行を可能にすること。
- 提案手法λ-GELUは，層ごとに異なるゲーティング硬さのプロファイルを示すことが確認された。
- 学習されたゲートを段階的に硬化させることで，ReLUへの置換が可能であり，精度低下を抑制できる。
- λ-GELUは，ゲーティング硬さを制御するための解釈可能なパラメータを提供する。
Link: https://arxiv.org/abs/2603.21991
CRPS最適化ビン分割による適合回帰 [cs.LG, stat.ML]目的：条件付き分布推定のための手法
- 不確実性の定量化は，リスク管理や意思決定において重要である。
- 既存手法では，計算コストや予測区間の幅に課題があった。
- CRPSを最小化することで，予測精度と計算効率を両立する。
- 提案手法は，LOO-CRPSを最小化するビン境界を効率的に決定する。
- 交差検証により最適なビン数を決定し，過学習を抑制する。
- 実データ実験で，既存手法よりも狭い予測区間を維持しつつ，適切なカバレッジを達成した。
Link: https://arxiv.org/abs/2603.22000
SegMaFormer：効率的なセグメンテーションのための状態空間とTransformerのハイブリッドモデル [cs.CV, cs.AI]目的：3D医療画像セグメンテーションのための効率的な長距離依存性モデリング手法
- 医療画像解析において，正確なセグメンテーションは診断や治療計画に不可欠であり，高精度なモデルが求められている。
- Transformerモデルは高性能だが，計算コストやパラメータ数が多く，限られたデータセットでの学習が課題となっている。
- 計算資源の制約下でも高精度なセグメンテーションを実現する，軽量なモデルの開発を目的とする。
- SegMaFormerは，MambaとTransformerを組み合わせたハイブリッドアーキテクチャにより，計算効率と性能の両立を達成した。
- パラメータ数を最大75倍，FLOPsを大幅に削減しつつ，既存の最先端モデルと同等のDice係数を実現した。
- Synapse，BraTS，ACDCの3つのベンチマークにおいて，競争力のある性能を実証した。
Link: https://arxiv.org/abs/2603.22002
ROM：ストリーミング検出と介入によるリアルタイムな過剰思考の軽減 [cs.CL, cs.LG, cs.AI, cs.CL]目的：大規模言語モデルにおける過剰思考の軽減
- 大規模言語モデルは高度な推論能力を持つが，その処理時間とコストが課題である。
- 大規模言語モデルは正解に達した後も冗長な思考を続け，遅延や誤りの原因となる。
- ストリーミング検出によるリアルタイムな介入で，過剰思考を軽減し効率を向上させる。
- ROMは，既存手法と比較して最高水準の精度（93.51%）を達成した。
- 応答長を47.2%短縮し，効率を121%改善した。
- ストリーミング検出は，リアルタイムな過剰思考軽減に有効なアプローチである。
Link: https://arxiv.org/abs/2603.22016
アディティブLLM2：アディティブマニファクチャリングのためのマルチモーダル大規模言語モデル [cs.LG]目的：アディティブマニファクチャリングにおけるマルチモーダル大規模言語モデルの開発
- アディティブマニファクチャリングは，製造業に革新をもたらす重要な技術である。
- アディティブマニファクチャリング分野特有の知識を大規模言語モデルに組み込むことが課題となっていた。
- 特定分野への大規模言語モデルの適用を容易にする専門化手法を確立すること。
- 開発されたアディティブLLM2は，言語と画像の両方のタスクで高い性能を示し，アディティブマニファクチャリングの知識に関する精度が90%を超えた。
- 比較的少ない5000万トークンのデータセットを用いたドメイン適応型事前学習と視覚的指示チューニングの戦略が有効であることが示された。
- この研究は，アディティブマニファクチャリングのような特定分野への大規模言語モデルの専門化のためのアクセスしやすい方法を示す。
Link: https://arxiv.org/abs/2603.22017
論文とコードは一致するか？バイオインフォマティクスのソフトウェアにおける論文とコードの一貫性検出のためのベンチマークとフレームワーク [cs.LG, cs.SE]目的：バイオインフォマティクスのソフトウェアにおける論文とコードの一貫性検出
- ソフトウェアの信頼性と科学的再現性は重要であり，そのためには論文と実装の一致が不可欠である。
- バイオインフォマティクス分野では，論文中の記述と実際のコード実装の乖離が頻繁に発生している。
- 論文とコードの間の一貫性を自動的に検証できるベンチマークとフレームワークを構築すること。
- 本研究では，バイオインフォマティクス分野における論文とコードの一貫性検出のための最初のベンチマークデータセット「BioCon」を構築した。
- 提案するフレームワークは，自然言語とコード間の意味的関係をモデル化し，高い精度（0.9056）とF1スコア（0.8011）を達成した。
- この研究は，科学ソフトウェアにおける再現性評価とクロスモーダル理解のための新たな研究方向を開拓する。
Link: https://arxiv.org/abs/2603.22018
ベイズニューラルネットワーク事後分布における事前分布と過剰パラメータ化の相互作用 [cs.LG, stat.ML]目的：ベイズニューラルネットワーク事後分布の形状変化
- 不確実性推定が重要視される現代において，ベイズニューラルネットワークは有効な手法である。
- ベイズニューラルネットワークの事後分布は対称性により断片化し，高次元化する問題がある。
- 過剰パラメータ化と事前分布が事後分布に与える影響を解明し，理解を深める。
- 過剰パラメータ化は，事後分布の形状を特徴づける３つの現象（均衡性，重み再配分，事前分布への適合性）を引き起こす。
- 事後分布サンプリング予算を大幅に増やした実験により，これらの現象が確認された。
- 過剰パラメータ化は，事前分布と整合性のとれた構造化された重み事後分布を誘導することが示された。
Link: https://arxiv.org/abs/2603.22030
braid理論を用いた未来の相互作用を考慮した軌跡予測 [cs.AI]目的：複数エージェント間の軌跡予測
- 自動運転の安全性確保には，周囲の多数の相互作用するエージェントの未来行動の予測が不可欠である。
- 従来の社会性モデリングは，計算コストが高いか，多重エージェント行動のラベリングにヒューリスティックに依存している。
- braid理論の表現力を活用し，軌跡予測モデルに社会性を付与することで，予測精度を向上させる。
- braid表現を条件として軌跡を予測する新しい補助タスク「 braid予測」を提案した。
- braid予測タスクは，エージェント間の交差タイプを分類することで，モデルに優れた社会性をもたらす。
- 3つのデータセットで，複数の評価指標において有意な改善が確認された。
Link: https://arxiv.org/abs/2603.22035
RAFL：残差加速度場学習によるソフトロボットの汎化Sim-to-Real [cs.RO, cs.LG]目的：ソフトロボットにおけるSim-to-Realの汎化手法
- ソフトロボットの設計・制御は，柔軟性を活かした多様な応用が期待され，重要性が増している。
- シミュレーションと実機の乖離が課題であり，特に形状が設計変数である場合に顕著となる。
- 残差加速度場学習により，形状に依存しない汎化性能を実現し，シミュレーション精度を向上させる。
- 提案手法RAFLは，ベースシミュレータに要素レベルの補正力学場を付加し，未知の形状に対しても高い性能を示す。
- システム同定と比較して，RAFLはゼロショット学習で一貫して改善が見られ，負の転移が少ない。
- 継続的な改良が可能であり，形状最適化中にシミュレーション精度を累積的に向上させることができる。
Link: https://arxiv.org/abs/2603.22039
双曲視覚言語モデルにおける不確実性に基づく構成的アラインメントと部分-全体意味表現性の活用 [cs.CV, cs.AI]目的：双曲視覚言語モデルにおける部分-全体意味表現性のモデリング
- 視覚言語モデルの性能向上は，画像とテキストの理解において重要である。
- 従来のモデルは，部分-全体のような階層構造の捉え方に課題がある。
- 部分-全体の意味表現性を考慮し，より精度の高いアラインメントを目指す。
- 提案手法UNCHAは，不確実性を活用し，部分-全体の関係をより正確にモデル化する。
- UNCHAは，より代表的な部分に低い不確実性を，そうでない部分に高い不確実性を割り当てる。
- その結果，ゼロショット分類，検索，マルチラベル分類のベンチマークで最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.22042
AnimalCLAP：タクソノミーを意識した言語・音声事前学習による種認識と特性推論 [cs.SD, cs.LG]目的：野生動物の種認識と特性推論
- 野生動物の個体数調査や生態モニタリングにおいて，音声は重要な情報源となる。
- 訓練データに存在しない種に対する認識精度が課題となっていた。
- タクソノミー構造を利用し，未知の種の認識精度向上を目指す。
- 提案手法AnimalCLAPは，6,823種，4,225時間の音声データセットを用いて学習された。
- AnimalCLAPは，音声とテキスト表現をタクソノミー構造に基づいて整合させることで，未知種に対する認識性能を向上させている。
- 種の声から直接，生態的・生物学的特性を推論する性能がCLAPよりも優れていることが示された。
Link: https://arxiv.org/abs/2603.22053
多方向的拒否除去におけるトピック一致コントラストベースラインの失敗について [cs.LG, cs.AI]目的：指示調整済み言語モデルからの拒否行動の除去における拒否媒介方向の抽出
- 言語モデルの安全性確保は，社会実装における重要な課題である。有害な応答を抑制し，安全な利用を促進する必要がある。
- 既存研究では，コントラストベースラインの構築が軽視され，手法の妥当性検証が不十分な場合がある。
- 本研究は，トピック一致コントラストが有効な拒否方向を生成しない原因を特定し，除去手法の改善を目指す。
- トピック一致コントラストは，どの層においても機能的な拒否方向を生成しなかった。
- 一方，トピック不一致コントラストは，6つの層で完全な拒否除去を達成した。
- トピック一致減算は，有害・無害プロンプト間の共通活性化成分を打ち消し，拒否方向の大きさを低下させる。
Link: https://arxiv.org/abs/2603.22061
多目的再ランク付けにおけるパレート最適嗜好の学習と転移 [cs.IR, cs.NE]目的：多目的再ランク付けのためのパレート最適嗜好の学習と転移
- 推薦システムにおいて，精度だけでなく多様性や公平性といった複数の目的を同時に最適化することが重要になっている。
- 既存手法では，静的または手動で設定された重みを用いて目的関数を最適化するため，ユーザー固有の嗜好が反映されにくい。
- 本研究では，ユーザー間で共通する嗜好構造を活用し，効率的な知識転移による多目的再ランク付けを目指す。
- 提案手法PreferRecは，ユーザーの意図レベルで複数の目的間のトレードオフを捉えるパレート最適嗜好学習を行う。
- 知識誘導転移により，ユーザー間で共通する最適化パターンを効率的に転移し，再ランク付けの精度向上に貢献する。
- PreferRecは，パレート最適解の高品質な領域への最適化を促しつつ，ユーザー固有の嗜好特性を維持する。
Link: https://arxiv.org/abs/2603.22073
MIHT：多インスタンス学習を用いた時系列分類のためのHoeffding木 [cs.LG]目的：多変量かつ可変長の時系列データの分類
- 現実世界の多くの問題で時間的データが普及しており，その内在する依存関係から時系列分類は重要である。
- 既存のモデルは，可変長または高次元の時系列データに対して十分な性能を発揮できない場合がある。
- 本研究は，複雑な時系列データの分類において，精度と解釈可能性を向上させることを目指す。
- 提案手法MIHTは，28の公開データセットにおいて，11の最先端時系列分類モデルを上回る性能を示した。
- MIHTは，「サブ系列の袋」という新しい時系列表現と，インクリメンタル決定木に基づく最適化プロセスを用いる。
- 生成された決定木は，時系列データの概念をコンパクトかつ解釈可能な形で表現し，重要な変数とセグメントを特定する。
Link: https://arxiv.org/abs/2603.22074
デジタルツインMDPに基づくエンタープライズAIエージェント改善のためのコンテキストエンジニアリングフレームワーク [cs.CL, cs.RO, cs.AI]目的：エンタープライズAIエージェントの性能改善
- 企業における自動化や意思決定においてAIエージェントの重要性が増している。
- データ不足，複雑な推論，自己学習の難しさ，信頼性の低いフィードバックなどが課題である。
- オフライン強化学習により，データ制約下でのAIエージェントの性能向上を目指す。
- 提案フレームワークは，デジタルツインMDPを用いてエージェントの推論行動を抽象化する。
- コントラスティブ逆強化学習により，オフラインデータから報酬関数を推定し，ポリシーを誘導する。
- IT自動化タスクにおける実験結果は，ベースラインエージェントと比較して一貫して性能が向上することを示した。
Link: https://arxiv.org/abs/2603.22083
GSEM：経験に基づく臨床推論のためのグラフベース自己進化型メモリ [eess.SY, cs.SY, cs.AI]目的：臨床経験の再利用
- 臨床判断支援システムは，過去の事例活用で精度向上が期待される。
- 既存手法では，経験を独立した記録として扱うため，ノイズ混入や再利用の信頼性低下が生じることがある。
- 臨床経験間の関係性を捉え，適切な事例検索と品質評価を行うことで，判断精度を向上させる。
- GSEMは，臨床経験を二層グラフ構造で組織化し，事例内の意思決定構造と経験間の関係性を捉える。
- MedR-BenchおよびMedAgentsBenchにおいて，DeepSeek-V3.2とQwen3.5-35Bを用いて，既存手法中最高の精度を達成した。
- DeepSeek-V3.2では70.90%，Qwen3.5-35Bでは69.24%の平均精度を記録した。
Link: https://arxiv.org/abs/2603.22096
SpecTM：信頼性の高い基盤モデルのためのスペクトルターゲットマスキング [cs.AI, cs.LG]目的：地球観測のための基盤モデルにおける信頼性向上
- 地球観測は，公共の健康に関わる予測モデルの精度に影響するため，重要性が高い。
- 既存の基盤モデルは，物理法則を考慮しない確率的なマスキングに依存しており，信頼性に課題がある。
- 物理情報を組み込んだマスキング手法により，予測精度と解釈可能性の向上を目指す。
- SpecTMは，レイクエリーのNASA PACEハイパースペクトル画像を用いたマイクロシスチン濃度回帰モデルにおいて，既存モデルを大きく上回る性能を示した。
- ターゲットマスキングは，ランダムマスキングと比較して，予測精度を0.037のR^2値向上させた。
- SpecTMは，ラベル効率においても既存モデルを2.2倍上回り，データ不足時の有効性も示唆された。
Link: https://arxiv.org/abs/2603.22097
LLMの推論に対するRLVR更新の方向性：特定と活用 [cs.HC, cs.LG, cs.AI]目的：LLMの推論能力に対するRLVR更新の方向性の重要性の特定と，その活用方法
- 大規模言語モデルの推論能力向上は，AI研究の重要な課題である。複雑な問題解決に不可欠な能力だから。
- RLVRによる更新は疎だが，その効果を測る指標は更新の大きさのみに注目し，方向性は軽視されてきた。
- 更新の方向性を考慮することで，RLVRの効果をより深く理解し，推論能力を効率的に向上させることを目指す。
- 更新の方向性を示す$\Delta\log p$が，従来の指標よりも重要な更新を特定できることが示された。
- テスト時に$\Delta\log p$方向にポリシーを増幅することで，追加学習なしに推論精度を向上させる手法が提案された。
- 学習時に低確率トークンに焦点を当てることで，様々なモデルやベンチマークで推論性能が向上することが確認された。
Link: https://arxiv.org/abs/2603.22117
Mamba-VMR：生成動画によるマルチモーダルクエリ拡張を用いた高精度な時間的局所化 [cs.CV, cs.AI]目的：動画の時間的局所化の精度向上
- 動画検索技術は，映像コンテンツの利用において不可欠であり，その精度向上が求められている。
- 従来の動画検索は，動画の長いシーケンスにおける時間的なダイナミクスの捉えにくさが課題であった。
- 本研究は，生成された動画を用いてクエリを拡張し，時間的局所化の精度を向上させることを目指す。
- 提案手法では，LLMによる字幕のマッチングとテキストから動画への生成を活用し，時間的な情報を補完する。
- マルチモーダル制御Mambaネットワークを用いることで，生成された情報を効率的に統合し，ノイズを抑制する。
- TVRベンチマークでの実験により，最先端手法と比較して計算コストの削減と高い再現率が確認された。
Link: https://arxiv.org/abs/2603.22121
予測に対する頻度主義的限界を持つ計算負荷の少ない分類器 [cs.RO, eess.SY, cs.SY, cs.LG, stat.ML]目的：予測に対する頻度主義的限界を持つ計算負荷の少ない分類器の開発
- 安全性が必要な応用において，予測の不確実性を評価することは重要である。
- 既存の不確実性を提供する分類器は計算コストが高く，大規模データには適用が困難である。
- 計算効率が高く，実用的な不確実性評価が可能な分類器を開発する。
- 本手法は，$\mathcal{O}(n)$および$\mathcal{O}(\log n)$の計算量で96%以上の高い精度を達成する。
- 予測の不確実性の限界を提供し，低信頼度の予測を特定することが可能となる。
- 診断モニタリングや埋め込み型デバイスなど，リソース制約のあるリアルタイム設定への応用が期待される。
Link: https://arxiv.org/abs/2603.22128
複数AIによる助言における意思決定の正確性と同調圧力のバランス [cs.HC, cs.AI]目的：複数AIからの助言が人間の意思決定に与える影響
- AI技術の発展により，複数AIからの助言が意思決定支援として期待されている。
- AI助言の集約は同調圧力を生み，過度な依存につながる可能性がある。
- 複数AI助言が人間の意思決定を改善するための条件を明らかにすること。
- 小規模なAIパネルは単一のAIと比較して意思決定の正確性を向上させた。
- AIパネル内の意見一致度が高いと，参加者はAI助言に過度に依存する傾向があった。
- AI助言の提示方法において，人間らしい表現は有用性と主体性を高める効果があった。
Link: https://arxiv.org/abs/2603.22152
タイル照合を超えて：UAV自律ナビゲーションのための空中画像と衛星画像のずれの解消 [cs.CV, cs.AI]目的：UAVの絶対位置と姿勢の同時予測
- GNSSが利用できない環境下でのUAVナビゲーションにおいて，視覚情報に基づく自己位置推定技術の重要性が増している。
- 既存手法は，オンボードマップタイルとの照合に依存しており，精度とストレージ容量のトレードオフが存在する。
- クロスビューのずれやオーバーラップを考慮し，よりロバストで汎用性の高いナビゲーションを実現する。
- 提案手法Bearing-UAVは，グローバルおよびローカルな構造的特徴と相対的な空間関係を明示的に符号化することで，クロスビューの変動や特徴点の疎さに強い。
- 様々な地形における実証実験の結果，Bearing-UAVは既存の照合/検索方式と比較して，より低い局所化誤差を示すことが確認された。
- 大規模なマルチシティベンチマークBearing-UAV-90kを新たに構築し，公開することで，今後の研究の発展に貢献する。
Link: https://arxiv.org/abs/2603.22153
dynActivation: 適応的非線形性のための学習可能な活性化関数ファミリー [cs.LG, cs.CV]目的：深層学習における適応的非線形性の実現
- 深層学習モデルの性能向上には，適切な活性化関数の選択が不可欠である。
- 従来の活性化関数は固定されており，層の深さやタスクに応じて最適なものが異なる。
- 層ごとに学習可能な活性化関数を導入し，より適応的な非線形性を実現する。
- 提案手法 dynActivation は，ReLU に比べて最大 54% の学習効率向上を実現した。
- CIFAR-10 において，dynActivation(Mish) は静的 Mish より最大 14.02% の性能向上を示した。
- 言語モデリングにおいても，dynActGLU 変種は SwiGLU に対して 10.3% の相対的なパープレキシティ減少を実現した。
Link: https://arxiv.org/abs/2603.22154
RAMPAGE：バイアス軽減勾配外挿のためのランダム中間点法 [cs.LG, math.OC]目的：変分不等式におけるバイアス軽減勾配外挿法の開発
- 最適化問題解決において，変分不等式は重要な役割を担う。効率的な解法は広範な応用を可能とする。
- 既存のExtragradient法は，非線形なベクトル場において離散化バイアスに起因する精度低下が課題となっていた。
- 本研究は，離散化バイアスを解消し，より正確かつ効率的な変分不等式の解法を提示することを目的とする。
- 提案手法RAMPAGEおよびRAMPAGE+は，既存手法EGと比較して，バイアスがないことが示された。
- RAMPAGE+は，負の相関性を活用することで，RAMPAGEよりも分散を低減し，より高速な収束を実現する。
- 様々な条件下で，本手法は$\mathcal{O}(1/k)$の収束保証を持つことが証明され，制約付き変分不等式やゲームにも適用可能である。
Link: https://arxiv.org/abs/2603.22155
局所展開可能な大規模言語モデルを用いた多変量生存時間解析 [cs.LG, cs.AI]目的：多変量生存時間解析における臨床テキスト，表形式の共変量，ゲノムプロファイルの統合
- 医療分野において，患者の予後予測は治療方針決定や患者ケアに不可欠である。
- 既存手法では，データの多様性や複雑性を十分に捉えきれない場合がある。
- 計算資源やプライバシー制約下でも高精度な予後予測を可能とする手法の開発。
- 本研究では，局所展開可能な大規模言語モデル（LLM）を用いることで，クラウドサービスへの依存を回避し，プライバシー懸念を軽減した。
- TCGAコホートを用いた評価では，標準的なベースラインモデルを上回り，生存確率の較正精度と根拠に基づいた予後テキストの生成性能が確認された。
- LLM特有の幻覚や誤った較正といったリスクを軽減し，より信頼性の高い予後予測を実現した。
Link: https://arxiv.org/abs/2603.22158
言語モデルが行動を制御するために自信を利用する因果的証拠 [cs.LG]目的：言語モデルにおける自信の利用と行動制御の関係
- 言語モデルの自律性は重要であり，不確実性を認識する能力は不可欠である。
- 言語モデルが自身の判断に対する自信をどのように利用しているのかが不明であった。
- 言語モデルが自信に基づいて行動を調整するメカニズムを解明すること。
- 言語モデルは内部的な自信の推定値に基づいて回答するかどうかを決定する閾値を暗黙的に設定していることが示された。
- 内部自信信号を操作することで，棄権率が変化することから，自信が行動制御に因果的に影響することが確認された。
- モデルは指示された閾値に基づいて棄権ポリシーを体系的に変化させることが可能であり，生物のメタ認知制御と類似している。
Link: https://arxiv.org/abs/2603.22161
キャリブレーションの簡素化 [cs.LG, cs.AI, cs.GT, econ.TH]目的：外部予測のオンライン事後処理による累積損失の最小化と情報量のベンチマークとの一致
- 予測の精度向上は意思決定の質に直結し，様々な分野で重要な課題である。
- 従来のキャリブレーション手法は特定の損失関数に依存し，汎用性に欠ける点が課題であった。
- 一般的な適切な損失関数に対して，オンライン学習技術を用いたキャリブレーションの最適化を目指す。
- キャリブレーションを後悔最小化と同等であることを示し，Brier損失とlog損失に対する既存の$O(\log T)$レートを再確認した。
- mixable損失や一般の有界損失に対する新たな最適キャリブレーションレートを導出した。
- Brier損失におけるキャリブレーションとキャリブレーションの同時達成に関する新たな上限を確立し，二値予測において最適なレートを達成するアルゴリズムを提示した。
Link: https://arxiv.org/abs/2603.22167
心臓診断と管理のためのエージェント型マルチモーダル視覚言語モデル MARCUS [cs.RO, cs.MA, cs.HC, cs.RO, cs.AI]目的：心臓疾患の診断と管理を目的としたエージェント型マルチモーダル視覚言語モデルの開発
- 心血管疾患は世界的な死亡原因の第1位であり，その診断・治療の進歩は重要である。
- 既存のAI視覚言語モデルは単一の入力モダリティに限定され，インタラクティブ性がないという課題がある。
- 本研究では，複数の心臓検査モダリティを統合し，より高度な診断・管理を可能にすることを目的とする。
- MARCUSは，心電図，心エコー，心臓MRIなどの複数のモダリティを統合し，最先端の性能を達成した。
- 単一モダリティにおいても，既存モデルを34-45%上回る精度を示し，特にマルチモーダルケースでは高い精度を誇る。
- エージェント型アーキテクチャにより，誤った推論や幻覚を防ぎ，堅牢な性能を実現している。
Link: https://arxiv.org/abs/2603.22179
量子コード生成の再検討：ドメイン知識はどこに存在すべきか [cs.RO, cs.LG, quant-ph]目的：量子ソフトウェア開発におけるLLMベースのアシスタントの性能向上
- 量子ソフトウェア開発は急速に進展しており，複雑な抽象化を伴うため，開発支援が重要である。
- ライブラリが進化する中で，ドメイン知識をLLMに組み込みつつ，保守性を維持することが課題である。
- LLMベースのアシスタントにおいて，ドメイン知識の組み込み位置を最適化し，柔軟性と保守性を両立させる。
- 最新の汎用LLMは，パラメータ特化型ファインチューニングベースラインを一貫して上回る性能を示す。
- 特に，反復実行フィードバックを備えたエージェント型推論は，性能を大幅に向上させる。
- ドメイン特化型ファインチューニングなしに，推論時の拡張によって性能向上が可能となり，量子ソフトウェア開発の柔軟性と保守性を高める。
Link: https://arxiv.org/abs/2603.22184
フィルタリングされた合成コーパスと二段階LLM適応によるドキュメントレベル機械翻訳の強化 [cs.CL, cs.AI]目的：ドキュメントレベル機械翻訳の性能向上
- 機械翻訳はグローバルコミュニケーションにおいて不可欠であり，高品質な翻訳システムの開発が求められている。
- LLMは文脈モデリングに優れる一方，幻覚や省略といった問題があり，ドキュメントレベル翻訳への適用が限定的である。
- 大規模かつ高品質なドキュメントレベル並列データの不足と，LLMの生成時の問題を解決すること。
- 要約データをLLMを用いてドキュメントレベルの並列データに変換し，sacreBLEU，COMET，LaBSEなどの指標でフィルタリングすることでデータ品質を向上させた。
- まず文レベルの機械翻訳リソースでファインチューニングを行い，次にフィルタリングされたドキュメントレベルコーパスでファインチューニングする二段階戦略を採用した。
- 提案手法により，ドキュメントレベル翻訳におけるLLMの性能を向上させ，幻覚や省略を抑制することが示された。
Link: https://arxiv.org/abs/2603.22186
見ることで改善：反復的なテキストレイアウト改良のための視覚的フィードバック [cs.CV, cs.AI]目的：反復的なテキストレイアウトの改良
- 自然言語から構造化されたレイアウトを自動生成する技術は，デザインの効率化に貢献する。
- 既存手法は視覚的な結果を考慮せず，可読性や美観の保証が課題である。
- 視覚的フィードバックを活用し，レイアウトの質を反復的に向上させることを目指す。
- 提案手法VFLMは，視覚情報に基づいた自己改善により，より高品質なレイアウトを生成する。
- 強化学習とOCR精度に基づいた報酬モデルにより，反復的な生成能力を効果的に促進する。
- 複数のベンチマークで，既存の最先端モデルやコードベースラインを上回る性能を示す。
Link: https://arxiv.org/abs/2603.22187
多様なLLMに対する遅延と性能を考慮したマルチエージェントサービングシステム Chimera [cs.RO, cs.CG, math.CO, cs.LG]目的：異種LLMクラスターにおけるマルチエージェントワークフローサービングの予測スケジューリング
- LLMを活用したマルチエージェントアプリケーションの需要が増加しており，効率的な実行が重要である。
- 既存のLLMサービングシステムは均一なクラスタを前提としており，異種環境での性能最適化が課題である。
- 異種LLMクラスターにおける，遅延と性能のトレードオフを最適化するスケジューリング手法を確立すること。
- Chimeraは，リクエストごとのモデル信頼度推定，ワークフロー残りの出力長予測，およびフライト中のトークン量に基づく混雑予測を行う。
- コード生成と数学推論のワークフローにおいて，Chimeraは競合するベースライン（vLLMなど）と比較して，エンドツーエンドの遅延を1.2～2.4倍削減し，タスク性能を平均8.0～9.5パーセント向上させた。
- Chimeraは，遅延と性能の最適なバランスを実現し，異種LLM環境におけるマルチエージェントサービングの効率化に貢献する。
Link: https://arxiv.org/abs/2603.22206
知識注入のためのシンプルだが強力なベースライン：SPA [cs.LG, cs.AI, cs.CL]目的：知識注入のための大規模合成データ生成手法
- 大規模言語モデルの知識は限定的であり，専門分野では知識注入の必要性が高まる。
- 既存手法は，規模拡大に伴う多様性の低下や，プロンプト調整による効果の消失といった課題がある。
- 慎重なプロンプト設計と大規模なデータ拡張を組み合わせることで，効果的な知識注入を目指す。
- 提案手法SPAは，既存の強固なベースラインを上回る性能を示すことが確認された。
- 強化学習ベースの手法は小規模では効率的だが，規模拡大により多様性が低下する傾向がある。
- 多段階プロンプトは単純な拡張手法より優位性を示す場合があるが，慎重な調整により差はなくなる。
Link: https://arxiv.org/abs/2603.22213
大規模言語モデルによる自動判断システムの信頼性と忠実性の評価 [cs.CR, cs.AI, cs.LG]目的：大規模言語モデルを審査員として用いた機械学習モデルの品質評価
- 言語モデルの品質と安全性評価は，その幅広い応用範囲から不可欠である。
- 従来の人間による評価は，時間とコストがかかり，一貫性に課題がある。
- 言語モデルを審査員として用いることで，評価の自動化と効率化を目指す。
- 適切なプロンプトを用いることで，言語モデルは人間による評価と高い相関性を示すことが示された。
- 特にGPT-4oや32B以上のパラメータを持つオープンソースモデル，Qwen2.5 14Bなどで高い性能が確認された。
- 第二レベルの審査員の概念や，タスクに特化したファインチューニングモデルも有効であることが示唆された。
Link: https://arxiv.org/abs/2603.22214
並列テキスト生成のためのガンベル蒸留 [cs.CL, cs.LG]目的：並列テキスト生成における生成品質の向上
- 言語モデルの並列化は処理速度向上に不可欠だが，品質低下が課題となっている。
- 非自己回帰モデルは複雑なトークン列の同時分布を捉えにくく，品質が劣る場合がある。
- ガンベル蒸留によって，並列デコーダが自己回帰モデルの分布を効果的に学習することを目指す。
- ガンベル蒸留は，潜在空間のガンベルノイズを教師モデルの出力トークンへマッピングする。
- LM1BとOpenWebText実験で，並列言語モデルの生成品質が大幅に向上した。
- OpenWebTextデータセット上でのMDLMと比較で，MAUVEスコアが30.0%，生成パープレキシティが10.5%改善。
Link: https://arxiv.org/abs/2603.22216
ノイズ滴定：確率的時系列予測のための厳密な分布ベンチマーク [cs.LG, stat.ML]目的：確率的時系列予測におけるモデルのロバスト性の厳密な評価
- 時系列予測は，経済や気象など様々な分野で不可欠であり，予測精度向上が重要である。
- 従来の評価方法は，過去の単一の軌跡観察に依存しており，非定常性への耐性の検証が困難である。
- 介入的なベンチマークにより，モデルの分布推論能力を厳密に評価し，ロバスト性を向上させる。
- 本研究では，ノイズ滴定という新しいパラダイムを提案し，厳密な統計的ベンチマークを可能とした。
- 最新のゼロショット基盤モデルは，非定常な変化やノイズの増加に対して性能が低下する傾向が見られた。
- 一方，Fernアーキテクチャは，基盤となるダイナミクスの不変測度と多変量幾何学を捉え，高い精度と統計的信頼性を維持した。
Link: https://arxiv.org/abs/2603.22219
Dyadic：人間同士および人間とAIの会話研究のためのスケーラブルなプラットフォーム [cs.HC, cs.AI, cs.CL]目的：人間同士および人間とAIの会話研究のためのプラットフォーム
- 会話は社会生活において不可欠であり，その実証研究には適切なツールが求められる。
- 既存のツールは，モジュール性が低く研究者のニーズに対応しにくいという課題があった。
- 研究者の制約を緩和し，会話研究を促進するためのツールを提供すること。
- Dyadicは，テキストベースまたは音声ベースのチャットを用いた人間同士および人間とAIの会話研究を可能にする。
- 本プラットフォームは，マルチモーダル性，AIによる提案，リアルタイムモニタリング，アンケート機能など，多様な機能を提供する。
- Dyadicは，プログラミングの知識がなくても利用でき，既存のアンケートプラットフォームとの連携も可能である。
Link: https://arxiv.org/abs/2603.22227
SpatialReward：テキスト画像生成における詳細な空間的一貫性のための検証可能な空間報酬モデリング [cs.CV, cs.AI]目的：テキスト画像生成における空間的一貫性向上
- 近年，テキスト画像生成技術が発展しているが，生成画像の質を向上させるためには，より高度な報酬モデルが不可欠である。
- 既存の報酬モデルは，オブジェクトの配置に関する詳細な空間関係の評価が不十分であり，不正確な配置が発生しやすい。
- 本研究は，空間レイアウトを評価する検証可能な報酬モデルSpatialRewardを開発し，生成画像の空間的一貫性を向上させることを目指す。
- SpatialRewardは，プロンプトからエンティティ，属性，空間メタデータを抽出し，オブジェクトの位置と属性を正確に検出し，複雑な空間関係を評価する。
- 新たにSpatRelBenchというベンチマークを導入し，生成画像の空間関係を包括的に評価することで，検証の効果を示した。
- Stable DiffusionとFLUXを用いた実験により，SpatialRewardをRL訓練に組み込むことで，空間的一貫性と全体的な生成品質が向上することが確認された。
Link: https://arxiv.org/abs/2603.22228
一つのモデル，二つの市場：入札を意識した生成型推薦 [cs.IR, cs.AI, cs.GT, cs.LG]目的：入札を考慮した生成型推薦システムの構築
- 推薦システムは，情報過多な現代において，ユーザーが必要な情報に効率的にアクセスするための重要な技術である。
- 既存の生成型推薦システムは，広告収益化や入札価格の組み込みといった商業的な側面に十分対応できていない。
- 広告表示の判断とアイテムの選択を分離し，入札価格を生成プロセスに組み込むことで，収益性の高い推薦を実現する。
- GEM-Recは，広告の関連性とプラットフォームの収益を同時に最適化できることを示した。
- 制御トークンと入札を意識したデコーディングにより，過去の広告掲載実績を反映した効果的な広告配置パターンを学習可能となった。
- 入札額の高さが広告表示の可能性を高めるという単調性も保証され，モデルの再学習を必要としない。
Link: https://arxiv.org/abs/2603.22231
ShapDBM：シャプレー空間における決定境界マップの探求 [cs.HC, cs.LG]目的：機械学習の分類境界の可視化
- 機械学習モデルの解釈可能性向上は，信頼性と応用範囲拡大に不可欠である。
- 高次元データにおける決定境界マップの品質は，次元削減技術に大きく依存する。
- シャプレー空間への変換により，次元削減を改善し，決定境界マップの可視化を容易にすること。
- 提案手法により生成された決定境界マップは，従来のマップと同等か高い品質を示す。
- シャプレー空間を用いることで，よりコンパクトで探索しやすい決定領域が可視化された。
- 複雑な機械学習データセットにおいて，次元削減による混合クラスの発生を抑制した。
Link: https://arxiv.org/abs/2603.22235
拡散言語モデルにおける確信度に基づくデコーディングは証明的に効率的である [cs.CL, cs.LG, cs.AI, cs.IT, math.IT, stat.ML]目的：拡散言語モデルにおける確信度に基づくデコーディングの効率性
- 自然言語処理の分野において，効率的なテキスト生成は重要な課題である。
- 拡散言語モデルは柔軟な生成が可能だが，デコーディング戦略が効率に大きく影響する。
- 本研究は，確信度に基づくデコーディング戦略の理論的根拠を確立し，効率向上を目指す。
- 提案手法は，ターゲットデータ分布のエントロピーを用いて，ε-精度のサンプリングを実現する。
- 特に，データ分布のエントロピーが低い場合に，サンプリングの高速化が期待できる。
- この結果は，確信度に基づくデコーディングの理論的基盤を提供し，より効率的なデコーディング戦略の設計に貢献する。
Link: https://arxiv.org/abs/2603.22248
時間制御可能な対話モデルの訓練法：TiCo [cs.DC, cs.CL, cs.CG, math.CO, cs.RO, cs.RO, cs.CL, cs.AI, eess.AS]目的：音声対話モデルの時間制約された指示への追従と，応答時間の制御
- 音声アシスタント等の実用系システムにおいて，応答時間は対話の質に大きく影響する。
- 既存の対話モデルは時間的認識に乏しく，応答時間に関する指示に正確に従うことが難しい。
- 応答時間を制御し，より自然で使いやすい対話システムの実現を目指す。
- TiCoは，対話モデルが生成中に経過時間を推定し，応答時間を調整することで，時間制約への適合性を向上させる。
- わずかなデータと自己生成，強化学習を用いることで，効率的な時間制御を実現する。
- 実験結果から，応答品質を維持しつつ，時間制約への準拠が大幅に改善されることが示された。
Link: https://arxiv.org/abs/2603.22267
探索と方策最適化の分離：困難な探索のための不確実性に基づく木探索 [cs.LG]目的：困難な環境下での効率的な探索手法
- 自律的な探索は，ロボット工学やAIにおいて重要な課題であり，未知の環境での学習を可能にする。
- 従来の強化学習に基づく探索は，方策最適化のオーバーヘッドが大きく，効率が低いという問題がある。
- 方策最適化の負担を軽減し，より効率的な探索を実現することで，困難な環境での学習を促進する。
- 提案手法は，探索と利用を明示的に分離し，木探索と不確実性に基づく探索を行うことで，従来の強化学習ベースラインと比較して探索効率を大幅に向上させた。
- 発見された軌跡は，既存の教師あり学習アルゴリズムを用いて実用的な方策に変換可能であり，Montezuma's Revengeなどで最先端の結果を達成した。
- MuJoCoやAntMazeといった高次元連続行動空間においても，画像観測のみを用いて，専門家の知識やオフラインデータセットなしで問題を解決した。
Link: https://arxiv.org/abs/2603.22273
DoRAのスケーリング：ファクター化されたノルムと融合カーネルによる高位適応 [cs.LG, stat.ML]目的：高位DoRAの実用性と効率性の向上
- 大規模言語モデルの適応は，計算資源の制約が課題となる。
- DoRAは効率的な適応手法だが，高位適応時にメモリ消費量が課題となる。
- メモリ効率を高め，高速化を実現するDoRAの実装方法を提案する。
- 提案手法は，DoRAのノルム計算を効率化し，メモリ消費量を削減する。
- 融合カーネルにより，メモリトラフィックを削減し，推論と勾配計算を高速化する。
- 様々なモデルとGPUで，提案手法は既存実装と比較して1.5～2.7倍高速化を達成した。
Link: https://arxiv.org/abs/2603.22276
視覚言語モデルにおける空間推論の二重メカニズム [cs.CV, cs.LG]目的：視覚言語モデルにおける空間的関連性の表現メカニズムの解明
- 画像キャプション生成や視覚的質問応答など，多様なマルチモーダルタスクにおいて空間認識は不可欠である。
- 視覚言語モデルがどのように物体と空間関係を結び付けているか，その詳細なメカニズムは未だ不明である。
- 視覚言語モデルにおける空間推論のプロセスを明らかにし，性能向上に貢献すること。
- 視覚言語モデルは，空間的関連性を表現するために，言語モデルと視覚エンコーダという二つのメカニズムを利用している。
- 言語モデルは，視覚トークンに基づき空間関係を表現するが，予測への影響は限定的である。
- 重要な空間情報は主に視覚エンコーダから得られ，物体配置が言語モデルに活用される。また，その信号は物体領域だけでなく，背景領域にも広範囲に分布する。
Link: https://arxiv.org/abs/2603.22278