arXiv雑要約

AI - 2026/03/11 公開

適応的な思考連鎖圧縮による効率的な推論：自己最適化フレームワーク [cs.SE, cs.AI, cs.CL]目的：思考連鎖圧縮を通じた効率的な推論手法
- 大規模言語モデルの性能向上に不可欠であり，特に複雑なタスクでの精度と堅牢性を高める。
- 思考連鎖の利用は計算コストが高く，遅延，メモリ使用量，KVキャッシュへの負荷が増大する。
- 思考連鎖の冗長性を排除し，計算効率を維持しつつ，精度を向上させることを目指す。
- 提案手法SEERは，思考連鎖を平均42.1%短縮し，精度向上と無限ループの解消を実現した。
- タスクに応じた適応的フィルタリングにより，推論時の冗長性を削減し，計算コストを抑制する。
- 長すぎる思考連鎖は，精度低下や遅延増加の原因となる場合があり，より効率的な制御が求められる。
Link: https://arxiv.org/abs/2509.14093
ロボット制御スタック：大規模ロボット学習のための効率的なエコシステム [cs.RO, cs.RO, cs.LG]目的：大規模なロボット学習を支援する効率的なエコシステムの提供
- ロボットの自律性は，産業の効率化や人手不足解消に不可欠であり，その重要性は増している。
- 従来のロボティクスソフトウェアは，機械学習を中心とした大規模なロボット学習のボトルネックとなっている。
- シミュレーション環境と実環境との間のギャップを埋め，ロボット学習の研究開発を加速させる。
- ロボット制御スタック(RCS)は，シミュレーションと実世界のロボット間の一貫性のあるインターフェースを提供するモジュール型アーキテクチャである。
- RCSは，Octo，OpenVLA，Pi ZeroなどのVLAとRLポリシーの開発サイクルにおける有用性と性能を実証している。
- シミュレーションデータが実世界のポリシーの性能向上に貢献することを示す大規模な評価を行った。
Link: https://arxiv.org/abs/2509.14932
倉本モデルに基づく配向拡散モデル [cs.LG, cs.CV, q-bio.NC]目的：配向情報が豊富な画像生成のためのモデル
- 画像生成において，複雑な構造やパターンを捉えることが重要である。
- 従来の生成モデルでは，等方的な拡散を基盤とするため，配向を持つ画像のモデリングが困難である。
- 生物学における同期現象に着想を得て，配向情報の生成に特化した拡散モデルを開発する。
- 本研究では，倉本ダイナミクスを用いたスコアベース生成モデルを提案し，周期的なドメイン上で拡散過程を実現した。
- 前進過程では位相変数の同期を促進し，逆過程では学習されたスコア関数を用いて多様なパターンを生成する。
- 指紋やテクスチャといった配向密度の高いデータセットにおいて，生成品質の向上が確認された。
Link: https://arxiv.org/abs/2509.15328
ZeroSiam：崩壊を伴わないテスト時エントロピー最適化のための効率的な非対称性 [cs.LG, cs.NI]目的：テスト時エントロピー最適化における崩壊防止機構と性能向上
- モデルを未知の環境に適応させ，推論時の能力を引き出すための重要な手法である。
- 単純なエントロピー最小化は，汎化性能の低い近道に陥りやすく，崩壊を引き起こす可能性がある。
- 非対称性に基づくZeroSiamアーキテクチャにより，崩壊を防止し，学習信号を正則化することを目指す。
- ZeroSiamは，非対称な発散アライメントにより崩壊を効果的に防止する。
- この手法は，偏った学習信号を正則化し，崩壊が発生しない場合でも性能を向上させる。
- 様々なモデルとタスクにおいて，既存手法よりも安定した性能と低いオーバーヘッドを示す。
Link: https://arxiv.org/abs/2509.23183
VoiceBridge：潜在ブリッジモデルを用いた汎用音声復元 [cs.SD, cs.AI, eess.AS]目的：多様な歪みからの高音質全帯域音声の効率的な復元
- 音声処理技術は，コミュニケーションの質を向上させ，様々な応用分野で不可欠である。
- 既存のブリッジモデルは特定のタスクに限定され，汎用的な音声復元能力に課題があった。
- 異なる歪み条件やデータに対して，単一のモデルで高性能な音声復元を実現することを目指す。
- VoiceBridgeは，エネルギー保存型変分オートエンコーダとスケーラブルなTransformerを活用した，ワンステップ潜在ブリッジモデルである。
- 提案手法は，多様な音声復元タスクにおいて，高い性能を示すことが実験的に確認された。
- 精製された音声合成や，ノイズ除去，スーパーレゾリューションなど，様々なタスクで有効であることが示された。
Link: https://arxiv.org/abs/2509.25275
v-HUB：視覚と聴覚からのビデオユーモア理解のためのベンチマーク [cs.CV, cs.AI, cs.CL]目的：ビデオユーモア理解の評価と診断
- 人間と機械のインタラクションの質を高めるため，ユーモア理解AIの重要性が増している。
- 既存のマルチモーダル大規模言語モデルは，視覚情報のみからユーモアを理解するのが難しい。
- 視覚と聴覚情報を組み合わせることで，ビデオユーモア理解の精度向上を目指す。
- v-HUBは，視覚情報のみでユーモアが理解できる短編ビデオのコレクションである。
- 実験結果から，マルチモーダル大規模言語モデルは視覚情報のみではユーモア理解が困難であることが示された。
- 聴覚情報を加えることでビデオユーモア理解が向上し，多角的なモダリティ統合の有用性が示唆された。
Link: https://arxiv.org/abs/2509.25773
ポリシーを組み立てろ！拡散モデルまたはフローベースのロボットポリシーをテスト時の分布レベルでの構成により改善 [cs.CL, cs.RO, cs.LG]目的：拡散モデルまたはフローベースのロボットポリシーの性能向上
- ロボット制御におけるデータ収集コストの高さが課題であり，学習データの効率的な活用が重要。
- 大規模なインタラクションデータの取得コストが，拡散モデルの発展を阻害している。
- 既存のポリシーを組み合わせることで，追加学習なしに性能向上を目指す。
- 複数の拡散モデルの分布スコアを凸結合することで，単一のスコアよりも優れた目的関数が実現可能であることを理論的に示した。
- 提案手法GPCは，様々なロボットタスクにおいて，性能と適応性を一貫して向上させることを実験的に確認した。
- GPCは，追加学習なしで既存のポリシーを有効活用し，ロボット制御の性能を向上させる効果的な手法である。
Link: https://arxiv.org/abs/2510.01068
時間変動システム制御のための強化学習のロバスト性向上：有界極値探索による改善 [cs.LG, cs.SY, eess.SY]目的：時間変動システムの制御における深層強化学習のロバスト性向上
- 複雑なシステムの制御・最適化に強化学習が活用されている。
- システムのモデルが時間とともに急激に変化すると，強化学習の性能が著しく低下する。
- 時間変動に対応したロバストな制御を実現すること。
- 深層強化学習と有界極値探索を組み合わせることで，それぞれの性能を上回るハイブリッドコントローラが得られた。
- 深層強化学習は過去のデータを利用して迅速に制御を行い，有界極値探索は時間変動に対するロバスト性を保証する。
- 数値シミュレーションとロスアラモス中性子科学センターの加速器における自動調整の事例で効果が確認された。
Link: https://arxiv.org/abs/2510.02490
潜在的音声・テキスト変換器 [cs.CL, cs.AI, cs.LG, eess.AS]目的：音声とテキストの相互理解と生成における計算効率の改善
- 音声とテキストを扱うモデルは，自然言語処理の発展に不可欠であり，様々な応用が期待される。
- 従来の音声・テキストモデルは，テキストLLMに比べて計算コストが高く，性能向上が課題となっていた。
- 音声トークンを潜在的パッチに集約することで，計算効率を高め，モデルの性能向上を目指す。
- LSTは，ストーリー補完ベンチマークにおいて，計算量とデータ量を制御した両方の設定で，音声認識精度を向上させた。
- 計算量制御環境下での学習において，音声HellaSwagで最大6.5%の絶対的な精度向上を達成した。
- LSTは，ASRアダプテーションの安定化や，ASRおよびTTS推論における有効な系列長の短縮にも貢献し，計算コストの削減を実現した。
Link: https://arxiv.org/abs/2510.06195
AlphaApollo：深層エージェントによる推論システム [cs.AI, cs.CL, cs.LG]目的：深層エージェントによる推論能力の向上
- 複雑な問題解決において，大規模言語モデルの推論能力は重要な課題である。
- 大規模言語モデルの推論過程の検証が困難であり，信頼性に課題がある。
- 複雑な問題解決における推論能力と，検証可能な推論プロセスの実現を目指す。
- AlphaApolloは，ツール利用の成功率を85%以上で安定的に実現した。
- マルチターン強化学習により，Qwen2.5モデルの性能が大幅に向上した（例：1.07% → 9.64%）。
- 提案・評価・更新ループによる進化を通じて，更なる性能向上が確認された。
Link: https://arxiv.org/abs/2510.06261
NavSpace：ナビゲーションエージェントが空間的知能指示に従う方法 [cs.RO, cs.AI, cs.CL, cs.CV]目的：ナビゲーションエージェントの空間的知能の評価
- 具現化された知能の実現には，指示に従うナビゲーションが不可欠である。
- 既存の評価基準は意味理解に偏り，空間認識能力の評価が不十分である。
- ナビゲーションエージェントの空間的知能を詳細に評価し，その能力向上を目指す。
- NavSpaceは，ナビゲーションエージェントの空間的知能を試すための6つのタスクカテゴリーと1228組の軌跡-指示ペアを含む。
- 22のナビゲーションエージェントを評価した結果，空間認識能力に課題があることが明らかになった。
- SNavはNavSpaceおよび実ロボットテストで既存のエージェントを上回り，新たな基準を確立した。
Link: https://arxiv.org/abs/2510.08173
LiDARベースのセマンティックセグメンテーションにおける不完全ラベル下でのドメイン汎化の探求 [cs.CV, cs.LG, cs.RO]目的：LiDARベースの3次元セマンティックセグメンテーションにおけるドメイン汎化とノイズラベル学習
- 自動運転における安全性確保のため，LiDARを用いた高精度な環境認識が不可欠である。
- LiDARアノテーションは，センサーの不具合やヒューマンエラーによりノイズを含みやすい。
- ドメインシフト下でノイズの影響を抑制し，ロバストなセグメンテーション性能を達成すること。
- 提案手法DuNeは，特徴レベルの一貫性を強化する二つの異なる視点からの学習を行う。
- SemanticKITTI，nuScenes，SemanticPOSSのデータセットで最先端の性能を達成した。
- 10%の対称的なラベルノイズ下で，平均mIoUは49.57%であり，ドメイン汎化能力の高さを示した。
Link: https://arxiv.org/abs/2510.09035
視覚的質問応答のためのコード生成による推論：RECODE [cs.RO, cs.RO, cs.CV, cs.AI, cs.LG]目的：視覚的質問応答におけるコード生成を通じた推論手法
- マルチモーダル大規模言語モデルの発展は，画像とテキストの理解を深める上で重要である。
- グラフや図表など構造化された視覚情報の正確な推論が，既存のモデルでは困難である。
- 視覚情報を実行可能なコードに変換することで，検証可能な推論を可能にすることを目指す。
- RECODEは，入力画像を再現する複数の候補プログラムを生成し，最も忠実なものを選択・改良する。
- この手法は，曖昧な知覚タスクを検証可能な記号問題へと変換し，正確な計算と論理的推論を可能にする。
- CharXiv, ChartQA, Geometry3Kなどのベンチマークで，既存手法を大幅に上回る性能を示した。
Link: https://arxiv.org/abs/2510.13756
専門家を刈り込む：1回限りのMoE圧縮において，刈り込みが優位である理由 [cs.LG, cs.AI]目的：1回限りのMoE圧縮における専門家圧縮戦略の比較と，新しい刈り込み基準の提案
- 大規模言語モデルの効率化は，計算資源の制約と実用的な応用を考慮する上で重要である。
- MoEモデルはパラメータ数が多い為，メモリ消費量が課題となっている。
- 既存の専門家マージ手法が持つ問題点を克服し，より効果的な専門家圧縮手法を確立する。
- 生成タスクにおいては，専門家マージよりも専門家刈り込みの方が優れていることが示された。
- 提案手法REAPは，ルーティング制御と専門家活性化のノルムを考慮することで，再構成誤差を最小限に抑える。
- Qwen3-Coder-480BやKimi-K2を用いたコード生成タスクにおいて，50%の専門家を刈り込んだ後でも，ほぼ損失のない圧縮を実現した。
Link: https://arxiv.org/abs/2510.13999
リアルワールド強化学習による高性能ロボット操作：RL-100 [cs.RO, cs.AI, cs.LG]目的：実世界のロボット操作における信頼性，効率性，およびロバスト性の向上
- 家庭や工場におけるロボット操作は，熟練作業者に匹敵する性能が求められている。
- 既存手法では，実環境でのロバスト性や継続的な運用が課題となっている。
- 人間の知識を活用し，実用的なロボット学習システムの実現を目指す。
- RL-100は，拡散ビジュオモーターポリシーに基づく強化学習フレームワークであり，様々なロボットタスクで100%の成功率を達成した。
- 単一のポリシーは，環境や動的な変化に対して約90%のゼロショット成功率を示し，タスクのバリエーションへの適応性も高い。
- ショッピングモールでの実証実験では，ジュースロボットが7時間連続で故障なく稼働し，実用的な展開の可能性を示唆した。
Link: https://arxiv.org/abs/2510.14830
生成型嗜好モデルのためのブラッドリー・テリー方策最適化 [cs.LG]目的：生成型嗜好モデルにおけるブラッドリー・テリー方策最適化
- 大規模言語モデルの思考連鎖(CoT)推論能力向上は重要である。検証可能なタスクで効果が示されている。
- 検証不可能なタスクへの方策学習は困難。人間の嗜好ペアによる指導のみで学習を進める必要がある。
- CoT推論を組み込んだ嗜好モデルの構造を捉え，最適化手法を開発することで問題を解決する。
- ブラッドリー・テリー尤度の構造がCoT推論によって変化することを示した。推論過程を潜在変数として扱う必要がある。
- 尤度の勾配を推定するための整合的なモンテカルロ推定量を導出した。これがブラッドリー・テリー方策最適化(BTPO)である。
- BTPOは，複数のベンチマークとモデル規模で，既存のヒューリスティック手法を安定して上回る性能を示した。
Link: https://arxiv.org/abs/2510.15242
表形式予測のための構造的事前知識によるLLMの数値推論の強化 [cs.LG, cs.AI]目的：表形式データの予測におけるLLMの数値推論能力向上
- 表形式データ予測は重要であり，ビジネスや科学研究の様々な場面で活用されている。
- 既存手法は解釈性や汎用性に課題があり，タスク間の知識転移が難しい。
- LLMの潜在的な能力を引き出し，少ない教師データで高い予測性能を実現すること。
- 提案手法は，列の置換不変性を構造的事前知識として組み込んだPRPOという強化学習手法を用いる。
- PRPOは，ラベルを保持する置換に対して利得を推定し，疎な報酬を密な信号に変換することで，LLMの数値推論能力を活性化する。
- 実験の結果，提案手法は，完全に教師ありのベースラインに匹敵し，ゼロショット設定で優れた性能を示した。
Link: https://arxiv.org/abs/2510.17385
空間から行動へ：空間的基礎知識に基づく視覚-言語-行動モデル [cs.RO, cs.AI, cs.CV, cs.LG]目的：視覚，言語，行動を統合したモデルにおける空間的基礎知識の活用
- ロボット工学やコンピュータビジョンの発展において，現実世界とのインタラクションは不可欠である。
- 既存のモデルは2次元画像処理に基づき，3次元空間認識能力の不足が汎化性能の限界となっている。
- 3次元空間情報を活用し，視覚と行動の整合性を高めることで，モデルの性能向上を目指す。
- 提案手法FALCONは，RGB画像のみから空間情報を抽出し，行動予測に活用することで，高い性能を発揮する。
- FALCONは，奥行き情報や姿勢情報を追加的に活用することで，さらに精度を向上させることができる。
- シミュレーションおよび実環境での評価において，FALCONは最先端の性能を達成し，既存手法を上回る結果を示した。
Link: https://arxiv.org/abs/2510.17439
SynHLMA：関節オブジェクトに対する手による操作の合成 - 離散的な人間オブジェクト相互作用表現を用いた [cs.RO, cs.AI, cs.CV]目的：関節オブジェクトに対する手による操作系列の生成
- 具現化されたAIやVR/AR応用の発展には，言語指示に基づいた手による把持の生成が不可欠である。
- 関節オブジェクトの操作では，オブジェクトの機能だけでなく，変形に伴う長期間の操作系列が必要となる。
- 本研究は，関節オブジェクトに対する手による操作を生成するフレームワークを開発し，この課題を解決することを目指す。
- 提案手法SynHLMAは，離散的な人間オブジェクト相互作用表現を用いて，各操作フレームをモデル化する。
- 言語埋め込みと表現を共有表現空間で整合させ，操作過程と言語記述を一致させるHAOI操作言語モデルを学習する。
- 実験結果から，SynHLMAは最先端の手法と比較して優れた把持系列生成性能を持つことが示された。また，ロボットによる把持への応用も可能である。
Link: https://arxiv.org/abs/2510.25268
ベクトル化オンラインPOMDP計画 [cs.RO, cs.AI]目的：部分観測下における計画
- 自律ロボットの重要な能力であり，不確実な環境下での意思決定に不可欠である。
- 並列化が困難であり，計算コストが高いことが課題となっていた。
- 大規模並列化による効率的な計画手法を確立することを目指す。
- 提案手法VOPPは，既存の並列オンラインソルバーと比較して，少なくとも20倍の効率でほぼ最適な解を計算できる。
- VOPPは，最先端の逐次オンラインソルバーよりも優れた性能を発揮し，計画予算を1000分の1に抑えることができる。
- VOPPは，データ構造をテンソルで表現し，計画ステップを完全にベクトル化された計算として実装することで，並列化を実現している。
Link: https://arxiv.org/abs/2510.27191
GraphKeeper：知識の分離と保存によるグラフドメイン増分学習 [cs.LG, cs.AI]目的：グラフドメイン増分学習における知識のカタストロフィック・フォゲッティングの軽減
- グラフ構造データは様々な分野で利用され，その学習は重要性を増している。
- 既存のグラフ増分学習は単一ドメインに限定され，複数ドメインへの対応が課題である。
- 異なるグラフドメイン間で効率的に知識を更新し，忘却を防ぐことを目指す。
- 提案手法GraphKeeperは，ドメイン特有の効率的なファインチューニングと知識分離により，埋め込みのシフトと混乱を抑制する。
- 安定した決定境界を維持するため，逸脱のない知識保存を導入し，増分ドメインへの継続的な適合を実現する。
- 様々な代表的なグラフ基盤モデルに容易に組み込むことができ，幅広い応用可能性を示す。
Link: https://arxiv.org/abs/2511.00097
多クラス分類のための構造化行列スケーリング [cs.RO, cs.LG, cs.AI]目的：多クラス分類における確度推定の校正
- 分類器の出力確率の信頼性は機械学習の重要な課題である。
- 複雑な校正モデルはパラメータ数が多く，過学習しやすい。
- 構造化正則化により，過学習を抑制し，校正精度を向上させる。
- ロジスティック回帰に基づく標準的な温度スケーリングを凌駕する性能を示す。
- 構造化正則化，ロバストな前処理，効率的な最適化が，バイアス-バリアンスのトレードオフを効果的に管理する。
- 実装を公開し，温度スケーリング，ベクトルスケーリング，行列スケーリングの代替手段を提供する。
Link: https://arxiv.org/abs/2511.03685
時系列基礎モデルにおけるインコンテキストファインチューニングによる軽量時系列データ評価 [cs.CL, cs.LG, cs.AI]目的：時系列基礎モデルのための時系列データ評価
- 時系列データは，その重要性が増しており，質の高いデータがモデル性能に不可欠である。
- 従来のデータ評価手法は，モデルサイズの拡大に伴い計算コストが増大し，時系列依存性を捉えきれない。
- 本研究は，インコンテキストファインチューニングにより，効率的かつ正確なデータ評価手法を確立する。
- 提案手法LTSVは，インコンテキストファインチューニングを活用し，計算効率と汎化性能を両立したデータ評価を実現した。
- 時間依存性を考慮するため，時間ブロック集約を導入し，ブロックごとの影響スコアを統合することで，より精度の高い評価を可能にした。
- 実験結果から，LTSVは様々な時系列データセットとモデルにおいて，信頼性の高い評価性能を示すことが確認された。
Link: https://arxiv.org/abs/2511.11648
MediRound：医療画像における多段階エンティティレベル推論セグメンテーション [cs.CY, cs.CL, cs.CV, cs.AI]目的：医療画像セグメンテーションのための多段階エンティティレベル推論
- 医療教育において，知識の段階的な理解促進が重要であり，そのためには対話的な推論が必要である。
- 既存の医療画像セグメンテーション手法は単一ラウンドの対話に限定され，多段階推論をサポートしていない。
- 多段階のクエリとエンティティレベルの推論を通じてセグメンテーションマスクを生成するタスクを可能にすること。
- 本研究では，多段階エンティティレベル医療推論セグメンテーション(MEMR-Seg)という新しいタスクを提案し，大規模データセットMR-MedSegを構築した。
- MediRoundというベースラインモデルを提案し，多段階セグメンテーションにおけるエラー伝播を軽減する判断・修正メカニズムを導入した。
- 実験結果から，提案手法がMEMR-Segタスクにおいて従来の医療参照セグメンテーション手法よりも優れていることが示された。
Link: https://arxiv.org/abs/2511.12110
ベアリング健全性状態の時間系列分類におけるTSFMインコンテキスト学習 [cs.CL, cs.LG, cs.AI]目的：時間系列基礎モデルを用いたインコンテキスト学習によるベアリング健全性状態の分類
- 機械設備の予防保全は，生産性の向上とコスト削減に不可欠であるため重要性が高い。
- 従来のAIソリューションは，特定の設備や条件に特化し，汎用性に課題があった。
- 事前学習済みモデルを活用し，汎用的なベアリング健全性状態の分類を可能にすること。
- 時間系列基礎モデル(TSFM)を用いることで，ファインチューニングや従来型モデルの学習なしに分類が可能となった。
- 振動データから周波数領域の特徴量を擬似的な時系列パターンに変換し，TSFMに学習させた。
- 異なる運転条件下でも高い有効性が示され，より広範なAI駆動の保守システムへの応用が期待される。
Link: https://arxiv.org/abs/2511.15447
LLMベースのチャットボットによる電磁界シミュレーションの研究とプロトタイピング [cs.CE, cs.AI]目的：電磁界シミュレーションモデル構築の時間を短縮するための生成AI活用
- 電磁界シミュレーションは，現代技術の根幹を支える重要な解析手法である。
- モデル設定には専門知識と時間が必要であり，効率化が課題となっている。
- LLMを活用し，シミュレーションモデルの自動生成を可能にすること。
- 大規模言語モデルGemini 2.0 Flashを活用したチャットボットを開発した。
- チャットボットは，GmshとGetDPを用いて2次元有限要素渦電流モデルを自動生成・解析する。
- 円形断面を持つ導体の形状や位置，個数を定義可能で，カスタム後処理も実現した。
Link: https://arxiv.org/abs/2511.17680
HOI検出における長尾バイアス軽減のための適応的多様性キャッシュ [cs.CV, cs.AI]目的：HOI検出における長尾バイアスの軽減
- 人間と物体とのインタラクション理解は，実世界での多様な状況を把握する上で重要である。
- 従来のVLMベース手法は計算コストが高く，特に稀なインタラクションの検出性能が低い。
- 追加学習なしで稀なインタラクションの検出性能を向上させることを目指す。
- 本研究では，学習不要でプラグアンドプレイ可能な適応的多様性キャッシュ（ADC）モジュールを提案する。
- ADCは，推論時に高信頼かつ多様な特徴表現を蓄積するクラス固有のキャッシュを構築する。
- 実験により，ADCが既存のHOI検出器を改善し，特に稀なカテゴリの検出性能を向上させることが示された。
Link: https://arxiv.org/abs/2511.18811
周期的な非同期性：LLM強化学習の加速のためのオンポリシーアプローチ [cs.LG, cs.AI]目的：LLM強化学習の訓練効率向上
- 大規模言語モデルの性能向上には，強化学習による後学習が注目されている。
- 従来の強化学習フレームワークでは，推論と訓練の同期実行がボトルネックとなっている。
- 推論と訓練を分離し，非同期パイプライン化することで訓練効率を改善する。
- 提案手法は，同期型強化学習と同等の性能を保ちつつ，オフポリシーバイアスを回避する。
- NPUプラットフォーム上での実験により，エンドツーエンドの訓練スループットが3～5倍向上することが示された。
- 本手法は，LLMの強化学習における広範な応用が期待される。
Link: https://arxiv.org/abs/2511.18871
ロボットが従うパッチ：視覚言語行動モデルへの汎用的な転送可能なパッチ攻撃 [cs.CV, cs.AI]目的：視覚言語行動モデルに対する汎用かつ転送可能な攻撃手法の開発
- ロボットの安全性を確保するためには，AIモデルへの攻撃に対する理解と対策が不可欠である。
- 既存のパッチ攻撃は特定のモデルに過剰適合し，未知の環境やモデルでは効果を発揮しないという問題がある。
- 未知のモデルや環境下でも有効な汎用的なパッチ攻撃手法を確立し，現実的な攻撃経路を明らかにする。
- 提案手法UPA-RFASは，特徴空間，注意機構，意味的整合性を考慮した統合的なフレームワークである。
- 多様な視覚言語行動モデル，操作スイート，実機実験において，モデル，タスク，視点を超えた高い転送性能を示した。
- 本研究は，パッチベースの攻撃表面を明らかにし，将来の防御策の基盤を確立する。
Link: https://arxiv.org/abs/2511.21192
視覚言語モデルの公平性に基づいた微調整：医療における緑内障診断への応用 [cs.CL, cs.CV, cs.LG]目的：医療における視覚言語モデルの公平性向上
- 医療画像診断において，視覚言語モデルの活用が期待されている。
- 既存の視覚言語モデルは，人種などの属性によって診断精度に差が生じる可能性がある。
- 異なる属性間での診断精度格差を縮小し，公平なAI診断を実現する。
- 提案手法であるGR-LoRAは，診断精度の格差を69%削減し，全体的な診断精度を53.15%に維持した。
- 適切な正則化強度を用いることで，精度の低下を最小限に抑えつつ，公平性を最適化できることが示された。
- 本手法は，わずか0.24%の学習パラメータで実現可能であり，リソースの限られた医療現場への導入に適している。
Link: https://arxiv.org/abs/2512.03477
通信制約事前分布を持つマルチエージェント強化学習 [cs.AI, cs.MA]目的：マルチエージェントシステムにおける協調的な方策学習の改善
- 実世界では，エージェント間の協力が重要であり，そのために効率的な情報伝達が不可欠である。
- 既存手法は，複雑な環境下でのスケーラビリティやロバスト性に課題があり，実用化が難しい。
- 通信損失を考慮した事前分布に基づき，多様な環境で効率的に学習可能な枠組みを構築する。
- 提案手法では，通信条件を統一的に表現するモデルを導入し，損失と無損失のメッセージを区別する。
- 損失と無損失のメッセージの影響を分離することで，分散意思決定の精度向上を目指した。
- 複数のベンチマークで有効性が検証され，通信制約下での学習性能が向上することが示された。
Link: https://arxiv.org/abs/2512.03528
エンティティリンキングによる検索拡張生成の強化：教育プラットフォームへの応用 [cs.IR, cs.AI, cs.CL, cs.LG]目的：教育プラットフォームにおける質問応答システムの正確性向上
- 大規模言語モデルの普及に伴い，信頼性の高い知識に基づいた応答が求められている。
- 意味的類似度のみに基づく検索拡張生成は，専門分野において用語の曖昧さから正確性を損ねる場合がある。
- エンティティリンキングを活用し，教育分野特有の知識に基づいた正確な応答を目指す。
- 提案手法ELERAGは，イタリア語の教育分野の質問応答において，既存手法やCross-Encoderよりも有意に高い性能を示した。
- 一般的な知識領域のデータセットにおいては，Cross-Encoderが最良の結果を示し，ドメイン間のミスマッチの影響が確認された。
- 本研究は，教育分野における検索拡張生成の精度向上に，ドメイン適応型ハイブリッド戦略が重要であることを示唆している。
Link: https://arxiv.org/abs/2512.05967
SA²GFM：構造を意識した意味的拡張によるロバストなグラフ基盤モデルの強化 [cs.LG]目的：グラフ基盤モデルのドメイン適応表現の改善
- グラフ構造データは様々な分野で重要であり，その分析には高性能なモデルが求められる。
- 既存のグラフ基盤モデルは，ドメインノイズや構造的摂動に対するロバスト性に課題がある。
- 階層的な構造的意味のモデル化を強化し，ドメイン適応性とロバスト性を向上させる。
- 提案手法SA²GFMは，ノードおよびグラフ分類タスクにおいて，最先端のベースライン9つを凌駕する性能を示した。
- 構造を意識したテキストプロンプトによる特徴拡張と，自己教師あり情報ボトルネック機構により，ロバストな表現を獲得する。
- エキスパート適応ルーティング機構と，階層構造を最適化するファインチューニングモジュールにより，ドメイン適応性を高めた。
Link: https://arxiv.org/abs/2512.07857
ADHint：強化学習のための難易度事前確率を用いた適応的ヒント [cs.RO, cs.CV, cs.LG]目的：強化学習における能力拡張とサンプル効率の向上
- 強化学習は，複雑な意思決定問題への応用が期待されるが，学習に多くのサンプルを必要とする。
- 既存のヒントベース手法は，ヒントの難易度を考慮せず，学習が不安定になりやすい。
- ヒントの難易度を考慮し，探索と模倣のバランスを取ることで，学習の安定化と汎化性能の向上を目指す。
- ADHintは，現在のポリシーに基づいてサンプルの難易度を評価し，適切なヒント比率をスケジュールすることで，探索と模倣のトレードオフを改善する。
- ヒント内のトークンレベルの勾配を調整し，ヒントの保存を促進することで，偏った破壊的な更新を防ぐ。
- ヒントの有無によるロールアウトの相対的な難易度を利用してアドバンテージを推定し，よりバランスの取れた更新を実現する。
Link: https://arxiv.org/abs/2512.13095
パーソナライズされたテキストから画像生成のための方向性テキスト反転 [cs.LG, cs.CV]目的：テキストから画像へのパーソナライズされた生成における問題点とその解決策
- 画像生成技術の発展は，創造的な表現の可能性を広げ，多様な応用分野に貢献する。
- テキスト反転は効率的だが，複雑なプロンプトに対して性能が低下することが課題である。
- 埋め込みベクトルの方向のみを最適化することで，より忠実なパーソナライズを実現する。
- 提案手法であるDTIは，テキストの忠実性を向上させつつ，被写体の類似性を維持する。
- DTIは，標準的なTIでは実現できない，学習された概念間の滑らかな補間を可能にする。
- 方向のみの最適化が，プロンプトに忠実なパーソナライズのための堅牢かつスケーラブルな手法である。
Link: https://arxiv.org/abs/2512.13672
EMFusion：ワイヤレスネットワークにおける信頼性の高い周波数選択的電磁界予測のための条件付き拡散フレームワーク [cs.LG, cs.AI, cs.SY, eess.SY]目的：ワイヤレスネットワークにおける周波数選択的な電磁界予測
- ワイヤレスインフラの急速な拡大により，電磁界レベルの正確な推定と予測の必要性が高まっている。
- 既存の研究は広帯域の集約電磁界データの単変量予測に依存しており，プロアクティブなネットワーク計画に必要な周波数選択的多変量予測が不足している。
- EMFusionは，ネットワーク計画に不可欠な周波数間および事業者間の変動を捉えることで，この問題を解決することを目指している。
- EMFusionは，時間帯，季節，祝日などの多様なコンテキスト要因を統合し，明示的な不確実性推定を提供する条件付き多変量拡散ベースの確率予測フレームワークである。
- EMFusionは，コンテキスト情報を活用することで，条件の有無にかかわらずベースラインモデルと比較して性能が向上し，作業時間のコンテキスト情報が特に有効であることが示された。
- EMFusionは，連続順位確率スコア (CRPS) で23.85%，正規化二乗平均平方根誤差 (RMSE) で13.93%向上し，予測CRPS誤差を22.47%削減した。
Link: https://arxiv.org/abs/2512.15067
効率的なエージェント型ツール呼び出しのための小型言語モデル：ターゲットを絞ったファインチューニングで大規模モデルを凌駕 [cs.AI]目的：エージェント型ツール呼び出しにおける効率性とコスト最適化
- 生成AIの普及に伴い，持続可能性とアクセシビリティを左右するモデルコストと運用効率が重要になっている。
- 大規模言語モデルは計算資源を大量に必要とし，日常的な企業利用にはコストがかかるという課題がある。
- ターゲットを絞ったアプリケーションにおいて，コストを抑えつつ同等の性能を発揮する小型言語モデルの可能性を検証する。
- ファインチューニングされた小型言語モデルは，ToolBench評価において77.55%の正答率を達成し，ChatGPT-CoTやToolLLaMAを大きく上回った。
- ターゲットを絞ったトレーニングを行うことで，小型言語モデルでも大規模モデルに匹敵する性能が期待できることが示された。
- この結果は，生成AIの導入障壁を下げ，大規模な実運用システムへのコスト効率の良い統合を可能にする。
Link: https://arxiv.org/abs/2512.15943
スキルライブラリを用いた自己改善エージェントのための強化学習 [cs.AI]目的：スキルライブラリによるエージェントの自己改善能力の強化
- 複雑な推論や多段階の対話においてLLMベースエージェントの能力が注目されている。
- 新しい環境への適応や継続的な改善が課題であり，一貫性のあるスキルライブラリ実装が困難である。
- 強化学習を用いてスキルライブラリを体系的に組み込み，自己改善能力の向上を目指す。
- SAGEは，AppWorldにおいて，既存手法と比較してシナリオゴール達成率が8.9%向上した。
- SAGEは，インタラクションステップ数を26%削減し，トークン生成数を59%削減することで，効率も大幅に改善した。
- 専門家による教師ありファインチューニングモデルにSAGEを適用することで，精度と効率の両面で優れた結果が得られた。
Link: https://arxiv.org/abs/2512.17102
アフィンダイバージェンス：正規化を超えた活性化更新の整合性 [cs.RO, cs.SY, eess.SY, cs.LG]目的：活性化更新における数学的理想と実効的な更新との間のずれ
- 深層学習の最適化において，活性化は損失関数に直接影響する重要な要素である。
- 活性化の更新は，理論上の最急降下法とは異なる不適切なスケーリングを示す場合がある。
- 活性化更新のずれを修正し，より効果的な最適化手法を提案すること。
- 活性化更新のずれを修正する解決策は，正規化の原理に基づき導出可能である。
- スケール不変性を必要としない，正規化とは異なる新しい関数「PatchNorm」が提案され，既存の正規化手法を上回る性能を示した。
- 正規化は，パラメータ化されたスケーリングを持つ活性化関数のような写像として再解釈できる。
Link: https://arxiv.org/abs/2512.22247
大規模ディスク常駐ベクトル検索のための多様体整合グラフインデックス [cs.IR, cs.AI]目的：高次元空間における近似最近傍探索の性能低下
- ベクトル検索は，画像検索や推薦システムなど幅広い分野で重要性を増している。
- 高次元空間では，ユークリッド距離と測地距離の不一致により，グラフベースのANN検索の性能が低下する。
- データの内在的幾何学に適応的に探索戦略を調整し，性能低下を解消すること。
- MCGIは，局所的内在次元（LID）を用いて，データの内在幾何学に基づき探索戦略を動的に調整する。
- 理論的解析により，MCGIが多様体整合トポロジカル接続を維持することで，安定した近似保証を提供することが確認された。
- GIST1Mデータセットにおいて，最先端のDiskANNと比較して，95%リコールで5.8倍の処理能力を達成した。
Link: https://arxiv.org/abs/2601.01930
局所更新による分散最適化の証明可能な加速 [eess.SY, cs.LG, cs.SY]目的：分散最適化における加速効果の証明
- 分散最適化は大規模な問題を解決する上で重要であり，近年その需要は増加している。
- 従来の分散最適化では，通信ラウンド間の局所更新回数が限られており，性能向上のボトルネックとなっていた。
- 本研究は，局所更新を増やすことで分散最適化を加速できることを理論的に示すことを目指す。
- 局所更新を組み込むことで，分散最適化が実際に加速されることを，DIGingアルゴリズムとPEPを用いて証明した。
- 最適なステップサイズの下では，局所更新を2回行うだけで最大の改善が得られ，それ以上の更新は利点がないことが明らかになった。
- 実験結果は理論的知見を裏付けており，効率的な実装のための指針を提供する。
Link: https://arxiv.org/abs/2601.03442
CRANE：多言語大規模言語モデルにおける言語特化ニューロンの因果的関連性分析 [cs.CL, cs.AI]目的：多言語大規模言語モデルにおける言語特化ニューロンの特定
- 言語能力の向上は，グローバルな情報伝達において不可欠であり，そのメカニズム解明は重要である。
- 従来のニューロン特定手法は，活性化強度に基づくため，機能的な重要性との混同が生じていた。
- CRANEは，ニューロンレベル介入を通じて，言語機能に必須なニューロンを正確に特定することを試みる。
- CRANEは，ニューロンの介入によって言語性能への影響を評価し，言語選択的なニューロンを特定する。
- ターゲット言語に関連するニューロンをマスクすると，その言語の性能が選択的に低下し，他の言語の性能は維持されることが示された。
- 活性化強度に基づく既存手法と比較して，CRANEはより正確に言語特化要素を分離することが確認された。
Link: https://arxiv.org/abs/2601.04664
メガコンステレーション時代における人間とAIの協調による宇宙機電源システムの包括的なヘルス管理 [cs.AI]目的：宇宙機電源システムのヘルス管理における人間とAIの協調的フレームワークの開発
- 宇宙空間におけるエネルギー管理の重要性が増しており，特に宇宙機電源システムのヘルス管理は不可欠である。
- 従来のヘルス管理手法では，メガコンステレーション時代の大量の宇宙機に対応できないという課題がある。
- 人間とAIの協調により，大量の宇宙機電源システムの効率的かつ信頼性の高いヘルス管理を実現することを目指す。
- 提案するSpaceHMchatフレームワークは，作業状況の認識，異常検知，故障局所化，メンテナンス判断といったヘルス管理の全プロセスを支援する。
- ハードウェアを模倣したフォールトインジェクション実験プラットフォームを用いて検証した結果，高い性能が確認された（例：作業状況認識の論理的推論における100%の結論精度）。
- 本研究で公開する宇宙機電源システムのAIL HMデータセットは，関連研究の発展に貢献すると期待される。
Link: https://arxiv.org/abs/2601.12667
CLEAR-Mamba：正確で適応性があり信頼性の高い多系列眼血管造影画像分類に向けて [cs.CV, cs.AI]目的：眼血管造影画像の分類手法の開発
- 眼科領域における疾患の早期発見，治療計画，予後評価において，画像診断は重要な役割を担う。
- 既存手法は，単一モダリティ，微細な病変パターン，デバイス間変動の影響を受け，汎化性能や確信度予測に限界がある。
- マルチモダリティ画像に対応し，汎化性能と信頼性を両立した眼科画像分類手法の確立を目指す。
- 提案手法CLEAR-Mambaは，既存モデルと比較して，様々な評価指標において一貫して優れた性能を示した。
- 特に，多疾患分類と信頼性に基づいた予測において顕著な優位性が見られた。
- 本研究は，眼科画像分類における汎化性能と信頼性を両立する効果的な解決策を提供する。
Link: https://arxiv.org/abs/2601.20601
AI評価のための予測質問の自動生成と解決 [cs.LG, cs.AI]目的：AI評価用の予測質問の自動生成と解決システム
- 将来予測は意思決定に不可欠であり，汎用的な知能の重要な尺度である。
- 既存の自動化システムはデータソースが限られており，多様性と有用性に課題があった。
- LLMを活用し，高品質な予測質問を大規模に自動生成・解決することを目指す。
- システムによって1499個の多様な予測質問が生成・解決された。
- 生成された質問の検証可能性・明確性は96%であり，Metaculusを上回る。
- 質問の解決精度は95%であり，より高性能なLLMほど予測精度が高いことが確認された。
Link: https://arxiv.org/abs/2601.22444
自己進化型合成データから検証可能な報酬付き強化学習へ：後学習型多段階インタラクティブツール使用エージェント [cs.AI, cs.CL]目的：複雑な指示に従いながら，対話状態追跡と多段階ツール実行を行う，インタラクティブなツール使用エージェントの後学習
- 実世界タスク解決には，人間と環境との多段階対話が不可欠であり，その自動化は重要である。
- 高品質な多段階ツール使用データの合成が困難であり，規模拡大が課題となっている。
- ユーザシミュレーションによるノイズを軽減し，学習効率を向上させる手法を開発する。
- 自己進化型データ生成エージェントと検証者ベースの強化学習を組み合わせた「EigenData」フレームワークを提案した。
- 合成データを用いた強化学習により，SFTを超える一貫した性能向上を実現した。
- tau^2-bench評価において，Airlineで73.0%，Telecomで98.3%のpass^1を達成し，最先端モデルに匹敵する性能を示した。
Link: https://arxiv.org/abs/2601.22607
UAT-LITE：事前学習済みTransformerにおける推論時の不確実性認識型Attention [cs.AI]目的：事前学習済みTransformerにおける不確実性認識型Attentionの導入
- 自然言語処理モデルの信頼性は重要であり，誤った予測や不確実性の表現不足は課題となる。
- 既存手法では，出力確率の調整やアンサンブル，ベイズ法にコストがかかるか，内部計算が変わらない。
- 推論時にAttention機構に不確実性を組み込み，高精度かつ信頼性の高い予測を目指す。
- UAT-LITEは，SQuAD 2.0，MNLI，SST-2において，BERT-baseのECEを平均約20%削減した。
- 精度を維持しつつ，分布シフト下での選択的予測に適した情報豊かな不確実性を示した。
- 層ごとの分散分解により，Transformerの深さにおける予測不確実性の蓄積を診断可能にした。
Link: https://arxiv.org/abs/2602.02952
WebAccessVL：Webアクセシビリティのための違反を意識したVLM [cs.HC, cs.AI, cs.CV]目的：ウェブコンテンツ・アクセシビリティ・ガイドライン2 (WCAG2) の違反修正
- デジタルコンテンツのアクセシビリティは，情報への平等なアクセスを保証する上で重要である。
- Webサイトのアクセシビリティ違反は依然として多く，手動修正にはコストと労力がかかる。
- Webサイトのアクセシビリティを自動で改善し，効率的な修正を可能にすること。
- 提案手法は，未修正のWebサイトあたり平均0.211件の違反に抑え，これは生のデータにおける5.34件から96.0%の削減率である。
- GPT-5と比較して87%の改善が見られ，アクセシビリティの向上と性能の高さを示す。
- 知覚的評価では，修正されたWebサイトが元の視覚的表現とコンテンツをより良く維持することが確認された。
Link: https://arxiv.org/abs/2602.03850
報酬をラベルとして：分類の観点からのRLVRの再検討 [cs.LG, cs.CL]目的：強化学習における検証可能な報酬の枠組みを，分類問題として再構築すること
- 大規模言語モデルの複雑な推論能力向上において，明示的なルールに基づく監督学習が重要である。
- 既存のRLVR手法は，正例と負例の勾配配分において不均衡が生じ，学習効率が低下する問題がある。
- 報酬をカテゴリカルなラベルとして扱うことで，勾配配分の偏りを解消し，安定した学習を実現すること。
- 本研究で提案するREALは，勾配の重み付けを単調かつ制限的に誘導し，ロールアウト全体での勾配配分をバランスさせる。
- 数学的推論ベンチマークにおいて，REALはGRPOやDAPOといった既存手法と比較して，学習の安定性と性能を向上させる。
- 1.5BモデルではPass@1がDAPOより6.7%向上し，7BモデルでもDAPOとGSPOをそれぞれ6.2%，1.7%上回る結果が得られた。
Link: https://arxiv.org/abs/2602.05630
なぜチャットボットを信頼するのか：規範的原理から行動的要因へ [cs.RO, cs.CL, cs.AI, cs.CY, cs.HC]目的：チャットボットに対する信頼の形成メカニズム
- AI技術の発展に伴い，人間との対話型インターフェースであるチャットボットの利用が拡大している。
- チャットボットの信頼性は，単なる機能の信頼性だけでなく，心理的な要因に左右される点が課題である。
- チャットボットに対する信頼形成のプロセスを明確にし，適切な信頼構築を支援すること。
- チャットボットへの信頼は，必ずしも実績によるものではなく，認知バイアスを利用した設計によって形成される場合がある。
- チャットボットは，組織の目的を達成するための高度な営業担当者として捉えるべきである。
- 「信頼」という言葉の定義の曖昧さが，心理的な信頼形成と規範的な信頼性の区別を曖昧にしている。
Link: https://arxiv.org/abs/2602.08707