arXiv雑要約

AI - 2026/03/13 公開

TURA：AI検索のためのツール拡張型統合検索エージェント [cs.CL, cs.AI, cs.IR]目的：AI検索におけるツール利用と検索の統合
- 検索エンジンはAI化が進み，対話型検索が求められている。
- 従来のRAGアプローチは，リアルタイム性や動的コンテンツへの対応が課題である。
- 動的情報源との連携による，高度な検索機能の実現を目指す。
- 本研究で開発したTURAは，RAGとエージェントによるツール利用を組み合わせることで，静的・動的コンテンツ両方の検索を可能にした。
- TURAは，クエリの分解，タスクプランニング，効率的なツール呼び出しにより，並列実行と低遅延性を実現する。
- 大規模な産業システムにおいて，数千万人のユーザーにリアルタイムな検索結果を提供できることが示された。
Link: https://arxiv.org/abs/2508.04604
表情認識のためのパーソナライズされた特徴変換：効率的なソースフリードメイン適応法 [cs.CV, cs.AI]目的：表情認識における，ソースデータを用いないドメイン適応による性能向上
- 表情認識は，人間とコンピュータのインタラクションやヘルスケアなどに応用され，重要な技術である。
- 深層学習モデルは微妙な表情や個人差に弱く，実世界での性能が制限される場合がある。
- プライバシー保護と効率性を両立し，ラベルなしターゲットデータのみでモデルを適応させることを目指す。
- 提案手法SFDA-PFTは，潜在空間で特徴を変換することで，ノイズの多い画像生成を回避し，計算コストを削減する。
- SFDA-PFTは，BioVid，StressID，BAH，Aff-Wild2の実験において，最先端のSFDA手法を安定的に上回る性能を示した。
- 個人特有のスタイル特徴を変換しながら表情情報を保持する翻訳器を事前学習し，ターゲットデータへ適応させる。
Link: https://arxiv.org/abs/2508.09202
エージェントによるデザインレビューシステム [cs.AI, cs.CV, cs.LG, cs.MA, cs.MM]目的：グラフィックデザインの評価
- デザインの質は製品の成功に不可欠であり，客観的な評価手法が求められている。
- 専門家によるレビューは主観的であり，一貫性や再現性に課題がある。
- エージェントを活用し，デザインの多角的評価と具体的な改善提案を実現する。
- 提案システムAgenticDRSは，複数のエージェントが協調してデザインを分析する。
- グラフマッチングに基づく例示選択とプロンプト拡張により，エージェントはデザインを理解する。
- DRS-BENCHベンチマークを用いた実験により，AgenticDRSの有効性が確認された。
Link: https://arxiv.org/abs/2508.10745
ICDコーディング根拠の評価とLLMによる学習 [cs.AI]目的：ICDコーディング根拠の評価と，LLMを活用した学習手法の開発
- 医療記録の標準化されたコード化は，医療データの分析と活用に不可欠である。
- ICDコーディングモデルの根拠の評価は主観的で，一貫した基準と高品質なデータセットが不足している。
- LLMを用いて，説得力のある根拠を生成し，モデルの学習に活用することで，精度向上を目指す。
- ICDコーディングにおける根拠の信頼性と妥当性を評価し，その影響を分析した。
- MIMIC-IVデータベースに基づき，多粒度の根拠アノテーションデータセットを新たに構築した。
- LLMが生成する根拠は高い妥当性を示し，遠隔教師あり学習による学習手法の改善に貢献した。
Link: https://arxiv.org/abs/2508.16777
一度限りの全探索：LLM合成ジェネレーターによるスケルトン誘導SMTソルバーファジング [cs.SE, cs.AI, cs.PL]目的：SMTソルバーのバグ検出
- 現代のシステムやプログラミング言語研究の基盤であり，その正確性が重要である。
- ソルバーの機能が急速に進化しており，既存のテスト手法ではバグを発見しにくい。
- LLMを活用し，構文的に有効で意味的多様なテスト式を効率的に生成する。
- Once4Allは，LLMを用いてSMT理論のコンテキストフリー文法を自動的に抽出し，再利用可能な項のジェネレーターを合成する。
- 既存の式の構造的スケルトンに，LLM合成ジェネレーターによって生成された項を反復的に埋め込むことで，構文の有効性を保証しつつ意味的多様性を促進する。
- Z3とcvc5の2つの主要なSMTソルバーで評価した結果，43件の確認済みバグを特定し，そのうち40件は開発者によって修正された。
Link: https://arxiv.org/abs/2508.20340
埋め込みに基づく検索の理論的限界について [cs.IR, cs.CL, cs.LG]目的：埋め込みベクトル検索の理論的限界
- 情報検索において，埋め込みベクトルは重要な役割を担っている。
- 埋め込みベクトルは，次元の制約により表現できる情報量に限界がある。
- 単純なクエリでも理論的限界に達する可能性を示し，その検証を行う。
- 本研究では，学習理論に基づき，埋め込みの次元が検索可能なドキュメントの組み合わせ数に制限を設けることを示した。
- テストセットで直接最適化された自由パラメータの埋め込みを用いても，この結果は確認された。
- 現実的なデータセットLIMITを構築し，最先端モデルが単純なタスクでも失敗することを示し，既存の単一ベクトルパラダイムの限界を明らかにした。
Link: https://arxiv.org/abs/2508.21038
劣化推論のための階層的微分モデルによる遅延と高速な時間的ダイナミクスの分離 [cs.LG]目的：機械およびインフラシステムにおける劣化推論
- 設備の健全性監視と予知保全において，センサーデータからの劣化推論は不可欠である。
- 劣化は直接観測が難しく，運転状況や環境変動の影響が大きく，劣化過程の分離が困難である。
- 運転変動と劣化の分離を可能にし，より正確な劣化推論を実現することを目的とする。
- 提案手法であるH-CDEは，遅延劣化ダイナミクスと高速運転ダイナミクスを同時にモデル化することで数値効率を向上させる。
- H-CDEは，入力データを劣化に関連する制御パスへ変換し，単調性を強制する活性化関数を使用することで，効果的な劣化分離を可能にする。
- 機械およびインフラシステムでの評価により，H-CDEは残差ベースのベースラインよりも優れた性能を示すことが示された。
Link: https://arxiv.org/abs/2509.00639
テキスト学習済みLLMによる偏微分方程式の動力学のゼロショット外挿：3段階の文脈内学習メカニズムの解明 [cs.LG]目的：偏微分方程式の離散化された解からの時空間ダイナミクスの外挿
- 物理現象のシミュレーションは科学技術の発展に不可欠であり，高精度な予測が求められる。
- 従来の数値シミュレーションは計算コストが高く，複雑な問題に対応が難しい場合がある。
- LLMを用いて，少ない計算資源で高精度な時空間ダイナミクスの予測を可能にすること。
- テキスト学習済みのLLMが，ファインチューニングや自然言語プロンプトなしで，偏微分方程式の解を正確に外挿できることが示された。
- 予測精度は，より長い時間コンテキストで向上するが，空間離散化が細かくなると低下する。
- モデルの出力におけるトークンレベルの分布分析から，文法パターン模倣，探索的高エントロピー段階，数値に基づいた確信の持てる予測という3段階の文脈内学習の進行が明らかになった。
Link: https://arxiv.org/abs/2509.06322
次トークン予測から(STRIPS)ワールドモデルへ [cs.AI]目的：プランニングを支援するワールドモデルの実現可能性
- 人工知能におけるプランニングは，自律的な行動を可能にする基盤技術である。
- 既存のプランニング手法は，複雑な環境への適応や学習が困難な場合がある。
- トークン予測を用いて，より汎用的なプランニングを可能にするワールドモデルを構築すること。
- 次トークン予測により，従来のプランニング手法と同等の性能を持つワールドモデルを構築できることが示された。
- STRIPS Transformerは，記号的な誘導バイアスを持つが，最適化が難しく，汎化にはより多くのデータが必要となる。
- Stick-breaking attentionを用いた標準Transformerは，高い訓練精度と汎化性能を示した。
Link: https://arxiv.org/abs/2509.13389
単一画像からのモーション生成のための陰関数モデルの効率的な構築 [cs.RO, cs.AI, cs.CV]目的：単一画像からの陰関数表現の構築
- ロボット工学において，障害物回避や経路計画に陰関数表現が広く用いられる。
- 従来の陰関数表面再構成法は，多視点画像と長時間の学習を必要とする。
- 単一画像から高精度な陰関数表現を迅速に構築することを目指す。
- 提案手法FINSは，軽量な構造で高忠実度な表面とSDFフィールドを再構成する。
- マルチ解像度ハッシュグリッドエンコーダと軽量なジオメトリ・カラーヘッドを統合し，高速な学習を実現。
- 実験により，既存手法と比較して，収束速度と再構成精度が向上することが示された。
Link: https://arxiv.org/abs/2509.20681
離散拡散発散指示による超高速言語生成 [cs.CL, cs.AI, cs.LG]目的：超高速かつ高品質な言語生成手法
- AI時代において，高速で高品質な言語生成は重要な課題である。
- 既存手法では，生成速度と品質の両立が困難である。
- 拡散言語モデルの知識蒸留により，高速化と品質維持を両立する。
- DiDi-Instructは，事前学習済みの拡散言語モデルを基に，数ステップの生徒モデルを蒸留することで，高速化を実現した。
- OpenWebTextベンチマークにおいて，perplexityは62.2（8 NFEs）から18.4（128 NFEs）まで改善され，既存手法やGPT-2を上回った。
- 本手法は，わずかなエントロピー損失（約1％）で，追加の学習時間を競合手法よりも20倍以上削減する。
Link: https://arxiv.org/abs/2509.25035
空間逆問題に対するコントラスト拡散ガイダンス [cs.CV, cs.LG, eess.SP]目的：部分的にしか特定されない，滑らかでない，微分不可能な前方演算子を持つ逆問題の解決
- 空間認識やロボット工学など，現実世界のデータから構造を復元する上で不可欠な技術である。
- 前方演算子の不確実性や非微分可能性により，従来の勾配ベースの手法では安定した解が得られない。
- 拡散モデルを用いて，信頼性の低い勾配に依存せずに，よりロバストな逆問題解決を目指す。
- 提案手法CoGuideは，従来の逆問題ソルバーや誘導拡散よりも一貫性のある再構成を実現した。
- コントラスト学習により，経路と間取りの互換性を考慮した埋め込み空間を学習することで，安定したガイダンスを可能にした。
- 本手法は空間マッピングだけでなく，より広範な盲目逆問題にも応用可能であることを示した。
Link: https://arxiv.org/abs/2509.26489
TRACE：コンピュータサイエンス教育における共同プロジェクトのAI支援評価 [cs.HC, cs.AI, cs.CY]目的：コンピュータサイエンス教育における共同プロジェクト評価の改善
- チームワークや問題解決能力など，産業界で求められるスキルを育成する上で，共同プロジェクトは不可欠である。
- グループ内での個人の貢献度評価は公平性，客観性，スケーラビリティに課題があり，特に大規模な授業では困難である。
- リポジトリマイニングやコミュニケーション分析，AI支援分析を活用し，共同プロジェクト評価の透明性と効率化を目指す。
- TRACEのパイロット運用により，教員の評価との高い一致性，学生の満足度向上，教員の採点負担軽減が確認された。
- AI支援分析が，コンピュータサイエンス教育における共同プロジェクト評価の透明性とスケーラビリティ向上に貢献する可能性が示唆された。
Link: https://arxiv.org/abs/2510.03998
Wasserstein空間におけるBusemann関数：存在，閉形式，スライシングへの応用 [cs.LG, math.MG, stat.ML]目的：Wasserstein空間におけるBusemann関数の存在と計算
- 幾何学的機械学習において，多様体上の測地線への射影を定義するBusemann関数が重要である。
- 確率分布をデータとして扱う場合，Wasserstein空間におけるBusemann関数の計算が課題であった。
- Wasserstein空間におけるBusemann関数の閉形式解を導出し，確率分布の射影法を開発すること。
- 一次元分布とガウス分布において，Busemann関数の閉形式解を導出した。
- 導出された結果を用いて，ガウス混合モデルとラベル付きデータに対するスライシングWasserstein距離を定義した。
- 合成データセットと転移学習問題において，提案手法の有効性を示した。
Link: https://arxiv.org/abs/2510.04579
UniFField：あらゆるシーンにおける視覚，意味，空間的不確実性を扱う汎用的な統一ニューラル特徴フィールド [cs.RO, cs.CV, cs.LG]目的：3Dシーンの視覚，幾何学，意味的理解の包括的な表現
- ロボットが複雑な環境でタスクを実行する上で，3次元空間の理解は不可欠である。
- 既存手法は特定のシーンに特化しており，予測における不確実性のモデル化が困難である。
- 新しい環境へのゼロショット適用と，不確実性の推定を統合することで，ロバストな意思決定を実現する。
- UniFFieldは，視覚，意味，幾何学的特徴を単一の汎用的な表現に統合し，各モダリティにおける不確実性を予測する。
- シーン再構成と意味特徴予測におけるモデルの予測誤差を，正確に記述する不確実性推定が可能であることが示された。
- モバイルマニピュレータを用いた能動的物体探索タスクで，特徴予測と不確実性を活用し，ロバストな意思決定能力を実証した。
Link: https://arxiv.org/abs/2510.06754
反実仮想的な公平性を考慮した確証的予測 [cs.LG]目的：反実仮想的な公平性を満たす予測集合の生成
- 公平な意思決定は重要であり，不確実性下での公平性を確保する必要がある。
- 予測集合における反実仮想的な公平性の研究は十分に進んでいない。
- 確証的予測の枠組みに反実仮想的な公平性を導入し，公平な予測を可能にすること。
- 本研究で開発したCF-CPは，保護属性への介入を通して適合度スコアを対称化することで，反実仮想的な公平性を満たしつつ，周辺被覆率を維持する。
- 合成データおよび実データを用いた実験の結果，CF-CPは期待される反実仮想的な公平性を達成し，目標被覆率を満たした。
- 予測集合のサイズの増加は最小限に抑えられ，CF-CPは公平な不確実性定量化への簡便な手法を提供する。
Link: https://arxiv.org/abs/2510.08724
XGrasp：マルチグリッパーデータ生成によるグリッパー対応把持検出 [cs.RO, cs.AI]目的：新規グリッパー構成に対する把持検出の汎化
- ロボットが多様な作業を行うには様々なエンドエフェクタが必要であり，把持は重要な基本動作である。
- 既存の把持検出法は特定のグリッパーに最適化されており，新規グリッパーへの対応には再学習が必要となる。
- 追加学習なしに，多様なグリッパー構成に対応できる汎用的な把持検出フレームワークを開発する。
- XGraspは，既存の把持検出法と比較して，多様なグリッパータイプにおいて，把持成功率と推論速度の両方で優れた性能を示した。
- 本手法では，グリッパーの形状と把持軌跡を2チャンネル2D画像として表現することで，データ不足を補っている。
- コントラスト学習を用いてグリッパー非依存の埋め込み空間を構築し，新規グリッパーへの汎化を実現している。
Link: https://arxiv.org/abs/2510.11036
DriveCritic：ビジョン言語モデルによる文脈を意識した，人間との整合性の高い自動運転評価へ [cs.NI, cs.SY, eess.SY, cs.CV, cs.AI, cs.RO]目的：自動運転プランナーの人間判断との整合性評価
- 自動運転技術の安全性向上には，人間らしい運転行動の評価が不可欠である。
- 既存の評価指標は，複雑な状況における文脈を考慮できず，評価精度が課題である。
- 文脈を考慮した，人間との整合性の高い自動運転評価フレームワークの構築。
- DriveCriticは，人間が判断の難しい状況を収集したデータセットと，それらを評価するビジョン言語モデルで構成される。
- モデルは，視覚情報と状況情報を統合することで，より人間らしい評価が可能となる。
- 実験の結果，DriveCriticは既存の指標やベースラインを大幅に上回り，人間の選好と高い一致性を示した。
Link: https://arxiv.org/abs/2510.13108
CodeEvolve：アルゴリズム発見と最適化のための進化型コーディングエージェント [cs.AI, cs.LG, cs.NE]目的：アルゴリズム解法の合成
- 計算機科学において，効率的なアルゴリズムは重要な課題であり，性能向上に不可欠である。
- 既存のアルゴリズム探索手法は，計算コストが高く，複雑な問題への適用が難しい場合がある。
- より効率的かつ低コストで高性能なアルゴリズムを自動的に発見することを目指す。
- CodeEvolveは，大規模言語モデルと進化探索を組み合わせることで，高性能なアルゴリズム解法を合成するフレームワークである。
- 評価の結果，CodeEvolveはいくつかのタスクで最先端の性能を達成し，オープンウェイトモデルがクローズドソースのベースラインに匹敵またはそれを上回った。
- 本フレームワークは，従来のアルゴリズム探索手法と比較して，計算コストを大幅に削減できることが示された。
Link: https://arxiv.org/abs/2510.14150
3次元で考える：限られた視点からの幾何学的想像力に基づく空間推論 [cs.CV, cs.AI]目的：限られた視点からの3次元空間推論における幾何学的想像力の活用
- 画像と言語を組み合わせるマルチモーダルAIの発展は目覚ましいが，3次元空間の理解は依然として課題である。
- 既存手法はテキストや2次元視覚情報に依存し，3次元空間推論に必要な表現力に限界がある。
- 3次元の事前知識やラベルなしで，画像から3次元的な思考を可能にし，空間推論の精度向上を目指す。
- 提案手法3DThinkerは，VLMで推論する際に画像内に埋め込まれた幾何学的情報を活用する。
- 3DThinkerは，3次元の事前情報やラベル付きデータなしで3次元的な思考を可能にする初のフレームワークである。
- 複数のベンチマークにおいて，既存手法を上回り，マルチモーダル推論における3次元表現の統合に新たな視点を提供する。
Link: https://arxiv.org/abs/2510.18632
定量的抽象の基礎理論：随伴，双対性，確率的システムの論理 [cs.LO, cs.AI, cs.LG]目的：確率的システムの定量的抽象に関する理論
- 確率的システムの解析と制御は重要であり，その複雑さに対処する必要がある。
- 大規模または連続的な状態空間により，正確な解析が困難であるという問題がある。
- 行動擬距離に基づく，詳細かつ普遍的な抽象手法を確立することを目指す。
- 圏論，余圏論，定量的論理，最適輸送を統合した統一的な抽象理論を構築した。
- 定量的μ-calculusが行動擬距離を表現可能であり，計算に適した部分集合が存在することを示した。
- 有限状態モデルを用いた実験により，理論的予測との整合性，および収縮特性と構造安定性が確認された。
Link: https://arxiv.org/abs/2510.19444
メモリ節約以上の効果：ゼロ次最適化は継続学習における忘却を軽減する [cs.LG, cs.CV]目的：継続学習における忘却軽減策
- AIモデルの継続学習は，人間のように新しい知識を継続的に獲得する上で重要である。
- 継続学習では，過去の知識を保持しつつ新しい知識を獲得することが困難である。
- ゼロ次最適化の安定性に着目し，効率的な継続学習手法を開発する。
- ゼロ次最適化は，より平坦な損失地形を生み出し，継続学習における忘却を減少させる。
- しかし，精度が低く収束が遅いため，新しいタスク固有の知識の獲得には不利な面がある。
- 提案手法 ZO-FC は，ゼロ次最適化と一階最適化の利点を組み合わせ，メモリ効率の良い継続学習を実現する。
Link: https://arxiv.org/abs/2510.21019
信念力学が文脈内学習と活性化誘導の二面性を明らかにする [cs.LG, cs.AI, cs.CL, stat.ML]目的：大規模言語モデルの制御メカニズムに関する理解
- 近年，大規模言語モデルの能力が向上し，その制御方法の解明が重要となっている。
- 文脈内学習と活性化誘導は有効だが，その根本的なメカニズムは不明であり，統一的な説明がない。
- これらの制御方法を，信念の変化という共通の枠組みで説明し，予測可能性を高める。
- 文脈内学習と活性化誘導は，潜在概念に対する信念に影響を与えることでモデルの振る舞いを変化させる。
- 活性化誘導は概念の事前確率を変更し，文脈内学習は証拠の蓄積をもたらす。
- 提示されたベイジアンモデルは，介入の対数信念空間における加法性など，新たな現象を予測することに成功した。
Link: https://arxiv.org/abs/2511.00617
ジュニアAI科学者とそのリスク報告：基盤論文からの自律的な科学的探求 [cs.RO, cs.AI, cs.CL, cs.CV, cs.LG]目的：AI科学者システムの現状とリスクの理解
- AI技術の科学研究への応用は，研究の効率化や新たな発見の可能性を秘めている。
- 既存のAI科学者システムは，自動化の限界や研究の質，倫理的な問題などが課題となっている。
- 本研究は，AI科学者システムの潜在的なリスクを明らかにし，安全な発展のための指針を示すことを目指す。
- Jr. AI科学者は，既存の論文を分析し，改善のための仮説を立て，実験を繰り返して論文を作成することに成功した。
- 生成された論文は，DeepReviewerによる評価において，既存の完全自動化システムよりも高い評価を得た。
- 著者評価およびAgents4Scienceのレビューからは，AI科学者システムの直接的な応用におけるリスクと今後の課題が明らかになった。
Link: https://arxiv.org/abs/2511.04583
適応的双曲カーネル：de Branges-Rovnyak空間における変調埋め込み [cs.RO, cs.AI]目的：階層データの双曲空間への埋め込み表現の最適化
- 機械学習の多様な応用において，階層データの重要性が高まっている。
- 既存の双曲カーネルは，幾何学的歪みや適応性の欠如といった課題を抱えている。
- 双曲空間の表現力を向上させ，階層構造のモデリング精度を高めることを目指す。
- 提案手法では，curvatureを考慮したde Branges-Rovnyak空間を導入し，適応的なRKHSを構築した。
- 新たに適応双曲放射カーネルを設計し，タスクに応じて双曲特徴量を調整可能にした。
- 画像および言語タスクのベンチマーク実験により，既存の双曲カーネルを上回る性能が確認された。
Link: https://arxiv.org/abs/2511.09921
LLM生成コードの品質保証：非機能的品質特性への対処 [cs.SE, cs.AI]目的：LLM生成コードの非機能的品質特性に関する理解と品質保証メカニズムの統合
- ソフトウェア開発におけるLLMの利用拡大に伴い，生成コードの品質が重要課題となっている。
- 従来の評価は機能的正確性に偏り，セキュリティや保守性といった非機能的品質特性の評価が不十分である。
- 学術的焦点，業界の優先順位，モデルの挙動のずれを明らかにし，品質保証の必要性を訴える。
- 既存研究はセキュリティ，効率性，保守性に重点を置いているが，他の品質特性は研究が不足している。
- 実務家は保守性と可読性を優先し，生成コードが技術的負債の蓄積を加速させる可能性を指摘している。
- 実用的なソフトウェアエンジニアリング環境では，プロンプトによるNFQCの最適化は不安定であることが示された。
Link: https://arxiv.org/abs/2511.10271
モバイルエージェントRAG：文脈知識の強化によるスマートなマルチエージェント協調による長期的モバイル自動化 [cs.AI, cs.IR]目的：長期的かつ複雑なモバイル自動化におけるマルチエージェント協調の性能向上
- モバイルエージェントは様々な応用が期待されているが，実用化には課題が多い。
- 既存のモバイルエージェントは，知識の偏りから計画段階や操作段階で誤りを起こしやすい。
- 計画と操作で必要となる知識の種類が異なる点を考慮し，RAGを活用して知識を強化する。
- Mobile-Agent-RAGは，計画段階で高レベルなタスクプランを，操作段階では詳細なUI操作の指針をそれぞれRAGにより取得する。
- これにより，戦略的な誤りやUI操作の誤りを減らし，タスクの完了率と効率を向上させる。
- 実験結果から，Mobile-Agent-RAGは既存手法を大幅に上回り，タスク完了率を11.0%，ステップ効率を10.2%改善した。
Link: https://arxiv.org/abs/2511.12254
DeepSport：エージェント的強化学習による包括的なスポーツビデオ推論のためのマルチモーダル大規模言語モデル [cs.SI, cs.CV, cs.AI]目的：多種多様なスポーツビデオの理解
- スポーツビデオ分析は，高度な認識技術を必要とし，スポーツ科学やエンターテインメント分野で重要である。
- 既存のモデルは特定のスポーツやタスクに限定され，汎用的な理解が課題であった。
- 多様なスポーツに対応可能な，汎用性の高いビデオ理解モデルの構築を目指す。
- DeepSportは，多数のスポーツとタスクに対応した初の端点間学習型マルチモーダル大規模言語モデルである。
- フレームの動的な抽出により「ビデオ思考」を実現し，強力な既存モデルを凌駕する性能を示した。
- 未学習のスポーツへの高い転移性と，効率的なビデオ推論能力を確立した。
Link: https://arxiv.org/abs/2511.12908
ConCISE：LLM生成応答の簡潔性評価のための参照不要指標 [cs.IR, cs.CL, cs.AI]目的：LLM生成応答の簡潔性評価
- LLMの普及に伴い，応答の質が重要視されている。特に，簡潔さはユーザビリティとコストに直結する。
- LLMは冗長な応答を生成しがちであり，明確性やユーザ満足度を損なう可能性がある。
- 参照データなしにLLM応答の冗長性を定量的に評価する指標を開発すること。
- 提案手法は，応答の抽象的要約と抽出的要約との圧縮率，および単語削除圧縮率に基づいて簡潔性を評価する。
- 実験結果から，本指標はLLM出力の冗長性を検出し，自動評価に役立つことが示された。
- 人間によるアノテーションが不要であり，実用的な簡潔性評価ツールとなりうる。
Link: https://arxiv.org/abs/2511.16846
3D血管樹の中心線抽出のための，合流軌跡の反復的洗練：RefTr [cs.CV, cs.AI, cs.LG]目的：3D血管樹の中心線抽出の精度向上
- 血管や気管支などの管状構造は，診断，治療計画，手術ナビゲーションにおいて重要である。
- 中心線抽出において，小さな分岐を見逃すと，評価の不備や異常の見落としにつながる可能性がある。
- 合流軌跡の反復的洗練により，正確なトポロジーを維持しつつ，中心線抽出の精度を高めることを目指す。
- RefTrは，TransformerベースのProducer-Refinerアーキテクチャを採用し，候補軌跡を反復的に洗練する。
- 合流軌跡表現により，分岐全体の洗練が可能となり，パラメータ数を2.4倍削減することに成功した。
- 複数の公開データセットにおいて，全体的な性能向上，高速な推論，およびパラメータ数の大幅な削減が示された。
Link: https://arxiv.org/abs/2511.20823
MedEyes：医学的進行診断のための動的視覚焦点学習 [cs.CV, cs.AI]目的：医学的進行診断における動的視覚焦点の学習
- 医学診断の精度向上は，医療の質を向上させる上で不可欠である。
- 既存のビジョン言語モデルは，臨床的に不正確な推論経路を強化する傾向がある。
- 臨床医の視覚探索を模倣し，より信頼性の高い診断AIシステムを構築すること。
- MedEyesは，臨床医の診断推論を模倣する新しい強化学習フレームワークである。
- 専門家の視覚探索軌跡を外部シグナルに変換し，臨床的に整合性の高い視覚推論を誘導する。
- 複数の医学的VQAベンチマークにおいて，平均パフォーマンスが+8.5pp向上し，有効性が確認された。
Link: https://arxiv.org/abs/2511.22018
ドメイン特徴の崩壊：外れ分布検出への示唆と解決策 [cs.HC, cs.LG]目的：外れ分布検出における性能低下の原因解明と改善策の提案
- 機械学習モデルの信頼性確保は重要であり，未知のデータに対する性能評価が不可欠である。
- 単一ドメインデータで学習したモデルは，外れ分布の検出において著しい性能劣化を示すという課題がある。
- ドメイン特徴の崩壊を防ぎ，外れ分布検出性能を向上させることを目指す。
- 単一ドメインデータでの学習は，ドメイン固有情報の損失を引き起こす「ドメイン特徴の崩壊」をもたらすことが理論的に証明された。
- この崩壊は，情報ボトルネック最適化の必然的な結果であり，外れ分布検出における性能低下の根本的な原因である。
- 事前学習済み表現を用いたドメインフィルタリングにより，ドメイン特徴の保存が可能であり，性能改善が確認された。
Link: https://arxiv.org/abs/2512.04034
POrTAL：探索的計画組み立てによる先読み [cs.CG, math.GT, cs.RO, cs.AI]目的：部分観測環境下におけるロボットの計画立案の効率化と頑健性の向上
- ロボットは不確実性下でタスクを達成する必要があり，計画立案能力が重要である。
- 既存の確率的計画アルゴリズムは計算資源に制限がある場合や，計画ステップ数が過多になる場合がある。
- 計算時間制約下で，効率的かつ最適な計画を立案することを目指す。
- POrTALは，既存のFF-ReplanおよびPOMCPの利点を組み合わせた軽量な確率的計画アルゴリズムである。
- 限られた計算時間内で，POrTALはベースラインアルゴリズムよりも短い計画を生成する傾向にある。
- 特に，不確実性のレベルが中程度の問題において，その性能が顕著である。
Link: https://arxiv.org/abs/2512.06002
過パラメータ化されたニューラルネットワークにおけるエントロピー的閉じ込めとモード連結 [cs.LG, cond-mat.dis-nn, cond-mat.stat-mech, cs.AI, stat.ML]目的：ニューラルネットワークの損失地形におけるエントロピー的障壁の特定
- 深層学習モデルの性能向上には，損失地形の理解が不可欠である。
- 最適化過程が単一の凸状領域に留まり，他の領域への探索が困難である。
- エントロピー的障壁が最適化の局所化に及ぼす影響を解明すること。
- 損失地形における曲率変動と最適化ノイズの相互作用によりエントロピー的障壁が生じることが示された。
- 曲率は最小値から離れるにつれて系統的に上昇し，ノイズの多いダイナミクスを終点へと偏らせる力が働くことが確認された。
- これらの障壁はエネルギー障壁よりも長く持続し，パラメータ空間における解の局所化を形成する。
Link: https://arxiv.org/abs/2512.06297
構造化Chain-of-Thoughtを用いた知識蒸留によるText-to-SQL [cs.CL, cs.AR, cs.CL, cs.AI, cs.DB]目的：Text-to-SQLシステムの知識蒸留
- 企業レベルでのText-to-SQLシステムは重要であり，コスト，セキュリティ，性能のトレードオフが課題である。
- 高性能なLLMは高コストであり，SLMは性能が低いという問題がある。
- 構造化された推論表現を用いることで，より信頼性の高い教師信号を提供し，SLMの性能向上を目指す。
- 構造化CoTを用いた知識蒸留により，非構造化CoT蒸留のベースラインと比較して絶対的な性能が8.1%向上した。
- エラー分析の結果，構文エラーの減少が性能向上の一因であることが示された。
- 構造化された論理的ブループリントを用いた推論指導が，SLMにおける信頼性の高いSQL生成に有効であることが実証された。
Link: https://arxiv.org/abs/2512.17053
普遍人工知能における無知の価値 [cs.AI]目的：広範な効用関数を許容するAIXI強化学習エージェントの一般化
- 人工知能の意思決定は，不確実性下での最適な行動選択が重要である。
- エージェントの信念分布は不完全であり，有限の履歴しか予測できない場合がある。
- 信念分布の不確実性を考慮し，効用計算における無知の影響を評価する。
- 曖昧な確率分布理論におけるChoquet積分を用いた期待効用を検討した。
- 標準的な再帰的価値関数は，その特殊なケースとして導出できることが示された。
- しかし，我々の一般的な期待効用はChoquet積分として表現できない場合がある。
Link: https://arxiv.org/abs/2512.17086
SDUM：普遍的なMRI再構成のためのスケーラブルな深層アンロールモデル [cs.CV, cs.AI]目的：多様なMRIプロトコルに対応可能な普遍的な再構成手法の開発
- 臨床MRIは多様なプロトコルを包含し，医療現場でのニーズが高い。
- 既存の深層学習再構成はプロトコル特化型であり，汎用性に課題がある。
- 多様なMRIデータに対して単一モデルで高性能な再構成を実現すること。
- SDUMは，パラメータ数と再構成品質に強い相関関係(r=0.986)を示すスケーラブルな深層学習モデルである。
- 多様なデータセットで学習したSDUMは，CMRxRecon2025の全トラックで最先端の結果を達成し，既存手法を上回る性能を示した。
- 各コンポーネントの検証により，提案手法の有効性が確認された(SWDC:+0.43dB, CSME:+0.51dB, UC:+0.38dB)。
Link: https://arxiv.org/abs/2512.17137
パラメータ化された非自己共役固有値問題のための深部固有空間ネットワーク [math.NA, cs.LG, cs.NA]目的：パラメータ化された非自己共役固有値問題の効率的な解法
- 非自己共役演算子の固有値問題は，工学や物理学の様々な分野で重要である。
- 非自己共役演算子はスペクトル不安定性やモードの切り替えを引き起こしやすく，解法が難しい。
- 複雑なスペクトル依存性を捉え，安定した解を提供する手法の開発。
- 深部固有空間ネットワーク（DEN）は，Fourier Neural OperatorやPOD基底，モード混合機構を統合している。
- DENは，パラメータに対する固有空間のLipschitz連続性を証明し，固有値に関する誤差限界を導出した。
- 数値実験により，DENの有効性と効率性が確認された。
Link: https://arxiv.org/abs/2512.20058
KnowVal：知識拡張および価値誘導型自律運転システム [cs.RO, cs.AI, cs.CV]目的：知識拡張と価値誘導による自律運転システムの開発
- 高度な自動運転には，視覚言語推論，運転知識，価値観の整合が不可欠である。
- 既存手法はデータ駆動型であり，意思決定の根底にある複雑な論理を捉えにくい。
- 本研究は，知識グラフとLLMを活用し，より安全で倫理的な運転計画を目指す。
- 提案手法KnowValは，既存のアーキテクチャと互換性を保ちつつ，運転計画の性能を大幅に向上させた。
- nuScenesにおいて最低の衝突率を達成し，Bench2DriveとNVISIMでも最先端の結果を示した。
- 知識グラフと価値モデルを組み合わせることで，解釈可能で価値観に沿った軌道評価を実現した。
Link: https://arxiv.org/abs/2512.20299
エージェント型説明可能な人工知能によるより良い説明の探求 [cs.AI, cs.HC]目的：説明の質的向上
- AIの信頼性向上のためには，AIの判断根拠を人間が理解しやすい形で提示することが不可欠である。
- 説明可能なAI（XAI）の出力は専門的で，一般の人々への伝達が困難であるという課題がある。
- エージェント型AIとXAIを統合し，反復的な改善を通じて説明の質を高めることを目指す。
- 提案手法は，人間の専門家とLLMによる評価において，説明の質が平均30-33%向上することを確認した。
- 最適な説明品質はラウンド3-4で達成され，過度な反復は説明の冗長化や抽象化を招き，品質低下を引き起こすことが示された。
- 戦略的な早期停止（正則化）が，実用的な有用性を最適化するための重要な要素であることが示唆された。
Link: https://arxiv.org/abs/2512.21066
流れに任せろ：ロックンロールにおける能動的クラフト，オープンな能動的学習エコシステムにおけるROMEモデルの構築 [cs.AI, cs.CL]目的：能動的クラフトのためのモデル構築と評価
- LLMを実世界で活用するためには，環境とのインタラクションが不可欠である。
- オープンソース界では，能動的エージェント開発を効率化する包括的な環境が不足している。
- 能動的エージェント開発のパイプラインを最適化する基盤的インフラストラクチャの提供。
- ALE（Agentic Learning Ecosystem）という，エージェントモデルの生産性を向上させる基盤を開発した。
- ROMEは，ALEによって支えられ，100万件以上の軌跡で学習されたオープンソースエージェントである。
- ROMEは，SWE-bench VerifiedやTerminal Benchといったベンチマークで高い性能を示し，ALEの有効性を証明した。
Link: https://arxiv.org/abs/2512.24873
LLMは遠隔監視型固有表現ラベルを適切に評価できるか？JudgeWELデータセットの構築 [cs.CL, cs.AI]目的：ルクセンブルク語の固有表現認識のためのデータセット
- 自然言語処理において，リソースが少ない言語への対応は重要な課題である。
- リソースの不足や言語的特徴により，大規模なアノテーションはコストがかかり，一貫性に欠ける場合がある。
- WikipediaとWikidataを活用し，高品質なラベル付き文を効率的に生成すること。
- JudgeWELデータセットは，既存のルクセンブルク語NERデータセットの約5倍の規模である。
- データセットは，より広範でバランスの取れたエンティティカテゴリの網羅性を提供する。
- LLMを活用した新しいパイプラインにより，自動的にラベル付けし，品質を検証した。
Link: https://arxiv.org/abs/2601.00411
LLMTrack：マルチモーダル大規模言語モデルによるセマンティック多物体追跡 [cs.CL, cs.CL, cs.CV, cs.AI]目的：セマンティック多物体追跡における新しいフレームワークの提案
- ビデオ理解において，単なる物体検出から，物体間の関係性を理解するセマンティック追跡へのニーズが高まっている。
- セマンティックデータの不足と，追跡アーキテクチャとマルチモーダル大規模言語モデル間の構造的な乖離が課題となっている。
- 大規模なデータセットとフレームワークを用いて，セマンティック追跡と認知的な推論のギャップを埋めることを目指す。
- LLMTrackは，幾何学的追跡性能において最先端の結果を達成し，動的なセマンティック推論において飛躍的な進歩を示した。
- 高品質なセマンティック記述が言語モデルに複雑な社会的相互作用を自然に推論させることを明らかにした。
- 知覚的な追跡と認知的な推論の架け橋となり，包括的なビデオ理解とインテリジェントな物語生成の新たな基盤を確立した。
Link: https://arxiv.org/abs/2601.06550
長期・短期株式取引およびリスク調整後リターン最適化のための学習可能なウェーブレットTransformer [cs.CY, cs.CE, econ.GN, q-fin.EC, cs.CL, cs.HC, cs.RO, cs.IR, cs.CL, cs.LG, cs.AI, q-fin.CP]目的：株式取引における利益最大化とリスク調整後リターンの最適化
- 金融市場はノイズが多く，非定常性があり，関連資産間に強い依存関係があるため，取引戦略の構築が困難である。
- 従来の時系列予測は予測誤差の最適化に重点を置いており，ポジションサイジングやポートフォリオ構築を別途行う必要があった。
- マルチスケール分解とリターン志向の意思決定学習を統合し，リスクを考慮したポートフォリオを直接生成するモデルを開発する。
- 提案手法WaveLSFormerは，MLP，LSTM，Transformerといった既存モデルを上回り，一貫して高いパフォーマンスを示した。
- WaveLSFormerは，6つの産業グループにおける5年間の時間データを用いて評価した結果，累積戦略リターンが0.607±0.045，シャープレシオが2.157±0.166を達成した。
- 学習可能なウェーブレットフロントエンドとLGHIモジュールが，マルチスケール情報を効率的に融合し，安定した学習に貢献している。
Link: https://arxiv.org/abs/2601.13435
LLMベースの音声認識におけるテキストノイズ除去を通じたテキストのみの適応 [cs.CL, cs.HC, cs.SD, cs.CL, cs.LG, eess.AS]目的：LLMベースの音声認識システムへのテキストのみの適応
- 音声認識は，人間と機械のコミュニケーションにおいて重要な役割を担う技術である。
- LLMを新たなドメインに適応させる際，音声とテキストの整合性が損なわれやすい。
- テキストのみで効率的に適応させつつ，音声とテキストの整合性を維持すること。
- 提案手法は，テキストノイズ除去というタスクとしてテキストのみの適応を捉えることで，ドメイン適応とモダリティ整合性の維持を両立する。
- 本手法は，アーキテクチャ変更や追加パラメータを必要としない軽量なアプローチである。
- 2つのデータセットによる評価で，最新のテキストのみ適応手法を最大22.1%上回る相対的な性能向上を実証した。
Link: https://arxiv.org/abs/2601.20900
WideSeek-R1：マルチエージェント強化学習による広範な情報探索のための幅の拡張 [cs.RO, cs.CL, cs.AI, cs.LG, cs.MA]目的：広範な情報探索における幅の拡張
- 大規模言語モデルの進歩は目覚ましいが，複雑なタスクの組織化能力が課題となっている。
- 既存のマルチエージェントシステムは，手動で作成されたワークフローに依存し，並列化が困難である。
- マルチエージェント強化学習によって，並列実行とスケーラブルなオーケストレーションを両立させる。
- WideSeek-R1-4BはWideSearchベンチマークで40.0%のアイテムF1スコアを達成し，DeepSeek-R1-671Bと同等の性能を示した。
- 並列サブエージェントの数を増やすことで，WideSeek-R1-4Bは一貫した性能向上を示し，幅の拡張の有効性を証明した。
- 本研究は，広範な情報探索において，深さの拡張に加えて幅の拡張が重要であることを示した。
Link: https://arxiv.org/abs/2602.04634
LLM駆動によるマルチモーダル推薦 [cs.IR, cs.AI]目的：モチベーションに基づく推薦システムの性能向上
- ユーザーの行動原理を理解することは，推薦システムの精度向上に不可欠である。
- 既存手法では，レビューテキストのような異種情報が活用されず，モチベーションが潜在変数として扱われる。
- テキスト情報からユーザーとアイテムのモチベーションを深層的に理解し，推薦精度を改善する。
- LMMRecは，大規模言語モデルを用いてテキストから詳細なモチベーションを抽出する。
- テキストとインタラクション双方のモチベーションをモデル化し，クロスモーダルな整合性を実現する。
- 実験結果から，LMMRecは最先端手法と比較して最大4.98%の性能向上を達成した。
Link: https://arxiv.org/abs/2602.05474
エネルギーを意識したメタヒューリスティクス [cs.NE]目的：エネルギー制約下におけるメタヒューリスティクスの設計
- 最適化問題は現実世界の様々な分野で不可欠であり，効率的な解法が求められている。
- 既存のメタヒューリスティクスは，エネルギー消費を考慮していない場合が多い。
- 限られたエネルギー資源下で最大の性能向上を目指す手法の確立。
- 提案手法は，演算子レベルで数値的な利得とエネルギー使用量を定量化する統合モデルを導入した。
- エネルギー効率の良い演算子を動的に選択することで，限られたエネルギー内で性能最大化を試みた。
- 実験の結果，提案手法はエネルギー消費量を大幅に削減しつつ，従来のメタヒューリスティクスと同等の性能を達成した。
Link: https://arxiv.org/abs/2602.06595
スナップショットを超えて：エンティティ状態調整による構造と系列の調和 - 時間的知識グラフ予測 [cs.NI, cs.MA, cs.AI, cs.CL]目的：時間的知識グラフ予測における将来の事実の予測
- 知識グラフは，実世界の複雑な関係性を表現する上で重要であり，様々な応用が期待される。
- 既存手法は，エンティティ表現を各タイムステップで再計算するため，長期的な依存関係の保持が課題である。
- エンティティの状態を継続的に進化させることで，長期的な依存関係を捉え，予測精度を向上させることを目指す。
- 本研究では，エンティティ状態調整（EST）という，エンティティに持続的な状態を付与するフレームワークを提案する。
- ESTは，構造的証拠と系列的信号を調整し，グローバルな状態バッファを維持することで，長期的な依存関係を効果的に学習する。
- 複数のベンチマーク実験の結果，ESTは様々なバックボーンで性能を向上させ，最先端の結果を達成した。
Link: https://arxiv.org/abs/2602.12389
多段階攻撃に対する大規模推論モデルの一貫性 [cs.AI, cs.CL]目的：大規模推論モデルにおける多段階攻撃への堅牢性評価
- 複雑なタスクにおいて，推論能力を持つ大規模言語モデルの性能は高い。
- 敵対的圧力下での堅牢性が十分に検証されていない。
- 推論モデル固有の脆弱性を特定し，対策を検討する。
- 推論モデルは指示調整済みモデルより優れているものの，脆弱性は残存する。
- 誤解を招く提案は全てに有効であり，社会的圧力はモデルによって効果が異なる。
- 自己疑念，社会的服従，提案の乗っ取り，感情的な脆弱性，推論疲労の5つの失敗モードが特定された。
Link: https://arxiv.org/abs/2602.13093