arXiv雑要約

AI - 2026/03/23 公開

クラスタリングにおけるシルエット評価指標の上限 [cs.LG]目的：クラスタリングの品質評価におけるシルエット係数の上限
- クラスタリングは，データ分析や機械学習において重要な手法である。
- 既存のシルエット係数は最大値が不明確で，解釈が困難な場合がある。
- データセット固有のシルエット係数の上限を導出し，評価の精度向上を目指す。
- データ点ごとのシルエット幅の上限を導出し，ASW全体のcanonicalな上限を算出した。
- この上限は，既存の評価指標の解釈を深め，最適なクラスタリング結果への接近度を把握するのに役立つ。
- 様々なデータセットで評価した結果，上限はデータセットに依存して実用的な意味を持つことが示唆された。
Link: https://arxiv.org/abs/2509.08625
意味駆動型トピックモデリングによる仮想ブレインストーミングにおける創造性の分析 [cs.RO, cs.CL, cs.AI]目的：仮想ブレインストーミングにおける創造性の分析手法
- 協調的な問題解決において，仮想ブレインストーミングが重要性を増している。
- 大量かつ不均一なアイデアから価値ある知見を効率的に抽出することが課題である。
- アイデアの質の評価を自動化し，ブレインストーミング分析の効率化を目指す。
- 提案手法は，既存のトピックモデリング手法（LDA, ETM, BERTopic）と比較して高いトピックコヒーレンスを示す。
- 平均コヒーレンススコアは0.687 (CV) であり，ベースラインを大幅に上回る結果が得られた。
- 本研究は，埋め込みベースのトピックモデリングが協調的なアイデア創出の分析に有用であることを示唆する。
Link: https://arxiv.org/abs/2509.16835
World4RL：強化学習によるロボット操作のための拡散ワールドモデルを用いたポリシー洗練 [cs.RO, cs.AI]目的：ロボット操作におけるポリシー洗練
- ロボットの自律的な操作能力は，様々なタスクの自動化に不可欠であり，産業界や日常生活での応用が期待される。
- 熟練データの不足やシミュレーション環境と現実世界の乖離が，ロボットの学習における大きな課題となっている。
- 拡散ワールドモデルを用いて，現実世界での訓練コストと危険性を回避しつつ，ポリシーを効率的に改善することを目指す。
- World4RLは，拡散に基づくワールドモデルを高精度なシミュレーターとして活用し，ロボット操作のための事前学習済みポリシーを，仮想環境で完全に洗練するフレームワークである。
- 既存研究とは異なり，計画ではなく，エンドツーエンドのポリシー最適化を可能にする。
- シミュレーションと実世界実験の結果，World4RLは高精度な環境モデリングを実現し，模倣学習や他のベースラインと比較して，大幅に高い成功率を示した。
Link: https://arxiv.org/abs/2509.19080
評価を意識した強化学習 [cs.AI, cs.LG]目的：強化学習における方策評価の精度向上
- 強化学習は，自律的な意思決定システムの実現に不可欠であり，その安全性確保は重要課題である。
- 従来の評価手法は，高い分散や偏りを抱えており，信頼性の高い評価が困難である。
- 学習時に評価精度を考慮することで，より安全で効率的な方策の獲得を目指す。
- 本研究で提案するEvA-RLは，評価精度と期待収益のトレードオフを効果的に行うことが示された。
- 方策と評価メカニズムを同時に学習することで，このトレードオフを緩和し，性能劣化を抑制できることが確認された。
- 本研究は，信頼性の高い評価を強化学習の重要な要素として位置づける新たな研究方向性を示す。
Link: https://arxiv.org/abs/2509.19464
責任あるAI技術報告書 [cs.CL, cs.AI]目的：責任あるAIの評価手法とリスク軽減技術
- AI技術の社会実装が拡大する中で，安全性と信頼性の確保が不可欠となっている。
- AI開発から運用に至るまでの潜在的なリスク要因の特定と管理が十分に進んでいない。
- 国内環境に適したAIリスク分類に基づき，モデルの安全性と堅牢性を体系的に検証する。
- 責任あるAIの評価手法を確立し，AIサービスの安全性と信頼性を確保するための技術基盤を整備した。
- 有害な応答をリアルタイムでブロックする「SafetyGuard」を公開し，国内AI開発エコシステムの安全性向上を支援する。
- 本研究成果は，責任あるAIを開発しようとする組織にとって貴重な知見を提供する。
Link: https://arxiv.org/abs/2509.20057
偽相関下における弱対強汎化は起こり得るか？ [cs.RO, cs.LG, stat.ML]目的：偽相関を含む下流タスクにおいて，弱い教師からの擬似ラベルを用いて強力な事前学習済み生徒モデルを微調整する際の弱対強汎化の可能性とその改善策
- 弱対強汎化は，計算資源の少ない環境で高性能なモデルを構築するための重要な手法である。
- グループ不均衡による偽相関が存在する場合，弱対強汎化が失敗する可能性がある。
- 教師と生徒のデータのグループ不均衡が異なる場合に生じる弱対強汎化の失敗を克服する。
- 理論的に，擬似ラベルの量が十分であれば，教師と生徒のグループ不均衡が等しい場合に弱対強汎化が常に起こることが示された。
- 教師と生徒のグループ不均衡が異なる場合，弱対強汎化の利得は(η_u - η_ℓ)^2に比例して減少する。
- 弱対強汎化の性能を向上させるため，高い信頼度を持つデータサブセットで生徒モデルを再学習するアルゴリズムが提案された。
Link: https://arxiv.org/abs/2509.24005
RealUnify：統合モデルは真に統合から恩恵を受けているか？包括的ベンチマーク [cs.AI]目的：双方向の能力相乗効果の評価
- 汎用AI実現に向け，画像理解と生成を統合する統一マルチモーダルモデルの研究が重要である。
- 既存の評価方法は，理解と生成を個別に評価するものが多く，統合モデルの相乗効果を測れない。
- 理解と生成の相互作用を評価し，統合モデルの真の能力を引き出す方法を確立することを目指す。
- RealUnifyベンチマークは，10カテゴリー，32サブタスク，1000件の人手アノテーションデータで構成される。
- 12の主要な統合モデルと6つの専門モデルの評価により，現在のモデルは有効な相乗効果を達成できていないことが示された。
- アーキテクチャの統合だけでは不十分であり，新たな学習戦略と誘導バイアスが必要であることが示唆される。
Link: https://arxiv.org/abs/2509.24897
よりシンプルに：グラフ対照学習の探求 [cs.LG]目的：異種グラフにおけるグラフ表現学習の向上
- グラフ構造データは，社会ネットワークや分子構造など，様々な分野で重要性が増している。
- 既存のグラフ対照学習は，異種グラフにおいて十分な性能を発揮できないという課題がある。
- ノード特徴のノイズを軽減し，グラフ構造との相補的な関係を利用することで性能向上を目指す。
- 本研究では，データ拡張や負例サンプリングを必要としない，シンプルかつ効果的なグラフ対照学習モデルを提案した。
- 提案モデルは，異種グラフのベンチマークにおいて最先端の結果を達成し，計算コストとメモリ使用量を最小限に抑えた。
- 理論的な根拠を提示し，ブラックボックスおよびホワイトボックス攻撃に対するロバスト性の評価により，その有効性を検証した。
Link: https://arxiv.org/abs/2509.25742
Gym-TORAX：トカマク研究における強化学習とプラズマ制御シミュレータ統合のためのオープンソースソフトウェア [cs.LG]目的：トカマクにおけるプラズマダイナミクスと制御の強化学習環境
- 核融合エネルギー実現に向け，プラズマ制御の高度化は不可欠である。
- プラズマ制御は複雑であり，従来の制御手法では限界がある。
- 強化学習を用いて，プラズマ制御の自動化と最適化を目指す。
- Gym-TORAXは，TORAXをラップしたGymnasium環境を容易に構築可能である。
- ユーザーは制御入力と観測，制御目標を簡潔に定義することで，強化学習環境を構築できる。
- ITERのランプアップシナリオに基づいた環境が現在利用可能である。
Link: https://arxiv.org/abs/2510.11283
KoALA：KL-L0に基づくラベル合意による敵対的攻撃検出器 [cs.LG]目的：敵対的攻撃の検出
- 深層学習モデルのセキュリティと安全性が重要視される中，敵対的攻撃への脆弱性が課題となっている。
- 既存の検出手法は，モデル構造の変更や再学習が必要となり，実用性に課題がある。
- モデル変更や再学習なしに，敵対的攻撃を効果的に検出する手法を確立することを目指す。
- KoALAは，KLダイバージェンスとL0類似度という2つの類似度指標の予測不一致に基づいて敵対的攻撃を検出する。
- KLダイバージェンスは低振幅の変化に，L0類似度は高影響の変化にそれぞれ感度を持つ。
- ResNet/CIFAR-10で適合率0.96，再現率0.97，CLIP/Tiny-ImageNetで適合率0.71，再現率0.94を達成した。
Link: https://arxiv.org/abs/2510.12752
PDDL公理は最小固定点論理と同等である（拡張版） [cs.AI]目的：PDDL公理と最小固定点論理の表現力の同等性
- プランニングにおける知識表現の基盤であり，複雑な問題を解決するために不可欠である。
- PDDL公理の負制約に関する制限が厳格ではない場合が多く，矛盾が生じやすい。
- PDDL公理の表現力を明確化し，負制約の取り扱いに関する問題を解決する。
- PDDL公理と最小固定点論理は，表現力において同等であることが証明された。
- 制限されたPDDL公理と層状化されたDatalogは，表現力に差がないことが示された。
- PDDL公理から負制約を削除するための変換手法が提案された。
Link: https://arxiv.org/abs/2510.14412
顔認識埋め込みにおける方向的アライメントによる交差的バイアスの発見 [cs.CV, cs.LG]目的：顔認識埋め込みにおける交差的バイアスの検出
- 顔認識技術はセキュリティや利便性の向上に貢献するが，バイアスは公平性を損なうため重要。
- 既存手法では，定義済みの属性や距離に基づくクラスタリングに頼り，潜在的な交差的サブグループを捉えられない。
- 潜在的な方向的特徴を利用し，属性情報に依存せずに交差的バイアスを検出し，公平性を評価すること。
- LatentAlignは，既存のクラスタリング手法よりも意味的に一貫性のあるグループを検出することに成功した。
- 検出されたサブグループは，明示的な注釈によるグループよりも高い誤マッチ率を示す交差的な脆弱性を明らかにした。
- 潜在的な属性を方向的特徴として扱うことで，標準的な監査では見過ごされる隠れたバイアスを効率的に特定できる。
Link: https://arxiv.org/abs/2510.15520
位置合わせなしでのセンシング：物理的到達範囲外のドメインにおけるオペレーターベースの仮想計測 [cs.LG, cs.AI]目的：物理的到達が困難な環境における放射線量計測手法
- 航空機の乗組員の健康管理において，宇宙放射線のモニタリングは不可欠である。
- 従来の計測技術では，センサーの設置場所が限定され，高高度での長期モニタリングが困難である。
- 地上設置のニュートロンモニターデータから，高高度の放射線量を迅速かつ正確に推定する。
- オペレーター理論に基づく仮想センシング（STONe）を開発し，地上設置のニュートロンモニターから高高度の放射線量を推定することに成功した。
- STONeは，モンテカルロシミュレーションと比較して，大幅に高速な推論が可能であり，NVIDIA Jetson Orin Nano上で低消費電力・低メモリで動作する。
- 既存のニュートロンモニター局に設置可能な太陽光発電システムとの組み合わせにより，遠隔環境モニタリングインフラへの展開が可能である。
Link: https://arxiv.org/abs/2510.18041
CARES：文脈を考慮したVLMのための解像度選択器 [cs.CL, cs.CV, cs.AI, cs.LG]目的：VLMにおける最小限必要な入力解像度の予測
- VLMは多様なタスクで高い性能を発揮するが，計算コストが大きいという課題がある。
- VLMは高解像度画像を処理することが多く，計算資源を無駄に消費している。
- 入力解像度を最適化することで，計算コストを削減しつつ性能を維持することを目指す。
- 提案手法CARESは，画像とクエリのペアから適切な解像度を予測する軽量なモジュールである。
- CARESは，計算量を最大80%削減しながら，タスク性能を維持できる。
- 解像度を連続的に制御することで，よりきめ細かい調整が可能となる。
Link: https://arxiv.org/abs/2510.19496
SHAPとテンソルネットワーク：並列性による証明可能な計算可能な説明 [cs.LG, cs.CC, cs.FL, quant-ph]目的：テンソルネットワークに対するSHAP説明の計算可能性
- 機械学習モデルの説明可能性は，信頼性と透明性を高める上で重要である。
- ニューラルネットワークのような複雑なモデルでは，SHAP値の計算がNP困難である。
- テンソルネットワーク構造におけるSHAP値の効率的な計算手法を確立する。
- テンソルネットワーク全体に対するSHAP値の厳密な計算のための一般的なフレームワークを提示した。
- テンソルトレイン構造においては，SHAP値の計算が並列計算により対数時間で可能となることを示した。
- 二値化ニューラルネットワークのテンソルネットワーク表現への変換により，固定幅の場合にSHAP値計算が効率的に実行可能となることが示された。
Link: https://arxiv.org/abs/2510.21599
RobotArena ∞：実世界からシミュレーションへの翻訳によるスケーラブルなロボットベンチマーキング [cs.RO, cs.AI, cs.CV, cs.LG]目的：ロボットベンチマーキングフレームワークの構築
- 多様な環境でのタスク実行能力を持つ汎用ロボットの実現が求められており，その評価方法が重要である。
- 実世界でのロボットポリシーのテストには，労力，時間，安全性，再現性などの課題が存在する。
- 大規模シミュレーション環境とオンライン人間のフィードバックを活用し，これらの課題を克服することを目指す。
- RobotArena Infinityは，ビデオデモンストレーションをシミュレーション環境に自動変換することで，大規模な評価を可能にする。
- 自動化された視覚言語モデルによるスコアリングと，クラウドワーカーによる人間による選好判断を組み合わせることで，効率的な評価を実現する。
- シミュレーション環境を系統的に摂動させることで，ポリシーのロバスト性を評価し，汎化性能を検証する。
Link: https://arxiv.org/abs/2510.23571
Rep2Text：単一のLLMトークン表現からの全文復号 [cs.CL, cs.AI, cs.LG]目的：LLMの最終トークン表現からのテキスト復号
- LLMの性能向上は目覚ましいが，内部メカニズムは未だ不明な点が多い。
- LLMの内部表現から元の情報をどの程度復元できるか不明である。
- 最終トークン表現からテキストを復号する枠組みを構築し，情報ボトルネックを分析する。
- Rep2Textにより，16トークン列の約半数のトークンを圧縮表現から復元可能であることが示された。
- 系列長が長くなるにつれてトークンレベルでの復元率は低下するが，意味的な情報は比較的維持される。
- 本フレームワークは，分布外の臨床データに対しても頑健な汎化性能を示す。
Link: https://arxiv.org/abs/2511.06571
DETECT：分類Transformerによる治療効果のデータ駆動型評価 [cs.LG]目的：臨床治療の効果測定を可能にするデータ駆動型フレームワーク
- 慢性疼痛は世界的な健康問題であり，客観的な評価法の確立が重要である。
- 従来の評価法は主観的であり，治療効果の正確な把握が困難である。
- 患者の日常生活活動の変化から，治療効果を客観的に評価することを目指す。
- DETECTは，患者の治療前後の日常活動を比較することで治療効果を評価する。
- 公開データセットとシミュレーションデータを用いた実験で，客観性と軽量性が確認された。
- DETECTは臨床意思決定を支援し，個別化された患者ケアに貢献する可能性がある。
Link: https://arxiv.org/abs/2511.07213
人間のように考える：批判的思考を用いたマルチモーダル大規模言語モデルデータアノテーション [cs.SI, cs.CL, cs.LG]目的：批判的思考を組み込んだデータアノテーションパイプラインの提案
- 機械学習の性能向上には高品質な学習データが不可欠であり，データアノテーションはその基盤となる。
- 人間によるアノテーションはコストと時間がかかるため，効率化が求められている。
- 大規模言語モデルを活用しつつ，人間のアノテーションコストを削減しつつ品質を維持すること。
- 提案手法ACTは，自然言語処理，画像認識，マルチモーダル理解など，幅広い分野に適用可能である。
- 実験により，アノテーション品質を向上させ，人間コストを効率的に削減するための7つの知見が得られた。
- ACTデータで学習したモデルは，完全な人間アノテーションデータで学習したモデルと同等の性能を達成可能である。
Link: https://arxiv.org/abs/2511.09833
Google AI概要と抜粋の監査：育児と妊娠に関する事例研究 [cs.CL, cs.AI, cs.CY, cs.HC, cs.IR]目的：Google AI概要と抜粋における情報品質と一貫性の評価
- 検索エンジンは情報収集の主要な手段であり，AIによる情報提示が影響力を増している。
- AI生成コンテンツの品質管理が不十分であり，誤った情報が拡散するリスクがある。
- AI情報提示における情報の不一致や安全性の欠如を明らかにし，改善策を提示する。
- AI概要と抜粋において，同一検索クエリに対する情報に33%で不一致が見られた。
- AI概要と抜粋の双方において，医療的安全性に関する注意喚起が低く，それぞれ11%と7%にとどまった。
- 健康関連ウェブサイトが情報源の多くを占める一方で，抜粋は商業サイトへのリンクも含むことがわかった。
Link: https://arxiv.org/abs/2511.12920
長尾の抑制：適応型ドラフターによる効率的な推論RLトレーニング [cs.LG, cs.AI, cs.DC]目的：推論RLトレーニングの効率化
- 大規模言語モデルの推論能力は問題解決の新たな可能性を開くが，トレーニング効率が課題である。
- RLトレーニングにおける応答生成は長尾分布を示し，計算資源の浪費とコスト増を招く。
- 適応型推測デコーディングにより，長尾分布を抑制し，トレーニングを加速することを目的とする。
- TLTは，適応型推測デコーディングを統合することで，損失なく推論RLトレーニングを加速する。
- 適応型ドラフターにより，ターゲットモデルとの整合性を維持しながら，アイドルGPUでドラフトモデルを継続的にトレーニングする。
- TLTは最先端システムと比較して1.7倍以上のトレーニング速度向上を達成し，モデル精度を維持する。
Link: https://arxiv.org/abs/2511.16665
パラメータ化された出来高価格分布のジャンプ拡散モデル [cs.NE, nlin.CD]目的：出来高価格分布の確率的変動のモデル化
- 金融市場における価格変動の理解は，リスク管理や資産評価において重要である。
- 既存のモデルでは，価格変動の複雑なダイナミクスを十分に捉えきれていない。
- 出来高価格分布の変動を詳細に分析し，より正確なモデルを構築することを目指す。
- Gamma, Inverse Gamma, Weibullモデルにおいて，形状パラメータφは純粋な拡散過程に従うことが示された。
- スケールパラメータθは，顕著なジャンプ拡散ダイナミクスを示し，高次のモーメントが重要であることが明らかになった。
- 対数正規モデルでは，φが弱いジャンプシグナルを示す一方で，θが主に拡散過程に従うことが確認された。
Link: https://arxiv.org/abs/2511.16838
DAPS++：拡散逆問題をデカップルドポステリアアニーリングで再考 [cs.AI, eess.IV, stat.ML]目的：拡散逆問題における効率的かつ堅牢な画像復元
- 画像処理において，ノイズ除去や超解像などの逆問題は重要な課題である。
- 従来の拡散モデルは，事前分布のガイダンスが限定的で，測定値の一貫性のみに依存しがちである。
- 拡散モデルの初期化と尤度に基づく洗練を分離し，効率性と性能を向上させる。
- DAPS++は，拡散に基づく初期化と尤度駆動型洗練を完全に分離することで，効率的な推論を実現する。
- 従来の拡散モデルよりも少ない関数評価回数で高い復元性能を示す。
- 多様な画像復元タスクにおいて，DAPS++の堅牢性が確認された。
Link: https://arxiv.org/abs/2511.17038
不整地を走行するフォワーダのデータセット：FORWARD [cs.RO, cs.AI, cs.CE, cs.LG, physics.app-ph]目的：不整地での木材運搬作業におけるフォワーダの動作データ
- 林業機械の自動化は，労働力不足の解消や生産性向上に不可欠である。
- 不整地における林業機械の走行特性に関するデータが不足している。
- 林業機械の走行性，知覚，自律制御モデル開発のためのデータを提供する。
- 本データセットは，スウェーデン中部の2つの伐採現場で収集された，高解像度なマルチモーダルデータである。
- 走行速度，燃料消費量，機械位置，クレーン使用状況に加え，カメラ，振動センサー，IMUのデータも収録されている。
- 360度動画から抽出された作業要素や，実験シナリオの仕様も含まれており，AIやシミュレーションによる林業機械の自動化研究に貢献する。
Link: https://arxiv.org/abs/2511.17318
FastMMoE：動的エキスパート活性化とルーティング認識型トークンプルーニングによるマルチモーダル大規模言語モデルの高速化 [cs.CV, cs.LG]目的：マルチモーダル大規模言語モデルの高速化手法
- マルチモーダル大規模言語モデルは高性能だが，高解像度画像入力による計算負荷が大きい
- 既存の画像トークンプルーニングは，注意機構に依存しており，MoEアーキテクチャには最適ではない
- MoEベースのモデルにおいて，計算量とメモリ使用量を削減しつつ性能を維持することを目指す
- FastMMoEは，エキスパートの活性化削減とルーティング認識型トークンプルーニングを組み合わせる。
- FLOPsを最大55.0%削減しつつ，元の性能の約95.5%を維持できる。
- DeepSeek-VL2やInternVL3.5といった大規模モデルで，既存のプルーニング手法よりも優位性を示す。
Link: https://arxiv.org/abs/2511.17885
フィッシング，スパム，および有効なメール：LLMのベンチマークのための豊富な特徴を持つメールの生成 [cs.CL, cs.CR, cs.AI, cs.DB]目的：LLMベンチマーク用メールデータセットの生成
- メールは重要なコミュニケーション手段であり，セキュリティリスクも伴う。
- フィッシング詐欺やスパムメールの巧妙化により，検知が困難になっている。
- LLMを用いたメールセキュリティシステムの評価基準を確立すること。
- 本研究では，実メールを基に多様なメールバリアントを生成するPhishFuzzerを開発した。
- 生成されたデータセットは，フィッシング，スパム，有効なメールの3クラスに分類され，URLや添付ファイルの情報も含む。
- Qwen-2.5-72BとGemini-3.1-Proの評価により，モデルの信頼性や構造的メタデータの検出精度への影響を分析した。
Link: https://arxiv.org/abs/2511.21448
対応関係の指針による3次元一貫性のあるマルチビュー編集 [cs.CV, cs.AI, cs.LG]目的：3次元一貫性のあるマルチビュー編集手法
- 近年の画像生成技術の発展に伴い，3次元表現の編集需要が高まっている。
- 既存手法では，異なる視点間での幾何学的・光度的な不整合が課題となっていた。
- 異なる視点間で対応する点は，編集後も類似性を持つべきであるという制約を導入する。
- 本研究では，学習不要な指針フレームワークを提案し，編集過程でマルチビューの一貫性を強化する。
- 提案手法は，既存のマルチビュー編集手法と比較して，3次元の一貫性を大幅に向上させる。
- 一貫性の向上により，高品質なガウススプラット編集を実現し，ユーザー指定のテキストプロンプトへの忠実度を高める。
Link: https://arxiv.org/abs/2511.22228
TempPerturb-Eval：RAGの堅牢性における内部温度と外部摂動の複合効果 [cs.MS, cs.CL, cs.AI]目的：RAGシステムの堅牢性評価
- 情報検索と生成を組み合わせたRAGは，大規模言語モデルの性能向上に不可欠である。
- RAGシステムは，検索品質と生成パラメータが相互に影響しあい，評価が難しい。
- 検索時のノイズと生成温度がRAGの性能に与える影響を定量的に評価し，対策を提案する。
- RAGシステムにおいて，高い生成温度は摂動に対する脆弱性を増大させる。
- 摂動の種類によって，生成温度に対する感度パターンが非線形に変化する。
- 本研究は，RAGの堅牢性評価のためのベンチマークと，ノイズ下でのモデル選択・パラメータ調整の指針を提供する。
Link: https://arxiv.org/abs/2512.01183
ダイナミクスと価値が整合したデータフィルタリングによる効率的なクロスドメインオフライン強化学習 [cs.LG]目的：クロスドメインにおけるオフライン強化学習の効率向上
- 強化学習は，ロボット工学やゲームなど，様々な分野で自律的な意思決定を可能にする重要な技術である。
- 異なる環境間でのデータ転移は困難であり，ターゲット環境のデータが不足する場合，性能低下が課題となる。
- ダイナミクスと価値の両面から整合性の高いデータを活用することで，データ不足時の性能向上を目指す。
- 提案手法DVDFは，ダイナミクスと価値の整合性を重視したデータフィルタリングにより，既存手法を上回る性能を示す。
- 様々なダイナミクスシフトのシナリオにおいて，DVDFはターゲット環境データが極めて少ない場合でも，顕著な改善を達成した。
- 理論的な考察に基づき，ダイナミクス整合性だけでなく，価値整合性の重要性を示唆した。
Link: https://arxiv.org/abs/2512.02435
大規模推論モデルにおける潜在的探索による推論：ReLaX [cs.LG, cs.CV]目的：大規模推論モデルの推論能力向上のための潜在的探索の枠組み
- 大規模言語モデルの推論能力は，様々なタスクにおいて重要な役割を担う。
- 強化学習を用いた推論能力向上は，過度な決定論に陥りやすく，探索が不十分になる。
- 潜在的なダイナミクスに着目し，探索と活用間のバランスを改善することで，推論能力を向上させる。
- ReLaXは，Koopman演算子理論に基づき，モデルの潜在的なダイナミクスを解析し，多様性を促進する。
- 提案手法は，様々なベンチマークで既存手法を上回り，推論能力の向上が確認された。
- 潜在的ダイナミクスの異質性を定量化する新しい指標Dynamic Spectral Dispersion（DSD）を導入した。
Link: https://arxiv.org/abs/2512.07558
モーメンタムを考慮した最適化による学習とマージの架け橋 [cs.LG]目的：大規模ニューラルネットワークの学習とタスク固有モデルのマージにおける低ランク構造の活用とパラメータ重要度推定
- 深層学習モデルの性能向上には，効率的な学習方法と複数のモデル統合が不可欠である。
- 学習とマージではそれぞれ独立して計算資源を浪費し，最適化軌跡データを有効活用できていない。
- 学習時に蓄積された情報を再利用することで，計算コストを削減し，より効果的なモデル統合を実現する。
- 提案手法は，学習時にモーメンタムと曲率統計量を維持し，それらをモデル合成に再利用する。
- タスクの重要度スコアを蓄積することで，Fisher情報量の計算と同等のパラメータ選択が可能となる。
- 自然言語理解のベンチマークにおいて，既存手法と比較して高い性能向上と安定性を確認した。
Link: https://arxiv.org/abs/2512.17109
アルツハイマー病脳ネットワークマイニング [cs.LG]目的：アルツハイマー病の診断のための脳ネットワークの探索
- アルツハイマー病は高齢化社会において罹患率が増加しており，早期診断と治療が重要である。
- 脳画像データは膨大だが，正確な診断ラベルが付与されているものは限られている。
- ラベルが少ないデータでも高精度な診断を可能とする手法の開発が求められている。
- 本研究では，深層学習，グラフに基づくラベル伝播，最適輸送理論を統合した半教師あり学習フレームワークMATCH-ADを提案した。
- MATCH-ADは，National Alzheimer's Coordinating Centerの約5000件のデータを用いて評価した結果，ほぼ完璧な診断精度を達成した。
- 本フレームワークは既存手法を大幅に上回り，臨床現場での活用が期待される。
Link: https://arxiv.org/abs/2512.17276
物理に基づいた時間的融合による車線変更意図予測 [cs.LG]目的：車線変更意図の予測性能向上
- 自動運転や先進運転支援システムにおいて，安全確保は最重要課題であり，車線変更意図の正確な予測が不可欠である。
- 実際の交通環境では，ノイズの多い運動データ，クラス不均衡，異質な交通状況への汎化性能の低さなどが課題となっている。
- 物理に基づいた相互作用の情報を組み込むことで，ロバストな車線変更意図予測を実現することを試みる。
- 提案手法TPI-AIは，既存のLightGBMやBi-LSTMと比較して，予測性能が向上することが示された。
- highDデータセットにおいて，T=1, 2, 3秒でそれぞれ0.9562, 0.9124, 0.8345のmacro-F1スコアを達成した。
- exiDデータセットにおいても同様に，T=1, 2, 3秒でそれぞれ0.9247, 0.8197, 0.7605のmacro-F1スコアが得られた。
Link: https://arxiv.org/abs/2512.24075
認知症予測のための非構造化臨床記録からの強化学習と推論：Dementia-R1 [cs.CL, cs.AI, cs.LG]目的：非構造化臨床記録からの認知症長期予測
- 高齢化社会において，認知症の早期発見と正確な予後予測は，医療費抑制や患者QOL向上に不可欠である。
- 従来の臨床データを用いた認知症予測は，病状の複雑な変動や，記録の非構造化性により困難を伴う。
- 本研究は，臨床記録からの病状推移の推論能力を強化し，より正確な認知症予後予測を可能とする。
- Dementia-R1は，実際の臨床データセットAMCにおいて，最高AUROC 84.02%を達成し，既存モデルを凌駕した。
- パーキンソン病性認知症の予測においても，独立したデータセットでAUROC 78.37%と高い汎化性能を示した。
- ADNIベンチマークでは，7BモデルがAUROC 83.17%で，他のLLMベースラインモデルを上回る成績を収めた。
Link: https://arxiv.org/abs/2601.03018
安全性と敵対的頑健性を評価するための多角的ベンチマークと緩和モデル [cs.CL, cs.AI, cs.HC, cs.LG]目的：安全性と敵対的頑健性の評価
- 大規模言語モデルの利用拡大に伴い，安全性確保が不可欠である。
- 既存モデルは微妙な差別や悪意のあるプロンプトの検出が困難である。
- 多角的な評価とデータを用いた安全性改善を目指す。
- 本研究では，多角的な評価データセットGuardEvalを開発した。
- Gemma3-12BをファインチューニングしたGGuardは，既存モデルを上回る性能を示した。
- 多様なデータが安全性と頑健性の向上に貢献することが示された。
Link: https://arxiv.org/abs/2601.03273
CageDroneRF：ドローン知覚のための大規模RFベンチマークおよびツールキット [cs.CV, cs.AI, cs.RO]目的：ドローンRF検出および識別に関する大規模ベンチマークおよびツールキット
- ドローン技術の進展に伴い，セキュリティ上の脅威が増加しており，ドローンの検知・識別技術の重要性が高まっている。
- 既存のRFデータセットは規模が小さく，多様性に乏しいため，汎用的なRF知覚モデルの開発が困難である。
- 実環境と合成データを組み合わせた包括的なベンチマークとツールキットを提供し，RF知覚モデルの進歩を加速させる。
- CageDroneRFは，実際のキャプチャと体系的に生成された合成バリアントから構築された，大規模なRFデータセットである。
- SNR制御，干渉源の注入，周波数シフトとバウンディングボックス再計算など，データ拡張パイプラインにより多様性を高めている。
- 分類，オープンセット認識，物体検出のための標準化されたベンチマークを可能にし，厳密な比較と再現可能なパイプラインを支援する。
Link: https://arxiv.org/abs/2601.03302
参照表現理解のための検証付きロバストかつ効率的なニューロシンボリック推論 [cs.CL, cs.AI, cs.CV]目的：参照表現理解における，ロバストかつ効率的なニューロシンボリック推論手法
- 画像と自然言語を結びつける研究分野であり，人間とコンピュータの円滑なコミュニケーションに不可欠である。
- 既存手法では，中間推論ステップの誤りが連鎖的に伝播し，誤検出を引き起こす可能性がある。
- 推論ステップごとに検証を行い，誤りを抑制することで，より信頼性の高い推論を実現することを目指す。
- 提案手法VIROは，推論演算子レベルの検証機能を組み込むことで，対象が存在しない場合でも適切に判断できる。
- VIROは，既存の最先端手法と比較して，ターゲットが存在する場合と存在しない場合のバランスのとれた精度において優れた性能を示す。
- プログラムの失敗率は0.3%以下であり，高い信頼性と効率性，そして拡張性も実現している。
Link: https://arxiv.org/abs/2601.12781
RayRoPE：多視点Attentionのための射影光線位置エンコーディング [cs.CV, cs.LG]目的：多視点Transformerにおける位置エンコーディングのメカニズム
- 3次元シーンの理解には，複数の視点からの情報を統合することが不可欠である。
- 既存の位置エンコーディングは，3次元空間における不変性や柔軟性に課題がある。
- 3次元シーンの幾何学構造に適応可能な位置エンコーディングを開発すること。
- RayRoPEは，光線と射影座標を用いることで，$SE(3)$不変性を実現した。
- 深度予測と不確実性のモデル化により，シーンの幾何学構造への適応を可能にした。
- 新規視点合成やステレオ深度推定において，既存手法と比較して性能向上を確認した。
Link: https://arxiv.org/abs/2601.15275
自己蒸留推論器：大規模言語モデルのためのオンポリシー自己蒸留 [cs.LG, cs.CL]目的：大規模言語モデルの推論能力向上
- 大規模言語モデルの活用が広がる中で，推論能力の向上が重要となっている。
- 従来の知識蒸留法では，教師モデルと学習データの分布のずれが課題となっていた。
- 教師モデルが不要で，正解データも活用できる自己蒸留による推論能力の向上を目指す。
- 提案手法であるOPSDは，単一の言語モデルを教師と生徒として機能させ，高いトークン効率を実現した。
- 数学的推論ベンチマークにおいて，強化学習法やオフポリシー蒸留法よりも優れた性能を示した。
- 特権情報に基づいて教師ポリシーを条件付け，生徒ポリシーとのトークンごとのずれを最小化する。
Link: https://arxiv.org/abs/2601.18734
テラバイト規模データ統合のためのバイトオフセットインデックスアーキテクチャによる大規模ケモインフォマティクス高速化 [cs.DB, cs.CE, cs.LG, q-bio.QM]目的：大規模化学データベース統合の加速
- 創薬や物質探索において，多様な化学情報を統合したデータは不可欠である。
- 既存のデータベース統合手法では，データ規模の拡大に伴い処理速度がボトルネックとなる。
- バイトオフセットインデックスを用いて，大規模データの高速な統合を実現する。
- PubChem，ChEMBL，eMoleculesの3つの主要データベースを統合し，分子特性予測のためのデータセットを構築した。
- バイトオフセットインデックスを用いることで，100日かかっていた処理時間を3.2時間に短縮し，740倍の性能向上を実現した。
- InChIKeyのハッシュ衝突が判明し，衝突のない完全なInChI文字列を用いたパイプラインの再構築が必要となった。
Link: https://arxiv.org/abs/2601.18921
グループ相対的方策最適化による強化学習アンラーニング [eess.SY, cs.SY, math.OC, cs.LG]目的：大規模言語モデルからの情報削除
- LLMのプライバシー保護と法規制遵守は，AI技術の社会実装において不可欠である。
- 既存のアンラーニング手法では，削除対象情報の漏洩や性能劣化が課題となっていた。
- 本研究は，情報削除の検証可能性を高め，効率的かつ安全なアンラーニングを目指す。
- PURGEは，グループ相対的方策最適化の枠組みに基づき，禁止概念への言及を抑制する内在報酬信号を用いる。
- 実験結果から，PURGEは既存手法と比較して，トークン使用量を最大46倍削減し，流暢性と敵対的頑健性を向上させた。
- Real World Knowledge Unlearningベンチマークにおいて，11%のアンラーニング効果と98%の元の有用性の維持を達成した。
Link: https://arxiv.org/abs/2601.20568
グラフニューラルモデルにおける複合ネットワークモデリングと注意機構に関する層理論的・位相的視点 [cs.LG, cs.AI, math.AT]目的：グラフニューラルモデルにおけるノード特徴量とエッジ重みの局所一貫性と調和性のモデリングと解析
- グラフ構造は，現実世界の多様な応用を支える幾何学的・位相的深層学習の基盤である。
- 深層学習モデルの学習過程における特徴量の分布と拡散挙動は未解明な点が多い。
- グラフ上の特徴量拡散と集約に関する位相的理解を深めることを目指す。
- 層理論的枠組みを用いることで，ノード特徴量とエッジ重みの局所的な整合性を追跡し，特徴量の拡散と集約に関する位相的視点を提供する。
- トポロジカルデータ解析に触発された多重スケール拡張により，グラフモデル内の階層的な特徴量相互作用を捉えることが可能となる。
- 幾何学的・位相的構造と学習された信号に基づいた深層学習モデルの同時的特徴付けにより，今後の研究に洞察を与える。
Link: https://arxiv.org/abs/2601.21207
予測不確実性の理解が機械学習モデルの説明可能性問題を解決する [cs.LG]目的：機械学習モデルの説明可能性問題の解決策
- 機械学習の応用範囲拡大に伴い，意思決定における説明可能性が重要視されている。
- LIMEやSHAPなどの局所線形手法は，決定境界付近での不安定性が問題視されている。
- 予測不確実性の高い領域では説明可能性を追求せず，有用な予測が存在するかどうかを優先する。
- 決定境界における説明可能性の不安定性は，予測不確実性の高さに起因することが示された。
- 予測不確実性が低い場合にのみ局所線形近似による説明が可能であり，それ以外の領域では単純なモデルへの回帰が推奨される。
- ReLUネットワークなどの見かけ上説明可能なモデルも，セグメント境界における予測不確実性により真の有用性がない場合がある。
Link: https://arxiv.org/abs/2602.00179
反復回数なしニュートン・シュルツ直交化 [cs.LG, cs.AI, cs.NA, math.NA]目的：ニュートン・シュルツ直交化の効率化
- 最適化アルゴリズムにおいて，直交化は重要な役割を担うため，その効率化はパフォーマンス向上に不可欠である。
- 従来のニュートン・シュルツ反復法は，高次元行列の繰り返し乗算により計算コストが大きいという課題があった。
- 本研究は，反復計算を不要とする新たな直交化手法を提案し，計算効率と安定性を両立させることを目指す。
- 提案手法であるIFNSOは，従来のニュートン・シュルツ反復法と比較して，計算効率が大幅に向上することが示された。
- 行列の寄与度を分析し，不要な項を削除することで，計算量を削減することに成功した。
- 学習可能な係数を持つ多項式を導入し，安定した収束と高い性能を両立した。
Link: https://arxiv.org/abs/2602.02500
ステルスRL：AIテキスト検出器の多重検出回避のための強化学習による言い換え攻撃 [cs.LG, cs.AI, cs.CR]目的：AIテキスト検出器に対する，意味を保持しつつ検出を回避する敵対的言い換え攻撃手法の開発
- AI生成テキストの普及に伴い，AIテキスト検出器の信頼性確保が重要となっている。
- 既存のAIテキスト検出器は，巧妙に言い換えられたテキストに対して脆弱性を持つことが課題である。
- 本研究は，検出器の脆弱性を明らかにし，より堅牢な検出器の開発に貢献することを目的とする。
- 提案手法StealthRLは，複数の検出器に対してほぼゼロの検出率を達成し，平均TPR@1%FPRを0.024に低減した。
- StealthRLは，訓練に使用されていない未知の検出器に対しても攻撃が成功し，検出器の共通の脆弱性を明らかにした。
- 本研究の結果は，現在のAIテキスト検出器の堅牢性に重大な課題があることを示唆している。
Link: https://arxiv.org/abs/2602.08934
反復的自己改善のためのタスク中心理論：易から難へのカリキュラム [cs.LG, stat.ML]目的：反復的自己改善における期待報酬の有限サンプル保証
- 大規模言語モデルの性能向上は重要であり，特に自己改善による更なる能力向上が期待されている。
- 自己改善の経験的な成功とは対照的に，有限サンプル設定における理論的根拠は限られていた。
- 報酬フィルタリングされた分布での最大尤度ファインチューニングとして自己改善をモデル化し，理論的保証を与える。
- 各反復でより良いモデルがより多くのデータを受け入れるという明示的なフィードバックループが明らかになった。
- 易から難へのカリキュラムが，固定タスク混合よりも優れた保証を理論的に達成する条件が示された。
- 合成グラフベースの推論タスクと数学的推論ベンチマークにおけるモンテカルロシミュレーションと実験によって検証された。
Link: https://arxiv.org/abs/2602.10014
長期的タスクに対する制御可能な曖昧性：LHAW [cs.CL, cs.AI, cs.LG]目的：長期的ワークフローエージェントにおける曖昧性の制御と評価
- 真に自律的なシステムには，長期にわたって効果的に動作するエージェントが不可欠である。
- 曖昧な状況における明確化を求める能力が重要だが，曖昧性の影響を系統的に評価する枠組みが不足している。
- カスタムワークフローにおける曖昧性の影響を測定するためのスケーラブルな枠組みを提供し，エージェントの信頼性を向上させる。
- LHAWは，目標，制約，入力，コンテキストの4つの次元で情報を系統的に削除することで，タスクを制御可能な曖昧なバリアントに変換する。
- 生成されたバリアントは，エージェントの試行を通じて検証され，結果への影響に基づいて分類される（重要，分岐，無害）。
- TheAgentCompany，SWE-Bench Pro，MCP-Atlasからの285のタスクバリアントを公開し，エージェントの明確化行動を評価する。
Link: https://arxiv.org/abs/2602.10525
重複と外れ値を含むクラスタリング比較のための実用的手法 [cs.CY, cs.LG, cs.SI, math.CO]目的：重複と外れ値を含むクラスタリングの比較手法
- 教師なし学習はデータ分析において重要であり，クラスタリングはその基本的な要素である。
- 既存のクラスタリング比較手法では，重複や外れ値の存在が考慮されていない場合が多い。
- 重複と外れ値を含むクラスタリングを比較するための，より現実的な評価方法を確立すること。
- 提案手法は，クラスタリング間の類似性を評価するための実用的な尺度として定義された。
- この尺度は，いくつかの望ましい特性を有し，他の比較尺度に存在する一般的なバイアスを受けないことが実験的に確認された。
- 本研究により，重複や外れ値を含むクラスタリングの評価における新たな可能性が開かれた。
Link: https://arxiv.org/abs/2602.14855
多様体上のスペクトル畳み込み [cs.LG, cs.AI]目的：幾何学的深層学習のための多様体上のスペクトル畳み込み
- ユークリッド空間に限定されないデータ構造への深層学習の適用が求められている。
- グラフ構造や多様体構造を持つデータへの機械学習の適用には課題が多い。
- 多様体上のスペクトル畳み込みにより，多様体構造データの学習を可能とする。
- 本研究では，多様体（特に軌道多様体）上のスペクトル畳み込みの理論を提唱した。
- これにより，幾何学的深層学習の基本的な構成要素を提供し，新しいデータ構造への適用範囲を広げることが期待される。
- 音楽理論における具体例を通じて，理論の有効性を示した。
Link: https://arxiv.org/abs/2602.14997
連合学習の実験場 [cs.LG, cs.AI]目的：連合学習の基礎概念の教育
- AI技術の分散化が重要視される中で，連合学習はその鍵となる技術の一つである。
- 連合学習は，データ非独立性やローカル過学習など，実装上の課題が多い。
- 連合学習の理解を深め，より多くの研究者や開発者が参入しやすい環境を整備する。
- 本プラットフォームは，ブラウザ上で連合学習の様々な設定を試すことができ，リアルタイムで結果を可視化する。
- これにより，コーディングやシステム構築の知識がなくても，連合学習の課題を直感的に理解することができる。
- 本プラットフォームは，連合学習の普及と発展に貢献することが期待される。
Link: https://arxiv.org/abs/2602.19489