arXiv雑要約

AI - 2026/06/05 公開

MLLMはインターフェースがユーザー行動を導く様を捉えているか？マルチモーダルUI/UXデザイン理解のためのベンチマーク [cs.CL, cs.LG]目的：UI/UXデザインがユーザー行動に与える影響のマルチモーダル理解
- UI/UXデザインは，ユーザー体験を形成する上で不可欠であり，その重要性はますます高まっている。
- 既存研究では，UIの表層的な特徴に焦点が当たりがちで，デザインがユーザー行動に及ぼす影響の理解が不十分である。
- 本研究は，UI/UXデザインがユーザー行動に与える影響を定量的に評価し，MLLMの理解度を測ることを目指す。
- WiserUI-Benchは，実世界のA/Bテストに基づいた300組のUI画像ペアで構成されており，ユーザー行動を促す効果的なUIを評価可能である。
- 複数のMLLMを用いた実験の結果，モデルはUI/UXデザインの行動への影響を十分に理解できていないことが示された。
- 専門家による解釈を用いた事後分析により，効果的なUIが成功する理由の理解を深めることができる。
Link: https://arxiv.org/abs/2505.05026
d+1次元におけるニューラル演算子の再構成：埋め込み進化への応用 [cs.LG, cs.AI, quant-ph]目的：関数空間間の写像学習のためのニューラル演算子における埋め込み進化のモデリング
- 物理現象のシミュレーションにおいて，関数空間間の写像を効率的に学習することは重要である。
- 既存のニューラル演算子は，埋め込みのスケーリングに依存しており，計算コストが増大しやすい。
- 埋め込み進化を演算子形式でモデル化し，計算効率を向上させることを目指す。
- 提案手法は，1次元熱方程式から3次元レイリー・テイラー不安定性まで，様々なベンチマークテストで最良の性能を示した。
- 補助的な関数次元を導入することで，埋め込みのスケーリングを回避し，計算コストを削減できることを実験的に示した。
- 混合解像度トレーニングや超解像度推論においてもロバストであり，未知の時間領域へのゼロショット汎化能力も確認された。
Link: https://arxiv.org/abs/2505.11766
HOPSE：組み合わせ表現のためのスケーラブルな高次位置・構造エンコーダー [cs.NI, eess.SP, cs.LG]目的：組み合わせ表現における高次位置・構造情報の効率的なエンコーディング手法
- 現実世界の複雑なシステムには高次の関係性が存在し，従来のグラフニューラルネットワークでは捉えきれない。
- トポロジカル深層学習は高次関係性を扱えるが，メッセージパッシングの計算量が膨大でスケーラビリティが課題。
- ハッセ図分解を用いたメッセージパッシングフリーなエンコーダーにより，計算効率と表現力を両立すること。
- HOPSEは，従来のHOMPアプローチと同等以上の性能を達成しつつ，計算速度の大幅な向上を実現した。
- HOPSEは，組み合わせ表現のサイズに対して線形にスケールし，スケーラビリティの課題を克服した。
- 分子やトポロジーのベンチマークにおいて，最先端の性能を上回る，または同等の結果が得られた。
Link: https://arxiv.org/abs/2505.15405
多変量時系列データのオンライン異常検知のためのクラスタ認識因果混合モデル [cs.LG, stat.ML]目的：多変量時系列データにおけるオンライン異常検知
- 時系列データにおける異常検知は，誤検知や見逃しによるリスクが大きいため重要である。
- 従来のMLPベースの混合モデルは，時系列データの時間的な因果関係を考慮していない。
- 本研究は，チャネル間の相関を考慮し，時間的因果関係を維持することで，より正確な異常検知を目指す。
- 提案手法では，チャネルを相関に基づいてクラスタ化し，各クラスタを専用の埋め込み層で処理する。
- 時間的な因果関係を維持する因果混合モデルを導入し，時系列データの連続性を考慮した異常スコアリング手法を開発した。
- 6つの公開ベンチマークデータセットにおける実験評価により，提案手法が優れた性能を達成することが示された。
Link: https://arxiv.org/abs/2506.00188
GenFT：事前学習済みファウンデーションモデルのための生成型パラメータ効率化ファインチューニング手法 [cs.LG]目的：事前学習済みファウンデーションモデルの効率的な適応
- 大規模言語モデルの活用が広がる中で，計算資源の制約が課題となっている。
- 既存のパラメータ効率化ファインチューニングは，事前学習済みモデルの情報を十分に活用できていない。
- 事前学習済みモデルの構造的情報を活用し，より効率的なファインチューニングを実現する。
- GenFTは，事前学習済み重み$W_0$を条件として，決定論的な重み生成器を用いてタスク固有の更新を生成する。
- 行と列の変換および非線形活性化関数により，$W_0$から構造化されたパターンを抽出し，共有・固有分解を導入する。
- NLPとCVのベンチマークにおいて，GenFTは競争力のある性能を示し，LLaMA-7Bでの生成モデルへの適用可能性も確認された。
Link: https://arxiv.org/abs/2506.11042
連合学習におけるトポロジーを考慮した差分プライバシー [cs.CR, cs.DC, cs.LG]目的：連合学習における差分プライバシー保護の強化
- データ保護の重要性が増す中，プライバシー保護技術は不可欠である。
- 従来の差分プライバシーは，通信トポロジーからの情報漏洩を考慮していない。
- トポロジーを考慮した防御により，連合学習におけるプライバシー保護を向上させる。
- 提案手法TADIは，パラメータ，構造，組織の各構成要素に漏洩を分離し，クライアントごとの情報漏洩を評価する。
- Fulcrumは，非対称な連合学習環境において，従来のDP-SGDを厳密に上回るノイズ配分を実現する。
- 実験結果から，Fulcrumは最大1.967natsのプライバシー向上効果が確認され，実用的なユーティリティコストは発生しなかった。
Link: https://arxiv.org/abs/2506.19260
スケーラブルなロボット操作には多様性だけで十分か？ [cs.CL, cs.RO, cs.AI, cs.LG]目的：ロボット学習におけるデータ多様性の役割の解明
- 自然言語処理や画像認識でデータスケールが成功しているが，ロボット操作における効果的なデータスケールの原則は不明である。
- ロボット学習において，単純に多様性を増やすことが常に有効とは限らないという問題がある。
- タスク，ロボットの形態，教師データの多様性がロボット学習に与える影響を分析し，効率的なデータセットの構築方法を明らかにする。
- タスク多様性が，各タスクにおけるデモンストレーション量よりも重要であることが示された。多様な事前学習タスクからの転移学習に有効である。
- 複数のロボット形態での事前学習データは，異なるロボットへの転移学習に必須ではなく，高品質な単一形態データでも効率的な転移が可能である。
- 人間のデモンストレーションにおける速度の多峰性がポリシー学習の妨げとなりうる。速度バイアスを除去することで，性能が15%向上した。
Link: https://arxiv.org/abs/2507.06219
実世界時系列データにおけるべき乗則を用いたロバストな因果探索 [cs.LG, physics.data-an, stat.ML, stat.OT]目的：実世界時系列データにおける因果関係の発見
- 金融，経済，神経科学，気候科学など，多様な分野で因果関係の解明が不可欠である。
- 既存の因果探索アルゴリズムはノイズに弱く，現実データで誤った因果推論を引き起こしやすい。
- べき乗則に着目し，真の因果信号を増幅するロバストな因果探索手法を開発すること。
- 提案手法は，多くの実世界時系列データに見られるべき乗則のスペクトル特徴を活用することで，ロバスト性を実現した。
- 合成データおよび既知の因果構造を持つ実データにおいて，最先端の手法を凌駕する性能を示した。
- 本研究は，現実世界の時系列データにおける因果探索の信頼性と実用性を高める貢献をする。
Link: https://arxiv.org/abs/2507.12257
重要度の学習：モデルファインチューニングのための相互情報に基づく確率的タスク選択 [cs.LG, cs.AI]目的：大規模言語モデルのファインチューニングにおけるタスク混合戦略
- 言語モデルの性能向上には，適切なデータ選択が不可欠であるため，タスク選択は重要な研究課題である。
- 既存手法では，タスク間の相互作用を考慮せず，冗長なタスクに予算を割いてしまう問題がある。
- タスク間の関係性を学習し，効率的なタスク混合戦略を構築することで，モデル性能の向上を目指す。
- 提案手法TaskPGMは，タスク間の関係性をエネルギーベースモデルで表現し，タスク混合を最適化する。
- TaskPGMは，既存の混合戦略と比較して，BIG-Bench Hardなどの評価において性能が向上した。
- タスク間の相互作用に関する解釈可能な構造を提供し，タスク選択の指針となる。
Link: https://arxiv.org/abs/2507.12612
保証付きの最適化学習：線形収束アルゴリズムの完全な特徴づけ [cs.CL, cs.CL, eess.SY, cs.LG, cs.SY, math.OC]目的：線形収束アルゴリズムの特徴付け
- 最適化は機械学習等の基盤技術であり，効率的な手法開発が重要である。
- 平均性能向上と最悪ケース保証の両立が困難である。
- 線形収束性を維持しつつ，平均性能を改善する手法を開発する。
- 線形収束アルゴリズムは，基盤となる線形収束アルゴリズムと，指数関数的に減衰する修正項で表現できる。
- この表現は，線形収束しないアルゴリズムを除外する。
- この特徴づけを利用し，線形収束性と実行可能性を保証する最適化学習が可能となる。
Link: https://arxiv.org/abs/2508.00775
言語モデルにおける創発的な誤調整に対するトレーニング中の防御 [eess.SY, cs.SY, cs.LG, cs.AI]目的：言語モデルの誤調整に対するトレーニング中の防御策の有効性
- 言語モデルは多様なタスクに応用可能だが，安全性確保が重要である。
- ファインチューニングによる意図しない有害な挙動の創発が問題である。
- API経由でのファインチューニングにおける誤調整を未然に防ぐことを目指す。
- KLダイバージェンス正則化，特徴空間での距離，邪悪なペルソナベクトルを用いた予防的操縦，データセットの挿入，プロンプトによる予防接種の５つの介入を評価した。
- データセット挿入において，整合モデルと誤調整モデル間のパープレキシティギャップに基づくデータ選択が最も良い結果を示した。
- トレーニング中の防御策は，広範な誤調整を防止し，安全性と性能を両立できる可能性がある。
Link: https://arxiv.org/abs/2508.06249
ラベルノイズに対する耐性を高める最適脳損傷マスキング [cs.LG, cs.CV]目的：ラベルノイズに対する学習耐性の向上
- 深層学習は高性能だが，ラベルノイズに弱い点が課題。
- 従来のノイズ対策は損失関数やサンプル選択に偏り，構造的なアプローチが不足。
- ノイズ勾配の伝播を遮断し，モデルの接続性を最適化する。
- 提案手法SEMは，重要なエッジを保持しつつノイズ勾配を抑制。
- OBD理論に基づき，低活性エッジのマスキングによりモデルの適合能力を維持。
- 合成データと実データでの評価で，最先端手法を上回る性能を確認。
Link: https://arxiv.org/abs/2508.09697
拡散言語モデルに関する調査 [cs.CL, cs.AI, cs.LG]目的：拡散言語モデルの現状と課題
- 自然言語処理の分野において，効率的かつ高品質なテキスト生成は重要な課題である。
- 従来の自己回帰モデルは推論速度が遅く，文脈把握に限界があるという問題点が存在する。
- 本調査は，拡散言語モデルが抱える課題と今後の展望を明らかにすることを目的とする。
- 拡散言語モデルは，反復的なノイズ除去プロセスにより，並列生成が可能であり，推論速度の向上と双方向の文脈把握に優れる。
- 最新の研究により，拡散言語モデルの性能は自己回帰モデルと同等レベルに達し，様々な自然言語処理タスクへの応用が期待される。
- 本調査は，拡散言語モデルの進化，基礎原理，最新モデル，推論戦略，多Modal拡張，応用事例を網羅的に解説する。
Link: https://arxiv.org/abs/2508.10875
CoT空間：強化学習による内部的な熟考の理論的枠組み [cs.AI, cs.CL]目的：大規模言語モデルにおける推論能力向上のための，強化学習を用いたテスト時スケーリングの理論的枠組み
- 大規模言語モデルの推論能力は重要であり，その向上は様々な応用分野で求められている。
- 従来のトークンレベルの分析では，推論レベルのスケーリングの巨視的なダイナミクスを捉えきれていない。
- 推論過程を連続的な意味空間における最適化過程として捉え，そのメカニズムを解明することを試みる。
- CoT空間は，推論過程を離散的なトークン予測ではなく，連続的な意味空間における最適化として捉える。
- 最適なCoTの長さへの収束は，過学習と未学習の間の基本的なトレードオフの結果として説明できる。
- 強化学習を用いて実験的に検証することで，内部的なテスト時スケーリングのメカニズムを明らかにした。
Link: https://arxiv.org/abs/2509.04027
RAGのセキュリティとプライバシー：脅威モデルと攻撃対象領域の形式化 [cs.CR, cs.AI]目的：RAGシステムの脅威モデルと攻撃対象領域の形式化
- 大規模言語モデルの利用拡大に伴い，情報漏洩等のセキュリティリスクが重要視されている。
- RAGシステムは外部知識への依存性から，新たな脆弱性を生み出す可能性がある。
- RAGシステムのセキュリティ及びプライバシーリスクを明確化し，対策の基礎を築く。
- 本研究では，RAGシステムに対する初の形式的な脅威モデルを提案した。
- 攻撃者のアクセス権限に基づく分類と，ドキュメントレベルのメンバーシップ推論，データポイズニング等の脅威ベクトルを定義した。
- これらの形式化により，RAGシステムのセキュリティとプライバシーに関する理解を深める基盤を構築した。
Link: https://arxiv.org/abs/2509.20324
Concept-SAE：スパースオートエンコーダのための制御可能かつ可逆的な概念インターフェース [cs.LG]目的：スパースオートエンコーダにおけるユーザー定義概念の評価・分析のためのインターフェース
- 機械学習モデルの学習特徴を理解することは，モデルの解釈可能性を高め，信頼性を向上させる上で重要である。
- 従来のスパースオートエンコーダは受動的な特徴発見に優れる一方，ユーザーが関心のある概念を体系的に評価・分析することが困難である。
- Concept-SAEは，ユーザー定義概念に対応した制御可能なインターフェースを提供することで，この問題を解決する。
- Concept-SAEは，概念の存在と空間的局在性の二重の監督学習により，外部の意味論に整合する概念トークンと，残りの情報を捉える自由トークンを生成する。
- 実験の結果，Concept-SAEは，他の手法と比較して，高精度で局在化され，強く分離された概念表現を実現することが示された。
- 敵対的画像サンプルの分類，制御された反事実編集，敵対的摂動による安定性テストなどの診断評価により，Concept-SAEの実用性が確認された。
Link: https://arxiv.org/abs/2509.22015
特徴学習領域における浅いニューラルネットワークのスケール則とスペクトル [cs.LG, cond-mat.dis-nn, cs.AI, stat.ML]目的：特徴学習領域における浅いニューラルネットワークのスケール則に関する解析
- 深層学習の進歩はスケール則に依拠するが，理論的理解は線形モデルに限定されてきた。
- 従来の理論では，複雑な非線形ネットワークのスケール則を十分に説明できていない。
- 二次および対角ニューラルネットワークにおけるスケール則の位相図を明らかにすること。
- サンプル複雑性および重み減衰の関数として，過剰リスクのスケール指数に関する詳細な位相図が得られた。
- 異なるスケール則のレジーム間のクロスオーバーやプラトー現象が確認され，実証研究と一致した。
- 訓練済みネットワーク重みのスペクトル特性と，それらのレジームとの間の明確な関連性が確立された。
Link: https://arxiv.org/abs/2509.24882
オープンソースAIにおけるオープンな協調の地図化：14のオープン大規模言語モデルプロジェクトにおける実践，動機，ガバナンスの調査 [cs.SE, cs.AI, cs.LG]目的：オープン大規模言語モデルプロジェクトにおける協調の実践，動機，ガバナンス
- AI技術の発展において，オープンソースLLMの役割が重要性を増しているため。
- オープンLLM開発における協調方法が体系的に研究されておらず，理解が不足している。
- オープンLLMエコシステムの発展を促進するための協調のあり方を明らかにすること。
- オープンLLMの開発・再利用ライフサイクル全体にわたる協調が，モデル，データ，ソフトウェアなど複数の領域に及ぶことが示された。
- 開発者の動機は，AIへのアクセス民主化，オープンサイエンスの推進，地域エコシステムの構築など多岐にわたることが明らかになった。
- オープンソースAIにおける「オープン性」は，協調の組織化によって創出される emergent な特性であることが示唆された。
Link: https://arxiv.org/abs/2509.25397
HiDe：高解像度MLLMにおけるズームイン手法の再考：階層的デカップリングによるアプローチ [cs.CV, cs.AI]目的：高解像度画像における視覚理解の性能向上
- マルチモーダル大規模言語モデルは視覚理解で進歩しているが，高解像度画像での性能向上が課題となっている。
- 従来，高解像度画像処理の課題は，小物体認識の難しさにあると考えられていた。
- 本研究は，背景ノイズが性能低下の主要因である点を明らかにし，それを解決する。
- 提案手法HiDeは，V*Bench，HRBench4K，HRBench8Kで新たなSOTAを達成し，Qwen2.5-VL 7BとInternVL3 8Bの性能を向上させた。
- HiDeは，既存の学習不要アプローチと比較して，メモリ使用量を75％削減することに成功した。
- 質問トークンと重要情報トークンをデカップリングし，背景干渉を抑制することで，高精度な視覚領域とのアライメントを実現した。
Link: https://arxiv.org/abs/2510.00054
ニューロンを拡張し，パラメータを増やさず [cs.LG]目的：ネットワークの総非ゼロパラメータ数を増やさずに，ニューロン数を増やすことによる性能向上
- 深層学習の性能向上には，モデルの表現能力が重要であり，そのためにモデルの規模拡大が試みられている。
- モデルの規模拡大は計算コストの増大を招き，メモリボトルネックが課題となっている。
- ニューロン数を増やし，パラメータ数を固定することで，計算効率を維持しつつ性能を向上させる。
- ニューロンを分割することで，複数の特徴量間の干渉を軽減し，ポリセマンティシティ指標を低下させることが示された。
- この効果は，ランダムなニューロン分割でも近似的に得られ，正確な割り当てよりも干渉の低減が重要であることが示唆された。
- CLIP埋め込み，畳み込みニューラルネットワークなど，様々なモデルでネットワークの幅を広げることが，パラメータ数を固定したまま精度向上に繋がることが確認された。
Link: https://arxiv.org/abs/2510.04500
活性化情報に基づくパレート最適化低ランク圧縮による効率的なLLM/VLM [cs.CL, cs.LG]目的：LLM/VLMの効率化のための低ランク圧縮手法
- LLM/VLMは高性能だが，メモリや計算資源を大量に消費するため，実用上の課題となっている。
- 既存の圧縮手法では，精度低下を抑制しつつ高い圧縮率を達成することが難しい。
- 活性化情報を活用し，パレート最適化による最適なランク選択を行うことで，精度と圧縮率のバランスを改善する。
- 提案手法PGSVDは，LLMとVLMの両方において，従来の低ランク圧縮手法よりも高い精度を維持しつつ，推論速度を向上させることを示した。
- 層ごとの活性化に基づく誤差を用いてネットワーク損失の変化を理論的に評価し，低ランク圧縮の妥当性を証明した。
- パレート最適化により，均一な許容誤差で最適な異種ランクを導き出し，活性化を考慮した圧縮を改善するパイプラインを確立した。
Link: https://arxiv.org/abs/2510.05544
LLMベンチマークにおけるプロンプト依存性の修正：埋め込み空間クラスタリングを用いたベイズ階層モデル [cs.CR, cs.AI, cs.CL]目的：LLMベンチマークの性能と不確実性の評価
- LLMの性能評価は，AI技術の進歩を測る上で不可欠である。
- 既存のベンチマークは，評価回数が不十分，プロンプト間の依存性の存在により，精度が損なわれる。
- 評価回数が少なく，プロンプト依存性がある状況下でも信頼性の高い性能指標を提供すること。
- 提案手法は，埋め込み空間におけるクラスタリングを通じてプロンプト依存性を修正し，堅牢な性能指標を算出する。
- 敵対的ロバスト性ベンチマークへの適用により，クラスタ構造の再現性が確認された。
- 平均絶対誤差が4-73%改善，期待対数事後密度が40-450単位改善された。
Link: https://arxiv.org/abs/2510.05709
拡散事前分布を用いる微分不要型ベイズ反転法 Blade [cs.LG, stat.ML]目的：微分不要型ベイズ反転における高次元・非線形問題に対する正確かつ校正された事後分布の生成
- 科学技術分野において，モデルの順方向計算コストが高い場合に重要な手法である。
- 既存手法では，事後分布が一点に収縮したり，不確実性の推定が過度に自信過剰になったりする。
- 拡散モデルを活用し，順方向計算のみを用いて，より正確で信頼性の高い事後分布を得ることを目指す。
- Blade は，相互作用する粒子群を用いて，正確かつ校正された事後分布を生成する。
- 非線形流体問題において，CRPS，スプレッド・スキル比，ランクヒストグラムなどの指標で既存手法を上回る性能を示した。
- 反復回数や粒子数の増加に伴い，精度と校正が向上し，理論的分析と実験的結果によって裏付けられている。
Link: https://arxiv.org/abs/2510.10968
CTIConnect：異種サイバー脅威インテリジェンスにおける検索拡張LLMのベンチマーク [cs.CR, cs.AI]目的：異種サイバー脅威インテリジェンス環境下における検索拡張LLMの体系的な評価
- サイバーセキュリティにおいて，進化する脅威に備える上でサイバー脅威インテリジェンス(CTI)は不可欠である。
- CTIデータの量と多様性は膨大であり，手動分析の限界を超える。
- 異種CTIソースを活用した検索拡張LLMの性能評価のためのベンチマーク環境を構築すること。
- 本研究で構築したCTIConnectベンチマークは，9つのタスクを含む1,860組の専門家検証済みQAペアを提供する。
- 実験により，タスクの種類によって意味的ギャップが異なり，最適な検索戦略が異なることが示された。
- ドメイン固有の戦略は，汎用的な検索手法よりも優れており，構造的な介入が重要であることが示唆された。
Link: https://arxiv.org/abs/2510.11974
負荷，発電，トポロジー変動下における電力潮流のベンチマークデータセット PF$\Delta$ [cs.CL, cs.LG]目的：電力潮流計算における変動条件への対応能力の評価
- 電力系統の安定運用には，リアルタイムでの電力潮流計算が不可欠である。
- 再生可能エネルギーの導入や異常気象により，電力系統の不確実性が増大している。
- 現実的な変動を考慮した電力潮流計算の効率化を目指す。
- 本研究では，負荷，発電，トポロジーの変動を包含する電力潮流のベンチマークデータセットPF$\Delta$を公開した。
- 従来のソルバーとGNNベース手法を評価し，既存手法の課題を明らかにした。
- データセットとコードは公開しており，今後の研究の促進に貢献する。
Link: https://arxiv.org/abs/2510.22048
選択的シンコーンルーティングによる疎な専門家混合モデルの性能向上 [cs.RO, cs.CY, cs.LG]目的：疎な専門家混合モデルの性能向上
- モデルの規模拡大と計算効率の両立が求められているため，大規模モデルの学習に不可欠な技術である。
- 既存手法は，補助的な目的関数や学習可能な要素を必要とし，複雑さや学習コストが増加しやすい。
- 最適な輸送問題としてトークンと専門家の割り当てを捉え，バランスの取れた専門家利用を実現することで，問題を解決する。
- 選択的シンコーンルーティングは，補助的な損失関数を必要とせずに，SMoEの性能を向上させる。
- ゲートのスコアを輸送写像から直接導出することで，よりバランスが取れたトークンと専門家の割り当てを実現している。
- 言語モデリングと画像分類の実験により，学習効率，精度，入力の破損に対するロバスト性が向上することが示された。
Link: https://arxiv.org/abs/2511.08972
MSTN：汎用時系列分析のための軽量かつ高速なモデル [cs.LG]目的：時系列分析における高性能なモデルの提案
- 現実世界の時系列データは重要であり，様々な分野で予測や意思決定に活用される。
- 既存のモデルは，固定的な構造に制約され，時系列データの多様な変動に対応しきれない場合がある。
- 本研究は，多様な時間スケールに対応し，計算コストを抑えた時系列分析モデルを開発する。
- 提案手法であるMSTNは，複数のデータセットで最先端の性能を達成し，21/27のデータセットで最高結果を更新した。
- MSTNは軽量であり，低遅延推論が可能であるため，リソースに制約のある環境への導入に適している。
- Early Temporal Aggregationにより，計算効率を維持しつつ，多様な時間スケールのパターンを柔軟にモデル化できる。
Link: https://arxiv.org/abs/2511.20577
マスクは気を散らす可能性がある：拡散言語モデルにおける文脈理解について [cs.LG]目的：拡散言語モデルの文脈理解能力
- 言語モデルは自然言語処理の根幹であり，その性能向上は様々な応用分野に不可欠である。
- 従来の言語モデルは文脈の利用が局所的になりがちで，長距離の依存関係を捉えるのが困難である。
- 拡散言語モデルにおけるマスクトークンの影響を軽減し，より強固な文脈理解を可能にすること。
- マスク拡散言語モデル（MDLM）は，入力中の関連情報の位置に敏感であり，局所的な文脈を優先する傾向が明らかになった。
- 生成に必要なマスクトークンを追加すると，文脈理解能力が著しく低下することが示された。マスクが注意を散漫にする要因となる。
- マスクに依存しない損失関数を用いることで，マスクの注意散漫効果を軽減し，MDLMの頑健性を向上させることができた。
Link: https://arxiv.org/abs/2511.21338
検証者を回避する：デモンストレーションによる推論学習 [cs.LG, cs.AI]目的：専門家のデモンストレーションのみから強力な推論能力を学習すること
- 大規模言語モデルの推論能力向上は重要である。現実世界の複雑なタスクへの応用が期待される。
- 多くの推論タスクには検証者が存在せず，専門家のデモンストレーションが十分に活用されていない。
- 検証者なしで，デモンストレーションから効果的に推論能力を引き出すことを目指す。
- RAROは，専門家のデモンストレーションのみを用いて，高い推論能力を獲得できることを示した。
- Countdown, DeepMath, Poetry Writingといった評価タスクにおいて，既存手法を大幅に上回る性能を達成した。
- RAROは，検証者を用いた強化学習と同等のスケーリング傾向を示すなど，堅牢な学習を実現している。
Link: https://arxiv.org/abs/2511.21667
コードペアを超えて：LLM コード翻訳のための対話型データ生成 [cs.PL, cs.AI, cs.SE]目的：LLM コード翻訳のためのデータ生成手法
- LLMはコード翻訳で高い能力を示すが，リソースの少ない言語や新しいフレームワークでは性能が低下する。
- FortranやCUDAなど，高品質な並列データが不足していることが課題となっている。
- 対話型データ生成を通じて，リソース不足な言語やフレームワークの翻訳精度を向上させる。
- デュアルLLM Questioner-Solverパイプラインにより，Fortran-to-C++で3.64k，C++-to-CUDAで3.93kの対話データを生成した。
- このデータでファインチューニングした結果，C++-to-CUDAタスクにおいてユニットテストの成功率が56%以上向上した。
- 生成されたデータを用いることで，7Bのオープンウェイトモデルが大規模な商用システムを上回る性能を発揮した。
Link: https://arxiv.org/abs/2512.03086
マルチエージェントシステムにおける視点変化の検出 [cs.AI, cs.MA, stat.ME]目的：マルチエージェントシステムにおける行動変化の検出手法
- 近年，外部ツールを用いる生成モデルが進化し，複雑なタスクをこなせるようになっている。
- エージェント間の相互作用が複雑になる中で，行動変化を監視する手段が確立されていない。
- ブラックボックスなマルチエージェントシステムにおける行動変化を定量的に捉える方法を開発する。
- 提案手法TDKPSは，時間軸に沿ってエージェントを埋め込み，行動変化を検知する仮説検定を可能にする。
- シミュレーション実験により，TDKPSのパラメータに対する感度を評価し，実用性を確認した。
- 自然実験の結果，TDKPSは外部からの影響と相関性の高い行動変化を検知できることが示された。
Link: https://arxiv.org/abs/2512.05013
積極的ビデオ知覚：エージェント的長編ビデオ理解のための反復的証拠探索 [cs.CV, cs.AI, cs.CL]目的：長編ビデオ理解における証拠探索の効率化
- 現実世界のクエリ応答には，長時間のビデオから関連情報を効率的に抽出する必要がある。
- 従来のフレームワークはクエリに依存しないキャプションを使用するため，無関係なコンテンツの処理に計算資源を浪費する。
- ビデオをインタラクティブな環境として扱い，クエリ関連の証拠を直接ピクセルから取得することで効率化を図る。
- AVPは，5つの長編ビデオ理解ベンチマークにおいて，最高の全体精度を達成した。
- 既存の最良のエージェント的メソッドと比較して，平均全体精度で5.7％の改善を達成した。
- 推論時間と入力トークン数を大幅に削減し，効率的なビデオ理解を実現した。
Link: https://arxiv.org/abs/2512.05774
強化学習によるクロスレベルエージェント的行動の習得 [cs.LG]目的：異種行動空間を習得し，最適なインターフェースを自律的に選択するエージェントモデル
- エージェントAIの発展において，柔軟な行動選択は重要であり，環境変化への適応能力を高める。
- 既存のエージェントは，固定された行動空間に限定されており，状況に応じた最適な行動粒度を選択できない。
- 本研究は，多様な行動空間を動的に活用し，長期的な推論における効率と汎化性能を向上させることを目指す。
- 提案手法CrossHAは，多様な行動空間を統合的に扱い，各ステップで最適なインターフェースを自律的に選択する。
- 冷起動のための教師ありファインチューニングと，Multi-Turn GRPOアルゴリズムを組み合わせた訓練パイプラインを導入した。
- Minecraft環境における実験の結果，CrossHAは最先端の性能を達成し，固定行動ベースラインを大幅に上回った。
Link: https://arxiv.org/abs/2512.09706
暗黙的バイアスと不変性：ホップフィールドネットワークがグラフ軌道を効率的に学習する方法 [cs.LG]目的：グラフ軌道の学習効率
- 機械学習において対称性は重要であり，その活用は汎化性能に繋がる。
- ニューラルネットワークでの不変性の明示的な組み込みは困難な場合がある。
- グループ構造データにおける暗黙的な不変性のメカニズムを解明する。
- ホップフィールドネットワークは，少数のランダムサンプルからグラフの同型類を推論できることが示された。
- グラフの同型類は，三次元の不変な部分空間内に表現可能である。
- エネルギーフロー最小化（MEF）による学習は，ノルム効率の良い解に暗黙的なバイアスを持つ。
Link: https://arxiv.org/abs/2512.14338
CangLing-KnowFlow：包括的なリモートセンシングアプリケーションのための知識とフローを融合した統合エージェント [cs.AI]目的：大規模リモートセンシングデータの自動的かつ知的な処理
- 地球観測において，膨大なデータ量への効率的な対応が不可欠であるため。
- 既存の自動システムは特定のタスクに限定され，多様なワークフロー全体を管理する統一的な枠組みが存在しない。
- 専門知識と適応可能な手順を統合し，複雑な地球観測課題を解決すること。
- CangLing-KnowFlowは，162の実際的なリモートセンシングタスクに基づいた1,008の専門家が検証したワークフローケースを含む手続き型知識ベースを活用する。
- 実行時エラー時には，動的なワークフロー調整機能が自律的に診断・回復戦略を立案し，進化型メモリモジュールが学習を通じて知識とパフォーマンスを向上させる。
- KnowFlow-Benchの評価において，CangLing-KnowFlowは主要なLLMバックボーン上でReflexionベースラインを少なくとも4％上回るタスク成功率を示した。
Link: https://arxiv.org/abs/2512.15231
AI疫学への道：将来的なリスク検知のための測定標準化フレームワーク [cs.AI, cs.LG]目的：展開されたAIシステムにおける将来的なリスク検知のための測定標準化フレームワーク
- AIの社会実装が進む中で，AIの安全性と信頼性の確保が重要課題となっている。
- AIシステムの内部にアクセスできない状況下では，AIの挙動を評価・監視することが困難である。
- AIシステムの専門家とAIの対話を有意義な情報に変換し，リスク検知の標準化を図る。
- 大規模言語モデルが，専門家とAIの対話の評価において，一定の信頼性を持つ標準化された評価を生成可能であることが示唆された。
- アライメントスコアは，AIシステムの導入時における専門家への迅速なフィードバックと，組織全体での監視に役立つ可能性がある。
- 測定標準化が確立されれば，アライメントスコアと実際の成果との関連性を調査し，「AI疫学」を確立できる可能性がある。
Link: https://arxiv.org/abs/2512.15783
大規模言語モデルにおけるバイアスの体系的な分析 [cs.CY, cs.AI, cs.CL]目的：大規模言語モデルにおけるバイアスの実態
- 情報取得や意思決定支援においてLLMの重要性が増している。
- LLMが多様な状況下で公平性を保てているかの検証が課題。
- 政治，イデオロギー，言語，ジェンダーにおけるLLMのバイアスを特定。
- LLMは中立性を目指して設計されているものの，様々な種類のバイアスや傾向が認められた。
- ニュース要約，政治的立場分類，国連投票パターン分析など，多角的な実験を実施した。
- 多言語ストーリー補完やWorld Values Surveyへの応答からも，バイアスが確認された。
Link: https://arxiv.org/abs/2512.15792
スペクトル表現を用いたスケーラブルで妥当な条件付き独立性検定に向けて [cs.CC, cs.FL, cs.LG, stat.ML]目的：条件付き独立性検定のスケーラビリティと妥当性の向上
- 因果推論，特徴選択，グラフモデルにおいて条件付き独立性は不可欠な概念である。
- 既存の検定は制約の強い構造的条件に依存し，その妥当性が限定される場合がある。
- 表現学習を用いてカーネル法の限界を克服し，実用的な条件付き独立性検定を実現する。
- 偏共分散演算子の特異値分解から得られる表現を用いることで，単純な検定統計量を構築した。
- 表現学習誤差と検定性能を結び付ける理論を確立し，漸近的な妥当性と検出力を保証した。
- 実データと合成データに対する実験により，提案手法のスケーラビリティと統計的根拠が示された。
Link: https://arxiv.org/abs/2512.19510
ABBEL：メモリ効率の良い対話のための自然言語信念状態の学習 [cs.CL, cs.AI, cs.LG]目的：自然言語信念状態を用いた，メモリ効率の良い対話エージェントの学習
- 複雑なタスクでは，過去の対話履歴を全て保持することが計算資源の制約となる。
- 対話履歴の要約は計算コストを削減するが，完全な履歴へのアクセスと比較して性能が劣る。
- 情報損失を抑制し，効率的な要約生成を実現することで性能ギャップを縮小すること。
- 提案手法ABBELは，明示的な自然言語信念状態によって要約の情報を直接監督する。
- 信念状態の評価と，メモリ効率の悪い情報の削減のための学習手法を導入した。
- ABBELは，既存手法と比較して40%の性能向上と67%のメモリ削減を達成した。
Link: https://arxiv.org/abs/2512.20111
意図に基づくネットワークにおける戦略類似度を考慮した効率的な非同期連合評価 [cs.NI, cs.AI]目的：産業用IoT環境における意図に基づくネットワークの戦略評価手法
- 産業用IoT環境では，ネットワークの複雑性増大に伴い，自律的なネットワーク制御が不可欠である。
- 集中型の戦略評価は，ノードの不均一性やプライバシー制約により，効率性や実現性に課題がある。
- 連合学習を用いて分散的な戦略評価を実現し，効率性とプライバシー保護を両立することを目指す。
- 提案手法は，大規模言語モデルを用いて意図を構造化された戦略に変換し，連合学習により分散評価を実現する。
- 戦略類似度を考慮した連合学習メカニズムにより，学習効率を向上させ，通信オーバーヘッドを削減する。
- 実験結果から，提案手法は既存手法と比較して，モデル精度，収束速度，通信コストにおいて優れていることが示された。
Link: https://arxiv.org/abs/2512.20627
ReTreVal：検証と問題横断的記憶を用いた大規模言語モデルの推論木 [cs.AI, cs.CL]目的：大規模言語モデルにおける推論能力の向上
- LLMの推論能力は，様々なタスクで注目されている。その性能向上は，実用的な応用に不可欠である。
- 従来の推論フレームワークでは，問題境界で過去の失敗情報を失い，学習が問題ごとにリセットされる。
- 問題横断的な学習により，LLMが過去の経験から学び，よりロバストな推論を可能にすること。
- ReTreValは，ツールを活用したノード洗練，型付きバックトラッキング，自己書き換えメモリを組み合わせることで，問題間の知識伝達を実現した。
- MATH-500で85.8%のpass@1を達成し，Zero-Shot CoTやSelf-Refineと比較して大幅な性能向上を示した。
- MMLU-Proにおいても54.4%を達成し，エラーからの回復能力と真の性能向上が確認された。
Link: https://arxiv.org/abs/2601.02880
ストリートビュー画像とビジュアルLLMを用いた文化遺産価値の予測：ガバナンス支援，リスク，倫理，政策への示唆 [cs.CY, cs.AI, cs.CV]目的：文化遺産価値の予測
- 建築物の文化遺産価値は，都市計画や保存活動において重要な情報である。
- スウェーデンには，文化遺産価値を持つ建築物を網羅的に記録した国家登録簿が存在しない。
- LLMを活用し，スウェーデンの建築ストックにおける文化遺産価値に関する情報提供を支援する。
- ストリートビュー画像から得られたデータを用いて，LLMによる文化遺産価値の予測を行った。
- 予測結果は，500万平方メートルの暖房面積を持つ建築物の潜在的な文化遺産価値の特定に貢献した。
- LLMの利用に伴う透明性，誤検出，迎合性などのリスクについても議論した。
Link: https://arxiv.org/abs/2601.06056
ロバストな多ラベルリモートセンシング画像分類のためのノイズ適応正則化 [cs.CV, cs.LG]目的：多ラベルリモートセンシング画像分類におけるロバスト性の向上
- リモートセンシングデータの活用は，地球規模の環境変化監視に不可欠である。
- リモートセンシング画像の注釈コストが高く，ノイズを含む注釈データが課題となる。
- 異なる種類のノイズに対応し，注釈データの信頼性を高める分類手法の開発。
- 提案手法NARは，付加型と減算型ノイズを明示的に区別する正則化手法である。
- NARは，信頼度に基づくラベル処理メカニズムにより，ノイズの影響を抑制し，学習の安定化を図る。
- 実験結果から，NARは既存手法と比較して，特に減算型および混合型ノイズ下で高いロバスト性を示す。
Link: https://arxiv.org/abs/2601.08446
ランキング平均二乗誤差による報酬学習 [cs.LG, cs.AI]目的：強化学習における報酬関数推定手法
- 現実世界への強化学習応用の大きな課題は報酬設計である。
- 従来の二値評価に比べ，人間からの評価はより詳細だが，利用が難しい。
- 軌道評価ペアから学習し，報酬関数を効率的に推定すること。
- 提案手法R4は，ランキング平均二乗誤差損失を用いて報酬関数を学習する。
- R4は，軽微な仮定の下で，解の最小性と完全性の保証を提供する。
- 実証実験の結果，R4は既存手法と同等またはそれ以上の性能を示した。
Link: https://arxiv.org/abs/2601.09236
CaMeLsもコンピュータを使える：コンピュータ使用エージェントのためのシステムレベルセキュリティ [cs.AI]目的：コンピュータ使用エージェントに対するシステムレベルセキュリティの実現
- AIエージェントの普及に伴い，セキュリティ確保が重要課題となっている。
- AIエージェントは，プロンプトインジェクション攻撃に対して脆弱である。
- UIワークフローの構造的予測可能性を利用し，セキュリティと実用性の両立を目指す。
- UIワークフローは動的でありながら構造的に予測可能であることの証明。
- NOVA（Observation, Verification, and Actionによるナビゲーション）によって，大規模なUI状態空間における計画実行が可能となった。
- OSWorldでの評価により，セキュリティを強化しつつ，性能維持・向上が確認された。
Link: https://arxiv.org/abs/2601.09923
大規模推論モデルにおける効率的な推論のための動的思考トークン選択 [cs.CL, cs.AI, cs.CL, cs.LG]目的：大規模推論モデルの効率化
- 複雑な問題解決において，推論能力が求められる場面が増加している。
- 推論過程の生成には，膨大なメモリと計算資源を必要とするという課題がある。
- 推論過程における重要トークンのみを保持し，効率的な推論を実現すること。
- 推論過程において，最終解答に影響を与えるのは一部の重要なトークンのみであるという知見が得られた。
- 提案手法DynTSは，重要トークンに対応するKVキャッシュのみを保持することで，効率化を図る。
- DynTSは，推論速度の向上とメモリ使用量の削減に貢献することが示唆された。
Link: https://arxiv.org/abs/2601.18383
効率的なコード局所化のための適応的並列実行学習 [cs.AI, cs.SE]目的：効率的なコード局所化のための適応的並列実行戦略
- ソフトウェア開発の自動化において，コード局所化は重要な課題であり，開発効率に大きく影響する。
- 並列実行による高速化が期待されるものの，現在のツールは無駄な呼び出しが多く，並列性のメリットを活かせない。
- ツール効率を考慮した適応的な並列実行戦略を学習することで，コード局所化の性能とコスト効率を向上させる。
- 提案手法FuseSearchは，SWE-bench Verifiedにおいて，ファイルレベルF1スコア84.7%，関数レベルF1スコア56.4%を達成し，最新技術を上回る性能を示した。
- FuseSearchは，93.6%の高速化を実現し，従来の67.7%以下のターン数と68.9%以下のトークン数で同様の性能を達成した。
- 効率を意識した学習が，ノイズの多い冗長なシグナルを排除し，自然に局所化の品質を向上させることが示された。
Link: https://arxiv.org/abs/2601.19568
A2RAG：費用対効果と信頼性を考慮した適応型エージェントによるグラフ検索 [cs.IR, cs.AI, cs.DB]目的：費用対効果と信頼性を考慮した推論のための適応型エージェントグラフ検索
- 知識の構造化と利用において，グラフ構造は複雑な質問応答を可能にする重要な要素である。
- 既存のグラフ検索拡張生成モデルは，難易度に応じた費用対効果と，情報の損失という課題を抱えている。
- A2RAGは，これらの課題を解決し，より効率的かつ信頼性の高い推論を実現することを目指している。
- A2RAGは，証拠の十分性を検証し，必要に応じて検索を絞り込む適応型コントローラを導入している。
- また，エージェント型検索により，段階的に検索努力を増やし，抽出損失や不完全なグラフに対応している。
- HotpotQAと2WikiMultiHopQAの実験で，A2RAGはRecall@2で大幅な改善を示し，トークン消費量とレイテンシを約50%削減した。
Link: https://arxiv.org/abs/2601.21162
Drive-KD：自動運転におけるVLMのためのマルチ教師蒸留 [cs.AI, cs.CV]目的：自動運転用VLMの性能向上
- 自動運転は安全性に重要な課題であり，LLM/VLMの進展が新たな可能性を開いている。
- 大規模モデルはGPUメモリを多く消費し，推論速度が遅い。SFTでは小型モデルの性能向上が難しい。
- 知覚・推論・計画の分解と知識蒸留により，効率的なVLMの実現を目指す。
- Drive-KDは，自動運転を「知覚・推論・計画」の三要素に分解し，知識蒸留を通じて能力を伝達するフレームワークである。
- 蒸留信号として層特異的な注意を使用し，単一教師モデルの性能を向上させる。複数の教師モデルを統合し，勾配の競合を軽減する。
- 蒸留されたInternVL3-1Bモデルは，78Bモデルと同等以上の性能を持ち，GPUメモリ消費量と推論速度で優位性を示す。
Link: https://arxiv.org/abs/2601.21288
オントロジー誘導型マルチエージェント推論による文化に適合したLLMの実現 [cs.CL, cs.AI, cs.IR, cs.MA, cs.SI]目的：文化に適合したLLMの実現
- グローバル化が進む中で，多様な文化背景を持つ人々に配慮したAIシステムの重要性が高まっている。
- 既存のLLMは，偏った学習データや価値観の構造化不足により，文化的な誤alignmentが発生しやすい。
- 本研究は，オントロジーとマルチエージェントシステムを用いて，文化的な一貫性と透明性の高いLLMを構築する。
- 提案手法OG-MARは，World Values Surveyのデータに基づき，文化オントロジーを構築し，個人の価値観を表現する。
- OG-MARは，オントロジーの一貫性と人口統計学的類似性に基づいて複数の価値観ペルソナエージェントを生成し，判断エージェントが統合する。
- 実験結果から，OG-MARは既存手法と比較して，文化的な適合性と堅牢性を向上させ，より透明性の高い推論経路を提供する。
Link: https://arxiv.org/abs/2601.21700