arXiv雑要約

AI - 2026/03/17 公開

  • GraphSeek:LLMによる次世代グラフ分析 [cs.RO, cs.CL, cs.DB, cs.AI, cs.CL, cs.HC, cs.IR]目的:大規模プロパティグラフに対する効率的かつ効果的な自然言語グラフ分析
    • グラフは多くの分野の基盤技術であり,データ分析において重要な役割を担う。
    • 大規模で複雑なグラフデータの分析には専門知識が必要であり,高度な技術が求められる。
    • LLMを活用し,大規模グラフの分析をより容易かつ効率的に行うための新しい手法を確立する。
    • GraphSeekは,従来のLangChainと比較して大幅に高い成功率(86%)を達成した。
    • セマンティックカタログを用いてLLMの計画とデータベースレベルのクエリ実行を分離することで,トークン効率とタスク効果を高めている。
    • LLMによる推論とデータベースによる実行を統合し,大規模で複雑なプロパティグラフ分析の新たな可能性を示す。

    Link: https://arxiv.org/abs/2602.11052

  • SToRM:マルチモーダルLLMのための教師ありトークン削減による,効率的なエンドツーエンド自律運転 [cs.CV, cs.AI, cs.RO]目的:マルチモーダルLLMにおけるトークン削減手法の開発
    • 自律運転システムの安全性向上には,多様な状況への対応が不可欠であり,LLMを活用した人間と車両のインタラクションが重要となる。
    • LLMとセンサー入力のトークン数の多さにより計算資源が限られる自律運転において,効率的な推論が課題となっている。
    • 全トークン使用時の性能を維持しつつ,計算コストを削減し,リアルタイムな自律運転を可能にすることを目指す。
    • 本研究で提案するSToRMは,既存のE2E運転MLLMを凌駕し,同等のトークン削減予算下でより高い性能を発揮する。
    • SToRMは,全トークン使用時の性能を維持しつつ,計算コストを最大30倍削減し,標準的なGPU上でのリアルタイムE2E運転を可能にする。
    • トークン重要度予測,教師あり学習,アンカーコンテキストマージの3要素から構成されるSToRMは,冗長性を削減し,情報損失を最小限に抑える。

    Link: https://arxiv.org/abs/2602.11656

  • 誤った理由で正解:LLMにおける因果ラング崩壊に対する認識的後悔最小化 [cs.AI]目的:LLMにおける因果ラング崩壊とその対策
    • 機械学習の性能向上は重要だが,分布シフトへの脆弱性が課題となっている。
    • 因果関係の誤った学習により,表面的な正解に固執する「偶然的固定化」が問題である。
    • 因果的推論における誤りを独立して罰することで,より頑健な学習を目指す。
    • 自己回帰学習では,関連性と介入の区別がつかず,因果ラング崩壊が発生しやすいことが示された。
    • 認識的後悔最小化(ERM)は,タスク成功とは別に,因果推論の誤りを罰することで,頑健性を向上させる。
    • ERMを組み込んだ実験により,6つのLLMで,最大59%の固定化された誤りが回復された。

    Link: https://arxiv.org/abs/2602.11675

  • KAN-FIF:スプラインパラメータ化軽量物理ベースの熱帯低気圧推定(気象衛星用) [cs.LG, cs.AI]目的:熱帯低気圧の推定
    • 熱帯低気圧は甚大な災害を引き起こすため,早期の正確な監視が重要である。
    • 既存手法は計算コストが高く,パラメータ数が多く,エッジデバイスでの利用が困難である。
    • KAN-FIFは軽量かつ高精度な熱帯低気圧推定を可能にし,エッジデバイスへの展開を目指す。
    • KAN-FIFは,既存モデルPhy-CoCoと比較して,パラメータ数を94.8%削減し,推論速度を68.7%向上させた。
    • 最大風速予測において,KAN-FIFは平均絶対誤差を32.5%低減し,高い精度を維持した。
    • FY-4シリーズ気象衛星プロセッサ上でのオフライン実験で,サンプルあたりの推論遅延を14.41msに抑えた。

    Link: https://arxiv.org/abs/2602.12117

  • オンポリシーSFTへ:分布識別理論とそのLLMトレーニングへの応用 [cs.LG, cs.AI, cs.CV]目的:LLMのトレーニングにおける,分布識別理論に基づくオンポリシーSFTの実現
    • 大規模言語モデルの性能向上は,様々な自然言語処理タスクにおいて重要である。
    • SFTは効率的だが,汎化性能が強化学習に劣るという課題がある。
    • SFTの汎化性能を向上させ,強化学習に匹敵する結果を得ることを目指す。
    • 提案手法は,DPOやSimPOなどのオフライン強化学習アルゴリズムを凌駕する汎化性能を達成した。
    • SFTの効率性を維持しつつ,オンポリシーデータの利点を活用する新しいフレームワークを提案する。
    • 強化学習が困難なドメインにおいて,実用的な代替手段を提供する。

    Link: https://arxiv.org/abs/2602.12222

  • 強化学習ファインチューニングされたVLMの頑健性とChain-of-Thoughtの一貫性について [cs.LG]目的:強化学習ファインチューニングされたVLMの頑健性とChain-of-Thoughtの一貫性の評価
    • 大規模言語モデルの推論能力向上に強化学習が活用されている。近年,視覚情報と言語を扱うVLMへの応用が注目されている。
    • VLMは,視覚情報の誤った解釈や幻覚,テキスト情報への過度な依存といった問題を抱えており,頑健性に課題がある。
    • 本研究は,VLMの脆弱性を明らかにし,正答率と推論の信頼性を両立させるための訓練方法を探求する。
    • 単純なテキスト擾乱によってVLMの頑健性と信頼性が著しく低下することが示された。特に,Chain-of-Thoughtの一貫性を考慮すると,その影響は顕著である。
    • オープンソースのVLMは,クローズドモデルと比較して頑健性と推論の一貫性が低い傾向があり,その差は現在のファインチューニング方法に起因すると考えられる。
    • 正答率向上と推論の信頼性の維持の間にはトレードオフが存在し,頑健性の向上が容易ではないことが明らかになった。

    Link: https://arxiv.org/abs/2602.12506

  • Flow-Factory:Flow-Matchingモデルにおける強化学習のための統一フレームワーク [cs.LG, cs.CV]目的:Flow-Matchingモデルにおける強化学習の統一的フレームワーク
    • 拡散モデルやFlow-Matchingモデルと人間の嗜好を一致させる上で,強化学習が有望な手法として注目されている。
    • 既存の実装は,コードベースが分散しており,モデルに依存した実装が多く,技術的な複雑さを伴うという課題がある。
    • Flow-Factoryは,アルゴリズム,モデル,報酬をモジュール化し,容易な統合と迅速なプロトタイピングを可能にすることで,この課題を解決する。
    • Flow-Factoryは,GRPO,DiffusionNFT,AWMといったアルゴリズムをFlux,Qwen-Image,WAN videoモデルに容易に統合できることを示した。
    • 本フレームワークは,実装のオーバーヘッドを最小限に抑え,研究者が将来のイノベーションを迅速に試作・拡張することを支援する。
    • さらに,本フレームワークは実運用に対応したメモリ最適化,柔軟なマルチ報酬学習,シームレスな分散学習をサポートする。

    Link: https://arxiv.org/abs/2602.12529

  • GOT-JEPA:関節埋め込み予測アーキテクチャを用いたモデル適応とオクルージョン処理による汎用オブジェクト追跡 [cs.CL, cs.MA, cs.RO, cs.CV, cs.AI, cs.LG, cs.MM, cs.NE]目的:汎用オブジェクト追跡における汎化性能とオクルージョン認識の向上
    • 視覚システムは変化に適応し,オクルージョンを理解する。追跡技術への応用は重要である。
    • 既存の追跡器は特定の対象に最適化され,未知の状況での汎化性能が低いという課題がある。
    • 本研究は,汎化性能とオクルージョン認識の向上を目指し,予測アーキテクチャを用いた新しい追跡フレームワークを提案する。
    • GOT-JEPAは,画像特徴の予測から追跡モデルの予測へとJEPAを拡張した事前学習フレームワークである。
    • 教師予測器と生徒予測器を用いて,ノイズのある画像から信頼性の高い追跡モデルを予測するように学習させることで,汎化性能を向上させている。
    • OccuSolverを組み合わせることで,オクルージョン認識を強化し,追跡精度をさらに高めている。7つのベンチマークで有効性が確認された。

    Link: https://arxiv.org/abs/2602.14771

  • 彼は外向的なのか?忠実なユーザシミュレーションのための欠落した関連ペルソナの特定 [cs.HC, cs.AI]目的:ユーザの応答をシミュレートする際に欠落している関連ペルソナの特定
    • 対話システムの評価において,ユーザシミュレーションは不可欠である。現実的な対話の再現と効率的な開発を可能にする。
    • 既存のシミュレーションでは,ペルソナの完全性が検証されず,重要な情報が欠落している場合がある。
    • 与えられた対話文脈において,応答に影響を与える欠落したペルソナ次元を特定し,シミュレーションの信頼性を高める。
    • PICQ-drama(TVShowGuessから構築)という,文脈を考慮した選択問題のベンチマークを導入した。このベンチマークは,欠落したペルソナ次元が曖昧な選択につながるように注釈付けされている。
    • 主要なLLMをPICQ-dramaデータセットで評価した結果,このタスクの実現可能性が示された。
    • 多様な評価基準を用いた評価と詳細な分析により,LLMと人間の認知的な違いが明らかになり,異なるペルソナカテゴリの役割が示唆された。

    Link: https://arxiv.org/abs/2602.15832

  • MARVL:視覚言語モデルによるロボット操作のための多段階ガイダンス [cs.RO, cs.CV, cs.LG]目的:ロボット操作における報酬設計の自動化
    • ロボットの強化学習において,効率的な学習には適切な報酬関数が不可欠である。
    • 従来の報酬関数は手動で設計されるため,拡張性や自動化が課題となっていた。
    • 視覚言語モデルを活用し,報酬設計の自動化と性能向上を目指す。
    • MARVLは,視覚言語モデルを空間的・意味的に整合性の高い報酬関数を生成するように微調整する。
    • タスクを多段階のサブタスクに分解し,軌跡の感度を考慮したタスク方向投影を用いる。
    • Meta-Worldベンチマークにおいて,既存の視覚言語モデル報酬法を大きく上回り,サンプル効率と頑健性が向上した。

    Link: https://arxiv.org/abs/2602.15872

  • グロッキングにおける低次元・横曲率最適化ダイナミクス [cs.LG, cs.AI]目的:グロッキング現象における最適化ダイナミクスの幾何学的分析
    • 機械学習モデルの汎化能力向上は重要な課題である。グロッキングはそのメカニズムが未解明な現象として注目されている。
    • グロッキングは,記憶から汎化への遅延遷移であり,その最適化過程が十分に理解されていない。
    • 本研究は,グロッキングの背後にある幾何学的構造を明らかにすることを目指す。
    • Transformerの学習において,注意重みの軌跡は低次元の実行部分空間内で進化することが示された。
    • 損失関数の地形的特徴を分析した結果,実行部分空間に直交する方向での曲率が急激に増加することがわかった。
    • 曲率の増加は汎化に先行し,その時間差はグロッキングのタイムスケールに対してべき乗則に従うことが明らかになった。

    Link: https://arxiv.org/abs/2602.16746

  • 狭い範囲のファインチューニングが,視覚言語エージェントの安全性への適合性を損なう [cs.AI]目的:視覚言語モデルの安全性への適合性低下
    • 継続的な学習が可能なマルチモーダルエージェントの重要性が増している。
    • ファインチューニングによる能力獲得と安全性維持の間に緊張関係が生じる。
    • 有害データセットを用いた狭い範囲のファインチューニングによる安全性低下を軽減する。
    • 狭い範囲の有害データセットでファインチューニングすると,関連性のないタスクやモダリティで重大な誤った配置が生じる。
    • LoRAランクが上昇するにつれて,誤った配置が単調に増加し,マルチモーダル評価の方がテキストのみの評価よりも高い誤配置を示す。
    • 有害な行動は,わずか10個の主成分に大部分の情報が集中する,低次元の部分空間に存在する。

    Link: https://arxiv.org/abs/2602.16931

  • グロッキングの早期警告信号:損失地形の幾何学 [cs.LG, cs.AI]目的:グロッキング現象の早期警告信号の特定
    • 深層学習モデルの汎化能力の理解は,AIの信頼性と性能向上に不可欠である。
    • 学習初期段階での汎化能力の予測は困難であり,計算資源の浪費につながる。
    • グロッキング現象の兆候を早期に検知し,汎化への移行を予測すること。
    • グロッキング前に,非可換勾配更新から導出される曲率指標「可換子欠損」が上昇することが確認された。
    • 可換子欠損の上昇と汎化のタイミングには,超線形な関係性が認められた。
    • 可換子欠損の増幅はグロッキングを加速させ,抑制は遅延または阻止することが示された。

    Link: https://arxiv.org/abs/2602.16967

  • マルチタスク・グロッキングの幾何学:横方向の不安定性,重ね合わせ,および重み減衰の位相構造 [cs.LG, cs.AI]目的:マルチタスクモジュラー算術におけるグロッキング現象の幾何学的分析
    • 深層学習モデルの汎化性能向上は重要な課題であり,そのメカニズム解明が求められている。
    • グロッキングは,学習初期の記憶から遅れて汎化が起こる現象であり,その要因は不明な点が多い。
    • 本研究では,マルチタスク設定におけるグロッキングの幾何学的特徴を明らかにし,そのメカニズムを解明することを試みる。
    • マルチタスク学習において,乗算,二乗,加算の順でグロッキングが起こり,その遅延は一定であることが示された。
    • 最適化軌跡は低次元多様体上に制限され,汎化の前に交換子欠陥が検出されるという普遍的な特徴が確認された。
    • 重み減衰の大きさがグロッキングのタイムスケール,曲率,再構成閾値,欠陥リードに系統的に影響し,複数の動的レジームと重み減衰なしでの失敗モードが明らかになった。

    Link: https://arxiv.org/abs/2602.18523

  • 抗体配列の条件付きサイト非依存ニューラル進化 [cs.LG, q-bio.PE]目的:抗体配列進化のメカニズム解明
    • 抗体は病原体への防御に不可欠であり,抗体工学は創薬や治療において重要である。
    • 既存手法は配列を独立サンプルとみなし,抗体成熟過程という進化情報の活用が不十分である。
    • CoSiNEにより,複雑な相互作用を捉え,抗体結合親和性の最適化を目指す。
    • CoSiNEは,複雑な相互作用を捉えつつ,連続時間マルコフ連鎖モデルによる近似の精度を数学的に保証する。
    • CoSiNEは,最先端の言語モデルを凌駕し,選択と体細胞過変異を分離した変異効果予測を可能にする。
    • Guided Gillespieを用いることで,特定の抗原に対する抗体結合親和性の効率的な最適化を実現する。

    Link: https://arxiv.org/abs/2602.18982

  • 綺麗さは役に立たない:最新のテキストから画像へのモデルが信頼できる学習データ生成器として失敗する理由の調査 [cs.CL, cs.CV, cs.AI]目的:テキストから画像モデルによる合成データ生成の性能低下
    • 画像認識の性能向上には大量の学習データが必要であり,データ収集コストが課題である。
    • 合成データ生成モデルの進化に伴い,実データ代替の可能性が期待されている。
    • 最新のテキストから画像モデルが,学習データ生成器として適切でない問題を明らかにする。
    • 最新のテキストから画像モデルは,視覚的な忠実度は向上しているにも関わらず,実データに対する分類精度が低下する。
    • これは,モデルが美的観点に偏った分布に陥り,多様性や実データ分布の網羅性が失われることが原因である。
    • 生成モデルのリアリズム向上が,必ずしもデータリアリズムの向上につながらないことが示唆される。

    Link: https://arxiv.org/abs/2602.19946

  • 拡散モデル加速のための学習可能な段階認識予測器:LESA [cs.CV, cs.AI]目的:拡散モデルの加速
    • 画像生成分野において,拡散モデルは目覚ましい成果を上げているが,計算コストが課題となっている。
    • 既存の高速化手法は,拡散過程の複雑な段階依存性を捉えきれず,品質劣化や一貫性の欠如が問題である。
    • 本研究は,段階に応じた正確な特徴予測により,拡散モデルの高速化と高品質な画像生成を両立させる。
    • 提案手法LESAは,Kolmogorov-Arnold Networkを活用し,時間的な特徴マッピングを学習することで,正確な予測を実現した。
    • FLUX.1-devにおいて5.00倍の加速,Qwen-ImageではTaylorSeerより20.2%品質が向上し,HunyuanVideoでは24.7%PSNRが改善された。
    • 画像・動画生成の両タスクにおいて最先端の性能を示し,異なるモデルへの汎用性も確認された。

    Link: https://arxiv.org/abs/2602.20497

  • バッファが重要: 大規模言語モデルの推論におけるオフポリシー強化学習の力 [cs.AI]目的:大規模言語モデルのポストトレーニングにおけるデータ効率の向上
    • 大規模言語モデルの推論能力向上は,自然言語処理分野における重要な課題である。
    • 従来のオンポリシー強化学習は,経験の無駄と報酬の均質性により学習効率が制限される。
    • 本研究は,過去の困難なサンプルを再評価し高品質なものを再利用することで,データ効率を改善する。
    • 提案手法BAPOは,数学,計画,視覚的推論タスクにおいて,GRPOに対して平均12.5%の性能向上を達成した。
    • BAPOは,ベースモデルが常に解けない問題を40.7%解決することに成功した。
    • BAPOは,過去の困難サンプルを活用し,ポリシー改善の下限保証を維持する。

    Link: https://arxiv.org/abs/2602.20722

  • ファズ-RL:不確実性下における安全な強化学習のためのファジー誘導型ロバストフレームワーク [cs.LG]目的:不確実性下での安全な強化学習のためのロバストフレームワーク
    • 実世界への応用では,高い性能と安全性の両立が重要であり,安全な強化学習の研究は不可欠である。
    • 現実環境における複数の不確実性の複雑な相互作用が,解釈可能なリスク評価とロバストな意思決定を困難にしている。
    • 様々な不確実性下での安全性と制御性能を向上させることを目指している。
    • 提案手法Fuz-RLは,ファジー測度をガイドとしたロバストフレームワークであり,Choquet積分を用いてロバストな価値関数を推定する。
    • 理論的に,Fuz-RL問題を解くことは,分布ロバストな安全強化学習問題を解くことと同等であることが示され,min-max最適化を回避できる。
    • safe-control-gymやsafety-gymnasiumでの実験により,Fuz-RLが既存の安全強化学習手法と効果的に統合され,安全性と制御性能が大幅に向上することが示された。

    Link: https://arxiv.org/abs/2602.20729

  • Aletheia,FirstProofに自律的に挑戦 [cs.AI, cs.CL, cs.LG]目的:数学研究における自律的な問題解決
    • 数学研究の進展には,新たな発見と定理の証明が不可欠である。
    • 複雑な数学問題の解決には,高度な専門知識と膨大な時間が必要となる。
    • AIによる数学問題の自律的な解決を目指し,研究の効率化を図る。
    • Aletheiaは,FirstProofチャレンジにおいて10問題中6問題を自律的に解決した。
    • 専門家評価では,問題8に関して意見が分かれたが,多数派の評価で正解と判断された。
    • 実験の詳細,評価,およびプロンプトと出力は公開されており,透明性が確保されている。

    Link: https://arxiv.org/abs/2602.21201

  • 影響下にある:大規模言語モデルにおける説得と警戒心の定量化 [cs.CL, cs.LG, cs.MA]目的:大規模言語モデルの説得能力と警戒心の関係性の評価
    • 高リスクな意思決定へのLLM活用が進む中,そのリスク理解が不可欠である。
    • 説得と警戒心はそれぞれ研究されてきたが,両者の関連性は未解明であった。
    • LLMの助言における説得と警戒心の相互作用を明らかにすること。
    • LLMのパズル解決能力,説得力,警戒心はそれぞれ独立した能力であることが示された。
    • ゲームの成績が良いからといって,欺瞞を見抜けるとは限らないことが確認された。
    • LLMは助言の内容によってトークン使用量を変化させ,悪意のある助言にはより多くのトークンを使用する傾向がみられた。

    Link: https://arxiv.org/abs/2602.21262

  • 優先順位制約付き決定木とカバレッジ [cs.DS, cs.LG]目的:最適な決定木と集合被覆問題における優先順位制約下の最適化
    • 意思決定やデータ分類の効率化に貢献する決定木は,計算機科学の根幹をなす重要な研究分野である。
    • 従来の決定木や集合被覆問題では,要素間の優先順位制約が考慮されておらず,現実の問題への適用が困難であった。
    • 優先順位制約を考慮した決定木と集合被覆問題の近似アルゴリズムを開発し,その近似率を評価することを目的とする。
    • 優先順位制約付き決定木およびカバレッジ問題に対し,$\mathcal{O}^*(\sqrt{m})$ 近似アルゴリズムを提案した。
    • 一般的な優先順位制約下での近似下限である$o(m^{1/12-\epsilon})$ を示した。
    • 特に重要なアウトフォレストとインフォレストに対し,多項式時間近似アルゴリズムとその限界を示した。

    Link: https://arxiv.org/abs/2602.21312

  • AutoMLパイプラインにおけるAIエージェントの意思決定と結果を評価するフレームワーク [cs.AI]目的:AIエージェントの意思決定と結果の評価フレームワーク
    • AutoMLは,機械学習の自動化を通じて,専門知識なきユーザーでも高度なモデル構築を可能にする。
    • 既存の評価手法は最終的な性能に偏っており,中間的な意思決定の質を評価することが困難である。
    • エージェントの意思決定プロセスを詳細に評価し,信頼性,解釈性,ガバナンスを向上させる。
    • 提案する評価エージェント(EA)は,AutoMLエージェントの意思決定を干渉することなく評価できる。
    • EAは,意思決定の妥当性,推論の一貫性,モデル品質のリスク,反事実的な影響を評価する。
    • 実験結果から,EAは誤った意思決定をF1スコア0.919で検出し,最終的な性能変化を意思決定に帰属させることが示された。

    Link: https://arxiv.org/abs/2602.22442

  • 言語モデルにおける視床路皮質柱による効率的な継続学習 [cs.LG]目的:言語モデルの継続学習における忘却の軽減と適応能力の向上
    • 実世界の言語モデルは常に変化するデータやタスクに適応する必要があり,その重要性は高い。
    • 逐次的な更新は破滅的な忘却を引き起こし,安定化手法はコストや拡張性の問題がある。
    • バックボーン自体に継続学習の能力を持たせることで,効率的な適応と忘却の抑制を目指す。
    • 提案手法TRC$^{2}$は,C4, WikiText-103, GSM8Kのタスクシーケンスにおいて,Transformer等のベースラインよりもタスク境界モデリングの質を向上させ,累積的な忘却を大幅に削減した。
    • 視床と海馬のコンポーネントが記憶保持の改善に不可欠であり,スループットや学習コストにおいても競争力があることが示された。
    • 因果的メモリ更新スキームとオンラインリプレイコントローラーにより,測定された忘却に基づいて固定化の強度を調整する。

    Link: https://arxiv.org/abs/2602.22479

  • パーソナライズされたLLM搭載エージェント:基礎,評価,将来展望 [cs.AI]目的:パーソナライズされたLLM搭載エージェントの設計空間の明確化
    • LLMは複雑なタスク実行を可能にするが,長期的な利用においてユーザーへの適応が重要である。
    • ユーザー依存の長期的な対話において,表面的な応答生成だけでなく,意思決定プロセス全体へのパーソナライズが課題である。
    • ユーザーに適合し,適応性があり,実用的なLLM搭載エージェント開発の基礎を提供する。
    • 本調査は,プロファイルモデリング,メモリ,計画,行動実行という4つの相互依存的な能力を中心に,パーソナライズされたLLM搭載エージェントを包括的にレビューしている。
    • ユーザーシグナルがエージェントパイプライン内でどのように表現,伝播,利用されるかを分析し,コンポーネント間の相互作用や設計上の課題を浮き彫りにしている。
    • パーソナライズされたエージェント向けに調整された評価指標やベンチマーク手法,会話型アシスタントからドメイン固有のエキスパートシステムまでの応用例についても検討している。

    Link: https://arxiv.org/abs/2602.22680

  • TARAZ:言語モデルの文化的評価のためのペルシア語短答式質問ベンチマーク [cs.CL, cs.LG]目的:ペルシア語における言語モデルの文化的能力評価のための包括的な枠組み
    • 言語モデルのグローバル展開において,文化的な理解度は重要な課題である。
    • 既存のペルシア語ベンチマークは,多肢選択形式や英語中心の評価指標に依存している。
    • ペルシア語特有の言語構造に対応した,より適切な評価方法を確立すること。
    • 提案するハイブリッド評価により,厳密一致ベースラインと比較してスコアリングの一貫性が+10%向上した。
    • 人間の評価からも,提案する意味類似度指標がLLMベースの評価者よりも人間の判断と一致しやすいことが確認された。
    • ペルシア語における文化的理解度を測定するための標準化されたベンチマークを公開し,多文化LLM評価研究の基盤を確立した。

    Link: https://arxiv.org/abs/2602.22827

  • 誘導学習と生物学:タンパク質言語モデルにおける繰り返し検出のメカニズム [cs.LG, q-bio.BM]目的:タンパク質言語モデルにおける繰り返し検出メカニズムの解明
    • タンパク質配列中の繰り返し構造は,構造と機能に重要であり,長年のアルゴリズム研究の対象である。
    • タンパク質言語モデルが繰り返しを検出するメカニズムは不明であり,詳細な解析が必要とされていた。
    • タンパク質言語モデルがどのように正確な繰り返しと近似的な繰り返しを検出するのかを明らかにすること。
    • タンパク質言語モデルは,位置情報注意機構とアミノ酸類似度をエンコードするニューロンを活用して特徴表現を構築する。
    • 近似的な繰り返し検出メカニズムは,正確な繰り返し検出メカニズムを含むことが示された。
    • 誘導ヘッドが繰り返しセグメント間でアライメントされたトークンに注目することで,正しい予測を促進している。

    Link: https://arxiv.org/abs/2602.23179

  • デュアルユース,in silico生物学的タスクにおけるLLM初心者による性能向上 [cs.AI, cs.CL, cs.CR, cs.CY, cs.HC]目的:LLM初心者とインターネットのみを利用する場合の性能差
    • 生物学分野におけるLLMの応用は進んでおり,研究加速への貢献が期待される。
    • LLMが初心者にとって有効かどうか,またデュアルユースリスクへの影響が不明である。
    • LLMが初心者研究者の能力を向上させる度合いを定量的に評価する。
    • LLMを利用することで,初心者の正答率はインターネットのみ利用の場合の4.16倍に向上した。
    • LLMアシストによる初心者の性能は,一部のベンチマークにおいて専門家を上回った。
    • LLM単独での性能が,LLMアシスト初心者の性能を上回る場合もあり,LLMの活用方法に改善の余地がある。
    • 参加者の多くは,デュアルユース関連情報の取得に困難を感じなかった。

    Link: https://arxiv.org/abs/2602.23329

  • EvoX:自動発見のためのメタ進化 [cs.LG, cs.CL, cs.NE]目的:自動最適化のためのメタ進化戦略
    • AI技術の進展に伴い,プログラムやアルゴリズムの自動改善が重要になっている。
    • 既存手法は固定的な探索戦略に依存し,タスクの変化への適応が課題となっている。
    • EvoXは探索戦略自体を最適化することで,より柔軟な適応を目指す。
    • EvoXは,候補解と探索戦略を同時に進化させることで,動的に探索方法を変化させる。
    • 約200のタスクにおいて,既存のAI駆動型進化手法を上回る性能を示した。
    • EvoXは,進捗状況に応じて探索戦略を最適化し,効率的な最適化を実現する。

    Link: https://arxiv.org/abs/2602.23413

  • 次世代サイバーセキュリティリーダーの育成:デジタルフォレンジックにおけるFINDS教育の推進 [cs.CR, cs.AI]目的:デジタルフォレンジック分野における人材育成のためのスキルグラフモデル及びその有効性
    • サイバー攻撃の高度化に伴い,高度なフォレンジック技術を持つ人材の育成が急務となっている。
    • 従来の教育方法では,実践的なスキルや研究能力の評価が困難であり,体系的な育成が課題となっていた。
    • AIを活用したデジタルフォレンジックのスキル獲得経路をモデル化し,教育効果を定量的に評価することで,人材育成を最適化することを目指す。
    • マルチ依存性能力構築スキルグラフ(MCBSG)が,AI駆動型フォレンジックプログラミングなどの能力間の階層構造と相互依存性を構造的にモデル化することが示された。
    • 指導,実験パフォーマンス,カリキュラム,ワークショップ参加データを用いた分析により,技術習熟度や研究準備の重要な予測因子が特定された。
    • 3年間の統計的評価から,フォレンジックプログラミングの正確性,敵対的推論,HPCを活用した調査ワークフローにおいて有意な改善が確認された。

    Link: https://arxiv.org/abs/2603.00222

  • EMPA:ペルソナ整合性のある共感性をプロセスとして評価する [cs.AI]目的:LLMベースの対話エージェントにおけるペルソナ整合性のある共感性の評価
    • 対話エージェントの人間らしい応答は重要であり,共感性はその中でも特に不可欠な要素である。
    • ユーザーの状態は潜在的であり,フィードバックは乏しく,その場で検証することが困難である。
    • 長期的な共感的行動の評価・最適化を可能にするためのフレームワークを提案する。
    • EMPAは,対話のプロセスを評価するフレームワークであり,単独の応答ではなく,継続的な介入として共感性を捉える。
    • 現実の対話から制御可能なシナリオを抽出し,戦略的適応と失敗モードを明らかにする多エージェント環境を提供する。
    • 潜在的な心理空間における方向性,累積的な影響,安定性に基づいて,対話の軌跡を評価する信号と指標を提供する。

    Link: https://arxiv.org/abs/2603.00552

  • 多岐にわたる対話におけるLLMのアンラーニング堅牢性に関する包括的評価 [cs.CL, cs.AI]目的:LLMにおけるアンラーニングの堅牢性
    • LLMの安全性,プライバシー,法的要件を満たす上で,特定の学習データの除去が不可欠である。
    • 既存研究は静的な環境でのアンラーニング評価に偏っており,現実的な対話環境での安定性が不明である。
    • 対話的な利用状況下でのアンラーニングの安定性を評価し,実効性の過大評価を防ぐ。
    • 静的評価で忘れられたと判断された知識も,対話を通じて再浮上することがある。
    • より強力なアンラーニングは一見堅牢性を高めるが,真の知識消去ではなく,行動の硬直化を招く場合がある。
    • 静的評価は現実世界での効果を過大評価する可能性があり,対話的な環境下での安定した忘却を確保する必要がある。

    Link: https://arxiv.org/abs/2603.00823

  • 重ね合わせのゲージ理論:ニューラル表現のアトラスをシェーフ理論的に構築へ [cs.LG, cs.AI, cs.CL, cs.NE]目的:大規模言語モデルにおける重ね合わせの離散的なゲージ理論的枠組み
    • 言語モデルの解釈可能性向上は,AIの信頼性と制御可能性を高める上で重要である。
    • 現在の言語モデルは,単一のグローバル辞書に依存しており,文脈の多様性を捉えきれないという課題がある。
    • 局所的な意味空間と情報幾何学的指標を用いて,言語モデルの表現をより詳細に分析し,解釈性を高める。
    • 本研究では,言語モデル内の文脈を層状化し,各文脈に局所的な特徴空間と指標を割り当てることで,局所的な意味の干渉エネルギーを定量化した。
    • ゲージ固定化により,コード残差が基本的なサイクルにおけるホロノミーと等価になることを証明し,ホロノミーの計算可能性とゲージ不変性を確立した。
    • せん断とジャミングの限界値を算出し,データに依存した転送ミスマッチエネルギーと干渉の限界を明確にした。

    Link: https://arxiv.org/abs/2603.00824

  • RMBench:メモリ依存型ロボットマニピュレーションベンチマークとポリシー設計に関する考察 [cs.RO, cs.AI]目的:メモリ依存型ロボットマニピュレーションの評価とポリシー設計に関する知見
    • ロボットの応用範囲拡大には,複雑なタスクを遂行する能力が不可欠である。
    • 既存のロボット制御手法は,記憶能力への考慮が不十分であり,時間経過に伴う情報維持が課題である。
    • メモリ能力を系統的に評価し,アーキテクチャ設計が性能に与える影響を解明すること。
    • RMBenchは,多様な記憶複雑度を持つ9つのマニピュレーションタスクから構成されるベンチマークである。
    • 既存のポリシーのメモリ関連の限界が明らかになり,アーキテクチャ設計の重要性が示された。
    • Mem-0は,メモリコンポーネントを明示的に持つモジュール型ポリシーであり,制御された実験を可能にする。

    Link: https://arxiv.org/abs/2603.01229

  • CHLU:深層学習のためのシンプレクティック原始要素としての因果ハミルトニアン学習ユニット [cs.LG, cs.AI, physics.app-ph]目的:深層学習のための新たな計算学習プリミティブ
    • 時間的ダイナミクスを扱う深層学習は,勾配消失や爆発といった問題があり重要である。
    • 既存のプリミティブは,不安定な離散的構造か,情報を失う連続的構造のいずれかである。
    • 位相空間体積を厳密に保存し,メモリ安定性のトレードオフを解決する。
    • 因果ハミルトニアン学習ユニット(CHLU)は,相対論的ハミルトニアン構造とシンプレクティック積分を利用する。
    • CHLUは無限の地平線での安定性と制御可能なノイズフィルタリングを設計上備えている。
    • MNISTデータセットを用いた生成実験により,CHLUの有効性が確認された。

    Link: https://arxiv.org/abs/2603.01768

  • 人間の監督なしでの報酬モデルのスケーリング [cs.CL, cs.NI, cs.SY, eess.SY, cs.LG]目的:報酬モデルのスケーリング
    • 大規模モデルの能力向上と安全性確保において,フィードバック学習は不可欠である。
    • フィードバック学習はコストとスケーラビリティに制約を受けることが多い。
    • 人間の注釈に頼らずに報酬モデルをスケーリングする手法を確立すること。
    • 人間の注釈を用いず,1100万トークンの数学Webデータで学習した結果,RewardBench v1およびv2で着実に性能が向上した。
    • 性能向上は,モデルファミリーや規模を問わず,多様な初期化バックボーン間で一貫して転移した。
    • RewardBench v2の精度は平均+7.7ポイント向上し,ドメイン内数学サブセットでは+16.1ポイントの改善が見られた。下流の数学性能も向上し,教師あり報酬モデルと同等またはそれを上回った。

    Link: https://arxiv.org/abs/2603.02225

  • GoogleのSynthID-Text LLMウォーターマーキングシステム:理論的分析と実験的検証 [cs.CR, cs.AI]目的:大規模言語モデル生成テキストの識別に関するSynthID-Textシステムの検出性能とウォーターマークの堅牢性
    • AI生成テキストの急増により,情報の信頼性確保が重要課題となっている。
    • 既存のウォーターマーキング技術は,検出性能や堅牢性に課題が残されている。
    • SynthID-Textシステムの理論的限界と攻撃可能性を明らかにすることで,より堅牢な技術開発に貢献する。
    • 平均スコアがトーナメント層数増加に脆弱であること,および層数増加攻撃によるSynthID-Textの破綻を証明した。
    • ベイズスコアが層数に対してより高いウォーターマークの堅牢性を持つことを証明し,最適なベルヌーイ分布パラメータが0.5であることを示した。
    • これらの知見は,効果的なウォーターマーク除去戦略や堅牢なウォーターマーキング技術の設計への道を開く。

    Link: https://arxiv.org/abs/2603.03410

  • 混合ベンダーのマルチエージェントLLMは臨床診断を改善するか [cs.CL, cs.AI, cs.MA]目的:臨床診断における混合ベンダーのマルチエージェントLLMの有効性
    • 医療現場でのAI活用が期待される中,正確な診断支援システムの重要性が増している。
    • 既存のLLMシステムは,単一ベンダーに依存することで,共通のバイアスを強化するリスクがある。
    • 異なるベンダーのLLMを組み合わせることで,診断精度とロバスト性を向上させることを目指す。
    • 混合ベンダー構成は,単一ベンダー構成と比較して,一貫して高い再現率と精度を達成した。
    • 異なるベンダーのLLMは,互いに補完的な帰納的バイアスを持ち,単独では見逃される診断を明らかにする。
    • 本研究は,ロバストな臨床診断システム設計において,ベンダーの多様性が重要であることを示唆する。

    Link: https://arxiv.org/abs/2603.04421

  • 航空時系列のための汎用的な多次元外部情報統合:Aura [cs.LG, cs.AI, cs.CL]目的:航空機時系列データの予測精度向上
    • 産業界における時系列予測の需要が高まっている。正確な予測は,情報に基づいた意思決定に不可欠である。
    • 従来の時系列モデルは,多様な外部要因や異質性のある相互作用を捉えることが困難である。
    • 異質な外部情報を効果的に統合し,航空機の安全性と信頼性を向上させることを目指す。
    • Auraは,外部情報の相互作用モードに応じて整理・エンコードする汎用的なフレームワークである。
    • 中国南方航空のBoeing 777およびAirbus A320の3年間の大規模データセットを用いた実験で,Auraは最先端の性能を達成した。
    • Auraは優れた適応性を示し,航空安全および信頼性向上の汎用的な拡張性を持つことが示唆された。

    Link: https://arxiv.org/abs/2603.05092

  • BLINK:NK細胞の細胞傷害性の行動潜在モデリング [cs.CV, cs.LG]目的:NK細胞と腫瘍細胞の相互作用から潜在的な行動ダイナミクスを学習し,細胞傷害性の結果を予測すること
    • 細胞間相互作用のダイナミクス理解は,細胞行動を解明する上で重要である。
    • 単一フレームの分類だけでは,時間経過に伴う細胞相互作用から細胞傷害性を正確に推測できない。
    • 部分的に観測されたNK-腫瘍細胞相互作用配列から,細胞傷害性の結果をより正確に予測すること。
    • BLINKは,NK-腫瘍細胞の相互作用をモデル化する再帰的状態空間モデルであり,細胞傷害性の結果検出精度を向上させた。
    • 潜在表現は,NK細胞の行動モードと時間的に構造化された相互作用段階を整理し,解釈可能性を提供した。
    • 単一細胞レベルでのNK細胞の細胞傷害性行動の定量評価と構造化モデリングを可能にする統一的なフレームワークを提供する。

    Link: https://arxiv.org/abs/2603.05110

  • WebChain:実世界のウェブインタラクション痕跡の大規模人間アノテーションデータセット [cs.AI, cs.CV]目的:実世界のウェブサイトにおける人間による操作軌跡のデータセット
    • ウェブエージェント研究の発展には,多様で大規模な学習データが不可欠である。
    • 既存のデータセットは規模が小さく,複雑なタスクの網羅性が低い場合が多い。
    • 高品質なウェブインタラクションデータセットを提供し,ウェブエージェントの研究を加速させる。
    • WebChainは31,725件の軌跡と318kステップを含む,大規模なデータセットである。
    • 視覚,構造,行動データのTriple Alignmentにより,豊富な多Modalな教師データを提供する。
    • Dual Mid-Trainingという手法を提案し,WebChainBenchおよび他のGUIベンチマークで最先端の性能を達成した。

    Link: https://arxiv.org/abs/2603.05295

  • 潜在マーク:ニューラル再合成に強いオーディオ透かし [cs.SD, cs.AI]目的:ニューラル再合成に耐性を持つオーディオ透かし技術
    • デジタルコンテンツの不正利用防止は重要であり,透かし技術はその有効な手段の一つである。
    • 従来の透かし技術は,ニューラルオーディオコーデックによる意味的圧縮に脆弱であるという課題がある。
    • コーデックの潜在空間に透かしを埋め込むことで,意味的圧縮に対する耐性を実現することを試みる。
    • Latent-Markは,最初に提案する,意味的圧縮に耐性を持つゼロビットオーディオ透かしフレームワークである。
    • 潜在表現の方向性シフトを誘導し,複数の代替コーデックで最適化することで,未知のニューラルコーデックへの高い汎化性能を実現する。
    • 従来のDSP攻撃に対する耐性も維持しつつ,知覚的な不可知性を保っている。

    Link: https://arxiv.org/abs/2603.05310

  • 離散空間における連続対称性の保存:SO(3)-不変GNNのための幾何学的認識量子化 [cs.LG]目的:SO(3)-不変GNNにおける幾何学的認識量子化によるモデルの圧縮と高速化
    • 物理的整合性が求められる分子シミュレーションにおいて,GNNは不可欠な役割を果たす。
    • 高次の表現を用いると,計算コストやメモリ消費量が課題となる。
    • 回転に敏感な特徴の量子化による誤差を抑制し,SO(3)-不変性を維持すること。
    • 提案手法(GAQ)は,精度を維持しつつ,メモリ使用量と計算時間を大幅に削減した。
    • W4A8モデルは,FP32ベースラインと同等の精度(9.31 meV vs. 23.20 meV)を達成した。
    • 素朴な量子化と比較して,局所的な等変誤差(LEE)を30倍以上削減することに成功した。

    Link: https://arxiv.org/abs/2603.05343

  • MobileFetalCLIP:モバイル胎児超音波解析のための選択的斥力知識蒸留 [cs.CL, cs.CV, cs.AI, cs.LG]目的:モバイル胎児超音波解析のための選択的斥力知識蒸留手法
    • 発展途上国での妊産婦ケアを改善するため,AIによる胎児超音波解析が重要視されている。
    • 既存のファウンデーションモデルは巨大で,ポータブルデバイスへの搭載が困難である。
    • 本研究では,モデルの軽量化と性能維持を両立する知識蒸留手法を提案する。
    • 提案手法は,教師モデルを上回る性能を達成し,HC18バイオメトリの有効性で88.6%の精度を示した。
    • 脳亜平面のF1スコアも0.784と向上し,軽量化による性能劣化を克服した。
    • iPhone 16 Pro上で1.6msの処理速度を実現し,リアルタイムなモバイルAIアシスタントを可能にした。

    Link: https://arxiv.org/abs/2603.05421

  • DC-Merge:方向一貫性によるモデル結合の改善 [cs.LG, cs.CV]目的:複数タスク適応モデルの知識保持を通した統合
    • モデルの汎化性能向上には,複数のタスクを効率的に統合することが重要である。
    • 既存手法では,タスク固有の知識が失われたり,パラメータ空間で歪みが生じたりする問題がある。
    • タスクベクトルの方向一貫性を保ち,知識の損失と歪みを抑制することを目指す。
    • DC-Mergeは,タスクベクトルのエネルギー分布を平滑化することで,重要な知識成分の軽視を防ぐ。
    • 各タスクベクトルを共有する直交部分空間へ投影し,方向的な幾何学的構造を整列させる。
    • VisionおよびVision-Languageベンチマークにおいて,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2603.06242

  • 多時間スケール力学のための周波数分離ハミルトニアンニューラルネットワーク [cs.LG, cs.SY, eess.SY]目的:多時間スケール力学系のモデリング
    • 力学系のモデリングにおいて,ハミルトニアン形式は強力な誘導バイアスを提供する。
    • 既存のハミルトニアンニューラルネットワークは,複雑な多時間スケール力学の捕捉に限界がある。
    • 異なる時間スケールでサンプリングされたデータに基づき,多時間スケール力学をより正確に捉えることを目指す。
    • 周波数分離ハミルトニアンニューラルネットワーク(FS-HNN)を提案し,ハミルトニアン関数を複数のネットワークで表現する。
    • FS-HNNは,難しい力学系において,長期間の予測性能を向上させる。
    • 常微分方程式や偏微分方程式といった幅広い問題に対して,FS-HNNは高い汎化性能を示す。

    Link: https://arxiv.org/abs/2603.06354

  • 安全性のコイントス:LLMジャッジは敵対的堅牢性の信頼できる測定に失敗する [cs.CL, cs.AI]目的:敵対的堅牢性の評価におけるLLMジャッジの信頼性に関する検証
    • 自然言語処理の評価自動化は,大規模な実験を可能にし,効率化に不可欠である。
    • LLMジャッジの評価は,敵対的攻撃における生成スタイルの違いや曖昧性によって性能が不安定になりやすい。
    • より信頼性の高い評価を実現するため,一貫して評価可能な行動のベンチマークと,ジャッジの失敗を露呈させるデータセットを提案する。
    • 既存の検証プロトコルは,敵対的な攻撃特有の分布シフトを考慮しておらず,ジャッジの性能が偶然に近いレベルに低下することが明らかになった。
    • 多くの攻撃は,実際に有害なコンテンツを引き出すのではなく,ジャッジの不備を悪用して成功率を高く見せかけている。
    • 信頼性の高い評価を可能にするため,ReliableBenchとJudgeStressTestを提案し,データセットを公開した。

    Link: https://arxiv.org/abs/2603.06594

  • 分布ロバスト幾何学的ジョイントチャンス制約最適化:神経力学的アプローチ [cs.NE, cs.AI, math.OC]目的:分布ロバスト幾何学的ジョイントチャンス制約最適化問題の解法
    • 不確実性の高い環境下での最適化は,現実世界の様々な問題を解決する上で不可欠である。
    • 確率分布が未知の場合,ロバストな最適化手法が求められるが,計算コストが高い場合が多い。
    • 未知の分布に対するロバスト性を確保しつつ,効率的な解法を確立すること。
    • 本研究では,二時間スケールの神経力学的双方向アプローチを提案し,分布ロバスト幾何学的ジョイントチャンス制約最適化問題を解く。
    • 提案手法は,確率収束により大域最適解に到達し,既存の解法に依存しない点が特徴である。
    • 数値実験では,形状最適化問題および通信問題への適用により,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2603.06597

  • HEARTS:ヘルスケア時系列データにおけるLLMの推論能力のベンチマーク [cs.LG, cs.AI]目的:ヘルスケア時系列データに対するLLMの階層的推論能力の評価
    • 医療分野における時系列データは,患者の健康状態を把握する上で不可欠であり,その分析は医療の質向上に繋がる。
    • 既存のベンチマークはヘルスケア時系列データの多様性や複雑な時間的依存性を十分に捉えられていない。
    • 多様なヘルスケア時系列データに対するLLMの推論能力を定量的に評価し,その課題を明確化すること。
    • 最新のLLM 14モデルを評価した結果,専門モデルと比較して性能が著しく劣ることが明らかになった。
    • LLMの性能は,一般的な推論能力スコアとの相関が弱く,単純なヒューリスティックに頼る傾向があることが示された。
    • 時間的複雑性の増加に伴い性能が低下し,モデルファミリー内でも同様の失敗パターンが見られ,スケールアップだけでは不十分であることが示唆された。

    Link: https://arxiv.org/abs/2603.06638

  • ハイパー・トークン:継続的ビデオ・言語理解のためのトークン動的制御 [cs.CV, cs.LG]目的:継続的ビデオ質問応答における干渉抑制と,タスク固有プロンプトの保存コスト削減
    • マルチモーダルLLMを用いたビデオ・言語理解は重要であり,様々なタスクへの応用が期待される。
    • 継続学習において,過去のタスクの知識を忘れてしまう干渉問題が課題となっている。
    • 動的にトークンを生成し,記憶容量を固定しながらプロンプトを更新することで,干渉を抑制し,知識の保持を目指す。
    • ハイパー・トークンは,標準的な継続的ビデオ質問応答ベンチマークにおいて,より高い平均精度と大幅な忘却抑制を実現した。
    • メタ学習に触発された正則化手法により,タスク固有の鋭い方向への学習を抑制し,過去のタスクへのアンカリングを強化する。
    • クロスモーダルImageQA→VideoQAプロトコルにおいて,堅牢な継続的転移学習を可能にすることが示された。

    Link: https://arxiv.org/abs/2603.06662