arXiv雑要約

AI - 2026/05/29 公開

  • Agent4Edu:生成エージェントによる学習者応答データの生成 - 知能教育システムのための [cs.CY, cs.AI]目的:学習者応答データの生成
    • 個別最適化された学習は教育効果を高める可能性を秘めている。教育システムの進歩に不可欠な研究分野である。
    • オフライン評価とオンラインパフォーマンスの乖離が,個別最適化された学習の進捗を妨げている。
    • 大規模言語モデルを活用し,学習者の行動をシミュレートすることで,この乖離を解消し,教育システムの改善を目指す。
    • Agent4Eduは,学習者のプロファイル,記憶,行動モジュールを備えた生成エージェントを活用した学習シミュレーターである。
    • エージェントは,学習者の練習スタイルや認知特性を反映したプロファイルに基づいて応答を生成する。
    • 評価の結果,エージェントと人間の学習者との応答の一致点と相違点が明らかになった。

    Link: https://arxiv.org/abs/2501.10332

  • ニューラルネットワークにおける表現の商剰同調理論 [cs.LG, math.AT, q-bio.NC]目的:ニューラルネットワークの表現の同調群の計算手法
    • ニューラルネットワークの表現のトポロジー的性質を理解することは,その汎化性能の向上に繋がる。
    • 従来のホモロジー計算は,外部の計量に依存し,純粋なトポロジー的特徴を捉えきれない場合がある。
    • 本研究は,ニューラルネットワークの表現の同調群を,外部の計量なしで計算することを可能にする。
    • ReLU活性化関数を持つニューラルネットワークの表現を,商空間として捉えることで,同調群の計算を可能にした。
    • 開発された手法は,標準的な持続ホモロジーよりも,トポロジー的特徴のみを追跡できることを実験で示した。
    • 訓練中のオーバーラップ分解の進化を分析し,提案手法の限界についても議論した。

    Link: https://arxiv.org/abs/2502.01360

  • 周囲を見渡す:外部情報がイベントシーケンスの表現を強化する [cs.CL, cs.CL, cs.LG]目的:イベントシーケンスに対する表現の質の向上
    • 購買履歴等,様々な分野でイベントシーケンスの分析が重要視されている。
    • 従来のモデルは個々のシーケンスを独立に処理し,時間的に同時発生する他のシーケンスの文脈を無視する。
    • 複数のユーザー表現から情報を集約することで,個々のシーケンスの表現を強化し,その問題を解決する。
    • 提案手法では,単純なプーリングから学習可能な注意機構まで,多様な集約手法を検討した。
    • 学習可能な注意機構は,9つの異なるイベントシーケンスデータセットで,ファインチューニングの有無にかかわらず,評価指標を向上させた。
    • 平均プーリングも,わずかながら有意な改善を示した。

    Link: https://arxiv.org/abs/2502.10205

  • 制約付き非凸最適化のための拡散に基づく学習フレームワーク:重み付けブートストラップによる改良 [cs.LG]目的:制約付き非凸最適化問題に対する拡散に基づく学習フレームワーク
    • 拡散モデルは,多峰性により非凸問題を効率的に解決できる可能性を秘めており,最適化分野に革新をもたらす。
    • 既存の拡散ベース最適化手法は教師あり学習に依存し,現実世界の制約条件を満たすメカニズムが欠けている。
    • 実現可能領域における確率質量が低いという分布の不一致問題を解決し,制約条件を満たしつつ最適解を探索する。
    • 提案手法DiOptは,拡散ソルバーを制約付き非凸最適化に初めて統合することに成功した。
    • DiOptは,多様な非凸タスクにおいて,最適性と制約充足性の両方で優れた性能を示した。
    • 二段階のアーキテクチャにより,解を反復的に改良し,制約条件を満たしつつ目的関数を改善する。

    Link: https://arxiv.org/abs/2502.10330

  • 心不全予後予測のためのコンポーザブルマルチモーダルフレームワーク [cs.LG, cs.AI, cs.CV]目的:心不全予後予測の精度向上
    • 心不全は世界的な死因であり,早期発見と適切な治療が重要である。
    • 既存手法では,患者データの多面性を十分に活用できていない点が課題である。
    • 多様な臨床データを統合し,より正確な予後予測と個別化治療を可能にする。
    • マルチモーダルフレームワークは,単一モダルのAIアルゴリズムと比較して,心不全予後予測において優れた精度を示した。
    • 本フレームワークは,様々な病理学的指標が心不全予後に与える影響の詳細な評価を可能にする。
    • 異種臨床データの体系的な統合により,包括的な予後評価と個別化治療計画の最適化を支援する。

    Link: https://arxiv.org/abs/2502.16548

  • 長期間の生物音響データにおける鯨の鳴き声の弱学習検出と時間局在化 [cs.SD, cs.AI, cs.LG, eess.AS]目的:鯨の鳴き声の検出と時間局在化
    • 海洋生態系の理解には,鯨の行動や分布の把握が不可欠である。
    • 従来の鯨の鳴き声分析には,膨大な手作業によるアノテーションが必要であった。
    • 記録レベルのラベルのみで,効率的な検出と時間局在化を可能にすること。
    • 提案手法DSMIL-LocNetは,記録レベルのラベルのみを用いて,分類と時間局在化を同時に行う。
    • AcousticTrends BlueFinLibraryにおいて,300-1800秒の録音でF1スコア0.88-0.91を達成した。
    • 完全教師ありCNNベースラインと比較して,性能が大幅に向上し,時間局在化も実現した。

    Link: https://arxiv.org/abs/2502.20838

  • ロバストかつ効率的な書き手独立型IMUベースの手書き文字認識 [cs.LG]目的:書き手独立型IMUベースの手書き文字認識の性能向上
    • 筆跡認証や自然なインターフェース実現のため,手書き文字認識技術の重要性が高まっている。
    • 書き手によって筆跡が大きく異なるため,未知の書き手の筆跡を認識することが困難である。
    • 未知の書き手の筆跡に対してもロバストな性能を発揮する手書き文字認識モデルを開発する。
    • 提案手法は,OnHWデータセットおよび独自の単語ベースデータセットにおける書き手独立型テストで,既存手法を上回る性能を示した。
    • 特に,OnHWデータセットではCERが7.37%,WERが15.12%を達成し,優れた結果を得ている。
    • 年齢層間での評価からも,提案手法が知識の汎化能力に優れ,より適応性の高いシステム構築に貢献する。

    Link: https://arxiv.org/abs/2502.20954

  • ニューラルロジスティックバンディット [cs.RO, cs.LG, stat.ML]目的:未知の報酬関数をロジスティックリンク関数を用いてニューラルネットワークで学習すること
    • 報酬最適化は,オンライン学習や意思決定において重要な役割を担う分野である。
    • 従来のバンディット問題のアプローチは,特徴量の次元数や報酬分布の分散に依存しやすい。
    • 特徴量の次元に直接依存しない,新たな集中不等式に基づくアルゴリズムを提案し,その有効性を示す。
    • 本研究では,特徴量の有効次元$\widetilde{d}$に依存する後悔の上界を導出することに成功した。
    • 提案するNeuralLog-UCB-1, NeuralLog-UCB-2アルゴリズムは,既存の結果よりも優れた後悔の上界を保証する。
    • 合成データおよび実データを用いた数値実験により,理論的結果の妥当性を検証した。

    Link: https://arxiv.org/abs/2505.02069

  • 層ごとの接続性による独立して学習されたモデルの連結 [cs.LG]目的:独立して学習されたニューラルネットワークモデル間の連結
    • 深層学習の汎化性能向上には,多様なモデル構造の理解が不可欠である。
    • 既存手法では,モデル間の信頼性の高い連結が困難であり,適用範囲も限られていた。
    • 多様なモデル構造において,より安定的にモデル間の連結を確立すること。
    • 提案手法は,MobileNetやEfficientNetなど,従来のアーキテクチャに加えて幅広いネットワークに対応する。
    • 独立して学習されたモデルペア間において,より一貫性のある連結パスを確立することが可能となった。
    • 異なるハイパーパラメータで学習されたモデル間での連結もサポートする。

    Link: https://arxiv.org/abs/2505.02604

  • 協調分散推定とベイジアンニューラルネットワークによる不確かさの分離 [cs.LG, stat.ML]目的:不確かさの分離
    • 現実世界のデータには不確かさが存在し,その理解と対処は重要である。
    • 従来のモデルでは,不確かさを正確に分離し,過学習を防ぐことが課題であった。
    • 本研究は,アレオリック不確かさとエピステミック不確かさを分離する手法を提案する。
    • 分散推定ネットワークとベイジアンニューラルネットワークを協調的に学習することで,両方の不確かさを分離できることを示した。
    • 提案手法は,平均推定の精度向上にも貢献することが確認された。
    • 様々なデータセットで有効性とスケーラビリティが実証され,実装が容易で堅牢である。

    Link: https://arxiv.org/abs/2505.02743

  • 逐次スコア分解によるオフラインマルチエージェント強化学習 [cs.LG, cs.MA]目的:オフラインマルチエージェント強化学習における分布シフトの克服
    • 協調行動を必要とするタスクにおいて,エージェント間の協調が重要な課題である。
    • オフライン学習では,行動データの分布が学習時の分布と異なる場合があり,性能低下を招く。
    • マルチエージェントタスクにおける協調の多様性を考慮した,安定した学習手法を確立する。
    • 本研究では,逐次スコア分解により,エージェントごとの協調的な行動を促す正則化信号を抽出する。
    • 多様な行動データを扱う拡散モデルを活用し,オフラインデータからスコア関数を学習する。
    • 複数の環境において,既存手法を上回る性能を達成し,汎化性能の高いオフライン強化学習への道を開く。

    Link: https://arxiv.org/abs/2505.05968

  • 単一マイク環境におけるエンドツーエンド多話者自動音声認識に関する調査 [cs.CL, cs.AI, cs.SD, eess.AS]目的:単一マイク環境におけるエンドツーエンド多話者自動音声認識手法の体系的な分類と分析
    • 音声認識技術は,人間と機械の自然な対話を可能にする基盤技術であり,その重要性は高い。
    • 複数話者の音声を分離・認識することは難しく,特に重なり合った音声の認識精度向上が課題である。
    • エンドツーエンド方式の最新動向を整理し,多話者音声認識の課題解決に貢献する。
    • 本調査では,SIMOとSISOという2つの主要なアーキテクチャ・パラダイムの特徴とトレードオフを分析した。
    • 各パラダイムに基づいたアーキテクチャやアルゴリズムの改善,および長尺音声への拡張手法について検討した。
    • 標準ベンチマークにおける手法の評価と比較を行い,今後の研究課題と方向性を示唆した。

    Link: https://arxiv.org/abs/2505.10975

  • 解釈可能な特徴量帰属による概念ドリフトの説明 [cs.CL, cs.LG, stat.ML]目的:概念ドリフトにおける性能劣化の原因となる特徴量の特定
    • 機械学習モデルの汎化性能を維持するには,ドメイン間の分布の変化に対応する必要がある。
    • 概念ドリフトが発生すると,モデルの校正がずれ,性能が低下する原因となる。
    • ドメイン間の特徴量とラベルの関係性の違いを特定し,性能劣化の原因を解明すること。
    • 提案手法SGShiftは,概念ドリフト下での性能劣化を,少数かつ重要な特徴量に帰属させる。
    • SGShiftは,特徴量選択タスクとして概念ドリフトを捉え,汎化加法モデルなどの統計ツールを活用する。
    • 実験の結果,SGShiftは既存手法よりも高い精度で概念ドリフトを検出し,少ないサンプル数でもロバストであることが示された。

    Link: https://arxiv.org/abs/2505.20634

  • 拡散モデルにおける周波数領域からのメンバーシップ推論攻撃の強化 [cs.CR, cs.LG]目的:拡散モデルのプライバシーと著作権に関する懸念
    • 画像生成AIの普及に伴い,プライバシー保護と著作権侵害のリスクが重要視されている。
    • 拡散モデルに対するメンバーシップ推論攻撃は,その脆弱性を明らかにする必要がある。
    • 高周波情報の処理における拡散モデルの欠点を改善し,攻撃の精度向上を目指す。
    • 拡散モデルは高周波情報の処理に課題があり,それがメンバーシップ推論攻撃の精度を低下させていることが示された。
    • 提案手法は,高周波フィルタモジュールを導入することで,この問題を緩和し,既存の攻撃手法の性能を大幅に向上させる。
    • 様々なデータセットとモデルにおいて,提案手法の有効性が実験的に確認された。

    Link: https://arxiv.org/abs/2505.20955

  • LLMの過剰な料金請求:トークン化,透明性,およびインセンティブ [cs.GT, cs.AI, cs.CY, cs.LG]目的:LLM利用におけるトークン課金メカニズムのインセンティブ構造と,それによる過剰請求の可能性
    • LLMの利用拡大に伴い,クラウドサービス経由での利用が一般的となり,課金メカニズムの透明性が重要になっている。
    • 現在のトークン課金システムでは,プロバイダーがトークン数を偽報することで,利益を最大化する動機が存在する。
    • トークン課金におけるプロバイダーのインセンティブをなくし,ユーザーが安心してLLMを利用できるメカニズムを提案すること。
    • プロバイダーはトークン数を偽報することで,ユーザーに過剰な料金を請求するインセンティブを持つことが示された。
    • 透明性を義務付けることで偽報を抑制できる可能性はあるが,効率的な偽報アルゴリズムが開発可能であることも確認された。
    • トークン数を文字数に比例して課金することで,インセンティブ構造を改善し,平均利益を維持できることが示唆された。

    Link: https://arxiv.org/abs/2505.21627

  • EPiC:正確なアンカービデオガイダンスによる効率的なビデオカメラ制御学習 [cs.CV, cs.AI]目的:効率的なビデオカメラ制御学習のためのフレームワーク
    • ビデオ生成におけるカメラ制御は,リアリティのある映像制作に不可欠である。
    • 従来のカメラ制御手法は,点群やカメラ軌跡の推定誤差が大きく,計算コストが高い。
    • 推定誤差なしに高精度なアンカービデオを作成し,効率的な学習を実現すること。
    • EPiCは,点群やカメラ姿勢の推定を必要とせず,最初のフレームの可視性に基づいてソースビデオをマスクすることで,高精度なアンカービデオを生成する。
    • Anchor-ControlNetという軽量モジュールを導入し,事前学習済みのビデオ拡散モデルにアンカービデオガイダンスを統合することで,パラメータ数を抑制している。
    • RealEstate10KとMiraDataのI2Vカメラ制御タスクにおいて,最先端の性能を達成し,ゼロショット汎化能力も高い。

    Link: https://arxiv.org/abs/2505.21876

  • VRAG:インタラクティブな動画生成のためのワールドモデル学習 [cs.CV, cs.AI]目的:インタラクティブ性と時空間的コヒーレンスを維持するワールドモデルの構築
    • 将来の行動選択に基づいた計画において,基盤となるワールドモデルの重要性が増している。
    • 既存の長尺動画生成モデルは,エラーの蓄積とメモリ機構の不十分さにより,ワールドモデルの能力が限定されている。
    • 本研究は,エラーの蓄積を抑制し,ワールドモデルの時空間的一貫性を高めることを目指す。
    • 提案手法VRAGは,明示的なグローバル状態条件付けにより,長期間にわたるエラーの蓄積を大幅に削減する。
    • VRAGは,時空間的な一貫性を高めることで,より自然でコヒーレントな動画生成を実現する。
    • 拡張されたコンテキストウィンドウや単純な検索拡張生成では,動画モデルの限られた文脈学習能力のため,効果が限定的である。

    Link: https://arxiv.org/abs/2505.21996

  • 追加情報を用いたオンライン公平分割 [cs.GT, cs.AI]目的:不可分な資源のオンライン公平な割り当て
    • 資源配分は,社会全体の効率と公平性を向上させる上で不可欠である。
    • オンライン環境下では,将来の情報が不明確なため,公平性の保証が難しい。
    • 将来情報の種類に応じた,より良い公平性保証アルゴリズムの設計。
    • 総価値情報を用いることで,既存研究よりも強い公平性保証を実現するアルゴリズムを提案した。
    • 頻度予測を用いることで,オフラインの「シェアベース」保証をオンライン環境へ拡張するメタアルゴリズムを設計した。
    • ノイズを含む総価値や頻度予測に対して,ロバストかつ漸進的な性能劣化を示す学習拡張モデルを提示した。

    Link: https://arxiv.org/abs/2505.24503

  • MVP-Shapley:バスケットボールにおける最高選手評価のための特徴量に基づくモデリング [cs.GT, cs.LG]目的:バスケットボールにおける最高選手(MVP)評価手法の開発
    • eスポーツやオンラインゲームの隆盛により,MVP評価の重要性が増している。
    • 客観的かつ説明可能なMVP評価手法の確立は,非常に難しい課題である。
    • プレイバイプレイデータを用いて,Shapley値に基づくMVP評価フレームワークを提案し,課題解決を目指す。
    • 提案手法は,選手の貢献度に基づき,Shapley値を割り当てることでMVPランキングを決定する。
    • 因果関係の観点からアルゴリズムを最適化し,専門家による投票結果との整合性を高めた。
    • NBAデータとDunk City Dynastyデータを用いた検証により,手法の有効性を確認し,産業界へのオンライン展開を実現した。

    Link: https://arxiv.org/abs/2506.04602

  • 生涯ロボット学習のための漸進的パラメータ効率的なエキスパートライブラリの動的混合 [cs.LG, cs.RO]目的:生涯ロボット学習における効率的な知識転移と破滅的忘却の軽減
    • ロボットは多様な環境で継続的に学習する必要があり,汎用的な知能が求められている。
    • 既存手法はタスク識別を仮定しており,知識の共有が限定的である。
    • タスク識別なしで知識を共有し,効率的な継続学習を実現すること。
    • 提案手法DMPELは,低ランクのエキスパートライブラリを構築し,動的に専門家を組み合わせることで柔軟な知識転移を実現した。
    • エキスパート係数再生により,以前に遭遇したタスクに対する専門家を正確に検索し,忘却を軽減した。
    • LIBEROベンチマークにおいて,既存手法を凌駕する成功率を示し,パラメータ数とストレージを最小限に抑えた。

    Link: https://arxiv.org/abs/2506.05985

  • GPUにおけるスパースTransformer推論の高速化 [cs.LG]目的:スパースTransformer推論の高速化手法
    • 大規模言語モデルの普及に伴い,Transformerの高速化は重要課題となっている。
    • スパースTransformerの性能最適化は十分に行われていない。
    • 多様なアプリケーションに対応可能な柔軟な高速化手法の開発。
    • 提案手法STOFは,GPU上で柔軟なマスキングと演算融合を実現するフレームワークである。
    • STOFは,多頭アテンション計算において最速1.6倍の高速化を達成した。
    • エンドツーエンド推論においても,最先端手法と比較して1.4倍の高速化を実現した。

    Link: https://arxiv.org/abs/2506.06095

  • PersonaAgent:パーソナライズされたLLMエージェントのための記憶と行動の架け橋 [cs.AI, cs.CL, cs.LG]目的:パーソナライズされたLLMエージェントのためのフレームワーク
    • LLMエージェントは多様な分野で活用が期待されるが,汎用的な設計が課題となっている。
    • 既存のLLMエージェントはユーザーの多様なニーズや好みに対応しきれていない。
    • ユーザーの好みや状況に適応する,動的なエージェントの実現を目指す。
    • PersonaAgentは,エピソード記憶と意味記憶を統合したパーソナライズされた記憶モジュールと,ユーザーに合わせた行動モジュールを備える。
    • ペルソナ(ユーザー固有のシステムプロンプト)を介して,記憶と行動を連携させ,リアルタイムなユーザーの好みの調整を実現する。
    • 実験結果から,PersonaAgentは既存手法と比較して,行動空間のパーソナライズとテスト時の実用性において優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2506.06254

  • テキスト埋め込みは表層的な意味だけでなく,暗黙的な意味を捉えるべきである [eess.SY, cs.SY, stat.AP, cs.CL, cs.AI, cs.IR]目的:テキスト埋め込みにおける暗黙的な意味の捉え方
    • 自然言語処理の基盤技術であり,多様な応用を支える。その進歩は目覚ましい。
    • 現在のモデルは表層的な意味に偏っており,文脈や意図といった暗黙的な意味の理解が不十分である。
    • 暗黙的な意味を捉えるための新たな訓練データや評価指標の開発が求められる。
    • 現在の最先端の埋め込みモデルでも,暗黙的な意味を求めるタスクでは単純な語彙ベースラインとわずかな差しか見られない。
    • 言語学に基づいた多様な訓練データと,より深い意味理解を測る評価指標が必要である。
    • 現実世界の言語の複雑さに対応するため,埋め込みモデルは暗黙的な意味を中核的なモデリング目標とすべきである。

    Link: https://arxiv.org/abs/2506.08354

  • TrojanTO:軌道最適化モデルに対する行動レベルのバックドア攻撃 [cs.LG]目的:軌道最適化モデルに対する行動レベルのバックドア攻撃手法
    • オフライン強化学習の分野において,軌道最適化モデルは目覚ましい成果を上げているため,その安全性評価が重要である。
    • 既存の強化学習に対するバックドア攻撃は報酬操作に基づくため,軌道最適化モデルの系列モデリングの性質上,効果が限定的である。
    • 高次元な行動空間における行動操作の困難さを克服し,軌道最適化モデルに対する効果的かつ隠蔽性の高いバックドア攻撃を実現する。
    • TrojanTOは,多様なタスクや攻撃目標に対して,低い攻撃コスト(軌道の0.3%)で効果的にバックドア攻撃を埋め込むことを示した。
    • 交互学習により,トリガーとターゲット行動の関連性を強化し,攻撃効果を高めている。
    • 軌道フィルタリングとバッチポイズニングを用いることで,正常性能を維持しつつ,トリガーの一貫性を確保している。

    Link: https://arxiv.org/abs/2506.12815

  • レトロフィッティングによるモデル融合 [cs.LG, cs.AI]目的:モデル融合手法
    • 機械学習モデルの活用範囲拡大のため,既存モデルの有効活用が重要視されている。
    • 既存手法は,分布外データや異なるアーキテクチャへの対応が課題となっていた。
    • ゼロショット学習や非IIDデータ分布下での性能向上を目指す。
    • 本研究では,ニューロンに着目したモデル融合アルゴリズムを提案し,表現の整合性を重視した。
    • 提案手法は,重要度の高い特徴への重点化により,既存手法よりも優れた性能を示した。
    • VGG,ResNet,ViTといった多様なアーキテクチャで有効性が確認された。

    Link: https://arxiv.org/abs/2507.00037

  • 機械学習ベースのセキュリティタスクにおける生成AIを用いたデータ課題の克服 [cs.CR, cs.AI, cs.LG]目的:機械学習ベースのセキュリティ分類器の性能向上
    • セキュリティ分野では,機械学習の活用が不可欠であり,その性能向上が重要視されている。
    • 既存研究では,アルゴリズム改善に焦点が当たり,データ課題への対応が不足していた。
    • 生成AIを用いてデータ課題を克服し,セキュリティ分類器の汎化性能を高める。
    • 生成AIを用いたデータ拡張により,セキュリティ分類器の性能が大幅に向上することが確認された。
    • 特に,データが限られた環境下(約180サンプル)において,最大32.6%の性能改善が見られた。
    • 生成AIは,導入後の概念ドリフトへの迅速な適応を支援し,最小限のラベル付けで調整が可能となった。

    Link: https://arxiv.org/abs/2507.06092

  • MENTOR:自己回帰型ビジョン生成モデルのための効率的なマルチモーダル条件付きチューニング [cs.CV, cs.AI, cs.CL]目的:自己回帰型マルチモーダル画像生成のための効率的なマルチモーダル条件付きチューニング
    • 近年の画像生成技術の発展は目覚ましいが,より高度な視覚制御が求められている。
    • 既存モデルは,マルチモーダル入力のバランスや複雑な生成における学習コストが大きい。
    • マルチモーダル入力と画像出力の微細なアライメントを効率的に実現し,生成制御性を向上させる。
    • MENTORは,補助的なアダプターやクロスアテンションモジュールを使用せずに,トークンレベルでのアライメントを実現した。
    • 2段階の学習パラダイムにより,ピクセルレベルおよびセマンティックレベルでのロバストなアライメントを確立。
    • DreamBench++ベンチマークにおいて,既存手法を凌駕する概念保持力とプロンプト追従性を示した。

    Link: https://arxiv.org/abs/2507.09574

  • 拡散モデルにおける保持画像の発見:DoRI [cs.CV, cs.AI, cs.LG]目的:拡散モデルにおける訓練データの無意識的な記憶と再現
    • 画像生成AIの普及に伴い,プライバシーや知的財産権保護が重要課題となっている。
    • 既存の対策は記憶箇所を特定し削除するが,わずかな変化で再現される脆弱性がある。
    • 記憶の局所性という前提を覆し,より強固な対策を模索すること。
    • 拡散モデルの記憶は局所的ではなく,テキスト埋め込み空間全体に分散していることが示された。
    • 同じ画像を再現する埋め込みは,モデルの活性化に多様性をもたらすことが確認された。
    • 異なるプルーニング手法は,同じ画像に対して異なる記憶関連重みを特定することが示された。

    Link: https://arxiv.org/abs/2507.16880

  • コンテンツ固有のデータ処理のためのページ画像分類 [cs.IR, cs.AI, cs.CV]目的:歴史的文書のページ画像のコンテンツに基づく分類
    • 人文科学におけるデジタル化は進むが,大量の画像データ処理が課題。
    • 多様なコンテンツを含む文書の分類は手作業では困難である。
    • 文書内容に応じた最適な分析処理を実現する自動分類手法の開発。
    • 本研究では,歴史的文書のページ画像に特化した画像分類システムを開発した。
    • AIおよび機械学習の技術を活用し,コンテンツ固有の処理ワークフローを可能にする分類カテゴリを設定した。
    • これにより,テキスト抽出や画像解析など,適切な分析手法の適用を自動化できる。

    Link: https://arxiv.org/abs/2507.21114

  • 単位ドメインで解決:微分可能な座標変換されたPINNのためのJacobiNet [cs.RO, cs.SY, eess.SY, cs.LG]目的:偏微分方程式の解法
    • 物理現象のシミュレーションにおいて,精度と効率が求められるため,解法技術の発展が重要である。
    • 不規則な境界を持つ領域では,PINNの安定性や収束が遅くなるという課題がある。
    • JacobiNetは,形状の複雑さに依存せず,汎用性と効率を向上させることを目指す。
    • JacobiNetは,自動微分を活用し,領域のマッピングとPDEの解法を統合した微分可能なフレームワークである。
    • 様々なPDEの実験において,相対L2誤差を大幅に低減し,精度が平均15.6倍向上した。
    • 血管状の複雑な形状を持つ領域において,高速なマッピング推論と予測精度の向上が確認された。

    Link: https://arxiv.org/abs/2508.02537

  • オンライン公正な分割における近似比例性 [cs.GT, cs.AI, cs.MA]目的:オンライン公正な分割問題における近似比例性の実現可能性
    • 資源配分は,社会の公平性を保つ上で不可欠であり,経済学,計算機科学等で重要な研究テーマである。
    • 既存研究では,厳密な公平性(EF1,MMS)の近似は困難とされている。比例性の近似可能性は未解決であった。
    • オンライン環境下で,比例性をどの程度近似できるか,アルゴリズムの限界と改善策を探る。
    • 3つの貪欲法は,敵対的状況下で比例性近似を保証できないことが示された。
    • 非敵対的状況下では,ランダムな割り当てが比例性近似を高い確率で達成し,その限界も明らかになった。
    • アイテム価値の予測を利用することで,よりロバストな比例性近似アルゴリズムが設計され,予測誤差への耐性も確認された。

    Link: https://arxiv.org/abs/2508.03253

  • GroundAct:LLMエージェントは環境状態に基づいて行動を根拠付けられるか [cs.CL, cs.AI]目的:LLMエージェントにおける行動の根拠付け能力の評価
    • LLMエージェントの発展は,複雑なタスクの自動化に不可欠であり,その性能向上は社会に大きな影響を与える。
    • LLMエージェントは,指示のみでは環境状態を考慮した適切な行動が困難であり,成功率が低下する。
    • 本研究は,LLMエージェントが環境状態から行動の実現可能性を推論する能力,すなわち行動の根拠付けを評価・改善する。
    • GroundActベンチマークを用いて15のLLMを評価した結果,属性推論とツール・協調推論の相関が低いことが示された。
    • 完全な環境グラフを用いることで,ツール利用において最大27.6%の向上,暗黙的な協調において最大22.9%の低下が見られた。
    • Qwen2.5-3Bを教師ありでファインチューニングすることで,直接的な指示に対する成功率が0.6%から76.3%に向上したが,暗黙的な協調では1.5%から5.5%に留まった。

    Link: https://arxiv.org/abs/2508.05614

  • 多層協調蒸留とグローバルワークスペースモデル:OCIL統一フレームワーク [cs.LG, cs.CV]目的:オンライン継続学習における安定性と可塑性のバランス改善
    • 現実世界のデータは非独立同一分布であり,継続学習が重要である。
    • 既存手法では,記憶容量制限下での安定性と可塑性の両立が課題である。
    • グローバルワークスペースモデルを用いて,知識の統合と再分配を促進し,この課題を解決する。
    • 提案手法は,各学習バッチにおける学生モデルのパラメータを融合し,動的なアンカーを形成する。
    • グローバルワークスペースモデルを周期的に学生モデルに再配布することで,学習の安定化とタスク間の一貫性を促進する。
    • 実験結果から,提案手法が複数のOCILモデルにおいて大幅な性能向上をもたらすことが示された。

    Link: https://arxiv.org/abs/2508.08677

  • 生成4DワールドにおけるスケーラブルなRFシミュレーション [cs.CV, cs.AI, eess.SP]目的:現実的なRF信号のシミュレーション
    • RFセンシングは,プライバシーを保護しながら様々な知覚タスクをこなせる強力な技術であるため重要。
    • 動的で多様な環境における高品質なRFデータセット構築が課題となっている。
    • WaveVerseを用いて,RFデータセット作成のボトルネックを解消することを目指す。
    • WaveVerseは,プロンプトに基づき,人物の動きを含む屋内シーンを生成し,リアルなRF信号をシミュレーションする。
    • シミュレーションされた信号は,位相に敏感なベンチマークにおいて高い忠実度を示し,実測値や電磁気ソルバーのシミュレーションと一致する。
    • RFイメージングや行動認識などのダウンストリームタスクにおいて,WaveVerseはデータ拡張として性能向上に貢献する。

    Link: https://arxiv.org/abs/2508.12176

  • PuzzleClone:検証可能なデータ合成のためのDSL搭載フレームワーク [cs.RO, cs.AI]目的:大規模な検証可能なデータの合成
    • LLMの推論能力向上には,高品質な数学・論理データセットが不可欠である。
    • 既存のLLM生成データセットは,信頼性,多様性,スケーラビリティに課題がある。
    • 検証可能なデータの自動生成によるLLMの性能改善を目指す。
    • PuzzleCloneは,DSLを活用して検証可能なデータを大規模に合成するフレームワークである。
    • 生成されたデータセットPC-83Kは,多様性と検証可能性を兼ね備えている。
    • PC-83Kを用いた追加学習により,ロジック・数学ベンチマークで大幅な性能向上が確認された。

    Link: https://arxiv.org/abs/2508.15180

  • 少ない方が多い:性能駆動型コンテキスト圧縮によるRAGの性能向上 [cs.CL, cs.CL, cs.AI]目的:RAGにおける性能向上を目的としたコンテキスト圧縮手法
    • 大規模言語モデルの知識更新と事実精度向上の鍵となるRAGの重要性が増している
    • 大規模な文書を取り込むと計算コストが増大し,性能低下を招く問題がある
    • 性能を指標とした学習により,タスクに最適なコンテキスト圧縮を実現する
    • 提案手法CORE-RAGは,既存手法が依拠するヒューリスティクスを排除し,性能を直接的に最適化する
    • 知識蒸留により初期圧縮ポリシーを確立し,反復的な学習で圧縮性能を向上させている
    • 3%の圧縮率で,完全な文書と比較してExact Matchスコアが3.3ポイント向上する結果が得られた

    Link: https://arxiv.org/abs/2508.19282

  • 処方後に選択:文脈的確率的最適化のための適応的方針選択 [eess.SY, cs.SY, eess.SP, cs.LG, stat.ML]目的:文脈的確率的最適化における方針選択
    • 現実世界の意思決定は,文脈情報と制約条件に依存するため,確率的最適化が不可欠である。
    • 複数の候補方針が存在する場合,単一の方針では文脈空間全体で最適な性能を発揮できない場合がある。
    • 文脈情報に基づき,最適な候補方針を動的に選択する手法を開発し,最適化性能を向上させる。
    • 提案手法「Prescribe-then-Select (PS)」は,候補方針のライブラリを構築し,メタ方針を用いて最適な方針を選択する。
    • PSは,ベンチマーク問題において,単一の方針よりも優れた性能を示し,均質性がない場合は支配的な方針に収束する。
    • 方針選択はデータ駆動型であり,交差検証による最適な方針木のアンサンブルを用いて実装される。

    Link: https://arxiv.org/abs/2509.08194

  • 機械学習駆動型分子動力学におけるアクティブラーニング [cs.LG, physics.atm-clus]目的:機械学習を用いた粗視化ポテンシャルの精度向上
    • 分子動力学シミュレーションは,生体分子の挙動解明に不可欠だが,計算コストが高い。
    • 機械学習ポテンシャルは高速だが,探索範囲外の構造では精度が低下しやすい。
    • RMSDに基づくデータ選択により,効率的にモデルの精度を向上させる。
    • 提案手法により,既存の構造に加えて未知の構造を探索し,学習領域を拡大した。
    • Chignolinタンパク質を用いた実験で,Wasserstein-1距離が33.05%改善した。
    • これにより,粗視化レベルの効率性を維持しつつ,モデルの精度を向上させることが可能となった。

    Link: https://arxiv.org/abs/2509.17208

  • GRPOは秘密裏にプロセス報酬モデルである [cs.IR, cs.LG, cs.AI]目的:強化学習におけるプロセス報酬モデルの構造解明と性能向上
    • 強化学習は複雑な課題解決に不可欠だが,報酬の設計が困難である
    • 従来の強化学習は,軌跡全体に対する報酬のみを用いるため,詳細な行動への評価が難しい
    • GRPOアルゴリズムに内在するプロセス報酬モデルの構造を明らかにし,性能を改善すること
    • GRPOアルゴリズムとORMsは等価であり,GRPOは暗黙的にPRMに基づいていることが理論的に証明された。
    • GRPOの目的関数における問題点を特定し,不均衡なプロセスステップと報酬が探索と活用を阻害することを明らかにした。
    • 提案手法λ-GRPOは,標準的なGRPOよりも推論タスクにおいて高い性能を発揮し,学習速度も向上した。

    Link: https://arxiv.org/abs/2509.21154

  • ゼロショット時系列異常検知のための基盤モデル:合成データと相対的文脈不一致の活用 [cs.LG, cs.AI]目的:ゼロショット時系列異常検知のための基盤モデル構築
    • 時系列データは様々な分野で広く利用されており,異常検知はシステムの安定運用に不可欠である。
    • 既存の基盤モデルは再構成ベースであり,微妙な異常を見逃し,正常パターンを誤認識しやすい。
    • 文脈間の不一致に着目し,再構成に依存しない新しい基盤モデルを開発することで,この問題を解決する。
    • 本研究で開発したTimeRCDは,隣接する時間窓間の有意な不一致を検知することにより,異常を特定する。
    • 大規模な合成データセットを用いることで,効果的な事前学習を可能にした。
    • 多様なデータセットにおける実験により,TimeRCDが既存モデルを大幅に上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2509.21190

  • 言語モデルエージェントのエンパワメント推定 [cs.AI, cs.LG]目的:言語モデルエージェントのエンパワメント評価
    • 言語モデルエージェントの能力向上と実用化が進む中で,その評価方法が重要である。
    • 従来の評価はコストがかかる上に,汎用性に課題がある。
    • エンパワメントに基づく,スケーラブルな評価手法を確立する。
    • エンパワメントは,エージェントの行動が将来の状態に与える影響を測る情報理論的な指標である。
    • EELMAは,複数ターンのテキスト対話からエンパワメントを近似するアルゴリズムである。
    • エンパワメントとタスクパフォーマンスの間に強い相関関係が確認された。

    Link: https://arxiv.org/abs/2509.22504

  • LLM支援によるレッドチーム対策のベンチマーク:標準化された脅威ハンティングを通じて [cs.CR, cs.AI]目的:サイバー脅威ハンティングにおけるLLMの性能評価のためのベンチマーク
    • サイバー攻撃は巧妙化・大規模化しており,防御側の高度なツールが求められている。
    • LLMの脅威分析能力は期待されるものの,実環境での有効性が十分に検証されていない。
    • 標準化されたワークフローを通じて,LLMによる現実的な脅威ハンティング能力を評価する。
    • 本研究では,脅威アトリビューションからインシデントレスポンスまでの一連の流れを標準化し,ベンチマーク「CyberTeam」を構築した。
    • CyberTeamは,30のタスクと9つの運用モジュールで構成され,LLMを段階的に脅威分析へと導く。
    • 実験結果から,標準化された設計が有効であり,従来の自由形式の推論には限界があることが示唆された。

    Link: https://arxiv.org/abs/2509.23571

  • LLMを活用したサイバー脅威インテリジェンスの脆弱性の解明 [cs.CR, cs.AI]目的:LLMを活用したサイバー脅威インテリジェンスにおける脆弱性の実態把握
    • サイバー脅威は増加の一途を辿っており,セキュリティ対策の自動化が急務となっている。
    • LLMは誤情報を生成しやすく,特にサイバー脅威インテリジェンスのような複雑な分野では信頼性が課題となっている。
    • サイバー脅威インテリジェンス固有の特性に対応したLLMの脆弱性要因を特定し,対策を示す。
    • 本研究では,サイバー脅威インテリジェンスのライフサイクル全体にわたるLLMの誤りの分類フレームワークを開発した。
    • その結果,表層的なメタデータからの誤った相関関係,矛盾する情報源からの知識の衝突,そして新興脅威への一般化の制約という3つの認知的な失敗メカニズムを特定した。
    • これらのメカニズムに対する介入実験により,ターゲットを絞った防御策が誤り率を大幅に削減できることが示された。

    Link: https://arxiv.org/abs/2509.23573

  • SafeSearch:LLMベースの検索エージェントに対する自動的な敵対的テスト [cs.AI, cs.CL, cs.CR]目的:LLMベースの検索エージェントの安全性評価
    • LLMの能力拡張として検索エージェントが注目されている。より広範で最新の情報アクセスを可能とする。
    • 検索結果の信頼性に問題があり,エージェントが安全でない出力を生成するリスクが存在する。
    • 検索エージェントの安全性評価を自動化し,脆弱性を特定・改善すること。
    • SafeSearchは,スケーラブルでコスト効率の高い敵対的テストフレームワークである。
    • 300件のテストケースを用いて17種類のLLMを評価した結果,LLMベースの検索エージェントに重大な脆弱性が存在することが明らかになった。
    • GPT-4.1-miniでは,攻撃成功率が90.5%に達し,一般的な防御策の効果は限定的であった。

    Link: https://arxiv.org/abs/2509.23694

  • EAPO:必要に応じて専門家の支援を取り入れ,強化学習を強化する [cs.AI]目的:強化学習におけるポリシー最適化の強化
    • 大規模言語モデルの推論能力向上は,様々な分野での応用を可能にする重要な課題である。
    • 従来の強化学習では,報酬が疎になりやすく,効率的な探索が困難であるという課題があった。
    • 専門家との対話を通じて得られる豊富な報酬信号を活用し,効率的な探索と推論能力の向上を目指す。
    • EAPOは,外部の専門家との多段階対話を取り入れることで,強化学習の探索能力を向上させる。
    • EAPOは,AIME 2024/2025およびAIMO 2025において,既存手法を上回り,平均で5ポイントの性能向上を達成した。
    • EAPOは,数学以外のベンチマーク(HumanEval,HLEなど)においても高い汎化性能を示した。

    Link: https://arxiv.org/abs/2509.23730

  • タンパク質言語モデルにおける表現の形状の理解に向けて [cs.LG]目的:タンパク質言語モデルにおける表現の形状に関する理解
    • タンパク質言語モデルは,新規タンパク質設計の有望な研究分野であり,その重要性が増している。
    • モデルが配列を潜在表現に変換する過程や,その表現にどのような情報が符号化されているかが不明である。
    • タンパク質配列空間全体の変換様式と,それらの関係性を明らかにすることを目指す。
    • SRV表現とグラフフィルタリングにより,タンパク質構造と表現の関係性を明らかにした。
    • ESM2モデルの層数とサイズによって,SRV形状空間のカルチャー平均と有効次元が非線形パターンを示すことがわかった。
    • モデルは近傍残基間の関係性を優先的に符号化するが,長距離コンテキストでは性能が低下する傾向がある。最適な符号化は,最終層の直前付近で発生する。

    Link: https://arxiv.org/abs/2509.24895

  • その場修正:複数ターンにおける専門家とLLMの協働のための信頼性の高い改良 [cs.LG]目的:専門家とLLMの協働における改良手法
    • LLMの活用は,高度なタスクの効率化に不可欠であり,専門家の知識と組み合わせることで更なる性能向上が期待される。
    • LLMは微妙な事実誤認や論理的誤りを犯しやすく,複数ターンのフィードバックによる修正が必ずしも信頼できるとは限らない。
    • LLMと専門家の協働において,より信頼性の高い修正と疲労軽減を目指す。
    • その場修正という対話パラダイムを提案し,ユーザーがモデルの以前の応答を直接編集し,モデルが編集された文脈から生成を続ける。
    • 5つの推論集約型ベンチマークにおいて,その場修正は従来の複数ターンのフィードバックを上回り,トークン数も削減された。
    • ドメイン専門家によるユーザー調査の結果,その場修正は最終出力への満足度を高め,疲労を大幅に軽減することが示された。

    Link: https://arxiv.org/abs/2510.00777

  • 視覚・言語・行動モデルにおける対照表現の正則化 [cs.RO, cs.LG]目的:視覚言語行動モデルにおける表現能力の向上
    • ロボットの複雑な操作を実現するためには,視覚情報と言語情報を統合した高度なモデルが不可欠である。
    • 既存のモデルは,ロボット自身の制御信号や固有受容感覚情報への感度が低く,表現力が十分でないという課題がある。
    • ロボットの状態情報を考慮した表現学習により,ロボット操作におけるモデルの性能向上を目指す。
    • 提案手法であるRS-CLは,ロボットの状態情報を活用した対照学習による表現正則化を行う。
    • RS-CLは,ロボットの固有受容感覚状態間の相対距離をソフトな教師信号として利用し,表現をよりロボットの制御に適したものにする。
    • RoboCasa-Kitchenベンチマークにおいて,最先端のVLAモデルの性能を69.7%まで向上させ,実ロボット操作における成功率を45.0%から58.3%に改善した。

    Link: https://arxiv.org/abs/2510.01711

  • 言語モデルにおける文脈汚染リスクの早期終了による制御 [cs.AI, cs.LG]目的:言語モデルの文脈汚染による性能低下抑制
    • 大規模言語モデルの応用拡大に伴い,入力文脈の質が性能に与える影響が重要視されている。
    • 有害または無関係な文脈が入力されると,モデルの性能が著しく低下する可能性がある。
    • 入力文脈による性能低下を抑制し,安全性を確保しながら効率性を高めることを目指す。
    • 提案手法では,文脈なしでのベースライン性能を定義し,分布自由リスク制御(DFRC)を用いて性能劣化を抑制する。
    • 有害な入力に対しては早期終了予測を活用し,注意ヘッドの寄与を調整することでリスクを制御する。
    • 有用な入力に対しては性能向上と効率化を実現し,9つのタスクで有効性が確認された。

    Link: https://arxiv.org/abs/2510.02480

  • 分布逆強化学習 [cs.LG]目的:報酬関数と収益の分布の両方のモデル化
    • 人間の行動を理解し,模倣する上で,報酬関数の推定は不可欠である。
    • 従来のIRL手法は,報酬の期待値のみを一致させるため,行動の多様性を捉えきれない。
    • 行動の歪みリスクを考慮した報酬分布の推定と,それに基づいたポリシー学習を実現する。
    • 本手法は,第一級確率的支配の違反を最小化することで,より詳細な報酬分布を学習する。
    • 理論的解析により,アルゴリズムが$\mathcal{O}(\varepsilon^{-2})$の反復複雑度で収束することが示された。
    • 合成ベンチマーク,実際の神経行動データ,MuJoCo制御タスクにおいて,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2510.03013