arXiv雑要約

AI - 2026/03/10 公開

  • Minecraftにおける効率的なLLMベースマルチエージェントシステムのための並列計画・行動 [cs.AI]目的:LLMベースマルチエージェントシステムの効率化
    • 複雑な意思決定タスクへの応用が期待されるLLMベースマルチエージェントシステムの重要性
    • 従来の逐次実行によるリアルタイム性や環境変化への適応性の限界
    • 並列計画・行動フレームワークによるリアルタイム性と適応性の向上
    • 提案フレームワークは,計画と行動を並行して行う二重スレッド構造を実現した。
    • 中央集権型メモリシステムとスキルライブラリを活用し,動的な意思決定とタスク実行を可能にした。
    • Minecraft環境での実験により,提案フレームワークの有効性が確認された。

    Link: https://arxiv.org/abs/2503.03505

  • ViLAM:ビジョン言語推論をアテンションマップに蒸留する社会性ロボットナビゲーション [cs.RO, cs.AI]目的:社会的に適合したロボットナビゲーションのためのビジョン言語推論の蒸留
    • ロボットが人間社会で活躍するためには,周囲の状況を理解し,適切な行動をとることが重要である。
    • 従来のナビゲーション手法は,専門家のデモンストレーションやアノテーションに依存しており,汎用性に課題がある。
    • 大規模なビジョン言語モデルの知識をアテンションマップに蒸留し,社会性を考慮したナビゲーションを実現することを目指す。
    • ViLAMは,大規模なビジョン言語モデルから得られる知識をアテンションマップに蒸留する新しい手法である。
    • 蒸留されたアテンションマップは,ナビゲーション可能な領域を強調し,社会性を考慮したコストマップとして機能する。
    • 実機実験の結果,既存手法と比較して成功率が14.2%~50%向上した。

    Link: https://arxiv.org/abs/2503.09820

  • 視覚言語モデルによる許容可能な接触軌道を用いたインテリジェントな動作計画 [cs.RO, cs.AI, cs.LG]目的:視覚言語モデルを用いた,許容可能な接触軌道を含む動作計画手法
    • ロボットの自律性を高めるためには,複雑な環境下での動作計画が不可欠である。
    • 従来の動作計画は衝突回避に重点を置いており,接触を伴う複雑なタスクには不向きである。
    • 環境のセマンティクスを理解し,安全な接触を予測することで,より柔軟な動作計画を実現する。
    • 提案手法IMPACTは,視覚言語モデルを用いて環境のセマンティクスを推論し,接触に強い部分を特定する。
    • 接触の安全性を考慮したコストマップとA*プランナーを組み合わせることで,安定した接触を伴う経路を生成する。
    • シミュレーションおよび実環境実験の結果,IMPACTは従来の既存手法を上回る効率的な動作計画を可能にすることが示された。

    Link: https://arxiv.org/abs/2503.10110

  • 滑らかなプロトタイプ等価性による非線形動力学の特性評価 [cs.LG, nlin.CD]目的:限定的な測定値から動力系における長期的振る舞いを特徴づけること
    • 物理学や生物学において,動力系の長期的振る舞いの理解は不可欠である。
    • 観測データは疎でありノイズを含むため,多様な長期的振る舞いを捉えることが困難である。
    • 学習を通じて,観測データから長期的振る舞いを記述する不変集合を特定し,動的レジームを分類すること。
    • 滑らかなプロトタイプ等価性(SPE)は,逆変換可能なニューラルネットワークを用いて,疎な観測データをプロトタイプ的な振る舞いに対応付ける。
    • SPEは,振動系における分類において既存手法を上回り,ノイズを含む限られたデータからでも,リミットサイクルや固定点などの不変構造を効率的に識別できる。
    • また,リプレッサー回路などの合成振動子における駆動遺伝子を特定し,実験データから細胞周期軌跡などの循環的な生物学的プロセスを直接的に追跡することが可能である。

    Link: https://arxiv.org/abs/2503.10336

  • MUSS:関連性と多様性のための多水準部分集合選択 [cs.LG]目的:関連性と多様性を兼ね備えた部分集合の選択
    • 推薦システムや検索拡張生成など,幅広い応用分野が存在する。
    • 大規模データに対する効率的な選択手法が課題であった。
    • 多水準アプローチにより,スケーラビリティと性能の向上を目指す。
    • 推薦システムにおいて,精度が最大4%向上し,処理速度が20~80倍に改善された。
    • 検索拡張生成ベースの質問応答精度においても,既存手法を上回る結果が得られた。
    • 最適な目的関数に対して一定の係数近似を達成する理論的アプローチを提案した。

    Link: https://arxiv.org/abs/2503.11126

  • インタラクティブ構造的帰納的プログラミングを用いたデータ分析のためのエンジニアリングシステム [cs.AI, cs.SE]目的:科学データの分析のためのエンジニアリングシステムの構築
    • 科学的データ分析は,複雑なワークフローと専門家との連携を必要とし,重要性が増している。
    • 従来の手法は時間がかかり,LLMを用いたノーコードアプローチは信頼性に課題がある。
    • 人間とLLMの協調による,信頼性の高いシステム構築を可能にすること。
    • iProgは,人間とLLMが協調してシステム構築を行うためのツールである。
    • iProgは,データフロー図を用いて問題の分解を行い,各プロセスに対するコードをLLMが生成する。
    • 実証実験の結果,従来手法と比較して,パフォーマンス向上,高品質なコード,開発速度の向上が確認された。

    Link: https://arxiv.org/abs/2503.14488

  • より多くの女性,同じ固定観念:大規模言語モデルにおけるジェンダーバイアスのパラドックスの解明 [cs.CL, cs.AI]目的:大規模言語モデルにおけるジェンダーバイアスの評価フレームワーク
    • 自然言語処理の発展において,大規模言語モデルは重要な役割を担う。
    • 大規模言語モデルが社会的な偏見を反映・増幅する可能性が懸念されている。
    • モデルに埋め込まれたバイアスの表面化と,公平性の促進を目指す。
    • 大規模言語モデルは,職業における女性キャラクターの過剰な表現が見られた。
    • この過剰表現にも関わらず,生成される職業のジェンダー分布は現実のデータよりも人間の固定観念に近い。
    • バイアスの緩和策の実施と,新たな偏見の確立防止が重要であることが示された。

    Link: https://arxiv.org/abs/2503.15904

  • 2次元アライメントから3次元の妥当性へ:異質な2次元事前情報と侵入防止拡散を統合し,遮蔽に強い二手再構成を実現 [cs.CV, cs.AI]目的:単眼画像からの二手再構成における相互作用アライメントと侵入問題の解決
    • 人間の手の動き理解は,ロボット工学や人間とコンピュータのインタラクションにおいて不可欠な技術である。
    • 複雑なポーズや遮蔽により,既存手法では相互作用アライメントのずれや二手の侵入といった課題が存在する。
    • 異質な2次元事前情報を統合し,侵入防止拡散モデルを用いて,遮蔽に強く,物理的に妥当な再構成を目指す。
    • 本研究では,キーポイント,セグメンテーション,深度といった異質な事前情報を融合・アライメントするエンコーダを提案した。
    • 侵入を回避する拡散モデルを導入し,衝突勾配をガイドすることで,現実的な二手の相互作用を生成する。
    • InterHand2.6MおよびHICデータセットにおいて,相互作用アライメントと侵入抑制において最先端または優れた性能を達成した。

    Link: https://arxiv.org/abs/2503.17788

  • エントロピー駆動型不確実性を活用したプロセス報酬モデリング:費用対効果の向上 [cs.LG, cs.AI, cs.CL]目的:複雑な推論ステップの動的な,不確実性に合わせたセグメンテーション
    • 数学的推論の自動化は,複雑な問題解決の効率化に不可欠である。
    • 従来のプロセス報酬モデルは,手動アノテーションにコストがかかり,スケーラビリティに課題がある。
    • EDU-PRMは,手動アノテーションを削減し,効率的な推論経路探索を実現する。
    • EDU-PRMは,ProcessBenchベンチマークにおいて,既存のPRMと比較して優れた性能を示した。
    • わずか1.5%の学習データで,最先端モデルと同等の結果を達成した。
    • 提案手法EDUサンプリング戦略により,生成推論タスクの精度が向上し,トークン使用量は削減された。

    Link: https://arxiv.org/abs/2503.22233

  • MediTools -- LLMを活用した医学教育 [cs.CY, cs.AI, cs.HC]目的:LLMを用いた医学教育の向上とワークフロー課題への対応
    • 医学の進歩は速く,質の高い教育が不可欠である。医療従事者の継続的な学習を支援する必要がある。
    • 従来の医学教育には,実践的な訓練機会の不足や情報アクセスの遅延といった課題が存在する。
    • LLMを活用し,臨床シナリオのシミュレーションや最新情報の提供を通じて,教育効果の向上を目指す。
    • MediToolsは,皮膚科の症例シミュレーション,AI PubMedツール,Google Newsツールを提供し,医学教育を支援する。
    • シミュレーションでは,仮想患者との対話を通じて診断能力の向上を図ることが可能である。
    • 医療従事者および学生への調査により,MediToolsの有効性と満足度が確認された。今後の開発に役立つ知見が得られた。

    Link: https://arxiv.org/abs/2503.22769

  • 大規模言語モデルと木構造機械学習アルゴリズムを用いた問題難易度推定 [cs.DC, cs.CY, cs.CL, cs.LG]目的:問題難易度推定
    • 教育評価において,適切な難易度の問題を作成することは,学習効果を高める上で不可欠である。
    • 従来,問題難易度の推定には実地調査が必要であり,時間とコストがかかるという課題があった。
    • 本研究は,問題文の内容のみから難易度を予測し,実地調査の負担軽減を目指す。
    • 大規模言語モデルによる直接推定は,実際の難易度と中程度の強い相関を示したが,低学年では精度が低下する傾向が見られた。
    • 特徴量ベースの手法では,相関係数0.87という高い予測精度と,低い誤差率が確認された。
    • 大規模言語モデルを活用した問題開発の効率化と,実地調査への依存度低減の可能性が示唆された。

    Link: https://arxiv.org/abs/2504.08804

  • グランツーリスモ7における競技レース用チャンピオンレベルの視覚ベース強化学習エージェント [cs.LG]目的:競技レースにおけるチャンピオンレベルの視覚ベース強化学習エージェントの開発
    • 自動運転技術の発展は,現実世界での応用を視野に入れたシミュレーション環境での検証が不可欠である。
    • 従来の強化学習エージェントは外部計測に依存し,現実世界の適用が困難であった。
    • 車載カメラとセンサーデータのみを用いて,現実世界でも利用可能な自律レーシングエージェントの実現。
    • 本研究で開発されたエージェントは,グランツーリスモ7の標準ドライバーよりも高い性能を示した。
    • エージェントは,車載カメラとセンサーデータのみに依存することで,精密な位置情報なしでの推論が可能となった。
    • 非対称アクター・クリティックフレームワークを用いることで,効率的な学習と競技レースにおけるチャンピオンレベルの性能を達成した。

    Link: https://arxiv.org/abs/2504.09021

  • 構造的推論:感受性を利用した小規模言語モデルの解釈 [cs.LG]目的:小規模言語モデルの解釈
    • 言語モデルの複雑化に伴い,その内部動作の理解が不可欠となっている。
    • 既存の手法では,言語モデルの挙動を的確に説明することが困難である。
    • モデルの感受性を分析し,機能モジュールを特定することで,解釈可能性を高める。
    • 線形応答フレームワークを構築し,ニューラルネットワークを統計力学系として捉えた。
    • データ分布のわずかな変化が,ネットワーク内の特定の要素の事後期待値に与える影響を分析した。
    • 感受性行列の低ランク構造により,n-gramや帰納ヘッドなどの機能モジュールが分離された。

    Link: https://arxiv.org/abs/2504.18274

  • 大規模言語モデルの推論から自律型AIエージェントへ:包括的レビュー [cs.RO, cs.AI, cs.LG]目的:大規模言語モデルと自律型AIエージェントの評価,統合に関する多様な取り組みの体系化
    • AI技術の進展に伴い,高度な推論能力を持つエージェントの重要性が増している。
    • 評価基準やフレームワークが分断され,標準化と統合が課題となっている。
    • 多様な評価基準とフレームワークを統一的な枠組みで整理し,今後の研究を促進すること。
    • 2019年から2025年にかけて開発された様々なベンチマークを比較検討し,約60のベンチマークを分類した。
    • 2023年から2025年に導入されたAIエージェントフレームワークをレビューし,大規模言語モデルとツールキットの統合を分析した。
    • 材料科学,医療研究など,多様な分野における自律型AIエージェントの応用事例を紹介し,今後の研究方向性を提案した。

    Link: https://arxiv.org/abs/2504.19678

  • SFIBA:空間に基づく全ターゲット不可視バックドア攻撃 [cs.CR, cs.AI]目的:空間に基づく全ターゲット不可視バックドア攻撃手法
    • 深層ニューラルネットワークは脆弱であり,悪意のある攻撃による性能劣化を防ぐ必要がある。
    • 既存の多ターゲットバックドア攻撃は,トリガーの特異性や隠蔽性に課題があり,実用性に乏しい。
    • トリガーの空間的制約と周波数領域に基づく注入により,隠蔽性と特異性を両立させる。
    • SFIBAは,複数のデータセットとモデルにおいて,高い攻撃性能と隠蔽性を実現することを示した。
    • 本手法は,正例データに対するモデルの性能を維持しつつ,既存のバックドア防御策を回避できる。
    • トリガーを特定の空間領域と形状に制限することで,トリガーの特異性を保証している。

    Link: https://arxiv.org/abs/2504.21052

  • StablePCA:多源データからの共有表現の分布ロバスト学習 [cs.RO, cs.LG, math.OC, stat.CO, stat.ME]目的:多源データからの安定した低次元表現の抽出
    • 多次元データの解析において,低次元表現はデータ構造の発見や効率的な処理に不可欠である。
    • 多源データの統合においては,バッチ効果などの系統的なバイアスが共有表現の学習を妨げる課題がある。
    • 本研究は,複数のデータソース間でロバストな共有表現を学習するための新たな手法を提案することで,この課題を解決する。
    • 本研究で提案するStablePCAは,最悪ケースの分散を最大化することで安定した潜在表現を構築する分布ロバストフレームワークである。
    • 古典的なPCAの非凸ランク制約に対処するため,StablePCAの凸緩和と効率的なMirror-Proxアルゴリズムを開発した。
    • 緩和問題が元の問題にどれだけ近いかを評価するためのデータ依存証明を導入し,緩和がタイトとなる条件を確立した。

    Link: https://arxiv.org/abs/2505.00940

  • 健康なLLM?英国政府の公衆衛生情報に関するLLMの知識のベンチマーク [cs.DB, cs.CL, cs.LG]目的:英国政府の公衆衛生情報に関するLLMの知識評価
    • LLMの普及に伴い,特定分野の知識の理解が重要。特に医療・公衆衛生分野では,誤情報が住民に影響を及ぼす可能性がある。
    • 医療分野のLLMベンチマークは存在するものの,公衆衛生分野におけるLLMの知識はほとんど不明であった。
    • 公衆衛生に関するLLMの知識を評価するための新たなベンチマークPubHealthBenchを開発し,LLMの能力を検証すること。
    • 最新のLLM(GPT-4.5,GPT-4.1,o1)は,選択式問題では90%以上の高い精度を示し,簡易検索エンジンを用いた人間よりも優れた性能を発揮した。
    • 自由形式の質問応答では,どのモデルも75%以上のスコアに達せず,性能が低下した。
    • 最先端LLMは公衆衛生情報の信頼できる情報源となり得る一方,自由形式の応答には追加の安全対策が必要となる可能性を示唆した。

    Link: https://arxiv.org/abs/2505.06046

  • 音響コンテンツの推論に向けたマルチドメイン音声質問応答ベンチマーク [cs.SD, cs.AI, cs.CL, cs.MM, eess.AS]目的:マルチドメインにわたる音響理解のための音声質問応答ベンチマーク
    • 音声は,環境認識や状況把握において重要な役割を担うため,その理解はAIの発展に不可欠である。
    • 既存の音声質問応答システムは,特定のドメインに特化しており,多様な音響シーンへの汎化性能が課題である。
    • 異なるドメインの音響データに対する質問応答能力を評価し,音声言語モデルの汎化性能向上を目指す。
    • 本ベンチマークでは,生物音響,時間的音響風景,複雑なQAという3つのサブセットで音声言語モデルの性能を評価した。
    • Qwen2-Audio-7B,AudioFlamingo 2,Gemini-2-Flashといったベースラインシステムの予備的な結果を比較し,モデルとサブセット間で大きなばらつきが見られた。
    • この挑戦は,AIエージェントが世界を効果的に知覚し,相互作用するために不可欠な,人間レベルの音響理解と推論能力の向上を目指す。

    Link: https://arxiv.org/abs/2505.07365

  • 予見的支援:現実世界のAI支援業務における認知負荷の測定 [cs.AI, cs.HC]目的:AI支援業務における認知負荷とパフォーマンスの関係性
    • AI技術の進化により,業務効率化への期待が高まっている。
    • AIの積極的な情報提供が,認知負荷を増加させる可能性が指摘されている。
    • AI支援下での認知負荷がパフォーマンスに与える影響を定量的に解明する。
    • AI生成コンテンツの利用は,タスクの質と正の相関関係が認められた。
    • 過剰な認知負荷は,内在的認知負荷の約3倍の負の相関関係を示した。
    • AIによるタスク切り替えが,パフォーマンス低下の最も強い予測因子であった。

    Link: https://arxiv.org/abs/2505.10742

  • 知識蒸留における内部再構築のメカニズム的研究 [cs.LG]目的:知識蒸留における内部計算の変換
    • モデルの圧縮と高速化は,実用的な深層学習モデルの展開に不可欠である。
    • 知識蒸留の過程で生じる内部表現の変化が十分に理解されていない。
    • 知識蒸留による内部計算の変化を定量的に評価し,その影響を解明すること。
    • 知識蒸留されたモデルは,教師モデルの構成要素を再編成,圧縮,あるいは削除することが示された。
    • 学生モデルは,より少ない構成要素への依存度を高める傾向がある。
    • 知識蒸留は機能的な振る舞いを維持しつつも,内部計算に有意な変化をもたらすことが明らかになった。

    Link: https://arxiv.org/abs/2505.10822

  • 学習時における将来的なアンラーニング準備のためのアプローチ:Ready2Unlearn [cs.LG, cs.AI]目的:将来のアンラーニング要求への対応準備
    • AIの発展に伴い,プライバシー保護や倫理的課題への対応が重要視されている。
    • 既存のアンラーニング手法は,モデル展開後に反応的に適用されることが多く,効率性に課題がある。
    • 学習時にアンラーニングの準備を行うことで,効率的かつ原則に基づいたデータ削除を実現する。
    • Ready2Unlearnは,モデルにアンラーニング準備を組み込むことで,将来的なアンラーニング要求への対応を改善する。
    • 言語タスクと画像タスクの両方で,様々なアンラーニング設定下で効果が確認された。
    • 本研究は,機械学習モデルにアンラーニング準備を組み込むプロアクティブな戦略に関する将来の研究を促す。

    Link: https://arxiv.org/abs/2505.10845

  • 一人称視点動画からの熟練操作学習:EgoDex [cs.CV, cs.LG, cs.RO]目的:大規模な一人称視点動画を用いた熟練操作の学習
    • ロボットの器用な操作は,家庭でのタスク自動化に不可欠であり,人間生活の質向上に貢献する。
    • 熟練操作の学習には大量のデータが必要だが,既存のデータセットは手動アノテーションが不足している。
    • 本研究は,高品質な手と指の3Dトラッキングデータを含む大規模な一人称視点動画データセットを提供し,学習の促進を目指す。
    • EgoDexは,829時間の熟練操作動画と,それに対応する3D手と指のトラッキングデータを含む,現時点で最大規模かつ多様なデータセットである。
    • データセットは,靴紐を結んだり洗濯物を畳んだりする194種類の日常的な操作を網羅し,多様な操作行動をカバーする。
    • 本データセットを用いて,手動軌道予測に関するイミテーションラーニングポリシーを学習・評価し,ベンチマークを確立した。

    Link: https://arxiv.org/abs/2505.11709

  • FreeKV:効率的なLLM推論のためのKVキャッシュ検索の高速化 [cs.LG, cs.AI, cs.CL]目的:LLM推論におけるKVキャッシュ検索効率の向上
    • LLMは文脈窓の拡大により多様な応用が可能だが,KVキャッシュのサイズ増大が課題。
    • 既存のKVキャッシュ圧縮法は精度低下を招き,検索法は効率のボトルネックとなっていた。
    • FreeKVは精度維持を図りつつ,KVキャッシュ検索効率のボトルネックを解消することを目指す。
    • FreeKVは,KV選択・検索プロセスを非同期化する推測的検索と,高精度な修正機構を導入した。
    • CPUとGPUメモリ間のハイブリッドKVレイアウトとダブルバッファリングによるストリーミング検索により,効率を向上。
    • 様々なシナリオとモデルで精度をほぼ維持しつつ,最先端のKV検索手法と比較して最大13倍の高速化を実現。

    Link: https://arxiv.org/abs/2505.13109

  • 決定重視型オンライン学習 [cs.LG, stat.ML]目的:意思決定における予測モデルの損失最小化
    • 意思決定の質向上に不可欠であり,予測精度だけでは不十分な場合が多い。
    • 動的な環境下では,目的関数が時間とともに変化し,最適化が困難である。
    • オンライン環境における決定重視型学習の理論的保証と実用的なアルゴリズムを開発する。
    • 提案手法は,目的関数の微分可能性を確保するための正則化と摂動技術を用いる。
    • これにより,静的および動的な後悔限界を持つ2つのオンラインアルゴリズムを導出した。
    • ナップサック問題の実験で,既存手法と比較して優れた性能を示した。

    Link: https://arxiv.org/abs/2505.13564

  • Vid2World:インタラクティブなワールドモデルへのビデオ拡散モデルの応用 [cs.CV, cs.LG]目的:ビデオ拡散モデルをインタラクティブなワールドモデルに転用する手法
    • 複雑な環境下での意思決定において,データ効率の向上が重要視されている。
    • 既存のワールドモデルは,ドメイン固有の学習が必要で,予測精度が低いという課題がある。
    • 事前学習済みのビデオ拡散モデルを再利用し,高品質な予測を実現する。
    • Vid2Worldは,ビデオ拡散モデルの因果化と訓練目的の再構築により,自己回帰的な生成を可能にした。
    • 因果的な行動ガイダンスメカニズムを組み込むことで,インタラクティブなワールドモデルにおける行動制御性を向上させた。
    • ロボット操作,3Dゲーム,オープンワールドナビゲーションなど,複数のドメインで有効性が示された。

    Link: https://arxiv.org/abs/2505.14357

  • MAS-ZERO:ゼロ・スーパービジョンによるマルチエージェントシステムの設計 [cs.CL, cs.AI, cs.LG]目的:マルチエージェントシステム自動設計のための自己進化型フレームワーク
    • 複雑な課題解決にLLMを活用するMASは重要だが,手動設計に限界がある。
    • 既存の自動設計手法は検証セットが必要で,推論時の適応性や簡素化が困難。
    • 推論時に動的にMASを設計・改善し,複雑さに応じて簡素化することを目指す。
    • MAS-ZEROは,検証セットなしで,問題ごとに最適なMAS構成を自己進化させる。
    • 推論時に問題分解とエージェント構成を動的に行い,必要に応じてシステムを簡素化する。
    • 様々なベンチマークにおいて,既存の手動式および自動式MASを上回り,精度向上を達成した。

    Link: https://arxiv.org/abs/2505.14996

  • HDLxGraph:大規模言語モデルとHDLリポジトリをHDLグラフデータベースで結びつける [cs.AR, cs.CL, cs.LG]目的:大規模言語モデル(LLM)を用いたHDLタスクにおける性能向上
    • HDLはデジタル回路設計の根幹であり,その効率的な設計・検証が重要である。
    • LLMをHDLに適用する際,学習データ不足と長すぎるプロンプトが課題となる。
    • 既存のRAG手法の構造・語彙のミスマッチを解消し,HDL特化の性能向上を目指す。
    • HDLxGraphはHDLのグラフ構造を活用した新たなRAGフレームワークであり,検索,デバッグ,補完の精度を向上させる。
    • 既存のRAGやソフトウェアコードGraph RAGと比較して,それぞれ12.04%/12.22%/5.04%と11.59%/8.18%/4.07%の改善が確認された。
    • 大規模な実世界HDLリポジトリから生成されたベンチマークデータセットHDLSearchを新たに提供する。

    Link: https://arxiv.org/abs/2505.15701

  • EasyInsert:データ効率と汎用性の高い挿入ポリシー [eess.SY, cs.SY, cs.RO, cs.AI]目的:ロボットによる挿入作業の成功率向上
    • ロボットの多様な作業への応用が期待されるため,高い精度が求められる。
    • 従来の技術は汎用性に乏しく,複雑な環境や未知の物体への対応が困難である。
    • 未知の物体や環境下でもロバストな挿入を可能にする汎用的なポリシーを開発する。
    • 提案手法EasyInsertは,プラグとソケットの相対姿勢の回帰問題を解くことで,効率的なデータ収集を実現した。
    • 実環境実験において,わずか1時間の遠隔操作データから学習し,未知の15個の物体中13個で90%以上の成功率を達成した。
    • 単一のマニュアルリセットと自動データ収集・ファインチューニングにより,全ての物体で90%以上の成功率を実現した。

    Link: https://arxiv.org/abs/2505.16187

  • WikiDBGraph:データベース間のサイロ状態における協調学習のためのデータ管理ベンチマークスイート [cs.DB, cs.LG]目的:データベース間のサイロ状態における協調学習のためのデータ管理の評価
    • 組織間でデータベースが分断されることは,データ管理とデータマイニングの妨げとなる。協調学習は,その課題を解決する。
    • 既存の協調学習フレームワークは,データベースが独立,整合,結合可能であるという前提に基づいているため,実用性に欠ける。
    • 現実的なデータベース環境下での協調学習の限界を明らかにし,実用的な展開に向けた方向性を示す。
    • WikiDBGraphは,10万のデータベースと1700万のエッジを含む大規模データセットである。
    • 実験により,既存の協調学習手法が現実的な条件で効果を発揮する一方で,データサイロ管理における課題が浮き彫りになった。
    • データベース間の関係性の特性を捉え,協調学習システムの現実的な展開に貢献する。

    Link: https://arxiv.org/abs/2505.16635

  • 細胞は生き続けなければならない:Agar.ioを用いた継続的強化学習 [cs.LG, cs.AI]目的:継続的強化学習におけるエージェントの学習メカニズムの探求
    • 現実世界の環境は常に変化するため,固定された戦略では対応が困難である。
    • 既存の研究プラットフォームは,変化の捉え方や複雑さに課題がある。
    • 非エピソード型の複雑な環境における継続学習の困難性を明らかにすること。
    • AgarCLは,Agar.ioを基盤とする継続的強化学習のための研究プラットフォームである。
    • DQN,PPO,SACを用いたベンチマークテストを実施し,AgarCLの課題を評価した。
    • Shrink and Perturb,ReDo,Continual Backpropagation等の手法は,標準的な強化学習アルゴリズムと比較して有意な改善を示さなかった。

    Link: https://arxiv.org/abs/2505.18347

  • X-メタンウェット:AIによる科学的発見を促進するための地球規模の湿地メタン排出量ベンチマークデータセット [cs.LG]目的:地球規模の湿地メタン排出量に関するベンチマークデータセット
    • メタンは強力な温室効果ガスであり,気候変動への影響が大きい。正確なモデリングが不可欠である。
    • 地球規模および時間スケールでのメタンフラックスの正確なモデル化が課題である。
    • AIアルゴリズムを活用し,湿地メタン排出量のモデリング精度向上を目指す。
    • X-MethaneWetは,物理ベースモデルとFLUXNET-CH$_4$の観測データを統合したデータセットである。
    • 深層学習モデルを用いたメタンフラックス予測の基盤を確立し,様々な手法を評価した。
    • TEM-MDMのシミュレーションデータを活用した転移学習により,モデルの汎化性能が向上することを示した。

    Link: https://arxiv.org/abs/2505.18355

  • VISTA:学習不要な株価時系列分析のための視覚言語推論 [cs.LG]目的:株価時系列分析のための多modalアプローチ
    • 金融分析において,株価予測は重要な課題であり,正確な予測は投資判断に不可欠である。
    • 既存手法では,株価の複雑な変動パターンを捉えきれず,予測精度が十分でない場合がある。
    • 視覚言語モデルを活用し,数値データと視覚情報を組み合わせることで,予測精度の向上を目指す。
    • VISTAは,従来のARIMAやテキストのみのLLMを用いた手法と比較して,最大89.83%高い性能を示す。
    • 視覚言語推論により,単一modalでは捉えられない相補的なパターンを捉えることが可能となる。
    • タスク固有の学習を必要とせず,ゼロショット設定で高い予測性能を発揮する。

    Link: https://arxiv.org/abs/2505.18570

  • 命令階層の強化:拡張された中間表現による実現 [cs.AI, cs.LG]目的:大規模言語モデルに対するプロンプトインジェクション攻撃の防御
    • LLMの安全性確保は,社会実装において不可欠であり,攻撃に対する堅牢性が求められる。
    • プロンプトインジェクション攻撃は,LLMの挙動を悪意のある指示で乗っ取る深刻な脆弱性である。
    • 入力層だけでなく,中間表現においても命令階層信号を注入することで,防御性能の向上を目指す。
    • 提案手法は,最先端の手法と比較して,勾配ベースのプロンプトインジェクション攻撃の成功率を1.6倍から9.2倍削減する。
    • モデルの性能劣化を最小限に抑えつつ,攻撃に対する防御効果を高めることが示された。
    • 異なるモデルや学習方法においても,一貫して高い防御効果が確認された。

    Link: https://arxiv.org/abs/2505.18907

  • OCN:高次共通近傍を効果的に活用したより良いリンク予測 [cs.LG, cs.AI]目的:リンク予測における高次共通近傍の有効活用
    • ネットワーク分析において,リンク予測は重要な課題であり,様々な分野で応用されている。
    • 既存手法では,高次共通近傍の重複や過剰平滑化が課題となり,性能向上の限界がある。
    • 本研究では,直交化と正規化により,これらの課題を解決し,リンク予測精度を向上させる。
    • 提案手法OCNは,主要なベンチマークにおいて,既存の最良手法を平均7.7%上回る性能を示した。
    • 直交化と正規化の有効性は,理論的分析と消去実験により検証された。
    • 異なる次数数の共通近傍間の冗長性を排除し,過剰平滑化を緩和することで精度向上が実現された。

    Link: https://arxiv.org/abs/2505.19719

  • ViTaPEs:マルチモーダルTransformerにおけるクロスモーダルアラインメントのための視触覚位置エンコーディング [cs.CV, cs.LG, cs.RO]目的:タスクに依存しない視触覚表現の学習
    • 視覚と触覚は互いに補完的な情報を提供し,ロボット工学等の分野で重要性が増している。
    • 既存手法では,クロスモーダルな融合やタスク・環境への汎化が困難であり,事前学習済みモデルへの依存度が高い。
    • 視触覚間の微細な相関を捉えるための空間推論を可能にする位置エンコーディングを導入し,汎化性能を向上させる。
    • ViTaPEsは,様々な認識タスクにおいて,最先端のベースラインを上回る性能を示した。
    • 未知の環境やドメインへのゼロショット汎化能力も実証された。
    • ロボット把持タスクにおいて,把持成功の予測精度で既存手法を上回る転移学習能力を示した。

    Link: https://arxiv.org/abs/2505.20032

  • LoFT:フルファインチューニングと同等の挙動を示す低ランク適応 [cs.LG, math.OC]目的:大規模事前学習モデルの効率的な適応手法
    • 近年の自然言語処理では,大規模モデルの活用が不可欠となっている。
    • LoRAなどのパラメータ効率的な手法は計算コストを削減するが,性能面で課題がある。
    • LoFTは,LoRAの課題を克服し,フルファインチューニングに匹敵する性能を目指す。
    • LoFTは,オプティマイザの内部ダイナミクスをフルファインチューニングに合わせることで,低ランク適応の性能を向上させる。
    • LoFTは,オプティマイザの第一および第二モーメントを低ランク空間に適切に投影することにより,フルモデル更新を模倣する。
    • 実験結果から,LoFTは標準的なLoRA手法を上回り,ハイパーパラメータ調整の必要性を低減する。

    Link: https://arxiv.org/abs/2505.21289

  • 「それもまた厄介なことだ」:画像に基づく誤情報の抑制におけるAIラベルのユーザースタディ [cs.CR, cs.AI, cs.CY, cs.SI]目的:AIラベルが画像に基づく誤情報の抑制に与える影響の評価
    • 生成AIの急速な発展に伴い,誤情報の拡散が深刻化しており,その対策が急務である。
    • AI生成コンテンツの開示義務化が進む中で,ラベルが誤情報対策として有効か不明な点がある。
    • AIラベルのユーザへの影響,誤表示の影響を明らかにし,効果的なラベル運用を目指す。
    • ラベル表示は,AI生成画像を用いた虚偽情報の信頼度を下げる効果が確認された。
    • しかし,ラベルへの過信により,人間が作成した画像を用いた虚偽情報の認識が鈍化する副次的な影響が示唆された。
    • また,ラベル付きAI生成画像を用いた真実の主張への懐疑心が高まる可能性も示された。

    Link: https://arxiv.org/abs/2505.22845

  • 逐次学習における進歩的ニューラル崩壊の再考 [cs.CL, cs.LG]目的:逐次学習における知識干渉の軽減
    • 人工知能の発展において,人間のように継続的に学習する能力は不可欠である。
    • 逐次学習では,過去の知識が新しい知識によって上書きされる破滅的忘却が課題となる。
    • 本研究は,効率的かつ柔軟な逐次学習のための新しい枠組みを提案し,解決を目指す。
    • 提案手法ProNCは,固定されたETFを使用せず,逐次的にETFターゲットを拡張する。
    • ProNCは,知識干渉を抑制し,クラス間の分離を最大化する。
    • 実験結果から,ProNCは既存手法と比較して,優れた性能と柔軟性を示す。

    Link: https://arxiv.org/abs/2505.24254

  • ニューラル演算子における保存則を保証するための適応的補正 [cs.LG]目的:ニューラル演算子出力の保存則を保証する手法
    • 物理現象のシミュレーションにおいて,質量保存則や運動量保存則といった物理法則は不可欠である。
    • ニューラル演算子は物理システムの解を学習する上で有望だが,必ずしも保存則を保証できるとは限らない。
    • ニューラル演算子の柔軟性を損なわずに,厳密な保存則を保証する手法を開発すること。
    • 提案手法は,軽量な学習可能な演算子を用いて,学習中に目標とする保存則を適応的に適用する。
    • 理論的には,補正手法がニューラル演算子の表現力を阻害せず,制約付きモデルよりも低い再構成損失を達成する可能性があることが示された。
    • 複数のニューラル演算子アーキテクチャと代表的な偏微分方程式を用いた実験により,提案手法が精度と安定性を大幅に向上させることが示された。

    Link: https://arxiv.org/abs/2505.24579

  • ActivePusher:残差物理を用いた能動的学習と計画による非把持操作 [cs.RO, cs.RO, cs.LG]目的:非把持操作のための能動的学習と計画のフレームワーク
    • 現実世界の多様な操作を実現するには,学習に基づく動力学モデルが不可欠である。
    • 学習データの収集にはコストがかかり,効率が悪い場合がある。
    • 学習モデルの不確実性を低減し,信頼性の高い計画を可能にすること。
    • ActivePusherは,残差物理モデリングと不確実性に基づく能動的学習を組み合わせる。
    • データ獲得を最も有益なスキルパラメータに集中させ,データ効率を向上させる。
    • シミュレーションと実環境の両方で,ベースライン手法と比較して計画成功率が高いことが示された。

    Link: https://arxiv.org/abs/2506.04646

  • MMTU:大規模多タスク表理解と推論ベンチマーク [cs.AI, cs.CL, cs.DB, cs.LG]目的:表データの理解,推論,操作能力の包括的評価
    • 表形式データは,スプレッドシートやデータベース等,多くの実世界アプリケーションで重要な役割を果たす。
    • 表に関連するタスクの評価は,自然言語処理分野と比較して著しく不足しており,NL-to-SQLやTable-QAに偏っている。
    • 専門家レベルの表データ処理能力を評価し,モデルの改善を促すことで,構造化データ処理の発展を目指す。
    • 本研究で開発したMMTUは,25種類の表タスクと28K以上の質問を含む大規模ベンチマークである。
    • MMTUは,表理解,推論,コーディングといった複合的なスキルを必要とし,最先端モデルの性能はまだ69%や57%程度にとどまる。
    • このベンチマークを通じて,構造化データ処理と分析のための基盤モデル開発を促進することが期待される。

    Link: https://arxiv.org/abs/2506.05587

  • RoboPARA: タスク間の並列割り当てと再構成による双腕ロボット計画 [cs.RO, cs.RO, cs.AI]目的:双腕ロボットにおけるタスク並列計画の最適化
    • 複雑な作業において,効率と柔軟性を向上させる上で双腕ロボットは不可欠である。
    • 既存手法ではタスクの並列性を十分に最適化できず,双腕協調の潜在能力が制限されている。
    • タスク依存性を考慮しつつ,双腕ロボットの並列処理を最大限に高める計画手法を開発する。
    • RoboPARAは,タスク依存グラフを用いた計画候補の生成と,グラフ再走査による並列計画の最適化という二段階構成である。
    • 提案手法は,既存の計画手法と比較して,複雑なタスク組み合わせにおいて高い効率と信頼性を実現した。
    • 多様なシナリオと難易度に対応した双腕タスク並列評価データセットX-DAPTを新たに公開した。

    Link: https://arxiv.org/abs/2506.06683

  • 人工ニューラルネットワークの学習におけるカオス的過渡現象の活用 [cs.LG, cond-mat.dis-nn, nlin.CD, physics.data-an]目的:人工ニューラルネットワーク学習におけるカオス的過渡現象の有効性
    • 機械学習は,画像認識や自然言語処理など,様々な分野で重要な役割を果たしている。
    • 従来の最適化アルゴリズムは学習率の調整が難しく,学習時間が長くなる場合がある。
    • カオス的過渡現象を利用することで,学習の高速化と精度向上を目指す。
    • 特定の学習率範囲において,勾配降下法は探索と活用のバランスを取り,カオス的な振る舞いを示すことが示された。
    • カオスが始まる学習率付近で,テストデータに対する許容可能な精度に達するまでの学習時間が最小となることが確認された。
    • これらの結果は,MNISTの分類タスクだけでなく,様々な学習タスク,アーキテクチャ,ハイパーパラメータにおいても同様の傾向を示すことが示された。

    Link: https://arxiv.org/abs/2506.08523

  • EROICA:大規模モデル学習におけるオンラインパフォーマンストラブルシューティング [cs.DC, cs.LG, cs.OS]目的:大規模モデル学習のパフォーマンス問題診断
    • 近年,GPUクラスターの規模拡大と複雑化に伴い,パフォーマンス問題の迅速な特定が重要になっている。
    • 従来のトラブルシューティング手法は,大規模な学習システムに対応できず,問題解決が困難である。
    • 本研究は,大規模学習システムにおけるパフォーマンス問題の自動診断と原因特定を目指す。
    • EROICAは,プロファイリングに基づく詳細な観測と,GPUクラスター全体の網羅的な監視を実現するオンライントラブルシューティングシステムである。
    • EROICAは,学習実行時の挙動パターンをオンラインプロファイリングによって要約し,差分観測可能性を利用して,実運用への影響を最小限に抑えつつ根本原因を特定する。
    • 約10万GPU規模のGPUクラスターでの1年半の運用実績があり,97.5%の成功率で様々なパフォーマンス問題を診断している。

    Link: https://arxiv.org/abs/2506.08528

  • BemaGANv2:GANベースのボコーダーにおける識別器の組み合わせ戦略 - 長期オーディオ生成に向けて [cs.SD, cs.AI, cs.LG, cs.LO, eess.AS]目的:GANベースのボコーダーにおける識別器の組み合わせ戦略の体系的な評価
    • 長期間のオーディオ生成は,テキストから音楽や音声への変換において重要な技術である。
    • 長期オーディオ生成において,時間的な一貫性,韻律の一貫性,および構造の維持が課題となっている。
    • より高精度な長期オーディオ生成を可能にする識別器の組み合わせを探索する。
    • BemaGANv2は,生成器にAnti-aliased Multi-Periodicity (AMP)モジュールを導入し,周期構造のモデリングを改善した。
    • 識別器には,提案するMulti-Envelope Discriminator (MED)とMulti-Resolution Discriminator (MRD)を組み合わせ,長期依存性のモデリング精度を高めた。
    • 様々な識別器の構成を評価した結果,MEDとMRDの組み合わせが客観評価・主観評価ともに良好な結果を示した。

    Link: https://arxiv.org/abs/2506.09487

  • Co-LoRA:異種マルチモーダルクライアントにおける協調的なモデル個別化 [cs.LG, cs.AI, cs.DC]目的:異種データとモデルを持つ環境下でのモデル個別化
    • AIのパーソナライズ化が進む中で,多様なユースケースに対応できるモデルの適応が重要である。
    • 既存のパーソナライズされた連合学習は,データやモデルがクライアント間で同一であるという制約がある。
    • 異種データとモデルを持つ環境下でも,プライバシーを保護しつつ知識共有を可能にする手法を開発する。
    • 提案手法Co-LoRAは,異種データ下でのパラメータ干渉を軽減するタスク関連性のあるモデル集約戦略を採用している。
    • 異なるアーキテクチャ間での知識共有を可能にする次元不変モジュールを導入した。
    • 40の多様なタスクと時間経過による分布シフトを含むマルチモーダルPFLベンチマークを用いて,最先端手法と比較し,提案手法が大幅に性能を向上させることを示した。

    Link: https://arxiv.org/abs/2506.11024

  • ロジスティック文脈スレートバンディットにおける効率的なアルゴリズム [cs.LG]目的:ロジスティック文脈スレートバンディット問題における累積報酬の最大化
    • 推薦システム等の分野において,効率的な意思決定は重要であり,バンディット問題はその基本的な枠組みを提供する。
    • 大規模な候補集合から最適な選択を行う際,計算コストが課題となり,既存手法ではスケーラビリティが十分でない。
    • 本研究では,低計算コストで高精度な意思決定を可能とするアルゴリズムを開発し,スケーラビリティの問題を解決する。
    • 提案手法であるSlate-GLM-OFUとSlate-GLM-TSは,各ラウンドの計算量を$N^{O(1)}$に抑え,低後悔性能を実現した。
    • 多様性の仮定の下,Slate-GLM-OFUは$\tilde{O}(\sqrt{T})$のオーダーの後悔を達成することが証明された。
    • 実験結果から,提案手法は既存手法と比較して,後悔を最小化し,実行時間を短縮することが示された。また,言語モデルのプロンプトにおける文脈例の選択にも応用可能であることが示された。

    Link: https://arxiv.org/abs/2506.13163

  • シャープネスを意識した機械的アンラーニング [cs.LG]目的:機械的アンラーニングにおけるシャープネスを意識した最小化 (SAM) の有効性
    • 機械学習モデルのプライバシー保護やデータ更新において,特定のデータを選択的に忘却する技術が重要である。
    • 従来のアンラーニング手法では,学習済みのモデルから特定のデータを完全に削除することが困難である。
    • SAMの特性を理解し,忘却と保持のバランスを最適化することで,より効果的なアンラーニングを実現する。
    • SAMは,忘却データセットへの適合時にノイズ除去特性を失い,信号強度に応じて汎化性能が変化することが示された。
    • 提案手法Sharp MinMaxは,保持信号学習にSAMを使用し,忘却信号のアンラーニングにシャープネス最大化を用いることで,最適な性能を達成した。
    • 実験結果から,SAMはアンラーニングを改善し,保持データと忘却データ間の特徴の絡み合いを減少させ,メンバーシップ推論攻撃への耐性を高めることが示された。

    Link: https://arxiv.org/abs/2506.13715

  • 状況が重要だ!LLMによる3Dシーン計画の目標緩和 [cs.RO, cs.AI]目的:3Dシーンにおける実行可能な計画立案
    • ロボットが現実世界で活動するには,複雑な環境での信頼性のある計画が不可欠である。
    • 従来の計画立案は,ノイズや不正確な状況認識により,実用性に課題がある。
    • LLMと古典的計画を組み合わせ,状況に応じた柔軟な目標設定を実現する。
    • ContextMattersは,LLMと古典的計画を融合し,目標を段階的に緩和する。
    • これにより,多くの非実行可能タスクを実行可能な計画へと変換できる。
    • 実験結果では,最先端のLLM+PDDLベースラインと比較して,成功率が+52.45%向上した。

    Link: https://arxiv.org/abs/2506.15828

  • 意味からインスタンスへ:半自己教師あり学習アプローチ [cs.CV, cs.AI, cs.LG]目的:インスタンスセグメンテーションモデルの開発
    • 植物の健康,成長,収量の自動モニタリング等に不可欠な技術である。
    • インスタンスセグメンテーションモデル開発には,ピクセルレベルの注釈付き大規模データセットが必須となる。
    • 注釈コストを削減し,高精度なインスタンスセグメンテーションを実現すること。
    • GLMaskという画像マスク表現を設計し,形状,テクスチャ,パターンに焦点を当てさせた。
    • セマンティックセグメンテーションからインスタンスレベルセグメンテーションへの変換パイプラインを開発した。
    • 小麦の穂のインスタンスセグメンテーションにおいて,最先端の性能(mAP@50で98.5%)を達成した。
    • 汎用COCOデータセットでも12.6%以上のmAP@50の性能向上を示し,幅広い応用可能性を示唆した。

    Link: https://arxiv.org/abs/2506.16563