arXiv雑要約

AI - 2026/06/16 公開

  • ローカル差分プライバシー下におけるクロスサイロ非匿名化:脅威モデル,相転移,および連携の必要性 [cs.CR, cs.IT, cs.LG, math.IT]目的:クロスサイロ非匿名化における脅威モデルと相転移点の特定
    • 個人情報保護は重要であり,特に複数のデータサイロに分散されたデータを取り扱う際には,プライバシー保護が不可欠である。
    • 既存の差分プライバシーの合成定理は最悪ケースを想定しており,実際の攻撃成功の閾値を評価するには不十分である。
    • 複数のサイロからの情報を組み合わせた攻撃に対する耐性を評価し,非匿名化のリスクを定量化することを目指す。
    • クロスサイロ・パーソンレベルDP(XSP-DP)を導入し,基本合成定理がこのモデルでも成り立つことを確認した。
    • 非匿名化は,サイロ数kがΘ(log n / epsilon^2)を超えると相転移を起こし,攻撃が成功することが示された。
    • サイロ間の連携がない場合,閾値を超えると非匿名化は不可避であり,連携の必要性が確認された。

    Link: https://arxiv.org/abs/2606.16763

  • 乱流3次元障害物付きチャネル流れの代理モデル化のための検証済みLBMデータセットとパイプライン [cs.LG, physics.flu-dyn]目的:3次元乱流流れの代理モデル化のための検証済みデータセットとパイプライン
    • 流体シミュレーションの精度向上は,工学設計や気象予測など,幅広い分野において不可欠である。
    • 高精度な乱流シミュレーションは計算コストが高く,リアルタイム予測や最適化には課題が残る。
    • 機械学習による代理モデルを用いることで,計算コストを削減しつつ高精度な予測を可能にすることを目指す。
    • 本研究では,Re=1,000-10,000における3次元チャネル流れのトレーニングデータを生成する再現可能なパイプラインを構築した。
    • 格子ボルツマン法ソルバーの検証を行い,実験測定値やグリッド収束性に関する包括的な研究を実施した。
    • この検証済みのパイプラインは,フーリエニューラル演算子やU-Netの比較評価を可能にする標準化されたベンチマークを提供する。

    Link: https://arxiv.org/abs/2606.16765

  • 曲率の制御:安定したTransformer学習のためのアーキテクチャウォームアップ [cs.LG]目的:大規模Transformer学習の安定化
    • Transformerは自然言語処理で高い性能を示すが,学習が不安定になりやすい。
    • 大規模モデルでは,学習時の損失の急増や発散が頻繁に発生し,計算資源を浪費する。
    • アーキテクチャを段階的に成長させることで,学習の安定化を図る。
    • 高速なオンライン推定器により,大規模モデルにおける曲率追跡が実現可能となった。
    • 学習の不安定性は,事前条件付き曲率の急増と一致し,深さが増すと曲率が上昇することが確認された。
    • アーキテクチャウォームアップは,既存の安定化手法と比較して,効率的な曲率追跡と不安定性の低減に貢献する。

    Link: https://arxiv.org/abs/2606.16768

  • スキルからLoRAへ:スキル利用からLLMエージェントの行動学習によるトークン効率化 [cs.AI]目的:LLMエージェントにおけるスキル表現と学習手法
    • エージェントの能力向上には,再利用可能なスキルの効率的な利用が不可欠である。
    • 既存のスキル配布方法では,実行時に同じスキルを繰り返し注入する必要がある。
    • スキルの行動変化を学習し,実行時のトークンコストを削減することを目指す。
    • 提案手法Skill-to-LoRA(S2L)は,スキル固有のLoRAアダプターを用いてスキルを表現する。
    • SWE-Skills-Benchの評価において,S2Lは既存手法と比較して正解率を向上させ,トークンコストを削減した。
    • 実験により,スキルの行動変化をLoRAアダプターに適切に反映することが性能向上に重要であることが示された。

    Link: https://arxiv.org/abs/2606.16769

  • GD$^2$PO:グループ動的報酬デカップルドポリシー最適化による多報酬対立の緩和 [cs.LG]目的:多次元報酬における対立の緩和
    • 大規模言語モデルの発展に伴い,多様な能力獲得のため多次元報酬を用いた強化学習が重要になっている。
    • 既存手法では,単一のロールアウトで報酬次元間で正負の利得が生じ,学習効率が阻害される問題がある。
    • 報酬間の不一致を検出し,無効なロールアウトを除外することで学習効率を向上させることを目指す。
    • 提案手法GD$^2$POは,報酬間の対立を考慮したフィルタリング機構により,有効な強化学習の利得を保持し,学習を加速する。
    • クエリレベルの重み付けにより,各クエリの更新強度を報酬の一致度に応じて動的に調整する。
    • ツール呼び出しや人間による選好との整合など,様々な多報酬シナリオで既存手法を大きく上回る性能を示す。

    Link: https://arxiv.org/abs/2606.16771

  • OpenClaw-Skill:エージェント型大規模言語モデルのための集合的スキルツリー探索 [cs.AI, cs.CL]目的:エージェント型大規模言語モデルのための再利用可能なスキルの自動構築
    • 現実世界のシステムにおける複雑なタスク解決には,大規模言語モデル(LLM)に効果的なスキルを装備することが不可欠である。
    • LLMエージェントのツール利用,多段階推論,動的環境とのインタラクションにおけるスキルの獲得と汎化が課題である。
    • 多様で汎用性の高いスキルツリーを構築し,LLMの能力向上を目指す。
    • 提案手法CSTSは,集合知を活用してスキルを共同で探索,特定,合成する。
    • CSTSにより構築されたスキルと,スキルを強化した訓練データを用いることで,モデルは効果的にスキルを学習・利用できる。
    • 訓練モデルOpenClaw-Skillは,長期的な計画,ツール利用,そして困難なベンチマークにおける優れたエージェント能力を示す。

    Link: https://arxiv.org/abs/2606.16774

  • Gen-VCoT:拡散ベースのRGB中間表現による生成型視覚Chain-of-Thought推論 [cs.RO, cs.HC, cs.RO, cs.CV, cs.AI, cs.LG]目的:視覚的推論のための生成型Chain-of-Thoughtフレームワーク
    • マルチモーダル大規模言語モデルの視覚的推論能力向上は,AI研究の重要な進展である。
    • 既存手法では,解釈可能な視覚中間表現が不足しており,推論過程の透明性に課題がある。
    • 視覚的なChain-of-Thought推論を可能にし,推論過程の可視化と解釈性を実現すること。
    • Gen-VCoTは,空間推論と深度推論において既存手法を大幅に上回る性能を示した。
    • ただし,単純な事実に関する質問においては,テキストベースのChain-of-Thoughtの方が優れている場合がある。
    • タスクに応じて最適な表現形式が異なり,Gen-VCoTは解釈可能なマルチモーダル推論の新たなパラダイムを確立する。

    Link: https://arxiv.org/abs/2606.16783

  • 説明アルゴリズムと現実世界を結びつけるための説明カードの必要性 [cs.LG]目的:説明アルゴリズムの説明の有用性を高めるための情報提供手法
    • AIの意思決定の透明性確保は,社会への信頼獲得と倫理的な利用に不可欠である。
    • 既存の説明アルゴリズムは,専門知識なしには解釈が難しく,不十分な情報しか提供しない場合がある。
    • 説明カードによって,説明の解釈に関する責任を提供者に移し,より適切な利用を促す。
    • 説明カードは,既存の説明にロバスト性や妥当性に関する情報を補足し,実用性を高める。
    • 反実仮想説明やSHAPを用いて,説明カードの具体的な作成方法と,その効果を示すことができた。
    • 説明カードは,EU AI法における説明可能性の要件を満たすための実用的な手段となり得る。

    Link: https://arxiv.org/abs/2606.16786

  • 文脈的確率的最適化のための決定重み付きフローマッチング [cs.RO, cs.LG, cs.AI]目的:確率的最適化におけるシナリオ生成のための決定重み付きフローマッチング手法
    • 確率的最適化は,不確実性下での意思決定において重要であり,その性能は生成されるシナリオの質に左右される。
    • 従来の生成モデルは分布の一様適合に重点を置いており,意思決定に影響を与えるシナリオの質を考慮していない。
    • 意思決定に敏感な領域のエラーを減らし,最適な行動の変化を抑制することを目指す。
    • 決定重み付きフローマッチング(DW-FM)は,標準的なフローマッチングの簡潔さを保ちつつ,意思決定に敏感な終点情報を用いて速度回帰目的関数を再重み付けする。
    • 理論的に,下流の損失と経路に沿った速度の不一致を結びつけ,損失誘起決定の不一致と随伴輸送引数を通じて,後悔に沿った代替目標と実用的な終点加重目標を導出する。
    • 合成ポートフォリオ,金融,交通タスクを含む3つのCVaRベースの文脈的確率的最適化ベンチマークでDW-FMの有効性を実証し,標準的なベースラインと比較して下流の損失を改善する。

    Link: https://arxiv.org/abs/2606.16790

  • 意味と歪みを分離:AI生成画像品質評価のためのマルチスケール二重ストリーム視覚言語アライメント [cs.CV, cs.AI]目的:AI生成画像品質評価における意味と歪みの分離
    • AI生成画像の普及に伴い,その品質評価の重要性が増している。
    • 既存手法では,意味理解と低レベル知覚が混在し,微細な品質劣化を見逃す場合がある。
    • マルチスケールアライメントにより,意味と歪みを分離し,より正確な品質評価を実現する。
    • 提案手法 MST-CLIPIQA は,二重ストリーム構造とマルチスケールアライメントにより,優れた性能を示す。
    • 5つのベンチマークにおいて,品質評価とテキスト-画像対応予測の両方で,最先端の結果を達成した。
    • 学習可能なパラメータ数はわずか0.8Mであり,効率性も高い。

    Link: https://arxiv.org/abs/2606.16799

  • LabOSBench:科学機器制御のためのコンピュータ利用エージェントのベンチマーク [cs.CL, cs.AI]目的:科学機器制御のためのコンピュータ利用エージェントの性能評価
    • 科学技術の進歩には,高度な制御とデータ解析が不可欠であり,自動化の重要性が増している。
    • 既存のベンチマークはソフトウェア操作に偏っており,複雑な機器制御やフィードバックループを考慮していない。
    • 現実の機器制御の課題を再現しつつ,安全かつ効率的なエージェント評価環境を提供する。
    • LabOSBenchは,ウェブベースの科学機器シミュレーターを用いたマルチモーダルGUIエージェント向けベンチマークである。
    • 96のサブタスクを含む8つのシミュレーターで,サンプルローディングからデータ解析までを網羅する。
    • 既存エージェントは構造化されたサブタスクはこなせるものの,フィードバック駆動操作や長期間のワークフローには課題が残る。

    Link: https://arxiv.org/abs/2606.16802

  • 適応的かつ明示的な安全性:大規模推論モデルにおける潜在的な安全性認識の引き出し [cs.CL, cs.CL, cs.AI]目的:大規模推論モデルの安全性向上
    • 大規模言語モデルの利用拡大に伴い,安全性確保は不可欠である。
    • 従来の安全性対策は,手動アノテーションに依存しており,コストと労力がかかる。
    • モデルが持つ潜在的な安全性認識能力を活用し,自動的な安全性向上を目指す。
    • モデル自身の推論過程を再提示することで,潜在的な安全性リスクを認識する能力を利用した。
    • 安全なタグを明示的に誘導するSFTとDPOにより,有害・脱獄ベンチマークでの攻撃成功率をそれぞれ24.65%,36.72%低下させた。
    • 一般的な性能やユーザー体験への悪影響はほとんど見られなかった。

    Link: https://arxiv.org/abs/2606.16808

  • 少量ラベルからのLLM推論能力の拡張:軽量な検証器を用いた半教師ありフレームワーク [cs.AR, cs.AI, cs.CL]目的:LLMの推論学習のスケーラビリティ向上
    • LLMの発展には,推論能力の向上が不可欠であり,その評価手法が重要である。
    • 高品質な推論評価には大量の正解データが必要であり,アノテーションコストが大きい。
    • 少ないアノテーションで推論能力を向上させるための新たな学習方法を確立する。
    • 本研究では,推論の正誤を判定する軽量な分類器を訓練することで,少ないラベルデータから推論学習を可能にした。
    • エントロピーに基づく信頼度閾値を用いることで,ノイズの多い疑似ラベルを排除し,学習の安定性を高めた。
    • 提案手法は,10〜15倍のラベルデータを用いた場合と同等の精度を達成し,スケーラブルな学習を実証した。

    Link: https://arxiv.org/abs/2606.16811

  • GIST-CMTF:LLMエージェントにおける因果的最小ツールフィルタリングのための目標状態推論 [cs.AI]目的:LLMエージェントにおける因果的最小ツールフィルタリングの目標状態推論
    • LLMエージェントの性能は,利用可能なツール選択に大きく依存する。適切なツール選択が重要である。
    • ユーザーの意図が曖昧な場合,エージェントが誤った目標でツールを使用する可能性がある。
    • 目標状態の推論により,エージェントの誤った目標での実行を減らし,タスク成功率を向上させる。
    • GIST-CMTFは,7つのモデル,6つのフィルタリング手法,120のタスクで97.0%のタスク成功率を達成した。
    • トップゴールCMTF(80.1%)やセマンティックゴールCMTF(82.9%)と比較して,誤った目標での実行を大幅に削減した。
    • 目標状態の検証が,ツール関連性の検証と同様に,信頼性の高いツール拡張エージェントにとって重要であることが示唆された。

    Link: https://arxiv.org/abs/2606.16813

  • 混合エキスパート言語モデルにおける連結されたエキスパート層 [cs.DC, cs.OS, cs.CL, cs.AI, cs.LG]目的:混合エキスパートモデルにおけるエキスパートパラメータの共有
    • 大規模言語モデルの効率的なスケーリングが重要であり,計算資源の制約を克服する必要がある。
    • エキスパートパラメータ数が多いことが,メモリ消費量の主要なボトルネックとなっている。
    • エキスパート層のパラメータ共有により,メモリ消費量を削減し,効率的な学習を実現する。
    • エキスパート層を連結することで,メモリ消費量をほぼ2倍削減できることがわかった。
    • パープレキシティや下流タスクの性能劣化はほとんど見られなかった。
    • 計算とメモリのトレードオフが改善され,次世代大規模言語モデルのスケーリングに貢献する。

    Link: https://arxiv.org/abs/2606.16825

  • ATOM-Bench:操作ポリシーにおける原子スキルと構成的汎化の現実世界ベンチマーク [cs.RO, cs.AI]目的:操作ポリシーの原子スキルと構成的汎化の評価
    • ロボット制御の汎用化は重要であり,多様な環境への適応が求められる。
    • 既存の汎用性評価は不十分で,個々のスキルの習得度合いが不明確である。
    • 原子スキルと構成的汎化を分離し,ロボットの弱点を特定すること。
    • ATOM-Benchは,原子タスク30個と構成タスク24個を含む現実世界のベンチマークである。
    • 既存のポリシーは単純な指示理解は可能だが,細かい運動スキルや論理的フィルタリングに苦戦する。
    • 原子スキルの高い性能が必ずしも構成的汎化に繋がらないことが示された。

    Link: https://arxiv.org/abs/2606.16826

  • 時間ピラミッドモデリングによるロバストな偽装音声検出 [cs.CL, cs.CV, cs.AI, cs.SD]目的:偽装音声検出の精度向上
    • 音声認証システムのセキュリティにおいて,偽装音声の検出は不可欠である。高度化する偽装技術への対策が求められる。
    • 既存手法は,リアルな合成音声や声質変換,録音音声による攻撃に脆弱であり,データセット間の汎化性能が低い。
    • マルチスケールな特徴を捉え,データセットや言語に依存しないロバストな検出手法を確立すること。
    • 提案手法である時間ピラミッドモデルは,PartialSpoofデータベースにおいてAUC 99.24%とEER 3.87%を達成し,既存モデルを大幅に上回った。
    • マルチリンガル評価の結果,言語に依存しない偽装音声の特徴が確認された。
    • 自己教師あり学習による表現はロバスト性を向上させる一方で,ドメインや言語の変化により性能が低下することから,適応戦略の重要性が示唆された。

    Link: https://arxiv.org/abs/2606.16837

  • AI活用システムを設計するプロジェクトベースの授業に関する考察 [cs.SE, cs.AI]目的:AI活用システムの設計と実装における課題と学習成果
    • AI技術の進展に伴い,AIを組み込んだシステム構築の重要性が高まっている。
    • 機械学習の知識はあるものの,システムアーキテクチャ設計の実践経験が不足している学生が多い。
    • AI活用システムのシステムレベルな設計能力とデータ中心的なMLの実践力を育成する。
    • 学生の提出物とアンケート調査の結果,アーキテクチャ設計の初期段階における課題が明らかになった。
    • 機械学習の統合,要件の変化への対応,データ管理において,学生の知識・経験の不均衡が課題として浮上した。
    • 本授業は,システムレベルの思考力とデータ中心型MLの実践に対する意識向上に貢献した。

    Link: https://arxiv.org/abs/2606.16842

  • 堅牢な二重信号融合:圧縮された思考連鎖の改良を伴うハイブリッドニューロシンボリックゲーティングによるソーシャルメディアテキストにおける皮肉検出 [cs.CL, cs.CL, cs.AI]目的:ソーシャルメディアテキストにおける皮肉検出の精度向上
    • ソーシャルメディアにおける皮肉表現はコミュニケーションにおいて重要な役割を果たす。
    • 大規模言語モデルは文字通りの意味解釈に偏りがちであり,皮肉の検出が困難である。
    • 教師ありファインチューニングなしで皮肉検出の精度を向上させること。
    • 提案手法RDSは,厳密に分離されたテストセットにおいて,ファインチューニング済みのBERTweetと同等の精度(78.1% accuracy, Macro F1 0.777)を達成した。
    • 不均衡データセットiSarcasmにおいて,RDSは幻覚を22.5%抑制し,複数の教師あり学習モデルを上回る性能(zero-shot Macro F1 0.6726, Ironic F1 0.4821)を示した。
    • 統計的アブレーション実験により,RDSの各要素が相乗効果を生み出し,全体的な性能向上に貢献することが確認された(p=0.005)。

    Link: https://arxiv.org/abs/2606.16845

  • ヘルダー空間における深層Q学習 [cs.LG, cs.AI]目的:連続時間確率的制御におけるQ学習の演算子理論的基盤
    • 強化学習は,複雑な制御問題を解決するための強力な手法であり,その理論的理解が重要である。
    • 連続状態・行動空間におけるQ学習の収束性や近似誤差の評価は未解決の問題が多い。
    • ベルマン最適ターゲットの正則性に着目し,その近似可能性を評価することで,Q学習の理論的基盤を確立する。
    • ベルマン更新が,状態変数に関して平滑化し,行動変数に関してリプシッツ連続性を維持する特性が示された。
    • この結果に基づき,混合正則性に対応したテンソル積DeepONetアーキテクチャが提案された。
    • 時間ステップ$\delta$を小さくする際の,剛性(stiffness)と複雑さ(complexity)のトレードオフが導出された。

    Link: https://arxiv.org/abs/2606.16846

  • 潜在的なロードマップに従う:アンカー・トークンを用いた拡散LLMの取り消し可能デコーディングのナビゲーション [cs.CL, cs.AI]目的:拡散LLMにおける取り消し可能デコーディングの性能向上
    • 拡散LLMは並列生成の可能性を秘めるが,生成速度と品質のトレードオフが存在する。
    • 既存の取り消し可能デコーディング戦略では,エラーの伝播と局所的なエラーの強化が問題となる。
    • 信頼性の高いグローバルな骨格に基づき,エラーの修正と再マスキングを可能にする。
    • ASRDは,アンカー・トークンキャッシュを活用し,アンカー・ガイド生成とアンカー・摂動検証という2つのメカニズムを導入することで,エラーの伝播と強化を軽減する。
    • 数学とコーディングのベンチマークにおいて,ASRDは最新の再マスキング手法を上回り,最大6.4%の精度向上を達成した。
    • また,推論スループットを最大7.2倍に加速することにも成功した。

    Link: https://arxiv.org/abs/2606.16847

  • 進化と基盤:AIによる創造性の共有 [cs.NE, cs.GR, cs.HC]目的:自動化されたデザインと芸術的評価の創造的プロセス
    • デザインや芸術分野において,AIの活用は新たな可能性を広げる重要な課題である。
    • 従来の生成手法では,複雑なデザイン空間の探索に時間と労力がかかるという問題がある。
    • AIの審美的な判断能力を活用し,効率的なデザイン探索を可能にすること。
    • 本研究では,遺伝的アルゴリズムと大規模AIモデルを統合したシステムを開発し,美しい3D有機形態の進化を実現した。
    • AIが詳細なステップバイステップのキュレーションを行うことで,アーティストの役割はシステム設計へと移行する。
    • AIの審美的推論の監査証跡や可視化ツールにより,AI主導のプロセスに対する透明性が確保される。

    Link: https://arxiv.org/abs/2606.16849

  • HawkesNest:時空間パターン複雑性に対する多軸合成ベンチマーク [cs.LG]目的:時空間点過程モデルの評価
    • 時空間データは現実世界で広く出現し,様々な分野で重要性が増している。
    • 既存のデータセットは不透明で生成構造が不明確,モデルの失敗原因特定が困難である。
    • 制御された時空間パターン複雑性による,モデルの診断テストを実現する。
    • HawkesNestは,空間-時間エンタングルメント,背景不均一性,相互作用,ドメイン構造の4軸を定義する。
    • 各軸は,データ生成メカニズムから決定論的な指標で計算され,単調かつほぼ直交することが確認された。
    • HawkesNestにより,HawkesモデルやAutoSTPPの弱点(複雑な条件下での性能低下)が明らかになった。

    Link: https://arxiv.org/abs/2606.16863

  • 現実世界のラベルノイズ下における連合医療画像セグメンテーション:ノイズラベル学習手法選択のためのベンチマークスイート [cs.CL, cs.CV, cs.AI, cs.DC]目的:現実世界のノイズを含む医療画像セグメンテーションデータセットと評価指標を含むベンチマークスイート
    • 医療画像セグメンテーションは,疾患診断や治療計画において不可欠であり,その精度向上は重要である。
    • 連合学習におけるラベルノイズは,セグメンテーション性能を著しく低下させる問題である。
    • 現実世界のラベルノイズに対応した連合学習手法の評価と選択を支援する。
    • 本研究では,多様な現実世界のノイズデータセットとクライアントノイズシナリオを含むベンチマークスイートを開発した。
    • このスイートは,現実的かつ識別的な評価基盤を提供し,公平なベンチマークやデータセット固有のノイズ特性評価を可能にする。
    • 開発したベンチマークスイートは,連合環境下でのノイズに強いセグメンテーション手法開発の基礎となる。

    Link: https://arxiv.org/abs/2606.16868

  • 統合マーケティングアトリビューション:MMMに基づいたプライバシーに配慮した粒度のある測定のためのベイズフレームワーク [cs.MA, cs.CL, cs.CE, cs.CY, cs.RO, cs.LG]目的:統合マーケティングアトリビューションのフレームワーク
    • 小売マーケティングでは,ユーザーレベルのトラッキングに頼らずに,キャンペーンレベルの洞察がますます求められている。
    • MMMはプライバシーに配慮するが粒度が粗く,MTAはプライバシー規制により信頼性が低下している。
    • MMMとベイズアトリビューションを統合し,プライバシーに配慮したキャンペーンレベルの効果測定を実現する。
    • 本研究では,MMMに基づいた事前分布を活用することで,粒度のあるプライバシーに配慮したアトリビューションを実現するIMAを提案する。
    • IMAは,集約データからキャンペーンレベルの効果を導き出し,MMMとの整合性を維持する。
    • IMAはMMMとMTAの長所を組み合わせることで,より包括的なマーケティング効果測定を可能にする。

    Link: https://arxiv.org/abs/2606.16878

  • 深層学習モデルの汎化誤差に対する局所的なロバスト性と安定性による上限 [cs.RO, cs.LG, cs.AI]目的:深層学習モデルの汎化誤差の上限
    • 安全性が必要な応用において,データ駆動型モデル,特に深層学習モデルの汎化性能は重要である。
    • 既存の汎化誤差の上限は,実際の設定では緩く,実用的な評価が困難である。
    • 入力空間のサブ領域ごとの安定性と不安定性のサンプル数に応じたロバスト性項のスケーリングにより,汎化誤差の上限を改善する。
    • 提案手法は,データとモデルの両方に依存する要素を取り入れつつ,実用的な関連性を維持し,真の誤差に対するよりタイトな上限を提供する。
    • ImageNetデータセットで訓練されたモデルに対する実験により,提案手法が既存手法と比較して一貫して無効な結果を示さず,より正確な推定値が得られることが示された。
    • 提案手法は,様々なロバストな深層ニューラルネットワークにおいて,実証的な性能と密接に一致する。

    Link: https://arxiv.org/abs/2606.16883

  • 臨床AIの失敗を予測する構成的推論の深さ:電子カルテ質問応答におけるTransformerの構成性限界と整合する実証的証拠 [cs.RO, cs.AR, cs.CL, cs.AI]目的:電子カルテ質問応答における大規模言語モデルの失敗パターン
    • 医療現場におけるAI活用は,診断や治療の効率化に貢献し,医療の質向上に不可欠である。
    • 大規模言語モデルは高い精度を示す一方で,複雑な推論を必要とする質問への応答精度が課題となっている。
    • 質問解決に必要な推論ステップ数(hop数)が,AIの性能低下を予測する指標となりうるか検証する。
    • hop数が増加するにつれて,3つの異なる大規模言語モデル(Claude Sonnet,GPT-4o,gpt-5.4-2026-03-05)全てで解答精度が低下する傾向が確認された。
    • 電子カルテの文脈長による影響は少なく,推論ステップ数の増加自体が精度低下の原因である可能性が示唆された。
    • 拡張推論(extended thinking)は精度低下を改善せず,推論ステップ数とトークン使用量には相関関係が認められ,計算コスト増加と一致する結果となった。

    Link: https://arxiv.org/abs/2606.16890

  • 重みと勾配を超えて:連合学習メッセージの分類 [cs.LG, cs.AI]目的:連合学習におけるメッセージの分類
    • データ利用制約下での機械学習実現が重要であり,分散環境での学習手法が求められている。
    • 従来の重みや勾配の交換に限定された定義では,合成データ等の多様なメッセージに対応できない。
    • 連合学習メッセージの形式を分類し,計算コストやプライバシーリスクを評価することで,効率的な分散学習を支援する。
    • 本研究では,連合学習メッセージをモデル構造,統計的要約,データ条件付き表現の3つに分類した。
    • 202件の論文調査から,2021年以降,標準的な深層学習の更新から特殊な情報共有への移行が進んでいることが示された。
    • この分類体系は,ハードウェアやセキュリティ要件の異なる連合学習システムの最適化に役立つと考えられる。

    Link: https://arxiv.org/abs/2606.16891

  • 記号的非形式化:流暢,生産的,多言語 [cs.AI, cs.CL, cs.LO]目的:形式数学から自然言語への信頼性の高い変換
    • 厳密性が求められる数学の概念を,より多くの人が理解できるようにする必要がある
    • 形式的な証明の内容を人間が読みやすい形で表現する手段が限られていた
    • 人工知能による証明の構造を説明し,多言語対応を可能にすること
    • Informathプロジェクトは,DeduktiとGrammatical Frameworkを連携させることで,複数の形式証明システムと自然言語間の変換を実現する
    • このアプローチにより,流暢なテキストを比較的少ない労力で生成し,形式性と自然言語の正確性を両立させる
    • その結果,機械検証された内容を,精度の低下なく人間が理解できる形式で提示することが可能になる

    Link: https://arxiv.org/abs/2606.16893

  • 強誘電体メモリを用いたニューラル動的システムによるリアルタイム予測 [cs.ET, cs.AR, cs.NE]目的:リアルタイム予測のための強誘電体メモリ上のニューラル動的システム
    • 時間変化する現象の予測は,科学,工学,金融など幅広い分野で重要である。
    • 従来のデジタルハードウェアは,連続的な時間ダイナミクスを扱うのに適しておらず,計算効率が低いという課題がある。
    • 強誘電体メモリを利用することで,低消費電力かつ高速なニューラル動的システムの実現を目指す。
    • 強誘電体素子を基盤とするFerroNDSシステムを開発し,フーリエ変換と信号予測をリアルタイムで実行した。
    • 消費電力はサブワットレベルであり,ニューロン当たりの推論エネルギーは1.64μJ(200Hz)または0.29μJ(10kHz)を実現した。
    • SRAMベースのデジタルシステムと比較して,面積を25〜40倍削減し,レイヤーごとの遅延を大幅に短縮した。

    Link: https://arxiv.org/abs/2606.16896

  • 意味の反転:頑健な拒否応答のための合成されたOOD生成(具現化された質問応答と空間的局所化) [cs.CL, cs.CV, cs.AI]目的:具現化された質問応答と空間的局所化における頑健な拒否応答のためのOOD(分布外)サンプル合成
    • 現実世界での具現化されたエージェントの信頼性向上には,回答不能な質問の検出が不可欠である。
    • 既存のビジョン言語モデルは,視覚的根拠がない場合でも過信した回答を生成する傾向がある。
    • 過信による誤情報や不適切な誘導を防ぐため,拒否応答の精度向上を目指す。
    • Semantic Flipは,追加のOODアノテーションなしに,補助的なOODサンプルを合成することで拒否応答を実現する。
    • クエリとビデオメモリを独立して変換することで,視覚的根拠の乏しいOODペアを生成し,拒否モジュールの学習に利用する。
    • SpaceRejectという新しい拒否応答ベンチマークにおいて,F1スコア0.9559を達成し,既存手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2606.16898

  • 驚異的な事前学習最適化手法とその探索 II:ハイパーボール最適化 [cs.LG]目的:言語モデル事前学習の高速化
    • 大規模言語モデルの性能向上には,効率的な事前学習が不可欠である。
    • 従来の最適化手法では,モデル規模が大きくなるにつれて性能向分が縮小する。
    • ハイパーボール最適化により,大規模モデルにおける性能低下を抑制する。
    • ハイパーボールは,Muonなどの最適化手法と組み合わせることで,トークンあたりの学習速度を20~30%向上させる。
    • ハイパーボールは,従来の重み減衰よりも学習率の転移性能を改善する。
    • 重み減衰による均衡状態の理論に基づき,角度学習率を制御することで性能向上を実現する。

    Link: https://arxiv.org/abs/2606.16899

  • 因子化ニューラル演算子による動的および持続的応答の分解 [cs.LG]目的:動的および持続的応答の分解
    • 物理現象の理解は科学技術の進歩に不可欠であり,高精度なモデリング手法が求められている。
    • 既存のニューラル演算子は単一の帰納的バイアスに依存し,異なる物理応答を分離できない場合がある。
    • 複数の物理応答を適切に分離し,解釈性と汎化性能を向上させることを目指す。
    • 因子化ニューラル演算子(FaNO)は,スペクトル表現を動的な応答と持続的な応答に分解する。
    • FaNOの2つの演算子分岐は,異なる物理的役割に自発的に特化し,スケールやドメイン間で一貫性を保つ。
    • FaNOは,予測精度,パラメータ効率,および物理システムおよびドメイン全体のクロススケール汎化を改善する。

    Link: https://arxiv.org/abs/2606.16900

  • 空間的QAとナビゲーションのための二分探索トラッキング [cs.RO, cs.AI]目的:空間的な質問応答とナビゲーションの達成
    • ロボットの自律的な行動において,環境理解と位置認識は不可欠である。
    • 実世界では,ネットワーク環境に依存するクローズドソースモデルの利用が困難な場合がある。
    • オンボードで動作可能なオープンソースの空間質問応答システムの開発が求められている。
    • 提案手法BinTrackは,ロボットの軌跡の時系列的な順序を利用することで,高精度な空間位置特定を実現した。
    • SpaceLocQAベンチマークにおいて,BinTrackは既存のオープンソース実装を最大22.8%上回り,GPT-4oに匹敵する性能を示した。
    • 最適化された推論戦略により,従来の先行研究よりも1.5倍以上の推論速度の向上を達成した。

    Link: https://arxiv.org/abs/2606.16902

  • IMPACTeen:十代のコミュニケーションにおける意図,操作,説得,注釈,結果のデータセット [cs.DB, cs.CL, cs.DC, cs.CL, cs.CL, cs.AI]目的:十代のコミュニケーションにおける社会的影響のシナリオに関するデータセット
    • 十代期は,社会的な影響を受けやすい時期であり,そのメカニズムの理解が重要である。
    • 社会的影響の検出は難しく,特に十代の複雑なコミュニケーションにおいては困難である。
    • 十代の社会的影響に関する高品質なデータセットの構築と評価手法の確立。
    • 本データセットは,ポーランド語と英語で提供され,多角的な注釈と評価を可能にする。
    • 異なる専門家(十代,保護者,心理学者など)からの注釈により,多面的な視点を提供している。
    • 社会的影響の検出,注釈者の意見の不一致,多言語モデリングなどの研究を支援する。

    Link: https://arxiv.org/abs/2606.16910

  • 欲深さは学習される:可視的なインセンティブが報酬ハッキングの引き金となる [cs.AI]目的:可視的な報酬チャンネルへの依存
    • AIエージェントの自律的な行動において,報酬指標の重要性が増しているため。
    • 報酬指標の最適化が,本来の目的と矛盾する行動を誘発する可能性がある。
    • 報酬指標への依存がAIの安全性に及ぼす影響を明らかにすること。
    • 報酬の可視化が,AIの安全性を損なう可能性が示された。
    • 報酬チャンネルへの依存は,モデルの規模や種類に関わらず再現される。
    • KPIやP&Lに基づくAIの最適化は,安全性において潜在的な危険性を持つ。

    Link: https://arxiv.org/abs/2606.16914

  • LLMの回路発見における分散の解明 [cs.RO, cs.LG, cs.AI]目的:LLMの回路発見における分散の原因究明
    • LLMの解釈可能性向上は,AIの安全性と信頼性確保に不可欠である。
    • 既存の回路発見手法は,結果のばらつきが大きく,安定性に課題がある。
    • 本研究は,回路発見における分散の原因を特定し,その軽減策を提案する。
    • 新たな回路発見手法CEAPは,既存手法EAP-IGよりもリサンプリング分散を大幅に低減できる。
    • プロンプトの言い換えによる分散は,異なるテンプレートが異なる回路を活性化するため発生する。
    • スパース性は,この問題を解決できない。LLMの本質的な制御の難しさを示唆する。

    Link: https://arxiv.org/abs/2606.16920

  • MA-SBI:サイドチャネルガイダンスによるモデル誤指定を考慮したシミュレーションベース推論 [cs.AI, stat.ML]目的:潜在パラメータの推論におけるモデル誤指定の影響軽減
    • シミュレーションベース推論は複雑なシステムを理解する上で不可欠だが,シミュレーターの不完全性が課題となる。
    • 既存手法は,正確なパラメータ校正ペアを必要とし,実用的な設定での適用が困難である。
    • サイドチャネル情報を用いて,パラメータ校正なしでモデル誤指定の影響を修正することを目指す。
    • 提案手法MA-SBIは,サイドチャネル情報を活用し,観測空間へのシフトを適用することで,シミュレーションベース推論の精度を向上させる。
    • MA-SBIは,テキスト情報のみで,既存の最先端手法RoPEと同等の性能を達成し,RoPEがより多くのデータが必要な状況で有効である。
    • 理論的にも,モデル誤指定とサイドチャネル間の相互情報によって達成可能なバイアス低減の上限が示されている。

    Link: https://arxiv.org/abs/2606.16923

  • RAID:真のコールドスタートとクロスリンガル予測のためのセマンティックグラフ拡散 [cs.NI, cs.DC, cs.OS, cs.PF, cs.AI]目的:真のコールドスタートとクロスリンガル予測における性能向上
    • 時系列データは経済や科学など幅広い分野で利用され,予測の重要性は高い。
    • 既存モデルは過去の観測データに依存するため,全く新しいアイテムの予測が困難。
    • メタデータを用いてセマンティックな情報を活用し,コールドスタート問題を解決する。
    • RAIDは,厳格なコールドスタート条件下で,既存のファウンデーションモデルやベースラインモデルを上回る予測精度を達成した。
    • 予測区間カバレッジも向上し,推論遅延を大幅に削減する非自己回帰デコーディングを実現した。
    • 共有セマンティック空間により,英語で学習したモデルが,直接的な監督なしで他の言語のアイテムにゼロショットで汎化可能となった。

    Link: https://arxiv.org/abs/2606.16925

  • 強化学習における分布シフトの統一的な因果起源分類 [eess.SY, cs.SY, cs.LG, cs.AI]目的:強化学習における分布シフトの因果起源の分類
    • 強化学習は現実世界への応用が期待されるが,環境変化に弱いという課題がある。
    • 分布シフトは,学習時と運用時の環境の違いや,環境の非定常性によって発生する。
    • 分布シフトの原因を明確化し,ロバスト性を分析するための枠組みを構築する。
    • 本研究では,強化学習における分布シフトを,状態分布,観測過程,方策,報酬,遷移ダイナミクスといった構造要素の変化として捉える。
    • 分布シフトを,エージェント駆動型と環境駆動型に分類し,時間的変化の観点から,明示的,暗黙的,およびハイブリッドなシフトを区別する。
    • これにより,分布内・分布外汎化と非定常性を,基盤となる過程における構造的な変化として統一的に理解できる。

    Link: https://arxiv.org/abs/2606.16933

  • コードインタプリタを用いた効果的な推論における外部的・内部的特性の探求 [cs.CL, cs.LG]目的:コードインタプリタを用いた推論における効果的な特性
    • 大規模言語モデルの推論能力向上に,実行可能な計算と反復検証が不可欠である。
    • コード推論における行動特性は十分に解明されていない。
    • 効果的なコード推論を可能にする特性を体系的に明らかにすること。
    • 優れたコード推論モデルは,重要なトークンや検証,バックトラッキングなどの認知行動をより多く示すことが明らかになった。
    • 推論時にコード固有の重要なトークンを追加することで,数学,順序付け,最適化などの推論能力が向上した。
    • 学習時にコード固有の認知行動を組み込むことで,いくつかのモデルにおいて教師あり微調整と強化学習の性能が向上し,誤った回答の過剰思考を抑制し,トークンの効率が改善された。

    Link: https://arxiv.org/abs/2606.16934

  • CrossMaps:信頼度を考慮したオープンボキャブラリセマンティックマッピングによるローバーナビゲーション [cs.RO, cs.AI, cs.LG]目的:ローバーナビゲーションのための信頼度を考慮したオープンボキャブラリセマンティックマップの構築
    • ローバーは,自律走行のために周囲環境の認識と地図作成が不可欠である。
    • 従来の地図作成手法では,センサーの品質やデータの信頼性を考慮することが困難であった。
    • 本研究は,センサーの信頼度を考慮したセマンティックマッピングによるローバーの自律ナビゲーションの実現を目指す。
    • CrossMapsは,RGB-Dデータから言語による問い合わせが可能なセマンティックマップをリアルタイムに構築するパイプラインである。
    • STMとLTMという二重メモリアーキテクチャにより,ノイズの多い観測データを幾何学的,セマンティック,時間的な信頼度に基づいて集約する。
    • 信頼性の高いセマンティックセルはLTMに保存され,持続的なランドマークとして機能し,自然言語による問い合わせに対応したローバーナビゲーションを可能にする。

    Link: https://arxiv.org/abs/2606.16935

  • 大規模言語モデルの解釈のためのスケーラブルな回路学習 [cs.LG, cs.AI]目的:大規模言語モデルにおける回路構造の解明
    • LLMの動作原理の理解は,その安全性と信頼性を高める上で不可欠である。
    • ニューロンの多義性が,学習された回路の解釈を困難にしている。
    • 高次元特徴量による計算コストを削減し,効率的な回路学習を実現する。
    • CircuitLassoは,既存の手法と同等の精度で回路構造を復元しつつ,計算コストを大幅に削減できる。
    • CircuitLassoは,SAE特徴量の関係性を効率的に明らかにし,人間が理解しやすい意味特徴の伝播を可視化する。
    • 学習された回路の知見を活用することで,ドメイン汎化タスクにおいて同等の性能をより低いコストで達成できる。

    Link: https://arxiv.org/abs/2606.16939

  • 人工知能における対立状況下における心の理論の因果モデル [cs.AI, cs.HC]目的:対立状況下における心の理論の関与を決定する状況およびエージェントレベルの条件
    • 人間と機械の有効な統合には,他者の精神状態を推論する心の理論が不可欠であると考えられている。
    • 既存のAI-心の理論モデルは,心の理論の「方法」に焦点を当てており,「いつ」関与すべきかという問題は未解決である。
    • この研究は,状況とエージェントレベルの条件に基づいて心の理論の関与を合理的に決定するフレームワークを提供する。
    • 提案された因果モデルは,状況とエージェントレベルの条件を考慮し,心の理論を常に作動する能力ではなく,状況に応じて活性化されるメカニズムとして扱う。
    • シミュレーションによる検証により,モデルがエピステミックな正確性を向上させ,行動政策から社会的な推論を分離できることが示された。
    • このフレームワークは,AIシステムに心の理論を利用するための効率的で信頼性の高い決定手順を提供し,対立状況下でのメンタライジングに関する倫理的な考慮事項も提示する。

    Link: https://arxiv.org/abs/2606.16944

  • ファントムと開示:合成データ監査のための因果的枠組み [cs.LG, cs.AI, stat.AP, stat.ME, stat.ML]目的:合成データにおける情報漏洩の検出と説明
    • 生成AIの発展により,プライバシー保護のため合成データ利用が増加している。
    • 合成データ生成時に,学習データ由来の個人情報が漏洩するリスクが存在する。
    • 厳密なプライバシー基準への適合性を検証し,情報漏洩の度合いを定量化する。
    • 本研究で提案する監査フレームワークは,モデルアクセスや参照モデルを必要とせず,合成データとホールドアウトデータのみで実施可能である。
    • 「真の開示」と「ファントム開示」を区別することで,より詳細な情報漏洩分析を実現する。
    • 提案手法は,既存のデータベース監査手法よりもタイトなプライバシー漏洩の下限を提供し,メンバーシップ推論攻撃としても機能する。

    Link: https://arxiv.org/abs/2606.16952

  • 暗黙ボラティリティサーフェスのためのハイブリッド畳み込み型VAE:仮想通貨市場における応用 [cs.LG, q-fin.CP]目的:仮想通貨の暗黙ボラティリティサーフェスをモデル化し,予測精度を向上させること。
    • 仮想通貨市場は価格変動が激しく,正確なリスク管理やデリバティブ取引にはボラティリティの把握が不可欠である。
    • 従来のボラティリティモデルは,複雑なサーフェス構造を捉えきれず,予測精度に課題が残されている。
    • 本研究では,VAEとサーフェスリフィッティングを組み合わせることで,予測精度の向上と安定化を目指す。
    • 畳み込み型VAEとサーフェスリフィッティングを組み合わせたハイブリッドモデルは,マスク率10-50%において0.94-1.56のRMSEを達成した。
    • ハイブリッド予測器は,単独のリフィッティングと比較して,50%マスキング時の予測誤差を8分の1に削減し,推論コストは増加しなかった。
    • BTCとETHの同時学習により,両市場におけるモデルの性能が9-27%向上し,共通のボラティリティサーフェス構造が示唆された。

    Link: https://arxiv.org/abs/2606.16961

  • ニューラル音声コーデックにおける低フレームレート劣化の探求 [cs.DM, math.CO, cs.SD, cs.AI, eess.AS]目的:ニューラル音声コーデックの低フレームレート劣化メカニズムの解明
    • 高音質な音声合成は,コミュニケーションにおいて不可欠であり,その効率化が求められている。
    • ニューラル音声コーデックにおける低フレームレート化は,計算コスト削減に繋がるが,品質劣化が課題となる。
    • 本研究は,低フレームレート劣化の原因を特定し,より効率的な音声合成の実現を目指す。
    • フレームレートを6.25Hzまで下げた際に品質が著しく低下することが確認された。
    • この劣化は,音素の衝突やコードブックの飽和が原因ではないことが示された。
    • 訓練時の固定クリップ長が問題であり,訓練設定を修正することで,より低いフレームレートでもスムーズな性能低下を達成できた。

    Link: https://arxiv.org/abs/2606.16969

  • レビューは実際にはどの程度貢献するのか?レコメンデーションのためのテキストを強化した行列分解の研究 [cs.IR, cs.RO, cs.SY, eess.SY, cs.IR, cs.AI]目的:レコメンデーションにおけるテキストの貢献度に関する検討
    • レコメンデーションは,ユーザーのニーズに合致する情報を提供し,情報過多の時代において重要である。
    • 従来のレコメンデーションは協調フィルタリングに依存しており,コンテンツ情報の活用が課題となっていた。
    • レビューテキストを活用することで,協調フィルタリングの精度向上を目指す。
    • レビューから得られた表現を組み込むことで,表現の柔軟性が向上することが示された。
    • しかし,適応的な融合メカニズムを用いても,テキスト情報の貢献度は協調フィルタリングに比べて限定的であった。
    • 評価設定下では,協調情報が依然としてパフォーマンスを支配しており,テキスト情報の統合には慎重な検討が必要である。

    Link: https://arxiv.org/abs/2606.16973

  • オープンサイエンスの受容:AI研究10年間の分析と5万6800件の会議論文 [cs.AI]目的:AI研究におけるドキュメント化の実践の変化
    • AI研究の信頼性向上は不可欠であり,再現性はその重要な指標となる。
    • AI研究における再現性の低さが問題視されており,方法論的な課題が指摘されている。
    • AI研究におけるドキュメント化の実践改善と再現性の向上を目指す。
    • 2014年から2024年にかけて,コードとデータを共有する論文が約6倍に増加した。
    • ドキュメント化の実践の改善は,再現性チェックリストの導入以前から始まっている。
    • ドキュメント化の実践の改善から,再現性が2014年の28%から2024年には64%に増加すると推定される。

    Link: https://arxiv.org/abs/2606.16974

  • タスクエラー残差学習による実ロボット5球ジャグリング [cs.RO, cs.LG, cs.SY, eess.SY]目的:実ロボットによる5球ジャグリングの実現
    • ロボットの運動制御において,複雑なタスクの学習は重要であり,効率的な学習手法が求められている。
    • 強化学習では,報酬信号の情報量が少なく,探索の効率も課題となっている。
    • タスクエラーを利用した残差学習と,効率的なサンプル選択により,これらの課題を解決することを目指す。
    • タスクエラーを教師信号として残差学習を行うことで,安定した3球,4球,5球ジャグリングを達成した。
    • シンプルな理想化されたスタックを通じた計画・制御により,2回目の試行で収束を実現した。
    • 方向性のあるフィードバックと,有益な事前情報が双方必要であり,固定ヤコビアンを用いたニュートン更新が最も信頼性が高かった。

    Link: https://arxiv.org/abs/2606.16978