arXiv雑要約

AI - 2026/06/17 公開

  • 音楽識別をニューラルな順伝播へ [cs.SD, cs.LG]目的:音楽識別における検索手法の変革
    • 情報検索はコンピュータ科学の基盤であり,多様な応用分野で不可欠である。
    • 従来の検索は計算コストが高く,特に短時間の音声識別では課題が残る。
    • 本研究は,ニューラルネットワークによる高速かつ正確な音楽識別を目指す。
    • 音楽識別を生成的なTransformerを用いて単一のニューラル順伝播で実現した。
    • 本手法は最先端の音響フィンガープリンティングを凌駕し,特に短い音声セグメントで顕著な改善を見せた。
    • 外部ストレージを大幅に削減し,推論速度を向上させ,未知の楽曲に対する拒否機能も備えた。

    Link: https://arxiv.org/abs/2606.17301

  • LLMにおける論理的推論の一貫性の定量化:構造的不確実性 [cs.AI]目的:LLMの論理的推論における一貫性の定量化
    • LLMの発展は目覚ましいが,その推論過程の信頼性評価は重要課題である。
    • 既存手法は出力のばらつきに焦点を当てており,推論経路の一貫性に着目した評価が不足している。
    • LLMの自己評価による推論経路の順位付けの安定性から一貫性を評価し,信頼性の高い推論を識別すること。
    • 構造的不確実性は,回答のばらつきに加えて,推論候補の順位付けの一貫性に関する情報を提供する。
    • 論理的・数学的推論タスクにおいて,構造的指標と回答のばらつきを組み合わせることで,信頼性の低い事例の識別精度が向上する。
    • 推論経路の一貫性評価は,タスクの種類によって有用性が異なり,ファクトに基づいた検索タスクでは指標が均一化される傾向がある。

    Link: https://arxiv.org/abs/2606.17312

  • Transformerに基づくウォームスタート:宇宙マニピュレータによる不安定物体の実現可能かつ最適な終端アプローチ [cs.RO, cs.AI, math.OC]目的:宇宙マニピュレータによる不安定物体の終端アプローチにおける,学習に基づくウォームスタートの適用
    • 軌道上ロボットサービスは宇宙開発の重要課題であり,リアルタイムな軌道生成が求められる。
    • 宇宙機の姿勢やマニピュレータの運動,視界制約などの非線形結合により,軌道生成は計算コストが高い。
    • 最適化計算の効率化と,よりロバストな終端誘導を実現することが本研究の目的である。
    • 提案手法では,Transformerを用いたウォームスタートにより,逐次凸計画法の計算回数を最大28%削減した。
    • ウォームスタートにより,逐次凸計画法の実行時間を最大23%短縮し,最終的な制御コスト分布を維持した。
    • 非凸な実現可能性投影においては,ウォームスタートはコスト最適化SCPと比較して実行時間をほぼ半減させた。

    Link: https://arxiv.org/abs/2606.17317

  • ProCUA-SFT技術報告 [cs.LG, cs.CV]目的:コンピュータ利用エージェントのファインチューニング用データセット
    • GUI操作エージェントは,自動化やアクセシビリティ向上に不可欠であり,その発展が求められている。
    • 既存の学習データセットは規模や多様性が不十分であり,汎化性能の課題があった。
    • 大規模かつ多様なデータセットを用いて,GUI操作エージェントの性能向上を目指す。
    • ProCUA-SFTは,310万ステップに及ぶファインチューニング用サンプルを含む大規模データセットである。
    • UI-TARS 7BをProCUA-SFTでファインチューニングした結果,OSWorldの成功率が45.0%に向上した。
    • 本データセットは,Nemotron 3 Nano Omniモデルのコンピュータ利用能力向上にも貢献した。

    Link: https://arxiv.org/abs/2606.17321

  • MemTrace:長期記憶において最終的な正答率が見落とすものを探る [cs.CY, cs.AI]目的:長期記憶における知識ポイントの挙動の評価
    • LLMエージェントの普及に伴い,ユーザー情報の長期記憶が重要になっている。
    • 既存の評価方法では,同じ事実に対する複数の質問間の関連性が考慮されない。
    • 知識ポイントの変化状況を詳細に把握し,記憶システムの改善に繋げる。
    • 従来の正答率集計では隠されていた記憶システムの異なる失敗パターンが明らかになった。
    • 事実の現在の状態や過去の状態を想起できることと,その変化を追跡できることは必ずしも一致しない。
    • 問題解決のボトルネックは,記憶の取得ではなく,取得可能な証拠の活用にあることが示唆された。

    Link: https://arxiv.org/abs/2606.17328

  • 不確実性下における決定駆動型ジオステアリング:逐次決定最適化のための統合フレームワーク [cs.LG]目的:不確実性下でのジオステアリングのための逐次決定最適化フレームワーク
    • 地下資源開発において,掘削経路の最適化は生産性向上に不可欠である。
    • 地質構造が未知であるため,掘削中の経路決定は困難を伴う。
    • 不確実性を考慮した決定支援システムにより,掘削の効率と精度を向上させる。
    • 本研究では,粒子フィルタと強化学習を統合したジオステアリングフレームワークを提案した。
    • 提案手法は,近似動的計画法,深層Q学習,デュアル深層強化学習の性能を比較検証した結果,安定性と経路の滑らかさにおいて良好な結果を示した。
    • 産業用ジオステアリングシミュレータを用いた検証により,現実的な条件下での有効性が確認された。

    Link: https://arxiv.org/abs/2606.17331

  • SpeechDx:臨床音声AIのためのマルチタスクベンチマーク [cs.AI, cs.CL, cs.SD]目的:臨床音声AIの評価基準
    • 音声は神経系,運動系,呼吸系,声帯系が複合的に関わるため,健康状態の重要な指標となる。
    • 既存の研究は疾患ごとに孤立しており,結果の比較や汎化性能の評価が困難である。
    • 多様な健康状態における臨床音声AIの汎化性能を評価するための共通基盤を提供する。
    • SpeechDxは12のデータセットと27のタスクを包含する大規模ベンチマークである。
    • 大規模な音声モデルが全体として最も強力なベースラインであり,ドメイン特化型モデルは類似タスクでのみ性能が向上する。
    • 現在の表現学習は臨床音声の多様な状況において,信頼性の高い汎化性能を示さない。

    Link: https://arxiv.org/abs/2606.17339

  • 画像誘導ナビゲーションのための幾何学的整合性内視鏡表現:構造化された基盤モデル適応 [cs.CV, cs.AI]目的:単眼内視鏡画像のための幾何学的整合性,ドメインロバストな画像表現の学習
    • 内視鏡検査は低侵襲であるため,臨床現場で広く用いられている。正確なナビゲーションが重要である。
    • 単眼内視鏡では,奥行き情報が限られ,組織の質感や変形,ドメイン間での外観変化により,正確なナビゲーションが困難である。
    • 学習された表現の幾何学的整合性を高め,安定した特徴量の一致と信頼性を向上させ,ナビゲーションタスクの性能を改善すること。
    • 本研究では,幾何学的な教師データと階層認識幾何・意味適応という構造化されたLoRA代替手法を組み合わせることで,幾何学的整合性とドメインロバスト性を備えた画像表現の学習を可能にした。
    • 実験結果から,提案手法は幾何学的および意味的な表現の質を向上させ,ポーズ推定や単眼深度推定などのナビゲーションタスクにおいて優れた性能を示したことが示された。
    • また,臨床気管支鏡検査から他の内視鏡検査への良好な転移学習が可能であり,限られた教師データ下での適応にも有効であることが確認された。

    Link: https://arxiv.org/abs/2606.17340

  • 野球の投球順序の反事実的最適化とシーズンレベル統計への影響の推定 [cs.LG, cs.AI]目的:野球の投球順序最適化
    • 野球アナリティクスにおいて投球順序は重要なテーマであり,選手の能力を最大限に引き出す鍵となる。
    • 従来の分析は最後の投球に焦点を当てており,前の投球が長期的な成績に与える影響が十分に解明されていない。
    • 本研究は,投球順序を最適化することで,シーズンレベルの成績向上を目指す。
    • 最終投球と前の投球を置き換える反事実的な投球順序を生成し,その効果を分析した。
    • 最適な投球順序選択は,インプレーの確率を最小化すると定義され,回帰モデルを用いてシーズン統計への影響を推定した。
    • 最終投球と前の投球の最適化がシーズンレベルの成績に大きく影響し,K/9が1.0以上向上する可能性があることが示された。

    Link: https://arxiv.org/abs/2606.17345

  • 大規模言語モデルは常に同じ物語を語るのか [eess.SY, cs.SY, cs.CL, cs.AI]目的:大規模言語モデル生成物語の多様性
    • 自然言語処理技術の発展に伴い,大規模言語モデルの応用範囲が拡大している。
    • 大規模言語モデルが生成する物語の多様性が十分でないという問題がある。
    • 大規模言語モデル生成物語の類似性を評価し,多様性の問題を解決する。
    • 大規模言語モデルが生成する物語は,人間が書いた物語よりも互いに類似している傾向があることが明らかになった。
    • 特に高性能なモデルは,個々の人間が書いた物語に近似する「平均的」な物語に収束する。
    • 負のプロンプトや温度スケーリングなどの一般的な緩和策は,この均質性を改善する効果が低い。

    Link: https://arxiv.org/abs/2606.17350

  • MM++:上位Kゲート付き特徴量融合による不変尺度多層OOD検出 [cs.LG, cs.CV]目的:分布外(OOD)検出のための不変尺度多層フレームワーク
    • 機械学習モデルの信頼性確保は重要であり,未知の入力に対する堅牢性が不可欠である。
    • 既存のOOD検出手法は,スケーラビリティと表現力のバランスが課題であった。
    • 層間の相関を捉えつつ,初期層のノイズを軽減し,信頼性の高いOOD検出を実現すること。
    • MM++は,補助的なOODデータやモデルの微調整を必要としない,完全に教師なしのアプローチである。
    • エントロピー密度低下を測定することで,識別的な中間層を特定し,層を融合させることで,潜在的な層間相関を捉える。
    • Ledoit-Wolf正則化されたタイド共分散行列によって統一された空間を安定化させ,距離推定の信頼性を高める。

    Link: https://arxiv.org/abs/2606.17352

  • 翻訳不可能の翻訳:翻訳不可能性に対する運用可能なオントロジー [cs.CL, cs.AI]目的:翻訳不可能性のオントロジーと補償戦略
    • 機械翻訳の限界を克服するためには,翻訳不可能性の理解が不可欠である。
    • 既存の機械翻訳システムは,標準的なベンチマークでは高い性能を示す一方で,翻訳不可能な事例で課題を抱えている。
    • 翻訳不可能性の構造を明確化し,それに対応する翻訳戦略を分析・モデル化すること。
    • 翻訳不可能性のオントロジーと補償戦略の分類を構築した。
    • 翻訳不可能な文と戦略に基づいた翻訳の多言語データセットを構築した。
    • 人間による評価実験の結果,説明的な文脈を含む翻訳が好まれる傾向が見られた。

    Link: https://arxiv.org/abs/2606.17354

  • DriveJudge:ビジョン言語モデルによる自動運転評価の再考 [cs.CY, cs.CV, cs.AI, cs.LG, cs.RO]目的:自動運転の評価手法
    • 自動運転技術の発展において,安全性の確保と品質の評価は不可欠である。
    • 既存の評価指標は,文脈を考慮できないか,解釈が曖昧であるという課題がある。
    • 文脈を考慮しつつ解釈可能な自動運転評価手法を確立すること。
    • DriveJudgeは,ルールに基づいた評価とビジョン言語モデルの推論を組み合わせることで,文脈に応じた評価を可能にした。
    • 大規模なデータセットを用いて学習した結果,従来の評価指標や既存のVLMベースの手法を上回る性能を示した。
    • DriveJudgeは,自動運転評価における新たな基準を確立し,より安全で信頼性の高い自動運転システムの開発に貢献する。

    Link: https://arxiv.org/abs/2606.17362

  • 分散型汎用エージェントネットワーク:アーキテクチャ,主要メカニズム,プロトタイプ [cs.CY, cs.AI, cs.NI]目的:分散型汎用エージェントネットワークの実現可能性と基盤技術
    • AIエージェントの自律性の向上は,社会における課題解決の加速に不可欠である。
    • 単一エージェントは,データ,権限,環境に制約を受け,複雑なタスクに対応できない。
    • 複数のエージェントが連携し,信頼性を確保しながら自律的にタスクを実行する仕組みの構築。
    • 本研究では,意図,能力,状態などの意味的宣言を伝播する分散型エージェントネットワークのアーキテクチャを提案した。
    • 協調者発見,信頼性担保,タスク実行のための主要メカニズムとして,ゴシッププロトコル,BAID,MG-EigenTrustを組み合わせた。
    • プロトタイプによる検証とシミュレーションにより,提案手法の有効性とスケーラビリティを示唆する結果が得られた。

    Link: https://arxiv.org/abs/2606.17368

  • 参照コミュニケーションにおけるLVLMに対する暗黙的対明示的なプロンプティング戦略 [cs.CL, cs.AI]目的:参照コミュニケーションにおけるLVLMのプロンプティング戦略の影響
    • 視覚言語モデル(LVLM)は,人間とAI間のコミュニケーションにおいて重要な役割を担う。
    • LVLMは効率的な指示表現を自律的に学習することが困難である。
    • LVLMにおける効率的なコミュニケーション能力の向上を目指す。
    • 明示的なプロンプティングを用いることで,モデルは効率的な指示表現を協調して生成可能となることが確認された。
    • 暗黙的なプロンプティングでは,モデルはコミュニケーションの効率性を推論できず,効率的な表現に失敗する。
    • この結果は,人間とAIシステム間のコミュニケーションにおける重要な差異を示唆する。

    Link: https://arxiv.org/abs/2606.17372

  • マルチタイムスケール学習による性能重視の環境抽象化 [cs.LG, cs.SY, eess.SY]目的:大規模マルコフ決定過程における意思決定のための性能重視の環境抽象化
    • 複雑な環境下での効率的な意思決定は,ロボティクスやゲームAIなど広範な分野で重要である。
    • 状態空間が巨大な場合,効率的な学習や計画が困難となるという課題が存在する。
    • 状態空間を抽象化することで,計算量を削減し,より迅速な意思決定を可能にすることを目指す。
    • 提案手法は,状態空間を凝集することで環境の抽象化を行い,行動分布を共有することで近似精度を保証する。
    • マルチタイムスケール強化学習フレームワークを用いることで,方策と環境抽象化を同時に最適化する。
    • 実験結果から,状態圧縮,サンプル効率の向上,および再計画の高速化が示された。

    Link: https://arxiv.org/abs/2606.17377

  • MeiBRD: 手術中肝臓の生体機械的残留変形に対するメタ学習 [cs.DC, cs.CV, cs.AI, eess.IV]目的:手術中肝臓登録における残留変形関数学習
    • 手術中の正確な臓器登録は,治療計画や手術ナビゲーションにおいて不可欠である。
    • 軟部組織の大きな変形と,手術中の計測点の少なさにより,正確な登録が困難である。
    • 生体機械モデルの予測バイアスを修正し,データ効率と物理的妥当性を高める。
    • 提案手法は,疎な手術中データを用いて生体機械モデルを適応させるハイブリッド登録フレームワークである。
    • 残留変形関数をグラフニューラル拡散関数としてモデル化し,3D肝臓メッシュ上でジオメトリを考慮したアテンションを用いる。
    • 実験結果から,提案手法は剛体,生体機械,データ駆動型ベースラインと比較して,登録精度と汎化性能が向上することが示された。

    Link: https://arxiv.org/abs/2606.17379

  • TerraTransfer: 専門家のデモンストレーションなしでエンドツーエンドの運転ポリシーを学習 [cs.RO, cs.CV, cs.AI, cs.RO]目的:専門家のデモンストレーションを必要としないエンドツーエンド運転ポリシーの学習
    • 自動運転技術は,交通安全の向上や移動の効率化に不可欠であり,社会実装が期待されている。
    • 従来の自動運転システムの学習には,膨大な量のラベル付きデータが必要であり,コストと時間がかかる。
    • 自己対戦による学習と,事前学習済みの視覚バックボーンとの潜在空間のアラインメントにより,この課題を克服する。
    • 自己対戦によって学習したポリシーと,事前学習済みの視覚バックボーンを組み合わせることで,効率的な学習が可能となった。
    • この手法は,既存のエンドツーエンド手法と同等またはそれ以上の性能を,フォトリアリスティックな3D Gaussian splatting環境で実現した。
    • 専門家のデモンストレーションに依存しないため,データ収集コストを大幅に削減できる。

    Link: https://arxiv.org/abs/2606.17386

  • 視覚は欺き,一貫性が語る:ビジョン言語モデルにおける空間的注意と信頼性の分離 [cs.RO, cs.CG, cs.SY, eess.SY, cs.CV, cs.AI, cs.CL, cs.LG]目的:ビジョン言語モデルにおける信頼性の予測メカニズムの解明
    • 大規模言語モデルの応用拡大に伴い,モデルの信頼性評価が重要課題となっている。
    • 視覚的注意の集中が信頼性の指標となるという通念に対し,疑問が呈されている。
    • 視覚的注意と信頼性の関係を検証し,信頼性をより正確に予測する方法を提示する。
    • モデルは初期の視覚特徴にロックインした後,注意を拡散させる「記号的分離」を示す。
    • 空間的注意と正答率はほぼ相関がなく,信頼性は生成ダイナミクスと内部状態分布に依存する。
    • 自己整合性(推論経路間の合意率)が真実性の最も有力な予測因子(R = 0.429)である。

    Link: https://arxiv.org/abs/2606.17389

  • ナラティブワールドベンチ:フロンティア飽和ベンチマークと長期的共同オーディオドラマのための潜在的ワールドモデル [cs.CE, cs.CL, cs.AI, cs.LG]目的:長編オーディオドラマにおける大規模言語モデルの性能評価と,一貫性のあるストーリー展開を可能にする潜在的ワールドモデルの開発
    • オーディオドラマは重要な創作メディアであり,物語の構造理解が求められる。
    • 既存の大規模言語モデルは,長編の物語を生成する際に一貫性を保てない。
    • 本研究は,長期的ストーリーの一貫性を高め,より自然な物語生成を目指す。
    • NarrativeWorldBenchは,物語構造の9つの指標を多言語(4つのインド言語を含む)で評価するベンチマークである。
    • N-VSSMは,Mamba-2を基盤とし,256次元の潜在的ワールドステートを維持することで,既存モデルよりも高い性能を実現した。
    • 作家による評価実験では,N-VSSMは長編の一貫性においてClaude Opus 4.5よりも好まれる傾向が示された。

    Link: https://arxiv.org/abs/2606.17391

  • 構造材料における損傷への適応:数秒単位での実現 [cs.RO, cs.LG]目的:構造材料における損傷への適応手法
    • ロボットの自律性は重要であり,長期間運用には損傷への対応が不可欠である。
    • 既存手法では,想定外の損傷や複雑な状況への対応が困難である。
    • 未知の損傷に対しても,リアルタイムで適応可能な手法を開発する。
    • 提案手法LEAPは,ソフトアクチュエータシステムの深刻な損傷に1分以内に適応可能である。
    • 損傷表現とシンプルなアンサンブル手法により,リアルタイムでの適応を実現した。
    • 構造材料においては,学習に必要なサンプル数が線形に減少するという利点がある。

    Link: https://arxiv.org/abs/2606.17394

  • AI 強化バイナリ逆アセンブルに関する知識の体系化 [cs.CR, cs.AI, cs.SE]目的:AI 強化バイナリ逆アセンブルに関する知識の体系化
    • ソフトウェア理解,脆弱性発見,マルウェア解析など,情報セキュリティ分野において基盤技術である。
    • コンパイル過程で意味情報が失われ,解析が困難であるという課題が存在する。
    • AI 技術を用いて,バイナリ逆アセンブルの効率化と精度向上を目指す。
    • 本研究では,2015年以降に発表された144件の論文を分析し,AI強化バイナリ逆アセンブルの分野を体系的に整理した。
    • 従来の解析技術,バイナリから得られる成果物,表現戦略,学習パラダイムなどを統合的に捉える分類体系を提示した。
    • この研究は,多様なアプローチの共通構造を明らかにし,今後の研究の方向性を示唆する基盤となる。

    Link: https://arxiv.org/abs/2606.17398

  • 離散対数時計:Transformerがどのようにモジュラ乗算を学習するか [cs.LG, cs.AI]目的:Transformerがモジュラ乗算を学習する際の埋め込み表現の構造
    • Transformerは様々なタスクで優れた性能を示すが,その内部動作の解釈は困難である。
    • モジュラ乗算を学習したTransformerの埋め込み表現は,従来の解析方法では解釈が難しい高密度な周波数スペクトルを示す。
    • 適切な解析基底を用いることで,Transformerの学習表現の解釈可能性を高める。
    • モジュラ乗算を学習したTransformerの埋め込み表現を,乗法的な特徴変換を用いて解析した結果,スペクトルが大幅に疎になった。
    • 96.9%のMLPニューロンが単一の乗法的周波数に明確に同調しており,離散対数によって並べ替えたニューロン活性化マップには2次元周期構造が見られた。
    • この結果は,Transformerが乗算を離散対数空間における加算に還元し,「離散対数時計」アルゴリズムを実装していることを示唆する。

    Link: https://arxiv.org/abs/2606.17399

  • 災害評価のための空間的・周波数的視点の統合:利点と限界 [cs.CV, cs.AI]目的:衛星画像による建物被害の多クラス分類手法の比較
    • 災害対応と復旧には,迅速な建物被害評価が不可欠である。
    • 深層学習は被害評価に活用されるが,空間領域の特徴量に偏りがちである。
    • 周波数領域の特徴量と空間領域の特徴量を統合し,より精度の高い被害評価を目指す。
    • 周波数と空間の両領域を用いたモデルが,単一領域のモデルよりも明確な性能向上を示した。
    • 空間領域のみのモデルは,マクロF1スコアで最も良い結果を示し,クラス間のバランスが取れていた。
    • 周波数領域のみのモデルは過学習を起こし,汎化性能が低いことが示唆された。

    Link: https://arxiv.org/abs/2606.17403

  • 治療反応最適化臨床意思決定支援AIシステム:デジタルツインシミュレーションによる構築 [cs.AI]目的:治療反応の最適化
    • 臨床現場での迅速かつ的確な意思決定が求められる中,AIによる支援の重要性が増している。
    • 既存のAIシステムは,患者の状態変化への適応性や安全性確保に課題が残されている。
    • 患者の状態をシミュレーションし,安全性を担保しつつ最適な治療方針を提案すること。
    • 本研究では,治療効果推定,デジタルツイン,強化学習を統合したオンライン適応型フレームワークを提案した。
    • シミュレーションおよび実際の卵巣がんデータセットを用いた検証の結果,既存手法よりも有効性と安定性に優れていることが示された。
    • 提案システムは低遅延で動作し,専門家の相談が必要となるケースも少数であり,臨床利用の可能性を示唆している。

    Link: https://arxiv.org/abs/2606.17405

  • マルチ特徴集約による半教師あり画像分類のためのグラフニューラルネットワーク [cs.CV, cs.AI]目的:多様な特徴抽出器から得られる特徴とグラフ表現を統合することによる,半教師あり画像分類におけるグラフニューラルネットワークの性能向上
    • 画像認識の精度向上には,画像の特徴抽出が不可欠であり,深層学習技術が広く用いられている。
    • 既存の特徴抽出器はそれぞれ異なる特徴を捉えるため,単一の抽出器では限界がある場合がある。
    • 複数の特徴抽出器からの情報を統合することで,よりロバストで高精度な画像分類を目指す。
    • 多様な特徴とグラフ表現を統合することで,半教師あり画像分類の精度が大幅に向上することが示された。
    • 特に,多様な特徴抽出器の組み合わせと,多様体学習を用いたグラフ処理が有効であることが確認された。
    • 特徴のランキング集約を用いることで,異なる抽出器からの特徴を効果的に統合し,分類精度を向上させることができた。

    Link: https://arxiv.org/abs/2606.17406

  • 行動生成はどこから始めるべきか? 生成ロボットポリシーのための学習可能な事前分布 [cs.RO, cs.CV, cs.LG]目的:生成ロボットポリシーにおける行動生成の開始点の学習
    • ロボットの自律行動を実現するには,多様で柔軟な行動生成が不可欠である。
    • 既存手法では,行動生成の初期分布が標準ガウス分布に固定されており,柔軟性に欠ける。
    • ロボットの状態に応じた適切な事前分布を学習することで,行動生成の効率と性能を向上させる。
    • 提案手法LeaPは,ロボット自身の内部状態に基づいて行動の初期分布を学習する。
    • LeaPは15のロボット操作タスクにおいて,既存手法を6.5~25.5%上回る成功率81.6%を達成した。
    • LeaPは,フローマッチングや拡散ブリッジといった様々な生成モデルで性能向上を示し,実機でも同様の効果が確認された。

    Link: https://arxiv.org/abs/2606.17408

  • 生成機構合成のための離散自己回帰トランスフォーマー [cs.LG, cs.AI]目的:機構合成における,指定された軌跡に合致する機構の探索
    • 機構設計は,ロボット工学や精密機器など,様々な分野で不可欠な技術である。
    • 平面経路合成において,曲線からリンク機構へのマッピングは一対多の関係であり,設計が困難である。
    • 本研究は,自己回帰モデルを用いて,多様で精度の高い機構を効率的に生成することを目指す。
    • 提示手法は,100万を超える機構のデータセットを用いて評価され,Chamfer距離と動的時間伸縮率が報告された。
    • トランスフォーマーモデルとVAEを組み合わせることで,多様な機構タイプを生成し,高精度な結果が得られた。
    • 保持された上位5つの候補機構は,幾何学的な誤差が小さく,データセット検索を必要としない。

    Link: https://arxiv.org/abs/2606.17409

  • 病理画像のクロススケール推論によるVLMsの性能向上 [cs.SI, cs.CV, cs.AI]目的:病理画像のクロススケール推論タスクにおけるVLMsの性能向上
    • 病理診断は,組織全体の構造から細胞レベルの形態まで,多様なスケールでの情報統合が不可欠である。
    • 既存の病理画像データセットは,クロススケール推論を明示的に目的としないため,十分な表現を獲得できない。
    • 本研究は,クロススケール推論を可能にする高品質なベンチマークと学習方法を確立し,病理画像の理解を深める。
    • クロススケール推論のための新しい学習・評価パラダイムを提案し,病理画像解釈をマルチマグニフィケーション推論として定式化した。
    • テキストのみの手がかりによる不正解を防ぐための,敵対的スクリーニングと制約に基づく質問設計を含む漏洩対策パイプラインを開発した。
    • 提案手法ScaleReasoner-R1は,クロススケール推論ベンチマークで最先端の性能を示し,既存のシングルスケールベンチマークでも高い性能を発揮した。

    Link: https://arxiv.org/abs/2606.17412

  • 深層学習とラプラス近似および正規化フローを用いたOCO-2スペクトルの大気CO2の償却型確率的検索 [cs.LG, stat.AP]目的:OCO-2スペクトルからの大気CO2の確率的検索手法の開発
    • 地球規模の炭素循環を理解する上で,大気中のCO2を宇宙から監視することは不可欠である。
    • 既存のCO2濃度算出アルゴリズムは計算コストが高く,不確実性の定量化が不十分である。
    • 深層学習を用いて,高速かつ高精度なCO2濃度算出と不確実性評価を実現することを目指す。
    • 深層学習フレームワークは,従来の物理モデルベースの手法と比較して,推論速度が大幅に向上した。
    • シミュレーションデータを用いた学習により,モデル誤差に対するロバスト性が向上し,系統誤差を考慮した算出が可能となった。
    • 正規化フローを用いることで,非ガウス型の複雑な事後分布を正確にモデル化し,不確実性評価の精度を改善した。

    Link: https://arxiv.org/abs/2606.17413

  • 敵対的宇宙空間近接運用における適応安全制御のためのメモリ効率メタ強化学習 [cs.LG, math.DS]目的:自律宇宙船のランデブーおよび近接運用における安全性を保証し,燃料消費を最小化する制御手法の確立
    • 宇宙空間での自律運用は重要性が増しており,安全性を確保しつつ効率的な制御が求められている
    • 従来の制御手法では,複雑な環境や予期せぬ事態への対応が難しく,安全性が脅かされる可能性がある
    • メタ強化学習を用いて,入力制約付き制御バリア関数を最適化し,安全性を高める制御手法を開発すること
    • MambaとPPOの組み合わせが,協調的および敵対的シナリオの両方で,タスク完了,安全性,燃料節約において他のアーキテクチャを上回る性能を示した。
    • 敵対的なターゲット宇宙船の行動下でも,提案手法は安全性を維持し,効果的な制御を実現することが確認された。
    • 状態空間モデルであるMambaは,RNNモデルよりも優れた性能を発揮し,メタ強化学習における有効性が示された。

    Link: https://arxiv.org/abs/2606.17414

  • 多言語話者検証のための言語認識型エピソード原型学習 [cs.SD, cs.AI]目的:多言語話者検証における性能向上
    • グローバル化が進み,多言語話者識別技術の需要が高まっているから。
    • 言語に依存した音響変動が,話者特徴と混同され,汎化性能を低下させている。
    • 言語情報を考慮した学習により,話者特徴の分離と識別精度の向上を目指す。
    • 提案手法L-Protoは,言語一貫性のあるエピソードを構築することで,言語依存性を低減。
    • 実験結果から,L-Protoは従来のファインチューニングやランダムサンプリングと比較して,複数のバックボーンアーキテクチャにおいて一貫した性能向上を示した。
    • 話者埋め込みが,言語特徴ではなく話者固有の情報に集中するように学習を促進。

    Link: https://arxiv.org/abs/2606.17416

  • 大規模音声言語モデルにおける時間理解の失敗モードの詳細な分析 [cs.SD, cs.LG]目的:大規模音声言語モデルの時間理解における失敗原因のメカニズム解明
    • 聴覚認識において時間的な理解は不可欠であり,人間知覚の根幹をなす重要な能力である。
    • 既存のベンチマークは性能差を示すのみで,失敗の根本原因の特定が困難である。
    • メカニズム分析に特化したベンチマークを用いて,時間理解の失敗原因を特定し,改善策を検討する。
    • モデルは,テキスト情報が利用可能な場合,音声情報を十分に活用していない傾向が見られた。
    • 注意機構の重み付けの再分配が,音声への注意の増加よりも効果的であることが示された。
    • ボトルネック層における注意機構のスケール調整により,ファインチューニングなしで精度が向上した。

    Link: https://arxiv.org/abs/2606.17417

  • ソボレフ空間における多入力ニューラル演算子の一般化保証 [cs.RO, cs.LG, cs.NA, math.NA]目的:多入力ニューラル演算子の近似および一般化誤差の評価
    • 偏微分方程式や科学計算において,演算子学習は重要な役割を担う。
    • 複数の入力関数を扱う演算子学習の理論的保証は十分ではない。
    • 異なる次元とソボレフ正則性を持つ多入力関数に対する誤差評価を行う。
    • 提案手法では,各入力空間が最終的な誤差限界に与える影響を定量的に評価できる。
    • 平衡状態では,近似および一般化率は入力次元,正則性,ソボレフ秩序間の相互作用によって決定される。
    • モデルの複雑さへの依存性は,\(\log\log/\log\)型構造を維持している。

    Link: https://arxiv.org/abs/2606.17419

  • 時間系列移動標的防御における形態層:時間的モルフェンス学習者のための層固有の摂動 [cs.LG]目的:時間系列予測モデルに対する勾配ベースの敵対的攻撃に対する防御戦略の開発
    • 時間系列予測は,電力系統,気象予測など,様々な分野で重要な役割を担っている。
    • 既存の防御メカニズムは,堅牢性と計算コストのトレードオフに悩まされている。
    • 複数のランダム化モデルインスタンスを維持する移動標的防御における訓練オーバーヘッドの増大を抑制する。
    • 提案手法MorphStrataは,既存手法と比較して,同等の敵対的RMSEを維持しながら,訓練時間の増加を1%未満に抑える。
    • 特に周期的なデータセット(AEPデータ)において,MorphStrataはFGSMおよびBIM攻撃下で,ベースラインよりも最大で24.11%および97.97%のRMSE改善を達成する。
    • 生成された学習者間のL2距離と防御効果の間には正の相関関係が認められる。

    Link: https://arxiv.org/abs/2606.17435

  • 心エコー動画の標準ビュー分類のための時空間融合モデル [cs.CV, cs.AI]目的:心エコー動画の標準ビュー分類
    • 心エコーは非侵襲的な心臓評価として不可欠であり,迅速かつ正確な診断を支援する。
    • 心エコー動画の標準ビュー分類は,データセットの不足や類似性の高いビューの識別困難さから課題が多い。
    • 本研究は,大規模データセットと時空間融合モデルにより,心エコー動画の正確なビュー分類を可能とする。
    • 大規模心エコー動画データセットEV9Vを公開し,最新のビデオ分類アーキテクチャのベンチマークを実施した。
    • 提案する時空間融合モデルSTFMは,空間的構造と時間的動態を効率的に捉え,フレーム品質の変動に対するロバスト性を向上させた。
    • 実験結果から,STFMは様々なビデオ分類モデルにおいて競争力のある性能を示し,不確実性に基づいた時空間学習の有効性が確認された。

    Link: https://arxiv.org/abs/2606.17437

  • 患者の個性:制御された多様性と選択的な情報開示によるリアルな患者シミュレーション [cs.HC, cs.AI, cs.CY]目的:臨床応用における大規模なLLMテストのためのリアルな患者インタラクションのシミュレーション
    • LLMの臨床応用には,現実的な患者とのやり取りを大規模に検証する必要がある
    • 既存のシミュレーションは現実味に欠け,制御が難しく,患者の多様な行動を捉えきれない
    • HEXACOに基づき,患者の性格特性をパラメータ化することで,よりリアルで制御可能なシミュレーションを実現する
    • 提案手法PWPは,臨床医の評価において,人間の俳優とほぼ同等のリアリティを有し,既存のシミュレーターを上回った
    • PWPは,HEXACO軸に基づいて設定された性格特性が,臨床医と自動評価者によって再現可能であることが示された
    • PWPは,情報過多の問題を軽減し,より正確なLLMベンチマーキングを可能にする

    Link: https://arxiv.org/abs/2606.17441

  • LLM推薦システムにおける優位性:ブランドバイアスと認知操作の力学 [cs.AI, cs.CL, cs.CY]目的:LLM推薦システムにおけるブランド競争の力学
    • LLMが検索手段として普及する中で,ブランド競争が新たな様相を見せている。
    • LLMの推薦において,ブランドの知名度が過度に影響し,公正な競争が阻害される可能性がある。
    • LLM推薦におけるブランドバイアスと,それに対する最適化戦略の影響を明らかにすること。
    • LLMは,製品仕様が同じであれば有名ブランドを100%推薦する傾向があり,わずかな評価差で優位性が失われる。
    • 権威的なマーケティング表現や虚偽の臨床試験データは,この独占状態を打破し,ブランドバイアスに影響を与える。
    • 全てのブランドが同じ最適化戦略を採用すると,個々の利益が減少し,非参加ブランドは推薦されないという社会的ジレンマが生じる。

    Link: https://arxiv.org/abs/2606.17443

  • 大規模自己回帰事前学習による制御可能な触媒逆設計への道 [cs.LG, cond-mat.mtrl-sci, physics.chem-ph]目的:触媒の逆設計手法
    • 触媒は化学反応を促進する上で不可欠であり,高性能な触媒開発は産業界や学術界で重要な課題である。
    • 従来の触媒探索は,広大な化学空間と複雑な表面構造・吸着剤相互作用により,効率的な探索が困難である。
    • 大規模事前学習と明示的な特性条件付けにより,制御可能な触媒生成と触媒探索の加速を目指す。
    • 生成モデルは,98%の構造的妥当性,95%の最適化妥当性,高いカテゴリカル条件忠実度を達成した。
    • 結合エネルギー条件付けにおいて,ベースライン分布の4倍にあたる約20%の一致率を達成し,生成分布が目標値へ系統的にシフトした。
    • これにより,追加のファインチューニングなしで,反応標的触媒探索のスクリーニング効率が1.5〜4倍に向上した。

    Link: https://arxiv.org/abs/2606.17445

  • MODE-RAG:多様体外れ値診断とエネルギーベースの検索拡張生成評価 [cs.CL, cs.AI, cs.CV, cs.LG, cs.MM]目的:マルチモーダル検索拡張生成におけるハルシネーションの定量化と軽減
    • 大規模ビジョン言語モデルの性能向上に不可欠であり,知識獲得や推論能力の限界を克服する。
    • クロスモーダルなハルシネーション,因果関係の誤り,迎合的応答が問題となっており,信頼性を損なう。
    • 動的な介入ゲート機構により,ハルシネーションを抑制し,マルチモーダル推論の頑健性を高める。
    • 提案手法MODE-RAGは,Variational Free Energyと内部注意状態に基づき,リスクの高いクエリに対して多段階のエージェントシステムを適用する。
    • MODE-RAGは,モンテカルロ木探索とロジット摂動を用いることで,ハルシネーション率と論理的誤りを効果的に削減する。
    • 新たに構築した評価データセットModeVentを用いた実験により,M-RAGシステムのロバスト性が大幅に向上することが示された。

    Link: https://arxiv.org/abs/2606.17449

  • 機械学習による併存症指数 [cs.AI]目的:併存症を評価するための機械学習に基づく指標の開発
    • 患者の病態を正確に把握し,医療資源の適切な配分に不可欠である。
    • 従来の指数は死亡率に偏っており,他の臨床指標との関連性が低い。
    • 非線形なリスク関係を捉え,多様な臨床指標に対応できる指標を開発する。
    • 機械学習により,診断コードから臨床指標との関連性を最大化する併存症指数を構築した。
    • この指数は,従来の指数よりも複数の評価指標において優れた性能を示した。
    • 指標の理論的根拠として,アウトカム横断的な患者順位付けの実現可能性を明らかにした。

    Link: https://arxiv.org/abs/2606.17450

  • 自動運転車の法的責任に関する信頼度加重価格設定:運用設計領域の変化下 [cs.LG, cs.RO]目的:自動運転車の法的責任に関する価格設定メカニズム
    • 自動運転技術の普及に伴い,保険料率の設定が重要な課題となっている。
    • 十分な事故データが存在せず,運用環境やソフトウェアの更新に伴いリスクが変化する。
    • 運用設計領域の類似性に基づく信頼度加重価格設定モデルを提案し,リスク評価の精度向上を目指す。
    • 提案手法では,都市,ソフトウェアバージョン,地域間でデータを統合し,階層ベイズの信頼性フレームワークを構築した。
    • Waymoの事故データを用いた分析により,都市間の信頼度加重値は適度であり,部分的プールが効果的であることが示された。
    • 展開都市が12程度に達すると,学習されたカーネルの利点が検出可能になることが示唆された。

    Link: https://arxiv.org/abs/2606.17451

  • MapSatisfyBench:行動に基づいた暗黙的な決定要因による満足度を考慮した地図エージェントのベンチマーク [cs.AI]目的:満足度を考慮した地図エージェントの評価基準
    • 地図サービスは日常生活に不可欠であり,ユーザーエクスペリエンスの向上が重要である。
    • ユーザーの要求は曖昧で,満足度を左右する暗黙的な要素が不明確になりがちである。
    • 行動履歴から暗黙的な要素を抽出し,満足度を評価できる基準を構築すること。
    • 提案手法により,行動チェーンの証拠から完全なユーザーニーズを再構築し,暗黙的な決定要因を特定する。
    • 大規模な実データに基づき構築されたMapSatisfyBenchは,5つの側面から評価を実現する。
    • 現状のエージェントは明示的なタスク達成には優れるが,暗黙的な要素の充足には限界がある。

    Link: https://arxiv.org/abs/2606.17453

  • エージェント軌跡を通じたモデル動作の解剖 [cs.AI, cs.LG]目的:モデルの意図と実行の間の乖離の最小化
    • AIエージェントの性能向上は,モデリングだけでなくシステム全体の設計が重要であるため。
    • モデルの仮定とエージェントの動作との間にずれが生じやすく,モデルの能力が十分に発揮されない。
    • モデルの意図と実行の乖離を小さくすることで,エージェントの性能向上を目指す。
    • 多様なモデルプロバイダが報告するエージェントベンチマーク(SWE-Pro, SWE-Verified, Terminal-Bench-2)において,pass@1性能を再現または改善した。
    • SSAによって生成された13万8千件の軌跡分析から,モデルごとの問題解決行動の違いをコード状態空間で可視化した。
    • 編集頻度,テスト活動,段階遷移といった詳細指標から,各モデルが自律的な問題解決の各段階にどのように労力を配分しているかを明らかにした。

    Link: https://arxiv.org/abs/2606.17454

  • LLMはCEOになれるか? 多役割エージェントシミュレーションによる戦略的資源再配分のベンチマーク [cs.RO, cs.RO, q-bio.NC, cs.CE, cs.AI]目的:戦略的資源再配分能力の評価
    • 企業経営における意思決定は重要であり,その質が企業の成否を左右する。
    • 既存のLLM評価は単一タスクに偏っており,実務的な組織運営の複雑さを捉えきれていない。
    • LLMの組織における戦略的意思決定能力の限界を明らかにし,将来のAI支援システムの設計に貢献する。
    • LLMは構造的な妥当性は高いものの,戦略的な判断において顕著な差が見られた。
    • 特定の助言者の意見に偏る,曖昧さへの過度な保守性,過去の情報の軽視といった課題が明らかになった。
    • 相反する意見への深い関与と,果断な行動の間にトレードオフの関係が存在することが示唆された。

    Link: https://arxiv.org/abs/2606.17459

  • オペレータブースティングによるパレート効率な偏微分方程式の代理モデル生成 [cs.LG, cs.NA, math.NA, physics.comp-ph]目的:偏微分方程式のコンパクトな代理モデル構築
    • 科学計算において,偏微分方程式の解法は重要であり,計算コスト削減が求められている。
    • ニューラルオペレータは高精度だが,モデルサイズが大きいため,保存・展開・評価にコストがかかる。
    • モデル圧縮を経ずに,直接コンパクトな代理モデルを構築することで,効率的な解法を可能にする。
    • オペレータブースティングは,FNO,DeepONet,CNOといった様々なアーキテクチャで有効に機能した。
    • 30のデータセット・アーキテクチャペアにおいて,21組で精度向上,17組で有意な改善が見られた。
    • パラメータ数は約72-95%削減され,精度とパラメータ数のパレート最適化を実現した。

    Link: https://arxiv.org/abs/2606.17460

  • AUTOGATE:トグル認識型LLMベースのRTL書き換えによる自動クロックゲーティング [cs.AR, cs.AI, cs.LG]目的:大規模階層構造コードベースに対するワークロードを考慮したクロックゲーティング最適化
    • 動的電力削減は,現代の電子機器において重要な課題であり,その効果的な手法としてクロックゲーティングが挙げられる。
    • 従来のクロックゲーティング最適化フローは手動によるものが多く,大規模設計への適用や自動化が困難であった。
    • 本研究は,長周期の波形トレース処理や大規模コードベースへのスケーラビリティという課題を解決し,実用的な電力最適化を実現する。
    • AUTOGATEは,機械学習とLLMを組み合わせることで,波形レベルの解析とRTL書き換えを効率的に連携させることに成功した。
    • 小規模設計群において,AUTOGATEは平均で49.31%の動的電力削減を達成し,その有効性を証明した。
    • NVDLAやBlackParrotといった産業規模の設計においても,それぞれ19.34%と7.96%の動的電力削減を実現した。

    Link: https://arxiv.org/abs/2606.17461

  • ResAware:リソース優先知識蒸留によるクロス環境Webサイトフィンガープリンティング [cs.LG, cs.NI]目的:クロス環境におけるWebサイトフィンガープリンティングのロバスト性向上
    • Webサイトフィンガープリンティングはプライバシー侵害のリスクがあり,その対策は重要である。
    • 実環境では,時間的変動やブラウザの違いにより,フィンガープリンティングの精度が低下しやすい。
    • リソースレベルの特徴を用いた知識蒸留により,環境変化に強いフィンガープリンティングを実現する。
    • ResAwareは,リソースレベルの特徴を教師モデルで学習し,その知識を学生モデルに蒸留する。
    • 150日間の時間的変動下において,Var-CNNのF1スコアを72.77%から81.49%に向上させた。
    • また,オープンワールド環境でのTPR@1%FPRを22.40%から27.20%に改善した。

    Link: https://arxiv.org/abs/2606.17462

  • CheckMIABench: 言語モデルに対するメンバーシップ推論攻撃の堅牢な基盤 [cs.LG]目的:言語モデルのプライバシー特性評価のためのメンバーシップ推論攻撃ベンチマーク
    • 機械学習モデルのプライバシー保護は重要であり,メンバーシップ推論攻撃はその評価手法の一つである。
    • 既存の評価方法では,メンバーと非メンバーデータの分布シフトが統計的妥当性を損なう問題があった。
    • トレーニングデータを利用し,分布シフトの影響を受けにくい公平な評価ベンチマークを構築する。
    • 提案手法を用いて,PythiaおよびOLMoモデルに対する既存の攻撃手法を評価した結果,性能にばらつきが見られた。
    • トレーニング中の固定時点を境としたデータを利用することで,分布シフトを最小限に抑えたベンチマークを構築できることを示した。
    • メンバーシップ推論攻撃の設計と実装を容易にするためのモジュール型ライブラリを公開し,プライバシー研究の促進に貢献する。

    Link: https://arxiv.org/abs/2606.17464

  • 生成モデリングのためのペロン・フロベニウス演算子マッチング [cs.LG, cs.SY, eess.SY]目的:密度進化のマッチング
    • 生成モデルは,複雑なデータの分布を学習し,新たなサンプルを生成する上で不可欠である。
    • 既存の生成モデルは,特定のモデルクラスに限定され,汎用性に課題がある場合がある。
    • ペロン・フロベニウス演算子に基づき,多様なモデルを統一的に扱える汎用的なフレームワークを構築する。
    • ペロン・フロベニウス演算子マッチング (PFOM) という生成フレームワークを提案し,フロー,拡散,ジャンプモデルを包含する。
    • Kullback-Leibler divergenceが密度レベルとサンプル条件付き目的関数の等価性を保つ唯一のBregman divergenceであることを証明した。
    • Nesterov加速学習とサンプリングを開発し,離散化の安定化と収束の高速化を実現した。

    Link: https://arxiv.org/abs/2606.17465