arXiv雑要約

画像・音声 - 2026/05/14 公開

  • ハイパースペクトル画像における次元削減による色定数性 [cs.CV]目的:ハイパースペクトルデータを用いた照明推定の性能に対するスペクトル次元と表現方法の影響の系統的な研究
    • 画像処理において,照明条件を正確に推定することは,画像認識や再現の精度向上に不可欠である。
    • 従来のRGB画像による照明推定は,限られたスペクトル情報により曖昧になりやすいという課題がある。
    • ハイパースペクトル画像の持つ豊富なスペクトル情報を活用し,照明推定の精度向上を目指す。
    • ハイパースペクトルデータを用いることで,従来のRGB画像よりも照明推定の性能が向上する条件が明らかになった。
    • スペクトル次元削減戦略が,照明推定の性能に大きく影響することが示された。
    • 効率的なスペクトル表現を用いることで,計算コストを抑えつつ高い照明推定精度を達成できることが示唆された。

    Link: https://arxiv.org/abs/2605.13306

  • テスト時のスパース性による極めて高速な行動拡散 [cs.CV]目的:行動拡散の計算効率向上
    • 行動拡散は高精度な行動生成が可能だが,計算コストが高いという課題がある。
    • 既存技術では,多様な知覚や複数回のロールアウト反復におけるポリシーダイナミクスへの適応が困難である。
    • テスト時に不要な計算を動的に予測・削減し,行動拡散の高速化を図る。
    • 提案手法は,テスト時のスパース性を導入することで,FLOPsを92%削減し,行動生成を5倍に高速化した。
    • 軽量なプルーナーを設計し,エンコーダーと拡散トランスフォーマーを共有することで,並列化された推論パイプラインを実現した。
    • 現在のフォワード,前のステップ,過去のロールアウト反復から特徴量を再利用する全方向再利用戦略により,95%のスパース性を実現した。

    Link: https://arxiv.org/abs/2605.13316

  • KamonBench:視覚言語モデルにおける構成要素回収の評価のための文法ベースのデータセット [cs.DC, cs.RO, cs.CV, cs.LG]目的:視覚言語モデルにおける構成要素回収の評価
    • 視覚と言語を結びつける研究は,画像理解と自然言語処理の融合に不可欠である。
    • 既存のデータセットでは,構成要素に基づいた詳細な分析が困難であった。
    • 構成要素の識別と組み合わせの理解を評価できるテストベッドの提供
    • KamonBenchは,20,000枚の合成家紋画像と関連する記述データを提供する。
    • 家紋の構成要素(容器,修飾子,モチーフ)に着目した評価指標を導入した。
    • ViTエンコーダー/TransformerデコーダーとVGG n-gramデコーダーのベースライン結果を示した。

    Link: https://arxiv.org/abs/2605.13322

  • ビジョンと言語によるナビゲーションの限界とは何か [cs.RO, cs.AI, cs.CL, cs.CV]目的:実世界におけるビジョンと言語によるナビゲーションの一貫性向上
    • 具現化された知能において,ビジョンと言語によるナビゲーションは重要な役割を担う。
    • シミュレーションから実世界への展開において,知覚の不安定性や指示の曖昧さが課題である。
    • 空間的理解の強化とドメイン横断的な事前知識の活用により,実世界でのナビゲーション問題を解決する。
    • StereoNavは,実世界でのナビゲーションの一貫性を高めるための,ロバストなビジョン・言語・行動フレームワークである。
    • R2R-CEおよびRxR-CEにおいて,最先端のエゴセントリックRGB性能(SR 81.1%,SPL 68.3%および67.5%,52.0%)を達成した。
    • 実世界でのロボットによる実験により,StereoNavが複雑な環境下でのナビゲーションの信頼性を大幅に向上させることが確認された。

    Link: https://arxiv.org/abs/2605.13328

  • ハイパーネットワーク駆動低ランク適応による様式化テキストからモーション生成 [cs.CV, cs.AI, cs.GR, cs.LG]目的:テキストによるモーション生成における様式表現の改善
    • 人間らしい自然なモーション生成は,バーチャルリアリティやロボット工学等の分野で重要性を増している。
    • テキストのみではモーションの細かなニュアンス,すなわち様式を表現することが難しく,精度向上が課題である。
    • ハイパーネットワークを用いた低ランク適応により,効率的かつ汎用的な様式制御を可能にすることを目的とする。
    • 提案手法は,事前学習済みの拡散モデルに対し,ハイパーネットワーク生成のLoRAパラメータを適用することで,軽量に様式を制御する。
    • 様式潜在空間を構造化するコントラスト損失を用いることで,多様な様式特性を捉え,未知の様式への汎化性能を向上させている。
    • HumanML3Dおよび100STYLEデータセットにおいて,最先端の様式化結果と,未知の様式に対する改善が確認された。

    Link: https://arxiv.org/abs/2605.13333

  • Ego2World: 自己中心的調理ビデオを信念状態計画のための実行可能な世界に変換 [cs.CL, cs.AI, cs.CV]目的:自己中心的調理ビデオを,グラフ遷移規則によって制御される実行可能な記号的世界へと変換するベンチマーク
    • 家庭環境における具現化されたエージェントは,部分観測下での計画が不可欠である。現実的なタスク遂行能力の評価が求められている。
    • 既存のベンチマークは能力を十分にテストしていない。ビデオデータセットは受動的で,シミュレータは現実との乖離がある。
    • 自己中心的ビデオから再利用可能な遷移規則を抽出し,部分観測下での計画能力を評価する。
    • アクションの重複スコアは物理状態の成功を過大評価することが示された。
    • 持続的な信念記憶は,タスク完了率を向上させ,不要な視覚探索を減少させる効果が確認された。
    • 信念の維持は,具現化されたエージェントの評価における重要な目標であるべきである。

    Link: https://arxiv.org/abs/2605.13335

  • インタラクティブ物理シミュレーションのための階層型Transformer事前条件付け [cs.NI, cs.DC, cs.GR, cs.DC, cs.LG, cs.NA, math.NA]目的:リアルタイム物理シミュレーションのためのニューラル事前条件付け手法の改良
    • 物理シミュレーションは,工学,科学,エンターテイメントなど広範な分野で不可欠な技術である。
    • 従来のニューラル事前条件付けは,長距離結合の効率的な捕捉が課題であった。
    • 本研究は,階層型Transformerを用いて,効率的かつ高速な物理シミュレーションを実現することを目指す。
    • 階層型Transformer事前条件付けは,H行列分割を基盤とし,O(N)のスケーリングで近似逆行列計算を可能にする。
    • コサイン・ハッチンソンプローブ目的関数により,収束に重要なスペクトル部分空間でのMA作用を学習し,条件数を改善する。
    • stiff multiphase Poissonシステムにおいて,GPU Jacobi,IC/DILU,neural SPAIと比較して,最大28倍の高速化を実現した。

    Link: https://arxiv.org/abs/2605.13343

  • 事前分布内でのドラッグ:分布制約下におけるテキスト条件付き点ベース画像編集 [cs.CV]目的:分布制約下におけるテキスト条件付き画像編集手法
    • 画像編集技術は,創造的な表現や実用的な応用において重要な役割を担う。
    • 従来の点ベース編集は,曖昧性や不自然なアーティファクトを生じやすい。
    • 拡散モデルの利用と制約を組み合わせ,より自然で正確な編集を実現する。
    • CLIPベースのモデルを用いて中間編集ステップを評価・誘導し,意味的整合性を確保した。
    • 事前分布保存損失を導入し,潜在コードが拡散事前分布のサンプリング空間内に留まるように制約した。
    • 方向性重み付け点追跡機構により,追跡精度と生成品質を向上させ,編集時間を短縮した。

    Link: https://arxiv.org/abs/2605.13349

  • 計量空間における憲法による統治 [cs.MA, cs.AI, cs.DC, cs.GT, econ.TH]目的:デジタルコミュニティや組織における憲法に基づく民主的統治の包括的解決策
    • 社会選択理論とアルゴリズム的決定理論は重要である。集団的意思決定の基盤となる理論的枠組みを提供するから。
    • 既存研究では,集約,熟議,改正,合意形成が孤立しており,効率的な統治プロセスを構築できないという課題がある。
    • 計量空間における憲法による統治を提案することで,これらの段階を統合し,効率的な意思決定プロセスを確立することを目指す。
    • 本研究では,憲法を定めることで,各要素に計量空間,集約規則,超多数決の閾値を割り当てる。
    • 一般化された中央値を用いることで,誠実な投票が弱支配されないことが証明された。
    • シミュレーションにより,単純なヒューリスティックを用いることで,最適なピークと制約なしの最適値の妥協ギャップが縮小されることが示された。

    Link: https://arxiv.org/abs/2605.13362

  • 電気生理学におけるニューラルサロゲート前方モデル:細胞内伝導テンソルの明示的な指定なし [cs.CV, cs.LG]目的:心臓電気生理学における前方モデルの精度向上
    • 非侵襲的心臓電気生理学は,特に心房細動の診断・治療において重要である。
    • 従来の物理モデルは細胞内伝導テンソルの正確な情報に依存し,臨床的な課題となっていた。
    • 細胞内伝導テンソルを用いずに,高精度な前方モデルを構築し,不確実性を低減すること。
    • 深層学習モデルが,74例のデータから左心房の細胞内電位と遠位心電図の関係を学習した。
    • モデルはR2値0.949±0.037を達成し,高い予測精度を示した。
    • 本研究は,構造的不確実性の低減と非侵襲的な心房細動評価の改善に貢献する可能性がある。

    Link: https://arxiv.org/abs/2605.13366

  • GRIP-VLM:効率的な視覚言語モデルのためのグループ相対重要度プルーニング [cs.CL, cs.CV, cs.AI]目的:視覚言語モデルの効率化のためのプルーニング手法
    • 視覚言語モデルは多様な応用を持つが,計算コストが高い点が課題である。
    • 既存のプルーニング手法は勾配近似に依存し,離散的な最適化問題への対応が不十分である。
    • 強化学習を用いて離散的な選択空間を直接探索し,より効率的なプルーニングを実現する。
    • GRIP-VLMは,既存のプルーニング手法と比較して,より優れた性能を示すことが確認された。
    • 多様なマルチモーダルベンチマークにおいて,同等以上の精度を維持しつつ,最大15%の推論速度向上を達成した。
    • 予算を考慮したスコアリング機構により,任意の圧縮率に適応可能である。

    Link: https://arxiv.org/abs/2605.13375

  • バックボーンだけで十分:合成画像フォレンジックにおける凍結された基礎モデルの脆弱性評価 [cs.CE, physics.comp-ph, cs.RO, cs.CV, cs.MM]目的:合成画像検出器の脆弱性
    • AI生成画像の逼真性が増す中,画像フォレンジック技術の重要性が高まっている。
    • 既存の深偽検出器は,事前学習済みのバックボーンに依存しており,それが脆弱性となる。
    • バックボーンの知識のみで検出器を欺く攻撃手法を提示し,その影響を評価する。
    • 提案手法SIAAは,バックボーンの知識のみを利用して効果的な敵対的サンプルを生成する。
    • 多様なシナリオで高い攻撃成功率を示し,ホワイトボックス攻撃に匹敵する性能を達成した。
    • バックボーンの知識だけで検出器の信頼性を損なうことが明らかになり,堅牢な防御の必要性を示唆する。

    Link: https://arxiv.org/abs/2605.13381

  • 長尾分布への対処:適応的摂動による敵対的学習の再調整 [cs.LG, cs.CV]目的:敵対的学習における摂動の調整
    • 深層学習モデルの脆弱性対策は,実用化において不可欠である。
    • 現実世界のデータは長尾分布を示すことが多く,既存の敵対的学習法では対応が難しい。
    • 長尾分布データに対する敵対的学習の安定性と性能向上を目指す。
    • 提案手法RobustLTは,敵対的学習中に摂動を適応的に調整することで,長尾分布データにおけるモデルのロバスト性を向上させる。
    • RobustLTは,クラス不均衡と敵対的脆弱性の両方を同時に緩和する効果がある。
    • 実験結果から,RobustLTが長尾データセットにおいて一貫して高い性能を示すことが確認された。

    Link: https://arxiv.org/abs/2605.13395

  • PreFIQs:顔画像品質とは剪定を生き残ること [cs.CV]目的:顔画像品質評価における画像有用性の定量化
    • 顔認識システムにおいて,入力画像の品質が性能に大きく影響するため,高品質な画像を選別する重要性が高い。
    • 既存の顔画像品質評価手法は,教師データや学習を必要とする場合が多く,効率性や汎用性に課題がある。
    • モデルの剪定によって残存する画像が持つ有用性を指標として,教師なしで画像品質を評価することを目指す。
    • 提案手法PreFIQsは,事前学習済みの顔認識モデルと剪定されたモデルの埋め込み表現間のユークリッド距離によって画像品質を評価する。
    • 理論的解析により,この距離が潜在埋め込み多様体の幾何学的感度を効率的に近似することを示した。
    • 8つのベンチマークと4つの顔認識モデルでの実験で,最先端の性能を達成し,教師データや学習が不要であることを実証した。

    Link: https://arxiv.org/abs/2605.13396

  • Boykov-Kolmogorovアルゴリズムのための高速かつコンパクトなグラフカット [cs.CV, cs.DS]目的:最小s-tカットの計算効率化
    • 画像認識をはじめとする多様な分野で,グラフの最小カット問題は重要な役割を担っている。
    • 既存のアルゴリズムでは,大規模グラフに対するメモリ消費量が課題となっていた。
    • メモリ効率の高い実装により,より大規模なグラフの最小カット問題を解決することを目指す。
    • 本研究で提案するfcBKアルゴリズムは,既存のBKアルゴリズムよりも高速な計算が可能となった。
    • 新しいグラフ表現を用いることで,10^9個の頂点と10^10個のエッジを持つグラフの最小カットを計算できることを示した。
    • 提案手法の実装は,複数のベンチマークデータセットにおいて,最速のBKアルゴリズム実装であると確認された。

    Link: https://arxiv.org/abs/2605.13402

  • RotVLA:視覚言語行動モデルのための回転潜在行動 [cs.RO, cs.CV]目的:視覚言語行動モデルにおける潜在行動表現の改善
    • ロボットの汎用性と適応性を高めるには,視覚,言語,行動を統合したモデルが不可欠である。
    • 既存の潜在行動モデルは,離散的な量子化処理により表現能力が限定され,物理的に意味のある構造を欠く場合がある。
    • 連続的な回転潜在行動表現を用いて,モデルの表現力を高め,より自然な行動生成を目指す。
    • RotVLAは,連続的な回転表現を用いることで,行動の連続性,構成性,構造的整合性を実現した。
    • 大規模なロボットデータと人間動画による事前学習により,LIBEROで98.2%,RoboTwin2.0で89.6%/88.5%という高い性能を達成した。
    • 実際の操作タスクにおいても既存モデルを上回り,実用性を示した。

    Link: https://arxiv.org/abs/2605.13403

  • シンボルからオーディオへのドラムレンダリングのための秒単位アラインメントPCA-DAC潜在拡散 [cs.SD]目的:シンボルからオーディオへのドラムレンダリングのための潜在拡散モデル
    • シンボリックなドラム生成は,音楽制作における重要な課題であり,表現力豊かな音作りを可能にする。
    • 既存手法では,イベントのタイミングと音響的妥当性を両立することが困難である。
    • イベントのタイミングと音響的品質を向上させることで,より自然なドラム音の生成を目指す。
    • 提案手法Sec2Drum-DACは,イベントの特徴量を条件として,潜在拡散モデルを用いてドラム音を生成する。
    • PCAを用いた拡散により,スペクトルと過渡特性の評価において,決定論的なPCA回帰や既存のシンボルレンダリングよりも優れた結果が得られた。
    • RVQクロスエントロピーを用いることで,mel誤差,オンセットフラックスコサイン,波形のL1誤差が改善された。

    Link: https://arxiv.org/abs/2605.13404

  • テキストから楽譜を生成:Text2Score [cs.RO, cs.CL, cs.SD]目的:テキストプロンプトからの楽譜生成手法
    • 音楽生成の自動化は,作曲支援や新たな音楽体験の創出に繋がる重要な研究分野である。
    • テキストと音楽を紐づけたデータセットの不足と,自動キャプション生成の信頼性の低さが課題となっていた。
    • テキストプロンプトから直接楽譜を生成する新しいパラダイムを構築し,データセット不足の問題を解決することを目指す。
    • Text2Scoreは,計画段階と実行段階の二段階構成で楽譜を生成する。
    • 従来のLLMベースの手法やエンドツーエンドモデルと比較して,客観評価および主観評価の両面で優れていることが示された。
    • データセット,コード,評価セット,LLMプロンプトを公開しており,デモも公開されている。

    Link: https://arxiv.org/abs/2605.13431

  • ベイジアンな生体内シナプス追跡:ジョイントポアソン逆畳み込みと微分同相登録 [eess.SY, cs.SY, cs.CV]目的:シナプス追跡手法の開発
    • 学習や記憶形成において,シナプスのダイナミックな再編成が重要であり,その理解が不可欠である。
    • 生体内イメージングでは,低い信号対雑音比や組織運動,シナプス蛍光の変動などが課題となる。
    • これらの課題を克服し,高密度なシナプス領域における正確な追跡を可能にすること。
    • 本研究では,シナプスを移動する点光源としてモデル化する新しいテンプレートベースのフレームワークを提案した。
    • ベイズアプローチにより,ドメインワーピング,ガウス点像関数,ポアソン観測モデルを統合的に適用することで,ノイズ除去,逆畳み込み,登録を同時に行った。
    • シミュレーションデータとマウスの生体内イメージングデータを用いて,本手法の有効性を実証した。

    Link: https://arxiv.org/abs/2605.13455

  • OP4KSR:周期性アーチファクト抑制によるワンステップ・パッチフリー4K超解像 [cs.CV]目的:4K超解像技術の実現
    • 画像処理において,高解像度化はより詳細な視覚情報を提供し,多様な応用を可能にする重要な技術である。
    • 従来の4K超解像はメモリ消費量が大きく,分割処理による画質劣化や遅延が課題となっていた。
    • 本研究は,メモリ効率の良い手法で,全体的な一貫性を保ちつつ4K超解像を可能にすることを目的とする。
    • OP4KSRは,強力なFluxバックボーンとF16 VAEを活用し,実用的なGPU環境下で4K超解像を可能にした。
    • RoPEベース周波数リスケール(RFR)と自己相関に基づく周期性損失($\mathcal{L}_\text{AP}$)により,アーチファクトを効果的に抑制した。
    • NVIDIA H20 GPU上で,$4096\times4096$画像をわずか5.75秒で生成し,高い性能と効率を実現した。

    Link: https://arxiv.org/abs/2605.13457

  • フィードフォワードガウシアン スプラッティングのためのZオーダーTransformer [cs.CV]目的:3Dガウシアン スプラッティングにおける高速かつ高品質な新規視点合成
    • 3Dガウシアン スプラッティングはフォトリアリスティックな新規視点合成において大きな進歩をもたらしているため,重要性が高い。
    • 従来の3DGSは反復最適化に時間を要し,リアルタイム性を必要とする場面での利用が制限されていた。
    • ガウシアンの冗長性とレンダリング品質の問題を解決し,高速な新規視点合成を実現することを目指す。
    • 提案手法はZオーダー戦略を用いたTransformerアーキテクチャにより,ガウシアン間の空間的・意味的関係を効率的に捉える。
    • Zオーダー戦略により冗長性を抑制しつつ,重要な構造的詳細を保持することで,ガウシアン属性を効率的に予測する。
    • 実験結果から,提案手法は少ないガウシアン数で,高速かつ高品質な新規視点合成を達成することが示された。

    Link: https://arxiv.org/abs/2605.13465

  • FedHPro:勾配一致による連合ハイパープロトタイプ学習 [cs.CC, cs.CV]目的:連合学習における汎化性能向上
    • プライバシー保護が重要視されるデータ活用において,分散環境での協調学習が求められている。
    • 既存手法では,グローバルプロトタイプの更新時に意味的なずれが生じやすく,性能が低下する可能性がある。
    • クライアントのサンプルから直接得られる特徴量に基づき,意味的な知識を維持するハイパープロトタイプを学習する。
    • ハイパープロトタイプは,より意味的に一貫性のあるグローバル信号を生成することが確認された。
    • 提案手法FedHProは,複数のベンチマークデータセットで最先端の性能を達成した。
    • 相互コントラスティブ学習と一貫性ペナルティにより,クラス間分離性とクラス内均質性が向上した。

    Link: https://arxiv.org/abs/2605.13475

  • ドメイン転移を用いたニューラル動画圧縮 [cs.CV]目的:ニューラル動画圧縮におけるドメインギャップの軽減
    • 動画圧縮技術は,通信や保存において不可欠であり,高効率化が求められている。
    • 学習データとテストデータの分布差により,ニューラル動画圧縮の性能が低下することがある。
    • テストデータの分布に動的に適応し,性能低下を抑制するフレームワークを開発する。
    • 提案手法DCVC-DTは,ベースラインDCVC-DCと比較して最大6.21%のビットレート削減を達成した。
    • 未知のテストデータに対する汎化性能を大幅に向上させ,エラー伝播を軽減する効果が確認された。
    • オンラインドメイン転移機構により,エンコーダ・デコーダのパラメータを変更することなくドメインギャップを埋めている。

    Link: https://arxiv.org/abs/2605.13476

  • PhysEditBench:画像エディターによる高密度物理マップ予測のためのプロトコル条件付きベンチマーク [cs.CV]目的:画像エディターを用いた高密度物理マップ予測の評価と標準化
    • 現実世界の理解に不可欠な物理マップの予測は,ロボティクスやコンピュータビジョンの発展に貢献する。
    • 既存の物理マップ予測モデルは特定タスクに特化しており,汎用的な画像エディターの活用は未開拓である。
    • 画像エディターによる物理マップ予測の性能を客観的に評価し,標準化された評価プロトコルを確立すること。
    • PhysEditBenchは,深度,法線,反射率,粗さ,金属度マップの予測を対象とするベンチマークである。
    • 専門的なモデルは深度,法線,反射率予測において優位性を示す一方,画像エディターはマップらしい出力を生成できる。
    • 粗さ,金属度の予測において画像エディターは特定の指標で既存手法を上回る場合があるが,構造的エラーや照明への依存性が課題として残る。

    Link: https://arxiv.org/abs/2605.13493

  • ArcVQ-VAE:アークコサイン付加マージンを用いた球面ベクトル量子化フレームワーク [cs.CV, cs.AI, cs.LG]目的:画像モデリングにおける離散表現の学習
    • 画像処理において,効率的な表現学習は重要であり,計算資源の削減や性能向上に貢献する。
    • 従来のVQ-VAEでは,限られたコードブックベクトルで画像をトークン化するため表現力に制約があった。
    • 本研究は,より識別的かつ均一に分散した潜在表現を獲得し,コードブックの利用効率を高めることを目指す。
    • ArcVQ-VAEは,コードブックに球面角マージン事前分布(SAMP)を導入することで,潜在空間のカバー率を向上させた。
    • Ball-Bounded Norm RegularizationとArcCosine Additive Margin Lossを用いることで,潜在ベクトル間の識別性を高めた。
    • 画像再構成および生成タスクにおいて,ベースラインモデルと比較して競争力のある性能を達成した。

    Link: https://arxiv.org/abs/2605.13517

  • 統合的サージカルシーン理解に向けて:MLLMによる推論と接地(グラウンディング)の架け橋 [eess.SY, cs.SY, cs.CV, cs.AI]目的:サージカルシーン理解のための統合的フレームワークの開発
    • コンピュータ支援手術の精度向上には,手術シーンの包括的な理解が不可欠である。
    • 既存手法は,手続き的コンテキスト,意味的推論,視覚的接地を個別に扱っており,一貫性に課題がある。
    • 高レベルな推論と低レベルな視覚的接地を統合し,より信頼性の高い手術支援を目指す。
    • SurgMLLMは,マルチモーダル大規模言語モデルをファインチューニングすることで,構造化された推論を実現する。
    • 実験の結果,主要な指標であるAP_IVTが40.7%から46.0%に向上し,既存手法を上回る性能を示した。
    • 本研究は,推論と接地を統合することで,文脈を考慮した信頼性の高い手術支援の有効性を示す。

    Link: https://arxiv.org/abs/2605.13530

  • CA-GCL:クロス解剖学的グローバル・ローカル対照学習によるロバストな3D医療画像理解 [cs.CV]目的:3D医療画像理解のためのロバストな表現学習手法
    • 医療画像診断の精度向上に貢献するため,画像とテキストの整合性を高める研究が重要である。
    • 既存のVision-Language Pre-training(VLP)モデルでは,テキスト埋め込み空間の表現が崩壊しやすいという課題がある。
    • 解剖学的構造間の分離を強化し,プロンプト変動に対する頑健性を高めることで,この課題を克服する。
    • 提案手法CA-GCLは,CT-RATEおよびRad-ChestCTデータセットにおいて,ゼロショット異常検出で既存VLPモデルを上回る性能を示した。
    • CA-GCLは,異なるプロンプトテンプレート間での性能変動を低減し,テキスト埋め込み分布をベル型に変換することに成功した。
    • これらの結果は,CA-GCLがロバストな3D医療画像理解のための有効なフレームワークであることを示している。

    Link: https://arxiv.org/abs/2605.13544

  • Qwen-Image-VAE-2.0 技術報告 [cs.CV]目的:高圧縮変分オートエンコーダ(VAE)の性能向上
    • 画像データはAI研究において不可欠であり,効率的な圧縮技術が重要である。
    • 高圧縮率を実現すると,再構成品質が低下する課題がある。
    • 高圧縮率を維持しつつ,再構成精度と拡散モデリングへの適合性を高める。
    • Qwen-Image-VAE-2.0は,既存の再構成ベンチマークにおいて最高水準の性能を達成した。
    • 特に,テキストを含む画像における性能が顕著に向上していることが,OmniDoc-TokenBenchによって示された。
    • 拡散モデル(DiT)を用いた実験により,既存モデルよりも収束が速いことが確認された。

    Link: https://arxiv.org/abs/2605.13565

  • HIR-ALIGN:拡散モデルによるデータ生成を介したハイパースペクトル画像復元能力の向上 [cs.CV]目的:ハイパースペクトル画像復元における性能向上
    • ハイパースペクトル画像は,環境モニタリングや精密農業等,多岐にわたる分野で活用されており,その分析精度は重要である。
    • 実際のハイパースペクトル画像は,ノイズや解像度の低下などの劣化の影響を受けやすく,十分な復元技術が求められている。
    • ターゲットドメインにおける参照データがない状況下でも,効果的に画像復元を行うための手法を開発すること。
    • 提案手法HIR-ALIGNは,既存の復元モデルが苦手とするターゲットドメインへの適応性を高めることができる。
    • ターゲット分布に合わせた合成データ生成により,参照データがない環境下でも,ハイパースペクトル画像の復元性能を向上させる。
    • 理論的分析により,データ拡張によるファインチューニングがターゲットドメインでの復元リスクを低減することが示された。

    Link: https://arxiv.org/abs/2605.13581

  • Phy-CoSF:物理制約に基づく連続スペクトル場再構成と超解像によるスナップショット圧縮イメージング [cs.CV]目的:スナップショット圧縮イメージングにおける連続スペクトル場の再構成と超解像
    • 高次元ハイパースペクトルイメージングは,対象物の詳細な分析を可能にするため,幅広い分野で重要性が増している。
    • 従来の再構成手法は離散的なスペクトル出力に限定されており,連続的なスペクトル再構成や超解像が困難であった。
    • 本研究は,連続スペクトル場のモデリングと再構成を通じて,この課題を解決することを目的としている。
    • 提案手法Phy-CoSFは,深層アンフォールディングネットワークと暗黙的ニューラル表現を組み合わせることで,連続スペクトル場の再構成と超解像を実現した。
    • Phy-CoSFは,離散波長での学習と連続スペクトルレンダリングを架橋する二段階構造を採用し,任意の波長での高精度なハイパースペクトルイメージの合成を可能にした。
    • 実験結果から,Phy-CoSFは再構成精度とスペクトル詳細の保持において,既存の最先端手法を上回ることが示された。

    Link: https://arxiv.org/abs/2605.13583

  • 異質性を考慮した拡散法による高密度屋内シーン生成 [cs.CV, cs.AI]目的:高密度屋内シーンの生成
    • 具現化されたAIのための忠実なシミュレーション環境構築には不可欠な技術である。
    • 既存手法はオブジェクトを均一に扱うため,複雑な配置や空間依存性の高いシーンに対応できない。
    • シーンを構成する役割の違いに基づき,異質性を考慮した生成を目指す。
    • 提案手法HetSceneは,構造レイアウト生成と文脈レイアウト生成の二段階で屋内レイアウトを生成する。
    • 構造レイアウト生成では,テキスト記述や部屋のマスク,空間関係グラフを用いて主要オブジェクトの配置を行う。
    • 大規模な主要家具の安定したグローバルな骨格を構築することで,スケーラビリティと物理的妥当性を向上させる。

    Link: https://arxiv.org/abs/2605.13586

  • Real2Sim:物理駆動型かつ編集可能なガウススプラッティングフレームワークによる自律走行シーン生成 [cs.CV]目的:自律走行シーン生成のための物理駆動型フレームワーク
    • 安全な自動運転には大規模な高品質データが不可欠である。データ収集の効率化が課題。
    • 従来のシミュレーションは現実との乖離が大きく,汎化性能が低いという課題がある。
    • 現実世界を忠実に再現し,物理演算に基づいた編集可能なシーン生成を目指す。
    • Real2Simは,4Dガウススプラッティングと微分可能なMPMソルバーを組み合わせることで,動的な走行シーンを生成する。
    • シーンのインスタンスレベル編集が可能であり,オブジェクト間の相互作用や環境との干渉を物理的にシミュレートできる。
    • Waymo Open Datasetを用いた実験により,レンダリング,再構成,編集,物理シミュレーションの性能が検証された。

    Link: https://arxiv.org/abs/2605.13591

  • 効率的な3D言語ガウススプラッティングのためのスパースコード昇格 [cs.CV]目的:3D言語ガウススプラッティングにおける効率的な特徴量関連付け手法
    • 3Dシーン理解において,言語と視覚の特徴を統合する重要性が高まっている。
    • 高次元の視覚-言語埋め込みを数百万の3Dガウスに関連付ける際の計算コストが課題である。
    • 2D画像領域に基づいたスパースコード表現により,効率的な記憶と高速なレンダリングを実現する。
    • 提案手法SCOUPは,3Dガウス最適化と言語表現学習を分離することで,高速な学習と効率的な記憶を実現した。
    • トレーニング速度は最先端手法と比較して最大400倍,メモリ効率は3倍向上した。
    • 複数のベンチマークにおいて,既存手法と同等またはそれ以上のオープンボキャブラリクエリの精度を達成した。

    Link: https://arxiv.org/abs/2605.13600

  • 2Dから3Dへの手ポーズ推定におけるグラフ畳み込みの再検討 [cs.CV]目的:2Dから3Dへの手ポーズ推定における手法の有効性検証
    • 人間の行動理解に不可欠であり,VR/ARなどへの応用が期待されている。
    • 既存手法では,手部の骨格構造の表現方法が十分ではない場合がある。
    • グラフ畳み込みネットワークの代替として,自己注意機構の有効性を検証する。
    • 標準的な多頭自己注意機構が,ベースラインのグラフ畳み込みネットワークを上回る性能を示すことが確認された。
    • グラフ構造を制約した注意機構により,性能差は縮小し,入力依存的な集約が重要であることが示唆された。
    • グラフ距離位置エンコーディングによるソフトな構造的制約が,ハードな隣接制約よりも有効であることが示された。

    Link: https://arxiv.org/abs/2605.13604

  • WD-FQDet:ウェーブレット分解と周波数認識クエリ学習によるマルチスペクトル検出トランスフォーマー [cs.CV]目的:赤外線と可視光画像からのマルチスペクトル画像の特徴を組み合わせることで,物体検出の性能向上
    • マルチスペクトル画像は,単一のモダリティでは捉えきれない情報を補完し,物体検出の精度向上に貢献する。
    • 既存手法では,モダリティ共有特徴の偏りや,モダリティ固有特徴の不十分さが課題となっている。
    • 赤外線と可視光のモダリティを周波数領域で分離し,それぞれの特性に応じた融合戦略を適用することで課題解決を目指す。
    • WD-FQDetは,低周波数の共通特徴と高周波数の固有特徴を明示的に分離し,クロスモーダル注意機構と多規模勾配一貫性損失を用いる。
    • 空間的情報を組み込んだハイブリッド特徴エンハンスメントモジュールにより,周波数領域における特徴表現を強化する。
    • 周波数認識クエリ選択モジュールを導入し,共通特徴と固有特徴の貢献度を動的に調整することで,様々な状況下で最適な性能を発揮する。

    Link: https://arxiv.org/abs/2605.13621

  • ガイダンス,思考,行動:ビジョン・言語・行動モデルにおけるインタラクティブな具現化された推論 [cs.RO, cs.CV]目的:視覚的手がかりによるロボットポリシーの誘導を可能にする,インタラクティブなビジョン・言語・行動(VLA)フレームワーク
    • ロボットが人間の指示を理解し,環境内で自律的に行動するための基盤技術であり,生活や産業の効率化に貢献する。
    • 既存のVLAモデルは,分布外の状況やエラー発生時に脆弱であり,修正が困難であるという課題がある。
    • 人間の空間的ガイダンスを取り入れ,視覚的曖昧さの解消やエラーからの復旧を可能にする。
    • 提案手法は,SimplerEnv WidowXベンチマークにおいて,81.2%という最先端の成功率を達成した。
    • 分布外の視覚的変化や空間的曖昧さの状況下で,単一の視覚的インタラクションが既存手法と比較してタスクの成功率を大幅に向上させた。
    • 人間の視覚的意図と自律的な意思決定を整合させる,空間・視覚的Chain-of-Thoughtを生成する。

    Link: https://arxiv.org/abs/2605.13632

  • 協調ゲームにおける平衡の学習:Minorization-Maximization法によるアプローチ [cs.CL, cs.GT]目的:協調ゲームにおける平衡の学習
    • 社会システムの効率的な運用には,エージェント間の協調が不可欠である。ゲーム理論は,その協調メカニズムを分析する基盤となる。
    • 現実のゲームにおいては,エージェントの合理性の仮定が必ずしも成立せず,複数の平衡状態が存在しうる。
    • エージェントの不合理性を考慮しつつ,一意な平衡状態を効率的に学習する手法を確立すること。
    • 提案手法は,潜在関数の凹性を利用して一意な平衡状態を選定し,元のゲームのε-平衡となることを保証する。
    • Minorization-Maximization法に基づく反復学習スキームは,潜在関数最適平衡に収束し,勾配法やBest Response法よりも優れた収束性を示す。

    Link: https://arxiv.org/abs/2605.13644

  • NAACA:サルエンス駆動注意ゲーティングのためのオシレーター作動性ワーキングメモリを用いた学習不要神経聴覚注意認知アーキテクチャ [cs.CL, cs.SD, cs.AI]目的:音声における顕著性イベント検出の改善
    • 音響情報は状況認識に不可欠だが,既存モデルは長尺音声で顕著なイベントが希薄化しやすい。
    • 既存の音声言語モデルは,長尺録音において注意機構のボトルネックに陥りやすい。
    • 顕著性に基づく注意ゲーティングにより,不必要な処理を抑制し効率化を目指す。
    • NAACAは,AudioQwenのXD-Violenceデータセットにおける平均適合率を53.50%から70.60%に向上させた。
    • オシレーター作動性ワーキングメモリ(OWM)は,Urban Soundscapes of the Worldデータセットにおいて,新たなイベントやサブカテゴリの変化を捉えた。
    • OWMは,一時的な無音や都市の環境音に対してロバストであり,顕著性の抽出に貢献した。

    Link: https://arxiv.org/abs/2605.13651

  • HADARに基づく熱赤外ハイパースペクトル画像復元 [cs.CL, cs.CY, cs.CV, physics.optics]目的:熱赤外ハイパースペクトル画像の復元
    • 熱赤外画像は様々な応用において重要な情報を提供する。その利用拡大が求められている。
    • 従来の復元手法は熱物理学に基づかず,熱赤外画像特有の劣化に対応できない。
    • 熱物理学に基づいた復元フレームワークを構築し,画像の品質向上を目指す。
    • 提案手法HAIRは,温度,放射率,テクスチャの物理的特性に基づき,物理的に整合性のとれた画像を復元する。
    • HAIRは,大気放射輸送方程式と組み合わせることで,精度の高いスペクトル較正と超解像を実現する。
    • DARPA Invisible Headlightsデータセット等を用いた実験により,既存手法を上回る性能が確認された。

    Link: https://arxiv.org/abs/2605.13664

  • SceneGraphVLM:ビジョン言語モデルによる動画からの動的シーングラフ生成 [cs.RO, cs.CV]目的:画像および動画からのシーングラフ生成
    • 視覚的知覚のコンパクトな構造化表現として重要であり,ロボティクスや画像検索に応用が期待される。
    • 既存手法では,正確かつ迅速なグラフ予測が困難であり,不要なオブジェクトや関係性が含まれる場合がある。
    • コンパクトなモデルで効率的に高品質なシーングラフを生成し,精度と速度のトレードオフを改善する。
    • SceneGraphVLMは,トークン効率の良いTOON形式を使用し,二段階の学習(教師ありファインチューニングと強化学習)により,関係性の網羅性と精度を向上させている。
    • 動画に対しては,以前のグラフを条件としてフレームごとに処理することで,軽量な短期文脈を提供し,追跡や後処理を不要にしている。
    • PSG,PVSG,Action Genomeでの評価において,高品質・高速なシーングラフ生成を約1秒の遅延で実現している。

    Link: https://arxiv.org/abs/2605.13667

  • パターン強化RT-DETRによる多クラスバッテリー検出 [eess.SY, cs.RO, cs.SY, math.DS, cs.CV]目的:多クラスバッテリー検出の実現
    • 電子廃棄物リサイクル,品質管理,自動選別等の産業において,正確かつ効率的なバッテリー検出が不可欠である。
    • 既存のバッテリー検出手法では,バッテリー種類の特定や検出精度の向上が課題となっている。
    • クエリ活性化の不均衡を解消し,特にデータが少ないバッテリー種類の検出精度を向上させる。
    • YOLO11nは,2.6MパラメータでmAP@50:0.779を達成し,CNNベースの検出器の中で最も高い精度を示した。
    • PaQ-RT-DETR-Xは,RT-DETR-Xを2.8%上回るmAP@50:0.782を達成し,全6種類のバッテリーカテゴリで一貫した性能向上を示した。
    • 本研究の結果は,バッテリー関連の産業における物体検出モデル選択の指針を提供する。

    Link: https://arxiv.org/abs/2605.13670

  • SpurAudio:少数の音声分類におけるショートカット学習の研究のためのベンチマーク [cs.CV]目的:少数の音声分類におけるショートカット学習の評価基準
    • 音声認識技術は,限られたデータで学習する必要があるため,実用的な応用範囲が広い。
    • 既存の音声ベンチマークでは,背景や文脈の影響を制御することが難しく,現実世界の状況を反映しにくい。
    • この研究は,音声におけるショートカット学習の影響を明らかにし,よりロバストな少数の音声分類手法の開発に貢献する。
    • SpurAudioベンチマークを用いた結果,多くの最先端手法が,背景との相関が崩れると性能が著しく低下することが示された。
    • 性能低下は,大規模な事前学習済み音声モデルでも確認され,バックボーンの容量不足が原因ではないことが示唆された。
    • 従来のベンチマークで同程度の性能を示す手法でも,偽相関に対する感受性に大きな違いがあり,アルゴリズムの強みと脆弱性が明らかになった。

    Link: https://arxiv.org/abs/2605.13672

  • 弱度教師ありセグメンテーションのセマンティックベース正則化 [cs.CV, cs.AI]目的:弱度教師ありセマンティックセグメンテーションにおける性能向上
    • 画像認識において,ピクセルレベルでの正確なセグメンテーションは重要な課題である。
    • 弱度教師ありセグメンテーションでは,アノテーションコストが高く,精度の向上が課題である。
    • ファウンデーションモデルを効率的に活用し,知識と多様なラベルを取り入れることで精度向上を目指す。
    • 微分可能なファジー論理と深層セグメンテーションモデルを統合し,SAMのファインチューニングを実現した。
    • 論理に基づいたファインチューニングにより,高品質な擬似ラベルを生成し,セグメンテーション精度が向上した。
    • Pascal VOC 2012とREFUGE2データセットで,密集合教師ありベースラインを超える最先端の精度を達成した。

    Link: https://arxiv.org/abs/2605.13674

  • 多様なビジョンモデルにおける普遍的な物体表現の特徴付け [cs.CV, cs.LG, q-bio.NC]目的:多様なビジョンモデルにおける普遍的な物体表現の構造
    • 深層学習モデルは画像認識の性能を飛躍的に向上させたが,その内部表現の理解は遅れている。
    • 異なるモデルがどのような共通の視覚的特徴を獲得しているか,そのメカニズムは不明である。
    • モデル間で共通する視覚的特性を特定し,その普遍性の要因を解明すること。
    • 162種類のビジョンモデルの物体類似性構造を分解し,普遍的な次元とモデル固有の次元を特定した。
    • 普遍的な次元は解釈可能性が高く,概念的な画像特性と強く関連していることが示された。
    • 普遍的な次元が多いモデルは,ヒトやサル脳の視覚活動との相関が高く,生物学的視覚との整合性が示唆された。

    Link: https://arxiv.org/abs/2605.13675

  • 生成フレームワークを用いた医用画像におけるクロスモダリティ画像変換 [cs.CV, cs.AI]目的:医用画像におけるクロスモダリティ画像変換手法の比較評価
    • 医用画像診断において,異なるモダリティ間の画像変換は,被ばく線量の低減や検査効率の向上に貢献する。
    • 既存研究は2D画像に限定され,評価基準が統一されておらず,臨床での検証が不足している。
    • 臨床データを用いた標準化された比較評価により,実用的な画像変換手法の確立を目指す。
    • GANsが潜在的生成モデルよりも全てのタスクで優れた性能を示し,SRGANが統計的に有意な優位性を確立した。
    • 病変レベルの解析では,全てのモデルが小さな病変の識別が困難であり,CTからPETへの変換において病変形状の再現性が高いことが示された。
    • 17名の医師によるVisual Turingテストの結果,合成画像と実画像の間には有意な差が見られず,定量的な指標と臨床的嗜好との間に乖離があることが示唆された。

    Link: https://arxiv.org/abs/2605.13686

  • MedCore:境界を維持する医療コアプルーニング(MedSAM用) [cs.CV, cs.LG]目的:MedSAMの医療画像における効率的なセグメンテーション
    • 医療画像解析において,高精度なセグメンテーションは診断支援や治療計画に不可欠である。
    • 大規模なモデルは計算資源を必要とし,臨床現場での実用性に課題がある。
    • 境界の忠実性を保ちつつ,モデルを軽量化し,臨床応用を可能にすること。
    • MedCoreは,MedSAMのパラメータ数を60.0%,FLOPsを58.4%削減しつつ,高いDice係数(0.9549)と境界F1スコア(0.6388)を達成した。
    • MedCoreは,パラメータを86.6%削減し,90.4G FLOPsの削減を達成しつつ,良好な境界品質を維持した。
    • MedSAMは境界に脆弱な領域に存在し,ヘッドプルーニングはMLPプルーニングよりも境界への影響が大きいことが示された。

    Link: https://arxiv.org/abs/2605.13688

  • StayStill:大規模3Dアイドルアニメーションデータセット [cs.GR]目的:3Dアイドルアニメーションのデータセット
    • バーチャルキャラクターのリアリティ向上に不可欠な分野であり,没入感の向上に貢献する。
    • アイドルモーションに特化したデータセットが不足しており,研究の進展を阻害している。
    • アイドルモーション生成のための学習データを提供し,研究を促進すること。
    • StayStillは,50人の被写体から収集された約6時間の3Dアイドルアニメーションを含む大規模データセットである。
    • 数値評価とユーザ評価の両方に対応した標準化された評価プロトコルを提案した。
    • データセット,評価コード,および事前学習済みベースラインモデルを公開し,今後の研究を支援する。

    Link: https://arxiv.org/abs/2605.13693

  • 放射線治療計画の最適化:フ ルエンスマップ拡散モデル生成とLSTMベース最適化による学習 [cs.CV, eess.IV]目的:放射線治療計画の効率化,柔軟性,機械的実現可能性の向上
    • 現代の放射線治療においてVMATは不可欠であり,腫瘍への高精度照射と正常組織の保護を実現する。
    • 計画プロセスは複雑で時間がかかり,治療設定変更時には再最適化が必要となる場合が多い。
    • 拡散モデルとLSTMを用いて,迅速かつ柔軟な放射線治療計画の最適化を目指す。
    • 拡散駆動型学習による最適化手法により,臨床的に実現可能なフルエンスマップを効率的に生成できる。
    • LSTMベースの最適化モジュールが,フルエンスマップを迅速に改善し,処方線量目標を達成する。
    • 前立腺がんデータセットでの実験により,既存のVMATプランナーよりも計画効率,柔軟性,機械的実現可能性が向上することが示された。

    Link: https://arxiv.org/abs/2605.13713

  • AnyFlow:オンポリシーフローマップ蒸留を用いた任意のステップ数ビデオ拡散モデル [cs.CV, cs.AI]目的:任意のステップ数ビデオ拡散の性能向上
    • ビデオ生成の分野において,一貫性蒸留は重要な手法である。高品質な動画生成への応用が期待されている。
    • 従来の蒸留手法では,ステップ数を増やすと性能が低下し,任意のステップ数に対応できないという課題があった。
    • 本研究は,フローマップを用いてODEサンプリング軌道を最適化することで,任意のステップ数での性能低下を抑制することを目指す。
    • AnyFlowは,既存の一貫性ベースの手法と同等またはそれ以上の性能を,少ないステップ数での生成において実現した。
    • フローマップを用いた蒸留により,ステップ数が増加しても性能が維持され,サンプリング予算とのスケーリングが可能になった。
    • Flow Map Backward Simulationにより,効率的なオンポリシー蒸留を実現し,テスト時の誤差を低減した。

    Link: https://arxiv.org/abs/2605.13724

  • 軌道制御に基づいた人間モーション生成における複数条件の協調 [cs.CV, cs.AI]目的:テキスト記述と空間軌道に基づいた人間モーションの合成
    • 人間のような自然な動きの自動生成は,バーチャルリアリティやロボティクスなど広範な分野で重要である。
    • 既存手法では,テキストと軌道の条件間の矛盾や冗長なモーション表現が,モーション品質の低下や不安定性を招く。
    • 本研究は,テキストと軌道条件を効果的に協調させ,高精度かつ安定した軌道制御を実現することを目指す。
    • 提案手法CMCは,テキストと軌道条件を分離し,段階的に処理することで,矛盾を解消し,正確な軌道追従を可能にする。
    • CMCは,拡散モデルを用いた簡略化された関節表現の生成と,テキスト条件付きのインペインティングモデルによる全身モーション生成を組み合わせる。
    • 実験結果から,CMCがHumanML3DとKITデータセットにおいて,最先端の性能を達成することが示された。

    Link: https://arxiv.org/abs/2605.13729