arXiv雑要約

画像・音声 - 2026/05/12 公開

MicroViTv2：エッジ環境向け省エネなVision Transformer [cs.CV]目的：エッジデバイスにおける効率的なVision Transformerの最適化
- 画像認識技術は，自動運転やロボット工学など幅広い分野で不可欠である。
- 既存のVision Transformerは計算コストが高く，エッジデバイスでの利用が困難である。
- エッジデバイスでの高速かつ省エネな画像認識を実現するための構造設計を提案する。
- 提案手法MicroViTv2は，前モデルMicroViTと比較して最大0.5%の精度向上を達成した。
- MobileViTv2，EdgeNeXt，EfficientViTなどの既存手法を精度で上回り，高速推論と高エネルギー効率を維持する。
- ハードウェアを考慮した設計と構造再パラメータ化が，高精度かつ低消費電力化に重要であることが示された。
Link: https://arxiv.org/abs/2605.10148
制約を考慮したデコーディングによる時系列行動セグメンテーションの改善 [cs.CV]目的：時系列行動セグメンテーションの性能向上
- 動画理解において，行動認識は重要な要素であり，多様な応用が期待される。
- 行動の多様性や曖昧な境界，高コストなアノテーションが課題となっている。
- アノテーションデータから直接抽出可能な制約を用いて，セグメンテーションの構造的誤りを修正する。
- 提案手法は，遷移信頼度，行動境界セット，クラスごとの持続時間といった統計的構造的制約を組み込む。
- 修正されたViterbiデコーディングアルゴリズムにより，再学習やモデルの複雑化なしに推論時の改善が可能となる。
- 本手法は，フルスーパーバイズおよび半教師ありTASモデルの両方において性能を向上させる。
Link: https://arxiv.org/abs/2605.10149
APEX：分類タスクのための音声プロトタイプ説明 [eess.SY, cs.SY, cs.SD, cs.LG]目的：分類器の説明
- 音声認識の精度向上は，人間と機械の円滑なコミュニケーションに不可欠である。
- 既存手法は画像処理の技術を流用しており，音声特有の性質を考慮していない。
- APEXは，音声信号の特性に基づいた，より解釈性の高い説明を生成することを目指す。
- APEXは，事前学習済みの音声分類器に追加学習なしで適用可能である。
- APEXは，時間，周波数，時間周波数領域のプロトタイプを用いて，多様な視点から説明を提供する。
- 実験により，APEXが既存手法よりも直感的で明確な説明を生成することが示された。
Link: https://arxiv.org/abs/2605.10153
MolSight：画像による分子特性予測 [cs.CL, cs.CV, cs.CL]目的：分子特性予測における画像表現の有効性評価
- 分子構造は視覚的に表現可能であり，化学研究において重要な役割を果たす。
- 既存の分子特性予測手法は計算コストやデータエンジニアリングの負担が大きい。
- 画像表現を用いた効率的かつ高精度な分子特性予測手法の開発を目指す。
- 画像処理モデルを用いて分子構造画像から分子特性を予測することに成功した。
- 構造的複雑性を考慮したカリキュラム学習により，予測性能が向上した。
- 既存のマルチモーダルモデルと比較して，大幅に少ない計算量で同等の性能を達成した。
Link: https://arxiv.org/abs/2605.10157
リモートセンシング画像におけるアクティブな疎アノテーションによる指向性オブジェクト検出 [cs.CV]目的：リモートセンシング画像における指向性オブジェクト検出のためのアノテーションコスト削減
- リモートセンシング技術は，環境モニタリングや防災など，幅広い分野で重要性が増している
- 高精度なオブジェクト検出には大量のアノテーションが必要であり，コストと時間がかかる
- 少ないアノテーション量でも高精度な検出を可能にする疎アノテーション技術の発展が求められている
- 提案手法Active-SAOODは，モデルの状態を考慮して，最も有効な疎アノテーションサンプルを能動的に選択する
- Active-SAOODは，ランダムに初期化された疎アノテーションでも安定して動作し，実用性を高める
- 実験の結果，Active-SAOODは既存のSAOOD手法と比較して，性能と安定性を大幅に向上させ，わずか1%のアノテーションでも9%の性能向上を達成した
Link: https://arxiv.org/abs/2605.10162
標準化損失集約によるタスク非依存のノイズラベル検出 [cs.CV, cs.AI]目的：ノイズラベル検出の枠組み
- 大規模医療画像データセットの品質確保は重要である。アノテーションコストが高い問題もある。
- 専門家間や曖昧な症例により，ノイズラベルが混入しやすい。
- 損失の統計的集約により，ノイズラベルを効率的に特定する。
- 提案手法SLAは，交差検証における損失の標準化集約により，ラベルの信頼性を定量化する。
- SLAは，既存手法よりも全てのノイズレベルで性能が向上し，特に低ノイズ環境下での収束が速い。
- SLAスコアが高いサンプルは曖昧または誤ったラベルの可能性を示唆し，再アノテーションを促す。
Link: https://arxiv.org/abs/2605.10165
無限状態多項式到達可能性ゲームを解く自動化手法 [cs.RO, cs.CL, cs.IR, cs.AI, cs.GT]目的：無限状態多項式到達可能性ゲームにおけるREACH側の必勝戦略の存在判定と計算
- 人工知能やリアクティブシンセシスなどへの応用があり，安全性検証や制御システムの設計に不可欠な分野である。
- 状態数が無限であるため，従来のゲーム解法では計算量が膨大になり，現実的な時間で解くのが困難であった。
- 多項式制約で定義される無限状態ゲームにおいて，必勝戦略を自動的に計算し，その正当性を形式的に証明することを目指す。
- ランキング証明書という健全かつ完全な証明規則を提案し，REACH側の必勝戦略を証明する新たな方法を提示した。
- 多項式到達可能性ゲームに対して，必勝戦略を計算する完全自動化アルゴリズムを開発し，計算時間を亜指数関数的に抑えた。
- 古典的なシンデレラゲームにおいて，任意の精度パラメータに対する最適な必勝戦略を初めて計算することに成功した。
Link: https://arxiv.org/abs/2605.10169
V-ABS：行動・観察駆動ビーム探索による動的な視覚的推論 [cs.CV, cs.CL]目的：複雑な多段階の視覚的推論における，行動と観察に基づくビーム探索フレームワーク
- マルチモーダル大規模言語モデルの発展は著しいが，複雑な推論能力の向上が課題である。
- 既存手法は実行フィードバックを軽視し，事前知識と観察結果の乖離（IAOバイアス）を引き起こしやすい。
- 思考者・行動者・観察者の反復による推論と，IAOバイアスを軽減する手法の開発を目指す。
- V-ABSは，思考者・行動者・観察者の反復を通じて，綿密な推論を可能にするビーム探索フレームワークである。
- エントロピーに基づく適応重み付けアルゴリズムにより，事前知識と観察フィードバックのバランスを動的に調整し，IAOバイアスを軽減する。
- 8つの多様なベンチマークにおいて，Qwen3-VL-8Bベースラインに対して平均19.7%の性能向上を達成し，オープンソースおよび商用モデルで一貫した改善が見られた。
Link: https://arxiv.org/abs/2605.10172
屈折を考慮した二媒体ニューラル放射場：測深への応用 [cs.CV]目的：浅水域測深のための屈折を考慮した二媒体ニューラル放射場の構築
- 水中地形調査は，海洋資源管理や防災において重要な役割を果たす。
- 従来のSfMは，屈折現象を無視するため，水深測定に系統的な誤差を生じやすい。
- 本研究は，屈折を考慮したニューラル放射場により，高精度な水深測定を実現することを目指す。
- 提案手法BathyFactoは，シミュレーションデータにおいて，従来のNerfactoやMVSと比較して，高い精度と完全性を示した。
- 水中の光の屈折を考慮することで，より正確な水中点群の再構成が可能となった。
- 提案手法は，航空画像からの水深測定において，実用的な精度が期待できる。
Link: https://arxiv.org/abs/2605.10174
MTA-RL：マルチモーダルTransformerに基づく3Dアフォーダンスと強化学習によるロバストな都市部運転 [cs.CV, cs.AI, cs.RO]目的：都市部運転におけるロバスト性の実現
- 自動運転技術は，交通渋滞の緩和や交通事故の削減に貢献し，社会に変革をもたらす可能性を秘めている。
- 既存の自動運転システムは，複雑な都市環境下での認識と意思決定の信頼性に課題があり，安全性確保が困難である。
- 知覚と制御を統合し，ロバストな都市部運転を実現するための新たなフレームワークの構築が求められている。
- 提案手法MTA-RLは，マルチモーダルTransformerを用いた3Dアフォーダンスの予測と強化学習を組み合わせることで，既存手法を上回る性能を発揮する。
- 特に，CARLA環境における実証実験では，未学習の街区においても高い汎化性能が確認された。
- 経路完了率，総移動距離，違反距離あたりの移動距離において，顕著な改善が見られた。
Link: https://arxiv.org/abs/2605.10177
拡散Transformerにおける概念の検出とリスクコンテンツの抑制 [cs.CV, cs.CR]目的：拡散Transformerにおけるリスクコンテンツの検出と抑制手法
- 近年の画像生成モデルの発展は目覚ましいが，倫理的・法的リスクを伴うコンテンツ生成への懸念が高まっている。
- 既存のリスクコンテンツ抑制手法はU-Netベースのモデルに特化しており，高性能な拡散Transformerモデルへの適用が困難である。
- 拡散Transformerのアーキテクチャに着目し，概念特異的な注意ヘッドの特性を利用することで，リスクコンテンツを検出・抑制する。
- 提案手法AHV-D\&Sは，追加学習なしに，テキストトークンの注意ヘッドベクトル(AHV)を用いてリスクコンテンツを検出する。
- AHV-D\&Sは，ノイズ除去ステップを通してAHVを動的に追跡し，ヘッド固有のリスクスコアに基づいてリスクの高いトークンの注意重みを抑制する。
- 実験により，AHV-D\&Sが性的，著作権侵害，有害なコンテンツを効果的に抑制し，画像品質とロバスト性を維持することが示された。
Link: https://arxiv.org/abs/2605.10180
機械学習と深層学習の分布外検出における比較研究 [cs.CV, cs.AI]目的：分布外検出の性能比較
- AIシステムの信頼性確保は重要であり，無効な入力に対する出力は信頼できないため。
- 医療画像は標準化されたプロトコルで取得されるため，分布外検出タスクにおける画像変動が限られている。
- 限られた視覚的複雑さの分布外検出において，軽量な機械学習手法で深層学習と同等の性能を目指す。
- 機械学習と深層学習は，内部および外部検証データセットで同等の検出性能（AUROC 1.000，精度0.999〜1.000）を示した。
- 機械学習は，同等の精度を維持しながら，深層学習よりも大幅に低いエンドツーエンドの遅延時間を示し，計算効率が高いことが示された。
- 視覚的複雑さの限られた分布外検出では，軽量な機械学習アプローチが深層学習レベルの性能を発揮し，実用的な展開を支援する。
Link: https://arxiv.org/abs/2605.10181
オランダの高解像度リモートセンシングデータのための基盤モデルの開発 [cs.CV, cs.AI]目的：オランダの高解像度衛星画像を利用した基盤モデル
- リモートセンシング技術は，環境変化の監視や資源管理に不可欠であり，その重要性は増している。
- 高解像度データの活用には，計算コストや学習データ量の問題があり，汎化性能の向上が課題である。
- 限られたデータでも汎化性能の高いモデルを開発し，多様なリモートセンシングタスクに応用することを目指す。
- 本モデルは，畳み込みニューラルネットワークとビジョンTransformerを組み合わせることで，多様な景観特徴を捉えることに成功した。
- 時間的情報を活用することで，地形や土地被覆の変化といった時間依存性を学習し，曖昧性を低減し，汎化性能を向上させた。
- オランダ国内のデータに限定しつつ，グローバルベンチマークにおいて，大規模モデルと比較して遜色ない性能を達成した。
Link: https://arxiv.org/abs/2605.10184
DynGhost：量子検出器を用いた動的ゴーストイメージングのための時間モデル化トランスフォーマー [cs.CV, cs.AI]目的：動的ゴーストイメージングにおける画像再構成手法
- ゴーストイメージングは，単一ピクセル検出器で空間情報を再構成する技術であり，多様な応用が期待される。
- 従来の深層学習モデルは，時間的な相関を利用せず，ポアソンノイズを考慮していないため，動的シーンや低光量環境で性能が低下する。
- 時間的相関を考慮したトランスフォーマーアーキテクチャを開発し，現実的な量子検出器の特性を反映した学習を行うことで，再構成性能を向上させる。
- DynGhostは，空間的・時間的注意ブロックを交互に配置したトランスフォーマーアーキテクチャを採用している。
- 物理的に正確な検出器シミュレーションとAnscombe変換に基づく学習フレームワークにより，現実的なハードウェア条件下での性能劣化を抑制している。
- 複数のベンチマーク実験において，DynGhostは従来の再構成手法や既存の深層学習モデルを上回り，特に動的シーンや低光量環境で優れた性能を示した。
Link: https://arxiv.org/abs/2605.10185
SciVQR：高度な科学的推論評価のための学際的なマルチモーダルベンチマーク [cs.CV]目的：高度な科学的推論能力の評価
- 科学的推論は人間の知能の重要な要素であり，学問分野の進歩に不可欠である。
- 既存のベンチマークは，科学的推論の複雑さと追跡可能性を十分に捉えられていない。
- 複雑なマルチモーダル推論タスクへの対応能力向上を目指す。
- 本研究で開発したSciVQRは，数学，物理学，化学など54の学問分野を網羅するマルチモーダルベンチマークである。
- 主要なMLLMの評価から，複雑なマルチモーダル推論タスクにおける限界が明らかになった。
- モデルの推論プロセスを検証することで，科学的知能への進歩に向けた課題が示唆された。
Link: https://arxiv.org/abs/2605.10187
DetRefiner：特徴融合Transformerによるモデル非依存の検出精度向上 [cs.CV]目的：オープンボキャブラリ物体検出における検出精度の向上
- 物体検出技術は，自動運転やロボティクスなど幅広い分野で不可欠であり，その精度向上が求められている。
- 既存のオープンボキャブラリ物体検出は，未知の物体への汎化性能に課題があり，その原因として局所特徴と大域特徴の統合が不十分であることが挙げられる。
- 本研究は，局所特徴と大域特徴の融合を通して，未知物体に対する汎化性能を高め，オープンボキャブラリ物体検出の精度向上を目指す。
- 提案手法DetRefinerは，既存のオープンボキャブラリ物体検出モデルに追加することで，簡単に性能を向上させることができる。
- DetRefinerは，DINOv3などの基盤モデルから得られる画像全体の特徴とパッチレベルの特徴をTransformerエンコーダで融合し，信頼性を推論する。
- COCO，LVIS，ODinW13，Pascal VOCなどのデータセットで実験した結果，DetRefinerは新規カテゴリにおいて最大で+10.1 APの改善を達成した。
Link: https://arxiv.org/abs/2605.10190
ポリフォニア：ポリフォニック音楽におけるゼロショット音色変換のための音響情報に基づく注意機構の調整 [cs.SD, eess.AS]目的：ポリフォニック音楽におけるゼロショット音色変換の実現
- 音楽生成技術の進歩は，新たな音楽編集の可能性を拓いている。
- 既存手法では，特定の楽器の音色のみを変更し，背景を維持することが困難である。
- 密な混合音源において，音色の正確な操作を可能にすることを目的とする。
- ポリフォニアは，音響情報に基づく注意機構の調整により，ターゲット音色の正確な同定を実現した。
- 従来のクロスアテンションが抱えるスペクトル分解能の低さを克服し，境界の漏洩を抑制した。
- PolyEvalPromptsを用いた評価で，ベースラインと比較してターゲットの整合性が15.5%向上した。
Link: https://arxiv.org/abs/2605.10203
3DReflecNet：反射，透明，低テクスチャオブジェクトの3D再構成のための大規模データセット [cs.CV]目的：反射，透明，低テクスチャオブジェクトの3D再構成手法のベンチマークと進歩
- 現実世界における多くの物体は，反射や透明といった特殊な材質を持つため，その3D再構成技術の重要性は高い。
- 既存のデータセットは主に拡散反射するテクスチャを持つ物体に焦点を当てており，現実的な材質の複雑さへの対応が課題である。
- 反射，透明，低テクスチャオブジェクトに対する3Dビジョンモデルの性能向上を目指す。
- 大規模なハイブリッドデータセット3DReflecNetを構築し，物理ベースレンダリングによる合成データと実世界データの双方を含んでいる。
- このデータセットは，画像マッチング，Structure-from-Motion，新規視点合成，反射除去，ライティングの5つのコアタスクに対するベンチマークを可能にする。
- 実験の結果，最先端の手法でも精度を維持することが困難であり，より堅牢な3Dビジョンモデルの必要性が示された。
Link: https://arxiv.org/abs/2605.10204
ナノU：小型ロボットナビゲーションのための効率的な地形セグメンテーション [cs.IR, cs.RO, cs.CV]目的：小型ロボットナビゲーションにおける効率的な地形セグメンテーション
- 屋外の不整地における自律移動ロボットの実現には，正確な地形認識が不可欠である。
- 高性能なモデルは，マイクロコントローラーの制約により，小型ロボットへの実装が困難である。
- マイクロコントローラー上で動作可能な，低メモリで高速な地形セグメンテーションモデルの開発。
- ナノUは数千パラメータという非常にコンパクトなバイナリセグメンテーションネットワークである。
- 量子化アウェア蒸留(QAD)により，軽量でありながら高精度なセグメンテーションを実現した。
- ESP32-S3上で実行し，低消費電力で効率的な知覚処理が可能であることを示した。
Link: https://arxiv.org/abs/2605.10210
VPD-100K：汎用性と詳細な視覚的プライバシー保護に向けて [cs.MM, cs.CV, cs.CY]目的：汎用的なプライバシー検出を促進するための大規模な視覚的プライバシーデータセット
- 視覚データの共有が普及する現代において，プライバシー保護は不可欠な要件となっている。
- 既存のプライバシーデータセットは規模が小さく，注釈が粗雑で，対象領域が限定的であるという課題がある。
- 本研究は，現実世界の複雑なプライバシー情報を捉えるための包括的なデータセットを提供することを目指す。
- 大規模データセットVPD-100Kは，10万枚の画像と33種類の詳細なクラス，19万件以上のオブジェクトインスタンスを含む。
- このデータセットは，ロングテール分布，小さいオブジェクトサイズ，高い視覚的複雑さといった特徴を有しており，実用的な応用において特に有用である。
- 周波数強調モジュールにより，空間的なピクセル強度に依存しない，より繊細なプライバシー情報の捕捉が可能になった。
Link: https://arxiv.org/abs/2605.10229
裏切り者のゲームにおける「左投票均衡」：忠実な者のための決定論的協調戦略 [cs.GT, math.PR]目的：忠実な者が投票を行う際の最適戦略
- 社会的推論ゲームは，心理学やゲーム理論において，協力と欺瞞のダイナミクスを理解する上で重要である。
- 忠実な者は情報が不足しているため，裏切り者の共謀に対して脆弱であり，最適な投票戦略を見つけるのが難しい。
- 裏切り者の共謀に対抗し，忠実な者の勝利確率を高めるための決定論的投票戦略を提案すること。
- 提案する「左投票均衡」プロトコルは，全ての生存者が均等な投票を受け，裏切り者の共謀を抑制する。
- このプロトコルは，特定の条件下で完全ベイズ均衡を構成し，裏切り者の最良の反応を特徴付ける。
- テレビ番組で観測される設定において，「左投票均衡」はランダム投票と比較して，忠実な者の勝利確率を約3倍に向上させる。
Link: https://arxiv.org/abs/2605.10233
AdaptSplat：フィードフォワード3Dガウススプラッティングのためのビジョン基礎モデルの適応 [cs.CV]目的：3Dガウススプラッティングにおける，軽量なアダプター設計
- 3Dシーン表現において，高精度かつ効率的な再構成技術が重要視されている。
- 既存手法では，汎化性能や高周波幾何学的忠実度において課題が残されている。
- 深層ネットワークによる過剰な平滑化を補正し，高周波成分の損失を抑制すること。
- AdaptSplatは，わずか150万パラメータのアダプターを追加するだけで，最先端の性能を達成した。
- 周波数保存アダプター（FPA）により，ビジョン基礎モデルからの方向性に応じた高周波構造情報を抽出・統合する。
- 複数のベンチマークで，安定したドメイン汎化性能と再構成精度が確認された。
Link: https://arxiv.org/abs/2605.10239
単眼画像からの効率的な深さ推定のためのハイブリッドCNN-GNNアーキテクチャ [cs.CV]目的：単眼画像深さ推定における性能向上
- ロボットビジョンや自動運転など，周辺環境の3次元情報を把握する技術は重要である。
- 従来のCNNは局所的な特徴抽出に優れる一方，長距離の空間関係のモデリングが課題であった。
- グラフニューラルネットワークを用いることで，効率的に長距離の空間関係を捉え，深さ推定精度を向上させる。
- GraphDepthは，ResNet-101 U-NetのバックボーンにGraphSAGE層を組み込むことで，局所的特徴と長距離の空間関係を統合した。
- 実験の結果，GraphDepthは屋内シーンにおいて最先端のTransformerと同等の精度を，大幅に低い計算コストで達成した。
- WHU Aerialデータセットでは最高のRMSE（8.24m）を達成し，Mid-Airデータセットへのゼロショット転移性能も高いことが示された。
Link: https://arxiv.org/abs/2605.10251
衝撃的な脱残響のためのコールド拡散アプローチ [cs.SD, cs.AI]目的：打楽器の脱残響処理
- 音楽制作において，ドラムなどの打楽器信号は重要な役割を担う。
- 既存の研究は主に音声に焦点を当てており，打楽器信号の脱残響は未開拓の分野である。
- 打楽器特有の鋭い過渡特性と高密度な時間構造に対応した脱残響手法を開発する。
- 提案手法は，UNetや拡散Transformerをバックボーンとして採用したコールド拡散フレームワークである。
- 実験の結果，合成および実環境のインパルス応答を用いた評価において，既存のベースライン手法を凌駕した。
- 信号ベースおよび知覚的な評価指標において，インドメインおよびアウトオブドメインのテストセットで一貫して良好な性能を示した。
Link: https://arxiv.org/abs/2605.10256
海上高解像度画像に対するDETRの効率化 [cs.CV, cs.RO]目的：海上物体検出の効率向上
- 無人表面航行体（USV）の安全な航行には，小型ブイから大型船舶まで，正確な障害物認識が不可欠である。
- 長距離，小型物体，大規模な変動，エッジコンピューティングの限界，高解像度画像の高いメモリ需要により，リアルタイム検出が困難である。
- Vision Mambaバックボーンと特徴ピラミッドネットワークを用いて，高解像度画像処理の効率と精度を両立させる。
- 提案手法は，RT-DETR（ResNet50バックボーン）と比較して，性能と計算効率のバランスが優れていることが示された。
- ViMバックボーンにより，長距離依存関係を捉えつつ，シーケンス長に対して線形にスケールするため，効率的な高解像度処理が可能となる。
- 特徴ピラミッドネットワークとトークン剪定により，背景領域に対する不要な計算を削減し，計算効率を向上させている。
Link: https://arxiv.org/abs/2605.10269
PolarVSR：連続空間時間偏光ビデオ再構成のための統一フレームワークとベンチマーク [cs.CV]目的：連続空間時間偏光ビデオ再構成手法
- 偏光イメージングは，物体の表面特性を捉え，様々な分野で重要性が増している。
- 既存のDoFPカメラは，ハードウェアの制約から高速な取得が難しく，動的シーンへの応用が制限されている。
- 空間情報と時間情報を統合し，高精度な偏光ビデオ再構成を可能にすることを目指す。
- 本研究では，空間と時間を考慮した偏光ビデオ再構成アーキテクチャを提案し，高忠実度のアップサンプリングを実現した。
- 偏光パラメータの時間変化を解析し，偏光ダイナミクスを監視するフロー誘導偏光変動損失を導入した。
- 大規模なDoFP偏光ビデオベンチマークを構築し，提案手法の有効性を実験的に示した。
Link: https://arxiv.org/abs/2605.10275
表現力豊かなドラムグリッドからのニューラルオーディオコーデックを用いたドラム音源合成 [cs.SD, cs.AI]目的：表現力豊かなドラムグリッドからドラム音源を生成する手法
- 音楽知覚と機械学習の融合領域であり，音楽制作や自動作曲への応用が期待されるため。
- シンボル情報からリアルなドラム音源を直接生成することは，高度な技術を要する課題であるため。
- ドラムグリッドと音源の関係性を学習し，より自然で表現力豊かなドラム音源生成を目指す。
- 提案手法では，ドラムグリッドからニューラルオーディオコーデックの離散コードを予測することで音源を合成する。
- EnCodec，DAC，X-Codecといった最先端のコーデックを用いて，音源表現の選択が生成品質に与える影響を評価した。
- 実験結果から，コーデックのトークン予測はドラムグリッドから音源を生成する有効な手法であることが示された。
Link: https://arxiv.org/abs/2605.10281
PaMoSplat：部品認識とモーション誘導を用いた動的シーン再構成 [cs.HC, cs.CV, cs.GR, cs.RO]目的：動的シーン再構成の精度向上
- ロボティクスやコンピュータビジョンにおいて，動的シーンの理解は重要な課題である。
- 大規模で複雑な動きがあるシーンにおいて，高精度なレンダリングとトラッキングが困難である。
- 部品認識とモーション誘導を取り入れ，より高精度で効率的な動的シーン再構成を目指す。
- PaMoSplatは，シーンの変形に部品を基本単位として捉え，オプティカルフローからモーションの情報を活用する。
- マルチビューのセグメンテーションマスクから3D空間に部品を構築し，差分進化アルゴリズムを用いて部品の剛体運動を推定する。
- 実験の結果，既存手法と比較してレンダリング品質，トラッキング精度，収束速度が向上し，4Dシーン編集などの応用が可能となった。
Link: https://arxiv.org/abs/2605.10307
LimeCross：構造的一貫性を備えた文脈条件付き階層型画像編集 [cs.CL, cs.CV]目的：文脈条件付き階層型画像編集のためのフレームワーク
- 画像編集において，非破壊的な反復と柔軟な再構成を可能にする階層型アセットの利用が一般的である。
- 階層型画像の制御可能な編集は依然として難しく，手動編集にはレイヤー間の調整が必要となる。
- レイヤー間の整合性を保ちながら，テキストによる編集を可能にする新しいフレームワークの構築。
- LimeCrossは，他のレイヤーからの文脈的手がかりを利用し，レイヤー間の整合性を維持することで，編集対象レイヤーの純度を向上させる。
- 提案手法は，背景から前景への漏洩や不安定な透明度といった既存手法の問題点を改善し，合成された画像のリアリズムを高める。
- LayerEditBenchというベンチマークデータセットと評価プロトコルを導入し，文脈条件付き階層型編集の有効性を実証した。
Link: https://arxiv.org/abs/2605.10319
アルファブレンディング仮説：ディープフェイク検出におけるショートカット [cs.CV]目的：ディープフェイク検出におけるメカニズムの解明
- ディープフェイクは社会に深刻な影響を与えるため，高精度な検出技術が求められている。
- 既存の検出手法は，データセット間の汎化性能が課題となっている。
- ディープフェイク検出器が利用する低レベルな合成アーティファクトに着目し，検出性能向上を目指す。
- 最先端のディープフェイク検出器は，セマンティックな異常や生成モデルの指紋ではなく，アルファブレンディング探索器として機能していることが示された。
- 実画像と自己ブレンディング画像（SBI）を組み合わせたBlenDという手法が提案され，既存のデータセットで高い汎化性能を示した。
- ブレンディング探索器と，ブレンディングに強いモデルを組み合わせることで，最高水準のAUROC 94.0%を達成した。
Link: https://arxiv.org/abs/2605.10334
EvoStreaming：オフラインの動画モデルは，ネイティブにストリーミングアシスタントとなる [cs.CV, cs.AI]目的：動画ストリーミング理解のためのインタラクションポリシーの改善
- 動画理解は，AIアシスタントの応答性を左右する重要な研究分野である。
- 既存の動画言語モデルはオフライン推論向けであり，リアルタイム応答のタイミング制御が課題である。
- EvoStreamingは，自己進化によりストリーミング適応を効率的に行うことを目指す。
- EvoStreamingは，わずか1,000サンプルで，5つの動画LLMのストリーミング性能を最大10.8ポイント向上させた。
- 自己生成データを利用することで，外部の教師データなしに，効率的なインタラクションチューニングを実現した。
- オフライン動画性能を維持しつつ，ストリーミングアシスタントへの適応が可能であることが示された。
Link: https://arxiv.org/abs/2605.10343
異なる視点画像間の幾何学的ギャップを埋めるBGG：ジオロケーションのためのビジョン基盤モデルの適応 [cs.CV]目的：クロスビュージオロケーションの性能向上
- 画像検索による位置特定技術は，ドローンや衛星画像など様々な応用場面で重要性が高まっている。
- ドローンと衛星画像のような異なる視点画像間には幾何学的な差異があり，位置特定を困難にする要因となっている。
- 本研究は，ビジョン基盤モデルを活用し，その幾何学的ギャップを効率的に埋めることで，位置特定精度を向上させる。
- 提案手法BGGは，ビジョン基盤モデルの汎用的な視覚表現を活用し，クロスビュー画像から堅牢で一貫性のある特徴を捉える。
- マルチグリナーリティ特徴エンハンスメントアダプター(MFEA)と周波数認識構造集約(FASA)モジュールにより，少ない学習コストで幾何学的ギャップを効果的に埋める。
- University-1652とSUES-200データセットにおける実験により，BGGが既存手法を上回り，低コストで最先端の位置特定性能を達成することが示された。
Link: https://arxiv.org/abs/2605.10345
物体検出のための可搬性のあるアクティブラーニング [cs.CV, cs.AI, cs.LG]目的：物体検出におけるラベル効率の向上
- 物体検出は，自動運転や画像認識など幅広い分野で不可欠な技術である。
- アノテーション作業のコストが高いことが，物体検出のスケールアップを阻害する要因となっている。
- モデル変更や学習パイプラインの調整なしに，効率的なデータ選択を実現することを目指す。
- PALは，モデルに依存せず，推論出力のみを用いてデータを選択する汎用性の高いフレームワークである。
- クラスごとのインスタンス不確実性と画像レベルの多様性を組み合わせることで，ラベル効率と検出精度を向上させる。
- COCO，PASCAL VOC，BDD100Kの実験により，既存のアクティブラーニング手法と比較して優れた性能が確認された。
Link: https://arxiv.org/abs/2605.10349
DySurface：明示的ガウス関数と陰関数を橋渡しする一貫性のある4D表面再構成 [cs.NI, math.OC, cs.CV]目的：動的シーンにおける一貫性のある幾何学的表面の再構成
- 動的シーンの新しい視点合成は進歩しているが，時間的に一貫した幾何学的表面の再構成は課題である。
- NeRFや3DGSは強力だが，光度最適化のみでは幾何学的な曖昧さが生じ，表面が途切れることがある。
- 3DGSとSDFの構造的相違を解消し，幾何学的なガイドを明示的に提供することで，表面再構成の質を向上させる。
- DySurfaceは，明示的ガウス関数と陰関数SDFを組み合わせた新しいフレームワークである。
- VoxGS-DSDFブランチにより，変形ガウス関数を用いて動的疎なボクセルグリッドを構築し，SDFフィールドに幾何学的ガイダンスを与える。
- 実験結果から，DySurfaceは最先端のベースラインを上回り，幾何学的な精度を向上させながら，競争力のあるレンダリング性能を維持することが示された。
Link: https://arxiv.org/abs/2605.10360
CellDX AI Autopilot：エージェントによる病理分類器のトレーニングとデプロイ [cs.CV]目的：病理分類器のトレーニングとデプロイの自動化
- 病理診断の精度向上にAI活用が期待される一方，専門知識やリソースが必要
- AIモデル構築には，大規模データセット，GPU，専門知識，エンジニアリングリソースが必要
- 専門知識やリソースがなくてもAIモデルを構築・デプロイできる環境を提供する
- CellDX AI Autopilotは，自然言語によるAIエージェントとの対話を通じて，病理分類器のトレーニング，評価，デプロイを可能にする。
- 本プラットフォームは，データセットのキュレーション，ハイパーパラメータチューニング，モデル比較，および人間によるループでのデプロイを支援する。
- 32,000件以上の症例と66,000枚のH&E染色済み病理画像を含む，事前構築されたデータセット上で動作する。
Link: https://arxiv.org/abs/2605.10362
最大k個の商品に対する近似的な羨望フリー配分 [cs.GT]目的：バンドル内の商品の加法的な価値を持つエージェントに対する，最大k個の商品における近似的な羨望フリー配分
- 資源配分の公平性が重要視される分野であり，特に羨望フリー配分は，エージェント間の公平性を高める上で重要な概念である。
- 一般的に，羨望フリー配分を見つけることは計算困難であり，特に商品の数が増加すると，その難易度は高まる。
- エージェント数に関わらず，より多くの商品に対して近似的な羨望フリー配分を効率的に計算することを目指す。
- 任意の$k>2$に対して，$\frac{k+1}{k+2}$-EFkX配分が存在し，多項式時間で計算可能であることが示された。
- その結果として，任意の数のエージェントに対して$3/4$-EF2X配分が存在することが導かれた。これは，$2/3$-EFX配分が最大7エージェントに対してのみ知られているのとは対照的である。
- 8エージェントに対して$2/3$-EFX配分を達成するアルゴリズムが開発された。また，EFkXグラフの向きが存在しない場合があり，その存在判定はNP完全であることが証明された。
Link: https://arxiv.org/abs/2605.10371
ハロー分離誘導による水中マルチスケール画像復元 [cs.DC, cs.DB, cs.CL, cs.CV]目的：水中画像の品質劣化に対する復元手法
- 水中画像は海洋探査や資源調査に不可欠であり，その品質向上は重要な課題である。
- 人工光源によるハロー現象が画像の劣化を招き，水中画像処理の精度を低下させている。
- ハロー分離とマルチスケール復元により，人工光源下での水中画像処理のロバスト性を向上させる。
- 本研究では，反復構造に基づく単一のハロー画像補正手法を提案した。
- ハロー層分離サブネットワークとマルチスケール復元サブネットワークにより，ハローの影響を抑制し，画像情報を復元する。
- 実験結果から，提案手法が実環境下における水中画像の復元性能を向上させることが示された。
Link: https://arxiv.org/abs/2605.10374
SleepWalk：指示に基づく視覚言語ナビゲーションのストレステストのための三層ベンチマーク [cs.CV]目的：指示に基づいた軌道予測の評価
- 視覚言語モデルの発展は目覚ましいが，現実世界での動作に繋がるか不明。
- 既存のナビゲーションベンチマークは広範囲探索に偏り，局所的な行動推論が不足。
- 空間的・時間的複雑性の高い環境下での，言語と行動の整合性を評価する。
- 最新の視覚言語モデルは，ある程度空間的に整合性があり，実行可能で，意図された行動に沿った軌道生成が可能。
- 遮蔽，インタラクション制約，複数ステップの指示といった状況下で，空間推論の系統的な失敗が明らかになった。
- タスクの難易度が増すにつれて，性能が低下する傾向が確認された。
Link: https://arxiv.org/abs/2605.10376
時間サンプリング周波数が重要である：エンドツーエンド運転軌道予測における容量を考慮した研究 [cs.CV, cs.RO]目的：エンドツーエンド運転軌道予測における時間サンプリング周波数の影響
- 自動運転技術の発展は，安全で効率的な移動手段の実現に不可欠である。
- 高周波サンプリングが必ずしも性能向上に繋がるとは限らず，最適な周波数の決定が課題である。
- モデルの容量を考慮し，最適な時間サンプリング周波数を特定し，予測性能を向上させる。
- 小規模なE2Eモデルは，低いまたは中間的な周波数で最も優れた3秒後のADE（平均絶対誤差）を示した。
- 一方，AutoVLAのような大規模モデルは，全てのデータセットで最高の周波数で最高のADEとFDE（最終絶対誤差）を達成した。
- これらの結果は，時間サンプリング周波数を固定するのではなく，報告し，調整すべきであることを示唆している。
Link: https://arxiv.org/abs/2605.10388
Phoenix-VL 1.5 Medium 技術報告 [cs.CL, cs.AI, cs.CV]目的：地域言語およびシンガポールへの適応を目的とした，1230億パラメータのネイティブマルチモーダル・多言語基盤モデル
- AI技術の発展は，経済成長や社会課題の解決に不可欠である。特に，地域に特化したAIモデルの構築は，その効果を最大化する。
- 汎用的なAIモデルでは，地域固有の知識や文化に対応できない場合がある。シンガポールのような多文化国家では，その問題が顕著である。
- シンガポール固有のデータを用いた学習により，地域に最適化されたAIモデルを開発し，その性能を評価すること。
- Phoenix-VL 1.5 Mediumは，シンガポールにおけるマルチモーダル，法律，政府政策のベンチマークで最先端の性能を達成した。
- 汎用的なマルチモーダル知能，多言語，STEM分野のベンチマークにおいても，国際的に競争力のある性能を維持している。
- 地域知識のベンチマークと，機関に準拠したモデルの行動と安全性を評価するための新しい評価スイートを導入した。
Link: https://arxiv.org/abs/2605.10391
Sens-VisualNews：扇情的な画像検出のためのベンチマークデータセット [cs.CV]目的：扇情的な画像検出に関する研究
- メディアにおける扇情的なコンテンツの検出は，誤情報の特定や拡散防止に重要である。
- 扇情的な画像は，批判的評価を迂回し，バイラル拡散を加速させるため，検出が困難である。
- 本研究は，扇情的な画像検出タスクを支援するためのベンチマークデータセットを構築し，評価を行う。
- 新しいベンチマークデータセット「Sens-VisualNews」を構築し，9,576枚のニュース画像に扇情的な概念の有無に関する注釈を付与した。
- 様々な最先端のマルチモーダルLLMを用いて，ゼロショットおよびファインチューニング設定におけるプロンプト依存性，性能，ロバスト性を評価した。
- 扇情的な画像検出におけるLLMの性能を検証し，今後の研究の基盤を提供する。
Link: https://arxiv.org/abs/2605.10394
AnomalyClaw：ツールに基づく反証による汎用的な画像異常検知エージェント [cs.CV, cs.AI]目的：画像異常検知における，ドメインを横断したモデルの汎化性能向上
- 画像異常検知は，産業検査，医療画像診断など幅広い分野で重要であり，品質管理や安全確保に貢献する。
- ドメイン固有の異常定義やデータ形式が異なるため，単一ドメインで学習したモデルの汎化が困難である。
- 大規模なクロスドメインデータで事前学習されたビジョン言語モデル（VLM）の信頼性を高め，異常検知の精度を向上させる。
- AnomalyClawは，異常判定を多段階の反証プロセスとする訓練不要の異常検知エージェントである。
- CrossDomainVAD-12ベンチマークにおいて，GPT-5.5，Seed2.0-lite，Qwen3.5-VL-27Bで一貫した性能向上を達成した。
- 内部分岐の不一致からルールブックを構築する自己進化拡張により，さらなる性能向上が確認された。
Link: https://arxiv.org/abs/2605.10397
ライフログ動画ストリームがプライバシーと有用性のトレードオフを不可避にする [cs.CV]目的：ライフログ動画ストリームにおけるプライバシーと有用性のトレードオフ
- ウェアラブルデバイスの普及により，常に周囲を記録するライフログ技術が重要性を増している。
- ライフログ動画はプライバシー侵害のリスクが高く，技術開発の障壁となっている。
- ライフログ動画のパイプライン全体を考慮した，プライバシーと有用性を両立する設計が求められている。
- ライフログ動画は，次世代AIシステムの有用性を高める一方で，プライバシーリスクも顕在化させる。
- 既存のプライバシー保護技術は，特定の攻撃にしか対応できないか，有用性を大きく損なう。
- パイプラインを意識したプライバシー保護設計と，プライバシー漏洩の定量化が今後の課題である。
Link: https://arxiv.org/abs/2605.10404
漸進的なフォトリアリスティック簡略化 [cs.CV]目的：画像の簡略化手法
- 画像処理分野において，視覚情報の過多が問題となっており，効率的な情報伝達が求められている。
- 既存の簡略化技術は非フォトリアリスティックな表現に偏り，写真のリアリティを損なう場合がある。
- フォトリアリスティックな見た目を維持しつつ，画像の複雑さを段階的に低減する手法を開発する。
- 本研究では，セマンティックな理解と生成編集を組み合わせることで，高品質な簡略化を実現した。
- 視覚言語モデルを用いて削除対象を特定し，学習された検証器がフォトリアリズムを保証する反復的なパイプラインを構築した。
- 単一画像から簡略化シーケンスを直接予測する画像から動画生成モデルを開発し，効率化を図った。
Link: https://arxiv.org/abs/2605.10409
CoWorld-VLA：多専門家ワールドモデルによる自動運転 [cs.CV, cs.AI]目的：自動運転のための多専門家ワールドモデルの構築と，それを用いた行動計画
- 自動運転技術は，交通事故の削減や移動の効率化に不可欠であり，社会実装が期待されている。
- 既存の行動計画手法では，連続的な時空間構造の維持や，ワールドモデルを直接行動生成に利用することが困難である。
- CoWorld-VLAは，明示的な条件としてワールド表現を活用することで，より安全かつ正確な行動計画を目指す。
- CoWorld-VLAは，多様な情報源からの監督を通じて補完的なワールド情報を抽出し，VLAモデル内の専門家トークンとしてエンコードする。
- 実験の結果，CoWorld-VLAは，衝突回避や軌跡の精度において優れた性能を発揮し，NAVSIM v1ベンチマークで競争力のある結果を達成した。
- 専門家トークンの相補性と，行動生成のための計画条件としての有効性が，消去実験によって検証された。
Link: https://arxiv.org/abs/2605.10426
WorldReasonBench：ビデオ生成モデルの未来の世界状態予測能力に対する人間基準のストレステスト [cs.CV]目的：ビデオ生成モデルにおける世界状態予測能力の評価
- ビデオ生成技術の進展により，現実世界のシミュレーションが可能になりつつあり，その応用範囲は広い。
- 既存の評価指標は視覚的な品質に偏っており，時間的・因果的な整合性といった世界理解能力を十分に評価できていない。
- ビデオ生成モデルが物理，社会，論理，情報的に整合性のある未来状態を予測できるかを評価する。
- WorldReasonBenchは，初期状態と行動を与えられた際に，将来のビデオが現実世界の進化を反映しているかを評価する。
- 評価は，構造化されたQAと推論フェーズの診断に基づくProcess-aware Reasoning Verificationと，多次元品質評価によって行われる。
- 実験の結果，多くのビデオ生成モデルにおいて，視覚的な妥当性と世界に関する推論能力の間には依然として隔たりがあることが示された。
Link: https://arxiv.org/abs/2605.10434
空間圧縮を超えて：オープンワールド3D構造のためのインターフェース中心生成状態 [cs.LG, cs.CV]目的：オープンワールド3D構造における生成表現の新たなアプローチ
- 3D表現は，仮想現実やロボティクスなど広範な応用分野において不可欠である。
- 既存の3Dトークナイザーは空間圧縮に重点を置いており，複雑な構造の表現に課題がある。
- インターフェース中心生成状態を用いることで，構造の組み立てレベルでの推論を可能とする。
- 本研究では，コンポーネントの状態を条件とした局所トークン（C2LT-3D）を提案し，圧縮中心のアプローチの課題を克服した。
- C2LT-3Dは，局所形状，コンポーネントの所有権，接続の有効性を変数として明示的に扱うことで，構造のロバスト性を向上させた。
- 実験の結果，C2LT-3Dは，敵対的な接続条件下でも潜在変数を操作可能であることが示され，構造的推論の可能性を示唆した。
Link: https://arxiv.org/abs/2605.10438
拡散モデルにおけるパラメータ空間からの記憶のフィルタリング [cs.CV]目的：拡散モデルのLoRAにおける記憶の軽減
- 拡散モデルは画像生成において高性能だが，学習データの影響を受けやすい。
- LoRAは軽量にカスタマイズ可能だが，学習画像を記憶するリスクがある。
- 公開されたLoRA weightsのみから記憶を軽減する手法の提供。
- 提案手法BAFは，LoRA更新をスペクトルチャネルに分解し，事前学習済みバックボーンの主空間との整合性を測る。
- 整合性の低いチャネルを抑制することで，記憶されたコンテンツの除去を目指す。
- 複数のデータセットで実験の結果，BAFは記憶を軽減しつつ，生成品質を維持・向上させることを確認した。
Link: https://arxiv.org/abs/2605.10439
Uni-Synergy：協調強化学習によるパーソナライズされた推論のための理解と生成の架け橋 [cs.DC, cs.CV]目的：パーソナライズされた理解と生成の間のギャップを埋めること
- 汎用的なタスクで優れた性能を示す統一マルチモーダルモデルの活用
- 既存手法では，理解と生成の潜在的な相乗効果を十分に捉えられていない
- 強化学習を通じて，理解と生成を統合的に最適化し，推論能力を向上させること
- Sync-R1は，統合された報酬設計のもと，理解を生成に導き，生成品質が理解を洗練するサイクルを実現した。
- Sync-GRPOとDGSにより，効率的な二重タスクの相乗効果と，勾配分散の低減，収束の加速に貢献した。
- UnifyBench++を用いた実験により，既存手法を上回る性能，優れたクロス・タスク推論，堅牢なパーソナライズが示された。
Link: https://arxiv.org/abs/2605.10445
コンピュータビジョンを用いた魚群集団とバイオマスの自動高頻度定量化 [cs.CV]目的：魚群集団の構造定量化
- 生態系変動の理解に不可欠であり，生物多様性保全活動に貢献する研究分野である。
- 既存手法は高頻度かつ定量的な観察が困難であり，労働集約的または信頼性の低い推定値となる。
- 高頻度かつ定量的な魚群集団モニタリングを実現し，時間的変動の解明を目指す。
- 開発した自動フレームワークは，深層学習に基づく魚類識別，多物体追跡，3次元再構成を統合することで，種レベルでの個体数とバイオマスを推定する。
- 20日間の時間的変動データから，種豊度，個体数，バイオマスが種構成の変化と関連していることを明らかにした。
- 本手法は，従来の視覚調査や環境DNA調査を補完し，継続的かつ非侵襲的なモニタリングを可能にする。
Link: https://arxiv.org/abs/2605.10449