arXiv雑要約

画像・音声 - 2026/03/10 公開

DECADE: Rb-82動的心臓PET画像ノイズ軽減のための時間的に一貫性のある教師なし拡散モデル [cs.CV, cs.AI]目的：Rb-82動的心臓PET画像のノイズ軽減
- 心臓血管疾患の臨床診断においてRb-82動的PET画像は重要だが，短半減期によりノイズが多い。
- 既存の深層学習ノイズ軽減法は，ペアデータ不足やトレーサー動態，フレーム依存性ノイズ変動により限界がある。
- 本研究は，ペアデータなしでRb-82動的心臓PET画像のノイズを効果的に軽減することを目的とする。
- DECADEは，早期から後期までの動的フレームに一般化する教師なし拡散フレームワークである。
- DECADEは，ノイズが多いフレームをガイダンスとして活用し，定量的な精度を維持した高品質な動的・パラメトリック画像を実現した。
- DECADEは，UNetベースや他の拡散モデルと比較して，画像品質とK1/MBF定量化において優れた性能を示した。
Link: https://arxiv.org/abs/2603.07759
MedQ-Deg：医療画像品質劣化に対するMLLMの評価のための多次元ベンチマーク [cs.CV]目的：医療画像品質劣化におけるMLLMの評価
- 臨床現場では不可避な画像劣化に対応できるMLLMの性能評価が重要である。
- 既存のベンチマークは，画像品質の多様な劣化を網羅的に評価できていない。
- 様々な劣化条件下におけるMLLMの信頼性・堅牢性を評価するためのベンチマークを提供する。
- MedQ-Degは，18種類の劣化，30の能力次元，7つのモダリティを含む大規模なベンチマークである。
- 評価の結果，劣化の度合いが増すにつれてモデルの性能が低下することが示された。
- 多くのモデルは，精度が低下するにもかかわらず，過剰な自信を示す「AIダンニング・クルーガー効果」を示した。
Link: https://arxiv.org/abs/2603.07769
幾何学的知識を活用した連合デュアル知識蒸留アプローチ：リモートセンシング衛星画像への応用 [cs.CV]目的：リモートセンシング衛星画像の解析における，幾何学的知識を活用した連合学習フレームワークの提案
- リモートセンシングは，地球観測や環境モニタリングに不可欠であり，その重要性は高い。
- 複数衛星からの画像データは規模が大きく，データの分布にばらつきがあり，効果的なモデル学習が困難である。
- データの分布のばらつきを克服し，よりロバストで高性能なリモートセンシングモデルを構築することを目指す。
- 提案手法GK-FedDKDは，複数のデータセットにおいて最先端の性能を達成した。
- 特にEuroSATデータセットにおいて，Swin-Tバックボーンを用いた提案手法は，従来の最良手法を平均68.89%上回った。
- 幾何学的知識を活用することで，局所的な特徴表現を強化し，グローバルな知識を共有することが可能になった。
Link: https://arxiv.org/abs/2603.07774
パラメータ化された筆致スタイル変換 [cs.RO, cs.CV, cs.GR]目的：筆致スタイル変換手法の開発
- 画像処理技術は，芸術表現の自動化に不可欠であり，創造性の拡張に貢献する。
- 既存手法はピクセル単位での処理が主流であり，筆致のような芸術的特徴の再現が困難である。
- 筆致ドメインでの処理により，より自然で芸術的なスタイル変換を実現することを目指す。
- 本研究では，画像をRGBドメインではなく筆致ドメインで表現するスタイル変換手法を提案した。
- 提案手法は，既存のピクセルベースの手法と比較して，視覚的な改善が認められた。
- 筆致に基づいた表現は，より自然で芸術的な画像生成に有効であることが示唆された。
Link: https://arxiv.org/abs/2603.07776
OrdinalBench：ビジョン言語モデルにおける序数理解の汎化限界を診断するためのベンチマークデータセット [cs.CV]目的：ビジョン言語モデルにおける序数理解の汎化限界の診断
- マルチモーダルなタスクにおいて，ビジョン言語モデルの性能は向上しているが，序数理解には課題が残る。
- 既存のベンチマークでは，序数理解の能力を的確に評価できず，モデルの弱点を特定することが困難である。
- 序数理解を評価するための標準化されたベンチマークを提供し，モデルの弱点を明らかにすること。
- OrdinalBenchは，N番目のオブジェクト識別タスクを通じて序数理解を評価するベンチマークである。
- 大規模な序数や複雑な経路において，GPT-5，Gemini 2.5 Flash Lite等のモデルは性能が低下することが示された。
- このベンチマークは，より高度な順序推論能力を備えたビジョン言語モデルの開発を促進するための基盤となる。
Link: https://arxiv.org/abs/2603.07786
SGI：効率的かつコンパクトな大規模画像表現のための構造化2Dガウス関数 [cs.CV]目的：高解像度画像の効率的かつコンパクトな表現
- 画像表現技術は，コンピュータビジョンの様々なタスクにおいて基礎となる重要な技術である。
- 2Dガウススプラッティングは性能が高い一方，高解像度画像ではガウス関数の最適化と保存に課題がある。
- ガウス関数の構造化による冗長性の削減と，最適化の高速化を目指す。
- 提案手法SGIは，既存の非量子化2Dガウス関数法と比較して最大7.5倍の圧縮率を達成した。
- SGIは，量子化された既存手法に対しても1.6倍の圧縮率を実現し，最適化速度もそれぞれ1.6倍，6.5倍向上した。
- 画像品質の劣化はなく，むしろ向上した結果が得られた。
Link: https://arxiv.org/abs/2603.07789
4DRC-OCC：4Dレーダーとカメラの融合によるロバストなセマンティック占有予測 [cs.CV]目的：3次元セマンティック占有予測の実現
- 自動運転技術の安全性向上には，多様な環境下でのロバストな知覚が不可欠である。
- 悪天候や照明条件の悪い環境下では，3次元セマンティック占有予測の精度が課題となっている。
- 4Dレーダーとカメラの情報を統合することで，環境条件に左右されない高精度な予測を目指す。
- 4Dレーダーとカメラの情報を融合することで，悪天候時などにおいてもロバストな3次元セマンティック占有予測が可能となった。
- カメラの深度情報を活用することで，2次元画像から3次元シーンを再構成する精度が向上した。
- セマンティック占有モデルの学習用として，自動アノテーションされた大規模データセットを新たに構築した。
Link: https://arxiv.org/abs/2603.07794
MWM：行動条件付き一貫性のある予測のためのモバイルワールドモデル [cs.CV, cs.RO]目的：行動条件付きの一貫性のある予測を可能にするモバイルワールドモデル
- ロボットの自律的なナビゲーションにおいて，未来予測に基づく計画立案は重要である。
- 既存のナビゲーションワールドモデルは，行動条件付きの一貫性を欠いている場合が多い。
- 多段階ロールアウトにおける予測のずれと計画の精度低下を解決すること。
- 提案手法MWMは，構造事前学習と行動条件付き一貫性(ACC)事後学習を組み合わせることで，ロールアウトの一貫性を改善する。
- 推論一貫性のある状態蒸留(ICSD)を導入し，ロールアウトの一貫性を維持しつつ，効率的な推論を実現する。
- ベンチマークおよび実世界のタスクにおいて，視覚的忠実度，軌跡精度，計画成功率，推論効率の向上が確認された。
Link: https://arxiv.org/abs/2603.07799
ハイブリッドスティッチ：拡散モデル加速のためのピクセルレベルとタイムステップレベルのモデル結合 [cs.HC, cs.CY, cs.CV, cs.AI]目的：拡散モデルの高速化
- 画像生成の分野において，拡散モデルは高性能だが計算コストが高いという課題がある。
- 既存手法では一部タイムステップの計算を削減するのみで，タイムステップ内の計算負荷の差が無視されている。
- 画像内の複雑さに応じてモデルを切り替えることで，計算効率を向上させる。
- ハイブリッドスティッチは，Stable Diffusion 3において既存手法よりも高速な1.83倍の速度向上を達成した。
- 生成画像を，容易にレンダリング可能な領域と，より複雑な領域に分離する。
- 小規模モデルで粗いスケッチを作成し，大規模モデルで複雑な領域を編集・改良する。
Link: https://arxiv.org/abs/2603.07815
ハワイ雲霧林低層植生のフェノロジーと生態的相互作用の追跡：低コストカメラトラップとビジュアルファンデーションモデルの活用 [cs.CV]目的：ハワイ雲霧林低層植生のフェノロジー変化と動植物相互作用の解明
- 植物のフェノロジーは生態系に大きな影響を与えるが，熱帯地域では特に研究が不足している。
- 個々の植物レベルでのフェノロジー把握は難しく，従来の調査手法では詳細な変化を見逃す可能性がある。
- カメラトラップ画像とビジュアルファンデーションモデルを用いて，詳細なフェノロジー変化と相互作用を明らかにすること。
- 低コストのカメラトラップと画像解析により，現地調査に匹敵するフェノロジーの変化を捉えることができた。
- 従来の粗いサンプリングでは検出できなかった，時間分解能の高いフェノロジー傾向を明らかにした。
- 植物のフェノロジーと動物の生態を駆動する要因の解明に向けた新たな知見が得られた。
Link: https://arxiv.org/abs/2603.07817
融合複雑性の反転：牧草バイオマス回帰における単純なクロスビューモジュールがSSMおよびクロスビューアテンションTransformerを上回る理由 [eess.SY, cs.SY, eess.SP, cs.CV, cs.LG]目的：牧草バイオマス回帰のための画像解析における融合メカニズムの性能評価
- 持続可能な畜産管理には，正確な牧草バイオマス推定が不可欠である。
- 現実世界のモニタリングでは，データセットが小さく，不均衡で，アノテーションが少ないという課題がある。
- 限られた農業データにおける最適なモデルアーキテクチャを特定し，性能向上の方針を示す。
- 少ない農業データにおいては，2層のゲート付きdepthwise畳み込みが，クロスビューアテンションTransformerや双方向SSM，Mambaよりも優れた性能を示すことが明らかになった。
- バックボーンの事前学習スケールが，全てのアーキテクチャ選択において性能を決定づける主要因であり，DINOv2からDINOv3へのアップグレードでR^2値が5.0ポイント向上した。
- 種，状態，NDVIといったメタデータの学習のみではR^2値が約0.829で頭打ちとなり，融合による性能向上の幅が縮小することが示された。
Link: https://arxiv.org/abs/2603.07819
クロスドメイン画像再構成のための転移可能最適化ネットワーク [cs.RO, cs.HC, eess.SY, cs.SY, cs.RO, cs.CL, cs.RO, eess.SY, cs.SY, cs.CV, cs.LG, math.OC]目的：クロスドメイン画像再構成における転移学習フレームワーク
- 画像再構成は医療診断などに応用され，高精度化が求められている。
- 十分な学習データがない場合，再構成精度が低下する課題がある。
- 異なるドメインの知識を活用し，少ないデータでの再構成精度向上を目指す。
- 提案手法は，多様なドメインのデータを用いた事前学習により，汎用的な特徴抽出器を構築する。
- その後，ターゲットドメインに適応するドメインアダプターを少量データで学習する。
- 実験結果から，提案手法の転移学習能力が確認された。
Link: https://arxiv.org/abs/2603.07831
GazeShift：VRのための教師なし視線推定とデータセット [cs.CV]目的：VR環境における視線推定のためのデータセットと，教師なし学習フレームワーク
- VRシステムにおいて，視線推定は没入感向上やインタラクションの自然化に不可欠である。
- 既存の視線推定研究は，大規模かつ高品質なVR環境下でのデータセットの不足に制約されている。
- オフアキスカメラ構成下での大規模データセットと，ラベルなし学習による視線推定技術を確立すること。
- 本研究では，68人分の近赤外画像を収録したVRGazeデータセットを公開した。
- GazeShiftは，ラベルなしで視線表現を学習するアテンション駆動型のフレームワークであり，コンパクトかつリアルタイムなモデルを実現した。
- VRGazeにおける平均誤差は1.84度，MPIIGazeにおける人非依存誤差は7.15度であり，既存手法よりもパラメータ数と計算量が大幅に少ない。
Link: https://arxiv.org/abs/2603.07832
手術ビデオにおける学習不要の時系列物体追跡 [cs.CV]目的：手術ビデオにおける時系列物体追跡手法
- 手術支援技術の向上は，低侵襲手術の精度向上と患者負担軽減に不可欠である。
- 既存手法は，ピクセルレベルのアノテーションコストやラベル不整合の問題を抱えている。
- 事前学習済みの拡散モデルを活用し，アノテーションコストを削減しつつ高精度な追跡を実現する。
- 拡散モデルの特徴量を用いることで，異なるデコーダレベルや時間フレーム間で一貫性のある物体局在化が可能となった。
- 公開データセットであるCholeSeg8Kにおいて，既存手法を上回る性能が確認された (ピクセル正解率79.19%, 平均Jaccardスコア56.20%, 平均Fスコア79.48%)。
- 本研究は，テキスト画像拡散モデルの新たな応用例を示すとともに，低侵襲手術ビデオ分析の発展に貢献する。
Link: https://arxiv.org/abs/2603.07839
SoundWeaver：テキストから音声への拡散モデルのサービングにおける意味的ウォームスタート [cs.SD, cs.CV, eess.AS]目的：テキストから音声への拡散モデルのサービング高速化
- 高品質な音声生成が求められる中，計算コストが課題となっている。
- 拡散モデルは高精度だが，推論に時間がかかり，実用性が低い。
- 意味的に類似した音声からのウォームスタートで高速化を目指す。
- SoundWeaverは，意味的に類似したキャッシュ音声からウォームスタートすることで，テキストから音声への拡散モデルの推論を高速化する。
- 実世界の音声データで，SoundWeaverは1.8〜3.0倍のレイテンシ削減を達成した。キャッシュサイズはわずか約1Kエントリで，知覚品質を維持または向上させた。
- 参照選択器，スキップゲーter，キャッシュマネージャーの3つのコンポーネントにより，キャッシュの有効性と品質を維持している。
Link: https://arxiv.org/abs/2603.07865
自律運転のための統一されたマルチモーダル表現学習に向けて [cs.CV, cs.LG]目的：マルチモーダル表現の統一的な学習
- 自律運転では，周囲環境の正確な理解が不可欠であり，多様なセンサーからの情報を統合する必要がある。
- 既存手法では，個々のモダリティペアの類似度に注目しがちで，マルチモーダル空間全体の整合性が失われる場合がある。
- マルチモーダル空間全体で整合性のある表現を獲得し，自律運転の性能向上を目指す。
- 提案手法であるCTPは，複数のモダリティを統一された埋め込み空間で同時に整列させるフレームワークである。
- CTPは，ペアごとのコサイン類似度による整列を拡張し，マルチモーダル類似テンソルを用いることで，より包括的な学習を実現する。
- 実験結果から，CTPは既存手法と比較して，3Dエンコーダーの事前学習およびゼロからの学習の両方において良好な性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.07874
VLM-SubtleBench：VLMは人間レベルの微妙な比較推論にどれだけ近づいているか [cs.CV, cs.AI, cs.LG]目的：微妙な比較推論におけるVLMの性能評価
- 産業異常検知や医療画像診断など，多様な分野で視覚的な類似性を持つ画像間の微妙な差異を識別する能力は不可欠である。
- 既存のVLM比較推論ベンチマークは，顕著な差異を持つ画像に焦点を当てており，現実世界アプリケーションに必要な微妙な推論を捉えられていない。
- 本研究は，VLMの微妙な比較推論能力を評価するためのベンチマークを提供し，その限界を明らかにすることで，VLMの性能向上を目指す。
- VLM-SubtleBenchは，属性，状態，感情など10種類の差異タイプを網羅し，産業，航空，医療画像を含む多様なドメインをカバーする。
- 複数のVLMの評価により，モデルと人間の性能に差異が存在し，特に特定の差異タイプやドメインにおいてVLMの推論能力が低下することが示された。
- 本ベンチマークと分析結果は，VLMを人間レベルの比較推論に近づけるための基盤となる。
Link: https://arxiv.org/abs/2603.07888
医療画像セグメンテーションにおける構造と進行を考慮した拡散 [cs.CV]目的：医療画像セグメンテーションのための構造と進行を考慮した拡散モデル
- 医療画像解析は，病変の診断や治療計画において不可欠であり，高精度なセグメンテーションが求められている。
- 既存手法では，粗い構造と細かい境界線を同時に学習するため，ノイズや曖昧さの影響を受けやすい。
- 本研究は，粗い構造から細かい境界線へと段階的に学習することで，よりロバストなセグメンテーションを目指す。
- 提案手法は，セマンティック情報を重視した拡散（ScD）と境界線を重視した拡散（BcD）を，進行を考慮したスケジューラ（PaS）によって制御する。
- ScDはターゲット内部のピクセルを摂動させつつ，セマンティックアンカーを保持することで，周囲の文脈からノイズの多い領域を推論する。
- BcDは信頼性の低い境界線をぼかすことで，モデルが安定した解剖学的構造と全体的な意味に集中することを促す。
Link: https://arxiv.org/abs/2603.07889
連立形成の可視化：快楽ゲームから画像セグメンテーションへ [cs.AI, cs.CV]目的：連立形成における画像セグメンテーションの診断テストベッド
- 多エージェントシステムの設計は，複雑な問題解決に不可欠であり，その挙動の理解が重要である。
- 連立形成メカニズムのパラメータ設定が，安定した均衡構造に与える影響が明確ではない。
- 画像セグメンテーションを用いて，連立形成におけるパラメータの影響を定量的に評価すること。
- 画像セグメンテーションをテストベッドとして用いることで，連立形成の均衡構造を可視化することができた。
- 粒状化パラメータが，均衡の断片化と境界構造に影響を与えることを明らかにした。
- 過度な断片化により均衡が崩壊する過程を観察し，メカニズム設計の重要性を示した。
Link: https://arxiv.org/abs/2603.07890
MINT：空間トランスクリプトミクスを用いた教師あり学習による病理基礎モデルの分子情報統合 [cs.CV]目的：病理基礎モデルの性能向上
- 病理診断の精度向上は，医療の質を向上させる上で不可欠である。
- 既存の病理基礎モデルは，組織の分子状態を明示的に捉えられていない。
- 空間トランスクリプトミクスデータを活用し，分子情報と形態学的特徴を統合する。
- MINTは，空間トランスクリプトミクスデータを活用し，病理基礎モデルの微調整を行う枠組みである。
- HESTベンチマークにおいて，遺伝子発現予測の性能が向上（平均ピアソン相関係数=0.440）した。
- EVAにおいても，一般的な病理タスクにおいて良好な性能を示した（0.803）。
Link: https://arxiv.org/abs/2603.07895
未知への再考：効果的かつ効率的なオープンセット能動学習に向けて [cs.CV, cs.LG]目的：オープンセット能動学習における情報的サンプルの特定
- 安全性が重要視される現実世界の応用において，未知のクラスの存在は避けて通れない問題である。
- 既存手法は，オープンセット検出器を別途学習する必要があり，計算コストが高いという課題がある。
- ラベル付き未知データを利用し，既知クラスの学習精度向上と，より信頼性の高いクエリを実現する。
- 提案手法E$^2$OALは，検出器を必要とせず，ラベル付き未知データを活用する統合的なフレームワークである。
- ラベルガイダンスによるクラスタリングと構造を考慮したF1-product目的関数により，未知データの潜在的なクラス構造を明らかにする。
- ディリクレ校正された補助ヘッドが，既知クラスと未知クラスを共同でモデル化し，精度と効率を向上させる。
Link: https://arxiv.org/abs/2603.07898
ヒューリスティックプロンプティングを超えて：概念誘導型ベイズフレームワークによるゼロショット画像認識 [cs.CV]目的：ゼロショット画像認識のための概念誘導型ベイズフレームワーク
- 画像認識は，コンピュータビジョンの根幹であり，様々な応用分野で不可欠な技術である。
- 既存のゼロショット画像認識手法は，プロンプトエンジニアリングの最適化やターゲットクラスへの適応性に課題が残る。
- 本研究は，クラス固有の概念を組み込むことで，よりロバストで汎用性の高いゼロショット画像認識を目指す。
- 提案手法では，概念を潜在変数として扱い，ベイズ推論に基づき，画像認識を概念空間における周辺化として定式化する。
- 大規模言語モデル(LLM)を活用した多段階の概念合成パイプラインと，決定論的点過程(DPP)による多様性確保により，表現力豊かで効率的な概念提案分布を構築する。
- また，外れ値概念の影響を軽減するため，学習不要な適応的ソフトトリム尤度を提案し，実験を通じて最先端手法を凌駕する有効性を実証する。
Link: https://arxiv.org/abs/2603.07911
幾何変換埋め込みマンバによる学習型ビデオ圧縮 [cs.CV]目的：学習型ビデオ圧縮手法の性能向上
- ビデオ圧縮は，データ量を削減し，効率的な配信を可能にする重要な技術である。
- 既存の学習型ビデオ圧縮は複雑な処理を必要とし，計算コストが高いという課題がある。
- 直接変換戦略に基づく，より効率的で簡素なビデオ圧縮フレームワークを構築すること。
- 提案手法は，幾何変換を埋め込んだカスケードマンバモジュール（CMM）と局所性洗練フィードフォワードネットワーク（LRFFN）を導入した。
- 条件付きチャネルごとのエントロピーモデルにより，潜在特徴の確率分布を高精度に推定することで，圧縮効率を向上させた。
- 低ビットレート条件下において，知覚的品質と時間的一貫性に関して，最先端のビデオ圧縮手法を上回る性能を示した。
Link: https://arxiv.org/abs/2603.07912
アンミキシングに基づく豊富度融合学習による未登録ハイパースペクトル画像超解像度の向上 [cs.DC, cs.CV]目的：未登録ハイパースペクトル画像超解像度における性能向上
- リモートセンシングや画像解析において，高解像度なスペクトル情報の取得が重要である。
- 未登録参照画像を用いた超解像度化では，位置ずれによる影響が課題となる。
- 位置ずれの影響を軽減し，超解像度モデルの学習能力を向上させることを目指す。
- 提案手法は，特異値分解による初期スペクトルアンミキシングと，その後の豊富度マップの強化を組み合わせる。
- 粗いピラミッド予測器を用いてピクセルレベルのフローと類似度マップを推定し，参照画像の空間的テクスチャを活用する。
- 空間-チャネル豊富度クロスアテンションブロックと動的ゲート重みを用いた融合モジュールにより，高品質な超解像度画像を生成する。
Link: https://arxiv.org/abs/2603.07918
RLPR：2段階非対称クロスモーダルアライメントによるレーダー-LiDAR場所認識 [cs.CV]目的：レーダーとLiDAR間の場所認識
- 自動運転において，多様な環境下での信頼性のある位置推定は不可欠である。
- LiDARの場所認識性能は悪天候下で低下し，レーダー地図の入手は困難である。
- レーダーとLiDARの情報を統合し，悪天候下でもロバストな場所認識を実現すること。
- 提案手法RLPRは，シングルチップ，スキャン，4Dレーダーを含む多様なレーダーに対応可能である。
- RLPRは，センサー固有の信号特性を抽象化する構造的特徴抽出のためのデュアルストリームネットワークを採用している。
- 実験結果から，RLPRは最先端の認識精度と強力なゼロショット汎化能力を達成することが示された。
Link: https://arxiv.org/abs/2603.07920
IMSE：テスト時適応のためのスペクトル専門家の内在的混合微調整 [cs.CV, cs.AI]目的：テスト時適応における性能劣化の抑制
- 事前学習済みモデルの活用は重要だが，テストデータとの分布のずれが課題となる。
- テストデータと学習データの分布が異なる場合，性能が低下しやすい。
- 少ないパラメータ更新で，大規模事前学習モデルの表現力を最大限に引き出す。
- 本研究では，Vision Transformerに内在するスペクトル専門家を活用するIMSEを提案した。
- 特異値分解を利用し，特異ベクトルを固定したまま特異値のみを適応させる。
- CTTAにおいて，既存手法を上回る精度向上を達成し，学習パラメータ数は大幅に削減された。
Link: https://arxiv.org/abs/2603.07926
数学表現認識のためのハイブリッド Vision Transformer アプローチ [cs.RO, cs.CV]目的：数学表現認識における精度向上
- 文書解析において，数式認識は重要な課題である。テキスト認識とは異なり，二次元構造と記号サイズの多様性に対応が必要。
- 既存手法では，数式の過剰または不十分な解析が課題となっている。記号間の複雑な関係性の抽出が難しい。
- 二次元位置エンコーディングを用いたハイブリッド Vision Transformerにより，記号間の関係性をより正確に捉える。
- 提案手法は，IM2LATEX-100KデータセットにおいてBLEUスコア89.94を達成し，既存の最先端手法を上回った。
- 2D位置エンコーディングによるエンコーダと，カバレッジアテンションデコーダが，解析精度向上に貢献した。
- ViTの[CLS]トークンをデコーダの初期埋め込みとして利用することの有効性が示された。
Link: https://arxiv.org/abs/2603.07929
音声深偽検出のためのモジュール式統計的変換による教師なしドメイン適応 [cs.SD]目的：音声深偽検出におけるドメイン汎化性能の向上
- 音声深偽技術の進化により，その検出が社会的に重要になっている。
- 異なるデータセット間で分布のずれが生じやすく，汎化性能が課題となる。
- ラベルなしのターゲットデータでもドメイン適応を可能とする手法を提案する。
- 提案手法は，Wav2Vec 2.0の埋め込みと統計的変換を組み合わせることで，ドメイン間のずれを軽減する。
- ASVspoof 2019 LAからFoR，FoRからASVspoofへの転移において，それぞれ62.7～63.6%の精度を達成した。
- 特徴選択とCORAL alignmentが最も効果的であり，パイプライン全体で精度が10.7%向上した。
Link: https://arxiv.org/abs/2603.07935
図を自動機械図に：TikZコード生成と直接画像合成の比較 [cs.CV]目的：学生が描いた自動機械図のテキストおよびデジタル表現の生成と評価
- コンピュータ科学教育において，図は概念理解を助ける重要なツールである。
- 学生が手描きする図は，構造，レイアウト，正確性にばらつきが生じやすい。
- 視覚と言語モデルの能力を用いて，図の自動的な評価とフィードバックを実現すること。
- 画像から直接生成されたテキスト記述は不正確であることが多く，人間の修正が記述品質を大幅に向上させる。
- 生成されたテキスト記述と修正された記述は，大規模言語モデルにTikZコードを生成させるために利用される。
- 本研究は，自動採点や教育教材のアクセシビリティ向上に貢献する可能性を秘めている。
Link: https://arxiv.org/abs/2603.07936
L³: 前処理なしの屋外環境における視覚的位置推定 [cs.CV]目的：屋外環境における視覚的位置推定手法
- ロボティクスや拡張現実において，正確な位置推定は重要な技術である。
- 従来の視覚的位置推定は，オフラインでの前処理が必要であり，計算コストや記憶容量が課題であった。
- 本研究は，前処理を必要としない，より効率的でロバストな位置推定手法の確立を目指す。
- 提案手法L³は，RGB画像からオンラインで3次元構造を再構築し，2D-3D対応関係に基づいて位置を推定する。
- 様々なベンチマークにおいて，L³は最先端手法と同等の性能を示すことが確認された。
- 特に，参照画像が少ないシーンにおいて，L³は高いロバスト性を示すことが明らかになった。
Link: https://arxiv.org/abs/2603.07937
VisualAD：Vision Transformerによる言語非依存ゼロショット異常検知 [cs.DC, cs.RO, cs.DB, cs.CV]目的：ゼロショット異常検知のための純粋な視覚フレームワーク
- 異常検知は，製造や医療など，様々な分野で重要な役割を果たす。
- 既存手法はテキストエンコーダに依存し，学習の不安定性やパラメータの冗長性が問題となる。
- テキストブランチを必要とせず，視覚情報のみで異常検知を可能にすることを目指す。
- VisualADは，Vision Transformerを基盤とし，凍結されたバックボーンに学習可能なトークンを導入する。
- このトークンは，多層自己注意機構を通じて，正常性と異常性の概念を徐々に獲得し，異常に関連する手がかりを強調する。
- 13のゼロショット異常検知ベンチマークで最先端の性能を達成し，CLIPやDINOv2などの事前学習済みバックボーンにも容易に適用可能である。
Link: https://arxiv.org/abs/2603.07952
SGG-R$^{\rm 3}$: 次のトークン予測からエンドツーエンドの偏りのないシーングラフ生成へ [cs.HC, cs.CV]目的：偏りのないシーングラフ生成
- 視覚シーンの構造化が，画像理解やロボティクス等の分野で重要である。
- 既存手法は，構造化された推論の欠如や，関係性の分布の偏りにより性能が制限される。
- 関係性の分布の偏りを緩和し，完全なシーングラフ生成を可能にすること。
- SGG-R$^{\rm 3}$は，CoT誘導型SFTとGSPOを用いたRLを統合した構造化推論フレームワークである。
- 関係性のスパース性を緩和するため，MLLMを活用した関係性拡張戦略を提案した。
- 実験の結果，既存手法と比較して優れた性能が確認され，フレームワークの有効性と汎用性が示された。
Link: https://arxiv.org/abs/2603.07961
目で聞く：空間と時間における一人称共同発話接地ベンチマーク [cs.AR, cs.HC, eess.SY, cs.SY, cs.CV]目的：一人称視点における共同発話接地能力の評価
- 対話システムにおいて，視覚情報と音声情報の連携は，より自然で効果的なコミュニケーションを実現するために重要である。
- 既存のベンチマークは言語のみで解答可能な場合があり，音声と視覚の真の連携能力を評価できない。
- 本研究は，音声と視覚情報を統合的に理解し，適切な行動を選択できるモデルを評価するための厳格なベンチマークを提案する。
- 新たに「Egocentric Co-Speech Grounding (EcoG)」を導入し，What, Where, When の同時予測を必要とする厳格な評価基準を設けた。
- 最先端のMLLMはEcoG-Benchにおいて低い性能(Gemini-3-Pro: 17.0%)を示しており，人間(96.9%)との間に大きな差が見られた。
- タイムスタンプ付きフレームと外部ASRを用いることで，性能が大幅に向上(17.0%→42.9%)し，マルチモーダルインターフェースがボトルネックとなっている可能性を示唆した。
Link: https://arxiv.org/abs/2603.07966
視野を広げる：多視点最適化によるデバイス非依存型手術器具追跡フレームワーク [cs.HC, cs.CV]目的：手術器具の追跡
- 手術支援の精度向上は，患者の安全と治療効果を高める上で不可欠である。
- 手術室での遮蔽は，従来の追跡システムの課題であり，ARの利用を妨げている。
- 遮蔽下においても，手術器具の追跡を安定させ，AR視覚化の信頼性を向上させる。
- 本研究では，動的なシーングラフ表現を用いて複数のセンサモダリティを融合するフレームワークを提案した。
- 異なる精度と運動特性を持つ追跡システムを統合し，リアルタイムで追跡の信頼性を推定する。
- 実験結果は，遮蔽下でのロバスト性とAR視覚化の一貫性の向上が確認された。
Link: https://arxiv.org/abs/2603.07981
自己回帰的3D物体検出の実現可能性と機会 [cs.NI, cs.CV]目的：3D物体検出における自己回帰的アプローチの検証
- 自動運転やロボティクスにおいて，周囲環境の正確な3D物体認識が不可欠である。
- 従来の3D物体検出器は，アンカー設計やNMSなどの手動調整が必要で，柔軟性に欠ける。
- 自己回帰モデルを用いることで，アンカーやNMSに依存しない，より柔軟な検出手法を確立する。
- AutoReg3Dは，LiDAR点群から物体を順次生成する自己回帰的検出器であり，アンカーやNMSを使用しない。
- nuScenesデータセットにおいて，既存手法と同等の性能を達成した。
- 本研究は，3D認識に最新のシーケンスモデリング技術を導入する可能性を示唆する。
Link: https://arxiv.org/abs/2603.07985
チームHOI：あらゆるチーム規模における協調的な人間-物体相互作用のための統一されたポリシーの学習 [cs.NI, cs.CV, cs.GR, cs.MA, cs.RO]目的：協調的な人間-物体相互作用における統一されたポリシー
- 物理ベースのヒューマノイド制御技術は進歩しているが，複数エージェントでの協調行動は課題である。
- チーム規模が変化する場合に，協調的な人間-物体相互作用をスケーラブルに実現する方法が課題である。
- 多様なチーム構成で協調的な行動を可能にする単一のポリシーを学習すること。
- TeamHOIは，Transformerベースのポリシーネットワークにより，チーム規模に関わらず協調的な人間-物体相互作用を可能にする。
- マスク化された敵対的運動事前分布（AMP）戦略により，現実的な運動を維持しつつ，協調的HOIデータの不足を補う。
- 2～8体のヒューマノイドエージェントと様々な物体形状を用いた実験で，高い成功率と一貫した協調性を示す。
Link: https://arxiv.org/abs/2603.07988
AutoTraces：多Modal大規模言語モデルによる自己回帰的軌跡予測 [cs.CV]目的：ロボットの軌跡予測における，人間が密集する環境下での複雑な人間行動のモデリング
- ロボットが人間と共存する環境での安全な動作には，周囲の人間行動を正確に予測する能力が不可欠である。
- 従来の軌跡予測手法は，テキスト表現に依存し，長期的相互作用のモデリングが困難であった。
- 大規模言語モデルの推論能力を活用し，物理座標空間での自己回帰的生成を可能にすることで，予測精度を向上させる。
- AutoTracesは，点トークンと点埋め込みを用いる新しい軌跡トークン化スキームにより，大規模言語モデルと物理座標空間をシームレスに統合した。
- 自動Chain-of-Thought (CoT) 生成メカニズムにより，視覚的観察と軌跡データから時空間的関係を推論し，手動アノテーションの必要性を排除した。
- 二段階の訓練戦略により，AutoTracesは最先端の予測精度を達成し，特に長期的予測において優れた汎化性能を示した。
Link: https://arxiv.org/abs/2603.07989
ViSA強化空中VLN：視覚空間推論強化フレームワーク [cs.DC, cs.CV, cs.AI]目的：空中視覚言語ナビゲーションにおける視覚空間推論能力の向上
- 空からのナビゲーションは，災害時の状況把握やインフラ点検など，幅広い分野で重要性が高まっている。
- 従来の空中VLN手法は，空間的な推論能力の不足や言語的な曖昧さが課題となっていた。
- 本研究は，視覚空間推論能力を強化することで，これらの課題を克服することを目指す。
- 提案手法ViSAは，追加の訓練や複雑な中間表現を必要とせず，画像平面上で直接推論を行う。
- CityNavベンチマークにおける評価で，ViSA強化VLNは最先端手法と比較して70.3%の成功率向上を達成した。
- この結果は，ViSAが空中VLNシステムの強力な基盤となりうることを示唆している。
Link: https://arxiv.org/abs/2603.08007
視覚言語モデルにおけるアナログ時計の読み取りと時計の空間推論の改善 [cs.CV]目的：視覚言語モデルのアナログ時計の読み取り能力及び空間推論の向上
- 視覚言語モデルはマルチモーダルな推論能力で注目を集めているため，より高度な視覚理解が求められている。
- 既存のアナログ時計データセットは現実世界を反映しておらず，多様な視覚条件下での性能が課題となっていた。
- 現実世界の多様な条件下で，視覚言語モデルのアナログ時計の読み取り精度とロバスト性を向上させる。
- 本研究では，多様な現実世界のシナリオを含むアノテーションデータセットTickTockVQAを新たに構築した。
- また，モデルの推論を正確な時間解釈に合わせるためのファインチューニングフレームワークSwap-DPOを提案した。
- 実験の結果，提案手法は現実世界での時計読み取り精度とロバスト性を大幅に向上させることが示された。
Link: https://arxiv.org/abs/2603.08011
欠損赤外線下における辞書誘導クロスモーダル画像融合 [cs.CV]目的：欠損赤外線下での画像融合手法
- 知覚やセキュリティにおいて赤外線と可視光の画像融合は不可欠であり，多様な応用が期待されている。
- 既存手法は両方のモダリティを必要とするため，赤外線が欠損した状況下では利用が困難である。
- 本研究は，赤外線が欠損している状況でも高精度な画像融合を実現することを目的とする。
- 共有畳み込み辞書を用いたフレームワークを提案し，係数領域での推論と融合を可能にした。
- 可視光の係数から疑似赤外線係数を推論し，大規模言語モデルによる意味的制約を加えることで，精度の高い融合を実現した。
- 実験の結果，欠損赤外線下で知覚品質と検出性能が向上することが示された。
Link: https://arxiv.org/abs/2603.08018
可視性制約拡散による不適切影生成の抑制 [cs.RO, cs.CV]目的：画像合成における現実的な影の生成
- 画像編集において，合成のリアリティを高める上で影は不可欠である。
- 複雑なシーンでは，影とオブジェクトの幾何学的整合性を維持することが困難である。
- 可視性情報を活用し，影生成の解空間を狭めることで問題を解決する。
- 提案手法VSDiffusionは，可視性制約を組み込んだ二段階フレームワークである。
- 粗い影マスク予測と，照明・深度情報を活用した条件付き拡散によって高精度な影を生成する。
- DESOBAv2データセットでの実験により，提案手法が最先端の結果を達成した。
Link: https://arxiv.org/abs/2603.08020
AffordGrasp：アフォーダンスを考慮した把持合成のためのクロスモーダル拡散 [cs.RO, cs.CV]目的：アフォーダンスを考慮した把持の生成
- AR/VRや具現化されたAIにおいて，自然な手と物体のインタラクションを実現するためには不可欠である。
- 3D物体表現とテキスト指示の間のモダリティギャップが大きく，空間的・意味的制約が不十分な場合がある。
- 物理的に妥当で意味的に一貫性のある把持を生成するための課題解決を目指す。
- AffordGraspは，物理的に安定かつ意味的に忠実な把持を高精度に生成する拡散ベースのフレームワークである。
- インタラクション意図を捉えた構造化言語ラベルを自動的に付与するアノテーションパイプラインを導入した。
- 物体形状，空間的アフォーダンス，指示の意味を考慮した把持生成が可能となった。
Link: https://arxiv.org/abs/2603.08021
トランスフォーマーではない：Mambaベースの拡散モデルによるダンス生成のためのビート表現の削除 [cs.CV, cs.AI, cs.GR, cs.SD]目的：ダンス生成手法
- ダンスは感情表現やコミュニケーションの手段であり，音楽，VR，コンテンツ制作など多様な分野で重要である。
- 既存のダンス生成手法は，ダンス固有の連続性，リズム性，音楽との同期性を十分に捉えられていない。
- 本研究は，ダンスの特性をより良く捉え，より自然なダンス生成を目指す。
- 提案手法MambaDanceは，長時系列に強いMambaベースの拡散モデルを用いることで，ダンスの自然な動きを生成する。
- ダンス生成において重要な音楽のビートをガウス分布で表現し，ダンスシーケンスの生成を誘導する。
- AIST++とFineDanceデータセットでの実験により，提案手法は既存手法と比較して，短調から長調のダンスまで，ダンスの重要な特徴を反映した妥当な動きを生成できることが示された。
Link: https://arxiv.org/abs/2603.08023
テキストによる段階的な骨格生成を通じた複雑な人体モーションビデオ生成 [cs.CV, cs.MM]目的：複雑な人体モーションビデオの生成手法
- ビデオ生成技術はエンターテイメントや運動解析など，多様な分野で重要性が増している。
- 複雑な運動のビデオ生成は，時間的な曖昧さや，完全な骨格シーケンス作成のコストが課題となっている。
- 自然言語による制御と，高精度なビデオ合成を両立し，複雑なモーション生成を可能にすることを目指す。
- テキストから骨格を生成するモデルにおいて，既存手法を凌駕するFID，R-precision，モーション多様性を示した。
- 骨格からビデオを生成するモデルは，VBench指標において，時間一貫性，滑らかさ，被写体保持において最高の性能を達成した。
- アクロバティックなモーションが不足している既存のベンチマークに対し，多様なキャラクターとモーションを含む合成データセットを新たに構築した。
Link: https://arxiv.org/abs/2603.08028
QualiTeacher：実世界画像修復のための品質条件付き擬似ラベリング [cs.CV]目的：実世界画像修復における品質条件付き擬似ラベリング手法
- 実世界画像修復は，クリーンな教師データがないため困難であり，実用的な応用を妨げている。
- 従来の擬似ラベリングは，ノイズの多い擬似ラベルに依存するため，アーティファクト学習や汎化性能の低下が問題となる。
- 擬似ラベルの品質を考慮することで，アーティファクトの回避と高品質な画像生成を両立し，汎化性能の向上を目指す。
- QualiTeacherは，複数の非参照画像品質評価モデルを用いて擬似ラベルの品質を推定し，その品質に基づいて学習を条件付けする。
- 品質に応じた修復多様体学習により，低品質ラベルからのアーティファクトの模倣を回避し，教師モデルを超える高品質な結果を生成する。
- 多様なデータ拡張，DPOに着想を得た最適化戦略，およびクロップされた一貫性損失により，品質駆動型学習の堅牢性と精度を向上させている。
Link: https://arxiv.org/abs/2603.08030
第10回ABAW表情認識チャレンジの解決策：安全なクロスアテンションとモダリティドロップアウトを用いたロバストなマルチモーダルフレームワーク [cs.CV, cs.AI]目的：表情認識のロバストなマルチモーダルフレームワーク
- 現実環境における感情認識は，人々の行動理解に不可欠であり，様々な分野での応用が期待されている。
- 現実のデータは，遮蔽，欠損，不均衡などの問題を含んでおり，正確な感情認識を困難にしている。
- ABAWチャレンジにおける課題に対応し，より現実的な環境での表情認識の精度向上を目指す。
- 提案手法は，視覚と聴覚情報を動的に融合し，欠損モダリティにロバストな性能を示すことが確認された。
- 安全なクロスアテンション機構とモダリティドロップアウト戦略により，視覚情報が不足した場合でも聴覚情報による予測が可能となった。
- Aff-Wild2検証セットにおいて，60.79%の精度と0.5029のF1スコアを達成し，有効性が示された。
Link: https://arxiv.org/abs/2603.08034
WhispEar：疑似並列Whisper生成による囁き音声変換のスケーリングのための双方向フレームワーク [eess.SY, cs.RO, cs.SY, cs.SD, eess.AS]目的：囁き音声を通常音声に変換するスケーラブルなフレームワーク
- 音声認識や対話システムにおいて，様々な音声環境への対応が重要である。
- 囁き音声は音響的な特徴が弱く，通常音声との変換はデータ不足により困難である。
- 大量の通常音声から疑似的に囁き音声を生成し，データ拡張による変換性能の向上を目指す。
- 提案手法WhispEarは，通常音声と囁き音声を共有する意味表現に基づく双方向フレームワークである。
- 通常音声から囁き音声を生成するモデルを用いることで，データ拡張を可能にし，変換性能を向上させている。
- 実験により，WhispEarが既存手法を上回り，大規模な疑似並列データから大きな恩恵を受けることが示された。
Link: https://arxiv.org/abs/2603.08046
Speed3R：疎なフィードフォワード3D再構成モデル [cs.HC, cs.CV, cs.AI]目的：高速な3D再構成手法の開発
- 3D再構成は，ロボティクスやAR/VRなど様々な分野で不可欠な技術である。
- 既存の再構成モデルは計算コストが高く，高速な処理が課題となっている。
- 疎な特徴点を利用することで，計算コストを削減し，高速化を実現する。
- Speed3Rは，従来のモデルと比較して12.4倍の推論速度向上を達成した。
- この高速化は，構造からの運動の原理に着想を得た二重分岐アテンション機構によるものである。
- VGGTおよびπ^3バックボーンを用いた評価においても，高品質な再構成結果が得られた。
Link: https://arxiv.org/abs/2603.08055
視覚に基づく分岐を用いたインタラクティブなロボットスキルプログラミング [cs.RO, cs.CV]目的：ロボットスキルプログラミングのための視覚的分岐手法
- ロボットに複雑なタスクを実行させるためには，人間が直感的に指示できるプログラミング手法が不可欠である。
- 既存の模倣学習フレームワークでは，現実世界の多様性に対応することが困難であるという課題が存在する。
- 視覚情報に基づいて分岐を選択することで，より柔軟でロバストなロボットスキルプログラミングを実現することを目指す。
- 提案手法See & Switchは，ユーザーが拡張可能なスキルグラフと視覚情報による分岐選択により，リアルタイムでのタスク実行を可能にする。
- 実験の結果，提案手法は，新規ユーザーに対しても高い分岐選択精度（90.7%）と異常検知精度（87.9%）を示した。
- 本手法は，運動感覚的なティーチング，ジョイスティック制御，ジェスチャーなど，様々な入力モダリティに依存しないため，現場でのリカバリーデモンストレーションが効率的に行える。
Link: https://arxiv.org/abs/2603.08057
ImageEdit-R1：強化学習によるマルチエージェント画像編集の強化 [cs.CV, cs.AI]目的：マルチエージェント画像編集のための強化学習フレームワーク
- 画像編集は日常での応用範囲が広く，商業的なマルチモーダルモデルの急速な進歩に伴い重要性が増している。
- 既存の画像編集システムは，複雑な指示や多段階の指示に対して，人間の意図に沿った編集が難しいという課題がある。
- 本研究は，人間の意図をより正確に反映した，文脈を考慮した編集を可能にすることを目指す。
- ImageEdit-R1は，複数の事前学習済みエージェントを強化学習によって協調させることで，高度な画像編集を実現する。
- 既存の閉鎖ソースの拡散モデルや他のマルチエージェントフレームワークと比較して，複数の画像編集データセットで一貫して優れた性能を示す。
- 画像編集を逐次的な意思決定問題として扱うことで，動的かつ文脈を意識した編集戦略を可能にしている。
Link: https://arxiv.org/abs/2603.08059