arXiv雑要約

画像・音声 - 2026/03/18 公開

  • TennisExpert: 専門家レベルのスポーツビデオ理解に向けて [cs.CV]目的:テニスビデオの専門的な分析
    • テニスは世界中で人気があり,プロ分析やコーチング,リアルタイム解説の需要が高い。
    • 大規模な注釈付きデータセットや,リアルタイム処理可能なシステムの構築が課題となっていた。
    • 専門的な解説を捉えたデータセットと,高精度な理解フレームワークを開発すること。
    • 大規模テニスベンチマーク「TennisVL」を構築し,200試合以上,4万以上のラリークリップを収録した。
    • 「TennisExpert」は,ビデオ意味解析器とQwen3-VL-8Bに基づくメモリ拡張モデルを統合した。
    • GPT-5,Gemini,Claudeなどの強力なベースラインと比較して,戦術的状況の把握能力が向上した。

    Link: https://arxiv.org/abs/2603.13397

  • LibraGen:主題駆動型ビデオ生成におけるバランスゲーム [cs.CV]目的:主題からビデオへの生成における,基盤モデルの持つ内在的な事前知識と新たに獲得した能力のバランス
    • ビデオ生成基盤モデルの発展に伴い,特定の主題に沿ったビデオ生成への関心が高まっている。
    • 既存手法は,特定の側面に焦点を当てすぎて,他の側面を犠牲にする傾向がある。
    • 基盤モデルの強みと主題駆動型生成能力のバランスを重視し,データ品質向上と学習パラダイムの調整を行う。
    • LibraGenは,自動および手動によるデータフィルタリングを組み合わせたハイブリッドパイプラインにより,データ品質を向上させている。
    • クロスペアデータとインペアデータを活用した教師ありファインチューニングとモデルマージにより,効果的なトレードオフを実現している。
    • 時間依存型動的分類器フリーガイダンススキームにより,柔軟かつきめ細かい制御を可能にしている。

    Link: https://arxiv.org/abs/2603.13506

  • SHAMISA:自己教師あり無参照画像品質評価のための暗黙的構造的関連性の形状モデリング [cs.CV, cs.AI, cs.LG]目的:無参照画像品質評価モデルの学習における課題解決
    • 画像処理技術の発展に伴い,画像品質の自動評価の重要性が増している。
    • 高品質な画像品質評価モデルの学習には,高コストな人間による品質評価データが必要である。
    • 人間による評価データを用いずに,自己教師あり学習によって高品質な評価モデルを構築すること。
    • 提案手法SHAMISAは,明示的な構造的関係的監督を用いて,ラベルなしの歪み画像から学習する非対照的な自己教師ありフレームワークである。
    • 歪みパターンを共有する画像を埋め込み空間上で近づけ,強度変化によって構造的なシフトを生じさせることで表現学習を制御する。
    • 合成データ,実データ,クロスデータセットのベンチマークで優れた性能と汎化性能,堅牢性を実証した。

    Link: https://arxiv.org/abs/2603.13669

  • OrigamiBench:折り畳み可能な折り紙を合成するためのインタラクティブな環境 [cs.LG, cs.CV]目的:折り紙の自動合成のための環境
    • 物理世界で計画・行動・創造するAIの実現には,パターン認識を超えた理解が不可欠である。
    • 既存のベンチマークは,視覚とプログラミング的推論を分離しており,体系的な評価が困難である。
    • 視覚,幾何学的制約,順次計画を統合した評価を通して,AIの物理的推論能力の向上を目指す。
    • OrigamiBenchは,モデルが折りを提案し,物理的な妥当性や目標形状との類似性に関するフィードバックを得る,反復的なベンチマークである。
    • 実験の結果,モデルサイズの拡大だけでは,物理的変換に関する因果的推論が必ずしも向上しないことが示された。
    • モデルは一貫した多段階折り戦略を生成できず,視覚と言語表現の統合が不十分であることが示唆された。

    Link: https://arxiv.org/abs/2603.13856

  • 創発を通じた学習:ハッシュを用いない動的カテゴリ検出フレームワーク [cs.CV]目的:動的カテゴリ検出における新規カテゴリの認識能力向上
    • 画像認識技術は,多様な分野で不可欠であり,その精度向上が常に求められている。
    • 既存手法は,学習時のラベル情報に依存し,未知のカテゴリ検出が苦手である。
    • 学習段階で未知カテゴリへの意識を組み込み,検出能力を高めることを目指す。
    • 提案手法LTCは,ハッシュを用いず,特徴量のみに基づいたフレームワークである。
    • LTCは,カーネルエネルギー最小化とエントロピー最大化に基づいた軽量な疑似未知生成器を用いる。
    • 7つのベンチマークテストにおいて,既存手法を1.5%〜13.1%上回る精度を達成した。

    Link: https://arxiv.org/abs/2603.13858

  • LLM誘導強化学習によるオーディオビジュアル音声強調 [cs.SD, cs.AI, eess.AS]目的:オーディオビジュアル音声強調の新たな手法
    • 音声強調は,通信や補聴など,多様な分野で重要な技術である。
    • 既存の評価指標は,知覚的な品質と必ずしも一致しない場合がある。
    • 知覚的な品質をより反映した評価指標による音声強調を目指す。
    • 大規模言語モデル(LLM)に基づいた報酬モデルを用いることで,音声品質の改善をより詳細に記述可能となった。
    • 提案手法は,COG-MHEAR AVSEチャレンジ(AVSEC-4)データセットにおいて,既存手法よりも優れた性能を示した。
    • 客観評価指標(PESQ,STOI等)と主観評価の両方で,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2603.13952

  • 水中における顕著インスタンスセグメンテーションのための測光ガウス混合モデル (USIS-PGM) [cs.CV]目的:水中における顕著なインスタンスのセグメンテーション
    • 水中ロボットシステムの視覚的理解には,水中環境下での物体認識が不可欠である。
    • 水中画像は,水による光の吸収・散乱により,画質劣化が顕著である。
    • 画質劣化に強い,高精度な水中顕著インスタンスセグメンテーション手法の開発。
    • 提案手法USIS-PGMは,周波数情報に着目した境界強調と動的な特徴再重み付けにより,画像の特徴抽出を強化する。
    • Transformerを用いたインスタンス活性化モジュールにより,顕著なインスタンス間の識別能力を向上させる。
    • 測光ガウス混合モデル(PGM)を用いた教師あり学習により,セグメンテーションマスクの精度と構造的整合性を高める。

    Link: https://arxiv.org/abs/2603.13961

  • DiFlowDubber:クロスモーダルアラインメントと同期による自動ビデオダビングのための離散フローマッチング [cs.CV, cs.AI, cs.MM, cs.SD]目的:ビデオダビングの自動化
    • 映画制作,マルチメディア,支援技術など幅広い応用分野を持つ重要な技術である。
    • 既存手法はデータ不足か,TTSモデルの表現力や同期精度に課題がある。
    • 表情からスタイルを学習し,テキストとビデオの同期精度を高めることで,自然なダビングを実現する。
    • DiFlowDubberは,事前学習済みのTTSモデルの知識をビデオ駆動型ダビングへ効果的に転移させる。
    • FaProモジュールが表情からグローバルなプロソディとスタイルを抽出し,Synchronizerモジュールがテキスト,ビデオ,音声間のギャップを埋める。
    • 2つのベンチマークデータセットにおいて,複数の評価指標で既存手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2603.14267

  • V-JEPA 2.1:ビデオ自己教師あり学習における高密度特徴の解き放ち [cs.CV]目的:ビデオおよび画像に対する高密度で高品質な視覚表現の学習
    • 視覚理解は,ロボット工学からコンピュータビジョンまで,幅広い分野で重要である。
    • 既存手法では,空間・時間的情報を効果的に捉えた表現を獲得することが課題であった。
    • V-JEPA 2.1は,高密度特徴を学習し,より高度な視覚理解と世界モデリングを目指す。
    • V-JEPA 2.1は,Ego4Dにおける短期オブジェクトインタラクション予測で最先端の性能(7.71 mAP)を達成した。
    • EPIC-KITCHENSにおける高レベルアクション予測でも優れた性能を示し,Recall@5で40.8を記録した。
    • 実ロボットでの把持成功率をV-JEPA-2 ACから20ポイント向上させ,ロボットナビゲーションや深度推定においても高い性能を示した。

    Link: https://arxiv.org/abs/2603.14482

  • WorldVLM:ワールドモデル予測と視覚言語推論の統合 [cs.CV, cs.RO]目的:ワールドモデル予測と視覚言語推論を統合するハイブリッドアーキテクチャ
    • 自動運転には,高度なシーンの理解と環境の動的予測が不可欠である。
    • 既存の視覚言語モデルは,空間的な理解が限られており,エンドツーエンドの運転モデルとしての性能が制約されている。
    • 視覚言語モデルとワールドモデルの強みを組み合わせ,文脈を考慮した運転行動を実現すること。
    • WorldVLMは,視覚言語モデルを用いてワールドモデルへの行動指示を生成し,解釈可能な運転行動を可能にする。
    • ハイブリッドアーキテクチャにおける条件付け戦略を評価し,設計上の課題に関する知見を提供する。
    • 文脈に基づいた意思決定と予測を組み合わせることで,自動運転システムの性能向上に貢献する。

    Link: https://arxiv.org/abs/2603.14497

  • 分類器における意味的不変量の分析:SING [cs.CV, eess.IV]目的:分類器における意味的不変量の解釈
    • 画像認識モデルの性能向上には,モデルの内部構造の理解が不可欠である。
    • 既存手法では,分類器の不変空間の意味が解釈困難である。
    • 不変空間に潜む意味的情報を人間が理解できる形で明らかにすること。
    • 提案手法SINGは,ネットワークに等価な画像を生成し,そのバリエーションに意味解釈を付与する。
    • ネットワーク特徴量を多 modal ビジョン言語モデルにマッピングすることで,自然言語による説明と視覚例を提供する。
    • ResNet50は不変空間に意味的属性を漏洩する一方,DinoViTはクラス意味をより良く保持することが示された。

    Link: https://arxiv.org/abs/2603.14610

  • リング型ポリゴン注釈に対するトポロジー保存型データ拡張 [cs.CV, cs.AI, cs.LG]目的:リング型ポリゴン注釈のトポロジーを維持したデータ拡張手法
    • セグメンテーションにおいて,データ拡張は重要な役割を担う。
    • 従来のデータ拡張は,単純連結な領域を前提としている。
    • リング型ポリゴンの構造的関係を維持するデータ拡張を実現する。
    • 本手法は,マスク空間での変換と,インデックス空間への頂点投影により接続関係を復元する。
    • 元のポリゴンのトラバーサル順序を維持し,低い計算コストでトポロジーの一貫性を保つ。
    • 実験により,単一および複合拡張において,高い接続性保持率(CAP)が確認された。

    Link: https://arxiv.org/abs/2603.14764

  • VorTEX:ターゲット音声抽出のための様々なオーバーラップ比 [cs.SD, cs.AI, cs.CL]目的:ターゲット音声抽出の性能向上
    • 音響環境における音声分離は,コミュニケーションや音声認識の精度向上に不可欠である。
    • 既存手法は,完全なオーバーラップを前提とするため,現実的な環境下での性能が不明確である。
    • 様々なオーバーラップ比におけるターゲット音声抽出のロバスト性を向上させる。
    • VorTEXは,Decoupled Adaptive Multi-branch Fusionブロックにより,主抽出と補助正則化を分離し,優れた分離性能を実現した。
    • 新規データセットPORTEを用いて,0%から100%までのオーバーラップ比において,既存モデルの課題を克服した。
    • 提案指標SuREにより,抑制行動を検出し,VorTEXが20%~100%のオーバーラップで高い分離忠実度とゼロSuREを両立することを示した。

    Link: https://arxiv.org/abs/2603.14803

  • 階層型グラフTransformerによるマスクBRepオートエンコーダ [cs.SI, cs.GR, cs.LG]目的:CADモデルからの表現自動学習
    • 製造業において,CADモデルの効率的な処理は重要であり,機械学習の応用が期待される。
    • 十分なラベル付きデータを得ることが困難であり,汎化性能の高い表現学習が課題である。
    • 少ないラベル付きデータでも高い性能を発揮できる表現学習手法の開発を試みる。
    • 本研究では,マスクされたBRepモデルを再構成するオートエンコーダを提案し,自己教師あり学習による表現学習を実現した。
    • 階層型グラフTransformerを用いて,長距離幾何学的依存性と局所的なトポロジー情報を効果的に統合することに成功した。
    • 少ないラベル付きデータでの実験により,提案手法が既存手法よりも優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.14927

  • 化学反応図の解析のための分子識別子視覚プロンプトと検証可能な強化学習 [cs.CV]目的:化学反応図解析の精度と汎化性能の向上
    • 化学合成情報の抽出は,創薬や材料科学の発展に不可欠であるため,その自動化が求められている。
    • 既存のVision-Languageモデルは,視覚的化学実体と事前学習済みの知識の整合性や,評価指標の乖離に課題がある。
    • 視覚プロンプトと強化学習を組み合わせることで,上記課題を克服し,より高精度な解析を目指す。
    • 分子識別子を視覚プロンプトとして活用するIdtVPを提案し,ゼロショットおよび分布外性能を向上させた。
    • 反応レベルの評価指標を直接最適化するRe3-DAPOを開発し,標準的な教師ありファインチューニングを上回る性能を達成した。
    • 現実世界のアーティファクトを含むスキャンされた化学反応図のベンチマークScannedRxnを公開し,モデルの堅牢性を評価した。

    Link: https://arxiv.org/abs/2603.15011

  • 識別軸の追跡:共変量シフト下でのテスト時OOD検出のための二重プロトタイプ [cs.CV]目的:共変量シフト下におけるテスト時OOD検出のための手法
    • 深層学習システムの信頼性確保には,OOD検出が不可欠である。現実世界では,変動する環境下で入力が変化し続ける。
    • 既存手法はID分布が静止していると仮定するが,共変量シフト下ではこの仮定が破綻し,性能が低下する。
    • 共変量シフト下でも,csIDとcsOODは特徴空間において識別可能な軸に沿って分離可能であることを利用する。
    • 提案手法DARTは,IDとOODそれぞれの動的なプロトタイプを追跡し,識別軸のドリフトを回復する。
    • ImageNet-CとTextures-Cにおいて,確立されたベースラインと比較して,AUROCが15.32pp,FPR@95TPRが49.15pp改善された。
    • 動的に変化する環境下における,テスト時識別軸追跡による信頼性の高いOOD検出の可能性を示す。

    Link: https://arxiv.org/abs/2603.15213

  • HYDRA:表現調和型トークン化によるマルチモーダル生成と理解の統合 [cs.CV]目的:マルチモーダル生成と理解の統合
    • 画像理解と生成はAI研究の重要な課題であり,その統合は高度な応用を可能にする。
    • 既存モデルは,画像理解と生成に必要な表現のギャップを埋めることが難しく,性能低下の要因となっている。
    • 表現調和型トークン化により,このギャップを克服し,統一的なモデルによる高性能化を目指す。
    • HYDRAは,生成から理解へ進化するViTアーキテクチャを採用し,ノイズフィルタリングと意味的理解を両立した。
    • 画像再構成において最先端の結果(rFID 0.08)を達成し,生成タスクにおいても高い性能を示した。
    • 理解タスクにおいても,既存の統一マルチモーダルモデルを平均10.0ポイント上回る性能を8つのベンチマークで示した。

    Link: https://arxiv.org/abs/2603.15228

  • Gym-V:エージェントビジョン研究のための統一されたビジョン環境システム [cs.CV]目的:エージェントビジョン研究のための標準化された環境の提供
    • 近年のエージェントシステムでは,強化学習が不可欠であり,標準化された環境の重要性が増している。
    • ビジョンエージェントは,研究のための標準的な環境が不足しており,体系的な学習研究が制限されている。
    • 本研究は,体系的な実験を可能にする統一されたビジョン環境を提供し,研究の加速を目指す。
    • Gym-Vは,10のドメインにわたる179の視覚環境を提供する統一プラットフォームである。
    • 観察のスキャフォールドが,強化学習アルゴリズムの選択よりも学習成功に重要であることが示された。
    • 多様なタスクでの訓練は汎化性能を高める一方,狭い訓練は負の転移を引き起こす可能性がある。

    Link: https://arxiv.org/abs/2603.15432

  • RSGen:多様なエッジガイダンスによるレイアウト駆動型リモートセンシング画像生成の強化 [cs.CV, cs.AI]目的:リモートセンシング画像のレイアウト駆動型生成能力の向上
    • リモートセンシング技術は,地球観測や環境監視において不可欠であり,その応用範囲は広い。
    • 既存手法では,生成される画像の微細な制御が難しく,バウンディングボックスの制約を厳密に守れないという課題があった。
    • 多様なエッジガイダンスを活用し,レイアウトに厳密に従った高精度な画像生成を実現することを目指す。
    • 提案手法RSGenは,既存のLayout-to-Imageモデルにプラグアンドプレイで組み込むことが可能である。
    • RSGenは,多様なエッジマップを生成し,これを条件としてL2Iモデルを制御することで,バウンディングボックス内のピクセルレベルでの制御を強化する。
    • DOTAデータセットを用いた実験の結果,RSGenは既存のL2Iモデルの性能を大幅に向上させ,特にCC-Diffを用いた場合,YOLOScore mAP50/mAP50-95で+9.8/+12.0,mAPで+1.6の改善が見られた。

    Link: https://arxiv.org/abs/2603.15484

  • 行動を起こす前に確認する:ビジョン言語行動モデルのためのビジョン基礎表現の強化 [cs.CV]目的:ビジョン言語行動モデルにおけるアクション予測の精度向上
    • ロボットの多様なタスク遂行において,視覚情報と言語指示の統合が不可欠である。
    • 既存モデルでは,視覚情報の解釈が深層になるほど曖昧になり,アクション生成に悪影響を及ぼす。
    • 多層の視覚特徴を統合し,無関係な視覚情報を削減することで,アクション生成の精度を高める。
    • 提案手法DeepVision-VLAは,シミュレーション環境と実環境の両方で,既存の最先端手法を大きく上回る性能を示した。
    • Vision-Language Mixture-of-Transformers (VL-MoT)フレームワークにより,視覚情報の活用範囲を拡大し,より複雑な操作を実現した。
    • Action-Guided Visual Pruning (AGVP)により,計算コストを抑えつつ,重要な視覚情報を保持することに成功した。

    Link: https://arxiv.org/abs/2603.15618

  • CTに基づく肺疾患スクリーニングにおける臨床応用へ:効率的かつ信頼性の高いフレームワーク [eess.IV, cs.CV]目的:CT画像を用いた肺疾患スクリーニングのための効率的かつ信頼性の高いフレームワーク
    • 肺疾患の早期発見は,患者の予後改善に不可欠であり,画像診断の重要性が高まっている。
    • CT画像全体の処理には膨大な計算コストがかかり,臨床現場への導入が課題となっていた。
    • 計算コストを抑えつつ,診断精度を損なわない効率的なCT画像解析手法を確立すること。
    • 提案手法(ERF)は,CTスライスの代表性と多様性を最適化するクラスタベースの部分サンプリング(CSS)により,計算時間を60%以上削減。
    • 曖昧さ認識による不確実性定量化(AUQ)メカニズムは,微細な病変やアーチファクトに起因するデータ曖昧さを捉え,モデルの信頼性を向上。
    • 2つの公開データセットを用いた検証で,ERFはフルボリューム解析と同等の診断性能(90%以上の精度と再現率)を達成。

    Link: https://arxiv.org/abs/2412.01525

  • CardioComposer:微分幾何学を用いた解剖学的拡散モデルの構成的制御 [eess.IV, cs.AI, cs.CV, cs.LG]目的:心血管解剖学の生成モデルにおける幾何学的制御性とリアリズムのトレードオフの解消
    • 臨床研究や医療機器評価において,3次元心血管解剖学の正確なモデルが必要不可欠である。
    • 従来の生成モデルは,解剖学的構造の制御性と写実性の両立が困難であった。
    • 拡散モデルのサンプリング過程において,幾何学的属性を制御することで,多様かつ高品質な解剖学的構造の生成を目指す。
    • CardioComposerは,解釈可能な楕円体素子を用いて,多クラスの解剖学的ラベルマップを生成する。
    • ボクセルごとの幾何学的モーメントに基づく微分可能な測定関数を開発し,損失関数による勾配誘導を可能にした。
    • 心臓,血管,骨格など,多様な解剖学的システムに対して,本手法の有効性が確認された。

    Link: https://arxiv.org/abs/2509.08015

  • 位置情報に依存しないプティコグラフィー:データ駆動型変分推論による画像再構成の可能性 [eess.IV, cs.CV, cs.LG, cs.NA, math.NA, physics.optics]目的:位置情報に依存しないプティコグラフィーにおける画像再構成
    • 単粒子回折X線イメージングの発展に不可欠であり,高解像度な構造解析を可能にする。
    • プティコグラフィーでは通常,走査位置の正確な知識が必要だが,未知である場合がある。
    • 走査位置が不明な状況下でも,画像再構成が可能となるか検証する。
    • 適切な照明構造と強力な事前知識を用いることで,ノイズ下でも信頼性の高い画像再構成が可能となった。
    • 特に難しい評価シナリオを除き,位置情報に依存しないプティコグラフィーが実現可能であることが示された。
    • データ駆動型変分推論とスコアベース拡散モデルが,この困難な問題に対して有効であることが確認された。

    Link: https://arxiv.org/abs/2509.25269

  • 肺がん検診コホートにおける進行性PPFEと死亡率の関連 [q-bio.QM, cs.CV, eess.IV, stat.AP]目的:肺がん検診コホートにおける進行性PPFEと死亡率の関連性の解明
    • 肺がん検診は早期発見に有効だが,画像所見の解釈が重要である。
    • PPFEの画像所見の進行が,臨床的にどのような意味を持つかは不明である。
    • PPFEの進行が呼吸器疾患リスクを予測するバイオマーカーとなり得るか検証する。
    • 進行性PPFEは,NLSTおよびSUMMIT両コホートにおいて独立して死亡率と関連していた。
    • SUMMITコホートでは,進行性PPFEは呼吸器疾患による入院リスクの増加と強く関連していた。
    • PPFEの定量的な評価は,肺がん検診プログラムにおけるリスクの高い患者の特定に役立つ可能性がある。

    Link: https://arxiv.org/abs/2603.09531

  • LUMINA:エネルギー調和プロトコルを備えたマルチベンダーマンモグラフィベンチマーク [q-bio.NC, cs.SY, eess.SY, quant-ph, cs.NI, eess.SP, eess.IV, cs.CV, cs.DB, cs.LG]目的:マルチベンダーマンモグラフィデータのベンチマークおよびエネルギー調和フレームワーク
    • マンモグラフィは乳がん検診の重要なツールであり,AIによる診断支援が期待されている。
    • 既存のデータセットは規模,臨床アノテーション,ベンダー多様性に乏しく,汎用的なAI開発の阻害要因となっている。
    • ベンダーやエネルギーによる画像の変化に対応し,より信頼性の高いAIシステムを構築すること。
    • LUMINAは,6ベンダー,1824画像を含む大規模なマンモグラフィデータセットである。
    • 提案手法であるエネルギー調和は,アーキテクチャに依存せず,診断精度と密度予測の性能を向上させた。
    • 特にEfficientNet-B0は診断で93.54%のAUCを,Swin-Tは密度予測で89.43%のmacro-AUCを達成した。

    Link: https://arxiv.org/abs/2603.14644

  • 臨床的事前知識に基づく3D CTスキャンによる肺疾患検出 [eess.IV, cs.CV]目的:肺疾患の分類性能向上
    • 肺疾患の早期発見は,患者の予後改善に不可欠である。
    • 医療画像データセットは,クラス不均衡の問題を抱えていることが多い。
    • 少数クラスの疾患に対する分類精度向上を目指す。
    • 提案手法は,性別情報を活用することで,クラス不均衡の影響を軽減する。
    • 実験結果から,特に扁平上皮癌などの少数疾患の認識性能が向上することが示された。
    • 他の疾患クラスにおいても,競争力のある性能を維持している。

    Link: https://arxiv.org/abs/2603.15143