arXiv雑要約

画像・音声 - 2026/03/04 公開

  • 適応的トークン辞書を用いたTransformer:画像復元における性能向上 [cs.CV]目的:画像復元のためのTransformerアーキテクチャの改善
    • 画像処理分野において,Transformerは高性能なモデルとして注目を集めている。
    • Transformerの自己注意機構は計算コストが高く,受容野が限定されやすい。
    • 画像サイズに比例する線形的な計算量でグローバルな依存関係をモデル化する。
    • 適応的トークン辞書(ATD)は,学習可能なトークン辞書を用いて画像の特徴を効率的に表現する。
    • ATDは,複数の画像復元タスクにおいて最先端の性能を達成した。
    • ATD-Uは,マルチスケールな画像復元に有効であり,JPEG圧縮アーチファクトの除去にも応用可能である。

    Link: https://arxiv.org/abs/2603.02581

  • 高解像度材料パラメータ再構成のためのニューラル電磁場 [cs.CV, eess.SP]目的:材料パラメータの再構成
    • 現実世界のシミュレーション可能な3D複製である機能的なデジタルツインの作成は,コンピュータビジョンの中心的な課題である。
    • 従来のNeRF等の手法では,視覚的に豊かだが機能的に不完全なデジタルツインしか作成できない。材料特性の欠如が障壁となっている。
    • 非接触・非侵襲的なセンシングによる材料特性の取得という課題に対し,物理的逆問題を解決し,機能的なデジタルツインを構築することを目指す。
    • 提案手法NEMFは,高精度な幾何学情報と電磁場を分離することで,逆問題を解くことを可能にした。
    • NEMFは,物理モデルに基づいた微分可能な層と,環境RF信号をガイドすることで,材料パラメータの連続的な分布を学習する。
    • 合成データセットを用いた実験で,提案手法が材料マップを高精度に再構成し,高忠実度の物理シミュレーションを可能にすることが示された。

    Link: https://arxiv.org/abs/2603.02582

  • 汎化性能の最大化:ベンガル文字分類のための軽量Vision Transformerに対する異なる拡張手法の影響 [cs.CV]目的:ベンガル文字の分類における汎化性能向上
    • 画像認識分野では深層学習が有効だが,大規模データセットが必要
    • リソースの限られた言語(ベンガル語など)では大規模データセットの入手が困難
    • ベンガル文字認識におけるデータ拡張手法の効果を検証し,汎化性能を向上させる
    • データ拡張手法の組み合わせ(Random AffineとColor Jitter)が,EkushおよびAIBanglaデータセットで最も高い精度(それぞれ97.48%,97.57%)を達成した。
    • この組み合わせは,他の単独または組み合わせの拡張手法よりも優れた性能を示した。
    • 本研究は,リソースが限られた言語における画像データ拡張のインパクトを詳細に分析した。

    Link: https://arxiv.org/abs/2603.02591

  • Synthetic-Child:プライバシー保護のための子供姿勢推定向けAIGCベースの合成データパイプライン [cs.CV]目的:子供の姿勢推定のための合成データパイプラインの開発
    • AIを活用した学習支援デバイスの精度向上に,子供の姿勢推定技術が不可欠である。
    • 子供の姿勢データ収集はプライバシー上の問題やコストが課題となっている。
    • 実画像を用いずに,プライバシーを保護しながら姿勢推定モデルの精度向上を目指す。
    • AIGCを活用した合成データパイプライン「Synthetic-Child」を開発した。
    • 実子供のテストセットにおいて,従来法比で12.5 APの精度向上を達成した。
    • INT8量子化後も高い精度を維持し,エッジデバイスでのリアルタイム処理を実現した。

    Link: https://arxiv.org/abs/2603.02598

  • VLMFusionOcc3D:VLM支援によるマルチモーダル3Dセマンティック占有予測 [cs.CV, cs.RO]目的:3Dセマンティック占有予測の性能向上
    • 自動運転における周囲環境の正確な理解は,安全な走行に不可欠である。
    • 既存のボクセルベースの占有モデルは,疎な幾何学的グリッドにおいてセマンティックな曖昧さに苦しみ,悪天候下で性能が低下する。
    • ビジョン言語モデルの知識を用いて,曖昧なボクセル特徴を安定したセマンティック概念に固定することで,ロバスト性を向上させる。
    • 提案手法は,画像とLiDARデータを統合し,Instance-driven VLM Attentionを用いてセマンティック・地理的情報を3Dボクセルに注入する。
    • Weather-Aware Adaptive Fusionにより,環境条件に応じてセンサーの貢献度を動的に調整し,悪天候下での性能を向上させる。
    • nuScenesとSemanticKITTIデータセットでの実験により,提案モジュールが既存手法の性能を向上させることが示された。

    Link: https://arxiv.org/abs/2603.02609

  • 負のテキスト選択に注意を払う:VLMを用いたOOD検出における距離の一貫性の追求 [cs.CV]目的:OOD検出における性能向上
    • 機械学習モデルを現実世界で利用するには,未知のデータに対する識別能力が不可欠である。
    • 既存手法は,VLMsの学習原理と異なる距離指標を用いるため,性能が制限される。
    • テキストと画像の距離の一貫性を高めることで,OOD検出の精度向上を目指す。
    • 提案手法InterNegは,テキストと画像の双方の視点から距離の一貫性を強化するシンプルなフレームワークである。
    • 大規模なImageNetベンチマークにおいて,FPR95を3.47%削減し,最先端の性能を達成した。
    • Near-OODベンチマークではAUROCが5.50%向上し,高い識別能力を示した。

    Link: https://arxiv.org/abs/2603.02618

  • 単一画像からの3D人体モデリングにおけるポーズに対する直接報酬微調整 [cs.CV]目的:単一画像から3D人体を再構成する際のポーズの改善
    • 3D人体モデリングは,人間中心の応用において重要な役割を果たす。
    • 既存の3D人体データセットは,多様なポーズを網羅しておらず,不自然な姿勢を招く。
    • 多様なポーズに対応可能な3D人体モデリング手法の開発。
    • 提案手法DrPoseは,既存のマルチビュー拡散モデルをポーズデータを用いて微調整する。
    • DrPoseは,高価な3D人体アセットを必要とせず,ポーズの一貫性を定量化するPoseScoreを最大化する。
    • DrPose15Kデータセットを用いた評価により,ベンチマークデータセットや実環境画像で性能が向上することを確認。

    Link: https://arxiv.org/abs/2603.02619

  • 漸進的統一マルチモーダル異常検知:情報ボトルネックの視点からのマルチモーダルノイズ除去の拡張 [cs.CV]目的:漸進的統一マルチモーダル異常検知の実現
    • 様々なカテゴリの異常を検出し,新たなオブジェクト/カテゴリへの適応が求められている
    • 既存手法では,学習済知識を保持しながら新知識を獲得する際の破滅的忘却が課題である
    • 不要不必要な特徴が破滅的忘却に与える影響を軽減し,性能向上を目指す
    • 提案手法IB-IUMADは,Mambaデコーダと情報ボトルネック融合モジュールを活用し,オブジェクト間の特徴干渉を抑制する
    • 冗長な特徴を除去することで,識別情報の保持を明示的に行う
    • MVTec 3D-ADおよびEyecandiesデータセットにおける実験により,IB-IUMADの有効性と競争力が示された

    Link: https://arxiv.org/abs/2603.02629

  • 汎用音声強調のための学習目標,アーキテクチャ,データ品質の再考 [cs.SD]目的:汎用音声強調における学習目標,歪みと知覚のトレードオフ,データキュレーションに関する問題点の解決
    • 音声強調は,多様な劣化条件下で音声を復元し,その品質を向上させる上で重要である。
    • 従来の学習目標設定や,歪みと知覚のトレードオフ,データ品質が十分とは言えない。
    • より良い学習目標,効率的な学習フレームワーク,適切なデータキュレーションを目指す。
    • 従来の反射音声の利用が,知覚品質と音声認識性能を低下させることを示し,無響室クリーン音声がより優位な学習目標となる。
    • 歪みと知覚のトレードオフ理論に基づき,指定された知覚品質レベル下で最小限の歪みを達成するシンプルな二段階フレームワークを提案する。
    • 汎用音声強調において,データ規模よりも品質が重要であり,大規模な未キュレーションデータは性能に上限を設けることを明らかにした。

    Link: https://arxiv.org/abs/2603.02641

  • SEP-YOLO:透明物体のインスタンスセグメンテーションのためのフーリエ領域の特徴表現 [cs.RO, cs.DC, cs.SY, eess.SY, cs.RO, cs.CV]目的:透明物体のインスタンスセグメンテーション手法
    • 画像認識分野において,透明物体の正確な認識は自動運転やロボット工学等の応用において重要である。
    • 透明物体の境界の曖昧さ,低いコントラスト,背景への依存性が高く,既存の手法では十分な性能が得られない。
    • 透明物体のセグメンテーションにおける性能向上を目指し,新たな特徴表現とメカニズムを提案する。
    • 提案手法SEP-YOLOは,フーリエ領域で弱い高周波境界成分を分離・強調するモジュールを組み込むことで,透明物体の境界をより明確に捉える。
    • コンテンツアウェアアライメントネックとマルチスケールゲート付きリファインメントブロックを組み合わせることで,深層セマンティック特徴における正確な特徴位置合わせと境界局在化を実現する。
    • Trans10Kデータセットに高品質なインスタンスレベルのアノテーションを提供し,透明物体セグメンテーションのデータギャップを解消する。

    Link: https://arxiv.org/abs/2603.02648

  • OmniFashion:マルチタスク視覚言語学習による汎用的なファッション知能へ [cs.RO, cs.CV]目的:ファッション知能の汎用化
    • ファッション分野は多様なタスクを含むため,統一的な理解が重要である。
    • 既存研究では,データの断片化と不完全な注釈が課題となっている。
    • 一貫性のある視覚的・意味的構造を構築し,汎用的なファッション知能を実現する。
    • 本研究では,100万規模のFashionXデータセットを構築し,ファッションアイテムの詳細なアノテーションを実現した。
    • OmniFashionという統合フレームワークを提案し,多様なファッションタスクを統一的な対話パラダイムで処理可能にした。
    • マルチタスク性能とクロス・タスク汎化性能において高い精度を達成し,スケーラブルな汎用ファッション知能への道を示した。

    Link: https://arxiv.org/abs/2603.02658

  • マルチモーダル項目応答理論によるクロスモーダル推論能力および問題特性の評価 [cs.HC, cs.CL, cs.CV]目的:マルチモーダル大規模言語モデルのクロスモーダル推論能力評価
    • 多様なモダリティを扱うモデルの重要性が増しており,その評価手法が不可欠である。
    • 既存のベンチマークには,単一モダリティで解ける問題が多く,信頼性の低いランキングを生む。
    • クロスモーダルな問題に焦点を当て,高品質で効率的な評価を可能にすること。
    • 本研究では,古典的な項目応答理論を拡張したM3IRTフレームワークを導入した。
    • M3IRTは,モデル能力と問題難易度を,画像のみ,テキストのみ,クロスモーダル成分に分解して評価する。
    • 実験の結果,M3IRTはショートカット問題を排除し,信頼性の高い評価を実現することが示された。

    Link: https://arxiv.org/abs/2603.02663

  • DREAM:視覚的理解とテキストから画像生成の融合 [cs.CV, cs.LG]目的:視覚表現学習とテキストから画像生成の統合
    • マルチモーダル学習の発展には,画像とテキストの情報を効果的に統合することが不可欠である。
    • 従来のモデルでは,視覚的理解と画像生成の能力を両立することが困難であった。
    • 単一のモデルで両方の能力を達成し,マルチモーダルモデルの性能向上を目指す。
    • DREAMは,識別的および生成的な目的関数を同時に最適化する統合フレームワークである。
    • Masking Warmupにより,表現学習に必要な対照的なアライメントを確立しつつ,安定した生成訓練を実現している。
    • ImageNet線形プローブ精度でCLIPを上回り,FIDスコアもFLUIDより改善しており,多岐にわたるタスクで性能向上が確認された。

    Link: https://arxiv.org/abs/2603.02667

  • VisionCreator:理解,思考,計画,作成を備えたネイティブなビジュアル生成エージェントモデル [cs.CV]目的:ビジュアルコンテンツ作成のための理解,思考,計画,作成能力を統合したエージェントモデル
    • ビジュアルコンテンツ作成は,デザインの慣習や創造的なワークフローの理解が不可欠であり,その需要は高い。
    • 汎用モデルではデザイン知識が不足し,ワークフローベースのエージェントでは自律的な創造的計画が困難である。
    • 複雑な作成タスクにおける理解,思考,計画,作成能力を安定して効率的に獲得することを目指す。
    • 本研究では,メタ認知に基づいたVisionAgentを用いて高品質な作成軌跡を生成するVisGenData-4kを構築した。
    • VisionCreatorモデルは,Progressive Specialization TrainingとVirtual Reinforcement Learningにより,UTPC能力を獲得した。
    • VisGenBenchを用いて評価した結果,VisionCreator-8B/32Bモデルは,より大規模なクローズドソースモデルを上回る性能を示した。

    Link: https://arxiv.org/abs/2603.02681

  • ReCo-Diff:スパースビューCTにおけるコールド拡散のための残差条件付き決定論的サンプリング [cs.CV]目的:スパースビューCT再構成のための残差条件付き拡散フレームワーク
    • CT画像は医療診断に不可欠であり,低線量化が重要課題である。
    • スパースビューCTでは,ノイズやアーチファクトが発生しやすく,再構成が困難である。
    • 拡散モデルによる安定した再構成と,線量削減との両立が求められている。
    • 提案手法ReCo-Diffは,観測残差を利用した残差条件付き自己誘導サンプリングにより,既存手法を凌駕した。
    • 再構成精度,安定性,および極端なスパース性下でのロバスト性が向上した。
    • 残差駆動型ガイダンスにより,ヒューリスティックな介入なしに連続的な測定認識修正を実現している。

    Link: https://arxiv.org/abs/2603.02691

  • FiDeSR:高忠実度かつ詳細を保持するワンステップ拡散超解像 [cs.CV]目的:高忠実度かつ詳細を保持する画像超解像の実現
    • 現実世界の画像処理において,高解像度化は不可欠な技術である。
    • 既存手法では,微細な詳細の保持と高忠実度の再構成を両立することが困難である。
    • 微細な詳細を保持しつつ,高忠実度な画像超解像を効率的に実現すること。
    • FiDeSRは,ディテールを重視した重み付け戦略により,予測誤差が大きい領域に焦点を当てて学習を行う。
    • 推論時には,低・高周波適応エンハンサーを用いて,モデルの再学習なしに柔軟な画質調整が可能である。
    • 残差内の残差ノイズ修正により,拡散ノイズの予測誤差を修正し,微細な詳細の回復を強化する。

    Link: https://arxiv.org/abs/2603.02692

  • ShareVerse:共有ワールドモデリングのためのマルチエージェント一貫性のあるビデオ生成 [eess.SY, cs.SY, cs.CV, cs.AI]目的:マルチエージェント共有ワールドモデリング
    • 現実世界の理解とシミュレーションは,ロボティクスや自動運転などの分野で不可欠である。
    • 既存の手法では,マルチエージェント間のインタラクションを伴う統一的な共有ワールド構築が困難である。
    • マルチエージェントのインタラクションを考慮した,一貫性のある共有ワールドモデリングを実現すること。
    • ShareVerseは,大規模ビデオモデルの生成能力を活用し,マルチエージェント共有ワールドモデリングを実現する。
    • CARLAシミュレーションプラットフォーム上に,多様なシーンとエージェントのインタラクションを含む大規模データセットを構築した。
    • エージェント間アテンションブロックを導入することで,空間的・時間的情報の伝達を可能にし,共有ワールドの一貫性を保証する。

    Link: https://arxiv.org/abs/2603.02697

  • 視覚言語深層学習モデルによる妊娠性栄養細胞疾患の知能的病理診断 [cs.CV, cs.AI]目的:妊娠性栄養細胞疾患の病理診断における専門家モデルの開発
    • 妊娠性栄養細胞疾患は母体の健康と生殖成果に重大な影響を及ぼすため,正確かつ迅速な診断が重要である。
    • 従来の病理診断は専門医の経験に依存し,診断の一貫性が低いという課題があった。
    • 本研究は,病理診断の精度と効率を向上させ,臨床解釈可能性を維持することを目的とする。
    • 開発したGTDiagnosisは,病理スライドにおける病変検出において平均精度0.91以上を達成した。
    • 前向き臨床試験において,GTDiagnosis使用による陽性的中率が95.59%であった。
    • 診断時間がケースあたり平均56秒から16秒に短縮され,診断効率が大幅に向上した。

    Link: https://arxiv.org/abs/2603.02704

  • MiM-DiT:拡散Transformerを用いた,あらゆる画像修復のためのMoEの中のMoE [cs.CV]目的:あらゆる種類の画像劣化に対応するための画像修復手法
    • 画像修復は,現実世界の多様な劣化に対応するため,重要な研究分野である。
    • 単一のモデルでは,様々な劣化タイプ(霞,ぼかし,ノイズ,低照度など)に対応することが困難である。
    • 異なる劣化タイプに特化した専門家を組み合わせることで,より効果的な画像修復を目指す。
    • 提案手法は,2段階のMoEアーキテクチャにより,粗視点および微細な画像劣化への適応を実現する。
    • Inter-MoE層は主要な劣化タイプに対応する専門家グループを組み合わせ,Intra-MoE層はタイプ内の細かな変化に対応する。
    • 複数の画像修復タスクにおいて,最先端の手法と比較して優れた性能を示すことが実験的に確認された。

    Link: https://arxiv.org/abs/2603.02710

  • 自己回帰型画像生成における制約付き推論:何からどのように [cs.CV, cs.MM, eess.IV]目的:自己回帰型画像生成における構造化された画像生成の実現
    • 画像生成技術は,多様な分野で活用が期待される重要な研究分野である。
    • 既存手法では,指示内容の指定は可能だが,画像の全体構造に関する推論が不足している。
    • 入力プロンプトから視覚的な制約を導き出し,画像生成を誘導することで,より現実的な画像を生成する。
    • 提案手法CoR-Painterは,「どのように描くか」を事前に決定することで,空間的な曖昧さを解消し,より一貫性のある画像を生成する。
    • T2I-CompBench, GenEval, WISE等の評価実験により,空間的な指標において最先端の性能を達成した。
    • Dual-Objective GRPO戦略により,テキストによる制約推論と視覚投影の最適化を図り,生成パイプライン全体の品質を向上させた。

    Link: https://arxiv.org/abs/2603.02712

  • TenExp:エキスパート混合に基づくテンソル分解構造探索フレームワーク [cs.CV]目的:テンソル分解構造の探索
    • データ解析において,高次元データの効率的な表現手法として重要性が増している。
    • 既存手法は固定された分解構造に限定され,データの潜在構造を捉えきれない場合がある。
    • データに適応的に最適な分解構造を探索し,より高精度なデータ表現を実現することを目指す。
    • 提案手法TenExpは,複数のテンソル分解を動的に選択・活性化することで,単一の分解構造に縛られない。
    • TenExpは,既存手法と比較して,合成データおよび実データにおいて優位性を示すことが確認された。
    • TenExpの近似誤差限界についても理論的な解析を行い,その近似能力を明らかにした。

    Link: https://arxiv.org/abs/2603.02720

  • 補聴器向け,シミュレーションされた伝達関数に基づく単一マイクロホンによる自声検出 [cs.SD, cs.LG]目的:補聴器における自声検出の実現
    • 聴覚補助具の性能向上は,生活の質を大きく左右するため,重要な研究分野である。
    • 既存の自声検出技術は,複数のマイクロホンやセンサーを必要とし,装置の複雑化やコスト増加を招いている。
    • 本研究は,コストのかかる伝達関数測定を必要とせずに,機械学習に基づく自声検出を可能にすることを目的とする。
    • 解析的に生成された伝達関数と数値シミュレーションされた伝達関数を用いた段階的な学習により,モデルの空間認識能力を向上させた。
    • シミュレーションされた頭部・胴体データを用いた実験で95.52%の精度を示し,1秒の短い音声でも90.02%の精度を維持した。
    • 実際の補聴器録音では,ファインチューニングなしで80%の精度を達成し,シミュレーションから実世界への汎化能力を示した。

    Link: https://arxiv.org/abs/2603.02724

  • クロスビュー地理位置特定,画像検索,多重スケール幾何モデリング,周波数領域強化 [cs.IR, cs.CV]目的:異なる視点からの画像間の空間的対応付けの確立
    • GPSが利用できない環境での位置特定は重要であり,ロボット工学や拡張現実などの分野で不可欠である。
    • 異なる視点からの画像間の幾何学的非対称性,テクスチャの不一致,識別力の低下が課題となっている。
    • 空間領域と周波数領域の情報を融合し,ロバストな表現学習を実現することでこの課題を解決する。
    • 提案手法SFDEは,空間的および周波数的特徴を並列的にモデル化することで,ドメイン間の整合性を高める。
    • SFDEは,シーンのトポロジー,多重スケール構造パターン,周波数不変性という3つの視点から特徴量を抽出する。
    • 実験結果から,SFDEが最先端手法と同等以上の性能を発揮し,計算効率も優れていることが示された。

    Link: https://arxiv.org/abs/2603.02726

  • ゲート付き微分線形注意:高忠実度医療セグメンテーションのための線形時間デコーダ [cs.CV]目的:高忠実度医療画像セグメンテーションのための線形時間デコーダの開発
    • 医療画像セグメンテーションは,正確な診断と治療計画に不可欠であり,その重要性は高い。
    • Transformerは高性能だが計算コストが高く,CNNは効率的だがグローバルな推論が苦手である。
    • 線形注意の不安定性と注意の拡散を抑制し,効率的かつ高精度なセグメンテーションを実現すること。
    • 提案手法PVT-GDLAは,CT,MRI,超音波,皮膚鏡検査のベンチマークで最先端の精度を達成した。
    • 従来のCNN,Transformer,ハイブリッド,線形注意ベースラインと比較して,同等のパラメータ数でFLOPsが低い。
    • 臨床環境のようなリソースに制約のある設定での,高速かつスケーラブルな高忠実度医療セグメンテーションへの実用的な道を提供する。

    Link: https://arxiv.org/abs/2603.02727

  • CoShadow:拡散モデルを用いた画像合成のための複数オブジェクト影生成 [cs.AR, cs.NI, cs.RO, cs.CV]目的:複数オブジェクトの影生成
    • 画像合成において,現実的な影はシームレスな合成に不可欠である。
    • 既存手法は単一オブジェクトに焦点を当てており,複数オブジェクトの合成時には汎化性能が低い。
    • 複数オブジェクトの影を同時に,かつ物理的に妥当な形で生成することを目指す。
    • 本手法は,事前学習済みのテキスト-画像拡散モデルのマルチモーダル能力を活用する。
    • 画像パスとテキストパスを組み合わせ,オブジェクトごとの影の境界ボックスを位置トークンとしてエンコードする。
    • 実験結果から,単一および複数オブジェクトの影生成において最先端の性能を達成することが示された。

    Link: https://arxiv.org/abs/2603.02743

  • iGVLM:質問対応マルチモーダル理解のための動的指示駆動型視覚エンコーディング [cs.CV, cs.AI]目的:質問応答における視覚情報の活用方法の改善
    • 視覚と言語を組み合わせたAIモデルは,様々な応用が期待されている。
    • 既存モデルは,視覚エンコーダが固定化されており,指示に応じた柔軟な処理が困難である。
    • 指示に基づいて視覚情報を動的に調整し,より高度な推論を可能にすること。
    • iGVLMは,視覚情報を固定的に利用するのではなく,指示に応じて変化させることで,精度向上を実現した。
    • 提案手法は,既存のバックボーンモデルに容易に組み込むことができる。
    • MM4という新しい評価指標を用いることで,論理的な整合性を定量的に評価した。

    Link: https://arxiv.org/abs/2603.02748

  • 訓練なしで明確な認識:リモートセンシングのためのマルチモーダルLLMにおける幻覚の軽減 [cs.CV]目的:リモートセンシングにおける視覚的質問応答における幻覚の軽減
    • リモートセンシングは,地球観測や環境モニタリングに不可欠であり,その重要性は増している。
    • マルチモーダルLLMは,大規模シーンや微細な対象物の解釈に誤りが生じ,幻覚を引き起こしやすい。
    • 本研究は,LLMの持つ注意機構を活用し,幻覚を軽減する推論手法を提案する。
    • RSHBenchという,事実および論理的幻覚の微細な診断のためのプロトコルベースのベンチマークを導入した。
    • 訓練を必要としない推論手法RADARを提案し,テスト時にLLMの注意機構を用いて段階的な局所化と詳細な局所推論を促す。
    • 多様なLLMを用いた実験により,RADARはRS-VQA性能を向上させ,事実および論理的幻覚を軽減することが示された。

    Link: https://arxiv.org/abs/2603.02754

  • 複数のアラインメントと学習時融合による画像とテキストの統合 [cs.CV, cs.AI]目的:画像とテキストの表現学習におけるモダリティ間のギャップの解消
    • 画像認識技術は,多様な応用分野で不可欠であり,その性能向上は重要課題である。
    • 既存手法では,画像とテキストの表現がモダリティごとに分離し,統合的な理解が困難である。
    • 多様な対応関係の探索と学習時の融合により,モダリティ間の構造的な相互作用を強化する。
    • ITOは,画像分類,検索,マルチモーダルベンチマークにおいて,既存の強力なベースラインを上回る性能を示した。
    • 複数のアラインメントが識別能力を高め,学習時融合がモダリティ間のギャップを解消し,学習の安定化に貢献する。
    • 推論時には融合モジュールを削除することで,標準的なデュアルエンコーダの効率性を維持している。

    Link: https://arxiv.org/abs/2603.02767

  • HiLoRA:パーソナライズされた連合学習のための階層型低ランク適応 [cs.NI, cs.CV]目的:パーソナライズされた連合学習における,階層型低ランク適応フレームワーク
    • 画像認識において,Vision Transformerの転移学習能力が重要視されている。
    • 連合学習では,フルファインチューニングの通信コストが課題となっている。
    • クライアント間の構造に着目し,知識共有と適応能力の向上を目指す。
    • 提案手法HiLoRAは,グローバル,サブグループ,クライアント固有の知識を捉える3層のLoRAアダプターを用いる。
    • LoRA-Subspace Adaptive Clusteringにより,潜在的なクライアントグループを推論し,構造的に整合性の取れたクライアント間の知識共有を促進する。
    • CIFAR-100とDomainNetを用いた実験で,パーソナライズと汎化性能の向上が確認された。

    Link: https://arxiv.org/abs/2603.02785

  • UNICORNの設計:計算病理,放射線科,自然言語処理のための統一ベンチマーク [cs.CV]目的:医療分野における基礎モデルの汎化性能評価
    • 医療AIの発展には,多様なデータからの学習と,異なるモダリティへの応用が不可欠である。
    • 既存のベンチマークは,タスク,臓器,モダリティが限定的で,汎化性能の評価が困難である。
    • 異なるタスクやモダリティ間での汎化性能を均一に評価できる標準化されたベンチマークの提供。
    • UNICORNは,画像解析と自然言語処理を統合し,多様な医療データに対する基礎モデルの評価を可能にする。
    • 標準化された評価プロトコルと,少数ショット学習に基づく評価フレームワークにより,モデルの表現学習能力を分離して評価する。
    • 臨床的に妥当なデータセットと,オープンなベンチマークプラットフォームにより,再現性と公平性を確保し,モデル間の直接比較を促進する。

    Link: https://arxiv.org/abs/2603.02790

  • リアルタイム音声ノイズ除去のための時間変動型IIRフィルタリング [cs.SD, cs.AI, cs.LG, eess.AS]目的:リアルタイム音声ノイズ除去のための時間変動型IIRフィルタリング手法
    • 音声処理技術は,コミュニケーションや情報伝達において不可欠であり,その品質向上は重要な課題である。
    • 従来の深層学習モデルはブラックボックス化しやすく,処理過程の解釈が困難であるという課題がある。
    • 時間変動型IIRフィルタリングにより,適応性と解釈可能性を両立し,ノイズ環境の変化に対応する。
    • 提案手法TVFは,デジタル信号処理の解釈可能性と深層学習の適応性を組み合わせ,低遅延かつ軽量なモデルを実現した。
    • Valentini-Botinhaoデータセットを用いた実験により,TVFが非定常ノイズ環境下で効果的な適応性を示すことが確認された。
    • TVFは,静的DDSPや完全深層学習ベースの手法と比較して,優れた性能を発揮することが示された。

    Link: https://arxiv.org/abs/2603.02794

  • VSearcher:強化学習による長期的マルチモーダル検索エージェント [cs.CV]目的:マルチモーダル検索エージェントの実現
    • 大規模言語モデルが現実世界とインタラクションする場面が増加しており,その能力拡張が重要である。
    • 既存のマルチモーダルモデルは静的な知識に依存し,最新のWeb情報へのアクセスが課題となっていた。
    • 強化学習を用いて,マルチモーダルモデルにWeb検索などのツール利用能力を付与し,問題を解決する。
    • 提案手法 VSearcher は,テキスト検索,画像検索,Webブラウジングを含む環境で,長期にわたるマルチターンツール利用を実現した。
    • 大規模なマルチモーダル質疑応答データセットを構築し,SFT-then-RLパイプラインによってエージェントの能力を向上させた。
    • 複数のマルチモーダル検索ベンチマークにおいて,既存手法や商用モデルを上回る性能を示した。

    Link: https://arxiv.org/abs/2603.02795

  • 野生の屋外シーンにおける再照明可能な3Dガウス [cs.CV]目的:野生の屋外シーンにおける再照明可能な3Dガウス表現の学習
    • 3次元シーンの再構築や新規視点合成は,メタバースなどの応用において重要である。
    • 既存の3Dガウススプラッティングは照明を明示的にモデル化せず,複雑な環境下での再照明が困難である。
    • 本研究は,変化する照明条件下の屋外シーンにおいても再照明が可能な表現を目指す。
    • 提案手法R3GWは,シーンを再照明可能な前景と非反射性の背景(空)に分離する。
    • 物理ベースレンダリングと3Dガウス表現を組み合わせることで,前景の反射における視点依存型照明効果をモデル化する。
    • NeRF-OSRデータセットにおいて最先端の性能を示し,任意の照明条件下での写実的な新規視点合成を実現した。

    Link: https://arxiv.org/abs/2603.02801

  • NOVA:ペアなし動画編集のための疎な制御と密な合成 [cs.CV]目的:ペアなし動画編集のための新しいフレームワーク
    • 動画編集技術の発展は,エンターテインメントやコンテンツ制作において不可欠である。
    • 大規模なペアデータセットの収集が困難であり,動画編集技術のボトルネックとなっている。
    • ペアなしデータを用いて,高忠実度で一貫性のある動画編集を実現すること。
    • NOVAは,ユーザーが編集したキーフレームと元の動画の情報を用いて動画編集を行う。
    • 劣化シミュレーションによる学習戦略により,ペアデータなしで動きの再構成と時間的一貫性を実現。
    • 実験により,既存手法と比較して編集の忠実度,動きの保持,時間的一貫性においてNOVAの優位性が示された。

    Link: https://arxiv.org/abs/2603.02802

  • 古代ギリシア批判版における構造を意識したテキスト認識 [cs.CV]目的:古代ギリシア批判版の構造を意識したテキスト認識
    • 歴史的な学術文献のデジタル化が進む中で,その正確なテキスト認識が重要となる。
    • 既存の視覚言語モデルは,歴史的な学術文献の複雑なレイアウト構造の解釈に課題がある。
    • 視覚言語モデルの構造認識能力を向上させ,歴史的な学術文献のテキスト認識精度を高める。
    • 大規模な合成データセットと実写スキャン版のベンチマークを構築し,最新の視覚言語モデルを評価した。
    • 現在の視覚言語モデルは,構造化された歴史的文書に対して限界があることが示された。
    • Qwen3VL-8Bモデルが実写スキャンにおいて最先端の性能を示し,中誤差率が1.0%に達した。

    Link: https://arxiv.org/abs/2603.02803

  • ScribeTokens:デジタルインクの固定語彙トークン化 [cs.CV]目的:デジタルインクのトークン化手法
    • デジタルインクは,ペンタブレットやタッチ入力などから得られる重要なデータであり,様々な応用が期待される。
    • 従来のデジタルインク表現には,系列長の問題や語彙外単語の問題,ベクトル表現との性能差が存在する。
    • 本研究は,これらの課題を解決し,より効率的かつ高性能なデジタルインク表現を実現することを目的とする。
    • ScribeTokensは,ペンムーブメントを基本ピクセル単位でトークン化する固定語彙トークン化手法である。
    • 手書き文字生成において,ScribeTokensはベクトル表現を大幅に上回り,高い性能を示した。
    • 事前学習と組み合わせることで,認識精度が向上し,収束速度が加速された。

    Link: https://arxiv.org/abs/2603.02805

  • BrandFusion:テキストから動画生成におけるシームレスなブランド統合のためのマルチエージェントフレームワーク [cs.CV, cs.AI]目的:テキストから動画生成におけるシームレスなブランド統合
    • 動画生成技術の進展はコンテンツ制作を革新したが,その商業的活用は限定的である。
    • 生成動画へのブランド統合は,プロンプトの忠実性,ブランドの識別性,自然な統合が課題となる。
    • プロンプトとブランド知識を活用し,動画への自然なブランド統合を実現すること。
    • BrandFusionは,オフラインでのブランド知識ベース構築と,オンラインでのマルチエージェントによるプロンプト改良を行う。
    • 実験の結果,BrandFusionはベースラインと比較して,意味の保持,ブランド認識度,統合の自然さにおいて大幅な改善を示した。
    • 人間による評価においても,ユーザー満足度が高く,持続可能なT2Vの収益化への道が開かれた。

    Link: https://arxiv.org/abs/2603.02816

  • テキスト画像拡散モデルの早期品質評価に向けて [cs.CE, cs.CG, cs.CV, cs.LG]目的:テキスト画像拡散モデルの生成過程における画像品質の効率的な評価手法
    • 近年のテキスト画像生成モデルの進化は目覚ましく,多様な画像生成が可能になった。
    • 生成された画像から最適なものを選択するには膨大な計算資源が必要となる。
    • 生成過程の早期段階で品質を予測し,不要な計算を削減することを目指す。
    • 生成過程の初期段階における活性化情報が,最終的な画像品質と強い相関を持つことを発見した。
    • 提案手法Probe-Selectは,初期活性化情報から品質スコアを予測することで,不要なシードを早期に終了させる。
    • サンプリングコストを60%以上削減しつつ,保持された画像の品質を向上させることに成功した。

    Link: https://arxiv.org/abs/2603.02829

  • スケール不変ガウス微分残差ネットワーク [cs.HC, cs.CL, cs.CV, cs.LG]目的:画像スケールに対する汎化性能の向上
    • 深層学習モデルは画像認識において高い性能を示すが,学習時にないスケールの画像への対応が課題である。
    • 既存の深層ネットワークは,学習時に見なかったスケールの画像に対して性能が低下する傾向にある。
    • 本研究では,スケール不変性を有する新しいネットワーク構造を提案し,未知のスケール画像への対応を目指す。
    • 提案手法であるGaussDerResNetsは,STL-10,Fashion-MNIST,CIFAR-10のスケール変更データセットにおいて,優れたスケール汎化性能を示した。
    • 深層学習における残差結合とガウス微分層を組み合わせることで,高い精度とスケール不変性を両立している。
    • Depthwise-separable畳み込みを用いることで,パラメータ数と計算量を削減しつつ,精度と汎化性能を維持できることを示した。

    Link: https://arxiv.org/abs/2603.02843

  • ノードは早期,エッジは後期:大規模ビジョン言語モデルにおける図表現の探求 [cs.CL, cs.CV]目的:大規模ビジョン言語モデルにおける図表現の理解度に関する研究
    • 図の理解は,AIが現実世界を理解し,複雑な推論を行う上で不可欠である。
    • 大規模言語モデルは図の理解で高い性能を示すものの,要素間の関係性の把握に課題が残る。
    • 本研究は,モデルがノードとエッジ情報をどのように表現しているかを解明し,関係性理解の弱点を克服することを目指す。
    • ビジョンエンコーダではエッジ情報が線形分離不可能であり,言語モデルのテキストトークンで初めて線形に符号化されることが判明した。
    • 一方,ノード情報や全体構造の特徴は,ビジョンエンコーダの隠れ状態において既に線形に符号化されていることが示された。
    • エッジ表現の遅延した出現が,関係性理解の困難さの一因である可能性が示唆された。

    Link: https://arxiv.org/abs/2603.02865

  • スパースビューからの新規視点合成における階層的ガウススプラッティングのためのマルチモーダル事前知識に基づく重要度サンプリング [cs.CV]目的:スパースビューからの新規視点合成における,階層的3Dガウススプラッティングのための重要度サンプリング機構
    • 3次元シーンの再構成は,仮想現実やロボティクスなど幅広い分野で不可欠な技術である。
    • 限られた視点からのデータのみで高品質な再構成を行うことは,情報不足による課題が存在する。
    • マルチモーダルな事前知識を活用し,再構成可能な領域に焦点を当ててガウス分布を追加することで,この課題を解決する。
    • 提案手法では,光度残差,セマンティック事前知識,幾何学的事前知識を融合した重要度サンプリングにより,ロバストな再構成を実現した。
    • 粗いレイヤーで大まかな形状を表現し,マルチモーダル指標に基づいて詳細を局所的に追加する階層的表現を採用した。
    • 実験の結果,DTUベンチマークにおいて最先端の結果を達成し,最大で+0.3dBのPSNR改善を示した。

    Link: https://arxiv.org/abs/2603.02866

  • 見る思考: 大規模ビジョン言語モデルのためのストリーミング思考連鎖推論 [cs.CV]目的:大規模ビジョン言語モデルにおけるストリーミング思考連鎖推論のパラダイム
    • 動画理解は,現実世界の多様なタスクにおいて不可欠であり,その重要性は増している。
    • 従来の動画処理は,動画全体を事前に必要とするため,リアルタイム処理には不向きである。
    • 動画ストリームへの適応を可能にし,効率的かつ応答性の高い動画理解を実現することを目指す。
    • 提案手法「Think-as-You-See (TaYS)」は,バッチ処理や逐次処理と比較して,推論性能を向上させる。
    • TaYSは,最初のトークンまでの時間 (TTFT) と全体の推論遅延を大幅に削減することに成功した。
    • データに沿ったストリーミング推論が,効率的で応答性の高い動画理解を可能にすることを実証した。

    Link: https://arxiv.org/abs/2603.02872

  • SIGMark:ビデオ拡散におけるブラインド抽出可能なスケーラブルな生成時ウォーターマーク [cs.CL, cs.RO, astro-ph.EP, cs.RO, cs.CV]目的:ビデオ拡散モデルにおける生成時ウォーターマークの効率的な実装
    • AI生成コンテンツの急速な発展に伴い,AI生成ビデオの保護と悪用コンテンツの追跡が重要になっている。
    • 既存の生成時ウォーターマークは,キーペアの維持やテンプレートマッチングが必要で,大規模な処理に限界がある。
    • 本研究は,ブラインド抽出と高いロバスト性を実現し,大規模なビデオ拡散モデルへの適用を可能にすることを目指す。
    • SIGMarkは,フレーム単位の擬似乱数符号化キーを用いてウォーターマーク付き初期ノイズを生成することで,ブラインド抽出を実現している。
    • 因果型3D VAEに特化したセグメントグループ順序モジュール(SGO)を設計し,時間的擾乱に対するウォーターマークのロバスト性を向上させている。
    • 実験結果から,SIGMarkは,時間的・空間的な擾乱下で高いビット精度を維持し,スケーラビリティとロバスト性を実証している。

    Link: https://arxiv.org/abs/2603.02882

  • セマンティック方言:ビデオ拡散Transformerのための意味認識混合フォーマット量子化 [cs.CV]目的:ビデオ拡散Transformerのメモリ・計算コスト削減
    • ビデオ生成におけるTransformerの重要性が増している。
    • 量子化によるコスト削減は,画質の劣化を招きやすい。
    • 意味的・時間的な一貫性を保ちつつ,量子化によるコストを削減する。
    • SemanticDialectは,既存のビデオDiT量子化手法やブロック単位のフォーマットベースラインを上回る性能を示す。
    • Open-Sora 2.0において,FP16の画質に接近する結果が得られた。
    • 活性化の分解や意味認識による方言割り当てが,量子化精度の向上に貢献している。

    Link: https://arxiv.org/abs/2603.02883

  • StegaFFD:微細なステガノグラフィ的ドメインリフティングによるプライバシー保護顔偽造検出 [cs.DC, cs.CV, cs.AI]目的:顔偽造検出におけるプライバシー保護
    • 顔画像は個人情報であり,その保護は重要である。特に,クライアントサーバ環境下では漏洩リスクが存在する。
    • 既存のプライバシー保護手法は,画像に歪みを生じさせ偽造検出の精度を低下させる可能性がある。
    • ステガノグラフィを活用し,プライバシーを保護しつつ,高精度な顔偽造検出を実現すること。
    • StegaFFDは,顔画像を自然画像に隠蔽し,ステガノグラフィ的ドメインで直接偽造検出を行う。
    • 低周波成分を考慮した分解(LFAD)と空間周波数差分注意(SFDA)により,自然画像の干渉を抑制し,隠蔽された顔の特徴の認識精度を向上。
    • ステガノグラフィ的ドメインアライメント(SDA)により,隠蔽された顔と元の顔の表現を整列させ,微細な顔の合図を認識する能力を強化。

    Link: https://arxiv.org/abs/2603.02886

  • 一般化された非指数ガウススプラッティング [cs.GR, cs.CV]目的:3Dガウススプラッティングの汎用化
    • 3Dシーンの表現とレンダリングにおいて,効率性と品質の両立が重要視されている。
    • 既存の3Dガウススプラッティングは,指数関数的な透過率に依存しており,複雑なシーンで過剰な描画が発生しやすい。
    • 非指数関数的な透過率を導入することで,描画回数を削減し,レンダリング速度の向上を目指す。
    • 提案手法は,従来の3Dガウススプラッティングと同等の品質を維持しつつ,描画回数を大幅に削減できる。
    • 特に複雑な実写キャプチャにおいて,最大で4倍の高速化を実現した。
    • 非指数関数的な透過率の導入により,より効率的なレンダリングが可能となる。

    Link: https://arxiv.org/abs/2603.02887

  • ランドマーク:ランドマークを意識したマルチモーダルインタラクティブ動画検索のためのマルチエージェントフレームワーク [cs.CV]目的:ランドマークを意識したマルチモーダル動画検索のためのマルチエージェントフレームワーク
    • 動画データの多様化と規模拡大に伴い,マルチモーダル理解,適応的推論,ドメイン固有知識の統合が求められている
    • 複雑なクエリに対応できる動画検索システムの構築が課題であった
    • 文化的背景や空間的ランドマークを考慮した動画検索を実現すること
    • LLandMarkは,クエリ解析,ランドマーク推論,マルチモーダル検索,再ランク付けの4段階で連携する専門エージェントで構成される
    • ランドマーク知識エージェントは,ランドマークを検出し,記述的なビジュアルプロンプトに変換することで,CLIPベースのセマンティックマッチングを強化する
    • LLM(Gemini 2.5 Flash)を活用した画像間変換パイプラインにより,ランドマーク検出から画像検索,類似度マッチングまでを自動化し,手動による画像入力の必要性をなくした

    Link: https://arxiv.org/abs/2603.02888

  • スパースビュー Gaussian Splatting の内在幾何・外観整合性最適化 [cs.CV]目的:単一画像からの3Dヒューマン再構成
    • 3Dヒューマン再構成は,仮想現実や拡張現実など,様々な応用分野で重要性が増している。
    • 既存手法は,複数の視点からの不整合な事前知識により,アーティファクトが発生しやすい。
    • マルチビュー拡散モデルを活用し,高精度な3D再構成を実現することで,この問題を解決する。
    • 提案手法MVD-HuGaSは,高品質な3Dヒューマンデータセットでファインチューニングされたマルチビュー拡散モデルを用いて,単一画像から多視点画像を生成する。
    • 生成された多視点画像と正確なカメラ姿勢を用いて,3D Gaussianを最適化し,高忠実度のフリービューレンダリングを実現する。
    • Thuman2.0と2K2Kデータセットでの実験により,提案手法が最先端の性能を達成することが示された。

    Link: https://arxiv.org/abs/2603.02893

  • 3D-DRES:詳細な3次元指示表現セグメンテーション [cs.CV]目的:3次元指示表現とインスタンスの対応付け
    • 3次元視覚認識と自然言語処理の融合が,ロボット工学や拡張現実などに応用される。
    • 従来の3次元視覚接地タスクは,文全体の検出やセグメンテーションに留まり,自然言語の細かな表現を活用できていない。
    • 自然言語表現に含まれる文脈的情報を活用し,より詳細な3次元視覚言語理解を実現することを目指す。
    • 新しいタスクである詳細な3次元指示表現セグメンテーション(3D-DRES)を提案し,詳細な3次元視覚言語理解の強化を目指した。
    • 54,432個の説明文と11,054個のオブジェクトを含む新しいデータセットDetailReferを構築し,フレーズとインスタンス間の対応付けを可能にした。
    • DetailReferで訓練されたモデルは,フレーズレベルのセグメンテーションに優れ,従来の3次元RESベンチマークでも性能が向上した。

    Link: https://arxiv.org/abs/2603.02896

  • プロGIC:残差ベクトル量子化を用いたプログレッシブかつ軽量な生成画像圧縮 [cs.CV]目的:生成画像圧縮の効率化
    • 画像圧縮は,データ容量削減と伝送効率向上に不可欠であり,様々な応用分野で重要である。
    • 既存の生成画像圧縮は,大規模なモデルに依存し,低ビットレート環境での実用性に課題がある。
    • 軽量なモデルによる,柔軟な伝送と低ビットレート環境での実用性を実現する。
    • ProGICは,残差ベクトル量子化(RVQ)を基盤とするコンパクトなコーデックである。
    • Kodakデータセットにおいて,DISTSで最大57.57%,LPIPSで最大58.83%のビットレート削減を達成した。
    • MS-ILLMと比較して,GPU上でのエンコード・デコード速度が10倍以上向上し,高い効率性を示す。

    Link: https://arxiv.org/abs/2603.02897