arXiv雑要約

画像・音声 - 2026/03/12 公開

  • 生成AIの能力の無防備な露出がディープフェイク検出を損なう [cs.CR, cs.AI, cs.CV]目的:生成AIの能力の露出とディープフェイク検出の脆弱性
    • AI技術の進化は社会に大きな変革をもたらす一方,悪用のリスクも伴う。
    • ディープフェイク技術の巧妙化により,検出が困難になっている。
    • 生成AIが持つ能力を悪用したディープフェイクの検出回避手法を解明する。
    • 生成AIの推論能力と画像改良能力が,ディープフェイク検出を容易に回避しうることを示した。
    • 生成AIが示す「信頼性」の基準を悪用することで,高画質で検出を回避したディープフェイクを生成できた。
    • 商用チャットボットサービスは,そのリアリズムと操作性から,より大きなセキュリティリスクをもたらす。

    Link: https://arxiv.org/abs/2603.10504

  • 病状制約付き自己回帰フローによるUHD画像鮮明化 [cs.CV]目的:UHD画像鮮明化における問題解決
    • UHD画像は,その高解像度から,より鮮明な画像復元が求められる。
    • 既存手法では,計算コストと高精細な詳細生成の間にトレードオフが存在する。
    • 効率的な詳細生成と安定した段階的鮮明化を実現し,UHD画像鮮明化の性能向上を目指す。
    • 提案手法は,UHD画像鮮明化を粗い段階から細かい段階へと段階的に行う自己回帰フローを採用する。
    • Flow Matchingにより残差生成を条件付きベクトル場としてモデル化し,効率的なODEサンプリングを行うことで詳細を付与する。
    • 特徴量誘導型注意行列に対する条件数正則化により,数値的不安定性を抑制し,収束性とクロスカラの一貫性を向上させる。

    Link: https://arxiv.org/abs/2603.10517

  • ファイングレインセマンティック解きほぐしによる視覚誘導制御型医療画像生成 [cs.CV]目的:医療画像生成における,詳細なセマンティック解きほぐしによる視覚誘導制御
    • 医療画像はデータ不足やプライバシー保護の観点から重要であり,生成技術が求められている。
    • 汎用的なテキスト-画像生成モデルの微調整は,複雑な視覚情報と抽象的な臨床テキストのギャップが課題である。
    • 解きほぐしの欠如により,解像度の低い制御しかできず,本研究ではそれを改善することを目指す。
    • 提案手法は,クロスモーダル潜在的アラインメント機構によりテキストを解きほぐし,視覚情報を活用している。
    • ハイブリッド特徴融合モジュールを通じてDiTに注入することで,詳細な構造制御を実現している。
    • 3つのデータセットでの実験結果から,生成品質と下流の分類タスクにおいて既存手法を上回る性能が確認された。

    Link: https://arxiv.org/abs/2603.10519

  • ハイパーネットワークを用いたスパースタスクベクトル混合による全スライド画像プログノーシスにおける効率的な知識転移 [cs.CL, cs.CV]目的:全スライド画像を用いた癌患者の予後推定における知識転移の効率化
    • 癌の予後推定には全スライド画像が広く用いられるが,データ量が限られる場合が多い。
    • 病理学において,ある癌種の学習サンプル数が少なく,汎化性能が低いという課題がある。
    • 他の癌種から効率的に知識を転移し,汎化性能の向上を目指す。
    • 提案手法STEPHは,タスクベクトル混合とハイパーネットワークを用いて,効率的に知識を転移する。
    • 13の癌データセットにおいて,癌固有学習や既存の知識転移手法と比較して,性能が向上した。
    • 大規模な共同学習や複数モデルの推論を必要とせず,効率的に知識を学習できる。

    Link: https://arxiv.org/abs/2603.10526

  • DSFlash:リアルタイムにおける包括的なパノラマシーングラフ生成 [cs.CV]目的:リアルタイムパノラマシーングラフ生成の実現
    • ロボットやAIにとって,周囲の状況を理解する能力は不可欠であり,シーングラフはそのための重要な表現である。
    • 既存手法は処理速度や計算資源の点で課題があり,エッジデバイスでの実用化が困難であった。
    • 本研究は,速度と効率性を両立したシーングラフ生成モデルを開発し,実用的な応用を可能にすることを目指す。
    • DSFlashは,RTX 3090 GPU上で毎秒56フレームの動画処理を達成し,既存の最先端手法と同等の性能を維持する。
    • DSFlashは,主要な関係性のみに焦点を当てるのではなく,より豊かな文脈情報を提供する包括的なシーングラフを生成する。
    • DSFlashは,9年前のGTX 1080 GPUでも24時間未満で学習が完了し,計算資源が限られた環境でも利用しやすい。

    Link: https://arxiv.org/abs/2603.10538

  • 人間らしいプロンプトによる評価:筋骨格CTセグメンテーションのためのファウンデーションモデルのモデル感受性評価 [cs.AR, cs.CV, cs.AI]目的:筋骨格CTセグメンテーションにおけるファウンデーションモデルの性能比較と最適モデルの特定
    • 医療画像セグメンテーションは,診断や治療計画において不可欠であり,高精度な自動化技術が求められている。
    • ファウンデーションモデルの数が増加する中で,データセットや評価指標の違いにより,モデル間の直接比較が困難になっている。
    • 臨床タスクに適したモデルを選択するための指針を提供し,人間の判断に左右されないロバストなモデルを評価する。
    • ファウンデーションモデルのセグメンテーション性能は,モデルやプロンプト戦略によって大きく変動することが示された。
    • 2DではSAM,SAM2.1,3DではnnInteractive,Med-SAM2がパレート最適モデルとして特定された。
    • 人間のプロンプトを用いることでセグメンテーション性能が低下し,参照ラベルからの理想的なプロンプトによる性能評価が過大評価される可能性があることが示唆された。

    Link: https://arxiv.org/abs/2603.10541

  • アクティブ赤外線サーモグラフィーにおける視覚・テキスト情報を用いた認知欠陥解析 [cs.CL, cs.CV, cs.AI, eess.SP]目的:アクティブ赤外線サーモグラフィーと視覚言語モデルを用いた炭素繊維強化プラスチックの認知欠陥解析手法
    • 炭素繊維強化プラスチックの非破壊検査は,航空宇宙産業等で重要であり,高精度な欠陥検出が求められる。
    • AIを用いた検査には大量の学習データが必要であり,データ収集に時間とコストがかかるという課題がある。
    • 事前学習済みの視覚言語モデルを活用し,学習データなしでの欠陥検出と局在化を目指す。
    • 提案手法では,赤外線サーモグラフィーと視覚言語モデルを組み合わせることで,学習データなしでの欠陥検出を実現した。
    • 赤外線サーモグラフィーと視覚言語モデル間のドメインギャップを埋めるAIRT-VLMアダプターを導入し,欠陥の視認性を向上させた。
    • 実験結果から,AIRT-VLMアダプターは従来の次元削減手法と比較して10dB以上のS/N比向上を達成し,IoU値70%の欠陥検出を可能にした。

    Link: https://arxiv.org/abs/2603.10549

  • P-GSVC:スケーラブルな画像・動画のための階層的プログレッシブ2Dガウススプラッティング [cs.CV, cs.MM]目的:画像および動画のスケーラブルなガウス表現
    • 画像や動画の高品質な再構成は,様々な応用において重要である。そのため,効率的な表現方法が求められている。
    • 従来のガウススプラッティングは,大規模なデータや高解像度画像への適用において,計算コストが増大する課題があった。
    • 本研究では,階層的なガウススプラッティングにより,スケーラビリティと再構成品質の両立を目指す。
    • P-GSVCは,ベース層と複数のエンハンスメント層で構成された階層構造を持つ。
    • 提案手法では,層間最適化軌跡を整合させるための同時学習戦略を採用し,安定したプログレッシブ再構成を実現した。
    • 実験結果から,P-GSVCは動画で最大1.9dB,画像で最大2.6dBのPSNR改善効果が確認された。

    Link: https://arxiv.org/abs/2603.10551

  • PET-F2I: LLMを用いたPET/CTレポート印象記述のための包括的ベンチマークとパラメータ効率的なファインチューニング [cs.CV]目的:PET/CTレポート印象記述のためのLLMの性能評価と,その改善
    • PET/CTは腫瘍学や核医学において不可欠であり,正確な診断印象の記述は臨床に重要である。
    • 診断印象の作成は手作業で行われており,時間と労力を要する課題が存在する。
    • LLMを活用し,PET/CTレポートの印象記述を効率化・高精度化することを目指す。
    • 大規模ベンチマークPET-F2I-41Kを構築し,27種類のLLMを評価した結果,既存のLLMはゼロショット環境では不十分な性能を示した。
    • Qwen2.5-7B-InstructをLoRAでファインチューニングしたPET-F2I-7Bは,BLEU-4スコアで0.708の改善,エンティティ網羅率で3倍の向上を達成した。
    • PET-F2I-41Kは,PET/CTレポートの信頼性向上に向けた標準的な評価フレームワークとして確立される。

    Link: https://arxiv.org/abs/2603.10560

  • UniStitch:画像ステッチのためのセマンティック特徴と幾何学的特徴の統合 [cs.RO, cs.CV]目的:画像ステッチのための,セマンティック特徴と幾何学的特徴の統合
    • 画像ステッチは,パノラマ画像作成やVR/AR分野で不可欠な技術である。
    • 従来の幾何学的特徴と近年のセマンティック特徴は,別個に研究されてきた。
    • セマンティック特徴と幾何学的特徴を統合し,よりロバストなステッチを実現する。
    • UniStitchは,セマンティック特徴と幾何学的特徴を統合する新しいフレームワークである。
    • Neural Point Transformerモジュールにより,幾何学的特徴をセマンティック特徴マップに変換する。
    • Adaptive Mixture of Expertsモジュールが特徴融合を最適化し,既存手法を大幅に上回る性能を示す。

    Link: https://arxiv.org/abs/2603.10568

  • R4-CGQA:コンピュータグラフィックス画像品質評価のための検索ベースの視覚言語モデル [cs.CV, cs.DB]目的:コンピュータグラフィックス画像品質評価における視覚言語モデルの性能向上
    • 没入型コンピュータグラフィックスは広く普及しており,その品質評価の重要性は増している。
    • 既存のデータセットは品質に関する記述が不足しており,評価方法も説明性に欠ける点が課題である。
    • ユーザ視点に基づいた品質評価の基準を設け,視覚言語モデルの能力を向上させることを目指す。
    • ユーザ視点に基づき6つの知覚次元を特定し,3500枚のCG画像と品質記述からなるデータセットを構築した。
    • 既存の視覚言語モデルは微細なCG品質判断に課題があるものの,類似画像の記述が理解度向上に繋がることを確認した。
    • 検索拡張生成を採用した二重ストリーム検索フレームワークにより,視覚言語モデルのCG品質評価能力を大幅に向上させた。

    Link: https://arxiv.org/abs/2603.10578

  • 属性抽出を検索として:モデル非依存のAI生成画像属性特定 [cs.CV]目的:AI生成画像の属性特定手法
    • AI生成技術の急速な発展により,画像フォレンジックの重要性が増している。
    • 既存手法はモデル依存であり,未知の生成器への対応が課題である。
    • モデル非依存な画像属性特定により,汎用性と拡張性を高める。
    • 本研究では,属性特定をインスタンス検索問題として捉える新たなパラダイムを提案。
    • 提案手法LIDAは,低ビットプレーンに基づき,ゼロショット・少数ショット設定で最先端の性能を達成。
    • 画像生成モデルにアクセスせずに,AI生成画像を特定できる可能性を示した。

    Link: https://arxiv.org/abs/2603.10583

  • 高速化のための試み:単一段階拡散を用いたゼロショット深度補完 [cs.CV, cs.RO]目的:単一段階拡散モデルを活用したゼロショット深度補完フレームワーク
    • 3次元環境の認識は,ロボティクスや自動運転などの分野で不可欠である。
    • 既存の深度補完手法は,計算コストが高く,リアルタイム処理が困難な場合がある。
    • 拡散モデルの効率性を向上させ,実用的な低遅延3次元認識を実現すること。
    • Marigold-SSDは,従来の拡散ベース手法と比較して,大幅に高速な推論を実現している。
    • 訓練コストはわずか4.5 GPU日であり,効率的な3次元知覚を可能にする。
    • 複数のベンチマークにおいて,優れた汎化性能とゼロショット性能が示されている。

    Link: https://arxiv.org/abs/2603.10584

  • 多話者同時音声認識におけるLLMのセマンティック事前知識の蒸留と話者数ルーティング [cs.SD]目的:多話者同時音声認識のためのLLMセマンティック事前知識の蒸留と話者数ルーティング
    • 音声認識の精度向上は,人間と機械の自然なコミュニケーションを実現する上で不可欠である。
    • 同時音声環境下では,話者分離や音声認識の精度が低下する問題が存在する。
    • LLMのセマンティック事前知識を効率的に活用し,同時音声認識の精度を向上させることを目指す。
    • 本研究では,LLMをエンコーダーのみのモデルに蒸留することで,計算コストを抑えつつ高い認識性能を実現した。
    • 話者数予測ヘッドを導入することで,可変話者数環境下でもロバストな性能を発揮できることを示した。
    • LibriMixを用いた実験により,二話者条件で既存のLLMベースシステムと同等以上の性能,三話者条件で顕著な性能向上を確認した。

    Link: https://arxiv.org/abs/2603.10587

  • ノイズ下における正確な補間:Clough-Tocher と多重四次 RBF 曲面の再現性のある比較 [cs.GR]目的:多変量表面解析のための三次および径底関数(RBF)補間法の性能比較
    • 物理現象のシミュレーションやデータ解析において,正確な表面表現は不可欠である。
    • ノイズを含むデータに対する補間法の安定性と精度が課題となっている。
    • ノイズ環境下での補間法の挙動を比較し,より安定した手法を特定すること。
    • ノイズがない場合,両補間法は高い精度を達成するが,出力に依存して優位性が変化する。
    • ノイズがある場合,正確な補間はノイズのあるノードに過剰適合し,外挿性能が低下する。
    • 実験設定においては,三次補間法が比較的安定していることが示された。

    Link: https://arxiv.org/abs/2603.10590

  • 層の一貫性が重要:汎用性のある合成画像検出のための洗練された潜在的遷移の差異 [cs.CV]目的:合成画像の検出における汎用性の向上
    • 生成モデルの急速な発展により,合成画像が現実のものと区別がつかなくなりつつあり,セキュリティ上のリスクが高まっている。
    • 既存の手法は,モデル固有のアーティファクトや低レベルの統計的特徴に依存するため,未知のデータへの汎用性が低い。
    • 潜在表現における意味的注意と構造的 coherence の層間一貫性の差異に着目し,その差異を利用して検出精度を高める。
    • 本研究では,層間遷移の差異(LTD)という新しいアプローチを提案し,実画像と合成画像の層間一貫性の違いを捉える。
    • LTDは,識別力のある層を適応的に特定し,層間の遷移の差異を評価することで,既存手法を平均で14.35%上回る精度を実現した。
    • 多様なGANとDMを含む3つのデータセットにおける実験により,LTDの検出精度,汎用性,ロバスト性の高さが実証された。

    Link: https://arxiv.org/abs/2603.10598

  • HyPER-GAN:リアルタイムフォトリアリズム向上に向けたハイブリッドパッチベース画像変換 [cs.CV]目的:フォトリアリズム向上のための軽量画像変換手法
    • コンピュータビジョンの性能向上には,現実的な訓練データが不可欠である。
    • 既存の生成モデルは,計算コストが高く,視覚的なアーティファクトが発生しやすい。
    • リアルタイム処理が可能で,高品質な画像を生成する手法の開発。
    • HyPER-GANは,既存の画像変換手法と比較して,推論速度,視覚的リアリズム,意味的な安定性において優れた性能を示した。
    • ハイブリッド学習戦略が,従来の学習方法よりも視覚品質と意味的一貫性を向上させることが示された。
    • U-Net構造の生成器を用いることで,リアルタイム推論が可能になった。

    Link: https://arxiv.org/abs/2603.10604

  • TopGen:四角形メッシュ生成のための構造レイアウトとクロスフィールドの学習 [cs.GR]目的:四角形メッシュ生成における構造レイアウトとクロスフィールドの同時予測
    • コンピュータグラフィックスにおいて,高品質な四角形メッシュ生成は基礎的な課題である。
    • 従来の最適化手法は入力メッシュのトポロジーに制約され,高解像度モデルでは計算コストが課題となる。
    • 構造レイアウトの保持と編集性を両立した,効率的な四角形メッシュ生成手法の確立。
    • TopGenは,入力三角メッシュから構造レイアウトとクロスフィールドを同時に予測することで,既存手法よりも高い幾何学的精度とトポロジーの合理性を実現した。
    • TopGenは,点群サンプリングと形状エンコーダにより,非多様体形状や低品質な初期トポロジーに対してもロバストな性能を発揮する。
    • 大規模な四角形メッシュデータセットTopGen-220Kを新たに構築し,学習データの拡充に貢献した。

    Link: https://arxiv.org/abs/2603.10606

  • MUNIChus:多言語ニュース画像キャプションベンチマーク [cs.RO, cs.CL, cs.CV]目的:多言語ニュース画像キャプションの評価基準
    • ニュース報道において,画像とテキストの連携は重要な情報伝達手段である。
    • ニュース画像キャプションの研究は英語が中心であり,他の言語のデータセットが不足している。
    • 多言語対応のニュース画像キャプションモデルの開発・評価を促進すること。
    • 本研究では,9言語(低リソース言語を含む)に対応するMUNIChusベンチマークを構築した。
    • 最先端のニューラルニュース画像キャプションモデルをMUNIChusで評価し,課題が残ることを示した。
    • MUNIChusは公開されており,既に20以上のモデルが評価されている。

    Link: https://arxiv.org/abs/2603.10613

  • Splat2Real:3Dガウススプラッティングによる物理AI向け新規視点スケーリング [cs.DC, cs.NI, cs.CV]目的:物理AIにおける視点変化への対応と,単眼RGB-to-3D知覚における新規視点ロバスト性の向上
    • 物理AIの発展には,現実世界での応用が不可欠であり,そのためには視点変化への対応が重要である。
    • 既存手法では,訓練時と展開時の視点差が性能低下の原因となっており,ロバストな視点対応が課題である。
    • 3Dガウススプラッティングを活用し,効果的な視点スケーリング戦略を開発することで,この問題を解決することを目指す。
    • 本研究では,CN-Coverageという新規な視点選択カリキュラムを提案し,既存手法と比較して安定した性能向上を実証した。
    • 特に,中~高予算において,GOL-Gated CN-Coverageが最も高い安定性と低い新規視点エラー率を実現した。
    • さらに,制御プロキシ実験により,視点変化下での安全性と進捗のトレードオフに影響を与えることが示され,実用的な有効性が確認された。

    Link: https://arxiv.org/abs/2603.10638

  • 少ないほど良い:効率的な骨格表現学習のためのデコーダーフリーマスクモデリング [cs.CV]目的:骨格に基づく行動表現学習における効率化
    • 行動認識において,骨格データはロバストな特徴量として重要であり,その表現学習は性能向上に不可欠である。
    • 既存手法では,コントラスト学習は詳細な情報を捉えきれず,マスクオートエンコーダーは計算コストが高いという課題がある。
    • デコーダーを排除することで計算効率を高め,骨格データの表現能力を向上させることを目指す。
    • 提案手法SLiMは,マスクモデリングとコントラスト学習を統合し,デコーダーフリーなフレームワークを実現した。
    • セマンティックチューブマスキングと骨格を意識したデータ拡張により,骨格データの時間的相関による単純な再構成を防いだ。
    • 実験により,SLiMは様々な下流タスクで最先端の性能を達成し,既存のMAE手法と比較して推論コストを大幅に削減した。

    Link: https://arxiv.org/abs/2603.10648

  • ビデオ推論モデルは外に出る準備ができているか [cs.CV, cs.AI]目的:現実環境におけるビデオ推論モデルの頑健性向上
    • 現実世界の応用では,天候や遮蔽などの影響が避けられないため,モデルの頑健性が重要である。
    • 既存のモデルは,現実世界のノイズに対する頑健性が低く,評価環境との乖離が見られる。
    • 本研究は,空間時間的な摂動下での一貫性報酬をモデル化することで,モデルの頑健性を高めることを目指す。
    • 提案手法ROVAは,モデルの能力に応じてサンプル難易度を再評価し,頑健性を考慮した一貫性報酬を用いることで,性能低下を効果的に抑制する。
    • PVRBench,UrbanVideo,VisBenchなどのベンチマークにおいて,既存モデルは現実的な摂動下で最大35%の精度低下を示すのに対し,ROVAは24%以上の精度向上を達成する。
    • ROVAによる性能向上は,クリーンなベンチマークにも一貫して見られ,汎用性も確認された。

    Link: https://arxiv.org/abs/2603.10652

  • 埋め込み方法の重要性:EO埋め込み設計選択の評価 [eess.SY, cs.SY, cs.CV]目的:地球観測データの効率的な利用とスケーラビリティ向上
    • 地球観測データの利用拡大と,大規模な地理空間モデルの活用が重要になっている。
    • 埋め込み表現の設計が,その後のタスク性能やパイプラインの効率に大きく影響する点が課題である。
    • 地理空間モデルにおける埋め込み設計の最適化と,その性能への影響を明らかにすること。
    • 地理空間モデルの埋め込み表現を,元のデータよりも500倍以上小さい固定サイズに集約できることを示した。
    • Transformerバックボーンと平均プーリングが,汎用性の高い埋め込み表現を提供する傾向が確認された。
    • 異なる目的関数での埋め込みの組み合わせが,ロバスト性を向上させる効果が示された。

    Link: https://arxiv.org/abs/2603.10658

  • JPEG XSにおけるイントラパターンコピーのための変位ベクトル探索のFPGA実装 [cs.HC, cs.RO, cs.SY, eess.SY, cs.AR, cs.CV, eess.IV]目的:JPEG XSのイントラパターンコピーにおける変位ベクトル探索の効率的なFPGAアーキテクチャ
    • JPEG XSは低遅延・低複雑な画像圧縮規格であり,映像機器等への応用が期待される。
    • イントラパターンコピーの変位ベクトル探索は計算量が多く,ハードウェア実装のボトルネックとなる。
    • 本研究は,変位ベクトル探索のハードウェア実装効率を向上させ,JPEG XSの実用化を促進する。
    • 提案アーキテクチャは,38.3 Mpixels/sのスループットを達成し,実用的なハードウェア実装が可能であることを示した。
    • 電力消費量は277 mWであり,省電力性も確認された。
    • 本アーキテクチャは,イントラパターンコピーだけでなく,他の予測符号化ツールへの応用も期待できる。

    Link: https://arxiv.org/abs/2603.10671

  • A$^2$-Edit:任意のオブジェクトと曖昧なマスクを用いた高精度な参照画像に基づく画像編集 [cs.HC, cs.CY, cs.RO, cs.CV]目的:任意のカテゴリのオブジェクトに対する画像編集手法の開発
    • 画像編集技術は,写真加工やコンテンツ生成など幅広い分野で重要であり,その需要は増加の一途を辿っている。
    • 既存の画像編集手法では,編集対象のカテゴリが限定されていたり,正確なマスクが必要であったりする課題があった。
    • 多様なカテゴリのオブジェクトを,粗いマスクだけでも編集できる汎用的な手法を確立することが目的である。
    • 提案手法A$^2$-Editは,既存の手法と比較して,VITON-HDやAnyInsertionといったベンチマークにおいて,全ての評価指標で優れた性能を示した。
    • 大規模な多カテゴリデータセットUniEdit-500Kを構築し,モデルがカテゴリ間の意味的関係を自動的に学習することを可能にした。
    • Mixture of TransformerモジュールとMask Annealing Training Strategyを導入することで,カテゴリ間の意味的転移と汎化性能を向上させた。

    Link: https://arxiv.org/abs/2603.10685

  • MapGCLR: ベクトル化HDマップオンライン構築のための空間的コントラスト学習 [cs.RO, cs.CV]目的:ベクトル化HDマップオンライン構築モデルにおける潜在的な俯瞰(BEV)特徴グリッド表現の改善
    • 自動運転車は周囲環境の理解に地図情報を必要とするため,高精度な地図の重要性は高い。
    • オフラインHDマップの作成・維持にはコストがかかるため,スケーラブルな代替手段が求められている。
    • 大量の学習ラベルを必要とせず,自己教師あり学習を用いてオンラインHDマップ構築を効率化する。
    • 提案手法は,ベクトル化マップ認識性能のダウンストリームタスクにおいて,教師あり学習のベースラインを上回る結果を示した。
    • BEV特徴空間の主成分分析(PCA)可視化において,セグメンテーションの質的改善も確認された。
    • 多経路トラバーサル要件を用いた補助データセット分割により,コントラストペアの空間的重複を確保した。

    Link: https://arxiv.org/abs/2603.10688

  • 隠れた画像における境界補完のための生体模倣CNN [cs.CV]目的:隠れた画像における境界補完のためのCNNフィルタ設計
    • 視覚認知において重要な境界補完処理は,対象認識の基礎となる。
    • 画像の一部が隠れてしまうと,既存のCNNでは認識性能が低下する。
    • 隠れた画像に対するロバスト性を向上させるCNNアーキテクチャを開発する。
    • 提案手法BorderNetは,MNIST,Fashion-MNIST,EMNISTの3つのデータセットで,ストライプとグリッドによる隠蔽に対して,性能が向上した。
    • 隠蔽の度合いやデータセットによって,性能向上率は異なる。
    • 本研究は,視覚皮質の数理モデルに基づいたCNNフィルタ設計の有効性を示した。

    Link: https://arxiv.org/abs/2603.10694

  • RandMark:視覚基盤モデルのランダムウォーターマーキングについて [cs.CV, cs.AI]目的:視覚基盤モデルの所有権検証
    • 大規模データで学習されるため,多様な画像処理タスクで高性能を発揮する。
    • データ収集と学習コストが高く,モデルの不正利用を防ぐ仕組みが課題である。
    • モデルの所有権を検証し,知的財産権を保護する手法を開発すること。
    • 提案手法では,内部表現にデジタルウォーターマークを埋め込み,所有権を検証する。
    • ランダムな埋め込みにより,機能コピーでの検出が可能であり,誤検出率も低い。
    • 理論的および実験的に,非ウォーターマークモデルの誤検出率と,ウォーターマークモデルの誤認識率が低いことを示す。

    Link: https://arxiv.org/abs/2603.10695

  • AlphaFlowTSE:条件付きAlphaFlowによるワンステップターゲット話者分離 [cs.SD, cs.AI]目的:マルチ話者混合音からのターゲット音声復元
    • 音響環境下での音声処理技術の重要性が増しており,特に複数の話者の音声を分離する技術が求められている。
    • 既存手法では,音声分離に複数ステップの処理が必要となり,リアルタイム処理が困難となる場合がある。
    • 本研究は,ワンステップで高精度なターゲット話者分離を実現し,リアルタイム処理の実現を目指す。
    • 提案手法AlphaFlowTSEは,Jacobian-vector product (JVP)を用いないAlphaFlow目的関数を用いて学習することで,ワンステップでのターゲット音声生成を可能にした。
    • 混合比予測などの補助的な処理を排除し,混合音からターゲット音声への軌跡に沿った平均速度輸送を学習することで,訓練の安定化を実現した。
    • Libri2MixとREAL-Tを用いた実験により,AlphaFlowTSEがターゲット話者との類似性を向上させ,実際の混合音に対する汎化性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.10701

  • UniCom:圧縮された連続的意味表現による統一マルチモーダルモデリング [cs.CV]目的:マルチモーダル理解と生成を調和させる統一フレームワーク
    • 画像とテキストのような異なるモダリティを統合し,より高度なAIシステムを構築する上で重要である。
    • 既存手法では,離散的な視覚トークン化による意味情報の損失や,高次元空間での生成モデルの不安定性が課題となっている。
    • 圧縮された連続的意味表現を用いることで,これらの課題を克服し,マルチモーダルモデリングの性能向上を目指す。
    • UniComは,チャネル次元の削減が空間的ダウンサンプリングよりも再構成と生成の両方において有効であることを示した。
    • 注意機構に基づいた意味圧縮器により,密な特徴をコンパクトな統一表現に蒸留することに成功した。
    • UniComは,統一モデルにおける最先端の生成性能を達成し,VAEに依存しない画像編集と一貫性維持に優れている。

    Link: https://arxiv.org/abs/2603.10702

  • 歩行者ナビゲーションのための深度認識セグメンテーションを用いたグラウンデッド視覚言語対話:WalkGPT [cs.CV, cs.CY]目的:歩行者ナビゲーションのための,深度を意識したセグメンテーションによるグラウンデッド視覚言語対話
    • 都市空間の複雑さから,視覚的・空間的な理解が求められる。視覚障碍者等への支援は重要である。
    • 既存の大型視覚言語モデルは,明示的なグラウンディングの欠如により,物体幻覚や信頼性の低い深度推論を引き起こす。
    • 深度情報を考慮したセグメンテーションを通じて,より正確で安全な歩行者ナビゲーションを実現すること。
    • WalkGPTは,言語推論とセグメンテーションを統合し,深度を意識したナビゲーションガイダンスを可能にする。
    • 提案手法では,Multi-Scale Query ProjectorとCalibrated Text Projectorにより,詳細なグラウンディングと深度推論を実現している。
    • 大規模なベンチマークデータセットPAVEを新たに構築し,WalkGPTの優れたグラウンデッド推論とセグメンテーション性能を実証した。

    Link: https://arxiv.org/abs/2603.10703

  • 音声アンチスプーフィングモデルの確率的検証 [cs.CL, cs.HC, cs.ET, cs.RO, cs.SY, eess.SY, cs.RO, cs.SD, cs.AI]目的:音声アンチスプーフィングモデルの頑健性評価
    • 音声合成技術の高度化により,悪意のある利用のリスクが増大しているため,セキュリティ確保が重要である。
    • 既存の検知手法は,形式的な頑健性の保証がなく,未知の生成技術への汎化性能が課題である。
    • 未知の音声合成技術や入力変化に対する頑健性を検証する手法を確立することを目指す。
    • 提案手法PV-VASMは,テキスト読み上げ(TTS),音声クローニング(VC)下での誤分類確率を推定する。
    • モデルに依存せず,未知の合成技術や入力摂動に対する頑健性検証が可能である。
    • 理論的な誤差確率の上限を導出し,多様な実験設定で有効性を実証した。

    Link: https://arxiv.org/abs/2603.10713

  • UAV交通シーン理解:クロススペクトル誘導アプローチと統一されたベンチマーク [cs.CV, cs.AI]目的:UAVによる交通シーンの理解
    • 交通システムの高度化において,広範囲な監視と柔軟な展開が可能なUAVの活用が不可欠である。
    • 既存手法は,光学画像への過度な依存により,夜間や霧などの悪条件下で性能が著しく低下する問題がある。
    • 複雑な交通行動の評価に必要なドメイン固有の知識を組み込み,悪条件下でもロバストな理解を目指す。
    • 提案手法CTCNetは,クロススペクトル情報を活用し,外部の交通規制知識を埋め込むことで,複雑な交通行動の理解と違反の識別を可能にする。
    • 新たに構築されたTraffic-VQAベンチマークは,光学画像と熱画像を組み合わせた大規模なデータセットであり,UAV交通シーン理解の研究を促進する。
    • 実験結果から,CTCNetが最先端手法と比較して,認知および知覚の両面で顕著な性能向上を示すことが明らかになった。

    Link: https://arxiv.org/abs/2603.10722

  • eLasmobranc データセット:サメとエイの種識別と生物多様性モニタリングのための画像データセット [cs.CV]目的:サメとエイの種識別および生物多様性モニタリングのための画像データセット
    • サメとエイの個体数は世界的に減少しており,保全活動の必要性が高まっている。
    • 既存の画像データセットは,検出に偏っていたり,粗い分類しかできなかったりする課題があった。
    • 本研究は,サメとエイの形態的特徴に基づいた,より詳細な種識別を可能にすることを目的とする。
    • eLasmobranc データセットは,スペイン地中海沿岸に生息する7種のサメとエイの画像を収録した公開データセットである。
    • 陸上での標準化されたプロトコルに基づいて画像を収集し,形態的特徴が明確に視認できるように配慮されている。
    • このデータセットは,サメとエイの種レベル分類,個体群研究,および生物多様性モニタリングのためのAIシステムの開発を支援する。

    Link: https://arxiv.org/abs/2603.10724

  • 人間による推論に着想を得た堅牢な音声ディープフェイク検出への道 [cs.SD, cs.AI]目的:音声ディープフェイク検出の堅牢性向上
    • 音声技術の発展に伴い,悪意による音声偽造が深刻化しており,個人情報への不正アクセス等のリスクがある。
    • 既存のディープフェイク検出手法は,未知の音声ドメインや生成モデルに対する汎化性能が低いという課題がある。
    • 人間らしい推論に基づいた,説明可能なディープフェイク検出手法を開発し,その有効性を検証する。
    • 提案手法HIR-SDDは,大規模音声言語モデルと人間による注釈データを用いた思考連鎖推論を組み合わせることで,高い検出性能を実現した。
    • HIR-SDDは,予測結果に対する妥当な根拠を提供し,人間が理解しやすい形で判断の理由を説明できる。
    • 実験評価により,提案手法が新たな音声ドメインや生成モデルに対しても有効であることが示された。

    Link: https://arxiv.org/abs/2603.10725

  • 拡散Transformerの空間的加速:学習不要なJust-in-Time [eess.SY, cs.SY, cs.CV]目的:拡散Transformerの空間的加速手法
    • 画像生成AIの発展において,高品質な画像を高速に生成することが重要視されている。
    • 拡散Transformerは計算コストが高く,実用的な展開が困難であるという課題がある。
    • 空間的な冗長性を利用し,計算量を削減することで高速化を図る。
    • 提案手法Just-in-Time (JiT) は,空間的に近似したODEを導入し,選択されたアンカートークンのみで生成プロセスを駆動する。
    • JiTは最大7倍の高速化を実現し,既存の加速手法よりも優れた性能を発揮する。
    • 生成品質をほぼ損なうことなく,推論速度と生成精度の新たなトレードオフを確立した。

    Link: https://arxiv.org/abs/2603.10744

  • 回転照明とピクセル単位学習によるイベントベースのフォトメトリックステレオ [cs.DB, cs.CV]目的:表面法線の推定
    • フォトメトリックステレオは,3次元形状復元において重要な技術であり,ロボティクスやコンピュータビジョンの発展に貢献する。
    • 従来のフォトメトリックステレオは,制御された照明環境に依存し,環境光の影響を受けやすく,実用性に課題があった。
    • イベントカメラと回転照明を用いることで,制御光が不要で,実環境下でのロバストな表面法線推定を目指す。
    • 提案手法は,イベントカメラと回転光源を組み合わせたシステムで,従来のイベントベースのフォトメトリックステレオ手法と比較して,平均角度誤差を7.12%削減した。
    • 本手法は,イベント活動が少ない領域や強い環境光,および反射の影響を受けるシーンに対してもロバスト性を示す。
    • システム校正を必要とせず,軽量なピクセル単位のニューラルネットワークにより,イベント信号から直接表面法線を予測する。

    Link: https://arxiv.org/abs/2603.10748

  • CodePercept:コードに基づく視覚的STEM知覚によるMLLMの性能向上 [cs.CV]目的:MLLMにおける視覚的STEM推論能力の限界とその改善策
    • STEM分野の視覚的推論は,科学技術の発展に不可欠であり,その自動化が求められている。
    • 既存のMLLMは,STEM分野の視覚的推論において性能が十分ではなく,その原因が不明確である。
    • コードを新たな知覚媒体として活用し,MLLMの視覚的STEM知覚能力を向上させる。
    • 大規模データセットICC-1Mを構築し,コードに基づいたキャプション生成とSTEM画像からコードへの変換を試みた。
    • 実験の結果,知覚能力の向上は,推論能力の向上よりも効果的であることが示された。
    • STEM2Code-Evalという新しいベンチマークを導入し,STEMドメインにおける視覚知覚能力を直接評価した。

    Link: https://arxiv.org/abs/2603.10757

  • 意味的に劣化させた条件を用いた拡散モデルの誘導 [eess.SY, cs.SY, cs.CV]目的:拡散モデルにおける誘導の精度向上
    • 画像生成AIの発展は目覚ましく,高品質な画像生成が求められている。
    • 従来のCFGは,意味情報が乏しいnull promptに依存し,複雑な構文の生成で精度が低い。
    • 意味的に劣化させた条件を用いることで,より洗練された誘導信号を生成し,精度を向上させる。
    • 提案手法CDGは,null promptを戦略的に劣化させた条件に置き換えることで,微細な意味の区別をモデルに学習させる。
    • CDGは,Transformerのテキストエンコーダにおけるトークンを機能的に分類し,内容トークンのみを劣化させることで,外部モデルや追加学習なしに構築可能。
    • Stable Diffusion 3を含む多様なアーキテクチャで検証した結果,構文の正確性とテキストと画像の整合性が大幅に向上した。

    Link: https://arxiv.org/abs/2603.10780

  • カテゴリカルVQAのためのショートカット:スーパーニューロンの活用 [cs.CV, cs.AI, cs.LG]目的:視覚的根拠のある多様なタスクにおける精度の高い分類器
    • 画像と言語を理解するVLMsは,様々な応用において重要な役割を担っている。
    • VLMsの性能向上には,教師ありファインチューニング等が必要であり,計算コストが高い。
    • 計算コストを抑えつつVLMsの性能を向上させるための新たな手法を提案する。
    • VLMsの活性化値を直接プローブすることで,精度の高い分類器を構築できることを示した。
    • 特に,初期層の活性化値(スーパーニューロン)を利用することで,高速化と性能向上が同時に実現された。
    • 最速で5.10倍の速度向上を達成し,分類性能もロバストに改善された。

    Link: https://arxiv.org/abs/2603.10781

  • 実験プロセス監視のための位相界面インスタンスセグメンテーション [cs.CV]目的:実験プロセスの位相界面をインスタンス単位でセグメンテーションする手法
    • 化学実験の自動化において,視覚的なプロセス監視は不可欠である。
    • 透明なガラス容器内の弱い位相境界や光学的なアーチファクトが,セグメンテーションの精度を低下させる。
    • 位相界面のセグメンテーションを通じて,実験プロセスのリアルタイム監視を可能にすること。
    • 提案手法LGA-RCM-YOLOは,CTG 2.0データセットにおいて,YOLO11mのベースラインを大幅に上回る性能を示した。
    • 特に,薄く細長い界面の検出において高い精度を実現し,AP@0.5で84.4%,AP@0.5-0.95で58.43%を達成した。
    • 分離漏斗や結晶化などの実験プロセスにおいて,実用的な視覚センサーとしての有効性が確認された。

    Link: https://arxiv.org/abs/2603.10782

  • フローマッチングの二次幾何学:テキストから画像合成における意味的粒度整合 [cs.CL, cs.IR, cs.CV]目的:生成ファインチューニングの最適化ダイナミクスの分析
    • 画像生成モデルの性能向上は,応用範囲の拡大に不可欠である。
    • 既存手法では,特徴量間の残差相関を明示的に制御することが困難である。
    • 意味的粒度整合により,勾配の競合を緩和し,学習効率と品質を向上させる。
    • フローマッチングの最適化が,動的に変化するニューラルタンジェントカーネルによって支配される二次形式として表現されることが示された。
    • 提案手法SGAは,DiTおよびU-Netアーキテクチャにおいて,収束の加速と構造的整合性の改善に貢献する。
    • SGAにより,効率と品質のトレードオフが改善され,生成モデルの潜在能力が引き出される。

    Link: https://arxiv.org/abs/2603.10785

  • PolGS++:物理に基づいた偏光ガウシアン スプラッティングによる高速反射面再構成 [cs.CV]目的:反射面再構成のための,物理的制約に基づいた偏光ガウシアン スプラッティングフレームワーク
    • リアルタイムVRやデジタルコンテンツ制作において,正確な反射面再構成は不可欠である。
    • 従来の3Dガウシアン スプラッティングは,特に細かい形状と法線ベクトルの復元において,反射面では性能が劣る。
    • 物理に基づいたモデルと可視性マスクにより,反射面の再構成精度と効率を向上させる。
    • 提案手法PolGS++は,偏光BRDFモデルを3DGSに統合し,拡散反射と鏡面反射成分を分離。
    • 深度に基づいた可視性マスクにより,レイ トレーシングなしで偏光角に基づく接空間の一貫性を確保。
    • 合成データと実データを用いた実験により,提案手法の有効性が確認された。学習時間は約10分。

    Link: https://arxiv.org/abs/2603.10801

  • Vision Transformer におけるバックドア方向 [cs.CV, cs.CR]目的:Vision Transformerにおけるバックドア攻撃の表現
    • 画像認識の応用拡大に伴い,AIセキュリティの重要性が高まっている。
    • バックドア攻撃は検知が難しく,AIシステムの信頼性を脅かす深刻な問題である。
    • バックドア攻撃のメカニズム解明と,それに対する防御手法の開発が求められている。
    • バックドア攻撃は,モデルの活性化空間における特定の「トリガー方向」として表現されることが明らかになった。
    • この方向に対する介入は,様々なデータセットや攻撃手法において,バックドア挙動を一貫して制御できることが確認された。
    • 静的パッチトリガーと分散型トリガーでは,内部的な処理ロジックに明確な違いが存在することが示された。

    Link: https://arxiv.org/abs/2603.10806

  • HanMoVLM:専門的な芸術絵画評価のための大規模視覚言語モデル [cs.CV]目的:専門的な芸術絵画評価能力を備えた大規模視覚言語モデルの構築
    • 芸術分野における質の評価は専門知識を要するため,客観的で信頼性の高い評価手法が求められている。
    • 既存の大規模視覚言語モデルは芸術的な評価能力に乏しく,専門家のような評価は困難である。
    • 中国絵画のような抽象性の高い芸術分野において,専門家レベルの評価を可能とするモデルを開発する。
    • HanMoVLMは,市場価格に基づいた高品質なデータセットHanMo-Benchを用いて,中国絵画の評価能力を獲得した。
    • 専門家が検証したChain-of-Thought(思考の連鎖)を組み込むことで,内容の特定から専門的な評価まで,高度な推論が可能となった。
    • HanMoVLMは,画像生成時の出力選択において,質の高い検証者として機能し,生成モデルの性能向上に貢献する。

    Link: https://arxiv.org/abs/2603.10814

  • 薬剤画像とインスタンスセグメンテーションマスクのデータセット:有害事象の防止に向けて [cs.CV]目的:薬剤画像認識モデル開発のためのデータセット
    • 医療現場における服薬ミスや有害事象は患者の安全を脅かす重大な問題である。
    • 既存の薬剤画像データセットは,現実世界の複雑な状況に対応できていない。
    • 本研究は,現実的な条件下での薬剤認識を向上させるためのデータセットを提供する。
    • MEDISEGデータセットを用いてYOLOv8およびYOLOv9を学習し,高い検出精度を達成した。
    • 特に,3種類の錠剤のサブセットではIoU 0.5で99.5%の平均適合率(mAP)を記録した。
    • MEDISEGで事前学習することで,未知の錠剤クラスの認識精度が向上することが示された。

    Link: https://arxiv.org/abs/2603.10825

  • 音声認識LLMによる話者検証:評価と拡張 [cs.SD, cs.AI]目的:音声認識LLMにおける話者識別能力の評価と向上
    • 音声技術は,セキュリティやユーザ認証において重要な役割を担う。
    • 既存の音声認識LLMは,言語内容に偏っており,話者識別に十分な能力がない。
    • 話者識別能力を向上させることで,より安全で便利な音声インターフェースを実現する。
    • 提案手法により,API利用モデルおよびオープンウェイトモデルにおいて,話者検証スコアを継続的に算出可能となった。
    • 最新の音声認識LLMのベンチマークにより,話者識別性能が低いことが示された (VoxCeleb1で20%以上のEER)。
    • TinyLLaMA-1.1BにECAPA-TDNNの埋め込みを統合したECAPA-LLMは,VoxCeleb1-Eで1.03%のEERを達成し,専用話者検証システムに匹敵する性能を示した。

    Link: https://arxiv.org/abs/2603.10827

  • BALD-SAM:不一致に基づく能動プロンプティングによるインタラクティブセグメンテーション [cs.CV, cs.AI]目的:インタラクティブセグメンテーションにおける能動プロンプティング手法
    • 画像セグメンテーションは,医療画像解析や自動運転など,幅広い分野で不可欠な技術である。
    • 従来の手法では,アノテーターが視覚的にマスク品質を評価し,プロンプトを配置する必要があり,効率が低い。
    • モデル由来の基準を用いて,情報量の多い領域を効率的にプロンプトとして選択することを目指す。
    • BALD-SAMは,ベイズ的不一致に基づく能動学習を空間プロンプト選択に適用することで,高い性能を実現した。
    • 16のデータセットにおいて,14のベンチマークで1位または2位の成績を収め,汎用性の高さを示した。
    • 特に,薄いオブジェクトや複雑な構造を持つオブジェクトのセグメンテーションにおいて,人間のプロンプトやオラクルプロンプトを上回る結果が得られた。

    Link: https://arxiv.org/abs/2603.10828

  • 視覚的ドメインシフト下における少数ショット錠剤認識の評価 [cs.CY, cs.CV]目的:少数ショット錠剤認識における汎化性能の評価
    • 医薬品の誤りは重大な健康被害につながるため,自動錠剤認識システムの開発が重要である。
    • 実環境での展開には,背景の複雑さや光の反射など,視覚的な条件が課題となる。
    • 現実的なデータセットを用いた評価により,実用的な展開に向けたシステムの堅牢性を検証する。
    • 少数ショット学習により,錠剤の分類性能は速やかに向上し,単一のラベルサンプルでも飽和点に達する。
    • 重なりや隠蔽が発生する状況下では,局所化性能と再現率は低下する。
    • 視覚的に現実的な多錠剤データで学習したモデルは,少数ショットシナリオにおいてより高い堅牢性を示す。

    Link: https://arxiv.org/abs/2603.10833

  • 手がかりの競合に関する信頼性とそれ以降 [cs.CV, cs.AI]目的:ニューラルネットワークにおける視覚的な手がかりへの依存性の理解
    • ニューラルネットワークの意思決定プロセスを人間が理解可能な形で解明する上で重要である
    • 既存の評価手法では,手がかりのバイアスが不安定で曖昧になりやすい
    • 信頼性の高い,解釈可能な形状・質感バイアスの診断を可能にする
    • 新しいデータセットと評価フレームワーク「REFINED-BIAS」を導入した
    • 形状と質感の明確な定義に基づき,バランスの取れた手がかり対を構築する
    • モデル間のより公平な比較と,バイアスのより正確な診断を可能にする

    Link: https://arxiv.org/abs/2603.10834