arXiv雑要約

画像・音声 - 2026/04/21 公開

  • OptiMVMap:最適な複数車両視点によるオフラインベクトル化マップ構築 [cs.CL, cs.CV]目的:高精度な自動運転およびマッピングサービスのためのオフラインベクトル化マップの構築
    • 自動運転やロボティクスの発展において,高精度な環境地図は不可欠である。
    • 単一車両の視点では,隠れた領域を捉えることが難しく,地図の精度が制限される。
    • 複数車両の視点を効率的に統合し,不確実性を考慮したマップ構築を行う。
    • OptiMVMapは,複数車両マッピングを「選択と融合」の問題として再構築し,計算コスト,冗長性,ノイズの問題に対処する。
    • 最適な車両選択モジュールが,隠れた領域の自己中心的確実性を最大化するコンパクトなヘルパーセットを特定する。
    • nuScenesとArgoverse2の実験で,既存手法を大幅に上回り,複数車両ベクトル化マッピングの効率性と精度を実証した。

    Link: https://arxiv.org/abs/2604.17135

  • ScenarioControl:視覚と言語による制御可能なベクトル化されたシナリオ生成 [cs.CV, cs.RO]目的:学習された運転シナリオ生成における視覚と言語による制御機構
    • 自動運転システムの開発において,多様かつ現実的な運転シナリオの生成は不可欠である。
    • 既存手法では,詳細なシナリオ制御が難しく,現実世界の複雑な交通状況を再現できていない。
    • 多様な入力(テキストや画像)に基づいて,リアルで一貫性のある運転シナリオを生成することを目指す。
    • ScenarioControlは,テキストまたは画像入力に基づいて,多様で現実的な3D運転シナリオを生成する。
    • 本手法は,道路構造と動的エージェントを表現するベクトル化された潜在空間でシーンを生成し,道路レイアウトと交通状況を細かく制御する。
    • 実験結果から,ScenarioControlは制御の正確性と忠実度において,他の手法よりも優れていることが確認された。

    Link: https://arxiv.org/abs/2604.17147

  • ガウススプラットのインスタントカラー化 [cs.CV, cs.GR]目的:ガウススプラットへの2D画像情報の効率的なマッピング
    • フォトリアリスティックな3Dシーン再構成・レンダリングにおいて,ガウススプラッティングが広く利用されている。
    • 既存手法では,2D情報から3Dガウススプラットへのマッピングが課題であった。
    • シーンの再照明やセマンティックセグメンテーションなどへの応用を可能にする。
    • 本研究では,ガウス毎に可視性重み付き最小二乗問題を解くことで,効率的なカラー化を実現した。
    • 従来の勾配降下法ベースラインと比較して,最大で10倍の高速化を達成した。
    • シーン再照明,特徴量エンリッチメント,3Dセマンティックセグメンテーションタスクで有効性が確認された。

    Link: https://arxiv.org/abs/2604.17155

  • 動的CRF誘導選択的摂動によるビデオシーケンスにおける背景に基づく位置情報プライバシー保護 [cs.CV]目的:背景に基づく位置情報プライバシー保護の枠組み
    • ビデオコンテンツの普及に伴い,位置情報漏洩のリスクが増大している。
    • GPSメタデータを削除しても,背景画像照合による位置特定が可能である。
    • 背景画像照合による位置特定を軽減する手法を提案する。
    • 提案手法PPEDCRFは,ResNet18のTop-1検索精度を0.667から0.361±0.127に低下させる。
    • PPEDCRFは,従来のガウシアンノイズよりも約6dB高い画質を維持する。
    • PPEDCRFは,空間的に集中した摂動により,同程度のプライバシー保護レベルでより高い画質を実現する。

    Link: https://arxiv.org/abs/2604.17163

  • LookasideVLN: 方向認識型航空機視覚言語ナビゲーション [cs.RO, cs.CV]目的:航空機視覚言語ナビゲーションにおける方向性情報の活用
    • 都市環境における自律飛行の実現は,物流やインフラ点検など,様々な分野で重要性が増している。
    • 従来のナビゲーション手法は,指示理解が浅く,計算コストが高いという課題があった。
    • 自然言語に含まれる方向性情報を活用し,より正確で効率的なナビゲーションを目指す。
    • LookasideVLNは,指示に関連するランドマークと方向関係を動的にエンコードするEgocentric Lookaside Graph(ELG)を導入した。
    • Spatial Landmark Knowledge Base(SLKB)により,過去のナビゲーション経験からの軽量なメモリ検索を可能にした。
    • 実験結果から,LookasideVLNは最先端のCityNavAgentを大幅に上回り,方向性情報の活用が有効であることが示された。

    Link: https://arxiv.org/abs/2604.17190

  • DreamShot:ビデオ拡散事前知識を用いたパーソナライズされたストーリーボード合成 [cs.CV]目的:パーソナライズされたストーリーボードの合成
    • 視覚的ストーリーテリングにおいて,一貫性のあるショットシーケンスが重要である。
    • 既存手法は長編の時系列の一貫性,キャラクターの一貫性,物語の流れに課題がある。
    • ビデオ拡散事前知識を活用し,一貫性と物語性を向上させるストーリーボード合成を目指す。
    • DreamShotは,テキストや参照画像からストーリーボードを生成し,物語の続きも作成可能である。
    • ビデオ生成モデルの空間・時間的一貫性を活用し,視覚的・意味的にコヒーレントなシーケンスを生成する。
    • ロールアテンション整合損失により,参照キャラクターと生成されたキャラクターの同一性を維持する。

    Link: https://arxiv.org/abs/2604.17195

  • SciDraw-6K:Google Geminiによって生成された多言語科学イラストレーションデータセット [cs.RO, cs.SY, eess.SY, cs.CL, eess.SY, cs.SY, cs.CV]目的:多言語科学イラストレーションデータセット
    • 科学分野における視覚的表現の重要性が増しており,効果的なイラストレーションが不可欠である。
    • 既存の汎用画像生成モデルでは,科学イラストレーション特有の表現が困難である。
    • 科学分野に特化した高品質な多言語イラストレーションデータセットの構築が求められている。
    • SciDraw-6Kは,Google Geminiによって生成された6,291枚の科学イラストレーションと,11言語のプロンプトのペアで構成される。
    • データセットは,バイオメディカル,化学,材料科学など8つの科学カテゴリを網羅し,学術的な図表の作成を支援する。
    • 本データセットは,多言語テキストからの画像生成研究,ドメイン適応型拡散モデルのファインチューニング,および科学的可視化のためのプロンプトエンジニアリング研究を支援する。

    Link: https://arxiv.org/abs/2604.17206

  • CDSA-Net:血管構造と背景の協調的解結合による高忠実度冠動脈デジタルサブトラクション血管造影 [cs.CV, cs.AI]目的:高忠実度冠動脈デジタルサブトラクション血管造影のための血管構造と背景の協調的解結合
    • 冠動脈画像診断において,血管の可視化は心臓病の診断と治療に不可欠である。質の高い画像は,的確な判断を支える。
    • 従来のデジタルサブトラクション血管造影は,生理的運動や解剖学的ノイズの影響を受けやすく,アーチファクトや画像品質の低下が課題であった。
    • 本研究は,アーチファクトの除去と組織の忠実度維持を両立することで,より正確な診断と効率的な治療を可能とする。
    • 提案手法CDSA-Netは,血管構造の保存と背景の現実的な復元を明示的に分離し,最適化する新しいフレームワークである。
    • 定量的な評価では,血管強度相関と知覚的品質において,最先端の手法を大幅に上回る性能を示した。
    • 形態学的評価効率が25.6%向上し,血行動態評価速度が42.9%向上し,インターベンショナルカーディオロジーにおける有用性の新たなベンチマークを確立した。

    Link: https://arxiv.org/abs/2604.17208

  • DREAM:適応的マルチモーダル融合による動的網膜強調と専門的精密な医療レポート生成 [cs.CV, cs.AI, eess.SP]目的:網膜画像の医療レポート自動生成のためのフレームワーク
    • 眼科医療の発展には,網膜画像の正確な解析と迅速な診断が不可欠である。
    • 網膜画像はデータが限られ,専門知識が必要なため,既存の汎用モデルでは精度が課題となる。
    • 限られたデータでも高精度なレポート生成を可能にし,眼科医の診断支援を強化する。
    • DREAMは,網膜画像と眼科専門家が選定したキーワードを効果的に統合する独自の二段階融合機構を採用している。
    • 抽象化モジュールが画像とキーワードの特徴を共有空間にマッピングし,視覚データを病理関連情報で強化する。
    • DeepEyeNetベンチマークでBLEU-4スコア0.241を達成し,ROCOデータセットでも優れた汎化性能を示した。

    Link: https://arxiv.org/abs/2604.17209

  • EmbodiedHead:会話エージェントのためのリアルタイムリスニング・スピーキングアバター [cs.CV]目的:会話のためのリアルタイムな視覚アバターのフレームワーク
    • 対話システムの自然さを向上させるため,視覚的な表現が重要視されている。
    • 従来のリスニング・スピーキング手法は,非因果的な依存関係を持つ場合がある。
    • リアルタイム性と高品質を両立し,自然な対話を実現するアバターの開発。
    • 本研究では,Rectified-Flow Diffusion Transformerと微分可能なレンダラーを組み合わせたフレームワークを提案。
    • わずか4ステップで多様かつ高精細なアバター生成を可能にした。
    • シングルストリームインターフェースとStreaming Audio Schedulerにより,滑らかな対話を実現。

    Link: https://arxiv.org/abs/2604.17211

  • ビジョン言語モデルにおけるクロスモーダル注意分析と最適化:視覚的信頼性に関する研究 [cs.CV, cs.AI]目的:ビジョン言語モデルにおけるテキストへの過剰依存と視覚情報の活用不足の定量化と改善
    • 近年の人工知能研究において,画像とテキストを組み合わせたビジョン言語モデルは重要な役割を担う。
    • 既存のビジョン言語モデルは,テキスト情報に過度に依存し,視覚情報の利用が不十分であるという問題がある。
    • 視覚的信頼性を高め,クロスモーダルな表現学習におけるテキストショートカット学習を抑制すること。
    • 敵対的評価フレームワークを用いて,視覚情報とテキスト情報の矛盾がモデルの精度に与える影響を定量的に評価した。
    • LoRA最適化モデルは,平均的な精度低下を27.5%から9.8%に削減し,64.4%の相対的な改善を示した($p{<}0.001$)。
    • 注意可視化と埋め込み空間分析の結果,最適化されたモデルは視覚的特徴への注意をより集中させ,クロスモーダルなアライメントを強化していることが確認された。

    Link: https://arxiv.org/abs/2604.17217

  • 深紫外線イメージングにおける領域親和性注意機構を用いた全スライド乳癌分類 [cs.CV, cs.AI, eess.SP]目的:深紫外線イメージング全スライド画像における乳癌分類
    • 乳癌診断の迅速化と精度向上は喫緊の課題であり,病理診断の効率化が求められている。
    • 既存の深層学習手法は,パッチ分割による空間情報の損失や前処理の煩雑さが課題となっていた。
    • 深紫外線イメージングの特性を活かし,空間情報を保持したまま高精度な乳癌分類を実現すること。
    • 本研究では,領域間の関係性を考慮する領域親和性注意機構を開発し,全スライド画像をパッチ分割せずに処理することを可能にした。
    • 実験の結果,本手法は既存の注意機構と比較して,精度92.67±0.73%,AUC95.97%という高い性能を達成した。
    • これにより,深紫外線イメージングを用いた乳癌診断の迅速かつ高精度な支援が期待される。

    Link: https://arxiv.org/abs/2604.17222

  • フリンジプロジェクションに基づく自律ハードドライブ分解のためのビジョンパイプライン [cs.CV, cs.RO]目的:ハードドライブの自律分解を可能にするビジョンパイプライン
    • 都市鉱山の有効活用が重要視される中,使用済み電子機器からの資源回収が課題となっている。
    • ハードドライブの分解自動化には課題が多く,特に3Dセンシング,シーン理解,部品の位置特定が困難である。
    • 高精度な3Dセンシングと部品認識を統合し,ハードドライブの分解を自動化するビジョンパイプラインを開発する。
    • フリンジプロジェクションプロフィロメトリ(FPP)と深度補完モジュールを組み合わせることで,ロバストな3Dセンシングを実現した。
    • セマンティックセグメンテーションネットワークを用いて,シーン理解と主要部品の位置特定をリアルタイムで行えることを示した。
    • 提案手法は,高い精度(box mAP@50=0.960, mask mAP@50=0.957)と高速な処理速度(12.86ms, 77.7FPS)を達成した。

    Link: https://arxiv.org/abs/2604.17231

  • プロファイル情報を活用したマルチモーダルLLMによるゼロショット個人化画像美観評価の向上 [cs.CV, cs.AI]目的:個人化画像美観評価における,ユーザー固有の美的な嗜好のモデル化
    • 画像美観評価は,ユーザーエクスペリエンス向上に不可欠であり,多様な応用分野で重要性が増している。
    • 既存手法は過去の評価データに依存するため,データがない状況では性能が低下するという課題がある。
    • 本研究は,ユーザープロファイルを活用することで,データ不足下での個人化美観評価を実現することを目指す。
    • 提案手法P-MLLMは,既存のLLMに選択的融合モジュールを追加し,プロファイル情報を考慮した視覚情報の統合を可能にした。
    • P-MLLMは,最新のPIAAベンチマークにおいて,ゼロショット設定で競争力のある性能を達成した。
    • 粗いプロファイル情報でも有効に機能し,プロファイルに基づく個人化の可能性を示唆している。

    Link: https://arxiv.org/abs/2604.17233

  • RemoteShield:地球観測のための堅牢なマルチモーダル大規模言語モデルの実現 [cs.RO, cs.CV]目的:地球観測におけるマルチモーダル大規模言語モデルの堅牢性向上
    • 地球観測は,環境変化の監視や災害対策など,社会にとって不可欠な役割を担っている。
    • 既存の地球観測向けマルチモーダル大規模言語モデルは,現実的な入力変動に対する脆弱性が課題となっている。
    • 現実的なノイズ条件下でも一貫した解釈と推論を可能にする,堅牢なモデルを開発することが目的。
    • RemoteShieldは,クリーンなサンプルとノイズを含むサンプルをペア化し,意味的な等価性クラスターを形成することで学習。
    • このアプローチにより,モデルは視覚的劣化やテキストノイズに左右されず,タスクの本質的な意味に焦点を当てることができる。
    • 実験の結果,RemoteShieldは,現実的なマルチモーダルな摂動下で,代表的なベースラインモデルよりも高い堅牢性と一貫性を示すことが確認された。

    Link: https://arxiv.org/abs/2604.17243

  • AI生成画像検出における低相関信号のフラクタル特性評価 [cs.CV, cs.AI]目的:AI生成画像と実画像の識別
    • 情報セキュリティと社会の信頼維持のため,AI生成画像の識別技術は重要である。
    • 既存の深偽検出法は,現実世界での応用において頑健性に課題がある。
    • AI生成画像特有の信号レベルの差異を捉え,検出精度の向上を目指す。
    • 低相関信号のフラクタル特性が,AI生成画像と実画像を識別する上で有効な指標となることが示された。
    • 提案手法は,従来の深偽検出法と比較して,より高い検出性能と頑健性を示すことが実験的に確認された。
    • 本研究は,深偽検出の研究方向性を信号レベルへのシフトを促す。

    Link: https://arxiv.org/abs/2604.17268

  • 本能と熟考:マルチモーダル大規模モデルにおけるトークンと言語化された確信の一致 [cs.CV, cs.AI]目的:マルチモーダル大規模モデルの応答確信度推定の改善
    • マルチモーダル大規模モデルは,様々な知覚と推論タスクで優れた能力を示すため,実用化が期待されている。
    • モデルの信頼性を確保するためには,確信度の推定が重要だが,既存研究はテキストのみに焦点を当てていることが多い。
    • トークンレベルの支持とモデル自身の確信度評価の不一致を解消し,より信頼性の高い確信度推定を目指す。
    • モデルの暗黙的なトークンレベルの支持と,言語化された自己評価の確信度との間にずれが見られることが明らかになった。
    • 提案手法である単調な確信度融合フレームワークは,デュアルチャネル信号を統合し,チャネル間の一貫性を高めることで確信度推定を改善する。
    • 実験結果から,提案手法は様々なマルチモーダル大規模モデルにおいて,より信頼性の高い確信度推定と,キャリブレーション及び失敗予測の改善に貢献することが示された。

    Link: https://arxiv.org/abs/2604.17274

  • PestVL-Net:微細な視覚と言語の相互作用によるマルチモーダル害虫学習の実現 [cs.CV]目的:害虫の微細なマルチモーダル学習
    • 持続可能な農業発展には,効果的な害虫の認識と管理が不可欠である。
    • 既存手法では,害虫の多様な形態的特徴や高レベルな意味的特徴を微細にモデル化できていない。
    • 害虫の微細な視覚的特徴と意味的特徴を捉え,実用的な害虫管理を可能にすること。
    • PestVL-Netは,視覚経路にRWKVアーキテクチャとサリエンシーに基づいた適応的なウィンドウ分割スキームを導入し,害虫の微細な視覚的特徴を効果的にモデル化する。
    • 言語コンポーネントは,農業専門家の知識とマルチモーダルChain-of-Thought推論を活用し,正確な害虫のセマンティック記述を生成する。
    • 複数の害虫データセットにおける広範な実験により,PestVL-Netの優れた性能が確認され,実用的な害虫管理への応用が期待される。

    Link: https://arxiv.org/abs/2604.17278

  • 深さ適応効率的視覚自己回帰モデリング [cs.CC, cs.CV]目的:高解像度画像生成における計算深さの適応的割り当て
    • 視覚的表現の自己回帰モデリングは,画像生成において重要な役割を担う。
    • 従来のVARモデルでは,固定の計算深さを用いるため,効率が低いという課題がある。
    • トークンごとの計算深さを適応的に割り当てることで,効率と品質の両立を目指す。
    • DepthVARは,学習を必要とせず,動的に計算量を割り当てるフレームワークである。
    • トークンごとに異なる深さで処理することで,2.3倍から3.1倍の高速化を実現した。
    • 既存のハードプルーニング手法と比較して,計算性能のトレードオフが優れている。

    Link: https://arxiv.org/abs/2604.17286

  • 拡散注意グラフのスペクトルフォレンジックによるコピー・ムーブ偽造検出 [cs.CV]目的:コピー・ムーブ偽造の検出
    • 画像は重要な証拠となりうるが,改ざんのリスクも伴うため,その真偽性を評価する技術が不可欠である。
    • 従来の偽造検出手法は,特定の手法に依存し,未知の偽造パターンに対応できない場合がある。
    • 拡散モデルの注意グラフのスペクトル特性を利用し,再学習なしにコピー・ムーブ偽造を検出する。
    • 本研究では,拡散注意グラフのスペクトル構造を解析するGraphSpecForgeを提案し,コピー・ムーブ偽造検出に有効であることを示した。
    • 正規化されたグラフラプラシアンを用いることで,注意グラフのスペクトル分布の変化を捉え,偽造領域を検出できる。
    • 複数のベンチマークデータセットにおいて,既存手法と比較して良好な検出性能を達成した。

    Link: https://arxiv.org/abs/2604.17287

  • 動画におけるシーングラフ生成のための頻度に基づく多層推論 [cs.CL, cs.CV]目的:動画におけるオブジェクトとそれらの関係の構造化された意味表現の取得
    • 動画理解において,シーングラフは高次の意味解析に不可欠な役割を果たす。
    • 既存手法は,ロングテール分布への対応が課題であり,稀な関係性の認識精度が低い。
    • ロングテール関係性のモデリング能力向上を図り,全体的な推論の頑健性を高める。
    • 提案手法FReMuReは,関係性特有の分岐を導入し,勾配衝突を抑制することで学習のバランスを改善した。
    • 頻度を考慮した二重分岐の述語埋め込みネットワークにより,高頻度と低頻度の関係を分離的にモデル化し,ロングテールクラスのリコール率を向上させた。
    • ベイズヘッドとガウス混合モデルヘッドの導入により,不確実性の推定とクラス内多様性の向上を実現した。

    Link: https://arxiv.org/abs/2604.17298

  • NTIRE 2026モバイル実世界画像超解像度チャレンジの第一回:ベンチマーク結果と手法概要 [cs.CE, cs.CV]目的:モバイル実世界画像超解像度における性能向上
    • スマートフォンのカメラ性能向上は,より高画質な画像処理技術を必要とする。
    • 実世界の画像劣化は複雑であり,既存の手法では十分な超解像度性能が得られない。
    • モバイルデバイスで動作可能な効率的な超解像度モデルの開発が求められている。
    • 本チャレンジは,未知の劣化を含む実世界の低解像度画像から高解像度画像を復元することを目的としている。
    • 108名の参加者と16チームが有効なスコアを獲得し,モバイル実世界画像超解像度の性能向上に貢献した。
    • 評価は,画像品質評価スコアと速度向上の比率を組み合わせて行われ,最新のトレンドを把握できる。

    Link: https://arxiv.org/abs/2604.17306

  • 分離可能なプロンプト学習による汎用的な顔偽造検出 [cs.CV]目的:顔偽造検出のための分離可能なプロンプト学習戦略
    • 顔認証技術の進展に伴い,偽造された顔画像の検出が重要な課題となっている。
    • 既存手法は主に画像認識に焦点を当て,テキスト情報の活用が不十分である。
    • テキスト情報を活用し,顔偽造検出における汎化性能の向上を目指す。
    • 提案手法SePLは,顔偽造に特化した情報とそうでない情報を分離することで,CLIPの検出性能を向上させる。
    • クロスデータセットおよびクロス手法評価において,既存手法と同等またはそれ以上の性能を達成し,汎化性能の高さを示した。
    • テキスト情報を利用した新たなアプローチは,顔偽造検出の分野に貢献すると考えられる。

    Link: https://arxiv.org/abs/2604.17307

  • 背景が重要となる場合:転移可能な攻撃による医療ビジョン言語モデルの破壊 [cs.CV]目的:医療ビジョン言語モデルに対する転移可能な攻撃手法
    • 医療診断へのAI活用が拡大する中で,その安全性確保が重要課題となっている。
    • 既存の医療画像に対する攻撃は,検知されやすいか,実用性に乏しい。
    • 視覚的に気付かない程度の攻撃で,診断結果を誤らせる手法を開発する。
    • 提案手法MedFocusLeakは,背景領域への微小な摂動と注意機構の欺瞞により,高い転移性と臨床的に妥当な誤診を両立した。
    • 6種類の医療画像モダリティにおいて,最先端の性能を達成し,多様なVLMに対して現実的な誤診を誘発することを示した。
    • 新たな評価指標とフレームワークにより,最新の臨床VLMの推論能力に重大な脆弱性が存在することが明らかになった。

    Link: https://arxiv.org/abs/2604.17318

  • E2E-GMNER:エンドツーエンド生成型グラウンデッドマルチモーダル固有表現認識 [cs.CV, cs.CL]目的:グラウンデッドマルチモーダル固有表現認識の性能向上
    • 画像とテキストを組み合わせた情報処理は,多様な応用分野で重要性が増している。
    • 既存手法はパイプライン方式が多く,エラーの蓄積や最適化の限界がある。
    • 単一モデルで一貫して固有表現認識,セマンティックタイプ予測,視覚的グラウンディングを実現する。
    • 提案手法E2E-GMNERは,テキストと画像を統合した大規模言語モデルを用いて,エンドツーエンドで固有表現認識を行う。
    • 指示チューニングとChain-of-Thought推論により,モデルは視覚的証拠や背景知識の利用を適応的に判断する。
    • Gaussian Risk-Aware Box Perturbation (GRBP)により,アノテーションノイズへのロバスト性を向上させ,高い性能を達成した。

    Link: https://arxiv.org/abs/2604.17319

  • ビジョン言語モデルの共同量子化とトークン剪定に向けて [cs.CV]目的:ビジョン言語モデルの低ビット推論におけるコスト削減
    • ビジョン言語モデルは多様なタスクに応用可能だが,計算コストが高い。
    • 低ビット推論とトークン剪定を組み合わせても,性能劣化が課題となる。
    • 量子化と剪定を統合し,安定した性能維持を目指す。
    • 提案手法は,量子化信号をトークン割り当てスケジュールに変換するQUOTAを導入した。
    • アクティベーションの大きさ,注意のヒント,低ビットリスク信号を組み合わせてトークンの重要度を評価した。
    • 標準的なVLMベンチマークで,既存手法と比較して高い性能を維持し,トークン数を30\%に削減した。

    Link: https://arxiv.org/abs/2604.17320

  • R-FLoRA:単一画像顔モルフィング攻撃検出のための残差統計量ゲート低ランク適応 [cs.CV]目的:単一画像顔モルフィング攻撃の検出
    • 顔認証システムはパスポート発行や入国管理等で重要であり,その信頼性を脅かすモルフィング攻撃対策が不可欠である。
    • 参照画像がないため単一画像からのモルフィング攻撃検出は難しく,攻撃手法の多様性も課題となっている。
    • 未知のモルフィング手法に対しても高い識別性能を発揮する,単一画像モルフィング攻撃検出手法の確立を目指す。
    • 本研究では,凍結された大規模なVision Transformerと,高周波ラプラシアン残差統計量を組み合わせたS-MADフレームワークを提案した。
    • 残差統計量ゲート低ランクアダプター(R-FLoRA)と特徴量ごとの残差融合(Res-FiLM)を用いることで,局所的なモルフィングアーティファクトへの感度を高めつつ,バックボーンのセマンティックコンテキストを維持した。
    • 4つのICAO準拠データセットで評価した結果,提案手法は9つの最先端手法を精度と汎化性能で上回り,リアルタイム処理と解釈可能性も実現した。

    Link: https://arxiv.org/abs/2604.17321

  • ガウス・ルジャンドル曲線の評価 [math.NA, cs.GR, cs.NA]目的:ガウス・ルジャンドル曲線の評価方法
    • 数値計算において,高精度な曲線表現は不可欠であり,様々な応用分野で利用されている。
    • ガウス・ルジャンドル曲線の評価には,計算コストが高いという課題があった。
    • ガウス・ルジャンドル曲線の効率的な評価アルゴリズムを開発し,計算コストを削減すること。
    • ガウス・ルジャンドル多項式と導関数の新たな表現を提示した。
    • 次数n,次元dに対するガウス・ルジャンドル曲線の評価において,計算量O(n^2+dn)の効率的な手法を提案した。
    • M個の評価点に対する多点評価アルゴリズムを提案し,計算量O(Mdn+dn^2)を達成した。

    Link: https://arxiv.org/abs/2604.17331

  • 二重解像度注意機構に基づく深層学習と順序回帰を用いた堅牢な糖尿病網膜症グレード判定 [cs.CL, cs.CV, cs.AI]目的:糖尿病網膜症のグレード判定のための深層学習フレームワーク
    • 糖尿病網膜症は世界的に視覚障害の主要な原因であり,大規模スクリーニングには自動化が不可欠である。
    • 深層学習モデルは,異なる画像条件のデータセット間での性能低下が課題となっている。
    • 異なるデータセット間での汎化性能を向上させ,より堅牢なグレード判定を実現すること。
    • 提案手法は,異なる空間解像度で網膜の特徴を捉える二つのEfficientNetバックボーンを並行して使用する。
    • 学習可能な注意機構により多解像度表現を適応的に融合し,順序回帰によりDR重症度の段階的関係を明示的に考慮する。
    • APTOS 2019データセットで訓練し,Messidor-2データセットで評価した結果,高いグレード判定性能を示した。

    Link: https://arxiv.org/abs/2604.17341

  • 視覚言語モデルにおける意味の乖離:意味的固定化による測定 [cs.CL, cs.CV]目的:視覚言語モデルにおける,文字通りの意味と慣用的な意味の間の乖離の測定
    • 視覚言語モデルは急速に発展しているが,抽象的な意味理解は課題である。
    • 視覚的な詳細度が高いほど,慣用的な表現の理解が阻害される可能性がある。
    • 視覚的入力の抽象化と意味の固定化が,モデルの理解力向上に繋がる。
    • 視覚言語モデルは写実的な画像生成に優れるものの,慣用的な表現の理解には苦戦する。
    • モデルの規模を大きくするだけでは,文字通りの意味への偏りを解消することはできない。
    • 視覚的な詳細度が高いほど,象徴的な意味との整合性が弱まり,認知的な干渉が生じやすい。

    Link: https://arxiv.org/abs/2604.17354

  • 依然として私たちとの間にあるのか?音声アシスタントの第三者割り込みに対する堅牢性の評価と改善 [cs.CL, cs.AI, cs.SD]目的:第三者割り込みの識別能力向上
    • 音声アシスタントの活用が広がる中で,多者間対話の自然な実現が重要視されている。
    • 現在の音声アシスタントは,第三者割り込みとユーザーの発話を区別できず,文脈理解が困難である。
    • 音声アシスタントが,第三者割り込みを正確に検出し,適切な対応を行うことを目指す。
    • 新たなデータセットTPI-Trainと評価フレームワークTPI-Benchを開発した。
    • データセット設計により,モデルが意味的な手がかりに頼るのではなく,音声信号に注目するようになった。
    • 本研究は,音声アシスタントにおける多者間対話の実現に向けた基礎となるリソースを提供する。

    Link: https://arxiv.org/abs/2604.17358

  • テキストが視覚を乗っ取る時:視覚言語モデルにおけるテキストオーバーレイ誘発幻覚のベンチマークと軽減策 [eess.SY, cs.SY, cs.FL, cs.DC, cs.ET, cs.PF, cs.CV, cs.AI]目的:視覚言語モデルにおけるテキストオーバーレイ誘発幻覚のベンチマーク構築と軽減策の提案
    • マルチモーダルな映像理解の進展により,多様なタスクにおいて視覚言語モデルの性能が向上している。
    • 画面上のテキストと視覚情報が矛盾する場合,既存モデルはテキスト情報を優先し,幻覚を起こしやすいという問題がある。
    • テキストと視覚の矛盾による幻覚を抑制し,より信頼性の高い映像理解を実現することを目指す。
    • 本研究では,大規模な人間による検証済みのサンプルを含む,初の包括的なベンチマークVisualTextTrapを提案した。
    • また,テキストと視覚の乖離を検出し活用する二重エンコーダアーキテクチャに基づくVTHM-MoEを開発し,幻覚の軽減効果を確認した。
    • VisualTextTrapベンチマークを用いた実験により,VTHM-MoEが最先端の手法を上回り,様々な映像質問応答タスクで高い性能を示した。

    Link: https://arxiv.org/abs/2604.17375

  • Vision Transformerを用いた汎用的なディープフェイク画像検出に向けて [cs.CV, cs.AI, cs.LG, eess.IV]目的:ディープフェイク画像の検出手法
    • 生成モデルの進化により,偽造画像検出の重要性が増している。
    • 既存手法は汎化性能が低く,多様な偽造画像に対応できない。
    • 最新の生成技術に対しても有効な検出手法を確立する。
    • DINOv2,AIMv2,OpenCLIP等のVision Transformerのアンサンブルが,既存モデルやCNNベースラインを上回る性能を示した。
    • DF-Wildデータセットを用いた評価で,AUC 96.77%,EER 9%を達成し,最先端手法EffortをAUCで7.05%,EERで8%上回った。
    • 本手法はIEEE SP Cup 2025で優勝し,ICASSP 2025で発表された。

    Link: https://arxiv.org/abs/2604.17376

  • 複数人完全情報ゲームにおける探索アルゴリズムの研究と改善 [cs.CL, cs.GT, cs.AI]目的:複数人完全情報ゲームにおける探索アルゴリズムの性能向上
    • ゲームAIの発展は,知的インタフェースや戦略的思考の研究に不可欠である。
    • 複数人ゲームにおける探索アルゴリズムは,計算量の多さから実用上の課題が多い。
    • 複数人ゲームへ既存の探索アルゴリズムを拡張し,計算効率と性能の改善を目指す。
    • 本研究では,2人ゼロサム完全情報ゲームの最先端アルゴリズムを複数人ゲームへ一般化。
    • 実験の結果,一般化されたアルゴリズムが既存の複数人ゲーム探索アルゴリズムを上回る性能を示す。

    Link: https://arxiv.org/abs/2604.17378

  • SpatialImaginer:空間推論のための適応的視覚的想像に向けて [cs.CV]目的:空間推論のための適応的視覚的想像の実現
    • 視覚的観察から幾何学的・物理的構造を推論する空間知性は,マルチモーダル大規模言語モデルにおける重要な課題である。
    • 既存のモデルは,空間状態の一貫性認識を必要とするタスクにおいて,脆弱な推論経路を示すことが課題となっている。
    • 空間認識メカニズムとテキストベースの推論との不整合を解消し,幾何学的構造の忠実な保持と更新を目指す。
    • SpatialImaginerは,テキストによる高レベルな意味計画と,視覚的想像による幾何学的な状態変換を統合したフレームワークである。
    • 難易度を考慮したデータエンジンにより,安定した空間状態の追跡が必要な場合に視覚的想像を選択的に利用する学習を実現した。
    • 多様な空間知能ベンチマークにおいて,最先端の性能と複雑な多段階空間推論タスクにおける頑健性の向上が確認された。

    Link: https://arxiv.org/abs/2604.17385

  • 脳シフト補正のためのポイントクラウドを用いた深層学習に基づく非剛体ボリューム-サーフェス登録 [cs.CV]目的:脳シフト補正のための非剛体ボリューム-サーフェス登録手法
    • 画像誘導神経外科において,脳シフトはナビゲーション精度と手術の安全性を損なう重大な課題である。
    • 既存の補正手法は,中断的で繰り返し統合が困難な術中MRI,CT,超音波に依存している。
    • 術中に中断することなく,限られた表面観察からの高精度な変形場推定を実現する。
    • 本研究では,深層学習に基づくフレームワークを提案し,疎な術中表面観察から高密度な変位場推定を可能にした。
    • マルチスケールポイントベースの特徴抽出と階層的な変形デコーダにより,グローバルおよびローカルな変形を捉える。
    • 実験結果は,困難な部分表面条件下で1.13±0.75mmのEPEと1.33±0.81mmのRMSEで微細な変形を高精度に回復できることを示した。

    Link: https://arxiv.org/abs/2604.17389

  • 古代碑文テクスチャ復元のための訓練不要マルチ・サンプル深層フレームワークMESA [cs.CV, cs.AI, cs.GR]目的:古代碑文のテクスチャ復元手法
    • 歴史的資料の保存・解読において,碑文の重要性は高く,損傷からの復元は不可欠である。
    • 碑文は破損や風化により情報が失われやすく,原本の解読や分析が困難になる場合が多い。
    • 既存手法の限界を克服し,損傷した碑文をより自然かつ高精度に復元することを目指す。
    • MESAは,保存状態の良い碑文サンプルを参考に,損傷箇所のテクスチャ,スタイル,筆致を再現する。
    • 各ニューラルネットワーク層において,損傷箇所とのMean-Squared Displacement (MSD)を最小化するサンプルを選択する。
    • 文字幅に基づく重み付けとマスク処理により,復元範囲を損傷箇所に限定し,より自然な結果を得る。

    Link: https://arxiv.org/abs/2604.17390

  • 自己回帰型動画生成のための推測デコーディング [cs.CL, cs.CL, cs.CV, cs.AI]目的:自己回帰型動画生成における推測デコーディングの有効性
    • 動画生成技術は,コンテンツ制作やエンターテインメント分野において重要性が増している。
    • 動画生成の効率化は,計算コストの高さから依然として課題となっている。
    • 推測デコーディングにより,動画生成の速度向上と品質維持を両立することを目指す。
    • 提案手法SDVGは,画像品質ルーターを用いて推測デコーディングを動画生成に適用し,速度と品質のバランスを実現した。
    • MovieGenVideoBenchデータセットにおいて,SDVGは既存手法と同等の品質を維持しつつ,1.59倍の速度向上を達成した。
    • SDVGは追加の学習を必要とせず,既存の動画生成パイプラインに容易に組み込むことができる。

    Link: https://arxiv.org/abs/2604.17397

  • 報酬スコアマッチング:フローモデルと拡散モデルのための報酬に基づくファインチューニングの統合 [cs.LG, cs.AI, cs.CV]目的:報酬に基づく生成モデルの調整手法の統合
    • 生成モデルの性能向上は,様々な応用において重要である。
    • 報酬に基づくファインチューニング手法は多数存在するが,相互理解が不足している。
    • 既存手法を統一的な枠組みで捉え,より効率的な手法を開発すること。
    • 報酬スコアマッチング(RSM)という統一的な枠組みが,既存の報酬に基づくファインチューニング手法を説明できる。
    • RSMの視点から,手法間のトレードオフが明確になり,最適化の主要コンポーネントが特定された。
    • RSMに基づいて再設計された手法は,性能と計算効率が向上した。

    Link: https://arxiv.org/abs/2604.17415

  • 注視すべき箇所:長編動画理解のためのクエリ変調マルチモーダルキーフレーム選択 [eess.SY, cs.SY, cs.CV, cs.MM]目的:長編動画理解のためのキーフレーム選択手法
    • 動画理解は,AI技術の発展において不可欠であり,様々な応用が期待されている。
    • 既存手法では,計算コストが高く,動画全体の情報を効率的に捉えることが困難である。
    • クエリに応じて最適なモーダリティを選択し,ノイズを抑制することで,動画理解の精度向上を目指す。
    • 提案手法Q-Gateは,視覚的詳細,シーンセマンティクス,ナラティブの3つの専門ストリームを活用する。
    • Q-Gateは,LLMの文脈内推論を利用し,クエリの意図に応じて各ストリームへの注意重みを動的に割り当てる。
    • 実験結果から,Q-Gateは既存の最先端手法を大幅に上回り,スケーラブルな動画推論を実現できることが示された。

    Link: https://arxiv.org/abs/2604.17422

  • Long-CODE:ビデオ評価における純粋な長文脈を直交次元として分離 [cs.CV, cs.AI]目的:長編ビデオ評価のための専用フレームワークの正当化と設計
    • ビデオ生成モデルの能力向上に伴い,ロバストな評価指標の必要性が高まっている。
    • 従来の指標は短編ビデオ向けであり,長編ビデオにおける物語性や因果関係の整合性を捉えられない。
    • 長編ビデオ評価において,視覚的知覚と長文脈属性を分離し,長文脈特性を評価する指標を開発する。
    • 既存の短編ビデオ指標は,ショットレベルの擾乱や物語のシャッフルに鈍感であることが,長編ビデオ属性の破損テストで明らかになった。
    • ショットダイナミクスに基づく新しい長編ビデオ指標を設計し,長文脈テストフレームワークへの高い感度を示した。
    • Long-CODEデータセットを導入し,人間の判断との高い相関関係が確認された。

    Link: https://arxiv.org/abs/2604.17428

  • MoVE:音声対話翻訳における笑声と涙の翻訳 - 喚起表現専門家混合によるアプローチ [eess.SY, cs.SY, cs.CL, cs.AI, cs.SD, eess.AS]目的:音声対話翻訳における非言語的喚起表現の再現
    • 対話における感情や意図を伝える喚起表現は,コミュニケーションにおいて重要な役割を果たす。
    • 既存の音声対話翻訳システムは,意味の正確性は高いものの,喚起表現を再現できていないという課題がある。
    • 喚起表現のデータ不足を克服し,より自然で感情豊かな音声対話翻訳を実現することを目指す。
    • MoVEは,喚起表現に特化したアダプターとソフトウェイトルーティングを持つ混合LoRAエキスパートアーキテクチャを採用した。
    • わずか30分のキュレーション済みデータで,高い性能を発揮するデータ効率が確認された。
    • 英語から中国語への音声対話翻訳実験において,MoVEはターゲットの喚起表現を76%の確率で再現し,自然性と感情的な忠実度において既存システムを上回った。

    Link: https://arxiv.org/abs/2604.17435

  • 月面におけるShape-from-Shadingを用いたDEMの改良と検証 - Chandrayaan-2 OHRC画像を利用して [cs.CV]目的:月面DEMの改良と検証
    • 月探査において高精度な地形データは,着陸地点の選定や資源探査に不可欠である。
    • 既存のDEMは解像度や精度に限界があり,微細な地形を捉えきれていない。
    • OHRC画像を用いたSfSにより,DEMの改良と新たな地形データの獲得を目指す。
    • SfS手法により,既存のDEMの地形精度が向上し,特に表面傾斜の統計的変化が確認された。
    • 微細なクレーターの形状など,従来未解決だった地形構造が明らかになった。
    • SfSの感度低下や画像カバレッジの影響など,手法の限界と品質への影響要因が特定された。

    Link: https://arxiv.org/abs/2604.17436

  • 注意は全てではない:Visionのための効率的な代替手法 [cs.CV]目的:Transformer以外のVisionモデルに関する包括的な分類
    • 画像認識技術は,自動運転や医療診断など多岐にわたる分野で不可欠である。
    • Transformerモデルが主流となりつつも,計算コストが高いという課題がある。
    • Transformerに代わる,効率的で高性能なVisionモデルの可能性を探る。
    • 本研究では,Transformer以外のモデルを畳み込み,MLP,状態空間モデルなどに分類した。
    • 各モデルの効率性,スケーラビリティ,解釈性,ロバスト性を比較検討した。
    • 今後のVision研究における課題と機会を明確にすることを目指している。

    Link: https://arxiv.org/abs/2604.17439

  • HyKey:低侵襲手術におけるハイパースペクトル特徴点検出とマッチング [eess.SY, cs.SY, cs.CV]目的:低侵襲手術におけるハイパースペクトル画像を用いた特徴点検出とマッチングの性能向上
    • 低侵襲手術のナビゲーション精度向上には,視覚化,ツール追跡,拡張現実等の3次元再構成が不可欠である。
    • 従来のRGB画像に基づく特徴点検出・マッチングは,手術環境特有のテクスチャの欠如や複雑な照明条件に課題がある。
    • ハイパースペクトル画像が持つスペクトル情報を活用し,特徴点検出・マッチングのロバスト性を向上させることを目指す。
    • 提案手法HyKeyは,RGB画像と比較して登録されたRGBフレーム上で,平均マッチング精度96.62%,姿勢推定における平均平均精度10度で67.18%を達成した。
    • 複数の評価指標において,一貫した性能向上が確認され,スペクトル情報統合の有効性が示された。
    • テクスチャの少ない手術環境において,ハイパースペクトル画像を用いた3次元再構成の実現に貢献する可能性がある。

    Link: https://arxiv.org/abs/2604.17446

  • SegTTA:ゼロショット医療画像セグメンテーションのためのトレーニングフリーテストタイムオーギュメンテーション [cs.CV]目的:ゼロショット医療画像セグメンテーションにおける性能向上
    • 医療画像解析は,疾患診断や治療計画において不可欠であり,その精度向上は医療の質に直結する。
    • 医療画像の品質は,撮影装置やオペレーターによって異なり,モデルの汎化性能を低下させる要因となる。
    • 本研究は,モデルの再学習なしに,医療画像の品質変動に対するロバスト性を高めることを目指す。
    • 提案手法SegTTAは,複数のMedSAM2チェックポイントで得られたセグメンテーション結果を重み付き投票により統合することで,性能向上を実現した。
    • 子宮,子宮筋腫,肝臓構造のセグメンテーションという3つの異なるデータセットで,一貫した改善が確認された。
    • 大規模器官は強度オーギュメンテーション,微小病変はノイズオーギュメンテーションが有効であり,投票閾値の調整により臨床ニーズに応じた最適化が可能である。

    Link: https://arxiv.org/abs/2604.17451

  • HSG:双曲型シーングラフ [cs.CV]目的:シーングラフ表現における双曲空間埋め込み学習
    • 視覚的理解において,オブジェクトとそれらの関係性を構造的に捉える技術として重要である。
    • 既存手法では,階層的な関係性を明示的に捉えきれず,構造的な整合性が課題となっていた。
    • 双曲空間を利用することで,階層関係性を自然に符号化し,シーングラフの表現力を向上させる。
    • HSGは,シーングラフの階層構造の質を向上させつつ,高い検索性能を維持している。
    • 特にグラフレベルの指標において顕著な改善が見られ,PP IoUは33.17,Graph IoUは33.51を達成した。
    • これは,最良のAoMSGと比較してそれぞれ8.14ポイントの改善であり,双曲型表現学習の有効性を示している。

    Link: https://arxiv.org/abs/2604.17454

  • 適応から汎化へ:医療画像セグメンテーションのための適応的視覚プロンプト [cs.CV]目的:医療画像セグメンテーションにおける汎化性能の向上
    • 医療分野では,データセットの多様性が重要であり,汎化性能が求められる。
    • 既存のプロンプト手法はドメイン固有であり,データ内の変動への対応が課題である。
    • 入力ごとに最適なプロンプトを動的に選択することで,汎化性能の向上を目指す。
    • 提案手法APEXは,学習可能なプロンプトメモリから入力特異的なプロンプトを抽出する。
    • フーリエスペクトルから抽出したドメイン特徴を用いて,プロンプトメモリをクエリする。
    • 2つの医療セグメンテーションタスクで,APEXが既存手法を上回り,汎化性能が向上した。

    Link: https://arxiv.org/abs/2604.17455

  • UniMesh:3Dメッシュ理解と生成の統合 [cs.CV]目的:3Dメッシュの理解と生成に関する統一的フレームワーク
    • 3Dビジョン技術は発展しているが,応用範囲は広く,様々な分野での活用が期待されている。
    • 理解と生成のタスクが分断され,知識の転移や包括的なシーンモデリングが困難になっている。
    • 理解と生成を統合し,反復編集や相互強化を可能にする新たなフレームワークを開発する。
    • UniMeshは,拡散モデルと陰関数による形状デコーダを繋ぐ新しいMesh Headを導入した。
    • Chain of Mesh(CoM)という反復推論の幾何学的具現化により,ユーザー主導のセマンティックメッシュ編集を実現した。
    • Actor Evaluator Self reflectionの自己反省機構により,3Dキャプションなどの高レベルタスクの失敗を診断・修正できる。

    Link: https://arxiv.org/abs/2604.17472

  • デュアルアンカリング:ビジョン言語ナビゲーションにおける状態ドリフトへの対処 [cs.CV, cs.AI]目的:ビジョン言語ナビゲーションにおける状態ドリフトの軽減
    • 自然言語による指示に基づいた環境内での自律的な移動を実現する基盤技術である。
    • 長距離ナビゲーションにおいて,エージェントの内部状態がタスク実行状態から乖離しやすい。
    • 完了したサブゴールと未完了のサブゴールを識別し,過去のランドマークを正確に記憶する。
    • 提案手法は,指示の進捗と履歴表現を明示的にアンカリングするデュアルアンカリングフレームワークを採用した。
    • シミュレーションと実環境の両方において,提案手法が既存手法を大きく上回る性能を示した。
    • Success Rateで15.2%の改善,長距離軌道では24.7%の顕著な改善が確認された。

    Link: https://arxiv.org/abs/2604.17473