arXiv雑要約

画像・音声 - 2026/03/24 公開

GHOST：観測されたStructure-from-Motion軌跡からの投影仮説 [cs.RO, physics.space-ph, cs.CL, cs.RO, cs.CV]目的：自律走行のための実行可能な車両軌跡のセグメンテーション
- 都市部における自動運転の実現には，周囲環境の正確な認識が不可欠である。
- 従来のセグメンテーション手法では，手動アノテーションや道路・レーン構造の明示的なモデリングが必要となる。
- 大規模な自己教師あり学習により，手動アノテーションなしで軌跡を予測することを目指す。
- 大規模なダッシュカム動画を活用し，車両の走行領域を自動的に学習することが可能となった。
- 学習されたモデルは，多様な環境やカメラ設定で高い汎化性能を示すことがNuScenesデータセットで確認された。
- エゴモーションからの知識蒸留により，走行可能な経路の仮説を画像セグメンテーションを通して推定できる。
Link: https://arxiv.org/abs/2603.20583
拡散モデルの汎化性能向上：弱から強へのセグメント化ガイダンスによる改善 [cs.CV]目的：拡散モデルの汎化性能向上
- 拡散モデルは高品質な画像生成が可能だが，汎化性能の向上が課題である。
- シミュレーション不要の目的関数と反復過程のずれが，勾配誤差の蓄積と汎化性能低下を招く。
- 弱から強への原理に基づき，既存のガイダンス手法の有効領域を特定し，ハイブリッド手法を提案する。
- CFGとAGといった既存のガイダンス手法の有効領域を，弱から強の原理を用いて比較・分析した。
- 分析結果に基づき，両者の利点を組み合わせたSGGというハイブリッド手法を提案し，その有効性を示した。
- SGGを学習目標に組み込むことで，非ガイダンス拡散モデルの汎化性能が向上することを確認した。
Link: https://arxiv.org/abs/2603.20584
RayMap3R：動的な3D再構成のための推論時RayMap [cs.CV]目的：動的シーン再構成における問題解決
- リアルタイムな3D再構成技術は，ロボット工学や拡張現実などの分野で重要性が増している。
- 従来のストリーミング再構成モデルは，動く物体によってアーティファクトやドリフトが発生しやすい。
- RayMapの特性を利用し，動的な領域を識別・除去することで再構成精度を向上させる。
- 提案手法RayMap3Rは，RayMapと画像予測の対比により動的領域を特定し，メモリ更新における干渉を抑制する。
- リセット指標アライメントと状態認識スムージングにより，メトリックの一貫性と予測軌道の安定性を維持する。
- 複数のベンチマークにおいて，ストリーミングアプローチの中での最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.20588
構造化集団における可変ゲームの進化力学 [cs.DB, stat.ME, cs.GT, cs.SI]目的：自然における協力の持続に影響を与える，不確実で動的に変化する個体間のゲーム相互作用の特性評価
- 協力は生物学において重要な現象であり，進化の根源を理解する上で不可欠である。
- 構造化集団における動的なゲーム相互作用の理論的な条件と最適化が課題であった。
- 協力が有利となる条件と，協力を促進する最適なゲーム分布の解明を目指す。
- 可変ゲームフレームワークを用いて，自然選択による協力が有利となる理論的条件を導出した。
- 弱い選択下での協力が不正行為よりも有利となる条件についても考察した。
- 協力選択の勾配を最大化，不正行為者と協力者の適合度差を最小化する最適なゲーム分布を決定した。
Link: https://arxiv.org/abs/2603.20603
エピソード型ゼロサムゲームにおけるベイズ学習 [cs.LG, cs.GT]目的：未知の遷移と報酬モデルを持つエピソード型有限地平線ゼロサムマルコフゲームにおけるベイズ学習
- ゲーム理論は，経済学，政治学，生物学など，多様な分野で戦略的な意思決定を分析する上で重要である。
- 相手モデルが未知の場合，最適な戦略を見つけることが困難であり，学習エージェントは後悔を経験しやすい。
- ベイズ学習を用いて，不確実な環境下で効果的な戦略を学習し，後悔を最小限に抑えることを目指す。
- 提案手法では，各プレイヤーがゲームモデルに関するベイズ事後分布を維持し，エピソードごとにモデルをサンプリングする。
- 両プレイヤーが事後サンプリングアルゴリズムを使用する場合と，片方のみを使用する場合の両方について，事後サンプリングエージェントの後悔に対する保証を提供する。
- 理論的な結果として，事後サンプリングエージェントの期待後悔の上界が$O(HS\sqrt{ABHK\log(SABHK)})$であることが示された。
Link: https://arxiv.org/abs/2603.20604
ガウスパイル：スライスに基づくボリューム再構成のための統一的な疎ガウススプラッティングフレームワーク [cs.CV]目的：スライスベースボリューム再構成のための圧縮と内部構造保持を両立する表現
- スライスベースボリュームイメージングは広く利用されており，解析のためには高い圧縮性と内部構造の保存が求められる。
- 既存手法では，高解像度な内部構造を維持しつつ，ボリュームデータを効率的に圧縮することが困難である。
- ガウススプラッティングと画像システムを考慮したモデルを統合し，高速かつ高圧縮なボリューム再構成を実現する。
- 提案手法「ガウスパイル」は，スライス間の寄与をモデル化するガウス配置戦略，微分可能な投影演算子，および効率的な最適化パイプラインを導入する。
- 顕微鏡および超音波データセットの実験により，ストレージと再構成コストの削減，診断精度の維持，高速な2D可視化と3Dボクセル化が確認された。
- NeRFベースの手法と比較して最大11倍高速，ボクセルグリッドと比較して16倍の圧縮を実現し，実用的な展開が可能となった。
Link: https://arxiv.org/abs/2603.20611
ScaleEdit-12M：マルチエージェントフレームワークによるオープンソース画像編集データ生成のスケールアップ [cs.CV]目的：大規模で多様かつ高品質な画像編集データセットの構築
- 画像編集は，統一されたマルチモーダルモデルの重要な機能である。
- 高品質な編集データセット構築には，高コストなAPI利用が不可欠である。
- コスト効率とスケーラビリティを維持しつつ，高品質なデータセットを構築すること。
- ScaleEditorは，大規模画像編集データセットをエンドツーエンドで構築する，オープンソースの階層型マルチエージェントフレームワークである。
- ScaleEdit-12Mは，23のタスクファミリーにわたる多様なデータセットであり，既存のオープンソースデータセットの中で最大規模である。
- UniWorld-V1とBagelをScaleEditでファインチューニングした結果，汎用的な編集ベンチマークで最大10.4%，知識を活用したベンチマークで最大150.0%の性能向上が見られた。
Link: https://arxiv.org/abs/2603.20644
ファイングレインなファッション画像検索のための，コントラスティブ学習と指数移動平均蒸留を用いたマルチヘッド継続学習フレームワーク [cs.CV, cs.AI]目的：ファイングレインなファッション画像検索における継続学習フレームワーク
- ファッション画像検索は，Eコマース等において重要であり，多様な属性に対応する必要がある。
- 既存手法は，新しい属性が出現する度に再学習が必要であり，コストがかかるという課題がある。
- 本研究は，効率的な知識転移により，再学習コストを削減し，精度を維持することを目的とする。
- 提案手法MCL-FIRは，マルチヘッド構造により，新しいクラスの追加に対応可能である。
- InfoNCEを用いた入力の再構成とEMA蒸留により，効率的な学習と知識伝達を実現している。
- 4つのデータセットによる実験の結果，MCL-FIRは，既存の継続学習手法よりも高い精度と効率を示した。
Link: https://arxiv.org/abs/2603.20648
空間への注意：空間推論におけるVLMヘッドの機能的役割 [cs.RO, cs.RO, cs.DC, cs.AI, cs.CV]目的：大規模ビジョン言語モデルにおける空間推論の機能的役割の解明
- 画像と言語を扱うモデルは多様な応用が期待され，その能力向上は重要である。
- 空間推論は依然として課題であり，モデルの性能向上を阻害する要因となっている。
- 空間推論に特化したヘッドを特定し，モデルの空間理解能力を高めることを目指す。
- CogVSRデータセットを用いて，空間推論を段階的なサブ質問に分解し，認知機能と関連付けた。
- 空間推論に特化した注意ヘッドは他の認知機能ヘッドと比較して稀少であることが示された。
- 潜在的な空間ヘッドの活性化やヘッドの操作を通じて，空間推論の精度向上が確認された。
Link: https://arxiv.org/abs/2603.20662
軽量ToFカメラ向け大規模シナリオ深度補完への取り組み [cs.RO, cs.RO, cs.CV]目的：軽量ToFカメラにおける大規模シナリオでの深度補完
- ロボット工学において，ToFカメラは小型で高精度な計測が可能であり，多様なタスクへの応用が期待されている。
- ToFカメラの計測範囲が限られているため，大規模な環境での利用が課題となっている。
- ToFカメラの計測範囲を拡大し，大規模環境下での利用を可能にすることを目的とする。
- 本研究では，大規模な実環境データセットLASER-ToFを構築し，ToFカメラの深度補完を可能にするフレームワークを提案した。
- 提案手法は，3D-2D Joint Propagation PoolingモジュールとMultimodal Cross-Covariance Attentionを組み込み，ToFの疎な深度データに対して有効なモデリングと融合を実現した。
- 実験結果から，提案手法は既存手法と比較して平均絶対誤差を8.6%低減し，軽量設計によりロボットへの搭載も可能であることが示された。
Link: https://arxiv.org/abs/2603.20669
ノイズに強い表現学習のための情報ボトルネックカプセルネットワーク (IBCapsNet) [cs.RO, cs.CV]目的：ノイズに強い表現学習のための新たなカプセルネットワークアーキテクチャの提案
- 深層学習は画像認識等に不可欠だが，ノイズに対して脆弱であるという課題がある。
- カプセルネットワークは空間的階層関係のモデリングに優れるものの，計算コストが高い。
- 情報ボトルネック原理に基づくことで，効率性とロバスト性を両立することを目指す。
- IBCapsNetは，MNISTにおいて99.41%，SVHNにおいて92.01%という高い認識精度を達成した。
- 合成ノイズ下においては，従来のCapsNetと比較して平均で+17.10%と+14.54%の精度向上を示した。
- 学習速度は2.54倍，推論スループットは3.64倍に向上し，モデルパラメータも4.66%削減された。
Link: https://arxiv.org/abs/2603.20682
SNAP：音声ディープフェイク検出における話者情報の中和 [cs.SD, cs.AI]目的：音声ディープフェイク検出における話者情報の影響軽減
- 近年の音声合成技術の進展により，リアルな偽装音声が容易に生成可能となり，社会問題化が懸念される。
- 既存のディープフェイク検出器は，話者固有の情報に依存しやすく，未知の話者に対して汎化性能が低い。
- 話者情報を除去することで，検出器が合成アーティファクトに焦点を当て，汎化性能を高める。
- 提案手法SNAPは，話者空間を推定し，直交投影によって話者依存成分を抑制する。
- SNAPを用いることで，検出器が話者情報ではなく，アーティファクトに着目するようになり，性能が向上する。
- 実験により，SNAPが最先端の性能を達成することが示された。
Link: https://arxiv.org/abs/2603.20686
MFSR：ワンステップ実世界画像超解像のためのMeanFlow蒸留 [cs.CV]目的：実世界画像超解像のための効率的かつ高品質なワンステップ蒸留フレームワーク
- 実世界画像の超解像は，画像処理において重要な課題であり，様々な応用分野で求められている。
- 拡散モデルやフローベースモデルは高性能だが，多段階サンプリングにより推論速度が遅いという課題がある。
- 本研究は，高品質な画像を迅速に生成可能にするワンステップ蒸留の性能向上を目指す。
- MFSRは，ワンステップでフォトリアリスティックな結果を生成し，必要に応じて複数ステップでの改良も可能にする。
- MeanFlowを学習ターゲットとして利用することで，教師モデルのダイナミクスを効率的に捉える。
- 教師CFG蒸留戦略を用いることで，事前学習済みの生成モデルの潜在能力を最大限に引き出し，細部の復元能力を向上させる。
Link: https://arxiv.org/abs/2603.20690
衛星から路上へ：生成ビジョンモデルによる災害後の視点合成 [cs.CL, cs.CY, cs.CV, cs.AI]目的：災害後の状況把握のための衛星画像からの路上視点画像合成
- 災害発生直後の迅速な状況把握は不可欠であり，衛星観測は被害範囲の推定に広く利用される。
- 衛星画像は地上レベルの視点に欠け，具体的な構造的損傷や影響の特性評価が難しいという課題がある。
- 衛星画像から災害後の路上視点を合成することで，地上データの入手困難な状況下での情報ギャップを埋める。
- 提案手法では，Vision-Language Model (VLM) ガイド型と，損傷に敏感な Mixture-of-Experts (MoE) 法という2つの生成戦略を導入した。
- 実験の結果，拡散ベースの手法は高い知覚的リアリズムを達成するものの，構造の詳細を幻覚することがあるという現実性・忠実度のトレードオフが明らかになった。
- 標準的なControlNetは最高の意味的精度(0.71)を示したが，VLM強化型とMoEモデルは質感の妥当性には優れるものの，意味的明確性に苦戦した。
Link: https://arxiv.org/abs/2603.20697
消化器診断のためのマルチモーダルLLMにおける臨床認知の整合性 [cs.CV, cs.CL]目的：消化器内視鏡検査における臨床診断の精度向上
- 消化器疾患は有病率が高く，早期発見と正確な診断が重要である。
- 既存のLLMは，臨床的思考経路との不整合や，視覚的特徴と診断結果の因果関係の欠如を抱えている。
- 臨床認知に整合したLLMを構築し，診断の根拠を因果的な病変特徴に絞ることを目指す。
- 提案手法であるCogAlignフレームワークは，階層的な臨床認知データセットと教師ありファインチューニングにより，LLMに厳密な臨床分析能力を付与する。
- 背景相関への偏りを解消するため，病変マスキングによる反実仮想サンプル生成と，臨床認知に基づく報酬を用いた強化学習を導入した。
- 複数のベンチマークにおいて最先端の性能を達成し，複雑な臨床シナリオにおける診断精度を大幅に向上させた。
Link: https://arxiv.org/abs/2603.20698
イベントを用いた高画質かつ効率的な乱流軽減 [cs.CV]目的：乱流軽減のための手法
- 大気乱気流は，自然界の視覚情報を阻害する主要な要因であり，クリアな画像認識が不可欠となる分野で課題となる。
- 従来の乱流軽減手法は，高精度と処理速度のトレードオフに陥りやすく，リアルタイム処理が困難となる場合がある。
- イベントカメラの特性を活用し，リアルタイム性と高画質を両立する新たな乱流軽減手法を開発することを目指す。
- 本研究で提案するEHETMは，イベントカメラの特性に着目し，高画質かつ効率的な乱流軽減を実現した。
- イベントデータの極性変化と画像勾配の相関，そして動的物体が形成する「イベントチューブ」の概念を活用することで，従来のSOTA手法を上回る性能を達成した。
- 実験結果から，EHETMはデータオーバーヘッドを約77.3%，システムレイテンシを約89.5%削減できることが示された。
Link: https://arxiv.org/abs/2603.20708
3Dガウススプラッティングにおける初期化と密度の役割と関係 [cs.CV]目的：3Dガウススプラッティングにおける初期化と密度の関係性の調査
- 画像からシーンの形状と外観を高精度に復元する技術であり，リアルな3D再構成に不可欠である。
- 現在の3Dガウススプラッティングは，初期化に依存しやすく，密度の高い初期化を十分に活用できていない。
- 様々な初期化と密度化手法の組み合わせを評価し，性能向上への課題を明確化すること。
- 既存の密度化手法では，密度の高い初期化を十分に活用できず，疎なSfM初期化との改善が見られないことが示された。
- 本研究で提案するベンチマークは，様々な初期化と密度化手法の比較を可能にする。
- ベンチマークは公開され，今後の研究に貢献することが期待される。
Link: https://arxiv.org/abs/2603.20714
テキストと空撮画像間の人物検索のためのクロスモーダルファジーアラインメントネットワークと大規模ベンチマーク [cs.CV]目的：テキストによる空撮画像からの人物検索
- インテリジェントな交通システムや公共の安全確保において，目撃証言に基づいた人物特定が重要である。
- 空撮画像は視点や高度の変化により画質が劣化しやすく，テキストとの意味的なアラインメントが困難である。
- 空撮画像とテキスト間のギャップを埋め，よりロバストな人物検索を実現すること。
- 提案手法では，ファジー論理を用いてトークンレベルの信頼性を定量化し，正確な意味的なアラインメントを実現した。
- 地上視点画像を橋渡し役として活用することで，空撮画像とテキストの間のギャップをさらに縮小した。
- 大規模ベンチマークデータセットAERI-PEDESを構築し，テキストの精度と意味的一貫性を向上させた。
Link: https://arxiv.org/abs/2603.20721
テキスト画像生成における学習可能なユーザー埋め込みを用いたパーソナライズされた嗜好調整：Premier [cs.CV]目的：テキスト画像生成におけるパーソナライズのための嗜好調整機構
- 画像生成技術は進歩しているが，ユーザーの微妙な嗜好を捉えることは困難である。
- 既存手法では，ユーザーの嗜好を正確に反映できず，パーソナライズが不十分となる場合がある。
- ユーザーの嗜好をより正確に捉え，高品質なパーソナライズ画像生成を実現すること。
- Premierは，学習可能なユーザー埋め込みと嗜好アダプターを導入し，テキストプロンプトとユーザーの嗜好を融合させる。
- 分散損失を用いることで，ユーザー埋め込み間の識別性を高め，出力とユーザー固有のスタイルとの整合性を向上させている。
- ユーザーデータが少ない場合でも，既存の埋め込みの線形結合により，効果的な一般化を実現する。
Link: https://arxiv.org/abs/2603.20725
深度認識型クロスアテンションを用いた音響ボアホール画像の弱学習マルチモーダルセグメンテーション [cs.CV, cs.AI, physics.geo-ph]目的：音響ボアホール画像のマルチモーダルセグメンテーション手法
- 地質探査において，ボアホール画像は地層構造の重要な情報源である。
- 専門家による詳細なアノテーション作成はコストが高く，大規模な解析が困難である。
- 弱学習によるセグメンテーションを通じて，アノテーションコストを削減し，効率的な解析を実現する。
- 閾値処理による仮ラベルを学習モデルで洗練することで，従来手法よりもロバストなセグメンテーションが可能となった。
- 深度認識型クロスアテンションが，画像情報と掘削ログ情報を効果的に融合し，セグメンテーション精度を大幅に向上させた。
- 自信度に基づいた融合戦略（CG-DCA）が，既存手法と比較して一貫して高い性能を示した。
Link: https://arxiv.org/abs/2603.20729
VSD-MOT：視覚的意味的蒸留による低品質ビデオシーンにおけるエンドツーエンドマルチオブジェクトトラッキング [cs.CV]目的：低品質ビデオシーンにおけるマルチオブジェクトトラッキング手法
- 現実世界のビデオは品質が劣化することが多く，正確な物体追跡が困難となる。
- 既存の追跡アルゴリズムは，低品質ビデオにおける情報損失への対処が不十分である。
- 視覚的意味的蒸留を用いて，低品質ビデオにおける追跡性能の低下を抑制すること。
- CLIP Image Encoderを用いた視覚的意味情報を抽出することで，低品質画像の情報損失を補完する。
- 教師・生徒学習フレームワークとDual-Constraint Semantic Distillation(DCSD)により，効率的な意味情報抽出を実現する。
- Dynamic Semantic Weight Regulation(DSWR)モジュールにより，フレーム品質の変動に適応的に対応し，追跡精度を向上させる。
Link: https://arxiv.org/abs/2603.20731
SATTC：構造を意識したラベルなしテスト時較正による被験者間EEG-画像検索 [cs.CL, cs.CV]目的：被験者間EEG-画像検索における信頼性向上
- 脳波(EEG)と画像間の関連付けは，脳機能解読の重要な手段であり，ブレイン・コンピュータ・インターフェース(BCI)の発展に不可欠である。
- 被験者間の違いやハブネス現象により，埋め込み空間の類似性構造が歪み，上位k件のランキングが不安定になるという課題が存在する。
- SATTCは，ラベルを用いずに，テスト時に類似性行列を較正することで，これらの問題を解決し，より信頼性の高い検索結果を得ることを目指す。
- SATTCは，凍結されたEEGと画像エンコーダの類似性行列に直接作用するラベルなし較正ヘッドであり，幾何学的な専門家と構造的な専門家を組み合わせる。
- 厳格なleave-one-subject-outプロトコル下での実験により，SATTCはTop-1およびTop-5の精度を向上させ，ハブネスとクラスごとの不均衡を軽減することが示された。
- SATTCはエンコーダに依存せず，さまざまなEEGエンコーダで性能向上が確認されており，汎用性の高いテスト時較正層として機能することが示唆される。
Link: https://arxiv.org/abs/2603.20738
Mambaは文脈の中で学習する：マルチタスク点群理解のための構造を意識したドメイン汎化 [cs.CV]目的：マルチタスク点群理解における構造を意識したドメイン汎化
- 点群データ処理は，自動運転やロボット工学など，幅広い応用分野で重要性が増している。
- TransformerやMambaなどの既存モデルは，単一タスク向けであり，マルチタスク・ドメイン汎化性能が低い。
- ドメインやタスクを跨いでも構造的階層を維持し，安定した点群処理を実現することを目指す。
- 提案手法は，点群データの構造を考慮した並列化と階層的モデリングによって，ドメイン間の知識転移を促進する。
- テスト時には，軽量なスペクトルグラフアラインメントにより，ターゲット特徴量をソースプロトタイプにシフトさせ，構造を維持した特徴変換を行う。
- 再構成，ノイズ除去，登録など複数のタスクにおいて，最先端手法と比較して性能が向上することが確認された。
Link: https://arxiv.org/abs/2603.20739
CTCal：クロスステップ自己較正によるテキスト-画像拡散モデルの再考 [cs.CV]目的：テキスト-画像間の正確なアライメントを達成するための手法
- テキスト-画像合成技術は急速に進歩しているが，高品質な画像生成には課題が残る。
- 従来の拡散損失関数では，テキストと画像の細かい対応関係をモデル化する際の監督が不十分である。
- ノイズの少ない初期ステップでのアライメントを利用し，ノイズの多い後続ステップでの学習を改善する。
- 本研究では，クロスステップ自己較正（CTCal）を提案し，拡散モデルにおけるテキスト-画像アライメントの精度向上を目指した。
- CTCalは，拡散ベースおよびフローベースのアプローチを含む既存のテキスト-画像拡散モデルに容易に組み込むことができる。
- T2I-Compbench++およびGenEvalベンチマークにおける実験により，CTCalの有効性と汎用性が実証された。
Link: https://arxiv.org/abs/2603.20741
スマート手術室：AI 기반 ガーゼ計数システム [cs.CV]目的：手術用ガーゼの計数
- 手術中の医療用ガーゼの遺残は患者に深刻な合併症を引き起こし，病院に法的責任が生じる可能性がある。
- 手動によるガーゼの計数は時間がかかり，医療資源を圧迫する。
- AIを活用し，手術中のガーゼの正確な計数を自動化し，ガーゼ遺残リスクを低減すること。
- リアルタイムの映像監視と物体認識技術(YOLOv5)を用いたAIシステムを開発した。
- 使用前・使用後のガーゼを識別するトレイを設け，ガーゼの移動を追跡することで正確な計数を実現した。
- 人間とガーゼを同時に識別できる統合モデルを開発し，精度向上と処理速度の向上(8FPSから15FPSへ)を実現した。
Link: https://arxiv.org/abs/2603.20752
動的パッチサンプリングとブロックスキップによるメモリ効率的な拡散Transformerのファインチューニング [cs.CV, cs.AI]目的：拡散Transformerのメモリ効率的なファインチューニング手法
- 近年の画像生成技術の進歩は，高品質なコンテンツ作成を可能にする。
- 拡散Transformerのファインチューニングには，膨大な計算資源とメモリが必要となる。
- リソース制約下での実用的な展開を可能にするため，メモリ使用量の削減を目指す。
- 提案手法DiT-BlockSkipは，動的パッチサンプリングとブロックスキップを統合することでメモリ使用量を削減する。
- 動的パッチサンプリングは，拡散ステップに応じてパッチサイズを調整し，高解像度と詳細情報の両立を実現する。
- ブロックスキップ機構は，重要なTransformerブロックを選択的にファインチューニングし，メモリ効率を高める。
Link: https://arxiv.org/abs/2603.20755
OmniPatch：セマンティックセグメンテーションにおけるViT-CNNクロスアーキテクチャ転送のための汎用敵対パッチ [cs.LG, cs.AI, cs.CV]目的：セマンティックセグメンテーションにおける汎用的な敵対パッチ
- 自動運転の安全性確保には不可欠であり，高精度なセグメンテーションが求められる。
- 未知のモデルに対する攻撃に対する脆弱性が残されており，実用上の課題となっている。
- ViTとCNNを含む多様なアーキテクチャに適用可能な汎用パッチの開発。
- OmniPatchは，画像全体への摂動や単一アーキテクチャへの最適化という既存手法の限界を克服する。
- 本研究では，ターゲットモデルのパラメータにアクセスすることなく，ViTとCNNの両アーキテクチャ間で汎化する敵対パッチを学習するフレームワークを提案する。
- 提案手法は，多様な画像とアーキテクチャに対する高い転送性と実用性を示す。
Link: https://arxiv.org/abs/2603.20777
PiLoT：UAVベースの自己位置推定と目標ジオロケーションのためのニューラルピクセル-to-3D登録 [cs.CV]目的：UAVベースの自己位置推定と目標ジオロケーション
- UAVの利用拡大に伴い，正確な自己位置推定と目標位置の特定が不可欠である。
- 従来のシステムはGNSSや高価なセンサーに依存し，GNSS利用不可環境下で課題があった。
- 本研究は，ビデオストリームと3Dマップの直接登録により，この問題を解決することを目指す。
- PiLoTは，マップレンダリングと局所化処理を分離するDual-Thread Engineにより，低遅延かつ高精度な性能を実現した。
- 大規模な合成データセットを用いた学習により，シミュレーションから実データへのゼロショット汎化性能を達成した。
- Joint Neural-Guided Stochastic-Gradient Optimizer (JNGO)により，過酷な動き下でもロバストな収束を実現し，既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2603.20778
マスク化されたエッジ予測による人間らしい鮮明なエッジ検出 [cs.CL, cs.CV]目的：人間らしい鮮明なエッジ検出の実現
- 画像認識の基礎技術であり，物体検出やセグメンテーションなど多くの応用分野で不可欠である。
- 従来の学習ベースのエッジ検出モデルは，エッジが太く，人間の注釈とのずれが生じやすいという課題がある。
- 入力のマスキング割合を変化させる学習と，予測確信度に基づく段階的な予測により，鮮明なエッジ検出を実現する。
- 提案手法MEMOは，クロスエントロピー損失のみを用いて，高精度かつ鮮明なエッジを生成する。
- 大規模な合成エッジデータセットによる事前学習と，軽量なモジュールによるファインチューニングにより，汎化性能を向上させている。
- 予測確信度の高い領域から順にエッジを確定する新しい予測戦略により，より薄く正確な輪郭を抽出する。
Link: https://arxiv.org/abs/2603.20782
ME-IQA：推論による画像品質評価のメモリ増強と再ランク付け [cs.CV]目的：画像品質評価の性能向上
- 画像品質評価は，画像処理やコンピュータビジョンの重要な課題であり，様々な応用分野で不可欠である。
- 既存の画像品質評価手法は，評価スコアの感度が低く，離散的な値に集中する問題がある。
- 推論に基づく画像品質評価モデルの性能を，メモリ増強と再ランク付けによって改善すること。
- ME-IQAは，推論サマリーを用いて意味的・知覚的に類似した画像をメモリバンクから検索し，再ランク付けを行う。
- ME-IQAは，VLMsを確率比較器として捉え，序数情報を活用することで，より密で歪みに敏感な予測を実現する。
- 複数のIQAベンチマークにおいて，既存手法やテスト時スケーリング手法と比較して一貫した性能向上を示す。
Link: https://arxiv.org/abs/2603.20785
ピア観察は役立つか？視覚・言語ナビゲーションのためのビジョン共有協調 [cs.CV, cs.RO]目的：視覚・言語ナビゲーションにおけるピア観察の有効性
- ロボットが共有環境で共存する場面が増加しており，協調学習の重要性が高まっている。
- 視覚・言語ナビゲーションは部分観測性に制約され，探索範囲が限られているという課題がある。
- ピア観察を通じて，他のエージェントの情報を活用し，探索コストを抑えつつナビゲーション性能を向上させる。
- 提案手法Co-VLNは，他のエージェントとのビジョン共有により，既存モデルの性能を大幅に向上させる。
- 学習ベースのDUETとゼロショットのMapGPTの両方のパラダイムにおいて，有効性が確認された。
- ピア観察の共有が，視覚・言語ナビゲーションの協調学習の基盤を確立する。
Link: https://arxiv.org/abs/2603.20804
意味空間における少即是多：クリフォードMによる眼底画像分類のための内在的な切り離し [cs.NI, cs.CV]目的：眼底画像の多ラベル診断のための効率的な特徴抽出
- 眼底画像診断は，疾患の早期発見と適切な治療に不可欠であり，医療の発展に貢献する。
- 既存手法では，多スケールな特徴を捉えるために複雑な処理が必要となり，計算コストが増大する。
- 本研究は，シンプルな構造で効率的に多スケールな特徴を捉え，高精度な診断を可能にする。
- 提案手法Clifford-Mは，パラメータ数を抑えつつ，既存のCNNモデルと同等以上の性能を達成した。
- 特に，ODIR-5Kデータセットにおいて，AUC-ROCの平均値0.8142，macro-F1の平均値0.5481を記録した。
- RFMiDデータセットにおいても，ファインチューニングなしで良好な汎化性能を示した。
Link: https://arxiv.org/abs/2603.20806
マルチモーダル大規模言語モデルにおける視覚表現劣化に対する予測的正則化 [cs.CL, cs.CV, cs.LG]目的：マルチモーダル大規模言語モデルにおける視覚表現劣化の抑制
- 近年，画像とテキストを扱うモデルが発展しているが，その性能向上のためには視覚能力の維持が重要である。
- 大規模言語モデルのテキスト生成能力向上を目指す過程で，視覚能力が犠牲になっている可能性がある。
- 内部表現の視覚的特性を維持し，より堅牢なマルチモーダル理解を実現することを目指す。
- マルチモーダル大規模言語モデルの中間層における視覚表現の劣化が，グローバル機能とパッチ構造の両面で確認された。
- この劣化は，テキスト生成を最適化する過程で視覚的な忠実度が損なわれることが原因であると考えられる。
- 提案手法である予測的正則化は，視覚表現の劣化を効果的に緩和し，視覚言語タスクの性能向上に貢献する。
Link: https://arxiv.org/abs/2603.20808
雲越えの効率的学習：意味セグメンテーションのための不一致条件付き光・SAR融合 [cs.CV]目的：雲の影響下における光とSAR画像の効率的な融合による意味セグメンテーションの精度向上
- リモートセンシングは広範囲な地理情報を取得する上で不可欠であり，高精度な解析が求められる。
- 雲の覆いによって光学リモートセンシング画像の精度が低下し，実用的な応用を妨げている。
- 雲の影響を軽減し，計算コストを抑えつつ，高精度な意味セグメンテーションを実現することを目指す。
- 提案手法EDCは，M3M-CRデータセットにおいてmIoUを0.56%向上させた。
- また，WHU-OPT-SARデータセットにおいてはmIoUを0.88%向上させることに成功した。
- パラメータ数を46.7%削減し，推論速度を1.98倍に向上させることで，効率性と信頼性の両立を実現した。
Link: https://arxiv.org/abs/2603.20811
PlanaReLoc：3D平面素子を用いた領域ベース構造マッチングによるカメラ再定位 [cs.CV, cs.AI]目的：3D平面素子と構造ベースのマッチングによるカメラ再定位手法
- ロボットや拡張現実などの分野で，環境中の自己位置推定は重要な課題である。
- 従来の構造ベースの手法は，点群の対応付けに依存しており，計算コストが高いという課題がある。
- 平面素子を用いることで，軽量かつロバストなカメラ再定位を実現し，計算コストを削減することを目指す。
- PlanaReLocは，クエリ画像と3D平面地図間の平面素子を，学習された埋め込み空間内で関連付けることで，効率的な再定位を実現した。
- 提案手法は，ScanNetおよび12Scenesデータセットにおいて，高精度な再定位性能と，テクスチャや事前知識への依存性の低さを実証した。
- 平面素子は，信頼性の高いクロスモーダル構造対応を実現し，効果的なカメラ再定位を可能にすることが示された。
Link: https://arxiv.org/abs/2603.20818
EruDiff：拡散モデルにおける知識の再構成による高度なテキスト画像合成 [cs.RO, cs.CV]目的：拡散モデルにおける知識構造の再構成
- テキスト画像生成は進歩しているが，深い知識を要する曖昧な指示への対応が課題である。
- 拡散モデルは，世界知識を必要とする指示に対して，現実と異なる画像を生成しやすい。
- 拡散モデル内の知識構造を整理し，曖昧な指示への対応能力を向上させる。
- EruDiffは，拡散知識分布一致(DK-DM)により，曖昧な指示と明確な指示の知識分布を一致させる。
- また，負の強化学習(NO-RL)を用いて，明示的なプロンプトの偏りを修正する。
- 実験の結果，Science-T2IやWISEといったベンチマークにおいて，既存モデルの性能が大幅に向上した。
Link: https://arxiv.org/abs/2603.20828
MERIT：多ドメイン効率的なRAW画像変換 [cs.CV, cs.AI]目的：多ドメインRAW画像変換の統一的フレームワーク
- 多様なカメラで撮影されたRAW画像は，コンピュータビジョンの応用において重要な役割を果たす。
- 異なるカメラ間ではスペクトル特性やノイズが大きく異なり，直接利用が困難である。
- 多数のカメラに対応可能な，単一モデルによるRAW画像変換を実現する。
- 提案手法MERITは，既存手法と比較して画像品質が大幅に向上した（5.56dB改善）。
- MERITは，学習に必要な反復回数を大幅に削減し，スケーラビリティに優れている（80%削減）。
- 新たに多ドメインRAW画像変換用のデータセットMDRAWを構築し，標準的な評価を可能にした。
Link: https://arxiv.org/abs/2603.20836
Dodgersort：不確実性を考慮したVLM誘導の人間協調型ペアワイズランキング [eess.SY, cs.SY, cs.CV, cs.AI, cs.HC, cs.LG]目的：ペアワイズランキングの信頼性向上とアノテーションコスト削減
- データラベリングの質がAI性能に大きく影響するため，高信頼なラベリング手法が重要である。
- 従来の分類ラベリングでは，評価者間信頼性が低い場合がある。
- 人間とAIが協力し，効率的かつ高信頼なランキングを構築することを目指す。
- Dodgersortは，CLIPベースの階層的事前順序付け，ニューラルランキングヘッド，確率的アンサンブルを利用し，アノテーションコストを削減する。
- 医療画像，歴史的年代測定，美学のランキングタスクにおいて，11～16％のアノテーション削減と評価者間信頼性の向上を達成した。
- FG-NETにおける実験では，ベースラインよりも5～20倍多くのランキング情報を得て，精度と効率のトレードオフを最適化した。
Link: https://arxiv.org/abs/2603.20839
GOLDMARK：制御された結果に紐づく診断モデル評価参照キット [cs.CV, cs.CE, q-bio.TO]目的：病理画像由来の計算バイオマーカーの標準的なベンチマークと評価
- 近年，AIを活用した病理画像解析が発展し，治療効果予測や予後予測への応用が期待されている。
- 計算病理学には，中間データ形式の標準化，データの系統追跡，再現性のある評価指標が不足している。
- 臨床応用可能な計算バイオマーカーの開発を促進するため，標準化された評価基盤を構築すること。
- GOLDMARKは，TCGAコホートを用いた標準化されたベンチマークフレームワークであり，中間データ表現や評価結果を公開している。
- 33種類の腫瘍バイオマーカータスクにおいて，平均AUROCはTCGAで0.689，MSKCCで0.630であった。
- 特に高い性能を示した8つのタスクは，確立された形態学的遺伝子関連性を示し，クロスサイト性能も安定していた。
Link: https://arxiv.org/abs/2603.20848
グローブから手へ：マルチモーダルセンシンググローブからの自然な手物体相互作用の合成 [cs.CV, cs.RO]目的：手物体相互作用の合成手法
- コンピュータビジョン，ロボティクス，AR/VR等の発展には，手物体相互作用の理解が不可欠である。
- 既存の手の動画には，接触力や動きといった物理情報が不足し，遮蔽の影響を受けやすいという課題がある。
- マルチモーダルセンシンググローブの情報を活用し，物理的な相互作用を忠実に再現する手の動画生成を目指す。
- 提案手法Glove2Handは，マルチモーダルセンシンググローブのHOI動画から，フォトリアリスティックな素手の動画を生成する。
- 3Dガウス手モデルと拡散ベースの手復元器により，時間的な一貫性と複雑な相互作用を両立している。
- 生成されたデータセットHandSenseは，ダウンストリームタスクである接触推定やオクルージョン下でのハンドトラッキングの性能を向上させる。
Link: https://arxiv.org/abs/2603.20850
不均衡な白血球分類のための小規模分類器のアンサンブル [cs.CV, cs.LG]目的：白血病診断のための白血球分類自動化
- 白血球分類は，熟練した病理医による細胞検査の代替となりうる。時間と資源を節約できる。
- 希少な細胞タイプの分類アルゴリズムは，染色や患者間の異質性により頑健性に課題がある。
- 白血球のデータセットを拡張し，小規模な事前学習済みモデルのアンサンブルによる分類性能向上を目指す。
- 提案手法は，SwinV2-Tiny，DinoBloom-Small，ConvNeXT-V2-Tinyモデルの軽量アンサンブルで高い性能を達成した。
- 層化3分割交差検証を行い，9モデルのlogit averagingにより分類精度を向上させた。
- モデルは，好中球系の幼若な細胞やリンパ球の区別に課題が残る。今後の改善が期待される。
Link: https://arxiv.org/abs/2603.20856
高速かつロバストな変形3Dガウススプラッティング [cs.CV, cs.GR]目的：動的シーン再構成のための効率的かつ堅牢なフレームワーク
- 3Dガウススプラッティングはリアルタイムレンダリングと高品質な新規視点合成を可能にする。
- 既存手法はレンダリング速度，初期点群への依存性，暗いシーンでの局所最適解に課題がある。
- 初期化が困難な状況下でも高品質な動的シーン再構成を可能にすること。
- FRoGはガウスごとの埋め込みと粗い段階から細かい段階への時間埋め込み戦略を統合し，レンダリングを高速化する。
- 深さと誤差をガイドとしたサンプリング戦略により，初期化が難しいシーンでも詳細な再構成が可能となる。
- 不透明度の変動を調整することで，暗いシーンでの局所最適解問題を軽減し，色の忠実度を向上させる。
Link: https://arxiv.org/abs/2603.20857
ニューラルネットワークの可塑性回復による高速転移学習 [cs.CV, cs.AI]目的：転移学習におけるニューラルネットワークの可塑性回復戦略
- 画像認識分野では，ImageNetで事前学習済みのモデルを利用した転移学習が広く行われている。
- 事前学習済みの重みは飽和しやすく，勾配が小さくなることで，下流タスクへの適応が阻害される場合がある。
- 本研究では，転移学習前に重みを再初期化することで，ニューラルネットワークの可塑性を回復し，学習効率を向上させる。
- 提案手法は，CNNとViTの両方において，画像分類ベンチマークにおいて高いテスト精度と高速な収束を実現した。
- 本手法は計算コストの増加が少なく，既存の転移学習パイプラインに容易に組み込むことができる。
- 事前学習済みの重みが飽和することで失われるニューラルネットワークの可塑性問題に対処した。
Link: https://arxiv.org/abs/2603.20860
TAFG-MAN：効率的かつ高品質な低線量CT画像ノイズ除去のためのステップタイム適応型周波数ゲーティング潜在拡散 [cs.CV]目的：低線量CT画像の効率的かつ高品質なノイズ除去
- 被ばく線量を低減する低線量CTは医療現場で重要だが，画質劣化が課題。
- ノイズ除去と解像度維持は相反する課題であり，両立が難しい。
- ノイズ除去と細部の保存のバランスを改善し，高画質化を目指す。
- TAFG-MANは，潜在空間での効率的なノイズ除去を実現する潜在拡散フレームワークである。
- TAFG機構により，初期段階では構造的な指針に依存し，終盤で高周波情報を慎重に導入することで，ノイズ抑制と細部保持のバランスを改善する。
- 既存手法と比較して，TAFG-MANは品質と効率性のトレードオフが優れており，特に細部の保存と知覚的品質が向上する。
Link: https://arxiv.org/abs/2603.20868
シーングラフ誘導ファインチューンアラインメントを用いた制御可能ビデオセグメンテーションとキャプション生成Transformer [cs.CV]目的：制御可能ビデオセグメンテーションとキャプション生成
- ビデオコンテンツ理解の向上は，多様なモダリティ間の表現ギャップを埋めることで，ユーザーの理解を深める上で重要である。
- 既存手法はグローバルな理解に重点を置いており，ユーザーとのインタラクションが限られているという課題がある。
- ユーザーが指定したプロンプトに基づき，ビデオのセグメンテーションとキャプションを同時に生成する手法を確立すること。
- 提案手法SG-FSCFormerは，適応的なプロンプトアダプターを通じてユーザーの意図を効果的に捉え，生成コンテンツと要件のアラインメントを強化する。
- ファインチューンマスク-言語デコーダーとマルチエンティティコントラスティブ損失により，高品質なキャプション-マスクペアを予測し，詳細なアラインメントを実現する。
- 二つのベンチマークデータセットでの実験により，ユーザーの意図を正確に捉え，ユーザー指定に合わせたマルチモーダル出力を生成する性能が確認された。
Link: https://arxiv.org/abs/2603.20887
オンライン継続学習のための自然勾配降下法 [cs.LG, cs.AI, cs.CV]目的：画像分類におけるオンライン継続学習の性能向上
- AIの応用範囲拡大に伴い，継続的に学習する能力が重要視されている。
- 既存手法では，新たな学習によって過去の知識が失われる「破滅的忘却」が課題。
- オンライン環境下での学習速度を改善し，破滅的忘却を抑制すること。
- 自然勾配降下法とKFACを組み合わせた手法が，既存のオンライン継続学習手法の性能を大幅に向上。
- Split CIFAR-100，CORE50，Split miniImageNetなどのデータセットで有効性が確認された。
- 特に，既存の継続学習手法と組み合わせることで，より高い効果が得られた。
Link: https://arxiv.org/abs/2603.20898
GraPHFormer：神経形態学解析のためのマルチモーダルグラフ持続ホモロジーTransformer [cs.CV]目的：神経形態学の解析のための新たなアーキテクチャ
- 神経回路の機能，発達，疾患において，ニューロンの形態は重要な情報を提供する。
- 既存手法では，トポロジーとグラフ構造を別々に分析しており，両者の統合が課題であった。
- トポロジーとグラフ構造を統合し，より高精度な神経形態学解析を実現すること。
- GraPHFormerは，6つのベンチマークにおいて最先端の性能を達成し，既存手法を大きく上回った。
- 大脳皮質のグリア細胞の形態や，発生・変性プロセスのシグネチャーを識別する実用性も実証された。
- DINOv2-ViT-Sを用いた持続画像エンコーディングとTreeLSTMエンコーダーによるグラフ構造の解析を組み合わせている。
Link: https://arxiv.org/abs/2603.20970
エージェントによる購買行動：質問と提案のモデル [cs.NI, cs.GT, econ.TH]目的：AIショッピングエージェントによる顧客選好学習と製品推奨の経済的トレードオフの分析
- EC市場は検索型からエージェント型購買へと移行しており，顧客体験向上が重要である。
- 顧客選好の正確な把握と，多様な製品からの最適な推奨が課題となっている。
- 質問と製品推奨の最適なバランスにより，顧客とのマッチング精度向上を目指す。
- 質問回数と製品数の推奨幅にはトレードオフが存在し，事前不確実性を分散させることで顧客満足度を向上させることが示された。
- 質問による顧客選好の絞り込みは，製品推奨の多様性よりも効率的にマッチング精度を高めることが明らかになった。
- 最適な製品推奨は，顧客の事後的な好みに基づいて領域分割されたボロノイ図によって特徴づけられる。
Link: https://arxiv.org/abs/2603.20972
ミッション監視のためのハイパーゲーム理論に基づく深層強化学習によるサイバー欺瞞 [cs.CR, cs.AI, cs.GT, cs.MA]目的：ミッション監視におけるサイバー攻撃に対する防御戦略
- ドローンは監視，救助，配送などの重要なミッションに活用されており，その重要性は増している。
- ドローンはDoS攻撃を受けやすく，ミッション遂行能力を低下させる危険性がある。
- 欺瞞ドローンを用いて攻撃を誘い込み，ミッションシステムを保護することを試みる。
- 提案手法HT-DRLは，ハイパーゲーム理論の解を深層強化学習に組み込むことで，迅速な学習と最適な防御戦略の実現を可能にする。
- シミュレーション結果から，HT-DRLに基づく欺瞞ドローンは既存手法と比較して，ミッション性能を最大で2倍向上させ，低消費電力で運用できることが示された。
- 攻撃戦略が異なる状況下において，様々な防御メカニズムの性能を分析し，HT-DRLの有効性を検証した。
Link: https://arxiv.org/abs/2603.20981
一貫性はあるが危険：サンプルごとの安全性分類は，医療ビジョン・言語モデルの誤った信頼性を示す [cs.CV]目的：医療ビジョン・言語モデルにおける安全性評価方法の改善
- 医療分野におけるAIの活用が進む中で，その安全性と信頼性の確保が重要課題となっている。
- モデルの応答の一貫性が信頼性の指標として用いられるが，それが必ずしも妥当とは限らない。
- 画像への依存度を考慮した安全性評価手法を確立し，誤った信頼性を検出することを目的とする。
- 言い換えに対する一貫性が高いモデルでも，画像の内容に依存せず，テキストパターンのみに頼っている場合があることが示された。
- LoRAによるファインチューニングは，応答の変動率を低下させるものの，危険なサンプル（一貫性は高いが画像への依存度が低い）の割合を増加させる。
- 標準的な信頼性指標では検出できない危険なサンプルが存在し，テキストのみのベースライン評価との組み合わせが推奨される。
Link: https://arxiv.org/abs/2603.20985