arXiv雑要約

画像・音声 - 2026/03/23 公開

IUP-Pose：暗黙的な稠密アラインメントによるリアルタイム相対姿勢回帰のためのデカップルド反復不確実性伝播 [cs.CV]目的：リアルタイム相対姿勢回帰のための新しいフレームワーク
- SLAM，ビジュアルローカリゼーション，３D再構成等の分野において，相対姿勢推定は重要な役割を担う。
- 既存手法では，精度と計算コストの間でトレードオフが存在し，リアルタイム処理が困難である。
- 回転と並進の推定の結合，およびクロスビュー特徴のアラインメントの不十分さという問題点を解決する。
- 提案手法IUP-Poseは，MegaDepth1500データセットにおいて，AUC@20degで73.3%の精度を達成した。
- IUP-Poseは，完全なエンドツーエンド微分可能性と70 FPSのスループットを実現し，パラメータ数は37Mに抑えられた。
- 本手法は，エッジデバイスへのリアルタイム展開に適した，精度と効率性の好ましいトレードオフを示す。
Link: https://arxiv.org/abs/2603.19625
夜間UAV追跡のための二重プロンプト駆動特徴エンコーディング [cs.SI, cs.IR, cs.CV, cs.AI]目的：夜間UAV追跡におけるロバストな特徴エンコーディング手法
- UAV追跡は，監視やインフラ点検など多岐にわたる応用分野で重要性を増している。
- 既存の特徴エンコーディング手法は，夜間のような低照度環境や視点変化に対応できず，追跡性能が低下しやすい。
- 本研究は，照明や視点情報を考慮した特徴エンコーディングにより，夜間UAV追跡の課題を克服することを目的とする。
- 本研究では，プロンプトに基づいた特徴適応と文脈を考慮したプロンプト進化を統合する二重プロンプト駆動特徴エンコーディング手法を提案した。
- 提案手法は，マルチスケールな周波数領域の照明プロンプトを抽出することで，照明変化に対するロバスト性を向上させている。
- 実験結果から，提案手法が夜間UAV追跡において高い有効性を示すことが確認された。
Link: https://arxiv.org/abs/2603.19628
UniBioTransfer：複数の生体情報の転送のための統一的フレームワーク [cs.CV]目的：複数の生体情報転送タスクに対する統一的フレームワークの開発
- 顔画像処理技術は，セキュリティやエンターテインメントなど幅広い分野で重要性を増している。
- 従来の深層学習モデルはタスクごとに個別に学習するため，汎化性能や拡張性に課題があった。
- 本研究は，データ不足やタスク間の干渉を克服し，複数の顔画像生成タスクを単一モデルで効率的に処理することを目指す。
- UniBioTransferは，従来のタスク固有の手法や既存の統一モデルと比較して，様々な顔画像生成タスクで優れた性能を示すことが確認された。
- このフレームワークは，学習データが少ない状況でも，新しいタスクに対して少ない調整で高い汎化性能を発揮する。
- UniBioTransferは，空間的に動的な属性（髪など）に対する新しいデータ構築戦略と，タスク固有の知識を分離するBioMoEモデルにより，これらの課題を克服する。
Link: https://arxiv.org/abs/2603.19637
OmniDiT：拡散Transformerを全方向VTONフレームワークへ拡張 [cs.CV, cs.AI]目的：仮想試着と試着解除タスクを統合した統一モデルの構築
- 仮想試着技術は，オンラインショッピング体験を向上させる上で不可欠である。
- 既存手法では，細部の再現性，複雑なシーンへの汎化，処理パイプラインの複雑さ，推論速度が課題である。
- 本研究は，これらの課題を克服し，より高品質かつ効率的な仮想試着体験を実現することを目指す。
- 提案手法OmniDiTは，複雑なシーン下でモデルフリーおよびモデルベースのVTON/VTOFFタスクにおいて最先端性能を達成した。
- 自己進化型データキュレーションパイプラインと大規模データセットOmni-TryOnにより，多様で高品質な学習を可能にした。
- Shifted Window Attentionを拡散モデルに導入することで，計算効率を向上させ，生成品質を改善した。
Link: https://arxiv.org/abs/2603.19643
単一画像からのIMU重力事前知識のキャリブレーション：サンプルごとの確信度付き [cs.CV]目的：単一画像によるIMU重力事前知識のキャリブレーション
- 視覚慣性知覚，拡張現実，ロボティクスにおいて，重力推定は基盤技術である。
- 線形加速度，振動，過渡的な動き下ではIMU由来の重力事前知識は信頼性が低い。
- 単一画像からノイズの多い重力事前知識を修正する実用的な問題を解決すること。
- GravCalは，生の慣性事前知識に対して，平均角度誤差を22.02度から14.24度に低減することを示した。
- 特に事前知識が大きく歪んでいる場合に，改善効果が大きかった。
- 学習されたゲートは事前知識の品質と相関しており，下流システムに対する有用な信頼性シグナルとなり得る。
Link: https://arxiv.org/abs/2603.19654
CS-MUNet：多臓器セグメンテーションのためのチャネル・空間デュアルストリームMambaネットワーク [cs.CV]目的：腹部臓器セグメンテーションにおける新たなSSMモデリングパラダイム
- 医療画像解析の精度向上は，疾患の早期発見や治療効果の改善に不可欠である。
- 既存手法では，チャネル間の解剖学的意味的連携や境界を意識した特徴融合が不十分である。
- チャネル間の連携と境界を意識した特徴融合を同時に実現し，セグメンテーション精度を向上させる。
- CS-MUNetは，境界を意識した状態MambaモジュールとチャネルMamba状態集約モジュールを導入することで，既存手法を上回る性能を示した。
- 境界情報をSSMの状態遷移機構に埋め込み，グローバルとローカル構造表現間の相補的な変調を可能にした。
- 2つの公開ベンチマークにおいて，複数の指標で最先端手法を凌駕する一貫した結果が得られた。
Link: https://arxiv.org/abs/2603.19659
連続環境における意味的視覚聴覚ナビゲーション [cs.CV]目的：連続環境下での視覚聴覚ナビゲーションにおける目標達成性能の向上
- ロボットやAIエージェントの自律移動において，環境の理解と目標へのナビゲーションは重要な課題である。
- 従来のナビゲーション手法は，離散的な環境設定に依存し，現実世界での連続的な移動に対応できていない。
- 本研究では，連続空間での一貫性のある視覚聴覚情報を用いた，より現実的なナビゲーション環境を構築し，その課題を解決する。
- 提案手法MAGNetは，空間的・意味的目標表現を統合し，過去の文脈と自己運動情報を活用することで，目標に関する推論能力を向上させる。
- 実験結果から，MAGNetは既存手法を大きく上回り，成功率で最大12.1%の絶対的な改善を達成したことが示された。
- 短時間の音や長距離ナビゲーションといったシナリオにおいても，MAGNetの頑健性が確認された。
Link: https://arxiv.org/abs/2603.19660
高忠実度視覚再構成に向けて：EEG条件付き生成から共同モдал誘導再構築へ [cs.IR, cs.CV, cs.AI]目的：視覚刺激の忠実な再構成
- 脳活動から視覚情報を読み取る研究は，脳科学と画像処理の発展に不可欠である。
- 既存手法は，EEGとテキスト/画像の整合性を重視し，EEG特有の詳細情報を損失する傾向がある。
- EEG特有の情報を保持しつつ，多角的な特徴抽出とデータ拡張により再構成精度を向上させる。
- 提案手法JMVRは，THINGS-EEGデータセットにおいて，6つのベースライン手法を上回る最先端の性能を達成した。
- 特に，空間構造のモデリングと色再現度において優れた能力を示した。
- EEGとテキストを独立なモダルとして扱うことで，EEG特有の情報を効果的に保存し，高忠実度な視覚再構成を実現した。
Link: https://arxiv.org/abs/2603.19667
ユーザの意図に沿った動画生成：微調整による制御 [cs.CV]目的：動画生成におけるユーザ意図の適合性向上
- 近年のテキストから動画への生成モデルの発展に伴い，生成内容の制御が重要視されている。
- バウンディングボックスやレイアウトによる制御は一般的だが，入力への正確な適合が課題である。
- バウンディングボックスの微調整を通じて，生成品質と制御適合性の両立を目指す。
- ユーザ提供のバウンディングボックスをわずかに調整することで，生成品質と制御への適合性を改善できることが示された。
- 動画拡散モデルの内部アテンションマップとの整合性を最適化し，前景と背景のバランスを調整する手法が提案された。
- バウンディングボックスの位置の微小な変更が，生成品質に大きく影響することが確認された。
Link: https://arxiv.org/abs/2603.19672
DynFlowDrive：自律運転のためのフローベース動的ワールドモデリング [cs.CV, cs.RO]目的：自律運転システムの計画信頼性向上に向けたワールドモデルの提案
- 自律運転の安全性を高めるには，周囲環境を正確に理解し予測することが不可欠である。
- 既存のワールドモデルは，シーンの変化を捉えきれず，信頼性の高い行動計画が困難である。
- 多様な運転行動下でのシーン状態遷移をより正確にモデル化し，安全な行動計画を可能にすること。
- 提案手法DynFlowDriveは，フローベースのダイナミクスを用いてワールドモデルを構築し，運転行動に応じたシーン状態の遷移を学習する。
- 修正されたフローの定式化により，様々な運転行動下でのシーン状態の変化を記述する速度場を学習し，将来の状態を予測する。
- 安定性に着目した複数モードの軌道選択戦略により，安定したシーン遷移を誘導する候補軌道を評価する。
Link: https://arxiv.org/abs/2603.19675
ATHENA：拡散モデルにおける物体数の正確性を改善するための適応的テスト時ステアリング [cs.CV, cs.AI, cs.LG]目的：拡散モデルにおける物体数の正確性向上
- 画像生成技術は発展しているが，指定された物体数の制御には課題が残されている。
- 拡散モデルは高画質だが，プロンプトで指定された物体数を正確に再現できない場合がある。
- テスト時にモデルを調整し，生成過程で物体数を制御することで，正確性を向上させる。
- ATHENAは，モデルの再学習やアーキテクチャ変更なしに，テスト時に適応的にノイズを修正することで，物体数の正確性を改善する。
- 特に高い物体数を指定した場合において，既存のベンチマークや新しいデータセットで一貫して性能が向上する。
- 計算コストと精度を両立しており，様々な拡散モデルのバックボーンに適用可能である。
Link: https://arxiv.org/abs/2603.19676
視覚言語属性の分離と強化による生涯人物再識別 [cs.CV]目的：生涯人物再識別における知識転移と忘却抑制
- 人物再識別は，監視カメラなどからの映像を用いて個人を特定する技術であり，社会の安全確保に貢献する。
- 既存手法では，ドメイン間の知識転移が不十分であり，新しいドメインへの適応時に性能が低下しやすい。
- 視覚言語モデルを活用し，属性情報の分離と強化によって，知識転移を促進し，忘却を抑制することを目指す。
- 提案手法VLADRは，既存手法と比較して，忘却抑制能力で1.9%〜2.2%，汎化能力で2.1%〜2.5%の性能向上を達成した。
- VLADRは，画像からグローバルおよび多様なローカルテキスト属性を抽出するMulti-grain Text Attribute Disentanglementメカニズムを用いる。
- さらに，Inter-domain Cross-modal Attribute Reinforcementスキームにより，視覚属性の抽出を誘導し，ドメイン間属性のアラインメントを実現する。
Link: https://arxiv.org/abs/2603.19678
偏りのない動的マルチモーダル融合 [cs.CV]目的：マルチモーダルデータにおける最適な融合戦略
- 現実世界のデータはノイズや質が変動するため，動的な手法が重要である。
- 既存手法はノイズレベルの極端な状況や，初期のモダリティ依存バイアスを考慮していない。
- ノイズに強く，モダリティ間の依存関係を考慮した公平な融合を目指す。
- 提案手法は，制御されたノイズを用いてモダリティの特徴とノイズレベルの対応関係を学習する。
- モダリティのドロップアウトにより，ネットワーク内の固有の依存バイアスを定量化し，重み付け機構に組み込む。
- 多様なベンチマークタスクで，提案手法の有効性，汎用性，および一般化性能が確認された。
Link: https://arxiv.org/abs/2603.19681
自己制約事前知識を用いた高忠実度な表面再構成のための3Dガウススプラッティング [cs.CV]目的：3Dガウススプラッティングにおける高忠実度な表面再構成
- 3Dモデルの表現において，写実的なレンダリングは重要であり，その効率性と品質が求められている。
- 既存の3Dガウススプラッティングは高速だが，表面の忠実度を向上させる余地があった。
- より正確な奥行きレンダリングを実現するため，3Dガウスの学習を制約する事前知識を導入し，表面再構成の精度向上を目指す。
- 提案手法では，現在の3Dガウスでレンダリングされた深度マップから得られるTSDFグリッドを用いて自己制約事前知識を導出する。
- この事前知識は，表面を中心に帯状の距離場を測定し，帯域外のガウス除去，表面近傍への移動，ジオメトリを考慮した不透明度の調整を行う。
- 最新の深度画像で事前知識を定期的に更新し，帯域を狭めることで制約を強化し，最先端手法を上回る性能を実証した。
Link: https://arxiv.org/abs/2603.19682
TSegAgent：幾何学的知識を組み込んだ視覚言語エージェントによるゼロショット歯分割 [cs.CV]目的：ゼロショット歯分割の実現
- デジタルデンティストリーにおいて，歯の自動分割・識別は不可欠な技術である。
- 既存手法は，高コストなアノテーションと，未知データへの汎化性能の低さが課題である。
- 幾何学的知識を利用し，データ依存性を低減することで汎化性能向上を目指す。
- 提案手法TSegAgentは，タスク固有の学習なしに，高精度な歯分割・識別を可能にする。
- 視覚的抽象化と幾何学的推論を組み合わせることで，不確実性を低減し，過学習を防ぐ。
- 多様な歯科スキャンデータに対し，低い計算コストとアノテーションコストで高い汎化性能を示す。
Link: https://arxiv.org/abs/2603.19684
人口統計を考慮した自己教師あり異常検知事前学習：稀な心臓診断の公平性の実現に向けて [cs.CL, cs.IR, cs.CV]目的：稀な心臓異常の公平性のある診断
- 心電図は心臓異常の診断に不可欠だが，稀な異常はデータ不足により検出が困難である。
- 診断性能に人口統計学的偏りが存在し，医療格差を生む可能性がある。
- 多様な集団における診断精度を向上させ，医療格差を軽減することを目指す。
- 提案手法は，稀な心臓異常に対するAUROCで94.7%を達成した。
- 一般的な異常と稀な異常の性能差を73%削減し，公平性を高めた。
- 年齢や性別に関わらず，一貫した診断精度を維持した。
Link: https://arxiv.org/abs/2603.19695
後悔分析に基づくスリーピング競合バンディット [cs.HC, cs.LG, cs.GT]目的：スリーピング競合バンディット問題に対する後悔分析
- オンライン学習とゲーム理論を融合させた分野であり，資源配分やマッチング問題への応用が期待される。
- 従来のモデルでは，参加者と選択肢の利用可能性が常に一定であるという制約があった。
- 参加者と選択肢の利用可能性が時間とともに変化する状況に対応するモデルを構築し，その最適解を追求する。
- 提案アルゴリズムは，Nがプレイヤー数，Kが選択肢数，Tiが各プレイヤーのラウンド数，Δが最小報酬差であるとき，漸近的な後悔限界O(NKlogTi/Δ2)を達成する。
- 同様の仮定の下で，後悔下限Ω(N(K-N+1)logTi/Δ2)も示す。
- 選択肢数Kがプレイヤー数Nよりも大きい場合，提案アルゴリズムは漸近的に最適である。
Link: https://arxiv.org/abs/2603.19700
2グループ間における公平な学校区再編 [cs.GT, cs.DS]目的：公平な学校区再編計画の存在と効率的な探索
- 生徒の構成比を考慮した学校区再編は，教育機会の公平性に関わる重要な課題である。
- グループ間の公平性を保証する再編計画の作成は，計算量的に困難である場合が多い。
- 2グループ間の学校区再編において，緩い制約下での公平性の実現可能性を検証する。
- 本研究では，各学校での定員超過を1まで許容する「1-緩和された羨望フリー性」を導入した。
- 2グループの場合，必ず1-緩和された羨望フリーな再編計画が存在することを示した。
- 提案手法は多項式時間で実行可能であり，実用的な再編計画の作成に貢献する可能性がある。
Link: https://arxiv.org/abs/2603.19701
WorldAgents: 基盤画像モデルは3Dワールドモデルのエージェントとなり得るか [cs.CV]目的：2D基盤画像モデルに内在する3Dワールドモデルの能力の評価
- 画像認識技術は，ロボット工学や自動運転など，様々な分野で重要な役割を担う。
- 既存の3Dワールドモデル構築は，計算コストが高く，現実世界の複雑さを捉えるのが困難である。
- 2D画像モデルの潜在的な3D理解を活用し，効率的な3Dワールドモデルの構築を目指す。
- 2D基盤画像モデルが3Dワールドに関する理解を有することが示された。
- 提案手法であるエージェント的フレームワークが，一貫性のあるロバストな3D再構成を可能にした。
- 生成されたシーンは新しい視点から探索可能であり，広大でリアル，かつ3D的に整合性がある。
Link: https://arxiv.org/abs/2603.19708
BALM：不均衡な欠損率下でのバランスの取れたマルチモーダル学習のためのモデル非依存フレームワーク [cs.CV]目的：不均衡な欠損率下におけるバランスの取れたマルチモーダル学習
- マルチモーダル学習は，多様な情報源を活用し，より高度な認識能力を実現する上で重要である。
- 欠損率が不均衡な場合，情報量の多いモダリティが最適化を支配し，他のモダリティの学習が阻害される。
- 多様な欠損パターン下でもロバストで高性能なマルチモーダル学習を可能にすること。
- 提案手法BALMは，特徴校正モジュールと勾配再調整モジュールにより，モダリティ間の学習バランスを改善する。
- BALMは様々なバックボーンモデルに容易に組み込むことができ，アーキテクチャを変更する必要がない。
- 実験結果から，BALMが多様な欠損・不均衡設定下でロバスト性と性能を向上させることが確認された。
Link: https://arxiv.org/abs/2603.19718
PerformRecast：ポートレート動画編集における表情と頭部姿勢の分離 [cs.HC, cs.CV]目的：ポートレート動画の表情のみ編集する手法
- アニメーションや映画業界において，動画の表情編集は重要な役割を担っている。
- 既存研究では，表情と頭部姿勢の分離が難しく，独立した表情編集が困難である。
- 本研究は，より細やかな表情制御を可能にする分離手法を確立する。
- 提案手法PerformRecastは，3DMMの特性を活用し，表情と頭部姿勢を効果的に分離する。
- 顔と非顔領域を分離し，教師モデルによる個別指導により，生成画像のずれを抑制する。
- 実験結果から，PerformRecastは既存手法と比較して，制御性と効率において優れていることが示された。
Link: https://arxiv.org/abs/2603.19731
MOSS-TTSD：テキストからの対話生成 [cs.SD, cs.AI, cs.CL]目的：対話の音声生成
- ポッドキャスト等，多様なコンテンツ制作において，対話の音声生成技術の重要性が高まっている。
- 従来の音声合成技術では，対話の文脈や複数話者間の整合性を維持することが困難であった。
- 長時間の対話や複数話者間の自然な音声合成を可能にすること。
- MOSS-TTSDは，最大60分間の単一パス合成，最大5話者までの多者対話，短い音声サンプルからのゼロショットボイスクローニングをサポートする。
- 提案手法は，英語および中国語を含む複数の言語に対応し，様々な長尺シナリオに適応可能である。
- 客観評価および主観評価の結果から，MOSS-TTSDが既存のベースラインを上回る対話生成性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.19739
PhysNeXt：遠隔光容量波測定のための次世代二分岐構造化注意融合ネットワーク [cs.CL, cs.HC, cs.CV]目的：遠隔光容量波測定における高精度な脈波信号抽出
- 非接触で心拍数やバイタルサインを計測できるため，ヘルスケア分野での応用が期待される。
- 動きのアーティファクトや照明の変化がノイズとなり，正確な脈波信号の抽出が課題である。
- 動画と空間-時間マップの利点を融合し，ロバストな脈波信号抽出を実現することを目指す。
- PhysNeXtは，動画と空間-時間マップを同時に活用することで，より安定した脈波信号の回復を可能にした。
- 空間-時間差モデリングユニット，クロスモーダル相互作用モジュール，構造化注意ベースのデコーダーが協調して機能する。
- 困難な条件下でも，PhysNeXtは微細な脈波信号を効果的に回復し，その有効性が確認された。
Link: https://arxiv.org/abs/2603.19752
ReLi3D：解きほぐされた照明による再照明可能なマルチビュー3D再構成 [cs.CV, cs.GR]目的：マルチビュー画像からの3D形状，物理ベースのマテリアル，環境照明の同時再構成
- 3Dコンテンツの作成は，メタバースやVR/ARなど，様々な分野で重要性が増している。
- 従来の3D再構成は，形状，マテリアル，照明を別々に処理するため，計算コストが高いという課題があった。
- 少ない画像から，高速かつ正確に3Dモデルと照明環境を同時に再構成することを可能にする。
- ReLi3Dは，マルチビュー制約を利用することで，単一画像からの再構成における照明とマテリアルの分離問題を解決した。
- Transformerと二つの予測パスを用いることで，オブジェクトの構造と環境照明を同時に予測する，統一されたパイプラインを構築した。
- 合成データと実写データを用いた学習により，形状，マテリアル，照明の精度において汎用的な結果を達成した。
Link: https://arxiv.org/abs/2603.19753
少数のサンプルを用いた点群セグメンテーションにおける不確実性を考慮したプロトタイプ学習 [cs.CV, cs.AI]目的：少数のサンプルを用いた3Dセマンティックセグメンテーションにおける正確なセマンティックマスクの生成
- 3次元点群のセグメンテーションは，ロボティクスや自動運転など幅広い分野で重要性が増している。
- 教師データが少ない状況下では，既存のプロトタイプベースの手法は汎化性能が課題となる。
- 本研究は，不確実性を考慮することで，少数のサンプルでもロバストなセグメンテーションを実現する。
- 提案手法UPLは，サポート点群とクエリ点群の両方の情報を活用し，プロトタイプ表現を強化する二重ストリームプロトタイプ洗練モジュールを導入している。
- プロトタイプ学習を変分推論問題として定式化することで，不確実性の明示的なモデル化を可能にし，信頼性の高いマスク予測を実現している。
- ScanNetおよびS3DISベンチマークにおける実験により，UPLが様々な設定で最先端の性能を達成し，信頼性の高い不確実性推定を提供することが示された。
Link: https://arxiv.org/abs/2603.19757
自律的剪定によるネットワークの成長 [cs.CV, cs.LG]目的：画像分類のためのネットワーク構造最適化
- 深層学習モデルの性能向上には，より大規模なネットワークが必要不可欠である。
- 大規模モデルは計算コストが高く，メモリ消費量も膨大であるという課題がある。
- 少ないパラメータで高精度なモデルを構築し，効率的な学習を実現することを目指す。
- 提案手法GNAPは，ネットワークの成長と自律的な剪定を組み合わせることで，スパースなネットワークを学習可能である。
- MNISTデータセットにおいて，わずか6.2kパラメータで99.44%の精度を達成した。
- CIFAR10データセットにおいても，157.8kパラメータで92.2%の精度を達成し，高い性能を示した。
Link: https://arxiv.org/abs/2603.19759
PCSTracker：点群系列における長期的シーンフロー推定 [cs.NI, cs.CV]目的：点群系列の長期的かつ詳細な3次元運動解析
- 3次元空間の理解は，自動運転やロボティクス等，様々な応用分野において不可欠である。
- 既存手法はペアワイズ処理に限定され，長期間の系列における一貫性を維持することが困難である。
- 動的な幾何学的変化やオクルージョンに対応し，長期的一貫性を保つシーンフロー推定を実現する。
- 提案手法PCSTrackerは，点群系列のシーンフロー推定に特化した初のエンドツーエンドフレームワークである。
- 反復幾何運動結合最適化モジュール（IGMO）と時空間点軌跡更新モジュール（STTU）により，一貫性のある推定を実現した。
- PointOdyssey3DおよびADT3Dデータセットにおける実験で，高い精度とリアルタイム性能（32.5 FPS）を示した。
Link: https://arxiv.org/abs/2603.19762
FREAK：高度なMLLMに対する詳細な幻覚評価ベンチマーク [cs.CV]目的：高度なMLLMにおける詳細な幻覚評価
- MLLMの性能向上に伴い，その信頼性評価が重要となっている。
- 既存の評価ベンチマークは簡略化されすぎているか，多様性に欠けている。
- MLLMの視覚的知覚における詳細な幻覚現象を評価すること。
- FREAKは，ファインチューニングされた反常識的な編集を加えた高品質な画像を用いて，MLLMの詳細な視覚知覚における幻覚を評価する。
- 実験の結果，最先端モデルにおいても詳細な視覚知覚に関して深刻な幻覚問題が存在することが示された。
- CoTプロンプティング技術の評価を通じて，幻覚パターンとモデルの推論プロセスに関する重要な知見が得られた。
Link: https://arxiv.org/abs/2603.19765
ヒストロジー画像からの空間遺伝子発現生成のための事前学習済みシングルセル基盤モデルの適応 [cs.CV]目的：ヒストロジー画像からの空間遺伝子発現生成
- 空間トランスクリプトミクスは重要だが，高コストでスループットが限られる。
- 既存の生成モデルは遺伝子間の依存関係を明示的にモデル化していない場合がある。
- 事前学習済みシングルセル基盤モデルをヒストロジー画像に適応させる。
- 提案手法 HINGE は，事前学習済みシングルセル基盤モデルを条件付き発現生成器に改良する。
- SoftAdaLN により，視覚的コンテキストを層ごとに注入し，遺伝子関係を維持する。
- 3つの空間トランスクリプトミクスデータセットで，最先端のベースラインよりも優れた性能を示した。
Link: https://arxiv.org/abs/2603.19766
フラッシュキャプ：フラッシングLEDとイベントベースビジョンによるミリ秒単位の正確な人体モーションキャプチャ [cs.CV]目的：正確なモーションタイミングの実現
- スポーツ競技など，迅速な動きの分析には正確なモーションタイミングが不可欠である。
- 高精度なモーションタイミングのための高品質なデータセットが不足している。
- フラッシングLEDとイベントベースビジョンを用いた，低コストで使いやすいモーションキャプチャシステムの構築。
- FlashCapシステムとFlashMotionデータセットを開発し，ミリ秒単位のモーションタイミングの取得を可能にした。
- 提案手法ResPoseは，既存手法と比較して姿勢推定誤差を約40%削減し，ミリ秒レベルのタイミング精度を実現した。
- イベントとRGB画像に基づく残差姿勢学習により，高解像度の姿勢推定を可能にした。
Link: https://arxiv.org/abs/2603.19770
基礎モデルを用いたテンプレートベースの物体検出 [cs.CL, cs.CV]目的：テンプレートに基づく物体検出手法
- 自動化の進展に伴い，GUIテストの効率化が求められている。
- 学習ベースの物体検出はデータセットが必要であり，変更に弱い。
- 学習データや学習処理を不要にし，GUIテストを効率化する。
- セグメンテーション基礎モデルと特徴量ベースの分類を組み合わせた手法を提案した。
- 本手法は，学習ベースの物体検出手法（YOLO等）と同程度の性能を，学習なしで実現した。
- 自動車業界におけるナビゲーションマップのアイコン検出・分類に適用し，GUIテストの自動化を支援する。
Link: https://arxiv.org/abs/2603.19773
LLMを用いた画像編集の評価：包括的なベンチマークと中間層プローブ手法 [cs.CV]目的：テキスト指示による画像編集手法の系統的な評価
- 画像編集技術は，創造的なタスクから実用的なアプリケーションまで，幅広い分野で重要性が増している。
- 既存の評価指標は規模が限られており，人間の知覚的判断との相関が弱いという課題がある。
- より信頼性が高く，知覚に合致した画像編集手法の評価方法を確立すること。
- 大規模なデータセットTIEditとLLMベースの評価器EditProbeを開発し，画像編集の評価に新たな基盤を提供した。
- 従来の自動評価指標と異なり，EditProbeは人間の知覚との強い相関を示すことが実験的に確認された。
- TIEditは512枚の画像と8つの編集タスク，10個の最先端モデルによる5120枚の編集画像を含む大規模なベンチマークである。
Link: https://arxiv.org/abs/2603.19775
単眼カメラによる3次元車線検出のためのリーマン多様体ネットワーク [cs.CV]目的：単眼カメラ画像からの3次元車線検出の性能向上
- 自動運転や高度な運転支援システムにおいて，周囲環境の正確な3次元認識は不可欠である。
- 単眼カメラによる3次元車線検出は，奥行き情報の曖昧さと弱い幾何学的制約により困難である。
- リーマン多様体を用いた幾何学的表現と，それに対応する損失関数によって，よりロバストな3次元車線検出を目指す。
- 提案手法ReManNetは，リーマン幾何学的な記述子を用いて幾何情報を効率的に符号化し，視覚特徴と融合することで，一貫性のある3次元推論を可能にする。
- 新たな損失関数3D-TLIoUは，車線形状のレベルでのアライメントを改善し，点と曲線の両方を考慮した評価を行う。
- OpenLaneベンチマークにおいて，ReManNetはベースラインと比較してF1スコアを+8.2%向上させ，既存の最高性能手法を+1.8%上回った。
Link: https://arxiv.org/abs/2603.19776
単一モデル，二つの思考：タスク条件付き推論による統合的な画像品質と美的評価 [cs.CE, math.ST, stat.TH, cs.CV]目的：画像品質評価と美的評価を統合した単一のマルチモーダル大規模言語モデルの構築
- 画像処理技術の発展に伴い，画像品質と美的評価の自動化が求められている。
- 既存手法では，画像品質評価と美的評価に対して同一の推論戦略が用いられ，最適な結果が得られていない。
- タスクに応じた推論戦略と報酬関数を用いることで，画像品質評価と美的評価の精度向上を目指す。
- 提案手法TATARは，画像品質評価では簡潔な知覚的根拠，美的評価では詳細な美的説明を用いることで，タスクに応じた推論を可能にする。
- TATARは，SFT+GRPO学習と非対称報酬を用いることで，タスク固有の行動パターンを確立し，安定した学習を実現する。
- 8つのベンチマークにおける実験により，TATARは既存の統合的な手法と比較して，画像品質評価と美的評価の両方で優れた性能を示した。
Link: https://arxiv.org/abs/2603.19779
弱学習ビデオ異常検知のためのデカップルド感度一貫性学習 [cs.CV]目的：弱学習ビデオ異常検知における感度と一貫性の学習
- ビデオ監視技術の発展に伴い，異常行動の自動検知の需要が高まっている。
- 既存手法は，一時的な異常と持続的な異常の検出間でトレードオフが生じやすい。
- 感度と一貫性を分離することで，よりバランスの取れた異常検知を目指す。
- 提案手法DeSCは，2つのストリームを分離して最適化することで，高頻度な変化と長期的一貫性を捉える。
- UCF-CrimeデータセットでAUC 89.37%を達成し，既存手法を1.29%上回る性能を示した。
- XD-Violenceデータセットでは，AP 87.18%を達成し，2.22%の性能向上を記録した。
Link: https://arxiv.org/abs/2603.19780
階層的直交プロトタイプ学習による汎化Few-Shot 3D点群セグメンテーション [cs.CV, cs.AI]目的：汎化Few-Shot 3D点群セグメンテーションにおける性能向上
- 3D点群セグメンテーションは，ロボティクスや自動運転などの分野で重要である。
- Few-Shot学習では，新しいクラスへの適応と既存クラスの知識維持のバランスが課題である。
- 新しいクラスへの適応時の既存クラスの忘却を抑制し，汎化性能を高めることを目指す。
- 提案手法HOP3Dは，階層的直交プロトタイプ学習とエントロピーに基づく正則化を導入する。
- HOP3Dは，勾配と表現レベルで基盤クラスと新規クラスの学習を分離し，干渉を軽減する。
- ScanNet200およびScanNet++での実験により，既存手法を上回る性能が確認された。
Link: https://arxiv.org/abs/2603.19788
妥当性から検証可能性へ：リスク制御型生成OCR（視覚言語モデル向け） [cs.CV]目的：視覚言語モデルを用いた生成OCRにおけるリスク軽減
- 視覚言語モデルは画像認識と自然言語処理を統合し，様々な応用を可能にする重要な技術である。
- 生成OCRは，生成されるテキストの妥当性を優先するため，視覚的な根拠や幾何学的な検証が不十分になりやすい。
- 視覚言語モデルの生成OCRにおけるリスクを制御し，信頼性の高いテキスト認識を実現することを目指す。
- 提案手法である幾何学的リスクコントローラーは，複数の視点から入力を分析し，構造的な一貫性と安定性を評価する。
- このコントローラーにより，極端なエラーリスクや過剰な生成を抑制し，予測可能な範囲で認識カバレッジを調整できる。
- 凍結された視覚言語モデルにおいても，システムレベルでのリスク制御が，信頼性の高い生成OCR展開に不可欠である。
Link: https://arxiv.org/abs/2603.19790
モジュール化された身体部位の位相制御による制御可能なテキストからモーション生成 [cs.RO, cs.CV]目的：テキストからモーション生成における，特定の身体部位の制御
- アニメーションやインタラクティブアバターの作成において，モーション生成の需要が高まっている。
- モーション全体の整合性を保ちながら，特定の身体部位を修正することが難しい。
- 使いやすく反復的な修正を可能にする，コンパクトな位相インターフェースによる制御を目指す。
- 本手法は，振幅，周波数，位相シフト，オフセットによって特徴付けられる正弦波位相信号として身体部位の潜在的なモーションチャネルをモデル化する。
- モジュール化されたPhase ControlNetブランチを介してこの信号を注入することで，生成バックボーンから制御をシームレスに分離する。
- 拡散モデルとフローベースモデルの両方において，モーションの大きさ，速度，タイミングを予測可能かつきめ細かく制御できることが示された。
Link: https://arxiv.org/abs/2603.19795
国境のない長尺音声合成 [eess.SY, cs.RO, cs.SY, cs.SD, cs.CL, eess.AS]目的：長尺音声合成の枠組み
- 人間らしい自然な対話を実現するためには，文脈や感情を考慮した音声合成が不可欠である。
- 従来の音声合成システムは，文脈理解や感情表現が不十分であり，自然な長尺対話の実現が困難である。
- 文脈を理解し，感情表現が可能な，より自然な長尺音声合成システムの開発を目指す。
- 本研究では，VoiceDesigner，多話者合成，Instruct TTS，長文テキスト合成を統合した「国境のない長尺音声合成」フレームワークを提案した。
- 「ラベリングをフィルタリング/クリーニングよりも優先する」戦略と，Global-Sentence-Tokenと呼ばれる多層アノテーションスキーマを導入した。
- Chain-of-Thought推論やDimension Dropoutを導入することで，複雑な条件下での指示応答性が大幅に向上した。
Link: https://arxiv.org/abs/2603.19798
顕微鏡におけるピクセルとオブジェクト分類のためのビジョンファウンデーションモデルの評価 [cs.CV]目的：顕微鏡画像におけるピクセル分類とオブジェクト分類の改善
- 生物医学画像解析において，深層学習の活用が不可欠であり，その発展が求められている。
- 大規模な事前学習データセットの不足や計算コストの問題から，ピクセル・オブジェクト分類では浅い学習が主流である。
- ビジョンファウンデーションモデルの有効性を検証し，分類性能向上への道筋を示す。
- 汎用およびドメイン特化型のVFMsを評価した結果，手作りの特徴量と比較して一貫した性能向上が見られた。
- VFMsを用いることで，計算効率とラベル効率の課題を克服し，実用的な改善が可能となることが示された。
- 本研究は，顕微鏡におけるVFMsのベンチマークを確立し，今後の発展に貢献する。
Link: https://arxiv.org/abs/2603.19802
セマンティックに基づいた教師あり学習による統一マルチモーダルモデルの性能向上 [cs.CV, cs.AI]目的：統一マルチモーダルモデルにおける粒度ミスマッチと教師信号の冗長性の解消
- マルチモーダルな情報理解と生成を統合するモデルの重要性が高まっている。
- 既存の生成学習法には，粒度のミスマッチや教師信号の冗長性といった課題がある。
- テキストに沿った領域への集中と，より密な関係性の学習を促すことで性能向上を目指す。
- SeGroSは，GenEval，DPGBench，CompBenchにおける評価で，様々なUMMアーキテクチャにおいて生成の忠実性とクロスモーダルな整合性を大幅に向上させた。
- 提案手法では，テキストプロンプトの疎性を補完するセマンティックな視覚的ヒントを導入する。
- さらに，マスキングベースのUMMの教師あり学習を強化するため，セマンティックに基づいた破損入力を生成する。
Link: https://arxiv.org/abs/2603.19807
HUGE-Bench：高レベルUAVビジョン-言語-行動タスクのためのベンチマーク [cs.CV]目的：高レベルUAVビジョン-言語-行動タスクの評価
- UAVの自律飛行は，災害対応やインフラ点検など，様々な分野での活用が期待されている。
- 既存のベンチマークは詳細な経路指示に偏り，簡潔な指示への対応や安全性を評価しにくい。
- 簡潔な言語指示に基づいた複雑な行動の実行と安全性の確保を目指す。
- HUGE-Benchは，現実世界のデジタルツイン環境を4つ，高レベルなタスクを8つ含み，計256万メートルの軌跡データを提供する。
- このベンチマークは，プロセス遂行度，終端精度，安全性を評価するための新たな指標を導入している。
- 既存のモデル実験から，高レベルな意味理解と安全な実行において課題が残ることが明らかになった。
Link: https://arxiv.org/abs/2603.19822
フーリエスプラッティング：スケーラブルなラディアンスフィールドのための一般化されたフーリエ符号化プリミティブ [cs.CE, physics.app-ph, physics.bio-ph, cs.RO, cs.CV]目的：ラディアンスフィールドレンダリングのためのスケーラブルなプリミティブ
- 近年，リアルタイムレンダリング技術が発展し，高品質な映像生成が求められている。
- 既存手法では，品質を維持するためにはプリミティブ数を増やす必要があり，計算コストが高い。
- 任意の形状のプリミティブを用いて，詳細度を動的に調整可能なレンダリング手法を開発する。
- フーリエスプラッティングは，フーリエ符号化記述子を持つ平面サーフェルをプリミティブとして使用し，スケーラビリティを実現した。
- 学習済みモデルを，実行時にフーリエ係数を切り捨てるだけで，異なるレベルのディテールでレンダリングできる。
- 標準ベンチマークにおいて，最先端の平面プリミティブフレームワークと同等のレンダリング品質と知覚指標を達成した。
Link: https://arxiv.org/abs/2603.19834
適応的多様相MRI脳腫瘍セグメンテーションのためのハイパーコネクション [cs.CG, cs.RO, cs.CY, cs.CL, cs.HC, cs.CV]目的：多様相MRI脳腫瘍セグメンテーションにおけるハイパーコネクションの有効性検証
- 脳腫瘍の早期発見と正確な診断は，治療計画の精度向上に不可欠である。
- 多様相MRI画像の解釈は複雑であり，セグメンテーションの精度向上が課題である。
- 多様相MRI画像における特徴融合を改善し，セグメンテーション精度を高めることを目指す。
- ハイパーコネクションは，5つの異なるアーキテクチャにおいて一貫して3Dモデルの性能を向上させた。
- Dice係数の平均で最大1.03%の改善が見られ，特に腫瘍増強領域の境界描画が向上した。
- ハイパーコネクションは，臨床的に重要なシーケンスに対するモデルの感度を高め，固定接続のベースラインとは異なる振る舞いを示した。
Link: https://arxiv.org/abs/2603.19844
深層学習 기반オンラインマッピングの故障モード：測定と対応方法 [cs.CV, cs.AI, cs.LG]目的：深層学習 기반オンラインマッピングの故障モードの特定と定量化
- 自動運転技術の発展には不可欠だが，環境への汎化性能が課題となっている。
- 既存手法では，故障の原因を特定・分離することが困難であった。
- 入力特徴の記憶と既知の地図形状への過学習という2つの要因を分離し，定量化する。
- 提案フレームワークにより，地理的近接性と幾何学的類似性を制御した評価サブセットを用いて，故障モードを特定・測定した。
- Fr\'echet距離に基づく再構成統計量と，局所化過学習スコア，地図形状過学習スコアを導入し，故障モードを定量化した。
- MSTベースの疎化戦略により，トレーニングデータの冗長性を削減し，汎化性能の向上を示した。
Link: https://arxiv.org/abs/2603.19852
FoleyDirector：構造化スクリプトによるビデオからの音声生成におけるきめ細かい時間制御 [cs.SD, cs.CV]目的：ビデオからの音声生成における時間的制御の精度向上
- 映像と音響の同期は，メディア体験において不可欠であり，その重要性は高い。
- 既存手法では，複雑なシーンや視覚情報が不十分な場合に時間制御が困難である。
- より表現豊かで制御可能な音声生成を実現するため，時間制御の精度向上を目指す。
- FoleyDirectorは，DiTベースのV2A生成において，高精度な時間的ガイダンスを実現した。
- 構造化時間スクリプト（STS）の導入により，時間情報を効果的に活用し，音声品質を維持した。
- Bi-Frame Sound Synthesisにより，複雑なマルチイベントシーンにおける制御性が向上した。
Link: https://arxiv.org/abs/2603.19857
IsoCLIP：CLIPプロジェクターの分解による効率的なモダリティ内アライメント [cs.RO, cs.MA, cs.CV, cs.LG]目的：CLIPモデルにおけるモダリティ内アライメントの改善
- 画像とテキストの理解を組み合わせるVision-Languageモデルは，多様な応用で重要性が増している。
- CLIPのようなモデルを単一モダリティのタスクに適用した場合，モダリティ内アライメントが不十分になるという課題がある。
- プロジェクターの構造を分析し，モダリティ内アライメントを改善することで，効率性と性能向上を目指す。
- プロジェクター内の演算子を分析した結果，モダリティ間アライメントとモダリティ内正規化の役割が分離されていることが示された。
- 等方性部分空間の抽出により，モダリティ間の良好なアライメントが確認され，異方性方向の除去がアライメント改善に繋がることが示された。
- 提案手法は，学習を必要とせず，遅延を低減し，既存手法を上回る性能を複数のCLIPモデルで実現した。
Link: https://arxiv.org/abs/2603.19862
MedQ-Engine：医療画像品質評価におけるMLLMを進化させるための閉ループデータエンジン [cs.CV]目的：医療画像品質評価のためのMLLM進化を促進する閉ループデータエンジンの提案
- 臨床AIの導入には不可欠だが，現在のMLLMは専門家レベルに達していない
- 詳細なアノテーションのコストが高く，一度限りのデータ収集ではモデルの弱点に対応できない
- データ駆動型クラスタリングによる弱点発見と，効率的なアノテーションによる継続的な改善を目指す
- MedQ-Engineは，80億パラメータのモデルをGPT-4oを13%以上上回る性能に向上させた
- 人間の専門家との性能差をわずか4.34%にまで縮小することに成功した
- 10,000件のアノテーションで，ランダムサンプリングの4倍以上のサンプル効率を達成した
Link: https://arxiv.org/abs/2603.19863
SIMPLER：地球観測のための類似度に基づく層プルーニングによる効率的な基盤モデル適応 [cs.NI, cs.CV]目的：地球観測用基盤モデル適応における効率化
- 地球観測は気候変動，環境モニタリング等に不可欠であり，高精度な解析が求められる。
- 基盤モデルのファインチューニングは計算コストが高く，実用上の課題となっている。
- 事前プルーニングにより，計算資源の制約下でも実用的なモデル構築を目指す。
- SIMPLERは，事前データを用いた層ごとの表現類似度を計算し，冗長な層を自動的に特定する。
- Prithvi-EO-2データセットで，最大79%のパラメータを削減しつつ，ベースライン性能の94%を維持した。
- 学習速度が2.1倍，推論速度が2.6倍向上し，TerraMindやImageNet事前学習済ViT-MAEでも有効性が確認された。
Link: https://arxiv.org/abs/2603.19873
人間のように学習する：類推的概念学習による汎化カテゴリ検出 [cs.IR, eess.SY, cs.SY, cs.HC, cs.RO, cs.CV, cs.AI]目的：汎化カテゴリ検出における，新たなカテゴリの発見と既存カテゴリの認識維持
- データから新たなカテゴリを発見することは，AIの汎化能力向上に不可欠である。
- 既存の手法では，細粒度なカテゴリの識別が脆弱であり，境界が曖昧になりやすい。
- ラベル付き知識からの類推により，未知データに対するカテゴリ分離を明確にすること。
- 本研究で提案するATCGモジュールは，既存の汎化カテゴリ検出パイプラインに容易に組み込むことができる。
- ATCGは，視覚的特徴とテキスト情報を融合させ，知識の転移とカテゴリ分離の精度向上を実現する。
- 6つのベンチマークにおいて，ATCGは全体的な性能，既知クラス，新規クラスの性能を安定的に向上させた。
Link: https://arxiv.org/abs/2603.19918