arXiv雑要約

画像・音声 - 2026/04/06 公開

効率的かつ高精度な描画のための二重パラメータ化による微分可能なストローク計画 [cs.CV]目的：効率的で高精度な描画を実現するためのストローク計画手法
- デジタルアート制作において，ストロークベースのレンダリングは重要な役割を担う。
- 従来のストローク配置は局所最適解に陥りやすく，微分可能な最適化は構造的な認識に欠ける。
- 離散的なストロークと連続的なベジェ曲線制御点を組み合わせ，構造的整合性と最適化効率を両立させる。
- 本手法は，ストローク数を30-50%削減し，より構造的なレイアウトを実現する。
- 再構成品質を向上させながら，既存の微分可能なベクトル化手法と比較して最適化時間を30-40%短縮する。
- ガウススプラッティングにヒントを得た初期化により，画像全体でのストローク最適化を高度に並列化する。
Link: https://arxiv.org/abs/2604.02752
DeCo-DETR：効率的なオープンボキャブラリ物体検出のための分離認知DETR [cs.CV]目的：オープンボキャブラリ物体検出における効率性と性能の向上
- 物体検出技術は，画像認識の基礎であり，自動運転やロボティクス等，幅広い分野で不可欠である。
- 既存のオープンボキャブラリ物体検出は，計算コストが高いか，汎化性能と精度にトレードオフが存在する。
- 事前学習済みのLVLMから生成された領域レベル記述を用いて，効率的かつ再利用可能な意味表現を構築し，検出の精度と効率を両立する。
- DeCo-DETRは，オンラインテキストエンコーディングへの依存を避け，効率的な意味表現を構築することで，推論速度を大幅に向上させた。
- 分離された学習戦略により，意味推論と局所化を分離し，閉じたセット検出の精度とオープンワールドの汎化性能の間のトレードオフを解消した。
- 標準的なOVODベンチマークにおいて，競争力のあるゼロショット検出性能を達成し，スケーラブルなOVODシステムの実現に向けた方向性を示した。
Link: https://arxiv.org/abs/2604.02753
信頼性の低いシグナルを用いた最適価格設定 [cs.GT, cs.DS]目的：AI支援意思決定やLLM予測の利用増加に触発された，信頼性の低い顧客情報に基づく単一バイヤーの価格設定問題
- AIやLLMの活用が進む中，意思決定の質を左右する情報の信頼性評価が重要になっている。
- 価格設定において，売り手は顧客の評価に関する不確実性と，情報自体の信頼性という二重の不確実性に直面する。
- 情報の信頼性に関する非対称性が存在する状況下で，最適な価格設定メカニズムを明らかにすること。
- 一貫性（正確なシグナル下での性能）と堅牢性（幻覚的なシグナル下での性能）のトレードオフを特徴付けるパレート最適解を導出した。
- 信頼性の低いシグナルを秘匿することが価値を生み出し，公開シグナルベンチマークを厳密に上回るトレードオフを実現することを示した。
- 完全な一貫性を維持しつつ，意味のある幻覚に対する保護（ロバストネスの保証）を実現するメカニズムが存在することを示した。
Link: https://arxiv.org/abs/2604.02758
逆ドレーピング：BoxMeshブリッジングによる3D衣服表面からの縫製パターン復元 [cs.CV]目的：3D衣服表面からの縫製パターン復元
- 人体デジタル化研究において，衣服の3Dモデルから縫製パターンを復元することは重要である。
- 既存手法では，3D形状からパラメータ化された2Dパターンを復元することが困難である。
- BoxMeshを用いて，3D形状と縫製パターンの間のギャップを埋め，より正確な復元を目指す。
- 提案手法は，3D衣服からBoxMeshを推論し，さらに縫製パターンへと解析することで，パターンを復元する。
- BoxMeshという構造化された表現を用いることで，曖昧さを軽減し，物理的に妥当な構造を問題に与える。
- GarmentCodeDataベンチマークで最先端の性能を達成し，実世界のデータや単一視点画像にも有効であることが示された。
Link: https://arxiv.org/abs/2604.02764
汎化された小物体検出：ポイントプロンプトによるパラダイムとベンチマーク [cs.CL, cs.CV]目的：小物体検出における新たなパラダイムとベンチマークの確立
- 画像認識分野において，小物体検出は重要な課題であり，その精度向上は応用範囲を広げる。
- 小物体はピクセル数が少なく境界が曖昧なため，アノテーションが困難で高品質なデータセットが不足している。
- 既存手法の性能低下を招く視覚的特徴の弱さを克服し，小物体検出の精度向上を目指す。
- 大規模データセットTinySet-9Mを構築し，小物体検出におけるラベル効率の良い手法の評価基準を確立した。
- ポイントプロンプトを用いた新たなパラダイムP2SODを提案し，カテゴリーレベルの局所化を効率化する情報橋を構築した。
- P2SODとTinySet-9Mに基づき，スケーラブルで汎用性の高いフレームワークDEALを開発し，大幅な精度向上を実現した。
Link: https://arxiv.org/abs/2604.02773
視覚モデルにおける敵対的メンバーシップ操作に関する統一的視点 [cs.CL, cs.RO, cs.CV]目的：視覚モデルのプライバシー漏洩評価における敵対的メンバーシップ操作のメカニズムと影響の分析
- プライバシー保護は重要であり，機械学習モデルの学習データに含まれる情報の漏洩を防ぐ必要がある。
- 既存のメンバーシップ推論攻撃は，入力が正直であると暗黙的に仮定しており，敵対的状況下での堅牢性に課題がある。
- 敵対的メンバーシップ操作に対する検出戦略と，それによる推論の堅牢性向上を目指す。
- 敵対的摂動により，非メンバー画像を最先端のメンバーシップ推論攻撃においてメンバーとして誤認識させることが可能であることが示された。
- 敵対的に作成されたメンバーと真のメンバーを区別するための，特徴的な勾配ノルム崩壊軌跡という幾何学的特徴が発見された。
- 勾配幾何学的信号に基づいた検出戦略と，それを用いた堅牢な推論フレームワークが開発され，敵対的操作への耐性が大幅に向上した。
Link: https://arxiv.org/abs/2604.02780
DynFOA：動的かつ音響的に複雑な360度ビデオのための条件付き拡散による一次アンビソニクの生成 [cs.SD]目的：360度ビデオからの一次アンビソニク生成
- 没入型360度ビデオ体験には空間オーディオが不可欠であり，その重要性は増している。
- 360度ビデオの録音時の空間オーディオのキャプチャが困難であるため，空間オーディオが欠如している場合が多い。
- シーンの動的な変化と音響効果を考慮した，より現実的な空間オーディオの自動生成を目指す。
- DynFOAは，動的シーン再構成と条件付き拡散モデリングを統合することで，360度ビデオから一次アンビソニクを合成する。
- 3D Gaussian Splattingを用いてシーンの幾何学構造と材質を再構成し，音響相互作用を捉えた物理的に根拠のある特徴量を抽出する。
- M2G-360データセットを用いた実験により，DynFOAは空間精度，音響忠実度，分布の一致，没入感において既存手法を上回ることが示された。
Link: https://arxiv.org/abs/2604.02781
EnsemHalDet：内部状態検出器のアンサンブルによるロバストなVLMハルシネーション検出 [cs.CV, cs.CL]目的：ビジョン-言語モデルにおけるハルシネーション検出
- マルチモーダルなタスクにおいて，ビジョン-言語モデルの性能は向上している。
- 入力画像に基づかない，事実と異なるハルシネーションが課題となっている。
- 内部表現の多様な信号を捉え，ロバストなハルシネーション検出を実現する。
- EnsemHalDetは，アテンション出力や隠れ状態など，複数の内部表現を用いることで，既存手法や単一検出器モデルを上回る性能を示す。
- アンサンブル学習により，多様な内部信号を統合することで，マルチモーダルハルシネーション検出のロバスト性が向上する。
- VQAデータセットを用いた実験で，AUCの点で既存手法よりも優れていることが確認された。
Link: https://arxiv.org/abs/2604.02784
CANDLE：彩色環境光の正規化のための照明不変な意味的事前知識 [cs.CV]目的：多色照明下における彩色環境光の正規化
- 画像処理において，現実的な色彩再現は重要であり，特に照明条件が変化する場合，その課題は大きい。
- 照明の色や強さの変化により，画像の色が大きく歪み，本来の色を復元することが困難である。
- 照明に依存しない，よりロバストな色再現手法を確立し，鮮明な画像を復元することを目指す。
- 提案手法CANDLEは，自己教師あり学習特徴を活用し，照明の影響を受けにくい意味的事前知識を導入することで，彩色環境光の正規化を達成した。
- CL3ANデータセットにおいて，最良の事前知識を用いた手法と比較して+1.22dBのPSNR改善が確認された。
- NTIRE 2026 ALN Color Lighting Challengeで3位，White LightingトラックでFIDが最低となる2位を獲得し，高い汎化性能を示した。
Link: https://arxiv.org/abs/2604.02785
LumaFlux：物理に基づいた拡散Transformerによる8ビット世界をHDRリアリティへ [cs.RO, cs.CV, cs.AI]目的：SDRからHDRへの再構成
- HDRデバイスの普及により，SDRコンテンツをHDRに変換する需要が高まっている。
- 既存のITM手法は，実世界の劣化やカメラパイプラインへの対応が難しく，画質劣化が生じやすい。
- 物理的・知覚的なガイドを用いた新しいSDR-HDR変換手法を開発し，画質劣化を改善することを目指す。
- LumaFluxは，物理と知覚の両方を考慮した拡散Transformer(DiT)であり，既存手法を上回る輝度再構成と知覚的な色再現性を実現した。
- 物理的ガイダンスモジュール，知覚的クロス変調層，HDR残差結合器などの要素を導入することで，HDR画像を高品質に再構成する。
- 大規模なSDR-HDR学習コーパスと評価ベンチマークを新たに構築し，公平かつ再現性のある比較を可能にした。
Link: https://arxiv.org/abs/2604.02787
UNICA：制御可能な3Dアバターのための統一ニューラルフレームワーク [cs.MM, cs.CV]目的：制御可能な3Dアバター生成手法
- ゲーム，メタバース，AR/VR等の分野で3Dアバターの需要が高まっている。
- 従来の手法は，外観モデリング等，複雑かつ時間のかかるパイプラインが必要である。
- パイプラインを統合し，簡素化されたアバター制御を実現することを目標とする。
- UNICAは，外観，モーション，物理シミュレーション，レンダリングを統合した初のモデルである。
- キーボード入力に基づいて，2D位置マップ上で拡散モデルを用いて次のフレームを生成する。
- 生成された形状を3Dガウススプラッティングに変換し，高品質な自由視点レンダリングを実現する。
Link: https://arxiv.org/abs/2604.02799
PaveBench：舗装路面損傷の知覚とインタラクティブな視覚言語分析のための汎用ベンチマーク [cs.DB, cs.CV, cs.AI, cs.MM]目的：舗装路面損傷の知覚と視覚言語分析に関するベンチマーク
- 道路の安全性と維持管理において，舗装状態の評価は不可欠である。
- 既存研究は画像認識に偏っており，定量分析や意思決定支援が不足している。
- 実世界の舗装点検における多段階対話と根拠に基づいた推論を可能とする。
- PaveBenchは，分類，物体検出，セマンティックセグメンテーション，視覚言語質疑応答の4つの主要タスクに対応する大規模ベンチマークである。
- 大規模なアノテーションと，頑健性評価用の厳選された難易度の高いノイズデータセットが提供される。
- PaveVQAは，単一ターン，複数ターン，専門家による修正を含む質疑応答データセットであり，認識，位置特定，定量評価，維持管理に関する推論を網羅している。
Link: https://arxiv.org/abs/2604.02804
3者スタケルバーグゲームにおける欺瞞均衡分析 [cs.GT, math.OC]目的：3者間の欺瞞セキュリティゲームにおける戦略的相互作用
- 情報セキュリティ分野において，防御側の戦略的欺瞞は攻撃抑止に不可欠である。
- 内部犯人による攻撃に対する防御戦略は，その複雑さから未だ十分な研究が進んでいない。
- 欺瞞戦略の効果を定量的に評価し，効率的な欺瞞均衡探索手法を確立すること。
- 欺瞞スタケルバーグ均衡（DSE）とハイパーナッシュ均衡（HNE）の概念を導入し，3者ゲームを統一的に分析した。
- DSEとHNEの一貫性に関する必要十分条件を導き，階層構造が崩壊した場合でも防御側の利得が不変となることを保証した。
- 非滑らかで集合値の最適反応写像に対して，収束保証のあるスケーラブルなハイパー勾配法を提案し，効率的なDSE探索を可能にした。
Link: https://arxiv.org/abs/2604.02807
CMCC-ReID：クロスモダリティ衣服変更人物再識別 [cs.CV]目的：クロスモダリティ衣服変更人物再識別のための手法
- 長期監視において，人物を正確に識別することは，セキュリティや公共の安全にとって不可欠である。
- 可視光と赤外線画像間，および衣服の変化による差異が，再識別性能を著しく低下させる。
- 両方の課題を同時に解決する，新たな再識別タスクへの取り組みが求められている。
- 提案手法PIAは，新しいベンチマークデータセットSYSU-CMCCにおいて，既存手法を大きく上回る性能を示した。
- DBDLモジュールにより，衣服に依存しない人物特徴の抽出が可能となり，モダリティ間のギャップを縮小する。
- BPLモジュールは，埋め込み空間での対照学習を通じて，衣服の変化の影響をさらに抑制する。
Link: https://arxiv.org/abs/2604.02808
QAPruner：量子化を意識したビジョン・トークン剪定によるマルチモーダル大規模言語モデルの性能向上 [cs.RO, cs.DB, cs.CV, cs.AI]目的：マルチモーダル大規模言語モデルにおける計算・メモリコスト削減のための，量子化とビジョン・トークン剪定の協調最適化
- マルチモーダル大規模言語モデルは高度な推論能力を持つが，計算資源制約下での利用が課題となっている。
- 量子化やトークン剪定といった圧縮技術が単独で用いられることが多いが，両者の相乗効果は十分に考慮されていない。
- 量子化によって生じる誤差を悪化させずに，効果的なビジョン・トークン剪定を実現することが目的である。
- 提案手法は，量子化誤差のシミュレーションと外れ値の強度を組み合わせた新たな指標を用いることで，量子化に頑健なトークンを保持する。
- 実験の結果，既存手法と比較して高い精度を維持し，12.5%のビジョン・トークン残存率でも，剪定なしの量子化よりも高い精度を達成した。
- 本研究は，ビジョン・トークン剪定と量子化を明示的に協調最適化する初の試みであり，低ビット推論におけるMLLMの精度向上に貢献する。
Link: https://arxiv.org/abs/2604.02816
MMPhysVideo：マルチモーダルな同時モデリングによるビデオ生成における物理的妥当性の向上 [cs.CV]目的：ビデオ生成における物理的妥当性のスケーリング
- ビデオ生成技術は目覚ましい進歩を遂げているが，物理的に不整合な結果が生じやすい。
- 既存のビデオ拡散モデルは，ピクセル単位の再構成に偏っており，複雑な物理的ダイナミクスを捉えきれない。
- 知覚的情報を統合することで，より物理的に妥当なビデオ生成を実現すること。
- MMPhysVideoは，セマンティクス，形状，空間的軌跡などの知覚的ヒントを統一的な疑似RGB形式に変換し，物理的ダイナミクスを直接捉える。
- Bidirectionally Controlled Teacherアーキテクチャにより，RGBと知覚処理を分離し，ピクセルレベルの一貫性を段階的に学習する。
- MMPhysPipeというスケーラブルなデータキュレーションパイプラインを提示し，物理的知識に富むマルチモーダルデータセットを構築する。
Link: https://arxiv.org/abs/2604.02817
単一画像からの3Dシーン探索：NavCrafter [cs.CL, cs.RO, cs.RO, cs.SY, eess.SY, cs.RO, cs.CV, cs.AI]目的：単一画像からの3Dシーン探索手法
- 3Dコンテンツ作成の効率化が求められる現代において，その重要性は高い。
- 直接的な3Dデータ取得が困難な場合，高品質な3Dシーン生成が課題である。
- 単一画像から高品質な3Dシーンを生成し，視点変更に強い探索を実現する。
- NavCrafterは，カメラ制御可能な一連の新規視点ビデオを合成することで3Dシーンを探索する。
- ビデオ拡散モデルを活用し，3Dの事前知識を獲得，ジオメトリを考慮した拡張戦略を採用する。
- 大規模な視点変化下での新規視点合成において，最先端の性能と3D再構成の忠実度を向上させた。
Link: https://arxiv.org/abs/2604.02828
STRNet：動的グラフ集約による時空間表現を用いた視覚ナビゲーション [cs.CV, cs.RO]目的：ロボットの視覚ナビゲーションのための時空間表現
- ロボットの自律的な移動を実現する上で，環境を認識し，目標地点へ到達する視覚ナビゲーションは不可欠である。
- 既存手法では，特徴抽出器や時間的プーリングが単純であるため，視覚情報の詳細な空間・時間構造が失われやすい。
- 画像系列と目標観測を融合し，空間グラフ推論と時間的動的な変化をモデル化することで，ナビゲーション性能を向上させる。
- 提案手法は，画像系列と目標観測から特徴を抽出し，設計した時空間融合モジュールを用いてそれらを融合することで，視覚エンコーディングを強化する。
- このモジュールは，各フレーム内で空間グラフ推論を行い，ハイブリッド時間シフトモジュールと多解像度差分認識畳み込みを組み合わせて時間的ダイナミクスをモデル化する。
- 実験結果から，提案手法はナビゲーション性能を安定的に向上させ，目標条件制御のための汎用性の高い視覚バックボーンを提供することが示された。
Link: https://arxiv.org/abs/2604.02829
効率的なニューラルラディアンスフィールドのための因数分解マルチ解像度ハッシュグリッド：エッジデバイスでの実行 [cs.CV]目的：エッジデバイス上でのニューラルラディアンスフィールドの学習のための新しいパラメータエンコーディング手法
- 3次元表現において重要な役割を果たすニューラルラディアンスフィールドだが，計算資源の制約から応用範囲が限られている。
- エッジデバイスでの学習は様々な利点がある一方，GPUメモリ，ストレージ，電力等のリソース制約が課題となっている。
- Fact-Hashはメモリ制約を克服し，高品質な3次元表現を可能にすることで，エッジデバイス上でのニューラルラディアンスフィールドの応用を促進する。
- Fact-Hashはテンソル分解とハッシュエンコーディングを組み合わせることで，高解像度特徴の利用とFew-shotのロバスト性を実現した。
- 従来のエンコーディング手法と比較して，Fact-Hashはメモリ使用量を3分の1以上削減しつつ，画質とレンダリング速度を維持した。
- エッジデバイス上での実験により，Fact-Hashが計算効率とエネルギー消費の面で優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2604.02836
点群理解のための変形に基づくIn-Context Learning [cs.CV]目的：点群のIn-Context Learningにおける変形学習フレームワーク
- 点群データは自動運転やロボット工学など幅広い分野で活用が期待されており，その効率的な処理が重要である。
- 既存のIn-Context Learning手法は，幾何学的先験知識を活用せず，トークンレベルの相関のみに依存するため，空間構造の推論が困難である。
- 本研究は，幾何学的推論を明示的に行う変形学習により，点群のIn-Context Learningの性能向上を目指す。
- 提案手法DeformPICは，既存手法と比較して，再構成，ノイズ除去，登録タスクにおいて平均Chamfer Distanceをそれぞれ1.6，1.8，4.7ポイント削減した。
- 新たなドメイン外ベンチマークにおいて，DeformPICは最先端の性能を達成し，未知のデータ分布への汎化能力を示した。
- DeformPICは，クエリ点群をプロンプトのタスク固有のガイダンスの下で変形させることで，幾何学的推論と一貫性のある目的を可能にする。
Link: https://arxiv.org/abs/2604.02845
フーリエエンコーディングされた暗黙的ニューラル表現に対する適応的局所周波数フィルタリング [cs.CV, eess.IV]目的：フーリエエンコーディングされた暗黙的ニューラル表現における局所周波数の適応的フィルタリング
- 離散サンプルから連続信号をモデル化する強力な手法として注目されている研究分野である。
- 固定された周波数を使用するため，空間的に周波数成分が変化する信号の表現が苦手である。
- 空間的に変化する周波数特性を持つ信号に対する表現能力向上と高速な最適化を目指す。
- 提案手法は，空間座標に応じて周波数成分を調整するパラメータを導入し，局所的な周波数特性に適応する。
- ニューラルタンジェントカーネルの観点からフィルタの効果を分析し，効果的なカーネルスペクトルの再構築を説明する。
- 画像，形状，疎なデータ再構成実験により，再構成品質と最適化速度の向上が確認された。
Link: https://arxiv.org/abs/2604.02846
HiDiGen：明示的なトポロジー制約を持つB-Rep生成のための階層的拡散 [cs.CV]目的：B-Rep生成の新たな手法
- CADシステムにおける標準的な3Dモデル形式であり，多様な応用が期待されるため。
- 離散的なトポロジーと連続的な幾何学の複雑な相互作用により，有効なB-Rep構造の深層生成モデル開発が困難である。
- トポロジー制約を明示的にモデル化することで，より有効で多様なCADモデル生成を目指す。
- HiDiGenは，幾何学モデリングを2段階に分離し，各段階で明示的なトポロジー制約を導入する階層的生成フレームワークである。
- まず，面とエッジのインシデンス関係を確立し，一貫性のあるトポロジーの足場を定義する。
- 次に，Transformerベースの拡散モジュールを用いて，面サーフェスと頂点位置を洗練し，構造的一貫性を維持する。
Link: https://arxiv.org/abs/2604.02847
パラダイムシフト：動画における時間的文脈特定のための完全エンドツーエンド学習 [cs.CV, cs.AI]目的：動画における時間的文脈特定の性能向上
- 動画理解は，映像コンテンツの自動解析や検索に不可欠であり，その重要性は増している。
- 既存手法では，事前学習済みの特徴抽出器を使用し，動画バックボーンを固定している点が課題である。
- 動画バックボーンをエンドツーエンドで最適化することで，タスク間の乖離を解消し，性能向上を目指す。
- 提案手法は，様々なモデル規模で，固定されたベースラインと比較してエンドツーエンド学習の有効性を示す。
- Sentence Conditioned Adapter (SCADA) により，少ないパラメータで動画バックボーンを適応的に学習可能となり，表現力が向上する。
- 2つのベンチマークにおいて，提案手法は最先端の手法を上回る性能を達成した。
Link: https://arxiv.org/abs/2604.02860
HairOrbit：単一の肖像写真からの多視点認識3Dヘアモデリング [cs.CL, cs.CV]目的：単一の肖像写真からの3Dヘアモデリング手法
- ヘアモデリングは，バーチャルリアリティやゲームなど，様々な分野で重要な役割を担っている。
- 単一視点画像からの3Dヘア再構築は困難であり，特に見えない部分のリアリティが課題である。
- ビデオ生成モデルの3D事前知識を活用し，単一視点再構築を多視点再構築タスクとして解決する。
- 本研究では，ビデオ生成モデルの事前知識を利用した新たなフレームワークを提案し，単一視点からの3Dヘア再構築を多視点再構築タスクとして捉えている。
- 疎な実画像アノテーションで訓練されたニューラル向き抽出器を導入し，全身の向き推定精度を向上させることで，再構築の質と効率のバランスを実現した。
- 多様なヘアポートレートに対し，既存手法を凌駕する性能を，見える領域と見えない領域の両方で示した。
Link: https://arxiv.org/abs/2604.02867
トークンワーピングがMLLMの近傍視点理解を助ける [cs.CV]目的：近傍視点からのシーン認識におけるマルチモーダル大規模言語モデル(MLLM)の性能向上
- 視覚的推論はMLLMの重要な能力だが，視点変化に弱い点が課題である。
- ピクセル単位のワーピングは，わずかな深度誤差に敏感で幾何学的歪みを招く。
- トークンレベルでワーピングを行うことで，視点変化に対する頑健性を高める。
- トークンワーピング，特に逆方向ワーピングが，視点変化下で安定性と意味の一貫性を向上させる。
- 提案するViewBenchベンチマークにおいて，トークンレベルのワーピングはピクセルワーピングや空間微調整を上回る性能を示した。
- MLLMは，トークンレベルワーピングにより近傍視点からの推論において信頼性のある結果を得られる。
Link: https://arxiv.org/abs/2604.02870
SPG：スパースオートエンコーダを用いた疎な射影ガイドによるゼロショット異常検知 [cs.CV]目的：ゼロショット異常検知とセグメンテーションの実現
- 異常検知は，製造，医療，セキュリティなど，幅広い分野で重要な役割を果たす。
- 既存手法は，ターゲットドメインへの適応が必要であり，汎化性能に課題がある。
- ターゲットドメインのデータを用いずに，異常検知とセグメンテーションを可能にすること。
- 提案手法SPGは，凍結された基礎モデルの特徴量を用いて，プロンプト不要で疎なガイド係数を学習する。
- SPGは，MVTec ADとVisAのクロスデータセットゼロショット設定において，高い検出とセグメンテーション性能を達成した。
- 学習されたガイド係数は，少数辞書原子に決定を遡ることを可能にし，カテゴリ一般およびカテゴリ固有の要因を明らかにする。
Link: https://arxiv.org/abs/2604.02871
段階的に手術器具を学習する際の陽性転移を解き放つ：自己反省階層的プロンプトフレームワーク [cs.CV]目的：手術器具の段階的学習における陽性転移の活用
- 手術支援システムの自動化には，手術器具の正確な認識が不可欠である。
- 既存の手法では，過去の知識を有効活用し，新しい器具の学習と既存の器具の認識精度向上を両立できていない。
- 本研究では，陽性転移を最大限に活用し，知識の忘却を防ぐフレームワークを提案する。
- 提案手法では，階層的なプロンプト解析木を用いることで，過去の知識を新しい器具の学習に再利用する。
- 自己反省による知識の洗練により，既存の知識を改善し，破滅的忘却を回避する。
- 公開データセットにおいて，既存手法と比較して5%以上，11%以上の性能向上を達成した。
Link: https://arxiv.org/abs/2604.02877
命令によるテーブル構造認識の改善：InstructTable [cs.RO, cs.SY, eess.SY, cs.CV]目的：テーブル構造認識の精度向上
- テーブル構造認識は，画像から構造化された表現を得る上で重要であり，様々な実用的な応用がある。
- 複雑なレイアウト，結合されたセル，または空のセルを含むテーブルの構造認識は困難である。
- 視覚情報と意味情報を統合し，複雑なテーブル構造の理解を深めることを目指す。
- InstructTableは，命令による多段階トレーニングフレームワークにより，テーブル構造認識において最先端の性能を達成した。
- テーブル命令事前学習は，複雑なテーブルの微細な構造パターンへの注意を促し，理解を向上させる。
- Table Mix Expand（TME）を用いた大規模な合成データセットBCDSTabを構築し，その有効性を検証した。
Link: https://arxiv.org/abs/2604.02880
情報正則化制約逆変換による，スパースな教師データからの安定したアバター編集 [cs.CV]目的：安定したアバター編集手法
- アバター編集は，バーチャル空間における人物表現の多様化に不可欠である。
- 既存手法では，編集時にアバターの個性消失や時間的なちらつきが発生しやすい。
- 低次元編集部分空間への制限により，個性保持と安定性を両立する。
- 本研究では，編集を制約付き逆変換として捉え，アバターの潜在空間において編集を行うフレームワークを提案した。
- 局所線形化から導出される条件付け目的関数に基づき，編集部分空間の情報行列を最適化することで，安定性を予測し，フレームの重み付けを調整する。
- 提案手法は効率的に実装でき，限られた教師データ下での安定性を向上させることを示した。
Link: https://arxiv.org/abs/2604.02883
MLLMエージェントを用いた漸進的なビデオ凝縮による長編ビデオ理解 [cs.CV]目的：長編ビデオ理解のための効率的な情報抽出手法
- ビデオ理解は，多様な応用において不可欠であり，その重要性は増している。
- 既存手法では，計算資源の制約下で詳細な視覚情報を保持することが困難である。
- 計算効率を維持しつつ，視覚的詳細を活用したビデオ理解を実現することを目指す。
- ProVCAは，粗いセグメントから徐々に範囲を絞り込み，重要なキーフレームを特定する。
- EgoSchema，NExT-QA，IntentQAにおいて，最先端のゼロショット精度を達成した。
- 従来の学習不要手法と比較して，より少ないフレーム数で高い性能を発揮する。
Link: https://arxiv.org/abs/2604.02891
汎用人工教師に向けて：手続き型幾何データ生成とVision-Languageモデルによる視覚的根拠付け [cs.RO, cs.CV, cs.AI, cs.LG]目的：幾何教育における視覚的説明
- 教育分野における視覚的説明の重要性が高まっており，効果的な指導方法が求められている。
- 既存の画像認識モデルは，写真画像で学習しているため，幾何図形のような抽象的な図に対しては性能が低い。
- 適切な学習データがない問題を解決し，視覚的に根拠のある幾何学の問題解決支援を実現する。
- 20万件以上の合成幾何図形と参照表現を自動生成するデータエンジンを開発した。
- Vision-Languageモデルをドメイン固有にファインチューニングすることで，高い分割精度を達成した。
- 薄い構造の局在化を考慮した新しい評価指標Buffered IoUを導入し，分割品質のより正確な評価を可能にした。
Link: https://arxiv.org/abs/2604.02893
EvaNet：より効率的かつ一貫性のある赤外線および可視画像融合評価に向けて [cs.CV]目的：赤外線および可視画像融合の評価のための統一的なフレームワーク
- 画像融合は，様々な応用分野で重要な役割を果たすため，その品質評価が不可欠である。
- 既存の評価指標は，画像融合に特化した適応がなされておらず，計算コストが高いという課題がある。
- この研究は，効率的かつ一貫性のある画像融合評価指標の開発を通じて，これらの課題を解決することを目指す。
- 提案手法EvaNetは，従来の評価指標と比較して，最大1000倍の高速化を実現した。
- 融合結果を赤外線と可視成分に分解し，それぞれの情報保持度を評価することで，より正確な評価を可能にした。
- 画像融合指標と人間の視覚認識との整合性を評価する一貫性評価フレームワークを新たに提案した。
Link: https://arxiv.org/abs/2604.02896
RayMamba: 長距離3D物体検出のためのRayに沿ったシリアライゼーション [eess.SY, cs.SY, math.PR, cs.CV, cs.AI]目的：長距離3D物体検出における性能向上
- 自動運転やロボティクスにおいて，遠距離にある物体を正確に検出することは安全性の確保に不可欠である。
- LiDARデータの遠距離領域ではデータが疎になり，既存の検出器では信頼性の高いコンテキストモデリングが困難である。
- Rayに沿ったシリアライゼーションにより，疎なシーンにおける意味のあるコンテキストを保持し，長距離モデリングを改善することを目指す。
- 提案手法RayMambaは，既存のボクセルベース3D検出器に容易に組み込むことが可能であり，わずかな計算量増加で性能向上を実現する。
- nuScenesにおいて，特に40-50mの遠距離領域で最大2.49 mAP，1.59 NDSの性能向上を達成した。
- Argoverse 2においても，VoxelNeXtの性能を30.3 mAPから31.2 mAPに改善した。
Link: https://arxiv.org/abs/2604.02903
UniSpector：スペクトル対照視覚プロンプトによる汎用的なオープンセット欠陥認識へ [cs.CL, cs.CV]目的：汎用的なオープンセット欠陥認識のための手法
- 産業検査において，未知の欠陥を検出する能力は重要である。製造品質の維持・向上に不可欠な要素である。
- 既存手法はクローズドセットの仮定に基づき，未知の異常の検出が困難である。汎用性に課題がある。
- 視覚プロンプトを用いた手法におけるプロンプト埋め込みの崩壊問題を解決し，高精度な欠陥検出を実現する。
- UniSpectorは，プロンプトから領域への単純なマッチングではなく，意味的に構造化されたプロンプトトポロジーの設計に焦点を当てている。
- Spatial-Spectral Prompt EncoderとContrastive Prompt Encoderにより，プロンプト空間を意味的に整理し，適応的なオブジェクトクエリを生成する。
- 新しいベンチマークInspect Anythingにおいて，UniSpectorは既存手法を大幅に上回り，スケーラブルな検査パラダイムを可能にする。
Link: https://arxiv.org/abs/2604.02905
SentiAvatar：表現豊かでインタラクティブなデジタルヒューマンに向けて [cs.CV, cs.HC, cs.MM]目的：表現力豊かなインタラクティブ3Dデジタルヒューマン構築のためのフレームワーク
- 人間らしい自然な対話を可能にするデジタルヒューマン技術の重要性が増している。
- 高品質なマルチモーダルデータの不足や，自然な動きと発話の同期が課題となっていた。
- 大規模データと新たなアーキテクチャにより，リアルタイムな動きと発話の同期を実現する。
- 本研究で開発したSentiAvatarは，既存のシステムを大きく上回る性能を示した。
- SuSuInterActsおよびBEATv2の両データセットにおいて，最先端の結果を達成した。
- 6秒の出力を0.3秒で生成可能であり，無限マルチターンストリーミングを実現した。
Link: https://arxiv.org/abs/2604.02908
分割統治による部分ディープフェイク音声検出 [cs.SD, cs.AI, cs.LG]目的：部分ディープフェイク音声検出における操作箇所特定
- 音声の信頼性確保は，コミュニケーションやセキュリティにおいて重要であるため，音声偽装技術への対策が不可欠である。
- 既存手法では，自然な音声の一部に偽装箇所が含まれる場合，その特定が困難であるという課題が存在する。
- 本研究は，境界検出とセグメント分類を分離することで，偽装箇所の正確な特定と局在化を目指す。
- 提案手法は，PartialSpoofベンチマークにおいて，複数の時間分解能および発話レベルで最先端の性能を達成した。
- 特に，偽装箇所の正確な検出と局在化において，大幅な性能向上が認められた。
- Half-Truthデータセットにおいても最先端の性能を達成し，手法の頑健性と汎化性能が確認された。
Link: https://arxiv.org/abs/2604.02913
GP-4DGS：変分ガウス過程による単眼ビデオからの確率的4Dガウススプラッティング [cs.CV]目的：動的シーンの確率的モデリング
- 3次元シーンの再構成は，仮想現実やロボティクスなど様々な分野で重要である。
- 既存の4Dガウススプラッティングは，モーションの曖昧性や予測信頼性の評価が困難である。
- モーションの曖昧性を捉え，予測の信頼性を評価する手法を確立すること。
- GP-4DGSは，モーション予測の不確実性を定量化し，信頼性の高い推定を可能にする。
- 未観測領域や疎な領域におけるモーション推定の精度が向上する。
- 観測されたフレームを超えた時間的補外が可能となり，シーンの予測精度が向上する。
Link: https://arxiv.org/abs/2604.02915
BEVPredFormer：自動運転におけるBEVインスタンス予測のための時空間的注意機構 [cs.CV]目的：自動運転におけるBEVインスタンス予測の性能向上
- 自動運転システムでは，周囲の状況を正確に把握することが不可欠であり，動的環境の理解が重要である。
- 従来のモジュール型パイプラインでは，累積誤差や遅延が発生しやすいという課題があった。
- BEVインスタンス予測モデルにおける，密な時空間情報の効果的な処理を可能にすること。
- BEVPredFormerは，カメラ情報のみを用いて，時空間的注意機構に基づいたBEVインスタンス予測を実現した。
- 再帰的でない設計，ゲート付きTransformer層，分割時空間注意機構，マルチスケールヘッドタスクを組み込んだ。
- nuScenesデータセット上での評価において，最先端手法と同等またはそれ以上の性能を示した。
Link: https://arxiv.org/abs/2604.02930
PolyReal：現実世界の高分子科学ワークフローのためのベンチマーク [eess.SY, cs.SY, cs.CV]目的：現実世界の高分子科学ワークフローの評価
- 科学研究の発展には，多岐にわたる学問分野の知識と実践が不可欠である。
- 既存のベンチマークは，現実世界の実験プロセスを十分にカバーしておらず，実用性に課題がある。
- 現実世界の実験サイクル全体を評価するベンチマークを提供し，AIシステムの能力を測る。
- PolyRealは，高分子科学における知識応用，安全分析，実験メカニズムの推論，データ抽出，性能評価の5つの能力を評価する。
- 主要なMLLMの評価では，知識集約型の推論は得意だが，実践的なタスク（安全性分析やデータ抽出）で性能が低下した。
- 抽象的な科学知識と，文脈依存的な実践の応用との間に大きなギャップが存在することが明らかになった。
Link: https://arxiv.org/abs/2604.02934
RGB-Dカモフラージュ物体検出のためのモダリティ固有の階層的強化 [cs.CV]目的：RGB-Dカモフラージュ物体検出における性能向上
- 画像認識技術は，自動運転やロボット工学など，様々な分野で不可欠である。
- カモフラージュされた物体検出は，背景との類似性が高いため困難である。
- RGBと深度の特徴を最大限に活用し，融合の質を高めることを目指す。
- 提案手法MHENetは，RGBと深度の特徴をモダリティ固有に階層的に強化し，適応的に融合する。
- THEMとGHEMにより，テクスチャと幾何学的構造を効果的に増幅し，より高精度な検出を可能にする。
- 4つのベンチマークにおける実験で，MHENetは16の最先端手法を凌駕する性能を示した。
Link: https://arxiv.org/abs/2604.02935
あなたにとって十分なら，私にとっても十分：モデル間における音声十分性の転移可能性 [cs.SD]目的：異なる音声分類モデルの情報処理特性に関する新たな知見の獲得
- 音声認識技術は，様々な分野で不可欠であり，その性能向上は重要な課題である。
- モデルによって情報処理の特性が異なり，その違いを定量的に評価する方法が課題となっていた。
- モデル間の音声認識の十分性を比較し，その転移可能性を評価することで，モデルの違いを明らかにすること。
- 音声認識の十分性は，タスクによって転移率が異なり，音楽ジャンルの認識では約26%の転移率が確認された。
- 深偽音声検出においてはモデル間の転移率に大きなばらつきが見られ，「地球平面説者」モデルと呼ばれる特徴的なモデルが存在することが示された。
- 転移可能性の分析により，精度や適合率では捉えきれない，モデル間の情報理論的な違いを検出することが可能になった。
Link: https://arxiv.org/abs/2604.02937
MMTalker：マルチモーダル特徴融合によるマルチ解像度3D対話型頭部合成 [eess.SY, cs.SY, cs.CV]目的：3D顔面アニメーション合成における，音声と3D顔面動作の対応関係の構築
- 人間とコンピュータ間の自然なコミュニケーションを実現する上で，リアルな顔面表現は不可欠である。
- 既存手法では，口パクの正確性や自然な表情の生成が課題であり，クロスモーダル対応の困難さが問題である。
- マルチ解像度表現とマルチモーダル特徴融合により，高精度な3D顔面動作の再構築を目指す。
- 提案手法MMTalkerは，最先端手法と比較して，特に口や目の動きの同期精度において顕著な改善を示す。
- 3D顔面をメッシュパラメータ化と非一様微分サンプリングにより連続的に表現することで，詳細な学習を可能にした。
- 残差グラフ畳み込みネットワークとデュアルクロスアテンション機構により，音声と顔面の多階層特徴を効果的に融合する。
Link: https://arxiv.org/abs/2604.02941
Provenanceに基づく入力勾配誘導による合成データからの学習 [cs.DC, cs.CV, cs.AI, cs.LG]目的：合成データを用いた学習における識別能力向上
- モデルの識別性能向上には，多様な学習データが不可欠であり，コスト削減も重要である。
- 既存手法はデータの多様化に偏り，識別に関与する入力領域を明示的に学習できていない。
- 合成バイアスやアーティファクトに起因する誤学習を抑制し，識別的な表現を獲得する。
- 提案手法では，データ生成時のProvenance情報を用いて，入力勾配をターゲット領域と非ターゲット領域に分解する。
- 非ターゲット領域の勾配を抑制することで，モデルが不要な領域に依存することを防ぎ，ターゲット領域の識別表現学習を促進する。
- 様々なタスクとモダリティにおいて，提案手法の有効性と汎用性が実験的に示された。
Link: https://arxiv.org/abs/2604.02946
CrossWeaver：任意のモダリティに対する意味的セグメンテーションのためのクロスモーダル織り込み [cs.CV]目的：多様なセンシングモダリティ間の補完的な情報の活用
- 現実世界の理解には，複数のモダリティからの情報統合が不可欠である。
- 既存手法は，柔軟性に欠け，モダリティ間の効果的な連携が困難である。
- 異なるモダリティ組み合わせにおける効率的な情報交換と固有特性の維持を実現する。
- CrossWeaverは，エンコーダ内で選択的かつ信頼性に基づいたクロスモーダル相互作用を可能にする。
- 軽量なSeam-Aligned Fusionモジュールにより，強化された特徴量を集約する。
- 複数のベンチマークで最先端の性能を達成し，未知のモダリティ組み合わせへの汎化性能も高い。
Link: https://arxiv.org/abs/2604.02948
ビジョン言語モデルのための協調的マルチモードプルーニング [cs.CV]目的：ビジョン言語モデルの圧縮
- 近年，ビジョン言語モデルの性能は著しく向上しているが，計算資源の制約がある環境での利用が課題となっている。
- 既存のプルーニング手法はパラメータまたはトークンの一方のみに焦点を当てており，各モードの冗長性を十分に活用できていない。
- 本研究は，パラメータとトークンの同時プルーニングにより，高圧縮率下での性能劣化を抑制することを目的とする。
- 提案手法CoMPは，パラメータとトークンの相互干渉を考慮したCollaborative Importance Metric (CIM) を設計した。
- また，Multi-Mode Pruning Strategy (MPS) を開発し，プルーニングコストに基づき最適なモードを動的に選択する。
- 様々なタスクとモデルにおいて，CoMPは最先端の手法と比較して，高圧縮率下で優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2604.02956
UAVベースの物体検出のための視覚的プロトタイプ条件付き焦点領域生成 [cs.RO, cs.CL, cs.CV]目的：UAVベースの物体検出における検出精度向上
- UAVによる物体検出は，変化する状況下での重要な課題であり，応用範囲が広い。
- アノテーションされた学習データが限られている状況で，従来の生成手法はアーティファクトを生成しやすい。
- 本研究は，高品質な画像生成により，UAVベースの物体検出の性能を向上させることを目指す。
- 提案手法UAVGenは，視覚的プロトタイプ条件付き拡散モデル(VPC-DM)により，高精度な物体生成を実現した。
- 焦点領域強調データパイプライン(FRE-DP)とラベル修正により，生成画像の品質をさらに向上させた。
- 実験結果から，提案手法が既存手法を大きく上回り，様々な検出器との組み合わせで精度向上に貢献することが示された。
Link: https://arxiv.org/abs/2604.02966
テキスト駆動モーション生成におけるモーションと言語の整合性の探求 [cs.CL, cs.CV]目的：テキスト駆動モーション生成の精度向上
- 人間らしい自然な動きの自動生成は，バーチャルリアリティやロボット工学など，幅広い分野で重要である。
- テキストの意味とモーションのダイナミクスの整合性が不十分であり，自然な動きの生成が困難である。
- テキストとモーションの整合性を高め，より高品質なモーション生成を実現すること。
- 本研究では，MLA-Genという新たなフレームワークを提案し，グローバルなモーションの事前知識と詳細なローカル条件付けを統合した。
- これにより，一般的なモーションパターンを捉えつつ，テキストとモーション間の詳細な整合性を確立することに成功した。
- また，モーション生成における「アテンションシンク」現象を特定し，その対策として，アテンションを制御する手法を開発した。
Link: https://arxiv.org/abs/2604.02973
網膜血管セグメンテーション性能に対する入力解像度の影響：5つのデータセットにおける実証的研究 [cs.CE, cs.CV]目的：網膜血管セグメンテーションにおける入力解像度の影響評価
- 網膜血管の異常は，糖尿病性網膜症や高血圧などの疾患の早期発見に重要である。
- 深層学習モデルのメモリ制約から画像解像度を下げる操作が一般的だが，微細血管検出への影響が不明確である。
- 入力解像度の変化が微細血管検出に与える影響を定量的に評価し，最適な解像度範囲を特定する。
- 高解像度データセット（HRF，FIVES）では，ダウンサンプリングにより微細血管検出感度が向上し，256～876ピクセルの範囲でピークを迎えた。
- 低～中解像度データセット（DRIVE，STARE，CHASE_DB1）では，ネイティブ解像度付近で微細血管検出感度が最も高く，ダウンサンプリングにより低下した。
- Dice係数では検出感度の低下が捉えられない場合があり，微細血管セグメンテーションの評価には新たな指標が必要であることが示唆された。
Link: https://arxiv.org/abs/2604.02977
全計算は必要ではない：選択的計算と予測的外挿による自己回帰型動画生成の高速化 [cs.CV]目的：自己回帰型動画拡散モデルの効率的な加速手法
- 動画生成分野の発展において，長尺動画の高品質な生成は重要な課題である。
- 既存手法は，キャッシュ再利用か完全再計算の二者択一であり，中間的なケースに対応できていない。
- フレーム間のノイズレベルの非同期性を考慮し，効率的な計算戦略を確立すること。
- 提案手法SCOPEは，キャッシュ，予測，再計算を組み合わせたトリモーダルなスケジューラを導入し，計算効率を向上させる。
- 予測的外挿により，キャッシュと再計算の中間領域を埋め，安定性を確保しながら高速化を実現する。
- MAGI-1とSkyReels-V2において，最速で4.73倍の高速化を達成し，既存手法を上回る性能を示す。
Link: https://arxiv.org/abs/2604.02979
3Dガウススプラッティングによる複数人物・複数物体レンダリング [cs.CV]目的：複数人物と複数物体を含む動的シーンのレンダリング
- ロボティクスやVR/ARなどの高精度デジタルツイン作成に不可欠な研究分野である。
- 相互遮蔽下での個々のインスタンスの一貫性表現と，複雑な相互依存関係のモデル化が課題である。
- 相互作用を考慮した高品質なレンダリングを実現し，インスタンス間の接触を正確に捉えることを目指す。
- 提案手法MM-GSは，3Dガウススプラッティングに基づく階層的フレームワークである。
- インスタンスごとの多視点融合モジュールにより，頑健で一貫性のある表現を確立する。
- シーンレベルのインスタンス間相互作用モジュールは，相互作用効果を捉え，属性を洗練させる。
Link: https://arxiv.org/abs/2604.02996