arXiv雑要約

画像・音声 - 2026/03/18 公開

OneWorld：3D統合表現オートエンコーダによるシーン生成の制御 [cs.CV]目的：3Dシーン生成のためのフレームワーク
- 3Dコンテンツ生成は，仮想現実やロボティクスなど，幅広い分野で重要性が増している。
- 既存手法は2D潜在空間で処理するため，視点間の一貫性を保つことが困難である。
- 一貫性のある3D表現空間で拡散モデルを適用し，高品質な3Dシーン生成を目指す。
- OneWorldは，3D統合表現オートエンコーダ（3D-URAE）を用いて，3D表現空間で直接拡散処理を行う。
- 視点間対応（CVC）損失と，多様性強制（MDF）により，構造の一貫性とロバスト性を向上させている。
- 実験結果から，OneWorldは既存の2Dベース手法と比較して，優れた視点間一貫性を持つ高品質な3Dシーンを生成できることが示された。
Link: https://arxiv.org/abs/2603.16099
CLIPにおけるモдал内非整列仮説の再評価 [cs.CV]目的：CLIP様コントラスト言語画像学習によって生成された埋め込み表現の最適性
- 画像認識の性能向上には，画像とテキストの関連性を学習する手法が不可欠である。
- CLIPモデルでは，画像間の距離の較正が不十分であるという問題が指摘されている。
- 本研究は，CLIPモデルの画像埋め込みにおける非整列が性能低下の原因であるという仮説を検証する。
- 理論的な議論において，画像埋め込み距離における自由度は存在しないことが示された。
- 実験的に，言語画像学習モデルと画像画像学習モデルで同様の結果が得られた。
- タスクの曖昧さへの対処が，性能向上には重要であることが確認された。
Link: https://arxiv.org/abs/2603.16100
NanoGS：学習不要なガウススプラット簡素化 [cs.CV, cs.GR]目的：ガウススプラットの簡素化
- 3Dシーンのリアルタイムレンダリングには，高精度な表現が不可欠である。
- ガウススプラットは表現力がある反面，多数のスプラットが必要となり，ストレージや伝送コストが大きい。
- 学習を必要とせず，効率的にガウススプラットの数を削減し，実用的な簡素化を実現する。
- NanoGSは，学習を必要とせず，既存のガウススプラットモデルをCPU上で効率的に簡素化できる。
- 局所的なペアワイズマージを利用し，質量保存とモーメントマッチングにより，シーン構造と外観を維持しながらスプラット数を大幅に削減する。
- 実験により，NanoGSがレンダリング品質を維持しつつ，ガウススプラットの簡素化に効果的であることが示された。
Link: https://arxiv.org/abs/2603.16103
PathGLS：正解データなしによる病理画像と自然言語モデルの評価 [cs.CV, cs.AI]目的：病理画像と自然言語モデルの信頼性評価手法の開発
- 病理診断の効率化と精度向上に貢献する画像・言語モデルの活用が期待されている。
- 既存の評価指標では，モデルが生成する誤った記述（ハルシネーション）を捉えきれないという課題がある。
- ハルシネーションの検出と，ドメインシフトへのロバスト性を定量的に評価する指標を提供すること。
- PathGLSは，画像とテキストの対応，論理的一貫性，出力の安定性の3側面からモデルを評価する新しいフレームワークである。
- Quilt-1Mデータセットにおいて，PathGLSはハルシネーションレポートに対する感度低下をBERTScoreと比較して大幅に検出できた。
- 専門家定義のエラー階層との相関分析で，PathGLSはLLMベースの手法よりも高い性能を示した（ρ=0.71）。
Link: https://arxiv.org/abs/2603.16113
通り景観における分布外物体検出：合成外れ値曝露と転移学習による手法 [cs.RO, cs.NI, cs.CL, cs.CV]目的：分布外物体検出の性能向上
- 自動運転やロボット工学において，未知の物体を正しく認識することは安全性の確保に不可欠である。
- 既存手法では，分布外物体が検出されず背景として処理されることが課題となっていた。
- 本研究は，見過ごされがちな分布外物体を確実に検出する枠組みを確立することを目的とする。
- Stable Diffusion等の生成モデルとOVODを活用し，意味的に妥当な外れ値データを合成する手法を提案した。
- 合成データを用いた転移学習により，分布内物体検出性能と分布外物体検出ロバスト性を両立した。
- 提案手法は，既存のOOD物体検出ベンチマークにおいて最先端の平均精度を達成した。
Link: https://arxiv.org/abs/2603.16122
ゼロショット物体数推定における数量的・空間的認識の強化 [cs.CL, cs.CV]目的：任意のテキスト記述による物体数の推定
- 画像認識の発展と，人間のように数を把握するAIの実現が求められている。
- 既存手法は，粗い検索タスクとして扱うため，詳細な数量認識が不足している。
- 数量認識と空間認識を融合させ，未知のデータへの汎化性能を向上させる。
- 提案手法QICAは，数量認識とロバストな空間集約を組み合わせることで，既存手法の課題を克服した。
- 数値条件付きプロンプトを用いたSynergistic Prompting Strategy (SPS)により，意味認識と数量的推論のギャップを埋めている。
- Cost Aggregation Decoder (CAD)により，特徴量の歪みを抑制し，ゼロショット転移学習能力を維持している。
Link: https://arxiv.org/abs/2603.16129
過露出を考慮した赤外線・可視画像融合のための漸進的最適化手法：EPOFusion [cs.CV]目的：赤外線と可視画像の融合における過露出の影響軽減と，より高品質な融合画像の生成
- 近年の画像処理技術の発展に伴い，赤外線と可視画像の融合技術は様々な分野で活用されている。
- 過露出は実用的な場面で頻繁に発生し，重要な視覚情報の損失を引き起こすという課題がある。
- 過露出領域における赤外線特徴の抽出を改善し，高品質な融合画像を漸進的に生成することで，この課題の解決を目指す。
- 提案手法EPOFusionは，過露出領域において赤外線情報を保持しつつ，非過露出領域においても視覚的に忠実な融合を実現した。
- 新しい過露出画像データセット(IVOE)を構築し，高品質な赤外線ガイド付き注釈を提供することで，研究の発展に貢献した。
- 実験結果から，既存手法と比較して，EPOFusionは視覚的忠実性と下流タスクの性能を向上させることが示された。
Link: https://arxiv.org/abs/2603.16130
DualPrim：正と負のプリミティブによるコンパクトな3D再構成 [cs.CL, cs.CV]目的：3D形状のコンパクトかつ構造化された再構成
- 3D再構成は，デジタルコンテンツ制作や仮想現実など，多様な分野で重要である。
- 従来のニューラル再構成は，構造よりも忠実度を優先し，編集や再利用が困難なメッシュを生成する。
- 正と負の超二次関数を用いて，穴や凹みを含む形状を効率的にモデル化し，構造化された再構成を実現する。
- DualPrimは，既存の再構成手法と比較して，より高い精度で3D形状を再構成できる。
- 生成されるメッシュはコンパクトで構造化されており，編集やアニメーション，アセットの再利用に適している。
- 加算的な手法のみでは捉えきれない複雑な形状も，正と負のプリミティブを用いることで表現可能となる。
Link: https://arxiv.org/abs/2603.16133
生成拡張が有害となる場合：AI分類システムにおけるバイアス修正のためのGANと拡散モデルのベンチマーク研究 [cs.CV, cs.AI, cs.LG]目的：AI分類システムにおけるバイアス修正のためのGANと拡散モデルの性能評価
- AIシステムの公平性は重要であり，特にデータ不均衡によるバイアスは深刻な問題となる。
- データ量が少ない状況下では，生成モデルがバイアスを悪化させる可能性が指摘されている。
- 本研究は，GANの有害な影響を定量的に示し，適切な生成モデルの選択に貢献する。
- FastGANによる拡張は，データセットサイズが小さい場合に分類器のバイアスを増加させる。
- Stable Diffusion (LoRA) は，最も高いmacro F1スコア（0.9125 ± 0.0047）とバイアスギャップの13.1%削減を達成した。
- GAN拡張が有害となるのは，クラスあたり20～50枚以下の学習画像の場合である可能性が示唆された。
Link: https://arxiv.org/abs/2603.16134
UMMビジュアル生成の再考：効率的な画像のみ事前学習のためのマスクモデリング [cs.HC, cs.CL, cs.IR, cs.CL, cs.CV]目的：UMMのビジュアル生成における効率的な事前学習手法の開発
- 近年，UMMはマルチモーダルな情報処理において重要な役割を担う。
- UMMのビジュアル生成コンポーネントは，高コストでデータ依存性が高い。
- 画像のみを用いた効率的な事前学習により，UMMの性能向上を目指す。
- 本研究では，IOMMという2段階の学習フレームワークを提案し，学習効率と性能の向上が確認された。
- IOMM-B(3.6B)モデルは，約1050時間（画像のみ事前学習に1000時間）のGPU時間でトレーニングされた。
- GenEvalで0.89，WISEで0.55を達成し，既存の強豪モデルを上回る結果を示した。
Link: https://arxiv.org/abs/2603.16139
EFF-Grasp：物理を考慮した器用な把持生成のためのエネルギー場フローマッチング [cs.CV]目的：物理を考慮した器用な把持生成
- ロボット工学において，物体の把持は自動化の重要な要素である。安定かつ確実な把持を実現する必要がある。
- 既存の拡散モデルは計算コストが高く，不安定な軌跡が生じ，物理的に実現不可能な把持を生成する可能性がある。
- 物理的制約を満たす効率的かつ安定な把持生成手法を開発すること。
- EFF-Graspは，確率フローを通じて効率的かつ安定した把持生成を実現するフローマッチングに基づく新しいフレームワークである。
- 訓練不要の物理を考慮したエネルギーガイダンス戦略により，物理的に実現可能な把持への誘導を実現している。
- 5つのベンチマークデータセットにおいて，既存手法よりも優れた把持品質と物理的実現可能性を達成している。
Link: https://arxiv.org/abs/2603.16151
GATS：ガウス分布を考慮した時間的スケーリングTransformerによる不変な4D空間的時系列点群表現 [cs.DB, cs.CV, cs.AI]目的：4D点群動画の理解のための，ロバストかつ効率的なバックボーンの構築
- 動的な環境を認識する知能エージェントの実現には，4D点群動画の理解が不可欠である。
- フレームレートの変動や不規則な点群の分布的不確実性により，汎用的な4Dバックボーンの設計が困難である。
- 時間的・分布的な歪みを明示的に解決し，不変な4D点群動画理解を実現する。
- 提案手法GATSは，Uncertainty Guided Gaussian Convolution (UGGC)とTemporal Scaling Attention (TSA)という二つのモジュールを組み合わせている。
- UGGCは点群の密度変動，ノイズ，オクルージョンに対してロバストな特徴集約を可能にする。
- TSAはフレームレートの違いによる時間距離のばらつきを正規化し，高い認識精度とスケーラビリティを実現した。
Link: https://arxiv.org/abs/2603.16154
学術出版におけるAI生成画像：ポリシー，ツール，実践的ガイドライン [cs.CV, cs.CY]目的：学術出版におけるAI生成画像の利用に関する現状とガイドライン
- 科学的成果の迅速な伝達が重要であり，視覚的な表現はその鍵となる。
- AI生成画像の利用に関する出版社のポリシーが統一されておらず，混乱を招いている。
- AI生成画像を適切に利用するための具体的な指針を提示し，透明性を確保すること。
- 主要な学術誌・出版社におけるAI生成画像の使用に関するポリシーを調査した結果，一貫性がないことが判明した。
- 再現性，著者表示，誤情報の可能性などが，出版社が懸念する主な点であることがわかった。
- 適切な開示と品質管理を行うことで，AI生成画像は科学コミュニケーションを加速させることが可能である。
Link: https://arxiv.org/abs/2603.16159
染色前セグメンテーションが，仮想IHCから多重IFへの変換における構造的忠実性を向上させる [cs.CV]目的：仮想IHCから多重IFへの変換における構造的忠実性の向上
- 病理診断において，細胞の計数や空間配置は重要な指標であり，正確な定量が求められる。
- 現在の仮想染色技術では，核の形状や配置のわずかな歪みが定量結果に影響を及ぼす可能性がある。
- 本研究は，核セグメンテーションモデルを活用し，核の形状に関する事前情報を導入することで，この問題を解決することを目指す。
- 事前学習済みの核セグメンテーションモデルからの細胞確率マップを明示的な入力事前情報として組み込むことで，核の計数における忠実性が向上した。
- U-NetやResNetなどの様々な生成器において，一貫して核の形状と知覚品質が改善された。
- 本手法は，タスク固有のチューニングなしで，細胞レベルの多様性を維持しながら，局所的な強度統計を一致させる分散保存正則化項と組み合わせることで効果を発揮する。
Link: https://arxiv.org/abs/2603.16160
連続手話認識のためのキーポイント表現に対する時空間的注意機構：STARK [cs.CV, cs.CL]目的：連続手話認識のためのキーポイント表現の時空間的注意機構
- 聴覚障がい者のコミュニケーションを支援するため，手話の自動認識技術は重要である。
- 既存の手話認識モデルはパラメータ数が多く，計算コストが高いという課題がある。
- パラメータ数を削減しつつ，既存モデルと同等の性能を実現する手法を開発する。
- 提案手法は，時空間的な注意機構を統合し，ローカルな文脈を考慮した表現を獲得する。
- 既存の最先端モデルと比較して，パラメータ数を70-80%削減しつつ，同等の性能を達成した。
- Phoenix-14Tデータセットでの評価により，提案手法の有効性が確認された。
Link: https://arxiv.org/abs/2603.16163
可視光・赤外線人物再識別における一貫性に基づく段階的再ランク付け [cs.PF, cs.CV, cs.AI]目的：可視光・赤外線人物再識別における性能向上
- 人物再識別は，監視カメラ等による人物特定に不可欠であり，セキュリティ向上に貢献する。
- 可視光と赤外線の画像間には差異があり，従来の再ランク付け手法では十分な精度が得られない。
- 異なるモダリティ間の一致と，同一モダリティ内の変動を同時に考慮した再ランク付け手法を確立する。
- 提案手法は，可視光と赤外線の関係性を考慮した再ランク付けモジュールと，同一モダリティ内の一貫性を評価するモジュールを組み合わせる。
- 実験により，提案手法が汎用性を持ち，最先端の性能を達成することが示された。
- 一貫性再ランク付け推論ネットワーク(CRI)という新たなベースラインを提案し，高い性能を示した。
Link: https://arxiv.org/abs/2603.16165
SignNav：大規模屋内環境における標識を活用した意味的視覚ナビゲーション [cs.RO, cs.CV]目的：標識からの意味的ヒント解釈と，現在の観測に基づく行動推論
- 人が大規模な屋内環境で目的地に到達する際，標識は重要な役割を果たす。その能力はナビゲーション分野で未だ十分に探求されていない。
- 標識の配置が疎で，意味的ヒントが変化するため，屋内環境でのナビゲーションは困難である。
- 標識からの意味的ヒントに基づいたナビゲーションタスクSignNavを解決し，実環境での実用性を検証すること。
- 本研究では，空間・時間認識Transformer（START）モデルを提案し，エンドツーエンドでの意思決定を可能にした。
- STARTモデルは，標識の意味的ヒントを物理世界に結びつけ，過去の状態と現在の観測間の長距離依存性を捉える。
- Dataset Aggregation（DAgger）を用いた二段階の学習戦略により，検証用データセットで80%の成功率と0.74のNDTWを達成した。
Link: https://arxiv.org/abs/2603.16166
MLLMによる360度画像認識：包括的ベンチマークと学習不要手法 [cs.CV, cs.AI]目的：360度画像に対するMLLMの認識能力の評価と改善
- 近年，MLLMは画像理解で高い能力を示すが，360度画像への対応は遅れている。
- 360度画像は空間認識に有用だが，幾何学的歪みや複雑な空間関係が課題となる。
- 360度画像におけるMLLMの弱点を克服し，高精度なVQAを実現することを目指す。
- 360Benchベンチマークを用いて7つのMLLMを評価した結果，360度画像認識に課題があることが明らかになった。
- Free360は学習不要で，シーングラフに基づき360度画像のVQA性能を向上させる。
- Free360は，適応的な球面画像変換と統一されたグラフ表現により，推論プロセスをモジュール化する。
Link: https://arxiv.org/abs/2603.16179
KidsNanny：視覚分類，物体検出，OCR，文脈推論を統合した二段階マルチモーダルコンテンツモデレーションパイプライン - 子供の安全のために [cs.RO, cs.CV, cs.CR]目的：子供の安全を目的としたマルチモーダルコンテンツモデレーションのアーキテクチャ
- オンライン上の子供に対する有害コンテンツの増加に対応する必要がある
- 既存のコンテンツモデレーションシステムは，処理速度と精度で課題を抱えている
- マルチモーダルな情報を用いて，より効率的かつ正確なコンテンツモデレーションを実現する
- KidsNannyは，11.7ミリ秒で視覚スクリーニングを行い，精度80.27%，F1スコア85.39%を達成した。
- フルパイプライン（120ミリ秒）は，精度81.40%，F1スコア86.16%であり，既存のシステム（ShieldGemma-2，LlavaGuard）を凌駕した。
- 特にテキスト埋め込み型脅威に対して，OCRに基づく推論が再現率と適合率の向上に貢献する可能性が示唆された。
Link: https://arxiv.org/abs/2603.16181
ECHO：言語指示によるヒューマノイドロボットの動作制御のためのエッジクラウド連携 [cs.CV]目的：言語による全身制御を可能にするヒューマノイドロボット向けのエッジクラウドフレームワーク
- ロボットの自律的な動作は，労働力不足や危険な環境下での作業を支援する上で重要である。
- 自然言語によるロボット制御は直感的だが，複雑な動作生成や実環境での適応が課題である。
- 本研究は，言語指示から直接ロボットの動作を生成し，実環境での安定動作を実現することを目指す。
- クラウド上で拡散モデルを用いて自然言語から動作を生成し，エッジで強化学習によりそれを実行するフレームワークを開発した。
- HumanML3Dベンチマークにおいて，高い生成品質（FID 0.029, R-Precision Top-1 0.686）と安全性，軌道の一貫性を実現した。
- Unitree G1ヒューマノイドロボットを用いた実環境実験で，ハードウェアの微調整なしに多様な言語指示に従った安定した動作を実証した。
Link: https://arxiv.org/abs/2603.16188
マルチタスク・マルチ報酬強化学習によるSVG-LLMの信頼性向上 [cs.CV]目的：SVG生成におけるモデルの推論過程の明確化と，構造的な一貫性及び視覚的な忠実性の向上
- 近年のビジョン言語モデルの進展に伴い，SVG生成への応用が期待されており，その重要性が高まっている。
- 既存手法では，汎化性能の限界，冗長なパスの生成，そして明示的な推論能力の欠如が課題となっていた。
- 本研究は，思考連鎖メカニズムを導入し，SVG生成におけるモデルの推論過程を可視化することで，上記課題の解決を目指す。
- CTRL-Sは，思考連鎖メカニズムを導入し，高品質なデータセットSVG-Sophiaを活用することで，SVGコードの構造的整合性と視覚的品質を大幅に向上させた。
- GRPOアルゴリズムとマルチ報酬最適化フレームワークを採用し，DINO，画像-テキスト類似度，形式，コード効率の報酬を組み合わせることで，生成能力を総合的に強化した。
- 実験結果から，CTRL-Sは既存手法を凌駕し，高いタスク成功率，優れたSVGコード品質，そして卓越した視覚的忠実度を達成した。
Link: https://arxiv.org/abs/2603.16189
S-VAM：自己蒸留による幾何学的・意味的先見を用いたショートカットビデオアクションモデル [cs.CL, cs.CV, cs.RO]目的：ロボット学習のための，幾何学的および意味的先見を用いたショートカットビデオアクションモデル
- ロボットの複雑な操作タスクにおいて，視覚的な先見性は重要な役割を果たす。効率的なロボット制御に不可欠である。
- 既存のビデオアクションモデルは，リアルタイム性と高精度な先見性を両立できないという課題がある。処理速度と精度のトレードオフが存在する。
- S-VAMは，幾何学的・意味的表現を効率的に予測し，リアルタイム性と高精度を両立することで，この課題を解決することを目指す。
- S-VAMは，単一のフォワードパスで一貫性のある幾何学的・意味的表現を予測することで，行動予測を簡素化する。
- 自己蒸留戦略により，多段階ノイズ除去の構造化された生成事前知識を，単段階推論に凝縮することに成功した。
- シミュレーションと実環境の両方で，最先端の方法よりも優れた性能を示し，複雑な環境下での効率的かつ正確な操作を可能にした。
Link: https://arxiv.org/abs/2603.16195
Leveling3D：フィードフォワード3Dガウススプラッティングとジオメトリを意識した生成による3D再構成のレベルアップ [cs.CV]目的：フィードフォワード3D再構成とジオメトリ整合性のある生成の統合
- 3Dビジョン技術は，現実世界の理解や新しい視点からの画像生成など，様々な応用において重要性が増している。
- 既存手法では，再構成結果の不完全な箇所を修正する際に，幾何学的な情報を考慮せず，補完が不十分になる場合がある。
- 幾何学的情報を考慮した生成パイプラインを開発し，より高品質な3D再構成と新規視点合成を実現することを目指す。
- Leveling3Dは，フィードフォワード3D再構成と拡散モデルを組み合わせることで，全体的な再構成と生成を同時に行う新しいパイプラインを提案している。
- ジオメトリを意識したレベル調整アダプターにより，拡散モデルの知識とフィードフォワードモデルの幾何学的情報を整合させ，不足している領域を効果的に補完する。
- 提案手法は，既存の公開データセットにおいて，新規視点合成や深度推定などのタスクで最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.16211
床反力慣性ポーズ推定：疎なIMUとインソール圧力センサーからの物理ベース人体モーションキャプチャ [cs.RO, cs.CV, cs.RO]目的：疎なIMUとインソール圧力センサーを用いた物理的に妥当な人体モーションの再構成
- モーションキャプチャ技術は，人間と機械のインタラクションやリハビリテーションなど，多様な分野で重要な役割を担う。
- 従来のIMUのみのアプローチでは，全身の動きを正確に捉えきれない場合があり，特に床面との相互作用の再現が課題である。
- 本研究は，IMUとインソール圧力センサーの融合により，より正確で物理的に妥当な人体モーションの再構成を目指す。
- 提案手法GRIPは，IMU信号と足底圧力データを組み合わせることで，身体のダイナミクスと地面との相互作用を同時に捉える。
- GRIPは，物理シミュレーター内の合成ヒューマノイドを用いて，より現実的で物理的に整合性の高いモーションを再構成する。
- 実験結果から，GRIPは既存のIMUのみ，およびIMU-圧力融合手法よりも高い精度で全身のポーズを推定し，物理的な一貫性も向上することが示された。
Link: https://arxiv.org/abs/2603.16233
PureCLIP-Depth：CLIP埋め込み空間内でのプロンプトフリー・デコーダーフリー単眼深度推定 [cs.CV]目的：単眼深度推定の実現
- 深度推定は，ロボット工学や自動運転など，様々な分野で重要な役割を果たす。
- 従来の深度推定は，幾何学的特徴に依存しており，概念的な理解が不足している。
- 概念的な情報に基づいて，より高精度な単眼深度推定を実現すること。
- 本研究では，CLIP埋め込み空間内で直接RGB画像から深度を推定する新しい手法を提案する。
- この手法は，プロンプトやデコーダーを必要とせず，従来のCLIP埋め込みベースモデルよりも優れた性能を示す。
- 屋内および屋外データセットにおいて，最先端の結果を達成した。
Link: https://arxiv.org/abs/2603.16238
排他性ガイド付きマスク学習による半教師あり群衆インスタンスセグメンテーションとカウント [cs.RO, cs.CV]目的：半教師あり群衆インスタンスセグメンテーションとカウントのための手法
- 群衆解析は，ラベルなしデータが豊富に存在するため重要である。効率的な解析手法の確立が求められている。
- 従来の点ベースのアノテーションでは，個々の領域の曖昧さにより，詳細な構造的意味を学習することが困難である。
- 疎なアノテーションからの学習における課題を克服し，高精度なセグメンテーションとカウントを実現することを目指す。
- 提案手法では，Nearest Neighbor Exclusion Circle（NNEC）制約に基づくExclusion-Constrained Dual-Prompt SAM（EDP-SAM）を用いてマスクの教師データ生成を行う。
- 排他性ガイド付きマスク学習（XMask）により，空間的な分離を強制し，識別的なマスク目的関数を用いることで，高精度なセグメンテーションを達成した。
- ShanghaiTech A，UCF-QNRF，JHU++データセットでの実験により，最先端の半教師ありセグメンテーションとカウント性能が確認された。
Link: https://arxiv.org/abs/2603.16241
表現を意識した状態空間モデルによる光場超解像 [cs.CV, cs.AI]目的：光場超解像の精度向上
- 光場画像は多視点情報を持つため，没入感の高い映像体験を提供できる。
- 既存手法では，光場の様々な表現方法の補完性を十分に活用できていない。
- 複数の光場表現間の構造的な相関を明示的にモデル化することで，超解像の質を改善する。
- 提案手法RASLFは，異なる光場表現間の相関を考慮した状態空間モデルであり，高い再構成精度を実現した。
- パノラマエピポーラ表現を用いたProgressive Geometric Refinementブロックにより，多視点間の視差を正確に捉える。
- Representation Aware Asymmetric Scanning機構は，計算効率と性能のバランスを最適化する。
Link: https://arxiv.org/abs/2603.16243
2D構造理解のための補完的な視覚・テキスト情報の活用法 [cs.CL, cs.CV, cs.CL]目的：2D構造理解における視覚情報とテキスト情報の補完的な活用
- 表形式データ処理は，情報抽出や知識獲得において重要な役割を担う。
- 既存手法では，表の2D構造が失われたり，テキスト情報が正確に保持されなかったりする課題がある。
- 視覚情報とテキスト情報の相補性を活かし，表の2D構造をより正確に理解することを目指す。
- 提案手法DiVA-Formerは，視覚情報をクエリとして活用し，テキスト情報を効率的に要約する。
- 13の表形式データベンチマークにおいて，純テキストベースラインと比較して23.9％の性能向上を達成した。
- 既存のベースライン手法と比較しても，視覚情報，テキスト情報，または両方の組み合わせにおいて一貫した改善が見られた。
Link: https://arxiv.org/abs/2603.16245
深層学習と生物学的ヒューリスティクスを融合した極端な長尾型白血球分類 [cs.CV]目的：極端な長尾型白血球分類における汎化性能向上
- 白血病スクリーニングにおいて，白血球分類の自動化は不可欠である。
- 既存の深層学習モデルは，クラス不均衡により優勢なクラスに過学習し，希少なサブタイプで失敗する。
- 本研究は，生物学的知識に基づき深層学習モデルの性能を改善し，希少なサブタイプの分類精度を高める。
- 提案手法は，WBCBench 2026チャレンジにおいて，0.77139のMacro-F1スコアを達成した。
- アーチファクト除去，ロバストな表現学習，そして生物学的制約による予測の改善が，優れた性能に貢献した。
- 深層学習に生物学的知識を組み込むことの有効性が示された。
Link: https://arxiv.org/abs/2603.16249
意味的探索による視覚的プロンプトの発見 [cs.CV, cs.AI]目的：タスクごとの視覚的プロンプトの発見
- 画像理解と視覚的推論は，大規模視覚言語モデルの性能を左右する重要な課題である。
- 既存手法は，視覚的プロンプト生成において，ツールの選択に焦点を当て，根本的な原因の特定と軽減が不十分である。
- 本研究は，大規模視覚言語モデルの認識の失敗を自動的に診断し，軽減するための視覚的プロンプト探索を目的とする。
- SEVEXは，BlindTestとBLINKのベンチマークにおいて，タスク精度，推論効率，探索効率，探索安定性において，ベースライン手法を大きく上回る性能を示した。
- 本フレームワークは，従来のツール使用を超えた，洗練された反直感的な視覚戦略を発見し，大規模視覚言語モデルの認識能力を向上させる新たなパラダイムを提供する。
- 抽象的なアイデア空間を探索空間として活用し，新規性に基づいた選択アルゴリズムと，意味的フィードバック駆動型の発想プロセスにより，効率的な探索を実現している。
Link: https://arxiv.org/abs/2603.16250
スコアの根拠化：信頼性の高い視覚言語プロセス報酬モデルのための明示的な視覚前提検証 [cs.CV, cs.AI]目的：視覚言語プロセス報酬モデルの評価における，視覚的根拠の明示的な検証手法
- 視覚言語モデルは複雑な推論タスクにおいて重要性を増しており，その性能評価が不可欠である。
- 既存の報酬モデルは，視覚情報の解釈と推論の区別が曖昧で，誤った評価を生じやすい。
- 視覚的根拠の信頼性を明示的に検証することで，報酬モデルの精度と信頼性を向上させる。
- 提案手法EVPVは，ステップごとの視覚的チェックリストと，画像から抽出された制約との照合により，視覚的根拠の信頼性を評価する。
- EVPVは，信頼性の低い視覚的根拠に基づくステップの報酬を減衰させることで，知覚的不確実性と論理的評価を分離する。
- VisualProcessBench等のベンチマークにおいて，EVPVはステップレベルの検証精度を向上させ，Best-of-Nリランキングの精度を大幅に改善した。
Link: https://arxiv.org/abs/2603.16253
思考が邪魔をする時：フレーム繰り返しによる動画推論における視覚的忘却の緩和 [cs.CV]目的：動画推論における視覚的忘却の緩和
- 動画理解は，AIの発展において重要な課題であり，様々な応用が期待される。
- 動画推論において，思考の深掘りが必ずしも性能向上に繋がらず，視覚情報の軽視を引き起こすことがある。
- フレームの繰り返しにより，重要な視覚的情報を強化し，より正確な推論を可能にすることを目指す。
- 提案手法FrameRepeatは，フレームの重要度を自動的に評価し，繰り返し表示するフレームを選択する。
- Add-One-Inという新たな学習戦略を用いることで，フレーム繰り返しによる性能向上を促す。
- 複数のモデルとデータセットで実験を行った結果，FrameRepeatが汎用的に有効であることが示された。
Link: https://arxiv.org/abs/2603.16256
点からマスクへ：任意の点アノテーションからマスクレベル赤外線微小目標検出へ [cs.CV]目的：赤外線微小目標検出における点アノテーションからマスクレベルでの検出
- 赤外線微小目標検出は，監視や軍事用途など，多様な分野で不可欠な技術である。
- 従来のピクセルレベルのセグメンテーションは，高コストな密なアノテーションが必要で，微小目標には不向きである。
- 本研究は，低コストな点アノテーションから高精度なマスクレベル検出を実現し，アノテーションコストを削減する。
- 提案手法Point-to-Maskは，物理に基づいた適応的なマスク生成モジュールと，半径を考慮した点回帰ネットワークで構成される。
- PAMGモジュールが点アノテーションをコンパクトなターゲットマスクと幾何学的キューに変換し，RPR-Netがターゲット中心の局所化と有効半径の回帰を行う。
- 実験結果から，提案手法は優れた擬似ラベル品質と高い検出精度を示し，点アノテーションのみでフルスーパービジョンに匹敵する性能を達成する。
Link: https://arxiv.org/abs/2603.16257
悪天候下でのロバストな多Modal 3D物体検出のためのAll-Weather Mixture of Experts [cs.CV, cs.AI]目的：悪天候下でのロバストな多Modal 3D物体検出手法
- 自動運転の実現には不可欠であり，安全性向上に大きく貢献する。
- 異なる天候条件におけるデータ分布の差異が無視されており，性能低下を招く。
- 天候条件に応じた専門家ネットワークを用いて，データ分布の差異を解決すること。
- 提案手法AW-MoEは，最先端手法と比較して悪天候下での性能を約15%向上させた。
- 画像特徴を利用したWeather-aware Routingにより，天候分類の精度を高めた。
- 既存のベースライン検出器に統合することで，さらなる性能向上が確認された。
Link: https://arxiv.org/abs/2603.16261
微表情認識のための運動過程分解による詳細な意味的ガイダンス学習 [cs.CV]目的：微表情認識における詳細な意味的ガイダンス学習
- 人体の微細な動きは，コミュニケーションにおいて重要な役割を果たす。そのため，正確な認識が求められる。
- 既存の手法では，微表情の微妙な差異を捉えきれていない。粗い分類レベルでの指導では限界がある。
- 詳細な意味的ガイダンスを用いて，微表情の局所的な運動特徴の学習を改善することを目指す。
- 提案手法FG-SGLは，詳細な意味的情報とカテゴリレベルの意味的情報を統合することで，微表情の局所的な運動を効果的に認識する。
- 詳細なテキストデータセットを構築し，微表情の動的な過程を4つの意味次元で記述することで，詳細な意味的ガイダンスを可能にした。
- マルチレベルコントラスト最適化戦略により，両モジュールを粗い粒度から細かい粒度へと最適化し，高い性能を実現した。
Link: https://arxiv.org/abs/2603.16269
VIGOR：時系列生成アラインメントのためのビデオ幾何指向報酬 [cs.RO, cs.CV]目的：ビデオ生成モデルの幾何学的整合性向上
- 動画生成技術は，現実世界の映像を再現する上で重要な役割を担う。
- 既存の動画拡散モデルは幾何学的制約が弱く，歪みや不整合が生じやすい。
- 幾何学に基づいた報酬モデルで整合性を評価し，高品質な動画生成を実現する。
- 提案手法は，事前学習済みの幾何モデルを用いて，フレーム間の再投影誤差により整合性を評価する。
- 本研究では，テクスチャの少ない領域や意味のない領域をフィルタリングすることで，よりロバストな評価を実現した。
- 実験結果から，提案手法が他の手法と比較して優れた頑健性を持つことが確認された。
Link: https://arxiv.org/abs/2603.16271
CAST-TTS：TTSにおける統一的な音色制御のための単純なクロスアテンションフレームワーク [cs.RO, stat.ML, cs.SD, eess.AS]目的：TTSにおける統一的な音色制御
- 音声合成技術は，人間と機械のコミュニケーションにおいて不可欠であり，その品質向上は重要な課題である。
- 従来のTTSでは，音色制御に複数のモデルが必要であり，複雑さと計算コストが増大する問題があった。
- 本研究は，単一のモデルで多様な音色制御を実現し，より効率的で高品質な音声合成を可能にすることを目指す。
- 提案手法CAST-TTSは，事前学習済みのエンコーダとクロスアテンション機構を用いることで，音声とテキストの情報を統合的に処理する。
- 多段階の学習戦略により，音声とテキストの特徴表現を共有の埋め込み空間に効率的に配置し，音色制御の精度を高める。
- 実験結果から，CAST-TTSは単一入力モデルと同等の性能を示し，統一的なアーキテクチャの有効性が確認された。
Link: https://arxiv.org/abs/2603.16280
位置特定とスパース化：視覚的幻覚軽減のための属性誘導疎性戦略 [cs.SC, math.AG, cs.CV, cs.LG]目的：大規模視覚言語モデルにおける幻覚軽減策の検討
- 大規模視覚言語モデルは目覚ましい進歩を遂げているが，実用化には信頼性が不可欠である。
- 既存の幻覚軽減手法は，モデル全体の層に対して一律に適用されるため，性能低下を招く場合がある。
- 層ごとの幻覚関連度に基づき，より精密な特徴制御を実現し，性能劣化を防ぐことを目指す。
- 提案手法LTS-FSは，幻覚関連度に応じて層ごとの特徴制御強度を調整する。
- 合成データセットと因果介入に基づく属性化手法を用いて，各層の幻覚関連度を定量化する。
- 複数の大規模視覚言語モデルとベンチマークにおける実験により，幻覚を効果的に軽減しつつ，高い性能を維持できることを実証した。
Link: https://arxiv.org/abs/2603.16284
継続的なキャラクターカスタマイズによる持続的なストーリー世界シミュレーション [cs.CV]目的：ストーリー世界の継続的なキャラクターカスタマイズ
- ストーリー視覚化はコンピュータビジョンの注目分野であり，エンターテイメントや教育への応用が期待される。
- 既存手法では，正確なキャラクターカスタマイズ，意味的整合性，新しいアイデンティティの継続的な統合が課題となっていた。
- キャラクターの忠実性を保ちつつ，効率的に多人数でのストーリー生成を可能にすることを目標とする。
- 本研究で提案するEverTaleは，統一されたLoRAモジュール内で継続的なキャラクター適応を実現し，キャラクターごとの最適化モジュールの必要性を解消する。
- 大規模言語モデル(MLLM)を活用したキャラクター品質ゲートを導入し，思考連鎖による推論を通じて各キャラクター適応プロセスの忠実性を確保する。
- キャラクターを意識した領域焦点サンプリング戦略により，既存の多人数ストーリーテリングにおけるアイデンティティ劣化やレイアウトの競合に対処する。
Link: https://arxiv.org/abs/2603.16285
VisBrowse-Bench：マルチモーダルブラウジングエージェントのための視覚ネイティブ検索のベンチマーク [cs.CV, cs.AI]目的：視覚ネイティブ検索のためのベンチマーク
- マルチモーダルLLMの発展により，現実世界の情報を取得・推論するブラウジングエージェントが実現しつつある。
- 既存のベンチマークは，視覚的推論能力の評価不足と，Webページの視覚情報の活用不足という課題がある。
- 視覚的推論能力を評価し，Webページの視覚情報を効果的に活用できるベンチマークを開発すること。
- VisBrowse-Benchは，多様なドメインを網羅する169のVQAインスタンスで構成され，マルチモーダルな証拠検証を通じて視覚的推論能力を評価する。
- 実験の結果，最優秀モデルであるClaude-4.6-Opusでも精度は47.6%に留まり，o3-deep-researchは41.1%であった。
- 本研究では，ブラウジングエージェントが視覚情報を積極的に収集・推論するワークフローも提案している。
Link: https://arxiv.org/abs/2603.16289
マイクロAU CLIP：局所的独立性から全体的依存性への微細表情行動単位検出のためのきめ細かいコントラスト学習 [cs.CL, cs.RO, cs.CV]目的：微細表情行動単位（マイクロAU）の検出
- 感情分析において，客観的な指標となるマイクロAUの重要性が高まっている。
- 既存手法は顔全体に着目し，AUの局所性を捉えきれていない。
- マイクロAUの局所性と全体的依存性を考慮した検出手法を開発する。
- 提案手法Micro-AU CLIPは，マイクロAU検出を局所的独立性モデリングと全体的依存性モデリングに分解する。
- Patch Token Attention (PTA) により，AU領域内の局所特徴を同一特徴空間にマッピングする。
- Global Dependency Attention (GDA) と Global Dependency Loss (GDLoss)により，AU間の全体的依存関係をモデル化し，最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.16302
DriveFix：時空間一貫性のあるドライビングシーン復元 [cs.RO, cs.CV]目的：ドライビングシーンの時空間一貫性
- 自動運転の実現には，周囲環境の正確な3次元モデルが不可欠である。
- 既存手法では，フレーム間の空間的ずれや時間的変動が課題となっていた。
- 本研究は，カメラ間の空間的一貫性と時間的依存性を明示的にモデル化することで，この課題を解決する。
- 提案手法DriveFixは，複数のデータセットで最先端の性能を達成した。
- 時系列データの整合性を保ちながら，高精度なシーン復元と新規視点からの合成が可能となった。
- これにより，実世界での自動運転に向けた堅牢な4次元世界モデル構築に大きく貢献する。
Link: https://arxiv.org/abs/2603.16306
非小細胞肺癌の薬剤応答解析のための解釈可能な機械学習フレームワーク [cs.RO, cs.CV, cs.AI, cs.LG]目的：非小細胞肺癌の薬剤応答予測モデルの構築と解釈
- 肺癌は依然として主要な死因であり，個別化医療の重要性が高まっている。
- 癌の多様性により，従来の治療法は効果が限定的である場合がある。
- 患者の遺伝情報に基づいた薬剤応答予測による個別化治療の実現を目指す。
- XGBoost回帰モデルを用いて，癌の分子および細胞特徴から薬剤応答を予測した。
- SHAP値を用いてモデルの予測における各特徴量の寄与度を評価し，解釈可能性を高めた。
- DeepSeekを用いて特徴量の生物学的妥当性を検証し，重要な遺伝子や経路に関する文脈的説明を提供した。
Link: https://arxiv.org/abs/2603.16330
SpikeCLR：スパイクニューラルネットワークを用いたイベントベースビジョンのためのコントラスティブ自己教師あり学習 [cs.RO, cs.CV]目的：イベントデータからのロバストな視覚表現学習
- 高速知覚に優れるイベントベースビジョンは，低消費電力で組み込みシステムへの応用が期待される。
- 効果的な学習には大規模なラベル付きデータが必要だが，イベントベースデータセットは不足している。
- ラベルなしデータを用いた事前学習により，少ないラベルでの学習性能向上を目指す。
- 提案手法SpikeCLRは，コントラスティブ自己教師あり学習により，イベントデータからSNNの視覚表現を学習する。
- CIFAR10-DVS等のデータセットで，事前学習とファインチューニングが，教師あり学習よりも低データ環境で高い性能を示す。
- 空間および時間的なデータ拡張の組み合わせが，イベントデータの効果的な時空間的不変性の学習に重要である。
Link: https://arxiv.org/abs/2603.16338
単眼深度推定のための拡散モデルへの現実世界の事前知識の導入：Iris [cs.CV]目的：単眼深度推定における現実世界の事前知識の統合
- 深度推定は，自動運転やロボット工学など，多くの分野で重要な役割を担う。
- 既存手法は大量のデータが必要で，詳細な情報の再現が課題であった。
- 現実世界の事前知識を取り入れ，合成データから現実世界への汎化性能を高める。
- 提案手法Irisは，拡散モデルに現実世界の事前知識を統合することで，詳細な情報を保持し，汎化性能を向上させる。
- 2段階のPGDスケジュールにより，低周波数の事前知識と高周波数の詳細を効率的に学習する。
- 実験結果から，Irisが単眼深度推定において顕著な性能向上と，現実環境での高い汎化性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.16340
PKINet-v2：高性能かつ効率的な多カーネルリモートセンシング物体検出へ [cs.CV]目的：リモートセンシング画像における物体検出の高性能化と効率化
- リモートセンシングは広範囲な地理情報を効率的に収集でき，災害監視や都市計画に不可欠である。
- 既存手法では，対象物の形状やサイズ多様性への対応が不十分で，検出精度と処理速度の課題があった。
- 多様な形状・サイズの物体を効率的に検出し，背景雑音の影響を軽減することを目指す。
- PKINet-v2は，異方性カーネルと等方性カーネルを組み合わせることで，多様な形状の物体を効率的に検出する。
- 提案手法は，DOTA-v1.0，DOTA-v1.5，HRSC2016，DIOR-Rの4つのベンチマークで最先端の精度を達成した。
- PKINet-v1と比較して，3.9倍のフレームレートで処理速度を向上させ，効率性と有効性の両立を実現した。
Link: https://arxiv.org/abs/2603.16341
LiDAR点群からの3D人体姿勢推定における人間-物体インタラクション学習 [cs.CV]目的：3D人体姿勢推定の堅牢性向上
- 自動運転における歩行者安全確保は重要であり，LiDAR点群からの人間理解は不可欠である。
- 多様な人間-物体インタラクションや背景の複雑さにより，LiDAR点群からの正確な姿勢推定は困難である。
- 人間-物体インタラクションを活用し，空間的曖昧さとクラス不均衡を解消することを目指す。
- 人間-物体インタラクションを考慮したコントラスト学習（HOICL）により，インタラクション領域における人間と物体の特徴識別能を向上させた。
- 接触を意識した部位ガイドプーリング（CPPool）により，表現能力を動的に再配分し，インタラクション頻度の高い部位の情報を保持した。
- 時間的な接触情報に基づいた改良手法により，フレームごとの姿勢推定誤差を軽減し，推定精度を高めた。
Link: https://arxiv.org/abs/2603.16343
YOLOベース深層学習によるイクロモノガイ科ハチの自動同定：説明可能なAIのためのHiresCamとの統合 [cs.CV, cs.AI, cs.LG]目的：イクロモノガイ科ハチの自動同定システム
- 生物多様性評価や生態モニタリング，生物的防除において，寄生蜂の正確な分類は不可欠である。
- 形態的類似性，小型，種間での微細な違いから，手動による同定は手間がかかり専門知識が求められる。
- 深層学習を用いてイクロモノガイ科ハチの自動同定を実現し，分類の効率化と精度向上を目指す。
- 提案システムは，高解像度画像からハチの科を同時に同定することが可能である。
- 実験結果は，96％を超える高い精度と，形態的変異に対する頑健な汎化性能を示した。
- HiResCAM可視化により，モデルが翅脈，触角の分節，メタソマ構造などの分類学的特徴に注目していることが確認された。
Link: https://arxiv.org/abs/2603.16351
D³-RSMDE：40倍高速かつ高精度なリモートセンシング単眼深度推定 [cs.HC, cs.DB, cs.CV, cs.AI]目的：リモートセンシング画像からの単眼深度推定における精度と効率の最適化
- リモートセンシングは，都市計画，災害監視など，多岐にわたる分野で重要な役割を担っている
- 既存手法は，精度と処理速度のトレードオフが課題であり，リアルタイム処理が困難な場合が多い
- 高精度かつ高速な深度推定を実現し，リモートセンシング応用のリアルタイム性を向上させる
- 提案手法D³-RSMDEは，既存モデルMarigoldと比較して，LPIPS指標で11.85%の改善を達成した
- 推論速度は40倍以上向上し，VRAM使用量は軽量なViTモデルと同程度に抑えられた
- ViTベースのモジュールと拡散モデルの利点を組み合わせることで，効率と品質のバランスを実現した
Link: https://arxiv.org/abs/2603.16362
水中ミッションのためのリアルタイム水中の画像強調：色精度向上 [cs.CV]目的：水中画像強調による信頼性のある視覚情報の提供
- 水中環境は光の吸収・散乱が激しく，視覚情報取得が困難であるため，水中ロボット等の運用において重要である。
- 既存手法は高性能だが計算負荷が高く，リアルタイム処理には不向きである。軽量な手法は画質が劣る場合がある。
- 水中環境下での画像劣化を改善し，色精度を保ちつつリアルタイム処理を可能にする手法を開発する。
- 提案手法は，8つのデータセットにおいて7つの評価指標で最先端の性能を達成した。
- 推論パラメータ数はわずか3,880個で，推論速度は409 FPSである。
- 多様な環境条件下でUCIQEスコアを29.7%改善し，ROVへの実装と下流タスクでの性能向上により優位性が実証された。
Link: https://arxiv.org/abs/2603.16363