arXiv雑要約

画像・音声 - 2026/03/27 公開

SDD-YOLO：エッジ効率的な展開による，地上対空UAV監視のための小標的検出フレームワーク [cs.CV]目的：地上対空UAV監視のための小標的検出
- UAVの利用増加に伴い，低空域監視の重要性が高まっている。特に，小規模なUAVの検出は安全保障上重要な課題である。
- 従来の物体検出手法では，小標的のピクセル占有率が低く，検出が困難である。また，リアルタイム処理の制約も課題となる。
- 本研究は，小標的の検出精度を高め，エッジデバイスでの効率的な展開を可能にすることを目指す。
- 提案手法SDD-YOLOは，DroneSOD-30Kデータセットにおいて，mAP@0.5で86.0%を達成し，YOLOv5nを7.8%上回る性能を示した。
- SDD-YOLOは，NVIDIA RTX 5090上で226 FPS，Intel Xeon CPU上で35 FPSという高速な推論速度を実現し，エッジ展開に適している。
- P2高解像度検出ヘッドの導入により，微小標的における空間的な詳細情報を捉えることが可能となった。
Link: https://arxiv.org/abs/2603.25218
訓練不要な未知の外科用器具の検出と6D姿勢推定 [cs.CL, cs.CV]目的：未知の外科用器具の検出と6D姿勢推定
- 手術支援においては，正確な器具の認識が不可欠であり，安全性向上に貢献する。
- 教師あり学習は新規器具への対応が難しく，大量のアノテーションが必要となる。
- CADモデルのみを用いて，未知の器具に対する検出と姿勢推定を可能にすること。
- 提案手法は，実世界のMVPSPデータセットにおいて，教師あり学習と同等の精度でミリメートル単位の姿勢推定を達成した。
- 訓練データなしで，未知の器具に対しても汎化性能を維持し，手術シーンでの検出・追跡の実現性を示した。
- 最先端の基盤モデル，多視点幾何，および輪郭ベースの改良を組み合わせることで，高精度な姿勢推定を実現する。
Link: https://arxiv.org/abs/2603.25228
バングラデシュにおける一般的な皮膚疾患の画像データセットと機械学習モデルによる性能評価 [cs.CV, cs.LG]目的：バングラデシュにおける一般的な皮膚疾患検出のための画像データセット
- 皮膚疾患は世界的な公衆衛生上の課題であり，専門家による診断が不可欠である。
- バングラデシュでは皮膚科医や診断機器が不足しており，適切な診断と治療が困難である。
- 機械学習を用いて皮膚疾患を画像から自動検出することを目指す。
- バングラデシュの患者から収集した1612枚の画像からなるデータセットを公開する。
- 接触皮膚炎，白斑，湿疹，疥癬，輪癬の5つの一般的な皮膚疾患に焦点を当てている。
- 様々な機械学習および深層学習モデルをデータセットに適用し，分類性能を報告した。
Link: https://arxiv.org/abs/2603.25229
空間構造化タスクに対する転移性の高い変換ベース攻撃のための統一的な空間アライメントフレームワーク [cs.CV]目的：空間構造化タスクにおける転移性の高い変換ベース攻撃の空間アライメント
- 画像認識技術は，自動運転や医療診断など幅広い分野で不可欠であり，その堅牢性が重要である。
- 既存の敵対的攻撃手法は，特にセマンティックセグメンテーションや物体検出といった空間構造化タスクにおいて，性能が低下する課題がある。
- 入力画像とラベル間の空間的なずれを修正することで，空間構造化タスクに対する敵対的攻撃の有効性を向上させる。
- 提案手法である空間アライメントフレームワーク（SAF）は，空間構造化タスクに対する敵対的攻撃において，ラベルを空間的に変換することにより，効果的に性能を低下させる。
- Cityscapesデータセットにおける平均mIoUは，SAFによって24.50から11.34に，Kvasir-SEGデータセットでは49.91から31.80に低下した。
- COCOデータセットにおける平均mAPは，SAFによって17.89から5.25に大幅に減少した。
Link: https://arxiv.org/abs/2603.25230
画像鮮鋭化による効率的な事前予防的ロバスト化 [cs.CV]目的：深層ニューラルネットワークのロバスト性を高める手法
- 深層学習は高い性能を示す一方，微小な摂動に脆弱である点が課題。
- 既存の防御手法は計算コストが高い，または解釈性が低い場合が多い。
- 画像鮮鋭化により，効率的かつ解釈可能なロバスト化を実現する。
- 画像鮮鋭化は，代替モデルや最適化，生成器を必要とせず，ロバスト性を向上させる。
- 特に，転移学習のシナリオにおいて，低い計算コストで顕著な効果が確認された。
- 画像テクスチャの強度とロバスト性の正の相関に着目し，鮮鋭化が有効であることを示した。
Link: https://arxiv.org/abs/2603.25244
FEAST：空間トランスクリプトミクスに対する完全結合型表現注意機構 [cs.CV, cs.AI]目的：空間トランスクリプトミクスにおける遺伝子発現予測の精度向上
- 組織構造や複雑な疾患の理解に不可欠だが，コストが高く普及が限られている。
- 既存手法は，定義済みの疎なグラフに依存し，潜在的な相互作用を見落とす構造的限界がある。
- すべてのスポットペア間の相互作用を考慮し，生物学的相互作用をより正確にモデル化すること。
- FEASTは，既存の最先端手法を上回り，遺伝子発現予測において高い性能を示した。
- 負の相互作用を考慮する注意機構により，標準的な注意機構では見過ごされがちな重要な関係性を捉えた。
- 中間領域からの追加画像サンプリングにより，より豊かな形態学的コンテキストを獲得し，情報損失を軽減した。
Link: https://arxiv.org/abs/2603.25247
セマンティクスを意識したプレフィックス学習によるトークン効率の良い画像生成 [cs.IR, cs.CV]目的：トークン効率の良い画像生成のための，セマンティクスを意識したプレフィックス学習
- 潜在画像生成は，高次元画像を扱いやすい生成モデリングに変換する上で重要である。
- 既存のトークナイザーは再構成に重点を置いた学習が多く，セマンティクスとの関連性が弱い。
- セマンティクスを不可欠な要素とすることで，表現学習におけるセマンティックな整合性を高める。
- SMAPは，クエリベースの1次元トークン化フレームワークにクラスレベルのセマンティック条件を注入する。
- SMAPは，トークン予算を段階的に削減するテールトークンドロップ戦略により，セマンティクスと初期潜在プレフィックスの役割を増大させる。
- CARDという，因果自己回帰・拡散生成器を用いて，生成性能を検証し，コンパクトなトークン予算下で優れた結果を得た。
Link: https://arxiv.org/abs/2603.25249
活性は重要である：Vision-LanguageモデルにおけるOOD検出のためのテスト時に活性化される負ラベル [cs.CV, cs.AI, cs.LG]目的：分布外（OOD）検出における負ラベルの活性化方法
- 画像と言語を組み合わせたモデルの応用が広がり，未知のデータに対する安全性確保が重要になっている。
- 既存手法では，OODデータの特性を捉えきれない負ラベルが存在し，検出精度が課題となっている。
- テスト時のデータに基づいて負ラベルを動的に選択し，OOD検出性能の向上を目指す。
- 提案手法TANLは，テストデータ中の活性化レベルを評価し，高活性な負ラベルを動的にマイニングする。
- 過去のテストサンプルを活用し，テスト分布に適応的に負ラベルを選択することで，より高い検出性能を実現する。
- ImageNetベンチマークにおいて，TANLは誤検知率（FPR95）を17.5%から9.8%に大幅に低減した。
Link: https://arxiv.org/abs/2603.25250
複数月間の軌跡異常検知のためのハイパースペクトル軌跡画像 [cs.CV, cs.LG]目的：複数月間の軌跡データにおける異常検知手法
- 不正検知や都市の移動分析など，様々な応用分野において軌跡異常検知は重要である。
- 高密度GPSデータは詳細な証拠を保持するが計算コストが高く，長期分析が困難である。
- 高密度・低密度両方の軌跡データを統合的に扱える，新たな異常検知手法を確立すること。
- 本研究では，軌跡をハイパースペクトル軌跡画像として表現することで，異常検知を画像認識問題として扱う手法TITAnDを提案した。
- 提案手法は，既存のスパースデータおよび高密度データを用いたベンチマークにおいて，最高のAUC-PRスコアを達成した。
- また，Transformerと比較して11〜75倍高速であり，メモリ使用量も同程度に抑えられている。
Link: https://arxiv.org/abs/2603.25255
LiDAR点群に対する実用的な可逆的ニューラル圧縮に向けて [cs.RO, cs.SY, eess.SY, cs.CV]目的：LiDAR点群の効率的な予測的可逆符号化のためのコンパクトな表現
- LiDAR点群は多様な応用分野で不可欠であり，高精度な幾何学的詳細の効率的なモデリングが求められる。
- 既存手法は，点群の極端な疎性により文脈モデリングが困難で，圧縮速度と性能が制限される。
- 本研究は，疎な幾何学的詳細におけるコストのかかる計算を回避しつつ，圧縮速度と性能を向上させることを目指す。
- 提案手法は，幾何学的情報を反復的に高密度化し，特徴を抽出・疎化することで，効率的な予測的符号化を実現する。
- 異なる解像度レベルからの占有情報を用いて特徴伝播を誘導し，冗長な特徴抽出を削減する。
- 整数演算のみの推論パイプラインを導入することで，プラットフォーム間の一貫性を確保し，符号化速度を向上させる。
Link: https://arxiv.org/abs/2603.25260
ViewSplat：視点適応型動的ガウススプラッティングによる前方合成 [cs.CE, cs.CV]目的：未ポーズ画像からの新規視点合成のための視点適応型3Dガウススプラッティングネットワーク
- 3次元シーン再構成は，VR/AR等の応用において不可欠であり，その高速化が求められている。
- 従来の3Dガウススプラッティングは最適化処理が必要で，処理速度が遅いという課題があった。
- 静的ガウス素子の回帰に限界がある点を克服し，高精度な視点合成を実現する。
- ViewSplatは，視点に応じた動的スプラッティングにより，静的素子回帰の限界を克服した。
- 実験結果から，ViewSplatは最先端の精度を達成しつつ，高速な推論(17 FPS)とリアルタイムレンダリング(154 FPS)を実現した。
- 各素子が初期推定誤差を修正することで，高忠実度な外観を捉えることが可能となった。
Link: https://arxiv.org/abs/2603.25265
EagleNet：エネルギーを考慮したテキスト・ビデオ検索のための詳細な関係学習ネットワーク [cs.CV]目的：テキストとビデオの検索における精度向上
- テキストとビデオの検索は，コンテンツ理解の重要な課題であり，多様な応用分野を持つ。
- 既存手法では，ビデオ内部フレーム間の関係性が十分に活用されておらず，テキストとビデオ間のギャップが生じている。
- ビデオ内部フレームの文脈情報を考慮したテキスト埋め込みを生成し，検索精度を高める。
- 提案手法EagleNetは，テキストとフレーム間のグラフ構造を構築し，詳細な関係学習を行うことで，文脈を考慮したテキスト埋め込みを生成する。
- エネルギーを考慮したマッチング(EAM)により，テキストとフレーム間の相互作用のエネルギーをモデル化し，より正確な関係性を捉える。
- MSRVTT, DiDeMo, MSVD, VATEXなどのデータセットにおいて，EagleNetの優位性が実験的に示された。
Link: https://arxiv.org/abs/2603.25267
V2U4Real：車両とUAV間の協調的知覚のための大規模実世界データセット [eess.SY, cs.SY, cs.CV]目的：車両とUAV間の協調的物体知覚に関する大規模実世界データセット
- 自動運転の安全性を高める上で，周囲環境の正確な把握は不可欠である。
- 従来の知覚システムは，遮蔽物や死角，限られたセンシング範囲が課題である。
- 車両とUAV間の協調により，これらの課題を克服し，よりロバストな知覚を実現する。
- V2U4Realは，車両とUAV間の協調的物体知覚のための，初の規模の大きい実世界のマルチモーダルデータセットである。
- このデータセットは，多様な交通状況下で56K以上のLiDARフレームとカメラ画像を収録し，70万個の3Dバウンディングボックスを含む。
- 実験結果は，V2U協調が知覚のロバスト性と長距離認識能力を向上させることを示している。
Link: https://arxiv.org/abs/2603.25275
制御可能な低照度画像強調：連続的な多照明データセットと効率的な状態空間フレームワーク [cs.CV]目的：制御可能な低照度画像強調のためのフレームワークとデータセット
- 低照度画像は視覚的な情報取得を困難にするため，様々な分野で画像強調が重要である。
- 従来の画像強調は一方向的な処理になりがちで，多様な環境要因に対応しきれないという課題があった。
- 本研究は，照明条件を制御可能にすることで，より柔軟で現実的な画像強調を目指す。
- 新たなデータセットLight100は，現実的な照明変化を連続的に捉え，モデルの汎化性能向上に貢献する。
- HVIカラー空間におけるノイズ分離による教師あり学習は，輝度制御と色再現性の両立を可能にする。
- State Space Models (SSM) を効率的に活用するためのSpace-to-Depth (S2D)戦略は，計算コストを抑えつつ高い性能を実現する。
Link: https://arxiv.org/abs/2603.25296
比例配分オークションゲームにおける学習 [cs.RO, cs.CY, cs.SI, cs.GT, cs.MA, cs.NI]目的：比例配分メカニズムに基づく繰り返しゲームのNash均衡への収束
- 無線ネットワークスライシング等における公平性とスループットのトレードオフ解像が重要視されている
- エージェントが配分ルールを認識している場合，その相互作用はゲームとして研究されているが，繰り返しゲームは未解明な点が多い
- 対数型効用関数を持つ繰り返しKellyゲームにおいて，様々な行動モデル下での収束性を検証する
- 対数型効用関数は，無線ネットワークスライシングにおける公平性とスループットのトレードオフから導出されることが示された
- Online Gradient Descent (OGD)，Dual Averaging (DAQ)，Myopic Best Response (BR) の３つの行動モデル下で，唯一のNash均衡への収束が証明された
- シミュレーション結果からは，BRが最も速い収束と高い時間平均効用を示す一方，異質な更新ルール下では収束が失敗する可能性があることが示唆された
Link: https://arxiv.org/abs/2603.25303
グラフニューラルネットワークを用いた適応的学習画像圧縮 [cs.CV]目的：画像圧縮における効率化
- 画像圧縮は，データサイズを削減し，効率的な画像伝送・保存を可能にする重要な技術である。
- 従来のCNNやTransformerベースの画像圧縮は，固定的な受容野と接続パターンにより，画像の冗長性を十分に捉えきれない場合がある。
- 画像内の空間的に変動する冗長性をより効果的に捉え，適応的な圧縮を実現すること。
- 提案手法は，柔軟なデータ駆動型受容野を持つ二段階スケールのグラフを構築する。
- 局所的なコンテンツの複雑さに応じてノードの隣接ノード数を動的に調整する適応的な接続性を導入する。
- Kodak，Tecnick，CLICデータセットにおいて，VTM-9.1と比較して，それぞれ19.29%，21.69%，18.71%のBDレート削減を達成した。
Link: https://arxiv.org/abs/2603.25316
構造化された長文コンテキストデータによる複数参照画像生成の進展 [cs.CV]目的：複数参照画像生成における性能向上
- 現実世界の応用において，複数参照画像からの画像生成は重要な役割を果たす。
- 既存モデルは，参照画像の増加に伴い，性能が著しく低下する。
- 構造化された長文コンテキストデータの不足を解消し，参照画像間の依存関係学習を目指す。
- 大規模データセットMacroDataを構築し，最大10枚の参照画像を含む40万件のサンプルを提供。
- 生成の一貫性を評価するベンチマークMacroBenchを提案し，多様なタスクとスケールに対応。
- MacroDataでのファインチューニングにより，複数参照画像生成の性能が大幅に向上。
Link: https://arxiv.org/abs/2603.25319
HeSS：VGGTにおけるスパース性再配分に対するヘッド感度スコア [cs.CV]目的：VGGTのグローバルアテンション層におけるスパース性再配分戦略の最適化
- 3Dビジョン分野において，VGGTは重要な進歩をもたらしている。計算効率が課題となっている。
- 既存のスパース化手法は，精度低下を引き起こすことが多く，その原因はヘッドごとの感度の違いが考慮されていない点にある。
- ヘッド感度スコアを用いてヘッドごとのスパース化感度を定量化し，それに基づいて注意予算を再配分することで，精度低下を抑制すること。
- 本研究で提案するHeSSは，ヘッドごとのスパース化感度を正確に捉えることが示された。
- HeSSに基づくスパース化は，高いスパース率下でも性能劣化を効果的に軽減し，ロバスト性を示すことが確認された。
- アテンションヘッドのグローバルアテンション層における感度特性が異質であることを実験的に確認した。
Link: https://arxiv.org/abs/2603.25336
画像回転角度推定：円環認識手法の比較 [cs.DL, cs.CV, cs.AI, eess.IV]目的：画像回転角度推定のための円環認識手法の性能評価
- 画像処理パイプラインにおいて，正確な画像回転角度推定は重要な前処理ステップである。
- 角度の円環的な性質が，標準的な回帰手法の精度を阻害する課題がある。
- 様々な円環認識手法を比較し，最適な画像回転角度推定手法を特定すること。
- 確率的手法，特に円環ガウス分布が，様々なアーキテクチャにおいて最も頑健であることが示された。
- EfficientViT-B3を用いた分類が最も高い精度を示したが，アーキテクチャによっては学習の不安定性が認められた。
- COCOデータセットでの評価では，本研究で提案する手法が従来手法を大きく上回り，MAE 2.84°を達成した。
Link: https://arxiv.org/abs/2603.25351
インスタンスアニメーター：マルチインスタンススケッチ動画の彩色 [cs.CV]目的：マルチインスタンススケッチ動画の彩色手法
- 動画編集において，ユーザーの意図を反映した柔軟な彩色技術が求められている。
- 既存手法では，参照フレームへの依存度が高く，複数キャラクター間の位置ずれや精細な表現の劣化が課題である。
- ユーザー制御の向上，インスタンス制御の精度向上，および詳細な表現の改善を目指す。
- 提案手法は，キャンバスガイダンスとインスタンスマッチングにより，ユーザーの自由度とマルチキャラクター制御の精度を高める。
- 適応的分離制御モジュールにより，キャラクターや背景からの意味的特徴を注入し，彩色の品質を向上させる。
- 実験結果から，提案手法が優れた彩色性能，ユーザー制御性，およびインスタンスの一貫性を示すことが確認された。
Link: https://arxiv.org/abs/2603.25357
モバイルロボティクスにおける物体ナビゲーションのための深層強化学習とベイズ推論の統合 [cs.RO, cs.RO, cs.AI, cs.CV]目的：屋内環境における物体探索の効率化
- ロボットが自律的に行動するための知能化が求められており，特に現実世界の複雑な環境下での探索能力が重要である。
- 従来の探索手法は手動での調整が必要であり，強化学習は学習に時間がかかり，解釈が難しいという課題がある。
- ベイズ推論と深層強化学習を組み合わせることで，効率的かつ信頼性の高い探索行動を実現することを目指す。
- 提案手法は，ターゲット位置の空間的確信度マップをベイズ推論により更新し，その確率的表現からナビゲーションアクションを選択する強化学習ポリシーを訓練する。
- シミュレーション実験の結果，提案手法は成功率を向上させ，探索努力を削減することが示された。
- ベイズ推定と学習された行動選択の組み合わせが，部分的な観測下での効率的な物体探索に貢献することが確認された。
Link: https://arxiv.org/abs/2603.25366
グローバル・ローカル話者識別によるエンドツーエンド話者分離・認識の性能向上 [cs.SD]目的：エンドツーエンド話者分離・認識の性能向上
- 対話データの増加に伴い，話者分離・認識技術の重要性が高まっている。
- 大規模な対話データが不足しており，話者表現の最適化が不十分である。
- 大規模データに依存せず，話者識別能力の向上を目指す。
- 提案手法GLSC-SDRは，話者識別と分離・認識を同時に学習することで性能向上を実現。
- グローバル・ローカル話者識別戦略により，話者識別精度を高めつつ，意味的転写精度を維持。
- AliMeeting，AISHELL-4，AMI-SDMの実験で，既存手法と同等またはそれ以上の性能を達成。
Link: https://arxiv.org/abs/2603.25377
CLIP-RD: 効率的なCLIP知識蒸留のための関係的蒸留 [cs.RO, cs.CV]目的：CLIP知識蒸留による軽量な学生モデルの性能向上
- 画像とテキストの意味的理解において，CLIPは優れた汎化性能を示すため，重要な研究対象である。
- CLIPの巨大なモデルサイズが計算資源を圧迫し，軽量化が課題となっている。
- 教師と学生の埋め込み間の多方向の関係性を明示的にモデル化することで，知識蒸留の精度向上を目指す。
- 提案手法CLIP-RDは，教師と学生の埋め込み間の関係性を考慮した関係的蒸留フレームワークを導入した。
- Vertical Relational Distillation (VRD) と Cross Relational Distillation (XRD) という2つの新規手法を組み合わせることで，精度を向上させた。
- 実験結果から，CLIP-RDは既存手法と比較して0.8%pの性能向上を達成した。
Link: https://arxiv.org/abs/2603.25383
段階的教師モデルによる多Modalデータセット蒸留 [cs.CV]目的：大規模な画像-テキストデータからの効率的な圧縮と知識伝達を可能にするコンパクトな合成データセットの構築
- 多Modalデータは，画像とテキストを組み合わせた情報であり，現実世界の理解に不可欠である。
- 既存手法では，教師モデルの学習後期に獲得される複雑な知識を捉えきれない場合がある。
- 学習段階ごとの知識ギャップと最適化の不安定性を抑制し，データセットの品質を向上させる。
- 提案手法PTM-STは，段階的な教師モデリングとショートカットに基づく軌跡構築戦略により，教師モデルの学習ダイナミクスを正確に再現する。
- 理論的分析と実験により，PTM-STが最適化の振動と段階間知識ギャップを大幅に軽減することが示された。
- Flickr30kおよびCOCOにおいて，最先端手法を平均9.53%上回り，最大13.5%の性能向上を達成した。
Link: https://arxiv.org/abs/2603.25388
FSGNet：周波数認識と意味的ガイダンスによる赤外線微小ターゲット検出ネットワーク [cs.CV]目的：赤外線微小ターゲット検出における高性能化
- 赤外線微小ターゲット検出は，監視やセキュリティにおいて重要な役割を担う技術である。
- 既存のU-Netアーキテクチャでは，高レベル特徴の伝播に伴い意味情報が劣化し，微小ターゲットの正確な位置特定が課題となっていた。
- 本研究では，周波数認識と意味的ガイダンスメカニズムを導入し，微小ターゲットの検出精度向上を目指す。
- 提案手法FSGNetは，4つの公開データセットにおいて，既存手法を凌駕する検出性能を示した。
- 多方向インタラクティブ注意モジュールにより，微小・低コントラストターゲットに対するネットワークの感度を向上させた。
- 周波数認識モジュールは，ターゲット類似のクラッタを除去しつつ，ターゲット構造を維持することで背景干渉を抑制した。
Link: https://arxiv.org/abs/2603.25389
凍結Vision Encoderを用いた画像・動画セグメンテーションのためのPlain Mask Transformer [cs.RO, cs.MA, cs.CV]目的：画像及び動画セグメンテーションのためのPlain Mask Transformerの提案
- 大規模に事前学習されたVision Foundation Model (VFM)は，様々なタスクに応用可能であり，その活用が重要である。
- 既存のVFMベースのセグメンテーションモデルは，エンコーダーのファインチューニングが必要で，VFMの多タスク共有という利点を損なう場合がある。
- 凍結されたVFMの機能を維持しつつ，エンコーダーのみのシンプルさと速度を両立する手法を確立すること。
- 提案手法Plain Mask Transformer (PMT)は，凍結されたエンコーダーの状態最先端の性能に匹敵し，最速で約3倍の速度で動作する。
- 動画セグメンテーションにおいては，完全にファインチューニングされた手法と同等の性能を示し，最先端の凍結エンコーダーモデルよりも最速で約8倍の速度である。
- PMTは，画像・動画セグメンテーションの両方に適用可能であり，エンコーダーのみの汎用性を継承している。
Link: https://arxiv.org/abs/2603.25398
3Dシーンフローを潜在的な運動事前知識として用いるビジョン・言語・行動ポリシー学習LaMP [cs.CV, cs.RO]目的：ロボット操作のためのビジョン・言語・行動フレームワーク
- ロボットの自律的な動作には，環境の理解と適切な行動計画が不可欠である。
- 既存のVLAモデルは2D特徴量から直接行動を推定するため，複雑な3D物理相互作用の学習が困難である。
- 3Dシーンフローを潜在的な運動事前知識として活用し，未知の空間ダイナミクス下でのロバスト性を向上させる。
- LaMPは，LIBERO，LIBERO-Plus，SimplerEnv-WidowXのシミュレーションベンチマークで，既存のVLAベースラインを上回る性能を示した。
- 特にLIBERO-PlusのOOD摂動において，最も強力なベースラインと比較して平均9.7%の成功率向上を達成した。
- 3Dシーンフローを潜在的な運動事前知識として用いることで，未知の環境に対する適応能力を高めている。
Link: https://arxiv.org/abs/2603.25399
HiSpatial：ビジョン言語モデルにおける階層的な3D空間理解の制御 [cs.RO, cs.CV]目的：ビジョン言語モデルにおける3D空間理解の階層的フレームワーク構築と，それを用いたモデルの性能向上
- 人間のような空間認識能力は，ロボティクスや拡張現実など，様々な応用において不可欠である。
- 既存のビジョン言語モデルは，2D画像から3D構造を推論し，複雑な空間的推論を行う能力に課題がある。
- 本研究は，3D空間理解を階層的に分解し，学習することで，その能力を向上させることを目指す。
- 提案手法は，多様な空間理解・推論ベンチマークにおいて，最先端の性能を達成した。
- 特にGemini-2.5-proやGPT-5といった大規模モデルを上回る結果が得られた。
- 階層的なタスク間の依存関係が明らかになり，多層的なタスク設計が3D空間知能の発現を促進することが示唆された。
Link: https://arxiv.org/abs/2603.25411
VideoWeaver：具現化されたエージェントのためのマルチモーダルマルチビュー動画-動画変換 [cs.RO, cs.CL, cs.CV]目的：具現化されたAIエージェントのデモンストレーションを現実的に再シミュレーションするための，マルチモーダルマルチビュー動画-動画変換フレームワーク
- ロボットの学習において，複数のカメラからの同時撮影が一般的であり，そのデータを活用する重要性が高まっている。
- 既存手法は単一の視点にしか対応できず，複数の視点に適用すると視覚的な一貫性が失われるという課題があった。
- 複数の視点からの動画に対し，物理的・視覚的に一貫性のある変換を実現し，ロボット学習における環境のランダム化を支援する。
- VideoWeaverは，単一視点変換のベンチマークにおいて，最先端の手法と同等以上の性能を示した。
- 本研究により，広基盤や動的なカメラモーション下でも視覚的な一貫性を保った，マルチビュー動画変換が初めて可能となった。
- 特に，ロボット学習におけるワールドランダム化に不可欠な，一人称視点や異種カメラ設定においても良好な結果が得られた。
Link: https://arxiv.org/abs/2603.25420
CoDeTT：ターン交代評価のための文脈を考慮した意思決定ベンチマーク [eess.SY, cs.SY, cs.SD]目的：ターン交代評価のための文脈を考慮した意思決定ベンチマーク
- 対話システムにおいて，円滑なターン交代は自然な対話を実現する上で不可欠である。
- 既存の評価プロトコルは断片的で，狭い対話状況下での二値境界検出に限定されがちである。
- CoDeTTは，ターン交代を構造化された意思決定問題として捉え，標準化された評価を可能とする。
- CoDeTTは，多様なシナリオと文脈変化を含むデータセットを提供し，ターン交代の意思決定カテゴリを詳細に定義する。
- 既存モデルの評価を行った結果，意思決定の種類や対話シナリオによって性能に大きな差があることが明らかになった。
- CoDeTTは，ターン交代システムの体系的かつ文脈を考慮した評価のための標準化されたベンチマークを提供する。
Link: https://arxiv.org/abs/2603.25434
差分凸計画法によるタイトなバウンディングを通じた点群登録のグローバル最適解 [cs.CV]目的：部分的なオーバーラップと大きな位置ずれがある下での，点群登録のグローバル最適化
- 点群登録は，ロボティクス，コンピュータビジョン等，様々な分野で基礎的な技術である。
- 従来のグローバルソルバーは，緩い下界により収束に時間がかかったり，局所解に陥りやすかった。
- 差分凸計画法を用いて，探索範囲をタイトにし，グローバル最適解への収束を加速する。
- 提案手法DC-Regは，変数の相互作用を捉えた包括的な凹状アンダーエスティメータを導出し，効率的な線形代入問題によりタイトな下界を計算する。
- 2次元類似変換と3次元剛体変換の実験で，高い効率性と最適性を検証した。
- 合成データと3DMatchベンチマークで，最先端のグローバル技術と比較して，DC-Regは大幅な高速化と優れたロバスト性を示す。
Link: https://arxiv.org/abs/2603.25442
CLAR：検索拡張型音声LLMに基づく文脈的音声認識のためのCIF局所化アライメント [cs.SD]目的：音声LLMに基づく音声認識における，文脈的音声認識の精度向上
- 音声認識は，人間と機械の円滑なコミュニケーションに不可欠であり，その精度向上は重要な課題である。
- 音声LLMは言語モデルの事前知識が強すぎるため，固有表現や低頻度語の認識に課題がある。
- 弱い教師データ下での正確なホットワード局所化により，検索拡張型の効果を最大限に引き出すことを目指す。
- 提案手法CLARは，Continuous Integrate-and-Fire (CIF)を用いて，タイムスタンプなしで単調なトークンレベルのアライメントを学習する。
- CLARは，長さ情報を考慮した局所的マッチングにより，短期間の音響的手がかりを固定し，表現の希釈と注意のずれを軽減する。
- 実験により，CLARがホットワード検索を大幅に改善し，CERとB-WERを大幅に削減することが示された。
Link: https://arxiv.org/abs/2603.25460
CIAR：画像生成加速のための区間ベース協調デコーディング [cs.CV]目的：画像生成の高速化
- 画像生成技術は近年目覚ましい進歩を遂げているが，計算コストが高い。
- 従来の自己回帰モデルは逐次処理のため，デバイス上での利用には遅延が大きいという課題がある。
- 区間ベースの不確かさ量化により，効率的なクラウド・デバイス協調処理を実現する。
- 提案手法CIARは，既存手法と比較して2.18倍の高速化を達成した。
- クラウドへのリクエスト数を70％削減し，画像品質を維持している。
- 区間強化デコーディングモジュールと分布アラインメント訓練戦略により，高い視覚的忠実度と意味的一貫性を実現。
Link: https://arxiv.org/abs/2603.25463
GridVAD：層化フレームグリッドにおける空間推論によるオープンセット動画異常検知 [cs.CV]目的：動画異常の検知
- 動画監視は社会インフラの安全確保に不可欠であり，異常検知技術の重要性は高い。
- 既存手法は，異常の事前知識のキャリブレーション不足から，検出漏れや誤検出を引き起こしやすい。
- 視覚言語モデルの異常提案機能を活用し，ドメイン特化的な学習なしで高精度な異常検知を実現することを目指す。
- GridVADは，UCSD Ped2データセットにおいて，Pixel-AUROCで77.59を達成し，既存手法を上回った。
- 自己整合性コンソリデーション（SCC）により，検出精度と再現率のトレードオフを制御可能であることが示された。
- GridVADは，フレーム単位でのVLMクエリに比べて2.7倍の効率性を示し，高密度なセグメンテーションマスクも生成する。
Link: https://arxiv.org/abs/2603.25467
AdaSFormer：屋内環境からの単眼セマンティックシーン補完のための適応型シリアライズトランスフォーマー [cs.RO, cs.DC, cs.CL, cs.CV]目的：屋内環境からの単眼セマンティックシーン補完
- 屋内空間の理解は，ロボットナビゲーションや拡張現実など，多様な応用分野で重要である。
- 複雑な空間配置や隠蔽により，屋内シーンの補完は屋外よりも困難である。
- 高コストなメモリ使用量と微細な詳細の再構成の難しさを克服し，屋内MSSCの性能向上を目指す。
- 提案手法AdaSFormerは，学習可能なシフトを持つ適応型シリアライズトランスフォーマー構造を採用している。
- 中心相対位置エンコーディングと畳み込み変調レイヤー正規化により，特徴量の表現のギャップを解消している。
- NYUv2およびOcc-ScanNetにおける実験で，AdaSFormerが最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.25494
知識誘導による故障予測：安全上重要な物体検出の失敗検出 [cs.CV, cs.LG]目的：安全上重要な物体の検出失敗予測
- 自動運転やロボット工学等の安全性が求められる分野において，物体検出の信頼性は不可欠である。
- 従来の異常検知手法は，未知の入力に焦点を当てており，検出器自体の機能不全を直接予測できない。
- 検出器の能力外での動作や，基礎モデルへの未知の入力時の検出失敗を検出し，安全性を確保すること。
- KGFPは，検出器内部の特徴量と視覚基礎モデルの埋め込み表現間の意味的なずれを角度距離によって測定する。
- COCOデータセットの人物検出において，KGFPは5%の偽陽性率で人物検出率を64.3%から84.5%に向上させた。
- KGFPは，COCO-Oの6つの視覚領域において，従来の異常検知手法を大幅に上回る性能を示した。
Link: https://arxiv.org/abs/2603.25499
RealRestorer：大規模画像編集モデルによる汎用的な実世界画像復元に向けて [cs.CL, cs.CV]目的：実世界における画像劣化に対する汎用的な復元手法の開発
- 自動運転や物体検出など，様々な応用において，実世界画像からのノイズ除去は不可欠である。
- 既存の復元モデルは学習データの規模や分布に依存し，実世界への汎化性能が低いという課題がある。
- 大規模汎用モデルの性能を，データや計算コストを抑えつつ，オープンソースモデルで実現することを目指す。
- 9種類の一般的な実世界劣化を網羅する大規模データセットを構築し，最先端のオープンソースモデルを訓練した。
- 実世界の劣化画像464枚を含むRealIR-Benchと，劣化除去と一貫性維持に焦点を当てた評価指標を導入した。
- 実験の結果，提案手法はオープンソースモデルの中で最高の性能を達成し，最先端の結果を示した。
Link: https://arxiv.org/abs/2603.25502
自動運転におけるハイパースペクトルイメージングの課題：HSI-Drive事例 [cs.CV, cs.AI, cs.LG, eess.IV]目的：自動運転へのハイパースペクトルイメージング応用における課題と技術
- 自動運転は，交通の安全性向上や効率化に不可欠な技術であり，その実現には高度な環境認識が求められる。
- ハイパースペクトルイメージングは環境認識に有効だが，変動する環境光やリアルタイム処理の制約が課題となる。
- 本研究は，自動運転におけるハイパースペクトルイメージングの適用を可能にする技術開発を目指す。
- ハイパースペクトルイメージングは，従来の画像処理では困難な物体の識別を可能にする。
- 変動光や動的なシーンへの対応が課題であり，適切な技術選択とアルゴリズム開発が重要である。
- HSI-Driveデータセットを用いた実験結果から，ハイパースペクトルイメージングの有効性が示唆される。
Link: https://arxiv.org/abs/2603.25510
CHIRPデータセット：野生鳥類個体レベルの行動長期モニタリングに向けて [cs.CV, cs.AI]目的：野生鳥類の個体識別，行動認識，姿勢推定，物体検出，インスタンスセグメンテーションを支援するデータセットの構築
- 行動変化の研究は，保全生物学や進化生物学において不可欠であり，長期的な行動モニタリングが重要である。
- 野生動物の個体レベルでの自動行動モニタリングは，必要なデータセットの不足により困難である。
- 本研究は，生物学的に意味のある測定を可能にする多様なコンピュータビジョタスクに対応するデータセットを構築することで，この問題を解決する。
- CHIRPデータセットは，スウェーデン・ラップランドで長期間にわたり研究されているシベリアカケスを対象に作成された。
- 提案手法CORVIDは，足環の色に基づいて個体識別を行うことで，既存の再識別手法を上回る性能を示した。
- 本研究は，倫理的に承認された生物学的研究から実世界のデータセットを構築するための青写真を提供し，コンピュータビジョン研究と生物学的応用の間のギャップを埋めることを目指す。
Link: https://arxiv.org/abs/2603.25524
黄金データを超えて：タイムステップ選択的訓練による運動・視覚品質のジレンマ解消 [cs.CV]目的：動画生成における運動・視覚品質のジレンマの解消
- 近年の動画生成モデルの進歩は目覚ましいが，高性能なモデルの実現には高品質な学習データが不可欠である。
- 高品質な動画データは，視覚品質と運動品質の両立が難しく，一方を優先すると他方が低下するというジレンマが存在する。
- 学習データにおける視覚品質と運動品質の不均衡を解消し，より効果的な動画生成モデルの訓練を目指す。
- 本研究では，タイムステップ選択的訓練の概念を導入し，データサンプリング分布を調整することで，不均衡なデータのみで高性能なモデルを訓練することを可能にした。
- 提案手法TQDは，運動の多いデータでは高タイムステップ，高視覚品質のデータでは低タイムステップを優先的にサンプリングすることで，モデルの学習プロセスに適応する。
- 実験の結果，TQDは従来の訓練方法を上回り，高品質データを用いた訓練においても性能向上を示すなど，幅広いデータシナリオで有効であることが確認された。
Link: https://arxiv.org/abs/2603.25527
BFMD：バドミントンの密集ショットキャプションのためのフルマッチ密集データセット [cs.FL, cs.CL, cs.CV]目的：バドミントンのフルマッチデータセットの構築とその活用
- バドミントン戦術の理解には，試合全体の分析が不可欠である。
- 既存のデータセットは短いクリップや特定のタスクに偏っており，試合全体の詳細なアノテーションが不足している。
- フルマッチの詳細なアノテーションデータセットを提供し，試合レベルの分析を可能にすること。
- BFMDデータセットは，19試合（シングルスとダブルスを含む）で構成され，20時間以上の映像と16,751のショットイベントを含む。
- 提案手法は，RGB情報のみのベースラインと比較して，ショットキャプションの品質を向上させている。
- BFMDを活用し，試合全体の戦術的パターンの時間的変化を分析することが可能となった。
Link: https://arxiv.org/abs/2603.25533
動物個体識別のための背部標識に関する考察 [cs.CV, cs.LG]目的：動物個体識別を自動化するための背部標識のデザイン
- 個体識別は，生態調査や家畜管理において重要であり，効率的なモニタリングを可能とする。
- 均一な外観の動物（豚など）の個体識別は難しく，効果的な標識デザインの指針が不足している。
- 機械学習モデルによる個体識別を最適化するための，背部標識デザインに関する知見を提供すること。
- 機械学習モデル（ResNet-50）を用いて豚の背部標識を識別する実験を行った結果，特定のデザイン選択が識別精度に影響を与えることが示された。
- 標識は，動きのぼかし，様々な視点，動物の行動による遮蔽といった条件下でも明確に区別可能である必要があることが重要である。
- モデル学習で一般的に用いられるデータ拡張（色，反転，トリミングなど）も標識デザインに考慮すべきである。
Link: https://arxiv.org/abs/2603.25535
大規模エゴ視点動画における関節知覚：PAWS [cs.CV]目的：大規模な実環境エゴ視点動画からの関節抽出
- ロボティクス，シミュレーション，アニメーションにおいて，3Dシーン理解の基礎となる技術である。
- 既存手法は高品質な3Dデータと手動アノテーションに依存し，スケーラビリティと多様性が課題である。
- 実環境エゴ視点動画から直接関節を抽出し，スケーラビリティと多様性の問題を解決することを目指す。
- 提案手法PAWSは，HD-EPICおよびArti4Dデータセットにおいて，ベースラインと比較して有意な改善を達成した。
- 抽出された関節情報は，3D関節予測モデルのファインチューニングやロボット操作といった下流タスクに貢献する。
- 大規模な実環境データから関節を直接抽出する新しいアプローチを確立した。
Link: https://arxiv.org/abs/2603.25539
眼科手術における多角的画像融合による包括的なリアルタイムシーン理解に向けて [cs.CV]目的：眼科手術における多角的画像融合による，精密な手術器具追跡の実現
- 手術の安全性と有効性を高めるため，手術室内の状況を正確に理解することが重要である。
- 眼科手術では，従来の単一の画像情報だけでは，手術器具と組織の距離感の把握が困難であった。
- 手術用顕微鏡とリアルタイム光学コヒーレンス断層撮影を組み合わせることで，手術状況の理解を深める。
- 手術器具の検出とキーポイントの位置検出において，高い精度（mAP50 95.79%）を示した。
- iOCTの導入により，特に網膜に近い距離（1mm以下）における組織-器具間距離推定の精度が大幅に向上した（284μm → 33μm）。
- 本研究は，多角的画像融合が単一の画像処理よりも，マルチタスク予測の精度向上に貢献することを示した。
Link: https://arxiv.org/abs/2603.25555
GeoHeight-Bench：リモートセンシングにおける高さ認識型マルチモーダル推論へ向けて [cs.CV]目的：高さ認識型リモートセンシング理解のための評価フレームワーク
- 地球観測は，災害対応や環境モニタリングにおいて重要であり，高精度な空間理解が不可欠である。
- 既存のLMMは，リモートセンシング画像の垂直方向の情報を無視しており，複雑な地形や構造の理解が困難である。
- 垂直方向の情報を活用することで，より高度なリモートセンシングデータの理解と推論を実現する。
- 新たな評価ベンチマーク「GeoHeight-Bench」と「GeoHeight-Bench+」を開発し，高さ認識能力の評価を可能にした。
- 高さ情報を暗黙的に注入するベースラインモデル「GeoHeightChat」を提案し，高さ認識の有効性を示した。
- 視覚的意味情報と高さ幾何学的特徴を組み合わせることで，「垂直方向の盲点」を克服し，高度な推論を実現した。
Link: https://arxiv.org/abs/2603.25565
階層構造を考慮した多Modal表現学習による分類学的推論 [cs.CV, cs.LG]目的：分類学的推論のための多Modal表現学習
- 生態学，保全，環境モニタリングに直結する，大規模なフィールドデータからの生物多様性識別は重要である。
- 既存の多Modal手法は，生物分類の階層構造を考慮せず，ノイズや欠損Modalに弱いという問題がある。
- 生物の階層構造を明示的に符号化し，柔軟な融合により，実用的な生物多様性基盤モデルを構築することを目指す。
- 提案手法は，強力な多Modalベースラインと比較して，分類精度を14%以上向上させた。
- 特に，DNAデータの一部が欠損または破損している条件下で，大きな改善が見られた。
- 生物学的階層構造の明示的な符号化と柔軟な融合が，実用的な生物多様性基盤モデルの鍵となることが示された。
Link: https://arxiv.org/abs/2603.25573
リアルタイム clothed character animationのためのニューラル衣類変形場 UNIC [eess.SY, cs.SY, cs.CV]目的：リアルタイム clothed character animationのためのニューラル衣類変形場の学習
- 仮想没入型体験において，物理的にリアルな衣類の変形シミュレーションは不可欠である。
- 従来の物理シミュレーションは計算コストが高く，リアルタイム処理には不向きである。
- 複雑なトポロジーを持つ衣類の複雑な変形を捉え，効率的なリアルタイム処理を実現すること。
- 提案手法 UNIC は，アバターのモーションに基づき，衣類の変形をリアルタイムでアニメーション化する。
- インスタンス固有のニューラル変形場を学習することで，新たな衣類への汎化能力を必要とせず，学習の難易度と変形品質を向上させている。
- 3Dポイントを変形オフセットにマッピングすることで，複雑なトポロジーの処理を回避し，変形に自然な滑らかさを加えている。
Link: https://arxiv.org/abs/2603.25580
CT画像における偶発性肺結節の人間・AI協調的評価のためのTransformer 기반深層学習モデルDeepFAN：多読者・多症例試験 [eess.SY, cs.SY, cs.CV, cs.AI]目的：CT画像における偶発性肺結節の良悪性判断支援
- CT検査の普及により肺結節の検出数が増加しており，早期発見・早期治療が重要である。
- 既存の深層学習モデルは，局所的特徴と全体的特徴の統合が不十分であり，臨床試験による検証が不足している。
- DeepFANは，全体的特徴と局所的特徴を統合し，臨床試験を通じてその有効性を検証することを目指す。
- DeepFANは，内部テストセットでAUC 0.939，臨床試験データセットでAUC 0.954を達成した。
- DeepFANの利用により，若手放射科医の平均パフォーマンスがAUCで10.9％，精度で10.0％，感度で7.6％，特異度で12.6％向上した。
- 結節レベルでの読者間の一貫性が向上し，診断の質を均質化し，不必要な経過観察を削減する効果が期待される。
Link: https://arxiv.org/abs/2603.25607
マルチモーダルLLMにおける人口統計的公平性：顔認証におけるジェンダーと民族のバイアスに関するベンチマーク [cs.CV, cs.AI]目的：マルチモーダルLLMの顔認証における人口統計的公平性の評価
- 顔認証技術はセキュリティや個人識別に不可欠だが，公平性の問題が重要視されている。
- 既存の顔認証システムには，民族やジェンダーによるバイアスが存在することが報告されている。
- マルチモーダルLLMにおけるバイアスパターンを明らかにし，公平性を改善する手がかりを得る。
- 9つのオープンソースマルチモーダルLLMを評価した結果，FaceLLM-8Bが最も高い性能を示した。
- バイアスのパターンは従来の顔認証システムとは異なり，ベンチマークやモデルによって影響を受けるグループが異なる。
- 高い精度を持つモデルが必ずしも公平であるとは限らず，精度が低いモデルでも均一に高いエラー率を示すことで公平に見える場合がある。
Link: https://arxiv.org/abs/2603.25613
LanteRn：潜在的な視覚構造推論 [cs.CV, cs.LG]目的：視覚構造推論の枠組み
- 言語推論モデルは進歩する一方，視覚推論は依然として困難な課題である。
- 既存のLMMは，視覚情報をテキスト化し，詳細な空間・視覚理解を欠いている。
- 潜在空間で効率的に視覚推論を行うための新たなアプローチを提案する。
- LanteRnは，LMMが言語と潜在的な視覚表現を相互に作用させることを可能にする。
- 視覚特徴と潜在状態を関連付ける教師あり学習と，タスクレベルの有用性と潜在的な推論を整合させる強化学習により学習する。
- VisCoT，V*，Blinkの3つのベンチマークで，視覚的な接地と詳細な推論において一貫した改善が見られた。
Link: https://arxiv.org/abs/2603.25629