arXiv雑要約

画像・音声 - 2026/03/23 公開

手術室における多視点一貫パノラマセグメンテーション [cs.CV]目的：手術室における多視点一貫パノラマセグメンテーションの実現
- 手術中の状況把握には空間理解が不可欠であり，手術の安全性と効率性を向上させる上で重要である。
- 手術室は遮蔽が多く，視点数の少ない画像からの空間理解は困難であり，誤認識が発生しやすい。
- 複数の視点からの情報を活用し，誤認識を抑制することで，手術室の空間理解を向上させる。
- 提案手法PanORamaは，バックボーンネットワーク内で視点間の相互作用をモデル化することで，多視点一貫性を実現した。
- MM-ORおよび4D-ORデータセットにおいて，Panoptic Quality (PQ) で70%を超える性能を達成し，既存手法を上回った。
- PanORamaはキャリブレーションフリーであり，未知の視点に対しても汎化性能を示す。
Link: https://arxiv.org/abs/2603.19920
SegVGGT：複数視点画像からの3次元再構成とインスタンスセグメンテーションの同時実行 [cs.CL, cs.CV]目的：複数視点画像からの3次元再構成とインスタンスセグメンテーションの同時実行
- 3次元インスタンスセグメンテーションは，ロボット工学やAR/VR等への応用が期待され，重要な研究分野である。
- 既存手法は，高品質な点群やRGB-Dスキャンに依存し，処理パイプラインが複雑で再構成ノイズに弱いという課題があった。
- 本研究は，複数視点RGB画像から直接，3次元再構成とインスタンスセグメンテーションを同時に行うことで，上記課題を解決する。
- SegVGGTは，複数レベルの幾何学的特徴と相互作用するオブジェクトクエリを導入し，インスタンス識別を3次元再構成に深く統合した。
- フレームレベルAttention Distribution Alignment (FADA)戦略により，大量の画像トークンによるAttention分散を抑制し，学習時にオブジェクトクエリを関連フレームに誘導する。
- ScanNetv2，ScanNet200において最先端の性能を達成し，RGB-Dベースの手法や既存の同時実行モデルを上回る汎化能力を示した。
Link: https://arxiv.org/abs/2603.19926
RAM：自然環境下における3D人体モーションのあらゆる復元 [cs.CV, cs.AI]目的：自然環境下における3D人体モーションの復元手法
- 近年のコンピュータビジョン研究において，人体モーションの理解は重要な課題である。
- 遮蔽や複雑な相互作用により，自然環境下での正確なモーション追跡が困難である。
- 遮蔽や相互作用下でもロバストなモーション復元を実現する技術の確立を試みる。
- 本研究では，モーションを考慮したセマンティックトラッカーとカルマンフィルタを組み合わせ，遮蔽や相互作用下でのロバストな人物識別を実現した。
- さらに，過去の情報を活用するTemporal HMRモジュールにより，一貫性と滑らかさのあるモーション推定を可能にした。
- 実験結果から，RAMは既存の最先端技術と比較して，Zero-shot追跡の安定性と3D精度において大幅な性能向上を示した。
Link: https://arxiv.org/abs/2603.19929
悪天候下における自律走行用自己教師ありLiDAR雪除去フレームワークLIORNet [cs.CV, cs.RO]目的：悪天候下におけるLiDARデータの雪除去手法
- 自動運転やロボティクスにおいて，LiDARは高精度な3D知覚と長距離検出に不可欠である。
- 雪，雨，霧などの悪天候下では，LiDARデータのノイズが増加し，誤認識を引き起こす。
- 手動アノテーションのコストや汎化性能の限界を克服し，LiDARの悪天候下における知覚精度向上を目指す。
- LIORNetは，距離，強度，学習に基づく既存手法の欠点を克服し，それらの利点を統合している。
- 自己教師あり学習戦略により，手動アノテーションなしでノイズ点と環境構造を区別可能である。
- WADSおよびCADCデータセットでの実験により，LIORNetが最先端のフィルタリングアルゴリズムを精度と速度の両方で上回ることが示された。
Link: https://arxiv.org/abs/2603.19936
タイムステップを考慮したブロックマスキングによる効率的な拡散モデル推論 [cs.CV]目的：拡散モデル推論の効率化
- 画像生成において高い性能を発揮する拡散モデルだが，推論に時間がかかる点が課題である。
- 逐次的なノイズ除去過程のため，推論速度が遅く，実用上のボトルネックとなっている。
- 各タイムステップに適した計算グラフを構築し，推論速度を向上させることを目指す。
- タイムステップごとにブロックの実行を制御するマスキング手法を導入し，計算量を削減した。
- 各タイムステップの損失スケーリングと知識に基づくマスク修正により，生成品質を維持した。
- DDPM, LDM, DiT, PixArtなど，様々なモデルで推論速度の向上と生成品質のバランスを両立した。
Link: https://arxiv.org/abs/2603.19939
HiPath：構造化病理レポート予測のための階層的な視覚と言語の整合 [cs.CV, cs.AI, cs.LG]目的：構造化病理レポート予測
- 病理診断は，正確かつ迅速な治療方針決定に不可欠であるため，その効率化が重要視されている。
- 既存の視覚言語モデルはレポートの構造を十分に考慮しておらず，診断精度に課題が残る。
- 病理画像とレポート間の階層的な整合性を高め，高精度な構造化レポート予測を実現することを目指す。
- HiPathは，既存の基盤モデルを活用し，わずか1500万パラメータの軽量なフレームワークで高い性能を発揮する。
- 749,000件の実際の中国語病理症例を用いた実験で，HiPathは厳密精度68.9%，臨床的受容精度74.7%を達成し，安全率は97.3%を示した。
- 異なる病院での評価でも，厳密精度がわずか3.4pp低下するのみで，97.1%の安全性を維持し，汎化性能が確認された。
Link: https://arxiv.org/abs/2603.19957
Cov2Pose：空間共分散を利用した直接的な多様体認識6自由度物体姿勢推定 [cs.CV]目的：単一のRGB画像からの6自由度物体姿勢推定
- ロボット工学やコンピュータビジョンの分野において，物体の姿勢推定は重要な基盤技術である。
- 直接的な姿勢推定手法は計算効率が良いが，精度が低いという課題があった。
- 空間共分散を考慮した新しい表現とネットワーク構造により，直接的な姿勢推定の精度向上を目指す。
- 本研究では，畳み込み特徴量の分布を対称正定値(SPD)行列として符号化する共分散プーリング表現を提案した。
- さらに，コレスキー分解を用いてSPD行列の形で姿勢をエンコードし，多様体認識ネットワークヘッドで姿勢を回帰する手法を開発した。
- 実験結果から，提案手法が第二階プーリングと連続表現において有効であり，部分的な遮蔽下でも高い性能を発揮することが示された。
Link: https://arxiv.org/abs/2603.19961
2K Retrofit：エントロピーに基づく効率的なスパース洗練による高解像度3D形状予測 [cs.CV]目的：高解像度3D形状予測の効率化
- 自動運転，ロボティクス，AR/MR等の分野において，高精度な3D形状予測は不可欠である。
- 既存の基盤モデルは，実世界の高解像度シーンへの拡張性に課題があり，計算コストとメモリ消費量が大きい。
- 本研究は，基盤モデルの変更や再学習なしに，高解像度3D形状予測を効率的に行うことを目指す。
- 2K Retrofitは，高速な粗予測とエントロピーに基づくスパース洗練を利用し，高不確実度領域を選択的に強化する。
- これにより，最小限のオーバーヘッドで，高精度かつ忠実な2K出力が得られる。
- 広範な実験により，2K Retrofitが最先端の精度と速度を達成し，研究と実用展開のギャップを埋めることが示された。
Link: https://arxiv.org/abs/2603.19964
X-World：スケーラブルなエンドツーエンド運転のための制御可能な自我中心的マルチカメラワールドモデル [cs.CV, cs.AI]目的：スケーラブルで再現性のある自動運転評価のためのシミュレーション環境
- 自動運転技術の発展には，現実世界でのテストに代わる効率的な評価手法が不可欠である。
- 既存の評価パイプラインは実走行に依存しており，コストが高く，再現性が低いという課題がある。
- 提案手法は，行動に基づいた現実的な未来予測シミュレーションを提供し，評価の効率化を目指す。
- X-Worldは，行動条件付きのマルチカメラ生成ワールドモデルであり，ビデオ空間で未来の観測をシミュレートする。
- 複数のカメラからの情報と未来の行動シーケンスに基づいて，X-Worldは指示された行動に従う未来のビデオストリームを生成する。
- X-Worldは，シーンのロールアウトを編集可能にし，天気や時間帯などの外観レベルの制御にも対応している。
Link: https://arxiv.org/abs/2603.19979
MedSPOT：臨床GUIのためのワークフローを意識した逐次的なグラウンディングベンチマーク [cs.CV]目的：臨床GUI環境におけるワークフローを意識した逐次グラウンディングの評価
- 医療現場ではGUI操作が不可欠であり，その正確性が患者安全に直結するため，高い信頼性が求められる。
- 既存のGUIベンチマークは単発的なグラウンディング評価に偏っており，実際の医療ワークフローにおける逐次的な推論能力を評価できていない。
- 本研究は，臨床GUIにおける一連の操作を評価するベンチマークを提供し，より現実的な条件でのモデル性能評価を目指す。
- MedSPOTは，医療ワークフローに沿った216件のタスク駆動型ビデオと597の注釈付きキーフレームで構成される。
- 従来の単発評価ではなく，最初の誤りを検出した時点でタスク評価を終了する厳格な逐次評価プロトコルを提案した。
- エッジバイアス，小ターゲットエラーなど，臨床GUI固有の誤り分類体系を導入し，モデルの挙動を体系的に診断できるようにした。
Link: https://arxiv.org/abs/2603.19993
自然なクロスデータセット分布シフト下における表情認識のためのテスト時適応の評価 [cs.CV, cs.LG, eess.IV, eess.SP]目的：表情認識におけるテスト時適応の有効性
- 実世界の様々な環境下での応用において，表情認識の精度向上が求められている。
- 異なるデータセット間での分布シフトにより，表情認識モデルの性能が著しく低下する問題がある。
- 自然な分布シフト下における表情認識モデルの適応能力の改善を目指す。
- テスト時適応は，自然な分布シフト下で表情認識性能を最大11.34％向上させることが示された。
- エントロピー最小化法は，ターゲット分布がクリーンな場合に有効である。
- プロトタイプ調整法は，分布距離が大きい場合に優れている。特徴量アライメント法はノイズの多いターゲット分布で効果的である。
Link: https://arxiv.org/abs/2603.19994
極暗環境下におけるモーション認識のためのノイズ耐性イベント-RAW相補的拡散モデル (NEC-Diff) [cs.CL, cs.DB, cs.CL, cs.CV]目的：極暗環境下における動的シーンの高品質な画像化
- 暗い場所での視覚認識は，監視や自動運転など多くの応用分野で重要である。
- 光子不足によるノイズとテクスチャ損失が画像劣化の主な原因となっている。
- イベントカメラとRAW画像の利点を組み合わせ，ノイズの影響を軽減し，高画質再構成を目指す。
- 提案手法NEC-Diffは，RAW画像とイベントの線形性と輝度変化特性を利用し，物理駆動型制約による堅牢な二重モードノイズ除去を実現する。
- 両方のモダリティのSNRを動的に推定し，ノイズ除去結果に基づいて適応的な特徴量融合を誘導することで，拡散プロセスへの信頼性の高い手がかりを注入する。
- 新たに構築したREALデータセットを用いて実験を行い，極暗環境下におけるNEC-Diffの優位性を実証した。
Link: https://arxiv.org/abs/2603.20005
拡散に基づく顔領域を意識したメイク特徴を用いたメイクアップ転送 [cs.CV]目的：顔領域を意識したメイク特徴によるメイクアップ転送手法
- メイクアップ技術は，外見の変化を通じて個人の自己表現や印象管理に貢献する重要な分野である。
- 既存手法は，汎用的な事前学習モデルに依存し，メイクアップ様式の微妙なニュアンスを捉えきれない場合がある。
- 顔領域ごとのメイクアップ制御を可能にし，より自然でパーソナライズされたメイクアップ転送を実現することを目指す。
- 提案手法では，GPT-o3と画像編集モデルを用いてアノテーション付きのメイクアップスタイルデータを合成し，それを用いてメイクCLIPエンコーダを訓練することで，メイクアップ様式の識別能力を向上させている。
- 顔領域を意識したメイク特徴の注入には，学習可能なトークンを用いてメイクCLIPエンコーダから特徴を抽出し，アテンション損失を通じて領域制御を可能にしている。
- 実験結果から，提案手法は領域制御の精度が高く，メイクアップ転送の性能が優れていることが確認された。
Link: https://arxiv.org/abs/2603.20012
CFCML：マルチモーダル画像と表形式データを用いた疾患診断のための粗精細クロスモーダル学習フレームワーク [cs.CV]目的：マルチモーダル画像と表形式データを用いた疾患診断におけるクロスモーダル学習フレームワーク
- 臨床現場では，画像と表形式データを含むクロスモーダル情報が診断に不可欠である。
- 画像と表形式データ間にはモダリティギャップが存在し，診断精度向上の阻害要因となっている。
- この研究は，モダリティギャップを段階的に縮小し，識別可能なクロスモーダル情報を抽出することを目指す。
- 提案手法CFCMLは，画像エンコーダの各段階の多粒度特徴と表形式データの関係性を探求することで，モダリティギャップを初期段階で縮小する。
- クラス情報を考慮したユニモーダルおよびクロスモーダルプロトタイプを生成し，階層的アンカーベースの関係性マイニング戦略により，モダリティギャップをさらに縮小する。
- MENおよびDerm7ptデータセットにおいて，最先端手法と比較してAUC指標がそれぞれ1.53％と0.91％向上した。
Link: https://arxiv.org/abs/2603.20016
切り離しスキップリンクとRプローブ：MLLM OCRにおける特徴集約と勾配伝播の分離 [cs.CL, cs.DB, cs.IR, cs.CV, cs.AI]目的：マルチモーダル大規模言語モデルにおけるOCRタスクの性能向上
- 近年のマルチモーダル大規模言語モデルの発展は目覚ましいが，OCR分野への応用は課題が多い。
- 特徴融合の過程で，高レベルのセマンティック情報が低レベルの視覚的特徴を上書きし，学習を不安定化させる問題がある。
- スキップ接続による勾配干渉を軽減し，低レベルの視覚情報をより効果的に活用することを目指す。
- 提案手法である「切り離しスキップリンク」は，勾配の逆伝播をスキップ接続で遮断することで，学習の安定性と収束性を向上させる。
- 新たに導入した「Rプローブ」は，LLMが投影された視覚的トークンからピクセルレベルで情報を再構成できるかを測定し，細粒度情報の保存状態を診断する。
- 様々なViTバックボーンとマルチモーダルベンチマークにおいて，OCRタスクの性能が向上し，汎用的なマルチモーダルタスクにも良い影響を与えることが確認された。
Link: https://arxiv.org/abs/2603.20020
MFil-Mamba：空間冗長性を考慮した視覚状態空間モデルのための多重フィルタスキャン [eess.SY, cs.SY, cs.CV]目的：空間冗長性を考慮した視覚状態空間モデルの新しいアーキテクチャ
- 近年，シーケンスモデリングでSSMが成功を収めている。画像処理への応用が期待される。
- 画像データは非シーケンシャルであり，2次元空間依存性の複雑さからSSMの適用が困難である。
- 多重フィルタスキャンを用いて空間冗長性を低減し，視覚情報の効果的な抽出を目指す。
- MFil-Mambaは，既存の最先端モデルと比較して，画像分類，物体検出，インスタンスセグメンテーション，意味セグメンテーションなど様々なベンチマークで優れた性能を示す。
- ImageNet-1Kで83.2%のトップ1精度，MS COCOで47.3%のbox APと42.7%のmask APを達成した。
- ADE20Kデータセットでは48.5%のmIoUを獲得し，その有効性を実証した。
Link: https://arxiv.org/abs/2603.20074
ロボット，光学，電磁トラッキングを用いた3D超音波再構成のための統合プラットフォームと品質保証フレームワーク [cs.RO, cs.CV, cs.RO, eess.IV]目的：3D超音波再構成の品質保証フレームワークと，追跡技術を用いた研究のためのオープンソースプラットフォーム
- 3D超音波は診断，治療計画，画像誘導療法に有用であり，医療現場でのニーズは高い。
- 現在の研究では，3D超音波再構成の体積精度と再現性の包括的な評価が不足している。
- 本研究は，様々な追跡技術を用いた3D超音波再構成の評価方法を確立し，臨床応用の安全性を高める。
- 提案する品質保証フレームワークにより，ロボットを用いた3D超音波再構成が最先端の性能（DSC-3D = 0.94 +- 0.01, HD95 = 1.17 +- 0.12）を達成した。
- この性能は，超音波プローブの空間分解能限界にほぼ達している。
- 本研究は，3D超音波再構成の研究のための柔軟なプラットフォームと再現性のある検証方法を提供する。
Link: https://arxiv.org/abs/2603.20077
嗜好度に基づいたバイアス除去による参照なし画像品質評価 [cs.CL, cs.CV]目的：参照なし画像品質評価における，エンハンスメントアルゴリズムのバイアス軽減
- 画像品質評価は，画像処理技術の進歩において不可欠であり，その自動化が求められている。
- 既存の参照なし画像品質評価モデルは，特定のエンハンスメントアルゴリズムに過学習し，汎化性能が低い。
- エンハンスメントアルゴリズムに依存しない知覚的な品質評価を実現し，汎化性能を向上させる。
- 提案手法は，嗜好度に基づいた埋め込み空間を学習することで，エンハンスメントアルゴリズム由来の不要な成分を分離する。
- その結果，モデルはアルゴリズム固有の視覚的特徴ではなく，知覚的な品質に着目できるようになる。
- 公開EIQAベンチマークでの実験により，提案手法が既存手法と比較して優れた頑健性と汎化性能を持つことが示された。
Link: https://arxiv.org/abs/2603.20086
適応の連鎖：強化学習による手術用視覚言語モデルの適応 [cs.CV, cs.AI]目的：手術用視覚言語モデルのドメイン知識の統合と汎化性能の維持
- 視覚言語モデルは様々なタスクに応用可能だが，専門分野への適応が課題となる。
- 既存のファインチューニングは，事前学習済みの知識を損ない，汎化性能を低下させる可能性がある。
- ドメイン知識を統合しつつ，事前学習された能力を維持することで，汎化性能の低下を防ぐ。
- 提案手法CoAは，構造化された推論形式を導入し，ドメイン知識と汎用的な能力のバランスを取る。
- 実験の結果，CoAは，標準的な手術用ベンチマークにおいて，精度の向上と安定した挙動を示した。
- Ablation studyにより，CoAが視覚言語能力を効果的に維持し，ドメイン特化への信頼できる経路を提供することが確認された。
Link: https://arxiv.org/abs/2603.20116
汎用的なNGP-SR：ニューラルグラフプリミティブを用いた汎用性のあるニューラルラディアンスフィールド超解像 [cs.CV]目的：ニューラルラディアンスフィールドの超解像
- フォトリアリスティックな新規視点合成は重要だが，高解像度化には計算コストとメモリ容量が課題となる。
- 2Dでの単純な超解像は，多視点整合性を損なう場合がある。
- 低解像度画像から直接高解像度のラディアンスフィールドを再構築し，効率的な超解像を実現する。
- NGP-SRは，3D座標と学習されたローカルテクスチャトークンに基づいてラディアンス予測を行うことで，高周波の詳細を復元する。
- 外部の高解像度参照や事後2Dアップサンプリングなしに，視点整合性の高い高解像度新規視点を生成できる。
- 一度学習すれば，シーンに依存せず，新しい視点からのレンダリングにも適用可能である。
Link: https://arxiv.org/abs/2603.20128
相乗的知覚と生成再構成：専門レベルの建物検査のためのマルチエージェントオーケストレーション [cs.CL, cs.CV]目的：建物外壁欠陥検査における高精度な欠陥検知とセグメンテーション
- 都市の持続可能性において，建物の構造的健全性の維持は不可欠である。外壁検査はその重要な一環を担う。
- 外壁画像は，背景の複雑さや欠陥の多様性から，ピクセル間の不均衡や特徴の曖昧さが生じやすく，高精度な解析が困難である。
- 高品質なアノテーションデータの不足を克服し，建物外壁の欠陥検出・セグメンテーションの汎化性能向上を目指す。
- 提案手法FacadeFixerは，検知・セグメンテーションエージェントと生成エージェントを連携させることで，複雑な欠陥の干渉に対処し，高精度な解析を実現した。
- 生成された高品質な拡張データを用いて学習することで，既存の最先端手法と比較して，建物外壁の構造異常検出において顕著な性能向上を達成した。
- データ不足というインフラ検査における課題に対し，生成によるデータ合成が有効な解決策となることを示した。
Link: https://arxiv.org/abs/2603.20143
大規模マルチモーダルモデルは建物を検査できるか？構造病理推論のための階層的ベンチマーク [eess.SY, cs.SY, eess.SY, cs.SY, cs.RO, cs.CV]目的：構造病理推論のための大規模マルチモーダルモデルの性能評価
- 都市の強靭性やスマートシティの維持において，建物外壁の自動検査は不可欠である。
- 従来の画像認識モデルは，局所的な識別には優れるものの，構造的理解に乏しく汎化性能が低い。
- 大規模マルチモーダルモデルの構造病理推論における能力を評価する標準的なベンチマークを確立すること。
- 現在のLMMは，構造の理解と意味の把握に優れるものの，正確な位置特定に課題があることが示された。
- 汎用的な基盤モデルが，ドメイン固有の学習なしに，専門的な教師ありネットワークと同等の性能を示すことが確認された。
- 本研究は，厳格なベンチマークと高品質なオープンソースデータベースを提供し，土木工学における自律型AIエージェントの発展の基盤を築く。
Link: https://arxiv.org/abs/2603.20148
単一トークンを超えて：離散MMDによる離散拡散モデルの知識蒸留 [eess.SY, cs.SY, cs.LG, cs.CV, stat.ML]目的：離散拡散モデルの知識蒸留
- 拡散モデルは画像生成などで高い性能を示すが，計算コストが高い。
- 離散拡散モデルの蒸留は難しく，計算コスト削減が困難である。
- 連続拡散モデルの成功事例を参考に，離散拡散モデルの効率的な蒸留を実現する。
- 提案手法D-MMDは，離散拡散モデルの蒸留において高品質と多様性を維持できる。
- D-MMDは，テキストと画像データセットの両方で有効性が確認された。
- 蒸留された生成器は，元の教師モデルを上回る性能を示す可能性がある。
Link: https://arxiv.org/abs/2603.20155
オーディオアバターの指紋認証：音声合成時代の正当な利用のためのアプローチ [cs.SD, eess.AS]目的：音声合成における声の複製が正当な利用であるかの検証機構
- AI音声合成技術の進歩により，リアルな音声生成が容易になり，認証システムや放送プラットフォームへの影響が懸念される。
- 音声認証システムや放送プラットフォームにおいて，合成音声の検出が困難であり，悪用のリスクが存在する。
- 音声合成技術の正当な利用を促進し，不正利用を抑制するための検証手法を確立すること。
- 既存の音声認識モデルを応用し，合成音声の指紋認証を試みた最初の実験である。
- 合成音声の正当な利用を検証するための新しいデータセットを新たに構築した。
- この研究は，音声フォレンジック分野における新たな課題に対応するための第一歩となる。
Link: https://arxiv.org/abs/2603.20165
EgoForge：目標指向型一人称世界シミュレータ [cs.NI, cs.CV, cs.MM]目的：目標指向型一人称世界シミュレーションの生成
- 動的な環境をシミュレートする生成モデルは重要である。特に，現実世界とのインタラクションを含む一人称視点の環境は，ロボット工学等において不可欠である。
- 既存手法は，視点変化や手と物体のインタラクション，潜在的な人間意図の進化といった課題を抱えており，高品質な一人称視点動画生成が困難である。
- 本研究は，最小限の入力から一貫性のある一人称動画を生成し，意図と時間的な整合性を向上させることを目指す。
- EgoForgeは，単一の画像，高レベル指示，および補助的な全景視点画像から，一貫性のある一人称動画を生成できる。
- 提案手法VideoDiffusionNFTは，目標達成，時間的因果関係，シーンの一貫性，知覚的忠実性を最適化し，シミュレーションの品質を向上させる。
- 実験結果から，EgoForgeは，既存手法と比較して，意味的整合性，幾何学的安定性，およびモーションの忠実度において一貫した改善が見られた。
Link: https://arxiv.org/abs/2603.20169
TinyMLがCubeSatミッションの能力を向上させる [cs.CV]目的：CubeSatにおける画像分類のためのTinyMLベースの畳み込みニューラルネットワークの最適化と展開パイプライン
- 地球観測は重要だが，衛星から地上局へのデータ伝送には制約が多い。
- CubeSatは，処理能力，エネルギー，通信帯域の制約が厳しく，従来の地球観測が困難。
- CubeSatの制約下で，効率的なオンボード画像処理を実現するためのモデル最適化手法を提案する。
- 提案手法により，最適化されたモデルのRAM使用量は平均89.55%削減，Flashメモリは70.09%削減された。
- タスクに必要な精度を維持しつつ，ダウンリンク帯域幅要件を大幅に減少させることが示された。
- 推論ごとのエネルギー消費量は0.68mJ～6.45mJ，遅延時間は3.22ms～30.38msであり，CubeSatの厳しい要件を満たす。
Link: https://arxiv.org/abs/2603.20174
先読みオークションにおけるジャストインタイム再売買：イベントスタディ [cs.GT]目的：ジャストインタイム二次市場の出現が，先読み一次オークションの動態に与える影響の分析
- ブロックチェーン技術の発展に伴い，分散型取引所の利用が拡大しており，オークションメカニズムの最適化が重要である。
- 先読みオークションでは，価値の分配が不均衡になりやすく，プラットフォームの収益性が低下する可能性がある。
- 二次市場の出現が一次オークションの効率性に与える影響を明らかにし，プラットフォームの収益改善策を検討する。
- カイロス導入後，一次オークションでの競争が著しく低下し，収益がArbitrumから逸脱した。
- 一次オークションでの入札額は，最高入札額の14.8％に減少（カイロス導入前は62.7％）し，検索者の損益も低下した。
- Timeboostオークションでの入札額は，外部価格変動による需要の増加を反映しなくなった。二次市場が収益の大部分を占めることが示唆された。
Link: https://arxiv.org/abs/2603.20175
LagerNVS：完全ニューラルリアルタイム新規視点合成のための潜在幾何学 [cs.CV]目的：新規視点合成のための潜在幾何学に基づく手法
- 3次元認識は，ロボット工学や拡張現実など，多様な応用分野で重要である。
- 従来のニューラルネットワークは，3次元情報を明示的に扱えず，汎化性能に課題があった。
- 3次元情報を潜在的に活用することで，よりロバストで汎用性の高い視点合成を目指す。
- LagerNVSは，3次元再構成ネットワークで初期化されたエンコーダと軽量なデコーダから構成される。
- 定量評価の結果，Re10kデータセットにおいて31.4PSNRを達成し，最先端の性能を示す。
- LagerNVSはリアルタイムレンダリングが可能であり，未知の環境データへの汎化性も確認された。
Link: https://arxiv.org/abs/2603.20176
長編ビデオ理解のための適応的貪欲フレーム選択 [cs.CV, cs.AI, cs.CL]目的：長編ビデオ質疑応答におけるフレーム選択手法
- 長編ビデオの解析は，映像と言語を結びつけることで，新たな知見や応用を生み出す可能性を秘めている。
- 大規模なフレーム数と視覚トークン数は，推論処理のボトルネックとなり，計算コストが増大する。
- クエリへの関連性と意味的代表性の両方を最適化し，効率的なフレーム選択を実現することを目指す。
- 提案手法は，クエリ関連性と意味的類似性を考慮した貪欲なフレーム選択により，既存手法を上回る精度を達成した。
- 特に厳しいフレーム予算下で，より大きな改善が見られ，限られたリソースでの効率的な解析が可能となった。
- クエリの種類に応じた戦略を導入することで，関連性と網羅性のトレードオフを最適化し，性能向上に貢献した。
Link: https://arxiv.org/abs/2603.20180
VideoSeek：ツールによる誘導探索を用いた長視野ビデオエージェント [cs.CV, cs.AI, cs.CL]目的：ビデオにおける答えの重要な証拠の能動的な探索
- ビデオと言語を結びつけるタスクは高度化している。効率的な処理が求められている。
- 既存のエージェントは，高コストな全フレーム解析に依存し，計算資源を浪費しやすい。
- ビデオの論理的流れを利用し，必要なフレームのみを探索することで効率化を図る。
- VideoSeekは，従来のビデオエージェントやLMMと比較して，大幅に少ないフレーム数で高い精度を実現した。
- LVBenchにおいて，ベースモデルであるGPT-5より10.2ポイントの精度向上を達成し，使用フレーム数は93%削減された。
- ビデオの論理的流れの活用，強力な推論能力，およびツールの設計が，その性能向上に貢献している。
Link: https://arxiv.org/abs/2603.20185
画像間変換の性能向上：修正フロー再定式化によるアプローチ [cs.CV]目的：画像間変換における性能改善
- 画像間変換は，画像処理において重要な課題であり，様々な応用分野で利用されている。
- 従来の画像間変換は，目的が曖昧な場合や多様な解が存在する場合，結果が平滑化されやすい。
- 修正フロー再定式化により，生成モデルのような複雑さなく，より詳細な変換を実現する。
- 本研究で提案するI2I-RFRは，既存の画像間変換ネットワークに容易に組み込むことが可能である。
- I2I-RFRは，入力チャネルを拡張するだけで導入でき，推論時には少数のソルバーステップで改善が見られる。
- 様々な画像間変換および動画修復タスクにおいて，知覚的な品質と詳細の保持において性能向上が確認された。
Link: https://arxiv.org/abs/2603.20186
MuSteerNet：動画からの観察・反応相互誘導による人間反応生成 [cs.CV]目的：動画に基づいた人間反応生成
- 人間らしいインタラクティブAI構築には，動画を理解し反応する技術が不可欠である。
- 既存手法では，動画内容と反応動作の整合性が取れていない場合がある。
- 動画と反応タイプの関係性を改善し，より自然な反応生成を目指す。
- MuSteerNetは，観察と反応の相互誘導により，動画から3D人間反応を生成する。
- Prototype Feedback Steering機構により，動画の観察精度を高め，関係性の歪みを軽減する。
- Dual-Coupled Reaction Refinementにより，修正された視覚情報を活用し，反応の品質を向上させる。
Link: https://arxiv.org/abs/2603.20187
山火事延焼シナリオ：学習不要手法によるセグメンテーション拡散モデルの多様なサンプル抽出 [cs.CV]目的：不確実な環境下における将来状態予測の効率的な多様性確保
- 不確実な環境下での予測は重要であり，複数のありうる結果を考慮する必要がある。
- 拡散モデルからのサンプリングは計算コストが高く，低確率モードの発見に時間がかかる。
- 学習不要なサンプリング手法を用いて，セグメンテーション拡散モデルの多様性を効率的に向上させる。
- 提案手法は，MMFireデータセットにおいてHM IoU*指標を最大7.5%向上させた。
- Cityscapesデータセットにおいても，HM IoU*指標を最大16.4%向上させる効果が確認された。
- 学習コストを抑えつつ，セグメンテーション拡散モデルのサンプル多様性を高めることが可能となった。
Link: https://arxiv.org/abs/2603.20188
CoVR-R：理由に基づいた合成動画検索 [cs.CV]目的：動画編集内容と参照動画から目的の動画を検索すること
- 動画検索技術は，膨大な動画データから必要な情報を効率的に見つけ出す上で不可欠である。
- 既存手法では，編集内容の記述が不十分で，動画編集に伴う間接的な変化に対応できない。
- 動画編集が引き起こす因果関係と時間的な変化を推論し，より正確な検索を実現すること。
- 本研究では，大規模なマルチモーダルモデルを用いて，編集内容から影響を推論し，候補動画との関連性を評価する。
- 新たに構築したCoVR-Reasonベンチマークを用いて評価した結果，既存手法を上回る性能を示した。
- 検索結果の一貫性と正確性が向上し，特に間接的な影響を含むケースで優れた性能を発揮した。
Link: https://arxiv.org/abs/2603.20190
決定論的モード提案：曖昧なセグメンテーションに対する効率的な生成サンプリングの代替案 [cs.CV]目的：曖昧なセグメンテーションにおける複数の予測候補の効率的な生成
- 医療画像セグメンテーションなど，複数の正解が存在するタスクの重要性が増している。
- 生成モデルによる不確実性の表現は計算コストが高く，多数のサンプルと後処理が必要である。
- 計算効率を向上させつつ，より多くの正解候補を網羅することを目指す。
- 提案手法は，確率的サンプリングではなく，直接的に妥当な結果を生成する決定論的フレームワークである。
- 既存の生成モデルと比較して，推論時間を大幅に削減しつつ，正解の網羅率を向上させる。
- 事前に結果分布を完全に把握しなくても学習が可能であり，実世界のデータセットへの適用も容易である。
Link: https://arxiv.org/abs/2603.20191
LumosX：属性と個人を関連付けたパーソナライズされた動画生成 [cs.CV, cs.AI]目的：パーソナライズされた動画生成のための個人と属性の関係性
- 動画生成技術の進展は，コンテンツ作成の可能性を広げている。
- 既存手法では，動画内の個人間の顔と属性の一貫性を保つのが困難である。
- 個人と属性の関係性を明示的にモデル化し，一貫性のある動画生成を実現する。
- LumosXは，データとモデルの両面からパーソナライズされた動画生成を改善するフレームワークである。
- 独自パイプラインと大規模多Modal言語モデルを用いて，動画内の個人と属性の関係性を抽出した。
- 関係性自己注意機構と関係性クロス注意機構により，個人と属性の一貫性と分離性を向上させた。
Link: https://arxiv.org/abs/2603.20192
マスクからピクセル，そして意味へ：VLM画像改ざんのための新たな分類体系，ベンチマーク，評価指標 [cs.CV, cs.AI, cs.LG]目的：VLM画像改ざんの分類，検出，および意味理解の標準化
- 画像改ざん検出は，デジタルコンテンツの信頼性確保に不可欠である。
- 既存のベンチマークはマスクに依存し，微細な改ざんやマスク外の変更を見逃しやすい。
- ピクセル単位での改ざん評価と意味理解に基づく，より精確な検出手法を確立する。
- 新たな分類体系は，改ざんの基本操作と改ざん対象オブジェクトのセマンティッククラスを網羅する。
- ピクセル単位の改ざんマップとカテゴリ監督によるベンチマークを公開し，検出と分類を統一的に評価する。
- 既存手法の評価において，マスクのみの評価指標では過大評価・過小評価が生じることが示された。
Link: https://arxiv.org/abs/2603.20193
MME-CoF-Pro：テキストと視覚的ヒントによる動画生成モデルにおける推論の一貫性評価 [cs.CV]目的：動画生成モデルにおける推論の一貫性の評価
- 動画生成技術の発展に伴い，生成された動画の信頼性が重要になっている。
- 動画生成モデルにおける推論の一貫性評価の指標が不足している。
- 推論の一貫性評価のためのベンチマークと評価指標を提示し，モデルの改善に貢献する。
- MME-CoF-Proは，16カテゴリー，303サンプルからなる包括的な動画推論ベンチマークである。
- 動画生成モデルは，生成品質とは独立して推論の一貫性が低いことが示された。
- テキストヒントは一見すると正答率を向上させるものの，不整合や幻覚を引き起こす可能性がある。
Link: https://arxiv.org/abs/2603.20194
症例ベースの類似検索を用いた画像とテキストのマルチモーダル検索による放射線科所見のドラフト作成 [q-bio.QM, cs.AI, cs.CV]目的：放射線科所見のドラフト作成
- 医療画像診断の精度向上と，放射線科医の負担軽減が重要課題である。
- 深層学習を用いた自動レポート生成は，幻覚や臨床的根拠の欠如といった課題がある。
- 過去の症例に基づいたマルチモーダル検索による，根拠に基づいたドラフト作成を目指す。
- マルチモーダル融合は，画像のみの検索と比較して検索性能を大幅に向上させ，Recall@5で0.95を超える。
- 本システムは，明示的な引用元追跡機能を備え，従来の生成アプローチよりも信頼性の高い出力を生成する。
- 信頼性の高い臨床意思決定支援および放射線科ワークフローの拡張の可能性を示す。
Link: https://arxiv.org/abs/2603.17765
プラグ・アンド・ステア：音声・映像による特定話者抽出における分離と選択の分離 [eess.AS, cs.MM, cs.SD]目的：音声・映像による特定話者抽出における分離と選択の分離
- 音響情報と視覚情報を組み合わせることで，よりロバストな話者抽出が可能になるため重要である。
- 実際の環境における音声・映像データはノイズが多く，既存手法では性能が頭打ちになる場合がある。
- 分離処理を既存の音声モデルに委ね，視覚情報を選択に限定することで，性能向上を目指す。
- 提案手法「Plug-and-Steer」は，音声のみのバックボーンの性能を維持しつつ，視覚情報を用いて特定話者を選択する。
- Latent Steering Matrix (LSM) により，バックボーン内の潜在特徴を再ルーティングし，ターゲット話者を指定チャンネルに固定する。
- 実験の結果，多様なバックボーンにおいて，提案手法は元のバックボーンと同等の知覚品質を達成した。
Link: https://arxiv.org/abs/2603.19697
北海，メキシコ湾，ペルシャ湾における洋上石油・ガスプラットフォームの動態：Sentinel-1アーカイブの活用 [eess.IV, cs.AI, cs.CV]目的：洋上石油・ガスプラットフォームの時空間的検出
- 海洋資源開発の拡大に伴い，プラットフォームの監視が経済，環境，規制面で重要となっている。
- 広大な海洋領域とアクセス困難性から，洋上プラットフォームの体系的な監視は課題であった。
- 本研究は，Sentinel-1データと深層学習を用いて，洋上プラットフォームの動態を継続的に把握することを目的とする。
- 2017年から2025年にかけて，北海，メキシコ湾，ペルシャ湾の主要3地域におけるプラットフォームの位置情報を四半期ごとに時系列で検出した。
- 2025年には合計3,728基のプラットフォームを特定し，ペルシャ湾が1,731基，メキシコ湾が1,641基，北海が356基であった。
- プラットフォームの設置・移設・解体を2,700件以上検出し，短寿命プラットフォームの増加から，オフショアセクターの構造変化が示唆された。
Link: https://arxiv.org/abs/2603.19801
ReconMIL：潜在空間再構成とBi-Stream Mambaの相乗効果による全スライド画像解析 [eess.IV, cs.CV]目的：全スライド画像解析における性能向上
- 病理画像解析は，がん診断や予後予測において不可欠であり，AIによる自動化が求められている。
- 既存手法は，汎用的な特徴量とタスク間のドメインギャップ，およびグローバルな集約による重要な信号の消失といった課題を抱えている。
- ドメインギャップの解消と，グローバル・ローカル特徴量のバランス調整により，診断精度を向上させる。
- ReconMILは，潜在空間再構成モジュールにより，汎用的な特徴量をタスク固有の多様体に適応的に投影し，境界の識別性を向上させる。
- Bi-Stream Mambaアーキテクチャは，MambaベースのグローバルストリームとCNNベースのローカルストリームを組み合わせ，文脈情報と微細な形態異常の両方を捉える。
- 複数のベンチマークテストにおいて，ReconMILは既存の最先端手法を凌駕し，微細な診断領域の特定と背景ノイズの抑制に効果を発揮する。
Link: https://arxiv.org/abs/2603.19925
分散型電力取引における市場力とプラットフォーム設計 [math.OC, cs.CC, quant-ph, cs.DC, econ.GN, cs.GT, q-fin.EC]目的：分散型電力取引における戦略的行動の形成におけるプラットフォーム設計の影響
- エネルギーシステムの分散化が進む中で，電力取引プラットフォームの設計が市場効率に与える影響の理解が重要である。
- プラットフォーム設計によっては，参加者の戦略的行動を引き起こし，市場効率を低下させる可能性がある。
- プラットフォーム設計が市場力に与える影響を定量化し，効率的なプラットフォーム設計の指針を示す。
- 戦略的な行動は，価格設定におけるグリッド決済コストを約6％増加させる。
- プラットフォーム設計によっては戦略的インセンティブを大幅に削減でき，ストレージ所有者の競争激化は抑制効果がある。
- 情報開示は競争調整を改善する可能性がある一方，市場力を高める効果も存在する。全体としてプラットフォームは依然として有用である。
Link: https://arxiv.org/abs/2603.19988
3D点群分類のための階層型量子アーキテクチャ探索 [quant-ph, cs.CV, cs.LG]目的：3D点群分類における量子アーキテクチャの探索
- 量子機械学習は，古典計算機では困難な問題を解決する可能性を秘めている。
- 量子ニューラルネットワークのアーキテクチャ設計は，経験則に頼る部分が多く，最適化が困難である。
- 効率的な量子アーキテクチャの自動探索手法を確立し，高性能な量子機械学習モデルを開発すること。
- 本研究で提案する階層型量子アーキテクチャ探索は，バニシング勾配問題（barren plateau）の緩和に貢献する。
- 従来の量子アーキテクチャ探索手法と比較して，高い分類精度を達成した。
- ModelNetデータセットを用いた実験により，PQCベースの手法として最先端の結果が得られた。
Link: https://arxiv.org/abs/2603.20024
内視鏡カメラ姿勢復元のためのポリシーベース定式化の調査 [eess.IV, cs.CV]目的：内視鏡カメラ姿勢復元におけるポリシーベース定式化
- 内視鏡手術のナビゲーション精度向上は，患者の安全確保と手術効率化に不可欠である。
- 従来の幾何学的手法は，低テクスチャや急激な照明変化といった内視鏡画像の課題に弱く，精度が低下しやすい。
- 本研究は，専門家の軌道推定を模倣するポリシーベース手法により，幾何学的手法の課題を克服することを目指す。
- 提案手法は，短期的相対運動予測において幾何学的手法を上回り，低い平均並進誤差と高い回転精度を達成した。
- テクスチャの豊富さや照明変化に応じて予測ウィンドウを分類した分析により，低テクスチャ条件に対するロバスト性が確認された。
- 学習された運動ポリシーは，内視鏡カメラ姿勢復元における実行可能な代替定式化を提供する可能性を示唆している。
Link: https://arxiv.org/abs/2603.20045
クロスドメイン蚊種分類のためのBioDCASE 2026チャレンジベースライン [eess.AS, cs.SD]目的：蚊の種分類における性能評価
- 蚊媒介感染症は世界的に大きな問題であり，迅速かつ正確な蚊の種識別が重要である。
- 従来の蚊の監視方法は手間と時間がかかり，スケールアップが困難である。
- 異なる環境やデバイス間での汎化性能を向上させ，実用的な蚊の種分類を目指す。
- ベースラインシステムは，既知のドメインでは高い性能を示すが，未知のドメインでは性能が低下する。
- この結果は，蚊の種分類におけるクロスドメインの汎化性能が重要な課題であることを示唆する。
- 本研究は，マルチソースのバイオアコースティック記録を用いた実用的な蚊の種分類に向けて，評価パイプラインとベースラインシステムを提供する。
Link: https://arxiv.org/abs/2603.20118
深層顔面復元：サーベイ [cs.CV]目的：顔面復元技術の進歩に関する包括的な調査
- 画像処理分野において，低品質な画像から高品質な画像を復元する技術は重要である。
- 従来の顔面復元手法は現実世界の複雑な状況に対応しにくく，十分な性能を発揮できない場合がある。
- 深層学習を用いた顔面復元技術の現状を整理し，今後の研究の方向性を示す。
- 本調査では，顔面復元の問題設定，顔画像の特性，および課題について分析している。
- 既存の顔面復元手法を，事前知識に基づく手法と深層学習に基づく手法に分類し，それぞれの技術的詳細を包括的にレビューしている。
- ネットワーク構造，損失関数，ベンチマークデータセットなど，顔面復元タスクで開発された技術についても探求し，代表的な手法の性能評価を行っている。
Link: https://arxiv.org/abs/2211.02831
エゴスポット：ハンズフリーモバイルマニピュレーションのための自己中心型マルチモーダル制御 [cs.RO, cs.CV]目的：ハンズフリーモバイルマニピュレーションの制御フレームワーク
- ロボット技術は，身体障がいのある人々の生活を支援し，遠隔操作を可能にする重要な手段である。
- 従来のロボット制御インターフェースはジョイスティックなどに依存しており，運動能力に制限のある人にとって困難である。
- ウェアラブルデバイスを用いた自己中心型マルチモーダル制御により，アクセシビリティと自然な操作性を向上させる。
- 本研究で開発したシステムは，ジョイスティックによる従来の方法と同等のタスク完了時間とユーザーエクスペリエンスを実現した。
- 特に，運動能力に制限のある人にとって，アクセシビリティと操作性の自然さが大幅に向上した。
- 自己中心型マルチモーダルインターフェースが，モバイルマニピュレーションロボットをより多くの人々にとって利用可能にする可能性を示した。
Link: https://arxiv.org/abs/2306.02393
Hyper-STTN：ハイパーグラフ拡張空間・時間変換器ネットワークによる軌跡予測 [cs.CV, cs.LG]目的：群衆の意図と軌跡の予測
- 社会ロボットや自動運転など，実世界アプリケーションにおいて不可欠な技術である。
- 双方向の空間・時間的相互作用の複雑さと，集団ダイナミクスの異質性により，正確なモデリングが困難である。
- 集団間の相関関係を捉え，より正確な軌跡予測を実現すること。
- Hyper-STTNは，様々な集団サイズのマルチスケールハイパーグラフを構築し，集団間の相関をモデル化する。
- 空間・時間変換器を用いて，歩行者の双方向の潜在的相互作用を学習する。
- 実験結果から，Hyper-STTNが最先端のモデルを上回り，優れた性能を示すことが明らかになった。
Link: https://arxiv.org/abs/2401.06344
SRGS：超解像3Dガウススプラッティング [cs.CV]目的：3Dガウススプラッティングの超解像に関する研究
- 3D表現の高品質化は，仮想現実やロボティクス等の応用において不可欠である。
- 低解像度マルチビューキャプチャでは，3DGSの品質が制限されるという課題がある。
- 高周波詳細の復元と，クロスビュー幾何学的整合性の維持を両立する超解像手法の開発。
- 本研究では，SRGSを統一的なモジュールフレームワークとして定式化し，事前知識の注入とクロスビュー正則化の2つの要素に分解した。
- このフレームワークは，既存の多くの手法を包含し，改善点をモジュールと設定に帰属させる分析を可能にした。
- 実験結果から，事前知識と整合性の役割が明らかになり，ロバスト性の評価も行われた。
Link: https://arxiv.org/abs/2404.10318