arXiv雑要約

画像・音声 - 2026/03/20 公開

EffectErase：高品質なエフェクト除去のための動画オブジェクト除去と挿入 [cs.CV]目的：動画オブジェクト除去とエフェクト除去
- 動画編集において，不要なオブジェクトとその視覚効果の除去は重要な課題である。
- 既存手法では，オブジェクト除去と同時に，変形や影といったエフェクトの除去が困難である。
- 本研究は，多様なエフェクトを含む動画データセットと，高品質なエフェクト除去手法を開発する。
- 大規模データセットVORを構築し，オブジェクトとそのエフェクトのペア動画を6万組収録した。
- EffectEraseを提案し，除去と挿入を相互学習するリシプロカルラーニングスキームを導入した。
- 様々なシナリオにおいて，既存手法を上回る高品質なエフェクト除去性能を達成した。
Link: https://arxiv.org/abs/2603.19224
一つの太陽の下で：材質と照明の多物体生成知覚 [cs.CV]目的：材質，テクスチャ，照明といった放射特性の確率的サンプリング
- 画像から物体の外観を理解するためには，材質や照明といった要素の把握が不可欠である。
- 単一画像からの放射特性の分離は本質的に曖昧であり，正確な推定が困難である。
- 同一シーン内の物体は共通の照明を受けるという制約を利用し，曖昧性を解消する。
- MultiGPは，カスケード構造とCoordinated Guidanceにより，一貫性のある照明推定を可能にする。
- Axial Attentionは異なる反射率の物体間での情報の伝達を促進し，高周波テクスチャの保持を実現する。
- 実験結果から，MultiGPが複数の物体の外観情報を活用し，個々のテクスチャ，反射率，共通の照明を効果的に復元することが示された。
Link: https://arxiv.org/abs/2603.19226
拡散ベースの離散モーショントークナイザーによる意味論的・運動学的条件の統合 [cs.CV]目的：意味論的および運動学的条件を統合するためのフレームワーク
- モーション生成は，ロボット工学やコンピュータアニメーションにおいて重要な技術である。
- 既存手法では，意味論的条件と運動学的制御のバランスが課題となっていた。
- 意味論的抽象化と詳細な再現を分離し，より高精度なモーション生成を目指す。
- 提案手法は，HumanML3Dにおいて，MaskControlと比較して制御性と忠実性が大幅に向上した。
- 使用トークン数を1/6に削減し，軌道誤差を0.72cmから0.08cm，FIDを0.083から0.029に低減した。
- より強い運動学的制約下でも，忠実度が向上し，FIDを0.033から0.014に減少させた。
Link: https://arxiv.org/abs/2603.19227
SAMA：ファクタライズされた意味的アンカリングとモーションアラインメントによる指示駆動型動画編集 [cs.CV]目的：指示に基づいた動画編集における，意味的修正の正確さとモーションの忠実性の両立
- 動画編集技術は，コンテンツ制作やパーソナライズされた体験の提供において重要性が増している。
- 既存モデルは，外部事前知識への依存度が高く，汎用性やロバスト性に課題がある。
- 意味的・運動的要素を分離し，より汎用的で頑健な動画編集モデルを構築することを目指す。
- SAMAは，意味的アンカリングとモーションアラインメントをファクタライズすることで，指示に基づいた動画編集を行うフレームワークである。
- ファクタライズされた事前学習のみで，ゼロショット動画編集能力が向上することを確認した。
- オープンソースモデルの中で最先端の性能を達成し，商用システムに匹敵する結果が得られた。
Link: https://arxiv.org/abs/2603.19228
NavTrust：具現化ナビゲーションにおける信頼性評価ベンチマーク [cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY]目的：具現化ナビゲーションの信頼性評価
- ロボットの自律的な移動は，生活や産業における様々なタスクの自動化に不可欠である。
- 現実世界の環境下では，画像，深度情報，指示などにノイズや欠損が生じやすい。
- 現実的な環境下でのノイズに対するロバスト性を評価し，信頼性の高いナビゲーションシステムを開発する。
- NavTrustは，RGB，深度，指示といった入力モダリティを現実的なシナリオで系統的に破壊する統一的なベンチマークである。
- 既存の最先端手法7つを評価した結果，現実的な破壊に対して性能が大幅に低下することが明らかになった。
- RGB-Depthと指示の破壊に対するロバスト性を向上させるための4つの緩和戦略を評価し，実機ロボットでの改善を確認した。
Link: https://arxiv.org/abs/2603.19229
MonoArt：単眼画像からの関節式3D再構成のための漸進的な構造的推論 [cs.CV]目的：単眼画像からの関節式3Dオブジェクトの再構成
- ロボット工学やコンピュータビジョンの分野において，3Dオブジェクトの理解は重要である。
- 単眼画像からの関節式3D再構成は，視覚的証拠が限られているため，構造と動きの絡み合いが課題となる。
- 視覚情報を構造化された表現に変換することで，安定した関節の推論を実現し，再構成精度を向上させる。
- MonoArtは，単一のアーキテクチャ内で，視覚情報をカノニカルジオメトリ，構造化された部品表現，および動きを意識した埋め込みに漸進的に変換する。
- これにより，外部のモーションテンプレートや多段階パイプラインなしで，安定かつ解釈可能な関節推論が可能となる。
- PartNet-Mobilityを用いた実験により，MonoArtが再構成精度と推論速度の両方において最先端の性能を達成することが示された。
Link: https://arxiv.org/abs/2603.19231
キュービック離散拡散：高次元表現トークンにおける離散ビジュアル生成 [cs.CV]目的：高次元表現トークンを用いた離散ビジュアル生成手法
- 近年，言語モデルとの統一的なトークン予測を可能にする離散トークンを用いたビジュアル生成が注目されている。
- 既存の離散生成手法は，セマンティックな豊かさを損ない，低次元の潜在トークンに限定されている。
- 高次元表現の離散生成における課題を克服し，理解と生成の両方に有効なトークンを生成すること。
- CubiDは，高次元表現における最初の離散生成モデルであり，高次元離散表現全体で微細なマスキングを行う。
- ImageNet-256において，900Mから3.7Bパラメータまで優れたスケーリング性能を示す最先端の離散生成を達成した。
- 生成された離散トークンが元の表現能力を維持し，理解と生成の両方のタスクに有効であることが検証された。
Link: https://arxiv.org/abs/2603.19232
マトリョーシカ Gaussian Splatting [cs.RO, cs.CV, cs.GR]目的：3D Gaussian Splattingにおける連続的なレベル・オブ・ディテール (LoD) の実現
- 3Dコンテンツの実用的な展開には，調整可能な品質でのシーンレンダリングが不可欠である。
- 既存のLoD手法は，操作点の制限や品質劣化の問題を抱えている。
- 高品質を維持しつつ，単一モデルから連続的な品質・速度のトレードオフを実現する。
- MGSは，標準的な3DGSパイプラインに連続的なLoDを導入する学習フレームワークである。
- MGSは，ガウスの順序付きセットを学習し，プレフィックスレンダリングにより一貫性のある再構成を可能にする。
- 実験により，MGSはフルキャパシティ性能を維持しつつ，連続的な速度・品質の調整を実現することが示された。
Link: https://arxiv.org/abs/2603.19234
生成モデルは空間を理解する：シーン理解のための暗黙的な3D事前知識の活用 [cs.CV, cs.RO]目的：大規模なビデオ生成モデル内の暗黙的な空間的事前知識の活用
- マルチモーダル大規模言語モデルの発展に伴い，現実世界の理解が求められている。
- 既存モデルは空間認識能力に乏しく，微細な幾何学的推論や物理的ダイナミクスが課題である。
- ビデオ生成モデルが持つ3D構造と物理法則の事前知識を活用し，空間認識能力を向上させる。
- 提案手法VEGA-3Dは，事前学習済みのビデオ拡散モデルを潜在的世界シミュレーターとして再利用する。
- 中間ノイズレベルからの時空間特徴を抽出し，セマンティック表現と統合することで，明示的な3D監督なしに幾何学的情報を補強する。
- 様々なベンチマークにおいて，最先端の手法を凌駕する性能を示し，生成モデルの事前知識が現実世界理解の基盤となることを実証した。
Link: https://arxiv.org/abs/2603.19235
PCOV-KWS：パーソナライズされたカスタマイズ可能なオープンボキャブラリキーワードスポッティングのためのマルチタスク学習 [eess.AS, cs.AI, cs.CL, cs.SD]目的：パーソナライズされたカスタマイズ可能なオープンボキャブラリキーワードスポッティングのマルチタスク学習フレームワーク
- IoT技術の発展に伴い，音声アシスタントの利用が増加し，プライバシーとパーソナライズへのニーズが高まっている。
- 従来のキーワードスポッティングは，特定の語彙に限定され，個人に最適化された検出が困難であった。
- 個人認証と組み合わせたキーワードスポッティングにより，プライバシーを保護しつつ，高精度な検出を実現する。
- 提案手法は，従来のベースライン手法と比較して，評価結果において優れた性能を示した。
- パラメータ数と計算資源が少なく，軽量なネットワークで高い性能を達成した。
- softmaxベースの損失関数に代わる新しい学習基準により，カテゴリ間の競合を解消した。
Link: https://arxiv.org/abs/2603.18023
ProKWS：音素と韻律の共同学習による個別化キーワードスポッティング [eess.AS, cs.AI, cs.CL, cs.SD]目的：個別化キーワードスポッティングの性能向上
- 音声認識技術は，人と機械の自然な対話を実現する上で不可欠である。
- 従来のキーワードスポッティングは，話者固有の韻律情報を無視している。
- 話者固有の韻律情報を活用し，キーワードの認識精度を向上させる。
- ProKWSは，音素と韻律を共同で学習する新しいフレームワークである。
- 音素の頑健な表現と話者固有の韻律パターンを抽出するデュアルストリームエンコーダを設計した。
- 標準ベンチマークにおいて，最先端モデルと同等の性能を示し，音調や意図の変化に対する堅牢性も確認された。
Link: https://arxiv.org/abs/2603.18024
物理的に正確な微分逆レンダリング：無線周波数デジタルツイン [eess.SP, cs.GR, cs.LG]目的：無線周波数デジタルツインの構築
- 産業界におけるシステム設計に変革をもたらすデジタルツイン技術の重要性が高まっている。
- 従来のRFシミュレータは微分不可能であり，デジタルツインとしての活用が制限されてきた。
- 物理に基づいた微分可能なRFシミュレーションフレームワークを開発し，その問題を解決する。
- 提案手法RFDTは，物理的なエッジ回折遷移関数を用いて不連続性を解消する。
- フーリエ領域処理の非凸性を信号領域変換の代理モデルで軽減する。
- RFDTは，実際のRF測定からデジタルツインを正確に再構築できることを示す。
Link: https://arxiv.org/abs/2603.18026
SCISSR：落書き条件によるインタラクティブな手術用セグメンテーションと改良 [eess.IV, cs.AI, cs.CV]目的：手術場面における組織と器具のセグメンテーション手法
- 手術支援システムの精度向上には，正確な組織・器具の認識が不可欠である。
- 手術画像は形状が不規則で構造が薄く，反射や遮蔽が頻繁に発生するため，正確なセグメンテーションが困難である。
- 落書きによる操作で，手術画像のセグメンテーションを効率的に修正し，精度を向上させる。
- SCISSRは，落書きを入力として利用することで，手術場面のセグメンテーションをインタラクティブに行うフレームワークである。
- EndoVis 2018データセットで95.41%のDice係数を，CholecSeg8kデータセットで96.30%のDice係数を，それぞれ数回のインタラクションで達成した。
- この手法は，従来の点プロンプトによる反復的なアプローチよりも優れた性能を示す。
Link: https://arxiv.org/abs/2603.18544
ニューラルノイズエンコーディングと強度較正によるエンドツーエンドQGANベース画像合成 [quant-ph, cs.CV]目的：画像分布の学習
- 量子デバイスを用いたデータ分布学習の可能性を示すQGAN研究は，今後の発展が期待される。
- 既存のQGANは画像全体の直接生成を避け，古典的な後処理やパッチベースの手法に頼る傾向がある。
- 量子ジェネレータの役割を最大限に活かし，グローバルな画像セマンティクスを捉えること。
- ReQGANは，単一の量子回路を用いてN=2^Dピクセルの画像をエンドツーエンドで合成可能である。
- 学習可能なニューラルノイズエンコーダと微分可能な強度較正モジュールにより，安定した学習と効果的な画像合成を実現。
- MNISTとFashion-MNISTでの実験により，厳しい量子ビット予算下でも良好な結果が得られた。
Link: https://arxiv.org/abs/2603.18554
UEPS：堅牢かつ効率的なMRI再構成 [eess.IV, cs.CV]目的：MRI再構成におけるロバスト性と効率性の向上
- MRIは非侵襲的な医療画像診断に不可欠であり，高速化と高画質化が求められている。
- 深層学習モデルはMRI再構成の精度を向上させるが，異なる環境下での汎化性能が課題である。
- コイル感度マップ推定のボトルネックを解消し，環境変化に強い再構成手法を開発する。
- UEPSは，コイル依存性を排除するUnrolled Expanded設計，プログレッシブ解像度，スパースアテンションを導入した。
- 10種類の異なる臨床データセットを用いた評価において，既存手法を大幅に上回るロバスト性を示した。
- 低遅延な推論が可能であり，リアルタイムな臨床応用への道を開く。
Link: https://arxiv.org/abs/2603.18572
LLMのバックボーンにおける聴覚知識が音声言語モデルをどのように形成するか：包括的評価 [eess.AS, cs.CL, cs.SD]目的：LLMバックボーンにおける聴覚知識の度合いとその音声言語モデルへの影響
- 近年，音声処理分野においてLLMを活用する研究が盛んに行われている。
- LLMがテキストのみの事前学習を通じて，どれだけの聴覚知識を獲得しているかは不明である。
- LLMの聴覚知識の程度を評価し，音声言語モデルの性能向上に資する。
- LLMファミリーによって聴覚知識の量に大きな差が見られた。
- テキストのみの評価結果と音声性能の間には強い相関関係が認められた。
- 本研究は，音声研究におけるLLM理解のための実証的根拠を提供する。
Link: https://arxiv.org/abs/2603.19195
ファッションにおけるAIの探求：美学，パーソナライズ，バーチャル試着，予測に関するレビュー [cs.CV, cs.LG]目的：ファッション分野におけるAI技術の現状と課題
- ファッション産業は経済的・文化的影響が大きく，AI技術の導入による効率化や新たな価値創造が期待される。
- 消費者に直結する分野において，AI技術の導入状況や評価指標に関する体系的な調査が不足している。
- 美学，パーソナライズ，バーチャル試着，予測といった分野におけるAI技術の進展と課題を明らかにすること。
- 本レビューは，表現学習，嗜好モデリング，画像変換，時系列分析といった技術的アプローチを包括的にまとめた。
- これらの技術が，レコメンダーシステムやユーザーエクスペリエンスにどのように関連しているかを明らかにした。
- 美学に基づいたパーソナライズやトレンドに基づいたレコメンデーションなど，分野間の連携の重要性を指摘した。
Link: https://arxiv.org/abs/2101.08301
PD-REALデータセットにおけるRGB-D異常検知のためのマルチスケール蒸留 [cs.CV]目的：3D領域における教師なし異常検知のための大規模データセットおよびマルチスケール蒸留フレームワーク
- 異常検知は，製造業における品質管理において重要な役割を担う分野である。
- 従来の2D画像のみを用いた異常検知では，照明条件や撮影角度の影響を受けやすく，幾何学的構造の異常を捉えきれない場合がある。
- 本研究は，制御された環境下で3D情報を活用することで，よりロバストな異常検知を実現することを目的とする。
- PD-REALデータセットは，15種類のオブジェクトカテゴリーにおけるPlay-Dohモデルで構成され，6種類の異常（へこみ，ひび割れ，穿孔など）を含む。
- 提案手法は，マルチスケール蒸留フレームワークを用いて，グローバルコンテキストとローカル特徴を同時に捉え，より豊かな特徴表現を獲得する。
- 実験結果から，提案手法は既存の異常検知アルゴリズムと比較して，高い検知精度を示すことが確認された。
Link: https://arxiv.org/abs/2311.04095
アンサンブルと負のプリミティブによる凸分解の改善 [cs.CV]目的：シーンのプリミティブによる記述手法の改善
- シーン理解において，構造を効率的に表現するプリミティブの利用は重要である。
- 既存手法では，シーンに応じて適切なプリミティブ数や相互作用の最適化が課題である。
- 負のプリミティブとアンサンブルを導入し，表現力と精度向上を目指す。
- 提案手法は，既存の最先端手法と比較して，深度表現とセグメンテーションにおいて大幅な改善を実現した。
- 負のプリミティブの導入により，モデルが表現できる形状が豊かになり，適合精度が向上した。
- LAION画像データセットに対する評価により，本手法のロバスト性と汎用性が確認された。
Link: https://arxiv.org/abs/2405.19569
3D脳MRI反事実のための潜在的因果モデリング [cs.CV, cs.AI]目的：3D脳MRIの反事実生成
- 脳MRI研究では，深層学習モデルの学習に十分なサンプル数が確保するのが難しい。
- 生成モデルは多様で高品質なデータを生成するのに苦戦することがある。
- 高次元空間における因果モデリングの課題を克服し，高品質な反事実MRIを生成すること。
- 潜在空間に構造因果モデルを構築する二段階手法を提案した。
- VQ-VAEを用いてMRIボリュームのコンパクトな埋め込み表現を学習した。
- ADNIおよびNCANDAのデータを用いた実験で，高品質な3D MRI反事実が生成可能であることを示した。
Link: https://arxiv.org/abs/2409.05585
TiROD：小型ロボット用継続物体検出データセットとベンチマーク [cs.RO, cs.CV]目的：小型ロボットにおける継続学習戦略の評価
- ロボットの自律移動や検査など，多くの用途で視覚センサーによる物体検出は不可欠である。
- ロボットは学習環境と異なる条件下で動作することが多く，適応が課題となる。
- 小型ロボット特有の制約下で，ロバストで効率的な継続学習戦略を開発することを目指す。
- 本研究では，小型ロボットのオンボードカメラで収集したビデオデータセットTiRODを公開した。
- 軽量オブジェクト検出器NanoDetを用いた継続学習戦略のベンチマークを実施し，様々なシナリオにおける性能を評価した。
- 結果から，小型ロボットにおける継続学習戦略の開発には，いくつかの課題があることが示された。
Link: https://arxiv.org/abs/2409.16215
コントラスト蒸留は包括的な3D表現学習に十分か？ [cs.CV, cs.AI]目的：包括的な3D表現学習のための枠組み
- 3D表現学習は，ロボティクスや自動運転など，多様な応用分野で重要性が高まっている。
- 既存手法はモダリティ共有特徴に焦点を当て，モダリティ固有の特徴の学習が不十分である。
- モダリティ共有と固有の特徴を統合し，より包括的な3D表現学習を実現する。
- 本研究では，CMCRという新しいフレームワークを提案し，理論的分析を通じて既存手法の限界を克服した。
- マスク画像モデリングや占有推定タスクを導入することで，モダリティ固有の特徴の学習を促進した。
- 実験結果から，提案手法は既存の画像からLiDARへのコントラスト蒸留手法を上回り，ダウンストリームタスクで優れた性能を示した。
Link: https://arxiv.org/abs/2412.08973
OFTSR：忠実度とリアリズムのトレードオフを調整可能な画像超解像のためのワンステップフロー [cs.CV]目的：忠実度とリアリズムを調整可能な画像超解像のためのワンステップフローフレームワーク
- 画像超解像は，低解像度画像を高品質に復元し，視覚体験を向上させる上で重要な技術である。
- 従来の深層学習アプローチは計算コストが高いか，忠実度とリアリズムのトレードオフが固定されているという課題があった。
- 本研究は，忠実度とリアリズムを柔軟に調整可能な，効率的なワンステップ画像超解像を実現することを目指す。
- OFTSRは，教師モデルの知識を蒸留することで，ワンステップでの高品質な画像超解像を可能にした。
- 提案手法は，FFHQ，DIV2K，ImageNetデータセットにおいて，最先端の性能を達成した。
- OFTSRは，忠実度とリアリズムのトレードオフを柔軟に調整できるという利点を持つ。
Link: https://arxiv.org/abs/2412.09465
SVGBuilder：テキストガイダンスによる自己回帰トランスフォーマーを用いたコンポーネントベースのカラーSVG生成 [cs.CV, cs.AI, cs.GR]目的：高品質カラーSVGの生成
- SVGは，解像度独立性やスケーラビリティを持ち，多様なグラフィックスに不可欠なフォーマットである。
- 既存のSVG生成方法は，計算コストが高く，複雑であるという課題がある。
- テキストから効率的に高品質なSVGを生成するための新しい手法を開発すること。
- SVGBuilderは，従来の最適化ベースの手法と比較して，最大604倍高速にSVGを生成可能である。
- ColorSVG-100Kという，10万件のカラーSVGを含む大規模データセットを新たに構築し，公開した。
- 最先端モデルとの比較により，SVGBuilderが複雑なSVGグラフィックスの生成において，効率性と品質で優れていることが示された。
Link: https://arxiv.org/abs/2412.10488
浅い非線形ネットワークにおける線形分離可能な特徴：幅はデータの内在次元に多項式的にスケールする [cs.DC, cs.RO, cs.MM, cs.SI, cs.LG, cs.CV, stat.ML]目的：浅い非線形ネットワークの線形分離能力
- 深層学習は分類タスクで成功を収めているが，そのメカニズムの理解は十分ではない。
- 深層ネットワークの学習特徴が線形分離可能であるという経験的な知見は，理論的根拠に乏しい。
- データの内在次元が低い場合に，単一の非線形層で線形分離が可能となることを示す。
- データが低次元部分空間の和としてモデル化されると，非線形層が線形分離可能な集合へと変換される。
- ランダムな重みと二次活性化関数を使用した場合，この変換が高確率で起こることが理論的に示された。
- ネットワーク幅は，データの外在次元ではなく，内在次元に対して多項式的にスケールすれば十分であることが証明された。
Link: https://arxiv.org/abs/2501.02364
普遍的な疎な自動符号化器：解釈可能なクロスモデル概念アラインメント [cs.CV, cs.LG]目的：複数モデルに共通する解釈可能な概念のアラインメント
- 深層学習モデルの解釈性は，AIの信頼性と安全性向上に不可欠である。
- 既存手法では単一モデルに限定され，モデル間での概念の比較が困難である。
- 複数モデルに適用可能な普遍的な概念空間を学習し，モデル間比較を可能にする。
- 普遍的な疎な自動符号化器(USAE)を提案し，複数モデルに共通する概念を抽出・アラインメントすることに成功した。
- USAEは，低レベル特徴(色，テクスチャ)から高レベル構造(部分，物体)まで，意味的に一貫性のある普遍的な概念を発見した。
- 本研究は，複数モデルAIシステムの深い洞察につながる，解釈可能なクロスモデル分析の新たな手法を提供する。
Link: https://arxiv.org/abs/2502.03714
ポリマトリックスゲームにおける差分プライバシー付き均衡探索 [cs.CL, cs.GT, cs.AI, cs.CR, cs.LG]目的：ポリマトリックスゲームにおける差分プライバシー制約下での均衡探索
- ゲーム理論は，経済学，政治学，コンピュータサイエンスなど，多様な分野で意思決定の分析に不可欠である。
- 差分プライバシーをゲームに適用する際，高い精度と低いプライバシー予算の両立が課題となっていた。
- プレイヤー数が増加するにつれて，高い精度と低いプライバシー予算を同時に達成するアルゴリズムを開発する。
- 本研究では，プレイヤー数が増加するにつれて，均衡集合へのユークリッド距離に基づく均衡近似保証と，消失するプライバシー予算を同時に達成することが不可能であることを示す。
- より現実的な設定（限られた数のチャネルへのアクセス）において，期待される効用（exploitability）とプライバシー予算の両方が消失する戦略を回復する新しい分散アルゴリズムを提案する。
- 提案アルゴリズムは，ポリマトリックスゲームの構造的特性を活用しており，均衡計算においてこの目標を達成する初めての論文である。
Link: https://arxiv.org/abs/2503.09538
DynamicVis：効率的なリモートセンシング基盤モデルのための動的な視覚的知覚 [cs.CL, cs.CV]目的：リモートセンシング画像における効率的な処理を可能にする視覚的基盤モデルの開発
- リモートセンシング技術の進歩により高解像度な地球観測が可能になったが，その解釈には課題が残る。
- 既存の視覚モデルは，背景の冗長性を考慮せず，わずかなターゲットに埋没しがちである。
- 本研究では，リモートセンシング画像のスパース性に着目し，効率的な処理を実現するモデルを提案する。
- DynamicVisは，タスク関連の重要なトークンのみを動的に処理することで計算量を削減する。
- Region-Level Meta-Embedding MILを用いた事前学習により，前景と背景を分離し，semantic ambiguityを克服する。
- 9つの多様なダウンストリームタスクにおいて，特にスパースターゲット検出や変化検出において高い有効性を示す。
Link: https://arxiv.org/abs/2503.16426
Mobile-VideoGPT：モバイル動画理解のための高速かつ高精度なモデル [cs.DM, math.CO, cs.CL, cs.CV]目的：モバイル動画理解のための効率的なマルチモーダルモデル
- 動画理解は，AI技術の発展により重要性が増しており，様々な応用が期待される分野である。
- 従来の動画理解モデルは計算コストが高く，パラメータ数が多く，推論速度が遅いという課題があった。
- 本研究は，軽量なモデルで高い性能を実現し，実用的な動画理解システムの構築を目指す。
- Mobile-VideoGPTは，10億個以下のパラメータで動作する効率的なマルチモーダルフレームワークである。
- Mobile-VideoGPT-0.5Bは，既存の0.5Bパラメータモデルよりも平均で6ポイント高い性能を示し，パラメータ数は40%削減，スループットは2倍以上向上した。
- アテンションに基づくフレームスコアリング機構と効率的なトークンプロジェクターにより，リアルタイムでの処理が可能になった。
Link: https://arxiv.org/abs/2503.21782
SuperDec：超二次素元による3Dシーンの分解 [cs.CV]目的：3Dシーンをコンパクトに表現するための超二次素元による分解手法
- 3Dシーンの表現は，ロボット工学やコンテンツ生成などに応用が期待されており，重要性が高い。
- 既存手法では，フォトリアリスティックな表現に注力するあまり，表現のコンパクトさが見過ごされている。
- 超二次素元を用いて，3Dシーンをコンパクトかつ表現力豊かに分解することを目指す。
- 提案手法SuperDecは，インスタンスセグメンテーションを活用することで，大規模な3Dシーンへの適用を可能にした。
- ShapeNetでの学習とScanNet++，Replicaでの検証により，高い汎化性能が確認された。
- 超二次素元に基づくコンパクトな表現が，ロボットタスクやコンテンツ生成・編集など，多様な応用分野に貢献する可能性が示された。
Link: https://arxiv.org/abs/2504.00992
安価なロボットにおける視覚的固有受容のための潜在表現 [cs.RO, cs.CV]目的：安価なロボットにおける視覚的固有受容の実現
- ロボット操作には関節位置の知識が不可欠であり，高性能ロボットでは標準的に利用可能である。
- 安価なロボットでは，複雑な環境下で正確な固有受容が得られないという課題がある。
- 単一カメラ画像から高速かつ高精度な視覚的固有受容を実現し，安価なロボットの性能向上を目指す。
- CNN，VAE，ViT，フィデュシャルマーカーなど，様々な潜在表現を評価した結果，高い精度で固有受容が可能であることが示された。
- 限られたデータに対するファインチューニング技術を用いることで，実用的な性能が実現できることが確認された。
- 安価な6自由度ロボットを用いた実験により，提案手法の有効性が検証された。
Link: https://arxiv.org/abs/2504.14634
MIPHEI-ViT：ViT基礎モデルを用いたH&E画像からの多重免疫蛍光予測 [cs.CV, q-bio.TO]目的：H&E画像から多重免疫蛍光（mIF）シグナルを予測する手法
- 癌診断において組織学的解析は不可欠であり，H&E染色がルーチンに行われている。
- mIFは細胞の精密な同定を可能にするが，コストと運用上の制約から普及が遅れている。
- H&E画像からmIFを予測することで，mIFの代替手段を提供し，より広範な解析を可能にする。
- MIPHEIは，H&E画像のみから高い精度で細胞タイプ分類を実現した（Pan-CK:F1=0.93，alpha-SMA:F1=0.83）。
- モデルは，核形態と組織学的文脈間の複雑な関係を捉え，特定の細胞タイプを定義する分子マーカーを反映していることが示唆された。
- MIPHEIは，大規模H&Eデータセットにおける細胞タイプを意識した解析を可能にし，患者予後との関係性の解明に貢献する可能性がある。
Link: https://arxiv.org/abs/2505.10294
点群分類に対する勾配ベースの敵対的攻撃の再考 [cs.CV, cs.AI]目的：点群分類器のロバスト性の評価手法の改善
- 3次元点群データの活用は，自動運転やロボティクス等の分野で重要性が増している。
- 点群分類器は，敵対的攻撃に対して脆弱であり，その評価手法が不十分である。
- 知覚的に分かりにくい，より効果的な敵対的攻撃手法を開発すること。
- 提案手法WAAttackは，点ごとの重み付け勾配と適応的なステップサイズを用いることで，攻撃効果と隠蔽性の両方を向上させている。
- SubAttackは，敵対的有効性と知覚的な顕著性の低い組み合わせに焦点を当てることで，攻撃効率を高めている。
- 実験の結果，提案手法は最先端の手法と比較して，より知覚的に分かりにくい敵対的サンプルを生成することが示された。
Link: https://arxiv.org/abs/2505.21854
オンライン公平分割における追加情報 [cs.GT, cs.AI]目的：分割不可能な資源をエージェントに公平に割り当てるオンライン設定における保証の向上
- 資源配分は，社会経済活動の根幹であり，公平性は重要な評価基準である。
- オンライン設定では，将来の情報が不明確なため，公平な配分が困難である。
- 将来情報の種類に応じた公平な配分アルゴリズムを開発し，保証を改善すること。
- 総価値情報を用いることで，既存研究よりも強い公平性保証を実現するアルゴリズムを提案した。
- 頻度予測を用いることで，オフラインの保証をオンライン設定に拡張するメタアルゴリズムを設計した。
- ノイズを含む総価値や頻度予測下でも，頑健な保証が得られることを示した。
Link: https://arxiv.org/abs/2505.24503
意味認識型情報ボトルネックを用いた動画異常検知 [cs.DC, cs.CV]目的：動画異常検知における汎化性能向上と意味的異常の認識
- 動画監視システム等の安全確保において，異常行動の自動検知は重要である。
- 既存手法では，正常パターンと異常パターンの区別が曖昧になりやすい。
- 意味情報に着目し，適応的な情報ボトルネックにより異常を効果的に除去する。
- 提案手法SIB-VADは，スパース特徴フィルタリングモジュール(SFFM)を用いて正常特徴を低次元多様体へ圧縮し，異常を効果的にフィルタリングする。
- SFFMは，従来の記憶モジュールとは異なり，直接的に異常情報を除去し，シーンの変化に柔軟に対応する。
- 外観，動き，意味情報を共同でモデル化するマルチモーダル予測により，よりロバストな異常検知性能を達成した。
Link: https://arxiv.org/abs/2506.02535
専門家が作成したガイドラインによる自動アノテーション：3D LiDAR検出ベンチマークを通じた研究 [cs.CV]目的：専門家が作成したガイドラインを用いた自動アノテーション手法の開発
- 機械学習モデルの開発にはデータアノテーションが不可欠であり，自動化による効率化が求められている。
- 従来のアノテーションは人手による作業であり，労力，時間，コストがかかるという課題がある。
- 少ないラベルデータとテキストから学習し，LiDARデータにおける3D検出を可能にする手法を開発する。
- 既存のnuScenesデータセットを再利用し，専門家が作成したガイドラインに基づいたベンチマークAutoExpertを構築した。
- RGB画像に対する2D検出とセグメンテーションにFoundation Modelを活用し，LiDARデータにおける3D検出へと変換するパイプラインを開発した。
- 開発したパイプラインにより，3D検出のmAPを25.4まで向上させ，従来の最高性能12.1を大幅に上回った。
Link: https://arxiv.org/abs/2506.02914
QualitEye：公開とプライバシー保護を備えた視線データ品質検証 [cs.HC, cs.CR, cs.CV]目的：視線データ品質の検証手法
- 視線データは，様々な応用分野で活用が広がっているため，その信頼性が重要である。
- 大規模データ収集における品質保証と，複数機関でのデータ共有に伴うプライバシー保護が課題である。
- 公開環境とプライバシー保護環境の両方で，視線データ品質を検証する手法を確立すること。
- QualitEyeは，視線画像の検証に必要な情報のみを表現する新しいセマンティック表現を用いる。
- MPIIFaceGazeとGazeCaptureデータセットで検証し，高い検証性能と低い実行時間オーバーヘッドを達成した。
- 機械学習，人間-コンピュータ相互作用，暗号学の交差領域における新たな視線分析手法の道を開く。
Link: https://arxiv.org/abs/2506.05908
TR2M：言語記述と二段階のスケール指向コントラストによる単眼相対深度からメートル深度への転移 [cs.CV]目的：単眼相対深度からメートル深度への転移
- 単眼深度推定は，自動運転やロボティクスなどの分野において，周囲環境の理解に不可欠である。
- 既存手法では，特定のドメインに限定されるか，スケールが不確実なため，汎用的な利用が困難である。
- 言語情報を活用し，ピクセルレベルでのスケール変換を行い，汎用的なメートル深度推定を目指す。
- TR2Mは，画像とテキスト記述の両方を入力とし，二つのリスケールマップを推定することで相対深度からメートル深度への転移を実現する。
- クロスモーダルアテンションモジュールにより，スケール情報に関わる特徴量の抽出精度が向上する。
- 信頼性の高い疑似メートル深度を生成し，スケール指向コントラスト学習を組み合わせることで，より精度の高いモデル学習を可能にする。
Link: https://arxiv.org/abs/2506.13387
LiteReality：RGB-Dスキャンからのグラフィックス対応3Dシーン再構築 [cs.CV, cs.AI, cs.GR]目的：RGB-Dスキャンからコンパクトでリアル，かつインタラクティブな3D仮想レプリカの生成
- 仮想環境のリアリティ向上は，AR/VR，ゲーム，ロボティクスなど幅広い分野で重要である。
- 従来の3Dシーン再構築は，データ量が大きく，グラフィックスパイプラインとの互換性が低い場合がある。
- 本研究は，高品質で編集可能，かつグラフィックスパイプラインに対応した3Dシーンの効率的な再構築を目指す。
- LiteRealityは，現実と視覚的に類似したシーンを再構築し，オブジェクトの個体性や物理ベースレンダリングをサポートする。
- 学習不要のオブジェクト検索モジュールが，Scan2CADベンチマークで最先端の類似性性能を達成した。
- ロバストなマテリアルペイントモジュールは，あらゆるスタイルの画像から3Dアセットへの外観転送を可能にする。
Link: https://arxiv.org/abs/2507.02861
SenseShift6D：環境およびセンサー変化に対するロバストな6D姿勢推定のためのマルチモーダルRGB-Dベンチマーク [cs.CV]目的：環境およびセンサーの変動に対するロバストな6D姿勢推定のためのベンチマークデータセット
- 6D物体姿勢推定は，ロボット工学やコンピュータビジョンの重要な要素であり，実用的な応用が期待されている。
- 既存のデータセットは，照明やカメラ設定が固定されており，現実世界の変動に対する影響が不明であった。
- 現実世界の多様な環境下でロバストな姿勢推定を可能にするための評価基準を確立すること。
- SenseShift6Dは，13種類のRGB露出，9種類のRGBゲイン，自動露出，4種類の深度キャプチャモード，5種類の照明レベルを網羅するRGB-Dデータセットである。
- 既存の汎用的な姿勢推定器は，照明やセンサー設定の変化に対して性能変動が大きく，環境への適応性の向上が課題であることが示された。
- テスト時のマルチモーダルセンサー選択により，理想的なコントローラーを使用した場合，汎用モデルで最大+16.7ppの性能向上を達成できることが示された。
Link: https://arxiv.org/abs/2507.05751
融合前に確認せよ：ロバストな3D検出のための2D誘導クロスモーダルアライメント [cs.CV, cs.AI]目的：LiDARとカメラの入力を統合した統一的な鳥瞰図（BEV）表現の構築
- 自動運転車の3D知覚能力向上には，LiDARとカメラの情報を統合することが不可欠である。
- 既存手法では，LiDARとカメラの特徴間の空間的なずれが問題であり，正確な深度 supervision とクロスモーダル特徴の集約を妨げている。
- 本研究は，投影誤差に起因するずれを，2D検出器で信頼性の高いオブジェクト境界を利用して事前に修正することを目指す。
- 提案手法は，Prior Guided Depth Calibration (PGDC)により，2Dプリアーを用いてずれを軽減し，正しいクロスモーダル特徴ペアを維持する。
- Discontinuity Aware Geometric Fusion (DAGF)を導入し，残差ノイズを抑制し，オブジェクト境界におけるシャープな深度変化を強調することで，構造を意識した表現を実現した。
- nuScenes検証データセットで最先端の性能（mAP 71.5%，NDS 73.6%）を達成し，Argoverse 2でも競争力のあるmAP 41.7%を記録した。
Link: https://arxiv.org/abs/2507.16861
コンテンツ特定データ処理のためのページ画像分類 [cs.IR, cs.AI, cs.CV]目的：歴史的文書のページ画像のコンテンツに基づく分類
- デジタル化が進む人文科学において，大量のページ画像データが生成され，効率的な処理が求められている。
- 多様なコンテンツ（手書き文字，図表，レイアウト等）を含むため，手作業での分類・分析に限界がある。
- コンテンツに応じた処理を可能にする自動分類システムの開発により，分析パイプラインの効率化を目指す。
- 本研究では，歴史的文書のページ画像に特化した画像分類システムを開発し，その有効性を評価した。
- 人工知能と機械学習の進歩を活用し，コンテンツ固有の処理ワークフローを促進するためのカテゴリ設定を行った。
- その結果，テキスト認識（OCR）や画像分析など，異なる分析手法が必要なページを効率的に分離できることが示された。
Link: https://arxiv.org/abs/2507.21114
3Dガウシアンスプラッティングにおける物体除去後の残差のベンチマーク [cs.CV]目的：3Dガウシアンスプラッティングにおける物体除去後の意味的残差の定量化
- 3Dシーンの編集技術は発展しているが，プライバシー保護の観点から，完全に情報を消去することが重要である。
- 既存の物体除去手法は，視覚的な除去だけでなく，意味的な情報の残留という問題がある。
- 3D編集パイプラインにおける意味的残差の存在を明らかにし，プライバシー保護を考慮した除去手法の必要性を示す。
- 物体除去後も，多くの手法が意味情報を保持しており，基礎モデルによって検出可能であることが示された。
- Remove360データセットは，複雑なシーンにおける物体除去の評価を可能にする。
- 幾何学的除去と意味的消去の間には一貫したギャップが存在し，プライバシー保護の重要性が再認識された。
Link: https://arxiv.org/abs/2508.11431
DriveSplat：動的な運転シーンのための統一ニューラルガウス再構成 [cs.CV]目的：動的な運転シーンの再構成
- 自動運転技術発展に不可欠であり，高精度な環境理解が求められる。
- 大規模で変化に富む運転シーンの再構成は，既存手法では困難である。
- ガウススプラッティングを用いて，大規模かつ動的な運転シーンを効率的に再構成する。
- DriveSplatは，シーン認識可能なLOD戦略により，遠近感のある運転環境を適応的に再構成する。
- 動的対象物には，ガウス素子と剛体変換，非剛体変形を組み合わせた表現を用いる。
- WaymoとKITTIの評価で最先端の性能を示し，安定した再構成を実現した。
Link: https://arxiv.org/abs/2508.15376
CrossHOI-Bench：Vision-LanguageモデルとHOI専用手法に対するHOI評価の統一的なベンチマーク [cs.CV]目的：Vision-LanguageモデルとHOI専用手法のHOI検出能力の統一的かつ信頼性のある評価
- HOI検出は，画像と言語を理解するAIの性能を測る上で重要であり，ロボット工学などへの応用が期待されている。
- 既存のベンチマークは厳密なラベル一致を要求するため，妥当な予測も誤りと判定され，比較評価の信頼性が低い。
- 既存ベンチマークの課題を克服し，より公平かつ信頼性の高いHOI検出の評価指標を提供することを目指す。
- 大規模なVision-Languageモデルは，ゼロショット学習において競争力のある，場合によっては優れた性能を発揮することが示された。
- しかし，複数の同時アクションやターゲット人物への正確な相互作用の割り当てには課題が残ることも明らかになった。
- 一方，HOI専用手法は，一般的なHOI推論は弱いものの，複数アクションの認識や人物特定において強みを持つことが示された。
Link: https://arxiv.org/abs/2508.18753
拡散モデルにおける属性操作のためのオールインワン・スライダー [cs.CV]目的：拡散モデルにおける生成画像属性の操作手法
- 画像生成技術は近年飛躍的に進歩しており，高品質な画像が容易に生成可能になっている。
- 生成画像の特定属性を意図通りに操作することは依然として困難であり，特に詳細なコンテンツで課題が残る。
- 新たな属性に対する追加学習なしに，汎用的な属性操作を可能にすることを目指す。
- 本研究では，テキスト埋め込み空間を疎な属性方向へと分解する軽量モジュール「オールインワン・スライダー」を提案する。
- 提案手法は，多様な属性に対して解釈可能かつ微細な連続制御を実現し，既存手法と比較して顕著な性能向上を達成する。
- また，実画像への適用も可能であり，様々な実世界シナリオへの応用が期待される。
Link: https://arxiv.org/abs/2508.19195
AI駆動によるサンゴ礁再生産デバイスの散布：グレートバリアリーフの大規模復元 [cs.CV, cs.LG, cs.RO]目的：サンゴ礁再生産デバイスの散布をAIで駆動し，グレートバリアリーフの大規模復元を可能にするシステム
- 気候変動によりサンゴ礁は危機に瀕しており，生態系サービスや生物多様性の維持が困難になっている。
- 手作業によるサンゴ礁の復元は，コストと時間がかかるため，大規模な復元には限界がある。
- AIを活用し，サンゴ礁復元作業の効率化と自動化を図り，大規模復元を実現することを目指す。
- 本研究で開発したAIパイプラインは，専門家のラベル付けコストを削減し，リアルタイムでのサンゴ礁環境分析を可能にした。
- グレートバリアリーフの5つの地点での検証により，77.8%の散布精度と89.1%の画像パッチ分類精度が確認された。
- また，本研究で収集・アノテーションしたデータセットを公開することで，今後の研究促進に貢献する。
Link: https://arxiv.org/abs/2509.01019
拡散Transformerを用いた生成ビデオ合成 [cs.RO, cs.CV]目的：生成ビデオ合成の実現
- ビデオ制作や映画制作において，映像合成は不可欠な技術であり，その効率化が求められている。
- 従来のパイプラインは労力と専門知識を必要とし，制作期間が長くコストが高いという課題がある。
- 映像編集の自動化により，制作コストの削減と効率化を目指す。
- 提案手法は，拡散Transformer（DiT）を活用し，背景の維持と前景の融合を効果的に行う。
- 特に，拡張ロータリー位置埋め込み（ERoPE）により，ユーザー制御に基づいた異なるレイアウトの合成が可能となった。
- 61K組のビデオからなる新しいデータセットVideoCompを構築し，高品質な合成結果を実験的に示した。
Link: https://arxiv.org/abs/2509.02460
K近傍重み付き融合を用いた人物再識別における再ランキング手法 [cs.CV]目的：人物再識別における再ランキングによる精度向上
- 人物再識別は，監視カメラなどを用いた人物特定において重要な技術である。
- 単一視点からの特徴量では，視点の影響や姿勢変化，遮蔽物による問題が生じやすい。
- 多視点特徴量を用いることで，視点の影響を軽減し，再識別精度を向上させることを目指す。
- 本研究で提案する再ランキング手法は，K近傍重み付き融合(KWF)を用いて多視点特徴量を生成する。
- MSMT17およびOccluded-DukeMTMCデータセットにおいて，Rank@1がそれぞれ9.8%/22.0%向上した。
- 本手法は，モデルの再学習や追加のアノテーションを必要とせず，大規模データセットにも適用可能である。
Link: https://arxiv.org/abs/2509.04050
TrajBooster：軌道中心学習によるヒューマノイド全身操作の強化 [eess.SY, cs.SY, cs.HC, cs.RO, cs.CV]目的：ヒューマノイドロボットの全身操作性能向上
- ロボットの汎用性と知能化が進む中で，多様な環境への適応能力が重要となっている。
- 二足歩行ヒューマノイドロボットでは，高品質な実証データの不足が，学習のボトルネックとなっている。
- 本研究は，車輪型ヒューマノイドのデータを活用し，二足歩行ロボットの学習効率を高めることを目指す。
- TrajBoosterは，車輪型ヒューマノイドの豊富なデータを活用し，二足歩行ロボットのVLA（Vision-Language-Action）モデルを強化する。
- エンドエフェクタの軌跡を形態に依存しないインターフェースとして利用し，シミュレーション環境でUnitree G1への軌道リターゲティングを実現した。
- 実機Unitree G1での実験により，TrajBoosterが，低いコストで二足歩行ヒューマノイドのVLA性能を向上させることが示された。
Link: https://arxiv.org/abs/2509.11839