arXiv雑要約

画像・音声 - 2026/04/06 公開

  • SmartCLIP:識別保証付きモジュール型視覚-言語アライメント [cs.CV, cs.AI]目的:視覚とテキスト表現のアライメント手法
    • 画像とテキストの理解は,AIの発展に不可欠であり,様々な応用を可能とする。
    • 既存のCLIPモデルは,画像とテキストのデータセットにおける情報不整合に弱く,表現が複雑に絡み合っている。
    • 本研究は,画像とテキストの表現を適切にアライメントし,細粒度の概念を捉えることを目指す。
    • 理論的な条件に基づき,テキストと視覚表現の様々な粒度での柔軟なアライメントを実現した。
    • 提案手法SmartCLIPは,関連性の高い視覚およびテキスト表現をモジュール的に識別・アライメントする。
    • 様々なタスクにおいて優れた性能を示し,情報不整合への対応と識別理論を裏付けた。

    Link: https://arxiv.org/abs/2507.22264

  • 疎な視点画像からのポーズフリー関節オブジェクト学習:PAOLI [cs.IR, cs.CL, cs.CV]目的:疎な視点画像からの関節オブジェクトのモデリング
    • 3次元オブジェクトの理解は,ロボティクスやコンピュータビジョンの根幹をなす重要な課題である。
    • 従来の技術は,密な多視点画像と正確なカメラ姿勢を必要とし,現実的なデータへの適用が困難であった。
    • 少ない視点数とカメラ姿勢の未知性下でも,関節オブジェクトを高精度に再現することを目的とする。
    • 本手法は,4枚程度の視点画像のみで関節オブジェクトを再構成可能であり,カメラ姿勢の事前知識を必要としない。
    • まず,視点の異なる再構成間の頑健な対応付けとアライメント問題を解決し,その上で関節の動きを分析する。
    • 静止部と可動部を分離する戦略により,カメラとオブジェクトの動きをロバストに分離し,詳細な表現を実現した。

    Link: https://arxiv.org/abs/2509.04276

  • MedGS:マルチモーダル3D医療イメージングのためのガウススプラッティング [cs.CV]目的:内視鏡画像からの3D再構成と新規視点合成の改善
    • 消化器系疾患の診断において,内視鏡検査は不可欠であり,3D再構成技術への期待は高い。
    • カメラの軌道制約や照明条件により,再構成にアーティファクトが生じやすい。
    • 内視鏡検査の特性に着目し,照明効果と組織特性を分離することで,より正確な再構成を目指す。
    • 提案手法MedGSは,物理ベースの再照明モデルと複雑な照明効果を捉えるMLPを組み合わせることで,従来のガウススプラッティングを強化する。
    • 公開データセットと社内データセットの両方において,ベースライン手法と比較して優れた再構成品質を達成した。
    • MedGSは,組織の変形を可能にしつつ,光への物理的に正確な応答を維持することで,臨床応用への道を開く。

    Link: https://arxiv.org/abs/2509.16806

  • ROPA:RGB-D両手操作データ拡張のための合成ロボットポーズ生成 [cs.RO, cs.AI, cs.CV, cs.LG]目的:RGB-D両手操作におけるデータ拡張のための合成ロボットポーズ生成
    • ロボットの模倣学習において,多様なデータは性能向上に不可欠である。特に両手操作では,複雑な動作を学習するため,より多くのデータが必要となる。
    • 実世界の多様なデータを収集するには,コストと時間がかかるため,大規模な学習を阻害する要因となっている。
    • 本研究は,Stable Diffusionを微調整することで,新しいロボットポーズのRGB-D画像を生成し,データ拡張による学習効率化を目指す。
    • ROPAは,シミュレーションおよび実世界の5つのタスクにおいて,既存手法や比較実験を上回る性能を示した。
    • 本手法は,物理的な整合性を保ちつつ,両手操作におけるグリッパーと物体の接触制約を考慮した合成データ生成を可能にする。
    • これにより,RGB-Dデータ拡張による,目視位置からの両手操作の学習のスケーラビリティが期待される。

    Link: https://arxiv.org/abs/2509.19454

  • 半教師あり3D物体検出のための適応的擬似ラベル選択学習 [cs.CV]目的:半教師あり3D物体検出における高精度な擬似ラベルの自動選択
    • 3D物体検出は自動運転等の分野で重要だが,3Dアノテーションのコストが高い。
    • 既存手法では,擬似ラベルの品質評価が手動による閾値設定に依存し,精度向上の限界がある。
    • 文脈情報や学習状況を考慮した擬似ラベルの適応的な選択機構を開発し,検出精度を向上させる。
    • 提案手法は,教師出力レベルで擬似ラベルの品質を評価するネットワークを導入し,文脈に応じた閾値を決定する。
    • 擬似ラベルと正解ボックスのアライメントによって閾値を教師ありで学習し,ノイズに強いソフトな教師あり学習を実現した。
    • KITTIおよびWaymoデータセットでの実験により,提案手法が既存手法を大きく上回る性能を示すことを確認した。

    Link: https://arxiv.org/abs/2509.23880

  • 再帰的特徴量機械を用いた自己回帰型音楽生成の操縦 [cs.DB, cs.LG, cs.AI, cs.SD, eess.AS]目的:音楽生成の操縦手法
    • 音楽生成技術は,創造性支援やコンテンツ制作において重要であり,その発展が期待される。
    • 既存手法では,モデルの再学習や音質の劣化が生じやすく,詳細な制御が困難である。
    • 事前学習済みの音楽モデルの内部活性化を直接操ることで,高品質な音楽生成と制御性を両立することを目指す。
    • MusicRFMは,モデルの内部勾配を分析し,音楽的な属性に対応する「概念方向」を特定する。
    • この概念方向を注入することで,リアルタイムで生成プロセスを制御し,特定の音符の生成精度を0.23から0.82に向上させた。
    • テキストプロンプトへの追従性はほぼ維持され,制御性と生成品質のバランスが取れていることが示された。

    Link: https://arxiv.org/abs/2510.19127

  • プライバシーを超えて:潜在的匿名化によるプライバシー保護ビデオ理解 [cs.HC, cs.CV]目的:ビデオ基礎モデルにおける視覚的プライバシー保護の新たな手法
    • ビデオコンテンツの理解は深まる一方,プライバシー保護の重要性は増している。
    • 既存手法は入力ピクセルレベルでの匿名化に依存し,汎用性に欠ける。
    • 基礎モデルの潜在空間で匿名化を行い,プライバシーと実用性の両立を目指す。
    • 提案手法は,プライバシー漏洩を平均35%削減しつつ,既存のタスク性能を維持する。
    • プラグアンドプレイ可能な匿名化アダプターモジュールにより,再学習の負担を軽減する。
    • 行動認識モデルにおけるジェンダーバイアスを軽減し,公平なビデオ理解を促進する。

    Link: https://arxiv.org/abs/2511.08666

  • SAGA: 生成AI動画の出所特定 [cs.CV, cs.AI]目的:生成AI動画の出所特定手法の開発
    • 生成AI技術の発展は,現実と区別のつかない動画を容易に作成可能にし,悪用リスクが高まっている。
    • 既存の偽判定技術では,動画が生成AIによって作られたかどうかの判断しかできず,具体的な生成モデルの特定が困難である。
    • 本研究は,生成AI動画の具体的な生成モデルを特定し,その出所を明らかにすることを目的とする。
    • SAGAは,5つのレベル(信頼性,生成タスク,モデルバージョン,開発チーム,ジェネレーター)で詳細な出所特定を可能にする。
    • 新しい動画Transformerアーキテクチャと,データ効率的な事前学習戦略により,少量(0.5%)の教師データで最先端の性能を達成した。
    • Temporal Attention Signatures(T-Sigs)という解釈可能性手法を提案し,異なる動画生成モデルの識別根拠を可視化することに成功した。

    Link: https://arxiv.org/abs/2511.12834

  • 視線,ズーム,理解:具現化された知覚のためのロボットの眼球 [cs.RO, cs.CV]目的:言語指示に基づいた能動的視覚知覚の実現
    • ロボットが現実世界で活動するためには,周囲の状況を的確に知覚することが不可欠である。
    • 従来の固定カメラでは,広範囲と詳細な情報の両立が難しく,ロボットの応用範囲が制限されている。
    • ロボットが視点やズームを調整し,効率的に必要な情報を収集する能力を獲得することを目指す。
    • 提案手法EyeVLAは,視覚,言語,カメラ制御を統合し,連続的なカメラ調整を効率的に処理する。
    • EyeVLAは,500サンプル程度のデータで96%という高いタスク完了率を達成し,データ効率の良さを実証した。
    • 本研究は,マルチモーダル具現化システムにおける指示駆動型能動的視覚情報獲得の新たなパラダイムを確立する。

    Link: https://arxiv.org/abs/2511.15279

  • SING3R-SLAM:3D再構成事前知識を用いたサブマップベース屋内単眼ガウスSLAM [cs.CV, cs.RO]目的:屋内環境における高精度なSLAMと3D再構成
    • SLAMはロボットの自律移動や環境理解に不可欠であり,その精度向上は重要な課題である。
    • 従来のSLAM手法では,ドリフトやスケール不整合が発生しやすく,高精度な3D再構成が困難であった。
    • 本研究は,グローバルな幾何学的整合性を考慮したSLAMフレームワークを構築し,高精度な3D再構成を実現する。
    • 提案手法SING3R-SLAMは,グローバルガウスマップを用いて環境を表現し,効率的かつ汎用的な3Dマッピングを可能にする。
    • 実験の結果,本手法は既存手法と比較して,姿勢推定精度が10%以上向上し,詳細な幾何構造を生成することが示された。
    • また,メモリ効率の良いグローバル表現を維持しながら,実環境データセットで優れた性能を発揮することが確認された。

    Link: https://arxiv.org/abs/2511.17207

  • 視覚言語モデルは数えられるか?合成ベンチマークと注意機構介入の分析 [cs.RO, cs.CV]目的:視覚言語モデルにおける数え上げ能力の評価
    • 視覚言語モデルの応用範囲は広く,画像の内容理解において重要な役割を担う。
    • 視覚言語モデルは学習データの偏りに影響を受けやすく,正確な数え上げが困難な場合がある。
    • 画像とプロンプトの複雑さに伴う数え上げ精度の低下とその原因の特定。
    • 視覚的・言語的な複雑さが増すと,数え上げ精度が系統的に低下することが明らかになった。
    • 注意機構の再重み付け実験により,言語モデルデコーダーの注意が数え上げ行動に影響を与える可能性が示唆された。
    • 本研究は,自然画像ベンチマークでは捉えにくい,視覚言語モデルの数え上げにおける失敗モードを明らかにしている。

    Link: https://arxiv.org/abs/2511.17722

  • より多く,より良い:高次のマルチモーダルアラインメントのためのコントラスト融合 [cs.CV, cs.AI]目的:マルチモーダルデータの高次の関係性を捉えた表現学習
    • マルチモーダル機械学習は,異なる種類のデータを統合し,より高度な知能を実現する上で不可欠である。
    • 既存手法はペアワイズなアラインメントに偏っており,複数のモーダル間の複雑な関係性を捉えきれていない。
    • ペアワイズな関係性を維持しつつ,高次の依存関係を捉え,マルチモーダルタスクの性能を向上させる。
    • 提案手法ConFuは,個々のモーダルとそれらの融合を統一された表現空間に埋め込み,アラインメントを行う。
    • ConFuは,高次の関係性(XORのような関係)を捉え,単一モーダルのタスクにおいても効果を発揮する。
    • 様々なベンチマークにおいて,検索および分類タスクで競争力のある性能を示し,多様な検索に対応可能である。

    Link: https://arxiv.org/abs/2511.21331

  • FACT-GS:2Dガウススプラッティングにおける周波数整合型複雑度認識テクスチャ再パラメータ化 [cs.DM, math.CO, cs.CV, cs.GR]目的:2Dガウススプラッティングのための周波数整合型複雑度認識テクスチャ再パラメータ化手法
    • ガウススプラッティングはリアルタイムで高品質なレンダリングを可能にし,現実的なシーン表現の進展に貢献している。
    • 従来のテクスチャベースのガウススプラッティングでは,テクスチャのサンプリング密度が均一であり,視覚的な複雑さの局所的な違いに対応できていない。
    • 視覚的な周波数に基づいてテクスチャのサンプリング密度を適応的に割り当てることで,テクスチャ空間の利用効率を高めることを目指す。
    • FACT-GSは,局所的な視覚周波数に応じてテクスチャのサンプリング密度を割り当てる,周波数整合型複雑度認識テクスチャ再パラメータ化フレームワークである。
    • 本手法は,適応的サンプリング理論に基づき,テクスチャパラメータ化を微分可能なサンプリング密度割り当て問題として定式化している。
    • 固定解像度のテクスチャグリッド上で非一様サンプリングを行うことで,リアルタイム性能を維持しつつ,より鮮明な高周波ディテールを再現する。

    Link: https://arxiv.org/abs/2511.23292

  • マンモグラム画像におけるYOLO,説明可能性,ドメイン適応を用いた浸潤性乳がんの解析 [cs.CV, cs.AI]目的:マンモグラム画像からの乳がん検出における信頼性向上
    • 乳がんの早期発見は,治療成功率向上に不可欠であり,画像診断の精度向上が求められている。
    • 乳がん検出AIは,異なる画像データや機器による影響を受けやすく,誤診のリスクが存在する。
    • 異なるドメインからの入力に対するAIの頑健性を高め,臨床環境での信頼性を向上させる。
    • ResNet50に基づくOODフィルタリングとYOLOアーキテクチャの統合により,正確な乳がん検出を実現した。
    • OOD検出コンポーネントは99.77%の全体精度と,OODテストセットで100%の精度を達成し,不要な画像の影響を排除した。
    • 本研究は,多様な臨床環境における信頼性の高いAI乳がん検出システムの展開に貢献する基盤を提供する。

    Link: https://arxiv.org/abs/2512.00129

  • DM3D:オフセット誘導微分スキャンによる変形可能なマンバによる点群理解 [cs.DB, cond-mat.mtrl-sci, cs.CV]目的:点群理解のための変形可能なマンバアーキテクチャ
    • 点群データは3次元空間の情報を効率的に表現できるため,ロボティクスや自動運転など様々な分野で重要である。
    • 既存のシーケンスモデルは入力順序に依存するため,不規則な点群データの処理が困難である。
    • 多様な幾何学的構造に適応可能な,点群データの順序付け手法を開発し,理解精度向上を目指す。
    • DM3Dは,オフセット誘導微分スキャン機構により,点群データの再サンプリングと再順序付けを同時に行う。
    • 構造を意識した適応的な特徴量の再サンプリングと,微分可能な順序付けにより,エンドツーエンドでの最適化を実現する。
    • 分類,少数ショット学習,部品セグメンテーションにおいて最先端または非常に競争力のある結果を達成し,適応的な順序付けの有効性を検証した。

    Link: https://arxiv.org/abs/2512.03424

  • 出典動画のリアリズムを維持:映画品質の忠実度高い顔入れ替え [cs.CV]目的:映画品質の顔入れ替え技術の開発
    • 映画やエンターテイメント制作において,顔入れ替えは重要な技術であり,その品質が求められる。
    • 長尺かつ複雑な動画シーケンスにおいて,高忠実度と時間的一貫性を両立することが課題である。
    • 出典動画の視覚的特徴を活用し,顔入れ替えの品質と時間的一貫性を向上させることを目指す。
    • 提案手法LivingSwapは,キーフレームと参照動画を活用し,高画質かつ安定した顔入れ替えを実現した。
    • 新たに構築したデータセットFace2Faceを用いることで,参照動画を利用した学習を可能にした。
    • 実験結果から,LivingSwapは既存手法を上回り,表情,照明,動きを自然に統合できることが示された。

    Link: https://arxiv.org/abs/2512.07951

  • エンドツーエンド強化学習によるマルチ画像ビジョンエージェントの学習 [cs.CV, cs.AI]目的:マルチ画像およびシングル画像における詳細な推論のための,エンドツーエンド強化学習で訓練されたビジョンエージェント
    • 画像とテキストを組み合わせた処理は,AIの汎用性を高める上で重要であり,現実世界での応用範囲を広げる。
    • 既存のオープンソース手法は単一画像入力に限定され,現実世界のマルチ画像QAタスクへの適用が困難である。
    • マルチ画像入力に対応し,VLMの画像への注意を維持することで,より高度な推論能力を実現する。
    • IMAgentは,従来のベンチマークにおいて最先端の性能を達成し,シングル画像およびマルチ画像の両方で優れた結果を示した。
    • 画像への注意を再集中させるためのツールである,視覚的反射と検証のメカニズムが効果的に機能することが確認された。
    • ツール使用がエージェントの性能向上に寄与するメカニズムについて,注意の観点から詳細な分析を提供した。

    Link: https://arxiv.org/abs/2512.08980

  • ジンバル拡散:重力に基づいたビデオ生成のためのカメラ制御 [cs.CV]目的:ビデオ生成におけるカメラ制御の実現
    • 近年のテキストからのビデオ生成技術の進歩は目覚ましいが,カメラ制御は未だ課題である。
    • 既存手法では,カメラ軌跡の表現が曖昧で,正確な制御や大きな回転の扱いに限界がある。
    • 物理世界座標と重力を参照系として利用し,正確なカメラ制御を可能にすること。
    • ジンバル拡散は,絶対座標系でカメラ軌跡を定義することで,正確かつ解釈可能なカメラパラメータ制御を実現した。
    • パノラマ360度ビデオを用いて学習することで,従来のビデオデータでは扱えない極端な視点もカバーしている。
    • プロンプト内容との矛盾を回避する「null-pitch conditioning」により,カメラ指定の優先順位を確保した。

    Link: https://arxiv.org/abs/2512.09112

  • DePT3R:単一のフォワードパスにおける動的シーンの密な点追跡と3D再構成 [cs.CV, cs.AI]目的:動的シーンにおける密な点追跡と3D再構成
    • 動的シーン理解は,ロボット工学や自動運転などの分野で重要であり,周囲環境を正確に把握する必要がある。
    • 従来の点追跡手法は,ペアワイズ処理やカメラ姿勢の知識に依存するため,柔軟性と適用範囲が限られていた。
    • カメラ姿勢を必要とせず,動的な環境変化にも適応可能な効率的な点追跡と再構成を目指す。
    • DePT3Rは,複数の画像から密な点追跡と3D再構成を単一のフォワードパスで同時に行う新しいフレームワークである。
    • 強力なバックボーンと密な予測ヘッドにより,深層空間的特徴を抽出し,ピクセルごとのマップを回帰することで,マルチタスク学習を実現している。
    • 複数のベンチマークで優れた性能を示し,既存の最先端手法と比較してメモリ効率が大幅に向上した。

    Link: https://arxiv.org/abs/2512.13122

  • FedVideoMAE:効率的なプライバシー保護分散型ビデオモデレーション [cs.CV, cs.AI, cs.MM]目的:プライバシー保護と効率性を両立した分散型ビデオモデレーション手法
    • 短尺動画の増加に伴い,プライバシー保護と高速処理が重要になっている。
    • 従来のクラウド集中型推論では,帯域幅や遅延の問題が生じやすい。
    • デバイス上で学習を行うことで,プライバシー保護と通信コスト削減を目指す。
    • FedVideoMAEは,VideoMAE表現とLoRAを用いたパラメータ効率的な適応により,通信量を大幅に削減した。
    • RWF-2000データセットにおいて,プライバシー保護なしで77.25%の精度を達成し,差分プライバシー下でも65~66%の精度を維持した。
    • 差分プライバシーによる精度の低下は,小規模データ・パラメータ効率的な分散学習環境におけるノイズ増幅と整合性があることが示された。

    Link: https://arxiv.org/abs/2512.18809

  • 統一的思考者:画像生成のための汎用推論モジュールコア [cs.CV, cs.AI]目的:論理的な指示への追従における生成モデルの課題克服
    • 画像生成技術は飛躍的に進歩したが,高度な推論能力が求められる場面で限界がある。
    • 既存のオープンソースモデルは,推論に基づいた画像生成において,クローズドソースモデルに劣る。
    • 推論と実行のギャップを埋め,より質の高い画像生成を実現することを目的とする。
    • 統一的思考者(Unified Thinker)は,推論モジュールと画像生成モジュールを分離するアーキテクチャである。
    • 思考者(Thinker)の構造化された計画インターフェースを構築し,強化学習でピクセルレベルのフィードバックに基づき,視覚的な正確性を最適化する。
    • テキストから画像への生成や画像編集において,画像推論と生成品質が大幅に向上することが確認された。

    Link: https://arxiv.org/abs/2601.03127

  • 拡散モデルにおける拡散的かつ正確な概念忘却:スケーラブルな手法 [cs.LG, cs.CV]目的:拡散モデルにおける大規模な概念忘却の実現
    • テキスト生成AIの発展に伴い,著作権侵害や悪用といった倫理的課題が顕在化している。
    • 拡散モデルからの複数概念の忘却は,競合する重み更新や不要な影響による精度低下が課題である。
    • 大規模な状況下で,生成品質を維持しつつ対象概念のみを効果的に忘却することを目指す。
    • 提案手法ScaPreは,スペクトルトレース正則化と幾何学的配置により,最適化の安定化と競合の抑制を実現した。
    • Informax Decouplerを用いて,概念に関連するパラメータを特定し,更新を適応的に重み付けすることで,忘却範囲を限定した。
    • ScaPreは,追加データやサブモデルを必要とせず,最先端の精度と効率で大規模な概念忘却を可能にした。

    Link: https://arxiv.org/abs/2601.06162

  • EGM:効率的な視覚的接地言語モデル [cs.CV]目的:視覚的接地性能の向上
    • 視覚言語モデルは現実世界理解に不可欠であり,多様な応用が期待されている。
    • 既存モデルは巨大なサイズが課題で,実用的な展開や高速な推論が困難である。
    • 小規模モデルの言語理解能力を向上させ,大規模モデルに匹敵する性能を実現すること。
    • 本研究では,低品質なトークンを多数生成することで,大規模モデルと同等の性能を効率的に達成するEGMを提案した。
    • RefCOCOベンチマークにおいて,EGM-Qwen3-VL-8Bは91.4 IoUを737msで実現し,Qwen3-VL-235Bの4,320msと比較して5.9倍高速であった。
    • 遮蔽された物体も扱う新しい設定で検証した結果,EGMは小規模モデルの性能を向上させ,大規模モデルを凌駕した。

    Link: https://arxiv.org/abs/2601.13633

  • ReWeaver:シミュレーション対応かつトポロジー準拠の衣服再構成に向けて [cs.CV]目的:シミュレーション可能な,トポロジーに正確な衣服再構成
    • デジタルアバター等の応用において,高品質な3D衣服再構成はシミュレーションと現実の乖離を小さくする上で重要である。
    • 既存手法は非構造化表現に依存し,衣服のトポロジーや縫製構造の正確な再構成が困難である。
    • 本研究は,高精度な物理シミュレーションに適した構造化された衣服表現の生成を目指す。
    • ReWeaverは,少ない画像枚数(4枚)から衣服の縫い目とパネル,そしてそれらの接続関係を2Dと3D空間で予測する。
    • 予測された縫い目とパネルはマルチビュー画像と正確に一致し,3D認識や物理シミュレーションに適した表現が得られる。
    • 大規模データセットGCD-TSを構築し,実験により既存手法と比較してトポロジー精度,形状整合性,縫製パネルの一貫性で優れていることを示した。

    Link: https://arxiv.org/abs/2601.16672

  • 報酬強制:報酬フィードバックによる自己回帰型動画生成 [cs.CV, cs.LG]目的:報酬信号を用いた自己回帰型動画生成手法
    • 動画生成技術は,コンテンツ制作や仮想現実など様々な分野で重要性が増している。
    • 従来の自己回帰型動画生成モデルは,教師モデルへの依存度が高く,性能が制限されやすい。
    • 報酬信号を活用することで,教師モデルに頼らず,効率的かつ高品質な動画生成を実現する。
    • 提案手法は,既存の自己回帰型モデルと同等以上の性能を発揮し,場合によっては同サイズの双方向型モデルを上回る。
    • VBenchベンチマークにおいて,総スコア84.92を達成し,異種蒸留を必要とする最先端の自己回帰型モデル(84.31)に匹敵する。
    • 報酬信号の活用により,学習が簡素化され,高い視覚的忠実性と時間的一貫性が維持される。

    Link: https://arxiv.org/abs/2601.16933

  • PaddleOCR-VL-1.5:堅牢な実環境ドキュメント解析のための0.9BマルチタスクVLMへ [cs.CV]目的:実環境におけるドキュメント解析の堅牢性向上
    • ドキュメント認識は,情報処理の根幹であり,デジタル化社会において不可欠である。
    • 実環境のドキュメントは,歪みやノイズを含み,従来の認識手法では精度が低下しやすい。
    • 実環境の物理的歪みに対する堅牢性を高め,高精度なドキュメント解析を実現する。
    • PaddleOCR-VL-1.5は,OmniDocBench v1.5において94.5%という最先端の精度を達成した。
    • 新たに作成されたReal5-OmniDocBenchベンチマークにおいても,優れた性能を示した。
    • シール認識やテキスト検出のタスクを追加しつつ,0.9Bという超コンパクトなVLMとしての高効率性を維持している。

    Link: https://arxiv.org/abs/2601.21957

  • 動画理解:時間的レンズを通して [cs.CV]目的:動画要素間の時間的関係の活用による動画理解の進展
    • 動画は情報伝達の重要な手段であり,その理解は様々な応用分野で不可欠である。
    • 既存手法は動画の時間的関係性を十分に活用できておらず,理解精度に限界がある。
    • 動画の時間的側面を明示的にモデル化することで,より高精度な動画理解を目指す。
    • 大規模なビジョン言語モデルとノイズに強いコントラスト学習を用いて,動画の自動アノテーションフレームワークを開発した。
    • 低データ環境下において,時間的ダイナミクスを捉えるためのパラメータ効率の良い微調整戦略「recurrent adapters」を導入した。
    • State Space Layers (SSL) を統合し,長編動画の効率的なモデリングを実現。新たなベンチマークも提供した。

    Link: https://arxiv.org/abs/2602.00683

  • 単眼画像からの遮蔽された人間のレンダリングのための不確実性認識4Dガウススプラッティング [cs.CV]目的:単眼動画からの動的人間の高忠実度レンダリングにおける遮蔽時の品質劣化の軽減
    • 動的な人間のレンダリングは,現実世界での応用において不可欠であり,その高品質化は重要な課題である。
    • 従来の技術では,遮蔽部分の処理が難しく,時間的なちらつきや不自然な形状が発生しやすい。
    • 不確実性を考慮することで,信頼性の低い観測の影響を抑制し,よりロバストなレンダリングを実現する。
    • 提案手法U-4DGSは,確率的変形ネットワークとジョイントラスタライズパイプラインを統合し,ピクセルレベルでの不確実性マップを生成する。
    • 生成された不確実性マップは,勾配変調器として機能し,信頼性の低い観測からのアーティファクトを自動的に減衰させる。
    • Confidence-Aware Regularizationsを用いることで,視覚的情報が不足する領域での幾何学的ドリフトを防ぎ,空間・時間的な一貫性を維持する。

    Link: https://arxiv.org/abs/2602.06343

  • 3DXTalker: 表情豊かな3D会話アバターにおけるアイデンティティ,リップシンク,感情,空間ダイナミクスの統合 [cs.CV]目的:表情豊かな3D会話アバターの生成
    • バーチャルコミュニケーションの重要性が増しており,アバターのリアリティが求められている。
    • 十分な学習データが不足しており,アバターの制御性も限定的である。
    • データ不足を解消し,アバターのアイデンティティ汎化と表情表現の向上を目指す。
    • 3DXTalkerは,データキュレーション,音声表現の強化,空間ダイナミクスの制御により,表情豊かな3Dアバターを実現した。
    • 2D-3Dデータパイプラインと分離表現により,アイデンティティモデリングのスケーラビリティを高めた。
    • フレームごとの振幅と感情的ヒントを導入し,リップシンクと表情の調整を向上させた。

    Link: https://arxiv.org/abs/2602.10516

  • DINOv2のパラメータ効率的なファインチューニングによる大規模フォント分類 [cs.CV, cs.LG]目的:大規模フォント分類のためのDINOv2のパラメータ効率的なファインチューニング
    • フォントは視覚伝達において重要な役割を担い,その識別は様々な応用分野で不可欠である。
    • 既存のベンチマークは商用フォントに偏っており,オープンソースWebフォントの分類評価が不足している。
    • オープンソースWebフォントの分類精度の向上と,より実用的な評価指標の確立を目指す。
    • GoogleFontsBenchは,32のGoogle Fontsファミリー,394のフォントバリアントからなる初の公開ベンチマークである。
    • LoRAを用いたパラメータ効率的な適応により,モデルパラメータの1%のみを訓練しつつ99.0%のTop-1精度を達成した。
    • 本研究で提案するSWER評価指標は,視覚的な重大度に基づいてエラーを重み付けし,ランダム推測よりも140倍低い深刻度となる。

    Link: https://arxiv.org/abs/2602.13889

  • 低ランクデコーダ適応による深度補完の効率的なテスト時最適化 [cs.CV]目的:深度補完におけるテスト時最適化の効率化
    • 環境の変化に対応したゼロショット深度補完は,センサー固有のデータや再学習なしに汎化可能である点で重要。
    • 既存手法は拡散ベースのテスト時最適化に依存し,反復的なノイズ除去処理により計算コストが高いという課題がある。
    • デコーダのみを適応させることで,計算コストを抑えつつ効果的なテスト時最適化を実現することを目指す。
    • 本研究では,深度関連情報が低次元のデコーダ部分空間に集中している点に着目し,その部分空間のみを更新する軽量な適応手法を提案。
    • 提案手法は,5つの屋内・屋外データセットにおいて,既存手法と比較して一貫した性能向上を示し,精度と効率のバランスに優れた新たな水準を確立。
    • これにより,高速なゼロショット深度補完の実現性が示唆された。

    Link: https://arxiv.org/abs/2603.01765

  • ドメイン間画像検索のための二重事前知識を持つテキスト・位相相乗ネットワーク [cs.CV]目的:教師なしドメイン間画像検索における画像検索性能の向上
    • 画像検索は,大量の画像データから目的の画像を効率的に見つけ出すために不可欠である。
    • 既存手法は疑似ラベルに依存しがちで,その精度と網羅性に課題がある。
    • ドメイン固有情報と意味情報の絡み合いを考慮し,より正確な意味表現を獲得することを目指す。
    • 提案手法TPSNetは,CLIPを用いたドメイン固有プロンプトと位相事前知識を組み合わせることで,より精密な意味的指示を与える。
    • ドメイン間の分布の差を埋めつつ,意味的整合性を維持することにより,学習された表現の劣化を防ぐ。
    • UCDIRベンチマークにおいて,最先端の手法と比較して顕著な性能向上を達成した。

    Link: https://arxiv.org/abs/2603.12711

  • DiFlowDubber:クロスモーダルアライメントと同期による自動ビデオダビングのための離散フローマッチング [cs.CV, cs.AI, cs.MM, cs.SD]目的:ビデオダビングの自動化
    • ビデオコンテンツのグローバル化には,高品質なダビングが不可欠である。
    • 既存手法では,内容の正確性,表現力豊かな抑揚,高品質な音声,正確な唇同期の全てを両立することが困難である。
    • 内容に即した,自然で高品質なビデオダビングを実現すること。
    • DiFlowDubberは,離散フローマッチングを基盤とした初のビデオダビングフレームワークである。
    • 二段階の学習戦略を用いることで,既存手法を凌駕する性能を複数の評価指標で示している。
    • 表情から抑揚を制御し,コンテンツと一致した自然な音声生成を実現している。

    Link: https://arxiv.org/abs/2603.14267

  • 非侵襲的浴室での転倒検知のためのエッジ効率型二重ストリームマルチモーダルアーキテクチャ [cs.CV]目的:高齢者の浴室での転倒検知手法の開発
    • 高齢化社会において,在宅での転倒事故は深刻な問題であり,迅速な検知が重要である。
    • 従来の転倒検知手法はプライバシー侵害や消費電力の大きさが課題であった。
    • 本研究は,低消費電力で高精度な転倒検知を実現し,プライバシーを保護することを目的とする。
    • 提案手法は,モーションと衝撃を別ストリームで処理することで,因果関係を明示的に捉える。
    • 実験結果から,提案手法は既存手法と比較して,精度,再現率,F1スコア,AUCにおいて高い性能を示すことが確認された。
    • Raspberry Pi 4B上でリアルタイム処理が可能であり,低遅延かつ低消費電力であることが示された。

    Link: https://arxiv.org/abs/2603.17069

  • CoDA:医療画像・言語モデルに対する分布攻撃とその事後トークン空間修復の探求 [cs.CV, cs.AI]目的:医療画像・言語モデルの脆弱性評価とロバスト性改善
    • 医療現場でのAI活用が進む中,診断支援の信頼性確保が重要課題となっている。
    • 既存研究では,臨床現場で起こりうる現実的な画像劣化を考慮した評価が不足している。
    • 臨床的に妥当な画像劣化を再現し,モデルの脆弱性を明らかにし,ロバスト性を向上させる。
    • 提案手法CoDAにより,臨床現場で起こりうる一連の画像劣化を再現的に生成することに成功した。
    • 生成された劣化画像を用いて評価した結果,既存の医療画像・言語モデルの性能が大幅に低下することが確認された。
    • 事後トークン空間修復により,劣化画像の精度を向上させ,モデルのロバスト性を改善できることを示した。

    Link: https://arxiv.org/abs/2603.18545

  • 国境のない長時間音声合成 [cs.SD, cs.CL, eess.AS]目的:長時間音声合成のための枠組み
    • 対話システムやバーチャルアシスタントの自然な応答には,文脈を考慮した高品質な音声が不可欠である。
    • 従来のTTSシステムは文脈理解が不十分で,自然な対話や感情表現が難しいという課題がある。
    • 本研究は,文脈理解と多様な制御を可能にする新たな長時間音声合成の枠組みを提案する。
    • 本研究で提案するBorderless Long Speech Synthesisは,VoiceDesigner,複数話者合成,Instruct TTS,長文合成を統合した汎用性の高い枠組みである。
    • 「ラベリング優先」戦略とGlobal-Sentence-Tokenアノテーションスキーマにより,高品質な学習データと構造化された意味インタフェースを実現した。
    • Chain-of-Thought推論とDimension Dropoutにより,複雑な条件下での指示応答性が向上し,LLMと音声合成エンジンの連携を強化した。

    Link: https://arxiv.org/abs/2603.19798

  • 視覚言語モデルにおける否定は幾何学的な問題である [cs.CV]目的:視覚言語モデルにおける否定の理解
    • 画像とテキストを組み合わせて扱うモデルの性能向上は,多様な応用を可能にする重要な課題である。
    • 既存のモデルはテキスト中の否定表現を正しく理解できず,誤った情報を検索してしまうという問題がある。
    • 否定表現の理解を評価する新たな手法を確立し,モデルの性能改善を目指す。
    • 従来の評価指標では否定の理解度を正確に測ることが難しく,大規模言語モデルを活用した評価枠組みが有効であることが示された。
    • CLIP埋め込み空間には否定に関連する方向が存在し,表現操作によって否定を考慮した振る舞いを誘導できることが明らかになった。
    • 分布シフト下における汎化性能を評価した結果,提案手法が有効であることが示唆された。

    Link: https://arxiv.org/abs/2603.20554

  • 意味的反復再構成:ワンショット汎用異常検知 [cs.CL, cs.CV]目的:医療異常検知における汎用モデルの構築
    • 医療画像診断の精度向上は重要であり,異常検知はその不可欠な要素である。
    • 正常データの不足は,教師なし異常検知の大きな課題となっている。
    • 少ない正常データで,多様な医療領域に対応できる汎用モデルを開発する。
    • 提案手法SIRは,9種類の異なるデータセットを混合して学習することで,タスク固有の再学習なしに異常検知を可能にした。
    • SIRは,ワンショット汎用,フルショット汎用,ワンショット専門,フルショット専門の全ての条件下で最先端の結果を達成した。
    • SIRは,多領域臨床異常検知において,効率的かつスケーラブルな解決策を提供する。

    Link: https://arxiv.org/abs/2603.23766

  • 粗大から微細への視覚処理による文書解析効率と性能の向上 [cs.CV, cs.AI, cs.IR]目的:文書解析における効率と性能の向上
    • 文書解析は,デジタル化された情報の活用に不可欠であり,その効率化は重要である。
    • 高解像度画像は性能向上に寄与するが,計算コストが大幅に増加するという課題がある。
    • 冗長な視覚領域を抑制し,重要な領域に焦点を当てることで,効率と性能を両立する。
    • PaddleOCR-VLは,ページレベル解析と要素レベル認識の両方で最先端の性能を達成した。
    • 既存の手法を大きく上回り,大規模なVLMに対しても競争力を持つ。
    • 少ないビジョントークンとパラメータで高速な推論を実現し,文書理解の効率化に貢献する。

    Link: https://arxiv.org/abs/2603.24326

  • MuRF:ビジョンファウンデーションモデルのマルチスケール潜在能力の解き放ち [cs.CV]目的:ビジョンファウンデーションモデルにおけるマルチスケール処理による性能向上
    • 画像認識技術は,多様な応用分野で不可欠であり,その性能向上は重要な課題である。
    • 既存のビジョンファウンデーションモデルは,推論時に固定されたスケールに制限されている場合が多い。
    • 異なる解像度の情報を融合することで,よりロバストで高精度な画像認識を実現する。
    • 提案手法MuRFは,凍結されたビジョンファウンデーションモデルに対し,複数の解像度で処理を行い,特徴量を融合する。
    • MuRFは特定のアーキテクチャに依存せず,汎用的な性能向上策として機能する。
    • DINOv2やSigLIP2など,多様なビジョンファウンデーションモデルで有効性が確認された。

    Link: https://arxiv.org/abs/2603.25744

  • ワイルドな環境におけるシーンの接地 [cs.CV]目的:大規模実世界シーンの正確な3Dモデル再構築
    • コンピュータビジョンの核心的な課題であり,現実世界の理解に不可欠である。
    • 入力視点の重複が少ない場合,再構築が断片的になったり,誤った統合が発生したりする。
    • 視覚的な重複がない状況でも,一貫性のあるシーンアライメントを実現すること。
    • Google Earth Studio由来の準合成レンダリングを基準モデルとして利用することで,グローバルな整合性を確保する。
    • 3D Gaussian Splattingとセマンティック特徴を組み合わせ,逆特徴ベース最適化により正確な位置姿勢を推定する。
    • 既存の手法や最先端モデルと比較して,グローバルアライメントが改善され,失敗モードが軽減されることを実証した。

    Link: https://arxiv.org/abs/2603.26584

  • Learn2Fold:ワールドモデル計画による構造化折り紙生成 [eess.SY, cs.SY, eess.SP, cs.RO, cs.SY, eess.SY, cs.GR, cs.AI]目的:折り紙の構造化生成
    • 物理的知能の基礎的テストとして,平坦なシートから複雑な立体構造への変換が重要である。
    • 既存手法は,物理的妥当性重視と意味的・知覚的合成に優れるものの,長期的で物理法則に沿った折り畳み手順の生成に課題がある。
    • テキストから直接有効な折り紙の折り畳み手順を生成する問題を解決することを目指す。
    • Learn2Foldは,折り紙折りを記号と物理シミュレーションの融合によって実現する神経記号フレームワークである。
    • 大規模言語モデルがテキストプロンプトから折り畳みプログラム候補を生成し,学習されたグラフ構造のワールドモデルが物理的実行可能性を予測する。
    • 複雑なパターンに対しても,物理的に有効な折り畳み手順を生成し,空間知能が記号推論と物理シミュレーションの相乗効果から生じることを示す。

    Link: https://arxiv.org/abs/2603.29585

  • マルチモーダル言語モデルは空間的不整合を識別できない [cs.CV, cs.CL, cs.LG]目的:空間的な不整合の識別
    • 現実世界の理解には,空間的な一貫性が不可欠であり,モデルの性能向上に繋がる。
    • 既存のマルチモーダル大規模言語モデルは,多視点からの3次元幾何学的な推論が苦手である。
    • 3次元運動の一貫性に反する物体を識別する課題を通じて,モデルの空間理解能力を検証する。
    • 最先端のマルチモーダル言語モデルは,人間の観察者よりも性能が著しく劣ることが示された。
    • 異なるシーン属性において,モデルの性能には大きなばらつきが見られ,3次元構造の理解が脆弱であることが明らかになった。
    • 本研究は,現実世界に対するより深く根ざした理解を開発するアプローチの必要性を強調する。

    Link: https://arxiv.org/abs/2604.00799

  • より良いリグであって,より大きなネットワークではない:ガウスアバターのためのボディモデルアブレーション [cs.CV, cs.AI]目的:ガウスアバター再構成におけるボディモデルの表現力向上
    • 3Dガウススプラッティングは高画質だが,モデルの複雑化が課題。
    • 既存手法では,ボディモデルの表現力がボトルネックになっている。
    • ボディモデルの表現力向上により,アバター再構成の精度向上を目指す。
    • SMPLをMomentum Human Rig (MHR)に置き換えることで,最高PSNRを達成した。
    • MHRは学習された変形やポーズ依存の補正を必要としない最小限のパイプラインである。
    • メッシュ表現力とポーズ推定品質が,パイプライン全体の性能向上に貢献していることが確認された。

    Link: https://arxiv.org/abs/2604.01447

  • UniRecGen:マルチビュー3D再構成と生成の統合 [cs.CV]目的:疎な視点からの3Dモデルの忠実性と生成の妥当性の両立
    • 3Dモデリングは,現実世界の理解や応用において不可欠な技術である。
    • 既存手法では,再構成の精度と生成の自然さのバランスが課題となっていた。
    • 疎な観測データから高品質で完全な3Dモデルの生成を目指す。
    • UniRecGenは,再構成と生成の長所を組み合わせた統合フレームワークである。
    • 異なるモデルを共通の空間に配置し,協調学習によって安定した学習を実現した。
    • 実験により,UniRecGenが既存手法を上回り,高品質な3Dモデルを生成することが示された。

    Link: https://arxiv.org/abs/2604.01479

  • 衛星情報を用いないドローン視点ジオロケーションの学習 [cs.CV]目的:ドローン視点からのジオロケーション技術における,衛星情報に依存しない学習手法
    • ドローン技術の発展に伴い,GPS非利用環境下での正確な位置特定が重要になっている。
    • 既存手法は衛星画像に依存しており,データ入手困難な場合や制限がある場合に実用化が難しい。
    • 本研究は,衛星画像を用いずにドローン画像のみでジオロケーションを実現する学習フレームワークを開発する。
    • 提案手法では,3D Gaussian splattingを用いてドローン画像から高密度な3Dシーンを再構築する。
    • 再構築された幾何構造をPCAガイド下で擬似正射影画像に変換し,軽量な幾何ガイドインペインティングでテクスチャを補完する。
    • 生成された画像からDINOv3特徴量を抽出し,ドローンデータのみでFisher vector集約モデルを学習し,衛星タイルとのクロスビュー検索に活用する。

    Link: https://arxiv.org/abs/2604.01581

  • 言語事前学習によるバイアス:汎用的な視覚タスクのための強力な基盤 [cs.CV, cs.CL, cs.LG]目的:言語と視覚の間のモダリティギャップを埋めるためのブリッジング手法
    • 言語モデルと視覚モデルのパラメータ特性の違いが,マルチモーダル学習の課題となっている。
    • 言語モデルのパラメータ空間と視覚モデルのパラメータ空間の違いにより,言語モデルの視覚タスクへの適用が困難とされてきた。
    • 言語モデルのパラメータを視覚タスクに適応させ,言語と視覚の間の知識転移を促進すること。
    • ランダムラベルブリッジングという手法により,大規模言語モデル(LLM)のパラメータを視覚タスクに適応させることができた。
    • LLMの特定の層は,視覚タスクにおいても有効な基盤特性を持つことが明らかになった。
    • 部分的なブリッジング訓練が,マルチモーダル適応において効果的であることを示した。

    Link: https://arxiv.org/abs/2604.01833

  • 意味の豊かさか,幾何学的推論か? VLMの視覚的不変性の脆さ [cs.CV]目的:最先端のビジョン言語モデルにおける基本的な幾何学的変換に対する脆さの検証
    • 視覚と言語を理解するAIの開発は,画像認識や自然言語処理の融合に不可欠である。
    • 現在のVLMは,意味理解に優れる一方,回転や拡大などの基本的な幾何学的変換に弱いという課題がある。
    • VLMが幾何学的変換に対して頑健性を持ち,より信頼性の高い物体認識を実現することを目指す。
    • 最新のVLMは,意味理解タスクでは高い性能を示すが,基本的な空間的不変性・等変性が不足していることが明らかになった。
    • 意味内容が乏しい状況下では,性能が著しく低下し,この傾向は様々なアーキテクチャやモデル規模,プロンプト戦略で見られた。
    • 現在のVLMには,意味理解と空間推論の間に系統的なギャップが存在し,将来のマルチモーダルシステムにおいて幾何学的根拠の強化が必要である。

    Link: https://arxiv.org/abs/2604.01848

  • Light-ResKAN:文法多項式を用いた軽量KANによる効率的なSAR画像認識 [cs.CV]目的:SAR画像認識における精度と効率性の両立
    • SAR画像認識は,災害監視,軍事偵察,海洋観測など,多岐にわたる分野で不可欠である。
    • 大規模なSAR画像サイズが,リソース制約のあるエッジデバイスへの深層学習の導入を妨げている。
    • 計算量を抑えつつ,SAR画像の複雑な特徴を捉える高性能な軽量モデルを提案すること。
    • 提案手法Light-ResKANは,MSTAR,FUSAR-Ship,SAR-ACDデータセットにおいて,それぞれ99.09%,93.01%,97.26%の高い認識精度を達成した。
    • VGG16と比較して,FLOPsを82.90倍,パラメータ数を163.78倍削減することに成功した。
    • エッジデバイスにおけるSAR画像認識の効率的なソリューションを確立した。

    Link: https://arxiv.org/abs/2604.01903

  • SDesc3D:短文からのレイアウトを意識した3D屋内シーン生成に向けて [cs.CV]目的:短文による3D屋内シーン生成
    • 3D環境は,バーチャルリアリティやロボティクスなど幅広い分野で重要な役割を担う。
    • 従来のテキスト条件付き3Dシーン生成は,物理的な妥当性や詳細な表現に課題があった。
    • 本研究は,スパースなテキストガイダンス下での3Dレイアウト推論能力の向上を目指す。
    • 提案手法SDesc3Dは,マルチビュー構造事前知識と地域機能の含意を利用し,3Dレイアウト推論を実現する。
    • マルチビューシーン事前拡張により,曖昧なテキスト情報を構造知識で補完し,関係性推論の精度を高める。
    • 機能に配慮したレイアウト接地により,空間的アンカーを暗黙的に設定し,シーンの組織化と意味的妥当性を向上させる。

    Link: https://arxiv.org/abs/2604.01972