arXiv雑要約

画像・音声 - 2025/12/18 公開

  • Null-LoRA:零空間における低ランク適応 [cs.CV]目的:大規模モデルのダウンストリームタスクへの適応
    • 大規模言語モデルの活用が広がり,特定タスクへの効率的な適応が重要になっている。
    • 従来のパラメータ効率的なファインチューニングは,冗長性を含む場合がある。
    • 零空間に着目し,パラメータ効率と適応能力を両立することを目指す。
    • Null-LoRAは,低ランク行列の一部を固定することで冗長性を低減し,有効ランクを高める。
    • 更新量を零空間に制約することで,パラメータ効率を向上させ,新たなタスクへの適応力を高める。
    • 画像とテキストの検索,視覚的質問応答タスクにおいて,より少ないパラメータで最先端の性能を達成した。

    Link: https://arxiv.org/abs/2512.15233

  • 医療画像疾患分類における視覚言語モデルの交差的公平性 [cs.CL, cs.CV, cs.AI]目的:医療画像疾患分類のための視覚言語モデルにおける交差的な公平性の向上
    • 医療AIは診断精度向上に貢献するが,特定の患者層で偏りが生じることが課題である。
    • 既存の公平性介入は,公平性と診断性能の両立が困難な場合がある。
    • 交差的な患者層間で診断確信度を標準化し,公平性と精度を両立することを目指す。
    • 提案手法(CMAC-MMD)は,皮膚病変画像データセットにおいて,交差的な見逃し診断の差を0.50から0.26に縮小した。
    • 同時に,AUC(曲線下面積)を0.94から0.97に向上させ,診断性能の改善も達成した。
    • 緑内障スクリーニングにおいても同様に,見逃し診断の差を縮小し,AUCの向上を実現した。

    Link: https://arxiv.org/abs/2512.15249

  • 特殊なカウントアーキテクチャと視覚言語モデルの視覚列挙能力の評価 [cs.AR, cs.CY, cs.CV, cs.LG]目的:視覚列挙能力の評価
    • 画像内の物体数を数えることは,コンピュータビジョンの基本的な課題であり,応用範囲が広い。
    • 従来のカウントアーキテクチャは,特定の物体カテゴリに依存し,汎用性に欠ける。
    • 大規模な視覚言語モデルが,より柔軟なオープンセット物体カウントの代替手段となるか検証する。
    • 多くの視覚言語モデルは,画像内の物体数を近似的に列挙でき,専門的なコンピュータビジョンアーキテクチャと同等かそれ以上の性能を示す。
    • 視覚言語モデルが中間表現(位置とラベル)を生成するように促すと,列挙精度が大幅に向上する。
    • 複雑な視覚シーンにおいては,どのモデルも物体数を確実にカウントできず,更なる研究の必要性を示唆する。

    Link: https://arxiv.org/abs/2512.15254

  • MMMamba:パンシャープニングとゼロショット画像強調のための汎用クロスモーダルインコンテキスト融合フレームワーク [cs.CL, cs.CV]目的:パンシャープニングおよびゼロショット画像強調のためのクロスモーダルインコンテキスト融合
    • 高解像度画像生成は,リモートセンシングや画像処理において重要な役割を担う。
    • 従来のCNNは固定演算子のため多様な空間・分光特性への適応が困難であった。
    • MMDiTの利点を活かし,効率的かつ高精度なクロスモーダル情報交換を実現する。
    • 提案手法MMMambaは,Mambaアーキテクチャに基づき,線形計算複雑度と強力なクロスモーダル相互作用を両立する。
    • 新しいマルチモーダルインターリーブド(MI)スキャンメカニズムにより,PANとMS間の効率的な情報交換を促進する。
    • 複数のタスクとベンチマークにおいて,既存の最先端技術と比較して優れた性能を示す。

    Link: https://arxiv.org/abs/2512.15261

  • SynthSeg-Agents:ゼロショット弱学習セマンティックセグメンテーションのためのマルチエージェント合成データ生成 [cs.RO, cs.CV]目的:ゼロショット弱学習セマンティックセグメンテーションのための合成データ生成手法
    • セマンティックセグメンテーションは,画像内の各ピクセルに意味ラベルを付与する重要なタスクであり,様々な応用分野で活用されている。
    • 既存の弱学習セマンティックセグメンテーション手法は,実画像の学習データに依存しており,アノテーションコストが高いという課題がある。
    • 大規模言語モデルを活用し,実画像を用いずに高品質な合成データ生成によって,この課題を解決することを目指す。
    • 提案手法SynthSeg-Agentsは,Self Refine Prompt AgentとImage Generation Agentという2つのモジュールから構成される。
    • Self Refine Prompt Agentが,CLIPに基づく類似度と最近傍多様性フィルタリングを用いて,多様かつ意味的に豊かな画像プロンプトを生成する。
    • PASCAL VOC 2012およびCOCO 2014における実験により,実画像を使用せずに競争力のある性能を達成できることが示された。

    Link: https://arxiv.org/abs/2512.15310

  • KD360-VoxelBEV:LiDARと360度カメラのクロスモーダル知識蒸留による鳥瞰図セグメンテーション [cs.CV]目的:鳥瞰図セグメンテーションのためのLiDARと360度カメラのクロスモーダル知識蒸留フレームワーク
    • 自動運転における周囲環境の認識は,安全性と信頼性を確保する上で不可欠である。
    • LiDARは高精度だが高コストであり,カメラのみでは深度情報の取得が課題となる。
    • 低コストな単眼カメラでLiDARと同等の性能を達成し,実用的な自動運転システムを実現すること。
    • 提案手法は,既存のカメラベースの鳥瞰図セグメンテーション手法を大幅に上回り,IoUを25.6%向上させた。
    • 蒸留されたStudentネットワークは,競争力のある性能と最先端の推論速度(31.2 FPS)を達成した。
    • KITTI-360での評価により,多様なカメラ設定への汎用性と堅牢性が確認された。

    Link: https://arxiv.org/abs/2512.15311

  • エンドツーエンド敵対的学習による時間変化型オーディオエフェクトモデリング [cs.SD, cs.LG]目的:時間変化型オーディオエフェクトのモデリング
    • オーディオエフェクトは音楽制作や音響処理において不可欠であり,高品質なモデリングが求められる。
    • 時間変化するエフェクトは,制御信号の抽出が必要で,学習が困難である。
    • 制御信号なしで時間変化型オーディオエフェクトを正確にモデリングすること。
    • 敵対的生成ネットワーク(GAN)フレームワークを用いて,制御信号の抽出なしで時間変化型エフェクトをモデリングすることに成功した。
    • 初期の敵対的学習段階で変調動作の分布を学習し,状態予測ネットワーク(SPN)による微調整でモデルを同期させた。
    • チャープ信号に基づく新しい評価指標により,変調の精度を定量的に評価することが可能となった。

    Link: https://arxiv.org/abs/2512.15313

  • MRIにおける自動モーションアーチファクトチェック(AutoMAC-MRI):モーションアーチファクト検出と重症度評価のための解釈可能なフレームワーク [cs.CV, cs.AI]目的:モーションアーチファクトの検出と重症度評価
    • MRI画像診断において,画質は診断精度に大きく影響する。モーションアーチファクトは画質劣化の主要因である。
    • 既存の自動品質評価法は二値化判断に留まり,アーチファクトの原因や程度を詳細に把握することが困難である。
    • モーションアーチファクトの重症度を定量化し,画像品質の自動的な品質管理を実現することを目的とする。
    • AutoMAC-MRIは,様々なMRIコントラストと向きに対応可能な,解釈可能なフレームワークである。
    • 教師あり対照学習を用いてモーションの重症度を識別し,各グレードへの親和性スコアを算出することで透明性と解釈可能性を確保する。
    • 5000以上の専門家アノテーションMRI画像を用いた評価により,親和性スコアが専門家の判断と一致することが示された。

    Link: https://arxiv.org/abs/2512.15315

  • 少数ショット異常検知のためのプロトタイプ学習に基づく文脈認識セグメンテーションネットワーク [cs.CV]目的:少数ショット異常検知における異常の識別
    • 画像処理や製造における品質管理など,異常検知技術の重要性が高まっている。
    • 既存手法は事前学習済み特徴表現に依存し,ターゲットドメインとのギャップが課題となっていた。
    • ターゲットドメインにおける特徴表現の記述性を向上させ,異常検知性能を高めることを目指す。
    • 提案手法PCSNetは,MVTecデータセットで画像レベルAUROC 94.9%を達成し,高い性能を示した。
    • MPDDデータセットにおいても,80.2%の画像レベルAUROCを記録し,有効性を確認した。
    • 自動車部品の検査への応用により,限られた学習サンプルでも良好な結果が得られた。

    Link: https://arxiv.org/abs/2512.15319

  • MECAD:継続的異常検知のためのマルチ専門家アーキテクチャ [cs.CV]目的:継続的異常検知のためのマルチ専門家アーキテクチャ
    • 製造業等の分野で,製品の異常検知は品質管理において重要である。
    • 既存手法では,新たな製品や異常パターンへの適応が困難である。
    • 本研究は,変化する製品タイプへの適応性と効率性を両立することを目指す。
    • 提案手法MECADは,特徴量の類似性に基づいて専門家を動的に割り当て,効率的なメモリ管理を行う。
    • MVTec ADデータセットでの評価において,5専門家構成で平均AUROC 0.8259を達成し,単一専門家アプローチと比較して知識劣化を抑制した。
    • 計算効率,専門知識の維持,適応性をバランスさせ,変化する製品タイプへの対応に適している。

    Link: https://arxiv.org/abs/2512.15323

  • 画像異常検知のためのグローバル・ローカル情報を組み込んだマスク付き逆知識蒸留法 [cs.CV]目的:画像異常検知および局所化のための手法
    • 画像異常検知は,製造業や医療分野における品質管理に不可欠な技術である。
    • 従来の知識蒸留法は過剰な一般化を起こしやすく,異常検知の精度を低下させる。
    • 過剰な一般化を抑制し,より高精度な異常検知を実現すること。
    • 提案手法MRKDは,画像レベルと特徴量レベルのマスキングを導入することで,画像再構成を画像修復へと変換する。
    • これにより,グローバル情報とローカル情報の双方を効果的に捉え,過剰な一般化を防ぐ。
    • MVTecデータセットでの実験により,MRKDが優れた性能を示すことが確認された(画像レベルAU-ROC 98.9%, ピクセルレベルAU-ROC 98.4%, AU-PRO 95.3%)。

    Link: https://arxiv.org/abs/2512.15326

  • 実験における直尺の正確な読み取りのためのビジョンベースモジュール [cs.CV, cs.AI]目的:実験における直尺の正確な読み取り
    • ロボットの自律性を高めるには,視覚情報から定量的な測定を行う能力が不可欠である。
    • 画像から正確な定量測定を行うモデルは稀であり,課題である。
    • 人間の視覚による測定を模倣し,実験環境での直尺の読み取りを実現する。
    • シリンジやメスシリンダーの目盛りを対象に,画像の姿勢補正を行った。
    • 関心領域を直尺に絞り込み,主要な目盛り,数字,液面位置などの特徴量を抽出した。
    • 本システムによる読み取り値と人間の読み取り値との間に高い一致性が見られた。

    Link: https://arxiv.org/abs/2512.15327

  • 圧縮下におけるビデオマシンビジョンのための前処理フレームワーク [cs.CL, cs.MM, cs.CV]目的:圧縮されたビデオを用いたマシンビジョンタスクのための前処理手法
    • ビデオの活用が拡大する中で,効率的なデータ伝送が重要となっている。
    • 既存のビデオ圧縮技術は,人間の視覚特性に最適化されており,マシンビジョンの要求を満たせていない。
    • マシンビジョンタスクに特化した前処理により,圧縮率と精度を両立させる。
    • 提案手法は,ニューラルネットワークを用いた前処理により,重要な情報を保持し,レートと精度のバランスを改善する。
    • 差分可能な仮想コーデックを導入することで,学習段階でレートと歪みを制御可能にした。
    • 実験の結果,標準コーデックと比較して,15%以上のビットレート削減が可能であることが示された。

    Link: https://arxiv.org/abs/2512.15331

  • シームレスな対話に向けて:インタラクティブな3D会話頭部ダイナミクスの因果ターンレベルモデリング [cs.CV]目的:3D会話頭部ダイナミクスの生成
    • 人間らしいインタラクションを実現するためには,頭部動作を含む非言語的表現のモデル化が不可欠である。
    • 既存の手法は,発話と聞き取りを独立に扱うか,因果関係を考慮しないため,時間的な一貫性に欠ける。
    • 対話のターン構造に着目し,因果的なモデリングによって時間的な一貫性を向上させる。
    • 提案手法TIMARは,ターンレベルの因果注意機構を用いて会話履歴を蓄積し,自然な頭部ダイナミクスを生成する。
    • DualTalkベンチマークにおいて,Fréchet DistanceとMSEを15-30%削減し,高い性能を示す。
    • 分布外データに対しても同様の効果が確認された。

    Link: https://arxiv.org/abs/2512.15340

  • 拡張と剪定:生成モデルにおける効果的なGRPOのための軌道多様性の最大化 [cs.CV, cs.LG]目的:生成モデルにおける効果的なGRPOのための軌道多様性の最大化
    • 生成モデルの性能向上は,様々な応用において不可欠であり,その最適化手法の探求が重要である。
    • GRPOは強力な手法だが,グループサイズと計算コストのトレードオフが課題となっていた。
    • 報酬が集中する軌道を早期に除外し,計算コストを削減する手法を提案することで,この問題を解決する。
    • 報酬のクラスタリング現象を観察し,多くの軌道がグループ平均報酬に収束することを発見した。
    • 高分散な軌道のサブセットが,より大きなグループよりも優れた性能を発揮することを示した。
    • Pro-GRPOにより,軌道の多様性を最大化しつつ,計算コストを削減できることを実証した。

    Link: https://arxiv.org/abs/2512.15347

  • 橋梁の3Dセマンティックセグメンテーションのためのデータセットとドメインギャップ分析 [cs.CL, cs.CE, cs.DB, cs.DB, cs.IR, cs.CV]目的:橋梁の3Dセマンティックセグメンテーションとドメインギャップの分析
    • 社会インフラの維持管理は現代社会において不可欠であり,効率化が求められている。
    • センサーの種類によってデータにばらつきが生じ,セグメンテーション精度が低下する可能性がある。
    • 橋梁構造物のセグメンテーション精度向上とドメインギャップの定量化を目指す。
    • 提案データセットを用いて,既存の3D深層学習モデルの性能評価を行った結果,良好なセグメンテーション精度が確認された。
    • しかし,センサーの種類によるドメインギャップが最大11.4%のmIoU低下を引き起こす可能性が示された。
    • 本研究は,橋梁の構造健全性モニタリングの自動化に貢献することが期待される。

    Link: https://arxiv.org/abs/2512.15369

  • 画像複雑度を考慮した適応的検索による効率的なビジョン言語モデル [cs.IR, cs.AI, cs.CV, cs.LG, cs.MM]目的:ビジョン言語モデルにおける画像検索の効率化
    • ビジョン言語モデルは画像とテキストの理解において重要な役割を担うが,計算コストが高い。
    • 既存モデルは画像の内容に関わらず一律の計算量を消費するため,効率性に課題がある。
    • 画像複雑度に応じた計算量を調整し,効率性と性能の両立を目指す。
    • 提案手法ICARは,画像複雑度に応じて処理深度を調整することで,計算量を削減する。
    • 画像複雑度の判定にはConvNeXt-ICを使用し,人間の判断との高い相関を示す。
    • 実世界データを用いた評価により,性能維持と20%の高速化を両立している。

    Link: https://arxiv.org/abs/2512.15372

  • 手話話者の感情認識 [cs.CV, cs.AI, cs.CL]目的:手話話者の感情認識における課題解決と性能向上
    • 手話は聴覚障がい者にとって重要なコミュニケーション手段であり,その理解度向上は社会参加促進に不可欠である。
    • 文法的な表情と感情的な表情の区別が難しく,また,手話の感情認識のためのデータセットが不足している。
    • 日本語手話とイギリス手話のデータセットを用いて,データ不足の問題を緩和し,感情認識の精度向上を目指す。
    • 音声言語における感情認識技術を応用することで,手話のデータ不足をある程度補うことができた。
    • 動画の時間的なセグメント選択が感情認識の精度に大きく影響することが示された。
    • 手動表現を取り入れることで,手話話者の感情認識精度を向上させることが確認された。また,既存の音声言語LLMを上回る性能を達成した。

    Link: https://arxiv.org/abs/2512.15376

  • バスケットボールにおける深層学習を用いた行動予測 [cs.CV]目的:バスケットボールの試合映像におけるチームのボール獲得予測
    • スポーツアナリティクスは,試合映像の自動分析を可能にし,競技の理解を深める上で重要である。
    • スポーツ映像における行動予測は,他の分析技術に比べて研究が遅れており,課題が多い。
    • 本研究は,バスケットボールの試合におけるリバウンドを予測することで,リアルタイム放送や試合分析を支援する。
    • 新たに10万件のバスケットボール映像クリップからなる大規模なデータセットを構築し,公開した。
    • 最先端の行動予測手法を用いてバスケットボールのリバウンド予測に深層学習を適用した初の試みである。
    • リバウンドの分類と検出という2つの関連タスクも調査し,データセットの有用性を示した。

    Link: https://arxiv.org/abs/2512.15386

  • 部分的ビューアラインメントクラスタリングのための意味的マッチング対照学習:SMART [cs.CV, cs.AI, cs.LG]目的:部分的ビューアラインメントクラスタリングにおける性能向上
    • マルチビューデータは,複数の視点から情報を統合することで,学習性能向上に寄与する。
    • 現実世界では厳密なビューアラインメントが難しく,アラインメントされていないデータも活用する必要がある。
    • アラインメントされたデータとされていないデータの双方から,データ間の潜在的な一貫性を最大限に引き出す。
    • 提案手法SMARTは,ビュー間の分布シフトの影響を軽減し,意味的マッチング対照学習を可能にする。
    • SMARTは,アラインメントされたデータとアラインメントされていないデータの双方に含まれる意味関係を最大限に活用する。
    • 8つのベンチマークデータセットにおける実験で,SMARTは既存手法を安定的に上回る性能を示した。

    Link: https://arxiv.org/abs/2512.15396

  • 軽量チャンネル非依存的表現学習によるマーカー特異性の維持 [cs.CV]目的:多重組織イメージングにおける自己教師あり表現学習の誘導バイアス
    • 多重組織イメージングは細胞ごとの多数のタンパク質マーカーを計測するが,深層学習モデルはマーカー間の共通構造を仮定し,早期チャンネル融合を適用することが多い。
    • 既存モデルでは,マーカー特異的な情報を保持できず,特に稀な細胞の識別が困難である。
    • マーカーの独立性を維持し,浅いアーキテクチャを用いることで,より適切な誘導バイアスを確立し,表現学習の性能向上を目指す。
    • 早期融合モデルはマーカー特異的な情報を保持する能力が限られており,稀な細胞の識別で苦戦するのに対し,チャンネル非依存的アーキテクチャはより強力な表現を獲得した。
    • コンパクトなサイズのCIM-Sは,複数の自己教師あり学習フレームワークで安定した結果を示し,データ拡張設定やマーカー数の削減にも対応可能であった。
    • 軽量でチャンネル非依存的なアーキテクチャは,深層早期融合CNNや基盤モデルに匹敵またはそれ以上の性能を発揮し,多重表現学習に適していることが示された。

    Link: https://arxiv.org/abs/2512.15410

  • MiVLA:人間とロボットの相互模倣事前学習による汎化性能の高い視覚言語行動モデル [cs.RO, cs.CV]目的:視覚言語行動モデルの汎化性能向上
    • ロボットの知能化には,現実世界の多様な状況に対応できる汎化能力が不可欠である。
    • 既存の視覚言語行動モデルは,カメラ視点や外観,ロボットの形態の違いにより,汎化性能が制限される。
    • 人間とロボットの行動類似性を活用し,両者の行動空間を整合させることで汎化性能を高める。
    • MiVLAは,人間とロボットの相互模倣事前学習により,両者の行動に関する強い事前知識を獲得する。
    • シミュレーション実験において,最先端の視覚言語行動モデルと比較して,25%の性能向上を達成した。
    • 実世界のロボット制御タスクにおいても,14%の性能向上を示し,汎化性能の高さが確認された。

    Link: https://arxiv.org/abs/2512.15411

  • 実世界のシーンにおける写実的な幻影道路:物理的形状からの3D幻覚の分離 [cs.CV, cs.RO]目的:単眼深度モデルにおける3D幻覚の探求,定量化,および抑制
    • 単眼深度推定は,現実世界の認識において重要であり,ロボット工学や拡張現実などへの応用が期待される。
    • 既存のモデルは,幾何学的に平面であるにもかかわらず,知覚的に曖昧な入力から誤った3D構造を幻覚してしまう問題がある。
    • 実世界の錯覚をベンチマーク化し,幻覚を抑制する手法を開発することで,モデルの安全性を向上させる。
    • 本研究では,実世界の錯覚を対象とした新たなベンチマーク「3D-Mirage」を提案し,モデルの構造的・文脈的頑健性を評価する指標を開発した。
    • 提案手法であるGrounded Self-Distillationは,幻覚領域に平面性を強制することで,背景知識の損失を防ぎながら幻覚を効果的に抑制できることを示した。
    • 本研究は,単眼深度モデルの評価において,ピクセル単位の精度だけでなく,構造的・文脈的頑健性を考慮する必要性を訴えている。

    Link: https://arxiv.org/abs/2512.15423

  • ステップGUI技術報告 [cs.CV]目的:GUI自動化のための自己進化型学習パイプラインと,それを用いたGUIエージェントの開発
    • GUI自動化は,ソフトウェアテストやアクセシビリティ向上など,多岐にわたる分野で重要性が増している。
    • 高品質な学習データの取得とアノテーションの信頼性維持が,GUI自動化の大きな課題となっている。
    • 本研究は,低コストで信頼性の高い学習データ生成と,それを用いた高性能GUIエージェントの実現を目指す。
    • 自己進化型学習パイプライン「Calibrated Step Reward System」により,アノテーション精度90%以上を,従来の10-100分の1のコストで達成。
    • Step-GUIモデル(4B/8B)は,AndroidWorld(8B:80.2%),OSWorld(48.5%),ScreenShot-Pro(62.6%)において最先端のGUI性能を達成。
    • GUI-MCP(Model Context Protocol)を提案し,プライバシー保護とデバイス間の標準化インターフェースを実現する可能性を示した。

    Link: https://arxiv.org/abs/2512.15431

  • CLIP-FTI:CLIP駆動属性条件付けによる詳細な顔テンプレート反転 [cs.NI, cs.CV]目的:顔テンプレート反転における詳細な顔特徴属性の再構築
    • 顔認証システムは効率的な照合のために顔テンプレートを保存するが,漏洩した場合,プライバシー侵害やなりすましのリスクが生じる。
    • 既存研究では写実的な反転が可能だが,顔の部位(目,鼻,口)の属性が平滑化され,汎化性能が低いという課題がある。
    • CLIPを用いて顔の特徴属性を詳細に制御し,より正確で汎化性の高い顔テンプレート反転を実現することを目指す。
    • 提案手法CLIP-FTIは,CLIPモデルを利用し,顔特徴のセマンティック埋め込みを得ることで,特定の顔特徴属性を再構築する。
    • 実験の結果,既存手法と比較して,識別精度と属性類似度が高く,より鮮明な顔部位の属性を復元できることが示された。
    • また,異なる顔認証モデル間での攻撃の汎化性能も向上しており,顔テンプレート攻撃における最先端の結果を達成している。

    Link: https://arxiv.org/abs/2512.15433

  • 絡み合った植物冠における二重時空間的証拠を用いた,アイデンティティを維持する枝追跡 [cs.CV]目的:絡み合った植物冠における個々の植物枝の追跡
    • 植物の表現型解析自動化には不可欠であり,生育状況の把握に貢献する。
    • 非剛体な成長や密集した冠での枝のアイデンティティ断片化が課題である。
    • 植物の成長段階に応じた曖昧さを解消し,長期的な枝の追跡を実現する。
    • ST-DETrackは,空間デコーダと時間デコーダを融合することで,初期段階での幾何学的情報と後期段階での動きの一貫性を活用する。
    • 適応的なゲーティング機構により,空間的および時間的情報の利用バランスを動的に調整し,負の重力屈性に基づいた制約を加える。
    • Brassica napusデータセットでの評価で,Branch Matching Accuracy (BMA) 93.6%を達成し,既存手法を大幅に上回る性能を示した。

    Link: https://arxiv.org/abs/2512.15445

  • 野生動物物体検出のための深層学習アーキテクチャの評価:ResNetとInceptionの比較研究 [cs.CV]目的:野生動物物体検出における深層学習アーキテクチャの有効性比較
    • 生物多様性の保全,生態モニタリング,生息地保護において,野生動物の検出は不可欠である。
    • 環境変動,種間での視覚的類似性,種内多様性により,野生動物の物体検出は困難な課題である。
    • 複雑な条件下における深層学習アーキテクチャの有効性を検証し,検出性能の向上を目指す。
    • ResNet-101は94%の分類精度,0.91のmAPを達成し,深い階層的特徴抽出において高い性能を示した。
    • Inception v3は95%の分類精度,0.92のmAPを達成し,並列畳み込みによる効率的なマルチスケール特徴抽出が貢献した。
    • 両モデルとも,視覚的特徴が類似する種や,低照度・遮蔽された状況下での検出に課題が残る。

    Link: https://arxiv.org/abs/2512.15480

  • RUMPL:汎用マルチビュー2Dから3Dへの人体ポーズ推定のためのレイベーストランスフォーマー [cs.CV]目的:2D画像からの3D人体ポーズ推定の性能向上
    • 人体ポーズ推定は,行動認識や人間とロボットのインタラクションにおいて不可欠な技術である。
    • 実世界の環境下では,オクルージョンや投影の曖昧さにより,正確な3Dポーズ推定が困難である。
    • カメラキャリブレーションやビュー数に依存しない汎用的な3Dポーズ推定手法を開発すること。
    • RUMPLは,2Dキーポイントの3Dレイベース表現を導入することで,カメラキャリブレーションやビュー数に依存しないモデルを実現した。
    • View Fusion Transformerがレイに沿った情報を集約し,マルチビューの一貫性を向上させている。
    • 実験により,RUMPLは従来の triangulation や image-representation ベースラインと比較して,MPJPEを大幅に削減することが示された。

    Link: https://arxiv.org/abs/2512.15488

  • LUMirage:LUMIRチャレンジにおけるゼロショット性能の独立評価 [cs.CV, eess.IV]目的:LUMIRチャレンジにおけるゼロショット性能の再評価
    • 脳画像解析の分野では,画像登録の精度向上が不可欠であり,大規模データへの対応が求められている。
    • 深層学習モデルの汎化性能,特に未知のデータへの対応能力は課題であり,ドメインシフトの影響が大きい。
    • 深層学習モデルのゼロショット性能の妥当性を検証し,臨床応用における信頼性を評価する。
    • 深層学習モデルはT1強調画像において,反復最適化法と同程度の性能を示すことが確認された。
    • しかし,T2強調画像などの異なるコントラストや解像度では性能が著しく低下し,臨床ワークフローへの影響が示唆された。
    • 高解像度データにおける深層学習モデルのスケーラビリティには限界があり,反復最適化法が有利となる場合がある。

    Link: https://arxiv.org/abs/2512.15505

  • オフ・ザ・グリッド:フィードフォワード3Dガウススプラッティングのプリミティブ検出 [cs.CV]目的:3Dガウススプラッティングにおけるプリミティブの検出
    • リアルタイムなシーン生成が求められる中,3D表現の効率性と品質が重要課題となっている。
    • 既存手法では,密なグリッドに依存したプリミティブ配置が,品質と効率のボトルネックとなっていた。
    • サブピクセルレベルでの適応的なプリミティブ配置により,効率的かつ高品質なシーン生成を目指す。
    • 本研究では,画像パッチ上にプリミティブを分散させる新しいアーキテクチャを提案した。
    • 提案手法は,自己教師あり学習により3D再構成とプリミティブ検出を同時に学習する。
    • 少ないプリミティブ数で高品質なシーン生成を実現し,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2512.15508

  • デジタルフォレンジクスにおける画像操作検出のためのVAAS:ビジョン・アテンション異常スコアリング [cs.CV, cs.MM]目的:画像操作検出の異常度スコアの算出
    • デジタル証拠の信頼性確保は,法廷や捜査において極めて重要である。
    • AIによる画像生成技術の発展により,従来の検出手法では見破れない偽造画像が出現している。
    • 操作箇所の特定と,その操作の度合いを定量的に評価する手法が求められている。
    • 提案手法VAASは,ViTとSegFormerを組み合わせた二つのモジュールで構成され,画像内の異常度をスコアリングする。
    • DF2023およびCASIA v2.0データセットを用いた評価で,VAASはF1スコアとIoUで良好な性能を示した。
    • アテンションマップにより異常箇所の可視化が可能であり,透明性と信頼性の高い画像完全性評価を支援する。

    Link: https://arxiv.org/abs/2512.15512

  • DeX-Portrait:明示的・潜在的モーション表現による,ほどかれた表現力豊かなポートレートアニメーション [cs.CV]目的:単一のソース画像と駆動ビデオからのポートレートアニメーション生成
    • ポートレートアニメーションは,バーチャルリアリティやコミュニケーションにおいて重要な役割を担う技術である。
    • 既存手法では,頭部ポーズと表情の制御が不十分であり,柔軟な編集やアニメーションが困難である。
    • 頭部ポーズと表情をほどき,それぞれを独立して制御することで,より自然で表現豊かなアニメーションを実現する。
    • 提案手法DeX-Portraitは,頭部ポーズを明示的な変換として,表情を潜在コードとして表現することで,ほどかれた制御を可能にした。
    • 拡散モデルへのポーズ注入機構とクロスアテンション機構により,高品質なアニメーション生成と忠実な身元維持を両立した。
    • 実験の結果,既存手法と比較して,アニメーション品質と制御可能性の両方で優れた性能を示した。

    Link: https://arxiv.org/abs/2512.15524

  • EmoCaliber:信頼性の高い視覚感情理解のための確信度言語化と較正 [cs.CV]目的:視覚的感情理解における確信度言語化と較正による信頼性向上
    • 感情理解は,人間とコンピュータ間の自然な対話を可能にする上で不可欠な要素である。
    • 既存手法は感情認識の主観性を考慮せず,単一の感情ラベルに限定されている。
    • 感情予測に対するモデルの確信度を言語化し,より信頼性の高い感情理解を実現する。
    • EmoCaliberは,感情予測と確信度推定の両方において,既存手法を上回る性能を示した。
    • 提案手法は,モデルに構造化された推論能力,確信度の言語化能力,確信度表現の較正能力を段階的に付与する。
    • 確信度情報の提供により,感情理解の解釈可能性と信頼性が向上し,実用的な応用が期待される。

    Link: https://arxiv.org/abs/2512.15528

  • リモートセンシングにおけるビジョンと言語タスクのための効率的かつ効果的なエンコーダモデル [cs.CV]目的:リモートセンシング分野におけるビジョンと言語タスクのための効率的なエンコーダモデルの提案
    • リモートセンシングは,地球観測において不可欠であり,環境変化の監視や資源管理に貢献する
    • 大規模言語モデルは計算コストが高く,多くの機関にとって利用が困難である
    • パラメータ数を削減しつつ,多様なタスクに対応可能なモデルを開発すること
    • 提案モデルGeoMELTは,画像からのテキスト生成とクロスモーダル検索を統合的に解決する
    • 既存のベンチマークにおいて,提案モデルの有効性と効率性が確認された
    • パラメータ効率の高い学習により,計算コストを抑制し,より多くの機関での利用を可能にする

    Link: https://arxiv.org/abs/2512.15531

  • 楽曲分離のための条件付きUNet [cs.SD, cs.AI, cs.LG, eess.AS]目的:楽曲分離における条件付きUNetの提案
    • 音楽制作や分析において,楽曲を構成要素に分解する技術は不可欠である。
    • 既存手法では,事前に楽器の種類を定義する必要があり,柔軟性に欠ける点が課題である。
    • 本研究は,楽器の種類を限定しない,より柔軟な楽曲分離手法の確立を目指す。
    • 提案手法QSCNetは,既存のBanquetと比較して,SNRで1dB以上の改善を示した。
    • QSCNetはBanquetよりもパラメータ数を半分以下に抑えながら,高い分離性能を実現した。
    • MoisesDbデータセットを用いることで,条件付きアプローチの有効性が確認された。

    Link: https://arxiv.org/abs/2512.15532

  • 乳幼児ビデオ記録における顔の匿名化:BLANKET [cs.CV]目的:乳幼児ビデオ記録における顔の匿名化手法
    • 人間を対象としたビデオデータの倫理的利用は重要であり,特に乳幼児のプライバシー保護が不可欠である。
    • 既存の匿名化手法では,顔の特徴を十分に隠蔽できず,個人識別されるリスクが残存する。
    • 乳幼児のビデオ記録において,プライバシーを保護しつつ,顔の重要な特徴を維持する匿名化手法を開発する。
    • 提案手法BLANKETは,拡散モデルと時間的な一貫性のある顔の入れ替えにより,顔を匿名化する。
    • BLANKETは,既存手法DeepPrivacy2と比較して,匿名化レベル,顔の特徴の保存,姿勢推定への影響において優れている。
    • 本研究のコードは,使いやすい匿名化デモとして公開されており,容易に利用可能である。

    Link: https://arxiv.org/abs/2512.15542

  • GRAN-TED:拡散モデルのための堅牢,整合性,ニュアンス豊かなテキスト埋め込みの生成 [cs.CL, cs.RO, cs.CV]目的:拡散モデルにおけるテキスト埋め込みの品質向上
    • テキストから画像や動画を生成する技術は,コンテンツ制作や表現の可能性を広げる重要な分野である。
    • テキストエンコーダの性能評価が難しく,事前学習済み言語モデルの視覚合成への適応が課題となっていた。
    • テキストエンコーダの性能を効率的に評価し,視覚合成に最適化された高品質なテキスト埋め込みを生成することを目指す。
    • 新たなベンチマークTED-6Kを提案し,テキストエンコーダの表現品質を効率的に評価できることを示した。
    • マルチモーダル大規模言語モデルを初期段階でファインチューニングし,その後,層ごとの重み付けを行うことで,より高品質なテキストエンコーダGRAN-TEDを開発した。
    • GRAN-TEDは,テキストから画像および動画の生成において,既存の最先端技術を上回る性能を達成した。

    Link: https://arxiv.org/abs/2512.15560

  • SAM3リモートセンシングセグメンテーションにおけるテキストプロンプティングと軽量ファインチューニングの有効性 [cs.CV]目的:リモートセンシング画像セグメンテーションにおけるテキストプロンプティングと軽量ファインチューニングの有効性
    • リモートセンシングは,地球規模の環境変化の監視や資源管理に不可欠な技術である。
    • 十分なアノテーションデータが不足しており,汎用モデルの適用に課題が残る。
    • テキストプロンプティングと軽量なファインチューニングで,少ないデータでも高いセグメンテーション精度を目指す。
    • テキストと幾何学的な情報を組み合わせたプロンプティングが,最も高い性能を示すことがわかった。
    • テキストのみのプロンプティングは性能が低く,特に形状が不規則な対象において顕著な差が見られた。
    • 少ない幾何学的なアノテーションで効果的な適応が可能であり,性能向上に十分である。

    Link: https://arxiv.org/abs/2512.15564

  • MoonSeg3R:再構成的基礎事前知識を用いた単眼オンラインゼロショット3Dセグメンテーション [cs.CV]目的:単眼画像からのオンラインゼロショット3Dインスタンスセグメンテーションの実現
    • 3Dインスタンスセグメンテーションは,ロボティクスやAR/VRなど多様な分野で重要性が増している。
    • 従来のRGB-Dベースの手法は,ポーズ情報が必要であり,単眼画像への応用が困難であった。
    • 単眼画像から信頼性の高い幾何学的情報を得ることで,オンラインでの3Dセグメンテーションを可能とする。
    • MoonSeg3Rは,2Dセグメンテーションマスクを識別可能な3Dクエリに変換する自己教師ありクエリ洗練モジュールを導入した。
    • 3Dクエリインデックスメモリを用いることで,時間的な一貫性を確保し,文脈的なクエリの検索を実現した。
    • CUT3Rからの状態分布トークンは,マスクID記述子として機能し,フレーム間の融合を強化した。ScanNet200とSceneNNでの実験で,RGB-Dベースの手法と同等の性能を達成した。

    Link: https://arxiv.org/abs/2512.15577

  • IMKD:強度を考慮した多段階知識蒸留によるカメラ・レーダー融合 [cs.CV, cs.LG]目的:カメラ・レーダー融合による3次元物体検出性能の向上
    • 自動運転やロボティクスにおいて,周囲環境の正確な認識が不可欠である。
    • LiDARが不要なシステムでは,カメラとレーダーの融合が課題となる。
    • センサー固有の特徴を活かしつつ,互いの補完性を高める融合手法が求められる。
    • IMKDは,多段階知識蒸留により,各センサーの特徴を維持しつつ,融合表現を強化する。
    • 特に,レーダー表現の構造的特徴の強化,有用な幾何学的情報の選択的な強調に焦点を当てている。
    • nuScenesベンチマークにおいて,NDS 67.0%,mAP 61.0%を達成し,既存手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2512.15581

  • 誤整列の管理に対する意思決定理論的アプローチ [eess.SY, cs.SY, cs.AI, cs.GT]目的:AIシステムへの意思決定委譲の判断基準
    • AIの社会実装が進む中で,AIの行動が人間の価値観と乖離するリスクが懸念されている。
    • AIの価値整列技術は存在するものの,不完全な整列度で委譲する妥当性を判断する基準が不足している。
    • AIの価値整列度,認識精度,影響範囲を考慮し,委譲の合理性を定量的に評価する手法を確立する。
    • 普遍的な委譲は,高い価値整列度と認識信頼性を必要とするが,現実的には困難であることが示された。
    • 文脈固有の委譲は,ある程度の誤整列が存在しても合理的であり得る。AIの認識精度や影響範囲の優位性がそれを補完する。
    • AIの委譲判断における期待値を定量化する新しいスコアリングフレームワークが開発された。

    Link: https://arxiv.org/abs/2512.15584

  • FlexAvatar:部分的教師データを用いた完全3Dヘッドアバターの学習 [cs.RO, cs.CV]目的:単一画像からの高品質かつ完全な3Dヘッドアバターの生成
    • 3Dアバターは,仮想現実やメタバースなど多様な分野で利用が拡大しており,その重要性が増している。
    • 単眼画像からの3D再構成は難しく,特に完全な3Dモデルを得ることが課題となっている。
    • 単眼画像と複数視点画像の両方を利用し,完全な3Dアバターを生成することを目指す。
    • FlexAvatarは,単眼画像から高品質な3Dヘッドアバターを生成可能である。
    • 提案手法は,単眼データと複数視点データの強みを活かし,汎化性能と完全性を両立している。
    • 学習された潜在空間は滑らかであり,アイデンティティの補間や様々な入力への柔軟な適合を実現する。

    Link: https://arxiv.org/abs/2512.15599

  • Qwen-Image-Layered: レイヤー分解による固有の編集可能性に向けて [cs.CL, cs.CV]目的:画像編集の一貫性確保
    • 画像生成モデルの発展は目覚ましいが,編集時の整合性が課題となっている。
    • 既存の画像生成モデルは,画像情報を単一のキャンバスに統合するため,編集時に不整合が生じやすい。
    • レイヤー分解により,各レイヤーを独立して編集し,一貫性を保つことを目指す。
    • 提案手法Qwen-Image-Layeredは,画像を複数の意味的に分離されたRGBAレイヤーに分解する。
    • これにより,各レイヤーを個別に操作しても,他のコンテンツに影響を与えずに編集が可能となる。
    • 実験の結果,既存手法と比較して分解品質が大幅に向上し,一貫性のある画像編集の新たなパラダイムを確立した。

    Link: https://arxiv.org/abs/2512.15603

  • 密な対応点に基づくロバストなマルチビューカメラキャリブレーション [cs.CV]目的:マルチビューカメラキャリブレーションのロバスト性の向上
    • コンピュータビジョンにおいて,カメラパラメータの推定は基本的な課題であり,様々な応用分野で重要である。
    • 従来のSfM手法では,特に強いラジアル歪みを持つカメラにおいて精度やロバスト性に課題が残されていた。
    • 密な対応点の効果的な活用と,ビューのインクリメンタル追加基準の最適化により,キャリブレーション精度を向上させる。
    • 提案手法は,特に強いラジアル歪みを持つカメラにおいて,従来手法と比較して大幅な精度向上を示した(79.9% vs. 40.4%)。
    • 密な対応点のサブサンプリング手法は,グローバルSfM環境においても有効であり,初期姿勢推定に貢献する。
    • 本パイプラインは,様々なカメラセットアップに適用可能であり,動物行動研究やフォレンジック分析に役立つツールとなり得る。

    Link: https://arxiv.org/abs/2512.15608

  • 逆合成開口レーダー画像における居住空間物体の持続的な特徴再構成 [cs.CV, eess.SP]目的:居住空間物体の外部構造認識
    • 地球近傍空間の物体増加により,安全な宇宙活動のために詳細な情報が求められている。
    • 従来の地上からの監視では,大気の影響や観測角度の制限がある。
    • 本研究は,高分解能なレーダー画像を用いた物体構造の正確な把握を目指す。
    • 提案手法により,フレーム間の特徴点追跡による特徴検出の信頼性が向上した。
    • 影の検出など,特徴量の進化分析を通じて構造認識の可能性が示された。
    • シミュレーションにより,100kmまでの距離でサブcmの画像解像度が実現可能であることが確認された。

    Link: https://arxiv.org/abs/2512.15618

  • OccSTeP: 4D occupancy空間-時間持続性のベンチマーク [cs.CV]目的:4D occupancy空間-時間持続性の評価基準
    • 自動運転には,時間的な変動に強く,将来の行動を予測可能な3Dシーンの理解が不可欠である。
    • 既存の手法では,ノイズや欠損のあるセンサ入力に対するロバスト性が十分ではない。
    • 本研究は,現実的な条件下での予測性能を向上させるための評価基準とモデルを提案する。
    • 新しいベンチマークOccSTePを構築し,誤ったセマンティックラベルやフレームの欠落といった課題に対処した。
    • Tokenizerを用いないワールドモデルOccSTeP-WMを提案し,長距離空間依存性を捉え,オンライン推論を可能にした。
    • 実験の結果,OccSTeP-WMはsemantic mIoUで23.70%(+6.56%),occupancy IoUで35.89%(+9.26%)の向上を示した。

    Link: https://arxiv.org/abs/2512.15621

  • 画像ベースライティングのための物理ベースの空モデル構築に向けて [cs.CV, cs.GR]目的:フォトリアリスティックな屋外シーンレンダリングのための空モデル
    • 現実的な照明を再現するには,正確な環境マップが不可欠である。映像制作やVRなど,多様な応用分野で重要性が増している。
    • 既存の空モデルは自然な空の再現に課題があり,特に高ダイナミックレンジの照明をサポートできない。
    • 物理的に計測されたHDRIから学習することで,フォトリアリズムとフルダイナミックレンジの両立を目指す。
    • AllSkyは,太陽や雲の位置をユーザーが直感的に制御できる,柔軟な全天候型空モデルである。
    • 既存のDNNベースの空モデルは,物理的に計測されたHDRIやパラメトリックな空モデルと互換性がないことが示された。
    • AllSkyは,空モデルの入力,トーンマッピング,条件付け,評価に関する研究を促進する。

    Link: https://arxiv.org/abs/2512.15632

  • IC-Effect:文脈学習による高精度かつ効率的な動画エフェクト編集 [cs.CV, cs.AI]目的:動画VFX編集における文脈学習による複雑なエフェクト合成
    • 動画編集は表現の幅を広げ,コンテンツ制作において不可欠な技術である。
    • 既存モデルでは,背景の維持とエフェクトの自然な統合が困難であり,データ量も必要となる。
    • DiTモデルの文脈学習能力を活用し,背景を正確に保持しつつ自然なエフェクト挿入を実現する。
    • IC-Effectは,背景を厳密に保持し,空間的・時間的整合性を保ちつつ,高品質なVFX編集を可能にする。
    • Effect-LoRAとスパーストークン化により,命令への追従性と計算効率を高めている。
    • 15種類の高品質な視覚スタイルを含むVFX編集データセットを新たに公開した。

    Link: https://arxiv.org/abs/2512.15635

  • InpaintDPO:多様な選好最適化による前景条件付き画像補完における空間関係の幻覚の軽減 [cs.CV]目的:前景条件付き画像補完における空間的合理性の向上
    • 制御可能な画像生成の重要なサブ分野であり,前景オブジェクトと背景の調和が求められる
    • 前景と生成された背景の間の不適切なスケール,位置関係,視点など,空間関係の幻覚が課題
    • 空間的合理性の主観性に着目し,直接選好最適化(DPO)を用いて空間関係の誤りを修正する
    • InpaintDPOは,前景条件付き画像補完における空間的合理性を向上させる初のDPOベースのフレームワークである。
    • MaskDPOにより,背景領域に最適化を限定し,前景領域の保全と背景の空間関係を両立させる。
    • Conditional Asymmetric Preference OptimizationとShared Commonality Preference Optimizationにより,境界の一貫性と空間共通性の理解を深める。

    Link: https://arxiv.org/abs/2512.15644

  • ハードラベルの再導入:局所的意味漂流の緩和におけるハードラベルの役割の再考 [cs.CV]目的:局所的意味漂流の緩和
    • 教師モデルによる知識伝達は,大規模データセット蒸留において重要な役割を果たす。
    • 画像あたりに利用可能なクロップ数が限られている場合,ソフトラベルは意味漂流を起こしやすい。
    • ハードラベルを適切に統合することで,意味漂流を校正し,性能向上を目指す。
    • 本研究では,ソフトラベルとハードラベルを組み合わせた新しい学習パラダイムHALDを提案した。
    • HALDは,中間的な修正信号としてハードラベルを活用することで,ソフトラベルの利点を維持しつつ,意味漂流を緩和する。
    • ImageNet-1Kにおいて,ソフトラベルのみで285Mのストレージ容量で42.7%の精度を達成し,既存の最先端手法LPLDを9.0%上回った。

    Link: https://arxiv.org/abs/2512.15647