arXiv雑要約

画像・音声 - 2025/12/16 公開

  • 拡散特徴を用いた統合的な登録と変化検出:DiffRegCD [cs.CV, cs.AI]目的:変化検出と画像登録の統合的フレームワーク
    • 環境監視,災害対応,都市開発など,コンピュータビジョンやリモートセンシングにおいて変化検出は不可欠である。
    • 現実の画像データには,視差や時間経過による位置ずれが生じやすく,正確な変化検出を妨げる。
    • 大規模な位置ずれにも対応可能な,ロバストな変化検出手法を開発する。
    • DiffRegCDは,対応点探索をガウス平滑化された分類タスクとして再構築し,サブピクセル精度と安定した学習を実現した。
    • 事前学習済みのノイズ除去拡散モデルからの凍結された多重スケール特徴を活用することで,照明や視点の変化に対する頑健性を確保した。
    • 標準的な変化検出データセットへの制御されたアフィン摂動を適用することで,擬似ラベルなしでフローと変化検出の両方の正解データペアを得た。

    Link: https://arxiv.org/abs/2511.07935

  • 網膜画像における微小血管瘤検出のためのウェーブレット拡散Transformer [eess.SY, astro-ph.IM, cs.SY, cs.MA, cs.CV]目的:網膜画像における微小血管瘤の検出
    • 糖尿病性網膜症の早期発見は失明予防において重要であり,微小血管瘤はその初期兆候となる。
    • 微小血管瘤は大きさや形状が多様で,熟練した専門家による手動検査でも見落としや誤診が発生しやすい。
    • 拡散モデルの課題を克服し,より正確かつ効率的な微小血管瘤の自動検出手法を開発すること。
    • 提案手法WDT-MDは,画像条件の摂動により「恒等写像」を回避し,偽陽性の削減に貢献する。
    • ウェーブレット拡散Transformer構造により,網膜の正常組織の再構成性能が向上し,検出精度が向上する。
    • IDRiDおよびe-ophtha MAデータセットにおける実験で,WDT-MDは既存手法を上回る検出性能を示した。

    Link: https://arxiv.org/abs/2511.08987

  • OUGS:3DGSにおける物体認識を考慮した不確実性推定によるアクティブビュー選択 [cs.CV, cs.CG, cs.GR, cs.HC]目的:3DGSにおける特定の物体を高精度に再構成するための効率的なビュー選択
    • 3DGSは新しい視点からの合成において最先端の結果を達成しており,その応用範囲は広い。
    • 既存のアクティブ再構成方法はシーンレベルの不確実性指標に依存しており,背景の影響を受けやすい。
    • 3Dガウス素子の物理パラメータから直接不確実性を推定し,物体に焦点を当てた効率的なビュー選択を実現する。
    • OUGSは,3Dガウス素子のパラメータの共分散をレンダリングヤコビアンを通して伝播させることで,解釈性の高い不確実性モデルを確立した。
    • セマンティックセグメンテーションマスクを統合することで,物体と背景を分離し,対象物への再構成精度向上に貢献するビューを優先的に選択する。
    • 公開データセットでの実験により,OUGSが既存手法と比較して再構成効率と対象物品質を大幅に向上させることが示された。

    Link: https://arxiv.org/abs/2511.09397

  • PANDA -- パッチと分布を考慮した拡張による,長尾分布データへのエグザンプラーフリー継続学習 [cs.CV, eess.IV]目的:長尾分布データにおけるエグザンプラーフリー継続学習の性能向上
    • 継続学習は,機械学習モデルが新しいタスクを学習する際に,過去の知識を忘却する問題を解決する上で重要である。
    • エグザンプラーフリー継続学習は,過去のデータを保存しないため,破滅的忘却が起こりやすいという課題がある。
    • PANDAは,現実世界のデータ分布の不均衡に対処し,継続学習における性能低下を防ぐことを目指す。
    • PANDAは,CLIPエンコーダを用いて代表的な領域を特定し,高頻度クラスのサンプルに移植することで,低頻度クラスを増強する。
    • PANDAは,過去のタスク分布を活用した適応的なバランス戦略により,タスク間の不均衡を緩和する。
    • 実験結果から,PANDAは既存の継続学習手法と組み合わせることで,精度向上と破滅的忘却の軽減に貢献することが示された。

    Link: https://arxiv.org/abs/2511.09791

  • 問題提起の学習:大規模推論モデルのための推論駆動型およびソルバー適応型データ合成 [cs.AI, cs.CV]目的:大規模推論モデルの学習のためのデータ合成手法
    • 大規模推論モデルは,複雑な課題解決に不可欠だが,学習データが不足している。
    • 既存のデータ合成手法は,問題の質や難易度調整が不十分である。
    • ソルバーの能力に適応し,推論に基づいた問題生成により,より効果的な学習データを提供する。
    • 提案手法は,10の数学および一般推論ベンチマークにおいて,平均2.5%の性能向上を達成した。
    • 合成データで訓練されたソルバーは,生成器の継続的な訓練に対する報酬を向上させ,更なる0.7%の性能向上を実現した。
    • 言語モデルと視覚-言語モデルの両方に対して,汎化性能が確認された。

    Link: https://arxiv.org/abs/2511.09907

  • CoordAR: 自己回帰座標マップ生成による新規オブジェクトの6D姿勢推定 [cs.CV]目的:新規オブジェクトの6D姿勢推定
    • ロボティクスや拡張現実において不可欠な技術であり,周辺環境の理解と操作に必須である。
    • 3Dモデルがない新規オブジェクトの姿勢推定は困難であり,従来の3Dモデルに依存した手法では対応が難しい。
    • 単一の参照画像のみを用いて,高精度かつロバストな姿勢推定を実現することを目的とする。
    • CoordARは,参照画像とクエリ画像間の3D-3D対応関係を離散的なトークンマップとして自己回帰的に生成する。
    • 提案手法は,座標マップのトークン化,モダリティ非結合エンコーディング,自己回帰Transformerデコーダを導入することで,従来の課題を克服する。
    • 複数のベンチマークにおいて既存手法を大幅に上回り,対称性やオクルージョンなどへの高いロバスト性を示す。

    Link: https://arxiv.org/abs/2511.12919

  • CapeNext:カテゴリーに依存しない姿勢推定のための動的なサポート情報の再考と改良 [cs.CV]目的:カテゴリーに依存しない姿勢推定における動的なサポート情報の改善
    • 姿勢推定は,ロボット工学やコンピュータビジョンにおいて重要な役割を担う技術である。
    • 既存手法では,固定的なテキストによるキーポイント記述に依存しており,曖昧性や識別力の不足が課題となっていた。
    • カテゴリーを意識せず,より正確かつ詳細な姿勢推定を可能にするための新たな枠組みを提案する。
    • 提案手法CapeNextは,階層的なクロスモーダル相互作用と二重ストリームの特徴量洗練を統合することにより,既存の最先端手法を大幅に上回る性能を発揮する。
    • 実験結果から,ネットワークのバックボーンに関わらず,CapeNextが一貫して優れた性能を示すことが確認された。
    • この手法は,カテゴリーをまたがる曖昧性や,カテゴリー内の微細なバリエーションに対する識別能力を向上させる。

    Link: https://arxiv.org/abs/2511.13102

  • 回転不変特徴を持つ軽量な3次元異常検知手法 [cs.CV]目的:3次元点群データからの異常点または領域の識別
    • コンピュータビジョンの重要な課題であり,自動化や安全性向上に貢献する。
    • 点群データの向きや位置の変化に弱く,特徴量の変動が大きくなる。
    • 点群データの向きや位置に依存しない特徴量を学習し,異常検知の精度向上を目指す。
    • 提案手法は,Anomaly-ShapeNetデータセットで平均P-AUROCを17.7%改善した。
    • Real3D-ADデータセットにおいても,平均P-AUROCを1.6%改善し,最高性能を達成した。
    • RIFは,既存の手法と組み合わせることで汎化能力が確認され,産業応用への可能性を示す。

    Link: https://arxiv.org/abs/2511.13115

  • IPR-1:インタラクティブな物理推論器 [eess.SY, cs.SY, cs.AI, cs.CV]目的:人間のような物理的推論の獲得と向上
    • 物理法則や因果関係の理解は,知的な行動の基盤であり,AIの汎用性向上に不可欠である。
    • 既存のアプローチは,視覚的詳細に過剰適合し,根本的な物理メカニズムを捉えきれていない。
    • 視覚的差異が大きい多様なゲーム環境において,物理的推論能力を獲得し,経験を通じて改善することを目指す。
    • 提案手法IPRは,VLMのポリシーを強化するために,ワールドモデルのロールアウトを活用することで,優れた性能を発揮する。
    • PhysCodeという物理中心のアクションコードを用いることで,意味的な意図とダイナミクスを整合させ,予測と推論のための共通の行動空間を提供する。
    • 1,000以上のゲームで事前学習した結果,IPRはGPT-5を含む既存モデルを上回り,未見のゲームへのゼロショット転移も可能であることが示された。

    Link: https://arxiv.org/abs/2511.15407

  • 物理的に現実的なシーケンスレベルの敵対的衣類によるロバストな人体検出回避 [eess.SY, cs.SY, cs.CV, cs.AI]目的:人体検出に対する敵対的攻撃のロバスト性
    • 監視環境における安全性とプライバシー保護の重要性が増しているため,人体検出技術への攻撃対策が求められる。
    • 既存の手法はフレームごとにテクスチャを最適化するため,動きや姿勢変化,衣類の変形など,長時間の動画における隠蔽を維持できない。
    • 本研究は,動画全体を通して効果が持続する,自然で印刷可能な敵対的テクスチャを生成することで,この問題を解決することを目指す。
    • シーケンスレベルの最適化フレームワークにより,シャツ,ズボン,帽子などの衣類の敵対的テクスチャ生成に成功した。
    • 生成されたテクスチャは,デジタルおよび物理的な環境において,歩行動画全体を通して安定した隠蔽効果を示した。
    • 昇華転写による物理的な衣類は,屋内および屋外の録画において信頼性の高い検出抑制を実現し,現実世界での実用性が確認された。

    Link: https://arxiv.org/abs/2511.16020

  • FireScope:思考の連鎖オラクルを用いた山火事リスク予測 [cs.CY, cs.CE, cs.CL, cs.CV, cs.LG]目的:山火事リスクの予測
    • 地球温暖化や森林管理の課題から,山火事の予測は防災上重要性が増している。
    • 既存手法では,視覚的,気候的,地理的要因の因果関係に基づいた信頼性の高い予測が困難である。
    • 異なる大陸での有効性を検証し,解釈可能な山火事リスク予測モデルを開発すること。
    • FireScopeは,アメリカで学習しヨーロッパでテストすることで,大幅な性能向上を達成した。
    • 専門家からのフィードバックと自動分析により,その推論過程が正確かつ意味的に妥当であることが確認された。
    • 言語に基づく推論が,視覚的生成における汎化性能を向上させることが示された。

    Link: https://arxiv.org/abs/2511.17171

  • ATAC:CLIPに対する拡張に基づくテスト時敵対的修正 [cs.CV]目的:CLIPにおけるテスト時の敵対的修正手法
    • 画像とテキストの対応付けにおいて,ゼロショット学習で高い性能を示すCLIPの重要性が増している。
    • CLIPは画像に対するわずかな敵対的摂動に脆弱であり,その対策が求められている。
    • テスト時に敵対的摂動の影響を軽減し,CLIPの頑健性を向上させることを目指す。
    • ATACは,埋め込み空間で拡張によるドリフトベクトルを計算し,意味的な回復方向を推測することで敵対的摂動を修正する。
    • 幅広いベンチマークにおいて,ATACは既存の最先端手法を平均で約50%上回る高い頑健性を実現した。
    • ATACは,従来の状況だけでなく,極端な状況や適応的攻撃に対しても高い頑健性を維持する。

    Link: https://arxiv.org/abs/2511.17362

  • チームスポーツにおける因果的軌道予測モデルCausalTraj [cs.LG, cs.CV]目的:複数エージェントの軌道予測
    • スポーツ分析において,複数エージェントの行動予測は不可欠であり,現実的なシミュレーションや戦略理解に貢献する。
    • 既存モデルは個々のエージェントの精度に偏重しており,複数エージェント間の整合性を考慮していない点が課題である。
    • エージェント間の因果関係を考慮し,整合性のある複数エージェントの軌道を予測することを目的とする。
    • CausalTrajは,時系列因果関係に基づいた尤度ベースモデルであり,複数エージェントの軌道を共同で予測する。
    • NBA,バスケットボール,サッカーのデータセットにおいて,個々のエージェントの精度に加え,共同予測の精度指標(minJADE,minJFDE)で最先端の結果を達成した。
    • 質的な評価においても,CausalTrajは現実的なゲーム展開を生成することが示された。

    Link: https://arxiv.org/abs/2511.18248

  • 長尾分布データセット蒸留の再考:偏りのない復元と再ラベル付けを備えた単一レベルフレームワーク [cs.CV]目的:長尾分布データセットにおけるデータセット蒸留の効率化
    • データセット蒸留は,大規模データセットから重要な情報を抽出し,効率的な学習を可能にする技術。
    • 既存手法は,クラス頻度の不均衡な長尾分布データセットにおいて,モデルの表現に偏りが生じやすい。
    • モデルの偏りを軽減し,適切な教師信号を回復することで,長尾分布データセット蒸留の性能向上を目指す。
    • 提案手法は,信頼性の高い統計量推定とソフトラベル生成のために,専門家モデル(復元用オブザーバーモデル,再ラベル付け用教師モデル)を強化。
    • バッチ正規化統計量の再校正により,表現の歪みを軽減し,長尾分布データセットにおける学習の安定性を向上。
    • 高確信度かつ多様な拡張を選択する多段階メカニズムにより,合成画像の多様性と網羅性を高め,蒸留性能を向上。

    Link: https://arxiv.org/abs/2511.18858

  • 現実的なテキストからLiDARシーン生成のための自己条件付き表現誘導拡散モデル [cs.CV]目的:テキストからLiDARシーンを生成する手法
    • 3Dデータは,構造や多様性が豊かで,様々な下流タスクに利用できるため重要である。
    • テキストとLiDARのペアが少ないため,十分な学習事前情報が得られず,3Dシーンが過度に滑らかになる場合がある。
    • データ分布から豊富な幾何学的構造を学習し,詳細なオブジェクトを生成することで,生成品質と制御性を向上させる。
    • 提案手法T2LDMは,自己条件付き表現誘導(SCRG)により,学習時にノイズ除去ネットワークに再構成の詳細なソフトな教師信号を提供し,高品質なLiDARシーン生成を実現した。
    • 新しいベンチマークT2nuScenesを構築し,様々なテキストプロンプトがLiDAR生成の品質と制御性に与える影響を分析することで,実用的なプロンプトのパラダイムと洞察を提供した。
    • 方向性位置事前情報を用いることで,道路の歪みを軽減し,シーンの忠実性を向上させるとともに,複数の条件付きタスクに対応可能であることを示した。

    Link: https://arxiv.org/abs/2511.19004

  • MODEST:多焦点距離・絞り値によるステレオ深度データセット [cs.HC, cs.CY, cs.DB, cs.IR, cs.CV, cs.AI, cs.LG, eess.IV]目的:実光学的条件下における信頼性の高い深度推定の実現
    • 自動運転や拡張現実など,カメラビジョンの応用が拡大しており,正確な深度推定が不可欠である。
    • 大規模かつ高精度な実写ステレオDSLRデータセットが不足しており,実世界への汎化性能が課題となっている。
    • 実光学的条件と複雑なシーンを捉えたデータセットを提供し,汎化性能の向上を目指す。
    • 本研究では,5472×3648pxの高解像度ステレオ画像18000枚を含むデータセットを構築した。
    • 焦点距離と絞りを系統的に変化させ,多様なシーンと光環境下で撮影を行った。
    • このデータセットは,深度推定,被写界深度レンダリング,3D再構成などの研究を支援し,既存手法の課題を明らかにした。

    Link: https://arxiv.org/abs/2511.20853

  • TAPVid-360:狭視野映像からの360度全方位追跡 [cs.CV]目的:狭視野映像からの360度全方位における点追跡
    • 人間は周囲の状況を理解する能力に優れるが,既存のAIは断片的な理解に留まる。
    • 従来の追跡手法では,視野外の点追跡が困難であり,場面理解の限界がある。
    • 狭視野映像からでも,360度全方位の点を追跡可能にする手法を確立すること。
    • TAPVid-360タスクを新たに提案し,360度全方位の点追跡を評価するデータセット(TAPVid360-10k)を構築した。
    • CoTracker v3をベースラインとして適用し,既存のTAPやTAPVid 3D手法よりも優れた性能を達成した。
    • 動的な4Dシーンモデルのグランドトゥルースを用いず,360度動画から狭視野映像を生成することで学習を可能にした。

    Link: https://arxiv.org/abs/2511.21946

  • EfficientFlow:具現化されたAIのための効率的な等変フローポリシー学習 [cs.CL, cs.CL, cs.RO, cs.AI, cs.CV, cs.LG]目的:具現化されたAIにおける効率的なフローベースポリシー学習の枠組み
    • ロボット工学やAIにおいて,視覚と運動を統合した制御は,多様なタスクの実現に不可欠である。
    • 既存の生成ポリシーは,大量のデータや遅い行動生成速度という課題を抱えていた。
    • データ効率とサンプリング効率を向上させ,高性能な具現化AIを実現することを目指す。
    • 提案手法EfficientFlowは,フローベースのポリシー学習に等変性を導入することで,データ効率を向上させた。
    • 等変性を持つ速度予測ネットワークを用いることで,行動分布の等変性が理論的に保証され,汎化性能が向上した。
    • 新しい加速正則化戦略により,推論速度を大幅に向上させ,様々なロボット操作ベンチマークで優れた性能を示した。

    Link: https://arxiv.org/abs/2512.02020

  • dots.ocr:単一の視覚言語モデルにおける多言語文書レイアウト解析 [cs.CV]目的:多言語文書レイアウト解析の実現
    • 文書は構造化された知識の重要な貯蔵庫であり,AIによる活用が不可欠である。
    • 既存手法は,段階的な処理パイプラインに依存し,誤り伝播や共同学習の欠如が課題である。
    • 単一のモデルでレイアウト解析,テキスト認識,関係性の理解を統合的に解決する。
    • dots.ocrは,3つの主要タスクを統合的に学習する初の視覚言語モデルである。
    • 大規模な多言語コーパスを用いて学習することで,多様な言語・レイアウト・ドメインに対応した堅牢な性能を実現した。
    • OmniDocBenchおよびXDocParseにおいて,最先端の性能を示し,特にXDocParseでは競合他社を7.4ポイント上回る結果となった。

    Link: https://arxiv.org/abs/2512.02498

  • PoreTrack3D:ポーアスケール顔面軌跡追跡のための動的3Dガウススプラッティングのベンチマーク [cs.CL, cs.CV]目的:ポーアスケールにおける動的3Dガウススプラッティングの評価
    • 顔面表情認識技術は,人間と機械の自然なコミュニケーションに不可欠である。
    • 微細な皮膚表面の動きを捉えた高精度な顔面軌跡データセットは存在しなかった。
    • 本研究は,ポーアスケールでの顔面軌跡追跡における評価基準を確立することを目指す。
    • PoreTrack3Dは,44万件以上の顔面軌跡を含む初のベンチマークデータセットである。
    • このデータセットは,従来の顔面ランドマークとポーアスケールキーポイントの両方の軌跡を捉えている。
    • 最先端の動的3Dガウススプラッティング手法の性能評価を行い,新たなベースラインを確立した。

    Link: https://arxiv.org/abs/2512.02648

  • パッチから領域への関連性伝播による空間的根拠に基づいた文書検索 [cs.CV, cs.IR]目的:文書検索における空間的根拠の活用
    • 近年,文書検索においてマルチモーダルな手法が注目されており,画像とテキストを統合することで検索精度向上が期待されている。
    • 既存手法では,文書全体を返すため,検索拡張生成(RAG)のような,より正確な文脈が必要な場面では情報が粗すぎるという課題がある。
    • OCR技術で抽出した領域に対して,視覚的な関連性に基づいてフィルタリングを行い,より適切な文脈を効率的に抽出することを目指す。
    • 提案手法は,BBox-DocVQAデータセットにおいて,正解のページが検索された場合,IoU@0.5で59.7%のヒット率を達成した(IoU@0.25では84.4%,IoU@0.7では35.8%)。
    • ランダムな領域選択と比較して,文脈として使用するトークン数を28.8%削減し,ページ全体を返す場合と比較して52.3%削減できた。
    • 本手法は追加の学習を行わずに推論時に動作し,実装はSnappyとして公開されている。

    Link: https://arxiv.org/abs/2512.02660

  • VLM-Pruner:効率的なVLM遠心トークンプルーニングにおける空間的疎性のためのバッファリング [eess.SY, cs.SY, cs.CV, cs.LG]目的:ビジョン言語モデルにおける計算コスト削減のためのトークンプルーニング手法
    • ビジョン言語モデルは画像理解に優れるが,計算コストが高く,モバイル環境での利用が課題。
    • 既存のプルーニング手法はトークンの重要度のみに着目し,トークン間の冗長性を考慮していない場合が多い。
    • 空間的な関係性を考慮し,冗長性と疎性を両立するプルーニング手法を提案し,性能劣化を抑制する。
    • VLM-Prunerは,5つのVLMで88.9%のプルーニング率を達成し,既存手法を上回る性能を示す。
    • 遠心トークンプルーニングにより,詳細なオブジェクト情報の維持と効率的なトークン選択を実現する。
    • BSS基準により,空間的に離れたトークンの選択を遅延させ,空間的疎性を高める。

    Link: https://arxiv.org/abs/2512.02700

  • 複合動画検索のための階層的確信度を考慮した曖昧性解消ネットワーク [cs.CV, cs.MM]目的:複合動画検索における,参照動画と修正テキストから目的の動画を検索する処理の改善
    • 動画検索は,情報検索の重要な分野であり,コンテンツへのアクセス手段として不可欠である。
    • 既存手法では,動画とテキストの情報の密度差が考慮されておらず,検索精度が低下する原因となっていた。
    • 動画とテキストの情報の密度差を活かすことで,曖昧性解消と詳細な意味への集中を実現し,検索精度を向上させる。
    • 提案手法(HUD)は,動画とテキストの情報を階層的に解析し,曖昧な主語を解消することで,より的確な特徴学習を可能にする。
    • HUDは,動画とテキストの重複する意味を捉え,詳細な意味を正確に捉えることで,複合動画検索の性能を向上させる。
    • 本手法は,複合画像検索にも適用可能であり,両タスクにおいて最先端の結果を達成した。

    Link: https://arxiv.org/abs/2512.02792

  • 赤外線微小目標検出のための差分解ネットワーク [cs.CV]目的:赤外線微小目標検出における性能向上
    • 赤外線微小目標検出は,監視,セキュリティなど様々な分野で重要な役割を担っている。
    • 微小目標はテクスチャが不明瞭で背景との区別が難しく,誤検出が多いという課題がある。
    • 本研究は,背景のノイズを抑制し,目標を強調することで,検出精度を向上させることを目指す。
    • 提案手法では,基底分解モジュールを用いて特徴量を分解し,冗長性を排除することで,目標を効果的に強調した。
    • シングルフレームの赤外線微小目標検出において,既存のネットワークと比較して良好な性能を示した。
    • マルチフレームの赤外線微小目標検出では,mIoU 87.68%を達成し,既存手法を上回る性能を実証した。

    Link: https://arxiv.org/abs/2512.03470

  • MSG-Loc:オブジェクトレベルのグローバルlocalizationのための多ラベル尤度ベースのセマンティックグラフマッチング [cs.RO, cs.CV]目的:オブジェクトレベルのグローバルlocalizationにおけるセマンティックグラフマッチング
    • ロボットが未知の環境で活動する上で,自己位置推定は不可欠な技術である。
    • セマンティックオブジェクトを用いたlocalizationでは,曖昧な意味表現が誤認識や誤った連想を引き起こしやすい。
    • セマンティックコンテキストを活用し,より高精度な自己位置推定を実現すること。
    • 本研究では,多ラベルグラフ表現を用いることで,オブジェクト観測のセマンティックコンテキストを捉え,グラフ間の対応を高める手法を提案。
    • 尤度伝播により,各ノードの尤度と近傍ノードの最大尤度を組み合わせ,セマンティック対応を強化。
    • 実環境および合成環境における実験により,大規模なオブジェクトカテゴリに対するスケーラビリティと有効性が検証された。

    Link: https://arxiv.org/abs/2512.03522

  • BlurDM:画像鮮明化のためのブラー拡散モデル [cs.RO, cs.CV, cs.AI]目的:画像鮮明化のためのブラー拡散モデルの開発
    • 画像処理において,鮮明な画像を得ることは,視覚情報の正確な理解に不可欠である。
    • 従来の画像鮮明化手法は,ブラーの発生メカニズムを十分に考慮していない場合がある。
    • 拡散モデルにブラー生成過程を組み込み,より効果的な画像鮮明化を実現する。
    • 提案手法BlurDMは,拡散モデルにブラー生成過程を統合することで,鮮明化性能を向上させている。
    • ブラーとノイズを同時に拡散させる二重拡散スキームと,それに対応する逆生成過程を導入している。
    • 複数のベンチマークデータセットにおいて,既存の鮮明化手法と比較して,BlurDMが著しい性能向上を示した。

    Link: https://arxiv.org/abs/2512.03979

  • 分離された潜在画像表現における群作用の学習 [cs.CV]目的:潜在画像表現における群作用の学習
    • 高次元画像データの制御可能な変換には,潜在表現上での群作用のモデリングが不可欠である。
    • 既存手法では,群作用が入力全体に一様に適用され,変換に伴って変化する部分の分離が困難であった。
    • 本研究は,手動による介入なしに,潜在画像多様体上で群作用を自動的に学習することを目的とする。
    • 学習可能な二値マスクを用いて,潜在表現を変換感受性成分と不変成分に動的に分割する。
    • 潜在的な分離と群変換マッピングを同時に学習する統合された最適化フレームワークを提案する。
    • 提案手法は,多様なデータセットで群作用のための分離された潜在的要素を自動的に学習できることを示した。

    Link: https://arxiv.org/abs/2512.04015

  • EMMA:統一されたアーキテクチャによる効率的なマルチモーダル理解,生成,編集 [cs.CV]目的:マルチモーダル理解,生成,編集のための効率的かつ統一されたアーキテクチャ
    • 画像とテキストなど,複数の種類の情報を組み合わせて処理する技術は,AIの応用範囲を広げる上で重要である。
    • 既存のマルチモーダルモデルは,計算コストが高く,効率性に課題がある場合が多い。
    • 計算効率を向上させつつ,マルチモーダルなタスクにおける性能を両立させることを目指す。
    • EMMAは,32倍の圧縮率を持つ効率的なオートエンコーダを用いることで,生成に必要なトークン数を大幅に削減した。
    • チャンネルごとの連結と,専門家混合メカニズムにより,効率性と知覚能力を向上させた。
    • 実験の結果,EMMA-4Bは,既存の最先端モデルと比較して,効率性と性能の両方で優れていることが示された。

    Link: https://arxiv.org/abs/2512.04810

  • Light-X:カメラと照明制御による生成4Dビデオレンダリング [cs.CV]目的:カメラと照明を制御した4Dビデオレンダリングのためのフレームワーク
    • リアルな映像生成において,幾何学構造と照明の制御は不可欠であり,高度な映像表現を可能にする。
    • 照明の忠実性と時間的一貫性を両立させることは依然として課題であり,生成モデルの発展を阻害する。
    • カメラ軌跡と照明を同時に制御することで,より自然で動的な映像生成を目指す。
    • Light-Xは,動的な点群と再照明フレームを組み合わせることで,幾何学構造と照明を分離し,高品質な照明制御を実現する。
    • 既存の単眼映像から多視点・多照明の訓練データを合成するLight-Synパイプラインを導入し,ロバストな学習を可能にした。
    • 実験の結果,Light-Xはカメラと照明の同時制御において既存手法を上回り,テキストや背景条件に基づくビデオ再照明においても優れた性能を示した。

    Link: https://arxiv.org/abs/2512.05115

  • レンダリングの審美性を評価するためのデータセット [cs.CV]目的:レンダリングの審美性評価のためのデータセット
    • 写真編集,コンテンツ制作,AI生成画像など,視覚表現の重要性が増す現代において,画質評価の新たな側面が求められている。
    • 従来の画質評価は技術的な劣化に焦点を当てており,主観的な審美性の評価は十分に行われていない。
    • 人間の審美性を反映したデータセットを構築し,レンダリングの審美性評価モデルの開発と評価を可能にすること。
    • 大規模なクラウドソーシングにより,画像ペアに対する人間の審美的な好みの評価を収集したデータセットDEARを構築した。
    • DEARは,従来の歪みベースの画質評価を超え,レンダリングの審美性評価に焦点を当てたモデルの開発を促進する。
    • データ収集パイプラインの説明,人間の投票パターンの分析,スタイル選好予測などの応用例を提示した。

    Link: https://arxiv.org/abs/2512.05209

  • RefBench-PRO:参照表現理解のための知覚と推論指向型ベンチマーク [cs.CV, cs.AI]目的:参照表現理解の評価
    • 画像とテキストの理解は,AIのマルチモーダルな能力において重要である。
    • 既存のベンチマークは知覚能力に偏っており,推論能力の評価が不十分である。
    • 知覚と推論の側面から評価可能な,より包括的なベンチマークの構築。
    • RefBench-PROは,参照表現を知覚と推論の二つの次元に分解し,6つの段階的なタスクに分類する。
    • 自動データ生成パイプラインにより,多様な参照表現を生成できる。
    • Ref-R1という強化学習スキームを提案し,複雑な推論条件下での定位精度を向上させた。

    Link: https://arxiv.org/abs/2512.06276

  • 音声LLMにおける選択的聴取を通じた傍聴者のプライバシー保護 [cs.SD, cs.AI]目的:音声LLMにおける傍聴者のプライバシー保護
    • 音声LLMの利用拡大に伴い,プライバシー保護の重要性が増している。
    • 既存の評価指標や防御策では,意図しない傍聴者の音声によるリスクに対応できていない。
    • 傍聴者の音声を認識・漏洩しない選択的聴取能力を評価・改善する。
    • SH-Benchという,選択的聴取能力を評価するための新たなベンチマークを開発した。
    • Selective Efficacy (SE)という,多話者理解と傍聴者プライバシー保護を評価する指標を提案した。
    • BPFTというファインチューニング手法により,傍聴者関連の質問への回答を拒否しつつ,主要な話者の理解力を維持することができた。

    Link: https://arxiv.org/abs/2512.06380

  • VDOT:最適輸送蒸留による効率的な統一ビデオ生成 [cs.RO, cs.CV]目的:効率的な統一ビデオ生成モデルの開発
    • 生成モデルの急速な発展により,画像・動画処理技術が飛躍的に向上している。
    • 既存の動画生成モデルは,特定の条件に限定されるか,生成に時間がかかるという課題がある。
    • 少ないステップで高品質な動画を生成する効率性と安定性の向上を目指す。
    • 提案手法VDOTは,最適輸送距離を用いた蒸留により,KL最小化の課題を克服し,生成効率と安定性を高める。
    • 実動画データの認識能力を高める識別器を統合することで,生成動画の品質を向上させている。
    • 実験の結果,4ステップのVDOTは,100ステップの従来手法と同等以上の性能を示す。

    Link: https://arxiv.org/abs/2512.06802

  • CHIMERA:モルフィング指向メトリクスを用いたゼロショット画像モルフィングのための適応的キャッシュ注入と意味的アンカープロンプティング [cs.CV]目的:拡散モデルを用いたゼロショット画像モルフィング手法
    • 画像生成技術の発展は,画像編集やコンテンツ制作に新たな可能性をもたらす。
    • 既存手法では,滑らかさや意味的一貫性を保った画像モルフィングが困難である。
    • 構造と意味の適応的なアライメントにより,自然な画像モルフィングを実現する。
    • CHIMERAは,キャッシュ化された反転とノイズ除去を組み合わせることで,スムーズな画像モルフィングを実現した。
    • 適応的キャッシュ注入と意味的アンカープロンプティングにより,空間的・意味的なアライメントを強化した。
    • 提案手法は,既存手法と比較して,より滑らかで意味的に整合性の高いモルフィング遷移を実現した。

    Link: https://arxiv.org/abs/2512.07155

  • ハイブリッドスプラット:ハイブリッドスプラッティングによる高速反射ベイク Gaussian トレーシング [cs.CV]目的:3D Gaussian スプラッティングを用いたリアルな新規視点合成における複雑な反射のレンダリング高速化
    • 現実世界のシーンを忠実に再現するためには,高品質な反射表現が不可欠である。
    • 従来の3D Gaussian スプラッティングは,レンダリング速度とメモリ使用量に課題があった。
    • 反射を Gaussian 内部にベイクすることで,高速かつ効率的なレンダリングを実現する。
    • 提案手法HybridSplatは,複雑な反射シーンにおいてレンダリング速度を約7倍に向上させた。
    • 類似のレイトレーシングベース手法と比較して,Gaussianプリミティブ数を4分の1に削減した。
    • ハイブリッドスプラッティングとパイプラインレベルの最適化により,高速化と省メモリ化を両立した。

    Link: https://arxiv.org/abs/2512.08334

  • DFALLM:オーディオLLMコンポーネントの最適化による汎化可能なマルチタスクディープフェイク検出の実現 [cs.SD]目的:汎化可能なマルチタスクディープフェイク検出手法
    • セキュリティと信頼性確保の観点から,オーディオディープフェイク検出の重要性が高まっている。
    • 従来の深層学習手法は,新たな偽装技術やタスクに対して汎化性能が低いという課題があった。
    • オーディオLLMの潜在能力を引き出し,未知の偽装やタスクに対応できるモデルを開発する。
    • オーディオエンコーダーとテキストLLMの適切な選択と組み合わせが,ディープフェイク検出性能の鍵となることが示された。
    • 提案モデルは,ASVSpoof2019,InTheWild,Demopage等のデータセットにおいて最先端の性能(平均精度95.76%)を達成した。
    • また,偽装位置の特定や属性認識といった他のディープフェイク検出タスクにおいても,高い競争力を持つことが確認された。

    Link: https://arxiv.org/abs/2512.08403

  • Repulsor: コントラスト記憶バンクを用いた生成モデリングの高速化 [cs.CV]目的:生成モデリングの高速化と表現学習の効率化
    • 画像生成において,拡散モデルやフローマッチングなどのノイズ除去型生成モデルが優位性を示している。
    • これらのモデルは学習コストが高く,表現学習の効率が課題となっている。
    • 外部エンコーダーに依存しない,自己完結型の学習フレームワークを提案し,学習速度を向上させる。
    • 提案手法Repulsorは,外部エンコーダーを必要とせず,学習過程で動的に更新されるコントラスト記憶バンクを利用する。
    • これにより,ミニバッチサイズに依存せず,質の高い負例を効率的に活用し,高速な収束を実現する。
    • ImageNet-256において,400kステップでFID 2.40を達成し,既存手法を大きく上回る性能を示す。

    Link: https://arxiv.org/abs/2512.08648

  • UAV画像セグメンテーションのための高速回転不変畳み込み [cs.CV, cs.RO]目的:UAV画像における対象物のセグメンテーション精度向上
    • UAV画像は多様な角度で対象物を捉えるため,回転不変性が重要となる。
    • 従来の畳み込み演算は回転に対して弱く,セグメンテーション精度が低下する問題がある。
    • 回転不変性を効率的に実現し,計算コストとメモリ使用量の増大を抑制すること。
    • 提案手法は,従来のCUDNNと比較して,学習速度が20~55%向上し,エネルギー消費量が15~45%削減された。
    • 特に256x256画像では最大45%の高速化,41%の省電力効果が確認された。1024x1024画像でも同様の効果が見られた。
    • U-Netに統合した結果,回転を考慮しないベースラインと比較して,精度が最大6%向上した。

    Link: https://arxiv.org/abs/2512.08888

  • Astra:自己回帰的ノイズ除去による汎用インタラクティブ世界モデル [cs.CV, cs.AI, cs.LG]目的:長期的未来予測を可能にする汎用的な世界モデルの構築
    • 現実世界の複雑な状況を理解し,予測することは,ロボット工学や自動運転などの応用において重要である。
    • 既存の世界モデルは,多様なシナリオや行動形式に対応する長期的予測能力に課題があった。
    • 過去の観測と行動から未来を予測し,様々なインタラクションをサポートする汎用モデルを開発すること。
    • Astraは,自己回帰的ノイズ除去アーキテクチャと時間的因果注意機構を用いることで,一貫性のある長期的ビデオ予測を実現した。
    • ノイズを付加した履歴メモリと行動認識アダプタにより,応答性と時間的整合性を両立し,多様な行動に対応できる。
    • 複数のデータセットにおける実験で,Astraが既存モデルを上回る忠実度,長距離予測,行動整合性を示すことが確認された。

    Link: https://arxiv.org/abs/2512.08931

  • 潜在的フローマッチングによる縦断的画像生成のための患者特有の疾患動態の学習 [cs.CV, cs.AI]目的:縦断的画像から患者特有の疾患動態を学習すること
    • 疾患の進行理解は,早期診断や個別化治療に不可欠であり,臨床上重要な課題である。
    • 潜在表現が散在し,意味構造に乏しいこと,および拡散モデルが連続性を損なうことが問題点である。
    • 患者特有の潜在的アライメントを学習し,疾患の重症度と相関する一貫性のある潜在空間を構築すること。
    • 提案手法$\Delta$-LFMは,疾患の動態を捉え,より解釈可能な進行を可能にする。
    • $\Delta$-LFMは,3つの縦断的MRIベンチマークにおいて,優れた実証的な性能を示した。
    • この手法は,疾患動態の解釈と可視化のための新たな枠組みを提供する。

    Link: https://arxiv.org/abs/2512.09185

  • TextGuider:注意アライメントによるテキストレンダリングのための学習不要ガイダンス [cs.CV]目的:正確かつ完全なテキスト外観の実現
    • 拡散モデルによる画像生成技術は進歩しているが,テキストの正確なレンダリングは依然として課題である。
    • 既存手法ではテキストの省略という問題が残されており,その解決が求められている。
    • テキストの内容と画像内のテキスト領域のアライメントにより,テキスト省略問題を改善すること。
    • TextGuiderは,MM-DiTモデルの注意パターンを分析し,学習不要でテキストレンダリングの性能を向上させる。
    • 提案手法は,再現率の大幅な向上,およびOCR精度,CLIPスコアの改善を実現し,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2512.09350

  • 心エコー動画データセット蒸留のためのグラフベースアプローチ:InfoMotion [cs.CV]目的:心エコー動画データセットの効率的な蒸留
    • 心エコーは心血管疾患の診断とモニタリングに不可欠であり,非侵襲的なリアルタイム評価を提供。
    • 心エコー動画データの規模拡大は,保存,計算,モデル学習効率に課題をもたらす。
    • 大規模データセットを保持しつつ,効率的な学習を可能とするコンパクトなデータセットの構築。
    • 提案手法InfoMotionは,運動特徴抽出とグラフ構造に基づく代表サンプル選択により,高精度な蒸留を実現。
    • EchoNet-Dynamicデータセットを用いた評価で,わずか25本の合成動画で69.38%のテスト精度を達成。
    • 本研究は,医療動画データセット蒸留における有効性とスケーラビリティを示す。

    Link: https://arxiv.org/abs/2512.09422

  • MR-FlowDPO:フローマッチングによるテキストから音楽生成のためのマルチ報酬直接選好最適化 [cs.SD]目的:テキストから音楽への生成における音楽品質の向上
    • 音楽生成は,人間の主観的な好みに左右されやすく,高品質な音楽生成が課題である。
    • 既存の音楽生成モデルは,人間の選好と直接的な整合性が欠けている場合が多い。
    • 複数の報酬を用いて直接選好最適化を行うことで,音楽生成の品質と人間の好みの整合性を高める。
    • MR-FlowDPOは,テキストとの関連性,音響品質,意味の一貫性という3つの側面から音楽品質を評価する報酬を導入した。
    • 提案手法は,客観的指標と人間による評価の両方において,既存の基盤モデルと比較して優れた音楽生成品質を示した。
    • セマンティック自己教師あり表現を活用した新規スコアリングメカニズムにより,生成される音楽のリズム安定性が大幅に向上した。

    Link: https://arxiv.org/abs/2512.10264

  • MotionEdit:モーション中心画像編集のベンチマークと学習 [cs.CV, cs.AI, cs.CL]目的:モーション中心画像編集のためのデータセットと評価基準
    • 画像編集技術は,コンテンツ制作や視覚効果において重要な役割を担う。
    • 既存の画像編集データセットは,モーションの変化に対応できず,品質も十分ではない。
    • モーションを忠実に再現しつつ,より自然な画像編集を実現することを目指す。
    • 本研究では,モーション中心画像編集に特化したデータセットMotionEditを開発した。
    • 既存の拡散モデルを用いたベンチマークテストの結果,モーション編集は依然として困難であることが示された。
    • MotionNFTという後処理フレームワークにより,編集品質とモーションの忠実性が向上することが確認された。

    Link: https://arxiv.org/abs/2512.10284

  • エンドツーエンド運転のための効率的かつ効果的なマルチカメラエンコーディング [cs.CV]目的:マルチカメラデータの効率的エンコーディング手法
    • 自動運転システムの高性能化には,周囲環境の正確かつ迅速な認識が不可欠である。
    • 複数のカメラからの大量の画像データを処理する際の計算コストが課題となっている。
    • データ駆動型のアプローチにより,計算効率を向上させ,性能を改善すること。
    • 提案手法Flexは,従来の最先端手法と比較して,推論処理速度を2.2倍向上させた。
    • 運転性能も大幅に改善され,3D事前知識に依存しないデータ駆動型エンコーディングの有効性が示された。
    • シーンの構成要素を明示的な指示なしに学習し,自己分解能力が確認された。

    Link: https://arxiv.org/abs/2512.10947

  • 全身VLA:全身運動操作制御のための統一された潜在VLAへ [cs.RO, cs.AI, cs.CV]目的:全身運動と器用な操作を組み合わせた,人間型ロボットの運動操作制御
    • 人間型ロボットの発展には,複雑な環境での作業能力が不可欠であり,その鍵となるのが運動と操作の連携である。
    • 既存手法では,操作を考慮した運動制御が難しく,ロボットの活動範囲が制限され,大規模な空間での作業が困難である。
    • 人間による遠隔操作データの不足と,既存の強化学習コントローラーの精度・安定性の限界を克服し,ロボットの作業能力を向上させる。
    • 提案手法WholeBodyVLAは,低コストな自己中心的動画から学習する統一された潜在学習フレームワークを用いて,より豊富な運動操作知識を獲得する。
    • また,効率的なデータ収集パイプラインを開発し,データセットを拡張することで,その効果を拡大している。
    • 実験の結果,WholeBodyVLAは既存手法を21.3%上回り,大規模空間での人間型ロボットの運動操作制御を実現し,高い汎化性能と拡張性を示した。

    Link: https://arxiv.org/abs/2512.11047

  • 自己改善型拡散モデル:確率的サンプリング経路における反射的洗練による自己回帰型動画拡散モデルの改善 [cs.CV]目的:自己回帰型動画拡散モデルのサンプル品質向上
    • 動画生成分野において,双方向型モデルに代わるスケーラブルな手法として注目されている。
    • 自己回帰型モデルは,サンプル品質の改善の余地が残されている。
    • 推論時のノイズ空間最適化によるサンプル品質向上を目指す。
    • AutoRefinerは,自己回帰型動画拡散モデルの効率的なプラグインとして機能し,確率的ノイズ除去経路に沿ったノイズの洗練を通じてサンプル品質を効果的に向上させる。
    • テキスト画像生成におけるノイズリファイナーの考え方を自己回帰型動画拡散モデルへ拡張する際の課題を特定し,AutoRefinerを提案した。
    • 経路に沿ったノイズ洗練と反射的KVキャッシュという二つの主要な設計を取り入れた。

    Link: https://arxiv.org/abs/2512.11203

  • 少ないショット数での行動認識のためのタスク固有距離相関マッチング [cs.CL, cs.DC, cs.CV]目的:少ないショット数での行動認識における性能向上
    • 行動認識は,ロボット工学や人間とコンピュータのインタラクションなど,幅広い分野で重要である。
    • 既存手法では,非線形な関係やタスク固有の情報を捉えきれない場合がある。
    • タスク固有の情報を活用し,非線形な関係も考慮したマッチング手法を提案する。
    • 提案手法TS-FSARは,Ladder Side Networkを用いてCLIPを効率的にファインチューニングする。
    • TS-DCMという新しい距離相関マッチング指標により,線形および非線形なフレーム間依存性をモデル化する。
    • GLACモジュールにより,LSNの学習を正則化し,限られたデータ下でのα距離相関推定を改善する。

    Link: https://arxiv.org/abs/2512.11340

  • YawDD+: 正確なあくび予測のためのフレームレベル注釈 [cs.CV]目的:運転者の疲労状態の早期指標であるあくびの正確な予測
    • 運転者の疲労は交通事故の主要な原因であり,安全運転の確保が重要である。
    • 既存の機械学習アプローチは,粗い時間的注釈によるデータセットのノイズに課題を抱えている。
    • フレームレベルの注釈によるデータセットを構築し,より高精度なモデル学習を可能にすること。
    • YawDD+を用いた学習により,フレーム精度が最大6%向上し,mAPが5%向上した。
    • 分類精度は99.34%,検出mAPは95.69%を達成し,高い性能を示した。
    • 本アプローチは,エッジAIハードウェア(NVIDIA Jetson Nano)上で最大59.8 FPSを実現し,サーバ側計算なしでデバイス上でのあくび監視が可能である。

    Link: https://arxiv.org/abs/2512.11446

  • PET画像における両側ガイド決定論的拡散モデルによるタウ異常検出 [eess.IV, cs.CV]目的:PET画像におけるタウ異常検出手法の開発
    • アルツハイマー病研究において,タウ病理のin vivo評価は疾患進行理解に不可欠である。
    • 既存手法は広範囲の皮質領域に焦点を当て,個人差のある局所的なタウ病理検出が課題である。
    • 個人脳構造と健常者テンプレートを用いて,voxelレベルでの異常マップ算出を試みる。
    • 提案手法は,局所的なタウ異常検出において既存手法よりも優れた性能を示した。
    • 前臨床段階の被験者を認知機能別に分類することに成功し,早期スクリーニングへの応用が期待される。
    • ADNIデータとA4臨床試験データを用いた評価により,有効性が確認された。

    Link: https://arxiv.org/abs/2405.13199