arXiv雑要約

画像・音声 - 2026/03/02 公開

  • GenVidBench:AI生成動画検出のための600万規模ベンチマーク [cs.CV]目的:AI生成動画検出の性能評価とモデル開発
    • 動画生成技術の急速な発展に伴い,偽情報拡散のリスクが高まっている。
    • AI生成動画と実動画の識別が困難であり,高精度な検出器が求められている。
    • 大規模かつ高品質な,生成動画検出に特化したデータセットの不足を解消する。
    • GenVidBenchは,678万本の動画を含む,現時点で最大のAI生成動画検出データセットである。
    • 多様な生成元と動画生成モデルを網羅することで,汎化性能の高い検出モデルの開発を支援する。
    • 最先端の動画分類モデルを用いた実験により,データセットの有効性が示された。

    Link: https://arxiv.org/abs/2501.11340

  • マルチ光源の色定数性:マルチスケール光源推定と融合による手法 [cs.CV, eess.IV]目的:画像内の局所的な色かぶりを除去するための,マルチスケール光源推定と融合による手法
    • 画像処理において,自然な色再現は重要であり,色定数性はそれを実現する基礎技術である。
    • 既存手法は,画像スケールの影響を無視した,画像と照明マップ間の直接的なマッピングに依存している。
    • マルチスケール画像から推定された複数の照明分布マップを融合し,色定数性の精度向上を目指す。
    • 提案手法では,マルチスケール画像から推定された照明マップを,線形結合として表現することで,スケール依存性の問題を軽減している。
    • マルチスケール画像から多粒度の照明分布マップを推定するために,三分岐畳み込みネットワークが提案されている。
    • 推定された照明マップは,注意機構を用いた照明融合モジュールにより適応的に統合され,最新技術を上回る性能を達成している。

    Link: https://arxiv.org/abs/2502.02021

  • 生成コンテンツの堅牢なウォーターマーク:ばらばらにするアプローチ [cs.CV, cs.AI]目的:生成コンテンツの検出と生成者の特定
    • 生成モデルの急速な発展に伴い,生成物と実物の区別が困難になっている。
    • 生成モデルの利用における著作権侵害や権利主張の問題が生じている。
    • 生成コンテンツにウォーターマークを埋め込み,不正利用を防ぐことを目指す。
    • 提案手法は,モデルの再学習を必要とせず,推論時にウォーターマークを埋め込む。
    • 埋め込まれたウォーターマークは,特定の範囲内の摂動に対して堅牢であることが証明された。
    • 拡散モデルへの適用実験で,既存のウォーターマーク方式と同等の堅牢性が確認された。

    Link: https://arxiv.org/abs/2502.07845

  • JiSAM:最小限の実世界データによる自動運転におけるラベル付け負担とコーナーケース問題の緩和 [cs.CV]目的:自動運転におけるLiDAR認識の性能向上
    • 安全で環境に優しい輸送手段として,深層学習に基づく自動運転技術の重要性が高まっている。
    • LiDAR認識において,実世界のラベル付きデータへの過度な依存が,実証実験の規模を制限している。
    • シミュレーションデータと実世界のデータのギャップを埋め,効率的な学習を実現することで問題を解決する。
    • 提案手法JiSAMは,CARLA等のシミュレータで生成したデータと,実世界のわずか2.5%のラベルデータを用いて,実データ全体で学習した場合と同等の性能を達成した。
    • 実データにラベルがない対象物に対して,15%以上のmAP(平均適合率)向上を達成した。
    • JiSAMは,既存の3D物体検出器に容易に組み込むことができるプラグアンドプレイ型の手法である。

    Link: https://arxiv.org/abs/2503.08422

  • ランダム並列デコーディングを用いた自己回帰画像生成 [cs.CV]目的:自己回帰画像生成におけるランダム並列デコーディングの実現
    • 画像生成は,現実世界の表現を再現する上で重要な課題である。
    • 従来のラスター順のアプローチでは,推論効率とゼロショット汎化性能に限界がある。
    • ランダムな生成順序を実現し,推論速度の向上とメモリ消費量の削減を目指す。
    • ARPGは,従来の自己回帰モデルと比較して,30倍以上の推論速度向上と75%のメモリ消費量削減をImageNet-1K 256ベンチマークで達成した。
    • ARPGは,画像補完,外挿,解像度拡張といったゼロショットタスクへの汎化性能に優れている。
    • 位置情報ガイダンスとコンテンツ表現を分離したデコーディングフレームワークにより,完全にランダムな順序での学習と生成が可能となった。

    Link: https://arxiv.org/abs/2503.10568

  • 自動運転のためのリアルな3Dセマンティック学習データ生成に向けて [cs.NI, eess.SP, cs.CV]目的:自動運転における3Dセマンティックセグメンテーションの性能向上
    • ロボティクスやコンピュータビジョンにおいて,セマンティックなシーン理解は不可欠である。
    • 3Dデータの収集とアノテーションには多大なコストと労力がかかるという課題がある。
    • シミュレーションデータと実データの間のドメインギャップを埋め,高精度な学習データ生成を目指す。
    • 提案手法は,投影やデカップリングされた多解像度モデルを使用せず,3Dセマンティックシーンデータを生成する。
    • 生成されたデータは既存手法と比較して,よりリアルなセマンティックシーン表現を可能にする。
    • 合成データと実データを組み合わせた学習により,セマンティックセグメンテーションモデルの性能が向上する。

    Link: https://arxiv.org/abs/2503.21449

  • 自己中心的行動認識のための欠損モダリティにロバストな多岐にわたる知識蒸留 [cs.CV]目的:自己中心的行動認識における欠損モダリティへのロバスト性
    • ロボットとのインタラクションやタスクの進捗監視に不可欠であり,より自然な連携を実現する。
    • 既存手法は全てのモダリティの利用を前提としており,欠損時には性能が著しく低下する。
    • 欠損モダリティが存在しても,精度を維持できるロバストな認識手法を開発する。
    • 提案手法KARMMAは,多岐にわたる知識蒸留により,欠損モダリティに強い行動認識モデルを構築する。
    • KARMMAは,モダリティ間のアライメントを必要とせず,多様なセンサ構成に対応可能である。
    • 実験結果から,KARMMAは高い精度を維持しつつ,欠損モダリティ時の性能劣化を大幅に抑制することが示された。

    Link: https://arxiv.org/abs/2504.08578

  • ゼロショット立体マッチングのための良好な合成学習データとは何か? [cs.CL, cs.CV]目的:ゼロショット立体マッチング性能に影響を与える合成データセットの設計要素の特定
    • 立体マッチングは,自動運転やロボット工学など多くの分野で重要な役割を担う技術である。
    • 合成データセットの質が,学習済みモデルの汎化性能に大きく影響するが,その具体的な要因は不明である。
    • 手続き型データセット生成器のパラメータを調整し,最適な合成データセットを構築することを目指す。
    • 手続き型データセット生成器のパラメータを変更し,その影響を評価した結果,特定のパラメータ設定がゼロショット立体マッチング性能を向上させることを明らかにした。
    • 提案手法で生成されたデータセットのみで学習したモデルは,既存の複数のデータセットを混合して学習した場合と同等以上の性能を示した。
    • 本研究で利用したシステムとパラメータ分析を公開することで,手続き型立体データセットに関するさらなる研究を促進する。

    Link: https://arxiv.org/abs/2504.16930

  • 衛星画像時系列データへのグラフの利用について [cs.CV]目的:衛星画像時系列データ分析のためのグラフベースパイプライン
    • 地球表面的変化の把握は重要であり,衛星画像は広範囲かつ継続的なモニタリングを可能とする。
    • 従来の解析手法では,大規模かつ複雑な衛星画像時系列データの処理に課題があった。
    • グラフベースの手法を用いて,衛星画像時系列データの空間的・時間的相互作用をモデル化し,解析精度向上を目指す。
    • 本研究では,衛星画像時系列データから空間的・時間的グラフを構築し,土地被覆マッピングと水資源予測への応用事例を示す。
    • グラフベースの手法は,従来のユークリッド構造に囚われず,対象物レベルでの解析を可能とする。
    • 既存の課題解決に向けた展望や,今後の発展に関する議論も提示する。

    Link: https://arxiv.org/abs/2505.16685

  • チャネルワイズ関数分解と多様体正則化による効率的な劣化非依存型画像復元 [cs.CV]目的:劣化非依存型画像復元における効率性と性能のバランス
    • 画像復元は,様々な応用分野において重要な役割を担う技術である。
    • 既存手法では,多様な劣化に対応できる汎用性と計算効率を両立することが困難である。
    • チャネルワイズ関数分解と多様体正則化により,汎用性と効率性の両立を目指す。
    • 提案手法MIRAGEは,チャネルワイズ関数分解により,局所テクスチャ,大域的文脈,チャネル統計を効率的に処理する。
    • また,多様体正則化により,異なる劣化タイプ間での特徴表現の一貫性を高め,汎化性能を向上させる。
    • 実験結果から,MIRAGEは既存手法と比較して,高い性能と効率性を両立していることが示された。

    Link: https://arxiv.org/abs/2505.18679

  • OmniFall:段階的,合成的,そして実環境データを含む,ロバストな転倒検出のための統一マルチドメインデータセット [cs.CV]目的:ロバストな転倒検出のための統一マルチドメインデータセットの提供
    • 高齢化社会において,転倒検出技術は,人命救助や生活支援に不可欠である。
    • 既存の転倒検出モデルは,限られた多様性と評価基準の問題から,実環境での有効性が不明確である。
    • 実環境データへの汎化性能を向上させ,プライバシーリスクを低減した転倒検出モデルの開発を支援する。
    • 本研究で構築したOmniFallは,段階的,合成的,そして実環境の3つのドメインを含む統一的なベンチマークデータセットである。
    • 合成データは,慎重に設計することで,実環境データにおける転倒検出の性能を向上させることができることが示された。
    • OmniFallは,プライバシーを保護しつつ,ロバストな転倒検出モデルの開発を促進するための包括的なベンチマークを提供する。

    Link: https://arxiv.org/abs/2505.19889

  • Sonic4D:没入型4Dシーン探索のための空間オーディオ生成 [cs.SD, cs.MM, eess.AS]目的:4Dシーンの没入型探索のための空間オーディオ生成
    • 視覚情報に加え,聴覚情報も重要であり,臨場感を高める上で不可欠である。
    • 既存の4D生成手法は,視覚的品質に注力するあまり,空間オーディオの生成が無視されている。
    • 視覚情報と同期した空間オーディオを生成し,より没入感のある体験を提供することを目指す。
    • 提案手法Sonic4Dは,モノクロームビデオから4Dシーンとモノラルオーディオを生成する。
    • シーン内の音源を特定し,視覚的な情報に基づいて音源の位置を追跡する。
    • 物理ベースシミュレーションを用いて,視点や時間に応じて変化する空間オーディオを合成する。

    Link: https://arxiv.org/abs/2506.15759

  • 大規模言語モデルによる強化を施したクロスドメイン系列推薦のためのマルチモーダル融合 [cs.CL, cs.IR, cs.IR, cs.CV]目的:クロスドメイン系列推薦における性能向上
    • 多様なドメイン間のユーザー行動予測は,ECサイト等のレコメンデーション精度向上に不可欠である。
    • ドメイン横断的なユーザー嗜好のモデル化や,系列データ内のアイテム関係性の把握が課題である。
    • 大規模言語モデルとマルチモーダルデータの融合による,より高度なユーザー嗜好の学習を目指す。
    • 提案手法LLM-EMFは,視覚情報とテキスト情報を融合することで,アイテム表現を豊かにしている。
    • マルチプルアテンション機構により,ドメイン内およびドメイン間の嗜好を効果的に学習する。
    • 4つのECデータセットでの評価により,既存手法と比較して一貫して高い性能を示すことが確認された。

    Link: https://arxiv.org/abs/2506.17966

  • バイアスのかかった教師モデルからのバランスの取れた知識の蒸留 [cs.CV]目的:長尾分布における知識蒸留の性能向上
    • モデル圧縮は,計算資源の制約下で高性能なモデルを運用するために重要である。
    • 従来の知識蒸留は,長尾分布において教師モデルの偏りがボトルネックとなる。
    • 教師モデルの偏りを軽減し,尾部クラスに対する知識蒸留を改善すること。
    • 提案手法LTKDは,グループ間損失とグループ内損失の分解により,教師モデルのバイアス源を特定した。
    • LTKDは,グループ間損失のリバランスとグループ内損失の再重み付けにより,バイアスを緩和する。
    • CIFAR-100-LT等の実験で,既存手法を上回り,全体精度と尾部クラス精度を向上させた。

    Link: https://arxiv.org/abs/2506.18496

  • 動的な記憶と探索による小規模VLMの思考能力強化 [cs.CV]目的:小規模ビジョン言語モデルにおける思考能力の向上
    • 専門的なタスクには小規模VLMが適している。思考能力は性能と信頼性を高める上で重要。
    • 既存の学習方法では,小規模VLMの能力を超えてしまう問題がある。
    • SFTとRLVRの組み合わせによる安定した学習と思考能力の獲得を目指す。
    • DyMEは,SFTによる記憶とRLVRによる探索を動的に選択することで,学習の安定化を実現した。
    • 視覚的な監督メカニズムを組み合わせることで,画像に基づいた効果的なガイダンスを最適化中に提供した。
    • 様々なドメインでの実験により,DyMEが専門的なタスクにおいて著しい性能向上をもたらすことが示された。

    Link: https://arxiv.org/abs/2506.23061

  • 熱帯樹木の樹冠検出用高解像度データセットSelvaBox [cs.CV]目的:熱帯林における樹冠検出のためのデータセット
    • 熱帯林は地球規模での気候変動や生態系維持において重要な役割を担っている。
    • 高解像度画像を用いた検出が難しいほど,樹冠の形状や密集度が高い。
    • 質の高いデータセットを用いて,より正確な樹冠検出モデルを開発すること。
    • SelvaBoxは,これまでの熱帯林データセットの総数を上回る8万3千以上の樹冠を手動で注釈付けした,最大規模のオープンアクセスデータセットである。
    • 高解像度の入力画像が検出精度を向上させることが示された。
    • SelvaBoxのみで学習したモデルは,未知のデータセットでも高い検出性能を示した。

    Link: https://arxiv.org/abs/2507.00170

  • LiteReality:RGB-Dスキャンからのグラフィックス対応3Dシーン再構成 [eess.SY, cs.SI, cs.SY, cs.CV, cs.AI, cs.GR]目的:RGB-Dスキャンから,コンパクトで現実的かつインタラクティブな3D仮想レプリカの生成
    • 現実世界の再現は,AR/VR,ゲーム,ロボティクス等の分野において,没入感やリアリティ向上に不可欠である。
    • 既存手法では,スキャンデータから高品質な3Dモデルを生成することが難しく,グラフィックスパイプラインとの互換性が低い場合が多い。
    • 現実と見分けがつかない,グラフィックスパイプラインに適した3Dシーンを効率的に生成し,様々な応用分野への展開を目指す。
    • LiteRealityは,スキャンデータからシーンを理解し,構造化されたシーングラフを構築することで,高品質な3Dモデルの再構成を実現した。
    • キュレーションされたアセットデータベースから,視覚的に最も類似した3Dモデルを取得し,Material Paintingモジュールで質感を高めることで,リアリティを向上させた。
    • Scan2CADベンチマークにおいて最先端の類似性性能を達成し,誤った位置合わせやオクルージョン,低照度下でも外観を転送できるロバストなマテリアルペイントモジュールを導入した。

    Link: https://arxiv.org/abs/2507.02861

  • 概念に基づく敵対的攻撃:確率的視点 [cs.CV, cs.AI]目的:概念に基づく敵対的攻撃フレームワーク
    • 画像認識の安全性確保は重要であり,その脆弱性を理解することが不可欠である。
    • 既存の敵対的攻撃は,単一の画像に限定され,多様性に欠ける場合がある。
    • 概念を維持しつつ,多様な敵対的サンプルを生成する手法を確立すること。
    • 本研究では,確率的視点に基づき,単一画像ではなく概念全体に着目した敵対的攻撃フレームワークを提案した。
    • 概念を維持することで,敵対的画像が元のカテゴリとして識別可能であることを保証する。
    • 理論的・実験的結果から,本手法はより多様な敵対的サンプルを生成し,高い攻撃効率を達成することが示された。

    Link: https://arxiv.org/abs/2507.02965

  • 知識誘導機械学習:衛星画像におけるオーバーシューティングトップの特定への説明可能なブースティングマシン利用の例示 [cs.CV, cs.LG]目的:衛星画像におけるオーバーシューティングトップの特定
    • 気象予測は公共の安全に不可欠であり,より正確な予測手法の確立が求められている。
    • 機械学習アルゴリズムは,訓練データ外の予測において誤りを起こしやすく,その原因特定が困難である。
    • 人間が持つ知識を機械学習に組み込み,予測の信頼性と解釈性を向上させることを目指す。
    • 説明可能なブースティングマシン(EBM)が,知識誘導機械学習に適していることが示された。
    • EBMは,人間の専門知識を反映した特徴量を入力として利用し,オーバーシューティングトップの検出に活用された。
    • 最終モデルの精度は複雑な手法に劣るものの,解釈可能性が高く,今後の気象予測への応用が期待される。

    Link: https://arxiv.org/abs/2507.03183

  • pFedMMA:マルチモーダルアダプタを用いたパーソナライズされた連合学習によるビジョン言語モデルのファインチューニング [cs.CV, cs.LG]目的:ビジョン言語モデルの連合学習におけるパーソナライズと汎化のトレードオフ改善
    • 近年のビジョン言語モデルは汎化性能が高いが,分散データへの効率的な適応が課題である。
    • 既存の連合プロンプトチューニング法は,パーソナライズに偏りやすく,未学習のクラスやドメインで性能が低下する。
    • マルチモーダルアダプタを利用し,パーソナライズと汎化の両立を目指す。
    • pFedMMAは,ビジョンと言語の各モダリティに対応したアダプタと,クロスモーダル特徴を整列させる共有投影層を用いる。
    • クライアントはローカルデータに適応しつつ,共有投影層を共同学習することで,汎化性能を向上させる。
    • 実験結果から,pFedMMAは既存手法と比較して,パーソナライズと汎化のバランスに優れることが示された。

    Link: https://arxiv.org/abs/2507.05394

  • DA-Occ:効率的かつ形状維持な3次元占有予測のための方向性認識2次元畳み込み [cs.CV]目的:自動運転における3次元占有予測の効率性と精度向上
    • 自動運転システムの性能向上には,正確かつ迅速な3次元環境理解が不可欠である。
    • 既存手法は,精度と効率性のバランスが課題であり,計算コストが高かったり,幾何学的情報を損ねたりする。
    • 高精度かつ効率的な3次元占有予測を実現し,リソース制約のある環境でのリアルタイム処理を可能にする。
    • 提案手法DA-Occは,Lift-Splat-Shoot(LSS)パラダイムを基盤とし,深さスコアに加えて高さスコア投影を用いることで,垂直方向の幾何学的情報を効果的に捉える。
    • 方向性認識畳み込みにより,垂直方向と水平方向の幾何学的特徴を抽出し,精度と計算効率を両立している。
    • Occ3D-nuScenesデータセットにおいて,mIoU39.3%と27.7FPSを達成し,エッジデバイス上でのシミュレーションでも14.8FPSを実現した。

    Link: https://arxiv.org/abs/2507.23599

  • AutoDebias:テキスト-画像モデルのバイアス除去のための自動化フレームワーク [cs.CV]目的:テキスト-画像モデルにおける悪意のあるバイアスの特定と軽減
    • 画像生成AIの発展は目覚ましいが,その安全性と公平性が課題となっている。
    • 意図的に埋め込まれた巧妙なバイアスは,既存の除去手法では対処が困難である。
    • 攻撃の種類を事前に知らなくても,悪意のあるバイアスを自動的に検出し,除去することを目指す。
    • AutoDebiasは,視覚言語モデルを用いてトリガーによる視覚パターンを検出し,中和ガイドを生成する。
    • このガイドを利用したCLIP誘導学習により,有害な関連性を解消しつつ,元のモデルの品質と多様性を維持する。
    • 17種類のバックドアシナリオで91.6%の精度で悪意のあるパターンを検出し,バックドア成功率を大幅に低下させる。

    Link: https://arxiv.org/abs/2508.00445

  • AnimateScene:あらゆるシーンにおけるカメラ制御可能なアニメーション [cs.CV]目的:3Dシーン再構成と4D人体アニメーションの統合
    • 3Dコンテンツ制作において,リアリティのある映像生成が重要視されている。
    • 人体と背景の整合性,衝突回避,カメラ制御が課題となっていた。
    • シーン内の人体配置とスタイルの一貫性を自動化し,自然な動画生成を目指す。
    • AnimateSceneは,正確な人体配置モジュールにより,現実的な位置と衝突回避を実現した。
    • トレーニング不要のスタイル調整法により,背景との照明や外観の一致性を高めた。
    • カメラ軌跡を考慮したアプローチにより,滑らかで魅力的な動画生成を可能にした。

    Link: https://arxiv.org/abs/2508.05982

  • 異方性メッシュ細分化の美しさ:効率的なダイアディック離散化のためのオムニツリー [cs.DS, cs.CG, cs.GR, cs.IT, cs.NA, math.IT, math.NA]目的:異方性問題に対する効率的な離散化手法の開発
    • 様々な分野で適応メッシュ細分化が活用されている。計算効率と精度の向上が求められている。
    • オクトリーは等方的に細分化するため,異方性問題に対して非効率な場合がある。
    • オムニツリーを用いて,必要な方向にのみ細分化することで効率化を図る。
    • オムニツリーは,従来のオクトリーよりも高い収束率を示すことが,3次元形状データの検証で確認された。
    • オムニツリーは,同等の誤差範囲を達成するために必要なストレージ量を削減できることが示された。
    • 高次元問題におけるオムニツリーの利点が,4次元回転を用いた検証により示唆された。

    Link: https://arxiv.org/abs/2508.06316

  • CLIFF:2D材料識別における増分フレーク特徴の継続学習 [cs.CV, cs.LG]目的:2D材料のフレーク層識別における継続学習フレームワーク
    • 量子コンピューティングの発展には,材料の層分類が不可欠であり,その自動化が求められている。
    • 光学顕微鏡による識別は,材料ごとの外観変化が大きく,従来の分類手法では課題があった。
    • 新規材料への適応性を高め,学習の忘却を防ぐ継続学習手法を確立することを目指す。
    • 提案手法CLIFFは,既存のファインチューニングやプロンプトベースラインと比較して,同等以上の精度を達成した。
    • 特に,新規材料の学習における忘却現象を大幅に抑制する効果が確認された。
    • バックボーンとベースヘッドを固定し,材料固有のプロンプトやデルタヘッドを学習することで,効率的な学習を実現した。

    Link: https://arxiv.org/abs/2508.17261

  • Veritas:パターン認識推論による汎化可能なディープフェイク検出 [cs.CV, cs.AI]目的:ディープフェイク検出の汎化性能向上
    • ディープフェイクは社会に悪影響を及ぼすため,その検出技術は重要である。
    • 既存の評価データセットが実世界の状況を反映しておらず,検出器の実用化を妨げている。
    • 実世界における多様なディープフェイクに対応できる検出器を開発すること。
    • 新たなデータセットHydraFakeを構築し,実世界の課題を反映した評価を可能にした。
    • パターン認識推論を用いた多Modal大規模言語モデルVeritasを提案し,既存手法の課題を克服した。
    • Veritasは,未知の偽造手法やデータドメインにおいても高い検出性能を示した。

    Link: https://arxiv.org/abs/2508.21048

  • Draw-In-Mind:統一されたマルチモーダルモデルにおけるデザイナー・画家役割の再均衡が画像編集に貢献 [cs.CV, cs.AI]目的:画像編集におけるデザイナーと画家の役割分担の再均衡
    • マルチモーダル理解と生成の統合は,画像処理分野における重要な研究テーマである。
    • 既存の統一モデルは,テキストから画像を生成する能力は高いものの,正確な画像編集には課題が残る。
    • 理解モジュールにデザインの責任を明示的に割り当てることで,画像編集の精度向上を目指す。
    • 提案手法DIMは,複雑な指示理解のための大規模データセットDIM-T2Iと,画像編集のための設計図であるChain-of-ThoughtのデータセットDIM-Editで構成される。
    • パラメータ規模が小さいDIM-4.6B-Editが,ImgEditやGEdit-Benchなどのベンチマークにおいて,より大規模なモデルを上回る性能を示した。
    • 理解モジュールにデザイン責任を明示的に割り当てることで,画像編集の性能が大幅に向上することが示された。

    Link: https://arxiv.org/abs/2509.01986

  • MEGS$^{2}$: 球面ガウス関数と統合的プルーニングによるメモリ効率の良いガウススプラッティング [cs.CV, cs.AI]目的:3Dガウススプラッティングのメモリ効率向上
    • 3Dシーン再現技術は,VR/AR等の応用で重要性が増しており,高品質な新規視点合成が求められている。
    • 3Dガウススプラッティングは高品質だが,メモリ消費量が大きく,エッジデバイスでの利用が困難である。
    • メモリ使用量を削減し,エッジデバイスでの3Dガウススプラッティングの適用範囲を広げる。
    • MEGS$^{2}$は,球面調和関数を軽量な球面ガウスロブに置き換えることでメモリ消費量を削減する。
    • 総プリミティブ数と1プリミティブあたりのパラメータ数の両方を最適化する統合的プルーニングフレームワークを提案する。
    • 既存手法と比較して,静的VRAMを50%,レンダリングVRAMを40%削減しつつ,同等のレンダリング品質を維持する。

    Link: https://arxiv.org/abs/2509.07021

  • 継続学習における可塑性を維持する活性化関数の設計 [cs.LG, cs.AI, cs.CV]目的:継続学習における可塑性喪失の軽減策
    • 機械学習モデルは,新しいタスクを学習する際に,過去の知識を忘却しやすい。
    • 継続学習において,モデルは破滅的忘却だけでなく,適応能力の低下(可塑性喪失)を引き起こす。
    • 活性化関数の設計を通じて,継続学習における可塑性喪失を軽減し,モデルの適応能力を維持すること。
    • 活性化関数の選択は,モデルのアーキテクチャに依存せず,可塑性喪失を軽減するための重要な要素である。
    • Smooth-LeakyとRandomized Smooth-Leakyという2つの新しい活性化関数を提案し,その有効性を検証した。
    • 活性化関数の形状と適応能力の関係を明らかにする診断ツールを開発し,継続学習における活性化関数の重要性を示した。

    Link: https://arxiv.org/abs/2509.22562

  • ZOO-Prune:視覚言語モデルにおけるゼロ次勾配推定による学習不要トークン剪定 [cs.CV]目的:視覚言語モデルにおけるトークン剪定手法
    • 大規模視覚言語モデルは強力だが,冗長な視覚トークンにより推論コストが高い。
    • 既存手法は,不安定な注意スコアや,重要な領域を削除するリスクがある。
    • 出力への影響が大きいトークンを剪定し,効率性と精度を両立する。
    • ZOO-Pruneは,バックプロパゲーションなしでトークンの影響を効率的に近似する。
    • 複数の視覚言語モデルとベンチマークで,既存手法よりも高い性能を示す。
    • 最大94.4%のトークンを剪定し,精度を維持しつつ,推論速度を最大2.30倍に向上させる。

    Link: https://arxiv.org/abs/2509.24837

  • 3Dメッシュのパラメトライゼーションにおける,セマンティックおよび可視性目的を用いた教師なし表現学習 [cs.GR, cs.CV]目的:3Dメッシュのパラメトライゼーション自動化
    • 3Dコンテンツ制作において,高品質なテクスチャ生成が重要視されている。
    • 従来のUV展開は手作業であり,時間と労力を要するボトルネックとなっている。
    • セマンティックおよび可視性を考慮したUV展開の自動化を目指す。
    • 提案手法は,既存手法と比較して,より高品質なテクスチャ生成に適したUVアトラスを生成する。
    • 特に,視覚的に目立つシームのアーティファクトを低減する効果が確認された。
    • セマンティックな分割と可視性に基づくシーム配置により,UV展開の品質が向上する。

    Link: https://arxiv.org/abs/2509.25094

  • VoiceBridge:潜在ブリッジモデルによる汎用音声復元 [cs.SD, cs.AI, eess.AS]目的:多様な歪みからの高音質全帯域音声の効率的な復元
    • 音声処理技術は,コミュニケーションや情報伝達において不可欠であり,その品質向上は重要な課題である。
    • 従来の音声復元モデルは,特定のタスクに特化しており,多様な歪みに対応できる汎用性に課題があった。
    • 本研究では,単一の潜在空間で多様な音声復元タスクを処理できる汎用的なモデルの開発を目指す。
    • 提案手法VoiceBridgeは,エネルギー保存型変分オートエンコーダと,ジョイントニューラルプライヤーを導入することで,多様な歪みに対する復元性能を向上させている。
    • VoiceBridgeは,単一の潜在空間から潜在空間への生成プロセスにより,様々な音声復元タスクを効率的に処理し,蒸留なしでワンステップ復元を実現する。
    • 様々な音声データセットを用いた評価により,VoiceBridgeが,既存手法と比較して優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2509.25275

  • 少ないものがより良い:自律運転のための軽量かつ強力な視覚言語モデル [cs.CV, cs.AI, cs.RO]目的:自律運転のための視覚言語モデルによる経路予測
    • 自動運転は,社会における移動の効率化や安全性の向上に不可欠な技術である。
    • 既存の自動運転システムは,計算コストが高く,多様な環境への適応が課題である。
    • 本研究は,軽量なモデルで高性能な自律運転を実現し,汎用性とロバスト性を高めることを目指す。
    • 提案手法Max-V1は,nuScenesデータセットにおいて,既存の基盤モデルと比較して全体的な性能を30%以上向上させた。
    • 多様な車両から収集されたクロスドメインデータセットにおいても優れた汎化性能を示し,車両間のロバスト性と適応性を示唆する。
    • 本研究は,基本的な運転行動を可能にするモデルを提示し,より高度な自動運転エージェント開発の基礎を築く。

    Link: https://arxiv.org/abs/2510.00060

  • ユニバーサルベータスプラッティング [cs.CC, math.CO, cs.GR, cs.CV, eess.IV]目的:3次元ガウススプラッティングをN次元の異方性ベータカーネルに一般化する統合的なフレームワーク
    • リアルタイムレンダリングの品質向上は,コンピュータグラフィックスにおける重要な課題である。
    • 従来の表現方法は,複雑な光の相互作用や動的なシーンを扱うのに限界があった。
    • ベータカーネルを用いることで,空間,角度,時間次元にわたる依存関係を制御可能にする。
    • 本研究で提案するUBSは,既存の方法と比較して,静的,視点依存,動的ベンチマークにおいて一貫して高い性能を示す。
    • ベータカーネルは,シーンの特性を空間,角度,時間という解釈可能な要素に自然に分解する。
    • UBSはガウススプラッティングと互換性を保ち,プラグインとして容易に利用でき,既存の利点を維持する。

    Link: https://arxiv.org/abs/2510.03312

  • CLEAR-IR:赤外画像の鮮明度向上によるアクティブ再構成 [cs.RO, cs.CV, cs.LG]目的:暗環境下におけるロバストなロボット知覚の実現
    • ロボットの自律性向上には,多様な環境下での安定した視覚認識が不可欠である。
    • 暗所環境下では,RGB画像がノイズの影響を受けやすく,十分な性能を発揮できない場合がある。
    • 赤外画像特有のパターンノイズを除去し,高精度な画像認識を可能にすること。
    • 提案手法は,既存の赤外画像強調技術と比較して,画質とロボットの性能の両方を向上させる。
    • 本研究は,RGB画像で学習されたタスクを,照明条件に左右されずに暗所環境下でも実行可能にする。
    • シーンのRGBスタイルを再現することで,オンボード照明を必要とせずに低照度環境での運用を可能にする。

    Link: https://arxiv.org/abs/2510.04883

  • 機械学習演算子におけるゼロショット超解像の誤った約束 [cs.CL, cs.LG, cs.AI, cs.CV]目的:機械学習演算子におけるゼロショット超解像の可能性の評価
    • 科学的機械学習において,連続現象を離散的に表現する際のモデリングは重要な課題である。
    • 機械学習演算子は高解像度推論を可能と謳われるが,その性能は検証されていない。
    • 本研究では,機械学習演算子のゼロショット超解像能力の限界と改善策を明らかにする。
    • 機械学習演算子は,訓練データよりも高解像度なデータに対する推論において,頻度情報の外挿と解像度の補間を適切に行えないことが示された。
    • その結果,機械学習演算子は訓練解像度と異なる解像度での正確な推論が難しく,エイリアシングの影響を受けやすいことが判明した。
    • エイリアシングを克服し,ロバストなマルチ解像度汎化を可能にする,データ駆動型マルチ解像度学習プロトコルを提案した。

    Link: https://arxiv.org/abs/2510.06646

  • DINOのウサギの穴へ:タスク関連概念からミンコフスキー幾何学へ [cs.CL, cs.CL, cs.CV, cs.AI]目的:DINOモデルが知覚する内容の解明
    • 画像認識技術は,ロボット工学や自動運転など,幅広い分野で不可欠である。
    • 深層学習モデルの内部表現はブラックボックスであり,解釈性が課題となっている。
    • DINOモデルの表現を幾何学的に分析し,解釈可能性を高めることを目指す。
    • DINOv2は,様々なタスクで概念を活用しており,タスクによって利用する概念が異なることが示された。
    • 概念表現は必ずしも疎ではなく,密な部分も存在し,理想的な直交性から逸脱する傾向があることが明らかになった。
    • 概念は,凸結合された原型によって形成されると考えられ,ミンコフスキー幾何学がその表現に合致することが示唆された。

    Link: https://arxiv.org/abs/2510.08638

  • 単眼4D再構成における動的ガウススプラッティングの不確実性の重要性 [cs.CV, cs.AI, cs.GR]目的:単眼入力からの動的3Dシーン再構成における不確実性のモデル化
    • 動的シーンの3D再構成は,ロボティクスやVR/ARなどに応用され,その重要性が高まっている。
    • 単眼からの再構成は,オクルージョンや新規視点において曖昧になりやすく,精度向上が課題である。
    • 視点や時間軸における観察頻度に基づき,ガウススプラッティングにおける不確実性を明示的にモデル化する。
    • 提案手法USplat4Dは,ガウスごとの不確実性を推定し,時空間グラフを用いて最適化を行う。
    • 実験の結果,USplat4Dはオクルージョン下での幾何学的安定性と,極端な視点からの高品質な合成を実現した。
    • 不確実性の明示的なモデル化が,動的ガウススプラッティングの性能向上に貢献することが示された。

    Link: https://arxiv.org/abs/2510.12768

  • 活動の記述を活用した説明可能な半教師ありビデオ異常検知 [cs.CV]目的:ビデオ異常検知のためのフレームワーク
    • ビデオ監視技術の発展に伴い,異常行動の自動検知が重要視されている。
    • 既存手法では,複雑な異常や物体間の相互作用の検知が困難である。
    • 物体活動と相互作用の記述による異常検知と説明可能性の向上を目指す。
    • マルチモーダル大規模言語モデル(MLLM)を用いて,物体ペアの活動記述を生成する。
    • 生成されたテキスト記述を用いて,正常動画との比較により異常を検知する。
    • 提案手法は,複雑な相互作用に基づく異常検知において高い性能を示す。

    Link: https://arxiv.org/abs/2510.14896

  • 小さな草稿,大きな判断:推測による情報集約型視覚推論 [cs.CL, cs.CV, cs.AI, cs.CL]目的:情報集約型画像における視覚推論の性能向上
    • 画像とテキストを組み合わせた理解が重要視される中,複雑な視覚情報の処理が課題となっている。
    • 高密度なテキストとグラフィカル要素が混在する画像において,重要な手がかりの特定が困難である。
    • 複数の視覚情報を統合し,正確な推論を行うための効率的な手法を確立することを目指す。
    • 提案手法「Speculative Verdict (SV)」は,複数の軽量なモデルと大規模モデルを組み合わせることで,推論コストを削減しつつ高精度を実現した。
    • SVは,多様な推論経路を生成し,合意形成によって信頼性の高い経路のみを最終判断に利用することで,エラーを修正し効率を高めた。
    • InfographicVQAなど,情報集約型および高解像度視覚質問応答ベンチマークにおいて,既存手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2510.20812

  • TokenCLIP:ゼロショット異常検知のためのトークン単位プロンプト学習 [cs.CV]目的:未見オブジェクトに対する異常検知におけるCLIPの適応
    • 異常検知は,製造,医療,セキュリティなど幅広い分野で重要な役割を果たす。
    • 既存手法は単一のテキスト空間に頼るため,多様な異常の意味を正確に捉えられない。
    • 本研究は,トークン単位で動的にテキスト空間を適応させることで,より高精度な異常検知を目指す。
    • 提案手法TokenCLIPは,視覚的特徴と学習可能なテキスト空間の動的なアラインメントを実現する。
    • 各トークンをセマンティックアフィニティに基づいて複数の直交部分空間に動的に割り当てることで,効率的な学習を可能にする。
    • 広範な実験により,TokenCLIPが既存手法を上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2510.21171

  • MMSD3.0:現実世界のマルチモーダル皮肉検出のためのマルチ画像ベンチマーク [cs.CV, cs.MM]目的:現実世界のマルチモーダル皮肉検出のための新たなベンチマークとモデル
    • 近年のSNS利用拡大により,画像とテキストを組み合わせた情報の分析が重要になっている。
    • 既存の皮肉検出研究は単一画像に偏っており,複数画像間の関係性を考慮したものが少ない。
    • 複数画像からの皮肉検出における性能向上を目指し,新たなベンチマークとモデルを提案する。
    • 本研究では,TwitterやAmazonレビューから収集した複数画像のサンプルで構成されるMMSD3.0を提案した。
    • 提案手法であるCIRMは,画像間の関係性を捉えることで,既存手法を上回る性能を示した。
    • MMSD3.0は現実世界の条件をより良く反映した,効果的で信頼性の高いベンチマークとして機能することが示された。

    Link: https://arxiv.org/abs/2510.23299

  • DeepEyesV2:自律的なマルチモーダルモデルへ [cs.CL, cs.CL, cs.CL, cs.CV, cs.AI]目的:エージェント型マルチモーダルモデルの構築
    • 画像とテキストを理解するだけでなく,外部ツールを活用できるモデルが求められている。
    • 強化学習のみでは,安定したツール利用行動を誘導することが難しい。
    • ツール利用のパターンを確立し,状況に応じたツール選択を可能にすること。
    • DeepEyesV2は,リアルワールドな理解,数学的推論,検索を必要とするタスクで有効であることが示された。
    • 二段階の学習パイプラインにより,複雑なツール連携が可能となり,文脈に応じたツール選択が実現した。
    • RealX-Benchという包括的なベンチマークを導入し,マルチモーダル推論の評価に貢献した。

    Link: https://arxiv.org/abs/2511.05271

  • 注意を伴う特徴集約:ポリシーが頑健性について心配するのをやめ,タスクに関連する視覚的手がかりに注意する方法 [cs.HC, cs.RO, cs.CV]目的:視覚運動ポリシーの特徴プールング手法
    • 大規模な視覚モデルを活用した事前学習済み視覚表現は,視覚運動ポリシーの学習において主流となっている。
    • 強力な表現は,タスクに関係のないシーン情報を多く含むため,ポリシーが外域の視覚変化に脆弱であるという問題がある。
    • 摂動されたシーンにおける頑健性の欠如に対処し,タスクに関連する視覚的手がかりに注意するメカニズムを開発すること。
    • 提案手法であるAFA(注意を伴う特徴集約)は,標準的なプーリング手法と比較して,視覚的摂動が存在する場合に有意に高い性能を発揮する。
    • AFAは,軽量で学習可能なプーリングメカニズムであり,意味的に豊富なシーンの邪魔にならずに,タスクに関連する視覚的手がかりに自然に注意する。
    • AFAを用いたポリシーは,高価なデータセット拡張や事前学習済み視覚表現のファインチューニングを必要とせずに,頑健性と汎化性を実現する。

    Link: https://arxiv.org/abs/2511.10762

  • SWITCH:長期的具現化シナリオにおける触覚インターフェースのモデリングと取り扱いのベンチマーク [eess.SY, cs.SY, cs.CV, cs.AI, cs.RO]目的:触覚インターフェースにおけるモデリングと取り扱いの評価
    • 現実世界での自律エージェントは,物理的・意味的インフラとの継続的な相互作用が不可欠である。
    • 既存のベンチマークは,長期的相互作用と因果関係の要件を十分に考慮していない。
    • この研究は,現実世界の制約下における触覚インターフェースの課題を評価し,解決策を探る。
    • SWITCHベンチマークは,タスク認識VQA,意味的UIのグラウンディング,行動生成,状態遷移予測,結果検証の5つの能力を評価する。
    • 商用およびオープンソースのLMMMsを用いた実験の結果,体系的な課題が明らかになった。
    • SWITCHは,再現可能な評価とコミュニティによる貢献を促進するためのデータ,コード,および分割データを提供する。

    Link: https://arxiv.org/abs/2511.17649

  • フローマッチングにおける重要度重み付きスコア正則化ジョイントサンプリング [cs.CV, cs.AI, cs.LG]目的:フローマッチングモデルの出力関数の期待値推定の改善
    • 複雑な分布を効率的に表現するフローマッチングモデルの応用範囲拡大
    • 限られたサンプリング数での期待値推定における高分散の問題
    • 多様性と品質を両立し,信頼性の高い期待値推定を実現する
    • 提案手法は多様で高品質なサンプルを生成し,重要度重みと期待値の正確な推定を可能にする。
    • スコアベース正則化により,データ多様体上のオフマニホールドドリフトを抑制し,サンプルの多様性を確保する。
    • 非IIDサンプルの重要度重み付けにより,バイアスなし推定を可能にする。

    Link: https://arxiv.org/abs/2511.17812

  • 脳MRI腫瘍分類における汎用CNNとドメイン特化CNN:事前学習効果の理解 [cs.RO, cs.CV, cs.AI]目的:脳MRI腫瘍分類のためのCNNアーキテクチャの比較分析
    • 脳腫瘍の早期発見と適切な治療介入は重要であり,画像診断技術の進歩が求められている。
    • 医療画像データは限られている場合が多く,事前学習済みモデルの選択が課題となる。
    • 限られたデータ環境下で,ドメイン特化型事前学習が有効か検証する。
    • ConvNeXt-Tinyが最も高い性能を示し,テスト精度93%を達成した。
    • EfficientNetV2Sは85%の精度で良好な結果を得た。
    • RadImageNet DenseNet121は68%の精度にとどまり,汎用CNNの方が有効な転移学習を示唆した。

    Link: https://arxiv.org/abs/2511.18326

  • Q-Save:生成動画評価のためのスコアリングと帰属性に関する研究 [cs.CV]目的:生成動画の品質評価基準と解釈性
    • AIによる動画生成技術の発展に伴い,その品質評価の重要性が増している。
    • 既存の評価方法は,評価項目の定義が曖昧で,視覚的品質,動的品質,テキストとの整合性を個別に扱っている。
    • 本研究は,これらの課題を解決し,包括的な評価と根拠に基づいた判断を可能にする。
    • Q-Saveデータセットは,約10,000本の動画サンプルと,各動画に対する詳細な評価と帰属性に関する注釈を含む。
    • 提案するQ-Saveモデルは,SlowFastフレームワークとChain-of-Thought形式のデータを用いた三段階の学習戦略により,高品質なスコアリングと帰属性の生成を実現。
    • 実験結果から,Q-Saveは既存手法よりも優れた動画品質予測性能と解釈性を示すことが確認された。

    Link: https://arxiv.org/abs/2511.18825

  • SocialNav:社会に配慮した具現化されたナビゲーションのための人間を模倣した基盤モデルの学習 [cs.RO, cs.AI, cs.CV]目的:社会的に配慮したナビゲーションのための基盤モデル
    • ロボットが人間の社会で活動するには,社会規範を理解し遵守することが不可欠である。
    • 既存のナビゲーションシステムは,社会規範を考慮したナビゲーションに課題を抱えている。
    • 社会規範を理解し,遵守するナビゲーションモデルを開発し,実用化を目指す。
    • SocialNavは,階層的な「脳-行動」アーキテクチャを備え,社会規範を理解し,社会的に適切な軌跡を生成する。
    • SocNavデータセット(700万サンプル)を用いて,認知活性化データセットと専門家による軌跡ピラミッドを構築した。
    • 最新手法と比較して,成功率が38%向上,社会適合率が46%向上し,ナビゲーション性能と社会適合性の両方で著しい改善を示した。

    Link: https://arxiv.org/abs/2511.21135

  • ドラフトを用いた思考:効率的な長尺ビデオ理解のための仮説的時系列推論 [cs.CV]目的:長尺ビデオ理解のための効率化
    • 人間のような知能を実現するには,長時間の文脈を考慮したビデオ理解が不可欠である。
    • 既存の「フレームを用いた思考」パラダイムは効率性に課題があり,多Modalコンテキストが冗長化する。
    • 冗長性を低減し,効率と精度を両立する時系列推論フレームワークの構築。
    • 提案手法SpecTempは,軽量なモデルが重要なフレームを探索し,高性能モデルが推論と検証を行うことで,効率的な処理を実現した。
    • SpecTempは,人間の脳の共同作業経路を模倣し,精度と効率のバランスを取っている。
    • 複数のビデオ理解ベンチマークにおいて,SpecTempは既存手法と同等の精度を維持しつつ,推論速度を大幅に向上させた。

    Link: https://arxiv.org/abs/2512.00805