arXiv雑要約

画像・音声 - 2026/02/03 公開

  • 球面ベルトラミ微分を用いたGenus-0曲面パラメータ化 [cs.GR, cs.CV, cs.LG, math.AG]目的:球面曲面パラメータ化手法
    • 幾何処理や画像処理において基本的なツールであり,様々な応用がある。
    • タスク目標,単射性維持,幾何学的歪みの制御の間のトレードオフが存在する。
    • 球面上の準共形自己同型写像に基づく新しいパラメータ化手法を開発する。
    • 球面ベルトラミ微分(SBD)を導入し,球面ホメオモルフィズムとの関係を確立した。
    • 半球状ステレオ投影チャート上でベルトラミ場を最適化するニューラル最適化フレームワークBOOSTを提案した。
    • 大規模変形ランドマークマッチングや強度ベースのスフェリカル登録で有効性を実証し,脳皮質表面登録への応用で高い精度を示した。

    Link: https://arxiv.org/abs/2602.01589

  • ステップを認識せよ:ステップ認識型利点によるフローマッチングモデルの高速かつ高精度なアライメント [cs.CL, cs.CV]目的:フローマッチングモデルのアライメント性能向上
    • 近年のテキスト画像生成において,人間の好みに合わせた画像生成が重要視されている。
    • 既存手法では,多くのデノイジングステップが必要で,報酬信号が疎かつ不正確になりがちである。
    • 少ないステップ数で,人間の好みに合致した高精度な画像生成を目指す。
    • 提案手法TAFS GRPOは,適応的な時間的ノイズ注入により,生成画像の品質を維持しつつ確率性を導入する。
    • GRPOを用いることで,報酬関数の微分可能性が不要となり,安定した方策最適化が可能となる。
    • 実験により,TAFS GRPOが少ないステップ数でのテキスト画像生成において高い性能を発揮し,人間の好みに合致した画像生成を実現することが示された。

    Link: https://arxiv.org/abs/2602.01591

  • Samba+: 統一されたMambaベースフレームワークによる汎用かつ高精度な顕著性オブジェクト検出 [cs.CV]目的:様々な顕著性オブジェクト検出タスクにおける高精度な検出
    • 画像処理分野において,人間の視覚システムを模倣したオブジェクト検出は重要な研究テーマである。
    • 従来のCNNやTransformerでは,受容野の制限や計算量の増加が課題となっていた。
    • 本研究では,Mambaを活用し,これらの課題を克服することで,より汎用性と効率性を高める。
    • Sambaは,RGB,RGB-D,RGB-T画像,ビデオなどの様々な入力に対して優れた性能を示した。
    • Samba+は,マルチタスク学習により,単一のモデルで複数のタスクを高い精度で達成する。
    • HGAモジュールとMACL戦略により,異なるモダリティ間の融合と継続学習が効果的に行われた。

    Link: https://arxiv.org/abs/2602.01593

  • UV-M3TL:支援運転知覚のための統一的かつ多様なマルチモーダルマルチタスク学習フレームワーク [cs.CV]目的:運転行動,運転者の感情,車両行動,交通状況の同時認識
    • ADASの性能向上には,運転者と周囲状況の理解が不可欠である。
    • 複数タスクの同時学習は,タスク間の負の転移を引き起こしやすい。
    • 負の転移を抑制し,複数タスクの性能を向上させることを目指す。
    • 提案手法UV-M3TLは,AIDEデータセットにおいて全てのタスクで最先端の性能を達成した。
    • BDD100K,CityScapes等の他のベンチマークでも,多様なタスク組み合わせにおいて高い性能を示した。
    • 特に,多くのタスクにおいて最先端の結果を達成し,汎用性の高さが証明された。

    Link: https://arxiv.org/abs/2602.01594

  • 拡散Transformerにおける文脈生成のためのトークン剪定 [cs.CV]目的:拡散Transformerにおける文脈生成の効率化
    • 画像生成AIの発展において,文脈情報を用いた制御可能な画像生成が重要視されている。
    • 文脈情報を加えることで系列長が大幅に増加し,計算コストがボトルネックとなっている。
    • 文脈情報と生成対象の役割の違いを考慮したトークン剪定により,計算効率を改善することを目指す。
    • 提案手法ToPiは,追加学習なしでDiffusion Transformerの推論速度を30%以上向上させる。
    • ToPiは,重要なアテンション層を特定し,文脈トークンの貢献度を評価することで,効果的な剪定を実現する。
    • これにより,構造的な忠実性と視覚的な一貫性を維持しつつ,複雑な画像生成タスクにおいて高速化を達成する。

    Link: https://arxiv.org/abs/2602.01609

  • オムニジャッジ:汎用LLMはテキスト条件付きのオーディオ・ビデオ生成の人間らしい評価者となり得るか [cs.CV]目的:テキスト条件付きオーディオ・ビデオ生成における,汎用LLMを人間らしい評価者として利用することの可能性評価
    • マルチモーダル生成技術の進展に伴い,生成されたコンテンツの品質評価が重要になっている。
    • 既存の自動評価指標は,単一のモダリティに焦点を当てており,複雑なプロンプトに対する評価が困難である。
    • 人間の評価は信頼性が高いが,コストとスケーラビリティに課題があるため,それを代替する手法が求められている。
    • オムニジャッジは,従来の評価指標と同程度の相関を示し,特に意味的な要求が高いタスク(オーディオ・テキスト,ビデオ・テキストの整合性など)で優れた性能を発揮した。
    • 高FPSの知覚的指標(ビデオ品質,オーディオ・ビデオの同期など)では,時間分解能の限界から性能が劣った。
    • オムニジャッジは,意味的または物理的な不整合を明らかにする解釈可能な説明を提供し,フィードバックに基づく改善といった実用的な応用を可能にする。

    Link: https://arxiv.org/abs/2602.01623

  • PISCES:最適輸送に整列した報酬によるアノテーション不要のテキストから動画へのポストトレーニング [cs.CV]目的:テキストと動画の対応付けによる,高品質で時間的に一貫性のある動画生成手法
    • 動画生成技術は,エンターテインメントから教育まで,幅広い分野で活用が期待されている。
    • 既存手法は,大規模なアノテーションに依存するか,不正確な埋め込みを使用し,性能が制限されている。
    • 最適輸送を用いて報酬信号を人間評価に近づけ,アノテーション不要で高品質な動画生成を実現する。
    • PISCESは,テキストと動画の埋め込みを最適輸送により関連付け,分布レベルとトークンレベルの両方で報酬を調整する。
    • これにより,PISCESは,VBenchにおける品質と意味の一致度において,アノテーションベースおよびアノテーション不要の手法を上回る性能を示す。
    • 人間による評価実験も,PISCESの有効性を裏付けている。

    Link: https://arxiv.org/abs/2602.01624

  • ワールドモデル研究は特定のタスクへの知識注入に留まらない [cs.CV]目的:ワールドモデルの統一的な設計仕様
    • AIの発展において,現実世界の理解と予測は不可欠であるため。
    • 既存研究は,タスク固有の知識注入に偏っており,汎用的な世界理解が課題である。
    • 断片化されたアプローチの限界を分析し,統一的な枠組みを提示すること。
    • 現在のワールドモデル研究は,視覚予測や3D推定など,特定のタスクに焦点を当てがちである。
    • 本研究では,ワールドモデルを相互作用,知覚,記号推論,空間表現を統合する規範的枠組みと捉える。
    • より汎用的で堅牢なワールドモデルの設計指針を提示し,今後の研究を促進する。

    Link: https://arxiv.org/abs/2602.01630

  • 適応焦点損失を用いた連合学習Vision Transformerによる医用画像分類 [cs.RO, cs.CV]目的:医用画像分類のための連合学習フレームワーク
    • 医療画像診断の精度向上は,早期発見・治療に不可欠であり,AI技術の応用が期待されている。
    • 医療データはプライバシー保護の観点から共有が難しく,大規模なデータセット構築が困難である。
    • データ共有を伴わない連合学習を用いて,データ不均衡や異質性への対応を可能にする。
    • 提案手法は,ISIC,Ocular Disease,RSNA-ICHの3つのデータセットにおいて,既存のモデルを凌駕する精度を示した。
    • 動的適応焦点損失とクライアントを考慮した集約戦略により,少数クラスへの注意とデータ特性の違いに対応した。
    • ISICデータセットの実験により,提案手法の損失関数と集約戦略の有効性が確認された。

    Link: https://arxiv.org/abs/2602.01633

  • ReCALL:MLLMベースの合成画像検索における能力劣化の再調整 [cs.CV]目的:MLLMベースの合成画像検索における能力劣化の軽減と性能向上
    • 画像とテキストを組み合わせた検索は,より複雑な要求に対応でき,情報検索の精度向上に貢献する。
    • 生成モデルを識別モデルとして利用する際,本来の能力が低下する問題が存在する。
    • 生成LLMを検索器に変換する際の能力劣化を特定し,修正することで性能を改善することを目指す。
    • 提案手法ReCALLは,自己誘導による情報インスタンス抽出で検索器の認知的な盲点を診断する。
    • CoTプロンプティングにより修正指示とトリプレットを生成し,VQAによる品質管理で一貫性を担保する。
    • トリプレットを用いた継続学習とグループ化された対照的なスキームにより,検索器の識別埋め込み空間を再調整する。

    Link: https://arxiv.org/abs/2602.01639

  • 知覚から行動へ:空間AIエージェントとワールドモデル [cs.LG, cs.AI, cs.CV, cs.MA, cs.RO]目的:空間AIエージェントとワールドモデルに関する研究の分類体系
    • ロボティクスや自動運転などの分野において,物理世界での知的な行動を可能にする空間認識は重要である。
    • 大規模言語モデルは記号的な領域では成功するが,物理世界への応用は難しい。空間知能の研究は分断されている。
    • エージェントの能力と空間タスクを結びつける統一的な枠組みを提示し,今後の研究方向を示す。
    • 2000件以上の論文を調査した結果,エージェントの能力,タスク,スケールという3軸による分類体系が有効であることが示された。
    • 長期的タスクには階層型メモリシステムが,構造化された空間推論にはGNN-LLM統合が有効であることが明らかになった。
    • マイクロからマクロスケールへの安全な展開にはワールドモデルが不可欠である。評価フレームワークの統一が課題である。

    Link: https://arxiv.org/abs/2602.01644

  • 音楽拡散モデルに対する生成多様体摂動を通じたメンバーシップ推論攻撃 [cs.SD]目的:音楽拡散モデルのメンバーシップ推論攻撃手法
    • 生成AIの利用拡大に伴い,著作権侵害等のリスク評価が重要となっている。
    • 従来のメンバーシップ推論攻撃は,知覚との乖離から高い精度での識別が困難である。
    • 拡散モデルの安定性を利用し,メンバーシップをより正確に推論することを目指す。
    • 提案手法LSA-Probeは,拡散過程における最小摂動量を計測し,学習データに依存する安定性の違いを捉える。
    • 学習データは,より安定な領域に存在し,高い劣化コストを示すことが確認された。
    • 本手法は,従来の損失関数に基づく攻撃よりも高い識別性能を発揮する。

    Link: https://arxiv.org/abs/2602.01645

  • 強化学習による効率的な動画理解のための貢献度を考慮したトークン圧縮 [cs.CV, cs.AI]目的:動画理解における効率化のためのトークン圧縮手法
    • 動画大規模言語モデルは動画理解で高い性能を示すが,計算コストが大きい。
    • 既存の圧縮アルゴリズムは注意スコアに着目するが,正答への貢献度との関係が不明確である。
    • トークンの貢献度を直接最適化し,最適なトークン組み合わせを効率的に探索する。
    • 提案手法CaCoVIDは,トークン選択ポリシーを最適化し,正答への貢献度を最大化する。
    • 組み合わせポリシー最適化アルゴリズムにより,探索空間を削減し,学習を高速化する。
    • 多様な動画理解ベンチマークでCaCoVIDの有効性を実証した。

    Link: https://arxiv.org/abs/2602.01649

  • フレームからシーケンスへ:時間的に一貫性のある人間中心の稠密予測 [cs.CV]目的:時間的に一貫性のある人間中心の稠密予測の実現
    • ビデオにおける人物の理解は,ロボット工学や自動運転など,多くの応用分野で不可欠である。
    • 既存モデルはフレーム単位の精度は高いが,動きや遮蔽,照明変化でちらつきが生じやすい。
    • 動きに合わせたデータと高精度なラベルを用いて,時間的一貫性を高めることを目指す。
    • 大規模な合成データパイプラインを構築し,フォトリアリスティックな人物フレームとモーションアラインドなシーケンスを生成した。
    • CSE埋め込みによる人間幾何学的事前情報と,軽量なチャネル再重み付けモジュールにより,幾何学的特徴の信頼性を向上させた。
    • THuman2.1とHi4Dで最先端の性能を達成し,実環境のビデオへの有効性も実証された。

    Link: https://arxiv.org/abs/2602.01661

  • Moonworks Lunara Aesthetic II:画像バリエーションデータセット [cs.CV]目的:画像生成・編集システムの文脈的一貫性評価と学習を支援するデータセット
    • 画像生成技術の発展に伴い,生成された画像の品質と制御可能性の評価が重要となっている。
    • 既存のデータセットでは,文脈に応じた変化を保ちつつ,画像の本質的な要素を維持することが困難である。
    • 本研究は,画像の本質を維持しつつ文脈的変化を施した高品質な画像ペアを提供し,評価・学習を容易にする。
    • Lunara Aesthetic IIは,Moonworksのオリジナルアートと写真から作成された2,854組の画像ペアを含んでいる。
    • このデータセットは,照明,天候,視点などの文脈的変換を適用しながら,画像の識別性を維持している。
    • 実験結果から,高い識別性安定性,ターゲット属性の明確な実現,優れた美的プロファイルが確認された。

    Link: https://arxiv.org/abs/2602.01666

  • NetVLADとFaissを用いたVisual SLAMにおけるリアルタイムループクロージャ検出 [cs.CL, cs.CV, cs.AI, cs.RO]目的:Visual SLAMにおけるリアルタイムループクロージャ検出の性能評価と改善
    • SLAMはロボットの自律的な位置推定と環境地図作成に不可欠であり,その精度向上は重要な課題である。
    • 従来のBoW法は計算効率が高いが,外観変化や知覚的曖昧さに弱く,精度が低下しやすい。
    • NetVLADを用いたループクロージャ検出が,BoW法よりも高精度かつリアルタイムに実現可能となることを示す。
    • NetVLADは,Faissによる高速な最近傍探索と組み合わせることで,リアルタイムなクエリ速度を達成した。
    • KITTIデータセットを用いた評価により,NetVLADはDBoWよりも高い精度とロバスト性を示すことが確認された。
    • 新たに提案されたFine-Grained Top-K precision-recall曲線が,ループクロージャ検出の設定をより適切に反映している。

    Link: https://arxiv.org/abs/2602.01673

  • VRGaussianAvatar:VRへの3Dガウスアバター統合 [cs.CV, cs.GR]目的:VR環境におけるリアルタイム全身3Dガウススプラッティングアバターの実現
    • VR技術は没入感の高い体験を提供し,エンターテイメント,教育,コミュニケーションなど幅広い分野で活用が期待されている。
    • 従来のVRアバターは,計算コストやリアリティの面で課題があり,リアルタイムかつ高品質な全身アバターの実現が困難であった。
    • HMDトラッキング信号のみを用いて,高画質でインタラクティブな3DガウスアバターをVR環境で実現し,アバターの表現力向上を目指す。
    • 本研究で開発したVRGaussianAvatarは,インタラクティブなVRパフォーマンスを維持しながら,高解像度VRディスプレイに対応した効率的なステレオレンダリングを可能にした。
    • ユーザー実験の結果,VRGaussianAvatarは,画像や動画ベースのアバターと比較して,より高い外観類似性,没入感,および現実感をもたらすことが示された。
    • Binocular Batchingにより,左右の視点処理を効率化し,計算量の冗長性を削減することに成功した。

    Link: https://arxiv.org/abs/2602.01674

  • SMTrack:視覚追跡における効率的な時間的モデリングのための状態認識Mamba [cs.CV]目的:視覚追跡における時間的依存関係のモデリング
    • 動画中の対象物の状態推定は重要であり,特に動的な環境下では困難である。
    • 従来のCNNやTransformerは,長距離の時間的依存関係のモデリングに限界がある。
    • 状態空間モデルに着想を得て,計算コストを抑えつつ時間的依存関係を捉える。
    • 提案手法SMTrackは,カスタムモジュールや高コストな計算を必要とせずに,時間的依存関係を構築する。
    • 状態認識空間モデルにより,多様な時間的情報を捉え,ロバストな追跡を実現する。
    • 隠れ状態の伝播と更新により,追跡時の計算コストを削減し,効率的な処理を可能にする。

    Link: https://arxiv.org/abs/2602.01677

  • 滅菌処理用器具トレイの自律的組み立てに向けた試み [cs.RO, cs.AI, cs.CV, cs.LG]目的:滅菌処理部門における手術器具トレイの自動組み立て
    • 手術器具の滅菌処理は,医療安全を確保する上で不可欠なプロセスである。
    • 手作業によるトレイの組み立ては,時間と労力を要し,ヒューマンエラーや汚染のリスクがある。
    • 手術器具トレイの自動組み立てにより,安全性と効率性を向上させることを目指す。
    • 手術器具31種類,約7000枚の画像から構成されるデータセットを用いて,高精度な認識パイプラインを構築した。
    • 6自由度ロボットアームと独自のグリッパー,3Dプリント製の仕切りを組み合わせ,衝突を低減する梱包アルゴリズムを開発した。
    • 実験の結果,本システムは人間の組み立てと比較して,工具同士の衝突を統計的に有意に減少させることが示された。

    Link: https://arxiv.org/abs/2602.01679

  • FreshMem:ストリーミングビデオ理解のための脳にヒントを得た周波数・空間ハイブリッドメモリ [cs.CV, cs.AI]目的:ストリーミングビデオ理解における,周波数・空間ハイブリッドメモリの提案
    • マルチモーダルLLMをオンラインストリーミングビデオ理解へ移行させることは,継続的な知覚に不可欠である。
    • 既存手法は柔軟な適応性に欠け,詳細情報の不可逆的な損失や文脈の断片化を引き起こす。
    • 脳の対数的知覚と記憶の固定化に着想を得たFreshMemにより,この問題を解決する。
    • FreshMemは,Qwen2-VLベースラインを大幅に向上させ,StreamingBench,OV-Bench,OVO-Benchでそれぞれ5.20%,4.52%,2.34%の改善を実現した。
    • 学習不要なソリューションとして,Fine-tuning済みの既存手法を上回り,効率的な長期間ストリーミングビデオ理解パラダイムを提供する。
    • Multi-scale Frequency MemoryとSpace Thumbnail Memoryの相乗効果により,短期的な忠実性と長期的な一貫性を両立する。

    Link: https://arxiv.org/abs/2602.01683

  • RGB-D送電線欠陥検出のためのクロスモーダルアラインメントと融合 [cs.CV, cs.AI]目的:送電線欠陥の検出
    • 送電線の点検は重要であり,欠陥の早期発見が電力供給の安定化に不可欠である。
    • 既存のRGB画像を用いた欠陥検出は,背景の複雑さや照明の変化により困難を伴う。
    • 本研究は,RGB画像と深度情報の融合により,微細な欠陥を高精度に検出することを目指す。
    • 提案手法CMAFNetは,TLRGBDベンチマークにおいて,mAP@50で32.2%を達成し,最先端手法を9.8%上回った。
    • CMAFNetの軽量版は,228 FPSで24.8%のmAP50を達成し,YOLOベースの検出器を凌駕した。
    • 特徴の精製と融合により,モダリティ特有のノイズを抑制し,欠陥の識別能力を高めている。

    Link: https://arxiv.org/abs/2602.01696

  • 思考のゲーム:ゲーム理論を用いた大規模言語モデルの堅牢な情報探索 [cs.CL, cs.AI, cs.GT]目的:大規模言語モデルにおける情報探索能力の向上
    • 現実世界でのLLM利用拡大に伴い,情報不足への対処が重要課題となっている。
    • 既存手法は簡略化された仮定に依存し,最悪ケースでの性能劣化が問題視されている。
    • ゲーム理論に基づき,LLMの情報探索戦略を最適化し,最悪ケースの性能改善を目指す。
    • 提案手法「思考のゲーム」は,ゲーム理論的手法を用いてナッシュ均衡戦略を近似する。
    • 実験結果から,提案手法は直接プロンプティングやヒューリスティック探索と比較して,全ての環境で最悪ケースの性能を向上させることが示された。
    • Twenty Questionsを題材とした戦略的言語探索(SLS)問題をゲームとして定式化し評価を行った。

    Link: https://arxiv.org/abs/2602.01708

  • 物理情報に基づいた生成AIによる顕微鏡画像解析のための労力不要セグメンテーション [cs.CL, cs.CV, cond-mat.mtrl-sci, cs.AI]目的:顕微鏡画像のセグメンテーション手法
    • 材料特性評価において,セグメンテーションは不可欠であり,効率化が求められている。
    • 専門家によるアノテーションはコストと時間がかかり,データ不足が課題となっている。
    • シミュレーションと現実の間のギャップを埋め,アノテーション不要なセグメンテーションを実現する。
    • 物理シミュレーションとCycleGANを用いて,現実的なSEM画像を大量に生成することに成功した。
    • 生成されたデータのみで学習したU-Netモデルは,未知の実験画像でも高い汎化性能を示した(F1スコア0.90,IOU 0.88)。
    • 統計的および特徴量分析により,生成画像と現実の画像分布が同等であることが確認された。

    Link: https://arxiv.org/abs/2602.01710

  • FastPhysGS:内部補完と適応的最適化による物理ベースの動的3DGSシミュレーションの高速化 [cs.CV]目的:物理ベースの動的3DGSシミュレーションの高速化と安定化
    • 3DGSは高品質な3D表現を可能にするが,物理シミュレーションとの統合が課題である。
    • 既存手法はパラメータ調整が難しいか,汎化性能が低い,あるいは不安定な物理挙動を示す。
    • 3DGSの表面構造を考慮し,VLMからのパラメータ予測を効率的に最適化することで,安定した物理シミュレーションを実現する。
    • FastPhysGSは,内部粒子を効率的に生成するIPFと,適応的な最適化戦略BGDOを組み合わせる。
    • 実験により,FastPhysGSは7GBのメモリで1分以内に高品質な物理シミュレーションを実現し,既存手法を凌駕することが示された。
    • 本手法は,幅広い応用可能性を持つ。

    Link: https://arxiv.org/abs/2602.01723

  • DenVisCoM:効率的かつリアルタイムな光流とステレオ推定のためのDense Vision Correspondence Mamba [cs.CV]目的:光流と視差推定の正確かつリアルタイムな推定
    • マルチビュー幾何学とモーション解析は,ロボティクスやコンピュータビジョンの基盤技術である。
    • 既存手法では,精度とリアルタイム処理速度を両立することが困難である。
    • 光流と視差推定を同時に処理することで,効率性と精度を向上させる。
    • 提案手法DenVisCoMは,MambaブロックとTransformerベースの注意機構を組み合わせたハイブリッドアーキテクチャである。
    • 様々なデータセットを用いた実験により,提案手法がリアルタイムで光流と視差を高精度に推定できることが示された。
    • 提案手法は,既存手法と比較して,精度と処理速度のトレードオフを改善している。

    Link: https://arxiv.org/abs/2602.01724

  • 投票に基づくピッチ推定:時間・周波数整列と相関を考慮した選択 [cs.SD]目的:基本周波数推定の精度向上
    • 音声処理において,ピッチ推定は音声認識や歌唱合成など,様々な応用において不可欠な要素である。
    • 従来の投票法は堅牢性を示すものの,その効果の理論的根拠や改善点が十分ではない。
    • 推定器間のずれを補正し,相関を考慮することで,投票法の性能を最大限に引き出す。
    • 投票法における効果の理論的根拠を,誤差分散の削減とコンドルの陪審定理に基づき説明した。
    • 時間・周波数整列による推定器間のバイアス補正と,誤差相関に基づく効果的な推定器選択を提案した。
    • 提案手法は,クリーンな環境下で最先端の推定器を凌駕し,ノイズ環境下でも高い声帯/無声音検出性能を維持した。

    Link: https://arxiv.org/abs/2602.01727

  • 単純さが勝る:ビジョンファウンデーションモデルにおける汎化可能なAIGI検出の出現 [cs.CV]目的:AI生成画像(AIGI)検出における汎化性能の向上
    • AI生成画像の増加に伴い,その真偽を識別する技術の重要性が高まっている。
    • 既存のAIGI検出器は,特定のベンチマークでは高い精度を示すものの,現実世界での性能が低下する。
    • 汎用的なビジョンファウンデーションモデルを活用することで,現実世界でも高い精度を維持できるAIGI検出を目指す。
    • 現代的なビジョンファウンデーションモデルの凍結された特徴量で学習した単純な線形分類器が,最先端の性能を達成した。
    • 標準的なベンチマークだけでなく,未知の生成器や現実世界での分布においても,専門的な検出器を上回る性能を示した。
    • この能力は,合成コンテンツを含む大規模な事前学習データから生じる創発的な特性であると考えられる。

    Link: https://arxiv.org/abs/2602.01738

  • MACD: モデルを意識した反事実データによるコントラストiveデコーディング [cs.AI, cs.CV, cs.LG]目的:ビデオ言語モデルにおけるハルシネーションの軽減
    • ビデオ言語モデルの発展は,視覚情報と言語を繋ぐ上で重要である。
    • 弱い,曖昧,または偏った視覚的証拠の際に,ビデオ言語モデルが根拠のない内容を生成しやすい。
    • モデルの弱点を考慮した反事実データを生成し,より正確な推論を促す。
    • 提案手法MACDは,モデルのフィードバックを用いてハルシネーションの原因となるオブジェクト領域を特定する。
    • 特定されたオブジェクトレベルで反事実データを生成し,コントラストiveデコーディングに組み込む。
    • 実験の結果,MACDは様々なビデオ言語モデルにおいて,ハルシネーションを低減しつつタスク精度を維持・向上させることを示した。

    Link: https://arxiv.org/abs/2602.01740

  • 3D幾何モデルに対する後学習量子化における末尾最適化 [cs.CV]目的:3D幾何モデルの後学習量子化における精度向上とキャリブレーション時間短縮
    • 3Dモデルの複雑化に伴い,リソース制約のある環境での利用が課題となっている。
    • 従来の量子化手法は2D画像向けに最適化されており,3Dモデルへの適用は困難であった。
    • 本研究は,3Dモデル特有の分布に対応し,効率的な量子化を可能とする手法を提案する。
    • 提案手法TAPTQは,粗い段階から細かい段階へと段階的にキャリブレーションを行うことで,データ規模の制約を克服する。
    • 量子化区間探索を最適化問題として定式化し,二分探索を用いることで計算量を削減した。
    • TRE(Tail Relative Error)に着目したモジュール単位の補正により,量子化誤差の蓄積を抑制する。

    Link: https://arxiv.org/abs/2602.01741

  • OFERA:VRにおける現実的なアバターのための,ブレンドシェイプ駆動3Dガウス制御による隠れた表情の制御 [cs.GR]目的:VRヘッドセット使用者のフォトリアリスティックなガウスヘッドアバターに対するリアルタイムな表情制御
    • VRにおける没入感を高めるには,アバターの表情は重要な要素である。
    • 既存手法は,追加センサーやカメラに依存し,重量増加やプライバシー侵害の問題がある。
    • VRヘッドセットのブレンドシェイプ信号を活用し,高精度で軽量な表情制御を実現すること。
    • OFERAは,既存のマッピング手法よりも定量的な評価において優れた性能を示した。
    • ユーザースタディにより,OFERAが表情の再現性を向上させつつ,アバターの現実感を維持することが示された。
    • OFERAは,リアルタイムかつフォトリアリスティックなアバター表情制御を可能にし,VRコミュニケーションにおける臨場感を大幅に向上させる。

    Link: https://arxiv.org/abs/2602.01748

  • ObjEmbed:汎用的なマルチモーダル物体埋め込みに向けて [cs.CV]目的:画像領域と特定のフレーズ間の微細なアラインメント
    • 画像とテキストの理解において,物体と記述文のアラインメントは不可欠な課題である。
    • 既存のマルチモーダル埋め込みモデルは,全体的なアラインメントは得意だが,微細なアラインメントに課題がある。
    • 画像内の各物体に対応する領域埋め込みを生成し,微細なアラインメントの精度向上を目指す。
    • ObjEmbedは,物体ごとの領域埋め込みと全体埋め込みを生成することで,物体の意味的・空間的側面を捉える。
    • 意味的類似度とIoU予測を組み合わせることで,より正確な検索を実現する。
    • 18の多様なベンチマークにおいて,高い識別能力と効率的なエンコーディングを示す。

    Link: https://arxiv.org/abs/2602.01753

  • スポットごとのスマートパーキング:YOLOv11とデジタルツイン統合を用いたエッジ対応アーキテクチャ [cs.CV]目的:スポット単位での駐車場の利用状況の監視と,それを用いた高度なアプリケーションのサポート
    • 都市の交通渋滞緩和や移動の利便性向上に貢献するスマートシティ実現のための基盤技術である。
    • 従来のシステムでは,エリア全体の車両数から空きスペースを推定するため,個々の駐車スペースの状況把握が困難であった。
    • エッジデバイス上でのリアルタイムなスポット単位での監視と,デジタルツインへの発展を目指す。
    • 提案手法は,98.80%という高い精度を維持しつつ,リソースに制約のあるエッジデバイス上で8秒の推論時間を実現した。
    • デジタルシャドウを導入することで,デジタルツインへの進化を促し,視覚的な駐車場エンティティ表現を提供した。
    • 廃TVボックスを再利用したアプリケーションサポートサーバーにより,スケーラブルな通信とハードウェア再利用を促進した。

    Link: https://arxiv.org/abs/2602.01754

  • Mind-Brush:エージェント的認知検索と推論を画像生成に統合 [cs.CV]目的:画像生成における意図理解と知識推論能力の向上
    • 画像生成技術は急速に進歩しているが,真の意図理解が課題である。
    • 既存モデルは静的なテキスト-ピクセル変換に留まり,複雑な知識推論が困難である。
    • 動的な知識駆動型ワークフローにより,モデルの適応性と推論能力を高める。
    • Mind-Brushは,人間の「思考-研究-作成」パラダイムを模倣し,マルチモーダルな証拠を積極的に収集する。
    • 提案されたMind-Benchにより,Mind-BrushがQwen-Imageの性能を大幅に向上させることが示された。
    • WISEやRISEといった既存のベンチマークにおいても優れた結果を達成している。

    Link: https://arxiv.org/abs/2602.01756

  • MagicFuse:視覚的・意味的強化のための単一画像融合 [cs.CV]目的:単一画像からの包括的なクロススペクトルシーン表現の導出
    • 画像融合は,様々なセンサからの情報を統合し,より高度な認識・判断を可能にする重要な技術である。
    • 従来の画像融合は複数のモダリティに依存し,悪条件下では利用が困難となる場合がある。
    • 単一の低品質な可視画像からクロススペクトル情報を再現し,多modal入力と同等の性能を実現する。
    • MagicFuseは,拡散モデルに基づき,可視スペクトルの知識強化と熱放射パターン生成を行うことで,クロススペクトル情報を推定する。
    • 多ドメイン知識融合ブランチにより,生成されたノイズを統合し,クロススペクトルシーン表現を得る。
    • 視覚的・意味的制約を課すことで,人間観察と下流のセマンティック意思決定の両方をサポートする。

    Link: https://arxiv.org/abs/2602.01760

  • MEMS-LiDARとハイブリッドデータを用いた産業環境におけるGDPR準拠の人体認識 [cs.CV]目的:産業環境におけるGDPR準拠の人体認識手法
    • 安全確保のため,産業現場での人体検知の信頼性は重要である。
    • 従来の画像認識は,照明やプライバシー規制に課題がある。
    • LiDARデータと合成データを用いた,プライバシーに配慮した人体検知。
    • MEMS-LiDARを用いることで,個人識別情報を含まない3次元点群データのみを扱うことが可能となった。
    • 実データとCARLAシミュレーションで生成された合成データを組み合わせることで,平均精度が44%向上した。
    • 手動アノテーションの労力を50%削減し,スケーラブルで費用対効果の高い手法であることを示した。

    Link: https://arxiv.org/abs/2602.01764

  • DDP-WM:効率的なワールドモデルのための潜在的動力予測の分離 [cs.CV, cs.RO]目的:効率的なワールドモデルの実現に向けた潜在的動力予測の分離
    • 自律型ロボットの計画において,ワールドモデルは不可欠な要素である。
    • 既存のTransformerベースモデルは計算負荷が高く,リアルタイムでの利用が困難である。
    • 潜在的動力予測の分離により,計算効率と性能の両立を目指す。
    • DDP-WMは,物理的相互作用と背景更新を分離することにより,効率的な動力予測を実現した。
    • Push-Tタスクにおいて,既存モデルと比較して約9倍の推論速度向上と,MPCの成功率が90%から98%に改善された。
    • 本研究は,効率的かつ高精度なワールドモデル開発の有望な道を示すものである。

    Link: https://arxiv.org/abs/2602.01780

  • 単一ショットフィルタリングと循環的配向変換を用いた閉鎖型岩盤露頭点群の不連続面集合の自動特性評価 [cs.CV]目的:閉鎖型岩盤露頭点群における不連続面集合の自動特性評価手法
    • 地下鉱山における岩盤の安定性評価,掘削安全性の確保,および作業効率向上にとって不可欠な研究分野である。
    • 閉鎖型岩盤露頭のような実際の環境において,堅牢かつ効率的な不連続面集合の自動特性評価手法が未確立である。
    • 単一ショットフィルタリング,循環的配向変換,階層的クラスタリングを用いて,この課題の解決を目指す。
    • 提案手法は,実際の鉱山のデータにおいて,既存手法よりも低い平均絶対誤差(傾斜角1.95度,走向角2.20度)を示した。
    • 分散誤差も3度以下であり,不連続面集合の配向推定において高い精度を証明した。
    • 信号処理技術によるノイズ除去と,循環的配向変換による極座標データの正確なカルテシアン空間への変換が精度向上に貢献した。

    Link: https://arxiv.org/abs/2602.01783

  • グループベクトル量子化に基づくニューラル音声コーデックを用いた並列生成型音声強調 [cs.SD]目的:並列生成型音声強調の新しいフレームワーク
    • 音声強調は,通信,補聴器,音声認識など幅広い分野で不可欠な技術である。
    • 既存の生成型音声強調は,複雑さ,効率,音声品質において課題が残されている。
    • 効率性と高品質を両立した,並列処理可能な音声強調手法の確立。
    • 提案手法ParaGSEは,ノイズ,残響,帯域制限など様々な歪みに対して,既存手法よりも優れた性能を示す。
    • グループベクトル量子化に基づき,並列トークン予測を実現することで,生成効率が約1.5倍向上した。
    • ParaGSEは,劣化音声からトークンを抽出し,劣化スペクトル特徴量に基づきクリーンなトークンを並列に予測する。

    Link: https://arxiv.org/abs/2602.01793

  • 長期NDVI予測のための時空間Transformer [cs.DC, cs.CY, cs.CV, cs.LG]目的:長期的なNDVI予測
    • 地表環境の変化を捉え,農業や生態系のモニタリングに不可欠なNDVIの長期予測は重要である。
    • 不均一な景観や長期的な環境変化により,従来の時系列分析では予測精度が制限されていた。
    • 時空間情報を統合的にモデル化することで,予測精度の向上と汎用性の高い分析を目指す。
    • 提案手法STT-LTFは,空間的文脈を考慮したTransformerアーキテクチャにより,従来の統計手法や深層学習モデルを上回る予測性能を達成した。
    • Landsatデータを用いた実験では,MAE 0.0328,R^2 0.8412という高い精度を示し,複雑な地中海生態系における予測の信頼性を示した。
    • 不規則な時間サンプリングや可変の予測期間にも対応可能であり,多様な景観の分析に適している。

    Link: https://arxiv.org/abs/2602.01799

  • 高速自己回帰型ビデオ拡散とテンポラルキャッシュ圧縮および疎な注意機構によるワールドモデル [cs.CV, cs.AI]目的:自己回帰型ビデオ拡散モデルにおける推論時のボトルネック軽減
    • ビデオ生成技術は,長編コンテンツ制作やゲームエンジンなど,幅広い応用が期待される分野である。
    • 自己回帰型ビデオ拡散モデルの推論時におけるKVキャッシュの増大が,遅延増加やGPUメモリ消費の増加を引き起こす。
    • テンポラルキャッシュ圧縮と疎な注意機構により,メモリ使用量と計算量を削減し,長期的な一貫性を維持すること。
    • 提案手法TempCache, AnnCA, AnnSAにより,アテンション計算,計算量,メモリ使用量を削減可能である。
    • 実験により,エンドツーエンドで最大5~10倍の高速化が確認され,視覚品質をほぼ維持した。
    • 長時間のロールアウトにおいて,安定したスループットとほぼ一定のGPUメモリ使用量を実現した。

    Link: https://arxiv.org/abs/2602.01801

  • デジタル交通市場におけるデータ連携の促進:プライバシー保護メカニズムの役割 [eess.SY, cs.GT, cs.SY]目的:デジタル交通市場におけるデータ連携促進のためのプライバシー保護メカニズムの役割
    • ビッグデータ時代において,交通システム改善には,行政と事業者間のデータ連携が不可欠である。
    • データ共有はプライバシー侵害の懸念を生み,データ提供者の意欲を低下させる可能性がある。
    • プライバシー保護メカニズムによってデータ連携を促進し,データサイロを解消することを試みる。
    • 数値研究の結果,データ品質への期待値を低く抑えることで,自発的なデータ共有が促進されることが示された。
    • これにより,行政と事業者双方にとって,交通関連の厚生が向上する。
    • 本研究は,プライバシー保護技術がデータ連携を促進するための政策立案者やシステム設計者への示唆を提供する。

    Link: https://arxiv.org/abs/2602.01804

  • FlowBypass:訓練不要な画像編集のための修正済みフロー軌跡バイパス [cs.CV]目的:訓練不要画像編集における,修正済みフローを用いた軌跡バイパスの構築
    • 画像編集技術は,多様な応用分野において不可欠であり,その効率化が求められている。
    • 既存手法は,反転・再構成軌跡に依存し,軌跡長と品質のトレードオフが存在する。
    • 軌跡長による誤差蓄積を抑制し,編集指示との整合性を高めること。
    • FlowBypassは,反転軌跡と再構成軌跡を直接接続するバイパスを構築することで,誤差蓄積を軽減する。
    • 提案手法は,特徴量操作に依存せず,幅広い画像編集タスクに適用可能である。
    • 実験結果から,FlowBypassは最先端の手法を凌駕し,高い品質を維持しつつ,指示への追従性を向上させる。

    Link: https://arxiv.org/abs/2602.01805

  • 胸部CT画像登録のための大規模変形登録モデルLDRNet [cs.RO, cs.CV]目的:胸部CT画像の登録手法
    • 医療画像解析において,正確な画像登録は診断精度向上や治療計画の精度向上に不可欠である。
    • 既存の深層学習ベースの画像登録アルゴリズムは主に脳画像に焦点を当てており,胸部CT画像の複雑な変形に対応できない。
    • 胸部CT画像に見られる大規模変形に対応し,高速かつ高精度な登録を可能にすること。
    • 提案手法LDRNetは,粗い解像度から徐々に詳細な解像度へと登録フィールドを洗練させることで,大規模変形に対応する。
    • LDRNetは,従来の手法や他の深層学習モデルと比較して,胸部CT画像の登録において最先端の性能を達成した。
    • 特に,LDRNetは高速な処理速度を示すことが確認された。

    Link: https://arxiv.org/abs/2602.01812

  • GPD:高速かつ高品質な動画生成のためのガイド付き漸進的蒸留 [cs.CV]目的:高速かつ高品質な動画生成のためのフレームワーク
    • 動画生成は,AI技術の重要な応用分野であり,コンテンツ制作やエンターテイメントに革新をもたらす。
    • 拡散モデルは計算コストが高く,特に動画生成においては処理速度が課題となっている。
    • 拡散プロセスのステップ数を削減しつつ,動画の品質を維持することが本研究の目的である。
    • GPDは,教師モデルが段階的に生徒モデルを指導することで,より大きなステップサイズで動作させ,動画生成を高速化する。
    • オンライン生成された学習ターゲットと潜在空間における周波数領域制約により,計算効率と詳細な情報の保持を両立する。
    • Wan2.1モデルに適用した結果,サンプリングステップ数を48から6に削減しつつ,VBenchで競合する視覚品質を維持した。

    Link: https://arxiv.org/abs/2602.01814

  • 視覚こそが信条か? 視覚的錯覚と異常に対するマルチモーダル大規模言語モデルのベンチマーク [cs.CV]目的:視覚的錯覚と異常に対するマルチモーダル大規模言語モデルの性能評価
    • マルチモーダルモデルは,現実世界での応用が期待されるため,その性能評価は重要である。
    • 既存の評価データは,一般的なデータに偏っており,常識に反する状況への耐性が不明である。
    • 視覚的錯覚と異常に対するモデルの脆弱性を明らかにし,知覚のボトルネックを解消することを目指す。
    • 既存の20以上の最先端マルチモーダル大規模言語モデルにおいて,著しい脆弱性が明らかになった。
    • Chain-of-Thought (CoT)推論は,錯覚刺激に対してロジックが崩壊する「脆い蜃気楼」を示すなど,頑健性の向上には寄与しない。
    • 機械と人間の知覚の根本的な違いが示唆され,汎用人工知能の発展には知覚的ボトルネックの解消が不可欠である。

    Link: https://arxiv.org/abs/2602.01816

  • ADAS向け,ストリートビュー画像を利用した効率的な国間データ収集戦略 [cs.MM, cs.RO, cs.CV]目的:ADASおよびADSの国間展開におけるデータ収集戦略
    • ADAS/ADSの普及には,各国固有の法規やインフラへの適応が不可欠である。
    • 従来のデータ収集はコストと時間がかかり,代表的な場所の特定が困難である。
    • ストリートビュー画像を用いて,効率的かつ経済的なデータ収集を可能とする。
    • 提案手法は,ランダムサンプリングと同等の性能を,半分のデータ量で達成した。
    • 交通標識検出において,国間での外観の違いに強い適応性を示した。
    • 大規模なストリートビュー処理が経済的に実現可能であることを示した。

    Link: https://arxiv.org/abs/2602.01836

  • SPIRIT:統一された単一・複数フレーム赤外線微小目標検出のためのビジョン基盤モデルの適応 [cs.CV]目的:赤外線微小目標検出における,単一フレーム解析とビデオモード追跡を統合する解決策
    • 監視や早期警戒において赤外線微小目標検出は不可欠であり,多様な応用が期待されている。
    • 赤外線データは希少であり,既存のビジョン基盤モデルの直接的な適用には課題があった。
    • 赤外線微小目標検出に適応した,軽量な物理情報に基づくプラグインの提案。
    • 提案手法SPIRITは,ビジョン基盤モデルを赤外線微小目標検出に適合させるための統一的なフレームワークである。
    • 空間的には,PIFRが特徴を洗練し,背景を抑制し,微小目標を強調する。
    • 時間的には,PGMAが過去の情報を活用し,フレーム間の関連性を高め,ロバストなビデオ検出を実現する。

    Link: https://arxiv.org/abs/2602.01843

  • 未知条件下における視覚のみによる布のダイナミクス学習 CloDS [cs.CV, cs.AI]目的:未知の条件下における布のダイナミクス学習
    • 現実世界の物理シミュレーションは重要であり,その精度向上は様々な応用を可能とする。
    • 従来の深層学習手法は物理特性の事前知識に依存するため,未知の条件下での適用が困難である。
    • 本研究は,視覚情報のみから布のダイナミクスを学習し,未知の条件下でもロバストな挙動予測を目指す。
    • CloDSは,マルチビューの視覚観測から布のダイナミクスを教師なしで学習する新しいフレームワークである。
    • ビデオから幾何形状を生成する過程で,双方向マッピングを可能にする二重位置の不透明度変調を導入している。
    • 実験により,CloDSが視覚データから布のダイナミクスを効果的に学習し,未知の構成に対しても高い汎化能力を示すことが確認された。

    Link: https://arxiv.org/abs/2602.01844

  • WS-IMUBench:オーディオ,画像,動画からの弱学習手法はIMUベースの時間行動局所化に適応可能か [cs.CV]目的:IMUベースの時間行動局所化における弱学習手法の適用可能性の評価
    • IMUを用いた行動認識は,ユビキタスコンピューティングの応用を広げている
    • 既存手法は,高コストで拡張性の低いフレームレベルのアノテーションに依存している
    • シーケンスレベルラベルのみを用いた弱学習による局所化の実現を目指す
    • オーディオ,画像,動画分野の弱学習手法をIMUデータに適用し,その転移可能性を評価した。
    • 時間領域手法は,画像由来の提案ベース手法よりも安定した転移が見られた。
    • 弱学習は,行動が長く,高次元センシングを持つデータセットにおいて,良好な結果を示した。

    Link: https://arxiv.org/abs/2602.01850

  • モデルは視覚的指示をどの程度理解するか:VIBE - 視覚的指示駆動型画像編集のための体系的なベンチマーク [cs.CV]目的:視覚的指示駆動型画像編集におけるモデルの性能評価
    • 画像編集技術は,創造的な表現や実用的な応用において重要性が増している。
    • 既存の画像編集システムはテキスト指示に偏っており,視覚的指示の活用が十分でない。
    • 視覚的指示に基づいた画像編集能力の評価基準を確立し,モデルの課題を明確にすること。
    • VIBEベンチマークは,指示の複雑さに応じた3段階の階層構造で評価を行う。
    • 大規模言語モデルを評価者として活用する評価フレームワークを提案した。
    • プロプライエタリモデルはオープンソースモデルより優れた性能を示すものの,タスクの難易度が高いほど性能が低下する。

    Link: https://arxiv.org/abs/2602.01851