arXiv雑要約

画像・音声 - 2026/03/26 公開

  • 深層特徴量に基づく変形重みの算出 [cs.CV, cs.GR]目的:ハンドルベースのメッシュ変形における,滑らかで視覚に配慮した変形重みの算出法
    • 形状編集において,直感的かつ高精度な変形は重要な課題である。
    • 従来のハンドルベース手法では,適切なハンドル配置が困難である。
    • 視覚的な情報を活用し,リアルタイムで変形重みを算出することを目指す。
    • 深層特徴量の近さを利用することで,追加の正則化なしに滑らかで視覚的に自然な変形重みを算出できる。
    • バリアセントリック特徴量蒸留により,メッシュ解像度への依存性を低減し,高速な処理を実現した。
    • 特徴空間における制約と局所重み付けにより,従来の変形手法の特性を維持・拡張し,自動的な視覚的対称性の検出と対称性を維持した変形を可能にした。

    Link: https://arxiv.org/abs/2601.12527

  • 継続的なGUIエージェント [cs.LG, cs.CV]目的:GUI環境の変化に対する継続学習の安定化
    • GUI環境は常に変化するため,適応能力が重要である。新しいGUIデータが継続的に出現する。
    • 静的な環境で訓練されたエージェントは,GUI分布が変化すると性能が低下する。
    • GUI分布の変化に対応し,継続学習を安定化させる手法を開発する。
    • 本研究では,GUI-Anchoring in Flux (GUI-AiF)という新しい強化学習によるファインチューニングフレームワークを提案した。
    • GUI-AiFは,変化するインタラクションポイントと領域にエージェントを適合させることで,継続学習を安定化させる。
    • 実験の結果,GUI-AiFは最先端のベースラインを上回る性能を示した。

    Link: https://arxiv.org/abs/2601.20732

  • 比較判断に基づく画像キャプション評価モデリング [cs.CV, cs.LG]目的:画像キャプション評価のモデリング
    • 画像キャプションは記述的な注釈に広く利用されており,その評価は重要である。
    • キャプションの正確性評価は時間と労力を要し,主観に左右されやすい。
    • 比較判断を利用することで,より効率的かつ客観的な評価を目指す。
    • 比較判断に基づく学習モデルは,直接評価に基づく回帰モデルと同等の性能を達成した。
    • VICRデータセットにおいて,提案モデルはベースラインモデルを性能面で上回った。
    • 比較判断は,直接評価よりも迅速な結果と高いアノテーター間一致度を示すことが示された。

    Link: https://arxiv.org/abs/2602.00381

  • 幾何学的な思考:空間推論のための能動的な幾何学統合 [cs.CV]目的:空間推論のための能動的な幾何学統合フレームワーク
    • マルチモーダル大規模言語モデルにおける空間推論能力の向上が重要視されている。
    • 既存の幾何学統合戦略は受動的であり,意味と幾何学のずれや冗長な信号が生じやすい。
    • タスクに応じた幾何学的証拠の選択的取得と統合を可能にし,空間知能を向上させる。
    • GeoThinkerはVSI-Benchで72.6という最先端のスコアを達成し,空間知能において新たな基準を確立した。
    • 複雑な下流タスク(embodied referring,自動運転など)において,頑健な汎化性能と空間知覚の著しい向上が確認された。
    • 空間構造の能動的な統合が,次世代の空間知能に不可欠であることが示唆された。

    Link: https://arxiv.org/abs/2602.06037

  • データに基づいた二分木を用いた画像特徴帰属の決定法:ShapBPT [cs.CV, cs.LG]目的:画像特徴帰属の決定
    • 機械学習モデルの予測根拠解明は,信頼性向上や意思決定支援に不可欠である。
    • 既存手法では,画像データの多階層構造を活かしきれておらず,計算コストが高い。
    • 画像固有の形態構造に沿った,効率的かつ意味のある特徴帰属を目指す。
    • ShapBPTは,画像に特化した二分木構造を活用し,特徴帰属と画像形態の整合性を高める。
    • 既存手法と比較して,計算効率が向上し,より解釈性の高い帰属マップを生成する。
    • ユーザー実験の結果,ShapBPTによる説明が人間の直感に合致することが確認された。

    Link: https://arxiv.org/abs/2602.07047

  • SPARE:パラメータ効率的な削除のための自己蒸留 [cs.CV, cs.AI, cs.LG]目的:機械学習モデルからの特定データや概念の影響除去
    • データ保護規制や責任あるAIの実践において,モデルからのデータ削除能力が重要になっている。
    • テキストから画像への拡散モデルにおけるアンラーニングは,計算コストが高く,忘却と維持のバランスが難しい。
    • SPAREは,拡散モデルにおける効率的かつ制御された概念の削除を目指す。
    • SPAREは,勾配に基づく重要度とスパース低ランクアダプタを用いて,パラメータの局所的な修正を可能にする。
    • 自己蒸留を通じて,不要な概念をユーザー定義の代替概念で上書きし,他の概念の動作を維持する。
    • UnlearnCanvasベンチマークにおいて最先端の結果を達成し,忘却-維持のトレードオフを細かく制御できることを示した。

    Link: https://arxiv.org/abs/2602.07058

  • OmniCustom:共同オーディオ・ビデオ生成モデルによるオーディオ・ビデオカスタマイズの同期 [cs.CL, eess.SY, cs.SY, cs.SD, cs.AI, cs.MM, eess.AS]目的:オーディオ・ビデオのカスタマイズ同期
    • 動画生成技術はエンターテイメントから教育まで幅広く活用され,その重要性は増している。
    • 既存手法では,画像とテキストに基づいたカスタマイズが中心で,オーディオの音色との同期が課題であった。
    • 画像と音声を同時に制御し,両方の特徴を反映した動画生成を可能にすることを目指す。
    • 提案手法 OmniCustom は,参照画像と参照音声を元に,動画の人物と音声を同時にカスタマイズする。
    • LoRAモジュールとコントラスト学習により,人物と音色の両方の特徴を高い精度で再現する。
    • 大規模なオーディオ・ビジュアルデータセットで学習することで,既存手法を上回る性能を達成した。

    Link: https://arxiv.org/abs/2602.12304

  • OpenEarthAgent:ツール拡張型地理空間エージェントのための統一フレームワーク [cs.CV]目的:ツール拡張型地理空間推論のための統一フレームワーク
    • 地球観測技術は,都市,環境,災害など,幅広い分野で重要な役割を担う。
    • 衛星画像などの地理空間データに対する高度な推論は,空間スケールや地理構造の理解を必要とするため困難である。
    • 本研究は,地理空間データの推論を円滑にするための統一的なエージェントアーキテクチャを構築し,その能力を評価することを目指す。
    • OpenEarthAgentは,衛星画像,自然言語クエリ,構造化された推論軌跡を用いて学習された,ツール拡張型地理空間推論のための統一フレームワークである。
    • このフレームワークは,多様な地理空間タスクにおいて,安定した空間理解と解釈可能なツール駆動型行動を示す。
    • 既存のモデルと比較して,一貫した性能向上が確認された。

    Link: https://arxiv.org/abs/2602.17665

  • サイクル一貫性マスク予測によるクロスビュー物体対応学習 [cs.AR, cs.CV]目的:異なる視点間の物体レベルの視覚的対応付け
    • ロボット工学や拡張現実など,視覚情報を活用する分野において,物体の対応付けは重要な課題である。
    • 視点変化による物体の外観変化が大きく,正確な対応付けが困難であるという課題が存在する。
    • 自己教師あり学習により,ラベルなしデータからも頑健な視点不変表現を獲得し,対応付け精度向上を目指す。
    • 提案手法は,条件付き二値セグメンテーションに基づき,クエリマスクを潜在表現にエンコードすることで対応物体の局所化を誘導する。
    • サイクル一貫性学習を導入することで,予測マスクを元のクエリマスクに再構成し,視点不変な表現を獲得する。
    • Ego-Exo4DおよびHANDAL-Xのベンチマークで最先端の性能を達成し,テスト時学習の有効性を示す。

    Link: https://arxiv.org/abs/2602.18996

  • ChordEdit:画像編集のためのワンステップ低エネルギー輸送 [cs.CV]目的:画像編集における高忠実度なワンステップ編集の実現
    • 近年の画像生成モデルの発展は目覚ましいが,編集処理は速度や品質の面で課題が多い。
    • 既存の編集手法は複数ステップを要し,オブジェクトの歪みや一貫性の喪失といった問題が生じやすい。
    • 本研究は,テキストによる指示に基づき,高品質かつ迅速な画像編集を実現する手法を提案する。
    • ChordEditは,動的最適輸送理論に基づき,低エネルギーな制御戦略を導出する。
    • これにより,編集フィールドの安定性を高め,単一のステップで編集を可能にする。
    • 実験により,ChordEditが高速,軽量,かつ高精度な編集を実現することが確認された。

    Link: https://arxiv.org/abs/2602.19083

  • ExpPortrait:パーソナライズされた表現を用いた表現力豊かなポートレート生成 [cs.DB, cs.HC, cs.CV, cs.GR]目的:表現豊かで一貫性があり,制御可能なシネマティックなポートレート動画の生成
    • ポートレート生成は,映像制作やバーチャルコミュニケーションにおいて重要な役割を担う分野である。
    • 既存手法は,表情と個性の分離が不十分で,細部の再現に課題がある。
    • 高精度な個人化された頭部表現により,より自然でリアルなポートレート動画の生成を目指す。
    • 提案手法は,既存モデルと比較して,個人性の保持,表情の正確性,時間的な安定性において優れた性能を示す。
    • 特に複雑な動きにおける微細な詳細のキャプチャにおいて,その効果が顕著である。
    • 高精度な頭部表現と表情転送モジュールにより,多様な表情を伴う高品質なポートレート動画を生成できる。

    Link: https://arxiv.org/abs/2602.19900

  • CADC:内容適応型拡散ベースの画像生成圧縮 [cs.CV]目的:拡散モデルを用いた画像生成圧縮における内容適応性の向上
    • 超低ビットレートでの高画質再構成が期待される画像圧縮技術の重要性が高まっている。
    • 既存手法では,画像内容への適応性が低く,効率的な圧縮と再構成が困難である。
    • 画像内容に応じて量子化や情報伝達を最適化し,高効率な圧縮を実現することを目指す。
    • 本研究では,画像の複雑さに応じて量子化誤差を調整する「不確実性ガイド型適応量子化」を提案した。
    • また,補助的なデコーダを用いて重要な意味情報を保持する「補助デコーダガイド型情報集中」を開発した。
    • さらに,ビットレートコストなしで意味的ガイダンスを実現する「ビットレートフリー適応テキスト条件化」を導入した。

    Link: https://arxiv.org/abs/2602.21591

  • クラスタをスキャンせよ:効率的な超高解像度画像復元のクラスタ中心パラダイム [cs.CV]目的:超高解像度画像復元における効率化
    • 超高解像度画像の復元は,映像技術の発展に伴い重要性が増している。
    • 従来のピクセル単位の処理は計算コストが高く,超高解像度画像には不向きである。
    • 本研究は,ピクセル単位からクラスタ単位への処理に転換することで,効率化を目指す。
    • C$^2$SSMは,画像の特徴をクラスタに集約し,そのクラスタをスキャンすることで計算量を削減する。
    • クラスタ中心をスキャンし,文脈情報を拡散させることで,超高解像度画像復元における計算効率と性能を向上させる。
    • 5つの超高解像度画像復元タスクにおいて,最新技術を上回る結果を達成した。

    Link: https://arxiv.org/abs/2602.21917

  • Neu-PiG:長時系列における高速な動的表面再構成のためのニューラル事前条件化グリッド [cs.CV]目的:動的3Dオブジェクトの時系列的に一貫性のある表面再構成
    • 現実世界の多くの応用において,時間変化する3D形状の正確な把握が不可欠である。
    • 既存手法は,ドリフトや長時間実行,あるいはカテゴリ特化的な学習が必要となる場合が多い。
    • キーフレーム表面に基づいた事前条件化された潜在グリッド符号化による高速な変形最適化を実現する。
    • Neu-PiGは,既存の最先端手法と比較して,高い精度と長時系列へのスケーラビリティを提供する。
    • トレーニング不要の手法よりも少なくとも60倍高速に動作し,事前学習済みモデルと同程度の推論速度を実現する。
    • Sobolev事前条件化により,明示的な対応関係や事前知識なしで,高精度かつドリフトフリーな再構成を秒単位で達成する。

    Link: https://arxiv.org/abs/2602.22212

  • Dehallu3D:単一画像からの3D生成における幻覚軽減 – 循環的な視点一貫性による改良 [cs.DB, cs.CV]目的:単一画像からの3Dメッシュ生成における幻覚の軽減
    • VR/ゲーム等の分野で3Dコンテンツ生成の重要性が高まる中,大規模3D再構成モデルの活用が広がっている。
    • 大規模3D再構成モデルは幻覚を起こしやすく,入力データから逸脱した構造異常(穴や突起)を生じやすいという課題がある。
    • 生成される3Dモデルの構造的欠陥を解消し,より高品質な3Dコンテンツの生成を目指す。
    • 提案手法Dehallu3Dは,密な中間視点間で滑らかな遷移を強制するバランスの取れた多視点連続性制約を設計することで,幻覚を軽減する。
    • 隣接視点の一貫性を確保し,細かい幾何学的特徴を維持する適応的な平滑化を組み合わせることで,高精度な3D生成を実現する。
    • 提案するOutlier Risk Measure (ORM)指標を用いて,3D生成における幾何学的忠実度を定量的に評価し,その有効性を実証した。

    Link: https://arxiv.org/abs/2603.01601

  • TikZilla:高品質データと強化学習によるテキストからTikZへのスケーリング [cs.AI, cs.CL, cs.CV]目的:テキスト記述からTikZプログラムを生成するタスクにおける性能向上
    • 科学研究において,テキストによる記述から高品質な図を生成するニーズが高まっている。
    • 既存のテキストからTikZへのデータセットは規模が小さくノイズが多く,複雑なTikZを捉えきれていない。
    • 大規模かつ高品質なデータセットと強化学習を用いて,TikZ生成の精度と信頼性を高める。
    • 本研究では,DaTikZ-V4という大規模かつ高品質なデータセットを構築した。
    • TikZillaは,このデータセットを用いて,SFTと強化学習を組み合わせたQwenモデル(3Bと8B)を学習した。
    • 人間による評価の結果,TikZillaはGPT-4oを上回り,GPT-5と同等の性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.03072

  • 視覚言語モデルのテスト時堅牢性の拡張:自己批判的推論フレームワーク [cs.CY, cs.AR, cs.CL, cs.HC, cs.CV]目的:視覚言語モデルのテスト時堅牢性の向上
    • 大規模言語モデルの発展によりマルチモーダル学習が進む中で,視覚言語モデルの信頼性確保が重要となる。
    • 既存の学習方法では言語モデルへの依存度が高く,言語バイアスや言語感受性といった脆弱性が存在する。
    • 言語バイアスと感受性を同時に解決し,より信頼性の高い視覚言語モデルを開発することを目指す。
    • 自己批判的推論(SCI)フレームワークにより,視覚的・言語的摂動を用いた複数回の反事実推論が可能となり,堅牢性が向上する。
    • SCIは,既存の単一ステップ反事実推論法よりも多くの推論ラウンド数で,さらに堅牢性を高めることが示された。
    • 動的堅牢性ベンチマーク(DRBench)により,モデルごとの評価が可能となり,従来の固定されたベンチマークの限界を克服する。

    Link: https://arxiv.org/abs/2603.07659

  • DriveXQA:悪天候下における運転シーン理解のためのクロスモーダルVisual Question Answering [eess.SY, cs.SY, cs.CV]目的:悪天候下における運転シーン理解のためのクロスモーダルVisual Question Answeringデータセットおよびアーキテクチャ
    • 自動運転技術の安全性向上には,多様なセンサ情報を統合し,状況を正確に把握することが不可欠である。
    • 既存のMLLMは,複数の補完的な視覚モダリティを効果的に活用して悪天候下の運転シナリオを理解する点が不十分である。
    • 本研究は,悪天候下やセンサ故障時においても正確な状況認識を可能にする,新しいデータセットとモデルアーキテクチャを提案する。
    • DriveXQAは,運転シーンの理解に必要な,多様な視覚モダリティ,故障ケース,気象条件を含む大規模なQAデータセットである。
    • MVX-LLMは,Dual Cross-Attention機構を用いてモダリティ間の冗長性を軽減し,効率的な情報融合を実現する。
    • 実験により,MVX-LLMが霧などの悪条件下において,ベースラインと比較して大幅に性能が向上することが示された。

    Link: https://arxiv.org/abs/2603.11380

  • GPT4o-Receipt:AI生成文書のフォレンジックに関するデータセットと人間による研究 [cs.AI, cs.CV]目的:AI生成の金融書類の検出能力に関する人間と機械の比較
    • AI生成技術の進化に伴い,生成された文書の真偽判定の重要性が高まっている。
    • AI生成文書の識別は困難であり,既存の検出手法では誤検知や見逃しが発生しやすい。
    • AI生成文書の識別における人間とLLMの能力差を明らかにし,より効果的な検出手法を開発すること。
    • 人間はAI生成文書の視覚的特徴の識別には優れるものの,AI生成文書全体の検出精度は低いという逆説的な結果が得られた。
    • AI生成レシートに見られる主なフォレンジック信号は,人間には認識できない計算ミスである。
    • LLMは計算ミスを高速に検証できるため,人間よりもAI生成文書の検出精度が高い。

    Link: https://arxiv.org/abs/2603.11442

  • OSMDA:OpenStreetMapに基づくリモートセンシングVLMsのドメイン適応 [cs.RO, cs.CV, cs.LG]目的:リモートセンシング用VLMsのドメイン適応手法
    • リモートセンシング技術は,環境モニタリングや災害対応など,社会課題解決に不可欠である。
    • リモートセンシング画像の高品質なアノテーション作成は,コストと時間がかかるという課題がある。
    • OSMデータを利用し,教師モデルに依存しないドメイン適応を実現し,学習コスト削減を目指す。
    • OSMDAは,OpenStreetMapとリモートセンシング画像を組み合わせることで,自己完結型のドメイン適応フレームワークを構築した。
    • 実データと混合した場合,10のベンチマークで最先端の結果を達成し,既存手法よりも大幅に安価に学習できることを示した。
    • 強力な基盤モデルがあれば,クラウドソーシングされた地理データとの連携が,リモートセンシングのドメイン適応の有効な手段となることを示唆する。

    Link: https://arxiv.org/abs/2603.11804

  • 拡散モデルにおける内在的な思考連鎖推論の拡張:EndoCoT [cs.HC, cs.RO, cs.DB, cs.CV, cs.CL]目的:複雑なタスクにおける思考連鎖推論の活性化と,拡散モデルへの統合
    • 画像生成AIの発展に伴い,複雑なタスク解決に言語モデルを活用する研究が進んでいる。
    • 既存手法では,言語モデルの推論能力が不十分であり,段階的な指示分解が困難である。
    • 言語モデルの推論能力を最大限に引き出し,拡散モデルの性能向上を目指す。
    • EndoCoTは,言語モデルの潜在的な思考状態を反復的に洗練させ,段階的なノイズ除去プロセスを可能にする。
    • 最終状態を正解との整合性によって固定することで,推論経路の信頼性を確保している。
    • Maze,TSP,VSP,Sudoku等の多様なベンチマークにおいて,平均正答率92.1%を達成し,既存手法を8.3%上回る性能を示した。

    Link: https://arxiv.org/abs/2603.12252

  • VCBench:長編動画における空間的・時間的状態維持のためのストリーミングカウントベンチマーク [cs.NI, cs.RO, cs.CV]目的:長編動画における空間的・時間的状態維持能力の診断のためのストリーミングカウントベンチマーク
    • 動画理解は,AI技術の発展において重要な課題であり,多様な応用が期待されている。
    • 既存のベンチマークでは,モデルが動画中の状態をどのように維持しているかの評価が不十分である。
    • 動画中の状態維持能力を評価するための新たなベンチマークを提供し,その課題を明確にすること。
    • VCBenchは,オブジェクトカウントとイベントカウントの8つの細分化されたカテゴリで構成される。
    • 主流の動画-言語モデルの評価により,空間的・時間的状態維持において顕著な課題が残ることが示された。
    • VCBenchは,動画理解システムの状態維持能力を測定・改善するための診断フレームワークを提供する。

    Link: https://arxiv.org/abs/2603.12703

  • ビデオLLMにおけるジオメトリ誘導カメラモーション理解 [cs.CV, cs.AI]目的:ビデオLLMにおけるカメラモーション理解の改善
    • 視覚知覚や映画表現において,カメラモーションは重要な幾何学的要素である。
    • 既存のビデオLLMはカメラモーションを明示的に表現しておらず,微細な動きの認識に課題がある。
    • 3D基礎モデルからの幾何学的カメラキューと構造化プロンプティングによるカメラモーション理解の向上を目指す。
    • 大規模合成データセットCameraMotionDatasetを構築し,カメラモーションを制約付きマルチラベル認識として定式化した。
    • 様々な既存のビデオLLMにおいて,カメラモーションの認識に大きな誤りがあることを確認した。
    • 軽量なパイプラインにより幾何学的カメラキューを抽出し,ビデオLLMへの注入を通じてカメラモーション認識を改善した。

    Link: https://arxiv.org/abs/2603.13119

  • 浮動小数点数演算下におけるリプシッツに基づくロバスト性検証 [cs.LG, cs.CV, cs.PL]目的:ニューラルネットワークのロバスト性検証
    • ニューラルネットワークの安全性確保は,自動運転や医療など,重要な応用分野において不可欠である。
    • 既存の検証手法は実数演算を仮定しており,実際の浮動小数点数演算との乖離が問題となっていた。
    • 浮動小数点数演算環境下でのロバスト性を保証する理論と実装を提供し,検証の信頼性を高める。
    • 実数演算によるロバスト性保証が,浮動小数点数演算下では破綻するケースが存在することが示された。
    • 実数演算のリプシッツ定数に基づく感度解析と,浮動小数点数演算の感度解析を結びつける理論が開発された。
    • 理論に基づいた検証器を実装し,その実用性が確認された。

    Link: https://arxiv.org/abs/2603.13334

  • 1つのトークンでのピクセルレベルのシーン理解:視覚的状態にはwhat-is-whereの構成が必要である [cs.CV, cs.AI, cs.LG, cs.RO]目的:視覚的状態表現の学習
    • ロボットが動的な環境で動作するには,視覚情報の効率的な表現が不可欠である。
    • 既存の自己教師あり学習法は汎化性能が高いが,良好な視覚的状態が何をエンコードすべきかを明示していない。
    • シーン要素の識別と空間位置を同時にエンコードすることで,微妙な変化を捉える視覚的状態の獲得を目指す。
    • 提案手法CroBoは,グローバルからローカルへの再構成という学習目標に基づき,コンパクトなボトルネックトークンからシーンを再構築する。
    • 学習の結果,ボトルネックトークンはシーン全体の意味的エンティティ,位置,構成に関する詳細な表現をエンコードする。
    • 実験により,学習された視覚的状態はシーン要素の動きと相互作用を捉え,ロボットの意思決定を支援することが示された。

    Link: https://arxiv.org/abs/2603.13904

  • 分散型二層強化学習のためのサンプル効率の良いハイパー勾配推定 [cs.LG, cs.AI, cs.GT, cs.MA]目的:分散型二層強化学習におけるハイパー勾配推定手法
    • 倉庫ロボットの環境設計など,戦略的決定問題の解決に不可欠な枠組みである。
    • リーダーがフォロワーの最適化過程に介入できない分散環境での学習が困難である。
    • フォロワーの最適戦略の変化を考慮したハイパー勾配の効率的な推定を実現する。
    • ボルツマン共分散トリックを用いることで,リーダーの決定空間が高次元でもサンプル効率の良いハイパー勾配推定が可能となった。
    • 本手法は,分散環境下における2人マルコフゲームに対するハイパー勾配最適化を初めて実現した。
    • 離散状態および連続状態のタスクにおいて,ハイパー勾配更新の効果と有効性が確認された。

    Link: https://arxiv.org/abs/2603.14867

  • 存在としてのアイデンティティ:外見と声の個別化された同時オーディオ・ビデオ生成に向けて [cs.CV]目的:外見と声の個別化された同時オーディオ・ビデオ生成のためのフレームワーク
    • コンテンツ作成において,特定の個人を反映した生成技術への需要が高まっている。
    • 外見と声の音色を細かく制御できる,広く利用可能なフレームワークが存在しない。
    • 外見と声の両方でアイデンティティを制御可能な生成フレームワークを開発する。
    • 提案手法は,単一または複数被写体に対応する柔軟なアイデンティティ注入メカニズムを導入した。
    • オーディオとビジュアルのモダリティ間の差異を考慮し,収束を加速させるための多段階学習戦略を設計した。
    • 実験により,提案フレームワークの優位性が示された。一貫性のある個別化された生成が可能である。

    Link: https://arxiv.org/abs/2603.17889

  • DarkDriving:暗環境における自動運転のための昼夜対応リアルワールドデータセット [cs.CV, cs.DB]目的:暗環境における自動運転のための低照度画像改善に関する調査
    • 自動運転技術の発展において,暗視性能は安全性向上の鍵となるため重要である。
    • 既存の低照度画像改善データセットは,収集範囲が狭く,動的な運転シーンに対応できない。
    • 昼夜対応のリアルワールドデータセットを提供することで,暗環境下での自動運転技術開発を促進する。
    • 本研究で構築したDarkDrivingデータセットは,9,538組の正確に位置・内容が一致する昼夜画像ペアを含む。
    • データセットは,低照度画像改善,汎化性能評価,2D/3D物体検出といった自動運転関連の4つのタスクに対応する。
    • 実験結果から,DarkDrivingは自動運転における低照度画像改善の包括的なベンチマークとなり,他の環境への汎化も可能であることが示された。

    Link: https://arxiv.org/abs/2603.18067

  • 進化的に安定なシュタッケルベルク均衡 [cs.RO, cs.GT, cs.AI, cs.MA, econ.TH, q-bio.PE]目的:進化的に安定なシュタッケルベルク均衡の概念
    • 動的ゲーム理論は,生物学や経済学における戦略的相互作用を理解する上で重要である。
    • 従来のシュタッケルベルクゲームは,フォロワーの行動が安定化されていない場合がある。
    • フォロワー集団の進化的に安定な戦略を考慮した均衡概念を提示し,安定性を保証する。
    • 本研究では,進化的に安定な戦略(ESS)への侵入を防ぐことを明示的に強制する,新しい均衡概念を提示した。
    • 離散ゲームと連続ゲームの両方において,SESSを計算するためのアルゴリズムが開発され,連続ゲームでは経験的に検証された。
    • このモデルは,癌治療における医師と癌細胞の表現など,生物学的設定に自然に適用できる。

    Link: https://arxiv.org/abs/2603.18385

  • オントロジー誘導拡散によるゼロショット視覚Sim2Real転送 [cs.CV, cs.AI]目的:シミュレーションから現実世界への転送の実現
    • ロボット工学やコンピュータビジョンの発展において,シミュレーション環境での学習を現実世界へ応用する技術は重要である。
    • 現実世界のラベル付きデータが不足しているため,シミュレーションと現実世界のギャップを埋めることが課題となっている。
    • オントロジーを用いて現実世界の構造化された知識を導入し,データ効率の良いSim2Real転送を実現する。
    • オントロジー誘導拡散(OGD)は,現実性を解釈可能な特性のオントロジーとして表現するニューロシンボリックなフレームワークである。
    • OGDは,既存手法と比較して,現実画像と合成画像の識別性能が向上している。
    • ベンチマークテストの結果,OGDは最先端の拡散法よりも優れたSim2Real画像翻訳性能を示した。

    Link: https://arxiv.org/abs/2603.18719

  • EdgeCrafter:タスク特化型蒸留によるエッジデバイス向けコンパクトなViT [cs.CV]目的:エッジデバイスにおける高精度な密予測モデルの実現
    • 計算資源の制約下でも高精度な画像認識技術が求められているため。
    • コンパクトなViTは,CNNに比べて精度と効率のバランスが取りにくい。
    • タスク特化型蒸留とエッジ対応設計により,ViTの性能向上を目指す。
    • EdgeCrafterは,COCOデータセットにおいて1000万パラメータ以下で51.7 APを達成した。
    • インスタンスセグメンテーションでは,RF-DETRと同等の性能を,より少ないパラメータで実現した。
    • ポーズ推定では,YOLO26Pose-Xを上回る74.8 APを達成し,ViTの有効性を示した。

    Link: https://arxiv.org/abs/2603.18739

  • LLMを用いた画像編集の評価:包括的なベンチマークと中間層プローブによるアプローチ [cs.CV]目的:テキスト指示による画像編集手法の系統的な評価
    • 画像編集技術は,創造性や表現力を拡張する上で不可欠であり,様々な応用分野で活用されている。
    • 既存の評価指標は規模が限られており,人間の知覚判断との相関が弱いという課題がある。
    • 人間の知覚に合致した,より信頼性の高い画像編集評価手法を確立すること。
    • 大規模なベンチマークTIEditを構築し,画像編集の品質,指示への適合性,元のコンテンツの保存という3つの側面から評価を行った。
    • LLMを用いた評価器EditProbeを提案し,中間層の表現を用いることで,従来の評価指標よりも人間の知覚との相関が強いことを示した。
    • TIEditとEditProbeは,テキスト指示による画像編集手法の信頼性の高い評価基盤を提供する。

    Link: https://arxiv.org/abs/2603.19775

  • 拡散に基づく顔領域認識メイク特徴を用いたメイクアップ転送 [cs.CV]目的:顔領域を意識したメイクアップ特徴によるメイクアップ転送手法の開発
    • メイクアップ転送技術は,バーチャル試着や画像編集などに応用可能であり,エンターテインメント分野やECサイトでの利便性向上に貢献する。
    • 既存手法では,汎用的な事前学習済みモデルの限界からメイクアップスタイルを正確に捉えきれていない場合がある。
    • 顔領域ごとのメイクアップ特徴を考慮することで,より自然で制御可能なメイクアップ転送を実現する。
    • 提案手法では,GPT-o3と画像編集モデルを用いてメイクアップスタイルデータを合成し,メイクアップCLIPエンコーダを自己教師あり学習でファインチューニングすることで,メイクアップスタイルの表現力を向上させている。
    • 顔領域認識メイク特徴(FRAM)は,ソース画像と参照画像のアイデンティティとメイクアップを拡散モデルに注入する学習方法であり,アテンション損失を用いて領域制御を可能にしている。
    • 実験結果から,提案手法は領域制御の優位性とメイクアップ転送の性能が向上していることが確認された。

    Link: https://arxiv.org/abs/2603.20012

  • F4Splat:フィードフォワード予測による3Dガウススプラッティングの密度化 [cs.CV]目的:フィードフォワード3Dガウススプラッティングにおける密度化戦略
    • 3Dシーンの高速再構成とリアルタイムレンダリングが重要視されている。
    • 既存手法では,ガウスの配置に冗長性が高く,ガウス数の制御が難しい。
    • 空間的複雑性と多視点オーバーラップに基づいた適応的なガウス配置を実現する。
    • F4Splatは,密度化スコアに基づいたガウス配置戦略により,ガウス数を削減しつつ高品質な3D表現を生成する。
    • 実験の結果,既存のフィードフォワード手法と比較して,新規視点合成性能が向上し,使用するガウス数は大幅に減少した。
    • 本手法は,ガウスの総数を明示的に制御可能であり,再学習の必要がない。

    Link: https://arxiv.org/abs/2603.21304

  • 同一性分離型オープンセットプライバシー保護ビデオ表情認識のための事前知識 [cs.HC, cs.CV]目的:ビデオベースのプライバシー保護表情認識における,同一性情報の分離と保護
    • 表情認識は有用だが,顔データは個人情報を含み,プライバシー侵害のリスクがある。
    • 既存手法は,未知の個人が登場する現実的なオープンセット環境でプライバシー保護が難しい。
    • 同一性ラベルを用いずに,プライバシー保護と表情認識精度の両立を目指す。
    • 提案手法は,同一性抑制ネットワークとノイズ除去モジュールからなる二段階フレームワークを用いる。
    • 同一性抑制ネットワークは,ラベルなしビデオから得られる事前知識を用いて,個人情報を匿名化する。
    • 実験結果から,提案手法はプライバシーを保護しつつ,教師ありデータと同等の精度を達成できることが示された。

    Link: https://arxiv.org/abs/2603.21387

  • マルチモーダルベイズ分布学習による点群解析への適応 [cs.CV]目的:ドメインシフト下における点群解析モデルの適応
    • 3Dビジョンと自然言語処理の融合は,多様な3Dタスクで高い性能を発揮する。
    • ドメインシフトが発生すると,既存のモデルの性能は著しく低下する。
    • テスト時適応により,モデルがテストデータを用いてオンラインで適応する。
    • BayesMMは,テキスト事前情報とストリーミング視覚特徴をガウス分布としてモデル化する。
    • テキストパラメータはセマンティックプロンプトから,視覚パラメータは到着するサンプルでオンライン更新される。
    • ベイズモデル平均化により,両モダリティを統合し,分布シフト下でも高いロバスト性を実現する。

    Link: https://arxiv.org/abs/2603.22070

  • 視覚言語モデルにおける脱獄攻撃に対する原理に基づいた操舵:零空間投影による防御 [cs.CV]目的:視覚言語モデルの安全性と信頼性を高めるための防御手法
    • 視覚言語モデルは実世界で利用が増加しており,安全性の確保が重要である。
    • 視覚的な脱獄攻撃により,有害なコンテンツが生成されるリスクがある。
    • 安全性と性能のバランスを取りながら,脱獄攻撃に対する堅牢な防御を実現する。
    • NullSteerは,零空間投影によって,有害な方向への応答を誘導しつつ,良質な入力に対する性能劣化を抑制する。
    • 様々な脱獄攻撃において,有害な出力の発生率を平均15%以上削減することを示した。
    • 一般的なベンチマークにおける性能は,元のモデルと同等レベルを維持している。

    Link: https://arxiv.org/abs/2603.22094

  • PAM:シミュレーションから現実世界へのHOI動画生成のための姿勢・外観・運動エンジン [cs.CV]目的:HOI動画生成のための統合的なエンジン開発
    • 具現化されたAIやAR/VRの発展において,手と物体のインタラクション理解が不可欠である。
    • 既存研究は姿勢推定,静止画からの生成,動画生成と分断されており,統合的な手法が課題である。
    • 姿勢,外観,運動を統合し,シミュレーションデータを現実世界へ応用する動画生成を目指す。
    • DexYCBデータセットにおいて,既存手法InterDynやCosHandと比較してFVDとMPJPEが大幅に改善された。
    • OAKINK2データセットでは,マルチ条件モデルがFVDを大幅に低減し,性能向上を示した。
    • 合成データを用いた訓練データ拡張により,手首関節姿勢推定タスクにおいて実データのみで訓練した場合と同等の精度を達成した。

    Link: https://arxiv.org/abs/2603.22193

  • 潜在検証器による推論時スケーリングの微小化 [cs.CV, cs.AI, cs.MM]目的:生成モデルの推論時スケーリングによる性能向上
    • 生成モデルの性能向上が求められており,推論時の効率化が重要である。
    • 従来の検証器は計算コストが高く,推論時間の増加を招いていた。
    • 拡散モデルの中間表現上で検証を行い,計算コストを削減する。
    • 提案手法VHSは,従来のMLLM検証器と比較して,推論時間,FLOPs,VRAM使用量をそれぞれ大幅に削減した。
    • わずかな推論予算でも,VHSはより効率的な推論時スケーリングを可能にする。
    • GenEvalの評価において,同等の推論時間予算で+2.7%の性能向上を達成した。

    Link: https://arxiv.org/abs/2603.22492

  • 言語モデルはステアリングによって視覚的特徴を説明できる [eess.SY, cs.SY, cs.CV, cs.AI]目的:視覚モデルにおける特徴の説明
    • 深層学習モデルの解釈可能性は,モデルの信頼性と安全性を高める上で重要である。
    • 視覚モデルの特徴を人間が介入せずに説明することは困難な課題である。
    • 言語モデルを用いて,視覚特徴が表す概念を自動的に説明することを試みる。
    • ステアリングという手法により,入力例に基づく従来のアプローチを補完するスケーラブルな説明が可能となった。
    • 言語モデルの規模が大きいほど,説明の質が向上することが示された。
    • ステアリングと入力例に基づく手法を組み合わせたSteering-informed Top-kが,最先端の説明品質を達成した。

    Link: https://arxiv.org/abs/2603.22593

  • グループ編集:一度に複数画像を編集 [cs.CV]目的:関連画像群に対する一貫性のある統一的な修正
    • 画像編集技術は,コンテンツ制作や視覚効果において不可欠であり,その効率性と品質が重要である。
    • 複数の画像間で視点や配置が異なる場合,一貫した編集が難しく,手動での修正に多大な労力がかかる。
    • 画像間の対応関係を確立し,意味的に整合性のとれた領域に正確に修正を適用することで,効率的なグループ編集を実現する。
    • 提案手法GroupEditingは,明示的な幾何学的対応と暗黙的な関係性を組み合わせることで,複数画像の編集の一貫性と品質を向上させる。
    • VGGTによる幾何学的対応と,事前学習済みの動画モデルによる時間的相関を利用し,効果的な融合機構を導入している。
    • 新しいデータセットGroupEditDataとベンチマークGroupEditBenchを構築し,実験的に既存手法を大きく上回る性能を示す。

    Link: https://arxiv.org/abs/2603.22883

  • SLARM:動的シーンのためのストリーミングおよび言語対応再構成モデル [cs.CV]目的:動的シーン再構成,意味理解,リアルタイムストリーミング推論の統合
    • 動的シーンの理解は,ロボット工学や自動運転などの応用において不可欠である。
    • 既存手法では,複雑な動きの正確な捉え方や,セマンティクスと幾何学の連携が課題となっていた。
    • 言語による質問への応答を可能にし,再構成の精度とロバスト性を向上させることを目指す。
    • SLARMは,微分可能なレンダリングのみを用いて高次の運動モデリングを学習し,複雑な非一様運動を捉える。
    • LSegからの意味特徴を蒸留することで,言語に整合した表現を獲得し,セマンティッククエリを可能にする。
    • 動的推定の精度が21%,再構成PSNRが1.6dB,セグメンテーションmIoUが20%向上し,最先端の結果を達成した。

    Link: https://arxiv.org/abs/2603.22893

  • サブネットワーク修正を用いた二重教師蒸留によるブラックボックスドメイン適応 [cs.CV, cs.LG]目的:ブラックボックスドメイン適応のためのモデル
    • 現実的な応用が多く,データやモデルが利用できない状況でのドメイン適応は重要である。
    • 既存手法はノイズの多い教師データやViLの潜在能力の不十分な活用に課題がある。
    • ブラックボックスモデルとViLの知識を統合し,より正確なドメイン適応を実現する。
    • 提案手法は,ブラックボックスモデルとViLの予測を統合し,信頼性の高い擬似ラベルを生成する。
    • サブネットワーク駆動の正則化により,ノイズによる過学習を抑制する。
    • 擬似ラベルとViLプロンプトの反復的な改善により,適応精度を高める。

    Link: https://arxiv.org/abs/2603.22908

  • メッシュ条件付き画像拡散によるナビ可能な多部屋3Dシーン生成:WorldMesh [cs.CV]目的:ナビ可能な多部屋3Dシーンの生成
    • 没入型体験の向上やバーチャル環境構築において,高品質な3Dシーンの自動生成が不可欠である。
    • 大規模な3Dシーン生成において,シーン・オブジェクトレベルの一貫性維持が課題となっていた。
    • メッシュ構造を条件とした画像生成により,大規模かつ一貫性のある3Dシーン生成を実現する。
    • テキスト記述からメッシュ構造を構築し,オブジェクト配置とリアルな外観合成を行うことで,大規模3Dシーンを生成する。
    • メッシュ構造をレンダリングし,画像生成を条件付けることで,外観の一貫性を担保する。
    • このアプローチにより,ロバストな3D一貫性とフォトリアリスティックな詳細を兼ね備えたシーン生成が可能となる。

    Link: https://arxiv.org/abs/2603.22972

  • 階層型全スライド画像理解のためのマルチモーダル大規模言語モデル:MLLM-HWSI [cs.CV]目的:階層型全スライド画像理解の実現
    • 病理診断は細胞レベルから組織全体まで,多階層の情報統合が重要である。
    • 既存モデルは画像を単一の埋め込みに圧縮し,詳細な根拠の特定が困難である。
    • 本研究は,多階層の視覚的証拠と言語を整合させ,より解釈可能な診断支援を目指す。
    • MLLM-HWSIは,細胞,パッチ,領域,WSIといった異なるスケールで視覚的特徴と病理言語を整合させる。
    • 多階層コントラスト学習とクロススケール一貫性損失により,細胞からWSI全体まで意味的な一貫性を維持する。
    • 13のWSIレベルベンチマークで最高水準の性能を達成し,病理診断ワークフローに合致した解釈可能な出力を提供する。

    Link: https://arxiv.org/abs/2603.23067

  • PoseDriver:自律走行のための多カテゴリ骨格検出の統一的アプローチ [cs.CV, cs.HC]目的:自律走行における多カテゴリ骨格検出の統一的フレームワーク
    • 自動運転には,姿勢や方向を把握する構造情報の簡潔な表現が不可欠である。
    • 入力画像から複数のカテゴリとインスタンスを同時に処理する統一的なアーキテクチャが存在しない。
    • 自動運転シナリオで一般的なオブジェクトの骨格検出に関する課題を解決する。
    • 提案手法PoseDriverは,様々なタスクを体系的に扱うことで,高い性能を実現した。
    • 車線検出において,骨格表現に基づいた新たなアプローチで最先端の性能を達成した。
    • 自転車の骨格検出データセットを新たに作成し,フレームワークの汎化性能を評価した。

    Link: https://arxiv.org/abs/2603.23215

  • 結び目分類のための実世界ベンチマークKnot-10:トポロジー的難易度分析 [cs.CV]目的:実世界の結び目分類のためのベンチマークデータセットと,そのトポロジー的難易度の分析
    • 結び目分類は,細粒度な画像認識課題であり,実用的な応用可能性を秘めている。
    • 従来の画像認識手法では,外観の特徴に依存しやすく,結び目の構造的な違いを捉えにくい。
    • 本研究では,外観の特徴を抑制したデータセットを用いて,結び目のトポロジー的特徴に基づいた分類を目指す。
    • Knot-10ベンチマークデータセットを構築し,緩く結ばれた結び目で学習し,きつく締めた結び目で評価する構成とした。
    • Swin-TとTransFGは97.2%の高い精度を達成したが,PMGは94.5%であり,ジグソーパズルシャッフルが結び目の連続性を損なうことが示唆された。
    • トポロジー距離と誤分類パターンには有意な相関関係が認められ,TACA正則化は埋め込みとトポロジーの整合性を向上させた。

    Link: https://arxiv.org/abs/2603.23286

  • 特徴学習からスペクトル基底学習へ:効率的かつロバストな形状マッチングのための統一的かつ柔軟なフレームワーク [cs.CV]目的:効率的かつロバストな形状マッチングのための統一的フレームワーク
    • 形状マッチングは,コンピュータグラフィックスとビジョンの基本的なタスクであり,その精度向上は重要な課題である。
    • 既存手法は特徴表現の学習に偏重し,機能マップパイプラインの重要な要素であるスペクトル基底の最適化が不十分である。
    • 学習可能なスペクトル基底を導入し,効率性とロバスト性を向上させることで,形状マッチングの精度向上を目指す。
    • 提案手法Advanced Functional Mapsは,固定された基底関数を学習可能なものに置き換えることで,標準的な機能マップを一般化する。
    • スペクトル基底は学習された抑制関数を通じて最適化され,非剛体3D形状マッチングにおいて高いロバスト性を示す。
    • 基底関数の最適化はスペクトル畳み込みと同等であり,抑制関数がフィルタとして機能するという洞察を得た。

    Link: https://arxiv.org/abs/2603.23383

  • MedAugment:医学画像解析のための汎用自動データ拡張プラグイン [eess.IV, cs.CV]目的:医学画像のデータ不足を解消するための自動データ拡張手法
    • 医学画像解析は,診断精度向上に不可欠だが,十分な学習データが不足しがちである。
    • 既存のデータ拡張手法は,専門知識や計算コストが必要であり,汎用性に欠ける場合がある。
    • 自然画像と異なり,医学画像の特性を考慮した効率的なデータ拡張手法を開発する。
    • MedAugmentは,ピクセルと空間の拡張空間を提案し,医学的詳細を損なう操作を除外することで,高品質なデータ拡張を実現した。
    • 限られた操作数からのサンプリング戦略と,単一のハイパーパラメータによる制御により,拡張レベルを合理的に調整できる。
    • 分類とセグメンテーションの複数のデータセットで優位性が示され,計算コストも軽微である。

    Link: https://arxiv.org/abs/2306.17466

  • 心臓MRIのための汎用的な深層学習システム [eess.IV, cs.CV, cs.LG]目的:心臓MRIにおける広範な心血管疾患と健康状態の表現
    • 心臓MRIは心筋の構造,機能,組織特性を総合的に評価でき,臨床的に重要である。
    • 従来の深層学習モデルは,大量のラベル付きデータが必要であり,汎用性に欠ける場合がある。
    • 自己教師あり学習を用いて,少ないデータで高精度な診断を可能にすることを目指す。
    • 本研究で開発した深層学習システムは,39種類の心臓疾患の診断において高い精度を示した。
    • UK BioBankを含む複数のデータセットで検証され,優れた汎化性能が確認された。
    • 既存の手法と比較して,少ない学習データで同等の性能を達成できることが示された。

    Link: https://arxiv.org/abs/2312.00357