arXiv雑要約

画像・音声 - 2026/03/17 公開

  • テキスト画像生成のためのエージェント補正器 [cs.CV, cs.AI]目的:テキスト画像生成における歪みの補正
    • 近年,テキストから画像を生成する技術が発展したが,生成画像の品質向上が課題である。
    • 既存手法では,修正にコストがかかるか,局所的な修正の信頼性に課題がある。
    • 人間の知覚・推論・行動ループを模倣し,歪みを正確に特定・修正する手法を開発する。
    • 提案手法「Agentic Retoucher」は,歪みの局所化,原因の推論,修正計画において優れた性能を示す。
    • 新しいデータセット「GenBlemish-27K」を構築し,歪みの定量的な評価を可能にした。
    • 既存の最先端手法と比較して,知覚品質,歪みの特定精度,ユーザーの好みに合致する修正において優れている。

    Link: https://arxiv.org/abs/2601.02046

  • MorphGS:動画からの形態適応型関節3Dモーション転送 [cs.CV]目的:単眼動画からリギッド化された3Dキャラクターへの関節運動転送
    • 人間理解やバーチャルリアリティにおいて,自然な3Dモーションの再現は不可欠である。
    • 2D映像からの姿勢推定の曖昧さや,ソースとターゲットの形態差が課題となる。
    • 中間的な3D再構成に依存せず,形態と姿勢を直接最適化することで,モーション転送の質を向上させる。
    • MorphGSは,モーション転送をターゲット駆動型の解析的合成問題として定式化し,画像空間での監督学習によってターゲットの形態と姿勢を直接最適化する。
    • キャラクターのアイデンティティと時間変化する関節回転を分離する形態パラメータ化と,高密度な2D-3D対応関係,合成された視点を利用することで,構造と多視点ガイダンスを提供する。
    • 合成ベンチマークおよび実環境の動画実験において,既存手法と比較して一貫した改善が示された。

    Link: https://arxiv.org/abs/2601.02716

  • LAMB:コーシー・シュワルツのダイバージェンスを用いたモダリティギャップブリッジングによるLLMベースの音声キャプション生成 [cs.SD, cs.AI]目的:音声の内容を意味的に記述すること
    • 音声処理技術は,音声データの理解と活用において不可欠であり,様々な応用分野で重要性が増している。
    • 従来の音声特徴量をLLMの埋め込み空間へ単純に投影する手法では,モダリティ間の整合性が不十分になり,性能が制限される。
    • 音声とテキスト間の整合性を高め,LLMの推論能力を最大限に活用することで,高精度な音声キャプション生成を目指す。
    • 提案手法LAMBは,音声埋め込みとLLMテキスト埋め込み空間間のモダリティギャップを効果的に埋めるクロスモーダルアライナーを導入する。
    • クロスモーダルアライナーは,コーシー・シュワルツのダイバージェンスを最小化しつつ,相互情報量を最大化することで,音声とテキストの緊密な整合性を実現する。
    • 実験結果から,LAMBがLLMデコーダの推論能力を強化し,AudioCapsデータセットにおいて最先端の性能を達成することが確認された。

    Link: https://arxiv.org/abs/2601.04658

  • 潜在拡散モデルにおける潜在表現の分離同調による性能向上 [cs.CV]目的:生成に有利なVAEの設計
    • 高画質画像生成において,VAEによる潜在空間の圧縮が重要である。
    • LDMとVAEでは表現要求が異なり,単純な特徴量写像では意味崩壊が起こりやすい。
    • VAEにおける細粒度な属性情報の維持と構造化された潜在空間の実現。
    • 本研究では,LDMのグローバルな意味性とVAEの細粒度な分離能力の差異に着目した。
    • Semantic-Disentangled VAE (Send-VAE) を提案し,非線形写像によりVAEとVFMの構造を効果的に繋いだ。
    • ImageNet 256x256において,FID 1.21を達成し,最先端の生成品質を示した。

    Link: https://arxiv.org/abs/2601.05823

  • GeoMotionGPT:大規模言語モデルによる幾何学的整合性のある動作理解 [cs.CL, cs.CL, cs.CV, cs.AI]目的:動作理解と動作-言語推論のための大規模言語モデルの活用
    • 人間の動作理解は,ロボット工学やコンピュータグラフィックスなど,様々な分野で重要である。
    • 既存手法では,動作の量子化と意味埋め込み学習が分離されており,動作空間の幾何学的構造が十分に反映されていない。
    • 動作空間と埋め込み空間の幾何学的整合性を明示的に高め,より高度な動作推論能力を実現すること。
    • 本研究では,動作コードブックとLLM埋め込み空間の両方に対して直交性を強制する新しいフレームワークを提案した。
    • 提案手法は,HumanML3DおよびKIT-MLにおいて,最良のベースラインと比較してそれぞれ22.4%,14.4%の集計平均向上を示した。
    • トークナイザー,投影,正則化の設計が有効であることが,消去実験によって確認された。

    Link: https://arxiv.org/abs/2601.07632

  • 自己超越:拡散Transformer学習の加速に外部特徴ガイダンスは不可欠か? [cs.CV]目的:拡散Transformerの学習加速
    • 拡散モデルは画像生成において高い性能を示すが,学習には膨大な計算資源が必要となる。
    • 外部特徴によるガイダンスは学習を加速するが,外部依存性を生むという課題がある。
    • モデル内部のみで学習を促進し,外部依存性を取り除くことを目指す。
    • 本研究では,内部特徴の構造的整頓性と意味的識別力を高めることで,効率的な学習を実現した。
    • VAE潜在特徴とのアラインメントと,classifier-free guidanceを組み合わせることで,性能向上に成功した。
    • 提案手法は,外部特徴を用いたREPAを上回り,生成品質と収束速度の両面で優れた結果を示した。

    Link: https://arxiv.org/abs/2601.07773

  • RAG-3DSG:再撮影誘導検索拡張生成による3Dシーングラフの強化 [cs.HC, cs.CV, cs.AI, cs.RO]目的:3Dシーングラフの信頼性向上
    • ロボティクスにおける環境理解の精度向上が不可欠であり,構造化された意味表現が重要である。
    • 既存手法では,オクルージョンや視点制限により意味的不整合が生じやすいという課題がある。
    • 再撮影による不確実性推定を用いて,意味的なノイズを軽減し,より信頼性の高いシーン表現を実現する。
    • RAG-3DSGは,再撮影誘導による不確実性推定を導入し,オブジェクトレベルの検索拡張生成を行う。
    • 低不確実性オブジェクトを意味アンカーとして活用し,信頼性の高い文脈知識を検索することで,不確実なオブジェクトの予測を修正する。
    • 3つのベンチマークと実世界のロボット実験において,高い再現率と適合率を達成し,優れた性能を示した。

    Link: https://arxiv.org/abs/2601.10168

  • 非線形ダイナミクスの学習のための安定化可能微分モダール合成 [cs.SD, cs.LG, eess.AS, physics.comp-ph]目的:非線形ダイナミクスの学習
    • 物理モデリング合成は長年の課題であり,現実世界の複雑な現象を理解する上で重要である。
    • 非線形問題への拡張は困難であり,安定した数値解法が求められている。
    • スカラー補助変数法とニューラル常微分方程式を組み合わせ,安定で学習可能なモデルを構築する。
    • スカラー補助変数法とニューラル常微分方程式を組み合わせることで,安定した微分モデルが実現可能となった。
    • このモデルは,系の物理パラメータを学習後も容易にアクセスできるようにする。
    • 弦の非線形横振動の合成データを用いて,モデルが非線形ダイナミクスを再現できることを示した。

    Link: https://arxiv.org/abs/2601.10453

  • SuperOcc:超二次元に基づくOccupancy予測のための凝集的な時間的モデリングへ [cs.CV]目的:超二次元に基づく3次元Occupancy予測のための新たなフレームワーク
    • 自動運転において,周囲環境の理解は不可欠であり,3次元Occupancy予測はその重要な役割を担う。
    • 既存手法は密なシーン表現に依存し,現実世界の疎な環境を捉えきれていない。
    • 超二次元の表現を用いて,時間的モデリングの改善,疎性と表現力のトレードオフ,効率的なスプラッティングを実現する。
    • SuperOccは,視点中心と物体中心の時間的特徴を同時に活用する凝集的な時間的モデリング機構を導入した。
    • 複数の超二次元を用いたデコーディング戦略により,クエリの疎性を維持しながら幾何学的表現力を向上させた。
    • SurroundOccおよびOcc3Dベンチマークにおいて,最先端の性能と優れた効率を両立している。

    Link: https://arxiv.org/abs/2601.15644

  • EmotionThinker:説明可能な音声感情推論のための韻律を考慮した強化学習 [cs.SD]目的:音声感情推論における説明可能性の向上
    • 音声に含まれる感情情報は,多感覚知覚において重要な役割を果たす。近年,その重要性が認識されている。
    • 従来の音声感情認識システムは,感情理解を単なる分類問題として扱っているため,解釈可能性に課題がある。
    • 本研究は,強化学習を通じて音声感情推論を深い推論問題として再定義し,説明可能性を向上させることを目指す。
    • EmotionThinkerは,微細な音響的手がかりに基づいて,正確な感情予測と解釈可能な説明を生成する。
    • EmotionCoT-35Kという,Chain-of-Thoughtアノテーションと詳細なキャプションを含む感情推論データセットを構築した。
    • 韻律の強化が感情理解を向上させることを示し,GRPO-PTRという強化学習手法を導入することで,推論品質を向上させた。

    Link: https://arxiv.org/abs/2601.15668

  • AGE-Net:スペクトル空間融合と解剖学的グラフ推論による膝変形性関節症のグレード判定 [cs.CV]目的:膝変形性関節症のグレード判定における自動化手法の開発
    • 膝関節の画像診断は,変形性関節症の早期発見と適切な治療に不可欠である。
    • レントゲン画像におけるわずかな構造変化や,グレード境界付近の曖昧さが自動判定の課題となる。
    • スペクトル空間と解剖学的構造を考慮し,不確実性を明示的に扱うことで,より正確なグレード判定を目指す。
    • 提案手法AGE-Netは,既存のCNNベースラインを上回り,QWKで0.9017±0.0045,MSEで0.2349±0.0028を達成した。
    • スペクトル空間融合,解剖学的グラフ推論,そして微分精緻化が,グレード判定精度の向上に寄与している。
    • 不確実性の質,頑健性,説明可能性に関する評価も行われ,さらなる詳細な実験結果は論文本文に記載される予定である。

    Link: https://arxiv.org/abs/2601.17336

  • SPACE-CLIP:単眼深度推定のための適応的CLIP埋め込みによる空間認識 [cs.CV]目的:単眼深度推定のための空間認識手法
    • ロボット工学や自動運転において,周囲環境の正確な3次元把握は不可欠である。
    • CLIPは強力な意味表現を提供するが,高密度な幾何学的予測には適していない。
    • CLIPの潜在表現を直接利用し,テキストエンコーダを介さずに深度を予測する。
    • SPACE-CLIPは,KITTIデータセットにおいてAbsRel 0.0901,NYU Depth V2データセットにおいて0.1042を達成した。
    • シーンレベルの文脈と微細な空間情報を階層的に融合することで,効果的な深度推定を実現した。
    • 凍結されたバックボーン設定で安定した学習が可能であり,再現性のある実装を支援する。

    Link: https://arxiv.org/abs/2601.17657

  • VibeVoice-ASR技術報告 [cs.CL, cs.SD, cs.AI, eess.AS]目的:長尺音声における文脈の断片化と複数話者の複雑さへの対処
    • 近年の音声認識技術の進歩にも関わらず,長尺音声の理解は依然として課題である。
    • 従来のパイプライン処理では,長尺音声の分割が必要であり,処理効率が低下する。
    • 長尺音声の単一パス処理,多言語対応,コードスイッチングへの対応を実現する。
    • VibeVoice-ASRは,最長60分間の音声を単一パスで処理可能である。
    • 自動音声認識,話者分離,タイムスタンプを統合したエンドツーエンドの生成タスクを実現した。
    • プロンプトベースの文脈注入機構により,特定のドメインにおける精度が向上する。

    Link: https://arxiv.org/abs/2601.18184

  • NaVIDA: 逆ダイナミクス増強による視覚言語ナビゲーション [cs.CV, cs.AI]目的:視覚言語ナビゲーションにおける逆ダイナミクス増強の有効性
    • 視覚言語ナビゲーションは,ロボットの自律的な行動に不可欠な技術である。
    • 従来のナビゲーション手法は,行動と視覚変化の関連性を十分に学習できていない。
    • 行動に基づく視覚変化のモデル化により,より安定したナビゲーションを目指す。
    • NaVIDAは,逆ダイナミクスによる教師あり学習を通じて,視覚変化を予測する能力を獲得する。
    • HPACを用いることで,より長期間の計画を可能にし,ナビゲーションの安定性を向上させる。
    • 実験により,NaVIDAが既存手法よりも優れた性能を発揮し,少ないパラメータで同等以上の結果を達成することが示された。

    Link: https://arxiv.org/abs/2601.18188

  • 深度画像からの臓器局在化:放射線科ワークフローにおける自動患者ポジショニング [cs.CV]目的:放射線科における自動患者ポジショニングのための,深度画像からの臓器局在化
    • 放射線検査の効率化は,患者ケアの向上と医療資源の最適化に不可欠である。
    • 手動による患者ポジショニングには,時間と人的資源を要し,オペレーターによるばらつきが生じやすい。
    • 深度画像のみから臓器の位置を特定し,自動ポジショニングを支援することで,検査時間の短縮を目指す。
    • 本研究では,単一の2D深度画像から3D臓器の位置と形状を予測する学習ベースのフレームワークを提案した。
    • ドイツ国立コホート(NAKO)データセットを用いて学習した結果,平均ダイス係数は0.44±0.2であった。
    • また,臓器バウンディングボックスの平均絶対検出オフセットは10.99±5.54mmであり,実臨床での応用が期待される。

    Link: https://arxiv.org/abs/2601.18260

  • ニューラルオーディオ透かしに対する攻撃としての自己ボイス変換 [cs.SD, cs.AI]目的:オーディオ透かしに対する自己ボイス変換による攻撃の検討
    • 音声コンテンツ保護の重要性が高まる中,デジタル透かし技術の安全性確保が不可欠である。
    • 従来の攻撃手法では対応できない,深層学習を用いた新たな攻撃手法が出現している。
    • 深層学習に基づく自己ボイス変換が,オーディオ透かしのセキュリティに及ぼす影響を明らかにする。
    • 自己ボイス変換は,話者の同一性を維持しつつ音響特性を変化させることで,既存の透かし技術の信頼性を著しく低下させる。
    • この攻撃は,圧縮,ノイズ,リサンプリングといった従来の歪みに対する脆弱性とは異なる,新たな脅威をもたらす。
    • 本研究は,現代のオーディオ透かし技術のセキュリティに対する自己ボイス変換の影響を浮き彫りにした。

    Link: https://arxiv.org/abs/2601.20432

  • 継続的なGUIエージェント [cs.LG, cs.CV]目的:GUI環境の変化下における継続学習
    • デジタル環境は常に変化しており,GUIエージェントの適応能力が重要である。
    • 従来のGUIエージェントは,GUIデータの変化に弱く,性能が低下しやすい。
    • GUIデータの変化に対応し,安定した性能を維持できるエージェントの開発。
    • 本研究では,GUIデータの変化に対応する継続学習フレームワークGUI-AiFを提案した。
    • GUI-AiFは,APR-iFとARR-iFという2つの報酬関数を用いて,エージェントの学習を安定化させる。
    • 実験の結果,GUI-AiFは既存の最先端手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2601.20732

  • 球面座標による埋め込み圧縮 [cs.LG, cs.CV]目的:単位ノルム埋め込みの圧縮手法
    • 機械学習モデルの規模拡大に伴い,埋め込み表現の効率的な保存が重要である。
    • 既存の圧縮手法では,十分な圧縮率と復元精度の両立が課題であった。
    • 球面座標の特性を利用し,より高効率な埋め込み圧縮を実現する。
    • 本手法は,既存の可逆圧縮手法と比較して1.5倍の圧縮率を達成する。
    • IEEE 754 指数の集中と,上位マンティッサビットの予測可能性により,エントロピー符号化が可能となる。
    • テキスト,画像,マルチベクトル埋め込みを含む26の設定で一貫した改善が確認された。

    Link: https://arxiv.org/abs/2602.00079

  • 自己回帰型ビデオ拡散における有限の訓練期間と無限のテスト期間の架け橋:ローリングシンク [cs.CV]目的:自己回帰型ビデオ拡散モデルの訓練期間の限界とテスト期間のギャップ
    • ビデオ生成の分野において,高画質かつ長時間の動画生成が求められている。
    • 訓練期間が限られているため,テスト時に動画が長くなると画質が劣化しやすいという課題がある。
    • 訓練期間外のテストにおける画質劣化を,訓練なしで改善することを目指す。
    • 本研究で提案するローリングシンクは,短いクリップで訓練されたモデルでも,非常に長い動画を生成できる。
    • 生成された動画は,一貫した被写体,安定した色,そして滑らかな動きを実現している。
    • 実験結果から,ローリングシンクは既存手法よりも優れた長時間の動画品質と時間的一貫性を示す。

    Link: https://arxiv.org/abs/2602.07775

  • 資源を考慮したロバストな操作:分布の不整合を抑制することによる実現 [cs.RO, cs.CV]目的:ロバストなロボット操作の実現
    • ロボット操作の信頼性向上は,製造業やサービス業における自動化を促進し,労働力不足の解消に貢献する。
    • 実世界の複雑な動特性を捉えるには大規模なデータと計算資源が必要であり,ロバストな操作が課題となっている。
    • 人間のデモンストレーション,方策の誘導バイアス,実行時の分布間の不整合を軽減し,多段階タスクにおける誤差の蓄積を抑制する。
    • 提案手法$\chi_{0}$は,モデル算術,段階的利点,学習・展開アライメントの3つの技術的基盤により,資源効率の高いロバストな操作を実現した。
    • $\chi_{0}$を用いて,2台のデュアルアームロボットが衣類の平滑化,折り畳み,吊り下げなどの長時間の操作を協調して行うことに成功した。
    • 実験の結果,$\chi_{0}$は最先端手法$\pi_{0.5}$と比較して,成功率が約250%向上し,20時間のデータと8基のA100 GPUで実現された。

    Link: https://arxiv.org/abs/2602.09021

  • 視覚と言語表現を用いたスペクトルクラスタリングの探求 [cs.CV]目的:視覚と言語表現を利用したスペクトルクラスタリング手法
    • 教師なし学習の分野で重要な手法であり,データの構造を明らかにすることに貢献する。
    • 単一のモダリティに依存したアプローチが多く,マルチモーダル表現の潜在能力が十分に活かされていない。
    • 事前学習済みの視覚と言語モデルを活用し,マルチモーダルなクラスタリングを実現すること。
    • 提案手法は,視覚的な近接性と意味的な重複を組み合わせたアフィニティ行列を構築する。
    • これにより,クラスタ内接続を強化し,不要なクラスタ間接続を抑制し,ブロック対角構造を促進する。
    • 多様なデータセットでの実験により,最先端手法を大幅に上回る性能が確認された。

    Link: https://arxiv.org/abs/2602.09586

  • Covo-Audio 技術報告 [cs.CL, cs.SD, cs.CL, eess.AS]目的:継続的な音声入力を直接処理し,単一の統合アーキテクチャ内で音声出力を生成する,7BパラメータのエンドツーエンドLALM
    • 音声処理技術は,人間と機械のコミュニケーションを円滑にする上で不可欠であり,その重要性は増している。
    • 既存のモデルは,規模が大きく,計算コストが高い,または特定のタスクに特化しているという課題があった。
    • より少量のパラメータで,多様な音声タスクをこなせる汎用的なモデルを開発すること。
    • Covo-Audioは,音声-テキストモデリング,対話,音声理解など,幅広いタスクで最先端または競争力のある性能を示した。
    • 対話型モデルCovo-Audio-Chatは,文脈の理解,指示への追従,共感的な応答生成など,高度な会話能力を発揮した。
    • インテリジェンスと発話者の分離戦略により,少ないTTSデータで柔軟な音声カスタマイズが可能になり,実用的な堅牢性が確認された。

    Link: https://arxiv.org/abs/2602.09823

  • SToRM:マルチモーダルLLMのための教師ありトークン削減による,効率的なエンドツーエンド自律運転 [cs.CV, cs.AI, cs.RO]目的:マルチモーダルLLMにおけるトークン削減手法の開発
    • 自律運転システムの安全性向上には,多様な状況への対応が不可欠であり,LLMを活用した人間と車両のインタラクションが重要となる。
    • LLMとセンサー入力のトークン数の多さにより計算資源が限られる自律運転において,効率的な推論が課題となっている。
    • 全トークン使用時の性能を維持しつつ,計算コストを削減し,リアルタイムな自律運転を可能にすることを目指す。
    • 本研究で提案するSToRMは,既存のE2E運転MLLMを凌駕し,同等のトークン削減予算下でより高い性能を発揮する。
    • SToRMは,全トークン使用時の性能を維持しつつ,計算コストを最大30倍削減し,標準的なGPU上でのリアルタイムE2E運転を可能にする。
    • トークン重要度予測,教師あり学習,アンカーコンテキストマージの3要素から構成されるSToRMは,冗長性を削減し,情報損失を最小限に抑える。

    Link: https://arxiv.org/abs/2602.11656

  • オンポリシーSFTへ:分布識別理論とそのLLMトレーニングへの応用 [cs.LG, cs.AI, cs.CV]目的:LLMのトレーニングにおける,分布識別理論に基づくオンポリシーSFTの実現
    • 大規模言語モデルの性能向上は,様々な自然言語処理タスクにおいて重要である。
    • SFTは効率的だが,汎化性能が強化学習に劣るという課題がある。
    • SFTの汎化性能を向上させ,強化学習に匹敵する結果を得ることを目指す。
    • 提案手法は,DPOやSimPOなどのオフライン強化学習アルゴリズムを凌駕する汎化性能を達成した。
    • SFTの効率性を維持しつつ,オンポリシーデータの利点を活用する新しいフレームワークを提案する。
    • 強化学習が困難なドメインにおいて,実用的な代替手段を提供する。

    Link: https://arxiv.org/abs/2602.12222

  • Flow-Factory:Flow-Matchingモデルにおける強化学習のための統一フレームワーク [cs.LG, cs.CV]目的:Flow-Matchingモデルにおける強化学習の統一的フレームワーク
    • 拡散モデルやFlow-Matchingモデルと人間の嗜好を一致させる上で,強化学習が有望な手法として注目されている。
    • 既存の実装は,コードベースが分散しており,モデルに依存した実装が多く,技術的な複雑さを伴うという課題がある。
    • Flow-Factoryは,アルゴリズム,モデル,報酬をモジュール化し,容易な統合と迅速なプロトタイピングを可能にすることで,この課題を解決する。
    • Flow-Factoryは,GRPO,DiffusionNFT,AWMといったアルゴリズムをFlux,Qwen-Image,WAN videoモデルに容易に統合できることを示した。
    • 本フレームワークは,実装のオーバーヘッドを最小限に抑え,研究者が将来のイノベーションを迅速に試作・拡張することを支援する。
    • さらに,本フレームワークは実運用に対応したメモリ最適化,柔軟なマルチ報酬学習,シームレスな分散学習をサポートする。

    Link: https://arxiv.org/abs/2602.12529

  • GOT-JEPA:関節埋め込み予測アーキテクチャを用いたモデル適応とオクルージョン処理による汎用オブジェクト追跡 [cs.CL, cs.MA, cs.RO, cs.CV, cs.AI, cs.LG, cs.MM, cs.NE]目的:汎用オブジェクト追跡における汎化性能とオクルージョン認識の向上
    • 視覚システムは変化に適応し,オクルージョンを理解する。追跡技術への応用は重要である。
    • 既存の追跡器は特定の対象に最適化され,未知の状況での汎化性能が低いという課題がある。
    • 本研究は,汎化性能とオクルージョン認識の向上を目指し,予測アーキテクチャを用いた新しい追跡フレームワークを提案する。
    • GOT-JEPAは,画像特徴の予測から追跡モデルの予測へとJEPAを拡張した事前学習フレームワークである。
    • 教師予測器と生徒予測器を用いて,ノイズのある画像から信頼性の高い追跡モデルを予測するように学習させることで,汎化性能を向上させている。
    • OccuSolverを組み合わせることで,オクルージョン認識を強化し,追跡精度をさらに高めている。7つのベンチマークで有効性が確認された。

    Link: https://arxiv.org/abs/2602.14771

  • MARVL:視覚言語モデルによるロボット操作のための多段階ガイダンス [cs.RO, cs.CV, cs.LG]目的:ロボット操作における報酬設計の自動化
    • ロボットの強化学習において,効率的な学習には適切な報酬関数が不可欠である。
    • 従来の報酬関数は手動で設計されるため,拡張性や自動化が課題となっていた。
    • 視覚言語モデルを活用し,報酬設計の自動化と性能向上を目指す。
    • MARVLは,視覚言語モデルを空間的・意味的に整合性の高い報酬関数を生成するように微調整する。
    • タスクを多段階のサブタスクに分解し,軌跡の感度を考慮したタスク方向投影を用いる。
    • Meta-Worldベンチマークにおいて,既存の視覚言語モデル報酬法を大きく上回り,サンプル効率と頑健性が向上した。

    Link: https://arxiv.org/abs/2602.15872

  • IRIS-SLAM:ロバストな意味的局所化とマッピングのための統一されたジオメトリインスタンス表現 [cs.CL, cs.CV, cs.RO]目的:ロバストな意味的局所化とマッピングを実現するための統一されたジオメトリインスタンス表現
    • SLAM技術はロボットの自律的なナビゲーションや環境理解に不可欠であり,その精度向上は重要な課題である。
    • 既存のSLAMシステムは,深い意味理解やロバストなループクロージャに課題があり,マッピング精度が制限される場合がある。
    • この研究は,ジオメトリとインスタンス情報を統合することで,よりロバストで高精度なSLAMシステムの実現を目指す。
    • 提案手法IRIS-SLAMは,ジオメトリ基礎モデルを拡張し,高密度なジオメトリとインスタンス埋め込みを同時に予測することで,意味的協調的な関連付け機構とインスタンス誘導ループクロージャ検出を実現する。
    • ビューポイントに依存しない意味的アンカーを活用することで,幾何学的再構成とオープンボキャブラリマッピングの間のギャップを埋める。
    • 実験結果は,IRIS-SLAMが最先端の手法を大きく上回り,特にマップの一貫性と広ベースラインループクロージャの信頼性において顕著な性能を示すことを示す。

    Link: https://arxiv.org/abs/2602.18709

  • 綺麗さは役に立たない:最新のテキストから画像へのモデルが信頼できる学習データ生成器として失敗する理由の調査 [cs.CL, cs.CV, cs.AI]目的:テキストから画像モデルによる合成データ生成の性能低下
    • 画像認識の性能向上には大量の学習データが必要であり,データ収集コストが課題である。
    • 合成データ生成モデルの進化に伴い,実データ代替の可能性が期待されている。
    • 最新のテキストから画像モデルが,学習データ生成器として適切でない問題を明らかにする。
    • 最新のテキストから画像モデルは,視覚的な忠実度は向上しているにも関わらず,実データに対する分類精度が低下する。
    • これは,モデルが美的観点に偏った分布に陥り,多様性や実データ分布の網羅性が失われることが原因である。
    • 生成モデルのリアリズム向上が,必ずしもデータリアリズムの向上につながらないことが示唆される。

    Link: https://arxiv.org/abs/2602.19946

  • 拡散モデル加速のための学習可能な段階認識予測器:LESA [cs.CV, cs.AI]目的:拡散モデルの加速
    • 画像生成分野において,拡散モデルは目覚ましい成果を上げているが,計算コストが課題となっている。
    • 既存の高速化手法は,拡散過程の複雑な段階依存性を捉えきれず,品質劣化や一貫性の欠如が問題である。
    • 本研究は,段階に応じた正確な特徴予測により,拡散モデルの高速化と高品質な画像生成を両立させる。
    • 提案手法LESAは,Kolmogorov-Arnold Networkを活用し,時間的な特徴マッピングを学習することで,正確な予測を実現した。
    • FLUX.1-devにおいて5.00倍の加速,Qwen-ImageではTaylorSeerより20.2%品質が向上し,HunyuanVideoでは24.7%PSNRが改善された。
    • 画像・動画生成の両タスクにおいて最先端の性能を示し,異なるモデルへの汎用性も確認された。

    Link: https://arxiv.org/abs/2602.20497

  • 視覚基盤モデルにおけるアフォーダンス推論のための形状・相互作用の探索と統合 [cs.CV]目的:アフォーダンス推論の基礎となる形状知覚と相互作用知覚の二つの能力
    • 視覚システムの理解度を測るアフォーダンス研究は,ロボティクスや人間とロボットのインタラクションにおいて重要である。
    • 既存モデルは,形状と相互作用を個別に捉える傾向があり,アフォーダンスを統合的に理解できていない。
    • 視覚基盤モデルが持つ形状情報と相互作用情報を統合し,アフォーダンス推論能力を向上させる。
    • DINOなどのモデルは部品レベルの形状構造を内在的にエンコードしており,Fluxなどの生成モデルは動詞条件付きの空間注意マップを持つことが明らかになった。
    • 形状情報と相互作用情報は相関があるだけでなく,アフォーダンスを構成する要素として組み合わせ可能であることが示された。
    • DINOの形状プロトタイプとFluxの相互作用マップを融合することで,弱教師あり学習法と同等のアフォーダンス推定が可能となった。

    Link: https://arxiv.org/abs/2602.20501

  • 送信量を削減し,知覚を最大化:損失耐性協調知覚のためのマスク付き量子化点群通信 [cs.DB, cs.DC, cs.CV]目的:帯域幅制約下における高精度な協調知覚の実現
    • 自動運転における安全確保には,周囲環境の正確な把握が不可欠である。
    • 既存手法は,帯域幅の制約やパケット損失に弱く,頑健性に課題がある。
    • パケット損失に強く,効率的な点群通信による協調知覚システムの構築。
    • QPoint2Commは,点群インデックスを量子化して共有コードブックを用いて伝送することで,大幅な帯域幅削減を実現した。
    • マスク付き訓練戦略により,パケット損失に対するロバスト性を向上させ,伝送失敗下でも高い性能を維持した。
    • シミュレーションと実環境の両方において,精度,通信効率,パケット損失への耐性において最先端の結果を示した。

    Link: https://arxiv.org/abs/2602.21667

  • LoRAの裏切り:良性の適応モジュールを装う画像生成モデルへのバックドア攻撃 [cs.DB, cs.CV]目的:テキスト-画像モデルへのステルス的な悪意のある動作の注入
    • 画像生成モデルの効率的な微調整手法としてLoRAが広く利用されている。
    • LoRAの柔軟性ゆえに,攻撃者が悪意のある機能を隠蔽しやすい環境が存在する。
    • LoRAモジュールを介したバックドア攻撃の脅威を明らかにし,対策の必要性を示す。
    • MasqLoRAは,独立したLoRAモジュールを用いて,テキスト-画像モデルに悪意のある機能を注入する攻撃フレームワークである。
    • わずかなトリガーワードとターゲット画像ペアで学習可能であり,99.8%の高い攻撃成功率を達成する。
    • LoRAを中心としたAIサプライチェーンにおける深刻な脅威を提示し,防御メカニズムの重要性を示唆する。

    Link: https://arxiv.org/abs/2602.21977

  • FocusTrack:3D点群オブジェクト追跡のためのワンステージ焦点・抑制フレームワーク [cs.CV]目的:3D点群オブジェクト追跡における高精度かつ高速な追跡手法の開発
    • 自動運転やロボティクスにおいて,周囲環境の正確な把握が不可欠であり,3D点群データの活用が重要視されている。
    • 既存の二段階式手法では,明示的な前処理による誤差の蓄積や,逐次処理による計算負荷が大きいという課題がある。
    • 本研究では,誤差蓄積を抑制し,計算効率を高めるワンステージフレームワークを提案することで,これらの課題を解決する。
    • 提案手法FocusTrackは,Inter-frame Motion Modeling (IMM)とFocus-and-Suppress Attentionという2つの主要なモジュールを用いることで,モーションと意味的特徴を統合的にモデル化する。
    • KITTI,nuScenes,Waymoといった主要な3D追跡ベンチマークにおいて,FocusTrackは最先端の性能を達成し,105 FPSという高速な処理速度を実現した。
    • 明示的なセグメンテーションなしでエンドツーエンド学習が可能であり,コンパクトなワンステージパイプラインにより効率的な追跡を実現する。

    Link: https://arxiv.org/abs/2602.24133

  • 固定アンカーでは不十分:データセット蒸留のための動的検索と持続ホモロジー [cs.CV]目的:データセット蒸留における多様性向上と汎化性能の改善
    • 大規模データセットの取り扱いは計算資源に制約があり,効率的な圧縮技術が求められている。
    • 従来のデータセット蒸留は,静的な実パッチに依存し,表現力と複雑性のギャップが生じやすい。
    • 動的検索とトポロジー構造の活用により,実データと合成データの乖離を抑制し,より高品質な蒸留を実現する。
    • 提案手法RETAは,教師モデルの特徴空間で適合性と複雑性のバランスを最適化する動的検索機構(DRC)を導入した。
    • 持続ホモロジーを用いたトポロジー構造のアライメント(PTA)により,実データと合成データのトポロジー的差異を減少させた。
    • ImageNet-1Kにおいて,RETAはResNet-18を用いてクラスあたり50枚の画像で64.3%のトップ1精度を達成し,既存手法を上回った。

    Link: https://arxiv.org/abs/2602.24144

  • 外観と形状属性編集によるセマンティックセグメンテーションモデルのベンチマーク [cs.CV]目的:セマンティックセグメンテーションモデルの性能評価
    • 自動運転や医療画像解析など,様々な応用分野で重要な役割を担っている
    • 実環境での多様かつ複雑な状況下での挙動検証が課題となっていた
    • 外観と形状の両方の属性変化に対するセグメンテーションモデルの頑健性を評価する
    • 拡散モデルを活用し,構造情報を維持しつつ,実画像の視覚的属性を編集するパイプラインを構築した
    • Pascal-EAとCOCO-EAという2つの新たなベンチマークを構築し,様々なセグメンテーションモデルを評価した
    • 大規模モデルは幾何学的変化に対して必ずしも頑健ではなく,データ拡張技術の効果にも限界があることが示された

    Link: https://arxiv.org/abs/2603.01535

  • 画像編集のための生成型視覚的思考の連鎖 [cs.CV]目的:複雑なシーンや空間指示下での画像編集における課題解決
    • 画像編集技術は,多様な応用分野で不可欠であり,その性能向上は重要な課題である。
    • 既存手法では,複雑なシーンや微妙な空間指示のもとで,編集箇所を正確に特定することが困難である。
    • 視覚的思考の連鎖を活用し,編集対象領域の特定と編集を統合的に行うことで,高精度な画像編集を実現する。
    • 提案手法GVCoTは,空間的な手がかりを生成し,編集対象領域を特定することで,より効果的な画像編集を実現する。
    • 大規模な編集データセットGVCoT-Edit-Instructを構築し,段階的な学習戦略を用いることで,ロバストな性能を達成した。
    • 新たなベンチマークSREdit-Benchを用いて評価した結果,既存手法を凌駕する性能が確認された。

    Link: https://arxiv.org/abs/2603.01893

  • セマンティック方言:ビデオ拡散Transformerのための意味認識混合フォーマット量子化 [cs.CV]目的:ビデオ拡散Transformerの量子化によるメモリおよび計算コスト削減
    • ビデオ生成の品質向上は重要だが,大規模モデルの計算資源が課題となっている。
    • 既存の量子化手法は,高活性化変動下で品質が劣化し,意味・時間の一貫性を保てない。
    • 意味認識による効率的なブロックごとのフォーマット選択と量子化による品質維持を目指す。
    • SemanticDialectは,既存のVDiT量子化手法やブロックごとのフォーマットベースラインを上回る性能を示す。
    • Open-Sora 2.0において,FP16品質に匹敵する結果が得られた。
    • 活性化分解とセマンティック認識によるフォーマット割り当てが,量子化精度の向上に貢献する。

    Link: https://arxiv.org/abs/2603.02883

  • 肺超音波画像合成のためのa trousウェーブレット拡散モデル [cs.CV]目的:肺超音波画像合成のための拡散モデル
    • 肺超音波は安全で可搬性の高い画像診断法であり,臨床応用が期待される。
    • 学習データ不足が機械学習の発展を阻害しており,画像解釈や疾患モニタリングの精度向上が課題である。
    • Bラインや胸膜の不整など,微細な診断情報を損なわずに画像を合成することを目的とする。
    • AWDiffは既存手法と比較して歪みが少なく,知覚的な品質が高いことが示された。
    • a trousウェーブレット変換により,微細構造を維持しつつダウンサンプリングによる情報損失を防ぐ。
    • BioMedCLIPを用いたセマンティック条件付けにより,臨床的に意味のあるラベルとの整合性を強化する。

    Link: https://arxiv.org/abs/2603.03125

  • QD-PCQA:点群品質評価のための品質を意識したドメイン適応 [cs.CV]目的:点群の品質評価における汎化性能の向上
    • 点群データは3次元センサの発展により活用が拡大している。その品質評価は重要性が増している。
    • 点群データの品質評価には,アノテーション付きデータセットが不足しており,汎化性能が課題となっている。
    • 画像から学習した品質に関する知識を点群データに転移することで,汎化性能の向上を目指す。
    • 提案手法QD-PCQAは,品質レベルに応じた特徴量のアライメントと誤った順位付けのサンプルへの強調を行うことで,知覚的な品質ランキングを重視する。
    • 品質を考慮したスタイル混合,多層拡張,デュアルドメイン拡張モジュールにより,知覚特徴のアライメントを強化する。
    • 様々なクロスドメイン実験により,QD-PCQAがNR-PCQAタスクにおいて有意に汎化性能を向上させることが示された。

    Link: https://arxiv.org/abs/2603.03726

  • 完全な色不変性のための双曲面被覆 [cs.CV]目的:色変化に対するニューラルネットワークの性能低下の改善
    • 画像認識において,色情報の扱いは重要であり,現実世界の多様な環境への適応が求められる。
    • 従来のニューラルネットワークは色変化に弱く,色幾何学の事前知識を取り入れる試みはあるものの,近似による問題点があった。
    • 色情報の幾何学的構造をより正確に捉え,色変化に対するロバスト性を向上させる。
    • 提案手法は,区間値を円周上に写像することで,従来の近似による問題を解決した。
    • これにより,解釈性と汎化性能が向上し,ファインチ grainedな分類や医用画像処理タスクにおいて,従来手法や色不変なベースラインを上回る予測性能を示した。
    • この写像手法は,色以外にもスケール変換などの幾何学的変換にも適用可能であることが示された。

    Link: https://arxiv.org/abs/2603.04256

  • BLINK:NK細胞の細胞傷害性の行動潜在モデリング [cs.CV, cs.LG]目的:NK細胞と腫瘍細胞の相互作用から潜在的な行動ダイナミクスを学習し,細胞傷害性の結果を予測すること
    • 細胞間相互作用のダイナミクス理解は,細胞行動を解明する上で重要である。
    • 単一フレームの分類だけでは,時間経過に伴う細胞相互作用から細胞傷害性を正確に推測できない。
    • 部分的に観測されたNK-腫瘍細胞相互作用配列から,細胞傷害性の結果をより正確に予測すること。
    • BLINKは,NK-腫瘍細胞の相互作用をモデル化する再帰的状態空間モデルであり,細胞傷害性の結果検出精度を向上させた。
    • 潜在表現は,NK細胞の行動モードと時間的に構造化された相互作用段階を整理し,解釈可能性を提供した。
    • 単一細胞レベルでのNK細胞の細胞傷害性行動の定量評価と構造化モデリングを可能にする統一的なフレームワークを提供する。

    Link: https://arxiv.org/abs/2603.05110

  • WebChain:実世界のウェブインタラクション痕跡の大規模人間アノテーションデータセット [cs.AI, cs.CV]目的:実世界のウェブサイトにおける人間による操作軌跡のデータセット
    • ウェブエージェント研究の発展には,多様で大規模な学習データが不可欠である。
    • 既存のデータセットは規模が小さく,複雑なタスクの網羅性が低い場合が多い。
    • 高品質なウェブインタラクションデータセットを提供し,ウェブエージェントの研究を加速させる。
    • WebChainは31,725件の軌跡と318kステップを含む,大規模なデータセットである。
    • 視覚,構造,行動データのTriple Alignmentにより,豊富な多Modalな教師データを提供する。
    • Dual Mid-Trainingという手法を提案し,WebChainBenchおよび他のGUIベンチマークで最先端の性能を達成した。

    Link: https://arxiv.org/abs/2603.05295

  • 潜在マーク:ニューラル再合成に強いオーディオ透かし [cs.SD, cs.AI]目的:ニューラル再合成に耐性を持つオーディオ透かし技術
    • デジタルコンテンツの不正利用防止は重要であり,透かし技術はその有効な手段の一つである。
    • 従来の透かし技術は,ニューラルオーディオコーデックによる意味的圧縮に脆弱であるという課題がある。
    • コーデックの潜在空間に透かしを埋め込むことで,意味的圧縮に対する耐性を実現することを試みる。
    • Latent-Markは,最初に提案する,意味的圧縮に耐性を持つゼロビットオーディオ透かしフレームワークである。
    • 潜在表現の方向性シフトを誘導し,複数の代替コーデックで最適化することで,未知のニューラルコーデックへの高い汎化性能を実現する。
    • 従来のDSP攻撃に対する耐性も維持しつつ,知覚的な不可知性を保っている。

    Link: https://arxiv.org/abs/2603.05310

  • MobileFetalCLIP:モバイル胎児超音波解析のための選択的斥力知識蒸留 [cs.CL, cs.CV, cs.AI, cs.LG]目的:モバイル胎児超音波解析のための選択的斥力知識蒸留手法
    • 発展途上国での妊産婦ケアを改善するため,AIによる胎児超音波解析が重要視されている。
    • 既存のファウンデーションモデルは巨大で,ポータブルデバイスへの搭載が困難である。
    • 本研究では,モデルの軽量化と性能維持を両立する知識蒸留手法を提案する。
    • 提案手法は,教師モデルを上回る性能を達成し,HC18バイオメトリの有効性で88.6%の精度を示した。
    • 脳亜平面のF1スコアも0.784と向上し,軽量化による性能劣化を克服した。
    • iPhone 16 Pro上で1.6msの処理速度を実現し,リアルタイムなモバイルAIアシスタントを可能にした。

    Link: https://arxiv.org/abs/2603.05421

  • ProFocus:視覚言語ナビゲーションにおける能動的知覚と焦点を絞った推論 [cs.RO, cs.CV]目的:視覚言語ナビゲーションにおける能動的知覚と焦点を絞った推論の統合
    • ロボットが現実世界で自律的に行動するには,視覚情報と自然言語による指示を理解する能力が不可欠である。
    • 既存手法は,冗長な視覚情報を過剰に処理し,過去のコンテキストを区別なく扱うため,効率が悪い。
    • 必要な視覚情報の特定と焦点化された過去のコンテキストの利用により,ナビゲーション性能の向上を目指す。
    • ProFocusは,大規模言語モデルと視覚言語モデルの協調により,能動的知覚と焦点を絞った推論を統合する訓練不要なフレームワークである。
    • ProFocusは,パノラマ画像を構造化された自己中心的なセマンティックマップに変換し,必要な視覚情報を特定するためのクエリを生成する。
    • Branch-Diverse Monte Carlo Tree Searchを用いて,重要な過去のウェイポイントに焦点を当て,推論効率を高める。

    Link: https://arxiv.org/abs/2603.05530

  • DC-Merge:方向一貫性によるモデル結合の改善 [cs.LG, cs.CV]目的:複数タスク適応モデルの知識保持を通した統合
    • モデルの汎化性能向上には,複数のタスクを効率的に統合することが重要である。
    • 既存手法では,タスク固有の知識が失われたり,パラメータ空間で歪みが生じたりする問題がある。
    • タスクベクトルの方向一貫性を保ち,知識の損失と歪みを抑制することを目指す。
    • DC-Mergeは,タスクベクトルのエネルギー分布を平滑化することで,重要な知識成分の軽視を防ぐ。
    • 各タスクベクトルを共有する直交部分空間へ投影し,方向的な幾何学的構造を整列させる。
    • VisionおよびVision-Languageベンチマークにおいて,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2603.06242

  • Penguin-VL: LLMベースの視覚エンコーダによるVLMの効率限界の探求 [cs.CV]目的:コンパクトなVLMの性能限界
    • VLMはマルチモーダル理解において重要であり,その応用範囲は広範である。
    • VLMのモデルサイズ増大は計算資源を圧迫し,モバイル/エッジデバイスへの展開を困難にしている。
    • 視覚エンコーダの初期化方法を改善し,計算効率の良いVLMを実現することを目指す。
    • Penguin-VLは,テキストのみのLLMから初期化された視覚エンコーダを使用することで,従来のコントラスト学習による初期化よりも優れた性能を示す。
    • 数学的推論,ドキュメント理解,視覚的知識,マルチパースペクティブ動画理解など,様々なベンチマークにおいて,既存のVLMと同等またはそれ以上の性能を達成した。
    • モデルのスケールアップではなく,視覚表現の改善が性能向上に重要であることを示唆している。

    Link: https://arxiv.org/abs/2603.06569

  • ハイパー・トークン:継続的ビデオ・言語理解のためのトークン動的制御 [cs.CV, cs.LG]目的:継続的ビデオ質問応答における干渉抑制と,タスク固有プロンプトの保存コスト削減
    • マルチモーダルLLMを用いたビデオ・言語理解は重要であり,様々なタスクへの応用が期待される。
    • 継続学習において,過去のタスクの知識を忘れてしまう干渉問題が課題となっている。
    • 動的にトークンを生成し,記憶容量を固定しながらプロンプトを更新することで,干渉を抑制し,知識の保持を目指す。
    • ハイパー・トークンは,標準的な継続的ビデオ質問応答ベンチマークにおいて,より高い平均精度と大幅な忘却抑制を実現した。
    • メタ学習に触発された正則化手法により,タスク固有の鋭い方向への学習を抑制し,過去のタスクへのアンカリングを強化する。
    • クロスモーダルImageQA→VideoQAプロトコルにおいて,堅牢な継続的転移学習を可能にすることが示された。

    Link: https://arxiv.org/abs/2603.06662

  • TrajPred:軌道条件付きジョイント埋め込み予測による,視覚言語モデルにおける外科用器具・組織間相互作用の認識 [cs.CV]目的:外科用器具と組織の相互作用認識
    • ロボット支援手術において,文脈を理解したAIアシスタントの構築が不可欠である。
    • 従来の深層学習アプローチでは,汎化性能に課題があり,特に微細な動作情報の認識が難しい。
    • 視覚情報とテキスト情報をより効果的に統合し,微細な動作の詳細を捉えること。
    • 提案手法TrajPredは,器具の軌跡を符号化することで時間的情報を活用し,より詳細な視覚的意味埋め込みを生成する。
    • プロンプト調整と動詞言い換え技術を組み合わせることで,タスクへの適応を円滑化し,認識精度を向上させた。
    • 視覚埋め込みとテキスト埋め込み間のコサイン類似度を可視化することで,視覚的表現とテキスト的表現の整合性が向上していることを確認した。

    Link: https://arxiv.org/abs/2603.06999