arXiv雑要約

画像・音声 - 2026/02/03 公開

  • Med3D-R1:3D医療画像と自然言語モデルにおける臨床推論の促進 - 異常診断のため [cs.FL, cs.CV]目的:3D医療画像と自然言語モデルを用いた異常診断における臨床推論能力の向上
    • 医療画像の複雑性から,病変の正確な診断には高度な臨床推論が不可欠である。
    • 既存モデルは表面的なレポートパターンに過剰適合しやすく,解釈可能性に課題がある。
    • より一貫性のある,段階的な診断推論を促す報酬設計によって,診断精度を向上させる。
    • 提案手法Med3D-R1は,CT-RATEベンチマークで41.92%という最先端の精度を達成した。
    • RAD-ChestCTベンチマークにおいても44.99%の精度を達成し,既存手法を上回った。
    • これらの結果は,異常診断と臨床推論能力の向上の可能性を示唆している。

    Link: https://arxiv.org/abs/2602.01200

  • SimpleGPT:単純な正規化戦略によるGPTの改善 [cs.CL, cs.LG, cs.CL, cs.CV]目的:GPTモデルの最適化安定性と性能向上
    • 大規模言語モデルは,その性能から重要性が増している。
    • Transformerの最適化は,学習率の選択が難しく不安定になりやすい。
    • 活性化関数のスケールを安定化させ,学習率を向上させること。
    • 提案手法SimpleNormは,活性化関数のスケールを安定化させる。
    • SimpleGPTは,従来のGPTモデルよりも3〜10倍高い学習率で安定した学習が可能。
    • 7Bモデルの学習において,SimpleGPTはLLaMA2よりも0.08低い損失を達成した。

    Link: https://arxiv.org/abs/2602.01212

  • MiTAアテンション:上位$k$活性化の混合による効率的な高速重みスケーリング [cs.LG, cs.CV]目的:Transformerにおけるアテンション機構の効率化手法
    • Transformerは自然言語処理や画像認識など様々な分野で広く利用されており,高性能なモデル構築に不可欠である。
    • Transformerのアテンション機構は,系列長が長くなるにつれて計算コストが増大し,大規模データへの適用が困難となる。
    • 高速重みスケーリングの効率化を通じて,Transformerの長系列データへの適用可能性を高める。
    • 提案手法MiTAアテンションは,ランドマーククエリと上位$k$活性化されたキーバリューペアを活用することで,高速重みスケーリングを効率的に実現する。
    • MiTAアテンションは,アテンション機構を狭い幅のMLPに圧縮し,変形可能なエキスパートを構築することで計算量を削減する。
    • 画像認識タスクにおける予備実験で,MiTAアテンションの有効性が示され,更なる最適化と応用が期待される。

    Link: https://arxiv.org/abs/2602.01219

  • テキストによる洗練とアライメントによるポイント指示型時間的アクション定位の性能向上 [cs.CV]目的:ポイント指示型時間的アクション定位における性能向上
    • ビデオ理解において,アクション定位は重要なタスクであり,効率的なラベル付けと高精度な定位が求められる。
    • 既存手法は視覚情報のみに依存しており,テキストによる意味的情報の活用が不十分である。
    • テキスト情報を活用し,視覚特徴を補完することで,アクション定位の精度向上を目指す。
    • 提案手法は,テキスト記述の生成,洗練,そして視覚特徴とのアライメントを行うことで,アクション定位の性能を向上させる。
    • ポイントアノテーションと複数の事前学習モデルを活用し,初期記述を洗練するPoint-based Text Refinementモジュール(PTR)を設計した。
    • PTRとPoint-based Multimodal Alignmentモジュール(PMA)により,視覚的,言語的モダリティ間のギャップを縮小し,統一的な意味空間に特徴量を投影する。

    Link: https://arxiv.org/abs/2602.01257

  • OASIS-DC:疎結合単眼疑似深度の出力レベルアライメントによる汎化可能な深度補完 [cs.CV, cs.RO]目的:汎用的な深度補完手法
    • ロボティクスや自動運転において,正確な距離情報は不可欠である。
    • 単眼モデルによる深度推定は相対的であり,正確な距離測定には限界がある。
    • 疎な距離情報を用いて単眼深度推定を校正し,実用的な深度補完を実現する。
    • 本研究では,単眼モデルの出力と疎な距離測定を組み合わせることで,少ないラベルデータでも高精度な深度推定が可能となった。
    • 特に,検証データが限られている状況下でも,安定したスケールと鮮明なエッジを維持できることが示された。
    • 基礎モデルと疎なアンカーを組み合わせるアプローチが,実世界のラベル不足下での堅牢な深度補完に有効であることが示唆された。

    Link: https://arxiv.org/abs/2602.01268

  • ディテール保持型拡散Transformer量子化による現実世界画像超解像の探求 [cs.CV]目的:ディテール保持型拡散Transformer量子化フレームワークの開発
    • 現実世界の画像超解像は,高品質な画像復元に不可欠であり,その応用範囲は広い。
    • 拡散Transformerは高画質だが,推論コストが高く実用化が難しいという課題がある。
    • 拡散Transformerの量子化による高速化と,画質劣化の抑制を目指す。
    • 本研究で提案するQ-DiT4SRは,ディテール保持に特化した量子化フレームワークであり,既存手法を上回る性能を示す。
    • W4A4設定では,モデルサイズを5.8倍,計算量を60%以上削減しつつ,最先端の性能を達成した。
    • 階層的特異値分解(H-SVD)と,分散を考慮した時空間混合精度(VaSMP/VaTMP)が,その性能向上に貢献する。

    Link: https://arxiv.org/abs/2602.01273

  • TF-Lane: ロバストな車線認識のための交通流モジュール [cs.CV]目的:ロバストな車線認識性能の向上
    • 自動運転技術の発展には,確実な車線認識が不可欠である。
    • 既存の車線認識手法は,視覚情報の不足により性能が低下しやすい。
    • 交通流情報を用いて,高コストな地図情報に依存しない車線認識を目指す。
    • 提案手法TFMは,交通流の特徴を抽出し,既存の車線認識アルゴリズムと統合することで,性能向上を実現した。
    • Nuscenesデータセットにおいて,最大で+4.1%のmAP向上を達成した。
    • 4つの主要モデルと2つの公開データセットで,一貫した性能向上が確認された。

    Link: https://arxiv.org/abs/2602.01277

  • DSFC-Net:農村道路抽出のためのデュアルエンコーダ空間・周波数協調ネットワーク [cs.CV]目的:農村道路抽出のための新たなネットワークアーキテクチャの開発
    • インフラ計画や持続可能な開発において,高解像度リモートセンシング画像からの農村道路の正確な抽出は不可欠である。
    • 農村地域では,路面材の多様性,植生の遮蔽,道路幅の狭さなどから道路抽出が困難である。
    • 既存手法の弱点を克服し,農村地域の道路抽出精度を向上させることを目指す。
    • DSFC-Netは,空間情報と周波数情報を融合するデュアルエンコーダフレームワークである。
    • 提案するSFTは,植生の遮蔽に対してロバストなグローバルなトポロジー依存性をモデル化する。
    • WHU-RuR+,DeepGlobe,Massachusettsのデータセットを用いた実験により,DSFC-Netの有効性が確認された。

    Link: https://arxiv.org/abs/2602.01278

  • 安全性を転移させるのは何か:言語間共有安全性ニューロンの特定と標的化 [cs.CV]目的:言語間共有安全性ニューロンの特定と,それらを用いた低リソース言語の安全性向上
    • 多言語環境における安全性確保は重要であり,特に低リソース言語の脆弱性への対応が求められる。
    • 高リソース言語と低リソース言語の間で安全性に大きな不均衡があり,低リソース言語は安全性が低い傾向にある。
    • 言語間での安全性転移を可能にする神経メカニズムを解明し,低リソース言語の安全性を高めることを目指す。
    • 大規模言語モデル内に,言語を超えて安全性行動を共同制御する,言語間共有安全性ニューロン(SS-Neurons)が存在することを発見した。
    • SS-Neuronsを抑制すると,複数の低リソース言語で安全性が低下し,逆に強化すると安全性の一貫性が向上することが確認された。
    • 言語リソース分布に基づいたニューロン指向の学習戦略を提案し,低リソース言語の安全性を大幅に向上させることが示された。

    Link: https://arxiv.org/abs/2602.01283

  • 視覚,聴覚,そして認識の融合:ディープフェイク動画検出における多角的戦略 [cs.MM, cs.CV, cs.HC]目的:ディープフェイク動画の検出における人間の戦略
    • デジタルメディアの急速な進化に伴い,誤情報の拡散が深刻化している。
    • ディープフェイク技術の高度化により,識別が困難になっている。
    • 人間の検出戦略を理解し,メディアリテラシー教育に役立てること。
    • 参加者は本物の動画よりもディープフェイク動画の識別精度が低かった。
    • 視覚的特徴,音声,直感などが組み合わさることで識別成功率が高まることが示された。
    • 効果的な手がかりの活用を促すメディアリテラシーツールの開発に貢献できる。

    Link: https://arxiv.org/abs/2602.01284

  • 拡散モデルのポストトレーニング量子化のための勾配アラインメントキャリブレーション [cs.LG, cs.CV]目的:拡散モデルのポストトレーニング量子化における性能向上
    • 画像生成において,拡散モデルは卓越した性能を示す。実用化には高速化と低メモリ化が不可欠。
    • 従来の量子化手法では,各タイムステップへの影響が異なるにも関わらず,均一な重み付けが一般的であった。
    • タイムステップごとの勾配方向を考慮したキャリブレーションにより,量子化による性能劣化を抑制する。
    • 提案手法は,キャリブレーションサンプルに適切な重みを付与し,タイムステップ間の勾配アラインメントを実現する。
    • CIFAR-10,LSUN-Bedrooms,ImageNetにおける実験により,既存手法を上回る性能が確認された。
    • 本手法は,拡散モデルの量子化における有効性が示された。

    Link: https://arxiv.org/abs/2602.01289

  • インタラクトする平面を用いた3Dラインマッピング [cs.CV]目的:マルチビューRGB画像からの3Dラインマッピング手法
    • シーンの構造的理解において,3Dラインは重要な役割を果たすため。
    • 既存手法では,3Dラインと平面の関係性が十分に考慮されていない。
    • 平面とラインの関係性を明示的にモデル化することで,高精度な3Dラインマッピングを実現する。
    • LiP-Mapは,ラインと平面の相互作用を最適化するフレームワークであり,高精度かつ効率的な3Dラインマッピングを可能にする。
    • ScanNetV2等のデータセットにおいて,最先端手法と比較して精度と完全性が向上した。
    • LiP-Mapは,ラインを利用した視覚的ローカリゼーションの性能も大幅に向上させる。

    Link: https://arxiv.org/abs/2602.01296

  • MLLMに基づく推論による一貫性のある物体除去 [cs.CV]目的:インタラクションの一貫性を考慮した物体除去
    • 画像編集技術は発展しているが,現実世界の複雑な相互作用を再現することが課題である。
    • 既存の物体除去技術では,対象物体のみ除去し,関連するインタラクションの痕跡が残ってしまう。
    • 対象物体と関連要素を同時に除去することで,より自然で意味的に一貫性のある画像編集を実現する。
    • 本研究では,マルチモーダル大規模言語モデル(MLLM)を活用したREORMを提案し,インタラクションを考慮した物体除去を可能にした。
    • REORMは,MLLMによる分析,マスクによる除去,自己修正メカニズムを組み合わせたモジュール構造を持つ。
    • 提案手法は,既存の画像編集システムを上回り,インタラクションの一貫性を保った結果を生み出すことを実証した。

    Link: https://arxiv.org/abs/2602.01298

  • ReDiStory:領域分離拡散による一貫性のあるビジュアルストーリー生成 [cs.CV]目的:複数画像にわたるビジュアルストーリーの一貫性ある生成
    • 画像生成技術の発展に伴い,ストーリー性のある画像群の自動生成への期待が高まっている。
    • 従来のIDとフレームを統合したプロンプトでは,複雑なストーリーでIDの一貫性が損なわれやすい。
    • フレーム間の干渉を抑制し,IDの一貫性を高めることで,より自然なストーリー生成を実現する。
    • ReDiStoryは,推論時のプロンプト埋め込みの再構成により,ID関連とフレーム固有の成分を分離する。
    • フレーム埋め込み間の共有方向を抑制することで,フレーム間の干渉を低減し,IDの一貫性を向上させる。
    • ConsiStory+ベンチマークにおいて,既存手法と比較してIDの一貫性指標で一貫した改善が見られた。

    Link: https://arxiv.org/abs/2602.01303

  • StoryState:一貫性と編集可能性のある物語集のためのエージェントベースの状態制御 [cs.CV]目的:物語集の状態制御手法
    • 近年のマルチモーダルモデルの発展により,簡単な記述から物語集が生成可能になった。
    • 生成された物語集の状態が暗黙的であるため,編集が粗雑になり,視覚的一貫性が損なわれる場合がある。
    • 物語の状態を明示的に制御し,編集性と一貫性を向上させることを目指す。
    • StoryStateは,キャラクターシート,世界設定,ページごとの制約を含む構造化された状態表現を用いる。
    • LLMエージェント群が状態を維持し,プロンプトを生成することで,モデルに依存しない編集を可能にする。
    • 実験の結果,StoryStateはページ単位の編集,一貫性の向上,編集回数の削減に貢献することが示された。

    Link: https://arxiv.org/abs/2602.01305

  • DeCorStory:一貫性のあるストーリーテリングのためのグラム・シュミットプロンプト埋め込みのデコヒーレンス [cs.CV]目的:テキストから画像へのストーリーテリングにおける,フレーム間の視覚的・意味的整合性の維持
    • 画像生成技術の発展に伴い,物語の一貫性を保つことが重要となっている。
    • 既存手法では,プロンプト埋め込みの相関が強く,色彩漏れや背景の混同,同一性喪失が課題である。
    • フレーム間の意味的干渉を明示的に低減し,より一貫性のあるストーリー生成を目指す。
    • 提案手法DeCorStoryは,グラム・シュミットによるプロンプト埋め込みのデコヒーレンスを適用し,フレーム間の意味的干渉を抑制する。
    • 特異値再重み付けとアイデンティティ保持クロスアテンションにより,プロンプト固有情報とキャラクターの一貫性を強化する。
    • 追加学習やモデル修正を必要とせず,既存の拡散パイプラインに容易に統合でき,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2602.01306

  • FlowCast:スケーラブルでゼロコストな推測フローマッチングによる軌道予測 [cs.CL, cs.CV]目的:フローマッチングモデルにおける推論の高速化
    • 高品質な画像生成において,フローマッチングが強力な手法として注目されている。
    • フローマッチングは推論に時間がかかり,リアルタイム・インタラクティブな応用が困難である。
    • 既存手法では品質低下や再学習コストが発生するため,効率的な高速化が求められている。
    • FlowCastは,フローマッチングモデルが訓練時に一定速度を維持することに着目し,訓練不要で推論を高速化する。
    • 現在の速度を外挿することで将来の速度を推測し,一定の誤差閾値内であれば採用することで冗長なステップを削減する。
    • 画像生成,動画生成,編集タスクにおいて,既存手法を上回る2.5倍以上の高速化を達成し,品質劣化は見られない。

    Link: https://arxiv.org/abs/2602.01329

  • 視覚ツール利用強化学習が実際に何を学習するか? クロップ&ズームにおけるツール誘導効果と内在的効果の解明 [cs.MA, cs.CL, cs.CV]目的:視覚ツール利用強化学習における学習内容の分析
    • 視覚言語モデルの性能向上に貢献するツール利用は重要だが,その効果のメカニズムは不明な点が多い。
    • ツール利用による性能向上は,ツールの活用向上によるものか,モデルの内在的能力向上によるものか不明である。
    • ツール利用強化学習による効果を,内在的効果とツール誘導効果に分解し,そのメカニズムを解明する。
    • 性能向上は,ツール利用そのものではなく,内在的学習によって主導されていることが判明した。
    • ツール利用強化学習は,ツール利用に伴うエラーを減少させ,ツールの干渉を弱める効果がある。
    • 現状の視覚ツール利用強化学習は,ツールを使いこなすのではなく,安全に共存することを学習していると言える。

    Link: https://arxiv.org/abs/2602.01334

  • スキーマ駆動型エージェント的推論による視覚的メタファーの転移 [cs.CV, cs.AI]目的:視覚的メタファー転移の実現
    • 創造性は,抽象概念を効果的に伝える上で重要であり,視覚的メタファーはその表現手段として活用される。
    • 既存の生成AIモデルは,ピクセルレベルの指示追従に偏っており,メタファー生成に必要な抽象的論理の把握が不十分である。
    • 視覚的メタファーの根底にある抽象的論理を抽出し,別の対象に適用する手法を確立すること。
    • 本研究では,概念融合理論に基づいたマルチエージェントフレームワークを提案し,視覚的メタファー転移タスクを実現した。
    • 提案手法は,既存モデルと比較して,メタファーの一貫性,類似性の適切性,視覚的創造性において大幅な性能向上を示した。
    • この成果は,広告やメディアといった分野における,自動化された創造的な応用を可能にする基盤となる。

    Link: https://arxiv.org/abs/2602.01335

  • MTC-VAE:コンテンツ認識を用いた多段階時間圧縮 [cs.CV]目的:潜在空間における多段階時間圧縮技術
    • 動画処理において,効率的な圧縮はストレージや伝送コスト削減に不可欠である。
    • 従来のVAEでは,圧縮率を上げると性能が低下し,高圧縮時の効率維持が課題であった。
    • 圧縮率向上時の性能低下を抑制し,多様な動画特性への対応を目指す。
    • 本研究で提案するMTC-VAEは,既存のVAEを多段階時間圧縮に対応させ,少ない調整で性能低下を抑制できる。
    • 圧縮レベルを変化させることで,動画の特性に応じた最適な圧縮が可能であることが示された。
    • MTC-VAEは拡散モデルDiTとの統合に成功し,その互換性と潜在的な応用可能性が確認された。

    Link: https://arxiv.org/abs/2602.01340

  • デュアルリンケージエントロピー分析による適応的視覚自己回帰的加速 [cs.CV]目的:視覚自己回帰モデルのトークン削減による加速
    • 画像生成において,自己回帰モデルは高品質な画像を生成するが,計算コストが高いという課題がある。
    • 既存のトークン削減手法は,固定的なスケジュールや限定的な適用範囲により,十分な加速効果を得られていない。
    • エントロピー分析を用いて,推論時に動的に加速を適用するスケールとレイヤーを決定し,計算効率を向上させる。
    • NOVAは,訓練不要で自己回帰モデルのトークン削減を加速するフレームワークであり,予測不確実性の変化を捉えることで,効果的な加速を実現する。
    • スケールリンケージとレイヤーリンケージ比の調整により,各スケールとレイヤーで異なるトークン削減率を動的に計算し,低エントロピーのトークンを削減する。
    • 過去スケールの残差を再利用することで,推論速度を向上させつつ,生成品質を維持する。

    Link: https://arxiv.org/abs/2602.01345

  • T2M Mamba:テキスト駆動モーション生成のためのモーション周期性と顕著性の結合アプローチ [cs.SI, cs.CV]目的:テキストによるモーション生成の安定性向上
    • アバターアニメーションやヒューマノイドロボットとのインタラクション等,幅広い分野で重要性が増している。
    • 既存モデルは長時間の生成においてドリフトが発生し,テキストの言い換えに弱いという課題がある。
    • モーションの周期性とキーフレームの顕著性の結合を考慮し,安定したモーション生成を目指す。
    • 提案手法T2M Mambaは,周期性と顕著性を考慮したMambaと,周期的な微分クロスモーダルアライメントモジュール(PDCAM)を導入する。
    • キーフレームの重み推定には強化されたDensity Peaks Clustering,モーション周期性推定にはFFT加速された自己相関を用いる。
    • HumanML3DとKIT-MLデータセットでの実験により,提案手法の有効性が確認された(FID=0.068)。

    Link: https://arxiv.org/abs/2602.01352

  • 多言語話者埋め込みのための因果的に分離された対照学習 [cs.CL, cs.SD, cs.CL, eess.AS]目的:多言語話者埋め込みにおける,公平性とプライバシーに関する懸念の軽減
    • 話者埋め込みは,話者認証システムにおいて広く利用されている。その公平性とプライバシー保護は重要である。
    • 既存の埋め込みは,性別,年齢,アクセントなどの属性情報を暗黙的にエンコードしており,公平性とプライバシーを損なう可能性がある。
    • 属性情報の漏洩を抑制しつつ,話者認証性能を維持するための効果的な手法を確立することを目指す。
    • ベースラインの埋め込みは,性別情報を強く線形的にエンコードする一方,年齢やアクセントは非線形的に表現される傾向がみられた。
    • 敵対的学習によるデバイアスは,性別情報の漏洩を軽減するが,年齢やアクセントへの効果は限定的で,認証精度とのトレードオフが生じる。
    • 因果ボトルネックは属性情報をさらに抑制するが,性能低下が顕著であり,現在のデバイアス手法の限界が示唆された。

    Link: https://arxiv.org/abs/2602.01363

  • ビデオ Mixture-of-Experts のアキレスの踵の露呈と防御 [cs.HC, cs.CV]目的:ビデオ Mixture-of-Experts モデルにおける構成要素レベルの脆弱性の調査と,それに対する防御手法の開発
    • ビデオ理解においてMoEは高性能だが,敵対的ロバスト性は未解明な点が残る。
    • 既存攻撃はMoEを統一的に扱い,ルーターや専門家モジュール固有の脆弱性を見落としていた。
    • MoEモデルのルーターと専門家モジュール間の連携における脆弱性を明らかにし,防御策を提案する。
    • 提案手法 TLGA により,ルーターの独立した脆弱性が明らかになった。
    • J-TLGA はルーターと専門家モジュールへの同時攻撃により,MoE全体の脆弱性を増幅させることを示した。
    • J-TLAT はルーターと専門家モジュールを共同で学習することで,敵対的ロバスト性を向上させる。

    Link: https://arxiv.org/abs/2602.01369

  • PolyGen:多重生成器アンサンブルによる完全合成の視覚言語学習 [cs.CV, cs.AI, cs.LG]目的:視覚言語学習のための,多様性と構成の厳密性を重視した合成データ構築
    • 視覚言語理解は,画像とテキストを結びつけるAI技術の根幹であり,多様な応用を可能にする。
    • 既存の合成データ生成手法は,単一の生成器に依存し,その特性に偏った学習結果となりがちである。
    • 異なる生成器による多様なデータを活用し,生成器固有の偏りを抑制することで,よりロバストな特徴空間を構築する。
    • PolyGenは,複数の異なる生成器の交差部分で学習するPolylithicアプローチを採用し,生成器特有のアーチファクトを排除する。
    • プログラムによる難易度調整を用いた学習により,構文的な理解を深め,より洗練された特徴表現を獲得する。
    • マルチタスクベンチマークで既存のSynthCLIPを19.0%上回り,SugarCrepe++では9.1%の性能向上を示した。

    Link: https://arxiv.org/abs/2602.01370

  • PromptRL:フローベース画像生成における強化学習でのプロンプトの重要性 [cs.CL, stat.ML, cs.CV, cs.LG]目的:フローベース画像生成における強化学習の効率と汎化性能の向上
    • テキストから画像を生成する技術は,創造性や表現の幅を広げる上で不可欠である。
    • 既存の強化学習パイプラインは,生成多様性の不足やプロンプトへの過学習といった課題を抱えている。
    • プロンプトを洗練する言語モデルを導入し,最適化プロセスを改善することで,これらの課題を克服する。
    • PromptRLは,GenEvalで0.97,OCR精度で0.98,PickScoreで24.05という,複数のベンチマークで最先端の性能を達成した。
    • 大規模な画像編集モデルFLUX.1-KontextのEditRewardを1.19から1.43に向上させ,Gemini 2.5 Flash ImageやReasonNetといった既存モデルを上回る性能を示した。
    • PromptRLは,従来のフローベース強化学習と比較して,必要なロールアウト数を2倍以上削減しながら,より高い性能上限に到達することが実証された。

    Link: https://arxiv.org/abs/2602.01382

  • より強力な意味エンコーダは,リライティング性能を損なう可能性がある:拡張潜在的内在要素による視覚的事前知識の探求 [cs.CV]目的:画像間リライティングのための表現
    • 画像処理において,照明とシーンの分離は重要である。
    • 既存手法では,金属やガラスのような複雑な材質でのリライティングが課題となっている。
    • 意味的抽象性と測光的忠実度とのトレードオフを解決し,リライティング性能を向上させる。
    • 強力な意味エンコーダの特徴がリライティング品質を低下させることを発見した。
    • 拡張潜在的内在要素(ALI)は,潜在的内在要素フレームワークにピクセルアラインの視覚エンコーダを融合することで,意味的コンテキストと高密度な測光構造のバランスを取る。
    • ALIは,ラベルなしの現実世界の画像ペアのみで学習し,複雑な材質でのリライティング性能を大幅に向上させた。

    Link: https://arxiv.org/abs/2602.01391

  • 視覚のための放物線に基づく位置符号化:原理に基づいた視覚中心の位置符号化 [cs.DC, cs.MA, cs.CV, cs.LG]目的:視覚モダリティにおける位置情報の符号化
    • 近年の視覚タスクにおいて,自己注意機構が重要な役割を果たしており,位置情報の効果的な符号化が不可欠である。
    • 既存の位置符号化は言語処理から流用されたものが多く,視覚モダリティ特有の特性を十分に考慮されていない。
    • 視覚モダリティの特性に基づき,より優れた位置符号化手法を開発し,性能向上を目指す。
    • 提案手法PaPEおよびPaPE-RIは,8つのデータセット中7つで最高性能を達成した。
    • ImageNet-1Kでの外挿実験において,PaPEは他の位置符号化手法を最大10.5%上回る絶対的な性能向上を示した。
    • PaPEは,並進不変性,回転不変性,距離減衰,方向性,文脈認識といった原理に基づき設計されている。

    Link: https://arxiv.org/abs/2602.01418

  • BioTamperNet:親和性誘導状態空間モデルによる改ざんされたバイオメディカル画像の検出 [cs.CV]目的:改ざんされたバイオメディカル画像における重複領域の検出
    • バイオメディカル画像は実験の信頼性に直結するため,改ざん検出は不可欠である。
    • 既存のフォレンジックモデルは自然画像向けであり,バイオメディカル画像への適用が不十分である。
    • バイオメディカル画像特有の改ざんを検出し,実験データの信頼性を担保すること。
    • BioTamperNetは,親和性誘導注意機構と状態空間モデルに基づく新たなフレームワークである。
    • 画像内の類似性や画像間の対応関係を捉え,効率的な局所化を実現する。
    • ベンチマークデータセットにおいて,既存手法を大幅に上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2602.01435

  • 知覚に基づくセマンティックオブジェクト識別によるインテリジェントビークルのクロスパラダイム評価 [cs.HC, cs.CY, cs.IR, cs.CL, cs.CV, cs.AI]目的:運転中のドライバーの視線行動を特徴づける,セマンティックオブジェクト識別
    • 次世代の先進運転支援システムや道路安全の向上において,ドライバーの視線行動の理解は不可欠である。
    • 既存手法では,道路状況の変化や夜間などの悪条件下において,小型で重要なオブジェクトの正確な識別が課題である。
    • 異なるアプローチを用いて,ドライバーの視線とオブジェクトの意味的関連性を明らかにし,よりロバストな識別手法を開発する。
    • 直接オブジェクト検出(YOLOv13)と大規模VLM(Qwen2.5-VL-32b)が他の手法を大幅に上回り,マクロF1スコア0.84を超えた。
    • 特にQwen2.5-VL-32bは,夜間などの悪条件下で,信号機などの小型で安全上重要なオブジェクトの識別において,優れたロバスト性と性能を示した。
    • セグメンテーション支援型パラダイムは「部分対全体」の意味的ギャップによりリコールが大きく低下し,リアルタイム性と文脈理解のトレードオフが明らかになった。

    Link: https://arxiv.org/abs/2602.01452

  • 修正されたLpJEPA:疎性と最大エントロピー表現を用いた結合埋め込み予測アーキテクチャ [cs.LG, cs.CV]目的:疎性と最大エントロピー表現を用いた結合埋め込み予測アーキテクチャの改良
    • 表現学習は,画像認識などのタスクにおいて重要な役割を果たす。効率的な表現学習は,計算資源の削減にもつながる。
    • 従来の表現学習手法は,密な表現を学習しやすく,効率的な表現に必要な疎性を捉えきれていない。
    • 疎性を明示的に制御しつつ,タスクに関連する情報を保持した表現学習手法を確立すること。
    • 修正された分布マッチング正則化(RDMReg)により,表現の疎性を効果的に制御することが可能となった。
    • RDMRegを搭載したRectified LpJEPAは,既存のガウス基盤のJEPAを厳密に一般化し,疎な非負の表現を学習する。
    • 画像分類ベンチマークにおいて,Rectified LpJEPAは競争力のある性能を示し,疎性と性能のトレードオフを改善した。

    Link: https://arxiv.org/abs/2602.01456

  • 外分布検出の観点から見たVision Transformerのロバスト性理解 [cs.CV, cs.AI, cs.LG]目的:Vision Transformerのロバスト性に関する理解
    • 画像認識分野において,Vision Transformerは高い性能を示すが,実用化には課題が残る。
    • 量子化による軽量化は性能低下を伴う可能性があり,その影響を理解する必要がある。
    • 外分布データに対する量子化の影響を調査し,ロバスト性の向上に貢献する。
    • 4ビットモデルは初期不安定性を示すことが明らかになり,特にImageNet-22kで学習したモデルで顕著であった。
    • ImageNet-22kで事前学習したViTとDeiT3は,4ビット量子化によりAUPR-outでそれぞれ15.0%と19.2%の大きなデルタを示した。
    • 大規模データセットでの事前学習は,外分布検出における低ビット量子化のロバスト性を阻害する可能性が示唆された。

    Link: https://arxiv.org/abs/2602.01459

  • TreeLoc:森林における木間幾何学的照合による6自由度LiDARグローバル測位 [cs.RO, cs.CV]目的:森林環境におけるLiDARを用いたグローバル測位手法
    • 森林環境はGPSが利用しづらく,自律走行ロボットのナビゲーションが困難であるため。
    • 従来の都市部向け測位手法は,森林の複雑な構造や特徴の繰り返しに起因する課題があるため。
    • 森林環境に適応したロバストな測位システムを開発し,高精度な自己位置推定を実現すること。
    • 提案手法TreeLocは,樹木の幹と胸高直径を利用し,ヒストグラムを用いた粗い照合と,三角形記述子による細かい照合を行う。
    • 幾何学的検証により6自由度の姿勢推定を行い,多様な森林ベンチマークにおいて既存手法を上回る精度を達成した。
    • また,コンパクトなグローバル樹木データベースを用いた森林管理への応用も提案されている。

    Link: https://arxiv.org/abs/2602.01501

  • ランク1はいつ十分か? 幾何学に基づいた初期化によるパラメータ効率的なファインチューニング [cs.LG, cs.CV]目的:パラメータ効率的なファインチューニングにおける初期化手法
    • 大規模言語モデルの適応は重要であり,計算資源の制約下での効率化が求められている。
    • 極めて低ランクの設定,特にランク1 LoRA は不安定になりやすいという課題がある。
    • 初期化の方向性を調整し,ランク1 LoRA の訓練における不安定性を解消することを目指す。
    • 事前学習済みの画像とテキストの特徴表現の不一致が,ランク1 LoRA の最適化の不安定性を引き起こす原因であると示唆された。
    • 提案手法 Gap-Init は,キャリブレーションセットから推定したモダリティギャップベクトルに沿ってランク1 LoRA の方向性を初期化する。
    • Gap-Init は,様々なビジョン言語タスクにおいて,ランク1 LoRA の訓練を安定化させ,ランク8 のベースラインと同等またはそれ以上の性能を達成した。

    Link: https://arxiv.org/abs/2602.01522

  • 機械のためのベルタンへ:なぜ視覚化は機械認知のためのデザイン原則を必要とするのか [cs.HC, cs.AI, cs.CV]目的:機械認知のための視覚化デザイン原則の必要性
    • 視覚化は情報伝達において重要であり,その効果的な設計は長年研究されてきた。
    • 既存の視覚化デザイン原則は人間を対象としており,機械への直接的な適用が困難である。
    • 機械認知に適した視覚化デザインの基礎を確立し,新たな研究領域を提唱する。
    • 既存の視覚化知識は,機械にとっては必ずしも有効ではないことが,VLMのベンチマーク結果から示されている。
    • 機械は人間とは異なる符号化パターンを示し,パッチベースのトークン化を行うため,全体的な知覚が異なる。
    • 人間と機械の知覚の乖離は質的であり,視覚化分野は機械向けデザインを独立した研究問題として扱うべきである。

    Link: https://arxiv.org/abs/2602.01527

  • VLMにおける局所的なパッチの意味論の保存 [cs.CV]目的:VLMにおける局所的なパッチの意味論の保持
    • 画像とテキストを組み合わせるVLMは,多様なタスクで高い性能を示す重要な技術である。
    • VLMでは,画像情報の意味が言語表現に拡散し,局所性が失われるという課題がある。
    • 本研究は,画像パッチの意味論を保持し,Logit Lensの解釈可能性を高めることを目指す。
    • 提案手法であるLogit Lens Loss (LLL) は,追加学習やアーキテクチャ変更なしに,画像トークンの埋め込みをテキスト概念と整合させる。
    • LLLは,自己注意層における画像とテキストの混合を抑制し,画像トークンの局所的な視覚情報を維持する。
    • 実験により,LLLがLogit Lensを実用的にし,セグメンテーション等の視覚タスクの性能向上にも貢献することが示された。

    Link: https://arxiv.org/abs/2602.01530

  • 線形再帰ユニットを用いた回転に依存しないオンライン手書き文字認識 [cs.CV, cs.LG]目的:オンライン手書き文字の回転不変な認識手法
    • 手書き文字認識は,人間とコンピュータの自然な対話を可能にする基盤技術である。
    • 回転変形は,手書き文字の空間的な配置を乱し,認識精度を著しく低下させる。
    • 回転変形に強く,高速かつ高精度な手書き文字認識システムの実現。
    • 提案手法では,局所的な構造特徴を捉えるためにSliding Window Path Signature (SW-PS) を用いている。
    • 分類器には軽量な線形再帰ユニット (LRU) を採用し,高速な処理と効率的な学習を実現している。
    • CASIA-OLHWDB1.1データセットを用いた実験で,数字,英語大文字,漢字部首においてそれぞれ99.62%,96.67%,94.33%の認識精度を達成した。

    Link: https://arxiv.org/abs/2602.01533

  • 多面的表現学習による統合的な運転世界モデル:UniDWM [cs.RO, cs.RO, cs.CV]目的:複雑な運転環境における信頼性と効率的な計画
    • 自動運転の実現には,周囲の状況を理解し,予測し,計画を立てる能力が不可欠である。
    • 既存のモデルは,シーンの幾何学,外観,力学を統合的に理解することが難しい。
    • 多面的表現学習を通じて,物理的に整合性の取れた状態空間を構築し,一貫した推論を可能にする。
    • UniDWMは,シーンの構造(幾何学と視覚テクスチャ)を再構成し,将来の進化を予測する。
    • UniDWMは,VAEの一種として捉えることができ,多面的表現学習の理論的根拠を提供する。
    • 軌道計画,4D再構成・生成の実験で,UniDWMの有効性が示された。

    Link: https://arxiv.org/abs/2602.01536

  • アバターのインタラクション:制御可能な会話型アバターのためのテキスト駆動型人間-物体インタラクションへ [eess.SY, cs.SY, cs.CV, cs.AI]目的:制御可能な会話型アバターを実現するためのテキスト駆動型人間-物体インタラクション
    • 動画生成において,会話型アバター生成は基本的な課題であり,その重要性は高い。
    • 既存手法では,アバターと周囲の物体の連携が困難であり,自然なインタラクションの実現が課題である。
    • テキストに合わせた物体とのインタラクションを可能にし,アバターの表現力を向上させる。
    • 提案手法InteractAvatarは,環境認識と計画,動画合成を分離することで,人間-物体インタラクションの質を向上。
    • PIM(知覚・インタラクションモジュール)とAIM(音声・インタラクション認識生成モジュール)を並列生成し,制御性と品質の両立を実現。
    • 新しいベンチマークGroundedInterを構築し,提案手法の有効性を実験的に証明。

    Link: https://arxiv.org/abs/2602.01538

  • FSCA-Net:特徴分離クロスアテンションネットワークによるロバストなマルチデータセット学習 [cs.CV]目的:多様なデータセットにおけるロバストな群衆数推定
    • 公共の安全,交通規制,スマートシティ管理において群衆数推定は重要な役割を担う。
    • 環境の多様性から,既存のモデルは異なるデータセット間での性能劣化が課題である。
    • ドメイン固有の特徴と不変の特徴を分離し,知識伝達を促進することで,負の転移を軽減する。
    • 提案手法FSCA-Netは,ドメイン不変特徴とドメイン固有特徴を明示的に分離する。
    • クロスアテンション融合モジュールにより,特徴間の相互作用を適応的にモデル化し,知識伝達と識別能力を両立する。
    • 複数の群衆数推定ベンチマークにおいて,最先端の汎化性能とロバスト性を実証した。

    Link: https://arxiv.org/abs/2602.01540

  • マルチモーダル大規模言語モデルにおける認知超感覚への道 [cs.CV, cs.AI]目的:マルチモーダル大規模言語モデルの認知能力の向上
    • 近年,視覚情報処理の分野で大規模言語モデルの活用が進んでおり,その重要性が増している。
    • 複雑な認知問題を解決する能力が限られており,抽象的な視覚情報の理解や視覚記憶の活用が課題である。
    • 視覚情報に基づいた内部推論を可能にし,認知能力のギャップを埋めることを目指す。
    • 本研究では,新しい学習パラダイム「認知超感覚」を導入し,大規模言語モデルに人間のような視覚的イメージング能力を付与した。
    • これにより,CogSense-Benchにおいて,最先端のベースラインモデルを大幅に上回り,優れた汎化性能を示した。
    • 内部視覚イメージングは,知覚的認識と認知理解の間のギャップを埋める上で重要な役割を果たす可能性が示唆された。

    Link: https://arxiv.org/abs/2602.01541

  • 大規模オーディオ言語モデルにおける知識蒸留のための注意重み付き中心カーネルアライメント [cs.AR, cs.SD, eess.AS]目的:音声感情認識における知識蒸留のフレームワーク
    • 近年,大規模オーディオ言語モデルが音声感情認識の性能向上に貢献している。
    • モデルサイズが大きいため,リソース制約のある環境での利用が難しいという課題がある。
    • モデル圧縮による,リソース環境での実用化を目指す。
    • 提案手法PL-Distillは,教師モデルの84億パラメータから11億パラメータの生徒モデルへの圧縮に成功した。
    • IEMOCAP,RAVDESS,SAVEEのデータセットで,教師モデルや既存手法と比較して,全ての評価指標において優れた性能を示した。
    • 注意重み付き中心カーネルアライメントにより,異なる特徴次元間でも効果的なアライメントが可能となった。

    Link: https://arxiv.org/abs/2602.01547

  • InfoTok:容量制約下における共有視覚トークン化のための情報フロー制御 [cs.LG, cs.AI, cs.CV]目的:統一MLLMにおける視覚入力からトークンへのマッピングにおける情報フローの制御
    • MLLMは,画像理解と生成を統合し,多様なタスクを単一フレームワークで実行可能にするため重要である。
    • 既存の共有トークン設計は,アーキテクチャ中心であり,理解と生成を両立するためのトークンが保持すべき情報の明確な基準がない。
    • 情報フローを制御することで,圧縮とタスク関連性のバランスを取り,共有トークン空間の学習を促進することを目指す。
    • InfoTokは,情報ボトルネック原理に基づき,視覚トークン化を情報フローの制御として定式化することで,一貫した性能向上を実現した。
    • 理解と生成の両方において,既存の統一MLLMにInfoTokを統合することで,性能が向上することを示した。
    • 情報正則化によるトークン化が,統一MLLMにおける共有トークン空間学習の原則的な基盤となることを支持する。

    Link: https://arxiv.org/abs/2602.01554

  • スクリーンキャプチャ画像におけるフリッカー縞とモアレ除去の統合 [cs.CV, eess.IV]目的:スクリーンキャプチャ画像のモアレパターンとフリッカー縞の同時除去
    • モバイルデバイスによる画面キャプチャが普及し,画像品質劣化が課題となっている。
    • モアレパターンとフリッカー縞が複合的に発生する場合,既存手法では対応が困難である。
    • 複合的なアーティファクトに対する有効な除去手法を開発し,実用的な画像復元を目指す。
    • 本研究では,モアレパターンとフリッカー縞の同時除去に関する初の体系的な研究を行い,CLEARという統合フレームワークを提案した。
    • 大規模なデータセットを構築し,ISPベースのフリッカーシミュレーションパイプラインを導入することで,モデルの学習を安定化させ,劣化分布を拡大した。
    • 周波数領域分解・再構成モジュールとトラジェクトリ整列損失を設計し,複合アーティファクトのモデリングを強化することで,既存手法を上回る性能を達成した。

    Link: https://arxiv.org/abs/2602.01559

  • マルチモーダル非常識:奇妙から普通へ,普通から奇妙へ [cs.CL, cs.CV, cs.AI]目的:マルチモーダルな状況における常識推論能力の評価
    • 人工知能の発展には,人間のような常識的な推論能力が不可欠である。
    • 既存のデータセットは,典型的な状況に偏っており,異常な状況への対応が苦手である。
    • 非典型的状況における視覚言語モデルの堅牢性と適応性を向上させる。
    • 本研究では,常識から逸脱した状況を評価する新しいベンチマーク「MUN」を提案した。
    • Retrieval-based in-context learning (R-ICL)フレームワークにより,大規模モデルの推論能力を小規模モデルへ効率的に転移させた。
    • 提案手法は,既存のICL手法と比較して平均8.3%の性能向上を示し,R-ICLの有効性を証明した。

    Link: https://arxiv.org/abs/2602.01561

  • 準最適方策近似を用いた混合階層型ゲームの効率的な解法 [cs.GT, cs.RO]目的:混合階層型ゲームの効率的な解法
    • マルチロボット協調において,ロボット間の相互依存性は重要であり,ゲーム理論はその分析に適している。
    • 従来のソルバーは,同時性と階層性を組み合わせた複雑な情報構造に対応できず,計算量の増加が課題である。
    • 本研究は,準最適方策近似によって高次微分を回避し,効率的な解法を開発することで,この問題を解決する。
    • 準最適方策近似により,KKT条件の高次微分項を削減し,近似KKTシステムを効率的に解くための不完全ニュートン法を開発した。
    • 提案アルゴリズムは,非二次目的関数と非線形制約を持つゲームにおいて,局所的な指数収束性を示すことが証明された。
    • 実装したJuliaライブラリ(MixedHierarchyGames.jl)は,複雑な情報構造を持つゲームにおいてリアルタイムでの収束を実証した。

    Link: https://arxiv.org/abs/2602.01568

  • 知覚的画像圧縮のためのワンステップ拡散 [cs.CV]目的:知覚的画像圧縮手法の高速化
    • 画像圧縮は,データ容量削減に不可欠であり,通信や保存効率を向上させる。
    • 拡散モデルを用いた圧縮は高品質だが,復号に時間がかかり,計算コストが高い。
    • ワンステップ拡散により,高速な復号処理と低計算コストを実現する。
    • 提案手法は,既存の拡散モデルを用いた手法と同等の圧縮性能を維持しながら,46倍の高速化を実現した。
    • 特徴量表現に対する識別器を用いることで,再構成画像の知覚的品質を向上させている。
    • ソースコードおよびモデルは公開されており,再現性と利用可能性を確保している。

    Link: https://arxiv.org/abs/2602.01570

  • SGHA-Attack:セマンティック誘導型階層的アライメントによる視覚言語モデルへの転移可能な標的型攻撃 [cs.CL, cs.IR, cs.CV]目的:視覚言語モデルに対する転移可能な標的型攻撃手法
    • 視覚言語モデルのセキュリティ確保は,その社会実装が進むにつれて重要性が増している。
    • 既存の転移攻撃は,特定のモデルに過適合しやすく,異種モデル間での汎化性能が低いという課題がある。
    • 中間層のセマンティック情報を活用し,異種モデル間での転移性を高めることを目指す。
    • SGHA-Attackは,複数の標的参照と中間層の一貫性強制により,既存手法よりも高い転移性を実現した。
    • 視覚とテキストの特徴表現を共有潜在空間で同期させることで,早期のクロスモーダル監視を可能にした。
    • 提案手法は,オープンソースおよび商用モデルに対して有効であり,前処理や防御機構に対する頑健性も確認された。

    Link: https://arxiv.org/abs/2602.01574

  • 生成的な視覚的コードモバイルワールドモデル [cs.LG, cs.AI, cs.CV]目的:モバイルGUIエージェントの性能向上
    • モバイルGUIの自動化は,ユーザーエクスペリエンス向上に不可欠である。
    • 既存手法は,視覚的忠実性と正確なテキストレンダリングのトレードオフに陥っている。
    • 視覚的忠実性とテキストレンダリングを両立する新しいパラダイムを提案すること。
    • 本研究では,実行可能なWebコードを生成することでGUIの状態を予測する新しい手法を提案した。
    • 提案手法に基づいたgWorldモデルは,既存のオープンウェイトモデルと比較して,精度とモデルサイズのバランスに優れている。
    • データ生成フレームワークgWorldを用いたデータ拡張により,性能向上が確認された。

    Link: https://arxiv.org/abs/2602.01576

  • HandMCM:3D点群に基づく対応状態空間モデルによる3Dハンドポーズ推定 [cs.CV]目的:3Dハンドポーズ推定におけるキーポイント位置の正確な推定
    • 拡張現実などの人間-コンピュータ間インタラクションにおいて,正確な3Dハンドポーズ推定が不可欠である。
    • 自己遮蔽や物体との相互作用による遮蔽が,3Dハンドポーズ推定の精度を低下させる問題がある。
    • 遮蔽状況下でもロバストな3Dハンドポーズ推定を実現し,実用的なアプリケーションでの精度と信頼性を向上させる。
    • 提案手法HandMCMは,強力な状態空間モデルMambaを基盤とし,遮蔽状況下でのキーポイントの動的な kinematic topology を効果的に学習する。
    • マルチモーダル画像特徴を統合することで,入力の表現能力を高め,ロバスト性を向上させる。
    • 3つのベンチマークデータセットにおいて,既存の最先端手法を大きく上回り,特に重度の遮蔽下で優れた性能を示した。

    Link: https://arxiv.org/abs/2602.01586