arXiv雑要約

画像・音声 - 2026/02/04 公開

  • 訓練なしでの最適な動画瞬間検出:ガウス境界最適化による弱学習動画アノテーション [cs.CV]目的:弱学習動画アノテーションにおける,クエリに関連する動画セグメントの局所化
    • 動画理解の発展は,動画コンテンツの効率的な検索と分析に不可欠である。
    • 従来の動画アノテーションはコストと時間がかかるため,弱学習アプローチが求められている。
    • ガウスベースの手法における,不最適な境界推定問題を解決すること。
    • 提案手法であるガウス境界最適化(GBO)は,提案範囲とセグメントのコンパクト性を両立する最適化問題を解くことで,セグメント境界を予測する。
    • GBOは訓練を必要とせず,単一ガウスモデルと混合モデルの両方に対応可能である。
    • 標準的なベンチマークにおいて,GBOは最先端の結果を達成し,高い効率性と汎用性を示す。

    Link: https://arxiv.org/abs/2602.03071

  • 筋骨格系レントゲン画像の汎用的な大規模基盤モデル [cs.CL, cs.CV]目的:筋骨格系レントゲン画像に関する汎用的な基盤モデルの構築
    • 整形外科領域におけるAI活用が期待されるため,画像診断の精度向上と効率化が重要である。
    • 既存モデルは特定のタスクに特化しており,汎用性やデータ効率に課題がある。
    • 多様な疾患や部位に対応可能な,大規模な基盤モデルの開発を目的とする。
    • SKELEXは120万枚の多様な筋骨格系レントゲン画像で自己教師あり学習を行い,高い性能を示した。
    • 骨折検出,変形性関節症の評価,骨腫瘍の分類において,既存モデルを上回る結果が得られた。
    • タスク固有の学習なしに,病理領域を特定するゼロショット異常局在化能力も実証された。

    Link: https://arxiv.org/abs/2602.03076

  • ニューラル予測子-修正子:強化学習によるホモトピー問題の解決 [cs.LG, cs.CV]目的:ホモトピー問題解決のためのニューラル予測子-修正子 (NPC) の提案
    • ホモトピー原理は最適化,大域的最適化など広範な分野で応用され,問題解決の一般的な枠組みを提供する。
    • 既存手法は手動で調整されたヒューリスティックに依存しており,汎用性に欠け,最適な性能を発揮できない場合がある。
    • 本研究は,ヒューリスティックを自動学習された戦略に置き換えることで,汎用的なホモトピーソルバーの実現を目指す。
    • 提案手法NPCは,多様なホモトピー問題に対して,従来の古典的および専門的なベースラインよりも効率的に問題を解決できる。
    • NPCは,未学習のインスタンスに対しても高い汎化性能を示し,タスク間で優れた安定性を実現した。
    • 一回のオフライン学習で問題クラス全体に対応可能であり,新たなインスタンスに対するオンライン推論を効率的に行うことができる。

    Link: https://arxiv.org/abs/2602.03086

  • 意味的対応のためのグロモフ・ワッセルシュタイン最適輸送 [cs.CV]目的:意味的対応の性能向上
    • 画像間の対応付けは,コンピュータビジョンの重要な課題であり,画像認識やセグメンテーション等の様々な応用がある。
    • 大規模基盤モデルの組み合わせは高性能だが,計算コストが高いという課題がある。
    • DINOv2の性能を向上させ,計算効率を改善する。
    • 提案手法は,DINOv2のベースライン性能を大幅に向上させ,Stable Diffusionの特徴量を用いた最先端手法と同等またはそれを上回る性能を示す。
    • Stable Diffusionの特徴量を置き換えることで,5~10倍の効率化を実現した。
    • グロモフ・ワッセルシュタイン空間滑らかさ事前知識を持つ最適輸送アルゴリズムが,DINOv2の特徴と組み合わせて有効であることを示した。

    Link: https://arxiv.org/abs/2602.03105

  • クロッピングと回転を超えて:生成モデルによる強力なタスク固有の拡張の自動進化 [cs.HC, cs.CV, cs.AI]目的:タスク固有の拡張の自動学習
    • 画像認識モデルの過学習抑制にはデータ拡張が不可欠であり,性能向上に大きく貢献する。
    • 従来の拡張では多様性やリアリティに限界があり,タスクとの適合性が低い場合がある。
    • 生成モデルを活用し,タスクに最適化された拡張を自動的に進化させることで,モデルの汎化性能を高める。
    • 提案手法EvoAugは,生成モデルと進化アルゴリズムを組み合わせ,最適な拡張を学習するパイプラインである。
    • EvoAugは,階層的な拡張ツリーを学習することで,より構造化された適応的な変換を実現する。
    • 微細分類や少量データ学習において,良好な性能を示し,少ないデータでもドメイン知識に基づいた拡張を発見した。

    Link: https://arxiv.org/abs/2602.03123

  • カテゴリー学習における特徴,アライメント,そして監督学習:子どもとニューラルネットワークの比較アプローチ [cs.CV, cs.LG]目的:カテゴリー学習における特徴,アライメント,監督学習の影響の比較
    • 認知科学と機械学習において,少ないデータからの学習メカニズムの解明は重要である。
    • 既存研究では,人や機械がどのように効率的にカテゴリーを学習するか,そのメカニズムが不明確である。
    • 本研究は,監督学習量,特徴,アライメントが学習に与える影響を比較し,学習メカニズムの理解を深める。
    • 子どもは少ないラベルから迅速に汎化するが,特徴特異的な偏りやアライメントへの感受性を示す。
    • CNNは,監督学習量の増加によって性能が向上するが,アライメントと特徴構造がその効果を調整する。
    • 人間とモデルの比較においては,全体的な精度だけでなく,監督学習,特徴構造,アライメント間の相互作用を考慮する必要がある。

    Link: https://arxiv.org/abs/2602.03124

  • 拡散モデルを用いた確率的ヒューマンポーズ推定のための柔軟な幾何学的ガイダンス [cs.CV]目的:2D画像からの3Dヒューマンポーズ推定
    • ヒューマンポーズ推定は,ロボット工学,VR/AR,行動認識など幅広い分野で不可欠な技術である。
    • 2D画像からの3Dポーズ推定は,奥行き曖昧性やオクルージョンにより,解が複数存在し難渋する。
    • 拡散モデルを用いて,より現実的で多様なポーズ推定を可能にすること。
    • 本研究では,拡散モデルと2Dキーポイント検出器の勾配を用いて,3Dポーズ推定のガイダンスフレームワークを提案した。
    • Human3.6Mデータセットにおいて,2D-3Dペアデータなしでの最先端の性能を達成した。
    • MPI-INF-3DHPおよび3DPWデータセットでの汎化性能も高く,ポーズ生成や補完といった新規タスクにも応用可能であることを示した。

    Link: https://arxiv.org/abs/2602.03126

  • FinMTM:金融推論とエージェント評価のためのマルチターンマルチモーダルベンチマーク [cs.CV, cs.CE]目的:金融推論とエージェント評価のためのマルチターンマルチモーダルベンチマーク
    • 金融分野は,特殊なチャート形式と知識集約型の推論が必要であり,ビジョン言語モデルにとって大きな課題である。
    • 既存の金融ベンチマークは,シングルターンが中心で質問形式が限られており,現実的なアプリケーションシナリオでの包括的な評価が困難である。
    • 多様なデータとタスク次元を持つベンチマークを構築し,金融分野におけるVLMsの評価をより現実的に行うことを目指す。
    • FinMTMは,11{,}133件の金融QAペア(中国語と英語)を収集し,キャンドルチャートや統計プロットなど,金融ビジュアルに基づいている。
    • このベンチマークは,単一選択,複数選択,マルチターン対話,エージェントベースのタスクをカバーする多様なタスク設計を採用している。
    • 22のVLMの実験的評価から,詳細な視覚的認識,長文脈推論,複雑なエージェントワークフローにおける限界が明らかになった。

    Link: https://arxiv.org/abs/2602.03130

  • SwiftVLM:クロスレイヤー・トークン・バイパスによる効率的なビジョン言語モデル推論 [cs.CV, cs.AI]目的:ビジョン言語モデルの推論効率向上
    • ビジョン言語モデルは多様なタスクに応用可能だが,計算コストが高いという課題がある。
    • 既存のトークンプルーニング手法は,詳細な視覚情報が必要なタスクで性能が低下しやすい。
    • 層ごとの重要度変化に対応し,情報損失を防ぐことで効率と精度を両立する。
    • SwiftVLMは,各層でトークンを選択・保持し,後続の層で再評価するバイパス機構を導入した。
    • 訓練不要で,モデル固有の層でプルーニングを行うことで,高い効率を実現している。
    • 複数のVLMとベンチマークで,既存手法を上回り,精度と効率のバランスに優れることが示された。

    Link: https://arxiv.org/abs/2602.03134

  • FSOD-VFM:Vision Foundation Modelとグラフ拡散を用いた少数ショット物体検出 [cs.CV]目的:少数ショット物体検出のためのフレームワーク
    • 画像認識技術は,自動運転やロボティクスなど,様々な分野で重要性を増している。
    • 少数ショット物体検出は,学習データが少ない場合に高性能を発揮することが難しい。
    • 既存手法の精度向上と,新たなデータへの適応能力を高めることを目指す。
    • 提案手法FSOD-VFMは,Vision Foundation Modelを活用し,既存手法を大幅に上回る性能を達成した。
    • 特にCD-FSODデータセットにおいて,10ショット設定で31.6 APという高い精度を示した。
    • グラフ拡散による信頼度重み付けが,誤検出の抑制と検出粒度の向上に貢献している。

    Link: https://arxiv.org/abs/2602.03137

  • 多様性維持型分布一致蒸留による高速ビジュアル合成 [cs.CV]目的:高速ビジュアル合成のための多様性維持型分布一致蒸留
    • 画像生成技術は,コンテンツ制作やデータ拡張など様々な分野で重要性が増している。
    • 既存の分布一致蒸留はモード崩壊を起こしやすく,高品質な生成を阻害する要因となっている。
    • 本研究は,モード崩壊を防ぎつつ,効率的に高品質な画像を生成することを目指す。
    • 提案手法DP-DMDは,多様性維持のためのステップと品質改善のためのステップを分離することで,モード崩壊を抑制する。
    • DP-DMDは,追加のネットワークや画像を使用せず,最先端手法と同等の視覚品質を維持しながら多様性を向上させる。
    • 実験結果から,DP-DMDがテキストから画像を生成するタスクにおいて高い性能を発揮することが示された。

    Link: https://arxiv.org/abs/2602.03139

  • エージェントAIのインターネット:インセンティブ互換性のある分散型チームとワークフロー [cs.GT, cs.AI, cs.MA]目的:エージェントAIによる分散型チームとワークフローの実現
    • AI技術の進展により,複雑なタスクを自動化するエージェントAIの重要性が高まっている。
    • 既存のAIアーキテクチャは集中型であり,拡張性,専門性,相互運用性に課題がある。
    • クラウドとエッジ環境で自律的に連携するエージェントAIの分散型ネットワークを構築し,拡張性と経済性を実現する。
    • 本研究では,エージェントAIのインターネットというフレームワークを提案し,能力カバレッジ,ネットワークの近接性,経済的な実現可能性を考慮したインセンティブ互換性のあるワークフローを可能にする。
    • 分散型チーム編成アルゴリズムを開発し,最小限の努力で効率的なチームを形成する。
    • ヘルスケアにおけるケーススタディを通じて,ドメイン特化,クラウド・エッジの異質性,動的なチーム編成が,スケーラブルで回復力のあるワークフローを可能にすることを示した。

    Link: https://arxiv.org/abs/2602.03145

  • 医療画像セグメンテーションにおける完全なコルモゴロフ・アーノルド深層モデル [cs.HC, cs.CV, cs.LG]目的:医療画像セグメンテーションにおける,コルモゴロフ・アーノルド表現を用いた深層モデルの性能向上
    • 医療画像解析は,病変の正確な検出と診断に不可欠であり,近年深層学習技術の応用が進んでいる。
    • 従来の深層学習モデルは,計算資源の制約から,コルモゴロフ・アーノルド表現の層を深くすることが困難であった。
    • 本研究は,メモリ消費量と学習の難しさを軽減し,より深いコルモゴロフ・アーノルド表現を用いたモデルを可能にする。
    • 提案手法であるSaKANは,パラメータ削減と訓練サンプルの増加により,最適化を容易にしている。
    • Grad-Free Splineは,GPUメモリ使用量を大幅に削減し,計算コストを軽減することに成功した。
    • ALL U-KANは,従来の深層学習モデルと比較して高いセグメンテーション精度を示し,パラメータ数とメモリ消費量を大幅に削減した。

    Link: https://arxiv.org/abs/2602.03156

  • チームスポーツビデオ検索のためのグループ活動特徴学習における人間介在型適応 [cs.CV]目的:グループ活動特徴学習の適応
    • スポーツビデオ検索は,映像データの有効活用に不可欠であり,その精度向上は重要な課題である。
    • 既存手法は,事前に定義された活動クラスに分類するため,多様な活動に対応できない場合がある。
    • ユーザのフィードバックを活用し,検索性能を向上させるための適応手法を提案する。
    • 提案手法では,まず自己教師あり学習でグループ活動特徴空間を事前学習する。
    • 次に,ユーザによるポジティブ/ネガティブラベルに基づき,コントラスティブ学習を用いて特徴空間を微調整する。
    • 実験結果から,提案手法がチームスポーツビデオ検索の性能を大幅に向上させることが確認された。

    Link: https://arxiv.org/abs/2602.03157

  • バイナリデモワレ:モアレを考慮した画像デモアレ処理のための二値化 [cs.CV]目的:画像デモアレ処理のための二値化フレームワーク
    • 画像再構成において,モアレ縞は高周波成分に依存し,スケールや方向にばらつきが生じるため,高品質な復元が重要である。
    • 従来の深層学習モデルは高精度だが計算コストが高く,二値化は圧縮率が高いものの,デモアレ処理への適用は困難であった。
    • モアレ縞の周波数特性を考慮した二値化フレームワークを開発し,軽量かつ効率的なデモアレ処理を実現することを目指す。
    • 提案手法BinaryDemoireは,モアレ縞の周波数記述子を抽出するモアレ認識バイナリゲート(MABG)を導入することで,二値畳み込み応答の集約を制御する。
    • また,シャッフルグループ化残差アダプター(SGRA)を設計し,構造化された疎なショートカットアラインメントとチャネル間情報交換を促進する。
    • 4つのベンチマークにおける実験により,BinaryDemoireは既存の二値化手法を上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2602.03176

  • LSGQuant:ワンステップ拡散を用いた実写ビデオ超解像のための層感度誘導量子化 [cs.CV]目的:実写ビデオ超解像のためのワンステップ拡散モデルの量子化手法
    • ビデオ超解像は,映像の品質向上に不可欠であり,様々な応用分野で需要が高まっている。
    • 拡散モデルは高精度だが,モデルサイズが大きく,計算コストが高いという課題がある。
    • 層ごとの感度を考慮した量子化により,精度の劣化を最小限に抑えつつモデルを圧縮すること。
    • 提案手法LSGQuantは,オリジナルのフル精度モデルに匹敵する性能を達成した。
    • 既存の量子化技術と比較して,顕著に優れた性能を示すことが確認された。
    • 動的範囲適応量子化器(DRAQ)と層ごとの感度に基づいた学習戦略(VOLTS)が有効であることが示された。

    Link: https://arxiv.org/abs/2602.03182

  • 単一スキャンから一貫性のある位置推定へ:LiDAR再定位の新たなパラダイム [cs.HC, cs.CV]目的:LiDAR再定位におけるロバスト性の向上
    • 自動運転やロボット工学において,正確な自己位置推定は不可欠である。
    • 既存手法は,動的な環境や曖昧な状況下で性能が低下しやすい。
    • 時間的な一貫性を考慮することで,再定位の精度とロバスト性を向上させる。
    • 提案手法TempLocは,点群のスキャン間で時間的な一貫性をモデル化することで,従来の再定位手法を大幅に上回る性能を示す。
    • TempLocは,点群のスキャンごとに大域座標と不確かさを予測し,アテンションメカニズムを用いてフレーム間の点対応を推定する。
    • さらに,不確かさに基づいた座標融合により,より時間的に整合性の取れた正確な6自由度姿勢推定を実現する。

    Link: https://arxiv.org/abs/2602.03198

  • Hand3R:野生環境におけるオンライン4Dハンド・シーン再構成 [cs.CV, cs.AI]目的:動的な手と高密度なシーンコンテキストの同時再構成
    • 身体化AIの実現には,物理的相互作用の理解が不可欠であり,そのために周囲環境の3D情報が重要である。
    • 既存手法は局所座標での単独の手の再構成に偏っており,周囲の3D環境との関係性が考慮されていない。
    • 単眼画像から手とシーンを同時に再構成するオンラインフレームワークを開発し,この問題を解決することを目指す。
    • Hand3Rは,事前学習済みの手モデルと4Dシーン基礎モデルを組み合わせ,シーンを意識した視覚的プロンプティング機構により,単一のフォワードパスで正確な手メッシュとシーンジオメトリを再構成する。
    • オフライン最適化への依存を回避し,局所的な手の再構成とグローバルな位置推定の両方において,競争力のある性能を達成している。
    • シーンメモリに高精度な手の事前知識を注入することで,同時再構成を可能にしている。

    Link: https://arxiv.org/abs/2602.03200

  • WebSplatter:WebGPUによるWebブラウザでの効率的なガウススプラッティングの実現 [cs.RO, cs.GR, cs.CV, cs.PF]目的:Webブラウザにおけるガウススプラッティングの効率的なレンダリングパイプライン
    • 多様なデバイスでWebコンテンツを表示するため,高性能なグラフィックス処理が重要である。
    • WebGPUはグローバルアトミック操作をサポートしていないため,並列処理における決定的な実行が課題となる。
    • WebGPU環境下でガウススプラッティングを効率的に実行するための技術的な制約を克服する。
    • WebSplatterは,待機不要な階層的ラジックスortを導入することで,WebGPUにおけるグローバルアトミック操作の欠如を回避し,決定的な実行を保証している。
    • 不透明度を考慮したジオメトリカリングステージを提案し,ラスタライズ前にスプラットを動的に削減することで,オーバードローとピークメモリフットプリントを大幅に削減している。
    • 評価の結果,WebSplatterは最先端のWebビューアと比較して,常に1.2倍から4.5倍の高速化を達成している。

    Link: https://arxiv.org/abs/2602.03207

  • スペクトル進化探索:報酬整合画像生成のための効率的な推論時スケーリング [cs.LG, cs.CV]目的:報酬整合画像生成における効率的な推論時スケーリング手法
    • 画像生成モデルの性能向上は,様々な応用分野において重要である。
    • 推論時スケーリングは計算コストが高く,効率的な探索が課題である。
    • 周波数特性に着目し,効率的な探索空間を絞ることで計算コストを削減する。
    • 提案手法SESは,従来の推論時スケーリング手法と比較して,生成品質と計算コストのトレードオフにおいて優れている。
    • SESは,低周波数空間内での勾配不要の進化探索を実行することで,効率的なノイズ最適化を実現する。
    • スペクトルスケーリング予測に基づき,周波数ごとの摂動の影響の違いを理論的に説明する。

    Link: https://arxiv.org/abs/2602.03208

  • 拡散Transformerにおける類推を通じた視覚的文脈内学習 [cs.RO, cs.CV]目的:拡散Transformerにおける視覚的文脈内学習の実現
    • コンピュータビジョンは,多様なタスクに対応可能な汎用的なAI開発に不可欠である。
    • 既存手法では,タスクの異質性により,コンピュータビジョンでの文脈内学習は困難である。
    • 視覚的類推を用いて,多様な視覚タスクを統一的に解決することを目指す。
    • 提案手法VIRALは,既存手法を凌駕する性能を示し,汎用的な視覚的文脈内学習の有効性を実証した。
    • 事前学習済みの画像編集モデルと拡散Transformerを活用し,多様なタスクに対応可能なフレームワークを構築した。
    • 大規模な視覚的文脈データセットを構築し,知覚,修復,編集といった広範なタスクでの性能を検証した。

    Link: https://arxiv.org/abs/2602.03210

  • ConsisDrive:インスタンスマスクを用いたビデオ生成のための同一性を維持する運転ワールドモデル [cs.CV]目的:ビデオ生成における同一性維持運転ワールドモデルの構築
    • 自動運転技術の発展には,大規模で高品質な運転ビデオデータの活用が不可欠である。
    • 既存のワールドモデルは,インスタンスレベルの制約がないため,同一オブジェクトの外観やカテゴリが時間経過とともに変化しやすい。
    • 本研究は,インスタンスレベルでの時間的一貫性を確保し,オブジェクトの同一性を維持するワールドモデルを提案する。
    • ConsisDriveは,Instance-Masked AttentionとInstance-Masked Lossという2つの主要な要素を組み込むことで,オブジェクトの同一性を維持する。
    • Instance-Masked Attentionは,アテンションブロック内でインスタンスIDマスクと軌跡マスクを適用し,視覚的トークンが対応するインスタンス特徴とのみ相互作用するようにする。
    • 実験の結果,ConsisDriveは最先端の運転ビデオ生成品質を達成し,nuScenesデータセットにおける自動運転タスクの性能を大幅に向上させた。

    Link: https://arxiv.org/abs/2602.03213

  • FARTrack:高性能な高速自己回帰型ビジュアルトラッキング [cs.CV]目的:高速かつ高性能なビジュアルトラッキングフレームワークの開発
    • ビジュアルトラッキングは,監視システムや自動運転など幅広い応用分野で重要。
    • 高性能なトラッカーは計算コストが高く,組み込み機器への実装が困難。
    • リアルタイム性と高性能を両立するトラッキング手法の確立を目指す。
    • FARTrackは,タスク固有の自己蒸留とフレーム間自己回帰スパース化を導入。
    • GOT-10kデータセットにおいて,リアルタイムでAO 70.6%を達成。
    • GPU上では343 FPS,CPU上では121 FPSという高速な処理速度を実現。

    Link: https://arxiv.org/abs/2602.03214

  • PokeFusion Attention:参照なしスタイル条件付き生成の強化 [cs.CV]目的:テキスト画像拡散モデルにおける参照なしスタイル条件付きキャラクター生成
    • 画像生成において,多様なプロンプトに対し安定したキャラクター構造と一貫性のあるスタイル表現が重要となる。
    • テキストのみのプロンプティングでは,視覚的なスタイルが不明確になりやすく,スタイルずれや幾何学的な不整合が生じやすい。
    • 外部画像に依存する手法の複雑さを軽減し,柔軟な展開を可能とする参照なしスタイル制御を目指す。
    • 提案手法であるPokeFusion Attentionは,テキストの意味と学習されたスタイル埋め込みを拡散デコーダー内で直接融合する軽量なクロスアテンション機構である。
    • これにより,既存の拡散モデルのバックボーンを固定したまま,効果的な参照なしスタイル生成が可能となる。
    • 実験結果から,提案手法はスタイル忠実度,意味的整合性,キャラクター形状の一貫性を向上させ,パラメータ効率と推論の簡素性を維持することが示された。

    Link: https://arxiv.org/abs/2602.03220

  • スパイラルRoPE:2次元平面における回転位置埋め込み [cs.CV]目的:視覚トランスフォーマーにおける多方向位置エンコーディングの改善
    • 大規模言語モデルや視覚トランスフォーマーにおいて,位置情報を効率的に表現することが重要である。
    • 従来の2次元RoPEは,軸方向に限定された位置エンコーディングしか行えず,斜め方向の関係性を捉えきれない。
    • スパイラルRoPEは,様々な方向への位置エンコーディングを可能にし,視覚タスクにおける性能向上を目指す。
    • スパイラルRoPEは,分類,セグメンテーション,生成といった幅広い視覚タスクで性能が向上した。
    • 注意マップの分析から,スパイラルRoPEは意味的に関連する物体への活性化が集中し,局所的な物体境界をより尊重することが示された。
    • スパイラルRoPEは,多方向位置エンコーディングが視覚トランスフォーマーにおいて重要であることを示唆する。

    Link: https://arxiv.org/abs/2602.03227

  • EventFlash:イベントベースのビジョンに向けた効率的なMLLM [cs.RO, cs.CV]目的:イベントベースのビジョンにおける効率的なMLLMの実現
    • 高速・低照度環境での堅牢な知覚を可能にするMLLMの研究が重要である。
    • 既存のイベントベースMLLMは計算コストが高く,イベントストリームの疎性を活かせていない。
    • イベントストリームの時空間的疎性を利用し,計算コストを削減し推論を高速化すること。
    • EventFlashは,ベースライン(EventFlash-Zero)と比較して12.4倍のスループット向上を達成した。
    • 最大1,000ビンまでの長距離イベントストリーム処理が可能であり,EventGPTの5ビンという制限を大幅に上回る。
    • EventFlashは,イベントベースのビジョンにおける効率的な基礎モデルとなりうる。

    Link: https://arxiv.org/abs/2602.03230

  • InstaDrive:インスタンス認識型ドライビングワールドモデルによる現実的かつ一貫性のある動画生成 [cs.CV]目的:現実的で一貫性のあるドライビング動画の生成
    • 自動運転技術の発展には,高品質なドライビング動画データが不可欠である。
    • 既存のワールドモデルは,インスタンスレベルでの時間的一貫性や空間的幾何学的精度に課題がある。
    • インスタンス認識を組み込むことで,ドライビング動画の品質と安全性評価を向上させる。
    • 提案手法InstaDriveは,インスタンスフローガイダーと空間幾何アライナーにより,時間的一貫性と空間的精度を向上させる。
    • nuScenesデータセットを用いた実験により,最先端の動画生成品質と自動運転タスクの性能向上が確認された。
    • CARLAを用いたシミュレーションにより,安全性が重要なドライビングシナリオの厳密な評価を可能にした。

    Link: https://arxiv.org/abs/2602.03242

  • 場所認識のための言語と視覚のベンチマーク:LaVPR [cs.RO, cs.CV]目的:場所認識における言語と視覚の性能評価
    • 場所認識は,ロボティクスや自動運転など,様々な応用分野で不可欠な技術である。
    • 環境変化や視覚的曖昧性により,従来の場所認識システムは性能が低下しやすい。
    • 言語による記述のみからの位置特定という新たな課題を解決し,システムの実用性を向上させる。
    • 言語による記述を加えることで,視覚的に劣化した条件下での認識性能が向上し,特に小型モデルに大きな効果が見られた。
    • 言語情報を活用することで,小型モデルが大規模な視覚モデルに匹敵する性能を発揮できることが示された。
    • LoRAとMulti-Similarity損失を用いたクロスモーダル検索により,従来のコントラスト学習法を大幅に上回る性能が確認された。

    Link: https://arxiv.org/abs/2602.03253

  • HypCBC:汎化可能な医用画像解析のためのドメイン不変双曲線交差ブランチ一貫性 [cs.CV, cs.LG, eess.IV]目的:医用画像解析における汎化性能向上
    • 医用画像解析は医療の発展に不可欠だが,データ不足や条件変化が課題。
    • 既存手法はユークリッド空間に依存し,複雑な臨床データの構造を捉えきれない。
    • 双曲線多様体を利用し,ドメイン不変な特徴表現を獲得することで汎化性能を向上させる。
    • 双曲線表現学習が医用画像解析において有効であることが,11のデータセットと3つのViTモデルで確認された。
    • 提案手法は,ドメイン不変な特徴を促進し,3つのドメイン汎化ベンチマークで最先端手法を平均2.1%上回った。
    • 異なる画像モダリティ,データサイズ,ラベルの粒度において汎化能力が確認された。

    Link: https://arxiv.org/abs/2602.03264

  • グローバルな幾何学はビジョン表現には不十分である [cs.CV, cs.AI]目的:ビジョン表現における表現能力の評価指標
    • 画像認識の性能向上には,汎化能力の高い表現学習が不可欠である。
    • 従来の評価指標は,グローバルな幾何学的構造に偏重しており,構成的な結合を捉えきれない。
    • グローバルな幾何学だけでは捉えきれない表現能力を評価する新たな指標を確立する。
    • グローバル幾何学に基づく統計量は,構成的結合との相関がほぼゼロであることが示された。
    • 入力-出力ヤコビアンで測定される機能的感受性が,構成的結合能力を正確に追跡することが明らかになった。
    • 既存の損失関数が埋め込み幾何学を制約する一方で,局所的な入力-出力マッピングは制約されていないことが分析的に示された。

    Link: https://arxiv.org/abs/2602.03282

  • 時間だけが全て:イベント駆動型スパイクニューラルネットワークに対するスパイク再タイミング攻撃 [cs.CR, cs.CV]目的:イベント駆動型スパイクニューラルネットワークにおけるスパイク再タイミング攻撃の有効性評価
    • スパイクニューラルネットワークは,脳の動作原理に近く,低消費電力で動作するため注目されている。
    • 既存の敵対的攻撃は,スパイク強度やイベント数に焦点を当てており,タイミングの脆弱性は十分に検証されていない。
    • スパイクのタイミングのみを操作する攻撃の有効性を検証し,時間的ロバスト性の向上を目指す。
    • スパイク再タイミング攻撃は,スパイク数や振幅を維持しながらタイミングのみを調整することで,高い攻撃成功率を達成した。
    • DVS-Gestureデータセットでは,スパイクの2%未満に触れるだけで90%以上の成功率を示した。
    • この攻撃はステルス性が高く,既存の防御策では対処が困難であり,時間的ロバスト性の新たな基準を提供する。

    Link: https://arxiv.org/abs/2602.03284

  • A3-TTA:適応的アンカー整列テスト時適応による画像セグメンテーション [cs.CV]目的:画像セグメンテーションにおけるドメインシフトへの対応
    • 画像セグメンテーションは医療画像診断など幅広い分野で重要であり,その精度向上は喫緊の課題である。
    • ドメインシフトにより,学習データと異なる環境下ではセグメンテーション精度が著しく低下する。
    • 安定した疑似ラベル生成と,それによるセグメンテーション精度の向上を目指す。
    • 提案手法A3-TTAは,信頼性の高い疑似ラベルを生成することで,ドメインシフト下でのセグメンテーション精度を大幅に向上させる。
    • 医療画像および自然画像データセットにおいて,既存の最先端手法と比較して,平均Dice係数を10.40〜17.68ポイント改善した。
    • 連続的なテスト時適応においても優れた性能を示し,忘却を防ぎながら高い精度を維持する。

    Link: https://arxiv.org/abs/2602.03292

  • LEVIO:リソース制約デバイス向け軽量埋め込み視覚慣性測位法 [cs.CV, cs.RO, eess.IV]目的:リソース制約デバイスにおけるリアルタイムな六自由度センシングの実現
    • モバイルロボティクスや拡張現実(AR)への応用が不可欠であり,自律的な位置追跡システムの重要性が高まっている。
    • 既存の高性能な視覚慣性測位法(VIO)は,マイクロドローンやスマートグラス等の低消費電力デバイスには計算負荷が大きい。
    • 低消費電力デバイスでのリアルタイム処理を可能にする,計算効率の高いVIOパイプラインの開発を目指す。
    • LEVIOは,ORB特徴点追跡やバンドル調整等の既存のVIO要素を取り入れつつ,並列化と低メモリ使用量により計算効率を追求した。
    • RISC-V SoC上で毎秒20フレームの処理を100mW以下の消費電力で実現し,効率と精度とのバランスに優れた性能を示した。
    • 実装はオープンソースとして公開されており,再現性と利用促進に貢献する。

    Link: https://arxiv.org/abs/2602.03294

  • 効率的な大規模モデル推論のための,事前入力のみの枝刈り [cs.CL, cs.AI, cs.CV]目的:大規模モデル推論における計算コスト削減
    • 大規模言語モデルは高度な能力を示すが,その利用は計算資源の制約を受ける。
    • 既存の枝刈り手法は,ハードウェア効率は高いものの,精度低下が課題である。
    • 事前入力とデコード段階の役割の違いに着目し,効率と精度の両立を目指す。
    • 本研究で提案するPOPは,事前入力段階で深層のレイヤーを安全に省略することで,推論速度を最大1.37倍向上させる。
    • 独立したKey-Value投影と境界処理戦略により,キャッシュの整合性と生成トークンの精度を確保する。
    • Llama-3.1,Qwen3-VL,Gemma-3を用いた実験で,既存手法の精度と効率のトレードオフを克服できることを示した。

    Link: https://arxiv.org/abs/2602.03295

  • R1-SyntheticVL:生成モデルによる合成データはマルチモーダル大規模言語モデルの準備が整っているか [cs.LG, cs.AI, cs.CL, cs.CV]目的:マルチモーダル大規模言語モデルの性能向上に資する効果的なデータ合成技術の開発
    • マルチモーダル大規模言語モデルは,現実世界の複雑なタスク解決において重要な役割を担う
    • 高品質で多様な学習データが不足しており,モデルの性能向上のボトルネックとなっている
    • 生成モデルを用いたデータ合成により,学習データ不足の問題を解決し,モデル性能を向上させる
    • 本研究では,集団的敵対的データ合成(CADS)という新しいアプローチを提案し,高品質で多様かつ挑戦的なマルチモーダルデータを合成することに成功した。
    • CADSは,集団知性と敵対的学習を活用し,データの生成と評価を繰り返すことで,効果的なデータ合成を実現する。
    • 合成データを用いて学習したR1-SyntheticVLは,様々なベンチマークにおいて優れた性能を示した。

    Link: https://arxiv.org/abs/2602.03300

  • 基礎モデル駆動AIによる3D OCTの診断ワークフロー完全自動化 [cs.CV, cs.AI]目的:網膜疾患の3D OCT診断のための,基礎モデル駆動AIによる診断ワークフローの完全自動化
    • 網膜疾患の診断において,高解像度3D画像を提供するOCTは不可欠な検査手法である。
    • 既存の診断システムは,多段階のワークフローとシングルタスクAIモデルに依存しており,完全な自動化が課題である。
    • 本研究は,3D OCT画像を用いた網膜疾患の診断ワークフローをエンドツーエンドで自動化し,効率的な診断を実現する。
    • 開発したFOCUSは,画像品質評価,異常検出,多疾患分類を統合的に実行する。
    • 3,300患者のデータセットを用いた評価で,高品質な診断性能(F1スコア94.39%)を示した。
    • 異なる施設・OCTデバイスでの検証や,熟練医との比較においても同等以上の性能を発揮し,実用性が確認された。

    Link: https://arxiv.org/abs/2602.03302

  • 現実世界の環境における空間汎用オーディオ表現GRAM [cs.SD]目的:現実世界の音響環境に適応した空間オーディオ表現の学習
    • 音響環境の理解は,様々な応用において重要であり,現実世界での活用が求められている。
    • 既存のオーディオモデルは,残響やノイズのある現実環境への対応が課題であった。
    • 空間情報を考慮したロバストなオーディオ表現を学習し,音源定位などの課題解決を目指す。
    • GRAMは,高品質なシミュレーションと実環境記録の両方において,既存の自己教師あり学習モデルを上回る性能を示した。
    • 特に,NatHEARおよびHEARベンチマークにおいて,GRAMは少ない学習データ量で優れた性能を発揮した。
    • シミュレーション環境での音源定位性能も高く,実環境記録への汎化性能も確認された。

    Link: https://arxiv.org/abs/2602.03307

  • RDT2:UMIデータにおけるスケーリング限界の探求 - ゼロショットクロスエンボディメント汎化に向けて [cs.RO, cs.AI, cs.CV, cs.LG]目的:ロボット汎化の可能性
    • 汎用ロボット開発において,データ不足は大きな課題である。多様なタスクに対応できるロボットの実現には,大量のデータが必要不可欠である。
    • 既存モデルは,異なるロボットへの汎化が難しく,ハードウェア依存性が高い。特定のロボットに最適化されたモデルは,他の環境で性能が低下する。
    • 新しいロボット環境でも,ゼロショットでタスクを実行できるモデルを開発し,ハードウェア依存性を克服することを目指す。
    • RDT2は,70億パラメータのVLMを基盤としたロボット汎化モデルであり,未見のオブジェクト,シーン,指示,さらにはロボットプラットフォームへゼロショットで汎化可能である。
    • 残差ベクトル量子化(RVQ),フローマッチング,蒸留という新たな3段階の学習手法により,リアルタイム推論を実現した。
    • 卓球など,高度な操作,長時間の計画,動的な下流タスクにおいて,最先端のベースラインモデルを上回る性能を示した。

    Link: https://arxiv.org/abs/2602.03310

  • 積層造形ポリ乳酸部品における欠陥深さ推定のためのピクセル単位定量的熱画像ニューラルネットワーク (PQTNet) [cs.CV]目的:積層造形部品の欠陥深さの定量化
    • 積層造形技術は多様な形状の部品製造を可能にするが,品質管理が課題である。
    • 非破壊検査による積層造形部品の欠陥深さの正確な定量化は困難である。
    • 熱画像データを用いたニューラルネットワークによる欠陥深さの高精度推定を目指す。
    • 提案するPQTNetは,既存の深層学習モデルと比較して高い性能を示した。
    • 最小平均絶対誤差 (MAE) は0.0094 mm,決定係数 (R) は99%を超えた。
    • PQTNetは,積層造形部品の信頼性向上に貢献する定量的な欠陥評価を可能にする。

    Link: https://arxiv.org/abs/2602.03314

  • 生成データ拡張に対する見えないクリーンラベルバックドア攻撃 [cs.CV]目的:生成データ拡張におけるクリーンラベルバックドア攻撃手法の提案
    • 画像生成モデルの発展により,データ拡張が重要視されている。特に,小規模データセットでの活用が期待される。
    • データ拡張はバックドア攻撃に対して脆弱であり,人間による検査を潜り抜ける攻撃が懸念される。
    • 生成画像への既存手法の適用が困難であるため,潜在特徴レベルでの攻撃手法を開発する。
    • 提案手法InvLBAは,潜在的摂動により,クリーンラベルバックドア攻撃を実現する。
    • 理論的に,クリーン精度と攻撃成功率の両方の一般化性能が保証されている。
    • 実験により,平均して攻撃成功率が46.43%向上し,クリーン精度への影響はほぼなく,最新の防御手法に対する耐性も高いことが示された。

    Link: https://arxiv.org/abs/2602.03316

  • MedSAM-Agent: マルチターンエージェント強化学習によるインタラクティブな医用画像セグメンテーションの強化 [cs.CV, cs.AI]目的:インタラクティブな医用画像セグメンテーションのためのマルチターンエージェント強化学習フレームワーク
    • 医用画像解析は医療診断・治療において不可欠であり,その精度向上は患者予後の改善に繋がる。
    • 既存手法は単一ターンでの rigid な相互作用に頼り,動的なインタラクティブツールの潜在能力を十分に引き出せていない。
    • 本研究は,マルチターンでの意思決定プロセスと臨床的妥当性の高い報酬設計により,効率的なセグメンテーションを目指す。
    • MedSAM-Agent は,専門家による軌跡生成のためのハイブリッドプロンプティング戦略と,二段階の訓練パイプラインを導入した。
    • 6種類の医用画像モダリティと21のデータセットにおける実験により,最先端の性能を達成した。
    • 自律的な医用画像推論と堅牢な反復最適化を効果的に統合し,効率的なセグメンテーションを実現した。

    Link: https://arxiv.org/abs/2602.03320

  • Pi-GS:密なπ³初期化による疎な視点からのガウススプラッティング [cs.IR, cs.GR, cs.CV]目的:疎な視点からの新規視点合成手法
    • 近年の視点合成技術は急速に進歩しており,リアルタイムレンダリングが求められている。
    • 3Dガウススプラッティングは正確なカメラ姿勢と高品質な点群初期化に依存し,それが困難な場合がある。
    • 既存手法の弱点を克服し,信頼性の高い点群推定と高精度な再構成を目指す。
    • 提案手法は,π³と呼ばれる参照不要な点群推定ネットワークを導入することで,初期化のロバスト性を高めている。
    • 不確実性に基づく深度教師あり学習や法線整合性損失,深度ワープといった正則化スキームを適用し,幾何学的な不正確さを軽減している。
    • Tanks and Temples,LLFF,DTU,MipNeRF360データセットにおいて,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2602.03327

  • 3次元点群におけるスペクトルグラフウェーブレットを用いた微小な敵対的摂動の浄化 [cs.CV]目的:3次元点群に対する敵対的摂動の浄化
    • 3次元点群は,自動運転やロボティクスなど幅広い分野で利用され,その安全性確保が重要である。
    • 敵対的摂動は,モデルに誤った判断をさせやすく,既存の防御手法は複雑または高コストである。
    • 微小で知覚できない敵対的摂動に対する,プラグアンドプレイ可能な防御メカニズムを開発する。
    • 提案手法PWAVEPは,スペクトルグラフウェーブレットを用いて摂動の影響を受ける点を特定し,除去またはフィルタリングする。
    • PWAVEPは,既存手法と比較して,より高い精度とロバスト性を示すことが実証された。
    • この研究は,3次元点群の浄化技術の発展に貢献する。

    Link: https://arxiv.org/abs/2602.03333

  • 生成不要の学習容易性診断を備えた合成可能な視覚トークナイザー [cs.CV]目的:視覚トークナイザーの学習
    • 画像生成の質向上には,画像の特徴を捉えた適切なトークン化が不可欠である。
    • 既存のトークナイザーは,トークンの意味的独立性や合成性が不十分な場合がある。
    • トークンの合成性を高め,学習の容易性を評価するフレームワークを開発する。
    • CompTokは,トークン条件付き拡散デコーダーを用いた学習フレームワークであり,トークンの合成性を向上させる。
    • トークン空間の特性を測定する指標を提案し,生成器の学習容易性を評価できることを示した。
    • CompTokは,画像クラス条件付き生成において最先端の性能を達成し,セマンティック編集も可能にした。

    Link: https://arxiv.org/abs/2602.03339

  • タイル化されたプロンプト:画像および動画超解像におけるプロンプトの不十分な指定の克服 [cs.CV, cs.AI, cs.LG]目的:画像および動画超解像のためのタイル化されたプロンプトのフレームワーク
    • 高画質の画像・動画生成への関心が高まる中で,テキストによる制御が重要である。
    • 高解像度化の過程で,グローバルなプロンプトが局所的な詳細を捉えきれない問題がある。
    • 局所的な詳細を考慮したプロンプトにより,超解像の品質とテキストへの適合性を向上させる。
    • 提案手法であるタイル化されたプロンプトは,各タイルに特化したプロンプトを使用することで,プロンプトの不十分な指定を解消する。
    • 実験の結果,提案手法は既存手法と比較して,知覚的な品質とテキストの整合性が向上することが示された。
    • また,幻覚やタイルレベルのアーチファクトの低減にも貢献することが確認された。

    Link: https://arxiv.org/abs/2602.03342

  • PACE:事前学習済み音声継続学習 [cs.NI, cs.SD, cs.LG]目的:事前学習済みモデルを用いた音声継続学習のベンチマークと課題分析
    • 音声は,音声,音楽,環境音分析の基礎であり,その理解は重要である。
    • 現実環境ではデータ分布が時間とともに変化し,事前学習済みモデルは脆弱である。
    • この研究は,音声継続学習における事前学習済みモデルの課題を克服し,ロバスト性を高める。
    • 本研究では,音声継続学習の初の包括的なベンチマークを提示し,その特有の課題を分析した。
    • 提案手法PACEは,FSAを改善し,適応的サブスペース直交PEFTによりセマンティックアライメントを強化する。
    • 6つの多様な音声継続学習ベンチマークで,PACEは最先端の基盤を大幅に上回り,実用的な進歩を示す。

    Link: https://arxiv.org/abs/2602.03355

  • Z3D:画像からのゼロショット3Dビジュアルグラウンディング [cs.CV]目的:3Dビジュアルグラウンディングの実現
    • 3Dシーン理解は,ロボティクスや拡張現実などに応用され,重要性が増している。
    • 従来の3Dグラウンディングは,幾何学的情報や物体の事前知識に依存しており,汎用性に課題がある。
    • マルチビュー画像のみから,幾何学的情報や事前知識なしに3Dグラウンディングを実現することを目指す。
    • Z3Dパイプラインは,カメラポーズや深度マップを必要とせず,柔軟にマルチビュー画像上で動作する。
    • 最先端のゼロショット3Dインスタンスセグメンテーションとプロンプトベースのセグメンテーションにより,性能劣化を改善した。
    • ScanReferとNr3Dのベンチマークにおいて,ゼロショット手法として最高水準の性能を達成した。

    Link: https://arxiv.org/abs/2602.03361

  • マスク付き離散拡散を用いた手書き数式認識における記号認識に基づく推論 [cs.RO, cs.CL, cs.CV, cs.LG]目的:手書き数式認識における記号と2次元構造の推論
    • 手書き数式認識は,STEM教育や情報アクセスにおいて重要な役割を果たす。
    • 従来の自己回帰モデルは,曝露バイアスや構文的不整合に課題があった。
    • 離散拡散モデルを用いて,構造に配慮した認識パラダイムを提案し,この課題を解決する。
    • 提案手法は,MathWritingベンチマークにおいて,5.56\%のCERと60.42\%のEMを達成した。
    • Transformerや商用ベースラインを凌駕する性能を示した。
    • CROHME 2014-2023においても一貫した改善が見られ,汎用性も確認された。

    Link: https://arxiv.org/abs/2602.03370

  • カメラベース3Dセマンティックシーン補完におけるボクセル疎性を緩和するマルチ解像度アライメント [cs.CV]目的:カメラベース3Dセマンティックシーン補完におけるボクセル疎性の緩和
    • 自動運転システムにおいて,周囲3D環境の幾何学的構造とセマンティックラベルの理解は不可欠である。
    • 既存手法はボクセルラベルのみで最適化され,自動運転シーンの大部分を占める空のボクセルがボトルネックとなっている。
    • マルチ解像度アライメントを用いて,ボクセル疎性を緩和し,3Dセマンティックシーン補完の性能向上を目指す。
    • マルチ解像度ビュー変換モジュールにより,2D画像特徴をマルチ解像度3D特徴に変換し,シーンレベルでアライメントする。
    • キュービックセマンティック異方性モジュールにより,各ボクセルのセマンティック重要度を評価し,近傍ボクセルとの差異を考慮する。
    • 重要度分布アライメントモジュールにより,重要なボクセルを選択し,異なる解像度間での特徴分布の一貫性を確保する。

    Link: https://arxiv.org/abs/2602.03371

  • SLIM-Diff: データ不足なてんかんFLAIR MRIのための共有潜在画像マスク拡散モデル [cs.CV, cs.AI]目的:てんかんFLAIR MRIにおける焦点性皮質異形成病変の検出・解析
    • てんかんの診断・治療には,脳MRIによる病変の正確な特定が不可欠である。
    • てんかんFLAIR MRI画像は病変が微細かつ稀であり,画像とマスクの同時生成モデルは不安定になりやすい。
    • 画像と病変形状の密接な関係性を捉え,生成モデルの安定性と精度を向上させる。
    • SLIM-Diffは,画像とマスクを同時に生成するコンパクトな拡散モデルであり,共有された潜在空間を用いることで,解剖学的構造と病変形状の整合性を強化する。
    • 実験の結果,$x_0$予測が,画像と病変の同時合成において最も優れた性能を発揮することが示された。
    • 損失関数に分数階の$L_{1.5}$を用いることで画像品質が向上し,$L_2$を用いることで病変マスクの形態がより正確に保持された。

    Link: https://arxiv.org/abs/2602.03372