arXiv雑要約

画像・音声 - 2026/05/07 公開

FideDiff：高画質画像モーションブラー除去のための効率的な拡散モデル [cs.CV]目的：高画質画像モーションブラー除去のための拡散モデル
- 画像処理において，実世界でのモーションブラーの除去は重要な課題である。
- 既存の拡散モデルは，推論速度の遅さや画質の低下という課題を抱えている。
- 本研究は，推論速度を向上させつつ，高画質を維持したモーションブラー除去を目指す。
- FideDiffは，単一ステップで高画質ブラー除去を実現する新しい拡散モデルである。
- 学習データにおけるブラー軌跡を一致させることで，時間的一貫性を学習し，正確な復元を可能にする。
- Kernel ControlNetの統合と適応的なタイムステップ予測により，モデルの性能が向上し，既存手法を上回る結果が得られた。
Link: https://arxiv.org/abs/2510.01641
音声ディープフェイクの法科学的類似性 [cs.SD]目的：音声ディープフェイク検出における法科学的類似性の評価
- デジタル音声の改ざん技術が高度化し，その検出の重要性が増している。
- 既存のディープフェイク検出手法では，未知の改ざん痕跡への対応が課題である。
- 同一生成モデルによる音声の識別を可能とし，音声フォレンジックの精度向上を目指す。
- 提案手法は，音声サンプルペア間の法科学的特徴の類似度をスコア化する。
- ソース検証タスクにおいて，同一モデルによる生成音声の識別能力が示された。
- 未知の改ざん痕跡に対しても汎化性能が高く，実用的な音声フォレンジックに貢献する。
Link: https://arxiv.org/abs/2510.02864
スコア正則化連続時間一貫性による大規模拡散蒸留 [cs.CV, cs.LG]目的：大規模拡散モデルの蒸留手法の開発
- 拡散モデルは画像生成において高い性能を示すが，計算コストが高いという課題がある。
- 連続時間一貫性モデルは高速化に有効だが，大規模タスクへの適用は計算負荷や評価指標の限界により困難であった。
- 本研究では，連続時間一貫性モデルを大規模拡散モデルに適用し，蒸留を効率化・高品質化することを目指す。
- FlashAttention-2 JVPカーネルを開発し，100億パラメータ以上のモデルや高次元動画タスクでのsCM訓練を可能にした。
- sCMの細部生成における品質限界を明らかにし，誤差の蓄積と「モード被覆」特性が原因であることを指摘した。
- スコア蒸留を組み込んだrCMを提案し，多様性を維持しつつ高品質な画像生成を実現した。DMD2と同等の性能を示し，モード崩壊を抑制した。
Link: https://arxiv.org/abs/2510.08431
LTGS：疎な視点更新からの長期的ガウスシーンクロノロジー [cs.CV]目的：疎な視点更新からの長期的ガウスシーンクロノロジーの構築
- 現実環境の再現は，ロボット工学やAR/VRなど幅広い分野で重要性が増している。
- 既存手法は，密な空間・時間的観測を必要とし，日常的な変化への対応が困難である。
- 限られた情報から，変化する環境を効率的に再構築することを目指す。
- 提案手法LTGSは，初期の3Dガウススプラッティング表現から，長期間にわたるシーンの変化を頑健にモデル化する。
- テンプレートガウスを用いることで，共有オブジェクトの追跡を可能にし，少ない観測データによる環境への適応を実現する。
- 実験結果から，LTGSは既存手法と比較して優れた再構成品質と，高速で軽量な更新が可能であることが示された。
Link: https://arxiv.org/abs/2510.09881
SlotVLA：ロボット操作における物体・関係性の表現モデリングに向けて [cs.RO, cs.CV]目的：ロボット操作における物体・関係性の表現の基礎
- ロボットの多様なタスク遂行には，物体とそれらの関係性を理解する能力が不可欠である。
- 既存のロボットモデルは，物体と背景を混在させた密な埋め込みを使用し，効率性と解釈性に課題がある。
- 物体・関係性に焦点を当てた表現により，より構造化され，効率的で，説明可能な制御を目指す。
- 提案手法SlotVLAは，スロットアテンション機構を用いて，物体とその関係性を捉え，行動のデコードを実現する。
- 新しいベンチマークデータセットLIBERO+は，詳細な物体中心のアノテーションを提供し，物体・関係性の推論を可能にする。
- SlotVLAは，従来のモデルと同等の汎化性能を維持しつつ，必要な視覚トークン数を大幅に削減できることを示した。
Link: https://arxiv.org/abs/2511.06754
UI2Code^N：UIからコード生成をインタラクティブな視覚的最適化として [cs.CV]目的：UIスクリーンショットから実行可能なフロントエンドコードへの変換
- UI開発の自動化は，ソフトウェア開発の効率化に不可欠である。
- 既存手法は一回の生成で完結するため，現実の反復的なUI開発プロセスに合致しない。
- 視覚的フィードバックに基づく反復的な最適化により，UIからコード生成の精度向上を目指す。
- 本研究では，UIからコード生成をインタラクティブな視覚的最適化問題として再構成した。
- 相対的な視覚的ランキングを最適化する，相対視覚ポリシー最適化（RVPO）を提案した。
- UIドラフティング，UIポリッシング，UI編集のベンチマークで最先端の性能を達成した。
Link: https://arxiv.org/abs/2511.08195
VVS：視覚的自己回帰生成における推測デコーディングの加速：部分検証スキップによる [cs.CV, cs.AI]目的：視覚的自己回帰モデルの推論速度向上
- 画像生成において，視覚的自己回帰モデルは有望な手法であり，応用範囲が広い。
- 自己回帰モデルの逐次的なトークン予測は，推論遅延を引き起こすという課題がある。
- 推測デコーディングの効率性を高め，モデルの実行回数を減らすことで，推論速度を改善する。
- 本研究では，部分検証スキップを導入するVVSフレームワークを提案し，目標モデルの順伝播回数を2.8倍削減した。
- 生成品質を維持しつつ，従来の推測デコーディングフレームワークと比較して優れた速度と品質のトレードオフを実現した。
- 視覚的トークンの特性に基づき，検証の冗長性と特徴量の再利用可能性を考慮した動的なスキップ戦略を開発した。
Link: https://arxiv.org/abs/2511.13587
POMA-3D：3Dシーン理解へのポイントマップのアプローチ [eess.SY, cs.SY, cs.CV]目的：3Dシーン理解のためのポイントマップに基づく表現学習
- 3Dシーン理解は，ロボット工学や拡張現実など多くの分野で不可欠な技術である。
- 3D表現学習では，事前学習済みモデルの不足とデータ量の制限が課題となっていた。
- ポイントマップを用いることで，2Dモデルの知識を3Dに活用し，データ不足を克服することを目指す。
- 本研究で提案するPOMA-3Dは，ポイントマップから3D表現を自己教師あり学習する最初のモデルである。
- POMA-3Dは，3D質問応答，ナビゲーション，シーン検索，ローカリゼーションなどのタスクにおいて優れた性能を発揮する。
- 新たに構築した大規模データセットScenePointを活用し，POMA-3Dの事前学習を可能にした。
Link: https://arxiv.org/abs/2511.16567
災害対応のための生成的な位置認識：確率的クロスビュー地理位置特定アプローチ [cs.CL, cs.AI, cs.CV]目的：災害時の迅速な位置特定を支援する地理位置特定手法の開発
- 地球温暖化の影響で災害が頻発化・深刻化しており，迅速な災害対応が重要である。
- 災害発生時の正確かつ迅速な位置特定は困難であり，意思決定や資源配分を妨げる課題である。
- 複数の視点からの情報を活用し，位置特定精度と説明可能性を高めることで，災害対応を支援する。
- 提案手法ProbGLCは，既存手法と比較して，位置特定精度において優れた性能を示した(Acc@1kmで0.86，Acc@25kmで0.97)。
- ProbGLCは，確率的分布と局所化スコアにより，モデルの解釈可能性を高めることができる。
- 多様な災害データセットでの実験により，ProbGLCが様々な災害に対応できる可能性が示唆された。
Link: https://arxiv.org/abs/2512.20056
未来を感じる学習：接触豊富な操作のためのDreamTacVLA [cs.RO, cs.CV]目的：接触物理に基づいたVLAモデルの学習
- ロボット工学において，物理的な接触を理解した操作は，より高度なタスクの実現に不可欠である。
- 既存のVLAモデルは物理的接触に盲目であり，力，質感，滑りを考慮した操作が困難である。
- 高解像度な触覚情報を活用し，接触の未来予測により，よりロバストな触覚認識ロボットを実現する。
- DreamTacVLAは，階層的な知覚スキームを採用し，触覚，リストカメラ，三人称視点のマルチスケール感覚データを統合する。
- 触覚データを予測する触覚ワールドモデルにより，接触ダイナミクスの理解を深め，行動を現実と予測に基づいて決定する。
- 接触豊富な操作タスクにおいて，最先端のVLAベースラインを凌駕し，最大95%の成功率を達成した。
Link: https://arxiv.org/abs/2512.23864
S1-MMAlign：科学図表とテキスト理解のための大規模，学際的データセット [cs.CV]目的：科学図表とテキストのペアのデータセット
- 科学的発見の加速に貢献するため，AIによる科学研究支援が重要視されている。
- 科学図表とテキスト間の意味的ギャップが大きく，AIによる理解が困難である。
- 科学論文から抽出した図表とテキストのペアの品質向上を目指す。
- 本研究で構築したS1-MMAlignは，1550万組を超える高品質な科学図表とテキストのペアを含む大規模データセットである。
- AIを活用した意味的強化パイプラインにより，科学論文のキャプションの品質を大幅に向上させた。
- S1-MMAlignは，科学分野におけるAIモデルの性能向上に貢献し，科学研究の新たな可能性を拓く。
Link: https://arxiv.org/abs/2601.00264
SV-GS: スパースビュー4D再構成におけるスケルトン駆動ガウススプラッティング [cs.CV]目的：スパースな観測下における動的対象物の4D再構成手法
- 広範囲を移動する動的対象物の再構成は，現実世界での応用が期待される重要な課題である。
- 従来の動的再構成は，時間的・視点的に稠密なデータが必要であり，現実の監視カメラ等の環境では困難である。
- 本研究は，スパースな観測データから，スケルトン情報を用いて動的対象物を効率的に再構成することを目的とする。
- 提案手法SV-GSは，変形モデルと対象物の動きを同時に推定することで，スパースな観測下でも高精度な再構成を可能にした。
- 合成データセットにおいて，既存手法と比較してPSNRが最大34%向上し，実データセットでも稠密な単眼動画手法と同等の性能を達成した。
- 初期の静的再構成は拡散ベースの生成モデルに置き換え可能であり，現実世界での適用範囲が拡大する。
Link: https://arxiv.org/abs/2601.00285
PRISM：色層化された点群サンプリング [cs.CV]目的：RGB-LiDAR点群に対する色をガイドとした層化サンプリング手法
- 3次元点群データは，自動運転やロボティクスなど様々な分野で活用が広がっている。
- 従来のダウンサンプリング手法では，空間的な均一性が重視され，色の情報が無視されがちである。
- PRISMは，色の多様性を考慮することで，重要な特徴を保持しつつ点群を効率的に削減することを目指す。
- PRISMは，RGBカラースペースを層化の領域として扱い，各色のビンに最大容量kを課す。
- これにより，色変化の大きいテクスチャ豊富な領域は保持しつつ，視覚的に均質な表面を大幅に削減する。
- 結果として，空間的なカバレッジから視覚的な複雑さへのサンプリング空間のシフトを実現し，3次元再構成タスクに必要な特徴を維持した疎な点群を生成する。
Link: https://arxiv.org/abs/2601.06839
SafeRedir：画像生成モデルにおける堅牢なアンラーニングのためのプロンプト埋め込みリダイレクト [cs.CV, cs.AI, cs.CR, cs.LG]目的：画像生成モデルにおける有害な概念の除去
- 画像生成モデルは創造的なコンテンツを生成するが，学習データ由来の不適切な概念を記憶し，安全性の問題を引き起こす。
- 事後フィルタリングでは，安全性確保が難しく，詳細なセマンティック制御が困難である。
- モデルの再学習コストや品質劣化，プロンプトの言い換えへの脆弱性といった既存手法の課題を解決する。
- SafeRedirは，推論時にプロンプト埋め込みをリダイレクトすることで，有害な概念を効果的に除去する軽量なフレームワークである。
- モデル自体を修正することなく，埋め込み空間におけるトークンレベルの介入を通じて安全な領域へ誘導する。
- 複数の実験で，効果的なアンラーニング能力，セマンティック/知覚的な保存，高品質な画像，および敵対的攻撃への耐性を示すことが確認された。
Link: https://arxiv.org/abs/2601.08623
低線量CT画像ノイズ除去のための漸進的$\mathcal{J}$-不変自己教師あり学習 [cs.CV]目的：低線量CT画像ノイズ除去性能の向上
- CT画像診断において，被ばく線量を低減することが重要である。低線量CTは，患者の被ばくを減らすが，画像品質が低下する。
- 低線量CTのノイズ除去には，高線量CT画像が必要となる場合が多く，データ収集の困難さが課題である。
- 自己教師あり学習を用いて，高線量CT画像なしで低線量CT画像のノイズ除去性能を向上させることを目指す。
- 提案手法は，$\mathcal{J}$-不変性を活用し，より効率的な学習を実現する漸進的な盲点ノイズ除去メカニズムを導入した。
- 学習時にガウスノイズとポアソンノイズを組み合わせることで，過学習を抑制し，ノイズ除去の安定性を向上させた。
- Mayo LDCTデータセットを用いた実験の結果，提案手法は既存の自己教師あり学習手法を凌駕し，教師あり学習手法と同等以上の性能を達成した。
Link: https://arxiv.org/abs/2601.14180
DSVM-UNet：二重自己蒸留によるVM-UNetの強化 [cs.RO, cs.CV]目的：医療画像セグメンテーションのためのモデル性能向上
- 医療画像解析は疾患の診断や治療において不可欠であり，高精度なセグメンテーションが求められる。
- 既存のセグメンテーションモデルは，計算コストが高いか，長距離依存関係の処理が不十分である。
- VM-UNetの性能を，複雑な構造変更なしに向上させることを目指す。
- 提案手法DSVM-UNetは，グローバルおよびローカルレベルでの特徴量アライメントを実現する二重自己蒸留を採用した。
- ISIC2017，ISIC2018，Synapseのベンチマークにおいて，最先端の性能を達成した。
- 計算効率を維持しつつ，高いセグメンテーション精度を実現した。
Link: https://arxiv.org/abs/2601.19690
OpenVTON-Bench：制御可能なバーチャル試着評価のための大規模高解像度ベンチマーク [cs.CV, cs.AI]目的：制御可能なバーチャル試着システムの評価基準
- バーチャル試着技術は，オンラインショッピングやパーソナルファッションの分野で重要性が増している。
- 既存の評価指標は，微細なテクスチャや意味の一貫性を定量化するのに不十分である。
- 大規模かつ多様なデータセットと，信頼性の高い評価プロトコルの開発を目的とする。
- OpenVTON-Benchは，約10万組の高解像度画像ペアを含む大規模ベンチマークである。
- 提案された多次元評価プロトコルは，人間の評価と高い一致性を示す（Kendall's τ = 0.833）。
- このベンチマークは，バーチャル試着技術の評価における新たな標準を確立する。
Link: https://arxiv.org/abs/2601.22725
3Dマルチビュー行動条件付きロボット操作事前学習のためのコントラスト学習：CLAMP [cs.RO, cs.AI, cs.CV, cs.LG]目的：3Dマルチビューデータとロボット行動を用いた，ロボット操作の事前学習フレームワーク
- ロボット操作において，正確な3D空間情報の把握は不可欠であり，その重要性は高い。
- 既存の2D画像表現は3D空間情報を捉えきれず，精密な操作に課題がある。
- 本研究は，3D空間情報を考慮した事前学習により，ロボット操作の性能向上を目指す。
- 提案手法CLAMPは，点群データとロボット行動を組み合わせたコントラスト学習により，3D幾何学的情報と行動パターンの関連性を学習する。
- Diffusion Policyを用いた初期化により，ファインチューニングのサンプル効率と性能を向上させている。
- シミュレーションおよび実世界環境における複数のタスクで，最先端の手法を上回る性能を実証した。
Link: https://arxiv.org/abs/2602.00937
HistoMet：原発腫瘍組織病理画像からの転移進行と転移部位親和性の予後予測を目的とした汎がん深層学習フレームワーク [cs.CV]目的：原発腫瘍組織病理画像からの転移進行と転移部位親和性に関する予後予測
- がん死亡の主要因は転移であり，早期の予測が治療方針の決定に不可欠である。
- 組織病理画像からの転移予測は困難であり，既存手法では全体的なリスク評価と部位予測が分離されている。
- 臨床的な意思決定プロセスを考慮したフレームワークを構築し，より正確な予後予測を目指す。
- HistoMetは，高感度設定下で下流の検査負担を軽減しつつ，高い転移リスク検出率を維持した。
- 転移症例に限定した場合，HistoMetはマクロF1スコア74.6%，One-vs-Rest AUC 92.1%を達成した。
- 臨床的な意思決定構造の明示的なモデル化が，堅牢かつ実用的な予後予測を可能にした。
Link: https://arxiv.org/abs/2602.07608
画像類似度に基づく脳MRIのデータセット間連携 [cs.CV]目的：脳MRIデータのデータセット間連携の可能性
- 脳MRIデータは神経科学研究において不可欠であり，大規模なデータ共有が重要である。
- 個人識別情報削除後も，脳MRI画像には個人特徴が残り，データセット間連携のリスクがある。
- 脳MRI画像類似度を用いて，データセット間連携のリスクを定量的に評価する。
- 標準的な前処理と画像類似度計算のみで，高精度なデータセット間連携が可能であることが示された。
- 異なるスキャナ，解像度，プロトコル，認知機能低下の有無に関わらず，高い連携精度が達成された。
- 共有された脳MRIデータにおける再識別リスクが示唆され，データ共有ポリシー策定への貢献が期待される。
Link: https://arxiv.org/abs/2602.10043
光子と力：微分可能な放射圧モデリング [cs.GR, astro-ph.EP, astro-ph.IM]目的：放射圧を考慮したパラメトリック設計の最適化
- 宇宙機設計において，放射圧は重要な非保存力として作用する。
- 高精度な放射圧モデリングは計算コストが高く，大規模設計への応用が制限されてきた。
- シミュレーション，表現，最適化の革新により，放射圧を考慮した設計を効率化する。
- モンテカルロシミュレーションによる放射圧の計算を高速化し，並列処理と分散サンプリングを導入した。
- 設計パラメータから力を予測するニューラルネットワークを導入し，微分可能な代理モデルを構築した。
- 放射圧逆設計の最適化に成功し，移動時間短縮や燃料消費量削減などを実現した。
Link: https://arxiv.org/abs/2602.10712
Helmlab：UIデザインシステムのための分析的，データ駆動型カラースペースの2種ファミリー [cs.GR, cs.CV]目的：UIデザインシステム向けの，分析的かつデータ駆動型のアプローチに基づく2種類のカラースペース
- UIデザインにおいて，色彩はユーザー体験に大きな影響を与えるため，その適切な管理が重要である。
- 既存のカラースペースは，色差の予測精度やグラデーション生成の質において課題が残されている。
- 色彩の知覚的な均一性を高め，UIデザインにおける色彩表現の精度と効率を向上させることを目指す。
- MetricSpace v21は，COMBVDデータセットにおいて，CIEDE2000と比較して23%低いSTRESS値（22.48）を達成した。
- GenSpace v0.11.1は，sRGB，P3，Rec.2020のグラデーション/パレットベンチマークにおいて，OKLabと比較して65/90の指標で優位性を示した。
- これらのカラースペースは，PyPI，npm，Color.js，PostCSSプラグインとして実装されており，実用的な利用が可能である。
Link: https://arxiv.org/abs/2602.23010
ArtiFixer：自己回帰拡散モデルによる3D再構成の拡張と改善 [cs.CL, cs.CV, cs.AI, cs.GR, cs.LG]目的：3D再構成における欠損領域の補完と品質向上
- 3D再構成技術は，仮想現実やロボティクスなど幅広い分野で重要性が高まっている。
- 既存の3D再構成手法は，観察されていない領域の再構成に課題があり，不自然な結果となる場合がある。
- 本研究は，自己回帰拡散モデルを用いて，既存手法の課題を克服し，高精度な3D再構成を実現することを目指す。
- 提案手法は，既存の3D再構成手法が失敗するようなシナリオでも，妥当な再構成を生成できる。
- ベンチマークデータセットを用いた評価により，既存の最先端手法を1～3dB PSNRで上回る性能が示された。
- 強力な双方向生成モデルと効率的な自己回帰モデルの組み合わせにより，高品質かつ効率的な3D再構成が可能となった。
Link: https://arxiv.org/abs/2603.00492
内視鏡画像とパノラマ画像ステッチングによる産業用パイプライン内壁再構成システム [cs.CV]目的：産業用パイプライン内壁の再構成
- インフラ老朽化が進み，設備の点検・保守の重要性が高まっている。
- パイプライン内壁の目視検査は困難であり，効率的な再構成技術が求められる。
- 内視鏡映像から高精度なパノラマ画像を作成し，内壁検査の効率化を目指す。
- 本研究で開発したシステムは，内視鏡動画から効率的にパノラマ画像を作成できる。
- 作成されたパノラマ画像は，パイプライン内壁の詳細な特徴を全体的に捉えることを可能にする。
- 従来の手法と比較して，パイプライン内壁の再構成効率を大幅に向上させる。
Link: https://arxiv.org/abs/2603.00714
InSpatio-WorldFM：オープンソースリアルタイム生成フレームモデル [cs.CV]目的：空間知能のためのリアルタイムフレームモデル
- ロボット工学や自動運転において，周囲環境の理解は不可欠である。
- 既存の動画ベースの世界モデルは，処理の遅延が大きく，リアルタイム性に課題がある。
- 低遅延でリアルタイムな空間推論を可能にする新しいフレームモデルを開発する。
- InSpatio-WorldFMは，明示的な3Dアンカーと暗黙的な空間メモリにより，視点変化に強い多視点一貫性を実現した。
- 事前学習済みの画像拡散モデルから，少ステップ蒸留によるリアルタイムジェネレーターへの変換パイプラインを導入した。
- 消費者向けGPU上でインタラクティブな探索をサポートし，従来の動画ベースの世界モデルに対する効率的な代替手段を提供する。
Link: https://arxiv.org/abs/2603.11911
RetimeGS：4Dガウススプラッティングの連続時間再構成 [cs.CV]目的：4Dガウススプラッティングにおける連続時間フレームの再構成
- 動的なシーンを扱う上で，任意時間での再構成・レンダリングは重要である
- 既存手法は離散フレームでの過学習が起き，連続時間フレームの表現が困難である
- 時間的エイリアシングを軽減し，滑らかな時間的補間を実現する
- RetimeGSは，3Dガウスの時間的振る舞いを明示的に定義することで，時間的エイリアシングを抑制する。
- オプティカルフローに基づく初期化，トリプルレンダリングによる教師あり学習などを組み合わせた。
- 高速運動や非剛体変形，重度のオクルージョンを含むデータセットで，最先端手法を上回る品質と一貫性を示した。
Link: https://arxiv.org/abs/2603.13783
リング型ポリゴン注釈に対するトポロジー保存データ拡張 [cs.CV, cs.AI, cs.LG]目的：リング型ポリゴン注釈におけるトポロジー保存データ拡張手法
- セグメンテーションにおいて，データの幾何学的拡張は広く用いられている。
- 構造化されたドメインでは，変換後にポリゴン注釈の有効性が損なわれる場合がある。
- ポリゴンベースのセグメンテーションにおける注釈の一貫性向上を目指す。
- 提案手法は，一般的な幾何学的変換においてほぼ完璧な環状隣接関係の保存(CAP)を達成する。
- 手法はわずかなオーバーヘッドで既存の事前処理ワークフローに統合可能である。
- 内側の空間を持つ構造において，領域の断片化を防ぐことが可能となる。
Link: https://arxiv.org/abs/2603.14764
拡散に基づく特徴量ノイズ除去とNNMFを用いた，堅牢な手書き数字マルチクラス分類 [cs.CV]目的：手書き数字の堅牢なマルチクラス分類
- 機械学習の応用範囲拡大には，ノイズや敵対的攻撃への耐性が重要である。
- 既存の手法では，ノイズや敵対的攻撃に対して脆弱な場合がある。
- 特徴量空間でのノイズ除去により，分類のロバスト性を向上させる。
- 提案手法は，ベースラインのCNNモデルを上回り，強力な分類性能を維持する。
- 拡散に基づくハイブリッドモデルは，効果的かつ堅牢であることが実験的に示された。
- 特徴量レベルでの拡散防御が，信頼性の高いマルチクラス手書き数字分類に有効であることが示唆される。
Link: https://arxiv.org/abs/2603.29917
VSAS-Bench：視覚ストリーミングアシスタントモデルのリアルタイム評価 [cs.CV]目的：視覚ストリーミングアシスタントモデルの評価フレームワークとベンチマーク
- リアルタイムな視覚アシスタントは，継続的に変化する視覚情報に対応する必要があり，その評価が重要である。
- 既存の評価方法はオフライン環境が中心であり，ストリーミング環境特有の性能，特に応答の迅速性や一貫性が評価されていない。
- ストリーミングVLMsの応答性，一貫性，および精度を包括的に評価できるベンチマークを構築し，性能向上に貢献する。
- VSAS-Benchは，18,000以上の注釈を含む，時間的に密なアノテーションを備えた新しいフレームワークである。
- 評価プロトコルと指標を標準化し，ストリーミングVLMsの様々な能力を分離して測定することが可能になった。
- Qwen3-VL-4Bは，非同期プロトコルにおいて，既存のストリーミングVLMであるDispiderを3%上回る性能を示した。
Link: https://arxiv.org/abs/2604.07634
ETCH-X：合成可能なデータセットを用いた衣着人間の表現力豊かなボディフィッティングの堅牢化 [cs.CV]目的：衣着人間の3D点群データへのパラメトリックボディモデル（SMPL等）のアライメント方法
- アニメーションやテクスチャリングなど，後続タスクにおける重要な第一ステップである。
- 既存手法は，局所的な表現力と全体的な堅牢性の両立が難しく，実用的な課題に対応できていない。
- 衣類のダイナミクス，ポーズの変化，ノイズ，欠損データに対する堅牢性を向上させ，より高精度なフィッティングを実現する。
- ETCH-Xは，タイトネスを考慮したフィッティングにより衣類のダイナミクスを抑制し，SMPL-Xによる表現力を向上させている。
- 明示的な疎なマーカーの代わりに暗黙的な密な対応関係を用いることで，部分的なデータに対する頑健性を高めている。
- 多様な衣類，ポーズ，入力の完全性レベルにおいて，既存手法ETCHと比較して大幅な性能向上を達成した（例：4D-DressでMPJPE-Allが33.0%改善）。
Link: https://arxiv.org/abs/2604.08548
BEM：リアルタイム固定背景カメラにおける誤検出抑制のためのトレーニング不要な背景埋め込みメモリ [cs.IR, cs.CV]目的：誤検出抑制のための背景埋め込みメモリ
- 監視や交通監視など，高密度な単一・少クラスのシーンにおいて，既存の物体検出器の性能向上が求められている。
- COCOなどのベンチマークはカテゴリ多様性を重視するため，訓練データと実環境の分布差が課題となっている。
- 固定カメラ環境の安定した背景情報を活用し，トレーニング不要で誤検出を抑制する手法を提案する。
- 提案手法BEMは，軽量かつトレーニング不要なモジュールであり，既存の物体検出器に容易に組み込むことができる。
- BEMは背景埋め込みを推定し，検出ロジットを再スコアリングすることで，誤検出を効果的に抑制しつつ，検出率を維持する。
- YOLOやRT-DETRを用いた実験により，BEMがリアルタイム性能を維持しながら，誤検出を大幅に削減することが示された。
Link: https://arxiv.org/abs/2604.11714
TurboTalk：一段階型音声駆動のトークンアバター生成のための漸進的蒸留 [cs.CV, cs.MM, cs.SD]目的：一段階型音声駆動トークンアバター生成手法の開発
- デジタルヒューマン技術は，エンターテインメントやコミュニケーションにおいて重要な役割を担う。
- 既存手法は計算コストが高く，リアルタイム利用が困難である。
- 蒸留によって計算効率を向上させつつ，生成品質を維持すること。
- TurboTalkは，多段階拡散モデルを単段階生成器に効果的に圧縮する漸進的蒸留フレームワークである。
- Distribution Matching Distillationと敵対的蒸留を組み合わせることで，学習の安定性を高めている。
- 推論速度を120倍に向上させ，高品質なトークンアバターの生成を実現した。
Link: https://arxiv.org/abs/2604.14580
MambaBack：ホールスライド画像解析における局所特徴とグローバルコンテキストの架け橋 [cs.CV, cs.AI]目的：ホールスライド画像解析における，局所特徴とグローバルコンテキストの統合
- 病理診断の精度向上に貢献するため，計算論的病理学におけるホールスライド画像解析の重要性が高まっている。
- 既存のMILアプローチでは，空間的局所性の損失や微細な細胞構造のモデル化が不十分である。
- MambaとGated CNNsの強みを組み合わせ，効率的かつ高精度なホールスライド画像解析を実現することを目指す。
- 提案手法MambaBackは，既存の最先端手法7つと比較して，5つのデータセットで優れた性能を示した。
- Hilbertサンプリング戦略により，1次元シーケンス内のタイル空間局所性を維持し，モデルの空間認識能力を向上させた。
- 非対称チャンキング設計により，学習時の並列処理と推論時のメモリ使用量を最小限に抑え，エッジデバイスへの展開を容易にした。
Link: https://arxiv.org/abs/2604.15729
SegMix：シャッフルに基づくフィードバック学習による病理画像のセマンティックセグメンテーション [cs.CV, cs.AI]目的：病理画像のセマンティックセグメンテーションのためのシャッフルに基づくフィードバック学習手法
- 病理画像解析は，疾患領域の特定や診断・治療に不可欠であり，医療現場での重要性が高い。
- 高品質なピクセルレベルの教師データ取得には専門家による労力がかかるため，深層学習の適用が制限される。
- 画像レベルのラベルのみでセマンティックセグメンテーションを実現し，データ利用の拡大と応用範囲の向上を目指す。
- 提案手法SegMixは，カリキュラム学習に着想を得たシャッフル戦略により，高品質な疑似セグメンテーションマスクを生成する。
- 画像パッチレベルでのシャッフルと，それに対するモデルの適応的な戦略調整が，SegMixの特徴である。
- 3つの異なるデータセットにおいて，SegMixは既存手法を上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2604.15777
ロボットナビゲーションのための奥行き事前知識によるガラス表面再構成の強化 [cs.RO, cs.CV]目的：ガラス表面におけるロボットナビゲーションの精度向上
- 屋内ロボットナビゲーションは，安全性と効率性の確保に不可欠である。
- ガラス表面は，深度センサーの測定値を著しく歪ませるという課題がある。
- ガラス表面による深度センサーの誤測定を改善し，正確なナビゲーションを可能とする。
- 本研究では，深度事前知識を構造的制約として活用する，学習不要なフレームワークを提案した。
- 提案手法は，ローカルRANSACベースのアライメントにより，生のセンサー深度と深度事前知識を融合し，ガラスによる誤測定の影響を抑制する。
- また，ガラス領域の幾何学的な正解データを含む新しいRGB-DデータセットGlassReconを公開する。
Link: https://arxiv.org/abs/2604.18336
X-Cache：少数ステップ自己回帰ワールドモデル推論のためのクロスチャンクブロックキャッシング [cs.DB, cs.CV]目的：リアルタイムワールドシミュレーションの高速化
- 自動運転システムの評価やオンライン強化学習において，リアルタイムなワールドシミュレーションは不可欠である。
- 高精度なワールドモデルの推論コストが，インタラクティブな展開のボトルネックとなっている。
- 既存のキャッシング手法では対応できない少数ステップモデルの推論速度を改善する。
- X-Cacheは，チャンク間で残差キャッシュを維持し，ブロックごとの再計算/再利用を決定するゲート機構を用いることで，推論を高速化する。
- X-worldでの実験により，ブロックの71%をスキップし，2.6倍の速度向上を達成し，精度劣化は最小限に抑えられた。
- KVキャッシュへの誤差伝播を防ぐため，KV更新チャンクでは強制的に完全な計算を行う。
Link: https://arxiv.org/abs/2604.20289
乳房X線画像における軽量モデルを用いた病変セグメンテーション：比較研究 [cs.CV, cs.LG]目的：乳房X線画像における病変セグメンテーションの性能と効率
- 乳癌は女性の癌関連死亡の主要な原因であり，マンモグラフィが主要なスクリーニング手段である。
- 既存の深層学習モデルは高性能だが，計算資源を多く必要とし，実用環境での利用が制限される。
- 限られた計算資源でも利用可能な，軽量な病変セグメンテーションモデルを開発すること。
- MobileNetV2-SCSEはU-Netと比較してパラメータ数を75%削減しつつ，Dice係数0.5766という最高の性能を達成した。
- DMIDデータセットでのクロスデータセット評価では，ドメインシフトにより精度が低下したが，Recallは維持された。
- 本研究は，実用的なCADシステムの展開において，軽量なアーキテクチャが性能と効率のバランスを取る有効性を示す。
Link: https://arxiv.org/abs/2604.23899
ReVSI：VLM 3D推論の正確な評価のための視覚空間知能評価の再構築 [cs.CV]目的：VLMにおける3D推論の空間知能評価の妥当性向上
- VLMの発展に伴い，3D空間の理解能力の評価が重要になっている。
- 既存の評価基準は，不正確なアノテーションや入力フレーム数の制限により，VLMの能力を正確に測れない。
- VLMの入力条件を考慮した，正確かつ信頼性の高い評価基準を構築すること。
- ReVSIは，高品質な再アノテーションと厳格なバイアス軽減により，既存の評価基準の問題点を解決した。
- フレーム数やオブジェクトの可視性に関する情報を付加することで，詳細な診断分析を可能にした。
- ReVSIを用いた評価により，既存の基準では見過ごされていたVLMの弱点が明らかになった。
Link: https://arxiv.org/abs/2604.24300
GPT-Image-2の野生における利用: 初回公開週の自己申告AI生成画像Twitterデータセット [cs.CV, cs.AI]目的：GPT-Image-2によって生成された画像のTwitterデータセット
- AI生成技術の進展は，写真と合成画像の区別を困難にしている。社会への影響を理解する上で重要である。
- AI生成画像の識別は難しく，誤情報拡散のリスクがある。検証可能なデータセットが不足している。
- GPT-Image-2生成画像を集め，特性を分析することで，識別や影響評価に貢献する。
- データセットは10,217枚のGPT-Image-2生成画像を含み，多言語のテキスト分析やAIバッジ検証を経て収集された。
- 画像には，被写体分類，OCRテキストの可読性，顔検出，セマンティッククラスタリングなどの分析が適用された。
- TwitterのCDNがC2PAコンテンツ認証を削除するため，ソーシャルメディア由来のAI画像の真正性確認は困難である。
Link: https://arxiv.org/abs/2604.25370
具現化されたAIおよびロボットシミュレーションのための3D生成：サーベイ [cs.NI, cs.MM, eess.IV, cs.RO, cs.CV]目的：具現化されたAIおよびロボットシミュレーションのための3D生成技術の現状
- ロボット開発において，現実世界とのインタラクションを伴うシミュレーションの重要性が高まっている。
- 既存の3D生成技術は，視覚的なリアリズムに偏っており，ロボットの動作や物理特性を考慮した生成が課題である。
- ロボットの学習や現実世界への展開を促進するための，物理的に妥当な3Dコンテンツ生成を可能にすること。
- 本サーベイでは，3D生成が具現化されたAIシステムにおいて，データ生成，シミュレーション環境構築，そしてSim2Realブリッジの３つの役割を果たすことを整理した。
- 研究分野は視覚的なリアリズムから，インタラクションの準備へとシフトしており，物理的注釈の不足やシミュレーションと現実世界の乖離などが課題として指摘されている。
- 3D生成技術が具現化された知能の信頼できる基盤となるためには，これらのボトルネックを解消する必要がある。
Link: https://arxiv.org/abs/2604.26509
GLM-5V-Turbo：マルチモーダルエージェントのためのネイティブ基盤モデルへ [cs.CV]目的：マルチモーダルエージェントのための基盤モデル構築
- 近年，実環境での活用が進む基盤モデルにおいて，高度な推論能力が求められている。
- 従来のモデルでは，画像や動画等の異質情報への対応が不十分であり，エージェントとしての能力に限界がある。
- マルチモーダルな知覚機能を基盤モデルに統合し，より高度なエージェントを実現することを目的とする。
- GLM-5V-Turboは，モデル設計，マルチモーダル学習，強化学習，ツールチェーン拡張，そしてエージェントフレームワークとの統合において改善がなされた。
- その結果，マルチモーダルコーディング，視覚的なツール利用，フレームワークベースのエージェントタスクにおいて高い性能を示した。
- また，テキストのみのコーディング能力も維持されており，マルチモーダルエージェント構築のための知見も得られた。
Link: https://arxiv.org/abs/2604.26752
視覚的プライミングが視覚言語モデルの協調行動に及ぼす影響 [cs.AI, cs.CV]目的：視覚言語モデルにおける協調行動への視覚的プライミングの影響
- 視覚言語モデルは意思決定システムへの統合が進んでおり，その行動原理の理解が重要である。
- 視覚入力がモデルの行動に与える影響は十分に解明されていない。
- 視覚的プライミングによる行動変化を検証し，その影響を軽減する手法を模索する。
- 視覚言語モデルの行動は，画像の内容や色といった視覚的要素によって影響を受けることが示された。
- モデルによって影響を受けやすさや軽減策の効果に差が見られた。
- 視覚的に豊富な環境下での安全な利用のため，堅牢な評価フレームワークの重要性が強調された。
Link: https://arxiv.org/abs/2604.27953
LaST-R1: 適応的な物理的潜在的推論によるロボット操作の強化 [cs.RO, cs.CV]目的：ロボット操作における適応的な物理的推論能力の向上
- ロボットは複雑な環境で行動するため，高度な状況理解と推論能力が不可欠である。
- 既存のモデルは静的な模倣学習に偏っており，環境変化への適応性が低い。
- 潜在的な推論プロセスと行動生成を同時に最適化し，適応性を高める。
- LaST-R1は，LIBEROベンチマークにおいて，わずか1回の教師あり学習で99.9%という高い成功率を達成した。
- 実環境での実験では，既存の教師ありファインチューニング手法と比較して，平均22.5%の性能向上を示した。
- LaST-R1は，シミュレーション環境と実環境の両方で高い汎化性能を発揮した。
Link: https://arxiv.org/abs/2604.28192
OceanPile：基盤モデルのための大規模多種海洋コーパス [cs.MM, cs.AI, cs.CL, cs.CV, cs.LG]目的：海洋基盤モデル構築のための大規模多種海洋コーパス
- 地球温暖化や海洋生態系の保全において，海洋の役割は重要であり，AIによる貢献が期待される。
- 海洋データは分散しており，多種，高ノイズ，弱ラベルであり，統一された形式や意味的整合性が欠如している。
- 海洋環境に特化した大規模かつ整合性の高い多種データセットを提供し，海洋AI研究を促進すること。
- OceanPileは，ソナーデータ，水中画像，海洋科学ビジュアル，科学テキストを統合したOceanCorpusを含む。
- 階層型海洋概念知識グラフに基づいた新規パイプラインにより合成された高品質な指示データセットOceanInstructionも提供する。
- 厳格な評価のための手動キュレーションされた評価ベンチマークOceanBenchmarkも含まれ，学習モデルの性能向上が確認された。
Link: https://arxiv.org/abs/2605.00877
視覚言語モデルにおける知覚帯域幅のボトルネック：逐次実験計画による能動的視覚推論 [cs.CV, cs.AI, cs.LG]目的：視覚言語モデルにおける知覚帯域幅のボトルネックの克服
- 画像とテキストを理解する視覚言語モデルは，様々な応用で重要性が増している。
- 広範囲の視覚情報の処理において，詳細な情報の獲得がボトルネックとなっている。
- 限られた知覚帯域幅下での，タスクに関連する証拠の効率的な獲得を目指す。
- 本研究では，逐次ベイズ最適実験計画に基づき，視覚的証拠の能動的な取得を提案した。
- タスクに関連する情報獲得量を近似する，カバレッジと解像度の目的関数を導出した。
- 提案手法FOVEAは，高解像度ベンチマークにおいて，既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2605.01345
明示的な注意機構を用いない線形時間グローバルビジュアルモデリング [cs.CV]目的：線形時間でのグローバルビジュアルモデリング手法
- Transformerは画像認識などの分野で重要な役割を果たしている。計算効率の向上が課題。
- 従来のTransformerは注意機構の計算量が二次関数となり，長大な系列の処理が困難。
- 動的パラメータ化によって注意機構を代替し，計算量を線形に削減することを目指す。
- 注意機構は動的に予測されるパラメータを持つ多層パーセプトロンとして再構成できることが示された。
- 動的パラメータ化は，明示的な注意機構に代わる効率的なグローバルモデリング手法となり得る。
- 提案手法は，既存のTransformerと同等の性能を線形時間で達成できることを実験的に示した。
Link: https://arxiv.org/abs/2605.01711
SignVerse-2M：55以上の手話言語を網羅する200万件のポーズネイティブなデータセット [cs.CV, cs.AI, cs.CL]目的：多言語手話ポーズモデリングと評価のための大規模データセット
- 手話認識・翻訳は，言語的障がいを持つ人々とのコミュニケーションを円滑にする上で不可欠である。
- 既存の手話データセットは，実世界の多様な環境での汎化性能が課題となっている。
- 本研究は，実世界での応用を考慮したポーズネイティブな手話データセットを構築し，その有効性を示す。
- SignVerse-2Mは，公開されている多言語手話動画資源を用いて構築された，200万件以上の動画クリップからなる大規模データセットである。
- 全ての動画はDWPoseを用いて2Dポーズシーケンスに変換されており，ポーズ駆動型生成モデルとの直接的なインターフェースが可能である。
- このデータセットは，55以上の手話言語を網羅し，実世界の多様な環境における手話認識・翻訳の性能向上に貢献する。
Link: https://arxiv.org/abs/2605.01720
RenCon 2025：表現力豊かな演奏レンダリングコンペティションの復活 [cs.MM, cs.SD]目的：表現力豊かな演奏レンダリングコンペティション RenCon 2025 の記録
- 音楽表現の自動化は，音楽情報処理研究の重要なテーマであり，人間らしい演奏を実現することが求められる。
- 既存のレンダリング技術では，微妙なニュアンスや感情を伴う自然な音楽表現が困難であるという課題が存在する。
- 本研究は，RenCon 2025を通して，表現力豊かな演奏レンダリング技術の現状と課題を明らかにすることを目的とする。
- RenCon 2025には国際的な研究グループから9件のエントリーが集まり，多様なアプローチによる表現力豊かなピアノ演奏レンダリングが試みられた。
- コンペティションの結果は，表現力豊かなレンダリング能力の進歩を示す一方で，人間レベルの音楽表現を達成するための課題が残されていることを示唆している。
- 本研究は，コンペティションの形式，参加者の属性，システム性能，今後の反省点などを分析し，今後のコンペティションの改善に貢献する。
Link: https://arxiv.org/abs/2605.02059
多様体整合型ガイダンス付き統合勾配による信頼性の高い特徴量帰属 [cs.LG, cs.AI, cs.CV]目的：深層ニューラルネットワークの特徴量帰属手法
- 深層学習モデルの解釈可能性は，モデルの信頼性を高め，改善に不可欠である。
- 既存の統合勾配法は，ノイズの多い勾配領域を通る経路で不安定になる場合がある。
- 学習された生成多様体に沿った経路を構築し，信頼性の高い帰属を達成すること。
- 本研究で提案するMA-GIGは，潜在空間で経路を構築することで，不自然な入力領域への露出を軽減する。
- 定性的・定量的な評価により，MA-GIGが入力に近い経路の特徴量に基づいて忠実な説明を生成することが示された。
- その結果，多様体外ノイズが減少し，既存手法を上回る性能が確認された。
Link: https://arxiv.org/abs/2605.02167
TemPose-TF-ASF：バドミントンストローク分類のための二段階双方向ストローク文脈融合 [cs.CV]目的：バドミントンストロークの分類
- スポーツ分析や戦術的判断支援において，正確なストローク予測は不可欠である。
- 既存手法では，豊かな時間的文脈をモデル化することが困難である。
- 双方向ストローク依存性を明示的にモデル化し，ストローク認識の精度向上を目指す。
- 提案手法TemPose-TF-ASFは，前後のストロークタイプ情報を組み込むことで，ストローク認識の精度を向上させた。
- 大規模なバドミントン試合データセットにおける実験により，ベースラインモデルやその変種と比較して，精度とMacro-F1スコアにおいて一貫した改善が確認された。
- ASFモジュールを他の高度な手法に統合することで，顕著な性能向上が得られ，高い汎化能力を示す。
Link: https://arxiv.org/abs/2605.02558