arXiv雑要約

画像・音声 - 2026/03/27 公開

構成画像検索のためのセグメンテーションに基づく焦点移動修正 [cs.CV]目的：構成画像検索における検索性能の向上
- 画像検索は，大量の画像データから必要なものを効率的に見つけるための重要な技術である。
- 従来の構成画像検索では，ノイズの影響やテキスト情報の優先順位の低さが課題となっていた。
- 本研究では，画像の主要部分の特定とテキストによる焦点修正により，これらの課題を解決することを目指す。
- 提案手法では，画像の主要部分をセグメンテーションし，ノイズの影響を低減する特徴抽出モジュールを導入した。
- さらに，テキスト情報に基づいて画像の焦点を適応的に修正するモジュールを開発し，修正内容の認識精度を向上させた。
- 4つのベンチマークデータセットを用いた実験により，提案手法の有効性が確認された。
Link: https://arxiv.org/abs/2507.05631
ThinkingViT：弾力的な推論のためのマトリオシカ思考ビジョンTransformer [cs.CV]目的：入力の難易度に応じた動的な推論計算調整
- ViTは高性能だが，ハードウェア環境によってスケーラブルな展開が難しい。
- 既存のMatryoshka型Transformerは，入力の複雑さに応じて計算量を調整していない。
- 入力の難易度に応じて推論計算量を調整することで効率化を図る。
- ThinkingViTは，ImageNet-1Kにおいて，既存のネスト型モデルを最大2.0ポイント上回る精度を達成した。
- 同じスループットまたはGMACsでより高い精度を実現した（最大2.9ポイント）。
- ThinkingViTは，セマンティックセグメンテーション等のダウンストリームタスクにおいてViTのプラグインアップグレードとして機能する。
Link: https://arxiv.org/abs/2507.10800
U-DREAM：残響モデルに基づく非教師あり残響除去 [cs.SD, cs.AI, eess.AS, eess.SP]目的：非教師あり残響除去手法の開発
- 音声処理において，明瞭度の高い音響環境の実現は重要である。
- 実環境で得られる音声は残響を含み，その除去が困難である。
- 少ないデータで効果的な残響除去手法の確立が課題である。
- 提案手法は，残響パラメータがラベル付けされたデータ100サンプルのみで，非教師ありベースラインを上回る性能を達成した。
- 残響マッチング損失による誘導と，最大尤度推定に基づく逐次学習戦略が，効果的であることが示された。
- ドライ信号と音響パラメータを深層ニューラルネットワークを用いて推定することで，実用的な残響除去を実現する。
Link: https://arxiv.org/abs/2507.14237
MiDashengLM：汎用オーディオキャプションによる効率的な音声理解 [cs.SD, eess.AS]目的：効率的かつ包括的な音声理解のためのオープンなオーディオ言語モデル
- 音声理解は，人間と機械のコミュニケーションにおいて不可欠であり，様々な応用分野で重要性が増している。
- 既存の大型オーディオ言語モデルは，データソースが限定的で，汎用性や透明性に課題があった。
- MiDashengLMは，オープンなデータセットと汎用オーディオキャプションを用いて，その課題を解決することを目指す。
- MiDashengLMは，Dashengというオープンソースの音声エンコーダを統合し，多様な聴覚情報を効果的に処理する。
- 従来のASRベースのアプローチとは異なり，音声，音響，音楽情報を統合した汎用オーディオキャプションを使用することで，複雑な音声シーンを包括的に表現する。
- MiDashengLMは，比較可能なモデルと比較して，トークン生成開始時間（TTFT）を最大4倍，スループットを最大20倍高速化する。
Link: https://arxiv.org/abs/2508.03983
MedShift：X線画像ドメイン適応のための暗黙的条件付き輸送 [cs.CV, cs.AI]目的：合成X線画像と実X線画像間のドメイン変換
- 医療画像診断の精度向上には，大量の学習データが不可欠である。合成データはその供給を可能にする。
- 合成データと実データ間にはドメインギャップが存在し，汎化性能を低下させる問題がある。
- この研究は，ドメインギャップを埋め，実環境での適用性を高めることを目指す。
- MedShiftは，Flow MatchingとSchrodinger Bridgesに基づく生成モデルであり，高精度な画像変換を可能にする。
- 既存手法と異なり，ドメイン固有の学習やペアデータに依存せず，ドメイン非依存な潜在空間を学習する。
- X-DigiSkullデータセットを用いた実験により，MedShiftは優れた性能を示し，実用性と汎用性を両立している。
Link: https://arxiv.org/abs/2508.21435
ノートレベル対照クラスタリングによるマルチ楽器転写のための軽量二分岐アーキテクチャ [cs.DC, cs.SD, cs.IR]目的：マルチ楽器の転写
- 音楽情報処理において，楽器の自動転写は作曲支援や音楽検索に応用され，重要性が増している。
- 既存のモデルは，学習済みの楽器に限定され，楽器数に制約があり，計算コストが高いという課題がある。
- 本研究は，多様な楽器に対応し，計算効率の良い転写モデルの開発を目指す。
- 軽量な二分岐アーキテクチャとノートレベルの対照クラスタリングにより，効率的な転写と楽器分離を実現した。
- 従来の重いモデルと比較して，転写精度と分離品質を維持しつつ，計算コストを削減することに成功した。
- 本モデルは，実用的な環境やリソースに制約のある環境での展開に適している。
Link: https://arxiv.org/abs/2509.12712
コンセプトボトルネックモデルの除去と再学習によるデバッグ [cs.CV, cs.LG]目的：コンセプトボトルネックモデルにおける問題点の特定と改善
- 人間が理解しやすい概念を用いることで，モデルの予測根拠を検証し，専門家が介入可能になる。
- モデルが偏ったデータから近道学習し，専門家の思考とモデルの認識にずれが生じることがある。
- 専門家による概念の除去と，そのフィードバックに基づいた再学習によってモデルを改善する。
- 提案手法CBDebugは，コンセプトレベルのフィードバックをサンプルレベルの補助ラベルに変換し，バイアス軽減とターゲットを絞ったデータ拡張を行う。
- 実際の専門家からのフィードバックと自動生成されたフィードバックを用いた評価で，既存の再学習手法よりも大幅に性能が向上した。
- 様々なCBMアーキテクチャ(PIP-Net, Post-hoc CBM)および既知の虚偽相関を持つベンチマークで有効性が確認された。
Link: https://arxiv.org/abs/2509.21385
Easy3D-Labels：3D疑似ラベルを用いたセマンティック占有推定の監督学習（自動車感知用） [cs.CV]目的：自動車感知のためのセマンティック占有推定における，3D疑似ラベルを用いた監督学習
- 自動運転における安全確保は重要であり，特に歩行者や自転車などの弱者への配慮が不可欠である。
- 従来の鳥瞰図表現では垂直方向の情報が失われ，3Dオブジェクトの位置特定が曖昧になるという課題があった。
- 3D空間での直接的な監督学習を可能にし，高精度な環境理解を実現することで，自動運転の安全性を向上させる。
- 提案手法Easy3D-Labelsは，Grounded-SAMとMetric3Dv2を用いて生成した3D疑似ラベルを活用し，既存モデルの性能を大幅に向上させる。
- OccNeRFを用いた実験では，mIoUが45%，RayIoUが49%向上し，オブジェクトの重複を減らし，深度推定の精度を高めることが示された。
- 3D疑似ラベルのみで学習するEasyOccは，複雑なレンダリング戦略を必要とせず，Occ3D-nuScenesデータセットで15.7のmIoUを達成した。
Link: https://arxiv.org/abs/2509.26087
12誘導心電図における多重異常分類のための1次元CNN心電図マンバ [cs.CV]目的：12誘導心電図における多重異常の分類
- 心臓異常の正確な検出は臨床診断や意思決定支援に不可欠である。
- 従来の深層学習モデルは，長時間の系列信号処理において性能が限界を迎えている。
- マンバという選択的状態空間モデルを活用し，心電図データの系列モデリングを改善する。
- 提案モデルは，PhysioNet Computing in Cardiology Challenges 2020および2021で既存手法を上回る性能を示した。
- 特に，12誘導心電図において，既存のアルゴリズムよりもAUPRCとAUROCスコアが大幅に向上した。
- マンバベースのアーキテクチャが，信頼性の高い心電図分類を促進する可能性を示す。
Link: https://arxiv.org/abs/2510.13046
テキストを見る：トークン化から視覚的読解へ [cs.CV, cs.CL]目的：低リソース言語における計算効率と汎化性能の向上
- 言語処理において，人間は文字の視覚的特徴を認識することで，誤字や異なる書体にも柔軟に対応できる。
- 現在のLLMはサブワードトークン化に依存し，低リソース言語では過剰な分割が生じ，計算コストが増大する。
- 視覚的なアプローチによって，トークン化の課題を克服し，より効率的で人間らしい言語モデルを目指す。
- 提案手法SeeTokは，テキストを画像としてLLMに入力することで，従来のトークン化手法と同等以上の性能を達成する。
- SeeTokは，トークン数を4.43分の1，FLOPsを70.5%削減し，計算効率を大幅に向上させる。
- また，SeeTokは，クロスリンガルな汎化性能，タイポグラフィに対するロバスト性，言語階層の認識において追加的な利点を示す。
Link: https://arxiv.org/abs/2510.18840
ミングフラッシュオムニ：マルチモーダル知覚と生成のための疎な統一アーキテクチャ [cs.CV, cs.AI]目的：マルチモーダル知覚と生成のための疎な統一アーキテクチャ
- 近年のAI研究では，視覚，言語，音声など複数のモダリティを統合的に処理する能力が重要視されている。
- 既存のモデルは計算コストが高く，大規模なデータが必要であり，汎用的なマルチモーダルAIの実現を妨げている。
- 計算効率を大幅に向上させつつ，モデルの能力を拡張し，汎用的なマルチモーダル知能の基盤を構築すること。
- 本研究で開発されたミングフラッシュオムニは，1000億パラメータを持ちながら，1トークンあたり61億パラメータのみがアクティブであるため，高い計算効率を実現している。
- 視覚-言語理解ベンチマークにおいて，Gemini 2.5 Proと同等の高い性能を示し，マルチターンインタラクションにおけるマルチモーダルタスクのシームレスな切り替えを可能にしている。
- さらに，文脈と方言を考慮した音声認識，音声・音響・音楽の同時生成，セマンティックセグメンテーションの生成など，様々なタスクで優れた性能を発揮している。
Link: https://arxiv.org/abs/2510.24821
時間の流れはどちら向き？—心理物理学に基づいた視覚言語モデルの評価 [cs.NI, cs.SY, eess.SP, eess.SY, cs.CV, cs.CL]目的：視覚言語モデルにおける時間情報の理解度評価
- 近年のマルチモーダル研究の発展は目覚ましいが，時間情報の扱いは課題である。
- 既存の視覚言語モデルは動画中の時間的情報を十分に理解できていない。
- 時間的な方向性判断能力を評価し，モデルの弱点を明らかにする。
- 視覚言語モデルの多くは時間的順序の判断において，偶然レベルに近い性能しか示さなかった。
- 特に物理的に不可逆な現象や因果関係のある動作において，人間との性能差が大きいことが示された。
- 視覚言語モデルは視覚と意味の関係は捉えられるものの，時間的連続性や因果関係の理解が不十分である。
Link: https://arxiv.org/abs/2510.26241
超音波における基礎的なビデオ変換のための生成深層学習 [cs.CV, cs.AI]目的：超音波におけるカラーフロー Doppler とグレースケールビデオ間の変換手法の開発
- 医療画像診断において深層学習の活用が期待されるが，データ不均衡や欠損への対応が課題である。
- 超音波画像は，複数のサブモダリティを含み，臨床研究ではデータバランスが崩れやすい。
- 超音波サブモダリティのデータバランスを改善し，深層学習の性能向上に貢献することを目指す。
- 生成モデルは，実際の超音波動画と合成動画のSSIM平均値を0.91±0.04と高い値を示した。
- 合成動画は，深層学習による分類・セグメンテーションタスクにおいて，実際の動画と遜色ない性能を発揮した。
- 臨床専門家による評価においても，合成動画と実際の動画を識別する精度は54±6%であり，現実的な画像生成が可能であることが示された。
Link: https://arxiv.org/abs/2511.03255
グラフメモリ：モダリティ非依存埋め込みベース推論のための構造化解釈可能フレームワーク [cs.LG, cs.CV]目的：埋め込み空間のグラフ構造化表現
- 機械学習モデルの解釈性は重要であり，予測の根拠を理解することが求められる。
- 従来の非パラメトリック推論手法は，メモリ消費量が大きく，解釈性に乏しい場合がある。
- 信頼性に基づいた地域構造を明示的にモデル化し，解釈可能な推論を可能にする。
- グラフメモリ（GM）は，kNNやLabel Spreadingと同等以上の精度を達成する。
- GMは，より優れたキャリブレーションと滑らかな決定境界を提供する。
- GMは，メモリ消費量を大幅に削減し，単一およびマルチモーダルデータに対応する。
Link: https://arxiv.org/abs/2511.14961
胸部X線画像の指示に基づいた病変セグメンテーション：自動生成大規模データセットを用いた研究 [cs.CV]目的：胸部X線画像における病変セグメンテーションの性能向上
- 胸部X線画像は，呼吸器疾患の診断において重要な役割を担う画像診断である。
- 既存の病変セグメンテーションモデルは，学習データ不足や専門的なテキスト入力への依存が課題である。
- 本研究は，簡便な指示に基づいたセグメンテーションを可能にし，実用的な病変検出を目指す。
- 大規模な指示応答データセットMIMIC-ILSを構築し，多様な病変種に対応できるモデルROSALIAを開発した。
- ROSALIAは，指示に応じて高精度に病変をセグメンテーションし，テキストによる説明も提供できる。
- 本研究で構築したデータセットとモデルは，胸部X線画像の病変検出研究の基盤となることが期待される。
Link: https://arxiv.org/abs/2511.15186
PartDiffuser：離散拡散によるパーツごとの3Dメッシュ生成 [cs.CV]目的：アーティストがデザインしたメッシュの生成
- 3Dコンテンツ作成において，高品質なメッシュ生成は不可欠である。
- 既存手法では，全体構造と詳細な局所情報の両立が課題であった。
- グローバルとローカルの生成タスクを分離し，高品質なメッシュ生成を実現する。
- 提案手法PartDiffuserは，パーツごとに拡散プロセスを適用することで，高周波な幾何学的特徴を精密に再構成する。
- DiTアーキテクチャを基盤とし，パーツを意識したクロスアテンション機構により，生成プロセスを動的に制御する。
- 実験により，PartDiffuserが最新のSOTAモデルを凌駕し，豊富な詳細表現を持つ3Dメッシュを生成することが示された。
Link: https://arxiv.org/abs/2511.18801
DiP：ピクセル空間における拡散モデルの制御 [cs.CV]目的：拡散モデルにおける生成品質と計算効率のトレードオフ解消
- 画像生成技術は，多様な応用分野で重要性が増しており，高品質かつ効率的な生成手法が求められている。
- 従来の拡散モデルは計算コストが高く，高解像度画像の生成が困難であった。潜在拡散モデルは効率的だが，情報損失のリスクがある。
- ピクセル空間で効率的に高品質な画像生成を実現し，計算効率と生成品質の両立を目指す。
- 提案手法DiPは，Diffusion TransformerとPatch Detailer Headを組み合わせることで，計算効率を維持しつつ高解像度画像の生成を可能にした。
- DiPは既存手法と比較して，最大10倍高速な推論速度を達成し，パラメータ数の増加はわずか0.3%で済んだ。
- ImageNet 256×256データセットにおいて，FIDスコア1.79を獲得し，生成品質の向上も確認された。
Link: https://arxiv.org/abs/2511.18822
誤り原因の特定：一人称視点動画における詳細な誤り理解 [cs.CV]目的：一人称視点動画における人間の誤りの詳細な理解
- ロボットやAIの生活支援には，人間の行動理解が不可欠である。誤り理解はその重要な要素となる。
- 既存研究では，誤りの発生自体は検出できるものの，原因やタイミングの特定は困難であった。
- 本研究は，誤りの原因，不可逆的な分岐点，そして発生箇所を特定することで，より高度な誤り理解を目指す。
- MisEngineを用いて大規模な誤りデータセット（EPIC-KITCHENS-M, Ego4D-M）を構築し，誤り理解のベンチマークを確立した。
- MisFormerという統一的なアテンションベースモデルを開発し，意味，時間，空間の各次元における誤り原因の特定を可能にした。
- 提案手法MisFormerは，既存の最先端手法と比較して，様々なタスクで大幅な性能向上を達成した。
Link: https://arxiv.org/abs/2511.20525
ファウンドリ：エッジ向け3D基礎モデルの蒸留 [cs.CV, cs.AI, cs.LG, cs.NE]目的：大規模な自己教師あり学習済み基礎モデルの圧縮
- ロボットやAR/VRヘッドセット等のエッジデバイスへのAI活用が期待されており，高性能な特徴抽出器が求められている。
- 基礎モデルはサイズが巨大で計算コストが高いため，エッジデバイスへの搭載が困難であるという課題がある。
- 汎用性を損なわずに基礎モデルを効率的に圧縮し，エッジデバイスでの実用化を可能にすることを目指す。
- 本研究では，教師モデルのトークンレベル表現を再構成する「SuperToken」を学習することで，汎用性を維持したまま基礎モデルを圧縮するFMD（Foundation Model Distillation）を提案した。
- 提案手法Foundryは，3D点群データに対し，分類，部分セグメンテーション，少量データ学習といった多様なタスクで高い転移学習能力を示し，基礎モデルの性能に匹敵する結果が得られた。
- Foundryは，トークン数とFLOPsを大幅に削減し，リソース制約のあるハードウェアへの展開を可能にする。
Link: https://arxiv.org/abs/2511.20721
MultiBanana：多参照画像からのテキスト画像生成における挑戦的ベンチマーク [cs.CV]目的：多参照画像を用いたテキスト画像生成のモデル性能評価と課題特定
- 近年のテキスト画像生成技術の発展に伴い，複数参照画像からの生成・編集の重要性が増している。
- 既存のベンチマークデータセットは，参照画像数が少ない場合が多く，多数の参照画像を扱う際の課題を捉えきれていない。
- 異なるドメインやスケールの参照画像を組み合わせる際の課題を評価し，モデルの限界を明らかにする。
- MultiBananaは，参照画像数，ドメイン，スケール，希少概念，多言語テキストなど，多参照設定特有の問題を網羅的に評価できる。
- 様々なテキスト画像生成モデルの分析により，それぞれの性能，典型的な失敗パターン，改善点が明らかになった。
- MultiBananaは，多参照画像生成における公平な比較のための標準化された基盤を確立するオープンベンチマークとして公開されている。
Link: https://arxiv.org/abs/2511.22989
操作失敗の診断，修正，および学習：視覚記号によるアプローチ [cs.RO, cs.CV]目的：ロボット操作失敗の診断とそこからの学習
- ロボット工学の発展には，より高度な操作能力が不可欠であり，その実現には失敗からの学習が重要である。
- 既存のVLAモデルは失敗診断や失敗からの学習能力に課題があり，実際の環境での汎化性能が低い。
- ロボット操作における失敗を診断し，視覚記号を用いた修正ガイダンスを提供することで，VLAモデルの性能向上を目指す。
- ViFailbackフレームワークは，テキストと視覚記号の両方を用いた修正ガイダンスにより，ロボット操作失敗の診断を可能にする。
- 58,126件のVQAペアと5,202件の実際の操作軌跡からなる大規模なViFailbackデータセットを公開し，VLMの評価基準であるViFailback-Benchを構築した。
- ViFailback-8B VLMは，ViFailback-Benchにおいて優れた性能を示し，ロボットの実際の操作実験でVLAモデルの回復を支援することに成功した。
Link: https://arxiv.org/abs/2512.02787
構成要素4Dシーンの，見たことのない状態からの推論 [cs.CV]目的：構成要素4Dシーンの構造と空間的・時間的配置の予測
- 現実世界のシーンは複雑であり，その構造を捉えることは重要である。
- 既存手法は単一オブジェクトに焦点を当て，汎用性に課題がある。
- 4D構成要素データを用いずに，シーン全体の構造を予測すること。
- 提案手法COM4Dは，空間的・時間的注意機構を用いて4Dシーンを再構成する。
- 単一オブジェクトの動きとオブジェクトの組み合わせから学習することで，4D構成要素データの必要性を回避する。
- 既存の4Dオブジェクトや3D再構成タスクにおいても，最先端の結果を達成した。
Link: https://arxiv.org/abs/2512.05272
MedGRPO：異種医療ビデオ理解のためのマルチタスク強化学習 [cs.CV]目的：異種医療ビデオ理解の性能向上
- 医療分野における画像と言語の理解は，診断や治療の精度向上に不可欠である。
- 既存のビジョン言語モデルは，医療ビデオの空間的精度，時間的推論，臨床的意味の理解が困難である。
- 異なるデータセット間での報酬の不均衡を解消し，安定した学習を実現することを目指す。
- 大規模な医療ビデオベンチマークMedVidBenchを構築し，その有効性を示した。
- 報酬の正規化と医療LLMによる評価を含むMedGRPOフレームワークを提案し，性能向上を達成した。
- Qwen2.5-VL-7BをMedVidBenchで教師ありファインチューニングすることで，GPT-4.1やGemini-2.5-Flashを上回る性能を実現した。
Link: https://arxiv.org/abs/2512.06581
制御されたビデオ生成のための統一カメラ位置エンコーディング [cs.CV]目的：カメラ制御型テキストからのビデオ生成におけるカメラ位置エンコーディングの統一的表現
- 3D認識，ビデオ生成，自動運転において，カメラジオメトリの理解は不可欠である。
- 既存のカメラエンコーディングは，簡略化されたピンホール仮定に依存し，現実世界のカメラの多様性に一般化できない。
- 多様なカメラ特性に対応可能な，汎用的なカメラ表現を確立し，ビデオ生成の制御性を向上させる。
- Relative Ray EncodingとAbsolute Orientation Encodingを組み合わせたUCPEは，カメラの6自由度姿勢，内部パラメータ，レンズ歪曲を統一的に表現する。
- UCPEは，既存のビデオ拡散Transformerに軽量なアダプターとして統合され，わずか1%未満の学習パラメータ増加で最先端のカメラ制御性と視覚的な忠実度を達成する。
- 大規模なビデオデータセットを用いた実験により，UCPEがカメラ制御型ビデオ生成において有効であることが検証された。
Link: https://arxiv.org/abs/2512.07237
検証閾値：画像生成のための効率的なテスト時スケーリング手法 [cs.CV]目的：画像生成におけるテスト時計算効率の向上
- 画像生成は大規模生成モデルの主要な応用分野であり，その重要性は増している。
- 既存手法は，テスト時計算資源の配分に貪欲なヒューリスティックに頼っており，非効率な場合がある。
- テスト時計算資源を自動的に再配分し，効率を大幅に改善することを目指す。
- 提案手法「検証閾値」は，テスト時計算資源を自動的に再配分し，計算効率を大幅に向上させる。
- GenEvalベンチマークにおいて，最先端手法と比較して2～4倍の計算時間短縮を達成した。
- 性能を維持しつつ，計算コストを削減することで，より実用的な画像生成を可能にする。
Link: https://arxiv.org/abs/2512.08985
MoRel：アンカーリレーに基づく双方向ブレンドと階層的密度の適用による長距離フリッカーフリー4Dモーションモデリング [cs.CV]目的：長距離モーションを含む動的ビデオのモデリング
- 4Dガウススプラッティングは動的シーンのリアルタイムレンダリングを可能にする重要な技術である。
- 既存手法では，長距離モーションのモデリングにおいてメモリ消費の増大や時間的フリッカーが発生しやすい。
- 時間的一貫性とメモリ効率を両立させ，長距離モーションを安定的に再現することを目指す。
- 提案手法MoRelは，アンカーリレーに基づく双方向ブレンド機構により，時間的に一貫性のある，メモリ効率の良いモデリングを実現した。
- キーフレームにおける局所的な標準空間を構築し，アンカーレベルでのフレーム間変形をモデル化することで，時間的なコヒーレンスを向上させている。
- 自己学習可能な不透明度制御による双方向変形の学習と適応的ブレンドにより，時間的な不連続性とフリッカーを軽減している。
Link: https://arxiv.org/abs/2512.09270
エンドツーエンド自動運転におけるナビゲーション遵守率のギャップを埋める [cs.CV]目的：ナビゲーション遵守率向上のための手法
- 自動運転技術は交通の効率化と安全性の向上に不可欠であり，社会実装が期待されている。
- 従来の計画手法では，交差点などの状況下で指示された経路からの逸脱が発生しやすい。
- 複数の指示に対応可能で，ナビゲーション遵守率を高める計画手法を開発する。
- ナビゲーション遵守率を明示的に評価する指標「NAVI」と制御可能性指標「CM」を導入した。
- 代替指示と経路情報を付加した大規模データセット「NavControl」を構築し，モデルの学習データを拡充した。
- NAVIを用いた蒸留とBEVベースの軌道収集により，ナビゲーション遵守率を92.7 PDM，制御可能性を77.5 CMまで向上させた。
Link: https://arxiv.org/abs/2512.10660
協調的考察と改良による革新的な表の可視化 [cs.CV]目的：表データに基づくインフォグラフィック生成
- データに基づいた効果的な情報伝達は，様々な分野で重要性が増している。
- 既存の画像生成モデルは，複雑な推論や正確なデータマッピングが苦手である。
- 表データの情報を忠実に，かつ美しく可視化する新たな方法論を確立する。
- 提案手法ShowTableは，MLLMと拡散モデルを組み合わせることで，高精度なインフォグラフィック生成を実現した。
- 本研究で新たに構築したTableVisBenchは，表の可視化タスクの性能評価のための新たな基準となる。
- 実験結果から，ShowTableが既存手法を大幅に上回り，マルチモーダルな推論とエラー訂正能力の有効性が示された。
Link: https://arxiv.org/abs/2512.13303
テスト時修正：ロバストな知覚のための逆ドメイン変換 [cs.CV]目的：ドメイン汎化におけるロバストな知覚の実現
- 汎化性能向上は，現実世界の多様な環境への適応に不可欠である。
- ターゲットドメインのデータを網羅的に生成するには，コストと時間がかかる。
- テスト時に拡散モデルを用いてターゲット画像をソース分布へ変換し，問題を解決する。
- 提案手法は，セグメンテーション，検出，分類タスクにおいて一貫した性能向上を示した。
- 特に，BDD100K-Night-DetのmAP@50が10.2から31.8に，ImageNet-Rのtop-1が36.1から60.8に向上した。
- DarkZurichのmIoUは28.6から46.3へと大幅に改善され，ロバスト性の向上が確認された。
Link: https://arxiv.org/abs/2512.13454
MoLingo：テキストからモーション生成のためのモーション-言語アライメント [cs.CV]目的：テキストからリアルな人物モーションを生成する手法
- 人間のような自然な動きの自動生成は，仮想現実やゲームなどの分野で重要である。
- 既存手法では，生成されるモーションの質やテキストとの整合性に課題があった。
- テキストとモーションの間の意味的なアライメントを強化し，より高品質なモーション生成を目指す。
- 意味的にアライメントされた潜在空間を構築することで，拡散モデルの効率を向上させている。
- 複数トークンを用いたクロスアテンション方式が，モーションのリアリズムとテキストとの整合性を高めることが示された。
- 提案手法は，標準的な評価指標とユーザ調査の両方において，最先端の結果を達成している。
Link: https://arxiv.org/abs/2512.13840
TimeLens：マルチモーダルLLMによる動画の時間的グラウンディングの再考 [cs.CV, cs.AI, cs.CL, cs.MM]目的：動画の時間的グラウンディング能力の向上
- 動画理解において，動画中の特定のイベントの時間的特定は重要な課題である。
- 既存の動画時間的グラウンディングベンチマークには品質の問題が存在し，評価の信頼性が低い。
- 高品質なデータと効率的な学習手法により，動画時間的グラウンディングの性能を向上させる。
- 既存ベンチマークの品質問題を明らかにし，厳格な基準で再アノテーションされたTimeLens-Benchを提案した。
- ノイズの多い学習データに対処するため，自動再アノテーションパイプラインを用いて高品質な学習データTimeLens-100Kを構築した。
- TimeLensモデルは，オープンソースモデルの中で最先端の性能を示し，GPT-5やGemini-2.5-Flashなどのプロプライエタリモデルを上回った。
Link: https://arxiv.org/abs/2512.14698
マルチエージェントインタラクション系列モデリングにおける拡散強制 [cs.CV, cs.RO]目的：マルチエージェントのモーション生成
- ロボティクスやソーシャルコンピューティングにおいて，複数人間の協調行動の理解と生成は重要である。
- 長期的な時間的依存関係やエージェント間の強い相互作用，可変なグループサイズが課題となっている。
- 柔軟な条件設定とサンプリングにより，多様なインタラクションタスクに対応可能なモデルを構築する。
- 提案手法MAGNetは，ダイアディックおよびポリアディック予測，パートナーインペインティング，パートナー予測，エージェント駆動型生成を単一のモデルで実現する。
- MAGNetは，自己回帰的なデノイジング過程でエージェント間の結合を明示的にモデル化し，一貫性のある協調行動を可能にする。
- ダンスやボクシングのような同期性の高い活動から，緩やかな社会的インタラクションまで表現可能であり，既存手法と同等の性能を示す。
Link: https://arxiv.org/abs/2512.17900
Widget2Code：マルチモーダルLLMによる視覚的ウィジェットからUIコードへの変換 [cs.CV]目的：ウィジェットからUIコードへの変換
- UI自動生成は，開発効率の向上に不可欠であり，多様なプラットフォームに対応できる技術が求められる。
- 既存研究はWebやモバイルUIに偏っており，コンテキストの少ないウィジェットのUIコード生成は未開拓である。
- ウィジェットの特殊性を考慮し，高精度なUIコード生成と統一的な開発基盤の構築を目指す。
- マルチモーダルLLMは既存手法より性能が高いものの，生成されるコードの信頼性や視覚的一貫性に課題がある。
- ウィジェットのデザイン原則に基づき，視覚的理解と構造化されたコード生成を同時に進める手法を開発した。
- WidgetDSLとコンパイラを含むWidgetFactoryを設計し，可読性と柔軟性の高いUIコード生成を可能にした。
Link: https://arxiv.org/abs/2512.19918
ByteLoom：漸進的カリキュラム学習による幾何学的に整合性の高い人間と物体のインタラクションの構築 [cs.CV, cs.GR, cs.LG]目的：人間と物体のインタラクションビデオの生成
- デジタルヒューマン，eコマース，広告，ロボットの模倣学習など，応用範囲が広い分野である。
- 既存手法では，多視点情報の注入や，インタラクションのオクルージョンモデリングに課題がある。
- 幾何学的に整合性の高いHOIビデオを生成し，既存手法の課題を解決することを目指す。
- 提案手法ByteLoomは，拡散Transformer (DiT)を基盤とし，簡略化された人間条件と3D物体入力を用いて，現実的なHOIビデオを生成する。
- Relative Coordinate Maps (RCM)キャッシュ機構により，物体の幾何学的整合性を維持し，6-DoFの物体変換を正確に制御する。
- 漸進的なカリキュラム学習により，データ不足を補い，ハンドメッシュへの依存度を軽減することで，モデルの能力を向上させる。
Link: https://arxiv.org/abs/2512.22854
3Dスキャンなしの3D：ビデオ生成点群からのスケーラブルな事前学習 [cs.CV]目的：ビデオ生成点群からの3D表現学習
- 3Dシーン理解は，ロボット工学やAR/VRなど多くの分野で重要である。
- 大規模な3Dスキャンデータ収集には，コストと労力がかかる。
- ビデオデータのみを用いて，効率的な3D表現学習を目指す。
- 本研究では，実3Dスキャンデータなしで，既存手法を上回る性能を達成した。
- RoomToursデータセットを構築し，ウェブ上のルームツアー動画から点群を生成した。
- ノイズ正則化損失を導入し，幾何学的滑らかさと特徴の安定性を確保した。
Link: https://arxiv.org/abs/2512.23042
NeoVerse：野生の単眼動画による4Dワールドモデルの拡張 [cs.CL, cs.CV]目的：4Dワールドモデルの構築
- ロボット工学や自動運転において，周囲環境の正確な理解が不可欠である。
- 既存手法は，多視点データや複雑な前処理を必要とし，汎用性に課題があった。
- 野生の単眼動画から効率的に4Dワールドモデルを構築し，多様な応用を可能にすること。
- NeoVerseは，単眼動画から高精度な4D再構成と新規軌道動画生成を可能にする。
- 姿勢推定を必要としない高速な4D再構成と，オンラインでの劣化パターンシミュレーションが特徴。
- 標準的なベンチマークにおいて，最先端の性能を達成している。
Link: https://arxiv.org/abs/2601.00393
構造化形状補完のための統一的な素体プロキシ [cs.CV]目的：構造化形状補完における素体を用いた形状復元
- 3D形状理解は，ロボティクスやコンピュータグラフィックス等，多様な分野で不可欠である。
- 不完全な形状データからの高精度な形状復元は依然として困難な課題である。
- 素体を用いた復元において，素体と点群の効率的な相互作用による精度向上を目指す。
- UniCoは，単一の順伝播パスで，形状，意味，インライアメンバーシップを含む素体セットを予測する。
- 素体プロキシを導入し，学習可能なクエリによって組み立て可能な出力を生成する。
- 合成データおよび実データを用いた評価により，既存手法と比較してChamfer距離を最大50%削減し，法線の一貫性を最大7%向上させる。
Link: https://arxiv.org/abs/2601.00759
IDESplat：汎用3Dガウススプラッティングのための反復深さ確率推定 [cs.CV, cs.AI]目的：汎用3Dガウススプラッティングにおける正確なガウス平均予測
- 3Dシーン再構成は，仮想現実やロボティクスなど様々な分野で重要な役割を担う。
- 既存手法では，単一のワープに頼るため，クロスビュー幾何学情報を十分に活用できず，深さマップの精度が低い。
- 深さ確率推定を反復的に行うことで，ガウス平均の予測精度を向上させ，高品質な3D再構成を実現する。
- IDESplatは，Depth Probability Boosting Unit(DPBU)を用いて，複数のワープ操作をカスケード化し，深さ確率を反復的に向上させる。
- RealEstate10K, ACID, DL3DVでの実験により，優れた再構成品質とリアルタイム効率が確認された。
- RE10Kにおいて，パラメータとメモリ使用量を大幅に削減しながら，DepthSplatを0.33dB上回るPSNRを達成し，汎化性能の高さを示した。
Link: https://arxiv.org/abs/2601.03824
フレームによる思考：フレーム報酬モデルを用いた生成ビデオ歪み評価 [cs.CV]目的：生成ビデオにおける構造的歪みの評価
- ビデオ生成技術は発展しているが，視覚的品質だけでなく，構造的な整合性も重要である。
- 既存の報酬モデルでは，異常な物体や相互作用といった構造的歪みの評価が不十分である。
- 構造的歪みを的確に評価し，生成ビデオの品質向上に貢献すること。
- 提案手法REACTは，フレームレベルで歪みを認識し，点数と帰属ラベルを付与する。
- 大規模な人間選好データセットと効率的なCoT合成パイプラインを用いて学習されている。
- 実験結果から，既存の報酬モデルと組み合わせることで，構造的歪みの評価において優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2601.04033
文脈が重要：VLMアクション解析とLLMシーケンス分類によるピア認識型学生の行動エンゲージメント測定 [cs.CV, cs.AI]目的：学生の行動エンゲージメント測定
- 教育の質向上と学生のエンゲージメント促進には，教室における学生の行動理解が不可欠である。
- 既存手法は多様な学生の行動をモデル化するために大量のアノテーションデータが必要だが，プライバシー保護の観点からデータ収集が制限されている。
- 本研究は，ピアの行動という文脈情報を考慮し，プライバシー制約下でも学生のエンゲージメントを正確に測定することを目指す。
- 提案手法は，少数の学習サンプルで学生のアクション認識を行うVLMのFew-shot適応により，データ収集の負担を軽減する。
- 時間窓技術とLLMシーケンス分類を用いることで，連続的かつ予測不可能な学生の行動を効果的に捉え，エンゲージメントを判定する。
- 実験結果は，提案手法が学生のエンゲージメント識別において有効であることを示している。
Link: https://arxiv.org/abs/2601.06394
TAG-MoE：タスク認識ゲートによる統一的な生成混合エキスパートモデル [cs.CL, cs.CV, cs.AI]目的：画像生成と編集におけるタスク干渉の軽減
- 画像生成・編集モデルの性能向上は，多様なニーズに応える上で不可欠である。
- 統一モデルでは，異なるタスク間の競合が性能低下の要因となる。
- タスクの意図を考慮したエキスパートの選択により，干渉を抑制する。
- 提案手法は，タスク干渉を効果的に軽減し，高精度な画像生成・編集を可能にする。
- 階層的なタスク意味注釈と予測的アラインメント正則化により，ゲートネットワークがタスク意図を認識する。
- 各エキスパートは，明確な意味的相関性を持つ専門性を自然に獲得する。
Link: https://arxiv.org/abs/2601.08881
視覚言語モデルにおけるモダリティバイアス軽減に向けた研究 [cs.CV]目的：動画中の行動の開始・終了時刻とカテゴリーの特定
- 動画理解において，視覚情報と言語情報の統合が重要である。より高度な行動認識を目指す上で不可欠な技術。
- 既存の視覚言語モデルは言語情報に過度に依存し，視覚情報に基づく性能が低下するモダリティバイアスが発生しやすい。
- 言語情報の利点を活かしつつ，視覚情報を主要な信号として維持することで，モダリティバイアスを軽減し，性能向上を図る。
- 提案手法ActionVLMは，言語情報が有益な場合にのみ適応的に言語を活用することで，モダリティバイアスを効果的に軽減する。
- 言語による改善度を推定し，言語モダリティの重みを動的に調整する「デバイアス再重み付けモジュール」が導入されている。
- THUMOS14データセットにおいて，最先端技術と比較して最大3.2%のmAP向上を達成した。
Link: https://arxiv.org/abs/2601.21078
球面座標を用いた埋め込み圧縮 [cs.LG, cs.CV]目的：単位ノルム埋め込みの圧縮手法
- 機械学習モデルの規模拡大に伴い，埋め込みベクトルの格納・伝送コストが課題となっている。
- 従来の無損失圧縮手法では十分な圧縮率が得られず，効率的な運用が困難であった。
- 高次元ベクトルが球面座標で表現される特性を利用し，より高効率な圧縮を実現する。
- 本研究で提案する手法は，既存の最良の無損失圧縮手法と比較して1.5倍の圧縮率を達成した。
- 再構成誤差はfloat32の機械イプシロン内に収まり，実質的にオリジナルとの区別がつかないレベルである。
- テキスト，画像，マルチベクトル埋め込みを含む26の構成で一貫して圧縮率の向上が確認された。
Link: https://arxiv.org/abs/2602.00079
拡散モデルにおける特異点回避反転法（SSI-DM） [cs.CV]目的：拡散モデルにおける画像反転の改善
- 拡散モデルは画像編集において強力だが，反転精度が課題となる。
- 既存手法では初期ノイズ化ステップの不正確さから反転が困難。
- 特異点を回避することで，高品質な反転を実現する。
- 本研究では，拡散モデルの反転における数学的特異点を特定し，その影響を回避する手法を提案。
- 微小なノイズ付加により，自然なガウス分布を持つノイズを生成し，再構成精度を維持。
- 提案手法は，画像再構成および補間タスクにおいて既存手法を上回り，汎用的な拡散モデルに適用可能。
Link: https://arxiv.org/abs/2602.02193
PokeFusion Attention：参照なしスタイル条件付き生成の強化 [cs.CV]目的：テキスト画像拡散モデルにおける参照なしスタイル条件付き文字生成
- 高品質な画像生成において，安定したキャラクター構造と一貫性のあるスタイル表現が重要である。
- テキストのみのプロンプティングでは，視覚的なスタイルが不十分になり，スタイルずれや形状の不一致が生じやすい。
- 参照画像に依存する手法の複雑さを軽減し，柔軟な展開を可能にする。
- 提案手法PokeFusion Attentionは，テキストの意味と学習されたスタイル埋め込みを融合することで，参照なしでのスタイライズド生成を可能にする。
- 事前学習済みの拡散モデルを固定したまま，パラメータ効率の良い制御コンポーネントとして機能する。
- ポケモン風の文字生成ベンチマークにおいて，スタイル忠実度，意味的整合性，キャラクター形状の一貫性が向上することが示された。
Link: https://arxiv.org/abs/2602.03220
腫瘍性管状腺腫の分類のためのXtraLight-MedMamba [cs.CV, cs.LG]目的：腫瘍性管状腺腫の分類
- 大腸癌は依然として主要な死因であり，早期発見と予防が重要である。
- 低悪性度異形成の評価は主観に頼り，正確なリスク分類が困難である。
- 計算病理と深層学習を用いて，微細な形態学的パターンを識別し，より正確な分類を目指す。
- XtraLight-MedMambaは，約32,000パラメータで97.18％の精度と0.9767のF1スコアを達成した。
- Transformerベースや従来のMambaアーキテクチャよりも優れた性能を示し，計算負荷が低い。
- リソースに制約のある環境での利用に適している。
Link: https://arxiv.org/abs/2602.04819
単眼画像からのシェーディング系列推定による法線推定 [cs.CL, cs.CV, cs.AI]目的：単眼画像からの法線マップ推定
- 3次元形状理解は，ロボット工学やコンピュータビジョンの基盤技術である。
- 既存手法では，推定された法線マップの形状が実際の形状と一致しない場合がある。
- シェーディング系列推定という新しいアプローチでこの形状不一致問題を解決する。
- 本研究では，画像から動画生成モデルを用いてシェーディング系列を予測するRoSEを提案する。
- 予測されたシェーディング系列から，最小二乗法を用いて法線マップを算出する。
- 実験により，RoSEが既存手法を上回る性能を発揮することが示された。
Link: https://arxiv.org/abs/2602.09929
EchoTorrent：高速，持続的，ストリーミングマルチモーダル動画生成に向けて [cs.CV]目的：マルチモーダル動画生成の効率性と性能のトレードオフ解消
- 動画生成技術は，エンターテイメントやコミュニケーションの分野で重要な役割を担う。
- 既存モデルは，遅延や時間的な安定性の問題があり，リアルタイムでの利用が困難である。
- ストリーミング環境下での劣化を抑制し，高品質な動画生成を実現することを目指す。
- EchoTorrentは，複数の教師を用いた学習と適応的なCFG調整により，高速かつ効率的な動画生成を可能にする。
- 長期間の自己ロールアウト訓練におけるテールフレームへのアライメント強化により，ストリーミングモードでの空間的・時間的な劣化を軽減する。
- VAEデコーダのリファインメントにより，高周波の詳細を復元し，動画の品質を向上させる。
Link: https://arxiv.org/abs/2602.13669
疑似ラベリングと知識蒸留による自動コード認識の性能向上 [cs.CL, cs.SD, cs.IR, cs.LG, cs.MM]目的：自動コード認識の精度向上
- 音楽情報処理において，コード認識は楽曲分析や自動伴奏などの重要な要素技術である。
- 高品質なコード認識を実現するには，大量のアノテーション付きデータが必要だが，その作成コストが高い。
- 教師あり学習に加え，教師なしデータと知識蒸留を活用し，少ないアノテーションで高精度なコード認識を目指す。
- 事前学習済みモデルを教師として擬似ラベルを生成し，それを用いて学生モデルを学習することで，教師の性能に匹敵する精度を達成した。
- 学生モデルを，ground truthラベルで追加学習することで，従来の教師あり学習よりも高い性能を達成した。
- 特に，稀なコード品質の認識において，顕著な性能向上が認められた。
Link: https://arxiv.org/abs/2602.19778
MeanFuser：平均フローを用いた高速な多Modal軌道生成と適応再構成によるエンドツーエンド自動運転 [cs.CV, cs.RO]目的：多Modal軌道の効率的かつロバストな生成
- 自動運転において，安全かつ効率的な経路計画は不可欠であり，生成モデルはその重要な役割を担う。
- 従来のアンカーベースの生成モデルは，アンカー辞書のサイズと性能のトレードオフという課題を抱えていた。
- 本研究は，アンカー辞書に依存しない連続的な軌道空間表現により，この課題を解決することを目指す。
- MeanFuserは，ガウス混合ノイズを用いて軌道空間を連続的に表現し，アンカー辞書への依存を解消した。
- 平均フローアイデンティティをエンドツーエンド計画に適用することで，数値誤差を抑制し，推論速度を大幅に向上させた。
- 軽量な適応再構成モジュールにより，モデルはサンプリングされた提案から選択するか，必要に応じて新しい軌道を再構成できる。
Link: https://arxiv.org/abs/2602.20060