arXiv雑要約

画像・音声 - 2026/03/19 公開

大規模ビジョン言語モデルに対する量子化認識統合勾配を用いた微細粒度ポストトレーニング量子化 [cs.CV, cs.AI]目的：大規模ビジョン言語モデルの量子化戦略
- マルチモーダルなタスクにおいて高性能を示す一方，計算・メモリコストが大きい。
- 既存手法では，トークン間の複雑な相互作用を捉えきれない。
- トークンレベルでの量子化誤差を定量的に評価し，精度低下を抑制する。
- 提案手法は，W4A8およびW3A16設定下で複数の大規模ビジョン言語モデルにおいて精度を向上させる。
- 例えば，3ビットの重みのみの量子化において，LLaVA-onevision-7Bの平均精度を1.60%改善した。
- フル精度モデルとの精度差を1.33%に縮小し，実用的なデプロイメントに貢献する。
Link: https://arxiv.org/abs/2603.17809
ChopGrad：潜在ビデオ拡散におけるピクセルごとの損失のための切り捨て逆伝播 [cs.CV, cs.AI, cs.LG]目的：潜在ビデオ拡散の効率的なファインチューニング手法
- ビデオ生成モデルの高品質化が求められる一方で，計算コストが課題となっている。
- ピクセル領域での学習は，アクティベーションの蓄積によりメモリ消費量が膨大になる。
- 長尺または高解像度ビデオに対するピクセルごとの損失を用いたファインチューニングの実現。
- ChopGradは，勾配計算を局所的なフレームウィンドウに制限することでメモリ消費量を削減する。
- 理論的分析により，この近似が有効であることが示され，フレームごとの損失を用いた効率的なファインチューニングが可能となる。
- ビデオ超解像，インペインティング，ニューラルレンダリングシーンの品質向上，制御された運転ビデオ生成など，様々なタスクで良好な結果が得られた。
Link: https://arxiv.org/abs/2603.17812
M2P：マスクからの点による弱教師あり学習を用いたビジョン基礎モデルの性能向上 - 密な点追跡のために [cs.CV]目的：ビジョン基礎モデルにおける密な点追跡性能の向上
- 動画理解において，点追跡は基本的なツールとして重要性が増している。
- 既存のビジョン基礎モデルは静止画で事前学習されており，動画内の時間的な対応関係を捉えるのが難しい。
- 動画オブジェクトセグメンテーションのマスクを用いて，ビジョン基礎モデルを効率的に学習し，点追跡性能を向上させる。
- 提案手法M2Pは，Procrustes分析を用いた局所構造の一貫性損失，マスクラベルの一貫性損失，マスク境界制約を導入することで，弱教師あり表現学習を可能にする。
- M2Pモデルは，TAP-Vid-DAVISベンチマークにおいて，DINOv2-B/14，DINOv3-B/16に対しそれぞれ12.8%，14.6%の性能向上を達成した。
- M2Pモデルは，テスト時最適化やオフラインファインチューニングされた点追跡タスクの事前学習バックボーンとして利用可能であり，汎用性が高い。
Link: https://arxiv.org/abs/2603.17813
大規模活性化によるビデオ拡散Transformerの操縦 [cs.CV]目的：ビデオ拡散Transformerにおける大規模活性化の役割と，それを利用したビデオ生成品質の向上
- ビデオ生成技術は，創造的なコンテンツ制作やデータ拡張など，幅広い分野で重要性が増している。
- 既存のビデオ拡散Transformerでは，内部モデル信号の活用が十分でなく，生成品質の向上が課題となっていた。
- 大規模活性化に着目し，モデルが重視するトークン位置を操作することで，生成品質と時間的な一貫性を改善すること。
- ビデオ拡散Transformerにおいて，大規模活性化が視覚トークン全体で一貫して出現することが確認された。
- 特に，最初のフレームと境界トークンで活性化の大きさに明確な階層構造が見られた。
- トレーニング不要な自己誘導法であるStructured Activation Steering (STAS)により，ビデオ品質と時間的整合性が向上した。
Link: https://arxiv.org/abs/2603.17825
TINA：学習していないテキスト-画像拡散モデルに対するテキストフリーな転置攻撃 [cs.CV]目的：テキスト-画像拡散モデルにおける概念消去の限界とそのメカニズムの解明
- テキスト-画像拡散モデルの安全な利用には有害コンテンツ生成の防止が不可欠である。
- 既存の消去防御はテキストと画像の対応関係を断絶するのみで，潜在的な視覚知識を無視している。
- テキストに依存しない攻撃により，消去された概念の再生成可能性を検証し，真の消去の必要性を訴える。
- TINAはテキストガイダンスを用いずに，既存の消去防御を回避し，消去された概念を再生成することに成功した。
- この結果は，既存の方法が概念を隠蔽するのみであり，内部視覚知識への直接的な対処が必要であることを示唆する。
- TINAは，DDIM反転と最適化手法を組み合わせることで，テキストフリーな攻撃を実現した。
Link: https://arxiv.org/abs/2603.17828
ビデオ理解：幾何学と意味論から統一モデルへ [cs.CV]目的：ビデオ理解に関する研究の構造化された概要
- 視覚情報処理の基礎課題であり，現実世界の理解に不可欠である。
- 従来のビデオ理解は，タスクごとに手法が異なり，汎用性に欠ける。
- 多様な下流タスクに適応可能な統一的なモデリングパラダイムの構築を目指す。
- ビデオ理解の研究を，低レベルの幾何学，高レベルの意味論，統合モデルという3つの視点から整理した。
- 最近の進歩は，特定のタスクから多様な目的への適応を可能にする統一モデリングへのシフトを示している。
- 堅牢でスケーラブル，かつ統合されたビデオ基礎モデル構築に向けた課題を提示する。
Link: https://arxiv.org/abs/2603.17840
Omni-3DEdit：ワンパスでの汎用的な3D編集 [cs.CV]目的：様々な3D編集タスクの実行
- 3Dコンテンツ制作において，指示に基づいた編集の需要が高まっている。
- 既存手法は，タスク依存のルールや反復的な最適化に頼り，時間と労力がかかる。
- 本研究は，これらの課題を克服し，迅速かつ汎用的な3D編集を可能とする。
- Omni-3DEditは，2Dモデルに依存せず，様々な3D編集タスクを単一のモデルで実行可能である。
- 高品質な多視点編集サンプルを合成するデータパイプラインを構築し，学習データの不足を解決した。
- 事前学習済みの生成モデルSEVAをベースに，LoRAモジュールを用いることで表現学習能力を高め，推論時間を大幅に短縮した。
Link: https://arxiv.org/abs/2603.17841
細胞インスタンスセグメンテーションのための基盤モデルの再検討 [cs.CV]目的：細胞セグメンテーションのための基盤モデルの評価と改善戦略
- 顕微鏡画像解析において，細胞セグメンテーションは基本的なタスクであり，生物学研究の進展に不可欠である。
- 既存の基盤モデルはSAMの拡張であることが多く，顕微鏡データへの適応に限界がある。
- SAMスタイルのモデルを顕微鏡画像へより適応させ，より強力な基盤モデルを構築すること。
- CellPoseSAM, CellSAM, μSAMなどの細胞セグメンテーション基盤モデルと，SAM, SAM2, SAM3などの汎用セグメンテーション基盤モデルを多様な顕微鏡画像データセットで評価した。
- 新たに自動プロンプト生成(APG)戦略を導入し，μSAMをベースモデルとしたセグメンテーション性能を向上させ，CellPoseSAMと遜色ない結果を得た。
- SAMスタイルのモデルを顕微鏡画像に適用するための重要な知見と，より強力な基盤モデルを開発するための戦略を提供した。
Link: https://arxiv.org/abs/2603.17845
VISER：視覚情報に基づいたオープンセット虹彩偽造検出の堅牢性向上システム [cs.CV]目的：オープンセット虹彩偽造検出における，視覚情報に基づくシステムの有効性評価
- 虹彩認証は高いセキュリティを誇るが，偽造攻撃への対策が不可欠である。
- 既存手法では，未知の攻撃手法への汎化性能が課題となっている。
- 人間の視覚的注意に基づいた学習が，偽造検出の堅牢性向上に貢献する可能性がある。
- ノイズ除去された眼球追跡ヒートマップが，ROC曲線下面積（AUROC）および攻撃提示分類誤り率（APCER）において，交差エントロピーと比較して最も良い汎化性能の向上を示した。
- 特に，真正提示分類誤り率（BPCER）が1%の条件下で，その効果が確認された。
- 本研究で利用したモデル，コード，およびサリエンシーマップは，再現性とさらなる研究の促進のために公開されている。
Link: https://arxiv.org/abs/2603.17859
多次元価格によるより強いコア結果 [cs.GT, econ.TH]目的：貨幣を用いない配分における，多次元価格の概念
- 資源配分や市場設計において，効率性と公平性の両立が重要視される。
- 貨幣がない状況下では，競争均衡が存在しない場合や，強いコアが空になる場合がある。
- 多次元価格を導入することで，常に解が存在し，拒否コアに収まることを示す。
- 本研究で提案する解概念は，常に存在し，拒否コア内に位置することを示した。
- 拒否コアの安定性は，弱いコアの安定性よりも厳密に強いことが示された。
- 経済規模が拡大するにつれて，拒否コアは多次元価格を用いた競争均衡に収束することが示された。
Link: https://arxiv.org/abs/2603.17862
編集の波及効果をプローブとして：画像編集モデルは暗黙的に世界の関係を理解しているか？ [cs.CV]目的：画像編集モデルにおける世界知識の理解度
- 画像編集技術は，創造性や実用性を高める上で重要であり，その性能向上は不可欠である。
- 画像編集モデルは指定領域のみを修正すべきだが，実際には関連領域にも影響が及ぶ「編集の波及効果」が生じている。
- この研究は，波及効果を世界知識の指標として活用し，モデルの理解度を定量的に評価することを試みる。
- 編集の波及効果はモデルのアーキテクチャによって大きく異なり，最大3.3倍の差が見られた。
- 波及効果の度合いから，モデルが持つ世界知識の能力を評価することが可能であり，nano_bananaはより多くの意味的波及効果を示した。
- 空間減衰分析の結果，意味的波及効果は距離に関わらず一定の割合で存在し，単なる空間拡散ではないことが示された。
Link: https://arxiv.org/abs/2603.17876
不均衡マルチラベルビデオカプセル内視鏡分類のための微分注意・拡張BiomedCLIPと非対称焦点最適化 [cs.CV, cs.AI]目的：不均衡マルチラベルビデオカプセル内視鏡画像分類のためのフレームワーク
- 消化管疾患の早期発見には，カプセル内視鏡検査の重要性が増している。
- カプセル内視鏡画像には病変が極めて少ないという不均衡の問題が存在する。
- 病変の少ないデータでも高い分類精度を実現することを目指している。
- 提案手法は，BiomedCLIPの注意機構を改良し，注意ノイズを抑制することで性能向上を実現した。
- 不均衡データに対応するため，様々な損失関数やサンプリング手法を組み合わせた。
- RARE-VISIONテストセットにおいて，mAP@0.5が0.2456，mAP@0.95が0.2353を達成した。
Link: https://arxiv.org/abs/2603.17879
存在としてのアイデンティティ：外見と声の個別化された同時オーディオ・ビデオ生成に向けて [cs.CV]目的：外見と声の個別化された同時オーディオ・ビデオ生成のためのフレームワーク
- コンテンツ作成において，特定の個人を反映した動画の需要が高まっている。
- 外見と声の音色を細かく制御できる，公開されたフレームワークが存在しない。
- 外見と声の音色を制御し，多様なシナリオに対応できるフレームワークを開発する。
- 提案手法は，単一または複数被写体に対応した柔軟なアイデンティティ注入メカニズムを備えている。
- オーディオとビジュアルのモダリティ間の不一致に対処するため，段階的な学習戦略を採用している。
- 実験により，提案手法の優位性が示された。高忠実度で一貫性のある個別化が可能である。
Link: https://arxiv.org/abs/2603.17889
創造的なエージェントは64トークンのテンプレートに相当する [cs.CV]目的：画像生成における創造性の向上
- 画像生成モデルの発展は目覚ましいが，創造性という点では限界がある。
- 曖昧なプロンプトでは，モデルが創造的な意図を推測できず，ユーザーの負担が大きい。
- エージェントの創造性をトークン化し，効率的に画像生成モデルに組み込むこと。
- CATフレームワークは，創造的なエージェントの知識を「Creative Tokenizer」に凝縮する。
- このTokenizerは，曖昧なプロンプトに創造的な意味を注入し，再計算コストを削減する。
- アーキテクチャ，家具，自然の混合デザインにおいて，既存手法を上回る性能と効率を実現した。
Link: https://arxiv.org/abs/2603.17895
競争環境下における是正措置：内生的な選択の動的ゲーム [cs.GT, cs.CY, cs.MA]目的：AI支援意思決定システムによる不利な結果を覆すための修正可能性
- AIの意思決定が社会に浸透する中，公平性や透明性の確保が重要になっている。
- 競争環境下では，是正措置が全員に利用可能となると，選択プロセスが変化する。
- 候補者の戦略的な是正行動が，選択基準や成功の閾値に与える影響を分析する。
- 候補者の是正努力が，成功の基準と改善の方向性を決定し，当初の格差を拡大させる。
- 集団の現在の特徴状態によって，意思決定ルールと選択閾値が内生的に決定される閉ループシステムが生成される。
- 競争環境下では，是正措置が結果的に不平等を永続化する可能性があることが示唆される。
Link: https://arxiv.org/abs/2603.17907
SpiderCam：差分デフォーカスによる低消費電力スナップショット深度カメラ [cs.CV]目的：低消費電力FPGAベースのスナップショット深度カメラの実現
- 深度認識技術は，ロボティクスや自動運転などの分野で重要な役割を担う。
- 従来の深度カメラは，消費電力が高く，小型化が困難であるという課題があった。
- 低消費電力で小型な深度カメラを開発し，省電力な3次元計測を実現すること。
- SpiderCamは，52cmの範囲で480x400の疎な深度マップを32.5 FPSでリアルタイムに生成する。
- システム全体で624mWの消費電力に抑えられ，FPGAベースの3Dカメラとして初の1ワット未満の低消費電力を達成した。
- 低消費電力センサーに対応するためのアルゴリズム改善と，メモリローカルなストリーミング深度計算の実装により，高性能を実現した。
Link: https://arxiv.org/abs/2603.17910
協調型DNN推論におけるノイズを考慮した誤分類攻撃検出 [cs.CL, stat.ML, cs.CV]目的：協調型DNN推論における誤分類攻撃の検出
- エッジAIの実現には，リソース制約のあるデバイスとエッジサーバの連携が不可欠である。
- エッジオフローディングは，悪意のあるデータ注入によるステルス的な誤分類に脆弱である。
- 環境ノイズ下での誤分類攻撃を検出し，誤検知率を低減することを目指す。
- 提案手法は，変分オートエンコーダを用いて異常を検出し，環境ノイズの特徴を捉えることで検出精度を向上させる。
- 様々なDNN構成において，現実的なノイズ条件下で最大90%のAUROCを達成し，ロバスト性を示す。
- 特徴量の類似性や高いノイズレベルが，検出の限界となることが示唆された。
Link: https://arxiv.org/abs/2603.17914
SegFly：大規模空中RGB-サーマル意味セグメンテーションのための2D-3D-2Dパラダイム [cs.CE, cs.CV]目的：大規模な空中RGB-サーマル意味セグメンテーションのための新しいパラダイムの提案
- UAVによる空中シーン理解は，インフラ点検や災害監視など，多岐にわたる応用が期待されている。
- 既存のRGBおよびRGB-Tデータセットは，規模，多様性，アノテーション効率に限界があり，実用上の課題となっている。
- 高重なり画像群の幾何学的な冗長性を利用し，アノテーションコストを削減し，RGB-Tアライメントを自動化することを目指す。
- 提案手法は，少数の手動アノテーションRGB画像からラベルを自動的に伝播し，RGBとサーマル両方のモダリティで高精度なアノテーションを生成する。
- RGBラベルの97％とサーマルラベルの100％を自動生成し，2D手動修正なしでそれぞれ91％と88％のアノテーション精度を達成した。
- SegFlyは，20,000枚以上の高解像度RGB画像と15,000以上の幾何学的にアライメントされたRGB-Tペアを含む大規模なベンチマークデータセットとして公開される。
Link: https://arxiv.org/abs/2603.17920
鎖骨CTスキャンを用いた法医学的年齢推定のための実用的な人工知能フレームワーク [cs.CV]目的：法医学的年齢推定のための人工知能フレームワークの開発
- 法医学的年齢推定は，犯罪捜査や身元確認において重要な役割を担う。
- 従来の年齢推定法は，専門家の経験に依存し，客観性や再現性に課題がある。
- 鎖骨CTスキャンを用いた，より正確で客観的な年齢推定手法の確立。
- 本研究では，鎖骨CTスキャンから年齢を推定する，解釈可能な多段階パイプラインを提案した。
- 提案手法は，テストセットにおいて平均絶対誤差1.55±0.16年という最先端の性能を達成し，専門家や既存手法を上回った。
- コンフォーマル予測を用いることで，法医学的要件に合わせた信頼区間の設定が可能となった。
Link: https://arxiv.org/abs/2603.17926
ダッシュカム動画からの解釈可能な交通責任判定：法的マルチエージェント推論 [cs.RO, cs.CV]目的：交通事故の責任所在の法的根拠
- 交通事故の証拠となるダッシュカム動画が普及している現状を踏まえた研究。
- 動画の内容から法的根拠に基づいた責任を判断するには専門家が必要とされている。
- 動画と法的知識を統合し，自動で責任を判断する手法を確立すること。
- 本研究では，ダッシュカム動画と法的記述を対応付けるC-TRAILデータセットを構築した。
- 動画の内容をテキスト化し，法的マルチエージェントフレームワークを用いて責任を判定する手法を提案した。
- 提案手法は既存手法や大規模言語モデルよりも優れており，透明性の高い法的推論プロセスを実現した。
Link: https://arxiv.org/abs/2603.17930
透明度を考慮した画像から動画へのタイポグラフィアニメーション [cs.CL, cs.CV]目的：画像から動画へのモデルを用いた，レイヤー対応テキスト（グリフ）アニメーションの実現
- 動的なビジュアルデザインにおいて，テキストアニメーションは重要な要素であり，その実現技術は需要が高い。
- 既存手法では，透明度情報をRGB空間に追加する方式が主流だが，高品質な透明グリフデータが不足している。
- 事前学習済みの生成モデルを修正せずに，RGBと透明度情報を一貫してモデル化し，高品質なアニメーションを実現すること。
- 提案手法TransTextは，RGBと透明度を融合する新しい「Alpha-as-RGB」パラダイムに基づき，既存手法よりも優れた性能を示す。
- TransTextは，特徴の混同を防ぎ，RGBと透明度の一貫性を明示的に保証することで，コヒーレントで高忠実度の透明アニメーションを生成する。
- 多様で微細なエフェクトを含むアニメーション生成において，ベースラインと比較して顕著な改善が見られた。
Link: https://arxiv.org/abs/2603.17944
VideoAtlas：対数計算による長尺ビデオのナビゲーション [cs.CV, cs.AI]目的：長尺ビデオを扱うための，損失のない，ナビゲート可能，スケーラブルな環境の提供
- ビデオ理解は，人間の知能を実現するための重要な課題であり，その応用範囲は広い。
- 既存手法は，ビデオの情報をテキストに変換する際に画質劣化が生じやすいという問題がある。
- 本研究は，ビデオ情報を損失なく保持しつつ，効率的なナビゲーションを実現することを目指す。
- VideoAtlasは，ビデオを階層的なグリッドとして表現することで，対数的な計算量で長尺ビデオを扱えることを示した。
- グリッド構造の再利用により，マルチモーダルキャッシュのヒット率が向上し，計算効率がさらに高められた。
- 探索深度を制限する環境予算の設定により，計算量と精度を調整できることが確認された。
Link: https://arxiv.org/abs/2603.17948
LaDe：統一された多層グラフィックメディア生成と分解 [cs.CL, cs.HC, cs.CL, cs.CV]目的：グラフィックメディアの多層生成と分解に関する研究
- デザイン制作の効率化が求められており，自然言語による指示だけで高品質なデザインを生成する技術が重要である。
- 既存手法では，層数の制限や連続的な領域の要求により，デザインの複雑さに応じて層数が線形に増加する問題がある。
- 自然言語による指示から，意味のある多層構造を持つデザインを柔軟に生成し，既存手法の課題を解決することを目指す。
- LaDeは，LLMを活用したプロンプト拡張，4D RoPE位置エンコーディングを用いた潜在拡散Transformer，RGBA VAEから構成される。
- この統一されたフレームワークは，画像生成，テキストからの多層デザイン生成，デザイン分解の3つのタスクをサポートする。
- Crelloテストセットにおいて，LaDeはQwen-Image-Layeredを上回り，GPT-4o miniとQwen3-VLによる評価でテキストとレイヤーの整合性が向上した。
Link: https://arxiv.org/abs/2603.17965
Robust-ComBat：拡散MRIデータ調和における外れ値の影響軽減 [cs.CV]目的：拡散MRIデータの調和における外れ値の影響軽減手法
- 拡散MRIは脳の組織構造を評価する上で重要であり，多施設共同研究ではデータの一貫性が求められる。
- ComBat等の調和手法は外れ値の影響を受けやすく，特に神経疾患患者データではその影響が顕著となる。
- 本研究では，神経疾患患者を含むデータセットにおいても，よりロバストな調和を実現することを目指す。
- 従来のComBatは，神経疾患患者の外れ値により調和結果が歪むことが示された。
- 提案手法Robust-ComBatは，シンプルなMLPを用いて外れ値を補正することで，従来の統計的手法よりも高い調和精度を達成した。
- 制御群および実際の多施設データセットにおいて，Robust-ComBatは一貫して優れた性能を示し，調和誤差を低減した。
Link: https://arxiv.org/abs/2603.17968
AHOY：ガウススプラッティングと動画拡散事前知識を用いたYouTube動画からの隠蔽された人物のアニメーション可能3Dアバター生成 [cs.CV]目的：YouTube動画から隠蔽された人物の，アニメーション可能な3Dアバターの再構成
- 現実世界の動画データには遮蔽物が含まれることが多く，既存手法の適用が困難である
- 既存手法は被写体が完全に視認できることを前提としており，現実世界の多様な映像に対応できない
- 遮蔽された動画からでも，高精度な3Dアバターを再構成し，アニメーションを可能にすること
- 提案手法AHOYは，拡散モデルを用いた仮説生成により，視認できない領域の情報を補完する
- 2段階のアーキテクチャと，マップ姿勢/LBS姿勢の分離により，不整合を吸収し，高品質な再構成を実現する
- 生成されたアバターは，新規姿勢でのアニメーションや3DGSシーンへの統合が可能である
Link: https://arxiv.org/abs/2603.17975
AdaRadar：レーダーに基づく知覚のためのレート適応型スペクトル圧縮 [cs.CV]目的：レーダーデータの効率的な圧縮と伝送
- 自動運転システムにおいて，レーダーは全天候性と距離・速度計測能力から不可欠な知覚手段である。
- 大量のレーダーデータの伝送が，計算エンジンへの通信リンクを飽和させるという課題がある。
- レーダーデータの圧縮率を動的に調整し，通信帯域の制約下でも性能を維持することを目的とする。
- 提案手法は，検出信頼度の勾配に基づいて圧縮率を動的に調整することで，100倍以上の特徴量削減を実現した。
- RADIAL，CARRADA，Radatronのデータセットを用いた実験で，性能低下はわずか1%pに抑えられた。
- 非微分可能な処理を含む場合でも，ゼロ次近似を用いて勾配計算を可能にし，勾配テンソルの伝送量を削減した。
Link: https://arxiv.org/abs/2603.17979
空間を感じる：効率的かつ正確な3Dシーン理解のための自己運動認識型ビデオ表現 [cs.CV]目的：3Dシーン理解と空間推論の性能向上
- 3Dシーン理解は，ロボティクスや自動運転などに応用が期待され，重要性が増している。
- 従来のモデルは，計算コストの高い3D表現に依存するか，スケールやサイズの曖昧さを解消する物理的根拠に欠ける。
- 自己運動情報を活用し，効率的かつ正確な3Dシーン理解を実現することを目指す。
- 提案手法Motion-MLLMは，IMUデータと視覚特徴を用いてキーフレームを効率的に選択する。
- 自己運動トークンを介して，視覚表現に自己運動情報を組み込む非対称クロスモーダル融合モジュールを導入した。
- Motion-MLLMは，既存手法と同等以上の精度を，大幅に少ない計算量で達成した。
Link: https://arxiv.org/abs/2603.17980
訓練なしによる動画コンテンツ，アクション，およびダイナミクスの多様な編集 [cs.CV]目的：動画におけるアクションや動的なイベントの編集，および他のオブジェクトの挙動に影響を与えるコンテンツの挿入
- 動画生成技術の進歩は目覚ましいが，現実世界の動画における複雑な編集は依然として困難である。
- 既存の学習済みモデルは，複雑な編集に対応できず，適切な学習データの収集が課題となっている。
- 学習不要な編集手法では，構造維持編集に限定されるため，モーションやインタラクションの変更が難しい点を解決する。
- DynaEditは，事前学習済みのテキスト-動画変換モデルを用いて，多様な動画編集を実現する学習不要な手法である。
- 低周波のずれや高周波のジッターを抑制するメカニズムを導入し，既存手法の課題を克服している。
- アクションの変更，オブジェクトの挿入，グローバル効果の導入など，複雑なテキストベースの動画編集タスクにおいて最先端の結果を達成している。
Link: https://arxiv.org/abs/2603.17989
3Dシーンにおける6自由度物体軌跡合成のための目標条件付きマルチモーダルTransformer [cs.RO, cs.CV, cs.RO]目的：3Dシーンにおける6自由度物体操作軌跡の生成
- ロボットが複雑な環境で活動するためには，空間認識や物理的な実現可能性が不可欠である。
- 既存手法は2Dまたは部分的な3D表現に依存し，完全なシーン幾何学の把握が困難である。
- 幾何学的，意味的，文脈的情報を統合し，高精度な軌跡生成を実現すること。
- 提案手法GMTは，3Dバウンディングボックス，点群，セマンティックカテゴリ，目標姿勢を統合的に利用する。
- GMTは，既存のベースライン（CHOIS，GIMO等）と比較して，空間精度と姿勢制御において顕著な改善を示す。
- 多様な物体と複雑な3D環境への汎化性能が確認され，学習ベースの操作計画における新たな基準を確立した。
Link: https://arxiv.org/abs/2603.17993
3D形状に対する意味論的トークン化レベル [cs.CV, cs.GR, cs.LG]目的：3D形状の生成モデリングにおける最適なトークン化
- 生成モデリングにおいて，トークン化は基本的な技術であり，特に自己回帰モデルにおいて重要である。
- 従来の3D形状のトークン化手法は，レンダリングや圧縮用に設計された空間階層に依存し，効率性や意味的一貫性に課題があった。
- 意味論的重要度に基づいてトークンを並べることで，より効率的で高品質な3D形状生成を目指す。
- 提案手法LoSTは，幾何学的および意味的再構成の指標において，既存のLoDベース手法を大幅に上回る再構成性能を達成した。
- LoSTは，従来の自己回帰モデルで使用されるトークン数のわずか0.1%～10%で，効率的かつ高品質な3D形状の自己回帰生成を可能にした。
- さらに，LoSTは意味的検索などの下流タスクを可能にする。
Link: https://arxiv.org/abs/2603.17995
テキスト埋め込み補間の連続画像制御における驚くべき有効性 [cs.CV]目的：テキスト条件付き生成モデルにおける，訓練不要な連続的かつ制御可能な画像編集
- 画像生成技術は多様な応用が期待され，その制御性の向上が重要である。
- 既存手法は追加訓練や手動操作が必要であり，簡便な制御方法が課題である。
- テキスト埋め込み空間での操作により，滑らかで連続的な画像編集を実現する。
- テキスト埋め込み空間での微調整ベクトルを用いることで，追加訓練なしに画像編集を可能にした。
- 大規模言語モデルを用いて対照的なプロンプトペアを生成し，編集方向を自動的に決定する。
- 提案手法は訓練ベースの手法と同等以上の性能を示し，他の訓練不要手法を上回る。
Link: https://arxiv.org/abs/2603.17998
EchoGen: 統一的なレイアウト-画像生成および理解のためのサイクル一貫学習 [cs.CV]目的：レイアウトから画像生成と画像グラウンディングの統一的フレームワーク
- 画像生成と理解は，コンピュータビジョンの重要な課題であり，多様な応用が期待される。
- レイアウトからの画像生成は，テキスト記述との整合性や画像の品質が課題である。
- 両タスクを同時に最適化することで，互いの能力を向上させることを目指す。
- 提案手法EchoGenは，レイアウトとテキスト記述に基づいて高精度な画像を生成できる。
- PMTP，DJO，Cycle RLといった段階的な学習戦略により，最適化の課題を克服し，性能を向上させている。
- 両タスクの同時最適化により，画像生成と画像グラウンディングの両方で最先端の結果を達成した。
Link: https://arxiv.org/abs/2603.18001
Loc3R-VLM：視覚言語モデルによる言語ベースの局所化と3次元推論 [cs.CV, cs.AI, cs.CL]目的：視覚言語モデルにおける3次元理解能力の向上
- 視覚と言語を結びつけるMLLMは進歩しているが，空間理解と視点に基づいた推論は課題である。
- 既存手法では，モデルに3次元での推論を明示的に教えるのではなく，幾何学的情報を入力に加える傾向がある。
- 単眼ビデオ入力から3次元のシーン構造を理解し，視覚と言語を3次元の文脈に結び付ける。
- Loc3R-VLMは，言語ベースの局所化において最先端の性能を達成した。
- 既存の2次元およびビデオベースの手法を上回り，3次元質問応答ベンチマークで優れた結果を示した。
- 空間的監督により，モデルの3次元理解能力が向上することが示された。
Link: https://arxiv.org/abs/2603.18002
微分可能なレンダリングとMLLMによる汎用的なスケルトン理解 [cs.CV]目的：スケルトンデータの汎用的な理解
- 近年，視覚と言語の推論に優れたMLLMの活用が期待されている。
- 従来のスケルトン処理は，情報損失や汎化性能の低さが課題であった。
- 多様な形式のスケルトンデータをMLLMで処理可能にすることを目標とする。
- 提案手法SkeletonLLMは，スケルトンデータを視覚情報に変換することでMLLMでの処理を可能にした。
- DrActionという微分可能なレンダリングにより，タスクに有用な視覚情報を生成し，MLLMの学習を促進する。
- 多様なタスクにおいて，既存手法を上回る汎化性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.18003
効率的なビデオVLMのための統一された時空間トークンスコアリング [cs.CV, cs.AI, cs.LG]目的：ビデオVLMにおける計算効率の向上
- 近年，画像とテキストを扱うVLMの研究が盛んに行われており，その応用範囲は広い。
- ビデオデータは時間的な冗長性が高いため，VLMの計算コストが課題となっている。
- ViTとLLMの両方でトークンを効率的に削減し，性能劣化を最小限に抑える。
- 提案手法STTSは，テキスト条件やトークンマージなしに，ViTとLLM両方のトークンを削減する。
- STTSは，13のビデオQAタスクにおいて，平均パフォーマンスの0.7%低下で62%の効率改善を実現した。
- 長尺ビデオQAでは，テスト時スケーリングにより，さらに0.5-1%の性能向上が見られた。
Link: https://arxiv.org/abs/2603.18004
LLMベースのテキストと音素綴り変換拡張によるASRの合成データドメイン適応 [eess.AS, cs.SD]目的：LLMを用いたテキスト拡張パイプラインと音素綴り変換拡張によるドメイン適応フレームワーク
- 音声認識は，その応用範囲の広さから，現代社会において不可欠な技術である。
- 特定ドメインのデータでは，リソース不足により，エンドツーエンド自動音声認識の性能が低下する。
- ドメイン固有の語彙と現実的な発音の多様性を取り入れ，ASRのロバスト性を向上させる。
- LLMに基づいたテキスト拡張パイプラインとフィルタリング戦略により，語彙の多様性，パープレキシティ，ドメイン用語の網羅率のバランスを実現した。
- 音素綴り変換拡張（PRA）は，LLM生成の疑似綴りを通じて発音の多様性を導入し，合成音声の現実性を高める。
- 4つのドメイン固有データセットでの実験結果は，語彙カバレッジと発音の多様性の組み合わせがASRの性能を大幅に改善することを示した。
Link: https://arxiv.org/abs/2603.16920
学習可能なパルス累積：オンデバイス音声認識のために，どれだけの注意が必要か？ [eess.AS, cs.SD]目的：オンデバイス音声認識における効率化
- モバイル機器での音声認識の需要が高まっている。
- Transformerモデルの自己注意機構は計算コストが高い。
- 計算コストを抑えつつ，認識精度を維持すること。
- 学習可能なパルス累積（LPA）を導入することで，計算量を大幅に削減した。
- LibriSpeechのテストデータで，LPAを用いたモデルは3.37%のWERに対し10.61%のWERとなったが，処理速度は3.27倍向上した。
- SepFormerでの検証では，全ての注意層をLPAで置換可能であり，LPAの限界ではないことが示された。
Link: https://arxiv.org/abs/2603.16922
深層学習を超えて：ニューラルアセンブリによる音声セグメンテーションと音素分類 [eess.AS, cs.SD]目的：音声セグメンテーションと音素分類の達成
- 音声処理は，人間と機械のコミュニケーションにおいて不可欠であり，その性能向上は重要な課題である。
- 深層学習は高性能だが，大量データと複雑な学習プロセスに依存し，解釈性に乏しいという課題がある。
- 生物学的な脳の仕組みに基づいたアセンブリ計算を用いて，より効率的かつ解釈可能な音声処理モデルを構築する。
- 本研究は，重み学習なしで音素境界を検出することに成功し，F1スコアは0.69であった。
- また，単語境界の検出においてもF1スコア0.61を達成し，従来の深層学習に匹敵する性能を示した。
- これらの結果は，アセンブリ計算に基づく動的システムが，音声処理における深層学習の代替となり得る可能性を示唆している。
Link: https://arxiv.org/abs/2603.16923
学習に基づく医用画像登録におけるグリッド制御点数の自由度について [eess.IV, cs.AI, cs.CV]目的：学習に基づく医用画像登録ネットワーク開発における必要な制御点数の検討
- 医用画像登録は，診断・治療において不可欠であり，正確な解析を可能にする重要な技術である。
- 同質またはノイズの多い領域では，登録問題が不適切に定義されやすく，高次元のボクセル単位のデコーダは不要に複雑になる。
- 本研究は，疎な制御点パラメータ化によるコンパクトで滑らかな変形表現を用いて，この問題を解決することを目指す。
- 提案手法GridRegは，ボクセル単位のデコーディングを疎なグリッド上の制御点での変位予測に置き換えることで，パラメータ数とメモリ消費量を大幅に削減し，登録精度を維持する。
- マルチスケール3Dエンコーダ特徴マップを1Dトークンシーケンスに変換し，位置エンコーディングにより空間的コンテキストを保持する。
- 前立腺，骨盤器官，神経構造の3つのデータセットを用いた定量的な評価により，グリッド制御変位場の使用による有意な改善が示された。
Link: https://arxiv.org/abs/2603.16940
言葉の裏にある声：SpeechLLMにおける交差的なバイアスの定量化 [eess.AS, cs.CL, cs.SD]目的：SpeechLLMにおけるアクセントとジェンダーバイアスの評価
- 音声技術の発展は，人間と機械のコミュニケーションを豊かにする上で重要である。
- 従来の音声処理パイプラインでは，話者固有の情報が除去され，バイアスの影響が潜在化していた。
- SpeechLLMにおけるバイアスを定量的に評価し，公平性を向上させる。
- SpeechLLMは，アクセントや性別などの話者情報を保持するため，応答にばらつきが生じる。
- 東欧アクセントの音声，特に女性と認識される声に対して，有用性が低いと評価される傾向がある。
- LLMによる評価と人間の評価ではバイアスの認識度に差があり，人間の方がより鋭敏に交差的な差異を捉える。
Link: https://arxiv.org/abs/2603.16941
超音波ナカガミイメージングによる脂肪肝評価：スコアマッチングと適応を用いた手法 [eess.IV, cs.AI, cs.CV, q-bio.QM]目的：脂肪肝の評価のための超音波ナカガミイメージング手法
- 脂肪肝は肝臓の健康に深刻な影響を及ぼす疾患であり，早期発見と正確な評価が重要である。
- 従来の超音波イメージングでは，組織の特性を詳細に評価することが難しく，定量的な脂肪含有量測定が課題である。
- 本研究は，超音波ナカガミイメージングの精度と安定性を向上させ，脂肪肝のより正確な評価を可能にすることを目的とする。
- 提案手法UNICORNは，スコアマッチングと適応により，高精度なナカガミパラメータ推定を実現し，従来の課題を克服した。
- 実験の結果，UNICORNは脂肪肝の評価において優れた性能を示し，バックscattered統計の視覚的な識別を可能にした。
- 患者データを用いた検証により，UNICORNが臨床的に脂肪肝を検出し，高いロバスト性と汎用性を持つことが確認された。
Link: https://arxiv.org/abs/2603.16942
トポロジー誘導型バイオメカニカルプロファイリング：日常CTにおける脊椎不安定性スクリーニングのためのホワイトボックスフレームワーク [q-bio.QM, cs.CV]目的：脊椎不安定性のスクリーニング
- 腫瘍学的なCT検査は，脊椎不安定性のスクリーニングに有用である。
- SINS（脊椎不安定性腫瘍スコア）の計算には複雑な幾何学的推論が必要であり，見落としが生じやすい。
- 転移性骨溶解によるトポロジーの曖昧さを解消し，SINS評価の自動化を可能にすること。
- TGBPは，90.2%の精度で3段階の安定性トリアージを達成した。
- ブラインド読者調査において，TGBPは複雑な構造的特徴において腫瘍内科医を上回った（κ=0.857 vs. 0.570）。
- TGBPは，合計スコア推定における複合的なエラーを防ぎ，専門家レベルのスクリーニングを可能にした（κ=0.625 vs. 0.207）。
Link: https://arxiv.org/abs/2603.16963
Wav2Vec音声認識ニューラルネットワークに対する無線環境でのホワイトボックス攻撃 [eess.AS, cs.LG, cs.SD]目的：ニューラルネットワークに基づく音声認識システムへの敵対的攻撃の検討
- 音声認識技術は，人間と機械の円滑なコミュニケーションを可能にする重要な技術である。
- 敵対的攻撃によって音声認識の精度が低下し，誤認識による問題が発生する可能性がある。
- 無線環境下での攻撃の検知困難性と攻撃効果のバランス改善を目指す。
- 本研究では，無線環境下での攻撃を人間が聞き取れないようにするための手法を検討した。
- 検討した手法は，攻撃の検知可能性を低減しつつ，攻撃効果を維持することを可能にした。
- これにより，より現実的な敵対的攻撃シナリオの実現に貢献する。
Link: https://arxiv.org/abs/2603.16972
レンズレス偏光カメラ [math.OC, cs.CC, math.CO, cs.DM, math.CO, cs.DM, math.CO, cs.DM, eess.IV, cs.CV, physics.optics]目的：偏光状態のピクセルマップ生成技術
- 偏光は，様々なセンシングやコンピュータビジョンのタスクを支援する有用な情報である。
- 従来の偏光カメラは，大型化，高コスト化，重量増加などの課題があった。
- 偏光エンコードされたレンズレス計測をモデル化することで，小型な偏光カメラを実現する。
- 拡散板と偏光マスクを用いたレンズレス偏光カメラを提案した。
- 単一のスナップショットから4つの線形偏光画像を復元できることを示した。
- レンズレスアプローチの偏光イメージングへの可能性と，再構成品質を左右する物理的要因を明らかにした。
Link: https://arxiv.org/abs/2603.17156
構造化SIR：高次元画像レジストレーションのための効率的かつ表現力豊かな重要度重み付き推論 [eess.IV, cs.CV, cs.LG]目的：高次元画像レジストレーションにおける不確実性の表現力豊かな定量化
- 画像レジストレーションは，医療画像解析など多くの分野で必須技術であり，精度向上が求められている。
- 従来の推論手法では，高次元データの複雑な共分散行列の扱いに課題があり，不確実性の正確な評価が困難であった。
- 提案手法は，メモリ効率の良い共分散パラメータ化により，高次元空間における不確実性を効率的に捉えることを目指す。
- 提案手法Structured SIRは，脳MRIデータの3D画像レジストレーションにおいて，従来の変分推論法よりもキャリブレーションされた不確実性推定を達成した。
- 高次元共分散行列を低ランク行列と疎な空間構造化されたCholesky精度因子和で表現することで，計算コストを抑えつつ複雑な空間相関を捉えることに成功した。
- その結果，効果的かつ効率的な不確実性定量化が可能となり，高精度な画像レジストレーションを実現した。
Link: https://arxiv.org/abs/2603.17415
全身性エリテマトーデス間質性肺疾患(SLE-ILD)患者における深層学習に基づく気道セグメンテーション：高分解能CT比較解析 [eess.IV, cs.CV]目的：全身性エリテマトーデス(SLE)患者における間質性肺疾患(ILD)の有無に伴う葉および分節気道容積の差異
- SLE-ILDは呼吸器症状を引き起こし，病勢の進行や予後に影響するため，早期診断と適切な治療が重要である。
- 従来のCT評価は主観的であり，気道変化の定量的な評価が困難であった。
- 深層学習を用いた気道セグメンテーションにより，客観的かつ定量的な評価を実現し，SLE-ILDの診断と病勢モニタリングに貢献する。
- SLE-ILD患者において，右肺上葉と左肺上葉の気道容積がSLE非ILD患者と比較して有意に拡大していた。
- 分節レベルでは，R1, R3, L3において有意な差が認められ，特に上肺領域での変化が顕著であった。
- 深層学習による自動化された気道容積の定量化は，SLE-ILDの特徴的な病態を明らかにし，新たなバイオマーカーとなりうる可能性を示唆した。
Link: https://arxiv.org/abs/2603.17547
真陰性が無限大に近づくにつれて，MCCは適合率と再現率の幾何平均に近づく [cs.DB, cs.CV]目的：二値分類器の評価指標であるマシューズ相関係数(MCC)の挙動に関する研究
- 二値分類問題において，分類性能を定量的に評価することは重要である。MCCはそのための有力な指標の一つである。
- 客観的な負例の数が不明な状況下では，MCCの算出が困難となる場合がある。特に物体検出などの分野で課題となる。
- 真陰性が無限に増える状況下でのMCCの振る舞いを明らかにし，MCCの限界を理解することを目的とする。
- 真陰性の数が増加すると，MCCは適合率と再現率の幾何平均であるFowlkes-Mallows(FM)スコアに収束することが示された。
- この結果は，生態学文献で既に知られていたが，本研究では二値分類器の文脈で議論し，厳密な証明を与えている。
- また，Leanを用いた形式的な証明と，LLMの証明支援および関連研究の探索における役割についても言及している。
Link: https://arxiv.org/abs/2305.00594
MultiMedEval：医療ビジョン言語モデル評価のためのベンチマークおよびツールキット [cs.RO, cs.MA, cs.CV]目的：医療ビジョン言語モデルの評価
- 医療分野における画像と自然言語処理の融合が重要性を増している
- 医療画像とテキストの理解を同時に行うモデルの評価方法が標準化されていない
- 医療ビジョン言語モデルの公平かつ再現性のある評価を容易にすること
- MultiMedEvalは，6つのマルチモーダルタスクと23のデータセットに対応したオープンソースツールキットである。
- 多様な評価指標を用いることで，モデルの汎化性能を総合的に評価できる。
- シンプルなインターフェースにより，数行のコードで任意のVLMを評価可能である。
Link: https://arxiv.org/abs/2402.09262
ソフトダイス確信度：セマンティックセグメンテーションにおける選択的予測のためのほぼ最適な確信度推定器 [cs.LG, cs.CV]目的：セマンティックセグメンテーションにおける選択的予測のための確信度推定
- セマンティックセグメンテーションは医療画像解析等の高度な応用において重要である。
- 高精度が求められる場面で，既存モデルの性能が十分でないという課題がある。
- 確信度が低い場合に予測を控える選択的予測による性能向上を目指す。
- 提案手法Soft Dice Confidence (SDC)は，ダイス係数を評価指標とするセマンティックセグメンテーションにおいて，最適な確信度推定器に近似できる。
- 周辺事後確率が不明な場合でも，SDCのプラグインバージョンが既存手法を上回る性能を示す。
- 合成データおよび6つの医療画像タスクにおける実験により，SDCの信頼性と効率性が確認された。
Link: https://arxiv.org/abs/2402.10665
Eagerモードにおけるバンドル調整 [cs.CL, cs.RO, cs.CV]目的：バンドル調整の効率化
- ロボット工学や拡張現実など，視覚情報に基づく位置推定や地図作成において不可欠な技術である。
- 既存のバンドル調整ライブラリは，PyTorchのような深層学習フレームワークとの連携が難しく，柔軟性や効率が低い。
- PyTorchとのシームレスな統合により，深層学習とバンドル調整の連携を容易にし，効率を向上させる。
- 本研究で開発されたEagerモードバンドル調整ライブラリは，GPU上で高い効率を実現している。
- GTSAM，g$^2$o，Ceresと比較して，平均して18.5倍，22倍，23倍の速度向上を達成した。
- スパース性を考慮した自動微分設計と，GPUアクセラレーションされた疎演算が，高速化に貢献している。
Link: https://arxiv.org/abs/2409.12190