arXiv雑要約

画像・音声 - 2026/03/17 公開

Garments2Look：衣類とアクセサリーを用いた高忠実度な全身コーディネート仮想試着のためのマルチ参照データセット [cs.CV]目的：全身コーディネート仮想試着のための大規模マルチモーダルデータセット
- ファッション分野において，個々の衣服だけでなく，全身のコーディネートが重要視されている。
- 既存のデータセットは，カテゴリが限定的であり，コーディネートの多様性に欠けるという課題がある。
- 全身コーディネートにおける仮想試着の性能向上を目指し，多様で高品質なデータセットを提供する。
- 本研究で作成したGarments2Lookは，40の主要カテゴリ，300以上の細分類を含む8万件のコーディネートデータを提供する。
- 既存の仮想試着手法では，全身コーディネートのシームレスな試着，適切なレイヤリング，スタイリングの推論が困難であることが示された。
- データセットの品質確保のため，自動フィルタリングと人間による検証を組み合わせた合成パイプラインを提案した。
Link: https://arxiv.org/abs/2603.14153
勾配変調と射影によるマルチモーダルドメイン汎化のバランス化 [cs.LG, cs.CV]目的：マルチモーダルドメイン汎化における最適化のバランス
- 多様なデータ形式を統合することで，よりロバストなモデル構築に貢献する。
- 異なるモダリティ間の学習速度の不均衡が，性能低下の要因となる。
- ソースドメインに偏らず，未知ドメインでの汎化性能を向上させる。
- 提案手法GMPは，分類とドメイン不変性の目的関数を分離し，各モダリティの勾配を調整する。
- セマンティックおよびドメイン信頼度に基づき勾配を調整することで，最適化のバランスを促進する。
- 実験の結果，GMPは最先端の性能を達成し，様々なMMDG手法と柔軟に統合できることが示された。
Link: https://arxiv.org/abs/2603.14175
BluRef：密なマッチング参照を用いた教師なし画像鮮明化 [cs.CV]目的：画像鮮明化のための教師なしアプローチ
- 画像鮮明化は，写真や映像の品質向上に不可欠であり，幅広い応用分野を持つ。
- 鮮明化には，鮮明画像とぼやけた画像のペアデータが必要であり，その収集が困難である。
- ペアデータなしで鮮明化を可能にし，様々な環境やデバイスへの適応性を高める。
- 本研究では，密なマッチングモデルを用いて疑似的な教師データを作成する新しい手法を提案する。
- 提案手法は，既存のペアデータや事前学習済みネットワークに依存せず，多様なネットワーク規模に対応可能である。
- 実験結果から，提案手法が最先端の性能を達成し，画像鮮明化の分野に大きな進歩をもたらすことが示された。
Link: https://arxiv.org/abs/2603.14176
半自動フルートロボットと音響センシング [cs.HC, cs.RO, cs.SD]目的：半自動フルートロボットの開発と，その音響センシングによる評価
- フルート演奏は複雑な技術を要し，高度な熟練度が求められるため，自動化技術による支援が期待される。
- 既存のシステムは，指使いと音域に応じた息の制御を同時に機械的に実現できていない。
- 指使いの自動化と，低音域の音色を機械的に支援することで，演奏の自動化を可能にすること。
- MIDI入力に基づき，14個のサーボモーターがワイヤーとラック・ピニオン機構を介して全てのキーを駆動し，空気の流れのみで楽曲演奏を可能にした。
- 低音域の演奏時にヘッドジョイントを22度回転させる機構により，奏者の息遣いを変更することなく，低音域設定へのジェットオフセットのシフトを実現した。
- 音程推定と倍音分析の結果，全音域で正しい音程が得られ，低音域では意図したジェットオフセットシフトと一致する結果が得られた。
Link: https://arxiv.org/abs/2603.14180
より深い思考，より弱い焦点を理解し緩和する：マルチモーダル大規模言語モデルにおける推論中の知覚的障害 [cs.RO, cs.HC, cs.CL, cs.CV, cs.AI]目的：マルチモーダル大規模言語モデルにおける推論中の知覚的障害とその緩和策
- マルチモーダル言語モデルの発展は，画像とテキストの理解を統合し，より高度なAIシステム構築に不可欠である。
- 複雑な推論を伴うタスクにおいて，モデルの視覚的注意が散漫になり，重要な情報を見落とす問題が存在する。
- 視覚的注意を誘導し，推論時の焦点のずれを抑制することで，モデルの性能向上を目指す。
- モデルの視覚的注意が散漫になる現象を「注意の分散」と特定し，その原因を分析した。
- 質問に関連する領域への注意を重視する「Visual Region-Guided Attention (VRGA)」フレームワークを提案した。
- VRGAフレームワークは，視覚的根拠付けと推論の精度を向上させ，モデルの視覚情報処理に関する解釈可能性を提供した。
Link: https://arxiv.org/abs/2603.14184
創発的なワンステップ生成モデルとマルチステップ拡散・フローモデルの公平なベンチマーク比較 [cs.CV]目的：テキストから画像を生成する際の，モデル性能の公平な評価
- 高品質な画像生成AIは進歩したが，計算コストが高く，実用上の課題となっている。
- ワンステップモデルとマルチステップモデルの性能比較において，サンプリングステップ数やCFG設定が不一致で，公平な評価が困難である。
- ImageNetおよび新しいデータセットを用いて，公平な評価プロトコルを確立し，ワンステップモデルの潜在能力を明らかにする。
- FIDのみを重視したモデル開発やCFG選択は，特に少ステップ数では誤解を招く可能性がある。
- 主要なワンステップモデルは，ステップ数を増やすことで性能が向上し，マルチステップ推論において競争力を増す。
- MMHMという新たな複合指標を導入し，CFGやステップ数の最適化を安定化させた。
Link: https://arxiv.org/abs/2603.14186
深層学習を用いた日常的な組織学的検査が，前立腺癌の生化学的再発リスク層別化を改善する [cs.CV]目的：前立腺癌における生化学的再発リスクの継続的かつ患者固有の予測
- 前立腺癌の治療方針決定には，正確なリスク評価が不可欠である。
- 既存のリスクモデルは組織形態を簡略化し，組織学的情報が十分に活用されていない。
- 日常的な組織学的検査から深層学習を用いて，より精密なリスク予測を実現する。
- 深層学習モデルは，4つの独立した国際コホートにおいて堅牢な汎化性能を示した。
- CAPRA-S臨床リスクスコアと統合することで，BCRの識別能が向上した（0.725-0.772から0.749-0.788へ）。
- 再発リスクに関連する組織形態学的パターンが明らかになり，臨床的な解釈可能性を支持した。
Link: https://arxiv.org/abs/2603.14187
多Modal緑内障診断のための反復最適化によるセグメンテーションとグレード分類 [cs.CV]目的：多Modal緑内障診断のための，セグメンテーションとグレード分類
- 緑内障は，早期発見が重要であり，視覚障害の主要原因であるため，高精度な診断法の開発が求められる。
- 既存手法は単一のModalに依存し，病理学的情報を十分に捉えきれず，早期の病変を見落とす可能性がある。
- 本研究は，複数のModalを統合し，より正確なセグメンテーションとグレード分類を実現することで，早期診断の精度向上を目指す。
- 提案手法は，眼底画像とOCT画像を統合し，Modal間の差異を軽減するクロスModal特徴量アライメントモジュールを導入した。
- 反復的な特徴量最適化により，視神経乳頭と視杯のセグメンテーション精度を高め，正確な緑内障グレード分類を可能にした。
- 実験結果から，提案手法が多Modal特徴量を効果的に統合し，臨床的に意味のある緑内障評価を提供することが示された。
Link: https://arxiv.org/abs/2603.14188
歩行距離の限界を超えて：意味情報に基づいた長距離歩行者認識 [cs.CV, cs.AI]目的：長距離条件下における，意味情報に基づいたマルチモーダル歩行者認識
- 歩行者認識は，非侵襲的かつ偽装困難な生体認証技術として重要性が増している。
- 既存手法は近距離・単一モダリティに限定され，実環境での長距離・距離変化への対応が課題である。
- 多様な屋外環境と距離における，ロバストな長距離歩行者認識を可能にすることを目的とする。
- LRGaitは，長距離歩行者認識のための初のLiDAR-Cameraマルチモーダルベンチマークデータセットである。
- EMGaitNetは，RGB画像と点群間のギャップを埋める，意味情報に基づく融合パイプラインを採用している。
- CLIPベースのSeMiモジュールとSGAモジュール，SCAFモジュール，STモジュールが効果を実証している。
Link: https://arxiv.org/abs/2603.14189
選択的ノイズ抑制と識別的相互作用によるロバストなオーディオビジュアルセグメンテーション [cs.CV]目的：オーディオビジュアルセグメンテーションにおけるロバスト性の向上
- 動的な視覚シーンにおける音源の認識とセグメンテーションは，様々な応用において重要である。
- オーディオとビジュアルの相互作用は進展しているものの，その効果的な活用方法には課題が残る。
- オーディオノイズを抑制し，オーディオとビジュアル間の識別的な相互作用を実現する手法を開発する。
- 提案手法SDAVSは，選択的ノイズ除去モジュールSNRPと識別的融合戦略DAMFを組み合わせて，オーディオビジュアル表現の一貫性を高める。
- SNRPは関連する聴覚情報を強調することでオーディオノイズの影響を軽減し，DAMFはオーディオとビジュアル間の識別的な相互作用を促進する。
- ベンチマークデータセットでの実験結果から，提案手法が特に複雑なシーンにおいて最先端の性能を達成することが示された。
Link: https://arxiv.org/abs/2603.14203
戦略的プラットフォーム参入と売り手の探索：Stackelbergモデル [cs.MA, cs.GT]目的：プラットフォームの参入戦略と売り手の探索行動の分析
- オンライン市場は経済において重要性を増しており，プラットフォームの動向は経済活動に大きな影響を与える。
- プラットフォームが自ら市場に参入し，成功した売り手の製品を模倣する現象があり，その影響が不明確である。
- プラットフォームの参入が売り手のイノベーションに与える影響を分析し，適切な規制策を検討する。
- プラットフォームは，参入政策を事前に決定することで，売り手の探索行動に影響を与えることが示された。
- 単一売り手の場合，Gittins-index政策を用いて売り手の最適な探索・利用戦略を特定できることが示された。
- 複数売り手の市場では，深層強化学習を用いて売り手の均衡行動を分析し，情報共有の影響を明らかにした。
Link: https://arxiv.org/abs/2603.14206
シーンテキスト画像の超解像のための二重拡散Transformer [cs.CV, cs.AI]目的：シーンテキスト画像の超解像
- シーンテキストの読みやすさ向上と機械認識精度向上に不可欠な技術分野である。
- 既存手法は外部OCRモデルへの依存や複雑な構造により，学習・再現が困難である。
- 外部OCRモジュールを用いず，内部的にテキスト情報を推論することを可能にする。
- DualTSRは，条件付きフローマッチングと離散拡散を組み合わせた二重拡散目的で単一のTransformerバックボーンを学習する。
- これにより，視覚情報とテキスト情報の相互作用が層ごとに可能となり，簡潔なエンドツーエンド構造を実現した。
- 合成データセットと実データセットの両方で，高い知覚品質とテキスト忠実度を達成した。
Link: https://arxiv.org/abs/2603.14207
ChArtist：統一的な空間と主題制御による図表生成 [cs.CE, cs.CV, cs.AI]目的：図表と視覚要素を融合させた絵図の自動生成
- 視覚的なストーリーテリングにおいて，絵図はデータと視覚表現を効果的に統合する手段として重要である。
- 視覚要素の柔軟性と，図表構造の厳格性の間で矛盾が生じやすく，高品質な絵図生成が困難である。
- 空間制御と主題制御を組み合わせることで，データ忠実性と視覚的美観を両立する絵図生成を可能にする。
- 本研究では，データ符号化情報のみをエンコードしたスケルトンベースの空間制御表現を導入し，参照画像の組み込みを容易にした。
- 拡散Transformer（DiT）を基盤とし，適応的位置エンコーディングと空間ゲート注意機構を活用することで，2種類の制御を効果的に統合した。
- 3万件のトリプレット（スケルトン，参照画像，絵図）からなる大規模データセットを構築し，生成された図表のデータ忠実性を評価する統一的な指標を提案した。
Link: https://arxiv.org/abs/2603.14209
UniFusion：頑健な表現とソース情報を意識した保存を備えた統一画像融合フレームワーク [cs.CV, cs.AI]目的：多様な画像ソースからの補完的な情報を統合し，より有益で視覚的に一貫性のある表現の生成
- 画像融合は，人間の知覚と下流の視覚タスクの両方にとって有用であり，その重要性は高い。
- 既存の融合手法は特定のタスクに特化しており，融合過程におけるソース情報の維持が課題である。
- UniFusionは，タスクを横断した汎化性能を持つ統一的なフレームワークを提供し，この課題を解決する。
- UniFusionは，DINOv3を活用してモダリティ整合性のある特徴抽出を行い，多様な入力に対して共有のセマンティック空間を確立する。
- ソース画像の理解を維持するため，再構成-アライメント損失を導入し，融合出力と入力間の整合性を維持する。
- 二重最適化戦略を用いて再構成と融合の目的関数を分離・共同最適化することで，滑らかな収束を保証し，優れた汎化能力を示す。
Link: https://arxiv.org/abs/2603.14214
VLMに対する脱獄攻撃への安全性向上を目的とした，再学習を伴わない安全ポテンシャル剪定 [cs.CV]目的：視覚言語モデルにおける脱獄攻撃に対する安全性向上策
- 視覚言語モデルの安全性確保は，社会実装において不可欠であり，悪意ある利用からの保護が重要である。
- 既存の安全性プロンプトは，モデルの潜在的な構造的応答性に制約を受け，その効果が限定的である。
- 安全性に関連する構造的経路を顕在化させ，活性化することで，脱獄攻撃への耐性を高めることを目指す。
- 提案手法である安全ポテンシャル剪定は，安全プロンプトへの応答性の低い重みを削除することで，安全性に関連する活性化を増幅する。
- 3つの代表的なVLMアーキテクチャと3つの脱獄ベンチマークにおいて，攻撃成功率を最大22%削減することに成功した。
- この研究は，剪定をモデル圧縮技術だけでなく，アライメントに関連するサブネットを創出するための構造的介入と捉える新たな道を提供する。
Link: https://arxiv.org/abs/2603.14219
拡散生成画像検出のためのシンプルかつ効果的なベースラインFIND [cs.CV]目的：拡散モデル生成画像の検出
- 生成画像のリアリズム向上に伴い，検出技術の重要性が増している。
- 既存手法は計算コストが高く，特定の拡散モデルに依存する課題がある。
- 実画像と生成画像の分布の違いに着目し，効率的な検出手法を開発する。
- FINDは，実画像にノイズを付加することで，生成画像との分布の違いを識別する。
- 理論的に，ノイズ付加された実画像は生成画像と同様にガウス分布に適合しやすいことを証明した。
- GenImageベンチマークで既存手法より11.7%性能が向上し，126倍の高速化を実現した。
Link: https://arxiv.org/abs/2603.14220
低ランク適応の構造化とタスク認識に向けて：全方向が重要ではない [cs.CV]目的：パラメータ効率の良いファインチューニングにおける課題解決
- 大規模言語モデル等の学習には膨大な計算資源が必要であり，効率化が重要である。
- LoRAはパラメータ効率が良いが，意味ドリフトや構造的不整合の問題を抱えている。
- タスクに関連性の低い方向の剪定と層間の一貫性維持により，LoRAの性能向上を目指す。
- 提案手法StructLoRAは，大規模言語モデル，ビジョン言語モデル，ビジョンモデルにおいて最先端の性能を達成した。
- 特に，低ランク・低データ環境下において顕著な性能向上が確認された。
- 学習時のみ追加モジュールが動作するため，推論コストは増加せず，情報品質と構造的整合性の最適化に貢献する。
Link: https://arxiv.org/abs/2603.14228
S2GS：オンラインシーン理解と再構成のためのストリーミングセマンティックガウシアン・スプラッティング [cs.CV]目的：長時間の画像ストリームにおけるシーン理解と再構成
- ロボット工学や拡張現実において，周囲環境のリアルタイムな理解と３次元再構成は不可欠である。
- 既存手法では，過去の観測データ全体を繰り返し処理するため，計算量とメモリ使用量がシーケンス長に比例して増加する。
- 本研究では，過去のフレームを再処理することなく，効率的なオンライン再構成と理解を実現することを目指す。
- S2GSは，因果的に３次元ガウシアンセマンティックフィールドを更新し，スケーラブルなオンライン再構成と理解を可能にする。
- S2GSは，強力なオフラインベースラインと同等かそれ以上の性能を示し，長期的なスケーラビリティにおいて大幅な改善を達成した。
- 1,000以上のフレームを処理し，実行時間とGPUメモリの増加を抑制し，オフラインベースラインのメモリ不足問題を解決した。
Link: https://arxiv.org/abs/2603.14232
細粒度認識とドメイン横断型発見の架橋：汎化性能と未知クラス発見の両立 [cs.CV]目的：細粒度ドメイン汎化型汎用カテゴリ発見
- 現実世界での画像認識には，未知の環境やカテゴリへの対応が不可欠である。
- 従来のカテゴリ発見は，学習データとテストデータが同じ分布である前提があり，現実的な環境への適用が難しい。
- ドメイン間の差異を考慮しつつ，未知のカテゴリを発見する技術が求められている。
- 提案手法FoCUSは，既存のカテゴリ発見，細粒度カテゴリ発見，ドメイン汎化型カテゴリ発見手法を凌駕する性能を示した。
- 特に，クラスタリング精度において，それぞれ3.28%，9.68%，2.07%の改善が見られた。
- 粗粒度カテゴリ発見タスクでも競争力があり，計算効率も大幅に向上している。
Link: https://arxiv.org/abs/2603.14240
CamLit：明示的なカメラと照明制御による統一された動画拡散 [cs.CV]目的：単一画像からの新規視点合成とライティングの同時実行
- 動画生成技術は，エンターテインメントやデザインなど幅広い分野で重要性が高まっている。
- 従来の技術では，新規視点合成とライティングを別々に行う必要があり，手間がかかる。
- カメラと照明を統合的に制御することで，動画生成パイプラインを簡素化し，リアリズムを高める。
- CamLitは，単一画像から新規視点合成とライティングを同時に行う最初の統一動画拡散モデルである。
- 生成される動画は時間的に一貫性があり，空間的に整合性が取れている。高品質なカメラと照明の制御が可能。
- 新規視点合成とライティングの両方において，最先端の手法と同等の高忠実度な結果が得られる。
Link: https://arxiv.org/abs/2603.14241
BIT：可視光・赤外線画像間の双方向相互作用変換ネットワークを用いた人物再識別 [cs.DB, cs.CV]目的：可視光・赤外線人物再識別における性能向上
- 人物再識別は，監視カメラ等の映像解析において重要な技術であり，セキュリティ向上に貢献する。
- 可視光と赤外線画像間には大きな差異があり，効果的な特徴抽出が困難である。
- 少ない赤外線データでも，可視光画像との相互作用を考慮することで，再識別の精度向上を目指す。
- 提案手法BITは，可視光・赤外線画像のペア間の相互作用を明示的にモデル化する。
- エンコーダ・デコーダ構造を採用し，双方向の特徴統合とクエリ認識によるスコアリングを行う。
- 複数のベンチマークにおいて，最先端の性能を達成し，その有効性を実証した。
Link: https://arxiv.org/abs/2603.14243
単眼画像からのオクルージョンに強い3Dヒューマン再構成 [cs.CV]目的：単眼画像からの3Dヒューマン再構成におけるロバスト性の向上
- 現実世界の画像には遮蔽が多く，高精度な3Dヒューマン再構成が困難であるため，実用的な応用が制限されてきた。
- 既存手法は遮蔽によって形状とテクスチャが混同され，再構成の精度が低下するという課題があった。
- 形状とテクスチャの分離により，遮蔽下でもロバストな3Dヒューマン再構成を可能にすることを目指す。
- 提案手法OAHumanは，形状再構成とテクスチャ合成を明示的に分離することで，遮蔽の影響を軽減する。
- 遮蔽領域においても形状再構成を強化し，視覚情報からの干渉を抑制する。
- 実験結果から，OAHumanは構造の完全性，表面の詳細，テクスチャのリアリズムにおいて既存手法を上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.14249
MistExit：手続き型ビデオにおける早期ミス検出のための終了学習 [cs.CV]目的：手続き型ビデオにおける早期ミス検出
- ビデオ解析技術の発展は，教育，医療，製造など幅広い分野で活用が期待される。
- 手続き型ビデオの解析において，リアルタイム性と正確性の両立が課題である。
- ビデオを早期に終了することで，計算コストを削減しつつ高精度なミス検出を実現する。
- MistExitモデルは，最先端モデルと比較して，より少ないビデオ観察量で，高いミス検出精度を達成した。
- 本手法は，ミス検出器と強化学習ポリシーを組み合わせることで，早期の信頼性の高いミス検出を可能にした。
- ビデオストリームを効率的に処理し，必要なフレームのみを解析することで，計算資源の有効活用を図った。
Link: https://arxiv.org/abs/2603.14252
ZOTTA：勾配を用いないゼロ次最適化によるテスト時適応 [cs.CV, cs.LG]目的：分布シフト下でのモデルのロバスト性を向上させるテスト時適応手法
- モデルの汎化性能を維持するため，分布シフトへの対応は重要である。
- 既存のテスト時適応手法は，計算コストが高く，量子化モデル等に適用が困難である。
- 勾配を用いないゼロ次最適化により，効率的かつ安定なテスト時適応を実現する。
- ZOTTAは，勾配を用いずに効率的に適応を行うフレームワークである。
- 分布に不変な特徴を持つ層を固定することで，最適化の次元を削減し，収束を加速する。
- 空間特徴を集約して整列させることで，勾配分散を低減し，最適化を安定化させる。
Link: https://arxiv.org/abs/2603.14254
ITKIT：SimpleITKとMMEngineに基づく実行可能なCT画像解析 [cs.SE, cs.CV]目的：CT画像解析のための実行可能性検証
- CT画像は臨床診断・治療に不可欠であり，その解析は医療の発展に貢献する。
- 既存のフレームワークは，使いにくさや設定の複雑さが課題となっている。
- ITKITは，手軽さと柔軟性を両立し，CT画像解析のハードルを下げることを目指す。
- ITKITは，DICOMから3Dセグメンテーション推論までの完全なパイプラインを提供する。
- CLIによる簡易な操作で，低スペックな環境でも容易に利用可能である。
- OneDL-MMEngineにより，高度なユーザーは柔軟なモデル設定とデプロイメントを行える。
Link: https://arxiv.org/abs/2603.14255
DiFlowDubber：クロスモーダルアライメントと同期による自動ビデオダビングのための離散フローマッチング [cs.HC, eess.SY, cs.RO, cs.SY, cs.CL, cs.MA, cs.CV, cs.AI, cs.MM, cs.SD]目的：ビデオダビングの自動化
- 映像制作，マルチメディア，支援音声技術など，幅広い分野でビデオダビングの需要が高まっている。
- 既存手法はデータ不足か，事前学習済みTTSモデルの適応に頼り，表現力や同期精度に課題がある。
- 事前学習済みTTSモデルの知識をビデオ駆動型ダビングへ効果的に転送し，表現性と同期性を向上させる。
- DiFlowDubberは，離散フローマッチングを基盤とする新しい2段階トレーニングフレームワークを採用している。
- FaProモジュールにより，表情からグローバルなプロソディやスタイルを抽出し，その情報を活用して音声属性のモデリングを誘導する。
- Synchronizerモジュールは，テキスト，ビデオ，音声間のモダリティギャップを埋め，クロスモーダルアライメントと時間的同期を実現する。
Link: https://arxiv.org/abs/2603.14267
医療画像解析における臨床応用可能な基盤モデル：適応メカニズムと展開のトレードオフ [cs.CV]目的：医療画像解析における基盤モデルの適応メカニズムと展開に関するトレードオフの分析
- 医療画像解析は，疾患の早期発見や診断精度向上に不可欠であり，医療現場での応用が期待されている。
- 基盤モデルの臨床応用においては，ドメイン特化型データへの適応方法が課題であり，堅牢性や信頼性の確保が重要である。
- 臨床的制約下での表現変化制御という視点から，堅牢で監査可能，かつ臨床展開に適したシステム設計の指針を示す。
- 基盤モデルの適応メカニズムを，パラメータ，表現，目的関数，データ，アーキテクチャの５つに分類し，それぞれのトレードオフを分析した。
- 適応戦略が，集約的なベンチマーク性能だけでなく，臨床的に重要な失敗モードに与える影響を明らかにした。
- 適応選択が検証プロトコル，キャリブレーション安定性，多施設展開，規制監督とどのように相互作用するかを検討した。
Link: https://arxiv.org/abs/2603.14271
一日を通しての多場面ライフロング視覚と言語ナビゲーション：タッカー適応によるアプローチ [cs.CV, cs.AI]目的：多場面ライフロング視覚と言語ナビゲーションにおける適応戦略
- ロボットナビゲーションの多様な環境への適用は重要であり，実用化には不可欠である。
- 特定の環境への適応は，他の環境での性能低下を引き起こす可能性があり，継続的な学習が課題となる。
- 複数環境での知識の継続的な蓄積と，忘却現象の抑制を目指す。
- 提案手法であるTuKAは，高階テンソルを用いて多階層的なナビゲーション知識を表現する。
- TuKAとAlldayWalkerにより，複数のナビゲーションシナリオにおける継続学習が可能となった。
- 実験結果から，AlldayWalkerが最先端の手法を上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.14276
DC-ViT：多チャンネル画像における空間的・チャネル間相互作用の調整 [cs.CV]目的：多チャンネル画像における空間的・チャネル間相互作用の調整手法
- 多チャンネル画像は，病理診断などに応用され，重要な役割を担う分野である。
- 染色プロトコル等の違いによりチャネル構成が異なり，汎用的な画像処理が困難である。
- チャネル固有の意味を保持しつつ，効果的な情報伝達を実現することを目的とする。
- 提案手法DC-ViTは，Decoupled Self-Attention (DSA)により情報共有を制御し，特徴量の希釈を抑制する。
- 空間的更新とチャネル間更新を分離することで，チャネル固有の表現を強化し，選択的な相互作用を可能にする。
- 3つの多チャンネル画像ベンチマークにおいて，既存手法を上回る性能が確認された。
Link: https://arxiv.org/abs/2603.14281
低コントラストウェハ欠陥検出・セグメンテーションのための多期間テクスチャコントラスト強調 [cs.CV]目的：ウェハ欠陥の検出とセグメンテーションの精度向上
- 半導体製造において，ウェハ欠陥の検出は歩留まり向上に不可欠である。
- 微細な欠陥と周期的な背景テクスチャの区別が難しく，既存手法では精度が限界がある。
- テクスチャ情報を活用し，低コントラストな欠陥を高精度に検出・セグメンテーションする。
- 提案手法TexWDSは，多期間テクスチャコントラスト強調(MPTCE)モジュールにより，欠陥と背景の分離を明示的に行い，コントラストを向上させる。
- 実験の結果，既存手法と比較して，mAP50-95で8.3%，リコールで7.7%の性能向上，誤検出率の約8.6%削減が確認された。
- 複雑な周期パターンを持つウェハにおける高精度な製造検査への適用可能性が示された。
Link: https://arxiv.org/abs/2603.14282
RegFormer++：投影認識2Dトランスフォーマーを用いた効率的な大規模3D LiDAR点群登録ネットワーク [cs.CV]目的：大規模LiDAR点群の効率的な登録手法の開発
- 自動運転やロボット工学において，正確な環境地図作成は不可欠であるため，点群登録技術の重要性は高い。
- 大規模LiDAR点群は，点数の多さや分布の複雑さ，外れ値の多さから，従来の登録手法では困難が生じやすい。
- 本研究では，事後処理を必要とせず，大規模点群の登録を効率的に行う新しいネットワークを提案する。
- 提案手法RegFormer++は，円柱投影による2DトランスフォーマーとBijective Association Transformer(BAT)を組み合わせることで，高精度かつロバストな点群登録を実現した。
- KITTI，NuScenes，Argoverse等のデータセットを用いた実験により，最先端の性能と効率性を達成したことが確認された。
- 特徴量変換最適輸送モジュールにより，訓練の安定性とロバスト性が向上し，最終的な姿勢変換の回帰精度が向上した。
Link: https://arxiv.org/abs/2603.14290
拡散ノイズにおける物理法則の探求 [cs.CV, cs.AI, cs.LG, cs.RO]目的：動画拡散モデルにおける物理的妥当性予測信号の存在
- 動画生成のリアリティ向上には，物理法則に合致した表現が不可欠である。
- 既存モデルでは，物理的に不自然な動画が生成される場合がある。
- 拡散モデルの潜在表現に内在する物理情報を活用し，生成動画の物理的整合性を高める。
- 事前学習済みの拡散モデルの中間表現において，物理的に妥当な動画と不適切な動画を分離できることが示された。
- 潜在表現の物理情報を活用する軌道選択手法により，物理的整合性が向上し，推論コストが削減された。
- 提案手法は，PhyGenBenchにおいて，少ないステップ数でBest-of-Kサンプリングと同等の結果を達成した。
Link: https://arxiv.org/abs/2603.14294
RL-ScanIQA：強化学習による360度画像品質評価のためのスキャンパス [cs.CV]目的：360度画像品質評価における，視覚的行動に基づく知覚品質の予測
- 没入型環境において，360度画像は視覚的行動が品質認識に大きく影響する
- 既存手法は，スキャンパス生成と品質評価を分離しており，最適化が不十分である
- タスクに最適化された視覚戦略を学習し，360度画像の品質評価を改善する
- 提案手法RL-ScanIQAは，強化学習を用いてスキャンパス戦略と品質評価器を同時に最適化する。
- 多様なスキャンパスを生成するための多段階報酬設計や，データ拡張によりロバスト性を向上させている。
- 3つのベンチマークにおいて，優れた性能と汎化能力を示すことが確認された。
Link: https://arxiv.org/abs/2603.14297
見せて，いつ，どこで：野生環境における参照ビデオオブジェクトセグメンテーションに向けて [eess.SY, cs.SY, cs.HC, cs.CV]目的：野生環境下における参照ビデオオブジェクトセグメンテーションの新たな設定とベンチマークデータセット
- ビデオ理解技術は，監視，自動運転，ロボット工学など，幅広い分野で重要性が増している。
- 既存の参照ビデオオブジェクトセグメンテーションは，トリミング済みの動画で評価されており，現実世界での課題に対応できていない。
- 現実世界の動画データに対応するため，対象オブジェクトが存在しないフレームへの対応が課題となっている。
- 新たなベンチマークデータセットYoURVOSを構築し，YouTubeのトリミングされていない動画を用いて，より現実的な評価環境を提供した。
- オブジェクトレベルのマルチモーダルTransformer（OMFormer）を提案し，空間と時間における効率的な局所化を実現した。
- 既存のVOS手法がYoURVOSにおいて苦戦する一方，提案手法OMFormerは安定した性能を示した。
Link: https://arxiv.org/abs/2603.14300
4D同期場：時間的シーン理解のためのモーション言語ガウススプラッティング [cs.CV, cs.AI, cs.GR]目的：4次元空間における幾何，運動，意味論の構造的結合
- 現実世界の理解には，時間変化を考慮したシーン把握が不可欠であるため。
- 既存手法では，幾何，運動，意味論が分離されており，相互の関係性が不明確である。
- 運動と意味論を統合し，解釈可能な運動表現と時間的クエリを可能にすること。
- 4D同期場は，HyperNeRFにおいて，既存の言語ベースおよび運動認識手法を凌駕する高いPSNR(28.52dB)を達成した。
- 運動条件付きの場は，時間的状態検索において，高い精度(0.884)，vIoU(0.815)，tIoU(0.733)を示した。
- 本手法は，解釈可能な運動素子と時間的に関連付けられた言語場を単一の表現から抽出する初の試みである。
Link: https://arxiv.org/abs/2603.14301
現実世界の低照度画像強調のための物理に基づく攻撃と適応防御フレームワーク [cs.CL, cs.CV]目的：現実世界の低照度画像強調における性能向上
- 低照度環境下での画像取得はノイズや詳細の劣化を引き起こし，画像利用を困難にするため，改善が求められる。
- 既存手法は物理的なノイズ変容を無視したブラックボックスな処理になりがちで，十分な性能を発揮できない場合がある。
- 物理モデルに基づいた攻撃と適応的な防御により，現実的なノイズ条件下での画像強調性能を向上させる。
- 提案手法では，物理に基づいた劣化合成パイプラインを確立し，現実的なノイズを含む高品質な学習ペアを生成する。
- 入力画像からノイズパラメータを推定し，それに基づいて特徴を適切な専門家にルーティングするデュアル層の防御システムを構築する。
- ノイズの強さに応じて特徴埋め込み空間を動的に調整する適応的指標防御メカニズムを導入し，ロバストな表現学習を実現する。
Link: https://arxiv.org/abs/2603.14304
深層学習を用いたTLS点群からの小麦穂の3次元インスタンスセグメンテーション：手動アノテーションなし [cs.RO, cs.CV]目的：小麦穂の3次元インスタンスセグメンテーション
- リモートセンシング分野において，点群の3次元セグメンテーションは重要な技術である。
- 従来の深層学習は手動アノテーションに依存し，複雑なシーンへの適用が困難である。
- 本研究は，手動アノテーションなしで小麦穂のセグメンテーションを実現することを目指す。
- 提案手法は，TLS点群から小麦穂の3次元インスタンスセグメンテーションが可能であることを示した。
- Wheat3DGSと比較して，性能向上が確認された。
- パイプラインの各段階が，手動アノテーションなしで有用なセグメンテーション結果を生成することが示された。
Link: https://arxiv.org/abs/2603.14309
確率的ガウススプラッティングによる直接オブジェクトレベル再構成 [cs.CV]目的：オブジェクトレベルの3D再構成
- 文化遺産デジタル化，産業製造，VRなど広範な分野で重要。
- 既存手法は背景情報が多く，計算・記憶コストが増大。
- 単一オブジェクトに焦点を当て，効率的な再構成を実現する。
- 提案手法は，YOLOやSAMで生成された確率マスクを活用し，境界の曖昧さを軽減。
- トレーニング初期段階では二段階フィルタリング戦略により，背景ガウスを抑制。
- MIP-360等での実験により，マスクエラーに対する自己修正能力と，標準3DGSと同等の品質を検証。
Link: https://arxiv.org/abs/2603.14316
ビデオ拡散モデルにおける早期失敗検出と介入 [cs.CV]目的：テキスト-ビデオ拡散モデルの生成における失敗検出と，それに対する介入手法
- ビデオ生成技術の発展は，エンターテイメントや教育など様々な分野への応用が期待されている。
- 拡散モデルの生成過程は非決定性であり，失敗した場合の再生成に高い計算コストがかかる。
- 生成初期段階での失敗を検出し，早期に介入することで計算コストを削減することを目指す。
- 提案手法では，中間ビデオプレビューを用いてテキストとビデオの一致度を評価し，39.2msという高速なリアルタイム検査を実現した。
- CogVideoX-5BとWan2.1-1.3Bを用いた実験で，VBenchにおける性能向上と，再生成と比較して最大2.64倍の時間の削減が確認された。
- 本手法は，より大規模なモデルや高解像度なビデオ生成においても有効であり，既存の手法と組み合わせ可能である。
Link: https://arxiv.org/abs/2603.14320
個別化細胞セグメンテーション：参照ガイド型細胞タイプセグメンテーションのためのベンチマークとフレームワーク [cs.CV]目的：特定の細胞タイプの全ての細胞を，参照細胞に基づいてセグメンテーションすること
- 生物学的・医学画像研究において，正確な細胞セグメンテーションは不可欠である。近年，深層学習モデルが発展している。
- 既存手法は汎用的な細胞セグメンテーションに限定され，特定の細胞タイプを識別する能力に乏しいという課題がある。
- 本研究は，特定の細胞タイプを識別可能なセグメンテーション手法の開発を目指す。
- 本研究では，1,372枚の画像と11万以上の注釈付き細胞を含むベンチマークデータセットを構築した。
- DINOv2を基盤としたPerCS-DINOというフレームワークを提案し，画像特徴と参照埋め込みを組み合わせることで，参照細胞と一致する細胞を効果的にセグメンテーションできることを示した。
- PerCSは細胞ベースのアプリケーション研究を促進するための有用なテストベッドとなると期待される。
Link: https://arxiv.org/abs/2603.14321
医療MLLMはどのように失敗するのか？医療画像における視覚的根拠付けの研究 [cs.CV, cs.AI]目的：医療画像におけるMLLMの視覚的根拠付け能力の評価
- 医療分野では，画像診断の精度向上が重要であり，AIによる支援が期待されている。
- 汎用的なMLLMは，医療画像においては十分な性能を発揮できていないという課題がある。
- 医療MLLMの視覚的根拠付けの弱点を明らかにし，その改善策を提案すること。
- 本研究により，最先端の医療MLLMが，臨床的に関連性の高い画像領域への根拠付けを頻繁に失敗することが確認された。
- これは，自然画像におけるMLLMの性能とは対照的であり，医療画像特有の問題であることが示唆された。
- 提案手法VGRefineは，追加学習や外部モデルなしで，6つのMed-VQAベンチマークで最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.14323
CodecMOS-Accent：ニューラルコーデックを用いた英語アクセント音声の再合成・TTS評価用MOSベンチマーク [cs.RO, cs.SD, eess.AS]目的：ニューラルオーディオコーデック（NAC）モデルと，それらを用いて学習された大規模言語モデル（LLM）ベースのテキスト読み上げ（TTS）モデルの評価
- 音声技術の進歩は，より自然で人間らしい音声合成を可能にする上で重要である。
- アクセント付きの音声に対する音声合成の品質評価は困難であり，客観的な指標の確立が課題である。
- 様々なアクセントの音声に対する音声合成システムの性能を客観的かつ主観的に評価するための基盤を提供する。
- 本データセットは，最近の音声合成システムの性能を最新の研究として示している。
- 話者とアクセントの類似性には強い相関関係があることが明らかになった。
- 客観的指標の予測力や，聞き手が話者とアクセントを共有する場合の知覚バイアスが示された。
Link: https://arxiv.org/abs/2603.14328
AvatarForcing：局所未来スライディングウィンドウノイズ除去によるワンステップストリーミング対話アバター [cs.CV]目的：リアルタイム対話アバター生成のための手法
- 対話アバター生成は，人間とコンピュータ間の自然なコミュニケーションを実現する上で重要である。
- 既存手法では，長期的な安定性や計算コストが課題となっていた。
- 低遅延かつ安定したストリーミング対話アバター生成を可能にすること。
- AvatarForcingは，固定長の局所未来ウィンドウに対して異質なノイズレベルでノイズ除去を行うことで，低コストでストリーミング推論を実現した。
- デュアルアンカー時間強制により，相対位置の固定と滑らかな遷移を保証し，無限ストリームの安定性を高めた。
- 1.3Bパラメータの生徒モデルで34ms/frameのリアルタイムストリーミングが可能であり，高品質な視覚品質とリップシンクを実現した。
Link: https://arxiv.org/abs/2603.14331
UAVBenchとUAVIT-1M：低高度UAVの視覚言語理解のためのMLLMのベンチマークと強化 [cs.CV]目的：低高度UAVの視覚言語タスクにおけるMLLMの能力評価と改善
- UAVは，災害監視やインフラ点検など多様な分野で活用が拡大しており，その重要性は増している。
- 既存のデータセットは特定のタスクに偏っており，実世界のUAVアプリケーションにおけるMLLMの能力を十分に評価できない。
- 実世界の低高度UAV環境におけるMLLMの性能向上を目指し，ベンチマークとデータセットを開発する。
- UAVBenchは，10種類のタスクにおいて966k件の高品質なデータサンプルを含む包括的なベンチマークである。
- UAVIT-1Mは，789k枚のマルチシーン画像と約2,000種類の空間解像度を含む約124万件の多様な指示で構成される大規模なデータセットである。
- 実験の結果，オープンソースMLLMは低高度視覚コンテンツに関する正確な対話を生成することができず，UAVIT-1Mでのファインチューニングがそのギャップを埋めることが示された。
Link: https://arxiv.org/abs/2603.14336
MLLMにおけるデコーディング戦略を形成するAttention Sinkの本質 [cs.CV]目的：大規模多ModalモデルにおけるAttention Sinkの表現と，そのデコーディング過程への影響
- 大規模言語モデルの性能向上は目覚ましいが，その推論メカニズムの解明は重要である。
- TransformerアーキテクチャにおけるAttention Sinkの役割は不明であり，モデルの挙動に及ぼす影響が課題である。
- Attention Sinkが持つ情報とその活用法を明らかにすることで，推論能力の向上を目指す。
- Attention Sinkは，デコーディング過程に影響を与える構造化されたグローバル情報をエンコードしていることが示された。
- OutRoという軽量な推論戦略を提案し，Sinkトークンを活用して文脈表現を強化することで性能向上を実現した。
- 7つのビデオQAベンチマークで一貫して性能が向上し，汎化性能も高いことが確認された。
Link: https://arxiv.org/abs/2603.14337
AgroNVILA：マルチビュー農業マルチモーダル大規模言語モデルにおける知覚と推論の分離 [cs.CV, cs.AI]目的：農業におけるマルチモーダル推論の性能向上
- 農業分野における精密農業の発展には，多様な視点からの空間理解が不可欠である。
- 既存のマルチモーダル大規模言語モデルは，地上視点に偏りがあり，スケール間の混乱や論理のずれが生じやすい。
- 本研究は，多様な空間スケールに対応可能な農業マルチモーダル大規模言語モデルを開発し，農業計画の精度向上を目指す。
- 大規模な農業マルチビューデータセットAgroOmniを構築し，知覚と推論を分離したAgroNVILAを提案した。
- AgroNVILAは，視点条件付きメタネットによりスケール曖昧性を解消し，農業に特化した強化学習により論理的な意思決定を実現する。
- 実験により，AgroNVILAが既存モデルを大幅に上回り，マルチ高度農業推論において15.18%の性能向上を達成した。
Link: https://arxiv.org/abs/2603.14342
曖昧性と躊躇の認識のための異種アンサンブル正則化：BROTHER [cs.CV]目的：曖昧性と躊躇（A/H）の認識における性能向上
- 情動計算において，自然な状況下での複雑な行動状態の認識は重要である。
- 曖昧性と躊躇は微妙な多峰性を示すため，従来の表情認識では捉えにくい。
- 異種モデルの組み合わせによる正則化で，過学習を抑制し，汎化性能を高める。
- 言語特徴はA/Hの強力な予測因子であるが，多峰的な情報融合が有効である。
- 粒子群最適化（PSO）による正則化アンサンブルが，学習と検証の乖離を抑制する。
- テストセットにおいて，最大マクロF1スコア0.7465を達成し，高い汎化性能を示した。
Link: https://arxiv.org/abs/2603.14361
AerialVLA：UAVナビゲーションのためのミニマリストエンドツーエンド制御によるビジョン・言語・行動モデル [cs.CV, cs.AI, cs.RO]目的：UAVナビゲーションにおけるビジョン・言語・行動の統合
- UAVの自律飛行は，災害対応やインフラ点検など様々な分野で重要性が増している。
- 従来のVLNは，詳細なガイダンスや補助的な物体検出器に依存し，真の自律性を損なっていた。
- オンボードセンサーのみを用いた，自律性の高いナビゲーションシステムの実現を目指す。
- AerialVLAは，生の視覚情報と曖昧な言語指示を直接連続的な制御信号に変換する，ミニマリストなエンドツーエンドフレームワークである。
- 提案手法は，視覚情報の冗長性を削減し，ナビゲーションに必要な情報を効率的に抽出するデュアルビュー認識戦略を採用している。
- TravelUAVベンチマークにおいて，既存の最先端手法を上回る性能を示し，未知の環境での汎化性能も優れている。
Link: https://arxiv.org/abs/2603.14363
表現アラインメント：Just Image Transformersは思っているほど簡単ではない [cs.CV, cs.LG]目的：拡散Transformerの学習加速と画質向上
- 潜在空間での拡散Transformer学習は，事前学習済みトークナイザーへの依存をなくすことでボトルネックを回避できる。
- 表現アラインメント(REPA)がJust Image Transformers(JiT)に対して失敗することがある。
- REPAの失敗原因を特定し，情報非対称性を解消するPixelREPAを提案する。
- PixelREPAは，JiT-B$/16$のFIDを3.66から3.17に，Inception Scoreを275.1から284.6に改善した。
- PixelREPAは，2倍以上の学習収束速度を実現した。
- PixelREPA-H$/16$は，FID$=1.81$，IS$=317.2$を達成した。
Link: https://arxiv.org/abs/2603.14366
HomeGuard：家庭内作業における状況的リスクを特定するためのVLMベースの具現化された安全機構 [cs.CV]目的：家庭内作業における状況的リスクの特定
- ロボットの家庭内作業は，人々の生活を支援する上で重要性が高まっている。
- 視覚言語モデルは安全上のリスクに脆弱であり，些細な環境変化で危険な状況を招く可能性がある。
- 環境と相互作用対象を考慮した，より安全なロボット作業を実現すること。
- 提案手法HomeGuardは，ベースモデルと比較してリスク検出率を30%以上向上させ，過剰な安全対策を抑制する。
- Context-Guided Chain-of-Thought（CG-CoT）により，リスク評価において注意を集中させることで，精度の高い視覚的根拠に基づいた判断を可能にする。
- 生成された視覚的アンカーは，衝突回避や安全な軌道生成のための具体的な空間制約として活用できる。
Link: https://arxiv.org/abs/2603.14367