arXiv雑要約

画像・音声 - 2026/03/09 公開

多Modal生成モデルによる非小細胞肺がん治療経過の縦断的予測 [cs.CV]目的：非小細胞肺がんの治療経過予測
- 放射線治療の効果予測は，治療計画の最適化や患者予後の改善に不可欠である。
- 解剖学的変化と治療の影響を同時に考慮した縦断的な予測は困難である。
- 放射線治療による解剖学的変化を反映した腫瘍の進化を予測する手法を開発する。
- 拡散モデルは，GANベースのモデルと比較して，多Modalかつ投与量に応じた条件付けにより安定した解剖学的に妥当な腫瘍進化軌跡を生成した。
- 提案手法は，投与量と患者の臨床情報に基づいて，その後のCT画像を合成することで治療経過を予測する。
- このフレームワークは，非小細胞肺がんにおける治療モニタリングや適応放射線療法の研究に役立つ可能性を示す。
Link: https://arxiv.org/abs/2603.06147
VLM-RobustBench：ビジョン言語モデルの頑健性に関する包括的なベンチマーク [cs.CV, cs.AI]目的：ビジョン言語モデルの現実世界の画像歪みに対する性能評価
- ビジョン言語モデルは急速に発展しているが，実用化には頑健性の検証が不可欠である。
- 高品質なデータセットでの性能は高いものの，現実的な歪みに対する性能は不明な点が多い。
- 現在のビジョン言語モデルの空間的な脆弱性を明らかにし，頑健性評価プロトコルの改善を目指す。
- ビジョン言語モデルは，視覚的な重度の歪みよりも，軽度の空間的な歪みに弱い傾向が見られた。
- 特に，軽度のガラスぼかしはMMBenchの精度を平均8pp低下させる。
- リサンプリングや幾何学的歪みが最も大きな性能低下を引き起こし，最大34ppに達した。
Link: https://arxiv.org/abs/2603.06148
コンパクトなSSLバックボーンはオーディオディープフェイク検出に重要か？RAPTORを用いた統制された研究 [cs.RO, cs.SD, cs.AI, cs.CL]目的：オーディオディープフェイク検出におけるコンパクトな自己教師あり学習バックボーンの性能評価
- オーディオディープフェイクは社会問題となっており，その検出技術の重要性が高まっている。
- 既存研究ではwav2vec2-XLSRが中心で，コンパクトなモデルの効果が十分に検討されていない。
- 異なるSSLバックボーンの性能を比較し，信頼性の高い検出手法を確立することを目指す。
- 多言語HuBERT事前学習が，異なるドメイン間でのロバスト性の主要な要因であることが示された。
- 100Mモデルが大規模モデルや商用システムと同等の性能を発揮することが確認された。
- WavLMは摂動下で過信した誤校正を示す一方，mHuBERTは安定性を保つことがわかった。
Link: https://arxiv.org/abs/2603.06164
反射フローサンプリングの強化 [cs.CV, cs.AI]目的：テキスト画像生成における生成品質およびプロンプト整合性の向上
- テキストから画像を生成する技術は，その需要増加に伴い急速に発展している。
- 既存の推論時改善手法は，主に従来の拡散モデルに適用され，フローモデルでは効果を発揮しない。
- フローモデル，特にCFG蒸留モデル（FLUX等）における推論時改善手法の提供。
- 提案手法であるRF-Samplingは，テキスト画像整合性スコアに対する勾配上昇を暗黙的に実行することが理論的に証明された。
- RF-Samplingは，テキスト表現の線形結合を利用し，フロー反転と統合することで，入力プロンプトと整合性の高いノイズ空間を探索する。
- 複数のベンチマークにおいて，RF-Samplingは生成品質とプロンプト整合性を一貫して向上させ，FLUXにおいてある程度のテスト時スケーリング能力を示すことが示された。
Link: https://arxiv.org/abs/2603.06165
FreeOcc：基盤モデルによる学習不要汎用占有予測 [cs.CV]目的：道路シーン解析のためのセマンティックおよび汎用占有予測
- 自動運転やロボティクスにおいて，周囲環境の正確な3D理解は不可欠である。
- 従来のカメラのみのアプローチは，高コストな3Dアノテーションやターゲットドメインへの依存度が高い。
- 学習データに依存せず，汎用的な環境で3Dシーンを理解するための手法を提供する。
- FreeOccは，事前学習済みの基盤モデルを活用し，マルチビュー画像からセマンティック情報と幾何情報を復元する。
- Occ3D-nuScenesデータセットにおいて，学習なしで最先端の弱学習法と同等の性能(16.9 mIoU, 16.5 RayIoU)を達成した。
- 下流モデルの学習にFreeOccによる疑似ラベルを用いることで，さらなる性能向上(21.1 RayIoU)が確認された。
Link: https://arxiv.org/abs/2603.06166
トレーニング不要な疑似ラベル生成とラベル洗練を用いた乳房超音波画像セグメンテーションの半教師ありフレームワーク [cs.CV]目的：乳房超音波画像セグメンテーションのための半教師ありフレームワーク
- 医療画像解析におけるアノテーションコストの削減が重要な課題となっている。
- 限られたアノテーションでは，疑似ラベルの不安定性が性能低下の要因となる。
- 自然画像と医療画像間の構造的転移により，安定した疑似ラベル生成を目指す。
- 本手法は，わずか2.5%のラベルデータで，完全教師ありモデルと同等の性能を達成した。
- 提案手法は既存の半教師あり学習アプローチを大きく上回る性能を示した。
- 他の画像モダリティや疾患への拡張性も高く，汎用的な半教師ありセグメンテーションが可能である。
Link: https://arxiv.org/abs/2603.06167
JOPP-3D：点群とパノラマ画像における共同オープンボキャブラリ意味セグメンテーション [cs.CV]目的：点群とパノラマ画像を用いた意味セグメンテーション
- 3Dシーン理解は，ロボット工学や自動運転など，様々な応用分野において重要である。
- 注釈付きデータの不足と，固定ラベルモデルの適応性の限界が課題となっている。
- 言語による指示に基づいた，点群とパノラマ画像の共同セグメンテーションを実現する。
- JOPP-3Dは，パノラマ画像と点群データを統合的に活用するフレームワークである。
- RGB-Dパノラマ画像を接線視点画像と点群に変換し，視覚言語特徴を抽出・整列させる。
- Stanford-2D-3D-sとToF-360データセットで，JOPP-3Dは一貫性のある意味のあるセグメンテーションを実現し，最先端技術を上回る性能を示した。
Link: https://arxiv.org/abs/2603.06168
マルチスケール報酬学習による医療画像のための3D拡散モデルの最適化 [cs.CV]目的：医療画像生成のための3D拡散モデル最適化手法
- 医療画像診断の精度向上には，高品質な画像生成技術が不可欠である。
- 従来の拡散モデルでは，臨床的有用性と学習目標の乖離が課題となっていた。
- 臨床的有用性を考慮した報酬設計により，生成画像の品質向上を目指す。
- 提案手法は，2Dスライス評価と3Dボリューム解析を統合した報酬システムを用いることで，局所的なテクスチャと大域的な構造の一貫性を同時に最適化する。
- BraTS 2019およびOASIS-1データセットを用いた検証により，RLフィードバックが生成プロセスをより高品質な分布へと導くことが示された。
- 定量分析の結果，FIDの有意な改善が確認され，生成された合成データは，腫瘍および疾患分類タスクにおいて，最適化されていないベースラインよりも優れた有用性を示した。
Link: https://arxiv.org/abs/2603.06173
学習不要な拡散セグメンテーションを生成能力で拡張する [cs.CV]目的：拡散モデルの生成能力を利用したセグメンテーション手法の性能向上
- 画像生成モデルの発展により，新たな画像解析技術への応用が期待されている。
- 学習不要なセグメンテーションは手軽だが，高性能な拡散モデルの能力を十分に活かせない場合がある。
- クロスアテンションマップの解釈と活用を通じて，セグメンテーション精度を向上させる。
- クロスアテンションマップの集約とピクセルごとの再スケーリングにより，セグメンテーション精度が向上した。
- 提案手法は標準的なセグメンテーションベンチマークで性能を実証し，汎用性も示した。
- 生成能力と識別能力を両立したセグメンテーション技術の実現に貢献する。
Link: https://arxiv.org/abs/2603.06178
コントラスト学習と自己教師あり学習：筆跡類似度学習のための二段階フレームワーク [cs.CV, cs.AI, cs.CL, cs.LG]目的：筆跡の類似度指標学習
- 文字や文字体系の類似度学習は，歴史的な関係性が不明確な場合に困難が生じる。
- 既存の手法では，文字体系間の歴史的関係性の不確実性に対処できない。
- 本研究は，教師あり学習と自己教師あり学習を組み合わせることで，この課題を解決する。
- まず，ラベル付きの人工文字体系でコントラスト損失を用いてエンコーダーを訓練し，教師モデルを確立した。
- 次に，教師モデルの知識を活用しつつ，歴史的に実証された文字体系に対して自己教師あり学習を行い，潜在的な文字体系間の類似性を発見した。
- 多様な文字体系を用いた実験により，少ないサンプルでの文字認識と，意味のある文字体系のクラスタリングが実現された。
Link: https://arxiv.org/abs/2603.06180
人間らしい動きのチューリングテスト：ヒューマノイドロボットの人間らしさの評価 [cs.CV]目的：ヒューマノイドロボットと人間のポーズの識別可能性の評価
- ロボット工学において，人間のような自然な動きを実現することは重要な課題である。
- 既存の手法では，ロボットの動きが人間と区別できないかどうかの客観的な評価が困難である。
- 本研究は，動きのデータから人間らしさを定量的に評価する手法を確立することを目的とする。
- ヒューマノイドロボットの動きは，ジャンプやボクシングなどの動的な動作において，人間とは異なる特徴が見られた。
- 大規模言語モデルは，動きの人間らしさを評価するには不十分であり，提案手法がより高い性能を示した。
- 本研究で構築したデータセットとベンチマークは，今後の研究を支援するために公開される。
Link: https://arxiv.org/abs/2603.06181
CRIMSON：臨床に基づいたLLMによる放射線レポート評価指標 [cs.CL, cs.AI, cs.CV]目的：胸部X線レポート生成における評価指標の臨床的妥当性
- 医療現場では，放射線レポートの品質が診断精度や患者安全に直結するため，客観的な評価が不可欠である。
- 既存の評価指標は，臨床的文脈を十分に考慮しておらず，些細な誤りが過大評価される可能性がある。
- 臨床的意義に基づいた重み付けにより，重大な誤りを優先的に評価する指標を開発すること。
- CRIMSONは，臨床的コンテキストを考慮し，誤りの種類を詳細に分類することで，既存の指標よりも高い精度でレポートを評価できる。
- 臨床医による評価との相関が強く，特に臨床的に重要な誤りの検出において高い一致度を示した（Kendall's tau = 0.61-0.71）。
- 新たに作成したRadJudgeやRadPrefといったベンチマークにおいても，専門家の判断と一貫性のある結果が得られた。
Link: https://arxiv.org/abs/2603.06183
SpaCRD：がん領域検出のための組織病理画像と空間トランスクリプトミクスのマルチモーダル深層融合 [cs.CV]目的：がん領域の検出
- がん微小環境の解析や治療効果の予測には，正確ながん領域の特定が不可欠である。
- 従来の組織病理画像に基づく手法では，形態の類似性から偽陽性率が高いという課題があった。
- 組織病理画像と空間トランスクリプトミクスデータを統合し，より高精度な検出を実現することを目指す。
- 本研究で提案するSpaCRDは，異なるサンプル，プラットフォーム，バッチ間での高い汎化性能を示す。
- SpaCRDは，組織病理画像と遺伝子発現量の潜在的な共発現パターンを多角的に捉えることで，精度の向上を実現した。
- 23の異なるデータセットを用いた評価実験により，既存の最先端手法と比較して優れた性能が確認された。
Link: https://arxiv.org/abs/2603.06186
Whisper-CD：多重負の対照的デコーディングを用いた高精度な長尺音声認識 [cs.RO, cs.SD, cs.AI, eess.AS]目的：長尺音声認識における幻覚，繰り返し，内容の省略
- 音声認識技術は，人間と機械のコミュニケーションを円滑にする上で不可欠である。
- 大規模モデルでは幻覚や繰り返しが発生しやすく，長尺音声認識の精度を著しく低下させる。
- 既存のWhisperシステムを再学習なしで改善し，長尺音声認識の精度向上を目指す。
- Whisper-CDは，CORAALベンチマークにおいてWERを最大24.3pp削減した。
- Whisper-CDは，ビームサーチと比較して48%高速なトークン生成スループットを実現した。
- 推論時に適用可能なため，既存のWhisperシステムへの組み込みが容易である。
Link: https://arxiv.org/abs/2603.06193
適応言語認識画像反射除去ネットワーク [cs.CV]目的：複雑な反射の除去
- 画像処理において，反射は視覚的な品質を損なう要因となるため，除去技術は重要である。
- 既存手法では複雑な反射への対応が困難であり，高精度な反射除去が課題となっている。
- 不正確な言語情報を用いても反射を除去できる技術を開発し，性能向上を目指す。
- 提案手法ALANetは，フィルタリングと最適化戦略を統合することで，不正確な言語情報の影響を軽減しつつ，言語の利点を活かしている。
- 言語的特徴と視覚的特徴の整合性を高め，複雑な反射の除去能力を向上させている。
- 新たなデータセットCRLAVを用いて評価を行い，既存手法を上回る性能が確認された。
Link: https://arxiv.org/abs/2603.06200
点指示に基づくスケルトンデータを用いた人間の行動セグメンテーション [cs.CV]目的：スケルトンデータを用いた人間の行動セグメンテーション
- 知的なシステムの構築に不可欠であり，人間の活動を認識・応答する能力を高める。
- 全 supervision 法はコストが高く，曖昧な行動境界に弱いという課題がある。
- フレームレベルの注釈コストを削減しつつ，高精度な行動セグメンテーションを実現する。
- 提案手法は，PKU-MMD，MCFS-22，MCFS-130データセットにおいて新たなベンチマークを確立した。
- 点指示による学習で，一部の全 supervision 法を超える競争力のある性能を達成した。
- 注釈の手間を大幅に削減しながら，高い性能を維持できることが実験で示された。
Link: https://arxiv.org/abs/2603.06201
VG3S：セマンティック占有予測のための視覚幾何に基づくガウススプラッティング [cs.RO, cs.CV, cs.RO]目的：3Dセマンティック占有予測の性能向上
- 自動運転における包括的なシーン理解に不可欠なタスクであり，安全性向上に貢献する。
- 既存手法では，純粋な画像情報のみでは十分な幾何学的制約が得られず，性能が制限される。
- Vision Foundation Modelsの幾何学的情報を活用し，高精度な3Dガウス生成を実現する。
- VG3Sは，nuScenesデータセットにおいて，IoUが12.6%，mIoUが7.5%改善されることを示した。
- 様々なVision Foundation Modelsに対して汎用的に適用でき，占有予測の精度向上に貢献する。
- 強力な事前学習済み幾何学的情報を持つVision Foundation Modelsの有用性を明確に示した。
Link: https://arxiv.org/abs/2603.06210
事象の連鎖による訓練不要なマルチモーダル要約 [cs.CV, cs.AI]目的：マルチモーダル要約の実現
- 動画，テキスト，画像などの情報を統合し，簡潔な要約を生成する技術は，情報過多な現代社会において重要である。
- 既存手法は，特定のドメインへの依存，弱いクロスモーダルな関連付け，時間的な遷移の考慮不足といった課題を抱えている。
- 階層的な事象グラフを用いて，クロスモーダルな関連付けと時間的な推論を強化し，ドメインに依存しない要約を可能とする。
- 提案手法CoEは，８つの多様なデータセットにおいて，既存の最先端手法を平均してROUGEで+3.04，CIDErで+9.51，BERTScoreで+1.88上回る性能を示した。
- CoEは，事象の連鎖に基づいて構造的な推論を行い，重要な視覚的手がかりを特定し，事象の進化と因果関係をモデル化する。
- 軽量なスタイル適応により，ドメイン間の整合性を高め，堅牢性，解釈可能性，クロスドメイン汎化性能を実現する。
Link: https://arxiv.org/abs/2603.06213
EntON：3Dガウススプラッティングにおける固有エントロピー最適化近傍密度化 [cs.CV]目的：3Dガウススプラッティングにおける高精度な幾何学的形状と高品質なレンダリングを実現するための近傍密度化戦略
- 3Dシーン再構成技術は，バーチャルリアリティや自動運転など様々な分野で重要な役割を担っている。
- 既存の3Dガウススプラッティングは，ガウスの中心と表面がオブジェクト形状と一致しない場合がある。
- 幾何学的な情報を考慮した密度化により，詳細な形状を捉え，効率的な再構成を目指す。
- 提案手法EntONは，固有エントロピーを用いてガウスの分割と剪定を制御し，幾何学的な精度を向上させる。
- 実験結果から，EntONは幾何学的精度を最大33%向上させ，レンダリング品質を最大7%向上させることが示された。
- さらに，ガウスの数を最大50%削減し，学習時間を最大23%短縮することで，効率性も改善された。
Link: https://arxiv.org/abs/2603.06216
単語を基準とした時間的な改ざん局所化 [cs.RO, cs.CV]目的：時間的な改ざん局所化の精度向上
- 音声等のデジタルデータ改ざん検知は，信頼性確保に不可欠である。
- 既存手法は，特徴量の粒度や計算コストに課題があった。
- 単語レベルでの分類により，効率的かつ高精度な局所化を目指す。
- 本研究では，単語を基準とした新たな時間的な改ざん局所化手法(WAFL)を提案した。
- WAFLは，既存手法と比較して，局所化性能が大幅に向上した。
- また，学習パラメータ数や計算コストを大幅に削減することに成功した。
Link: https://arxiv.org/abs/2603.06220
空間的に疎な線形注意を用いた低遅延イベントベース物体検出 [cs.CV]目的：低遅延イベントベース物体検出のための手法
- イベントカメラは高速・低遅延な映像処理を実現する可能性があり，自動運転やロボティクスへの応用が期待されている。
- 既存のイベントベースニューラルネットワークは学習効率や計算コスト，精度のトレードオフという課題を抱えている。
- イベントの疎性を活用し，効率的な並列学習と低遅延な推論を両立する手法を確立することを目指す。
- 提案手法SSLA-Detは，Gen1およびN-Caltech101データセットにおいて，既存のアシンクロナス手法を上回る精度を達成した。
- 特に，mAPはそれぞれ0.375と0.515という高い値を示し，先行研究と比較して20倍以上の計算量削減を実現した。
- 線形注意を活用することで，低遅延イベントベースビジョンの可能性を示唆する結果となった。
Link: https://arxiv.org/abs/2603.06228
TaPD：自律走行における観測適応軌道予測のための時間適応型漸進的知識蒸留 [cs.CV, cs.AI, cs.RO]目的：観測長に依存しない軌道予測手法の開発
- 自律走行においては，周囲の車両などの動きを予測することが安全な計画立案に不可欠である。
- 既存の予測モデルは固定長の履歴を前提としており，観測長が短い場合に性能が著しく低下する。
- TaPDは，様々な観測長に対してロバストな軌道予測を可能にし，特に短い観測長における性能向上を目指す。
- TaPDは，過去の軌道を明示的に再構成するモジュールと，未来を予測するモジュールを組み合わせることで，観測長に依存しない予測を実現した。
- 漸進的知識蒸留(PKD)を用いることで，長い履歴から得られた運動パターンを短い履歴に転移させ，少ない情報でも豊富な運動コンテキストを復元する。
- Argoverse 1およびArgoverse 2での実験により，TaPDが様々な観測長において既存手法を上回り，特に短い観測長で顕著な改善が見られた。
Link: https://arxiv.org/abs/2603.06231
DC-Merge：方向一貫性によるモデル結合の改善 [cs.CY, cs.LG, cs.CV]目的：モデル結合による知識保持の最適化
- 複数のタスクに適応したモデルを統合し，各タスクの知識を維持することは重要である。
- モデル結合時に，タスクベクトルのエネルギー分布の不均衡や幾何学的矛盾が生じやすい。
- タスクベクトルの方向一貫性を維持することで，知識保持を向上させることを目指す。
- DC-Mergeは，タスクベクトルの特異値を平滑化することでエネルギー分布を均衡化する。
- 均衡化されたベクトルは，共有する直交部分空間へ投影され，方向の幾何学的整合性が保たれる。
- DC-Mergeは，VisionおよびVision-Languageベンチマークにおいて，最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.06242
3Dインスタンス認識参照表現セグメンテーションのための階層的協調融合 [cs.CV]目的：3Dシーンにおける参照表現に基づくインスタンスセグメンテーション手法
- 3Dシーン理解は，ロボティクスや自動運転など幅広い分野で重要性が増している。
- 既存手法は点群のみに依存し，詳細な記述に対応できる豊かな視覚的意味情報が不足している。
- 本研究は，2Dと3Dの情報を効果的に融合し，セグメンテーション精度向上を目指す。
- 提案手法HCF-RESは，SAMインスタンスマスクを活用し，2Dから3Dへの投影時にオブジェクト境界を保持する。
- HCF-RESは，2Dセマンティック特徴と3D幾何特徴間の協調融合と，言語による特徴の洗練を行う。
- ScanReferとMulti3DReferの両データセットにおいて，最先端の結果を達成した。
Link: https://arxiv.org/abs/2603.06250
NOVA：自律走行における3Dマルチオブジェクトトラッキングのための次世代オープンボキャブラリ自己回帰 [cs.HC, cs.CV, cs.RO, eess.IV]目的：未知の対象への汎化
- 自律走行には，周囲の状況を正確に理解する知覚能力が不可欠であり，その中で3D MOTは重要な役割を担う。
- 既存の3D MOTパイプラインは，閉じた集合の仮定や「意味的に盲目」なヒューリスティックに制限されている。
- 本研究は，3Dトラッキングを生成的な空間・時間的意味モデリングへ移行させ，未知の対象への対応を可能にすることを目指す。
- NOVAは，3D軌跡を構造化された空間・時間的意味シーケンスとして再構成し，物理的な運動連続性と深層言語事前知識を同時にエンコードする。
- 大規模言語モデル（LLM）の自己回帰的機能を活用することで，トラッキングタスクを次のステップのシーケンス補完の原則的なプロセスへと変える。
- nuScenesデータセットにおいて，新規カテゴリでAMOTAが22.41%を達成し，ベースラインと比較して20.21%の絶対的な改善を実現した。
Link: https://arxiv.org/abs/2603.06254
GazeMoE：専門家混合による視線注視点の認識 [cs.HC, cs.CV, cs.AI]目的：視線注視点認識のための新たなフレームワーク
- ロボットが人間の注意を理解する上で，視線注視点の推定は不可欠な技術である。
- 汎用的なニューラルアーキテクチャや学習方法の開発が課題となっている。
- 視線注視点に関連する様々な情報を効率的に活用し，認識精度向上を目指す。
- 提案手法GazeMoEは，既存の視線推定タスクにおいて最先端の性能を達成した。
- 凍結された基盤モデルから，専門家混合モジュールを通じて視線注視点に関連する情報を選択的に活用する。
- クラス不均衡への対処やデータ拡張により，ロバスト性を高めている。
Link: https://arxiv.org/abs/2603.06256
旋回イベントカメラを用いた機内ドローン検知 [cs.CL, cs.CY, cs.CV]目的：移動プラットフォーム上でのリアルタイムドローン検知システム
- ドローン利用の急増に伴い，安全確保とプライバシー保護のバランスが重要課題となっている。
- 従来のフレームカメラは，高速移動体や悪条件下での検知性能に限界がある。
- 移動プラットフォーム搭載可能な，全方位検知システムを開発し，実用的な監視体制を確立する。
- 本研究では，旋回イベントカメラと軽量なニューラルネットワークを組み合わせたシステムを開発した。
- このシステムは，モーション補正なしで高精度なドローン検知を実現し，平均角度誤差2度以下を達成した。
- Jetson Orin NX上でリアルタイム動作を確認し，屋外実験でその有効性を検証した。
Link: https://arxiv.org/abs/2603.06265
HiPP-Prune：視覚言語モデルの階層的嗜好性条件付き構造的枝刈り [cs.CV, cs.AI]目的：視覚言語モデルの効率的な展開のための枝刈り手法
- 視覚言語モデルの利用拡大のためには，計算資源の効率化が不可欠である。
- 従来の枝刈りは，タスク性能の低下に加え，幻覚の増幅を引き起こす場合がある。
- 視覚的要素への注意を考慮し，性能と幻覚抑制のバランスを取る枝刈りを実現する。
- HiPP-Pruneは，複数の目的を考慮した階層的かつ構造的な枝刈りフレームワークである。
- ユーザーの嗜好性に基づいて，タスク性能，幻覚抑制，圧縮率，安定性を調整可能な枝刈り計画を生成する。
- LLaVAを用いた実験により，多様な非支配的枝刈り計画と，制御可能な性能・頑健性トレードオフが確認された。
Link: https://arxiv.org/abs/2603.06270
拡散Transformer超解像のためのスペクトルと軌跡の正則化 [cs.CV]目的：拡散Transformerを用いた実写画像超解像の性能向上
- 画像超解像は，低解像度画像を鮮明化する技術であり，様々な応用分野で重要である。
- 拡散Transformerは高解像度だが，計算コストが高く，蒸留が必要となる。
- 拡散Transformer特有の周期的なアーティファクトを抑制し，実写画像超解像の性能を向上させる。
- 提案手法StrSRは，スペクトル正則化と軌跡正則化により，DiTの軌跡のずれを抑制する。
- 周波数分布一致戦略により，高周波スペクトルリークによる周期的なアーティファクトを効果的に抑制する。
- 定量評価と視覚的評価の両面で，StrSRは最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.06275
信頼できないボクセルを信頼できるか？ラベルノイズ下における3Dセマンティック占有予測の探求 [cs.CV, cs.RO, eess.IV]目的：3Dセマンティック占有予測におけるラベルノイズの影響と，そのロバスト性の向上
- ロボット知覚において，3Dセマンティック占有予測は重要な役割を担う。安全な自動運転には不可欠な技術である。
- 現実世界のボクセルアノテーションは，構造的アーティファクトや動的残像の影響を受けやすく，信頼性に課題がある。
- 信頼性の低い占有データ下でも，ロバストな予測を可能にするフレームワークを提案し，安全なロボット知覚を実現する。
- 提案手法DPR-Occは，デュアルソース部分ラベル推論により，信頼性の高い教師信号を構築することで，ノイズの影響を抑制する。
- SemanticKITTIデータセットを用いた実験により，DPR-Occは極度の汚染下でも，幾何学的およびセマンティック崩壊を防ぐことが示された。
- 90%のラベルノイズ下でも，既存手法と比較して大幅な性能向上（mIoUで最大2.57%，IoUで最大13.91%）を達成した。
Link: https://arxiv.org/abs/2603.06279
属性分布モデリングとセマンティック・ビジュアルアライメントによる生成型ゼロショット学習 [cs.RO, cs.CV]目的：生成型ゼロショット学習における属性分布のモデリングとセマンティック・ビジュアルアライメント
- 未知のクラスに対する認識能力向上は，画像認識分野における重要な課題である。
- 既存手法では，クラス内ばらつきによりインスタンス固有の視覚的特徴を捉えきれていない。
- セマンティック特徴と視覚的特徴の分布の不一致を解消し，認識精度向上を目指す。
- 提案手法ADiVAは，既存の最先端手法と比較して，AWA2およびSUNデータセットでそれぞれ4.7%と6.1%の性能向上を達成した。
- ADiVAは，クラスごとの属性分布をモデリングし，視覚情報に基づいてセマンティック表現を洗練させることで，性能向上を実現している。
- 本手法は，既存の生成型ゼロショット学習手法に組み込むことで，その性能を向上させることができる。
Link: https://arxiv.org/abs/2603.06281
FlowMotion：ビデオモーション転送のための学習不要なフローガイダンス [cs.CV]目的：ビデオモーション転送における効率的かつ柔軟なモーション転送
- ビデオ生成技術は，コンテンツ制作や表現の可能性を広げる上で重要である。
- 既存手法は計算コストが高く，柔軟性に欠ける点が課題となっている。
- モデル予測を活用し，計算効率とパフォーマンスの両立を目指す。
- FlowMotionは，事前学習済みのT2Vモデルの予測結果を直接利用する新しいフレームワークである。
- 初期の潜在的予測が豊かな時間情報を内在することに着目し，フローガイダンスを提案した。
- 速度正則化戦略により，最適化の安定化とスムーズなモーション進化を実現した。
Link: https://arxiv.org/abs/2603.06289
直交スコアベース拡散モデルによる3D CBCTアーチファクト除去 [cs.CV, cs.LG]目的：3D CBCTアーチファクトの除去
- 歯科医療において高解像度かつ低被曝な3D画像診断が求められている。
- 歯科インプラント等の高密度物体がCBCT画像のアーチファクトの原因となる。
- 投影データ系列におけるインプラントインペインティングによるアーチファクト低減を目指す。
- 提案手法は，2つの異なる平面で学習された直交スコアベース拡散モデルを組み合わせることで，3D投影データ系列の分布をモデル化する。
- 本研究により，高品質でアーチファクトが低減された3D CBCT画像の生成が可能であることが示された。
- 本手法は，臨床画像診断の改善に貢献する可能性を持つ。
Link: https://arxiv.org/abs/2603.06300
自己回帰型ビジョン言語モデルに対する動的な説明可能性手法DEX-AR [cs.CV, cs.AI]目的：自己回帰型ビジョン言語モデルの説明可能性向上
- ビジョン言語モデルの高度化に伴い，意思決定プロセスの理解が不可欠となっている。
- 従来の分類タスク向けの説明手法は，トークンごとの生成や多種多様なモダリティ間の複雑な相互作用により，自己回帰型VLMsには不向きである。
- 本研究は，自己回帰型VLMsの説明可能性を高めるための新たな手法を提案し，解釈可能性を向上させる。
- DEX-ARは，画像領域の重要度を示すトークンレベルおよびシーケンスレベルの2Dヒートマップを生成する。
- 層ごとの勾配計算により，各層や生成トークンの重要度の変化を解釈可能にする。
- ImageNet，VQAv2，PascalVOCでの評価において，摂動ベースおよびセグメンテーションベースの指標で性能向上が確認された。
Link: https://arxiv.org/abs/2603.06302
潜在的転移攻撃：生成潜在空間を通じた敵対的サンプル [cs.CV]目的：敵対的サンプルの転移攻撃手法の開発
- 画像認識モデルの堅牢性を評価する上で，敵対的サンプルは重要なツールである。
- 従来の攻撃手法は，高周波ノイズを伴いやすく，画像処理やモデルの変化に弱い。
- 生成モデルの潜在空間を利用し，転移性能の高い敵対的サンプルを生成する。
- 提案手法LTAは，Stable Diffusion VAEの潜在空間で最適化することにより，高い転移攻撃成功率を達成した。
- 生成される摂動は空間的に一貫性があり，低周波成分が中心であり，従来のpixel空間ベースの手法とは異なる特性を示す。
- 事前学習済みの生成潜在空間が，敵対的最適化のための効果的かつ構造化された領域であることを示した。
Link: https://arxiv.org/abs/2603.06311
WMoE-CLIP：ウェーブレット強化混合エキスパートによるゼロショット異常検知のためのプロンプト学習 [cs.CV]目的：ゼロショット異常検知のためのウェーブレット強化混合エキスパートプロンプト学習手法
- 画像と言語の理解に基づく異常検知は，人間の視覚システムを模倣し，様々な産業分野での応用が期待される。
- 既存手法は固定されたテキストプロンプトに依存し，複雑な意味を捉えきれない。また，空間領域の特徴のみに着目し，微細な異常の検出が困難である。
- 多様な異常パターンに対応可能な適応的なプロンプトと，多周波数画像特徴によるテキスト埋め込みの改善により，異常検知の精度向上を目指す。
- 提案手法は，変分オートエンコーダを用いて大域的な意味表現をモデル化し，プロンプトに統合することで，多様な異常パターンへの適応性を向上させる。
- ウェーブレット分解により，多周波数画像特徴を抽出し，クロスモーダル相互作用を通じてテキスト埋め込みを動的に洗練する。
- 14の産業および医療データセットにおける実験により，提案手法の有効性が実証された。
Link: https://arxiv.org/abs/2603.06313
プロトタイプ構造学習と一貫性推論による点群の教師なしセマンティックセグメンテーション (P-SLCR) [cs.CV]目的：点群の教師なしセマンティックセグメンテーション戦略
- 点群データは自動運転やロボット工学など幅広い分野で活用が期待され，その効率的な解析が重要である。
- セマンティックセグメンテーションには大量のラベル付きデータが必要であり，コストや時間，労力がかかる。
- ラベルなし点群データのみを用いて，高精度なセマンティックセグメンテーションを実現することを目指す。
- 提案手法P-SLCRは，一貫性のある点の構造的特徴学習とプロトタイプ間の関係推論により，セマンティックセグメンテーションを実現する。
- S3DISデータセットArea-5において，mIoU 47.1%を達成し，PointNetを2.5%上回る性能を示した。
- SemanticKITTI，Scannetデータセットにおいても，既存の教師なし手法と比較して最高の性能を達成した。
Link: https://arxiv.org/abs/2603.06321
現代アート作品を模倣するAIの表現：評価と考察 [cs.CL, cs.CV]目的：AIによる視覚的創造性の評価
- 現代アートは，社会や文化を反映し，新たな価値観を提示する重要な役割を担っている。
- AIによるアート生成は進むが，既存作品の模倣における質や独自性の評価が課題である。
- AIによる模倣作品とオリジナル作品の類似点と相違点を多角的に分析し，評価方法を提案する。
- AI生成画像とオリジナル作品の間で，色彩やテクスチャの類似性は高いものの，構図，概念，知覚的な類似性は低いことが示された。
- 単一のスタイル指標ではなく，補完的な指標を組み合わせた「スタイル転送ダッシュボード」の活用を提唱する。
- アーティストのコメントからは，AI生成作品が次元，文脈，意図に欠け，単なる言い換えや近似に留まっているとの指摘があった。
Link: https://arxiv.org/abs/2603.06324
WorldCache：異種トークンキャッシュによるワールドモデルの高速化 [cs.CV]目的：拡散に基づくワールドモデルの高速化手法
- ワールドモデルは，統一的な世界シミュレーションの可能性を秘めており，ロボティクスやゲーム開発などの分野で注目されている。
- 反復的なノイズ除去処理は計算コストが高く，リアルタイムな利用や長期間の予測シミュレーションが困難である。
- マルチモーダルな結合や空間変動によるトークンの異質性，非一様な時間的ダイナミクスといったワールドモデル特有の問題を解決する。
- WorldCacheは，エンドツーエンドで最大3.7倍の高速化を実現し，98%のロールアウト品質を維持する。
- 本手法は，物理に基づいた曲率スコアを用いてトークンの予測可能性を推定し，カオス的なトークンに対しては，Hermiteガイド付きの減衰予測子を適用する。
- また，曲率正規化されたドリフト信号を蓄積し，ボトルネックとなるトークンがドリフトし始めた場合にのみ再計算を行うアダプティブスキッピングを設計した。
Link: https://arxiv.org/abs/2603.06331
知識に基づいた多様体輸送による医用画像におけるクロスモーダルプロンプト学習 [cs.CV, cs.AI]目的：医用画像におけるクロスモーダルプロンプト学習のための知識に基づいた多様体輸送
- 医療画像診断の精度向上は，早期発見と治療に不可欠であり，その重要性は高い。
- 高性能な画像(CT)で学習したモデルが，低性能な画像(レントゲン)への転移に失敗する課題がある。
- 低性能な画像に対する学習データが少ない状況下でも，知識を用いてモデルの汎化性能を高める。
- K-MaTは，臨床テキスト記述に基づきプロンプトを固定し，最適輸送を用いて低性能なプロンプト多様体を高性能な空間に整列させる。
- 4つのクロスモーダルベンチマークにおいて，K-MaTは最先端の結果を達成し，平均ハーモニックミーンの精度を44.1%に向上させた。
- 特に乳房画像診断タスクにおいて，標準的なCoOp法で生じる忘却現象を軽減し，各モダリティ間で頑健な性能を維持した。
Link: https://arxiv.org/abs/2603.06340
動的チャンク拡散Transformer [cs.CV, cs.AI, cs.LG]目的：画像生成における計算効率の向上
- 画像生成モデルの性能向上は，計算資源の効率的な活用が不可欠である。
- 従来のTransformerモデルは，画像全体の情報を均一に処理するため，計算資源の無駄が生じる。
- 画像の重要度に応じて計算量を動的に調整することで，効率的な画像生成を目指す。
- DC-DiTは，画像の背景など情報量の少ない領域を少ないトークン数で圧縮し，詳細な領域をより多くのトークン数で表現する。
- 拡散過程の各段階で圧縮率を適応的に変化させることで，ノイズ除去の効率を高める。
- ImageNet 256x256での実験で，DC-DiTはFIDおよびInception Scoreにおいて，DiTベースラインを上回る性能を示した。
Link: https://arxiv.org/abs/2603.06351
LATO：構造化トポロジー保存潜在表現を用いた3Dメッシュフローマッチング [cs.RO, cs.CV]目的：3Dメッシュの明示的な合成を可能にするトポロジー保存潜在表現
- 3Dコンテンツ制作において，複雑な形状を効率的に生成する技術の重要性が高まっている。
- 既存手法では，生成されるメッシュのトポロジーが不安定であったり，計算コストが高いという課題があった。
- LATOは，効率的かつ高精度な3Dメッシュ生成を通じて，この課題を解決することを目指す。
- LATOは，表面に固定された頂点変位場（VDF）と，疎なボクセルVariational Autoencoder（VAE）を組み合わせることで，構造化されたトポロジーを考慮したボクセル潜在表現を実現した。
- VAEデコーダーは，潜在的なボクセルを段階的に分割・剪定し，正確な頂点位置をインスタンス化する。
- エッジ接続性を予測する専用の接続ヘッドを用いることで，等値面抽出やヒューリスティックなメッシングなしにメッシュのトポロジーを復元する。
Link: https://arxiv.org/abs/2603.06357
画像に基づく無脊椎動物バイオマス推定 [cs.CV]目的：無脊椎動物のバイオマス推定手法の開発
- 生物多様性のモニタリングは重要であり，迅速かつ効率的な手法が求められている。
- 従来のバイオマス測定は手間と時間がかかり，標本を破壊するため，課題が存在する。
- 画像からバイオマスを推定することで，モニタリングの効率化と非破壊的な測定を実現する。
- 画像解析と深層学習を用いて，無脊椎動物の乾燥重量を高い精度で推定できることを示した。
- 標本面積と沈降速度を予測変数として用いることで，追加の手動作業なしに推定が可能である。
- グループレベルでの推定において，中央値の誤差率は10-20%であり，実用的な精度であることが確認された。
Link: https://arxiv.org/abs/2603.06362
OralGPT-Plus：強化学習による視覚ツール活用学習とパノラマX線分析 [cs.CV]目的：パノラマ歯科X線写真の反復的・対称性に基づいた診断推論
- 歯科医療における正確な診断は，患者の健康維持に不可欠である。質の高い画像分析が重要。
- 既存の画像・言語モデルは静的な単一パス処理であり，臨床現場での信頼性に課題がある。
- パノラマX線写真における空間推論と対称性理解を深め，診断精度を向上させる。
- OralGPT-Plusは，パノラマ歯科X線写真分析において，既存モデルを上回る一貫性と信頼性を示す。
- 強化学習フレームワークにより，臨床的に意味のある再検査を促進し，長期的推論を安定化。
- エージェントモデリングの有効性を強調し，臨床的に整合性の高いパノラマX線分析の基盤を提供する。
Link: https://arxiv.org/abs/2603.06366
Rewis3d：再構成による弱学習セマンティックセグメンテーションの改善 [cs.CV]目的：弱学習セマンティックセグメンテーションの性能向上
- ピクセルレベルの注釈取得コストが高い。セグメンテーションモデル訓練のボトルネックとなっている。
- 疎な注釈による弱学習は効率的だが，性能に差が生じている。
- 3次元シーン再構成を用いて，疎な注釈をシーン全体に伝播させ，性能向上を目指す。
- Rewis3dは，2D画像に対する弱学習セマンティックセグメンテーションを大幅に改善する。
- 最新の3次元再構成技術を活用し，2D画像と再構成された3D点群間のセマンティック一貫性を強化する。
- 既存手法を2-7%上回り，追加のラベルや推論オーバーヘッドは不要である。
Link: https://arxiv.org/abs/2603.06374
構造を意識した選択的状態空間モデルによる全スライド画像解析：MoEMambaMIL [cs.CV]目的：全スライド画像の解析のための，構造を意識した選択的状態空間モデル
- 病理診断において，全スライド画像解析は重要な役割を担うが，その巨大なサイズと複雑な構造が課題である。
- 既存手法では，組織構造と細胞パターンの関連性を捉えきれず，解析精度が制限される場合がある。
- 本研究は，全スライド画像の空間階層構造を効果的に活用し，診断精度の向上を目指す。
- 提案手法MoEMambaMILは，領域ネストされた選択的スキャンとMoEモデリングを統合し，空間的な構造を保持したシーケンスを構築する。
- 解像度に応じたエンコーディングと，領域適応型コンテキストモデリングを分離することで，効率的な長系列モデリングを実現した。
- 9つの下流タスクにおいて，最先端の性能を達成し，MoEMambaMILの有効性が確認された。
Link: https://arxiv.org/abs/2603.06378
CHMv2：DINOv3を用いたグローバルな樹冠高度マッピングの改善 [cs.CV]目的：グローバルな樹冠高度マップの精度向上
- 森林炭素量評価や生息地構造の把握に不可欠であり，地球環境問題への貢献が期待される。
- 高精度な樹冠高度データは入手が困難であり，グローバルなマッピングには課題があった。
- 高分解能衛星画像と深層学習モデルを活用し，高精度な樹冠高度マップを生成する。
- CHMv2は既存の製品と比較して，精度が大幅に向上し，高い森林でのバイアスが軽減された。
- 樹冠の端や隙間などの微細な構造をより良く保持することが可能となった。
- 地理的に多様な学習データ，自動データキュレーション，損失関数とデータサンプリング戦略の最適化が貢献した。
Link: https://arxiv.org/abs/2603.06382
プロンプトグループを意識したロバストなテキスト誘導核セグメンテーション学習 [cs.CV, cs.AI]目的：テキスト誘導核セグメンテーションにおけるロバスト性の向上
- 病理診断支援において，画像セグメンテーションは重要な役割を担う。
- プロンプトの表現の違いにより，セグメンテーション結果が不安定になる場合がある。
- プロンプトグループに着目し，セグメンテーション結果の一貫性を高める。
- 提案手法は，セグメンテーション損失に基づくグループ正則化とロジットレベルの一貫性制約を組み合わせる。
- 複数のデータセットによる実験で，テキストプロンプトを用いたセグメンテーション性能が向上し，プロンプト品質のばらつきによる性能変動が抑制された。
- ゼロショットクロスデータセットタスクにおいて，平均でDice係数が2.16ポイント向上し，汎化性能が改善された。
Link: https://arxiv.org/abs/2603.06384
REACT++：リアルタイムシーングラフ生成のための効率的なクロスアテンション [cs.CV]目的：リアルタイムシーングラフ生成における性能と推論速度のバランス
- 画像内の物体間の関係性をグラフ構造で表現するシーングラフ生成は，エージェントの推論などに応用可能。
- 既存手法は，精度向上，物体検出精度の向上，または低遅延化に偏っており，三者のバランスが課題。
- 高性能なシーングラフ生成アーキテクチャREACTを基に，精度と速度の両立を目指す。
- 提案手法REACT++は，効率的な特徴抽出とプロトタイプ空間でのクロスアテンションにより，推論速度と表現力を両立。
- 既存のSGGモデル中最速の推論速度を達成し，物体検出性能を損なうことなく関係予測精度を向上。
- REACTと比較して，関係予測精度が平均10%向上し，推論速度が20%向上。
Link: https://arxiv.org/abs/2603.06386
荒野におけるジグソーパズルの解決：文化遺産断片の人間による誘導再構築 [cs.CV]目的：文化遺産断片の再構築
- 文化遺産は人類の歴史と文化を伝える貴重な財産であり，その保全が重要である。
- 考古学的遺物は破損や欠損が多く，従来の自動処理では再構築が困難である。
- 人間と機械の協調により，大規模で曖昧な遺物の再構築を効率化する。
- 本研究では，自動処理と人間の直感的判断を組み合わせたハイブリッドな再構築フレームワークを提案した。
- 提示した2つのインタラクション戦略（反復的固定と継続的インタラクティブ洗練）は，曖昧さとパズルの規模に対応可能である。
- 実験結果から，本手法は自動処理や手作業と比較して，精度と効率において大幅な性能向上を示した。
Link: https://arxiv.org/abs/2603.06389