arXiv雑要約

画像・音声 - 2026/03/10 公開

ReMeDI：SAM3を用いた手術用セグメンテーションにおける同一性曖昧性解消のための改良メモリ [cs.CV]目的：手術用セグメンテーションにおける同一性曖昧性解消のための改良メモリ
- 内視鏡手術支援において，正確な手術器具のセグメンテーションは不可欠である。介入の精度向上に寄与する。
- 手術映像は遮蔽，急激な動き，再出現が頻繁に起こるため，セグメンテーションは困難を極める。既存手法では課題が残る。
- SAM3のメモリ更新の曖昧さ，固定されたメモリ容量，遮蔽後の同一性回復の弱さを克服し，セグメンテーション精度を向上させる。
- 提案手法ReMeDI-SAM3は，EndoVis17, EndoVis18, CholecSeg8kデータセットにおいて，SAM3と比較して平均IoUをそれぞれ約5.8%，8%，2%向上させた。
- ReMeDI-SAM3は，遮蔽に強い occlusion-aware memory と，特徴量に基づく再識別モジュールにより，エラーの蓄積を抑制し，遮蔽後の同一性回復を可能にする。
- 本手法は，学習を必要とせず，既存の学習ベースの手法よりも優れた性能を示す。
Link: https://arxiv.org/abs/2512.16880
都市における緑の認識：人口統計と性格特性の多都市間比較 [cs.CV]目的：都市の緑の認識に関する人口統計学的・性格特性の影響の解明
- 都市計画・開発において，都市の緑は気候変動への適応と住民の幸福度に不可欠である。
- 客観的指標と主観的認識の乖離が課題であり，個人の緑の感じ方と実際の緑の量の間にずれが生じることがある。
- 人間，地理，空間的要因を通して，この乖離の原因を分析し，都市の緑の認識に影響を与える要因を特定する。
- 客観的指標と主観的評価の乖離は世界的に同程度であり，人口統計や性格特性は緑の認識に大きな影響を与えないことが示された。
- 居住地が緑の認識の差異を説明する上で重要な役割を担っており，最も影響力の強い要因の上位2つに挙げられた。
- 文化，環境，経験的要因が，都市における緑の認識に大きく影響している可能性が示唆された。
Link: https://arxiv.org/abs/2512.17186
ReDepth Anything：自己教師あり再照明によるテスト時深度の改良 [cs.CV, cs.AI, cs.LG]目的：単眼深度推定における性能向上
- 実世界画像の多様性に対応した深度推定は，自動運転やロボティクス等の応用において重要である。
- 既存の基盤モデルは，学習データと異なる分布の画像に対して性能が低下する問題がある。
- 本研究は，2D拡散モデルと基盤モデルを融合し，テスト時の自己教師あり学習によりこの問題の解決を目指す。
- ReDepth Anythingは，入力画像を再照明し，予測された深度マップを改良することで，DA-V2の深度精度とリアリズムを大幅に向上させる。
- DA3と組み合わせることで，最先端の結果を達成し，幾何学的推論による自己教師あり学習の新たな可能性を示す。
- 中間埋め込みとデコーダの重みのみを更新することで，最適化の崩壊を防ぎ，安定した性能を実現する。
Link: https://arxiv.org/abs/2512.17908
3Dセマンティックシーン補完における可視・遮蔽領域統合ガイダンス [cs.CV]目的：3Dセマンティックシーン補完の精度向上
- 自動運転やロボットの環境理解において，3Dセマンティックシーンの完全な把握は不可欠である。
- 単一画像からの補完では，可視領域と遮蔽領域の認識における干渉が課題となり，特徴量の希釈や誤差伝播を引き起こす。
- 可視領域と遮蔽領域を分離し，それぞれに適した処理を行うことで，より正確なシーン補完を目指す。
- 提案手法VOICは，可視領域のラベル抽出戦略により，高精度な可視領域認識と遮蔽領域推論を可能にする。
- VOICはデュアルデコーダ構造を採用し，可視領域のジオメトリ・セマンティック事前情報と遮蔽領域のシーン補完を明示的に分離する。
- SemanticKITTIとSSCBench-KITTI360における実験で，既存手法を上回り，最先端の性能を達成した。
Link: https://arxiv.org/abs/2512.18954
MRI超解像のためのハイブリッド選択的スキャンによる効率的なVision Mamba [cs.CV, physics.med-ph]目的：MRI超解像のための計算効率と精度を両立する深層学習フレームワーク
- 高解像度MRIは診断に不可欠だが，撮像時間の長さが臨床応用の妨げとなる。
- 既存の深層学習法では，精度の向上と計算効率の両立が課題であった。
- 臨床応用可能な，計算効率が高く，かつ解剖学的詳細を維持するMRI超解像手法を開発する。
- 提案手法は，脳MRIデータにおいて，SSIM=0.951，PSNR=26.90dB，LPIPS=0.076，GMSD=0.083と，既存手法を大幅に上回る性能を示した。
- 前立腺MRIデータでも同様に，SSIM=0.770，PSNR=27.15dB，LPIPS=0.190，GMSD=0.087と優れた結果が得られた。
- パラメータ数0.9M，計算量は57GFLOPsと軽量でありながら，Res-SRDiffと比較して，パラメータ数を99.8%，計算量を97.5%削減した。
Link: https://arxiv.org/abs/2512.19676
NashOpt - 一般化ナッシュ均衡を計算するためのPythonライブラリ [eess.SY, cs.GT, cs.SY]目的：一般化ナッシュ均衡の計算と設計
- ゲーム理論は，経済学，工学，社会科学など多様な分野で意思決定分析に不可欠である。
- 共有制約や非線形性を含むゲームのナッシュ均衡を効率的に計算することが課題であった。
- 非線形ゲームと線形-二次ゲームの両方において，一般化ナッシュ均衡を効率的に求めることを目指す。
- NashOptは，共有制約と実数値決定変数を持つ非協力ゲームにおける一般化ナッシュ均衡の計算を可能にする。
- 非線形ゲームはJAXによる自動微分を利用した非線形最小二乗法で解き，線形-二次ゲームは混合整数線形計画問題として定式化する。
- 線形二次ゲームにおいては，複数の均衡を効率的に計算することが可能である。
Link: https://arxiv.org/abs/2512.23636
DrivingGen：自律運転のための生成型ビデオワールドモデルの包括的ベンチマーク [cs.CV, cs.AI, cs.RO]目的：生成型ビデオワールドモデルの性能評価と進捗状況の把握
- 自律運転システムにおける安全性と効率性の向上は，社会実装において不可欠である。
- 既存の評価指標では，安全性，軌跡の妥当性，一貫性，制御可能性が十分に検証されていない。
- 多様な条件を網羅したデータセットと包括的な評価指標による性能評価の実現。
- DrivingGenは，多様な運転データとインターネット上の映像から構成される包括的な評価データセットを提供する。
- 開発された評価指標は，視覚的リアリズム，軌跡の妥当性，時間的一貫性，制御可能性を総合的に評価する。
- 14種類の最先端モデルのベンチマークにより，汎用モデルと運転特化型モデルのトレードオフが明らかになった。
Link: https://arxiv.org/abs/2601.01528
説明可能な作物病害視覚質疑応答のための二段階マルチタスク視覚言語フレームワーク [cs.CV, cs.CL]目的：作物病害分析のための視覚的理解と信頼性の高い言語生成
- 食糧生産において，作物の病害の早期発見と正確な診断は非常に重要である。
- 従来の病害診断は専門知識を要し，迅速な対応が困難な場合がある。
- 視覚情報と自然言語処理を組み合わせ，病害診断を自動化し，迅速かつ正確な情報提供を目指す。
- 提案手法は，大規模な作物病害データセットにおいて，ほぼ完璧な認識性能を示した。
- 植物分類精度は99.94％，病害分類精度は99.06％を達成し，自然言語生成指標においても高い結果を示した。
- 事前学習済みモデルは，追加の調整なしに外部ベンチマークでも高い汎化性能を発揮した。
Link: https://arxiv.org/abs/2601.05143
FLARE：ビジョン言語モデルからの未来予測を意識した潜在表現学習による自動運転 [cs.CV]目的：自動運転のための，未来を意識した潜在表現
- 自動運転は，移動の効率化や安全性向上に不可欠であり，社会実装が期待されている。
- 従来の学習方法は，言語アノテーションに依存し，コストが高く，連続的な運転軌跡とのミスマッチが課題である。
- 言語指示に頼らず，未来予測を通してビジョン言語モデルの知識を効率的に活用し，よりロバストな運転表現を獲得すること。
- FLAREは，大規模なラベルなし軌跡データから，未来のシーンダイナミクスやエゴモーションを予測することで，潜在空間で運転表現を学習する。
- 提案手法は，グループ相対ポリシー最適化（GRPO）を計画プロセスに統合し，意思決定の質を向上させている。
- NAVSIMベンチマークにおいて，FLAREは最先端の性能を達成し，予測的自己教師あり学習の有効性を示した。
Link: https://arxiv.org/abs/2601.05611
経路，検索，内省，修正：医療画像における視覚的検出と言語的推論のための自己改善型エージェントフレームワーク [cs.CV]目的：医療画像分析における視覚的検出と言語的推論の精度向上
- 医療画像分析は，診断精度向上に不可欠であり，近年その重要性が増している。
- 既存のビジョン言語モデルは，推論プロセスが不透明で制御が難しいという課題がある。
- 本研究は，エージェントフレームワークを用いて，モデルの信頼性と臨床的根拠を強化することを目指す。
- 提案手法R^4は，タスクと専門知識を考慮したプロンプト生成，事例記憶とサンプリングによるレポート生成，エラー検出，反復的な修正を行う。
- R^4は，既存のビジョン言語モデルと比較して，LLM-as-a-Judgeスコアを約1.7-2.5ポイント，mAP50を約2.5-3.5ポイント向上させた。
- エージェントによるルーティング，内省，修正が，強力だが脆いVLMsをより信頼性の高いツールへと変えることを示唆する。
Link: https://arxiv.org/abs/2601.08192
画像品質評価におけるアルゴリズムの視線：LAION-Aesthetics Predictor の監査とトレース民俗誌 [cs.HC, cs.AI, cs.CV]目的：画像生成AIモデルの学習に使用される美的評価モデルの評価基準の解明
- 画像生成AIの発展において，美的評価は重要な役割を果たす。その基準は，生成される画像の品質を左右するため。
- 美的評価基準が主観的，文化的背景に依存するため，AIモデルに内在するバイアスが問題となる。
- LAION-Aesthetics Predictor (LAP) のバイアスを検証し，より多様な評価基準への転換を促す。
- LAPは，女性に関するキャプションを持つ画像を優先的に選択し，男性やLGBTQ+の人々に関する画像を排除する傾向が確認された。
- LAPは，西洋および日本のアーティストによる風景，都市景観，ポートレートの写実的な画像を高く評価する傾向があり，西洋美術史における帝国主義的，男性的な視線を強化している。
- LAPの開発過程におけるデータソースが，英語圏の写真家や西洋のAI愛好家に偏っていることが，バイアスの原因の一つとして示唆された。
Link: https://arxiv.org/abs/2601.09896
S2DiT：モバイルストリーミングビデオ生成のためのサンドイッチ拡散Transformer [cs.CV]目的：モバイルハードウェア上での効率的かつ高品質なストリーミングビデオ生成
- ビデオ生成技術は，コンテンツ制作やコミュニケーションにおいて重要な役割を担う。
- 拡散Transformerは高画質だが，計算コストが高く，リアルタイム生成が困難。
- モバイル環境で高品質なストリーミングビデオ生成を実現するための効率化。
- S2DiTは，LinConv Hybrid AttentionとStride Self-Attentionを組み合わせた効率的な注意機構を採用。
- サンドイッチ設計を動的計画法で最適化し，画質と効率の両立を実現。
- 大規模モデルからの知識蒸留により，小型モデルでも高性能なストリーミングビデオ生成が可能。
Link: https://arxiv.org/abs/2601.12719
均等報酬契約 [cs.GT]目的：複数エージェントの契約設計
- チームでの行動を促すためのインセンティブ設計は，組織運営において不可欠である。
- 従来の契約設計研究では，エージェント間の報酬格差に制約がない場合が多かった。
- 均等報酬契約における最適なインセンティブ設計と，その限界を明らかにすること。
- 均等報酬契約下において，ある種の報酬関数に対して多項式時間で近似解を求めるアルゴリズムを設計した。
- 均等報酬契約と制約なしの契約設計における近似アルゴリズムの限界を示し，未解決問題を解決した。
- 均等報酬契約による公平性のコストを定量化し，その上限と下限を$\Theta(\log n/ \log \log n)$と示した。
Link: https://arxiv.org/abs/2601.15478
ReViP：視覚・固有受容性再調整による視覚言語行動モデルにおける誤完了の軽減 [cs.RO, cs.CV]目的：視覚言語行動モデルにおける誤完了の軽減
- ロボット操作において，視覚，言語，固有受容性を組み合わせることで高度な制御が可能となる。
- 既存手法では，固有受容性信号が視覚言語特徴量に直接統合され，状態への依存が強くなる。
- 視覚情報の活用を促し，状態依存による誤りを減らすことで，ロボット操作の信頼性を向上させる。
- 本研究で開発したFalse-Completion Benchmark Suiteを用いることで，誤完了の評価を包括的に行うことが可能となった。
- 提案手法ReViPは，進捗状況を考慮した視覚的手がかりを用いて，視覚と固有受容性のバランスを適応的に調整する。
- 実験の結果，ReViPは既存のVLAモデルと比較して誤完了を効果的に軽減し，成功率を26%向上させた。
Link: https://arxiv.org/abs/2601.16667
ScenePilot-Bench：自動運転におけるビジョン言語モデル評価のための大規模データセットとベンチマーク [cs.CL, cs.CV]目的：自動運転シナリオにおけるビジョン言語モデルの評価
- 自動運転技術は，交通渋滞の緩和や交通事故の削減に貢献し，社会に大きな利益をもたらす可能性を秘めている。
- 現在のビジョン言語モデルは，自動運転における複雑な状況判断や安全性を確保するための推論能力に課題がある。
- 自動運転に特化したビジョン言語モデルの性能評価と改善を目指す。
- ScenePilot-Benchは，3,847時間の運転動画を含む大規模なデータセットであり，シーン記述，リスク評価，主要参加者の識別などの多岐にわたるアノテーションを備えている。
- このベンチマークは，シーン理解，空間認識，経路計画，GPT-Scoreといった4つの軸でビジョン言語モデルの能力を評価する。
- 代表的なビジョン言語モデルの評価結果から，現状の性能限界や，自動運転向け推論における課題が明らかになった。
Link: https://arxiv.org/abs/2601.19582
クエリ誘導型空間・時間・周波数相互作用による音楽オーディオビジュアル質問応答 [cs.CV]目的：音楽オーディオビジュアル質問応答における理解度向上
- マルチモーダルな情報処理が重要視される分野であり，視覚情報と聴覚情報の融合が課題である。
- 従来のAVQA研究では，聴覚情報が視覚情報の補助として扱われ，質問情報の貢献度が低い。
- 質問誘導とオーディオ信号の周波数特性を活用し，オーディオビジュアル理解を深めることを目指す。
- 提案手法QSTarは，質問誘導によりオーディオとビジュアル特徴の関連性を効果的に捉える。
- QCRブロックは，プロンプティングに着想を得て，意味的に関連性の高い特徴に焦点を当てる。
- 複数のAVQAベンチマークで，既存手法を上回る顕著な性能向上を実証した。
Link: https://arxiv.org/abs/2601.19821
MeanCache：フローマッチング推論の高速化に向けた瞬間速度から平均速度への移行 [cs.LG, cs.AI, cs.CV]目的：フローマッチング推論における効率的なキャッシュ手法
- 生成モデルの高性能化が求められており，推論速度の向上が重要な課題となっている。
- 既存のキャッシュ手法は瞬間速度に依存し，高い加速度比で軌道ずれや誤差蓄積が生じやすい。
- MeanCacheは平均速度の視点を取り入れ，誤差蓄積を軽減し，推論速度の向上を目指す。
- MeanCacheは，FLUX.1, Qwen-Image, HunyuanVideoにおいて，それぞれ4.12倍，4.56倍，3.59倍の高速化を実現した。
- 既存の最先端キャッシュ手法と比較して，生成品質を維持しつつ，一貫して優れた性能を示した。
- 本手法は，フローマッチング推論に新たな視点を提供し，安定性重視の加速手法の研究を促進すると考えられる。
Link: https://arxiv.org/abs/2601.19961
多言語音声のためのX-Codec-2.0の改善：25Hz潜在レートと24kHzサンプリング [cs.CL, cs.SD]目的：多言語音声のためのX-Codec-2.0の効率と知覚品質の向上
- 音声圧縮技術は，通信帯域幅の削減やストレージ容量の節約に不可欠である。
- 既存のX-Codec-2.0は，潜在レートとサンプリングレートが低く，時間効率と音質に限界があった。
- 潜在レートを下げ，サンプリングレートを上げることで，効率性と知覚品質の向上を目指す。
- 提案手法は，UTMOSv2に基づき，元のX-Codec-2.0と比較して0.29 MOSの改善を達成した。
- 25Hzで動作するコーデックの中で，最高の性能を報告した。
- 追加のプーリングとデコーダーのホップサイズ増加により，アーキテクチャを変更することなく効率と音質を改善した。
Link: https://arxiv.org/abs/2601.20185
PhysDrape：物理的にリアルな衣服のドレープを学習するための明示的な力と衝突制約 [cs.CV]目的：物理的にリアルな衣服のドレープ生成のための，明示的な力と衝突制約の学習
- 衣服のドレープシミュレーションは，仮想試着やキャラクターアニメーションなど，様々な分野で重要である。
- 従来の物理ベースシミュレーションは計算コストが高く，リアルタイム性が求められる用途には不向きである。
- 深層学習を用いた手法では，衝突処理が課題であり，形状の正確性と物理的な妥当性の両立が難しい。
- PhysDrapeは，ニューラル推論と明示的な幾何学的ソルバーを組み合わせたハイブリッド手法であり，物理的な妥当性を保証する。
- 提案手法は，Saint Venant-Kirchhoffモデルに基づいた学習可能な力ソルバーと，衝突制約を厳密に適用する微分可能な射影ソルバーを用いる。
- 実験結果から，PhysDrapeは既存手法と比較して，浸透が無視できるほど少なく，歪エネルギーも低いことが示された。
Link: https://arxiv.org/abs/2602.08020
非公式・私的交通：インセンティブ，効率性，連携 [cs.GT, econ.TH, math.OC]目的：非公式・私的交通システムのインセンティブ構造分析と，公共交通運営およびインセンティブ設計への提言
- 都市部の交通手段において，公共交通機関が不十分な場合に，手頃な価格で移動手段を提供する重要な役割を担う。
- 既存の交通システム計画において，非公式・私的交通サービスやそのインセンティブが考慮されていない場合がある。
- 非公式・私的交通システムのインセンティブを分析し，効率的な交通システム構築に貢献する。
- 本研究では，非公式交通システムのゲーム理論モデルを構築し，ドライバーの利潤と乗客の需要が分散化された状況で，効率性の低下を示す「無政府状態の価格」の上限を導出した。
- 中央集権的な制御や補助金などの介入策が，効率性の低下を緩和できることを示した。
- インドのナラソパラにおける実際の非公式交通システムを用いた数値実験により，分析結果の妥当性を検証した。
Link: https://arxiv.org/abs/2602.10456
重要なものを移動させる：最適輸送フローによる共同知覚のためのパラメータ効率的なドメイン適応 [cs.CV]目的：車両-万物間（V2X）協調知覚における，マルチエージェントシステムを多様な環境に展開するための高速ドメイン適応
- V2X協調知覚は，自動運転やスマートシティ実現に不可欠であり，環境変化への適応が重要となる。
- 従来のPEFT手法をマルチエージェント環境に適用すると，性能低下や学習不安定性が発生しやすい。
- 本研究は，異なるデータ分布間およびネットワーク階層間の情報輸送コストを最小化することで，効率的なドメイン適応を実現する。
- 提案手法FlowAdaptは，学習可能なパラメータをわずか1%に抑えながら，最先端の性能を達成した。
- Wasserstein Greedy Samplingにより，冗長なサンプルを効率的にフィルタリングし，学習効率を向上させた。
- Progressive Knowledge Transferモジュールは，早期段階の表現を段階的に注入することで，意味劣化を緩和した。
Link: https://arxiv.org/abs/2602.11565
SToRM：効率的なエンドツーエンド自動運転に向けたマルチモーダルLLMの教師ありトークン削減 [cs.CV, cs.AI, cs.RO]目的：マルチモーダルLLMにおけるトークン削減手法
- 自動運転におけるエンドツーエンドシステムは，安全性向上と人間の介入を可能にする重要な技術である。
- LLMとセンサー入力の多数の視覚トークンにより，計算資源が大幅に消費されるという課題がある。
- トークン削減による計算コスト削減と，性能低下の抑制を目指す。
- 提案手法SToRMは，既存のE2E運転MLLMと比較して，同じトークン削減量において性能を維持する。
- トークン重要度予測，教師あり学習，アンカーコンテキストマージングの3要素で構成される。
- 計算コストを最大30倍削減することが可能である。
Link: https://arxiv.org/abs/2602.11656
3DMedAgent：3D医療分析のための知覚から理解への統合 [cs.CV]目的：3D CT画像に対する汎用的な知覚から理解の統合
- 医療画像解析は，疾患の早期発見や治療効果の評価において不可欠である。
- 既存手法は特定のタスクに特化し，汎用的な3D医療分析が困難である。
- 2Dに特化したMLLMでは，体積データの解析能力に限界がある点を克服する。
- 3DMedAgentは，既存の汎用，医療，3D特化型MLLMを凌駕する性能を示した。
- 複雑な3D分析を，グローバルから局所，3Dボリュームから2Dスライスへ，視覚的証拠から構造化されたテキストへ，段階的に分解する。
- 中間的なツール出力を集約する長期記憶を活用し，クエリ適応型の多段階推論を実現する。
Link: https://arxiv.org/abs/2602.18064
潜在的等変オペレータによるロバストな物体認識：可能性と課題 [cs.CV, cs.LG]目的：ロバストな物体認識のための潜在的等変オペレータの有効性と課題
- 画像認識は深層学習の成功により進展したが，訓練データにない変換への汎化が課題である。
- 既存の等変ネットワークは変換を事前に知る必要があり，未知の変換への対応が困難である。
- 潜在空間で等変オペレータを学習することで，未知の変換に対してもロバストな認識を目指す。
- 回転や並進変換を含むMNISTデータセットで，提案手法が従来のネットワークよりも優れた分類性能を示した。
- 未知の分布からのデータに対しても，提案手法は高い識別能力を発揮することが確認された。
- より複雑なデータセットへの拡張には課題が残るが，将来的な発展の可能性を示唆している。
Link: https://arxiv.org/abs/2602.18406
衛星画像と自然言語によるオープンボキャブラリコストマップ生成 [cs.RO, cs.CV]目的：衛星画像と自然言語を用いた，オープンボキャブラリコストマップの生成
- 自律ナビゲーションにおいて，広範囲な環境理解は不可欠であり，衛星画像はそのグローバルコンテキストを提供する。
- 従来の固定されたオントロジーやコストマッピングでは，多様なミッション要件や未知の地形エンティティに対応が困難である。
- 本研究は，ミッション固有の指示や地形エンティティを考慮した，柔軟なコストマップ生成を目指す。
- OVerSeeCは，大規模な衛星画像から未知のエンティティを特定し，自然言語によるミッション指示を解析するモジュール式フレームワークである。
- このフレームワークは，指示の解釈，エンティティの特定，コストマップコードの合成という3つの段階で構成されている。
- 実験により，OVerSeeCは新しいエンティティに対応し，優先順位を考慮し，多様な地域で人間が描いた経路と一致するルートを生成することが示された。
Link: https://arxiv.org/abs/2602.18606
都市シーンセグメンテーションにおけるオープン語彙ドメイン汎化 [cs.CV]目的：都市シーンセグメンテーションにおけるオープン語彙ドメイン汎化の実現
- 自動運転やロボティクス等の応用において，多様な環境でのロバストなセグメンテーションが不可欠である。
- 既存手法は，固定されたカテゴリに限定され，未知のカテゴリへの対応が困難である。
- 未知のドメインと未知のカテゴリの両方を考慮した，新たなセグメンテーション設定への対応を目指す。
- 本研究では，新たなベンチマークを構築し，自動運転におけるオープン語彙ドメイン汎化の課題を提示した。
- 事前学習済みVision-Language Modelにおけるテキストと画像の相関歪みを軽減するS2-Corrメカニズムを提案した。
- 提案手法は，既存のオープン語彙セグメンテーション手法と比較して，優れた汎化性能と効率性を示すことが確認された。
Link: https://arxiv.org/abs/2602.18853
粗粒子から微粒子への言語誘導による汎用的な3D形状マッチング [cs.ET, cs.AR, cs.CV]目的：異種形状間の高密度な意味的対応付け
- コンピュータビジョンやグラフィックスにおいて，形状間の対応付けは不可欠な技術である。
- 既存手法は等測的な形状や同種オブジェクトに限定され，異種オブジェクト間の対応付けは困難であった。
- 異種形状間，非等測形状間でも汎用的な対応付けを可能にすること。
- UniMatchは，クラスに依存しない3Dセグメンテーションと大規模言語モデルを活用し，粗い意味的情報を詳細な対応付けへと変換する。
- 事前定義されたパーツ提案を必要とせず，多様なオブジェクトカテゴリに対して汎用的に対応可能である。
- 様々な難しい条件下で，既存手法と比較して一貫して高い性能を示すことが実験的に示された。
Link: https://arxiv.org/abs/2602.19112
InfScene-SR：反復的共同ノイズ除去による任意サイズの画像超解像 [cs.DC, cs.OS, cs.CV]目的：任意サイズの画像超解像の実現
- 画像超解像は，リモートセンシングや医療画像処理など，多様な分野で重要な役割を担っている。
- 拡散モデルは計算コストが高く，固定サイズの入力に制限されることが課題となっていた。
- 大規模画像における境界アーティファクトと空間的不整合を解消し，高画質超解像を実現することを目指す。
- InfScene-SRは，重複パッチ間の共同ノイズ除去により，空間的に連続した超解像画像を生成する。
- Spatially-Decoupled Variance Correction (SDVC)により，メモリ複雑度を大幅に削減し，分散処理を可能にした。
- 大規模リモートセンシングデータセットにおいて，境界線が完全に除去され，知覚的な品質とセマンティックセグメンテーションの性能が向上した。
Link: https://arxiv.org/abs/2602.19736
CrystaL：MLLMにおける視覚潜在表現の自発的創発 [cs.CV, cs.AI]目的：MLLMにおける視覚潜在表現の結晶化と，それによる視覚理解能力の向上
- マルチモーダルLLMは，言語と視覚情報の統合により目覚ましい性能を発揮しているため，そのメカニズム解明が重要である。
- 既存の潜在的CoT手法では，中間潜在状態における重要な視覚情報の維持のための誘導が不十分である。
- 画像と破損画像を用いた経路間で注意パターンと予測分布を整合させ，視覚セマンティクスを潜在表現に結晶化する。
- CrystaLは，既存の最先端手法と比較して，一貫して優れた性能を示し，微細な視覚理解において大幅な進歩を実現した。
- 本手法は，補助的な注釈や外部モジュールに依存することなく，タスクに関連する視覚セマンティクスを潜在表現に結晶化する。
- 頑健な推論能力を維持しつつ，知覚に重点を置いたベンチマークにおいて顕著な成果を上げた。
Link: https://arxiv.org/abs/2602.20980
階層型画像分解のためのサイクル一貫チューニング [cs.CV]目的：画像階層分解
- 現実世界の画像処理において，陰影や反射など複雑な相互作用を考慮する必要がある。
- 画像内のレイヤー間の非線形な関係や全体的な結合が分解を困難にしている。
- ロゴと背景の分離など，複雑な相互作用を持つレイヤーの分解精度向上を目指す。
- 事前学習済みの拡散モデルを軽量なLoRA適応によってファインチューニングする手法を提案。
- 分解と合成モデルを同時に学習するサイクル一貫チューニング戦略により，ロバスト性を高めた。
- モデルが生成した高品質な例を用いて訓練データを反復的に拡張する自己改善プロセスを導入。
Link: https://arxiv.org/abs/2602.20989
見て，言って，分類：LVLMにおける視覚的根拠に基づいたマルチモーダル推論のための反復的トレーニングフリーフレームワーク [cs.CV]目的：視覚的根拠に基づいたマルチモーダル推論の改善
- 大規模ビジョン言語モデルは高度な推論能力を示すが，視覚的幻覚の伝播が課題となっている。
- 既存手法は強化学習に依存し，コストがかかり，モデルに特化し，汎化が難しい。
- トレーニング不要なフレームワークで，視覚的根拠に基づいた推論を促進し，幻覚を抑制すること。
- 本研究では，各推論ステップを視覚的証拠で監視することで，視覚的根拠に基づいた推論を確保する軽量なフレームワークを提案する。
- テキストによる視覚的証拠プールを構築し，必要に応じて動的に追加の関連証拠を抽出することで，推論の質を向上させている。
- TreeBenchおよびRH-Benchにおける実験で，本手法は幻覚率を大幅に低減しつつ，推論精度を向上させる効果が示された。
Link: https://arxiv.org/abs/2602.21497
ヒューマノイド制御能力向上のための反復閉ループモーション合成 [cs.RO, cs.CV]目的：ヒューマノイド制御能力を拡大するための反復閉ループモーション合成手法
- 物理ベースのヒューマノイド制御は，多様なデータ分布を持つモーションデータセットで学習される。制御性能向上の鍵となる。
- 既存データセットの難易度分布が固定されているため，学習済み制御ポリシーの性能上限が制限されるという課題がある。
- 本研究は，コスト制約を克服し，大規模なデータセットを効率的に生成・活用することで，ヒューマノイド制御の性能限界を打破することを目指す。
- 提案手法は，武道，ダンス，格闘，スポーツ，体操など，多様なアクションセマンティクスを持つ高品質なモーションデータを自動生成する。
- 物理的指標と客観的評価に基づいたポリシーとデータの難易度反復により，学習済みトラッカーは元の難易度限界を超える。
- PHCシングルプリミティブトラッカーにおいて，AMASSデータセットサイズの約1/10で，テストセットにおける平均故障率がベースラインと比較して45%削減された。
Link: https://arxiv.org/abs/2602.21599
RLEを用いたセマンティックセグメンテーションのトークン化 [cs.CV]目的：セマンティックセグメンテーションマスクのトークン列生成
- 画像認識の精度向上は，自動運転や医療診断など，幅広い分野で不可欠である。
- セマンティックセグメンテーションは計算コストが高く，特に動画への応用が困難である。
- RLEによるトークン化で計算量を削減し，動画セグメンテーションを可能にすること。
- 提案手法では，RLEを用いてセグメンテーションマスクを離散トークンに変換し，Pix2Seqモデルでトークン列を生成する。
- トークン列の長さを圧縮する戦略により，動画への適用を可能とした。
- インスタンス情報をトークン化に組み込むことで，パノラマセグメンテーションも実現した。
Link: https://arxiv.org/abs/2602.21627
UniWhisper：堅牢な汎用オーディオ表現のための効率的な継続多タスク学習 [cs.SD, cs.AI]目的：汎用オーディオ表現の獲得
- 多様な音響情報の理解は，音声認識や環境音分析など，広範な応用分野で重要である。
- 既存のエンコーダは，特定のドメインに特化しやすく，他のドメインにおける性能が低下する傾向がある。
- 異なる種類のオーディオタスクを統合し，汎用的な性能を持つエンコーダを構築することを目指す。
- UniWhisperは，38,000時間の公開オーディオデータを用いて，音声，環境音，音楽の20タスクで評価された。
- MLPプローブによる評価では0.81，kNNによる評価では0.61の正規化加重平均スコアを達成し，Whisper（0.64，0.46）を上回った。
- UniWhisperは，高い音声認識性能を維持しつつ，多様なオーディオタスクにおいて優れた汎化性能を示すことが確認された。
Link: https://arxiv.org/abs/2602.21772
EmoOmni：オムニモーダルLLMにおける感情理解と表現の架け橋 [cs.SD, eess.AS]目的：オムニモーダル感情対話における正確な感情理解と表現のための統一的フレームワーク
- 人間とコンピュータ間のインタラクションは進化を遂げている。音声や映像を統合的に理解し，応答するオムニモーダルLLMは重要である。
- 既存のオムニモーダルLLMは，複雑な状況下で感情の理解が浅く，文脈に合わない感情表現をしてしまう場合がある。
- 本研究では，詳細なマルチモーダル知覚からテキスト応答への推論を促す感情Chain-of-Thought (E-CoT)を導入し，感情表現の精度向上を目指す。
- EmoOmniは，E-CoTを高レベルな感情指示として扱い，対話生成モデル (Talker) を誘導することで，感情の正確な表現を実現する。
- EmoOmni-7Bは，同じ対話生成モデルを使用した場合，Qwen3Omni-30B-A3B-Thinkingと同等の性能を達成する。
- 研究では，実世界の注釈付き対話データを収集するためのEmoOmniPipeと，マルチモーダル感情対話タスクの体系的な評価を可能にするEmoOmniEvalを構築した。
Link: https://arxiv.org/abs/2602.21900
RobustVisRAG：視覚的劣化に対する因果性認識型ビジョンベース検索拡張生成 [cs.CV]目的：視覚的劣化下における，因果性に基づいたビジョンベース検索拡張生成のロバスト性向上
- 画像とテキストを組み合わせたAI技術は，様々な応用分野で重要な役割を担っている。
- 視覚入力に劣化（ぼかし，ノイズ等）がある場合，既存モデルの性能が大幅に低下する。
- 劣化要因と意味情報を分離し，ロバストな視覚情報処理を実現することを目指す。
- RobustVisRAGは，劣化信号を捉える非因果経路と，精製された意味を学習する因果経路を組み合わせることで，ロバスト性を向上させる。
- Distortion-VisRAGデータセットを用いて評価した結果，実世界の劣化画像において検索，生成，エンドツーエンド性能がそれぞれ7.35%，6.35%，12.40%向上した。
- クリーンな画像に対する精度を維持しつつ，現実的な視覚劣化条件下での性能を向上させることに成功した。
Link: https://arxiv.org/abs/2602.22013
WISER：より広範な検索，より深い思考，そして適応的な融合による学習不要なゼロショット複合画像検索 [cs.CV]目的：複合画像検索における，参照画像と修正テキストからなるマルチモーダルクエリに対する画像検索
- 画像検索の分野では，テキストと画像の情報を組み合わせて検索精度を向上させることが重要である。
- 従来の画像検索手法は，テキスト情報や画像情報のいずれか一方に変換するため，詳細な視覚情報や複雑な意味的修正が課題となっていた。
- テキストと画像の双方の利点を活かし，多様なクエリに対応できる，学習不要な画像検索フレームワークを開発すること。
- 提案手法WISERは，「検索-検証-改良」パイプラインを通じて，テキスト画像検索と画像画像検索を統合することで，既存手法を大きく上回る性能を達成した。
- CIRCOにおいてmAP@5が45%，CIRRにおいてRecall@1が57%と，既存の学習不要な手法と比較して相対的な改善が見られた。
- 学習済みの手法をも上回る結果が得られており，多様なシナリオにおける汎用性と優位性が示された。
Link: https://arxiv.org/abs/2602.23029
PackUV：4DボリュームビデオのためのパッキングされたガウスUVマップ [cs.CV]目的：4Dボリュームビデオのコンパクトな画像ネイティブな保存方式
- ボリュームビデオは没入感のある体験を提供するが，大規模な再構成，保存，ストリーミングが困難である
- 既存のガウススプラッティング法は長尺シーケンス，時間的不整合性，大きな動きやオクルージョンに弱い
- 標準的なビデオコーデックとの互換性を保ちつつ，高品質なボリュームビデオのストリーミングを可能とする
- PackUVは，すべてのガウス属性を構造化された多スケールUVアトラスにマッピングすることで，コンパクトな保存を実現する。
- PackUV-GSは，UVドメインでガウスパラメータを直接最適化する時間的に一貫性のあるフィッティング方法である。
- PackUV-2Bは，100のシーケンスと20億フレームを含む，最大規模のマルチビュービデオデータセットである。
Link: https://arxiv.org/abs/2602.23040
強化学習による高解像度大規模マルチモーダルモデルのためのアノテーションフリーな視覚的推論 [cs.CV]目的：高解像度画像入力における視覚的推論能力の向上
- 大規模マルチモーダルモデルの発展は，画像とテキスト間の複雑な関係性を理解する上で不可欠である。
- 高解像度画像処理において，計算コストと冗長な情報がボトルネックとなっている。
- アノテーションに依存せず，モデル自身が重要な領域を特定し検証する手法を確立すること。
- 提案手法HARTは，外部のアノテーションなしで高解像度画像の重要領域を正確に特定する。
- HARTは，説明可能な推論経路を提供し，効率的な局所化最適化を実現する。
- MME-RealWorld-Lite等の複数のベンチマークにおいて，既存手法を上回る性能を示す。
Link: https://arxiv.org/abs/2602.23615
自己注意機構を超えて無限へ：無限自己注意を用いた線形Transformer [cs.CV]目的：高解像度画像におけるTransformerのスケーラビリティ向上
- Transformerは画像認識等で高い性能を示すが，計算コストが課題となっている。
- 自己注意機構の計算量は系列長の二乗に比例し，高解像度画像では計算コストが膨大となる。
- 自己注意機構を線形時間で近似し，高解像度画像に対応可能なTransformerを開発する。
- Infinite Self-Attention（InfSA）は，注意層をコンテンツ適応的なトークングラフ上の拡散ステップとして捉え，多段の相互作用をNeumann級数で蓄積する。
- Linear-InfSAは，注意演算子の主要な固有ベクトルを直接計算することで，計算量を線形に削減し，ViTとの互換性を維持する。
- Linear-InfSAはImageNet-1Kで84.7%のtop-1精度を達成し，ImageNet-V2でも既存手法を上回るロバスト性を示し，エネルギー効率も向上する。
Link: https://arxiv.org/abs/2603.00175
制約なし同一性維持ビデオ生成：WildActor [cs.CV]目的：制約のない環境下における，同一性を維持した人物ビデオ生成
- リアリティのある人物ビデオ生成は，エンターテイメントやコミュニケーションにおいて不可欠である。
- 既存手法では，全身の一貫性維持が難しく，顔中心になりがち，または不自然な継ぎ目が生じる。
- 多様な視点と動きの中で，人物の同一性を維持するビデオ生成技術を確立すること。
- 提案手法WildActorは，大規模データセットActor-18Mを活用し，全身の同一性を高精度に維持できる。
- アシンメトリック同一性維持注意機構と，視点適応モンテカルロサンプリング戦略により，多様な条件をバランス良く考慮する。
- Actor-Benchを用いた評価で，既存手法を大きく上回り，複雑な条件下でも優れた性能を示す。
Link: https://arxiv.org/abs/2603.00586
視覚処理の評価は指標中心ではなく人間中心であるべき [cs.CV]目的：現代の視覚処理システムの評価方法に関する議論
- 視覚処理技術は，画像生成や知覚に基づいた手法の発展により重要性が増している。
- 客観的な評価指標は再現性や拡張性に優れる一方，人間の知覚や好みに乖離が生じている。
- 評価指標に偏重した研究が，技術革新を阻害し，研究の方向性を誤らせる可能性を解消する。
- 客観的指標に加えて，人間中心で文脈を考慮した，より詳細な評価パラダイムへの転換を提唱する。
- 画像修復の例を挙げ，客観指標と人間の知覚との乖離が，技術開発に悪影響を及ぼすリスクを指摘する。
- 視覚モデルの成果を評価する上で，指標だけでなく，人間の主観的な評価を重視する必要性を訴える。
Link: https://arxiv.org/abs/2603.00643
アテンションヘッドの役割分解による詳細なVLM適応：DeAR [cs.HC, cs.CV]目的：ビジョン言語モデルの適応
- 大規模言語モデルと画像認識を組み合わせたVLMは，多様なタスクで高い性能を発揮する。
- 従来の適応手法は，層ごとの単純な視点に頼り，汎化能力の低下を招く可能性がある。
- アテンションヘッドの役割を分解し，タスク固有の知識が汎化能力に影響を与えないようにすること。
- DeARは，アテンションヘッドの役割を「属性」「汎化」「混合」の3種類に分類する新しい指標「コンセプトエントロピー」を導入した。
- 役割に基づいたアテンションマスクと属性トークンにより，タスク固有の情報フローを制御し，汎化能力の維持を実現した。
- 15のデータセットでの実験結果から，DeARはタスク適応と汎化能力のバランスに優れていることが示された。
Link: https://arxiv.org/abs/2603.01111
部分観測下における対戦相手の状態推論：2026年フォーミュラ1エネルギー戦略のためのHMM-POMDPフレームワーク [cs.AI, cs.GT, cs.LG, cs.SY, eess.SY]目的：対戦相手のERS充電レベル，オーバーライドモードの状態，タイヤの劣化状態の推論
- フォーミュラ1のエネルギー戦略は，車両性能に大きく影響し，競技における優位性を得る鍵となる。
- 対戦相手の隠れた状態を考慮した戦略は複雑であり，既存の単一エージェント最適化手法では解決が困難である。
- 対戦相手の状態を正確に推論し，それに基づいた最適なエネルギー配分戦略を決定することを目指す。
- 隠れマルコフモデル（HMM）を用いて，対戦相手のERS充電レベル等の状態を高い精度で推論することに成功した。
- HMMは，5つの公開テレメトリー信号から，92.3%のERS推論精度を達成した（ランダムベースライン：33.3%）。
- 対戦相手の欺瞞的な戦略である「カウンターハーベストトラップ」の検出には，状態信念推論が不可欠であることを示した。
Link: https://arxiv.org/abs/2603.01290
MSP-ReID：髪型に強い服装変化人再識別 [cs.CV]目的：服装変化人再識別における髪型による影響軽減と構造情報の保持
- 監視カメラなどにおける人物の追跡は，セキュリティやマーケティングにおいて重要である。
- 服装の変化によって人物を正確に識別することが困難であるという課題がある。
- 髪型の変化に強い，よりロバストな人物再識別手法の開発を目指す。
- 提案手法MSPは，髪型に着目したデータ拡張と服装を保持したランダム消去により，髪型の変動の影響を軽減する。
- 領域ベースのパース注意機構を用いることで，顔や手足など重要な領域に注意を向け，髪型の特徴への依存を抑制する。
- 複数のベンチマークにおいて，MSPは最先端の性能を達成し，実用的な人物再識別ソリューションとなる。
Link: https://arxiv.org/abs/2603.01640
低ランクデコーダ適応による深度補完の効率的なテスト時最適化 [cs.CV]目的：深度補完におけるテスト時最適化の効率化
- 環境適応能力が求められるロボティクスや自動運転等の分野で，深度情報の精度向上は重要である。
- 既存手法は計算コストが高く，リアルタイム処理が困難であり，実用上の課題となっている。
- デコーダのみを適応させることで，計算コストを削減し，効率的なテスト時最適化を実現する。
- 本研究では，深度情報が低次元デコーダ空間に集約される点に着目し，スパースな深度情報を利用した軽量な適応手法を提案した。
- 提案手法は，既存手法と比較して，精度と効率性の両面で優れた性能を発揮し，新たなトレードオフの境界を確立した。
- 5つの屋内および屋外データセットにおける実験により，高速なゼロショット深度補完の有用性が実証された。
Link: https://arxiv.org/abs/2603.01765
π-StepNFT：フローベースVLAにおけるオンラインRLでの探索空間拡大に伴うステップサイズの微調整 [cs.CL, cs.RO, cs.CV]目的：フローベースVLAにおけるオンライン強化学習の効率化
- ロボットの自律的な行動計画において，視覚，言語，行動を統合的に理解するVLAモデルの重要性が高まっている。
- 従来のVLAモデルは，多段階サンプリングの計算コストが高く，オンライン強化学習での実用性が課題であった。
- 本研究は，計算コストを抑えつつ，広範な探索空間における強化学習の性能向上を目指す。
- 提案手法π-StepNFTは，価値関数や補助的なネットワークを必要とせず，単一のフォワードパスで最適化を実現する。
- LIBERO環境において，少数のサンプルで高いロバスト性を発揮し，既存手法との比較で競争力のある性能を示した。
- ManiSkill環境では，汎化性能が向上し，分布外の状況下で価値ベースラインを上回る成果が得られた。
Link: https://arxiv.org/abs/2603.02083
ロバストな声門領域波形抽出と臨床的病理学的評価のための検出ゲートパイプライン [cs.CV, cs.AI, cs.LG]目的：声門領域波形の抽出と臨床的病理学的評価
- 高速度ビデオ内視鏡は，声帯機能の運動学的バイオマーカー抽出に不可欠であり，臨床診断の精度向上に寄与する。
- 既存の深層学習モデルは，非声門領域での誤検出や，臨床環境への汎化性能の低さが課題となっている。
- 異なるデータセット間での汎化性能を高め，臨床現場でのリアルタイムな利用を可能にすること。
- 提案手法は，GIRAFEとBAGLSのベンチマークにおいて最先端の性能を達成し，優れた汎化性能を示した。
- 臨床データを用いた検証により，自動抽出された声門開閉比と声門領域波形が臨床基準と一致することが確認された。
- 声門面積の変動係数は，正常な声帯機能と病的な声帯機能の識別における有意な指標となった (p=0.006)。
Link: https://arxiv.org/abs/2603.02087
ブルーベリー収穫に向けたロボット認識のためのDINOv3ビジュアル表現 [cs.CV]目的：ブルーベリーのロボット収穫に関連する視覚タスクにおけるDINOv3の性能評価
- 農業分野における自動化ニーズの高まりから，ロボットによる効率的な収穫技術が求められている。
- 大規模データでの学習済みモデルの農業環境への適用可能性や性能限界は，十分に解明されていない。
- DINOv3を基盤として，ブルーベリーの収穫を支援する視覚システムの効果的な構築方法を模索する。
- DINOv3は，ブルーベリーの果実や傷のセグメンテーションにおいて，安定した特徴表現により一貫して性能向上を示す。
- 一方，検出タスクでは，対象物のサイズ変化や位置のずれが課題となり，性能が制限される。
- 特に，果実のクラスター検出の失敗は，空間的な集約構造を捉える能力の限界を示唆している。
Link: https://arxiv.org/abs/2603.02419
ゲート付き差分線形注意：高精度な医療画像セグメンテーションのための線形時間デコーダ [eess.SY, cs.SY, cs.MA, cs.CV]目的：高精度な医療画像セグメンテーションを実現する線形時間デコーダ
- 医療画像セグメンテーションは，臨床応用において高精度と効率性が求められる分野である。
- Transformerは長距離依存関係を捉えるが，計算コストが高く，大量のデータが必要となる。
- 線形注意の不安定性と注意力の拡散を抑制し，高精度なセグメンテーションを可能にする。
- 提案手法PVT-GDLAは，CT，MRI，超音波，皮膚鏡検査のベンチマークにおいて最先端の精度を達成した。
- パラメータ数は既存手法と同程度でありながら，FLOPsは低く抑えられている。
- 臨床環境やリソースの限られた環境での高速かつスケーラブルな高精度な医療画像セグメンテーションを可能にする。
Link: https://arxiv.org/abs/2603.02727