arXiv雑要約

画像・音声 - 2026/03/26 公開

SynMVCrowd：マルチビュー群衆数と位置特定のための大規模合成ベンチマーク [cs.CV]目的：マルチビュー群衆数と位置特定の評価・比較のための大規模合成ベンチマーク
- 群衆数・カメラ数・フレーム数の少ないデータセットでは，実用的な評価が困難である。
- 既存手法は小規模データセットに過学習しやすく，汎化性能の評価が難しい。
- 大規模シーンにおける群衆数と位置特定タスクに適したベンチマークを構築し，評価を可能にすること。
- SynMVCrowdは，50の合成シーン，多数のマルチビューフレーム，最大1000人の群衆を含む大規模なベンチマークである。
- 提案手法は，SynMVCrowdベンチマークにおいて比較対象手法を上回る性能を示した。
- 本ベンチマークを活用することで，マルチビューおよび単一画像群衆数・位置特定性能の向上が期待できる。
Link: https://arxiv.org/abs/2603.23956
PointRFT：点群Few-shot学習のための明示的な強化学習ファインチューニング [cs.CV]目的：点群表現学習における強化学習ファインチューニングのパラダイム
- 3次元空間の理解は，包括的な3D認識に不可欠である。近年，その重要性が増している。
- 点群データに対するファインチューニング手法は，データ不足時に性能が低下しやすい。
- 強化学習を用いて点群データの表現能力を向上させ，Few-shot学習における性能を改善する。
- PointRFTは，既存の点群ファインチューニング手法と比較して，一貫して高い性能を示す。
- 精度報酬と分散報酬の設計により，学習の安定化と分布シフトの軽減に貢献する。
- Pretraining-SFT-RFTのハイブリッドパラダイムに組み込むことで，点群基礎モデルの表現能力を大幅に向上させる。
Link: https://arxiv.org/abs/2603.23957
石を動かさず: 包括的なオーディオビジュアル内在的整合性によるディープフェイク検出 [cs.CV]目的：ディープフェイク検出のための包括的なオーディオビジュアル内在的整合性
- 生成AIの急速な発展により，現実と区別がつかないディープフェイクが生成され，個人の安全と社会の信頼が脅かされている。
- 既存の検出器は，単一のモダリティのアーティファクトやオーディオビジュアルの不一致に依存しており，両方の情報源を統合できていない。
- オーディオビジュアルの内在的整合性に着目し，汎用性の高いディープフェイク検出を目指す。
- 提案手法HAVICは，まず認証済み動画でモダリティ固有の構造的整合性，およびモダリティ間の微視的・巨視的整合性の事前知識を学習する。
- 次に，学習した事前知識に基づいて，オーディオビジュアル特徴を動的に融合し，ディープフェイクを検出する。
- 複数のベンチマークにおいて，HAVICは既存手法を大幅に上回り，最も困難なクロスデータセットシナリオでAPが9.39%，AUCが9.37%向上した。
Link: https://arxiv.org/abs/2603.23960
深海冷湧出帯段階推論のための知識強化小データ学習：GRMLR [cs.LG, cs.CV]目的：深海冷湧出帯段階の推論
- 深海生態系の理解は，地球規模の物質循環や生物多様性の維持に不可欠である。
- 深海におけるデータ収集は困難であり，十分なデータ量を得ることが課題である。
- 小規模データセットでも高精度な段階推論を可能にする手法の開発。
- 本研究で提案するGRMLRは，既存の分類手法と比較して有意に高い性能を示した。
- GRMLRは，生態学的知識グラフを活用することで，過学習を抑制し，生物学的に整合性の高い分類を実現する。
- マクロ生物の観察を必要とせず，微生物の存在量データのみで推論が可能となる。
Link: https://arxiv.org/abs/2603.23961
価格逆転現象：より安価な推論モデルが結果的に高コストになる場合 [cs.CL, cs.AI, cs.GT, cs.LG, cs.MA]目的：推論言語モデルの価格と実際の推論コストの乖離
- 推論言語モデルの利用拡大に伴い，コスト効率が重要課題となっている。
- API価格だけでは，実際の推論コストを正確に把握できないという問題がある。
- API価格と実際のコストの乖離を明らかにし，コストを考慮したモデル選択を促す。
- 8つの最先端推論言語モデルを評価した結果，価格が低いモデルがより高いコストを伴う「価格逆転現象」が21.8%のモデル対比較で確認された。
- この現象の主な原因は，モデル間の「思考トークン」消費量の大きな違いであり，同じクエリでも最大900%の差が生じた。
- 思考トークンコストを除去することで，価格逆転の発生率を70%削減でき，価格とコストのランキング相関も向上した。
Link: https://arxiv.org/abs/2603.23971
SLAT-Phys: 構造化3D潜在的特徴からの高速な材料特性場予測 [cs.CL, cs.IR, cs.CV, cs.GR, cs.RO]目的：3Dアセットの材料特性場の推定
- 物理シミュレーション，ロボティクス，デジタルツイン生成において，材料特性の正確な推定が不可欠である。
- 既存手法は，計算コストが高いか，3D情報に依存しているため，リアルタイム処理が困難である。
- 単一のRGB画像から，明示的な3D再構成なしに，材料特性場を高速かつ正確に推定することを目指す。
- SLAT-Physは，事前学習済みの3Dアセット生成モデルからの空間的に組織化された潜在的特徴を活用し，ヤング率，密度，ポアソン比を推定する軽量なニューラルデコーダを訓練する。
- 実験により，本手法は既存手法と比較して同等の精度を達成しつつ，計算時間を大幅に短縮できることが示された。
- 特に，NVIDIA RTXA5000 GPU上で1オブジェクトあたり9.9秒で処理可能であり，従来手法の120倍の速度向上を達成した。
Link: https://arxiv.org/abs/2603.23973
HyDRA：異種協調知覚のためのハイブリッドドメイン認識ロバストアーキテクチャ [cs.CV]目的：異種環境下における協調知覚のロバスト性向上
- 自動運転やロボット工学において，複数のエージェントが協調することで，より高度な環境認識が可能となる。
- モデル構造や学習データ分布の違いから生じる異種性により，協調知覚の性能が低下することが課題である。
- 異種性に対応し，追加学習なしに協調エージェント数を増やしても性能を維持することを目指す。
- 提案手法HyDRAは，中間融合と後期融合をドメイン認識フレームワークに統合することで，異種環境下でも高性能を達成する。
- 軽量なドメイン分類器により，異種エージェントを識別し，後期融合ブランチに動的に割り当てることで，ロバスト性を向上させる。
- アンカーガイド付きポーズグラフ最適化により，後期融合固有の位置誤差を軽減し，信頼性の高い検出結果を活用する。
Link: https://arxiv.org/abs/2603.23975
SilLang：シルエット言語符号化による歩行者認識の性能向上 [cs.CV]目的：歩行者認識におけるシルエット言語符号化手法
- 歩行者認識は，監視システム等における重要な識別技術であり，高い認識精度が求められている。
- 従来の歩行者認識手法は，連続的な視覚特徴に焦点を当てており，シルエットの持つ離散的な情報を十分に活用できていない。
- 本研究は，シルエットと自然言語の符号化空間のずれを解消し，言語モデルの能力を歩行者認識に活用することを目指す。
- 提案手法SilLangは，既存の歩行者認識モデルに組み込むことで，SUSTech1K，GREW，Gait3Dといった主要なデータセットにおいて，最先端の性能を安定的に向上させる。
- Contour-Velocity Tokenizerを用いることで，シルエットの分布をテキストトークンの分布に近づけ，言語モデルとの適合性を高めている。
- シルエットと自然言語を統合した二分岐フレームワークにより，視覚的なシルエット情報を言語的な埋め込み表現で強化している。
Link: https://arxiv.org/abs/2603.23976
CAKE：モーション蒸留と背景認識対比学習によるリアルタイムアクション検出 [cs.CV]目的：リアルタイムアクション検出のための手法
- 動画解析において，アクション検出は重要なタスクであり，様々な応用が期待される。
- リアルタイム処理の制約と，背景の動きによる誤検出が課題となっている。
- 計算コストを抑えつつ，背景動きにロバストなアクション検出を実現する。
- 提案手法CAKEは，RGBモデルにモーション情報を蒸留することで，高い性能を達成した。
- 動的モーションアダプタ(DMA)により，背景ノイズを抑制し，動きの変化を強調することが可能となった。
- 複数のデータセットで，最先端手法と同等以上のmAPを，高速な処理速度(72FPS以上)で実現した。
Link: https://arxiv.org/abs/2603.23988
非キャリブレーション画像からのロバストかつ柔軟な3Dハンドメッシュ再構成 [cs.CV]目的：非キャリブレーション画像からの3Dハンドメッシュとカメラ姿勢の同時推定
- ロボティクス，アニメーション，VR/ARなど，多様な分野で3Dハンド形状の復元が重要である。
- 単一視点からの手法は曖昧性やオクルージョンに弱く，複数視点ではキャリブレーションが困難である。
- キャリブレーション不要で，大規模な画像データや低スペックカメラでも利用可能な手法を開発する。
- 提案手法は，既存の最先端手法よりも優れた性能を示すことが実証された。
- 非キャリブレーション環境や実環境データに対する汎化性能が高いことが確認された。
- 視覚的情報と幾何学的情報を同時に学習する新しいアプローチを提案した。
Link: https://arxiv.org/abs/2603.23997
光学リモートセンシング画像における道路抽出のためのデュアルブランチSwin Transformerネットワーク [cs.CL, cs.CV]目的：光学リモートセンシング画像からの道路抽出
- 都市計画，交通監視，災害管理など，様々な応用において，高精度な道路抽出の重要性が増している。
- 道路は，樹木や建物に遮蔽されやすく，断片化された構造になりがちで，抽出精度が低下するという課題がある。
- 遮蔽された道路セグメントの表現を強化し，より高精度な道路抽出を実現することを目的とする。
- 提案手法DB SwinTは，Swin Transformerの長距離依存性モデリング能力とU-Netのマルチスケール特徴融合戦略を組み合わせている。
- DB SwinTは，MassachusettsデータセットでIoUスコア79.35%，DeepGlobeデータセットで74.84%を達成し，その有効性を示した。
- デュアルブランチエンコーダにより，局所的およびグローバルな表現を学習し，遮蔽された領域における道路構造の詳細を復元する。
Link: https://arxiv.org/abs/2603.24005
水中ビデオ物体セグメンテーションのための大規模データセットUW-VOS [cs.CV]目的：水中ビデオ物体セグメンテーションのための大規模ベンチマークデータセットと，それを用いた適応的フレームワーク
- 海洋探査において，水中環境での物体認識は重要であり，その精度向上が求められている。
- 既存の画像処理手法は，水中での色調変化や低いコントラスト，カモフラージュにより性能が低下しやすい。
- 高品質な学習データの不足が課題であり，本研究では大規模データセットを構築することでこれを解決する。
- UW-VOSは，409カテゴリー，309,295枚のアノテーションを含む1,431本の水中ビデオシーケンスからなる大規模データセットである。
- SAM-Uは，SAM2を水中環境に適応させるための軽量なアダプターを用いた効率的なフレームワークであり，わずか2%の学習パラメータで最先端の性能を達成した。
- 実験の結果，既存手法はUW-VOSにおいて平均13ポイントの性能低下が見られたが，SAM-Uはドメインギャップを効果的に克服した。
Link: https://arxiv.org/abs/2603.24006
COVTrack++：連続動画からのオープンボキャブラリマルチオブジェクトトラッキングの学習における相乗的パラダイム [cs.CV, cs.LG]目的：オープンボキャブラリマルチオブジェクトトラッキングの実現
- 現実世界の多様な物体に対応するため，特定のカテゴリに限定されないトラッキング技術の重要性が高まっている。
- トレーニングデータにおける継続的なアノテーションの不足と，検出とアソシエーションを効果的に扱うフレームワークの欠如が課題となっていた。
- 継続的にアノテーションされたデータセットを構築し，検出とアソシエーションを相乗的に扱うフレームワークを提案することで，課題解決を目指す。
- 新たに構築したC-TAOデータセットは，TAOと比較してアノテーション密度を26倍に向上させ，滑らかな動きと中間的な物体状態を捉えている。
- COVTrack++は，検出とアソシエーション間の双方向の相互メカニズムを実現する相乗的フレームワークであり，TAOデータセットで最先端の性能を発揮する。
- TETAにおいて，検証セットとテストセットでそれぞれ35.4%と30.5%を達成し，既存手法を4.8%（novel AssocA）および5.8%（novel LocA）上回る性能を示した。
Link: https://arxiv.org/abs/2603.24016
分解と転送：CoTプロンプティングによるオープンボキャブラリ時系列行動検出の精度向上 [cs.CV, cs.MM]目的：オープンボキャブラリ時系列行動検出における精度向上
- 動画理解の分野において，未知のカテゴリに対する行動検出は重要な課題である。
- 既存手法はラベルレベルでの大まかな対応に頼るため，時系列の一貫した視覚的知識の転送が不十分である。
- 本研究では，段階的な分解と対応により，未知の行動に対する汎化性能の向上を目指す。
- CoTプロンプティングを用いた意味的分解モジュール（CSD）により，行動ラベルをコヒーレントな段階レベルの説明に自動的に分解する。
- Text-infused Foreground Filtering（TIF）モジュールにより，段階ごとの意味的手がかりを用いて行動に関連するセグメントを適応的にフィルタリングする。
- Adaptive Phase-wise Alignment（APA）モジュールにより，段階レベルでの視覚-テキストのマッチングを行い，段階間の結果を適応的に集約することで，汎化性能を向上させている。
Link: https://arxiv.org/abs/2603.24030
スペクトルスプラット：スペクトルモーメントによるロバストな微分可能トラッキング [cs.CV]目的：3Dガウススプラッティングを用いたロバストな微分可能トラッキング手法
- リアルタイムなフォトリアリスティックな新規視点合成が求められており，3DGSはその有望な表現である。
- 3DGSの微分可能性を実際の環境で活用するには，頑健性に課題がある。ガウス素子の局所的なサポートがボトルネックとなっている。
- スペクトル領域での最適化により，勾配消失問題を解決し，ロバストなトラッキングを実現する。
- 本研究では，スペクトルモーメントによる教師あり学習によって，画像全体に有効な勾配を確保する手法を提案した。
- 提案手法は，周波数減衰スケジュールを用いることで，高周波成分による局所的な最小値の問題を回避している。
- 様々な変形パラメータ表現において，従来の空間損失の代替としてシームレスに利用でき，大規模な初期位置ずれにもロバストに機能する。
Link: https://arxiv.org/abs/2603.24036
A^3：広告の美的評価へ向けて [cs.CV]目的：広告の美的評価のための包括的なフレームワーク
- 広告画像は売上やブランドイメージに大きく影響する。客観的な評価手法が求められている。
- 従来の評価は主観的で，汎用性，標準化された基準，解釈可能性に課題があった。
- 広告の美的側面を定量的に評価し，客観的な基準を確立することを目的とする。
- A^3は，A^3-Law（評価パラダイム），A^3-Dataset（データセット），A^3-Align（多Modal大規模言語モデル），A^3-Bench（ベンチマーク）の4要素から構成される。
- A^3-Alignは，既存モデルと比較してA^3-Lawとの整合性が高く，広告選定や批評においても優れた性能を示した。
- 本研究の成果は，広告業界におけるより客観的で効果的な広告評価に貢献する可能性を秘めている。
Link: https://arxiv.org/abs/2603.24037
意味を考慮した生成分割と抽象アイコンのレイヤー構築：SemLayer [cs.CV, cs.GR, cs.HC]目的：抽象アイコンの編集可能なレイヤー構造の復元
- 現代のデザインワークフローにおいて，グラフィックアイコンは不可欠である。しかし，意味構造が失われたまま配布されることが多い。
- フラット化されたアイコンは，編集，再スタイル化，アニメーションといった後続のタスクを困難にする。
- SemLayerは，フラット化されたベクターアートから意味に基づいたレイヤー構造を復元することで，この問題を解決する。
- SemLayerは，抽象アイコンを色分けされた表現に変換し，意味のあるコンポーネントを分離する。
- 隠れた領域を含む各部分の完全な形状を再構築するために，意味的補完のステップを実行する。
- 復元された各要素を組み立て，オクルージョン関係を推測したレイヤー化されたベクター表現を生成する。
Link: https://arxiv.org/abs/2603.24039
拡散モデルにおける異種注意モジュールによる学習不要なスタイル変換手法：HAM [cs.CV]目的：拡散モデルを用いたスタイル変換におけるスタイルとコンテンツのバランス問題の解決
- 画像生成技術は近年飛躍的に進歩しており，様々な応用が期待されている。
- 既存のスタイル変換手法では，複雑なスタイル表現の獲得やコンテンツの保持が課題となっている。
- 本研究は，学習を必要とせず，コンテンツ情報を保護しながら高品質なスタイル変換を実現する。
- 提案手法HAMは，拡散過程において異種注意モジュール（GAR，LAT）を導入することで，コンテンツの詳細を保持しつつ複雑なスタイルを捉える。
- スタイルノイズ初期化により，拡散過程の初期状態をスタイルに適合させ，より効果的なスタイル変換を可能にする。
- 実験結果から，提案手法が複数の定量評価指標において最先端の性能を達成することが示された。
Link: https://arxiv.org/abs/2603.24043
LGEST：ハイパースペクトル画像分類のための動的空間-スペクトル専門家ルーティング [cs.CV]目的：ハイパースペクトル画像分類のための新たなフレームワーク
- ハイパースペクトル画像は，地表の物質を詳細に識別可能であり，精密農業や環境モニタリング等への応用が期待されている。
- 既存手法では，局所的特徴と大域的特徴の統合が不十分であり，高次元データの Hughes現象に弱く，精度の向上が課題である。
- 多規模特徴の動的な融合と専門家ネットワークによる，高精度なハイパースペクトル画像分類を実現することを目指す。
- 提案手法LGESTは，深層空間-スペクトルオートエンコーダを用いて，高次元空間における情報損失を抑制しつつ，識別可能な特徴量を抽出する。
- CIEM-FPNにより，スペクトルの識別性と空間的な重要度を学習可能なゲート関数で適応的に重み付けし，多規模特徴を動的に融合する。
- LGESは，畳み込みサブエキスパートとTransformerサブエキスパートを特徴量に応じて動的に選択し，局所的特徴と長距離依存関係を効果的に捉える。
Link: https://arxiv.org/abs/2603.24045
意味的先験的知識を超えて：汎用性のある視覚フォレンジックのための最適化崩壊の軽減 [cs.CV]目的：汎用的な視覚フォレンジックにおける最適化崩壊の軽減
- デジタルフォレンジックの重要性は，偽造画像や動画の検出・識別により，社会における信頼性を維持すること。
- 従来の深層学習モデルは，意味的な特徴に偏りがちで，現実的な偽造における非意味的なアーティファクトの検出が困難。
- 最適化崩壊の原因を特定し，汎用的なフォレンジック検出性能を向上させるための手法を開発すること。
- 本研究では，Sharpness-Aware Minimization (SAM)を用いた学習において，最適化崩壊という現象を特定し，その原因を理論的に解明した。
- 最適化崩壊は，最適化ランドスケープの幾何学的安定性と，モデルの汎化能力の低下が関連していることが示された。
- Contrastive Regional Injection Transformer (CoRIT)という新しい手法を提案し，様々なベンチマークにおいて最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.24057
注意の不均衡修正によるLVLMにおける物体幻覚の軽減 [cs.CV, cs.AI]目的：大規模ビジョン言語モデルにおける物体幻覚の軽減
- 実世界での応用において，LVLMの信頼性は重要であり，特に自動運転や医療画像解析などの分野では不可欠である。
- LVLMは物体幻覚を起こしやすく，その原因はモダリティ間およびモダリティ内における注意の不均衡にある。
- 注意の不均衡を定量化・可視化し，注意重みの再分配によって物体幻覚を抑制することを目指す。
- 提案手法AIRは，既存手法と比較して最大35.1%の物体幻覚発生率の低減を達成した。
- AIRは，様々な視覚言語タスクにおいてLVLMの汎用的な能力を最大15.9%向上させた。
- AIRは，デコーディング時に注意重みを再分配し，モダリティ間およびトークン間の不均衡を修正する軽量な介入手法である。
Link: https://arxiv.org/abs/2603.24058
AD-Reasoning：アルツハイマー病診断のためのマルチモーダルガイダンスに基づく推論 [cs.CV]目的：アルツハイマー病診断のためのマルチモーダル推論フレームワーク
- アルツハイマー病は高齢化社会において深刻な問題であり，早期診断が重要である。
- 既存のマルチモーダルモデルは，診断根拠が不透明で，診断ガイドラインとの整合性が低い。
- 診断ガイドラインに沿った，透明性の高い推論プロセスによる診断支援を目指す。
- AD-Reasoningは，構造的MRIと6つの臨床モダリティを統合し，NIA-AA基準に適合した診断を生成する。
- AD-MultiSenseという，ガイドライン検証済みの根拠を含むマルチモーダルQAデータセットを公開した。
- AD-MultiSenseにおいて，最先端の診断精度を達成し，診断根拠の透明性を向上させた。
Link: https://arxiv.org/abs/2603.24059
PosterIQ：ポスター理解と生成のためのデザイン視点ベンチマーク [cs.CV]目的：ポスター理解と生成のためのデザイン視点ベンチマーク
- 視覚デザインの認知科学と生成モデルの発展には，デザイン原則に基づいた評価基準が不可欠である。
- 既存のベンチマークは，ポスターのデザイン特有の要素（構成，タイポグラフィ，意図）を十分に考慮していない。
- デザインの認知と生成モデリングを結びつけ，ポスター理解・生成能力の評価と改善を目指す。
- PosterIQは，ポスターの構成構造，タイポグラフィ階層，意味的意図に関する7,765件のアノテーションと，822件の生成プロンプトを含む。
- 最先端のMLLMと拡散ベースのジェネレーターの評価の結果，視覚的階層，タイポグラフィの意味，注目度の制御，意図の伝達に課題が残ることが示された。
- PosterIQは定量的なベンチマークであると同時に，デザインに関する推論能力を診断するためのツールとなり得る。
Link: https://arxiv.org/abs/2603.24078
理解がリスクとなる時：新たな画像生成パラダイムにおける真正性と安全性に関するリスク [cs.CV, cs.AI, cs.CR]目的：マルチモーダル大規模言語モデルにおける安全性リスクの分析
- 画像生成技術は急速に進歩しており，社会への応用が拡大しているため，安全性確保が重要である。
- 拡散モデルと比較して，マルチモーダル大規模言語モデルは高度な理解力を持つが，安全性リスクが十分に認識されていない。
- マルチモーダル大規模言語モデルが抱える新たな安全性リスクを定量的に評価し，その課題を明確にすること。
- マルチモーダル大規模言語モデルは，拡散モデルよりも有害な画像を生成する傾向があることが複数のデータセットで確認された。
- 拡散モデルが抽象的なプロンプトを解釈できないのに対し，マルチモーダル大規模言語モデルは理解し，有害なコンテンツを生成するためである。
- マルチモーダル大規模言語モデルが生成した画像は，既存の偽画像検出器で識別することが困難であり，再学習しても回避される場合がある。
Link: https://arxiv.org/abs/2603.24079
トレーニング不要：初期ノイズ操作による光ガイド型テキスト-画像拡散モデル [cs.CV, cs.GR]目的：光の方向を指定したテキスト-画像生成
- 拡散モデルは高品質な画像生成が可能だが，照明制御は未解決の課題である。
- 既存手法は生成後の再照明処理が必要で効率が悪く，ファインチューニングも困難である。
- 拡散過程の初期ノイズを操作することで，ファインチューニングなしに照明制御を実現する。
- 提案手法は，プロンプトベースのベースラインと比較して，照明の一貫性が向上する。
- 画像品質とテキストとの整合性を維持しながら，きめ細かい照明制御が可能である。
- ControlNetのようなモデルとも統合でき，多様なシナリオへの適応性を示す。
Link: https://arxiv.org/abs/2603.24086
空間・時間変調による骨格ベースのアクションセグメンテーションのためのラグランジュ・ダイナミクス情報ネットワーク [eess.SY, cs.SY, cs.CV]目的：骨格ベースの時系列アクションセグメンテーションにおけるフレームレベルでのアクションカテゴリの解析
- 人間の行動理解は，ロボット工学やヒューマンコンピュータインタラクションなど，様々な分野で重要である。
- 既存手法は空間・時間的な運動を捉えるのが得意だが，人間の運動を支配する物理的ダイナミクスを無視している。
- 本研究は，物理ダイナミクスの統合により，アクションセグメンテーションの精度向上を目指す。
- 提案手法LaDyは，ラグランジュ力学の原理をセグメンテーションプロセスに組み込むことで，アクション間の識別能力を高める。
- エネルギー一貫性損失を導入することで，運動エネルギーの変化と正味の力の仕事の一致を保証し，物理的な整合性を実現する。
- 実験結果から，LaDyは最先端の性能を達成し，物理ダイナミクスの統合がアクションセグメンテーションに有効であることが示された。
Link: https://arxiv.org/abs/2603.24097
ドメイン汎化的な群衆数推定のための粒状球誘導安定潜在ドメイン発見 [cs.CV]目的：ドメイン汎化的な群衆数推定における，安定した潜在ドメインの発見
- 群衆数推定は，監視システムや都市計画において重要な役割を担う技術である。
- 単一のラベル付きソースドメインでは，多様な潜在ドメインが含まれており，テストデータとの分布のずれが課題となる。
- 潜在ドメインの安定的な発見と，ドメイン間の汎化性能向上を目指す。
- 本手法は，サンプルを粒状球に組織化し，球の中心をクラスタリングすることで，より安定した潜在ドメインを導出する。
- 潜在ドメインに基づき，セマンティックコードブック再エンコーディングとスタイル分岐学習により，特徴表現の汎化性能を高める。
- ShanghaiTech，UCF_QNRF，NWPU-Crowdデータセットにおいて，既存手法を大幅に上回る性能を実証した。
Link: https://arxiv.org/abs/2603.24106
OCT画像における2.5Dクロスコライザー特徴融合モジュールを用いた網膜層セグメンテーション [cs.CE, cs.CV]目的：緑内障評価のためのOCT画像における網膜層セグメンテーションの精度向上
- 緑内障の正確な診断と経過観察には，網膜層の正確なセグメンテーションが不可欠である。
- 従来の2Dセグメンテーション法では，隣接するBスキャン間の文脈情報が不足し，スライス間の不整合が生じやすい。
- スライス間の文脈情報を効率的に捉え，セグメンテーションの精度とロバスト性を向上させることを目指す。
- 提案手法は，CFFモジュールを組み込むことで，スライス間の特徴を融合し，文脈情報を効果的に捉えることに成功した。
- 臨床データセットとDUKE DMEデータセットを用いた評価において，平均絶対誤差を8.56%，二乗平均平方根誤差を13.92%それぞれ削減した。
- 提案手法は，文脈認識と計算効率のバランスを取り，自動緑内障評価への応用が期待される。
Link: https://arxiv.org/abs/2603.24115
説明可能な画像位置特定のための新しい多層アプローチ：Combi-CAM [cs.CV]目的：画像位置特定における説明可能性の向上
- 画像から地理位置を特定する技術は，地理情報サービスや災害時の状況把握に不可欠である。
- 深層学習モデルの予測根拠が不明確であり，信頼性や改善が課題となっている。
- 深層学習モデルの多層からの情報を統合し，予測根拠を明確化する。
- 本研究で提案するCombi-CAMは，ネットワークの複数の層からの情報を組み合わせることで，従来のGrad-CAMよりも詳細な説明を提供し，画像特徴量の寄与を明確にする。
- 実験結果から，Combi-CAMは，画像位置特定モデルの説明可能性を向上させることが示された。
- Combi-CAMを用いることで，モデルが画像のどの部分に基づいて位置を特定しているのか，より深く理解することが可能となる。
Link: https://arxiv.org/abs/2603.24117
リザーバーに基づくグラフ畳み込みネットワーク [cs.RO, cs.SY, eess.SY, cs.LG, cs.CV]目的：グラフ分類および生成のための新しいモデル
- グラフ構造データに対する機械学習の重要性が高まっており，その効率的な処理が求められている。
- 従来のGCNは，深層化による計算コスト増加や過剰平滑化といった課題を抱えている。
- リザーバーコンピューティングとグラフ畳み込みを統合し，効率的かつ高精度なグラフ処理を実現する。
- 提案手法RGC-Netは，グラフ分類タスクにおいて最先端の性能を達成した。
- RGC-Netは，動的な脳接続性の進化を生成する際の性能も優れている。
- RGC-Netは，従来のモデルと比較して収束が速く，過剰平滑化の影響を受けにくい。
Link: https://arxiv.org/abs/2603.24131
スペクトルスカルペル：周波数選択的フィルタリングによる隣接アクションの識別力増強を通じた骨格ベースのアクションセグメンテーション [cs.RO, cs.CV]目的：骨格ベースの時系列アクションセグメンテーションにおけるアクションの識別性とセグメンテーション境界の鮮明化
- 人間の行動認識は，ロボット工学，監視システム，ヒューマンコンピュータインタラクションなど，幅広い分野で重要である。
- 既存手法では，隣接するアクション間の空間的・時間的パターンの区別が不十分で，識別力と境界の鮮明さに課題がある。
- 隣接アクション間の共有周波数成分を抑制し，アクション固有の周波数を増幅することで，識別力を高め，境界を鮮明にすることを目指す。
- 提案手法Spectral Scalpelは，周波数選択的フィルタリングフレームワークにより，隣接アクション間の識別力を効果的に高める。
- 適応的なマルチスケールスペクトルフィルタと，隣接アクション間の差異損失を組み合わせることで，境界局在化の曖昧さとクラス間混同を軽減する。
- 5つの公開データセットを用いた実験により，最先端の性能が実証された。
Link: https://arxiv.org/abs/2603.24134
教師・生徒強化学習：ロバストなディープフェイク検出のための動的カリキュラム [cs.CV, cs.LG]目的：ディープフェイク検出のための動的カリキュラム最適化
- ディープフェイクは社会問題となっており，その検出技術の向上が急務である。
- 従来の教師あり学習では，全てのサンプルを均等に扱うため，汎化性能が低い場合がある。
- 本研究では，効率的な学習を促すカリキュラムを自動的に生成することを目指す。
- 提案手法は，訓練プロセスをマルコフ決定過程としてモデル化し，教師エージェントが学習を導く。
- 教師は，サンプルの損失に重みを付け動的にカリキュラムを調整し，生徒（ディープフェイク検出器）の性能向上を促す。
- 実験により，提案手法が未知の操作手法に対する汎化性能を向上させることが示された。
Link: https://arxiv.org/abs/2603.24139
意味を考慮した音声対話システムにおける割り込み検出：ベンチマーク，評価指標，モデル [cs.SD, eess.AS]目的：音声対話システムにおける意味を考慮した割り込み検出の改善
- 自然な対話型システムの実現には，双方向のコミュニケーションが不可欠であり，割り込み検出はその鍵となる技術である。
- 既存手法は，バックチャネルの誤検出や応答遅延といった課題を抱えており，実用的な性能が十分ではない。
- 実世界の対話データを用いたベンチマークと評価指標を確立し，割り込み検出の精度と応答性の両立を目指す。
- 実世界の対話データから構築されたSID-Benchという新しいベンチマークを提案した。
- 応答性と堅牢性のトレードオフを評価するためのAPT（Average Penalty Time）という評価指標を提案した。
- LLMベースの検出モデルを開発し，既存手法と比較してAPTを大幅に削減することに成功した。
Link: https://arxiv.org/abs/2603.24144
LightSplat：5秒で高速かつメモリ効率の良いオープンボキャブラリ3Dシーン理解 [cs.CV]目的：オープンボキャブラリ3Dシーン理解におけるセグメンテーションの高速化とメモリ効率の向上
- 3Dシーン理解は，ロボット工学や拡張現実など，多様な応用分野において不可欠な技術である。
- 既存手法は，最適化処理や高密度な特徴量割り当てにより，処理速度やメモリ消費量が大きいという課題があった。
- 本研究では，軽量なインデックス機構を用いて，高速かつメモリ効率の良い3Dシーン理解を実現することを目指す。
- LightSplatは，コンパクトなセマンティックインデックスを3D表現に注入することで，特徴量の最適化やストレージオーバーヘッドを削減する。
- LERF-OVS，ScanNet，DL3DV-OVSのデータセットにおいて，最先端の性能を達成し，最大で50〜400倍の高速化と64分の1のメモリ消費量を実現した。
- 単一ステップのクラスタリングにより，幾何学的および意味的に関連するマスクをリンクさせ，セマンティックの一貫性と効率的な推論を保証する。
Link: https://arxiv.org/abs/2603.24146
ポアソン逆問題に対する収束型プラグ・アンド・プレイMajorization-Minimizationアルゴリズム [cs.RO, cs.CV]目的：ポアソン逆問題に対する新規変分プラグ・アンド・プレイアルゴリズム
- 画像復元や信号処理において，ポアソン分布に従うノイズを含むデータからの逆問題は重要な課題である。
- 従来の復元手法は，ノイズレベルが高い場合や計算コストが大きいといった問題点が存在する。
- 本研究は，高ノイズ環境下においても有効な，収束性が保証された効率的な復元手法を開発することを目的とする。
- 提案手法は，事前学習済みのニューラルネットワークを利用した正則化項とKullback-Leiblerデータ忠実度項の和を最小化する。
- Majorization-Minimizationフレームワークを採用することで，定常点への収束が保証される。
- 数値実験の結果，中程度のノイズ下では最先端の性能を示し，高ノイズ下では特に優れた性能を発揮することが確認された。
Link: https://arxiv.org/abs/2603.24156
CarePilot：医療分野における長期的コンピュータタスク自動化のためのマルチエージェントフレームワーク [cs.CV]目的：医療分野における複雑なソフトウェアワークフローの自動化
- 医療現場の効率化と医療従事者の負担軽減は喫緊の課題である。
- 既存のAIシステムは短期的なタスクや汎用的な応用にとどまり，医療分野における長期的なワークフローの自動化は未解決である。
- 医療特有の複雑なワークフローに対応可能な，長期的タスク自動化フレームワークの構築を試みる。
- CarePilotは，アクター・クリティック法に基づくマルチエージェントフレームワークであり，長期的推論と多段階インタラクションを可能にする。
- CareFlowという高品質な医療ワークフローベンチマークを構築し，既存のビジョン言語モデルの課題を明らかにした。
- 提案手法CarePilotは，ベンチマークおよび分布外データセットにおいて，最先端の性能を達成し，既存のベースラインを大きく上回った。
Link: https://arxiv.org/abs/2603.24157
ヒューリスティックな推論事前知識が，データ効率的な参照対象検出を促進する [cs.CV]目的：データ効率的な参照対象検出の性能向上
- ロボティクス等，現実世界の応用ではラベル付きデータが不足することが多い。
- 既存の参照対象検出モデルはデータ豊富であることを前提としており，少ないデータでは性能が低下する。
- 参照表現に基づいた解釈可能な推論事前知識を導入し，データ効率を改善すること。
- 提案手法HeRODは，参照表現から得られるヒューリスティックな空間・意味的推論事前知識をDETRパイプラインの各段階に注入する。
- RefCOCO等のデータセットにおいて，少ないラベルデータ下で既存手法を上回る性能を示した。
- 解釈可能な推論事前知識の統合は，データ効率的な視覚言語理解への実用的な経路を提供する。
Link: https://arxiv.org/abs/2603.24166
プロンプト条件付けとヘッド選択によるLVLMのFew-Shot能力の解放 [cs.CV]目的：大規模ビジョン言語モデルにおけるFew-Shot分類性能の向上
- 画像認識は，コンピュータービジョンの基盤技術であり，多様な応用分野を支えている。
- 既存のLVLMは画像分類においてCLIPベースの手法に劣り，性能向上が課題となっている。
- LVLMの潜在的な能力を引き出し，CLIPとの性能差を埋めることを目指している。
- プロンプト条件付けにより，LVLMは画像特徴量の識別性を改善できることが示された。
- LVLM内部の注意ヘッドは，ゼロショットおよびFew-Shot分類においてモデル全体を上回る性能を示す。
- 提案手法であるHECは，12のデータセットにおいて最先端のFew-Shotおよびゼロショット分類性能を達成した。
Link: https://arxiv.org/abs/2603.24181
RefReward-SR：嗜好に合致した超解像のためのLR条件付き報酬モデリング [cs.CV]目的：嗜好に合致した超解像のための報酬モデル
- 超解像技術は画像リアリズムを向上させているが，評価・最適化手法と人間の知覚とのずれが課題となっている。
- 既存の評価指標は，画素位置のずれや視覚的にシャープだが不自然なアーティファクトを人間が好まない原因となっている。
- 低解像度画像を基準として，超解像画像の整合性と自然性を評価することで，人間知覚とのずれを解消することを目指す。
- 提案手法RefReward-SRは，低解像度画像を条件として，超解像画像の報酬を評価するモデルである。
- 大規模なLR条件付き比較データセットRefSR-18Kを構築し，大規模言語モデルをファインチューニングすることで，人間の判断との整合性を高めた。
- 実験の結果，提案手法は，意味的な整合性を維持しつつ，知覚的な妥当性と視覚的な自然性を向上させることを示した。
Link: https://arxiv.org/abs/2603.24198
強力な教師が重要である：視覚的事前知識強化によるテキスト誘導マルチビュー知識蒸留 [cs.CV, cs.AI]目的：知識蒸留による効率的な推論
- 大規模モデルの知識を小型モデルに転移する技術であり，計算資源の制約がある環境で重要である。
- 既存手法は蒸留戦略に偏りがちで，教師モデルの知識品質向上という点が軽視されている。
- 教師モデルの知識品質向上と，学生モデルの知識強化を図ることで性能向上を目指す。
- 提案手法TMKDは，視覚教師とテキスト教師（CLIP）の二つの教師を活用し，より豊富な教師信号を提供する。
- 視覚教師は，エッジや高周波特徴などの視覚的事前知識を取り入れたマルチビュー入力で強化される。
- 実験の結果，TMKDは知識蒸留の性能を最大4.49％まで向上させ，提案手法の有効性を実証した。
Link: https://arxiv.org/abs/2603.24208
HEART-PFL：異質性下における階層的指向性アライメントと敵対的知識転移による安定したパーソナライズされた連合学習 [cs.CV, cs.LG]目的：異質分布下での効果的なクライアント固有モデルの提供
- プライバシー保護が重要視される現代において，分散データを用いた機械学習が不可欠である。
- 連合学習では，データ分布の非同一性（異質性）が課題となり，汎化性能の低下を招く。
- クライアント固有性を維持しつつ，連合学習の安定性を高めることで，より実用的なシステム構築を目指す。
- 提案手法HEART-PFLは，CIFAR-100，Flowers-102，Caltech-101において最先端のパーソナライズされた精度を達成した。
- 階層的指向性アライメント(HDA)と敵対的知識転移(AKT)が，アライメント，ロバスト性，最適化の安定性に相乗効果をもたらすことが確認された。
- HEART-PFLは，パーソナライズとグローバル安定性を同時に向上させ，スケーラブルなPFLソリューションとしての可能性を示唆する。
Link: https://arxiv.org/abs/2603.24209
適応的深さを持つ再帰型ビジョン言語モデルRVLM [cs.CL, cs.CV]目的：医療AIにおける診断根拠の透明性と計算効率の向上
- 医療AIの発展は，診断の信頼性向上と医療現場への貢献に不可欠である。
- 既存のビジョン言語モデルは，推論過程が不透明であり，説明責任が欠如している。
- 反復的な推論は計算コストが高く，タスクの複雑さに応じて深さを調整する必要がある。
- RVLMは，Pythonコード生成と実行を繰り返すことで，診断根拠を明確化し，監査可能性を高めた。
- RRouterは，タスクの複雑さに応じて反復回数を適応的に決定し，計算資源の浪費を抑制した。
- BraTS 2023およびMIMIC-CXRにおける評価で，高い一貫性と正確性が確認された。
Link: https://arxiv.org/abs/2603.24224
人体骨格データに対する攻撃評価と拡張アイデンティティ認識 [cs.CL, cs.SI, cs.LG, cs.CR, cs.CV]目的：セキュリティアプリケーションにおける敵対的攻撃に対する脆弱性の評価と，人体骨格データを用いた個人識別モデルのロバスト性向上
- セキュリティ分野では，機械学習モデルの堅牢性が重要であり，特に小規模データセットで学習した場合の脆弱性対策が求められる。
- LiDARを用いた骨格データによる個人識別には，多大なデータ収集コストがかかるため，小規模データセットでの学習が課題となる。
- 本研究は，敵対的攻撃に対するロバスト性を評価し，合成データを用いたモデルの防御能力を高めることを目指す。
- 提案手法Attack-AAIRSは，実データとGAN生成の合成データを利用し，未知の敵対的攻撃に対するモデルのロバスト性を評価・改善する。
- GANがHCN-IDの弱点を突く敵対的攻撃サンプル分布を学習し，それを用いて学習データを拡張することで，モデルの防御力を高める。
- 10分割交差検証の結果，様々な攻撃手法（FGSM, PGD等）に対してロバスト性が向上し，実データでの性能低下は見られなかった。
Link: https://arxiv.org/abs/2603.24232
インスタンス認識に基づくリアルワールド超解像：インスタンス対応表現アライメント [cs.CV]目的：リアルワールドにおける超解像技術の性能向上
- 現実世界の画像処理において，高画質化技術は不可欠であり，多様な応用が期待される。
- 既存の超解像技術は，複雑なシーンにおけるオブジェクトの細かい部分の復元に課題を抱えている。
- インスタンスレベルでの特徴アライメントを通じて，より詳細でセマンティクスの一貫性のある画像を生成することを目指す。
- 提案手法InstanceRSRは，低解像度画像を全体的な一貫性の指針として活用し，画像データとセマンティックセグメンテーションマップを共同でモデル化することで，セマンティックな関連性を強化する。
- インスタンス表現学習モジュールにより，拡散潜在空間とインスタンス潜在空間をアライメントし，インスタンス対応の特徴アライメントを実現する。
- 複数のリアルワールドベンチマークにおける実験により，InstanceRSRが既存手法を大幅に上回り，最先端の性能を達成することが示された。
Link: https://arxiv.org/abs/2603.24240
B-MoE：身体部位を意識した「全ての部位が重要」な微細動作認識アプローチ [cs.CL, cs.CV]目的：微細動作認識のための身体部位を意識した混合エキスパートモデル
- 人間行動理解において，表情や姿勢のわずかな変化が持つ社会的意味の解明は重要である。
- 既存の行動認識モデルでは，微細動作の微弱性，短時間性，クラス間の曖昧さから認識が困難である。
- 身体部位ごとに専門化されたエキスパートを用いることで，微細動作の空間的・時間的特徴を捉えることを目指す。
- 提案手法B-MoEは，頭部，胴体，上肢，下肢といった身体部位ごとにエキスパートを配置する。
- 各エキスパートはM3Eエンコーダを用いて，長距離文脈と局所的な動きを捉え，相互注意機構で部位間の関係を学習する。
- MA-52，SocialGesture，MPII-GroupInteractionの３つのベンチマークで，最先端の結果を達成した。
Link: https://arxiv.org/abs/2603.24245
永続的かつ意味的に一貫したオブジェクトキャプションのためのメモリ拡張型ビジョン言語エージェント [cs.CV]目的：一貫性のある意味表現の構築
- 視覚と言語の理解は，ロボット工学や仮想現実などの分野において重要である。
- 視覚言語モデルは，視点によって同一オブジェクトの説明に不整合が生じやすい。
- 過去のオブジェクト情報を活用し，一貫性のあるキャプション生成を目指す。
- 本研究では，データ関連付け，オブジェクトキャプション，探索ポリシーを単一の自己回帰フレームワークで扱うエージェントを提案した。
- エピソードメモリを利用することで，長期にわたるオブジェクトの同一性と意味的一貫性を確保する。
- 実験結果から，標準的なキャプション評価指標とキャプション自己類似度において，ベースラインモデルを上回る性能が確認された。
Link: https://arxiv.org/abs/2603.24257
異種キャッシュによる拡散ベースの動画編集の高速化：サンプリングされたノイズ除去ステップでの完全な計算を超えて [cs.CL, cs.CV, cs.AI]目的：拡散ベース動画編集の高速化
- 動画編集において，高品質かつ柔軟なコンテンツ生成の重要性が高まっている。
- 拡散モデルは計算コストが高く，実用的な展開に課題がある。
- 拡散モデルのアーキテクチャ上の冗長性を解消し，効率的な動画編集を実現する。
- 提案手法HetCacheは，拡散モデルにおけるトークン間の関連性を評価し，冗長な計算を削減することで高速化を実現した。
- HetCacheは，代表的な基礎モデルと比較して，2.67倍の速度向上とFLOPs削減を達成した。
- 編集品質の低下は無視できる程度であり，編集の一貫性と忠実性を維持している。
Link: https://arxiv.org/abs/2603.24260
ScrollScape：ビデオ拡散事前知識を用いた32K画像生成の実現 [cs.CV]目的：超高解像度かつ極端なアスペクト比の画像生成
- 画像生成技術は，芸術，デザイン，研究など多岐にわたる分野で重要な役割を担う。
- 従来の拡散モデルでは，極端なアスペクト比の画像を生成する際に，構造的な欠陥が生じやすい。
- ビデオ拡散モデルの空間的・時間的な一貫性を活用し，高解像度画像の構造的欠陥を解消する。
- ScrollScapeは，大規模なキャンバスの空間的拡大をビデオフレームの時間的進化にマッピングすることで，長距離構造の一貫性を確保する。
- Scanning Positional Encoding（ScanPE）とScrolling Super-Resolution（ScrollSR）により，32K解像度までの効率的なスケーリングを実現。
- 実験結果から，ScrollScapeは既存の画像拡散ベースラインを大幅に上回り，多様なドメインで卓越した全体的なコヒーレンスと視覚的忠実度を示す。
Link: https://arxiv.org/abs/2603.24270
TopoMesh：トポロジーの統合による高忠実度メッシュ自動エンコーディング [cs.CV]目的：高忠実度3D生成のためのメッシュ自動エンコーディング手法
- 3D生成の分野では，高精度な形状再現が重要な課題となっている。
- 既存のVAEは，入力メッシュと出力のトポロジーの不一致に起因する詳細な形状の再現性の低さが課題である。
- 本研究では，トポロジーを統一することで，メッシュレベルでの直接的な教師信号を導き出し，形状再現性を向上させる。
- TopoMeshは，入力メッシュと予測メッシュを共通のトポロジーフレームワークに統合するスパースボクセルベースのVAEである。
- 鋭いエッジを保持するリメッシングアルゴリズムと，明示的なメッシュレベルの教師信号を用いることで，高精度な再構成を実現している。
- 実験結果から，TopoMeshは既存のVAEと比較して，再構成精度，特に鋭い特徴や幾何学的詳細の保存において優れた性能を示すことが明らかになった。
Link: https://arxiv.org/abs/2603.24278
生物聴覚とニューロモーフィックコンピューティングの架け橋：リザーバーコンピューティングによるエンドツーエンド時領域オーディオ信号処理 [cs.SD, cs.AI]目的：時領域技術とリザーバーコンピューティングを活用したオーディオ信号処理の簡素化
- 高度な技術が進歩しても，オーディオ信号処理は依然として課題が多く，人間の音声処理システムに及ばない。
- 従来のMFCC抽出は，計算負荷の高い時周波数変換に依存し，リアルタイム処理の効率を制限している。
- リザーバーコンピューティングを用いることで，MFCC抽出を効率化し，リアルタイムオーディオ処理を実現すること。
- リザーバーコンピューティングを活用することで，MFCC抽出における複雑な周波数変換を不要にし，特徴量の識別能力を維持した。
- 提案手法は，エネルギー効率の高いオーディオ処理技術の進歩に貢献し，組み込みシステムや音声駆動型アプリケーションへのシームレスな展開を可能にする。
- 生物に触発された特徴抽出と最新のニューロモーフィックコンピューティングとの間のギャップを埋め，次世代音声認識システムの拡張性のあるソリューションを提供する。
Link: https://arxiv.org/abs/2603.24283