arXiv雑要約

画像・音声 - 2026/04/30 公開

  • SAND:空間適応型ネットワーク深さによるニューラル陰性曲面高速サンプリング [cs.GR, cs.CV, eess.IV]目的:ニューラル陰性曲面の高速サンプリング手法
    • 幾何学モデリングにおいて,ニューラル陰性表現は強力な手法である。
    • ネットワーク評価の計算コストが高く,実用上の制約となっている。
    • 空間的な精度変動を考慮し,計算効率を向上させることを目指す。
    • 提案手法SANDは,空間適応型ネットワーク深さを導入することで,計算コストを削減する。
    • ボリューメトリック深度マップとテーリング多層パーセプトロン(T-MLP)を用いて,効率的な表現を学習する。
    • 実験結果から,SANDはニューラル陰性表現の推論速度を大幅に向上させることが示された。

    Link: https://arxiv.org/abs/2604.25936

  • MFCC特徴量とLSTMベースの深層学習モデルを用いた音声感情認識 [cs.SD, cs.AI, eess.AS]目的:音声感情認識システムの開発
    • 自然な人間とコンピュータの対話において,音声に含まれる感情を理解することが重要になっている。
    • 話者や状況によって音声パターンが変化するため,高精度な感情認識は困難である。
    • MFCC特徴量とLSTMモデルを組み合わせ,音声の感情をより正確に識別することを目指す。
    • 提案手法であるMFCC-LSTMアプローチは,音声における感情パターンを捉え,高い精度で感情を分類することに成功した。
    • 実験の結果,LSTMモデルは99%の精度を達成し,古典的なSVMモデル(98%)を上回る性能を示した。
    • 本研究は,LSTMベースのアーキテクチャが音声感情認識タスクに有効であることを確認し,バーチャルアシスタントやメンタルヘルスモニタリングへの応用が期待される。

    Link: https://arxiv.org/abs/2604.25938

  • 高速コア同定 [cs.RO, cs.GT, econ.TH, q-fin.TR]目的:コア同定問題の計算複雑性
    • 市場設計は資源配分において重要な役割を担う。
    • コア同定は計算負荷が高く,効率的なアルゴリズムが求められる。
    • コア同定問題の計算複雑性を明確にすること。
    • コア同定問題は,完全なTTC計算よりも計算が容易であることが証明された。
    • 提案手法は,$\bigO{Ln}$の時間計算量でコア同定を解決する。
    • 疎な選好プロファイルにおいては,$\bigO{n}$のアルゴリズムが実現し,漸近最適性を示す。

    Link: https://arxiv.org/abs/2604.25954

  • 注意誘導パッチに基づくフレームワークを用いた,広範な変装メイクのプレゼンテーション攻撃検出 [cs.CV]目的:変装メイクによるプレゼンテーション攻撃の検出
    • 顔認識技術は高度化の一途を辿るが,セキュリティ上の脆弱性も存在する。
    • 変装メイク攻撃は高度な技術を要し,人間でも識別が困難である。
    • 変装メイク攻撃検出における汎化性能向上を目指す。
    • 提案手法は,スタイル不変な顔全体モデルと,注意スコアに基づくパッチベースの解析を組み合わせる。
    • 新たに収集したデータセットとSIW-Mv2において,高い検出精度を達成した。
    • 既存手法と比較して,ロバストな性能を示す。

    Link: https://arxiv.org/abs/2604.26025

  • 第5回PVUWチャレンジ報告:ピクセルレベル理解における多様なモダリティに向けて [cs.CV]目的:ピクセルレベルの動画理解における最先端モデルの評価と技術進歩の現状
    • 動画理解は,自動運転やロボット工学など,様々な応用分野で不可欠な技術である。
    • 現実世界の動画は,遮蔽や密集度が高く,ノイズも多いという課題がある。
    • 多様なモダリティ(視覚,言語,音声)を統合することで,よりロバストな理解を目指す。
    • 2026年のPVUWチャレンジでは,追跡,言語指示,音声駆動のセグメンテーションという3つのトラックが設けられた。
    • 参加者から提出された最先端のマルチモーダルなソリューションの分析により,技術的な進歩が明らかになった。
    • 新たなチャレンジデータを用いて,動画シーン理解の将来的な方向性を示唆する結果が得られた。

    Link: https://arxiv.org/abs/2604.26031

  • 衛星画像を用いた洪水マッピングにおけるGeoAIの説明とドメイン知識の整合性評価 [eess.SY, cs.SY, cs.CV, cs.AI]目的:衛星画像を用いた洪水マッピングにおけるGeoAIの説明とドメイン知識との整合性評価
    • 地球観測技術の進展により,衛星画像を用いた洪水マッピングは重要な洪水監視手法となっている。
    • 深層学習モデルの不透明な意思決定プロセスが,実用化への大きな障壁となっている。
    • 深層学習モデルの説明が確立されたドメイン知識と一致するかどうかを評価する枠組みを提供する。
    • 提案するADAGEフレームワークは,モデルの説明とドメイン知識に基づいた説明の整合性を定量的に評価できる。
    • ADAGEフレームワークは,ドメイン専門家が整合性の低い説明を特定するのに役立つ。
    • 本研究は,GeoAIとドメイン知識の間のギャップを埋め,科学的・運用的なワークフローにおけるGeoAIモデルの適用性を向上させる。

    Link: https://arxiv.org/abs/2604.26051

  • RADIO-ViPE:動的環境におけるオープンボキャブラリセマンティックSLAMのためのオンラインタイトカプルドマルチモーダル融合 [cs.RO, cs.CV]目的:動的環境下でのオープンボキャブラリセマンティックSLAMシステム
    • ロボットの自律動作や現実世界での応用において,環境の理解と位置推定は不可欠である。
    • 従来のセマンティックSLAMは,キャリブレーションされたRGB-Dデータや静的な環境を前提としており,現実環境への適応が課題であった。
    • 単眼RGBビデオストリームのみで,動的な環境におけるセマンティックSLAMを実現し,実用性を高めることを目指す。
    • RADIO-ViPEは,カメラの内部パラメータ,深度センサー,初期姿勢推定を必要とせず,単眼RGBビデオストリームから直接動作する。
    • RADIO-ViPEは,視覚と言語のマルチモーダル埋め込みを,アグリクラティブな基盤モデル(RADIOなど)から導き出し,幾何学的なシーン情報と密に結合する。
    • TUM-RGBDベンチマークにおいて最先端の結果を達成し,キャリブレーションされたデータや静的シーンを前提とするオフライン手法と競争力のある性能を維持する。

    Link: https://arxiv.org/abs/2604.26067

  • FruitProM-V2:果物と野菜の堅牢な確率的成熟度推定と検出 [cs.NI, cs.HC, cs.CV, cs.AI, cs.RO]目的:果物と野菜の成熟度の推定と検出
    • 収穫時期の決定は収量と品質に直結するため,正確な成熟度識別は重要である。
    • 視覚的類似性のある段階間の境界が明確になりがちで,成熟度を多クラス分類問題として扱うことの限界がある。
    • 成熟度を潜在的な連続変数としてモデル化し,不確実性を明示的に扱うことで,より信頼性の高い推定を目指す。
    • 提案手法は,クリーンなラベル下では標準的な検出器と同等の性能を維持し,不確実性をより良く表現する。
    • 訓練時に意図的にラベルノイズを導入した場合,確率的モデルはベースラインと比較してロバスト性が向上する。
    • 成熟度の不確実性を明示的にモデル化することで,より信頼性の高い視覚的成熟度推定が可能になる。

    Link: https://arxiv.org/abs/2604.26084

  • 変形物体のための運動量保存グラフニューラルネットワーク [cs.LG, cs.AI, cs.GR]目的:変形物体の動力学的モデリング
    • 物体のシミュレーションは,ロボティクスや視覚効果など幅広い分野で重要である。
    • 既存のGNNは,線形運動量や角運動量の時間発展を正確に予測できない。
    • 運動量保存を保証するアーキテクチャを提案し,予測精度を向上させる。
    • 提案手法MomentumGNNは,エッジに対する伸張および曲げインパルスを予測することで運動量保存を保証する。
    • 物理に基づいた損失関数を用いた教師なし学習により,ベースライン手法を上回る性能を示す。
    • 運動量が重要なシナリオにおいて,より正確なシミュレーションが可能となる。

    Link: https://arxiv.org/abs/2604.26097

  • 連合学習における非IIDデータに対するマルチタスクオートエンコーダを用いたサンプル選択 [cs.CV, cs.LG]目的:画像分類におけるサンプル選択手法
    • データプライバシーを保護しながら分散データで学習する連合学習は,近年重要性が増している。
    • 連合学習では,冗長,悪意のある,または異常なサンプルがモデルの性能低下を引き起こす。
    • ノイズサンプルをフィルタリングし,特徴に基づくサンプル選択を強化することで,モデル精度を向上させる。
    • 損失と特徴分析に基づきマルチタスクオートエンコーダを用いてサンプル貢献度を推定する手法を提案。
    • CIFAR10でOCSVMを用いることで最大7.02%の精度向上,MNISTではATを用いることで1.83%の精度向上が確認された。
    • 特徴に基づくサンプル選択を強化するFederated SVDD損失により,CIFAR10でOCSVMと組み合わせた精度が最大0.99%向上した。

    Link: https://arxiv.org/abs/2604.26116

  • MixerCA:高性能ハイパースペクトル画像分類のための効率的かつ正確なモデル [cs.CV]目的:ハイパースペクトル画像分類のための軽量モデル
    • 地球上の物体を詳細なスペクトル情報で識別可能であり,環境モニタリング等への応用が期待されている。
    • 従来の画像分類手法では複雑な空間・スペクトル特徴の抽出が難しく,分類精度に限界があった。
    • MixerCAは,空間的・チャネル的な相互作用を効率的に捉え,高精度な分類を実現する。
    • MixerCAは,4つのハイパースペクトルベンチマークデータセットにおいて,既存のアルゴリズムと比較して明確な優位性を示した。
    • Depthwise convolutionとself-attention機構を活用することで,軽量でありながら高精度な分類を可能にした。
    • 空間分解能を維持しながら,HSIパッチを直接処理することで,効率的な特徴抽出を実現している。

    Link: https://arxiv.org/abs/2604.26138

  • グリオーマ手術ガイダンスのための術中蛍光寿命イメージングのためのデータ中心フレームワーク [cs.CV, cs.AI]目的:グリオーマ切除における術中蛍光寿命イメージング(FLIm)の信頼性と精度向上
    • グリオーマ手術では,最大限の腫瘍切除と機能的脳組織の温存が重要であり,正確な術中評価が不可欠である。
    • FLImはリアルタイムで生化学的コントラストを提供するが,生物学的異質性やラベル付けのばらつきが臨床応用の課題となっている。
    • 本研究は,データ中心AIフレームワークを用いてFLImデータの信頼性を高め,腫瘍切除ガイドとしての有効性を向上させる。
    • データ中心AIフレームワークは,確信学習,クラスの改良,標的ラベル評価を統合し,FLIm分類器のロバスト性を高めた。
    • その結果,3クラス分類タスクにおいて96%の精度を達成し,FLImの特徴量の重要性も明らかになった。
    • 確信学習による低信頼度領域の特定と再ラベル付けの提案により,病理医間のばらつきを軽減できる可能性を示した。

    Link: https://arxiv.org/abs/2604.26147

  • ドメインが重要である理由:水中物体検出におけるドメイン効果の予備的研究 [cs.CV, cs.LG, cs.RO]目的:水中物体検出におけるドメイン効果の検証
    • 水中環境は,光や視界の変化が大きく,安定した物体検出が困難である。
    • 既存の研究では,ドメインシフトを捉えきれておらず,実環境での性能低下を招く可能性がある。
    • 本研究は,物理的に意味のあるドメインを定義し,より現実的な評価を可能とする。
    • 提案手法により,水中ドメインを画像,シーン,取得特性で定義する枠組みが確立された。
    • 公開データセットを用いた検証により,ドメイン要因間の体系的な変動が明らかになった。
    • 検出性能のドメイン依存性と隠れた失敗モードを特定し,改善の方向性を示唆した。

    Link: https://arxiv.org/abs/2604.26174

  • 計画と制御のための具現化された世界モデルの底上げ [cs.CV, cs.AI, cs.LG]目的:具現化されたエージェントの未来の観測予測に基づく計画と制御手法
    • ロボット工学において,環境に適応した行動計画は不可欠であり,現実世界での応用を可能にする。
    • 複雑な具現化において,高次元のアクション空間の指定と制御が困難であるという課題が存在する。
    • 高レベルな行動から低レベルな関節アクションへのマッピングにより,効率的な計画と制御を実現することを目指す。
    • 提案手法は,低レベル関節空間での直接探索と比較して,目標姿勢への平均関節誤差を大幅に低減した (3.8倍の改善)。
    • 計算効率が向上し,訓練されていない環境への汎化性能も確認された。
    • 高レベルなウェイポイントを用いた底上げにより,複雑な具現化における計画と制御を容易にした。

    Link: https://arxiv.org/abs/2604.26182

  • 熱的快適性推定のためのVision Transformerを用いたプライバシー保護衣類分類 [cs.CV, cs.CR]目的:プライバシー保護衣類分類の仕組み
    • 暖房換気空調(HVAC)制御は,居住者の熱的快適性を最適化する上で重要である。
    • 画像利用によるHVAC制御研究は多いが,居住者のプライバシー保護が課題であった。
    • 暗号化された画像でも高い分類精度を維持し,プライバシー保護と精度向上を両立すること。
    • 提案手法は,従来のピクセルベース手法と比較して,暗号化画像でも高い分類精度を維持できる。
    • DeepFashionデータセットを用いた実験で,全カテゴリにおいて平文画像と同等の精度を示した。
    • 本研究は,プライバシーを保護しつつ,居住者中心の制御システムを実現する可能性を示す。

    Link: https://arxiv.org/abs/2604.26184

  • FASH-iCNN:マルチモーダルCNNプロービングによる編集ファッションアイデンティティの可視化 [cs.CV, cs.HC, cs.IR, cs.MM]目的:編集ファッションにおける文化的ロジックの解明
    • ファッションは文化を反映し,時代やデザイナーの個性を表現する重要なメディアである。
    • AIシステムはファッションの美学を学習するが,その内部ロジックは不透明である。
    • ファッションAIの判断根拠を可視化し,文化的アイデンティティの認識を深める。
    • FASH-iCNNは,1991年から2024年までのVogueのランウェイ画像を用いて,ファッションハウス,時代,色彩伝統を識別する。
    • 衣服のみのモデルは,ファッションハウスの識別で78.2%,年代の識別で88.6%,年号の識別で58.3%の正答率を達成した。
    • テクスチャの除去がハウス識別精度に大きな影響を与え,テクスチャと輝度が編集アイデンティティの主要な要素であることが示された。

    Link: https://arxiv.org/abs/2604.26186

  • ViBE:空間・時間VAEと分布整合投影による視覚から脳波/脳磁波への符号化 [cs.CV]目的:視覚刺激から脳波/脳磁波信号を生成する脳符号化フレームワーク
    • 脳活動の解明は,視覚情報の神経メカニズム理解に不可欠であり,視覚機能回復への応用が期待される。
    • 視覚刺激と神経応答の対応付けは困難であり,高精度な脳符号化モデルの構築が課題である。
    • 視覚特徴と神経表現の間のギャップを埋め,高精度な脳波/脳磁波信号の生成を目指す。
    • 提案手法ViBEは,空間・時間的特徴を捉えるTSC-VAEと,CLIP埋め込みを対応付けるQ-Formerを組み合わせる。
    • MSE損失とSWD損失を用いることで,点ごとの特徴一致と確率分布の整合性を両立したクロスモーダルアライメントを実現した。
    • THINGS-EEG2とTHINGS-MEGデータセットでの実験により,ViBEが質の高い脳波/脳磁波信号を生成できることが示された。

    Link: https://arxiv.org/abs/2604.26218

  • コンセンサス探索:オープンボキャブラリリモートセンシングセマンティックセグメンテーションのための動的再調整 [cs.MA, econ.GN, q-fin.EC, cs.CV, cs.AI]目的:オープンボキャブラリセマンティックセグメンテーションの性能向上
    • リモートセンシング画像解析は,土地利用状況の把握や環境変化の監視に不可欠である。
    • 既存手法は静的な推論に依存し,多様なシーンにおけるセマンティックな曖昧さや前景活性化の不完全さの問題がある。
    • シーンごとにセマンティック・幾何学的整合性を動的に再調整し,セグメンテーション精度を向上させる。
    • 提案手法SeeCoは,幾何学的コンセンサス学習とセマンティックコンセンサス学習により,既存のOVSSモデルをオンラインで再調整する。
    • SeeCoは特定の訓練を必要とせず,推論時に各シーンの特性に応じてセマンティック・幾何学的整合性を調整する。
    • 8つのリモートセンシングOVSSベンチマークにおいて,一貫した性能向上を確認した。

    Link: https://arxiv.org/abs/2604.26221

  • HOIを意識した適応ネットワークによる弱学習アクションセグメンテーション [cs.NI, cs.MM, eess.IV, cs.CV]目的:弱学習アクションセグメンテーションのためのHOIを意識した適応ネットワーク
    • 動画理解において,アクション認識は重要な課題であり,様々な応用が期待される。
    • 既存手法では,類似アクションの識別が難しく,セグメンテーションの精度が課題となっていた。
    • 動画全体の文脈情報であるHOIを活用することで,曖昧なアクションを識別し,セグメンテーション精度を向上させる。
    • 提案手法AdaActは,HOIエンコーダを用いて代表的なHOIを抽出し,動画全体の特徴を捉える。
    • ハイパーネットワークを用いることで,HOI情報に基づいて時間エンコーダのパラメータを動的に調整する。
    • Breakfastと50Saladsのデータセットで,提案手法の有効性が複数の評価指標によって示された。

    Link: https://arxiv.org/abs/2604.26227

  • DepthPilot:結腸内視鏡ビデオ生成における制御可能性から解釈可能性へ [cs.CL, cs.CL, stat.ME, cs.IR, cs.CV, cs.AI]目的:結腸内視鏡ビデオ生成のための解釈可能性の確立
    • 医療分野における映像生成技術は,診断や治療の支援に不可欠であり,その重要性は増している。
    • 既存の制御可能な医療ビデオ生成技術は,臨床的妥当性や物理的整合性の検証が不十分である。
    • DepthPilotは,生成された映像の解釈可能性を高め,臨床現場での信頼性を向上させることを目指す。
    • DepthPilotは,深度制約を拡散バックボーンに注入することで,解剖学的忠実性を確保する。
    • 適応スプラインノイズ除去モジュールにより,幾何学的制約下での複雑な空間的・時間的ダイナミクスのモデル化を実現した。
    • 複数のデータセットと臨床データでの評価で,DepthPilotが物理的に整合性の取れたビデオを生成することが確認された。

    Link: https://arxiv.org/abs/2604.26232

  • EnerGS:部分幾何学的事前知識を用いたエネルギーベースのガウススプラッティング [cs.CV]目的:大規模屋外シーンにおける3Dガウススプラッティングのフォトメトリック品質と幾何学的安定性の向上
    • 3Dシーン再構成は,ロボット工学や拡張現実など幅広い分野で不可欠な技術である。
    • 既存手法では,部分的で不均一な幾何学的制約が再構成の精度を制限することがある。
    • 部分的観測幾何学をエネルギー場としてモデル化し,幾何学的情報が最適化を導くようにする。
    • EnerGSは,幾何学的な情報をハードな制約としてではなく,最適化のソフトなガイダンスとして提供する。
    • 大規模屋外シーンにおける実験により,EnerGSがフォトメトリック品質と幾何学的安定性を一貫して向上させることが示された。
    • 特に,疎なマルチビューや単眼設定において,3Dガウススプラッティングのトレーニング中の過学習を効果的に軽減する。

    Link: https://arxiv.org/abs/2604.26238

  • 森林環境におけるロバストな資産追跡のためのカメラ-RFID融合 [cs.CV]目的:森林環境における資産追跡の精度向上
    • 森林管理や資源調査において,資産の正確な位置把握は不可欠である。
    • 森林内では,電波減衰や反射によりRFIDの精度が低下しやすい。
    • カメラとRFIDの情報を統合し,それぞれの弱点を補完する。
    • カメラとRFIDの融合により,メートルレベルの精度をセンチメートルレベルに向上させた。
    • 提案手法は,資産がカメラの視界から一時的に外れても,正確な位置特定を可能にする。
    • 森林環境におけるカメラ-RFID融合による資産追跡は,本研究が初である。

    Link: https://arxiv.org/abs/2604.26241

  • 会話音声からのうつ病検出のための,再帰に基づく非線形発声ダイナミクスをデジタルバイオマーカーとして [cs.SD, cs.LG, eess.AS]目的:会話音声における発声ダイナミクスの再帰構造
    • 精神疾患の早期発見や客観的評価は,医療現場において重要な課題である。
    • 既存のうつ病検出手法は,静的な音響特徴量に依存しており,時間的な変化を捉えきれない。
    • 会話音声の発声ダイナミクスにおける非線形な時間的構造を解析し,うつ病のバイオマーカーを特定すること。
    • 再帰に基づくバイオマーカーは,平均交差検証AUC 0.689を達成し,静的音響特徴量や他の特徴量を用いた手法を上回った。
    • 統計的有意差検定の結果,p=0.004であり,この結果は統計的に有意であると示された。
    • 本研究は,うつ病が会話音声の発声ダイナミクスの再帰構造の変化を伴う可能性を示唆している。

    Link: https://arxiv.org/abs/2604.26242

  • メタSR:生成型超解像のためのコンテンツ適応型メタデータオーケストレーション [cs.CV, cs.AI]目的:生成型超解像におけるコンテンツおよび劣化の変動に対応するためのメタデータオーケストレーション
    • 現実世界の画像・映像処理において,多様なコンテンツと劣化に対応できる超解像技術は重要である。
    • 既存のメタデータ活用型超解像は固定的な設計であり,コンテンツ依存のメタデータ活用が不十分である。
    • コンテンツに応じた最適なメタデータ選択と注入による,効率的な超解像を実現することを目指す。
    • MetaSRは,Diffusion Transformer(DiT)を基盤とし,タスクに応じたメタデータを効率的に選択・注入する。
    • 多様なコンテンツと劣化条件下で,既存手法と比較して最大1.0dBのPSNR改善と,50%のビットレート削減を達成した。
    • レート歪み最適化フレームワークによる評価で,送受信側のビットレートと受信品質のバランスが向上することが示された。

    Link: https://arxiv.org/abs/2604.26244

  • 近道を超えて:定性的推論による凍結済みVLMにおける視覚的錯覚の緩和 [cs.CV]目的:視覚的錯覚に対するVLMの脆弱性を緩和する手法
    • 近年のVLMの発展は目覚ましいが,視覚的錯覚への対応は依然として課題である。
    • VLMは,視覚情報よりも言語的な先入観や記憶された原型に依存しがちである。
    • 学習不要でVLMの視覚的根拠付けを強化し,錯覚への頑健性を高めることを目指す。
    • 提案手法SQIは,3つのモジュールによって視覚的異常を抑制し,VLMの精度を向上させる。
    • DataCV 2026 Challenge(Task I: Classic Illusion Understanding)において,SQIは全体2位の成績を収めた。
    • SQIは,モデルのファインチューニングなしに,高い診断可能性を提供する。

    Link: https://arxiv.org/abs/2604.26250

  • 3D遅延ガドリニウム強調MRIを用いたV-Net系モデルによる多段階両心房セグメンテーションフレームワーク [cs.CV, cs.AI, cs.LG]目的:3D遅延ガドリニウム強調MRIからの両心房多クラスセグメンテーション
    • 心臓疾患の診断・治療において,心臓構造の正確な把握は不可欠である。
    • 心臓MRI画像のセグメンテーションは,手作業に頼る部分が多く,時間と労力を要する。
    • 心臓MRI画像の自動セグメンテーションの精度向上と効率化を目指す。
    • 本研究では,多段階のフレームワークとV-Net系モデルを用いることで,両心房のセグメンテーション精度を向上させた。
    • 前処理にMCLAHE,粗分割にV-Net系モデル,精分割にもV-Net系モデルを用いることで,段階的にセグメンテーションを行う。
    • 非対称損失関数を採用することで,モデルの最適化を図った。

    Link: https://arxiv.org/abs/2604.26251

  • OmniTrend:コンテンツとコンテキストのモデリングによるスケーラブルなソーシャル人気予測 [cs.CV]目的:ソーシャルメディアの人気予測におけるコンテンツの魅力とコンテキスト的露出の関係性
    • ソーシャルメディアにおけるコンテンツの人気予測は,マーケティングや情報拡散において重要である。
    • 既存手法はコンテンツと露出を分離せず,プラットフォーム固有の影響を吸収し解釈性や汎化性能を損なう。
    • コンテンツの魅力とコンテキスト的露出を分離し,より解釈可能で汎用性の高い予測モデルを構築すること。
    • OmniTrendは,コンテンツの魅力とコンテキスト的露出を独立にモデル化する統合フレームワークである。
    • 視覚,音声,テキスト情報からコンテンツの魅力を定量化し,投稿時間やトレンド等の外部信号から露出を推定する。
    • これにより,各要素の役割が明確になり,異なるプラットフォーム間での高い転移学習性能を実現する。

    Link: https://arxiv.org/abs/2604.26252

  • GaitKD:効率的な歩行者認識のための汎用的な解結合蒸留フレームワーク [cs.CV]目的:効率的な歩行者認識のための解結合蒸留フレームワーク
    • 歩行者認識は,遠距離かつ非接触での個人識別が可能な生体認証技術として注目されている。
    • 高性能な歩行者認識モデルは,計算コストが高く実用的な展開が困難であるという課題がある。
    • 本研究は,部分構造化された歩行者認識モデルにおける知識蒸留の効率を向上させることを目指す。
    • GaitKDは,決定レベル蒸留と境界レベル蒸留という2つの相補的な要素に歩行者の知識伝達を解結合する。
    • 部分校正されたロジット蒸留により,クラス間決定関係を伝達し,活性化境界目的関数を通じて埋め込み空間の教師誘導分割を維持する。
    • 実験結果から,GaitKDが既存の歩行者認識ベースラインに対して一貫した性能向上を示すことが明らかになった。

    Link: https://arxiv.org/abs/2604.26255

  • ロバストなゼロショット3Dビジュアルグラウンディングのための複数の一貫性のある2D-3Dマッピング [cs.CV]目的:ゼロショット3Dビジュアルグラウンディングの性能向上
    • オープンワールドにおける具現化AIの実現には不可欠な技術であり,現実世界での応用が期待される。
    • 既存手法は,不正確なカテゴリや形状,多視点からの冗長な推論により,3D提案の品質が低いという課題がある。
    • ノイズの多い3Dセグメントに依存せず,2D-3Dの一貫性を重視することで,正確なターゲット局所化と信頼性の高い推論を実現する。
    • MCM-VGは,セマンティックアライメントモジュール,インスタンス修正モジュール,ビューポイント蒸留モジュールを組み合わせることで,ロバストなゼロショット3Dビジュアルグラウンディングを実現した。
    • ScanReferベンチマークにおいて,Acc@0.25で62.0%,Acc@0.5で53.6%を達成し,既存のベースラインを大幅に上回る性能を示した。
    • 最適なRGBフレームと鳥瞰図を組み合わせた簡潔なビジュアルプロンプトセットを用いて,Vision-Language Modelsによる複数選択問題としてターゲットの曖昧性解消を行った。

    Link: https://arxiv.org/abs/2604.26261

  • 意味の泡:空間的および意味的シーン分解の統合 [cs.CV]目的:空間的・意味的シーン分解の統一
    • 現実世界の再現は,ロボット工学や拡張現実など,様々な応用分野において重要である。
    • 3Dガウススプラッティング等の手法は高速だが,インタラクティブなグラフィックスへの応用は表現の操作性が課題である。
    • 意味的分解の品質と視点間の一貫性の問題を解決し,より操作可能なシーン表現を目指す。
    • 本手法は,Radiant Foamのボロノイメッシュ構造とセルレベルの意味特徴フィールドを組み合わせることで,視点間の一貫性を向上させる。
    • Gaussian GroupingやSAGAといった最先端手法と比較して,オブジェクトレベルのセグメンテーション性能で優位性を示す。
    • 遮蔽や不整合な教師データによるアーティファクトを軽減し,高品質な意味分割を実現する。

    Link: https://arxiv.org/abs/2604.26262

  • 高次元ノイズから低次元多様体へ:劣化ハイパースペクトル画像分類のための多様体空間拡散フレームワーク [cs.NI, cs.CV]目的:劣化ハイパースペクトル画像分類におけるロバスト性の向上
    • リモートセンシング分野において,ハイパースペクトル画像分類は重要な役割を担う。
    • ハイパースペクトル画像は高次元だが低ランクであり,劣化要因により多様体構造が崩れやすい。
    • 多様体空間での拡散モデルにより,劣化の影響を分離し,識別能力を高めることを目指す。
    • 提案手法は,まず劣化の影響を受けた高次元データを,識別的なスペクトル空間再構成により低次元多様体にマッピングする。
    • 次に,多様体内のスペクトル空間分布を拡散ベースの生成モデルで正則化し,潜在特徴の安定化を図る。
    • 複数のハイパースペクトルベンチマークで,多様な劣化条件下で最先端手法を上回る性能が確認された。

    Link: https://arxiv.org/abs/2604.26279

  • MedSynapse-V:潜在的記憶進化による視覚知覚と臨床的直観の架け橋 [cs.CV, cs.AI]目的:医療画像における診断能力の向上
    • 医療診断の精度向上は,人々の健康と生活の質に直結する重要な課題である。
    • 既存の医療画像解析モデルは,静的な特徴に依存し,専門家の暗黙的な診断記憶を活用できていない。
    • モデルが診断に必要な知識を内包し,経験豊富な医師のように推論することを可能にする。
    • 本研究では,潜在的診断記憶進化フレームワークを提案し,モデル内に暗黙的な診断記憶を動的に生成・進化させる。
    • Meta Query for Prior MemorizationとCausal Counterfactual Refinementにより,臨床的妥当性を確保し,不要な情報を削減する。
    • Intrinsic Memory Transitionにより,教師モデルの知識を生徒モデルに効果的に転移し,診断精度を大幅に向上させた。

    Link: https://arxiv.org/abs/2604.26283

  • 時間的な眼球運動に基づくイベントカメラを用いた生体認証検出:探索的アプローチ [cs.CV]目的:イベントカメラを用いた生体認証検出における時間的な眼球運動の分析
    • 顔認証技術のセキュリティ確保は重要であり,なりすまし攻撃への対策が求められている。
    • 従来のRGBカメラでは,センサーや攻撃方法の変化に弱く,汎化性能が課題となっている。
    • イベントカメラの特性を活かし,時間的な眼球運動の違いから,より堅牢な生体認証検出を目指す。
    • イベントカメラは,高速な眼球運動を正確に捉え,リプレイ攻撃特有の時空間パターンを検出できる。
    • RGBE-Gazeデータセットを拡張し,リプレイ攻撃のデータを用意することで,イベントベースの検証が可能になった。
    • スパイク畳み込みニューラルネットワークを用いた評価で,最高95.37%のTop-1精度を達成した。

    Link: https://arxiv.org/abs/2604.26285

  • CheXthought:胸部X線画像解釈のための臨床的な思考連鎖と視線注意のグローバルなマルチモーダルデータセット [cs.CV, cs.AI]目的:臨床的な思考連鎖と視線注意に関するグローバルなマルチモーダルデータセット
    • 胸部X線画像解釈は医療における頻繁な診断であり,AI開発の主要なターゲットである。
    • 既存のビジョン言語モデルは,画像とレポートのペアで学習されることが多く,臨床推論の基盤となる認知プロセスや視線注意が考慮されていない。
    • 専門家の推論プロセスをモデル化し,より透明で解釈可能なビジョン言語モデルの開発を促進すること。
    • CheXthoughtの思考連鎖は,最先端のビジョン言語モデルの思考連鎖よりも,事実の正確性と空間的な根拠において著しく性能が向上した。
    • 推論時のヒントとして視線注意データを用いることで,見逃された所見が発見され,幻覚が大幅に減少した。
    • CheXthoughtデータで訓練されたモデルは,病理分類,視覚的な忠実性,時間的推論,不確実性の伝達において,有意に高い性能を発揮した。

    Link: https://arxiv.org/abs/2604.26288

  • 見えない敵:敵対的パッチに対する堅牢かつ汎化された防御 [cs.CV]目的:敵対的パッチ攻撃に対する,深層ニューラルネットワークの堅牢性と汎化能力の向上
    • 深層学習の物理世界への応用が進む中,その脆弱性が大きな問題となっている。
    • 現実世界で頻発するノイズと,画像へのパッチ貼り付け攻撃への対策が不十分である。
    • ノイズとパッチ攻撃を組み合わせたデータセットを構築し,防御の課題を明らかにする。
    • 敵対的パッチと自然ノイズの組み合わせに対抗するには,それぞれの問題点を個別に考慮する必要があることが示された。
    • 従来のニューラルネットワークによるパラメータ調整ではなく,伝統的な機械学習分類器を用いることで,有効な防御が可能であることが示唆された。
    • 分布外のデータに対する分類器の性能は低く,敵対者からの攻撃に対する防御が困難であることが明らかになった。

    Link: https://arxiv.org/abs/2604.26317

  • 確率的自己更新局所対応と線ベクトル集合による点群登録 [cs.CV]目的:点群登録の高速かつ効果的なアルゴリズム
    • リモートセンシング等の応用において,3D観測データの統合は不可欠である。
    • 既存手法では,計算コストが高く,精度が十分でない場合がある。
    • 精度と効率を両立した点群登録アルゴリズムを開発し,その問題を解決する。
    • 提案手法は,確率的自己更新局所対応と線ベクトル集合を用いることで,高速化を実現した。
    • 公開データセットを用いた評価により,最先端手法と比較して10%以上の二乗平均平方根誤差の改善が確認された。
    • 効率と精度のバランスを最適化する早期終了条件を導入し,処理時間を短縮した。

    Link: https://arxiv.org/abs/2604.26318

  • 宇宙科学実験におけるモデル生物のモーション駆動複数物体追跡 [cs.CL, cs.CV]目的:宇宙科学実験におけるモデル生物の複数物体追跡手法
    • 宇宙環境が生物に与える影響評価には,行動解析が不可欠である。
    • 宇宙環境下での動画は,画質が低く,生物の動きが複雑で追跡が困難である。
    • 宇宙環境下での追跡における課題を克服し,正確な行動解析を可能にすること。
    • 本研究では,宇宙環境下で撮影された生物動画の特性を捉えたSpaceAnimal-MOTデータセットを構築した。
    • モーション駆動型追跡フレームワークART-Trackを提案し,急激な動きや非線形な動きに対応する多モデルモーション推定を導入した。
    • ART-Trackは,ゼブラフィッシュやショウジョウバエの追跡において,IDスイッチを大幅に削減し,安定した関連付けを実現した。

    Link: https://arxiv.org/abs/2604.26321

  • クラスおよびドメイン不均衡下における合成サンプル生成を用いた連合医療画像分類 [cs.CV]目的:連合学習における医療画像分類の性能向上
    • 医療画像診断の精度向上は,早期発見・治療に不可欠であり,社会的なニーズが高い。
    • 医療機関間でのデータ共有はプライバシー保護の観点から難しく,学習データの偏りが課題である。
    • データ不足による分類精度の低下と,ドメインシフトへの対応を目的とする。
    • 提案手法FedSSGは,異なる医療機関間でのドメインシフトを軽減し,希少疾患のデータ不足を補う。
    • 合成サンプルを生成し,各クライアントに適切に分配することで,モデルの汎化性能を向上させる。
    • 実験結果から,本手法が既存手法よりも高い分類性能を示すことが確認された。

    Link: https://arxiv.org/abs/2604.26324

  • SpatialFusion:内在する3D幾何学的認識を統合画像生成に付与 [cs.CV]目的:統合画像生成における3D幾何学的認識の組み込み
    • 画像生成技術は,多様な応用分野で不可欠であり,その高性能化が求められている。
    • 既存の統合画像生成モデルは空間認識能力が不十分であり,幾何学的な誘導が欠けている。
    • 空間的に一貫性のある画像を生成するために,3D幾何学的認識を明示的に組み込むことを目指す。
    • SpatialFusionは,MoTアーキテクチャを用いてMLLMに空間変換器を統合し,3D幾何学的モデリング能力を強化する。
    • 空間変換器は,セマンティックな文脈からターゲット画像のメトリック深度マップを導出し,拡散バックボーンに深度アダプターを介して注入する。
    • 本手法は,空間認識ベンチマークでGPT-4oなどの主要モデルを凌駕し,テキスト-画像生成と画像編集の両方で汎化性能を向上させる。

    Link: https://arxiv.org/abs/2604.26341

  • 複数の顔と誰の同一性か?複雑な多人数シーンにおける深偽造プロアクティブフォレンジックの二重の課題解決 [cs.CV]目的:多人数シーンにおける深偽造の局所化と出所追跡
    • 現実世界の脅威に即した技術開発が求められているため。
    • 既存の技術は単一顔の状況に依存しており,複雑な多人数環境への応用が困難であるため。
    • 多人数シーンにおける深偽造の局所化と出所追跡を可能にする技術を開発すること。
    • 提案手法であるDAWFは,効率的なインネットワーク並列ウォーターマーク埋め込みと顔間協調処理を実現した。
    • 選択的領域監督損失により,偽造された顔領域にデコーダーの焦点を絞り,顔領域と人物の特定を両立させた。
    • 複雑な多人数シーンにおいて,深偽造の局所化と追跡において優れた性能を示した。

    Link: https://arxiv.org/abs/2604.26342

  • アンカー制約を用いた知覚的最適化:参照なし品質ガイダンスによる拡散モデル [cs.CV, cs.AI]目的:拡散モデルにおける知覚的品質の向上
    • 画像生成の分野で,拡散モデルの性能向上が期待されている。
    • 従来の学習は画素レベルの類似性を重視し,主観的な知覚品質が不十分な場合がある。
    • 参照なし知覚的品質評価を活用し,安定した学習と品質向上を目指す。
    • アンカー制約最適化フレームワークにより,知覚品質と生成の忠実性を両立した。
    • 参照なし知覚的品質評価モデルをガイダンス信号として活用することで,学習の安定性を確保した。
    • 実験により,生成多様性を維持しつつ,知覚品質が顕著に向上することが示された。

    Link: https://arxiv.org/abs/2604.26348

  • GateMOT:密な物体追跡のためのQ-ゲート型注意機構 [cs.CL, cs.HC, cs.CV]目的:密な物体追跡における注意機構の効率的な活用
    • 高解像度画像における物体追跡は,監視や自動運転など多くの応用で不可欠である。
    • 従来の注意機構は計算コストが高く,密な物体追跡のような高解像度特徴量への適用が困難であった。
    • Q-ゲート型注意機構により,計算コストを抑えつつ,注意機構の利点を密な物体追跡に適用する。
    • GateMOTは,Q-ゲート型注意機構を中核とするオンライン追跡フレームワークであり,BEE24データセットで最先端の性能を達成した。
    • HOTAが48.4,MOTAが67.8,IDF1が64.5と,既存の追跡手法を上回る結果を示した。
    • Q-ゲート型注意機構は,密な追跡シナリオにおいて,シンプルかつ効果的な注意機構の構成要素であることが示された。

    Link: https://arxiv.org/abs/2604.26353

  • CO-EVO:連合学習における意味的アンカーとスタイル多様性の共進化によるドメイン汎化ReID [cs.CV, cs.LG]目的:分散環境下での人物再識別モデルのドメイン汎化性能向上
    • プライバシー保護が重要視される中,分散データを用いた学習が求められている。
    • 分散データはカメラの特性に依存した偏りを含み,汎化性能を阻害する要因となる。
    • 意味的特徴とスタイル多様性を同時に最適化し,汎化性能の向上を目指す。
    • 提案手法CO-EVOは,意味的アンカーとスタイル多様化を共進化させることで,ドメイン固有の偏りを抑制する。
    • カメラ不変な意味的アンカーにより,ドメインに依存しない人物特徴を学習する。
    • グローバルカメラスタイルバンクを活用し,多様な視覚的摂動を生成することで,モデルのロバスト性を向上させる。

    Link: https://arxiv.org/abs/2604.26363

  • 固定公式を超えて:効率的な拡散モデルのためのデータ駆動型線形予測子 [cs.CV, cs.LG]目的:拡散モデルにおける効率的な推論のための線形予測子の開発
    • 拡散モデルは高性能だが,計算コストが高いことが課題である。
    • 既存の高速化手法は,スキップ数が多い場合に性能が低下する。
    • 学習可能な線形予測子を用いて,推論コストを削減することを目指す。
    • 提案手法L2Pは,わずか20秒の学習で過去の軌跡から現在の特徴量を正確に再構築する。
    • FLUX.1-devにおいて,FLOPsを4.55倍,処理時間を4.15倍削減する性能を示した。
    • Qwen-Imageモデルでは,最大7.18倍の加速下でも高い画質を維持し,既存手法よりも優れた結果を得た。

    Link: https://arxiv.org/abs/2604.26365

  • 緊急対応要員向けシームレスな屋内屋外マッピング [cs.CV]目的:大規模災害における緊急対応能力の向上
    • 災害時の迅速な状況把握が不可欠であり,正確な3Dモデルが活動を支援する。
    • 屋内と屋外の情報を統合したシームレスな3Dモデルの構築が困難である。
    • 自律飛行システムと屋内位置特定システムを連携させ,屋内屋外シームレスモデルの構築を目指す。
    • 航空機による屋外マッピングと,AprilTagsを用いた屋内位置特定システムを組み合わせることで,位置合わせを自動化。
    • AprilTagsの座標情報を活用し,GPSを用いずに屋内空間の点群を作成し,屋外点群と統合。
    • 屋内屋外の点群をリアルタイムで可視化し,シームレスな3Dモデルを実現した。

    Link: https://arxiv.org/abs/2604.26368

  • トポロジーを考慮した表現アラインメントによる半教師あり視覚言語学習 [cs.CV, cs.LG, math.AT]目的:半教師あり視覚言語学習における表現アラインメント手法
    • 視覚言語モデルは強力だが,専門領域への汎化性能が課題。
    • 既存手法はペアワイズなアプローチであり,多次元表現の全体構造を捉えきれていない。
    • トポロジーに着目し,より安定した表現アラインメントを実現する。
    • 提案手法ToMAは,持続ホモロジーを用いてトポロジー的に重要なエッジを特定し,クロスモーダル対応を通じてアラインメントする。
    • ToMAは,H_0-deathエッジと軽量なH_1-birthエッジを活用することで,接続性とサイクル構造を捉える。
    • リモートセンシングおよびファッション検索の実験で,ToMAが安定した性能向上を示すことが確認された。

    Link: https://arxiv.org/abs/2604.26370

  • 統合脳波-ビデオ発作検出のためのマルチモーダル事前学習ネットワーク [cs.CV]目的:マウスモデルにおける発作検出の信頼性向上
    • 前臨床エピレプシー研究において,マウスモデルでの確実な発作検出は不可欠である。
    • ビデオまたは脳波単独のシステムでは,それぞれ誤検出やアーチファクトの影響を受けやすい。
    • 脳波とビデオ情報を統合し,誤検出を減らしつつ発作検出の精度を高める。
    • 提案手法EEGVFusionは,ランダム分割評価でBalanced Accuracy 0.9957,完全なイベント感度,Event FAR 0.6250 FP/hを達成した。
    • 単一被験者評価では,Balanced Accuracy 0.9718を達成し,Event FARを2.7250 FP/hから0.4833 FP/hに削減した。
    • 脳波事前学習とOTアライメントが誤検出削減とイベント感度維持に貢献することが示された。

    Link: https://arxiv.org/abs/2604.26379

  • Vision Foundationモデルを用いた少数ショット産業用物体検出のための分離型プロトタイプマッチング [cs.CV]目的:少数ショット産業用物体検出における課題解決
    • 産業界では,頻繁な製品変更に対応するため,物体検出システムの維持コストが課題。
    • 十分なアノテーション付きデータセットの作成が困難であり,新規オブジェクトへの対応が遅れる。
    • 少ないラベルデータで新規オブジェクトを検出できる手法を確立し,産業応用を促進する。
    • Vision Foundationモデルを活用し,少ない教師データでの物体検出を実現した。
    • プロトタイプマッチングにより,既存手法と比較してAPを6.9%向上させた。
    • CADモデルや大規模データセットを必要とせず,新規オブジェクトの迅速な導入が可能。

    Link: https://arxiv.org/abs/2604.26404

  • スパース性に着目:外挿分布検出のための潜在構造からの新たな知見の解明 [cs.CV]目的:外挿分布検出のための潜在構造の解明
    • 大規模言語モデルやVision Transformer等の深層学習モデルの信頼性向上は重要である。
    • 既存の外挿分布検出手法は,特徴表現が複雑に絡み合っている点が課題である。
    • スパースオートエンコーダを用いて特徴を解きほぐし,外挿分布検出性能の向上を目指す。
    • スパースオートエンコーダをViTの[CLS]トークンに適用し,特徴空間を構造化された潜在空間に分解した。
    • 分布内データは一貫したクラス固有の活性化パターン(CAPs)を示すことが明らかになった。
    • 外挿分布データはCAPsの構造を系統的に破壊することが確認され,その乖離度に基づくスコアリング関数が有効であることが示された。

    Link: https://arxiv.org/abs/2604.26409

  • 談話における感情推移を考慮した音声キャプション化のためのデータセットとパイプライン [cs.CL, cs.SD]目的:談話レベルにおける感情推移を考慮した音声キャプション化
    • 人間とエージェント間のインタラクションにおいて,感情の認識と表現は不可欠である。
    • 既存の音声感情キャプション化システムは,孤立した文における静的な感情表現に限定されており,談話レベルの感情推移を捉えられていない。
    • 談話レベルの感情推移を捉えた音声キャプション化を可能にし,より高度な感情理解を促進すること。
    • 感情推移を明示的に捉えた大規模データセットEmoTransCapを構築した。
    • MTETRモデルにより,感情推移の検出と話者分離を同時に行うことで,より豊かな意味記述を生成した。
    • 生成されたデータセットとアノテーションは,感情認識と表現能力の向上に貢献し,感情豊かな対話型エージェントの開発を支援する。

    Link: https://arxiv.org/abs/2604.26417