arXiv雑要約

画像・音声 - 2026/03/17 公開

  • 階層型グラフTransformerによるマスクBRep自動エンコーダ [cs.GR, cs.LG]目的:CADモデルからの表現学習
    • 製造業において,CADモデルの活用は不可欠であり,効率的な処理が求められている。
    • 従来のCADモデル処理は,教師あり学習に依存しており,ラベル付きデータの準備にコストがかかる。
    • 少ないラベルデータでも高い性能を発揮する表現学習手法の開発が望まれている。
    • 本研究では,自己教師あり学習フレームワークを提案し,CADモデルの表現を自動的に学習することに成功した。
    • 提案手法は,マスクされたBRepモデルを再構成することで,汎化性能を高めている。
    • 実験結果から,少ないラベルデータでも既存手法を上回る性能が確認され,実用性と汎用性が示された。

    Link: https://arxiv.org/abs/2603.14927

  • ビデオCoE:イベントの連鎖によるビデオイベント予測の強化 [cs.CV]目的:ビデオイベント予測の精度向上
    • ビデオ理解は,監視,ロボット工学,自動運転など,多様な応用分野で不可欠である。
    • 既存のマルチモーダル大規模言語モデルは,ビデオイベント予測において,時間的なモデリングや論理的推論が不十分である。
    • 視覚情報と論理的繋がりを強化し,モデルの推論能力を高めることで,ビデオイベント予測の精度向上を目指す。
    • 提案手法CoEは,イベントの連鎖を構築することで,モデルが視覚情報と将来イベント間の論理的関係に焦点を当てられるようにする。
    • CoEは,複数の学習プロトコルを通じてモデルの推論能力を促進する。
    • 公開ベンチマークにおいて,既存のオープンソースおよび商用MLLMを上回り,ビデオイベント予測の新たな最先端性能を確立した。

    Link: https://arxiv.org/abs/2603.14935

  • テキスト画像拡散における関連フィードバック:トレーニングフリーかつモデル非依存のインタラクティブフレームワーク [cs.CV]目的:テキスト画像拡散モデルにおけるユーザーの視覚的意図と生成画像の整合性向上
    • 画像生成技術の発展は,多様な表現を可能にするが,ユーザーの意図を正確に反映することが課題。
    • 自然言語による指示が曖昧になりやすく,ユーザーの意図と生成画像のずれが生じやすい。
    • ユーザーの認知負荷を軽減し,視覚的意図を正確に反映した画像生成を実現すること。
    • RFDは,情報検索の関連フィードバックメカニズムを拡散モデルに適用することで,テキストによる対話の必要性を低減。
    • ユーザーは明示的なテキスト入力の代わりに,視覚的なフィードバックを選択するだけで複雑な意図を表現できる。
    • RFDは,トレーニングやモデルの変更を必要とせず,汎用的なプラグアンドプレイソリューションとして機能し,高い精度を達成。

    Link: https://arxiv.org/abs/2603.14936

  • FAR-Drive:閉ループ型自律運転におけるフレーム自己回帰的ビデオ生成 [cs.CV]目的:自律運転のための閉ループ型シミュレーション環境の構築
    • 自律運転システムの信頼性向上には,大規模かつインタラクティブなシミュレーション環境が不可欠である。
    • 既存のビデオ生成モデルはオープンループであり,エージェントの行動と環境変化の間の微細な相互作用をサポートできない。
    • 本研究は,長時間の時間的一貫性,自己回帰的劣化,低遅延という課題を解決する。
    • 提案手法FAR-Driveは,幾何学的に整合性の高いマルチカメラ生成を可能にするマルチビュー拡散Transformerを用いる。
    • 適応的な参照ホライズン条件付けとブレンド強制自己回帰的訓練により,一貫性と自己条件付け下での堅牢性が向上する。
    • nuScenesデータセットを用いた実験により,本手法が既存手法を凌駕し,シングルGPU上でサブセカンドの低遅延を実現する。

    Link: https://arxiv.org/abs/2603.14938

  • シーン生成と計画の架け橋:視覚と運動表現の統合によるワールドモデルを用いた自動運転 [cs.CV]目的:視覚と運動表現を統合したワールドモデルによる自動運転システムの開発
    • 自動運転技術は,交通渋滞の緩和や交通事故の減少に貢献し,社会全体の効率化に繋がる重要な分野である。
    • 既存のワールドモデルは視覚表現に偏っており,計画に利用可能な運動表現が十分ではないという課題がある。
    • 視覚と運動表現を統合することで,より精確な計画と安全な自動運転を実現することを目的とする。
    • 提案手法WorldDriveは,視覚と運動表現を統合し,シーン生成とリアルタイム計画を組み合わせることで,高い計画性能を実現した。
    • WorldDriveは,NAVIM,NAVIM-v2,nuScenes等のベンチマークにおいて,視覚情報のみを用いる手法の中で最高水準の性能を達成した。
    • WorldDriveは,高精度なアクション制御ビデオ生成能力を維持しながら,強固な自動運転を実現することを示した。

    Link: https://arxiv.org/abs/2603.14948

  • GT-PCQA:MLLMを用いた幾何学的・テクスチャ分離型点群品質評価 [cs.CV]目的:点群の品質評価手法
    • 点群データは,自動運転やロボティクスなど幅広い分野で活用が拡大しており,その品質評価が重要である。
    • 既存の点群品質評価データセットは規模が小さく,大規模言語モデルの安定した学習が困難である。
    • 大規模言語モデルがテクスチャに偏った推論を行う点を改善し,幾何学的構造の変化に敏感に評価する。
    • 提案手法GT-PCQAは,2D画像データと3D点群データを共同で学習する戦略により,限られた点群データでも効果的な学習を実現した。
    • 幾何学的特徴とテクスチャ特徴を分離するプロンプトと最適化手法を導入することで,テクスチャへの偏りを抑制し,幾何学的構造の劣化をより正確に評価できるようになった。
    • 実験結果から,GT-PCQAは既存手法と同等以上の性能を示し,高い汎化性能を有することが確認された。

    Link: https://arxiv.org/abs/2603.14951

  • 薄雲汚染されたリモートセンシング画像のパンシャープニング:統一的なフレームワークとベンチマークデータセット [cs.CV]目的:薄雲汚染されたリモートセンシング画像のパンシャープニング手法の開発
    • リモートセンシング技術は,地球観測や環境モニタリングにおいて不可欠な役割を担っている。
    • 薄雲による画像劣化は,空間分解能の低下とスペクトル歪みを引き起こし,パンシャープニングの精度を阻害する。
    • 既存手法の課題を克服し,雲とパンシャープニングを同時に処理することで,より高精度な画像復元を目指す。
    • 提案手法Pan-TCRは,周波数解耦復元(FDR)ブロックと相互周波数整合性(IFC)モジュールを統合し,雲にロバストな復元と高解像度構造の強調を実現した。
    • 実データと合成データを用いた実験により,Pan-TCRが既存手法を上回る性能とロバスト性を示すことが確認された。
    • 新たに構築したベンチマークデータセットPanTCR-GF2は,現実的な条件下での評価を可能にし,今後の研究を促進する。

    Link: https://arxiv.org/abs/2603.14952

  • 質問認識を用いたキーフレーム選択:合成教師あり学習による動画質疑応答 [cs.CV, cs.AI]目的:動画質疑応答におけるキーフレーム選択手法
    • 動画理解はAI研究の重要課題であり,その効率化が求められている。
    • 従来のキーフレーム選択は,教師データ不足と冗長な選択が課題であった。
    • LMMを活用し,効率的かつ多様なキーフレーム選択を実現する。
    • 提案手法は,NExT-QAデータセットにおいて,特に時間的・因果的な質問に対して高い精度向上を示した。
    • LMMから得られる擬似的なキーフレームラベルが,効果的な教師信号となることが示された。
    • 時間軸に沿った多様な証拠を促すカバレッジ正則化が,キーフレーム選択の有効性を高めている。

    Link: https://arxiv.org/abs/2603.14953

  • CyCLeGen:ビジョンファウンデーションモデルにおけるサイクル一貫性のあるレイアウト予測と画像生成 [cs.CV]目的:ビジョンと言語を統合した汎用モデルの構築
    • 画像認識と生成は,AI研究の根幹であり,多様な応用分野で重要性が増している。
    • 既存モデルは,認識と生成に異なるモジュールを使用し,統合的な学習が困難であった。
    • サイクル一貫性を利用した自己改善により,モデルの性能向上を目指す。
    • CyCLeGenは,画像とレイアウト間のサイクル一貫性のある生成ループを通じて,画像理解と生成を統一的に行う。
    • この統合的なアプローチにより,モデルは自身の生成を内省し,合成的な教師信号を用いて自己改善できる。
    • 様々なベンチマークにおいて,画像理解と生成の両方で大幅な性能向上が確認された。

    Link: https://arxiv.org/abs/2603.14957

  • GeoNVS:幾何学に基づいたビデオ拡散による新規視点合成 [cs.CY, cs.CV]目的:新規視点合成における3次元幾何学的整合性と視覚的な一貫性の向上
    • 仮想現実や拡張現実等の応用において,リアルな視点変化を実現する技術は重要である。
    • 既存のカメラ制御型ビデオ拡散モデルは,幾何学的歪みやカメラ制御の自由度の低さに課題がある。
    • 3次元幾何学的な制約を導入し,幾何学的整合性とカメラ制御性を向上させることを目指す。
    • 提案手法GeoNVSは,Gaussian Splat Feature Adapter (GS-Adapter)により,特徴空間で幾何学的な制約を加え,幾何学的に不整合な表現を修正する。
    • GS-Adapterは,様々な前方生成幾何モデルに対応可能であり,追加学習なしにゼロショットで利用できる。
    • 実験結果から,GeoNVSはSEVAやCameraCtrlと比較して,翻訳誤差とChamfer Distanceを大幅に削減し,最先端の性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.14965

  • LiDARプレース認識のためのホワイト化された距離指標を用いたボロノイベースの二次の記述子 [cs.RO, cs.CV, cs.RO]目的:LiDARプレース認識における,局所記述子の集約と,それに基づく大域記述子の構築
    • LiDARプレース認識は,ロボットや自動運転車の位置認識に不可欠であり,環境地図の作成と利用に重要な役割を果たす。
    • 既存の記述子学習手法は,ユークリッド距離への適合性が低く,数値的な不安定性を抱える場合がある。
    • ボロノイセルからの誘導的バイアスを組み込むことで,記述子の表現能力を向上させ,数値的安定性を確保すること。
    • 提案手法は,二次の統計量に基づき,局所記述子を効果的に集約し,大域記述子を生成する。
    • ホワイト化処理により,マハラノビス距離を暗黙的に計測し,クラスタリング特性を維持することで,認識精度を向上させる。
    • Oxford RobotcarとWild-Placesベンチマークでの実験により,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2603.14974

  • テキストによる感情の固定:模倣強度推定のためのロバストなマルチモーダル融合 [cs.MM, cs.CV]目的:感情模倣強度推定のための新しいマルチモーダルフレームワーク
    • 感情模倣強度の推定は,自然な環境における感情計算において重要である。
    • 物理的信号のノイズや欠損により,異質モーダリティ間の複雑な時間的ダイナミクスを効果的にモデル化することが難しい。
    • 本研究は,テキストをアンカーとして利用し,ノイズの影響を軽減し,ロバストな推定を実現することを目指す。
    • 提案手法TAEMIは,テキスト情報を中心とした注意メカニズムにより,ノイズの影響を抑制し,感情の微妙な変化を捉える。
    • 欠損モーダリティへの対応として,学習可能なトークンとドロップアウト戦略を導入し,実環境での性能劣化を防ぐ。
    • Hume-Vidmimic2データセットでの実験により,TAEMIが最先端の性能を達成し,既存手法を大きく上回ることが示された。

    Link: https://arxiv.org/abs/2603.14976

  • 流体・粒状流の適応GPUキネティックソルバー [cs.RO, cs.GR]目的:流体・粒状流シミュレーションにおける物理的忠実性と計算効率の向上
    • 自然災害,産業プロセス,コンピュータグラフィックスなど,幅広い分野で流体・粒状流の理解が重要である。
    • 流体と粒状媒体の強い非線形結合により,大規模シミュレーションにおいて物理的精度と計算効率を両立することが困難である。
    • 格子ボルツマン法と物質点法を組み合わせることで,大規模な流体・粒状流シミュレーションを効率的に行うことを目指す。
    • 格子ボルツマン法と物質点法を統合したフレームワークを提案し,効率的なメモリ使用量と計算性能を実現した。
    • 動的な多階層ブロック管理アルゴリズムにより,粒子運動に応じた多階層ブロックをGPU上で効率的に維持することを可能にした。
    • 雪崩,砂嵐,砂の移動など,多様な大規模現象をシミュレーションし,高い物理的忠実性と計算効率を実証した。

    Link: https://arxiv.org/abs/2603.14982

  • 畳み込み型盲目分離におけるバイナリマスクのケプストラム平滑化 [cs.SD]目的:音声混合信号からの音声分離システム
    • 複数話者の音声分離は,会議システムや補聴器など,様々な応用において重要である。
    • 従来の音声分離手法では,音楽的なノイズが残存することが課題となっていた。
    • 時間周波数マスキングに起因する音楽的ノイズを低減し,分離性能を向上させる。
    • 本研究では,盲目源分離技術とバイナリマスクのケプストラム平滑化を組み合わせた新たな分離システムを提案した。
    • シミュレーションと実録音を用いた実験により,提案手法の有効性が確認された。
    • ケプストラム平滑化によって,時間周波数マスキングによる音楽的ノイズを効果的に低減できることが示された。

    Link: https://arxiv.org/abs/2603.14983

  • MMSpec:ビジョン言語モデルにおける推測デコーディングのベンチマーク [cs.CL, cs.DB, cs.AR, cs.CV]目的:ビジョン言語モデルにおける推測デコーディングの評価基準
    • マルチモーダルタスクにおいて,ビジョン言語モデルの重要性が増しているため。
    • モデルの規模拡大と長いマルチモーダルコンテキストにより,推論速度が課題となっている。
    • 推測デコーディングのビジョン言語モデルにおける挙動の理解と高速化を目指す。
    • 既存のテキストLLM向け手法は,マルチモーダル環境では性能が低下する傾向があることが示された。
    • バッチサイズが大きいほど,ビジョン情報の活用がより重要になることが明らかになった。
    • スループットの向上だけでは,必ずしも低遅延性能に繋がらないことが判明した。ViSkipは,ビジョン表現への適応的な推測により,最先端の性能を達成する。

    Link: https://arxiv.org/abs/2603.14989

  • 単眼ORB-SLAM3のための再帰型ネットワークによる熱画像精緻化 [cs.CV, cs.RO]目的:単眼熱カメラを用いたリアルタイム深度推定とSLAM
    • GPS非利用環境や視認性不良環境下での自律航行は,UAVにとって依然として課題である。
    • 従来のSLAMは可視光カメラに依存しており,暗所や悪天候下での性能が低い。
    • 熱画像と深度推定を組み合わせることで,ロバストなSLAMを低コストで実現する。
    • 提案手法は,再帰ブロックを組み込んだ軽量なネットワークで熱画像から深度情報を推定する。
    • 本手法は,高価な放射計装熱カメラを必要とせず,非放射計装データセットで学習可能である。
    • 実験結果から,提案手法は低照度下で競争力のある深度精度とロバストなSLAM性能を示す。

    Link: https://arxiv.org/abs/2603.14998

  • Edit2Interp: 少ないサンプル学習による画像編集モデルの空間編集から動画フレーム補間への適応 [cs.CV]目的:動画フレーム補間における画像編集モデルの適応可能性
    • 画像認識技術の進展は,画像編集や動画生成といった応用分野に大きな影響を与えている。
    • 動画生成には大量のデータが必要であり,リソースが限られた環境下での学習が課題となっている。
    • 本研究は,少ないデータで動画生成を可能にする新たな手法を提示する。
    • 事前学習済みの画像編集モデルが,わずかな追加学習で動画フレーム補間能力を獲得できることを示した。
    • 画像内のオブジェクト変形に関するモデルの潜在的な時間的推論能力が,少ないサンプルで活性化されることがわかった。
    • 画像編集モデルが,動画生成における新たな可能性を秘めていることを明らかにした。

    Link: https://arxiv.org/abs/2603.15003

  • 手がかりが重要である:潜在的な視覚的手がかりを活用してビデオの推論を強化する [cs.CL, cs.CV]目的:ビデオの推論における視覚的手がかりの活用
    • マルチモーダル大規模言語モデルの発展に伴い,ビデオ理解の精度向上が求められている。
    • 既存モデルは,時間的な因果関係の推論や根拠に基づいた回答生成が課題である。
    • 視覚的手がかりの抽出,フィルタリング,回答との整合性を高めることで,幻覚を抑制し,解釈可能性を向上させる。
    • 提案手法ClueNetは,NExT-QA,STAR,MVBenchにおいて最先端手法を1.1%以上上回る性能を示した。
    • 手がかりの抽出と連鎖的な推論を分離した監督学習により,汎化性能と推論効率が向上した。
    • 適応的な手がかりフィルタリングにより,高次の推論が洗練され,モデルの互換性が高まった。

    Link: https://arxiv.org/abs/2603.15008

  • 分子識別子視覚プロンプトと検証可能な強化学習による化学反応図の構文解析 [cs.CV]目的:化学反応図の構文解析における精度と汎化能力の向上
    • 化学合成情報の抽出は,創薬や材料科学の発展に不可欠である。
    • 既存のVision-Languageモデルは,化学構造と事前知識の整合性の欠如に課題がある。
    • 視覚プロンプトと強化学習を通じて,この課題を克服し,構文解析の性能向上を目指す。
    • 分子識別子を視覚プロンプトとして活用するIdtVPを提案し,ゼロショット学習と分布外性能を向上させた。
    • Re3-DAPOという検証可能な報酬に基づく強化学習アルゴリズムを導入し,反応レベルの評価指標を直接最適化することで,性能を改善した。
    • 現実世界のアーティファクトを含むスキャンされた反応図のベンチマークScannedRxnを公開し,モデルのロバスト性と汎化能力を評価した。

    Link: https://arxiv.org/abs/2603.15011

  • リーマン運動生成:リーマン流マッチングによる人間運動の表現と生成のための統一的フレームワーク [cs.RO, cs.CV, stat.ML]目的:人間運動の表現と生成のための統一的フレームワーク
    • 人間運動は複雑であり,その自然な生成はコンピュータグラフィックス,ロボティクス,VR/AR等の分野で重要である。
    • 従来の人間運動生成手法はユークリッド空間で学習されることが多く,運動が持つ内在的な非ユークリッド幾何構造を考慮していない。
    • リーマン幾何学に基づくフレームワークにより,より自然で高品質な人間運動の生成を目指す。
    • 提案手法RMGは,人間運動を積多様体上で表現し,リーマン流マッチングを用いて運動のダイナミクスを学習する。
    • HumanML3DおよびMotionMillionデータセットにおいて,既存手法を上回る結果が得られ,高品質な人間運動の生成が可能であることが示された。
    • 特に,並進+回転のコンパクトな表現が安定かつ効果的であることが確認された。

    Link: https://arxiv.org/abs/2603.15016

  • 多視点整合性最大化による参照不要全方向ステレオマッチング [cs.CV]目的:多眼魚眼レンズステレオマッチングによる信頼性の高い全方向深度推定
    • ロボット工学などの応用において,周囲環境の正確な理解が不可欠であるため。
    • 従来の技術では,幾何学的関係の利用が不十分で,大域的な依存関係や視認性,スケール変化に対応できない。
    • 多視点整合性最大化により,オクルージョンや部分的なオーバーラップ,異なるベースラインにも対応可能な手法を開発する。
    • 提案手法FreeOmniMVSは,ペアごとの相関を統合し,視認性を考慮したグローバルな合意を形成することで,ロバストな深度推定を実現する。
    • 新しいView-pair Correlation Transformer (VCT)により,カメラペア間の相関を明示的にモデル化し,オクルージョンや焦点のぼけによる信頼性の低いペアを除外する。
    • 軽量なアテンションメカニズムにより,相関ベクトルを適応的に融合し,参照となる視点なしで全カメラがステレオマッチングに均等に貢献する。

    Link: https://arxiv.org/abs/2603.15019

  • MER-Bench:マルチモーダルミーム再評価のための包括的ベンチマーク [cs.CV, cs.CL]目的:ネガティブなミームを建設的なものへと変換するタスク
    • ミームは社会的な表現形態であり,感情や意見を伝える上で重要な役割を果たす。
    • 既存の研究では,ミームの構造維持や感情制御といった制約を同時に満たすことが困難である。
    • ミームの感情制御と構造維持を両立させるための評価基盤を構築すること。
    • MER-Benchは,ミームの感情,テキスト,編集仕様,構造に関する詳細なアノテーションを含む大規模なベンチマークである。
    • 提案された評価フレームワークは,生成品質,感情制御,構造維持,全体的な感情整合性を評価する。
    • 既存システムでは,構造維持,意味整合性,感情変換の制約を満たすことが難しいという課題が明らかになった。

    Link: https://arxiv.org/abs/2603.15020

  • 全てのスキャンプロトコルを統べるCT統一モデル学習フレームワーク [cs.DB, cs.CV]目的:非理想計測CTにおける画質向上
    • CT検査は診断に不可欠だが,被ばく線量を低減する必要がある。
    • 既存の非理想CTの画像再構成手法は,スキャンプロトコルの多様性に起因する汎化性能の低さが課題である。
    • 本研究は,スキャンプロトコル間の差異を考慮し,汎化性能の高い再構成手法を開発することを目的とする。
    • 提案手法は,不確実性に基づいた多様なサンプル生成により,スキャンプロトコル間の断片化された特徴空間を繋ぎ合わせる。
    • 分類器と動的な特徴抽出機構を組み合わせることで,共通特徴とドメイン固有の特徴の両方を効果的に学習する。
    • 公開データセットを用いた実験により,様々な生成パラダイムにおいて提案手法の有効性が検証された。

    Link: https://arxiv.org/abs/2603.15025

  • 生成動画の空間的・時間的尤度による学習不要な検出 [cs.CV, cs.LG]目的:生成動画の検出手法
    • テキストや画像生成技術の進展に伴い,動画生成も急速に進んでおり,その信頼性確保が重要である。
    • 画像ベースの検出器は時間情報を無視し,教師あり学習の動画検出器は未知の生成モデルへの汎化性能が低い。
    • リアルデータ統計に基づく,学習不要でモデルに依存しない検出手法の開発を目指す。
    • 提案手法STALLは,空間情報と時間情報を確率的枠組みで統合し,尤度に基づいた動画のスコアリングを実現する。
    • 既存の画像ベースおよび動画ベースの検出器と比較して,複数のベンチマークで一貫して優れた性能を示す。
    • 最先端の生成モデルを用いた新しいベンチマークComGenVidを新たに導入した。

    Link: https://arxiv.org/abs/2603.15026

  • PhonemeDF:音声ディープフェイク検出と自然性評価のための合成音声データセット [cs.SD]目的:音声ディープフェイク検出と自然性評価のための合成音声データセット
    • AI技術の進化に伴い,音声合成の高度化が進み,その利用が拡大している。
    • 音声認証セキュリティや偽情報対策において,合成音声による悪用のリスクが高まっている。
    • 音素レベルでの自然性評価リソースが不足している現状を解決する。
    • PhonemeDFは,LibriSpeechと複数のTTS/VCシステムを用いて作成された音素レベルで分割された並列実音声と合成音声データセットである。
    • 実音声と合成音声の音素分布間のKullback-Leibler divergence (KLD) を算出し,自然な音声との類似度に基づいたランキングを確立した。
    • KLDとディープフェイク検出性能の間に相関関係が認められ,KLDが識別力の高い音素の指標となりうることが示唆された。

    Link: https://arxiv.org/abs/2603.15037

  • GUI-CEval: モバイルGUIエージェントのための階層的かつ包括的な中国語ベンチマーク [cs.CV]目的:モバイルGUIエージェントの性能評価
    • モバイルGUIエージェントは,視覚認識と対話を通じてユーザーを支援する重要な技術である。
    • 既存のベンチマークは英語中心であり,中国語のモバイル環境に適した評価が困難である。
    • 中国語環境におけるモバイルGUIエージェントの全能力を評価する包括的なベンチマークの提供。
    • GUI-CEvalは,201種類のアプリと4種類のデバイスを網羅する,初の中国語対応の包括的ベンチマークである。
    • Qwen2.5-VLやUI-TARSなどのモデルは競争力があるものの,多くのMLLMは反射的な意思決定や自己評価に課題がある。
    • GUI-CEvalは,モバイルGUIエージェントの能力診断と開発を促進するための包括的かつ解釈可能なベンチマークを提供する。

    Link: https://arxiv.org/abs/2603.15039

  • SRL-MAD:構造化された残差潜在空間によるワンクラスモルフィング攻撃検出 [cs.CV]目的:モルフィング攻撃の検出
    • 顔認証システムにおけるセキュリティ確保が重要であり,モルフィング攻撃はその大きな脅威となる。
    • 既存のモルフィング攻撃検出は,攻撃サンプルを必要とするため,未知の攻撃への対応が課題である。
    • 正常な顔画像のみで学習し,異常な構造を検出することで,未知の攻撃に対応することを目指す。
    • SRL-MADは,構造化された残差フーリエ表現を用いて,オープンセットでのモルフィング攻撃検出を行う。
    • 周波数帯域間の相互作用を学習することで,モルフィング攻撃特有のアーティファクトを捉え,高い識別能力を実現する。
    • FERET-Morph,FRLL-Morph,MorDIFFの評価において,既存のワンクラスおよび教師ありモデルを上回る性能を示した。

    Link: https://arxiv.org/abs/2603.15050

  • 顔埋め込みの識別能力向上:属性を意識した学習による改善 [cs.CL, cs.CV]目的:顔埋め込みの識別能力向上
    • 顔認識技術は重要である。年齢,ポーズ,遮蔽の変化に対するロバスト性が課題。
    • 従来の属性を用いた学習は,属性の重要度を均等に扱っており,最適とは言えない。
    • 属性の重要度を考慮し,顔認識の識別能力を向上させる。
    • 顔認識と顔の属性を同時に学習することで,顔埋め込みの識別能力が向上することが示された。
    • ID関連属性のサブセットを使用することが,より広範な属性セットを用いるよりも一貫して優れている。
    • ID非関連属性を学習させないようにすることで,さらに性能が向上することが確認された。

    Link: https://arxiv.org/abs/2603.15062

  • 話者発話からの反応性リスナーモーション生成 [cs.CV, cs.AI, cs.HC, cs.MM, cs.SD]目的:話者発話に対する適切なリスナーの身体動作の生成
    • 人間は言葉だけでなく,非言語的な動きも通してコミュニケーションを行うため,自然な人間らしいインタラクションを実現するには不可欠である。
    • リスナーの反応は多様であり,単一の正解が存在しないため,従来のモーション生成手法では適切性を評価することが困難であった。
    • 話者の発話内容に応じて,より自然で多様かつ適切なリスナーの反応を生成するモデルを開発することを目指す。
    • ReactMotionNetという大規模データセットを構築し,話者発話と複数の候補となるリスナーモーションを紐付け,多様な適切度の情報を付与した。
    • 反応性における適切性を評価するための,入力とモーションの整合性のみに着目しない,嗜好に基づいた評価プロトコルを提案した。
    • テキスト,音声,感情,モーションを共同でモデル化するReactMotionを提案し,嗜好に基づいた目的関数で学習することで,より自然で多様なリスナーモーションを生成した。

    Link: https://arxiv.org/abs/2603.15083

  • 限られた不完全なデータからの学習:NSCLCにおける病理学的反応予測のためのマルチモーダルフレームワーク [cs.CV]目的:NSCLCにおける病理学的反応予測のためのマルチモーダルフレームワーク
    • 肺がん治療において,病理学的完全奏効は予後と密接に関連し,治療効果評価の重要な指標である。
    • 臨床現場では,データ不足や臨床情報の欠損が頻繁であり,正確な術前予測は困難である。
    • 限られたデータと欠損情報下でも,画像と臨床情報を統合し,よりロバストな予測を目指す。
    • 本研究で提案するマルチモーダル深層学習フレームワークは,画像特徴抽出と欠損値対応アーキテクチャを組み合わせている。
    • このアプローチにより,小規模コホートでも,欠損臨床情報を明示的にモデル化し,堅牢な学習が可能となる。
    • 画像と臨床モダリティの相乗効果により,単一モダリティのベースラインモデルを上回る性能が示された。

    Link: https://arxiv.org/abs/2603.15100

  • PAKAN:パンシャープニングのためのピクセル適応型コルモゴロフ・アーノルドネットワークモジュール [cs.RO, cs.CV]目的:パンシャープニングにおけるネットワーク性能の向上
    • 高解像度画像と多波長画像の融合は,リモートセンシング分野において重要な課題である。
    • 既存の深層学習モデルは,静的な活性化関数に依存しており,複雑な空間-スペクトル融合を捉えきれていない。
    • ピクセル適応型活性化関数を用いることで,動的な空間-スペクトル融合を可能にし,パンシャープニング性能を向上させる。
    • 提案手法PAKANは,空間次元とスペクトル次元それぞれに適応的な活性化関数を導入することで,特徴抽出と特徴洗練を効果的に行う。
    • 実験結果から,PAKANモジュールが既存手法と比較して,パンシャープニング性能を大幅に向上させることが示された。
    • ピクセル適応型活性化関数の有効性が,パンシャープニングタスクにおいて証明された。

    Link: https://arxiv.org/abs/2603.15109

  • サンプリングによる能動的特徴選択ポリシーの探索 [cs.LG, cs.CV]目的:機械学習予測モデルにおける最適な特徴の選択
    • 機械学習の性能向上には,適切な特徴選択が不可欠である。
    • 全てのインスタンスに有効な特徴を見つけることは困難である。
    • 大規模データセットにおける効率的な特徴選択手法の確立。
    • 提案手法は,既存の最先端手法と比較して,精度とポリシーの複雑さの両方において優れた性能を示した。
    • ヒューリスティック戦略により,大規模データセットへの適用を可能にした。
    • 後付けの正則化戦略により,決定シーケンスを簡素化し,効率的な特徴選択を実現した。

    Link: https://arxiv.org/abs/2603.15110

  • VAREX:ドキュメントからのマルチモーダル構造化抽出のためのベンチマーク [cs.CL, cs.CV]目的:ドキュメントからのマルチモーダル構造化データ抽出に関する基盤モデルの評価
    • 政府文書などの構造化データ抽出は,行政効率化や情報アクセス向上に不可欠である。
    • 既存のベンチマークは,入力形式が単一であり,入力形式が抽出精度に与える影響の分析が困難である。
    • 多様な入力形式でモデルの性能を比較し,構造化データ抽出におけるボトルネックを特定する。
    • 40億パラメータ以下のモデルでは,抽出能力よりも構造化出力の適合性がボトルネックとなっていることが判明した。
    • 20億パラメータでの抽出に特化したファインチューニングにより,大幅な性能向上が確認された。
    • レイアウト保持テキストが,ピクセルレベルの視覚情報よりも高い精度向上をもたらすことが示された。

    Link: https://arxiv.org/abs/2603.15118

  • ALOS2 SARデータの利用に関するチュートリアル:データセット準備,自己教師あり事前学習,およびセマンティックセグメンテーション [cs.CV]目的:ALOS2 SARデータの利用方法に関するガイドライン
    • 衛星画像解析は,地球環境のモニタリングや災害評価など,多岐にわたる分野で重要である。
    • SAR画像はノイズが多く,セマンティックラベリングが困難であるため,機械学習への応用が遅れている。
    • SAR画像における自己教師あり学習の性能向上と,地域特化型モデル開発への貢献を目指す。
    • 自己教師あり事前学習手法SAR-W-SimMIMを導入し,SAR画像におけるスペックルノイズの影響軽減を試みた。
    • SAR-W-MixMAEと比較して,セマンティックセグメンテーション性能の向上が確認された。
    • ALOS2データを用いた日本地域に特化したSARデータセットを構築し,セマンティックセグメンテーションにおける性能改善を実証した。

    Link: https://arxiv.org/abs/2603.15119

  • 視覚に基づく床面計測のための新規カメラ・ロボット較正手法 [cs.RO, cs.CV]目的:視覚に基づく床面計測のためのカメラ・ロボット較正
    • ロボットの自律的な動作には,環境を正確に理解する視覚情報が不可欠である。
    • ロボットに搭載されたカメラを床面計測に活用する試みは少なく,高精度な計測が課題である。
    • レーザートラッカーとカメラの情報を統合し,高精度なロボット・カメラ変換を推定する。
    • 提案手法では,参照プレートを用いてレーザートラッカーとカメラの計測を組み合わせる。
    • プレート姿勢,プレート・カメラ姿勢,ロボット姿勢の推定により,ロボット・カメラ変換を算出する。
    • 実験により,サブミリメートルレベルの再現性が確認された。

    Link: https://arxiv.org/abs/2603.15126

  • ビデオ拡散事前知識を用いた超低ビットレート画像圧縮のための次フレーム復号 [cs.CV]目的:生成画像圧縮における時間的発展の利用
    • 画像圧縮は,データ伝送や保存において重要な役割を担う技術である。
    • 超低ビットレート画像圧縮では,画質と圧縮率のバランスが課題となる。
    • 鮮明でリアルな画像を低ビットレートで圧縮することを目指す。
    • 本手法は,従来のDiffCと比較して,LPIPS,DISTS,FID,KIDにおいて50%以上のビットレート削減を達成した。
    • 復号処理は,意味的に忠実なアンカーフレームから開始されるため,画質とリアリティが向上する。
    • 最大で5倍の復号速度向上も確認された。

    Link: https://arxiv.org/abs/2603.15129

  • 潜在空間におけるRetinex分解を用いた低照度画像強調 [cs.CL, cs.CV]目的:低照度画像強調の技術
    • 画像処理分野において,低照度環境下での視認性向上が重要な課題である。
    • 既存手法では,反射率と照度の正確な分解が困難であり,画像品質の劣化を招く場合がある。
    • 本研究は,より安定かつ高精度なRetinex分解により,低照度画像の強調性能向上を目指す。
    • 提案手法RGTは,潜在空間での分解戦略とU字型コンポーネントリファインナーにより,低照度画像を正常な画像へと変換する。
    • ログ変換と1ピクセルオフセットの導入により,分解の安定性と精度が向上した。
    • 4つのベンチマークデータセットでの実験により,提案手法が競合手法と同等の性能を発揮し,学習過程も安定していることが確認された。

    Link: https://arxiv.org/abs/2603.15131

  • WiT:経路衝突ナビゲーションによるウェイポイント拡散Transformer [cs.CV]目的:画像生成における経路衝突問題の解決
    • 画像生成技術は,現実世界の表現や新たなコンテンツ創造において重要な役割を担う。
    • Flow Matchingモデルはピクセル空間で直接動作するが,経路の衝突が頻発し,生成品質が低下する。
    • 本研究は,中間ウェイポイントを導入することで,ピクセル空間における経路衝突を解消し,生成効率と品質を向上させる。
    • 提案手法WiTは,事前学習済みVisionモデルから投影されたウェイポイントを介して,連続的なベクトル場を分解する。
    • WiTは,経路をウェイポイントへの生成と,ウェイポイントからピクセルへの生成に分割することで,生成経路を効果的に分離する。
    • ImageNet 256x256での実験により,WiTは既存のピクセル空間ベースラインを上回り,JiT訓練の収束を2.2倍に加速した。

    Link: https://arxiv.org/abs/2603.15132

  • Stone Soupにおける非同期マルチセンサー追跡のための文脈認識型センサーモデル [cs.CV]目的:非同期マルチセンサー追跡における文脈認識型センサーモデリング
    • 現実世界のマルチセンサー追跡は,高度な状況認識とデータ融合を必要とするため,重要性が高い。
    • 既存手法では,観測可能性に関する過度な単純化により,センサー間の情報融合が阻害される場合がある。
    • 本研究は,センサーの検出確率とクラッタ密度を状態に依存させて,安定した情報融合を実現する。
    • 提案手法DetectorContextは,既存の追跡器を修正することなく,文脈認識型モデリングを導入できる。
    • 非同期レーダー・ライダーデータを用いた実験により,安定した融合性能とHOTA/GOSPAスコアの向上が確認された。
    • 誤検出数の増加を抑制しつつ,追跡性能の改善に貢献する。

    Link: https://arxiv.org/abs/2603.15137

  • スケーラブルな離散画像生成のための幾何学的認識型教師あり学習 [cs.CV]目的:大規模VQコードブックを用いた離散画像生成モデルの最適化
    • 近年,離散画像生成技術が発展し,VQコードブックサイズ拡大が再構成の忠実度向上に繋がる。
    • 大規模VQコードブックの学習は,モデルサイズ増大と学習時間延長を伴い,困難である。
    • 幾何学的構造の認識を促し,学習の収束速度と生成品質を向上させること。
    • 本研究で提案するSNCEは,近傍トークンに対するソフトなカテゴリ分布を構築する新しい学習目的関数である。
    • SNCEは,コード埋め込みと正解画像埋め込み間の近接度に基づいて確率を割り当てる。
    • ImageNet-256生成,大規模テキスト-画像合成,画像編集タスクにおいて,SNCEは標準的なクロスエントロピーよりも優れた性能を示す。

    Link: https://arxiv.org/abs/2603.15150

  • TextOVSR:テキストによる指示を用いた実世界オペラビデオの超解像度化 [cs.RO, cs.CV]目的:実世界オペラビデオの超解像度化手法の開発
    • 古典的なオペラビデオの保存状態が悪く,高品質な映像の復元が求められている。
    • 既存の超解像度化技術では,オペラビデオ特有の劣化を正確にモデル化することが困難である。
    • テキスト情報を活用することで,より自然で詳細なテクスチャの再構築を目指す。
    • 提案手法TextOVSRは,劣化状況を記述するテキストと内容を記述するテキストの2種類のプロンプトを用いて超解像度化を誘導する。
    • 劣化を抑制するモジュールと,テキスト情報を活用した識別器により,高画質なオペラビデオの復元を実現した。
    • 実験結果から,提案手法が既存手法と比較して,定量的・定性的に優れていることが示された。

    Link: https://arxiv.org/abs/2603.15153

  • CT画像分類のためのVision-Languageモデルに基づく多専門家融合 [cs.CV]目的:多施設間におけるCOVID-19のCT画像分類におけるロバスト性向上
    • 医療画像診断の精度向上は,感染症の早期発見と治療に不可欠である。
    • 多施設間でのデータ収集では,画像取得条件のばらつきが分類精度を低下させる。
    • データソースの違いを考慮したモデル融合により,分類精度のばらつきを抑制する。
    • Stage 1モデルは,マクロF1値0.9711,ACC 0.9712,AUC 0.9791を達成した。
    • Stage 2aとStage 2bは,それぞれAUCスコア0.9864と0.9854を達成した。
    • Stage 3のソース分類器は,ACC 0.9107,F1 0.9114に達し,ソース情報の活用が有効であることを示した。

    Link: https://arxiv.org/abs/2603.15154

  • 大規模ビジョン言語モデルからの軽量分類器への,適応的中間教師転移を用いた知識蒸留 [cs.CV]目的:詳細な視覚的分類のための知識転移
    • 視覚と言語を統合したモデルは,高度な視覚認識能力を持つため重要である。
    • 大規模モデルは計算コストが高く,リソース制約のある環境での利用が難しい。
    • 汎用モデルから軽量モデルへの効率的な知識転移手法を確立すること。
    • 本研究では,適応的な中間教師転移(DAIT)を用いることで,大規模モデルの知識を軽量モデルへ効果的に転移できることを示した。
    • DAITは,ターゲットタスクの指導の下で中間教師を訓練し,識別的な視覚的特徴を強化することで,タスクに特化した知識を蒸留する。
    • FGVC-AircraftとCUB-200-2011データセットにおいて,それぞれ12.63%と8.34%の性能向上を達成し,実用的な高性能モデルの構築に貢献する。

    Link: https://arxiv.org/abs/2603.15166

  • 質問誘導型ビジュアル圧縮とメモリフィードバックによる長期動画理解 [cs.CV]目的:長期動画理解のためのフレームワーク
    • 大規模マルチモーダルモデルにおける長期動画理解の重要性が高まっている。
    • 既存手法では,フレームを独立に圧縮するため,イベント全体の理解が困難である。
    • 過去の視覚情報を活用し,現在の知覚を改善するフィードバック機構を確立する。
    • 提案手法QViC-MFは,質問誘導型マルチモーダル選択的注意(QMSA)を中核とし,質問に関連する視覚情報を保存する。
    • QViC-MFは,MLVUテストで6.1%,LVBenchで8.3%,VNBench Longで18.3%,VideoMME Longで3.7%の性能向上を達成した。
    • 圧縮とメモリフィードバックを反復的に行うことで,効果的な長期動画理解を実現している。

    Link: https://arxiv.org/abs/2603.15167

  • グラフ学習によるクロスアテンションを用いた自閉スペクトラム症分類のためのマルチモーダルコネクトーム融合 [cs.CV, cs.AI]目的:自閉スペクトラム症の分類
    • 脳機能と構造の理解は,神経発達障害の診断と治療において不可欠である。
    • 機能的MRIと構造的MRIは情報が異なり,統合的な解析が難しい。
    • 機能的接続性を重視しつつ,構造的情報も統合することで分類精度向上を目指す。
    • 提案手法は,ABIDE-Iデータセットを用いた10分割交差検証でAUC 87.3%,精度84.4%を達成した。
    • Leave-one-site-out交差検証では平均交差サイト精度82.0%を達成し,既存手法を上回った。
    • マルチサイトデータセットにおける異種データ統合により,自閉スペクトラム症の自動分類性能を向上させた。

    Link: https://arxiv.org/abs/2603.15168

  • スケーラブルかつロバストなエンドツーエンド運転プランナーにおける重要な要素 [cs.RO, cs.AI, cs.CV]目的:エンドツーエンド運転プランナーの学習におけるスケーラビリティとロバスト性の向上
    • 自動運転技術は,安全性向上や交通渋滞緩和に貢献する重要な技術分野である。
    • オープンループデータセットで優位性を示すアーキテクチャが,クローズドループ環境で性能を発揮できない場合がある。
    • クローズドループ環境におけるスケーラビリティとロバスト性を高めるためのアーキテクチャ設計を明らかにすること。
    • 本研究では,高解像度知覚表現,解きほぐされた軌跡表現,生成的プランニングがクローズドループ性能に与える影響を体系的に分析した。
    • その結果,これらの要素の組み合わせにおける予期せぬ制限と,未開拓の相乗効果が明らかになった。
    • BevADという軽量かつスケーラブルな新しいエンドツーエンド運転アーキテクチャを提案し,Bench2Driveベンチマークで72.7%の成功率を達成した。

    Link: https://arxiv.org/abs/2603.15185

  • 並列トークン予測による効率的なドキュメント解析 [cs.DC, cs.OS, cs.CL, cs.CV]目的:ドキュメント解析の効率化
    • ドキュメント解析は,重要な画像認識タスクであり,実用的な応用範囲が広い。
    • 既存のビジョン言語モデルの自己回帰的なデコード処理が,解析速度のボトルネックとなっている。
    • ビジョン言語モデルによる並列トークン予測により,ドキュメント解析の速度向上を目指す。
    • 提案手法である並列トークン予測(PTP)は,モデルに依存せず,ドキュメント解析のデコード速度を大幅に向上させた。
    • OmniDocBenchとolmOCR-benchにおける実験により,PTPは1.6倍から2.2倍の速度向上を達成した。
    • また,モデルの幻覚を軽減し,高い汎化性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.15206

  • 識別軸の追跡:共変量シフト下におけるテスト時外分布検出のための二重プロトタイプ [cs.CV]目的:共変量シフト下でのテスト時外分布検出における識別軸の追跡
    • 深層学習システムの信頼性確保には,外分布検出が不可欠である。実環境では,変化する共変量シフト下で,分布内・外サンプルが混在する。
    • 既存手法は分布内の静止性を仮定しているが,共変量シフト下では性能が著しく低下する。
    • 本研究は,共変量シフト下でも識別可能な軸を追跡し,外分布検出性能の向上を目指す。
    • 提案手法DARTは,変化する識別軸を動的に追跡するため,分布内・外サンプルを分離する二重プロトタイプを用いる。
    • ImageNet-CとTextures-Cの比較において,確立されたベースラインと比較して,15.32ppのAUROC向上と49.15ppのFPR@95TPR削減を達成した。
    • これらの結果は,動的に変化する環境における信頼性の高い外分布検出のために,テスト時の識別軸追跡の潜在能力を示唆している。

    Link: https://arxiv.org/abs/2603.15213

  • HYDRA: 表現調和型トークン化によるマルチモーダル生成と理解の統合 [cs.CL, cs.DB, cs.CV]目的:マルチモーダル生成と理解の統合
    • 視覚理解と生成を統合することで,AIの汎用性と応用範囲を拡大できる。
    • 既存モデルは,視覚理解と生成に必要な表現のギャップを埋められていない。
    • 表現調和型トークン化により,視覚モデリングにおける生成と理解の間の矛盾を解消する。
    • HYDRAは,単一のパラメータ空間内で知覚と生成を統合するネイティブな統一フレームワークである。
    • 視覚再構成において最先端の結果(rFID 0.08)を達成し,GenEval (0.86), DPG-Bench (86.4), WISE (0.53)においても優れた生成性能を示した。
    • 8つの理解ベンチマークにおいて,既存のネイティブUMMを平均10.0ポイント上回る性能を発揮した。

    Link: https://arxiv.org/abs/2603.15228

  • 物理に基づいた異常検知のための多段階物理情報視覚言語モデル [cs.CV]目的:物理に基づいた異常検知における視覚言語モデルの性能向上
    • 現実世界の理解には物理法則の知識が不可欠であり,AIに物理的推論能力を付与することは重要である。
    • 既存の視覚言語モデルは,外観情報に偏った学習をしており,物理的制約を捉えることが苦手である。
    • 物理的知識を構造化されたプロンプトを通じてモデルに提供し,異常検知の精度と説明可能性を高める。
    • 提案手法は,Phys-ADベンチマークにおいて,ビデオレベル検出で96.7%のAUROCを達成し,既存の最先端手法(66.9%)を大幅に上回った。
    • また,因果関係の説明においても優れた結果(LLMスコア0.777)を示し,物理的知識の導入が有効であることを実証した。
    • 本研究は,構造化された物理的知識が,視覚言語モデルを信頼性の高い動的異常検出器に変える可能性を示唆する。

    Link: https://arxiv.org/abs/2603.15237