arXiv雑要約

画像・音声 - 2026/03/19 公開

  • UAV-CB:複雑背景RGB-Tデータセットと局所周波数ブリッジネットワークによるUAV検出 [cs.CC, cs.CV]目的:低高度環境におけるUAV検出の性能向上
    • UAVの利用拡大に伴い,安全保障や監視におけるUAVの正確な検出が重要となっている。
    • 複雑な背景やカモフラージュ,マルチモーダル干渉により,UAVの検出は困難を極める。
    • 複雑背景とカモフラージュに特化したデータセットと検出ネットワークの開発により,実用的なUAV検出を目指す。
    • 本研究では,複雑な背景とカモフラージュに焦点を当てた新しいRGB-T UAV検出データセットUAV-CBを構築した。
    • 局所周波数空間で特徴をモデル化する局所周波数ブリッジネットワーク(LFBNet)を提案し,RGB-T融合における課題を克服した。
    • UAV-CBと既存のベンチマークにおいて,LFBNetは最先端の検出性能とロバスト性を示すことが確認された。

    Link: https://arxiv.org/abs/2603.17492

  • Omni-I2C:忠実度の高い画像からコード生成のための包括的ベンチマーク [cs.CV]目的:複雑な構造を持つデジタルグラフィックスを,実行可能なコードに変換する能力の評価
    • 画像とコードを組み合わせた処理は,AIの応用範囲を広げ,新たな可能性を拓く重要な研究分野である。
    • 現在のLMMは,複雑な視覚情報の正確な理解と,それに対応するコードの生成において課題を抱えている。
    • LMMが複雑な画像から正確なコードを生成するための限界とボトルネックを特定し,改善に貢献すること。
    • Omni-I2Cは,1080件の厳選されたサンプルを用いて,LMMの性能を評価する。
    • 評価フレームワークは,視覚的忠実度と記号的正確さを分離し,LMMの構造的な欠陥を詳細に分析する。
    • 最先端のLMMでさえ,複雑なシナリオで構造的完全性を維持するのに苦戦しており,マルチモーダルコード生成は依然として困難である。

    Link: https://arxiv.org/abs/2603.17508

  • マルチモーダル画像に基づく疾患認識のための早期介入 [cs.CV]目的:マルチモーダル画像に基づく疾患認識手法の改善
    • 医療画像診断の精度向上は,早期発見・早期治療に繋がり,患者のQOL改善に不可欠である。
    • 既存手法では,マルチモーダルデータの相補的情報を十分に活用できていない点が課題である。
    • ラベル付き医療画像の不足と,自然画像とのドメインシフトを克服し,最新のVFMs活用を目指す。
    • 提案手法EIフレームワークは,参照モダリティのセマンティックトークンを介入トークンとして活用し,ターゲットモダリティの埋め込みプロセスを早期段階で誘導する。
    • パラメータ効率の良いファインチューニング手法MoRを導入し,VFMの適応を可能とした。
    • 網膜疾患,皮膚病変,異常検知の3つのデータセットにおいて,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2603.17514

  • UniSem:疎な未ポーズ画像からの汎化可能な意味的3D再構成 [cs.CE, eess.SY, cs.SY, cs.CV]目的:疎な未ポーズ画像からの意味的3D再構成の性能向上
    • 3D再構成技術は,現実世界の理解や仮想空間の構築において不可欠である。
    • 既存手法は,少ない画像から高品質な3D再構成を行うことが困難である。
    • 意味情報を用いた3D再構成の精度と汎化性能の向上を目指す。
    • UniSemは,レンダリング誤差に基づくガウスのドロップアウトにより,幾何学的に安定した表現を獲得する。
    • 提案手法は,2Dセグメンテーションと3Dセマンティック情報の混合学習により,意味的な一貫性と完全性を高める。
    • ScanNetおよびReplicaでの実験により,UniSemが既存手法を上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.17519

  • PCA-Seg:オープンボキャブラリセマンティックおよびパーツセグメンテーションにおけるコスト集約の再検討 [cs.CV]目的:オープンボキャブラリセマンティックおよびパーツセグメンテーションにおける性能向上
    • 近年,画像とテキストの関係性を活用したセグメンテーションが注目されている分野である。
    • 既存手法では,コストボリュームからの特徴抽出に逐次的な集約構造が用いられ,意味情報と空間情報の干渉が生じやすい。
    • PCA-Segは,並列的なコスト集約により,より豊かな画像とテキストの関連情報を捉えることを目指す。
    • 提案手法PCA-Segは,セマンティックおよびコンテキストストリームを効率的に統合する専門家駆動型知覚学習(EPL)モジュールを設計した。
    • EPLモジュールは,多岐にわたる視点からの補完的な特徴抽出を可能にする多専門家パーサーと,ピクセル固有の重みを学習する係数マッパーを備えている。
    • さらに,セマンティックストリームとコンテキストストリーム間の冗長性を軽減する特徴直交化デカップリング(FOD)戦略を提案し,優れたセグメンテーション性能を達成した。

    Link: https://arxiv.org/abs/2603.17520

  • MM-OVSeg:リモートセンシングにおけるオープンボキャブラリセグメンテーションのためのマルチモーダル光・SAR融合 [cs.CV]目的:オープンボキャブラリセグメンテーションの耐性を向上させるためのマルチモーダル光・SAR融合フレームワーク
    • リモートセンシングは,地球規模での環境モニタリングや災害対応に不可欠な技術である。
    • 光学データは天候に左右されやすく,雲や霧の影響で性能が低下する問題がある。
    • 悪天候下でもロバストなセグメンテーションを実現し,多様な環境下での応用を可能にすること。
    • MM-OVSegは,光とSARデータの補完的な利点を活用し,悪天候下でのセグメンテーション性能を向上させる。
    • クロスモーダル表現のアライメントと,複数のビジョンモデルの階層的特徴の統合により,高い汎化性能を実現した。
    • 多様な雲条件における実験により,MM-OVSegの優れたロバスト性と汎化性能が確認された。

    Link: https://arxiv.org/abs/2603.17528

  • AdapTS:マルチクラスおよび継続的な視覚異常検知のための軽量な教師・生徒アプローチ [cs.CV, cs.AI]目的:マルチクラスおよび継続学習環境における視覚異常検知のための統一的な教師・生徒フレームワーク
    • 産業検査において視覚異常検知は不可欠であり,品質管理の自動化と効率化に貢献する。
    • 既存手法は単一カテゴリに限定され,現実の複雑な環境でのマルチクラス・継続学習に対応できない。
    • 軽量なアダプターを活用し,メモリ消費を削減することで,エッジ環境へのデプロイを可能とする。
    • AdapTSは,MVTec ADおよびVisAデータセットにおいて,既存の教師・生徒法と同等の性能を達成した。
    • 特に,AdapTS-Sは,STFPM,RD4AD,DeSTSegと比較して大幅にメモリ消費量を削減し,エッジデプロイの実現可能性を高めた。
    • アダプターの動的な選択機構は高い精度を示し,タスク識別の効率化に貢献する。

    Link: https://arxiv.org/abs/2603.17530

  • Rel-Zero:AI編集に対する堅牢なゼロウォーターマーキングのためのパッチペア不変性の活用 [cs.CV, cs.AI, cs.CR]目的:AI編集に対するゼロウォーターマーキングの堅牢性向上
    • デジタルコンテンツの信頼性確保が重要視されており,改ざん検知技術の必要性が高まっている。
    • 従来のウォーターマーキングは画質劣化を招き,既存のゼロウォーターマーキングは高度な編集に弱い。
    • パッチペア間の関係性の不変性を利用し,非侵襲かつ堅牢な認証メカニズムを構築する。
    • 拡散モデルによる画像編集に対する脆弱性を克服し,ウォーターマークの堅牢性を大幅に向上させた。
    • Rel-Zeroは画像への変更を伴わず,編集に不変なパッチ関係からユニークなウォーターマークを生成する。
    • 様々な編集モデルや操作に対して,既存のゼロウォーターマーキング手法よりも優れた性能を示した。

    Link: https://arxiv.org/abs/2603.17531

  • 連続SE(3)等変かつ効率的な点群解析のための座標ベース畳み込みカーネルの学習 [cs.CV, cs.AI]目的:3次元点群問題における効率的な学習
    • 3次元点群データは,ロボティクスやコンピュータビジョンの分野で重要な役割を担う
    • 既存の等変畳み込みは,厳密な対称性とスケーラビリティを両立することが困難である
    • 厳密なSE(3)対称性とスケーラビリティを兼ね備えたカーネルアーキテクチャを開発する
    • 提案手法であるECKConvは,二重剰余群空間で定義されたカーネルドメインからSE(3)等変性を獲得する
    • 座標ベースネットワークを用いた明示的なカーネル設計により,学習能力とメモリ効率を向上させている
    • 分類,ポーズ登録,部分分割,大規模セマンティック分割など,多様な点群タスクにおいて,ECKConvの優れた性能とスケーラビリティが確認された

    Link: https://arxiv.org/abs/2603.17538

  • 時間的な利益,空間的なコスト:マルチモーダル大規模言語モデルにおける動画ファインチューニングの再検討 [cs.CV]目的:マルチモーダル大規模言語モデルにおける動画ファインチューニングが視覚的能力に与える影響の体系的な研究
    • マルチモーダル大規模言語モデルは多様な応用が期待され,その性能向上が重要視されている。
    • 動画ファインチューニングは視覚理解度向上に寄与する一方,静止画処理能力への影響が不明確である。
    • 動画と静止画の間の能力トレードオフを軽減し,両者の理解度を向上させることを目指す。
    • 動画ファインチューニングは動画処理性能を向上させるが,静止画ベンチマークでは改善が見られない,または低下することを確認した。
    • フレーム数を増やすことで動画性能は向上するが,静止画性能への信頼性のある改善には繋がらないことが示された。
    • フレーム数を適応的に割り当てるHybrid-Frame戦略により,画像-動画間のトレードオフを部分的に軽減できることを示した。

    Link: https://arxiv.org/abs/2603.17541

  • プログレッシブベース生成ビデオ圧縮:自己回帰的コンテキストモデリングによる [cs.CV]目的:生成ビデオ圧縮の新しいパラダイム
    • 低ビットレートでの高画質化が求められ,知覚的なビデオ圧縮技術が重要視されている。
    • 既存の知覚的コーデックは,可変ビットレートやプログレッシブ配信への対応が不十分である。
    • プログレッシブ伝送,効率的なエントロピー符号化,詳細合成を統合したコーデックを開発する。
    • ProGVCは,階層的なマルチスケール残差トークンマップを用いて柔軟なレート適応を実現している。
    • Transformerベースの自己回帰的コンテキストモデルが,トークン確率の推定と詳細な復元に活用されている。
    • 実験結果から,ProGVCが低ビットレートで優れた知覚的圧縮性能と実用的なスケーラビリティを示すことが確認された。

    Link: https://arxiv.org/abs/2603.17546

  • プロンプト不要の汎用領域提案ネットワーク [cs.CV]目的:潜在的な物体の特定
    • 物体認識や画像解析において,潜在的な物体を特定することは非常に重要である。
    • 既存手法は,例示画像やカテゴリ,テキストに依存し,柔軟性に欠ける場合がある。
    • 外部からのプロンプトに頼らずに潜在的な物体を特定する手法を開発すること。
    • 提案手法PF-RPNは,学習可能なクエリ埋め込みを用いて初期位置を特定する。
    • カスケード自己プロンプトモジュールにより,自己生成された埋め込みを用いて残りの物体を特定する。
    • 中心性スコアリングネットワークを活用し,高品質なクエリ埋め込みを選択する。

    Link: https://arxiv.org/abs/2603.17554

  • FrescoDiffusion:事前正則化タイル拡散を用いた4K画像から動画への変換 [cs.CV, cs.AI]目的:高解像度画像からの動画生成における一貫性の向上
    • 画像から動画への変換技術は,多様な応用が期待される分野であり,その重要性は高い。
    • 高解像度画像からの動画生成では,局所的な詳細と全体的な構造の一貫性を両立することが困難である。
    • 大規模なアートワーク等の高解像度画像に対し,時間的・空間的な一貫性を保ちつつ動画を生成することを目指す。
    • FrescoDiffusionは,事前計算された潜在的先行情報を用いて,タイル化された拡散モデルによる高解像度動画生成の一貫性を改善する。
    • 低解像度動画の潜在的軌跡をアップサンプリングし,長距離の時空間構造を捉えたグローバルな参照を生成することで,タイル間の整合性を強化する。
    • 実験により,VBench-I2Vデータセットとフレスコ動画データセットにおいて,FrescoDiffusionは既存手法と比較して,一貫性と忠実度において優れていることが示された。

    Link: https://arxiv.org/abs/2603.17555

  • Zipper-LoRA: 音声-LLM 기반多言語音声認識のための動的パラメータ分離 [cs.CL, cs.SD]目的:多言語音声認識における,音声エンコーダと大規模言語モデルの適応
    • 音声認識技術は,人間と機械の円滑なコミュニケーションを実現する上で不可欠である。
    • 多言語環境下でのデータ不均衡は,音声認識システムの性能劣化を引き起こす。
    • データ不足の言語に対する,知識転移と過学習の抑制を両立させる。
    • Zipper-LoRAは,共有および言語固有のLoRA更新を動的に合成することで,既存の共有・独立なベースラインを上回る性能を示した。
    • 特に低リソース言語において,その効果が顕著であり,汎用性の高さが確認された。
    • 提案手法は,チャンク化された構成と非チャンク化された構成の両方で安定した性能を維持し,実用的な大規模多言語音声認識への応用が可能である。

    Link: https://arxiv.org/abs/2603.17558

  • 表情と測光現実感を維持する顔の匿名化 [cs.CL, cs.CV]目的:顔の匿名化手法の提案
    • ソーシャルメディア等の普及により顔画像共有が増加し,プライバシー保護の重要性が高まっている。
    • 既存手法は,個人識別情報の除去と画像リアリズムに注力する一方,表情や照明の一貫性が課題となっていた。
    • 表情,照明,肌の色調を維持しつつ,より安全な顔画像匿名化を実現することを目的とする。
    • 提案手法は,DeepPrivacyを拡張し,表情をより正確に保持するため,密な顔ランドマークを組み込んだ。
    • 照明方向と肌の色の一貫性を確保するため,軽量な後処理モジュールを導入した。
    • CelebA-HQデータセットでの実験により,提案手法が既存手法と比較して,リアリズムと表情,照明,肌の色調の再現性が向上することが示された。

    Link: https://arxiv.org/abs/2603.17567

  • パノVGGT:パノラマ画像からのフィードフォワード3D再構成 [cs.CV]目的:パノラマ画像からのカメラポーズ,深度マップ,3D点群の同時予測
    • パノラマ画像は広く普及しており,没入感のある視覚体験を提供する。より高度な応用への利用が期待されている。
    • パノラマ画像特有の歪みにより,既存のカメラ向けモデルでは正確な姿勢推定と3D再構成が困難である。
    • 球面環境における幾何学的推論を可能にし,パノラマ画像からの高精度な3D再構成を実現することを目指す。
    • 提案手法PanoVGGTは,パノラマ画像からカメラポーズ,深度マップ,3D点群を単一のパスで予測する。
    • PanoVGGTは,球面を考慮した位置埋め込みと回転データ拡張により,高い精度とロバスト性を示す。
    • 大規模パノラマデータセットPanoCityを新たに構築し,データとコードを公開することで,研究の発展に貢献する。

    Link: https://arxiv.org/abs/2603.17571

  • LoGSAM:MRIセグメンテーションのためのパラメータ効率的なクロスモーダルグラウンディング [cs.CV]目的:MRI画像における脳腫瘍のセグメンテーション手法
    • 脳腫瘍の正確な局在と輪郭抽出は,治療計画と手術判断に不可欠である。
    • 既存手法はタスク固有の教師あり学習に依存し,注釈付きデータの不足が課題である。
    • 医師の音声指示を活用し,少ないパラメータ更新で高精度なセグメンテーションを実現する。
    • 提案手法LoGSAMは,医師の音声指示をテキストプロンプトに変換し,ファウンデーションモデルを用いて腫瘍の局在とセグメンテーションを行う。
    • LoRAによるパラメータ効率的な適応により,事前学習済みの知識を維持しつつ,計算コストを抑える。
    • BRISC 2025データセットで最先端のDiceスコア80.32%を達成し,ドイツ語音声データでも高い精度を示した。

    Link: https://arxiv.org/abs/2603.17576

  • 編集を行為として捉える:オープンボキャブラリー3D室内シーン編集のための目標回帰的計画 [cs.IR, cs.CV, cs.AI]目的:オープンボキャブラリー3D室内シーン編集における目標達成のための行為計画
    • 3Dシーン編集は,メタバースや現実世界の拡張において不可欠な技術であり,その重要性は増している。
    • 既存手法は,シーン全体を再生成したり,空間構造を損なう編集を行うため,一貫性や物理的妥当性に問題がある。
    • 本研究では,編集を目標達成のための最小限の行為計画として捉え,物理的に整合性の取れた編集を実現することを目指す。
    • Edit-As-Actは,編集を3D空間における目標回帰的計画として実行するフレームワークである。
    • この手法は,指示された目標状態を達成するための記号的な述語とEditLangという行動言語を用いた計画を生成する。
    • E2A-Benchベンチマークにおいて,Edit-As-Actは既存手法を大きく上回り,高い指示忠実性,意味的一貫性,物理的妥当性を実現した。

    Link: https://arxiv.org/abs/2603.17583

  • 信頼できないものを信頼する:内向き後方ダイナミック非信頼性駆動型コアセット選択による医用画像分類 [eess.SY, cs.SY, cs.CV]目的:医用画像分類のためのコアセット選択戦略
    • 医用画像データは,疾患診断や治療計画に不可欠であり,その活用が重要である。
    • 大規模な医用画像データは計算コストが高く,効率的な処理が課題となっている。
    • 既存のコアセット選択法では,医用画像の複雑さから十分な性能が得られていない点を改善する。
    • 本研究では,モデルの予測信頼度の変動と忘却頻度に基づいて非信頼なサンプルを選択する新しいコアセット選択戦略を提案した。
    • 提案手法は,サンプルが決定境界付近に位置するようにコアセットを選択し,モデルの分類性能向上に貢献する。
    • 公開されている医用画像データセットでの実験により,提案手法が既存手法と比較して,特に高い圧縮率において優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.17603

  • ReLaGS: 関係言語ガウススプラッティング [cs.CV]目的:3D認識と推論の統合
    • 3Dシーンの理解は,ロボット工学や拡張現実など,様々な分野で不可欠である。
    • 既存手法は,物体中心型か,物体間の推論に高コストな学習が必要となる。
    • シーン固有の学習なしで,言語によるシーングラフ構築と関係推論を実現する。
    • 提案手法は,言語による知識蒸留を用いた階層的なガウスシーンを構築し,3Dセマンティックシーングラフを生成する。
    • ガウスプルーニング機構によりシーンの幾何学を洗練し,マルチビュー言語アライメント戦略により高精度な3Dオブジェクト埋め込みを得る。
    • オープンボキャブラリ3Dシーングラフとグラフニューラルネットワークに基づく関係推論により,効率的な3D推論を実現した。

    Link: https://arxiv.org/abs/2603.17605

  • Sednaのメカニズム設計の概要 [cs.GT, cs.DC]目的:Sednaにおけるインセンティブ設計の脆弱性と改善策
    • ブロックチェーンのスケーラビリティ向上は重要であり,取引処理能力の限界が課題となっている。
    • マルチプロポーザーコンセンサスプロトコルは,特定のプロポーザーによる共謀攻撃に脆弱である可能性がある。
    • 本研究は,Sednaにおけるレーンプロポーザーの共謀による遅延攻撃に対処する。
    • Sednaにおいて,レーンプロポーザーの共謀により,取引の確定が遅延する可能性が明らかになった。
    • 提案手法PIVOT-$K$は,デコードをトリガーするバンドルに報酬を集中させ,インセンティブ互換性を高める。
    • 送信者の適応的な「ラチェット」機構は,レーンの除外により,複数スロットの遅延攻撃を抑制し,必要な報酬を大幅に削減する。

    Link: https://arxiv.org/abs/2603.17614

  • 構造を意識したサブシーン分解によるスケーラブルな3Dファウンデーションモデル [cs.CL, cs.CV]目的:3Dファウンデーションモデルのスケーラビリティ向上
    • 3Dデータ処理の発展は,様々な応用分野において不可欠である。
    • 大規模3Dデータへの対応が,計算コストの課題となっている。
    • 構造的な冗長性を解消し,効率的な処理を実現することを目指す。
    • 本研究では,シーングラフを用いて構造的な冗長性を捉え,サブシーンに分割する手法S-VGGTを提案した。
    • サブシーン間の幾何学的橋を構築することで,明示的な位置合わせなしに並列処理を可能とした。
    • S-VGGTは既存のトークンレベルの高速化手法と組み合わせることで,更なる性能向上が期待できる。

    Link: https://arxiv.org/abs/2603.17625

  • 都市エネルギー計画を支援する建築年代コホートマッピングのためのマルチエージェントシステム [cs.CV]目的:都市の建築物における年代分布の特定
    • 持続可能な都市計画において,建築物の年代分布を把握することは不可欠である。
    • 既存手法はセンサーやリモートセンシングに依存し,データの不整合や欠落が生じやすい。
    • 異種データソースの融合により,より正確な建築年代データの構築を目指す。
    • マルチエージェントLLMシステムが,多様なデータソースからの情報を統合することを可能にした。
    • 衛星画像のみを用いた分類器BuildingAgeCNNは,全体の精度90.69%を達成した。
    • 年代コホート間の混同やクラス不均衡への対策として,信頼性推定と手動レビューのパイプラインを導入した。

    Link: https://arxiv.org/abs/2603.17626

  • DSS-GAN:Mambaバックボーンを持つ方向性ステートスペースGANによるクラス条件付き画像生成 [eess.SY, cs.RO, cs.SY, math.OC, eess.SY, cs.SY, cs.LG, cs.CV]目的:クラス条件付き画像生成の性能向上
    • 画像生成技術は,現実世界の表現や新たなコンテンツ創出に不可欠である。
    • 既存のGANでは,クラス情報の注入方法が課題であり,生成画像の多様性や品質に限界がある。
    • Mambaと新たな条件付け機構により,より高品質かつ制御可能な画像生成を実現する。
    • 提案手法DSS-GANは,StyleGAN2-ADAと比較して,FID,KID,Precision-Recallスコアが向上した。
    • 潜在空間の分析により,方向性サブベクトルが特定の画像特徴と相関を持つことが示された。
    • DLRは,クラス情報と潜在構造を特徴マップの異なる空間軸に結合し,効果的な条件付けを実現している。

    Link: https://arxiv.org/abs/2603.17637

  • 部分認識に基づくオープンボキャブラリ3Dアフォード Grounding:プロトタイプ的な意味的・幾何学的アライメントによる [cs.HC, cs.CV]目的:3Dオブジェクトにおける機能的に関連する領域への自然言語質問の Grounding
    • 具現化された知能や人間とAIのインタラクションにおいて,3D環境の理解は不可欠である。
    • 既存手法は,オープンボキャブラリの汎化,微細な幾何学的アライメント,部品レベルの意味的整合性に課題がある。
    • 意味的・幾何学的表現を強化し,より正確な3Dアフォード Groundingを実現すること。
    • 大規模言語モデルを用いて部分認識に基づいた指示を生成し,意味的に類似したアフォードを関連付けることで,意味的表現を改善した。
    • アフォードプロトタイプ集約(APA)により,オブジェクト間の幾何学的整合性を捉え,オブジェクト内の関係モデリング(IORM)により,正確な意味的アライメントを可能にした。
    • 新しいベンチマークおよび既存の2つのベンチマークで実験を行い,既存手法と比較して優れた性能を実証した。

    Link: https://arxiv.org/abs/2603.17647

  • セマンティックなコヒーレンスを実現するアンカリングとリスケールによる注意機構 [cs.CV, cs.AI]目的:セマンティックに一貫性のある中間フレームの合成
    • 動画生成における中間フレーム合成は,少ないキーフレームから高品質な動画を生成する上で重要である。
    • 既存モデルは,キーフレーム間の距離が遠い場合や動きが大きい場合に,一貫性のないフレームを生成しやすい。
    • キーフレームとテキストによるガイダンスにより,意図したパスを生成し,フレームの一貫性とセマンティックな正確性を向上させる。
    • 提案手法は,追加学習なしで,多様な条件下において最先端のフレーム一貫性,セマンティック忠実度,ペース安定性を実現した。
    • キーフレームにアンカーされた注意バイアスにより,中間フレームに対してセマンティックおよび時間的なガイダンスを効果的に与えている。
    • リスケールされたTemporal RoPEにより,自己注意機構がキーフレームをより忠実に参照することを可能にした。

    Link: https://arxiv.org/abs/2603.17651

  • VectorWorld:ベクトルグラフ上の拡散フローによる効率的なストリーミングワールドモデル [cs.RO, cs.CV]目的:自律運転ポリシーのクローズドループ評価のための効率的なワールドモデル
    • 自律運転システムの安全性評価において,現実的なシミュレーション環境が不可欠である。
    • 既存の生成ワールドモデルは,初期化の不一致や遅延,キネマティックな非現実性によりクローズドループ環境で性能が低下する。
    • ポリシーとの整合性を保ちつつ,リアルタイム性と物理的整合性を実現するワールドモデルを開発すること。
    • VectorWorldは,エゴセントリックなベクトルグラフタイルを生成することで,リアルタイムなシミュレーションを実現した。
    • 初期化の整合性を高めるために,モーションを考慮したゲート付きVAEを用いたポリシー互換的なインタラクション状態を生成する。
    • ΔSimという物理法則に沿ったNPCポリシーを導入することで,長距離ロールアウトの安定性を向上させた。

    Link: https://arxiv.org/abs/2603.17652

  • 修正されたターゲットドメイン局所的アラインメントによる解釈可能なクロスドメイン少数ショット学習 [cs.RO, cs.CV, cs.AI]目的:クロスドメイン少数ショット学習における解釈可能性の向上
    • 近年,汎用データで学習したモデルを少ないデータで特定ドメインへ適応する研究が重要視されている。
    • 既存のCLIPモデルは,ソースドメインでは有効だが,ターゲットドメインでは微細な視覚的特徴を捉えにくい。
    • ドメイン間のギャップとデータ不足がCLIPベースのCDFSLにおける局所的アラインメントを悪化させる問題を解決する。
    • 提案手法CC-CDFSLは,サイクル整合性に基づき,局所的な視覚特徴とテキスト意味を相互に変換することで,アラインメントを改善する。
    • Semantic Anchor機構は,視覚特徴の拡張と収縮によりノイズを低減し,テキストから画像へのマッピングをより正確にする。
    • 様々なベンチマークで,提案手法は最新の性能を達成し,学習されたパターンとモデルの決定における解釈可能性を向上させる。

    Link: https://arxiv.org/abs/2603.17655

  • FINER:詳細な否定的な質問に対してMLLMが幻覚を起こす [cs.CV, cs.AI]目的:マルチモーダル大規模言語モデルにおける幻覚の分析と軽減
    • 画像とテキストを統合するMLLMは,様々な応用で注目されている。
    • 既存の評価基準は粗い画像関連の質問に偏っており,詳細な質問に対する幻覚の問題を捉えきれていない。
    • 詳細な否定的な質問に対するMLLMの幻覚のメカニズムを解明し,その軽減策を提案すること。
    • 詳細な否定的な質問において,MLLMは画像内に存在する要素と矛盾する情報を生成する傾向が明らかになった。
    • 新たに作成したFINERデータセットとFINER-Tuningにより,幻覚の発生率を最大24.2%削減できることが示された。
    • 提案手法は既存の幻覚抑制手法に加え,MLLMの汎用的なマルチモーダル能力向上にも貢献する。

    Link: https://arxiv.org/abs/2603.17662

  • インスタンス認識離散化による数ステップ拡散サンプリング [cs.DB, cs.RO, cs.CV]目的:インスタンス認識離散化フレームワーク
    • 拡散モデルは高品質なデータ生成に貢献するが,サンプリング速度の改善が課題である。
    • 既存の離散化戦略は,すべてのサンプルに対して共通の時間ステップスケジュールを用いるため,生成プロセスのインスタンス固有の複雑さを考慮していない。
    • 入力に依存する事前知識に基づいて時間ステップを適応的に割り当てることで,生成品質を向上させる。
    • 提案手法は,合成データ,ピクセル空間拡散,潜在空間画像,ビデオフローマッチングモデルなど,多様な設定で一貫して生成品質を向上させる。
    • 学習時のチューニングコストはわずかで,推論時のオーバーヘッドも無視できる程度である。
    • インスタンス固有の動特性下では,グローバルスケジュールが最適でないことが,制御された実験により示された。

    Link: https://arxiv.org/abs/2603.17671

  • DeepCORO-CLIP:包括的な冠動脈造影映像・テキスト解析のためのマルチビュー基礎モデルと外部検証 [cs.CV]目的:冠動脈造影映像とテキストの包括的な解析
    • 冠動脈疾患の評価において,造影検査は重要な役割を担うが,読者間での解釈にばらつきが生じることが課題である。
    • 既存のAI手法は,単一フレームや投影に焦点を当て,狭窄の評価に偏っているため,包括的な評価が困難である。
    • マルチビュー基礎モデルにより,診断,予後予測,疾患進行を含む造影検査全体の包括的な評価を目指す。
    • 内部検証では,有意狭窄症の検出においてAUROC 0.888を達成し,外部検証においても0.89のAUROCを示した。
    • 定量的な冠動脈造影検査との平均絶対誤差は13.6%であり,臨床レポートの19.0%を下回った。
    • 転移学習により,1年間の主要な心血管イベントの予測(AUROC 0.79)や左室駆出率の推定(平均絶対誤差7.3%)も可能となった。

    Link: https://arxiv.org/abs/2603.17675

  • 照明を考慮した非接触型指紋詐欺検出:ペアフラッシュ・非フラッシュ画像による手法 [cs.CV]目的:非接触型指紋認証における詐欺検出のロバスト性向上
    • 衛生面や利便性から非接触型指紋認証の需要が高まっている。
    • 非接触であるため,従来の生体認証における生体信号の検出が困難である。
    • フラッシュ・非フラッシュ画像のペアを利用し,照明特性の違いを分析することで詐欺検出を改善する。
    • フラッシュ照射は,隆線可視性,サブサーフェス散乱,微細形状,皮脂などの材質・構造に依存する特性を強調する。
    • 非フラッシュ画像は,外観のベースラインコンテキストを提供する。
    • これらの相補的な特徴量により,本物と印刷,デジタル,成形された詐欺攻撃を識別できる。

    Link: https://arxiv.org/abs/2603.17679

  • 視覚言語モデルにおける天候を考慮した推論セグメンテーションのベンチマーク:WeatherReasonSeg [cs.CV, cs.AI]目的:視覚言語モデルにおける天候の影響下での推論セグメンテーション能力の評価
    • 画像と言語を組み合わせたモデルは多様な応用が期待され,性能向上は重要な課題である。
    • 既存のベンチマークは理想的な条件下で作成されており,悪天候下での性能は未知数である。
    • 悪天候下での視覚言語モデルの弱点を明らかにし,よりロバストなモデル開発に貢献する。
    • 新たなベンチマークWeatherReasonSegを構築し,合成データと実データを用いて評価を行った。
    • 天候の悪化に伴い,視覚言語モデルの性能は一貫して低下することが示された。
    • 天候の種類によって,モデルの脆弱性が異なるパターンを示すことが明らかになった。

    Link: https://arxiv.org/abs/2603.17680

  • YOLOは全ての訓練画像をエポックごとに見る必要があるのか? [cs.CV]目的:YOLO検出器の訓練効率向上
    • YOLOは高速な推論が可能だが,訓練に時間がかかるという課題がある。
    • 訓練データセット内の画像のうち,既に十分に学習済みの画像も繰り返し処理されている。
    • 有効な画像のみを動的に選択し,訓練効率と精度を向上させる。
    • 提案手法であるAFSSにより,YOLOシリーズ検出器の訓練速度が1.43倍以上向上した。
    • AFSSは画像の学習度合いを評価し,易しい画像は疎に,難しい画像は全て使用する。
    • MS COCOやDOTA-v1.0等のベンチマークにおいて,精度も向上した。

    Link: https://arxiv.org/abs/2603.17684

  • ビデオ推論のための伝達可能な時間的素因子の学習:合成ビデオによるアプローチ [cs.CV]目的:ビデオ推論のための時間的素因子の伝達学習
    • 画像認識からビデオ理解への移行には,時間的なダイナミクスの理解が不可欠である。
    • 既存のデータセットは時間的側面に乏しく,全体的な時間統合が必要とされる場合が多い。
    • 基本的な時間的知覚における体系的な誤りを修正し,ビデオ理解能力を向上させる。
    • SynRLは,時間的素因子の学習を通じて,モデルに時間理解を教えるポストトレーニングフレームワークである。
    • 単純な幾何学的形状で学習されたSynRLは,15のベンチマークにおいて顕著な改善を達成した。
    • 7.7Kの合成CoTサンプルは,165Kの現実世界のサンプルを持つVideo-R1よりも優れた性能を示した。

    Link: https://arxiv.org/abs/2603.17693

  • DancingBox:物理的プロキシを用いたキャラクターアニメーションのための軽量モーションキャプチャシステム [cs.GR, cs.CV, cs.HC]目的:キャラクターアニメーションの創出手法
    • 3Dキャラクターアニメーションは,エンターテインメントやバーチャルコミュニケーションにおいて重要な役割を担う。
    • 従来のモーションキャプチャは,専門的な知識や高価な設備が必要であり,一般ユーザーの参入障壁が高い。
    • 手軽な手段で,自然なキャラクターアニメーションを生成することを目指す。
    • DancingBoxは,ユーザーが操作する日常的なオブジェクトの動きをキャプチャし,それを基にキャラクターアニメーションを生成する。
    • プロキシモーションをbounding-box表現で強化し,大規模データセットから学習した人間モーションの事前知識を活用することで,リアルなアニメーションを実現する。
    • ユーザー調査により,DancingBoxが初心者にとって直感的で創造的なアニメーション作成を可能にすることが示された。

    Link: https://arxiv.org/abs/2603.17704

  • マルチモーダルリモートセンシングセマンティックセグメンテーションのためのパラメータ効率の良いモダリティバランス対称融合 [cs.CV]目的:マルチモーダルリモートセンシングセマンティックセグメンテーションにおける高性能化
    • リモートセンシングは,地理空間情報の取得に不可欠であり,様々な応用分野で利用されている。
    • 既存手法では,異なるモダリティ間の不均衡や計算コストの増大が課題となっていた。
    • 本研究は,パラメータ効率とモダリティバランスを両立する新たな融合フレームワークを提案する。
    • 提案手法MoBaNetは,事前学習済みのVision Foundation Modelを有効活用し,少ない学習パラメータで高性能を実現した。
    • Cross-modal Prompt-Injected Adapter (CPIA)とDifference-Guided Gated Fusion Module (DGFM)により,モダリティ間の深いセマンティック相互作用を促進した。
    • Modality-Conditional Random Masking (MCRM)戦略は,モダリティ間の不均衡を緩和し,ロバストな融合を可能にした。

    Link: https://arxiv.org/abs/2603.17705

  • AERR-Nav:ゼロショット物体ナビゲーションのための適応的探索・回復・回想戦略 [cs.RO, cs.CV]目的:未知の多階層環境におけるゼロショット物体ナビゲーションの改善
    • ロボットが未知環境で自律的に行動するためには,物体ナビゲーション能力が不可欠である。
    • 従来のゼロショット物体ナビゲーション手法は,探索と利用のバランスが難しく,特に多階層環境で問題が生じやすい。
    • AERR-Navは,環境に応じて状態を動的に調整することで,上記課題の解決を目指す。
    • 提案手法AERR-Navは,探索・回復・回想の戦略を適応的に切り替えることで,多様なナビゲーションシナリオに対応する。
    • AERR-Navは,探索状態において「早思考」と「遅思考」モードを使い分け,探索,利用,高次推論のバランスを改善する。
    • HM3DおよびMP3Dのベンチマーク実験により,AERR-Navがゼロショット手法の中で最先端の性能を達成することが示された。

    Link: https://arxiv.org/abs/2603.17712

  • 視覚および概念プロンプトを用いたセグメント・エニシング・モデル3 (SAM3) による眼画像セグメンテーション [cs.CV, cs.AI]目的:眼画像セグメンテーションの性能評価
    • 眼画像セグメンテーションは,眼科医療や視覚研究において重要な役割を担う。
    • 既存モデルでは,様々な環境下での眼画像セグメンテーションの精度向上が課題である。
    • 最新モデルSAM3の性能を評価し,眼画像セグメンテーションにおける最適なモデルを特定する。
    • SAM3は,実験に用いたラボ環境および実環境データセットにおいて,多くの場合SAM2よりも優れた性能を示さなかった。
    • SAM2の方が性能が高く,処理速度も速いため,現時点では眼画像セグメンテーションに最適な選択肢である。
    • SAM3のコードを改変し,任意の長さの動画を処理できるようにした。

    Link: https://arxiv.org/abs/2603.17715

  • LLMに基づくCTレポート作成のための差分視覚的セマンティックプロンプティング [cs.CV]目的:LLMを用いたCTレポート作成における性能向上
    • 医療画像診断の自動化は,医療現場の負担軽減と診断精度の向上に不可欠である。
    • 従来のCTレポート作成手法では,画像全体の情報を均一に処理し,重要な所見と背景の区別が困難である。
    • 診断に重要な差分情報に着目し,LLMへの適切なプロンプト生成により,より正確なレポート作成を目指す。
    • 提案手法DiffVPは,従来の画像全体を扱う手法と比較し,CTレポートのBLEUスコアを大幅に向上させた。
    • DiffVPは,高レベルなセマンティック差分に着目することで,不要な解剖学的情報を抑制し,診断的証拠を強調する。
    • RadGenome-ChestCTデータセットにおけるF1スコアは0.421となり,臨床的有用性も示された。

    Link: https://arxiv.org/abs/2603.17718

  • SARE:サンプルごとの適応的推論によるトレーニングフリーな微細粒度視覚認識 [cs.CV, cs.AI]目的:トレーニングフリーな微細粒度視覚認識のためのサンプルごとの適応的推論フレームワーク
    • 画像と言語を結びつける大規模モデルの発展は,微細粒度視覚認識の可能性を広げている。
    • 下位レベルのカテゴリにおける視覚的な曖昧さが,効果的な活用を妨げる要因となっている。
    • サンプルごとの難易度に応じた推論と過去の失敗事例の活用により,認識精度と効率を向上させる。
    • SAREは,迅速な候補検索と微細粒度推論を組み合わせたカスケード設計を採用している。
    • 推論過程において,過去の失敗から得られた知見を活用し,転移可能な識別的ガイダンスを提供する。
    • 14のデータセットを用いた実験により,SAREが最先端の性能を達成し,計算コストを大幅に削減することが示された。

    Link: https://arxiv.org/abs/2603.17729

  • TAPESTRY:幾何学から外観へ一貫性のあるターンテーブル動画を通じて [cs.CV]目的:未テクスチャの3Dモデルに対するフォトリアリスティックで自己整合的な外観の自動生成
    • デジタルコンテンツ制作において,高品質な3Dモデルの作成は不可欠であり,その効率化が求められている。
    • 既存の汎用動画生成モデルでは,全視野角にわたる幾何学的整合性や外観の安定性を維持することが困難である。
    • TAPESTRYは,明示的な3D幾何学に基づいて高忠実なターンテーブル動画を生成し,高品質な3D再構成を可能にする。
    • TAPESTRYは,3Dメッシュを与えられた場合に,マルチモーダル幾何学的特徴をエンコードすることで動画生成を制約し,高品質で一貫性のあるターンテーブル動画を作成する。
    • 生成された動画は,高品質な動的プレビューとしてだけでなく,UVテクスチャへの逆投影や3DGSのようなニューラルレンダリングの教師データとしても利用可能である。
    • 実験結果から,TAPESTRYは既存手法と比較して,動画の一貫性と最終的な再構成品質の両方において優れていることが示された。

    Link: https://arxiv.org/abs/2603.17735

  • 概念からピクセルへ:プロンプト不要な汎用的な医用画像セグメンテーション [cs.CV]目的:汎用医用画像セグメンテーションのためのフレームワーク
    • 医療画像解析は,診断支援や治療計画において不可欠であり,その精度向上が重要である。
    • 既存手法は,手動プロンプトや参照画像に依存し,自動化やロバスト性に課題がある。
    • 異なるモダリティ間のドメインシフトに対応し,自動化されたセグメンテーションを実現する。
    • 提案手法C2Pは,幾何学的表現と意味的表現を分離し,MLLMを活用して概念を学習可能なトークンに変換する。
    • 動的なカーネルを生成し,予測の信頼性を評価・抑制するGeometry-Aware Inference Consensusメカニズムを導入する。
    • 8つの多様なデータセットで優れた性能を示し,未学習データやクロスモーダル転移においても高い汎化能力を実証した。

    Link: https://arxiv.org/abs/2603.17746

  • PC-CrossDiff:3D参照およびセグメンテーションのための点クラスタ二重レベルクロスモーダル微分注意機構 [cs.RO, cs.SY, eess.SY, cs.CV]目的:3D視覚的グラウンディングにおける参照表現理解とセグメンテーションの性能向上
    • 3D視覚的グラウンディングは,現実世界のロボティクスや拡張現実などの応用において不可欠な技術である。
    • 既存手法は,複雑な多物体シーンにおいて性能が著しく低下し,実用化の妨げとなっている。
    • 本研究は,暗黙的な局所化の手がかりの解析と空間的干渉の抑制を通して,3Dグラウンディングの精度向上を目指す。
    • 提案手法PC-CrossDiffは,点レベルおよびクラスタレベルの微分注意機構により,テキストと点群間の関係性を効果的に学習する。
    • 特に,ScanReferのImplicitサブセットにおいて,3DRECタスクのOverall@0.50スコアを10.16%向上させ,暗黙的な空間手がかりの解析能力の高さを示した。
    • ScanRefer,NR3D,SR3Dのベンチマークにおいて,最先端の性能を達成し,実用的な応用への貢献が期待される。

    Link: https://arxiv.org/abs/2603.17753

  • クロスドメイン画像ディープフェイク検出のための証拠パッキングとLVLM [cs.CV]目的:画像ディープフェイク検出における証拠パッキング手法
    • 画像編集技術の発展により,偽画像を見破る能力が重要になっている。
    • 既存手法は,多様な偽造技術への対応と汎化性能に課題がある。
    • LVLMの知識を活用し,高精度な偽画像検出を学習コスト削減と両立する。
    • 本研究では,LVLMをファインチューニングすることなく,証拠に基づいた推論を行うSCEPを提案した。
    • SCEPは,操作の痕跡を示す特徴的なパッチを効率的に抽出し,LVLMの予測性能を向上させる。
    • 多様なベンチマークにおいて,既存手法を上回る性能が確認された。

    Link: https://arxiv.org/abs/2603.17761

  • 複雑なマルチタスク中のワークロードを顔の動きのダイナミクスが明らかにする [eess.SY, cs.SY, cs.HC, cs.CV]目的:複雑なマルチタスク中のワークロードの評価
    • 安全性が重要な環境において,リアルタイムな認知負荷のモニタリングは不可欠である。
    • 既存の測定法は,侵襲的であったり,高価であったり,時間分解能が不足している。
    • 標準的なウェブカメラを用いた,低コストな代替手法の確立を目指す。
    • ワークロードが増加すると,顔の動きの大きさは増大し,時間的な組織化は断片化された後,複雑なパターンに再編成されることが明らかになった。
    • 姿勢のキネマティクスに基づいたランダムフォレスト分類器は,タスクパフォーマンス指標よりも高い精度を示したが,参加者間で汎化性能は低かった。
    • 参加者固有のモデルは,短時間のキャリブレーション(2分間/条件)で50%の精度に達し,継続的に73%まで向上した。

    Link: https://arxiv.org/abs/2603.17767

  • シャッフルを用いた重なり合った音声のモデル化 [cs.RO, cs.SD, cs.CL, cs.LG]目的:重なり合った音声の整列と話者帰属による転写
    • 音声認識の精度向上には,実際の環境下での複雑な音声信号の扱いが不可欠である。
    • 複数の話者が同時に発話する重なり合った音声の処理は,依然として困難な課題である。
    • 重なり合った音声の効率的かつ正確な整列と話者帰属を可能にするアルゴリズムの開発。
    • シャッフル積と部分順序有限状態オートマトン(FSA)を用いた重なり合った音声の整列と話者帰属転写が可能となった。
    • FSA上の総スコアを損失関数として学習することで,サブワード,単語,句レベルでの重なり合ったシーケンスの全ての直列化を考慮した。
    • 部分順序FSAを構築することでグラフサイズを削減し,一回のパスによる整列を実現するアルゴリズムを提案した。

    Link: https://arxiv.org/abs/2603.17769

  • 単一画像からの群衆用高忠実度3Dガウス再構築:CrowdGaussian [cs.CV]目的:単一画像からの人間群衆に対する高忠実度3Dガウス再構築
    • 近年,3D人間再構築への関心が高まっている。現実世界の応用において重要な技術である。
    • 既存研究は,個人に焦点を当てており,複数人物のシーンでの再構築精度が課題となっていた。
    • 遮蔽,低解像度,多様な外観といった問題に対し,複数人物の3Dモデル再構築を目指す。
    • CrowdGaussianは,単一画像から直接,複数人物の3Dガウススプラッティング表現を再構築する統一的なフレームワークである。
    • 自己教師あり学習パイプラインにより,遮蔽された入力からでも,人間らしい形状と外観を持つ完全な3D人間を再構築できる。
    • 自己較正学習(SCL)戦略を用いることで,粗いレンダリングを最適化し,写実的で幾何学的に整合性の取れた複数人物シーンを生成する。

    Link: https://arxiv.org/abs/2603.17779

  • QLoRAおよびDoRAを用いた数十億パラメータのビジョンモデルのパラメータ効率的なファインチューニング:98:1のテスト対訓練比における限られたデータでの画像分類の一般化に関する考察 [cs.CV]目的:精密畜産における行動分類の自動化
    • 精密畜産では,家畜の行動を自動的に分類することで,飼育管理の効率化や動物福祉の向上に貢献できる。
    • 高品質なラベル付きデータの収集は困難であり,計算資源も多く必要となるため,実用化が課題となっている。
    • 大規模な事前学習済みモデルを効率的に活用し,限られたデータでも高い精度を実現することを目指す。
    • パラメータ効率的なファインチューニング(PEFT)が,既存手法と比較して大幅に高い性能を示した。
    • QLoRA(全線形層,ランク64)は,テスト精度83.16%を2.72%のパラメータと5.8時間の学習時間で達成した。
    • モデルの適応能力を高めることで,過学習ではなく,むしろ不十分な学習が課題であることが示唆された。

    Link: https://arxiv.org/abs/2603.17782

  • ResNet-50,クラス重み付け,および解剖学的誘導型時間的デコーディングによる消化管ビデオ分析 [cs.CV, cs.LG]目的:消化管ビデオ分析パイプライン
    • 消化管内視鏡検査は,消化器疾患の診断において重要な役割を担う。
    • 消化管ビデオにおける病変の検出は,稀な病態のラベル不足が課題である。
    • 稀な病態の検出精度向上と,時間的なイベントの整合性改善を目的とする。
    • クラス重み付けにより,稀な病態の学習性能が向上した。
    • 解剖学的誘導型時間的デコーディングにより,最終的なmAPが0.3801から0.4303へと改善した。
    • GTスタイルイベント合成,解剖学的投票平滑化,および解剖学的ゲート処理の組み合わせが有効であった。

    Link: https://arxiv.org/abs/2603.17784