arXiv雑要約

画像・音声 - 2026/05/15 公開

  • 視覚に基づく水位と流量の推定 [cs.CV, cs.AI]目的:水位と流量の推定手法
    • 水資源管理や防災において,正確な水位と流量の把握は不可欠である。
    • 従来の計測方法では,設置やメンテナンスにコストがかかる場合がある。
    • 環境変化に強く,高精度な水位・流量推定を目指す。
    • 最新の画像認識モデルと統計モデリングを統合したフレームワークを提案した。
    • 物理的な事前知識とロバストなフィルタリングにより,推定精度を向上させた。
    • 本研究のコードは公開されており,今後の研究に貢献する。

    Link: https://arxiv.org/abs/2605.14645

  • TERRA-CD:多時期にわたる多クラス・意味変化検出フレームワーク [cs.DC, cs.CV]目的:都市植生の多時期変化検出のためのベンチマークデータセット
    • 都市環境の変化理解には植生モニタリングが不可欠であり,その重要性は増している。
    • 包括的な変化検出用データセットが不足しており,研究の進展を阻害している。
    • 変化検出のための高品質なデータセットを提供し,深層学習モデルの性能評価を支援する。
    • TERRA-CDは,米国とヨーロッパの232都市を対象とする5,221組のSentinel-2画像ペアを含む。
    • このデータセットは,土地被覆マップ,植生変化マップ,意味変化マップの3種類の注釈スキームを提供する。
    • 様々な深層学習手法を用いた評価により,TERRA-CDが変化検出タスクに有効であることが示された。

    Link: https://arxiv.org/abs/2605.14651

  • 3Dマルチモーダル医用画像におけるインスタンスレベルを超えた自己教師あり学習 [cs.CV]目的:医用画像の3Dマルチモーダルデータにおける自己教師あり学習の改善
    • 医用画像解析は,疾患の早期発見や診断精度向上に不可欠であり,医療の発展に大きく貢献する。
    • 既存手法では,個々の患者を独立したインスタンスとして扱うため,解剖学的構造の普遍性を活用できていない。
    • 患者間の解剖学的構造の空間的関係の一貫性を活用し,よりロバストな特徴表現を獲得することを目指す。
    • 提案手法は,クロスモーダルなTriplet損失や擬似対応関係を利用し,局所的な近傍トポロジーを維持することで表現学習の精度を高めた。
    • 7つの下流タスクにおいて,セグメンテーションと分類の平均的な性能がそれぞれ1.1%,5.94%向上した。
    • テスト時にモダリティが欠損した場合でも,従来のモデルと比較して高いロバスト性を示した。

    Link: https://arxiv.org/abs/2605.14654

  • MiVE:参照画像に基づいた動画編集のためのマルチスケール視覚言語特徴 [cs.CV]目的:参照画像に基づいた動画編集における性能向上
    • 動画編集は,創造的なコンテンツ制作において不可欠な技術であり,その自動化が求められている。
    • 既存手法は,モダリティ間のギャップや空間情報の損失といった課題を抱えており,編集精度が十分ではない。
    • 視覚言語モデル(VLM)の階層的な特徴を活用し,精度の高い動画編集を実現することを目指す。
    • MiVEは,Qwen3-VLから階層的な特徴を抽出し,自己注意拡散変換器に統合することで,モダリティ間の不一致を解消している。
    • 実験の結果,MiVEは人間の選好度において最高位を獲得し,学術的な手法や商用システムを凌駕する最先端の性能を達成した。
    • MiVEは,VLMの各層が持つ補完的な情報を活用することで,局所的な空間詳細とグローバルな意味論的理解を両立している。

    Link: https://arxiv.org/abs/2605.14664

  • アクティブ学習に候補モデルは本当に必要か? [eess.SY, cs.SY, cs.CV]目的:アクティブ学習における候補モデル不要性の検証
    • 深層学習の発展は目覚ましいが,大量のラベル付きデータが必要となる。
    • 既存のアクティブ学習は,候補モデルの反復的な選択に時間がかかる。
    • 初期候補モデルなしで,効率的なアクティブ学習手法を確立すること。
    • ランダム初期化されたCNNやTransformerを用いても,候補モデルに匹敵する性能が確認された。
    • 特に,低信頼度サンプリング(LC)が最も優れた性能を示し,候補モデル不要なアクティブ学習戦略としての有効性が示された。
    • 提案手法は様々なデータセットとドメインにおいて,頑健性と効率性を持つことが実験的に証明された。

    Link: https://arxiv.org/abs/2605.14689

  • EponaV2:包括的な未来推論によるワールドモデルの駆動 [cs.CV]目的:自動運転のためのワールドモデルにおける,包括的な未来推論に基づく高品質な計画
    • 汎用人工知能の実現において,データ規模の拡大は不可欠である。
    • 従来の知覚・計画パラダイムは,高コストな手動アノテーションに依存し,スケーラビリティが低い。
    • 未来の幾何学構造と意味を予測することで,環境理解を深め,より精度の高い計画を可能にする。
    • EponaV2は,従来の知覚なし運転ワールドモデルよりも深い環境理解を実現した。
    • 3D構造と意味情報を抽出することにより,現実世界の推論能力が向上し,軌道計画の精度が向上した。
    • NAVSIMベンチマークにおいて,最先端の性能(+1.3PDMS,+5.5EPDMS)を示し,本手法の有効性を実証した。

    Link: https://arxiv.org/abs/2605.14696

  • SDRビデオからHDRビデオを生成 [cs.RO, cs.CV]目的:SDRビデオからのHDRビデオ合成
    • HDRビデオの普及に伴い,既存のSDRコンテンツのHDR化が重要になっている。
    • SDRビデオをHDRビデオに変換する際,画質劣化や不自然な表現が課題となっている。
    • SDRビデオから高品質なHDRビデオを生成する手法を開発し,その課題を解決すること。
    • 大規模な生成ビデオモデルを活用し,SDRビデオからHDRビデオを合成するフレームワークを提案した。
    • 提案手法は,複数の露出設定のSDRビデオを予測し,それらを統合することでHDRビデオを生成する。
    • 実験結果から,提案手法はカジュアルな消費者ビデオや映画のHDR変換において高い性能を示すことが確認された。

    Link: https://arxiv.org/abs/2605.14703

  • SceneFunRI:タスク駆動型機能オブジェクトの局所化における不可視領域の推論 [cs.CV, cs.AI, cs.RO]目的:タスク駆動型機能オブジェクトの局所化における不可視領域の推論
    • 現実世界のシーン理解において,隠れたオブジェクトの存在を推論する能力は重要である。
    • 現在のビジョン言語モデルは,文脈や常識知識を用いた不可視オブジェクトの場所の推論が苦手である。
    • 不可視領域の推論能力が不安定であることを明らかにし,今後のモデル開発の方向性を示す。
    • SceneFunRIベンチマークを構築し,2D空間推論問題として不可視オブジェクトの局所化を定式化した。
    • 最先端モデル(Gemini 3 Flash)でも,CAcc@75が15.20,mIoUが0.74,Distが28.65と,性能が低いことが示された。
    • プロンプト分析の結果,タスク意図,常識知識,空間的根拠付け,不確実性対応検索の統合が課題であることが示唆された。

    Link: https://arxiv.org/abs/2605.14704

  • 孤立符号から連続手話会話へ [cs.CV]目的:連続手話会話の構築
    • 手話は多くの難聴者にとって主要な言語である。しかし,対話AIは音声や文字を介することが多い。
    • 手話動画データの収集・アノテーションは高コストであり,語彙カバレッジや汎化性能が課題となっている。
    • 孤立符号から連続手話会話を構築し,データ不足を解消することを試みる。
    • 大規模な孤立符号データセットSignaVox-Wと連続手話会話データセットSignaVox-Uを構築した。
    • 期間調整と共調境界の補完を行う拡散Transformer BRAIDを提案した。
    • SignaVoxという手話から手話への対話モデルを訓練し,運動品質と意味的整合性の向上を示した。

    Link: https://arxiv.org/abs/2605.14705

  • スタイル条件付き多言語シーンテキスト生成 [cs.CV]目的:スタイル条件付きシーンテキスト生成における課題解決
    • シーンテキスト生成は,現実世界での情報伝達において不可欠な技術である。
    • 複雑な背景からの正確なテキストスタイル抽出と,多言語スクリプトにおける一貫性維持が困難である。
    • 異なる言語や文字体系において,視覚的なテキストスタイルを正確に認識・再現することを目指す。
    • StyleTextGenは,デュアルブランチスタイルエンコーダにより,多言語のテキストスタイル表現を頑健に学習する。
    • テキストスタイルの一貫性を高める損失関数と,マスクガイド推論戦略により,スタイル整合性と品質を向上させる。
    • StyleText-CEという二言語シーンテキストスタイルベンチマークを構築し,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2605.14708

  • 二重のボトルネックを打破する:統一されたマルチモーダルモデルを進化させ,自己適応型インターリーブ型ビジュアル推論器とする [cs.CV]目的:複雑な指示に対応可能な画像生成モデルの構築
    • マルチモーダルAIは,画像とテキスト等の情報を統合し,より高度な情報処理を可能にする重要な研究分野である。
    • 既存モデルは,指示理解と画像生成の間に乖離があり,複雑な指示に対応した正確な画像操作が困難である。
    • モデルが指示の複雑さと能力に応じて生成戦略を自動的に切り替えることで,この問題を解決することを目指す。
    • 本研究では,指示の複雑さに応じて,直接生成,自己反省,多段階計画の3つの適応モードを切り替える階層型データパイプラインを構築した。
    • 5万件以上の高品質なデータセットを構築し,SFTとRLによる二段階の学習戦略を適用したことで,論理的な整合性と計算効率を向上させた。
    • 実験の結果,本手法は既存手法を上回り,複雑な指示に対する生成の忠実度において優れた性能を示した。

    Link: https://arxiv.org/abs/2605.14709

  • 脳卒中予後予測のためのVision-Core誘導対照学習によるバランスの取れたマルチモーダル学習 [cs.CV, cs.AI]目的:脳卒中予後予測のためのマルチモーダルモデル
    • 医療診断において,深層学習とマルチモーダル融合は多様なデータ源の統合により大きな可能性を示している。
    • 既存のマルチモーダルアプローチの限界から,脳卒中の正確な予後予測は依然として困難である。
    • 画像,臨床データ,テキストのトリプルモーダル融合を実現し,異質性を軽減する。
    • 大規模言語モデルを用いてMRIから診断テキストを自動生成することで,専門家によるアノテーションの不足を補い,マルチモーダル融合の堅牢性を高めている。
    • Vision-Conditioned Dual Alignment Fusion Module (VDAFM) は,視覚特徴を条件とする事前情報として活用し,テキストとの詳細な相互作用を誘導する。
    • 臨床データセットでの実験により,提案モデルが最先端の性能を達成することが示された。

    Link: https://arxiv.org/abs/2605.14710

  • IntentVLA:曖昧性解消のための短期意図モデル [cs.RO, cs.AI, cs.CL, cs.CV]目的:ロボット操作における短期意図のモデル化
    • ロボットの模倣学習は,多様なタスクへの適応を可能にする重要な技術である。
    • 視覚と言語の情報が曖昧な場合,ロボットは意図を正確に理解できず,不安定な動作になる。
    • 短期的な意図を明示的にモデル化することで,曖昧な状況下でのロボットの動作を安定化させる。
    • IntentVLAは,過去の視覚情報を基に短期意図を表現し,行動生成に活用することで,ロールアウトの安定性を向上させる。
    • 提案するAliasBenchは,短期的な観測の曖昧性を評価するためのベンチマークであり,IntentVLAはその性能を実証している。
    • 既存のVLAベースラインと比較して,IntentVLAは複数の環境で優れた性能を示した。

    Link: https://arxiv.org/abs/2605.14712

  • アンカールート:区間経路指定による疎な制御を用いた人体モーション合成 [eess.SY, cs.SY, cs.GR, cs.CV, cs.LG]目的:人体モーション合成のためのフレームワーク
    • 人間らしい自然な動きの生成は,バーチャルリアリティやロボット工学など多くの分野で重要である。
    • 既存手法では,詳細なモーションキャプチャデータが必要であり,汎用性に欠ける場合がある。
    • 少ない制御点(アンカー)のみを用いて,高品質なモーションを生成・修正することを目指す。
    • アンカールートは,生成と修正の両方にアンカーを共有するスキャフォールドとして活用する。
    • 事前学習済みのテキスト-モーションモデルの品質を維持しつつ,疎な空間制御を学習可能にした。
    • アンカー条件生成器と区間経路ソルバーの組み合わせにより,テキスト品質とアンカーへの追従性を両立した。

    Link: https://arxiv.org/abs/2605.14716

  • マルチタスク学習を用いたラベルフリーシングルセル表現型解析への道 [cs.CV, cs.AI]目的:ラベルフリーシングルセルイメージングからの分子表現型推論
    • シングルセル解析は,疾患メカニズムの解明や個別化医療に不可欠な技術である。
    • 従来の蛍光染色法は高コストであり,細胞への影響も懸念される。
    • ラベルフリーイメージングによる,簡便かつ非侵襲的な表現型解析の実現。
    • 提案手法は,白血球の分類において91.3%の精度を達成した。
    • CD16発現量の回帰分析では,0.72のピアソン相関係数を示した。
    • 本研究は,コスト効率の良い血液学的プロファイリングの可能性を示唆する。

    Link: https://arxiv.org/abs/2605.14717

  • CHASM:クロス周波数調和軸分離混合によるスペクトルトークン演算子 [cs.CV]目的:スペクトルトークン演算子における効率的なグローバル相互作用のモデリング
    • 画像認識において,グローバルな文脈を捉えることは性能向上の鍵となる。
    • 既存のスペクトルミキサーは,周波数間のチャンネル方向の整合性に課題がある。
    • 周波数間のチャンネル方向を調和させ,局所的な適応性を維持する演算子の開発。
    • 提案手法CHASMは,共通のチャンネル基底と周波数固有のスペクトルゲインを導入することで,性能向上を実現した。
    • CHASMは,MRI再構成,セグメンテーション,自然画像再構成といった多様なタスクで,既存のスペクトルミキサーを上回る結果を示した。
    • 共通基底の除去やサンプリングのランダム化は性能低下を引き起こし,クロス周波数調和の有効性が示された。

    Link: https://arxiv.org/abs/2605.14727

  • リアルタイムの共演話者アバターのための統一的なスパースモーションモデリングUMo [cs.GR, cs.CV, cs.SD]目的:リアルタイム共演話者アバターのための統一的なスパースモーションモデリング
    • ゲームやバーチャルプロダクションにおいて,表現力豊かなデジタルアバターは重要である。
    • 既存手法は,音声とモーションの対応付けが単一のモダリティに限定されているか,リアルタイム処理が困難である。
    • UMoは,高品質かつリアルタイムなモーション生成を可能にし,この課題を解決することを目指す。
    • UMoは,テキスト,音声,モーショントークンを統一的に処理するスパースモーションモデリングアーキテクチャである。
    • 空間的スパース性と時間的スパース性を活用し,低遅延下でも高精度なアニメーション生成を実現した。
    • 定量評価と定性評価の結果,UMoは低遅延かつリアルタイム性能において,既存手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2605.14731

  • ビデオ・ゼロ:自己進化型動画理解 [cs.CV]目的:動画理解における自己進化による推論モデルの性能向上
    • 動画理解は,AIの重要な応用分野であり,様々なタスクに応用可能である。
    • 既存の動画理解モデルは,動画の冗長性や時間的な局所性により,効果的な推論が困難である。
    • 時間的に局所化された証拠に基づいた自己進化フレームワークにより,この問題を解決する。
    • 提案手法Video-Zeroは,質問者と解答者の共同進化により,証拠に基づいた質問生成と解答を実現する。
    • Video-Zeroは,13のベンチマークにおいて,複数の動画VLMバックボーンの性能を向上させることを示した。
    • この結果は,証拠を中心とした自己進化の有効性と転移学習能力を示すものである。

    Link: https://arxiv.org/abs/2605.14733

  • IsoNet:複雑な音響環境における空間認識型音声・視覚ターゲット音声抽出 [cs.SD, cs.LG]目的:複雑な音響環境下でのターゲット音声抽出手法
    • 近年,コンパクトデバイスでの音声処理需要が高まる中で,高品質な音声抽出が重要視されている。
    • 単一マイクのニューラルモデルは空間情報に乏しく,従来のビームフォーマは小型アレイでは性能が低下する。
    • IsoNetは,視覚情報と空間情報を統合し,従来の空間フィルタリングが困難な状況下での性能向上を目指す。
    • IsoNetは,4マイクアレイを用いて,-1dBから10dBのSNR範囲において9.31dBのSI-SDRを達成した。
    • これは,元の混合音に対して4.85dBの改善であり,Oracle delay-and-sumやMVDRビームフォーマよりも優れている。
    • 視覚情報,GCC-PHAT特徴量,遅延ビンエンコーディングの拡張が,一貫して性能向上に貢献することが示された。

    Link: https://arxiv.org/abs/2605.14736

  • EARL:自己中心的相互作用推論とピクセル接地のための統一された分析誘導強化学習フレームワーク [cs.CV, cs.RO]目的:自己中心的視点からの人間と環境の相互作用理解
    • 支援ロボットや具現化された知能エージェントの実現に不可欠な研究分野である。
    • 既存のマルチモーダル大規模言語モデルは,正確な相互作用推論と詳細なピクセル接地で課題を抱えている。
    • 自己中心的相互作用の粗い意味をクエリ指向の応答と接地へ明示的に転移させることを目指す。
    • EARLは,粗い粒度の解釈と詳細な応答を含む二段階の解析フレームワークを採用している。
    • Ego-IRGBenchにおいて,ピクセル接地におけるcIoUが65.48%を達成し,既存の強化学習ベースの手法を8.37%上回る性能を示した。
    • EgoHOSにおけるOOD接地結果は,未知の自己中心的接地シナリオへの高い転移可能性を示唆している。

    Link: https://arxiv.org/abs/2605.14742

  • Video2GUI:汎用GUIエージェント事前学習のための大規模インタラクション軌跡の合成 [cs.CL, cs.AI, cs.CV, cs.LG]目的:GUIエージェントの汎化性能向上に資する大規模な学習データセットの構築
    • GUIエージェントは,多様なアプリケーション操作を自動化する可能性を秘めており,注目を集めている。
    • 高品質な学習データの不足が,GUIエージェントの汎化性能を制限している主要な課題となっている。
    • インターネット上の動画から自動的にGUIインタラクション軌跡を抽出し,大規模データセットを構築することで,この課題を解決する。
    • 提案手法Video2GUIは,5億件の動画メタデータから1200万件のインタラクション軌跡を含む大規模データセットWildGUIを構築した。
    • WildGUIを用いた事前学習により,複数のGUI関連ベンチマークにおいて,Qwen2.5-VLとMimo-VLの性能が5-20%向上した。
    • 構築したデータセットとパイプラインは公開され,今後のGUIエージェント研究を支援する。

    Link: https://arxiv.org/abs/2605.14747

  • ペルシャ音楽ジェネレーター:大規模データセットと文化を考慮した生成モデル [cs.SD, cs.CL]目的:ペルシャ音楽の生成
    • 西洋音楽中心の研究に偏りがちであり,多様な音楽文化の表現が課題となっている。
    • ペルシャ音楽特有の旋法やリズムが複雑であり,既存の生成モデルでは表現が困難である。
    • ペルシャ音楽の多様性を反映した生成モデルを開発し,文化的な文脈に合致した音楽生成を目指す。
    • 900時間以上のペルシャ音楽データセットを構築し,多様なジャンルを網羅した。
    • MusicGenをファインチューニングすることで,ペルシャ音楽の様式に沿った楽曲生成が可能となった。
    • 生成された楽曲と意図したスタイルタグとの整合性が高く,文化的背景を反映していることが示された。

    Link: https://arxiv.org/abs/2605.14765

  • BioHuman:ビデオからの生体力学的人間表現の学習 [cs.CV, cs.GR, cs.LG]目的:生体力学的人間表現の学習
    • 人間運動の理解は,運動分析,リハビリテーション,傷害リスク評価において重要である。
    • 大規模な生体力学的注釈付きデータセットの不足が課題となっていた。
    • 視覚的観察から内部の生体力学的状態を直接推論する。
    • 本研究では,モーションキャプチャデータセットから筋活動を推定するシミュレーションベースのフレームワークを導入した。
    • BioHumanは,単眼ビデオを入力とし,人間の動きと筋活動を同時に予測する。
    • 実験の結果,BioHumanは運動学的運動と筋活動の両方を正確に再構成し,様々な被験者や動きに一般化できることが示された。

    Link: https://arxiv.org/abs/2605.14772

  • MonoPRIO:単眼3次元物体検出のための適応的事前条件付け [cs.CV]目的:単眼3次元物体検出におけるサイズ推定の安定化
    • 自動運転やロボット工学において,周囲環境の正確な3次元認識は不可欠である。
    • 単眼画像からの3次元物体検出は,スケール・奥行き曖昧性や遮蔽により,サイズ推定が不安定になりやすい。
    • クラス間の多様性や部分的視認性を考慮した,よりロバストなサイズ推定手法を確立すること。
    • MonoPRIOは,クラスを意識したサイズプロトタイプと不確かさに基づいた条件付けにより,サイズ推定の精度を向上させている。
    • KITTIデータセットにおいて,既存手法を上回る性能を達成しており,特に自動車,歩行者,自転車の検出において優れている。
    • 曖昧さや遮蔽の影響を受けやすい状況において,適応的事前条件付けが有効であることが示されている。

    Link: https://arxiv.org/abs/2605.14781

  • リハーサルベースのクラス継続学習における不均衡な忘却の理解 [cs.DC, cs.LG, cs.CV]目的:クラス継続学習における不均衡な忘却現象の解明
    • ニューラルネットワークの継続学習において,以前の知識を保持することは重要課題である。
    • リハーサルによる忘却の抑制策は存在するものの,クラスによって忘却の度合いに偏りが見られる。
    • この不均衡な忘却のメカニズムを解明し,抑制策の指針を得る。
    • 不均衡な忘却は,リハーサルベースのクラス継続学習において系統的かつ深刻に発生することが示された。
    • 勾配レベルの干渉を示す3つの係数が,各クラスの忘却度合いを予測することが確認された。
    • 特に,自己誘起干渉を捉える係数が最も強い予測因子であり,クラス間の忘却の不均衡を軽減する手がかりとなる。

    Link: https://arxiv.org/abs/2605.14785

  • 合成画像検索ベンチマークはマルチモーダル合成を必要とするか [cs.CV, cs.CL]目的:合成画像検索におけるモデルの性能評価
    • 画像とテキストの組み合わせによる情報検索は,より高度な理解と応用を可能にする。
    • 既存のベンチマークが,真のマルチモーダル合成能力を正確に評価できていない可能性がある。
    • 現在のベンチマークの課題を明らかにし,より適切な評価方法を模索すること。
    • 既存の合成画像検索ベンチマークにおいて,クエリの多くは単一のモダリティ(画像またはテキスト)のみで解決可能であることが示された。
    • ベンチマークには,ショートカットで解けるクエリ,ノイズを含むクエリ,そして真に合成を必要とするクエリが混在している。
    • 検証されたクエリセットでは,マルチモーダル情報の活用がより重要になり,モデルの行動が変化した。

    Link: https://arxiv.org/abs/2605.14787

  • 識別的参照多物体追跡のための反事実的・観測的アラインメント学習:COAL [cs.CV]目的:参照多物体追跡における識別能力の向上
    • 多様な物体を追跡する技術は,自動運転やロボティクスなど,幅広い分野で不可欠である。
    • 参照多物体追跡では,わずかな意味的指示のみで高精度な識別が必要だが,十分な学習データがない。
    • 知識の正則化により,この識別性とデータ不足の矛盾を解消し,追跡性能を向上させる。
    • 提案手法COALは,VLMによる意味的特徴の注入とLLMによる反事実的学習を組み合わせる。
    • Refer-KITTIおよびRefer-KITTI-V2ベンチマークにおいて,最先端手法を大幅に上回る性能を示す。
    • 特にRefer-KITTI-V2では,HOTAスコアで7.28%の改善を達成し,有効性を証明した。

    Link: https://arxiv.org/abs/2605.14795

  • Visual MambaはAI生成画像検出を改善できるか:詳細な調査 [cs.CV, cs.CR, cs.SI]目的:AI生成画像検出におけるVision Mambaモデルの評価と分析
    • 画像生成技術の進歩は,情報操作やプライバシー侵害のリスクを高めている。
    • 既存のAI生成画像検出手法では,多様な生成モデルや画像タイプへの対応が課題である。
    • Vision MambaのAI生成画像検出能力を評価し,実用性,精度,効率を明らかにすること。
    • Vision Mambaモデルは,代表的なCNN,ViT,VLMベースの検出器と比較して,AI生成画像検出において競争力のある性能を示した。
    • Vision Mambaは,データセットや生成モデルの多様性に対する汎化性能において,いくつかの課題も明らかになった。
    • 本研究は,現実とAI生成のコンテンツを区別するための検出技術向上に貢献し,その重要性が増している。

    Link: https://arxiv.org/abs/2605.14799

  • SuperADD:訓練不要なクラス非依存異常セグメンテーション [cs.RO, cs.CV]目的:産業検査における視覚異常検出の性能向上
    • 製造業における品質管理の自動化が重要であり,異常検出はその鍵となる技術である。
    • 製造環境の変化により,学習データと実データに分布のずれが生じやすく,汎化性能が課題となる。
    • 分布のずれに頑健な,訓練不要かつクラス非依存な異常検出手法を開発し,実用性を高める。
    • 提案手法SuperADDは,DINOv3バックボーンやデータ分布への適応的サブサンプリングにより,既存手法を上回る性能を示す。
    • クラス固有の学習やパラメータ調整を必要とせず,製品バリエーションの変化に柔軟に対応できる。
    • MVTec AD 2データセットにおいて,テスト公開,非公開,混合データセットでそれぞれ高いセグメンテーションF1スコアを達成した。

    Link: https://arxiv.org/abs/2605.14808

  • ビデオモデルのカメラ制御に関する探求 [cs.RO, cs.CV]目的:ビデオ生成におけるカメラ制御のメカニズム
    • ビデオは豊富な視覚情報を提供し,3D/4Dコンテンツ生成に不可欠である。
    • 既存手法は大規模なカメラ制御データセットの不足に直面しており,汎化性能が課題である。
    • カメラ制御を幾何学的な誘導として捉え,既存モデルへの追加学習なしに制御を実現する。
    • カメラ制御を潜在特徴の微分再サンプリングによる変位場として定式化することで,高品質なカメラ制御を可能にした。
    • 本手法は,ファインチューニングされたベースラインと比較して,多様な品質指標において性能劣化を最小限に抑えた。
    • 既存のビデオ拡散モデルへの適用性が高く,カメラ制御能力の評価ツールとしても活用できることが示された。

    Link: https://arxiv.org/abs/2605.14815

  • 速度不足:フローマッチングのための初期エネルギー注入 [cs.CL, cs.CV]目的:高次元におけるフローマッチングの速度不足の是正
    • 生成モデルの性能向上は,高品質なサンプルの生成に不可欠であり,様々な応用を可能にする。
    • フローマッチングは理論上安定だが,高次元では速度が過小評価され,データ多様体への到達が困難になる。
    • 初期エネルギー注入により,速度不足を補正し,生成サンプルの品質と速度を向上させる。
    • 提案手法であるSSCは,追加学習なしで効率的な改善をもたらし,FIDを大幅に向上させた。
    • ImageNet-1kにおいて,FIDを44.6%改善(13.68から7.58へ)し,生成速度も5倍に向上させた。
    • 本手法は,Text-to-Imageタスクや高解像度生成にも適用可能であり,MS-COCOでもFIDが約22%改善された。

    Link: https://arxiv.org/abs/2605.14819

  • HDRFace:高次元表現による顔復元の再考 [cs.CV]目的:顔復元のための高次元表現に基づくフレームワーク
    • 顔画像は個人識別や様々な応用において重要であり,高画質化技術の需要は高い。
    • 複雑な劣化が加わった顔画像の復元は,情報損失が大きく,困難な問題である。
    • 重度の劣化下における個人識別を重視した詳細な復元を可能にすること。
    • HDRFaceは,既存の生成モデルを変更することなく,意味的に豊かな事前知識を注入する。
    • 中間的な復元結果と低品質入力から抽出した高次元特徴量を条件として利用し,構造と詳細を意識した融合機構を導入。
    • SD V2.1-baseとQwen-Imageの両モデルで安定した性能向上を確認した。

    Link: https://arxiv.org/abs/2605.14821

  • 自律運転のためのフローマッチングによる直接制御ポリシーの学習 [cs.RO, cs.CV]目的:自律運転のための直接制御ポリシー
    • 自動運転技術は,交通渋滞の緩和や交通事故の削減に貢献し,社会に大きな変革をもたらすことが期待されている。
    • 従来の自動運転システムは,複雑な環境変化への対応が難しく,汎化性能に課題がある。
    • この研究は,分布シフトに対してロバストな制御ポリシーを学習し,未知の環境での安定した走行を実現することを目指す。
    • 提案手法は,鳥瞰図表現とフローマッチングの組み合わせにより,低遅延でリアルタイムな再計画を可能にする。
    • シミュレーション環境において,未知の環境に対しても安定した制御性能と高い汎化性能を示すことが確認された。
    • この結果は,鳥瞰図表現が環境変化に強いこと,そしてフローマッチングが分布シフト下でスムーズに劣化することに起因すると考えられる。

    Link: https://arxiv.org/abs/2605.14832

  • コンピュータグラフィックス研究における人種的特徴 [cs.CY, cs.GR]目的:フォトリアリスティックな画像生成アルゴリズムにおける人種的偏りの体系的な分析
    • コンピュータグラフィックスは,映像制作やゲームデザインにおいて重要な役割を担う分野である。
    • 既存のアルゴリズムが,特定の人種的特徴に偏っている可能性が指摘されていた。
    • アルゴリズムの人種的偏りを明らかにし,多様性を尊重した研究開発を促進すること。
    • コンピュータグラフィックスの主要な会議やジャーナルにおける人種表現を分析した結果,アルゴリズムが白人の肌や髪の特徴を基準としていることが示された。
    • 「McDaniels Methods」という概念を提唱し,人種階層を強化するアルゴリズムを批判的に評価する枠組みを提示した。
    • 共設計によって開発されたアルゴリズム群を「Durald Methods」と定義し,今後の研究の方向性を示唆した。

    Link: https://arxiv.org/abs/2605.14835

  • 弱学習ビデオモーメント検索のためのマルチ提案協調とマルチタスク学習 [cs.CV, cs.MM]目的:弱学習ビデオモーメント検索における性能向上
    • ビデオデータ解析において,特定の瞬間を効率的に検索する技術は重要である。
    • 既存手法では,粗い提案や誤った時刻の識別,単一の補助タスクへの依存が課題となっている。
    • 高品質な提案生成と安定した学習による,より正確な検索技術の確立を目指す。
    • 提案手法MCMTは,複数の提案と学習可能なガウスマスクを用いて,高精度な正例マスクを生成する。
    • ビデオ内の他のクリップを容易な負例,ビデオ全体を困難な負例として分類することで,識別能力を高める。
    • 前向きおよび逆向きのマスクされたクエリ再構成タスクを導入し,ネットワークへの制約を強化,安定した検索性能を実現する。

    Link: https://arxiv.org/abs/2605.14838

  • 画像編集における抽象的な意図の評価:原子的エンティティ分析を通して [cs.CV]目的:抽象的な画像編集の評価手法
    • 画像編集技術は,多様な表現を可能にし,人々の創造性を支援する重要な分野である。
    • 既存の評価基準は具体的な指示に偏り,抽象的な指示への対応能力が十分でない。
    • 抽象的な画像編集における評価枠組みを確立し,モデルの性能向上に貢献すること。
    • 本研究では,抽象的な編集を原子的なエンティティレベルで評価するEntity-Rubricsを提案し,人間の判断との高い相関を示した。
    • AbstractEditという,多様な実世界シーンにおける抽象的な画像編集に特化した初のベンチマークを公開した。
    • 主要なモデル11個を評価した結果,意図と画像の保全のバランスが課題であり,過少または過剰編集の傾向がみられた。

    Link: https://arxiv.org/abs/2605.14842

  • MechVerse:ビデオ生成モデルにおける物理的運動の一貫性評価 [cs.CV]目的:機械的整合性のあるビデオ生成のベンチマーク
    • 視覚的リアリティが向上する一方,物理法則に沿わない運動生成が課題である。
    • 既存モデルでは,剛体保持や部品間の連携といった機械構造の制約を満たせていない。
    • 機械構造における運動の整合性を評価し,改善策を導くことを目指す。
    • MechVerseは,141カテゴリー,1357の機械構造から構成される21,156の合成クリップを含むベンチマークである。
    • 現在のモデルは外観や滑らかさは維持できるものの,機械的に妥当な運動を生成できていないことが示された。
    • MechVerseは,画像と言語からの機構を意識したビデオ生成の測定と改善を可能にする。

    Link: https://arxiv.org/abs/2605.14843

  • オンライン署名検証のためのVision-Languageモデルの探求:ゼロショット能力の研究 [cs.CV]目的:オンライン署名検証におけるVision-Languageモデルのゼロショット性能評価
    • 生体認証は,セキュリティにおいて重要な役割を担うため,その精度向上は喫緊の課題である。
    • 既存の署名検証手法は,特定のデータセットに依存する傾向があり,未知のデータへの汎化性能が低い。
    • 本研究は,汎化性能の高いVision-Languageモデルを応用し,署名検証における新たな可能性を模索する。
    • GPT-5.2は,ランダムな偽造署名に対して,モバイルタスクで0.32%のEERを達成し,教師あり学習による最先端システムを上回る性能を示した。
    • 熟練した偽造署名の場合,性能は大幅に低下し,「正当化の罠」と呼ばれる現象が明らかになった。これは,思考連鎖(CoT)推論がモデルに偽造痕跡を自然な変動として解釈させ,性能を低下させる。
    • 信号品質と偽造の種類によって,性能に大きな差が見られた。特に,熟練した偽造署名の識別が課題として残る。

    Link: https://arxiv.org/abs/2605.14845

  • SR-顕著性:知覚的重み付け超解像アーチファクト評価のためのクラウドソーシングプロトコルとデータセット群 [cs.CV]目的:超解像アーチファクトの知覚的な影響度評価
    • 画像超解像技術は発展しているが,生成されるアーチファクトの知覚的品質評価は重要である。
    • 既存の評価手法は,アーチファクトの知覚的な影響度の差を考慮していない。
    • アーチファクトの顕著性に着目し,知覚的な影響度を評価するデータセットとプロトコルを構築する。
    • 本研究では,クラウドソーシングを用いて構築したSR-Prominenceデータセットを用いた評価プロトコルを提案した。
    • DeSRAデータセットの再アノテーションにより,48.2%のアーチファクトが多数の視聴者には気づかれないことが明らかになった。
    • SSIMやDISTSといった従来の手法が,局所的な顕著性の指標として有効であることが示された。

    Link: https://arxiv.org/abs/2605.14847

  • FactorizedHMR:ビデオにおける人体メッシュ復元のハイブリッドフレームワーク [cs.IR, cs.CV, cs.AI]目的:ビデオから人体メッシュを復元する手法
    • ビデオにおける人体姿勢推定は,行動認識や人間とのインタラクションにおいて重要である。
    • 人体の一部が隠れていたり,奥行き情報が不十分な場合,姿勢推定が曖昧になりやすい。
    • 体幹部と四肢部で推定の確実性が異なる点に着目し,よりロバストな姿勢推定を目指す。
    • 本研究では,まず体幹部と根幹構造を決定的に推定し,次に確率的なフローマッチングを用いて残りの関節を推定する二段階フレームワークを提案する。
    • 合成データパイプラインを導入し,多様な視点からの画像-カメラ-モーションのペアによる学習を実現した。
    • 実験結果から,特に遮蔽物の多い状況や,ドリフトに敏感なワールド空間での性能が向上することが示された。

    Link: https://arxiv.org/abs/2605.14854

  • LPH-VTON:潜在的プロセスハンドオーバーによるバーチャル試着の構造とテクスチャのジレンマ解決 [cs.CV]目的:バーチャル試着における構造とテクスチャのジレンマの解決
    • 衣服のバーチャル試着技術は,オンラインショッピング体験を向上させる上で重要な役割を果たす。
    • 既存の拡散モデルでは,構造の正確性とテクスチャのリアル感の両立が困難である。
    • 構造とテクスチャの双方を最適化する新しいフレームワークを開発し,両者のトレードオフを解消する。
    • 提案手法LPH-VTONは,構造を重視したモデルとテクスチャを重視したモデルを組み合わせることで,このジレンマを解決する。
    • 初期段階で構造的な整合性を確立し,その後,テクスチャの鮮明なレンダリングを行うことで,高い品質を実現する。
    • VITON-HDデータセットにおいて,既存手法を上回る性能を示し,構造的整合性と知覚的な忠実性の両方を向上させた。

    Link: https://arxiv.org/abs/2605.14874

  • 閉ループ検証推論による複雑な画像生成の解禁 [cs.CV, cs.AI]目的:複雑な画像生成における課題克服
    • 画像生成技術は急速に進歩しているが,複雑な意味表現が困難である。
    • 既存手法は,根拠のない計画や,長いコンテキストでの最適化の不安定性といった問題を抱えている。
    • 視覚言語論理計画とピクセルレベル拡散生成を深く結びつけることで,これらの課題を解決する。
    • 提案手法CLVRは,既存のオープンソースモデルを上回り,商用モデルに匹敵する性能を実現した。
    • 自動データエンジンとステップレベルの視覚的検証により,信頼性の高い推論軌跡を合成する。
    • $\Delta$-Space Weight Merge (DSWM)により,推論コストを大幅に削減し,効率的な画像生成を可能にした。

    Link: https://arxiv.org/abs/2605.14876

  • HeatKV:視覚自己回帰モデリングのためのヘッド調整KVキャッシュ圧縮 [cs.CV]目的:視覚自己回帰モデルにおけるKVキャッシュ圧縮手法
    • 画像生成AIの発展に伴い,高品質かつ低遅延な画像生成が求められている。
    • 視覚自己回帰モデルは巨大なメモリ消費量に課題があり,実用上の制約となっている。
    • ヘッドごとの注意度に基づきキャッシュ割り当てを最適化し,メモリ効率を向上させる。
    • HeatKVは,既存手法と比較してKVキャッシュのメモリ割り当て圧縮率を2倍に向上させた。
    • 画像品質,プロンプトへの適合性,人間による評価において,同等またはより良い性能を維持した。
    • 視覚自己回帰モデルのKVキャッシュ圧縮において,新たな最高水準の性能を達成した。

    Link: https://arxiv.org/abs/2605.14877

  • マルチエージェントシステムにおける時間的公平分割:正確な交互性指標からスケーラブルな協調プロキシへ [cs.MA, cs.MA, cs.GT, cs.LG]目的:時間的公平分割の理論発展
    • 資源配分における公平性は,社会的な調和と効率的な協調を促進する上で重要である。
    • 反復的な資源獲得競争において,従来の公平性指標では協調の失敗を捉えきれない場合がある。
    • 時間経過を考慮した公平性評価指標を開発し,スケーラブルな協調メカニズムを構築することを目指す。
    • 本研究で提案するRotational Periodicity (RP) は,ALTと比較して計算速度が12~25倍向上する。
    • Q-learningエージェントは,RPおよびALT指標においてランダムポリシーよりも劣る傾向が確認された。
    • RPとALTは,それぞれ小規模集団と大規模集団で異なる特性を示すため,診断ツールキットとして活用できる。

    Link: https://arxiv.org/abs/2605.14879

  • 空間認識型ノイズ除去によるガウススプラッティング [cs.CV, cs.GR, cs.LG]目的:3Dガウススプラッティングにおけるガウス素子のノイズ除去
    • 3Dシーンの忠実な再現は,仮想現実やロボティクスなど様々な分野で重要性が増している。
    • SfM点群からの初期化が不完全なため,3DGSの最適化過程でノイズが発生しやすい。
    • ガウス素子の位置と空間構造を考慮し,ノイズを効果的に除去することでNVSの品質向上を目指す。
    • Denoising-GSは,ガウス素子の位置と空間構造を考慮した空間認識型ノイズ除去フレームワークである。
    • 空間勾配に基づくノイズ除去戦略により,一貫性のある更新を実現し,NVSの忠実度を向上させる。
    • 不確実性に基づくノイズ除去モジュールと空間コヒーレンス精製戦略により,表現のコンパクト性を維持しつつ,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2605.14880

  • 自己教師ありシーンテキスト認識のためのマスク付き次スケール予測 [cs.CV]目的:シーンテキスト認識における自己教師あり学習フレームワークの提案
    • シーンテキスト認識は,粗いレイアウトから細かい文字ストロークまで,視覚構造のモデリングが不可欠である。
    • 従来の学習は大量のアノテーションデータに依存しており,データ収集の負担が大きい。
    • 大規模なラベルなしデータを用いて,テキストの階層的な構造を捉える自己教師あり学習を目指す。
    • 提案手法MNSPは,異なるスケール間の構造進化を明示的にモデル化することで,最先端の性能を達成した。
    • Union14Mベンチマークで平均86.2%の精度,6つの標準データセットで96.7%の精度を記録した。
    • 極端なスケールやレイアウトの変化に対するロバスト性も向上していることが示された。

    Link: https://arxiv.org/abs/2605.14885

  • PROCESS-2:初期認知機能低下検出のためのベンチマーク音声コーパス [cs.SD, cs.LG]目的:初期認知機能低下検出のための自動評価研究を支援する大規模音声データセット
    • 音声分析は認知機能低下を検知する上で,スケーラブルかつ非侵襲的な手法として重要である。
    • 現実的な条件下で収集された,臨床的に検証済みのデータセットが不足している点が課題であった。
    • 自動評価研究を促進するため,高品質で検証済みの音声データセットを提供することを目指している。
    • PROCESS-2は,健常者200名,軽度認知障害者150名,認知症患者50名からなる大規模データセットである。
    • データセットに含まれる音声は約21時間で,参加者の会話の自然さを維持しつつ,臨床的に意味のあるグループ分離が確認された。
    • Hugging Faceを通じて制御されたアクセスで公開され,参加者のプライバシーを保護しながら,研究の再現性を確保している。

    Link: https://arxiv.org/abs/2605.14888

  • SurgicalMamba: 二重経路SSDと状態再構成によるオンライン手術段階認識 [cs.CV, cs.AI]目的:オンライン手術段階認識の精度向上
    • 手術室における状況認識システムの実現に不可欠な技術であり,医療の質の向上に貢献する。
    • 既存の手法では,長時間の動画や,段階遷移が少ない動画への対応が難しい。
    • Mamba2の構造化状態空間二重性(SSD)を用いて,効率的かつ高精度な手術段階認識を実現する。
    • SurgicalMambaは,Cholec80ベンチマークで94.6%の精度,AutoLaparoで89.5%の精度を達成し,既存の最高性能手法を上回った。
    • 二重経路SSDブロック,強度変調ステップ,状態再構成の3つのコンポーネントが,手術動画特有の課題に対応している。
    • 学習された回転平面は,手術ワークフローの解釈可能な内部シグネチャを獲得し,段階に沿った構造を示す。

    Link: https://arxiv.org/abs/2605.14889

  • マルチスケール画像超解像のための階層的画像トークン化 [cs.CL, cs.CV]目的:マルチスケール画像超解像手法
    • 画像処理分野において,高解像度化は視覚情報の質的向上に不可欠であり,応用範囲も広い。
    • 既存手法は,固定スケールでの生成や,大規模なモデル・データセットへの依存が課題となっていた。
    • 本研究は,柔軟性と効率性を高め,外部データなしで高品質なマルチスケール超解像を実現することを目指す。
    • 提案手法である階層的画像トークン化(HIT)は,異なるスケール間でトークンを重複させることで,モデルに強い誘導的バイアスを与える。
    • HITにより,パラメータ数が少ないモデル(300M)でも,既存の最先端手法と同等以上の性能を達成した。
    • 本手法は,追加の学習データなしで,単一のフォワードパスでマルチスケール出力が可能である。

    Link: https://arxiv.org/abs/2605.14891

  • CLIPには164次元のノイズが存在する:対照学習済みVision-Language Transformerの埋め込み共分散スペクトルの探求 [cs.CV, cs.AI, cs.LG]目的:Vision-Language Modelの潜在空間における多Modalノイズの構造解析
    • 画像と言語を同時に理解するモデルは,様々な応用で高い性能を発揮するため重要である。
    • 既存モデルの潜在空間には,意味を持たないノイズが蓄積し,性能向上を阻害する可能性がある。
    • 潜在空間に存在するノイズを特定し,除去することで,モデルの表現能力を向上させることを目指す。
    • 潜在空間を分解した結果,多Modalな意味情報と共有ノイズ空間に分離できることが示された。
    • 共有ノイズ空間の次元を削減しても,下流タスクの性能は維持または向上することが確認された。
    • 現代のVLMsの潜在空間は,タスク関連の意味だけでなく,アーキテクチャレベルのノイズによって大きく影響を受けることが示唆された。

    Link: https://arxiv.org/abs/2605.14893