arXiv雑要約

画像・音声 - 2026/06/18 公開

  • DiFlow-TTS:離散フローマッチングによるコンパクトかつ低遅延なゼロショット音声合成 [cs.OH, cs.SD, cs.CL, cs.CV]目的:ゼロショット音声合成における生成品質と推論効率のバランス改善
    • 音声合成技術は,人間とコンピュータ間の自然なコミュニケーションを実現する上で不可欠である。
    • 既存手法では,高品質と低遅延を両立することが困難であり,計算コストが高いという課題がある。
    • 離散フローマッチングを用いることで,効率的なゼロショット音声合成モデルを開発し,課題解決を目指す。
    • 提案手法DiFlow-TTSは,音素と内容をマッピングするモジュールと,離散的なフローを生成するモジュールから構成される。
    • 実験結果から,DiFlow-TTSは複数の評価指標において有効であることが示された。
    • 本手法は,従来のモデルと比較して,コンパクトかつ低遅延なゼロショット音声合成を実現する。

    Link: https://arxiv.org/abs/2509.09631

  • 3D CTスキャンからの多ラベル異常分析のための構造化スペクトルグラフ表現学習 [cs.CV]目的:多ラベル異常分析の性能向上
    • CT検査数の増加に伴い,医師の負担軽減が重要となっている。
    • 3Dボリューメトリックデータの空間的関係性の複雑さと異常の多様性が課題である。
    • グラフ構造化により,長距離依存性を捉え,汎化性能を高めることを目指す。
    • 提案手法は,独立した機関の3つのデータセットで高い汎化性能を示した。
    • 最先端の視覚エンコーダと同等の性能を達成した。
    • 集約戦略,エッジ重み付け,グラフ接続パターンの影響を詳細に評価した。

    Link: https://arxiv.org/abs/2510.10779

  • 持続性図形とマージツリーの領域認識ウォーターシュタイン距離 [cs.GR]目的:持続性図形およびマージツリーのトポロジー特徴の領域を考慮したウォーターシュタイン距離の一般化
    • データ解析において,形状の類似度を測ることは重要であり,トポロジーデータ解析はその有効な手段である。
    • 従来のウォーターシュタイン距離は,トポロジー特徴の領域情報を十分に活用できていないという課題があった。
    • トポロジー特徴の領域情報を考慮することで,より識別力の高い距離指標を開発し,データ解析の精度向上を目指す。
    • 提案手法は,従来のウォーターシュタイン距離よりも識別力が高く,入力パラメータによって距離への領域特性の影響を調整できる。
    • 領域のサブセットの使用や,領域特性の圧縮により,計算時間とメモリ使用量を効率的に制御できる。
    • 時間変化するアンサンブルにおけるトポロジー特徴の進化を追跡し,アンサンブルの主要な相を検出できることが示された。

    Link: https://arxiv.org/abs/2510.16486

  • S3OD:合成データを用いた汎用的な顕著物体検出へ [cs.CV]目的:汎用的な顕著物体検出の実現
    • 画像認識分野において,高精度な物体検出は重要な課題である。
    • 顕著物体検出は,詳細なアノテーションが必要であり,サブタスクごとにモデルを学習する必要がある。
    • 合成データと曖昧性認識アーキテクチャによる汎化性能の向上
    • 大規模な合成データセットS3ODを構築し,拡散モデルとDINO-v3特徴を活用したラベル抽出を行った。
    • モデルの性能に基づき,困難なカテゴリを優先的に生成する反復生成フレームワークを提案した。
    • 複数の有効な解釈を予測するストリームライン化されたマルチマスクデコーダにより,曖昧性を処理することに成功した。

    Link: https://arxiv.org/abs/2510.21605

  • エピポーラ幾何学がビデオ生成モデルを改善する [cs.CV]目的:ビデオ生成モデルにおける幾何学的整合性の向上
    • リアリスティックな3D映像生成は,生成・復元タスクを含む広範な応用分野に貢献しうる。
    • 既存のビデオ生成モデルは,幾何学的不整合,不安定な動き,視覚的なアーティファクトに悩まされている。
    • エピポーラ幾何学の制約を導入し,幾何学的な誤りを修正し,安定した映像生成を実現することを目指す。
    • エピポーラ幾何学制約を用いたPreference-based optimizationにより,不安定な軌跡や幾何学的アーティファクトを効率的に抑制した。
    • 古典的な幾何学的制約は,最新の学習済み指標よりも安定した最適化信号を提供する。
    • エピポーラ誤差を31%削減し,人間の評価による整合性を54%から72%に向上させた。

    Link: https://arxiv.org/abs/2510.21615

  • セマンティック・ルーター:単一の敵対的摂動によるMLLMの乗っ取りの可能性 [cs.CV, cs.AI, cs.CR]目的:マルチモーダル大規模言語モデル(MLLM)に対するセマンティックアウェアハイジャックの実現性
    • 自律走行やロボティクスなど,ステートレスシステムへのMLLMの応用が拡大しているため,そのセキュリティ確保は重要である。
    • 既存手法では,特定の入力に対して局所的な摂動を与える必要があり,複数の意思決定を同時に乗っ取ることは困難であった。
    • 単一の摂動で複数のMLLMの意思決定を同時に乗っ取る攻撃手法を確立し,その危険性を明らかにすること。
    • 提案手法SAUPは,入力のセマンティクスを認識し,攻撃者が定義したターゲットへルーティングすることで,MLLMの乗っ取りを可能にする。
    • 理論的・実験的分析により,潜在空間の幾何学的性質に基づいたSORT最適化戦略が有効であることが示された。
    • Qwenに対する実験で,単一のフレームに対して5つのターゲットに対して66%の攻撃成功率を達成し,この攻撃の実現可能性を証明した。

    Link: https://arxiv.org/abs/2511.20002

  • CrossEarth-Gate:クロスドメインリモートセンシングセマンティックセグメンテーションのためのFisher誘導適応チューニングエンジン [cs.CV]目的:クロスドメインリモートセンシングセマンティックセグメンテーションにおける効率的な適応
    • リモートセンシングは,地球観測に不可欠であり,多様な分野で応用が拡大している。
    • 既存のPEFT手法は,リモートセンシングデータの複雑なドメインギャップに対処できない場合がある。
    • CrossEarth-Gateは,ドメインギャップを効果的に克服し,適応効率を最大化することを目指す。
    • CrossEarth-Gateは,空間,セマンティック,周波数モジュールを含むリモートセンシングモジュールツールボックスを構築した。
    • Fisher情報に基づく適応選択メカニズムにより,タスクに重要なモジュールを動的に活性化する。
    • 18のクロスドメインベンチマーク中16個で最先端の性能を達成し,汎用性の高さを示した。

    Link: https://arxiv.org/abs/2511.20302

  • 潜在フローマッチングによる縦断的画像生成のための患者固有の疾患ダイナミクスの学習 [cs.DM, cs.CV, cs.AI]目的:縦断的画像生成のための患者固有の疾患ダイナミクス学習手法
    • 疾患の進行理解は,早期診断や個別化治療に不可欠であり,臨床上重要な課題である。
    • 既存手法では,潜在表現が散在し,意味構造を欠くため,連続的かつ単調な疾患ダイナミクスを捉えきれていない。
    • 患者固有の潜在空間アラインメントを学習し,疾患の進行をより解釈可能かつ意味のあるものにすることを目指す。
    • 提案手法$\Delta$-LFMは,縦断的MRIの3つのベンチマークにおいて,高い性能を示した。
    • 従来の拡散モデルとは異なり,疾患の固有のダイナミクスを捉え,より解釈可能な進行を可能にする。
    • 潜在空間における患者固有のアラインメント学習により,一貫性と意味のある潜在空間を実現した。

    Link: https://arxiv.org/abs/2512.09185

  • 弱教師あり下での体積型医用画像セグメンテーションのためのハイブリッドTransformer-Mamba [cs.DB, cs.CV]目的:弱教師あり体積型医用画像セグメンテーションの性能向上
    • 医用画像解析は疾患診断・治療において不可欠であり,高精度なセグメンテーションが求められる。
    • 従来の弱教師ありセグメンテーションは2Dエンコーダに依存し,3D情報を十分に活用できていない。
    • 本研究は,体積型データの3Dコンテキストを捉え,セグメンテーション精度を向上させることを目指す。
    • 提案手法TranSambaは,Cross-Plane MambaブロックをVision Transformerに組み込むことで,効率的な3Dコンテキストモデリングを実現した。
    • TranSambaは線形時間複雑度と定数空間複雑度を維持し,入力体積の奥行きに対するスケーラビリティに優れる。
    • 3つのデータセットにおける実験により,TranSambaが最先端の性能を達成し,Cross-Planeモデリングの有効性が示された。

    Link: https://arxiv.org/abs/2512.10353

  • マルチスケール暗黙的構造的類似性を用いた点群の客観的品質評価 [cs.CV, eess.IV]目的:点群の客観的品質評価
    • 点群データは3Dセンシング技術の発展により活用範囲が拡大しており,その品質評価の重要性が増している。
    • 点群データの不規則性から,正確な知覚特徴量の対応付けが困難であり,品質評価の精度向上が課題となっている。
    • 不規則なデータにおけるマッチング誤差を回避し,点群の品質をより正確に評価することを目的とする。
    • 提案手法MS-ISSMは,局所特徴を連続的に表現するためにRBFを使用し,歪み測定を暗黙的関数係数の比較に変換することで,点群の品質評価を行う。
    • ResGrouped-MLPという品質評価ネットワークを提案し,多スケール特徴量の差分を,知覚的なスコアにロバストにマッピングする。
    • 複数のベンチマーク実験の結果,MS-ISSMは最先端の評価指標と比較して,信頼性と汎化性能において優れていることが示された。

    Link: https://arxiv.org/abs/2601.01200

  • テンソルネットワークおよび量子状態符号化関数の効率的なアップサンプリング [math.NA, cs.GR, cs.NA]目的:テンソル列車と量子状態によるグリッド構造データの圧縮表現のアップサンプリング手法
    • 近年,大規模データ解析において,計算コストとメモリ使用量の削減が重要課題となっている。
    • 既存のアップサンプリング手法では,計算量が増大したり,精度の低下を招いたりする可能性がある。
    • テンソルネットワークと量子状態を用いた,効率的かつ高精度なアップサンプリング手法を確立すること。
    • テンソル列車および量子状態において,効率的な低ランク縮約によるアップサンプリングを可能にした。
    • 関数値符号化においては,追加されたグリッド点数に依存しない誤差限界を持つ補間を実現し,固定精度での指数的な圧縮を達成した。
    • 量子状態での生成には,多項式サイズの回路を使用し,初期グリッド間隔の2乗に比例する誤差でスケールすることが示された。

    Link: https://arxiv.org/abs/2601.03885

  • 大規模動的グラフにおけるLeidenコミュニティの維持 [cs.RO, cs.SI, cs.DB, cs.GR]目的:大規模動的グラフにおけるLeidenコミュニティの効率的な維持
    • グラフ解析は,不正検出やレコメンデーションなど,様々な産業応用で基盤技術として重要である。
    • グラフは常に変化するため,コミュニティの迅速な更新が求められるが,既存手法は計算コストが高い。
    • 頻繁な更新下でも効率的にLeidenコミュニティを維持し,遅延要件を満たすことを目指す。
    • 提案手法HIT-Leidenは,既存手法と比較して同等のコミュニティ品質を維持しつつ,最大で5桁の高速化を実現した。
    • HIT-Leidenは,連結成分と階層的なコミュニティ構造を維持することで,影響を受ける頂点の範囲を効果的に削減する。
    • 実環境での導入結果は,HIT-Leidenが大規模な高頻度更新下でも厳しい遅延要件を満たすことを示している。

    Link: https://arxiv.org/abs/2601.08554

  • FutureOmni:マルチモーダルLLMにおける全様相的文脈からの未来予測の評価 [eess.SY, cs.SY, math.OC, cs.CL, cs.CV, cs.MM]目的:マルチモーダルLLMにおける音声・視覚情報からの未来予測能力の評価
    • マルチモーダルLLMは高度な知覚能力を持つが,未来予測能力は未だ十分な検証がなされていない。
    • 既存のベンチマークは主に過去の理解に焦点を当てており,未来予測を評価するものが不足している。
    • 音声と視覚情報を統合し,未来の出来事を予測する能力を評価する新しいベンチマークを構築し,性能向上を目指す。
    • FutureOmniは,919本の動画と1,034組の多肢選択式QAペアを含む,初の全様相的未来予測ベンチマークである。
    • 現在のシステムは,特に音声が多い状況において,音声・視覚情報からの未来予測に苦戦しており,Gemini 3 Flashが64.8%の最高精度を達成した。
    • 7Kサンプル規模のInstruction TuningデータセットとOFF(Omni-Modal Future Forecasting)戦略により,未来予測能力と汎化性能を向上させることを示した。

    Link: https://arxiv.org/abs/2601.13836

  • 拡散逆問題に対するノイズ条件付き周波数露出を用いた事後継続法 [cs.CV, cs.AI]目的:拡散逆問題における復元性能向上
    • 画像処理分野において,逆問題の解決は重要な課題であり,高画質復元や画像補完に不可欠である。
    • 従来の拡散モデルによる逆問題解決は,高ノイズレベル下での周波数成分の推定精度が課題となっていた。
    • 本研究は,ノイズレベルに応じた周波数露出を導入することで,高精度な復元を可能とする。
    • 提案手法は,事後継続フレームワークと安定化サンプラーを組み合わせることで,信頼性の高い周波数帯域に焦点を当てた復元を実現した。
    • スーパー解像,インペインティング,デブラーリング等のタスクにおいて,最先端手法に匹敵,またはそれを上回る性能を示した。
    • 特にモーションデブラーリングでは,FFHQおよびImageNetデータセットにおいて,強力なベースラインよりも最大5dBのPSNR改善を達成した。

    Link: https://arxiv.org/abs/2602.00176

  • 視覚的場所認識における信頼性の高い動作点選択のための分位点移動 [cs.RO, cs.CV]目的:視覚的場所認識システムの動作点選択
    • GNSS非利用環境下での位置推定において,視覚的場所認識は重要な役割を果たす。
    • 環境変化により性能が低下するため,環境固有の手動調整が必要となる。
    • 分位点正規化による閾値移動により,環境適応性と汎用性を向上させる。
    • 提案手法は,既存手法と比較して一貫して優れた性能を示し,約2倍の展開シナリオで100%の精度を達成した。
    • 100%の精度下で,正しいマッチング数を最大29%まで増加させた。
    • 環境への適応により,手動調整の必要性をなくし,様々な条件下で安定した性能を発揮する。

    Link: https://arxiv.org/abs/2602.04401

  • MUFASA:スロットアテンションのための多層フレームワーク [cs.CV]目的:視覚シーンにおけるオブジェクト中心学習の改善
    • 視覚情報処理において,シーンを構成する個々のオブジェクトの理解は重要である。
    • 既存のスロットアテンションは,ViTの最終層のみを利用しており,潜在的な意味情報を十分に活用できていない。
    • ViTの多層の特徴量を活用し,よりロバストなオブジェクト表現を獲得することを目指す。
    • MUFASAは,ViTエンコーダーの複数の特徴層でスロットアテンションを計算し,それらを統合する手法である。
    • 既存のオブジェクト中心学習法にMUFASAを組み込むことで,セグメンテーション性能を向上させ,最先端の結果を達成した。
    • 学習の収束を改善しつつ,推論時のオーバーヘッドを最小限に抑えることができた。

    Link: https://arxiv.org/abs/2602.07544

  • E-VAds:MLLMのためのEコマース短編動画理解ベンチマーク [cs.CV]目的:Eコマース短編動画理解のためのベンチマーク
    • Eコマース動画は収益性が高く,動画業界で重要なセグメントである。
    • 既存のベンチマークは汎用的なタスクに偏っており,商業的な意図の理解が不足している。
    • Eコマース動画特有の複雑さに対処し,理解能力を向上させることを目指す。
    • 本研究では,Eコマース動画の多次元情報密度評価フレームワークを提案し,その複雑さを定量化した。
    • E-VAdsベンチマークを開発し,Eコマース動画理解に特化した評価環境を提供した。
    • RLベースの推論モデルE-VAds-R1は,商業的な意図の理解において,わずかな訓練サンプルで109.2%の性能向上を達成した。

    Link: https://arxiv.org/abs/2602.08355

  • 最初の環境音ディープフェイク検出チャレンジ:頑健性,評価,および考察のベンチマーク [cs.MA, cs.SD]目的:環境音ディープフェイク検出のベンチマークと課題の考察
    • 公共の安全と信頼に関わる偽情報のリスクが高まる中,環境音の真偽判定が重要となる。
    • 音声や歌声のディープフェイク検出研究は進んでいるが,環境音のディープフェイク検出は未開拓分野である。
    • 環境音ディープフェイク検出の進展を促し,課題解決のための指針を示す。
    • 初の環境音ディープフェイク検出チャレンジが開催され,97チームが参加し1,748件の提出があった。
    • 上位システムのアーキテクチャと学習戦略が分析され,一般的な傾向が明らかになった。
    • 今後の研究方向性が議論され,環境音ディープフェイク検出の機会と課題が提示された。

    Link: https://arxiv.org/abs/2603.04865

  • 生成画像復元はどこまで進んだか:その能力,限界,評価手法に関する研究 [cs.CV]目的:生成画像復元モデルの能力,限界,評価手法の現状把握
    • 画像復元は,劣悪な画像から高品質な画像を生成する上で不可欠な技術である。
    • 従来の画像復元手法では,細部の再現性や写実性に課題があった。
    • 生成モデルの進化により生じた新たな課題,すなわち過剰な生成の抑制に焦点を当てる。
    • 生成画像復元は,知覚的なリアリズムにおいて目覚ましい進歩を遂げていることが示された。
    • アーキテクチャ(拡散モデル,GAN,PSNR指向モデルなど)間には,性能に大きな差があることが明らかになった。
    • 失敗モードの変化は,知覚に焦点を当てた低レベルビジョンのパラダイムシフトを示唆している。

    Link: https://arxiv.org/abs/2603.05010

  • 音声認識LLMによる話者検証:評価と拡張 [cs.SD, cs.AI]目的:音声認識LLMにおける話者識別能力の評価と向上
    • 音声技術は,人間と機械の自然な対話を実現する上で不可欠である。
    • 既存のLLMは言語内容に重点を置いており,話者識別能力は十分ではない。
    • 話者識別能力をLLMに付与し,自然な対話インターフェースを維持すること。
    • 提案手法により,APIおよびオープンウェイトモデルの検証スコアを算出するプロトコルを確立した。
    • 最新の音声認識LLMの評価により,話者識別の性能が低いことが示された(VoxCeleb1で20%以上のEER)。
    • TinyLLaMA-1.1BにECAPA-TDNN埋め込みを注入したECAPA-LLMは,VoxCeleb1-Eで1.03%のEERを達成し,専用話者検証システムに匹敵する性能を示した。

    Link: https://arxiv.org/abs/2603.10827

  • エンドツーエンド自律運転におけるゼロショットクロスシティ一般化:自己教師あり表現対教師あり表現 [cs.CV, cs.LG]目的:エンドツーエンド自律運転モデルにおける,未知の都市へのゼロショットクロスシティ一般化能力の評価
    • 自律運転システムの普及には,異なる環境への適応能力が不可欠である。
    • 既存モデルは都市固有の特徴に依存しやすく,未知の都市では性能が著しく低下する可能性がある。
    • 自己教師あり学習が,地理的ドメインシフトに対するロバスト性を向上させうるか検証する。
    • 教師あり学習で事前学習したモデルは,都市間の転移において性能劣化が顕著であった。
    • 一部の自己教師あり学習を用いたモデルは,位置ずれや衝突の減少に貢献した。
    • 自己教師あり事前学習は,未知の都市における分布外性能を向上させる効果が確認された。

    Link: https://arxiv.org/abs/2603.11417

  • 高解像度RGBと低解像度ハイパースペクトル入力の双方向クロスアテンション融合によるマルチモーダルセマンティックセグメンテーション [cs.CV]目的:異種センサによるマルチモーダルセマンティックセグメンテーションにおける情報融合
    • 近年,RGB画像とハイパースペクトル画像等の異種センサの組み合わせによるセグメンテーションが注目されている。
    • RGB画像は空間分解能が高いが,材質識別が困難であり,ハイパースペクトル画像は材質識別には優れるが,空間分解能が低いという課題がある。
    • RGB画像とハイパースペクトル画像を効率的に融合し,高精度なセグメンテーションを実現すること。
    • 提案手法BCAFは,RGB画像とハイパースペクトル画像をそれぞれの空間解像度で融合することで,リアルタイム性を維持しつつ高い性能を発揮する。
    • SpectralWasteデータセットにおいて,BCAFは75.4%の精度を55フレーム/秒で達成した。
    • 新たに構築されたK3I-Cyclingデータセットにおいても,材質セグメンテーションで62.3%,プラスチック種類セグメンテーションで66.2%のmIoUを達成した。

    Link: https://arxiv.org/abs/2603.13941

  • ハードネスを考慮したカリキュラム疑似ラベル付けによる半教師あり回転回帰 [cs.CG, cs.CV]目的:2D画像から3Dオブジェクトの回転を回帰する手法の研究
    • 自動運転,VR,ロボット制御など幅広い応用が期待される重要な研究分野である。
    • 既存手法は大量のラベル付きデータが必要,または2D画像以外の情報に依存している。
    • 少ないラベル付き2D画像で効果的な半教師あり回転回帰を実現することを目的とする。
    • 提案手法は,信頼性の低い疑似ラベルを排除する従来の固定閾値フィルタリングの課題を克服した。
    • ハードネスを考慮したカリキュラム学習により,難易度の低いサンプルから段階的に学習を進める。
    • PASCAL3D+およびObjectNet3Dでの実験により,特に低データ環境下で既存手法を上回る性能が示された。

    Link: https://arxiv.org/abs/2603.21583

  • CAMEO:条件付きかつ品質を考慮したマルチエージェント画像編集オーケストレーター [cs.CV]目的:条件付き画像編集における品質と構造の一貫性向上
    • 画像編集技術は,自動運転やアバター生成など幅広い分野で不可欠であり,その高度化が求められている。
    • 既存手法は,単一ステップ生成に依存するため,品質管理が難しく,構造的な問題や不自然な編集が生じやすい。
    • 本研究は,複数エージェントによる反復的な編集プロセスを通じて,これらの問題を解決することを目指す。
    • CAMEOは,計画,プロンプト生成,仮説生成,参照画像活用を段階的に行うマルチエージェントフレームワークである。
    • 編集ループ内に評価機能を組み込むことで,品質の低い結果を自動的に修正し,一貫性を高める。
    • 実験の結果,CAMEOは既存の最先端モデルと比較して,平均で20%高い勝率を達成し,堅牢性,制御性,構造的信頼性が向上した。

    Link: https://arxiv.org/abs/2604.03156

  • 光学・SAR画像からの変化検出のための事前知識に基づいた多Modal特徴量の融合 [cs.CV]目的:光学およびSAR画像を用いた多Modal変化検出
    • 土地利用モニタリングや都市の持続可能な発展において,リモートセンシングデータの活用が重要である。
    • 既存手法では,Modal間の相互作用や各Modalの特性を十分に活かしきれていない点が課題である。
    • 本研究は,細粒度の変化情報をより正確にモデル化し,セマンティックな変化を高精度に検出することを目指す。
    • 提案手法STSF-Netは,Modal固有の特徴量と空間・時間的な共通特徴量を共同でモデル化することで,変化表現を強化する。
    • 光学・SAR特徴量の融合戦略において,視覚的基盤モデルから得られるセマンティックな事前知識に基づき,多Modal特徴量の重要度を適応的に調整する。
    • Delta-SN6データセットを用いた実験により,提案手法は最先端手法をmIoUで3.21%,0.87%,1.32%上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2604.05527

  • FLiP:多言語・マルチモーダル文埋め込みの理解と解釈に向けて [eess.SY, cs.SY, cs.ET, cs.CL, cs.SD]目的:事前学習済み文埋め込み空間の理解
    • 自然言語処理において,文の表現学習は重要な課題である。多様なタスクへの応用が期待されている。
    • 既存の文埋め込み空間は,言語やモダリティに偏りがあり,その構造が必ずしも明確ではない。
    • 埋め込み空間の内部構造を分析し,バイアスを特定することで,より公平で解釈可能なモデル開発を目指す。
    • FLiPモデルは,多言語,マルチモーダル,APIベースの文埋め込み空間から75%以上の語彙情報を再現できることが示された。
    • FLiPは,既存の非因子化ベースラインを大幅に上回り,文埋め込み空間の診断ツールとしての有効性が示された。
    • この分析により,選択された文エンコーダにおけるモダリティと言語のバイアスが明らかになった。

    Link: https://arxiv.org/abs/2604.18109

  • グローバル洋上風力インフラ:高密度Sentinel-1時系列データによる展開と運用状況 [cs.CV, cs.LG]目的:洋上風力インフラの展開と運用状況のグローバル規模でのモニタリング
    • 洋上風力発電は再生可能エネルギー源として重要であり,その普及拡大が世界的に進んでいる。
    • 既存のオープンデータセットは,洋上風力インフラの建設と運用に関する時間的に高密度で意味的に詳細な情報が不足している。
    • 本研究は,Sentinel-1 SAR時系列データを用いて,洋上風力インフラの展開と運用状況を詳細に把握することを目的とする。
    • 2016年第1四半期から2025年第1四半期までのグローバルなSentinel-1 SAR時系列データコーパスを構築した。
    • 検出されたインフラロケーションにおいて15,606件の時系列を収集し,合計14,840,637件のSARバック散乱プロファイルを分析可能な形式で提供する。
    • ルールベースの分類器によるイベントレベルのラベル付けと,専門家による注釈付きベンチマークデータセットを公開し,利用とベンチマークを容易にした。

    Link: https://arxiv.org/abs/2604.20822

  • ワークフローに注目:ビデオストリームからの自動的かつ効率的なイベント発見 [cs.CV, cs.LG]目的:ビデオストリームからのイベントデータの抽出
    • 業務プロセス管理やプロセスマイニングは,組織のプロセスに関する洞察を得る上で重要である。
    • ビデオデータなどのマルチモーダルデータは,イベントとして直接解釈できない点が課題である。
    • フレーム単位でのラベル付けの説明が難しい,または古いコンピュータビジョン技術に依存している問題を解決する。
    • SnapLogは,画像埋め込みを用いてフレームを特徴ベクトルに変換し,フレーム間の類似度行列を通じて時間的なセグメンテーションを行う。
    • 汎用的なFew-Shot分類を用いてビデオセグメントにラベルを付与することで,イベントとして解釈可能なタイムスタンプ付きのフレームサブシーケンスを生成する。
    • その結果得られたログは,ビデオ内のプロセスを正確に反映することが示された。

    Link: https://arxiv.org/abs/2604.22476

  • アラビア文字圏における低リソースHTRのためのクロスリンガル学習 [cs.CV]目的:アラビア文字圏言語における低リソースHTRのためのクロスリンガル学習の効果検証
    • 手書き文字認識は,言語のデジタル化や情報検索において重要な技術である。
    • 低リソース言語の手書き文字認識は,ラベル付きデータの不足が課題である。
    • アラビア文字圏言語の共通性に着目し,データ不足を補うクロスリンガル学習を試みる。
    • クロスリンガル学習により,低リソース環境下でのCRNNおよびHTR-VTモデルの性能が向上した。
    • 特に,データ量が極端に少ない場合,CRNNの性能向上が顕著であった。
    • ペルシア語(PHTD)データセットにおいて,CER 9.99%を達成し,過去の最高結果を上回った。

    Link: https://arxiv.org/abs/2605.02089

  • ブラジル大西洋岸林の再生状況の特性評価:AlphaEarth埋め込みの活用 [cs.CV]目的:ブラジル大西洋岸林の再生状況の特性評価
    • ブラジル大西洋岸林は重要な生物多様性ホットスポットである。その保全は喫緊の課題である。
    • 広範囲な森林再生モニタリングは困難であり,NDVIなどのリモートセンシング指標には限界がある。
    • AlphaEarthの埋め込みを用いて,初期の再生成功度を評価する新たな指標を提案する。
    • AlphaEarthの埋め込み空間において,土地利用・土地被覆タイプに応じた明確なクラスタが確認された。
    • 成熟した二次林の参照サイトとのコサイン類似度に基づき,再生成功度を測る「参照軌道埋め込み」の概念を導入した。
    • 埋め込みはノイズを含む場合があり,土地利用・土地被覆以外のサイトメタデータを捉えるためのさらなる調整が必要である。

    Link: https://arxiv.org/abs/2605.05547

  • シングルショットテスト時超音波画像ノイズ除去のためのピラミッド自己対照学習 [cs.CV, cs.AI]目的:シングルショットテスト時超音波画像ノイズ除去手法
    • 超音波画像は臨床診断において重要だが,ノイズの影響を受けやすい。
    • 従来のノイズ除去手法はノイズモデルに依存し,複雑な環境下では効果が低下する。
    • 本研究は,事前学習なしにノイズと解剖学的特徴を分離する手法を提案する。
    • シミュレーション実験では,SNRが69.3%,CNRが34.4%向上した。
    • 生体内実験では,心臓,肝臓,腎臓の画像において,SNRが84.8%,CNRが25.7%向上した。
    • 多様な撮像対象や構成に対して,ドメインシフトや事前学習のコストなしにクリアな画像を提供できる。

    Link: https://arxiv.org/abs/2605.12567

  • HeatKV:視覚的自己回帰モデリングのためのヘッド調整型KVキャッシュ圧縮 [cs.CV]目的:視覚的自己回帰モデルにおけるKVキャッシュ圧縮手法
    • 画像生成の品質向上と低遅延化が求められる中で,VARモデルが注目されている。
    • VARモデルはKVキャッシュのメモリ制約が大きく,画像生成に必要なメモリ容量が大きいという課題がある。
    • ヘッドごとの注意度に基づいたキャッシュ割り当てを最適化し,メモリ使用量を削減することを目指す。
    • HeatKVは,既存手法と比較してKVキャッシュのメモリ割り当て圧縮率を2倍に向上させた。
    • 画像品質,プロンプトへの適合性,人間の認識スコアにおいて,同等またはそれ以上の性能を維持した。
    • 本手法は,VARモデルのKVキャッシュ圧縮において最先端の結果を達成した。

    Link: https://arxiv.org/abs/2605.14877

  • ファッションカメレオン:リアルタイムかつインタラクティブな人体・衣服動画カスタマイズに向けて [cs.CV]目的:人体・衣服動画のインタラクティブなカスタマイズ
    • 衣服レベルでの動画カスタマイズは,商業的価値が高く,様々な応用が期待される分野である。
    • 既存手法では,リアルタイム性とインタラクティブな衣服制御が困難であり,実用化の障壁となっていた。
    • 単一の衣服動画データのみを用いて,インタラクティブな複数衣服の動画カスタマイズを実現し,モーションの一貫性を保つことを目指す。
    • FashionChameleonは,参照衣服ペアに対するIn-Context Learningを用いたTeacher Modelの学習により,衣服の切り替え時にモーションの一貫性を暗黙的に維持する。
    • Streaming Distillation with In-Context Learningにより,生成時の整合性と効率性を向上させ,長動画の推論の一貫性を高める。
    • Training-Free KV Cache Reschedulingにより,モーションの一貫性を維持しながら,インタラクティブな複数衣服の動画カスタマイズを実現し,23.8 FPSでリアルタイム生成を可能にした。

    Link: https://arxiv.org/abs/2605.15824

  • ヒルベルト・ジオ:ニューラル記号推論による立体幾何問題の解決 [cs.CV, cs.AI, cs.CL]目的:立体幾何問題解決のためのニューラル記号推論フレームワーク
    • 幾何問題解決は,マルチモーダル推論の重要な課題であり,AIの知能向上に不可欠である。
    • 既存研究は主に平面幾何に焦点を当てており,立体図や複雑な推論を伴う立体幾何問題への対応が課題である。
    • 立体幾何問題解決のための統一的な形式言語フレームワークを構築し,高精度な推論を実現することを目指す。
    • 提案手法Hilbert-Geoは,立体幾何問題解決において最先端の結果(SolidFGeo2kで77.3%,MathVerse-Solidで84.1%)を達成した。
    • 特に,Gemini-2.5-proやGPT-5といった最先端のMLLMと比較して,顕著な性能向上を示した。
    • また,平面幾何問題解決においても高い精度(PlaneFGeo3kで80.2%)を示し,Hilbert-Geoの汎用性を示した。

    Link: https://arxiv.org/abs/2605.16385

  • 点群分類・セグメンテーションのための深層学習アーキテクチャに関する調査 [cs.CV, cs.AI, cs.LG]目的:点群分類,部品セグメンテーション,意味的セグメンテーションにおける深層学習モデルの分類と評価
    • 3D形状やシーンの表現において,点群は簡潔さと幾何学的精度から広く用いられている。
    • 点群は順序や規則性がなく,ノイズや隠蔽の影響を受けやすく,機械学習への適用が困難である。
    • 点群の構造的特徴に基づき,既存研究を分類し,性能を比較することで,今後の課題を明確にする。
    • 本調査は,点群分類・セグメンテーションにおける深層学習アーキテクチャの現状を包括的にまとめた。
    • 既存モデルは,バックボーン構造に基づいて分類され,主要なベンチマークにおける性能が評価された。
    • アーキテクチャの革新と限界が示され,3D点群理解における今後の展望が提示された。

    Link: https://arxiv.org/abs/2605.17131

  • DySink:自己回帰的長尺動画生成のための動的フレームシンク [cs.MA, cs.CC, cs.CV, cs.AI]目的:長尺動画生成における,動的なフレームシンクの利用
    • 動画生成技術は,映像制作やコンテンツ生成において重要な役割を担う。
    • 既存手法では,初期フレームを固定的にキャッシュすることで,計算効率と品質のバランスを取るのが難しい。
    • 視覚的に関連性の高い過去のフレームを動的に選択し,より自然な動画生成を目指す。
    • DySinkは,コンパクトなメモリバンクと適応的な検索機構により,関連性の高い過去フレームを動的にフレームシンクとして選択する。
    • シンクアノマリゲートにより,過剰な注意集中を検出し,シンク崩壊を防ぐことで,生成の安定性を向上させる。
    • 実験の結果,DySinkは既存手法と比較して,動画の品質とダイナミックな変化を改善し,自然な視覚的進化を実現した。

    Link: https://arxiv.org/abs/2605.21028

  • iTryOn:空間・意味的ガイダンスによるインタラクティブビデオバーチャル試着の習得 [cs.CV]目的:インタラクティブビデオバーチャル試着における課題解決と,より動的で制御可能な仮想試着体験の実現
    • アパレル業界では,顧客体験向上のため,オンラインでの試着体験の質的向上が求められている。
    • 既存手法は,時間的一貫性は維持できるものの,被験者と衣服のインタラクションを考慮していない。
    • ビデオ内の被験者が衣服と積極的に関わるインタラクティブな状況下での試着を可能にする。
    • iTryOnは,大規模なビデオ拡散Transformerを基盤とした新しいフレームワークであり,複雑な動きの生成を導く多層的なインタラクション注入機構を導入している。
    • 空間レベルでは,衣服に依存しない3D手事前知識を導入することで,手と衣服の接触を正確に誘導し,空間的な曖昧さを解消している。
    • 意味レベルでは,全体的なコンテキストのためのグローバルキャプションと,局所的なインタラクションのためのタイムスタンプ付きアクションキャプションを活用している。

    Link: https://arxiv.org/abs/2605.21431

  • イベントカメラからの音声生成:イベントから音声を聴くことはできるか [cs.MM, cs.SD]目的:イベントカメラを用いた表現豊かな音声生成
    • 感情豊かな音声生成は,人間と機械の自然なコミュニケーションに不可欠である。
    • 従来のRGBカメラでは,高速な発話器官の動きを捉えきれず,感情表現が不十分になる場合がある。
    • イベントカメラの微細な時間分解能を利用し,より自然で感情豊かな音声生成を実現する。
    • EventSpeechは,イベントエンコーダと多段階オーディオエンコーダを統合し,言語と視覚的ダイナミクスの同期を可能にする。
    • EVT-SPKという大規模なデータセットを構築し,イベントカメラを用いた音声生成のベンチマークを確立した。
    • 実験結果から,EventSpeechは既存の基盤モデルを凌駕し,微細な感情表現とモーションブラーへの耐性を実現することが示された。

    Link: https://arxiv.org/abs/2605.26672

  • CTセグメンテーションシステムの臨床的悪条件に対する事前展開ロバストネスストレステスト:臨床的に着想を得た多重汚損オーギュメンテーション [cs.CV, cs.AI]目的:CTセグメンテーションシステムのロバストネス向上
    • 医療画像診断の精度向上は重要であり,特にCT画像における正確なセグメンテーションは治療計画や病状評価に不可欠である。
    • 深層学習モデルは,クリーンなデータセットでは高い精度を示すが,実際の臨床環境ではノイズやアーチファクトの影響を受けやすく,性能が低下する可能性がある。
    • 臨床環境で発生しうる様々な画像劣化に対するロバストネスを向上させ,実用的なCTセグメンテーションシステムを開発すること。
    • 提案手法RAMPは,多重汚損オーギュメンテーションを通じて,CTセグメンテーションモデルのロバストネスを効果的に向上させる。
    • 2つの評価設定において,RAMPは汚損画像に対する性能が最も高く,クリーン画像と汚損画像間の性能ギャップを最小限に抑えた。
    • 特に,五臓器ノイズ評価ベンチマークでは,平均汚損Dice係数を大幅に改善し,ロバストネスギャップを著しく縮小した。

    Link: https://arxiv.org/abs/2606.00491

  • 効率的なマルチモーダルLLM推論のための歪み修正による視覚トークン削減の改善 [cs.RO, cs.CL, cs.CV]目的:マルチモーダルLLM推論における視覚トークン削減手法の精度向上
    • マルチモーダルLLMは様々なタスクで成功を収めているが,計算コストが高い。
    • 既存の視覚トークン削減手法は,位置情報と注意機構の一貫性を無視し,表現が歪む。
    • 位置情報と注意機構の歪みを修正し,効率を維持しながら精度を向上させる。
    • 提案手法RESTOREは,相対距離に基づいた注意重みの調整により,失われた視覚的注意を回復する。
    • 特徴量平均化時の情報損失を軽減するため,トークンマージのための独自のアンカー選択を導入する。
    • 複数のベンチマークにおいて,既存手法を改善し,最先端の性能と計算効率を両立する。

    Link: https://arxiv.org/abs/2606.01711

  • ドメインシフト下におけるロバストな桃の葉の損傷分類のための注意機構と転移学習 [cs.CV, cs.AI]目的:桃の葉の損傷分類モデルのロバスト性向上
    • 気候変動により農作物の病害虫被害が増加しており,早期発見と適切な管理が重要である。
    • 葉の損傷症状が類似しており,環境条件の違いから正確な診断が困難である。
    • 異なる圃場環境下でも汎化性能の高い自動診断モデルを開発すること。
    • EfficientNetB5にCBAMを組み込むことで,全体的な分類精度が93.3%と最高となった。
    • 転移学習を用いた評価では,EfficientNetB3とCBAMの組み合わせが最も高いマクロF1スコア(93%)を示した。
    • 注意機構を用いたモデルは,少数クラスに対するロバスト性と圃場環境間の汎化性能が向上した。

    Link: https://arxiv.org/abs/2606.02045

  • コスモス3:物理AIのための全感覚モジュール型ワールドモデル [cs.CV, cs.AI, cs.LG, cs.MM, cs.RO]目的:全感覚モジュール型ワールドモデルの開発
    • ロボティクスやAIにおいて,現実世界とのインタラクションが不可欠であり,多様な感覚情報を統合したモデルが求められている。
    • 従来のモデルは,言語,画像,動画など個別のモダリティに特化しており,それらを統合的に扱うことが困難であった。
    • 複数のモダリティを統一的に処理し,物理AIにおける汎用的な基盤モデルを構築すること。
    • コスモス3は,言語,画像,動画,音声,行動シーケンスを統合的に処理・生成する全感覚モジュール型ワールドモデルである。
    • 多様な理解・生成タスクにおいて最先端の性能を達成し,汎用的なembodied agentsの基盤となる可能性を示した。
    • オープンソースのText-to-Image,Image-to-Videoモデルおよびポリシーモデルにおいて,当時の最高性能を記録した。

    Link: https://arxiv.org/abs/2606.02800

  • フーリエ基盤の運動モデルを用いた条件付き潜在拡散モデルによる仮想集団合成 [cs.CV, cs.AI]目的:仮想集団の解剖学的構造の生成
    • 医療機器の臨床試験において,多様な解剖学的構造を持つ仮想集団が不可欠である。
    • 既存のメッシュ生成器は静的な解剖構造に焦点を当てており,時間的な変化を捉えられていない。
    • 周期性を持つ運動のパラメータ化により,より現実的な時間変化を伴う解剖学的構造を生成することを目指す。
    • 4D F-MeshLDMは,解剖学的忠実度において最先端のベースラインモデルを上回る性能を示す。
    • 生成されたコホートは臨床的な機能指標を正確に維持しており,信頼性の高いin-silico心臓試験への応用が期待される。
    • 臨床的特徴量を条件として与えることで,制御可能な合成が可能である。

    Link: https://arxiv.org/abs/2606.03827

  • バイオマゾン:アマゾン流域の3次元森林構造とバイオマスモデリングのためのマルチモーダルデータセット [cs.CV]目的:アマゾン流域における3次元森林構造とバイオマスモデリングのためのマルチモーダルデータセット
    • 熱帯雨林は地球規模の炭素循環において重要な役割を担うため,その構造の正確な把握が不可欠である。
    • 既存手法では,森林の垂直構造を順序付けられたプロファイルとして学習するのではなく,個別のスカラー値として予測している。
    • GEDI RHプロファイルとAGBDを同時に予測するための機械学習対応ベンチマークデータセットを構築し,物理的に整合性のとれた手法を評価する。
    • Biomazonは,GEDI RHとAGBDのターゲットと,複数のセンサーからのデータ(Sentinel-1/2,ALOS-2 PALSAR-2など)を組み合わせた20m解像度のベンチマークデータセットである。
    • バックボーン/モデル規模,モダリティの貢献度,補助埋め込みの利用に関する包括的なアブレーションスタディを実施した。
    • Biomazonは,熱帯林における構造とバイオマスモデリングに関する将来の研究の基準となる。

    Link: https://arxiv.org/abs/2606.05368

  • VLMsと人間の新たな視覚的参照 [cs.CV, cs.CL]目的:新たな視覚的参照の言語へのマッピング過程の解明
    • 視覚と言語を統合するモデルの学習メカニズム理解は,AI発展の鍵となる。
    • 事前学習された知識と矛盾する新たな視覚概念の学習が困難である。
    • モデルがどのように新規概念を学習し,一般化するかを評価する。
    • モデルは,事前知識と矛盾する新たな概念を文脈内で学習することが難しい。
    • モデルと人間の視覚的摂動に対する感度は相関するものの,モデルは過剰に一般化する傾向がある。
    • 新規視覚参照データセット(NVRD)を構築し,ベンチマークとして公開する。

    Link: https://arxiv.org/abs/2606.05409

  • 音声基盤モデルは,人間と同じように話者間の類似性を認識するか? [cs.DC, cs.SD, eess.AS]目的:話者間の類似性認識の比較分析
    • 音声処理分野において,話者認識は重要な技術であり,様々な応用が存在する。
    • 基盤モデルの話者埋め込みと人間の主観的な類似性認識との間に乖離が存在する可能性がある。
    • 基盤モデルの話者埋め込みが,人間の知覚とより一致するようにするための知見を得る。
    • 40以上のモデルを用いた包括的な調査の結果,モデル由来の距離と人間の認識スコアとの間に相関が認められた。
    • モデル構成におけるどの要素が,人間の知覚を反映した話者埋め込みに最も貢献するかを特定した。
    • 本研究は,より知覚的に妥当な音声基盤モデルの開発に貢献する洞察を提供する。

    Link: https://arxiv.org/abs/2606.05739

  • 拡散モデル学習のための形状を考慮したデータセット凝縮 [cs.CV]目的:拡散モデル学習用コンパクトデータセットの構築
    • 生成モデルの学習効率化には,大規模データセットの取り扱いが課題となる。
    • 既存手法では,合成データの品質や分布の幾何学的構造の維持が困難。
    • 分布の幾何学的構造を保ちつつ,データセットを凝縮し,学習効率を向上させる。
    • 提案手法は,一方向最適輸送を用いてデータ部分集合を選択的に配置し,分布の幾何学的構造を維持する。
    • 幾何学的配置に加え,特徴統計量と意味的一貫性の正則化により分布の忠実性を高める。
    • 様々な拡散モデルで実験を行い,提案手法が優れた性能を示すことを確認した。

    Link: https://arxiv.org/abs/2606.05883

  • ハイラント=ゼッカウザー均衡における近似と無理性 [cs.GT]目的:ハイラント=ゼッカウザー均衡の計算
    • 資源配分における公平性と効率性は重要な課題である。均衡概念はその分析に不可欠。
    • 多値効用関数を持つ市場における均衡計算は困難であり,近似アルゴリズムが求められる。
    • 多値市場における近似均衡の保証と,均衡の有理性の限界を明らかにすること。
    • 一般的な多値効用関数に対して,1/e近似のハイラント=ゼッカウザー均衡を多項式時間で計算するアルゴリズムを提案した。
    • 提案アルゴリズムは,この設定における初めての多項式時間定数誤差近似保証を提供する。
    • 3値効用関数を持つインスタンスにおいて,すべての均衡が無理数となる場合が存在することを示した。

    Link: https://arxiv.org/abs/2606.06317

  • 2段階で物理法則を:初期の運動情報を保持し,視覚的洗練でそれを打ち消さない [cs.CV]目的:画像から動画を生成する拡散モデルにおける物理的整合性の向上
    • 動画生成において,視覚的な品質だけでなく物理法則との整合性が重要である。
    • 既存の画像から動画への拡散モデルは,物理法則に反する運動を生成することが多い。
    • 初期段階の有効な運動情報を保持することで,物理的整合性を高めることを目指す。
    • 生成過程における位相の劣化が,物理的不整合の原因であることが明らかになった。
    • PhaseLockは,わずか2ステップで抽出した運動情報を,Latent Delta Guidanceを用いて保持する手法である。
    • PhaseLockは,物理的整合性を向上させ,計算コストの増加もわずかである。

    Link: https://arxiv.org/abs/2606.06361

  • SVHighlights: 極長スポーツビデオハイライト検出に向けて [cs.CV, cs.MM]目的:極長スポーツビデオにおけるハイライト検出のためのベンチマークデータセットと手法
    • スポーツビデオのハイライト検出は実用性が高く,コンテンツの検索や要約に貢献する。
    • 既存手法は短尺コンテンツに限定されており,1時間以上の長尺ビデオに対応できるベンチマークが存在しなかった。
    • 本研究は,長尺スポーツビデオのハイライト検出を可能にするデータセットと手法を提案し,その課題を解決する。
    • SVHighlightsは,1時間を超える複数のスポーツカテゴリの極長スポーツビデオから構成される,初のハイライト検出ベンチマークである。
    • 提案手法TF-SELECTORは,セマンティックな内容が共通する隣接ショットを結合してセグメントを生成し,マルチモーダル入力を用いた大規模言語モデルでセグメントレベルの重要度を予測する。
    • 実験結果から,TF-SELECTORは既存手法と比較して,HIT@1で+2.50,HIT@Kで+4.04,IoUで+2.95の性能向上を示した。

    Link: https://arxiv.org/abs/2606.06926