arXiv雑要約

画像・音声 - 2025/12/17 公開

  • PhraseVAEとPhraseLDM:楽曲全体のマルチトラック象徴的音楽生成のための潜在拡散 [cs.SD]目的:楽曲全体のマルチトラック象徴的音楽生成のための新たな手法
    • 音楽生成の自動化は,作曲支援や新たな音楽表現の創出に貢献し,音楽制作の可能性を広げる。
    • 既存の象徴的音楽モデルは,長いシーケンス長や構造の捉えにくさ,長距離依存性の弱さといった課題を抱えている。
    • 楽曲全体の構造を考慮した効率的な音楽生成モデルを構築し,長距離依存性を捉えることを目指す。
    • PhraseVAEは,可変長のポリフォニック音符シーケンスを,高精度で64次元の潜在表現に圧縮する。
    • PhraseLDMは,この潜在空間を基盤とし,自己回帰成分なしで楽曲全体を一度に生成する。
    • 本手法は,128小節までの楽曲を秒単位で生成し,音楽的な品質と多様性を維持する。

    Link: https://arxiv.org/abs/2512.11348

  • 高速かつ明示的:解析的スプレッド関数モデリングを用いた3Dガウス素元によるスライスからボリューム再構成 [cs.HC, cs.RO, cs.CV]目的:スライスからボリューム再構成のための高速な手法の開発
    • 医療画像処理において,低解像度または劣化画像からの高忠実度3D画像復元は重要である。
    • 従来の再構成手法では,点像拡散関数(PSF)の正確なモデリングに計算コストがかかる。
    • ガウス素元に基づく明示的な表現を用いて,高速かつ正確な再構成を実現することを目指す。
    • 本研究では,従来のINR手法と同等の再構成品質を,5~10倍の高速化で実現した。
    • ガウス関数が畳み込みに対して閉じている性質を利用し,解析的な解を導出した。
    • これにより,計算負荷の高いモンテカルロサンプリングを回避し,リアルタイムな胎児MRIへの臨床応用を可能にする。

    Link: https://arxiv.org/abs/2512.11624

  • LLMによる注意機構を活用したクラウドソーシング洪水画像のジオロケーションの向上 [cs.CL, cs.AI, cs.CV, cs.CY]目的:クラウドソーシング洪水画像に対するジオロケーション精度の向上
    • 災害対応において,迅速かつ正確な状況把握が不可欠であるため,リアルタイムな画像情報の活用が重要である。
    • クラウドソーシング画像はメタデータが不正確であることが多く,既存のジオロケーション手法では精度が低下する。
    • LLMの知識と注意機構を活用し,画像中の位置情報を特定する精度を向上させる。
    • 本研究で提案するVPR-AttLLMは,既存のVPRパイプラインにLLMの知識を組み込むことで,画像検索性能を向上させる。
    • SF-XL,合成洪水シナリオ,HK-URBANデータセットなどを用いた評価により,VPR-AttLLMが3つの最新VPRモデルにおいて,検索性能を1~8%向上させることが確認された。
    • VPR-AttLLMは,都市認識理論に基づく注意機構により,人間のような空間認識能力をVPRアーキテクチャに組み込む汎用的なパラダイムを確立する。

    Link: https://arxiv.org/abs/2512.11811

  • ChatGPT,Claude,Geminiを用いた緑地の魅力評価:AIモデルは人間の認識を反映しているか [cs.CY, cs.AI, cs.CV]目的:緑地の魅力評価能力の比較
    • 都市環境の質の向上には,住みやすく包容的な環境設計が不可欠である。緑地の魅力評価はそのための重要な要素である。
    • 既存の評価手法は,非公式な空間や一時的な空間を見落とし,大規模な主観的認識の把握にリソースが不足している。
    • 大規模言語モデル(MLLM)による緑地の魅力評価の可能性と限界を明らかにすること。
    • 魅力的な公式緑地と魅力の低い非公式緑地に関しては,AIと人間の評価が一致する傾向が見られた。
    • 魅力的な非公式緑地と魅力の低い公式緑地については,AIと人間の評価にずれが生じた。
    • AIモデルは,美的特徴を重視する傾向があり,安全性や機能性など,住民が重視する要素が十分に反映されていないことが示された。

    Link: https://arxiv.org/abs/2512.11827

  • ショートカットフローパスを通じた1ステップ拡散モデルの設計 [cs.LG, cs.CV]目的:1ステップ拡散モデルの設計に関する共通フレームワーク
    • 拡散モデルは画像生成において高い性能を示すが,計算コストが高いという課題がある。
    • 少ステップ拡散モデルは効率的だが,理論的根拠と実装が密接に関連し,設計の自由度が低い。
    • ショートカットモデルの設計空間を明確にし,改善点を見出すことを目指す。
    • 提案するフレームワークにより,既存のショートカットモデルの有効性が理論的に保証される。
    • ImageNet-256x256において,FID50kが2.85を達成し,最先端性能を更新した。
    • 学習ステップ数を2倍にすることで,FID50kは2.52に向上した。事前学習や蒸留は不要である。

    Link: https://arxiv.org/abs/2512.11831

  • Semantic-Drive:オープンボキャブラリ接地点と神経記号VLMコンセンサスによるロングテールデータキュレーションの民主化 [cs.CV, cs.AI, cs.CL, cs.RO]目的:ロングテールデータのキュレーション手法
    • 自動運転車の開発において,安全性確保のためには豊富な学習データが不可欠である。
    • レアな危険事象の特定は手作業に頼る部分が多く,コストと時間がかかるという課題がある。
    • プライバシーを保護しつつ,低コストで効率的なデータキュレーションを実現する。
    • Semantic-Driveは,オープンボキャブラリ検出器と推論VLMを組み合わせたローカル実行型のフレームワークである。
    • nuScenesデータセットにおいて,Recall 0.966を達成し,CLIPと比較して大幅な性能向上を示した。
    • リスク評価エラーを40%削減し,消費グレードのハードウェアでプライバシーを保護した運用を可能にした。

    Link: https://arxiv.org/abs/2512.12012

  • 受動的な環境音と実環境ビデオを用いたカメラ姿勢推定 [cs.CV]目的:実環境ビデオにおける相対的なカメラ姿勢推定
    • 具現化された知覚と3Dシーン理解において,カメラの動きの把握は不可欠である。
    • 視覚情報のみでは,モーションブラーやオクルージョンなどの条件下で課題が生じやすい。
    • 実環境ビデオにおいて,受動的な環境音を利用し,視覚情報の補完を行う。
    • 受動的な環境音は,カメラ姿勢推定のための補完的な手がかりを提供することが示された。
    • 提案手法は,最先端の視覚のみの姿勢推定モデルに,音響情報を統合するシンプルなフレームワークである。
    • 大規模データセットにおける実験により,強力な視覚ベースラインに対して一貫した改善と,視覚情報が損なわれた場合における頑健性が確認された。

    Link: https://arxiv.org/abs/2512.12165

  • オープンワールド環境におけるゼロショットポリープ検出のための適応型検出・検証フレームワーク [cs.CV, cs.CL]目的:ゼロショットポリープ検出における検出性能の向上
    • 消化器内視鏡検査は,大腸癌の早期発見に不可欠であり,ポリープ検出の精度向上が重要である。
    • 実際の臨床環境では,照明変化やモーションブラー等の影響により,学習データとは異なる画像が生成され,検出性能が低下する。
    • 本研究は,実際の臨床環境でも高い検出性能を維持し,見逃しを減らすことを目指す。
    • 提案手法は,YOLOv11検出器とVLM検証器を組み合わせた二段階フレームワークであり,VLMのガイダンスに基づき,検出器の信頼度閾値を適応的に調整する。
    • 合成データを用いた評価実験により,提案手法はYOLO単体と比較して,再現率を14〜22パーセントポイント向上させることを実証した。
    • 本手法は,コストに敏感な強化学習により,臨床的に重要な見逃し検出を抑制し,患者の転帰改善に貢献する。

    Link: https://arxiv.org/abs/2512.12492

  • 拡散モデルにおける概念除去のための双方向フレームワーク:Bi-Erasing [cs.CV, cs.CR]目的:拡散モデルからの不要または有害な視覚的概念の除去
    • テキストからの画像生成モデルの安全性確保が重要視されているため。
    • 既存手法は概念除去と生成品質のバランスが難しく,課題となっていた。
    • 概念の抑制と安全性の向上が両立するフレームワークを開発し,その課題を解決する。
    • 提案手法Bi-Erasingは,有害な意味の抑制と安全な代替案の提供を同時に行うことで,概念除去の有効性と生成品質のバランスを実現した。
    • 画像ブランチへのマスクベースのフィルタリングにより,無関係なコンテンツからの干渉を防ぎ,除去プロセスを改善した。
    • 広範な実験により,Bi-Erasingは既存手法と比較して,概念除去の有効性と視覚的な忠実性のバランスにおいて優れた性能を示した。

    Link: https://arxiv.org/abs/2512.13039

  • 意味論的強化生成基盤モデルが病理画像合成を改善する [cs.CV, cs.AI]目的:病理画像生成のための基盤モデル
    • 病理診断AIの発展には高品質なデータセットが不可欠である。しかし,その収集は困難を伴う。
    • 既存の生成モデルは,意味の不安定性や異常な形態の生成といった問題点を抱えており,診断精度を損なう。
    • データ不足とプライバシー問題を克服し,診断ツール開発を加速させるための新たな画像データソースの提供。
    • CRAFTSは,約280万組の画像キャプションペアを用いて訓練された初の病理特化テキスト-画像生成基盤モデルである。
    • CRAFTSは,独自のAlignment Mechanismにより意味のずれを抑制し,生物学的な正確性を確保した多様な病理画像を生成する。
    • CRAFTSで生成されたデータセットは,画像分類,クロスモーダル検索,自己教師あり学習,視覚的質疑応答などの臨床タスクの性能を向上させる。

    Link: https://arxiv.org/abs/2512.13164

  • MMDrive:マルチ表現融合による視覚を超えたインタラクティブなシーン理解 [cs.CV, cs.RO]目的:3次元シーン理解に基づく,自律運転のためのマルチモーダルな視覚言語モデルの構築
    • 自律運転技術において,複雑な交通状況の理解と推論は不可欠であり,視覚言語モデルはその中核技術となる。
    • 従来の視覚言語モデルは,2次元平面上の画像理解に制約され,3次元空間情報の認識や深層セマンティック融合が不十分である。
    • 本研究は,画像のみならず,Occupancy MapやLiDAR点群等の情報を活用し,より高精度なシーン理解を目指す。
    • MMDriveは,質問のセマンティックな手がかりに基づいて各モダリティの貢献度を動的に調整するText-oriented Multimodal Modulatorを導入した。
    • Cross-Modal Abstractorは,重要な領域と本質的なセマンティクスを強調するコンパクトなクロスモーダル要約を生成する。
    • DriveLMとNuScenes-QAにおける評価により,既存モデルと比較して大幅な性能向上(BLEU-4: 54.56, METEOR: 41.78, accuracy: 62.7%)が確認された。

    Link: https://arxiv.org/abs/2512.13177

  • POLAR:照明を考慮した顔モデリングのためのポートレートデータセットと生成フレームワーク [cs.CV]目的:照明を考慮した顔モデリングのための大規模データセットと生成モデル
    • 顔画像処理技術は,監視,認証,コミュニケーションなど,様々な分野で重要性が増している。
    • 既存のデータセットは,物理的に整合性の取れた照明データが不足しており,リアルな顔の再照明が困難である。
    • 大規模かつ物理的に較正されたデータセットと生成モデルを開発し,顔の再照明技術を向上させる。
    • POLARデータセットは,200人以上の被写体に対して156方向の照明下で撮影された大規模なOLATデータセットである。
    • POLARNetは,単一のポートレートから各照明方向に対するOLAT応答を予測するflow-based生成モデルである。
    • POLARとPOLARNetは,リアルなデータ,生成合成,物理に基づいた再照明を繋ぐ統一されたフレームワークを構築する。

    Link: https://arxiv.org/abs/2512.13192

  • ビデオリアリティテスト:AI生成ASMR動画はVLMと人間を騙せるか [cs.CV]目的:AI生成動画の知覚的リアリズムの評価
    • 動画生成技術の進歩は目覚ましく,現実との区別が困難になりつつあり,社会的な課題となっている。
    • 既存のAIGC検出ベンチマークは,音声を含まず,広範なドメインに焦点を当て,分類のみを対象としている。
    • 本研究は,VLMと人間を信頼に足る程度に欺く,没入感のある音声・映像一体型動画を生成できるか検証する。
    • 最先端の動画生成モデルVeo3.1-Fastは,最良のレビューアーであるGemini 2.5-Proでさえ56%の精度しか達成できず,人間の専門家(81.25%)を下回る。
    • 音声の追加は,真偽の識別を向上させるものの,ウォーターマークのような表層的な手がかりがモデルを誤解させる可能性がある。
    • 本研究は,現在の動画生成技術の限界と,VLMの知覚的忠実性および音声・映像の一貫性における課題を明らかにする。

    Link: https://arxiv.org/abs/2512.13281

  • 因果CLIP:因果に基づいた特徴の分離とフィルタリングによる生成画像検出の汎化性能向上 [cs.CV]目的:生成画像の検出における汎化性能の向上
    • 生成モデルの急速な進歩に伴い,多様な生成技術に対応可能な検出器の需要が高まっている。
    • 既存手法は特徴表現が複雑に絡み合い,本質的な手がかりと無関係なパターンを混同し,汎化性能を制限する。
    • 因果推論に基づき,本質的な特徴を分離・フィルタリングすることで,汎化性能の向上を目指す。
    • CausalCLIPは,構造因果モデルを用いて因果的特徴と非因果的特徴を分離し,統計的独立性を強制する。
    • 未知の生成モデルに対する実験で,CausalCLIPは高い汎化性能を示し,最先端手法と比較して精度が6.83%,平均適合率が4.06%向上した。
    • 分布シフトに強い安定した因果的特徴を抽出し,より転移性と識別能力の高い手がかりを保持する。

    Link: https://arxiv.org/abs/2512.13285

  • 視認性の限界を超えて:隠れた領域を考慮したプロキシ動的グラフによる編集 [cs.CV]目的:隠れた領域におけるユーザの制御を伴う画像から動画への生成
    • 画像から動画への生成技術は,現実世界の表現に不可欠であり,その応用範囲は広い。
    • 既存の手法では,ユーザ指定のコンテンツを新たに現れた領域に組み込むことが困難である。
    • ユーザの意図を反映した,制御可能な関節運動と隠れた領域の編集を可能にすること。
    • 軽量で編集可能なプロキシ動的グラフを用いて,パーツの動きを決定的に制御する。
    • 拡散モデルにより,その動きに沿った自然な外観を合成することで,動画生成の精度を高める。
    • ユーザが指定した外観情報と動きを統合し,関節運動と隠れた領域の編集を可能にする。

    Link: https://arxiv.org/abs/2512.13392

  • Seedance 1.5 pro:ネイティブなオーディオビジュアル同時生成基盤モデル [cs.CV]目的:ネイティブなオーディオビジュアル同時生成のための基盤モデル
    • 動画生成技術の進展により,オーディオとビジュアルの統合生成が注目されている。
    • 既存モデルでは,オーディオとビジュアルの同期や生成品質が課題となっていた。
    • 高品質なオーディオビジュアル同時生成と実用的な利用を可能にすること。
    • Seedance 1.5 proは,デュアルブランチ拡散Transformerアーキテクチャを採用し,オーディオとビジュアルの同期性と生成品質を向上。
    • SFTやRLHFなどの最適化手法により,実用性と安定性を高めている。
    • 10倍以上の高速化を実現し,プロフェッショナルレベルのコンテンツ制作を支援する強力なエンジンとなる。

    Link: https://arxiv.org/abs/2512.13507

  • MMhops-R1:マルチモーダル多段推論 [cs.DC, eess.SY, cs.SY, cs.CV]目的:マルチモーダル多段推論の評価と促進
    • 現実世界の複雑な課題解決には,多様なモダリティと外部知識を統合する能力が不可欠である。
    • 既存のマルチモーダル大規模言語モデルは,単一ステップの推論に限定されており,多段推論能力を評価するベンチマークが不足している。
    • 本研究は,マルチモーダル多段推論を評価・促進するための新しいベンチマークと基盤モデルを提案し,その能力向上を目指す。
    • MMhopsという大規模なベンチマークを新たに開発し,多段推論能力を系統的に評価できるようにした。
    • MMhops-R1という新しいマルチモーダルRetrieval-Augmented Generation (mRAG)フレームワークを提案し,動的な推論パスの計画と知識統合を最適化した。
    • MMhopsにおける実験により,MMhops-R1が既存モデルを大幅に上回り,動的な計画とマルチモーダル知識統合の重要性が示された。

    Link: https://arxiv.org/abs/2512.13573

  • MindDrive:オンライン強化学習による自律運転のためのビジョン・言語・行動モデル [cs.CV, cs.RO]目的:自律運転におけるビジョン・言語・行動(VLA)モデルのオンライン強化学習の有効性
    • 自律運転は,交通渋滞の緩和や交通事故の削減など,社会に大きな利益をもたらす可能性を秘めている。
    • 既存のVLAモデルは模倣学習に依存しており,分布のシフトや因果関係の混乱といった課題が存在する。
    • MindDriveは,連続的な行動空間における探索の非効率性を克服し,VLAモデルのオンライン強化学習を可能にすることを目指す。
    • MindDriveは,シナリオ推論と運転意思決定を行う決定エキスパートと,言語的な決定を走行軌跡に動的にマッピングする行動エキスパートを備えたVLAフレームワークである。
    • 走行軌跡レベルの報酬を推論空間にフィードバックすることで,MindDriveは連続的な行動空間ではなく,有限の離散的な言語的な運転決定に対して試行錯誤学習を可能にする。
    • Bench2Driveベンチマークにおいて,MindDriveはDriving Score(DS)78.04,Success Rate(SR)55.09%を達成し,オンライン強化学習の有効性を示した。

    Link: https://arxiv.org/abs/2512.13636

  • 半正定値ネットワークゲーム:複数プレイヤーのミニマックスと相補性問題 [math.OC, cs.GT]目的:半正定値ネットワークゲームにおけるナッシュ均衡の特性付け
    • ネットワークシステムにおけるエージェント間の相互作用を分析する上で,ネットワークゲームは強力な枠組みを提供する。
    • 既存のネットワークゲームの枠組みでは,半正定値行列を扱うゲームの解析が十分に進んでいない。
    • 半正定値行列を用いたネットワークゲームにおけるナッシュ均衡の存在と特性を明らかにすること。
    • ゼロサムゲームにおいて,ナッシュ均衡はスペクトラヘドロンへの射影として特徴づけられることが示された。
    • 半正定値ネットワークゲームがゼロサムゲームであるかどうかは,半正定値計画問題の値がゼロであるかどうかを判定することと同値である。
    • ゼロサムゲーム以外の場合,ナッシュ均衡は半正定値線形相補性問題の解として特徴づけられる。

    Link: https://arxiv.org/abs/2310.20333

  • 心電図から心臓MRIへの変換:心臓評価と疾患スクリーニングのための多施設研究 [eess.IV, cs.AI, cs.CV]目的:心電図信号から心臓MRIレベルの機能的パラメータと合成画像を生成すること
    • 心血管疾患は世界的な死亡原因の第一位であり,アクセス可能かつ正確な診断ツールが不可欠である。
    • 心臓MRIは精密な評価が可能だが,高コストと複雑さが臨床応用の障壁となっている。
    • 低コストな心電図から心臓MRI相当の情報を得ることで,大規模な心血管疾患スクリーニングを可能にすること。
    • CardioNetsは,心電図から心臓MRIレベルの機能パラメータと合成画像を生成することで,大規模な心臓評価を可能にした。
    • UK Biobankデータセットにおいて,心臓表現型回帰のR2値を24.8%向上させ,心筋症のAUCを最大39.3%改善した。
    • 医師が心電図と実際の心臓MRIを使用した場合と比較して,CardioNetsのみを使用した場合の精度が13.9%向上した。

    Link: https://arxiv.org/abs/2411.13602

  • ナノフォトニック波面プロンプティングによる物理的根拠に基づいた単眼深度推定 [eess.SP, cs.NI, physics.optics, cs.AR, cs.CV]目的:単眼深度推定における物理的な深度情報の導入
    • 3次元認識はロボット工学や自動運転等の分野で不可欠であり,その精度向上が求められている。
    • 既存の深度モデルは学習データに依存し,物理的な深度手がかりに乏しいため,スケールの曖昧さが問題となる。
    • ナノフォトニックレンズを用いて光波面への深度情報を埋め込み,深度モデルの精度と物理的整合性を向上させる。
    • 独自に開発した複屈折メタレンズにより,深度情報を光波面に物理的に埋め込むことに成功した。
    • メタレンズからの光学信号を軽量なプロンプティングとファインチューニングで解読し,深度モデルと整合させた。
    • 物理実験とシミュレーションの結果から,提案手法が最先端の単眼深度推定器よりも正確かつ一貫した深度推定を可能にすることが示された。

    Link: https://arxiv.org/abs/2503.15770

  • 網膜画像と臨床データを用いた脳卒中予測・検出のためのマルチモーダル深層学習 [eess.IV, cs.CV]目的:脳卒中予測と検出
    • 脳卒中は世界中で多くの人々に影響を与える主要な健康問題であり,早期発見とリスク予測が重要である。
    • 既存手法は高価な画像診断に依存しており,コストが課題となっている。
    • 網膜画像と臨床データを活用し,低コストで脳卒中リスクを予測・検出することを目指す。
    • 提案手法は,網膜OCT画像と臨床データを組み合わせたマルチモーダル深層学習ネットワークである。
    • 実験結果から,画像のみの場合と比較してAUROCが5%向上し,既存モデルと比較して8%向上することが示された。
    • 本研究は,網膜画像が脳卒中リスクの高い患者の特定と長期的な予後改善に貢献する可能性を示唆する。

    Link: https://arxiv.org/abs/2505.02677