arXiv雑要約

画像・音声 - 2026/05/07 公開

山火事延焼予測における境界を考慮した不確実性定量化 [cs.CV]目的：山火事延焼予測における不確実性定量化手法の評価
- 山火事の延焼予測は，防災計画において極めて重要である。
- 深層学習モデルは予測の不確実性を適切に評価する手段が不足している。
- 境界付近における予測の不確実性を評価する新たな枠組みを提案する。
- 提案するFire-Centered Evaluation Region (FCER)フレームワークは，重要な火災領域における不確実性定量化を可能にする。
- アンサンブルモデルと蒸留モデルをWildfireSpreadTSデータセットで比較した結果，蒸留モデルが境界付近で同等の精度と補完的な不確実性ランキングを示した。
- FCERフレームワークは，より実践的な不確実性評価を可能にする。
Link: https://arxiv.org/abs/2605.03148
3D異常検知のためのマルチスケール詳細度特徴からの識別符号付き距離関数の学習 [cs.CV, cs.LG]目的：3D点群における異常検知のための識別符号付き距離関数の学習
- 3D点群処理は，自動運転やロボティクス等の分野で重要性が増している。
- 点群の規模が大きく，疎であるため，点ごとの正確な表現学習が難しい。
- マルチスケール詳細度特徴を用いて，異常と正常の識別を可能にする符号付き距離関数を学習する。
- 提案手法は，Anomaly-ShapeNetおよびReal3D-ADデータセットにおいて，平均オブジェクトレベルのAUROCで92.1%と85.9%を達成した。
- 既存の最良手法と比較して，それぞれ2.1%と3.6%高い性能を示した。
- ノイズ生成モジュールとマルチスケール特徴モジュールにより，よりロバストな異常検知が可能となった。
Link: https://arxiv.org/abs/2605.03437
VL-SAM-v3：記憶誘導型視覚的事前知識によるオープンワールド物体検出 [cs.CV]目的：オープンワールド物体検出における性能向上
- 物体検出は，自動運転やロボット工学など幅広い分野で不可欠な技術である。
- 既存手法は，詳細な外観変化や稀少カテゴリへの対応が課題であった。
- 視覚的事前知識を活用し，よりロバストな物体検出を目指す。
- VL-SAM-v3は，外部の視覚的記憶を用いてオープンワールド物体検出を強化する。
- LVISデータセットでの実験により，オープンボキャブラリーおよびオープンエンデッド推論の両方で検出性能が向上した。
- 特に，稀少カテゴリにおいて顕著な改善が見られた。
Link: https://arxiv.org/abs/2605.03456
WorldJen：生成ビデオモデルのためのエンドツーエンド多次元ベンチマーク [cs.CV]目的：生成ビデオモデルの評価基準の開発
- ビデオ生成技術は急速に進歩しており，その性能を客観的に評価する手段が求められている。
- 既存の評価指標は，画素レベルの忠実度や分布のテクスチャに偏っており，物理的な妥当性や意味的な正確性を十分に捉えられていない。
- 人間の知覚と整合性の高い，多次元かつ効率的な評価フレームワークを構築し，ビデオ生成モデルの性能をより正確に測定すること。
- 本研究では，バイナリVQAに代わり，VLMによるリッカート尺度を用いた質問票による評価を導入し，より高解像度での評価を可能にした。
- 敵対的キュレーションによって作成されたプロンプトを用いることで，一度の評価で最大16の品質次元を同時に評価し，ビデオ生成コストを削減した。
- VLMによる評価は，人間の判断との高い一致性を示し（Spearman $\hat{\rho}=1.000$），信頼性の高い評価フレームワークであることを実証した。
Link: https://arxiv.org/abs/2605.03475
コードから予測へ：NNGPTにおけるニューラルネットワーク性能分類のためのLLMのファインチューニング [cs.LG, cs.CV]目的：ニューラルネットワークのコードから，データセット間の性能予測
- AutoMLの発展に伴い，LLMの活用が重要視されている。
- 既存研究では，LLMの生成結果を評価することに重点が置かれ，性能予測能力は未解明である。
- ニューラルネットワークのコードからデータセット間の性能差を予測する手法を確立すること。
- ファインチューニングされたLLMは，ニューラルネットワークのコードからデータセット間の性能を予測できることが示された。
- コードのみを提示したプロンプトは，メタデータを含めたプロンプトよりも高い汎化性能を示した。
- モデルの容量が，この種のアーキテクチャ推論の性能に影響することが確認された。
Link: https://arxiv.org/abs/2605.03686
PHALAR：学習された音楽オーディオ表現のための位相表現 [cs.SD, cs.AI, cs.LG, eess.SP]目的：音楽オーディオのステム検索における精度向上
- 音楽制作において，楽曲の分離・編集は重要な処理であり，その効率化が求められている。
- 既存手法は時間情報を十分に活用できず，精度向上のボトルネックとなっていた。
- 時間情報を考慮した新たな手法により，より高精度なステム検索を実現すること。
- PHALARは，最先端モデルと比較して約70%の精度向上を達成し，パラメータ数と学習時間を大幅に削減した。
- 学習されたスペクトルプーリング層と複素数値ヘッドの導入により，音高と位相に対する偏りを効果的に学習した。
- MoisesDB，Slakh，ChocoChoralesの各データセットで最先端の性能を確立し，人間による評価との高い相関性を示した。
Link: https://arxiv.org/abs/2605.03929
iWorld-Bench：統一的な行動生成フレームワークを備えたインタラクティブなワールドモデルのベンチマーク [cs.CV, cs.AI]目的：インタラクティブなワールドモデルの物理的相互作用能力の評価
- 汎用人工知能実現には，適応的に学習・相互作用するエージェントが不可欠であり，ワールドモデルはそのための重要な基盤となる。
- 大規模なデータセットや，物理的相互作用能力を評価するための統一的なベンチマークが不足している。
- 距離認識や記憶など，相互作用に関連する能力に関するワールドモデルの訓練とテストを行うための包括的なベンチマークを提供する。
- iWorld-Benchは，33万件のビデオクリップを含む多様なデータセットを構築し，2100件の高品位サンプルを選択した。
- 既存のワールドモデルの相互作用モダリティの違いに対応するため，評価を統一するための行動生成フレームワークを導入し，6種類のタスクを設計した。
- 14の代表的なワールドモデルを評価し，その限界を特定するとともに，今後の研究への洞察を提供した。
Link: https://arxiv.org/abs/2605.03941
脳MRI画像合成のための完全誘導型ニューラルシュレーディンガーブリッジ [eess.IV, cs.CV]目的：脳MRI画像におけるモダリティ欠損時の補完
- 臨床診断には複数のMRIモダリティが重要だが，時間とコストの制約がある。
- 既存手法では，ペアデータが必要か，または解剖学的特徴の維持が困難である。
- 限られたペアデータで高精度な画像合成と，病変の維持を目指す。
- 提案手法FGSBは，ペアデータとガウスノイズを用いて画像を反復的に精緻化する。
- 中間状態をモデル化することで，一貫性と高精度な合成を実現している。
- 様々なデータセットで，FGSBが信頼性の高い合成性能を示すことが確認された。
Link: https://arxiv.org/abs/2501.14171
自己教師あり学習のための大規模異種3D磁気共鳴脳画像データセット [eess.IV, cs.CV]目的：大規模異種3D磁気共鳴脳画像データセット
- 医療画像解析は，疾患の早期発見や治療効果の評価に不可欠である。
- 高品質な学習データが不足しており，汎化性能の高いモデル開発が課題である。
- 自己教師あり学習を促進し，大規模な医療画像解析の発展に貢献する。
- 本研究では，910の公開ソースから集約された26万件超のMRIスキャンを含む，大規模で異質なデータセットFOMO260Kを公開した。
- 臨床用および研究用の画像を網羅し，多様なMRIシーケンスと解剖学的・病理学的変異を含む。
- 自己教師あり学習のための事前学習済みモデルとコードを公開し，医療画像解析のベンチマークを支援する。
Link: https://arxiv.org/abs/2506.14432
心臓CT画像からのラディオミクスと幾何学的特徴を用いた心血管疾患の分類 [cond-mat.stat-mech, cond-mat.dis-nn, cs.AR, physics.comp-ph, eess.IV, cs.CV]目的：心血管疾患の分類
- 心血管疾患は主要な死亡原因であり，早期発見と正確な診断が重要である。
- 既存の手法は解釈性が低く，臨床的な判断を支援するには限界がある。
- 臨床的に解釈可能な特徴量を抽出し，分類精度を向上させることを目指す。
- ラディオミクスと幾何学的特徴を用いることで，心血管疾患の分類精度が向上した。
- 提案手法は，生CT画像のみを用いた分類モデルと比較して，分類精度が87.50%から67.50%へと大幅に改善された。
- 画像セグメンテーション，画像登録，疾患分類の３段階パイプラインが有効であることが示された。
Link: https://arxiv.org/abs/2506.22226
ボリュumetric医療画像セグメンテーションのための活性学習と選択的半教師ありファインチューニングによる医療ビジョン基盤モデルの適応 [eess.IV, cs.CV]目的：ボリュumetric医療画像セグメンテーションにおける医療ビジョン基盤モデルの効率的な適応
- 医療画像解析は疾患診断や治療計画において不可欠であり，高精度なセグメンテーション技術が求められている。
- 既存のファインチューニング手法では，ランダムなサンプル選択により，重要なデータを見落とす可能性がある。
- 限られたアノテーション予算内で，より有益なデータを選び，適応性能を最大化することを目指す。
- 提案手法ASSFTは，活性学習と選択的半教師あり学習を統合することで，効率的な適応を実現する。
- 多様性知識乖離(DKD)と解剖学的セグメンテーション困難度(ASD)という2つの指標を用いて，有益なサンプルを特定する。
- 信頼性の高い未ラベルサンプルを選択的に活用することで，安定した半教師あり学習を促進し，ノイズの影響を抑制する。
Link: https://arxiv.org/abs/2509.10784
拡散MRIとT1強調画像のアライメントのための共同合成と登録フレームワーク [math.CO, cs.DM, eess.IV, cs.CV]目的：拡散MRIとT1強調画像のアライメント手法
- 脳機能解析において，拡散MRIと構造MRIの空間的な一致は不可欠である。
- 拡散MRIとT1強調画像の間には強度差が大きく，正確な登録が困難である。
- この研究は，強度差による登録の課題を解決し，高精度なアライメントを実現する。
- 生成敵対ネットワークを用いて，拡散MRI画像をT1強調画像に近いコントラストに変換する。
- 生成画像とT1強調画像間の変形場を学習することで，クロスモーダル登録の複雑さを軽減する。
- 提案手法は，既存の最先端手法と比較して，マルチモーダル登録タスクにおいて優れている。
Link: https://arxiv.org/abs/2601.11689