arXiv雑要約
画像・音声 - 2025/12/22 公開
超高解像度リモートセンシングMLLMのベンチマーク [cs.CV, cs.AI, cs.MM]目的:超高解像度リモートセンシング画像における視覚的理解と推論の評価
- リモートセンシング技術は,地球観測や環境モニタリングに不可欠であり,その重要性は増している。
- 既存のベンチマークは低解像度画像に依存しており,高解像度ベンチマークには設計上の問題点が見られる。
- より忠実な評価を実現するため,超高解像度画像を用いた新たなベンチマークの開発を試みる。
- RSHR-Benchは,辺の長さが少なくとも4,000ピクセルという超高解像度(最大約3億ピクセル)のフルシーン画像を5,329枚含む。
- 複数のタスク(VQA,画像キャプション生成,単一画像評価)と,9つの知覚カテゴリ,4つの推論タイプを網羅している。
- 評価実験の結果,既存のVLMsは超高解像度画像において依然として性能ギャップが残ることが示された。
EMMA:包括的な意味的指標と多様なカテゴリーによる概念消去ベンチマーク [cs.CV]目的:概念消去手法の評価基準
- テキスト画像生成技術の発展に伴い,プライバシーや著作権侵害等の問題が顕在化している。
- 既存の概念消去手法は,評価対象が限定的で,簡素なプロンプトに依存している点が課題である。
- モデル表現から意図した概念が完全に削除されているか検証し,概念消去手法の限界を明らかにする。
- 既存手法は,間接的な表現や視覚的に類似する概念の除去に苦戦することが示された。
- 一部の手法は,元のモデルと比較してジェンダーや民族に関するバイアスを増幅する傾向が見られた。
- EMMAベンチマークは,概念消去手法のロバスト性,バイアス,効率性などを多角的に評価することを可能にする。
ロッテルダム動脈静脈セグメンテーション(RAV)データセット [cs.RO, cs.CV]目的:眼科における血管解析のための機械学習アルゴリズム開発・評価を支援する,詳細な動脈静脈(A/V)セグメンテーション注釈付きのカラー眼底写真(CFI)の多様かつ高品質なデータセット
- 眼底血管の解析は,高血圧や糖尿病などの全身疾患の早期発見や眼疾患の診断に不可欠である。
- 既存のデータセットは,画像品質や多様性に乏しく,実臨床での機械学習モデルの汎化性能が課題となっていた。
- 本研究は,多様な画像条件と高品質なセグメンテーションを備えたデータセットを提供し,汎用性の高いモデル開発を可能とする。
- 本データセットは,1024x1024ピクセルのRGB画像,コントラスト強調画像,およびRGBエンコードされたA/Vマスクを含む。
- 画像品質は幅広く,自動品質評価システムでは除外されるような困難なサンプルも含まれている。
- 接続性が検証されたA/Vマスクを含むことで,臨床応用可能な機械学習ツールの開発を促進し,網膜血管解析の自動化や診断精度向上に貢献する。
拡散に基づくイベント駆動型単一フレーム合成:残差学習によるアプローチ [cs.CV]目的:イベントカメラデータを用いた,単一フレームの合成
- 動画予測において,将来フレームの精度向上が課題であり,イベントカメラはその解決策となりうる。
- 既存手法は,イベントデータからのモーション情報を利用するが,ピクセル変位の誤差により画質劣化が生じる。
- 本研究は,残差学習と拡散モデルにより,高精度かつ時間的に整合性の取れたフレーム合成を目指す。
- 提案手法DESSERTは,事前学習済みのStable Diffusionモデルを活用し,イベントデータに条件付けた残差のノイズ除去を行う。
- ER-VAEを用いてイベントフレームと残差を整列させ,DLT拡張により時間的なロバスト性を向上させている。
- 実験結果から,提案手法は既存手法と比較して,より鮮明で時間的に整合性の高いフレーム合成を実現できることが示された。
病理パイロットの民主化:全スライド画像視覚言語モデリングのためのオープンパイプラインとデータセット [cs.CV]目的:全スライド画像視覚言語モデリングのためのオープンパイプラインとデータセット
- 病理診断の精度向上と効率化に貢献するAIの開発が重要視されている。
- 既存の視覚言語モデルは,データ公開の制限や汎化性能の低さといった課題を抱えている。
- 全スライド画像と臨床レポートを用いた学習データ不足の解消を目指す。
- Polysomeという標準化されたツールを用いて,HISTAIデータセットから大規模な学習データセットHISTAI-Instructを生成した。
- HISTAI-Instructを用いて学習したVLM ANTONI-αは,WSIレベルのVQAタスクにおいてMedGemmaを上回る性能を示した。
- ANTONI-αの異なるデータ量での学習実験を行い,データ量と性能の関係を検証した。
SynergyWarpNet:注意誘導協調ワープによるニューラルポートレートアニメーション [cs.CV]目的:ニューラルポートレートアニメーションの高精度化
- バーチャルアバター等の応用が期待され,近年注目を集めている研究分野である。
- 既存手法では,正確なモーション転送や欠損領域の回復が課題となっていた。
- 高精度で自然なトーキングヘッド合成を可能とする手法の開発を目指す。
- 提案手法SynergyWarpNetは,注意機構を活用した協調ワープフレームワークである。
- 3D密光流を用いた粗い空間アラインメントと,複数参照画像からの補完により,高精度なアニメーションを実現する。
- 実験結果から,提案手法が最先端の性能を示すことが確認された。
全方位画像超解像のための多段階歪み認識変形ネットワーク [cs.CV]目的:全方位画像超解像の画質向上
- AR/VR技術の発展に伴い,全方位画像の処理技術が重要性を増している。
- 等矩角投影による歪みが,全方位画像超解像の性能を制限している。
- 歪みパターンを効果的に捉え,全方位画像超解像の性能を向上させることを目指す。
- 提案手法であるMDDNは,歪み領域の広い範囲をカバーするサンプリング範囲と受容野を持つ。
- MDDNは,変形畳み込みと注意機構を組み合わせることで,歪みによる特徴抽出の課題を克服する。
- 実験結果から,MDDNが既存手法を上回り,全方位画像超解像において高い性能を発揮することが示された。
意味的特徴を超えて:汎用AI生成画像検出のためのピクセルレベルマッピング [cs.CL, cs.CL, cs.RO, cs.CV]目的:AI生成画像の汎用的な検出
- 生成技術の急速な発展に伴い,AI生成画像を確実に検出する手法が求められている。
- 既存の検出器は,特定の生成モデルに過剰適合し,汎化性能が低いという課題がある。
- 検出器が,生成過程に固有の高周波痕跡に焦点を当てられるようにする。
- 提案手法は,ピクセル値分布を破壊し,検出器が頼る意味的パターンを崩すことで,汎化性能を向上させる。
- GANおよび拡散モデルを用いた実験により,最先端の検出器のcross-generator性能が大幅に向上することが示された。
- 意味的特徴の破壊が汎化性能の鍵であることが,詳細な分析によって裏付けられた。
純粋合成データによるテキスト読み上げモデルの訓練:実現可能性,感度,汎化能力 [cs.HC, q-fin.CP, cs.SD]目的:テキスト読み上げモデル訓練における純粋合成データの利用可能性評価
- 音声合成技術は,人間と機械のコミュニケーションを円滑にする上で不可欠である。
- 高品質な訓練データ収集はコストと労力を要し,データ不足が課題となる場合がある。
- 合成データのみで実用的な性能を実現し,データ収集の負担を軽減すること。
- 実験の結果,話者とテキストの多様性を高めることで,合成音声の品質とロバスト性が大幅に向上することが示された。
- ノイズの少ないクリーンな訓練データは,モデルの性能向上に寄与する。
- 合成データで訓練したモデルは,同様の条件下では実データで訓練したモデルを上回る可能性が示唆された。
より深い感情の反映へ:生成事前知識を用いた感情的画像フィルタの構築 [cs.CV]目的:感情的画像フィルタの構築
- ソーシャルメディアにおける感情表現の重要性が高まっており,視覚的な要素も不可欠である。
- テキストの感情を画像に適切に反映させる技術は未だ十分ではなく,感情の忠実度が課題である。
- テキストの感情を画像に反映させ,感情的に訴求力のある画像生成を目指す。
- AIFモデルは,既存手法と比較して,内容の一貫性と感情の忠実度において優れた性能を達成した。
- 大規模なユーザー調査の結果,AIFモデルは特定の感情を喚起する点で非常に有効であることが示された。
- 本研究は,AIFモデルの価値と可能性を包括的に論じている。
シングルアイテムオークションにおける決定論的実装 [cs.CG, cs.CL, cs.GT]目的:シングルアイテムオークションにおける決定論的実装可能性
- オークション設計は,資源配分の効率性と収益の最大化に不可欠である。
- 決定論的オークションと確率的オークションの実装可能性の比較が十分ではない。
- 決定論的オークションがいつ確率的オークションと同等の結果をもたらすかを解明する。
- 収益と厚生のペアに関して,決定論的ベイジアンインセンティブ適合性(BIC)オークションでは実装可能だが,決定論的支配戦略インセンティブ適合性(DSIC)オークションでは実装不可能な例が存在する。
- 連続原子を持たない事前分布の下では,達成可能な結果に関して,決定論的DSICオークションと確率的BICオークションが実装的に同等となる条件が特定された。
- 2人の入札者に対するボーダーの定理の決定論的類似性を確立し,決定論的DSIC実装可能性の必要十分条件を示すことで,決定論的BICオークションでは実装可能だが,決定論的DSICオークションでは実装不可能な暫定的な配分を例示した。
視覚言語モデルは異文化間における心の理論推論者となりうるか [cs.IR, cs.HC, cs.CY, cs.CL, cs.CV, cs.CY]目的:異文化間における心の理論推論能力の評価
- 人間社会において,他者の心情理解は不可欠であり,AIに高度な社会性を付与する上で重要である。
- 既存の視覚言語モデルは社会的なタスクに応用されているものの,異文化における心の理論推論能力は未解明である。
- 多様な文化背景における心の理論推論を評価し,モデルの能力を定量的に把握することを目指す。
- 新しい評価ベンチマーク「CulturalToM-VQA」を開発し,5095問の視覚質疑応答を通じて異文化間における心の理論推論を評価した。
- 本ベンチマークは,儀式,服装,ジェスチャーなど,文化に根ざした手がかりを取り込み,従来の西洋中心的な評価からの脱却を試みた。
- 心の状態の推論,誤った信念の推論,非言語的コミュニケーション,社会規範の逸脱など,様々な心の理論の側面を網羅した。
RadImageNet-VQA:CTおよびMRI画像に対する放射線学的視覚的質問応答のための大規模データセット [cs.CV, cs.AI, cs.CL]目的:放射線学的視覚的質問応答におけるCTおよびMRI画像を用いた大規模データセット
- 医療画像診断支援の発展に不可欠であり,より高精度な診断を可能にする。
- 既存のデータセットは規模が小さく,X線画像に偏っていたり,テキストによる解答の近道が存在する。
- 既存データセットの課題を克服し,より高度な視覚的質問応答モデルの開発を促進する。
- RadImageNet-VQAは,75万枚の画像と750万件の質問-回答ペアを含む大規模データセットである。
- 既存の最先端モデルは,特に自由記述形式の質問において,微細な病理の識別で苦戦している。
- 画像入力なしではモデル性能が大幅に低下することから,本データセットが言語的近道から解放されていることが確認された。
オクルージョンを超えて:CNNベース前立腺がん分類におけるほぼリアルタイムな解釈可能性の探求 [cs.DM, cs.NI, cs.CV]目的:CNNベース前立腺がん分類の解釈可能性向上
- がん診断支援において,深層学習の活用が期待されているため。
- 既存の説明手法であるオクルージョンは計算時間が長く,実用化の遅延を招いている。
- オクルージョンに代わる,より高速な解釈手法を特定し,臨床応用を促進すること。
- 比較基準と指標を確立し,複数の解釈手法を評価した結果,代替手法を選定した。
- 代替手法は,従来法と比較して解釈時間を10倍以上短縮し,説明の質に悪影響を与えなかった。
- 本研究のアプローチは,他の関連応用分野における解釈手法の評価にも応用可能である。
AIFloodSense:洪水環境のセマンティックセグメンテーションと理解のためのグローバル航空画像データセット [cs.RO, cs.DB, cs.DC, cs.CV]目的:洪水環境のセマンティックセグメンテーションと理解のためのグローバル航空画像データセット
- 災害対応とリスク評価において,視覚データからの正確な洪水検出は不可欠である。
- 大規模な画像収集とアノテーションの困難さから,洪水セグメンテーション用のデータセットは不足している。
- 地理的範囲とアノテーションの詳細に限界がある既存のリソースの課題を克服する。
- AIFloodSenseは,64カ国,6大陸にわたる230の洪水イベントからの470の高解像度画像を含む,包括的で公開されている航空画像データセットである。
- 画像分類,セマンティックセグメンテーション,視覚的質問応答(VQA)という3つの補完的なタスクをサポートし,環境タイプ,カメラアングル,大陸の認識に関する新しいサブタスクを提供する。
- 最先端のアーキテクチャを使用して,すべてのタスクのベースラインベンチマークを確立し,データセットの複雑さと気候変動に対する強靭性を高めるAIツールの開発における価値を示した。
Xiaomi MiMo-VL-Miloco技術レポート [cs.RO, cs.CV]目的:家庭環境と汎用的なマルチモーダル推論における高性能なビジョン言語モデルの開発
- スマートホームの普及に伴い,環境理解や人間との自然なインタラクションを実現するAIの重要性が増している。
- 既存のビジョン言語モデルは,家庭環境特有のタスクに対する性能が十分ではなく,汎用性と専門性のバランスが課題である。
- 家庭環境に特化したモデルを開発し,ジェスチャー認識や環境理解の精度向上を目指す。
- MiMo-VL-Miloco-7Bは,家庭環境におけるタスクやマルチモーダル推論ベンチマークにおいて,既存のモデルを上回る性能を示した。
- 教師ありファインチューニングとグループ相対的方策最適化に基づく強化学習を組み合わせた二段階の学習パイプラインが効果的であることが示された。
- 家庭環境に特化した学習は,活動やジェスチャーの理解を向上させるとともに,テキストのみの推論能力も高めることが確認された。
LangDriveCTRL:マルチモーダルエージェントによる自然言語制御運転シーン編集 [cs.CV]目的:現実世界の運転動画を編集し,多様な交通シナリオを合成するための自然言語制御可能フレームワーク
- 自動運転技術の発展には,多様な交通状況下での安全性評価が不可欠である。
- 既存の交通シナリオ生成方法は,多様性や制御の柔軟性に課題があった。
- 自然言語による指示に基づいた,より精密で現実的な運転シーンの編集を実現すること。
- LangDriveCTRLは,従来の最先端技術と比較して,指示との適合性が約2倍向上した。
- 構造の維持,フォトリアリズム,交通のリアリズムにおいても優れた性能を示した。
- シーングラフの分解,エージェントによるパイプライン,ビデオ拡散ツールなどを組み合わせることで,高精度な編集を実現している。
MULTIAQUA:マルチモーダル海洋データセットとマルチモーダル意味セグメンテーションのためのロバストな学習戦略 [cs.HC, cs.CV, cs.LG]目的:マルチモーダル海洋データセットと,それを用いたロバストな学習戦略の開発
- 無人表面航行艇の応用範囲拡大には,多様な環境下での高精度な状況認識が不可欠である。
- 悪天候や夜間など,視認性の低い状況下では,単一のカメラだけでは十分な情報を得られない場合がある。
- 異なるセンサーからの情報を統合することで,視認性の低い環境下でも安定した状況認識を実現することを目指す。
- 新しいマルチモーダル海洋データセットMULTIAQUAを構築し,RGB,熱画像,IR,LiDAR等のデータを収録した。
- データセットを用いて,夜間のような困難な状況下でも有効なマルチモーダル手法を評価した。
- 昼間画像のみでロバストな深層ニューラルネットワークを学習できる手法を提示し,データ収集・アノテーションの負担を軽減した。
3D-RE-GEN:生成フレームワークを用いた室内シーンの3次元再構成 [cs.CV]目的:室内シーンの3次元再構成
- 映像効果やゲーム開発において,修正可能な3次元テクスチャ付きメッシュシーンの需要が高まっている。
- 既存の再構成手法では,オブジェクトの分解ミスや空間関係の不正確さ,背景の欠如といった課題がある。
- アーティストのニーズを満たす,高品質で修正可能な3次元シーン再構成を実現する。
- 提案手法3D-RE-GENは,資産検出,再構成,配置のモデルを統合し,最先端のシーン再構成性能を達成した。
- 遮蔽されたオブジェクトの取得を画像編集タスクとして扱い,一貫した照明と幾何学に基づいて推論・再構成を行う。
- 4自由度微分最適化により,再構成されたオブジェクトを推定された地面平面に整列させ,物理的に現実的なレイアウトを実現した。
デジタルツインを活用した脳腫瘍解析のための連合学習フレームワークTwinSegNet [cs.CV, cs.LG]目的:脳腫瘍セグメンテーションの精度向上とプライバシー保護
- 脳腫瘍の正確な診断と治療計画には,セグメンテーションが不可欠である。
- 中央集権的なデータ収集はプライバシー侵害のリスクがあり,汎化性能を制限する。
- プライバシーを保護しつつ,多様な機関でのセグメンテーション精度を高める。
- TwinSegNetは,ViT-UNetモデルとデジタルツインを組み合わせた連合学習フレームワークである。
- 9つの異質なMRIデータセットで,高いDiceスコア(最大90%)と感度/特異度(90%超)を達成した。
- 中央集権型モデルと比較して,プライバシーを保護しながら高い性能を維持していることが示された。
LumiCtrl:パーソナライズされたテキスト-画像モデルにおける照明制御のための照明プロンプト学習 [cs.CV]目的:照明プロンプトの学習による照明制御手法
- 画像生成AIの発展に伴い,生成画像の雰囲気や美観を制御する照明の重要性が高まっている。
- 既存のテキスト-画像モデルでは,生成画像の照明を精密に制御することが困難である。
- 単一の画像から照明プロンプトを学習し,生成画像の照明をより忠実に再現することを目指す。
- LumiCtrlは,既存のパーソナライズ手法と比較して,照明の再現性,美的品質,シーンの一貫性において大幅な改善を達成した。
- 物理ベースの照明オーギュメンテーション,エッジ誘導プロンプト分離,マスク再構成損失の組み合わせが効果的であることが示された。
- ユーザー選好調査の結果,LumiCtrlによる出力に対する強い選好が確認された。
MMLANDMARKS:地理空間理解のためのクロスビューインスタンスレベルベンチマーク [cs.CV]目的:地理空間理解のためのマルチモーダルベンチマークデータセット
- 地理空間分析は,画像,テキスト,座標など多様な情報源の統合が不可欠である。
- 既存のベンチマークはモダリティの網羅性が低く,統合的なアプローチの進展を阻害している。
- 複数のモダリティに対応したベンチマークを提供し,地理空間理解の発展に貢献すること。
- MMLANDMARKSデータセットは,18,557のランドマークに対し,高解像度航空画像,地上画像,テキスト情報,地理座標を収録している。
- このデータセットは,異なるモダリティ間の一対一対応を特徴とし,多様な地理空間タスクの学習と評価を可能にする。
- シンプルなベースラインモデルを用いた実験により,マルチモーダルデータセットの重要性が示された。
GroundingME:MLLMにおける視覚的接地能力のギャップを多角的評価で明らかにする [cs.CV]目的:MLLMの視覚的接地能力の評価
- 言語と視覚の理解を結びつける視覚的接地は,AIの高度化に不可欠である。
- 既存の評価基準は現実世界の複雑さを捉えきれておらず,過度に単純化されている。
- 本研究は,MLLMの視覚的接地能力の限界を明らかにし,その改善の道筋を示す。
- GroundingMEは,識別,空間,限定,拒否という4つの側面からMLLMを評価する新たな基準である。
- 評価の結果,最先端のMLLMでも平均精度は45.1%にとどまり,特に拒否タスクでは顕著な課題が残ることが示された。
- テスト時スケーリングやデータ混合学習といった手法により,性能向上が確認された。
中東コホートにおける前立腺病理診断AIモデルの検証 [cs.CV]目的:前立腺癌のAI診断およびグリーソングレード評価における性能の検証
- 癌診断におけるAIの重要性が高まる中,グローバルなAI導入には多様な集団での検証が不可欠である。
- 既存の研究は欧米を中心としたコホートに偏っており,未検証の地域におけるAI性能の課題が存在する。
- 中東地域におけるAIモデルの性能を検証し,グローバルな公平性を促進することを目的とする。
- AIモデルと病理医間のグレード一致度は,病理医間のそれと同程度であった(Cohen's kappa = 0.801 vs. 0.799)。
- AIモデルとスキャナ間のグレード一致度は高く,低コストなコンパクトスキャナでも高い性能が確認された。
- 本研究は,中東地域初のデジタル病理データセットを提供し,グローバルなAI病理研究を支援する。
InsertAnywhere:4Dシーンジオメトリと拡散モデルを融合したリアルな動画オブジェクト挿入 [cs.CV, cs.AI]目的:現実的な動画オブジェクト挿入の実現
- 動画編集技術の発展は,エンターテイメントやコンテンツ制作において重要な役割を担う。
- 既存手法では,4Dシーンの理解不足やオクルージョン,照明処理の不備により,自然なオブジェクト挿入が困難。
- 4Dシーン理解と拡散モデルを組み合わせ,幾何学的に整合性のあるオブジェクト挿入を目指す。
- InsertAnywhereは,4D認識によるマスク生成モジュールと拡散モデルを組み合わせることで,高精度なオブジェクト挿入を実現。
- 照明効果を含む局所的な変化も合成可能であり,現実世界に近い動画生成に貢献。
- 新設した合成データセットROSE++を活用し,教師あり学習を可能にし,既存モデルを大きく上回る性能を実証。
適応共分散と四元数集中型ハイブリッド誤差状態EKF/UKFによる視覚慣性オドメトリ [cs.RO, cs.CV]目的:無人航空機(UAV)向けの,環境変化に強く,センサー信頼性を動的に評価可能な視覚慣性オドメトリ(VIO)手法
- UAVの自律飛行には,高精度でロバストな自己位置推定が不可欠である。
- 従来のVIOシステムは,環境条件やセンサーノイズに弱く,精度が低下しやすい。
- 本研究は,計算コストを抑えつつ,より高精度で信頼性の高い自己位置推定を実現する。
- 提案手法は,EuRoC MAVデータセットを用いた実験で,困難な条件下での位置精度を平均49%向上させた。
- また,ESKFベースの手法と比較して,回転精度を平均57%向上させた。
- フルSUKF実装と比較して,計算コストを約48%削減しつつ,同等の精度を達成した。
ファウンデーションモデルの事前知識が,特徴空間における物体への注目度を高める(ソースフリー物体検出) [cs.DC, cs.CV]目的:ソースフリー物体検出における物体への注目度向上
- 画像認識技術は,自動運転やロボット工学など幅広い分野で不可欠であり,その性能向上が求められている。
- ソースフリー物体検出では,ドメイン間のずれが特徴表現の精度を低下させ,背景への誤検出を引き起こしやすい。
- 本研究は,特徴空間自体を強化することで,ドメインずれの影響を抑制し,より信頼性の高い物体検出を目指す。
- 提案手法FALCON-SFODは,ファウンデーションモデルの汎化能力を活用し,特徴空間の正則化を行うことで,物体への注目度を高める。
- 空間Prior-Aware Regularization (SPAR)により,前景領域に焦点を当てた構造化された活性化を促進する。
- Imbalance-aware Noise Robust Pseudo-Labeling (IRPL)により,前景・背景の不均衡な状況下での学習のロバスト性を向上させる。
PathBench-MIL:組織病理学における多インスタンス学習のための包括的AutoMLおよびベンチマークフレームワーク [eess.SY, cs.SY, cs.CV, cs.LG, cs.NE, cs.SE, q-bio.TO]目的:組織病理学における多インスタンス学習の自動化とベンチマーク
- 近年,病理画像を用いた診断支援が注目されており,AI技術の活用が期待されている。
- 多インスタンス学習は複雑な問題設定であり,モデル選択や設定が困難である。
- 本研究は,多インスタンス学習パイプラインの自動化と標準化を目指す。
- PathBench-MILは,前処理,特徴抽出,MIL集約を含むエンドツーエンドのパイプラインを自動化する。
- 数十種類のMILモデルと特徴抽出器の再現性のあるベンチマークを提供する。
- 可視化ツール,統合設定システム,モジュール式拡張性により,迅速な実験と標準化を可能にする。
ロバスト-R1:強靭な視覚理解のための劣化を考慮した推論 [cs.CV, cs.AI]目的:視覚劣化に対するロバスト性を高めるための推論フレームワーク
- 現実世界の視覚データはノイズや劣化を含むため,実用的な視覚理解システムにはロバスト性が不可欠である。
- 既存のマルチモーダル大規模言語モデルは,視覚劣化に対して脆弱であり,信頼性が低下する可能性がある。
- 視覚劣化を明示的にモデル化し,ロバストな推論を可能にすることで,この問題を解決する。
- ロバスト-R1は,劣化を考慮した推論基盤を学習するための教師ありファインチューニング,劣化パラメータの正確な認識のための報酬駆動アラインメント,および劣化強度に応じた動的な推論深度のスケーリングを統合している。
- 11Kの特殊なデータセットを導入し,現実的な劣化を合成し,劣化パラメータ,知覚影響,元の意味推論チェーン,および結論を結びつける構造化チェーンで注釈を付けている。
- R-Benchにおける実世界劣化ベンチマークにおいて,ロバスト-R1は既存の汎用およびロバストなベースラインを上回り,MMMB,MMStar,RealWorldQAにおいて優れた劣化防止性能を維持している。
FLEG:任意の視点からの言語埋め込みガウススプラッティング [cs.CV]目的:言語埋め込み3Dガウスの再構成
- 3Dシーンの理解と再構成は,ロボット工学やVR/ARなどの応用において重要である。
- 既存手法は,固定された入力視点や3D訓練データの不足により,汎用性に課題があった。
- 大規模な動画データを用いて,3Dアノテーションなしで2Dから3Dへのリフティングを実現する。
- FLEGは,任意の疎または密な視点から,フィードフォワード方式で言語埋め込み3Dガウス表現を効率的に再構成する。
- 本手法は,幾何学的な正確性,高忠実度の外観,言語と整合性の取れた意味を同時に生成する。
- 様々な関連タスクにおいて,既存手法を上回る性能を示す。
多様な服装の人物の3Dメッシュ復元:単一画像からのClothHMR [cs.CV, cs.AI]目的:多様な服装の人物の3Dメッシュ復元
- 3Dデータは重要なマルチメディア情報であり,3D人体メッシュ復元技術の発展が求められている。
- 既存手法はタイトな服装の人体を対象としており,多様な服装,特にゆったりとした衣服下での形状・姿勢推定が課題である。
- 衣服の影響を軽減し,汎化性能を高めることで,多様な服装の人体の3Dメッシュを正確に復元することを目指す。
- ClothHMRは,衣服のシルエットにフィットするように衣服を調整する「衣服テーラリング(CT)」モジュールと,大規模な基礎モデルに基づいたメッシュ復元(MR)モジュールで構成される。
- CTモジュールは,人体セマンティック推定とエッジ予測により衣服を調整し,MRモジュールは3D人体メッシュの初期パラメータを最適化することで正確な復元を実現する。
- 実験結果から,ClothHMRはベンチマークデータセットや実環境画像において,既存の最先端手法を大幅に上回る性能を示すことが確認された。
G3Splat:幾何学的に整合性の高い汎用ガウススプラッティング [cs.CV]目的:3Dガウススプラッティングにおける幾何学的整合性の確保
- リアルタイムレンダリングや新規視点合成において,3Dシーンの表現方法として重要性が増している
- 既存手法は視点合成の損失関数に依存しており,幾何学的に意味のあるスプラットの再現が困難である
- 幾何学的制約を導入することで,汎用的なスプラッティングのための幾何学的に整合したシーン表現を学習する
- G3Splatは,幾何学的整合性の高い再構成,相対ポーズ推定,新規視点合成において最先端の性能を達成した
- RE10Kデータセットで学習し,ScanNetデータセットにおいて優れたゼロショット汎化性能を示した
- 特に,幾何的復元と相対ポーズ推定の両方において,従来の技術を大幅に上回る性能を実証した
ノイズ除去が逆効果となる場合:最新の医療音声認識システムに対する音声強調の効果に関する体系的な研究 [cs.RO, cs.SD, cs.AI, cs.LG, eess.AS]目的:最新の医療音声認識システムにおける音声強調の効果
- 音声認識技術は,医療現場での記録作成や診断支援に不可欠であり,その精度向上は重要な課題である。
- 従来の音声認識システムではノイズ除去が有効であったが,大規模データで学習された最新モデルでは効果が不明確である。
- 最新の音声認識システムにおいて,ノイズ除去が性能に及ぼす影響を明らかにすること。
- 最新の音声認識システムは,ノイズに対する内部的な頑健性を有しており,音声強調処理によって性能が低下することが示された。
- 実環境のノイズを含む音声データを用いることで,音声強調処理が必ずしも有効ではないことを体系的に検証した。
- 医療現場での音声記録において,ノイズ除去処理は計算資源の浪費だけでなく,転写精度の低下につながる可能性がある。
様々な中枢神経系腫瘍タイプと撮像時期に対応するFLAIR高信号領域セグメンテーション統合モデル [cs.CV, cs.AI]目的:様々な中枢神経系腫瘍タイプと撮像時期におけるFLAIR高信号領域の自動セグメンテーション
- 脳腫瘍の診断,治療計画,経過観察にはFLAIR画像が不可欠であり,正確な腫瘍容積評価が重要である。
- 腫瘍タイプや撮像時期によってセグメンテーションモデルを個別に開発する必要があり,汎用性の欠如が課題である。
- 異なる腫瘍タイプや撮像時期に適用可能な,汎化性能の高いセグメンテーションモデルを開発し,臨床応用を促進する。
- 統合モデルは,術前髄膜腫で平均Dice係数88.65%,術前転移性腫瘍で80.08%を達成した。
- BraTSデータセットの術前および術後グリオーマ,低悪性度グリオーマにおいても高いセグメンテーション性能を示した。
- データセット固有のモデルと同等の性能を維持しつつ,腫瘍タイプや撮像時期に依存しない汎化性能を実現した。
RoomEditor++:高品質な家具合成のためのパラメータ共有拡散アーキテクチャ [cs.CV]目的:高品質な家具合成のための拡散アーキテクチャ
- 内装デザインやEC分野での応用が期待される家具合成技術の重要性。
- 既存手法では,背景との整合性を保ちつつ高精細な家具合成が困難であるという課題。
- 家具と背景の自然な統合を実現し,家具合成技術の精度向上を目指す。
- RoomBench++という大規模なベンチマークデータセットを公開した。
- パラメータ共有による二重拡散バックボーンを持つRoomEditor++を提案した。
- 提案手法が最先端の手法よりも優れた性能を示すことを実験的に確認した。
3One2:二重経路ビデオスナップショット圧縮イメージングにおけるワンホット変調のためのワンステップ回帰とワンステップ拡散 [cs.CV]目的:二重経路ビデオスナップショット圧縮イメージングにおけるワンホット変調を用いた高精度な動画再構成
- 動画の圧縮は,通信や保存容量の効率化に不可欠であり,多様な応用分野で重要性が増している。
- 従来のランダムバイナリ変調では,時間的エイリアシングが発生し,再構成品質が低下するという課題があった。
- ワンホット変調の潜在能力を最大限に引き出し,時間的エイリアシングを解消することで,高品質な動画再構成を実現する。
- 提案手法は,ワンホット変調の特性を利用し,再構成タスクを生成的な動画インペインティング問題として定式化した。
- ワンステップ回帰による初期化とワンステップ拡散による洗練を組み合わせた新しいフレームワークを導入し,従来の拡散法における課題を克服した。
- 二重光学経路をハードウェアレベルで実装することで,ワンホット変調による空間劣化を緩和し,インペインティングされた動画の品質を向上させた。
医療画像AIコンテストにおける公平性の欠如 [cs.RO, cs.CV]目的:医療画像AIのベンチマークコンテストにおける公平性の評価
- 医療画像AI開発において,性能評価は重要な役割を担い,進歩を促進する。
- 既存のベンチマークが,臨床現場の多様性や再利用性を十分に反映していない。
- ベンチマークの公平性を評価し,臨床応用との乖離を明らかにすること。
- 241の画像解析コンテストを分析した結果,データセットの構成に地理的,モダリティ,問題タイプに関する偏りが存在することが判明した。
- 多くのデータセットがアクセス制限やライセンスの曖昧さにより,再現性や長期的な再利用が制限されている。
- ベンチマークの現状には公平性の限界があり,リーダーボードでの成功が臨床的妥当性と必ずしも一致しないことが示唆された。
MAD-OOD:外来マルウェアの検知と分類のための深層学習クラスタ駆動型フレームワーク [cs.CR, cs.AI, cs.CV, cs.LG]目的:外来マルウェアの検知と分類
- マルウェアは日々進化し,既存のセキュリティ対策を回避するため,その検知は重要である。
- 多型・変異型マルウェアの亜種により,同一ファミリー内でも多様性が大きく,検知が困難である。
- 未知のマルウェアファミリーに対しても高い検知性能を実現し,実用的なセキュリティ対策に貢献する。
- 本研究で提案するMADOODは,ガウス判別分析に基づいたクラス条件付き球面決定境界を用いることで,外来マルウェアを効果的に検知する。
- クラスタベースの予測,改良された埋め込み表現,教師あり分類器の出力を統合することで,分類精度を向上させている。
- ベンチマークデータセットでの評価により,MADOODが最先端の外来マルウェア検知手法を大幅に上回ることが示された。
HeadHunt-VAD:MLLMにおけるロバストな異常検知ヘッドの探索によるチューニングフリーなビデオ異常検知 [cs.CY, cs.CV]目的:ビデオ異常検知のための,チューニング不要なパラダイム
- ビデオ監視システムの自動化には,異常事象の正確かつ迅速な検知が不可欠である。
- 従来の異常検知は,大量のラベル付きデータや高い計算コストを必要とする。
- 大規模言語モデルを活用しつつ,テキスト生成による情報損失を回避し,より微妙な異常を捉える。
- HeadHunt-VADは,凍結されたMLLM内のロバストな異常検知ヘッドを直接探索する新しいパラダイムである。
- 識別モジュールは,顕著性と安定性の多基準分析により,一貫して識別可能なヘッドのスパースなサブセットを特定する。
- 2つの主要なベンチマークにおいて,既存のチューニングフリー手法を上回り,実用的な異常検知ソリューションの有効性を示す。
再帰的にバランスの取れた選択順序の公平性の比較 [cs.GT]目的:分割不可能な資源の配分における公平性
- 資源配分は経済学,政治学など幅広い分野で重要であり,公平な配分が求められる。
- 既存の選択順序では,公平性の指標が必ずしも最適化されず,配分結果に不満が生じる場合がある。
- 再帰的にバランスの取れた選択順序の公平性を評価し,より良い配分方法を提示すること。
- 再帰的にバランスの取れた選択順序は,他の選択順序と比較して,平等主義的厚生の観点で価格が等しいことが示された。
- 最も良い近似マクシミンスhare(MMS)保証は,最初のラウンドで最後に選択したエージェントに,以降のラウンドで最初に選択させることで得られる。
マンモグラフィ画像登録のための解剖学的ランドマークを含む新しいベンチマークデータセットMGRegBench [cs.CV, cs.AI]目的:マンモグラフィ画像登録のためのベンチマークデータセット
- 乳がんの進行追跡など,臨床応用には正確なマンモグラフィ画像登録が不可欠である。
- 公開データセットと標準化されたベンチマークが不足し,研究間の比較が困難であった。
- 手動アノテーション付きの大規模データセットを提供し,公平な比較と今後の研究を促進すること。
- MGRegBenchは,5,000組以上の画像ペアと,100組の手動ランドマーク・セグメンテーションマスクを含む,大規模な公開2D登録データセットである。
- 古典的手法から最新の深層学習手法まで,多様な登録方法をMGRegBenchを用いて比較評価した。
- データセットとコードを公開することで,今後の研究の基礎となるリソースを確立した。
タイプB大動脈解離に対するスリムUNETRを用いた半教師あり3Dセグメンテーション [cs.CV]目的:タイプB大動脈解離における大動脈構造の3Dセグメンテーション
- 医療画像におけるマルチクラスセグメンテーションは,診断と治療計画において重要な役割を担う。
- 3Dデータのような医学的画像データの正確なラベリングは,時間とコストがかかる。
- ラベリングされたデータとラベルなしデータを活用し,高精度なセグメンテーションを実現する。
- 本研究では,マルチ出力モデルに対応した半教師あり学習法を提案した。
- 提案手法は,データ拡張として回転やフリップを利用し,モデルの確率的な性質に依存しない。
- これにより,特に別個のセグメンテーションを行うアーキテクチャへの汎用的な適用が可能となる。
自己教師あり重み付き画像誘導による定量的MRI超解像 [cs.CV]目的:定量的MRIの超解像化手法
- 組織特性の客観的評価を可能にする定量的MRIだが,長時間の撮像時間により臨床応用が限られている。
- 定量的MRIの超解像化には高解像度参照画像が必要であり,その取得は負担が大きい。
- ルーチンな撮像画像を用いて,参照画像なしで定量的MRIの超解像化を実現すること。
- 本研究では,ルーチンな高解像度重み付きMRIを誘導として用いる自己教師ありフレームワークを提案した。
- 合成データを用いた実験により,T1強調画像はT1マップ,T2強調画像はT2マップの向上に貢献することが示された。
- 本手法は,1分の撮像で5分間の参照スキャンと同等の品質の超解像マップを生成し,臨床ワークフローへの定量的緩和時間の統合を可能にする。
StereoMV2D:ロバストなマルチビュー3D物体検出のための疎な時間的ステレオ拡張フレームワーク [cs.CV]目的:マルチビュー3D物体検出における検出精度と計算効率のバランス向上
- 自動運転における周辺環境認識の根幹技術であり,安全な走行に不可欠である。
- 単一フレームの2D検出では深度情報の曖昧さが残り,3D検出精度が制限されるという課題がある。
- 時間的ステレオモデリングにより深度認識を強化し,3D検出の精度向上を目指す。
- StereoMV2Dは,時間的ステレオ情報を統合することで,深度認識を向上させ,クエリ事前情報を洗練させる。
- 動的な信頼度ゲーティングメカニズムにより,フレーム間マッチングと外観の一貫性に基づき,時間的ステレオ情報の信頼性を評価する。
- nuScenesおよびArgoverse 2データセットでの実験により,計算コストを抑えつつ,優れた検出性能が確認された。
PathFLIP:汎用的な計算病理のための微細言語画像事前学習 [cs.CV]目的:全スライド画像の包括的な解釈
- 病理診断の精度向上に貢献する計算病理の重要性が高まっている
- ギガピクセル規模のスライド画像と空間的異質性が,マルチモーダル理解の課題となっている
- テキストと視覚的特徴の微細な対応付けを捉え,多様な臨床指示に対応すること
- PathFLIPは,スライドレベルのキャプションを領域レベルのサブキャプションに分解し,テキスト条件付きの領域埋め込みを生成することで,高精度な視覚言語のグラウンディングを実現する。
- 大規模言語モデルを活用することで,多様な臨床指示に従い,様々な診断状況に適応可能である。
- 既存の病理VLMsと比較して,少ない学習データで高い性能を示し,臨床現場での微細かつ指示に基づいた全スライド画像解釈への道を開く。
微分可能認知ステアリングによる生成的な人間-物体相互作用検出 [cs.CL, cs.CV]目的:人間と物体間のペアと,それらの相互作用の局所化
- 人間と物体の相互作用理解は,ロボット工学や画像認識など,様々な分野で重要である。
- 既存手法は限定的な動詞セットに依存し,未知または曖昧な相互作用への汎化が困難である。
- 大規模言語モデルの知識を活用し,汎化性能の高いHOI検出を実現すること。
- 提案手法GRASP-HOは,HOI検出を分類問題から生成問題へと再構築することで,閉じた世界の問題設定を克服する。
- 視覚情報と認知機能を結びつける軽量な認知ステアリングモジュール(CSC)を導入し,大規模言語モデルの推論能力を向上させている。
- 言語モデリング損失と補助的な分類損失を組み合わせたハイブリッドガイダンス戦略により,識別的なグラウンディングと生成的な柔軟性の両立を実現した。
指示型ビデオ編集のための領域制約による文脈内生成 [cs.SI, cs.CL, cs.CV, cs.MM]目的:指示型ビデオ編集における文脈内生成の精度向上
- ビデオ編集の自動化は,コンテンツ制作の効率化に不可欠であり,その需要は高まっている。
- 既存の文脈内学習では,編集領域の特定が難しく,編集領域と非編集領域の干渉が問題となっている。
- 編集領域と非編集領域の制約モデリングにより,より正確なビデオ編集を実現することを目指す。
- 提案手法ReCoは,ソースとターゲットのビデオを幅方向に連結し,共同ノイズ除去を行うことで,編集領域の精度を向上させる。
- 潜在的および注意正則化項を用いることで,編集領域と非編集領域の差異を強調し,干渉を抑制する。
- 大規模なビデオ編集データセットReCo-Dataを提案し,モデル学習を促進することで,様々な編集タスクで優れた性能を示す。
Bitbox:行動分析のための行動イメージングツールボックス [cs.CV, q-bio.NC]目的:ビデオからの行動の計算分析
- 近年のAI技術の発展により,ビデオから人間の行動を定量的に測定することが可能になった。
- 既存の方法やソフトウェアは専門知識を必要とし,仮説検証研究に直接役立つ行動測定が困難である。
- Bitboxは,AIベースのツールを研究者が容易に利用できるよう,その障壁を取り除くことを目指す。
- Bitboxは,再現性,モジュール性,解釈可能性を重視して設計されたオープンソースツールボックスである。
- 顔,頭部,身体の処理器を活用し,ビデオから高次の行動測定値を抽出するための標準化されたインターフェースを提供する。
- 臨床サンプルでテストと検証が実施されており,新たな測定値の追加も容易に行える。
ビデオベースの視線推定のための時空間特徴表現の学習 [cs.CV, cs.AI, cs.HC]目的:ビデオベースの視線推定における時空間特徴表現
- 視線推定は,ヒューマンコンピュータインタラクションや行動分析において重要な役割を担う技術である。
- 従来のモデルは,空間的および時間的な関係性の捉えにくさに起因する性能限界を抱えている。
- 本研究は,よりロバストなビデオベースの視線推定を実現するため,時空間特徴表現の改善を目指す。
- 提案手法ST-Gazeは,EVEデータセットにおいて,個人適応の有無にかかわらず,最先端の性能を達成した。
- チャンネル注意機構と自己注意機構を組み合わせることで,眼と顔の特徴を最適に融合することに成功した。
- フレーム内空間コンテキストの保持とモデリングが,早期の空間プーリングよりも優れていることが示された。
拡散ベース超解像におけるサンプリングハイパーパラメータの経験的研究 [cs.CV, cs.AI]目的:拡散モデルを用いた超解像におけるサンプリングハイパーパラメータの影響評価
- 画像処理分野において,高解像度画像の復元は重要な課題であり,様々な応用が期待される。
- 拡散モデルの性能はハイパーパラメータに大きく依存するが,適切な設定は容易ではない。
- 拡散モデルにおける条件付け手法の最適なハイパーパラメータを明らかにすること。
- FFHQデータセットを用いた実験の結果,条件付けステップサイズが性能に大きな影響を与えることが示された。
- ステップサイズの範囲[2.0, 3.0]が全体的に最良の結果をもたらすことが確認された。
- ステップ数よりもステップサイズの方が重要であることが,経験的に示された。
