arXiv雑要約
画像・音声 - 2025/12/17 公開
LCMem:堅牢な画像記憶検出のための汎用モデル [cs.CV]目的:画像記憶検出の信頼性向上
- 生成モデルの進化により現実的な画像生成が可能になったが,プライバシー保護の観点は未解明な部分が多い。
- 既存のプライバシー監査手法は,信頼性,定量評価,ドメイン間での汎用性に課題がある。
- 再識別とコピー検出を統合し,ドメイン横断的な記憶検出手法を開発する。
- 提案手法LCMemは,再識別タスクで最大16ポイント,コピー検出タスクで最大30ポイントの性能向上を達成した。
- 既存のプライバシーフィルタは,性能と頑健性に限界があることが示された。
- LCMemは,ドメイン横断的なプライバシー監査の新たな標準を確立し,信頼性の高い記憶検出を可能にする。
注意の共有に潜む落とし穴:注意相乗効果による複雑な非剛体画像編集の忠実性向上 [cs.CV]目的:複雑な非剛体画像編集における忠実性の向上
- 拡散モデルの画像編集は実用化が進むが,高度な編集には課題が残る。
- 既存の注意機構では注意の偏りが生じ,過剰または不十分な編集になる。
- 位置情報と意味情報を相乗的に活用し,編集量のバランスを制御する。
- 提案手法SynPSは,位置埋め込みと意味情報を動的に調整する注意相乗効果パイプラインを導入した。
- 編集の必要度を定量化する編集測定指標を新たに設計し,忠実性を向上させた。
- 公開および新規ベンチマークにおける実験により,SynPSの性能と忠実性が実証された。
スコアベースターボメッセージパッシングを用いたプラグアンドプレイ圧縮イメージング [cs.RO, cs.CV]目的:圧縮イメージングにおける画像再構成の精度向上
- 圧縮イメージングは,データ取得量を削減し,効率的な画像処理を実現する重要な技術である。
- 従来のプラグアンドプレイ法は,画像統計の複雑さを捉えきれず,特にアンダーサンプリング条件下で再構成性能が低下する。
- スコアベース生成モデルの利点を活かし,高速な再構成と高精度な画像復元を両立することを目指す。
- 提案手法STMPは,既存手法と比較して,性能と計算量のバランスが大幅に改善されている。
- 量子化された測定値に対しても,Q-STMPは1ビット量子化下でも高い堅牢性を示す。
- STMPとQ-STMPは,通常10回の反復で収束し,高速な処理が可能である。
ビデオ認識システムにおけるデータセット著作権監査:VICTOR [cs.CR, cs.CV]目的:ビデオ認識システムにおけるデータセット著作権監査手法
- ビデオ認識技術は,コンテンツ推薦やセキュリティ監視など,生活に広く浸透している。その発展には,高品質な学習データセットが不可欠である。
- 公開データセットの不正利用や著作権侵害が問題となっている。既存手法は画像領域に偏っており,ビデオデータの複雑さを考慮した監査は未開拓である。
- ビデオデータ特有の課題に対処し,高精度かつ隠蔽性の高いデータセット著作権監査手法を確立することを目指す。
- 提案手法VICTORは,ビデオ認識システムのデータセット著作権監査において,既存手法よりも優れた性能を示すことが実験的に確認された。
- わずかなサンプル改変(1%程度)によって,対象モデルの出力差を顕著に拡大し,データセット監査の基盤となる。
- 学習ビデオや対象モデルへの摂動に対して,VICTORの堅牢性が確認された。
S2D:スパース・トゥ・デンス キーマスク蒸留による教師なしビデオインスタンスセグメンテーション [cs.CV]目的:教師なしビデオインスタンスセグメンテーションの性能向上
- ビデオインスタンスセグメンテーションは,自動運転やロボティクスなど幅広い分野で重要である。
- 既存手法は合成データに依存しており,現実的な動きを正確にモデル化できていない。
- 本研究は,実データのみを用いて高品質なセグメンテーションを実現することを目標とする。
- 提案手法S2Dは,深層モーション事前知識を活用して高品質なキーマスクを特定する。
- スパース・トゥ・デンス蒸留により,キーマスクを基に正確なマスク伝播を学習する。
- 様々なベンチマークにおいて,既存の最先端手法を上回る性能を達成した。
A4-Agent:ゼロショットアフォーダンス推論のためのエージェント的フレームワーク [cs.CV, cs.RO]目的:ゼロショットアフォーダンス推論のためのフレームワーク
- 具現化されたAIにおいて,言語指示に基づいた物体とのインタラクション領域の特定は不可欠である。
- 既存モデルは高レベルな推論と低レベルなグラウンディングを結合し,注釈付きデータセットに依存するため,未知の物体への汎化が難しい。
- 本研究は,事前学習済みモデルを活用し,タスク固有のファインチューニングなしにアフォーダンス推論を行うことを目指す。
- A4-Agentは,アフォーダンス推論を3段階のパイプラインに分割する学習不要なエージェント的フレームワークである。
- Dreamer, Thinker, Spotterの3つのモジュールを組み合わせることで,既存の教師あり学習法を上回る性能を発揮する。
- 複数のベンチマークにおいて高い汎化性能を示し,実世界環境への適用可能性を実証した。
TACKトンネルデータ (TTD): 深層学習に基づくトンネル欠陥検出のためのベンチマークデータセット [cs.CV, cs.AI]目的:トンネル欠陥検出のためのベンチマークデータセット
- トンネルは交通インフラの重要な要素であり,安全性確保のため定期点検が不可欠である。
- 従来の目視点検は時間とコストがかかり,主観的判断が含まれるという課題がある。
- 深層学習を用いた自動トンネル点検を促進するための,ドメイン特化型データの不足を解消する。
- 本研究では,3種類のトンネル内装の画像データセットを公開し,ひび割れ,浸食,水漏れといった典型的な欠陥をアノテーションした。
- このデータセットは,教師あり,半教師あり,教師なしの深層学習手法による欠陥検出とセグメンテーションを支援する。
- テクスチャと施工技術の多様性により,トンネルタイプ間のモデルの汎化性能と転移学習の調査が可能となる。
SuperCLIP:単純な分類教師あり学習によるCLIPの強化 [cs.CV]目的:画像とテキストのよりきめ細かいアライメントの向上
- 画像とテキストを関連付けることで,多様なタスクへの汎化性能を高めることが重要。
- CLIPモデルはテキストのきめ細かい意味情報を十分に活用できていない点が課題。
- 分類による教師あり学習を導入し,CLIPの性能向上と効率化を目指す。
- SuperCLIPは,わずかな計算量増加で,ゼロショット分類,画像-テキスト検索,純粋な画像タスクの性能を向上させた。
- SuperCLIPは,元のWebデータと高品質な再キャプションデータ両方で効果を発揮し,テキストの教師信号の回復に貢献する。
- 分類による教師あり学習により,CLIPの小規模バッチでの性能低下を緩和することに成功した。
SignIT:イタリア手話認識のための包括的データセットとマルチモーダル分析 [cs.CV]目的:イタリア手話認識のためのデータセット及び分析
- 手話は,聴覚障害者にとって重要なコミュニケーション手段であるため,その自動認識は不可欠である。
- 既存の手話データセットは,規模が小さく,多様性に欠ける場合がある。
- イタリア手話の認識精度向上を目指し,大規模かつ多様なデータセットを提供する。
- SignITデータセットは,94種類のイタリア手話のクラスを含む644本のビデオで構成される。
- 最新の手話認識モデルをSignITデータセットで評価した結果,課題が残ることが示された。
- 手話のビデオに加え,手,顔,体の2Dキーポイントもデータセットに含まれている。
大規模臨床実践から創発するネイティブ知能:展開効率を備えた網膜基礎モデル [cs.CE, cs.CV]目的:網膜基礎モデルの開発と,その臨床現場での展開効率の向上
- 網膜疾患の早期発見・治療は失明予防において重要であり,AIによる診断支援のニーズが高い。
- 既存の網膜基礎モデルは,臨床的コンテキストに乏しい研究用データセットに依存し,汎用性に課題がある。
- 実臨床データから直接ネイティブ知能を学習し,低リソース環境でも利用可能なAIシステムを構築すること。
- 大規模な遠隔医療プログラムから得られた48万5980枚の眼底写真と診断レポートを用いて,網膜基礎モデルReVisionを開発した。
- ReVisionは,タスク固有の学習なしに,12の公開ベンチマークで平均AUROC 0.946,3つの臨床コホートで0.952のゼロショット疾患検出能力を示した。
- 眼科医33人へのプロスペクティブな読者調査では,ReVisionのゼロショット支援が全経験レベルで診断精度を14.8%向上させた。
言語学者は音声ベースの深層学習モデルを歓迎すべきである [cs.IR, cs.CL, cs.CG, math.OC, cs.CL, cs.SD, eess.AS, q-bio.NC]目的:深層学習モデルと言語学理論の架け橋
- 言語理解の進展は,人間と機械のコミュニケーションを円滑にする上で不可欠である。
- テキストベースLLMは,音声という重要な言語的特徴を捉えきれていない。
- 音声ベースの深層学習モデルの重要性を提示し,言語学との連携を促進すること。
- テキストベースLLMの限界を指摘し,音声データに基づくモデルの有用性を主張している。
- 言語学研究において,音声データ分析の重要性が高まる可能性を示唆している。
- 深層学習と言語学の融合による,言語理解の深化への期待が示されている。
DASP:時空間事前知識のドメイン適応を用いた自己教師あり夜間単眼深度推定 [cs.CL, eess.SY, cs.SY, cs.CV]目的:夜間における単眼深度推定の性能向上
- 自動運転やロボット工学において,周囲環境の3次元把握は不可欠である。
- 夜間や悪天候下では,視認性の低下により深度推定の精度が著しく低下する。
- 時空間事前知識を活用し,夜間における深度推定の信頼性向上を目指す。
- 提案手法DASPは,昼間の事前知識を活用する敵対的ブランチと,自己教師あり学習ブランチから構成される。
- 敵対的ブランチは,時空間特徴を抽出するためのSPLBを用いることで,テクスチャレス領域や動的オブジェクトによるぼかしを抑制する。
- Oxford RobotCarとnuScenesデータセットでの実験により,DASPが夜間深度推定において最先端の性能を達成することが示された。
CAPRMIL:文脈を意識したパッチ表現による多重インスタンス学習 [cs.CV, cs.AI]目的:多重インスタンス学習におけるパッチ表現の新たな手法
- 病理画像解析では,巨大な画像サイズとピクセルレベルのアノテーション不足から,弱学習が標準的なアプローチとなっている。
- 既存の多重インスタンス学習は,複雑なアテンション機構に依存し,計算コストが高いという課題がある。
- 文脈情報を考慮したパッチ表現を学習することで,効率的かつ高精度な病理画像解析を実現することを目指す。
- CAPRMILは,アテンション機構を必要とせず,線形的な計算量で文脈情報を注入することで,効率的な学習を実現した。
- 複数の病理画像ベンチマークにおいて,最新の性能と同等の結果を達成し,学習パラメータ数や計算量を大幅に削減した。
- 集約前のインスタンス表現の学習が,効率的かつスケーラブルな全スライド解析に有効であることを示した。
HiFi-Portrait:高忠実度マルチ顔融合によるゼロショットのID保持型ポートレート生成 [cs.CV]目的:高忠実度マルチ顔融合によるID保持型ポートレート生成手法
- 近年の拡散モデルの発展により,ID保持型ポートレート生成技術が注目されている。個人識別と画像生成の融合が重要視されている。
- 複数枚の参照画像を用いる場合,既存手法では生成画像の品質が低下し,顔属性の精密な制御が困難となる課題がある。
- 複数の参照画像を統合し,高忠実度かつ制御可能なID保持型ポートレート生成を実現することを目的とする。
- 提案手法HiFi-Portraitは,顔特徴抽出と3Dランドマーク生成により,IDと属性情報を高精度に捉える。
- HiFi-Netを用いて,複数の顔特徴をランドマークに合わせて融合することで,IDの忠実性と顔の制御性を向上させている。
- 実験結果から,HiFi-Portraitが既存の最先端手法を上回り,顔の類似性と制御性に優れることが示された。
タスク適応型Transformerによるオールインワン医療画像復元 [cs.CV]目的:複数の医療画像復元タスクを同時に対処可能なモデルの性能向上
- 医療画像は診断や治療に不可欠であり,高品質な画像復元技術の確立が重要である。
- 複数のタスクを単一モデルで処理する場合,タスク間の干渉や学習の偏りが問題となる。
- タスク固有の重み付けと損失バランス調整により,タスク間の干渉と学習の偏りを軽減する。
- 提案手法TATは,PET合成,CTノイズ除去,MRI超解像の3つの医療画像復元タスクで最先端の性能を達成した。
- TATは,タスク固有の設定とオールインワンの設定の両方において,優れた結果を示した。
- タスク適応的な重み生成と損失バランス調整が,効果的な性能向上に貢献している。
CLNet:クロスビュー対応がより強力なジオロケーションを実現する [cs.CV, cs.AI]目的:クロスビュージオロケーションの精度向上
- 都市計画や自動運転など,位置情報に基づく多様な応用が期待されており,その重要性は高い。
- 既存手法は,空間的な対応関係を明示的にモデル化できておらず,正確な位置特定が困難である。
- 異なる視点からの画像間のセマンティックおよび幾何学的なギャップを埋め,位置特定精度を向上させる。
- 提案手法CLNetは,潜在的な対応場を用いてクロスビュー特徴を空間的に整列させるニューラル対応マップ(NCM)を導入した。
- CLNetは,MLPベースの変換を用いて特徴量を異なる視点間で再マッピングする非線形埋め込み変換器(NEC)と,学習された空間的手がかりにより情報のある特徴チャンネルを再重み付けするグローバル特徴再調整(GFR)モジュールを組み合わせる。
- 4つの公開ベンチマークにおいて,CLNetは最先端の性能を達成し,高い解釈性と汎用性を示した。
FoodLogAthl-218:食事管理アプリを用いた現実世界の食品画像データセットの構築 [cs.CV, cs.MM]目的:現実世界の食事記録から構築された食品画像データセット
- 食事管理アプリの普及に伴い,食品画像認識の重要性が高まっている。
- 既存のデータセットはWebクローリング画像が多く,現実の食事写真とは異なる。
- ユーザーが投稿した実際の食事写真に基づいたデータセットを構築すること。
- FoodLogAthl-218データセットは218種類の食品カテゴリ,6,925枚の画像を含む。
- 本データセットは,従来のデータセットと比較して,より多様な画像と自然な分布を提供する。
- 分類ベンチマークに加え,ユーザーログの時系列に沿ったファインチューニングと,文脈を考慮した多皿分類タスクを導入した。
接点エネルギーによる正則化を用いた逆障害物散乱 [math.NA, cs.GR, cs.NA, math.DG]目的:三次元空間における逆散乱問題の解法
- 障害物検出は,医療診断や非破壊検査など,幅広い分野で重要である。
- 逆散乱問題は,解が一意に定まらない不適切問題であることが多い。
- 正則化手法を用いて,解の安定化と高精度な再構成を目指す。
- 接点エネルギーをTikhonov正則化項として導入することで,問題の適切な設定を実現した。
- 正則化された問題の解の一意性と,ノイズレベル減少に伴う解の収束性を示した。
- 反復正則化Gauss-Newton法に基づく再構成アルゴリズムの有効性を数値実験で確認した。
LLM駆動による知識拡張を用いた多重様式がん生存予測 [cs.CV]目的:多重様式データに基づくがん生存予測の精度向上
- がん治療の個別化医療実現には,正確な生存予測が不可欠である。
- 高次元で冗長なデータから特徴を抽出,異なる様式を整合させるのが課題。
- 専門家のレポートと予後に関する知識を統合し,予測精度を向上させる。
- 本研究で提案するKEMMは,専門家レポートと予後背景知識を活用することで,既存手法を上回る性能を達成した。
- KECMアテンションモジュールにより,冗長な様式データから生存に関わる重要な特徴に焦点を当てることが可能となった。
- 5つのデータセットでの実験により,KEMMの有効性が実証された。
TUMTraf EMOT:交通シナリオ向けイベントベース多物体追跡データセットとベースライン [cs.CV]目的:交通シナリオにおけるイベントベース多物体追跡のためのデータセットおよびベースライン
- ITS分野において,安全性向上や自動運転実現のため,高精度な物体追跡が不可欠である。
- 従来のフレームベースカメラでは,暗所や高速移動条件下で性能が低下する課題がある。
- イベントカメラの特性を活用し,フレームベースカメラの課題を克服する研究が求められている。
- 新たなイベントベースITS向けデータセット「TUMTraf EMOT」を公開した。
- このデータセット上で,検出に基づく追跡ベンチマークを構築し,特徴抽出器を開発した。
- 提案手法は,高い追跡性能を達成し,イベントベースビジョンの有効性を示した。
FakeRadar:未知のディープフェイク動画を検出するための偽造外れ値探索 [cs.CV, cs.AI]目的:未知のディープフェイク動画検出のためのフレームワーク
- ディープフェイク技術の進化は,社会に深刻な影響を及ぼす可能性があり,検出技術の重要性が増している。
- 既存の検出手法は,既知の偽造パターンに依存し,未知の偽造技術への対応が課題となっている。
- 未知の偽造パターンにも対応可能な,汎化性能の高いディープフェイク検出手法を開発すること。
- FakeRadarは,大規模な事前学習モデルを用いて特徴空間を探索し,リアル動画,既知の偽造動画,未知の操作との分布のずれを明示的に強調する。
- Forgery Outlier Probingにより,推定されたサブクラスターの境界付近に外れ値サンプルを合成し,未知の偽造アーティファクトをシミュレーションする。
- Outlier-Guided Tri-Trainingは,提案された外れ値駆動型コントラスト学習と外れ値条件付きクロスエントロピー損失を用いて,検出器を最適化する。
深層音楽転写モデルにおける音響・音楽的バイアスの体系的な分析 [cs.SD, cs.LG]目的:深層音楽転写モデルにおける音響的・音楽的なバイアスの影響
- 音楽転写は音楽情報処理の重要な課題であり,作曲,教育,検索などへの応用が期待されている。
- 既存の音楽転写モデルは特定の音楽ジャンルやデータセットに偏っており,汎化性能が課題となっている。
- 本研究は,音楽転写モデルのバイアスを定量的に評価し,汎化性能向上のための指針を示す。
- 実験の結果,音響的および音楽的な分布シフトにより,音楽転写性能が低下することが確認された。
- 特に,ジャンル変化によるF1スコアの低下は14パーセントポイント,音響変化による低下は20パーセントポイントに達した。
- 音楽的に解釈可能な評価指標を用いることで,性能低下の要因をより詳細に分析することができた。
WorldPlay:リアルタイムインタラクティブなワールドモデリングのための長期的な幾何学的整合性 [cs.CV, cs.GR]目的:リアルタイムインタラクティブなワールドモデリングのための長期的な幾何学的整合性の実現
- 近年,3Dコンテンツ作成の需要が高まっており,リアルタイムでのワールドモデリング技術が重要視されている。
- 既存手法では,速度とメモリ消費量のトレードオフがあり,長期的な幾何学的整合性を維持することが困難である。
- 速度とメモリ効率を両立し,長期的な整合性を保ちながらリアルタイムなインタラクティブワールドモデリングを可能にすること。
- WorldPlayは,ストリーミングビデオ拡散モデルを用いて,速度とメモリの制約を克服し,リアルタイムインタラクティブなワールドモデリングを実現した。
- Dual Action Representation,Reconstituted Context Memory,Context Forcingという3つの主要な革新を取り入れることで,長期的な整合性を維持しつつ,高速な処理を可能にした。
- 720pのストリーミングビデオを24FPSで生成し,既存技術と比較して優れた整合性を示し,多様なシーンへの汎化性能も高い。
JMMMU-Pro:Vibe Benchmark Constructionによる画像ベースの日本語マルチ分野マルチモーダル理解ベンチマーク [cs.CL, cs.AI, cs.CV]目的:日本語マルチ分野マルチモーダル理解の評価
- 視覚情報とテキスト情報を統合的に理解するAIの性能評価が重要である。
- 既存のベンチマークでは,日本語の複雑な視覚・言語理解を十分に評価できない。
- 高品質な日本語画像ベースの質問応答ベンチマークを低コストで構築すること。
- JMMMU-Proは,画像とテキストを統合した新しいベンチマークとして構築された。
- オープンソースのLMM(大規模マルチモーダルモデル)は,JMMMU-Proにおいて著しい苦戦を見せた。
- Vibe Benchmark Constructionは,高品質なベンチマークを効率的に開発するための指針を提供する。
ビデオデータセットを画像へと蒸留 [cs.CV]目的:ビデオデータセットの効率的な蒸留
- ビデオデータ分析は,行動認識や監視システムなど,様々な分野で重要性が増している。
- 大規模なビデオデータセットは計算コストが高く,効率的な学習が困難である。
- ビデオデータセットを画像に変換することで,学習コストを削減し,性能を向上させる。
- 本研究では,ビデオの識別的な意味は単一のフレームに集約されることが多いという知見に基づき,Single-Frame Video set Distillation (SFVD) を提案した。
- SFVDは,ビデオを各クラスの代表的なフレームへと蒸留し,微分可能な補間により動画へと再構成する。
- 実験結果から,SFVDは既存手法を大きく上回り,MiniUCFにおいて最大5.3%の性能向上を達成した。
MuseCPBench:音楽コンテキスト維持を通じた音楽編集手法の経験的研究 [cs.DB, cs.DC, cs.SD, cs.AI]目的:音楽編集手法における音楽コンテキスト維持の評価
- 現代の音楽制作において不可欠であり,映画,放送,ゲーム開発など幅広い分野で活用されている。
- 既存研究では,編集時に維持されるべき音楽的要素(音楽コンテキスト)の維持評価が不十分である。
- 音楽コンテキスト維持能力の評価基準を確立し,既存手法の課題を明確にすること。
- 初の音楽コンテキスト維持評価ベンチマークMuseCPBenchを開発し,4つの音楽的要素と5つのベースライン手法を比較検討した。
- 音楽的要素,手法,モデルごとの体系的な分析により,現在の音楽編集手法における維持能力の課題を特定した。
- 本研究の結果は,より効果的かつ信頼性の高い音楽編集戦略の開発に役立つと考えられる。
AMD-HookNet++:ハイブリッドCNN-Transformer特徴量強化による氷河カルビングフロントセグメンテーションの進化 [cs.CV]目的:氷河セグメンテーションとカルビングフロントの特定
- 氷河の動態は,氷床の質量バランスや沿岸海面上昇に大きな影響を与えるため,監視が重要である。
- 従来のCNNは局所的な特徴抽出に優れる一方,長距離依存性を捉える能力に限界があった。
- 長距離依存性と局所的な詳細情報の両方を捉え,より正確な氷河カルビングフロントのセグメンテーションを実現する。
- AMD-HookNet++は,CaFFeデータセットにおいて,IoU 78.2%,HD95 1,318mを達成し,最先端の性能を示した。
- TransformerとCNNのハイブリッド構造により,カルビングフロントのセグメンテーションにおいて,従来よりも滑らかな輪郭を実現した。
- 空間的・チャネル的注意機構とピクセル対比型深層教師あり学習により,特徴表現を強化し,セグメンテーション精度を向上させた。
HE染色画像を用いたリンパ腫サブタイプ分類のためのマルチインスタンス学習モデルの多施設ベンチマーク [cs.CV, cs.AI]目的:リンパ腫サブタイプの分類
- リンパ腫の正確な診断は,適切な治療方針を決定する上で不可欠である。
- 従来の診断には高度な設備や専門知識が必要であり,診断の遅延につながる場合がある。
- HE染色画像から診断情報を抽出し,迅速かつ正確なリンパ腫サブタイプ分類を実現すること。
- 多施設データを用いたベンチマークデータセットを構築し,5つの病理モデルを評価した。
- 10x,20x,40xの倍率で80%を超える分類精度を達成したが,分布外データでは性能が低下した。
- 40xの倍率で十分な性能が得られ,さらなる高倍率化や倍率の組み合わせは効果がなかった。
多様な脳腫瘍に対するラジオミクス誘導サブタイピングと病変ごとのモデルアンサンブルによる適応的セグメンテーションパイプライン [cs.CV, eess.IV]目的:多様な脳腫瘍のセグメンテーション性能向上
- 脳腫瘍の正確なセグメンテーションは,診断,治療計画,予後予測において不可欠である。
- 脳腫瘍の種類は多岐にわたり,汎用的なセグメンテーション手法では十分な精度が得られない場合がある。
- 腫瘍のサブタイプを考慮し,病変ごとに最適なモデルを選択することで,セグメンテーション精度を向上させる。
- 提案パイプラインは,複数のBraTSチャレンジにおいて,トップレベルのアルゴリズムと同等の性能を達成した。
- ラジオミクス特徴量による腫瘍サブタイプ検出と,病変ごとのモデル選択が,セグメンテーションのロバスト性を高める。
- 本手法は,臨床現場での定量的腫瘍測定を可能にし,診断と予後予測を支援する可能性がある。
事前および事後不確実性を用いた歌声合成のロバストな学習 [cs.SD]目的:歌声合成モデルの学習過程における不確実性に基づく最適化
- 歌声合成は近年目覚ましい進歩を遂げているが,学習データが不足し,汎化性能が課題となっている。
- 歌声データは,音響データと比較して公開データセットが限られており,多様な歌唱スタイルに対応できない場合がある。
- データ不足による性能劣化を緩和し,特にデータが少ない条件下での歌声合成の品質向上を目指す。
- 提案手法では,敵対的学習に微分可能なデータ拡張を導入し,事前不確実性を高める。
- フレームレベルでの不確実性予測モジュールを組み込み,モデルが低信頼度セグメントにより多くの学習能力を割り当てられるようにする。
- OpencpopおよびOfuton-Pデータセットを用いた実験で,様々な側面で性能が向上することを確認した。
ViRC:推論チャンクを用いた視覚的交互型数学CoTの強化 [cs.CV]目的:マルチモーダル数学タスクにおける推論能力の向上
- LLMの推論能力向上にはCoTが有効だが,マルチモーダル分野,特に数学の問題に応用するには課題がある。
- 既存のMLLMは静止画像のみを利用し,推論中の動的な視覚情報の獲得を無視している。
- 人間の問題解決パターンを模倣し,視覚情報とテキスト情報を効果的に統合することで,推論能力を高める。
- ViRCフレームワークは,問題を論理的なノードに分解し,人間のような段階的な推論を模倣する。
- CRUXデータセットは,複数の推論経路におけるCRUを明示的に注釈したもので,モデルの学習を支援する。
- ViRC-7Bモデルは,複数の数学ベンチマークにおいてベースラインと比較して平均18.8%の性能向上を達成した。
歌声合成への言語モデルの適応 [cs.SD]目的:歌声合成における言語モデルの適応
- 近年,音声関連技術が多様化し,統一的なモデルの必要性が高まっている。
- 大規模事前学習済み言語モデルの汎化性能は,歌声合成のような特定のタスクで未解明な点が多い。
- 歌声合成において,言語モデルの適応により,高品質な歌声合成を目指す。
- 1.7BパラメータのTTS事前学習済み言語モデルを,135時間の歌声コーパスACE-Opencpopを用いて歌声合成に適用した。
- 音楽記号と歌声波形のトークン化,多重ストリーム言語モデルによるトークン予測,条件付きフローマッチングに基づくメルスペクトログラム生成,メルtoウェーブボコーダーを用いた。
- 提案手法は歌声合成において良好な汎化性能を示し,既存の離散トークンベースの歌声合成モデルと同等の性能を達成した。
記号学的アイソトピーに基づいたデータセット構築による視覚的感情分析の強化 [cs.AR, cs.CV]目的:視覚的感情分析の性能向上
- 感情を伴う多様な画像が存在し,その理解は人間と機械にとって重要である。
- 十分なデータ不足と感情要素の特定困難が,視覚的感情分析の課題となっている。
- 既存データセットを拡張し,感情的に関連性の高い画像要素に焦点を当てるモデル構築を目指す。
- 提案手法で構築したデータセットで訓練されたモデルは,既存データセットで訓練されたモデルを凌駕する性能を示す。
- 特に,主要な視覚的感情分析ベンチマークにおいて,汎化性能の向上が確認された。
- 記号学的アイソトピーの概念をデータセット構築に組み込むことで,画像の感情的コンテンツに関する理解が深まった。
EVOLVE-VLA:環境からのフィードバックを用いた視覚-言語-行動モデルのテスト時学習 [cs.RO, cs.CV]目的:視覚-言語-行動モデルのテスト時学習による適応性向上
- ロボットの自律的な行動能力向上には,環境との相互作用を通じた継続的な学習が不可欠である。
- 従来のVLAモデルは,教師ありファインチューニングに依存しており,タスク固有のデモンストレーションが必要で,環境変化への適応が困難である。
- 本研究では,テスト時に環境からのフィードバックを利用することで,タスク固有のデモンストレーションなしにVLAモデルを適応させることを目指す。
- EVOLVE-VLAは,長期的タスクにおいて8.6%,1ショット学習において22.0%の性能向上を達成した。
- タスク固有のデモンストレーションなしで,未知のタスクに対して20.8%の成功率を達成し,従来のSFTモデル(0%)を上回った。
- エラーからの復旧や新しい戦略など,デモンストレーションには存在しない能力が出現した。
関節復元トランスフォーマー [cs.CV]目的:関節を持つ物体の3次元再構成
- ロボット工学やコンピュータビジョンにおいて,現実世界の物体を理解する上で重要。
- 既存手法は,計算コストが高いか,特定のカテゴリに限定されるという課題があった。
- 少ない画像情報から,汎用的に関節を持つ物体の3次元形状を再構成することを目指す。
- ARTは,関節を持つ物体を部品の集合として捉え,各部品の形状,テクスチャ,関節パラメータを予測する。
- 学習データに対する大規模評価の結果,既存手法を大きく上回り,最先端の性能を達成した。
- 再構成された形状は物理的に解釈可能であり,シミュレーションへの応用も容易である。
VASA-3D:単一画像からのリアルな音声駆動型ガウス頭部アバター [cs.CV, cs.AI]目的:単一画像からの3D頭部アバター生成
- メタバース等の仮想空間において,人間らしいアバターの重要性が高まっている。
- 単一画像から高精度な3D頭部アバターを生成することは依然として困難である。
- 音声に同期したリアルな表情を再現可能な3Dアバターの生成を目指す。
- VASA-3Dは,既存手法では困難であったリアルな3Dトーキングヘッドを生成し,没入感の高い体験を可能にする。
- VASA-1のモーション潜在空間を活用することで,2Dの高品質な表現を3Dへと転換することに成功した。
- 512x512解像度で,最大75FPSの自由視点動画をオンライン生成できる。
MMGR:マルチモーダル生成推論 [cs.CL, cs.CV]目的:生成モデルにおける推論能力の評価とベンチマーク
- 動画生成モデルの発展は,現実世界のシミュレーションに応用が期待されるため重要である。
- 既存の評価指標は知覚的な品質に偏っており,物理法則や論理的整合性といった推論能力の欠如を見過ごす。
- 物理,論理,空間,時間に関する推論能力を評価することで,生成モデルの弱点を明らかにする。
- MMGRは,物理,論理,3D/2D空間,時間といった5つの推論能力を評価するフレームワークである。
- Veo-3やSora-2などの主要なモデルを評価した結果,抽象的推論や長期的な空間計画において性能の差が明らかになった。
- 現在のモデルは知覚データに過度に依存し,グローバルな状態の一貫性や因果関係の正しさに課題があることが示唆された。
3D生成のためのネイティブかつコンパクトな構造化潜在表現 [cs.CV, cs.AI]目的:3D生成のための構造化された潜在表現の学習
- 3D生成技術は発展しているが,複雑な形状や詳細な外観を捉える表現が課題である。
- 既存の表現では,複雑なトポロジーを持つアセットや詳細な外観を捉えることが困難である。
- 複雑なトポロジーと詳細な外観を捉えるための新たな表現を提案し,生成品質の向上を目指す。
- 提案手法では,幾何学と外観を符号化する新しい疎なボクセル構造「O-Voxel」を導入した。
- O-Voxelに基づいたSparse Compression VAEは,高い空間圧縮率とコンパクトな潜在空間を実現している。
- 40億パラメータのフローマッチングモデルを用いた実験により,既存モデルを上回る幾何学と材質の品質を達成した。
CRISP:単眼ビデオと平面シーンプリミティブを用いたコンタクト誘導型リアルtoシム [cs.CV, cs.GR, cs.RO]目的:単眼ビデオからのシミュレーション可能な人間の動作とシーンの幾何形状の復元
- ロボット工学やAR/VRの分野において,現実世界のデータに基づいたシミュレーションは不可欠である
- 既存手法では,物理シミュレーションを考慮せず,ノイズの多い幾何形状を復元することが課題であった
- 人間の動作とシーンのインタラクションを正確にシミュレーションできる環境を構築することを目指す
- CRISPは,人間の姿勢とシーンの接触モデリングを活用し,隠れた幾何形状を復元する
- 本手法により,人間中心のビデオベンチマークにおけるモーション追跡の失敗率を55.2%から6.9%に大幅に低減した
- また,Soraで生成されたビデオを含む多様な動画で検証を行い,物理的に妥当なモーションと環境を生成できることを示した
視覚的トークン化と生成のための球状リー奇量子化 [cs.CV, cs.AI, cs.LG, eess.SP]目的:視覚的トークン化および生成における量子化手法
- 近年,大規模データに対応可能なパラメータ効率の良い非パラメトリック量子化が注目されている。
- 既存の量子化手法では,自己符号化器の学習に補助的な損失項が必要となる場合がある。
- 高対称性を持つリー奇格子に基づく量子化手法により,学習の簡素化と再構成・圧縮性能の向上を目指す。
- 提案手法である球状リー奇量子化($\Lambda_{24}$-SQ)は,既存のBSQと比較して,画像トークン化および圧縮タスクにおいて,より良好な再構成品質を達成した。
- $\Lambda_{24}$-SQは,BSQと同程度のビット数で,既存技術を上回る性能を示した。
- この改善は,最先端の自己回帰型画像生成フレームワークにも拡張される。
TimeLens:マルチモーダルLLMによるビデオの時間的グラウンディングの再考 [cs.CV, cs.AI, cs.CL, cs.MM]目的:ビデオの時間的グラウンディングの性能向上
- ビデオ理解において,時間的グラウンディングは重要な基盤技術である。
- 既存のビデオ時間的グラウンディングベンチマークの品質に課題があった。
- 信頼性の高い評価基準と高品質な学習データによる性能向上を目指す。
- 既存のベンチマークの信頼性不足が明らかになり,厳格な基準で再アノテーションされたTimeLens-Benchを提案した。
- 自動再アノテーションパイプラインにより,高品質な学習データセットTimeLens-100Kを構築した。
- TimeLensモデルは,オープンソースモデルの中で最先端の性能を示し,GPT-5やGemini-2.5-Flashなどのプロプライエタリモデルを上回る結果を得た。
MemFlow:一貫性と効率性を両立する長尺ビデオナラティブのための動的適応メモリ [cs.CV]目的:長尺ビデオ生成における内容の一貫性維持
- ビデオ生成技術は,エンターテインメントから教育まで幅広い分野で重要性が増している。
- 長尺ビデオ生成では,過去のフレームを参照する必要があるが,固定的な戦略では対応が困難である。
- テキストプロンプトに基づき,関連性の高い過去フレームを動的に選択し,一貫性を向上させる。
- MemFlowは,テキストプロンプトに基づきメモリバンクを動的に更新することで,ナラティブの一貫性を実現した。
- 関連性の高いトークンのみを活性化することで,生成効率を維持し,計算負荷を抑制した(ベースライン比7.9%の速度低下)。
- KVキャッシュとの互換性を保ちつつ,既存のストリーミングビデオ生成モデルに容易に適用可能である。
IPR-1:インタラクティブな物理推論器 [cs.AI, cs.CV, cs.LG]目的:人間のような物理的推論の獲得
- 環境との相互作用を通じて物理法則や因果関係を学習する点は,知能を持つエージェントの根幹である。
- 既存手法は,視覚的詳細に過剰適合し,物理法則や因果関係の本質を捉えきれていない。
- 視覚的差異の大きいゲーム環境下において,相互作用による学習を通じて物理的推論能力を獲得する。
- 提案手法IPRは,VLMのポリシーを強化することで,多様なゲームにおいて高い性能を発揮する。
- 学習に使用するゲーム数や相互作用ステップ数を増やすことで,性能が向上することが確認された。
- 未学習のゲームに対しても,ゼロショットで高い汎化性能を示すことが示された。
CRISTAL:静的LiDARスキャンにおけるニューラルレンダリングを用いたリアルタイムカメラ登録 [cs.CV, cs.GR]目的:静的LiDARスキャンにおけるリアルタイムカメラ登録手法
- ロボティクスやXRにおいて,正確なカメラ位置推定は信頼性の高いナビゲーションに不可欠である。
- 既存の視覚的手法は,ドリフトやスケール曖昧さ,フィデュシャルやループクロージャへの依存といった課題がある。
- 事前にキャプチャされた高精度LiDAR点群を用いて,ドリフトのない正確なカメラ位置推定を実現すること。
- 提案手法は,LiDAR点群から合成画像をレンダリングすることで,実画像との2D-3D対応付けを確立する。
- ニューラルレンダリングにより,合成画像と実画像間のドメインギャップを縮小し,特徴点マッチングの精度を向上させる。
- ScanNet++データセットにおいて,既存のSLAMパイプラインと比較して優れた性能を示す。
WAM-Flow: 離散フローマッチングによる並列粗指向微調整型モーションプランニング(自動運転向け) [cs.RO, cs.AI, cs.CV]目的:自動運転におけるエゴ車両の軌道計画
- 自動運転技術は,交通渋滞の緩和,事故の減少,移動の効率化に貢献し,社会に大きな利益をもたらす。
- 従来の軌道計画手法は,計算コストが高く,リアルタイム性に課題があり,複雑な環境への適応が難しい。
- 並列処理による効率的な軌道計画手法を開発し,安全かつ快適な自動運転を実現すること。
- WAM-Flowは,離散フローマッチングという新しいパラダイムを採用し,既存の自己回帰モデルや拡散モデルを上回る性能をNAVSIM v1ベンチマークで示した。
- 特に,1ステップ推論で89.1 PDMS,5ステップ推論で90.3 PDMSという高い閉ループ性能を達成した。
- この結果は,WAM-Flowがエンドツーエンドの自動運転において有望な手法であることを示している。
光学およびホログラフィー顕微鏡画像における自動花粉認識 [cs.CV, cs.LG]目的:光学およびホログラフィー顕微鏡画像における花粉粒子の検出と分類の改善と自動化
- 獣医学分野において,花粉の正確な同定はアレルギー診断や環境モニタリングにおいて重要である。
- 従来の画像解析では,花粉の多様性と背景の複雑さから,正確な自動認識が困難であった。
- 深層学習を用いて,低コストなホログラフィー顕微鏡画像でも高精度な花粉認識を実現すること。
- 光学画像において,YOLOv8sを用いた検出で91.3%のmAP50,MobileNetV3Lを用いた分類で97%の全体精度を達成した。
- ホログラフィー画像における初期性能は低かったが,データ拡張とバウンディングボックスの拡大により,検出性能を2.49%から13.3%に,分類性能を42%から54%に改善した。
- 深層学習技術とレンズレスデジタルホログラフィー顕微鏡の組み合わせによる画像分類の可能性を示した。
WAM-Diff:MoEとオンライン強化学習を用いたマスク拡散VLAフレームワーク - 自動運転向け [cs.RO, cs.AI, cs.CV]目的:自動運転のための軌跡生成
- 自動運転技術は,交通事故削減や移動の効率化に貢献する重要な分野である。
- 既存の自動運転システムは,複雑な環境への適応や安全性の確保が課題である。
- マスク拡散モデルの潜在能力を活用し,より安全かつ柔軟な軌跡生成を目指す。
- WAM-Diffは,マスク拡散モデルを用いて離散的な軌跡を反復的に洗練するVLAフレームワークである。
- NAVSim-v1で91.0 PDMS,NAVSim-v2で89.7 EPDMSという高い評価を得て,マスク拡散の有効性が示された。
- 本手法は,自己回帰型や拡散ベースのポリシーに代わる有望な選択肢となりうる。
深層学習による生成モデルを用いた,深度情報からの圧力分布の妥当性向上 [eess.IV, cs.CV, cs.LG]目的:病院用ベッドにおける体圧分布の妥当性向上
- 褥瘡予防やリアルタイムな患者評価において,体圧分布のモニタリングは不可欠である。
- 既存の方法では,体圧マップの予測が可能だが,物理的な妥当性に欠ける場合があり,臨床的な信頼性が制限される。
- 生成モデルと情報に基づいた潜在空間,重み最適化損失により,高精度かつ物理的に一貫性のある体圧推定を実現する。
- 提案手法は,ベースラインと比較して物理的な妥当性と性能を向上させている。
- BBDMとILSの組み合わせは,詳細なマップを生成するが,計算コストが高く,推論時間が長い。
- LBBDMは,競合する性能を持ちながら,より高速な推論を実現する。
汎用AIに基づく医療画像レジストレーションの高速化手法 [eess.SP, cs.NI, math.OC, cs.SY, eess.SY, quant-ph, cs.ET, eess.IV, cs.CV]目的:医療画像レジストレーションの効率化
- 医療診断や治療において,複数モダリティの画像情報を正確に統合することが重要である。
- 従来の非剛体レジストレーションは,パラメータ調整や計算コストが高く,臨床でのリアルタイム利用が困難である。
- タスク固有の再学習に依存せず,多様な状況に対応できる汎用的なレジストレーションフレームワークの確立。
- 本研究では,複数の画像モダリティと解剖学的領域に適用可能な,AI駆動型の3D非剛体レジストレーションフレームワークを提案する。
- 提案手法は,特定の解剖学的構造やモダリティに依存しないため,様々な臨床環境への統合が容易である。
- 実験により,提案手法が既存手法と比較して,計算効率と汎用性に優れることが示された。
WaveSim:気象・気候フィールドのためのウェーブレットに基づく多重尺度類似度指標 [quant-ph, cs.CC, eess.AS, cs.CL, physics.ao-ph, cs.CV, physics.data-an]目的:気象および気候分野における空間フィールドの類似度評価
- 気象・気候モデルの性能評価は,将来予測の精度向上に不可欠である。
- 従来の指標では,誤差の物理スケールや類似度の違いを特定することが困難である。
- 本研究は,多重尺度解析により,複雑なフィールドの類似度を詳細に評価することを目的とする。
- WaveSimは,ウェーブレット変換を用いてフィールドを多重尺度に分解し,エネルギー分布,空間シフト,パターン構造の3要素から類似度を評価する。
- 合成テストケースと実際の気候モデルの解析により,WaveSimの感度と有用性が確認された。
- WaveSimは,特定の尺度や要素に重み付けが可能であり,モデル間比較やモデル評価,予測システムの較正に利用できる。
