arXiv雑要約
画像・音声 - 2025/12/19 公開
PixelArena: ピクセル精度による視覚的知能のベンチマーク [cs.RO, cs.CV, cs.AI]目的:ピクセル精度による視覚的知能の客観的評価
- 画像生成AIの発展に伴い,その性能を正確に評価する必要性が高まっている。
- 既存のベンチマークは美的評価に偏りがちで,詳細な生成能力の評価が不十分である。
- 画像生成AIの細部生成能力を客観的に評価できるベンチマークの構築を目指す。
- 最新のGemini 3 Pro Imageは,ゼロショット設定で高精度なセマンティックマスクを生成する能力を示した。
- これは,従来の画像生成AIには見られなかった視覚的知能と,新しいタスクへの真の汎化能力を示すものである。
- 本研究は,マルチモーダルAI,推論,解釈可能性,ベンチマークに関する今後の研究に洞察を提供する。
思考の連鎖誘導フローマッチングによる意味理解型音声超解像:CogSR [cs.SD]目的:重度の低サンプリングレート録音に対する音声超解像技術
- デジタルアーカイブや法医学的音声復元において,低品質な音声からの情報復元は重要である。
- 既存の生成モデルは,十分な文脈がない場合に意味に基づかない幻覚的な音声を生成しやすい。
- 意味理解を基盤に,高精度な音声復元を可能とする技術を開発すること。
- CogSRは,大規模な音声言語モデルと思考の連鎖推論を統合することで,意味的なアンカーとして機能し,曖昧さを排除する。
- 修正されたフローバックボーンを用いることで,言語的に正確で現実的な高周波成分を合成し,精度の高い音声復元を実現する。
- 重度の劣化環境下においても,CogSRは高品質なレガシーおよび監視音声の復元において高いロバスト性を示す。
選択的伝播による軽量オールインワン動画復元:LaverNet [cs.CV]目的:動画復元のための軽量オールインワンネットワーク
- 動画の劣化は様々な原因で発生し,高品質な動画体験を阻害する。そのため,効率的な復元技術が重要である。
- 既存手法では,時間変化する劣化の影響を受けやすく,モデルが本来の動画内容に集中できない場合がある。
- 時間経過に伴う劣化の影響を軽減し,軽量なネットワークで高性能な動画復元を実現することを目指す。
- 提案手法LaverNetは,わずか362Kパラメータという軽量なネットワークでありながら,既存モデルと同等かそれ以上の性能を達成した。
- 時間的モデリングへの劣化の影響を軽減するため,劣化に依存しない特徴のみをフレーム間で選択的に伝播するメカニズムを導入した。
- この結果から,コンパクトなネットワークでも,強力なオールインワン動画復元が可能であることが示された。
UAV用尾根推定に基づくビジョンとレーザー測距融合局所化手法 [cs.CV]目的:UAVの局所化精度向上
- UAVを用いた目標追跡・計測は,迅速かつ正確な目標位置特定に有効。
- 長距離,小交差角,大傾斜角下では,最小二乗推定で多重共線性が問題。
- 限られた観測条件下での多重共線性を緩和し,ロバスト性を向上。
- 提案手法は,単一情報に基づく地上局所化アルゴリズムと比較して,より高い局所化精度を達成。
- 尾根推定の導入により,特に限られた観測条件下でのロバスト性が効果的に向上。
QUIDS:品質を考慮したインセンティブ駆動型モバイルクラウドセンシングにおけるマルチエージェント派遣システム [cs.DB, cs.CL, cs.CV]目的:非専用車両によるモバイルクラウドセンシングにおける情報品質の最適化
- 都市のスマート化において,交通や環境のモニタリング等の情報収集が重要性を増している。
- 既存手法では,センシングカバレッジ,信頼性,車両の動的な参加といった課題が相互に関連し,最適化が困難である。
- 品質を考慮したインセンティブメカニズムにより,低コストで高品質な都市モニタリングを実現することを目指す。
- QUIDSは,カバレッジと信頼性を統合的に評価する新たな指標である集約センシング品質(ASQ)を導入した。
- 実世界データを用いた評価により,QUIDSは非派遣シナリオと比較してASQを38%,最先端手法と比較して10%向上させることが示された。
- QUIDSは,地図再構成エラーを39〜74%削減し,低コストで高品質な都市モニタリングが可能となる。
ビジョン言語モデルの協調的なエッジ・サーバ推論 [cs.IR, cs.CV, cs.AI]目的:ビジョン言語モデルにおける通信コスト削減と推論精度維持
- 近年のビジョン言語モデルの発展は,画像とテキストを理解するAIの可能性を広げている。
- エッジデバイスからサーバへの画像送信は,通信コストが増大し,遅延を生む原因となる。
- 重要な画像情報を選択的に再送信することで,通信コストを削減し,精度を維持することを目指す。
- 提案手法は,サーバが全画像で推論を行い,注意機構を用いて関心領域を特定する。
- 最小エントロピーを用いて推論の確信度を評価し,必要に応じてエッジデバイスに詳細画像を要求する。
- 複数のビジョン言語モデルアーキテクチャで,通信コストの大幅な削減と推論精度の維持を実証した。
GMODiff:拡散事前知識を用いたワンステップゲインマップ洗練によるHDR再構成 [eess.SY, cs.SY, cs.CV]目的:HDR再構成のためのゲインマップ推定
- 現実世界の多様な照明条件を捉え,より自然な画像表現を可能にする技術として重要である。
- 既存手法では,HDR表現のダイナミックレンジの制限や計算コスト,内容の幻覚といった課題が存在する。
- 拡散モデルと回帰モデルの利点を組み合わせ,効率的かつ高品質なHDR再構成を実現することを目指す。
- 提案手法GMODiffは,既存の最先端手法と比較して優れた性能を示すことが実験的に確認された。
- GMODiffは,従来の拡散モデルベースの手法よりも100倍高速に処理を完了する。
- ゲインマップ駆動のワンステップ拡散フレームワークにより,幻覚を抑制しつつ構造精度を維持する。
EverybodyDance: 二部グラフに基づく複数キャラクターアニメーションにおける同一性対応 [cs.CV]目的:複数キャラクターアニメーションにおける同一性対応の正確性
- キャラクターアニメーションは,エンターテイメントや仮想現実など幅広い分野で重要であり,その品質向上は常に求められている。
- 複数キャラクターのアニメーションでは,キャラクターの入れ替わりが発生した場合,同一性対応の誤りが生じやすい。
- 参照フレームと生成フレーム間の正確な同一性対応を保証することで,複数キャラクターアニメーションの品質を向上させる。
- 本研究では,参照フレームと生成フレームのキャラクターをノードとする二部グラフを用いて,同一性対応をグラフ構造の指標として定式化し,学習時に最適化する。
- 提案手法EverybodyDanceは,Mask-Query Attentionを用いたエッジ重みを計算し,キャラクター間の親和性を定量化することで,同一性対応の正確性を高める。
- 実験結果から,EverybodyDanceが既存手法と比較して,同一性対応と視覚的な品質の両面で大幅な性能向上を達成することが示された。
ファクタライズビデオ生成:テキスト-ビデオ拡散モデルにおけるシーン構築と時間的合成の分離 [cs.CV]目的:テキストからビデオを生成する際の,シーン構築と時間的合成の分離
- 近年,テキストからビデオ生成の技術は発展しているが,複雑なシーンの生成や論理的な時間的指示への追従が課題である。
- 既存のモデルは,初期フレームの構築に問題があり,不自然な動きや矛盾した描写を引き起こしやすい。
- 本研究は,初期フレームの品質を向上させ,より自然で制御可能なビデオ生成を実現することを目指す。
- ファクタライズビデオ生成(FVG)パイプラインは,大規模言語モデル(LLM)によるプロンプトの修正,テキスト-画像モデル(T2I)による初期フレームの生成,ビデオモデルによる時間的合成の3段階で構成される。
- FVGは,T2V CompBenchベンチマークにおいて最先端の性能を達成し,VBench2においても大幅な改善を示した。
- また,ビジュアルアンカリングによりサンプリングステップ数を70%削減し,高速化を実現した。
聴くことによる翻訳:LLMへの音声モダリティ統合の有効性 [cs.CL, cs.AI, cs.SD]目的:音声翻訳の品質向上
- グローバル化の進展により,多言語間のコミュニケーション需要が拡大しているため。
- 従来の音声翻訳は,音声認識と機械翻訳の組み合わせであり,エラー伝播が課題となっている。
- 音声モダリティを直接統合したSpeechLLMの性能を検証し,改善点を見出す。
- 最新のSpeechLLM5機種と,既存の音声認識・機械翻訳システム16個を比較評価した。
- 広範な評価の結果,現状では従来のシステムの方が信頼性が高いことが示された。
- LLMの統合が音声翻訳の品質向上に不可欠であり,音声基盤モデルはLLMに劣るという結果が出た。
医療画像セグメンテーションのための適応型周波数領域アライメントネットワーク [cs.CV]目的:医療画像セグメンテーションにおけるドメイン適応
- 医療画像解析の精度向上は,疾患診断や治療計画において不可欠である。
- 高品質なアノテーションデータが不足しており,セグメンテーションの精度が制限されている。
- 周波数領域での特徴量アライメントにより,ドメイン間の知識転移を促進し,データ不足を克服する。
- 提案手法AFDANは,新規データセットVITILIGO2025において90.9%のIoUを達成した。
- また,既存手法を上回り,網膜血管セグメンテーションベンチマークDRIVEで82.6%の競争力のあるIoUを示した。
- AFDANは,周波数領域と空間領域の特徴量を統合することで,ドメイン間のセグメンテーション精度を向上させる。
ガウススプラットを用いた高忠実度な顔面形状とテクスチャの生成 [cs.CV, cs.AI, cs.GR]目的:顔面画像の集合から,高精度な3次元顔面モデルの生成
- 近年,3次元ニューラル表現が発展し,多様な応用が期待されている。
- 従来の3次元顔面モデル生成は,多数の画像や動画を必要とする場合が多い。
- 少ない画像枚数でも高精度な顔面モデルを生成し,既存のグラフィックスパイプラインに容易に組み込めるようにする。
- ガウススプラッティングを活用することで,11枚の画像から中立的なポーズの顔面形状を再構築することに成功した。
- 生成された3次元形状は,標準的なグラフィックスパイプラインで利用可能であり,多様なアセットへの適用が容易である。
- ライティングの影響を分離することで,高解像度なアルベドテクスチャを取得し,標準的なパイプラインで利用できる。
BrepLLM:大規模言語モデルによるネイティブな境界表現の理解 [cs.CV]目的:3D境界表現モデルの解析と推論
- 3Dモデルの活用は,設計,製造,シミュレーションなど幅広い分野で重要性が増している。
- 既存の大規模言語モデルは,複雑な幾何・トポロジー情報を有する3D境界表現モデルの直接処理が困難である。
- 構造化された3D幾何と自然言語間のモダリティギャップを埋め,LLMがBrepデータを理解することを可能とする。
- BrepLLMは,適応的なUVサンプリングと階層型BrepEncoderにより,Brepデータをグラフ表現に変換し特徴を抽出する。
- 事前学習と多段階LLMファインチューニングを通じて,Brep表現とテキスト埋め込みのアライメントを実現した。
- 3Dオブジェクトの分類とキャプション生成タスクにおいて,最先端の結果を達成した。
CountZES:ゼロショット例示選択による数え上げ [cs.CV]目的:複雑なシーンにおける物体数え上げ
- 画像認識技術は,監視,自動運転,医療診断など幅広い分野で不可欠である。
- 未学習カテゴリの物体を数えるゼロショット数え上げは,既存手法の精度が低い。
- テキスト情報のみから正確な例示を選択し,数え上げ精度を向上させる。
- CountZESは,検出アンカー,密度誘導,特徴コンセンサスという3段階の例示選択を行う。
- 既存手法よりも,自然画像,航空画像,医療画像の様々なデータセットで優れた性能を示した。
- 本手法は,テキスト情報の活用,数え上げの一貫性,特徴表現の代表性のバランスを実現した。
DPDFNet:デュアルパスRNNによるDeepFilterNet2の性能向上 [cs.SD]目的:単一チャネル音声強調モデルの性能向上
- 近年,様々な環境下での音声通話品質の向上が求められており,音声強調技術は重要な役割を担う。
- 既存の音声強調モデルは,長時間の音声や低S/N比の環境下での性能が十分でない場合がある。
- DPDFNetは,デュアルパスブロックを用いることで,長時間の依存関係と周波数間関係のモデリングを強化し,実環境下での性能向上を目指す。
- DPDFNetは,12言語の日常雑音を含む新しい評価セットにおいて,他のオープンソースの因果的モデルと比較して優れた性能を示した。
- 過剰減衰を抑制するための損失関数と,常時動作を想定した微調整により,モデル全体の性能が大幅に向上した。
- DPDFNet-4は,Ceva-NeuPro-NanoエッジNPU上でリアルタイム性能を達成し,厳しい組み込み環境下でも高品質を維持できることが示された。
単一プロンプトを用いた主題一貫性のあるテキストから画像生成のためのテキスト埋め込みの幾何学的分離 [cs.CV]目的:テキストから画像生成における主題一貫性の向上
- 視覚的なストーリーテリングにおいて,一貫性のある主題の維持は重要である。
- 既存のテキストから画像モデルは,複数出力において主題の一貫性を保てない。
- テキスト埋め込みの幾何学的分離により,主題の一貫性とテキストの整合性を向上させる。
- 本手法は,テキスト埋め込みを洗練することで意味的な絡み合いを抑制し,主題の一貫性を大幅に改善する。
- 既存のベースラインと比較して,テキストの整合性も著しく向上することが実験で示された。
- モデルのファインチューニングや画像条件付けを必要とせず,計算コストを抑えられる。
プライムとリーチ:視線誘導による物体把持動作の合成 [cs.CV]目的:視線誘導を伴う物体把持動作の生成
- 人間の自然な行動を模倣する動作生成は,ロボット工学やバーチャルリアリティ等の分野で重要である。
- 既存の動作生成モデルは,視線誘導と把持動作の連携が不十分であり,自然な動きを再現できていない。
- 視線誘導と把持動作を統合的に生成するモデルを開発し,より自然な人間の動作を再現することを目指す。
- 大規模データセットHD-EPICにおいて,目標物体位置を条件とした場合に60%のプライム成功率,89%のリーチ成功率を達成した。
- 新たに「プライム成功率」という指標を導入し,生成された動作の自然さを評価した。
- HD-EPIC,MoGaze,HOT3D,ADT,GIMOの5つの公開データセットから23.7Kの視線誘導付き動作シーケンスをキュレーションした。
SNOW:世界知識を用いた時空間シーン理解によるオープンワールド具現化推論 [cs.CY, cs.CV, cs.RO]目的:オープンワールドにおける具現化推論のための時空間シーン理解
- 自律型ロボットシステムでは,信頼性の高いナビゲーションとインタラクションに,動的環境の時空間理解が不可欠である。
- 既存のビジョン言語モデルは,3D幾何学と時間的ダイナミクスへのグラウンディングが不足している。
- ビジョン言語モデルのセマンティクスと3D点群の幾何学・時間整合性を統合し,高精度な4Dシーン理解を実現する。
- SNOWは,トレーニング不要かつバックボーンに依存しないフレームワークであり,RGB画像と3D点群を同期処理することで,4Dシーンを統合的に理解する。
- HDBSCANクラスタリングを用いてオブジェクトレベルの提案を生成し,SAM2ベースのセグメンテーションを誘導する。
- 実験結果から,SNOWは様々なベンチマークで最先端の性能を示し,具現化推論と自律型ロボティクスにおいて構造化された4D事前知識の重要性を強調している。
段階認識型加速:視覚自己回帰モデルにおける段階に応じた加速手法 [cs.CV]目的:視覚自己回帰モデルの段階に応じた加速
- 高画質画像生成において,視覚自己回帰モデルの重要性が高まっている。
- 段階数の増加に伴い,計算コストと処理時間が大幅に増加する点が課題。
- 段階ごとの重要度を考慮し,効率的な加速手法を確立すること。
- 早期段階は意味と構造の一貫性維持に重要であり,維持すべきである。
- 後期段階は詳細の微調整が主であり,削減や近似が可能である。
- StageVARはGenEvalで0.01,DPGで0.26のスコア低下で最大3.4倍の高速化を実現した。
盲目画像品質評価における知覚と推論を人間に近づける [cs.CV, cs.AI]目的:人間らしい知覚と一貫性のある推論能力の獲得
- 画像品質評価は,快適な視覚体験の保証や画像処理技術の向上に不可欠である。
- 既存の評価手法は,人間の知覚・推論プロセスを十分に捉えられていない。
- 人間の知覚・推論の特性をモデルに学習させ,より人間らしい評価を実現する。
- 提案手法は,一般的な指標において最先端の画像品質評価システムと同等の性能を達成した。
- モデルが生成した説明と人間の知覚・推論の類似性をROUGE-1で評価した結果,ベースラインよりも高いスコア(0.512 vs 0.443)を示した。
- これは,人間の説明に対する高いカバレッジを示し,BIQAにおける人間らしい解釈可能な推論への一歩となる。
微笑む顔,悲しむ目:眼と表情のマルチモーダルデータセットによる感情ギャップの解消 [cs.CV, cs.AI]目的:眼の行動を感情の重要な手がかりとして捉え,感情認識の精度向上
- 感情認識は,人間が持つ感情を理解するための重要な技術であり,人間と機械の円滑なコミュニケーションに不可欠である。
- 表情認識は感情認識の中心だが,社会的要因による偽りの表情が含まれる可能性があり,真の感情を反映しない場合がある。
- 表情認識の限界を克服し,より正確な感情認識を実現するため,眼の行動という新たな手がかりを取り入れる。
- 本研究では,眼の行動と表情を組み合わせたマルチモーダルデータセットEMERを構築し,感情認識の精度向上を試みた。
- 提案手法EMERTは,敵対的特徴分離とマルチタスクTransformerを用いて,眼の行動を表情認識に有効に組み込むことで,既存手法を大きく上回る性能を示した。
- 眼の行動が感情認識において重要な役割を果たすことを実証し,表情認識と感情認識のギャップ解消に貢献する。
YOLO11-4K:4Kパノラマ画像におけるリアルタイム小物体検出のための効率的なアーキテクチャ [cs.CV]目的:4Kパノラマ画像におけるリアルタイム小物体検出
- 全方位360度画像処理は,空間歪みや広視野角,高解像度入力により,物体検出において課題が多い。
- 従来の物体検出器は標準解像度向けに最適化されており,360度画像特有の4K等の高解像度処理で計算負荷が大きい。
- 本研究は,4Kパノラマ画像に特化した効率的なリアルタイム検出フレームワークを開発し,課題解決を目指す。
- YOLO11-4Kは,小物体検出感度を高めるP2層を持つマルチスケール検出ヘッドと,計算量を削減するGhostConvベースのバックボーンを採用。
- CVIP360データセットを新たにアノテーションし,4Kパノラマシーンの検出ベンチマークを公開した。
- YOLO11-4Kは,0.50 IoUで0.95 mAPを28.3ミリ秒の推論時間で達成し,YOLO11と比較して75%の遅延削減と精度向上を実現。
単眼3D人体姿勢推定のためのMixture-of-Expertsネットワーク: PoseMoE [cs.CV, cs.AI]目的:単眼画像からの3D人体姿勢推定における精度向上
- 3D人体姿勢推定は,VR/AR,モーションキャプチャ,人間行動理解など,多様な応用分野で重要性を増している。
- 従来のliftingベースの手法では,2D姿勢検出結果と未知の深度情報を混在して扱うため,深度の不確実性が推定精度を制限している。
- 本研究では,2D姿勢と深度の特徴を分離し,不確実な深度情報が2D姿勢推定に与える悪影響を軽減することを目指す。
- 提案手法PoseMoEは,専門家モジュールを用いて2D姿勢特徴と深度特徴をそれぞれ洗練させることで,特徴エンコーディングの分離を実現した。
- PoseMoEは,専門家間での知識集約モジュールを導入し,2D姿勢と深度間の双方向マッピングを通じて特徴を強化した。
- Human3.6M,MPI-INF-3DHP,3DPWの各データセットにおいて,既存のliftingベース手法を上回る性能を達成した。
VenusBench-GD:多様なGUIグラウンディングタスクのための包括的なマルチプラットフォームGUIベンチマーク [eess.SY, cs.SY, cs.CV]目的:GUIグラウンディングのための包括的なマルチプラットフォームベンチマーク
- GUIエージェントの能力向上には不可欠であり,その性能評価の重要性が増している。
- 既存のベンチマークはデータ量やドメインカバレッジが不十分,またはプラットフォーム依存性が高い。
- 多岐にわたるプラットフォームとタスクで,GUIグラウンディングモデルの評価を包括的に行う。
- 汎用マルチモーダルモデルが,基本的なグラウンディングタスクにおいて,専門的なGUIモデルと同等またはそれ以上の性能を示す。
- 高度なタスクでは,依然としてGUI専門モデルが優位性を示すものの,過学習やロバスト性の問題が指摘される。
- 包括的で多層的な評価フレームワークの必要性が示唆される。
マルチスケール特徴融合による骨格スニペット対照学習 [cs.CV]目的:骨格に基づくアクションローカリゼーションのための表現学習
- 人間行動理解は,ロボット工学やヒューマンコンピュータインタラクション等の分野で重要である。
- 骨格データに基づく時間的アクションローカリゼーションは,微妙な時間的差異を捉える必要があり困難である。
- 対照学習とマルチスケール特徴融合により,より高精度なアクションローカリゼーションを目指す。
- 提案手法は,骨格データを用いたアクションローカリゼーションにおいて,既存の対照学習法を上回る性能を示す。
- BABELデータセットにおいて,多様なサブセットと評価プロトコルで一貫して改善が確認された。
- NTU RGB+DとBABELでの事前学習により,PKUMMDデータセットでの最先端の転移学習性能を達成した。
マルチスケール注意機構による顔画像の固有分解とレンダリングパス予測 [cs.CV, cs.GR]目的:顔画像の固有分解とレンダリングパスの予測
- 写実的なライティングやデジタルダブル,AR効果を実現する上で,顔画像の正確な固有分解が不可欠である。
- 照明条件が制御されていない状況下での顔画像固有分解は依然として困難であり,高品質な結果を得ることが課題である。
- マルチスケール注意機構を用いて,より高精度な固有分解とレンダリングパス予測を可能にすることを目指す。
- MAGINetは,階層的残差エンコーディングと注意機構を組み合わせることで,従来のU-Netよりもシャープなアルベド境界と強い照明不変性を示す。
- 推定されたアルベドを高品質にアップサンプリングし,軽量なCNNで詳細を修正することで,全体的な精度を向上させている。
- 提案手法は,FFHQ-UV-Intrinsicsデータセットで最先端の性能を達成し,レンダリングスタック全体の忠実度も大幅に改善している。
ブロックチェーン参加型ゲームのためのアルゴリズム的金融政策 [cs.GT]目的:ブロックチェーンにおける参加インセンティブと長期的な分散化のバランス
- ブロックチェーン技術は,分散型システムの実現に不可欠であり,その経済的設計が重要である。
- 短期的なパフォーマンス向上と長期的な分散化という二つの目標の整合性が課題となっている。
- アルゴリズム的な金融政策を通じて,このトレードオフを解消し,安定した分散化を実現すること。
- 短期的な利益追求型の行動では中央集権化のリスクがあるが,将来を見据えた行動が分散化を可能にする。
- 仮想的なステークの導入は,分散化を間接的に管理する手段として有効である。
- 初期の仮想ステーク配分が長期的な結果に大きく影響するため,政策設計が重要となる。
疑似ケプストラム:メルベースのニューラル音声合成器向けピッチ変調 [cs.HC, eess.AS, cs.SD, cs.LG, eess.AS]目的:メルスペクトログラム表現に適用可能なケプストラムベースのピッチ変調手法
- 高品質な音声合成は,人間と機械の自然な対話を可能にする上で不可欠である。
- 従来のピッチ変調手法は,特定の音声合成モデルに依存し,汎用性に欠ける場合がある。
- メルベースのニューラル音声合成器において,追加学習やモデル変更なしにピッチ変調を可能にすること。
- 提案手法は,ケプストラム領域で調波構造を直接変調することで,任意のメルベースの音声合成器に適用可能である。
- 疑似逆メル変換とDCTを用いることで,ピッチピークのシフトを正確に行い,変調されたメルスペクトログラムを生成する。
- 客観評価と主観評価の結果,提案手法は既存のピッチ変調手法と同等またはそれ以上の性能を示すことが確認された。
TTP:Vision-Languageモデルにおける敵対的検出とロバスト適応のためのテスト時パディング [cs.CV, cs.AI]目的:Vision-Languageモデルの敵対的攻撃に対するロバスト性と,クリーンな入力に対する精度向上
- Vision-Languageモデルは画像とテキストの理解に優れるが,セキュリティ上の脆弱性が課題となっている。
- 既存の防御手法は再学習が必要,または敵対的入力とクリーンな入力の識別が不十分である。
- テスト時に敵対的入力を検出し,注意機構を調整することでロバスト性と精度を両立することを目指す。
- 本研究では,テスト時パディング(TTP)という軽量な防御フレームワークを提案し,敵対的入力の検出と適応を可能にした。
- TTPは,CLIP特徴埋め込みのコサイン類似度の変化を利用して,モデル構造やデータセットに依存しない信頼性の高い検出閾値を設定する。
- 実験結果から,TTPは既存のテスト時防御手法を上回り,精度を損なうことなくロバスト性を大幅に向上させることが示された。
N3D-VLM:ネイティブ3Dグラウンディングがビジョン言語モデルの正確な空間推論を可能にする [cs.CV]目的:ビジョン言語モデルにおける3Dオブジェクトの認識と空間推論能力の向上
- 画像認識AIは発展しているが,3D空間の理解が不十分であり,現実世界の認識には限界がある。
- 従来のモデルは2D画像に依存しており,奥行き情報や3D空間における物体間の関係性を捉えられない。
- 3Dオブジェクトのネイティブな認識と3D空間における推論を統合することで,空間理解の精度向上を目指す。
- 提案手法N3D-VLMは,テキスト記述に基づいた3D空間でのオブジェクトの正確な位置特定を可能にした。
- 3Dオブジェクトの位置特定を基盤に,明示的な3D空間における推論を行い,解釈可能な空間理解を実現した。
- 実験結果は,3Dグラウンディングと空間推論タスクにおいて,N3D-VLMが最先端の性能を発揮することを示した。
4Dプリミティブ・マッシュ:持続的な4Dシーン再構築のためのプリミティブの結合 [cs.CV]目的:4Dシーン再構築
- VR/AR等の応用において,現実世界の動的な3Dシーンを正確に捉えることが重要である。
- 単眼画像からの動的シーン再構築は,オクルージョンやモーションブラー等の課題を抱えている。
- 過去に観測されたオブジェクトの情報を保持し,消失しても再出現を予測することで,完全な再構築を目指す。
- 提案手法は,シーンを剛体3Dプリミティブに分解し,それらの動きを推定することで4D再構築を実現する。
- モーショングルーピングにより,一時的に見えなくなったオブジェクトの動きを外挿し,連続性を維持する。
- 既存手法と比較して,オブジェクトスキャンや複数オブジェクトのデータセットにおいて,定量・定性的に優れた結果が得られた。
因果チューン:ドメイン汎化セマンティックセグメンテーションのためのビジョン基盤モデルからの因果的要因の抽出 [cs.CV]目的:ドメイン汎化セマンティックセグメンテーションにおける因果的要因の抽出と非因果的要因の抑制
- 画像認識技術は,自動運転や医療診断など幅広い分野で不可欠であり,その性能向上は重要である。
- 既存のビジョン基盤モデルには,汎化性能を低下させるアーティファクトが含まれている場合がある。
- 本研究は,ビジョン基盤モデルの特徴量に含まれる因果的・非因果的要因を分離し,汎化性能を向上させることを目指す。
- 提案手法Causal-Tuneは,離散コサイン変換とガウスバンドパスフィルタを用いて特徴量の周波数スペクトルを分析し,因果的・非因果的成分を分離する。
- 因果的成分は周波数領域で学習可能なトークンを用いて洗練され,非因果的成分は破棄される。
- 様々なクロスドメインタスクにおいて,Causal-Tuneは優れた性能を示し,特に雪天候下でベースラインよりも4.8%mIoUの改善を達成した。
静的バンドル価格設定によるオンライン資源配分 [cs.GT]目的:将来の要求が不完全な状況下における資源の効率的な配分
- オンライン資源配分は,限られた資源を効率的に活用するために不可欠である。
- 既存のメカニズムは,アイテムの多様性を十分に活用できていない場合がある。
- アイテムの相補性を考慮した,汎用的な静的バンドル価格設定メカニズムを開発する。
- 提案手法は,アイテム容量が増加するにつれて,性能が指数関数的に向上する静的匿名バンドル価格設定メカニズムを提供する。
- 単一志向組み合わせオークション(最大バンドルサイズd)においては,$O(d^{1/B})$の競争率を実現する。
- 理論的な限界を明らかにし,一般化された単一志向設定におけるアルゴリズムの性能限界を示す。
CRONOS:4D医療縦断系列の連続時間再構成 [cs.IR, cs.CV]目的:3D医療スキャン経時変化の予測
- 疾患進行,治療計画,発達評価において,時間経過に伴う3D医療画像の予測は重要である。
- 既存モデルは単一の基準スキャン,固定グリッド時間,またはグローバルラベルに依存し,不規則サンプリング下でのボクセルレベル予測が困難である。
- 不規則なサンプリング下におけるボクセルレベルの予測を実現し,連続時間シーケンスから画像を予測する。
- CRONOSは,離散的および連続的なタイムスタンプをサポートする統一的なフレームワークである。
- CRONOSは,任意の時間におけるターゲットボリュームへのコンテキストボリュームの移動を可能にする空間-時間的な速度場を学習する。
- Cine-MRI,灌流CT,縦断MRIの3つのデータセットで,CRONOSは他のベースラインを上回り,計算効率も維持する。
潜在空間へのスケッチ:MLLMにおける統合的推論の誘発 [cs.CV]目的:MLLMにおける統合的多様式推論の実現
- MLLMは視覚理解において優れているが,視覚的想像力が必要な場面で課題が残る。
- 既存手法は外部ツールキットや画像生成に依存するのに対し,人間は事前定義なしに柔軟な視覚・テキスト想像を行う。
- MLLMの潜在空間に視覚情報を組み込み,視覚的思考プロセスをテキスト思考と統一することで解決を目指す。
- 提案手法SkiLaは,MLLMの自己回帰能力を拡張し,潜在的なスケッチトークンを生成することで統一的多様式推論を実現した。
- モデルはテキスト思考モードと視覚スケッチモードを動的に切り替え,潜在的スケッチトークンの意味的整合性を担保する仕組みを導入した。
- 実験結果から,SkiLaは視覚中心タスクにおいて優れた性能を示し,多様なマルチモーダルベンチマークへの汎化性能も高いことが示された。
Yuan-TecSwin:Swin-transformerブロックを用いたテキスト条件付き拡散モデル [cs.CV, cs.AI]目的:テキスト条件付き画像生成における拡散モデルの性能向上
- 画像生成技術は,多様な応用分野で重要性を増しており,高品質な生成が求められている。
- 従来のCNNベースの拡散モデルでは,長距離の文脈情報を捉えることが課題となっていた。
- Swin-transformerブロックを導入し,非局所的なモデリング能力を高めることで,この課題を解決する。
- Yuan-TecSwinは,ImageNet生成ベンチマークにおいて,最先端のFIDスコア1.37を達成した。
- Swin-transformerブロックにより,特徴抽出と画像復元の両方において,長距離の文脈情報をより効果的に捉えることができた。
- 人間の評価実験では,生成画像と実画像との区別が困難であった。
Hazedefy:実用的な展開のための軽量リアルタイム画像・動画除去パイプライン [cs.CV]目的:画像・動画の除去パイプライン
- 視覚情報の取得において,大気中の粒子による視界の悪化は重要な課題である。
- 既存手法は計算コストが高く,実用的なハードウェアでのリアルタイム処理が困難である。
- 低スペックな環境でもリアルタイムに適用可能な,軽量な除去パイプラインを開発する。
- Hazedefyは,DCPと大気散乱モデルに基づき,計算効率を重視したパイプラインである。
- ガンマ適応再構成や高速な透過率近似などにより,数値安定性と処理速度を両立している。
- 実環境での実験により,GPUなしで可視性とコントラストの向上が確認された。
推測するな,段階的に進めよ:説明可能な不確実性較正AIフォレンジックエージェントへ [cs.MA, cs.AI, cs.CV, cs.MM]目的:AIフォレンジックエージェントの実現
- デジタルコンテンツの改ざん検出は,証拠の信頼性確保に不可欠である。
- 既存のフォレンジック手法は,複雑な状況への対応や不確実性の評価が困難である。
- AIによる自動化と,不確実性の明示的な取り扱いによる信頼性向上を目指す。
- AIフォレンジックエージェントは,複数の検出器を組み合わせ,信頼性の高い結果を提供する。
- 本研究では,フォレンジックプロセスの改善に向けた統一的なフレームワークを提案する。
- 不確実性を考慮することで,より正確な真実性検証が可能になる。
効率的な拡散Transformerのための学習可能な対数線形疎アテンション [cs.CV]目的:長トークン列に対する拡散Transformerの効率化
- 画像生成において,拡散Transformerは最先端の性能を示すが,計算コストが高い。
- 既存の疎アテンション手法は,選択コストやモデル品質の維持に課題がある。
- 階層構造を用いて,選択とアテンションのコストを対数線形に削減する。
- 提案手法LLSAは,256x256ピクセルの画像生成において,アテンション推論を28.27倍,DiT学習を6.09倍高速化する。
- LLSAは,階層的なTop-K選択とHierarchical KV Enrichmentメカニズムにより,グローバルコンテキストを維持しながら計算量を削減する。
- LLSAの実装は,スパースインデックスのみを使用し,密なアテンションマスクを必要としないため,効率的な学習を可能にする。
プラグを場所へ:デジタル捜査のための電気コンセントを利用した屋内マルチメディア位置特定 [cs.CV]目的:電気コンセントを屋内位置特定のためのマーカーとして利用するパイプライン
- デジタルフォレンジック捜査において,屋内での位置特定技術の重要性が高まっている。
- 屋内での位置特定は,レイアウトの類似性や照明の変化などにより,屋外に比べて困難である。
- 本研究は,標準化された電気コンセントの種類を屋内マーカーとして利用し,位置特定を可能にする。
- 電気コンセントの検出精度はmAP@0.5で0.843,種類分類の精度は0.912,国へのマッピング精度は0.96を達成した。
- 検出データセットは2,328枚の画像から4,072枚に拡張,分類データセットは12種類のコンセントを含む3,187枚の画像で構築された。
- 実環境を模したTraffickCamデータセットを用いた評価により,本手法の現実世界への適用可能性が示された。
拡散Transformerにおける文脈除去による防御:安全な画像編集 [cs.CG, eess.SY, cs.SY, cs.CV]目的:拡散モデルを用いた画像編集における不正な改変からの保護
- 画像生成技術の進展は,個人情報保護の観点から重要性が増している。
- 拡散モデルの強力な編集能力は,悪意のある利用によるプライバシー侵害のリスクを高めている。
- 入力画像への微小な摂動を加えることで,拡散モデルにおける文脈情報の伝播を弱め,不正な編集を防ぐ。
- DeContextは,クロスアテンション層への標的を絞った摂動注入により,入力と出力の関連性を効果的に遮断する。
- 早期のノイズ除去ステップと特定のTransformerブロックが文脈伝播に大きく寄与することが示された。
- Flux KontextおよびStep1X-Editでの実験により,DeContextが望まない画像編集を効果的にブロックし,視覚品質を維持することが確認された。
人間からのフィードバックを用いたスタッケルベルク学習:嗜好最適化を逐次ゲームとして [cs.LG, cs.AI, cs.GT, cs.MA, stat.ML]目的:嗜好最適化問題
- AIの安全性と有用性の両立が重要であり,人間の意図に沿ったAI開発が求められている。
- 従来の強化学習では,人間の嗜好を正確に捉え,AIに反映することが困難であった。
- 人間の嗜好構造をより豊かに捉え,一貫性とロバスト性を高めた学習手法を確立する。
- SLHFは,リーダーとフォロワーの逐次ゲームとして嗜好最適化を捉え,より洗練された手法を提供する。
- 実験結果から,SLHFは多様な嗜好データセットにおいて高い性能を示し,モデル間の転移学習も可能であることが示された。
- RLHFやNLHFと比較して,一貫性,データへの感度,および不整合な嗜好に対するロバスト性において優位性が見られた。
SARMAE:SAR画像表現学習のためのマスクオートエンコーダ [cs.CV, cs.LG]目的:SAR画像表現の自己教師あり学習
- SAR画像は,全天候・昼夜を問わないリモートセンシングに不可欠である。
- SAR画像のデータ不足と,特有のスペックルノイズが,高精度な意味的表現学習を阻害している。
- ノイズに強く,頑健なSAR画像表現を学習し,様々なタスクの性能向上を目指す。
- SARMAEは,大規模SARデータセットSAR-1Mを用いて,自己教師あり学習を行う。
- SARE機構により,スペックルノイズを考慮したロバストな表現学習を実現した。
- SARC制約により,光学的情報との整合性を高め,意味的な一貫性を確保した。
拡散モデルにおけるグローバル・ローカル意味論を用いた潜在表現の再結合 [cs.CV]目的:潜在拡散モデルにおける画像生成の質向上と学習加速
- 画像生成技術は,多様な応用分野において重要性が増しており,高品質な生成が求められている。
- 既存の潜在拡散モデルは,意味的監督が間接的であり,高品質なサンプルを得るまでに時間がかかるという課題がある。
- 本研究は,Vision Foundation Modelの持つ豊かな意味情報を効果的に活用し,この課題を解決することを目指す。
- REGLUEは,VAE潜在表現,局所的なVFMセマンティクス,グローバルな[CLS]トークンを単一のSiTバックボーンで統合的にモデル化することで,FIDスコアを向上させた。
- 非線形圧縮により,多層VFM特徴量の潜在表現への組み込みを最適化し,空間的セマンティクスを活用することの重要性を示した。
- グローバルなトークンと外部アライメント損失は,REGLUEの性能をさらに高めるための軽量な拡張として機能することが明らかになった。
FrameDiffuser:Gバッファ条件付き拡散によるニューラルフォワードフレームレンダリング [cs.CV, cs.GR]目的:インタラクティブなアプリケーションのためのフォトリアリスティックな画像生成
- リアルタイムレンダリングは,ゲームやVR/ARなど,多様な分野で不可欠な技術である。
- 従来のニューラルレンダリング手法では,時間的な一貫性や計算コストが課題であった。
- Gバッファと自身の以前の出力に基づいて,時間的に安定した画像を生成することを目指す。
- FrameDiffuserは,Gバッファと以前のフレームを条件として,時間的に一貫性のあるフォトリアリスティックなフレームを生成する。
- ControlNetとControlLoRAを組み合わせたアーキテクチャにより,構造と時間的一貫性の両方を実現している。
- 特定の環境に特化した学習により,汎用的な手法よりも高品質で正確なレンダリングを達成している。
3D-MRIおよび2D-X線画像における少数のサンプルを用いた個人再識別 [cs.CV, cs.AI]目的:個人指紋の特定
- 医療画像診断の精度向上は,患者ケアの質を向上させる上で不可欠である。
- オープンソースデータセットの利用は便利だが,データ漏洩による性能評価の歪みが課題である。
- データセット間の重複を検出し,適切な性能評価を実現することを目指す。
- ResNet-50とトリプレット損失を用いて,3D MRIおよび2D X-rayデータにおける少数のサンプルを用いた個人再識別を評価した。
- ChestXray-14データセットでは,20-way 1-shotで99.10%,500-way 5-shotで90.06%のMean Recall@Kスコアを達成した。
- BraTS-2021データセットでは,20-way 1-shotで99.20%,100-way 3-shotで98.86%のMean Recall@Kスコアを達成した。
局所的なディープフェイクの検出:合成画像検出器はインペインティングにどのように対応するか [cs.CV]目的:局所的な画像操作検出における既存のディープフェイク検出器の性能評価
- 生成AIの進化により,高度な画像操作が可能となり,セキュリティ上の脅威が増大している。
- 既存のディープフェイク検出器は,完全合成画像に特化しており,局所的な操作に対する汎化性能が不明である。
- 局所的なインペインティング検出における,既存検出器の性能と限界を明らかにすること。
- 大規模なジェネレーターで学習したモデルは,インペインティング編集へのある程度の転移学習能力を示す。
- 中規模から大規模な操作や,再生成スタイルのインペインティングにおいて,信頼性の高い検出が可能である。
- 既存のアドホックな検出アプローチと比較して,優れた性能を示すことが確認された。
SDFoam:符号距離場を用いた明示的表面再構成 [cs.CV, cs.GR]目的:明示的なボロノイ図と暗黙的な符号距離場を同時学習することによる,正確なメッシュ再構成
- 近年のビュー合成技術は目覚ましい進歩を遂げており,リアリティのある映像生成が期待されている。
- 既存手法では,精密なメッシュ再構成が困難であり,浮遊物やトポロジーの欠陥が生じやすい。
- 符号距離場を導入することで,メトリック整合性の高い等レベル面を生成し,再構成精度を向上させる。
- 提案手法SDFoamは,多様なシーンにおいて,メッシュ再構成の精度(Chamfer距離)を大幅に向上させる。
- 外観品質(PSNR,SSIM)を維持しつつ,RadiantFoamと同等の高速な学習を実現している。
- 明示的・暗黙的表現のハイブリッドな構造により,より鮮明で一貫性のある表面を生成することが可能となった。
ランドマークに基づく包括的胎児計測のための多施設・多装置ベンチマークデータセット [cs.CV]目的:胎児計測のための多施設・多装置ベンチマークデータセット
- 胎児の成長評価は,周産期医療において重要な役割を担う。
- 手動でのランドマーク特定は,時間と労力を要し,測定者の熟練度や装置に依存する。
- AI支援による信頼性の高い胎児成長評価手法の開発を促進する。
- 本データセットは,3つの臨床施設,7つの異なる超音波装置から収集された4,513件の画像を含む。
- 単一施設での学習・評価は,多施設でのテストにおいて性能を過大評価することが示された。
- 主要な胎児計測項目全てを網羅した初の公開データセットであり,ドメイン適応や多施設間の汎化性能評価に役立つ。
VERM:基盤モデルを活用した仮想視覚による効率的な3次元ロボット操作 [cs.RO, cs.CV]目的:3次元ロボット操作のための効率的な視覚システムの開発
- ロボットの3次元操作は,自動化において重要であり,産業や日常生活での応用が期待されている。
- 複数カメラからの情報には冗長性が高く,計算コストが増大し,重要な特徴抽出が困難である。
- 基盤モデルを活用し,タスクに適応した仮想視覚を生成することで,冗長性を削減し,効率的な操作を実現する。
- 本研究で提案するVERMは,基盤モデルを用いて3次元点群からタスクに適した仮想視点を生成し,必要な情報を効率的に捉える。
- シミュレーションと実環境での実験により,VERMが既存手法を上回り,学習時間と推論時間をそれぞれ1.89倍,1.54倍高速化することを示した。
- 深さ情報を考慮したモジュールと動的な粗調整から微調整の手法を組み合わせることで,3次元アクションプランニングと微細な操作を可能にした。
