arXiv雑要約

画像・音声 - 2025/12/19 公開

ロバストな連合学習のための一次メタ・スタケルバーグ法 [cs.CR, cs.GT]目的：連合学習におけるロバスト性の向上
- 連合学習は，プライバシー保護と分散データ活用を両立する技術として重要性が高まっている。
- 既存の防御策は特定の攻撃パターンに依存し，未知の攻撃への適応性が低いという課題がある。
- 不確実な適応的攻撃に対する適応性と耐性を備えた防御策を構築することを目指す。
- 本研究では，敵対的連合学習をベイジアン・スタケルバーグマルコフゲームとしてモデル化し，メタ学習を用いてスタケルバーグ均衡を解く。
- 提案手法は，モデルポイズニングやバックドア攻撃といった激しい攻撃に対しても優れた性能を示すことが実験で確認された。
- これにより，不確実な適応的攻撃への適応性と耐性を備えた，より強固な連合学習システムの実現に貢献する。
Link: https://arxiv.org/abs/2306.13273
BoostDream：マルチビュー拡散からの高品質テキストto3D生成のための効率的な改良 [cs.CL, cs.CV]目的：高品質な3Dアセットの迅速な生成
- テキストto3D生成は，画像生成の進歩を受け，注目を集めている研究分野である。
- 既存手法では，高速だが粗い結果にしかならないもの，高品質だが時間がかかるものが存在する。
- 両手法の利点を組み合わせ，効率性と品質を両立させることを目指す。
- BoostDreamは，高速生成された粗い3Dアセットを高効率に高品質化する改良手法である。
- マルチビューSDS損失と，プロンプト・マルチビュー一貫性のある法線マップをガイドに用いる点が特徴である。
- 従来のSDSベース手法と比較して，Janus問題を克服し，高速かつ高品質な3Dアセット生成を可能にする。
Link: https://arxiv.org/abs/2401.16764
知覚，対話，適応：オープンワールド動画認識のための基盤モデルのマルチモーダル知識転移 [cs.DC, quant-ph, cs.CV]目的：オープンワールド動画認識における基盤モデルからの知識転移
- 動画認識はAI研究の根幹であり，その性能向上は様々な応用分野に不可欠である。
- 従来のネットワークは環境変化への汎化性能が低く，複雑な状況下での動画認識は困難である。
- 基盤モデルの知識を効果的に活用し，オープンワールド動画認識の精度向上を目指す。
- 提案手法PCAは，知覚，対話，適応の3段階でマルチモーダル知識を段階的に活用・統合する。
- PCAは，TinyVIRAT，ARID，QV-Pipeの3つのベンチマークデータセットで最先端の性能を達成した。
- 動画のドメインギャップを縮小し，視覚的・言語的知識を効果的に融合することで，汎化性能を向上させている。
Link: https://arxiv.org/abs/2402.18951
スパース・チューニング：効率的なファインチューニングと推論によるVision Transformerの適応 [cs.CV]目的：Vision Transformerの効率的な適応手法
- 画像認識分野において，大規模なVision Transformerモデルの活用が重要視されている。
- ViTモデルのファインチューニングは計算コストが高く，GPUメモリを大量に消費する。
- 推論時の計算効率とメモリ使用量を削減し，実用的なViTモデルの構築を目指す。
- スパース・チューニングは，トークン疎性化技術とDense Adapterを組み合わせることで，計算量とメモリ使用量を大幅に削減する。
- VTAB-1Kや画像・動画データセットにおける実験により，スパース・チューニングがViT-BのGFLOPsを66％に削減し，最先端の性能を達成することが示された。
- トークン疎性化による情報損失をDense Adapterで補完することで，性能劣化を最小限に抑えている。
Link: https://arxiv.org/abs/2405.14700
多岐にわたるオブジェクト間の関係理解に関するベンチマーク：マルチモーダル大規模言語モデルにおけるMMRel [cs.CV]目的：マルチモーダル大規模言語モデルにおけるオブジェクト間の関係理解の評価
- マルチモーダル大規模言語モデルの発展は著しいが，複雑な関係理解が課題となっている。
- 大規模で高品質な関係データが不足しており，モデルの性能向上を阻害している。
- 多様な関係データを活用し，関係理解能力の評価と向上を目指す。
- MMRelは，3つのドメイン，約400の関係を含む22,500組の質問応答ペアで構成される大規模ベンチマークである。
- 高品質なラベルと，関係の誤認を誘発するような対立的な事例を含む点が特徴である。
- 28のマルチモーダル大規模言語モデルに対する実験により，MMRelが評価と性能向上に有効であることが示された。
Link: https://arxiv.org/abs/2406.09121
嗜好フィードバック付きバンディット問題：スタケルベルクゲームの視点 [cs.LG, cs.AI, cs.GT, stat.ML]目的：嗜好フィードバックを利用した未知の目的関数最適化
- 人間のフィードバックを活用したオンライン推論・最適化の重要性が増している。
- 従来の線形関数や有限領域での研究が中心で，実用的な無限領域・非線形報酬への対応が課題。
- 無限領域・非線形報酬環境下での効率的な探索・活用メカニズムの確立を目指す。
- 提案手法MAXMINLCBは，スタケルベルクゲームとして探索と活用のトレードオフを両立する。
- 既存アルゴリズムを凌駕し，時間経過とともに最適なレートで後悔量を保証する。
- カーネル化ロジスティック推定のための新規な嗜好ベース信頼区間が貢献している。
Link: https://arxiv.org/abs/2406.16745
AI生成画像検出における脆弱性：敵対的攻撃の課題 [cs.CV, cs.CR]目的：AI生成画像検出器の敵対的攻撃に対する脆弱性の評価
- 画像生成技術の進歩に伴い，偽情報の拡散が懸念されており，AIによる検出技術の重要性が増している。
- 既存のAI生成画像検出器の敵対的攻撃に対する堅牢性に関する体系的な理解が不足している。
- 本研究は，AI生成画像検出器に対する敵対的攻撃の脅威を実証し，その脆弱性を明らかにすることを目的とする。
- 周波数領域に基づいた新たな敵対的攻撃手法（FPBA）を提案し，様々な検出器，生成器，防御手法に対する有効性を示した。
- FPBAは，異なるCNNやViT間での敵対的サンプル転移を可能にするpost-train Bayesian戦略を導入することで，より汎用的な攻撃を実現した。
- 圧縮画像やクロスジェネレーターの検出といった現実的なシナリオにおいても，FPBAによる攻撃が有効であることが確認された。
Link: https://arxiv.org/abs/2407.20836
WildFit：リソース制約のあるIoTシステムのための自律的なインシチュモデル適応 [cs.CV, cs.AI, cs.LG]目的：リソース制約のあるIoTシステムにおけるモデル適応手法
- IoTデバイスの普及に伴い，デバイス上での機械学習の重要性が高まっている。
- 環境変化によるドメインシフトが，IoTデバイスのモデル精度低下を引き起こす。
- 接続性やエネルギー制約下でも，デバイス上でモデルを継続的に適応させることを目指す。
- WildFitは，背景シーンの変化に着目し，デバイス上でトレーニングサンプルを生成する手法である。
- 背景を考慮した合成により，既存手法や拡散モデルと比較して高い性能と高速化を実現した。
- ドリフトを考慮したファインチューニングにより，更新回数を削減しつつ精度向上を達成した。
Link: https://arxiv.org/abs/2409.07796
調整可能なマターンカーネルによる陰関数表現の再構成 [cs.CV, cs.LG]目的：陰関数表現による表面再構成
- 3次元点群データからの形状復元は，コンピュータビジョンやロボティクス等の分野で重要である。
- 既存手法では，計算コストが高く，実装が複雑である場合がある。
- マターンカーネルを用いることで，効率的かつ高性能な表面再構成を目指す。
- マターンカーネルは，アークコサインカーネルに基づく最先端手法を上回り，実装・計算が容易で，スケーラブルである。
- マターンカーネルは，表面再構成の調整を可能にし，スペクトルバイアスを克服するフーリエ特徴マッピングと同様の効果を示す。
- 特にラプラスカーネルは，ノイズのない環境下で最先端手法と遜色なく，学習時間が5倍以上短縮される。
Link: https://arxiv.org/abs/2409.15466
ロジットから階層へ：単純な階層的クラスタリング [cs.LG, cs.AI, cs.CV]目的：現実世界のデータセットに内在する階層構造のモデリング
- 多くの現実データには階層構造が存在し，機械学習における重要な課題である
- 既存の深層学習モデルは，スケーラビリティと性能に課題がある
- 事前学習済みの非階層的クラスタリングモデルを活用し，効率的な手法を開発する
- 提案手法は，深層階層的クラスタリングモデルを凌駕する性能を示す
- 事前学習済みのクラスタリングモデルのロジット出力を用いており，ファインチューニングは不要である
- ImageNet分類器からも意味のある階層構造を復元できる汎用性を持つ
Link: https://arxiv.org/abs/2410.07858
エンジニアリング図面からグラフへ：TransformerによるP&IDのデジタル化 [cs.CV]目的：プロセスおよび油圧システムの維持管理と運用効率向上のためのP&IDデジタル化手法
- プラントの設計，運用，保守において，P&IDは重要な情報源である。
- 従来手法は，記号検出と配管検出を分離しており，図面の構造的理解が困難であった。
- Transformerモデルを用いて，P&IDの記号とそれらの接続関係を同時に抽出することで，構造理解の精度向上を目指す。
- 提案手法は，従来のモジュール式デジタル化アプローチと比較して，エッジ検出精度で25％以上の改善を達成した。
- 本研究は，P&IDデジタル化のための再現可能な評価フレームワークを提供する。
- 複雑なエンジニアリング図面の構造的理解におけるTransformerモデルの有効性を示す。
Link: https://arxiv.org/abs/2411.13929
ニューラルネットワークに対するメモリバックドア攻撃 [cs.CR, cs.CV, cs.LG]目的：ニューラルネットワークの機密データ抽出手法
- 近年，プライバシー保護を重視した分散学習が普及している。
- 分散学習環境において，悪意のあるサーバーによるデータ漏洩リスクが存在する。
- クライアントの学習データを正確に抽出する新たなバックドア攻撃手法の提案。
- 本研究では，悪意のあるサーバーがクライアントの学習データを確実に抽出可能な，新しいバックドア攻撃手法を開発した。
- この手法は，モデルの性能をほとんど損なわずに，数千件の機密学習サンプルを回収可能であることが示された。
- 分散学習パイプラインにおける整合性と透明性の向上が不可欠であることが強調された。
Link: https://arxiv.org/abs/2411.14516
ブラックボックス攻撃に対するスケーリング則 [cs.LG, cs.CV]目的：ブラックボックス攻撃における，代替モデルの集団規模拡大の影響
- 機械学習モデルのセキュリティ確保は重要であり，敵対的攻撃への対策が不可欠である。
- ブラックボックス攻撃は実用モデルへの脅威であるが，攻撃成功率向上の余地がある。
- 代替モデルの集団規模を拡大することで，ブラックボックス攻撃の成功率向上を目指す。
- 代替モデルの集団規模を拡大すると，攻撃成功率がその規模の対数に比例して向上するスケーリング則が確認された。
- このスケーリング則は，標準的な分類器，最先端の防御策，大規模マルチモーダルモデルにおいて検証された。
- GPT-4o等のプロプライエタリモデルに対する高い攻撃成功率と，Claude-3.5-Sonnetの堅牢性が明らかになった。
Link: https://arxiv.org/abs/2411.16782
汎化された具現化エージェントのための，ビジョン-言語事前学習における証明可能な順序付けと連続性 [cs.DB, cs.RO, cs.AI, cs.CV, cs.LG]目的：具現化エージェントの汎化性能向上
- ロボット制御において，大規模な専門家によるデモンストレーションデータはコストがかかるため，代替手法が求められている。
- 既存手法は目標達成のヒューリスティックに依存し，終端フレームに過度に焦点を当て，誤った視覚-言語の関連付けを生む可能性がある。
- 視覚と言語の表現を順序付けと連続性をもって学習し，目標に基づく制約なしに汎化性能を向上させる。
- 提案手法Action Temporal Coherence Learning (AcTOL) は，フレーム間の意味的差異を対比させ，自然な順序を反映する。
- AcTOLは，中間フレーム間の滑らかな遷移を保証するために，局所的なブラウン運動ブリッジ制約を課す。
- シミュレーションと実世界のロボットを用いた実験により，事前学習された特徴が指示の言語スタイルに頑健な操作タスクを大幅に改善することが示された。
Link: https://arxiv.org/abs/2502.01218
UniDepthV2：より簡素化された汎用単眼メートル深度推定 [cs.CV]目的：単眼画像からのメートル単位の3次元シーン再構成
- 3次元知覚やモデリングにおいて，正確な深度推定は重要な役割を担う。
- 既存手法は学習ドメイン外のデータに対して汎化性能が低く，実用上の課題となっている。
- UniDepthV2は，ドメインを問わず汎用的に動作する深度推定手法を確立することを目指す。
- UniDepthV2は，入力画像から直接3次元点を予測することで，既存の深度推定パラダイムからの脱却を試みている。
- 自己プロンプト可能なカメラモジュールと疑似球面出力表現により，カメラ表現と深度表現を分離し，汎化性能を向上させている。
- 10の深度データセットにおけるゼロショット評価で，UniDepthV2が既存モデルを上回る性能と汎化能力を示すことが確認された。
Link: https://arxiv.org/abs/2502.20110
レーダー誘導による多項式フィッティングを用いたメートル深度推定 [cs.RO, eess.SP, cs.CL, cs.CV]目的：メートル深度マップへの変換
- 自動運転やロボティクスにおいて，周囲環境の正確な深度把握は不可欠である。
- 単眼深度推定モデルはスケール不定であり，正確なメートル深度を得るには追加の情報が必要となる。
- レーダーデータを用いて多項式フィッティングを行い，深度推定モデルのスケールと変位のずれを修正する。
- 提案手法POLARは，既存手法と比較して，平均してMAEで24.9%，RMSEで33.2%性能が向上した。
- POLARは，レーダーデータから予測される多項式係数を用いて，深度範囲ごとに非一様に予測を調整する。
- ローカルな一調性を保つ正則化項を含む，新しい学習目的関数を導入することで構造的な一貫性を維持する。
Link: https://arxiv.org/abs/2503.17182
データ効率的な土地被覆セグメンテーションのためのコアセット選択 [cs.CV]目的：土地被覆セグメンテーションにおけるデータ効率の向上
- リモートセンシング技術の発展と大規模意思決定への貢献が期待される分野である。
- 大規模データセットに依存する現状では，冗長性やノイズ，計算コストが課題となっている。
- データ量だけでなく質も考慮し，高精度なセグメンテーションを実現するコアセットの特定を目指す。
- 提案手法は，複数のデータセットとアーキテクチャにおいて，既存手法と比較して一貫して良好な性能を示した。
- 特にDFC2022データセットでは，訓練データの25%のコアセットが，全データでの訓練を上回る性能を達成した。
- リモートセンシング分野におけるデータ中心型学習の重要性と可能性が示唆された。
Link: https://arxiv.org/abs/2505.01225
MoAPT：Vision-Languageモデルに対する敵対的プロンプトチューニングの混合 [cs.CV]目的：Vision-Languageモデルの敵対的サンプルに対するロバスト性の向上
- 画像と言語を理解するVLモデルは高性能だが，セキュリティリスクへの対策が急務である。
- 単一のプロンプトでは，多様な攻撃への対応が難しく，過学習が発生しやすい。
- 複数のプロンプトを混合することで，様々な敵対的特徴への適応性を高める。
- 本研究では，敵対的プロンプトチューニングの混合（MoAPT）を提案し，VLモデルのロバスト性を向上させた。
- 敵対的画像に応じて混合重みを予測する条件付きルーターを導入し，サンプル固有の特徴に対応した。
- 11のデータセットでの実験により，MoAPTが最先端手法を上回るロバスト性を持つことが示された。
Link: https://arxiv.org/abs/2505.17509
VAEER：視覚的注意に着想を得た感情喚起推論 [cs.CV, cs.CL]目的：画像の感情喚起予測
- オンライン上の画像は感情や社会に大きな影響を与える。健全なデジタルコミュニティ形成に重要。
- 画像から喚起される感情を正確に把握することが困難である。特に危機的状況下では重要性が増す。
- 画像に対する感情喚起を，解釈可能な形で高精度に予測することを目指す。
- 提案手法VAEERは，視覚的注意と知識に基づいた推論を組み合わせることで，感情喚起予測の性能を向上させた。
- 3つのベンチマークデータセットにおいて，既存手法を最大19%上回り，平均で12.3%の改善を達成した。
- 解釈可能な感情喚起予測は，責任ある画像分析と持続可能なオンライン生態系構築の基盤となり得る。
Link: https://arxiv.org/abs/2505.24342
ViStoryBench：ストーリー可視化のための包括的ベンチマークスイート [cs.CV]目的：ストーリー可視化モデルの評価
- 物語は人間の文化において重要な役割を担っており，その視覚化はコミュニケーション手段として注目されている。
- 既存のベンチマークは短く，キャラクター参照が不足しており，現実世界のストーリーテリングの複雑さを捉えられていない。
- 多様なストーリー構造，視覚スタイル，キャラクター設定におけるモデルの能力を評価できるベンチマークを提供する。
- ViStoryBenchは，文学，映画，民話から厳選された物語に基づいた，詳細なアノテーション付きのマルチショットスクリプトを提供する。
- 自動評価指標として，キャラクターの一貫性，スタイル類似性，プロンプトとの整合性，美的品質，生成された画像のアーティファクトを評価する。
- これらの指標は人間による検証と評価によって妥当性が確認され，オープンソースおよび商用モデルのベンチマークに使用された。
Link: https://arxiv.org/abs/2505.24862
実用的なアルツハイマー病診断に向けて：軽量かつ解釈可能なスパイクニューラルモデル [cs.CV, cs.AI]目的：アルツハイマー病の早期診断手法の開発
- 早期診断は，タイムリーな介入に不可欠であり，患者の生活の質向上に繋がる重要な課題である。
- 主観的な評価への依存や高額な画像検査が，早期診断の障壁となっている。
- 高い計算資源を必要とせず，効率的かつ解釈可能な診断ツールを開発し，早期診断の精度向上を目指す。
- FasterSNNは，リーキー積分発火(LIF)ニューロン，領域適応畳み込み，多スケールスパイク注意メカニズムを組み合わせたハイブリッドアーキテクチャである。
- ベンチマークデータセットを用いた実験により，FasterSNNは高い診断精度と効率性，そして学習の安定性を実現した。
- FasterSNNは，アルツハイマー病のスクリーニングにおいて実用的な応用が期待できる。
Link: https://arxiv.org/abs/2506.09695
シーン認識に基づくSAR船検出：教師なし海陸セグメンテーションによる誘導 [cs.CV, cs.AI]目的：SAR船検出における精度向上
- SAR画像を用いた船検出は，広範な分野で重要性を増している。
- 従来のSAR船検出は，事前知識の不足が課題となっていた。
- 本研究は，海陸セグメンテーションによるシーン認識で精度向上を目指す。
- 教師なし海陸セグメンテーションモジュール（ULSM）と陸地注意抑制モジュール（LASM）を導入した。
- ULSMとLASMにより，シーンに応じて陸地への注意を抑制し，オフショアでの検出性能を向上させた。
- 公開データセットSSDDを用いた実験により，提案手法の有効性が確認された。
Link: https://arxiv.org/abs/2506.12775
脳卒中診断のための効率的な深層学習フレームワーク：コンピューター断層撮影画像を用いた [cs.CV, cs.AI]目的：脳卒中の診断における深層学習フレームワークの効率化
- 脳卒中は世界的に死亡と長期的な障害の主要な原因であり，迅速かつ正確な診断技術の確立が急務である。
- 従来の診断法では，放射線科医が最も重要なCTスライスを手動で選択する必要があり，時間と労力を要する。
- 本研究は，深層学習モデルと最適化戦略を活用し，脳卒中の早期診断精度向上を目指す。
- MobileNetV2，LDA，SVCの組み合わせが最も高い分類精度(97.93%)を達成し，他の組み合わせを大きく上回る結果となった。
- 軽量な事前学習モデルと堅牢な最適化・分類技術の統合が，脳卒中診断において有効であることが示された。
- 本研究成果は，脳卒中診断における機械学習の可能性を広げ，医療現場への貢献が期待される。
Link: https://arxiv.org/abs/2507.03558
D-FCGS：動的ガウススプラッティングのフィードフォワード圧縮による自由視点ビデオ [cs.CV, cs.MM]目的：動的ガウススプラッティングの効率的な圧縮
- 没入型3D体験の実現に不可欠であり，VR/AR等の応用展開が期待されている。
- 既存手法は最適化に依存し，汎用性や標準化が課題となっていた。
- 汎用性と標準化を可能にする，新たなフィードフォワード圧縮フレームワークの提案。
- D-FCGSは，最適化ベースの手法と同等のレート歪性能を達成した。
- ベースラインと比較して40倍以上の圧縮率を実現し，視点間の画質を維持する。
- 動的3DGSのフィードフォワード圧縮を促進し，スケーラブルなFVVの伝送・保存を可能にする。
Link: https://arxiv.org/abs/2507.05859
SlumpGuard：ビデオ分析によるリアルタイムコンクリートスランプ予測AIシステム [cs.CV]目的：コンクリートスランプの自動予測
- 建設品質において，コンクリートの作業性は極めて重要である。スランプ試験は，その評価において最も広く用いられている。
- 従来のスランプ試験は手動で行われ，時間と労力を要し，作業者依存性が高いという課題があった。
- 本研究は，継続的かつリアルタイムなスランプ監視を可能にする自動化システムを開発することで，上記の問題を解決する。
- SlumpGuardは，ミキサー車シュートからの自然な排出流を単一の固定カメラで分析するAIビジョンシステムである。
- 本システムは，シュート検出，注湯イベントの識別，ビデオベースのスランプ分類を自動で行い，センサーやハードウェア設置，手動介入なしに品質監視を実現する。
- 実験の結果，多様な現場条件下で信頼性の高いシュート局所化，正確な注湯検出，および堅牢なスランプ予測が可能であることが示された。
Link: https://arxiv.org/abs/2507.10171
MoHoBench：視覚的に答えられない質問によるマルチモーダル大規模言語モデルの正直性の評価 [cs.AI, cs.CV]目的：マルチモーダル大規模言語モデルの正直性評価
- 近年，大規模言語モデルの性能向上は目覚ましいが，誤情報や有害なコンテンツの生成リスクも存在する。
- 視覚情報と自然言語処理を組み合わせたマルチモーダル大規模言語モデルにおける正直性の評価は未解明な点が多い。
- 視覚的に答えられない質問に対するモデルの応答を通して，正直性の評価基準を確立し，改善策を探る。
- 既存の多くのモデルは，不回答が必要な場合に適切に拒否できないことが示された。
- マルチモーダル大規模言語モデルの正直性は，言語モデルの能力だけでなく，視覚情報の影響を強く受けることが明らかになった。
- 教師あり学習と嗜好学習を用いた初期的な正直性向上策を実装し，今後の信頼性向上に向けた基盤を構築した。
Link: https://arxiv.org/abs/2507.21503
ストリートレベル画像を用いた建築遺産の自動評価 [cs.CL, cs.CV]目的：建築遺産の価値評価
- 建築遺産は文化的アイデンティティの重要な要素であり，その保護は社会の責務である。
- 既存の遺産価値登録は煩雑で時間とコストがかかるため，効率化が求められている。
- AI技術を用いて，遺産価値の識別プロセスを効率化し，質の高いデータセットを構築する。
- GPTを用いて抽出した特徴量と既存の登録データを用いた機械学習モデルは，マクロF1スコア0.71を達成した。
- GPT由来のデータのみを用いた場合でも，マクロF1スコア0.60という良好な結果が得られた。
- 本研究は，より高品質なデータセットの構築と意思決定支援に貢献できる可能性がある。
Link: https://arxiv.org/abs/2508.11486
STAGNet：事故予測のための時空間グラフとLSTMフレームワーク [cs.CV]目的：事故予測のための時空間特徴の抽出と統合
- 道路安全の向上は，人身事故の減少と物的損害の軽減に不可欠である。
- 既存の事故予測システムは，コストが高く，導入が困難な場合がある。
- ダッシュカム映像のみを用いた，低コストで実用的な事故予測手法を開発する。
- 提案手法STAGNetは，既存のグラフニューラルネットワークよりも高い平均適合率を達成した。
- STAGNetは，複数の公開データセットで，衝突までの平均時間をより長く予測できた。
- データセットを跨いだ検証でも，STAGNetの有効性が確認された。
Link: https://arxiv.org/abs/2508.15216
SpatialVID：空間アノテーション付き大規模ビデオデータセット [cs.CV]目的：空間知能モデルの学習のための大規模データセット
- 空間再構成や世界探査といった空間知能は重要性が増している。
- 高品質な大規模学習データが不足しており，モデルの性能向上を阻害している。
- 現実世界の多様なシーンに対応可能な，高品質な学習データの提供を目指す。
- SpatialVIDは21,000時間以上の動画から，7,089時間の動的コンテンツを含む270万クリップを生成した。
- カメラ姿勢，深度，動的マスク，構造化キャプションなどの詳細な空間・意味情報が付与されている。
- データセットの統計分析により，モデルの汎化性能向上に貢献する多様性が確認された。
Link: https://arxiv.org/abs/2509.09676
ポリープのセグメンテーション改善と可視化による説明可能性分析 [cs.CV, cs.LG]目的：ポリープのセグメンテーション精度向上と，その根拠の可視化
- 大腸癌は罹患率・死亡率が高く，早期発見が重要である。ポリープはその前駆体となりうる。
- ポリープの正確な手動セグメンテーションは労力と時間がかかり，観察者によるばらつきが生じやすい。
- 深層学習による自動化と，その判断根拠の透明性を確保することで，臨床応用を促進すること。
- 提案手法PolypSeg-GradCAMは，Kvasir-SEGデータセットにおいて高いセグメンテーション精度を示した (Dice係数: 0.8902)。
- IoU (Intersection-over-Union) は0.8023，AUC-ROCは0.9722であり，高い感度 (0.9058) と精度 (0.9083) を実現した。
- Grad-CAMによる可視化により，モデルの予測が臨床的に妥当な領域に基づいて行われていることが確認された。
Link: https://arxiv.org/abs/2509.18159
CompareBench：ビジョン言語モデルにおける視覚的比較推論のためのベンチマーク [cs.CL, cs.CV, cs.AI]目的：視覚的比較推論の評価
- 視覚と言語を理解するAIの性能向上は，人間とAIのより自然な対話を可能にする上で重要である。
- 既存のビジョン言語モデルは，単純な視覚的比較推論タスクでも性能が低い場合がある。
- 現在のビジョン言語モデルの視覚的比較推論における限界を明らかにし，改善の方向性を示す。
- CompareBenchは，数量，時間，幾何学，空間に関する1000組の質問応答ペアで構成される。
- 強力なモデルであっても，時間順序の理解や空間関係の認識に課題があり，基本的な数え方や幾何学的な比較でも誤りを犯す。
- このベンチマークは，より信頼性の高いマルチモーダル推論を実現するための基礎を築く。
Link: https://arxiv.org/abs/2509.22737
フレームからクリップへ：長編動画理解のための学習不要適応的キークリップ選択 [cs.CV]目的：長編動画理解におけるキークリップ選択手法
- 動画と言語を組み合わせたモデル（VLM）の性能向上は，様々な視覚言語タスクにおいて重要である。
- VLMは，大量の視覚トークンを処理する必要があり，コンテキストウィンドウの制限が課題となっている。
- 動画の重要な時間的情報を保持しつつ，VLMの計算コストを抑えるための新たな手法を提案する。
- 本研究で提案するF2Cは，既存の均一サンプリングと比較して，Video-MME，LongVideoBench，MLVUにおいてそれぞれ最大8.1%，5.6%，10.3%の性能向上を達成した。
- フレーム分解能を制御することで，空間解像度とクリップ長のトレードオフを実現し，固定のトークン数を維持しながら動画理解の精度を高める。
- 時間的な一貫性を維持したキークリップ選択の重要性を示し，実世界の動画理解アプリケーションへのVLMのスケーリングを可能にする。
Link: https://arxiv.org/abs/2510.02262
D2E：デスクトップデータを活用したビジョン・アクション事前学習の拡張と，具現化されたAIへの転移 [cs.AI, cs.CV, cs.RO]目的：デスクトップ環境におけるデータを用いた，具現化されたAIタスクへの事前学習フレームワークの確立
- 具現化されたAIは，現実世界とのインタラクションを必要とするため，その学習には大規模なデータとコストがかかる。
- 物理的な軌跡データの収集は費用がかかるため，具現化されたAIの研究開発はデータ量の制約を受けている。
- デスクトップ環境のデータを活用することで，具現化されたAIの学習に必要なデータ取得コストを削減し，性能向上を目指す。
- D2Eフレームワークは，デスクトップ環境で収集されたデータを用いて，ロボットの具現化されたAIタスクにおける事前学習を可能にした。
- 1.3K+時間のデータを用いて，LIBERO操作タスクで96.6%，CANVASナビゲーションタスクで83.3%の成功率を達成した。
- デジタルインタラクションにおけるセンサーモータープリミティブが，物理的な具現化されたタスクへ有効に転移することを示した。
Link: https://arxiv.org/abs/2510.05684
DriveVLA-W0：自動運転におけるデータスケーリング則をワールドモデルが強化する [cs.CV, cs.AI]目的：自動運転のための汎化性能向上
- 自動運転は，社会における安全性向上や移動の効率化に不可欠な技術である。
- 大規模なデータが必要だが，行動のラベルは疎であり，モデル能力を十分に活用できていない。
- ワールドモデルによる自己教師あり学習で，環境の潜在的なダイナミクスを学習し，性能向上を目指す。
- DriveVLA-W0は，離散的な視覚トークンと連続的な視覚特徴の両方に対して有効であることが示された。
- NAVsimベンチマークおよび大規模な社内データセットで，既存のBEVおよびVLAの性能を大幅に上回った。
- データセットの規模が大きくなるにつれて，性能向上の速度が加速するという，データスケーリング則を強化することが確認された。
Link: https://arxiv.org/abs/2510.12796
3D脳解析のための深層生成事前分布 [cs.CV, cs.LG]目的：3D脳画像解析における逆問題解決のための深層生成事前分布の応用
- 脳画像解析は，脳の構造と機能の理解に不可欠であり，医療診断や治療に貢献する重要な分野である。
- 従来の脳画像解析では，複雑な脳の構造を捉えきれない古典的な数学的事前分布に依存している場合が多い。
- 拡散モデルを用いて，脳の複雑な構造をより正確に捉えた事前分布を構築し，脳画像解析の精度向上を目指す。
- 拡散モデルを事前分布として用いることで，多様な脳MRIデータに対して一貫性のある高品質な解が得られた。
- 既存の深層学習手法の結果を改善し，解剖学的忠実度を高めることが示された。
- ペアリングされた学習データセットを必要とせず，最先端の性能を達成した。
Link: https://arxiv.org/abs/2510.15119
双曲空間におけるマルチモーダル大規模言語モデルの効率的な学習 [cs.CL, eess.AS, cs.CV]目的：マルチモーダル大規模言語モデルの学習効率向上
- 視覚とテキストの理解を統合するMLLMは，AI研究において重要な役割を担う。
- 既存の視覚エンコーダは，言語との多粒度アライメントが不十分であり，計算コストが高い。
- 双曲空間を利用し，視覚表現とテキスト表現の粒度ギャップを埋めることで学習効率を高める。
- 提案手法HyperETは，既存の事前学習済みMLLMやファインチューニング済みMLLMの性能を向上させる。
- HyperETは，わずか1%未満の追加パラメータで，一貫して性能改善を実現する。
- 双曲空間における動的半径調整と，効率的なパラメータ化戦略が性能向上に寄与する。
Link: https://arxiv.org/abs/2510.20322
単眼カメラによる3Dマップ上での自己位置推定：グローバル特徴とローカル特徴の融合 [cs.CL, cs.RO, cs.CV]目的：単眼カメラを用いた3Dマップ上での自己位置推定手法
- 自動運転の実現には，安価なセンサーによる高精度な自己位置推定が不可欠である。
- 従来のカメラベースの自己位置推定は，動的物体に対してロバスト性に課題があった。
- 動的物体が存在する環境下での自己位置推定精度向上を目指す。
- 提案手法は，CNNとVision Transformerを組み合わせることで，グローバル特徴とローカル特徴を効果的に活用する。
- CGデータセットにおいて，動的物体が存在する場合に，最先端手法と比較して精度向上率が1.5倍となった。
- 公開データセット上では，最先端手法よりも自己位置推定誤差を20.1%削減し，平均7.51cmの誤差で自己位置推定を実現した。
Link: https://arxiv.org/abs/2510.26170
圃場内作物収量回帰のための地理空間基礎モデルの微調整：FARM [cs.CV, cs.LG, eess.IV]目的：圃場内菜種収量の高精度予測
- 食料安全保障と現代農業管理において，正確かつタイムリーな作物収量予測は不可欠である。
- 従来の収量予測手法は，精密農業に必要なスケーラビリティや粒度が不足している。
- 大規模な地理空間基礎モデルを微調整し，データ不足な精密農業における予測精度向上を目指す。
- FARMは，カナダのプレーリー地方のデータセットにおいて，RMSE 0.44，R^2 0.81を達成した。
- 限られた地上真値ラベルでのFARMの微調整は，同アーキテクチャをゼロから学習するよりも優れた性能を示した。
- FARMは3D-CNNやDeepYieldといったベースラインモデルと比較して，農業分野特化型応用における基礎モデル微調整の有効性を示した。
Link: https://arxiv.org/abs/2510.26609
V-Thinker：画像を用いたインタラクティブな思考 [cs.CV]目的：画像とのインタラクションを通じた長期的推論能力の統合
- 画像と言語の両方を理解する大規模モデルの応用範囲拡大に不可欠な研究分野である。
- 既存モデルは，限られた視覚的ツールやタスク固有のワークフローに制約されている。
- 汎用的なマルチモーダル推論アシスタントにより，視覚中心のインタラクティブな思考を実現する。
- V-Thinkerは，多様性，品質，難易度の3つの次元でインタラクティブな推論データセットを自動的に生成・進化・検証する「データ進化フライホイール」を備える。
- V-Thinkerは，ポイントレベルの教師あり学習による知覚の整合性を確立した後，二段階の強化学習フレームワークを通じてインタラクティブな推論を統合する「視覚的漸進的トレーニングカリキュラム」を採用する。
- VTBenchという専門家が検証したベンチマークを導入し，V-Thinkerが汎用およびインタラクティブな推論シナリオにおいて強力なベースラインモデルを凌駕することを示した。
Link: https://arxiv.org/abs/2511.04460
合成画像検索におけるマルチモデル協調のための動的適応融合 [cs.GR, cs.CV]目的：合成画像検索におけるマルチモデル協調による性能向上
- 画像とテキスト間の関連性を理解し，適切な画像を検索することは，情報検索の重要な課題である。
- 既存手法は単一のモデルに依存しており，画像とテキストの細かな関係性を捉えきれないという課題がある。
- 本研究では，異なるモデルの強みを動的に組み合わせることで，より高精度な画像検索を実現する。
- 提案手法DAFMは，複数のモデルの貢献度を適応的に調整することで，検索精度を向上させる。
- CIRRベンチマークにおいて，Recall@10で93.21%，Rmeanで84.43%を達成し，既存手法を最大4.5%上回る結果を示した。
- FashionIQベンチマークにおいても，平均Rmeanで67.48%を達成し，良好な性能を実証した。
Link: https://arxiv.org/abs/2511.05020
ConsistTalk：拡散ノイズ探索による強度制御可能で時間的に一貫性のあるトークンヘッド生成 [cs.CV]目的：強度制御可能かつ時間的一貫性を持つトークンヘッド生成手法
- 動画生成技術の発展は，エンターテイメントやコミュニケーションの分野に革新をもたらす。
- 既存手法では，ちらつき，IDの変動，音声と映像の同期不良といった課題が存在する。
- これらの課題を解決し，より自然で安定したトークンヘッド動画生成を目指す。
- 本研究では，光学的フローを活用した時間モジュールにより，ちらつきを抑制し時間的一貫性を向上させた。
- 音声から強度を推定するモデルを導入し，音声と視覚的動きの自然な連動を実現した。
- 拡散ノイズ初期化戦略により，IDの保持と動きの改善に貢献した。
Link: https://arxiv.org/abs/2511.06833
劣化古文書と印影を含む検出・二値化のためのベンチマークデータセットDKDS [cs.CV]目的：古文書と印影の検出・二値化タスクのための新しいベンチマークデータセット
- 古文書は歴史的・文化的な価値が高く，そのデジタルアーカイブ化が求められている。
- 古文書の劣化や印影の存在は，OCRの精度を著しく低下させる要因となっている。
- 劣化や印影を含む古文書に対するOCR技術の性能向上を目指す。
- DKDSデータセットを構築し，古文書と印影の検出・二値化タスクのベンチマークとして公開した。
- YOLOモデルを用いた検出実験，伝統的な二値化手法およびGANを用いた二値化実験でベースライン結果を得た。
- データセットと実装コードは公開されており，今後の研究の促進に貢献する。
Link: https://arxiv.org/abs/2511.09117
高速かつ堅牢な拡散モデルサンプリングのための階層的スケジュール最適化 [cs.LG, cs.CV]目的：拡散モデルのサンプリング速度向上と堅牢性確保のための最適なスケジュール
- 拡散モデルは高品質な画像生成を可能にするが，サンプリングに時間がかかる点が課題である。
- 既存のスケジュール最適化手法は，効果，適応性，堅牢性，計算効率を両立できていない。
- 本研究は，限られた計算資源で高品質なサンプリングを実現するスケジュール最適化手法を開発する。
- 提案手法HSOは，少ないFunction Evaluation回数(NFE)でも優れた性能を発揮する。
- NFEが5回という極めて少ない状況下で，Stable Diffusion v2.1においてFIDスコア11.94を達成した。
- 再学習のコストをかけずに，高速な最適化により拡散モデルの高速化を実現する。
Link: https://arxiv.org/abs/2511.11688
MAVIS：長形式の視覚的質疑応答におけるマルチモーダル出典帰属のベンチマーク [cs.CV]目的：長形式の視覚的質疑応答におけるマルチモーダル出典帰属システムの評価
- AI生成される回答の信頼性向上が重要であり，出典明記は検証を可能とする。
- 既存研究はテキストのみに焦点を当てており，マルチモーダルな情報の役割が軽視されてきた。
- ユーザーの意図理解，マルチモーダルな証拠検索，そして引用付きの回答生成を実現する。
- マルチモーダルRAGは，単一モーダルRAGよりも情報量と流暢性の高い回答を生成する。
- 画像ドキュメントに対する正当性は，テキストドキュメントよりも低く，マルチモーダル設定でその差が拡大する。
- 同じマルチモーダルドキュメントでも，プロンプト方法によって情報量と正当性のトレードオフが発生する。
Link: https://arxiv.org/abs/2511.12142
PerTouch：VLM駆動によるパーソナライズされたセマンティックな画像レタッチ [cs.CV]目的：パーソナライズされた美的嗜好に沿った画像品質の向上
- 画像レタッチは，視覚的品質向上に不可欠であり，多様な応用分野で需要が高い。
- ユーザーの主観的な好みを反映しつつ，レタッチの制御性を両立することが困難である。
- 自然言語による指示と視覚的な制御を組み合わせ，ユーザーの意図に合致したレタッチを実現する。
- PerTouchは，拡散モデルを用いてセマンティックレベルでの画像レタッチを可能にし，全体的な美観を維持する。
- VLM駆動エージェントにより，多様な指示に対応し，フィードバックに基づいた再考とシーン認識メモリにより，ユーザーの意図により正確に合致する。
- 実験結果から，各構成要素の有効性と，パーソナライズされた画像レタッチにおけるPerTouchの優位性が確認された。
Link: https://arxiv.org/abs/2511.12998
2つの敵対者に対する調整：ハイパーパラメータ調整による転移攻撃とクエリベース攻撃に対するロバスト性の向上 [cs.LG, cs.CR, cs.CV]目的：転移攻撃とクエリベース攻撃に対するロバスト性の向上
- 機械学習モデルのセキュリティ確保は重要であり，攻撃に対するロバスト性は，実用化において不可欠な要素である。
- 従来の学習方法では，攻撃の種類によって最適なハイパーパラメータが異なるため，両方の攻撃に同時に対応することが困難であった。
- ハイパーパラメータ調整を通じて，転移攻撃とクエリベース攻撃の両方に対するロバスト性を同時に高めることを目指す。
- 学習率の低下は転移攻撃に対するロバスト性を最大64％向上させる。
- 一方，学習率の増加はクエリベース攻撃に対するロバスト性を最大28％向上させる。
- 分散モデルはハイパーパラメータ調整の恩恵が最も大きく，両方の攻撃タイプを効果的に軽減できるトレードオフを実現する。
Link: https://arxiv.org/abs/2511.13654
CompEvent：低照度ビデオの鮮明化とデブラーのための複素値イベント-RGB融合 [cs.CV]目的：低照度ビデオの鮮明化とデブラーのための複素値イベントとRGBフレームの融合手法
- 夜間監視や自動運転などの分野において，低照度環境下での映像処理の重要性が高まっている。
- 既存の融合手法は段階的であり，低照度とモーションブラーの複合的な劣化に対する効果が限定的である。
- イベントデータとRGBフレームの全体的な融合により，低照度ビデオの鮮明化とデブラー性能を向上させる。
- 提案手法CompEventは，複素値畳み込みとGRUを用いて時間軸上のアライメントと連続的な融合を実現する。
- 複素値信号処理モジュールにより，空間情報と周波数情報を統合的に処理し，深層融合を促進する。
- 実験結果から，CompEventが最先端手法を凌駕し，低照度ビデオの鮮明化において優れた性能を発揮することが示された。
Link: https://arxiv.org/abs/2511.14469
GeoVista：ウェブ拡張型エージェントによる地理位置特定のための視覚的推論 [cs.CV]目的：地理位置特定のための視覚的推論におけるエージェントの性能向上
- 地理位置特定は，ロボティクスや拡張現実など幅広い分野で重要であり，その精度向上は不可欠である。
- 既存の地理位置特定ベンチマークは高解像度画像や高度な推論能力を必要とする課題に対応できていない。
- ウェブ検索と視覚情報を統合し，より高精度な地理位置特定を可能にするエージェントモデルを開発すること。
- 本研究では，画像拡大ツールとウェブ検索ツールを統合したエージェントモデルGeoVistaを提案した。
- GeoVistaは，既存のオープンソースエージェントモデルを大幅に上回り，Gemini-2.5-flashやGPT-5に匹敵する性能を示した。
- 冷Start教師あり微調整と強化学習による完全な訓練パイプラインを開発し，地理情報を活用した階層型報酬を採用した。
Link: https://arxiv.org/abs/2511.15705
NeAR：結合ニューラルアセット・レンダリングスタック [cs.CV]目的：ニューラルアセットとニューラルレンダリングの統合
- 高品質な3Dコンテンツ生成において，アセット作成とレンダリングの効率が重要である。
- 従来のアセット作成とレンダリングは分離しており，最適化の余地が残されている。
- アセット表現とレンダラーを共同設計することで，より高精度なコンテンツ生成を目指す。
- NeARは，Lighting-Homogenized SLAT (LH-SLAT) を導入し，照明の影響を排除した潜在空間を構築する。
- この潜在空間を解釈する照明を意識したニューラルデコーダーにより，リアルタイムでの再照明が可能となる。
- 実験の結果，NeARは従来の技術と比較して，定量的な指標と知覚的な品質の両方で優れた性能を示した。
Link: https://arxiv.org/abs/2511.18600
複数プレイヤーゲームにおけるESSの計算 [cs.CL, cs.GT, cs.AI, cs.MA, econ.TH, q-bio.PE]目的：複数プレイヤーの非退化正常形ゲームにおける全ての進化的に安定な戦略
- ゲーム理論は，生物学，経済学，政治学など幅広い分野に応用される重要な学問分野である。
- プレイヤー数が多いゲームにおける進化的に安定な戦略の計算は，計算量が膨大であり困難である。
- 3人以上のプレイヤーを持つ非退化正常形ゲームにおけるESSを効率的に計算すること。
- 本研究では，3人以上のプレイヤーを持つ非退化正常形ゲームにおける全ての進化的に安定な戦略を計算するためのアルゴリズムを提案した。
- 提案アルゴリズムにより，これまで困難であった多人数プレイヤーゲームにおけるESSの解析が可能となった。
Link: https://arxiv.org/abs/2511.20859