arXiv雑要約
画像・音声 - 2025/12/16 公開
UAGLNet:不確実性集約型グローバル・ローカル融合ネットワーク:協調的CNN-Transformerを用いた建物抽出 [cs.CV]目的:リモートセンシング画像からの建物抽出
- 都市計画や災害対策において,正確な建物情報の抽出は不可欠である。
- 既存手法では,多規模特徴の抽出における特徴ピラミッドのギャップやグローバル・ローカル特徴の統合不足が課題である。
- 不確実性モデリングに基づき,高品質なグローバル・ローカル視覚セマンティクスを活用し,建物抽出の精度向上を目指す。
- 提案手法UAGLNetは,CNNとTransformerを協調的に用いることで,建物構造の複雑さに対応し,局所的特徴とグローバル特徴を効果的に捉える。
- 中間協調的相互作用ブロック(CIB)は,ネットワークの深層化に伴う局所・グローバル特徴間のギャップを縮小する。
- 不確実性集約型デコーダ(UAD)は,曖昧な領域におけるセグメンテーションの精度を向上させ,建物抽出の性能を向上させる。
SLIM-VDB:リアルタイム3D確率的セマンティックマッピングフレームワーク [cs.RO, cs.CV]目的:3Dセマンティックマッピングの実現
- ロボットの自律的な環境理解には,周囲の3Dセマンティックマップが不可欠である。
- 既存のセマンティックマッピングシステムは,メモリ効率や計算コストに課題がある。
- OpenVDBを活用し,固定カテゴリとオープンセットのラベルを統合する効率的なマッピング手法を開発する。
- SLIM-VDBは,既存手法と比較してメモリ使用量と統合時間を大幅に削減できる。
- マッピング精度は,最新の手法と同等レベルを維持している。
- C++で実装され,Pythonインターフェースも提供するオープンソースコードが公開されている。
SCAdapter:拡散モデルにおけるスタイル転送のためのコンテンツスタイル分離 [cs.CC, cs.CV]目的:拡散モデルを用いたスタイル転送におけるコンテンツとスタイルの分離
- 画像生成技術の発展に伴い,スタイル転送は多様な応用が期待される分野である。
- 既存手法では,コンテンツのスタイルと参照画像のスタイルが混ざり,写実的な転送が困難である。
- 本研究は,コンテンツとスタイルを明確に分離し,高品質かつ効率的なスタイル転送を実現する。
- SCAdapterは,CLIP画像空間を活用し,コンテンツとスタイル特徴を効果的に分離・統合する。
- 提案手法は,従来のベースラインおよび拡散ベースラインと比較して,顕著に優れた性能を示す。
- DDIM反転や推論段階の最適化を不要とすることで,推論速度を大幅に向上させ,実用性を高めている。
VLCache:2%のビジョン用トークン計算と98%の再利用による視覚言語推論 [cs.CL, cs.CV]目的:視覚言語推論における計算効率の向上
- 大規模言語モデルとビジョンモデルの組み合わせが注目されているため,推論速度の改善が重要である。
- マルチモーダル入力の繰り返しにおいて,不要な再計算が多く,計算コストが高いという課題がある。
- KVキャッシュとエンコーダキャッシュを効率的に再利用し,再計算量を削減することで,高速な推論を実現する。
- VLCacheは,完全な再計算と同等の精度を維持しつつ,トークン計算量を2-5%に削減することに成功した。
- その結果,TTFT(Time To First Token)が1.2倍から16倍に高速化され,実用的なデプロイメントにおいて大幅な速度向上を可能にした。
- 提案されたVLCacheパイプラインはSGLangに統合され,より高速な推論を実現している。
生成AI画像検出におけるジェネレーター対応プロトタイプによるスケールアップ [cs.CV]目的:生成AI画像検出器の汎化性能向上
- AI生成画像の急増により,偽造画像検出の重要性が増している。
- 多様な生成モデルからのデータ集合では,検出性能が低下する現象が見られる。
- データ多様性とモデルのボトルネック問題を解決し,よりロバストな検出器を開発する。
- 提案手法GAPLは,ジェネレーターに対応したプロトタイプ学習により,特徴空間の低分散化を実現した。
- 低ランク適応を用いた二段階学習により,事前学習済みの知識を活かしつつ,識別能力を向上させた。
- 様々なGANや拡散モデルにおいて,最先端の検出精度を達成し,汎化性能の高さを示した。
VoroLight:汎用入力からの高品質ボロノイメッシュ学習 [cs.CG, cs.CV, cs.GR, cs.LG, math.OC]目的:3D形状再構成のためのボロノイメッシュ生成手法
- 3D形状の表現は,コンピュータグラフィックスやロボティクスなど幅広い分野で重要である。
- 既存手法では,多様な入力に対応しつつ,滑らかで watertight な形状を生成することが難しい。
- 多様な入力から高品質なボロノイメッシュを生成し,3D形状再構成の精度向上を目指す。
- 本研究では,画像,陰関数,点群,メッシュといった多様な入力から直接,滑らかで watertight な形状を生成する VoroLight を提案する。
- VoroLight は,微分可能なボロノイ表現を初期化に利用し,polygon-face sphere training で表面品質を向上させる。
- さらに,内部生成点を利用した体積最適化により,ボロノイ表現を再利用することで,より高品質なメッシュを生成する。
雪上における課題への取り組み:ロバストな強化学習による安全な自律車線維持 [cs.RO, cs.AI, cs.CV, cs.LG]目的:雪上路面における自律走行車の車線維持システムのアルゴリズム
- 自動運転技術は,交通安全の向上や移動の効率化に不可欠である。
- 雪上路面は,車両の制御を困難にする滑りやすさなどの問題がある。
- 雪上路面における車両の安定性と安全性を向上させることを目指す。
- 本研究では,深層強化学習を用いた2つの新しいアルゴリズムを提案した。
- AR-CADPGは,AR-RDPGよりも優れた経路追跡精度とロバスト性を示した。
- シミュレーションと実車実験により,提案手法の有効性と安定性が確認された。
ゼロショット敵対的CLIPの不確実性調整 [cs.AR, cs.RO, cs.CV, cs.AI, cs.LG]目的:ゼロショット敵対的CLIPにおける不確実性調整
- 画像認識の信頼性向上は,安全性が求められる応用において不可欠である。
- 敵対的攻撃に対する脆弱性が,CLIPモデルの信頼性を損なう。
- 不確実性調整を通じて,敵対的攻撃下での信頼性と汎化性能を改善する。
- 敵対的微調整の目的関数に不確実性調整項を加えることで,精度と不確実性の両方を改善した。
- 出力層をディリクレ分布の集中パラメータとして再表現することで,意味構造と予測確信度を統合的に捉えた。
- 複数のゼロショット分類ベンチマークにおいて,本手法は校正された不確実性を回復し,高い敵対的ロバスト性とクリーンな精度を達成した。
テキストから画像生成のための数段階蒸留:実践的ガイド [cs.HC, cs.IR, eess.SY, cs.SY, cs.CV]目的:テキストから画像生成における蒸留技術の適用と改善
- 画像生成技術は,現実世界の多様な応用において重要な役割を担っている。
- 拡散モデルの蒸留はクラス条件付き画像合成では成功しているが,テキスト指示による画像生成への応用は不明確である。
- 自由形式の言語プロンプトに対する蒸留技術の課題を克服し,効率的な画像生成を実現する。
- 既存の蒸留手法をFLUX.1-liteという強力なテキストから画像生成モデルに適用し,体系的な比較を行った。
- 入力スケーリング,ネットワークアーキテクチャ,ハイパーパラメータに関する実践的なガイドラインを提示した。
- 高速,高忠実度,リソース効率の良い拡散ジェネレーターの実装に向けた基盤を確立した。
ライトフィールドに基づく,未観測オブジェクトの6DoFトラッキング [cs.CV]目的:未観測オブジェクトに対する6DoFトラッキング手法
- ロボット工学や自動運転において,対象物を正確に追跡することは重要な課題である。
- 既存手法は事前に取得したモデルに依存するため,未知の複雑な形状の対象物への対応が困難である。
- ライトフィールド画像を用いて,事前学習モデルに依存せず,複雑な反射などにも強いトラッキングを実現する。
- 提案手法は,ライトフィールド画像からセマンティック特徴と幾何学的特徴を抽出し,ガウススプラットに変換する。
- これにより,微分可能なレンダリングと姿勢最適化を可能にする統一的な物体表現を実現した。
- 難易度の高い反射オブジェクトを含むデータセットを新たに作成し,提案手法の有効性を示した。
糖尿病網膜症のグレーディングにおける説明可能な病変局在化と重症度回帰のためのテキスト誘導型弱学習 [cs.CV]目的:糖尿病網膜症のグレーディングと病変分類の統合
- 臨床診断の精度向上に貢献するため,医療画像解析の重要性が高まっている。
- 医療画像のピクセルレベルアノテーションはコストと時間がかかり,課題となっている。
- 高品質なアノテーションが不要で,解釈可能な自動網膜画像解析を実現する。
- TWLRは,ドメイン知識を組み込んだテキスト埋め込みにより,病変分類とグレーディングを同時に行う。
- 反復的な重症度回帰により,ピクセルレベルのアノテーションなしに病変局在化と病状の改善を可視化する。
- FGADR,DDR等のデータセットで,高い分類・セグメンテーション性能と説明可能性を示した。
HQ-MPSD:一部分的ディープフェイク音声検出のための多言語アーティファクト制御ベンチマーク [cs.SD]目的:一部分的ディープフェイク音声検出のための高品質な多言語データセット
- 音声の改ざん技術の進歩に伴い,ディープフェイク音声の検出が重要となっている。
- 既存のデータセットは,古い合成システムに依存しており,現実的な改ざんの兆候を捉えられていない。
- より現実的で多様なデータセットを用いて,ディープフェイク音声検出の汎化性能を評価すること。
- HQ-MPSDは,8言語,550話者,350.8時間の高品質な音声データで構成される。
- MOS評価とスペクトログラム分析により,生成された音声の自然性が確認された。
- 既存の検出モデルは,HQ-MPSD上で80%を超える性能低下を示し,汎化性能の課題を浮き彫りにした。
JoDiffusion:セマンティックセグメンテーション向上のためのピクセルレベル注釈付き画像同時拡散 [cs.CV]目的:セマンティックセグメンテーションモデル学習のための合成データセット生成
- セマンティックセグメンテーションは,画像認識分野における重要なタスクであり,自動運転や医療診断等に応用が期待されている。
- ピクセルレベルの注釈作成はコストと時間がかかるため,高品質な学習データの確保が課題となっている。
- テキストプロンプトのみから,一貫性のある画像と注釈を同時に生成し,データセット作成の効率化を目指す。
- 提案手法JoDiffusionは,画像生成と注釈生成を同時に行う拡散モデルであり,既存手法と比較して高い拡張性を持つ。
- JoDiffusionは,画像と注釈を共有潜在空間に写像することで,セマンティックな不整合を解消し,より高品質な合成データセットを生成する。
- Pascal VOC,COCO,ADE20K等のデータセットを用いた実験により,JoDiffusionが生成したデータセットがセマンティックセグメンテーションの性能向上に貢献することが示された。
次は何が起こるか?統一されたビデオモデルによる次シーン予測 [cs.CV]目的:次シーン予測タスクにおける統一ビデオモデルの性能向上
- 視覚生成技術はAI研究において重要であり,様々な応用が期待されている。
- 既存モデルはテキストからのビデオ生成に偏っており,時間的推論能力が十分に活かされていない。
- 統一ビデオモデルの時間的・因果的推論能力を向上させ,より自然な未来予測を可能にすること。
- 提案手法は,Qwen-VLとLTXを組み合わせた統一フレームワークを採用し,次シーン予測において高い性能を示した。
- 大規模な次シーン予測データセットを新たに構築し,テキストからビデオの事前学習,教師ありファインチューニング,強化学習の3段階でモデルを訓練した。
- 因果整合性報酬を用いた強化学習により,より一貫性のある未来予測を実現した。
深層学習 기반 mmWaveレーダーセンシングにおける環境汎化のための包括的な展開志向評価 [cs.CV, cs.LG]目的:深層学習に基づくmmWaveレーダーセンシングにおける環境汎化技術の評価
- 深層学習を用いた無線センシングは,様々な応用において重要性が増している。
- 異なる環境間での汎化性能は,実用化における大きな課題となっている。
- 本研究は,環境変化に対応可能なロバストなレーダーセンシングシステムの開発を目指す。
- シグモイド関数を用いた振幅重み付けは,他の手法と比較して一貫して優れた環境汎化性能を示した。
- データ拡張は,平均絶対誤差を最大8.8%改善する追加的な効果をもたらした。
- 大規模な空間シフトに対しては,転移学習が不可欠であり,RMSEとMAEをそれぞれ82.1%,91.3%削減した。
将来予測に基づく指示型ストリーミング動画生成 [cs.CV]目的:指示型ストリーミング動画の生成手法
- コンテンツ作成,教育,人間とAIのインタラクション等,幅広い分野への応用が期待される分野である。
- 既存の動画拡散モデルでは,長時間の複数ステップのアクションにおいて,時間的な一貫性や制御が課題となっていた。
- 時間的なずれを軽減し,一貫性を保ちつつ,インタラクティブな動画生成を実現することを目的とする。
- 提案手法SneakPeekは,将来のキーフレームを予測し,時間的な一貫性を高めることで,高精度な指示動画を生成する。
- デュアル領域KVキャッシュスキームにより,推論時の露出バイアス問題を軽減し,より自然な動画生成を可能にする。
- マルチプロンプトによる条件付けにより,複雑な複数ステップのタスク記述に忠実な動画生成を実現した。
Motus:統一された潜在行動世界モデル [eess.SY, cs.SY, cs.CV, cs.LG, cs.RO]目的:統一された潜在行動世界モデルの構築
- 汎用的な具現化エージェントには統合的なシステムが不可欠であり,その実現が求められている。
- 既存手法は,知覚,世界モデル,制御といった機能を分離しているため,マルチモーダルな生成能力の統合が困難である。
- 大規模異種データからの学習を可能にする,統一的なモデルの構築を目指す。
- Motusは,既存の事前学習済みモデルと豊富なモーション情報を活用したMixture-of-Transformer (MoT) アーキテクチャを導入した。
- シミュレーション環境において,X-VLAやPi0.5と比較してそれぞれ+15%,+45%の性能向上を達成した。
- 実世界においても+11~48%の性能向上を示し,統合的なモデル化が下流のロボットタスクに貢献することが示された。
電波センシングにおける人体推定:ルールベース,機械学習,深層学習の包括的評価 - 精度,空間的汎化性能,出力粒度のトレードオフ [cs.CV]目的:電波センシングを用いた人体推定における,ルールベース手法,機械学習モデル,深層学習モデルの比較検討
- 人体の検出・追跡技術は,ヘルスケア,セキュリティ,スマートホームなど幅広い分野で重要性を増している
- 環境の変化に弱く,汎化性能が低いという機械学習モデルの課題が存在する
- 異なる環境における性能を比較し,最適な手法を見出すことを目指す
- 学習ベースの手法は,同一環境下では高精度な詳細な出力を可能にするが,環境変化に脆弱である。
- ルールベースの手法は詳細な出力は難しいものの,環境変化に対して頑健性を示す。
- モデルの種類にかかわらず,空間的汎化性能と出力粒度の間には明確なトレードオフが存在する。
拡散モデルにおける概念除去のための双方向フレームワーク Bi-Erasing [cs.CV, cs.CR]目的:拡散モデルからの不要または有害な視覚的概念の除去
- 画像生成AIの安全性確保は重要であり,有害な画像生成を抑制する必要がある。
- 既存手法では,概念除去と生成品質のバランスを取ることが困難である。
- 概念抑制と安全性の向上が同時達成できる手法を提案し,そのバランスを取る。
- 提案手法Bi-Erasingは,テキストプロンプトと画像の結合表現に基づき,有害な意味の抑制と安全な代替案の視覚的ガイダンスを同時に行う。
- 負のブランチで有害な意味を抑制し,正のブランチで安全な代替案の視覚的誘導を行うことで,概念除去の有効性と生成品質のバランスを実現した。
- マスクベースのフィルタリングにより,無関係なコンテンツからの干渉を防ぎ,実験によりベースライン手法を上回る性能を示した。
GTR-Turbo:エージェント型VLM学習のための秘密の無料教師 [cs.CV, cs.AI]目的:エージェント型VLM学習における報酬の希薄性と長期的な信用割当問題の解決
- マルチモーダルエージェントは多様なタスクをこなせるため,その重要性が増している。
- 従来の強化学習では報酬が少ない,また学習に時間がかかるという課題があった。
- 高価な教師モデルに依存せず,効率的に学習を促進する手法の確立を目指す。
- GTR-Turboは,GTRと同等の性能を,高価な教師モデルなしに達成した。
- 学習中のチェックポイントを統合することで「無料の教師」として機能し,学習を効率化する。
- 精度が10-30%向上し,学習時間と計算コストをそれぞれ50%と60%削減した。
非対称クエリ処理によるテスト時効率的な視覚場所認識への道 [cs.DL, cs.CV]目的:視覚場所認識におけるテスト時の効率性向上
- ロボットや自動運転など,環境理解に基づく自律行動において不可欠な技術である。
- 高性能なモデルは計算コストが高く,リソース制約のあるデバイスへの実装が困難である。
- 計算コストを抑えつつ,高性能な視覚場所認識を実現すること。
- 本研究では,高性能なオフラインモデルと軽量なオンラインネットワークを組み合わせた非対称なVPRフレームワークを提案した。
- 地理情報に基づいたメモリバンクを導入することで,計算量の多いk-NN探索を回避し,効率的な特徴量検索を実現した。
- 提案手法は既存手法と比較して計算コストを大幅に削減し,リソース制約下でも高い認識性能を達成した。
動的な記憶の構築:汎用的な医療基盤モデルのための検索誘導型継続学習 [cs.CV]目的:多岐にわたる医療タスクへの適応能力,微細なドメイン内特徴の保持,およびリアルタイム学習能力の評価
- 医療分野におけるマルチモーダルなビジョン・言語モデルの可能性は大きい。継続学習は重要性が高まっている。
- 異なるモダリティ間の大きなドメインギャップを埋めつつ,モダリティ内の微細な特徴を保持することが課題である。
- 検索拡張生成(RAG)と動的な知識蒸留を組み合わせ,この課題を解決することを目的とする。
- 提案手法は,PubMedの論文から構築した大規模な医療データベースを活用し,リアルタイムな知識検索によるモデルの微調整を可能にする。
- 動的な知識蒸留フレームワークにより,パラメータ空間の重要度,蒸留された知識の粒度,参照データセットの分布を動的に調整することで,微細な特徴の保持とドメインギャップの克服を両立する。
- 厳格な医療汎用タスク漸進学習(MGTIL)ベンチマークを用いた実験により,提案手法が全ての指標において最先端の性能を達成することが示された。
ケースベース推論を用いた心疾患予測 [cs.CV, cs.CL]目的:心疾患予測の精度向上
- 医療分野において,疾患の正確な予測は患者の適切な治療に不可欠である。
- 従来の医師の経験に基づく診断は,主観的で精度に限界がある場合がある。
- より客観的かつ高精度な心疾患予測手法を確立し,医療現場での活用を目指す。
- ケースベース推論(CBR)は,心疾患予測において97.95%という高い精度を達成した。
- 心疾患の発症確率は男性が57.76%,女性が42.24%であることが示された。
- 喫煙や飲酒といった要因が,特に男性における心疾患のリスクを高めることが示唆された。
DiRe:データセット凝縮のための多様性促進正則化 [cs.RO, cs.CV, cs.LG]目的:データセット凝縮における,大規模データセットと同等の性能を持つ小規模データセットの合成
- 機械学習モデルの学習効率向上には,データセットの規模を縮小することが重要である。
- 既存の凝縮手法では,合成されたデータセットに冗長性が高く,多様性が不足している。
- 合成データセットの冗長性を低減し,多様性を向上させることで,汎化性能を高める。
- 提案手法DiReは,コサイン類似度とユークリッド距離に基づく正則化項であり,既存の凝縮手法に容易に組み込むことができる。
- CIFAR-10からImageNet-1Kまでの複数のベンチマークデータセットで,DiReの追加により,最先端の凝縮手法の汎化性能と多様性が向上することが示された。
- DiReは,データセット凝縮における多様性確保の有効性を示唆しており,今後の研究の方向性を示す。
オープンボキャブラリ時代における教師なし変化検出の新手法 UniVCD [cs.CV, cs.AI]目的:オープンボキャブラリにおける教師なし変化検出
- 都市開発や環境モニタリングなど幅広い分野で変化検出が重要視されている。
- 既存手法は教師あり学習に依存し,アノテーションコストが高く,汎化性能が低い。
- ラベルデータやペア画像を用いず,多様なシーンで変化検出を可能にする。
- UniVCDは,凍結されたSAM2とCLIPを用いて,カテゴリに依存しない変化を検出する。
- 軽量な特徴量アライメントモジュールにより,高解像度かつ意味的に認識可能な変化推定を実現。
- 複数のベンチマークにおいて,既存手法と同等以上の性能をF1スコアやIoUで示した。
ADHint:難易度事前分布を用いた強化学習のための適応的ヒント [cs.CV, cs.LG]目的:強化学習におけるヒントの活用方法
- 近年の大規模言語モデルでは,知識拡張と推論能力の向上が重要視されている。
- 既存のヒントベースRL手法では,難易度を考慮せずヒント比率を調整するため,学習が不安定になりやすい。
- ヒントの難易度に応じて比率を調整し,探索と模倣のバランスを取ることで,学習の安定化を目指す。
- ADHintは,サンプルごとの難易度に基づいてヒント比率を適応的に調整し,ロールアウトを誘導する。
- Consistency-based Gradient ModulationとSelective Maskingにより,ヒント内の勾配を調整し,偏った更新を防ぐ。
- ロールアウトの難易度分布を用いて,ヒントの相対的な利点を推定し,バランスの取れた更新を実現する。
汎化と特殊化の調和:不確実性に基づいた半教師あり医療画像セグメンテーションのための協調学習 [cs.CV, cs.AI, cs.LG]目的:半教師あり医療画像セグメンテーションにおける汎化と特殊化の調和
- 医療画像解析の精度向上は,疾患の早期発見や治療効果の改善に不可欠である。
- 大規模事前学習モデルは汎化性能が高い反面,限られたアノテーションや稀な病理変化への適応が課題である。
- 汎用的な知識とタスク固有の知識を調和させ,少ないアノテーションで高精度なセグメンテーションを実現する。
- 提案手法UnCoLは,汎化と特殊化を両立する二重教師フレームワークにより,既存の半教師ありセグメンテーション手法や事前学習モデルを上回る性能を示す。
- UnCoLは,予測不確実性に基づいて疑似ラベル学習を適応的に制御することで,信頼性の低い教師信号を抑制し,曖昧な領域での学習を安定化させる。
- 本研究は,大幅なアノテーションコスト削減とほぼ完全に教師あり学習と同等の性能達成を可能にする。
FID-Net:森林病害虫検出のための特徴強化型深層学習ネットワーク [cs.CV]目的:森林病害虫の検出と分布状況の分析
- 森林は生態系において重要な役割を担うため,その健全性維持は不可欠である。
- 従来の手法では,広範囲かつ詳細な病害虫検出には限界があった。
- ドローン画像を用いた高精度な病害虫検出と感染状況分析を実現する。
- 提案手法FID-Netは,中国天山東部地域の32区画のドローン画像データで,既存のYOLOモデルを上回る精度を達成した。
- FID-Netは,病害虫感染木のクラスタリングを明確に示し,効果的な森林保護戦略を支援する。
- 本研究は,病害虫の早期警戒および精密管理のための信頼性の高いデータを提供する。
悪天候下におけるマルチモーダル3D物体検出のための拡散ベース復元 [cs.CV, cs.AI]目的:悪天候下でのロバスト性を高めるための拡散ベース復元と適応的クロスモーダル融合フレームワーク
- ロボティクスや自動運転において,信頼性の高い知覚を実現するために,マルチモーダル3D物体検出は不可欠である。
- 悪天候下では,天候による歪みや異なるデータモダリティ間のずれにより,その有効性が制限されるという課題がある。
- 本研究は,悪天候下におけるマルチモーダル3D物体検出のロバスト性を向上させることを目指している。
- 提案手法DiffFusionは,画像とLiDARデータの劣化をそれぞれ復元するDiffusion-IRとPCRを導入することで,悪天候下での性能向上を実現した。
- 異なるモダリティ間のずれに対処するため,動的なマルチモーダル融合と双方向BEVアライメントを実現するBAFAMを開発した。
- 3つの公開データセットで最先端の性能を達成し,実世界のDENSEデータセットでのゼロショット実験でも汎化性能が確認された。
DePT3R:単一のフォワードパスにおける動的シーンの密な点追跡と3D再構成 [cs.CV, cs.AI]目的:動的シーンにおける密な点追跡と3D再構成
- 動的シーン理解は,ロボット工学や自動運転など,多様な応用分野で不可欠である。
- 既存手法は,カメラ姿勢の事前知識やフレームの順序に依存し,柔軟性に欠ける。
- カメラ姿勢を必要とせず,動的な環境変化に対応可能な効率的な手法を確立する。
- DePT3Rは,複数の画像から密な点追跡と3D再構成を単一のフォワードパスで同時に実行する。
- 強力なバックボーンにより,深層空間一時特徴を抽出し,ピクセル単位のマップを回帰するマルチタスク学習を実現している。
- 既存の最先端手法と比較して,メモリ効率において顕著な改善を示している。
LeafTrackNet:トップダウン植物表現型解析におけるロバストな葉追跡のための深層学習フレームワーク [cs.CV]目的:植物の葉の追跡のための深層学習フレームワークの開発
- 植物の成長やストレス応答を詳細に理解するためには,個々の葉レベルでの高分解能表現型解析が重要である。
- 既存の追跡手法は,対象種が限定的であったり,撮影条件に制約があったりして,複雑な構造を持つ作物への応用が困難であった。
- 本研究は,現実的な条件下での正確な葉追跡を可能にする新しいフレームワークと大規模データセットを開発することで,この課題を解決する。
- 新たにCanolaTrackデータセットを構築し,184株のアブラナ科植物の5,704枚の画像に31,840個の葉の注釈を付与した。
- YOLOv10ベースの葉検出器とMobileNetV3ベースの埋め込みネットワークを組み合わせたLeafTrackNetを開発した。
- LeafTrackNetはCanolaTrackにおいて9%のHOTA改善を達成し,既存の植物特化型トラッカーおよび最先端のMOTベースラインを上回った。
階層的暗黙的周期性学習による統一的な共演話ジェスチャー生成に向けて [cs.AI, cs.CV, cs.GR, cs.MM, cs.SD]目的:音声からの3D人体動作生成
- 共演話ジェスチャー生成は,様々な応用分野において潜在的な可能性を秘めている。
- 既存の研究では,頭部,身体,手の間の複雑な相互関係のモデル化が不十分である。
- 現実的なジェスチャー生成と,それらの自然な連携を実現することを目指す。
- 本研究では,階層的暗黙的周期性(HIP)学習アプローチを提案し,音声から3Dジェスチャーを生成する。
- 周期性オートエンコーダを用いてジェスチャーモーションの位相多様体を学習し,現実的な分布とインスタンスレベルの多様性を両立させる。
- 顔,身体,手の動きの階層構造をモデル化し,カスケードガイダンスによりアニメーションを駆動する。定量・定性評価において,最先端の手法を上回る性能を示す。
重み空間相関分析:深層学習モデルにおける特徴利用量の定量化 [cs.CV, cs.LG, eess.IV]目的:深層学習モデルにおける特徴利用量の定量化
- 医療画像における深層学習は有用だが,誤った情報に依存する可能性がある。
- モデルが臨床的に無関係な情報(例えば,スキャナモデル)を利用しているかどうかの判断が困難である。
- モデルがどの程度臨床的に関連する特徴を利用しているかを明らかにすること。
- 本研究で開発した重み空間相関分析は,ショートカット学習を検出し,特徴利用量を定量化する有効な手法であることが示された。
- Spontaneous Preterm Birth (sPTB) 予測モデルの分析の結果,臨床的に関連性の高い要素(例えば,出生体重)と相関があり,無関係な要素(例えば,スキャナ)とは相関がないことが確認された。
- この手法は,モデルの信頼性を検証するためのツールとなり,バイアスがない場合,臨床モデルは真の臨床信号に関連する特徴を選択的に利用することを示す。
StarryGazer:単眼深度推定モデルを活用したドメイン非依存型単一深度画像補完 [cs.CV]目的:単一の疎な深度マップとRGB画像からの高密度な深度画像予測
- 深度情報の取得は,ロボット工学や自動運転等の分野において重要な役割を担う。
- 教師データなしの深度補完手法は存在するものの,実環境での利用には課題が残る。
- 単眼深度推定モデルの活用により,教師データを用いずに高精度な深度補完を実現する。
- 提案手法StarryGazerは,単眼深度推定モデルの出力を活用し,疎な深度情報と組み合わせることで,ドメインに依存しない深度補完を可能にする。
- 単眼深度推定モデルの出力とRGB画像を用いて合成ペアを作成し,精緻化ネットワークを学習させることで,精度とロバスト性を向上させている。
- 複数のデータセットにおいて既存手法や単純な変換を用いた単眼深度推定モデルと比較して,優れた性能を示すことが確認された。
複数視点からの3Dマテリアル再構成のための本質画像融合 [cs.CV, cs.AI]目的:複数視点画像からの高品質な物理ベースマテリアルの再構成
- 3Dグラフィックス分野において,リアルなレンダリングには正確なマテリアル表現が不可欠である。
- マテリアル再構成は制約が少なく,ノイズの多いパス トレーシングに依存しがちである。
- 一方向からの事前知識を活用し,マテリアル推定の矛盾を軽減することで再構成精度を向上させる。
- 本手法は,拡散ベースのマテリアル推定と最適化フレームワークにより,一貫性のあるマテリアルパラメータ空間を構築する。
- 提案手法は,合成データおよび実写データにおける最新手法を上回り,鮮明で高品質な再構成を実現する。
- 再構成されたマテリアルは,高品質なライティングに適しており,レンダリングの可能性を広げる。
意味的強化生成基盤モデルが病理画像合成を改善する [cs.CV, cs.AI]目的:病理画像合成のための生成基盤モデルの開発
- 病理分野におけるAI活用は,診断精度向上に不可欠であり,医療の質の向上に貢献する。
- 高品質な病理画像データの不足が,AI開発のボトルネックとなっており,学習データの多様性が課題である。
- 生成モデルの不安定性と異常な形態の生成を抑制し,診断の信頼性を高めることを目指す。
- CRAFTSは,約280万組の画像キャプションペアで学習された,病理特化のテキストから画像への生成基盤モデルである。
- CRAFTSは,意味のずれを抑制し,生物学的な正確性を確保する新規なアライメント機構を組み込んでいる。
- CRAFTSにより生成されたデータセットは,分類,クロスモーダル検索,自己教師あり学習など,様々な臨床タスクの性能を向上させる。
分布誘導型データフリー知識蒸留によるセマンティックセグメンテーション [cs.IR, cs.HC, cs.CV]目的:セマンティックセグメンテーションのためのデータフリー知識蒸留手法
- セマンティックセグメンテーションは,現実世界の理解に不可欠であり,画像内の各ピクセルに意味ラベルを付与する。
- 既存のデータフリー知識蒸留法は分類タスク向けであり,セグメンテーションにおける連続性に着目していない。
- 現実世界の構造と文脈を考慮した知識蒸留フレームワークを構築し,セグメンテーション性能の低下を抑制する。
- 提案手法DFSSは,教師モデルのBatch Normalization統計を活用し,より原データ分布を反映したサンプルを選択する。
- Weighted Distribution Progressive Distillation(WDPD)により,学習初期には信頼性の高いサンプルに重点を置き,徐々に難しいサンプルを組み込む。
- 標準ベンチマークにおいて,既存手法を大幅に上回り,補助データへの依存度を低減した最先端の結果を達成した。
MMDrive:マルチ表現融合による視覚を超えたインタラクティブなシーン理解 [cs.PF, cs.CV, cs.RO]目的:自動運転における複雑な交通シナリオの理解と推論
- 自動運転の実現には,周囲環境の正確かつ高度な理解が不可欠である。
- 従来のビジョン言語モデルは,2次元画像理解に限定され,3次元空間情報の把握が不十分である。
- 3次元シーン理解を可能にするマルチモーダルモデルを構築し,自動運転性能を向上させる。
- MMDriveは,点群や占有マップ等の情報を統合し,従来の画像理解の限界を打破する。
- テキスト情報を活用した動的な重み付けと,要約情報の抽出により,効率的なマルチモーダル融合を実現した。
- DriveLMとNuScenes-QAの評価において,既存モデルを大幅に上回る性能を達成した。
CoRA:効率的な知覚のためのハイブリッド融合による協調的ロバストアーキテクチャ [cs.CV]目的:協調的知覚におけるロバスト性の向上
- 単一エージェントシステムの知覚的限界を克服する上で,協調的知覚は不可欠な技術である。
- 既存手法は通信状況が悪化すると性能が低下し,実用化が困難である。
- 通信量抑制とロバスト性を両立する新たな協調的知覚アーキテクチャを開発する。
- CoRAは,中間融合と後方融合の利点を組み合わせたハイブリッドアプローチを採用することで,性能とロバスト性を分離している。
- CoRAは,重要な特徴を選択的に融合し,効率性とスケーラビリティを確保する特徴レベル融合ブランチと,意味的な関連性を利用して空間的なずれを修正するオブジェクトレベル修正ブランチで構成される。
- 極端なシナリオ下では,CoRAはベースラインと比較してAP@0.7で約19%の性能向上を達成し,通信量は5分の1以下に抑制された。
POLAR:照明を考慮した顔モデリングのためのポートレートOLATデータセットと生成フレームワーク [cs.CV]目的:照明を考慮した顔モデリングのためのデータセットおよび生成モデル
- 顔画像処理は,セキュリティ,エンターテイメントなど幅広い分野で重要であり,そのリアリティ向上へのニーズは高い。
- 既存の顔画像データセットは,照明条件が不十分で物理的に整合性が取れていない場合が多く,高品質な顔モデリングの妨げとなっている。
- 大規模かつ物理的に整合性の高い照明データを活用し,リアルな顔の再照明を実現し,顔画像処理の精度向上を目指す。
- POLARは,200人以上の被写体を156方向の照明下で撮影した大規模なOLATデータセットであり,多様な表情も収録されている。
- POLARNetは,単一のポートレートから各照明方向に対するOLAT応答を予測するフローベースの生成モデルであり,顔の同一性を保持しながら照明効果を捉える。
- POLARとPOLARNetは,リアルデータ,生成合成,物理に基づいた再照明を繋ぐ統一されたフレームワークを形成し,高品質なポートレート照明を実現する。
ブロックチェーンにおけるセキュアな分散型アプリケーションとコンセンサスプロトコル [cs.CR, cs.DC, cs.GT]目的:ブロックチェーンおよび分散型アプリケーションのセキュリティに関する研究成果の集積
- 暗号通貨の普及に伴い,分散型技術の安全性確保が重要課題となっている。
- ブロックチェーンは複雑なシステムであり,従来のセキュリティ評価手法では不十分である。
- ブロックチェーンシステムの脆弱性分析と脅威分析を標準化する手法を確立する。
- 本研究では,セキュリティ参照アーキテクチャを提案し,標準化された脆弱性・脅威分析を支援する。
- 単一チェーンPoWブロックチェーンにおける利己的なマイニングやアンダーカット攻撃への耐性,DAGベースシステムに関する研究を行った。
- ウォレットセキュリティの新たな分類,OTPに基づく二要素認証法,電子投票プロトコルの拡張,安全なログ記録,CBDCの相互運用性プロトコルなどを提案した。
Ego-EXTRA:熟練者-学習者支援のための一人称視点ビデオ-言語データセット [cs.CV]目的:熟練者による学習者支援のためのビデオと言語のデータセット
- 人間とロボットの協働において,熟練者の知識を学習者に効果的に伝えることは重要である。
- 従来のデータセットでは,一人称視点からの自然な対話や,熟練者からの具体的なフィードバックが不足している。
- 熟練者による実践的な指導を模倣した,高品質な対話データセットを構築し,AIアシスタントの性能向上を目指す。
- Ego-EXTRAは,50時間の未編集の一人称視点ビデオと,熟練者による自然言語による指導を含むデータセットである。
- 本データセットを用いた評価により,現在のマルチモーダル大規模言語モデルの限界が明らかになった。
- Ego-EXTRAは,一人称視点ビデオ-言語アシスタントのベンチマークとして公開されており,研究促進に貢献する。
戦略的スケジュールにおける公平な調整 [cs.GT, cs.CC, cs.MA, econ.TH]目的:戦略的エージェントによる重み付きジョブのスケジューリング問題
- 資源配分において,効率性だけでなく公平性は重要な課題である。
- 従来のスケジュール問題は,処理時間の最小化に偏りがちである。
- エージェント間の公平性を考慮したスケジューリング手法を開発する。
- 本研究では,均衡性と平等性を兼ね備えた公平性の階層構造を提案した。
- 公平性の性質の充足可能性と決定問題の複雑性を網羅的に分析した。
- 特定の性質を実現するために,主要なルーチンを調整する統一的なアルゴリズムアプローチを開発した。
STARCaster:アイデンティティと視点に配慮した時空間自己回帰型ビデオ拡散モデル [cs.CV]目的:アイデンティティ埋め込みまたは参照画像に基づいた,音声駆動のポートレートアニメーションと自由視点トークポートレート合成
- 動画生成技術は,エンターテイメント,コミュニケーションなど,幅広い分野で応用が期待されている。
- 既存の2D動画拡散モデルは参照画像への依存度が高く,動きの多様性に限界がある。
- 参照画像や3D幾何情報への依存を軽減し,より自然で多様な動画生成を実現すること。
- STARCasterは,IDを考慮した動きのモデリング,唇読みベースの音声視覚同期,そして時間から空間への適応を通じて動画を生成する。
- 既存のアプローチと比較して,様々なタスクやアイデンティティに対して優れた汎化性能を示す。
- 独立した学習アプローチにより,4D音声視覚データの不足を克服し,一貫性のある動画を生成する。
歩行可能な視覚:視覚的根拠に基づいた能動的視点選択の学習 [cs.CV]目的:視覚的根拠に基づいた能動的視点選択
- ロボットやエージェントが環境を理解し,タスクを達成するには,能動的な視点選択が不可欠である。
- 既存の視覚言語モデルは静止画像に限定され,能動的な視点移動による情報収集ができない。
- 視覚情報のみに基づいた効果的な能動的視点選択手法を開発し,環境理解能力を向上させる。
- 提案手法は,視覚的根拠に基づいた視点選択において高い質問応答性能を達成した。
- 学習されたフレームワークは,未知の合成環境および実環境においても頑健に汎化することが示された。
- 既存のシーン探索型質問応答システムに組み込むことで,下流タスクの質問応答精度が向上した。
DisCo-Speech:解きほぐされた音声コーデックを用いたゼロショット制御可能音声生成 [cs.SD]目的:解きほぐされた音声コーデックと言語モデルベースの生成器による,ゼロショット制御可能なテキスト読み上げフレームワーク
- テキスト読み上げ技術は,人間とコンピューターの自然な対話を可能にする重要な要素である。
- 従来の音声コーデックは,音色と韻律が密接に結合しており,独立した制御が困難である。
- コーデックレベルでの解きほぐしにより,柔軟な音声合成の制御を実現することを目的とする。
- DisCo-Speechは,最先端の音声クローニング性能と同等であり,ゼロショット韻律制御においてベースラインを上回る。
- 提案手法は,音色,韻律,内容の3要素に明示的に分解するTri-factor disentanglementという手法を用いている。
- 解きほぐしと再構成のトレードオフを解決し,堅牢な制御可能音声合成の基盤を提供する。
インタラクティブな自律運転のための生成エージェント行動モデルのポストトレーニングとテスト時のスケーリング [cs.CY, cs.RO, cs.CV]目的:複数エージェント間のインタラクティブな運動行動の学習
- 自律運転において,複数のエージェント間での協調的な動きを理解することは不可欠である。
- 既存のモデルは安全なデータに偏りがちで,安全性が重要な状況でのロバスト性が低いという課題がある。
- 安全性を向上させつつ,現実的な行動を維持し,テスト時の性能低下を抑制することを目指す。
- GRBOにより,安全性性能が40%以上向上し,行動のリアリズムも維持された。
- Warm-Kは,再学習なしにテスト時の行動の一貫性と反応性を向上させた。
- Warm-Kは,共変量シフトを軽減し,性能の乖離を小さくすることに貢献した。
CogniEdit:ファインチューンな画像編集のための高密度勾配フロー最適化 [cs.DC, cs.RO, cs.CV]目的:ファインチューンな画像編集のための高密度勾配フロー最適化手法
- 拡散モデルを用いた画像編集は目覚ましい成果を上げており,その応用範囲は広がり続けている。
- 既存手法は,色,位置,数量などの詳細な属性を指定する微細な指示への対応に課題を抱えている。
- サンプリング過程全体にわたる勾配フローを通じて,より精密な軌道レベルでの制御を可能にすること。
- 提案手法CogniEditは,マルチモーダル推論と高密度報酬最適化を組み合わせることで,指示の解釈と編集の質を向上させている。
- 複雑な指示を具体的な指示に分解する大規模言語モデル,微細な属性に焦点を当てる動的トークン再配置,そして軌道レベルでの最適化を行う高密度GRPOに基づく最適化が特徴である。
- 複数のベンチマークデータセットにおける実験により,最先端の性能を達成し,編集の正確性と視覚的品質のバランスに優れていることが示された。
ビデオリアリティテスト:AI生成ASMR動画はVLMと人間を欺けるか [cs.CL, cs.CV]目的:AI生成動画の知覚的リアリズムの評価
- 動画生成技術の進歩により,AI生成動画と実動画の区別が困難になりつつあるため,その検出は重要な課題となっている。
- 既存のAIGC検出ベンチマークは,音声を含まない動画や広範なドメインを対象としており,厳密なオーディオビジュアル連携の評価が不足している。
- 本研究は,VLMと人間を欺く可能性のある,高品質なAI生成ASMR動画の限界を明らかにすることを目的とする。
- 最先端の動画生成モデルVeo3.1-Fastは,VLMの多くを欺き,最も高性能なVLM(Gemini 2.5-Pro)の識別精度は56%に留まった。
- 音声を追加することで,リアルとフェイクの識別は向上するものの,ウォーターマークなどの表面的情報は依然としてモデルを誤らせる可能性がある。
- これらの結果は,動画生成技術の現状の限界を示し,VLMの知覚的忠実度とオーディオビジュアルの一貫性の課題を浮き彫りにした。
SAMAY:音響測定・解析システム [cs.AR, cs.SD, cs.RO]目的:鳥類の音響データ収集と解析
- 鳥類の生態研究において,音響データは重要な情報源となりうる。
- 鳥類の音響データの収集・解析には,時間と労力がかかる。
- 自動化されたシステムによる効率的なデータ収集と解析の実現。
- SAMAYは,鳥類の音響データを自動的に記録するシステムである。
- STM32F407マイクロコントローラを搭載し,4つのマイク,128GBのストレージ,10400mAhバッテリーを備える。
- USBおよびWi-Fi経由での設定が可能であり,フィールドでの利用に適している。
