arXiv雑要約
画像・音声 - 2026/01/30 公開
動的アダプタ融合:事前学習モデルに基づくクラス増分学習のためのグローバルアダプタの構築 [cs.CV]目的:クラス増分学習におけるグローバルアダプタの構築
- 継続的な学習能力は,AIの多様な応用において重要であり,既存モデルの再学習コストを削減する。
- タスク固有のアダプタは知識の転移を阻害し,管理コストが高いという課題がある。
- 安定性と可塑性のバランスを取り,知識の忘却を抑制する融合メカニズムを確立すること。
- 提案手法である動的アダプタ融合(DAF)は,PAC-Bayes理論に基づき,タスク固有アダプタ,過去のグローバルアダプタ,初期パラメータを統合する。
- 損失関数のテイラー展開を利用し,最適な融合係数を動的に決定することで,安定性と可塑性を両立する。
- 複数のCILベンチマークにおいて,最先端(SOTA)の性能を達成した。
意味誘導動的疎性化による事前学習モデルに基づく継続的クラス増分学習 [cs.CV]目的:継続的クラス増分学習における性能向上
- 深層学習モデルの継続学習は,現実世界の多様なタスクに適応するために重要である。
- 既存手法では,過去知識の忘却を防ぐためにパラメータ制約が用いられるが,柔軟性を損なう場合がある。
- 活性化空間の疎性化を通じて,知識の転移を促進し,タスク間の干渉を軽減することを目指す。
- 本研究では,意味誘導動的疎性化(SGDS)という新しい手法を提案し,活性化空間を効果的に制御する。
- SGDSは,類似クラス間の活性化部分空間の共有を促進し,異なるクラス間では非重複な部分空間を割り当てる。
- 様々なベンチマークデータセットにおける実験で,SGDSが最先端の性能を達成することが示された。
ViTMAlis:Vision Transformerを用いた低遅延モバイル動画分析へ [cs.NI, cs.CV, cs.MM]目的:モバイル動画分析における遅延を低減するための手法
- モバイル動画分析は,様々な分野で活用が拡大しており,その重要性が増している。
- Vision Transformerは計算コストが高く,高解像度入力では遅延が課題となっていた。
- 本研究は,Vision Transformerの動的な解像度変更とエッジオフローディングで遅延を改善する。
- 提案手法ViTMAlisは,従来のオフローディング手法と比較して,エンドツーエンドの遅延を大幅に削減した。
- ViTMAlisは,ネットワーク状況や動画の内容に応じて動的に適応し,伝送遅延と推論遅延を同時に削減する。
- 実機による評価により,ViTMAlisがレンダリング精度を向上させながら,低遅延を実現することが示された。
幾何形状を意識し,動きを誘導するビデオ人体のメッシュ復元 [cs.CV]目的:ビデオデータからの3D人体メッシュ復元の精度向上
- 人間行動の理解やモーションキャプチャなど,様々な分野で3D人体モデルの重要性が高まっている。
- 既存手法では,物理的に不自然な結果が生じやすく,正確な3D姿勢推定が困難である。
- 幾何学的制約と運動パターンを考慮することで,より自然でロバストな人体メッシュ復元を目指す。
- 提案手法HMRMambaは,Structured State Space Models (SSMs)を活用し,効率的かつ長距離の時系列モデリングを実現した。
- Geometry-Aware Lifting ModuleとMotion-guided Reconstruction Networkにより,3D姿勢推定の安定性とメッシュの一貫性を高めた。
- 3DPW,MPI-INF-3DHP,Human3.6Mの評価において,既存手法を上回り,最先端の性能を達成した。
合成音声の品質評価のためのフレシェ距離の理解 [cs.SD, cs.AI]目的:合成音声の品質評価
- 音声合成技術の発展に伴い,客観的な品質評価手法の確立が重要となっている。
- 主観評価は信頼性が高いものの,コストと時間がかかるため,大規模な評価には不向きである。
- フレシェ距離を用いた評価手法の有効性と,最適な設定条件の特定を目指す。
- フレシェ距離(FSD)および関連指標(SMMD)の性能を,様々な埋め込み表現と条件で評価した。
- WavLM Base+の特徴量が,人間の評価との最も安定した一致を示すことが明らかになった。
- FSDとSMMDは主観評価の完全な代替とはならないが,費用対効果が高く,再現性のある補完的な指標となりうる。
エンドツーエンド多視点表面再構成のためのメッシュスプラッティング [cs.RO, cs.GR]目的:多視点画像からの表面再構成手法
- 3次元形状の表現は,コンピュータビジョンやグラフィックスの重要な課題である。
- 従来のメッシュ表現は高密度になりやすく,誤差が蓄積しやすいという課題がある。
- ボリューメトリック表現とサーフェス表現の利点を統合し,高精度な再構成を目指す。
- メッシュを半透明な複数層に変換することで,微分可能なボリューメトリック表現を実現した。
- スプラッティングベースのレンダラーとトポロジー制御戦略を組み合わせることで,高速かつ高精度な再構成が可能になった。
- 約20分で最適化が完了し,メッシュ品質を大幅に向上させた。
現実世界の航空機-地上人物再識別における幾何学的歪みによる類似度歪みの修正 [cs.CV]目的:航空機-地上人物再識別における類似度歪み
- 人物再識別は,監視システム等において重要な技術であり,その応用範囲は広い。
- 航空機と地上カメラ間の視点や距離の大きな差異が,類似度計算を歪める問題がある。
- カメラの幾何学的条件を考慮し,類似度空間を修正することで,再識別の精度向上を目指す。
- 提案手法であるGIQTは,カメラの幾何学に基づいてクエリとキーの相互作用を修正し,類似度空間の歪みを補正する。
- 幾何学的条件に基づいたプロンプト生成機構により,視点に応じた表現の事前知識を導入する。
- 4つのベンチマークデータセットにおいて,提案手法は既存手法と比較して,幾何学的条件が厳しい状況下で高いロバスト性を示した。
生成によるエンハンスメントが,統一マルチモーダルモデルの理解力を向上させる:多表現生成によるアプローチ [cs.CV, cs.LG]目的:統一マルチモーダルモデルにおける理解力向上
- 視覚情報と生成を統合し,相互に強化するモデル構築が重要視されている。
- 理解力を活用して生成を改善する研究は多いが,生成を用いて理解力を高める研究は少ない。
- 生成タスクを導入することで,視覚入力に対するモデルの理解を深めることを目指す。
- 提案手法UniMRGは,モデルにピクセル,深度,セグメンテーションといった多様な表現を生成させることで理解力を向上させる。
- 実験結果から,UniMRGはファイングレインな知覚能力を高め,ハルシネーションを抑制し,空間理解力を改善することが示された。
- 理解力向上と同時に,生成能力も向上することが確認された。
MPF-Net:階層的多様体偏差と微小時間変動による高忠実度AI生成動画の偽造検出 [cs.CV]目的:高忠実度AI生成動画の偽造検出手法
- 動画生成技術の進化により,現実と見分けがつかないほど精巧な偽造動画が出現しつつある。
- 既存手法では,高品質な偽造動画に対して高い検出性能を維持することが困難である。
- AI生成動画特有の多様体投影変動(MPF)に着目し,これを検出することで偽造を識別する。
- 提案手法MPF-Netは,大規模視覚基盤モデルを用いて空間的な異常を検出し,偽造動画を特定する。
- 空間的な異常が検出されない高忠実度動画に対しては,微小時間変動に着目し,二次的なフィルタリングを行う。
- MPF-Netは,グローバルな異常と微細な計算指紋の両方を捉え,よりロバストな偽造検出を実現する。
次元を通じた拡散モデル予測の再検討 [cs.LG, cs.CV]目的:拡散モデルにおける最適な予測対象の依存性
- 近年,高次元データにおける生成モデリングが重要視されている。
- 拡散モデルの予測対象選択に関する理論的な根拠が未解明であった。
- データの次元性と最適な予測対象の関係を明らかにすること。
- データの幾何学的性質と最適な予測対象の関係を理論的に導出した。
- 周辺次元がデータの内在次元を大きく上回る場合,直接データ予測の優位性を説明した。
- データから最適な予測パラメータを学習するk-Diffを提案し,生成性能を向上させた。
暗黙的な曖昧性から明示的な堅牢性へ:ニューラル放射場における内部幾何学的劣化の診断と高密度3Dシーン理解 [cs.CV]目的:ニューラル放射場における内部幾何学的劣化の診断
- 3Dシーンの理解は,ロボティクス,AR/VR,デジタルツインなど幅広い分野で重要性を増している。
- 高密度で自己遮蔽のあるシーンにおいて,ニューラル放射場を用いた定量的な3D分析の信頼性が十分でない。
- 内部幾何学的劣化という根本的な問題点を特定し,高精度なインスタンス復元を目指す。
- 内部幾何学的劣化(IGD)は,重度の遮蔽下で発生するニューラル放射場の基本的な失敗モードである。
- 従来のmask supervised NeRFは,高密度シーンにおいて約89%のインスタンス復元率で飽和することが示された。
- Sparse Voxel Rasterization(SVRaster)を基盤とした明示的な幾何学的パイプラインが,95.8%の高い復元率を達成し,ロバスト性が向上した。
学習可能なGray-Wynerネットワークにおける損失のある共通情報 [cs.LG, cs.CV, cs.IT, math.IT]目的:複数の視覚タスクにおける共通情報とタスク固有情報の分離
- 視覚タスクは共通情報を持つため,効率的な表現が重要である。
- 従来のコーデックは共通情報を無視し,冗長な表現になりやすい。
- 共通情報とタスク固有情報を分離し,冗長性を削減することを試みる。
- 提案手法は,独立したコーディングと比較して,冗長性を大幅に削減した。
- 3種類のコーデックアーキテクチャを用いて,6つの視覚ベンチマークで性能を評価した結果,提案手法が常に良好な結果を示した。
- この研究は,最新の機械学習においてGray-Wyner理論を再考することの有用性を示唆している。
合成キャプションによるマルチモーダル微調整 [cs.CV]目的:マルチモーダルな目的関数を用いた微調整のための,合成画像キャプションの生成
- 近年,画像理解能力の向上が求められており,マルチモーダル学習が重要な研究分野となっている。
- 既存の微調整は主に単一モダルであり,マルチモーダルな事前学習の利点を十分に活かせていない。
- マルチモーダルな事前学習と微調整のギャップを埋め,画像分類タスクの性能向上を目指す。
- 大規模言語モデルを用いて高品質な合成キャプションを生成し,単一モダルのデータセットをマルチモーダル化する手法を提案した。
- クラスラベルやドメイン情報を組み込んだプロンプト設計と,コントラスト学習損失関数が有効であることを示した。
- 13の画像分類ベンチマークで,特に少サンプル学習において,ベースライン手法を上回る性能を達成した。
一貫性から相補性へ:時系列理解と推論のための整列化・分離されたマルチモーダル学習 [cs.LG, cs.AI, cs.CL, cs.CV]目的:時系列データ理解と推論のためのマルチモーダル学習手法
- 時系列データは様々な分野で利用されており,その理解と解析は重要である。
- 異なるモダリティ間の時間的なずれや,意味の複雑な絡み合いが課題となっている。
- モダリティ間の整列化と意味の分離によって,局所的な解釈と相補的な推論を実現する。
- 提案手法MADIは,パッチレベルの整列,離散的分離インタラクション,重要トークン強調により,時系列データの理解と推論性能を向上させる。
- MADIは,既存の汎用LLMや時系列特化型MLLMと比較して,一貫して優れた性能を示す。
- 合成データと実世界のベンチマークにおいて有効性が確認された。
Spava:シーケンス並列認識による長尺ビデオ理解の高速化 [cs.CV, cs.AI, cs.CL]目的:長尺ビデオ理解の高速化手法
- 近年のマルチモーダル大規模モデルの発展に伴い,長尺ビデオの処理が重要になっている。
- 既存手法では,ビデオ埋め込みの圧縮やスパースアテンションが用いられるが,性能低下や並列性の制限がある。
- 複数のGPUを用いた並列処理により,圧縮なしで長尺ビデオの効率的な処理を目指す。
- Spavaは,複数のGPU間で近似アテンションを分散することで,計算量を削減し,並列性を向上させる。
- FlashAttn,ZigZagRing,APBと比較して,それぞれ12.72倍,1.70倍,1.18倍の高速化を達成した。
- 性能劣化は認められず,タスクのパフォーマンスを向上させている。
分散と貪欲性:距離学習損失関数の比較研究 [cs.RO, cs.DC, cs.CV]目的:距離学習損失関数の効果に関する解析
- 情報検索において,類似度計算は重要であり,その性能向上は不可欠である。
- 距離学習における損失関数の選択が,埋め込み空間の構造や最適化に与える影響は不明な点が多い。
- 様々な損失関数の特性を明らかにし,最適な損失関数の選択指針を提供する。
- Triplet損失とSCLは,クラス内分散を高く保ち,クラス間マージンを明確にすることで,ファインチューニングされた設定で優れたtop-1検索性能を示す。
- Contrastive損失とInfoNCEは,多くの小さな更新により迅速に埋め込み空間を圧縮するが,クラス構造を単純化する可能性がある。
- N-pair損失は大きな平均分離を実現するが,間隔が不均一になる傾向がある。効率性と粒度のトレードオフが示唆される。
4D-CAAL:自律走行のための4Dレーダー・カメラキャリブレーションと自動ラベリング [cs.RO, cs.CV]目的:4Dレーダーとカメラのキャリブレーションおよび自動ラベリングのための統一的フレームワーク
- 自律走行には,高精度なセンサー情報が不可欠であり,4Dレーダーはその重要な役割を担う。
- 既存のキャリブレーション手法は,レーダーとカメラに特化したターゲットを用いるため,対応付けが困難である。
- レーダーデータのラベリング作業は手作業に頼る部分が多く,労力と時間がかかるという課題を解決する。
- 提案手法では,カメラ検出用のチェッカーボードとレーダー検出用のコーナーリフレクターを統合した新規ターゲットを設計した。
- チェッカーボード中心と最強のレーダー反射点を対応付けることで,高精度なキャリブレーションを実現した。
- キャリブレーションされたセンサー関係を利用し,カメラセグメンテーションからレーダー点群への注釈転送を自動化した。
再構成誤差からの偽造痕跡の抽出:マルチモーダルディープフェイクの時間的局所化のための弱教師ありフレームワーク [cs.CV]目的:ディープフェイクの時間的局所化
- 近年のディープフェイク技術の高度化に伴い,映像の改ざん検出が重要課題となっている。
- フレームレベルでのアノテーションコストが高く,効率的な偽造箇所の特定が困難である。
- 再構成誤差を利用し,フレームレベルのアノテーションなしで偽造箇所を特定する。
- 本研究では,Masked Autoencoder (MAE)を用いて真性映像の時空間パターンを学習し,再構成誤差を通じて偽造箇所を検出するRT-DeepLocを提案する。
- 提案手法では,Asymmetric Intra-video Contrastive Loss (AICL)を導入し,真性特徴のコンパクト性を高めることで識別能力を向上させている。
- LAV-DFデータセットにおける実験により,RT-DeepLocが弱教師あり環境下で最先端の性能を達成することが示された。
事前知識強化オーディオLLMによる音声編集検出と内容局在化の統合 [cs.SD, cs.AI]目的:音声編集検出と内容局在化の統合フレームワーク
- 音声編集技術は,音声コンテンツの改ざん検出やセキュリティ確保において重要である。
- 従来の検出手法は,明瞭な編集痕のある音声に限定され,最新のシームレスな編集技術への対応が課題。
- 高品質な音声編集データセットの構築と,新たな検出・局在化フレームワークの開発。
- 大規模二言語データセットAiEditを構築し,高精度な音声編集データの不足を補った。
- 事前知識強化オーディオLLM(PELM)を提案し,音声編集検出と内容局在化を統合的に解決した。
- HumanEditおよびAiEditデータセットで最先端手法を大きく上回り,高い検出精度を達成した。
多種データに基づくハイパーネットワークを用いた,冠動脈石灰化デバルキング予測のための適応集約 [cs.CV]目的:冠動脈石灰化デバルキングの必要性推定
- 心血管疾患の診断・治療において,冠動脈石灰化の評価は重要である。
- 患者の状態によって,デバルキングの判断基準が変動するため,正確な予測が困難である。
- 患者データに応じて特徴量の集約方法を適応的に変化させることで,予測精度向上を目指す。
- 提案手法HyperAdAgFormerは,臨床データセットを用いた実験で有効性が示された。
- ハイパーネットワークを用いることで,患者の状態に応じた特徴量の集約が可能となった。
- 本研究は,冠動脈石灰化デバルキングの判断支援に貢献する可能性を秘めている。
SimGraph:シーングラフに基づく画像生成と編集のための統一的フレームワーク [cs.CV, cs.AI]目的:シーングラフに基づく画像生成と編集の統一的フレームワーク
- 画像生成・編集技術は進歩しているが,空間的一貫性や意味的な整合性を保つのが課題。
- 既存手法では,オブジェクト間の関係性や空間配置の構造的な制御が困難である。
- シーングラフを利用し,オブジェクト間の相互作用やレイアウトを精密に制御することを目指す。
- SimGraphは,トークンベース生成と拡散ベース編集を統合した,シーングラフ駆動の単一モデルである。
- これにより,高品質かつ一貫性のある画像生成・編集が可能となる。
- 実験結果から,既存最先端手法を上回る性能が確認された。
拡散モデルにおけるリスク特定車両損傷への適応のための隠れパターン専門家学習 [cs.CV]目的:拡散モデル生成画像における車両損傷の忠実度,制御性,ドメイン適応の向上
- 自動車保険業界において,車両損傷画像の正確な認識と評価は不可欠である。被害状況の正確な把握が保険金の適正な支払いに繋がる。
- 拡散モデルの進化により,現実と区別のつかない損傷画像が生成可能となり,不正請求のリスクが高まっている。
- 拡散モデル生成画像の信頼性を高め,不正利用を防ぐためのフレームワークを開発すること。
- HERSは,ドメイン固有の専門家適応により,ベース拡散モデルの性能を向上させる。
- HERSは,テキストの忠実度を5.5%向上させ,人間の評価において2.3%の改善が見られた。
- 本研究は,ドメイン固有の拡散モデルの機会とリスクを示し,安全性重視のアプリケーションにおける信頼性の高い生成の重要性を強調する。
大規模ビジョン言語モデルにおける視覚トークン圧縮下での敵対的頑健性 [cs.CR, cs.AI, cs.CV]目的:大規模ビジョン言語モデルの視覚トークン圧縮下での敵対的頑健性の評価
- 大規模ビジョン言語モデルは強力だが,計算コストが高い。効率化のため,視覚トークン圧縮が広く用いられている。
- 従来の攻撃手法では,圧縮による影響を考慮せず,モデルの頑健性を過大評価する可能性がある。
- 圧縮過程を考慮した攻撃手法を開発し,より正確な頑健性評価を実現すること。
- 既存の攻撃手法では,圧縮後のモデルの頑健性を過大評価することが示された。
- 圧縮過程を考慮した新たな攻撃手法CAGEを提案し,圧縮下での頑健性をより正確に評価できることを示した。
- CAGEは,既存手法と比較して,より低い頑健精度を達成し,圧縮を無視した評価の危険性を示唆した。
Vision KAN:コルモゴロフ・アーノルドネットワークを用いたアテンションフリーな画像処理バックボーンへ [cs.SI, cs.MA, eess.SP, cs.CV]目的:画像処理におけるアテンション機構に代わる,効率的かつ理論的根拠のあるトークンミキシング手法の開発
- 画像認識の性能向上に不可欠なアテンション機構は,長距離依存性のモデル化を可能にする
- アテンション機構は計算コストが高く,解釈が難しいという課題を抱えている
- コルモゴロフ・アーノルドネットワークに着想を得たViKにより,アテンションフリーなバックボーンを実現する
- ViKはImageNet-1Kにおいて,既存手法と同等の精度を線形時間複雑度で達成した
- ViKの中核であるMultiPatch-RBFKANは,局所的・長距離的な相互作用を効率的に捉える
- アテンション機構の代替として,KANベースのトークンミキシングの有効性が示された
生成モデリングの高速化のためのバイアンカー補間ソルバー [cs.CV, cs.AI]目的:生成モデリングの高速化
- 高忠実度な画像生成の需要が高まっており,効率的な生成手法が求められている。
- 既存のFlow Matchingモデルは計算コストが高く,推論速度が遅いという課題がある。
- 学習コストを抑えつつ,推論速度を向上させる新しいソルバーの開発を目指す。
- 提案手法であるBA-solverは,わずかな学習コストで,既存手法と同等の生成品質をより少ない計算量で実現した。
- BA-solverは,100以上のNeural Function Evaluations (NFEs)を必要とするEulerソルバーと同等の品質を,わずか10 NFEsで達成可能である。
- 既存の生成パイプラインへの組み込みが容易であり,画像編集などのダウンストリームタスクへの応用が期待できる。
異種劣化の統合:不確実性を考慮した拡散ブリッジモデルによるオールインワン画像復元 [cs.CV]目的:異種劣化を統合した画像復元における課題解決
- 画像劣化は多様であり,その復元技術は実用上重要である。高品質な画像復元は様々な応用分野で不可欠である。
- 既存手法は,粗い制御機構や固定されたマッピングスケジュールに依存し,最適な適応が困難である。
- ピクセルごとの不確実性を考慮した拡散ブリッジモデルにより,多様な劣化に対応した画像復元を可能にする。
- 提案手法は,画像復元を確率的輸送問題として再構築し,不確実性を考慮した拡散ブリッジモデルを導入する。
- 拡散ブリッジの厳密な終端制約を緩和することで,劣化の不確実性をモデル化し,標準的な拡散ブリッジに内在するドリフト特異性を理論的に解決する。
- ノイズスケジュールとパススケジュールという二重変調戦略により,輸送幾何学とダイナミクスを効果的に修正し,最先端の性能を達成する。
HydroSense:エッジ処理とクラウド分析を備えたリアルタイム多項目水質モニタリングのためのデュアル・マイクロコントローラーIoTフレームワーク [cs.CV]目的:リアルタイム水質モニタリングシステムの開発
- 地球規模での水資源問題の深刻化に伴い,水質管理の重要性が増している。
- 従来の測定方法は高コストであり,資源の限られた環境では導入が困難であった。
- 安価で正確な水質モニタリングを可能にし,アクセシビリティの向上を目指す。
- HydroSenseは,pH,溶存酸素,温度,TDS,推定窒素量,水位の6項目を統合的にモニタリングする。
- Arduino UnoとESP32のデュアルマイクロコントローラー構成により,高精度な測定と無線通信を実現した。
- 90日間の実験で,pH±0.08,DO±0.2mg/L,TDS±1.9%の精度と99.8%のデータ送信信頼性を確認した。コストは商業システム比85%削減。
拡散モデル画像へのウォーターマーク評価:視覚言語モデルによるWMVLM [cs.CV]目的:拡散モデル生成画像に対するウォーターマーク評価の統一的かつ解釈可能なフレームワーク
- 生成AIの普及に伴い,生成画像の権利保護が重要になっている。
- 既存の評価手法は,残差と意味的ウォーターマークを統合的に扱えていない。
- 視覚言語モデルを用いて,より安全で解釈可能な評価手法を確立すること。
- WMVLMは,残差ウォーターマークのアーティファクト強度と消去耐性,意味的ウォーターマークの潜在分布シフトに基づいて品質とセキュリティを評価する。
- 段階的な学習戦略により,分類,スコアリング,解釈可能なテキスト生成を可能にする。
- 様々なデータセット,拡散モデル,ウォーターマーク手法において,最先端の視覚言語モデルを上回る汎化性能を示す。
PathReasoner-R1:知識誘導型方策最適化による病理画像と自然言語モデルへの構造化された推論の組み込み [cs.CV]目的:病理画像と自然言語モデルにおける構造化された推論能力の獲得
- 病理診断の精度向上は,医療の質を向上させる上で極めて重要である。
- 既存のシステムは,診断に至る根拠の提示が不十分であり,臨床医からの信頼を得にくい。
- 根拠に基づいた推論プロセスをモデルに組み込み,診断の透明性と信頼性を高める。
- PathReasoner-R1は,病理画像と自然言語モデルに構造化された推論能力を組み込むための新たな手法を提案する。
- 提案手法は,知識グラフを活用し,医療知識と診断結果を厳密に整合させることで,論理的な一貫性を重視した学習を実現する。
- PathReasonerと公開ベンチマークにおいて,最先端の性能を達成し,病理モデルに透明で臨床的に根拠のある推論能力を提供することを示した。
視覚モデル表現における処理段階の類似性 [cs.CV]目的:視覚モデル表現の収束過程
- 深層学習モデルの汎化性能向上に不可欠であり,モデルの解釈可能性を高める。
- モデルの規模が大きくなっても,処理段階の収束が限定的である可能性。
- 異なるモデル間の処理段階の違いを定量化し,表現の収束メカニズムを解明。
- モデルの層の位置が類似しているほど表現は類似するが,依然として相違点が存在する。
- 分類モデルは最終層で低レベル画像統計情報を破棄する傾向がある。
- CNNとTransformerでは表現の変化の仕方が異なり,Transformerはより滑らかな変化を示す。
傾いたシーソー:制御可能な拡散のためのオートエンコーダのトレードオフの再検討 [cs.CY, cs.ET, cs.CV]目的:潜在拡散モデルにおけるオートエンコーダの評価基準に関する検討
- 潜在拡散モデルの性能は,オートエンコーダの質に大きく依存する。
- オートエンコーダの評価において,生成性能ばかりが重視され,再構成性能が軽視される傾向がある。
- 制御可能な拡散モデルにおいて,再構成性能が制御性に与える影響を明らかにすること。
- ImageNet規模のオートエンコーダ研究では,生成指標が重視され,再構成指標の報告が減少していることが確認された。
- オートエンコーダが条件ドリフトを引き起こし,制御可能な拡散において条件整合性を制限する可能性があることが理論的に示された。
- 再構成性能は,生成指標よりも制御可能性をより良く示す指標であることが実験的に確認された。
空間推論によるリモートセンシング視覚的接地再考:RSGround-R1 [cs.CV]目的:リモートセンシング画像における対象物の空間的定位
- リモートセンシングは広範囲の地理空間情報を取得し,防災,環境監視などに不可欠である。
- 自然言語による指示に基づいた対象物定位は,画像のスケールと意味の曖昧さから困難である。
- 位置情報に強く依存するリモートセンシング画像の特性を活かした空間推論能力の向上を目指す。
- 提案手法RSGround-R1は,CoT-SFTとRFTを組み合わせ,位置情報を意識した空間的理解を強化する。
- 新たに設計した位置報酬と空間的整合性最適化により,正確かつ安定した定位を実現した。
- RSVGベンチマークにおける実験により,提案手法の優れた性能と汎化能力が実証された。
OCRVerse:エンドツーエンドのビジョン言語モデルにおける包括的なOCR [cs.CV]目的:テキスト中心型OCRとビジョン中心型OCRを統合した,包括的なOCR手法の開発
- 大規模ビジョン言語モデルの発展に伴い,大量のマルチモーダルデータ処理の需要が高まっている。
- 既存のOCR技術はテキスト認識に偏っており,図表やWebページなどのビジョン中心型OCRが不十分である。
- 図表やWebページなど,情報密度の高い画像からの情報抽出能力向上を目指す。
- OCRVerseは,テキスト中心型とビジョン中心型の両方のOCRを統一的に処理できる初の包括的OCR手法である。
- 多様なデータエンジニアリングと,SFT-RLを用いた多ドメイン学習により,ドメイン間の知識融合とデータ競合の回避を実現した。
- 実験結果は,OCRVerseがテキスト中心型およびビジョン中心型のデータタイプにおいて,大規模モデルに匹敵する性能を示すことを実証した。
CAF-Mamba: Mambaに基づくクロスモーダル適応注意融合による多Modalうつ病検出 [cs.CV, cs.CY, cs.HC]目的:多Modalデータを用いたうつ病検出のための,Mambaに基づくクロスモーダル適応注意融合フレームワーク
- うつ病は生活の質を著しく低下させる一般的な精神疾患であり,早期発見が重要である。
- 既存手法は限られた特徴量に依存し,クロスモーダル間の明示的な相互作用を無視している場合が多い。
- 本研究は,クロスモーダル間の相互作用を捉え,効果的な多Modal融合を実現することを目的とする。
- 提案手法CAF-Mambaは,クロスモーダル間の相互作用を明示的・暗黙的に捉える。
- モダリティごとの注意機構により,モダリティの貢献度を動的に調整することで,より効果的な融合を実現する。
- LMVDとD-Vlogデータセットにおける実験で,既存手法を凌駕し,最先端の性能を達成した。
時系列参照と静的事前知識を用いた少数ショットドメイン適応による氷河割れ目先端の抽出 [cs.CV]目的:氷河割れ目先端抽出の精度向上
- 氷河の変動把握は気候変動研究において重要であり,割れ目先端の位置は氷床流速の指標となる。
- ベンチマークデータセットで高性能を示すモデルも,未知の地域では精度が低下する問題がある。
- 新たな地域への適用を可能にするため,少数ショットドメイン適応手法を開発し,精度低下を抑制する。
- 少数ショットドメイン適応,静的事前知識,時系列参照画像を用いることで,割れ目先端抽出誤差を大幅に低減した。
- 誤差は1131.6mから68.7mへと改善され,アーキテクチャ変更は不要であった。
- この手法は,深層学習に基づく割れ目先端抽出を世界規模の氷河モニタリングに応用するための基盤となる。
SONIC-O1:オーディオ・ビデオ理解におけるマルチモーダル大規模言語モデルの評価のための現実世界ベンチマーク [cs.CL, cs.AI, cs.CV]目的:マルチモーダル大規模言語モデルのオーディオ・ビデオ理解能力の評価
- 近年のAI研究において,マルチモーダル大規模言語モデルが注目を集めている。
- 既存研究は静止画理解に偏っており,時系列オーディオ・ビデオデータ処理能力の評価が不十分である。
- 現実世界環境下でのマルチモーダル大規模言語モデルの性能を系統的に評価する高品質なベンチマークを提供する。
- 新たに開発されたベンチマーク「SONIC-O1」は,13の現実世界における会話ドメイン,4,958件のアノテーションを含む。
- モデルの質問応答精度はモデルの種類間でそれほど差はなかったが,時間的局所化性能には22.6%の大きな差が確認された。
- 性能はデモグラフィックグループ間でばらつきが見られ,モデルの行動における不均衡が示唆された。
指示からイベントへ:音響トリガーによるモバイルマニピュレーション [cs.RO, cs.CV]目的:音響トリガーによるモバイルマニピュレーションの実現
- ロボットの自律性は重要であり,環境の変化に能動的に対応できる能力が求められる。
- 既存のモバイルマニピュレーション研究は指示に依存しており,自律的な行動が制限されている。
- 環境音を認識し,指示なしに能動的に行動できるロボットの開発を目指す。
- 本研究で開発されたHabitat-Echoは,音響レンダリングと物理的相互作用を統合したデータプラットフォームである。
- 提案手法は,複数の音源が存在する状況下でも主要な音源を特定し,対象物への操作を成功させている。
- これにより,ロボットはケースバイケースの指示なしに,環境の変化に自律的に対応できることが示された。
勾配最適化だけでは不十分:マルチモーダル学習のための分散・アンカー幾何学的正則化 [cs.CV, cs.LG]目的:マルチモーダル学習における表現構造の改善
- 異種モダリティ情報を統合し,よりロバストなモデル構築に貢献する分野である。
- マルチモーダルモデルは,表現の崩壊やモダリティ間不整合といった幾何学的な問題を抱える。
- 表現の幾何学構造を制御することで,モダリティ間のトレードオフを軽減することを目指す。
- 提案手法は,表現の多様性を促進する分散正則化と,モダリティ間ずれを抑制するアンカー正則化を組み合わせる。
- 本手法は,アーキテクチャ変更なしに様々な学習パラダイムに適用可能である。
- 複数のマルチモーダルベンチマークで,マルチモーダルおよびユニモーダル性能の向上が確認された。
アルツハイマー病分類のためのマルチモーダル視覚的代替圧縮 [cs.CV]目的:アルツハイマー病分類のための強力な表現学習
- アルツハイマー病の早期診断は,患者の生活の質を向上させる上で重要である。
- 既存の構造的MRI画像解析手法は,計算コストが高いか,情報の損失がある。
- 3D MRIデータを効率的に処理し,より識別力のある特徴を抽出すること。
- 提案手法MVSCは,大規模なアルツハイマー病ベンチマークにおいて,最先端の手法と比較して良好な性能を示した。
- MVSCは,3D MRIボリュームをコンパクトな2D特徴に圧縮し,2Dの基礎モデルとの整合性を高める。
- Volume Context EncoderとAdaptive Slice Fusionモジュールにより,テキストガイダンスによるグローバルな文脈とスライスレベル情報の集約を実現した。
ChartE$^{3}$: エンドツーエンドのグラフ編集のための包括的ベンチマーク [cs.CV]目的:エンドツーエンドのグラフ編集性能の評価
- 構造化データ分析において,グラフは基本的な可視化形式であり,その重要性は高い。
- 複雑な編集要求に忠実に実行するには,微調整と全体構造の一貫性の両方が必要で,困難である。
- 中間表現に依存しない,直接的なグラフ編集モデルの評価を目指す。
- ChartE$^{3}$ベンチマークは,1,200以上の高品質なサンプルを提供し,客観的・主観的な評価を可能にする。
- 最先端のマルチモーダル大規模言語モデルの評価から,特にグローバル編集タスクにおいて性能の課題が明らかになった。
- 現在のエンドツーエンドのグラフ編集能力には,重要な限界が存在することが示された。
DreamActor-M2:空間時間的文脈学習による汎用的なキャラクター画像アニメーション [cs.CV, cs.AI]目的:キャラクター画像のアニメーション手法
- キャラクターアニメーションは,現実世界の表現力を高める上で不可欠であり,映像制作等の分野で需要が高まっている。
- 既存手法は,キャラクターの同一性と動きの一貫性の両立が難しく,また,人体以外のキャラクターへの汎化性能が低いという課題がある。
- 本研究では,文脈学習を用いて,これらの課題を克服し,多様なキャラクターと動きに対応可能な汎用的なアニメーション手法を開発する。
- DreamActor-M2は,参照画像と動きの情報を統合することで,空間的な同一性と時間的なダイナミクスの両方を考慮したアニメーションを実現した。
- 自己ブートストラップによるデータ合成パイプラインを導入し,ポーズ依存の制御から直接的なRGB駆動アニメーションへのスムーズな移行を可能にした。
- 多様なキャラクタータイプと動きに対応したベンチマークAW Benchを開発し,最先端の性能を達成した。
グローバルからグラニュラーへ:相関表面によるIQAモデル性能の解明 [cs.CV, cs.AI]目的:IQAモデルの性能分析手法の開発
- 画像品質評価は,画像処理やコンピュータビジョンの重要な要素であり,様々な応用分野で利用されている。
- 既存の評価指標は,全体的な相関のみに着目し,局所的な品質範囲における性能の変化を捉えられない。
- 局所的な品質範囲における性能評価を可能にし,より詳細なモデル分析を実現すること。
- 提案手法GMCは,MOS値とMOS差分を条件とした相関を計算することで,IQAモデルの局所的な性能変動を可視化する。
- GMCは,既存の指標では捉えきれない,モデル間の補完的な振る舞いを明らかにすることが示された。
- 分布調整機構により,品質分布の偏りによる影響を軽減し,より安定した評価を可能にする。
MIDI-LLaMA:記号音楽理解のための指示応答型マルチモーダルLLM [cs.MM, cs.SD]目的:記号音楽理解のためのマルチモーダルLLM
- 音楽理解において,音響データだけでなく記号音楽も重要な役割を担う。
- 既存のマルチモーダルLLMは音響音楽に偏っており,記号音楽の理解は未開拓の領域である。
- 記号音楽をLLMに組み込み,音楽理解能力の向上を目指す。
- MIDI-LLaMAは,音楽のキャプション生成や質問応答におけるセマンティックアライメントで,ベースラインモデルを大幅に上回る性能を示した。
- 人間による評価においても,音楽理解,感情認識,創造性,全体的な好みに於いてMIDI-LLaMAの優位性が確認された。
- これらの結果は,LLMに記号音楽を取り込むことで,音楽理解能力が向上することを示唆している。
動的トポロジー認識:視覚言語ナビゲーションにおける粒度固定性の打破 [cs.CV]目的:連続環境における視覚言語ナビゲーションの課題解決
- ロボットナビゲーションにおいて,環境理解と行動計画は不可欠であり,特に複雑な環境下での安全性と精度が重要である。
- 既存のトポロジカルナビゲーションは,固定的な閾値に基づきノードをサンプリングするため,環境の複雑さに適応できないという問題がある。
- 環境の複雑さに応じてトポロジーマップの密度を動的に調整し,ナビゲーションの精度と安全性を向上させることを目指す。
- 提案手法DGNavは,予測ウェイポイントの分散度に基づいてグラフ構築閾値を動的に調整するシーン認識適応戦略を導入することで,複雑な環境下での計算効率と精度を向上させる。
- DGNavは,視覚,言語,幾何学的情報を融合した動的グラフTransformerにより,トポロジカルノイズをフィルタリングし,指示への準拠性を高める。
- R2R-CEおよびRxR-CEベンチマークでの実験により,DGNavが優れたナビゲーション性能と汎化能力を示すことが確認された。
船舶の単一視点3D再構築のための合成-実世界ドメインブリッジング:海事モニタリングへの応用 [cs.CV, cs.AI, cs.GR]目的:船舶の単一視点3D再構築パイプライン
- 海事モニタリングにおいて,視覚化,検査,意思決定の向上に3D再構築は不可欠である。
- 既存手法は多視点,3Dアノテーション,高計算コストが必要で,リアルタイム海上展開が困難である。
- 合成データで学習し,単一視点での実船3D再構築を可能にし,実運用での課題を解決する。
- 合成データと実データ間のドメインギャップを埋めることで,効率的かつ高精度な3D再構築を実現した。
- YOLOv8ベースのセグメンテーションモジュールと画像処理を統合し,再構築ネットワークとの互換性を確保した。
- AISデータとホモグラフィーマッピングを用いて,再構築された3Dモデルをインタラクティブな地図上に配置した。
CG-MLLM:マルチモーダル大規模言語モデルによる3Dコンテンツのキャプション生成と生成 [cs.CL, cs.CV]目的:3Dコンテンツのキャプション生成と高解像度な3D生成
- 大規模言語モデルの発展は,テキスト生成やマルチモーダル認識に革新をもたらしている。
- 既存手法は,低解像度なメッシュや粗い構造表現に留まり,詳細な形状を捉えられていない。
- 高解像度な3Dコンテンツ生成を大規模言語モデルの範疇に取り込むことを目指す。
- CG-MLLMは,トークンレベルとブロックレベルのTransformer構造を分離することで,高解像度な3D生成を実現した。
- 事前学習済みのビジョン言語バックボーンと3D VAE潜在空間を統合し,長文脈を考慮した生成を可能にした。
- 実験結果から,CG-MLLMは既存のMLLMと比較して,高忠実度な3Dオブジェクト生成において大幅に性能が向上することが示された。
MMFineReason:オープンデータ中心手法によるマルチモーダル推論のギャップ解消 [cs.CV]目的:マルチモーダル推論のための大規模データセット構築と,それを用いたモデルの性能向上
- 近年,画像と言語を組み合わせたモデルが発展しているが,高度な推論能力の実現にはデータが不可欠である。
- 既存のデータセットは,STEM分野の図表やビジュアルパズルなど,推論能力を試す問題の種類が限られている。
- 高品質な推論データを構築し,オープンソースモデルの推論能力を向上させることを目指す。
- MMFineReasonは180万サンプル,51億トークンを含む大規模なデータセットであり,高品質な推論アノテーションを提供する。
- MMFineReasonでファインチューニングしたモデル(MMFineReason-2B/4B/8B)は,同規模のモデルと比較して最先端の性能を達成した。
- 特に,MMFineReason-4BはQwen3-VL-8B-Thinkingを,MMFineReason-8BはQwen3-VL-30B-A3B-Thinkingを上回り,Qwen3-VL-32B-Thinkingに匹敵する性能を示した。
テスト時の計算ゲーム [cs.CY, cs.AI, cs.GT, cs.LG]目的:LLMのサービス提供における計算効率の改善
- LLMの推論能力向上が重要視される中,計算コストの増大が課題となっている。
- LLMサービス提供者は,出力品質向上に寄与しない計算量の増加にも収益を上げるインセンティブがある。
- LLMサービス市場における非効率性を解消し,費用対効果の高いシステムを構築することを目指す。
- 本研究では,逆セカンドプライスオークション機構を提案し,提供者間の価格と品質競争を促す。
- Llama,QwenモデルやDeepSeek-R1から蒸留された推論モデルを用いて,数学・科学データセットで実験を実施した。
- 実験結果は,提案機構が社会的に効率的なLLMサービス市場の実現に貢献することを示唆している。
将来ネットワークにおけるゲーミフィケーションを用いた最適エネルギー効率型サービス管理 [cs.ET, cs.GT]目的:エネルギー効率化のためのゲーミフィケーションによるインセンティブメカニズム
- ICTインフラのエネルギー需要増大に伴い,持続可能な運用が重要課題となっている。
- ユーザーの省エネ行動を促す効果的な方法が確立されていない。
- ゲーミフィケーションを活用し,ユーザーの積極的な省エネ行動を促す手法を提案する。
- ゲーミフィケーションは,ユーザーの省エネ行動への参加を大幅に向上させることがシミュレーションで示された。
- インセンティブとゲームパラメータを最適化することで,ネットワーク全体のエネルギー消費とトラフィックを削減できる。
- 本手法は,プロバイダーがアプリケーションレベルでエネルギー消費を制御し,ユーザー満足度を維持することを可能にする。
軌道誘導拡散による多層ドキュメントの前景維持背景生成 [cs.DC, cs.DB, cs.NI, cs.CV]目的:多層ドキュメントにおける前景維持と多ページ間のスタイルの一貫性を実現する背景生成手法
- ドキュメント生成の自動化は,情報処理の効率化に不可欠であり,その品質向上が求められている。
- 既存手法では,前景の保持とスタイルの一貫性を両立することが困難であり,自然なドキュメント生成が妨げられていた。
- 潜在空間における拡散軌道の設計により,前景維持とスタイルの一貫性を実現し,高品質なドキュメント生成を可能にすることを目指す。
- 拡散を潜在空間における確率的軌道の進化として捉え,軌道の初期化と幾何学的配置を制御することで,前景領域を自然に回避する背景生成を実現した。
- スタイル制御をテキスト条件付けから分離し,キャッシュされたスタイル方向を潜在空間内の持続的なベクトルとして導入することで,ページ間でのスタイルのずれを抑制した。
- 本手法は,学習を必要とせず既存の拡散モデルと互換性があり,複雑なドキュメントにおいて視覚的に一貫性のある前景維持結果を生成する。
