arXiv雑要約
画像・音声 - 2026/02/02 公開
運動に対する火: 効率的なスパイク動作認識のためのビデオパスバンド最適化 [cs.CV, cs.AI]目的:ビデオにおけるスパイク動作認識の効率化に向けたパスバンド最適化
- エネルギー効率と生物学的妥当性から,スパイクニューラルネットワークは画像処理で注目されている。
- 動的なビデオタスクにおいて,スパイクニューラルネットワークは人工ニューラルネットワークに劣る。
- タスクに関連する運動情報を強調することで,スパイクニューラルネットワークの性能向上を目指す。
- 提案手法PBOは,わずか2つの学習パラメータで,スパイク活動を運動情報に集中させる。
- UCF101データセットにおいて,PBOは10パーセント以上の性能向上を実現した。
- マルチモーダル行動認識やビデオ異常検知においても,PBOは一貫して有意な改善をもたらした。
一貫性訓練の安定化:フローマップ解析と自己蒸留 [cs.LG, cs.CV]目的:一貫性モデルの安定性と収束に関する理論的考察
- 高速な生成モデリングの実現が求められており,一貫性モデルはその有力な候補である。
- 一貫性モデルは訓練の不安定性や再現性の低さが課題となっていた。
- フローマップ解析を通じて,不安定性の原因を明らかにし,安定化手法を提案する。
- フローマップ解析により,訓練の安定性と収束行動が劣悪な解を生み出すメカニズムが明確になった。
- 自己蒸留法を再検討し,安定した最適化のための過剰な勾配ノルムを回避する手法を提示した。
- 提案手法は画像生成だけでなく,事前学習済みの拡散モデルに依存しない方策学習にも適用可能であることが示された。
視覚的パーソナライズ・チューリングテスト [cs.CV]目的:文脈に応じた視覚的パーソナライズの評価方法
- 個人の嗜好に合わせたコンテンツ提供が重要視されているため。
- 既存の評価方法は,同一性の再現に偏りがちである。
- 知覚的な区別がつかないパーソナライズの達成を目指す。
- 新しい評価指標「VPTTスコア」が,人間およびVLMによる評価と高い相関を示した。
- VPRAGは,生成AIにおけるパーソナライズの適合性と独自性のバランスに優れていることが示された。
- VPTTフレームワークは,プライバシーを保護しながらスケーラブルなパーソナライズを可能にする基盤となる。
OOVDet:ゼロショットにおける語彙外物体検出のための低密度事前学習 [cs.CV]目的:ゼロショット語彙外物体検出における性能向上
- 画像認識技術は,自動運転やロボティクスなど,様々な分野で不可欠である。
- 既存手法は,既知の物体クラスに過学習しやすく,未知の物体クラスの誤認識が問題となる。
- 未知の物体クラスを正しく識別し,誤認識を防ぐための手法を開発する。
- 本研究では,潜在空間の低密度領域から語彙外物体プロンプトを合成する新フレームワークOOVDetを提案する。
- Dirichletに基づく勾配帰属メカニズムにより,擬似的な語彙外画像を抽出し,不確実性を推定する。
- ガウシアンカーネル密度推定を用いた低密度事前制約により,語彙外クラスの最適化を正則化し,検出性能を向上させる。
PEAR:ピクセルアラインメント型表現力豊かな人体メッシュ復元 [cs.CV, cs.AI]目的:単一の自然画像からの詳細な3D人体メッシュの再構成
- コンピュータビジョンにおいて,現実世界の人間を正確に3Dモデルとして捉えることは重要である。
- 既存手法は処理速度が遅く,詳細なポーズや表情の再現が不十分であるという課題がある。
- 高精度かつ高速な人体メッシュ復元を通じて,ダウンストリームタスクへの応用を可能とすること。
- PEARは,従来のSMPLXベースの手法と比較して,大幅に高いポーズ推定精度を達成した。
- ViTベースのモデルとピクセルレベルの教師あり学習により,高速かつ高精度な人体メッシュ復元を実現した。
- モジュール化されたデータアノテーション戦略により,モデルのロバスト性を向上させた。
Bi-MCQ:否定理解のための視覚言語アライメントの再構築 [cs.IR, cs.CV, cs.LG]目的:否定的な臨床記述の理解に関する視覚言語モデルの性能向上
- 医療画像解析において,視覚言語モデルの活用が広がっているが,否定表現の理解が課題となっている。
- 既存の視覚言語モデルは,コントラスト学習により否定表現を軽視し,意味反転の操作として捉えられていない。
- Bi-MCQは,条件付きセマンティック比較として視覚言語アライメントを再構築し,否定理解を改善することを目指す。
- Bi-MCQは,最新のCARZeroモデルと比較して,否定理解において最大0.47 AUCの改善を達成した。
- 肯定・否定両方の組み合わせ評価(PNC)において,最大0.08の絶対的な改善が見られた。
- InfoNCEベースのファインチューニングと比較して,肯定・否定AUCの差を平均0.12削減し,否定理解の向上が示された。
支配的活性化と分散を用いたOOD検出:分離性の向上 [cs.CV]目的:機械学習モデルにおける分布外入力の検出
- 現実世界での機械学習モデルの安全な運用には不可欠な技術である。
- 既存手法は,情報損失を伴うグローバル平均プーリングに依存している。
- グローバル平均プーリングによる情報損失を改善し,OOD検出精度を向上させる。
- DAVISは,ResNet,DenseNet,EfficientNetなど様々なアーキテクチャで新たなベンチマークを達成した。
- CIFAR-10 (ResNet-18) で48.26%,CIFAR-100 (ResNet-34) で38.13%,ImageNet-1k (MobileNet-v2) で26.83%の誤検出率(FPR95)の大幅な削減を実現した。
- 活性化マップのチャネルごとの分散と支配的活性化が,OOD検出において高い識別力を持つことを明らかにした。
信頼度に基づく知識蒸留によるゲート付き関係的アラインメント:効率的なVLMsのために [cs.CV, cs.AI]目的:効率的なVLMsのための,信頼度に基づく知識蒸留を用いたゲート付き関係的アラインメントの確立
- 画像とテキストを組み合わせたVLMsは,多様な応用において高い性能を示す重要な技術である。
- VLMsの配備コストが高いこと,および量子化後の精度低下が課題となっている。
- 情報ボトルネック原理に基づき,量子化と知識蒸留を統合することで,精度を維持しつつ効率化を図る。
- GRACEは,LLaVAおよびQwenファミリーにおいて,INT4モデルがFP16ベースラインを上回る性能を示した(例:LLaVA-1.5-7BでSQAスコア70.1 vs 66.8)。
- 本手法は,教師モデルの性能にほぼ匹敵する精度を達成し,実用的なINT4カーネルを用いて3倍の処理能力と54%のメモリ削減を実現した。
- 既存の量子化手法を大きく上回り,リソース制約のある環境での配備に最適なソリューションを提供する。
SQUAD:スケーラブルなクォーラム適応決定 - 早期終了ニューラルネットワークのアンサンブルによる手法 [cs.LG, cs.CV, cs.DC]目的:早期終了ニューラルネットワークを用いたスケーラブルなクォーラム適応決定手法
- 推論速度の向上は,特に大規模モデルにおいて重要な課題である。リアルタイム処理やリソース制約のある環境で不可欠。
- 単一モデルの信頼度閾値は,モデルのキャリブレーションの問題により信頼性が低い場合がある。
- 分散型アンサンブル学習と早期終了メカニズムを統合し,不確実性の推定を改善し,推論時間を短縮することを目指す。
- SQUADは,計算複雑度順に中間予測を収集し,統計的に有意なコンセンサスが得られ次第計算を停止するクォーラムベースの停止基準を採用している。
- 多様な早期終了学習器を選択するために,QUEST(クォーラム探索技術)というニューラルアーキテクチャ探索手法を導入している。
- SQUADは,最先端の動的ソリューションと比較してテスト精度を最大5.95%向上させ,静的アンサンブルと比較して推論時間を最大70.60%削減する。
ビジョン言語モデルがタスク指向の潜在的行動を可能にする [cs.LG, cs.AI, cs.CV]目的:潜在的行動モデルの学習における,ビジョン言語モデルによるプロンプト可能な表現の活用
- 視覚と言語を統合したAIの発展は,ロボット工学やインタラクションの分野で重要である。
- 既存の潜在的行動モデルは,不要な情報に影響を受けやすく,正確な行動表現の学習が困難である。
- ビジョン言語モデルの推論能力を用いて,タスクに関連する行動とノイズを分離し,潜在的行動モデルの性能向上を目指す。
- ビジョン言語モデルの表現は,その品質やプロンプトに対する頑健性に大きなばらつきがあることが示された。
- 新しいモデルが必ずしも古いモデルより優れているとは限らず,むしろ性能が劣る場合もあることが判明した。
- ビジョン言語モデルに不要な情報を無視するように指示するだけで,潜在的行動の質を大幅に改善できることが示された。
OpenVTON-Bench: 制御可能なバーチャル試着評価のための大規模高解像度ベンチマーク [cs.CV, cs.AI]目的:バーチャル試着システムの評価のための大規模ベンチマークデータセット
- バーチャル試着技術は,Eコマースやファッション業界において顧客体験を向上させる上で重要である。
- 既存の評価指標は,微細なテクスチャや意味的一貫性を定量化する能力が不十分である。
- 大規模かつ多様なデータセットを用いて,バーチャル試着システムの評価精度を向上させることを目指す。
- OpenVTON-Benchは,約10万組の高解像度画像ペアを含む大規模なベンチマークデータセットである。
- 提案された多次元評価プロトコルは,背景の一貫性,ID忠実度,テクスチャ忠実度などの5つの側面からVTONの品質を評価する。
- 実験結果は,人間の判断と高い一致性を示し,VTON評価のための信頼性の高いベンチマークであることを示唆する。
ガウスOcc3D: ガウスに基づく適応型マルチモーダル3D占有率予測 [cs.CG, cs.CV]目的:3Dセマンティック占有率予測の性能向上
- 自動運転において,周囲環境の正確な理解は不可欠であり,3D占有率予測はその重要な要素である。
- 既存手法は,カメラとLiDARの特性のトレードオフや,データ形式の不均一性,空間的ずれ,ボクセル表現の計算コストなどの課題を抱えている。
- カメラとLiDARデータを効率的に統合し,高精度かつロバストな3D占有率予測を実現する。
- ガウスOcc3Dは,カメラとLiDARデータをガウス表現で統合する新しいフレームワークである。
- Occ3D,SurroundOcc,SemanticKITTIのベンチマークで最先端の性能を達成し,それぞれ49.4%,28.9%,25.2%のmIoUスコアを記録した。
- 悪天候や夜間などの困難な条件下でも優れたロバスト性を示した。
ImgCoT: 大規模言語モデルの効率的な推論のためのコンパクトな視覚トークンへの長鎖思考の圧縮 [cs.CV, cs.AI]目的:大規模言語モデルにおける効率的な推論
- 大規模言語モデルの性能向上には,より複雑な推論能力が不可欠である。
- 長鎖思考(CoT)の長さに起因する計算コストが課題となっている。
- CoTをコンパクトに表現し,推論効率を向上させることを目指す。
- テキストCoTを再構成するのではなく,CoTを画像に変換し,視覚的CoTをターゲットとすることで,言語的バイアスを空間的バイアスに置き換えた。
- 視覚的潜在トークンは,推論のグローバルな構造をより良く捉えることを可能にする。
- 視覚的潜在トークンに少数の重要なテキスト推論ステップを付加する「緩いImgCoT」は,CoT全体よりも少ないトークン数で,推論の全体構造と詳細を維持する。
Lingua-SafetyBench:多言語視覚言語モデルの安全性評価のためのベンチマーク [cs.CV]目的:多言語・多岐にわたる視覚情報と言語情報を扱う大規模モデルにおける安全性評価
- 近年,視覚と言語を扱うモデルが発展する中で,その安全性の確保が重要課題となっている。
- 既存の安全性評価ベンチマークは,多言語対応であるか,マルチモーダル対応であるかのいずれかであり,両方を満たすものは少ない。
- 本研究は,より現実的な視覚情報とテキストの組み合わせによる安全性評価を実現し,多言語対応モデルの弱点を明らかにすることを目的とする。
- Lingua-SafetyBenchは,10言語に対応した10万件以上の有害な画像-テキストペアから構成されるベンチマークである。
- 評価の結果,高リソース言語では画像に起因するリスクが高く,低リソース言語ではテキストに起因するリスクが大きいという非対称性が確認された。
- モデルのスケールアップやバージョンアップは,全体的な攻撃成功率を低下させるものの,高リソース言語に偏った効果しかなく,言語間の安全性の格差を拡大させる可能性がある。
StreamSense:選択的視覚言語モデルルーティングによるストリーミングソーシャルタスク検出 [cs.CV]目的:ストリーミングソーシャルタスク検出の仕組み
- ライブストリーミングプラットフォームにおけるリアルタイムなソーシャルシグナルの監視・対応は不可欠である。
- 動画,テキスト,音声といった不完全で非同期な情報からリアルタイムにタスクを検出することが困難である。
- 限られた計算資源で高精度かつ低遅延なストリーミングソーシャルタスク検出を実現することを目指す。
- StreamSenseは,軽量なストリーミングエンコーダとVLMへの選択的ルーティングを組み合わせることで,高精度なソーシャルタスク検出を実現した。
- VLMの利用頻度を抑えつつ,従来のVLMのみのストリーミング処理よりも高い精度と低い遅延を両立した。
- 選択的なエスカレーションと保留が,ストリーミングソーシャルタスク理解のための有効な手法であることを示した。
美と野獣:拡散ベースの顔入れ替えに対する方向性属性編集による知覚できない摂動 [cs.CL, cs.CV, cs.CR, cs.LG]目的:拡散ベースの顔入れ替えに対する防御効果と知覚不能性の両立
- 顔画像処理技術の高度化に伴い,悪意のある顔入れ替えによる肖像権侵害や名誉毀損のリスクが増大している。
- 既存の防御手法は,大きな摂動が顔構造を歪ませ,小さな摂動では防御効果が弱まるというトレードオフに直面している。
- 知覚できない摂動によって顔入れ替え攻撃に対する防御効果を高め,視覚的な歪みを最小限に抑えること。
- 提案手法FaceDefenseは,拡散損失と方向性属性編集を導入することで,既存手法よりも優れた知覚不能性と防御効果を両立している。
- 二段階の交互最適化戦略により,最終的な摂動画像を生成し,防御効果を高めている。
- 広範な実験により,FaceDefenseが既存手法を凌駕することが示された。
視覚言語モデルを用いた産業トラブルシューティングガイドからの手順知識抽出 [cs.CV, cs.AI]目的:産業トラブルシューティングガイドからの手順知識の抽出と構造化
- 産業現場では,設備の故障診断と解決が重要であり,熟練技術者の知識伝承が課題。
- トラブルシューティングガイドからの知識抽出は手作業では非効率で,誤りも起こりやすい。
- 視覚言語モデルを活用し,トラブルシューティングガイドからの知識抽出を自動化する。
- 視覚言語モデルの性能評価を行った結果,モデルによってレイアウトへの感度と意味的堅牢性のトレードオフがあることが判明した。
- 標準的な指示提示と,トラブルシューティングのレイアウトパターンを意識させる拡張的な提示戦略を比較した。
- この結果は,現場での実用的な展開判断に役立つ情報を提供する。
異常検知に訓練は必要か? [cs.CV]目的:多クラス非教師あり異常検知における性能向上
- 産業界における異常検知の自動化ニーズが高まっており,品質管理や安全性確保に不可欠である。
- 既存手法は再構成誤差に依存するため,忠実性と安定性のトレードオフが存在し,高い性能を達成しにくい。
- 訓練を必要としない新しい異常検知手法を開発し,既存手法の課題を克服すること。
- 訓練不要のRetrieval-based Anomaly Detection (RAD) を提案し,異常フリーの特徴量をメモリに格納,テストパッチとの多段階検索により異常を検出する。
- RADは,MVTec-AD, VisA, Real-IAD, 3D-ADAMの4つのベンチマークで最先端の性能を達成,特に少ないデータでの性能維持が確認された。
- 理論的にも,検索ベースのスコアが再構成残差スコアを上回ることが証明され,訓練不要で高精度な異常検知が可能であることが示された。
事前学習済みLLMはどこまでできるか:記号音楽における教師あり学習と嗜好に基づく適応の比較 [cs.SD, cs.AI]目的:記号音楽の理解と生成に関する事前学習済み大規模言語モデル(LLM)の適応戦略の比較
- 音楽と言語には類似点が多く,LLMの応用が期待される。音楽情報処理の発展に貢献しうる。
- LLMを記号音楽に適用する際の効果的な適応方法が十分に解明されていない。最適な学習戦略が不明確である。
- 記号音楽へのLLM適応におけるドメイン適応と事前知識の保持のトレードオフを明らかにすること。
- ABC形式の音楽生成と理解に関する実験から,ドメイン適応がLLMの性能向上に寄与することが示された。
- 事前学習済みのLLMは,ドメイン適応によって音楽固有の知識を獲得し,専門的なモデルに匹敵する性能を示す可能性がある。
- 記号音楽のドメイン適応を評価するための指標の挙動は,従来の指標とは異なる特徴を示すことが確認された。
色彩は重要である:デモザイクによる色相関学習を用いた汎化可能なAI生成画像検出 [cs.CL, cs.CV, cs.CR]目的:AI生成画像の検出
- デジタル情報の信頼性確保が重要視される中,AI生成画像の検出技術は不可欠である。
- 既存の検出器は,特定の生成モデルに過剰適合し,未知の生成モデルに対する汎化性能が低いという課題がある。
- カメラの画像処理パイプラインに着目し,色相関を利用することで汎化性能の高い検出手法を確立することを目指す。
- 提案手法DCCTは,カメラのCFAとデモザイク処理を模倣することで,写真画像とAI生成画像の色相関の分布差を捉える。
- DCCTは,色相関の特徴量を活用した二値分類器を構築し,20以上の未知の生成モデルに対して最先端の汎化性能と頑健性を示す。
- 自己教師あり学習によって色相関をモデル化することで,AI生成画像の検出精度を大幅に向上させる。
野生生物観察検索のためのコンパクトな超立方体埋め込み [cs.IR, cs.CV, cs.LG, cs.MM, cs.SD]目的:野生生物観察のテキストベース検索の高速化
- 生物多様性モニタリングは重要であり,大規模なデータ処理が求められる。
- 大規模データにおける類似性検索の計算コストが課題となっている。
- テキスト検索による効率的な野生生物観察の検索方法を確立する。
- 超立方体埋め込みを用いた検索は,連続埋め込みと同等かそれ以上の性能を示す。
- メモリ使用量と検索コストを大幅に削減できることが示された。
- ハッシュ目的が基盤となるエンコーダ表現を改善し,汎化性能を高める。
HeatMat:都市マテリアルが都市熱島現象に与える影響のシミュレーション [cs.CL, cs.GR, cs.CV]目的:都市マテリアルが都市熱島現象に与える影響の分析
- 都市化の進展により,都市部の気温上昇が問題となっており,熱環境改善が求められている。
- 都市部の気温を正確に把握するためには高解像度なデータが必要だが,既存の観測データでは限界がある。
- オープンデータを用いて都市マテリアルの影響を分析し,より詳細な熱環境シミュレーションを実現する。
- HeatMatは,ストリートビュー画像とVLMを活用し,都市のマテリアルを推定することで,高解像度な都市熱島現象のシミュレーションを可能にする。
- 既存のOpenStreetMapデータを補完し,都市の垂直構造とマテリアル特性を2Dマップとして表現することで,効率的なシミュレーションを実現。
- 2.5Dシミュレーターにより,3Dシミュレーションと比較して約20倍の高速化を実現し,多様な解像度での表面温度推定を可能にする。
複数時点の衛星画像に対する時間的ステレオマッチング [cs.CV]目的:複数時点の衛星画像からの信頼性の高い3次元再構成
- 衛星画像に基づく3次元再構成は,都市計画や環境監視など,幅広い分野で重要性が増している。
- 従来のステレオマッチングは,撮影時期が大きく異なる画像に対しては,季節や照明の変化により精度が低下する。
- 本研究は,撮影時期が異なる画像ペアに対しても3次元再構成を可能にする手法を開発することを目指す。
- 本手法は,最先端の深層ステレオネットワークを,単眼深度事前知識を活用しながら微調整することで実現している。
- 多様な時間的画像ペアを含むデータセットを用いて学習することで,季節や照明の変化に強いモデルを獲得した。
- WorldView-3の複数時点画像を用いた実験により,既存の手法や適応されていない深層ステレオモデルを上回る性能が確認された。
FarmMind:農地リモートセンシング画像に対する推論・クエリ駆動型動的セグメンテーション [cs.CV]目的:農地リモートセンシング画像の動的セグメンテーション手法
- 農地管理や資源把握において,正確な農地の判別が不可欠である。
- 既存手法は静的なセグメンテーションに依存し,曖昧な場面での推論能力が不十分である。
- 曖昧性に対する推論・クエリ機構を導入し,セグメンテーション精度と汎化性能の向上を目指す。
- FarmMindは,外部補助画像を動的にクエリすることで,単一画像の情報不足を補完する。
- 推論により曖昧性の原因を分析し,必要な補助画像の種類を決定する点が特徴である。
- 実験結果から,既存手法と比較して優れたセグメンテーション性能と汎化性能が確認された。
分解と合成:単一LoRAにおけるランク1エキスパートプールによる効率的な視覚言語継続学習へ [cs.LG, cs.CV]目的:視覚言語モデルにおけるタスク適応能力向上と破滅的忘却の回避
- 視覚言語モデルは多様なタスクに応用可能だが,継続学習における性能維持が課題である。
- 従来の継続学習手法は計算コストが高いか,外部知識に依存しており,効率性に課題がある。
- LoRAを活用し,少ないパラメータ更新で破滅的忘却を抑制する手法を開発すること。
- 提案手法では,単一LoRAモジュールを分解可能なランク1エキスパートプールとして再構成する。
- [CLS]トークンの意味に基づいて,タスク固有のスパースな更新を動的に構成することで,効率的な学習を実現する。
- 活性化を考慮した直交化損失により,タスク間の干渉を最小限に抑え,最先端の結果を達成した。
SOTIF条件下における2D物体検出のための大規模視覚言語モデルの比較評価 [cs.CV, cs.RO]目的:SOTIF条件下における2D物体検出のための大規模視覚言語モデルの有効性評価
- 自動運転の安全性確保は重要課題であり,信頼性の高い環境認識が不可欠である。
- 従来の物体検出器は,悪条件下の環境認識において課題を抱えている。
- 大規模視覚言語モデルの安全性向上への貢献度を定量的に評価する。
- 高性能な大規模視覚言語モデル(Gemini 3,Doubaoなど)は,複雑な自然環境下で従来のYOLOベースラインを25%以上上回る再現率を示す。
- 一方,YOLOベースラインは合成摂動に対して幾何学的精度で優位性を維持する。
- 大規模視覚言語モデルは,SOTIF指向の自動運転システムにおける高レベルの安全検証器として有効である。
NativeTok:画像生成改善のためのネイティブビジュアルトークン化 [cs.CV]目的:画像生成のためのネイティブビジュアルトークン化手法
- 画像生成技術は,多様な応用分野で重要性が増しており,高品質な画像生成が求められている。
- 既存のトークン化手法では,トークン間の依存関係が考慮されておらず,生成モデルに負担がかかる。
- トークン化段階で因果関係を強制することで,生成モデルの学習効率と生成画像のコヒーレンスを向上させる。
- 提案手法NativeTokは,潜在画像モデリングにMeta Image Transformer(MIT)と因果関係に基づいた軽量な専門家ブロック群であるMoCETを用いる。
- 階層型ネイティブトレーニング戦略により,新しい専門家ブロックのみを更新することで,学習効率を維持している。
- 実験により,NativeTokが画像生成の有効性を示すことが確認された。
ニューラル衣料試着器:セマンティック強化と制御拡散モデルによるカスタマイズされたバーチャル試着 [cs.CV]目的:カスタマイズされたバーチャル試着タスク
- オンラインショッピングの普及に伴い,バーチャル試着技術の需要が高まっている。
- 従来のバーチャル試着は,モデルのカスタマイズ性に乏しく,個人の好みに合わない場合がある。
- ユーザーが自分の好みに合わせたデジタルアバターで試着体験を向上させる。
- 提案手法であるNCTフレームワークは,セマンティック強化モジュールと制御モジュールを搭載した拡散モデルを活用する。
- NCTは,衣料のセマンティックな特徴と質感の詳細を維持しつつ,モデルのポーズや外観の柔軟な編集を可能にする。
- 公開ベンチマークでの実験により,提案手法の優れた性能が示された。
モデルのどこまでが必要か?リモートセンシング基盤モデルにおける冗長性と縮小可能性 [cs.CV]目的:リモートセンシング基盤モデルの冗長性と縮小可能性の評価
- 地球観測への応用が期待され,リモートセンシング分野での大規模基盤モデルの研究が活発化している。
- コンピュータビジョンのスケーリング手法がそのまま適用できるか不明であり,効率的なモデル設計が課題となっている。
- リモートセンシング基盤モデルにおけるパラメータの冗長性を評価し,効率的なモデルの縮小手法を確立する。
- リモートセンシング基盤モデルは,コンピュータビジョンモデルと比較して,より小さなスケールで過パラメータ化された状態に陥りやすいことが示された。
- 事前学習済みモデルを縮小する手法(post-hoc slimming)を用いた実験で,リモートセンシングモデルは,同程度の計算コストで高い精度を維持することが確認された。
- 学習可能な縮小手法は,MoCoおよびMAEベースのモデルの性能向上に寄与し,冗長性の高い情報分散メカニズムが示唆された。
不完全マルチモーダル分類のための推論時動的モーダリティ選択 [cs.CV]目的:不完全なマルチモーダルデータにおける信頼性のある復元されたモーダリティの動的な識別と統合
- マルチモーダル深層学習は多様な分野で成功を収めているが,実用展開には不完全なデータが課題となる。
- 既存手法は欠損モーダリティを破棄するか復元するかの二択であり,情報損失やノイズ混入のリスクがある。
- タスクに関連する情報を最大限に活用し,破棄・復元のジレンマを解消することを目指す。
- 提案手法DyMoは,推論時にモーダリティ選択を動的に行い,既存手法を大幅に上回る性能を示す。
- タスク損失と情報量の間に理論的な関係性を確立し,これを基にモーダリティ選択を誘導する報酬関数を設計した。
- 多様な自然画像および医療画像データセットにおいて,様々な欠損データシナリオで有効性が確認された。
押し出しによる形状の構築学習 [cs.GR, cs.AI]目的:形状構築のためのテキスト符号化押し出し表現
- 3Dモデリングは,様々な分野で不可欠であり,効率的な手法が求められている。
- 従来の3Dモデル生成は,ポリゴンリストに依存し,自由な形状表現が困難であった。
- テキストによる形状表現とLLMを活用し,多様な形状を生成すること。
- 本研究では,メッシュ構築を面押し出しのシーケンスとして表現する「テキスト符号化押し出し(TEE)」を提案した。
- TEEとLLMを用いることで,任意の面数を持つ多様な形状を生成可能であり,かつ,自己交差のないメッシュを生成できる。
- 学習された押し出しシーケンスは既存メッシュの編集にも応用でき,再構成,新規形状合成,機能追加を実現した。
高密度森林下の地形再構成:RGB画像とニューラル3D再構成の利用 [cs.CV, cs.CY, cs.ET, cs.GR]目的:高密度森林下の地形と地表植生の再構成
- 森林環境における捜索救助,経路作成,森林資源調査等の多様な応用分野において地形把握は不可欠である。
- 従来の地形計測には高価なLiDARやAOS等の特殊なセンサーが必要であり,コストや機動性に課題があった。
- RGB画像とニューラル3D再構成技術を用いて,安価かつ高解像度な地形再構成手法を確立すること。
- 提案手法は,RGB画像のみを用いて森林下の見通しの良い地形画像を再構成できることを示した。
- 捜索救助タスクにおいて,提案手法による人物検出は熱画像AOSと同等の性能を示すことが確認された。
- 森林資源調査における樹木計測への応用可能性が示され,コスト効率の良い代替手段となりうる。
文脈に依存する異常:異常検知のための条件付き適合性の学習 [cs.CV, cs.LG]目的:異常検知における条件付き適合性の学習
- 異常検知は,様々な分野で重要な役割を担っており,その精度向上は社会的なニーズが高い。
- 従来の異常検知は文脈を考慮せず,同じ対象でも状況によって正常か異常かが変わる場合に誤検出が生じやすい。
- 文脈依存性を考慮した異常検知フレームワークを構築し,より正確な異常検出を目指す。
- 本研究では,視覚と言語表現を活用し,被写体と文脈の関係性をモデル化する条件付き適合性学習フレームワークを提案した。
- 提案手法は,CAAD-3Kベンチマークにおいて既存手法を大幅に上回り,MVTec-ADおよびVisAでも最先端の性能を達成した。
- これにより,文脈依存性のモデリングが従来の構造異常検知を補完することが示された。
MoVE:価値埋め込みの混合 -- 自己回帰モデルにおけるパラメトリックメモリのスケーリングのための新しい軸 [cs.CL, cs.LG, cs.AI, cs.CL, cs.CV]目的:自己回帰モデルにおけるパラメトリックメモリのスケーリング手法
- 近年の生成AIの基盤であり,テキストや画像生成など多様な分野で成果を上げている。
- モデルの性能向上には計算コストの増加が伴うため,効率的なメモリ拡張が課題である。
- 計算コストを抑えつつ,パラメトリックメモリのスケーリングを可能にする。
- MoVEは,価値埋め込みの混合により,計算量とメモリ容量の依存関係を解消する。
- テキスト生成と画像生成の実験で,従来のモデルよりも高い性能を示す。
- MoVEにより,計算コストを同等に抑えつつ,低パープレキシティと高忠実度を実現する。
拡散型Speech-Textモデルによる沈黙の思考,発話による回答 [cs.CL, cs.AI, cs.LG, cs.SD]目的:音声とテキストを統合した拡散モデルによる質疑応答の精度向上
- 近年の音声言語モデルの発展は目覚ましいが,より高度な推論能力が求められている。
- 従来のモデルは,直接的に応答を生成するため,誤りを修正することが困難である。
- 思考過程を明示化することで,応答の質と理解度を向上させることを目指す。
- 提案手法DiffuSpeechは,最先端の音声対話QAの精度を9ポイントまで向上させた。
- 拡散モデルのアーキテクチャと思考過程の追跡の両方が,性能向上に貢献していることが確認された。
- 生成モデルの中で最高のTTS品質(6.2% WER)を達成し,言語理解力も維持されている(66.2% MMLU)。
DINO-SAE:高忠実度画像再構成・生成のためのDINO球面オートエンコーダ [cs.CV, cs.AI, cs.LG]目的:高忠実度画像再構成と生成の実現
- 画像生成技術は,コンピュータビジョン分野において重要な役割を担う。
- 既存手法では,高周波詳細の損失により,再構成の忠実度が制限される場合がある。
- DINOの表現力を活かし,詳細な構造を維持した高忠実度な再構成を目指す。
- 提案手法DINO-SAEは,画像再構成において最先端の性能を達成した(rFID 0.37,PSNR 26.2 dB)。
- 特徴量ベクトルの方向性を重視することで,セマンティック情報を維持しつつ,詳細なテクスチャを再現。
- 球面多様体上での拡散Transformerの学習により,効率的な収束を実現(gFID 3.47 at 80 epochs)。
データ汚染下における多重特徴量を用いた異常検知と局所化 [cs.CV]目的:現実世界の産業環境における視覚異常検知のロバスト性向上
- 産業環境における品質管理において,異常の早期発見は重要であり,自動化された検査システムの需要が高まっている。
- 既存手法は,データ汚染(正常データ中に異常が混入)を考慮しておらず,誤検出や局所化精度の低下を招く。
- 限られた異常ラベルを活用し,データ汚染の影響を軽減することで,より信頼性の高い異常検知を実現する。
- 提案手法は,逸脱度,エントロピー,セグメンテーションの3つの要素を組み合わせた複合異常スコアを用いることで,高精度な異常検知と局所化を可能にする。
- 少ない異常ラベルを活用しつつ,適応的なインスタンス重み付けによりデータ汚染の影響を軽減することで,ロバスト性を高めている。
- MVTecおよびVisAベンチマークにおいて,最先端手法と比較して,検出・局所化性能,解釈可能性,データ汚染に対する頑健性において優位性を示す。
密林の奥深く:チンパンジー個体数推定の自動化に向けて [cs.MA, cs.CV]目的:チンパンジー個体数推定のためのコンピュータビジョンによる距離推定手法の評価
- 大型類人猿の個体数調査は保全活動の基礎であり,正確な推定が不可欠である。
- 従来の距離推定は,大量のカメラトラップ映像を目視で確認する労力のかかる作業である。
- コンピュータビジョンを活用することで,距離推定の自動化と効率化を図る。
- DPTモデルがDepth Anythingモデルよりも,距離推定の精度と個体数密度推定において優れていた。
- 両モデルともに,複雑な森林環境下で距離を過大評価し,密度を過小評価する傾向が見られた。
- 動物検出の失敗が,推定精度を制限する主要な要因であることが示唆された。
Q-Hawkeye:画像品質評価のための信頼性の高い視覚的ポリシー最適化 [cs.CV]目的:画像品質評価における信頼性の高い視覚的ポリシー最適化
- 画像品質評価は,人間の知覚との整合性が重要であり,様々な応用分野で不可欠な技術である。
- 既存の強化学習ベースの手法では,予測の不安定性や視覚的認識能力の軽視が課題となっていた。
- 予測の不確実性を考慮し,視覚的根拠に基づいた品質判断を促すことで,評価の信頼性を向上させる。
- Q-Hawkeyeは,不確実性を考慮した動的最適化と,視覚認識に基づいた最適化を組み合わせることで,学習シグナルを再設計する。
- 予測スコアの分散から予測の不確実性を推定し,サンプルごとの更新強度を調整することで,ポリシー最適化を安定化させる。
- 劣化画像とオリジナル画像のペアを入力として,モデルが視覚的証拠に基づいて品質判断を行うように制約するImplicit Perception Lossを導入する。
画像埋め込みからの意味的情報漏洩 [cs.CV, cs.CL, cs.CR]目的:画像埋め込みからの意味構造の復元可能性
- 画像データはプライバシーに関わる情報を含むため,安全な取り扱いが重要である。
- 画像埋め込みは圧縮されているため,プライバシーリスクが低いと考えられていた。
- 画像埋め込みにおける意味的情報漏洩のメカニズムを明らかにすること。
- 画像埋め込みは,元の画像を完全に再構築しなくても意味的情報を漏洩する可能性があることが示された。
- 埋め込みアライメント下での局所的な意味的近傍構造の維持が,意味的情報漏洩の脆弱性を露呈する。
- 提案手法SLImEは,学習済みモデルを用いて画像埋め込みから意味情報を効率的に抽出できることを示した。
トリアージ:効率的なビデオ推論のための階層型ビジュアル予算 [cs.CV]目的:ビジョン言語モデルにおける効率的なビデオ推論のための手法
- 近年のビジョン言語モデルの発展は目覚ましいが,ビデオ処理の計算コストが課題となっている。
- ビデオデータには冗長性が多く,トークン系列が長くなり,計算資源の制約を受ける。
- ビデオデータの重要度に基づき,計算資源を効率的に配分することで推論コストを削減する。
- 提案手法「トリアージ」は,フレームレベルとトークンレベルでビジュアル予算を決定する階層的なアプローチを採用している。
- フレームレベルでは,視覚的な変化と関連性に基づいてキーフレームを特定し,重要度スコアを算出する。
- トークンレベルでは,重要度の高いコアトークンと多様なコンテキストトークンを効率的に選択することで,推論速度とメモリ使用量を改善する。
生成AIによるデータセット拡張を通じた光学品質管理における教師あり機械学習性能の向上 [cs.CV]目的:光学品質管理における教師あり機械学習性能の向上
- 工業生産において光学品質管理は不可欠であり,機械学習はその精度向上に貢献する。
- 不良品の少ない生産現場では,データセットの不均衡が機械学習モデルの性能低下を招く。
- データセットの拡張により,不均衡問題を緩和し,不良検出の精度向上を目指す。
- Stable Diffusionを用いたデータセット拡張が最も効果的であり,セグメンテーション性能を4.6%向上させた。
- その結果,Mean IoUは84.6%となり,セグメンテーション精度が大幅に向上した。
- CycleGANも有効であるが,Stable Diffusionに比べて性能向上は限定的であった。
ロボットマーカーの自動アノテーション手法について [cs.CV, cs.AI, cs.RO]目的:深層学習モデル訓練のためのArUcoマーカー画像自動アノテーション
- 人手不足から工場自動化が重要視され,搬送ロボット等の導入が進んでいる。
- 従来の画像処理では,ノイズやモーションブラー等によりマーカー認識が困難となる場合がある。
- 深層学習のデータセット準備における人的負担を軽減し,認識精度向上を目指す。
- 提案手法により,自動アノテーションを実現し,手動ラベリングの必要性を排除した。
- YOLOモデルの実験結果から,ぼかしやピンぼけの影響下で従来の画像処理手法よりも高い認識性能が確認された。
- 自動アノテーションは,人的労力を削減し,ラベル品質の一貫性を確保する。
ガウス表現を用いた自己教師あり胎児MRIスライスからボリューム再構成 [cs.CL, cs.RO, cs.CV, cs.AI]目的:胎児MRIスライスからの3Dボリューム再構成
- 胎児MRIは,発達過程の評価に不可欠であり,正確なボリューム再構成が重要である。
- 従来の再構成法は時間がかかり,十分なデータが必要である。教師あり学習は,実用的なデータがない。
- 自己教師あり学習により,データなしで高精度な再構成を可能にする。
- GaussianSVRは,3Dガウス表現を用いることで,高精度な再構成を実現した。
- シミュレーションによるスライス取得モデルにより,自己教師あり学習を可能にした。
- マルチ解像度学習戦略により,精度と効率の両方を向上させた。
顕微鏡画像における物体検出器の較正に多重評価者アノテーションを活用する [cs.CL, cs.CV]目的:顕微鏡画像における物体検出器の較正改善
- 近年,生体医学応用において,顕微鏡画像解析の重要性が増している。
- 深層学習に基づく物体検出器の信頼性向上のため,確信度の較正が課題となっていた。
- 複数の専門家によるアノテーションを活用し,検出器の確信度を改善することを目指す。
- 単一の専門家によるアノテーションで個別にモデルを学習し,その予測を統合する手法を提案した。
- 評価者間変動を考慮したアンサンブル戦略により,較正性能が向上し,検出精度を維持した。
- 評価者間の意見不一致を明示的にモデル化することで,より信頼性の高い物体検出器を構築できる可能性を示唆した。
大規模言語モデルにおける幻覚軽減のための最適化された操舵ベクトル [cs.CV]目的:大規模言語モデルにおける幻覚軽減と安全性向上
- マルチモーダルタスクにおいて高い性能を示す大規模言語モデルの応用が期待される。
- 大規模言語モデルは幻覚や安全性に関する問題が依然として存在し,規模拡大しても改善が難しい。
- 入力に依存しない単一の最適化で,幻覚を軽減し,安全性を向上させる方法を提供する。
- 提案手法OSGAは,分散ベースのデータ選択戦略を用いて代表的なサンプルを選択し,コントラスティブな目的関数と生成アンカー正則化により単一の操舵ベクトルを学習する。
- 学習された操舵ベクトルは,モデルパラメータを変更することなく,推論時に特定の層に適用可能である。
- 複数のベンチマークにおいて,OSGAによって最適化された操舵ベクトルは,幻覚の軽減と安全性向上に一貫して効果があり,オーバーヘッドも小さいことが示された。
HierLoc:階層型地理位置情報のための双曲型エンティティ埋め込み [cs.CY, cs.SI, cs.CV, cs.AI]目的:画像が撮影された場所の予測
- 画像から地理的位置を特定することは,地理情報の構造的複雑さから困難である。
- 既存手法は,大規模なデータ保存,地理的連続性の無視,詳細な位置情報の苦手さの問題がある。
- 双曲空間における地理エンティティの階層構造により,効率的かつ高精度な位置特定を目指す。
- 本研究では,地理エンティティの階層構造を双曲空間に埋め込むことで,大規模な画像埋め込みの必要性を低減した。
- Geo-Weighted Hyperbolic contrastive learningにより,国,地域,都市エンティティへの画像のアライメントを実現した。
- OSV5Mベンチマークにおいて,平均測地誤差を19.5%削減し,サブ地域の精度を43%向上させた。
EAG-PT:エミッションを考慮したガウス関数とパス トレーシングによる屋内シーンの再構成と編集 [cs.GR, cs.CV]目的:屋内シーンの再構成と編集のための手法
- リアリティのある仮想空間の構築が求められており,屋内シーンの正確な再構成が重要となる。
- 既存手法では,編集時の照明や光の伝搬が不自然になりやすいという課題がある。
- 2Dガウス関数を用いて,物理ベースの光の伝搬と編集の自由度を両立することを目指す。
- EAG-PTは,従来の輝度場ベースの手法よりも,編集後のレンダリング結果がより自然で物理的に整合性が高いことが示された。
- メッシュベースのパス トレーシングと比較して,細部の幾何学的な情報を維持し,メッシュに起因するアーティファクトを回避できる。
- 本研究は,インテリアデザイン,XRコンテンツ作成,そして具現化されたAIにおける将来的な応用への道を開く。
音声LLMにおける明示的な音響的証拠の認識:音声ディープフェイク検出に向けて [cs.SD, cs.AI]目的:音声ディープフェイク検出における音響的証拠の明示的な認識
- 近年の音声合成技術の発展により,現実と区別がつかない音声が生成可能となり,その検出が重要になっている。
- 既存の音声LLMは内容理解に優れる一方,音響的な細部の異常を見落としやすいという課題がある。
- 音響情報をより効果的に活用し,LLMが音響的な不整合を捉えられるようにすること。
- 提案手法であるSDD-APALLMは,生音声とスペクトログラムを組み合わせることで,LLMが微細な音響的不一致を捉えやすくした。
- 実験結果から,特に意味的手がかりが誤解を招く場合に,検出精度と頑健性が向上することが示された。
- この改善は,意味情報と音響情報の協調的な利用によるものであり,単純なモダリティの集約とは異なる。
点群に対する転移的敵対的攻撃の再考:コンパクトな部分空間からの視点 [cs.CV]目的:点群に対する転移的敵対的攻撃の枠組み
- 点群データの利用が拡大する中で,そのセキュリティ確保は重要課題となっている。
- 既存の攻撃手法は,モデル固有の勾配に依存し,未知のアーキテクチャへの汎化が困難である。
- モデルに依存しない,汎化性能の高い攻撃手法を確立すること。
- 提案手法CoSAは,共有された低次元のセマンティック空間内で動作する転移的攻撃フレームワークである。
- クラス固有のプロトタイプに基づき点群を表現し,低ランク部分空間で摂動を最適化することで,モデル依存的なノイズを抑制する。
- 複数のデータセットとネットワークアーキテクチャにおいて,最先端の攻撃手法を上回り,高い性能を発揮した。
