arXiv雑要約
画像・音声 - 2026/02/02 公開
スクリーン,マッチ,キャッシュ:学習不要な因果整合参照フレームワークによるヒューマンアニメーション [cs.GR, cs.AI]目的:ヒューマンアニメーションにおける長期間の一貫性と視覚的な整合性の確保
- ヒューマンアニメーションは,リアリティのある動きの生成に不可欠であり,エンターテイメントや研究分野で重要である。
- 長距離依存性のモデル化とフレーム品質の維持は難題であり,アニメーションの品質低下を引き起こす。
- 過去の観察を活用し,一貫性のあるアニメーションを生成するための新しいフレームワークを構築すること。
- 提案手法FrameCacheは,選択的なフレーム活用と動的なキャッシュ戦略により,時間的な一貫性と視覚的な安定性を向上させる。
- FrameCacheは,多様なベースライン手法と容易に統合可能であり,既存手法の性能向上に貢献する。
- ベースラインの時系列推論能力や現実と合成データの整合性が,FrameCacheの有効性に影響を与えることが示唆された。
感情認識には注意機構だけでは不十分:EAVデータセットにおけるドメイン特徴量がTransformerを上回る [cs.LG, cs.CV, cs.SD, eess.AS]目的:小規模データセットにおける感情認識の性能向上
- 感情認識は,人間とコンピュータの円滑なコミュニケーションを実現する上で重要な技術である。
- 小規模データセットでは,複雑なモデルが過学習を起こしやすく,十分な性能を発揮できない場合がある。
- ドメイン知識に基づいた特徴量エンジニアリングが,小規模データセットにおける感情認識の精度向上に貢献する。
- 複雑な注意機構は,小規模データセットにおいてベースラインモデルよりも一貫して性能が劣ることが示された。
- 音声CNNにデルタMFCCを追加することで,精度が61.9%から65.56%に向上し,EEGの周波数領域特徴量では67.62%の精度を達成した。
- ドメイン特化型事前学習を行ったVision Transformerは75.30%の精度を達成し,Visionのデルタ特徴量も1.28ppの改善を示した。
オープンボキャブラリ検出器は航空画像に転移するか?比較評価 [cs.CV, cs.LG, cs.RO]目的:航空画像におけるオープンボキャブラリ物体検出の転移可能性の評価
- 航空画像の解析は,都市計画,災害監視,環境保全など,多岐にわたる分野で重要である。
- 既存の物体検出器は特定のデータセットに特化しており,未学習のカテゴリーへの汎化が困難である。
- 航空画像におけるオープンボキャブラリ検出器の性能限界を明らかにし,ドメイン適応の必要性を示す。
- 航空画像データセットLAE-80Cにおける5つの最先端OVDモデルのゼロショット性能を評価した結果,顕著なドメイン転移の失敗が確認された。
- 最良モデル(OWLv2)でもF1スコアは27.6%に留まり,誤検出率が69%と高かった。語彙サイズを減少させると性能が大幅に向上し,意味的混乱が主要なボトルネックであることが示された。
- ドメイン固有のプレフィックスや類義語の拡張などのプロンプトエンジニアリングは,有意な性能向上をもたらさなかった。異なるデータセット間での性能変動も大きく,撮影条件への脆弱性も明らかになった。
大規模言語モデルの暗黙的な協調 [cs.GT, cs.LG, cs.MA]目的:大規模言語モデルにおける暗黙的な協調のメカニズム
- ゲーム理論や行動経済学において,合理的な解決策だけでは協調が困難な状況が存在する。
- 従来のゲーム理論では,複数の均衡解が存在する場合,どの解を選択すべきか不明確である。
- 大規模言語モデルが,人間のように焦点効果を利用して協調できるか検証する。
- 大規模言語モデルは,協調ゲームにおいて人間を上回る能力を示すことがわかった。
- しかし,数値や文化的背景知識を必要とする協調課題では,性能が低下する傾向にある。
- 本研究は,大規模言語モデルの暗黙的な協調能力を大規模に評価する最初の試みである。
分布に基づく視覚的質疑応答データセットの必要性 [cs.CV, cs.DL]目的:科学的図表に対する視覚的質疑応答能力の評価
- 大規模マルチモーダルモデルの解釈能力を測る上で,視覚的質疑応答は重要な指標となっている。
- 既存のデータセットは単純な図表分析に偏り,複雑な科学的図表の解釈に課題がある。
- 図表と基盤データ間の非1対1対応という現実的な問題を考慮したデータセットの構築を目指す。
- 本研究では,科学的図表に特化した新たな視覚的質疑応答ベンチマークの必要性を主張する。
- 基盤データに基づいた合成ヒストグラム図表を生成し,人間と大規模モデルに質問を提示することで評価を行った。
- 図表,基盤データ,生成パラメータ,そして図表要素のバウンディングボックスを含むオープンソースデータセットを公開する。
空間に迷うか? ビジョン-言語モデルは相対的なカメラ姿勢推定に苦戦する [cs.CV, cs.AI, cs.CL]目的:相対的なカメラ姿勢推定の性能評価
- ロボット工学や拡張現実など,3次元空間の理解は様々な応用において不可欠である。
- 既存のビジョン-言語モデルは,3次元空間構造の理解が十分でないという課題がある。
- 現実的なシナリオ下でのカメラ姿勢推定におけるモデルの限界を明らかにする。
- ビジョン-言語モデルは,単純な2次元ヒューリスティクスに頼る傾向があり,特に奥行き方向の変化やロール変換で性能が低い。
- 最先端のGPT-5を含む多くのモデルは,従来の幾何学的手法や人間の性能に劣る。
- 複数画像の情報を統合する際の性能に一貫性がなく,空間的ヒントの活用が困難である。
位置情報なしの幾何学?位置埋め込みが空間推論に役立つ場合と害する場合 [cs.CV]目的:Vision Transformerにおける位置埋め込みの幾何学的役割の解明
- 画像認識においてTransformerの利用が広がる中で,位置情報の扱いが重要となっている。
- 位置埋め込みが空間推論に与える影響は十分に理解されておらず,その適切な利用方法が課題である。
- ViTにおける位置埋め込みが幾何学的整合性や空間推論に及ぼす影響を明らかにすること。
- 位置埋め込みは単なるトークン指標ではなく,表現の空間構造を形成する幾何学的事前知識として機能することが示された。
- 14のViTモデルを用いた実験により,位置埋め込みが多視点幾何学と空間推論に影響を与えることが明らかになった。
- 位置埋め込みがViT表現における空間構造を支配する因果メカニズムとして機能することが確認された。
階層的量子化は最適な再構成に不可欠か [cs.CV, cs.LG]目的:ベクトル量子化変分オートエンコーダの再構成性能の比較
- 高忠実度な再構成は,ニューラル圧縮や生成パイプラインを含む様々なモデルにおいて重要である。
- 階層型VQ-VAEは再構成性能が高いとされているが,その優位性は十分に検証されていない。
- 単層VQ-VAEが,階層型VQ-VAEと同等の再構成性能を達成可能か検証する。
- 単層VQ-VAEにおいて,コードブックの利用不足や崩壊が問題となることが確認された。
- データからの初期化や,不活性なコードブックベクトルのリセット,ハイパーパラメータの調整により,コードブック崩壊を抑制できることが示された。
- 表現容量を一致させ,コードブック崩壊を抑制することで,単層VQ-VAEは階層型VQ-VAEと同等の再構成性能を達成できることが明らかになった。
構造化アテンションを用いた効率的な動画拡散Transformer:VMonarch [cs.CV, cs.AI]目的:動画拡散Transformerにおける効率的なアテンション機構の提案
- 動画生成AIの発展において,動画の長尺化と高品質化が重要な課題となっている。
- 動画拡散Transformerのアテンション機構は計算量が膨大であり,長尺動画への適用が困難である。
- スパースな動画アテンションパターンに着目し,計算量を削減する新たなアテンション機構を開発する。
- 提案手法VMonarchは,既存手法と同等以上の動画生成品質をVBenchで達成した。
- VMonarchはアテンション計算量を17.5倍削減し,長尺動画のアテンション計算速度を5倍以上向上させた。
- VMonarchは最先端のスパースアテンション手法を90%のスパース率で上回る性能を示した。
SurrogateSHAP:テキスト画像生成モデルにおける貢献度評価のトレーニング不要手法 [cs.LG, cs.CV]目的:テキスト画像生成モデルの貢献者に対する適切な評価方法
- テキスト画像生成モデルの利用拡大に伴い,データ提供者への公正な報酬が重要となっている。
- Shapley valueは理論的に妥当だが,再学習コストや組み合わせ爆発の問題がある。
- 事前学習済モデルを用いた推論により,再学習コストを削減し,効率的な評価を実現する。
- SurrogateSHAPは,既存手法と比較して計算コストを大幅に削減しつつ,高い評価精度を達成した。
- CIFAR-20,Stable Diffusion,FLUX.1など,多様なデータセットで有効性が確認された。
- 臨床画像における誤相関の原因となるデータソースの特定にも成功し,安全性評価への応用が期待される。
粗からリアルへ:人口密集ダイナミックシーンの生成レンダリング [cs.CV]目的:人口密集都市の群衆動画生成手法
- 大規模なシーン描画は,リアリズムとスケーラビリティの両立が課題であり,現実的な映像制作に不可欠である。
- 従来のレンダリングは,アセットや計算資源を多く必要とし,複雑なシーンのリアルタイム描画が困難である。
- 粗い3Dシミュレーションからリアルな映像を生成し,大規模シーン描画の効率化を目指す。
- 本研究では,粗い3Dレンダリングでシーン構成やカメラワークを制御し,学習済みニューラルレンダラーでリアルな外観を生成するC2Rを提案する。
- 大規模な実データとシミュレーションデータを組み合わせた学習戦略により,異なるドメイン間の特徴を共有し,制御性を向上させている。
- この手法は,少ない3D入力から,時間的に一貫性のある,制御可能な,リアルな都市シーン動画を生成できる。
公正な分割のためのTransformerアーキテクチャ:FAIRFORMER [cs.GT]目的:離散的な公正な分割問題に対する解決策
- 資源配分は,経済学,計算機科学など幅広い分野で重要である。
- 従来の分割アルゴリズムは,公平性と効率性のバランスが難しい。
- 本研究は,公平性を考慮した効率的な分割手法を提案する。
- 提案手法FairFormerは,経済効率と公平性のトレードオフを考慮した分割を可能にする。
- FairFormerは,学習データのみで高い性能を発揮し,既存手法を上回る結果が得られた。
- 特に,Nash WelfareおよびUtilitarian Welfareにおいて,ほぼ最適な水準を達成している。
FlexMap:柔軟なカメラ構成からの汎用的なHDマップ構築 [cs.CL, cs.CV]目的:柔軟なカメラ構成からのHDマップ構築手法
- 自動運転における安全性向上には,高精度な環境認識が不可欠であり,HDマップはその基盤となる重要な情報を提供する。
- 既存手法はカメラの配置や較正に依存するため,センサー故障や車両間でのカメラ構成の差異に弱いという課題がある。
- 様々なカメラ構成に対応し,センサーの異常時にもロバストなHDマップ構築を実現することで,実用的な自動運転を可能とする。
- FlexMapは,特定のカメラ構成に依存せず,様々な構成に対応できるHDマップ構築手法である。
- 3次元シーンの理解を特徴空間に暗黙的に符号化するジオメトリ認識の基盤モデルとクロスフレーム注意機構により,明示的な幾何学的投影を不要としている。
- 実験の結果,FlexMapは複数の構成で既存手法を上回り,欠損した視点やセンサーの変動に対する頑健性も示している。
話者認識システムにおける誤認識を誘発する効果的なエネルギーマスクに基づく敵対的欺瞞攻撃 [cs.CL, cs.MA, cs.RO, cs.HC, cs.SD, cs.CR, eess.AS]目的:話者認識システムに対する敵対的欺瞞攻撃手法
- 音声データ利用の拡大に伴い,話者認識技術の安全性確保が重要である。
- 既存の手法では,欺瞞攻撃による音質の劣化が課題となっていた。
- 人間の聴覚特性を考慮し,音質劣化を最小限に抑えた攻撃手法を提案する。
- 提案手法MEPは,既存手法FGSMやIterative FGSMと比較して,音質劣化を大幅に抑制した。
- PESQ評価において,MEPはFGSMと比較して相対性能が26.68%向上した。
- MEPは,高い欺瞞効果と良好な音質を両立する,効果的な敵対的攻撃手法である。
視覚言語モデルに対するマルチモーダル推論による脱獄 [cs.CV, cs.AI]目的:視覚言語モデルの安全性に対する脆弱性の解明
- 視覚言語モデルは,画像認識や自然言語処理において重要な役割を担う。
- プロンプトのわずかな変化で出力が変わり,安全性確保が課題。
- CoTプロンプトとReActを用いた,安全フィルター回避の手法開発。
- 提示されたフレームワークは,安全フィルターを回避する巧妙なプロンプトを生成する。
- ReAct駆動の適応的ノイズ機構により,攻撃成功率を向上させる。
- テキストと画像の自然性を維持しつつ,攻撃成功率を大幅に改善した。
信頼できる臨床歩行分析のための確率的多視点マーカーレスモーションキャプチャによる較正された不確実性 [cs.CL, cs.CV]目的:臨床歩行分析における信頼性向上を目的とした,確率的多視点マーカーレスモーションキャプチャの較正と信頼性評価
- 歩行分析は,リハビリテーションや神経科学研究において重要な役割を担う。客観的な評価が求められている。
- 従来のマーカーレスモーションキャプチャは,その精度と信頼性の評価が難しく,臨床応用には課題が残されていた。
- 本研究は,不確実性の定量化により,信頼性の低い出力を特定し,臨床応用を可能にすることを目指す。
- 提案手法は,ステップ長と歩幅長,およびバイアス補正された歩行運動学的データにおいて,ECE値が一般的に0.1未満と良好な較正を示した。
- ステップ長と歩幅長の平均誤差はそれぞれ約16mm,12mmであり,下肢関節のバイアス補正された運動学的誤差は1.5〜3.8度に及んだ。
- モデルが予測する不確実性の大きさと,観測された誤差指標との間に強い相関関係が認められ,不確実性の定量化が有効であることが示された。
動的厚生最大化プールドテスト [cs.GT, cs.AI]目的:厚生の最大化
- 公衆衛生上の疾病スクリーニングにおいて,限られた検査資源を有効活用する手法として重要である。
- 従来のプールドテスト研究は静的な定式化が多く,検査割り当てが事前に決定される点が課題であった。
- 検査を逐次的に行うことで,より効率的に健康な個人の総効用を最大化することを目指す。
- 動的テストは,限られた予算において静的テストよりも大きな厚生改善をもたらすことが示された。
- 単純な貪欲法が静的な手法を大幅に上回り,計算効率も維持できることが明らかになった。
- 学習ベースの手法は柔軟な基盤として含まれるものの,貪欲法を安定的に上回る結果は得られなかった。
弱い拡散事前分布でも,強力な逆問題性能を達成できる [cs.LG, cs.CV, stat.CO, stat.ML]目的:逆問題における弱い拡散事前分布の有効性
- 逆問題は,画像再構成などに応用され,多くの分野で重要な課題である。
- 通常,逆問題では,未知信号に密接に関連するデータで訓練された高精度なモデルが必要とされる。
- 異なるデータで訓練された,または低精度な拡散事前分布でも,十分な性能を発揮できることを検証する。
- 測定データが豊富な場合,弱い拡散事前分布でも高い性能を示すことが実験的に示された。
- ベイズ整合性に基づく理論により,高次元の測定が事後分布を真の信号の近くに集中させる条件が明らかになった。
- 弱い拡散事前分布を信頼性高く利用できる条件に関する理論的根拠が提供された。
ロボティクス向け高精細5MPステレオビジョンセンシング [cs.RO, cs.CV]目的:ロボティクスにおける高精細ステレオビジョンシステムの性能向上
- ロボットの自律性向上には,より遠距離での認識と高精度な3D情報が不可欠である。
- 高解像度センサーの利用には,高精度なキャリブレーションと高速処理が課題となる。
- 高精度なキャリブレーションとステレオマッチング手法による性能向上を目指す。
- 提案手法により,5MPカメラ画像を用いた高精度かつ高速なキャリブレーションとステレオマッチングを実現した。
- リアルタイムのディスパリティマップと,計算負荷の高いアルゴリズムによる真値との比較による性能評価を行った。
- 高画素数カメラの高品質な点群生成には,高精度なキャリブレーションが不可欠であることを示した。
過度な事前知識への依存克服:自己検証フレームワークによるLVLMにおける物体幻覚の軽減 [cs.CV, cs.AI]目的:大規模ビジョン言語モデルにおける物体幻覚の軽減
- 画像キャプション生成において,LVLMの信頼性を高めることが重要である。
- LVLMは言語の事前知識に過度に依存し,存在しない物体を生成してしまうという問題がある。
- 言語の事前知識への依存を抑制し,物体幻覚を軽減する手法を開発する。
- 本フレームワークは,画像キャプション生成における物体幻覚を大幅に軽減することを示した(LLaVA-v1.5-7BにおいてCHAIRI指標で65.6%の改善)。
- 先行研究を凌駕する性能であり,LVLM本来の潜在能力を引き出す新たな道を示す。
- 生成文の長さが長くなるほど,言語の事前知識への依存が強まり,幻覚が発生しやすくなることを明らかにした。
ScribbleSense:意図予測を用いた生成的な落書きベースのテクスチャ編集 [cs.CV]目的:落書きに基づくテクスチャ編集における意図予測と画像生成の組み合わせ
- 3Dモデルのテクスチャ編集は,3Dアセット作成の機会を広げる重要な分野である。
- 既存手法はアウトラインに特化し,粗い落書きによる操作が限られていた。
- 落書きの曖昧さを解消し,意図とターゲット位置を明確にすることを目指す。
- ScribbleSenseは,MLLMと画像生成モデルを組み合わせることで,落書きの意図を予測する。
- 生成された画像から局所的なテクスチャ詳細を抽出し,意味的な曖昧さを軽減する。
- 実験結果から,本手法がMLLMの強みを活かし,最先端の編集性能を達成することが示された。
CARE:ロボット制御における潜在的な連続行動表現のためのマルチタスク事前学習 [cs.RO, cs.CV]目的:ロボット制御のための潜在的連続行動表現の学習
- ロボットの自律的なタスク実行には,環境を理解し適切な行動を生成する能力が不可欠である。
- 既存のVLAモデルは行動に関する教師データに依存するため,汎化性能やスケーラビリティに課題がある。
- 行動ラベルを用いずに,動画とテキストのペアから連続的な行動表現を学習することで,汎化性能を高める。
- CAREは,明示的な行動ラベルを必要とせず,動画-テキストペアのみを用いて連続的な潜在行動表現を学習する。
- シミュレーション実験の結果,CAREは既存手法と比較して高い成功率とセマンティックな解釈可能性を示した。
- CAREは,弱教師データ下でのロボット制御において,スケーラビリティと効果を発揮することが示された。
拡散モデルにおける表現アラインメント射影による学習不要の表現ガイダンス [cs.CV, cs.AI]目的:拡散モデルの表現ガイダンスによるセマンティックアラインメントの改善
- 近年の生成モデルの発展により,高品質な画像合成が可能となり,制御可能なサンプリングが実現した。
- 推論時のガイダンス手法は,教師なし特徴表現を十分に活用できていないという課題がある。
- 拡散Transformerにおける初期ノイズ除去段階のセマンティックドリフトを軽減し,一貫性のあるアラインメントを促す。
- 表現アラインメント射影を用いることで,モデルアーキテクチャを変更せずにセマンティックアンカーを提供できる。
- SiTsおよびREPAsを用いた実験で,ImageNet合成においてFIDスコアが大幅に低下した(例:REPA-XL/2は5.9から3.3へ)。
- 提案手法はSiTモデルへの代表的なガイダンスよりも優れており,classifier-free guidanceとの組み合わせでも相乗効果が得られた。
音声強調における表現集約の再考:音声素性相互情報量の視点 [cs.SD, eess.AS]目的:音声強調における表現集約手法の改善
- 近年の音声処理研究では,高品質な音声の生成が重要視されている。
- 自己教師あり学習の表現はノイズに弱く,音声強調モデルの性能を阻害する可能性がある。
- 音声素性に基づく相互情報量を最大化することで,よりロバストな表現集約を実現する。
- 提案手法は,音声素性相互情報量を最大化するように事前学習された言語集約層を用いる。
- この層は音声強調モデルの学習中に固定され,言語内容との整合性を重視した適応モジュールの構築を実現する。
- 実験結果から,提案手法は既存の共同最適化手法と比較して,語彙誤り率の改善に貢献することが示された。
ヘッドを意識した視覚的クロッピング:アテンション誘導サブ画像による詳細VQAの強化 [cs.CV]目的:詳細VQAにおける視覚的根拠付けの改善
- マルチモーダルLLMの性能向上は,画像と質問を理解する上で不可欠である。
- 低解像度入力やノイズのあるアテンション集約が,詳細な推論の限界となっている。
- アテンションヘッドを活用し,タスクに関連する領域を特定することで,視覚的根拠付けを強化する。
- 提案手法HAVCは,OCRベースの診断タスクにより,有効なアテンションヘッドをフィルタリングする。
- 空間エントロピーと勾配感度を用いてヘッドを洗練し,信頼性の高い視覚的クロッピングガイダンスマップを生成する。
- 複数の詳細VQAベンチマークで,既存のクロッピング戦略を上回り,より正確な局所化と視覚的根拠付けを実現した。
多クラス異常検出しにおけるクロスモーダルプロンプティング [cs.CL, cs.CV]目的:多クラス画像異常検出と局所化
- 画像処理において,製品の欠陥検出は品質管理の重要な要素である。
- 異常データの不足や,多様なカテゴリにおける異常検出が課題である。
- 画像とテキストの関連性を利用し,微細な異常を高精度に検出すること。
- 提案手法PromptMADは,視覚と言語の整合性を活用し,異常検知性能を向上させている。
- MVTec-ADデータセットにおいて,平均AUCが98.35%,APが66.54%と,最先端の性能を達成した。
- Focal lossの導入により,異常領域の検出精度が向上し,効率的な異常局所化を実現している。
AI概要は検索エンジンに利益をもたらすか:生態系からの考察 [cs.GT, cs.IR]目的:検索エンジンにおけるAI概要の導入が,長期的な収益に与える影響とその改善策
- 検索エンジンは情報へのアクセスにおいて不可欠であり,その健全な発展が重要である。
- AI概要の導入は,コンテンツ制作者へのトラフィック減少を引き起こし,コンテンツの質の低下を招く恐れがある。
- AI概要が検索エンジンの長期的な収益を損なう問題を解決し,持続可能な生態系を構築すること。
- AI概要の導入は,短期的にユーザー体験を向上させるものの,長期的な検索エンジンの収益を減少させる。
- 引用メカニズムや報酬メカニズムといったインセンティブメカニズムを導入することで,収益の増加が期待できる。
- 現実のクリックデータを用いた評価により,提案メカニズムが様々なシナリオで長期的な収益向上に貢献することが示された。
MIRRORTALK:潜在空間と階層的動作制御によるパーソナライズされたアバターの生成 [cs.IR, cs.NI, cs.CV, cs.SD]目的:話者のユニークなスタイルを保持しつつ,リップシンクの正確性を維持したパーソナライズされた会話顔の合成
- 動画生成技術の発展は,メタバースやバーチャルコミュニケーションにおける臨場感向上に不可欠である。
- 既存手法では,話者固有のスタイルと意味内容が顔の動きに混在し,人格の転送が困難である。
- 本研究は,話者のスタイルを忠実に再現しつつ,正確なリップシンクを実現するアバター生成を目指す。
- MirrorTalkは,条件付き拡散モデルと意味的に分離されたスタイルエンコーダ(SDSE)を組み合わせた生成フレームワークである。
- SDSEは短い参照動画から純粋なスタイル表現を抽出し,階層的な変調戦略を用いて拡散過程を制御する。
- 実験の結果,MirrorTalkは最先端手法と比較して,リップシンクの精度とパーソナライズの保持において有意な改善を示すことが確認された。
DreamVAR:高忠実度な被写体駆動型画像生成のための強化学習を用いた視覚自己回帰モデルの制御 [cs.DL, cs.CV]目的:被写体駆動型画像生成
- 画像生成技術は,エンターテインメントから研究開発まで幅広い分野で重要性が増している。
- 拡散モデルは高品質だが,自己回帰モデルはその効率性にもかかわらず未開拓の可能性を秘めている。
- VARモデルにおける多段階条件付けの不一致を解消し,被写体の一貫性を高めることを目指す。
- DreamVARは,既存の拡散モデルと比較して,より優れた外観の保持を実現している。
- 視覚トークナイザーを用いて被写体特徴を抽出し,自己回帰依存関係を簡略化する設計となっている。
- 強化学習を組み込むことで,意味的な整合性と被写体の一貫性を同時に向上させている。
CoVA:音声と映像コンテンツに対するテキスト誘導による合成動画検索 [cs.CV]目的:音声と映像の両方の変化を考慮した合成動画検索タスクの実現
- 動画検索は情報へのアクセス手段として重要であり,その精度向上は利用者の利便性向上に繋がる。
- 既存の合成動画検索ベンチマークは視覚的な変化に焦点を当てており,音声の変化は考慮されていない。
- 視覚情報に加え,音声情報も考慮した新たな検索タスクを提案し,その性能向上を目指す。
- 本研究では,視覚と聴覚の両方の変化に対応する新たなベンチマークAV-Compを構築した。
- また,動画,音声,テキストの特徴量を統合するAVT Compositional Fusion(AVT)を提案した。
- 提案手法AVTは,従来の単一モダリティの融合手法を上回り,CoVAタスクにおいて高い性能を示した。
DNA:普遍的な潜在的な偽造知識の解明 [cs.CV]目的:偽造検出能力の解明
- 生成AIの進化に伴い,偽造検出技術は重要性を増している。
- 既存手法は計算資源を要する再学習に依存し,効率性に課題がある。
- 事前学習済みモデルに潜在する偽造検出能力を活用することを目指す。
- DNAフレームワークは,特徴解結合と注意分布の変化を分析し,偽造検出に重要な中間層を特定する。
- 三重融合スコアリングと曲率切断戦略により,偽造痕跡に感度を持つ偽造識別ユニット(FDU)を抽出する。
- 最新モデルに基づいた高品質合成ベンチマークHIFI-Genを開発し,既存データセットの遅れを解消した。
3D点群データは乳用牛の体格スコア自動予測を向上させるか? [cs.RO, cs.HC, cs.CL, cs.CV]目的:乳用牛の体格スコア予測における3D点群データの有効性評価
- 体格スコアは牛のエネルギー状態,繁殖性能,健康状態を示す重要な指標である。
- 従来の視覚的スコアリングは主観的で労力を要するため,客観的な評価方法が求められている。
- 本研究では,3D点群データと深度画像による体格スコア予測の比較を通して,最適な手法を特定する。
- 深度画像ベースのモデルは,未セグメント化データおよび全身セグメント化データにおいて,点群データベースのモデルよりも高い精度を示した。
- 一方,後躯セグメント化データを用いた場合には,両者の予測性能に差は見られなかった。
- 手動特徴量データを用いた場合,深度画像と点群データの両方で予測精度が低下した。
高密度予測のためのセグメンテーションに関する考察 [cs.CV]目的:高密度予測におけるセグメンテーションの役割
- 3D認識やロボティクスにおいて,画像からピクセル単位の情報を推定する高密度予測は不可欠である。
- 既存手法は,現実世界の構造的な特徴を考慮せず,ピクセルごとの独立した予測を行うため,構造の一貫性に問題がある。
- 本研究は,セグメンテーションを組み込むことで,高密度予測における幾何学的制約を明示的に適用し,構造的な一貫性を改善することを目指す。
- 提案手法SHEDは,セグメント情報を階層的に処理することで,深度境界の鮮明さとセグメントの一貫性を向上させる。
- SHEDは,合成データから実データへの汎化性能に優れ,3Dシーンの全体的なレイアウトをより正確に捉える。
- さらに,SHEDは従来のピクセル単位の手法では見逃されがちな,解釈可能な部品レベル構造を明らかにすることで,3D再構成の品質を向上させる。
外骨格制御空間の探索:人間協調型シミュレーション [cs.RO, cs.GR, cs.LG]目的:外骨格支援の最適化
- 移動能力の向上に貢献する外骨格技術は,医療・介護分野での活用が期待されている。
- 外骨格制御器の最適化には多くの人実験が必要だが,歩行困難な人々の参加は困難である。
- 人間実験に頼らず,シミュレーションによる外骨格支援の最適化を目指す。
- Exo-ploreは,神経筋シミュレーションと深層強化学習を組み合わせることで,人実験なしに股関節外骨格の支援を最適化できる。
- 生成された現実的な歩行データにより,外力への人間の適応を捉え,確率的な歩行の変動にもかかわらず,信頼性の高い最適化結果が得られる。
- 病的な歩行にも対応可能であり,病状の重症度と最適な支援レベルの間に強い線形関係が認められた。
ニューラル距離学習と特徴融合によるクロスデバイス局所化 [cs.CV]目的:クロスデバイス局所化手法
- ロボットや拡張現実において,環境中の自己位置推定は不可欠な技術である。
- 異なるデバイス間での位置推定は,センサーの特性が異なるため困難である。
- 異なるデバイス間でも高精度な局所化を実現し,性能向上を目指す。
- 共有Retrievalエンコーダと2つの局所化ブランチ(幾何学的ブランチとニューラルブランチ)を統合した。
- ニューラルによる候補フレームのプルーニングと深度条件付き局所化により,精度が向上した。
- HYDROおよびSUCCUのベンチマークにおいて,高いリコールと精度を達成し,チャレンジで92.62点を獲得した。
データ活用による拒否:メモリ拡張型プラグアンドプレイ選択的予測 [cs.CV, cs.LG]目的:選択的予測における拒否オプションの性能向上
- 汎用的な基盤モデルの信頼性を高めることは,様々な応用において重要である。
- 既存の選択的予測は限定的なタスクに焦点を当て,オープンセット問題への対応が課題であった。
- 画像キャプション生成等の多様なタスクにおいて,基盤モデルへの追加学習なしに選択的予測を可能とする。
- MA-PaPSPは,既存のPaPSPや他の選択的予測手法と比較して,選択的キャプション生成,画像テキストマッチング,詳細分類で優れた性能を示した。
- 視覚言語表現の不安定性と類似度スコアの校正不良に対処するため,画像テキストペアの検索データセットを用いてメモリ拡張を行う。
- 検索された最近傍ペアの平均化とコントラスト正規化により,埋め込みの分散を低減し,スコアの校正を改善する。
動的エキスパートライブラリを用いた継続的な全天候画像復元 [cs.CV]目的:全天候画像復元のための継続学習フレームワーク
- 実用的な画像復元において,様々な天候条件下での画像品質改善は重要である。
- 既存手法は,事前に収集されたデータに依存し,未知の劣化に対して再学習が必要でコストが高い。
- 未知の劣化にも対応可能な,効率的で継続的な学習システムの構築を目指す。
- DELNetは,タスク類似度を測る判断バルブと,異なる劣化で訓練されたエキスパートを格納する動的エキスパートライブラリを統合する。
- 新しいタスクに対しては,バルブが知識転移のための上位k個のエキスパートを選択し,新しいエキスパートを追加する。
- OTS,Rain100H,Snow100Kでの実験により,DELNetは最先端の継続学習手法を上回り,PSNRがそれぞれ16%,11%,12%向上した。
ビデオ大規模言語モデルにおける幻覚の軽減:時空間・意味的対照デコーディングによるアプローチ [cs.CV, cs.AI]目的:ビデオ大規模言語モデルにおける幻覚軽減策
- 近年のビデオ理解技術の発展に伴い,ビデオ大規模言語モデルの重要性が増している。
- ビデオ大規模言語モデルは幻覚を起こしやすく,内容と矛盾した情報を生成する可能性がある。
- 既存手法の限界を克服し,より高精度な幻覚軽減策を確立することを目指す。
- 本研究では,時空間的整合性と意味的関連性を意図的に破壊する負例を作成する新しいデコーディング戦略を提案した。
- 提案手法は,オリジナルビデオ特徴量との対照デコーディングを通じて,幻覚を効果的に抑制できることを示した。
- 実験の結果,幻覚の軽減に加え,ビデオ理解や推論能力も維持されていることが確認された。
PhoStream:モバイル環境における全モード支援のためのリアルワールドストリーミングのベンチマーク [cs.CV, cs.CL]目的:モバイル環境における全モード大規模言語モデルのストリーミング性能評価
- モバイルアシスタントは日常生活で必要不可欠であり,その性能向上は重要である。
- 既存のベンチマークは,短い動画や選択問題に限定されており,実用的なストリーミング評価が不足している。
- 本研究は,現実的なモバイル環境における全モード支援のためのストリーミング性能評価基準を確立することを目指す。
- PhoStreamは,画面内外のシナリオを統合し,動画,音声,時間的推論を評価するモバイル中心のストリーミングベンチマークである。
- 実験の結果,LLMによる評価において,即時および逆方向タスクでは高い性能を示す一方,前方タスクでは大幅な性能低下が確認された。
- この結果は,現在のMLLMが「何を言うか」だけでなく,「いつ話すか」を判断することに課題があることを示唆している。
ミックスアップ基盤モデルに基づくハイパースペクトル画像分類のためのドメイン間少数ショット学習 [cs.CV, cs.AI, cs.LG]目的:ハイパースペクトル画像分類におけるドメイン間少数ショット学習の性能向上
- ハイパースペクトル画像は,地表の物質識別などに有用であり,多様な分野で活用が期待されている。
- 少数サンプルでの学習が困難であり,ドメイン間のデータ分布の差異が分類精度を低下させる。
- 基盤モデルを活用し,データ拡張やドメイン間の差異を軽減することで,高精度な分類を実現する。
- 提案手法MIFOMOは,リモートセンシングの基盤モデルを活用し,少ない学習データでも高い汎化性能を示す。
- コレスセント投影(CP)により,基盤モデルをダウンストリームタスクへ迅速に適応させ,過学習を抑制する。
- ミックスアップドメイン適応(MDM)とラベル平滑化により,ドメイン間の差異やノイズに対するロバスト性を向上させる。
フランスのオルソ画像と地形データを用いた大規模建物変化検出ベンチマーク FOTBCD [cs.CV]目的:建物変化検出のための大規模ベンチマークデータセット
- 都市計画や災害対応において,建物の変化を正確に把握することは不可欠である。
- 既存のデータセットは地理的な範囲が限定されており,汎化性能の評価が困難である。
- 地理的な多様性を考慮したデータセットを構築し,汎化性能向上を目指す。
- FOTBCDはフランス全土の28県を対象とし,多様な環境に対応した大規模データセットである。
- FOTBCD-Binaryは約28,000組の画像ペアとピクセル単位の建物変化マスクを提供し,地理的ドメインシフト下での評価を可能にする。
- 実験結果から,データセットレベルでの地理的多様性は,建物変化検出における汎化性能向上に寄与することが示された。
データ効率的なクエリに基づく汎用音分離のための意味的に整合性の高いデータセット [cs.SD, cs.HC]目的:データ効率的なクエリに基づく汎用音分離のための高品質なデータセットの構築
- 知能を持つ聴覚システムの基礎であり,複雑な音響環境下での音源分離の性能向上が求められる。
- 既存のデータセットは弱ラベルや音源の同時発生といった問題があり,頑健なモデル学習の妨げとなっている。
- 意味的に整合性のある合成プロトコルを用いて,高品質な単一音源セグメントを抽出し,データセットの純度を高める。
- 本研究で構築したHiveデータセットは2400時間であり,既存モデルと同等以上の分離性能と知覚品質を実現した。
- 大規模なデータセットで学習したSAM-Audioと比較して,Hiveで学習したオープンソースモデルが競争力のある性能を示した。
- 学習データとは異なる評価ベンチマークにおいても,顕著なゼロショット汎化能力が確認された。
TTSA3R:ストリーミング3D再構成のための訓練不要な時空間適応型持続状態 [cs.CV]目的:ストリーミング3D再構成における適応的な状態更新
- 3D再構成は,ロボティクスや自動運転など,様々な分野で重要な役割を担う技術である。
- 長時間のシーケンスにおいて,既存のストリーミング再帰モデルは記憶の忘却に悩まされている。
- 本研究は,時空間的な一貫性を考慮した適応的な状態更新により,長期的な再構成の安定性を向上させる。
- 提案手法TTSA3Rは,訓練を必要とせず,時系列状態の変化と空間的観察品質を両方活用することで,適応的な状態更新を実現する。
- 実験結果から,TTSA3Rは多様な3Dタスクにおいて有効であり,拡張されたシーケンスにおいてベースラインモデルと比較して著しく少ない誤差増加を示すことが確認された。
- TTSA3Rは,ベースラインモデルが200%以上の劣化を示すのに対し,誤差の増加を15%に抑え,長期的な再構成の安定性を大幅に向上させた。
UniGeo:ジオメトリ認識学習と動的チャネルゲーティングを統合した統一的な3D室内物体検出フレームワーク [cs.CV]目的:3D室内物体検出のための統一的フレームワーク
- ロボティクスや拡張現実の普及に伴い,点群に基づく3D物体検出の研究が活発化している。
- 既存手法は,複数データセットでの統一的学習は可能だが,疎な点群シーンにおける幾何学的関係のモデル化が不十分である。
- 疎な点群シーンにおける幾何学的特徴の強化と,特徴表現の最適化を図る。
- 提案手法UniGeoは,空間関係から特徴重みを学習するジオメトリ認識学習モジュールを導入し,幾何学的特徴を明示的に強化する。
- さらに,動的チャネルゲーティング機構により,疎な3D U-Netネットワークから生成される特徴を適応的に最適化し,重要な幾何学的情報を増強する。
- 6つの異なる室内シーンデータセットでの実験により,提案手法の優れた性能が実証された。
LINA:連続トークンを用いた線形自己回帰画像生成モデル [cs.CV]目的:計算効率の良い線形注意機構の設計
- 画像生成分野は,テキストからの画像合成など,多様な応用可能性を秘めている。
- 連続トークンを用いた自己回帰モデルは計算コストが高く,実用上の課題となっていた。
- 線形注意機構の設計を通じて,計算効率を改善し,高解像度画像の生成を可能とする。
- 除算に基づく正規化が,線形生成Transformerにおいて,より良いスケーラビリティを示すことが判明した。
- 畳み込み演算を導入することで,自己回帰生成における局所性のモデリングが重要であることが確認された。
- 提案手法LINAは,1024x1024の高解像度画像を生成可能であり,ImageNetでFID 2.18,GenEvalで0.74を達成した。
ランガナータンからコンピュータビジョンは何を学べるか [cs.CV, cs.AI]目的:セマンティックギャップ問題の解決と高品質なコンピュータビジョンデータセットの設計
- コンピュータビジョンは,画像から意味を理解する技術であり,様々な分野で応用が期待されている。
- 視覚的情報と言語的意味のずれが「セマンティックギャップ」を引き起こし,データセットの質を低下させている。
- ランガナータンの分類原理を応用し,セマンティックギャップを解消し,より精度の高いアノテーションを目指す。
- ランガナータンの原理に基づいたvTelosアノテーション手法が,コンピュータビジョンのアノテーション品質向上に貢献する。
- vTelosを用いることで,コンピュータビジョンの精度向上が確認された。
- 本研究は,高品質なコンピュータビジョンデータセット設計の指針を提供する。
表現力豊かなロールプレイTTSのためのLALMの評価と報酬:平均継続対数確率による [cs.SD]目的:表現力豊かなロールプレイTTSにおけるLALMの評価指標と報酬信号の提案
- 近年のLALMの発展により,TTSがインタラクティブなロールプレイに拡張され,表現力と指示への厳格な準拠が求められる。
- 既存モデルは,多岐にわたる対話においてキャラクタープロファイルやシーン描写とのスタイルの一貫性を維持するのが難しい。
- スタイルの一貫性を定量化する客観的評価指標の欠如を解消し,ロールプレイ指示とのスタイルアライメントを強化すること。
- 平均継続対数確率(MCLP)を評価指標および報酬信号として提案し,LALMベースのロールプレイTTSタスクで有効性を検証した。
- MCLPは,生成された音声に基づいて真の音声の尤度を測定することでスタイルの一貫性を定量化する。
- 実験結果から,提案手法は客観的および主観的評価指標において強力なLALMベースラインを大幅に上回ることが示された。
教師なし合成画像帰属: アラインメントと分離 [cs.CV, cs.AI]目的:合成画像の概念の特定
- 合成画像品質向上に伴い,著作権保護やモデルの透明性確保が重要となる。
- ペア化された教師データ(合成画像と訓練データ)の取得が困難である。
- 高コストな教師データなしで,合成画像の概念帰属を可能にすること。
- 提案手法は,コントラスト学習による基本的な概念アラインメントと,Infomax損失による表現分離を組み合わせる。
- コントラスト学習モデルが持つドメイン間アラインメント能力に着目し,理論的な根拠を与える。
- 実世界ベンチマークにおいて,教師あり手法を上回る性能を示す。
ExpAlign:期待に基づいた視覚言語アライメントによるオープンボキャブラリ接地 [cs.CV]目的:オープンボキャブラリ接地における視覚と言語のアライメントの精度向上
- 画像とテキストの相互理解は,AIの発展に不可欠であり,多様な応用を可能とする。
- 既存手法は,詳細な表現力や効率性に課題があり,特に弱学習環境下での精度が低い。
- 期待に基づくアライメントフレームワークを構築し,高精度かつ効率的な視覚言語アライメントを実現する。
- ExpAlignは,トークンとリージョンの類似度に基づいたアテンション機構と複数インスタンス学習を組み合わせる。
- エネルギーベースの一貫性正則化により,学習の安定性を向上させ,特に長尾カテゴリでの性能を改善する。
- LVIS minivalスプリットにおいて36.2 AP$_r$を達成し,軽量かつ効率的なモデルでありながら,最先端手法を上回る性能を示す。
VisionTrim:トレーニングフリーなMLLM加速のための統一されたビジョン・トークン圧縮 [cs.RO, cs.CV]目的:マルチモーダル大規模言語モデルの加速
- 近年の大規模言語モデルは画像や動画などの視覚情報も扱うようになり,その応用範囲は広い。
- 視覚情報のトークン数が多く,計算コストが高いことが実用化の課題となっている。
- 視覚トークン圧縮により,計算コストを削減し,実用的なMLLMの展開を目指す。
- VisionTrimは,トレーニング不要でMLLMを加速するための統一的なフレームワークである。
- DVTSモジュールとTGVCモジュールを組み合わせることで,重要な視覚トークンを保持しつつ,文脈を考慮したトークンマージを実現する。
- 様々な画像・動画ベンチマークで,既存手法を上回る性能が確認された。
