arXiv雑要約
画像・音声 - 2025/12/18 公開
VTCBench:Vision-LanguageモデルはVision-Text圧縮による長い文脈の理解が可能か [cs.CV, cs.AI, cs.CL]目的:Vision-Text圧縮(VTC)を用いた際のVision-Languageモデル(VLM)の長文脈理解能力の評価
- 大規模言語モデル(LLM)の性能向上には,文脈長の拡大が不可欠である。しかし,計算資源とメモリ消費の増大が課題となっている。
- VTCは文脈長の拡大を可能にするが,高密度な情報表現がVLMの長文脈理解能力に与える影響は不明であった。
- VTCを用いたVLMの長文脈理解能力を詳細に評価し,より効率的でスケーラブルなVLM設計の基盤を確立すること。
- VTCBenchという新たなベンチマークを構築し,情報検索,推論,長期記憶の3つの側面からVLMの性能を評価した。
- 多くのVLMは,テキスト情報をデコードできるにもかかわらず,VTC圧縮情報に対する長文脈理解能力が低いことが示された。
- VLMが文脈内の長距離的な関連性や依存性を捉えることが困難であり,VTCにおける課題が浮き彫りになった。
SoFlow:ワンステップ生成モデリングのための解流モデル [cs.CL, cs.LG, cs.CV]目的:ワンステップからの生成手法
- 拡散モデルやフローマッチングモデルは高性能だが,多段階の処理に時間がかかるという課題がある。
- 既存手法では生成に複数ステップを要し,効率性に課題があった。
- ワンステップで画像を生成するための新しいフレームワークを構築し,効率的な生成を目指す。
- SoFlowは,速度関数と解関数の関係性を分析し,フローマッチング損失と解の一貫性損失を用いる。
- 解の一貫性損失は,従来のヤコビアン-ベクトル積の計算を必要とせず,効率的な学習が可能。
- ImageNet 256x256データセットにおいて,DiTアーキテクチャを用いた実験でMeanFlowモデルよりも優れたFID-50Kスコアを達成した。
様式化された合成拡張が,破損に対するロバスト性をさらに向上させる [cs.CV, cs.LG]目的:深層ビジョンモデルの破損に対する脆弱性の軽減
- 画像認識技術は,自動運転や医療診断など,様々な分野で不可欠である。
- 現実世界の画像はノイズや劣化を含むことが多く,モデルのロバスト性が課題である。
- 合成データとスタイル変換を組み合わせることで,ロバスト性を向上させる手法を提案する。
- スタイル変換を適用した合成画像は,FID指標では品質が低下するにも関わらず,モデル学習に有益であることが示された。
- 様式化と合成データは互いに補完し合い,TrivialAugmentのような他のデータ拡張技術と組み合わせることが有効である。
- CIFAR-10-C,CIFAR-100-C,TinyImageNet-Cにおいて,最先端のロバスト性を達成した。
mimic-video: 一般化可能なロボット制御のためのビデオ・アクションモデル [cs.RO, cs.AI, cs.CV, cs.LG]目的:ロボット制御における汎化性能の向上
- ロボットの自律的な動作を実現するには,環境を理解し,適切な行動を選択する能力が不可欠である。
- 従来のビジョン-言語-行動モデルは,静的なWebデータで学習しており,複雑な物理法則や時間的依存性を捉えきれない。
- ビデオデータを用いて意味と視覚的ダイナミクスを同時に学習し,ロボット制御におけるデータ効率と学習速度を改善すること。
- 提案手法は,シミュレーションおよび実世界のロボット操作タスクにおいて,最先端の性能を達成した。
- 従来のVLAアーキテクチャと比較して,サンプル効率を10倍,収束速度を2倍向上させた。
- 大規模なインターネット規模のビデオモデルとフローマッチングに基づく行動デコーダを組み合わせることで,物理的な因果関係を学習した。
Skyra:根拠に基づいたアーティファクト推論によるAI生成動画の検出 [cs.CV]目的:AI生成動画の検出と説明に関する研究
- AI技術の発展に伴い,動画生成の偽造が容易になり,社会的影響が懸念されている。
- 既存の検出手法は二値分類が主であり,検出根拠の提示や説明が不足している。
- 人間が認識可能な視覚的アーティファクトを根拠として,AI生成動画を検出し,説明可能にする。
- Skyraは,人間が認識可能な視覚的アーティファクトを特定し,それを検出と説明の根拠として活用する。
- 大規模なAI生成動画アーティファクトデータセットViF-CoT-4Kを構築し,モデルの性能向上に貢献した。
- 複数のベンチマークにおいて,既存手法を上回る検出精度と説明能力を実証した。
VLIC:人間と整合した画像圧縮のための知覚的判断器としての視覚言語モデル [cs.CV]目的:人間と整合した画像圧縮の実現
- 画像圧縮は,データ伝送や保存において不可欠であり,高画質を維持しつつファイルサイズを小さくすることが重要である。
- 従来のMSEなどの歪み関数は人間の知覚と一致せず,圧縮画像の品質評価に限界がある。
- 視覚言語モデルのゼロショット推論能力を利用し,人間の知覚に合致した画像圧縮システムを開発すること。
- 最先端の視覚言語モデルが,画像ペアの比較において人間の二者択一判断をゼロショットで再現できることが示された。
- 提案手法VLICは,拡散モデルのポストトレーニングに視覚言語モデルの判断を活用し,競争力のある性能を達成した。
- 大規模なユーザー調査と知覚的指標に基づき,VLICが人間と整合した圧縮において良好な結果を示すことが確認された。
自己リサンプリングによる自己回帰型ビデオ拡散モデルのEnd-to-End学習 [cs.CV]目的:自己回帰型ビデオ拡散モデルのEnd-to-End学習手法
- 現実世界のシミュレーションに有用だが,学習時と推論時で誤差が生じやすいという課題がある。
- 教師モデルやオンライン識別器に頼るポストトレーニングによる対策では,学習効率が制限される。
- 教師モデルを用いずに,大規模な学習が可能なEnd-to-Endな学習フレームワークを構築する。
- 提案手法であるResampling Forcingは,推論時のモデル誤差を学習時にシミュレートすることで,exposure biasを軽減する。
- History Routingにより,効率的な長尺ビデオ生成が可能となる。
- 蒸留ベースラインと同等の性能であり,特に長尺ビデオにおいて時間的な一貫性が向上する。
GateFusion:能動話者検出のための階層的ゲート付きクロスモーダル融合 [cs.CV]目的:能動話者検出における,視覚情報と聴覚情報の融合手法
- 動画や音声から誰が話しているかを特定する技術は,会議記録や映像解析などに応用が期待される。
- 従来の融合方法は,視覚情報と聴覚情報の間の細かい相互作用を捉えきれていない場合がある。
- 本研究は,よりロバストな能動話者検出を実現するため,クロスモーダル相互作用を効果的に捉えることを目指す。
- GateFusionは,Ego4D-ASD,UniTalk,WASDの各ベンチマークで最先端の結果を達成した。
- 特にEgo4D-ASDでは,mAPが77.8%と9.4%向上し,著しい性能改善を示した。
- ドメイン外実験により,モデルの汎化性能が確認され,各コンポーネントの相補的な効果が示された。
マルチビュー基盤モデル [cs.CV]目的:複数視点画像からの整合的な特徴量抽出
- コンピュータビジョンの多様な応用において基盤モデルの重要性が高まっている。
- 複数視点画像に対して,既存の基盤モデルは一貫性のない特徴量を出力する可能性がある。
- 異なる視点からの特徴量の一貫性を高めることで,3Dシーン理解の精度向上を目指す。
- 提案手法は,Transformerベースの基盤モデルに3D情報を考慮したアテンション層を追加する。
- これにより,異なる視点からの特徴量のマッチング性能が大幅に向上することが示された。
- 表面法線推定やマルチビューセグメンテーションといったタスクにおいて有効性が確認された。
ガウスピクセルコーデックアバター:効率的なレンダリングのためのハイブリッド表現 [cs.CV, cs.GR]目的:フォトリアリスティックな頭部アバターの生成と,モバイルデバイス上での効率的なレンダリング
- 近年,バーチャルコミュニケーションの重要性が増しており,リアルなアバターの需要が高まっている。
- 既存の3Dアバター表現は,リアリズムとレンダリング効率の両立が課題であった。
- リアリズムと効率性を両立する新たなアバター表現手法を確立すること。
- ガウスピクセルコーデックアバター(GPiCA)は,三角形メッシュと異方性3Dガウスを組み合わせたハイブリッド表現を採用した。
- この手法により,顔の皮膚のような表面領域はメッシュで,髪や髭のような非表面領域は3Dガウスで効率的に表現可能となった。
- 実験結果から,GPiCAはガウスベースのアバターと同等のリアリズムと,メッシュベースのアバターと同等のレンダリング性能を達成することが示された。
DiffusionVL:任意の自己回帰モデルを拡散視覚言語モデルへ変換 [cs.CV]目的:拡散視覚言語モデルの構築
- 近年,マルチモーダル研究において拡散モデルが有望な手法として注目されている。
- 既存の拡散言語モデルの能力が限られており,拡散視覚言語モデルの性能が主流モデルに及ばない。
- 強力な自己回帰モデルを基盤とした拡散視覚言語モデルを構築し,性能向上を目指す。
- DiffusionVLは,既存の自己回帰モデルを拡散パラダイムに変換することで,高い性能を実現した。
- 自己回帰モデルから拡散視覚言語モデルへの直接変換が可能であり,LLaVAと同等の性能を達成した。
- ブロックデコーディング設計により,任意の長さの生成とKVキャッシュ再利用が可能となり,推論速度が大幅に向上した。
ビジュアル事前学習のためのピクセル監視の追求 [cs.CV]目的:ビジュアル事前学習におけるピクセル監視手法の開発
- 視覚情報はピクセルから得られ,その理解はAI分野の根幹である。
- 従来の事前学習は潜在空間に焦点を当て,ピクセル空間の潜在能力が未開拓である。
- ピクセル空間での自己教師あり学習による,より強力な表現獲得を目指す。
- 本研究で開発したPixioは,エンコーダーベースの自己教師あり学習モデルであり,既存モデルDINOv3と同等以上の性能を示す。
- 20億枚のWeb画像データを用いて学習し,多様なタスク(深度推定,3D再構成,セマンティックセグメンテーション,ロボット学習)で高い性能を発揮する。
- ピクセル空間での自己教師あり学習は,潜在空間アプローチの有効な代替手段および補完となりうる。
空間記憶の更新によるビデオ生成:Spatia [cs.CV, cs.AI]目的:ビデオ生成における空間的一貫性の維持
- ビデオ生成技術は,現実世界の描写や新たなコンテンツ創出において重要な役割を担う。
- 既存モデルでは,長期間にわたる空間的・時間的一貫性の維持が困難である。
- 3D点群を空間記憶として活用し,一貫性のあるビデオ生成を目指す。
- Spatiaは,3D点群を空間記憶として明示的に保持し,ビデオクリップを反復的に生成する。
- 視覚SLAMを通じて空間記憶を継続的に更新することで,空間的一貫性を向上させている。
- カメラ制御や3D編集といった応用が可能となり,大規模なメモリ駆動型ビデオ生成の基盤を提供する。
PyFi:敵対的エージェントによるピラミッド型金融画像理解フレームワーク [quant-ph, cs.ET, q-fin.CP, cs.AI, cs.CV]目的:金融画像に関するVLMsの段階的な,易から難への推論能力
- 金融分野における画像理解は,投資判断やリスク管理に不可欠であり,その重要性は高い。
- 既存のVLMは,複雑な金融画像を理解し,高度な推論を行う能力に課題が残されている。
- 金融画像理解の能力を段階的に評価・向上させるためのフレームワークとデータセットを構築する。
- PyFiフレームワークとPyFi-600Kデータセットを提案し,VLMの金融画像理解能力を段階的に評価できるようにした。
- 敵対的エージェントを用いたデータ生成により,大規模な金融画像質疑応答データセットを効率的に構築した。
- Qwen2.5-VLモデルをPyFiデータセットでファインチューニングした結果,複雑な金融質問への回答精度が大幅に向上した。
倍率を意識した知識蒸留 (MAD): ギガピクセル全スライド画像の統一表現学習のための自己教師ありフレームワーク [eess.IV, cs.AI, cs.CV, cs.LG]目的:ギガピクセル全スライド画像における統一表現学習
- 病理診断の効率化と精度向上に貢献するため,デジタルパソロジーの重要性が高まっている。
- 従来の自己教師あり学習では,異なる倍率の画像を独立した視点として扱っており,解像度変化に対する安定した表現学習が困難であった。
- 本研究は,倍率間の対応関係を利用し,解像度に依存しないロバストな表現学習を実現することを目的とする。
- 低倍率のコンテキストと高倍率の詳細を対応付ける知識蒸留 (MAD) により,解像度変化に安定した表現学習が可能となった。
- 10倍の埋め込みを用いて学習した線形分類器は,未知の40倍タイルに対して96.7%の性能を維持し,解像度不変性の高い表現学習を実証した。
- セグメンテーション結果は倍率間で一貫性を保ち,解剖学的境界を維持し,ノイズを最小限に抑えることが確認された。
高度卵巣癌の診断的腹腔鏡下における腹膜癌播種評価のための人工知能 [eess.IV, cs.AI, cs.CV]目的:高度卵巣癌の診断的腹腔鏡下における腹膜癌播種評価を支援する人工知能モデルの開発
- 高度卵巣癌は進行期に発見されることが多く,腹膜癌播種の評価は治療方針を決定する上で重要である。
- 従来の腹膜癌播種評価 (Fagottiスコア) は主観的で,術者依存性が高く,客観的な評価が課題である。
- 腹腔鏡動画から自動的にFagottiスコアを推定し,手術適応を判断するための人工知能モデルを構築すること。
- 開発データセットにおいて,解剖学的構造のセグメンテーションはDiceスコア70±3%,腹膜癌播種のセグメンテーションは56±3%を達成した。
- 動画レベルでの解剖学的部位の分類はF1スコア74±3%と73±4%を示し,Fagottiスコアの予測は正規化RMSEが1.39±0.18と1.15±0.08であった。
- 手術適応の予測は開発データセット (n=101) でF1スコア80±8%,独立検証データセット (n=50) で80±2%という良好な結果を示した。
電子断層撮影における直接原子構造同定のためのガウスパラメータ化 [eess.IV, cs.CV]目的:電子断層撮影における原子構造の直接同定手法
- 材料科学において,原子レベルでの構造解析は,材料特性の理解と制御に不可欠である。
- 従来の電子断層撮影は,中間的なボリューム表現を経由するため,原子構造の正確な同定が困難である。
- 本研究は,直接原子位置と特性を決定するアプローチを確立し,より高精度な原子構造解析を目指す。
- 原子構造をガウス関数でパラメータ化することで,物理的な事前知識を組み込み,ノイズに対するロバスト性を向上させた。
- シミュレーション実験および実測データを用いた検証により,本手法の有用性が確認された。
- 本手法は,透過型電子顕微鏡(TEM)を用いた材料評価・分析への応用が期待される。
少数の弱教師ありデータを用いた眼底画像における視神経円板およびカップのセグメンテーションのためのメタ学習器 [eess.IV, cs.AI, cs.CV]目的:緑内障診断のための視神経円板(OD)と視神経カップ(OC)のセグメンテーション
- 緑内障は世界的に失明原因上位であり,早期発見と正確な診断が重要である。
- 眼底画像のセグメンテーションには大量の注釈付きデータが必要であり,その取得は困難である。
- 少量のデータで高精度なセグメンテーションを実現し,注釈コストを削減することを目指す。
- 提案手法であるEfficient Omni ProtoSeg (EO-ProtoSeg)は,REFUGEデータセットにおいて,わずか1枚の疎なラベル付き画像のみで,ODのIoUスコア88.15%,OCのIoUスコア71.17%を達成した。
- EO-ProtoSegは,既存の少射学習および半教師あり学習手法と比較して,より少ないラベル付き画像で優れた性能を示した。
- EO-ProtoSegは,軽量でありながら,教師なしドメイン適応法と同等の性能を発揮し,再学習を必要としない。
事前学習済み拡散モデルを用いた画像圧縮のための生成的プリプロセス [eess.IV, cs.MM, eess.IV, cs.CV, cs.MM]目的:画像圧縮のための生成的プリプロセスの開発
- 画像圧縮はデータ伝送や保存に不可欠であり,効率的な圧縮技術の重要性は高い。
- 従来のプリプロセスはレート歪み最適化に偏っており,知覚的な品質を十分に考慮できていない。
- 知覚的な品質を重視したレート知覚最適化による,画像圧縮性能の向上を目指す。
- 事前学習済み拡散モデルをプリプロセスに適用することで,レート知覚最適化を実現した。
- Stable Diffusion 2.1を蒸留し,効率的な画像変換モデルを構築した。
- Kodakデータセットにおいて,DISTSのBDレートを最大30.13%削減し,主観評価においても優れた結果が得られた。
心理音響モデルに着想を得た融合フレームワークによる単一チャンネル音声強調 [cs.SD, eess.AS]目的:単一チャンネル音声強調の性能向上
- 聴覚特性を考慮した音声強調は,音質改善に不可欠である。
- 従来の音声強調技術では,音質と明瞭度の両立が課題となっていた。
- 音響領域と変調領域の長所を融合し,両者の弱点を克服する。
- 提案手法は,様々なSNR条件下において,客観評価で音質と明瞭度の両方で一貫した改善を示した。
- 音響領域アプローチの高周波歪みと,変調領域アプローチの時間的なぼやけという問題を軽減することに成功した。
- 心理音響モデルに基づき,音質と明瞭度の両面で優れた音声強調を実現した。
DriveMLM:行動計画状態を用いたマルチモーダル大規模言語モデルの自動運転への適合 [cs.CV]目的:自動運転のための大規模言語モデルに基づくフレームワークの構築
- 自動運転技術は,移動の効率化と安全性向上に不可欠であり,社会実装が期待されている。
- 従来の自動運転システムは,複雑な状況判断や柔軟な対応に課題があり,人間のような思考が求められる。
- 大規模言語モデルを活用し,より高度な状況理解と行動計画を実現することで,自動運転の性能向上を目指す。
- DriveMLMは,既存の自動運転システム(Autopilot, Apollo)に容易に組み込むことが可能である。
- CARLA Town05 Longにおいて,AutopilotとApolloの意思決定モジュールをDriveMLMに置き換えることで,それぞれ3.2点と4.7点の性能向上が確認された。
- 本研究は,大規模言語モデルを用いた自動運転の基盤となることを目指す。
エグゼンプラーフリー継続学習のための表現増強解析学習 [cs.LG, cs.CV]目的:エグゼンプラーフリー継続学習における破滅的忘却の軽減
- 継続学習は,機械学習モデルが新しいタスクを学習する際に,過去の知識を保持することが重要である。
- エグゼンプラーフリー継続学習では,過去のデータを保持できないため,忘却が深刻な問題となる。
- 表現増強解析学習は,表現力向上とバックボーン知識の活用により,忘却問題を解決する。
- REALは,自己教師あり学習と教師あり学習を組み合わせたデュアルストリーム事前学習により,表現力を向上させる。
- 特徴融合バッファーを用いて,バックボーンの特徴量を活用し,分類器の学習を支援する。
- CIFAR-100,ImageNet-100,ImageNet-1kのベンチマークで,最先端の性能を達成した。
ASSR-NeRF:ボクセルグリッドを用いた任意のスケール超解像による高品質ラディアンスフィールド再構成 [cs.CV]目的:高品質な新規視点合成のための超解像技術
- 3次元シーンの再構成は,仮想現実や自動運転など幅広い分野で重要性を増している。
- NeRFに基づく手法では,低解像度での最適化により,高解像度合成において過度な平滑化が生じやすい。
- 低解像度画像からの超解像と,NeRFの多視点整合性の両立を目指し,高品質な新規視点合成を実現する。
- 提案手法ASSR-NeRFは,ボクセルグリッド上で直接3次元超解像を行うことで,平滑化の問題を抑制する。
- 多様なシーンで学習されたボクセルグリッドSRモデルは,未知のシーンに対しても高い汎化性能を示す。
- 実験結果から,ASSR-NeRFが超解像新規視点合成において顕著な性能向上を達成することが示された。
SynJAC:合成データ駆動型共同粒度適応と較正によるドメイン固有スキャン文書からのキー情報抽出 [cs.CV]目的:ドメイン固有のスキャン文書からのキー情報抽出
- 視覚的に豊かな文書は多様な分野で複雑な情報を伝えるため,その理解と活用が重要である。
- スキャン文書はレイアウトが不規則で,ドメイン特有の要件があり,キー情報抽出が困難である。
- 大規模アノテーションデータに頼らず,少ない手動アノテーションでドメイン適応を実現する。
- SynJACは,合成データと較正を組み合わせることで,手動アノテーションの労力を大幅に削減する。
- ファインチューニングにおける大規模アノテーションデータへの依存を軽減し,スケーラビリティを向上させる。
- ドメイン固有およびスキャンされた視覚的に豊かな文書において,競争力のある性能を示す。
高精度顔ランドマーク検出のためのカスケードデュアルビジョンTransformer [cs.CV]目的:顔ランドマーク検出の精度向上
- 顔認識や表情分析など,多くの画像処理技術の基礎となる重要な課題である。
- 既存手法では,ランドマーク間の幾何学的関係を十分に捉えきれていない場合がある。
- 特徴マップのチャネル間の関係性を学習し,ランドマーク間の関係性をより正確にモデル化する。
- 提案手法は,WFLW,COFW,300Wの各ベンチマークにおいて,既存の最先端手法を上回る性能を示した。
- デュアルビジョンTransformer(D-ViT)と長距離スキップ接続(LSC)の組み合わせが,その性能向上に貢献している。
- チャネル分割ViTにより,特徴マップのチャネル間の関係性を学習し,幾何学的関係を効果的にモデル化した。
車両検出器に対する敵対的迷彩生成に関する頑健かつ正確な手法 [eess.SY, cs.SY, cs.CV]目的:車両検出器に対する敵対的迷彩生成のロバスト性と精度向上
- 自動運転技術の普及に伴い,車両検出システムの安全性確保が重要課題となっている
- 敵対的迷彩は有効な攻撃手法だが,環境要因の考慮や車両への正確なテクスチャマッピングが困難である
- 多様な気象条件を考慮し,よりロバストで実用的な敵対的迷彩生成手法を開発すること
- 提案手法RAUCAは,End-to-End Neural Renderer Plus(E2E-NRP)により,環境特性を考慮した正確な車両テクスチャの最適化と投影を実現した
- RAUCAは,マルチ気象データセットを活用することで,様々な気象条件下での攻撃ロバスト性を向上させた
- シミュレーションおよび実環境実験の結果,RAUCAは既存手法と比較して優れた性能を示した
記述から概念を可視化:テキスト記述からの視覚概念のクロスモーダル学習 [cs.CV]目的:テキスト記述に基づいた視覚概念の学習方法
- 人間は言語記述から未知の概念を可視化できる能力を持つ。これをモデルに持たせることは重要。
- 既存のVLモデルは未知の概念を学習するには,視覚的サンプルや外部生成モデルに頼る必要があった。
- テキスト記述のみを用いて,既存VLモデルの知識を再利用し,未知概念を表現することを目指す。
- 知識転送(KT)により,単一のテキスト記述から新たな視覚概念を効率的に導入できることが示された。
- KTは既存概念の表現を洗練することも可能であり,その効果が確認された。
- KTはゼロショットVLモデルの性能を大幅に向上させることが明らかになった。
MLLMは人間のような知覚行動を示すか?HVSBench:人間知覚行動に合致するMLLMのベンチマーク [cs.HC, cs.NI, cs.CV]目的:MLLMと人間の視覚システムとの整合性評価
- 視覚タスクにおけるMLLMの性能向上は重要だが,人間との知覚の類似性は未解明である。
- 既存のMLLMは視覚情報処理において,人間の知覚行動と乖離している可能性が指摘されている。
- 本研究は,人間の視覚システムとの整合性という新たな視点からMLLMを評価することを目指す。
- HVSBenchは,13のカテゴリ,5つの主要分野を網羅する大規模ベンチマークであり,MLLMと人間の知覚行動の比較を可能にする。
- 最先端のMLLMであっても,HVSBenchにおける成績は中程度であり,人間参加者のパフォーマンスを大きく下回る。
- この結果は,MLLMと人間の知覚間には依然として大きな隔たりが存在することを示唆し,より人間らしいAI開発の必要性を強調する。
MS-Temba:長尺の未トリミング動画理解のためのマルチスケール時間Mamba [cs.CV]目的:未トリミング動画における時間行動検出の性能向上
- 動画理解は,監視,ロボティクス,コンテンツ検索など,多様な応用分野で重要である。
- 長尺動画の処理,行動の時系列変化の捉え方,密集した行動の同時検出が課題となっている。
- マルチスケールでの時間構造を捉え,高精度な行動境界の特定を可能にすること。
- 提案手法MS-Tembaは,拡張されたMambaと新しい損失関数により,時系列スケールに応じた識別的な特徴表現を獲得する。
- 軽量なマルチスケールMamba Fuserが,これらの多スケール特徴をSSMベースで集約し,正確な行動境界の局在化を実現する。
- TSUとCharadesのADLベンチマークで最先端の性能を達成し,TVSumとSumMeでも新たな記録を樹立した。
安定性に基づいたサブネットワーク探索によるワンサイクル構造化プルーニング [eess.SY, cs.SY, cs.CV, cs.AI, cs.LG]目的:構造化プルーニングのための効率的な手法
- 深層学習モデルの軽量化は,計算資源の制約下での利用を可能にする上で重要である。
- 既存の構造化プルーニングは,多段階の学習が必要で計算コストが高いという課題がある。
- 初期化時のプルーニングの性能劣化を改善し,効率的な学習を実現すること。
- 本研究では,事前学習,プルーニング,ファインチューニングを単一の学習サイクルに統合する手法を提案した。
- ノルムベースのグループサリエンシー基準と構造化スパース正則化を用いて,最適なサブネットワークを早期に特定する。
- 提案手法は,CIFAR-10,CIFAR-100,ImageNetにおいて最先端の精度を達成し,学習コストにおいても高い効率性を示した。
文脈的知覚と思考の連鎖による安定した音声感情認識への言語モデルの誘導 [cs.SD, cs.CL, eess.AS]目的:音声感情認識の安定性と精度向上
- 音声感情認識は,人間と機械の自然な対話に不可欠であり,その重要性は高い。
- 大規模言語モデルは幻覚を起こしやすく,音声感情認識において誤分類や不適切な出力が発生する。
- 文脈的知覚と思考の連鎖を通じて,言語モデルの安定性と精度を向上させることを目指す。
- 提案手法C$^2$SERは,WhisperエンコーダとEmotion2Vec-Sを統合し,意味的・音響的知覚を強化する。
- 思考の連鎖(CoT)アプローチを採用することで,音声内容と話し方を活用し,認識精度を向上させる。
- 明示的なCoTから暗黙的なCoTへの自己蒸留により,誤りの蓄積を軽減し,認識精度をさらに高める。
イベントカメラとモバイル埋め込み知覚:抽象化,アルゴリズム,加速,応用 [cs.RO, cs.CV]目的:モバイル環境におけるイベントカメラの応用可能性に関する包括的な概観
- モバイルデバイスの応用が高度化するにつれ,高精度かつ低遅延なセンシングへの需要が高まっている。
- イベントベースのセンシングは潜在力を持つが,ノイズ,セマンティック情報の欠如,データ量の多さが課題である。
- モバイルデバイス上でイベントデータを効率的に処理するための手法と将来の研究方向性を明らかにする。
- 本調査は,2014年から2025年までの文献を網羅し,イベントベースのモバイルセンシングの基礎原則から応用までを包括的に概観する。
- イベントカメラの抽象化手法,アルゴリズムの進歩,ハードウェアおよびソフトウェアによる加速戦略について議論する。
- ビジュアルオドメトリ,物体追跡,光流,3D再構成などの応用例を紹介し,今後の研究方向性として,高度な光学系やニューロモーフィックコンピューティングの活用を提案する。
少数ショット時系列行動定位のための証拠連鎖型マルチモーダル推論 [cs.RO, cs.SY, eess.SY, cs.DB, cs.CV, cs.AI]目的:少数ショット時系列行動定位における性能向上
- 行動認識は,ビデオ理解の重要な要素であり,様々な応用分野で求められている。
- 従来の時系列行動定位は大量のアノテーションデータを必要とし,データ不足が課題である。
- テキスト情報と視覚情報を統合し,少ないデータでも高精度な行動定位を実現する。
- 提案手法は,ActivityNet1.3,THUMOS14,および新規データセットにおいて,既存手法を大幅に上回る性能を示した。
- テキストと視覚情報のセマンティックアライメントモジュールが,行動の類似性と変化を捉える上で有効である。
- 証拠連鎖型推論により,VLMとLLMが生成するテキスト記述が,視覚特徴よりも行動の多様性を捉えやすい。
TerraFusion:潜在拡散モデルを用いた地形形状とテクスチャの同時生成 [cs.GR, cs.CV]目的:地形形状とテクスチャの同時生成手法
- ゲーム開発や映画制作等において,リアルな3D地形モデルの重要性が高まっている。
- 既存手法では,高さマップとテクスチャの関係性を十分に考慮した同時生成が困難である。
- 高さマップとテクスチャ間の相関関係を維持した直感的な地形生成を目指す。
- 潜在拡散モデルを用いて,高さマップとテクスチャのペアを無教師学習で生成する。
- ユーザーが描いたスケッチを用いて地形を制御するための外部アダプターを教師あり学習で最適化する。
- 提案手法は直感的な地形生成を可能にし,高さマップとテクスチャ間の相関関係を維持することを示した。
ガウススプラッティングのためのジオメトリを考慮したテクスチャ転送(GT2-GS) [cs.CV]目的:複雑な3Dシーンへの2Dテクスチャ転送
- 3Dマルチメディアコンテンツ制作の効率と制御性を向上させる上で重要な役割を果たす。
- 既存手法は抽象的な芸術様式に焦点を当て,シーンのジオメトリ情報を無視しがちである。
- 高品質な3Dテクスチャ転送を実現するため,ジオメトリ情報を考慮した手法を開発する。
- 提案手法GT2-GSは,ジオメトリ情報を活用したテクスチャ転送損失関数を用いることで,一貫性のあるテクスチャ転送を可能にする。
- 適応的な微細制御モジュールにより,低解像度テクスチャ特徴によるシーン情報劣化を抑制する。
- ジオメトリ保存ブランチを導入し,ガウスカラー事前知識を用いてジオメトリパラメータを洗練し,外観とジオメトリの最適化目的を分離する。
3DLLM-Mem:具現化された3D大規模言語モデルのための長期的空間・時間記憶 [cs.CV, cs.AI, cs.CL, cs.LG]目的:具現化された3D環境における大規模言語モデルの空間・時間記憶モデリング
- 人間は過去の経験を活かして複雑なタスクをこなせる。大規模言語モデルに同様の能力を持たせることは重要である。
- 現在のLLMは,動的な3D環境における計画や行動に苦戦している。特に長期的記憶のモデル化が課題である。
- 3D環境における空間・時間記憶を効果的にモデル化することで,LLMの性能向上を目指す。
- 3DMem-Benchという,3D環境での長期記憶能力を評価するためのベンチマークを新たに構築した。
- 3DLLM-Memという,LLMのための動的メモリ管理・融合モデルを提案し,空間・時間的推論能力の向上を図った。
- 提案手法は,3DMem-Benchの最難タスクにおいて,既存手法を16.5%上回る成功率を達成した。
3D異常局所化と修復を高品質な連続幾何学的表現でつなぐ [cs.RO, cs.HC, cs.CV]目的:3D点群における異常検出と修復
- ロボットや自動運転など,現実世界の認識において,3Dデータの信頼性は不可欠である。
- 従来のパッチベースの手法では,離散化や投影による幾何学的精度の低下が課題となっていた。
- 連続的な幾何学的表現を用いて,高精度な異常局所化と現場での修復を可能にすること。
- 提案手法PASDFは,姿勢に依存しない連続的な形状表現を学習することで,高精度な異常局所化と修復を実現した。
- Real3D-ADとAnomaly-ShapeNetの実験において,オブジェクトレベルのAUROCスコアで最先端の性能を示した。
- 連続的な3D表現が,3D異常検出の進歩と実用的な異常領域の修復に貢献することを実証した。
網膜変性評価のための深層学習:MICCAI 2024 MARIOチャレンジの包括的分析 [cs.CV, cs.AI]目的:加齢黄斑変性症の自動検出とモニタリングの進歩
- 加齢黄斑変性症は,視力低下の主要な原因であり,早期発見とモニタリングが重要である。
- OCT画像からの変性評価は専門医の熟練度に依存し,客観性と効率性に課題がある。
- OCT画像を用いた深層学習モデルによるAMD変性の正確な評価方法を確立すること。
- 本チャレンジの結果,AMD進行の測定においてAIは医師と同等の性能を示した。
- しかし,抗VEGF治療中の患者におけるAMDの将来的な変化の予測は,まだAIにとって困難である。
- OCT,赤外画像,臨床データを用いたAMDモニタリングの新たなベンチマークが設定された。
MedChat:大規模言語モデルを用いた多角的な診断のためのマルチエージェントフレームワーク [cs.DC, cs.DB, cs.CL, cs.MM, cs.MA, cs.AI, cs.CV, cs.LG]目的:大規模言語モデルとマルチエージェントフレームワークによる多角的診断システムの開発
- 眼科医不足が深刻化しており,医療効率の向上が急務である。眼科領域におけるAI支援の重要性が高まっている。
- 汎用的な大規模言語モデルは,幻覚,解釈性の低さ,専門知識の不足により,医療画像診断において信頼性が低い。
- 多様な専門家の視点を模倣できる,マルチエージェントによる診断フレームワークを構築し,診断精度と信頼性を向上させる。
- MedChatは,専門的な画像認識モデルと役割特化型の大規模言語モデルエージェントを組み合わせたマルチエージェントフレームワークである。
- これにより,幻覚のリスクを低減し,診断の信頼性を向上させ,臨床レビューと教育に役立つ対話型レポートを可能にする。
- ディレクターエージェントが各エージェントを統括し,多角的な診断プロセスを支援する。
推論モデルに対するガスライティング否定攻撃のベンチマーク [cs.CV, cs.AI]目的:推論モデルに対するガスライティング否定攻撃への耐性評価
- 大規模言語モデルの推論能力は,様々な分野での応用が期待されており,その信頼性が重要である。
- 推論モデルは,敵対的な操作による誤誘導に対して脆弱であり,その対策が急務となっている。
- ガスライティング否定攻撃に対する推論モデルの脆弱性を明らかにし,その対策を検討すること。
- 最新の推論モデルは,ガスライティング否定攻撃に対して大幅な精度低下を示すことが明らかになった。
- 3つのマルチモーダルベンチマークにおいて,平均して25〜29%の精度低下が確認された。
- GaslightingBench-Rという新しいベンチマークを導入した結果,精度低下は平均53%を超えた。
二値化を意識した調整器:連続最適化と離散推論を結びつける理論的フレームワーク - エッジ検出への応用 [cs.CV]目的:連続最適化と離散推論の間の不整合を解消するための理論的フレームワーク
- 機械学習における意思決定は重要であり,その性能向上は様々な応用分野に不可欠である。
- 離散化操作の非微分可能性により,最適化と実際の意思決定結果との間にずれが生じやすい。
- 二値化の振る舞いを勾配降下学習に直接組み込むことで,このずれを改善し,性能を向上させる。
- 本研究で提案する二値化を意識した調整器(BAA)は,距離重み関数(DWF)を用いて損失関数を動的に調整する。
- DWFは,予測の正誤と決定境界への近さに基づいてピクセルごとの損失への寄与を制御し,意思決定に重要な領域を強調する。
- エッジ検出タスクでの実験により,提案手法の有効性が実証された。また,本フレームワークはより広範な構造化予測問題にも適用可能である。
MAGIC:プロンプト擾乱,空間適応型ガイダンス,および文脈認識を用いた少量のマスク誘導異常インペインティング [cs.CL, cs.CV, cs.AI]目的:工業品質管理における異常生成
- 製造業における品質管理は重要であり,異常検知の精度向上が求められている。
- 既存手法では,正常領域の破損や,多様性の不足が課題となっている。
- 少量のデータから高品質な異常画像を生成し,堅牢な異常検知モデルの構築を支援する。
- MAGICは,マスクに厳密に従いながら,高品質で多様な異常画像を生成できる。
- プロンプト擾乱により,少量のデータでも過学習を防ぎ,現実的な異常の多様性を学習する。
- 空間適応型ガイダンスと文脈認識マスクにより,異常領域と背景領域を適切に処理し,自然な異常配置を実現する。
オンラインナビゲーションの改良:標準定義マップとオンライン知覚マップの関連付けによるレーンレベルガイダンスの実現 [cs.CV]目的:標準定義マップとオンライン知覚マップの関連付けによるレーンレベルナビゲーションの精度向上
- 地理情報システムやナビゲーションにおいて,より詳細な誘導が求められており,レーンレベルナビゲーションの重要性が増している。
- 従来のレーンレベルナビゲーションは広範囲な高精度マップに依存しており,動的な道路状況への適応が困難であるという課題がある。
- リアルタイムな幾何学的情報を提供するオンライン知覚マップと標準定義マップを統合し,レーンレベルナビゲーションの精度向上を目指す。
- 新たにオンラインナビゲーションの改良(ONR)タスクを導入し,標準定義マップベースのルートをレーンレベルナビゲーションに改良する。
- レーンと道路のマッピングに対応する大規模なデータセット(OMA)を構築し,空間的・意味的なずれやノイズの影響を考慮したTransformerモデル(MAT)を開発した。
- 実験の結果,MATは既存手法を凌駕し,低コストで最新のレーンレベルナビゲーションを実現することが示された。
ChronoSelect:ダイナミック時系列メモリを用いたロバストな学習 [cs.LG, cs.CV]目的:ノイズラベルに対するロバストな学習手法
- 現実世界のデータセットはノイズを含むことが多く,深層学習の性能低下を招くため,ノイズに強い学習が重要。
- 既存手法は静的な評価に頼り,学習過程の時間的変化を十分に活用できていない。
- 学習の時系列的なダイナミクスを活用し,ノイズラベルの影響を軽減する。
- ChronoSelectは,予測履歴をコンパクトな時系列分布に圧縮する4段階のメモリアーキテクチャを採用。
- 動的なメモリ更新機構により,各サンプルに対して4つのメモリユニットのみを維持し,最近のパターンを強調しつつ過去の知識も保持。
- 時系列軌跡分析と二重分岐の一貫性により,クリーン,境界,ノイズの3つのサブセットへの正確な分割が可能。
制約表現力のある中間表現に基づく3Dソフトウェア合成 [cs.CV, cs.AI, cs.MM, cs.SE]目的:制約表現力のある中間表現に基づく3Dソフトウェアの合成手法
- UIソフトウェアは2Dから3D環境へと変化しており,自動生成技術の重要性が高まっている。
- 既存の3Dソフトウェア生成手法は,特定要素の変更や制御が難しく,複雑な制約への対応が課題である。
- 本研究は,ユーザーの要求と生成された3Dソフトウェア間の形式的なトレーサビリティを維持し,制約充足を実現する。
- Scenethesisは,ユーザー要求の80%以上を正確に捉え,厳密な制約の90%以上を満たすことが示された。
- 100以上の制約を同時に処理可能であり,複雑な空間制約への対応が可能であることが確認された。
- 最先端手法と比較して,BLIP-2ビジュアル評価スコアが42.8%向上し,生成品質の改善が示された。
一般化モーメント法による4Dミリ波レーダー点群の登録 [cs.RO, cs.CV]目的:4Dミリ波レーダー点群の登録手法
- ロボットの自律的な動作には,周囲環境の正確な認識が不可欠であり,センサー技術が重要な役割を果たす。
- 既存のLiDARと比較して,4Dミリ波レーダーの点群は疎でノイズが多く,正確な位置合わせが困難である。
- 疎でノイズの多い4Dミリ波レーダー点群に対し,点対点対応を必要としない登録手法を確立することを目指す。
- 提案手法は,従来のベンチマークと比較して,高い精度と頑健性を示すことが確認された。
- 合成データと実環境データ両方での実験により,LiDARベースの手法と同等の精度が得られることが示された。
- 一般化モーメント法を用いることで,点群間の対応付けが不要となり,4Dミリ波レーダーの特性に合わせた登録が可能となった。
多様な人体衣類と身体部位の解析のための3Dテクスチャ認識表現の学習 [cs.IR, cs.CV]目的:人体衣類と身体部位の解析に向けた3Dテクスチャ認識表現
- 人体認識は,監視,ロボット工学,人間とコンピュータのインタラクションなど,様々な応用分野において重要である。
- 従来の衣類・身体部位の解析では,詳細な衣類の種類を区別できない大まかなラベルが使用されている。
- 多様な衣類や詳細な身体部位を区別できる,より精度の高い解析手法の開発。
- 提案手法Spectrumは,身体部位と衣類のピクセルレベル解析,およびインスタンスレベルのグルーピングを統一的に行う。
- 3Dテクスチャ生成モデルを転用することで,詳細な人体解析に必要な表現を獲得し,衣類や身体部位とのアライメントを向上させている。
- 複数のデータセットにおける実験により,Spectrumがプロンプトベースのセグメンテーションにおいて既存手法を凌駕することが示された。
オムニエフェクト:統一的かつ空間制御可能な視覚効果生成 [cs.CV, cs.AI]目的:多様な視覚効果を統合し,空間制御可能な複合効果生成
- 現代の映画制作において不可欠な視覚効果の重要性が高まっており,効率的な生成手法が求められている。
- 既存手法は個々の効果に対するLoRA学習に依存するため,複数の効果を同時に生成することが困難である。
- 効果間の干渉を抑制し,空間的な制御性を実現することで,複合効果生成の課題を解決する。
- 提案手法「オムニエフェクト」は,LoRA-MoEと空間認識プロンプト(SAP)により,多様な視覚効果を統合的に生成する。
- SAPに統合された独立情報フロー(IIF)モジュールは,効果間の不要な混ざりを防ぎ,効果の分離を可能にする。
- 新たに構築したデータセット「Omni-VFX」と評価フレームワークにより,高い空間制御性と多様な効果生成が実証された。
PP-Motion:人間モーション生成における物理・知覚的忠実度評価 [cs.CV, cs.MM]目的:人間モーション生成における物理的・知覚的な忠実度を評価する指標
- AR/VR,映画,スポーツ,医療リハビリなど幅広い分野でモーション生成の需要が高まっている。
- 既存の評価手法では,知覚的忠実度と物理的実現可能性の乖離や,主観的な評価による信頼性の低下が課題である。
- 物理法則との整合性を定量的に評価し,客観的で連続的な評価指標を開発することで,この課題を解決する。
- 提案手法PP-Motionは,物理法則に基づいた修正量を最小化することで,モーションの物理的忠実度を評価する。
- PP-Motionは,物理的忠実度と知覚的忠実度を同時に考慮したデータ駆動型指標であり,従来の指標よりも高い精度を示す。
- 実験結果から,PP-Motionが物理法則に適合するだけでなく,人間のモーションに対する知覚的評価とも整合性があることが確認された。
繰り返し対話における信頼の認知的な近道としての進化 [cs.GT]目的:繰り返しゲームにおける信頼の進化戦略
- 社会生活において,信頼は協力関係を円滑にする重要な要素である。
- 信頼と協力を区別しないモデルが多く,信頼の計測と効果の解明が課題であった。
- 信頼を認知的な近道として捉え,その進化戦略を分析することで,協力促進のメカニズムを解明する。
- 相手の行動確認を省略する信頼戦略は,確認コストが高い状況下で,従来の協調戦略よりも優位性を示すことが分かった。
- 信頼の存在は,集団全体の協力レベルを高める。特に,行動ミスが発生しやすい状況でその効果が顕著である。
- 信頼を悪用する戦略が存在しても,信頼を用いることの適応的な利点と,協力促進の理論的根拠が示された。
