arXiv雑要約
画像・音声 - 2026/02/05 公開
拡散モデルに基づく編集に対する画像免疫化:最適化不要アプローチ [cs.CV]目的:拡散モデルに基づく編集に対する画像免疫化手法
- 画像編集技術の進歩は,プライバシー侵害や偽情報拡散のリスクを高めるため,画像の保護が重要である。
- 既存の画像免疫化手法は,各画像ごとに最適化が必要であり,処理に膨大な時間を要するという課題がある。
- 本研究は,最適化を必要とせず,高速かつ汎用的な画像免疫化フレームワークを開発し,この課題を解決することを目指す。
- DiffVaxは,最適化プロセスを排除することで,免疫化時間を大幅に短縮し,処理速度を25万倍に向上させた。
- 本手法は,未学習のコンテンツに対しても高い汎化性能を示し,様々な拡散モデルに基づく編集ツールに対して有効である。
- 動画コンテンツに対しても効果的に編集から保護できることを実験的に示した。
領域認識拡散モデル:画像インペインティングへの応用 [cs.HC, cs.CV]目的:画像インペインティングのための領域認識拡散モデル
- 画像生成技術は発展を続け,多様な分野で応用が広がっているため。
- 既存手法は複雑な処理や追加モジュールを必要とし,効率性に課題がある。
- 効率的な画像インペインティングを実現し,処理速度の向上を目指す。
- 提案手法RADは,各ピクセルに異なるノイズスケジュールを用いることで,高速な推論を実現した。
- LoRAを用いることで,学習コストを削減し,様々な事前学習済み拡散モデルへの適用を容易にした。
- FFHQ,LSUN Bedroom,ImageNetデータセットにおいて,最先端の結果を達成した。
SAVGBench:空間整合されたオーディオ・ビデオ生成のベンチマーク [cs.SD, cs.MM, eess.AS]目的:空間整合されたオーディオ・ビデオ生成タスクのベンチマーク
- 没入感の高い体験には,視覚と聴覚の空間的な整合性が不可欠であるため,研究の重要性は高い。
- 既存の生成モデルはビデオ生成に成功しているものの,オーディオと視覚の空間的な整合性が軽視されている。
- オーディオ・ビデオ間の空間的な整合性を評価し,生成モデルの性能向上を目指す。
- 本研究では,音源の位置と映像の整合性を考慮した新しいデータセットを構築した。
- また,オーディオとビデオ間の空間的整合性を評価するための新しい指標を提案した。
- 実験結果から,ベースライン手法と理想的な出力との間に,品質と空間整合性の両面で差があることが示された。
活性化に基づく伝播:スパイクニューラルネットワークのためのワンステップ戦略 [cs.CV, cs.LG]目的:スパイクニューラルネットワークにおける隠れ状態更新メカニズム
- リアルタイム多感覚知覚において,イベント駆動型かつパラメータ効率の良い特性から,その応用が期待されている。
- ニューロンの隠れ状態をステップごとに反復更新する必要があり,精度と遅延のトレードオフが課題となっている。
- より少ない時間ステップで高い性能を実現し,汎用性と拡張性を向上させることを目指す。
- 活性化膜電位伝播(AMP2)は,隣接ニューロン間での膜電位の動的な伝播を可能にし,隠れ状態の効率と精度を向上させる。
- AMP2は,MLPやCNN,TransformerベースのSNNなど,様々なアーキテクチャで性能を向上させ,汎用的なソリューションとなる可能性を示した。
- 本手法は,時間ステップの延長に依存しない効率的なスパイクニューラルネットワークの実現に貢献する。
DISCOVER:スマートホームデータからの人間の日常生活パターンの特定 [cs.HC, cs.AI, cs.CV]目的:人間の日常生活パターンの発見と注釈付け
- 高齢化社会において,継続的な健康モニタリングと支援生活の重要性が増している。
- 既存の活動認識は,あらかじめ定義された活動ラベルに依存するため,個々のニュアンスを捉えられない。
- 居住者の独自のルーチンから出現する,きめ細かい反復的なセンサーイベントシーケンスを特定する。
- DISCOVERは,高い評価者間一致率で一貫性のある行動クラスターを識別することに成功した。
- DISCOVERは,ラベル全体のわずか0.01%を使用しながら,完全に教師ありベースラインと同等の分類性能を達成した。
- 本研究は,居住者の特定の環境に行動を基づかせることで,長期的な分析の基盤を確立した。
蒸留による画像超解像のためのワンステップ残差シフト拡散 [cs.CV]目的:画像超解像のための,蒸留を用いた残差シフト拡散モデルの提案
- 画像超解像は,低解像度画像を高品質に復元する技術であり,様々な応用分野で重要である。
- 拡散モデルは高品質だが計算コストが高い。既存手法では,リアリティや構造の誤りといった問題が生じている。
- 計算コストを抑えつつ,リアリティと構造の正確性を両立した超解像を実現することを目指す。
- RSDは,単一ステップでの復元を可能にし,LPIPS,CLIPIQA,MUSIQといった知覚指標において教師モデルを上回る性能を示した。
- 蒸留手法であるSinSRと比較して性能を向上させ,最先端の拡散超解像蒸留手法に匹敵する知覚品質を,低い計算コストで達成した。
- 事前学習済みのテキスト-画像モデルに基づく超解像手法と比較しても,同等の品質を,より少ないパラメータ,GPUメモリ,学習コストで実現した。
効率的なマルチモーダル大規模言語モデルのための動的ピラミッドネットワーク [eess.SY, cs.SY, cs.CV]目的:マルチモーダル大規模言語モデルの計算効率向上
- マルチモーダル大規模言語モデルは,画像とテキストの理解において高い性能を示すが,計算コストが大きい。
- 既存の画像特徴圧縮手法は,モデルの性能を低下させる可能性がある。
- 動的ピラミッドネットワークを用いて,計算効率を維持しつつ性能低下を防ぐ。
- 提案手法である動的ピラミッドネットワークは,LLaVAにおいて平均で56%のFLOPs削減を実現した。
- さらに,性能は0.74%向上し,既存の高解像度モデルLLaVA-HRにおいても有効性が確認された。
- 動的プーリングエキスパートにより,入力特徴量に応じて最適な圧縮率を動的に選択する。
UniVRSE:医療ビジョン言語モデルにおける幻覚検出のための統一ビジョン条件応答意味エントロピー [cs.CV]目的:医療ビジョン言語モデルにおける幻覚検出
- 医療画像理解において,ビジョン言語モデルの応用が期待されるが,誤った情報を生成する幻覚が課題となる。
- 既存の不確実性に基づく幻覚検出法は,医療分野のビジョン言語モデルでは言語の事前知識が強すぎて効果が薄れる。
- UniVRSEは,ビジョン情報を強化することで,より正確な不確実性推定を行い,幻覚検出を可能にする。
- UniVRSEは,オリジナルの画像と視覚的に歪んだ画像の間の意味的予測分布を比較することで,視覚的なガイダンスを強化する。
- 提案手法は,VQAとVRGの両タスクで有効であり,既存手法を大きく上回る性能を示す。
- さらに,原子的事実のアラインメント比(ALFA)という新しい評価指標を導入し,より信頼性の高いベンチマークを確立した。
事故Sim:現実世界の事故報告から物理的に現実的な衝突軌跡を持つ車両衝突ビデオの生成 [cs.CV, cs.AI]目的:車両衝突ビデオ生成のための物理的リアリズムの実現
- 自動運転技術開発において,多様な事故状況の再現は不可欠である。
- 現実の事故ビデオは入手困難であり,既存の生成手法では物理的なリアリティが不足する。
- 事故報告書の情報を用いて,物理的に妥当な衝突後の車両軌跡を生成すること。
- AccidentSimは,事故報告書から物理的情報を抽出し,正確な衝突後の軌跡を再現する。
- 言語モデルを微調整し,様々な状況下で物理的に整合性の取れた軌跡を予測する能力を獲得した。
- NeRFを活用し,高画質な背景と物理的に現実的な車両の動きを融合させ,本物らしい衝突ビデオを生成する。
群れの操縦:LLMに基づく社会学習の制御フレームワーク [eess.SY, cs.GT, cs.SI, cs.SY]目的:LLMを用いた社会学習の制御手法
- 情報伝達におけるアルゴリズムの影響が拡大しており,その理解が重要である。
- アルゴリズムによる情報操作が社会全体の意思決定に与える影響が不明確である。
- LLMを情報伝達主体とした場合の影響を定量的に評価し,制御方法を探る。
- 本研究では,LLMが情報構造を制御する社会学習モデルを提案し,その最適化問題を解いた。
- 偏った計画者は,目的とする行動を誘導するために意図的に情報を曖昧にすることがあることが示された。
- シミュレーションでは,LLMが人間の認知パターンに似た戦略的行動を示し,意見誘導の可能性が確認された。
Event2Vec:ベクトル空間における表現によるニューロモルフィックイベントの直接処理 [cs.CV, cs.NE]目的:ニューロモルフィックイベントの直接処理を可能にする表現手法
- ニューロモルフィックカメラは,従来のカメラに比べて高解像度,低消費電力,広ダイナミックレンジを持つため重要である。
- 非同期かつ疎なイベントデータ形式が,従来の深層学習手法への適用を困難にしている。
- イベントデータの疎性を維持しつつGPU効率を最大化し,リアルタイム処理を実現することを目指す。
- Event2Vecは,イベントデータを直接処理可能なベクトル表現を提案することで,Transformerアーキテクチャとの互換性を実現した。
- DVS Gesture,ASL-DVS,DVS-Lipのベンチマークにおいて,パラメータ効率,スループット,低遅延,高精度を実証した。
- イベントデータの疎性を維持しながらGPU効率を最大化する新しいパラダイムを提示し,リアルタイムなニューロモルフィックビジョンタスクへの応用が期待される。
拡散モデルの疎な訓練 [cs.LG, cs.CV]目的:拡散モデルにおける疎性訓練の効率化
- 画像生成をはじめ多様な分野で高性能を示す拡散モデルは,その応用範囲の広さから重要性が増している。
- 拡散モデルは高品質なサンプル生成能力を持つ一方,訓練・推論に膨大な計算資源を要するという課題がある。
- 本研究は,訓練と推論の両面で効率的な疎な訓練パラダイムを拡散モデルに導入し,計算コストを削減することを目指す。
- 疎な拡散モデルは,パラメータ数やFLOPsを大幅に削減しつつ,密なモデルと同等かそれ以上の性能を示すことが確認された。
- Latent DiffusionとChiroDiffの訓練実験から,疎性訓練における安全かつ効果的な設定値が特定された。
- 本研究は,拡散モデルの実用化に向けた計算資源の制約を緩和する可能性を示唆する。
地紋ロケール化のための幾何学的制約を用いた改良Bag-of-Words画像検索 [cs.CV, cs.RO]目的:地紋ロケール化のためのBag-of-Words画像検索システムの精度向上
- ロボットの位置推定において,環境への依存度が低い手法の確立が求められている。
- 既存のBag-of-Words法では,ロケール化の精度やSLAMにおけるループクロージャの検出率が課題である。
- 幾何学的制約を導入し,地紋ロケール化に特化したBag-of-Words法の改善を目指す。
- 提案手法では,近似k-means法とソフトアサインメントを用いることで,ロケール化の精度と速度を向上させた。
- グローバルロケール化とSLAMのループクロージャ検出という,異なるニーズに対応したアルゴリズムを提示した。
- 実験により,提案手法が既存のBag-of-Words法よりも高い精度と検出率を示すことが確認された。
LoVR:マルチモーダル文脈における長尺ビデオ検索のためのベンチマーク [cs.CV, cs.IR]目的:長尺ビデオとテキストの検索性能評価
- ビデオコンテンツの多様化と増加に伴い,ビデオとテキストを結びつける検索技術の重要性が増している。
- 既存のベンチマークはビデオの長さ,キャプションの質,注釈の粒度が不十分で,高度な検索手法の評価を妨げている。
- より現実的な長尺ビデオ検索を可能にするための,高品質かつ詳細なデータセットと評価基準の提供。
- LoVRは,467本の長尺ビデオと40,804以上のファインチ grainedなクリップ,高品質なキャプションを含む大規模なベンチマークである。
- 自動キャプション生成,品質スコアリング,動的な改善を組み合わせた効率的なキャプション生成パイプラインを提案し,注釈の精度を向上させた。
- LoVRは既存手法の限界を明らかにし,今後のビデオ理解と検索研究の方向性を示す,挑戦的なベンチマークであることを実験的に示した。
VEAttack:大規模ビジョン言語モデルに対するダウンストリーム非依存のビジョンエンコーダ攻撃 [cs.DB, cs.CV]目的:大規模ビジョン言語モデルの脆弱性
- マルチモーダルな理解・生成能力を持つ大規模ビジョン言語モデルは,多くの応用分野で利用が拡大している。
- 既存の攻撃手法はタスク固有であり,大規模モデル全体の勾配計算が必要で,汎用性に課題がある。
- ビジョンエンコーダへの攻撃を通じて,タスクやラベルに依存しない効率的な攻撃手法を確立すること。
- 提案手法VEAttackは,ビジョンエンコーダのみを攻撃することで,計算コストを大幅に削減できる。
- 画像キャプション生成タスクで94.5%,視覚的質問応答タスクで75.7%の性能低下を確認した。
- 隠れ層の変化,トークンアテンションの差異,転送攻撃におけるメビウスの帯など,攻撃/防御に関する知見が得られた。
HAODiff:デュアルプロンプトガイダンスによる人間を意識したワンステップ拡散 [cs.CV]目的:人間を意識した画像復元手法の開発
- 画像伝送時の劣化は深刻であり,特に人物画像ではその影響が顕著となる。
- 既存研究では,人間運動によるぼかしと一般的なノイズが同時に発生する状況への対応が不十分である。
- 両方の劣化要因を考慮し,よりロバストな画像復元を実現することを目指す。
- 提案手法HAODiffは,高品質画像,残差ノイズ,運動ぼかしセグメンテーションマスクを訓練ターゲットとして活用する。
- デュアルプロンプトガイダンスにより,多様な劣化に対して効果的に対応し,復元性能を向上させる。
- 合成データセットおよび実データセット(MPII-Testを含む)において,既存の最先端手法を上回る結果が得られた。
現実世界アプリケーションのための空間汎用オーディオ表現モデル [cs.CL, cs.SD, cs.AI, eess.AS]目的:現実世界の音響環境における空間オーディオ表現の学習
- 音響信号処理は,様々な応用分野において重要な役割を担う。
- 既存のオーディオ表現モデルは,現実環境の残響やノイズへの対応が不十分である。
- 空間情報を考慮したロバストなオーディオ表現モデルの開発が求められている。
- 提案手法GRAMは,多チャンネルマスクトオートエンコーダを用いて空間オーディオ表現を効率的に学習する。
- ベンチマークタスクにおいて,GRAMは最先端の自己教師あり学習モデルを上回る性能を示した。
- シミュレーション環境と現実環境の両方において,音源定位性能においても優れた結果が得られた。
DeepVideo-R1:難易度を考慮した回帰型GRPOによる動画強化学習のファインチューニング [cs.CV, cs.AI]目的:動画大規模言語モデルにおける推論能力の向上
- 大規模言語モデルの進化により,複雑な推論タスクへの応用が期待されている。
- 動画大規模言語モデルでは,十分な学習信号が得られず,性能向上が課題となっている。
- 難易度に応じたデータ拡張と,効率的な強化学習アルゴリズムの開発を目指す。
- 提案手法DeepVideo-R1は,回帰型GRPOと難易度を考慮したデータ拡張を組み合わせることで,動画推論性能を大幅に向上させた。
- GRPOの損失関数を回帰タスクとして再構成することで,セーフガード機構を排除し,より直接的にモデルを優位な出力へと導く。
- 適切な難易度のプロンプトと動画を生成し,多様な報酬信号を学習することで,モデルの汎化性能を高めた。
大規模ビジョン言語モデルに対する画像破損に着想を得たメンバーシップ推論攻撃 [cs.CV, cs.CR]目的:大規模ビジョン言語モデルの学習データに含まれる画像の利用可否判定
- 大規模言語モデルの性能向上に伴い,プライバシー保護の重要性が増している。
- 学習データに機密情報を含む画像が含まれる場合,プライバシー侵害のリスクが存在する。
- 画像が学習データに含まれているか否かを,モデルにアクセスして推論する。
- 提案手法ICIMIAは,メンバー画像と非メンバー画像に対する画像破損への感度の違いを利用する。
- ホワイトボックス環境下では,画像と破損画像の埋め込み表現の類似度に基づいて攻撃を行う。
- ブラックボックス環境下では,出力テキスト埋め込み表現の類似度を利用して攻撃を試みる。
知覚的直線化によるAI生成動画の検出 [cs.CV, cs.AI, cs.LG]目的:AI生成動画と自然動画の識別
- 生成AIの急速な発展は,コンテンツ認証の課題と悪用の懸念を高めている。
- 既存の検出手法は,汎化性能や時間的な不整合の検出に課題がある。
- ニューラル表現空間における幾何学的特性の差異を利用し,AI生成動画の検出を目指す。
- 提案手法ReStraVは,DINOv2を用いて動画表現の曲率とステップ距離を定量化する。
- AI生成動画は,自然動画と比較して有意に異なる曲率と距離パターンを示すことが判明した。
- 軽量な分類器でVidProMベンチマークにおいて,最先端の検出性能(97.17%の精度,98.63%のAUROC)を達成した。
幾何構造を考慮した4Dビデオ生成によるロボットマニピュレーション [cs.CV, cs.AI, cs.LG, cs.RO]目的:ロボットマニピュレーションのための4Dビデオ生成
- ロボットが複雑な環境で効果的に計画・動作するために,物理世界のダイナミクス理解が不可欠である。
- 既存のビデオ生成モデルでは,時間的な一貫性と視点間幾何学的整合性の両立が課題となっている。
- 複数視点からの幾何学的整合性を確保し,ロボットマニピュレーションに活用できるビデオ生成を目指す。
- 提案手法は,クロスビューポイントマップアラインメントによる幾何学的制約を導入し,3Dシーン表現を獲得する。
- これにより,単一のRGB-D画像から,新規視点における時間的・空間的に整合した未来のビデオシーケンスを生成できる。
- シミュレーションと実世界のロボットデータセットにおいて,既存手法よりも安定かつ整合性の高い予測結果が得られた。
マルチエンコーダを持つマルチモーダル大規模言語モデルにおける冗長性の調査 [cs.CV, cs.AI]目的:マルチモーダル大規模言語モデルにおけるエンコーダの冗長性
- マルチモーダルAIは,画像とテキストを統合することで,より高度な推論と理解を可能にするため重要である。
- マルチエンコーダの導入は性能向上に寄与するとされるが,実際には冗長性が問題となっている。
- 本研究は,マルチエンコーダの冗長性を定量化し,効率的なモデル構築に貢献することを目指す。
- エンコーダマスキング実験の結果,特定のエンコーダをマスクしても性能が低下せず,場合によっては改善されることが示された。
- Conditional Utilization Rate(CUR)やInformation Gap(IG)といった指標を用いて,エンコーダの役割を定量化し,タスクごとの特化性や冗長性を明らかにした。
- 特定のエンコーダをマスクすることで,精度が最大16%向上し,全体的な性能も3.6%向上することが確認された。
汎用カテゴリ検出のための整合性のある教師あり・教師なしアラインメント [cs.CV]目的:汎用カテゴリ検出における既知カテゴリの分類と新規カテゴリの発見
- データ活用の高度化が求められる現代において,未知の構造をデータから発見する技術は重要である。
- 既存手法では,最適化目標の不整合やカテゴリの混同により,新規カテゴリの性能が低下する。
- 最適化目標の一貫性とカテゴリ間の分離性を高め,新規カテゴリ検出の精度向上を目指す。
- 提案手法は,Equiangular Tight Frame (ETF) プロトタイプを固定することで,幾何学的構造を最適化し,整合性のある最適化を可能にする。
- Consistent ETF Alignment Loss により,教師あり学習と教師なし学習のアラインメントを統一し,カテゴリ間の分離性を向上させる。
- Semantic Consistency Matcher (SCM) を導入し,クラスタリングの反復処理におけるラベル割り当ての安定性を維持する。
MixGRPO:混合ODE-SDEによるFlowベースGRPO効率の解禁 [eess.SY, cs.SY, cs.AI, cs.CV]目的:画像生成における人間の選好との整合性向上のためのFlowベースGRPOの効率改善
- 画像生成における人間の選好を反映させることは,より自然で魅力的な画像を生成する上で重要である。
- 既存のGRPO手法は,Markov Decision Process (MDP) のすべてのノイズ除去ステップに対するサンプリングと最適化が必要であり,効率が低い。
- 本研究は,混合サンプリング戦略によりMDP内の最適化を効率化し,GRPOの性能向上を目指す。
- MixGRPOは,SDEとODEを統合することで,最適化プロセスを効率化し,人間の選好との整合性を向上させる。
- スライディングウィンドウ機構を導入することで,最適化のオーバーヘッドを削減し,収束を加速させる。
- MixGRPO-Flashは,さらに高速なサンプリングとトレーニング効率を実現し,DanceGRPOと比較してトレーニング時間を大幅に削減する。
良質な音声が敵対的に:無害な入力による音声言語モデルの脱獄 [cs.CL, cs.CY, cs.HC, cs.SD, cs.AI, cs.CR, eess.AS]目的:音声言語モデルに対する敵対的攻撃手法の開発
- 日常生活へのLLM統合が進む中,音声インターフェースのセキュリティ確保が重要である。
- 音声入力の脆弱性を悪用し,悪意のあるコンテンツを生成されるリスクが存在する。
- 人間には知覚できない程度の微小な摂動で,音声言語モデルを操作する手法を確立する。
- 提案手法WhisperInjectは,最先端の音声言語モデルに対し,60-78%の攻撃成功率を達成した。
- この手法は,人間の聴覚には影響を与えない微小な摂動を,無害な音声に埋め込むことで攻撃を実現する。
- 実用的な音声ネイティブな脅威となりうることを示し,マルチモーダルAIシステムの操作可能性を明らかにした。
MAMBO-G:ブーストされたガイダンスに対する大きさ認識による軽減 [cs.CV]目的:高精度なテキストから画像,テキストから動画生成における計算コストの削減
- 高品質な画像や動画生成は重要であり,そのための計算資源の効率化が求められている。
- 従来のClassifier-Free Guidance (CFG)は計算コストが高く,効率的なサンプリングスケジュールが課題であった。
- MAMBO-Gは,ガイダンスの大きさを動的に最適化し,計算コストを削減することで,この問題を解決する。
- MAMBO-Gは,ガイダンススケールの調整により,軌道を安定させ,高速な収束を可能にする。
- Stable Diffusion v3.5およびLuminaにおいて,最大3倍,4倍の高速化を達成した。
- 特に,140億パラメータのWan2.1動画モデルにおいて,2倍の高速化を実現し,視覚的な品質を維持した。
有糸分裂像分類のための基盤モデルのベンチマーク [cs.CV]目的:有糸分裂像分類における基盤モデルの性能評価
- 病理診断において,有糸分裂像の数は腫瘍の予後予測や悪性度評価に不可欠である。
- 病理画像における学習データ不足は,深層学習モデルの性能向上を阻害する課題である。
- 大規模な教師なし学習により,データ不足を克服し,汎化性能の高いモデルを構築すること。
- LoRA適応による基盤モデルは,線形プローブよりも優れた性能を示し,少ないデータで高い分類精度を達成した。
- 最新の基盤モデルをLoRAで適応することで,未知の腫瘍領域における性能ギャップをほぼ解消することができた。
- 伝統的なアーキテクチャの完全なファインチューニングも,依然として競争力のある性能を示すことが確認された。
QuantVSR:実世界ビデオ超解像のための低ビットポストトレーニング量子化 [cs.CV]目的:実世界ビデオ超解像のための低ビット量子化モデル
- ビデオ超解像は,低解像度ビデオを高画質化する重要な技術であり,監視カメラや医療映像など幅広い分野で応用が期待される。
- 拡散モデルは高性能だが,計算コストが高く,実用的なデプロイメントが困難である。量子化はモデル圧縮の有効な手段だが,ビデオの特性上,容易ではない。
- 拡散モデルの量子化における課題を克服し,実用的なビデオ超解像モデルの実現を目指す。
- 提案手法QuantVSRは,空間・時間的複雑性を考慮したSTCA機構と学習可能なバイアス調整モジュールLBAを導入することで,低ビット量子化における精度低下を抑制した。
- 合成データと実データを用いた実験により,QuantVSRがFPモデルと同等の性能を達成し,既存の低ビット量子化手法を大幅に上回る結果が得られた。
- 本研究は,リソース制約のある環境での実世界ビデオ超解像の応用を促進する可能性を示す。
検閲された準強盗フィードバックによるオンライン予算配分 [cs.GT, cs.LG, stat.ML]目的:オンライン予算配分問題における,後悔の最小化
- クラウドソーシングやオークションなど,資源配分の最適化は,経済学や機械学習において重要な課題である。
- 報酬が成功時のみ観測される検閲された準強盗フィードバック環境下では,効率的な予算配分が困難である。
- 検閲された準強盗フィードバック環境における,漸近的な最適性の保証されたアルゴリズムを開発すること。
- 逓減収益の状況下では,提案アルゴリズムの後悔が時間発展 $T$ に対して対数オーダーで増加することが示された。
- 一般的な非減少曲線についても,提案アルゴリズムが $\tilde O(K\sqrt{T})$ の最悪の場合における後悔の上界を達成することが証明された。
- 最悪の場合の後悔の下限が $\Omega(K\sqrt{T})$ であることが示され,完全フィードバックアルゴリズムでも問題の難しさが明らかになった。
STELAR-VISION: 視覚的アラインメントのための自己トポロジー認識効率学習 [cs.AI, cs.CV]目的:視覚的推論におけるアラインメントのための自己トポロジー認識効率学習に関する研究
- 画像と言語を結びつけるVLモデルは,多様な応用で重要な役割を担う技術である。
- 既存のVLモデルは複雑なタスクにおいて推論が苦手で,冗長な出力を生成しやすいという課題がある。
- 本研究は,多様なトポロジー構造を活用し,VLモデルの推論精度と効率を向上させることを目指す。
- STELAR-Visionは,MATH-VおよびVLM-S2Hデータセットにおいて,ベースモデルと比較して9.7%の精度向上を達成した。
- 5つの分布外ベンチマークにおいて,Phi-4-Multimodal-InstructやLLaMA-3.2-11B-Vision-Instructを最大28.4%および13.2%上回る性能を示した。
- Chain-Only学習と比較して,分布内データセットで4.3%高い全体精度を達成し,分布外ベンチマークにおいても一貫して優れた性能を発揮した。
光学リモートセンシング画像における顕著物体検出のための適応的視覚状態空間モデリング [cs.CV]目的:光学リモートセンシング画像における顕著物体検出
- リモートセンシング技術は,地球観測や資源管理において重要な役割を担う。
- 対象物のスケール変化や背景とのコントラストの低さにより,検出が困難である。
- 異質な特徴の統合が難しい既存手法の限界を克服し,検出精度を向上させる。
- 提案手法であるASCNetは,状態空間モデル機構を用いて長距離依存性と地域特徴表現を同時に捉える。
- MLCMは,異なるスケールの特徴間の相互作用を強化し,構造的認識を高めることで前景と背景の識別を改善する。
- APVSSブロックは,DAGSとGPMにより,局所的な知覚に基づいて特徴マップを適応的にスキャンし,状態空間モデルの局所モデリング能力を向上させる。
オブジェクト中心表現学習による統一的な動画シーングラフ生成手法UNO [cs.CV, cs.AI]目的:動画シーングラフ生成における,オブジェクト検出と時間的相互作用のモデリング
- 動画理解において,シーングラフは構造化された表現を提供し,動的な視覚コンテンツの解析に不可欠である。
- 既存手法は,粗粒度または微粒度のいずれかに焦点を当て,タスク特化型アーキテクチャと多段階学習を必要とする。
- 異なる視覚粒度レベル間で汎化可能な,単一段階で統合されたフレームワークを開発し,効率性を向上させる。
- UNOは,ボックスレベルとピクセルレベルの両タスクにおいて,競争力のある性能を達成した。
- オブジェクトと関係のスロットへの分解を可能にする拡張スロットアテンション機構を導入した。
- オブジェクト時間的一貫性学習により,明示的なトラッキングモジュールなしに一貫したオブジェクト表現を強化した。
モーションフローと注意機構強化畳み込み再帰型アーキテクチャを用いたサーマル画像ベースのリアルタイム転倒検知 [cs.HC, cs.HC, cs.CL, cs.CV, cs.AI]目的:高齢者の転倒をリアルタイムで検知するための手法
- 高齢化社会において,転倒は重大な健康問題であり,早期発見と迅速な対応が求められる。
- 既存の転倒検知システムは,装着型デバイスやRGBカメラに依存し,プライバシーや利便性の問題がある。
- 非装着型で,プライバシーを保護し,リアルタイムな転倒検知システムの実現を目指す。
- 提案手法は,サーマル画像とBiConvLSTMモデル,および様々な注意機構を組み合わせることで,高精度な転倒検知を実現した。
- TSFデータセットにおいて,ROC-AUC99.7%という最先端の性能を達成し,TF-66データセットでも堅牢な結果を示した。
- 本研究は,サーマル画像を用いた転倒検知の新たな標準を確立し,実用的なシステムの開発に貢献する。
Recov-Vision:災害復旧のためのストリートビュー画像とビジョン言語モデルの連携 [cs.CV]目的:災害後の建物利用状況の把握
- 災害発生時の迅速な状況把握は,救助活動や資源配分において不可欠である。
- 航空写真では建物の詳細な状況が把握しにくく,ストリートビュー画像はデータが限られ,位置合わせが困難である。
- ストリートビュー画像と建物情報を結びつけ,利用状況を的確に判断するための枠組みを構築する。
- 提案手法FacadeTrackは,ストリートビュー動画と建物情報を連携させ,建物の外観を正確に認識する。
- 二段階アプローチでは,精度0.927,再現率0.781,F1スコア0.848を達成し,一次アプローチを上回った。
- 中間属性と空間診断により,誤りの原因を特定し,品質管理を効率化できる。
精度よりも低い精度の方が信頼できる:CLIPにおける量子化の影響の体系的な評価 [cs.CV, cs.AI, cs.LG]目的:ビジョン言語モデルの量子化が,精度以外の信頼性指標に与える影響の評価
- ビジョン言語モデルは,ゼロショット分類や安全性が重要なタスクで革新をもたらしている。
- 高コストが実用上の課題となっており,効率化が求められている。
- 量子化が信頼性を向上させる可能性を示し,モデルの高速化と信頼性向上に貢献する。
- 量子化は,精度,キャリブレーション,OOD検出,ノイズに対するロバスト性を同時に改善する可能性がある。
- 量子化は高ランクのスペクトル成分を抑制し,モデルがロバストな低ランク特徴に依存するように促す。
- このスペクトルフィルタリング効果が,汎化性能とノイズ耐性の向上を駆動している。
Vid-LLM:再構成・推論の相乗効果を持つコンパクトなビデオベース3DマルチモーダルLLM [cs.CL, cs.CV, cs.AI]目的:ビデオベースの3DマルチモーダルLLMの開発
- 3Dシーン理解はロボット工学や拡張現実など,多くの分野で不可欠である。
- 既存の3DマルチモーダルLLMは3Dデータ入力に依存し,拡張性や汎化性能に課題がある。
- 外部3Dデータなしでビデオ入力のみを用いて3Dシーン理解を可能にすること。
- Vid-LLMは,ビデオ入力から直接3D情報を処理し,実用的な3Dシーン理解を実現した。
- Cross-Task Adapter(CTA)モジュールにより,3D幾何学的情報を効率的に言語表現に統合した。
- 3D Question Answering,3D Dense Captioning,3D Visual Groundingタスクで優れた性能を示した。
因果的アダプター:忠実な反事実生成のためのテキスト-画像拡散の制御 [cs.CV, cs.AI]目的:反事実画像生成のためのテキスト-画像拡散モデルの適応
- 画像生成技術は,創造的なコンテンツ制作やデータ拡張など,多岐にわたる応用が期待されている。
- 既存手法では,属性変更が他の要素に意図しない影響を与え,画像の品質や整合性を損なう場合がある。
- 画像内の特定の属性を変化させつつ,他の要素は維持することで,より正確な反事実画像を生成すること。
- Causal-Adapterは,凍結されたテキスト-画像拡散モデルを適応させることで,反事実画像生成を可能にする。
- この手法は,ターゲット属性に対する因果的介入をサポートし,その効果を正確に伝播させながら,画像の主要な特徴を維持する。
- PendulumデータセットでMAEが最大91%減少し,ADNIデータセットでFIDが最大87%減少するなど,最先端の性能を示す。
EMO-TTA:音声言語モデルによる音声感情認識のテスト時適応の改善 [cs.SD, cs.AI]目的:音声感情認識におけるテスト時適応
- 感情認識は,人間と機械の円滑なコミュニケーションに不可欠であり,その重要性は高い。
- テスト時のデータ分布の変化により,音声感情認識の性能が低下する課題がある。
- 分布の変化に対応し,テスト時の性能低下を抑制する手法の開発が求められている。
- Emo-TTAは,モデルの重みを変更することなく,テストサンプルごとに統計的適応を行う軽量なフレームワークである。
- 期待値最大化法を用いて,クラス条件付き統計量を逐次的に更新し,テスト時分布を明示的に推定する。
- 6つの音声感情認識ベンチマークにおいて,既存のテスト時適応手法と比較して精度が向上することが示された。
コンピュータ利用エージェントのスケーリング手法 [cs.CL, eess.AS, cs.MA, cs.AI, cs.CL, cs.CV, cs.LG]目的:コンピュータ利用エージェントの性能向上
- デジタルタスクの自動化は生産性向上に不可欠であり,その重要性は増している。
- 長期的な複雑なタスクにおいて,既存のエージェントは不安定で,結果にばらつきが大きい。
- 複数回の試行から最適な行動を選択する手法を開発し,エージェントの信頼性と成功率を高める。
- 提案手法BJudgeは,エージェントの実行を行動ナラティブとして表現し,比較することでロバスト性を向上させる。
- OSWorldにおいて,BJudgeは72.6%のSoTAを達成し,人間のパフォーマンス(72.36%)を上回った。
- WindowsAgentArenaやAndroidWorldでも汎化性能が確認され,効果的なスケーリングの重要性が示された。
長尺音声におけるプライバシー保護のためのコンテンツ匿名化 [cs.SD, cs.CL]目的:長尺音声における発話者特定リスク軽減策の提案
- 音声データは様々な場面で利用されるため,プライバシー保護は重要である。
- 従来の音声匿名化技術は,短い音声片段には有効だが,長尺音声では再識別リスクがある。
- 発話者の文体情報を除去することで,長尺音声における再識別リスクを低減する。
- 従来の音声匿名化は,長尺音声においてコンテンツに基づく攻撃に脆弱である。
- 提案手法は,ASR-TTSパイプラインにおけるトランスクリプトの文脈的書き換えにより,発話者固有の文体を削除する。
- 言い換え(paraphrasing)は,コンテンツに基づく攻撃に対する効果的な防御策となり得る。
KL正則化ゼロサムマルコフゲームにおける対数的な後悔の達成 [cs.LG, cs.GT, math.OC, stat.ML]目的:KL正則化を用いたゼロサムマルコフゲームにおけるサンプル効率の改善
- 強化学習において,望ましい行動特性の維持や探索促進のため,KL正則化が広く用いられている。
- ゲーム理論的設定におけるKL正則化の理論的な利点は十分に解明されていない。
- KL正則化下でのサンプル効率を改善するアルゴリズムを開発し,理論的に解析すること。
- 本研究では,OMG(行列ゲーム)およびSOMG(マルコフゲーム)という,楽観的ボーナスを用いた最良応答サンプリングに基づくアルゴリズムを提案した。
- 提案アルゴリズムは,KL正則化の強さ$\beta$に反比例する対数的な後悔$T$を達成する。
- これにより,従来の$\widetilde{\mathcal{O}}(\sqrt{T})$の後悔から$\beta^{-1}$依存性を排除することが可能となった。
ノイズ条件付き Mixture-of-Experts フレームワークによるロバストな話者検証 [cs.SD, cs.MM, eess.AS]目的:ノイズ環境下におけるロバストな話者検証手法
- 話者検証は,セキュリティや音声認識など,幅広い分野で重要な技術である。
- 現実環境下ではノイズが常に存在し,話者検証の性能を著しく低下させる。
- ノイズ条件を考慮した専門的な特徴空間を構築し,ロバスト性を向上させる。
- 提案手法は,入力ノイズ情報に基づいて専門家ネットワークに自動的にルーティングする。
- 各専門家は異なるノイズ特性に対応し,話者識別情報を保持する。
- 実験結果は,既存手法と比較して一貫した優位性を示しており,ノイズ依存型特徴モデリングの有効性を実証した。
LiDARに基づく都市規模での3次元変化検出 [cs.CV, cs.AI]目的:都市規模におけるLiDARデータを用いた3次元変化検出手法
- 都市計画やインフラ管理において,都市の変化を正確に把握することは不可欠である。
- 従来のDSMや画像処理は,垂直方向のずれや視点の影響を受けやすく,精度が低い場合がある。
- LiDARデータの不確実性を考慮し,高精度かつロバストな変化検出を実現することを目指す。
- 提案手法は,多解像度NDTとICP法を用いて異なる時点のデータを正確にアライメントする。
- 点群レベルでの検出精度を高めるため,登録共分散と表面粗さを考慮した検出レベルを計算する。
- 実験結果から,提案手法は既存手法と比較して,精度,mF1,mIoUにおいてそれぞれ0.3,0.6,1.1ポイントの改善が確認された。
半教師あり医療画像セグメンテーションのためのスイッチング二重生徒フレームワークによる適応的知識伝達 [eess.SY, cs.SY, eess.SP, cs.CV]目的:半教師あり医療画像セグメンテーションにおける知識伝達の改善
- 医療画像解析は,疾患診断や治療計画において不可欠であり,高精度なセグメンテーションが求められる。
- 教師あり学習には大量の注釈付きデータが必要だが,医療画像の注釈はコストと時間がかかるという課題がある。
- 教師と生徒間の知識伝達の信頼性を高め,限られた教師データでのセグメンテーション精度向上を目指す。
- 提案手法では,最も信頼性の高い生徒を戦略的に選択することで,二重生徒間の協調学習を強化し,誤りの連鎖を防ぐ。
- 損失関数に基づいた指数移動平均を用いることで,教師がより有意義な生徒からの情報を吸収し,疑似ラベルの質を向上させる。
- 3D医療画像セグメンテーションデータセットにおける実験により,提案手法が既存の半教師あり手法を上回り,その有効性が示された。
SurgiATM:物理モデル誘導型プラグ&プレイモデルによる腹腔鏡手術における煙除去 [cs.CV]目的:腹腔鏡手術における煙除去手法の開発
- 腹腔鏡手術中の煙は視界を遮り,手術リスクを高めるため,煙除去は患者安全と効率的な手術に不可欠である。
- 既存の煙除去手法は,汎用性や精度に課題があり,多様な手術環境への適応が困難である。
- 本研究は,汎用性と精度を両立する,軽量かつ容易に既存手法に組み込める煙除去モジュールを開発する。
- 提案手法SurgiATMは,物理モデルと深層学習モデルを統計的に統合することで,既存手法の精度と汎化性能を向上させる。
- SurgiATMは,ネットワーク構造を変更することなく,わずかなパラメータで煙除去を実現し,計算コストを抑える。
- 複数の公開データセットにおける実験により,SurgiATMが様々なネットワークアーキテクチャで有効であることが示された。
人工知能による視覚世界のシミュレーション:ロードマップ [cs.AI, cs.CV]目的:視覚世界のシミュレーション技術の発展と,その応用可能性
- 動画生成技術は,現実世界や仮想世界を構築する上で不可欠であり,その重要性は増している。
- 従来の動画生成技術は,物理的な整合性やインタラクションの実現が困難であった。
- 動画生成モデルを基盤とした,物理法則に基づいたシミュレーションシステムの構築を目指す。
- 動画生成技術は,単なる視覚的表現から,物理法則に基づいたインタラクティブな環境構築へと進化している。
- 近年の動画生成モデルは,暗黙的な世界モデルとして機能し,物理シミュレーションやタスク計画を可能にしている。
- 本調査では,動画生成技術の進化を4つの世代に分け,それぞれの特徴と応用例を分析している。
RF-DETR:リアルタイム検出Transformerのためのニューラルアーキテクチャ探索 [cs.CV]目的:リアルタイム検出Transformerの精度と速度のトレードオフの探索
- 物体検出技術は,自動運転やロボット工学など,幅広い分野で不可欠である。
- 既存の汎用的な物体検出器は,未知のクラスを含む現実世界のデータセットへの適応が困難である。
- 特定のデータセットに特化した軽量なTransformerモデルを探索することで,この問題を解決する。
- RF-DETRは,COCOデータセットにおいて,D-FINE(nano)を上回る48.0 APを達成し,同程度の遅延時間を実現した。
- Roboflow100-VLデータセットにおいては,GroundingDINO(tiny)を1.2 AP上回り,かつ20倍高速に動作する。
- RF-DETR(2x-large)は,COCOにおいて60 APを超える初めてのリアルタイム検出器である。
歩行者検出のための深層ニューラルネットワークの評価の再検討 [cs.CV, cs.LG]目的:歩行者検出における深層ニューラルネットワークの評価方法
- 自動運転システムの実現には,信頼性の高い歩行者検出が不可欠である。
- 既存の評価指標は,歩行者検出の性能を現実的に評価する上で課題がある。
- 歩行者検出におけるエラーの種類を分類し,より詳細な評価指標を提案すること。
- 画像セグメンテーションを活用し,8種類のエラーカテゴリーを定義した。
- 提案した指標を用いて,様々なバックボーンアーキテクチャを比較した結果,安全性に関する性能評価において有効であることが示された。
- 追加の学習データなしで,CityPersons-reasonableデータセットにおいて最先端の性能を達成した。
DGS-Net:AI生成画像検出のためのCLIPファインチューニングにおける蒸留誘導勾配手術 [cs.CV]目的:AI生成画像検出におけるCLIPの性能向上
- デジタルメディアにおける偽情報拡散やプライバシー侵害を防ぐため,AI生成画像の検出技術が重要である。
- CLIPのような大規模モデルをファインチューニングすると,事前学習された知識が失われ,汎化性能が低下する。
- DGS-Netは,事前学習された知識を維持しつつ,不要な要素を抑制することで,この問題を解決する。
- DGS-Netは,勾配空間の分解により,有害な方向と有益な方向を分離し,効率的な最適化を実現する。
- 50種類の生成モデルを用いた実験で,最先端の手法と比較して平均6.6%の性能向上を達成した。
- 多様な生成技術においても,優れた検出性能と汎化性能を示すことが確認された。
MultiPriv: ビジョン・言語モデルにおける個人レベルのプライバシー推論のベンチマーク [eess.SY, cs.SY, cs.CV, cs.CR]目的:ビジョン・言語モデルにおける個人レベルのプライバシー推論能力の評価
- 近年のビジョン・言語モデルの発展は目覚ましいが,プライバシー保護の観点からは課題が多い。
- 既存のプライバシー評価指標は,プライバシー認識の評価に偏っており,プライバシー推論能力の評価が不十分である。
- 分散した情報を統合し,個人を特定するプライバシー推論能力を評価し,プライバシー保護技術の開発を促す。
- 多くのビジョン・言語モデルが個人レベルのプライバシー推論能力を有しており,高い精度で個人情報を推測可能であることが示された。
- 評価対象となったモデルの60%が,最大80%の精度で個人レベルのプライバシー推論を実行できることが明らかになった。
- 本ベンチマークは,プライバシーを保護するビジョン・言語モデルの開発と評価の基盤を提供する。
