arXiv雑要約
画像・音声 - 2025/10/13 公開
生体物理学的条件付き3D脳腫瘍MRI合成の生成フレームワーク [eess.IV, cs.CV, cs.LG]目的:3D脳腫瘍MRI合成のための生成モデル
- 脳腫瘍の診断や治療効果の評価において,MRI画像は不可欠な役割を果たす。
- MRI画像の欠損部分の補完は困難であり,高画質で自然な画像を生成する技術が求められる。
- 腫瘍濃度を条件として,高忠実度な脳腫瘍MRI画像を合成することで,臨床応用を目指す。
- ボクセルレベルの連続的な腫瘍濃度に基づいて条件付けられた潜在拡散モデルを開発した。
- 脳腫瘍合成と健常組織のインペインティングの両方において,空間的に一貫性があり,解剖学的に整合性の高い画像を生成できることを示した。
- 健常組織のインペインティングではPSNR 18.5,腫瘍インペインティングではPSNR 17.4を達成した。
画像キャプションの記述性をランキングとLLMベースの融合により改善 [cs.CV, cs.AI, cs.CL, cs.DB, cs.LG]目的:画像キャプションの記述性向上
- 画像とテキストの理解は,AI分野において重要な課題であり,多様な応用が期待される。
- 既存の画像キャプションモデルは,詳細な情報を捉えきれず,平均的な記述に偏りがちな点が課題である。
- 多様なモデルの強みを組み合わせ,人間が生成するような質の高いキャプション生成を目指す。
- 異なるSoTAキャプションモデルの出力をランキングし,上位2つのキャプションをLLMで融合させることで,より詳細な説明を生成する。
- MS-COCOおよびFlickr30kデータセットでの実験により,キャプションと画像の整合性向上と,幻覚の低減が確認された。
- 主観評価においても,本モデルが生成するキャプションは人間による判断と一致していると評価された。
FFTに基づく統計量の選択と最適化による,ひどく破損した画像のロバストな認識 [cs.CV]目的:ひどく破損した画像に対するロバストな認識のための統計量選択と最適化
- スマートデバイス上のビジョンシステム実現には,画像の破損に対するロバスト性が不可欠である。
- 現実世界の画像はノイズや劣化により破損することが多く,認識性能を低下させる。
- 破損した画像に対する認識モデルのロバスト性を向上させる。
- 提案手法FROSTは,高周波特徴量を用いて入力画像の破損タイプを検出し,層ごとの特徴正規化統計量を選択する。
- ImageNet-Cにおいて,最先端の結果を達成し,最大で37.1%の相対的な改善を示す。
- 重度の破損画像において,ベースラインのmCEを40.9%から改善する。
意味的シフト補償を用いた継続的アダプターチューニング:クラス増分学習 [cs.CV, cs.AI, cs.LG]目的:クラス増分学習における継続的な学習能力向上
- 機械学習モデルの継続学習は,新しいタスクへの適応と知識の維持が求められるため重要である。
- クラス増分学習では,過去の知識を忘却することなく新しいクラスを学習することが課題である。
- 本研究は,アダプターチューニングにおける意味的シフトを補償し,継続学習の性能を向上させることを目指す。
- アダプターチューニングがプロンプトベースの手法よりも優れていることが示された。
- 過去のプロトタイプの意味的シフトを推定し,プロトタイプを更新することで性能が向上した。
- モデルの拡張や過去の画像サンプルの保持を必要とせず,最先端の性能を達成した。
MDPにおけるほぼ確実なエネルギー・平均ペイオフ目標に対する有限メモリ戦略 [cs.GT]目的:エネルギーと平均ペイオフの組み合わせ目標に対するほぼ確実な勝利戦略
- 意思決定過程における目標達成戦略は,ロボット工学や資源配分など,幅広い応用分野で重要である。
- エネルギー・パリティ目標では,ほぼ確実な勝利戦略には無限のメモリが必要となる場合がある。
- エネルギー・平均ペイオフ目標に対する,メモリ使用量を制限した戦略を確立すること。
- エネルギー・平均ペイオフ目標に対するほぼ確実な勝利戦略には,有限のメモリで十分であることが示された。
- ほぼ確実な勝利に必要なメモリ量は指数関数的に制限されることが証明された。
- ほぼ確実な勝利戦略が存在するかどうかの判定は,擬似多項式時間で決定可能である。
心エコー用プローブ移動ガイダンスのためのシーケンス認識型事前学習:UltraSeP [cs.CV, cs.AI]目的:心エコーにおけるプローブ移動ガイダンスアルゴリズムの開発
- 心血管疾患の診断に不可欠な心エコー検査の熟練者不足が課題となっている。
- 既存手法は,患者ごとの心臓構造の個人差を考慮できていない点が課題である。
- 患者の過去スキャンシーケンスを考慮し,個人に最適化された心臓構造の理解を目指す。
- 提案手法は,大規模な心エコーデータセットにおいて,他の最先端手法と比較してプローブ移動誤差を効果的に削減できることを示した。
- シーケンス認識型事前学習により,個人化された三次元心臓構造の特徴を学習することが可能になった。
- スキャンシーケンス中のマスクされた画像特徴とプローブ移動アクションを予測することで,心臓構造の理解度を高める。
変形注意Transformerを用いた拡散ベースのRGB-Dセマンティックセグメンテーション [cs.CV]目的:RGB-Dセマンティックセグメンテーションのための拡散ベースのフレームワーク
- 自律システムにおけるシーン理解には,視覚に基づく知覚と推論が不可欠である。
- 現実世界のノイズの多い測定環境下での信頼性のあるデータ解釈手法が課題である。
- 深度画像の無効領域の特徴を捉え,セグメンテーションの精度とロバスト性を向上させる。
- 提案手法はRGB-D画像の潜在分布をより良くモデル化し,識別的手法と比較して少ない学習時間で堅牢な性能を示す。
- NYUv2およびSUN-RGBDデータセットにおいて,特に難しい画像データで最先端の性能を達成した。
- 変形注意Transformerをエンコーダに用いることで,深度画像の無効領域を効果的に捉えることができた。
医療画像解析のためのMambaアーキテクチャに関する包括的サーベイ:分類,セグメンテーション,復元そしてそれ以降 [cs.CV, cs.AI]目的:医療画像解析におけるMambaアーキテクチャの現状と可能性
- 医療画像解析は,疾患の早期発見や正確な診断に不可欠であり,医療の質向上に大きく貢献する。
- Transformerは強力だが,計算コストが高く,長距離依存関係の処理に課題がある。
- Mambaアーキテクチャを用いて,医療画像解析における既存の課題を克服し,新たな進歩を促す。
- Mambaは,Transformerと比較して計算量が線形であり,医療画像の解析において高速かつ効率的な処理が可能となる。
- Mambaは,マルチモーダルデータの統合に優れており,診断精度と患者アウトカムの向上に貢献する。
- 本サーベイは,Mambaアーキテクチャが医療画像解析の分野にもたらす変革の可能性を示すことを目的とする。
変動する状況下での公平な分割 [cs.CL, cs.GT, cs.DS]目的:分割対象のアイテムとエージェントが変動する場合における,1つアイテムまでの羨望自由性の回復
- 公平な分割は,資源配分において不可欠であり,社会的な公正性を実現するための基盤となる。
- 従来の公平分割研究は,静的な状況を前提としており,現実の変動する状況に対応できていない。
- アイテムの損失やエージェントの追加といった変動が生じた際に,公平性を維持するための手法を確立すること。
- 一様単調な評価関数と,すべてが良いものまたはすべてが苦痛なアイテムの場合に,EF1回復問題に対する効率的なアルゴリズムを開発した。
- これらのアルゴリズムは,同一の加法的な評価関数に対して,最適な転送回数(最大で$km/n$)を達成する。
- グラフ構造を持つ評価関数や,単調な二値評価関数を用いた場合においても,最適なアルゴリズムや問題の計算複雑性を明らかにした。
ガウスシーン:深度強調拡散事前分布を用いた姿勢情報不要な疎視点シーン再構成 [cs.CL, cs.CV]目的:姿勢情報なしでの360度シーンの疎な2D画像からの再構成
- 仮想現実や拡張現実の発展において,高精度な3Dシーンの再構成は不可欠である。
- 姿勢情報がない状況下でのシーン再構成は,従来の技術では困難であった。
- 姿勢情報なしで,高品質な3Dシーンを効率的に再構成することを目指す。
- 提案手法は,新しい視点からのレンダリングと深度マップにおける欠損部分の補完,およびアーティファクトの除去を行う生成モデルである。
- Gaussian-SLAMに着想を得たプロセスにより,多視点整合性のある3D表現を実現している。
- MipNeRF360およびDL3DV-10Kデータセットでの評価により,既存の姿勢情報不要な手法を上回り,姿勢情報ありの最先端手法と競合できる性能が示された。
RAGDiffusion:外部知識の取り込みによる忠実な衣服生成 [cs.CV, cs.AI, cs.GR, cs.LG]目的:衣服生成における忠実性の向上
- 衣服生成は,ファッション業界やバーチャル試着等に応用が期待され,重要性が高まっている。
- 既存手法では,衣服の構造やテクスチャの歪みが生じやすく,リアルな表現が困難であった。
- 本研究は,外部知識を取り込むことで,衣服の構造とテクスチャの忠実性を高めることを目指す。
- RAGDiffusionは,Retrieval-Augmented Generation(RAG)フレームワークを用いて,構造の決定性を高め,幻覚を抑制する。
- 構造の集約には,コントラスト学習とStructure Locally Linear Embedding(SLLE)を活用し,グローバルな構造と空間的なランドマークを抽出する。
- 粗い段階から細かい段階へとテクスチャを整合させることで,パターンやディテールの忠実性を確保する。
シーングラフ駆動データ合成による視覚生成トレーニング:任意のシーンの生成 [cs.CV, cs.AI, cs.LG]目的:視覚生成モデルの学習のためのデータ合成手法
- テキストから画像への生成技術は進歩するが,複雑なシーンの構成的理解と意味的整合性が課題である。
- 既存のデータセットはノイズが多く,複雑なシーンの理解を妨げるため,高品質な注釈データの取得が困難である。
- シーングラフを利用し,多様な視覚シーンを系統的に生成することで,モデルの性能向上と評価を可能にする。
- 本研究で開発したデータエンジン「Generate Any Scene」を用いた自己改善フレームワークにより,Stable Diffusion v1.5の性能が4%向上した。
- 少量の合成キャプションを用いて,Stable Diffusion v1.5をファインチューニングし,構成的および難解な概念生成においてTIFAスコアが10%向上した。
- 低コストでセマンティックな精度に合わせた報酬モデルを構築し,SimpleAR-0.5B-SFTをファインチューニングすることで,DPG-BenchにおいてCLIPベースの手法を5%上回った。
バランスのとれたデータセットにおけるバイアス増幅の方向性と解釈可能性の向上 [cs.CV, cs.LG]目的:バランスのとれたデータセットにおけるバイアス増幅の測定
- 機械学習モデルはデータに存在するバイアスを学習し,増幅する可能性があるため,公平性の確保が重要である。
- 従来のバイアス測定指標は,保護属性とタスクがバランスしている場合にバイアスを正確に測定できない。
- バランスのとれたデータセットにおいても,バイアスの増幅方向を特定し,解釈可能性を高めることを目指す。
- 本研究では,新しい予測可能性に基づく指標である方向性予測可能性増幅(DPA)を提案する。
- DPAは,バランスのとれたデータセットでもバイアスの増幅方向を測定可能であり,解釈が容易である。
- 実験結果から,DPAは方向性バイアス増幅を測定する有効な指標であることが示された。
分散学習のための自由な共分散:平均分布の活用 [cs.LG, cs.CV]目的:分散学習における訓練不要な手法
- データヘテロジェニティへの対策と,学習速度の向上が重要課題である。
- クライアント間のデータ分布の不均一性が,学習のボトルネックとなる。
- データ共有量を減らしつつ,分散環境での高性能な学習を実現すること。
- クラス平均のみを用いて共分散行列を推定し,グローバル分類器の初期化に活用する。
- クラス内共分散のみを使用することで,分類器の初期化性能が向上する。
- 既存手法と同等の性能を,大幅に少ない通信量で達成可能である。
ウィンタースポーツにおけるインタラクティブセグメンテーションのための高速応答と低レベル特徴の組み合わせ:SkipClick [cs.CV]目的:インタラクティブセグメンテーションにおけるセグメンテーションマスクの質の向上
- 画像認識技術は,スポーツ分析や自動運転など,幅広い分野で重要性を増している。
- ユーザの指示に基づいてセグメンテーションを行う場合,効率的な処理速度と精度が課題である。
- ウィンタースポーツ特有の課題に対応し,少ないクリック数で高精度なセグメンテーションを実現すること。
- 提案手法SkipClickは,WSESegデータセットにおいて,SAMやHQ-SAMをそれぞれ2.336回,7.946回少ないクリック数で上回る性能を示した。
- HQSeg-44kデータセットにおいても,NoC@90で6.00,NoC@95で9.89という最先端の結果を達成した。
- スキー中の人間のマスクに関する新しいデータセットでも,モデルの有効性を確認した。
RadVLM:胸部X線画像の診断のためのマルチタスク対話型ビジョン言語モデル [cs.CV, cs.AI]目的:胸部X線画像解釈のためのマルチタスク対話型基盤モデル
- 胸部X線検査は広く行われており,放射線科医不足が課題となっている。
- 既存のビジョン言語モデルは特定のタスクに限定され,対話的な診断能力に乏しい。
- 胸部X線画像の診断において,対話的なサポートを提供し,ワークフローを効率化すること。
- RadVLMは,報告書作成,異常検出,視覚的根拠付けなどの様々なタスクで高い性能を示した。
- 特に,対話能力と視覚的根拠付けにおいて,最先端の性能を達成した。
- 複数タスクの同時学習が,限られたアノテーションデータ下で有効であることが示された。
最速をさらに速く:再構成ニューラルネットワークを用いたインタラクティブボリューム可視化のための重要性マスク合成 [cs.CL, cs.GR, cs.HC]目的:インタラクティブボリューム可視化における重要性マスク合成
- 大規模ボリュームデータの可視化は重要であり,科学研究におけるデータ理解を促進する。
- 高解像度可視化には計算コストがかかり,インタラクティブな操作が困難である。
- ユーザーの視点やデータ特性を考慮し,レンダリングするピクセル数を最小化する。
- 提案手法は,既存のボリューム可視化手法のレンダリング遅延を,再構成ニューラルネットワークと合わせてさらに改善する。
- 事前に学習済みの再構成ニューラルネットワークを,大幅な再学習なしに最適化できる。
- 重要性マスクの学習と合成により,レンダリングに必要なピクセル数を削減するユニファイドフレームワークを提案する。
SQ-GAN:マスク化ベクトル量子化を用いたセマンティック画像通信 [cs.CV, eess.IV]目的:セマンティック/タスク指向通信のための画像圧縮最適化
- 画像通信は,多様な応用において不可欠な技術であり,効率的な圧縮が求められる。
- 従来の画像圧縮技術では,セマンティック情報を考慮した効率的な圧縮が課題であった。
- セマンティック情報を活用し,低ビットレートでも高画質を維持する圧縮手法を開発する。
- SQ-GANは,JPEG2000,BPG,深層学習に基づく既存の画像圧縮方式を複数の指標で上回る性能を示した。
- 再構成画像の知覚的品質とセマンティックセグメンテーション精度が向上し,特に低ビットレート環境で優れた結果が得られた。
- セマンティック条件適応マスクモジュール(SAMM)により,セマンティックに重要な特徴を選択的にエンコードすることが可能となった。
RobustMerge:方向ロバスト性を備えたMLLMのパラメータ効率的なモデルマージ [cs.CV]目的:多タスク能力を強化するためのパラメータ効率的なモデルマージ手法
- 大規模言語モデルの利用拡大に伴い,特定タスクに特化した専門モデルの統合が重要になっている。
- 既存のマージ手法はフルファインチューニング向けであり,パラメータ効率的なチューニングには適用困難な場合がある。
- マージ時の方向ロバスト性を確保し,タスク間の干渉を抑制することで,汎化性能の高いモデルマージを実現する。
- RobustMergeは,特異値間のギャップを補正するパラメータ適応により,方向ロバスト性を維持する訓練不要な手法である。
- パラメータのプルーニングとスケーリングにより,タスク干渉を抑制し,方向安定性を確保する。
- クロスタスク正規化により,未知のタスクへの汎化性能を向上させる。
画像キャプションにおける方向性バイアス増幅の測定:予測可能性に基づく手法 [cs.CV, cs.AI]目的:画像キャプションにおける方向性バイアス増幅の測定
- 機械学習モデルは学習データに含まれるバイアスを学習し,増幅する可能性があり,その評価が重要である。
- 既存の共起ベース指標は画像分類には有効だが,複雑なキャプションの文脈を捉えられない。
- キャプションにおけるバイアス増幅の方向性を特定し,より正確なデータセットバイアスの推定を目指す。
- 提案手法DPACは,既存の指標LICが抱える問題点を克服し,より信頼性の高いバイアス増幅の測定を可能にする。
- DPACは,バイアスの増幅方向を特定し,改善された語彙置換戦略によりデータセットバイアスをより正確に推定する。
- COCOデータセットの実験により,DPACがキャプションにおけるバイアス増幅測定において最も信頼できる指標であることが示された。
マルチモーダルテキスト画像分析における自己教師ありコントラスト学習の調査 [cs.CV, cs.LG]目的:マルチモーダルテキスト画像分析における自己教師ありコントラスト学習の動向
- 画像やテキストの理解において,大量のラベル付きデータが必要となることが課題である。
- ラベルなしデータからの学習方法が限られており,汎用的なモデル構築が難しい。
- ラベルなしデータを用いて効果的な特徴抽出を行い,モデルの性能向上を目指す。
- 自己教師あり学習,特にコントラスト学習は,ラベル付きデータへの依存度を低減し,画像とテキストの理解を促進する。
- 本調査では,テキスト画像モデルにおけるコントラスト学習の様々なアプローチを構造別に分類・整理した。
- 最新の事前学習タスク,アーキテクチャ,主要なトレンド,応用事例についても概観した。
HA-VLN 2.0: 離散・連続環境における人間を意識したナビゲーションのオープンベンチマークおよびリーダーボード [cs.AI, cs.CV, cs.RO]目的:人間を意識したナビゲーションの評価基準とデータセット
- ロボットの自律移動において,人間との共存は不可欠であり,安全性を確保することが重要である。
- 従来のVLN研究では,混雑した環境や人間とのインタラクションが十分に考慮されていなかった。
- 人間を意識したナビゲーションの性能評価と,安全で社会的に責任あるナビゲーション研究の基盤を確立すること。
- HA-VLN 2.0は,ナビゲーションの正確性とパーソナルスペースの尊重という2つの側面を評価する標準化されたタスクと指標を導入した。
- HAPS 2.0データセットとシミュレーターは,複数の人間とのインタラクション,屋外環境,言語と動作のより詳細な対応関係をモデル化している。
- 実験の結果,明示的な社会的モデリングがナビゲーションの安定性を向上させ,衝突を減らすことが示された。
CQ-DINO:カテゴリクエリによる勾配希釈の軽減 – 膨大な語彙を持つ物体検出 [cs.HC, cs.RO, cs.RO, cs.SY, eess.SY, cs.CV]目的:膨大な語彙を持つ物体検出における勾配希釈の軽減
- データ量の増加に伴い,広範なカテゴリを扱う物体検出の重要性が高まっている。
- 既存手法では,稀なカテゴリへの学習信号不足や,容易な負例による識別的な勾配の希釈が課題である。
- カテゴリクエリを用いることで,勾配分布の再均衡化と暗黙的なハード例マイニングを実現し,課題解決を目指す。
- CQ-DINOは,V3Detベンチマークにおいて,既存手法を2.1% AP上回る優れた性能を達成した。
- COCOデータセットにおいても競争力のある性能を維持している。
- 本研究は,広範なカテゴリを必要とする現実世界の検出システムに対するスケーラブルな解決策を提供する。
確率的ジャンプ拡散によるオープンワールド一人称活動認識 [cs.CV]目的:オープンワールド一人称活動認識のための手法
- 一人称視点での活動認識は,ロボットやウェアラブルデバイスの応用において重要である。
- 既存手法では,未知の活動に対する認識性能が課題であり,計算コストが高い。
- 効率的な探索と高精度な認識を実現し,未知の活動にも対応できる手法を開発する。
- 提案手法ProbResは,ジャンプ拡散に基づき,効率的に活動の探索空間をナビゲートする。
- 構造化された常識的知識とVision-Language Modelsを活用し,高い認識性能を実現した。
- 複数のオープンワールドレベルで評価し,GTEA,EPIC-Kitchens等のベンチマークデータセットで最先端の性能を達成した。
SMF:テンプレートとリグを用いない運動転送のための運動学的コード [cs.GR, cs.CV]目的:疎な運動記述からの運動転送手法
- キャラクターアニメーション制作において,多様な動きを効率的に適用することは重要である。
- 既存手法は,テンプレートやリグに依存したり,未知の動きや形状への汎化性能が低い場合がある。
- 本研究は,テンプレートやリグなしに,より汎用的な運動転送を実現することを目的とする。
- 提案手法SMFは,自己教師あり学習により,疎な運動表現から直接運動を生成する。
- 運動学的コードを用いることで,意味的に豊かな潜在空間を構築し,大規模な学習を可能にした。
- AMASSデータセットにおいて,未知の運動に対するSoTAを達成し,汎化性能の高さを示した。
TARO:動画から音声合成のための時間ステップ適応表現アラインメントと開始音響条件付け [cs.SD, cs.AI, cs.CV]目的:動画から音声への高品質かつ時間的に一貫性のある合成
- 動画と音声を同時に理解する技術は,様々な応用において重要性が増している。
- 動画と音声の同期が難しく,生成される音声の品質が低いという課題がある。
- 動画の視覚的なイベントと音声の開始タイミングをより正確に一致させる。
- 提案手法TAROは,既存手法と比較して,Frechet Distance (FD)を53%削減し,高品質な音声を生成する。
- Frechet Audio Distance (FAD)も29%低減され,より自然な音声を合成できることが示された。
- Alignment Accuracyは97.19%と高く,動画と音声の同期精度が大幅に向上している。
差分プライバシーを用いた2次元人体姿勢推定 [cs.CL, cs.CV]目的:差分プライバシーを考慮した2次元人体姿勢推定のフレームワーク
- 医療,活動認識,人間とコンピュータのインタラクションなど,多くの応用分野で人体姿勢推定が不可欠となっている。
- プライバシー保護技術は限られており,汎用的なモーション分析におけるデータ有用性を損なう場合がある。
- 差分プライバシーと性能のバランスを取り,実用的な人体姿勢推定を実現すること。
- 提案手法は,MPIIデータセットにおいて,バニラDP-SGDや個々のベースラインと比較して一貫して優れた性能を示した。
- 特に,ε=0.8において平均PCKh@0.5が82.61\%に達し,非プライベート性能との差を大幅に縮小した。
- 本研究は,現実世界の機密性の高いアプリケーションにおけるプライバシー保護型人体姿勢推定の基盤となる。
マルチモーダル言語モデルは,浅い層を見る方が良い性能を発揮する [cs.CV, cs.AI]目的:マルチモーダル大規模言語モデルにおける視覚層選択の影響
- 画像とテキストの理解を統合するマルチモーダルモデルの重要性が高まっている。
- ViTのどの層の視覚特徴を抽出するかの最適な方法が明確ではない。
- 浅い層の活用により,詳細な視覚タスクの性能向上を目指す。
- ViTの浅い層,中間層,深い層を分類し,それぞれの特徴を分析した。
- 深い層はOCRなどの意味的なタスクに優れる一方,浅い層と中間層は,カウントや位置特定などの詳細な視覚タスクで優れた性能を示した。
- 浅い層を戦略的に組み込む軽量な特徴融合手法を提案し,既存手法を上回る性能を達成した。
スポーツビデオイベント検出における深層学習:タスク,データセット,手法,課題 [cs.CV]目的:スポーツビデオイベント検出に関する研究動向の包括的な整理
- スポーツ分析において,自動評価や戦術決定を支援するイベント検出の重要性が高まっている。
- タスク間の微妙な違いが曖昧で,研究と応用の両方で混乱が生じている。
- イベント検出の精度向上と実用的な応用展開を促進するための基盤を提供する。
- 本調査では,TAL,AS,PESの定義を明確にし,それぞれの利用事例を整理した。
- 最先端の手法を分類し,ASおよびPESに特化した時間モデリング戦略やマルチモーダルフレームワークを提示した。
- 既存のデータセットや評価プロトコルの限界を指摘し,今後の課題を明らかにした。
拡散モデルの内部構造:データ多様体探索のためのスコアベースのリーマン計量 [cs.LG, cs.CV]目的:拡散モデルによって学習されたデータ多様体の内在的幾何構造の特性評価
- 近年の拡散モデルの進歩は目覚ましいが,学習されたデータ多様体の幾何学的性質は未解明な点が多い。
- データ多様体の幾何構造を明示的にパラメータ化することなく特徴づける手法が求められていた。
- 拡散モデルのスコア関数を用いて,データ多様体の幾何構造を捉えるリーマン計量を提案し,多様体上での測地線を計算する。
- 提案手法は,データ点間の補間や観測データ分布の外的推論に有効であることが示された。
- 合成データ,Rotated MNIST,Stable Diffusionを用いた実験により,提案手法が意味のある変換を捉えることが確認された。
- 知覚的指標(LPIPS)や分布レベル指標(FID, KID)において,ベースライン手法を上回り,より滑らかでリアルな画像遷移を実現した。
学生プロジェクト割り当て問題におけるメタ回転と安定マッチングの構造 [cs.GT]目的:学生プロジェクト割り当て問題(SPA-S)における安定マッチングの構造
- 資源配分は,大学の授業割り当てに限らず,無線ネットワークなど幅広い分野で重要な課題である。
- 安定マッチングの構造が十分に解明されておらず,効率的なアルゴリズム設計の妨げとなっていた。
- メタ回転の理論を構築し,安定マッチングの構造を明らかにすることで,効率的なアルゴリズム設計を可能にする。
- メタ回転という概念を導入し,安定マッチング間の変換における最小限の変化を捉えた。
- メタ回転のポセットと安定マッチングの間に一対一対応関係があることを証明した。
- この構造により,安定マッチングの列挙や計数,最適化された安定マッチングの計算の基盤を提供する。
信頼のゲーム:あなたのブロックチェーンはあなたをどれだけ信頼しているか? [cs.GT, cs.AI, cs.CR]目的:ノードの信頼度を反映する評判システムの構築
- ブロックチェーン技術は,分散型システムの信頼性と透明性を高める上で重要である。
- 現在のブロックチェーンでは,ノードの信頼性を客観的に評価する仕組みが不足している。
- ノードの真実な信念に基づいた信頼情報の抽出と,その報告を促すインセンティブ設計。
- ブロックチェーン上で,ノードの信頼度を評価する評判システムを構築するためのフレームワークを提案した。
- PageRankアルゴリズムを応用し,ノードの信念から信頼情報を抽出する方法を確立した。
- Trustworthy Reputationゲーム(TRepゲーム)を定義し,報酬メカニズムを通じて信頼に関する集団的信念を抽出する手法を示した。
データ不足下における行動理解の向上における動画生成の役割 [cs.CV]目的:データ制約下での行動理解
- 現実世界の行動理解において,データ不足は大きな課題である。
- 既存手法では,十分な学習データが確保できない場合がある。
- 動画生成によるデータ拡張で,この課題を解決する。
- テキストから動画を生成する拡散変換器を用いて,アノテーション付きデータを無限に生成する手法を提案した。
- 生成データの情報量を環境とキャラクターの側面から強化する戦略を導入した。
- 低品質な生成サンプルが学習に与える悪影響を軽減するため,不確実性に基づくラベル平滑化戦略を適用した。
HoliTom:高速動画大規模言語モデルのための包括的なトークンマージ [cs.CV]目的:動画大規模言語モデルの計算効率向上
- 動画理解において高い性能を示す動画LLMの効率的な活用が求められている
- 既存のトークン削減手法では,時間的・空間的な冗長性を十分に削減できていない
- 動画の冗長性を包括的に削減し,計算コストを大幅に削減することを目指す
- HoliTomは,時間的な冗長性を考慮したトークン削減と空間・時間的なマージを組み合わせることで,トークン数を90%以上削減する。
- LLaVA-OneVision-7Bにおいて,計算コストを6.9%に削減しつつ,性能の99.1%を維持することに成功した。
- Time-To-First-Token(TTFT)を2.28倍,デコーディングスループットを1.32倍に改善し,実用的な効率化を実現した。
Any-to-Bokeh:ビデオ拡散モデルを用いた任意の被写体に対するビデオリフォーカス [cs.CV, cs.AI]目的:ビデオ拡散モデルを用いた任意の被写体に対するビデオリフォーカス手法
- 映像制作において,被写界深度の制御は重要な表現技法である。魅力的な映像表現には不可欠。
- 既存手法では,時間的なちらつきや不自然なぼかしの遷移が課題であり,自由な制御が難しい。
- 時間的に一貫性があり,被写界深度とぼかし強度を制御可能なビデオぼかし生成を目指す。
- 提案手法は,マルチプレーンイメージ表現とビデオ拡散モデルを組み合わせ,3D情報を活用することで,時間的な一貫性を実現。
- プログレッシブな学習戦略により,深度のロバスト性,ディテール保持,時間安定性を向上。
- 合成データと実写データにおける評価で,既存手法を上回る性能を実証。ビデオぼかし生成の新たな基盤となる。
SpatialSplat:疎な未ポーズ画像からの効率的な意味的3D再構成 [cs.CV]目的:疎な未ポーズ画像から効率的に意味的3Dモデルを生成すること
- 3D再構成技術は,現実世界の理解や仮想現実などの応用において不可欠である。
- 既存手法では,高次元のセマンティック特徴の利用コストが高く,メモリ消費量が課題となっていた。
- セマンティック情報を効果的に圧縮し,冗長性を排除することで,より効率的な3D再構成を実現する。
- SpatialSplatは,シーン表現に必要なパラメータを60%削減できることを示した。
- 粗いセマンティック特徴フィールドと,詳細なインスタンス間関係を捉える微細な特徴フィールドという二重フィールドのセマンティック表現を用いる。
- 選択的なガウス機構により,冗長なプリミティブを排除し,コンパクトな3Dガウス表現を実現する。
FLAIRを用いた逆問題の解決 [cs.CV, eess.IV]目的:逆問題に対するFlow-based潜在的生成モデルの活用
- 画像生成技術の進展は,医療や科学分野におけるデータ解析に不可欠である。
- 既存手法では,生成モデルと観測データの整合性が課題であり,十分な復元精度が得られない。
- 本研究は,観測データと整合性の高い復元を可能とする新しいフレームワークを提案する。
- FLAIRは,訓練不要な変分フレームワークであり,Flow-based生成モデルを逆問題の事前分布として利用する。
- 提案手法は,データの劣化の種類に依存しない変分目的関数と,決定論的な軌道調整を組み合わせることで,事後分布に合致する復元を実現する。
- 標準的な画像復元ベンチマークにおいて,既存の拡散モデルやFlow-basedモデルを凌駕する性能を示す。
両ドメインにおける頑健性:CLIPは頑健なテキストエンコーダを必要とする [cs.LG, cs.AI, cs.CV]目的:CLIPにおけるテキストエンコーダの頑健性向上
- CLIPは画像とテキストの関連性を学習するため,様々な応用分野で利用されている。その信頼性が重要である。
- 敵対的攻撃によりCLIPの埋め込みが変化し,その後のモデルの頑健性が損なわれる可能性がある。
- テキストエンコーダの頑健性を高め,敵対的攻撃に対するCLIP全体の信頼性を向上させる。
- 提案手法LEAFは,テキストドメインに対する効率的な敵対的ファインチューニング法であり,大規模CLIPモデルにも適用可能である。
- LEAFを適用することで,テキストドメインにおけるゼロショット敵対的精度が大幅に向上する。
- LEAFと頑健な画像エンコーダを組み合わせることで,テキスト画像生成モデルの生成品質が向上し,マルチモーダル検索タスクでの再現率も改善される。
DenseDPO:ビデオ拡散モデルのためのきめ細かい時間的嗜好性最適化 [cs.CV]目的:ビデオ拡散モデルにおける時間的嗜好性の最適化
- ビデオ生成技術は,創造性や表現の幅を広げ,様々な分野での応用が期待されている。
- 既存のDPO法では,動画間の比較が粗く,動きの少ない動画に偏りやすいという課題があった。
- DenseDPOは,動画ペアの生成方法と嗜好性ラベルの付与方法を改善し,より高精度な学習を目指す。
- DenseDPOは,同一の元動画から生成された動画ペアを使用することで,動きの偏りを解消し,より効果的な学習を実現した。
- 短いセグメント単位での嗜好性ラベル付与により,学習信号の密度を高め,動きの生成性能を大幅に向上させた。
- GPTなどの既存のVLMを用いて自動的に嗜好性ラベルを付与し,人間のラベルに近い性能を達成した。
輪郭誤差:信頼性の高い3Dマルチオブジェクトトラッキングのための自己中心的な指標 [cs.CV]目的:3Dマルチオブジェクトトラッキングにおける信頼性の高いマッチング指標の開発
- 自動運転などの安全性が重要なアプリケーションにおいて,知覚システムの精度と信頼性は不可欠である。
- 従来のIoUやCPDなどの指標は2D画像では有効だが,複雑な3Dシーンでの重要なマッチングを見逃す場合がある。
- 自己車中心の視点から輪郭誤差を用いて,より機能的に適切なオブジェクトマッチング評価を実現すること。
- 輪郭誤差は,nuScenesデータセットを用いた実験で,既存の2D IoUやCPD指標よりもマッチングの信頼性を向上させることが示された。
- 3D車追跡において,輪郭誤差はIoUと比較して,近距離で80%,遠距離で60%の機能的失敗(FP/FN)を削減した。
- 輪郭誤差は,自己車から見たbounding boxの比較により,より機能的に関連性の高いオブジェクトマッチング評価を提供し,追跡精度を向上させる。
トークナイザーと自己回帰モデル間のシーケンスモデリングのアライメントに向けて [cs.CV]目的:トークナイザーの依存構造を調整するアライメントされたトークナイザーの開発
- 画像生成において,自己回帰モデルは重要な役割を担う。高品質な画像生成には,効果的なトークナイザーが不可欠である。
- 従来の画像トークナイゼーションは双方向の依存関係を持つため,一方向性の自己回帰モデルとの間にミスマッチが生じるという課題がある。
- この研究は,自己回帰モデルとのアライメントを改善し,より効率的で高品質な画像生成を可能にすることを目的とする。
- 提案手法AliTokは,双方向エンコーダーと因果デコーダーを組み合わせることで,意味的に豊かで前方依存性を持つトークンシーケンスを生成する。
- AliTokは,ImageNet-256ベンチマークにおいて,177MパラメータのモデルでgFID 1.44,IS 319.5を達成し,662MパラメータのモデルではgFID 1.28を達成した。
- 提案手法は,最先端の拡散法を凌駕しつつ,10倍高速なサンプリング速度を実現した。
AD-EE:自動運転における高速かつ信頼性の高い視覚言語モデルのための早期終了 [cs.CV, cs.AI]目的:自動運転における視覚言語モデルの高速化と信頼性向上
- 自動運転技術の発展に伴い,知覚と意思決定を強化する視覚言語モデルの重要性が高まっている。
- 視覚言語モデルは計算コストが高く,特に時間制約の厳しい自動運転環境では実用上の課題となっていた。
- 不必要な推論を削減し,最適な終了層を特定することで,視覚言語モデルの効率的な運用を目指す。
- 提案手法AD-EEは,大規模な自動運転データセット(Waymo,CODA)において,最大57.58%のレイテンシ削減を達成した。
- オブジェクト検出精度も向上し,最大44%の改善が見られた。
- Autoware Universeプラットフォーム上の実車走行実験においても,効果が確認された。
動画LLMにおける追従性:ベンチマークと分析 [cs.CL, cs.AI, cs.CV]目的:動画LLMにおける追従性の評価と軽減
- 現実世界への応用拡大に伴い,動画LLMの信頼性が重要視されている。
- 動画LLMは,視覚的証拠と矛盾するユーザー入力に迎合する傾向がある。
- 動画LLMにおける追従性の具体的な現れ方を評価し,軽減策を提案する。
- VISEは,多様な質問形式,プロンプトバイアス,視覚的推論タスクを通じて,最先端の動画LLMの追従的行動を評価する初のベンチマークである。
- VISEは,言語学的観点から追従性を分析することで,複数の追従性タイプと相互作用パターンを詳細に解析する。
- 解釈可能なキーフレーム選択と推論時の内部表現への介入という,トレーニング不要の軽減策の有効性が示された。
ヘブライ語のグラフェームからフォネームへの変換:リアルタイムテキスト読み上げ用 [cs.CL, cs.CL, cs.SD, eess.AS]目的:ヘブライ語のグラフェームからフォネームへの変換システム
- ヘブライ語は正書法が複雑であり,リアルタイムテキスト読み上げは課題である。
- 既存手法では,母音記号が付与されても曖昧な強勢などの重要な音声特徴が無視される。
- 強勢を含む完全なIPA転写を出力し,より正確なヘブライ語読み上げを実現すること。
- Phonikudは,既存の母音記号付与モデルを軽量アダプターで改良し,低遅延を実現した。
- ILSpeechデータセットを公開し,ヘブライ語のG2Pのベンチマーク,TTSの学習データ,およびTTS性能評価に貢献した。
- Phonikudは既存手法よりも正確にフォネームを予測し,高速かつ正確なリアルタイムヘブライ語TTSモデルの学習を可能にした。
RePIC:マルチモーダル言語モデルのパーソナライズのための強化学習によるポストトレーニング [cs.CV]目的:マルチモーダル言語モデルのパーソナライズ
- 画像とテキストを理解するモデルは,多様な応用で重要であり,その性能向上が求められている。
- 既存のパーソナライズ手法は,複雑な画像の記述において十分な精度を示せていない。
- 高品質な学習データが不足している状況下で,モデルの性能を向上させることを目指す。
- 本研究では,強化学習を用いたポストトレーニングにより,マルチモーダル言語モデルの画像認識と生成能力を大幅に向上させた。
- 特に,複数の概念を含む複雑な画像のキャプション生成において,既存の教師あり学習ベースの手法を上回る性能を示した。
- 大規模で高品質なキャプションデータへの依存を軽減し,実世界での応用を促進する。
パーキンソン病における指叩きテストの運動特性のビデオベース定量化:解釈可能で粒度の高い手法 [cs.CV, cs.AI]目的:パーキンソン病の運動特性定量化
- パーキンソン病の進行度評価と治療戦略最適化には,正確な運動機能の定量が不可欠である。
- 従来の評価は主観的で評価者間のばらつきがあり,個々の運動特性の詳細な把握が困難である。
- ビデオベースの定量化により,客観的かつ詳細な運動特性評価を実現し,病状把握に貢献する。
- 提案手法は,ビデオから得られる特徴量が,パーキンソン病における運動機能障害の4つの要素と対応することを示した。
- さらに,運動シーケンス効果や停滞・中断といった要素において,より詳細な区別を可能にした。
- MDS-UPDRS指叩きスコア予測において,既存手法よりも高い精度を達成し,解釈可能な定量化を提供した。
Mem4Nav:階層的空間認知LSTMシステムによる都市環境における視覚と言語ナビゲーションの強化 [cs.CL, cs.CV, cs.AI, cs.CL]目的:大規模都市環境における視覚と言語ナビゲーションにおける性能向上
- 都市環境でのナビゲーションは,自動運転やロボット工学において重要な課題であり,実用化が期待されている。
- 既存手法では,記憶容量の制約や空間推論の能力不足から,複雑な環境での長期的なナビゲーションが困難である。
- 本研究は,階層的な空間記憶システムを導入し,ナビゲーションエージェントの空間認識能力と記憶能力を向上させることを目指す。
- Mem4Navは,既存のVLNバックボーンに組み込むことができ,Task Completion,SPD,nDTWといった評価指標で7~13ppの改善が見られた。
- 疎な八分木とセマンティックトポロジーグラフを組み合わせた階層的マップと,デュアルメモリモジュールが性能向上に不可欠であることが示された。
- 短期記憶と長期記憶を効果的に活用することで,動的な環境への適応能力と過去の経験の再現性が向上している。
DiffMark:ディープフェイクに対する拡散ベースの堅牢なウォーターマーク [cs.CV, eess.IV]目的:ディープフェイクに対する堅牢なウォーターマークの生成手法
- ディープフェイク技術の悪用は,セキュリティとプライバシーに対する重大な脅威となっている。
- 既存のウォーターマーク手法は,ディープフェイクによる操作に対して十分な堅牢性を有していない。
- 拡散モデルを活用し,ディープフェイク操作に耐性のあるウォーターマーク生成を目指す。
- 提案手法DiffMarkは,拡散モデルの学習とサンプリングプロセスを修正し,顔画像とウォーターマークを条件として利用する。
- 顔画像への影響を調整するため,timestep依存的な重み付けとクロス情報融合モジュールを導入し,ウォーターマークと画像特徴を統合する。
- ディープフェイク操作をシミュレーションするオートエンコーダーと,耐性のある誘導により,ウォーターマークの堅牢性を高めている。
マイクロホンアレイと信号強度を用いた音源方向推定 [cs.SD, cs.SY, eess.AS, eess.SY]目的:音源方向推定手法
- 防犯システム等への応用が期待され,音源方向の正確な把握は状況認識能力向上に不可欠である。
- 高精度な方向推定や複雑なハードウェア・信号処理が必要であり,簡便なシステム構築が課題である。
- 3つのマイクロホンを用いた簡便な手法により,音源方向を推定し,その有効性を検証する。
- 受信信号の平均電力比較により音源方向を推定し,簡便かつ低コストなシステムを実現した。
- 6度未満の局所化誤差と98%の精度を達成し,信頼性の高い音源方向推定が可能となった。
- 様々なシステムへの容易な統合が可能であり,セキュリティ,スマートホーム等への応用が期待される。
過酷な照明下における宇宙船姿勢推定のためのイベント-RGB融合 [cs.CV, cs.RO]目的:宇宙船姿勢推定のためのイベントセンサーとRGBセンサーの融合手法
- 宇宙船の自律運用には,正確な姿勢推定が不可欠であり,その重要性は増している。
- 従来のRGBカメラは,宇宙空間特有の過酷な照明条件に弱く,姿勢推定の精度が低下しやすい。
- イベントセンサーとRGBセンサーの長所を組み合わせることで,過酷な照明下でもロバストな姿勢推定を実現する。
- イベントセンサーとRGBセンサーの情報をRANSACベースの手法で融合することで,両方のモダリティの利点を活用した姿勢推定が可能となった。
- 実験結果から,提案手法が過酷な照明条件下において有効であり,イベントセンサーの宇宙船姿勢推定への応用を支持する結果が得られた。
- 収集したデータセットは公開されており,本研究分野のコミュニティへの貢献となる。