arXiv雑要約
画像・音声 - 2025/10/14 公開
単眼イベントストリームからの非剛体物体の新規視点レンダリング:Ev4DGS [cs.CV]目的:単眼イベントストリームからの非剛体物体の新規視点レンダリング手法
- 高速な視覚処理が求められるロボット工学や自動運転において,イベントカメラの活用が重要である。
- 従来のRGBカメラを用いたレンダリングでは,動きの速い物体や暗い環境での性能が課題であった。
- イベントストリームのみから高精度なレンダリングを実現し,RGBカメラに頼らない応用を可能にすること。
- 本研究で開発したEv4DGSは,イベントストリームから非剛体物体の新規視点画像を生成する初の手法である。
- Ev4DGSは,イベント観測空間と3次元変形モデルを結びつける損失関数を用いることで,高いレンダリング精度を達成している。
- 合成データセットおよび実データセットでの実験により,Ev4DGSの有効性と既存手法を上回る性能が実証された。
CodePlot-CoT: コード駆動型画像による数学的可視的推論 [cs.CV, cs.AI]目的:数学の問題解決における,コード駆動型画像を用いた思考パラダイム
- 近年,LLMやVLMの発展により数学的推論能力は向上している。しかし,視覚的補助を必要とする問題は依然として課題である。
- 既存のモデルはテキストベースの推論に限定され,テキストと画像を組み合わせたモデルは精度と制御性に課題がある。
- コード駆動型画像生成を通じて,視覚的推論を必要とする数学の問題解決能力を向上させる。
- 提案手法CodePlot-CoTは,VLMを用いてテキスト推論と実行可能なプロットコードを生成し,それを画像として可視化することで数学の問題を解決する。
- 大規模二言語データセットMath-VRを構築し,複雑な数学図形をコードに変換する高性能な画像-コード変換器を開発した。
- 実験結果により,提案手法はベースモデルと比較して最大21%の性能向上を達成し,コード駆動型推論パラダイムの有効性が確認された。
生成潜在動画圧縮 [eess.IV, cs.CV]目的:知覚的最適化に基づく動画圧縮の枠組み
- 動画圧縮は,通信帯域幅の節約やストレージ容量の削減に不可欠である。
- 従来の動画圧縮では,知覚的な品質と圧縮率のバランスが難題であった。
- フレーム間の品質変動によるちらつきを抑制し,効率的な動画圧縮を実現する。
- GLVCは,事前学習済みの連続トークナイザーを用いて,動画フレームを知覚的に整合した潜在空間に投影する。
- 潜在空間での設計により,DISTSおよびLPIPSの指標において最先端の性能を達成した。
- ユーザ調査では,GLVCは最新のニューラル動画コーデックと同等の品質をほぼ半分のレートで実現し,安定した時間的 coherence を示した。
極度な収差を持つメタレンズバーストからの高品質なリアルワールドイメージングの実現 [physics.optics, cs.CV]目的:リアルワールド環境における高品質なイメージング手法
- 小型化・軽量化が求められる光学デバイスにおいて,メタレンズは革新的な選択肢となる。
- メタレンズは,色収差,散乱,狭いスペクトル帯域幅,低い光効率といった課題を抱えている。
- 実用的なメタレンズカメラに適した画像修復フレームワークを開発し,これらの課題を克服すること。
- 提案手法は,従来のバーストモードや単一画像復元技術と比較して,一貫して優れた性能を示すことが実証された。
- 軽量な畳み込みネットワークとメモリ効率の良いバースト融合アルゴリズムにより,ノイズ,飽和クリッピング,レンズ歪曲を効果的に補正する。
- 本研究は,メタレンズベースのカメラを日常的なイメージングアプリケーションに展開するための実用的な道筋を示す。
効率的な3Dガウスヒューマンアバター圧縮:事前知識に基づくフレームワーク [eess.IV, cs.CV, cs.MM]目的:3Dヒューマンアバター動画の超低ビットレート圧縮
- メタバース等の没入型マルチメディア体験実現に向け,高画質・低ビットレートな3Dアバター圧縮技術が不可欠である。
- 既存の2D/3Dコーデックでは,高画質な3Dアバター動画の効率的な圧縮が困難である。
- 事前知識を活用し,アバター表現と時間変化を分離することで,冗長性を削減し圧縮効率を向上させる。
- 本研究で提案する手法は,主要なマルチビューヒューマン動画データセットにおいて,従来の2D/3Dコーデックや既存の学習型動的3Dガウススプラッティング圧縮手法を大幅に上回るレート歪み性能を示す。
- アバターの形状は一度のみ圧縮し共有,時間変化はわずか94パラメータで表現することで,効率的な圧縮を実現した。
- 線形ブレンドスキニング変換により,時間的に一貫性のある動画再構成と新規視点合成を可能にした。
ウルトラスキャッター:レイベースの超音波散乱シミュレーション [physics.med-ph, cs.CV]目的:超音波散乱の効率的かつ現実的なモデル
- 医療画像診断における超音波技術は不可欠であり,高精度なシミュレーションが求められる。
- 従来の波方程式に基づくシミュレーションは計算コストが高く,高速化が課題となっている。
- 計算コストを削減しつつ,現実的な超音波散乱をシミュレーションする手法の確立。
- ウルトラスキャッターは確率的レイトレーシングに基づき,従来の波ベース手法と比較して高速にBモード画像を生成する。
- 組織を散乱確率と散乱振幅のボリューメトリックフィールドとして表現し,自由飛行デルタ追跡をシミュレートする。
- ファントムデータを用いた検証により,現実的なスペックルパターンと内包物のパターンが確認された。
JND誘導軽量ニューラルプリフィルタ:知覚画像符号化のための [eess.IV, cs.CV, cs.MM]目的:知覚画像符号化の圧縮効率向上
- 画像圧縮は,データ容量削減に不可欠であり,効率的な符号化技術が求められる。
- 既存手法は計算コストが高く,公平な比較のための標準ベンチマークが不足している。
- 計算コストを抑えつつ,知覚的な圧縮効率を向上させる手法を確立すること。
- 提案手法は,複数のデータセットとエンコーダにおいて,最新技術を上回る圧縮効率を実現した。
- 1080p画像を処理する際の計算コストは7.15 GFLOPsであり,近年の軽量ネットワークのわずか14.1%である。
- 再現性のある研究プラットフォームとともに,高性能かつ効率的な解決策を提供している。
多岐にわたる癌種における病理組織標本全体の腫瘍自動セグメンテーションの汎化 [eess.IV, cs.AI, cs.CV]目的:病理組織標本画像に対する汎用的な腫瘍セグメンテーションモデルの開発
- 病理診断の効率化が求められる中で,画像解析による自動化技術の導入は重要である。
- 癌種ごとに特化したモデルでは,汎用性に欠け,新たな癌種への適応が困難である。
- 複数の癌種に適用可能な,汎用的な腫瘍セグメンテーションモデルの実現を目指す。
- 検証の結果,全検証コホートにおいて平均Dice係数が80%を超えた。
- 汎用モデルは,単一の癌種に特化したモデルと比較して性能劣化は見られなかった。
- 癌種,患者集団,標本調製,スライドスキャナーを問わず,単一モデルによる汎用的な腫瘍セグメンテーションが可能であることが示された。
新規問題に対する推論において,人は迅速で浅い目標指向型シミュレーションを利用する [q-bio.NC, cs.AI, cs.GT]目的:新規な問題に対する人間の意思決定と判断のメカニズムの解明
- ゲームは,人工知能・自然知能における計画立案や推論の研究に最適な環境である。
- 現実世界では,人は未経験の意思決定問題に柔軟に対応する必要がある。
- 本研究は,人が初めてゲームをプレイする際の意思決定プロセスを明らかにすることを目指す。
- 人は,初めてゲームをプレイする際,またはプレイ前に,系統的かつ合理的に判断を下すことが示された。
- 「Intuitive Gamer」と呼ばれる計算認知モデルが,この能力を説明している。これは,モンテカルロ木探索に類似するが,サンプリング数を減らし,シンプルな目標ヒューリスティクスを用いる。
- 大規模な行動研究の結果,このモデルは,経験の有無や他者のプレイ観察といった状況下における人間の判断と意思決定を,高度なモデルよりも正確に予測できた。
汎化長尾分類のための不変特徴学習 [cs.CV]目的:汎化長尾分類問題に対する不変特徴学習手法の開発
- 画像認識における分類精度向上は重要な課題であり,特にデータ分布の偏りが存在する場面での性能改善が求められている。
- 既存の長尾分類手法はクラスごとのサンプル数に着目するが,属性ごとの不均衡を無視している点が課題である。
- 本研究では,クラスと属性の両方の不均衡を考慮した汎化長尾分類問題に取り組み,その解決を目指す。
- 提案手法であるIFLは,不完全な予測から多様なクラス内分布を持つ環境を発見し,それら間での不変特徴を学習することで,特徴表現を改善する。
- 実験結果から,IFLは既存の長尾分類手法を性能向上させることが示され,ImageNet-GLTとMSCOCO-GLTのベンチマークにおいて有効であることが確認された。
- IFLは,クラス分布の調整に過度に依存せず,属性に依存しない特徴を学習することで,従来の長尾分類手法の弱点を克服する。
クラスは文脈に不変であり,その逆もまた然り:外挿汎化のための不変性学習について [cs.CV]目的:外挿汎化における不変性学習
- 機械学習において,未知のデータに対する汎化性能は重要であり,特に環境変化への対応が課題である。
- 現実のデータセットは,クラスごとの文脈の分布に偏りがある場合が多く,これが外挿汎化の性能低下を招く。
- 文脈とクラスの不変性の関係を利用し,文脈ラベルなしで文脈バイアスを軽減し,外挿汎化性能を向上させる。
- 本研究では,文脈がクラスに不変であるという見過ごされがちな原則に着目し,クラスを変化する環境とみなすことで文脈バイアスを解決する。
- クラス内サンプルの類似性を最大化し,その類似性を全クラス間で不変に保つコントラスト損失を最小化する手法を提案した。
- 様々な文脈バイアスとドメインギャップを持つベンチマークにおいて,提案手法が最先端の性能を達成した。
情報トポロジー [cs.CV]目的:情報理論と代数トポロジーの統合
- 脳科学や機械学習において,情報の構造化と予測が重要視されている。
- 従来の理論では,情報の安定性と汎化性能を十分に説明できていない。
- 情報の安定化と予測のメカニズムをトポロジーの視点から解明する。
- 情報トポロジーは,推論の基本操作として「サイクル閉包」を捉え,情報理論と代数トポロジーを統合する枠組みである。
- 安定した情報は,摂動下で持続する非自明なホモロジークラスに存在し,高エントロピーなコンテキスト詳細はその足場として機能する。
- ホモロジカルキャパシティは,システムのサポート可能な独立した情報サイクルの数を表し,ダイナミカルエントロピーと構造的キャパシティを結びつける。
カモフラージュ画像合成は,カモフラージュ検出を向上させるために必要なもの全てである [cs.MA, cs.CL, cs.CV, cs.AI, cs.LG]目的:カモフラージュ検出の性能向上
- 実世界での応用が広く,画像認識分野において重要な課題である。
- カモフラージュ対象のデータが不足しており,学習が困難である。
- データ不足を解消し,カモフラージュ検出の精度向上を目指す。
- 提案手法は,3つのデータセット(COD10k, CAMO, CHAMELEON)において,既存の最先端手法を上回る性能を示した。
- 生成モデルを用いたカモフラージュ画像の合成により,検出モデルの学習データを拡張することに成功した。
- 本手法は,既存のカモフラージュ検出タスクに容易に組み込むことができ,多様なデータセットを構築できる。
Hyper-STTN:ハイパーグラフで拡張された時空間Transformerネットワークによる軌跡予測 [cs.CC, quant-ph, cs.CV, cs.LG]目的:群衆の意図と軌跡の予測
- 社会ロボットや自動運転など,現実世界への応用が不可欠な技術分野である。
- 双方向の時空間的相互作用の複雑さや,集団ダイナミクスの異質性により,正確なモデリングが困難である。
- 集団間および双方向の相互作用をより正確にモデル化し,予測精度を向上させる。
- 提案手法Hyper-STTNは,群衆の軌跡予測において,様々な規模のハイパーグラフを構築し,集団間の相関を捉える。
- ハイパーグラフ畳み込みと時空間Transformerを組み合わせることで,双方向の潜在的相互作用と集団的ダイナミクスを学習する。
- 公開データセットでの実験により,最先端の手法と比較してHyper-STTNが常に優れた性能を発揮することが示された。
潜在拡散モデルへの再学習なし汎用ウォーターマークフレームワークMarkPlugger [cs.CV]目的:潜在拡散モデル生成画像へのウォーターマーク埋め込み手法
- AI生成コンテンツの急増に伴い,悪用を防ぐための技術的対策が不可欠である。
- 既存手法はモデルの再学習が必要であり,変化の速いAI技術に追随するのが困難である。
- モデル再学習なしに,潜在空間で多様なウォーターマークを埋め込むことを目指す。
- MarkPluggerは,潜在拡散モデルを再学習することなくウォーターマークを埋め込むことができる汎用的なフレームワークである。
- 潜在空間における意味情報と直交するようなウォーターマーク表現を特定し,加法的な融合戦略を用いることで,生成画像の品質を維持しながら高いウォーターマーク検出率を実現した。
- 複数の潜在拡散モデルの公式バージョンや派生モデルに対して有効性が確認され,多様な攻撃に対しても堅牢であることが示された。
単語レベルデータにおけるオフライン筆跡識別のための注意機構に基づくエンドツーエンドネットワーク [cs.CV, cs.LG]目的:オフライン筆跡識別システムの開発
- 筆跡識別は,様々な分野で広く応用されており,重要性が増している。
- 限られた筆跡サンプル,特に単語画像しかない場合,識別精度向上の余地が大きい。
- 少ない筆跡データでも高精度な筆跡識別を可能にするシステムの構築
- 注意機構に基づいたCNNを提案し,単語画像から抽出したフラグメントを用いて学習を行った。
- フラグメントを用いることで,従来のCNNよりもロバストな特徴表現を獲得できることを示した。
- 3つのベンチマークデータベースで評価し,限られた筆跡データ下での有効性を確認した。
ベクトル化HDマップにおける階層的表現の改善:遠近法の手がかりを用いた手法 [cs.CV]目的:ベクトル化HDマップの階層的表現改善
- 自動運転技術の発展において,高精度なHDマップの構築は不可欠である。
- 既存手法では,複雑なマップ構造の把握や視点変換による情報損失が課題となっていた。
- 遠近法的手がかりを活用し,マップベクトルの属性復元と点座標推定の精度向上を目指す。
- 提案手法PerCMapは,nuScenesデータセットにおいて67.1mAP,Argoverse 2データセットにおいて70.5mAPを達成した。
- PerCMapは,インスタンスレベルでのCross-view Instance Activation (CIA)と点レベルでのDual-view Point Embedding (DPE)により,高い性能を実現している。
- 本研究は,多様なベンチマークにおいて堅牢かつ一貫した性能を示し,HDマップ構築の精度向上に貢献する。
場所特定検出能力を持つ検査ゲーム:戦略的資源調整のための厳密および近似アルゴリズム [cs.GT]目的:攻撃者と防御者のゼロサム検査ゲームにおけるナッシュ均衡の計算
- 重要インフラのセキュリティ確保は喫緊の課題であり,攻撃に対する防御戦略の最適化が求められている。
- 大規模なシステムにおいて,防御資源の配置と攻撃戦略の予測は計算量的に困難である。
- 防御者が検知器を戦略的に配置し,攻撃者の攻撃を最小限に抑えるための効率的なアルゴリズムを開発する。
- 提案手法は,線形計画法と列生成法を組み合わせることで,大規模なゼロサムゲームのナッシュ均衡を計算可能とした。
- 混合整数計画法や,多重重み更新アルゴリズムといった近似解法により,計算効率を向上させ,理論的な保証も提供した。
- 実世界のガス分布ネットワークにおける実験結果は,提案手法のスケーラビリティと性能を示している。
UniRGB-IR:アダプターチューニングによる可視・赤外線セマンティックタスクのための統一的フレームワーク [eess.SY, cs.SY, cs.CV]目的:可視光と赤外線画像のセマンティックタスクに対するスケーラブルで効率的なフレームワーク
- 低照度や悪天候などの困難な条件下での精度とロバスト性を向上させるため,可視光と赤外線画像のセマンティック解析が注目されている。
- 大規模な赤外線画像データセットで事前学習された基盤モデルが不足しており,RGB-IRセマンティック関連データセットでの直接ファインチューニングが主流である。
- RGB基盤モデルにマルチモーダル特徴を効果的に組み込むアダプター機構を導入し,スケーラビリティと汎化性能の限界を克服することを目指す。
- 提案手法UniRGB-IRは,ViT基盤モデルを凍結し,MFPモジュールとSFIモジュールのみを最適化することで,効率的な学習を実現している。
- MFPモジュールとSFIモジュールはアダプターとして協調し,ViTの特徴を文脈的でマルチスケールな特徴で効果的に補完する。
- 様々なRGB-IRセマンティックタスクにおける実験結果は,提案手法が最先端の性能を達成することを示している。
拡散ブラシによる画像編集の効率化 [cs.CV]目的:拡散モデルを用いた層ベースの画像編集手法
- 画像編集は,創造的な表現において不可欠であり,その効率性と品質向上が常に求められている。
- 既存の拡散モデルは,局所的な編集ワークフローが未発達であり,インタラクティブな操作性が課題である。
- 拡散モデルを用いた画像編集の速度と品質を向上させ,より直感的で効率的なワークフローを実現すること。
- 提案手法であるLDBは,標準的な拡散モデルを活用し,インタラクティブな層ベースの編集を可能にする。
- LDBは,中間潜在キャッシュを用いた高速化により,コンシューマーGPU上で140ms/エディットという高い処理速度を実現した。
- ユーザー調査及び定量評価の結果,LDBは既存手法と同等以上の画質,背景の保存,編集の忠実性を実現し,編集速度で優れていることが示された。
分布フリー不確実性定量化を用いたオンラインオークション設計:Eコマースへの応用 [cs.GT, cs.LG, stat.ML]目的:オンラインオークションにおける期待収益最大化のためのインセンティブ整合メカニズムの設計
- Eコマースにおいてオンラインオークションは重要な役割を担うため,収益最大化は不可欠である。
- 既存手法は,入札者の価値分布や参加者数が既知であることを前提としており,現実世界での利用が難しい。
- 未知の価値分布と不確実な参加者数下でも,収益を保証するオンラインオークション設計を目指す。
- 本研究では,入札者の価値の不確実性を分布を仮定せずに定量化するCOADメカニズムを提案する。
- COADは,過去のデータを用いて入札者とアイテムの特徴を考慮し,インセンティブ整合性のあるメカニズムを設計する。
- 実世界のeBayオークションデータへの適用とシミュレーションにより,COADの有効性が確認された。
RATLIP:再帰的アフィン変換に基づく生成対抗CLIPテキスト画像合成 [cs.CV]目的:テキスト記述に基づいた高品質なフォトリアリスティックな画像合成
- 画像とテキストの関連性はAI研究において重要であり,その精度向上は様々な応用を可能とする。
- GANによる画像合成では,テキストとの一貫性不足や生成画像の多様性不足が課題となっていた。
- 本研究は,層間での情報伝達を強化し,CLIPを活用することで上記課題の解決を目指す。
- 提案手法RATLIPは,CUB,Oxford,CelebA-tinyデータセットにおいて最先端モデルを上回る性能を示した。
- 再帰的アフィン変換(RAT)とシャッフルアテンションにより,層間のグローバル情報の共有と情報消失の抑制を実現した。
- CLIPの潜在空間における多次元表現学習能力を活用し,生成画像とテキスト記述の一貫性を高めた。
アクティブラーニングと分布外検出への統一的アプローチ [cs.CV]目的:アクティブラーニングと分布外検出の統合的解決策
- 現実世界のデータは多様であり,モデルの汎化性能向上が不可欠である。
- アクティブラーニングと分布外検出は別々に研究されており,連携が不十分である。
- 両タスクを統合し,より効率的な学習と信頼性の高い検出を目指す。
- SISOMは,アクティブラーニングと分布外検出を同時に解決する初の統一的アプローチである。
- OpenOODベンチマークで1位または2位の成績を収め,その有効性を実証した。
- アクティブラーニングのベンチマークにおいても,最高レベルの性能を示した。
重み付き議席の配分 [cs.GT]目的:資源の公平かつ比例的な配分方法
- 政治,経済など,多様な資源配分の公平性を確保する上で重要である。
- 議席の価値が異なる状況下では,既存の配分方法では公平性が損なわれる可能性がある。
- 議席に重み付けを導入し,より公平な配分方法を確立することを目的とする。
- 議席に重み付けを導入した配分方法を複数定義し,公平性の要件を検討した。
- 標準的な配分設定よりも完全な公平性を達成することが困難であることが示された。
- 公平性の緩和された要件に対しては,主観的な価値を持つ対象物の公平配分よりも優れた結果が得られた。
GI-NAS:適応的ニューラルアーキテクチャ探索による勾配反転攻撃の強化 [cs.AI, cs.CV]目的:連合学習システムにおける勾配反転攻撃を通じた機密データの再構成
- 連合学習はプライバシー保護に優れる一方,攻撃による情報漏洩リスクが懸念される
- 既存の勾配反転攻撃は事前知識に依存し,現実的なデータ分布への適応が困難
- ニューラルアーキテクチャ探索により,事前知識に依存しない適応的な攻撃手法を確立する
- 提案手法GI-NASは,既存の手法と比較して優れた攻撃性能を発揮する。
- 高解像度画像や大規模バッチ,高度な防御戦略といった現実的な設定下でも有効性を示す。
- 本研究は,連合学習におけるプライバシー保護の脆弱性を明らかにし,安全対策の見直しを迫る。
SMC++: 教師なし動画セマンティック圧縮のためのマスク学習 [cs.CV, cs.MM]目的:動画セマンティック情報の圧縮
- 動画解析において,セマンティック情報の損失は重要な課題である。圧縮時にセマンティック情報を保持することは,高精度な解析に不可欠である。
- 既存の動画圧縮手法は,人間の視覚特性に焦点を当てており,セマンティック情報の保存が不十分である。
- セマンティック情報を効果的に圧縮し,動画解析タスクの性能向上を目指す。
- 提案手法SMCおよびSMC++は,従来の動画コーデック,学習ベースの手法,知覚品質重視の手法と比較して,3つの動画解析タスクと7つのデータセットで顕著な性能向上を示した。
- マスクされた動画モデリング(MVM)を活用し,セルフスーパーバイズド方式でセマンティック情報を圧縮することで,セマンティック情報の保存を重視したフレームワークを構築した。
- 非セマンティックな情報を抑制するために,圧縮動画のMVMトークン空間における非セマンティックエントロピーを明示的に正則化している。
非参照画像品質評価のための対照的局所多様体学習 [cs.CV]目的:非参照画像品質評価における識別能力の向上
- 画像認識技術の発展に伴い,高品質な画像評価の重要性が高まっている。
- 従来の画像品質評価手法は,局所的な多様体構造を無視する傾向がある。
- 局所多様体学習と対照学習を組み合わせ,より正確な品質評価を目指す。
- 提案手法LML-IQAは,局所的な特徴を捉え,画像品質の評価精度を向上させる。
- TID2013データセットにおいて,既存手法を上回るPLCC 0.942を達成した。
- CSIQデータセットにおいても,PLCC 0.977と高い性能を示した。
オープンボキャブラリ多ラベル動画分類 [cs.CV]目的:オープンボキャブラリ多ラベル動画分類に関する研究
- 動画理解は,監視,ロボティクス,コンテンツ検索など,多くの応用分野で重要である。
- 既存手法は,動画中の複数アクションとエンティティの同時認識が不十分である。
- オープンボキャブラリ環境下での複数アクション・エンティティ認識能力向上を目指す。
- 事前学習済み視覚言語モデル(VLM)を,大規模言語モデル(LLM)のセマンティックガイダンスと組み合わせることで,高い性能を実現した。
- LLMを用いてCLIPテキストエンコーダに対するソフト属性を生成し,未知のクラス認識を可能にした。
- 動画の時空間的ダイナミクスをモデル化するモジュールと,正則化されたファインチューニング手法を導入した。
慣性センサーとビジョンセンサーからのモーションキャプチャ [cs.CV]目的:モーションキャプチャのための大規模データセットおよびフレームワークの提案
- モーションキャプチャは,コンピュータビジョンやグラフィックス分野の基盤技術である。
- 高価なシステムが主流であり,手軽に利用できる個人向けソリューションが不足している。
- 安価なセンサーを用いた,日常生活でのモーションキャプチャの実現を目指す。
- 本研究では,慣性センサーと単眼カメラを用いたモーションキャプチャのための大規模データセット「MINIONS」を構築した。
- MINIONSは,500万フレーム以上を含む多様なモーションデータを収録しており,研究開発に役立つ。
- 提案するSparseNetフレームワークは,両センサーの相補的な特徴を活用し,低コストなモーションキャプチャの可能性を示唆する。
画像改ざん防止のための意味的ウォーターマーキング:SWIFT [eess.SY, cs.SY, math.OC, cs.CR, cs.AI, cs.CV, cs.MM]目的:画像認証と改ざん検出
- デジタル画像の普及に伴い,改ざん検出の重要性が増している。
- 従来の改ざん検出法は,巧妙な改ざんに対応できない場合がある。
- 意味情報を埋め込むことで,改ざんの検出精度とロバスト性を向上させる。
- 提案手法は,HiDDeNアーキテクチャを改良し,画像のキャプションを埋め込むことで,悪意のある編集と通常の編集の両方に対して高い耐性を示す。
- メッセージ復旧率と相関する局所信頼度指標を導入し,実用的な適用性を高めた。
- 従来のウォーターマーキングと受動的なフォレンジック手法を組み合わせることで,画像完全性検証のための堅牢なソリューションを提供する。
AIを活用した皮膚スペクトル画像法による重症患者の敗血症迅速診断と予後予測 [cs.LG, cs.AI, cs.CV, eess.IV]目的:敗血症の診断と死亡率予測
- 敗血症は依然として主要な死亡原因であり,早期発見が社会経済的に重要である。
- 敗血症リスクが高い患者の早期特定が困難である。
- 深層学習による迅速かつ非侵襲的な敗血症診断・予後予測を可能にすること。
- 深層学習を用いた皮膚スペクトル画像分析により,敗血症および死亡率をそれぞれ0.80,0.72のAUROCで予測できた。
- 臨床データと組み合わせることで,敗血症のAUROCは0.94,死亡率のAUROCは0.83に向上した。
- 本研究は,敗血症および死亡率の迅速かつ非侵襲的な予測を可能にし,診断と治療の改善に貢献する可能性がある。
潜在的疾患の偶発的画像診断による自動検出 [cs.DC, cs.CV, cs.AI, cs.LG]目的:腹部CT画像における潜在的疾患の検出と臨床記録の不一致
- 画像診断技術の進歩は,病気の早期発見と治療に不可欠である。
- 画像診断と臨床記録の乖離は,適切な治療の遅れにつながる可能性がある。
- 偶発的画像診断の活用による診断精度向上と,リスク調整モデルの改善。
- 腹部CT画像から得られる情報を活用し,サルコペニア,脂肪肝,腹水などの潜在的疾患を自動検出した。
- サルコペニア,脂肪肝,腹水のそれぞれについて,画像診断や放射線科レポートで診断されたものの,ICDコード化されている割合は極めて低い。
- 偶発的画像診断は,診断精度を高め,リスク調整モデルを改善し,精密医療の発展に貢献する可能性がある。
LiDAR-GS:ガウススプラッティングを用いたリアルタイムLiDAR再シミュレーション [cs.CV]目的:都市道路シーンにおけるLiDARスキャンのリアルタイムかつ高精度な再シミュレーション
- 自動運転やロボティクスにおいて,周囲環境の3次元理解は不可欠であり,LiDARは重要な役割を担う。
- LiDARデータの高精度なシミュレーションは計算コストが高く,リアルタイム性に課題があった。
- LiDARデータの特性を考慮したガウススプラッティング手法により,リアルタイムかつ高精度な再シミュレーションを実現する。
- LiDAR-GSは,範囲画像表現と微分可能なレーザービームスプラッティングにより,正確な表面スプラッティングを実現した。
- ニューラルガウス表現を導入することで,入射方向や外部要因に影響されるLiDARの特性を効果的に表現した。
- 既存のメッシュやNeRFを用いた手法と比較して,レンダリング速度と品質の両面で優れた性能を達成した。
モーションのトークン化:シーンダイナミクスの圧縮に関する生成的アプローチ [cs.CV, eess.IV]目的:シーンダイナミクス圧縮のための生成モデル
- 映像圧縮技術は,データ容量の制約下での効率的な伝送に不可欠である。
- 従来の映像圧縮は,内容依存性が高く,汎用性に課題がある。
- シーンに共通する微細な動きパターンを利用し,低ビットレートでの高画質化を実現する。
- 提案手法は,シーンダイナミクスシーケンスにおいて,最先端の従来型ビデオコーデックであるECMを上回るレート歪み性能を示す。
- 動きの事前知識を,密から疎への変換を通じてコンパクトな表現に変換する。
- 復号側では,これらの事前知識を用いて,高度なフロー駆動型拡散モデルによりシーンダイナミクスを再構築する。
OVSと継続学習:持続可能なオープン語彙セグメンテーションに向けて [cs.CV]目的:オープン語彙セグメンテーションにおける継続学習手法
- 画像認識技術の応用範囲拡大のため,未知クラスのセグメンテーションが重要である。
- 既存手法は固定された学習データに依存し,現実的なデータ継続収集シナリオに対応できない。
- データが逐次的に収集される状況下で,OVSモデルの認識能力を効果的に拡張すること。
- 提案手法ConOVSは,エキスパートデコーダの動的な組み合わせにより,継続学習の課題を克服する。
- ConOVSは,事前学習,逐次学習,ゼロショットテストデータセットにおいて,既存手法を安定的に上回る性能を示す。
- ConOVSは,データが逐次的に収集される状況下で,OVSモデルの認識能力を効果的に拡張できる。
拡散ノイズ除去器へのガウススプラッティングの焼き込みによる,高速かつスケーラブルな単段式画像から3D生成と再構成 [cs.CV, cs.GR]目的:単一視点からのオブジェクト生成とシーン再構成
- 3Dコンテンツ制作は,仮想現実や拡張現実などの応用において不可欠である。
- 既存手法は,3Dの一貫性を保証できず,プロンプトの視点変更に弱い。
- 任意の視点からのロバストな生成と,シーン全体の再構成を目指す。
- DiffusionGSは,最先端手法と比較して,オブジェクトとシーンのPSNR/FIDスコアをそれぞれ2.20dB/23.25,1.34dB/19.16改善した。
- DiffusionGSは,深度推定器を使用せずに,優れた性能を発揮する。
- 本手法は,A100 GPU上で約6秒という高速な処理速度を実現する。
LoRA-FAIR:集約と初期化改善による連合学習LoRAファインチューニング [cs.LG, cs.CV]目的:連合学習におけるLoRAファインチューニングの集約バイアスと初期化遅延の軽減
- 大規模基盤モデルの活用は重要だが,計算コストが課題である。
- 連合学習とLoRAを組み合わせる際,集約バイアスと初期化遅延が問題となる。
- LoRA-FAIRは,集約誤差を修正し,初期化を改善することで,この問題を解決する。
- 提案手法LoRA-FAIRは,集約効率と精度を向上させる修正項を導入する。
- ViTやMLP-Mixerモデルを用いた実験で,LoRA-FAIRが連合学習環境下で既存手法を上回る性能を示す。
- LoRA-FAIRは,計算・通信効率を維持しつつ,性能向上を実現する。
編集可能なDeepSC:顔編集のための信頼性の高いクロスモーダル意味通信 [cs.IT, cs.CV, cs.NI, math.IT]目的:顔編集のための新規クロスモーダル意味通信手法
- リアルタイムコンピュータビジョンは,様々な実世界アプリケーションにおいて重要な役割を担う。
- 従来のデータ重視型通信は,リアルタイムCVタスクの特殊なニーズに対応できない場合がある。
- 意味通信の課題,特に顔編集における未開拓の領域を解決することを目指す。
- Editable-DeepSCは,従来の通信手法と比較して,より優れた顔編集性能を発揮する。
- 大幅な帯域幅削減を実現し,高解像度,分布外データにおいても有効性が確認された。
- 編集と通信を統合するJoint Editing-Channel Coding(JECC)により,意味相互情報が維持される。
マルチモーダルアラインメントと融合:サーベイ [cs.CV]目的:マルチモーダルアラインメントと融合に関する研究動向の包括的な概観
- 近年のデータ多様化に伴い,テキスト,画像,音声,動画等の情報を統合する技術の重要性が増している。
- 既存研究では特定のモダリティに偏り,汎用的な融合戦略が不足している点が課題であった。
- データレベル,特徴レベル,出力レベルでの融合手法と,様々なパラダイムを体系的に整理し,課題解決に貢献する。
- 本サーベイでは,統計,カーネル,グラフ,生成,コントラスト,アテンション,LLM等の手法を網羅的に分析した。
- クロスモーダルミスアラインメント,計算ボトルネック,データ品質等の課題とその解決に向けた取り組みを指摘した。
- ソーシャルメディア分析,医療画像処理,感情認識,具現化されたAI等への応用事例を通じて,実世界へのインパクトを示した。
双曲空間における視覚的階層学習による画像検索 [cs.CV]目的:画像検索のための視覚的階層の学習
- 画像理解において,多段階の抽象化レベルでのパターン学習は重要である。
- 既存モデルは視覚的な類似性に偏りがちで,視覚的階層の学習は未開拓である。
- 明示的な階層ラベルなしに,複雑な視覚的階層を双曲空間に符号化することを目指す。
- 本研究では,部分に基づく画像階層を用いて,双曲空間における階層学習パラダイムを新たに提案した。
- 対照損失とペアワイズの含意指標を用いることで,階層構造を効果的に学習できることを示した。
- 階層的画像検索タスクにおいて,提案手法は有意な性能向上を達成し,視覚的階層の捕捉能力を実証した。
FairDD:公平なデータセット蒸留 [cs.CV, cs.AI, cs.CY, cs.LG]目的:データセットの公平性向上
- 画像認識において,モデルの公平性は重要な課題である。
- 既存のデータセット蒸留は,少数グループに対する不公平を悪化させる。
- 保護属性ごとのグループに同期してデータセットをマッチングすることで公平性を改善する。
- 提案手法FairDDは,既存のデータセット蒸留手法に容易に適用可能である。
- FairDDは,少数グループに対するバイアスを軽減しつつ,ターゲット属性の精度を維持する。
- 分布マッチングおよび勾配マッチングを含む多様な蒸留手法において,FairDDは公平性と精度の両面で優れた性能を示す。
マスク画像モデリング表現の真の可能性の探求 [cs.RO, cs.CV, cs.LG]目的:マスク画像モデリング表現の性能向上
- 視覚表現の自己教師あり学習は,ラベルなしデータから有用な特徴を抽出する上で重要である。
- マスク画像モデリングは有望だが,他の手法と比較して初期性能が劣ることが課題である。
- マスク画像モデリング表現の初期性能改善と,より効果的な利用法の確立を目指す。
- マスク画像モデリングにおける注意機構がパッチに均一に分散していることが,性能低下の原因であると分析された。
- 提案手法である選択的集約により,パッチトークンに保持された豊富な意味情報を効果的に捉えることが可能となった。
- 選択的集約は,マスク画像モデリング表現の初期性能を大幅に向上させることを示した。
音響輝度輸送のモード分解による非一様なエネルギー減衰のモデル化 [cs.SD, cs.SY, eess.AS, eess.SY]目的:音響輝度輸送のモード分解
- リアルタイムインタラクティブアプリケーションにおいて,音響環境の正確なモデリングは重要である。
- 複雑な形状や不均一な吸音率を持つ環境での残響のリアルタイム処理は困難である。
- 音源・聴取者の位置に依存する残響をリアルタイムで適応的に制御することを可能にする。
- 提案手法MoD-ARTは,複雑な音響環境においても効率的な残響モデリングを実現する。
- MoD-ARTは,エネルギー減衰モードと音源・聴取者位置の関係性を抽出する。
- シミュレーション結果から,MoD-ARTが複数の減衰勾配やフラッターエコーを捉えることが示された。
単一視点からのリアルタイム位置認識ビュー合成 [cs.CV, cs.GR, cs.MM]目的:単一視点入力からのリアルタイム位置認識ビュー合成手法
- 没入型体験の向上は,テレプレゼンスやエンターテイメントなど,様々な分野で重要である。
- 既存手法は高画質だが,リアルタイム処理性能が課題であり,低遅延が求められる用途には不向きである。
- 本研究は,複雑な動きに対してもリアルタイム処理を可能にする軽量な位置認識ネットワークを提案する。
- 提案手法は,位置情報を効率的に特徴マップに変換する位置認識埋め込みを用いることで,高次元特徴を生成する。
- 生成された特徴マップと入力画像を統合し,高レベルおよび低レベルの詳細を解決することで,リアルな新しい視点を生成する。
- 実験結果から,提案手法は既存手法と比較して,効率性と画質に優れ,特に複雑な並進運動において優れた性能を示す。
エッジネットワークにおける過剰予約を活用した動的リソース提供のための効果的な二段階ダブルオークション [cs.GT, cs.DC]目的:エッジネットワークにおける動的なリソース提供の効率化
- エッジコンピューティングは,モバイルデバイスの増加に伴い,低遅延かつ効率的な計算サービス提供の鍵となる。
- エッジサーバーの供給とモバイルデバイスからの需要は変動が激しく,リソース配分が困難である。
- 過剰予約の概念を取り入れ,社会的厚生を最大化し,迅速な意思決定を可能にする。
- 提案手法は,社会的厚生,時間効率,計算のスケーラビリティにおいて,従来の方式を上回る性能を示すことが実験により明らかになった。
- 二段階オークションは,真実性,個別合理性,予算均衡といった重要な設計特性をサポートする。
- 過剰予約型の事前ダブルオークションは,長期的な協力関係を促進し,リアルタイムのバックアップダブルオークションは,残余需要に迅速に対応する。
TREAD:効率的なアーキテクチャ非依存型拡散学習のためのトークンルーティング [cs.CV, cs.AI]目的:拡散モデルの学習効率と生成性能の向上
- 拡散モデルは画像生成において主流だが,計算コストが高く学習効率が課題である。
- 既存手法は,性能向上と計算コストの削減を両立できていない。
- トークンルーティングにより,性能を維持しつつ学習コストを削減することを目指す。
- TREADは,アーキテクチャ変更や追加パラメータなしに,TransformerやState Space Modelに適用可能である。
- ImageNet-256ベンチマークにおいて,計算コストを削減しつつ生成性能を向上させた。
- DiTと比較して,それぞれ14倍および37倍の収束速度向上を達成し,FIDスコアも改善した。
CULTURE3D:ガウス基盤シーンレンダリングのための大規模で多様な文化ランドマークと地形のデータセット [cs.CV]目的:文化ランドマークと地形の大規模で多様なデータセット
- 3D再構成技術は,都市計画や文化遺産保護など,様々な分野で重要性が高まっている。
- 大規模な屋外シーンの3D再構成には,十分な規模と詳細なデータセットが存在しないという課題があった。
- 本研究は,詳細な3D再構成を可能にする大規模かつ詳細なデータセットを提供し,新たな評価基準を確立することを目指す。
- 本データセットは,100億点を超える点群と4万件以上の高解像度航空写真を含む,既存のデータセットと比較して規模と詳細度が格段に大きい。
- ケンブリッジ大学,ピラミッド,紫禁城など,世界各地の20の文化的・歴史的に重要なシーンを網羅しており,多様性に富んでいる。
- データセットはCOLMAP形式で提供され,最先端のガウススプラッティング法の評価を促進するとともに,3D技術の進歩を支援する。
コンセプト・ステアラー:K-スパース・オートエンコーダーを用いたテスト時制御可能生成 [cs.CV]目的:テキスト-画像生成モデルにおけるコンセプト操作の効率化と解釈可能性の向上
- 画像生成モデルの急速な進歩に伴い,安全性と倫理的配慮が重要視されている
- 既存の手法は再学習が必要であり,計算コストが高く,生成品質を損なう可能性がある
- テスト時にモデルを再学習することなく,安全でないコンテンツの除去やスタイルの操作を実現する
- 本手法はK-スパース・オートエンコーダーを活用し,潜在空間における概念を操作することで,生成内容を制御する
- 再学習やLoRAアダプターを必要とせず,生成品質を維持しつつ,安全でない概念の除去率を20.01%向上させる
- 従来の最先端手法と比較して約5倍高速に処理が可能であり,効率的なコンセプト操作を実現する
GDO:段階的ドメイン浸透 [cs.CV]目的:段階的ドメイン適応における,ソースドメインからターゲットドメインへの知識移行のスムーズさの改善
- 機械学習モデルは,異なるデータ分布への適応能力が重要であり,ドメイン適応はそのための基盤技術である。
- 従来の段階的ドメイン適応は,中間ドメインの効率的な知識移行やデータ不足という課題に直面していた。
- 本研究は,ハイパーパラメータ$\lambda$を用いた最適化フレームワークにより,効率的な知識移行を実現し,ドメインバイアスを軽減することを目指す。
- 提案手法GDOは,ハイパーパラメータ$\lambda$を動的に調整することで,知識移行の強度を段階的に変化させる。
- 実験結果から,GDOはRotated MNIST,Color-shifted MNIST,Portraitデータセット,Forest Cover Typeデータセットにおいて,既存手法よりも優れた性能を示すことが確認された。
- アブレーション実験により,$\lambda$の動的調整戦略が性能に与える影響が分析され,段階的なドメイン浸透の利点が明らかになった。
テキスト画像カスタマイズのための多画像合成データ生成 [cs.CV, cs.GR, cs.LG]目的:テキスト画像カスタマイズのための合成データセットとエンコーダーモデルの学習
- テキストから画像を生成する技術は,多様なコンテンツ制作に応用可能であり,その重要性は増している。
- 既存手法は計算コストが高いか,画像品質が低い場合があり,実用上の課題となっている。
- 多画像による学習と推論時の調整により,カスタマイズの精度と品質向上を目指す。
- 提案手法では,既存のテキスト画像モデルと3Dデータセットを活用し,高品質な合成カスタマイズデータセット(SynCD)を構築した。
- SynCDを用いて学習したエンコーダーモデルは,参照画像からの詳細な視覚情報を共有注意メカニズムを通じて組み込む。
- また,テキストと画像の誘導ベクトルを正規化する推論技術により,生成画像の過曝露問題を軽減した。