arXiv雑要約

画像・音声 - 2025/12/16 公開

LitePT：軽量かつ強力な点変換器 [cs.CV]目的：3D点群処理のための軽量かつ高性能なバックボーンネットワークの提案
- 3D点群処理は，自動運転やロボティクスなど幅広い分野で重要性が増している。
- 既存のネットワークはパラメータ数が多く，計算コストが高いという課題がある。
- より少ないパラメータで効率的な3D点群処理を実現することを目指す。
- LitePTは，Point Transformer V3と比較してパラメータ数を3.6倍削減し，処理速度を2倍向上，メモリ使用量を2倍削減した。
- 初期層では畳み込み，深層ではアテンションを用いることで，効率的な特徴抽出を実現している。
- PointROPEという位置エンコーディングにより，空間情報の損失を防ぎ，性能を維持・向上させている。
Link: https://arxiv.org/abs/2512.13689
拡散ブラウザ：マルチブランチデコーダによるインタラクティブな拡散プレビュー [cs.CV, cs.AI, cs.GR, cs.LG]目的：拡散過程におけるインタラクティブなプレビュー生成
- 動画生成AIの発展は，映像制作やコンテンツ生成に革新をもたらす可能性を秘めている。
- 既存の動画拡散モデルは，生成速度が遅く，生成過程が不透明であるという課題がある。
- 拡散過程の途中段階でのプレビューを高速化し，生成過程の制御性を向上させる。
- 拡散ブラウザは，軽量なデコーダフレームワークにより，リアルタイム以上の速度でRGB画像とシーン情報をプレビュー生成できる。
- プレビューを通して，ノイズ注入やモーダルステアリングによる生成過程のインタラクティブな制御が可能となった。
- 学習されたデコーダを用いて，シーンやオブジェクトの組み立て過程など，拡散モデル内部の挙動を解析した。
Link: https://arxiv.org/abs/2512.13690
混合ディリクレ・ノイマン境界条件に対するニューラル事前条件子付きポアソンソルバー [math.NA, cs.GR, cs.LG, cs.NA]目的：混合境界条件を持つポアソン方程式の求解
- ポアソン方程式は，物理シミュレーションなど広範な分野で基礎となる計算である。
- ポアソン方程式の離散化は，大規模で条件数の悪い線形システムを生み出しやすい。
- 変化する形状や境界条件に対して，効率的な事前条件付け手法が求められている。
- 提案手法は，形状や境界条件の変化に強いニューラルネットワークに基づく事前条件子を用いる。
- この事前条件子は，従来の多重グリッド法よりも高速かつ汎用的に求解できることを示した。
- 非圧縮流体シミュレーションにおける困難なテストケースで，最先端手法を上回る性能を示した。
Link: https://arxiv.org/abs/2310.00177
連立形成のためのAI生成妥協案 [cs.MA, cs.AI, cs.GT]目的：連立形成における妥協案生成
- AI分野，特に議論，仲介，交渉において，妥協点の発見は不可欠である。
- エージェントの合理性の限界や不確実性を考慮した妥協案生成手法が課題であった。
- AIを用いて大規模な民主的なテキスト編集を可能にする妥協案生成を目指す。
- 自然言語処理と大規模言語モデルを用いてテキストのセマンティック空間を構築した。
- この空間に基づき，幅広い支持を得られる可能性のある妥協点を提案するアルゴリズムを設計した。
- シミュレーションにより，AIが大規模な民主的なテキスト編集を促進できることを示した。
Link: https://arxiv.org/abs/2506.06837
Balanced Group Softmaxと距離学習による長尾オブジェクト検出の性能向上 [cs.CV, cs.AI, cs.LG]目的：長尾分布データに対するオブジェクト検出性能の向上
- 実世界のデータはクラスの出現頻度に偏りがあることが多く，オブジェクト検出の精度低下を招く。
- 従来のオブジェクト検出手法は，頻出クラスに偏った学習となり，稀少クラスの検出性能が低い。
- 長尾分布データにおける稀少クラスの識別能力向上を目指す。
- 提案手法は，LVISv1データセットにおいて平均適合率(mAP)24.5%を達成し，既存の最高性能を上回った。
- 距離学習により，特徴空間におけるクラス間分離性とクラス内凝集性を向上させ，稀少クラスの分類性能を改善した。
- 推論時にk-最近傍法を用いることで，特に稀少クラスの分類精度が向上した。
Link: https://arxiv.org/abs/2511.16619
Vision Foundry：基礎的な視覚AIモデルの学習システム [q-bio.QM, cs.AI, cs.CV, cs.LG]目的：基礎的な視覚AIモデルの学習，適応，展開のためのプラットフォーム
- 医療画像解析において，AI技術の活用は診断精度向上や効率化に不可欠である。
- 臨床研究者は，高度な技術的障壁により，自己教師あり学習を十分に活用できていない。
- 臨床専門家が容易に最先端の臨床AIツールを開発できるよう支援すること。
- Vision Foundryを用いることで，セグメンテーションの精度と回帰の正確性が，汎用的なベースラインを大きく上回ることが示された。
- 異なる画像プロトコル間でのゼロショット汎化能力も高く，頑健性も確認された。
- 本プラットフォームは，アノテーションの負担を軽減し，臨床的発見に焦点を当てたAI開発を可能にする。
Link: https://arxiv.org/abs/2512.11837
広視野時間領域サーベイにおけるアラート分類のためのビジョンモデルの事前学習 [astro-ph.IM, cs.CV]目的：広視野時間領域サーベイのアラート分類におけるビジョンモデルの性能向上
- 時間領域天文学は，宇宙のダイナミックな現象を捉える上で不可欠であり，迅速なアラート処理が重要である。
- 従来，アラート分類にはカスタムCNNが用いられてきたが，最新のコンピュータビジョン技術の恩恵を受けていない。
- コンピュータビジョン分野の事前学習モデルを導入し，アラート分類の効率と精度を向上させる。
- 事前学習済みモデルは，カスタムCNNと同等以上の性能を示し，アラートフィルタリングにおいて優れていることが示された。
- Galaxy Zooの銀河画像での事前学習は，ImageNetやゼロからの学習よりも高い性能をもたらすことが明らかになった。
- 標準化されたアーキテクチャは，推論に必要な時間とメモリを大幅に削減し，効率的なアラート処理に貢献する。
Link: https://arxiv.org/abs/2512.11957
AI生成キャプションを用いた1億件以上の銀河画像に対する意味検索 [astro-ph.IM, cs.AI, cs.CV, cs.LG]目的：銀河画像の意味検索エンジンの開発
- 天文学研究において，大量の銀河画像データの効率的な探索は重要である。
- 手動ラベル付けには膨大な時間と労力がかかり，データ探索のボトルネックとなっている。
- ラベル付けされていない画像データから意味検索を可能にし，効率的な探索を実現する。
- AI生成キャプションと多種多様な天文モデルを組み合わせることで，画像類似度検索を上回る性能を達成した。
- 特に珍しい現象の検出において，ゼロショット性能で最先端の結果を得ている。
- VLMベースのリランキング手法により，上位100件の結果で再現率がほぼ2倍に向上した。
Link: https://arxiv.org/abs/2512.11982
マルチレート疎視CTのための解像度非依存ニューラル演算子 [math.CO, cs.DM, eess.IV, cs.CV]目的：マルチレート疎視CT画像再構成の汎化性能向上
- CT検査における被ばく線量を削減し，検査時間を短縮する技術として重要である。
- 従来の深層学習手法は，特定の撮像条件に過剰適合し，汎化性能が低いという課題があった。
- 様々な撮像条件や解像度において，再構成性能を維持し，実用化を促進すること。
- 提案手法CTOは，連続関数空間における演算子学習により，解像度やサンプリングレートに依存しない汎化性能を実現した。
- CTOは，CNNと比較して平均4dB以上のPSNR改善を示し，最先端の拡散法よりも500倍高速に推論が可能である。
- CTOは，様々なサンプリングレートと解像度において，既存手法を上回り，実用的なCT再構成を可能にする。
Link: https://arxiv.org/abs/2512.12236
V-Rex：動的KVキャッシュ検索によるリアルタイム動画LLM加速 [math.CO, cs.DM, eess.IV, cs.AI, cs.AR, cs.CV, cs.MM]目的：ストリーミング動画LLMの推論における高速化
- 動画LLMは，キャプション生成や対話など多様な応用が期待されるため，重要性が増している。
- 連続する動画入力に対してKVキャッシュが肥大化し，計算量やデータ転送量が増大する課題がある。
- エッジデバイスでのリアルタイム推論を可能にするため，KVキャッシュの効率的な検索手法を開発する。
- V-Rexは，アルゴリズムとハードウェアを共同設計し，ストリーミング動画LLMのボトルネックを克服する。
- ReSVアルゴリズムにより，動画フレーム間の類似性に基づき，KVキャッシュメモリを削減する。
- エッジデバイス上での推論において，最大19.7倍の高速化と3.1～18.5倍の省電力化を達成した。
Link: https://arxiv.org/abs/2512.12284
JPEGに着想を得たクラウド・エッジホログラフィー [physics.optics, cs.CV]目的：クラウドとエッジデバイス間の効率的なホログラフィーパイプラインの実現
- AR/VR分野では，近眼ディスプレイの高性能化が求められており，計算ホログラフィーがその有力な解決策となる。
- 従来のホログラフィーは計算負荷が高く，特にウェアラブルデバイスへの実装が困難である。
- JPEGの構造的効率性を活かし，低遅延かつ帯域幅効率の良いホログラムストリーミングを実現する。
- 本研究では，学習可能な変換コーデックを用いたクラウド・エッジホログラフィーパイプラインを提案した。
- これにより，クラウド側で重いニューラル処理を行い，エッジデバイスでは軽量なデコードのみを行うことで，低遅延化を実現した。
- 実験結果から，ピーク信号対雑音比32.15dB，符号化ビットレート2ビット/ピクセル以下，デコード遅延4.2msを達成した。
Link: https://arxiv.org/abs/2512.12367
ガウス過程モデル化データに対する効率的なレベルクロス確率計算 [stat.ML, cs.GR, cs.LG]目的：ガウス過程モデル化データにおけるレベルクロス確率の効率的な計算
- 科学データには不確実性が伴うことが一般的であり，その正確な評価は重要である。
- ガウス過程回帰は不確実性を扱うのに適しているが，計算コストが高いという課題がある。
- 高解像度データにおけるレベルクロス確率計算の効率化を目指す。
- 提案手法では，階層的なデータ構造を用いて計算領域を分割し，確率がゼロでない領域のみを再構成する。
- ガウス過程カーネルと観測データを利用して，領域内のレベルクロス確率の上限を効率的に計算する。
- 実験により，提案手法が低い計算コストで正確な確率推定を実現することが示された。
Link: https://arxiv.org/abs/2512.12442
3Dシーン再構成と新規視点合成のための量子暗黙ニューラル表現 [quant-ph, cs.AI, cs.CV]目的：3Dシーンの再構成と新規視点合成における量子暗黙ニューラル表現の有効性
- 3Dシーンの再構成は，コンピュータビジョンやロボティクスなど幅広い分野で不可欠な技術である。
- 従来の暗黙ニューラル表現は，高周波の詳細を捉える能力に限界があり，表現力に課題がある。
- 量子回路を活用することで，古典的なモデルのスペクトルバイアスを軽減し，より高精度な3次元再構成を目指す。
- 提案手法Q-NeRFは，古典的なNerfactoフレームワークに量子暗黙表現ネットワーク(QIREN)を統合したハイブリッドモデルである。
- 実験の結果，限られた計算資源下で古典的なモデルと同等の再構成品質を達成し，特に微細な視点依存的な外観表現において有効性が示された。
- 本研究は，量子エンコーディングが暗黙表現におけるスペクトルバイアスを軽減する可能性を示唆し，スケーラブルな量子3Dシーン再構成の基礎となる。
Link: https://arxiv.org/abs/2512.12683
圧縮を活用した転送可能ビットレートラダーの構築 [eess.IV, cs.CV]目的：転送可能ビットレートラダーの構築
- 動画配信において，視聴品質とデータ効率の最適化は重要課題である。
- 従来の固定ビットレートラダーでは，動画の内容に応じた柔軟な対応が難しかった。
- 圧縮過程の分析と知覚的測定により，より正確なビットレートラダーを構築する。
- 提案手法は，VMAFスコアを高精度に予測することで，動画品質を向上させる。
- 機械学習モデルの学習コスト削減のため，異なるエンコード設定下でのビットレートラダーの性能を評価した。
- 固定ビットレートラダーや最適化された凸包と比較し，提案手法が優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2512.12952
周産期画像における腎異常予測のための自己教師あり超音波表現学習 [eess.IV, cs.CV]目的：周産期超音波画像を用いた胎児の腎異常分類の自動化
- 周産期超音波検査は先天性腎尿路異常の発見に不可欠だが，診断は熟練度や画像条件に左右される。
- 超音波画像診断は，検査者の技術や画像品質によって診断精度が変動しやすいという課題がある。
- 自己教師あり学習を用いて，超音波画像の診断精度を向上させ，より正確な腎異常予測を実現する。
- 自己教師あり超音波基盤モデル(USF-MAE)は，二値分類・多クラス分類において，ベースラインモデル(DenseNet-169)を上回る性能を示した。
- 検証セットにおいて，AUCは約1.87%，F1スコアは約7.8%の改善が見られ，独立テストセットでは，それぞれ2.32%と4.33%の改善が確認された。
- 特に多クラス分類において，AUCが16.28%，F1スコアが46.15%と大幅な改善が見られ，腎盂や嚢胞領域など，臨床的に重要な腎構造に基づいた予測が行われていることが示唆された。
Link: https://arxiv.org/abs/2512.13434
常にあなたを捕まえる：シグネチャの有無にかかわらず，敵対的パッチオブジェクトの検出 [cs.CV, cs.CR]目的：敵対的パッチオブジェクトの検出
- 物体検出技術はセキュリティシステムに不可欠であり，その堅牢性が重要である。
- 物体検出は敵対的パッチ攻撃に脆弱であり，監視カメラからの逃避を可能にする。
- 敵対的パッチ攻撃を検出し，セキュリティ上の脅威を軽減することを目指す。
- 本研究では，シグネチャに基づく手法とシグネチャに依存しない手法という2つの検出方法を提案した。
- シグネチャに基づく手法はリアルタイム検出が可能であり，シグネチャに依存しない手法は未知の攻撃にも対応可能である。
- デジタル世界と物理世界の両方において，提案手法は攻撃を効果的に検出することが示された。
Link: https://arxiv.org/abs/2106.05261
CSAW-M：乳がんマスキングのベンチマーキングのための順序分類データセット [cs.CV, cs.LG]目的：乳がんマスキングのベンチマーキング用データセット
- 乳がん検診では，間隔性癌や大型浸潤癌の早期発見が重要である。
- 検診マンモグラフィでは，腫瘍が周囲組織に隠れて見逃されるマスキングが課題である。
- 本研究は，マスキングの潜在的な可能性を直接評価するデータセットを提供する。
- CSAW-Mは，1万人以上のデータを含む最大の公開データセットである。
- マスキングの推定レベルは，乳房密度よりも間隔性癌や大型浸潤癌の診断予測に優れていた。
- 専門家によるマスキングの潜在的評価を直接的にアノテーションとして提供している。
Link: https://arxiv.org/abs/2112.01330
広範囲な写真露出補正：注意機構を用いた多次元回帰 [cs.CV]目的：写真の露出補正手法
- 写真の画質向上は，多様な応用分野において重要であり，視覚的な情報伝達の精度を左右する。
- 過度な露出不足や過剰な露出を同時に補正する手法は少なく，統一的な解決策が求められている。
- 局所的な適応的な露出調整と，適切な露出値の決定，そして一貫性のある調整結果の生成を目指す。
- 提案手法ExRegは，多次元回帰を用いて写真の露出を補正し，良好な結果を生成する。
- 広範な露出問題において，既存の最先端手法と比較してPSNRの性能が向上する。
- RTX 3090上で1枚あたり0.05秒という高速な処理速度を実現し，実用性も高い。
Link: https://arxiv.org/abs/2212.14801
WCCNet：効率的なマルチスペクトル歩行者検出のためのウェーブレット・コンテキスト協調ネットワーク [cs.IR, cs.CV]目的：効率的なマルチスペクトル歩行者検出手法の開発
- 自動運転等の実現には，歩行者の高精度かつ高速な検出が不可欠である。
- 既存手法では，RGBと赤外線画像を同等に扱うため，計算コストが高い。
- RGBと赤外線の特徴を効率的に抽出し，融合することで検出精度と効率を向上させる。
- 提案手法WCCNetは，RGBと赤外線に対して異なる特徴抽出を行う非対称なバックボーン構造を採用している。
- WCCNetは，赤外線画像の周波数パターンを捉えるMoWEと，効率的なDWT層を活用し，計算コストを大幅に削減している。
- KAISTおよびFLIRベンチマークにおける評価で，WCCNetは最先端手法と比較して，計算効率と精度において優れた性能を示した。
Link: https://arxiv.org/abs/2308.01042
拡散生成モデリングによるプラグアンドプレイ3D人体姿勢分析：PADS [cs.CV, cs.AI]目的：3D人体姿勢分析のための拡散生成モデリングフレームワーク
- 3D人体姿勢分析は，ロボティクス，VR/AR，モーションキャプチャ等，幅広い応用分野で重要である。
- 既存手法は，タスクごとに教師データが必要であり，汎用性に欠けるという課題があった。
- 本研究は，タスク固有の教師データや再学習なしに，様々な姿勢分析タスクに対応できる汎用的な手法を提案する。
- 提案手法PADSは，まずタスクに依存しない3D姿勢の事前分布を拡散生成モデリングにより学習する。
- 次に，事後サンプリングスキームを用いて，様々な姿勢分析タスクへの訓練不要の適応を実現する。
- 実験結果から，PADSは既存手法と比較して優れた性能と汎化能力を示すことが確認された。
Link: https://arxiv.org/abs/2401.08930
焦点網膜トポロジーが畳み込みニューラルネットワークにおける分類と局在化を改善する [cs.CV, q-bio.NC]目的：畳み込みニューラルネットワークにおける画像分類と局在化の改善
- 視覚システムは，高分解能の中央視野と低分解能の周辺視野を持つ焦点網膜組織を持つ。これは，効率的な視覚処理に不可欠である。
- 機械学習においては，この生物学的視覚システムの構造が十分に活用されていない。従来のCNNは，スケールや回転に対する頑健性に課題がある。
- 焦点網膜トポロジーをCNNに組み込むことで，スケールや回転に対する頑健性を向上させ，効率的な物体局在化を実現することを目指す。
- ログ極座標変換を既存のモデルに適用し再学習した結果，同等の精度を維持しつつ，スケールと回転に対する頑健性が向上した。
- このアーキテクチャは，注視点（フィクセーションポイント）のシフトに高感度であり，その感度は物体検出のための顕著性マップ（サリエンスマップ）の作成に利用できる。
- 焦点網膜トポロジーは，視覚探索における事前幾何学的知識を符号化し，分類と局在化の両方を強化する。生物学的視覚と人工ネットワークの繋がりを示唆する。
Link: https://arxiv.org/abs/2402.15480
バランスの取れたクロスドメイン特徴統合のための効率的かつ調和のとれたフレームワーク [eess.SY, cs.SY, math.OC, cs.CV]目的：クロスドメイン特徴のバランスの取れた統合
- 画像生成技術は発展したが，コンテンツとスタイルのクロスイメージ統合は未解決の課題である。
- 既存モデルはテキストプロンプトに依存し，コンテンツの意味とスタイルの維持のバランスが難しい。
- コンテンツ維持とスタイルの一貫性のバランスを改善するフレームワークを開発すること。
- 提案手法は，カスタマイズされたモデルを用いてスタイル表現を学習し，クロスモデル特徴と注意機構の変調によりコンテンツ維持を強化する。
- 固定特徴と適応的注意融合を導入することで，コンテンツとスタイルの望ましいバランスを実現した。
- 空間的・時間的マルチモデル組み合わせにより，モデルとスタイルの柔軟な融合を可能にし，最先端の手法を上回る性能を示した。
Link: https://arxiv.org/abs/2403.18461
CCTV映像における逆走自転車の高速検出：疎なサンプリングだけで十分 [cs.CC, cs.FL, cs.CV, cs.AI]目的：逆走自転車の割合の効率的な推定
- 交通状況の最適化や法執行の展開において，異常な交通行動の監視は重要である。
- 全ての逆走自転車を正確に記録するには，高解像度カメラとイベント検出が必要であり，リソース制約となる。
- 疎なフレームで逆走自転車を検出し，自己回帰移動平均モデルで全体的な割合を推定すること。
- 提案手法WWC-Predictorは，従来の追跡手法と比較して19.12%のGPU時間を消費するだけで，平均誤差率1.475%を達成した。
- 分単位のアノテーションが付与された35分間の動画データセットを用いて，手法の有効性を評価した。
- 疎なフレームでの逆走自転車検出と，それを用いた割合推定により，効率的な推定を実現した。
Link: https://arxiv.org/abs/2405.07293
RapVerse: テキストからの首尾一貫した歌声と全身動作の生成 [cs.CV, cs.SD, eess.AS]目的：テキスト歌詞から3D全身動作と歌声を同時に生成すること
- 音楽パフォーマンス表現の自動生成は，エンターテインメント分野における創造性の支援に不可欠である。
- 既存研究では，歌声と全身動作を個別に扱うことが多く，両者の整合性を担保することが課題であった。
- テキストから一貫性のある歌声と全身動作を同時に生成するフレームワークを開発し，その性能を向上させる。
- 大規模データセットRapVerseを構築し，言語，音声，動作のモダリティを統合したスケーラブルなトランスフォーマーモデルを提案した。
- 提案手法は，歌声と全身動作の生成において，単一モダリティの生成システムと同等以上の性能を達成した。
- 本研究は，歌声と全身動作の同時生成における新たなベンチマークを確立し，リアルな音楽パフォーマンス表現の可能性を広げた。
Link: https://arxiv.org/abs/2405.20336
QUOTA：テキスト-画像モデルによる対象物数推定の定量化 - 任意のドメインにおいて [cs.CV, cs.LG]目的：テキスト-画像モデルによる対象物数推定の定量化
- 画像認識技術は，自動運転やロボット工学など，様々な分野で不可欠な技術である。
- 既存手法では，ドメインごとにモデルを再学習する必要があり，計算コストが高い。
- ドメインに依存しない汎用的な手法により，効率的な対象物数推定を実現する。
- QUOTAは，再学習なしで未知のドメインにおける対象物数推定を可能にする最適化フレームワークである。
- 二重ループメタ学習戦略とプロンプト学習を組み合わせることで，ドメイン不変なプロンプトを最適化する。
- 新しいベンチマークを用いて評価した結果，QUOTAは既存モデルを精度と整合性で上回った。
Link: https://arxiv.org/abs/2411.19534
ノイズ環境下における生物音響分類の改善に向けた生成AIに基づくデータ拡張 [cs.SD, eess.AS, stat.AP]目的：生物音響分類におけるデータ拡張手法の開発
- 生物多様性の保全において，種の自動識別技術の重要性が高まっている。
- 希少種のデータ不足が，AIモデルの性能向上を阻害する課題となっている。
- 生成AIを活用し，データ拡張による分類精度の改善を目指す。
- 生成AIモデル（ACGAN，DDPM）によるスペクトログラム合成を検討した結果，DDPMがより現実的で，分類精度も高かった。
- 風力発電所における鳥類の鳴き声データセットを新たに構築し，実データと合成データを組み合わせたアンサンブル学習を行った結果，BirdNETの予測と同等の性能が得られた。
- 合成データを用いることで，各分類器の性能が向上し，その改善度は合成データの量に比例した。
Link: https://arxiv.org/abs/2412.01530
TimeWalker: 生涯にわたるヘッドアバターのためのパーソナライズされたニューラル空間 [cs.CV]目的：生涯にわたる人物のリアルな3Dヘッドアバターのモデル化
- アバター技術は，仮想現実やコミュニケーションにおいて重要な役割を担うため，その精度向上が求められる。
- 既存のアバター作成法は瞬間的な情報に依存するため，ライフステージの変化を反映した長期的なアバターの作成が困難である。
- 本研究は，年齢変化を含む様々なライフステージにおける人物のアバターを再構成・アニメーション化する手法を提案する。
- TimeWalkerは，形状，表情，外観を年齢ごとに分離したパーソナライズされたニューラルパラメータモデルを用いる。
- Dynamic Neural Basis-Blending Module (Dynamo) により，コンパクトな表現で網羅的なヘッドバリエーションを学習する。
- Dynamic 2D Gaussian Splatting (DNA-2DGS) により，リアルなレンダリングと再構成を維持しつつ，表情のようなヘッドモーション変形をモデル化する。
Link: https://arxiv.org/abs/2412.02421
CleanDIFT：ノイズなし拡散特徴 [cs.CV]目的：拡散モデルから抽出されるセマンティック特徴の性能向上
- 大規模拡散モデルは，多様な画像処理タスクにおいて強力な特徴量抽出源として注目されている。
- 既存手法では，セマンティック特徴抽出のために画像にノイズを加える必要があり，その影響が不明確であった。
- 拡散モデルを軽量にファインチューニングすることで，ノイズなしで高品質なセマンティック特徴を提供することを目指す。
- 提案手法CleanDIFTは，既存の拡散特徴と比較して，様々な設定と下流タスクで大幅な性能向上を達成した。
- アンサンブル法よりも優れた性能を，大幅に低い計算コストで実現することが示された。
- ノイズがセマンティック特徴の有用性に大きく影響することが明らかとなり，その問題を解決した。
Link: https://arxiv.org/abs/2412.03439
衛星画像復元における深層事前知識と正確な不確実性 [cs.CV, eess.IV, physics.optics]目的：衛星画像の歪み補正と，それに関連する不確実性の定量化
- 衛星画像は地上の観測において歪みが生じやすく，正確な分析のためには復元が不可欠である。
- 従来の復元手法では，センサーごとにネットワークを訓練する必要があり，不確実性の評価が困難であった。
- 深層事前知識を活用し，複数のセンサーに対応可能な復元手法を開発し，不確実性の定量化を目指す。
- 提案手法VBLE-xzは，変分圧縮オートエンコーダの潜在空間で逆問題を解決し，高速な不確実性評価を実現した。
- 訓練を必要としないアプローチにより，オートエンコーダのビットレートを調整することで正則化強度を適応的に変化させた。
- Pléiades衛星画像の実験により，VBLE-xzは不確実性評価が必要な場合に，直接反転法に匹敵する性能を示すことが示された。
Link: https://arxiv.org/abs/2412.04130
KNN-MMD：局所分布アラインメントによるクロスドメインワイヤレスセンシング [cs.CV, cs.AI, eess.SP]目的：クロスドメインワイヤレスセンシングのための新しい手法
- ワイヤレスセンシングは，様々な環境での応用が広がっており，人々の活動認識に貢献している。
- 環境変化に敏感なCSIのため，環境が変わると性能が低下しやすいという課題がある。
- カテゴリ間の関係性を考慮した局所的な分布アラインメントにより，クロスドメイン性能を向上させる。
- 提案手法KNN-MMDは，ターゲットドメインのKNNを用いてヘルプセットを構築し，カテゴリごとの局所アラインメントを実現する。
- 既存手法で問題となる性能の不安定性を抑制し，最適な学習停止基準を設けることで安定した性能を実現した。
- ターゲットドメインのサポートセットを検証セットとして利用することで，ラベルなしデータでも学習停止を判断可能とした。
Link: https://arxiv.org/abs/2412.04783
ジオメトリ・テクスチャ認識による高密度化：高品質なフォトリアリスティック3Dガウススプラッティング [cs.CV]目的：高品質な3Dガウススプラッティング再構成のための高密度化戦略
- 3DナビゲーションやVRなど様々な分野で3DGSの利用が拡大しており，その重要性が増している。
- 3DGSの高品質な再構成には十分なスプラット数と適切な分布が不可欠だが，実現が困難である。
- シーンの幾何学的構造とテクスチャの豊富さに適合した高品質なガウススプラットの生成を目指す。
- 提案手法GeoTexDensifierは，テクスチャ情報に基づいた補助的な密度化により，テクスチャ豊富な領域でスプラットを高密度化する。
- 幾何学的情報を考慮した分割戦略により，初期位置が実際の幾何学的表面から遠いノイズのスプラットを除去し，レンダリング品質を向上させる。
- 様々なデータセットでの実験により，提案手法が他の最先端手法と比較して，よりフォトリアリスティックな3DGSモデルを生成することが示された。
Link: https://arxiv.org/abs/2412.16809
都市デジタルツインにおける現実・仮想連繋による高度な道路点検とシミュレーションの確立 [cs.CV]目的：都市デジタルツインを用いた道路点検とシミュレーションの高度化
- 道路は社会基盤であり，その維持管理は交通安全と経済活動に不可欠である。
- 従来の道路点検は人手と時間を要し，コストも高いという課題がある。
- 現実世界の欠損データを補完し，シミュレーション環境の精度向上を目指す。
- 提案システムは，車両搭載センサーで収集した実走行データから高精度な道路モデルを構築する。
- 構築した道路モデルを用いてデジタルツインを生成し，シミュレーション環境を構築することで，アルゴリズムの性能評価を可能にする。
- 実験により，本システムが生成した高精度な道路欠損シーンが，知覚と意思決定タスクの性能向上に貢献することが示された。
Link: https://arxiv.org/abs/2412.17699
DPBridge：密な予測のための潜在拡散ブリッジ [cs.CV]目的：密な予測タスクにおける潜在拡散ブリッジのフレームワーク
- 拡散モデルは複雑なデータ分布を捉え，生成タスクで成果を上げている。
- 従来のノイズからのデータ生成は非効率で，画像からの情報を活用できていない。
- 事前学習済みモデルの視覚的知識と拡散ブリッジを統合し，性能向上を目指す。
- DPBridgeは，密な予測タスクにおいて，最先端の性能を達成している。
- 提案手法は，様々なシナリオで高い汎化能力を示している。
- 拡散ブリッジモデルと事前学習済みモデルの適合性を高める工夫が有効である。
Link: https://arxiv.org/abs/2412.20506
意味的アンカーとクラス分散最適化クラスタリングを用いたロバストな半教師あり少数ショット学習 [cs.CV]目的：半教師あり少数ショット学習におけるモデル性能の向上
- ラベル付きデータが限られた状況下での学習課題解決が求められている。
- ラベルなしデータの活用方法が，少数ショット学習の性能に大きく影響する。
- クラスタリングの精度向上により，ラベルなしデータからの擬似ラベル生成を改善する。
- 提案手法は，クラス分散を最適化するクラスタリングと，クラスタ分離調整器を組み合わせる。
- 擬似ラベル生成の最適化と意味情報注入により，半教師あり少数ショット学習の性能が向上する。
- ベンチマークデータセットにおいて，最先端手法を大幅に上回る性能を実験的に示した。
Link: https://arxiv.org/abs/2501.14401
限られた視野範囲を持つ複数カメラシステムの自動較正：3D手術シーン再構築への応用 [cs.CV]目的：3D手術シーン再構築のための複数カメラシステムの自動較正方法
- 手術の質の向上や訓練の効率化のため，3D手術シーンの正確な再構築が不可欠である。
- カメラの設置場所や光学ズームレベルの違いから，視野範囲の重複が限られるという課題がある。
- 視野範囲が限られた状況下でも，高精度で自動的にカメラ較正を行うことを目指す。
- 天井投影型プロジェクターを用いて，マルチスケールマーカーを投影することで，異なる視点やズームレベルに対応した正確な点群を抽出する。
- 合成データおよび模擬手術室で撮影した実データを用いて検証を行い，従来のマーカーベースやマーカーレス較正法と同等の精度を達成した。
- 特に，光学ズームレベルに大きな差がある状況下で，手動較正と同等以上のロバスト性を示すことが確認された。
Link: https://arxiv.org/abs/2501.16221
米の分類と品質評価のための全体リアルタイム機構 [cs.RO, cs.CV, cs.AI]目的：米の品種と特徴に基づく分類と品質評価
- 米は世界中で広く栽培されており，食糧安全保障において重要な役割を担っている。
- 従来，品質評価は熟練した目視検査に頼っており，時間と労力がかかる上に，主観的な誤差が生じやすい。
- 機械視覚技術を活用し，米の品質評価を自動化することで，精度と効率を向上させる。
- 提案手法は，オブジェクト検出において99.14%のmAPを達成し，高い検出精度を示した。
- 分類タスクにおいては，97.89%の精度を達成し，品種識別能力の高さを示した。
- 同じ品種内での整粒度評価では，平均97.56%の精度を達成し，効果的な品質評価システムに貢献する。
Link: https://arxiv.org/abs/2502.13764
コメ粒子の分類のための改良型全結合ニューラルネットワーク [cs.CV]目的：コメ粒子の分類精度向上
- 食糧安全保障において，コメの品種判別は重要な課題である。
- 外観が類似する品種間の識別が難しく，誤分類が発生しやすい。
- 全結合ニューラルネットワークの改良による分類能力の向上を目指す。
- 二段階学習への変更により，類似品種間の識別能力が大幅に向上した。
- 前処理方法をランダム傾斜から水平・垂直位置補正に変更することで，精度が向上した。
- これらの改良により，モデルの精度は97%から99%へと顕著に向上した。
Link: https://arxiv.org/abs/2503.03111
テクスチャのない物体に対するマルチビューRGBフレームを用いた6D姿勢推定 [cs.CV, cs.RO]目的：テクスチャのない物体の6D姿勢推定
- ロボティクスにおいて，物体の姿勢を正確に把握することは，自律的な操作や環境理解に不可欠である。
- 単一視点からの姿勢推定は，外観の曖昧さや形状の対称性，遮蔽などにより，多くの物体に対して困難である。
- マルチビューによる姿勢推定と，最適な視点予測により，これらの課題を克服し，高精度な姿勢推定を目指す。
- 提案手法は，6D姿勢推定を翻訳推定と回転推定の二段階に分割することで，精度と効率を向上させている。
- 公開データセットROBI，TOD，および新たに構築したT-ROBIにおいて，既存手法を上回る性能を達成した。
- 次善の視点予測戦略により，少ない視点数で高精度な姿勢推定を実現している。
Link: https://arxiv.org/abs/2503.03726
CineBrain：自然な視聴覚ナラティブ処理中の大規模マルチモーダル脳データセット [cs.CE, cs.CV]目的：視聴覚刺激中のマルチモーダル脳信号からの連続ビデオ刺激の再構成
- 脳活動と画像の対応研究は，生成モデルの事前分布として利用され，AI分野の発展に貢献する。
- 従来の画像デコーディング研究は視覚情報に偏っており，脳の聴覚と視覚の統合能力を無視していた。
- 脳のマルチモーダルな情報処理能力を解明し，視覚知覚における聴覚情報の役割を明らかにする。
- CineBrainデータセットは，fMRIとEEGを同期させ，視聴覚刺激中の脳活動を大規模に記録した初めての試みである。
- CineSyncフレームワークは，fMRIとEEGを組み合わせることで，動的なビデオ再構成において最先端の性能を達成した。
- 聴覚皮質の活動がデコーディングの精度を高めることが示され，聴覚入力が視覚知覚に重要な役割を果たすことが明らかになった。
Link: https://arxiv.org/abs/2503.06940
正確な3D多房心臓メッシュ再構築のための関係解剖学的教師あり学習 [cs.CV, cs.AI]目的：多房心臓解剖学の正確な再構築
- 患者個別モデリング，生理学的シミュレーション，介入計画において，正確な心臓解剖学の再構築は不可欠である。
- 既存手法は表面ごとの幾何学的教師あり学習に依存し，各房を独立にモデル化するため，解剖学的に妥当でない房間の侵入が発生しやすい。
- 本研究は，房間の空間的関係を明示的に考慮した関係解剖学的教師あり学習により，この問題を解決することを目指す。
- 提案手法では，Mesh Interrelation Enhancement (MIE) lossを導入し，占有率ベースの目的関数を用いて房間の関係を定量的に教師あり学習に組み込んだ。
- 複数のCTおよびMRデータセットを用いた実験により，提案手法は臨床的に重要な境界侵入を最大83%まで抑制できることが示された。
- 距離ベースの評価指標だけでは十分な解剖学的正確性を保証できず，房間の関係を明示的に考慮することが重要であることが明らかになった。
Link: https://arxiv.org/abs/2503.07874
SpurLens：マルチモーダルLLMにおける誤った手がかりの自動検出 [cs.CV, cs.CL, cs.LG]目的：マルチモーダルLLMにおける誤った視覚的手がかりの特定
- LLMの信頼性向上は重要である。誤った手がかりへの依存は，LLMの性能を著しく低下させるため。
- 従来の視覚モデルは誤った相関に依存しやすい。LLMが言語による監督下でも同様のバイアスを示すかは不明であった。
- LLMにおける誤った手がかりを自動的に検出し，その影響を定量化することで，より堅牢なモデル開発を目指す。
- SpurLensはGPT-4とオブジェクト検出器を活用し，人間の監督なしに誤った視覚的手がかりを特定するパイプラインである。
- 誤った相関により，LLMはオブジェクト認識において誤った手がかりに過度に依存し，幻覚を増幅することが明らかになった。
- プロンプトアンサンブルや推論に基づくプロンプティングなどの緩和策を検討し，誤ったバイアスの根本原因を調査した。
Link: https://arxiv.org/abs/2503.08884
フーリエSR：効率的な画像超解像のためのフーリエトークンベースプラグイン [cs.CV]目的：画像超解像の効率向上
- 画像認識や処理において，高解像度画像の重要性は増しており，超解像技術の需要は高い。
- 従来の畳み込み演算やTransformerは受容野が限定的で，計算コストを抑えつつ超解像性能を向上させるのが難しい。
- フーリエ変換を活用し，低コストでグローバルな受容野を持つプラグインを開発し，既存手法の性能向上を目指す。
- 提案手法FourierSRは，既存の効率的な超解像モデルにプラグインとして組み込むことで，Manga109データセットで平均PSNRが0.34dB向上した。
- パラメータ数とFLOPsの増加はそれぞれ0.6%と1.5%とわずかで，計算効率も高い。
- フーリエ変換と乗算のみを使用することで，既存のトークン混合技術の不安定性や非効率性を回避している。
Link: https://arxiv.org/abs/2503.10043
造影CTによる膵管腺癌の早期発見を支援するAI：PanDx [cs.CV]目的：膵管腺癌の早期発見
- 膵臓癌は罹患率が高く，早期発見が予後改善に不可欠である。
- 初期の画像所見が軽微で，診断が遅れやすいという課題がある。
- AIを用いて，微細な初期病変の検出精度を向上させる。
- PanDxは，造影CT画像から膵管腺癌を識別するAIフレームワークである。
- 分布を考慮した層化アンサンブルとピークスケーリングによる病変候補抽出が特徴である。
- PANORAMAチャレンジにおいて，AUROC 0.9263，AP 0.7243で1位を獲得した。
Link: https://arxiv.org/abs/2503.10068
FastVID：高速ビデオ大規模言語モデルのための動的密度プルーニング [cs.CV]目的：ビデオ大規模言語モデルの推論コスト削減
- ビデオ理解能力の向上は重要だが，計算コストが実用化の課題となっている。
- 既存のプルーニング技術は，ビデオデータの時空間的な冗長性を十分に活用できていない。
- ビデオデータの冗長性を考慮した動的密度プルーニングによる高速化を目指す。
- FastVIDは，ビデオを時間的に分割し，密度ベースのトークンプルーニングを行うことで，計算コストを大幅に削減する。
- LLaVA-OneVision-7Bにおいて，90.3%のビデオトークンをプルーニングし，FLOPsを8.3%に，LLMのプリフィル段階を7.1倍に高速化する。
- 元の精度を98.0%に維持しながら，高い性能を複数のビデオ大規模言語モデルで達成した。
Link: https://arxiv.org/abs/2503.11187
MusicInfuser：ビデオ拡散モデルに音楽を聴かせ，踊らせる [cs.CV, cs.AI, cs.LG]目的：楽曲と同期した高品質なダンスビデオ生成
- 映像生成技術はエンターテイメントや教育など幅広い分野で活用が期待されている。
- 音楽と映像を同期させるには大量のデータと計算資源が必要となる場合が多い。
- 既存のビデオ拡散モデルを効率的に適応させ，音楽と映像の同期を実現する。
- MusicInfuserは，事前学習済みのテキストからビデオへの拡散モデルを活用し，音楽と同期したダンスビデオを生成できる。
- 層ごとの適応性基準を用いることで，学習コストを削減しつつ，豊富な事前知識を維持している。
- 未知の楽曲や長いシーケンス，特殊な被写体に対しても良好に汎化し，一貫性と同期性に優れている。
Link: https://arxiv.org/abs/2503.14505
先読みチューニング：部分的な回答プレビューによるより安全な言語モデル [cs.CL, cs.AI, cs.CV, cs.LG, cs.MM]目的：言語モデルの安全性維持
- 大規模言語モデルの応用範囲拡大に伴い，安全性確保が重要課題となっている。
- ファインチューニングは性能向上に有効だが，モデルの安全性低下を招く可能性がある。
- ファインチューニング時の安全性低下を抑制し，安全なモデル適応を目指す。
- 先読みチューニングは，トレーニングデータに部分的な回答プレビューを加えることで，モデルの初期トークン分布の変化を抑制する。
- 安全性維持と同時に，下流タスクにおける性能を損なわないことが確認された。
- 大規模言語モデルの安全かつ効果的な適応を実現する信頼性と効率性に優れた手法である。
Link: https://arxiv.org/abs/2503.19041
3D点群における分布一致によるデータセット蒸留 [cs.CV]目的：3D点群データセットの蒸留
- 深層学習モデルの性能向上には大規模データが不可欠。計算コストの増加が実用化の課題となっている。
- 画像やテキストでのデータセット蒸留研究はあるものの，点群データへの応用は特性の違いから困難であった。
- 点群データの幾何学的構造と姿勢を最適化することで，効率的なデータセット蒸留を実現する。
- 提案手法は，セマンティックに整列された分布一致損失を用いることで，点群の順序依存性を克服している。
- 回転変動に対応するため，合成データセット更新時に最適な回転角を学習している。
- ベンチマークデータセットでの実験により，既存手法を上回り，高い精度と汎化性能を示すことが確認された。
Link: https://arxiv.org/abs/2503.22154
VisualCloze：視覚的インコンテキスト学習による汎用画像生成フレームワーク [eess.SY, cs.SY, eess.SY, cs.SY, eess.SY, cs.SY, cs.CV]目的：汎用的な画像生成フレームワークの開発
- 画像生成技術は多様な応用分野で重要であり，その進歩は目覚ましい。
- 既存手法はタスク固有のモデル構築に偏り，多様なニーズへの対応が困難である。
- 視覚的インコンテキスト学習により，タスクの曖昧さを解消し，汎化性能を高めることを目指す。
- 本研究では，視覚的デモンストレーションからタスクを識別するVisualClozeという汎用画像生成フレームワークを提案した。
- Graph200Kというグラフ構造データセットを導入し，タスク間の関連性を高めることで，知識の転移学習を促進した。
- 画像補完モデルの生成能力を活用することで，既存のアーキテクチャを変更せずに高品質な画像生成を実現した。
Link: https://arxiv.org/abs/2504.07960
関係-R1：漸進的な認知連鎖思考誘導による統一的な関係理解のための強化学習 [cs.CV]目的：多種多様な関係理解の性能向上
- マルチモーダル大規模言語モデルの発展により，物体レベルの認識や領域キャプション生成は向上している。
- 視覚的な関係理解が課題であり，二項関係の検出すら困難で，多項関係の理解は特に難しい。
- 多実体間の構造的意味依存性のモデリングを導入し，言語事前知識への過度な依存を軽減する。
- Relation-R1は，認知連鎖思考誘導による教師ありファインチューニングとグループ相対方策最適化を組み合わせた最初の統一的な関係理解フレームワークである。
- 多報酬最適化により，視覚と意味の接地を優先し，言語誘導バイアスを抑制することで，汎化能力を向上させている。
- 特定の関係から一般的な関係へと段階的に進む連鎖思考誘導アプローチが，特に同義語を含む多項関係の理解を改善する。
Link: https://arxiv.org/abs/2504.14642
インスタンス適応型キーポイント学習と，局所から全体への幾何学的集約によるカテゴリレベルの物体姿勢推定 [cs.CV]目的：カテゴリレベルの物体姿勢推定における性能向上
- ロボット工学やコンピュータビジョンの分野で，物体認識と姿勢推定は重要な課題である。
- 既存手法は，複雑な形状や標準的な形状からの逸脱があるインスタンスに対して苦戦することがある。
- インスタンスに適応したキーポイント学習と幾何学的集約により，この問題を解決することを目指す。
- INKL-Poseは，インスタンス適応型キーポイント検出器を用いて意味的に一貫性があり，幾何学的に情報量の多いキーポイントを予測する。
- 局所的な特徴集約器と，双方向Mambaを用いた全体的な特徴集約器により，キーポイントを洗練する。
- CAMERA25，REAL275，HouseCat6Dでの実験により，最先端の性能が示された。
Link: https://arxiv.org/abs/2504.15134