arXiv雑要約

画像・音声 - 2026/03/24 公開

  • WorldCache:動画ワールドモデルの高速化のためのコンテンツ認識キャッシュ [cs.CV, cs.AI, cs.CL, cs.LG]目的:拡散モデルによる動画ワールドモデルの推論高速化
    • 動画ワールドモデルは現実世界の動画を生成可能であり,ロボット工学や自動運転等の応用が期待される分野である。
    • 拡散モデルは計算コストが高く,特に空間Temporalアテンション処理に時間がかかるという課題がある。
    • 既存のキャッシュ手法の課題を克服し,動的なシーンにおけるゴーストやモーションの不整合を抑制する。
    • WorldCacheは,モーション適応的な閾値,顕著性に基づいたドリフト推定,ブレンドとワープによる最適近似,および位相を考慮した閾値スケジュールを導入する。
    • PAI-Bench上のCosmos-Predict2.5-2Bの評価において,WorldCacheは推論速度を2.3倍に向上させながら,ベースラインの品質の99.4%を維持する。
    • 既存の学習不要なキャッシュ手法と比較して,大幅な性能向上が確認された。

    Link: https://arxiv.org/abs/2603.22286

  • アルゴリズムが入札を学習する際のオークション設計 [econ.GN, cs.GT, cs.MA, q-fin.EC]目的:オンラインオークションにおける入札行動の分析
    • オンライン広告やオークションは,現代経済において重要な取引手段である。
    • アルゴリズムによる入札が普及する中で,談合や収益減少の懸念が生じている。
    • 様々なアルゴリズムクラスにおける入札抑制要因の重要度を定量的に評価する。
    • 市場構造パラメータが,アルゴリズム設計選択よりも重要な影響を与えることが示された。
    • 予算制約がない場合,競争圧力が収益の最も強い予測因子となる。
    • 予算制約がある場合,予算の厳しさの方が重要となる。最適なオークション形式は,入札技術によって変化する。

    Link: https://arxiv.org/abs/2306.09437

  • UniAnimate-DiT:大規模動画拡散Transformerによる人物画像のアニメーション [cs.CV, cs.MM]目的:人物画像のアニメーション技術
    • 近年,現実世界の映像を生成する技術が発展し,多様な応用が期待されている。
    • 既存手法では,高品質かつ一貫性のある人物アニメーションを実現することが困難である。
    • 少ない計算資源で高品質な人物アニメーションを生成し,汎用性を高めることを目指す。
    • UniAnimate-DiTは,LoRA技術を用いてWan2.1モデルを効率的にファインチューニングすることで,メモリ消費量を削減した。
    • 軽量な姿勢エンコーダと参照画像情報を活用することで,高品質で時間的に一貫性のあるアニメーションを実現した。
    • 480pで学習したモデルは,推論時に720pへのアップスケールが可能であり,高い汎用性を示した。

    Link: https://arxiv.org/abs/2504.11289

  • MiSiSUn:最小シンプレックス半教師あり分解 [eess.IV, cs.CV, cs.LG]目的:半教師あり幾何学的分解手法
    • リモートセンシングや画像処理において,混合データから個々の成分を分離する技術は重要である。
    • 従来の分解手法では,ノイズや混合比の変動に対するロバスト性に課題があった。
    • 本研究では,幾何学的情報を活用し,より高精度な分解を目指す。
    • 提案手法MiSiSUnは,既存の半教師あり分解手法と比較して,1dBから3dB以上の性能向上を示した。
    • シミュレーションデータセットと実データセットの両方で,優れた結果が得られた。
    • 特に実データセットでは,地質図との視覚的な一致性が確認された。

    Link: https://arxiv.org/abs/2603.20263

  • 調整可能な雑音低減と聴力補正のためのエンドツーエンド多タスク学習 [eess.AS, cs.SD]目的:雑音低減と聴力補正を共同最適化する深層ニューラルネットワークの学習
    • 聴覚障害を持つ人々の生活の質を向上させるためには,効果的な聴力補正技術が不可欠である。
    • 従来の聴力補正は,個々の聴力損失プロファイルに合わせた調整が難しく,最適化が困難であった。
    • 本研究は,単一のモデルで雑音低減と聴力補正を同時に行い,個別の調整を可能にすることを目的とする。
    • 提案手法は,雑音低減と聴力補正の量を個別に調整できることが示された。
    • 単一の学習目標で最適化した場合や,個別に学習させた2つのニューラルネットワークを組み合わせた場合と比較して,客観的な評価指標が向上した。
    • 従来の補聴器処方と比較して,競争力のある聴力補正性能を達成した。

    Link: https://arxiv.org/abs/2603.20387

  • 多次元的な手がかりがInstruction TTSにおけるジェンダーバイアスを形成する仕組み [math.OC, cs.DC, math.CO, eess.SP, cs.SD]目的:Instruction TTSにおけるジェンダーバイアスの形成メカニズム
    • 音声合成技術は,多様な場面で利用され,その公平性が重要である。
    • 既存のバイアス評価は単一要素に焦点を当て,複合的な要因を見落としていた。
    • 社会的地位,職業ステレオタイプ,個性記述子の組み合わせがバイアスに与える影響を分析する。
    • オープンソースのITTSモデルの分析により,社会的な次元が相互に影響しあい,複雑なバイアスパターンを生み出すことが明らかになった。
    • バイアスは表層的なアーチファクトを超え,事前学習済みのテキストエンコーダのセマンティックな事前知識や学習データの偏りに強く関連することが示された。
    • 一般的な多様性プロンプティングでは,これらの根強いバイアスパターンを克服できないため,生成音声における潜在的なリスクを診断するための構成的な分析の必要性が示唆された。

    Link: https://arxiv.org/abs/2603.20743

  • SqueezeComposer:長編音楽作曲における時間加速は単純な工夫である [eess.AS, cs.CL, cs.SD]目的:長編音楽の効率的な生成手法
    • 音楽生成は創造性を支援する重要な分野であり,その自動化が求められている。
    • 長編音楽では,長距離依存性のモデリングと計算資源の制約が課題となる。
    • 時間加速による生成で長編音楽の取り扱いを可能にし,高品質な生成を目指す。
    • 時間加速と復元を繰り返すことで,既存の音楽生成モデルでも長編音楽を扱える。
    • SqueezeComposerは,拡散モデルを用いて加速ドメインでの生成と復元ドメインでの改良を行う。
    • 実験結果から,本手法が効率的かつ高品質な長編音楽生成を可能にすることが示された。

    Link: https://arxiv.org/abs/2603.21073

  • ドメイン弾性変換:高次元科学データのためのベイズ関数登録 [math.OC, cs.MS, stat.ML, cs.AI, cs.CV]目的:高次元科学データの関数登録手法
    • 空間トランスクリプトミクス等の新たな科学データ解析において,高次元データの位置合わせが重要である。
    • 従来の幾何学的・画像解析手法では,高次元かつ不規則なデータへの対応が困難であった。
    • 本研究は,幾何学的・関数的アラインメントを統合し,高次元データを直接登録する手法を提案する。
    • 提案手法DETは,MERFISHデータにおいて92%のトポロジー保存率を達成し,既存手法を凌駕した。
    • DETは,発生段階間の全胚Stereo-seqアトラスの登録にも成功し,大規模かつ複雑な変形に対応可能であることを示した。
    • DETは,ドメインを関数として扱うことで,ボクセル化や特徴量の無視といった問題を解決する。

    Link: https://arxiv.org/abs/2603.21235

  • 非登録スペクトル画像融合:非混合,敵対的学習,および復元可能性 [quant-ph, cs.ET, physics.soc-ph, cs.CY, eess.IV, cs.CV]目的:空間的に非登録なハイパースペクトル画像とマルチスペクトル画像の融合
    • 高次元スペクトル情報と高空間分解能の統合は,リモートセンシングや画像解析において重要である。
    • 非登録画像の融合は難易度が高く,既存手法はMSIの超解像に偏りがちで,HSIの改善が不十分である。
    • 教師なし学習により,MSIとHSI両方の超解像を同時に実現し,復元可能性の理論的保証を与える。
    • 提案手法は,MSIのスペクトル非混合とHSIの潜在空間敵対的学習を組み合わせた,新たな融合フレームワークである。
    • 生成モデルに基づき,非登録HMFにおけるMSIとHSIの超解像復元可能性に関する初の理論的保証を確立した。
    • 半実世界のHSI-MSIペアを用いた実験により,多様な条件下での有効性が確認された。

    Link: https://arxiv.org/abs/2603.21510

  • DiT-Flow:潜在空間と拡散Transformerに基づく,多様な歪みにロバストな音声強調 [eess.AS, cs.AI, cs.SD]目的:多様な歪みに対するロバスト性を備えた音声強調手法の開発
    • 近年,拡散モデルやフローマッチングなどの生成モデルが音声処理分野で高い性能を示している。
    • 音声強調モデルは,限られたデータセットで学習され,狭い条件で評価されることが多く,実用性に課題がある。
    • 学習と実環境とのギャップを埋め,多様な歪み環境下での高性能な音声強調を実現することを目指す。
    • 提案手法DiT-Flowは,合成データセットStillSonicSetにおいて,最先端の生成モデルによる音声強調手法を上回る性能を示した。
    • LoRAとMoEフレームワークを組み合わせることで,パラメータ効率と高性能を両立し,わずか4.9%のパラメータで5種類の未知の歪みに対して優れた性能を発揮した。
    • フローマッチングが,多様な条件における音声強調に有効であることが示された。

    Link: https://arxiv.org/abs/2603.21608

  • サイクル一貫性のあるTransMorph:脳MRI登録のためのバランスの取れた深層学習フレームワーク [eess.IV, cs.AI, cs.CV]目的:脳MRI登録のための深層学習フレームワーク
    • 医学画像解析において,解剖学的構造の空間的な整合は不可欠であり,疾患の診断や進行評価に重要である。
    • 既存の深層学習法は計算効率は高いものの,長距離の解剖学的対応関係の把握や変形の一貫性維持に課題があった。
    • 長距離対応と変形の一貫性を改善し,高精度かつ安定した脳MRI登録を実現することを目指す。
    • 提案手法は,大規模な多施設共同データセットにおいて,複数の定量評価指標で優れた性能を示した。
    • 前方および後方変形場を同時に推定することで,局所的な解剖学的詳細とグローバルな空間関係の両方を捉えることを可能にした。
    • 安定性と物理的に妥当な変形場を維持し,大規模神経画像データセットへの適用に適している。

    Link: https://arxiv.org/abs/2603.21760

  • チェビシェフ多項式とリーマン計量学習による深偽音声ソース検証における話者特徴の分離 [eess.AS, cs.CL, cs.SD]目的:深偽音声ソース検証における話者特徴の分離
    • 音声の深偽技術の発展に伴い,その真偽判定の重要性が高まっている。
    • 既存手法では,ソース埋め込みが話者特徴に依存する可能性が考慮されていない。
    • 話者特徴とソース特徴を分離し,より信頼性の高い検証を実現すること。
    • 提案手法SDMLは,チェビシェフ多項式による勾配不安定性の軽減と,リーマン計量距離を用いた話者情報削減により,効果的な特徴分離を可能にする。
    • MLAADベンチマークを用いた実験により,提案手法が新たな評価プロトコル下で優れた性能を示すことが確認された。
    • コード,評価プロトコル,デモサイトは公開されており,再現性と検証を支援する。

    Link: https://arxiv.org/abs/2603.21875

  • 網膜血管セグメンテーションのための階層型マルチスケール注意ネットワーク:トポロジー保存損失付き [eess.IV, cs.CV]目的:網膜血管のセグメンテーション
    • 網膜血管の状態は,糖尿病性網膜症などの疾患の早期発見に不可欠である。
    • 従来のオーバーラップ損失に基づく手法では,細い末梢血管の検出が困難であった。
    • 細い末梢血管の検出精度向上を目指す。
    • 提案手法HMS-VesselNetは,異なる解像度の複数のブランチで網膜画像を処理し,学習された融合重みを用いてそれらを組み合わせる。
    • Dice係数,二値交差エントロピー,中心線Dice損失を組み合わせることで,領域のオーバーラップと血管の連続性を最適化する。
    • DRIVE, STARE, CHASE_DB1データセットで5分割交差検証を行い,平均Dice係数は88.72 +/- 0.67%を達成した。

    Link: https://arxiv.org/abs/2603.21891

  • SelfTTS:明示的な埋め込みの分離と自己拡張を用いたクロスピーカーのスタイル変換 [eess.AS, cs.SD]目的:クロスピーカーのスタイル変換のためのテキスト読み上げモデル
    • 音声合成技術は,人間とコンピュータの自然な対話を可能にする上で重要である。
    • 既存のスタイル変換モデルは,外部の事前学習済みエンコーダに依存し,柔軟性に欠ける。
    • 外部エンコーダを必要とせず,より自然で安定した音声合成を実現すること。
    • SelfTTSは,勾配反転層とコサイン類似度損失を用いて,話者情報と感情情報を分離する。
    • マルチポジティブコントラスティブ学習により,話者と感情の埋め込み表現をクラスター化することで表現力を高める。
    • 自己拡張戦略を用いることで,合成音声の自然さを向上させている。

    Link: https://arxiv.org/abs/2603.22252

  • パラメータ化されたゲームにおける人間の戦略的意思決定 [cs.GT, cs.AI, cs.LG, econ.TH]目的:人間の戦略的意思決定プロセス
    • 現実世界のゲームはパラメータに依存し,その理解は戦略設計に不可欠である。
    • パラメータ値が未知の場合,リアルタイムでの最適解法は困難を伴う。
    • 時間・資源制約下における人間の迅速な意思決定支援。
    • 本研究では,リアルタイムソルバーなしで迅速な意思決定を可能にする新しいフレームワークを提案する。
    • このフレームワークは,複数プレイヤーや不完全情報といった多様な状況に適用可能である。
    • 人間の戦略的意思決定を支援することで,現実世界の複雑なゲームへの応用が期待される。

    Link: https://arxiv.org/abs/2104.14744

  • 同質なユーザーへの後悔しないベイジアン推薦 [cs.GT, cs.IR, cs.LG]目的:同質なユーザーに対するオンラインベイジアン推薦問題の解決
    • インターネット経済において,製品の状態を考慮した推薦は重要性を増している。
    • ユーザーの嗜好や信念が事前に不明なため,効果的な推薦ポリシーの設計が課題である。
    • 後悔を最小化しつつ,ユーザーの行動に適応する推薦ポリシーを構築すること。
    • 本研究では,ラウンド数に対して対数オーダーの後悔を持つオンラインポリシーを提案した。
    • 情報理論的な下限により,これより良いオーダーの後悔を持つ適応的なポリシーは存在しないことが示された。
    • 線形計画問題として定式化することで,状態数に対して多項式オーダー,ラウンド数に対して対数オーダーの後悔を持つポリシーを提示した。

    Link: https://arxiv.org/abs/2202.06135

  • 偏光輸送解析による鏡面相互反射の分析 [eess.SY, cs.NI, cs.SY, math.OC, cs.RO, cs.CV, eess.IV]目的:金属物体の鏡面相互反射の分解手法
    • 偏光は拡散反射と鏡面反射の分離に有効であり,視覚情報や計測において重要である。
    • 既存手法は直接反射に焦点を当てており,特に鏡面相互反射のような多重反射への対応が課題であった。
    • 線形偏光の回転方向を識別子として,金属物体の鏡面相互反射を分離し,光の輸送特性を詳細に解析する。
    • 提案手法では,入射光の線形偏光を積極的に回転させ,反射光の回転方向を分析することで,直接反射と相互反射を分離する。
    • シミュレーションと実測データを用いた評価により,金属物体の鏡面相互反射の分解における有効性が示された。
    • 本手法は,他の分解手法と組み合わせることで,より詳細な光輸送分析を可能にし,3D計測の精度向上に貢献する。

    Link: https://arxiv.org/abs/2312.04140

  • MatSegNet:高強度鋼における炭化物析出物の正確な分析のための新たな境界認識型深層学習モデル [cs.CV, cond-mat.mtrl-sci, cs.LG]目的:高強度鋼における炭化物析出物の包括的なセグメンテーションと定量的な特徴付け
    • 高強度鋼の機械的特性向上には,炭化物析出物の制御が不可欠である。
    • 従来の炭化物析出物の分析は,時間と労力を要し,精度に課題があった。
    • 炭化物析出物の高精度な分析を深層学習を用いて実現し,材料開発を加速すること。
    • MatSegNetは,既存の深層学習アーキテクチャと比較して,炭化物析出物のセグメンテーション性能において優れた結果を示した。
    • 下部ベイナイトと焼き戻しマルテンサイトの炭化物特性に統計的な差は見られず,従来の識別方法への注意喚起となった。
    • 深層学習が材料の組織-特性関係を明らかにし,材料イノベーションを促進する可能性が示された。

    Link: https://arxiv.org/abs/2312.17251

  • WiFi-GEN:生成AIを用いたWiFi信号からの高解像度屋内イメージング [cs.CV, cs.CL]目的:WiFi信号からの高解像度屋内イメージ生成
    • ロボティクスやIoTにおいて,屋内環境の把握は不可欠であり,その効率的な手法が求められている。
    • 従来の物理モデルに基づく手法では,非線形性や不安定性,不確実性の問題があり,高精度な屋内イメージングが困難であった。
    • 生成AIを活用し,これらの課題を克服することで,より高精度な屋内イメージングを実現する。
    • 提案手法WiFi-GENは,物理モデルに基づく手法と比較して,形状再構成精度を275%向上させた。
    • また,Frechet Inception Distanceを82%大幅に削減することに成功した。
    • 8万組のWiFi信号とイメージング対象のペアを含む大規模データセットを公開し,モデルの有効性を検証した。

    Link: https://arxiv.org/abs/2401.04317

  • 深度超解像のためのシーン事前フィルタリング [cs.CV]目的:深度超解像の性能向上
    • 深度マップはロボット工学やコンピュータビジョンの重要な要素であり,その高精度化が求められている。
    • 既存の多Modal融合戦略では,異なるModal間のギャップを埋めることが難しく,性能向上のボトルネックとなっている。
    • シーンの表面法線やセマンティックマップを利用し,テクスチャ干渉とエッジの不正確さを軽減する。
    • 提案手法SPFNetは,RGB,法線,セマンティック,深度といった多Modalなシーン事前情報を活用し,テクスチャ干渉を低減する。
    • All-in-one Prior Propagationにより,Modal間の類似性を計算し,Mutual Guided Filteringを用いて各Modal情報を深度に埋め込む。
    • 実データおよび合成データでの実験により,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2402.13876

  • 協調型連合学習のメカニズム:シャプレイ値の落とし穴 [cs.GT]目的:協調型連合学習システムにおけるメカニズム設計の影響
    • 連合学習は,プライバシー保護と分散データ活用を両立する有望な手法であり,その重要性は高まっている。
    • 参加者のインセンティブ設計が不十分な場合,学習効率が低下し,システムの有効性が損なわれる可能性がある。
    • メカニズム設計とアルゴリズム設計を同時に最適化することで,協調型連合学習の効率を向上させる。
    • シャプレイ値メカニズムは,公平性と予算均衡性に優れるが,データ分割による戦略的行動を誘発する。
    • データ分割は,連合学習の収束を遅らせ,通信コストを増加させるという問題がある。
    • 限界貢献メカニズムは,予算均衡性はないものの,戦略的行動に強く,システム効率を最大化する。

    Link: https://arxiv.org/abs/2403.04753

  • SPOT:類似および反対視点に基づく点群を用いたステレオ視覚場所認識 [cs.RO, cs.CV]目的:類似および反対視点における視覚場所認識の実現
    • 自動運転やロボットナビゲーションにおいて,場所の正確な認識は不可欠である。
    • 従来の視覚場所認識は,視点の変化や照明条件の変化に弱く,反対視点での認識は特に困難である。
    • ステレオ視覚測位で推定された構造情報を用いて,反対視点での高精度な場所認識を可能にすること。
    • 提案手法SPOTは,既存の最先端手法と比較して,反対視点での場所認識において顕著な性能向上を示した。
    • 特に,100%の適合率で最大91.7%のリコール率を達成し,必要なストレージ容量も少なく,処理速度も速い。
    • また,視点が類似または反対であるかの事前知識を必要とせず,類似視点の場合でも競争力のある性能を発揮する。

    Link: https://arxiv.org/abs/2404.12339

  • 文脈学習による点群の理解:Point-In-Context [cs.CV]目的:点群データの理解のための文脈学習フレームワーク
    • 3D点群データは,ロボティクスや自動運転など,様々な分野で重要性が増している。
    • 従来の点群処理は,タスクごとに個別に学習する必要があり,効率が悪い。
    • 本研究は,文脈学習を用いて,1回の学習で多様な点群タスクに対応することを目指す。
    • Point-In-Context (PIC)フレームワークを提案し,標準的なTransformerアーキテクチャで3D点群の文脈学習を実現した。
    • PIC++では,動的な文脈ラベリングと学習戦略を導入し,未知のデータセットへの汎化性能を向上させた。
    • ファインチューニングなしで,PIC++は様々なデータセットで部品分割を効率的に実行できることを示した。

    Link: https://arxiv.org/abs/2404.12352

  • 歩行表現学習のための正確な量子化 [cs.IR, cs.CV]目的:歩行表現学習における正確な量子化手法
    • 歩行は生体認証や行動認識において重要な特徴量であり,その効率的な学習が求められている。
    • 既存の量子化手法は,タスク損失の最小化に偏重し,量子化誤差を十分に考慮していない。
    • 本研究は,量子化誤差を抑制し,歩行表現学習の性能向上を目指す。
    • 提案手法では,微分可能なソフト量子化器を導入し,バックプロパゲーションにおける勾配シミュレーションを改善した。
    • 二段階の学習戦略と,クラス間距離に基づくキャリブレーション(IDC)により,特徴空間における出力分布の変化を抑制した。
    • 様々な設定とデータセットにおいて,最先端の精度を達成し,提案手法の有効性を検証した。

    Link: https://arxiv.org/abs/2405.13859

  • HPE-CogVLM:ヘッドポーズグラウンディングタスクによるビジョン言語モデルの高度化 [cs.SI, cs.CL, cs.CV, cs.AI, cs.CL]目的:ヘッドポーズ推定の精度向上
    • 画像認識と自然言語処理の融合は,より高度なAIシステムの実現に不可欠である。
    • 従来のヘッドポーズ推定モデルは,実環境でのロバスト性に課題があり,汎用性に欠ける。
    • ビジョン言語モデルの能力を活用し,ヘッドポーズ推定と物体検出を両立させる。
    • 提案手法HPE-CogVLMは,既存の最先端CNNモデル(6DRepNet)と比較して,平均絶対誤差を31.5%削減した。
    • 直接LoRAファインチューニングやタスクアリティメチックによる統合と比較して,全てのヘッドポーズ推定指標で優れた性能を示した。
    • 高コサイン類似度閾値と「勝者総取り」層選択戦略を用いることで,無効な応答形式の問題を解決した。

    Link: https://arxiv.org/abs/2406.01914

  • DifAttack++:クロスドメインにおける階層的潜在表現空間を用いた効率的なブラックボックス敵対的攻撃 [cs.CV]目的:効率的なスコアベースのブラックボックス敵対的攻撃手法の開発
    • 深層学習モデルのセキュリティ確保は重要であり,敵対的攻撃への対策が不可欠である。
    • 既存の敵対的攻撃手法は,クエリ効率や生成される画像の品質に課題がある。
    • 潜在表現空間を操作することで,クエリ効率を向上させ,高品質な敵対的サンプルを生成する。
    • 提案手法DifAttack++は,従来の最先端手法と比較して,攻撃成功率とクエリ効率が向上することを示した。
    • DifAttack++は,階層的解結合・融合(HDF)モジュールを搭載したオートエンコーダを用いて,敵対的特徴と視覚的特徴を分離する。
    • 敵対的特徴のみを最適化することで,視覚的な品質を維持しつつ,効率的に敵対的サンプルを生成できる。

    Link: https://arxiv.org/abs/2406.03017

  • 周辺注意制約を用いた学習不要なレイアウトから画像生成 [cs.CV]目的:レイアウト指示に基づいた画像生成の精度向上
    • 高解像度画像生成技術の発展と,空間構成やオブジェクト数の正確な制御の必要性
    • 既存のレイアウトから画像生成手法は,ファインチューニングや追加モジュールの学習を必要とする
    • 学習不要で,レイアウト指示と生成画像のずれを修正し,より正確な画像生成を実現する
    • 提案手法MACは,追加モジュールやファインチューニングなしで既存手法よりも優れた性能を発揮する。
    • 生成された画像の空間構成に関する定量評価と定性評価の両面で,DrawBenchとHRSベンチマークにおいて優位性を示す。
    • クロスアテンションマップの調整と境界注意制約に基づく損失関数により,複雑なレイアウト指示下での空間制御性と意味的失敗の軽減を実現する。

    Link: https://arxiv.org/abs/2411.10495

  • ファウンデーションモデルからの学習:手動アノテーションなしの果実検出モデル [cs.CV, cs.LG]目的:手動アノテーションを必要としない,ドメイン固有の小規模モデルの学習フレームワーク
    • 農業分野におけるデータ不足は深刻であり,AI技術の導入を阻害する要因となっている。
    • 十分なラベル付きデータがない場合,高性能な物体検出モデルを構築することが困難である。
    • 大規模な事前学習済みモデルの知識を活用し,ラベルなしデータから高性能な果実検出モデルを開発すること。
    • 提案手法SDM-Dは,果実検出タスク(物体検出,セマンティックセグメンテーション,インスタンスセグメンテーション)において,手動アノテーションなしで優れた性能を発揮する。
    • SDM-Dは,豊富なラベル付きデータで学習したモデルに匹敵する性能を達成し,Grounding SAMやYOLO-Worldなどのオープンセット検出手法を上回る。
    • 25,000枚以上の画像を含む大規模な果実セグメンテーションデータセットMegaFruitsと,関連コードを公開し,研究の再現性を高めている。

    Link: https://arxiv.org/abs/2411.16196

  • タスク漸進的カリキュラム学習によるロバストな視覚的質問応答 [cs.CV, cs.LG]目的:ロバストな視覚的質問応答システムの開発
    • 視覚的質問応答は,AI研究において重要な課題であり,画像と質問を理解する能力が求められる。
    • 既存のシステムは,分布の変化やデータ不足に弱く,汎化性能に課題がある。
    • 質問の難易度とセマンティック構造を考慮した学習戦略により,汎化性能を向上させる。
    • 提案手法であるTPCLは,質問タイプと難易度に基づいたカリキュラム学習を行うことで,IID,OOD,低データ環境下での汎化性能を改善する。
    • データ拡張や明示的なバイアス除去に頼らず,VQA-CP v2およびv1で最先端の性能を達成し,既存のロバストVQAベースラインを大きく上回る。
    • TPCLは,バックボーンモデルの性能を最大28.5%向上させることが示された。

    Link: https://arxiv.org/abs/2411.17292

  • グローバル情報融合による軽量な視線推定モデル [cs.FL, nlin.CG, cs.CV]目的:軽量な視線推定モデルの提案
    • 視線推定は,人間とコンピュータ間の自然なインタラクション実現に不可欠な技術である。
    • 高精度な視線推定モデルはパラメータ数が多く,学習に時間がかかるという課題がある。
    • モデルの複雑性を抑えつつ,精度と学習速度を向上させることを目指す。
    • 提案モデルFGI-Netは,グローバル情報を融合することで,多層の畳み込みやプーリングを必要とせず,効率的に視線推定を実現する。
    • 実験の結果,FGI-NetはGazeCapsと比較して,パラメータ数とFLOPsをそれぞれ87.1%,79.1%削減しつつ,より低い角度誤差を達成した。
    • Gaze360やEyeDiapデータセットにおいて,FGI-NetはGazeTRよりも学習反復回数を25%,37.5%削減し,高い精度で収束した。

    Link: https://arxiv.org/abs/2411.18064

  • アフリカにおける給水・衛生インフラへのアクセス状況の監視:衛星画像と自己教師あり学習の活用 [cs.CV, cs.CY, cs.LG]目的:アフリカ地域における給水および衛生インフラへのアクセス状況の評価モデルの開発
    • 清潔な水と衛生は健康,幸福,持続可能な開発に不可欠であり,世界的な不均衡は依然として存在する。
    • 多くの国において,データ収集の限界やデータの公開性の欠如が,SDG 6の進捗状況の正確な追跡を妨げている。
    • 衛星画像と深層学習を活用し,データ収集のギャップを埋め,インフラへのアクセス状況を評価する手法を確立すること。
    • 開発されたモデルは,給水設備へのアクセス状況で84%以上,下水道システムへのアクセス状況で87%以上の高い精度を達成した。
    • 人口データと組み合わせることで,国レベルでの公式統計との高い一致性(給水アクセスR2=0.92,下水道アクセスR2=0.72)が確認された。
    • この手法は,SDG指標6.1.1および6.2.1を代表する国レベルの推定値を提供し,効果的かつ費用対効果の高いツールとなる。

    Link: https://arxiv.org/abs/2411.19093

  • 3DSceneEditor:ガウススプラッティングを用いた制御可能な3Dシーン編集 [cs.CV]目的:3Dシーンのインタラクティブかつ精密な編集
    • 3Dコンテンツ制作の需要は高く,効率化が求められている。
    • 既存手法は精度が低く,インタラクティブな速度での編集が困難である。
    • ガウススプラッティングを利用し,精密かつ高速な3Dシーン編集を実現する。
    • 提案手法3DSceneEditorは,ガウスベースの操作により高品質な編集を可能にする。
    • インスタンスセグメンテーションとCLIPによるゼロショットグラウンディングを統合し,ユーザープロンプトとオブジェクトを正確に一致させる。
    • オブジェクトの追加,移動,色変更,置換,削除等の編集において,既存手法を上回る精度と効率を示す。

    Link: https://arxiv.org/abs/2412.01583

  • 連続的な増分学習と消去が可能なコンパクトな確率的ニューラルネットワークに基づくパターン分類器の自動構築 [cs.RO, cs.SY, eess.SY, cs.LG, cs.CV]目的:連続的な増分学習と消去に対応可能なパターン分類器の自動構築
    • パターン認識は,画像や音声など多様なデータから意味のある情報を抽出する上で重要である。
    • 従来のニューラルネットワークは,学習データの追加や削除に柔軟に対応できない場合がある。
    • 本研究は,少ないパラメータで効率的に学習・消去が可能な分類器の構築を目指す。
    • 提案手法は,パラメータ調整を必要とせず,単一パスのネットワーク成長アルゴリズムにより自動的に構造とパラメータを決定する。
    • 実験結果から,本手法で構築されたコンパクトな確率的ニューラルネットワークは,従来のモデルよりも少ない隠れ層ユニット数で,同等の分類性能を示すことが確認された。
    • また,連続的なクラス増分学習と消去タスクにおいても,十分な性能を発揮することが示された。

    Link: https://arxiv.org/abs/2501.00725

  • DesCLIP:VLMベースの画像認識のための汎用属性記述を用いたロバストな継続学習 [cs.CV, cs.AI]目的:VLMベースの画像認識における継続学習のロバスト性の向上
    • 近年,画像とテキストの相互理解が可能なVLMが発展しており,様々な応用が期待されている。
    • VLMの継続学習においては,新たなタスクを学習する際に,以前の知識が失われる「破局的忘却」が課題となる。
    • 汎用的な属性記述を用いることで,VLMの知識保持能力を高め,継続学習における性能低下を抑制することを目指す。
    • DesCLIPは,特定のクラスと特徴量の直接的な関連付けではなく,汎用的な属性記述を介したトリラテラルな関連付けを構築する。
    • 言語アシスタントを用いて具体的な属性記述候補を生成し,アンカーベースの埋め込みフィルタで関連性の高い記述を選択する。
    • 実験の結果,DesCLIPは既存の継続学習手法と比較して,VLMベースの画像認識において優れた性能を発揮することが示された。

    Link: https://arxiv.org/abs/2502.00618

  • クラス別情報を用いた構造化Lassoプルーニングの強化 [cs.CV, cs.AI]目的:軽量なニューラルネットワークモデルの実現
    • 現代のアプリケーションは,計算資源の制約下での高性能なモデルを必要とするため。
    • 既存のプルーニング手法はフィルタの重要度のみに着目し,クラス別情報を考慮しない場合がある。
    • クラス別情報に基づき,プルーニング前後の統計的情報の損失を抑制することを目指す。
    • 提案手法は,CIFAR-10データセット上のVGG16モデルにおいて,パラメータを85%削減し,FLOPsを61%削減しつつ,精度を94.10%に維持した。
    • ImageNetデータセット上のResNetアーキテクチャでは,パラメータを55%削減し,精度を76.12%に維持した(0.03%の低下)。
    • モデルサイズと計算資源を削減しつつ,精度の維持に成功した。

    Link: https://arxiv.org/abs/2502.09125

  • UASTrack:モダリティカスタマイズによる統一適応選択フレームワーク(単一物体追跡) [cs.CV, cs.AI]目的:単一物体追跡における統一的適応選択
    • 多様なセンサー情報を活用することで,物体外観の変化による追跡の課題を克服することが重要である。
    • 既存のRGB-Xトラッカーは,個別のRGB-Xペアに特化した学習戦略に依存するか,モダリティ適応的な知覚の重要性に対応できていない。
    • 異なるモダリティ間の適応的な識別と最適化を通じて,実用的な多モダリティ追跡を実現することを目指す。
    • UASTrackは,モデルとパラメータの統一と,多様な多モダリティ追跡タスクにおける適応的なモダリティ識別を可能にするフレームワークである。
    • Discriminative Auto-Selector(DAS)により,補助モダリティのデータ分布を識別し,モダリティ適応的な知覚を実現する。
    • Task-Customized Optimization Adapter(TCOA)により,各モダリティの特性に基づきノイズをフィルタリングし,背景干渉を軽減する。

    Link: https://arxiv.org/abs/2502.18220

  • 画像超解像度評価における知覚の乖離を埋める [cs.HC, cs.RO, cs.SY, eess.SY, cs.CV]目的:画像超解像度評価における評価指標と人間の知覚の整合性
    • 画像超解像度は,低解像度画像から高解像度画像を復元する技術であり,様々な応用分野で重要性が増している。
    • 従来の評価指標では,人間の視覚特性を十分に反映できておらず,評価結果と主観評価に乖離が生じる場合がある。
    • 評価指標と人間の知覚の整合性を高め,より信頼性の高い画像超解像度評価を実現することを目指す。
    • 既存の画像品質指標と人間の知覚の相関関係を分析した結果,一部の指標では相関が低い,あるいは負の相関を示すことが明らかになった。
    • 画像超解像度評価における固有の課題が,フルリファレンスおよびノーリファレンス画像品質評価フレームワークの有効性を損なっていることが判明した。
    • 相対品質指数(RQI)フレームワークを提案し,既存の評価指標の性能を向上させ,より写実的な詳細を持つ画像の生成を可能にした。

    Link: https://arxiv.org/abs/2503.13074

  • 合成データを活かす:単一ドメイン汎化のためのドメイン再構成とソフトフュージョン [cs.CV]目的:単一ドメイン汎化における性能維持
    • 現実世界の多様な状況に対応できるモデル構築が求められている。
    • 合成データと実データ間の特徴分布の乖離が問題となっている。
    • 合成データによる性能低下を防ぎ,汎化性能を向上させることを目指す。
    • 提案手法DRSFは,画像分類,物体検出,セマンティックセグメンテーションで顕著な性能向上を示した。
    • DFDRモジュールは,エントロピーをガイドした注意機構により,合成ノイズを抑制しつつ意味的な一貫性を維持する。
    • MDSFモジュールは,潜在空間特徴の補間を用いた敵対的学習により,ドメイン間の連続的な特徴遷移を実現する。

    Link: https://arxiv.org/abs/2503.13617

  • LEMON:内視鏡モノキュラー大規模データセットと手術環境用基盤モデル [cs.CV]目的:手術環境における知覚のための大規模データセットと基盤モデルの開発
    • 手術支援ロボットの自律化には,手術映像の正確な理解が不可欠であり,そのためのデータセットの重要性が高まっている。
    • 既存の公開データセットは規模が小さく,モデルの汎化性能が不十分であるという課題があった。
    • 大規模かつ多様なデータセットを用いて,手術映像の理解能力を向上させることを目指す。
    • LEMONデータセットは,4Kを超える手術動画938時間(8500万フレーム)を含む大規模なデータセットである。
    • 基盤モデルLemonFMは,LEMONデータセットを用いて事前学習され,既存のモデルを上回る性能を示した。
    • 手術フェーズ認識,行動認識,器具検出,セマンティックセグメンテーションにおいて,顕著な性能向上が確認された。

    Link: https://arxiv.org/abs/2503.19740

  • 全てのパッチが重要,より多くのパッチがより良い:全景パッチ学習によるAI生成画像検出の強化 [cs.CV]目的:AI生成画像の検出性能向上
    • AI生成画像の急増により,その検出技術の重要性が増している。
    • 従来の画像分類手法では,特徴的な領域に偏った学習となり,AI生成画像特有の微細な不自然さを捉えきれない場合がある。
    • 少数パッチに偏った学習を抑制し,より広範囲なパッチ情報を活用することで,ロバスト性と汎化性能を高める。
    • 本研究では,AI生成画像は全パッチに合成痕跡を含み,より多くのパッチを利用することで検出性能が向上するという二つの原理を明らかにした。
    • 提案手法である全景パッチ学習(PPL)は,パッチのランダム置換とパッチごとの対照学習により,少数パッチへの偏りを抑制し,全てのパッチを均等に活用する。
    • 実験結果から,提案手法が複数のベンチマークにおいて有効であることが確認された。

    Link: https://arxiv.org/abs/2504.01396

  • モジュールカルマンフレームワークにおける小型ニューラルネットワークによる多物体追跡 [cs.CV, cs.LG]目的:多物体追跡の性能向上
    • 自動運転などのリアルタイムなシステムにおいて,周囲の状況を正確に把握することが不可欠である。
    • 従来の追跡手法では,ヒューリスティックなモデルに依存しており,精度やロバスト性に限界がある。
    • 小型ニューラルネットワークを用いて,追跡の各段階を効率化し,精度とリアルタイム性を両立することを目指す。
    • 提案手法では,予測,アソシエーションの各モジュールに小型ニューラルネットワークを導入し,モジュール性と解釈性を確保した。
    • SPENTは予測誤差を50%以上削減し,SANTとMANTaは最大95%のアサインメント精度を達成した。
    • これらの結果は,小型かつタスク固有のニューラルモジュールが,追跡の精度とロバスト性を向上させることを示している。

    Link: https://arxiv.org/abs/2504.02519

  • ドメインシフトにおける新規性検出のための主題情報抽出 [cs.CV]目的:ドメインシフト下における新規性検出性能向上
    • 医療診断,サイバーセキュリティ等で,未知の異常を検知する技術は重要である。
    • 既存手法は,学習データとテストデータが同一ドメインに属すると仮定しており,ドメインシフトに弱い。
    • 主題情報と背景変動を分離し,ドメインシフトの影響を受けない新規性検出を目指す。
    • 提案手法は,主題と背景間の相互情報を最小化し,背景変動を深層ガウス混合モデルで表現する。
    • 主題表現のみで新規性検出を行うことで,ドメイン変動の影響を排除している。
    • 実験の結果,未知ドメインへの汎化性能が向上し,特に大きなドメインシフト下で既存手法を上回る。

    Link: https://arxiv.org/abs/2504.21247

  • CompBench:複雑な指示に基づく画像編集のベンチマーク [cs.CV]目的:複雑な指示に基づく画像編集のためのベンチマーク
    • 現実世界の応用では,複雑なシーン操作の需要が高まっている。
    • 既存のベンチマークはタスクの複雑さを単純化し,詳細な指示に欠ける。
    • 画像編集モデルの精密な操作能力を評価するためのベンチマークを確立する。
    • CompBenchは,詳細な指示の理解,空間的・文脈的推論を必要とする,挑戦的な編集シナリオを提供する。
    • MLLMと人間の協調フレームワークと,指示解釈のための次元分解戦略を提案した。
    • 評価の結果,現在の画像編集モデルの限界が明らかになり,次世代システムの開発に貢献する。

    Link: https://arxiv.org/abs/2505.12200

  • SPKLIP:自然言語とのスパイクビデオストリームの整合 [cs.CV]目的:スパイクビデオと自然言語の整合
    • スパイクカメラは独自のセンシング能力を持つが,その活用には課題が多い。
    • スパイクカメラの疎な非同期出力は,意味理解を困難にする。
    • スパイクビデオと自然言語の整合性を高める新たなアーキテクチャを開発する。
    • SPKLIPは,スパイクビデオと自然言語の整合のための初のアーキテクチャである。
    • 階層的なスパイク特徴抽出器により,イベントストリームの多段階の時間的ダイナミクスを適応的にモデル化する。
    • スパイク-テキスト対比学習により,スパイクビデオと自然言語を直接整合させ,有効な少数のサンプル学習を実現する。

    Link: https://arxiv.org/abs/2505.12656

  • 予測拡散:予測拡散モデルにおけるサンプリング一貫性の向上 [cs.CV]目的:予測拡散モデルにおけるサンプリング一貫性の改善
    • 拡散モデルは多様な生成タスクで進歩をもたらし,予測学習への応用も広がっている。
    • 予測学習では,真の軌跡との整合性が求められるが,拡散モデルはその点で課題がある。
    • 条件理解と目標のノイズ除去を分離することで,サンプリング一貫性を高めることを目指す。
    • 提案手法ForeDiffは,条件の理解と目標のノイズ除去を分離したフレームワークである。
    • ロボットのビデオ予測や時空間予測実験で,既存手法を上回る予測精度とサンプリング一貫性を示した。
    • 事前学習済みの予測器を活用し,生成を導く情報的な表現を抽出する点が特徴である。

    Link: https://arxiv.org/abs/2505.16474

  • Thalia:火山活動モニタリングのためのグローバル多modalデータセット [cs.CV]目的:火山活動モニタリングのためのグローバル多modalデータセット
    • 火山活動の監視は,人命,インフラ,生態系を守る上で極めて重要である。
    • 既知の火山のごく一部しか継続的に監視されておらず,データ解析の課題が存在する。
    • 深層学習を活用し,InSARデータの解釈を自動化・高度化することで,火山活動モニタリングの進展を目指す。
    • Thaliaは,既存のHephaestusデータセットを拡張し,高解像度・多源・多時間データを取り込んだグローバルなデータセットである。
    • InSARデータ,地形データ,大気変数を含む38の時空間データキューブで構成され,7年間のデータを網羅する。
    • 専門家による変形タイプ,強度,範囲の注釈と説明文が付属しており,公平な評価のためのベンチマークも提供される。

    Link: https://arxiv.org/abs/2505.17782

  • 疎性データVisionのための周波数適応離散コサイン変換-ViT-ResNetアーキテクチャ [cs.CV]目的:希少動物画像分類におけるデータ不足への対処
    • 生物多様性保全のため,希少動物の正確な識別が重要である。
    • 学習データが少ない場合,深層学習モデルの性能が低下する。
    • 周波数領域の特徴を適応的に選択し,高精度な分類を実現する。
    • 提案手法は,適応的なDCTパーティショニングによって画像周波数領域の特徴を捉える。
    • ViT-B16とResNet50を組み合わせることで,グローバルな文脈とローカルな空間表現を同時に抽出する。
    • 自作の50クラス野生動物データセットにおいて,従来手法を上回る精度を達成した。

    Link: https://arxiv.org/abs/2505.22701

  • SynPO:ビデオ詳細キャプションのための記述性と嗜好最適化の相乗効果 [cs.AI, cs.CV]目的:ビデオ詳細キャプションの性能向上
    • 動画理解は,映像コンテンツの検索や分析に不可欠であり,その重要性は増している。
    • 既存手法では,動画の微妙な動きや詳細な情報を捉えきれていないという課題がある。
    • 嗜好学習を活用し,詳細な動画キャプション生成における限界を克服することを目的とする。
    • 提案手法SynPOは,DPOとその派生手法と比較して,一貫して優れた性能を示すことが確認された。
    • SynPOは,最適化における負の嗜好の支配を防ぎ,言語能力を維持し,学習効率を向上させる。
    • 学習効率は,DPO派生手法に対して20%の改善が見られた。

    Link: https://arxiv.org/abs/2506.00835

  • 確率的優越性に基づくピア予測 [cs.GT, cs.AI]目的:ピア予測メカニズムにおける真実性インセンティブの強化
    • 機械学習において,信頼性の高い人間のフィードバックは,ノイズラベルからの学習やAIの人間との整合性を高める上で不可欠である。
    • 従来のピア予測メカニズムは,線形な効用関数を仮定しており,非線形な報酬ルールや効用関数では真実性を保証できない場合がある。
    • 幅広い単調増加効用関数に対して真実性をインセンティブとする,より強力な「確率的優越性に基づく真実性」を確立すること。
    • 提案手法は,真実を述べることのスコア分布が,他の戦略よりも確率的に優越することを保証する。
    • スコアの丸め処理を工夫することで,感度(公平性や統計的効率に関連)の低下を抑制できる。
    • 新たに開発した合意メカニズム(EA)は,二値信号設定において確率的優越性に基づく真実性を理論的に保証し,実験的にも高い感度を示す。

    Link: https://arxiv.org/abs/2506.02259

  • ReSpace:テキスト駆動による自己回帰型3D屋内シーンの合成と編集 [cs.CV]目的:3D屋内シーンの合成と編集に関する研究
    • 屋内シーンの自動生成は,バーチャルリアリティや建築設計など,様々な分野で重要性が増している。
    • 既存手法は,物体認識の単純化,編集機能の欠如,間取りの制限といった課題を抱えている。
    • 自然言語による指示に基づいて,より柔軟かつ高品質な屋内シーンの生成・編集を実現することを目指す。
    • ReSpaceは,コンパクトなシーン表現と自己回帰的なnext-token予測を用いて,テキストに基づいた3D屋内シーンの合成と編集を可能にする。
    • ユーザーの指示,空間的形状,物体の意味,シーン全体の構成を考慮した言語モデルのファインチューニングにより,物体の追加性能が向上した。
    • 従来の最先端手法を上回り,合成シーンにおいても人間が認識する品質が高いことが実験により示された。

    Link: https://arxiv.org/abs/2506.02459