arXiv雑要約

画像・音声 - 2026/05/19 公開

  • SafeDiffusion-R1:安全な拡散モデルのポストトレーニングのためのオンライン報酬誘導 [cs.DL, cs.CV]目的:拡散モデルにおける安全性の向上
    • 拡散モデルは強力だが,学習データに有害なコンテンツが含まれる可能性がある。
    • 既存手法は,高品質な教師データや報酬モデルの調整が必要で,拡張性に課題がある。
    • オンライン強化学習により,データ不足とモデル劣化の問題を解決し,安全性を高める。
    • 提案手法は,不適切なコンテンツの検出率を大幅に低減し,SD v1.4と比較して,約18.07%に減少。
    • 本手法は,アパレル検出数も646から15に減らし,安全性と生成品質を両立。
    • 有害なプロンプトに対する安全性向上は,7つのカテゴリーで一般化され,最先端の性能を達成。

    Link: https://arxiv.org/abs/2605.18719

  • ロボ・コルテックス:デュアルグレイン認知記憶と自律的知識誘導による自己進化型具現化エージェント [cs.RO, cs.CV]目的:複雑な環境における自律的な航行戦略の進化
    • 実世界での具現化エージェントには,環境でのナビゲーション能力が不可欠である。
    • 未知の環境下では,過去の経験を一般化できず「経験的健忘」の問題が生じる。
    • 過去のインタラクションから汎用的な戦略を合成し,ナビゲーションの成功率向上を目指す。
    • ロボ・コルテックスは,ナビゲーションのヒューリスティックを自律的に誘導し,認知戦略を洗練させる。
    • マルチモーダルな軌跡を構造化されたナビゲーションヒューリスティックライブラリに蒸留する自律的知識誘導(AKI)機構を導入。
    • IGNav,AR,AEQAにおける評価で,既存手法を最大+4.16% SPL,未知環境への転移で最大+15.30% SPL上回る性能を示した。

    Link: https://arxiv.org/abs/2605.18729

  • 学習不要なID認識メモリによるナラティブ長編動画生成の進歩 [cs.CV]目的:ナラティブ長編動画生成における一貫性とメモリ劣化の問題解決
    • 動画生成技術は発展してきたが,長尺動画における一貫性維持が課題である。
    • 既存手法では,プロンプトの変化に伴い,登場人物のIDや属性が曖昧になりやすい。
    • プロンプトの変化に対応し,登場人物の一貫性を維持する動画生成を目指す。
    • 提案手法IAMFlowは,学習なしでID認識メモリを活用し,プロンプト遷移を通じた一貫した動画生成を可能にする。
    • NarraStream-Benchという新たなベンチマークを導入し,多角的な評価を行った結果,既存手法を上回る性能を示した。
    • IAMFlowは,最も効率的なベースラインと比較して1.39倍の高速化を達成し,生成速度においても優れている。

    Link: https://arxiv.org/abs/2605.18733

  • EgoExoMem:同期した一人称視点と三人称視点動画におけるクロスビューメモリ推論 [cs.CV]目的:一人称視点と三人称視点動画間のクロスビューメモリ推論
    • 具現化された知能において,一人称視点メモリは広く利用されるが,包括的な時空間推論には不十分である。
    • 従来のメモリ推論は,特定の視点に偏りがちであり,複数の視点からの情報を統合することが困難である。
    • 異なる視点からの情報を統合し,より高度な時空間推論を実現することを目指す。
    • EgoExoMemは,一人称視点と三人称視点動画間のクロスビューメモリ推論のための初のベンチマークである。
    • 既存のMLLMはベンチマークを解決するには程遠く,最良のモデルでも55.3%の精度しか達成していない。
    • E$^2$-Selectはフレーム選択とRAGベースのメモリベースラインを上回る最先端の性能(58.2%)を達成した。

    Link: https://arxiv.org/abs/2605.18734

  • PIXLRelight:内包条件付けによる制御可能なライティング再現 [cs.CV, cs.GR, cs.LG]目的:単一画像からの物理的に制御可能なライティング再現
    • 現実的な画像生成はコンピュータビジョンの重要な課題であり,様々な応用分野で求められている。
    • 既存手法では,ライティング制御が限定的,誤差の蓄積,または高コストな画像最適化が必要となる。
    • 物理ベースレンダリングと学習に基づく画像合成を統合し,ライティング制御の自由度を高める。
    • PIXLRelightは,物理ベースレンダリングのライティングを任意に制御し,高品質なライティング再現を実現した。
    • 従来の技術と比較して,処理速度が大幅に向上し,1秒未満で画像を処理できる。
    • 学習時には,多照明写真からアルベド,拡散シェーディング,非拡散残差を分解し,モデルの条件付けに利用している。

    Link: https://arxiv.org/abs/2605.18735

  • 効率的な画像・動画生成のためのスペクトル漸進的拡散 [cs.CV]目的:画像および動画の効率的な生成
    • 画像生成技術は,コンテンツ制作やデータ拡張など,幅広い分野で不可欠である。
    • 拡散モデルは計算コストが高く,高解像度画像の生成に時間がかかるという課題がある。
    • 拡散モデルの周波数特性を利用し,計算効率を高めて高速な生成を実現すること。
    • 提案手法は,事前学習済みの拡散モデルのノイズ除去過程において,解像度を漸進的に拡大する。
    • スペクトルノイズ拡張機構と,モデルのパワースペクトルに基づく最適な解像度スケジュールを導入した。
    • 最先端の画像・動画生成モデルにおいて,学習不要な高速化と,さらなる効率・品質向上が確認された。

    Link: https://arxiv.org/abs/2605.18736

  • LongLive-2.0:長尺動画生成のためのNVFP4並列インフラストラクチャ [cs.CV, cs.DC]目的:長尺動画生成における速度とメモリボトルネックの解消
    • 動画生成技術は,エンターテイメントや教育など幅広い分野で重要性が増している。
    • 長尺動画生成は,計算量とメモリ使用量が大きく,高速化と効率化が課題である。
    • NVFP4を活用した並列化により,長尺動画生成の効率を向上させる。
    • LongLive-2.0は,学習において最大2.15倍,推論において最大1.84倍の高速化を実現した。
    • LongLive-2.0-5Bは,45.7 FPSの推論速度を達成し,ベンチマークテストでも高い性能を示した。
    • 本システムは,長尺動画生成におけるNVFP4を用いた初の学習・推論システムである。

    Link: https://arxiv.org/abs/2605.18739

  • Vision-OPD:マルチモーダルLLMのための詳細な視覚的理解学習 - オンポリシー自己蒸留による [cs.CV, cs.AI, cs.CL, cs.LG]目的:マルチモーダルLLMにおける詳細な視覚的理解の向上
    • マルチモーダルLLMは画像とテキストを統合し高度な推論を可能にするため,幅広い応用が期待されている。
    • LLMは画像全体から必要な情報を抽出することが難しく,詳細な視覚的理解が課題となっている。
    • モデル自身による自己蒸留を通して,画像の一部に注目する能力を向上させる。
    • Vision-OPDは,画像の一部領域に注目する教師モデルと,画像全体を扱う生徒モデルを用いた自己蒸留を行う。
    • この手法により,外部の教師モデルやラベルなしで,モデルが詳細な視覚情報を効果的に活用できるようになる。
    • 複数のベンチマークにおいて,Vision-OPDは既存の高性能モデルと同等またはそれ以上の性能を達成した。

    Link: https://arxiv.org/abs/2605.18740

  • ESI-Bench:知覚と行動のループを閉じる具現化された空間知能へ [cs.CV, cs.AI, cs.CL, cs.LG, cs.RO]目的:具現化された空間知能のベンチマークと,知覚・行動ループを通じた空間認識能力の評価
    • 空間知能は,ロボット工学やAIにおいて重要な能力であり,現実世界での自律的な行動を可能にする。
    • 従来の空間知能研究は,理想的な観察データに依存しており,能動的な探索や行動の影響を考慮していなかった。
    • 能動的な行動を通じて得られる観察データに基づき,より現実的な空間知能の評価を目指す。
    • 新しいベンチマークESI-BENCHは,10のタスクカテゴリーと29のサブカテゴリーで具現化された空間知能を評価する。
    • 最先端のMLLMを用いた実験で,能動的な探索が受動的な探索よりも大幅に優れた性能を示し,明示的な指示なしに空間戦略が創発することが確認された。
    • モデルは,証拠の質に関わらず,過信に基づいて早期にコミットする傾向があり,人間の反証を求める姿勢とのメタ認知的なギャップが明らかになった。

    Link: https://arxiv.org/abs/2605.18746

  • Aurora: ツール使用エージェントによる統一された動画編集 [cs.CV]目的:動画編集におけるエージェントによる編集計画の構築
    • 動画編集技術は,コンテンツ制作において不可欠であり,その効率化と高品質化が求められている。
    • 既存の動画編集モデルは,ユーザーからの詳細な指示を前提としており,曖昧な要求への対応が課題である。
    • 本研究は,曖昧なユーザー要求を構造化された編集計画に変換し,動画編集の精度と使いやすさを向上させる。
    • Auroraは,ツール拡張されたVLMエージェントと統一動画拡散変換器を組み合わせることで,曖昧な指示にも対応可能である。
    • AgentEdit-Benchを用いた評価により,Auroraが指示のみのベースラインよりも優れた性能を示すことが確認された。
    • VLMエージェントは,互換性のある既存の動画編集モデルにも転移可能であることが示された。

    Link: https://arxiv.org/abs/2605.18748

  • WavFlow:波形空間におけるオーディオ生成 [cs.SD, cs.CV]目的:高忠実度オーディオの直接波形空間生成
    • 近年のオーディオ生成技術の発展は,様々な応用を可能にする上で重要である。
    • 潜在空間圧縮による情報損失や複雑化が,既存手法の課題となっていた。
    • 中間表現を用いず,直接波形空間で高品質なオーディオ生成を実現すること。
    • WavFlowは,潜在空間圧縮を経ずに波形空間でオーディオを生成する新たなフレームワークである。
    • VGGSoundおよびAudioCapsのベンチマークにおいて,既存の潜在空間ベース手法と同等以上の性能を達成した。
    • 高品質な合成において,中間圧縮は必須ではないことを実証し,より単純でスケーラブルな手法を提供する。

    Link: https://arxiv.org/abs/2605.18749

  • これらの視点は同一のシーンか?3D基盤モデルが幻覚を見る際の多視点3D一貫性の評価 [cs.CV]目的:多視点3D一貫性評価における信頼性問題の分析
    • 3Dシーンの理解は,ロボティクスや拡張現実など幅広い応用分野において不可欠である。
    • 既存の評価指標は,ノイズや誤った情報を含む入力に対して高いスコアを出す場合がある。
    • 頑健な多視点3D一貫性評価指標を開発し,3D基盤モデルの信頼性を検証する。
    • ニューラル再構成と古典幾何学的検証の比較から,既存の評価指標が幻覚を起こしやすいことが示された。
    • 新しく開発したベンチマークと指標により,既存指標よりも最大3倍頑健な評価が可能となった。
    • COLMAPベースの指標は,人間の判断との相関性がMEt3Rよりも最大4倍高いことが実証された。

    Link: https://arxiv.org/abs/2605.18754

  • FSD50K-Solo:単一音源サウンドイベントの自動キュレーション [eess.AS, cs.SD]目的:単一音源サウンドイベントデータセットの構築
    • ニューラルネットワーク性能向上には高品質な学習データが不可欠。特に音声分野では大規模データセットが求められる。
    • 既存のFSD50Kデータセットには,背景雑音や重なりによる多音源サンプルが含まれており,データ利用を制限する。
    • 多音源サンプルの自動識別・除去による,より精度の高い単一音源データセットの構築を目指す。
    • 生成拡散モデルと識別分類器を組み合わせることで,多音源サンプルを効率的にフィルタリングするフレームワークを開発した。
    • 提案手法は,専門家が作成したテストセットにおいて高い性能を示した。
    • FSD50K-Soloを公開し,オープンソース音声コーパスのキュレーションにおけるスケーラブルな方法論を確立した。

    Link: https://arxiv.org/abs/2605.13931

  • 水中音響標的認識のための多段階注意ネットワークによる変調特徴の強化 [eess.SP, cs.SD]目的:水中音響標的認識の性能向上
    • 海洋活動において,水中音響標的認識は不可欠な技術である。船舶の安全確保や海洋資源探査に貢献する。
    • 船舶放射雑音は複雑かつ多様であり,正確な標的認識を困難にしている。特に,実データにおけるクラス不均衡が課題。
    • 変調特徴の強化と損失関数の調整により,水中音響標的認識の精度向上を目指す。
    • 変調包絡情報を効果的に捉える2次元DEMONスペクトル特徴を生成する手法を提案し,特徴抽出と融合を実現。
    • 多段階多タイプ注意機構(MMATT)と残差チャネル独立スペクトル注意機構(R-CISAM),マルチスケール分離融合スペクトル注意機構(MS-SFSAM)を開発。
    • 調整可能なクラスバランス型焦点損失(ACBFL)を導入し,クラス不均衡による性能劣化を抑制することに成功。

    Link: https://arxiv.org/abs/2605.16304

  • 変位を考慮したWiFi表現学習による弱教師あり相対位置推定 [eess.SP, cs.AI, cs.CV]目的:WiFiフィンガープリントに基づく相対位置推定
    • 屋内測位は,ロボットやAR/VRなどの応用において不可欠であり,その重要性は高い。
    • 既存手法は絶対位置推定に偏っており,大規模な座標アノテーションが必要となる点が課題である。
    • 本研究は,絶対位置推定に依存せず,弱教師あり学習を用いて相対位置を直接推定することを目的とする。
    • 提案手法Intersection Pathway(IP)は,WiFiフィンガープリントと変位情報を共有潜在空間で整合させる。
    • 潜在空間で加算・減算を行うことで,物理的な移動の合成に対応し,直接的な相対変位推論を実現する。
    • 実験結果から,提案手法が変位を考慮したWiFi表現を学習し,様々な変位範囲で高精度な相対位置推定が可能であることが示された。

    Link: https://arxiv.org/abs/2605.16357

  • ケルビン v1.0:H.264 用ニューラル事前エンコーダ [eess.IV, cs.CV, cs.DC, cs.LG, cs.MM]目的:H.264 エンコーダの前段に配置し,知覚的に重要な箇所にビットを集中させる軽量な学習型事前エンコーダ
    • 動画圧縮は,データ量を削減し効率的な配信を実現するために重要である。
    • 既存の動画圧縮技術は,画質とビットレートの間の最適化が課題である。
    • H.264 規格に準拠しつつ,画質を向上させ,ビットレートを削減することを目指す。
    • ケルビン v1.0 は,UVG ベンチマークにおいて,libx264 をベースラインと比較して,平均 BD-VMAF が -27.62% 向上した。
    • MCL-JCV パブリックセットにおいても,30 クリップ中 28 クリップで BD-VMAF が向上し,平均 BD-VMAF は -27.70% であった。
    • H.264 の非微分可能性という課題に対し,精度の高いレート推定器と U-Net 歪みプロキシを組み合わせたハイブリッドコーデックプロキシを開発した。

    Link: https://arxiv.org/abs/2605.16376

  • 病理学的MILにおけるモダリティボトルネックの解消:仮想分子染色によるアプローチ [q-bio.QM, cs.CV, cs.LG]目的:病理画像における多重インスタンス学習の投影層の改善
    • 病理画像解析は,疾患診断や予後予測において重要な役割を果たす。
    • 従来のMILでは,H&E染色情報のみに依存する投影層がボトルネックとなっている。
    • 空間トランスクリプトミクスを用いて,分子情報を投影層に組み込み,予測精度向上を目指す。
    • MISTは,標準的な投影層を置き換えることで,256設定中240設定で性能が向上した。
    • 生存予測,組織サブタイピング,バイオマーカー予測の各タスクにおいて,それぞれ+5.2%,+3.3%,+2.6%の平均的な改善が見られた。
    • 遺伝子由来のプロトタイプが性能向上に寄与し,H&E染色画像から空間的に一貫性のある分子プログラムを捉えていることが示された。

    Link: https://arxiv.org/abs/2605.16392

  • 最適化されたサブクラス事前知識を用いた医療画像拡張のためのフローマッチング [eess.IV, cs.CV]目的:医療画像拡張のためのフローマッチング手法
    • 医療画像診断において,稀少疾患の検出は重要だが,データ不足が課題である。
    • 既存の生成モデルは,粗い疾患ラベルによるバイアスや,稀少なサブポピュレーションの長距離移動を招く。
    • サブクラスの事前知識を導入し,生成経路を短縮することで,稀少疾患の生成精度向上を目指す。
    • 提案手法は,ガウス混合モデルを用いて,粗いラベルをコヒーレントなサブモードに分割する。
    • サブクラス条件付きのソース分布を学習することで,開始分布を再配置し,経路長を短縮する。
    • MIMIC-LT,NIH-LT,CT-RATEのベンチマークにおいて,尾部クラスの生成忠実度と多様性が向上し,下流タスクの精度も改善された。

    Link: https://arxiv.org/abs/2605.16469

  • MRIスライス補間の深層学習:問題設定の重要性 [eess.IV, cs.CV, cs.LG]目的:MRIスライス補間による,スライス方向の解像度向上
    • 臨床MRIでは,スライス方向の解像度が低いことが診断上の課題となる。
    • 既存手法では,スライス方向の解像度を向上させることは困難である。
    • 深層学習を用いて,スライス間を補間し,解像度を改善することを目指す。
    • 問題設定を改善することで,SSIM性能が全決定性アーキテクチャで58%向上した。
    • U-Netモデルが最も良い結果を示し,PSNRは30.08dB,SSIMは0.898を達成した。
    • 問題設定の工夫が,アーキテクチャの洗練よりも290倍大きな影響を与えることが示された。

    Link: https://arxiv.org/abs/2605.16476

  • ブラックボックス追随者,ホワイトボックスリーダー:MPECに対する部分的なゼロ次手法 [math.OC, cs.GT]目的:均衡制約を持つ数学計画問題におけるリーダーの最適化手法
    • ゲーム理論や経済学における均衡問題の解析・解決は,資源配分や戦略策定において重要である。
    • 従来の均衡問題解決手法は,フォロワーの応答モデルを必要とするため,モデル化が困難な場合に適用できない。
    • リーダーが自身のコスト関数は把握している状況下で,フォロワーの応答モデルが未知の場合に有効な最適化手法を開発する。
    • 本研究では,リーダーのコスト関数の正確な勾配と,フォロワーの応答のゼロ次ヤコビアン推定を組み合わせるPZOSアルゴリズムを提案した。
    • PZOSアルゴリズムは,既存のブラックボックス手法と比較して,より低い分散で解に収束することが理論的に示された。
    • ルーティングゲームやセキュリティゲームにおける数値実験により,PZOSアルゴリズムの収束速度,目的値,推定分散において優位性が確認された。

    Link: https://arxiv.org/abs/2605.16685

  • レイリー波の動径成分優勢モード反転:DASに基づく敷地特性評価への応用 [eess.SP, cs.NI, physics.geo-ph, cs.SD]目的:DASデータから得られる動径成分のレイリー波分散データを用いた,正確なせん断波速度プロファイルの推定
    • 近地表の敷地特性評価において,DAS技術が変革的な役割を担うことが期待されている。
    • DASで計測される動径成分のレイリー波分散データは,複雑な地層構造下で垂直成分と異なる場合がある。
    • 動径成分の分散データから正確なせん断波速度プロファイルを推定するための,一貫性のある手法を開発する。
    • 提案手法は,計測された動径成分の主要な分散傾向と,最も寄与の大きいモードとの整合性を図る。
    • この手法により,明示的なモードの特定が不要となり,動径成分の分散データの解釈が一貫性を持ち,主観的な判断への依存度を低減する。
    • 合成モデルと実際のDASデータを用いた評価の結果,提案手法は正確なせん断波速度プロファイルを算出できることが示された。

    Link: https://arxiv.org/abs/2605.16717

  • 制御可能生成画像圧縮のための適応融合事前知識転送 [eess.IV, cs.MM, cs.PF, eess.IV, cs.CV]目的:制御可能な生成画像圧縮における,適応融合事前知識の転送
    • 画像圧縮技術は,データ伝送や保存において重要であり,高効率化が求められている。
    • 低ビットレートでの再構成では,微細なテクスチャや局所構造の保持が難しく,画質劣化が課題である。
    • 事前知識の活用により,限られた情報から詳細な再構成を可能にし,画質と効率を両立することを目指す。
    • 提案手法は,事前学習済みのAdaCodeモデルから適応的に融合された事前知識を転送し,低遅延かつパラメータ数の削減を実現した。
    • 実験結果から,Kodak,CLIC2020,DIV2Kデータセットにおいて,PSNRと同等の性能を示し,特にNIQEスコアで知覚的な改善が確認された。
    • デコーダー側での融合事前知識の整合性は,再構成誤差の上限と関連しており,効果的な再構成に貢献する。

    Link: https://arxiv.org/abs/2605.16817

  • MIRAGE:ロバストなマルチモーダルアーキテクチャが,視覚からメンタルイメージへのfMRI-to-imageモデルを翻訳する [q-bio.NC, cs.CV]目的:視覚データセットで学習し,脳活動からメンタルイメージをクロスデコードする手法
    • 脳活動から画像を再構成するモデルは,人間の認知機能を理解する上で重要であり,ブレイン・マシン・インターフェースなどへの応用が期待される。
    • 既存の画像再構成モデルは,実際に見た画像に対する性能が高い一方で,内的に生成されたメンタルイメージに対する性能が必ずしも高いとは限らない。
    • メンタルイメージの再構成性能を向上させるために,外部刺激を用いた大規模データセットの活用可能性を示す。
    • MIRAGEは,NSD-Imageryベンチマークにおいて,メンタルイメージの再構成において最先端の性能を達成した。
    • メンタルイメージ再構成には,比較的低次元の画像特徴量と,テキストおよび高・低レベルの画像特徴量によるガイダンスが有効であることが示された。
    • 既存の外部刺激データセットは,メンタルイメージのデコードに適した学習データとなり得る可能性が示唆された。

    Link: https://arxiv.org/abs/2605.17198

  • クラスごとの監督信頼性の低い状況下におけるロバストなオーディオタグ付け [nlin.AO, cs.MA, eess.AS, cs.SD]目的:オーディオタグ付けにおけるロバスト性の向上
    • 近年のオーディオタグ付け技術の進歩は,AudioSetのような弱教師ありデータセットに依存している。
    • データセットの注釈品質は音響クラスによって異なり,不完全,曖昧,信頼性が低いラベルが存在する。
    • クラスごとの監督信頼性を明示的にモデル化することで,弱教師あり学習におけるロバスト性を高める。
    • 本研究では,クラスごとの監督信頼性(CSU)フレームワークを提案し,学習中にクラスレベルで監督強度を制御する。
    • CSUは各クラスの信頼性パラメータを学習し,信頼性の低い監督をモデル構造や推論プロセスを変更せずに抑制する。
    • 実験の結果,CSUは様々なアーキテクチャと監督信頼性の低い状況下でロバスト性を向上させることが示された。

    Link: https://arxiv.org/abs/2605.17512

  • 拡散モデルにおけるパス測度上の逐次モンテカルロによる単純な近似と微分不要な推論時間スケーリング [stat.ML, cs.CV, cs.LG, cs.NA, math.NA, math.PR]目的:拡散モデルの推論時間におけるスケーリング手法の開発
    • 拡散モデルは高品質なサンプル生成に貢献するが,計算コストが高い点が課題。
    • 既存の推論時間ガイダンス手法は勾配計算が必要で,バイアスや計算負荷が大きい。
    • 勾配計算を不要とし,計算効率と生成品質を両立するスケーリング手法を提案する。
    • 提案手法URGEは,ギルサノフ変換を用いたパスごとの重要度重み付けにより,微分不要な推論時間スケーリングを実現する。
    • パスごとのスケーリングと粒子ごとのSMCの等価性を理論的に証明し,バイアスのない終端分布を保証する。
    • 合成テストと拡散モデルのベンチマークにおいて,既存手法を上回り,より高品質な生成結果を得た。

    Link: https://arxiv.org/abs/2605.17850

  • 運動するシルエットをニューロモルフィックビジョンで捉える [quant-ph, cs.DC, eess.IV, cs.CV, cs.RO]目的:動的な環境下におけるリアルタイムな二値化処理手法
    • 視覚コミュニケーションにおいて,テキストや標識などのシルエットは基本的な役割を担う。効率的な画像処理には不可欠。
    • 従来のフレームベース画像処理は,高速移動や過酷な照明条件下でモーションブラーが発生しやすく,情報が失われる問題がある。
    • ニューロモルフィックビジョンを活用し,フレームとイベントの相乗効果で,高速かつ高画質な二値化を実現し,この問題を解決する。
    • 提案手法は,モーションブラーの軽減において,既存の技術と同等の性能を示す。
    • 厳しい照明条件下においても,大幅な改善が認められる。
    • イベントの稀少性による制限を回避し,極めて高いフレームレートでも明確なターゲット形状を維持できる。

    Link: https://arxiv.org/abs/2605.17984

  • Inter-LPCM:LiDAR点群圧縮のための学習に基づくフレーム間予測符号化 [eess.IV, cs.CV, cs.MM]目的:LiDAR点群圧縮のための学習に基づくフレーム間予測符号化手法
    • LiDARは自動運転やロボット工学において重要な役割を果たしており,効率的なデータ圧縮が不可欠である。
    • 既存のフレーム間予測手法は単純なモデルに依存し,複雑な動きや構造的依存性を捉えきれないという課題がある。
    • フレーム間相関を利用した点群圧縮により,冗長性を削減し,圧縮効率を向上させることを目指す。
    • 提案手法Inter-LPCMは,方位予測にデルタ符号化,半径圧縮にInter-RPモデル,標高角予測にLAEPモデルを用いる。
    • 球面座標系において,量子化ステップを最適化するRD最適化手法と,各座標成分に適応したエントロピー符号化モデルを設計した。
    • 実験結果から,Inter-LPCMが従来の球面座標ベースの点群圧縮手法と比較して優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2605.18006

  • CATRF:コーデック適応型三平面輝度場による体積コンテンツ配信 [eess.IV, cs.CV, cs.MM]目的:体積コンテンツ配信のためのコーデック適応型三平面輝度場
    • 次世代コンテンツ配信において,体積メディアは没入感のある体験を提供するが,帯域幅が課題である。
    • 既存の体積表現はモデルサイズを削減するものの,2D動画と同等のビットレートを実現するには工夫が必要である。
    • 本研究は,標準コーデックによる圧縮に直接適応可能な輝度場を学習することで,低ビットレート配信を可能とする。
    • CATRFは,既存のコーデック(JPEG/VP9/HEVC/AV1)をループに取り込んだ圧縮フレームワークであり,優れたレート歪み特性を示す。
    • コーデック非依存型や学習型コーデックと比較して,一貫して良好な性能を発揮し,圧縮効率とデコード速度で3DGS手法を上回る。
    • これらの結果は,フリービューポイントビデオストリーミングのための,実用的な低ビットレートかつ圧縮に強い体積表現への道筋を示す。

    Link: https://arxiv.org/abs/2605.18054

  • 人間のランダム性の起源に向けて:ロック・ペーパー・シザースにおける相互作用による強化 [math.OC, cs.DC, cs.MA, physics.soc-ph, cs.GT]目的:人間が生成するランダム性の制約と,人間同士の相互作用を通じたその変化
    • 人間の意思決定におけるランダム性は,予測可能性を低下させ,適応的な行動を可能にする重要な要素である。
    • 人間のランダム性には認知・運動・戦略的な偏りが存在し,真のランダム性を実現することは困難である。
    • 人間同士の相互作用が,偏った行動を不安定化させ,ランダム性を高めるメカニズムを解明すること。
    • 人間同士の対戦データにおいて,ランダム性の指標であるLZC値が,乱数生成器との対戦よりも高い場合が少数存在した。
    • プレイヤーが相手の頻度バイアスに反応する「感度」は,相手の将来のエントロピー増加と正の相関を示した。
    • この関係は,相手のエントロピーが低い状態,すなわち明確な頻度バイアスが存在する際に,最も顕著に現れた。

    Link: https://arxiv.org/abs/2605.18616

  • 単眼画像からのロバストな姿勢推定のための参照ベース推論 ReBaR [cs.CV]目的:単眼画像からの人間の姿勢と形状推定
    • 人間の行動理解において,姿勢推定は重要な役割を担う。
    • 遮蔽や深度曖昧性により,正確な姿勢推定が困難である。
    • 遮蔽や深度曖昧性に対するロバストな姿勢推定手法を確立する。
    • 提案手法ReBaRは,アテンション機構を用いて体と部位の情報を抽出する。
    • 部位の情報をクエリ,体の情報を参照として用いることで,部位間の依存関係を学習する。
    • 3つのベンチマークデータセットにおいて,既存手法を上回る性能を達成した。

    Link: https://arxiv.org/abs/2303.11675

  • Intuitive Surgical SurgToolLocおよびSurgVUチャレンジの結果:2022-2025 [cs.CV]目的:手術支援ロボットにおける手術ツール局在化と視覚的理解の課題に対する機械学習モデルの性能評価
    • 手術支援ロボットは外科手術に変革をもたらす可能性があり,その発展には機械学習が不可欠である。
    • 手術映像データの解析は困難であり,高精度な手術支援システムの開発が求められている。
    • 手術ツール局在化と視覚的理解の精度向上を目指し,機械学習コミュニティの貢献を促す。
    • SurgToolLocおよびSurgVUチャレンジの結果を詳細に報告し,機械学習モデルの性能を比較検討した。
    • 公開データセットを用いて評価が行われ,最先端技術の動向が明らかになった。
    • これらの課題は,手術支援ロボットの更なる発展に貢献することが期待される。

    Link: https://arxiv.org/abs/2305.07152

  • 無線チャネルにおける移動戦略的プレイヤー間の静的・動的妨害ゲーム [cs.GT, cs.NI]目的:無線チャネルにおける正当な受信機と妨害者の間の競争
    • 無線通信の信頼性確保は重要であり,妨害対策はその不可欠な要素である。
    • 従来の妨害対策研究では,プレイヤーの固定位置を前提としていた。
    • 移動可能なプレイヤー間の妨害ゲームの戦略を明らかにする。
    • 静的ゲームは解析的に解くことができ,効率的な戦略を特定した。
    • 動的ゲームでは,強化学習を用いて平衡点に到達する戦略を学習した。
    • 理論的知見を訓練に活用し,実用的な設定での有効性を検証した。

    Link: https://arxiv.org/abs/2306.10956

  • 単一画像からの反射除去:パッチ反射輝度事前分布を用いた手法 [cs.CV]目的:実世界画像における単一画像からの反射除去
    • ガラス面での光の透過と反射による多様な画像劣化が存在し,高品質な画像復元が課題。
    • 既存手法は特定の事前仮定に依存しており,汎用性に欠ける場合が多い。
    • 汎用的な反射強度事前分布を学習し,反射除去の精度向上を目指す。
    • 提案手法は,反射現象の強度を捉える反射強度事前分布を導入し,RPENで学習する。
    • RPENは画像内の局所パッチ分割を行い,非一様な反射事前分布を獲得する。
    • PRRNはtransformer U-Netアーキテクチャを採用し,RPENからの事前分布を活用することで,最先端の性能を達成する。

    Link: https://arxiv.org/abs/2312.03798

  • 収益の迅速な最大化 [cs.GT, math.OC, stat.AP]目的:データ駆動型価格設定による収益最大化
    • 需要予測に基づいた価格設定は,企業収益に直結する重要な課題である。
    • 過去の限られた価格データから最適な価格設定を行うことは困難である。
    • 過去データのみで達成可能な最悪ケースの収益を定量化し,効率的な価格実験を支援する。
    • 本研究では,過去データのみでの最悪ケース収益と,完全情報下での最適収益との比率を正確に評価する手法を開発した。
    • 価格変更の制約を考慮した上で,局所的な需要情報だけでも収益改善に寄与することを示した。
    • 効率的な価格実験手法を提案し,目標とする収益保証を達成するために必要な実験回数を大幅に削減できることを示した。

    Link: https://arxiv.org/abs/2407.07316

  • AASIST3:SSL特徴と追加正則化を用いたKAN拡張AASISTによる音声ディープフェイク検出 - ASVspoof 2024チャレンジに向けて [eess.SY, cs.SY, eess.SP, cs.SD, cs.AI, eess.AS]目的:音声ディープフェイクの検出
    • 音声認証技術は,金融取引やセキュリティなど,様々な分野で利用されており,その重要性は高い。
    • 深層学習の発展により,音声合成技術が向上し,音声認証システムが欺瞞されるリスクが高まっている。
    • 合成音声による欺瞞を防ぎ,音声認証システムのセキュリティを強化することを目的とする。
    • 提案手法AASIST3は,Kolmogorov-Arnoldネットワークや追加層などを導入することで,既存のAASISTフレームワークを大幅に改良した。
    • その結果,クローズド条件下でminDCF 0.5357,オープン条件下で0.1414という優れた検出性能を達成した。
    • これにより,合成音声の検出精度が向上し,音声認証システムのセキュリティ強化に貢献する。

    Link: https://arxiv.org/abs/2408.17352

  • Eager Modeにおけるバンドル調整 [cs.RO, cs.CV]目的:バンドル調整によるカメラ姿勢と3次元ランドマークの最適化
    • ロボット工学や拡張現実など,多様な分野で重要な役割を担う技術である。
    • 既存のC++ベースのライブラリは,PyTorchのような深層学習フレームワークとの連携が困難である。
    • PyTorchとのシームレスな統合を実現し,効率的なバンドル調整を可能とする。
    • 本研究で開発したEager Modeのバンドル調整ライブラリは,GPU上で高速な処理を実現している。
    • ベンチマークテストの結果,GTSAM,g$^2$o,Ceresと比較して,それぞれ平均で18.5倍,22倍,23倍の高速化を達成した。
    • スパース性を考慮した自動微分設計と,GPUアクセラレーションによる疎演算が,この高速化に貢献している。

    Link: https://arxiv.org/abs/2409.12190

  • 教師なし学習を活用した低コストな画像異常検知 [cs.CV, cs.AI]目的:低コストな画像異常検知システムの開発
    • 製造業における品質管理の自動化は,生産性向上とコスト削減に不可欠である。
    • 従来の画像検査システムは,大量のデータと専門知識が必要で,中小企業には負担が大きい。
    • 少ないデータで,安価なハードウェアで実現可能な異常検知システムの構築を目指す。
    • 本システムは,わずか10枚の正常画像を用いて,Raspberry Pi上で90秒で学習と推論を完了する。
    • F1マクロスコアは0.95を超え,高い精度を実現した。
    • 環境変化に若干の影響はあるものの,中小企業向けに迅速かつ経済的な検査手法を提供する。

    Link: https://arxiv.org/abs/2409.15980

  • ドメインを意識した連続的ドメイン拡張による行動予測 [cs.CV, cs.RO]目的:自動運転における行動予測の精度向上
    • 自動運転の安全性向上に不可欠であり,複雑な環境下でのナビゲーションを可能にする。
    • 新しい運転シナリオへの対応のため,頻繁なモデル再学習が必要となり,計算コストが増大する。
    • ドメイン特化と汎化のバランスを取り,効率的なモデル更新を実現する。
    • 提案手法DECODEは,既存の継続学習アプローチと比較して,忘却率が0.044と低く抑えられた。
    • 平均minADEは0.584mであり,従来の学習戦略を大きく上回る性能を示した。
    • ハイパーネットワークと正規化フローにより,モデルのストレージ要件を削減し,リアルタイムなモデル選択を可能にした。

    Link: https://arxiv.org/abs/2411.17917

  • ピクセルの集団的貢献による物体検出器の説明 [cs.CV]目的:物体検出器の説明
    • 物体検出器の信頼性向上には,その根拠を説明することが不可欠である。
    • 既存手法は個々のピクセルの貢献に焦点を当て,ピクセル間の相互作用を無視している。
    • ピクセル間の集団的貢献を考慮した説明手法を開発し,より正確な説明を目指す。
    • 提案手法は,ゲーム理論に基づき,個々のピクセルと集団的貢献の両方を捉える。
    • 物体検出におけるバウンディングボックスの位置特定とクラス決定の説明に有効である。
    • 実験により,提案手法が最先端手法よりも重要な領域を正確に特定することが示された。

    Link: https://arxiv.org/abs/2412.00666

  • 行動品質評価に関する包括的調査:手法とベンチマーク [cs.DC, cs.CY, cs.CV]目的:行動品質評価手法の体系的な比較と評価
    • スポーツ分析,技能評価,医療など,人間の行動の質を客観的に評価する需要が高まっている。
    • 既存研究は多様なデータセットと評価設定で行われ,手法間の公平な比較が困難であった。
    • 既存手法の分類と統一的なベンチマークの確立により,客観的な比較を可能にすること。
    • 既存の行動品質評価手法を,ビデオ,骨格,マルチモーダルという3つのカテゴリで整理した。
    • 複数のデータセットと標準化された評価プロトコルを用いて,ビデオベースの手法に対する統一ベンチマークを構築した。
    • 現在の課題と将来の方向性を分析し,AI技術の発展による新たな機会を示唆した。

    Link: https://arxiv.org/abs/2412.11149

  • 効率的なLLM推論と生成拡散を用いた汎用画像コーディングのための意味的特徴の分離と合成 [cs.CV, eess.IV]目的:汎用画像コーデックの構築
    • 画像圧縮技術は,データ伝送や保存において重要な役割を担う。
    • 既存の学習型画像圧縮は,特定の用途に特化し,再学習コストが高い。
    • 人間と機械の両方のニーズに応える汎用的な圧縮手法の開発。
    • UniCodecは,意味的特徴の分離と合成に基づき,人間と機械の両方の要求を満たす。
    • LLMを用いたタスク固有のラベルコードブックを活用することで,迅速なタスク切り替えを実現。
    • 生成拡散モデルによる高品質な画像再構成により,人間と機械の両方にとって最適な圧縮を実現。

    Link: https://arxiv.org/abs/2412.18158

  • オープンセット教師あり異常検知のための分布プロトタイプ拡散学習 [cs.CV]目的:オープンセット教師あり異常検知における異常検知性能の向上
    • 異常検知は,製造,医療,セキュリティなど幅広い分野で重要な役割を果たす
    • 既存手法は異常サンプル不足に対応するため擬似異常を生成するが,正常サンプルの情報を十分に活用できていない
    • 正常サンプルの分布を効果的に学習し,異常と正常の識別境界を明確にすることを目的とする
    • 提案手法は,学習可能なガウスプロトタイプを用いて正常サンプルの潜在表現空間を構築し,拡散ブリッジを学習することで正常サンプルをプロトタイプへ移行させる
    • また,ハイパースフェリカル空間における分散特徴学習により,サンプル間の分離を強化し,分布外の異常検知を改善する
    • 実験結果は,9つの公開データセットにおいて最先端の性能を達成し,提案手法の有効性を示す

    Link: https://arxiv.org/abs/2502.20981

  • ビジョンモデルのための適応型カメラセンサー [cs.CV, cs.AI]目的:深層学習ベースのコンピュータビジョンのドメインシフトに対する改善
    • コンピュータビジョンは,自動運転や画像認識など,幅広い分野で不可欠な技術である。
    • ドメインシフトにより,モデルの汎化性能が低下し,実用化が困難になる場合がある。
    • モデルの視点に基づいた高品質な画像取得により,ドメインシフトの影響を軽減することを目指す。
    • 提案手法Lensは,軽量でありながら,リアルタイムでセンサーパラメータを適応的に調整可能である。
    • ImageNet-ES Diverseという新しいベンチマークデータセットを用いて,Lensの有効性が検証された。
    • Lensは,既存のセンサー制御やモデル修正手法と比較して,モデルの精度を大幅に向上させる。

    Link: https://arxiv.org/abs/2503.02170

  • 内視鏡用単眼VSLAMにおける多重マップの3D高密度化 [cs.CV]目的:内視鏡シーケンスにおける多重マップの3D高密度化手法
    • 内視鏡下手術では,視覚情報に基づく環境理解が重要であり,正確な3Dマップの構築が求められる。
    • 従来の単眼VSLAMは,モーションブラーや遮蔽,手術器具の影響でトラッキングが頻繁に失われる傾向がある。
    • 本研究は,既存の疎なマップを高密度化し,臨床応用のための信頼性の高い3Dマップを提供することを目指す。
    • 提案手法は,異常値除去とマップ高密度化を可能にし,ロバストな3Dマップを生成する。
    • C3VDファントム結腸データセットにおいて,RMS誤差4.15mmの正確な高密度マップを効率的な計算時間で実現した。
    • Endomapperデータセットの実際の結腸鏡検査においても良好な結果が得られた。

    Link: https://arxiv.org/abs/2503.14346

  • 多様なモダリティと粒度における検索拡張生成 [cs.CL, cs.AI, cs.CV, cs.IR, cs.LG]目的:多様なモダリティと粒度を持つコーパスに対する検索拡張生成フレームワーク
    • 質問応答の精度向上には,外部知識に基づいた根拠が重要であり,RAGはそのための有効な手法である。
    • 既存のRAGはテキストに限定され,マルチモーダルへの拡張も単一モダリティに留まるため,現実の多様な質問に対応できない。
    • 異なるモダリティと粒度を持つ知識ソースから適切に情報を検索・統合することで,RAGの汎用性と性能を向上させる。
    • 提案手法UniversalRAGは,モダリティ間のギャップを克服するため,動的なモダリティルーティングを導入し,質問に最適なコーパスを特定する。
    • 各モダリティを複数の粒度に整理することで,質問の複雑さに応じた最適な検索を可能にする。
    • 10のベンチマークで,既存のベースラインと比較してUniversalRAGの優位性が示された。

    Link: https://arxiv.org/abs/2504.20734

  • ランキングに基づく自己教師あり学習による汎用的なビデオ品質評価 [cs.CV]目的:ビデオ品質評価の汎化性能向上
    • ビデオ処理の品質は重要であり,その定量的評価は様々な場面で不可欠である。
    • 高品質なアノテーションデータの作成には,労力とコストがかかり,スケーラビリティが課題である。
    • 大規模な未ラベルデータを用いて,アノテーションに依存しない品質評価モデルを開発する。
    • 提案手法は,既存のビデオ品質評価モデルと同等以上のゼロショット性能を達成した。
    • 多様なビデオコンテンツと歪みに対する,分布外汎化性能において優れていることを示した。
    • 人間がラベル付けしたデータセットでファインチューニングした場合,最新技術を上回る性能を達成した。

    Link: https://arxiv.org/abs/2505.03631

  • パーソナライズされた連合型インテリジェンスのための基盤モデルに関する調査 [cs.AI, cs.CV, cs.NE]目的:パーソナライズされた連合型インテリジェンス(PFI)の現状と将来展望
    • AI技術の発展において,汎用人工知能(AGI)実現に向けた基盤モデルの重要性が高まっている。
    • 基盤モデルの規模が大きく,プライバシー保護や計算資源の制約から,個々のユーザーに合わせたカスタマイズが困難である。
    • プライバシーを保護しつつ,基盤モデルを個々のユーザーに適応させるための新たなパラダイム,PFIの確立を目指す。
    • 本調査では,連合学習(FL)と基盤モデル(FM)の最新動向を概観し,PFIの基盤を築く。
    • PFIパイプラインの主要段階である,エッジにおける効率的なパーソナライズ,信頼性の高い適応,および検索拡張生成による適応的洗練について探求する。
    • PFIを可能にするための将来的な方向性を提示し,AGIの補完的アプローチとしてのAPI開発の基礎を築く。

    Link: https://arxiv.org/abs/2505.06907

  • 野生環境におけるロボットポリシーのための器用な人間とのインタラクション [cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY]目的:多様な環境下でのロボットの操作に関するデータ収集と学習フレームワーク
    • ロボットの汎用的な操作能力向上には,大規模かつ多様なデータセットが不可欠である。
    • 高品質なデータセットの取得にはコストがかかり,スケーラビリティが課題となっている。
    • 人間の手によるデータ収集を通して,コストを抑えつつ汎用性の高いロボットポリシーの構築を目指す。
    • DexWildは,多様なデータ収集チームが人間の手でインタラクションデータを収集するシステムである。
    • 人間のデータとロボットのデータで共同学習することで,個別に学習するよりも性能が向上した。
    • 未知の環境での成功率は68.5%と,ロボットデータのみで学習した場合の4倍近い性能を示した。

    Link: https://arxiv.org/abs/2505.07813

  • DriveMoE:エンドツーエンド自律運転におけるビジョン・言語・行動モデルのための専門家混合 [cs.CV, cs.AI, cs.RO]目的:エンドツーエンド自律運転のための専門家混合(MoE)フレームワーク
    • 自動運転は,交通渋滞の緩和,事故の削減,移動の効率化に貢献し,社会に大きな利益をもたらす。
    • 複雑な運転シナリオ,特に稀な運転操作への対応が課題であり,既存モデルはモード平均化の影響を受ける。
    • ビジョンと行動の専門家混合によって,多様なシナリオに対応し,性能向上を目指す。
    • DriveMoEは,シーン特化型ビジョンMoEとスキル特化型行動MoEを導入した新しいフレームワークである。
    • カメラ選択において,運転状況に応じて関連カメラを動的に選択することで,人間のような認知模倣を実現した。
    • Bench2Driveの評価実験において,最先端(SOTA)の性能を達成し,その有効性を実証した。

    Link: https://arxiv.org/abs/2505.16278

  • 拡散モデルのアライメントと安全性:強化学習と報酬モデリングに関するサーベイ [cs.DB, cs.CV]目的:拡散モデルのアライメント,安全性,嗜好の充足,および誤用の堅牢性に関する現状の把握
    • 拡散モデルは画像生成において中心的役割を担うが,倫理的な問題や悪用リスクへの対策が不可欠である。
    • 拡散モデルの出力は,指示通りの結果にならない場合や,有害なコンテンツを生成する可能性がある。
    • 拡散モデルの安全性と人間への適合性を高めるための技術的課題と今後の展望を整理する。
    • 本サーベイでは,強化学習,報酬モデリング,嗜好最適化,安全性重視のファインチューニングなど,テキスト-画像拡散モデルのアライメントに関する近年の進展を概観している。
    • フィードバック源,報酬信号の種類,最適化メカニズム,分布シフトへの対処,安全性への考慮の度合いといった5つの軸で文献を整理している。
    • マルチ目的アライメント,効率的な嗜好学習,敵対的堅牢な安全性アライメントなど,解決すべき課題を提示している。

    Link: https://arxiv.org/abs/2505.17352