arXiv雑要約

画像・音声 - 2025/10/14 公開

  • 離散型公平分割における公平性の概念間の関係性についての探求 [cs.GT]目的:離散型公平分割における公平性の概念間の包含関係
    • 資源配分は社会の根幹であり,公平性は重要な倫理的要請である。
    • 「公平性」の定義が多岐に渡り,どの概念を優先すべきか不明確である。
    • 各公平性の概念の包含関係を明確化し,適切な概念選択を支援する。
    • 22種類の公平性の概念を包含関係に基づき階層構造に整理した。
    • ほとんどの概念ペアに対し,包含関係の証明または反例を示した。
    • 概念間の関係性を自動推論するエンジンをWebアプリケーションとして開発した。

    Link: https://arxiv.org/abs/2502.02815

  • マルチスケール特徴解結合による対照表現蒸留 [cs.CV, cs.AI]目的:対照表現蒸留における性能向上
    • 深層学習モデルの軽量化は,計算資源の制約下での実用化に不可欠である。
    • 既存の特徴蒸留法は,グローバル特徴量のアライメントに偏り,局所的な意味情報の混乱を招く。
    • 局所的な特徴解結合により,効率的な知識伝達を実現し,性能向上を目指す。
    • 提案手法MSDCRDは,グローバル特徴量をマルチスケールな局所特徴量に解結合することで,効率的な蒸留を可能にする。
    • MSDCRDは,外部メモリへの依存を排除し,単一バッチで学習を完結できる。
    • 様々な教師・生徒モデルの組み合わせで優れた性能を示し,汎化能力の高さが確認された。

    Link: https://arxiv.org/abs/2502.05835

  • 周波数認識圧縮ビデオ超解像:FCVSR [cs.CV]目的:圧縮ビデオからの高解像度ビデオ生成
    • ビデオの解像度向上は,高品質な映像体験を提供する上で不可欠である。
    • 圧縮ビデオの超解像では,圧縮による情報損失が画質向上の妨げとなる。
    • 周波数特性を考慮することで,より自然で高精細な超解像を実現することを目指す。
    • 提案手法FCVSRは,既存手法と比較して,PSNRで最大0.14dBの改善を示した。
    • モーションガイド適応アライメントネットワークとマルチ周波数特徴洗練モジュールを組み合わせることで,効果的な超解像を実現した。
    • 周波数認識コントラスト損失を用いることで,空間的な細部の再構成精度が向上した。

    Link: https://arxiv.org/abs/2502.06431

  • マルチ粒度プロンプト学習による少数ショットWSI分類のためのVision-Languageモデル MGPATH [cs.CV, cs.LG]目的:少数ショット全スライド病理画像分類のためのVision-Languageモデルの適応
    • 病理画像診断の精度向上は,医療の発展に不可欠であり,AIによる支援が期待される。
    • 病理画像の巨大なサイズと注釈データの少なさが,モデルの汎化性能を阻害する課題である。
    • 少数データでも高精度な分類を実現し,病理診断支援の効率化を目指す。
    • 提案手法は,既存のVision-Languageモデルを拡張し,マルチ粒度アテンション機構を導入することで,細部と全体の両方を捉える能力を高めた。
    • 最適な輸送距離に基づく視覚-テキスト距離を利用することで,データ拡張時の摂動に対するロバスト性を向上させた。
    • 肺,腎臓,乳房の病理データを用いた実験により,最先端の競合手法を凌駕し,多様なアーキテクチャで性能向上が確認された。

    Link: https://arxiv.org/abs/2502.07409

  • 幻覚を用いた価値予測によるオークション設計 [cs.GT, cs.AI]目的:幻覚を含む価値予測を取り入れたオークションにおける最適なメカニズム設計
    • オークションは,資源配分の効率性と収益最大化に不可欠なメカニズムである。
    • 機械学習モデルによる価値予測は不確実性を伴い,誤った予測(幻覚)が生じる可能性がある。
    • 幻覚が存在する場合でも収益を最大化できる最適なオークション設計を明らかにする。
    • 本研究では,シグナル値の上方と下方のタイプをほぼ分離して扱うことで,最適なオークションの特性を明らかにした。
    • 買い手が一人の場合,売り手はシグナルに応じて「無視」「追随」「上限」という3つの直感的な価格設定戦略を用いることが最適である。
    • これにより,幻覚と真の価値を区別し,収益最大化を可能とするオークション設計の指針が得られた。

    Link: https://arxiv.org/abs/2502.08792

  • 小型日常オブジェクトの精密なモバイルマニピュレーション [cs.DC, cs.PF, hep-ex, cs.CL, cs.RO, cs.AI, cs.CV, cs.LG]目的:小型日常オブジェクトの精密なモバイルマニピュレーション
    • 日常生活における様々なタスクで,小さな物体との正確な相互作用が求められる。
    • ロボットが未知環境で小さな物体を操作する際,視覚情報の遮断が課題となる。
    • 遮断問題を解決し,未知環境での物体操作成功率向上を目指す。
    • 本研究では,視覚モデルを用いたサーボ制御(SVM)フレームワークを開発した。
    • SVMは,遮断問題を解決するために,エンドエフェクタを補完する視覚モデルを活用する。
    • 実世界での実験で,SVMは未見オブジェクトの操作において71%のゼロショット成功率を達成した。

    Link: https://arxiv.org/abs/2502.13964

  • 全方向セグメンテーションのためのOmniSAM:パノラマセマンティックセグメンテーションにおけるUDA [cs.CV]目的:パノラマセマンティックセグメンテーションにおけるUDAのための全方向セグメンテーションモデルの開発
    • パノラマ画像は没入感の高い体験を提供するため,自動運転やVR/ARなど幅広い分野で重要性が高まっている。
    • 従来のSAM2はピンホール画像向けに設計されており,視野角の違いからパノラマ画像への適用には課題があった。
    • 本研究では,SAM2の能力を活かしつつ,視野角のずれやセマンティック理解の不足を克服することを目指す。
    • 提案手法OmniSAMは,パノラマ画像をパッチに分割し,SAM2の記憶機構を活用することで視野角の違いに対応した。
    • また,画像エンコーダをファインチューニングし,マスクデコーダを再利用することでセマンティック予測の精度を向上させた。
    • 実験結果から,OmniSAMが最先端手法を大きく上回り,SPin8-to-SPan8で79.06%,CS13-to-DP13で62.46%の性能を達成したことが示された。

    Link: https://arxiv.org/abs/2503.07098

  • アラインメントと規則性のトレードオフ下における変形画像登録の評価 [cs.CV]目的:変形画像登録手法の包括的な評価方法
    • 医療画像解析において,正確な画像登録は診断や治療計画において不可欠である。
    • 既存の評価方法は,アラインメント精度と変形規則性のトレードオフを十分に考慮していない。
    • アラインメントと規則性のトレードオフを捉えた評価スキームを提案し,変形画像登録手法の性能を詳細に分析する。
    • アラインメント規則性特性(ARC)曲線が,既存の評価方法では得られないユニークな知見を提供することが示された。
    • ハイパーネットワークを用いたアプローチにより,ARC曲線の生成が加速され,サンプル密度が向上した。
    • 提案手法は,変形画像登録手法の評価と選択に関する実践的な指針を提供する。

    Link: https://arxiv.org/abs/2503.07185

  • 暗黙的カーネルに基づくブラインドビデオ超解像 [cs.CV]目的:未知の劣化シナリオ下における低解像度ビデオからの高解像度ビデオ生成
    • ビデオの超解像技術は,映像の品質向上に不可欠であり,幅広い応用分野を持つ。
    • 従来のブラインドビデオ超解像は,時間的・空間的な劣化変化に対応できず,性能が限定されていた。
    • 本研究は,時間的・空間的に変化する劣化に対応することで,ビデオ超解像の性能向上を目指す。
    • 提案手法BVSR-IKは,暗黙的ニューラル表現を用いて多段階カーネル辞書を構築する。
    • 再帰型Transformerにより,フレーム補正と特徴量アラインメントのための係数予測を正確に行う。
    • 実験結果から,BVSR-IKは既存の最先端手法を最大0.59dB上回るPSNRを達成することが示された。

    Link: https://arxiv.org/abs/2503.07856

  • 分離チャネル Vision Transformer:シングルチャネル事前学習からマルチチャネルファインチューニングへ [cs.CV]目的:マルチチャネル画像データにおける Vision Transformer の性能向上
    • 医療やリモートセンシングなど,様々な分野でマルチチャネル画像データの利用が拡大している。
    • マルチチャネルデータの直接学習では,異なるモダリティ間の補完的な情報が失われる可能性がある。
    • シングルチャネルでの事前学習とマルチチャネルでのファインチューニングによる性能改善を目指す。
    • 提案手法 IC-ViT は,各チャネルを個別にパッチ化することで,マルチモーダルマルチチャネルタスクに対応した事前学習を可能にする。
    • IC-ViT は,細胞顕微鏡画像データセット JUMP-CP および CHAMMI や,衛星画像データセット So2Sat-LCZ42 で既存手法を4-14%上回る性能を示した。
    • 効率的な学習が可能であり,異種データに対する大規模な事前学習基盤モデルとして有望である。

    Link: https://arxiv.org/abs/2503.09826

  • 知識蒸留に関する包括的調査 [cs.CV]目的:知識蒸留手法の調査と分類
    • 深層学習の応用拡大に伴い,大規模モデルの効率的な利用が重要となっている。
    • 大規模モデルは計算資源を多く消費するため,エッジデバイスへの実装が困難である。
    • 知識蒸留は,大規模モデルの知識を軽量なモデルに転移し,効率的な推論を可能にする。
    • 本調査は,知識蒸留の様々な側面(蒸留元,スキーム,アルゴリズムなど)を包括的にレビューする。
    • 拡散モデル,3D入力,基礎モデル,Transformer,LLMなど,近年注目される分野における知識蒸留手法を調査する。
    • 既存の課題と将来の研究方向性についても議論し,知識蒸留分野の発展に貢献する。

    Link: https://arxiv.org/abs/2503.12067

  • スタイル化画像生成のためのフリーランチカラーテクスチャ分離 [cs.NI, eess.SY, cs.SY, cs.CV]目的:スタイル化されたText-to-Image生成におけるカラーとテクスチャの分離
    • 近年の画像生成技術の進歩は目覚ましく,特にスタイル参照画像を用いたスタイル化生成は注目されている。
    • 既存手法では,カラーやテクスチャといった複数のスタイル属性を独立して制御することが困難である。
    • 本研究は,カラーとテクスチャを分離し,より詳細なスタイル制御を可能にすることを目的とする。
    • 本研究で提案するSADisは,カラーとテクスチャの分離により,スタイル化画像生成において従来法を上回る精度を達成した。
    • Image-Prompt Additivityの特性を利用し,カラー・テクスチャ埋め込みを抽出するRegWCTを用いることで,一貫性のある色彩とテクスチャを維持した画像を生成する。
    • WikiArtおよびStyleDropデータセットを用いた実験により,SADisがDisIGタスクにおいて最先端の手法を凌駕することが示された。

    Link: https://arxiv.org/abs/2503.14275

  • サーフェスを考慮した蒸留3Dセマンティック特徴 [cs.CV, cs.GR]目的:3D形状間の対応付けの確立
    • 3D形状のポーズ調整,アニメーション,モーション転送,3D再構成など,多様なタスクにおいて重要な課題である。
    • 既存手法では,同じセマンティッククラスのインスタンス(例:左手と右手)の区別が難しく,対応付けエラーが頻発する。
    • 形状表面の情報に着目し,曖昧さを解消するロバストな埋め込み空間を学習することで,この問題を解決する。
    • 提案手法は,セマンティック内容を保持しつつ,形状表面の離れた位置にある特徴を識別するコントラスティブ損失を導入する。
    • 対応付けベンチマークにおいて優れた性能を示し,2D-3D,3D-3Dテクスチャ転送,部分セグメンテーション,ポーズ調整,モーション転送などの下流タスクで有効性を示す。
    • 既存のペアワイズアプローチとは異なり,見たことのない3D形状も暗黙的に整合する共同埋め込み空間を構築する。

    Link: https://arxiv.org/abs/2503.18254

  • 視覚的指示調整のための指示学習 [cs.CV, cs.AI, cs.CL, cs.LG]目的:視覚的指示調整(VIT)の高度化
    • マルチモーダルLLMの性能向上は,画像とテキストを統合した高度なAI開発に不可欠である。
    • 既存のVITでは,過学習やショートカット学習が起こりやすく,性能低下の要因となっていた。
    • 視覚情報の理解を促進し,言語への過剰な依存を抑制することで,VITの性能を改善することを目指す。
    • L2Tは,指示と応答の両方への損失関数組み込みにより,VITの過学習を抑制し,性能を大幅に向上させた。
    • 既存の学習データのみを用いて,マルチモーダルベンチマークで最大9%の相対的な性能改善を達成した。
    • L2Tは,画像キャプション生成の性能を最大18%向上させ,マルチモーダルLLMにおける幻覚を軽減することに成功した。

    Link: https://arxiv.org/abs/2503.22215

  • データ駆動型水中音響測距における,ソースと環境の同時適応:モデル不確実性に基づくアプローチ [cs.SD, cs.LG, eess.AS, eess.SP]目的:データ駆動型水中音響測距の環境適応
    • 水中音響測距は,海洋探査や防衛において重要な役割を担う技術である。
    • 未知環境下では,学習データとテストデータの不一致により性能が低下する。
    • モデルの不確実性を活用し,ラベルなしデータで環境適応を可能とする。
    • モデルの不確実性は,学習データとテストデータの不一致の度合いと相関することが示された。
    • モデル出力のピーク数に基づく「暗黙的な不確実性」を定量化し,確実性の高いサンプルを用いて不確実なサンプルのラベルを改善する手法を提案した。
    • 実データおよび合成データによる実験で,本手法が水中音響測距の精度を大幅に向上させることが確認された。

    Link: https://arxiv.org/abs/2503.23258

  • 低S/N比ビデオのノイズ除去学習による下流タスクの性能向上:SAVeD [cs.CV]目的:低S/N比センサービデオのノイズ除去手法
    • 水中ソナー,超音波,顕微鏡など,低S/N比の画像はコンピュータビジョンの課題である。
    • クリーンな画像ペアがない場合,低S/N比ビデオの活用が困難である。
    • ノイズ除去により,前景オブジェクトの可視性を高め,下流タスクの性能を向上させる。
    • SAVeDは,クリーンなビデオを必要とせず,生データのみを用いてノイズ除去を行う自己教師あり学習手法である。
    • 前景と背景の動きの違いを利用し,動きの強いオブジェクトを強調することで,ノイズを低減する。
    • 分類,検出,追跡,カウントといったタスクで最先端の結果を達成し,既存手法より少ない計算資源で実現する。

    Link: https://arxiv.org/abs/2504.00161

  • 高速ビデオ理解のための動画広告 [cs.CV]目的:広告動画におけるマルチモーダル大規模言語モデルの性能評価
    • 動画理解は,AI技術の応用範囲が広く,社会への貢献が期待される重要な研究分野である。
    • 既存の動画データセットでは,広告動画特有の複雑な時間構造や情報伝達の工夫が考慮されていない。
    • 広告動画に特化したデータセットを構築し,マルチモーダル大規模言語モデルの課題を明らかにする。
    • 本研究で構築したVideoAdsデータセットを用いて,Qwen2.5-VL-72BがGPT-4oやGemini-1.5 Proを上回る性能を示した。
    • 特に,動画要約と視覚的推論において,オープンソースモデルがプロプライエタリモデルよりも優れた結果を得た。
    • 人間による解答精度が94.27%と高いため,マルチモーダル大規模言語モデルの時系列モデリング能力の向上が課題である。

    Link: https://arxiv.org/abs/2504.09282

  • BabyVLM:乳幼児の学習に着想を得たデータ効率的なVLMの事前学習 [cs.CV, cs.AI, cs.CL]目的:視覚言語モデル(VLM)の効率的な事前学習
    • 視覚と言語の理解はAIの重要な課題であり,人間のような汎用的な知能を実現する上で不可欠である。
    • 既存のVLMは大量のデータが必要であり,学習効率が低いという問題がある。
    • 乳幼児の学習に着想を得ることで,少ないデータでも効率的にVLMを学習できることを目指す。
    • 提案手法BabyVLMは,VLM評価のための包括的なベンチマークと合成学習データセットを提供する。
    • BabyVLMで学習したVLMは,SAYCamのみ,または同サイズの汎用データで学習したモデルと比較して,BabyVLMタスクで優れた性能を発揮する。
    • 本研究は,厳選されたデータで学習したコンパクトなモデルでも効果的な汎化が可能であることを示唆する。

    Link: https://arxiv.org/abs/2504.09426

  • DDFusion:劣化分離融合フレームワークによるロバストな赤外・可視画像融合 [cs.CV]目的:赤外線と可視画像のロバストな融合
    • 画像融合は,監視,医療,自動運転など多様な分野で重要な役割を果たす。
    • 従来の画像融合手法は,低照度やノイズといった現実世界の劣化を考慮していない。
    • 劣化の影響を受けにくい,実用的な画像融合手法の確立を目指す。
    • 提案手法DDFusionは,劣化を分離し,抑制と画像融合を同時に行うことで,既存手法を上回る性能を示す。
    • 劣化特化型ネットワーク(DDON)により,劣化成分と情報成分を分離し,効果的に劣化を抑制する。
    • インタラクティブな局所・大域融合ネットワーク(ILGFN)により,多規模特徴を統合し,性能低下を防ぐ。

    Link: https://arxiv.org/abs/2504.10871

  • VLMGuard-R1:推論駆動型プロンプト最適化によるVLMの積極的安全性調整 [cs.LG, cs.CL, cs.CV]目的:ビジョン言語モデルの安全性向上
    • マルチモーダルな情報処理能力を持つVLMの利用が拡大する中で,安全性の確保が重要課題となっている。
    • 従来の安全性対策では,画像と言語の組み合わせによる潜在的な脅威を捉えきれない場合がある。
    • 推論を駆動するプロンプト最適化により,VLMの複雑な脆弱性を事前に予測・軽減することを目指す。
    • VLMGuard-R1は,ユーザー入力に対して推論に基づいた書き換えを行い,多様なVLMアーキテクチャの安全性を向上させる。
    • 書き換え器を訓練するためのデータセットを,三段階の推論パイプラインを用いて構築することで,微妙な脅威を推論し,具体的な対応を可能にする。
    • 3つのベンチマークと5つのVLMを用いた実験の結果,VLMGuard-R1は4つのベースラインを上回り,SIUOベンチマークにおいて平均安全性で43.59%の向上を達成した。

    Link: https://arxiv.org/abs/2504.12661

  • 強化学習はLLMにベースモデルを超える推論能力を本当に促すか [cs.AI, cs.CL, cs.CV]目的:LLMにおける推論能力の向上
    • LLMの性能向上は,AI研究における重要な課題であり,様々な応用への展開が期待されている。
    • 強化学習によるLLMの性能向上は期待される一方,その効果と限界が明確に理解されていない。
    • 本研究は,強化学習がLLMに真に新たな推論能力をもたらすか検証し,その限界を明らかにする。
    • 現在の強化学習による学習設定では,LLMに根本的に新しい推論パターンを引き出すことはできていないことが判明した。
    • 強化学習済みモデルは小規模なk値ではベースモデルを上回るものの,大規模なk値ではベースモデルの方が高いpass@kスコアを達成する。
    • 蒸留学習は教師モデルから新しい推論パターンを導入し,モデルの推論能力を真に拡張することが示された。

    Link: https://arxiv.org/abs/2504.13837

  • LSP-ST:ラダー形状バイアス付きサイドチューニングによるロバストな赤外線微小ターゲット検出 [cs.CV]目的:赤外線微小ターゲット検出におけるロバスト性の向上
    • 赤外線画像における微小ターゲット検出は,監視,セキュリティ,軍事分野等で不可欠な技術である。
    • 基礎モデルを赤外線画像へ適用する際,ドメインシフトが性能低下の大きな要因となる。
    • 既存手法では形状情報を活用できていないため,形状バイアスを導入し汎化性能を向上させる。
    • 提案手法LSP-STは,形状情報を意識した誘導バイアスを導入することで,効果的な適応を実現した。
    • LSP-STは,境界と内部レイアウトの両方を統合したグローバルな構造的事前知識として形状をモデル化する。
    • わずか472万の学習パラメータで,複数の赤外線微小ターゲット検出ベンチマークで最先端の性能を達成した。

    Link: https://arxiv.org/abs/2504.14481

  • 運動強調型非局所的類似性陰解表現による赤外線微弱・小型ターゲット検出 [cs.CL, cs.RO, cs.CV]目的:赤外線微弱・小型ターゲット検出における性能向上
    • 赤外線画像は,監視や安全保障など,多様な分野で重要な役割を担っている。
    • 従来の低ランク+スパースモデルでは,動的な背景や空間・時間相関を捉えきれない場合がある。
    • 動体情報と非局所的類似性を活用し,背景からの分離とターゲットの検出精度の向上を目指す。
    • 提案手法では,光学的フローによる動体推定と多フレーム融合により,微小なターゲットの動きを捉える。
    • 非局所的類似性を用いたテンソル分解に基づき,連続的なニューラル表現で背景の空間・時間相関を効率的に符号化する。
    • 実験結果から,提案手法は既存手法と比較して,検出精度とロバスト性の両面で優れていることが示された。

    Link: https://arxiv.org/abs/2504.15665

  • 多色不一致のタイトな下限 [eess.SY, cs.RO, cs.SY, cs.DM, cs.GT]目的:多色不一致の下限の証明
    • 組み合わせ最適化や計算複雑性において,問題の難易度評価に不可欠である。
    • 既存の下限が緩く,精度の高い評価が求められていた。
    • 多色不一致のよりタイトな下限を確立し,公平な分割問題への応用を目指す。
    • 本研究により,多色不一致に対する漸近的にタイトな下限が$\Omega(\sqrt{n})$であることが示された。
    • これは,Caragiannisらによる既存の下限$\Omega(\sqrt{n/\log k})$を改善するものである。
    • この結果は,グループ公平な分割問題に対する下限の改善にもつながる。

    Link: https://arxiv.org/abs/2504.18489

  • 病理ビデオからの診断推論のためのデータセットとベンチマーク:ViDRiP-LLaVA [cs.CV, cs.AI, cs.CL]目的:病理ビデオからの診断推論を目的とする大規模マルチモーダルモデル
    • 病理診断は正確な医療に不可欠であり,熟練した病理医の負担軽減が求められている。
    • 病理ビデオ分析におけるAI支援は発展途上であり,高品質な学習データが不足している。
    • 病理ビデオと診断を結びつけ,診断推論を支援するAIシステムの基盤を構築すること。
    • ViDRiP-LLaVAは,単一画像,自動セグメンテーションビデオクリップ,手動セグメンテーションビデオを統合した初のモデルである。
    • ViDRiP-Instructデータセットは,YouTubeの病理学教育ビデオから4278組のビデオと診断Chain-of-Thoughtペアで構成される。
    • 既存の単一画像データセットからの知識転移により,弱くアノテーションされたキーフレームクリップでの学習を実現し,新たなベンチマークを確立した。

    Link: https://arxiv.org/abs/2505.04192

  • 聴覚学におけるデータ標準:コミュニティの視点と導入に関する混合研究法による探索 [cs.SD, eess.AS, physics.med-ph]目的:聴覚学におけるデータ標準化の現状と課題,及び今後の展望
    • 医療データの相互運用性は重要であり,聴覚学においても例外ではない。質の高いデータ共有が求められている。
    • 聴覚学分野では,データ標準化の取り組みが十分に進んでおらず,データ共有の妨げとなっている。
    • データ標準化に向けた合意形成と具体的な導入ステップを提示し,分野全体の進展を目指す。
    • 調査の結果,90%の回答者が標準化の取り組みに協力意欲を示しており,コミュニティの支持が確認された。
    • パネルディスカッションでは,既存の標準化イニシアチブ(OMOP,openEHR,NOAH等)の検討と,調和に関する課題が議論された。
    • 本研究は,聴覚学における相互運用可能なデータ標準の導入に向けた指針を提供し,今後の研究の方向性を示唆する。

    Link: https://arxiv.org/abs/2505.04728

  • xTrace:連続的な感情認識のための表情行動分析ツール [cs.CV]目的:自然環境下における顔動画からの表情行動分析と,次元的な感情(価と覚醒度)の連続値予測
    • 感情計算分野では,表情から感情を認識することが長年の課題であり,人間の感情理解に不可欠である。
    • 大規模な表情感情動画データセットの不足と,識別可能で解釈しやすく,ロバストかつ効率的な特徴抽出の困難さが課題である。
    • 本研究では,大規模データセットと効率的な特徴量を用いて,自然な表情行動をより正確に分析することを目的とする。
    • xTraceは,約45万件の動画を含む大規模な表情感情動画データセットで学習されており,幅広い感情表現に対応できる。
    • xTraceは,説明可能な表情特徴量を用いることで,高い精度とロバスト性を低計算量で実現している。
    • 自然環境下における評価において,既存の最先端ツールと比較して,平均協調相関係数(CCC)で約7.1%の性能向上を示した。

    Link: https://arxiv.org/abs/2505.05043

  • DexGarmentLab:汎用的なポリシーを備えた器用な衣服操作環境 [cs.RO, cs.AI, cs.CV]目的:器用な衣服操作のための環境構築と汎用的なポリシー開発
    • 衣服操作は,ロボットの家庭内作業や産業応用において重要な課題である。
    • 現実的な衣服のシミュレーションが難しく,ロボットによる器用な操作が実現されていない。
    • 衣服構造の対応関係を利用し,少ない労力で多様な操作データを生成し,汎化性能の高いポリシーを開発する。
    • DexGarmentLabは,15種類のタスクシナリオに対応した高品質な3Dアセットを備えた,衣服操作に特化した最初の環境である。
    • 提案手法HALOは,既存手法を凌駕し,形状や変形が大きく異なる未知の衣服に対しても高い汎化性能を示した。
    • 衣服構造の対応関係を利用したデータ生成により,手動による介入を大幅に削減し,効率的な学習を可能にした。

    Link: https://arxiv.org/abs/2505.11032

  • 貢献を奨励しパラメータも学習:戦略的なデータオーナーによる連合学習 [cs.GT, cs.LG, cs.MA]目的:連合学習における貢献意欲の誘導とパラメータ学習
    • データ活用において,プライバシー保護とモデル精度向上の両立が重要視されているため。
    • 従来の連合学習では,データオーナーの参加意欲が考慮されておらず,貢献が制限される可能性がある。
    • データオーナーの合理的な貢献を促し,最適なパラメータ学習を実現することを目指す。
    • 提案されたメカニズムは,ナッシュ均衡において各クライアントの貢献を促しつつ,モデルパラメータを学習する。
    • 中間段階での真実性のある情報開示を促し,クライアントの貢献意欲を確保する。
    • 大規模実験により,提案手法は高速に収束し,高い福利厚生とモデル性能を示すことが確認された。

    Link: https://arxiv.org/abs/2505.12010

  • 拡散モデルにおける直交表現編集による概念アンラーニング:CURE [cs.CV]目的:拡散モデルにおける不要な概念の効率的かつ正確な除去
    • 画像生成AIの進化に伴い,安全性や著作権侵害等のリスクが顕在化しているため。
    • 既存の手法は,概念の完全な除去が困難,回避策に弱く,計算コストが高い等の課題がある。
    • 事前学習済みモデルの重みを直接編集し,迅速かつ特定の概念のみを除去する手法を提案する。
    • CUREは,学習を必要とせず,拡散モデルの重み空間で動作し,不要な概念を効果的に抑制する。
    • 特許技術であるスペクトルイレイザーは,特異値分解を用いて概念を識別し,安全な属性を維持しながら不要な概念の特徴を分離する。
    • 有害性フィルタリングと無関係な概念の維持とのバランスを調整する拡張機構により,わずかな生成能力の低下で,優れた除去効果と堅牢性を実現した。

    Link: https://arxiv.org/abs/2505.12677

  • 圧縮の限界を超える:データ不要な超効率的なデルタ圧縮パイプライン [cs.LG, cs.AI, cs.CV]目的:多数のファインチューニング済みモデルのストレージ効率向上
    • ファインチューニング済みモデルの活用が広がる中,ストレージ容量の圧迫が課題となっている。
    • 既存のデルタ圧縮手法では,高い圧縮率と性能の両立が難しい。
    • データに依存せず,高い圧縮率と性能を両立するデルタ圧縮手法を開発する。
    • UltraDeltaは,バリアンスに基づくスパース割り当てにより,層間の情報保持と圧縮率のバランスを実現した。
    • 分布を考慮した圧縮により,層内のパラメータ分布を維持し,性能劣化を抑制した。
    • トレースノルムに基づくリスカリングにより,高圧縮下でのモデルの安定性を向上させた。

    Link: https://arxiv.org/abs/2505.13563

  • InstructSAM:指示に基づくリモートセンシング物体認識のための訓練不要フレームワーク [cs.CV]目的:リモートセンシング画像における指示に基づいた物体認識
    • 広範囲なマッピングやデータアノテーションにおいて,リモートセンシング画像の物体認識は不可欠である。
    • 既存手法は明示的なカテゴリ情報に依存し,高度な推論を要する複雑なクエリへの対応が困難である。
    • 複雑かつ暗示的な指示に対応可能な物体認識システムの開発を促進することを目的とする。
    • InstructSAMは,大規模な視覚言語モデルを活用し,ユーザーの指示を解釈して物体数を推定する。
    • InstructCDSベンチマークを用いて実験を行った結果,InstructSAMは既存のベースラインと同等以上の性能を示した。
    • また,InstructSAMは物体数に関わらず一定の推論時間を維持し,出力トークン数と全体的な実行時間を大幅に削減した。

    Link: https://arxiv.org/abs/2505.15818

  • DetailMaster:あなたのテキストから画像へのモデルは長いプロンプトを扱えるか? [cs.CV, cs.AI]目的:長文かつ詳細なプロンプトに対するテキストから画像へのモデルの能力評価
    • 画像生成技術は,コンテンツ制作など幅広い分野で活用が期待されており,その重要性は高い。
    • 既存のモデルは,詳細な指示を含む長いプロンプトに対して,性能が著しく低下するという課題がある。
    • 詳細なプロンプトに対する画像生成能力を評価するベンチマークを開発し,モデルの限界を明らかにすること。
    • DetailMasterは,キャラクター属性,配置,シーン属性,空間関係という4つの評価軸で構成される。
    • 評価実験の結果,最先端モデルでも重要な要素において約50%の精度しかなく,プロンプト長が伸びると性能が低下した。
    • 分析から,現在のモデルは複雑な文構造を適切に処理できず,詳細な条件のもとで属性の混同が生じやすいことが示された。

    Link: https://arxiv.org/abs/2505.16915

  • VORTA:ルーティング疎注意による効率的なビデオ拡散 [cs.CV]目的:ビデオ拡散の効率化
    • 高品質なビデオ生成技術は重要だが,計算コストが高いという課題がある。
    • 既存の高速化手法は,長距離計算の高速化に苦戦している。
    • VORTAは,長距離依存関係を効率的に捉え,計算コストを削減することを目指す。
    • VORTAは,VBenchにおいて画質を損なうことなく,1.76倍の高速化を実現した。
    • モデルキャッシュやステップ蒸留などの他の高速化手法との組み合わせにより,最大14.41倍の高速化が可能である。
    • VORTAは,ビデオ拡散トランスフォーマーの実用性を高める。

    Link: https://arxiv.org/abs/2505.18809

  • AI効率のモデル中心圧縮からデータ中心圧縮への移行 [cs.CL, cs.CL, cs.AI, cs.CV]目的:AI効率化のための圧縮手法のパラダイムシフト
    • 大規模言語モデルの発展はAI応用の拡大に不可欠であり,その効率化が求められている。
    • モデルの規模拡大に限界が見え,長文脈処理における計算コストがボトルネックとなっている。
    • データ圧縮による効率化が新たな方向性として注目されており,本研究はその枠組みを提示する。
    • 本研究は,AI効率化の焦点がモデル中心からデータ中心へと移行しつつあると論じる。
    • 既存の効率化戦略を統一的なフレームワークとして整理し,そのパラダイムシフトの重要性を示す。
    • データ中心圧縮手法の現状を分析し,今後の研究課題と方向性を提示する。

    Link: https://arxiv.org/abs/2505.19147

  • スパイクStereoNet:スパイクストリームからの立体深度推定のための脳に触発されたフレームワーク [cs.CV]目的:スパイクストリームからの立体深度推定
    • 高速変化する環境下での立体深度推定は重要であり,従来のカメラでは課題となる。
    • スパイクカメラのデータに特化した立体深度推定アルゴリズムやベンチマークが不足している。
    • スパイクストリームから直接立体深度を推定する手法を開発し,性能評価を行う。
    • 提案手法SpikeStereoNetは,スパイクストリームの微細なエッジや輝度変化を捉え,既存手法を上回る性能を示す。
    • 合成データセットと実世界データセットの両方で,特にテクスチャレスな表面や極端な照明条件下で優れた結果が得られた。
    • 少ない学習データでも高い精度を維持し,データ効率の良さも確認された。

    Link: https://arxiv.org/abs/2505.19487

  • ペアでないデータからの共有表現の学習 [cs.DC, cs.CL, cs.CV, cs.LG, stat.ML]目的:ペアでないデータからの共有表現学習の可能性
    • マルチモーダル表現学習は重要であり,異なるモダリティ間の関係性を理解する上で不可欠である。
    • 従来の学習手法はペアデータに依存しており,その収集にはコストがかかるという課題があった。
    • 本研究は,ペアデータに頼らず,ペアでないデータのみから共有表現を学習することを試みる。
    • ランダムウォーク行列のスペクトル埋め込みに基づき,ペアでないデータから共有表現を学習できることを示した。
    • コンピュータビジョンと自然言語処理の実験結果から,ペアでないデータが意味のあるクロスモーダル関係を捉える効果が示された。
    • 検索,生成,算術,ゼロショット,クロスドメイン分類といったタスクにおいて高い性能を達成した。

    Link: https://arxiv.org/abs/2505.21524

  • MGE-LDM:同時音楽生成と音源抽出のための結合潜在拡散モデル [cs.SD, cs.LG, eess.AS]目的:音楽生成,音源補完,およびクエリ駆動型音源分離の同時実行
    • 音楽情報処理の分野において,音楽の自動生成や編集技術は重要な研究テーマである。
    • 従来の音源分離や生成手法は,特定の楽器クラスに限定される場合が多く,柔軟性に欠ける。
    • 任意の楽器音源に対して,柔軟かつカテゴリに依存しない操作を可能にすること。
    • MGE-LDMは,単一のコンパクトな潜在拡散モデル内で,完全な混合物の生成,部分生成(音源補完),およびテキスト条件付きの音源抽出を可能にする。
    • 分離と補完を潜在空間における条件付きインペインティングタスクとして定式化することにより,多様なマルチトラックデータセットに対して結合学習を実現する。
    • 事前に定義された楽器カテゴリに依存することなく,Slakh2100,MUSDB18,MoisesDBなどの異質なデータセットで学習可能である。

    Link: https://arxiv.org/abs/2505.23305

  • ジグソーR1:ジグソーパズルを用いたルールベースの視覚的強化学習の研究 [cs.CV, cs.AI, cs.CL]目的:ルールベースの視覚的強化学習の有効性評価
    • マルチモーダル大規模言語モデルの応用が拡大する中で,視覚情報処理能力の向上が不可欠である。
    • 従来のテキストのみの環境では得られなかった知見が,マルチモーダル環境下では異なる可能性がある。
    • ジグソーパズルという構造化された環境を用いて,ルールベースの視覚的強化学習の特性を明らかにすること。
    • マルチモーダル大規模言語モデルは,ジグソーパズルにおいて,ファインチューニングにより高い精度を達成し,未学習の複雑な配置にも一般化できる。
    • ジグソーパズルでの学習は他の視覚タスクへの一般化を促す可能性があり,その効果はタスク構成に依存する。
    • 強化学習は,教師ありファインチューニングよりも効果的な一般化能力を示すことが示唆された。また,初期の教師あり学習段階は,その後の強化学習の最適化を阻害する可能性もある。

    Link: https://arxiv.org/abs/2505.23590

  • Muddit:テキスト・画像生成を超越する統一的な離散拡散モデル [cs.LG, cs.CV]目的:テキストと画像の多様な生成タスク
    • 近年のマルチモーダル研究の発展に伴い,単一モデルでの多様なタスク処理が求められている。
    • 既存の統一モデルは,推論速度や汎化性能において課題を抱えている。
    • 強固な事前学習済みモデルを活用し,高速かつ高品質なマルチモーダル生成を実現する。
    • Mudditは,テキストと画像の両方で高速かつ並列な生成を可能にする統一的な離散拡散トランスフォーマーである。
    • 事前学習済みのテキスト・画像モデルの知識を活用することで,高い生成品質と効率性を実現している。
    • 実験結果から,Mudditはより大規模な自己回帰モデルと比較して,同等以上の性能を示すことが確認された。

    Link: https://arxiv.org/abs/2505.23606

  • TC-GS:テンソルコアを活用した高速ガウススプラッティングモジュール [cs.GR, cs.CV, cs.DC]目的:3Dガウススプラッティングの高速化
    • 3Dコンテンツの高品質なレンダリングが求められる場面が増加しており,リアルタイム性の向上が重要である。
    • 既存のガウススプラッティング処理において,アルファブレンディングの計算コストがボトルネックとなっている。
    • テンソルコアを活用し,アルファ計算を効率化することで,レンダリング速度を向上させる。
    • 提案手法TC-GSは,既存の3Dガウススプラッティング最適化フレームワークに容易に組み込むことが可能である。
    • TC-GSはアルファ計算を行列乗算に変換し,テンソルコアを最大限に活用することで,大幅な高速化を実現した。
    • 実験結果から,TC-GSは既存の高速化手法と比較して2.18倍の速度向上を達成し,最大5.6倍の加速が可能であることが示された。

    Link: https://arxiv.org/abs/2505.24796

  • AVROBUSTBENCH:テスト時のロバスト性評価ベンチマーク [cs.SD, cs.AI, cs.LG, eess.AS]目的:オーディオビジュアル認識モデルのテスト時におけるロバスト性の評価
    • 実世界での応用において,モデルの信頼性は重要であり,様々な環境変化への対応が求められる。
    • 既存のロバスト性評価は単一モダリティに偏っており,オーディオとビジュアル両方の変化への対応を評価できていない。
    • 同時発生的なオーディオ・ビジュアル変化に対するモデルのロバスト性を包括的に評価するベンチマークの提供。
    • 提示されたAVROBUSTBENCHを用いて,最先端のオーディオビジュアルモデルは,ノイズの強大化に伴いロバスト性が低下することが示された。
    • VGGSOUND-2CとKINETICS-2Cにおいて,オンラインテスト時適応(TTA)手法は,バイモダルのノイズに対する性能改善が限定的であることがわかった。
    • 提案手法AV2Cは,VGGSOUND-2Cにおいてクロスモーダル融合による性能向上を達成した。

    Link: https://arxiv.org/abs/2506.00358

  • Seg2Any:正確な形状と意味的制御によるオープンセットセグメンテーションマスク-画像生成 [cs.CV]目的:セグメンテーションマスクとテキストプロンプトを用いた画像生成における,形状と意味の一貫性の両立
    • 拡散モデルの進歩により画像生成は飛躍的に向上したが,空間的なレイアウト制御には課題が残る。
    • 既存のセグメンテーションマスク-画像生成手法では,意味的整合性と形状的整合性を同時に確保することが困難である。
    • マルチモーダル拡散変換器を用いて,形状と意味を分離し,属性漏洩を防ぐことで,より高精度な画像生成を目指す。
    • 提案手法Seg2Anyは,Semantic Alignment Attention MaskとEntity Contour Mapにより,生成されるエンティティの意味と形状の一貫性を高める。
    • Attribute Isolation Attention Maskにより,複数エンティティ間の属性漏洩を抑制し,各エンティティの独立性を保つ。
    • 大規模データセットSACap-1Mと評価ベンチマークSACap-Evalを構築し,オープンセットおよびクローズドセットのS2Iベンチマークで最先端の性能を達成した。

    Link: https://arxiv.org/abs/2506.00596

  • SatDreamer360:衛星画像からの地上レベルシーンの多視点一貫生成 [cs.CV]目的:衛星画像からの地上レベルシーンの多視点一貫生成
    • シミュレーション,自動運転,デジタルツイン都市など,幅広い分野での応用が期待されている研究分野である。
    • 既存手法は個々のパノラマ合成に焦点を当て,多視点一貫性の確保が課題となっていた。
    • 衛星画像と地上視点の大きな差異に対応し,幾何学的に一貫性のある多視点パノラマ生成を目指す。
    • SatDreamer360は,単一の衛星画像と事前定義された軌跡に基づいて,幾何学的に一貫性のある多視点パノラマを生成する。
    • Triplane表現とレイベースのピクセル注意機構により,衛星画像と地上視点間の大きな差異を克服している。
    • パノラマ的エピポーラ制約注意モジュールにより,フレーム間の特徴量整合性を維持し,多視点一貫性を向上させている。

    Link: https://arxiv.org/abs/2506.00600

  • リアルワールドアプリケーションのための空間汎用オーディオ表現モデル [cs.SD, cs.AI, eess.AS]目的:リアルワールド環境における空間オーディオ表現の学習
    • 音響環境の理解は,様々な現実世界アプリケーションにおいて不可欠である。
    • 既存のオーディオ基盤モデルは,残響やノイズを含む現実環境への適応が課題である。
    • 現実世界の音響シーンの空間的性質を考慮したモデル開発が求められている。
    • 提案手法GRAMは,多チャンネルマスク自動エンコーダを用いて空間オーディオ表現を効率的に学習する。
    • 公開したNat-HEARベンチマークにおいて,GRAMは最先端のモデルを大幅に上回る性能を示した。
    • GRAMは,二チャンネルおよび四チャンネルのフォーマットに対応し,現実世界データへの堅牢な転移性も確認された。

    Link: https://arxiv.org/abs/2506.00934

  • 地球を超えて:微小重力環境における人間の行動とシーンの理解 [cs.CV]目的:微小重力環境下における人間の活動とシーン理解
    • 宇宙開発の進展に伴い,宇宙環境下での安全な活動を支援する視覚システムの重要性が増している。
    • 既存の動画理解データセットは地球重力下でのものに限られ,宇宙環境下での人間の行動や視覚的特徴に対応できていない。
    • 宇宙環境下における人間の活動とシーンの理解を深め,より頑健な視覚システムを開発することを目的とする。
    • 本研究では,宇宙ミッションとシミュレーションから構築された,初の微小重力環境下における動画理解ベンチマークデータセットMicroG-4Mを公開した。
    • MicroG-4Mは,50種類の行動,1238件のキャプション,7000件以上の質疑応答ペアを含む。行動認識,動画キャプション生成,視覚的質疑応答の3つのタスクに対応する。
    • 最先端モデルを用いてベースラインを確立し,微小重力環境下における空間的局在化と意味推論の包括的な評価を可能にした。

    Link: https://arxiv.org/abs/2506.02845

  • 共通性重視の勾配最適化による敵対的転移性の向上 [cs.CV]目的:敵対的サンプルの転移性向上
    • 画像認識モデルの安全性評価において,敵対的サンプルの生成と分析は重要な役割を担う。
    • 代替モデルで生成した敵対的サンプルは,ブラックボックス環境において転移性が低いという課題がある。
    • 代替モデル間の共通情報に着目し,敵対的摂動を最適化することで転移性を改善する。
    • 本研究では,共通性重視の勾配最適化戦略(COGO)を提案し,敵対的攻撃の成功率を大幅に向上させた。
    • COGOは,同じデータセットで訓練されたViTモデルが共通して依存するミッド・ロー周波数領域の摂動を強化する。
    • また,モデルの個性を考慮した適応的閾値を用いることで,勾配の重みを調整し,転移性を高めている。

    Link: https://arxiv.org/abs/2506.06992

  • 大気散乱理論に基づく偏微分方程式を用いた画像除霧手法 [cs.CV, eess.IV]目的:単一画像からの除霧
    • 画像は様々な環境下で取得されるため,視界を悪化させる大気中の粒子による影響を軽減する必要がある。
    • 従来の除霧手法では,詳細なエッジの保持と全体構造の維持を両立することが困難であった。
    • 大気散乱モデルに基づき,エッジ保持と非局所演算を統合することで,より自然な画像復元を目指す。
    • 本研究では,偏微分方程式の枠組みに大気散乱モデルを組み込み,エッジ保持拡散と非局所演算を特徴とする新しい単一画像除霧手法を提案した。
    • 暗チャネル事前分布に基づく適応的な正則化機構を導入することで,ヘイズ密度に応じて平滑化の強度を調整し,より効果的な除霧を実現した。
    • 数学的な厳密性も検証され,弱解の存在と一意性が$H_0^1(\Omega)$空間において証明された。

    Link: https://arxiv.org/abs/2506.08793

  • 視覚トークンにおける言語優先度を再検討:LVLMデコーディングのための情報開示 [cs.CV, cs.AI, cs.CL]目的:大規模ビジョン言語モデルのデコーディング過程における視覚情報の役割解明
    • マルチモーダルタスクにおいて,視覚情報と言語理解の統合が重要である。
    • 既存のLVLMは幻覚を起こしやすく,視覚情報がデコーディングにどのように貢献しているかが不明である。
    • 視覚トークンが持つ意味情報を活用し,より正確なテキスト生成を可能にすること。
    • 視覚トークンは幻覚が発生した場合でも意味のある視覚情報を含んでいることが示された。
    • ReVisiTは,視覚トークンを参照してテキスト生成を誘導する,トレーニング不要のデコーディング手法である。
    • ReVisiTは,5つのベンチマークにおいて,計算コストを削減しながら,最先端のデコーディング手法と同等またはそれ以上の性能を達成した。

    Link: https://arxiv.org/abs/2506.09522

  • VITA:テスト時適応によるゼロショット価値関数 [cs.CV, cs.AI]目的:ビジョン言語モデルのテスト時適応によるゼロショット価値関数学習
    • ロボット工学において,環境への適応能力は重要であり,汎化性能が求められる。
    • 事前学習済みのビジョン言語モデルは,一般化と時間的推論に限界がある。
    • テスト時適応により,価値関数の推定精度を向上させ,時間的推論を可能にすること。
    • VITAは,テスト時に自己教師あり損失を用いて軽量な適応モジュールを更新する。
    • VITAは,単一の学習環境から,多様なタスクや環境,ロボット形態へ汎化する。
    • VITAのゼロショット価値推定は,オフライン強化学習における報酬形成に活用でき,Meta-Worldベンチマークで高い性能を示す。

    Link: https://arxiv.org/abs/2506.10085