arXiv雑要約

画像・音声 - 2026/03/25 公開

  • TETO:教師観察によるイベント追跡を用いたモーション推定とフレーム補間 [cs.CV]目的:イベントカメラによるモーション推定とフレーム補間の手法
    • 近年,イベントカメラの高速性から,ロボティクスや自動運転などへの応用が期待されている。
    • 既存手法は大規模な合成データに依存しており,現実世界との乖離が課題となっていた。
    • 少ない実データで高精度なモーション推定を実現し,フレーム補間の品質向上を目指す。
    • TETOは,教師あり知識蒸留により,約25分間の未注釈実データのみでイベントモーション推定を学習する。
    • モーションを考慮したデータキュレーションとクエリサンプリングにより,限られたデータから効率的に学習を実現。
    • EVIMO2やDSECにおいて最先端の性能を達成し,フレーム補間においても品質の向上が確認された。

    Link: https://arxiv.org/abs/2603.23487

  • 単一視点のみで十分!ワイルドな環境における新規視点生成のための単眼学習 [cs.CV]目的:ワイルドな環境下での新規視点生成
    • 視点変換は,ロボット工学,AR/VRなど広範な応用分野において重要な役割を果たす。
    • 従来の単眼新規視点合成は,ペアとなる複数視点の画像が必要であり,学習データ量と多様性に制約があった。
    • 本研究は,ペアの必要なく,単一の画像のみから新規視点を生成することを目指す。
    • 本研究では,ペアリングされていないインターネット画像のみを用いて学習する OVIE を提案した。
    • 単眼深度推定器を幾何学的足場として活用し,疑似的なターゲット画像を生成することで,3000万枚の画像で学習を可能にした。
    • 推論時には幾何学的な情報を必要とせず,既存手法を凌駕する性能と速度を実現した。

    Link: https://arxiv.org/abs/2603.23488

  • AgentRVOS:ゼロショット参照ビデオオブジェクトセグメンテーションのためのオブジェクトトラックに関する推論 [cs.CV]目的:参照ビデオオブジェクトセグメンテーションにおけるゼロショット手法の性能向上
    • ビデオ理解と自然言語処理の融合が重要であり,多様なアプリケーションへの応用が期待される。
    • 既存手法では,言語モデルがオブジェクトレベルの証拠なしに時間的判断を下し,性能が制限される。
    • オブジェクトトラックに基づいた推論により,より正確な時間的・空間的範囲でのセグメンテーションを目指す。
    • AgentRVOSは,SAM3と大規模言語モデルの強みを組み合わせたエージェント的パイプラインである。
    • SAM3が生成したマスクトラックを活用し,言語モデルが参照クエリに基づいてターゲットを特定する。
    • 複数のベンチマークにおいて,既存のゼロショット手法を上回る最先端の性能を達成した。

    Link: https://arxiv.org/abs/2603.23489

  • フォービエイテッド拡散:効率的な空間適応型画像・動画生成 [cs.CV]目的:高解像度画像・動画生成における効率化
    • 画像や動画生成技術は,創造的なコンテンツ制作において飛躍的な進化を遂げている。
    • 解像度やフレームレートの向上により,計算量が急増し,効率的な生成が課題となっている。
    • 視線位置に基づいたフォービエイテッド拡散により,計算量を削減し,生成効率を向上させる。
    • 視線位置に基づき,高解像度領域と低解像度領域を生成することで,計算量を大幅に削減できる。
    • 生成された画像・動画は,フル解像度生成と比較して,知覚的な差はほとんどないことが示された。
    • 既存のベースモデルから追加学習することで,コンテンツの一貫性を保ちながらフォービエイテッド拡散を実現できる。

    Link: https://arxiv.org/abs/2603.23491

  • 要求に応じての視覚情報:疎な視覚-言語相互作用によるVLLM効率の向上 [cs.CV, cs.AI, cs.LG]目的:大規模視覚言語モデルの効率改善
    • 視覚言語モデルは多様なタスクに応用可能だが,計算コストが高いという課題がある。
    • 既存手法は視覚トークン削減に依存するが,情報損失により性能が低下する可能性がある。
    • 視覚情報を破棄せずに,視覚-言語間の相互作用を疎化することで効率を向上させる。
    • VISORは,従来の最先端手法と同等以上の性能を維持しながら,計算コストを大幅に削減する。
    • VISORは,汎用的なネットワークを用いて,異なる計算量で学習を行い,サンプルごとの複雑さに応じて動的に計算資源を割り当てる。
    • 特に,詳細な視覚理解が求められる難しいタスクにおいて,優れた性能を発揮する。

    Link: https://arxiv.org/abs/2603.23495

  • ワイルドワールド:アクションと明示的な状態を用いた動的ワールドモデリングのための大規模データセット―生成ARPGに向けて [cs.CV]目的:動的なワールドモデリングのための大規模データセット
    • ゲームなどの環境における人工知能の発展には,現実世界の複雑な変化を理解する能力が不可欠である。
    • 既存のデータセットは,多様なアクション空間や状態との連携が不十分であり,長期的な一貫性のある進化を学習しにくい。
    • この研究は,明示的な状態情報を含む大規模なデータセットを提供し,より構造化されたワールドダイナミクスの学習を目指す。
    • ワイルドワールドは,Monster Hunter: Wildsから自動収集された1億件以上のフレームと450種類以上のアクションを含む大規模なデータセットである。
    • アクション追跡と状態アライメントを評価するためのWildBenchを導入し,モデルの性能を検証した。
    • 実験により,意味的に豊かなアクションのモデリングや長期的な状態の一貫性の維持における課題が明らかになった。

    Link: https://arxiv.org/abs/2603.23497

  • 拡散モデルを用いた劣化を考慮した光流推定:DA-Flow [cs.CV]目的:劣化の影響下における高精度な光流推定
    • コンピュータビジョン分野において,光流推定は映像理解の基礎技術である。
    • 実写映像にはノイズや圧縮歪みなどが含まれ,光流推定の精度を著しく低下させる。
    • 実写映像における劣化を考慮した,ロバストな光流推定手法の確立を目指す。
    • 拡散モデルの中間表現が劣化に強い性質を持つことを利用し,時間方向の情報を付加した。
    • DA-Flowは,拡散モデルの特徴と畳み込みの特徴を融合することで,既存手法を大幅に上回る性能を示した。
    • 複数のベンチマークにおいて,劣化が激しい条件下でも優れた光流推定結果が得られた。

    Link: https://arxiv.org/abs/2603.23499

  • 推論駆動型ビジュアル生成のための統一されたポリシー最適化:UniGRPO [cs.CV]目的:推論駆動型ビジュアル生成におけるテキストおよび画像生成ポリシーの共同最適化
    • 近年,テキストと画像の生成において,それぞれ自己回帰モデルとフローマッチングが有力な手法となっている。
    • これらを統合し,インタリーブド生成を実現する統一的なフレームワークは未だ発展途上である。
    • スパースな報酬を持つマルコフ決定過程として定義し,効率的なポリシー最適化を目指す。
    • UniGRPOは,推論を通じてユーザープロンプトを拡張し,その後に画像合成を行うことで,推論駆動型画像生成の品質を大幅に向上させる。
    • classifier-free guidanceの排除と,速度場に対するMSEペナルティの導入により,FlowGRPOの拡張性を高めた。
    • これにより,複数ラウンドのインタリーブド生成や,複雑な条件下の生成(編集など)への適用が可能になる。

    Link: https://arxiv.org/abs/2603.23500

  • MedObvious:VLMにおける臨床トリアージを通じた医療モラベックのパラドックスの露呈 [cs.CV, cs.AI, cs.CL]目的:医療画像とテキストを扱うVLMにおける入力妥当性検証能力
    • 医療現場では,画像診断前に基本的な妥当性チェックが不可欠である。
    • 既存のベンチマークは,この妥当性チェックが解決済みであると暗黙の裡に仮定している。
    • VLMが不適切な入力に対して整合性のない診断を行ってしまう問題を解決する。
    • 既存の17種類のVLMを評価した結果,妥当性チェックは信頼性が低いことが明らかになった。
    • 正常な画像入力に対しても異常を幻覚し,画像セットの規模が大きくなると性能が低下した。
    • 複数の選択肢形式と自由記述形式では測定精度に大きな差が見られた。

    Link: https://arxiv.org/abs/2603.23501

  • OccAny: 制約なし都市3D占有の汎化 [cs.CV]目的:都市における3D占有予測とセグメンテーション機能の実現
    • 自動運転や拡張現実において,周囲環境の3D理解は不可欠である。
    • 既存手法は,特定の条件下での学習に依存し,未知環境への適用が困難である。
    • ドメインを跨いでも高い性能を発揮する汎化可能な3D占有予測モデルを開発する。
    • OccAnyは,既存の汎用的な視覚幾何モデルの課題を克服し,都市環境において高精度な3D占有予測を可能にする。
    • Segmentation Forcingによって占有予測の品質が向上し,マスクレベルでの予測も実現している。
    • Novel View Renderingパイプラインによるテスト時の視点拡張により,幾何学的な補完能力が強化されている。

    Link: https://arxiv.org/abs/2603.23502

  • Ca2+一時的現象の検出とセグメンテーション:天文学的背景推定と一時的セグメンテーションアルゴリズム(Astro-BEATS)の利用 [q-bio.NC, astro-ph.IM, cs.CV]目的:Ca2+一時的現象の検出とセグメンテーション
    • 神経活動の局所的な解析に不可欠であり,シナプスの機能を理解する上で重要である。
    • 蛍光シグナルの変化が微小で,自動検出とセグメンテーションが困難である。
    • 天文学的手法を応用し,ノイズの多い環境下でも高精度な検出を目指す。
    • Astro-BEATSは,既存の閾値ベースの手法と比較して,シナプスCa2+一時的現象の検出とセグメンテーションにおいて優れた性能を示す。
    • 生成されたセグメンテーションマスクは,深層学習アルゴリズムのトレーニングデータとして利用可能である。
    • Astro-BEATSは高速で,再最適化なしに未知のデータセットにも適用できるため,深層学習アプローチのためのトレーニングデータ生成に有用である。

    Link: https://arxiv.org/abs/2603.22311

  • 消化管画像における異常と疾患検出 [eess.IV, cs.AI, cs.CV]目的:消化管画像の正確な分類とセグメンテーション
    • 医療診断において消化管画像解析は不可欠であり,早期発見と治療に貢献する。
    • 従来の画像解析手法では,異常の多様性と複雑さから十分な精度が得られない場合がある。
    • リアルタイム処理に適した,効率的かつ適応可能な解析手法を開発すること。
    • Kvasir V2データセット上で,テクスチャベースの手法で高速処理(4000 FPS以上)と高い性能(F1スコア: 0.76,精度: 0.98)を達成した。
    • 深層学習モデルとデータバギングを組み合わせることで,HyperKvasirデータセットで精度0.92,F1スコア0.60,Kvasir V2でF1スコア0.88を達成した。
    • テクスチャと局所二値パターンを統合したストリームライン化されたニューラルネットワークにより,HyperKvasirで41 FPS,精度0.99,F1スコア0.91を実現した。

    Link: https://arxiv.org/abs/2603.22378

  • MSP-Conversation:自然な時間連続感情認識のためのコーパス [eess.AS, cs.SD]目的:自然な会話における時間連続感情認識のための大規模コーパス
    • 感情計算は,計算システムにおける人間の感情の理解とモデル化を目指す重要な分野である。
    • 既存の音声感情認識は,限られたデータセットと伝統的な手法に依存しており,深層学習の進展に対応できていない。
    • 自然な会話データを用いた,時間変化を捉えた感情認識技術の発展に貢献する。
    • 70時間以上の会話音声と,時間連続的な感情アノテーションを含むMSP-Conversationコーパスを構築した。
    • valence,arousal,dominanceの時系列データが,感情表現の動的な側面を捉えている。
    • MSP-Podcastコーパスとの比較を通じて,文脈依存アノテーションの有用性を示唆する。

    Link: https://arxiv.org/abs/2603.22536

  • 暗黙的ニューラル表現による単一被験者マルチビューMRI超解像 [eess.IV, cs.CV]目的:単一被験者のマルチビューMRIデータの超解像
    • 臨床MRIでは,検査時間の短縮のため,面内解像度が高く面外解像度が低い異方性ボリュームが取得されることが多い。
    • 従来のビュー統合は登録と補間に依存し,微細構造が失われる可能性がある。
    • 単一被験者データのみで,事前処理や事後処理なしに等方性再構成を生成すること。
    • 提案手法SIMS-MRIは,マルチ解像度ハッシュエンコードされた暗黙的表現と学習されたビュー間アライメントを組み合わせる。
    • シミュレーションされた脳MRIと臨床前立腺MRIデータセットで検証された結果,空間的に整合性の取れた等方性再構成が可能であることが示された。
    • 本手法は,大規模なトレーニングデータセットへの依存を減らし,臨床的な信頼性を高める。

    Link: https://arxiv.org/abs/2603.22627

  • ビューポートに基づくニューラル360度画像圧縮 [eess.IV, cs.CV]目的:360度画像の効率的な圧縮手法
    • ソーシャルメディアでの360度画像の普及により,その保存・伝送技術の重要性が増している。
    • 従来の圧縮パイプラインでは,球面画像を2D平面に投影するため,過剰サンプリングや歪みが生じやすい。
    • ビューポートに基づく圧縮により,過剰サンプリングと歪みを軽減しつつ,グローバル情報の損失を防ぐことを目指す。
    • 提案手法は,既存の360度画像圧縮手法と比較して,画質を損なうことなく平均で14.01%のビット消費量を削減できる。
    • ビューポートに基づくニューラル圧縮パイプラインにおいて,提案するVPCTベースのコーデックは,既存の2D画像コーデックを上回る性能を示す。
    • VPCTモジュールは,2D画像圧縮構造に統合可能であり,グローバル情報を効率的に捉えることができる。

    Link: https://arxiv.org/abs/2603.22776

  • L-UNet:リモートセンシング画像変化検出のためのLSTMネットワーク [quant-ph, cs.CC, math.OC, cs.SY, eess.SY, econ.GN, cs.DL, q-fin.EC, eess.IV, cs.CV]目的:リモートセンシング画像の変化検出
    • 地球観測において,高解像度リモートセンシング画像の変化検出は重要な課題である。
    • 従来の深層学習手法はConv-LSTMが主流だが,空間的特徴の考慮が不足している。
    • 空間情報と時間情報を両立したエンドツーエンドのネットワークを提案し,変化検出の精度向上を目指す。
    • 提案手法L-UNetは,UNetの一部畳み込み層をConv-LSTMに置き換えることで,空間的特徴を捉える。
    • さらに,Atrous L-UNet (AL-UNet)は,多スケール空間情報を活用し,性能を向上させている。
    • 実験の結果,提案手法は既存手法と比較して,量と質の両面で優位性を示すことが確認された。

    Link: https://arxiv.org/abs/2603.22842

  • 高分解能検出器における点群セグメンテーションのためのコントラスティブメトリック学習 [hep-ex, cs.AI, cs.CV, cs.LG]目的:点群セグメンテーションのための新しいクラスタリング手法
    • 高分解能検出器は素粒子物理学において重要な役割を担うため,そのデータ解析技術の向上は不可欠である。
    • 点群データのセグメンテーションは,高分解能検出器から得られる複雑なデータ構造のため,困難な課題である。
    • 本研究は,点群データのセグメンテーションにおける表現学習の改善を目指す。
    • 提案手法は,同じオブジェクトに属する点を近く,関係のない点を分離する潜在表現を学習することで,安定した埋め込み幾何学を実現した。
    • その結果,電磁シャワーとハドロンシャワーの分離性能が向上し,オーバーラップするシャワーの信頼性も高まった。
    • 高多重度環境下においても優れた性能を維持し,シャワー形状のロバストな学習を示唆する。

    Link: https://arxiv.org/abs/2603.23356

  • 勾配降下法による非線形断層撮影の再構成が証明される [cs.CV, math.OC, physics.med-ph]目的:非線形断層撮影の再構成
    • 医療診断におけるCT技術は不可欠であり,高精度な画像再構成が求められている。
    • 高密度物質近傍では,従来の非線形前処理が不安定になり,アーチファクトが発生しやすい。
    • 非線形モデルを直接再構成することで,高密度物質によるアーチファクトを低減することを目指す。
    • 勾配降下法が非線形モデルにおいても,幾何学的な速度で最適解に収束することが証明された。
    • 少ない測定値でも,信号に関する事前情報を制約として与えることで,再構成が可能となる。
    • コーンビームCT実験により,標準的な線形再構成法と比較して金属アーチファクトの低減効果が示された。

    Link: https://arxiv.org/abs/2310.03956

  • 膝またはROC [cs.LG, cs.CV]目的:多クラス画像検出における精度評価手法の検討
    • 画像認識技術は,医療,自動運転など幅広い分野で重要性が増している
    • 既存手法は,単一クラスの画像データセットを前提としており,多クラスデータへの適用が課題
    • 未知のデータ分布下における多クラス画像検出の精度評価方法を確立すること
    • ROC曲線による閾値設定は多クラス画像検出に有効だが,データ分布が不明な場合は不向きである。
    • 膝方法による閾値算出は,データ分布に依存せず,未知のデータにも適用可能である。
    • CIFAR-10データセットを用いた実験により,両手法の有効性と限界が示された。

    Link: https://arxiv.org/abs/2401.07390

  • 動的視覚センサのノイズの定量化 [cs.CV]目的:動的視覚センサのノイズの定量化手法
    • 近年,高速な動きの認識に応用される動的視覚センサの研究が進んでいる。
    • 動的視覚センサには背景活動ノイズが多く,真の信号との区別が困難である。
    • 本研究は,基準データなしでノイズと信号を定量的に特徴づけることを目指す。
    • 提案手法は,偏向除去ゆらぎ解析を用いて背景活動ノイズを特徴づける。
    • この手法により,ノイズと信号を定量的に評価し,最適なノイズ除去フィルタのパラメータを導出できる。
    • 実車データセットを用いて,提案手法によるノイズ除去の効果が実証された。

    Link: https://arxiv.org/abs/2404.01948

  • DifAttack++:クロスドメインにおける階層的解離特徴空間を用いた効率的なクエリベースのブラックボックス敵対的攻撃 [cs.CV]目的:高精度かつ汎化性能を有するスコアベースのブラックボックス敵対的攻撃手法
    • 機械学習モデルの堅牢性は重要であり,敵対的攻撃への対策は不可欠である。
    • 既存のブラックボックス攻撃は,クエリ効率が悪く,汎化性能が低いという課題がある。
    • 特徴空間の解離により,クエリ効率と攻撃成功率を向上させることを目指す。
    • DifAttack++は,階層的な解離特徴空間を用いることで,既存手法よりも高い攻撃成功率とクエリ効率を達成した。
    • 敵対的特徴と視覚的特徴を分離し,敵対的特徴のみを最適化することで,効率的な攻撃を実現している。
    • 生成された敵対的サンプルは,良好な視覚品質を維持している。

    Link: https://arxiv.org/abs/2406.03017

  • 単一サンプル多単位預言者不等式の静的価格設定 [eess.SY, cs.SY, cs.RO, cs.GT, cs.DS]目的:単一サンプル多単位預言者不等式における最適な価格設定戦略
    • オークション理論やメカニズムデザインにおいて,効率的な資源配分は重要な課題である。
    • 不確実な需要に対する最適な価格設定は,情報制限下で難しい問題である。
    • 単一サンプル情報のみで,多単位商品の社会厚生を最大化する静的価格設定を解明する。
    • $k$個の同一商品を販売する場合,価格を$k$番目に大きいサンプル値に設定することで,競争率1/2を達成できる。
    • 商品数$k$が大きくなる場合,価格を$(k-\sqrt{2k\log k})$番目に大きいサンプル値に設定するのが最適である。
    • この価格設定戦略は,分布が既知の場合の最適戦略と比較して,僅かな差しかなく,効率的であることが示された。

    Link: https://arxiv.org/abs/2409.07719

  • 動的メモリを用いたリプレイ不要の継続低ランク適応 [cs.CV, cs.LG]目的:継続学習における性能向上
    • 大規模モデルの活用が進む中,知識の継続的な獲得が重要である。
    • モデルサイズ増大に伴い,過去知識の忘却(破滅的忘却)が深刻化している。
    • 効率的なパラメータ更新で,忘却を抑制し,継続学習を可能にすること。
    • 提案手法DualLoRAは,既存の継続学習手法に対し,精度,推論速度,計算効率で優位性を示す。
    • 直交LoRAと残差LoRAを組み合わせ,動的メモリ機構により安定性と可塑性のバランスを実現する。
    • タスク識別による信頼性推定と出力調整により,モデルの性能をさらに向上させる。

    Link: https://arxiv.org/abs/2411.00623

  • 構造的・統計的オーディオテクスチャ知識蒸留による音響分類 [cs.CL, cs.SD, eess.AS]目的:音響分類のための構造的・統計的オーディオテクスチャ知識蒸留
    • 環境音の認識は,安全や快適性の向上に不可欠であり,その重要性は高い。
    • 既存の知識蒸留は,環境音分類において重要な低レベルオーディオテクスチャの特徴を考慮していない。
    • 複雑な音響環境における局所的なパターンを捉えるため,低レベル特徴の活用を目指す。
    • 提案手法SSATKDは,様々なデータセットにおいて一貫して高い精度向上を示した。
    • SSATKDは,構造的・統計的オーディオテクスチャと高レベルのコンテキスト情報を組み合わせることで,ロバストな音響分類を実現する。
    • 教師モデルの適応戦略や種類に関わらず,SSATKDの効果が確認された。

    Link: https://arxiv.org/abs/2501.01921

  • 準共形畳み込み:単純連結開曲面上での深層学習のための学習可能な畳み込み [cs.CV]目的:単純連結開曲面上の深層学習のための準共形畳み込みの枠組み
    • 複雑な幾何学的データを扱う上で,従来の座標系に依存しない手法が求められる。
    • 不規則で非ユークリッドな構造を持つ領域に対する畳み込み演算の定義が困難である。
    • 準共形理論に基づき,データに適応的に変化する学習可能な畳み込み演算を確立する。
    • 準共形畳み込み(QCC)は,準共形写像を利用して畳み込み演算を調整し,多様な空間畳み込みを統一する。
    • QCCNNは,曲面上に定義された画像の分類において,従来のモデルを上回る性能を示す。
    • 頭蓋顔面分析や3D顔面上の病変セグメンテーションといった医療応用において,精度と信頼性を向上させる。

    Link: https://arxiv.org/abs/2502.01356

  • 大規模ビジョン言語モデルにおける注意機構の校正による物体幻覚の軽減 [cs.CV, cs.AI]目的:大規模ビジョン言語モデルにおける物体幻覚の軽減
    • 近年,画像とテキストを理解するモデルが発展している。その応用範囲は広く,社会実装が期待されている。
    • これらのモデルは,視覚情報に基づかない誤った情報を生成することがあり,信頼性を損なう可能性がある。
    • 注意機構の偏りを校正することで,幻覚を抑制し,より正確な応答を生成することを目指す。
    • 提案手法であるDACは,コントラスト学習を用いて注意機構を動的に校正し,モデルや入力への適応性を高める。
    • DACは,既存手法と比較して,物体幻覚の大幅な軽減とマルチモーダルアライメントの向上を複数のベンチマークで示した。
    • DACは,様々なLVLMアーキテクチャにおいて最先端の性能を達成し,汎用性の高い解決策となる。

    Link: https://arxiv.org/abs/2502.01969

  • アーキテクチャを意識した最小化 (A$^2$M): ニューラルアーキテクチャ探索における平坦な最小値を見つける方法 [cs.LG, cond-mat.dis-nn, cs.CV]目的:ニューラルアーキテクチャ探索空間における平坦な最小値を探索すること
    • ニューラルネットワークの設計において,性能と効率性を両立させる自動化技術の重要性が増している。
    • 微分可能なNAS手法では,探索空間の構造が十分に理解されておらず,最適化が困難である。
    • アーキテクチャ探索空間の幾何学的構造を明らかにし,平坦な最小値への勾配を誘導する手法を開発すること。
    • 本研究では,NAS-Bench-201およびDARTSにおけるアーキテクチャ空間の平坦性に着目し,その幾何学的特性を明らかにした。
    • 提案手法A$^2$Mは,既存の微分可能なNAS手法に容易に組み込むことができ,汎用性の高いツールとなる。
    • 実験結果から,A$^2$MはCIFAR-10,CIFAR-100,ImageNet16-120において,平均でテスト精度を3.60%~4.60%向上させることを示した。

    Link: https://arxiv.org/abs/2503.10404

  • フェデレーテッド学習における非IIDデータの再定義:コンピュータビジョンタスクに対するラベルから埋め込みへの移行によるタスク固有のデータ分布 [cs.CV, cs.LG]目的:コンピュータビジョンタスクにおけるフェデレーテッド学習の性能劣化要因の分析と,新たなデータ異質性の定義
    • 分散機械学習において,データプライバシーを保護しつつモデルを学習するフェデレーテッド学習は重要である。
    • クライアント間でのデータ分布の偏り(非IID)がフェデレーテッド学習の性能を著しく低下させるという課題がある。
    • 従来のラベル分布に基づく異質性の定義では不十分であり,タスク固有のデータ特性を考慮した新たな異質性の評価が必要である。
    • 提案手法では,事前学習済みの深層ニューラルネットワークを用いてタスク固有のデータ埋め込みを抽出し,それに基づくデータ異質性を定義した。
    • この埋め込みに基づく異質性評価は,従来のラベル分布に基づく評価よりも,フェデレーテッド学習における性能劣化をより正確に捉えることが示された(最大約60%の損失増加)。
    • 本研究は,今後のフェデレーテッド学習におけるデータ異質性に関する研究の方向性を示唆する。

    Link: https://arxiv.org/abs/2503.14553

  • 参照画像なし画像品質評価に基づくドメイン横断的水中画像強調 [cs.CV]目的:水中画像強調の新たな手法
    • 水中画像は,水中の影響により視認性が低下し,様々な分野で利用が制限される。
    • 水中画像の品質評価には参照画像が必要だが,高品質な参照画像ペアの取得が困難である。
    • 参照画像不要な画像品質評価を活用し,ドメイン間の知識転移を行うことで,高品質な水中画像強調を実現する。
    • 提案手法Trans-UIEは,事前学習とファインチューニングにより,水中画像強調の根本的な課題に対処する。
    • 特に,参照画像不要な画像品質評価指標を用いることで,ドメイン間のバイアスを軽減し,より自然な強調画像を生成する。
    • 複数の評価データセットにおいて,最先端の手法と比較して大幅な性能向上を実証した。

    Link: https://arxiv.org/abs/2503.17937

  • FiGKD:高周波詳細転移による微細知識蒸留 [cs.CV]目的:微細知識蒸留の新しい手法
    • 画像認識技術は,自動運転や医療診断など多岐にわたる分野で不可欠であり,その精度向上は重要な課題である。
    • 既存の知識蒸留法は,微細な視覚的特徴を識別する必要がある微細画像認識タスクにおいて,十分な性能を発揮できない場合がある。
    • 教師モデルの持つ微細な判断パターンを効率的に生徒モデルへ転移することで,微細画像認識の精度向上を目指す。
    • 提案手法FiGKDは,離散ウェーブレット変換を用いてモデルのロジットを高周波成分と低周波成分に分解し,高周波成分のみを転移する。
    • FiGKDは,アーキテクチャに依存せず,中間層の特徴マップにアクセスする必要がないシンプルな手法である。
    • CIFAR-100やTinyImageNetなど,複数のベンチマークデータセットで,既存の知識蒸留法を上回る性能が確認された。

    Link: https://arxiv.org/abs/2505.11897

  • PRISM:漸進的洗練と挿入による疎な運動のためのビデオデータセット凝縮 [cs.CV, cs.AI, cs.LG]目的:ビデオデータセットの凝縮
    • ビデオ処理の計算コストが高いことが課題であり,データセットのサイズ削減が重要である。
    • 既存手法では,空間情報と時間的変化を分離するアプローチが主流だが,現実世界の動作の複雑な関係性を捉えきれない。
    • 空間情報と時間的変化を統合的に捉え,効率的なデータセットの凝縮を実現することを目指す。
    • PRISMは,ビデオを空間情報と時間的変化が完全に結合された時空間構造として扱うことで,データセットの凝縮を行う。
    • 固定フレーム最適化を避け,非線形な動きを捉えられない箇所にキーフレームを漸進的に挿入することで,表現効率を最大化する。
    • 実験により,PRISMは標準的なベンチマークで優れた性能を発揮し,疎な表現学習により高いストレージ効率を実現することが示された。

    Link: https://arxiv.org/abs/2505.22564

  • 文脈的に矛盾するプロンプトからの画像生成 [cs.GR, cs.AI, cs.CV, cs.LG]目的:文脈的矛盾に対する画像生成の改善
    • 画像生成技術は,創造性や表現の可能性を広げ,多様な分野での応用が期待されている。
    • テキストと画像の意味の一貫性が不十分であり,矛盾する概念を含むプロンプトへの対応が課題である。
    • 文脈的矛盾を解消し,プロンプトの内容に忠実な画像を生成することを目指す。
    • 提案手法では,段階に応じたプロンプト分解フレームワークを用いることで,画像の生成過程を制御する。
    • 大規模言語モデルを活用し,矛盾を特定・解決する代替表現を生成し,文脈の一貫性を確保する。
    • 実験の結果,文脈的矛盾を含む困難なプロンプトに対するテキストとの整合性が大幅に向上した。

    Link: https://arxiv.org/abs/2506.01929

  • モーション追従:効率的な空間・時間的分離型ファインチューニングによる動画モーション転送 [cs.CV]目的:動画モーション転送のための効率的なフレームワーク
    • 動画生成技術は目覚ましい進歩を遂げており,多様なモーション生成が可能になっている。
    • 既存手法はモーションの一貫性を保てず,大規模モデルのファインチューニング効率が課題である。
    • 空間・時間的分離型LoRAと効率的な学習戦略により,モーションの一貫性とファインチューニング効率を向上させる。
    • 提案手法Follow-Your-Motionは,空間・時間的に分離されたLoRAを導入し,動画拡散モデルのファインチューニングを効率化する。
    • 疎なモーションサンプリングと適応的なRoPEを用いることで,学習速度を加速する。
    • 多様なモーションを含むベンチマークMotionBenchを新たに構築し,提案手法の優位性を実証した。

    Link: https://arxiv.org/abs/2506.05207

  • fMRI解析のための汎用基盤モデルの構築に向けて [cs.CV, cs.LG]目的:fMRIデータからの汎化可能な表現学習
    • 脳機能の研究や神経疾患の診断に不可欠なfMRI分析の重要性が高まっている。
    • 既存手法は,複雑な前処理やタスク特化型モデル設計により,再現性や転移学習性に課題がある。
    • 多様な下流タスクへの効率的な転移を可能にする,汎用性の高いfMRI基盤モデルの構築を試みる。
    • NeuroSTORMは,大規模なfMRIデータセットを用いて事前学習を行い,優れた表現学習能力を獲得した。
    • 5つの下流タスクにおいて,既存手法と比較して一貫して高い性能を示した。
    • 複数の臨床データセットにおいて,診断精度と心理・認知表現の予測性能を両立した。

    Link: https://arxiv.org/abs/2506.11167

  • ImmerseGen:αテクスチャプロキシによるエージェント駆動型没入型ワールド生成 [eess.SY, cs.SY, cs.CL, cs.IR, cs.GR, cs.CV]目的:没入型VRシーンの自動生成
    • VR技術の発展に伴い,高品質な仮想空間の迅速な構築が求められている。
    • 既存手法は複雑な形状を扱うため,効率性やリアリズムに課題があった。
    • 軽量なプロキシと合成テクスチャにより,リアルタイムレンダリングを可能にする。
    • ImmerseGenは,既存手法と比較して,優れたフォトリアリズム,空間的整合性,レンダリング効率を達成した。
    • テレイン条件付きテクスチャリングと文脈認識テクスチャリングにより,多様で視覚的に一貫性のあるワールドを生成する。
    • VLMベースのエージェントは,セマンティックグリッド分析により,アセット配置の精度を高め,シーンを多様な要素で豊かにする。

    Link: https://arxiv.org/abs/2506.14315

  • BeltCrack:初の連続画像産業用コンベアベルト亀裂検出データセットと三重領域特徴学習によるベースライン [cs.CV, cs.LG]目的:産業用コンベアベルトの亀裂検出のためのデータセットとベースライン手法
    • コンベアベルトは現代産業において重要な設備であり,生産効率と安全に不可欠である。
    • 既存の亀裂データセットは舗装や合成データに偏っており,実際の産業用コンベアベルトのデータセットは存在しない。
    • 実世界の産業用コンベアベルトの亀裂検出を可能にするデータセットと,その有効性を示すベースライン手法を提案する。
    • 新たなデータセットの利用可能性と有効性が実験的に示された。
    • 提案ベースラインは,他の類似の検出手法と比較して明らかに優れている。
    • データセットとソースコードは公開されており,研究利用を促進する。

    Link: https://arxiv.org/abs/2506.17892

  • MS-DGCNN++:スケール依存正規化を用いたマルチスケール動的グラフ畳み込みによるロバストなLiDAR樹種分類 [cs.CV, cs.AI]目的:LiDAR点群を用いた樹種分類の精度向上
    • 森林資源の適切な管理や生物多様性の保全には,樹種の正確な識別が不可欠である。
    • LiDAR点群の密度は樹木の部位によって大きく異なり,既存手法はその変化に対応できていない。
    • 点群密度に応じた適切な特徴量表現を学習することで,樹種分類のロバスト性を向上させる。
    • 提案手法MS-DGCNN++は,スケール依存の正規化を導入したマルチスケール動的グラフ畳み込みネットワークである。
    • 実験結果から,MS-DGCNN++は既存の56モデル中最⾼の全体精度(92.91%)をSTPCTLSデータセットで達成した。
    • また,HeliALSデータセットでは,FGI-PointTransformerと同等の精度をより少ないパラメータ数(1.81M)で実現した。

    Link: https://arxiv.org/abs/2507.12602

  • Uni3R:未ポーズな多視点画像からの汎用的なガウススプラッティングによる3D再構成とセマンティック理解の統合 [cs.CV]目的:未ポーズな多視点画像からの3Dシーンの再構成とセマンティック理解の統合手法
    • 3Dシーンの理解は,ロボット工学,拡張現実,自動運転など,多様な応用分野において不可欠である。
    • 従来の3D再構成手法は,セマンティック理解と分離されているか,あるいは計算コストが高いという課題があった。
    • Uni3Rは,計算効率と汎用性を高め,3Dシーンの再構成とセマンティック理解を同時に行うことを目指す。
    • Uni3Rは,複数のベンチマークで最先端の性能を達成した。RE10Kでは25.07 PSNR,ScanNetでは55.84 mIoUを記録した。
    • Uni3Rは,Cross-View Transformerを用いて多視点情報を統合し,セマンティック特徴を持つ3Dガウス素体を回帰する。
    • 本研究は,汎用的な3Dシーン再構成と理解に向けた新しいパラダイムを示す。

    Link: https://arxiv.org/abs/2508.03643

  • 多次元予算制約メカニズム設計 [cs.GT]目的:予算制約下でのメカニズム設計
    • オークションや市場メカニズムの効率的な資源配分が重要視される分野である。
    • 従来の予算制約メカニズム設計は,各プレイヤーが単一のアイテムを保有するケースに限られていた。
    • 複数のアイテムセットを扱う多次元ケースにおける予算制約メカニズムの近似率を保証する。
    • 単一次元の最適解をベンチマークとする近似は困難であり,独占の存在がボトルネックとなる。
    • 代替ベンチマーク$OPT_{Bench}$を導入し,メカニズムの性能評価基準を確立した。
    • XOS評価関数に対して,定数倍の近似率を保証する予算制約メカニズムを設計した。

    Link: https://arxiv.org/abs/2508.09367

  • 包括的なコミュニケーションに向けて:手話,唇,音声からの音声言語生成のための統一的フレームワーク [cs.CV, cs.MM, eess.AS, eess.IV]目的:手話,唇,音声の多様な組み合わせに対応可能な音声言語テキスト生成のための統一的フレームワーク
    • 音声は主要なコミュニケーション手段であり,自動音声認識技術の発展を牽引してきた。
    • 既存の音声中心システムは,聴覚障害者にとって利用が困難であるという課題がある。
    • 手話,唇,音声といった異なるモダリティを統合し,より包括的なコミュニケーションを実現することを目指す。
    • 提案フレームワークは,手話翻訳,視覚音声認識,音声認識,およびオーディオビジュアル音声認識といったタスクにおいて,既存の最先端モデルと同等以上の性能を達成した。
    • 唇の動きを独立したモダリティとして明示的にモデル化することで,手話翻訳の性能が大幅に向上することが示された。
    • 唇の動きは,手話理解において重要な非言語的手がかりとして機能することが明らかになった。

    Link: https://arxiv.org/abs/2508.20476

  • ノイズの多いラベルから本質的な構造へ:幾何学的・構造的二重ガイドフレームワークによるノイズに強い医用画像セグメンテーション [cs.CV, cs.AI]目的:ノイズに強い医用画像セグメンテーション手法の開発
    • 医用画像セグメンテーションは診断や治療計画に不可欠であり,高精度な画像解析が求められる。
    • 高品質なアノテーションはコストと時間がかかる上に,専門家によるラベル付けでも主観や粗さが生じ,ノイズとなる。
    • ノイズのあるアノテーションでもロバストなセグメンテーションを実現し,モデルの性能を向上させることを目指す。
    • 提案手法GSD-Netは,幾何学的・構造的な情報を統合することで,ノイズの影響を抑制し,セグメンテーション精度を向上させる。
    • シミュレーションされたノイズを含む4つのデータセットと,複数の専門家によるアノテーションを含む2つのデータセットで評価した結果,最先端の性能を示した。
    • Kvasir, Shenzhen, BU-SUC, BraTS2020においてそれぞれ1.58%, 22.76%, 8.87%, 1.77%の改善が見られた。

    Link: https://arxiv.org/abs/2509.02419

  • エディタから高密度幾何推定器へ [cs.CV, cs.AI]目的:高密度幾何推定のためのフレームワーク開発
    • 画像認識分野では,高精度な3次元構造推定が重要であり,ロボティクスや自動運転などの応用が期待される。
    • 既存手法では,データ量に依存したり,汎化性能が十分でないといった課題が存在する。
    • 事前学習済みモデルを活用し,少ないデータでも高精度な推定を可能にすることを目指す。
    • 本研究では,画像編集モデルが生成モデルよりも構造に関する事前知識を持ち,安定した学習と高い性能を実現することを示した。
    • 提案手法FE2Eは,Diffusion Transformer (DiT) を基盤とし,一貫性のある速度学習と対数量子化を用いることで,高精度な深度と法線推定を実現した。
    • ETH3Dデータセットで35%以上の性能向上を達成し,大規模データで学習したDepthAnythingシリーズを上回る結果を得た。

    Link: https://arxiv.org/abs/2509.04338

  • 様式化学習のための非様式化学習:スケーラブルな教師ありスタイル変換パラダイム [cs.CV]目的:教師ありスタイル変換のためのスケーラブルなパラダイム
    • 画像生成技術は,創造的な表現やコンテンツの多様化に不可欠である。
    • 既存のスタイル変換手法は,高品質なペアデータの不足に悩まされている。
    • 大規模データセットと新たな学習パラダイムによるスタイル変換の精度向上。
    • 本研究では,まず芸術的画像を非様式化し,自然な画像を復元することで教師データを作成する。
    • 提案手法DeStylePipeは,段階的な非様式化とDestyleCoT-Filterによる品質管理を行う。
    • 構築した大規模データセットDeStyle-350Kを用いた実験で,優れた様式化品質を実証した。

    Link: https://arxiv.org/abs/2509.05970

  • DreamAudio:拡散モデルを用いたカスタマイズされたテキスト音声生成 [cs.SD, cs.AI, eess.AS]目的:カスタマイズされたテキスト音声生成のためのフレームワーク
    • 近年の生成モデル発展により,テキストからの音声生成は飛躍的に進歩している。
    • 既存モデルは意味的な整合性に優れるものの,細かな音響特性の制御が課題である。
    • 特定の音響イベントを含む音声を生成するニーズに応える。
    • DreamAudioは,参照音源の情報に基づいて音声を生成する。
    • 少数の参照サンプルから,個別の音響イベントを含む音声を生成可能。
    • カスタマイズされた音声特徴と入力テキストとの整合性が高いことが実験で示された。

    Link: https://arxiv.org/abs/2509.06027

  • GenExam: 多分野にわたるテキストから画像への試験 [cs.CV]目的:多分野にわたるテキストから画像への試験のためのベンチマーク
    • 高度な知能の評価には,知識,推論,生成能力を統合した試験が不可欠である。
    • 既存のベンチマークは理解・推論に偏り,厳密な描写能力の評価が不十分である。
    • 画像生成モデルの理解,推論,生成能力を厳密に評価するための新たなベンチマークを提供する。
    • GenExamは,10分野1,000サンプルからなる初の多分野テキストから画像への試験ベンチマークである。
    • 17のテキストから画像生成モデルで実験を行った結果,GenExamは高い難易度を持つことが示された。
    • オープンソースモデルは,主要なクローズドソースモデルに大きく遅れをとっていることが明らかになった。

    Link: https://arxiv.org/abs/2509.14232

  • 最新のビデオLLMは聞く必要があるか?ベンチマーク監査とスケーラブルな解決策 [cs.CV, cs.MM, cs.SD]目的:ビデオ理解における音声の役割の評価
    • ビデオ理解は,AI技術の発展において重要な課題であり,多様な応用が期待される。
    • 既存のビデオ理解ベンチマークは,音声情報を十分に活用できていないという課題がある。
    • 音声情報を組み込むことで,ビデオ理解の性能向上を目指す。
    • 従来のビデオ理解パイプラインでは音声エンコーダが省略されがちだが,本研究でその有用性が示された。
    • 10のビデオベンチマークにおいて,音声情報が明瞭な性能向上をもたらすことが確認された。
    • 現在のベンチマークでは,音声エンコーダの役割が過小評価されている可能性が示唆された。

    Link: https://arxiv.org/abs/2509.17901

  • POVQA:根拠付き動画質疑応答における嗜好最適化によるデータ効率の向上 [cs.CV, cs.MM]目的:動画質疑応答のデータ効率改善
    • 動画と言語を組み合わせた高度なAI技術の発展は,様々な応用分野で注目されている。
    • 大規模言語モデルの活用には,大量の学習データが必要となる点が課題である。
    • 動画データを効率的に処理し,限られたデータで高性能なモデルを構築することを目指す。
    • 提案手法POVQAは,動画の各秒を単一の画像に圧縮することでデータ効率を高める。
    • ReasonVQAデータセットを用いた実験で,F1スコアが0.212から0.543に,BLEU-4が0.031から0.291に,ROUGE-Lが0.196から0.528に大幅に向上した。
    • スーパーバイズドファインチューニングとDPOの組み合わせは,使用するプーリング手法に依存せず,頑健な性能を示した。

    Link: https://arxiv.org/abs/2510.01009

  • GPTベースVLMを用いた顎嚢胞の所見生成:構造化出力付き二段階自己修正ループ(SLSO)フレームワークの予備研究 [cs.CV, cs.AI]目的:顎嚢胞に対するGPTベースVLMによる放射線所見の生成精度向上
    • 歯科画像診断におけるAIの活用は,診断支援や効率化に貢献し,医療の質の向上に不可欠である。
    • 既存の画像認識AIは,放射線所見の記述において信頼性に課題があり,臨床応用が制限されている。
    • 本研究は,AIによる顎嚢胞の所見生成の精度と信頼性を高めるための枠組みを提案し,その有効性を検証する。
    • 提案するSLSOフレームワークは,従来のCoT手法と比較して,複数の評価項目で出力精度を向上させた。
    • 特に,歯番号の特定,歯の移動の検出,根吸収の評価において顕著な改善が見られた。
    • フレームワークは,明示的な陰性所見の記述を強制し,幻覚を抑制する効果が確認された。

    Link: https://arxiv.org/abs/2510.02001

  • 背景が薄れ,前景が導く:カリキュラム誘導による背景プルーニングを用いた効率的な前景中心協調知覚 [cs.CL, cs.CG, cs.CV, cs.RO]目的:効率的な前景中心協調知覚のための手法
    • 自動運転の信頼性と空間カバレッジ向上に不可欠であり,単一車両では困難な状況への対応が期待される。
    • 車両間ネットワークの帯域幅制限により,特徴マップ全体の送信は非現実的であるという課題がある。
    • 前景領域の特徴のみを伝送する際に失われる背景コンテキストを前景特徴に効率的に埋め込むことを目指す。
    • 提案手法FadeLeadは,カリキュラム学習を通じて背景情報を前景特徴に集約し,帯域幅制限下でも高性能を実現する。
    • シミュレーションおよび実環境のベンチマークにおいて,既存手法と比較して優れた性能を示す。
    • 背景コンテキストを強化した前景共有の有効性が確認された。

    Link: https://arxiv.org/abs/2510.19250

  • 視線とVLMの融合:アテンション正則化による一人称視点理解 [cs.DB, cs.CV, cs.AI]目的:一人称視点理解のためのVLM(Visual-Language Model)性能向上
    • 一人称視点データは,人間の行動や意図を理解する上で重要であり,様々な応用が期待される。
    • VLMは視覚情報と言語情報を統合するが,人間の注意メカニズムを十分に活用できていない。
    • 視線情報を活用し,VLMのアテンションメカニズムを人間視線に合わせることで,理解精度を向上させる。
    • 本研究では,視線情報をVLMの学習時に正則化することで,将来のイベント予測精度を最大11%向上させた。
    • 現在の活動理解においても,視線正則化により,ベースラインモデルと比較して約7%の精度向上を達成した。
    • この結果は,視線誘導学習が,一人称視点VLMの精度とロバスト性を向上させる有効性を示している。

    Link: https://arxiv.org/abs/2510.21356