arXiv雑要約

画像・音声 - 2025/12/16 公開

  • 大規模集団における一次報酬修正によるナッシュ均衡学習 [eess.SY, cs.GT, cs.SY, math.DS, math.OC]目的:大規模集団における非協調戦略的エージェントのナッシュ均衡学習
    • ゲーム理論は経済学や社会科学において意思決定を分析する上で不可欠な枠組みである。
    • 現実の意思決定は合理性を限定し,将来の予測や遅延の影響を受ける場合がある。
    • 一次報酬修正を考慮した,より現実的な均衡学習モデルを確立すること。
    • 一次報酬修正を含む最も広範なペイオフメカニズムクラスにおいて,ナッシュ均衡学習が成立することが示された。
    • 本研究は,パッシビティ概念を組み合わせた新しいフレームワークを提示し,従来の範囲を大幅に拡張した。
    • 不連続な最適反応ダイナミクスと連続学習規則の両方において,結果が成立することが確認された。

    Link: https://arxiv.org/abs/2504.16222

  • ガウス関数とサーフェルが交わる:超高速ハイフィデリティラディアンスフィールドレンダリング [cs.CV]目的:ラディアンスフィールドレンダリングのためのバイスケール表現
    • 仮想現実や自動運転など,リアルな3Dシーンの高速描画への需要が高まっている。
    • 従来のラディアンスフィールド表現は,計算コストが高く,リアルタイム描画が困難である。
    • 高速かつ高品質な描画を実現するため,サーフェルとガウス関数を組み合わせた新たな表現を提案する。
    • 提案手法であるGESsは,従来のラディアンスフィールド表現と比較して,大幅な高速化を達成した。
    • GESsは,並び替え処理を必要とせず,高速かつ一貫性のある画像を生成し,視点変化時のアーティファクトを抑制する。
    • Mip-GES,Speedy-GES,Compact-GES,2D-GESといった拡張により,アンチエイリアシング,描画速度向上,省ストレージ,ジオメトリ再構築が可能となった。

    Link: https://arxiv.org/abs/2504.17545

  • TerraFusion: 潜在拡散モデルを用いた地形形状とテクスチャの同時生成 [cs.GR, cs.CV]目的:地形形状とテクスチャの同時生成手法
    • ゲーム開発や映像制作において不可欠な3D地形モデルのリアリティ向上に貢献する。
    • 既存手法では,高さマップとテクスチャの相関関係を十分に考慮できていない。
    • 高さマップとテクスチャ間の相関関係を維持しつつ,直感的な地形生成を実現する。
    • 潜在拡散モデルを用いて,高さマップとテクスチャを同時に生成する手法を提案した。
    • 教師なし学習により,高さマップとテクスチャのペアを生成するモデルを学習した。
    • 手描きスケッチによるユーザー制御を可能にするための外部アダプターを学習した。

    Link: https://arxiv.org/abs/2505.04050

  • テンプレート誘導による肺分画の再構築:ニューラル陰関数を用いた手法 [cs.GR, cs.AI, cs.CV]目的:肺分画の高精度な3D再構築
    • 肺がん治療における分画切除や手術計画において,正確な肺分画の3D再構築が不可欠である。
    • 従来の深層学習手法では,高解像度な再構築に計算資源が限られる,あるいは粒度が粗くなるという課題があった。
    • ニューラル陰関数を用いて,解剖学的構造を考慮した高精度な肺分画再構築を実現し,その評価指標を新たに定義すること。
    • 提案手法は,学習可能なテンプレートを変形させることで,解剖学的構造を意識した肺分画の3D表面を再構築する。
    • 既存手法と比較して,再構築精度が向上し,新たな肺分画再構築の可能性を示す。
    • 800個の肺分画モデルと血管構造を含むLung3Dデータセットを新たに開発し,再構築アルゴリズムのベンチマークに貢献する。

    Link: https://arxiv.org/abs/2505.08919

  • 強化学習に基づくマルチモーダル推論における難易度優先の可能性の解明 [cs.CV]目的:マルチモーダル推論のための強化学習に基づくファインチューニングの有効性を高めるための,問題の難易度に関する事前情報の明示的なモデル化
    • マルチモーダル推論は,画像とテキストなどの多様な情報を統合し,高度な問題解決能力を実現する上で重要である。
    • 既存の手法では,問題の難易度を考慮せず,単純すぎる問題や非常に難しい問題が学習の妨げとなる場合がある。
    • 本研究は,問題の難易度を適切に評価し,学習プロセスを最適化することで,マルチモーダル推論の性能向上を目指す。
    • オフラインデータキュレーションにより,2つのデータセットにおいてU字型の難易度分布が確認され,極端に簡単または難しいプロンプトをフィルタリングすることで,有効な勾配を得られることが示された。
    • オンラインの利点差別化により,グループごとの経験的精度を難易度のプロキシとして使用し,より難しい問題に対してより強い学習信号を提供することが可能になった。
    • 難易度ヒントを明示的なプロンプトとして導入することで,複雑なサンプルに対するモデルの推論深度の調整と反射的な検証チェックを促すことができた。

    Link: https://arxiv.org/abs/2505.13261

  • 制御可能な拡散によるリアルな自動車衝突の実現:Ctrl-Crash [cs.CV, cs.AI, cs.RO]目的:リアルな自動車衝突映像の生成
    • 交通安全向上には,現実的な事故シミュレーションが不可欠である。
    • 運転データセットに事故映像が少ないため,拡散モデルによるリアルな衝突映像生成が困難である。
    • 入力の変化による事故結果の多様性を可能にする制御可能な生成手法の開発。
    • 提案手法Ctrl-Crashは,バウンディングボックス,衝突タイプ,初期フレーム等の条件に基づいて自動車衝突映像を生成する。
    • 分類器フリーガイダンスを用いることで,各条件信号に対するきめ細かい制御を可能にした。
    • 定量的評価(FVD,JEDi)および人間による評価において,既存手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2506.00227

  • DualMap:動的な変化する環境における自然言語ナビゲーションのためのオンラインオープンボキャブラリセマンティックマッピング [cs.RO, cs.CV]目的:動的環境における自然言語を用いたロボットのナビゲーションを可能にするオンラインオープンボキャブラリマッピングシステム
    • ロボットが人間のように環境を理解し,指示に従うためには,セマンティックマッピングが不可欠である。
    • 従来のセマンティックマッピングは,環境変化への対応が遅く,計算コストが高いという課題があった。
    • 環境変化に効率的に対応し,リアルタイムなナビゲーションを実現するセマンティックマッピング手法を開発すること。
    • DualMapは,ハイブリッドセグメンテーションとオブジェクトレベルのステータスチェックにより,従来の3Dオブジェクトマージのコストを削減し,効率的なオンラインシーンマッピングを実現した。
    • 抽象マップと具体マップの二重マップ表現により,動的な環境変化を効果的に管理・更新し,高精度なナビゲーションを可能にした。
    • シミュレーションと実環境の両方での実験により,3Dオープンボキャブラリセグメンテーション,シーンマッピング,言語ガイドナビゲーションにおいて最先端の性能を示した。

    Link: https://arxiv.org/abs/2506.01950

  • 部品が全体を構成する方法:画像の相対的な構成の学習 [cs.CV, cs.AI, cs.LG]目的:画像の相対構成の学習
    • 物体と部品の構成は,表現学習のための豊富な情報源である。視覚理解の基盤技術として重要。
    • 既存手法は固定グリッド構造に依存し,現実世界の流動的な構成を捉えきれない。
    • グリッド制約から解放し,連続的な相対変形を捉えることで,より汎用的な学習を目指す。
    • 提案手法PARTは,オフグリッドパッチ間の連続的な相対変換を利用し,画像構成の学習を実現した。
    • 物体検出や時系列予測といった空間理解を要するタスクにおいて,既存グリッドベース手法を上回る性能を示した。
    • 画像だけでなく,脳波信号など多様なデータタイプへの応用可能性を示唆し,汎用的な事前学習の新たな道を開いた。

    Link: https://arxiv.org/abs/2506.03682

  • フィルタを正規化せよ!深層ビジョンの古典的知恵 [cs.CL, cs.CV]目的:深層学習における畳み込みフィルタの正規化
    • 画像処理においてフィルタは重要な役割を担う。その性能は,画像認識の精度に直結する。
    • 深層学習で学習されるフィルタは正規化されていないため,大気の影響を受けやすく,性能が低下する。
    • フィルタの正規化により,大気の影響を軽減し,画像の認識精度を向上させることを目指す。
    • フィルタの正規化は,古典的なフィルタリングの原理を深層学習に統合するシンプルな手法である。
    • 提案手法は,人工的なデータセットと自然なデータセットの両方で,既存手法を大幅に上回る性能を発揮した。
    • フィルタの正規化は,学習の正則化を促進し,多様性を高め,汎化性能を向上させる。

    Link: https://arxiv.org/abs/2506.04401

  • U-NetMNとSegNetMN:バイモーダルSAR画像セグメンテーションのためのU-NetおよびSegNetモデルの改良 [cs.CV, cs.LG, eess.IV]目的:SAR画像セグメンテーションにおける収束速度と安定性の向上
    • SAR画像は,水域探知を含むリモートセンシングにおいて重要な役割を担う。
    • 深層学習モデルは,SAR画像の複雑な統計的分布により,収束速度と安定性の問題に直面しやすい。
    • モード正規化を導入することで,SAR画像セグメンテーションの効率と汎化性能の改善を目指す。
    • モード正規化は,U-NetおよびSegNetの収束を大幅に加速することが示された。
    • 交差検証の結果,正規化されたモデルは異なる領域で安定性が向上することが確認された。
    • 本研究は,SAR画像セグメンテーションにおける正規化の有効性を示すものである。

    Link: https://arxiv.org/abs/2506.05444

  • WakeupUrban:衛星画像による20世紀半ばの都市景観の教師なしセマンティックセグメンテーション [cs.CL, cs.CV]目的:20世紀半ばの都市景観のセマンティックセグメンテーション
    • 都市発展の経年変化を理解する上で,過去の衛星画像は貴重な情報源である。
    • 過去の衛星画像は品質劣化やアノテーション欠如により,分析が困難であった。
    • 本研究は,ノイズの多い過去の衛星画像に対する教師なしセグメンテーションの精度向上を目指す。
    • 本研究では,初の過去の衛星画像に基づくアノテーション付きセグメンテーションデータセット「WakeupUrbanBench」を構築した。
    • さらに,自己教師あり学習に基づき,信頼度を考慮したアライメント機構と損失関数を用いた「WakeupUSM」という教師なしセグメンテーションフレームワークを提案した。
    • 実験により,WakeupUSMは既存手法と比較して優れた性能を示し,都市の長期的な変化の定量的な研究への道を開くことが期待される。

    Link: https://arxiv.org/abs/2506.09476

  • グラフメタニューラルネットワークによるメタプルーニング:ネットワークプルーニングのための汎用的なメタ学習フレームワーク [cs.LG, cs.AI, cs.CV]目的:ネットワークプルーニングのためのメタ学習フレームワーク
    • 深層学習モデルの効率化は,計算資源の制約や実用的な応用において重要である。
    • 従来のプルーニング手法は,固定された基準や個別学習に依存し,汎用性や転移性に課題があった。
    • 本研究は,自動的にプルーニング戦略を学習し,汎用性と高い性能を両立するフレームワークを提案する。
    • 本研究では,メタ学習の概念であるメタネットワークをプルーニングに導入した。
    • メタネットワークは,ネットワークをグラフとして扱い,プルーニング戦略を自動的に学習する。
    • 提案手法は,CNNやTransformerを含む様々なネットワークにおいて,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2506.12041

  • クエリワードによる画像分割:半教師あり画像セグメンテーションのための言語アンカー [cs.CY, cs.HC, cs.CL, cs.CV, cs.AI]目的:半教師あり画像セグメンテーションにおける言語アンカーの活用
    • 画像と言語の融合は,画像認識の精度向上に不可欠であり,新たな応用展開を可能にする。
    • 既存手法では,画像とテキストの意味のずれが課題であり,ドメイン固有の文脈に対応できていない。
    • ドメインを意識した言語と画像の整合性を高め,少ないラベルデータでも高精度なセグメンテーションを実現する。
    • 提案手法HVLFormerは,事前学習済みVLMのテキスト埋め込みをテキストオブジェクトクエリに変換し,多段階でデータセットを意識したクエリを生成する。
    • 画像固有の視覚的文脈を注入することで,テキストの意味を局所的なシーン構造と整合させ,クラス識別能力を向上させる。
    • クロスビューおよびモдал整合性正則化により,予測の一貫性を確保し,マスクトランスフォーマーアーキテクチャ内での安定した画像言語整合性を実現する。

    Link: https://arxiv.org/abs/2506.13925

  • 視覚的記号メカニズム:視覚言語モデルにおける創発的な記号処理 [cs.CV]目的:視覚言語モデルにおける記号処理メカニズムの解明
    • 視覚シーンの正確な理解には,個々の物体を識別する機能が不可欠である。
    • 視覚言語モデルは,記号的結合を必要とするタスクにおいて,依然として課題を抱えている。
    • 視覚言語モデルにおける結合エラーの原因を特定し,改善策を提示すること。
    • 視覚言語モデルは,内容に依存しない空間インデックススキームを通じて,結合をサポートする創発的な記号メカニズムを利用していることが明らかになった。
    • 結合エラーは,これらのメカニズムの不具合に直接的に起因することが示された。
    • 本研究は,視覚言語モデルにおける記号様処理のメカニズムを解明し,結合エラーの削減に向けた道筋を示唆する。

    Link: https://arxiv.org/abs/2506.15871

  • 円形パターンによるカメラキャリブレーション:検出不確実性とバイアス除去投影モデルを含む包括的フレームワーク [cs.CV, cs.RO]目的:カメラキャリブレーションのための包括的フレームワーク
    • カメラキャリブレーションは,コンピュータビジョンやロボティクスにおける重要な基盤技術である。
    • 従来の円形パターンの投影モデルにはバイアスが存在し,精度が低いという課題があった。
    • 円形パターンの検出不確実性を考慮することで,キャリブレーションの堅牢性と完全性を向上させる。
    • 提案手法は,従来のチェッカーボードと比較して高いキャリブレーション精度を達成した。
    • 円形パターンの境界点をマルコフ確率場としてモデル化し,グリーン定理に基づく形状表現を用いて不確実性を伝播させる。
    • キャリブレーション評価指標に基づいた良好なカメラキャリブレーションのためのガイドラインを提示する。

    Link: https://arxiv.org/abs/2506.16842

  • MR-COSMO:クエリ駆動型3Dセグメンテーションのための視覚・テキストメモリ想起と直接クロスモーダルアライメント手法 [cs.RO, cs.CV]目的:クエリ駆動型3Dセグメンテーションにおける視覚・テキストメモリ想起と直接クロスモーダルアライメント
    • 3D領域における視覚言語モデルの進展は,点群処理研究を加速させている。
    • 既存手法は,3D-テキストアライメントの不十分さから,点レベルセグメンテーションの性能が制限されている。
    • MR-COSMOは,局所特徴とテキストの関連性を強化し,3Dセグメンテーションの精度向上を目指す。
    • MR-COSMOは,点群とテキスト/2D画像データの明示的なアライメントを確立する。
    • 視覚・テキストメモリモジュールにより,シーン固有の表現を動的に強化する。
    • 3D命令,参照,および意味セグメンテーションベンチマークで最先端の性能を達成した。

    Link: https://arxiv.org/abs/2506.20991

  • SoMi-ToM: 具現化された社会的相互作用における多角的心の理論の評価 [cs.DC, cs.CL, cs.AI, cs.CV, cs.RO]目的:具現化された社会的相互作用における多角的心の理論の評価
    • 人間は,動的な現実世界での社会的相互作用を通して他者の状態や意図を推論する。この能力は,円滑なコミュニケーションや協力に不可欠である。
    • 既存の心の理論のベンチマークは,静的なテキストベースのシナリオに偏っており,現実の相互作用との乖離が課題となっていた。
    • より現実的な社会的相互作用における心の理論能力を評価するための新たなベンチマークを構築し,モデルの能力向上を目指す。
    • SoMi-ToMベンチマークは,多様な目標と社会的関係を持つ環境SoMiから得られた多種多様なデータに基づいて構築された。
    • 第一人称評価と第三人称評価という二つのレベルで評価が可能であり,主観的経験と客観的観察の両面からモデルの能力を評価できる。
    • 実験の結果,最先端のビジョン言語モデルは,SoMi-ToMにおいて人間と比較して大幅に低い性能を示し,さらなる能力向上の必要性が示唆された。

    Link: https://arxiv.org/abs/2506.23046

  • FACM:フローに固定された一貫性モデル [cs.CV]目的:効率的な少ステップ画像生成のための手法
    • 継続時間一貫性モデルは画像生成において有望だが,学習の不安定性が課題となる。
    • 従来の学習方法は,ショートカット目標に偏りやすく,フローを定義する瞬間的な速度場を忘却しやすい。
    • 基礎となるフローにモデルを固定し,高精度な軌跡を維持することで学習を安定化させる。
    • 提案手法FACMは,フローマッチングタスクを動的な固定点として活用し,学習の安定性を実現した。
    • ImageNet 256x256において,2ステップでFID 1.32,1ステップでFID 1.70を達成し,最先端の結果を示した。
    • 大規模モデル(14Bパラメータ)への適用を可能にするメモリ効率の良いChain-JVPを開発し,推論速度を向上させた。

    Link: https://arxiv.org/abs/2507.03738

  • CAST-Phys:生理信号による非接触情動状態データベース [cs.RO, cs.CV]目的:非接触情動認識のための多角的生理信号データベース
    • 情動計算は近年急速に発展しており,様々な応用が期待されている分野である。
    • 高精度な情動認識システムの開発には,十分な多角的データセットの不足が課題となっている。
    • 身体接触を伴う測定が情動に影響を与える問題を解決し,自然な情動を捉えることを目指す。
    • 本研究では,顔と生理信号を用いた非接触情動認識のための高品質なCAST-Physデータベースを構築した。
    • 生理信号が現実的な情動認識において重要な役割を果たすことが示された。
    • 個々のモダリティとそれらの融合による効果を検証し,非接触情動認識技術の進展に貢献する可能性を示した。

    Link: https://arxiv.org/abs/2507.06080

  • AnthroTAP:現実世界のモーションを用いた点追跡学習 [cs.CV]目的:現実世界のモーション動画から大規模な疑似ラベル付き点追跡データを生成するパイプライン
    • 点追跡は,ロボティクスやコンピュータビジョンなど,様々な応用分野において不可欠である。
    • 大規模な実世界の注釈付きデータ収集はコストが高く,実用化が難しい。
    • 人間の構造化された動きを利用することで,実世界の点追跡学習の効率と精度を向上させる。
    • AnthroTAPは,検出された人物にSMPLモデルを適合させ,メッシュ頂点を画像平面に投影することで疑似ラベルを生成する。
    • 生成されたデータセットを用いて学習したモデルは,TAP-Vidベンチマークにおいて最先端の性能を達成した。
    • 大規模な実データセットで学習した自己教師ありモデルよりも優れた性能を,短い学習時間で実現した。

    Link: https://arxiv.org/abs/2507.06233

  • 線形分離可能性の限界を超えて:VLMにおける表現の整合 [cs.CV]目的:視覚言語モデルにおける表現の整合性向上
    • 視覚言語モデルは,画像とテキストを理解するAIの重要な要素であり,様々な応用が期待される。
    • 抽象的な推論タスクにおいて,視覚情報の認識能力と,トップダウンの推論能力のどちらがボトルネックか不明である。
    • 視覚表現の線形分離可能性の限界を克服し,モデルの推論能力を向上させる。
    • 最新のVLMにおいて,表現の線形分離可能性を超える性能を発揮できない「整合性のギャップ」が広く存在することが明らかになった。
    • この限界は,視覚表現の改善や非線形な意思決定ロジックの導入によって克服可能であることが示された。
    • 提案手法は,視覚多様体をより線形的な形状に再構成することで,画像間の比較能力を向上させ,抽象二値分類タスクで線形分離可能性の限界を大幅に上回る結果を示した。

    Link: https://arxiv.org/abs/2507.07574

  • オーディオビジュアル音声強調:アーキテクチャ設計と展開戦略 [cs.SD, eess.SP]目的:オーディオビジュアル音声強調システムのアーキテクチャ設計と展開戦略
    • 通信環境の悪化や騒音により,音声の明瞭性が低下する場面が多数存在する。
    • 既存の音声強調技術では,多様な環境下での高い性能と低遅延の両立が課題である。
    • 様々なネットワーク環境下での最適なシステム展開戦略を確立し,実用性を向上させる。
    • クラウド環境での展開は最も高い音声強調品質を達成するが,遅延が大きくなる傾向がある。
    • エッジアシスト型アーキテクチャは,遅延と明瞭度のバランスが良く,リアルタイム性を満たすことが示された。
    • 5GやWi-Fi 6環境下では,エッジアシスト型が優れた性能を発揮し,実用的な展開戦略となり得る。

    Link: https://arxiv.org/abs/2508.08468

  • DiffPose-Animal:言語条件付き拡散フレームワークによる動物の姿勢推定 [cs.CV]目的:動物の姿勢推定
    • 生態モニタリング,行動分析,スマート畜産管理などへの応用が期待され,重要性が高まっている。
    • 種ごとの形態の多様性,複雑な身体構造,注釈付きデータの不足により,人間よりも難しい。
    • 拡散モデルを用いて,生物学的に意味のある制約を加え,よりロバストな姿勢推定を目指す。
    • 本研究では,新しい拡散ベースのフレームワークDiffPose-Animalを提案した。
    • 大規模言語モデルを活用し,種固有のプロンプトに基づいた解剖学的知識とキーポイントごとの意味情報を抽出した。
    • 多様な種,背景の乱雑さ,キーポイントの欠損といった困難な状況下で,有効性と汎化能力が実証された。

    Link: https://arxiv.org/abs/2508.08783

  • HumanSense:推論による多種モーダル知覚から共感的文脈対応応答へ [cs.RO, cs.CV]目的:人間中心のシナリオにおけるMLLMの知覚と相互作用能力の評価
    • 人間らしい対話を可能にするMLLMの発展には,複雑な人間意図の理解が不可欠である。
    • MLLMの評価フレームワークが不十分であり,文脈を考慮した共感的な応答が課題である。
    • MLLMの人間中心の知覚・相互作用能力を向上させる評価基準と学習手法を確立すること。
    • HumanSenseは,MLLMの人間中心の知覚と相互作用能力を評価するための包括的なベンチマークである。
    • 音声やテキスト情報を追加することで性能が大幅に向上し,Omni-modalモデルが優位性を示すことが示された。
    • 推論能力が共感的応答の鍵であり,HumanSense-Omni-Reasoningによって高度なタスク性能が向上した。

    Link: https://arxiv.org/abs/2508.10576

  • LocoMamba: Mambaを用いたエンドツーエンド深層強化学習による視覚駆動型ロボット移動 [cs.RO, cs.AI, cs.CV, cs.SY, eess.IV, eess.SY]目的:視覚情報に基づくロボット移動の実現
    • ロボットの自律的な移動は,多様な環境での活動において不可欠である。
    • 従来の強化学習は,状態空間の規模拡大や長期依存性の学習が困難である。
    • Mambaを用いて効率的な系列モデリングを行い,長距離依存性を捉えることで,この問題を解決する。
    • 本研究では,Mambaを基盤とした新たな強化学習フレームワークLocoMambaを提案した。
    • 提案手法は,既存手法と比較して高い報酬と成功率を達成し,衝突が少ないことが示された。
    • 未知の地形や障害物密度への汎化性能が向上し,学習効率も改善された。

    Link: https://arxiv.org/abs/2508.11849

  • 条件織りと専門家モジュレーション:汎用かつ制御可能な画像生成へ [cs.CV, cs.AI]目的:多様な条件入力に対応し,画像生成効率と表現力を向上させるUniGenフレームワークの提案
    • 画像生成技術は,現実世界の表現や新たなコンテンツ作成において重要な役割を担う。
    • 既存手法は条件ごとに制御ブランチを分離するため,モデル構造が冗長になり計算資源が無駄になる。
    • 本研究は,条件間の特徴量のもつれを軽減し,計算効率を改善することを目指す。
    • 提案手法UniGenは,Subjects-200KおよびMultiGen-20Mデータセットにおける様々な条件画像生成タスクで最先端の性能を達成した。
    • CoMoEモジュールは,類似したパッチ特徴量を集約し,専用の専門家モジュールに割り当てることで,冗長な計算を抑制する。
    • WeaveNetは,バックボーンと制御ブランチ間の情報ギャップを埋め,テキストレベルとファインチューニングされた制御の有効な相互作用を可能にする。

    Link: https://arxiv.org/abs/2508.17364

  • カラーバインド:テキスト画像生成モデルにおける色彩認識の探求 [cs.CV]目的:テキスト画像生成モデルにおける色彩認識の現状と課題
    • テキストから画像を生成する技術は発展途上であり,表現力向上に貢献する。
    • 複雑な指示文に対して,モデルが指示通りの画像を生成することが困難である。
    • 複数色を含む指示文に対するモデルの不正確さを改善する手法を提案する。
    • 事前学習済みのモデルは,単色指示文に比べて複数色を含む指示文の正確な生成に苦戦する。
    • 既存の推論時修正や編集手法では,この問題は十分に解決されないことが示された。
    • 提案手法は,様々なテキスト画像生成モデルにおいて,複数の評価指標で性能を大幅に向上させる。

    Link: https://arxiv.org/abs/2508.19791

  • Swin Transformerに基づく高忠実度音声超解像ネットワーク [cs.CL, cs.SD, eess.AS]目的:高忠実度音声超解像のための技術
    • 音声技術の発展に伴い,高音質化の要求が高まっているため。
    • 既存のシステムでは,表現の不一致や高周波成分の過剰な平滑化が課題となっている。
    • 多様なサンプリングレートに対応可能な,効率的な超解像手法を開発する。
    • SwinSRGANは,Modified Discrete Cosine Transform (MDCT) 振幅上で動作するエンドツーエンドのフレームワークである。
    • Swin TransformerベースのU-Net構造により,長距離のスペクトロ-時間的依存性を捉え,高周波帯域に特化した識別器を用いることで,高忠実度な音声超解像を実現した。
    • 標準的なベンチマークにおいて,客観的な評価指標と主観的な評価の両方で,既存手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2509.03913

  • ガウス+SDF SLAM:150fps以上の高精度3D再構成 [cs.CV]目的:高精度な3D再構成手法の開発
    • SLAM技術はロボットの自律移動や環境理解に不可欠であり,その性能向上が求められている。
    • 既存のガウスベースSLAMは再構成品質が高い一方,計算コストが高く,リアルタイム処理が困難である。
    • ガウスとSDFを組み合わせることで,計算コストを抑えつつ高精度な再構成を実現することを目指す。
    • 提案手法では,ガウスの数を50%削減し,最適化のイテレーション数を75%削減することに成功した。
    • これにより,GPS-SLAMはAzure Kinectのデータに対して150fps以上のリアルタイム処理を達成した。
    • 既存の最先端技術と比較して,処理速度は10倍以上向上し,再構成品質は同等レベルを維持した。

    Link: https://arxiv.org/abs/2509.11574

  • ポリープのセグメンテーション改善と可視化による説明可能性分析 [cs.CV, cs.LG]目的:ポリープのセグメンテーション精度向上と,その根拠の可視化
    • 大腸癌は依然として主要な癌による罹患率と死亡率の原因であり,早期発見が重要である。
    • ポリープの正確なセグメンテーションは手作業では時間と労力を要し,担当者によるばらつきが生じやすい。
    • 深層学習の解釈可能性を向上させ,臨床現場での信頼性を高めることを目指す。
    • 提案手法PolypSeg-GradCAMは,Kvasir-SEGデータセットで高いセグメンテーション精度を示した(Dice係数:0.8902)。
    • IoUは0.8023,AUC-ROCは0.9722と,優れた性能を達成している。
    • Grad-CAMによる可視化は,モデルの予測が臨床的に重要な領域に依存していることを確認した。

    Link: https://arxiv.org/abs/2509.18159

  • 分類精度を超えて:Neural-MedBenchとより深い推論ベンチマークの必要性 [cs.CV, cs.AI]目的:多岐にわたる臨床情報の組み合わせによるニューロロジー分野におけるマルチモーダル臨床推論能力の評価
    • 医療AIの発展は,診断支援や治療計画の最適化に不可欠であり,その精度向上が求められている。
    • 既存の医療ベンチマークは分類精度に偏っており,実際の臨床現場で求められる高度な推論能力を十分に評価できていない。
    • Neural-MedBenchは,マルチモーダルな臨床推論能力を評価するためのベンチマークとして,AIの信頼性を高めることを目指す。
    • 最新のVLMs(GPT-4o,Claude-4,MedGemmaを含む)は,従来のデータセットと比較してNeural-MedBenchにおいて著しくパフォーマンスが低下することが確認された。
    • エラー分析の結果,モデルの弱点は知覚的なエラーではなく,推論の失敗に起因することが示された。
    • 統計的汎化のための大規模データセットと,推論の忠実度を評価するためのコンパクトなベンチマーク(Neural-MedBench)の両方が必要であることが強調された。

    Link: https://arxiv.org/abs/2509.22258

  • HTMA-Net:ハダマール変換とインメモリ計算による乗算回避ニューラルネットワークへ [cs.HC, cs.CV, cs.AI]目的:深層ニューラルネットワークにおける乗算コスト削減
    • エネルギー制約のあるエッジデバイスでの効率的な深層学習の実現には,計算コストの削減が不可欠である。
    • 従来の深層学習モデルは,大量の乗算演算を必要とし,計算量と消費電力の増大を招いている。
    • ハダマール変換とインメモリ計算を組み合わせることで,乗算量を削減し,計算効率を高めることを目指す。
    • HTMA-Netは,ResNet-18において,最大52%の乗算を削減できることを示した。
    • 従来のResNetモデルと同等の精度を維持しつつ,計算複雑さとパラメータ数を大幅に削減することに成功した。
    • 構造化されたハダマール変換層とSRAMベースのインメモリ計算演算子の組み合わせが,効率的な深層学習アーキテクチャの有望な経路となることが示された。

    Link: https://arxiv.org/abs/2509.23103

  • C3-OWD:オープンワールド検出のためのカリキュラムを用いたクロスモーダル対照学習フレームワーク [cs.CL, cs.CV]目的:オープンワールド検出における汎化性能とロバスト性の向上
    • 実世界での物体検出の応用には,未知のカテゴリへの対応と悪条件下の安定性が不可欠である。
    • 従来の物体検出は,未知カテゴリへの汎化と悪条件下のロバスト性を両立することが困難であった。
    • C3-OWDは,汎化性能とロバスト性を同時に向上させることを目指す。
    • C3-OWDは,RGBTデータを用いた事前学習と,視覚と言語の整合性を利用した学習を段階的に行う。
    • 事前学習段階の性能劣化を防ぐため,EMAメカニズムを導入し,理論的な性能維持を保証する。
    • FLIR,OV-COCO,OV-LVISの実験により,ロバスト性と多様性の両面で競争力のある性能が確認された。

    Link: https://arxiv.org/abs/2509.23316

  • LLaVA-OneVision-1.5:民主化されたマルチモーダル学習のための完全なオープンフレームワーク [cs.CV]目的:高品質なビジョン言語モデルの構築のためのオープンで効率的かつ再現性のあるフレームワーク
    • 近年,画像とテキストを組み合わせた処理能力を持つマルチモーダルモデルが注目を集めている。
    • 既存のモデルは,学習コストが高く,再現性が低いという課題があった。
    • 限られた計算資源でも高性能なマルチモーダルモデルを構築できる手法を開発すること。
    • LLaVA-OneVision-1.5は,大規模な学習データセットと効率的な学習フレームワークを用いて構築された。
    • LLaVA-OneVision-1.5-8Bは,Qwen2.5-VL-7Bを27個のベンチマーク中18個で上回り,高性能を示す。
    • RLを用いた後学習により,複雑なマルチモーダル推論タスクにおける性能が大幅に向上した。

    Link: https://arxiv.org/abs/2509.23661

  • PD-Diag-Net:脳MRIに基づくパーキンソン病補助診断のための臨床的事前知識を活用したネットワーク [cs.CV]目的:パーキンソン病の補助診断
    • パーキンソン病は患者の生活の質を著しく低下させる神経変性疾患であり,罹患率が増加している。
    • 現在の診断は専門医の知識に依存し,早期発見の遅れや機会損失が生じやすい。
    • 脳MRIからパーキンソン病のリスク評価と補助診断を自動化し,早期発見を支援すること。
    • PD-Diag-Netは,外部テストデータで86%の精度を達成し,既存の手法を20%以上上回る。
    • 特に早期段階の診断において96%以上の高い精度を示した。
    • 脳領域の関連性や加齢に関する事前知識を活用することで,診断精度と解釈性を向上させている。

    Link: https://arxiv.org/abs/2509.23719

  • FUSAR-KLIP:リモートセンシングのためのマルチモーダル基盤モデルへ [cs.CV]目的:SAR画像のための知識誘導型汎用マルチモーダル基盤モデルの開発
    • リモートセンシングは,地球観測や環境変化の監視に不可欠であり,その重要性は増している。
    • 既存の汎用画像モデルは,地形や空間構造を考慮したリモートセンシング画像の解釈には限界がある。
    • SAR画像特有の特性を考慮し,地理科学的な知識を組み込んだモデルを構築することで,その限界を克服する。
    • FUSAR-GEOVL-1Mという大規模SARデータセットを構築し,地理的情報と画像を結びつけた。
    • 階層的な思考連鎖を用いて,地形環境や地域属性に関する多次元セマンティック情報を正確にエンコードした。
    • コントラスト,マッチング,再構成を組み合わせた自己整合的な反復最適化メカニズムを設計し,モデルの学習を促進した。

    Link: https://arxiv.org/abs/2509.23927

  • 等変分割:不完全データからの自己教師あり学習 [cs.CV]目的:不完全データからの再構成ネットワーク学習戦略
    • 逆問題において,教師データ取得が困難な場合に,学習に基づく解決策を提供する可能性が重要である。
    • 単一の不完全観測モデル下では,再構成ネットワークの性能向上が課題である。
    • 高度にランク不足な前方モデル下での性能向上を目指す。
    • 提案手法は,自己教師あり分割損失と等変再構成ネットワークを組み合わせることで,偏りのない損失推定を実現する。
    • 画像補完,高速磁気共鳴イメージング,疎な視点でのコンピュータ断層撮影,圧縮センシングなどの実験で,最先端の性能を示す。
    • 特に,ランク不足な前方モデルにおいて,優れた結果が得られる。

    Link: https://arxiv.org/abs/2510.00929

  • カスタマイズされたタスクのための条件付き表現学習 [cs.CV]目的:任意のユーザー指定基準に合わせた表現の抽出
    • 汎用的な表現学習では,主要な意味情報を捉えるが,特定のタスクに最適化されていない場合がある。
    • 既存手法は教師ありファインチューニングに依存し,計算コストやアノテーションコストが高い。
    • ユーザー指定基準に最適化されたセマンティックな特徴空間を構築し,表現性能を向上させる。
    • 提案手法CRLは,大規模言語モデルと視覚言語モデルを活用し,指定された基準に沿った表現を生成する。
    • 実験結果から,分類および検索タスクにおいて,CRLが既存手法よりも優れていることが示された。
    • CRLは,様々なカスタマイズされたタスクに適用可能であり,汎用性も高い。

    Link: https://arxiv.org/abs/2510.04564

  • TC-LoRA:時間変調型条件付きLoRAによる適応的な拡散制御 [cs.CV]目的:適応的な拡散制御のための新しいパラダイム
    • 拡散モデルは画像生成などで高い性能を示す。制御可能な生成が求められている。
    • 従来の制御手法は静的な条件付け戦略に依存し,生成過程の変化に対応できない。
    • 時間と条件に応じた動的な重み調整により,生成精度と条件への適合性を向上させる。
    • TC-LoRAは,ハイパーネットワークを用いて各拡散ステップでLoRAアダプターを生成する。
    • これにより,モデルは生成過程全体を通して条件付きガイダンスを適用するための明示的な戦略を学習できる。
    • 様々なデータドメインでの実験により,TC-LoRAが静的な手法と比較して生成忠実度と空間条件への適合性を向上させることが示された。

    Link: https://arxiv.org/abs/2510.09561

  • FlareX: 2D合成と3Dレンダリングによるレンズフレア除去のための物理情報データセット [cs.CV]目的:レンズフレア除去のためのデータセット構築
    • 画像処理において,レンズフレアは画質劣化の大きな要因であり,その除去は重要な課題である。
    • 既存のデータセットは2D合成に頼るため,フレアの多様性や物理的整合性に課題があり,実写画像への汎化が難しい。
    • 本研究は,物理に基づいたデータ生成手法により,より現実的なレンズフレアデータセットを構築し,汎化性能の高いモデルの学習を目指す。
    • FlareXデータセットは,95種類のフレアパターンから生成された9,500個の2Dテンプレートと,60個の3Dシーンからレンダリングされた3,000組のフレア画像ペアを含む。
    • 現実的なフレア除去性能評価のため,汚染された画像から実写のフレアフリー画像を生成するマスキング手法を提案した。
    • 実験により,提案手法とデータセットの有効性が確認された。

    Link: https://arxiv.org/abs/2510.09995

  • ViCO:意味理解に基づいた動的ハイレゾリューション学習戦略 [cs.CV]目的:マルチモーダル大規模言語モデルにおける効率的な画像表現方法
    • マルチモーダル大規模言語モデルは多様な応用が期待されるが,計算コストが大きい。
    • 画像入力に伴う視覚トークンの増加が,推論コスト増大の主要因となっている。
    • 画像のセマンティックな複雑さに応じて視覚トークン数を動的に調整し,効率化を図る。
    • 提案手法ViCOは,複数のMLPコネクタを用いて画像のセマンティックな複雑さに応じて圧縮率を変化させる。
    • ViCOは,推論時にVisual Resolution Router(ViR)を用いて適切な圧縮率を自動選択する。
    • 実験により,ViCOはモデルの性能を維持しつつ,視覚トークン数を最大50%削減可能であることが示された。

    Link: https://arxiv.org/abs/2510.12793

  • 拡散モデルにおける幻覚の数え方 [cs.CV]目的:拡散モデルにおける数え間違いの幻覚の定量化
    • 拡散モデルは画像生成で目覚ましい進歩を遂げているが,現実との矛盾した幻覚が生じる。
    • 幻覚を定量化する手法が確立されておらず,生成モデルの改善が困難になっている。
    • 拡散モデルにおける数え間違い幻覚を定量化し,改善への道筋を示す。
    • 数え間違い幻覚を評価するためのデータセットCountHalluSetを構築した。
    • サンプリング条件(ソルバー,ステップ数,ノイズ)が幻覚の発生に影響を与えることを示した。
    • 画像品質指標FIDは,数え間違い幻覚を捉えるには不十分であることが示唆された。

    Link: https://arxiv.org/abs/2510.13080

  • シーン一貫性とカメラ制御可能な動画生成のための3Dシーンプロンプティング [cs.CV]目的:シーン一貫性とカメラ制御を可能にする動画生成フレームワーク
    • 動画生成技術は,エンターテインメントやバーチャルリアリティなど,幅広い分野で重要性が増している。
    • 既存手法では,シーンの一貫性やカメラ制御が難しく,自然な動画生成が困難である。
    • 入力動画全体を通して,シーンの一貫性とカメラ制御を両立する動画生成手法を開発する。
    • 本フレームワークは,入力動画の長さに関わらず,正確なカメラ制御とシーンの一貫性を保ちながら動画を生成する。
    • 3Dシーンメモリを活用することで,静的な背景を正確に再現しつつ,動的な要素を自然に変化させる。
    • 実験結果から,既存手法と比較して,シーンの一貫性,カメラ制御性,生成品質において大幅な性能向上を示す。

    Link: https://arxiv.org/abs/2510.14945

  • pi-Flow:模倣蒸留による少ステップの方策ベース生成 [cs.LG, cs.AI, cs.CV]目的:少ステップ拡散モデルまたはフローベース生成モデルにおける方策に基づく生成手法
    • 生成モデルは,高品質な画像生成において重要な役割を担う。近年,拡散モデルやフローベースモデルが注目されている。
    • 従来の蒸留手法では,教師モデルと生徒モデルの出力形式の不一致により,学習が複雑化し,生成品質と多様性のバランスが課題となっていた。
    • 本研究では,出力層を修正し方策を予測することで,この課題を解決し,高品質かつ多様な画像を生成することを目指す。
    • 提案手法pi-Flowは,ImageNet 256$^2$において,従来の1-NFEモデルを上回るFIDスコア2.85を達成した。
    • FLUX.1-12BおよびQwen-Image-20Bの実験では,4 NFEsにおいて最先端のDMDモデルと比較して,多様性が大幅に向上し,教師モデルと同等の品質を維持した。
    • pi-Flowは,方策の模倣により,安定かつスケーラブルな学習を可能にし,品質と多様性のトレードオフを回避する。

    Link: https://arxiv.org/abs/2510.14974

  • GMFVAD:粒度化されたマルチモーダル特徴を用いた動画異常検知の性能向上 [cs.CL, cs.CV, cs.MM]目的:動画異常検知における性能向上
    • 監視カメラの映像分析は,安全保障や社会インフラの維持において不可欠である。
    • 既存手法では,動画の冗長な情報が異常検知の精度を低下させている場合がある。
    • マルチモーダル特徴の活用により,冗長な情報を削減し,異常検知の精度向上を目指す。
    • 提案手法GMFVADは,主要な4つのデータセットにおいて,最先端の性能を達成した。
    • GMFVADの性能向上は,冗長な情報の削減によるものであることが,消去実験により確認された。
    • 動画の内容を要約した粒度化されたマルチモーダル特徴が,異常検知に有効であることが示された。

    Link: https://arxiv.org/abs/2510.20268

  • 具現化可能3Dガウススプラッティングによる身体化ナビゲーションの探求 [cs.CV]目的:身体化ナビゲーションのための実行可能な3Dガウス環境の構築
    • シミュレーション環境と実世界の乖離は,ロボット工学における大きな課題である。
    • 従来の3D表現法は,詳細な意味情報や物理的な実行可能性に乏しい。
    • 3Dガウススプラッティングに意味情報と物理特性を付与し,ナビゲーションを可能とする。
    • SAGE-3Dは,3Dガウススプラッティングを,意味的・物理的に整合した実行可能な環境へと進化させる。
    • InteriorGSデータセット(1Kの物体アノテーション付き3DGS室内シーン)とSAGE-Benchベンチマーク(2MのVLNデータ)を公開した。
    • 実験により,SAGE-3DはVLN-CE Unseenタスクにおいてベースライン性能を31%向上させ,汎化性能が高いことが示された。

    Link: https://arxiv.org/abs/2510.21307

  • インスタンスレベルの合成画像検索 [cs.CV]目的:合成画像検索における評価データセットと検索手法の提案
    • 画像検索技術は,多様な情報を活用し,効率的な情報アクセスを実現する上で重要である。
    • 高品質な学習・評価データが不足しており,合成画像検索の進展を阻害している。
    • インスタンスレベルでの定義に基づいた新しい評価データセットと検索手法により,この問題を解決する。
    • 新しい評価データセットi-CIRを構築し,インスタンスレベルでの検索性能の評価を可能にした。
    • 学習を必要としない手法BASICを提案し,画像とテキスト両方のクエリに対する類似度を組み合わせることで性能向上を実現した。
    • i-CIRだけでなく,既存の合成画像検索データセットにおいても最先端の性能を達成した。

    Link: https://arxiv.org/abs/2510.25387

  • RegionRAG:視覚文書理解のための領域レベル検索拡張生成 [cs.CV]目的:視覚文書理解における検索拡張生成の精度向上
    • 大規模言語モデル(LLM)の性能向上のため,視覚情報とテキスト情報を組み合わせた活用が重要になっている。
    • 既存手法では,文書全体を検索単位とするため,不要な視覚情報が含まれ,性能低下を招いている。
    • 本研究は,文書全体ではなく,領域レベルでの検索を行うことで,関連性の高い情報に焦点を当て,性能向上を目指す。
    • 提案手法RegionRAGは,領域レベルでの検索により,検索精度を平均10.02%向上させた。
    • 質問応答タスクにおいて,既存手法と比較して3.56%の精度向上を達成した。
    • 視覚トークン使用量を71.42%に削減し,効率性も向上させた。

    Link: https://arxiv.org/abs/2510.27261

  • ID-Crafter:VLMに基づいたオンライン強化学習による構成的な複数被写体動画生成 [cs.CV]目的:複数被写体動画生成におけるID(個人識別情報)の保持と意味の一貫性向上
    • 動画合成技術は進歩したが,複数被写体のID情報を効果的に統合することが課題となっていた。
    • 既存手法では,被写体間のIDの衝突や不自然なインタラクションが生じ,制御性と適用範囲が制限されていた。
    • ID-Crafterは,複数被写体動画生成におけるID保持と意味の一貫性問題を解決することを目的とする。
    • ID-Crafterは,段階的に特徴量を集約する階層的なID保持注意機構を導入し,個人識別情報の保持を強化する。
    • 事前学習済みのVision-Language Model(VLM)を活用した意味理解モジュールにより,被写体間の複雑な関係性を捉え,高精度な誘導を実現する。
    • オンライン強化学習フェーズを通じて,重要な概念に関するモデルをさらに洗練させ,動画の品質と一貫性を高める。

    Link: https://arxiv.org/abs/2511.00511

  • 災害対応のための小型無人航空機画像による迅速な被害評価システムの展開 [cs.HC, cs.CV, cs.AI, cs.CY]目的:災害時の建築物被害評価の自動化
    • 災害対応において,迅速な被害状況把握は復旧活動の効率化に不可欠である。
    • 災害現場で収集される画像データ量が膨大であり,専門家による手動解析が困難である。
    • 小型無人航空機画像を用いた被害評価システムの構築と実運用を目指す。
    • 開発したAI/MLシステムをハリケーン・デビーとヘレーンで運用し,約18分で415棟の建築物を評価した。
    • 21,716件の建築物被害ラベルを含む大規模なデータセットを用いてモデルを学習した。
    • 災害対応の現場でAI/MLを活用した被害評価の実際と,その教訓を記録した。

    Link: https://arxiv.org/abs/2511.03132