arXiv雑要約

画像・音声 - 2026/05/15 公開

  • 単体$S_N$の内部に唯一つの固定点を持つ複製動力学の分類 [q-bio.PE, cs.GT, cs.MA]目的:単体$S_N$の内部に唯一つの固定点を持つ複製動力学の条件
    • 進化ゲーム理論の基礎となる複製動力学の分類は,生物学や経済学において重要である。
    • nが3を超える場合,複製動力学の分類は未解決の課題である。
    • n≧2における,単体$S_N$の内部に唯一つの固定点を持つ複製動力学の条件を解明する。
    • n≧2に対して,単体$S_N$の内部に唯一つの固定点を持つ複製動力学の方程式の十分条件と必要条件を明らかにした。
    • 単体$S_N$の内部に唯一つの固定点を持つ複製動力学の方程式の様々なタイプについて考察した。

    Link: https://arxiv.org/abs/2605.13883

  • 物理に基づいた敵対的染色拡張:キャリブレーションされたカバレッジ保証付き [eess.IV, cs.CV, cs.LG]目的:病理組織モデルの展開における病院間での染色変動への対策
    • 組織病理診断の精度向上は,医療の質の向上に不可欠である。
    • 病院ごとに染色方法が異なり,モデルの汎化性能が低下する。
    • 染色空間における敵対的拡張により,未知の染色状態へのロバスト性を高める。
    • CASAは,Camelyon17-WILDSにおいて93.9%±1.6%のスライドレベル精度を達成した。
    • 既存手法(HED-strong, RandStainNA, ERM)と比較して高い性能を示し,特に最悪グループの精度が優れていた。
    • DKW不等式に基づいた予算設定により,カバレッジ保証を実現している。

    Link: https://arxiv.org/abs/2605.13889

  • 拡散モデルのための共分散を考慮したサンプリング [stat.ML, cs.CV, cs.LG]目的:少ステップ領域における拡散モデルのピクセル空間サンプリング品質の向上
    • 拡散モデルは画像生成などで高い性能を発揮するが,計算コストが大きい
    • 少ステップサンプリングでは,平均値のみに依存するため品質が低下する
    • 逆過程の共分散を明示的にモデル化することで,その問題を解決する
    • 提案手法は,Tweedieの公式と効率的なフーリエ空間分解を組み合わせる
    • DDIMの拡張として実装されており,計算コストの増加は小さい
    • 既存の二次のサンプラーやaDDIMと比較して,同等の計算量で高品質なサンプルを生成する

    Link: https://arxiv.org/abs/2605.13910

  • 発話を用いた早期パーキンソン病検出のためのベンチマーク [math.OC, cs.DM, eess.AS, cs.AI, cs.CL, cs.SD]目的:発話に基づく早期パーキンソン病検出の評価基準
    • 早期パーキンソン病の早期発見は,患者の生活の質を向上させる上で重要である。
    • 既存研究は,データセットや評価方法が異なり,結果の比較が困難であった。
    • 公平かつ再現性のある評価を可能にするベンチマークを開発し,研究を促進すること。
    • 提案するベンチマークは,研究者がアクセス可能なデータセットを用いて,公平な比較を可能にする。
    • 3つの一般的な発話タスクと,異なる学習リソース設定で手法を評価する。
    • データセット,集約レベル,性別,疾患段階による多次元評価により,詳細な比較と臨床応用を支援する。

    Link: https://arxiv.org/abs/2605.14066

  • 鍵付き非線形変換:医療画像分析のための軽量なプライバシー保護機能共有 [eess.SP, cs.SY, eess.SY, eess.IV, cs.CV]目的:医療画像分析におけるプライバシー保護機能共有の実現
    • 医療データの有用性は高いが,患者のプライバシー保護が重要である
    • 機能共有は軽量だが,患者識別情報の漏洩リスクがある
    • 機能共有時の患者識別リスクを軽減し,効率的なプライバシー保護を目指す
    • 鍵付き非線形変換(KNT)は,患者識別情報の再識別AUCを0.635から0.586に低減した。
    • KNTは,バックボーンの再学習なしで,わずかなCPUオーバーヘッド(0.15ms)で分類性能を維持した。
    • KNTは,閉形式での逆変換を防止し,セグメンテーションタスクにも適用可能である。

    Link: https://arxiv.org/abs/2605.14123

  • AV1モーションベクトルを用いたガウススプラッティングの効率的な稠密マッチング [eess.IV, cs.CV]目的:3Dガウススプラッティングの初期点群の品質向上
    • リアルタイムでフォトリアリスティックなシーン再構成が求められており,3DGSはその有力な手法である。
    • 従来のSfMパイプラインは計算コストが高く,テクスチャのない領域では精度が低下しやすい。
    • AV1コーデックのモーションベクトルを活用し,SfM処理のオーバーヘッドを削減することで初期点群を改善する。
    • 提案手法により,従来のSfMと比較して最大8倍の点数を持つ,より稠密な点群が得られた。
    • この初期化の改善は3DGSの性能向上に繋がり,VMAFが9ポイント向上し,学習時間が63%削減された。
    • AV1コーデック由来のモーションベクトルを利用することで,計算コストの高いマッチング処理を回避し,幾何学的な頑健性を維持した。

    Link: https://arxiv.org/abs/2605.14629

  • DAPL:テキストによる人物検索における肯定的な記述と否定的な記述の統合 [cs.CV]目的:テキストによる人物検索における,肯定的な記述と否定的な記述の統合
    • 人物検索は,監視カメラ等から得られる大量の画像データから特定の人物を特定する上で不可欠である。
    • 従来のテキストによる人物検索手法は,肯定的な属性に偏り,否定的な記述が考慮されない場合が多い。
    • DAPLは,否定的な記述を組み込むことで,誤った画像を排除し,検索精度を向上させることを目指す。
    • DAPLは,Dual Image-Attribute Contrastive (DIAC)学習とSensitive Image-Attribute Matching (SIAM)学習を組み合わせることで,未知の属性の検出能力を向上させる。
    • Dynamic Token-wise Similarity (DTS)損失を導入することで,視覚とテキストの埋め込み表現の粗粒度と細粒度の整合性を両立させ,より正確な類似度評価を実現する。
    • 実験結果から,DAPLは最先端の手法と比較して,精度とロバスト性を向上させることが示された。

    Link: https://arxiv.org/abs/2405.07459

  • 癌検出における畳み込みニューラルネットワークの可能性 [cs.CV, cs.LG]目的:癌検出のための畳み込みニューラルネットワークの応用可能性
    • 早期発見は癌治療の成功率向上に不可欠であり,医療分野において重要性が高い。
    • 癌の種類ごとに異なるデータセットとCNNアーキテクチャが用いられ,比較検討が不十分である。
    • 臨床現場でのCNN導入による診断能力の向上を目指す。
    • 癌の種類ごとに異なるCNNアーキテクチャが用いられていることが確認された。
    • 各アーキテクチャの利点と欠点が明らかになった。
    • CNNを臨床診断に統合することで,診断能力の向上が期待される。

    Link: https://arxiv.org/abs/2412.17155

  • Hunyuan3D 2.0:高解像度テクスチャ付き3Dアセット生成のための拡散モデルの拡張 [cs.CL, cs.CV]目的:高解像度テクスチャ付き3Dアセット生成のための大規模3D合成システム
    • 3Dコンテンツ制作は,ゲーム,映画,メタバース等,多様な分野で重要性が増している。
    • 高品質な3Dアセットの生成には,専門的なスキルと膨大な時間が必要となる。
    • 大規模な生成モデルにより,3Dアセット制作の効率化と低コスト化を目指す。
    • Hunyuan3D 2.0は,既存の最先端モデルを凌駕する詳細な幾何形状,条件への適合性,テクスチャ品質を実現した。
    • Hunyuan3D-DiTとHunyuan3D-Paintという2つの基盤モデルにより,形状とテクスチャを効率的に生成する。
    • Hunyuan3D-Studioという使いやすいプラットフォームにより,プロ・アマ問わず,3Dアセットの操作やアニメーションが容易になった。

    Link: https://arxiv.org/abs/2501.12202

  • データ拡張における最近傍補間を超える [cs.CV, eess.IV]目的:データ拡張における補間手法の改良
    • 医療画像解析の精度向上は,診断支援や治療計画において不可欠である。
    • 最近傍補間は,カテゴリカルラベル未定義のリスクや高周波構造の詳細劣化を引き起こす。
    • 補間手法を改良し,ピクセルレベルの注釈エラー悪化と構造詳細劣化を抑制すること。
    • 最近傍補間を用いない幾何学的変換関数と,平均に基づくクラスフィルタリングメカニズムを導入した。
    • 補間手法特有の低域フィルタリング効果を定量的に評価できるオフラインデータ拡張パイプラインを実装した。
    • 3つの医療画像セグメンテーションデータセットとXBAT+データセットで性能向上が確認された。

    Link: https://arxiv.org/abs/2504.01527

  • プロシーダル拡散ガイダンスによる建築ファサード生成 [cs.GR, cs.AI, cs.CV, cs.LG]目的:建築ファサード画像の生成
    • 建築デザインは都市景観や快適性に影響する重要な要素である。
    • ファサードデザインの変更には専門知識と労力がかかり,効率的な方法が求められる。
    • プロシーダルな手法を用いて,ファサードデザインの編集を容易にすること。
    • 本手法は,階層的なプロシーダルルールを用いて,高品質な建築ファサード画像を生成する。
    • 入力画像とセグメンテーションからファサードの階層的レイアウトを特定し,構造編集を可能にする。
    • 実験の結果,本手法は建築的アイデンティティの保持と正確な制御において優れた性能を示した。

    Link: https://arxiv.org/abs/2504.01571

  • SD-ReID:空地間人物再識別のための視点認識型Stable Diffusion [cs.CL, cs.CV]目的:空地間人物再識別における人物の特定と検索
    • 監視カメラ映像の活用は,社会の安全確保や効率化に不可欠である。
    • 異なる視点からの映像間での人物の同一性認識は困難であり,精度向上が課題である。
    • 視点特有の特徴を考慮し,ロバストな人物表現を獲得することで,再識別精度を高める。
    • 提案手法SD-ReIDは,生成モデルを用いて異なる視点の特徴分布を模倣し,ロバストな人物表現を抽出する。
    • Stable Diffusionモデルをファインチューニングし,視点条件に基づいて人物表現を強化する。
    • 5つのベンチマークデータセットで有効性が確認され,高い再識別性能を示した。

    Link: https://arxiv.org/abs/2504.09549

  • ストリートビューから視覚ネットワークへ:ビジョン言語モデルによる都市ランドマークの視認性マッピング [cs.CV]目的:都市ランドマークの視認性評価
    • 都市計画において,視認性は重要な要素であり,都市空間の理解やデザインに不可欠である。
    • 従来の視認性分析は3Dデータに依存し,その入手が困難な場合や,実際の視覚体験を反映できないという課題があった。
    • ストリートビュー画像を用いてランドマークの視認性を評価することで,データ制約下でも実用的な分析を可能にすることを目指す。
    • 提案手法は,6つの都市のランドマークにおいて全体検出精度87%を達成し,ランドマーク視認地点の適合率は68%を示した。
    • ロンドンのテムズ川沿いの事例では,視覚グラフが複数のランドマーク間の接続や,主要な媒介地点(橋が約31%)を明らかにした。
    • 本手法は,LoSに基づく分析を補完し,都市計画や遺産保全に新たな視点を提供する可能性を示す。

    Link: https://arxiv.org/abs/2505.11809

  • ハイパースペクトル画像土地被覆キャプションデータセット:視覚言語モデル向け [cs.CV]目的:ハイパースペクトル画像に対するキャプション生成のための大規模データセット
    • リモートセンシング技術は,環境監視や資源管理において重要な役割を担う。
    • 既存のハイパースペクトル画像データセットは分類タスクに偏っており,画像の意味理解が不十分である。
    • ハイパースペクトル画像とテキスト情報を統合し,画像の内容をより深く理解するモデルを構築すること。
    • HyperCapデータセットを用いることで,画像分類性能が著しく向上することが確認された。
    • 従来のデータセットと比較して,より高度な意味理解が可能となり,リモートセンシング分野における応用が期待される。
    • 本研究は,視覚言語学習をハイパースペクトル画像に適用する基盤となるデータセットを提供した。

    Link: https://arxiv.org/abs/2505.12217

  • 逆問題に対する二重上昇拡散法 [cs.CV, cs.AI, cs.LG, eess.IV]目的:逆問題解決のための新しいアプローチ
    • 天文学から医療画像処理まで,多くの分野で基礎となる逆問題の重要性が高い。
    • 既存手法は計算近似に依存し,不正確または最適でないサンプルとなる課題がある。
    • 拡散モデルに基づく二重上昇最適化フレームワークで,より正確な解を導くことを目指す。
    • 画像復元問題において,様々な評価指標に基づき,より高品質な画像が得られた。
    • 測定ノイズに対してよりロバストであり,高速な計算が可能である。
    • 観測データをより忠実に反映した解を推定できることが示された。

    Link: https://arxiv.org/abs/2505.17353

  • PacTure:視覚的な自己回帰モデルを用いたパッキングされた視点での効率的なPBRテクスチャ生成 [cs.CV]目的:テキスト記述から3DメッシュのPBRマテリアルテクスチャ生成
    • 3Dコンテンツ制作において,高品質なテクスチャ生成は重要な課題である。
    • 従来のテクスチャ生成手法は,処理速度や一貫性の問題が存在した。
    • 複数の視点から効率的に高品質なテクスチャを生成し,一貫性を保つことを目指す。
    • PacTureは,視点パッキングという新しい技術を導入し,各視点の有効解像度を向上させた。
    • 自己回帰フレームワークと組み合わせることで,効率的なPBRテクスチャ生成を実現した。
    • 実験の結果,PacTureは既存手法と比較して,品質と効率の両面で優れた性能を示した。

    Link: https://arxiv.org/abs/2505.22394

  • AuralSAM2:ピラミッド型オーディオビジュアル特徴プロンプティングによるSAM2の聴覚機能の実現 [cs.CV]目的:SAM2へのオーディオ統合によるプロンプタブルセグメンテーションの精度向上
    • 画像認識技術は,様々な分野で応用されており,その重要性はますます高まっている。
    • 従来のオーディオとビジュアルの融合手法では,精度や推論速度に課題があった。
    • 本研究では,オーディオ情報を効果的に活用し,SAM2のセグメンテーション性能を向上させる。
    • AuralSAM2は,SAM2のプロンプタブルセグメンテーション能力を維持しつつ,オーディオを統合する。
    • AuralFuserモジュールにより,オーディオとビジュアル特徴を融合し,疎なプロンプトと密なプロンプトを生成する。
    • 公開ベンチマークにおいて,プロンプタブルセグメンテーションのインタラクティブ効率への影響を最小限に抑えつつ,精度の大幅な向上が確認された。

    Link: https://arxiv.org/abs/2506.01015

  • FALO:リソース制約のあるデバイスにおける高速かつ正確なLiDAR 3D物体検出 [cs.CV]目的:リソース制約のあるデバイスにおけるLiDAR 3D物体検出の高速化と高精度化
    • 自動運転やロボット工学において,周囲環境の正確な3D認識は不可欠である。
    • 既存のLiDAR 3D物体検出手法は計算コストが高く,エッジデバイスでの実行が困難である。
    • 本研究は,リソース制約のあるデバイスでも効率的に動作する3D物体検出手法を開発することを目的とする。
    • 提案手法FALOは,nuScenesおよびWaymoベンチマークにおいて競争力のある性能を達成した。
    • FALOは,最新の最先端手法と比較して,モバイルGPUおよびNPU上で1.6〜9.8倍高速である。
    • FALOは,疎な3Dボクセルを座標と近接性に基づいて1次元シーケンスに配置し,ConvDotMixブロックで処理する。

    Link: https://arxiv.org/abs/2506.04499

  • 高解像度サイノグラム補完のためのトレーニングフリー推論 [cs.CL, cs.CV, eess.IV]目的:高解像度サイノグラム補完
    • CT再構成において,欠損投影は深刻なアーチファクトの原因となり,高解像度な補完が重要である。
    • 拡散モデルは強力だが,高解像度化に伴い推論コストが著しく増加する点が課題である。
    • 解像度に応じた推論コストを最適化し,効率的な高解像度サイノグラム補完を実現することを目指す。
    • HRSinoは,空間的な信号特性の異質性を考慮し,推論努力を領域・解像度ごとに適応的に配分する。
    • その結果,ピークメモリ使用量を最大30.81%削減し,推論時間を最大17.58%短縮した。
    • データセットや解像度にかかわらず,補完精度を維持している。

    Link: https://arxiv.org/abs/2506.08809

  • DIVER:強化学習による拡散モデルがエンドツーエンド自動運転における模倣の限界を打破する [cs.CV, cs.RO]目的:多様かつ実行可能な軌道の生成
    • 自動運転技術は,交通渋滞の緩和や事故の減少に貢献し,社会の効率化に不可欠である。
    • 既存のエンドツーエンド自動運転は,単一の専門家による模倣学習に依存し,多様性に欠ける。
    • 模倣学習の限界を克服し,より安全で汎用性の高い自動運転システムの実現を目指す。
    • DIVERは,拡散モデルと強化学習を統合することで,模倣学習における多様性の問題を解決する。
    • マップ情報や周囲の状況を考慮し,単一の軌道から複数の参照軌道を生成する。
    • 新しい多様性指標を導入し,軌道予測の多様性をより正確に評価できることを示した。

    Link: https://arxiv.org/abs/2507.04049

  • SCOOTER:制約なし敵対的サンプルに対する人間による評価フレームワーク [cs.CV]目的:制約なし敵対的サンプルの人間による評価
    • コンピュータビジョンの安全性確保は重要であり,敵対的サンプルへの対策が不可欠である。
    • 従来の防御策は,知覚できない範囲での摂動に制約があるため,制約なし攻撃には有効ではない。
    • 制約なし敵対的サンプルが人間にとってどの程度自然に見えるかを評価する信頼性の高いフレームワークを提供する。
    • 本研究では,統計的有意性のある大規模な人間評価フレームワーク「SCOOTER」を開発した。
    • 346人の参加者による実験の結果,既存の色空間攻撃や拡散ベース攻撃は,知覚できない画像生成に失敗することが示された。
    • GPT-4oは,一部の攻撃に対しては敵対的サンプルを検出できるものの,一貫性には限界があることが判明した。

    Link: https://arxiv.org/abs/2507.07776

  • 汎化性を有する医療画像セグメンテーションのためのマルチモーダル因果駆動表現学習 [cs.CV]目的:汎化可能な医療画像セグメンテーションの実現
    • 医療画像解析は診断・治療に不可欠であり,高精度なセグメンテーション技術が求められている。
    • 医療画像は機器や検査方法により変動が大きく,未知のデータへの汎化性能が課題である。
    • ドメイン特有の変化要因を特定・除去し,セグメンテーション精度と汎化性を向上させる。
    • 提案手法MCDRLは,CLIPを活用しドメイン特有の変化要因をテキストプロンプトで表現する。
    • 因果介入ネットワークを用いて,変化要因の影響を除去しつつ,解剖学的構造情報を保持する。
    • 実験により,MCDRLが既存手法を上回り,優れたセグメンテーション精度と汎化性を示すことが確認された。

    Link: https://arxiv.org/abs/2508.05008

  • LoRAの中のLoRA:継続的な視覚的指示チューニングのためのパラメータ効率的なアーキテクチャ拡張 [cs.CV, cs.AI]目的:継続的な視覚的指示チューニングにおけるパラメータ効率的なアーキテクチャ拡張
    • マルチモーダル大規模言語モデルの応用拡大に伴い,新しいタスクへの適応能力が重要になっている。
    • 既存手法では,タスクごとにレイヤー全体を拡張するため,パラメータ数が増大し,スケーラビリティが課題である。
    • LoRAの共有と低ランク分解により,パラメータ効率を向上させ,逐次学習における性能低下を抑制することを目指す。
    • LiLoRAは,既存手法と比較して,逐次タスク学習において優れた性能を安定的に達成する。
    • LoRA行列Aをタスク間で共有し,行列Bに追加の低ランク分解を適用することで,タスク固有のパラメータ数を最小限に抑える。
    • コサイン正則化された安定化損失を導入することで,時間経過に伴う共有表現の一貫性を維持する。

    Link: https://arxiv.org/abs/2508.06202

  • AVEX:動物の音声符号化において重要な要素 [cs.SD, cs.AI, cs.IR, cs.LG]目的:動物の音声符号化のための汎用エンコーダの開発
    • 生物音響学は,保全,生物多様性のモニタリング,行動研究に不可欠な分野である。
    • 既存のエンコーダは,対象種が限定的,モデル構造が単一,評価タスクが少ないという課題がある。
    • 多様なデータとモデル構造を用いて,汎用性の高い音声符号化エンコーダを構築することを目指す。
    • 自己教師あり事前学習と,生物音響データと汎用音声データの混合による教師あり事後学習が,最も優れた性能を示すことが判明した。
    • データの多様性が,事前学習と事後学習の両段階で重要であることが示された。
    • 26のデータセットにおいて,種分類,検出,個体識別,音声レパートリーの発見などのタスクで最先端の結果を達成した。

    Link: https://arxiv.org/abs/2508.11845

  • HERO:効率的なワールドモデルのための階層的外挿と更新 [cs.CV]目的:ワールドモデルの効率的な推論手法
    • 仮想環境の没入感を高める生成駆動型ワールドモデルの重要性が増している
    • 拡散モデルの反復的な性質により,推論速度が遅いという課題がある
    • ワールドモデルにおける推論速度の向上と品質維持の両立を目指す
    • HEROは,トレーニング不要の階層的加速フレームワークであり,推論速度を1.73倍に向上させる。
    • 浅い層ではパッチ単位の更新機構により,再計算対象トークンを効率的に選択する。
    • 深い層では線形外挿により,アテンションモジュールとフィードフォワードネットワークの計算を回避する。

    Link: https://arxiv.org/abs/2508.17588

  • 時間区間における常微分方程式を用いたクロスドメイン少数ショットセグメンテーション [cs.CV]目的:クロスドメイン少数ショットセグメンテーションにおける,未知のカテゴリのセグメンテーション性能向上
    • 画像認識技術は,医療,自動運転など幅広い分野で不可欠であり,その精度向上が求められている。
    • クロスドメイン環境では,データ分布の差異により,少数ショット学習の性能が著しく低下する課題がある。
    • 本研究は,ドメイン間の知識伝達を効率化し,限られたデータでの学習能力を高めることを目指す。
    • 常微分方程式とフーリエ変換に基づく,簡潔なモジュールFSS-TIsを提案した。
    • FSS-TIsは,ドメインに依存しない特徴空間を探索し,少量のサポートサンプルを用いたターゲットドメインのファインチューニングにより,性能が大幅に向上した。
    • 提案手法は,既存のクロスドメイン少数ショットセグメンテーション手法を上回り,その適応性が検証された。

    Link: https://arxiv.org/abs/2509.01299

  • GenExam:学問分野横断的なテキスト-画像試験 [cs.RO, cs.CV]目的:学問分野横断的なテキスト-画像試験のベンチマーク
    • 専門家レベルの知能を評価するには,知識の統合,推論,生成能力が不可欠である。
    • 既存のベンチマークは理解と推論に偏っており,厳格な図面試験の評価が不足している。
    • 知識の統合,推論,生成能力を厳密に評価するベンチマークを開発すること。
    • GenExamは,10の科目にわたる1,000のサンプルを含む,初の学問分野横断的なテキスト-画像試験ベンチマークである。
    • 実験の結果,GenExamは非常に難易度が高く,オープンソースモデルは最先端のクローズドソースモデルに大きく劣ることが示された。
    • 画像生成を試験として捉えることで,モデルの知的な生成能力を評価するための厳密な指標を提供する。

    Link: https://arxiv.org/abs/2509.14232

  • ごくわずかなニュアンスも重要:分布ロバスト最適化による微細な個人差を考慮したマイクロアクション認識 [cs.CV]目的:微細な個人差を考慮したマイクロアクション認識のための手法
    • 心理評価や人間-コンピュータインタラクションにおいて,マイクロアクション認識は不可欠な技術である。
    • 既存手法は,個人差による行動の多様性に対応できず,実世界での頑健な汎化が困難である。
    • 個人に依存しない表現学習により,マイクロアクション認識の汎化性能と頑健性を向上させることを目指す。
    • 提案手法は,特徴量レベルと損失レベルの2つのモジュールを組み合わせ,個人特有の動きの特徴を正規化する。
    • 時間周波数整合モジュールは,動的軌跡の安定化と周波数スペクトルのばらつきに対するロバスト性を高める。
    • グループ不変正則化損失は,擬似グループを用いて未知の個人分布をシミュレーションし,汎化性能を向上させる。

    Link: https://arxiv.org/abs/2509.21261

  • MultiMat:大規模マルチモーダルモデルを用いたプロシージャルマテリアルのためのマルチモーダルプログラム合成 [cs.CV]目的:プロシージャルマテリアル生成のためのノードグラフの合成
    • コンピュータグラフィックスにおいて,仮想3Dオブジェクトの外観表現に不可欠な技術である。
    • ノードグラフの作成には専門的な知識が必要であり,その作成は依然として困難である。
    • マルチモーダルモデルを活用し,ノードグラフの視覚的・空間的な性質を捉え,より効率的な合成を目指す。
    • MultiMatは,視覚情報とテキスト情報を両方処理することで,ノードグラフの生成性能を向上させる。
    • 実験結果から,MultiMatはテキストのみのベースラインと比較して,より高画質かつ忠実なグラフを効率的に合成できることが示された。
    • 本研究は,プロシージャルマテリアル生成における最先端の性能を確立する。

    Link: https://arxiv.org/abs/2509.22151

  • 視覚的思考の混合:汎用的な視覚推論のための文脈適応型推論モード選択の探求 [cs.AI, cs.CV]目的:汎用的な視覚推論モデル構築のための文脈適応型推論モード選択
    • 視覚推論は,画像や映像から意味を理解し,高度な知能を実現する上で重要である。
    • 既存手法は特定の推論モードに偏りがちで,汎用性に欠ける点が課題である。
    • 文脈に応じて最適な推論モードを選択することで,汎用的な視覚推論を実現することを目指す。
    • 提案手法MoVTは,複数の推論モードを統合し,文脈に応じて適切なモードを選択する。
    • AdaVaRという学習フレームワークにより,推論モードの識別と選択能力を効果的に獲得する。
    • 多様なシナリオにおいて一貫した性能向上を示し,汎用的な視覚推論モデルとして有効性を示す。

    Link: https://arxiv.org/abs/2509.22746

  • SVAG-Bench:マルチインスタンス空間時間ビデオ行動 grounding のための大規模ベンチマーク [cs.CV]目的:マルチインスタンス空間時間ビデオ行動 grounding タスクとベンチマーク
    • AIシステムの発展には,対象,行動,時間,場所を統合的に理解する能力が不可欠である。
    • 既存のビデオベンチマークは,空間 grounding,物体追跡,時間的局在化を個別に評価する傾向がある。
    • 複数の要素を統合的に評価し,AIシステムの知能向上を目指す。
    • SVAG-Benchは,688本のビデオ,19,590の検証済みアノテーション,903のユニークな動詞を含む。
    • 複雑なシーンにおいて,自然言語クエリを満たす全ての対象の検出,追跡,時間的局在化を同時に行う必要がある。
    • 専門家によるラベル付け,GPT-3.5による言い換え,人間による検証を組み合わせることで,アノテーションの多様性と正確性を確保している。

    Link: https://arxiv.org/abs/2510.13016

  • モバイルエッジコンピューティングにおけるインフラ更新と動的な参加による共同投資 [cs.GT]目的:モバイルエッジコンピューティングにおける共同投資スキーム
    • 低遅延・高帯域幅サービス需要増大に伴い,モバイルエッジコンピューティングの重要性が高まっている。
    • ネットワーク事業者は高額なインフラ投資を負担する一方,収益はサービス提供事業者に偏るという課題がある。
    • ネットワーク事業者の投資意欲を高め,モバイルエッジコンピューティングの普及を促進することを目指す。
    • 共同投資とリソース更新,動的な参加により,総利益を向上させることができる。
    • このスキームはネットワーク事業者の投資意欲を強化する。
    • 提案するメカニズムは,時間経過に伴うリソース更新とプレイヤーの参加・離脱を可能にする。

    Link: https://arxiv.org/abs/2510.15384

  • Memory-SAM:検索によるプロンプト生成を用いた,人手介入不要な舌分割 [cs.CV]目的:舌の正確なセグメンテーション
    • 舌の分析は伝統中国医学において重要であり,正確な画像処理が不可欠である。
    • 教師あり学習には大量のアノテーションが必要であり,SAMモデルはプロンプトに依存する。
    • 過去事例からの検索により,効率的かつロバストな舌のセグメンテーションを実現する。
    • Memory-SAMは,専門家アノテーション画像において,FCNやSAMベースラインを大幅に上回るmIoU 0.9863を達成した。
    • 特に,実環境下でのデータにおいて顕著な性能向上を示し,多様な舌の形状に対応できることが示された。
    • 検索によるプロンプト生成が,舌画像における不規則な境界のセグメンテーションを効率的に行うことを実証した。

    Link: https://arxiv.org/abs/2510.15849

  • 脳を見通す:fMRIによる視覚刺激デコーディングからの新たな知見 [cs.CV, cs.AI]目的:視覚情報の脳内符号化メカニズムの解明
    • 神経科学と機械学習において,視覚情報処理の理解は不可欠である。
    • fMRI信号からの視覚刺激再構成において,最適な潜在空間の構造が不明である。
    • fMRI信号と画像再構成を結びつける中間表現の構造化が課題である。
    • fMRI信号は,画像空間や画像・テキスト複合空間よりも,言語モデルのテキスト空間と類似性が高いことが示された。
    • 視覚刺激の構成的性質を捉えるよう,テキスト表現と生成モデルを適応させる必要性が示唆された。
    • 提案手法PRISMは,既存手法と比較して,知覚損失を最大8%削減し,優れた再構成性能を発揮した。

    Link: https://arxiv.org/abs/2510.16196

  • ABHFA-Netを用いたベンチマーク画像および災害画像の少数ショット分類の向上 [cs.CV]目的:ベンチマーク画像と災害画像に対する少数ショット分類の性能向上
    • 自然災害や人為的災害の増加に伴い,限られたラベルデータ下でも機能する堅牢な画像認識システムが求められている。
    • 災害関連画像の分類は,データ不足,クラス内変動の大きさ,リモートセンシング画像のドメイン固有の複雑さにより困難である。
    • 本研究は,データが少ない状況下でも高い分類性能を発揮するABHFA-Netを提案し,災害画像分類の課題解決を目指す。
    • 提案手法ABHFA-Netは,クラスのプロトタイプを確率分布としてモデル化し,Bhattacharyya距離に基づく比較により分類を行う。
    • ベンチマークデータセットにおいて,5-way 1-shotで80.7%,5-shotで92.3%の精度を達成し,既存手法を上回る性能を示した。
    • 災害データセットAIDERでは,1-shotで最大68.2%,5-shotで78.3%の精度を達成し,実環境でのロバスト性も確認された。

    Link: https://arxiv.org/abs/2510.18326

  • RAPO++:データアラインメントとテスト時スケーリングによるテキストから動画生成のためのクロスステージプロンプト最適化 [cs.CV]目的:テキストから動画生成におけるプロンプト最適化
    • 動画生成の質はプロンプトに大きく依存するため,効果的なプロンプト設計が重要である。
    • ユーザーが提供するプロンプトは短く,構造化されておらず,学習データとのずれが生じやすい。
    • 学習データとのアラインメントとテスト時スケーリングによるプロンプト最適化手法を開発し,動画生成の質を向上させる。
    • RAPO++は,関係グラフからの関連修飾子の取得とプロンプトのリファクタリングにより,ユーザープロンプトを充実させ,学習分布との一致度を高める。
    • サンプル固有プロンプト最適化(SSPO)により,意味的整合性,空間的忠実度,時間的コヒーレンスを反復的に改善し,動画生成品質を向上させる。
    • 最適化されたプロンプトペアを用いて大規模言語モデルをファインチューニングすることで,タスク固有の最適化パターンを組み込み,効率的かつ高品質なプロンプト生成を可能にする。

    Link: https://arxiv.org/abs/2510.20206

  • 階層的タスク構造に基づくクロスモーダル因果介入フレームワーク:医療レポート生成 [cs.CV]目的:医療レポート生成における課題解決
    • 医療診断において,放射線画像からの自動レポート生成は,放射線科医の負担軽減に不可欠である。
    • 既存モデルは,領域知識の不足,テキストと画像のエンティティ埋め込みの不整合,クロスモーダルバイアスによる偽相関といった課題を抱える。
    • これらの課題を包括的に解決し,より信頼性の高い医療レポート生成を目指す。
    • 提案手法HTSC-CIFは,階層的なタスク分解により,上記の課題に効果的に対処する。
    • 具体的には,低レベルでエンティティ特徴と空間位置の整合,中レベルでプレフィックス言語モデリングとマスク画像モデリングによる相互誘導を実現する。
    • 高レベルでは,因果介入モジュールを用いて交絡因子を低減し,解釈性を向上させることで,最先端手法を大幅に上回る性能を達成した。

    Link: https://arxiv.org/abs/2511.02271

  • REVISOR: テキスト的反省を超えて,長尺動画理解における多Modal内省的推論へ [cs.HC, cs.CV]目的:長尺動画理解のための多Modal内省的推論フレームワーク
    • 動画理解は,AIの知能において重要な課題であり,現実世界への応用範囲が広い。
    • 既存のテキストベースの自己反省メカニズムは,長尺動画のような複雑なデータには限界がある。
    • 視覚情報の再検討と,テキストと視覚情報の間の相互作用を強化することで,動画理解能力を向上させる。
    • REVISORは,テキストと視覚のModalを横断する内省的推論プロセスを構築し,長尺動画理解能力を大幅に向上させる。
    • Dual Attribution Decoupled Reward (DADR)メカニズムにより,モデルの推論と選択された動画証拠間の因果関係が強化される。
    • REVISORは,追加の教師あり微調整や外部モデルを必要とせず,VideoMME,LongVideoBench,MLVU,LVBenchを含む4つのベンチマークで優れた結果を達成した。

    Link: https://arxiv.org/abs/2511.13026

  • 距離情報付き交通シーン質疑応答 (DTPQA) [cs.CV, cs.AI]目的:ビジョン言語モデルにおける交通シーンの知覚能力の評価
    • 自動運転技術の発展には,周囲状況を正確に理解する知覚能力が不可欠である。
    • 既存モデルは,遠距離の物体認識において性能が低下する傾向がある。
    • 距離情報を考慮した評価により,モデルの弱点を特定し改善を目指す。
    • 本研究で開発したDTPQAベンチマークは,近距離だけでなく遠距離の物体認識能力を評価できる。
    • DTPQAは,シミュレーションデータと実写データで構成され,多様な交通シーンを網羅している。
    • データセットと生成スクリプトを公開することで,さらなる研究の発展に貢献する。

    Link: https://arxiv.org/abs/2511.13397

  • Co-Me:信頼度に基づくトークンマージングによる視覚幾何Transformerの高速化 [cs.CV, cs.RO]目的:視覚幾何Transformerの加速機構
    • 3次元知覚や再構成において,Transformerの計算コストが課題となっている
    • 既存手法では,性能低下を招くことなく高速化が困難であった
    • 信頼度指標を用いたトークンマージングにより,計算量を削減し,実用的な速度を実現する
    • 本研究で提案するCo-Meは,基盤モデルの再学習やファインチューニングを必要とせずに,Transformerのトークンを信頼度に基づいてマージすることで高速化を実現する
    • Co-Meは,VGGTとPi3において,それぞれ最大21.5倍,20.4倍の高速化を達成した
    • これにより,視覚幾何Transformerをリアルタイムな3次元知覚および再構成に応用することが可能となる

    Link: https://arxiv.org/abs/2511.14751

  • IPR-1:インタラクティブな物理推論器 [cs.AI, cs.CV, cs.LG]目的:人間らしい物理的推論の獲得と経験による改善
    • 物理法則や因果関係の理解は,知能を持つエージェントにとって不可欠な能力である。
    • 既存のアプローチは,視覚的な詳細に過剰適合し,物理法則や因果関係の本質を捉えられていない。
    • 物理に基づいたインタラクションを通じて,推論能力を継続的に向上させる方法を模索する。
    • 提案手法IPRは,世界モデルを活用してVLMのポリシーを評価・強化することで,ロバストな推論を実現している。
    • 物理を中心とした行動コードPhysCodeは,意味的な意図とダイナミクスを整合させ,予測と推論のための共通の行動空間を提供する。
    • 実験結果から,訓練ゲーム数やインタラクションステップ数が増加するにつれて性能が向上し,未知のゲームへのゼロショット転移も可能であることが示された。

    Link: https://arxiv.org/abs/2511.15407

  • G-SHARP:ガウス手術用ハードウェア加速リアルタイムパイプライン [cs.CV]目的:低侵襲手術における変形性組織の高速かつ正確な3Dモデリング
    • 内視鏡手術の精度向上は,患者の負担軽減と治療成績向上に不可欠である。
    • 既存のリアルタイム内視鏡再構成手法は,商用利用が困難なものが多く,実用化の妨げとなっていた。
    • 本研究は,商用利用可能なガウススプラッティングに基づき,手術環境での利用を可能にする。
    • G-SHARPは,GSplatを用いて構築された初の手術用パイプラインであり,原理に基づいた変形モデリング,頑健なオクルージョン処理,高忠実度再構成を実現した。
    • EndoNeRFベンチマークにおいて,優れた再構成品質と速度・精度のトレードオフを示し,術中利用に適していることが示された。
    • NVIDIA IGX Orin/Thorハードウェア上でG-SHARPを展開するHoloscan SDKアプリケーションを提供し,実用的な手術室環境でのリアルタイム手術可視化を可能にした。

    Link: https://arxiv.org/abs/2512.02482

  • 交通事故予測と因果推定のためのマルチモーダル埋め込み学習 [eess.SY, cs.SY, cs.LG, cs.CV, cs.SI]目的:交通事故パターンの分析
    • 交通事故は社会的な損失が大きく,その削減は重要な課題である。
    • 既存研究では,道路構造に着目し,路面や周囲環境の情報が十分に活用されていない。
    • 道路ネットワークと衛星画像を統合し,より高精度な予測と因果関係の解明を目指す。
    • マルチモーダル学習により,グラフニューラルネットワークのみを用いる場合と比較して,予測精度が平均で3.7%向上し,AUROCは90.1%を達成した。
    • 降水量の増加により交通事故発生率が24%上昇,高速道路では22%上昇,季節変動により29%上昇することが因果分析で示された。
    • 正確な予測には,衛星画像の特徴が不可欠であることが検証された。

    Link: https://arxiv.org/abs/2512.02920

  • OpenTrack3D:汎用的なオープンボキャブラリ3Dインスタンスセグメンテーションに向けて [cs.CV]目的:オープンボキャブラリ3Dインスタンスセグメンテーションの精度と汎用性の向上
    • ロボティクスやAR/VRにおいて,多様で構造化されていない環境下での3D認識は不可欠である。
    • 既存手法は,データセット固有の提案ネットワークやメッシュベースのスーパーポイントに依存し,汎化性能が低い。
    • メッシュフリー環境でも機能する,オンラインでの物体提案生成と高度なテキスト理解を目指す。
    • OpenTrack3Dは,視覚と空間情報を融合したトラッカーにより,クロスビューの一貫性のある物体提案を生成する。
    • 既存のCLIPに代わり,大規模言語モデル(MLLM)を使用することで,複雑なクエリに対する推論能力を大幅に向上させた。
    • ScanNet200等の多様なベンチマークにおいて,最先端の性能と高い汎用性を示すことが確認された。

    Link: https://arxiv.org/abs/2512.03532

  • AaSP:オーディオスペクトログラムTransformerのためのエイリアシングを考慮した自己教師あり事前学習 [cs.SD, cs.LG, stat.ML]目的:オーディオスペクトログラムTransformerの表現学習
    • Transformerは音声処理において高い性能を示すが,効率的な事前学習が課題である。
    • 従来のスペクトログラムを用いた学習では,エイリアシングが発生し,高周波数の情報が失われる可能性がある。
    • エイリアシングの影響を抑制し,より安定した表現を獲得することを目指す。
    • AaSPは,エイリアシングの影響を受けやすい周波数帯域の特徴を考慮したパッチ埋め込みモジュール(AaPE)を用いる。
    • AS-20K,ESC-50,NSynthなどのベンチマークにおいて,既存の自己教師あり学習手法を上回る性能を達成した。
    • AaSPは,エイリアシングに敏感な時間的摂動に対して安定した表現を学習し,下流タスクへの転移学習において競争力があることが示された。

    Link: https://arxiv.org/abs/2512.03637

  • SuperF:多視点画像からの超解像のためのニューラル暗黙的場 [cs.CL, cs.CV]目的:多視点画像超解像のためのニューラル暗黙的場の活用
    • 高解像度画像は様々な分野で重要だが,センサー技術やコストに制約が生じやすい。
    • 既存の超解像技術は,現実と異なる構造を生成してしまうことがある。
    • 本研究では,複数の視点を利用し,高解像度学習データに依存しない超解像を目指す。
    • 提案手法SuperFは,座標ベースのニューラルネットワークを活用し,複数の低解像度フレームを共有する暗黙的表現を最適化する。
    • サブピクセルレベルのフレームアライメントを最適化可能なアフィン変換パラメータで直接表現することで,既存のベースライン手法を上回る性能を実現した。
    • 衛星画像やスマートフォンで撮影された画像に対して,最大8倍のアップサンプリングにおいて良好な結果が得られた。

    Link: https://arxiv.org/abs/2512.09115

  • RePackとRefine:Vision Foundation Modelを用いた効率的な拡散Transformer [cs.CV]目的:Vision Foundation Modelの特徴を拡散Transformerに活用し,学習効率を向上させる手法
    • 画像生成モデルの性能向上には,高品質な特徴量の活用が不可欠である。
    • Vision Foundation Modelの特徴量は高次元で冗長性が高く,学習が困難である。
    • 冗長性を除去しつつ構造情報を保持し,効率的な画像生成を実現すること。
    • RePackモジュールによって特徴量を低次元化することで,学習の効率化を実現した。
    • Latent-Guided Refinerを用いることで,圧縮による高周波成分の損失を補い,画像の詳細度を向上させた。
    • ImageNet-1Kにおいて,RePack-DiT-XL/1は64エポックでFID 1.82を達成し,最新のLDMを上回る収束効率を示した。

    Link: https://arxiv.org/abs/2512.12083

  • JointAVBench:同時オーディオ・ビジュアル推論評価のためのベンチマーク [cs.MM, cs.CV]目的:同時オーディオ・ビジュアル推論の評価
    • 動画理解には,視覚情報と聴覚情報の両方を活用した推論が不可欠である。
    • 既存のデータセットは,多岐にわたる側面を網羅しておらず,厳密な評価が困難である。
    • 厳密なオーディオ・ビジュアル相関を持つ包括的なベンチマークを提供し,評価のギャップを埋める。
    • JointAVBenchは,5つの認知次元,4つのオーディオ情報タイプ,3つのシーン範囲を包含する。
    • 最先端のOmni-LLMの平均正解率は65.3%であり,単一モダルのベースラインを上回る。
    • 特にクロスシーン推論において,改善の余地が大きく残されていることが示された。

    Link: https://arxiv.org/abs/2512.12772

  • Do-Undoベンチ:画像生成における行動理解のための可逆性 [cs.CV, cs.LG]目的:画像生成における行動理解のための可逆性評価
    • 現実世界の行動を理解し,再現する能力は,AIの汎用的な知能にとって不可欠である。
    • 既存の画像生成モデルは,行動の因果関係を正確に理解しているとは言えず,表面的・意味的な編集に留まる場合が多い。
    • 現実世界の行動とその逆をシミュレーションすることで,行動理解の真の度合いを評価する。
    • Do-Undoタスクとベンチマークを導入し,視覚言語モデルの行動理解と生成能力を評価する。
    • 現在のモデルは行動の可逆性において課題を抱えており,因果関係の理解が不十分であることが示された。
    • Do-Undoベンチマークは,現実世界のダイナミクスを推論するマルチモーダルシステムの進歩を促進する。

    Link: https://arxiv.org/abs/2512.13609

  • LangPrecip:言語認識型マルチモーダル降水ナウキャスト [cs.LG, cs.AI, cs.CV]目的:降水ナウキャストにおける言語認識による意味的制約の導入
    • 短時間降水ナウキャストは,急速に変化する極端な気象現象において,予測が困難な分野である。
    • 既存の手法は主に視覚情報に依存しており,将来の動きの制約が弱く曖昧になりがちである。
    • 気象テキストを意味的な動きの制約として利用し,物理的に整合性のある予測を目指す。
    • 提案手法LangPrecipは,Rectified Flowパラダイムに基づき,テキストとレーダー情報を効率的に統合する。
    • LangPrecip-160kという大規模なマルチモーダルデータセットを新たに構築した。
    • スウェーデンとMRMSデータセットでの実験により,最先端手法と比較してCSIが大幅に向上した。

    Link: https://arxiv.org/abs/2512.22317