arXiv雑要約

画像・音声 - 2026/03/09 公開

自己教師あり表現学習における大規模データパラダイムからの脱却 [cs.CV]目的：自己教師あり表現学習における大規模データへの依存からの脱却
- 画像認識分野では，表現学習の精度向上が重要であり，そのためには大規模データセットが不可欠と考えられている。
- 大規模データセットの構築と学習には，膨大な計算資源とコストがかかるため，データが少ない環境での学習が課題となっている。
- 本研究は，小規模データセットでも有効な表現学習を実現し，リソース制約のある環境への応用を可能とする。
- 提案手法SCOTTは，畳み込みの特性を活用することで，ViTの小規模データにおける性能を向上させる。
- MIM-JEPAを用いることで，潜在表現空間でのより意味的な特徴の抽出を可能にし，ViTの学習に必要なデータ量を大幅に削減する。
- 小規模データセットでの実験により，大規模な事前学習に頼る既存手法と同等以上の性能を達成し，実用的な応用への道を開く。
Link: https://arxiv.org/abs/2502.18056
NAMI：ブリッジングされた漸進的整流フロー変換器による効率的な画像生成 [cs.RO, cs.SY, eess.SY, cs.CV]目的：効率的な画像生成手法の開発
- 画像生成技術は，様々な分野で応用が拡大しており，その重要性は高い。
- 既存のフローベース変換器モデルは，パラメータ数が多く，推論速度が遅いという課題がある。
- 推論速度と計算コストを削減しつつ，画像生成の品質を維持することを目的とする。
- 提案手法NAMIは，時間，空間，アーキテクチャの次元に沿って生成プロセスを分解することで，効率的な画像生成を実現した。
- 低解像度段階ではTransformer層の数を減らし，高解像度段階で徐々に増やすことで，高速な収束と推論時間の短縮を達成した。
- 1024解像度の画像を生成する際，推論時間を64%削減し，最先端モデルと同等の性能を示した。
Link: https://arxiv.org/abs/2503.09242
ECLARE：異方性解像度向上を 위한 効率的なクロス平面学習 [cs.CV, eess.IV]目的：異方性解像度向上のための効率的なクロス平面学習手法
- 臨床画像解析において，3D解析の自動化は不可欠であり，高精度な画像処理が求められる。
- 2Dスライス状のMR画像は，3D解析アルゴリズムの性能を低下させ，特に厚いスライスやスライス間のギャップが問題となる。
- 本研究では，スライス形状，ギャップ，ドメインシフト等の課題を解決し，高品質なMR画像再構成を目指す。
- ECLAREは，スライスプロファイル推定，インプレーンパッチのマッピング学習，アンチエイリアシング処理により，既存手法を凌駕した。
- シミュレーション結果から，ECLAREは信号回復率と下流タスクにおいて，他の手法よりも優れていたことが確認された。
- 外部学習データを使用しないため，ドメインシフトの影響を受けないという利点がある。
Link: https://arxiv.org/abs/2503.11787
EarthScape：地表地質マッピングと地球表面解析のためのマルチモーダルデータセット [eess.SY, cs.SY, cs.CV]目的：地表地質マッピングと地球表面解析のためのマルチモーダルデータセット
- 地表地質図は，地表プロセス理解やインフラ計画に不可欠であり，その重要性は高い。
- 既存の手法は労力と時間がかかり，大規模なマッピングには限界があった。
- マルチモーダルデータセットを用いて，効率的な地質マッピング手法の開発を目指す。
- 地形特徴量が最も信頼性の高い予測信号を提供し，スペクトルや標高データは地域間評価で性能が低下した。
- EarthScapeは，マルチモーダル融合，ドメイン適応，表面モデリングのためのコンパクトかつ豊富なデータセットである。
- データセットとコードは公開されており，容易に利用可能である。
Link: https://arxiv.org/abs/2503.15625
FindAnything：あらゆる環境におけるロボット探査のためのオープンボキャブラリおよび物体中心マッピング [cs.RO, cs.RO, cs.AI, cs.CV]目的：ロボット探査のための，オープンボキャブラリと物体中心のマッピング手法
- 未知環境でのロボットの展開やタスク計画には，幾何学的に正確かつ意味的に表現豊かなマップが不可欠である。
- 大規模な未知環境において，リアルタイムでオープンボキャブラリの意味的理解を実現するには，計算資源の制約が課題となる。
- 計算資源を抑えつつ，大規模環境におけるリアルタイムなオープンボキャブラリ理解を可能とするマッピング手法を確立する。
- FindAnythingは，ビジョンと言語情報を活用した高密度なボリューメトリックサブマップを構築するフレームワークである。
- この手法は，従来の最先端技術と同等の意味的精度を達成しつつ，大幅に高速かつメモリ効率が良い。
- シミュレーション環境におけるMAVの自律探索タスクにおいて，そのリアルタイム性が有効であることが示された。
Link: https://arxiv.org/abs/2504.08603
イベントベースニューラルネットワークにおける非同期性の最大化 [cs.DC, cs.NI, cs.LG, cs.AI, cs.CL, cs.CV]目的：イベントによる特徴量の学習
- 視覚センシングの低遅延化・省電力化が求められ，イベントカメラへの注目度が高まっている。
- イベントカメラの非同期性・疎なデータ形式が，従来の機械学習への適用を困難にしている。
- イベントデータを効率的に学習可能な特徴量へ変換し，性能向上を目指す。
- EVAは，既存の非同期-同期変換手法と比較して，より表現力豊かで汎用性の高い特徴量を生成する。
- ジェスチャー認識や車両認識タスクにおいて，既存手法を上回る性能を達成した。
- イベントカメラを用いた物体検出タスクにおいて，初めて高い精度を達成した (Gen1データセットで0.477 mAP)。
Link: https://arxiv.org/abs/2505.11165
DVD-Quant：データを用いない動画拡散Transformerの量子化 [cs.RO, cs.SY, eess.SY, cs.CV]目的：動画拡散Transformerの量子化手法
- 動画生成技術は，エンターテインメントから科学可視化まで幅広い分野で重要性が増している。
- 拡散Transformerは計算資源を大量に必要とし，実用的な展開が困難であるという課題がある。
- 計算負荷を軽減しつつ，動画の品質を維持できる量子化手法の開発が求められている。
- DVD-Quantは，計算負荷の高いキャリブレーション手順を必要とせず，量子化後の性能劣化を抑制する。
- 提案手法は，高度な拡散Transformerモデルにおいて約2倍の高速化を実現し，視覚的な品質を維持する。
- DVD-Quantは，動画品質を損なうことなく，W4A4 PTQを動画拡散Transformerに適用する初の試みである。
Link: https://arxiv.org/abs/2505.18663
錬金術師：公開テキスト-画像データを生成的な金に変える [cs.CV]目的：汎用的なSFTデータセットの作成
- テキスト-画像モデルの性能向上には，広範な知識と美的品質が不可欠である。
- 既存のSFTデータセットはドメインが限定的で，高品質な汎用データセットが不足している。
- 高影響度のサンプルを効率的に特定し，データセット作成のコストを削減することを目指す。
- Alchemistは，コンパクトなSFTデータセットでありながら，５つの公開T2Iモデルの生成品質を大幅に向上させる。
- 多様性とスタイルを維持しつつ，モデルの性能を効果的に改善することが示された。
- ファインチューニング済みモデルの重みも公開されており，研究の進展に貢献する。
Link: https://arxiv.org/abs/2505.19297
画像超解像のためのインスタンスデータ凝縮 [cs.CV]目的：画像超解像のためのデータ効率向上
- 深層学習による画像超解像は，モデルの汎化性能向上が重要であり，そのためには大規模なデータセットが必要。
- 大規模データセットの利用は，計算資源やストレージ資源を大量に消費するという課題がある。
- データセット凝縮により，データセット量を削減しつつ，画像超解像モデルの性能を維持することを目指す。
- 提案手法であるインスタンスデータ凝縮(IDC)フレームワークは，画像ごとにデータ凝縮を行うことで，既存手法の課題を克服した。
- IDCフレームワークは，特徴量分布のマッチングにより高品質な合成データを生成し，元のデータセットと同等の性能を発揮した。
- DIV2Kデータセットを10%に凝縮した合成データセットは，様々な画像超解像モデルにおいて，高い訓練安定性と性能を示した。
Link: https://arxiv.org/abs/2505.21099
VisioMath：LMMにおける図形に基づく数学的推論のベンチマーク [cs.AI, cs.CV]目的：図形を用いた数学的推論能力の評価基準
- 視覚情報と言語理解を統合するLMMの重要性が増しており，様々な分野で高い性能を発揮している。
- 複数の類似視覚入力を比較・推論する能力は，特に数学や教育において重要だが，十分に検討されていない。
- 微妙な視覚的差異を識別する能力を測ることで，LMMの数学的推論能力向上を目指す。
- VisioMathは，K-12数学の問題1800件で構成され，候補解答が視覚的に類似した図形である点が特徴である。
- 最先端のLMMの評価により，画像間の類似性が高いほど精度が低下することが示された。
- 誤りの主な原因は，テキスト情報に基づかない，位置情報などのヒューリスティックな推論に起因する画像とテキストの不整合である。
Link: https://arxiv.org/abs/2506.06727
VisualPrompter：視覚的フィードバックを用いた意味認識型プロンプト最適化 [cs.CV]目的：テキスト画像生成におけるプロンプト最適化手法
- 近年のテキスト画像生成モデルの発展に伴い，高品質な画像生成が求められている。
- ユーザーの意図とモデルが好むプロンプトとの乖離が，画像生成の課題となっている。
- 生成画像のセマンティックな正確性を向上させるプロンプト最適化を目指す。
- VisualPrompterは，生成画像から欠落した概念を自動で特定し，プロンプトを詳細に修正する。
- プロンプトを分解し，原子的なセマンティックレベルで要素を導入・再構築することで，意味の一貫性を維持する。
- 複数のベンチマークにおいて，テキスト画像の一致度評価で最先端の性能を達成した。
Link: https://arxiv.org/abs/2506.23138
SPoT：Vision Transformerにおけるトークンのサブピクセル配置 [cs.CV, cs.LG]目的：Vision Transformerにおけるトークンの配置戦略
- 画像認識において，Transformerモデルの利用が一般的となりつつある。
- 従来のトークン化手法では，特徴量が離散的なパッチグリッドに制限されていた。
- サブピクセル配置により，この制約を回避し，より効率的なモデル構築を目指す。
- SPoTは，トークンを画像内で連続的に配置する新しいトークン化戦略である。
- 理想的なサブピクセル配置探索により，推論時のトークン数を大幅に削減できることが示された。
- SPoTは，柔軟性，効率性，解釈可能性に優れたViTアーキテクチャの新たな方向性を示す。
Link: https://arxiv.org/abs/2507.01654
SPARC：クロスモデル・クロスモーダル解釈のための概念整合疎オトエンコーダ [cs.CV, cs.AI]目的：異なるAIモデルにおける概念の表現の整合性
- AIモデルの解釈可能性向上は，その信頼性と実用性を高める上で不可欠である。
- 既存手法では，モデル固有の表現が生まれ，モデル間での概念比較が困難である。
- 異なるモデル・モダリティ間で共有可能な概念空間を構築し，解釈性を向上させる。
- SPARCは，多様なモデル・モダリティ間で一貫した潜在空間を学習することで，概念の整合性を大幅に改善する。
- Open Imagesデータセットにおいて，先行手法と比較して3倍以上の整合性（Jaccard類似度0.80）を達成した。
- SPARCは，テキストによる画像内の物体位置特定や，モデルを跨いだ情報検索といった応用を可能にする。
Link: https://arxiv.org/abs/2507.06265
トークンボトルネック：動的認識のための１つのトークンによる記憶 [cs.CV]目的：動的シーンからの簡潔かつ時間的認識を含む視覚表現の獲得
- 視覚追跡やロボット操作など，連続的なシーン理解には，動的なシーンからの効率的な視覚表現が不可欠である。
- 既存手法では，動的シーンの複雑な時間的変化を捉えきれない場合がある。
- 本研究は，シーンをコンパクトなトークンにエンコードすることで，時間的依存関係を学習し，動的なシーン理解を促進する。
- 提案手法ToBoは，少ないパッチの情報とボトルネックトークンを用いて次のシーンを予測し，時間的動的なシーン表現の学習を可能にする。
- 様々なタスク（動画ラベル伝播，シミュレーション環境におけるロボット操作）において，既存手法を上回る性能を示すことが確認された。
- 実世界のロボットへの適用により，提案手法の頑健性と有効性が実証された。また，異なるモデル規模への拡張性も確認された。
Link: https://arxiv.org/abs/2507.06543
NarrLV：長編ビデオ生成のための包括的な物語中心評価に向けて [cs.CV]目的：長編ビデオ生成モデルの物語表現能力の評価
- 基礎的なビデオ生成技術の発展により，コンテンツ制作の可能性が広がっている。
- 既存の評価基準は単純な指示に依存しており，長編ビデオにおける複雑な物語性を評価できない。
- 物語理論に基づき，長編ビデオ生成モデルの物語表現能力を定量的に評価する基準を構築する。
- 提案するNarrLVは，時間的物語原子（TNA）の数を測定することで物語の豊かさを定量化する。
- 3段階の物語性表現レベルに基づき，MLLMを利用した質問応答フレームワークによる効果的な評価指標を設計した。
- 実験結果は，提案指標が人間の判断と一致することを示し，現在のビデオ生成モデルの限界を明らかにした。
Link: https://arxiv.org/abs/2507.11245
拡散合成による表面欠陥検出のための明示的二重分布学習 [cs.CV, cs.AI]目的：表面欠陥検出のための明示的二重分布モデル
- 産業界における品質管理の重要性が増す中，欠陥検出技術の高度化が求められている。
- 従来の異常検知手法は，異常データの分布を均一と仮定しており，実際の製造環境でのデータ不足に対応できない。
- 本研究は，正常パターンと異常パターンの統計的特性を明示的にモデル化することで，この問題を解決する。
- 提案手法ExDDは，二重の分布を明示的にモデル化するフレームワークであり，従来の異常検知法の限界を克服する。
- 潜在拡散モデルとドメイン固有のテキスト条件付けを組み合わせることで，データ不足を補い，工業的文脈を保持した合成欠陥を生成する。
- KSDD2データセットでの実験により，提案手法が優れた性能を示すことが確認された（I-AUROC: 94.2%, P-AUROC: 97.7%）。
Link: https://arxiv.org/abs/2507.15335
ガウス集合表面再構成におけるガウス毎最適化 [cs.CV]目的：3Dガウススプラッティングによるシーン形状の正確な再構成
- 3Dコンテンツの高品質な再現は，仮想現実や拡張現実などの応用において重要である。
- 既存の3Dガウススプラッティングは，ガウス配置の最適化を怠り，表面からのずれが生じやすい。
- ガウスを潜在表面に沿って均等に分布させ，法線方向を整列させることで，再構成精度を向上させる。
- 本研究では，ガウス集合表面再構成（GSSR）を提案し，ピクセルレベルおよびガウスレベルの一貫性を確保した。
- GSSRは，不必要なガウスを排除するための不透明度正則化損失と，ガウスの再初期化により，より均一な空間分布を実現する。
- 実験の結果，GSSRはガウス配置の幾何学的精度を大幅に向上させ，直感的なシーン編集を可能にすることが示された。
Link: https://arxiv.org/abs/2507.18923
化学文献からの多様な情報抽出を可能にするマルチエージェントシステム [cs.CE, q-bio.GN, cs.RO, cs.AI, cs.CV, cs.MA]目的：化学文献からの情報抽出の自動化
- AIを活用した化学研究の発展には，高品質な化学データベースが不可欠である。
- 化学情報の多様性や表現様式の変化により，文献からの自動抽出は困難であった。
- 化学情報の抽出タスクを細分化し，専門エージェントの連携によって高精度化を目指す。
- 開発したマルチエージェントシステムは，既存の最先端モデルを大幅に上回るF1スコア76.27%を達成した。
- 複雑な化学反応グラフィックのベンチマークデータセットで高い性能を示した。
- 分子画像認識やテキストベースの反応抽出など，多様な情報抽出タスクへの適用可能性も実証された。
Link: https://arxiv.org/abs/2507.20230
MAP：マップレベル注意処理による大規模視覚言語モデルにおける幻覚の軽減 [cs.CV, cs.AI]目的：大規模視覚言語モデルにおける幻覚軽減策
- 視覚と言語を統合したタスクにおいて，大規模言語モデルの性能向上は目覚ましい。
- これらのモデルは，視覚情報と矛盾する内容を生成する「幻覚」という問題を抱えている。
- マップレベルでの注意処理を通じて，視覚情報との整合性を高めることを目指す。
- 本研究では，モデルの隠れ状態を2次元セマンティックマップとして解釈する新しいアプローチを提案した。
- 提案手法MAPは，訓練不要なデコーディング方法であり，マップレベルの操作を通して事実に基づいた情報を活用する。
- MAPはPOPE，MME，MMHal-Benchなどのベンチマークで，LVLMの真実性と性能を向上させることを示した。
Link: https://arxiv.org/abs/2508.01653
VLMQ：トークン重要度に基づく視覚言語モデルのポストトレーニング量子化 [cs.CV, cs.AI, cs.CL]目的：視覚言語モデルの量子化性能向上
- 大規模モデルの効率化が重要であり，特に推論速度の向上が求められている。
- 視覚言語モデルへの量子化技術の適用はまだ十分に進んでいない。
- 視覚トークンの過剰な表現とモダリティギャップを解消し，量子化性能を改善する。
- VLMQは，視覚言語モデルに特化した量子化フレームワークであり，重要なトークンを優先的に処理する。
- 勾配に基づいた重要度因子を導入することで，トークンごとの重要度のばらつきを捉えている。
- 8つのベンチマークにおいて最先端の性能を示し，特に低ビット量子化において顕著な改善が見られた。
Link: https://arxiv.org/abs/2508.03351
SAM誘導拡散モデルによる高忠実度赤外・可視画像融合 (SAM Indō Kakusan Moderu ni yoru Kō Chūjido Akagai・Kashi Gazō Yūgō) [cs.CV, cs.AI]目的：赤外線画像と可視線画像の融合による知覚能力の向上
- 画像認識などの視覚タスクにおいて，赤外線と可視線の情報を組み合わせることで，より高度な情報取得が可能となる。
- 既存手法では，シーンの深い意味理解の欠如により重要な対象が失われたり，融合過程でアーティファクトや詳細が失われたりする。
- シーンの意味的理解に基づき，高忠実度な画像融合を実現し，画像品質とタスク性能を向上させる。
- 提案手法SGDFuseは，Segment Anything Model (SAM)によって生成された高品質なセマンティックマスクを条件として拡散モデルを誘導する。
- 実験により，SGDFuseは主観評価・客観評価ともに最先端の性能を達成し，下流タスクへの適応性も高いことが示された。
- これにより，画像融合における重要な課題に対する強力な解決策を提供する。
Link: https://arxiv.org/abs/2508.05264
DianJin-OCR-R1：推論とツールを交互に行う視覚言語モデルによるOCR能力の向上 [cs.CV]目的：OCR能力の向上
- 文書処理の自動化が求められる中で，OCR技術は重要な役割を担う。
- 既存の視覚言語モデルは，言語モデルの事前知識に頼りすぎ，誤認識を生じやすい。
- 視覚言語モデルと従来のOCRモデルの利点を組み合わせ，高精度な認識を目指す。
- 提案手法DianJin-OCR-R1は，推論とツール利用を繰り返すことで，より正確なOCR結果を得る。
- DianJin-OCR-R1は，自身のOCR結果と専門モデルの結果を比較し，誤りや欠落を修正する。
- ReSTとOmniDocBenchの評価で，既存手法や専門モデルを上回る性能を示した。
Link: https://arxiv.org/abs/2508.13238
SSL-SLR：手話認識のための自己教師あり表現学習 [cs.CL, cs.CV]目的：手話認識のための有意義な表現の学習
- 手話は，聴覚障害者にとって重要なコミュニケーション手段であり，機械学習による自動認識が求められている。
- 手話データの注釈付きデータは不足しており，教師なし学習手法の利用が課題となっている。
- 動画中の関連部分に焦点を当て，異なる手話間の類似性を減らすことで，識別能力の高い特徴量を学習すること。
- 提案手法は，線形評価，半教師あり学習，手話間の転移学習において，既存のコントラスティブ学習や自己教師あり学習手法と比較して，大幅な精度向上を示した。
- 本フレームワークは，フリーネガティブペアを用いた新しい自己教師ありアプローチと，新しいデータ拡張技術の2つの主要コンポーネントで構成されている。
- 手話動画中の重要な部分のみを考慮し，類似する手話間の識別を容易にすることで，より識別力のある特徴量の学習を可能にした。
Link: https://arxiv.org/abs/2509.05188
RED：モダリティ固有の分離によるロバストなイベント誘導モーションデブラーリング [cs.CV, cs.IR]目的：イベントカメラからの高時間分解能のモーション情報を利用した鮮明な画像再構成
- 高速運動や低照度下での画像取得において，モーションブラー除去は不可欠な技術である。
- イベントカメラの閾値設定によるイベント欠損が，モーション情報の断片化を引き起こし，既存手法の性能低下を招く。
- イベント欠損に強く，ロバストなモーションデブラーリング手法を開発し，高精度な画像再構成を実現すること。
- 提案手法REDは，多様なイベント欠損パターンに耐性を持つロバスト性を実現した。
- モダリティ固有の表現メカニズムにより，画像，イベント，クロスモーダル情報を分離し，それぞれ特徴を抽出した。
- 信頼性の高い分離された特徴を用いて，選択的にモダリティを融合することで，モーションに敏感な領域を強化し，イベント情報を補完した。
Link: https://arxiv.org/abs/2509.05554
C^2Prompt：連合継続学習のためのクラス認識クライアント知識の相互作用 [cs.LG, cs.CV]目的：連合継続学習における，時間的および空間的な忘却の軽減
- 分散環境下での継続学習は，プライバシー保護と効率的な学習を両立する点で重要である。
- 既存の連合継続学習手法では，クラスごとの知識の一貫性が課題となっている。
- 本研究は，クラス認識による知識の相互作用を通じて，連合継続学習の性能向上を目指す。
- 提案手法C^2Promptは，クライアント間におけるクラス分布の差異を低減するメカニズムを導入した。
- さらに，クラス関連性の高い知識を集約する集約スキームを設計し，クラス間知識の混乱を軽減する。
- 複数のベンチマーク実験において，C^2Promptが最先端の性能を達成することを示した。
Link: https://arxiv.org/abs/2509.19674
脚ロボットにおける信頼度較正知覚とトポロジカルなサブゴール選択による，意思決定主導のセマンティックオブジェクト探索 [cs.RO, cs.CV]目的：脚ロボットにおけるセマンティックオブジェクト探索のための意思決定プロセス
- ロボットの自律的な行動範囲拡大には，環境の理解と効果的な探索が不可欠である。
- 従来のナビゲーションは幾何学情報に依存し，セマンティックな判断や不安定な環境への対応が課題である。
- ノイズを含むセマンティック情報を安定した探索行動に変換する手法を確立すること。
- 提案手法は，信頼度較正によるセマンティック情報の統合，トポロジカルな記憶，そしてセマンティックな実用性に基づくサブゴール選択を実現した。
- シミュレーションと実環境実験により，提案手法がセマンティックな判断の質，サブゴールの選択精度，そして全体的な探索性能を向上させることが示された。
- 高密度な幾何学的再構成を必要とせず，タスクに関連するセマンティック知識を時間とともに蓄積し，探索目標を選択できる。
Link: https://arxiv.org/abs/2509.20739
DeCLIP：CLIPに基づくマルチラベル継続学習のためのデカップルドプロンプティング [cs.CV]目的：マルチラベル継続学習における catastrophic forgetting と高い偽陽性率の軽減
- 画像認識技術は，実世界での多様な状況に対応するため，継続的に学習する能力が求められる。
- マルチラベル継続学習では，過去の知識の忘却や誤認識が起こりやすく，性能劣化が課題である。
- CLIPの特性を活かし，ラベル間の意味的混乱を防ぎ，効率的な継続学習を実現する。
- DeCLIPは，クラス固有のプロンプティングによりCLIP表現を分離し，ラベル間の干渉を抑制する。
- ASTは，タスクに合わせた類似度調整により，偽陽性率を抑制し，高い認識精度を維持する。
- MS-COCOとPASCAL VOCの実験により，DeCLIPが既存手法を上回り，少ない学習パラメータで高い性能を発揮することが示された。
Link: https://arxiv.org/abs/2509.23335
HVACシステムを用いた人の音声盗聴：HVAC-EAR [cs.RO, cs.SY, eess.SY, cs.RO, cs.SY, eess.SY, cs.SD, cs.CR]目的：HVACシステムの圧力センサーからの音声再構築
- 現代の建物に不可欠なHVACシステムは，セキュリティ上の新たな脆弱性を孕んでいる。
- HVACシステムのセンサーデータが，プライバシー侵害に繋がる可能性が指摘されている。
- 低解像度かつノイズの多い圧力データから，明瞭な音声を再構築することを目指す。
- 提案手法HVAC-EARは，0.5kHzという低いサンプリングレートでも知覚可能な音声を再構築することに成功した。
- 複雑値ConformerとComplex Unified Attention Blockの導入により，音素間の依存関係を捉え，音声の明瞭性を向上させた。
- HVACシステムの過渡的なノイズを軽減するため，周波数成分の振幅と位相の両方を再構成した。
Link: https://arxiv.org/abs/2510.01082
オープンワールド物体検出における未知ラベルの粒度向上 [cs.CL, cs.CV]目的：未知物体の大まかなカテゴリの推論
- 物体検出はロボティクスや自動運転など，様々な分野で重要な役割を担っている。
- 従来の物体検出器は学習データにない物体を認識できず，未知物体をまとめて「未知」としてしまう。
- 未知物体を大まかなカテゴリに分類することで，より詳細な状況認識と適切な行動選択を可能にする。
- 提案手法BOUNDは，既存手法よりも未知物体の検出率を向上させつつ，既知クラスの精度を維持する。
- BOUNDは，未知インスタンスの構造化された階層的分類を可能にする。
- LVISデータセットでの評価により，頑健な汎化性能が示された。
Link: https://arxiv.org/abs/2510.09173
LikePhys: 拡散モデルにおける直感的物理理解の評価 - 尤度に基づく選好による [eess.SY, cs.SY, cs.CV, cs.AI]目的：動画拡散モデルにおける直感的物理理解の評価手法
- 汎用的な物理法則に基づいたワールドシミュレータ構築には不可欠な直感的物理理解。
- 生成された動画において，物理的な正しさと視覚的な表現を分離して評価することが困難。
- 動画拡散モデルの直感的物理理解を，尤度に基づく選好を用いて定量的に評価すること。
- LikePhysは，物理的に妥当な動画と不可能な動画を識別することで，拡散モデルの直感的物理理解を評価する。
- 提案手法の評価指標であるPlausibility Preference Error（PPE）は，人間の選好と強い一致性を示す。
- モデルの規模や推論設定の拡大に伴い，物理理解能力が向上する傾向が確認された。
Link: https://arxiv.org/abs/2510.11512
キャンバスを用いたマスク自己回帰型動画予測の改善：CanvasMAR [cs.CV, cs.AI, cs.LG]目的：マスク自己回帰型動画予測モデルの性能向上
- 動画生成技術は，コンピュータビジョンの重要な課題であり，様々な応用が期待される。
- 自己回帰型動画モデルは，サンプリングステップ数が少ないと，動画の品質が低下しやすい。
- 少ないサンプリングステップ数で高精度な動画生成を可能にすること。
- 提案手法CanvasMARは，キャンバスと呼ばれるグローバルな一次予測を導入することで，少ないステップ数で高画質の動画を生成できる。
- 動きを考慮したサンプリング順序により，自己回帰サンプリングの安定性が向上する。
- BAIR，UCF-101，Kinetics-600のデータセットで，CanvasMARは高品質な動画を生成し，特にKinetics-600では拡散モデルに匹敵する性能を示す。
Link: https://arxiv.org/abs/2510.13669
3Dで考える：限られた視点からの幾何学的想像力に基づく空間推論 [cs.CV, cs.AI]目的：限られた視点からの3次元空間推論のための幾何学的想像力の活用
- 視覚と言語の融合モデルは目覚ましい進歩を遂げているが，3次元空間認識は未だ課題である。
- 既存手法は，テキストや2次元視覚情報に依存しており，3次元空間想像力が必要なタスクで限界がある。
- 本研究は，事前知識なしに画像から3次元情報を抽出し，推論に活用する新たな枠組みを提案する。
- 3DThinkerは，強力なベースラインモデルを凌駕する性能を示し，マルチモーダル推論における3次元表現の統合に新たな視点を提供する。
- 本フレームワークは，推論過程において視覚情報の幾何学的情報を活用し，人間のように3次元的な思考を可能にする。
- 2段階の学習により，VLMの潜在空間と3次元基盤モデルを整合させ，結果に基づいて推論軌跡を最適化する。
Link: https://arxiv.org/abs/2510.18632
AURASeg：注意誘導アップサンプリングと残差支援境界洗練によるロボット搭載型走行可能領域セグメンテーション [cs.RO, cs.CV]目的：ロボット搭載型走行可能領域セグメンテーションの精度向上
- 自律ロボットの航行において，走行可能領域の認識は不可欠である。効率的な移動を実現するための基盤技術である。
- 既存のセグメンテーションモデルでは，特に屋内，屋外，道路環境において，微細な特徴量の抽出が困難である。
- マルチスケール処理，境界洗練，特徴表現の限界を克服し，エッジ環境下での境界精度を向上させる。
- 提案手法AURASegは，CARL-D，GMRPDデータセット，Gazeboデータセットにおいて，既存手法と比較して境界評価指標において顕著な改善を示した。
- 境界支援特徴量洗練モジュール(RBRM)と，注意モジュールによる残差融合を用いたAttention Progressive Upsampling Decoder(APUD)ブロックにより，境界精度と領域精度を両立した。
- Jetson Nano搭載Kobuki TurtleBot上での実機デプロイにより，エッジ環境下での推論実行可能性を検証した。
Link: https://arxiv.org/abs/2510.21536
財と雑務の公正な配分における存在性：異質な選好下 [cs.RO, cs.HC, cs.CL, cs.GT]目的：財と雑務の公正な配分問題における存在条件の解明
- 公正な配分は，資源配分の公平性を担保する上で不可欠であり，社会的な合意形成に寄与する。
- 既存研究では，公正な配分が存在するための条件が明確でなく，特に資源の希少性下での配分が困難であった。
- 本研究は，グループ数やアイテムの種類数に関わらず，公正な配分が存在するための具体的な上限値を導出することを目指す。
- アイテムの各種類が一定数以上存在する場合，必ず分配可能な上限値μを明確化。
- 既存研究よりも簡潔な手法を用いることで，建設的な保証を提供。
- この手法は，財だけでなく雑務や連続的な領域にも適用可能であり，公正分割問題に新たな知見をもたらす。
Link: https://arxiv.org/abs/2511.03810
行動の中の文化：ソーシャル活動を通してテキスト画像モデルを評価する [cs.CV]目的：テキスト画像モデルにおける異文化活動の表現の評価
- 画像生成AIの発展は，社会に大きな影響を与える可能性を秘めている。
- 既存の評価指標では，文化的な背景や社会活動の表現の正確性は十分ではない。
- 異文化活動におけるモデルのバイアスを明らかにし，評価指標を提案する。
- CULTIVateベンチマークは，16カ国，576プロンプト，19,000以上の画像を含む大規模なデータセットである。
- モデルは，グローバルノースの国々でより高い性能を示し，グローバルサウスの国々では誤りが顕著であった。
- 提案された評価指標は，既存の指標よりも人間の判断との相関性が高いことが示された。
Link: https://arxiv.org/abs/2511.05681
バイアスの分離と分布のアライメント：ディープフェイク検出のための相乗的な公平性最適化 [cs.RO, cs.RO, cs.CL, cs.CV]目的：ディープフェイク検出における公平性の最適化
- デジタルアイデンティティセキュリティにおいて，信頼性の高いモデル展開には公平性が不可欠である。
- 既存の公平性を高める手法は，検出精度を低下させる傾向がある。
- グループ間およびグループ内の公平性を維持しつつ，検出精度を向上させる。
- 提案手法は，モデル構造レベルでの公平性分離と特徴レベルでの分布アライメントを組み合わせる。
- 実験結果から，他の手法と比較して，公平性と検出精度を両立できることが示された。
- 異なるドメインにおいても，公平性の改善と精度の維持が確認された。
Link: https://arxiv.org/abs/2511.10150
LaxMotion：3D人体モーション生成における教師データの粒度再考 [cs.SC, cs.CC, cs.CV]目的：3D人体モーションの生成
- 現実的な3D人体モーション生成は，仮想現実やロボット工学など，様々な分野で重要である。
- 既存モデルは，学習データ分布外のモーション生成において汎化性能が低いという課題がある。
- 正確な3D座標への回帰ではなく，構造的な一貫性に着目し，汎化性能の向上を目指す。
- LaxMotionは，直接的な3D姿勢の教師信号を用いずに，グローバルな軌跡と単眼2D運動学的手がかりから3Dモーションを生成する。
- 構造化されたモーション分解と，観測可能性を緩和した学習パラダイムによって，多様で時間的に一貫性のあるモーションを実現する。
- 実験結果から，構造的な一貫性への教師信号のシフトが，推論能力と汎化性能を向上させることが示された。
Link: https://arxiv.org/abs/2511.11368
拡散モデルにおける多角的象徴性の持続性：文化的記憶の探求 [cs.CV, cs.AI]目的：拡散モデルにおける多角的象徴性の評価
- 近年の画像生成技術の発展は目覚ましいが，その文化的背景との関係性は未解明な点が多い。
- 拡散モデルが文化的参照をどの程度記憶・再現しているかの評価方法が確立されていない。
- 文化的参照に対するモデルの理解度を，単純な再現ではない側面から評価することを目指す。
- 拡散モデルが，文化的参照を認識しつつ，単純な複製に頼らず再解釈できるかを評価する指標「CRT」を提案した。
- Wikidata由来の767の文化的参照を用いて5つの拡散モデルを評価した結果，モデルによって認識度や再現傾向に差が見られた。
- 文化的参照の認識度は，学習データ頻度だけでなく，テキストの独自性，参照の人気度，作成日と相関することが示された。
Link: https://arxiv.org/abs/2511.11435
Co-Layout：LLM駆動によるインテリアレイアウトの共同最適化 [cs.CV, cs.CL, cs.GR]目的：インテリアレイアウトと家具配置の同時最適化
- 快適な居住空間の実現は，人々の生活の質に直結する重要な課題である。
- 従来の設計手法では，個々の要素の最適化に偏りがちで，全体的な調和が損なわれる場合がある。
- LLMを活用し，設計制約を構造的に抽出することで，より効率的な最適化を目指す。
- 提案手法は，テキストプロンプトから設計制約を抽出し，Modulorに着想を得たグリッド表現に変換する。
- コリドー接続性，部屋のアクセス性，空間の排他性，ユーザーの好みを考慮した制約を統合的に最適化する。
- 粗解像度から高解像度への段階的最適化により，計算効率を高めつつ，高品質なレイアウトを実現した。
Link: https://arxiv.org/abs/2511.12474
SPARK：聴覚的および再文脈化された知識を相乗的にプロンプトすることでT2Vモデルを脱獄する [cs.CV, cs.CR]目的：T2Vモデルに対する脱獄攻撃の実現
- 生成AIモデルの安全性確保は重要であり，その脆弱性を理解することが不可欠である。
- 既存の攻撃は検知・防御が容易なため，より巧妙な攻撃手法が求められている。
- 一見安全なプロンプトでモデルの安全性を回避し，意図した有害な動画を生成すること。
- SPARKは，中立的なシーン設定，潜在的な聴覚的トリガー，およびスタイルの変調を組み合わせることで，T2Vモデルのクロスモーダルな関連性を悪用する。
- 本手法は，7つのT2Vモデルにおいて高い攻撃成功率を示し，特に商用モデルでは平均で23%の改善が見られた。
- 従来の攻撃手法に比べ，よりステルス性が高く，効果的な脱獄攻撃が可能となる。
Link: https://arxiv.org/abs/2511.13127
新生児超低磁場MRIにおける画像品質転送のための物理モデルに基づいた拡散モデルMRIQT [cs.CV]目的：新生児超低磁場MRIの画像品質を，高磁場MRIの品質に転送すること。
- 新生児医療における神経画像診断の重要性が高く，低侵襲な画像ング技術のニーズがある。
- 超低磁場MRIは携帯性に優れるものの，SNRが低く診断能が低いという課題がある。
- 本研究は，超低磁場MRI画像の品質を向上させ，より信頼性の高い診断を可能にすることを目指す。
- 提案手法MRIQTは，既存のGANやCNNベースラインをPSNRで15.3%上回り，最先端技術を1.78%上回った。
- 医師による評価では，MRIQTの出力の85%が明確な病理を伴う高品質な画像と評価された。
- MRIQTは，携帯型超低磁場MRIの高画質化を実現し，新生児脳評価の信頼性向上に貢献する。
Link: https://arxiv.org/abs/2511.13232
FunnyNodules：説明可能なAI評価のためのカスタマイズ可能な医療データセット [cs.RO, cs.RO, cs.MA, cs.CV]目的：説明可能なAIモデルの評価に特化した医療データセット
- 医療AIの発展には，診断だけでなく根拠も考慮したデータが不可欠である。
- 診断理由を伴う詳細な医療画像データセットが不足している。
- 属性ベースの推論を体系的に分析するための合成データセットを提供する。
- FunnyNodulesは，形状，境界，スパイキュレーションなどの視覚的属性を制御可能にする。
- モデルが正しい属性とターゲットの関係を学習しているかを評価できる。
- 属性予測の過剰または不足な性能を解釈し，注意領域の分析を可能にする。
Link: https://arxiv.org/abs/2511.15481
FireScope：思考連鎖オラクルを用いた山火事リスク予測 [cs.RO, cs.CV, cs.LG]目的：山火事リスクマップの予測
- 森林火災は，生態系や社会経済に深刻な影響を与えるため，リスク予測は重要である。
- 既存手法は，因果関係の推論やマルチモーダルな理解が不十分であり，汎化性能が低い。
- 本研究は，大陸横断的な汎化性能と解釈可能性を向上させたリスク予測モデルの構築を目指す。
- FireScopeは，アメリカで学習し，ヨーロッパでテストすることで大きな性能向上を達成した。
- 専門家からのフィードバックと自動分析により，FireScopeの思考過程が信頼性が高く意味のあるものであることが確認された。
- 言語ベースの推論が，視覚生成における汎化性能を向上させることが示された。
Link: https://arxiv.org/abs/2511.17171
腫瘍細胞分類のためのマルチモーダルフレームワークにおける統一的注意Mambaバックボーン [cs.CV]目的：腫瘍細胞分類と画像セグメンテーションの共同実行
- 近年，医療画像診断において，より高精度な腫瘍細胞の識別が求められている。
- 既存手法では，注意機構とMambaアーキテクチャの組み合わせ比率が性能に影響する。
- 注意機構とMambaアーキテクチャを統合し，自動的な性能最適化を実現する。
- 提案手法UAMは，公的なベンチマークにおいて最先端の性能を達成した。
- 細胞分類の精度は74%から78%に，腫瘍セグメンテーションの精度は75%から80%に向上した。
- UAMは，既存の画像ベースの基盤モデルを上回る結果を示した。
Link: https://arxiv.org/abs/2511.17355
自我認知ナビゲーション：認知を考慮した一人称視点ナビゲーション [cs.LG, cs.CV]目的：人間の一人称視点ナビゲーションにおける認知・経験的要素のモデル化
- 人間と環境の相互作用理解や，安全な社会ナビゲーション，効果的な支援的経路探索に不可欠である。
- 既存手法は完全観測されたシーンにおける動きの予測に焦点を当て，人間の感情や空間への反応を無視している。
- 人間の不確実性認識を予測し，軌跡と頭部動きを統合的に予測することでこの問題を解決する。
- EgoCogNavは，人間の行動（スキャン，躊躇，後退）と高い相関を持つ知覚される不確実性を学習する。
- 提案手法は，未知の環境への汎化性能も示す。
- 認知を考慮した一人称視点ナビゲーション（CEN）データセットを公開し，研究を促進する。
Link: https://arxiv.org/abs/2511.17581
SyncMV4D：外観と運動の同期したマルチビュー拡散による手物交互作用合成 [cs.CV]目的：手物交互作用の動画生成
- アニメーションやロボティクス分野の発展において，手物交互作用の生成は不可欠である。
- 既存の動画生成手法は単一視点に依存するため，3次元形状の正確な認識が難しく，歪みや不自然な運動が生じやすい。
- 本研究では，複数の視点からの一貫性を持つ，より現実的な手物交互作用の動画生成を目指す。
- 提案手法SyncMV4Dは，視覚情報，運動ダイナミクス，マルチビュー幾何学を統合し，同期したマルチビューHOI動画と4D運動を生成する。
- マルチビュー共同拡散モデルと拡散点アライナーにより，生成された動画と運動の品質を向上させている。
- 実験結果から，提案手法は既存手法と比較して，視覚的リアリズム，運動の妥当性，マルチビューの一貫性において優れていることが示された。
Link: https://arxiv.org/abs/2511.19319
トレーニング不要なサンプル画像に基づく画像編集のための可逆的転置 [cs.RO, cs.HC, eess.SY, cs.RO, cs.SY, math.OC, cs.CV]目的：サンプル画像に基づく画像編集手法
- 画像編集技術は，創造的なコンテンツ生成や画像修復など，多様な応用分野で重要である。
- 既存手法は大規模な事前学習を必要とし，計算コストが高いという課題がある。
- 事前学習なしで，高品質かつ効率的な画像編集を実現することを目的とする。
- 本研究では，可逆的転置(ReInversion)と呼ばれる新しい手法を提案し，効果的かつ効率的な画像編集を可能にした。
- ReInversionは，2段階のノイズ除去プロセスを利用し，ソース画像と参照画像の両方に基づいて動作する。
- マスクガイド選択的ノイズ除去(MSD)戦略を導入することで，編集対象領域を絞り込み，背景の構造的一貫性を維持する。
Link: https://arxiv.org/abs/2512.01382
UK Biobankにおける組織マスク支持全身体体画像登録法 [cs.CV]目的：UK Biobankの全身体体MR画像を用いた，体全体の空間標準化および非画像データと画像由来パラメータの相関分析
- 大規模コホート研究において，画像データの空間標準化は，集団レベルでの解析を可能にする上で不可欠である。
- 全身体体MR画像の登録は，解剖学的構造の複雑さから，精度向上が課題であった。
- 本研究は，組織マスクを用いることで，全身体体MR画像の登録精度を向上させることを目指す。
- 提案法は，男性および女性コホート全体で平均ダイススコア0.773/0.744を達成した。
- 強度ベースのみの登録と比較して，平均ダイススコアは男女ともに6パーセントポイント高く，ラベルエラー頻度も減少した。
- 提案法を用いた場合，年齢と脂肪含有量または組織量の相関マップはノイズが少なく，解剖学的アライメントが向上した。
Link: https://arxiv.org/abs/2512.02702
リモートセンシングのための統一時空間生成モデル UniTS [cs.CV]目的：地球環境の複雑な変動の捉え方
- 地球環境の変化を捉え，気候変動や土地利用の変化を監視する上で不可欠である。
- 既存手法はタスクごとにモデルが異なり，多岐にわたるタスクを統一的に扱う汎用的な枠組みが存在しない。
- 様々なタスクを統一的にモデル化し，時空間表現の能力を高めることを目指す。
- UniTSは，ノイズからターゲットへの決定的な進化経路を構築することで，多様なタスクの時空間表現を統一的にモデル化する。
- 適応的条件注入器(ACor)と時空間認識モジュレーター(STM)により，マルチモーダル入力の条件認識能力と時空間依存性の捕捉能力が向上した。
- UniTSは，特に困難な条件下で既存の専門モデルを大幅に上回り，高画質な制御可能な生成を可能にする。
Link: https://arxiv.org/abs/2512.04461
時空間特性を活用した効率的なイベント駆動ヒューマンポーズ推定 [cs.RO, cs.CV, cs.AI]目的：イベントベースのヒューマンポーズ推定における性能向上
- 近年，人間の行動解析において，身体のキーポイントを推定するヒューマンポーズ推定が重要視されている。
- 従来のRGBカメラでは困難な条件下での推定精度向上が課題となっている。
- イベントカメラの持つ時空間特性を活かし，計算効率を維持しつつ高精度なポーズ推定を目指す。
- 提案手法は，DHP19データセットにおいてPointNet，DGCNN，Point Transformerの3つのバックボーン全てで性能向上を示した。
- 平均MPJPEは4%削減され，イベントストリームの時空間特性を活用した有効性が確認された。
- イベントテンポラルスライシング畳み込みモジュールとイベントスライスシーケンシングモジュールが，性能向上に貢献した。
Link: https://arxiv.org/abs/2512.06306