arXiv雑要約

画像・音声 - 2026/05/01 公開

AdvDMD：敵対的報酬とDMDの融合による高品質な数ステップ生成 [cs.CV, cs.AI]目的：拡散モデルによる高品質な数ステップ生成の実現
- 拡散モデルは高品質だが，多くのサンプリングステップが必要となる点が課題。
- 蒸留法では，ステップ数を減らすと性能が低下しやすい。
- 敵対的報酬とDMDを融合し，蒸留と強化学習の複雑さを軽減する。
- AdvDMDは，SD3.5において，40ステップのオリジナルモデルを上回る性能をDPG-Benchで示した。
- SD3では，GenEvalにおいて，AdvDMDが大幅な性能向上を達成した。
- Qwen-Imageでは，2ステップのAdvDMDがTwinFlowよりも優れた性能を発揮した。
Link: https://arxiv.org/abs/2604.28126
MoCapAnything V2：任意の骨格に対するエンドツーエンドモーションキャプチャ [cs.CV]目的：任意の骨格を持つ人物のモーションキャプチャ手法
- モーションキャプチャは，アニメーション制作や人間行動解析において不可欠な技術である。
- 従来の技術では，関節位置から関節回転を推定する際に曖昧さが生じやすい。
- この研究は，エンドツーエンドの学習により，推定の曖昧さを解消し，高精度なモーションキャプチャを実現する。
- 本研究では，ビデオから関節位置を予測するVideo-to-Poseネットワークと，関節回転を予測するPose-to-Rotationネットワークを統合したエンドツーエンドフレームワークを提案した。
- 提案手法は，対象アセットからの参照ポーズとレストポーズを利用することで，回転予測の曖昧さを解消し，学習を効果的に行える。
- 実験の結果，既存手法と比較して回転誤差を大幅に削減し，推論速度を向上させた。
Link: https://arxiv.org/abs/2604.28130
3D-ReGen：統合的な3次元形状再生フレームワーク [cs.CV]目的：2次元画像と初期3次元形状からの3次元オブジェクト再生
- 3次元コンテンツ作成は，メタバース等の応用において重要性が増している。
- 既存の3次元生成手法は制御性が限られており，柔軟な編集が困難である。
- 初期形状に基づいた3次元形状の改善・再構築を可能にすること。
- 3D-ReGenは，初期3次元形状を条件として形状を更新・改善する。
- 新しいVecSetに基づく条件付けメカニズムにより，一貫性のある詳細な形状を生成。
- 自己教師あり学習により，汎用的な再生事前知識を獲得し，複数タスクで最先端の性能を達成。
Link: https://arxiv.org/abs/2604.28134
ピクセル忠実度を超えて：夜間写真レンダリングにおける知覚的歪みと色バイアスの最小化 [cs.CV]目的：夜間写真レンダリングにおける知覚的歪みと色バイアスの低減
- 夜間写真は，明暗差が激しく，表現が難しいため，高度な技術が求められる分野である。
- 既存手法は，主に数値的な忠実度を重視する傾向があり，人間の知覚とのずれが生じやすい。
- 人間の視覚特性に基づき，より自然で高品質な夜間写真レンダリングを実現することを目指す。
- 本研究では，HVI色空間に基づくpHVI-ISPNetという新たなRAW-to-RGBフレームワークを提案した。
- 提案手法は，RAWドメインでの特徴処理やウェーブレットに基づく特徴伝搬により，高周波ディテールの損失を抑制する。
- NTIRE 2025チャレンジのデータセットを用いた評価で，既存手法を上回る結果が得られた。
Link: https://arxiv.org/abs/2604.28136
連続トーン単純点：トポロジー保存データ駆動型画像セグメンテーションのための巡回勾配の$\ell_0$ノルム [cs.CV]目的：トポロジー保存データ駆動型画像セグメンテーションにおける単純点の利用
- 画像解析において，幾何学的な妥当性と構造的一貫性を保証する上で，トポロジー特徴は重要な役割を果たす。
- 既存の単純点検出法は二値画像に限定され，微分不可能であるため，深層学習の勾配ベース最適化との統合が困難である。
- 連続値画像上で微分可能なトポロジー推論を可能にし，トポロジー構造を保存する効率的なアルゴリズムを開発すること。
- 提案手法は，複数のベンチマークにおいて，トポロジーの完全性と構造的な精度を効果的に向上させることを示した。
- 連続値画像上で直接単純点を計算する新しい手法を提案し，トポロジー保存学習を深層学習に取り込むことを可能にした。
- トポロジー的に除去不可能（単純でない）点を保存することでトポロジー制約を強制する変分モデルを設計し，深層ニューラルネットワークにシームレスに統合できる。
Link: https://arxiv.org/abs/2604.28159
生成モーションのための制御可能な物理的事前知識の学習：PhyCo [cs.RO, cs.HC, cs.CY, cs.ET, cs.CV, cs.AI, cs.LG]目的：生成モーションにおける物理的整合性の向上
- 動画生成技術の発展は目覚ましいが，物理的リアリズムが課題となっている。
- 既存の動画拡散モデルでは，物体の浮遊や不自然な衝突，材質の不整合などが頻発する。
- 物理属性に基づいた制御を可能にし，より現実的な動画生成を実現すること。
- 提案手法PhyCoは，物理シミュレーションデータとControlNetを用いたファインチューニング，VLMによる報酬最適化を組み合わせる。
- Physics-IQベンチマークにおいて，既存手法と比較して物理的リアリズムが大幅に向上した。
- 人間による評価実験では，物理属性の制御が明確かつ忠実であることが確認された。
Link: https://arxiv.org/abs/2604.28169
行動モチーフ：人間の身体運動の自己教師あり階層的表現 [cs.CC, cs.CV]目的：人間の身体運動の階層的表現
- 人間の行動モデリングにおいて，身体運動の構成性を捉えた表現が重要である。
- 既存手法では，複雑な身体運動を効果的に表現することが困難である。
- 人間の身体運動を構成する要素を捉え，再利用可能な表現を学習すること。
- 提案手法A4Merは，3次元ポーズデータから自己教師ありで階層的な表現を学習する。
- A4Merは，行動原子（Action Atoms）と行動モチーフ（Action Motifs）を学習し，多様な行動間で共通の身体運動を捉える。
- 実験結果から，A4Merが行動認識，運動予測，運動補間などのタスクにおいて有効であることが示された。
Link: https://arxiv.org/abs/2604.28173
AEGIS：AI生成学術画像のフォレンジック分析を評価するための包括的ベンチマーク [cs.CV, cs.CY]目的：AI生成学術画像のフォレンジック分析の評価基準
- 学術研究の信頼性確保が重要であり，AI技術の進化に伴い，その検証手法の確立が求められている。
- AI画像生成技術の高度化により，偽造画像の見分けが困難になっており，既存のフォレンジック手法では対応が遅れている。
- 学術画像の真偽判定における現状の限界を明らかにし，より高度なフォレンジック分析手法の開発を促す。
- AEGISは，7つの学術分野と39の細分類を含む包括的なベンチマークであり，最新の画像生成モデルに対しても高い難易度を示す。
- 多くの生成モデルにおいてフォレンジック精度が50%を下回り，フォレンジック分析が画像生成技術の進歩に追いついていないことが明らかになった。
- マルチモーダル大規模言語モデルはテキスト的アーティファクトの認識で高い精度を示し，専門家モデルは二値認証検出で優れた性能を発揮した。
Link: https://arxiv.org/abs/2604.28177
呼吸停止不要：CT情報に基づいた動的気管支鏡検査のためのガウススプラッティング [cs.CV]目的：呼吸性運動を考慮した気管支鏡検査におけるリアルタイム再構成
- 気管支鏡検査は肺疾患の診断・治療に不可欠だが，呼吸による気道の変形が精度低下の要因となる。
- 従来のCT画像と術中画像のマッチングは，呼吸による変形の影響を受けやすく，正確な位置特定が困難である。
- 患者固有の呼吸パターンをモデル化することで，呼吸停止なしでの正確な再構成とナビゲーションを実現することを目指す。
- 患者固有の吸気・呼気CTスキャンを活用し，呼吸性運動を単一の呼吸位相に変換することで，リアルタイム再構成を可能にした。
- 提案手法は，既存の単一CTベースラインと比較して，20倍高速な学習と1.22mmの標的定位精度を達成した。
- シミュレーション環境RESPIREを用いて定量評価を行い，幾何学的に忠実な再構成と臨床的に許容される精度を確認した。
Link: https://arxiv.org/abs/2604.28179
新たな時代におけるビジュアル生成：原子マッピングからエージェントによる世界モデル化への進化 [cs.CV]目的：知的なビジュアル生成の発展に向けたロードマップ
- 画像生成技術は，現実世界の描写や編集において目覚ましい進歩を遂げている。
- 空間推論，一貫性，因果関係の理解など，高度な認知能力が課題となっている。
- 構造，ダイナミクス，知識に基づいた，より知的なビジュアル生成を目指す。
- 近年の画像生成モデルの進歩と課題を，五段階の分類体系を用いて分析した。
- 現在の評価指標は，知覚的な品質に偏っており，構造的・時間的・因果的な欠陥を見逃している。
- ベンチマークレビュー，ストレステスト，専門家によるケーススタディを通じて，次世代の知的なビジュアル生成システムの開発を促進する。
Link: https://arxiv.org/abs/2604.28185
単独逸脱を超えた均衡の計算 [cs.GT, cs.AI, cs.CC, cs.LG, econ.TH]目的：多人数による逸脱インセンティブの最小化
- ゲーム理論は，経済学，政治学，生物学など幅広い分野で意思決定を分析する上で不可欠である。
- 従来の均衡概念では，小規模な集団による逸脱を防ぐことが難しく，安定性に課題がある。
- 集団逸脱に対するインセンティブを最小化することで，必ず存在する均衡概念を確立することを目指す。
- 平均的逸脱利得や，集団内最大利得を最小化するアプローチを提案し，その計算複雑性を解析した。
- 平均利得と最大利得の最小化問題に対し，計算量の下限を証明し，それと同等の複雑さを持つアルゴリズムを提示した。
- 提案手法を用いて，エクスプロイタビリティ厚生フロンティアを解決するための枠組みを構築した。
Link: https://arxiv.org/abs/2604.28186
視覚生成のための表現距離損失 [cs.CV]目的：視覚生成モデルにおける表現空間でのFréchet距離の最適化
- 画像生成モデルの性能向上は，コンピュータビジョンの重要な課題である。
- Fréchet距離は理論上有効だが，学習目的として最適化が困難であると考えられていた。
- 表現空間でのFréchet距離損失の最適化により，生成モデルの品質改善を目指す。
- 表現距離損失(FD-loss)を最適化することで，既存の生成モデルの視覚品質を改善できることが示された。
- FD-lossを用いることで，多段階生成器を教師なしで効率的な単段階生成器に変換できる。
- Inception FIDが必ずしも視覚品質を正確に反映しないため，多表現距離指標FDr$^k$を提案した。
Link: https://arxiv.org/abs/2604.28190
LaST-R1：VLAモデルのための適応的物理潜在的推論による行動の強化 [cs.RO, cs.CV]目的：VLAモデルにおける行動強化のための，適応的な物理潜在的推論の統合
- ロボットの複雑な操作において，ビジョン，言語，行動を統合したモデルの重要性が高まっている。
- 既存手法は，静的な模倣学習に依存し，適応性や汎化性能に限界があるという課題を抱えている。
- 物理的推論過程を最適化することで，VLAモデルのロバスト性と環境への適応力を向上させる。
- LaST-R1は，物理的ダイナミクスに関する潜在的なChain-of-Thought（CoT）推論を組み込み，行動実行前に最適化する。
- 提案手法LAPOは，潜在的推論過程と行動生成を同時に最適化し，物理世界モデルの表現力を高める。
- LIBEROベンチマークにおいて，99.8%という高い成功率を達成し，既存手法を大きく上回る収束速度と性能を示す。
Link: https://arxiv.org/abs/2604.28192
制約なし画像からの汎用的な疎視点3D再構成 [cs.CV]目的：制約なし画像からの疎視点3D再構成手法
- 実世界環境における3D再構成は，照明変化や一時的な遮蔽物などにより困難であり，その重要性が高い。
- 既存手法はシーン固有の最適化が必要で，疎な視点からの再構成や汎化性能に課題があった。
- シーン固有の最適化なしに，多様な照明や遮蔽パターンに対して汎化可能な再構成を目指す。
- GenWildSplatは，学習済みの幾何学的事前知識を用いて，深度，カメラパラメータ，3Dガウスを予測する前方ネットワークである。
- 照明条件に適応するアピアランスアダプターと，一時的な物体を扱うセマンティックセグメンテーションを導入した。
- PhotoTourismやMegaScenesにおける評価で，テスト時の最適化なしに最先端のレンダリング品質を達成した。
Link: https://arxiv.org/abs/2604.28193
HERMES++：3Dシーン理解と生成に向けた統合的な運転環境モデル [cs.CV]目的：3Dシーン理解と将来の幾何学的予測の統合
- 自動運転技術において，環境の動的シミュレーションは不可欠であり，その精度が安全性を左右する。
- 既存手法は将来のシーン生成に偏りがちで，包括的な3Dシーン理解が不足している。
- セマンティック解釈と物理シミュレーションの乖離を解消し，高精度な運転環境モデルを構築すること。
- HERMES++は，3Dシーン理解と将来の幾何学的予測を単一のフレームワークに統合することで，高い性能を実現した。
- BEV表現とLLMを活用した世界クエリにより，知識転移と時間的ギャップの解消に成功した。
- 幾何学的制約と潜在的な正則化を組み合わせたJoint Geometric Optimizationが，構造的整合性を担保している。
Link: https://arxiv.org/abs/2604.28196
OmniRobotHome：リアルタイム多者間人間ロボットインタラクションのためのマルチカメラプラットフォーム [cs.RO, cs.CV]目的：複数人間とロボットが共有する空間における協調作業の実現
- 家庭環境におけるロボット活用には，複数人との協調が不可欠であり，その研究が重要である。
- 従来のロボット研究は，人間とロボットの二者間または逐次的な協調に偏っており，複数者間の同時協調に関する研究は不足している。
- 本研究は，リアルタイムかつロバストな３Dトラッキング技術を基盤に，複数者間の協調作業を実験的に可能にすることを目指す。
- 本プラットフォームは，48台のRGBカメラを用いたリアルタイムな３D人間・物体認識と，２つのFrankaアームによる協調動作を実現する。
- 安全性確保と人間予測に基づくロボット支援という２つの課題に取り組み，リアルタイム認識と行動履歴蓄積が有効性を示す。
- 長期間の行動データ蓄積により，人間行動のモデリングを可能にし，より自然な協調作業の実現に貢献する。
Link: https://arxiv.org/abs/2604.28197
文化に触発されたマルチモーダルカラーパレット生成とカラライズ：中国の若者サブカルチャー事例 [cs.CV, cs.AI]目的：中国の若者サブカルチャーにインスパイアされたカラーパレット生成とカラライズ手法
- 色彩はグラフィックデザインの重要な要素であり，視覚的要素だけでなく文化的意味も持つ。
- 既存の研究では，アルゴリズムによるカラーパレット生成とカラライズにおいて，文化的側面が十分に考慮されていない。
- 中国の若者サブカルチャーの色彩特性を捉え，それらを用いたカラーパレット生成とカラライズを可能にすること。
- 中国の若者サブカルチャーに特有の色彩データセットを構築し，一般的な色彩理論とは異なる美的・意味的特徴を明らかにした。
- マルチモーダル生成フレームワークを開発し，中国の若者サブカルチャースタイルでのカラーパレット生成と画像カラライズを可能にした。
- 人間とアルゴリズムが相互にフィードバックするデモシステムを構築し，ユーザー調査によって生成結果を評価した。
Link: https://arxiv.org/abs/2102.05231
エッジコンピューティングデバイスにおける物体検出用ディープラーニングモデルのベンチマーク [cs.CV, cs.AR, cs.DC, cs.LG, cs.SE]目的：エッジデバイス上での物体検出モデルの効率と性能の評価
- 自動運転などの現代的なアプリケーションでは，リアルタイムな画像処理が不可欠であり，エッジデバイスでのAI処理が重要である。
- エッジデバイス上で動作する物体検出モデルの効率と性能に関する理解が不足している。
- エッジデバイス向けにディープラーニングモデルを選択する際の，精度・速度・エネルギー効率のバランスに関する指針を示す。
- YOLOv8 Mediumなどの高mAPモデルは，一般的にエネルギー消費量が多く，推論速度が遅い。
- SSD MobileNet V1などの低mAPモデルは，より省エネで高速な推論が可能である。
- Jetson Orin Nanoは，アイドル消費電力は高いものの，全体として最も高速かつエネルギー効率の良いデバイスである。
Link: https://arxiv.org/abs/2409.16808
極端な均衡：相関関係の利点 [econ.TH, cs.GT]目的：相関均衡におけるナッシュ均衡の改善可能性
- ゲーム理論は，経済学，政治学など幅広い分野で意思決定の分析に不可欠である。
- ナッシュ均衡は安定だが，必ずしも最適な結果をもたらすとは限らないという課題がある。
- 相関均衡を活用し，ナッシュ均衡の改善可能性を明らかにし，戦略的結果の向上を目指す。
- 3人以上のランダム化エージェントを持つナッシュ均衡は，一般的に改善可能であることが示された。
- パレート効率や功利厚生といった特定のゲームや目的関数において，改善方法が構築された。
- 相関関係が戦略的結果を向上させる上で重要な役割を果たすことが強調された。
Link: https://arxiv.org/abs/2604.27258
マルチソースリモートセンシング画像分類のための代表的なスペクトル相関ネットワーク [eess.IV, cs.CV]目的：マルチソースリモートセンシング画像の分類
- 土地被覆分類において，分光情報と構造情報の融合が重要である。
- 高次元ハイパースペクトル画像のスペクトル冗長性や，マルチソースデータの異質性が課題である。
- スペクトル選択と適応的な相互作用により，これらの課題を解決する。
- 提案手法RSCNetは，既存手法と比較して優れた分類性能を達成した。
- RSCNetは，計算複雑性を大幅に低減しつつ，高い性能を維持する。
- 重要なバンドを選択することで，冗長性を軽減し，情報損失を抑制する。
Link: https://arxiv.org/abs/2604.27323
ハイパースペクトル画像超解像のためのスペクトル動的注意ネットワーク [eess.IV, cs.CV]目的：ハイパースペクトル画像超解像性能の向上
- ハイパースペクトル画像は多様な分野で活用され，高空間分解能が求められている。
- 既存手法は，スペクトルの冗長性や非線形モデリング能力の限界により性能が制限される。
- スペクトル冗長性を抑制し，非線形表現能力を高めることで，超解像性能の向上を目指す。
- 提案手法SDANetは，動的チャネル疎注意モジュールにより，冗長なスペクトル情報を抑制する。
- 周波数強調型フィードフォワードネットワークにより，空間情報と周波数情報を同時にモデル化し，表現力を高める。
- ２つのベンチマークデータセットで，SDANetが最先端の超解像性能を達成した。
Link: https://arxiv.org/abs/2604.27326
経鼻的鼻腔内挿管におけるグロティスセグメンテーションのためのリアルタイム・スケールロバストネットワーク [eess.IV, cs.CV]目的：経鼻的鼻腔内挿管支援のためのグロティスセグメンテーション手法の開発
- 経鼻的鼻腔内挿管は，患者の気道確保において重要な臨床手技であり，その効率化が求められている。
- 既存のグロティス検出アルゴリズムは，複雑な解剖学的環境や不十分な照明条件，グロティスのスケール変化に対応が困難である。
- 本研究は，経鼻的鼻腔内挿管におけるグロティスのスケール変化に対応し，リアルタイムかつ高精度なセグメンテーションを実現する。
- 提案手法は，多重受容野特徴抽出モジュールにより，グロティスのスケール変化に対するロバスト性を実現した。
- 高度なラベル割り当て方法とサンプル数の再定義により，複雑な経鼻的鼻腔内挿管環境下での精度向上に貢献した。
- 3つのデータセットを用いた実験により，最先端アルゴリズムを凌駕し，mDice92.9%を達成，モデルサイズは19MB，推論速度は170fpsを超えた。
Link: https://arxiv.org/abs/2604.27383
DeepSpaceYoloDataset の拡張評価分割 [q-bio.NC, cs.RO, math.OC, cs.SY, eess.SY, astro-ph.IM, cs.CV]目的：DeepSpaceYoloDataset の評価分割の拡張
- 天文学の進歩とスマート望遠鏡の普及により，一般向け検出ソリューションの重要性が高まっている。
- 既存のデータセットでは，多様な画像に対するモデルの評価が不十分な場合がある。
- より多様な画像で検出モデルを評価するための新たな分割test2026を提供する。
- 本研究では，DeepSpaceYoloDatasetにtest2026という新しい評価分割を追加した。
- この分割により，より多様な画像セットを用いた検出モデルの評価が可能となる。
- 一般向けに利用可能な天体検出技術の向上に貢献するものと期待される。
Link: https://arxiv.org/abs/2604.27593
物理情報に基づいた垂直電波探査イオングラムのファジークラスタリング [physics.ao-ph, cs.CV, physics.data-an, physics.space-ph]目的：垂直電波探査イオングラムの自動的なトラック分離と最適なトラック数の決定
- 電波伝搬特性の理解は，通信やGPSなどの現代技術に不可欠であるため重要である。
- イオングラムの解釈は専門知識を要し，自動化が困難であった。
- イオン層の状態を正確に把握し，電波伝搬予測の精度向上を目指す。
- 本研究では，物理情報に基づいたファジークラスタリング手法を提案し，イオングラムを自動的にトラックに分離する。
- 提案手法は，トラック数が事前に不明な状況や，電波擾乱時にも適用可能である。
- 最適なトラック数は，修正されたベイズ情報量規準を用いて決定される。
Link: https://arxiv.org/abs/2604.27721
LRS-VoxMM：実環境における音声・映像同時音声認識のベンチマーク [eess.AS, cs.MM, cs.SD]目的：実環境における音声・映像同時音声認識のためのベンチマーク
- 近年，音声認識技術は様々な分野で活用が広がっており，その重要性は増している。
- 実環境の音声データはノイズや反響が多く，音声認識の精度を低下させる問題がある。
- 過酷な環境下でも音声認識の精度を向上させるための評価指標が求められている。
- LRS-VoxMMは既存のベンチマークよりも多様な状況と音響条件を網羅している。
- 実験結果から，LRS-VoxMMはLRS3よりも難易度が高く，音声信号が悪化するほど視覚情報の貢献が明らかになる。
- LRS-VoxMMはより現実的な音声・映像同時音声認識のベンチマークを可能にし，過酷な環境下での視覚情報の役割に関する研究を促進する。
Link: https://arxiv.org/abs/2604.27866
不確実性下におけるゲームの条件優越性 [cs.DM, cs.FL, math.GR, cs.GT]目的：不確実性下におけるゲームの正規形
- ゲーム理論は，経済学，政治学など幅広い分野で意思決定の分析に不可欠である。
- 不確実性下でのプレイヤーの合理的行動のモデル化は困難である。
- 動的ゲームにおける不確実性を考慮した合理的行動の概念を明確化すること。
- 本研究では，不確実性下における動的ゲームの正規形を導入し，条件優越性を用いた合理的行動の特性付けを行った。
- 拡張された正規形を用いることで，動的ゲームにおける合理的行動の概念が，ゲーム木の構造に依存することが示された。
- プレイヤーの情報集合が，考慮するノードだけでなく，認識するゲームツリー全体にも影響を与えることが明らかになった。
Link: https://arxiv.org/abs/2304.13901
継続的カテゴリ発見のための効果的なプロンプトプール学習 [cs.CV]目的：継続的カテゴリ発見におけるプロンプトプール学習手法
- 実世界では，データが継続的に変化するため，新しいカテゴリを自動的に識別する能力が重要である。
- 既存手法は，新しいカテゴリの学習と過去の知識の忘却とのバランスを取ることが難しい。
- 未知のカテゴリを継続的に発見し，既存の知識を維持する効率的な手法を開発する。
- 本研究では，ガウス混合プロンプトを用いてグローバルなクラスのプロトタイプに着目したPromptCCDを提案した。
- カテゴリ数こそが発見性能の主なボトルネックであり，より詳細な表現が必要であることを示した。
- オブジェクトの部品レベルのプロトタイプに着目したPromptCCD++を提案し，カテゴリ発見性能を向上させた。
Link: https://arxiv.org/abs/2407.19001
多結果因果グラフの視覚的分析 [cs.LG, cs.GR, cs.HC, stat.ME]目的：多結果因果グラフの視覚分析手法
- 医療分野において，多疾患併存や合併症の理解が重要であり，その分析に因果グラフが活用される。
- 複数の因果グラフを比較・分析する際の効率的な視覚化手法が不足している。
- 複数の因果グラフ間の差異や共通点を迅速に把握できる視覚化手法を開発すること。
- 複数の因果探索アルゴリズムを比較するための段階的な視覚化手法を提案した。
- 連続変数とカテゴリ変数を含む混合型データセットに対応し，単一の結果に対する調整された因果グラフの作成を支援する。
- 複数の因果グラフを迅速に比較するための比較グラフレイアウト技術と特殊な視覚エンコーディングを開発した。
Link: https://arxiv.org/abs/2408.02679
潜在意識イメージ計測に基づくヒプノパedia対応機械アンラーニング [cs.CR, cs.AI, cs.CV, cs.LG]目的：機械学習モデルにおけるバックドア攻撃に対する監視と除去
- AIの安全性確保は，社会実装における信頼性向上に不可欠である。
- AIモデルに潜むバックドアは，悪意ある操作を許し，重大な脅威となる。
- バックドアの検出・除去により，AIシステムの安全性を高めることを目指す。
- 提案手法は，バックドアの脅威を常に監視するサイバネティックフレームワークを提供する。
- 統計的推論とモデル反転により，バックドア感染の可能性を推定する。
- 知識の忠実性とバックドア脆弱性の間の安定した均衡状態を維持する。
Link: https://arxiv.org/abs/2410.05284
拡散モデルを用いた画像インペインティング：変分推論によるVIPaint [cs.CV, cs.AI, cs.LG]目的：拡散モデルを用いた画像インペインティング手法
- 画像生成技術は，現実世界の多様なデータを再現可能にするため，重要な研究分野である。
- 拡散モデルによる画像インペインティングは，特に大きな欠損領域において，真の条件付き分布からのサンプリングが困難である。
- 真の拡散事後分布の非ガウスマルコフ近似を最適化し，高品質な補完を実現する。
- 提案手法VIPaintは，既存のインペインティング手法を凌駕し，高品質かつ多様な画像を生成する。
- 特に，最先端のテキスト条件付き潜在拡散モデルにおいても有効に機能する。
- デブラーリングや超解像といった他の逆問題に対しても効果が確認された。
Link: https://arxiv.org/abs/2411.18929
動的ニューラルネットワークの調査：コンピュータビジョンからマルチモーダルセンサーフュージョンへ [cs.CV]目的：動的ニューラルネットワークに関する既存研究の統合と体系化
- 大規模なコンピュータビジョンモデルを組み込み機器に展開する上で，モデル圧縮は不可欠である。
- 静的な最適化手法では，入力ごとの複雑性の違いが考慮されず，過剰な計算が必要となる場合がある。
- 入力に応じて計算量を調整する動的ニューラルネットワークの活用により，効率的な処理を目指す。
- 本調査では，コンピュータビジョンにおける動的ニューラルネットワーク研究を包括的に整理し，体系的な分類を提示する。
- ネットワークの適応部分（出力，計算グラフ，入力）に基づいた論理的な分類を提案する。
- センサーフュージョンにおける動的ニューラルネットワークの利点を示し，適応性，ノイズ除去，情報優先度付けの向上を議論する。
Link: https://arxiv.org/abs/2501.07451
TeD-Loc：弱教師あり物体位置推定のためのテキスト蒸留 [cs.RO, cs.SY, eess.SY, cs.DM, cs.CC, math.CO, cs.CV, cs.LG]目的：弱教師あり物体位置推定における性能向上
- 画像認識の精度向上は，自動運転や医療診断など幅広い分野で重要である。
- 従来の弱教師あり物体位置推定は，物体の識別可能な領域に集中し，全体を捉えきれない。
- CLIP等の事前学習モデルの知識を効率的に利用し，高精度な位置推定を実現する。
- 提案手法TeD-Locは，CLIPのテキスト埋め込みからパッチ埋め込みへの知識伝達により，前景・背景の局所化を可能にする。
- CUBとILSVRCベンチマークにおいて，Top-1 Locが約5%向上し，病理組織画像ベンチマークではPxAPが約31%向上した。
- TeD-Locは，GenPromptと比較してより効率的な推論が可能である。
Link: https://arxiv.org/abs/2501.12632
生成AIにおける思考連鎖推論を用いた敵対的幻覚に対する模倣ゲーム [cs.AI, cs.CR, cs.CV]目的：敵対的幻覚に対する防御フレームワーク
- 機械知覚はAIの基盤であり，その安全性確保は重要である。近年，敵対的攻撃による幻覚が脅威となっている。
- 従来の防御策は特定の攻撃に特化しており，多様な攻撃への汎用性に課題がある。
- 思考連鎖推論に基づいた模倣ゲームにより，多様な敵対的幻覚を統一的に防御することを目指す。
- 提案手法は，演繹的および帰納的な敵対的幻覚に対して，一貫して効果を発揮することが示された。
- 本フレームワークは，多様なホワイトボックスおよびブラックボックス攻撃シナリオにおいて有効である。
- 模倣ゲームは，サンプルを元の状態に戻すのではなく，その意味的エッセンスを再構築することで防御を実現する。
Link: https://arxiv.org/abs/2501.19143
VerteNet -- 側方脊椎DXA画像における正確な椎骨ランドマーク位置検出のためのマルチコンテキストハイブリッドCNNトランスフォーマー [cs.CV]目的：側方脊椎DXA画像における椎骨ランドマークの正確な位置検出
- 骨折評価や腹部大動脈石灰化の評価において，正確な椎骨ランドマークの位置検出は不可欠である。
- DXA画像はコントラストが低く，アーチファクトの影響を受けやすく，メーカー依存性があるため，ランドマークの正確な検出が困難である。
- 異なるDXAスキャナーモデルからの画像に対して，ロバストな椎骨ランドマーク位置検出を実現し，臨床応用を支援すること。
- 提案フレームワークは4種類のDXAスキャナーモデル全てにおいて，優れた位置検出精度を達成した。
- 正規化平均誤差は4.92ピクセル，中央値誤差は2.35ピクセルであり，ベースライン手法を上回る結果が得られた。
- 腹部大動脈のクロップ検出アルゴリズムは，検証において100%の精度，独立テストセットにおいて96%の精度を示した。
Link: https://arxiv.org/abs/2502.02097
AI生成コンテンツにおける画像生成を伴わない悪意のある概念の検出 [cs.RO, cs.CR, cs.CV]目的：悪意のある概念の検出
- AI生成コンテンツの利用拡大に伴い，悪意のある概念によるリスクが増大しているため。
- 悪意のある概念が，無害な説明文や画像で隠蔽され，拡散される可能性があるため。
- 画像生成を伴わずに，効率的に悪意のある概念を検出する手法を確立すること。
- 提案手法Concept QuickLookは，概念ファイルのみを用いて悪意のある概念を検出できる。
- 概念一致とファジー検出という2つの運用モードにより，高い検出精度と実用性を示した。
- 本研究は，悪意のある概念検出タスクの推進と，プラットフォームへの応用可能性を示唆する。
Link: https://arxiv.org/abs/2502.08921
生成的な人体形状分布 [cs.HC, cs.CV]目的：現実的な人体形状の生成
- 衣服の細部と人体との相互作用を忠実に再現する人体形状生成は重要である。
- 単一の人体形状分布を大規模データセットに拡張することは困難である。
- 大規模学習に適した，効率的な人体形状分布モデルの構築。
- 提案手法は，既存手法と比較して形状品質で57%の改善を達成した。
- 2D特徴マップによる分布のエンコードとSMPLモデルの活用により，効率的な生成を実現した。
- 拡散フローモデルとフローモデルの2段階トレーニングパラダイムを採用した。
Link: https://arxiv.org/abs/2503.01448
Primus：3D医療画像セグメンテーションにおけるアテンション使用の強制 [cs.CV]目的：3D医療画像セグメンテーションのためのTransformer中心のアーキテクチャの提案
- 医療画像解析は，疾患診断や治療計画において不可欠であり，高精度なセグメンテーション技術が求められている。
- Transformerは他の分野で成功しているが，3D医療画像セグメンテーションでは，従来のCNNに比べて性能が低い場合が多い。
- Transformerの有効性を最大限に引き出す，Transformer中心のアーキテクチャを開発し，セグメンテーション精度を向上させる。
- 提案手法PrimusおよびPrimusV2は，既存のTransformerベースの手法を上回り，nnU-Netと同等の性能を示す。
- PrimusV2は，ResEnc-LやMedNeXtなどの最先端CNNと比較して遜色ない性能を9つの公開データセットで達成した。
- 本研究は，3D医療画像セグメンテーションにおいてTransformerを最先端技術とする初のモデルを提示する。
Link: https://arxiv.org/abs/2503.01835
ナイフを持つ女性か，女性を持つナイフか？画像キャプションにおける方向性バイアス増幅の測定 [cs.CV, cs.AI]目的：画像キャプションにおける方向性バイアス増幅の測定
- データセットのバイアスはモデルに学習され，社会的な偏見を助長する可能性があるため，その評価が重要である。
- 既存のバイアス増幅指標は分類データに特化しており，言語的な意味合いを捉えられないため，画像キャプションには適用が難しい。
- キャプションモデルがバイアスをどのように増幅させているかを特定する指標を開発し，その問題を解決することを目指す。
- 本研究では，言語を考慮し，バイアスの増幅を特定できる新たな指標DBACを提案した。
- DBACは，既存指標LICと比較して，文エンコーダへの依存性が低く，より正確なバイアス増幅の推定が可能である。
- COCOデータセットでの実験により，DBACが画像キャプションにおけるバイアス増幅を測定するための信頼性の高い指標であることが示された。
Link: https://arxiv.org/abs/2503.07878
盲人・視覚障碍者向けガイダンスを考慮した実世界一人称視点マルチモーダルデータセットGuideDog [cs.CV]目的：盲人・視覚障碍者の移動支援のためのデータセット
- 世界で22億人以上が視覚障碍を抱え，安全で自立した移動は重要な課題である。
- アクセシビリティを考慮したデータセットが不足しており，専門家による労力のかかるアノテーションが必要となる。
- 専門家の基準に基づき，AIを活用してアノテーションの検証に重点を置き，データセットの作成を効率化する。
- GuideDogは，46カ国での歩行シーンを捉えた2万2千組の画像・説明ペア（うち2千組は人間が検証）から構成される。
- GuideDogQAは，物体認識と奥行き知覚を評価するための818サンプルからなるベンチマークである。
- 現在のMLLMは，奥行き知覚やBLVガイダンス基準への準拠において課題が残る。
Link: https://arxiv.org/abs/2503.12844
TranSplat：ガウススプラッティングによる瞬間オブジェクト再照明 - 球面調和放射伝達による実現 [cs.CV]目的：ガウススプラッティングフレームワークにおける瞬間的かつ正確なオブジェクト再照明
- 近年の3D表現において，ガウススプラッティングは高品質なレンダリングを高速に実現する手法として注目されている。
- 従来の再照明手法は計算コストが高く，リアルタイムな適用が困難であった。
- 環境光の変化に対応した迅速かつ高品質なオブジェクト再照明を実現する。
- TranSplatは，高価な逆レンダリングルーチンに依存せず，球面調和（SH）係数を用いたBRDFフリーの放射伝達戦略を用いる。
- 特に，鏡面反射を考慮したデュアルパスSH伝達戦略とSHドメインの自己影モジュールにより，写実的なレンダリングを実現する。
- GSの再学習を必要とせず，一秒未満で再照明を完了する。合成データと実世界のオブジェクトで最先端の結果を達成した。
Link: https://arxiv.org/abs/2503.22676
ファインチ grained 画像タスクにおける大規模ビジョン-言語モデルのベンチマーク：包括的評価 [cs.CV]目的：大規模ビジョン-言語モデルのファインチ grained 画像タスクにおける性能評価
- 画像認識はコンピュータビジョンの根幹であり，AI技術の発展に不可欠である。
- 既存の評価研究では，ファインチ grained 画像タスクへのLVLMの適用が十分に検討されていない。
- LVLMのファインチ grained 画像タスクにおける課題を明らかにし，今後のモデル開発に貢献する。
- 本研究では，101万個の質問と33万枚の画像を含む包括的なベンチマークFG-BMKを構築した。
- 12種類のLVLM/VLMを評価した結果，学習パラダイムやモダリティアライメントが性能に大きく影響することが明らかになった。
- 現在のLVLMの限界を明らかにし，より高度なLVLMの開発に向けた指針を提示する。
Link: https://arxiv.org/abs/2504.14988
スパースデータに対する周波数適応型離散コサイン変換-ViT-ResNetアーキテクチャ [cs.CL, cs.CV]目的：希少動物画像分類におけるデータ不足への対応
- 生物多様性の保全活動において，個体数の少ない動物種の識別は重要である。
- 学習データが少ない場合，深層学習モデルの性能が低下する問題がある。
- 周波数領域の適応的選択と空間領域の特徴抽出を組み合わせ，少ないデータでも高精度な分類を目指す。
- 提案手法は，適応的なDCTパーティショニングにより画像周波数領域の特徴を捉える。
- ViT-B16とResNet50を組み合わせ，グローバルな文脈とローカルな空間表現を同時に抽出する。
- 構築した野生動物データセットにおいて，従来のCNNや固定バンドDCTパイプラインを上回る精度を達成した。
Link: https://arxiv.org/abs/2505.22701
テスト時蒸留による継続的なモデル適応 [cs.CV]目的：継続的なモデル適応のためのテスト時蒸留フレームワークの提案
- 深層学習モデルの配備後の性能劣化は，分布シフトによって頻繁に発生する重要な課題である。
- 既存の自己教師あり学習に基づく継続的なテスト時適応手法は，初期予測誤差を増幅する自己参照的なフィードバックループを起こしやすい。
- 汎用的な知識を持つVLMの知識の偏りや信頼性の低い信頼度指標を克服し，安定した適応を実現することを目指す。
- 提案手法CoDiReは，VLMとターゲットモデルの予測を動的に融合し，信頼性の高い指標を用いて教師信号を構築することで，性能劣化を抑制する。
- 最適な輸送に基づく予測の修正により，ブレンドされた教師信号への適応を促進し，継続的かつ安定した適応を可能にする。
- ImageNet-Cにおいて，既存手法CoTTAを10.55%上回り，計算コストを48%削減する優れた性能を示す。
Link: https://arxiv.org/abs/2506.02671
視覚言語モデルは頭の向きと視線の方向を混同する：非言語的な会話の合図 [cs.CV, cs.CL]目的：視線誘導の推論性能評価
- 人間は視線を通じて情報を伝達し，円滑なコミュニケーションに不可欠である。
- 視覚言語モデルは，人間の視線理解において十分な性能を発揮していない。
- 視覚言語モデルが頭の向きに過度に依存する問題を特定し，改善策を探る。
- 視覚言語モデルは，人間と比較して視線誘導の推論において大きな性能差が見られた。
- この性能差の原因は，モデルが視線の方向を推定する際に目の外見よりも頭の向きを優先することにある。
- この偏りは，学習データに起因する可能性が示唆され，ファインチューニングによりある程度改善された。
Link: https://arxiv.org/abs/2506.05412
動画LLMにおけるおべっか行為：ベンチマークと分析 [cs.CL, cs.AI, cs.CV]目的：動画LLMにおけるおべっか行為の評価と軽減
- 現実世界での応用において，動画LLMの信頼性は不可欠であるため，その整合性と信頼性を確保することが重要である。
- 動画LLMにおけるおべっか行為は未だ十分に研究されておらず，体系的な評価指標や分析が不足している。
- 誤解を招くようなユーザー入力に対して動画LLMがどのように反応するかを理解し，おべっか行為を軽減する。
- VISEは，様々な質問形式，プロンプトのバイアス，視覚的推論タスクにおいて，最新の動画LLMのおべっか行為を評価するための初のベンチマークである。
- VISEは，言語学的な視点をおべっか行為研究に取り入れ，動画ドメインにおける詳細な分析を可能にする。
- 解釈可能なキーフレーム選択による視覚的根拠の強化や，推論時の内部表現への介入といった，トレーニング不要な軽減策が提案された。
Link: https://arxiv.org/abs/2506.07180
位置的目標の無限辞書積 [cs.GT]目的：位置的決定性の無限期間ゲームの研究
- ゲーム理論は，人工知能や検証などの分野で重要な役割を果たす
- 無限ゲームの決定性問題は未解決の部分が多く残されている
- 位置性の保存に関する研究を拡張し，より複雑なゲームを解析する
- 本研究では，無限辞書積が位置性を保存することを証明した。
- この結果は，Max-ParityおよびMin-Parityゲームの決定性に関する既存の結果を拡張する。
- Max-ParityおよびMin-Parity目標の完全性を示すことで，新しい位置的言語を得た。
Link: https://arxiv.org/abs/2506.14544
OR-VSKC：合成データ誘導アラインメントによる手術室における視覚的・意味的知識の対立解消 [cs.CV, cs.AI]目的：手術室における視覚的・意味的知識の対立とその解消
- 患者の転帰改善には，手術の安全リスクを自動的に特定することが不可欠である。
- 大規模マルチモーダル言語モデルは，安全に関する知識を持ちながらも，視覚的な検査時にそれを活用できないという視覚的・意味的知識の対立に苦しむ。
- 手術室の厳格な規制環境下における視覚的・意味的知識の対立を評価するためのベンチマークデータセットを構築し，リスク認識能力向上を目指す。
- OR-VSKCは，28,190枚の高忠実度合成画像と713枚の専門家による検証済みチャレンジセットを含む，手術室環境下での視覚的・意味的知識の対立を研究するためのベンチマークである。
- 最先端のMLLMの評価により，高度な汎用モデルでも信頼性のギャップが明らかになった。
- OR-VSKCでのファインチューニングは，視覚的・意味的知識の対立を軽減し，未知の視点へのロバストな一般化を可能にすることが示された。
Link: https://arxiv.org/abs/2506.22500
AutoVDC：Vision-Languageモデルを用いた自動視覚データクリーニング [cs.CV, cs.AI, cs.LG, cs.RO]目的：自動運転システムの学習に必要な視覚データの誤りを特定し，データ品質の向上
- 自動運転の信頼性向上には，大量の高品質な学習データが不可欠である。
- アノテーション作業は人的ミスが発生しやすく，品質向上のための修正に労力とコストがかかる。
- Vision-Languageモデルを活用し，アノテーション誤りを自動で検出し，データクリーニングを効率化する。
- 提案手法AutoVDCは，KITTIおよびnuImagesデータセットにおいて高い誤り検出率を示した。
- 異なるVision-Languageモデルの性能を比較し，ファインチューニングの効果も検証した結果，高い性能が確認された。
- 大規模な自動運転学習データセットの信頼性と精度向上に貢献できる可能性が示された。
Link: https://arxiv.org/abs/2507.12414
航空・UAV測量における誤差伝播を通じた不確実性定量化フレームワーク [cs.CV]目的：航空・UAV測量の不確実性定量化
- 点群の精度保証には不確実性評価が不可欠であり，多様な応用における信頼性向上に貢献する。
- 従来の航空レーザー測量と比較し，写真測量では対象物の形状によって精度が左右されやすい。
- 写真測量の二段階プロセス全体を考慮した，ロバストかつ検証可能な不確実性定量化を実現する。
- SfM-BA段階に加え，これまで課題であったMVS段階における誤差共分散行列を推定するフレームワークを提案。
- MVS段階の不確実性を，信頼性の高い点群と特徴量を用いて自己校正的に回帰する手法を開発。
- 提案手法は既存手法と比較して，過小評価を抑制しつつ高い信頼度で不確実性を定量化できることを実証。
Link: https://arxiv.org/abs/2507.13486
合成メディアにおける説明可能な推論のための特徴的な透かし [cs.NI, cs.CR, cs.AI, cs.CV]目的：合成メディアの生成過程の追跡
- 人工知能の進化により合成メディアが増加し，サイバー空間における信頼が損なわれている。
- デジタル画像の編集技術が高度化し，フォレンジック分析が困難になっている。
- 合成メディアの変換履歴を明らかにし，改ざんの有無や意図を特定することを目指す。
- 特徴的な透かしを導入することで，メディア変換の種類と程度を推定可能になった。
- 透かしは，頑健性や脆弱性といった従来の基準ではなく，解釈可能性を重視して設計された。
- 実験評価により，特徴的な透かしの忠実性，同期性，トレーサビリティが検証された。
Link: https://arxiv.org/abs/2509.05753