arXiv雑要約

画像・音声 - 2026/04/30 公開

大規模視覚言語モデルの正直性を高めるための知識境界の明確化 [cs.CV, cs.AI]目的：大規模視覚言語モデルにおける知識境界の明確化
- 視覚と言語を統合したAIモデルの性能向上は，様々な応用分野での発展に不可欠である。
- 既存モデルは，特に専門分野や希少な情報において，事実に基づかない誤った情報を生成しやすいという課題がある。
- モデルが自身の知識範囲を超えた質問に対して，正直に回答を拒否する能力を高めることを目指す。
- 提案手法により，モデルの「真実を述べる割合」が57.9%から67.3%に向上した。
- 内部調査の結果，モデルが単なる拒否パターンを記憶するのではなく，自身の知識境界を認識していることが示された。
- 本フレームワークは，医療や知覚といった異なる分野にも適用可能であり，より信頼性の高い視覚アシスタントの実現に貢献する。
Link: https://arxiv.org/abs/2604.26419
量子に着想を得たチャネル混合による軽量な物体検出：QYOLO [eess.SY, cs.SY, cs.IR, cs.CV, cs.AI, cs.ET]目的：物体検出におけるパラメータ削減と計算量の低減
- リアルタイムな画像認識において，物体検出技術は不可欠であり，その効率化が求められている。
- 既存の物体検出モデルのバックボーン層はパラメータ数が多く，計算コストが高いという課題がある。
- バックボーン層のチャネル混合に量子的なアプローチを導入し，パラメータ数と計算量を削減することを目指す。
- QYOLOは，バックボーン層の特定のモジュールを量子に着想を得たQMixBlockに置き換えることで，モデルのパラメータ数を20.2%削減した。
- QYOLOは，GFLOPsを12.3%削減し，mAP@50のわずかな低下(0.4pp)を伴う。
- 知識蒸留を用いることで，圧縮を維持しつつ，精度の低下を解消することが可能となった。
Link: https://arxiv.org/abs/2604.26435
データ拡張とセグメンテーションは常に必要か？COVID-19 X線画像からの考察と手法 [cs.CV]目的：COVID-19 X線画像を用いた分類におけるデータ拡張とセグメンテーションの必要性に関する考察
- 呼吸器疾患の迅速かつ正確な診断は重要であり，AI技術を用いたX線画像解析が不可欠である。
- 既存研究では肺セグメンテーションが行われていない場合が多く，診断の信頼性に懸念がある。
- 過剰なデータ拡張による過学習を防ぎ，より汎用性の高いモデル構築を目指す。
- X線画像とヒートマップの分析から，正確なCOVID-19予測には肺セグメンテーションが不可欠であることが示された。
- データ拡張の度合いが増加するとテスト精度が低下し，過学習が発生することが確認された。
- 提案手法SDL-COVIDは95.21%の精度と低い偽陰性率を達成し，COVID-19検出の信頼性を確保する。
Link: https://arxiv.org/abs/2604.26437
属性誘導型マルチモーダル深偽検出：クロスモーダルフォレンジックフィンガープリントによる [cs.CV]目的：深偽動画の検出と，その生成手法の特定
- メディアの信頼性確保は重要であり，特に映像の改ざんは社会に深刻な影響を及ぼす。
- 従来の深偽検出手法は，データセット特有のアーティファクトに依存し，汎化性能が低い。
- 生成手法の特定を通じて，よりロバストな深偽検出を実現することを目指す。
- 提案手法AMDDは，FakeAVCelebデータセットにおいて，99.7%のバランスアキュラシーと99.8%のAUCを達成した。
- AMDDは，クロスデータセット評価においても高い汎化性能を示したが，未知の生成器による偽動画の検出は課題として残る。
- クロスモーダルフォレンジックフィンガープリントの一貫性損失（CMFFC）が，視覚と聴覚間の整合性を高める上で有効であることが示された。
Link: https://arxiv.org/abs/2604.26453
DINOv3における最終層中心の特徴再結合：単眼深度推定のための3次元幾何学的知識の解放 [cs.CV]目的：単眼深度推定における精度向上
- 単眼深度推定は，コンピュータビジョンの基礎課題であり，自動運転やロボット工学等の応用が期待される。
- 既存手法では，transformerの層を均等にサンプリングするため，3次元情報が層間で不均一に分布している点を考慮できていない。
- DINOv3の層構造を分析し，最終層を中心とした特徴再結合により，幾何学的表現力を高めることを目指す。
- DINOv3の層分析により，深い層ほど深度予測性能が高く，サンプル間の幾何学的変化を捉える能力に優れていることが示された。
- 最終層を幾何学的アンカーとして，類似度の低い層を適応的に選択し，最終層の特徴と融合するLFRモジュールを提案した。
- LFRモジュールは，単眼深度推定の精度を改善し，最先端の性能を達成した。
Link: https://arxiv.org/abs/2604.26454
PKS⁴：効率的な動画理解のための並列キネマティック選択的状態空間スキャナ [cs.CL, cs.CV]目的：効率的な動画理解のための手法
- 動画理解は重要な課題であり，特に長いシーケンスにおける計算コストが課題となっている。
- 既存手法では，計算コストが高く，メモリ消費量も大きいという問題点が存在する。
- PKS⁴は，計算コストとメモリ消費量を削減しつつ，高精度な動画理解を実現することを目指す。
- PKS⁴は，標準的な2D画像バックボーンと線形複雑度を持つ時間スキャンモジュールを組み合わせることで，効率的な動画理解を可能にする。
- キネマティック事前情報を活用し，空間構造を維持しながら時間的な情報を効率的に処理する並列スキャナを導入した。
- 実験の結果，PKS⁴は最先端の性能を達成し，従来の動画SSMと比較して訓練計算量を大幅に削減することが示された。
Link: https://arxiv.org/abs/2604.26461
長期スキャンされた金融文書からの多段階抽出パイプライン：産業におけるKYCワークフローにおける実証研究 [cs.CV]目的：長期スキャンされた金融文書からの構造化情報抽出
- 金融文書の処理は，コンプライアンス遵守やリスク管理において不可欠であり，業務効率化が求められている。
- スキャンされた文書は，文字認識の精度が低く，多言語対応が難しく，構造化された情報抽出が困難である。
- 複雑な複数ページの文書から正確に情報を抽出し，KYCワークフローの効率と信頼性を向上させる。
- 提案する多段階抽出パイプラインは，従来のPDF-to-VLMベースラインと比較して，フィールドレベルの精度を最大31.9%向上させた。
- PaddleOCRとMiniCPM2.6の組み合わせが最も高い精度(87.27%)を示し，特に複雑な財務諸表や非英語文書において効果を発揮した。
- ページレベルでの検索がパフォーマンス向上に大きく貢献し，画像前処理，多言語OCR，VLMを組み合わせることで信頼性の高い抽出が可能となった。
Link: https://arxiv.org/abs/2604.26462
汎用性のある音声ディープフェイク検出に向けた拡散再構成 [cs.SD]目的：音声ディープフェイク検出における汎用性の向上
- 音声技術の発展に伴い，悪意のある音声偽造が深刻化しており，検出技術の重要性が増している。
- 既存の検出手法は，未知の攻撃に対して頑健な汎用性を持ちにくいという課題がある。
- 困難なサンプルを識別する能力を高めることで，未知の攻撃に対する汎用性を向上させる。
- 拡散モデルを用いた再構成が，困難なサンプル生成に最適であることが示された。
- 多層特徴集約と正則化支援対照学習（RACL）により，汎用性が向上することが確認された。
- 提案手法は，ベースラインと比較して平均等価エラー率（EER）を大幅に低減した。
Link: https://arxiv.org/abs/2604.26465
ハイパースペクトル基礎モデルのドメイン間転移 [eess.SY, cs.SY, cs.CV]目的：ハイパースペクトル画像セマンティックセグメンテーションにおける性能向上
- ハイパースペクトル画像は多様な分野で活用され，高精度な解析が求められている。
- 十分な学習データがない場合，モデルの性能が低下し，実用化が困難となることがある。
- リモートセンシングで学習済みのモデルを近接センシングに応用し，データ不足を克服する。
- ドメイン間転移は，従来のドメイン内学習や同一モダリティ学習よりも高い性能を示すことが示された。
- 既存のクロスモダリティ転移手法との性能差を縮小しつつ，シンプルなアーキテクチャを維持している。
- 限られたデータ条件下でも堅牢な性能を維持し，多様な応用への貢献が期待される。
Link: https://arxiv.org/abs/2604.26478
動的な3Dシーンにおけるピクセル特徴量化と線形文脈学習 [cs.CY, cs.IR, cs.CV, cs.LG]目的：動的3Dシーンのピクセルレベルにおける特徴表現
- 視覚モデルの応用範囲は広く，ピクセルレベルでの推論が重要である。
- 既存手法では，動的要素やピクセルレベルの稠密な予測に対応できない。
- 視覚シーンの空間・時間的特性を効果的に捉えるピクセル特徴量表現を学習する。
- 提案手法LILAは，線形文脈学習を用いて，動画からピクセル精度の特徴記述子を学習する。
- LILAは，市販のネットワークで推定された奥行きや動きといった空間・時間的キューマップを活用する。
- 動画物体セグメンテーション，法線ベクトル推定，意味的セグメンテーションといった様々なタスクで有効性が確認された。
Link: https://arxiv.org/abs/2604.26488
ロバストアライメント：敵対的学習におけるクリーン精度と敵対的頑健性の調和 [cs.CV]目的：敵対的学習におけるクリーン精度と敵対的頑健性のトレードオフ緩和
- 深層学習モデルのセキュリティ確保は重要であり，特に敵対的攻撃に対する頑健性が求められる。
- 敵対的学習は有効だが，クリーン精度と敵対的頑健性の間にトレードオフが存在する。
- 入力と潜在空間の不整合を解消し，精度と頑健性の両立を目指す。
- 本研究では，敵対的学習における入力摂動の強度がモデルの頑健性に与える影響が小さいことを発見した。
- 入力と潜在空間の不整合が，精度と頑健性のトレードオフの主要因であることを特定した。
- 新しい敵対的学習ターゲットであるロバストアライメントを定義し，RAAT手法を提案することで，精度と頑健性の調和を実現した。
Link: https://arxiv.org/abs/2604.26496
デルタスコアが重要である！拡散モデルにおける空間適応型マルチガイダンス [cs.CV]目的：拡散モデルにおける詳細とアーティファクトのジレンマの解決
- 拡散モデルは画像や動画の生成において目覚ましい成果を上げており，その発展は重要な研究分野である。
- 従来のClassifier-Free Guidanceは一様なスケーリングを用いるため，詳細の欠如や構造劣化といった問題が生じていた。
- 本研究は，幾何学的な解析に基づき，空間適応的なガイダンスによって上記の問題を解決することを目指す。
- 本研究で提案するSpatial Adaptive Multi Guidance (SAMG) は，追加の計算コストなしに，詳細な微細構造を保持しつつ，セマンティックな整合性を向上させる。
- SAMGは，エネルギーの高い領域ではガイダンスを抑制し，エネルギーの低い領域では強化することで，最適な生成軌道を実現する。
- 様々な画像・動画生成モデル (SD 1.5, SDXL, SD3.5 Medium, CogVideoX, ModelScope) において，SAMGの有効性が確認された。
Link: https://arxiv.org/abs/2604.26503
効率的なエッジクラウドVision-Languageモデルのための漸進的意味通信 [cs.LG, cs.AI, cs.CV, cs.DC, cs.NI]目的：エッジクラウドVision-Languageモデルの効率的な推論のための漸進的意味通信フレームワーク
- Vision-Languageモデルは高度な処理能力を持つが，リソース制約のあるエッジデバイスでの利用が課題である。
- 帯域幅制限下では，クラウドへの完全なオフロードも遅延が大きいため，現実的でない場合が多い。
- 動的なネットワーク状況に適応し，意味的な冗長性を活用することで，遅延を削減し，効率を向上させる。
- 提案手法は，1Mbpsのアップリンクにおいて，従来のフルエッジおよびフルクラウドソリューションと比較して，ネットワーク遅延を大幅に削減できる。
- 高圧縮下でも高い意味的一貫性を維持することが実験的に示された。
- オフザシェルフのVLMsとプラグアンドプレイで連携可能であり，追加のファインチューニングは不要である。
Link: https://arxiv.org/abs/2604.26508
具現化AIとロボットシミュレーションのための3D生成：サーベイ [cs.RO, cs.CV]目的：具現化AIおよびロボットシミュレーションにおける3D生成技術の現状と課題
- 具現化AIの発展には，現実世界を忠実に再現したシミュレーション環境が不可欠である。
- 既存の3D生成技術は視覚的なリアリズムに偏重し，物理的な相互作用やタスク実行に必要な情報を十分に含んでいない。
- 具現化AIとロボット工学におけるシミュレーションと現実世界間のギャップを埋めるための3D生成技術の発展を目指す。
- 本サーベイは，具現化AIにおける3D生成の役割をデータ生成，シミュレーション環境構築，Sim2Realブリッジの3つの視点から整理した。
- 研究分野は視覚的なリアリズムから相互作用の準備へとシフトしており，物理的なアノテーションの不足が課題として挙げられる。
- 幾何学的な品質と物理的な妥当性の間のギャップ，評価の断片化，Sim2Realの壁といったボトルネックの解消が重要である。
Link: https://arxiv.org/abs/2604.26509
MTCurv: ノイズのある蛍光顕微鏡画像における直接的な微小管曲率マッピングのための深層学習 [cs.CV, q-bio.CB]目的：微小管の曲率マップの直接的な回帰
- 細胞力学や疾患関連形態変化の理解には，曲線状の生体構造の正確な定量が不可欠である。
- 蛍光顕微鏡画像からの信頼性の高い曲率抽出は，ノイズや低いコントラスト，部分的なフィラメント可視性により困難である。
- セグメンテーションに依存しない深層学習フレームワークにより，ノイズ下での正確な微小管曲率マッピングを可能にすること。
- MTCurvは，セグメンテーションなしで微小管曲率マップを直接回帰する深層学習フレームワークである。
- 勾配を考慮した損失関数と，残差符号化，注意機構に基づくデコーディングが，曲率予測の精度向上に貢献する。
- 相関係数に基づく評価指標，特にSpearmanの相関係数が，曲率予測品質の信頼できる指標として有効であることが示された。
Link: https://arxiv.org/abs/2604.26517
微構造均質化のための幾何学的マルチグリッドトランスフォーマーソルバー [cs.GR, physics.comp-ph]目的：格子メタマテリアルの有効特性の高速かつ信頼性の高い均質化
- 格子メタマテリアルは軽量かつ多機能な構造を可能にするが，その評価には高い計算コストが伴う。
- 従来の均質化手法は，特に高解像度において計算時間がかかるという課題がある。
- ニューラルネットワークを用いた代替手法の精度と安定性を向上させ，より実用的なソルバーを開発する。
- GMTは，幾何学的マルチグリッド（GMG）の構造に沿ってPoint Transformer V3を再構築し，長距離依存性とレベル間の相互作用を捉える。
- 物理的整合性を確保するため，GMTは周期性を厳密に強制する物理情報に基づいた位置エンコーディングを取り入れている。
- 最先端のGPUベースソルバーと比較して，160倍の高速化と10の-5乗の相対残差誤差を実現し，特に高解像度で優れた性能を示す。
Link: https://arxiv.org/abs/2604.26518
GIFGuard：顔GIFにおける時空間ウォーターマーキングによるディープフェイク対策 [cs.CV]目的：顔GIFに対するディープフェイクの能動的フォレンジック技術
- SNS普及に伴いGIF画像が重要視される一方，その改ざん検出は困難である。
- 既存のフォレンジック技術は静止画像向けであり，GIFのような動画形式には適用しづらい。
- GIF画像に耐改ざん性を付与し，ディープフェイクを事前に検知する技術を確立する。
- 提案手法GIFGuardは，高画質を維持しつつ，ディープフェイクに対する高い堅牢性を示す。
- 時空間適応残差エンコーダ(STARE)により，高次の意味的改ざんに対する耐性を実現。
- 大規模GIFフォレンジックベンチマークデータセットGIFfacesを構築し，研究を促進。
Link: https://arxiv.org/abs/2604.26519
3D-LENS：単一視点からの空地再識別における3Dリフティングに基づく新規視点画像合成法 [cs.CV]目的：単一視点からの空地再識別における新規視点画像合成
- 空地再識別は，監視や救助活動において重要な役割を担う技術である。
- 空地間の視点領域ギャップが，特徴量の識別を困難にしている。
- 単一視点から未知の視点への汎化を可能にする手法の開発。
- 提案手法3D-LENSは，大規模3Dメッシュ再構成を活用した幾何学的に整合性の高い新規視点画像合成を実現する。
- 合成画像と実画像の間のバイアスを軽減するロバストな表現学習スキームを導入する。
- 単一視点空地再識別において，最先端の性能を達成した。
Link: https://arxiv.org/abs/2604.26520
根拠化と合成性：神経記号システムにおける推論の非相補性について [cs.AI, cs.CV, cs.LG, cs.LO]目的：神経記号システムにおける根拠化と推論の寄与を解明すること
- 現代のニューラルネットワークは，分布外の推論を必要とする分野での応用が制限されている。
- 記号の根拠化が成功すれば，合成的な推論が自然に生まれるという仮説は検証されていない。
- 根拠化のみの学習では汎化は困難であり，明示的な推論学習が不可欠であることを示す。
- 根拠化のみを学習したモデルは，新規エンティティ，未知の関係，複雑なルール構成において汎化しないことが示された。
- 知覚的な根拠化と多段階推論を同時に学習した$i$LTNは，全てのタスクで高いゼロショット精度を達成した。
- 記号の根拠化は必要条件ではあるものの，汎化には不十分であり，推論は独立した能力であると結論付けられた。
Link: https://arxiv.org/abs/2604.26521
DenseStep2M：密な指示動画注釈のためのスケーラブルな，学習不要パイプライン [cs.CV]目的：密な指示動画注釈のための大規模データセットの構築
- 長時間の動画理解には，複雑な時間的イベントの解釈と手順の理解が不可欠である。
- 既存の指示動画コーパスは，ノイズの多いASRトランスクリプトや，ナレーションと視覚コンテンツの不整合といった課題を抱える。
- 本研究は，高品質な手順注釈を自動で抽出することにより，これらの課題を解決することを目指す。
- 提案手法は，動画をコヒーレントなショットに分割し，不整合なコンテンツをフィルタリングすることで，高品質な注釈を生成する。
- DenseStep2Mは，約10万本の動画と200万の手順を含む大規模なデータセットであり，長時間の動画理解を支援する。
- DenseStep2Mでファインチューニングされたモデルは，キャプションの質と時間的局在化において著しい改善を示し，高い汎化性能を発揮する。
Link: https://arxiv.org/abs/2604.26565
AirZoo：航空機からの幾何学的3Dビジョンのための大規模統一データセット [cs.CV]目的：航空機からの幾何学的3Dビジョンのための大規模データセットとベンチマーク
- データ駆動型3Dビジョンは進歩が速いが，航空機からの幾何学的3Dビジョンはデータ不足が課題。
- 既存のベンチマークは地上視点や物体中心であり，UAVの視点変化や環境条件に対応できない。
- 航空機からの幾何学的3Dビジョン研究を促進するための高品質な大規模データセットを提供する。
- AirZooは，大規模な屋外環境を再現可能であり，多様な地域と天候/照明条件を網羅している。
- 各フレームには，ピクセルレベルの深度情報と正確な6DoF位置情報が付与されており，幾何学に基づいた学習を支援する。
- AirZooで事前学習を行うことで，最先端モデル（MegaLoc，RoMaなど）の性能が大幅に向上し，新たな性能上限を確立した。
Link: https://arxiv.org/abs/2604.26567
星融合：球面トポロジーを用いた離散的な天体姿勢推定のためのマルチモーダルTransformerアーキテクチャ [cs.CV, cs.AI]目的：天体姿勢推定における離散的なトポロジー分類
- 自律宇宙船の航行には正確な姿勢決定が不可欠であり，その重要性は高い。
- 従来のアルゴリズムは計算コストが高く，ノイズに弱いという課題がある。
- 球面トポロジーを考慮し，座標の周期性を解決することで高精度な姿勢推定を実現する。
- Star-Fusionは，合成データセットにおいてTop-1精度93.4%，Top-3精度97.8%を達成した。
- 提案手法は，計算効率が高く，低スペックなハードウェア上でも18.4msの推論遅延で動作する。
- 次世代の衛星コンステレーションへのリアルタイム搭載を可能にする。
Link: https://arxiv.org/abs/2604.26582
FunFace：顔認識のための特徴有用性とノルム推定 [cs.CV]目的：顔認識モデルのロバスト性と性能向上
- 顔認識はセキュリティなど多様な分野で利用され，その信頼性が重要である。
- 既存手法では，画像品質と顔認識有用性の相関が完全ではない点が課題である。
- 有用性推定を取り入れた新たな損失関数で，低品質画像での性能向上を目指す。
- 提案手法FunFaceは，高品質なデータセットでは既存手法と同等の性能を示す。
- FunFaceは，低品質なデータセットにおいて既存手法を上回る性能を達成した。
- 特徴ノルムと有用性の両方を考慮することで，顔認識の精度向上が確認された。
Link: https://arxiv.org/abs/2604.26598
外観を超えて：ダイヤル式測定値読み取りにおける状態一貫性の診断と改善 [cs.CV]目的：ダイヤル式測定値読み取りにおける状態一貫性の診断と改善
- マルチモーダル大規模言語モデルの応用範囲拡大のため，特定のタスクにおける弱点を克服する必要がある。
- 既存のモデルは，外観の変化に弱く，ダイヤルの状態が変化していなくても性能が低下する。
- ダイヤルの状態の幾何学的構造を考慮し，外観に依存しないロバストな測定値読み取りを実現する。
- 本研究では，現在のMLLMがダイヤル測定タスクの固有の状態幾何学を無視し，表層的な外観の手がかりに依存していることを示した。
- 提案手法TriSCAは，状態距離を考慮した表現アライメント，メタデータに基づいた状態への教師あり学習，および状態を意識した目的アライメントから構成される。
- 実験の結果，TriSCAは制御されたベンチマークと実世界のベンチマークの両方で有効であることが示された。
Link: https://arxiv.org/abs/2604.26614
SnapPose3D：拡散モデルに基づく単一フレーム2Dから3Dへの人体ポーズ変換 [cs.SI, cs.CL, cs.CV]目的：単一フレームからの人体ポーズ3次元化
- 人体ポーズ推定は，人間とコンピュータ間の自然なインタラクションや行動認識に不可欠である。
- 2Dから3Dへのポーズ変換は，深度の曖昧性と関節の不確実性により正確な推定が困難である。
- 拡散モデルを用いて複数の仮説を生成・統合し，単一フレームから高精度な3Dポーズを推定すること。
- SnapPose3Dは，視覚的コンテキストと2Dポーズ特徴に基づいて3Dポーズを決定的にノイズ除去するフレームワークである。
- 推論時には確率的アプローチを採用し，ガウス分布からのランダムサンプリングにより複数の仮説を生成する。
- 既存手法と比較し，計算コストを抑えつつ，最先端の結果を達成した。
Link: https://arxiv.org/abs/2604.26620
SynSur：合成産業表面欠陥の生成と検出のためのエンドツーエンド生成パイプライン [cs.CL, cs.DC, cs.RO, cs.CL, cs.CV, cs.AI]目的：産業用表面欠陥の合成データ生成と検出
- 産業検査における欠陥検出は，製品品質確保に不可欠であり，その自動化が求められている。
- 学習ベースの欠陥検出は，ラベル付きデータの不足がボトルネックとなり，性能向上が制限される。
- 現実的な合成欠陥データを生成し，データ不足を解消することで，欠陥検出性能の向上を目指す。
- 提示されたパイプラインは，Vision-Languageモデルを活用し，拡散モデルをLoRAで適応させ，マスクガイダンスによるインペインティングとサンプルフィルタリングを組み合わせる。
- ボールねじのピッティング欠陥データセットと，モバイル画面表面欠陥セグメンテーションデータセット(MSD)を用いて評価を行い，ドメイン間の転移性能も検証した。
- 合成データのみでの学習は現実データに匹敵しないが，現実データと組み合わせることで性能維持・向上に貢献し，特にデータが少ない場合に有用である。
Link: https://arxiv.org/abs/2604.26633
ウェーブレット変換と辞書学習による部屋インパルス応答の全帯域ノイズ除去 [cs.SD, math.OC]目的：部屋インパルス応答のノイズ除去手法
- 音響環境の評価や音響シミュレーションにおいて，正確な部屋インパルス応答が不可欠である。
- 従来のウェーブレット変換に基づく手法は，低周波成分のノイズ除去に課題があった。
- 低周波成分を含む全帯域におけるノイズ除去性能の向上を目指す。
- 提案手法では，辞書学習と時間変化する誤差許容度を用いることで，近似係数にもノイズ除去を適用した。
- 実験の結果，合成および実測された部屋インパルス応答において，従来の基盤手法と比較して，低周波ノイズ除去性能が大幅に向上した。
- これにより，残響時間などの音響パラメータの推定精度が向上することが示された。
Link: https://arxiv.org/abs/2604.26669
音声データセットにおける偽相関検出ツールキット [cs.SD, cs.AI, cs.DB]目的：音声データセットにおける偽相関の検出
- 音声データは，健康状態の評価などに応用され重要である。データ品質が性能に直結する。
- 録音環境の不均一性により，音声と目的変数の間に偽相関が生じやすい。
- 偽相関による性能過大評価を検出し，より信頼性の高いシステム構築を目指す。
- 本ツールキットは，音声の非音声領域のみから目的変数を予測する手法を用いて偽相関を診断する。
- 非音声領域での予測性能が偶然水準を超える場合，偽相関の存在が示唆される。
- 本ツールキットは研究利用のために公開されている。
Link: https://arxiv.org/abs/2604.26676
ドラムの形状を通して部屋を聞く：モード誘導による多点表面振動からの音響回復 [cs.CV]目的：困難な固体物体からの音響回復
- 視覚マイクとして日常の物体を活用する技術の重要性が高まっている。
- 従来の技術は，振動応答の良い特定の物体に限定されていた。
- 振動応答の悪い物体の音響回復という課題の解決を目指す。
- 本研究では，多点表面振動を利用し，物体の振動モードを考慮した新しい物理モデルを提案した。
- 提案手法は，従来の単一点振動計測法や信号処理に基づく手法と比較して，困難な条件下で優れた性能を発揮することが示された。
- 様々な日常物体から音響を回復することに成功し，その有効性を実証した。
Link: https://arxiv.org/abs/2604.26678
ビデオ事前知識を用いた非同期ノイズ除去による統一的な4次元世界行動モデリング [cs.RO, cs.AI, cs.CV]目的：リアルタイムロボット行動実行と高精度な4次元世界合成
- ロボットの自律的な行動計画や実行において，環境の理解が不可欠である。
- 既存の統合世界モデルは2次元画像空間に限定され，行動効率と世界モデルの品質のバランスが課題である。
- ビデオ拡散モデルの強力な視覚的事前知識を活用し，効率と品質を両立するモデルを構築する。
- X-WAMは，RoboCasaとRoboTwin 2.0のベンチマークにおいて，平均79.2%と90.7%の成功率を達成した。
- 提案手法は，既存手法を上回る高精度な4次元再構成と生成を実現している。
- 非同期ノイズサンプリングにより，行動デコード効率と生成品質を同時に最適化している。
Link: https://arxiv.org/abs/2604.26694
CurEvo：カリキュラムに基づく自己進化による動画理解 [cs.CV, cs.LG]目的：動画理解のための自己進化フレームワークの構造化と進捗管理
- 動画理解は，AIの重要な応用分野であり，様々なタスクに応用可能である。
- 従来の自己進化フレームワークは，最適化の制御が弱く，難易度調整が不十分である。
- CurEvoは，カリキュラム学習を用いて自己進化を構造化し，学習の効率と精度を向上させる。
- CurEvoは，モデルの能力に応じてタスク難易度を動的に調整し，データ多様性をバランスさせる。
- CurEvoは，質問生成と回答評価を同時に進化させる多次元適応QAフレームワークを開発した。
- 7つのバックボーンにおいて，CurEvoは4つのVideoQAベンチマークで精度とセマンティックスコアを向上させた。
Link: https://arxiv.org/abs/2604.26707
画像からの疎なBRDF測定サンプルの学習 [cs.CV, cs.GR]目的：現実的なレンダリングのための正確なBRDF取得
- リアリスティックなレンダリングを実現するには，正確なBRDFの取得が不可欠である。
- 従来のBRDF測定は，時間とコストがかかるという課題があった。
- 学習された反射率事前分布に基づき，効率的な測定サンプル選択を目指す。
- 提案手法は，限られた測定回数でも，ニューラル再構成ベースラインよりも再構成品質を向上させる。
- 特に，8回および16回の測定においてその効果が顕著に現れる。
- 画像空間での教師あり学習や，潜在空間での適合が，未知の材質への汎化性能に影響することを分析した。
Link: https://arxiv.org/abs/2604.26740
GLM-5V-Turbo：マルチモーダルエージェントのためのネイティブ基盤モデルへ [cs.CG, cs.CV]目的：マルチモーダルエージェントのための基盤モデルの実現
- 現実世界での応用拡大に伴い，言語能力だけでなく多様な情報認識能力が重要となる。
- 既存モデルでは，マルチモーダルな情報を言語モデルの補助的なインターフェースとして扱っている。
- マルチモーダルな情報を推論，計画，ツール利用の中核に組み込み，エージェントの能力向上を目指す。
- GLM-5V-Turboは，モデル設計，マルチモーダル学習，強化学習，ツールチェーン拡張，エージェントフレームワークとの統合において改良が施された。
- その結果，マルチモーダルコーディング，視覚的ツール利用，フレームワークベースのエージェントタスクにおいて高い性能を示した。
- また，テキストのみのコーディング能力も維持し，マルチモーダルエージェント構築の知見を提供した。
Link: https://arxiv.org/abs/2604.26752
パッチトークンを活用：画像生成モデルの基盤的特徴によるAI生成画像検出 [cs.CL, cs.CE, cs.CV]目的：AI生成画像検出の性能向上
- AI生成画像の急増により，その識別技術の重要性が高まっている。
- 既存手法は特定の生成モデルに依存し，未知のモデルへの汎化性能が課題。
- 最新の画像基盤モデル（VFM）の潜在能力を引き出し，検出精度を向上させる。
- 様々なVFMファミリーを用いたベンチマークの結果，オリジナルCLIPより12%以上高い精度を達成。
- チューナブルアテンションプーリング（TAP）を導入することで，VFMの特徴を最大限に活用し，性能が向上。
- AI生成画像およびAIインペイント画像の検出における最新技術を確立した。
Link: https://arxiv.org/abs/2604.26772
MemOVCD：クロス時間記憶推論と大局・局所適応的修正による学習不要のオープンボキャブラリ変化検出 [cs.CV, cs.AI]目的：オープンボキャブラリ変化検出における変化の特定
- リモートセンシング技術は，土地利用変化の監視など，様々な分野で重要な役割を担う。
- 既存手法では，時間的な関連性が不十分で，外観の変化と真の変化を区別できない場合がある。
- クロス時間記憶推論と修正により，時間的関係性を強化し，変化検出の精度向上を目指す。
- MemOVCDは，２つのフレーム間の追跡問題として変化検出を再構成し，双方向の重み付き伝播により時間的な証拠を集約する。
- ヒストグラム調整による遷移フレームを構築することで，大きな時間間隔における記憶伝播の安定化を図る。
- 大局・局所適応的修正戦略により，空間的な一貫性を高めながら，詳細な情報を維持する。
Link: https://arxiv.org/abs/2604.26774
仮想現実に基づいた患者固有の脊椎手術シミュレーション：手術教育および計画のための高速，高自動化かつ高忠実度システム [cs.CV]目的：患者固有の脊椎手術シミュレーションの実現
- 外科医の訓練は重要であり，高度な技術と知識の習得が求められる。
- 臨床現場での手術経験機会の減少が，外科医教育の課題となっている。
- 患者固有の解剖学的情報に基づいたシミュレーションにより，より効果的な教育と計画を目指す。
- CTとMRI画像から，高精度な患者固有の3次元解剖モデルを効率的に構築することに成功した。
- 脊椎手術における椎弓切除術，椎間板切除術，神経孔拡大術などのシミュレーションが可能となった。
- 外科医および研修医からの定性的なフィードバックにより，空間理解の向上と術前計画への貢献が示唆された。
Link: https://arxiv.org/abs/2604.26781
MesonGS++: ハイパーパラメータ探索による3次元ガウススプラッティングのポストトレーニング圧縮 [cs.CV, cs.GR, cs.MM]目的：3次元ガウススプラッティングのポストトレーニング圧縮
- 3次元ガウススプラッティングは高品質な新規視点合成を実現するが，実用的な展開にはストレージコストが高いことが課題。
- 既存手法は，剪定，変換，量子化，エントロピー符号化など多くのハイパーパラメータに依存し，圧縮サイズ制御が困難。
- MesonGS++は，ストレージサイズを考慮した圧縮により，品質を維持しつつ効率的な圧縮を実現する。
- MesonGS++は，既存のポストトレーニング圧縮手法を上回り，目標ストレージサイズを正確に満たす。
- 34倍以上の圧縮率を達成しながら，レンダリング品質を維持することが確認された。
- Stumpシーンでは，20倍の圧縮率でオリジナルの3DGSよりも高いPSNRを達成した。
Link: https://arxiv.org/abs/2604.26799
ViCrop-Det：空間的注意エントロピーによるクロッピングを用いた学習不要な小物体検出 [cs.CV, cs.AI]目的：小物体検出における性能向上
- 自然画像における空間的異質性が課題であり，特に微小な物体が存在する領域での特徴劣化が問題となっている。
- Transformerアーキテクチャは優れた性能を示すが，均一な受容野が情報密度の低い領域では効率が悪く，特徴が失われやすい。
- 空間的注意エントロピーに基づき，物体が存在する可能性の高い領域に計算資源を集中させることで，特徴劣化を防ぎ，検出精度を向上させる。
- ViCrop-Detは，RT-DETR-R50やDeformable DETRに対して，mAP@50を1-3%改善する性能を示した。
- MS COCOデータセットでは，小物体に対するAPが向上し，中・大型物体に対するAPは維持された。
- 計算資源が限られた状況下でも，ViCrop-Detは均一なクロッピングと比較して，精度と速度のバランスに優れた性能を発揮した。
Link: https://arxiv.org/abs/2604.26806
MISES：効果的なサービスのための最小情報充足性 [cs.GT, cs.IT, math.IT]目的：カテゴリベースの協調メカニズムにおける資源配分効率の評価
- サービス提供における資源配分は，効率的なシステム運用に不可欠である。
- 従来の資源配分では，個々の需要を正確に把握できず，最適化が困難であった。
- 本研究は，最小限の情報で効率的な資源配分を実現するメカニズムを提示する。
- カテゴリベースの協調メカニズムにおける厚生損失のギャップは，カテゴリ内分配の分散に比例することが示された。
- 需要に基づいたカテゴリ設定は，厚生損失と虚偽申告のインセンティブを同時に最小化する。
- 集約的な指標が，サービスレベルの検出において個々の指標よりも優れていることが証明された。
Link: https://arxiv.org/abs/2604.26808
ドメイン汎化のための因果推論に基づく基盤駆動型手法Bridge [cs.CV]目的：ドメイン汎化のための因果推論の導入
- 画像認識モデルの汎化性能向上は，現実世界での応用において不可欠である。
- ソースドメインとターゲットドメイン間の分布のずれが，モデルの性能低下の主要因となっている。
- 交絡因子の影響を軽減し，よりロバストな特徴表現を獲得することを目指す。
- 提案手法Bridgeは，低ランク基盤によるフロントドア調整を学習することで，交絡因子の影響を抑制する。
- これにより，不要な情報をフィルタリングし，タスクに関連性の高い特徴表現を洗練させる。
- 複数のドメイン汎化データセットにおいて，既存の最先端手法を上回る性能が確認された。
Link: https://arxiv.org/abs/2604.26820
自動車用脆弱道路利用者安全のためのエッジAI：知識蒸留による展開可能な検出 [cs.CV, cs.LG, cs.RO, eess.IV]目的：脆弱道路利用者の安全確保のための，エッジデバイスでの物体検出
- 自動車の安全運転支援システムにおいて，歩行者等の脆弱道路利用者の早期発見は不可欠である。
- エッジデバイスでのAIモデル実行には計算資源の制約があり，高精度モデルの搭載が困難である。
- 知識蒸留により，軽量なモデルでも高精度を維持し，エッジデバイスでの利用を可能にすること。
- 知識蒸留フレームワークにより，YOLOv8-SモデルをYOLOv8-Lモデルの知識で学習することで，3.9倍のモデル圧縮を実現した。
- INT8量子化下において，教師モデルが大幅に性能劣化するのに対し，生徒モデルは精度低下を抑制することに成功した。
- 知識蒸留は，検出能力だけでなく，精度の校正を転移することで誤検知を削減し，安全性を向上させる。
Link: https://arxiv.org/abs/2604.26857
剛直な事前知識の打破：関節を持つ3次元異常検知へ [cs.CV]目的：関節を持つ物体の3次元異常検知のための大規模ベンチマークと手法
- 3次元形状の異常検知は，製造業における品質管理やロボットの自己認識において重要である。
- 従来の3次元異常検知は，姿勢不変性を仮定しており，関節を持つ物体への適用が困難であった。
- 関節の動きによる形状変化と構造的な欠陥を区別し，より正確な異常検知を実現することを目指す。
- ArtiADベンチマークは，39種類の関節を持つ物体の形状データを含み，多様な関節角度と6種類の構造異常に対応している。
- 提案手法SPA-SDFは，姿勢に依存した連続的な陰関数表現を用いることで，従来の姿勢不変性の仮定を克服している。
- SPA-SDFは，既知および未知の関節構成において，従来のrigid-basedベースラインを大幅に上回る性能を示した。
Link: https://arxiv.org/abs/2604.26868
KAYRA：AI支援核型分析のためのマイクロサービスアーキテクチャ - クラウドとオンプレミスでの展開 [cs.LG, cs.CV]目的：AI支援核型分析システムの開発
- 核型分析は，遺伝性疾患やがんの診断において重要な役割を担う検査である。
- 従来の核型分析は熟練した専門家による手作業に依存しており，時間と労力がかかる。
- 本研究では，AIを活用した核型分析システムをマイクロサービスアーキテクチャで構築し，柔軟な展開を可能とする。
- KAYRAは，セグメンテーション精度98.91%，分類精度89.1%を達成し，従来の密度閾値法や既存のAIシステムと比較して有意に高い性能を示した。
- 特に，セグメンテーション精度において，既存のAIシステムに対しても統計的に有意な改善が見られた。
- KAYRAは，臨床現場での専門家によるレビューワークフローと統合されており，実用レベル6（TRL 6）に達している。
Link: https://arxiv.org/abs/2604.26869
証拠的深層学習による不確実性認識型歩行者属性認識 [cs.CV]目的：歩行者属性認識における不確実性評価
- 歩行者属性認識は，監視カメラ等による人物識別や安全確保に不可欠な技術である。
- 低品質な画像に対する予測の信頼性評価が困難であり，誤認識による問題が生じやすい。
- 不確実性を考慮することで，よりロバストな属性認識システムの構築を目指す。
- 提案手法UAPARは，証拠的深層学習（EDL）をCLIPベースのアーキテクチャに組み込むことで，不確実性を明示的に評価する。
- 地域認識型証拠推論モジュールにより，微細な局所特徴を捉え，属性ごとの認識不確実性を推定する。
- 不確実性に基づいた二段階カリキュラム学習戦略により，ラベルノイズの影響を軽減し，学習のロバスト性を向上させる。
Link: https://arxiv.org/abs/2604.26873
大規模ステッカータグデータセットを用いた意味論的認識によるシングルイメージステッカーパーソナライズ [cs.DM, math.CO, cs.CV]目的：シングルイメージからのステッカーパーソナライズにおける視覚的エンタングルメントと構造的硬直性の軽減
- 拡散モデルを用いた画像生成技術は発展しているが，特に少ない参照画像でのパーソナライズは課題が多い。
- 参照画像が一つしかない場合，過学習による背景の混入や空間配置の固定化が起こりやすい。
- 意味論的な情報を活用し，空間的・構造的な制約を導入することで，より柔軟なパーソナライズを目指す。
- 提案手法SEALは，既存のパーソナライズパイプラインに容易に組み込むことが可能である。
- SEALは，Semantic-guided Spatial Attention Loss，Split-merge Token Strategy，Structure-aware Layer Restrictionという3つの要素を組み合わせて，アイデンティティの保持と文脈制御を両立する。
- 大規模ステッカーデータセットStickerBenchは，属性レベルでの制御を可能にし，アイデンティティの分離と文脈制御の評価を促進する。
Link: https://arxiv.org/abs/2604.26883
UAV搭載RGB-T画像における意味的セグメンテーションのためのグラフベース意味的較正ネットワークと大規模ベンチマーク [cs.CV]目的：UAV搭載RGB-T画像の意味的セグメンテーションにおける精度向上
- 全天候下でのUAVによるシーン理解には，詳細なRGB-T画像セグメンテーションが不可欠である。
- センサーの視差やプラットフォームの振動により，RGB-T画像の空間的ずれが生じやすい。
- UAVから見た俯瞰視点では，地上の微細な物体間の意味的混同が起こりやすいという課題を解決する。
- 提案手法GSCNetは，FDAMモジュールにより，各モダリティを構造的・知覚的要素に分解し，空間的なずれを抑制することで，ロバストな特徴抽出を実現した。
- SGCMモジュールでは，地上の物体カテゴリ間の階層的関係と共起規則をグラフ構造で明示的に表現し，予測の精度向上に貢献した。
- 大規模ベンチマークURTFを用いた実験の結果，GSCNetは最先端手法を大幅に上回り，特に微細なカテゴリにおいて顕著な性能向上を示した。
Link: https://arxiv.org/abs/2604.26893
AnimateAnyMesh++: 高精度テキスト駆動メッシュアニメーションのための柔軟な4D基盤モデル [cs.RO, cs.CV]目的：高精度なテキスト駆動メッシュアニメーション生成
- 4Dコンテンツ生成の重要性が高まる中，高品質なアニメーション生成は困難である。
- 時空間分布のモデリングの複雑さや4D学習データの不足が課題となっている。
- 任意の3Dメッシュに対して高品質なテキスト駆動アニメーションを実現する。
- AnimateAnyMesh++は，データ，アーキテクチャ，生成能力の大幅な向上により，高品質なアニメーションを生成する。
- DyMesh-XLデータセットを拡張し，多様なカテゴリとモーションに対応した。
- 改良されたDyMeshVAE-Flexと可変長シーケンス対応RFにより，再構成精度を維持しつつ長尺アニメーションを可能にした。
Link: https://arxiv.org/abs/2604.26917
カラーコード化照明による高速ボリュームシーン再構成 [cs.CV]目的：高速シーンのボリューム再構成手法
- 3次元動的シーンのキャプチャ・レンダリング需要が高まっており，その技術的重要性は大きい。
- 既存のカメラはフレームレートに制限があり，高速なシーンの3次元再構成が困難である。
- 低速カメラとカラーコード化照明を用いて，高速シーンの3次元ボリューム再構成を実現する。
- カラーコード化照明により，複数視点からの同時キャプチャと高速な時間情報エンコードを可能にした。
- 動的ガウススプラッティングに基づく新たな手法を開発し，画像から時間情報を復号した。
- シミュレーションと実環境実験において，これまでにない高速ボリュームシーン再構成を実証した。
Link: https://arxiv.org/abs/2604.26920
収益最大化の学習曲線について [cs.LG, cs.DS, cs.GT, stat.ML]目的：収益最大化における学習曲線の特性
- 機械学習において，学習曲線はアルゴリズムの汎化性能を測る上で不可欠である。
- 収益最大化アルゴリズムの学習曲線は，最悪の場合の分布に依存しており，その形状を捉えられていない。
- 本研究は，単一アイテム・単一買い手という基本的な設定で学習曲線の減衰率を明らかにすることを目指す。
- 分布に制限がない場合，任意の分布に対して学習曲線がゼロに収束するアルゴリズムが存在する。
- しかし，その収束は非常に遅くなる可能性があり，最適な収益が有限である場合でも同様である。
- 最適な収益が有限の価格で達成される場合，最適な減衰率は概ね $1/\sqrt{n}$ である。
Link: https://arxiv.org/abs/2604.26922
World2VLM：視覚言語モデルへの世界モデルの想像力を蒸留し，動的な空間推論を実現 [cs.DC, cs.CV]目的：動的空間推論のための視覚言語モデルへの世界モデルの想像力の蒸留
- 視覚言語モデルの性能向上は，画像とテキストを結びつける多様な応用を可能にするため重要である。
- 既存の視覚言語モデルは，自己中心的な運動下でのシーンの進化を想像する動的な空間推論が苦手である。
- 世界モデルから得られる空間想像力を蒸留することで，視覚言語モデルの動的な空間推論能力を向上させる。
- World2VLMは，多様な空間推論ベンチマークにおいて，ベースモデルに対して一貫した改善が見られた。
- 推論時の計算コストを削減しつつ，テスト時の世界モデル結合手法よりも優れた性能を発揮した。
- 世界モデルが，推論時のツールとしてだけでなく，効果的な訓練時の教師としても機能することが示唆された。
Link: https://arxiv.org/abs/2604.26934