arXiv雑要約

画像・音声 - 2026/03/17 公開

HalDec-Bench：画像キャプションにおけるハルシネーション検出器のベンチマーク [cs.CV]目的：画像キャプションにおけるハルシネーション検出器の性能評価
- 画像とテキストの整合性は，画像・言語モデルの重要な評価基準である。
- 異なるキャプションモデルやハルシネーションの種類に対する汎用性が不明確である。
- ハルシネーション検出器の性能を総合的に評価するためのベンチマークを構築する。
- HalDec-Benchは，多様な画像・言語モデルで生成されたキャプションと，人間のハルシネーション注釈を含む。
- 検出器は，応答の冒頭の文を正しいと認識しやすい傾向があることが示された。
- 強力な画像・言語モデルをフィルタとして使用することで，データセットのノイズを大幅に削減できる可能性が示唆された。
Link: https://arxiv.org/abs/2603.15253
エージェント誘導クロスモーダルデコーディングによる天気予報 [cs.AI, cs.CV]目的：天気予報の精度向上
- 精度の高い天気予報は，人々の生活や経済活動に不可欠であるため，気象予測技術の進歩が重要である。
- 既存の物理事前知識の導入方法は，状態適応性やサンプル特異的な制御性に乏しいという課題がある。
- 本研究は，状態に依存した物理事前知識をデコーディング時に注入することで，この課題を解決することを目指す。
- 提案手法AGCDは，マルチエージェント気象ナレーションパイプラインを用いて，現在の気象状態に基づいて物理事前知識を生成する。
- AGCDは，領域認識型マルチスケールトークン化と効率的な物理事前知識注入により，視覚的特徴を洗練させる。
- WeatherBenchにおける実験により，AGCDは様々な解像度やバックボーンで，6時間予報の精度を向上させることが示された。
Link: https://arxiv.org/abs/2603.15260
非標準音声認識のための二段階適応：パーソナライズのための話者独立初期化の再検討 [cs.SD]目的：非標準音声（構音障害や失語症など）に対する自動音声認識システムのパーソナライズ
- 音声認識技術は，コミュニケーション支援やヒューマンコンピュータインタラクションにおいて重要である。
- 非標準音声は，標準的な音声とは異なり，認識精度が著しく低下する課題がある。
- 話者固有の微調整の初期化方法を改善し，非標準音声認識のパーソナライズ精度向上を目指す。
- 提案手法では，まず複数の非標準音声データで話者独立微調整を行い，次に話者固有微調整を行う二段階適応を提案する。
- AphasiaBankおよびUA-Speechデータセットを用いた実験で，提案手法が直接的な話者固有微調整よりも優れたパーソナライズ性能を示すことが確認された。
- TED-LIUM v3やFLEURSといった標準音声データセットでも性能を維持し，汎化性能とパーソナライズ性能の両立が可能である。
Link: https://arxiv.org/abs/2603.15261
IConE：自己教師あり表現学習におけるバッチ非依存の崩壊防止 [cs.CV, cs.LG]目的：自己教師あり表現学習における崩壊防止機構の確立
- 表現学習は機械学習の基礎であり，特にラベルなしデータからの学習は重要性を増している。
- 既存手法はバッチサイズに依存するため，高次元データや不均衡データにおける学習が困難である。
- 本研究は，バッチサイズに依存しない崩壊防止機構を開発し，より安定した学習を実現する。
- IConEは，バッチサイズが小さい場合でも，既存のコントラスト学習や非コントラスト学習手法を上回る性能を示す。
- IConEは，クラスの不均衡に対して頑健であり，データセット全体での表現の多様性を維持する。
- 幾何学的分析により，IConEがバッチサイズ減少時に表現の崩壊を防ぎ，高次元性を維持することが示された。
Link: https://arxiv.org/abs/2603.15263
エグザンプラー拡散：機会的なラベルを用いた医療画像オブジェクト検出の改善 [cs.RO, cs.CV]目的：医療画像におけるオブジェクト検出性能の向上
- 医療画像解析は，診断支援や治療計画において不可欠であり，高精度なオブジェクト検出が求められる。
- 医療画像のラベル付けは専門知識を必要とし，コストと時間がかかるため，十分な量のラベルデータが得にくい。
- 既存のラベル情報を活用し，学習なしでテスト時の検出性能を向上させることを目指す。
- 提案手法であるエグザンプラー拡散は，医療画像データセットにおいて，平均精度と再現率の全体的な向上を達成した。
- エグザンプラーの品質に対するロバスト性も示され，専門家以外の注釈作成も可能となった。
- また，拡散検出法における予測の不確実性を定量化するための手段も提供する。
Link: https://arxiv.org/abs/2603.15267
生体内コンフォカル顕微鏡における自己教師ありImageNet表現：セグメンテーションマップなしでの蛇行度評価 [cs.CV]目的：角膜神経線維の蛇行度評価手法
- 角膜神経線維の蛇行度は，様々な疾患の指標として重要視されている。
- 既存手法は，神経線維のセグメンテーションマップに依存しており，コストが高い。
- セグメンテーションマップを用いずに，蛇行度を評価する新たな手法を確立する。
- ImageNetで自己教師あり学習済みの特徴量が，生体内コンフォカル顕微鏡画像にも転移可能であることが示された。
- DINOモデルを微調整することで，蛇行度評価の精度（84.25%）および感度（77.97%）が向上した。
- 微調整されたモデルは，セグメンテーションマップを使用せずに，蛇行度評価に必要な形態学的要素に焦点を当てている。
Link: https://arxiv.org/abs/2603.15269
フラッシュユニファイド：ネイティブ統合モデルのトレーニング不要かつタスク認識型高速化フレームワーク [cs.CV]目的：ネイティブ統合モデルの推論高速化
- 近年，生成能力と理解能力を統合するマルチモーダルモデルの重要性が高まっている。
- 既存のモデルは計算コストが高く，実用化が困難であるという課題がある。
- タスクに応じた最適化により，計算効率を向上させることを目指す。
- FlashUは，タスク固有のネットワークプルーニングと動的レイヤースキップを導入することで，生成と理解の両タスクにおいて推論速度を向上させる。
- 画像生成においては，ガイダンススケールの時間変化制御やDiffusion Head Cacheによる近似処理を適用。
- マルチモーダル理解においては，プルーニングされたモデル上にV-Norm Proxyを用いた動的トークンプルーニングを実装し，視覚入力の空間的冗長性を利用する。
Link: https://arxiv.org/abs/2603.15271
データセットの多様性指標と分類モデルへの影響 [cs.CV]目的：データセット多様性指標の挙動と，それらがモデルの性能に与える影響の評価
- 堅牢なモデル構築において，多様な訓練データセットの重要性は広く認識されている。
- 多様性の定義が曖昧であり，定量化が十分に行われていない点が課題となっている。
- 既存の多様性指標と専門家の知見，そしてモデルの性能との相関を明らかにすること。
- データセットの多様性指標とAUCとの間には限定的な相関が認められた。
- FIDや意味的多様性指標は，AUCとより高い相関を示した。
- 臨床専門家はスキャナが多様性の主要な原因であると指摘したが，追加のスキャナはショートカット学習を招く可能性が示唆された。
Link: https://arxiv.org/abs/2603.15276
フローベース生成モデルの高速推論：改善されたデータ-ノイズ結合による [eess.SY, cs.RO, cs.SY, cs.LG, cs.CV]目的：フローベース生成モデルの推論速度向上
- 画像や動画生成など，生成AIの発展は重要であり，効率的な学習手法が求められている。
- 既存手法では，大規模データセットにおいてデータとノイズの結合最適化が不十分であった。
- ミニバッチ間のデータ-ノイズ結合を最適化し，推論速度と生成品質のバランスを改善する。
- 提案手法LOOM-CFMは，ミニバッチOTの適用範囲を拡大し，学習を通してデータ-ノイズの割り当てを最適化する。
- 複数のデータセットにおいて，サンプリング速度と品質のトレードオフが改善されることが確認された。
- 蒸留初期化の強化や潜在空間での高解像度合成のサポートも実現している。
Link: https://arxiv.org/abs/2603.15279
GATE-AD：グラフ注意ネットワークによる少サンプル工業用画像異常検知 [cs.CV]目的：少サンプル工業用画像異常検知における性能向上
- 製造業における自動検査の重要性が増しており，異常検知技術の精度向上が求められている。
- 異常サンプルが少ない状況下での検知は難しく，従来の技術では十分な性能が得られない場合がある。
- 少数の正常サンプルから異常を検知できる，新しい異常検知手法の開発を目指す。
- 提案手法GATE-ADは，グラフ注意ネットワークを用いて正常サンプルの特徴を頑健に学習する。
- MVTec AD，VisA，MPDDのデータセットで，既存手法と比較して最高水準の性能を達成した。
- 特にMPDDにおいて，8-shot設定で画像AUROCが最大1.8%向上，推論速度も25.05%以上高速化された。
Link: https://arxiv.org/abs/2603.15300
1次元潜在表現による生成ビデオ圧縮 [cs.CV]目的：生成ビデオ圧縮における圧縮効率の向上
- ビデオ圧縮は，データ容量の削減と効率的な伝送・保存に不可欠であり，現代のデジタル社会を支える基盤技術である。
- 既存の生成ビデオコーデックは2次元潜在グリッドに依存し，空間的・時間的な冗長性を十分に活用できていないという課題があった。
- 本研究は，1次元潜在表現を用いることで，空間的・時間的冗長性をより効果的に削減し，高圧縮率を実現することを目指す。
- 提案手法GVC1Dは，HEVC Class Bデータセットにおいて，LPIPSで60.4%，DISTSで68.8%のビットレート削減を達成した。
- 1次元潜在表現は，2次元グリッドの rigid な空間対応制約を回避し，意味領域への適応的な注意を可能にすることで，空間冗長性を低減する。
- 低コストな1次元メモリは，セマンティックに豊富な長期コンテキストを提供し，時間的冗長性をさらに削減する。
Link: https://arxiv.org/abs/2603.15302
UE5-Forest：UAV林業用深度推定のためのフォトリアリスティックな合成ステレオデータセット [cs.CV]目的：UAV林業における深度推定のためのステレオデータセット
- 森林管理の自動化に不可欠であり，ドローンによる効率的な作業を可能にするため。
- 実際の森林環境では，木の枝葉の複雑さから正確な深度情報を取得することが困難である。
- 高品質な学習データを提供し，UAVによる自律的な剪定を支援すること。
- UE5-Forestは，Unreal Engine 5を用いて構築されたフォトリアリスティックな合成ステレオデータセットである。
- Quixel Megascansの115本の木を仮想空間に配置し，ZED Miniカメラの仕様を再現したシミュレーションを行った。
- 5,520組のステレオペアと，それに対応する正確な深度情報を生成し，その統計的特性と実写画像との比較を行った。
Link: https://arxiv.org/abs/2603.15304
MeMix：ストリーミング3D再構成における記憶の保持と改善 [cs.RO, cs.CV]目的：ストリーミング3D再構成の精度向上
- 3Dビジョンは空間知能の基盤であり，現実世界の理解に不可欠である。
- 既存のオンライン再構成モデルは，長シーケンスにおいて状態のドリフトや忘却により性能が低下しやすい。
- MeMixは，既存モデルに追加することで，状態の選択的更新を通じて性能劣化を防ぎ，長期的な再構成を可能にする。
- MeMixは，再帰的な状態をメモリ混合として再構成することで，ストリーミング再構成の性能を向上させる。
- メモリを複数の独立したパッチに分割し，整合性の低いパッチのみを更新することで，破滅的な忘却を軽減する。
- 標準的なベンチマークにおいて，MeMixは再構成完了率の誤差を平均15.3%削減し，最長で40.0%の改善を見せた。
Link: https://arxiv.org/abs/2603.15330
二段階選挙における戦略的な分割と操作可能性 [cs.GT, math.OC, math.PR]目的：標的候補の当選確率を最大化する初期分割
- 選挙制度は民主主義の根幹であり，公平性と効率性が重要である。
- 候補者数の増加に伴い，選挙戦略の最適化が複雑化している。
- 二段階選挙における最適な候補者分割戦略を解明する。
- 候補者数の漸近的増加において，最適な主要な離散クラスタの相対的な幅が候補者総数の1/5に収束することが示された。
- シミュレーション結果は，分析的枠組みの妥当性を検証している。
- 有権者規模が増加するにつれて，普遍的な勝利の確率が急速に1に近づくことが確認された。
Link: https://arxiv.org/abs/2603.15338
最大光透過型分光イメージングのための振動分散 [cs.CV]目的：分光イメージングシステムの性能向上
- 光のスペクトル情報を活用し，様々な分野で応用が期待されているため。
- 従来のシステムでは，光の一部を遮断し，暗い環境下での性能が低下する問題がある。
- 光透過率を向上させ，暗い環境下でも高精度な分光イメージングを実現すること。
- 振動分散イメージング分光計（ODIS）により，ほぼ完全な光透過率を達成し，従来の課題を克服した。
- PAN（全色）画像をガイドとした深層アンフォールディングネットワーク（PDAUN）により，高精度なスペクトル情報復元が可能となった。
- 実験結果は，既存のシステムと比較して，低照度環境下での優位性を示し，プロトタイプでも検証された。
Link: https://arxiv.org/abs/2603.15348
NV-Bench：表現豊かな音声合成のための非言語性音声合成ベンチマーク [cs.SD, cs.AI, eess.AS]目的：非言語性音声合成の評価基準
- 音声合成技術は，より自然で人間らしいコミュニケーションを可能にする上で重要である。
- 既存の評価方法は標準化されておらず，客観的な評価が困難である。
- 非言語性音声合成の評価を標準化し，客観性と信頼性を高める。
- NV-Benchは，14種類の非言語性音声カテゴリを含む1,651件の多言語データセットである。
- 提案されたparalinguistic character error rate (PCER)を用いて制御可能性を評価する。
- 客観的指標と人間の知覚との間に強い相関関係が認められた。
Link: https://arxiv.org/abs/2603.15352
リモートセンシング画像圧縮のためのPPOに基づくビットレート割当条件付き拡散モデル [cs.CV]目的：リモートセンシング画像圧縮における高圧縮率と詳細情報の保持
- リモートセンシングは，地球観測や環境モニタリングに不可欠な技術である。
- 高解像度画像はデータ量が大きく，保存や長期管理が課題となる。
- 高圧縮率とタスク関連情報の両立を目指す。
- 提案手法PCDCは，DIV2Kデータセットで19.3倍，ドローン画像データセットで21.2倍の圧縮率を達成した。
- 復元画像は，タスク関連情報を維持し，オブジェクト検出性能の低下は軽微であった。
- 構造的詳細を含む高解像度ドローン画像データセットを公開した。
Link: https://arxiv.org/abs/2603.15365
IRIS：交差を考慮したレイベースの暗黙的編集可能シーン [cs.CV]目的：効率的かつインタラクティブなシーン編集のためのフレームワーク
- 高品質なシーン表現は，仮想現実やロボティクスなど幅広い分野で不可欠である。
- 既存手法は，計算コストが高く，リアルタイムなレンダリングや編集が困難である。
- レイとシーンのプリミティブの交差点を精密に特定し，効率的なレンダリングを実現する。
- IRISは，レイとシーンの交差点を分析的にサンプリングすることで，無駄な空間処理を排除する。
- ソートされた交点からの潜在属性の補間により，コストのかかる3D検索を回避し，幾何学的整合性を確保する。
- その結果，高忠実度でリアルタイムなレンダリングと柔軟な形状編集が可能となる。
Link: https://arxiv.org/abs/2603.15368
軌跡多様性駆動型ロバストなビジョン言語ナビゲーション [cs.CV]目的：ビジョン言語ナビゲーションにおけるロバストなナビゲーションポリシーの学習
- 現実的な環境で言語指示に従ってナビゲートする技術であり，ロボット工学やAR/VRへの応用が期待される。
- 模倣学習が主流だが，汎化性能や実行時の摂動に対する頑健性に課題がある。
- 強化学習を通じて多様な軌跡を探索し，よりロバストなナビゲーションポリシーを獲得する。
- NavGRPOは，グループ相対ポリシー最適化を用いて，専門家の経路に依存せず効果的な戦略を学習する。
- R2RおよびREVERIEのベンチマークにおいて，それぞれ+3.0%，+1.71%のSPL向上を達成し，優れたロバスト性を示した。
- 初期段階の摂動下では，ベースラインと比較して+14.89%のSPL改善が見られ，強化学習の有効性が確認された。
Link: https://arxiv.org/abs/2603.15370
結腸内視鏡検査における深度推定のための基礎モデルのパラメータ効率的な適応のためのスペクトル補正 [cs.CV]目的：結腸内視鏡検査における深度推定の精度向上
- 結腸内視鏡検査において，病変の特定とナビゲーションには正確な深度推定が不可欠である。
- 自然画像で学習された基礎モデルは，結腸内視鏡画像への直接的な汎化が困難である。
- 基礎モデルの幾何学的表現能力を維持しつつ，結腸内視鏡画像に特化した適応を実現すること。
- 提案手法SpecDepthは，C3VDおよびSimCol3Dデータセットで最先端の性能を達成した。
- SpecDepthは，絶対相対誤差0.022と0.027をそれぞれ記録し，優れた精度を示した。
- スペクトルミスマッチへの直接的な対処が，医療画像タスクへの適応に有効であることが示された。
Link: https://arxiv.org/abs/2603.15374
RieMind: ジオメトリに基づいたシーン理解のための空間エージェント [cs.CV, cs.AI]目的：屋内シーンにおける空間推論能力の向上
- 現実世界とのインタラクションにおいて，空間認識はロボット工学や拡張現実などの分野で不可欠である。
- 既存の視覚言語モデルは，空間的・計量的な推論において課題を抱えており，精度向上が求められている。
- 知覚と推論の分離による空間推論の性能向上を目指し，3Dシーングラフを用いたエージェントフレームワークを提案する。
- 本研究で提案するフレームワークは，VSI-Benchの静的分割において，既存手法を最大16%上回る空間推論性能を達成した。
- ベースとなる視覚言語モデルと比較して，平均で33%から50%の性能改善が見られ，明示的な幾何学的基礎付けが空間推論に大きく貢献することが示された。
- 構造化された表現が，純粋なエンドツーエンドの視覚推論に対する有望な代替手段となり得ることを示唆している。
Link: https://arxiv.org/abs/2603.15386
顔再識別におけるAI回避・なりすまし攻撃と活性化マップによる説明 [cs.MM, cs.HC, eess.SY, cs.SY, cs.CV, cs.AI]目的：顔再識別モデルに対するAI回避およびなりすまし攻撃の生成手法
- 監視システムにおける顔識別技術の利用拡大に伴い，そのセキュリティ確保が重要となっている。
- 既存の手法では，ターゲット毎に繰り返し最適化が必要であり，効率性や汎用性に課題がある。
- 複数のカメラ間で有効な，効率的かつ汎用的な攻撃手法の開発を目指している。
- 提案手法は，白色ボックス環境下で平均適合率を90%から0.4%に，黒色ボックス環境下で72%から0.4%に低下させた。
- 標的型なりすまし攻撃において，CelebA-HQデータセット上で27%の成功率を達成し，既存手法と同等の性能を示した。
- 活性化マップのクラスタリングにより，攻撃に利用される特徴を特定し，将来的な対策への道筋を示した。
Link: https://arxiv.org/abs/2603.15396
指差しに基づく物体認識 [cs.CV]目的：人間の指差しジェスチャーによって指示された物体の認識
- 人間とロボットの自然な対話には，非言語コミュニケーションの理解が不可欠である。
- 従来の物体認識は，人間が指示する対象を特定することが困難であった。
- 指差しという人間の指示を理解し，正確な物体認識を実現すること。
- 単眼画像から再構成された3次元空間情報が，物体識別の精度を大幅に向上させる。
- 特に，物体が重なり合う複雑なシーンにおいて，その効果が顕著に現れる。
- 画像キャプションモデルを用いることで，分類エラーの修正が可能となる。
Link: https://arxiv.org/abs/2603.15403
都市交通画像における適応的残差コンテキストを用いた自律シャトル検出 [cs.CV, cs.AI]目的：都市交通画像における自律シャトル検出手法
- 輸送の自動化は，安全性と持続可能性の向上に貢献する可能性があり，重要な研究分野である。
- 新しい検出対象の追加は，既存の検出手法の再調整が必要であり，性能劣化を引き起こす可能性がある。
- 本研究は，既存知識の保持と新しい検出対象への適応を両立する手法を開発し，課題解決を目指す。
- 提案手法ARCは，既存手法と同等の検出性能を達成しつつ，知識保持能力を大幅に向上させる。
- ARCは，コンテキストブランチとタスク固有ブランチをコンテキストガイデッドブリッジで接続することで，空間特徴の転移と事前学習表現の維持を実現する。
- 実験結果から，ARCは複雑な都市環境において，データ効率の良い新しい車両カテゴリ追加ソリューションであることが示された。
Link: https://arxiv.org/abs/2603.15404
AnyCrowd：インスタンス分離型ID-ポーズ結合による任意の複数キャラクターアニメーション [cs.CV]目的：任意のキャラクター数に対応可能な複数キャラクターアニメーション生成
- キャラクターアニメーション技術は進歩しているが，複数キャラクターの制御は未成熟である。
- キャラクター数が増加すると，IDの混同や制御性の低下が問題となる。
- IDとポーズの不整合や動画の一貫性の問題を解決することを目指す。
- AnyCrowdは，拡散Transformer（DiT）を基盤とする動画生成フレームワークである。
- インスタンス分離型潜在表現（IILR）により，潜在的なIDの混同を防ぐ。
- Tri-Stage Decoupled Attention（TSDA）により，IDとポーズの結合精度を向上させる。
Link: https://arxiv.org/abs/2603.15415
Gym-V：エージェント視覚研究のための統一されたビジョン環境システム [cs.CV]目的：エージェント視覚研究のための統一的な環境
- 視覚エージェントの性能向上は，ロボティクスや自動運転など様々な分野で重要である。
- 既存の視覚エージェントの研究環境は分散しており，再現性や比較が困難であった。
- 本研究は，標準化された環境を提供することで，視覚エージェントの研究を加速させることを目指す。
- Gym-Vは，10のドメインにわたる179の視覚環境を提供し，これまで困難だった統制された実験を可能にする。
- 観察の補助情報が，RLアルゴリズムの選択よりも学習成功に決定的な影響を与えることが示された。
- 多様なタスクでの学習は汎化性能を高める一方，狭い範囲での学習は負の転移を引き起こす可能性がある。
Link: https://arxiv.org/abs/2603.15432
単一画像からのリアルタイム人物正面視点合成 [cs.CV]目的：単一画像からの人物正面視点合成
- 没入型3Dテレプレゼンスの実現に不可欠であり，複雑なマルチカメラシステムを不要とする。
- 既存手法は視覚的な忠実度を優先し，顔や手などの複雑な領域での時間的な安定性に課題がある。
- 外部の幾何学的モデリングを避け，正面視点合成に特化することで視覚的な整合性を高める。
- PrismMirrorは，幾何学的な指針に基づき，単一画像から人物の正面視点を瞬時に合成するフレームワークである。
- 粗から細かい幾何学的特徴学習を可能にするカスケード学習戦略と，軽量な線形注意モデルを採用している。
- 24FPSでのリアルタイム推論を実現し，従来のモデルを凌駕する視覚的な真実性と構造的な正確性を達成した。
Link: https://arxiv.org/abs/2603.15433
マルチビュープロンプトによる高品質UVテクスチャマップの生成 [cs.CV]目的：高品質なUVテクスチャマップ生成手法
- 3Dコンテンツ制作において，高品質なテクスチャはリアリティと表現力を大きく左右する。
- 既存手法では，マルチビューの一貫性不足や見えない部分のテクスチャ欠損が課題である。
- マルチビュー生成とUVリファインメントを統合し，高品質なテクスチャ生成を目指す。
- 本手法は，マルチビューの一貫性を保ちつつ，見えない部分のテクスチャを効果的に補完する。
- 実験の結果，既存手法と比較して，特に隠れた部分や一貫性のない部分で優れたテクスチャ生成品質が確認された。
- UV空間での生成モデルにより，2D画像拡散の事前知識を有効活用している。
Link: https://arxiv.org/abs/2603.15436
音楽ジャンル分類：古典的機械学習と深層学習アプローチの比較分析 [cs.SD, cs.AI, eess.AS]目的：ネパール音楽のジャンル分類システム構築と，古典的機械学習と深層学習モデルの性能比較
- 音楽情報検索分野において，自動音楽ジャンル分類は長年の課題であり，多様な音楽体験の提供に不可欠である。
- 既存の研究は主に西洋音楽に偏っており，非西洋音楽，特にネパール音楽のような多様な伝統音楽への対応が遅れている。
- ネパール音楽の特性を考慮した分類システムの構築により，ネパール音楽のデジタルアーカイブ化と普及を促進する。
- 本研究では，約8000件のネパール音楽データセットを構築し，9つの分類モデルを比較検討した。
- 深層学習モデルの一種であるCRNNが84%の最高精度を達成し，古典的機械学習モデル（ロジスティック回帰，XGBoost）の71%を大きく上回った。
- 誤分類のパターン分析から，ネパール音楽の伝統的なジャンル間の関連性が明らかになり，文化的な背景を考慮した解釈が可能となった。
Link: https://arxiv.org/abs/2603.15440
GPUにおけるベジェ曲線の評価に対するテクスチャルックアップ手法 [cs.RO, cs.GR]目的：ベジェ曲線のGPU評価手法
- GPUによる幾何学的計算の重要性が高まっており，リアルタイムレンダリング等の性能向上に不可欠である。
- 従来のGPUにおけるベジェ曲線の評価は計算コストが高く，ボトルネックとなる場合がある。
- テクスチャルックアップを用いることで，計算コストを削減し，より効率的な評価を可能にすること。
- 本手法では，固定機能テクスチャ補間ハードウェアを活用し，ベジェ曲線の評価をテクスチャルックアップとして実装することで，GPUワークロードのパフォーマンスを向上させた。
- この手法はベジェ曲面やボリュームにも自然に拡張でき，Bスプライン，NURBS，積分多項式，有理多項式などの高度な曲線にも適用可能である。
- Seiler補間を組み込むことで効率が向上し，シェーダーコードで多項式として評価した場合と比較して性能と精度を検証した。
Link: https://arxiv.org/abs/2603.15447
4D脱出部屋タスクによる大規模モデルの時間認識とクロスモーダル能動知覚の評価 [cs.DB, cs.CV]目的：大規模モデルにおける時間認識とクロスモーダル能動知覚の評価
- 現実世界での知覚は，視覚，言語，聴覚などの複数の情報を時間とともに統合する必要がある。
- 既存の環境は2D/3D視覚に偏り，時間依存性の高い聴覚情報や選択的なクロスモーダル統合の評価が不十分である。
- 時間変化や不可逆的な条件下でのモダリティの協調と推論能力を評価するための環境を構築し，モデルの性能を分析する。
- モデルはモダリティの偏りに苦戦しており，時間的制約下での複数モダリティの統合能力に大きな課題があることが示唆された。
- EscapeCraft-4D環境は，トリガーベースの聴覚源，一時的な証拠，場所依存的な手がかりを取り込み，空間的・時間的な推論を必要とする。
- 詳細な分析により，複数のモダリティが複雑なマルチモーダル推論環境でどのように相互作用し，モデルの意思決定に影響を与えるかが明らかになった。
Link: https://arxiv.org/abs/2603.15467
工業検査における積み重ねられた物体の自動計数 [cs.CV]目的：工業検査における積み重ねられた物体の計数方法
- 工業製品の品質管理や在庫管理において，正確かつ迅速な計数は不可欠である。
- 積み重ねられた物体の奥部が隠れて見えにくいため，従来の画像処理技術では正確な計数が困難である。
- 複数視点からの画像を用いて，積み重ねられた物体の３次元形状と占有率を推定し，正確な計数を実現する。
- 提案手法は，幾何学的再構成と深層学習に基づく深度分析を組み合わせることで，積み重ねられた物体の計数を正確に行う。
- シミュレーションデータと実データを用いた実験により，現実的な検査条件下での堅牢性が確認された。
- 特に，不規則に積み重ねられたり，一部が隠されたりしている物体に対しても，高い精度を維持する。
Link: https://arxiv.org/abs/2603.15470
低照度画像強調のためのアンカーと研磨 [cs.RO, eess.SP, cs.CV]目的：低照度画像強調手法の改善
- 暗い場所での写真撮影が一般的になり，低照度画像の品質向上が重要である。
- 既存手法は複雑な構造で課題に対応するが，物理制約に過剰適合し，歪みが生じることがある。
- 大域的なエネルギーアライメントと局所的な詳細改善を分離し，自然な画像強調を目指す。
- 提案手法は，わずか12自由度の射影行列を用いたシーン適応的な大域的エネルギーアライメントにより，照度分布の安定化と色補正を実現した。
- 大域的アライメント後，ウェーブレット変換と色空間において，行列の指示に従い微細な研磨を行うことで，詳細な改善を可能にした。
- 複数のベンチマークにおいて，最先端の性能を示し，視覚的に自然で，定量的に優れた低照度画像強調を実現した。
Link: https://arxiv.org/abs/2603.15472
外挿的ドメイン適応全周視セグメンテーション [cs.CV, cs.LG, cs.RO, eess.IV]目的：ドメイン間の全周視セマンティックセグメンテーション
- 現実世界のアプリケーションにおいて，360度シーンを包括的に理解する上で重要である。
- 視野角の幾何学的歪みや，ドメイン間のオープンセットセマンティクスの不整合が課題となっている。
- 未知のクラスに対する汎化性能を高め，多様な視野角や環境変化に対するロバスト性を実現する。
- 提案手法EDA-PSegは，ローカルな透視画像で学習し，全周視画像でテストすることで，幾何学的歪みに対応する。
- Euler-Margin Attention (EMA)により，視点に依存しないセマンティック表現を強化し，未知クラスへの汎化を改善する。
- Graph Matching Adapter (GMA)は，視野角のずれに対応しつつ，新規カテゴリを構造適応により分離する。
Link: https://arxiv.org/abs/2603.15475
ViFeEdit：ビデオ拡散変換器のためのビデオなしチューナー [cs.CV]目的：ビデオ拡散変換器におけるビデオ生成と編集の実現
- 画像生成に続き，ビデオ生成技術は応用範囲が広く，その重要性が高まっている。
- ビデオデータのペアの不足と，ビデオ拡散モデルの学習コストが高いことが課題である。
- 2D画像のみを用いて，ビデオ生成と編集を可能とする新しいフレームワークを提案する。
- ViFeEditは，ビデオトレーニングデータを必要とせずに，多様なビデオ生成・編集を可能にする。
- 空間独立性を3Dアテンションから分離するアーキテクチャの再パラメータ化により，忠実な編集と時間的一貫性を実現する。
- 2D画像データのみを用いた最小限の学習で，制御可能なビデオ生成と編集が可能となる。
Link: https://arxiv.org/abs/2603.15478
RSGen：多様なエッジガイダンスを用いたレイアウト駆動型リモートセンシング画像生成の強化 [cs.CV, cs.AI]目的：リモートセンシング画像のレイアウト駆動型生成における性能向上
- リモートセンシングは，地球観測において不可欠であり，多様な応用分野で利用されている。
- 既存手法では，詳細な制御が難しく，バウンディングボックス制約を厳密に守ることが課題であった。
- 多様なエッジガイダンスを活用し，ピクセルレベルでの制御とレイアウトへの厳密な準拠を実現する。
- RSGenは，既存のL2Iモデルの能力を大幅に向上させることを実証した。
- DOTAデータセットにおけるCC-Diffを用いた実験で，YOLOScore mAP50/mAP50-95が+9.8/+12.0，mAPが+1.6と顕著な改善が見られた。
- 多様なエッジマップの生成と，それらを条件としたL2Iモデルの活用が，レイアウト制約の厳密な遵守に貢献する。
Link: https://arxiv.org/abs/2603.15484
リモートセンシング画像におけるリアルタイム指向物体検出Transformer [cs.CV]目的：リモートセンシング画像におけるリアルタイム指向物体検出手法の開発
- リモートセンシング技術は，災害監視や都市計画など多岐にわたる分野で活用が拡大している。
- 既存の物体検出手法は，特にリモートセンシング画像のように対象が任意角度で出現する場合，精度が低下しやすい。
- 対象の角度を正確に捉え，安定した学習を可能とするリアルタイムな指向物体検出手法の確立を目指す。
- 提案手法は，角度回帰を確率分布の反復的な洗練として再構成することで，対象の回転の不確実性を捉え，より詳細な角度表現を実現した。
- Chamfer距離コストを二部マッチングに組み込むことで，頂点集合間の距離測定を行い，より正確な幾何学的アライメントと曖昧なマッチングの排除を実現した。
- O2-DFINE-L，O2-RTDETR-R50，O2-DEIM-R50は，DOTA1.0においてそれぞれ77.73%/78.45%/80.15%のAP50，2080ti GPU上で132/119/119 FPSを達成した。
Link: https://arxiv.org/abs/2603.15497
バイナリニューラルネットワークの連合学習：低コスト推論の実現 [cs.LG, cs.CV]目的：バイナリニューラルネットワークの連合学習フレームワーク
- プライバシー保護の重要性が高まる中，分散型機械学習の需要が増加している。
- 低消費電力デバイスでの推論において，従来のDNNは計算コストとメモリ使用量の問題がある。
- バイナリ化によるモデル軽量化と精度低下のトレードオフを解消し，効率的な推論を可能にする。
- 提案手法FedBNNは，各重みを1ビットで表現することで，モデルサイズと計算量を大幅に削減する。
- FedBNNは，実数値モデルを用いた連合学習と比較して，同等の性能を維持しながらリソース消費量を削減する。
- 複数のベンチマークデータセットにおいて，FedBNNの効果が実証された。
Link: https://arxiv.org/abs/2603.15507
FreeTalk：感情を考慮したトポロジーフリー3Dトーキングヘッド [cs.CV]目的：感情条件付き3Dトーキングヘッドアニメーションの汎化
- 3D顔面アニメーション技術は高度化の一途を辿るが，テンプレートに依存した手法が主流である。
- テンプレートに縛られない，任意の形状の3Dスキャンへの適用が課題であった。
- 表情豊かなアニメーションを，テンプレートなしで実現する。
- FreeTalkは，音声と感情に基づいて，任意の形状の3D顔モデルを駆動する。
- まず，音声から3Dランドマークの動きを予測し，次にランドマークの動きをターゲットメッシュに転送する。
- 実験により，未知の人物や形状に対しても高いロバスト性を持つことが示された。
Link: https://arxiv.org/abs/2603.15512
胸部X線モデルにおける概念網羅のための臨床的に配慮された合成画像生成 [cs.CV, cs.HC]目的：胸部X線モデルの概念網羅のための合成画像生成手法
- AI診断モデルの臨床応用には，ベンチマークの精度だけでなく，多様な病状への頑健性が求められる。
- 公開されている胸部X線データセットは，重要な臨床的特徴の組み合わせが不足しており，臨床上重要な箇所でモデルの学習が不十分となる。
- 臨床的に妥当な合成画像生成により，特徴空間の網羅性を向上させ，胸部X線分類システムの性能と信頼性を高める。
- CARSは，臨床的特徴ベクトルへの標的を絞った摂動を適用することで，解剖学的構造を維持しながら病理学的所見の制御された挿入と削除を可能にする。
- CARSで生成された画像でファインチューニングすることで，精度-再現率の性能が向上し，予測の不確実性が低下し，モデルの較正が改善されることが示された。
- 構造的および意味的分析により，高い解剖学的忠実度，強力な特徴アラインメント，低い意味的不確実性が確認され，専門家による評価でも現実感と臨床的合意が確認された。
Link: https://arxiv.org/abs/2603.15525
Kimodo：制御可能な人間モーション生成のスケール拡大 [cs.CV, cs.GR, cs.RO]目的：高品質な人間モーションの生成
- ロボティクス，シミュレーション，エンターテイメント分野で人間モーションデータの重要性が増している。
- 公開されているモーションキャプチャデータセットの規模が小さく，モデルの品質や制御精度が制限されている。
- 大規模データセットとモデルサイズのスケーリングによる性能向上を目指す。
- Kimodoは，700時間のモーションキャプチャデータで学習された表現力豊かな拡散モデルである。
- テキストや全身キーフレーム，関節位置，2Dウェイポイントなどの多様な拘束条件による制御が可能である。
- ルートと体の予測を分解する二段階のノイズ除去アーキテクチャにより，モーションアーティファクトを最小限に抑え，柔軟な拘束条件を適用できる。
Link: https://arxiv.org/abs/2603.15546
隠れ層の自己蒸留による自己教師あり表現学習 [cs.CV, cs.LG]目的：自己教師あり表現学習の性能向上
- 近年，大量のデータから効率的に特徴量を学習する手法として注目されている。
- 既存手法では，計算コストや学習の不安定性といった課題が存在する。
- 異なる抽象度の特徴量を同時に学習することで，よりロバストな表現を獲得する。
- 提案手法Bootlegは，ImageNet-1KとiNaturalist-21の分類タスクにおいて，I-JEPAと比較して10%以上の性能向上を示した。
- ADE20KとCityscapesのセマンティックセグメンテーションにおいても良好な結果が得られた。
- Bootlegは，生成モデルと予測モデルの利点を組み合わせ，計算効率と学習安定性を両立している。
Link: https://arxiv.org/abs/2603.15553
制御可能な単一画像のリライティングのための潜在的プロキシ学習 [cs.CV]目的：制御可能な単一画像リライティングのための潜在的プロキシ
- 画像編集において，照明制御は重要な課題であり，現実感のある画像生成に不可欠である。
- 既存手法は，詳細な教師データに依存するか，物理的な根拠に乏しく，精密な制御が困難である。
- 本研究は，物理的に意味のある少数の手がかりを用いて，拡散モデルを導き，正確なリライティングを実現する。
- 提案手法LightCtrlは，少数のPBRデータから材質・形状の手がかりを抽出する潜在的プロキシエンコーダと，照明の影響を受けやすい領域を特定する照明対応マスクを統合する。
- ScaLightという大規模なデータセットを新たに作成し，物理的に一貫性のある制御可能な学習を可能にした。
- 既存手法と比較して，最大で+2.4dB PSNR，35%低いRMSEを達成し，照明変化に対するより忠実なリライティングを実現した。
Link: https://arxiv.org/abs/2603.15555
嘘の解剖：ビジョン言語モデルにおける幻覚の追跡のための多段階診断フレームワーク [cs.CV]目的：ビジョン言語モデルにおける幻覚の診断
- ビジョン言語モデルの信頼性は，その応用拡大において不可欠である。
- ビジョン言語モデルは事実に基づかない内容を生成する「幻覚」を起こしやすく，その原因特定が困難である。
- モデルの計算認知経路の異常を検出し，幻覚の原因を特定すること。
- 本研究では，幻覚を静的な出力エラーではなく，モデルの計算認知の動的な病理として捉える新たな診断パラダイムを提案した。
- 計算合理性の規範的原理に基づき，幻覚検出を幾何学的異常検出問題として捉え，高い性能を示した。
- 観測されたエラーを，知覚の不安定性，論理的因果関係の失敗，および決定的曖昧さといった明確な病理状態に結び付けることを可能にした。
Link: https://arxiv.org/abs/2603.15557
パノラマアフォーダンス予測 [cs.CV, cs.RO]目的：アフォーダンス予測の実現
- 具現化されたAIにおいて，知覚と行動を結びつける重要な役割を担う。
- 従来のピンホールカメラモデルでは視野が狭く，包括的な状況把握が困難である。
- パノラマ画像を用いたアフォーダンス予測による，状況把握の改善を目指す。
- 本研究では，1000を超える超高解像度パノラマ画像からなる大規模データセットPAP-12Kを公開した。
- また，パノラマ画像の特性に対応するため，粗い段階から徐々に詳細な位置を特定する手法PAPを提案した。
- 実験の結果，従来の画像認識手法は性能が低下する一方，提案手法PAPは大幅な性能向上を示した。
Link: https://arxiv.org/abs/2603.15558
スケルトンベース行動認識における深刻なドメインシフト：現実世界のジム環境における不確実性の失敗に関する研究 [cs.CV]目的：制御された多視点3Dスケルトンキャプチャから制約のない単眼2Dポーズ推定への移行に伴う複合ドメインシフトの安全性への影響の分析
- 行動認識は，ロボット工学，監視，医療など幅広い分野で不可欠であり，その実用化が求められている。
- 現実世界の環境下では，データ収集環境と利用環境の差異（ドメインシフト）が認識精度を著しく低下させる問題がある。
- 本研究では，ジム環境という新しいドメインシフトにおいて，モデルの不確実性推定の信頼性を検証し，安全な行動認識を実現する。
- スケルトンTransformerは，NTU-120データセットで高い認識精度を示す一方，GymデータセットやUCF101データセットでは極端に低い精度に低下した。
- 従来の不確実性推定手法は，この性能低下を検知できず，モデルは誤った予測を高い確信度で行っていた。
- 軽量なファインチューニングゲート機構を導入することで，モデルのキャリブレーションを改善し，誤った予測の割合を大幅に削減することに成功した。
Link: https://arxiv.org/abs/2603.15574
現実の都市に基盤を置くワールドシミュレーションモデル [cs.CV]目的：現実都市ソウルを基盤とするワールドモデルの構築
- 都市シミュレーションは，都市計画や自動運転などの分野で重要性が高まっている。
- 既存のワールドモデルは人工的な環境を生成し，現実世界の都市を忠実に再現できない。
- ソウルを基盤として，より現実的で多様な都市環境のシミュレーションを実現する。
- ソウルワールドモデル(SWM)は，ストリートビュー画像検索による条件付けで動画生成を行う。
- SWMは，時間的なずれ，軌跡の多様性不足，データスパース性といった課題を克服した。
- ソウル，釜山，アナーバーの3都市での評価で，SWMは既存手法を凌駕する性能を示した。
Link: https://arxiv.org/abs/2603.15583
参照音声誘導によるビデオからの音声合成：音響転送 [cs.SD, cs.CV, cs.LG, cs.MM, eess.AS]目的：ビデオからの音声合成における音響制御の精密化
- 映像と音響の連携は，没入感のあるマルチメディア体験の創出に不可欠である。
- 既存手法は，テキストラベルの曖昧さや音響的詳細の記述の難しさにより，精緻な音声合成が困難である。
- 参照音声を用いることで，テキストの曖昧さを回避し，音響属性の精密な操作を実現することを目指す。
- AC-Foleyは，参照音声に基づいて，従来のビデオからの音声合成モデルを凌駕する性能を示す。
- 参照音声を使用しない場合でも，最先端のビデオからの音声合成モデルと同等の競争力を持つ。
- 本手法は，音色の転送，ゼロショット音声生成，そして音質の向上を可能にする。
Link: https://arxiv.org/abs/2603.15597
受動的観察者から積極的批判者へ：強化学習がロボットマニピュレーションのためのプロセス推論を引き出す [cs.RO, cs.AI, cs.CL, cs.CV]目的：ロボットマニピュレーションにおけるプロセス推論の改善
- 長期的ロボットマニピュレーションの精度向上は重要課題である。
- 既存の視覚言語モデルは，タスク目標との関連性評価が不十分である。
- 強化学習を用いて，より積極的なプロセス評価を実現する。
- PRIMO R1は，既存の視覚言語モデルを「観察者」から「批判者」へと変革する。
- PRIMO R1は，専門的な推論ベースラインと比較して平均絶対誤差を50%削減した。
- RoboFailベンチマークにおいて67.0%の精度を達成し，OpenAI o1を6.0%上回る性能を示した。
Link: https://arxiv.org/abs/2603.15600
高速 SAM 3D Body：リアルタイム全身ヒューマンメッシュ復元のためのSAM 3D Body の高速化 [cs.CV]目的：単眼画像からの3Dヒューマンメッシュ復元処理の高速化
- ヒューマンメッシュ復元は，ロボティクスや仮想現実など，様々な分野で重要な役割を果たす。
- 既存のSAM 3D Body は高精度だが，処理速度が遅く，リアルタイム応用が困難である。
- 本研究は，SAM 3D Body の処理速度を向上させ，リアルタイム全身ヒューマンメッシュ復元を実現する。
- 提案手法 Fast SAM 3D Body は，SAM 3D Body の推論経路を再構築し，並列化と効率的なtransformer decoding により，処理速度を大幅に向上させた。
- 反復的なメッシュフィッティングを直接的なフィードフォワードマッピングに置き換えることで，SMPL 互換の関節レベルのキネマティクス抽出を 10,000 倍以上に高速化。
- 最大 10.9 倍の高速化を実現しつつ，再構成精度を維持し，LSPET などのベンチマークでSAM 3D Body を上回る性能を示した。
Link: https://arxiv.org/abs/2603.15603