arXiv雑要約

画像・音声 - 2026/03/10 公開

大規模言語モデル駆動による関係性モデリングを用いたUAV越景地物特定精度の向上 [cs.CV]目的：UAV越景地物特定のための精度向上
- ドローン技術の発展に伴い，正確な位置情報が不可欠となっているため。
- 既存手法は，異なる視点間の関係性を十分に考慮できていない。
- 大規模言語モデルを活用し，視点間の関係性を明示的に捉えることで精度向上を目指す。
- 提案手法は，UAV画像と衛星画像を関連付けるための関係性モデリングアーキテクチャを導入した。
- 大規模言語モデルを活用することで，画像間の視覚的・意味的相関を効果的に学習した。
- 様々なベンチマークテストにおいて，既存モデルと比較して高い検索精度を達成した。
Link: https://arxiv.org/abs/2603.08063
1次元コード分布による生成モデルの評価 [cs.CV]目的：生成モデルの評価手法
- 生成モデルの性能評価は，AI研究開発の進展に不可欠である。
- 従来の評価指標は，知覚的な品質を反映しにくいという課題がある。
- 離散的な視覚トークン空間での評価により，知覚品質との相関を高める。
- 提案手法であるCHDとCMMSは，既存の指標よりも人間の判断との相関が高いことが示された。
- 新たなベンチマークであるVisFormにより，多様な視覚形式に対する評価が可能になった。
- コードおよびデータセットは公開され，今後の研究を促進する。
Link: https://arxiv.org/abs/2603.08064
マルチモーダル大規模言語モデルを用いた電力線絶縁体検査のための合成欠陥画像生成 [cs.CV]目的：電力線絶縁体の欠陥検査における合成欠陥画像の生成
- 送電網の安定稼働には，絶縁体の適切な検査が不可欠であり，その効率化が求められている。
- 欠陥画像のデータが不足しているため，高精度な欠陥分類器の学習が困難である。
- 大規模言語モデルを用いて合成画像を生成することで，データ不足の問題を解決する。
- 提案手法により，実データのみで学習した場合と比較してF1スコアが大幅に向上した。
- 合成画像を少量追加するだけで，データ効率が4〜5倍向上することが示された。
- 本手法は，実データの収集が困難な状況下でも欠陥認識の精度を高める実用的な手段となり得る。
Link: https://arxiv.org/abs/2603.08069
TALON：オン・ザ・フライ型カテゴリ検出のためのテスト時適応学習 [cs.CG, cs.CV]目的：オン・ザ・フライ型カテゴリ検出における性能向上
- 画像認識技術は，監視カメラや自動運転など様々な分野で不可欠であり，その進化が求められている。
- 従来のオン・ザ・フライ型カテゴリ検出は，固定された特徴抽出器を使用し，情報損失やカテゴリの過剰な分裂が課題であった。
- 本研究は，テスト時の適応学習により，モデルが新たな情報を活用し，より正確なカテゴリ検出を実現することを目指す。
- 提案手法では，セマンティック情報を活用したプロトタイプの更新と，安定したテスト時エンコーダの更新を組み合わせることで，知識ベースの継続的な拡張を可能にした。
- オフライン段階でのマージンを意識したロジット校正により，クラス間の識別性を高め，新たなカテゴリの検出空間を確保した。
- 標準的なベンチマークデータセットを用いた実験により，提案手法が既存手法を大幅に上回り，新規カテゴリの精度向上とカテゴリ爆発の抑制に貢献することが示された。
Link: https://arxiv.org/abs/2603.08075
M-ABD：スケーラブルで効率的かつ堅牢な多重アフィンボディダイナミクス [cs.IR, eess.SY, cs.SY, cs.GR]目的：大規模関節構造物のシミュレーション手法
- ロボット工学や物理シミュレーションにおいて，複雑な構造の挙動を正確に予測する重要性が高い。
- 従来の剛体ソルバーは，回転パラメータ化による非線形性の高さから，大規模構造物のシミュレーションが困難。
- アフィンボディダイナミクスの線形近似性を活用し，大規模構造物のシミュレーションを高速化し，安定性を向上させる。
- 本手法は，数百万個のボディを持つシステムでも，単一CPUコアでインタラクティブな速度を実現。
- 最小関節自由度で定義されるコンパクトな双対空間へのマッピングにより，高自由度システムの計算量を削減。
- KKTシステムを解くことで，正確な制約条件の強制と物理的に正確な運動伝播を保証。
Link: https://arxiv.org/abs/2603.08079
リアクティブからマップベースのAIへ：物体目標ナビゲーションのための調整されたローカルLLMによるセマンティックゾーン推論 [cs.CL, cs.HC, cs.CV]目的：物体目標ナビゲーションにおけるセマンティックゾーン推論
- ロボットの自律移動において，未知環境下での物体探索とナビゲーションは重要な課題である。
- 既存のLLMベースのエージェントは空間記憶に乏しく，冗長な探索や近視眼的な行動に陥ることがある。
- LLMによるセマンティック推論とマップシステムを統合し，効率的な探索とナビゲーションを実現すること。
- 提案手法は，従来のフロンティア探索やLLMベースラインと比較して，AI2-THORシミュレータにおいて成功率と経路長を考慮した成功率で大幅な性能向上を示した。
- LLMをファインチューニングし，観察された物体からセマンティックゾーンのカテゴリと目標存在確率を推論する。
- 推論されたセマンティック情報をトポロジカルグラフに統合し，確率の高い領域を優先的に探索することで，体系的な探索を実現する。
Link: https://arxiv.org/abs/2603.08086
DSH-Bench：階層的被写体分類に基づく難易度・シナリオ対応型被写体駆動テキスト-画像生成ベンチマーク [cs.RO, cs.CV, cs.AI]目的：被写体駆動型テキスト-画像生成モデルの体系的な多角的分析
- 近年，テキストから画像を生成する技術が進歩，特に被写体を指定する生成が注目されている。
- 既存の評価指標では，被写体の多様性，難易度，プロンプトのシナリオに応じた評価が不十分である。
- この研究は，被写体駆動型テキスト-画像生成モデルの評価方法を改善し，モデル改善の方向性を示す。
- DSH-Benchは，58種類の細分化されたカテゴリを網羅する階層的な分類体系を導入し，被写体表現の包括性を確保した。
- SICSという新しい指標を提案，既存の指標よりも高い精度で被写体の同一性保持能力を定量化した。
- 19の主要モデルを評価した結果，既存手法の隠れた課題を明らかにし，今後の研究開発の具体的な方向性を示した。
Link: https://arxiv.org/abs/2603.08090
TrianguLang：姿勢推定なし3D位置推定のための幾何学的認識に基づく意味的合意 [cs.CV]目的：3D空間における自然言語からの物体および部品の位置推定
- ロボティクス，AR，具現化されたAIにとって不可欠な技術であり，実世界とのインタラクションを可能にする。
- 既存手法は，シーン毎の最適化の精度と幾何学的整合性，およびフィードフォワード推論の効率性の間でトレードオフが存在する。
- 姿勢推定なしで，幾何学的整合性を重視した効率的な3D位置推定を実現し，ユーザーの負担を軽減すること。
- TrianguLangは，カメラキャリブレーションを必要としないフィードフォワードフレームワークであり，実用的な展開を可能にする。
- ScanNet++およびuCO3Dを含む5つのベンチマークで，最先端のテキスト誘導セグメンテーションと位置推定を達成した。
- 1008x1008解像度で約57ms（約18 FPS）の処理速度を実現し，最適化を必要としない。
Link: https://arxiv.org/abs/2603.08096
PathBench：病的音声評価のための音声明瞭度ベンチマーク [cs.SD]目的：病的音声評価のための統一ベンチマーク
- 音声障害のモニタリングや治療効果の評価は重要であり，客観的な評価手法の確立が求められている。
- 既存の研究は，非公開データセットや不統一な評価プロトコルが用いられ，比較が困難であるという問題がある。
- 本研究は，公開データセットを用いた統一ベンチマークを提供することで，客観的な評価を可能にすることを目指す。
- PathBenchは，3つの評価プロトコルで参照なし，参照テキスト，参照音声の各手法を比較した。
- 6つのデータセットでベンチマークのベースラインを確立し，今後の研究の体系的な評価を可能にした。
- Dual-ASR Articulatory Precision (DArtP) が参照なし手法の中で最も高い相関を示した。
Link: https://arxiv.org/abs/2603.08097
大規模Vision Transformerに対する適応的なMLPプルーニング [cs.CV]目的：大規模Vision Transformerのパラメータ削減
- Vision Transformerは拡張性が高いが，巨大なパラメータ数と計算コストが課題となる。
- Transformer構造において，MLPモジュールが大部分のパラメータを占めている。
- MLPモジュールの重要度に基づいてパラメータを削減し，性能劣化を抑制すること。
- 本研究では，Taylor展開に基づくニューロン重要度評価に，ラベルフリー情報エントロピー基準を導入した。
- これにより，MLPモジュールの冗長性を考慮した適応的なプルーニングを実現し，約40%のパラメータとFLOPs削減を達成した。
- ファインチューニングなしでも，他のプルーニング手法と比較して大幅な性能向上を示した。
Link: https://arxiv.org/abs/2603.08100
SAMoE-VLA：シーン適応型混合エキスパートを用いたビジョン・言語・行動モデル：自動運転への応用 [cs.RO, cs.CV]目的：自動運転におけるビジョン・言語・行動モデルの性能向上
- 自動運転技術は，安全性向上と効率化に不可欠であり，その重要性は増している。
- 従来のVLAモデルでは，トークンレベルのMoE機構が不安定性や安全性低下を引き起こす。
- シーンレベルでの専門家選択により，VLAモデルの性能と安全性を改善することを目指す。
- SAMoE-VLAは，シーンの構造化表現に基づいて専門家選択を行うことで，安定性と安全性を向上させた。
- BEV特徴からMoEルーティング信号を導き出し，多様な運転条件下で専門家の重み付けを調整する。
- nuScenesおよびLangAutoのベンチマークにおいて，既存手法を凌駕する最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.08113
Foley-Flow：マスク付きオーディオ・ビジュアルアラインメントと動的条件付きフローを用いた協調的な動画からのオーディオ生成 [cs.CL, cs.CV, cs.AI, cs.LG, cs.SD, eess.AS]目的：動画入力に基づく協調的なオーディオ生成
- 動画と音響の同期は，メディアコンテンツの品質において重要であり，没入感や理解度に影響する。
- 既存手法では，全体的な意味の一致は実現できても，時間的なリズムの一致が課題となっていた。
- 意味とリズムの両方において動画と同期したオーディオ生成を可能にすることを目指す。
- FoleyFlowは，マスクモデリングによるユニモーダルAVエンコーダのアラインメントを通じて，意味的およびリズム的な一貫性を獲得する。
- 動的条件付きフローを用いることで，動画の特徴量に基づいてオーディオセグメントの生成を時間的に誘導する。
- 標準的なベンチマークにおいて，既存手法を上回る性能を示し，FoleyFlowの有効性が確認された。
Link: https://arxiv.org/abs/2603.08126
UniGround：訓練不要なシーン解析による汎用3Dビジュアルグラウンディング [cs.RO, cs.CV]目的：3D環境における自然言語記述に基づく物体理解と位置特定
- ロボティクス，AR，HRI等への応用が期待され，具現化されたAI研究の基盤技術である。
- 事前学習モデルに依存し，未知の空間関係への汎化や分布外のシーンへのロバスト性が課題となっていた。
- 事前学習に頼らず，汎用的な3Dビジュアルグラウンディングを実現し，未知の物体やシーンへの対応を目指す。
- UniGroundは，訓練不要な3Dトポロジーとマルチビューセマンティックエンコーディングによる候補フィルタリングと，マルチスケールビジュアルプロンプティングと構造化推論による高精度な位置特定を行う。
- ScanReferにおいて46.1\%/34.1\%（Acc@0.25/0.5），EmbodiedScanで28.7\%（Acc@0.25）を達成し，EmbodiedScanにおけるゼロショット手法として最高性能を確立した。
- 実環境下での評価においても，訓練不要な推論がロバストに汎化することを示し，既存のベンチマークを超えた性能を発揮した。
Link: https://arxiv.org/abs/2603.08131
3D暗視シーンの高速な低照度改善とデブラーリング [cs.CV]目的：低照度，ノイズ，モーションブラーを含む画像からの新規視点合成
- 映像表現において，暗所での高品質な画像生成は重要な課題である。
- 従来の技術では，複合的な劣化に強く，前処理による歪みが生じやすい。
- 本研究は，3Dシーン復元を効率的に行うための新たなフレームワークを提案する。
- 提案手法FLED-GSは，既存のLuSh-NeRFを上回り，学習速度が21倍，レンダリング速度が11倍となった。
- 中間輝度アンカーを導入することで，ノイズの増幅を抑制し，デブラーリングとジオメトリの精度向上に貢献する。
- 2Dデブラーラーとノイズを考慮した3DGS再構成を交互に行うことで，高画質な3Dシーンの復元を実現した。
Link: https://arxiv.org/abs/2603.08133
血管融合：3D CT画像からの血管中心線抽出のための拡散モデル [cs.FL, cs.CV]目的：3D CT画像からの血管中心線抽出
- 医療画像解析において，血管構造の正確な把握は診断や治療計画に不可欠である。
- 従来の抽出手法は決定論的であり，複雑な血管構造を捉えきれない場合がある。
- 拡散モデルを用いることで，より自然で安定した血管中心線の抽出を目指す。
- 提案手法VesselFusionは，粗から細への表現と投票に基づく集約により，自然な血管中心線抽出を実現した。
- 公開されているCT画像データセットを用いた評価で，既存手法よりも高い抽出精度と自然な結果が得られた。
Link: https://arxiv.org/abs/2603.08135
MV-Fashion：マルチビューペアデータを用いたバーチャル試着とサイズ推定の実現に向けて [cs.CV]目的：ファッション分析のための大規模マルチビュービデオデータセット
- ファッション分野の研究において，リアルな衣服の挙動やタスク固有の注釈を持つデータセットが不可欠である。
- 既存の4D人体データセットは，衣服特有の研究に必要なリアリズムや注釈が不足しているという課題がある。
- 本研究は，バーチャル試着やサイズ推定といったタスクに必要な，詳細なアノテーションとペアデータを備えたデータセットを構築することで，この課題を解決する。
- MV-Fashionは，多様な被験者による衣服の着用動画を収録した大規模データセットであり，複雑な衣服の挙動を捉えることが可能である。
- ピクセルレベルのセマンティックアノテーション，弾性率などのマテリアル特性，3D点群など，豊富なデータ表現が特徴である。
- バーチャル試着アプリケーションのために，着用画像とカタログ画像のペアデータを提供し，関連タスクのベンチマークを確立した。
Link: https://arxiv.org/abs/2603.08147
エッジUSLAM：学習に基づく深度事前情報を用いたエッジ認識型イベントベースSLAM [cs.CV, cs.RO]目的：エッジ認識型イベントベースSLAMシステムの開発
- SLAMはロボットの自律移動に不可欠だが，従来の視覚SLAMは環境変化に弱い。
- イベントカメラは高速・高輝度範囲に対応するが，データ特性から特徴抽出が困難。
- イベントカメラと従来のカメラを融合し，安定したSLAMを実現すること。
- 提案手法Edged USLAMは，イベントカメラの特性を活かしつつ，エッジ認識と深度情報の活用によりロバスト性を向上。
- 特に，低速または構造化された軌道において，従来のイベントベースSLAMよりも安定性とドリフトの低減に優れる。
- 実験結果から，イベントベースSLAM，学習ベースSLAM，ハイブリッドアプローチはそれぞれ異なる状況で強みを発揮することが示唆された。
Link: https://arxiv.org/abs/2603.08150
スペクトログラムにおける音風景：南アジアの音の多重ラベル分類の先駆 [cs.CL, cs.SD, cs.MM]目的：南アジアの音の多重ラベル分類
- 都市モニタリングや文化音響景観分析において，環境音の分類は重要性が増している。
- 南アジア地域では複数の音が重なり合うため，従来のMFCCに基づく手法では困難が生じる。
- 複雑な音響パターンを捉え，より高精度な環境音分類システムの構築を目指す。
- 提案手法は，既存のMFCCに基づく手法と比較して，両データセットで高い分類精度を達成した。
- スペクトログラムに基づく手法は，複雑な音響パターンをより効果的に捉えることが確認された。
- 本研究は，実用的な音声分類システムの開発に向けた基盤を提供する。
Link: https://arxiv.org/abs/2603.08154
進化戦略に基づく音声モデル低ビット量子化のキャリブレーション [cs.SD, cs.AI]目的：音声モデルの低ビット量子化におけるキャリブレーション手法
- 音声処理システムの効率的な実装には量子化が不可欠であり，その重要性は増している。
- 既存の量子化手法は主に画像や自然言語処理向けであり，音声特有の課題への対応が遅れている。
- 音声活性化関数の大きなキャリブレーション範囲による情報損失を軽減する。
- 提案手法ESCは，進化戦略を用いた活性化関数のスケーリング最適化により，INT8量子化下での性能劣化を抑制する。
- ESCは，複数の音声タスクにおいてINT4量子化下でほぼ損失のない性能を実現する初のキャリブレーション手法である。
- ESCをPTQ法と組み合わせることで，ASTモデルの精度低下を1%相対的に抑えることができた。
Link: https://arxiv.org/abs/2603.08173
MERLIN：電磁波信号に対する低SNRロバストなマルチモーダルLLMの構築 [cs.CV]目的：電磁波信号とテキスト間の対応付けを学習するマルチモーダル大規模言語モデルの基盤確立
- 電磁波分野における情報処理の高度化が求められており，AI技術の応用が期待されている。
- 電磁波信号とテキストデータのペア数が少なく，モデルの学習が困難である。
- 低SNR環境下での性能劣化を克服し，電磁波信号処理の信頼性を向上させる。
- 本研究では，10万件以上の電磁波信号とテキストのペアから構成される大規模データセットEM-100kを構築・公開した。
- また，電磁波信号からテキストを生成するタスクを評価するための包括的なベンチマークEM-Benchを提案した。
- 提案手法MERLINは，EM-Benchにおいて最先端の性能を示し，低SNR環境下でも優れたロバスト性を持つことが確認された。
Link: https://arxiv.org/abs/2603.08174
ALOOD：LiDARを用いた分布外物体検出のための言語表現の活用 [cs.CV, cs.LG]目的：LiDARを用いた分布外物体検出手法
- 自動運転システムの安全性・信頼性は不可欠であり，3D物体検出はその重要な要素である。
- 既存の検出器は，未知のカテゴリの物体に対して過信した予測を行い，安全上のリスクとなる。
- 本研究は，言語表現を用いることで分布外物体検出の精度向上を目指す。
- 提案手法ALOODは，画像と言語の情報を統合するVLMを活用し，LiDAR特徴とVLMの特徴空間を整列させる。
- これにより，分布外物体検出をゼロショット分類問題として扱うことを可能にした。
- nuScenes OODベンチマークにおいて，競争力のある性能を達成し，LiDARによる分布外物体検出への新たなアプローチを確立した。
Link: https://arxiv.org/abs/2603.08180
Fusion-Poly：空間的・時間的融合に基づく3Dマルチオブジェクトトラッキングの多面体フレームワーク [cs.CV, cs.RO]目的：3Dマルチオブジェクトトラッキングにおける空間的・時間的融合フレームワークの開発
- 自動運転やロボティクスにおいて，周囲環境の正確な理解が不可欠であり，3Dオブジェクトトラッキングは重要な技術である。
- LiDARとカメラは異なるサンプリングレートで動作するため，時間的な同期が課題であり，既存手法では非同期データの活用が十分ではない。
- 非同期なLiDARとカメラデータを効果的に融合し，より高頻度なアソシエーションとロバストな軌跡推定を実現する。
- Fusion-Polyは，同期および非同期フレームにおいて軌跡とマルチモーダルな観測をアソシエートすることで，より高頻度な更新を可能にする。
- 提案手法は，nuScenesテストセットにおいて76.5%のAMOTAを達成し，トラッキング・バイ・ディテクション方式で最先端の結果を確立した。
- 各コンポーネントの有効性を示すアブレーションスタディも実施され，効果が検証されている。
Link: https://arxiv.org/abs/2603.08199
MM-TS：コントラスト学習におけるマルチモーダル温度およびマージンスケジュール（ロングテールデータ用） [cs.CV, cs.AI]目的：コントラスト学習におけるマルチモーダル温度とマージンスケジュールの改善
- マルチモーダル学習は，画像や言語など複数の情報を統合し，より高度な理解を可能にする重要な研究分野である。
- マルチモーダルデータセットは不均衡になりがちで，少数クラスの学習が課題となることが多い。
- ロングテールデータに対するコントラスト学習の性能向上を目指す。
- 提案手法MM-TSは，マルチモーダルコントラスト学習において温度パラメータを動的に調整することで，学習効率と性能を向上させる。
- 特に，データ分布の偏りを考慮し，高密度なクラスに対してはより高い温度を適用することで，意味構造の維持に貢献する。
- Flickr30K，MSCOCO，EPIC-KITCHENS-100，YouCook2の評価により，最先端の結果を達成した。
Link: https://arxiv.org/abs/2603.08202
異種熱・可視センサーを用いたUAV検出のためのアライメント認識・信頼度ゲート型マルチモーダル融合 [cs.CL, cs.CV, cs.AI]目的：異種センサーからの情報を融合し，UAV検出性能の向上
- 自律的な空域監視には，UAVの信頼性の高い検出が不可欠であり，その重要性は増している。
- 従来の手法では，異なるセンサー間での空間的な対応関係の維持が難しく，アノテーションの不整合も課題となっていた。
- 本研究では，アライメントと信頼度を考慮した融合により，異種センサー間の情報を効果的に統合し，UAV検出の精度向上を目指す。
- RGIFは，ベースラインと比較してmAP@50で2.13%の改善を示し，97.65%を達成した。
- RGMAFは，最高の再現率である98.64%を達成した。
- アライメント認識と信頼度適応型融合は，異種モダリティ統合のための堅牢なフレームワークを提供する。
Link: https://arxiv.org/abs/2603.08208
Video2LoRA: 参照動画に基づくLoRAによる統一的な意味制御型動画生成 [cs.CV]目的：多様な動画生成条件における意味的整合性
- 動画生成技術はエンターテイメントから研究まで幅広い分野で応用が拡大している。
- 既存手法は，厳格な空間制約や個別の制御タイプ間の非互換性の問題がある。
- 参照動画に基づき，柔軟かつ効率的な意味制御型動画生成を実現すること。
- Video2LoRAは，参照動画に基づいて各意味入力に対応するLoRA重みを予測する軽量なハイパーネットワークを用いる。
- これにより，条件ごとに学習することなく，参照動画の意味論に沿った動画を生成可能である。
- モデルサイズは150MB未満と軽量であり，多様な条件で意味的に整合性の取れた動画生成と，未知の意味に対するゼロショット汎化能力を示す。
Link: https://arxiv.org/abs/2603.08210
音声認識を考慮したビデオ表現学習：ビデオとテキストの検索 [cs.CV]目的：ビデオとテキストの検索のためのビデオ表現学習の改善
- ビデオとテキストの検索は，多様なメディア情報の効果的な利用に不可欠である。
- 既存手法は視覚情報に偏っており，音声情報の活用が不十分である。
- 音声情報をより効果的に活用し，視覚情報との融合を最適化することを目指す。
- 提案手法SAVEは，最先端のAVIGATEを上回り，MSRVTT-9kで+4.1%の性能向上を達成した。
- SAVEは，VATEX, Charades, LSMDCにおいても一貫して優れた性能を示した。
- SAVEは，早期の視覚-音声アライメントにより，効果的な融合を実現している。
Link: https://arxiv.org/abs/2603.08224
SRNeRV：ニューラル動画表現のためのスケールごとの再帰的フレームワーク [cs.CV]目的：ニューラル動画表現の効率的なフレームワーク
- 動画処理において，高解像度な動画を効率的に処理・圧縮する技術は重要である。
- 既存の多スケールINRジェネレータは，スケールごとに独立した処理ブロックを積み重ねるため，パラメータ効率が低い。
- スケールの自己相似性を活用し，パラメータを削減しつつ，動画のスケール固有の空間パターンを学習すること。
- SRNeRVは，スケールごとに処理ブロックを共有する再帰的なフレームワークにより，モデルサイズを大幅に削減することに成功した。
- 提案手法は，スケールに依存する空間混合モジュールとスケールに依存しないチャネル混合モジュールを組み合わせたハイブリッド共有スキームを採用している。
- 実験結果から，SRNeRVは特にINRに適したシナリオにおいて，レート歪み性能を大幅に向上させることが示された。
Link: https://arxiv.org/abs/2603.08227
GarmentPainter：キャラクター誘導拡散モデルによる効率的な3D衣服テクスチャ合成 [cs.CV]目的：3D衣服テクスチャの合成手法
- 衣服のデザインやバーチャルファッションにおいて，高品質な3Dテクスチャは重要な役割を担う。
- 既存手法は，3Dの一貫性や柔軟性，スケーラビリティに課題があり，実用性に限界があった。
- キャラクター画像を参考に，3D衣服テクスチャを効率的に合成し，一貫性と品質を向上させる。
- GarmentPainterは，UV空間における3D構造ガイダンスを活用し，衣服表面のテクスチャの一貫性を確保する。
- タイプ選択モジュールにより，3Dメッシュと参照画像のアライメントなしで，特定の衣服コンポーネントの微調整が可能となる。
- 視覚的な品質，3Dの一貫性，計算効率において，既存手法を上回る最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.08228
曖昧な感情予測のための大規模オーディオ言語モデルにおける推論の解明 [cs.SD, cs.AI, eess.AS]目的：曖昧な感情認識における分布的推論
- 感情認識は，多様な応用において重要な役割を果たす。
- 既存手法は単一の感情ラベルを予測し，感情表現の本質的な曖昧さを無視する。
- 大規模言語モデルにおける曖昧な感情理解のための推論能力向上を目指す。
- 提案手法は，人間の知覚分布に合わせた目的関数と構造化された連鎖思考による指導で，曖昧さを考慮した推論を可能にする。
- IEMOCAPとCREMA-Dでの実験により，SFT，DPO，GRPOの各学習戦略で一貫した性能向上が確認された。
- 曖昧感情認識を分布的推論問題として再構築し，大規模オーディオ言語モデルの曖昧さへの対応を体系的に研究した。
Link: https://arxiv.org/abs/2603.08230
糖尿病性網膜症および黄斑浮腫に対する深層学習と超広角イメージングの探求 [cs.CV, cs.AI]目的：糖尿病性網膜症および黄斑浮腫の診断・評価
- 視力障害の主要な原因である糖尿病性網膜症と黄斑浮腫の早期発見・治療が重要である。
- 従来の検査法では，網膜周辺部の病変の検出が困難であった。
- 超広角イメージングと深層学習を組み合わせることで，より高精度な診断を目指す。
- 本研究では，超広角イメージングにおける画像品質評価，糖尿病性網膜症の識別，黄斑浮腫の識別に深層学習モデルを適用した。
- Vision TransformerやFoundation Modelといった最新モデルが優れた性能を示し，特徴量レベルでの融合が有効であることが示された。
- Grad-CAMを用いた可視化により，深層学習モデルの判断根拠の解明にも貢献した。
Link: https://arxiv.org/abs/2603.08235
SiMO：単一モダリティ運用可能なマルチモーダル協調知覚 [cs.CV]目的：マルチモーダル協調知覚における単一モダリティ運用能力の実現
- 複数エージェントの視覚情報を統合し，検知範囲拡大や遮蔽問題の解決に貢献する分野である。
- 既存手法は主要センサーの故障時に性能が著しく低下する問題がある。
- モダリティ間の意味的不整合を解消し，単一モダリティでも安定した性能を発揮することを目指す。
- 提案手法SiMOは，Length-Adaptive Multi-Modal Fusion (LAMMA)により，センサー故障時にも残りのモダリティ情報を適応的に処理する。
- 独自の“Pretrain-Align-Fuse-RD”訓練戦略により，モダリティ間の競合を抑制し，各モダリティの独立性を確保する。
- 実験により，SiMOがマルチモーダル特徴を整合させつつ，モダリティ固有の特徴も維持し，単一モダリティでも最適な性能を維持することが示された。
Link: https://arxiv.org/abs/2603.08240
位相的に安定なハフ変換 [cs.CG, cs.CV]目的：点群における直線の検出
- 幾何学的な形状認識において，直線は基本的な構成要素であり重要である。
- 従来のハフ変換は，離散化による影響を受けやすく，ノイズに弱いという課題がある。
- 持続ホモロジーに基づく安定な特徴量を用いて，よりロバストな直線検出を実現すること。
- ハフ変換の離散化された投票スキームを連続的なスコア関数に置き換えることで，安定な直線候補を抽出する。
- 持続ホモロジーの概念を用いて，直線候補の永続的な特徴を捉えることで，ノイズの影響を軽減する。
- 効率的な直線候補計算アルゴリズムを開発・実装し，その有効性を示した。
Link: https://arxiv.org/abs/2603.08245
DynamicVGGT：自動運転のための4Dシーン再構成における動的な点マップの学習 [cs.CV]目的：自動運転における4Dシーン再構成のための動的な点マップの学習
- 自動運転の実現には，周囲環境の正確な認識が不可欠であり，動的なシーンの再構成は重要な課題である。
- 既存の3Dモデルは静的なシーンの再構成には優れているものの，動的な変化や移動物体への対応が課題である。
- 本研究は，動的な3Dモデルを構築し，時間的な一貫性を保ちつつ点運動を捉えることを目指す。
- 提案手法DynamicVGGTは，現在の点マップと将来の点マップを同時に予測することで，動的な点表現を学習する。
- Motion-aware Temporal Attentionモジュールを導入し，時間的な依存関係を効率的に捉え，点運動の連続性を学習する。
- 実験結果から，DynamicVGGTは既存手法と比較して再構成精度が大幅に向上し，複雑な運転シナリオ下で頑健な4Dシーン再構成を実現することが示された。
Link: https://arxiv.org/abs/2603.08254
WaDi：重み方向を意識したワンステップ画像合成への蒸留 [cs.CL, cs.CV]目的：拡散モデルの高速化に向けた蒸留手法の開発
- 拡散モデルは高性能だが，推論速度が遅く実用化が課題。
- 既存の蒸留手法では，拡散モデルの性能を十分に活かせていない。
- 重み方向の変化に着目し，効率的な蒸留フレームワークを構築する。
- 提案手法WaDiは，COCO 2014および2017において最先端のFIDスコアを達成した。
- U-Net/DiTのわずか10%程度の学習パラメータで，高い性能を維持している。
- 制御された生成，関係反転，高解像度合成など，多様な下流タスクへの汎化性能も確認された。
Link: https://arxiv.org/abs/2603.08258
イベントベースモーション・外観融合による6Dオブジェクト姿勢追跡 [cs.CV]目的：6Dオブジェクト姿勢追跡手法
- ロボットが家庭や産業環境でタスクを実行するための基盤技術であり重要である。
- 高速動環境下では，モーションブラーやフレームレートの制約によりRGB-Dカメラの性能が制限される。
- イベントカメラの特性を活用し，高速な姿勢追跡を実現することで，この課題を解決する。
- 提案手法は，イベントベースの光流から得られるオブジェクト速度を用いて姿勢を予測し，テンプレートマッチングによる局所的な修正を行う。
- 学習を必要としないにもかかわらず，最先端アルゴリズムと同等の性能を示し，場合によっては高速移動物体に対してそれを上回る。
- イベントカメラが，深層学習アプローチが制限を受ける高速動的環境において有効である可能性を示す。
Link: https://arxiv.org/abs/2603.08264
拡散モデルにおけるプロトタイプ誘導概念消去 [cs.CV]目的：広範な概念の信頼性のある消去
- 画像生成技術の安全性向上は重要であり，望ましくないコンテンツ生成の抑制が求められている。
- 既存手法は具体的な概念の消去には有効だが，広範な概念（例：性的，暴力的）の消去は困難である。
- 拡散モデルの潜在空間における概念の表現を利用し，広範な概念の消去をより正確に行う。
- モデル内部の概念プロトタイプを特定し，負の条件付け信号として用いることで，広範な概念の消去を可能にした。
- 複数のベンチマークにおいて，広範な概念の消去性能が大幅に向上し，画像品質を維持することを示した。
- 本研究は，より安全で制御可能な画像生成への一歩となる。
Link: https://arxiv.org/abs/2603.08271
OSCAR：音響ニューラル暗黙的表現による占有率に基づく形状補完 [cs.CV]目的：超音波画像からの椎骨解剖学的形状の完全3D再構築
- 低侵襲脊椎手術のガイドには正確な3D再構築が不可欠であり，医療現場での応用が期待される。
- 超音波検査では音響シャドウイングや視点依存性の信号変動により，正確な3D再構築が困難である。
- 本研究は，超音波画像から遮蔽された解剖学的構造を正確に再構築し，手術支援に貢献することを目的とする。
- 提案手法は，ラベルを用いずに画像の外観と基礎となる解剖学的形状を共同で表現する潜在空間を構築する。
- 音響パラメータを考慮したニューラル暗黙的表現を用いることで，明示的なシャドウイングラベルなしに，見えない領域を認識する。
- Bモード超音波における最先端の形状補完手法と比較して，HD95スコアで80%の性能向上を達成した。
Link: https://arxiv.org/abs/2603.08279
ゼロショット行動認識のための新規意味的プロンプティング [cs.CV]目的：ゼロショット行動認識における性能向上
- 視覚と言語の融合による，多様な行動認識への応用が期待される分野である。
- 未学習の行動に対する認識精度が，既存手法では十分とは言えない。
- 意味的プロンプティングによって，モデルの汎化性能を高めることを目指す。
- SP-CLIPは，既存の視覚言語モデルに構造化された意味的プロンプトを追加する軽量なフレームワークである。
- SP-CLIPは，追加のパラメータ学習や視覚エンコーダの変更を伴わず，テキストと動画表現の意味的整合性を高める。
- 実験結果から，SP-CLIPが特に細かい行動や複合的な行動認識において，ゼロショット性能を大幅に向上させることが示された。
Link: https://arxiv.org/abs/2603.08289
検索による解剖学的ガイダンスを用いたテキストからCT画像生成 [cs.CV, cs.AI]目的：テキストからCT画像生成における解剖学的ガイダンスの統合
- 医療画像生成は，病状理解や診断支援に貢献し，医療の質向上に不可欠である。
- 既存手法では，解剖学的整合性とセマンティック制御のバランスが課題となっていた。
- アノテーションなしでの高精度なCT画像生成と，解剖学的整合性の確保を目指す。
- 検索による関連症例の解剖学的情報を活用することで，生成画像の忠実性と臨床的一貫性が向上した。
- テキストのみのベースラインと比較して，明示的な空間制御が可能となり，より自然な画像生成が実現した。
- 検索の品質が生成結果に大きく影響し，セマンティックに整合性の高い症例が有効であることが示された。
Link: https://arxiv.org/abs/2603.08305
概念誘導型ファインチューニング：ViTの誤った相関からの脱却とロバスト性の向上 [eess.SY, cs.SY, cs.CV, cs.AI, cs.LG]目的：ViTにおけるロバスト性向上のための，概念に基づいたファインチューニング手法
- 画像認識におけるViTの利用が拡大しているが，分布シフトに対する脆弱性が課題となっている。
- ViTは背景情報などの誤った相関に依存しやすく，意味のある特徴を捉えられない場合がある。
- 意味レベルの概念を用いてViTの推論を誘導し，ロバスト性を高めることを目指す。
- 提案手法では，LLMとVLMを用いて概念マスクを自動生成し，モデルの内部的な関連マップを概念領域と一致させる。
- 実験の結果，5つの分布外ベンチマークにおいて，複数のViTベースモデルのロバスト性が向上した。
- 生成された関連マップは，セマンティックなオブジェクトパーツとの強い一致を示し，解釈可能性の向上にも貢献する。
Link: https://arxiv.org/abs/2603.08309
HDR-NSFF：高ダイナミックレンジニューラルシーンフローフィールド [cs.CL, cs.CV]目的：高ダイナミックレンジのシーンを，時空間的にモデル化する手法
- 現実世界のシーンは，カメラで捉えられるよりも広いダイナミックレンジを持つため，その再現が重要である。
- 従来のHDR手法は2Dピクセルレベルでの整合に依存し，動的なシーンでゴーストや時間的な不整合が発生しやすい。
- 単眼動画からHDR輝度場を再構築し，動的なシーンにおける時間的・空間的な整合性を実現すること。
- HDR-NSFFは，2Dベースのマージングから4D時空間モデリングへのパラダイムシフトを提示し，高ダイナミックレンジのシーンを効果的に再構成する。
- DINO特徴を用いたセマンティックベースの光流推定を拡張することで，露出に依存しないモーション推定を実現し，ロバスト性を向上させている。
- 動的なHDRシーンのためのHDR-GoProデータセットを新たに提供し，最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.08313
SlowBA：VLMベースGUIエージェントに対する効率性バックドア攻撃 [cs.CR, cs.CL, cs.CV]目的：VLMベースGUIエージェントの応答効率に対するバックドア攻撃
- GUIエージェントは応答速度と正確性が重要であり，実用化が進んでいる。
- 既存研究は行動の正確性に偏っており，応答効率のセキュリティリスクは未解明である。
- 応答の遅延を悪用するバックドア攻撃による効率性低下問題を解決する。
- SlowBAは，特定のトリガーパターン下で過剰な推論連鎖を誘発し，応答の遅延を操作する。
- 提案手法は，報酬レベルのバックドア注入戦略と，トリガーを認識する活性化学習を組み合わせる。
- 実験により，少量でも高い攻撃成功率と，既存防御策に対する有効性が確認された。
Link: https://arxiv.org/abs/2603.08316
エゴセントリック行動認識における人間とAIの認識差異：空間・時空間操作下での比較 [cs.CV, cs.AI]目的：人間とAIの行動認識性能の差異分析
- 現実世界の複雑な環境下での行動認識は，ロボット工学やヒューマンコンピュータインタラクションにおいて不可欠である。
- AIモデルは，低解像度，遮蔽，視覚的ノイズといった現実環境下で人間の認識能力に劣ることが課題となっている。
- 本研究は，人間とAIの認識差異を最小限の識別可能な領域を用いて明らかにし，より人間らしいAIモデル開発に貢献する。
- 人間は，最小識別領域からさらに縮小された領域への移行時に認識性能が急激に低下し，手と物体の相互作用などの重要な手がかりに強く依存していることが示された。
- 一方，AIモデルは徐々に性能が低下し，文脈や低レベルの特徴に頼ることが多く，空間的縮小下では認識確信度が上昇することもある。
- 時間的な攪乱に対して，人間は重要な空間的手がかりが保持されていれば高い頑健性を示す一方，AIモデルは時間的な変化に鈍感であり，行動クラスによって時間的な感受性が異なることが明らかになった。
Link: https://arxiv.org/abs/2603.08317
アテンションヒートマップを超えて：病理組織学的マルチインスタンス学習モデルに対するより良い説明を得る方法 [cs.CV, cs.LG]目的：マルチインスタンス学習モデルの説明品質評価
- デジタル病理における診断支援において，ギガピクセル画像から得られるパッチを統合しスライドレベルの予測を行うMILは重要である。
- MILモデルの解釈性検証に用いられるヒートマップの妥当性に関する調査は十分ではない。
- MILヒートマップの品質評価フレームワークを提示し，より信頼性の高いモデル検証と生物学的知見の獲得を目指す。
- MILモデルのアーキテクチャとタスクの種類によって説明品質が大きく左右されることが示された。
- 摂動法(Single)，LRP，IGが，アテンションベースや勾配ベースのヒートマップよりも一貫して高い性能を示した。
- 遺伝子発現予測モデルのヒートマップと空間トランスクリプトミクスとの相関や，HPV感染予測におけるモデル戦略の発見により，説明性の重要性が示された。
Link: https://arxiv.org/abs/2603.08328
疎な最適輸送によるローカル・グローバルプロンプト学習 [cs.CV]目的：画像とテキストのビジョン言語モデルの少数ショット適応におけるプロンプト学習
- 画像認識における少数ショット学習は，データが少ない状況での性能向上が求められており，重要な研究分野である。
- 既存手法では，ローカル特徴量の重複利用やプロンプトの重複が発生し，効率的な学習が阻害される場合がある。
- 本研究は，疎な最適輸送を用いて，クラス固有のローカルプロンプト間の重複を抑制し，効率的な学習を実現する。
- 提案手法SOT-GLPは，11の標準ベンチマークにおける少数ショット分類精度で，既存のプロンプト学習手法を上回る85.1%の平均精度を達成した。
- 学習可能な射影は分布内適合性を最適化する一方で，基礎となる特徴空間を変化させるという，精度とロバスト性のトレードオフを特定した。
- 射影を用いないローカルアラインメントはCLIP多様体のネイティブな幾何学を維持し，最先端の分布外検出性能（AUC 94.2%）を達成した。
Link: https://arxiv.org/abs/2603.08347
ΔVLA：世界知識の変化を通じた事前知識誘導型ビジョン・言語・行動モデル [cs.CV]目的：ロボット操作における知覚，推論，制御の統合
- ロボットの自律的な操作能力向上は，様々な分野での活用に不可欠である。
- 既存モデルは結果の予測に偏り，変化の過程に関する推論が不十分である。
- 世界知識の変化を相対的にモデル化し，行動生成の精度と効率性を向上させる。
- ΔVLAは，事前知識を誘導するフレームワークであり，絶対的な未来状態の回帰ではなく，世界知識の変化をモデル化する。
- PWKEは，補助ヘッドと疑似ラベルにより，視覚入力から操作可能な領域，空間関係，意味的手がかりを効率的に抽出する。
- LWVQは，VQ-VAEを用いて世界知識の変化をコンパクトな潜在空間にエンコードし，モデリングの干渉を軽減するCV-Attenを導入する。
Link: https://arxiv.org/abs/2603.08361
拡散に基づくデータ拡張による画像認識：体系的な分析と評価 [cs.CV]目的：画像認識におけるデータ拡張手法の分析と評価
- データ不足は画像認識の性能を大きく制限する要因であり，より少ないデータで高精度な認識を実現する必要がある。
- 拡散に基づくデータ拡張は有望視されているが，手法間の比較や効果の評価が難しく，体系的な理解が不足している。
- 既存手法の差異を明確にし，最適なデータ拡張戦略を特定することで，少ないデータでの画像認識性能向上を目指す。
- 本研究では，拡散に基づくデータ拡張手法を，モデルのファインチューニング，サンプル生成，サンプル利用の3つの要素に分解する統一的な分析フレームワークを提案した。
- 多様な低データ分類タスクにおいて，代表的な拡散データ拡張手法を比較評価し，各手法の長所と限界を明らかにした。
- 全ての実験は統一されたコードベースで再現可能に行われ，コードと設定を公開することで，今後の研究を促進する。
Link: https://arxiv.org/abs/2603.08364
リーダーボードのインセンティブ：戦略的なポストトレーニング下でのモデルランキング [cs.GT, cs.LG]目的：ベンチマークが誘発するインセンティブ構造
- AIモデルの性能評価は，開発競争を促進し，技術進歩の指標となる。
- 現在のベンチマークは，開発者による戦略的な最適化を招き，真の性能評価を妨げている。
- ベンチマーク設計を改善し，モデルの潜在的な質を正確に反映するランキングを実現する。
- 現在のベンチマークは，モデル開発者間のナッシュ均衡が存在しないゲームを誘発することが証明された。
- 最近提案された「tune-before-test」プロトコルは，潜在的な質でモデルをランク付けする一意のナッシュ均衡を持つベンチマークを誘導する。
- ベンチマーク設計次第では，良好なインセンティブを設定でき，現在の評価方法の問題点を克服できる。
Link: https://arxiv.org/abs/2603.08371
これは明らかにそれと似ている：スティファル幾何学による解釈可能な認識の基盤化とニューラル崩壊への対策 [cs.CV]目的：解釈可能な認識の基盤化
- 画像認識において，モデルの判断根拠の明確化が求められている。
- 原型ネットワークは解釈性に優れるが，原型崩壊により冗長な証拠となる場合がある。
- スティファル幾何学を用いて原型崩壊を防ぎ，解釈性と精度を向上させる。
- 提案手法であるAMPは，原型を直交基底で表現することで，原型崩壊を本質的に不可能にする。
- AMPは，クラス固有の有効ランクを学習し，空間正則化により局所的な特徴表現を促進する。
- ファイングレインベンチマークでの実験により，AMPが最先端の分類精度と因果的忠実性を実現することが示された。
Link: https://arxiv.org/abs/2603.08374
偏った相互作用ゲーム：そのダイナミクスと社会システムのモデリングへの応用 [cs.GT]目的：偏った相互作用ゲームのダイナミクスと，社会システムへの応用可能性
- 社会システムは，合理的な行動主体による相互作用の結果として生じる。その理解は重要である。
- 既存のシステム思考では，偏りの影響が十分に考慮されていない場合がある。
- 偏りが社会システムの構造や変化に与える影響を明らかにし，より現実的なモデリングを可能にする。
- 偏った相互作用ゲームを用いることで，階層構造や不平等が創発的に生じる様子を再現できる。
- このゲームは，過度な資本主義や社会平等主義といった極端な社会システムをモデル化するのに適していることが示された。
- 偏ったシステムは，長期的な安定と急激な階層的移行が交互に起こる非線形な振る舞いを示すことが明らかになった。
Link: https://arxiv.org/abs/2603.08375