arXiv雑要約

画像・音声 - 2026/03/10 公開

  • ACD-U:機械的アンラーニングを用いた非対称共同学習によるノイズラベル下でのロバストな学習 [cs.RO, cs.CV]目的:ノイズラベル下でのロバストな学習手法
    • 深層学習は強力だが,ノイズラベルの影響を受けやすく,汎化性能が低下しやすい。
    • 既存手法では,一度誤分類されたサンプルに対しては修正が困難である。
    • 誤ったサンプルを特定し,学習への影響を軽減する技術の開発。
    • ACD-Uは,CLIPで事前学習されたVision TransformerとCNNという異なるアーキテクチャを組み合わせることで,安定した予測と適応的な学習を両立している。
    • 損失軌跡分析とCLIPの一貫性チェックを通じて誤ったサンプルを特定し,Kullback-Leibler divergenceを用いた機械的アンラーニングにより影響を削除する。
    • CIFAR-10/100などのデータセットにおいて,特に高ノイズ環境下で最先端の性能を達成している。

    Link: https://arxiv.org/abs/2603.07166

  • 深層学習 기반 병리計算の解釈性向上に向けたクラス可視化と活性化アトラス [cs.CV]目的:深層学習 기반 병리計算における解釈性向上
    • 近年,病理診断における深層学習の活用が進んでいる。分子や臨床バイオマーカーの予測精度向上は目覚ましい。
    • モデルの複雑化に伴い,予測根拠の解釈性が追いついていない。診断の信頼性確保が課題となっている。
    • 深層学習モデルの学習表現を可視化し,専門家による解釈を支援することで,解釈性の向上を目指す。
    • クラス可視化は,形態的に特徴的な組織を認識できるものの,類似癌の識別は困難であった。
    • 活性化アトラスは,層によって組織レベルと微細な癌分類レベルで異なる構造を示すことが明らかになった。
    • アトラスの分離性は,専門家の画像認識との一致度を示し,表現の曖昧さが病理学的複雑さを反映している可能性が示唆された。

    Link: https://arxiv.org/abs/2603.07170

  • FreeFly-Thinking:思考の連鎖型推論と継続的なUAVナビゲーションの整合 [cs.IR, cs.CV]目的:UAVナビゲーションにおける思考の連鎖型推論の整合
    • 現実世界のナビゲーション実現に不可欠であり,ロボット技術の応用範囲を広げる。
    • 屋外環境下でのナビゲーション研究が不足しており,複雑なシーンへの対応が課題。
    • UAVのナビゲーションにおいて,明示的な推論に基づく効率性と堅牢性の向上。
    • 提案手法FreeFly-thinkingは,UAVの視覚情報と自然言語指示を基に行動系列を生成する。
    • OpenFlyの都市環境を模倣したデータセットを構築し,思考の連鎖型推論を導入した二段階の訓練戦略を採用。
    • 未知のテスト環境において高い性能を示し,UAVナビゲーションにおける堅牢性と効率性を実証した。

    Link: https://arxiv.org/abs/2603.07181

  • FastSTAR:効率的な自己回帰型動画合成のための時空間トークン刈り込み [cs.CV]目的:自己回帰型動画合成における計算効率の向上
    • 動画生成技術は,コンテンツ制作やエンターテインメント分野において重要性が増している。
    • 時空間自己回帰モデル(STAR)では,高解像度・長尺動画生成時にトークン数が爆発し,計算負荷が増大する。
    • FastSTARは,トークン刈り込みにより不要な計算を削減し,STARモデルの効率と品質を両立することを目指す。
    • FastSTARは,空間的類似性および時間的類似性に基づいて重要なトークンを識別し,計算量を削減する。
    • InfinityStarを用いた実験により,FastSTARは最大2.01倍の高速化を達成し,PSNR28.29を維持した。
    • 性能劣化は1%未満であり,効率と品質のトレードオフにおいて優れた結果を示した。

    Link: https://arxiv.org/abs/2603.07192

  • 分布外検出のためのパラメータ貢献パターンの形成 [cs.LG, cs.CV]目的:分布外検出の頑健性向上
    • 深層学習モデルの過信は,実用上の安全性や信頼性を損なう重大な問題である。
    • 深層モデルは過信傾向があり,分布外入力に対して誤った予測を行いやすい。
    • パラメータ貢献パターンを調整し,過信による誤りを抑制することを試みる。
    • 提案手法SPCPは,訓練時にパラメータ貢献度の高いものを抑制し,より広範囲なパラメータの使用を促す。
    • SPCPは,分布外入力によって異常にトリガーされるパラメータへの依存を減らし,過信を抑制する。
    • 様々な設定での実験により,SPCPの有効性が確認された。

    Link: https://arxiv.org/abs/2603.07195

  • 客観的腸音聴診に向けた試み:腸音パターンの自動セグメンテーションと注釈 [cs.SD, cs.LG, eess.AS, eess.SP]目的:腸音パターンの自動セグメンテーションと分類
    • 腸音は消化器系の機能評価において重要であり,異常の早期発見に役立つ。
    • 手動による聴診では,腸音の検出が難しく,医師間の判断にばらつきが生じる。
    • 本研究は,腸音の客観的かつ定量的な評価を可能にする自動化システムの開発を目指す。
    • ウェアラブル音響センサー SonicGuard を用いたパイプラインにより,腸音の自動セグメンテーションと分類を実現した。
    • 健常者と患者群それぞれに特化したモデルを使用することで,高い精度(精度:0.97,AUROC:0.98,精度:0.96,AUROC:0.98)を達成した。
    • 自動注釈手法は手動注釈時間を約70%削減し,専門家によるレビューでは自動検出セグメントの12%未満が修正を必要とした。

    Link: https://arxiv.org/abs/2603.07215

  • 構造的事前知識に基づく脱文脈化による非文脈的対象物に対するビデオ駆動的不変性:VINO [cs.CV, cs.AI]目的:非文脈的対象物に対するビデオ駆動的不変性の学習
    • 自己教師あり学習は急速に進歩しているが,学習された特徴は文脈に強く依存しやすい。
    • 密集した実環境のビデオデータには背景との共起関係があり,対象物の表現が崩壊する。
    • 構造的情報を活用し,背景情報を抑制することで,対象物中心の表現を獲得する。
    • VINOは,背景を抑制した前景連合ビューからの予測と,周囲の文脈を保持しつつ競合するインスタンスを除去した対象物条件付きシーンビューの観察を通じて,不均衡な蒸留問題を形成する。
    • マスク化蒸留により背景情報を信頼できなくし,表現を対象物中心の不変性へと導く。
    • PASCAL VOCでの注意可視化と教師なしオブジェクト検出により,VINOが前景と背景を効果的に分離することが示された。

    Link: https://arxiv.org/abs/2603.07222

  • LightMedSeg:学習された空間アンカーを用いた軽量3D医療画像セグメンテーション [cs.LG, cs.CV]目的:3D医療画像セグメンテーションの効率化と高精度化
    • 臨床AIにおいて,医療画像の正確なセグメンテーションは不可欠であり,診断支援や治療計画に貢献する。
    • Transformerベースの手法は高精度だが,パラメータ数や計算コストが大きく,実用性に課題がある。
    • 少ない計算資源で高精度なセグメンテーションを実現し,臨床現場での利用を促進すること。
    • LightMedSegは,わずか0.48Mのパラメータと14.64GFLOPsで,重いTransformerベースラインと同程度のセグメンテーション精度を達成した。
    • 解剖学的事前知識を統合し,適応的なコンテキストモデリングにより,メモリ,遅延,データ可用性の制約下でも信頼性の高いセグメンテーションを実現。
    • アンカー条件付きFiLM変調や局所構造モジュールなどにより,境界領域への表現能力を動的に割り当て,計算冗長性を最小限に抑えた。

    Link: https://arxiv.org/abs/2603.07228

  • 単一画像超解像のための二変量アトゥルウェーブレット拡散 [cs.CV]目的:単一画像超解像における高周波構造の復元
    • 画像処理分野において,高画質の実現は重要な課題であり,超解像技術はその鍵となる。
    • 従来の拡散モデルは空間領域のみで動作し,低解像度画像からの十分な根拠に基づかない高周波詳細を生み出しやすい。
    • 本研究は,スケール間の構造的ガイダンスを提供することで,高周波の一貫性とアーティファクトの低減を目指す。
    • BATDiffは,アトゥルウェーブレット変換を用いて,多スケール表現を構築し,高周波成分を段階的に明らかにする。
    • 二変量クロススケールモジュールにより,スケール間の依存関係をモデル化し,高周波の一貫性を向上させる。
    • 標準的なベンチマーク実験の結果,BATDiffは既存の手法と比較して,より鮮明で構造的に整合性の高い再構成を実現した。

    Link: https://arxiv.org/abs/2603.07234

  • HY-WU (パートI):拡張可能な機能的ニューラルメモリフレームワークとテキストによる画像編集への応用 [cs.DB, cs.CV]目的:長期間運用される展開型システムにおける継続学習と即時パーソナライズの必要性
    • 基盤モデルは,オフライン予測から長期間運用されるシステムへと移行しつつある。
    • 既存の適応パイプラインは静的な重みパラダイムに依存し,ドメインの変化やユーザーの嗜好の変化に対応できない。
    • インスタンス条件から重み更新を動的に生成することで,共有重みの書き換えによる劣化を防ぐ。
    • HY-WU(Weight Unleashing)は,適応の圧力を共有パラメータの書き換えから離し,機能的メモリを活用する。
    • HY-WUは,ニューラルモジュールとして機能的メモリを実装し,インスタンス固有のオペレーターをテスト時最適化なしで生成する。
    • これにより,異なる目的がパラメータ空間上で分離された実行可能領域を誘導する問題を解決し,継続学習とパーソナライズの性能を向上させる。

    Link: https://arxiv.org/abs/2603.07236

  • FabricGen:織物構造を考慮した織物生成 [eess.SY, cs.SY, cs.CL, eess.AS, cs.CV, cs.GR]目的:織物素材の高品位な生成
    • レンダリング用途において織物素材は広く利用され,写実的な表現が求められている。
    • 既存の拡散モデルは,織りの規則に沿った複雑な糸レベルの詳細を生成するのが難しい。
    • 本研究は,織りの原則に則った高詳細な織物素材の生成を可能にすることを目指す。
    • FabricGenは,大規模なテクスチャと微小な織りパターンを分解することで,高品質な織物素材をテキスト記述から生成する。
    • 微小構造を含まない大規模テクスチャ生成には,既存の拡散モデルを微調整し,微小な織りパターンには,特殊な大規模言語モデルWeavingLLMを用いる。
    • これにより,従来の生成モデルと比較して,より詳細で写実的な素材を生成できる。

    Link: https://arxiv.org/abs/2603.07240

  • PresentBench:スライド生成のための詳細なルーブリックベースのベンチマーク [cs.CV]目的:スライド生成の自動評価のための,詳細なルーブリックベースのベンチマーク
    • プレゼンテーションは学術,教育,ビジネスにおいて重要な情報伝達手段である。
    • 既存のスライド生成評価は粗雑で,モデルの能力を正確に評価できない。
    • 詳細な検証可能な評価基準を提供し,研究と実用展開を促進すること。
    • PresentBenchは既存手法よりも信頼性の高い評価結果を提供する。
    • 人間の好みに著しく一致することが示された。
    • NotebookLMが他のスライド生成手法を大幅に上回ることが明らかになった。

    Link: https://arxiv.org/abs/2603.07244

  • LEPA:予測アーキテクチャを用いた衛星リモートセンシングデータにおける幾何学的等価性の学習 [cs.CV, cs.AI]目的:衛星リモートセンシングデータの幾何学的等価性の学習
    • 地理空間基礎モデルは,大規模データ処理に不可欠であり,計算コスト削減に貢献する。
    • ユーザー定義領域と固定グリッド間の幾何学的ミスマッチが,アプリケーションの精度を低下させる。
    • 幾何学的変換に対する予測を通じて,正確な幾何学的調整を実現し,再エンコーディングを回避する。
    • 従来の補間は非凸な埋め込み多様体により信頼性が低い一方,LEPAは幾何学的増強に基づいて埋め込みを直接予測する。
    • HLS画像およびImageNet-1kの実験により,LEPAがMRRを0.2以下から0.8以上に向上させることが示された。
    • LEPAは,再エンコーディングなしで正確な幾何学的調整を可能にし,地球観測アプリケーションの性能を向上させる。

    Link: https://arxiv.org/abs/2603.07246

  • 文脈を捉える:マルチモーダル推論による豊富な視覚文脈を考慮した音声認識 [cs.SD, eess.AS]目的:豊富な視覚文脈を考慮した音声認識の性能向上
    • 音声認識において,視覚情報を用いることで,よりロバストで正確な認識が可能となる。
    • 既存手法は唇の動きに焦点を当て,背景やテキストなどの豊富な視覚文脈の活用が不十分である。
    • 視覚文脈を効果的に利用し,単一モダリティへの偏りを軽減することで,認識精度を向上させる。
    • 提案手法であるAV-CoTは,音声と視覚情報の間のクロスモーダルな関連付けを明示的に強化することで,単一モダリティへの過剰な依存を抑制する。
    • 実験の結果,AV-CoTは最先端の性能を達成し,豊富な視覚文脈を考慮した音声認識(CAVSR)において有効であることが示された。
    • データ不足に対処するため,データパイプラインとテストセットを構築し公開した。

    Link: https://arxiv.org/abs/2603.07263

  • 変分フローマップ:ワンステップ条件付き生成のためのノイズ付加 [cs.CV, cs.LG, stat.ML]目的:単一ステップでの条件付き画像生成のためのフレームワーク
    • 画像生成技術は,現実世界の多様なデータに対応するため,高画質かつ効率的な手法が求められている。
    • 従来のフローマップは,サンプリング軌跡が明示的でないため,条件付き生成や逆問題への対応が困難であった。
    • 観測データに基づき,適切な初期ノイズを学習することで,条件付きサンプリングを可能にすることを目標とする。
    • 変分フローマップは,ノイズアダプターを導入し,観測データを尊重した高品質なサンプルを生成できる。
    • 提案手法は,既存の拡散モデルやフローモデルと比較して,サンプリング速度を大幅に向上させる。
    • ImageNetデータセットでの実験により,高い生成品質と高速なサンプリングが確認された。

    Link: https://arxiv.org/abs/2603.07276

  • 文化服飾のバーチャル試着:ベンチマーク研究 [cs.CV]目的:文化服飾のバーチャル試着システムの性能評価
    • 服飾は文化を反映する重要な要素であり,バーチャル試着技術は新たな購買体験を提供する。
    • 既存のバーチャル試着ベンチマークは欧米服飾中心で,多様な文化服飾への対応が課題である。
    • バングラデシュの伝統的な服飾を対象に,文化服飾への適応性を検証する。
    • バングラデシュ服飾に特化したデータセットBD-VITONを構築し,既存モデルの性能評価を行った。
    • StableViton,HR-VITON,VITON-HD等のモデルにおいて,BD-VITONでの再学習により性能向上が確認された。
    • 複雑なドレープや非対称なレイヤーを持つ服飾において,ゼロショット推論より高い精度が得られた。

    Link: https://arxiv.org/abs/2603.07291

  • MAviS:鳥類のためのマルチモーダル会話アシスタント [cs.CV, cs.AI]目的:鳥類に関するマルチモーダル質疑応答の実現
    • 生物多様性の保全と生態学的モニタリングにおいて,詳細な理解と種固有の対応が重要である。
    • 既存のマルチモーダル大規模言語モデルは,鳥類のような専門分野における正確な情報提供が困難である。
    • 鳥類に関する知識を深め,マルチモーダルな質疑応答能力を向上させることを目指す。
    • MAviS-Datasetは,画像,音声,テキストを含む1,000種以上の鳥類データセットであり,事前学習と指示チューニングを可能にする。
    • MAviS-Chatは,鳥類の種理解,マルチモーダル質疑応答,シーン記述生成に特化したマルチモーダルLLMである。
    • MAviS-Chatは,既存のMiniCPM-o-2.6を大幅に上回り,最先端のオープンソース結果を達成した。

    Link: https://arxiv.org/abs/2603.07294

  • 信頼できるサリエンシーマップの学習:敵対的学習と特徴マップ平滑化 [cs.CV]目的:画像分類器の説明可能性向上のための学習手法
    • 画像分類器の意思決定根拠を説明することは,AIの信頼性と安全性を高める上で重要である。
    • 既存のサリエンシーマップ生成手法はノイズが多く,不安定であり,実用上の課題となっている。
    • 敵対的学習と特徴マップ平滑化を組み合わせ,安定かつ解釈性の高いサリエンシーマップ生成を目指す。
    • 敵対的学習は,入力に対する安定性を高め,サリエンシーマップを疎にする効果があることが示された。
    • 提案手法である特徴マップ平滑化ブロックは,敵対的学習による疎性維持と同時に,出力側の安定性を改善する。
    • 人間実験の結果,平滑化されたサリエンシーマップは,より十分かつ信頼できると評価された。

    Link: https://arxiv.org/abs/2603.07302

  • StructSAM:構造とスペクトルを保持するトークンマージングによるセグメンテーション全能モデル [cs.HC, cs.CV, cs.LG]目的:セグメンテーション全能モデルにおけるトークン数の削減による高速化手法
    • 画像認識技術は,医療診断や自動運転など幅広い分野で重要であり,その効率化が求められている。
    • Transformerモデルは計算コストが高く,特に高解像度画像では処理速度が課題となっている。
    • セグメンテーション全能モデルの高速化と精度維持を両立する新たなトークンマージング手法の開発。
    • 提案手法StructSAMは,SAMのエンコーダのFLOPsを25-30%削減し,精度劣化を最小限に抑える。
    • StructSAMは,既存のトークンマージング手法(ToMe等)と比較して,同程度の計算量でより高い性能を示す。
    • トークンエネルギーに基づくマージングは,スペクトル歪みを抑制し,境界の保護とプロンプト情報の漏洩を防ぐ。

    Link: https://arxiv.org/abs/2603.07307

  • 高速HEAL:異種自律車両向け効率的かつプライバシー保護協調知覚フレームワーク [cs.CV, cs.RO]目的:異種自律車両間の効率的かつプライバシー保護された協調知覚
    • 自動運転の安全性向上には,周囲状況の正確な把握が不可欠である。協調知覚はその有効性が期待される。
    • 既存の協調知覚システムは,同一のセンサーやモデルを前提としており,現実世界の多様な車両に対応できない。
    • 異なる車両の知覚特徴量の差異を解消し,効率的かつプライバシーを保護しながら協調知覚を実現すること。
    • 提案手法Faster-HEALは,低ランクの視覚プロンプトを微調整することで,異種の特徴量を統一的な特徴空間に整合させる。
    • これにより,学習パラメータを94%削減し,大規模なモデルの再学習なしに,新たな車両への効率的な適応を可能にする。
    • OPV2V-Hデータセットでの実験により,Faster-HEALが最先端手法と比較して検出性能を2%向上させ,計算コストを大幅に削減することが示された。

    Link: https://arxiv.org/abs/2603.07314

  • エッジアシスト型車両追跡と衝突予測のための軽量デジタルツインベースフレームワーク [cs.CV, cs.NI, cs.RO, eess.SP]目的:車両追跡と時空間的衝突予測のための軽量デジタルツインベースフレームワーク
    • 交通安全と管理は,インテリジェント交通システム(ITS)において不可欠であり,その重要性は高い。
    • 従来の衝突予測は計算負荷が高く,リソース制約のあるエッジデバイスへの実装が困難である。
    • エッジデバイスでのリアルタイムな衝突予測を可能にする軽量なソリューションを提供することを目指す。
    • 提案フレームワークは,88%程度の衝突を事前に予測できることが,多様な都市シミュレーションシナリオで示された。
    • 複雑な軌道予測ネットワークを必要とせず,オブジェクト検出のみに依存することで計算コストを削減している。
    • この研究は,ITSにおけるリアルタイムなエッジ展開に特化した,車両追跡と衝突予測のための軽量なデジタルツインベースソリューションを提供する。

    Link: https://arxiv.org/abs/2603.07338

  • AgrIチャレンジ:農業画像におけるチーム間検証のためのデータ中心AIコンペティション [cs.HC, cs.HC, cs.CV, cs.AI, cs.LG]目的:農業画像における汎化性能の向上
    • 農業分野における画像認識技術は,食料生産の効率化に不可欠である。
    • 実環境でのデータ分布の変化により,モデルの汎化性能が低下しやすい。
    • データ収集方法が汎化性能に与える影響を評価するフレームワークの構築。
    • 既存モデルは整理されたデータセットでは高い精度を示すが,実際の圃場環境下では汎化性能が低下する。
    • チーム間検証(CTV)により,異なるチームが収集したデータセット間での汎化性能の差が明らかになった。
    • 複数チームのデータを用いた共同学習により,汎化性能が大幅に向上することが示された。

    Link: https://arxiv.org/abs/2603.07356

  • 長期的な山火事リスク予測のためのN-Tree拡散 [cs.LG, cs.CV]目的:長期的な山火事リスク予測のための確率的空間場生成
    • 山火事は生態系や社会に甚大な被害をもたらすため,その予測は重要である。
    • 既存手法では,複数予測期間にわたる計算効率が課題となっていた。
    • 本研究は,冗長な計算を削減し,予測精度と効率を向上させることを目指す。
    • 提案手法NT-Diffusionは,初期段階のノイズ除去を共有し,後の段階で分岐することで計算コストを削減する。
    • 実際の山火事データを用いた評価で,NT-Diffusionは既存手法と比較して,予測精度と推論コストの両方で改善が確認された。
    • 本手法は,確率的モデリングに適した平滑な空間リスク場を提供し,長期的な予測を可能にする。

    Link: https://arxiv.org/abs/2603.07361

  • AQuA:曖昧な視覚的質問に対する戦略的応答生成に向けて [cs.DC, cs.CL, cs.RO, cs.SY, eess.SY, cs.CV, cs.AI, cs.CL]目的:曖昧な視覚的質問に対する戦略的な応答生成
    • 近年,画像と言語を理解するモデルの能力評価として,視覚的質問応答が重要視されている。
    • 既存のデータセットは曖昧さを含んでおらず,現実世界での曖昧な質問への対応が課題であった。
    • 曖昧さのレベルに応じた適切な応答戦略をモデルに学習させ,より自然な応答を目指す。
    • 本研究では,曖昧な視覚的質問データセットAQuAを構築し,曖昧さのレベルと最適な応答戦略を定義した。
    • 既存のモデルは曖昧さの種類に適応できず,過信した回答や不確実性の認識不足が課題であることが示された。
    • AQuAでファインチューニングしたモデルは,曖昧さを認識し,適切な戦略を選択することで,既存モデルを上回る性能を示した。

    Link: https://arxiv.org/abs/2603.07394

  • 3Dコンセプトボトルネックモデルによる解釈可能な脳動脈瘤分類:形態的・血行動態的臨床特徴の統合 [cs.CV, eess.SP]目的:脳動脈瘤の解釈可能な分類
    • 脳動脈瘤の診断は,神経外科治療の重要な判断材料であり,高精度な分類が求められる。
    • 深層学習モデルは高い予測精度を持つが,その判断根拠が不明確で,臨床現場での応用が難しい。
    • 臨床的に解釈可能な指標に基づき,高い予測精度と透明性を両立する分類モデルを構築する。
    • 3Dコンセプトボトルネックモデルは,形態的・血行動態的特徴を臨床指標に変換し,脳動脈瘤の識別を行う。
    • ResNet-34アーキテクチャでは93.33% +/- 4.5%,DenseNet-121モデルでは91.43% +/- 5.8%の分類精度を達成した。
    • テスト時拡張(TTA)により,安定した診断精度88.31%を確保し,精度と汎化性能の乖離を0.04以下に抑えた。

    Link: https://arxiv.org/abs/2603.07399

  • VIVECaption:キャプション品質改善への分割アプローチ [cs.RO, cs.CV]目的:キャプション品質の改善
    • 画像生成AIの性能向上には,高品質な画像とテキストのペアが不可欠である。
    • 既存のキャプション生成モデルは,幻覚や構成的推論の弱さから,画像とキャプションの不一致が生じやすい。
    • 高品質な学習データを用いて,画像とキャプションの整合性を高めることを目指す。
    • キャプション評価指標を「普遍的指標」と「インスタンスに基づいた指標」に分類し,それぞれの特徴とトレードオフを明確化した。
    • 層化サンプリングを用いた高品質なデータセット構築手法と,SFTによるモデルアライメント戦略を提案した。
    • ファインチューニングされた文字検出モデルを画像キャプションパイプラインに組み込むことで,画像とキャプションの整合性が大幅に向上することを示した。

    Link: https://arxiv.org/abs/2603.07401

  • 単一歯の歯科画像に対するプロンプトベースのキャプション生成:ビジョン言語モデルの利用 [cs.CV]目的:単一歯の歯科画像に対するキャプション生成の可能性評価
    • デジタルデンティストリの進歩に伴い,画像解析への深層学習の応用が重要になっている。
    • 既存の歯科画像データセットは数が少なく,範囲も限定的であり,汎用的なモデル構築の足かせとなっている。
    • 単一歯に焦点を当てたキャプション付きデータセットが存在せず,本研究でその可能性を検証する。
    • プロンプトを用いることで,ビジョン言語モデルが意味のあるキャプションを生成できることが示された。
    • 提案するフレームワークによって生成されたプロンプトは,歯科画像の視覚的側面をより適切に記述できることが確認された。
    • 消費者向けのシナリオにおいて有用なRGB画像の使用が,より大きな可能性を秘めていることが示唆された。

    Link: https://arxiv.org/abs/2603.07403

  • UnSCAR:汎用的,スケーラブル,制御可能,適応可能な画像復元 [cs.CV, cs.AI]目的:任意の現実世界の劣化から画像を復元する手法
    • 画像劣化は,写真撮影や画像処理において普遍的に存在する問題であり,高品質な画像利用の妨げとなる。
    • 従来の汎用画像復元ネットワークは,複数の劣化に対応する際に規模が拡大し,性能が低下する課題があった。
    • 劣化間の干渉を抑制し,スケーラブルかつ制御可能な画像復元を実現することを目的とする。
    • 本研究では,複数の専門家からなる混合エキスパートアーキテクチャを導入することで,劣化間の干渉を効果的に軽減した。
    • その結果,16種類以上の劣化に対してスケーラブルな学習が可能となり,未知のドメインへの適応性も向上した。
    • また,劣化に応じたユーザー制御可能な復元も実現し,ベンチマークテストで優れた性能を示した。

    Link: https://arxiv.org/abs/2603.07406

  • QdaVPR:クエリに基づくドメイン非依存型ビジュアルプレイス認識モデル [cs.CV]目的:ビジュアルプレイス認識におけるドメイン汎化性能の向上
    • ロボティクスや自律システムにおいて,画像のみから場所を特定する技術は基盤となる課題である。
    • 既存手法では,ドメインの変化への対応が難しく,汎化性能が十分でない場合がある。
    • 本研究は,ドメイン間の差異を抑制し,未知のドメインに対しても高い認識精度を実現することを目指す。
    • 提案手法QdaVPRは,デュアルレベルの敵対的学習により,クエリ特徴と画像特徴のドメイン不変性を促進する。
    • クエリの組み合わせに基づくトリプレット学習により,グローバル記述子の識別能力を向上させている。
    • Nordland,Tokyo24/7,SVOXといった多様なベンチマークにおいて,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2603.07414

  • 拡散ベースの画像超解像のための分離されたテキスト事前知識 [cs.CV]目的:拡散ベースの画像超解像のための,空間階層と周波数意味論に沿った分離されたテキスト事前知識の導入
    • 画像超解像は,低解像度画像から高解像度画像を復元する重要な技術であり,様々な応用分野で求められている。
    • 既存の手法では,事前知識が複雑に絡み合っており,意味的な制御性や解釈性が制限されているという課題があった。
    • 本研究では,空間階層と周波数意味論に沿って事前知識を分離し,より高精度かつ制御可能な超解像を実現することを目指す。
    • 提案手法DTPSRは,シーンレベルの構造とオブジェクト固有の詳細を同時に捉え,周波数に応じた意味的なガイダンスを可能にする。
    • 大規模データセットDisText-SRを構築し,グローバル,低周波数,高周波数の記述を分離することで,学習を支援している。
    • 合成データと実データによる実験により,DTPSRが高品質で汎用性の高い超解像を実現することが示された。

    Link: https://arxiv.org/abs/2603.07430

  • モバイルエージェント向けオンライン強化学習における汎化性能 [cs.CV, cs.CL, cs.HC, cs.LG]目的:モバイルエージェントの汎化性能向上
    • モバイルデバイスでの自動化ニーズが高まり,GUI操作エージェントの開発が重要視されている。
    • 強化学習による学習が進む一方,汎化性能の評価基準や環境が整備されておらず,課題となっていた。
    • 未学習のタスク,テンプレート,アプリへのゼロショット汎化性能を評価し,改善を目指す。
    • 強化学習により,70億パラメータのVLMエージェントが教師ありファインチューニングを上回り,未学習インスタンスで26.1%の改善を示した。
    • しかし,未学習テンプレート(15.7%)やアプリ(8.3%)への汎化性能向上は限定的であり,汎化の難しさを示唆している。
    • テスト時の少量の学習データ利用により,未学習アプリの性能向上が確認され,今後の研究の方向性を示唆した。

    Link: https://arxiv.org/abs/2603.07432

  • データエージェント:エンドツーエンドの動的最適化によるデータ選択の学習 [cs.LG, cs.CV]目的:動的なデータ選択による学習加速
    • 機械学習の効率化は,計算資源の制約や大規模データセットの処理において重要である。
    • 既存手法は,タスク固有の指標や静的な基準に依存し,汎用性と学習中のデータ有用性の捉え方に課題がある。
    • 学習に連動した動的なデータ選択により,汎用性と効率性を両立し,様々なタスクへの適用を目指す。
    • データエージェントは,データ選択を訓練に即した逐次決定問題として捉えることで,学習の加速化を実現した。
    • 損失と不確実性に基づく複合報酬と,それらを適応的に調整するメカニズムにより,最適化の影響と情報獲得のバランスを取った。
    • ImageNet-1kやMMLUにおいて,性能を維持しつつ,学習コストを50%以上削減できることが示された。

    Link: https://arxiv.org/abs/2603.07433

  • RPG-SAM:信頼度重み付けプロトタイプと幾何学的適応閾値選択による教師なしワンショットポリープセグメンテーション [cs.CV]目的:ポリープセグメンテーションにおける教師なしワンショット学習のためのフレームワーク
    • 医療画像解析において,ポリープの正確なセグメンテーションは診断と治療計画に不可欠である。
    • 既存手法は,サポート画像やクエリ応答のピクセルを均一に扱うため,局所的な異質性を考慮できていない。
    • サポート画像とクエリ応答の異質性に対処し,セグメンテーション精度を向上させることを目指す。
    • RPG-SAMは,信頼度重み付けプロトタイプマイニング(RWPM)により,高精度なサポート特徴を優先し,背景アンカーをコントラスト参照として活用する。
    • 幾何学的適応選択(GAS)を開発し,候補の形態学的合意に基づいて二値化閾値を動的に再調整することで,応答の異質性に対処する。
    • Kvasirデータセットにおいて,mIoUが5.56%向上し,解剖学的境界の洗練が図られた。

    Link: https://arxiv.org/abs/2603.07436

  • 単一画像からの法線融合と条件付きインペインティングによる高精度3D犬の再構成:DogWeave [cs.CV]目的:単一画像からの高精度3D犬モデルの再構成
    • 動物の3D再構成は,複雑な関節,自己遮蔽,毛並みなどの微細なディテールが課題となる分野である。
    • 既存手法では,関節の3D監視の欠如と,2Dデータセットにおける背面画像の不足により,歪んだ形状や不整合なテクスチャが生じやすい。
    • 観測されない領域の再構成が困難であるという問題を解決し,よりリアルな3Dモデルの生成を目指す。
    • DogWeaveは,拡散強化された法線を用いた多視点法線場最適化により,粗いパラメトリックメッシュを詳細なSDF表現に洗練させることで,形状の精度を向上させる。
    • 構造やスタイルに関する手がかりに基づいた条件付き部分インペインティングにより,一貫性のあるテクスチャを生成し,観測されない領域のリアルな再構成を可能にする。
    • わずか約7,000枚の犬の画像のみで学習することで,最先端の単一画像から3Dへの再構成手法よりも,形状精度とテクスチャのリアリズムの両方で優れた性能を示す。

    Link: https://arxiv.org/abs/2603.07441

  • Med-Evo:医療マルチモーダル大規模言語モデルのテスト時自己進化 [cs.RO, cs.CV]目的:医療マルチモーダル大規模言語モデルの性能向上
    • 医療分野におけるAI活用は,診断支援や治療法の開発に不可欠であり,その重要性は増している。
    • 医療データのラベル付けは専門知識と時間が必要であり,十分な学習データが不足している状況がある。
    • ラベルなしテストデータを用いて,モデルを継続的に改善し,データ不足の問題を克服することを目指す。
    • 本研究で提案するMed-Evoは,ラベル不要な強化学習を用いて,医療マルチモーダル大規模言語モデルの性能を向上させる。
    • 特徴駆動型擬似ラベル生成(FPL)とハード・ソフト報酬(HSR)という二つの主要な革新を取り入れている。
    • SLAKEデータセットにおいて,Qwen2.5-VLを用いた実験で,精度が10.43%,再現率が4.68%大幅に向上した。

    Link: https://arxiv.org/abs/2603.07443

  • SLNet:3D点群認識のための超軽量な形状適応型ネットワーク [eess.SY, cs.SY, math.OC, cs.CV, cs.LG, cs.RO]目的:3D点群認識における高精度かつ効率的なモデルの実現
    • 3D点群データは,自動運転やロボティクスなど,様々な分野で重要性が増している。
    • 既存のモデルは,計算コストが高く,リアルタイム処理やエッジデバイスでの利用が困難である。
    • 軽量でありながら高性能な3D点群認識モデルを開発し,実用性を高める。
    • SLNetは,パラメータ数0.14M,計算量0.31GFLOPsでModelNet40において93.64%の精度を達成し,PointMLP-eliteを凌駕した。
    • SLNet-Mは,ScanObjectNNにおいてPointMLPと同程度の精度(84.25%)を,28分の1のパラメータ数で実現した。
    • 大規模シーンセグメンテーションでは,S3DIS Area 5で58.2%のmIoUを達成し,Point Transformer V3の17分の1以上のパラメータ数削減に成功した。

    Link: https://arxiv.org/abs/2603.07454

  • 画像生成モデル:技術史 [cs.CV, cs.AI, cs.CL, cs.GR]目的:画像生成モデルの技術的変遷
    • 画像生成技術は,近年急速に進歩しており,様々な分野で活用が期待されている。
    • 既存の研究は分散しており,モデルや応用分野間の体系的な理解が困難である。
    • 多様な画像生成モデルの技術的背景を整理し,現状と課題を明らかにすること。
    • 変分オートエンコーダ(VAE),敵対的生成ネットワーク(GAN),正規化フロー,自己回帰型・Transformerベース生成器,拡散モデル等の主要なモデルについて詳細な技術解説を行った。
    • 各モデルの目的,アーキテクチャ,学習手順に加え,最適化手法や一般的な問題点・限界についても考察した。
    • 動画生成技術の進展や,Deepfakeリスク,アーティファクト,ウォーターマークといった倫理的課題についても議論した。

    Link: https://arxiv.org/abs/2603.07455

  • SIGMAE:分光指標誘導によるマルチスペクトルリモートセンシング用基盤モデル [cs.CV]目的:マルチスペクトルリモートセンシング画像のための基盤モデルの事前学習
    • リモートセンシングは,地球規模の環境変動の監視や資源管理に不可欠な技術である。
    • マルチスペクトル画像は複雑な背景と曖昧な対象物を含むため,特徴抽出が困難である。
    • 分光指標を活用し,情報量の多い領域に注目することで,効率的な特徴学習を実現する。
    • SIGMAEは,分光指標をガイドとして動的なトークンマスキングを行うことで,構造とスペクトル情報を意識した表現学習を強化する。
    • 提案手法は,ランダムマスキングと比較して過学習を抑制し,冗長な計算を削減する。
    • 様々なダウンストリームタスクにおいて,他の事前学習済みモデルを上回る性能を示す。

    Link: https://arxiv.org/abs/2603.07463

  • 単眼3D物体検出のためのクロスモーダリティ蒸留の選択的転移学習 [cs.CV]目的:単眼3D物体検出における性能向上
    • 自動運転技術の発展において,周囲環境の正確な3次元認識が不可欠である。
    • 単眼画像からの3D物体検出は,深度情報の不足により困難な課題となっている。
    • クロスモーダリティ蒸留における負の転移問題を抑制し,深度情報の有効活用を目指す。
    • 本研究では,画像とLiDAR間のモダリティギャップによる負の転移問題を初めて体系的に分析した。
    • MonoSTLという選択的学習アプローチを提案し,LiDARからの有効な深度情報の転移を促進するとともに,画像ベースのネットワークへの過学習を抑制した。
    • KITTIおよびNuScenesデータセットを用いた実験により,最先端モデルと比較して優れた精度を達成した。

    Link: https://arxiv.org/abs/2603.07464

  • 再学習なしでの新規3Dプリントオブジェクト分類:アディティブマニュファクチャリングにおける後処理自動化に向けて [cs.CV]目的:3Dプリントオブジェクトの分類方法
    • アディティブマニュファクチャリングの効率化に不可欠であり,製造プロセス全体の自動化を促進する。
    • 分類対象のオブジェクトが日々変化するため,頻繁なモデルの再学習が必要となり,効率が低下する。
    • CADモデルを活用し,再学習なしで新規オブジェクトを分類することで,効率的な後処理自動化を実現する。
    • 本研究では,CADモデルと3Dプリントされた実物の写真ペアからなる公開データセットThingiPrintを新たに開発した。
    • 既存の画像認識モデルをThingiPrintを用いてベンチマークした結果,3Dプリントオブジェクトの分類性能を評価できた。
    • 回転不変な目的関数を用いたコントラスト学習により,未学習のオブジェクトでもプロトタイプベースの分類が可能になった。

    Link: https://arxiv.org/abs/2603.07465

  • FedEU:エビデンスに基づく不確実性駆動型 Federated Fine-Tuningによるリモートセンシング画像セグメンテーションのための Vision Foundationモデル [cs.CV]目的:リモートセンシング画像セグメンテーションにおけるFederated Learningのための,エビデンスに基づく不確実性駆動型のフレームワーク
    • リモートセンシング技術は,地球観測や環境モニタリングに不可欠であり,その精度向上は重要な課題である。
    • 分散データセットを扱うFederated Learningでは,データ共有の制約があるため,モデルの汎化性能と信頼性の向上が課題となる。
    • 異質なクライアントデータへの適応に伴う不確実性を定量化し,よりロバストで信頼性の高いFederated Learningを実現することを目指す。
    • FedEUは,クライアント固有の特徴表現を強化し,データ分布の変化を抑制することで,モデルの適応を促進する。
    • 不確実性に基づく重み付け戦略を用いることで,信頼性の低い更新の影響を軽減し,全体的な性能を向上させる。
    • 大規模な異質データセットでの実験により,FedEUが既存手法を上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.07468

  • EVLF:生成データセット蒸留のための早期視覚言語融合 [cs.CL, cs.CV]目的:データセット蒸留によるコンパクトな訓練セットの合成
    • モデルの精度向上とサンプル数の削減が求められている。
    • 従来の拡散モデルでは,テキストプロンプトが視覚的特徴を凌駕しやすい。
    • 視覚情報とテキスト情報を早期に融合し,より自然な合成データを生成する。
    • EVLFは,エンコーダーと生成バックボーンの間に軽量なクロスアテンションモジュールを導入する。
    • これにより,局所的なテクスチャと大域的な意味的方向性を同時に符号化することが可能となる。
    • 実験の結果,EVLFは意味的に忠実で視覚的に一貫性のある合成データを生成し,下流タスクの分類精度を向上させた。

    Link: https://arxiv.org/abs/2603.07476

  • ロバストな3D物体検出のためのマルチモーダルデカップル・リカップルネットワーク [cs.RO, cs.CV]目的:ロバストな3D物体検出
    • 自動運転やロボティクスにおいて,周囲環境の正確な3D物体検出は不可欠である。
    • LiDARやカメラの構成,環境条件などによりデータに破損が生じ,精度が低下する。
    • マルチモーダル特徴量の過度な融合による影響を軽減し,ロバスト性を向上させる。
    • カメラとLiDARのBEV特徴量を,不変部分と固有部分に明示的に分離することで,一方のモダリティの破損が他方に与える影響を軽減。
    • 3種類の専門家(LiDAR,カメラ,両方)を用いて,異なる種類のデータ破損に対応し,不変特徴量をロバストな情報として活用。
    • nuScenesデータセットを用いた実験により,破損データおよびクリーンデータ両方で既存モデルを上回る精度を達成。

    Link: https://arxiv.org/abs/2603.07486

  • ロバストSCI:実世界環境下におけるスナップショット圧縮イメージングのための再構成から復元へ [cs.CV]目的:実世界環境下におけるスナップショット圧縮イメージングの堅牢な復元
    • ビデオの圧縮イメージング技術は,高速なデータ取得が可能であり,様々な応用分野での活用が期待されている。
    • 既存手法は,クリアな測定データからの再構成に焦点を当てており,モーションブラーや低照度といった現実的な劣化に対応できていない。
    • 劣化された測定データから,本来の鮮明な映像を復元する技術を確立し,実用的な応用を可能にすること。
    • 提案手法RobustSCIは,多重スケールデブラー枝と周波数強調枝を導入することで,劣化要因を明示的に分離・除去し,復元性能を向上させている。
    • さらに,後処理デブラーネットワークを統合したRobustSCI-Cは,わずかな計算量増加で大幅な性能改善を実現している。
    • 実験の結果,提案手法は既存の最先端モデルを凌駕し,実世界データでもその有効性が確認された。

    Link: https://arxiv.org/abs/2603.07489

  • RayD3D:光線に沿った深度知識の蒸留によるロバストなマルチビュー3D物体検出 [cs.CV]目的:マルチビュー3D物体検出におけるロバスト性の向上
    • 自動運転やロボティクスにおいて,BEVを用いた3D物体検出は不可欠な技術である。
    • 従来の技術では,現実世界での環境下で正確な深度値を予測することが難しく,ロバスト性に課題がある。
    • 光線に沿った深度知識の蒸留により,深度に無関係な情報の干渉を抑制し,深度情報の転移を効果的に行う。
    • 提案手法RayD3Dは,BEVDet,BEVDepth4D,BEVFormerといった代表的なモデルに広く適用可能である。
    • クリーンなNuScenesデータセットで学習し,NuScenesとRoboBEVの両方で様々なデータ汚染下での実験を行った結果,既存手法と比較して優れた性能を示した。
    • RayD3Dは,3つのベースモデルすべてにおいてロバスト性を大幅に向上させ,推論コストも増加させない。

    Link: https://arxiv.org/abs/2603.07493

  • DocCogito:ドキュメント理解のためのレイアウト認知と段階的根拠に基づく推論のアライメント [cs.CV]目的:ドキュメント理解におけるレイアウト認知と段階的推論のアライメント
    • ドキュメント理解は,情報抽出や質問応答において不可欠であり,様々な分野で応用が期待される。
    • 既存のドキュメント理解モデルは,レイアウトと推論の相互作用を明示的に学習できていない点が課題である。
    • DocCogitoは,レイアウト情報と推論過程を密接に結合することで,より人間らしいドキュメント理解を目指す。
    • DocCogitoは,ページ構造を学習可能なグローバルレイアウト事前トークンに変換する軽量なレイアウトタワーを導入した。
    • Visual-Semantic Chain (VSC)という構造化された表現を用いて,証拠領域と整列した詳細な中間推論を監督する。
    • 6つのベンチマークで最先端の結果を達成し,優れた汎化性能を示した。

    Link: https://arxiv.org/abs/2603.07494

  • AMR-CCR:アンカーモジュール検索による継続的漢字認識 [cs.CV]目的:継続的漢字認識における新しい手法
    • 文化遺産のデジタル化には,古文字の認識が不可欠であり,その重要性は高い。
    • 新出の文字や書体の変化に対応できる,継続的な学習が課題となっている。
    • 増え続ける文字や書体に対応しつつ,効率的な認識を可能にすること。
    • 本研究では,埋め込みベースの辞書マッチングによるAMR-CCRフレームワークを提案した。
    • スクリプト条件付き注入モジュール(SIA+SAR)により,新しい書体を既存の埋め込み空間に適合させた。
    • EvoCONという6段階の評価ベンチマークを構築し,継続的な書体追加を評価した。

    Link: https://arxiv.org/abs/2603.07497

  • 骨格潜在拡散による高精度な医療形状生成 [cs.CV]目的:医療形状の生成
    • 医療データ解析において,解剖学的形状のモデル化は不可欠であり,診断や治療計画に利用される。
    • 解剖学的構造の幾何学的複雑さやトポロジーの多様性が,正確な形状生成の大きな課題となっている。
    • 構造的な事前知識を明示的に組み込み,効率的かつ高精度な医療形状生成を実現することを目指す。
    • 提案手法は,微分可能な骨格化モジュールを用いて大域的な幾何学的情報を捉え,局所的な表面特徴を形状潜在変数に集約する形状オートエンコーダを導入する。
    • 潜在空間での拡散モデルと,それに続くニューラル暗黙的デコーディングおよびメッシュ抽出により,新たな形状を生成する。
    • 大規模データセットMedSDFを構築し,実験的に既存手法と比較して,再構成と生成の品質が向上し,計算効率も高いことを示す。

    Link: https://arxiv.org/abs/2603.07504

  • ドリフトモデルとスコアベースモデルの統一的見解 [cs.CY, cs.SI, cs.CL, cs.LG, cs.AI, cs.CV]目的:データ分布とモデル分布間の平均シフト不一致に基づく生成器の最適化
    • 生成モデルの性能向上は,機械学習における重要な課題である。
    • 既存手法では,生成データの品質と多様性の両立が困難である。
    • カーネル平滑化分布におけるスコアマッチングとの関係を明確化する。
    • ドリフトモデルは,カーネル平滑化された分布上でスコアベースの定式化を持つことが示された。
    • ガウスカーネルの場合,平均シフト場はデータ分布とモデル分布のスコア差と一致する。
    • ドリフトモデルは,ラプラスカーネルにおいてもスコアマッチングの正確な近似となることが理論的に証明された。

    Link: https://arxiv.org/abs/2603.07514

  • EvolveReason:説明可能なディープフェイク顔画像識別のための自己進化型推論パラダイム [cs.CV]目的:ディープフェイク顔画像識別における自己進化型推論パラダイムの提案
    • AI生成技術の急速な発展に伴い,ディープフェイクによるセキュリティ問題への対応が急務となっている。
    • 既存手法では,分類精度と説明可能性の両立が課題であり,詳細な根拠に基づいた識別が困難である。
    • 人間のような思考過程を模倣し,詳細かつ信頼性の高い説明を生成することで,識別精度と説明可能性を向上させる。
    • EvolveReasonは,最先端の手法と比較して識別性能が向上し,ディープフェイクの偽造箇所を正確に特定できることを示した。
    • CoT-Faceデータセットと自己進化型探索戦略により,モデルは人間らしい思考プロセスと判断結果を生成し,幻覚を軽減する。
    • 偽造画像の潜在空間分布を捉えるモジュールにより,オリジナル画像からは抽出が難しい高周波の偽造手がかりを識別できる。

    Link: https://arxiv.org/abs/2603.07515