arXiv雑要約

画像・音声 - 2026/03/11 公開

エッジおよびセンサー内AIプロセッサの性能分析：比較レビュー [cs.AR, cs.CV, cs.LG]目的：超低消費電力エッジプロセッサの性能比較と評価
- IoT機器の普及により，低消費電力かつリアルタイムなAI処理の需要が急速に高まっている。
- 既存のプロセッサでは，AI処理に必要な性能と消費電力のバランスを取ることが課題となっている。
- 様々なAIプロセッサの特性を明らかにし，最適なプロセッサの選択を支援することを目的とする。
- IMX500は，86.2 MAC/cycleという高い利用率と，最小のエネルギー遅延積を達成し，センサー内処理の重要性と技術的成熟度を示した。
- GAP9は，マイクロコントローラークラスの電力予算内で最高のエネルギー効率を提供した。
- STM32N6は，エネルギーコストは高いものの，最も低い生レイテンシを実現した。
Link: https://arxiv.org/abs/2603.08725
選挙制度シミュレーター：多様な有権者分布シナリオにおける選挙メカニズムの比較のためのオープンフレームワーク [cs.GT, cs.MA]目的：選挙制度のシミュレーションと，多様な有権者の選好分布における選挙メカニズムの比較
- 民主主義社会において，公正で代表性のある選挙制度は政治の安定と発展に不可欠である。
- 既存の選挙制度評価は，特定の状況に依存し，普遍的な比較が困難であるという課題がある。
- 様々な選挙制度の性能を定量的に比較し，より良い制度設計に貢献すること。
- 本フレームワークは，有権者と候補者を2次元のイデオロギー空間における点として表現し，選好を距離に基づいて導き出す。
- 多数決，ランク選択，承認，スコア，コンドルセなどの標準的な選挙メカニズムを，有権者分布の幾何学的中央値との距離という共通指標で評価した。
- シミュレーションの結果から，各制度の安定性と性能を，単一実行およびモンテカルロ法によって比較した。
Link: https://arxiv.org/abs/2603.08752
EDMFormer：音楽構造セグメンテーションのためのジャンル特化型自己教師あり学習 [cs.SD, cs.AI]目的：EDM（エレクトロニック・ダンス・ミュージック）の音楽構造セグメンテーション
- 音楽分析における重要な課題であり，楽曲の理解や自動DJなどの応用が期待される。
- 既存モデルはEDMにおいて性能が低く，歌詞やハーモニーに依存するアプローチではEDM特有の構造を捉えられない。
- EDM特有のデータセットと分類を用いて，エネルギー，リズム，音色の変化を捉えるモデルを開発し，セグメンテーション精度を向上させる。
- EDMFormerは既存モデルと比較して，EDMの境界検出とセクションラベリングの精度を向上させた。
- 特に，ドロップとビルドアップの識別において顕著な改善が見られた。
- 学習表現とジャンル特化型データ，構造に関する事前知識の組み合わせが，EDMだけでなく他の音楽ジャンルにも応用可能である可能性を示唆している。
Link: https://arxiv.org/abs/2603.08759
Granulon：適応的多粒度意味論によるピクセルレベルの視覚エンコーダーの覚醒 - MLLMのための [cs.DC, cs.CV]目的：マルチモーダル大規模言語モデルにおける視覚的理解の向上
- 画像とテキストの理解を統合するMLLMは，多様な応用を可能にする重要な技術である。
- CLIPベースのエンコーダーは全体的な意味論に優れるが，詳細な視覚的理解が課題である。
- Granulonは，DINOv3のピクセルレベルの知覚能力と，テキストに応じた粒度制御により，この問題を解決する。
- Granulonは，テキストのセマンティックスコープに応じて視覚的抽象化レベルを動的に調整する。
- 適応的トークン集約モジュールにより，コンパクトで意味的に豊かな視覚トークンが生成される。
- 実験により，Granulonは既存のエンコーダーと比較して，精度が約30%向上し，幻覚が約20%減少することが示された。
Link: https://arxiv.org/abs/2603.08800
どこで，何を，なぜ：説明可能な3D-GSウォーターマーキングへ [cs.CV]目的：3D Gaussian Splattingへの説明可能なウォーターマーク埋め込み手法
- インタラクティブな3Dコンテンツの普及に伴い，知的財産の保護が重要になっている。
- 既存のウォーターマーキング手法は，品質劣化や頑健性の問題がある。
- 3D Gaussian Splattingに適した，高品質で頑健なウォーターマーキングを実現する。
- 提案手法は，Gaussianプリミティブ上でキャリア選択の事前分布を導出し，ビット耐性と画質を最適化する。
- チャネルワイズグループマスクにより，パラメータ更新を制御し，アーティファクトを修正し，高周波ディテールを維持する。
- 従来手法と比較して，PSNRが+0.83dB，ビット精度が+1.24%向上し，説明可能性も確保された。
Link: https://arxiv.org/abs/2603.08809
VisionCreator-R1：反射を活用したネイティブな画像生成エージェントモデル [cs.RO, cs.CV]目的：画像生成における計画と反射の最適化
- 画像生成技術は発展を遂げているが，複雑なタスクには対応が難しい。
- 既存のエージェントは計画に依存し，途中の誤りを修正する仕組みがない。
- 計画と反射を同時に最適化し，よりロバストな画像生成を目指す。
- VisionCreator-R1は，画像生成エージェントにおける反射メカニズムの重要性を示した。
- RPCOという学習手法により，計画と反射の非対称性を克服し，性能向上を実現した。
- 既存のベンチマークとVCR-benchにおいて，Gemini2.5Proを上回る性能を達成した。
Link: https://arxiv.org/abs/2603.08812
Fish Audio S2 技術報告 [cs.RO, cs.SD, cs.AI, cs.CL]目的：オープンソースのテキスト読み上げシステムFish Audio S2の開発
- 音声合成技術は，人間とコンピュータのコミュニケーションにおいて重要な役割を担う。
- 既存の音声合成システムは，多様な指示への対応やリアルタイム性に課題がある。
- 自然言語による指示に基づいた高品質な音声合成を可能にすること。
- Fish Audio S2は，複数話者，複数ターンに対応し，自然言語による指示制御機能を備えた。
- 大規模な学習のために，ビデオキャプションや音声キャプションを含む段階的なデータパイプラインと学習方法を開発した。
- ストリーミングに最適化された推論エンジンは，RTF 0.195，初回音声出力までの時間100ms未満を達成した。
Link: https://arxiv.org/abs/2603.08823
視点投影を用いたコンピュータビジョンベースの車両割当システム [cs.CC, cs.CV]目的：車両割当の自動化
- 都市化と技術の交差点において，データ駆動型ソリューションと持続可能なインフラが都市生活を定義するスマートシティ研究が重要である。
- 既存のセンサー技術には限界があり，統合も複雑であり，効率的な自動駐車システムの普及が妨げられている。
- 特に人口密集地において，より高度な車両割当システムを構築し，都市交通の混雑緩和を目指す。
- 本研究では，コンピュータビジョンとYOLOv8などの物体検出モデルを用いた，費用対効果が高く導入しやすいスマートパーキングシステムを提案する。
- 四つのカメラからの画像を逆透視投影（IPM）で統合することで，空き駐車スペースのデータを抽出する。
- システムは3D駐車環境をシミュレーションし，空きスペースを3D Cartesianプロットで表現することで，ユーザーを誘導する。
Link: https://arxiv.org/abs/2603.08827
展開可能なデジタル病理のための軽量多癌腫瘍局在化フレームワーク [cs.HC, cs.CV, cs.AI]目的：多癌腫瘍局在化モデルの構築
- 空間解析や分子プロファイリングなど，転移研究の基盤となる技術である。
- 特定の癌で訓練された深層学習モデルは，他の癌種への汎化性能が低い場合がある。
- 少量のデータで多癌種を対象とした訓練を行い，汎化性能の向上を目指す。
- 訓練癌4種において，タイルレベルのROC-AUCは0.97という高い性能を達成した。
- 独立した膵管腺癌データセットにおいても，0.71という良好な結果が得られた。
- 既存のデジタル病理ツールと互換性のある空間腫瘍確率ヒートマップを生成するスケーラブルな推論ワークフローを構築した。
Link: https://arxiv.org/abs/2603.08844
HECTOR：ビデオ生成のためのハイブリッド編集可能な構成オブジェクト参照 [cs.HC, econ.GN, q-fin.EC, cs.HC, cs.CV]目的：ビデオ生成における微細な構成制御
- 現実世界の映像は複雑な物体間相互作用を含むため，高品質な映像生成には不可欠である。
- 既存のビデオ生成モデルは全体論的な合成を行うため，構成要素の個別制御が困難である。
- 静止画と動画の両方を参照し，要素の軌跡を指定することで，精密な制御を実現する。
- HECTORは，参照画像の忠実性を保ちつつ，複雑な時空間的制約を満たす一貫性のあるビデオを生成する。
- 従来のモデルと比較して，視覚品質，参照の保持，運動制御において優れた性能を示す。
- 静止画と動画のハイブリッド参照により，柔軟な生成が可能となる。
Link: https://arxiv.org/abs/2603.08850
VLMベースの自動運転アーキテクチャに対するパッチ攻撃の比較分析 [cs.HC, cs.CG, cs.HC, cs.HC, cs.CV]目的：VLMベース自動運転アーキテクチャのパッチ攻撃に対する脆弱性評価
- 自動運転技術の安全性確保は不可欠であり，AIの頑健性が重要である。
- 物理的な敵対的攻撃に対するVLMの堅牢性は未だ検証されていない。
- VLMアーキテクチャの脆弱性を明らかにし，安全性向上に貢献する。
- Dolphins，OmniDrive，LeapVADの全アーキテクチャにおいて深刻な脆弱性が確認された。
- パッチ攻撃は複数フレームにわたる誤動作や物体検出の精度低下を引き起こすことが示された。
- 各アーキテクチャ固有の脆弱性パターンが明らかになり，既存設計の課題が浮き彫りになった。
Link: https://arxiv.org/abs/2603.08897
自然環境下における視覚的クエリセグメンテーション [cs.CV]目的：視覚的クエリセグメンテーションのための大規模ベンチマークデータセットと手法
- 動画解析技術は，監視，自動運転，コンテンツ理解など，幅広い分野で重要性が増している。
- 既存の視覚的クエリ定位（VQL）は，対象の最終出現箇所のみをバウンディングボックスで示すため，網羅性に欠ける。
- 本研究は，動画内の対象物全てのピクセルレベルなセグメンテーションを可能にする新しい課題，視覚的クエリセグメンテーション（VQS）に取り組む。
- VQS-4Kは，多様な222のオブジェクトカテゴリーを含む130万フレーム以上の動画から構成される大規模ベンチマークデータセットである。
- 提案手法VQ-SAMは，SAM 2を拡張し，ターゲットと背景の情報を用いて段階的にメモリを進化させ，VQS性能を大幅に向上させる。
- 実験の結果，VQ-SAMは既存手法を凌駕し，VQSの新たな可能性を示すとともに，今後の研究を促進することが期待される。
Link: https://arxiv.org/abs/2603.08898
クロスセンターシフト下におけるロバストな多タスク甲状腺超音波のためのマルチカーネルゲート付きデコーダアダプタ [cs.HC, cs.RO, cs.CV, physics.med-ph]目的：甲状腺超音波画像における結節の輪郭抽出と悪性リスク評価のための，クロスセンターシフトに対するロバスト性を向上させる手法
- 甲状腺超音波は，診断精度向上のために自動化が求められているが，結節の形状とテクスチャという異なる特徴を同時に考慮する必要がある。
- 異なる医療機関間でのデータ分布の差（クロスセンターシフト）により，画像の品質が低下し，自動化システムの性能が著しく悪化する可能性がある。
- 本研究では，異なるバックボーンの特性を活かし，デコーダ側のアダプタを導入することで，クロスセンターシフト下でのロバスト性を改善することを試みる。
- 提案手法であるマルチカーネルゲート付きデコーダアダプタ（MKGA）は，多スケール特徴を効率的に活用し，ノイズの影響を抑制することで，セグメンテーション精度を向上させた。
- 特にCNNバックボーンにおいて，臨床的なTI-RADS診断精度が大幅に改善され，従来手法と比較して優れた性能を示した。
- MedSAMバックボーンでは，幾何学的特徴の転移がセグメンテーションに貢献し，全体的な性能向上に寄与した。
Link: https://arxiv.org/abs/2603.08906
視覚・言語モデルにおける臨床ガイドラインの概念に基づく医学的推論のエンコード [cs.CV, cs.LG]目的：臨床ガイドラインを組み込んだ概念ベース推論フレームワーク
- 医療分野において，AIの透明性と説明可能性は患者の信頼獲得と安全な医療提供に不可欠である。
- 従来の概念ボトルネックモデルでは，診断ガイドラインなどの広範な臨床的文脈が考慮されず，複雑な症例での信頼性が低い。
- 画像，概念，病理を統合し，ガイドラインに基づいた診断推論を可能にするフレームワークを構築し，説明可能性を高める。
- 提案手法MedCBRは，超音波画像で94.2％，マンモグラフィで84.0％という高いAUROCスコアを達成した。
- MedCBRは，診断および概念レベルの性能において既存手法を上回り，非医療データセットでも高い精度を示した。
- 本研究は，医療画像分析と意思決定を結びつけるエンドツーエンドのフレームワークを提供し，解釈可能性を向上させる。
Link: https://arxiv.org/abs/2603.08921
MEGC2026：視覚的質問応答における微表情グランドチャレンジ [cs.RO, cs.CV, cs.MM]目的：微表情に関する視覚的質問応答能力の評価
- 微表情は感情の漏洩に関わる重要な情報であり，心理学やセキュリティ分野で注目されている。
- 長時間の動画における微表情の検出や，時間的な推論は依然として困難な課題である。
- 多種多様な質問形式に対応できるモデルの構築と，長期動画における微表情の理解を目指す。
- MEGC2026では，微表情の理解を評価するため，視覚的質問応答のタスクを２種類提案している。
- 短い動画に対するME-VQAと，長尺動画に対するME-LVQAを通じて，モデルの多角的性能を測る。
- 参加アルゴリズムは公開リーダーボードで評価され，微表情分析研究の進展に貢献する。
Link: https://arxiv.org/abs/2603.08927
TIDE：ステップ認識型温度制御による拡散Transformerのテキスト情報に基づいた動的外挿 [cs.CV]目的：拡散Transformerの高解像度画像生成における構造劣化問題の解決
- 画像生成AIの発展は，高品質なコンテンツ作成に不可欠であり，その性能向上が求められている。
- 拡散Transformerは，高解像度生成時に注意機構の希薄化により構造劣化が起こりやすいという課題がある。
- プロンプト情報の損失を修正し，アーティファクトを低減することで，任意の解像度での高品質な画像生成を目指す。
- TIDEは，トレーニング不要でテキストから画像を生成する外挿法であり，追加のサンプリングオーバーヘッドなしに任意の解像度とアスペクト比で生成可能である。
- テキストアンカリング機構により，テキストと画像トークン間の不均衡を修正し，プロンプト情報の損失を抑制することに成功した。
- 拡散過程におけるスペクトル進行のパターンを利用した動的温度制御により，アーティファクトを効果的に削減し，高画質を維持している。
Link: https://arxiv.org/abs/2603.08928
視覚言語基盤モデルを用いた文脈学習による植物シミュレーション設定の生成 [cs.CV, cs.AI]目的：植物シミュレーション設定の生成
- 農業環境における生物物理学的プロセスのシミュレーションは重要であり，機能構造植物モデル（FSPM）が活用される。
- FSPMは複雑で処理能力が低いため，大規模展開のボトルネックとなっている。
- 視覚言語モデル（VLM）を活用し，ドローン画像からシミュレーションパラメータを生成することで，この課題を解決する。
- VLMは構造メタデータや植物数，太陽方位などのパラメータを解釈できることが示された。
- ただし，文脈的バイアスや視覚的手がかりの不足により，性能が低下する場合がある。
- 実世界のドローン画像データによる検証と，ベースラインを用いた比較実験により，VLMの推論能力が明らかになった。
Link: https://arxiv.org/abs/2603.08930
PathoScribe：統一LLM駆動フレームワークによる病理データの生きたライブラリ化と意味検索・臨床統合 [cs.CV, cs.AI, cs.CL, cs.DL, cs.IR]目的：病理データの生きたライブラリ化と意味検索，臨床統合の実現
- 病理診断は現代医療の根幹であり，蓄積された経験が重要。しかし，その知識は十分に活用されていない。
- デジタル化が進む一方で，検索・推論機能が不十分なため，病理アーカイブが有効活用されていない現状がある。
- 過去の類似症例をリアルタイムで参照し，診断を支援するシステムの構築を目指す。
- PathoScribeは，病理アーカイブを検索可能な生きたライブラリへと変革する統合的なフレームワークである。
- 7万件の病理レポートを対象に評価した結果，自然言語による症例検索でRecall@10が完璧に達成された。
- 自由記述の適格基準に基づいた自動コホート構築も可能となり，手動によるレビューと比較して大幅な時間とコスト削減を実現した。
Link: https://arxiv.org/abs/2603.08935
VoxEmo：音声LLMによる音声感情認識のベンチマーク [cs.SD, cs.AI, cs.CL, cs.MM, eess.AS]目的：音声感情認識のためのベンチマーク
- 音声感情認識は，人間と機械の自然な対話を可能にする上で重要な技術である。
- 既存の音声LLMベンチマークは，人間の感情の曖昧さを考慮していない。
- 音声LLMにおける評価のばらつきを抑え，より実世界に近い感情認識を目指す。
- ゼロショットの音声LLMは，教師ありベースラインのハードラベル精度を下回るものの，人間の主観的分布と一致する。
- VoxEmoは，15言語の35の感情コーパスを含む包括的なベンチマークである。
- 異なるプロンプト複雑度に対応した標準化ツールキット，および分布を考慮したソフトラベルプロトコルを導入した。
Link: https://arxiv.org/abs/2603.08936
BiCLIP：構造化された幾何学的変換によるドメイン正準化 [cs.CV, cs.AI, cs.CL, cs.LG]目的：ドメイン間の特徴量の幾何学的変換による，ビジョン言語モデルのドメイン適応
- 近年のビジョン言語モデルの進歩は目覚ましいが，専門分野への応用は課題である。
- 既存モデルはドメインごとに独立して学習されるため，ドメイン間の知識転移が困難である。
- 少数のアンカーサンプルを用いて幾何学的変換を推定し，ドメイン適応を効率的に実現する。
- BiCLIPは，マルチモーダル特徴量にターゲットを絞った変換を適用し，クロスモーダルアラインメントを強化する。
- EuroSAT，DTD，FGVCAircraftを含む11の標準ベンチマークで，最先端の結果を達成した。
- 学習された変換の直交性と角度分布を分析し，構造化されたアラインメントが堅牢なドメイン適応の鍵であることを確認した。
Link: https://arxiv.org/abs/2603.08942
継続的に聞く，定位し，分割できるか？音声・視覚セグメンテーションのための模範不要継続学習ベンチマーク [cs.CV, eess.AS]目的：音声・視覚セグメンテーションにおける継続学習のベンチマーク
- 現実環境は常に変化するため，静的な学習設定を前提とする既存システムでは対応が困難である。
- 音声と視覚の分布が時間とともに変化することが，AVSシステムの性能低下を招く。
- 変化する環境下で性能を維持できる継続学習手法を確立すること。
- 本研究では，模範不要の継続学習ベンチマークを新たに提案し，音声・視覚セグメンテーションの性能評価を行った。
- 音声情報に基づいた事前融合条件付けにより，視覚特徴チャネルを調整するATLASという強力なベースラインを提案した。
- 損失感度に基づいた低ランクアンカリング(LRA)により， catastrophic forgetting を軽減することに成功した。
Link: https://arxiv.org/abs/2603.08967
SVG-EAR：エラー認識ルーティングによる疎なビデオ生成のためのパラメータフリー線形補償 [cs.CV]目的：疎なビデオ生成における効率と品質の改善
- ビデオ生成の分野は急速に発展しており，高画質かつ効率的な生成手法が求められている。
- Diffusion Transformerは強力だが，計算コストが高く，特に注意機構の計算量が課題となっている。
- 既存手法は情報損失や学習コストの増加を招くため，訓練不要な補償手法が求められている。
- SVG-EARは，セマンティッククラスタリングと重心補償により，訓練なしで欠損した注意ブロックを効果的に復元する。
- エラー認識ルーティングにより，補償誤差の大きいブロックを優先的に計算し，計算コストと品質のバランスを最適化する。
- Wan2.2とHunyuanVideoにおいて，既存手法と比較して最大1.77倍および1.93倍の高速化を達成し，PSNRも向上した。
Link: https://arxiv.org/abs/2603.08982
SurgCalib：ガウススプラッティングに基づくロボット支援低侵襲手術用ハンドアイキャリブレーション [cs.RO, cs.CV]目的：ロボット支援低侵襲手術用ハンドアイキャリブレーションの精度向上
- ロボット手術の普及に伴い，正確な手術支援システムの構築が不可欠である。
- 手術ロボットのアームとカメラ間の位置関係の推定精度が低い場合がある。
- 手術室内の滅菌を損なわない，マーカーレスなキャリブレーション手法の開発。
- SurgCalibは，ガウススプラッティングを用いた新しい自動キャリブレーションフレームワークである。
- dVRKベンチマークSurgPoseを用いた評価で，2次元ツールチップ再投影誤差は平均12.24px（2.06mm）であった。
- 3次元ツールチップユークリッド距離誤差は，左右の器具でそれぞれ5.98mm，4.75mmであった。
Link: https://arxiv.org/abs/2603.08983
SkipGS：効率的な3DGS学習のための後処理段階における後方スキップ [cs.CV]目的：3D Gaussian Splatting の効率的な学習手法
- 3DGSはリアルタイムな新規視点合成を可能にするが，学習コストが高い
- 後処理段階における勾配計算の冗長性が，学習速度のボトルネックとなっている
- 勾配計算の冗長性を解消し，学習時間を短縮することを目指す
- SkipGSは，損失が安定しているサンプリング視点における後方伝播を省略することで，学習時間を短縮する
- Mip-NeRF 360 データセットにおいて，SkipGSは3DGSと比較して，エンドツーエンドの学習時間を23.1%削減した
- SkipGSはレンダラーや表現形式を変更しないため，他の効率化手法と組み合わせやすい
Link: https://arxiv.org/abs/2603.08997
拡散に基づくコピー検出パターン認証：プリンター署名条件付きマルチモーダルフレームワーク [cs.CV]目的：偽造品検出パターンの認証
- 偽造品は，医薬品，電子機器，食品など多様な産業に影響を及ぼし，健康と経済に深刻なリスクをもたらす。
- 高解像度印刷・スキャンデバイスの普及と生成AIの進化により，従来の認証システムでは高品質な偽造品を見分けることが困難になっている。
- プリンター署名に基づいた多クラス分類により，デバイス固有の微細な特徴を捉え，高精度な認証を実現することを目指す。
- 本研究では，拡散モデルを用いた認証フレームワークを提案し，オリジナルテンプレート，印刷されたCDP，プリンター情報を統合的に活用する。
- 提案手法は，ControlNetを拡張し，ノイズ予測プロセスをクラス条件付きに再利用することで，効果的なプリンター分類を可能にする。
- Indigo 1 x 1 Baseデータセットにおいて，従来手法や既存の深層学習アプローチを上回り，学習時に未見の偽造品に対しても汎化性能を示す。
Link: https://arxiv.org/abs/2603.08998
音声ディープフェイク検出におけるジェンダーの公平性：性能と差異分析 [cs.SD, cs.AI]目的：音声ディープフェイク検出モデルにおけるジェンダー依存の性能と公平性
- 音声認証システムにおいて，AI生成音声による不正利用のリスクが高まっており，検出技術の重要性が増している。
- 音声ディープフェイク検出の進展にも関わらず，ジェンダーバイアスに関する研究は十分に進んでいない。
- 従来の評価指標では捉えきれないジェンダー間のエラー分布の差異を明らかにし，公平性のある検出システム開発を目指す。
- 全体的なエラー率に差が見られない場合でも，公平性指標を用いることで，ジェンダー間のエラー分布の差異が明らかになった。
- 従来の評価指標のみでは信頼できないことが示され，公平性指標が人口統計学的特性に応じた失敗モードの分析に不可欠であることが示唆された。
- 公平性を意識した評価が，より公平で堅牢，そして信頼性の高い音声ディープフェイク検出システムの開発に重要であることが強調された。
Link: https://arxiv.org/abs/2603.09007
結合の内部：蒸留された正規化フローによるフローマッチング [cs.HC, cs.LG, cs.CV]目的：フローマッチング回帰損失を定義するノイズ/データペアのサンプリングのための結合測度の選択
- 大規模な生成モデルの学習とデプロイメントにおいて，フローモデルが重要な役割を担っている。
- 従来のフローマッチングでは独立結合がデフォルトであり，性能向上の余地がある。
- 事前学習済みの正規化フローからの蒸留結合を用いて，フローモデルの学習と推論を改善すること。
- 提案手法Normalized Flow Matching（NFM）は，独立結合や最適輸送結合と比較して優れた性能を示す。
- NFMは，教師となる自己回帰型正規化フローモデルを超える性能を達成する。
- NFMは，蒸留された結合により，学習と推論の両方を改善する。
Link: https://arxiv.org/abs/2603.09014
CNNモデルの汎化性能を推定するための正確な平坦性指標 [cs.LG, cs.CV, cs.NE]目的：CNNモデルの汎化性能推定のための平坦性指標
- 深層学習モデルの汎化性能評価は，実用的な応用において重要である。
- 既存の平坦性指標は，CNN固有の構造を考慮していない場合が多い。
- CNNの構造を考慮した正確な平坦性指標を開発し，汎化性能評価に活用すること。
- 提案手法は，グローバル平均プーリングと線形分類器を持つCNNの損失関数のヘッセ行列のトレースを正確に計算する閉形式式を導出した。
- 畳み込み層における相対的な平坦性を定義し，畳み込みとプーリングによるスケーリング対称性とフィルタ間の相互作用を考慮した指標を提案した。
- 標準的な画像分類ベンチマークで実験を行った結果，提案手法はCNNモデルの汎化性能を評価するためのロバストなツールとして有効であることが示された。
Link: https://arxiv.org/abs/2603.09016
WS-Net：状態空間と弱信号注意融合によるハイパースペクトル分解のための弱信号表現学習とゲート付き豊富な再構成 [cs.CV, cs.AI]目的：ハイパースペクトル分解における弱信号崩壊の軽減
- ハイパースペクトル画像は多様な情報を有するが，微弱なスペクトル応答の検出が課題。
- 既存手法では，強いスペクトル成分に埋もれ，微弱な信号が正確に分離できない場合がある。
- 微弱なスペクトル信号の識別と分離能力を向上させ，より正確な分解を実現する。
- 提案手法WS-Netは，状態空間モデルと弱信号注意融合により，弱信号崩壊を効果的に抑制する。
- 合成データセットおよび実際のデータセットにおいて，最先端のベースラインと比較して，RMSEとSADを最大55%および63%削減した。
- 特に低SNR条件下や微弱なエンドメンバーにおいて，安定した精度を維持することが示された。
Link: https://arxiv.org/abs/2603.09037
単一画像からの雨除去のためのスペクトル構造化拡散 [cs.CV]目的：単一画像からの雨除去手法
- 画像劣化問題は，コンピュータビジョンの応用において重要な課題である。
- 雨の影響は周波数特性に偏りがあり，単純な空間拡散では除去が困難である。
- スペクトル構造を考慮した拡散により，雨成分の抑制を効果的に行う。
- 本研究では，スペクトル構造化拡散フレームワーク「SpectralDiff」を提案した。
- 畳み込み層を要素積層に置き換えることで，計算効率を向上させつつモデルの表現力を維持した。
- 合成データおよび実データによる実験で，既存手法と同等以上の雨除去性能が確認された。
Link: https://arxiv.org/abs/2603.09054
建設現場における火災危険性の知能的空間推定：強化されたYOLOv8搭載の近接分析フレームワーク [cs.CV]目的：建設現場における火災危険性の空間推定と近接性に基づいたリスク評価
- 建設現場の安全性確保は重要であり，火災は重大な事故につながる可能性があるため，早期発見と迅速な対応が求められる。
- 従来の火災検知システムは，単なる検出にとどまり，危険度に応じた優先順位付けや具体的な対応策の提示が困難であった。
- 火災の発生と周囲の物体との距離を考慮したリスク評価を行い，より効果的な火災対応を可能にすることを目指す。
- 提案フレームワークは，YOLOv8を用いた火災・煙の検知と，周囲物体の認識を組み合わせることで，高精度な空間推定を実現した。
- ピクセル単位の距離を実距離に換算し，火災の証拠，物体の脆弱性，距離に基づいて定量的なリスクスコアを算出する。
- 本フレームワークは，精度，再現率，F1スコアが90%を超え，mAP@0.5が91%以上という高い性能を示した。
Link: https://arxiv.org/abs/2603.09069
GST-VLA：3次元深度認識を用いた視覚-言語-行動モデルのための構造化ガウス空間トークン [cs.CV, cs.AI, cs.RO]目的：3次元空間における視覚情報，言語情報，行動の連携を可能にするモデルの性能向上
- ロボット工学やコンピュータビジョンの分野において，環境を理解し，適切な行動を選択するためには，3次元空間の認識が不可欠である。
- 従来のVLAモデルは2次元パッチトークンを使用しており，3次元空間の幾何学的構造を捉えることが困難であった。
- ガウス空間トークンと深度認識を用いたChain-of-Thought推論により，3次元空間の理解と行動計画の精度を向上させる。
- ガウス空間トークン(GST)は，深度情報とセマンティック特徴を3次元ガウス分布に変換し，幾何学的構造を明示的に表現することに成功した。
- 3次元深度認識を用いたChain-of-Thought(DA-CoT)推論は，オブジェクトの定位，把持可能性，距離，経路計画といった中間的な空間的思考を導き出すのに有効である。
- 実験結果から，GST-VLAは既存モデルと比較して，LIBEROとSimplerEnvにおいて高い性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.09079
OmniEdit：学習不要なリップシンクロとオーディオビジュアル編集フレームワーク [cs.RO, cs.CV]目的：リップシンクロとオーディオビジュアル編集のためのフレームワーク
- 映像制作，バーチャルアバター，テレプレゼンスなど，マルチモーダル学習の基盤技術として重要性が増している。
- 既存手法は，事前学習済みモデルの教師ありファインチューニングに依存し，計算コストやデータ要件が大きいという課題がある。
- 学習を必要としないフレームワークにより，計算コストとデータ要件の課題を解決することを目指す。
- OmniEditは，FlowEditにおける編集シーケンスを目標シーケンスに置き換えることで，バイアスのかからない出力推定を実現する。
- 生成過程から確率的要素を除去することで，滑らかで安定した編集軌跡を確立した。
- 広範な実験により，提案フレームワークの有効性と堅牢性が検証された。
Link: https://arxiv.org/abs/2603.09084
物理的に妥当な動画生成のためのイベント中心因果思考 [cs.CV]目的：物理的に妥当な動画生成における因果関係のモデル化
- 現実世界の物理現象をモデル化する上で，物理的に妥当な動画生成は重要な研究分野である。
- 動画拡散モデルは常識知識の理解に課題があり，物理概念をプロンプトに埋め込むアプローチも瞬間的な表現にとどまる。
- この研究は，因果的に繋がったイベントのシーケンスとして動画生成を行うことで，この問題を解決することを目指す。
- 提案手法では，プロンプトを複数の要素イベントに分解し，物理法則を制約として埋め込むことで，因果関係の曖昧さを軽減している。
- イベント間の連続性を維持するため，因果イベントを時間的に整合した視覚・言語プロンプトに変換するモジュールを設計した。
- PhyGenBenchおよびVideoPhyベンチマークにおける実験結果は，提案手法が多様な物理領域で優れた性能を達成することを示している。
Link: https://arxiv.org/abs/2603.09094
読むこと，考えること：マルチモーダルLLMにおけるテキストがピクセルになった際のモダリティギャップの理解と解消 [cs.CL, cs.CV]目的：マルチモーダルLLMにおけるモダリティギャップの理解と解消
- LLMのマルチモーダル化は，多様なデータ形式への対応を可能にし，応用範囲を拡大する上で重要である。
- テキストとして与えられた場合と画像として与えられた場合で性能に差が生じるモダリティギャップが存在する。
- 画像形式のテキスト入力に対する性能低下の原因を特定し，その改善策を提案すること。
- マルチモーダルLLMは，テキストを画像として処理する場合，テキストとして与えられた場合と比較して性能が低下することが示された。
- モダリティギャップはタスクやデータに依存し，フォントや解像度などのレンダリング選択が結果に大きく影響する。
- 自己蒸留法を用いることで，画像モードの精度を大幅に向上させ，未知のベンチマークへの転移学習も可能となった。
Link: https://arxiv.org/abs/2603.09095
MedKCO：知識駆動型認知オーケストレーションによる医療画像と言語の事前学習 [cs.CV]目的：医療画像と言語の事前学習モデルの汎化性能向上
- 医療分野における画像診断支援の自動化と精度向上は，医療の質と効率を大きく左右する。
- 既存の医療VLPモデルは，単純な概念と複雑な概念を同時に学習するため，特徴表現が最適化されない。
- 分布シフト下での性能低下を抑制し，より高度な特徴表現を獲得することを目的とする。
- 提案手法MedKCOは，診断感度とクラス内サンプル代表性を考慮したデータ順序付けを行う。
- さらに，医療画像のクラス間類似性を考慮した自己ペース非対称コントラスト損失を導入し，学習目標の参加度を動的に調整する。
- 複数のタスクにおいて，既存手法と比較して有意に高い性能を示すことが実験的に確認された。
Link: https://arxiv.org/abs/2603.09101
学習不要な運動因子分解による構成的ビデオ生成 [cs.CV]目的：構成的ビデオ生成における多様な外観と運動の合成
- 現実世界への応用が期待される分野であり，多様な表現が求められる。
- 既存手法は意味の結合に偏り，プロンプトで指定された多様な運動カテゴリの理解が不十分である。
- プロンプトの曖昧さを解消し，構造化された表現を用いて運動を制御することを目指す。
- 本研究では，複雑な運動を静止，剛体，非剛体の3つの主要なカテゴリに分解するフレームワークを提案した。
- 計画段階で運動グラフ上の法則に基づいて運動変化を推論し，生成段階で各運動カテゴリを分離して調整することで，高品質な運動合成を実現した。
- 本フレームワークはモデルに依存せず，様々な拡散モデルアーキテクチャに容易に組み込むことができる。
Link: https://arxiv.org/abs/2603.09104
皮膚癌症例検索のための，グローバル・ローカル表現の同時整列による合成視覚言語検索 [cs.CV, cs.AI]目的：皮膚癌症例の検索システム
- 診断支援，教育，品質管理において，臨床的に関連性の高い症例を迅速に検索することは重要である。
- 画像とテキストの両方を組み合わせた複合的な検索クエリへの対応が難しく，適切な表現学習が課題である。
- グローバルな意味的情報と局所的な特徴を同時に整列させることで，検索精度を向上させる。
- 提案手法は，Derm7ptデータセットにおいて，最先端の手法と比較して一貫した性能向上を示した。
- 局所的な注意機構とグローバルな意味的情報を組み合わせることで，臨床的に重要な領域に焦点を当てた検索を実現した。
- 本研究は，関連性の高い医療記録への効率的なアクセスを可能にし，臨床現場での実用的な展開を支援する。
Link: https://arxiv.org/abs/2603.09108
VIVID-Med：導入可能な医療ViTのためのLLMによる構造化事前学習 [cs.CV, cs.AI]目的：医療画像解析におけるViTの事前学習手法
- 医療画像解析の精度向上は，疾患の早期発見や適切な治療に不可欠である。
- 従来の教師あり学習は，臨床所見間の複雑な意味関係を捉えきれていない。
- LLMを活用し，より効率的かつ高性能な医療画像解析モデルを開発する。
- VIVID-Medは，CheXpert線形プローブにおいて，BiomedCLIPを6.65ポイント上回る0.8588のmacro-AUCを達成した。
- NIH ChestX-ray14へのゼロショット転移学習においても優れた性能を示し，0.7225のmacro-AUCを記録した。
- CT画像やOrganAMNISTといった他のモダリティへの汎化性能も高く，それぞれ0.8413 AUC，0.9969 macro-AUCを達成した。
Link: https://arxiv.org/abs/2603.09109
不完全なモダリティを持つマルチモーダル感情分析のための漸進的な表現学習 [eess.SY, cs.SY, cs.CV]目的：マルチモーダル感情分析における表現学習の進展
- 人間の感情理解には，テキスト，音声，視覚情報が重要であり，それらを統合するMSA研究が活発である。
- 現実世界では，モダリティが欠損することが多く，既存手法は完全なデータに依存している点が課題である。
- 欠損モダリティ下でもロバストな感情分析を実現し，各モダリティの表現を歪めることなく統合することを目指す。
- 提案手法PRLFは，信頼性推定器AMREを用いて主要モダリティを動的に特定し，他のモダリティとの整合性を高める。
- 反復的な相互作用モジュールProgInteractにより，ノイズを抑制し，モダリティ間の整合性を強化する。
- CMU-MOSI，CMU-MOSEI，SIMSデータセットで，既存手法を上回る性能を示し，汎化能力を実証した。
Link: https://arxiv.org/abs/2603.09111
品質を意識し，不確実性を考慮した画像超解像拡散モデル [cs.CV, cs.AI]目的：画像超解像のための拡散モデル
- 画像処理において，高解像度化は，鮮明な画像を得る上で不可欠な技術である。
- 現実世界の画像は劣化が多様であり，従来のモデルでは詳細が失われたり，不自然な箇所が生じやすい。
- 未知の劣化や空間的に不均一な劣化に対応し，より自然で高精細な画像を復元すること。
- 本研究で提案するQUSRモデルは，品質を意識した事前知識と不確実性を考慮したノイズ生成を組み合わせる。
- 不確実性の高い領域に強いノイズを加え，複雑な詳細を復元すると同時に，不確実性の低い領域ではノイズを抑制し，元の情報を保持する。
- 実験結果から，QUSRは現実世界の様々な条件下で，高品質かつリアルな画像を生成できることが確認された。
Link: https://arxiv.org/abs/2603.09125
Transformerに基づく多領域セグメンテーションとHR-pQCT画像からのラジオミクス解析 [cs.CV]目的：HR-pQCT画像からのラジオミクス特徴抽出による骨粗鬆症の二値分類
- 骨粗鬆症は世界的に罹患率が高く，早期発見と適切な治療が重要である。
- 従来のDXA検査では骨微細構造や周囲軟部組織の情報が得られず，診断の限界があった。
- HR-pQCT画像の未利用データ活用と，軟部組織の情報を用いた骨粗鬆症診断精度の向上を目指す。
- SegFormerを用いた多領域セグメンテーションにより，脛骨と腓骨の皮質骨および海綿骨，周囲軟部組織の自動 delineation を実現した。
- 軟部組織のmyotendinous領域からのラジオミクス特徴量が最も高い分類性能(AUROC 0.85)を示した。
- 軟部組織ラジオミクスを用いることで，従来の骨ベースモデルを上回り，患者レベルでの骨粗鬆症検出精度が向上した。
Link: https://arxiv.org/abs/2603.09137
視覚タスクのための回転不変性Mamba [cs.CV]目的：視覚タスクにおける回転不変性Mambaアーキテクチャの提案
- 視覚データにおいて，回転不変性は基本的な構造的制約であり，重要な性質である。
- 既存のMambaベースの視覚アーキテクチャは回転対称性を考慮しておらず，回転に弱い。
- 回転対称性をMambaアーキテクチャに組み込み，汎化性能とロバスト性を向上させる。
- 提案手法EQ-VMambaは，画像分類，セマンティックセグメンテーション，超解像といった複数のベンチマークで，既存手法を上回る性能を示した。
- EQ-VMambaは，パラメータ数を約50%削減しながら，同等以上の性能を達成することで，パラメータ効率の向上を示した。
- 理論的な分析により，提案アーキテクチャがネットワーク全体で回転不変性を強制することが示された。
Link: https://arxiv.org/abs/2603.09138
6Gにおける連合学習のためのネットワーク制御プレーン知能層としてのエージェントAI [cs.CV]目的：6Gネットワーク上での連合学習管理
- ユーザーに合わせたオンデバイス学習の需要が高まり，無線システムへの新たな要求が生じている。
- 分散データでのモデル学習において，厳しい遅延，帯域幅，信頼性の制約が課題となっている。
- ネットワーク状況を考慮した行動を通じて，連合学習の効率と性能を向上させることを目指す。
- エージェントAIを制御層として組み込むことで，クライアント選択，インセンティブ設計，リソース配分などを最適化する。
- 閉ループ評価とメモリ活用により，信号品質やデバイス能力の変化に対応し，継続的に意思決定を改善する。
- ケーススタディの結果，エージェントAIシステムがツールを活用し，高い性能を実現できることが示された。
Link: https://arxiv.org/abs/2603.09141
RTFDNet: 強靭なRGB-Tセグメンテーションのための融合・分離 [cs.RO, cs.SI, cs.CV]目的：RGB-Tセマンティックセグメンテーションのロバスト性の向上
- 低照度環境下でのロボットシステムの性能向上に不可欠な技術である。
- 従来のモダリティバランス重視のアプローチでは，センサー信号欠損時の性能劣化が大きい。
- 融合と分離を統合し，単独推論時の性能維持を目指す。
- RTFDNetは，チャネルごとのゲート付き交換と空間的注意機構による相乗的特徴融合(SFF)を用いる。
- クロスモダリティ分離正則化(CMDR)により，融合表現からモダリティ固有成分を分離し，単一モダリティのデコーダーを学習する。
- 領域分離正則化(RDR)は，確信度の高い領域でのクラス選択的予測の一貫性を強化し，融合ブランチへの勾配を遮断する。
Link: https://arxiv.org/abs/2603.09149
RubiCap：ルーブリック誘導による高密度画像キャプション生成の強化学習 [cs.CV, cs.AI, cs.LG]目的：高密度画像キャプション生成のための強化学習フレームワーク
- 画像と言語の対応は，事前学習や画像生成において不可欠な要素である。
- 高品質なアノテーションの作成にはコストがかかり，多様性と汎化性能の向上が課題である。
- LLMによるルーブリックを用いた報酬信号により，高精度なキャプション生成を目指す。
- RubiCapはCapArenaにおいて，教師あり蒸留や既存の強化学習手法，さらには人間によるアノテーションやGPT-4Vをも上回る勝率を達成した。
- CaptionQAにおいては，7BモデルがQwen2.5-VL-32B-Instructと同等の性能を示し，3Bモデルは7Bモデルを上回る性能を発揮した。
- RubiCap-3Bをキャプション生成器として用いることで，プロプライエタリなモデルで学習したモデルを超える性能の事前学習済みVLMを構築できることが示された。
Link: https://arxiv.org/abs/2603.09160
漸進的分割マンバ：画像復元のための効果的な状態空間モデリング [cs.CV]目的：画像復元のための，高精度な状態空間モデリング手法
- 画像復元は，画像処理において重要な課題であり，実用的な応用範囲も広い。
- 従来の畳み込みニューラルネットワークやTransformerには，それぞれ課題が存在する。
- マンバの弱点を克服し，画像復元における状態空間モデリングの有効性を高める。
- 本研究では，PS-Mambaと呼ばれる新しいフレームワークを提案し，局所構造の保持と効率的なグローバル伝播を両立した。
- PS-Mambaは，特徴マップを幾何学的に一貫性のある分割を行い，状態空間処理前に近傍の整合性を維持する。
- 実験の結果，PS-Mambaは，スーパー解像度，ノイズ除去，JPEGアーティファクト除去において，既存の手法よりも優れた性能を示した。
Link: https://arxiv.org/abs/2603.09171
マルチモーダル大規模言語モデルのための点群：異質な言語として [cs.CV]目的：点群データを直接処理する，エンドツーエンドの3Dマルチモーダル大規模言語モデルの構築
- 視覚情報と言語理解を統合するマルチモーダル大規模言語モデルの発展は目覚ましい。
- 既存手法は，幾何学的特徴と言語的空間のずれ，解像度への依存性，計算コストが大きいという課題がある。
- 点群を離散トークンに変換し，大規模言語モデルの語彙を拡張することで，上記の課題を克服することを目指す。
- 本研究では，事前学習済み3Dエンコーダーに依存しない，点群を直接処理するSAGEを提案した。
- SAGEは，幾何学的サンプリングと近傍集約，ベクトル量子化を組み合わせた軽量な3Dトークナイザーを用いる。
- 多様な3D理解ベンチマークにおいて，既存手法を凌駕する性能と計算効率，汎化性能，解像度へのロバスト性を示した。
Link: https://arxiv.org/abs/2603.09173
楽曲分離研究における再現性のコスト：Band-Split RNNの複製実験 [cs.CL, cs.SD, cs.LG]目的：楽曲分離における再現性の問題点の検証と，改善されたBSRNNモデルの提案
- 音楽信号処理は，音楽体験の向上やコンテンツ制作に不可欠であり，その重要性は高い。
- 近年の複雑なモデルは再現性が低く，研究の検証や発展を阻害する要因となっている。
- 本研究は，既存モデルの再現性を検証し，改善策を提示することで，研究の効率化を目指す。
- BSRNNの完全なコードが入手困難であり，再現は容易ではないことが確認された。
- オリジナルモデルの再現には至らなかったが，改良を加えたBSRNNモデルは性能を大幅に向上させた。
- 再現性の重要性と，研究パイプライン全体の公開による効率化の可能性が示唆された。
Link: https://arxiv.org/abs/2603.09187
MM-Zero：ゼロデータからの自己進化型マルチモーダルビジョン言語モデル [cs.CV, cs.LG]目的：ゼロデータからのビジョン言語モデルの自己進化
- 大規模言語モデルやビジョン言語モデルの性能向上は，AI研究の主要な課題である。
- 従来のビジョン言語モデルの自己進化には，初期データが必要となる点が課題であった。
- 本研究は，初期データなしでのビジョン言語モデルの自己進化を可能にすることを目指す。
- MM-Zeroは，提案者，コーダー，解法者の3つの役割を持つ自己進化型フレームワークを導入した。
- 実験の結果，MM-Zeroは様々なマルチモーダルベンチマークにおいて，ビジョン言語モデルの推論性能を向上させた。
- MM-Zeroは，マルチモーダルモデルの自己改善の限界を広げ，スケーラブルな自己進化パスを提供する。
Link: https://arxiv.org/abs/2603.09206