arXiv雑要約

画像・音声 - 2026/03/12 公開

超音波エージェント：乳房超音波診断のための階層型マルチエージェント証拠連鎖推論 [cs.DC, cs.NI, cs.CV]目的：乳房超音波診断における病変の局在，局所的な特徴評価，および証拠統合によるBI-RADSカテゴリーの決定と良性・悪性の判定
- 乳房超音波診断は乳がん検診において重要な役割を担うため，診断精度向上は重要である。
- 従来の診断支援システムは，終端間での予測や根拠の薄弱な証拠に基づいている場合が多く，詳細な病変情報を捉えきれない。
- 本研究は，臨床ワークフローに沿った証拠追跡可能性の高い診断支援システムを構築し，診断精度と根拠の明確化を目指す。
- 提案手法は，既存のビジョン-言語ベースラインと比較して，診断精度と特徴の一致率において一貫した改善を示した。
- 階層型マルチエージェントによる訓練の安定性を高めるため，解結合型漸進的訓練戦略を導入した。
- 構造化された証拠と追跡可能な推論により，臨床レビューの透明性を向上させた。
Link: https://arxiv.org/abs/2603.10852
OSUM-Pangu：Ascend NPU 上でOpenPanguを基盤としたオープンソース多次元音声理解基盤モデル [cs.CL, cs.SD]目的：多次元音声理解のためのオープンソース基盤モデル
- 音声理解技術は，人間と機械の自然な対話を可能にし，多様な応用分野で重要性が増している。
- 高性能な音声モデルはGPUに最適化されているものが多く，CUDA環境以外のプラットフォームでの利用が困難である。
- CUDA環境に依存しない環境での音声モデルの性能向上と，オープンソースコミュニティへの貢献を目指す。
- OSUM-Panguは，Ascend NPU上で完全な非CUDA環境で動作する，再現性のある基盤モデルである。
- 既存のGPUベースモデルと同等のタスク精度を達成しつつ，自然言語インタラクション能力を維持している。
- 音声認識と意図解釈を段階的に学習する効率的な訓練プロセスを採用することで，リソース制約に対応している。
Link: https://arxiv.org/abs/2603.10862
シーケンシャル距離を超えて：モード間距離不変位置エンコーディング [cs.CV]目的：長文脈における視覚情報の減衰問題の緩和
- マルチモーダル大規模言語モデルの性能向上が求められている。視覚情報とテキスト情報を統合し，高度な推論を行うことが重要である。
- 既存モデルでは，文脈が長くなるにつれて視覚情報への注意が薄れ，視覚制約から逸脱したテキスト生成が課題となっていた。
- モード間距離によるペナルティを軽減し，文脈長に関わらず視覚情報の整合性を維持することで，視覚情報の減衰を抑制することを目指す。
- 提案手法DIPEをMultimodal RoPEに統合することで，長文脈においても安定した視覚的根拠付けを維持できることが示された。
- DIPEは，視覚情報の減衰を大幅に軽減しつつ，従来の短文脈ベンチマークにおける性能も維持している。
- モード間相互作用の位置エンコーディングを分離することで，視覚情報とテキスト情報の整合性を効果的に高めている。
Link: https://arxiv.org/abs/2603.10863
実画像用，二層位置決めLoRAによる除煙 [cs.RO, cs.CV]目的：実画像からの除煙手法の適応性向上
- 多様な環境下での実画像処理は重要であり，特に悪天候時の視認性改善は不可欠である。
- 既存手法は，ラベルなしデータへの適応やモデル全体の再学習コストが高いという課題がある。
- CLIPの能力を活用し，ラベルなしデータでも効果的な適応と効率的なモデル調整を実現する。
- 提案手法は，CLIPを用いたテキスト指示損失により，潜在空間での意味的整合性を重視した除煙を実現した。
- BiLaLoRA戦略により，重要なネットワーク層へのLoRAパラメータ注入層を自動的に探索・適応させることで，高い適応性を実現した。
- 複数の実画像ベンチマークにおいて，最先端手法と比較して優位性を示すことができた。
Link: https://arxiv.org/abs/2603.10872
VoxCare：ウェアラブル音響センシングによる病院介護従事者の自然なコミュニケーション行動の研究 [cs.SD]目的：病院介護従事者の自然なコミュニケーション行動の測定と分析
- 医療現場における効果的なコミュニケーションは，患者ケア，チーム連携，そして医療従事者の福祉に不可欠である。
- 実際の臨床環境におけるコミュニケーション活動の測定は困難であり，行動研究における探求が不足している。
- 医療従事者のコミュニケーションパターンを継続的に評価し，医療の質を向上させるためのデータ駆動型アプローチを確立すること。
- VoxCareシステムは，生音声データを保存せずに，医療従事者の自然なコミュニケーション行動をリアルタイムで捉えることができる。
- 分析の結果，臨床医のコミュニケーション頻度，時間，および喚起レベルが，シフトや勤務ユニットによって異なることが明らかになった。
- コミュニケーション活動は，医療従事者の業務負荷とストレスを反映している可能性が示唆された。
Link: https://arxiv.org/abs/2603.10888
S2D：最小限の入力による3次元再構築のための疎から密なリフティング [cs.CV]目的：最小限の入力での高品質な3D Gaussian Splatting再構築
- 3次元表現は，3次元シミュレーションと理解のための重要な媒体となっている。
- 点群や3D Gaussian Splattingは，非写実的なレンダリングや疎な入力に対する品質劣化が課題である。
- 疎な入力から高品位な3DGS再構築を可能にする技術の開発。
- S2Dは，点群と3DGSを繋ぐ新しいパイプラインであり，最小限の入力で高品質な3DGS再構築を実現する。
- 本手法は，疎な点群から高忠実度の画像アーティファクト修正を行う効率的な拡散モデルを導入する。
- 入力ビューのスパース性が異なる条件下でも，新規ビュー生成の一貫性とスパースビュー再構築品質において，既存手法を上回る性能を示す。
Link: https://arxiv.org/abs/2603.10893
ファインチューニングが失敗し，汎化するのはいつか：LLMベースTTSにおけるデータ多様性と混合学習の役割 [cs.DC, cs.SD, cs.AI, cs.ET]目的：LLMベースTTSにおけるファインチューニングの効果検証
- 近年，LLMをTTSの基盤として活用する研究が進んでおり，高品質な音声合成が期待されている。
- 凍結されたLLMでは，話者固有の音響特性や知覚特性のモデル化が不十分であるという課題がある。
- データ多様性を考慮したLoRAファインチューニングによる話者適応の改善を目指す。
- LoRAファインチューニングは，非ファインチューニングのベースモデルQwen-0.5Bよりも，音声品質の3つの側面（知覚品質，話者忠実度，信号レベル品質）で一貫して良好な結果を示した。
- 特に，音響的な多様性が豊富な学習データを持つ話者において，DNS-MOSスコアが最大0.42ポイント向上し，知覚品質が大幅に改善された。
- LoRAは，話者ID表現を効果的に適応させつつ，言語モデリングを劣化させることなく，音声類似度を向上させることが示された。
Link: https://arxiv.org/abs/2603.10904
ターゲット話者抽出のためのトレーニング不要な多段階推論 [cs.SD]目的：ターゲット話者抽出における性能向上
- 音声分離技術は，雑音下でのコミュニケーションを円滑にする上で不可欠である。
- 従来のターゲット話者抽出は，単一ステップ推論に依存し，十分な性能を発揮できない場合がある。
- 本研究は，事前学習済みのモデルを用いて，反復的な改良による性能向上を目指す。
- 本手法は，正解データを用いた侵襲的評価指標の最適化により，複数の評価指標で一貫した改善が見られた。
- 正解データがない場合，非侵襲的評価指標の最適化は，対応する指標を改善する一方で，他の指標を損なう可能性がある。
- 複数の評価指標を同時に最適化する手法を導入することで，実用的な展開に向けた抽出の優先順位を制御することが可能となった。
Link: https://arxiv.org/abs/2603.10921
口腔癌病変検出のための新規RPAアーキテクチャ [cs.CV]目的：口腔癌病変検出におけるRPAの効率化
- 口腔癌は早期発見・治療が重要であり，正確な病変検出が求められる。
- 既存のRPA手法では，処理速度が遅く，スケーラビリティに課題がある。
- Singletonパターンとバッチ処理により，RPAの処理効率を向上させる。
- OC-RPAv1は1画像あたり0.29秒で処理可能である。
- OC-RPAv2はSingletonパターンとバッチ処理により，処理時間を0.06秒に短縮した。
- 標準的なRPA手法と比較して，60-100倍の効率改善を達成した。
Link: https://arxiv.org/abs/2603.10928
マルチモーダル潜在再生と漸進的調整による生涯にわたる模倣学習 [cs.CV, cs.RO]目的：生涯にわたる模倣学習のフレームワーク
- ロボットの汎用性と適応性を高める上で，連続的な学習は不可欠である。
- 従来の経験再生法では，記憶とデータの制約下で性能が低下しやすい。
- マルチモーダル潜在空間を用いた効率的な再生と，タスク間の忘却を抑制する調整機構を開発する。
- 提案手法は，LIBEROベンチマークにおいてAUCが10〜17ポイント向上し，先行研究と比較して最大65％の忘却を削減した。
- マルチモーダル潜在空間での再生と，漸進的特徴調整機構の有効性が，消去研究によって確認された。
- タスク埋め込みの進化を角度マージン制約で正則化することで，タスク間の識別性を維持している。
Link: https://arxiv.org/abs/2603.10929
臨床CBCT画像解釈のスキルギャップをCBCTRepDで埋める [cs.CV]目的：臨床用コーンビームCT（CBCT）画像の報告生成システムの開発
- 歯科・口腔外科におけるCBCT画像診断は重要性が増しているが，専門的な知識と経験が求められる。
- 高品質なCBCT画像とレポートのペアデータが不足しており，複雑な容積CBCT画像の解釈が困難である。
- AIを活用してCBCT画像報告の質と効率を向上させ，放射線科医の負担を軽減することを目指す。
- CBCTRepDは，55種類の口腔疾患を網羅する7,408件のCBCT画像とレポートのペアデータを用いて開発された。
- AIが生成したレポートの品質は，経験の浅い放射線科医と同等レベルであり，経験豊富な放射線科医の協力を通してさらなる改善が見られた。
- CBCTRepDは，報告構造の改善，見落としの削減，および共存病変への注意喚起を通じて，実践的なCBCT報告支援ツールとしての可能性を示す。
Link: https://arxiv.org/abs/2603.10933
歴史的合意：ガウス混合モデル事前分布の反復選択による事後崩壊の防止 [cs.CE, cond-mat.mtrl-sci, physics.app-ph, cs.LG, cs.AI, cs.CV]目的：変分オートエンコーダにおける事後崩壊の防止
- 潜在変数がデータの特徴を捉えきれない場合，生成モデルの性能が低下する。
- 変分オートエンコーダでは，事後分布が事前分布に退化する「事後崩壊」が頻発する。
- 複数のクラスタリング制約を満たすモデルを訓練し，パラメータ空間の安定化を図る。
- 提案手法「歴史的合意訓練」は，ガウス混合モデル事前分布の反復選択により，事後崩壊を根本的に排除する。
- この手法は，デコーダの分散や正則化強度に関わらず，非崩壊な表現学習を可能にする。
- 明示的な安定条件を必要とせず，任意のニューラルネットワークアーキテクチャで利用可能である。
Link: https://arxiv.org/abs/2603.10935
Pointy - 点群基礎モデルのための軽量Transformer [cs.CV, cs.LG]目的：点群データの基礎モデル構築のための軽量Transformerアーキテクチャ
- 点群データ処理は，自動運転やロボティクスなど幅広い分野で重要性が増している。
- 既存の基礎モデルは，大規模なデータセットとクロスモーダルな教師信号に依存している。
- 本研究は，より小規模なデータセットでも高性能な点群基礎モデルを構築することを目指す。
- わずか3万9千個の点群データのみで学習した本モデルは，20万個以上の学習サンプルで学習した大規模な基礎モデルを上回る性能を示した。
- 100万個以上の点群，画像，テキストサンプルで学習した最先端モデルに匹敵する結果が得られ，学習設定とアーキテクチャの重要性が示された。
- 実験フレームワークを統一することで，アーキテクチャの選択が結果に与える影響を明確にし，シンプルなバックボーンでも競争力のある結果が得られることを示した。
Link: https://arxiv.org/abs/2603.10963
コントラスト学習に基づくビデオ品質評価 - ビデオ認識のための結合型ビデオビジョントランスフォーマー [cs.CV]目的：ビデオ認識におけるビデオ品質評価の統合
- ビデオデータ利用の拡大に伴い，ビデオ品質が認識精度に与える影響が重要になっている。
- 既存手法では，ビデオ品質の低下が認識性能の低下を招く問題がある。
- ビデオ品質を考慮することで，認識精度を向上させることを目指す。
- 提案手法SSL-V3は，ビデオ品質評価をビデオ認識に統合するCombined-SSL機構を採用。
- Combined-SSLにより，ビデオ品質スコアがビデオ認識の特徴マップ調整に活用される。
- I-CONECTデータセットにおいて94.87%の精度を達成し，有効性が確認された。
Link: https://arxiv.org/abs/2603.10965
Med-DualLoRA：3D心臓MRIのための基礎モデルの局所適応 [cs.CV]目的：3D心臓MRI画像における疾患検出のための基礎モデルの連合学習における局所適応
- 医療画像診断の精度向上に貢献する基礎モデルの活用が期待される。
- 単一施設データでの適応では，汎化性能の低下やモデルバイアスの増大が懸念される。
- プライバシー保護と効率的な分散学習を両立し，局所適応による性能向上を目指す。
- 提案手法Med-DualLoRAは，グローバルとローカルの低ランク適応を分離することで，個人情報を保護しつつ，モデルのパーソナライズを可能にする。
- 実験結果から，Med-DualLoRAは既存の連合学習PEFT手法と比較して，統計的に有意に高い性能（バランス精度0.768，特異度0.612）を示した。
- Transformerブロック2層のみの適応でも性能を維持し，通信コストを大幅に削減する効率性も確認された。
Link: https://arxiv.org/abs/2603.10967
バリアンス駆動型チャンネル再調整によるロバストな低照度画像強調 [cs.CV]目的：低照度画像強調のための新規フレームワーク
- 低照度環境下での画像視認性向上は，監視，医療，自動運転等の分野で重要である。
- 従来のRGBベース手法では輝度と色相が混同しやすく，HSV空間ではノイズが発生しやすい。
- 輝度と色相の不整合や色分布のずれによる不自然な強調を抑制することを目的とする。
- 提案手法VCRは，バリアンスに基づく特徴フィルタリングにより，高輝度・色分布領域への注力を強化する。
- 色特徴空間における分布整合を強制することで，知覚的な品質を向上させる。
- 複数のベンチマークデータセットにおいて，既存手法と比較して最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.10975
GroundCount：物体検出による視覚言語モデルのグラウンディングと，数え間違いの軽減 [cs.CV, cs.AI]目的：視覚言語モデルにおける数え間違いの軽減
- 視覚言語モデルは画像とテキストを理解する重要な技術であり，様々な応用が期待されている。
- 既存の視覚言語モデルは，数え間違いという課題を抱えており，精度が低い。
- 物体検出モデルの空間情報を活用し，視覚言語モデルの数え間違いを軽減することを目指す。
- GroundCountは，物体検出モデルからの明示的な空間的グラウンディングを視覚言語モデルに追加することで，数え間違いを軽減する。
- Ovis2.5-2Bモデルにおいて，最高81.3%の数え精度を達成し，6.6ppの改善が見られた。推論時間も22%短縮された。
- 位置エンコーディングが重要な要素であり，モデルの性能に応じて効果が異なること，信頼度スコアはノイズとなる場合があることが示された。
Link: https://arxiv.org/abs/2603.10978
鮮やかすぎるのは非現実的か？生成画像の色彩忠実度に関するベンチマークと較正 [cs.CV]目的：写実的なスタイルでの画像生成における色彩忠実度の客観的評価と改善
- 画像生成技術は目覚ましい進歩を遂げているが，写真のようなリアリティを再現することは困難である。
- 既存の評価手法は，鮮やかでコントラストの高い画像を好む傾向があり，現実離れした色彩を生み出しやすい。
- 色彩忠実度の評価データセットと指標を開発し，生成画像の色彩のリアリティを向上させることを目指す。
- 本研究では，130万枚以上の画像を含む色彩忠実度データセット(CFD)と，色彩忠実度を学習するマルチモーダルエンコーダである色彩忠実度指標(CFM)を提案する。
- また，生成時の空間-時間的ガイダンススケールを適応的に調整するトレーニング不要な色彩忠実度改善(CFR)手法も提案する。
- CFDはCFMの評価を支援し，学習された注意機構はCFRを導き，写実的な画像生成における色彩忠実度を評価・改善する漸進的なフレームワークを形成する。
Link: https://arxiv.org/abs/2603.10990
TreeON: 直交写真と標高マップから3D木の点群を再構成 [cs.GR]目的：3D木の点群再構成手法
- 都市計画や森林管理において，木の正確な3Dモデルは不可欠である。
- 既存手法は，高価な計測機器や専門知識を必要とする場合が多い。
- 少ないデータから高精度な3D木モデルを生成することを目指す。
- TreeONは，直交写真と標高マップのみを用いて詳細な3D木の点群を再構成する。
- 幾何学的損失と微分可能な影・シルエット損失を組み合わせた新しい学習戦略を採用。
- 合成データセットによる学習と実験により，既存手法よりも高品質な再構成が可能であることを示した。
Link: https://arxiv.org/abs/2603.10996
AIは美術史家のように見るか？ビジョン言語モデルによる芸術様式の認識の解釈 [cs.NI, cs.CV, cs.AI]目的：芸術様式の予測における基盤概念の特定と，美術史家の判断との整合性評価
- 近年，画像認識技術は高度化しており，芸術分野への応用が期待されている。
- 既存モデルが芸術様式をどのように認識しているかは，必ずしも美術史家の視点と一致していない可能性がある。
- ビジョン言語モデルが芸術様式を予測する際に用いる概念を解明し，美術史家の判断との一致度を検証する。
- 抽出された概念の73%は，美術史家によって意味のある視覚的特徴と判断された。
- 特定の作品の様式を予測するために使用された概念の90%は，関連性があると判断された。
- 関連性の低い概念が成功した場合，モデルがより形式的な意味で概念を理解している可能性が示唆された。
Link: https://arxiv.org/abs/2603.11024
DynVLA：自律運転における行動推論のための世界ダイナミクスの学習 [cs.CV, cs.RO]目的：自律運転のための世界ダイナミクス学習モデル
- 自動運転技術は，交通渋滞の緩和，事故の削減，移動の効率化に貢献し，社会に大きな変革をもたらす可能性を秘めている。
- 既存の自動運転システムは，複雑な環境変化への適応や，物理法則に基づいた合理的な行動判断が課題となっている。
- より正確で効率的な世界の状態遷移予測と，それに基づいた行動計画を可能にすること。
- 本研究では，世界ダイナミクスを予測するDynamics CoTという新しいChain-of-Thoughtパラダイムを導入したDynVLAを提案している。
- DynVLAは，環境のダイナミクスをコンパクトに表現することで，より情報に基づいた，物理的に根拠のある意思決定を可能にする。
- 実験の結果，DynVLAは既存手法と比較して一貫して優れた性能を示し，Dynamics CoTの有効性と実用性を実証した。
Link: https://arxiv.org/abs/2603.11041
V2M-Zero：ペアなし時系列アラインメント動画から音楽生成 [cs.CV, cs.AI, cs.LG, cs.MM, cs.SD]目的：動画イベントと時間的に同期する音楽の生成
- 動画と音楽の融合は，エンターテインメントやコンテンツ制作において重要な役割を果たす。
- 既存のテキストから音楽生成モデルは，細粒度の時間制御が難しく，動画イベントとの同期が課題である。
- モダリティ内での変化の捉え方に基づき，ペアなしデータで時系列アラインメントを実現し，動画と音楽の同期を改善する。
- V2M-Zeroは，既存のペアデータを用いた手法と比較して，音質，意味的整合性，時間的同期，ビートアラインメントにおいて大幅な改善が見られた。
- 大規模なリスニングテストにおいても同様の結果が得られ，モダリティ内特徴による時間的アラインメントの有効性が確認された。
- クロスモダルのペアデータに依存せず，モダリティ内での変化を捉えることで，動画から音楽への生成において時間的同期が可能になった。
Link: https://arxiv.org/abs/2603.11042
金融領域特化型ドキュメント解析システムAgentar-Fin-OCR [cs.CV]目的：金融ドキュメントの構造化された出力
- 金融分野では，大量のPDF文書を効率的に処理する必要性が高い。
- 従来のOCR技術では，複雑なレイアウトや複数ページにわたる構造を正確に解析することが困難。
- 金融ドキュメント特有の課題を解決し，高精度な構造化を可能とする。
- 提案手法Agentar-Fin-OCRは，金融PDFを意味的に整合性の高い構造化データに変換する。
- FinDocBenchという金融ドキュメントのベンチマークを新たに構築し，既存モデルの限界を評価した。
- Agentar-Fin-OCRとFinDocBenchは，信頼性の高い金融ドキュメント処理応用の基盤を提供する。
Link: https://arxiv.org/abs/2603.11044
ニューラル場熱トモグラフィー：非破壊検査のための微分可能な物理フレームワーク [cs.LG, cond-mat.mtrl-sci, cs.AI, cs.CV, physics.ins-det]目的：材料特性の定量的な3次元再構成
- 非破壊検査は，製品の品質管理や安全性確保において不可欠な技術である。
- 従来の熱画像法は，熱拡散の側面を無視した近似に頼ることが多い。
- 高解像度な3次元トモグラフィーを実現し，熱伝導の逆問題を解決する。
- NeFTYは，微分可能な物理ソルバーを用いることで熱力学法則を厳密に制約し，高精度な3次元再構成を可能にする。
- NeFTYは，従来の熱画像法やPINNの課題である，熱拡散の側面無視や勾配の硬直性を克服する。
- 合成データを用いた実験により，NeFTYが表面下欠陥の局在化において高い精度を示すことが実証された。
Link: https://arxiv.org/abs/2603.11045
LiTo：表面光場トークン化 [cs.CV, cs.AI, cs.GR]目的：物体形状と視点依存表現の同時モデリング
- 3次元コンピュータビジョンの発展には，リアルな視覚体験の再現が不可欠である。
- 従来の技術では，3次元形状の再構成と視点非依存拡散反射率の予測に分かれており，視点依存効果の表現が困難であった。
- 表面光場を効率的にエンコードし，統一された3次元潜在空間で形状と外観を表現することで，この課題を解決する。
- RGB-D画像から得られる表面光場を潜在ベクトルにエンコードすることで，形状と外観を同時に表現できる表現を確立した。
- 潜在フローマッチングモデルを用いて，入力画像に基づいた3次元物体の生成が可能となり，照明や材質の変化を再現する。
- 既存手法と比較して，より高品質かつ入力忠実度の高い3次元オブジェクト生成を達成した。
Link: https://arxiv.org/abs/2603.11047
COMIC：自律的なスケッチコメディ生成 [cs.CV, cs.AI, cs.CL, cs.MA, cs.NE]目的：スケッチコメディ動画の自動生成
- エンターテイメント分野において，AIによるコンテンツ生成の需要が高まっている。
- 高品質かつ多様なコメディコンテンツを自動生成することは困難である。
- AIを用いて，プロの制作レベルに匹敵するスケッチコメディを生成する。
- 提案システムは，キャラクター設定からユーモアのある短編動画を自動生成する。
- LLMによる批評家を導入し，YouTubeのコメディ動画データを用いてユーモアの評価を自動化している。
- 生成された動画は，プロの制作物と同等の品質を示し，動画生成において最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.11048
デイリーオムニ：マルチモーダル間の時間的整列によるオーディオビジュアル推論へ [cs.AI, cs.CL, cs.CV]目的：オーディオビジュアル質問応答ベンチマーク
- マルチモーダル大規模言語モデルの重要性が増している。
- 異なるモダリティ間の時間的情報を同期して処理する能力が不十分である。
- クロスモーダルな時間的推論を必要とする質問応答ベンチマークを構築すること。
- 新しいベンチマークDaily-Omniは，現実世界の動画と質問から構成される。
- 多くの最先端のマルチモーダル大規模言語モデルは，時間的整列が重要な質問で苦戦している。
- 時間的整列シグナルが性能に与える影響を，モジュール診断ベースラインを用いて示した。
Link: https://arxiv.org/abs/2505.17862
ARCHE：ハイパープライヤーと励起を用いた自己回帰残差圧縮 [eess.IV, cs.CV, cs.LG]目的：画像圧縮におけるレート歪効率と計算効率のバランス
- 画像圧縮は，データ伝送や保存において重要な役割を担う技術であり，高効率化が求められている。
- 既存の学習ベースの手法は，高い圧縮率を達成する一方で，計算コストが増大し，並列処理が困難な場合がある。
- 効率的な畳み込み設計により，実用的な展開に適した正確なエントロピーモデルの実現を目指す。
- 提案手法ARCHEは，ハイパープライヤーと励起を用いて，レート歪効率と計算効率を両立する画像圧縮フレームワークである。
- Kodakベンチマークデータセットにおいて，既存手法と比較して，BDレートを最大48%削減することに成功した。
- 低ビットレート環境下において，より鮮明なテクスチャと優れた色再現性を示すことが確認された。
Link: https://arxiv.org/abs/2603.10188
FireRedASR2S：最先端の産業グレード型オールインワン自動音声認識システム [math.CO, cs.DM, eess.AS, cs.SD]目的：最先端の産業グレード型オールインワン自動音声認識システム
- 音声認識技術は，人間と機械のコミュニケーションを円滑にし，様々な応用分野で不可欠である。
- 既存の音声認識システムは，多様な言語や方言への対応，リアルタイム処理，高精度な句読点予測などに課題が残る。
- 多様な言語・方言に対応し，高性能な音声認識，音声活動検知，言語識別，句読点予測を統合したシステムの開発。
- FireRedASR2Sは，音声認識，音声活動検知，言語識別，句読点予測の各モジュールを統合したシステムである。
- FireRedASR2-LLMは，公開されたマンダリン語ベンチマークで平均CER 2.89%，中国語方言・アクセントベンチマークで11.55%を達成し，既存のベースラインを上回る性能を示した。
- FireRedVAD，FireRedLID，FireRedPuncもそれぞれ高い精度を達成し，最先端の性能を実証した。
Link: https://arxiv.org/abs/2603.10420
G-STAR：エンドツーエンドのグローバル話者追跡属性認識 [eess.AS, cs.AI, cs.HC, cs.MM, cs.SD]目的：長時間の多者会話におけるタイムスタンプ付き話者属性自動音声認識
- 会議などの長尺音声データ活用には，話者と発話時間を正確に把握することが不可欠である。
- 従来のシステムでは，局所的な話者分離とグローバルな話者ラベル付けのバランスが課題であった。
- 時間的な境界を捉えつつ，話者の一貫性を保つ高精度な話者追跡システムの構築を試みる。
- G-STARは，時間情報を考慮した話者追跡モジュールとSpeech-LLMを組み合わせたシステムである。
- 話者追跡モジュールが構造化された話者情報をLLMに提供し，条件付きで属性付きテキストを生成する。
- コンポーネントごとの最適化とエンドツーエンドの共同学習が可能であり，柔軟な学習を実現する。
Link: https://arxiv.org/abs/2603.10468
Geo-ATBench：地理的意味的文脈を用いたジオ空間オーディオタグ付けのベンチマーク [math.CO, cs.DM, eess.AS, cs.LG, cs.SD]目的：ジオ空間オーディオタグ付けにおけるベンチマークデータセットおよび融合フレームワークの開発
- 環境音認識は，都市の音響環境分析など様々な応用において重要である。
- 従来のオーディオのみの環境音認識では，音響的な類似性によりイベントの分離が困難となる場合がある。
- 地理情報に基づいた意味的文脈を導入することで，音響的な曖昧さを解消し，認識精度を向上させることを目指す。
- 地理的意味的文脈（GSC）を組み込むことで，特に音響的に混同しやすいラベルにおいてオーディオタグ付けの性能が向上した。
- Geo-ATBenchは，人間のラベル付けとの一致性を示す結果が得られ，人間と整合性の高いベンチマークデータセットであることが確認された。
- 提案するGeoFusion-ATフレームワークは，様々な特徴量，表現，決定レベルの融合手法を評価するための基盤を提供する。
Link: https://arxiv.org/abs/2603.10623
Wi-Fi範囲フィルタドップラースペクトルによる人間存在検知 [eess.SP, cs.AI, cs.CV]目的：人間存在検知の実現
- 日常生活における機器のインテリジェントな電力管理やセキュリティ機能の実現に不可欠である。
- 既存手法は，追加のセンサーやカメラを用いるため，コストやプライバシーの問題がある。
- 内蔵Wi-Fiのみで，低コストかつプライバシーに配慮した人間存在検知を可能にすること。
- 提案手法は，Wi-Fi信号の範囲フィルタドップラースペクトル（RF-DS）を利用し，追加の機器やセンサーを必要としない。
- チャネルインパルス応答（CIR）ドメインでの範囲フィルタリングにより，計算量を削減し，安定性を向上させている。
- 動的なCSIサンプリングレート調整により，電力効率と検知精度の両立を実現している。
Link: https://arxiv.org/abs/2603.10845
多数物体の追跡：現代的なシステムのレビュー [cs.CV]目的：現代的な複数物体追跡システムの進展
- 自動運転や監視など，幅広い分野で不可欠な技術であり，その重要性は増している。
- 遮蔽，高密度な群衆，外観の曖昧さ，スケール変化，カメラの動き，IDの入れ替わりなどが課題である。
- これらの課題に対し，最新の研究動向を整理し，今後の方向性を示す。
- 追跡方法の進化を，検出に基づくものからハイブリッド，エンドツーエンドへと分類し，歴史的な変遷をまとめた。
- Transformer，生成モデル，状態空間予測，Siameseモデル，グラフモデルなど，主要なアーキテクチャの方向性を概説した。
- 基礎モデルの統合，オープンボキャブラリ追跡，統一的な評価，ドメイン適応といった今後の研究課題を提示した。
Link: https://arxiv.org/abs/2209.04796
自然言語に基づく心の社会 [cs.AI, cs.CL, cs.CV, cs.LG, cs.MA]目的：大規模マルチモーダルニューラルネットワークによる問題解決
- AI分野において，複雑な問題解決には，単一モデルの限界を超えた新たなアプローチが求められている。
- 大規模言語モデル(LLM)は強力だが，マルチモーダルな推論や高度なタスク処理に課題がある。
- 自然言語を介したエージェント間の対話を通して，LLMの能力を拡張し，より高度なAIタスクを実現する。
- 自然言語を基盤とする心の社会(NLSOM)は，モジュール性により容易に拡張可能であり，多様なAIタスクに適用できる。
- 視覚的質問応答，画像キャプション生成，テキストから画像合成など，様々なタスクにおいて実用的な性能が確認された。
- 今後の研究課題として，NLSOMの社会構造，報酬最大化のための経済原理の応用などが挙げられる。
Link: https://arxiv.org/abs/2305.17066
自動運転における新興技術の概観 [cs.CV]目的：自動運転技術の技術的側面と未解決問題の概要
- AI応用の最前線であり，社会実装による利便性向上や安全性向上が期待される。
- 自動運転システムの開発には，多様かつ複雑な問題が存在し，実用化が課題となっている。
- 自動運転の長期的な課題解決を目指し，データ閉ループの枠組みを用いた検討を行う。
- 本稿では，知覚，マッピング，予測，計画，制御，シミュレーション，V2X，安全性など，自動運転システムの主要分野を概観した。
- これらの課題を，データ閉ループという一般的なプラットフォーム上で体系的に整理・分析した。
- 自動運転技術の現状と今後の展望について，技術的な視点から議論した。
Link: https://arxiv.org/abs/2306.13302
タスク固有バッチ正規化と分布外検出を用いたクラス増分学習 [cs.CL, cs.LG, cs.CV]目的：画像分類における増分学習の課題解決
- 画像認識技術は医療，自動運転など多岐にわたる分野で重要性が増しており，継続的な学習が求められる。
- 従来の機械学習は，新しいタスクを学習する際に過去の知識を忘却しやすい（破滅的忘却）という課題がある。
- タスクIDなし環境下での増分学習を可能にし，破滅的忘却を抑制する新たなフレームワークを提案する。
- タスク固有のバッチ正規化と分類ヘッドを用いることで，特徴マップ分布をタスクごとに調整し，可塑性を高める。
- 分布外検出によりタスクIDを予測することで，タスクIDを利用する増分学習手法をタスクIDなし環境にも適用する。
- 医療画像データセットと自然画像データセットにおいて，最先端の性能を達成した。
Link: https://arxiv.org/abs/2411.00430
スケッチ誘導による様式化風景シネマグラフ合成 [cs.CV, cs.GR]目的：様式化された風景シネマグラフの条件付き生成
- 映像制作において，視覚的に魅力的な表現が求められるため，そのための効率的な手法が重要である。
- 複雑な流体要素の制御が難しく，テキスト入力だけでは細かなデザイン要件を伝えることが困難である。
- スケッチによる直感的で詳細な制御を通して，ユーザーの意図を反映したシネマグラフ生成を目指す。
- 本研究で提案するSketch2Cinemagraphは，スケッチとテキストプロンプトを用いて，様式化された風景シネマグラフを生成する。
- 潜在拡散モデルと，流体領域の動きを推定する潜在運動拡散モデルを組み合わせることで，連続的な時間変化を持つシネマグラフを生成する。
- 実験結果から，Sketch2Cinemagraphが，スケッチ入力から審美的に魅力的なシネマグラフを生成できることが確認された。
Link: https://arxiv.org/abs/2412.00638
vS-グラフ：階層的シーン理解を活用したVisual SLAMと3Dシーングラフの緊密な結合 [cs.RO, cs.CV]目的：Visual SLAMと3Dシーングラフの統合による，意味的に豊かで解釈しやすい地図の作成
- ロボットの自律的なナビゲーションや環境理解において，周囲の状況を正確に把握することが重要である。
- 従来のVSLAMシステムでは，地図の意味的な理解が難しく，大規模環境での応用が制限される場合がある。
- シーングラフを用いることで，地図の構造化と意味理解を促進し，ロボットの環境認識能力を向上させる。
- vS-Graphsは，リアルタイムでVisual SLAMとシーン理解を統合し，最適化可能な3Dシーングラフを構築する。
- 実験の結果，vS-Graphsは既存のVSLAM手法と比較して，平均で15.22%の精度向上を達成した。
- 本フレームワークは，LiDARを用いた手法と同等の環境駆動型セマンティックエンティティ検出精度を実現した。
Link: https://arxiv.org/abs/2503.01783
病理画像表現学習における空間コンテキストの活用：ポジティブペアサンプリング [cs.CV]目的：病理画像表現学習におけるポジティブペアサンプリング戦略
- 癌分類において深層学習は有望だが，専門家による膨大なアノテーションが必要となる。
- 従来の自己教師あり学習は，病理画像に不可欠な空間構造を捉えきれない場合がある。
- 空間的な近接性に基づき，自己教師あり学習の性能を向上させる。
- 提案手法は，既存の関節埋め込み型自己教師あり学習フレームワークと容易に統合可能である。
- 4つのデータセットにおける実験により，標準的なデータ拡張に基づくサンプリングと比較して，5\%から10\%の精度向上を確認した。
- 本研究は，計算病理学における表現学習において，空間コンテキストが重要であることを示唆する。
Link: https://arxiv.org/abs/2503.05170
参照によるマルチオブジェクト追跡における二段階追跡パラダイムの再考：強化に向けて [cs.CV]目的：参照によるマルチオブジェクト追跡における性能向上
- 動画中の対象物を自然言語で指定して追跡する技術であり，自動運転やロボティクス等への応用が期待される。
- 近年のワンステージ手法の進歩により，二段階の参照による追跡（RBT）パラダイムは勢いを失っている。
- 特徴量の構成と対応関係モデリングの課題を克服し，二段階RBTの性能を向上させる。
- 提案手法FlexHookは，サンプリングベース戦略と言語条件付きキュー注入により特徴量構成を再定義する。
- CLIPベースの類似度マッチングをアクティブな対応関係モデリングに置き換えるPairwise Correspondence Decoder（PCD）を導入する。
- 複数のベンチマークにおいて，FlexHookは既存の最先端手法を凌駕する初の二段階RBTアプローチとなった。
Link: https://arxiv.org/abs/2503.07516
CLIPは理想的か？いいえ。修正可能か？はい！ [cs.LG, cs.CV]目的：CLIPモデルの潜在空間の幾何学的性質の分析と，その限界を克服する新しいスコアリング手法の提案
- 画像とテキストの多Modalな学習は，AI研究において重要な課題であり，様々な応用が期待されている。
- CLIPモデルは広く利用されているが，複雑な視覚的・テキスト的相互作用の処理に限界があることが知られている。
- CLIPモデルの潜在空間の幾何学的な限界を明らかにし，それを克服する新しい手法を開発することを目指す。
- CLIPモデルの潜在空間は，基本的な記述，属性結合，空間的関係，否定といった複数の要素を同時に正しく表現できない幾何学的な限界を持つことが証明された。
- 本研究では，画像パッチとテキストトークンの意味的トポロジーを保持するDense Cosine Similarity Maps (DCSMs)を提案し，CLIPモデルの限界を克服する。
- 提案手法DCSMsは，様々なベンチマークにおいて既存のCLIPモデルよりも優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2503.08723
視覚言語モデルのモデル融合による継続学習の強化 [cs.CV]目的：視覚言語モデルにおける継続学習のための新しいアプローチ
- 視覚とテキストを統合し，ゼロショット能力を示すAIの重要な進歩である。
- 逐次的に複数のタスクを学習する際，既存のモデルは知識の忘却を起こしやすい。
- モデル融合を用いて，タスク間の知識の忘却を抑制し，ゼロショット性能を維持する。
- ConDUは，既存の手法と比較して，全てのタスクにおける平均性能を最大2%向上させた。
- ConDUは，ゼロショット能力も向上させ，元の視覚言語モデルを上回る性能を示した。
- ConDUは，タスクトリガーとプロトタイプセットを用いて，タスクエキスパートを分離・統合する。
Link: https://arxiv.org/abs/2503.10705
深層音声ノイズ除去モデルは敵対的ノイズに対して頑健であるか？ [cs.SD, cs.LG, eess.AS]目的：深層音声ノイズ除去モデルの敵対的ノイズに対する脆弱性
- 音声技術は，様々な分野で重要性を増しており，その信頼性が求められている。
- 既存の音声ノイズ除去モデルは，敵対的ノイズに対して脆弱である可能性が指摘されている。
- 本研究は，深層学習を用いた音声ノイズ除去モデルの潜在的な脆弱性を評価する。
- 近年の深層音声ノイズ除去モデル4種類に対し，知覚的に隠された敵対的ノイズを加えることで，出力が不明瞭になることを示した。
- 3つのモデルにおいては，音声・マルチメディア専門家による聞き取り評価で，攻撃された音声が理解不能であることが確認された。
- 敵対的ノイズは一般的に知覚されにくいことがABXテストにより示されたが，被験者やサンプルによってばらつきが見られた。
Link: https://arxiv.org/abs/2503.11627
少ショット画像融合の再考：グラニュラーボール事前分布が汎用的な深層融合を可能にする [cs.GR, cs.CV, cs.LG, eess.IV, stat.ML]目的：画像融合における，少ない教師データでの効果的な融合規則学習
- 画像融合は，異なるセンサからの情報を統合し，より詳細な情報を得る上で重要である。
- 教師データとして理想的な融合画像が不足しているため，深層学習による画像融合は困難である。
- グラニュラーボール事前分布を用いて，少ないデータでも融合規則を学習することを可能にする。
- 提案手法は，わずか10組の画像ペアから抽出したパッチのみで学習し，効果的な融合規則を習得できる。
- 複数の融合タスクとデータセットにおいて，提案手法は視覚的品質とモデルのコンパクトさの両方で優れた性能を達成した。
- 本研究で導入する「不完全事前分布」は，アルゴリズムレベルで事前分布を記述し，その信頼性を推定する新しい概念である。
Link: https://arxiv.org/abs/2504.08937
テキスト画像生成モデルの脱獄に対するトークンレベル制約境界探索 [cs.HC, cs.CL, cs.CV, cs.CR]目的：テキスト画像生成モデルの脱獄攻撃手法
- 画像生成技術の発展に伴い，有害コンテンツ生成のリスクが顕在化してきた。
- 既存の防御システムを回避する脱獄攻撃は，探索空間が広大で効率的な手法が課題である。
- テキストと画像チェッカーの境界付近のトークン探索により，効率的な脱獄攻撃を実現する。
- 提案手法TCBS-Attackは，トークンレベルでの制約境界探索を通じて，従来の攻撃手法よりも優れた性能を示す。
- オープンソースモデルおよびDALL-E 3などの商用サービスに対し，高い攻撃成功率を達成した。
- ASR-4で52.5%，ASR-1で22.0%という高い攻撃成功率を記録し，既存手法を大きく上回る結果が得られた。
Link: https://arxiv.org/abs/2504.11106
SEGA：単一画像からの制御可能な3Dガウスヘッドアバター [cs.GR, cs.CV]目的：単一画像からの3Dガウスヘッドアバター生成
- VR/テレプレゼンス等の応用において，フォトリアリスティックな3Dアバターの重要性が増している。
- 既存手法は複数画像が必要であり，実用的な利用が制限されている。
- 単一画像からの高精度な3Dアバター生成を可能にすること。
- SEGAは，大規模2Dデータセットと3Dプライアを組み合わせ，未知のIDへの汎化性能を実現した。
- 階層的なUV空間ガウススプラッティングにより，表情と静的顔要素を効率的に分離し，リアルタイムアニメーションを可能にした。
- 実験の結果，既存手法と比較して汎化能力，IDの保持，表情のリアリズムにおいて優れていることが示された。
Link: https://arxiv.org/abs/2504.14373
キーポイント非依存記述子の教師なし学習による柔軟な網膜画像レジストレーション [cs.CV]目的：柔軟な網膜画像レジストレーションのためのキーポイント非依存記述子
- 網膜画像は眼疾患の診断に重要であり，正確なレジストレーション技術の確立が求められている。
- 既存のレジストレーション手法は，ラベル付きデータの不足により性能が制限される場合がある。
- 教師なし学習を用いて，ラベルなしデータから効果的な記述子を学習し，レジストレーション精度を向上させる。
- 提案手法は，参照データベースを用いた網膜画像レジストレーションにおいて，高い精度を達成した。
- 使用するキーポイント検出器の種類に依存せず，安定した性能を発揮することが示された。
- 教師あり学習による手法と同等の性能を，教師なし学習で実現した意義は大きい。
Link: https://arxiv.org/abs/2505.02787
複数の事前学習モデルにおける知覚誤差に基づく，一貫性に基づく仮説的推論 [cs.AI, cs.CV, cs.LG, cs.LO]目的：事前学習済み知覚モデルの予測不一致を，一貫性に基づく仮説的推論として管理すること
- 事前学習モデルは様々なタスクで高い性能を示すが，未知の環境下では性能が低下しやすい。
- メタ認知による誤り検出は精度向上に繋がる一方，再現率の低下が課題となることが多い。
- 複数のモデルを活用することで，再現率の低下を抑制し，よりロバストな推論を目指す。
- 提案手法は，シミュレーションデータセットにおいて，単一モデルや標準的なアンサンブル手法を上回る性能を示した。
- 特に，F1スコアは約13.6%，精度は約16.6%の平均相対改善を，15種類のテストデータセットで実現した。
- 一貫性に基づく仮説的推論が，複数の不完全なモデルからの知識を統合する効果的な手法であることを確認した。
Link: https://arxiv.org/abs/2505.19361
医療画像セグメンテーションにおける信頼性のある不確実性のための平均キャリブレーション損失 [cs.CV]目的：医療画像セグメンテーションにおけるキャリブレーション誤差の低減
- 医療画像解析は，診断精度向上に不可欠であり，AI技術の信頼性が重要視されている。
- 深層学習モデルは過信傾向があり，予測の信頼性評価が困難であるという課題がある。
- モデルの予測精度を維持しつつ，信頼性を向上させるための手法開発が求められている。
- 提案手法であるmL1-ACE損失関数を導入することで，平均キャリブレーション誤差（ACE）や最大キャリブレーション誤差（MCE）を大幅に低減できることが示された。
- ソフトビニング法はキャリブレーションの改善に最も効果的であるが，セグメンテーション性能を低下させる場合がある。
- ハードビニング法はセグメンテーション性能を維持しつつ，ある程度のキャリブレーション改善を実現する。データセット信頼性ヒストグラムにより，予測信頼性と真の精度との整合性が確認された。
Link: https://arxiv.org/abs/2506.03942
SOTA：複数基盤モデルを用いたゼロショット分類のための自己適応最適輸送 [cs.CV]目的：複数基盤モデルの出力を統合する自己適応輸送計画の学習
- 基盤モデルは多様な分野で注目されており，ゼロショット分類能力が高い。
- 既存モデルはテキスト事前知識に過度に依存したり，意味的整合性が不足したりする。
- 異なるモデルの長所を活かし，ゼロショット分類の性能を向上させる。
- SOTAは，複数の基盤モデルの出力を自己適応的に統合するフレームワークである。
- 学習を必要とせず，モデルへの事前知識に依存しない自動的な貢献度調整が可能である。
- 自然画像，病理画像，リモートセンシングなど多様なドメインで汎用性が確認された。
Link: https://arxiv.org/abs/2506.13723