arXiv雑要約

画像・音声 - 2026/02/02 公開

FlowCalib：シーンフローを用いたLiDAR-車体間の誤調整検出 [cs.NI, cs.CV, cs.RO]目的：LiDAR-車体間の誤調整の検出
- 自動運転の安全性確保には，センサーの正確な校正が不可欠である。
- 既存手法はセンサー間誤差の修正に偏り，個々のセンサーの誤調整に焦点を当てていない。
- シーンフローからLiDAR-車体間の誤調整を検出し，安全性向上に貢献する。
- FlowCalibは，静止物体のシーンフローのモーションキューを用いて，LiDAR-車体間の誤調整を検出する初のフレームワークである。
- 提案手法は，回転による系統的なバイアスを利用し，追加のセンサーを必要としない。
- nuScenesデータセットを用いた実験により，FlowCalibの堅牢な誤調整検出能力が実証された。
Link: https://arxiv.org/abs/2601.23107
貪欲ルーティング到達可能性ゲーム [cs.MM, cs.GT, cs.CG]目的：貪欲ルーティングが有効となるネットワーク形成を目指す自律エージェントのゲーム理論モデル
- 現代のネットワークは多数の自律的な要素で構成され，分散的なルーティングが重要である。
- エージェントが限られた情報しか持たないため，効率的なルーティングプロトコルが求められている。
- 貪欲ルーティングが成立するネットワーク形成のメカニズムを解明することを目的とする。
- 有向グラフのモデルでは，均衡が存在し，総コストが最適であることが示された。
- 無向グラフの2次元ユークリッド空間における無政府状態の価格が1.75から1.8の間であることが示された。
- 2次元ユークリッド空間において，近似均衡がデラunay三角形よりも優れていることが確認された。
Link: https://arxiv.org/abs/2601.23126
聞くことが信じること？ SYAUDIOを用いた音声言語モデルの迎合性の評価と分析 [cs.SD]目的：音声言語モデルにおける迎合性の評価と軽減
- 音声，音響，言語を統合した処理能力が注目される中，その信頼性が重要となる。
- 大規模言語モデルに見られる迎合性という問題が，音声条件付き推論においても存在する可能性が指摘されている。
- 音声特有の迎合性を評価するためのベンチマークを作成し，その軽減策を検証する。
- SYAUDIOという，音声認識，推論，数学，倫理の4分野にわたる4,319件の音声質問からなるベンチマークを構築した。
- ノイズや速度変化といった現実的な条件下での音声特有の迎合性を分析した結果，特定の傾向が確認された。
- Chain-of-Thoughtデータを用いた教師ありファインチューニングが，音声言語モデルの迎合性を軽減する有効な戦略であることを示した。
Link: https://arxiv.org/abs/2601.23149
言語によるあらゆるイベントのセグメンテーション [cs.CV]目的：オープンボキャブラリーイベントインスタンスセグメンテーション
- 画像やLiDARなど多様なモダリティでシーン理解が進む中で，イベントセンサーにおける研究は遅れている。
- イベントセンサーに関する研究は，セマンティックレベルの理解に限定され，汎用的なセグメンテーション手法が不足している。
- イベントデータに対するセマンティック情報を活用した汎用的なセグメンテーションフレームワークを確立することを目指す。
- 提案手法SEALは，イベントデータのセグメンテーションとオープンボキャブラリーマスク分類を統合的に行う。
- SEALは，既存手法と比較して，性能と推論速度の両面で大幅な改善を達成した。
- 追加実験により，ユーザーからの視覚的なプロンプトを必要としない汎用的な時空間セグメンテーションも可能となった。
Link: https://arxiv.org/abs/2601.23159
DIFFA-2：汎用オーディオ理解のための実用的な拡散大規模言語モデル [eess.SY, cs.SY, math.OC, cs.SD, cs.CL]目的：汎用オーディオ理解のための拡散に基づく大規模言語モデルの開発
- 音声処理技術の発展は，人間と機械の自然な対話を可能にし，様々な応用分野への貢献が期待される。
- 従来の自己回帰型モデルは，計算コストが高く，推論効率が課題となっていた。
- 拡散モデルを活用することで，限られたデータでも高性能なオーディオ理解を実現し，実用的な大規模言語モデルを構築すること。
- DIFFA-2は，既存のDIFFAを改良し，性能向上を達成した。
- DIFFA-2は，自己回帰型大規模言語モデルと同等の競争力を持つことを示した。
- 拡散に基づくモデリングが，大規模オーディオ理解の有望な基盤となることを示唆している。
Link: https://arxiv.org/abs/2601.23161
Hi-Light：高忠実度・高解像度ビデオ再照明への道筋 - 新しい評価パラダイム [cs.CL, cs.CV]目的：高忠実度・高解像度ビデオ再照明のための新しいフレームワーク
- ビデオ再照明は，創造性と商業的価値を高める可能性を秘めている。
- 適切な評価指標の欠如，光のちらつき，編集時の微細なディテールの劣化が課題である。
- 安定性と高詳細度を両立したビデオ再照明を実現すること。
- Hi-Lightは，トレーニングを必要としない新しいフレームワークであり，ビデオ再照明の安定性と品質を向上させる。
- 光の一貫性を定量的に評価する新しい指標「光安定性スコア」を提案した。
- 実験により，Hi-Lightが既存手法を凌駕し，安定した高詳細度の再照明ビデオを生成することが示された。
Link: https://arxiv.org/abs/2601.23167
固定フレームの枠を超えて：動的な文字アラインメント型音声トークン化 [cs.LG, cs.AI, cs.SD]目的：動的な文字アラインメントによる音声トークン化手法
- 近年の会話型音声技術において，音声データを離散的なトークン列に変換する音声コーデックが重要である。
- 既存のコーデックは固定フレームレートで動作し，トークン列が冗長になりがちである。
- DyCASTは，フレームレートを動的に変化させ，トークン数を削減することを目指す。
- DyCASTは，文字レベルのアラインメントと明示的な持続時間モデリングにより，可変フレームレートでのトークン化を実現した。
- 低フレームレートにおける音声合成品質向上のため，検索拡張デコーディング機構を導入し，ビットレート増加なしに再構成忠実度を高めた。
- 実験の結果，DyCASTは固定フレームレートのコーデックと同等の性能を維持しつつ，大幅に少ないトークン数で済むことが示された。
Link: https://arxiv.org/abs/2601.23174
Med-Scout：幾何学的RL後学習による医療認識におけるMLLMの幾何学的盲目の治療 [cs.CV, cs.AI]目的：医療認識におけるMLLMの幾何学的盲目の軽減
- 医療診断において，画像とテキストを組み合わせたMLLMの利用が期待されている。
- 既存のMLLMは言語能力は高いが，客観的な幾何学的制約に基づいた認識が苦手である。
- ラベルなし医療画像から幾何学的ロジックを活用し，幾何学的盲目を改善することを目指す。
- Med-Scoutは，階層的スケール局在化，トポロジカルジグソー再構成，異常一貫性検出という3つのプロキシタスクを通じて，幾何学的盲目を軽減する。
- 提案手法を評価するためのベンチマークMed-Scout-Benchを新たに提示し，幾何学的認識能力の定量的な評価を行った。
- Med-Scoutは，既存のMLLMと比較して，ベンチマークにおいて40%以上の性能向上を示し，放射線学的および包括的な医療VQAタスクでも優れた結果を達成した。
Link: https://arxiv.org/abs/2601.23220
ノイズの多い判断者下における医療画像セグメンテーションのための領域正規化DPO [cs.CV]目的：医療画像セグメンテーションにおける領域正規化DPOの有効性
- 医療画像セグメンテーションは診断・治療に不可欠であり，高精度な自動化技術の確立が求められている。
- ピクセル単位の厳密なアノテーションはコストが高く，大規模データセットへの適用が困難である。
- 自動品質管理信号を利用し，追加のアノテーションなしにセグメンテーションモデルを改善する。
- 領域正規化DPOは，仮説生成に教師ありベースセグメンターを使用し，ノイズの多い判断者からのDPOを安定化させる。
- 好ましいペアの選択方法が結果に大きく影響し，信頼性の低い判断者下では有害なエラーを増幅する可能性がある。
- 2つの医療データセットにおいて，領域正規化DPOは標準的なDPOや他のベースラインを上回り，持続的な性能を向上させた。
Link: https://arxiv.org/abs/2601.23222
ビデオo3：長編動画におけるネイティブな段階的手がかり探索 [cs.CL, cs.CV]目的：長編動画における多段階推論のための手がかり探索手法
- 動画理解は，情報検索や監視システムなど，幅広い応用分野で重要性が増している。
- 既存手法は，動画の冗長性に対応できず，重要な手がかりを見つけ出すことが困難である。
- 動画内の重要な手がかりを効率的に探索し，多段階推論を可能にすることを目的とする。
- 提案手法Video-o3は，反復的な手がかり発見，詳細なセグメント検査，適応的な終了機能を備えている。
- Task-Decoupled Attention Maskingにより，推論とツール呼び出しの異質性による注意分散を抑制。
- Verifiable Trajectory-Guided Rewardは，探索範囲と推論効率のバランスを実現し，コンテキスト長の増加を抑制。
Link: https://arxiv.org/abs/2601.23224
ShotFinder：ウェブ検索による想像力駆動型オープン・ドメイン動画ショット検索 [cs.CV, cs.AI]目的：オープン・ドメイン動画ショット検索のためのベンチマークと検索パイプライン
- 動画検索は情報アクセスにおいて重要であり，大規模言語モデルの応用範囲拡大が求められている。
- 動画の持つ時間的構造や複雑な意味的理解が困難であり，体系的な評価基準が不足している。
- 動画編集要件をキーフレーム中心のショット記述として定式化し，評価ベンチマークを構築すること。
- ShotFinderベンチマークは，時間順序，色，視覚スタイル，音声，解像度といった制御可能な制約を導入した。
- 提案手法ShotFinderは，動画の想像力によるクエリ拡張，検索エンジンによる候補動画検索，記述に基づく時間的局所化の3段階パイプラインである。
- 実験により，人間性能との乖離が明らかとなり，特に色と視覚スタイルが課題であることが示された。
Link: https://arxiv.org/abs/2601.23232
ポテンシャルゲームにおけるFTRLの指数的な下界 [cs.SI, cs.GT]目的：ポテンシャルゲームにおけるFTRLの収束時間に関する下界の確立
- オンライン最適化は，様々な応用分野で重要な役割を担うため，効率的なアルゴリズム開発が求められている。
- FTRLは有力なアルゴリズムだが，ポテンシャルゲームにおける収束性については未解明な点が多く残されていた。
- この研究は，FTRLの収束速度の下限を明らかにし，その限界を理解することを目的とする。
- 二者間ポテンシャルゲームにおいて，FTRLは指数時間でナッシュ均衡に収束することが示された。
- この結果は，ミラー降下法などのアルゴリズムに対しても指数的な下界を意味する。
- 複数人ポテンシャルゲームでは，フィクティヴプレイの収束に二重指数時間が必要であることが証明された。
Link: https://arxiv.org/abs/2601.23248
スケールを超えて: 教育ビデオからの空間推論学習 [cs.CV]目的：教育ビデオからの空間推論学習
- 画像と言語モデルの発展は目覚ましいが，単純な推論課題で課題が残る。
- 既存モデルは，数えることや空間認識といった，幼児でも解決できる課題で性能が低い。
- 教育ビデオの構造化された内容が，推論能力向上に有効な学習信号を提供すると仮定し検証する。
- 教育ビデオ「ドーラといっしょに大冒険」のデータセットDoraVQAを構築し，モデルをファインチューニングした。
- DoraVQAおよびCVBenchで8-14点，最大86.16%の性能向上を達成し，汎化性能も確認した。
- 構造化された教育コンテンツが，コンテンツの規模と同様に重要であることを示した。
Link: https://arxiv.org/abs/2601.23251
ビジョン言語モデルにおけるブラウン距離共分散を用いた学習不要テスト時適応 [cs.CV, cs.LG]目的：ビジョン言語モデルのドメインシフトに対する性能劣化の軽減
- 現実世界での応用には，ドメイン変化への頑健性が不可欠であるため。
- 既存手法は計算コストが高く，バックプロパゲーションに依存し，単一モダリティに偏りがちである。
- 学習やバックプロパゲーションなしに，新しいドメインへの適応を効率的に実現すること。
- TaTaはブラウン距離共分散を活用し，学習やバックプロパゲーションなしでVLMsを動的に適応させる。
- これにより，計算効率が向上し，破壊的な重み更新を避けることで安定性も高まる。
- 多様なデータセットでの実験により，TaTaが計算コストを大幅に削減し，最先端の性能を達成することが示された。
Link: https://arxiv.org/abs/2601.23253
PaperBanana：AI研究者のための学術図表自動生成 [cs.CL, cs.CV]目的：学術論文に掲載可能な図表の自動生成
- AI研究の発展には，研究成果の視覚的な伝達が不可欠である。
- 論文図表の作成は手作業に頼る部分が多く，研究のボトルネックとなっている。
- 論文図表作成の自動化により，研究者の負担軽減と効率化を目指す。
- PaperBananaは，最先端のVLMと画像生成モデルを活用し，高品質な図表を自動生成する。
- PaperBananaBenchというベンチマークを用いて，既存手法と比較検証を行い，その優位性を実証した。
- 統計図表の生成にも有効であり，学術論文作成の自動化に貢献する。
Link: https://arxiv.org/abs/2601.23265
XR環境におけるオープンセット物体検出のためのユーザプロンプト戦略とプロンプト改善手法 [cs.CV]目的：オープンセット物体検出における，ユーザプロンプトの影響と改善
- XR環境は，没入感の高いインタラクションを可能にし，新たな応用分野を開拓する上で重要である。
- ユーザが生成するプロンプトは曖昧，不十分，または詳細過多になりやすく，物体検出の精度低下を招く可能性がある。
- XR環境下でのユーザプロンプトに対するロバスト性を高め，検出精度を向上させること。
- GroundingDINOとYOLO-Eの性能を評価した結果，標準的，または詳細不足のプロンプトには安定して対応できることが示された。
- 曖昧なプロンプトは両モデルの性能を低下させ，GroundingDINOは過剰な詳細なプロンプトの影響を受けやすいことが明らかになった。
- プロンプトの改善戦略は曖昧さによるロバスト性を大幅に向上させ，mIoUと平均確信度をそれぞれ55％，41％改善した。
Link: https://arxiv.org/abs/2601.23281
VideoGPA：3D一貫性のある動画生成のための幾何学的事前知識の蒸留 [cs.CV, cs.AI, cs.LG]目的：3D一貫性のある動画生成のための幾何学的事前知識の活用
- 動画生成技術は，現実世界を模倣したコンテンツ作成に不可欠であり，その重要性は増している。
- 既存の動画拡散モデルは，視覚的には優れているものの，3D構造の一貫性を維持することが困難である。
- 幾何学的事前知識を活用し，3D構造の一貫性を高めることで，より自然な動画生成を目指す。
- VideoGPAは，幾何学的基礎モデルを活用し，直接的選好最適化（DPO）によって動画拡散モデルを誘導する。
- 本手法は，人間による注釈を必要とせず，わずかな選好ペアで3D一貫性を効果的に向上させる。
- 実験の結果，VideoGPAは，時間的安定性，物理的妥当性，運動の一貫性において，最先端のベースラインを上回る性能を示す。
Link: https://arxiv.org/abs/2601.23286
高ダイナミックレンジモジュロイメージングのための深い軽量アンロールネットワーク [eess.IV, cs.CV]目的：高ダイナミックレンジ画像の復元
- 画像処理において，より広い範囲の輝度を捉えることは重要であり，特に現実世界の多様な照明条件に対応する必要がある。
- モジュロイメージングの復元は非凸で不適切に設定された問題であり，特にノイズが多い環境下で既存のネットワークは性能が低下する。
- 本研究は，ノイズに強く，計算コストの低い新しい復元ネットワークを開発し，モジュロイメージングの性能を向上させることを目指す。
- 提案手法は，最適化に基づく深層ニューラルネットワークを用いることで，高速かつ高精度なHDR画像の復元を実現した。
- 軽量な畳み込みデノイザーを採用することで，計算コストを抑えつつ，ノイズの影響を軽減することに成功した。
- スケーリング等価性項を導入し，自己教師あり学習によるファインチューニングを可能にすることで，未知のモジュロ画像への適応性を向上させた。
Link: https://arxiv.org/abs/2601.12526
ジャン・バラケの増殖数列：数学的観点からの研究と分類 [math.HO, cs.SD, eess.AS]目的：バラケの増殖数列に関する数学的分析と分類
- 現代音楽における序列主義は，作曲技法として重要な位置を占めている。
- 古典的な序列主義では，音程の多様性に限界があった。
- 増殖数列の数学的特性を解明し，作曲家への活用を促す。
- バラケの増殖数列は，音程ではなく音の順列を不変とする点で，古典的序列主義と異なる。
- この手法により，古典的序列主義よりも多様な音程が得られる可能性がある。
- 本研究は，増殖数列の数学的な可能性を探求し，作曲家がより深く理解するための手助けとなる。
Link: https://arxiv.org/abs/2601.22176
意味認識型ニューラル埋め込みによるコーデック強化 (Semantic-aware Codec Enhancement with Neural Embeddings) [eess.IV, cs.CV, cs.LG, cs.MM]目的：ビデオ圧縮時の劣化改善
- 映像は情報伝達の重要な手段であり，高品質な映像体験のニーズは高い。
- 標準的なビデオコーデックでは，圧縮による画質劣化が課題となる。
- 知覚的に重要な部分の劣化を軽減し，圧縮映像の品質向上を目指す。
- 提案手法は，視覚と言語モデルからの意味的埋め込みを活用し，効率的な畳み込みアーキテクチャで知覚的な忠実度を向上させる。
- 標準コーデックの変更なしに，様々なコーデックのアーティファクトを軽減できる。
- 高解像度ベンチマークにおいて，客観評価指標（MS-SSIM）と知覚評価指標（VMAF）の両方でベースラインを上回る性能を示した。
Link: https://arxiv.org/abs/2601.22189
視覚のためのセマンティック通信：カテゴリ，フレームワーク，実現技術，および応用に関する調査 [eess.IV, cs.CV]目的：視覚データ伝送におけるセマンティック通信の現状と課題
- 通信量が増大する現代において，効率的なデータ伝送が重要課題となっている。
- 従来の通信は生データに焦点を当てており，意味内容の伝達が不十分である。
- セマンティック通信の実現により，意味内容の伝達効率を向上させ，通信資源の圧迫を緩和する。
- 本調査では，セマンティック通信（SemCom）の視覚データ伝送（SemCom-Vision）に関する体系的なレビューを提供している。
- 既存のアプローチを，セマンティック保存通信（SPC），セマンティック拡張通信（SEC），セマンティック洗練通信（SRC）の3つのカテゴリに分類した。
- 機械学習（ML）に基づくエンコーダー・デコーダーモデルと学習アルゴリズム，知識構造と活用戦略について議論している。
Link: https://arxiv.org/abs/2601.22202
内視鏡画像における霧，ぼかし，まぶしさの同時処理：Joint Deblurring-Segmentation [eess.IV, cs.CV]目的：内視鏡画像の鮮明化とセグメンテーションの同時実行
- 大腸がん検診において，内視鏡画像分析は重要である。早期発見・治療に不可欠な技術。
- レンズの曇り，モーションブラー，反射光により，自動ポリプ検出の精度が著しく低下する。
- 画像の劣化下においても高い性能を発揮し，臨床現場での実用性を高めることを目指す。
- EndoCaverは，鮮明な画像データにおいて0.922のDice係数を達成した。
- 重度の画像劣化下でも0.889のDice係数を維持し，既存手法を凌駕した。
- モデルパラメータを90%削減し，効率性と堅牢性を両立した。
Link: https://arxiv.org/abs/2601.22537
ボネット：CTスキャンからの全身骨セグメンテーションの超高速化 [eess.IV, cs.CV]目的：CTスキャンからの全身骨セグメンテーション
- 外科計画や解剖学的分析において，正確な骨セグメンテーションは不可欠である。
- 従来の3Dボクセルベースモデルは計算コストが高く，スキャン毎に数分を要するため，緊急性の高い用途には不向きである。
- 本研究は，高速かつ高精度な骨セグメンテーションパイプラインを開発し，実用的な時間で処理を実現することを目的とする。
- 提案手法「Bonnet」は，HU値に基づく骨閾値処理，疎なSpConvベースU-Netによるパッチごとの推論，マルチウィンドウ融合を統合。
- TotalSegmentatorで学習し，RibSeg，CT-Pelvic1K，CT-Spine1Kで評価した結果，肋骨，骨盤，脊椎において高いDice係数を得た。
- RTX A6000上で1スキャンあたり2.69秒という驚異的な速度で動作し，既存のボクセルベース手法と比較して約25倍の高速化を実現。
Link: https://arxiv.org/abs/2601.22576
収束後トレーニング：サブサハラMRIにおけるグリオマセグメンテーションのためのnnU-Netの活用 [eess.IV, cs.AI, cs.CV]目的：サブサハラにおけるグリオマMRIデータセットに対するnnU-Netの性能評価と，グロッキング現象による性能向上可能性の検証
- グリオマはサブサハラアフリカにおいて深刻な臨床的負担となっており，早期診断と適切な治療が急務である。
- 診断画像の入手が限られており，高所得国で開発されたツールをそのまま適用することが難しい。
- 限られたリソース下で，ローカルデータに基づいた自動化ツールの性能を最大限に引き出すことを目指す。
- nnU-Netを用いたベースラインを確立し，数 эпохの短時間トレーニングでも高いDiceスコア(WH:92.3%, TC:86.6%, ET:86.3%)を達成した。
- トレーニングを収束後も継続することで，グロッキング現象を誘発し，性能を向上させることができた。
- グロッキングにより，Diceスコアがさらに向上(WH:92.2%, TC:90.1%, ET:90.2%)し，より精度の高いセグメンテーションが可能となった。
Link: https://arxiv.org/abs/2601.22637
アクティブラーニング駆動軽量YOLOv9：スマート農業における効率向上 [eess.IV, cs.CV]目的：トマトおよびトマトの花のリアルタイム検出性能向上
- 農業分野では，省人化・効率化のためロボットの導入が進んでおり，画像認識技術が不可欠である。
- 従来の物体検出手法では，データセットの規模やアノテーションコストが課題となり，エッジデバイスでの実用化が難しい場合がある。
- 本研究は，限られたアノテーション資源で高精度な物体検出を実現し，エッジデバイスへの実装を可能にすることを目指す。
- 提案手法は，パラメータ数を抑えつつ推論コストを低減し，エッジデバイスへの展開に適している。
- 限られたアノテーション条件下で，トマトとトマトの花の検出精度を67.8% mAPまで向上させることを示した。
- これにより，知能農業における実用性と実現可能性が確認された。
Link: https://arxiv.org/abs/2601.22732
ハイパースペクトルリモートセンシング画像の教師なし超解像のための合成豊富なマップ [eess.IV, cs.GR, eess.SP]目的：ハイパースペクトル画像の空間解像度向上
- ハイパースペクトル画像は，詳細なスペクトル情報を含むため，環境モニタリング等に有用である。
- 既存の超解像手法は教師あり学習が中心であり，高品質な学習データが不足している場合が多い。
- 教師なし学習による，実用的なハイパースペクトル画像超解像法の確立を目指す。
- 合成豊富なデータを用いた教師なし学習フレームワークを提案し，効果を検証した。
- 提案手法は，低解像度画像から生成した合成豊富なマップを活用することで，学習データ不足の問題を克服する。
- 実験結果から，提案手法がハイパースペクトル画像の空間解像度向上に有効であることが示された。
Link: https://arxiv.org/abs/2601.22755
デコーダーのみの大規模言語モデルと低遅延化によるストリーミング音声認識 [eess.AS, cs.SD]目的：ストリーミング音声認識の新たな手法
- 音声認識は，人間と機械の自然な対話を可能にする基盤技術である。
- 大規模言語モデルを用いたストリーミング音声認識は，遅延の問題が課題となっている。
- 動的な音声セグメンテーションにより，低遅延なストリーミング認識を実現する。
- 提案手法は，AISHELL-1ベンチマークにおいて5.1%の文字誤り率を達成し，既存のストリーミング音声認識モデルを上回った。
- AISHELL-2ベンチマークにおいても5.5%の文字誤り率を達成し，優れた性能を示した。
- 低遅延化の最適化により，トークン生成遅延を平均62.5%削減することに成功した。
Link: https://arxiv.org/abs/2601.22779
CALM：複数話者ASRのパーソナライズのための結合文脈音響言語モデル [eess.AS, cs.CL, cs.SD]目的：複数話者自動音声認識のための結合文脈音響言語モデル
- 音声認識技術は，人間と機械の自然な対話を可能にする上で不可欠である。
- 複数話者の音声混合環境下では，誰が何を言ったかを正確に識別することが困難である。
- 話者固有の情報と文脈情報を統合することで，音声認識の精度を向上させる。
- CALMは，LibriSpeech2Mixにおける偏り付き単語誤り率（B-WER）を12.7から4.7に低減した。
- CSJMix2（eval3）においては，偏り付き文字誤り率（B-CER）を16.6から8.4に低減し，多言語での有効性を示した。
- AMIコーパスのIHM-mix条件でも，標準化された音声混合環境下での性能を検証した。
Link: https://arxiv.org/abs/2601.22792
EmoShift：感情認識音声合成の向上のための軽量活性化ベクトル制御 [eess.AS, cs.AI, cs.CL, cs.SD]目的：感情認識音声合成における感情表現の精密かつ制御可能な実現
- 自然で文脈に合った音声生成には，正確な感情表現が不可欠である。
- 既存の感情認識TTSシステムは，固定された感情埋め込みや外部ガイダンスに依存し，感情特有の潜在的特徴のモデル化が制限されている。
- 感情の潜在的なオフセットを捉え，安定した適切な表現を維持する活性化ベクトル制御による課題解決。
- EmoShiftは，わずか1000万の学習パラメータで，ゼロショットや完全ファインチューニングのベースラインよりも優れた性能を示す。
- 客観評価と主観評価の両方において，感情表現力を向上させつつ，自然さと話者類似性を維持する。
- 提案するEmoSteer層の有効性が確認され，音声合成における制御可能な感情の強度の可能性が示唆された。
Link: https://arxiv.org/abs/2601.22873
水中画像のドメイン不変な画像強調・復元手法の開発 [eess.IV, cs.CV]目的：水中画像の画像強調と復元
- 水中画像は，水質や深さによって光の吸収・散乱が変化し，視覚的な情報が劣化する。
- 既存手法は，水深や照明条件の変化に弱く，汎用性に課題がある。
- 多様な環境下で安定した性能を発揮する，ロバストな画像強調・復元手法を開発する。
- DIVERは，既存手法に比べ，UCIQEにおいて最低9%以上の改善を達成した。
- SeaThruデータセットでは，GPMAEを少なくとも4.9%削減し，色彩復元の優位性を示した。
- DIVERは，水中環境におけるロボット知覚の精度向上にも貢献することが確認された。
Link: https://arxiv.org/abs/2601.22878
高ダイナミックレンジモジュロイメージングにおけるスケール等変性正則化と特徴量リフティング [eess.IV, cs.CV]目的：高ダイナミックレンジ画像の復元
- 高ダイナミックレンジ画像は，現実世界の多様な光環境を捉える上で不可欠である。
- モジュロイメージングでは，飽和による歪みが生じ，正確な復元が困難となる。
- 真の構造とラッピングアーティファクトの区別を明確にし，復元精度を向上させる。
- スケール等変性正則化により，露出変化に対する整合性が強化された。
- 特徴量リフティング入力設計により，ネットワークがアーティファクトと構造を識別する能力が向上した。
- 知覚的および線形HDR品質評価において，最先端の性能を達成した。
Link: https://arxiv.org/abs/2601.23037
ビジョン言語制御による深層アンフォールディング：医療画像復元とセグメンテーションの同時実行 [eess.SP, cs.SY, eess.SY, eess.IV, cs.CV]目的：医療画像復元とセグメンテーションの同時実行
- 医療画像は診断や治療に不可欠であり，高品質な画像処理が求められている。
- 従来の画像処理は復元とセグメンテーションを分離して行うため，最適化が難しい。
- 両タスクの相乗効果を利用し，より高精度かつ効率的な画像処理を実現すること。
- 提案手法VL-DUNは，複数のベンチマークにおいて，PSNRを0.92dB，Dice係数を9.76%向上させた。
- VL-DUNは，復元とセグメンテーションを数学的に結合し，相互に改善するアンフォールディング機構を導入した。
- 周波数認識型Mamba機構により，グローバルな文脈モデリングと高周波テクスチャの保持を両立した。
Link: https://arxiv.org/abs/2601.23103
医療画像における超解像のためのスケールカスケード拡散モデル [eess.IV, cs.CV, cs.LG]目的：医療画像超解像のためのスケールカスケード拡散モデルの提案
- 医療診断の精度向上に不可欠であり，高解像度画像は重要な情報を提供する。
- 単一スケールでの拡散モデルは，画像の階層的なスケール構造を無視する。
- 多スケール構造を考慮し，効率的かつ高品質な超解像を実現する。
- 提案手法は，脳，膝，前立腺MRIデータにおいて，知見の質を向上させた。
- 粗いスケールでのネットワークを小型化することで，推論時間を短縮した。
- 本フレームワークは，マルチスケール再構成と拡散事前分布を統合したものである。
Link: https://arxiv.org/abs/2601.23201
深空ノイズ除去：天体画像のための物理ベースCCDノイズ生成 [astro-ph.IM, cs.CV, cs.LG]目的：天体画像のCCDノイズ生成モデル
- 天体観測では，ノイズが画質の限界となることが多く，高精度な画像処理が重要である。
- 従来の画像処理パイプラインは構造化されたノイズに重点を置き，確率的なノイズの除去が不十分である。
- 学習ベースのノイズ除去におけるデータ不足と物理的解釈の必要性に対応する。
- 物理ベースのノイズ生成フレームワークを提案し，CCDノイズの主要要素をモデル化した。
- 複数の未登録露出を平均化することで，高S/N比のベース画像を生成し，ノイズ合成のための入力とした。
- 実際の観測データセットを公開し，モデルの有効性を検証するためのペアデータを提供した。
Link: https://arxiv.org/abs/2601.23276
継続学習とロングテール認識の関係性について [cs.DM, cs.SI, cs.LG, cs.CV]目的：ロングテール認識と継続学習の関連性
- 現実世界のデータセットは不均衡であり，少数クラスの認識精度向上が課題である。
- ロングテール認識において，少数クラスのデータ不足が学習の偏りを招き，汎化性能を低下させる。
- 継続学習の枠組みを用いて，ロングテール認識における少数クラスの学習を改善すること。
- 不均衡データセットにおいて，モデルの重みはヘッドクラスのみで学習した場合の近傍に収束することが理論的に示された。
- ヘッドクラスとテールクラスを逐次的に学習するCLTR手法を提案し，少数クラスの学習改善とヘッドクラスの性能維持を両立した。
- CIFAR100-LT等のデータセットで実験を行い，提案手法が理論予測と一致し，優れた性能を発揮することを確認した。
Link: https://arxiv.org/abs/2306.13275
TorchCP：確証予測のためのPythonライブラリ [cs.LG, cs.CV, math.ST, stat.TH]目的：深層学習モデルにおける確証予測の実現
- 機械学習モデルの信頼性向上は，安全性や意思決定の質に不可欠である。
- 既存の確証予測ライブラリは，大規模深層学習のモデルや計算量に対応できていない。
- 深層学習モデルへの確証予測の統合と，大規模データでの効率的な処理を実現する。
- TorchCPは，PyTorchネイティブな確証予測ライブラリであり，DNN，GNN，LLM等に対応する。
- ユニットテスト100%カバー率と詳細なドキュメントを備え，LGPL-3.0ライセンスで公開されている。
- 大規模データセットにおいて，推論時間を最大90%削減するGPUアクセラレーションを可能にする。
Link: https://arxiv.org/abs/2402.12683
FlashFace：高忠実度な同一性保持による人物画像パーソナライズ [cs.CV]目的：人物画像のパーソナライズ手法
- 近年，画像生成技術の発展により，人物画像の編集や加工が容易になった。
- 既存手法では，指示された変更と同一性の維持のバランスが課題であった。
- 参照画像とテキスト指示の両方を尊重し，高精度なパーソナライズを実現する。
- FlashFaceは，参照画像とテキストプロンプトを用いて，人物画像を容易にパーソナライズする。
- 特徴マップへの顔の同一性エンコードと，テキストと画像の統合戦略により，忠実な同一性保持と指示追従性を実現した。
- 様々なアプリケーションにおいて，その有効性が実験的に示された。
Link: https://arxiv.org/abs/2403.17008
開腹手術器具の単眼姿勢推定 -- 現実環境下で [cs.CV, cs.LG, cs.RO]目的：開腹手術器具の単眼6D姿勢推定手法
- 医療現場でのロボット支援や拡張現実の実現には，手術器具の正確な位置・姿勢の把握が不可欠である。
- 手術器具は関節を持ち，光沢や遮蔽物が多いなど，姿勢推定が困難な状況が生じやすい。
- 現実環境における手術映像への姿勢推定手法の適用を可能にすること。
- 本研究では，3Dスキャンと物理ベースレンダリングによる合成データ生成パイプラインを構築した。
- 手術器具の検出と姿勢・関節推定を組み合わせた姿勢推定フレームワークを開発した。
- 合成データとラベルなし実データを用いたドメイン適応による学習戦略が有効性を実証した。
Link: https://arxiv.org/abs/2407.12138
オープンワールドのポーズ推定器は準備ができているか？STAGE：3D人間ポーズ推定器監査のためのGenAIツールキット [cs.CV]目的：3D人間ポーズ推定器の監査
- 安全性が重要な応用において，ポーズ推定器の信頼性確認は不可欠である。
- 既存のベンチマークでは，単一要素の変化に着目した制御された実験が困難である。
- 自然な変動がポーズ推定器の性能に与える影響を定量的に評価すること。
- 本研究では，正確な3Dポーズ制御が可能なGenAI画像生成ツールSTAGEを開発した。
- STAGEを用いて，性別，年齢，服装などの要素がポーズ推定器に与える影響を初めて定量的に評価した。
- その結果，自然な変動がポーズ推定器の性能を著しく低下させる可能性が示された。
Link: https://arxiv.org/abs/2408.16536
ARB-LLM：大規模言語モデルのための交互洗練二値化 [cs.HC, cs.CV, cs.AI, cs.CL, cs.LG]目的：大規模言語モデルにおける効率的な二値化手法の開発
- 大規模言語モデルは自然言語処理を大きく前進させたが，その高い計算コストが課題となっている。
- 既存の二値化手法では，二値化とフル精度重みの分布差を狭めることが困難である。
- 本研究は，大規模言語モデルにおける計算コストとメモリ使用量を大幅に削減することを目指す。
- 提案手法ARB-LLMは，二値化パラメータを段階的に更新することで，量子化誤差を大幅に削減する。
- ARB-LLMは，最先端の二値化手法と比較して，大幅な性能向上を実現した。
- ARB-LLM$_\text{RC}$は，同じサイズのFP16モデルを上回る性能を達成し，二値化PTQ手法として初めての成果である。
Link: https://arxiv.org/abs/2410.03129
2DMamba：ギガピクセル病理画像分類のための画像表現のための効率的な状態空間モデル [cs.CV]目的：ギガピクセル病理画像分類を含む様々な分野における画像表現の効率化
- 画像処理分野では，広範囲の2次元コンテキストを効率的にモデル化することが重要である。
- Transformerモデルは並列性が高いが，長序列の処理において計算量が課題となる。
- 2DMambaは，2次元構造を効率的に処理し，計算速度を向上させることを目指す。
- 2DMambaは，病理画像分類および生存分析において，AUC，F1スコア，精度，C-indexをそれぞれ最大2.48%，3.11%，2.47%，5.52%改善した。
- 自然画像を用いた実験では，ADE20kセマンティックセグメンテーションデータセットでmIoUを0.5〜0.7%向上させ，ImageNet-1K分類データセットで精度を0.2%向上させた。
- 2DMambaは，空間的な連続性と計算効率を両立する，最適化されたハードウェア対応演算子を採用している。
Link: https://arxiv.org/abs/2412.00678
狭い門：ネイティブマルチモーダルモデルにおける画像とテキストの局所的なコミュニケーション [cs.CV, cs.LG]目的：画像とテキストのコミュニケーション様式の比較
- 画像とテキストを統合するマルチモーダルモデルは，多様な応用において重要性が増している。
- 既存モデルでは，画像情報がテキスト生成にどのように影響しているかの理解が不十分である。
- ネイティブマルチモーダルモデル特有の画像情報伝達メカニズムを解明すること。
- ネイティブマルチモーダルモデルでは，画像とテキストの埋め込みがresidualストリーム内で分離されていることが明らかになった。
- 非ネイティブモデルは分散的なコミュニケーションパターンを示す一方，ネイティブモデルは単一のpost-imageトークンを頼る傾向がある。
- この単一のトークンを削除すると画像理解性能が低下し，トークンレベルでの介入により画像の意味とテキストを制御できることが示された。
Link: https://arxiv.org/abs/2412.06646
FlashVideo: 高解像度ビデオ効率的生成のための詳細な忠実度 [cs.CG, cs.CV]目的：高解像度ビデオ生成における効率と品質のバランス
- テキストからビデオ生成技術は，コンテンツ制作やエンターテイメント分野で急速に発展している。
- 高解像度ビデオ生成には，計算資源が膨大に必要であり，実用上の制約となっている。
- モデルの効率性を高め，計算コストを削減しながら，高品質なビデオ生成を実現すること。
- FlashVideoは，2段階のフレームワークを採用し，計算資源の割り当てを最適化することで，効率的な高解像度ビデオ生成を可能にした。
- 低解像度での初期生成に重点を置くことで，計算コストを削減しつつ，プロンプトへの忠実性を確保している。
- 2段階設計により，生成初期段階でのプロンプト調整が可能となり，計算コストと待ち時間を大幅に削減し，商業的実現性を高めている。
Link: https://arxiv.org/abs/2502.05179
SPEED：拡散モデルにおけるスケーラブル，高精度，かつ効率的な概念消去 [cs.CV]目的：拡散モデルからの概念消去手法
- 著作権侵害，不適切なコンテンツ，プライバシー侵害への懸念から，画像生成モデルにおける概念消去の重要性が高まっている。
- 複数概念を正確に消去するには，ファインチューニングに時間がかかり，リアルタイム編集は生成品質を低下させるという課題がある。
- 非対象概念への影響を最小限に抑えつつ，スケーラブルかつ高精度な概念消去を実現することを目指す。
- SPEEDは，モデルパラメータを直接編集することで，非対象概念に影響を与えない「null space」を探索し，効率的な概念消去を実現する。
- 影響度に基づく事前フィルタリング，意味的に一貫したバリエーションの追加，生成過程における主要な不変量の維持により，正確なnull space最適化を可能にする。
- 実験結果から，SPEEDは既存手法と比較して，非対象概念の保持性能が高く，100個の概念を5秒以内に消去できることが示された。
Link: https://arxiv.org/abs/2503.07392
FaVChat：データ効率的なGRPOを用いた階層的プロンプト・クエリ誘導による顔動画理解 [cs.CV]目的：顔動画における微細な視覚的・動的特徴の推論
- 動画理解は，人間とAIのコミュニケーションにおいて重要な役割を担うため，その精度向上は不可欠である。
- 既存のVLLMは，クエリ情報を考慮しない視覚エンコーダを使用しており，タスクに重要な手がかりを喪失しやすい。
- クエリに依存した特徴抽出により，顔動画理解の精度を向上させ，データ不足下での学習効率を高める。
- FaVChatは，質問に関連する情報を強調する階層的なプロンプト誘導視覚特徴抽出フレームワークを導入した。
- 提案手法Data Efficient GRPOは，高ユーティリティなサンプルを反復的に特定し，限られた教師データ下でも性能向上を実現する。
- 顔動画理解タスクにおいて，既存のVLLMを凌駕する性能を示すことを実験的に確認した。
Link: https://arxiv.org/abs/2503.09158
拡散モデルにおける概念消去のためのクロスアテンション操舵：CASteer [cs.GR]目的：拡散モデルにおける概念消去の制御
- 画像生成技術は進化したが，意図しない要素を確実に消去する制御は困難である。
- 既存手法は特定のタスクに依存し，具体的な物から抽象的なスタイルまで汎用性に欠ける。
- 追加学習なしに，拡散モデルの隠れ表現を動的に操舵し，概念を消去すること。
- CASteerは，概念固有の操舵ベクトルを用いて，特定の概念が現れた場合にのみ選択的に抑制する。
- これにより，画像全体の品質を損なうことなく，文脈を考慮した精密な消去が可能となる。
- 最先端の技術と比較して，関連コンテンツを維持しつつ，有害なコンテンツの除去性能が向上する。
Link: https://arxiv.org/abs/2503.09630
事故Sim：現実世界の事故報告から物理的に現実的な衝突軌跡を持つ車両衝突動画の生成 [cs.CV, cs.AI]目的：車両衝突動画生成のための物理的リアリズムの実現
- 自動運転研究において，実世界の事故データは不可欠だが，収集は困難である。
- 既存の動画生成手法は視覚的なリアリズムは高いが，物理的な正確さに欠ける場合がある。
- 事故報告書から物理的情報を活用し，現実的な衝突後の軌跡を生成することを目指す。
- AccidentSimは，事故報告書から物理的・文脈情報を抽出し，物理シミュレーターを用いて衝突後の車両軌跡を再現する。
- 生成された軌跡データセットを用いて言語モデルをファインチューニングし，多様なシナリオで物理的に整合性の取れた軌跡予測を可能にする。
- NeRFを用いて高品質な背景をレンダリングし，物理的に現実的な軌跡を持つ車両と合成することで，高画質の衝突動画を生成する。
Link: https://arxiv.org/abs/2503.20654
CaLiV：任意センサー構成のLiDAR-車両較正 [cs.DC, cs.ET, cs.RO, cs.CV]目的：多LiDARシステムの外部センサー間およびセンサー-車両較正
- 自律システムの安全性と効率的な航行には，正確なセンサー較正が不可欠である。
- 既存のLiDAR較正手法は，視界の重複を必要としたり，外部機器に依存したりする。
- 視界が重複しない構成でも，外部機器なしでセンサーと車両の較正を可能にすること。
- 提案手法CaLiVは，視界の重複を運動によって作り出し，Unscented Kalman Filterで車両姿勢を推定する。
- Gaussian Mixture Modelを用いた点群登録により，センサー間の外部パラメータを精度良く算出可能である。
- シミュレーション結果に加え，実環境実験によって有効性が検証された。
Link: https://arxiv.org/abs/2504.01987
位置情報に基づいた音イベントの定位・検出：空間マッピングと回帰定位による手法 [cs.CL, econ.GN, q-fin.EC, cs.SD, eess.AS]目的：音イベントの定位と検出
- 日常生活やセキュリティなど，音の空間的な把握は重要な役割を果たす。
- 複雑な環境下では，複数の音が重なり合い，正確な定位が困難である。
- 重なり合った音に対しても汎用的に定位・検出できる手法を開発する。
- 提案手法SMRL-SELDは，3次元空間を2次元平面にマッピングすることで定位の精度向上を実現した。
- 新しい回帰定位損失関数を導入し，定位結果の収束を音イベントの位置に近づけた。
- STARSS23およびSTARSS22データセットにおいて，既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2504.08365
ビジョン-言語-行動（VLA）モデル：概念，進捗，応用と課題 [cs.CV]目的：ビジョン，自然言語理解，および具現化された行動の統合
- AI分野における知能の向上は，現実世界での応用を促進する上で不可欠である。
- 既存の手法では，知覚，言語，行動を統一的に扱うことが困難であった。
- VLAモデルによって，これらの要素を統合し，より高度なロボット工学と汎用AIを実現することを目指す。
- VLAモデルは，クロスモーダル学習から汎用エージェントへの進化を遂げている。
- 近年のVLAモデルのアーキテクチャ革新，効率的な学習戦略，リアルタイム推論の高速化が確認された。
- VLAモデルは，自動運転，医療ロボット，農業，ヒューマノイドロボット，拡張現実など，多様な分野への応用が期待される。
Link: https://arxiv.org/abs/2505.04769