arXiv雑要約
画像・音声 - 2026/04/29 公開
DIAL:潜在的ワールドモデリングによる意図と行動の分離によるエンドツーエンドVLA [cs.RO, cs.AI, cs.CV, cs.LG]目的:ビジョン・言語・行動(VLA)モデルにおける意図と行動の分離
- VLAはロボットの知能開発において重要であり,現実世界でのタスク遂行能力向上に不可欠である。
- 既存のVLAモデルは,事前学習済みVLモデルの潜在能力を十分に活用できていないという課題がある。
- DIALは,潜在的意図ボトルネックを介して,VLAモデルの学習安定性と汎化性能を向上させることを目指す。
- DIALは,高レベルな意思決定と低レベルな運動実行を,潜在的な意図ボトルネックを介して接続するフレームワークを提案した。
- 実験の結果,DIALはRoboCasa GR1 Tabletopベンチマークにおいて,既存手法を大きく上回る性能を達成した。
- DIALは,人間からの多様なデモンストレーションを活用し,物理的に基づいた操作の事前知識を獲得し,未知のオブジェクトや構成へのゼロショット汎化を実現した。
OmniSch:構造化された図の視覚的推論のための多種多様なPCB回路図ベンチマーク [cs.CV]目的:PCB回路図の機械可読な空間重み付きネットリストグラフへの変換能力の評価
- 電子設計自動化(EDA)において,回路図のグラフ表現は不可欠であり,その性能が重要である。
- 大規模マルチモーダルモデル(LMM)は回路図の理解とネットリストグラフ構築において,十分な性能を発揮できていない。
- LMMの回路図理解と空間ネットリストグラフ構築能力を総合的に評価し,その課題を明らかにする。
- 本研究で開発されたOmniSchベンチマークは,1,854枚の実回路図と4つのタスクを含む,初の包括的なベンチマークである。
- 実験結果から,現在のLMMは回路図の微細なグラウンディング,レイアウト依存のグラフ解析,グローバルな接続推論において課題があることが示された。
- LMMは視覚探索においても非効率であり,実用的なEDAワークフローへの適用には改善の余地がある。
ヒストパソロジー画像と多目的パッチ選択を用いたPAM50サブタイプ分類のための深層学習パイプライン [cs.CV, cs.AI]目的:ヒストパソロジー画像からのPAM50サブタイプ分類
- 乳癌は分子プロファイルが多様であり,個別化医療戦略には精密なサブタイプ分類が不可欠である。
- 従来のPAM50サブタイプ分類は高価な分子アッセイに依存しており,コストと時間のかかるプロセスである。
- ヒストパソロジー画像から直接PAM50サブタイプを予測することで,分子アッセイへの依存度を低減し,効率的な分類を実現する。
- 提案手法は,TCGA-BRCAデータセットにおいてF1スコア0.8812,AUC0.9841を達成した。
- 外部検証データセットCPTAC-BRCAにおいても,F1スコア0.7952,AUC0.9512と高い性能を示した。
- 最適化と不確実性に基づいたパッチ選択が,既存手法と比較して分類性能と計算効率を向上させることを示唆している。
VERTIGO:映画的なカメラ軌道生成のための視覚的嗜好最適化 [cs.CV, cs.AI]目的:映画的なカメラ軌道生成における視覚的嗜好の最適化
- 映画制作において,カメラワークは映像の質を大きく左右するため,自動化技術の向上が求められている。
- 既存のカメラ軌道生成システムは,指示に従うものの,視覚的な魅力や構図の質が十分でない場合がある。
- 生成されたカメラ軌道が,より魅力的な映像になるよう,視覚的な嗜好に基づいて最適化することを目指す。
- VERTIGOは,生成されたカメラ軌道をリアルタイムでプレビューし,視覚的な品質を評価する新たなフレームワークである。
- 視覚言語モデルとcyclic semantic similarityメカニズムを活用し,テキスト指示との整合性,構図の質,現実感を向上させる。
- 実験の結果,キャラクターが画面外に出る頻度を大幅に削減し,ユーザー調査でも既存手法よりも高い評価を得た。
RABC-Net:リソースの少ない皮膚鏡検査における信頼度を考慮したアノテーションフリー皮膚病変セグメンテーション [cs.RO, cs.CV]目的:リソースの少ない皮膚鏡検査における皮膚病変のセグメンテーション手法
- 皮膚がんの早期発見は重要であり,正確な病変セグメンテーションが診断精度向上に不可欠である。
- 皮膚鏡画像のピクセルレベルのアノテーション作成はコストがかかり,データ収集のボトルネックとなっている。
- アノテーションなしで高精度なセグメンテーションを可能にし,医師の負担を軽減することを目指す。
- RABC-Netは,疑似ラベルの信頼度学習,制限付きターゲットドメイン適応,信頼度適応境界較正(RABC)を組み合わせることで,高いセグメンテーション性能を実現した。
- ISIC-2017,ISIC-2018,PH2データセットにおいて,マクロ平均DICE/JACスコアはそれぞれ86.58%/79.47%を達成した。
- RABCは,境界の局所的な改善に貢献し,全体的な結果は信頼度を考慮したシステム全体によるものであることが示された。
ドリフト場は保存的ではない [cs.LG, cs.CV]目的:ドリフトモデルにおける非保存性の解析と,保存性を回復する正規化手法の提案
- 生成モデルの品質向上は重要であり,特に効率的なサンプリング手法の開発が求められている。
- ドリフトモデルは高速なサンプル生成を可能にするが,その理論的根拠が明確でなかった。
- ドリフト場の非保存性に着目し,その原因を特定,保存性を回復する新しい正規化手法を確立する。
- ドリフト場は一般的に保存的ではなく,スカラーポテンシャルの勾配として表現できないことが示された。
- 位置依存の正規化が非保存性の原因であり,シャープカーネルを用いた正規化で保存性を回復できることが判明した。
- ドリフト場一致目的関数は損失最小化よりも一般的だが,実用的な利点は限定的であり,損失関数を用いた学習が推奨される。
潜在異常知識の発掘:ビジョン言語モデルにおける疎な感受性ニューロンの解明 [cs.CV, cs.AI]目的:ビジョン言語モデルにおける異常検知能力に関わる潜在的な知識の特定と活用
- 大規模なビジョン言語モデルは優れた汎化能力を持つが,その内部メカニズムは未だ不明な点が多い。
- 既存手法はモデルをブラックボックスとして扱い,異常検知に必要な知識は外部から付加する必要があると考えられている。
- 事前学習済みのモデル内に潜在的に埋め込まれた異常検知に関する知識を抽出し,活用することを目的とする。
- 本研究で提案するLAKEは,少ない正常サンプルのみを用いて,異常感受性ニューロンを特定し,活性化させる。
- LAKEは,視覚構造のずれとクロスモーダルな意味活性化を統合したコンパクトな正常性表現を構築する。
- 工業的な異常検知ベンチマークにおいて,LAKEは最先端の性能を達成し,ニューロンレベルでの解釈可能性を提供する。
ハイブリッド注意と分離蒸留による長期間ストリーミングビデオ生成 [cs.CV]目的:長期間のストリーミングビデオ生成における性能向上
- ビデオ生成技術は,コンテンツ制作やエンターテイメント分野において重要な役割を担う。
- 既存のストリーミングビデオ生成手法は,長時間のビデオ生成において過去の情報を保持しきれないという課題がある。
- ハイブリッド注意メカニズムにより,効率的かつ高品質な長期間ストリーミングビデオ生成を実現することを目指す。
- 提案手法であるハイブリッド強制は,長距離依存関係の保持と計算効率の両方を最適化することで,従来のストリーミングビデオ生成モデルの性能を向上させる。
- 特に,軽量な線形時間注意メカニズムとブロック疎注意の導入により,メモリ消費量と計算コストを抑えつつ,高品質なビデオ生成を可能にする。
- NVIDIA H100 GPU上で,量子化やモデル圧縮なしに,832x480のビデオを29.5 FPSでリアルタイムに生成できることを示した。
マルチネックス:マルチプライオアRetinexによる軽量な低照度画像強調 [cs.CV, cs.AI]目的:低照度画像強調の技術
- 画像認識やコンピュータビジョンの分野において,低照度下での視認性向上が重要である。
- 既存手法はモデルサイズが大きく,実環境への展開が困難であるという課題があった。
- 軽量かつ高精度な低照度画像強調手法を開発し,実用性を高めることを目指す。
- マルチネックスは,複数の微細な表現をRetinex残差形式に統合する超軽量構造フレームワークである。
- 軽量なモデル(45Kパラメータ,0.7Kパラメータ)でありながら,既存の軽量SOTAモデルを大幅に上回り,重いモデルに匹敵する性能を発揮する。
- 異なる解析表現から得られる照明と色に関する情報を融合し,露出や色調の調整を行うことで,安定した強調を実現する。
傾斜投影からのリアルタイムオープンセット3Dマクロ分子検出:FullTilt [cs.CV]目的:クライオ電子断層撮影におけるオープンセット3Dマクロ分子検出の実現
- 生体分子構造解析において,電子顕微鏡法は不可欠な技術であり,その効率化が求められている。
- 従来の3D検出法は,モデルの再学習が必要であり,計算資源の制約から処理速度が遅いという課題があった。
- 傾斜シリーズを直接処理することで,計算量を削減し,高速かつ効率的な3Dマクロ分子検出を可能にすること。
- FullTiltは,傾斜シリーズエンコーダーを用いてクロスビュー情報を効率的に統合し,3D検出を高速化した。
- マルチクラスビジュアルプロンプトエンコーダーと傾斜認識クエリ初期化により,柔軟なプロンプティングと3Dクエリのアンカーリングを実現した。
- 実データセットを用いた評価により,FullTiltが最先端のゼロショット性能と大幅な処理時間短縮,VRAM削減を達成した。
チベット語向けマルチ方言エンドツーエンド音声LLM:Ti-Audio [cs.SD]目的:チベット語におけるマルチ方言エンドツーエンド音声LLMの開発
- 音声LLMはマルチモーダル対話能力を向上させるが,リソースの少ない言語への応用は課題。
- チベット語はデータ不足に加え,主要方言(ウツァン,アムド,カム)の音韻差が顕著。
- 限られたデータで方言間の協力により,音声とテキストの整合性を高めること。
- Ti-Audioは,チベット語の自動音声認識および音声翻訳ベンチマークで最先端の性能を達成。
- 動的Q-Formerアダプターにより,変動長の音声から重要な音響特徴を抽出し,安定したクロスモーダル整合を実現。
- 方言間の相互扶助と温度に基づくサンプリング戦略により,データ不足を緩和し,相乗効果を最大化。
NTIRE 2026 離岸流検出とセグメンテーションチャレンジ報告書 [cs.CV]目的:離岸流の画像における自動理解
- 離岸流は世界中で溺死事故の主な原因であり,安全確保が急務である。
- 離岸流の視覚的特徴は,海岸,視点,海況によって大きく変動するため,識別が困難である。
- 多様なデータセットを用いて,離岸流の検出とセグメンテーション技術の向上を目指す。
- 本チャレンジでは,159名の参加者が登録し,9つの有効なテスト提出結果が得られた。
- 多くの参加者ソリューションは,事前学習済みモデル,強力なデータ拡張,および後処理設計を活用した。
- 汎用的な画像認識モデルの進歩が離岸流理解に大きく貢献する一方,特有の視覚構造に特化した手法にも余地がある。
BALTIC:空気と水中の環境下における3D再構成のためのベンチマークとクロスドメイン戦略 [cs.CV]目的:多様な照明条件下での,空気と水中の環境下における3D再構成手法の評価
- ロボットの知覚において,環境条件の変化に強い3D再構成は不可欠である。特に,水中・空中間の移行は重要課題。
- 水中と空気の環境変化に対する3D再構成手法の性能評価が体系的に行われていない現状がある。
- 水中と空気の環境下,多様な照明条件下での3D再構成性能を客観的に比較・評価するための基準を提供する。
- Gaussian Splattingは,単純な前処理を行うことで,特殊な水中手法と同等の性能を発揮しうる。
- しかし,より複雑な環境下では,その頑健性は低下する傾向が見られた。
- 本研究で構築したベンチマークは,今後の3D再構成技術開発の基盤となることが期待される。
シーンから物体へ:テキスト誘導による二重注視予測 [cs.CV, cs.AI, cs.RO]目的:テキストに基づいたドライバーの注視予測の精度向上
- 自動運転における人間らしい行動を実現するため,ドライバーの注視予測は不可欠である。
- 既存のデータセットは,詳細な物体レベルの注視アノテーションがなく,テキストと視覚情報の連携が弱い。
- 高品質な物体レベルの注視データと,それに対応するモデルアーキテクチャを開発し,注視予測の精度を高める。
- 新しいデータセットG-W3DAを構築し,大規模言語モデルとSAM3を統合することで,アノテーションの誤りを大幅に削減した。
- DualGaze-VLMアーキテクチャを提案し,セマンティッククエリと視覚特徴量の動的な調整を実現した。
- W3DAベンチマークにおいて,既存モデルを上回り,特に安全性に関わるシナリオで17.8%のSIM向上を達成した。
SpatiO:空間推論のための視覚言語エージェントの適応的テスト時オーケストレーション [cs.CV]目的:空間推論のための視覚言語エージェントの協調機構
- 視覚シーン理解には物体認識に加え,空間関係の推論が不可欠である。
- 既存手法は固定された空間的バイアスに依存し,分布変化への適応が困難である。
- 異なる推論戦略を柔軟に組み合わせ,状況に応じた最適な推論を可能にすること。
- SpatiOは,多様な空間的バイアスを持つ複数の視覚言語専門家を協調させる異種マルチエージェントフレームワークである。
- テスト時オーケストレーション(TTO)により,推論時の信頼性に基づいてエージェントを動的に評価・重み付けする。
- 3DSRBench等のベンチマークで,既存のベースラインと比較して空間推論性能が向上することが示された。
CAGE-SGG:オープンボキャブラリシーングラフ生成のための反事実的アクティブグラフエビデンス [cs.CV]目的:オープンボキャブラリシーングラフ生成における信頼性向上
- シーングラフ生成は,画像の内容を構造的に理解する上で重要であり,ロボティクスや画像検索に応用される。
- 既存手法では,言語的な先入観やオブジェクトの共起に頼る傾向があり,視覚的根拠に基づかない関係性が生成される場合がある。
- 視覚的,幾何学的,文脈的証拠に基づく反事実的検証により,信頼性の高いシーングラフ生成を目指す。
- 提案手法は,関係候補が関連する視覚的手がかりによって裏付けられているかを検証するフレームワークである。
- 関係スコアが,必要な証拠の除去によって低下し,無関係な摂動に対しては安定するという反事実的検証を行う。
- 従来のベンチマークにおいて,Recall値,未知の述語への汎化性能,反事実的根拠付けの質が改善された。
事前学習済み3Dモデルからのトポロジー特徴抽出 [cs.AR, cs.CV]目的:3Dエンコーダーによって生成された特徴からのトポロジー情報の抽出
- 3D形状の理解において,多スケール構造を要約するトポロジー記述子は重要である。
- 既存の3Dエンコーダーは,形状のグローバルなトポロジー信号を十分に保持していない。
- 本研究は,学習可能な機構を通じて,点群データから効率的に持続ホモロジー図を抽出することを目的とする。
- DONUTという合成ベンチマークを用いて,既存のエンコーダーが限定的なトポロジー信号しか保持していないことが示された。
- 提案手法FILTRは,これらのエンコーダーが生成した情報を活用し,持続ホモロジー図を近似することに成功した。
- FILTRは,効率的なフィードフォワード機構により,点群データから直接持続ホモロジー図をデータ駆動的に抽出することを可能にした。
Flow4DGS-SLAM:光流誘導4次元ガウススプラッティングSLAM [cs.CV]目的:動的環境下におけるVisual SLAMのロバストなカメラ姿勢推定とフォトリアリスティックなレンダリング
- SLAMはロボットの自律移動や拡張現実など,様々な応用分野において重要な技術である。
- SLAMにおける動的環境への対応は難題であり,静的・動的領域の効率的な再構成が課題となっている。
- 光流を用いて動的3DGS SLAMを効率化し,動的シーンのトラッキング,再構成,学習効率の向上を目指す。
- 提案手法は,光流とカメラの自己運動モデルを用いて動的領域と静的領域を分離するモーションマスク生成戦略を採用する。
- 動的3DGSの学習速度を向上させるため,キーフレームにおける時間中心を明示的にモデル化し,3Dシーンフローを用いて伝播させる。
- 複雑な動きに適応的に学習するため,時間的な不透明度と回転をガウス混合モデルでモデル化する。
ReLIC-SGG:オープンボキャブラリシーングラフ生成のための関係ラティス補完 [cs.CV]目的:オープンボキャブラリシーングラフ生成における関係の不完全性への対処
- 視覚的シーンの記述において,固定された関係セットに縛られない柔軟性が求められている。
- シーングラフのアノテーションは不完全であり,妥当な関係が欠落したり,粒度が異なったりする。
- 欠落した関係を推論し,より正確で意味的に一貫性のあるシーングラフを生成すること。
- 提案手法ReLIC-SGGは,未アノテーションの関係を潜在変数として扱うことで,負例の誤りを軽減する。
- 関係の類似性や包含関係をモデル化する関係ラティスを用いることで,視覚情報と言語情報を両立させ,欠落した関係を推論する。
- 実験の結果,希少かつ未知の関係の認識精度が向上し,欠落した関係の再現性が改善された。
Audio2Tool:話す,呼ぶ,実行 -- 音声ツール利用のベンチマークのためのデータセット [cs.SD, cs.LG, eess.AS]目的:音声ツール利用能力のベンチマーク
- 音声アシスタントの普及に伴い,より高度な音声理解が求められている。
- 既存のベンチマークは,評価範囲や現実的な条件が十分ではない。
- 音声ツール利用における性能評価のための新しいベンチマークを提供する。
- 本研究では,約3万件のクエリを含む大規模データセットAudio2Toolを公開した。
- このデータセットは,スマートカー,スマートホーム,ウェアラブルの3つの主要な領域をカバーし,複雑な要求にも対応可能である。
- 最先端の音声モデルの評価において,単純なコマンドは高い性能を示したが,複雑な状況下では性能が低下することが示された。
WeatherSeg:教師生徒型二重学習と分類器更新注意機構を用いた耐候性画像セグメンテーション [cs.CV, cs.AI]目的:悪天候下における自律運転の環境認識課題解決
- 自動運転の安全性を高める上で,あらゆる天候下での正確な環境認識が不可欠である。
- 既存手法では,悪天候時の画像認識精度が低下し,性能劣化が課題となっていた。
- 悪天候に強く,アノテーションコストを削減する画像セグメンテーション手法を開発する。
- WeatherSegは,クリア,雨,曇り,霧などの様々な天候条件下で,ベースラインモデルを大幅に上回る精度とロバスト性を示した。
- 二重教師生徒重み共有モデル(DTSWSM)により,悪天候画像からの知識蒸留を可能にした。
- 分類器重み更新注意機構(CWUAM)は,環境属性に基づいて分類器の重みを動的に調整し,性能向上に貢献した。
SketchVLM:思考を説明し,ユーザーを導く画像注釈のためのビジョン言語モデル [cs.CV, cs.AI]目的:画像に関する質問応答における思考過程の説明
- 画像と言語を組み合わせたAIは,人間との自然な対話を実現し,様々な応用分野を広げている。
- 既存のビジョン言語モデルはテキストのみで応答するため,その根拠を検証することが困難である。
- モデルの思考過程を可視化し,ユーザーが理解しやすくすることで,AIの信頼性を高める。
- SketchVLMは,既存のビジョン言語モデルに,画像へのSVGオーバーレイを描画する機能を追加するフレームワークである。
- 7つのベンチマークにおいて,SketchVLMは既存手法と比較して,最大で28.5%の精度向上と,最大で1.48倍のアノテーション品質向上を達成した。
- 単一ターンでの生成で高い精度と品質が得られ,複数ターン生成は人間とAIの協調作業の可能性を広げる。
見えにくいほど,ラベル付けが難しい:微細な視覚現象に対する生成と記号的獲得 [cs.CV, cs.AI]目的:微細な視覚異常の検出におけるラベル効率の向上
- 産業界における製品検査において,微細な異常を正確に検出することは品質管理上不可欠である。
- 既存の能動学習手法は,主要なパターンに偏りやすく,重要な微細異常を見落とす傾向がある。
- 視覚的な難易度と意味的な網羅性のバランスを取ることで,微細かつ稀な異常の検出率向上を目指す。
- 提案手法GSALは,拡散モデルによる視覚的な難易度と,階層的な意味的カバレッジを組み合わせた能動学習フレームワークである。
- GSALは,再構成の不一致やノイズ除去の変動を利用して,視覚的に異常なサンプルを優先的に選択する。
- 実験結果から,GSALは既存手法と比較して,ラベル効率と稀少クラスの検出において一貫した改善を示すことが確認された。
ズームイン,推論:ベイジアン推論による焦点を絞ったVLM推論を通じた高速道路監視ビデオにおける効率的な遠方異常検知 [cs.CV, cs.AI]目的:高速道路監視ビデオにおける遠方異常の効率的な検知
- 高速道路の安全管理において,異常検知は不可欠である。交通状況を把握し,事故を未然に防ぐ上で重要。
- 遠方で微細な異常を示す車両の動きを検知することは,多様なシーンにおいて依然として課題である。
- VLMの注意散漫と計算コストを削減し,遠方異常の検知精度とリアルタイム性を向上させる。
- 提案手法VIBESは,ベイジアン推論によりVLMを誘導する非同期協調フレームワークであり,遠方異常の検知精度を向上させる。
- オンラインベイジアン推論モジュールにより,多様な高速道路環境への汎化性能を高めている。
- VIBESは,計算負荷を軽減し,リアルタイム効率と説明可能性を実現する。
RAS:自動音声認識の信頼性指向評価指標 [cs.SD, cs.AI]目的:自動音声認識における信頼性評価
- 音声認識技術は,人間と機械のインターフェースとして広く利用されており,その精度向上は重要である。
- 従来の評価指標は精度のみに焦点を当てており,誤認識に対する信頼性の評価が課題であった。
- 不確実な部分を棄権することで信頼性を向上させる評価指標を開発し,その有効性を検証する。
- 提案するRAS指標は,音声認識の有用性と誤り回避のバランスを取り,人間の好みに基づいて調整可能である。
- RAS指標を用いた学習により,音声認識の信頼性が大幅に向上し,高い精度を維持した。
- 棄権を意識したフレームワークにより,より信頼性の高い音声認識システムの構築が可能となった。
CF-VLA:ビジョン・言語・行動ポリシーのための効率的な粗-微行動生成 [cs.CV, cs.AI]目的:ビジョン・言語・行動ポリシーにおける効率的な行動生成手法
- ロボットの自律的な行動計画において,ビジョンと自然言語による指示に基づいた行動生成は重要な課題である。
- 既存のフローベースVLAポリシーは表現力に優れるものの,効率性と品質のトレードオフが課題となっていた。
- 本研究は,構造化された粗-微行動生成により,効率性と性能を両立させることを目指す。
- 提案手法CF-VLAは,行動を意識した初期化ステップと,その後の微調整ステップという二段階構造を採用することで,効率的な行動生成を実現した。
- CALVINとLIBEROにおける実験により,CF-VLAは既存手法と比較して,少ない関数評価回数(NFE)で高い性能を発揮し,行動サンプリングの遅延を75.4%削減した。
- 実ロボット実験では,平均成功率83.0%を達成し,MIPやπ_{0.5}を大きく上回る成果を得た。
群衆の叡智と高次の信念 [econ.TH, cs.GT]目的:未知の状態に関する情報集約
- 社会現象や意思決定において,集団の知識を活用することの重要性が認識されている。
- 個々のエージェントの情報構造を把握せずに,正確な情報を集約することが困難である。
- 情報構造を必要とせず,エージェントの信念を集約し真の状態を推測すること。
- 提案手法PMBAは,大規模な集団において,信念の誤りがある場合でも真の状態を確率的に推定できる。
- PMBAは線形回帰手続きとして再解釈でき,既存の線形モデルの結果を応用できる。
- 実験の結果,PMBAは既存の手法よりも現実的な性能が高いことが示された。
前立腺癌グレード分類における分布シフト下での計算病理基盤モデルの評価 [physics.class-ph, cs.RO, math-ph, math.MP, eess.IV, cs.CV, cs.LG]目的:前立腺癌のグレード分類における計算病理基盤モデルの頑健性
- 病理診断の精度向上は,患者の予後予測や適切な治療選択に不可欠である。
- 計算病理モデルは,データ収集場所やラベル分布の変化に弱いという課題がある。
- 分布シフト下での計算病理基盤モデルの性能評価と改善を目指す。
- 計算病理基盤モデルは,自然画像モデルと比較して高い性能を示す。
- データ収集場所が異なると,モデルの性能は大幅に低下し,大規模な事前学習だけでは汎化性能が保証されない。
- ラベル分布の変化に対しては比較的ロバストだが,画像の外観のシフトが主要な課題である。
BERT-APC:音楽的文脈推論による自動ピッチ補正のための参照不要フレームワーク [eess.AS, cs.AI, cs.SD]目的:自動ピッチ補正の性能向上
- ボーカル録音の品質向上は,音楽制作において不可欠である。多くの楽曲制作に必須技術と言える。
- 従来の自動ピッチ補正システムは,参照音源に依存するか,自然さを損なう場合がある。
- 音楽的文脈を考慮することで,参照音源なしに自然で表現力豊かなピッチ補正を実現すること。
- 提案手法BERT-APCは,既存の歌声トランスクリプションモデルと比較して,高いピッチ予測精度を示した。
- 特に,音程が大きくずれたサンプルにおいて,ROSVOTを10.49%ポイント上回る結果が得られた。
- MOSテストでは,Auto-TuneやMelodyneよりも高い品質評価(4.32±0.15)を獲得し,表現力も維持されていることが確認された。
AQUA-Bench:音声質疑応答における答えがない場合の認識 [eess.AS, cs.AI, cs.CL, cs.LG, cs.SD]目的:音声質疑応答における,答えが存在しない状況の評価
- 音声と言語の理解は,人間と機械の自然な対話を可能にする上で不可欠である。
- 既存の評価基準は答えられる質問に偏っており,答えられない質問への対応が不十分である。
- 音声情報から答えを推論できない状況を評価し,モデルの信頼性を向上させる。
- AQUA-Benchは,答えがない状況を,答えの欠如,選択肢の不適合,質問と音声の不適合の3つのシナリオで評価する。
- 実験の結果,既存モデルは答えられる質問には優れているものの,答えられない質問には課題があることが示された。
- AQUA-Benchは,より堅牢で信頼性の高い音声言語システムの開発を促進する厳格な評価尺度を提供する。
StrADiff:線形および非線形盲源分離のための構造化されたソースごとの適応拡散フレームワーク [stat.ML, cs.LG, cs.SD]目的:線形および非線形混合下における,教師なし盲源分離のためのフレームワーク
- 信号処理の分野において,混合信号から独立な成分を分離する技術は,音声認識や画像解析などに応用されており重要である。
- 従来の盲源分離技術は,分離性能が混合の非線形性に大きく依存し,複雑な混合環境下では十分な性能を発揮できない場合がある。
- この研究は,非線形混合下においても安定した性能を発揮する,新たな盲源分離フレームワークを提案することで,その問題を解決することを目指す。
- StrADiffは,各潜在次元をソースブランチとして扱い,個別の適応的逆拡散メカニズムを割り当てることで,観測された混合から潜在ソースを直接回復する。
- 線形混合においては特に安定した性能を示し,非線形混合下でも性能劣化は軽微である。
- ソースブランチは,独立した説明変数の解釈が可能であり,構造化された潜在モデリングへの応用が期待される。
