arXiv雑要約
画像・音声 - 2026/05/19 公開
ア adjoint Matching の強化:拡散モデルとフローマッチングモデルのポストトレーニングにおける強化学習のスケールアップ [cs.LG, cs.CV]目的:拡散モデルとフローマッチングモデルのポストトレーニングにおける強化学習の効率的なスケールアップ
- 拡散モデルやフローマッチングモデルは,画像生成などの分野で目覚ましい成果を上げており,その重要性は増している。
- 従来の強化学習によるポストトレーニングは,計算コストが高く,事前学習の構造を損なう問題があった。
- 報酬関数を用いたターゲットの修正を通じて,事前学習の構造を維持しつつ,ポストトレーニングの効率を向上させる。
- 本研究では,Reinforce Adjoint Matching (RAM) という新しい損失関数を提案し,SDEロールアウトや報酬勾配を必要とせずに,効率的な学習を実現した。
- Stable Diffusion 3.5Mを用いた実験の結果,RAMはコンポジション,テキストレンダリング,人間の好みの点で最高の報酬を達成し,Flow-GRPOのピーク報酬に匹敵する性能を示した。
- RAMは,従来のFlow-GRPOと比較して,最大で50倍少ない学習ステップ数で同等の性能を達成可能であることが示された。
潜在的後方サンプリングによる3D構造予測 [cs.CV, cs.LG]目的:3Dシーンの潜在変数を用いた3D構造予測手法
- 2D画像生成モデルや3Dシーンのニューラルフィールド表現の進展により,両者の統合が期待されている。
- 3D再構成には不確実性が伴うため,それを適切にモデル化することが課題である。
- 拡散モデルを用いた後方サンプリングにより,観測データからの3D構造予測における不確実性を考慮する。
- 本手法は,単一視点,複数視点,ノイズ画像,疎なピクセル,疎な深度データなど,多様な観測データから3D構造を正確に予測可能である。
- 拡散モデルとボリューメトリックレンダリングを組み合わせることで,観測データの情報量に応じた不確実性をモデル化できる。
- 3D再構成モデルと潜在変数の事前分布を段階的に学習することで,高精度な3D構造予測を実現した。
Hi-GaTA:手術ビデオレポート生成のための階層的ゲート時系列集約アダプター [cs.CV]目的:手術ビデオレポート生成のための知見
- 手術の質向上には,客観的な評価と記録が不可欠である。ビデオ記録はその手段となり得る。
- 手術ビデオと自然言語を対応付けることは難しく,質の高いデータセットも不足している。
- 手術ビデオから自動で高品質なレポートを生成する手法を開発し,医師の負担を軽減する。
- 本研究では,214件の手術ビデオと評価レポートからなるベンチマークデータセットを構築した。
- Hi-GaTAという軽量な時系列アダプターを提案し,長時間のビデオをLLMが扱えるコンパクトな表現に変換した。
- 実験の結果,提案手法は既存の最先端手法を上回り,一貫した性能向上を示した。
スクリブルによる線量予測:放射線治療における線量予測 [cs.CV]目的:放射線治療における線量予測のためのスクリブルによるガイダンス
- 放射線治療において,正確な線量予測は治療効果と副作用の軽減に不可欠である。
- 従来の臓器輪郭の描画には時間と労力がかかるため,効率的な線量予測方法が求められている。
- 本研究は,少ないスクリブル情報から高精度な線量予測を可能にすることを目指す。
- 提案手法は,スクリブルから高精度な臓器マスクを生成し,線量予測の精度を向上させる。
- 従来の線量予測方法と比較して,アノテーションコストを大幅に削減することが示された。
- GDP-HMMデータセットを用いた実験により,提案手法の有効性が確認された。
視覚言語行動モデルにおける動的実行コミットメント [cs.CV]目的:視覚言語行動モデルにおける動的な実行コミットメント戦略
- 視覚言語行動モデルは,現実世界でのタスク実行において重要な役割を担う。
- 従来の固定された実行ホライズンは,予測の信頼性の状態依存性を無視しており,動的な状況下で性能が不安定となる。
- 予測の信頼性に応じて実行ホライズンを適応的に調整し,よりロバストで効率的な実行を目指す。
- A3は,自己推測的なプレフィックス検証問題として動的実行コミットメントを再構築する。
- A3は,グループサンプリングによるアクションの合意スコアを計算し,一貫性の高い下位アクションを検証することで,ロバスト性を向上させる。
- A3は,手動でのホライズン調整を不要にし,実行のロバスト性と推論スループットの間の優れたトレードオフを実現する。
プロトタイプに基づく意味的部品発見による耐候性のあるクロスビュージオロケーション [cs.CV, cs.AI, cs.RO]目的:クロスビュージオロケーションのロバスト性向上
- GNSS利用困難な環境下での自律ドローンナビゲーションにおいて,代替手段として重要性が増している。
- 既存手法では,視点間のギャップにおけるレイアウトとテクスチャの分離が不十分である。
- 学習された埋め込み表現における高度変化の影響を軽減し,ロバスト性を高めることを目指す。
- 提案手法SkyPartは,軽量かつ交換可能なヘッドとして,パッチベースのViTに組み込むことができる。
- SUES-200,University-1652,DenseUAVのデータセットで最先端の性能を達成した。
- 特に,10種類の気象条件によるWeatherPromptベンチマークにおいて,既存手法との差が顕著に拡大した。
継続 Few-Shot 学習における構成的汎化の解明 [cs.LG, cs.CV]目的:継続 Few-Shot 学習における構成的汎化能力の向上
- Few-Shot 学習は,限られたデータから新たな概念を学習する上で重要であり,実用的な応用範囲が広い。
- 従来の継続学習では,表現が既知のパターンに縛られ,真に新しい概念への汎化が困難である。
- 表現学習と構成的推論を厳密に分離することで,新しい概念への転移能力を高めることを目指す。
- 自己教師あり Vision Transformer (ViT) の持つパッチレベルのセマンティック幾何学性を活用した二段階戦略を提案した。
- 訓練時は,スロット表現を全体的なクラス識別に向けて最適化し,汎用性の高いオブジェクトレベルの幾何学性を維持する。
- 推論時は,保存されたスロットを動的に構成し,新しいシーンに適合させることで,未学習概念の汎化性能を向上させた。
重要なものを見る:汎化性のある視覚言語行動モデルのための微分可能グリッドサンプルプルーニング [cs.RO, cs.CV]目的:視覚言語行動モデルの圧縮による高速化
- ロボット工学における行動計画において,視覚,言語,行動の統合が重要視されている。
- 既存のトークンプルーニング法では,圧縮率と性能維持のトレードオフが存在する。
- 視覚エンコーダにおける幾何学的な情報を考慮した連続的なトークン再サンプリングにより,この問題を解決する。
- 提案手法GridSは,微分可能な補間により,重要な空間情報を保持しながら大幅な圧縮を実現した。
- LIBEROベンチマークおよび実ロボット実験により,GridSが成功率を損なうことなくFLOPsを76%削減することが示された。
- GridSは,これまでに報告された中で最も低い視覚トークン数で検証されている。
h制御:ブロック条件付きギブス洗練による学習不要のカメラ制御 [cs.CL, cs.CV]目的:事前学習済みのフローマッチング動画生成器に対する学習不要のカメラ制御
- 動画生成技術は,エンターテインメントから科学シミュレーションまで幅広い分野で重要性が増している。
- 既存手法は,軌道追従と視覚的品質のバランスが難しく,ガイダンス強度の調整が難しいという課題がある。
- 部分観測逆問題を解決し,高品質で安定したカメラ制御を実現することを目的とする。
- 提案手法h制御は,サンプラーにブロック条件付きギブス洗練を導入することで,この課題を解決する。
- RealEstate10KとDAVISにおいて,既存の学習不要および学習ベースの手法と比較して,最高のFVDスコアを達成した。
- 3Dパッチ分割と混合指標を活用することで,高次元の動画潜在空間における収束を加速している。
異種マルチビューデータからの部分空間保持スパース注意グラフ学習 [cs.CV]目的:異種マルチビューデータからの部分空間構造を保持するスパース注意グラフの学習
- 大規模データから抽出される高次元特徴は多様であり,それらを活用した学習が重要である。
- 既存手法では,複数のビュー間の補完情報を活用する際に,内在する部分空間構造を正確に復元できない。
- 異種ビュー間のセマンティックアラインメントを達成するために,部分空間構造を保持するスパース類似グラフを構築する。
- 本研究では,非対称な類似性を捉える二項注意分解スキームと,動的なスパースゲーティングメカニズムを導入した。
- α-entmaxによる構造化スパース射影を用いて,個々のビューに対する部分空間保持スパース注意グラフを生成する。
- 提案手法SAGLは,複数のベンチマークデータセットにおいて,最先端の教師なし転移学習手法を凌駕する性能を示す。
全方位画像における視点条件付き空間推論の包括的診断:MLLMの限界を超える [cs.CV]目的:視点条件付き空間推論(PCSR)の診断
- MLLMの性能向上には,視覚情報と言語情報を統合した空間推論能力が不可欠である。
- MLLMは視覚認識に優れるものの,視点の変化に対する空間推論に課題を抱えている。
- 全方位画像を用いたPCSR-Benchにより,MLLMの空間推論能力のボトルネックを特定し,改善の余地を示す。
- PCSR-Benchは,26の室内環境における84,373問の質問と回答のペアで構成される診断ベンチマークである。
- 14の代表的なMLLMを評価した結果,基礎的な相対的な方向推定では精度が57.59%に達する一方で,自己中心的回転では13.49%に低下し,歪みでは7.13%,複雑な推論では0.64%に留まった。
- 7Bモデルに対する強化学習実験では,報酬設計によって性能が31.10%から60.06%に向上し,PCSRは完全に不変ではないことが示唆された。
将来指向型コントラストと反発による継続パノラマセグメンテーション [cs.PF, cs.CV]目的:継続パノラマセグメンテーションにおける新しいカテゴリへの迅速な適応
- 画像認識技術の発展は,現実世界の複雑なシーン理解に不可欠である。
- 継続学習において,未知のオブジェクトが背景として扱われ,識別が困難になる。
- 背景領域の表現構造を再構築し,将来のカテゴリのための表現空間を確保すること。
- FuTCRは,背景と予測される領域をグループ化し,一貫性のあるプロトタイプを構築する。
- 未知クラスの特徴量を既存クラスから反発させ,表現空間を明示的に予約する。
- 6つの継続パノラマセグメンテーション設定で,最先端手法と比較して新規クラスの品質を最大28%向上させた。
A$_3$B$_2$: 少数ショット学習における視覚言語画像分類のブランチバイアス軽減のための適応的非対称アダプター [cs.CV, cs.LG]目的:視覚言語モデルにおける少数ショット画像分類のブランチバイアス軽減
- 大規模視覚言語モデルの効率的な転移学習は強力な少数ショット転移を可能にする重要な技術である。
- 既存の適応手法は画像とテキストブランチの重要性を均一と仮定しており,その妥当性に関する系統的な研究が不足している。
- 分布外設定下における画像エンコーダの適応が必ずしも性能向上に繋がらないブランチバイアス問題を解決する。
- 提案手法A$_3$B$_2$は,予測不確実性が高い場合に画像ブランチの適応を自動的に抑制するUncertainty-Aware Adapter Dampening (UAAD)を導入する。
- A$_3$B$_2$は軽量な非対称設計を採用しており,11の競争的なベースラインと比較して一貫して優れた性能を示す。
- 3つの少数ショット画像分類タスクと11のデータセットにおける実験により,A$_3$B$_2$の有効性が確認された。
KamonBench:ビジョン言語モデルにおける構成的要素復元評価のための文法ベースのデータセット [cs.CV, cs.LG]目的:ビジョン言語モデルにおける構成的要素復元の評価
- 視覚認識の分野において,構成要素の組み合わせによる複雑なパターン理解は重要な課題である。
- 既存のデータセットでは,構成要素間の関係性を明示的に評価することが困難であった。
- 本研究では,構成要素の組み合わせに基づいた視覚認識能力を詳細に評価するためのデータセットを構築する。
- KamonBenchは,2万個の合成家紋と,家紋記述言語,日本語分析,英語翻訳,プログラムコードを含む。
- このデータセットを用いることで,キャプションレベルの精度だけでなく,構成要素の復元能力を直接評価できる。
- ViTエンコーダー/TransformerデコーダーとVGG n-gramデコーダーを用いたベースライン実験の結果も示されている。
CurveBench:ネストされたジョルダン曲線に対する厳密なトポロジー推論のためのベンチマーク [cs.CV, cs.LG]目的:視覚入力からの階層的トポロジー推論
- 画像認識の分野において,空間的関係の理解は重要な課題である。
- 既存手法では,複雑な曲線構造における包含関係の正確な把握が困難である。
- 曲線間のトポロジー的関係を正確に推論するための評価基準を確立すること。
- CurveBenchは,ジョルダン曲線の包含関係を表現する木構造の生成を評価するベンチマークである。
- Gemini 3.1 Proなどの高性能モデルでも,ベンチマークの難易度が高い。
- Qwen3-VL-8Bをファインチューニングすることで,CurveBench-Easyの精度が大幅に向上し,GPT-5.4やClaude Opus 4.5を上回る結果が得られた。
産業用画像検査のためのアーキテクチャを考慮した説明監査 [cs.LG, cs.CV]目的:深層分類器の説明の信頼性評価プロトコル
- 産業用画像検査において,深層学習の活用が進む中で,説明の質の確保が重要となる。
- 既存の説明手法は,視覚的に妥当に見えても,モデルの判断に寄与する領域を特定できていない場合がある。
- モデルのアーキテクチャと説明手法の適合性を評価し,信頼性の高い説明手法を特定すること。
- ViT-Tiny + Attention Rolloutは,Swin-Tiny / ResNet18+CBAM / DenseNet121 + Grad-CAMと比較して,Deletion AUCにおいて高い性能を示した。
- Swin-Tinyは,Transformerアーキテクチャでありながら,Grad-CAMとの互換性を示し,読み出し構造が重要な要因であることを示唆した。
- モデルに依存しない制御群(RISE)は,全てのモデルで低いDeletion AUCを示し,説明経路の重要性が示唆された。
デルタ強制:インタラクティブな自己回帰型ビデオ生成のためのトラスト領域ステアリング [cs.CV, cs.GR, cs.MM]目的:インタラクティブな自己回帰型ビデオ生成における反応性と安定性のバランス
- コンテンツ生成やワールドモデリングなど,動的に変化する状況への適応が求められる。
- 既存手法では,条件変化後にドリフトが残り,長期的な一貫性を維持しにくい。
- 教師データの信頼性の低い影響を抑制し,イベントへの応答性を維持すること。
- デルタ強制は,教師と生成器の軌跡間の潜在的な差分の一貫性からトラスト領域を適応的に決定する。
- 教師の監督を信頼性の低いものに限定することで,局所的に有効だがグローバルには矛盾するモードへの偏りを抑制する。
- 実験結果から,デルタ強制は一貫性を大幅に向上させつつ,イベントへの反応性を維持することが示された。
合成画像検索ベンチマークはマルチモーダルな合成を必要とするか [cs.SI, math.OC, cs.CV, cs.CL]目的:合成画像検索におけるモデルの能力評価
- 画像とテキストを組み合わせるマルチモーダルな技術は,AI研究において重要な役割を担っている。
- 既存の合成画像検索ベンチマークが,真のマルチモーダルな合成能力を適切に評価しているか不明である。
- ベンチマークの妥当性を検証し,モデルのマルチモーダル合成能力を正確に評価することを目指す。
- 既存の合成画像検索ベンチマークにおいて,多くのクエリは単一のモダリティのみで解決可能であることが示された。
- ベンチマークに含まれるクエリは,ショートカットで解決可能なもの,ノイズが多いもの,真に合成が必要なもののごちゃ混ぜであることが判明した。
- 妥当性の検証されたクエリセットでは,マルチモーダル情報への依存度が高まり,モデルの挙動が変化した。
FactorizedHMR:ビデオにおける人体メッシュ復元のハイブリッドフレームワーク [cs.CV, cs.AI]目的:ビデオからの人体メッシュ復元における精度向上
- コンピュータビジョン分野において,人体の3次元構造を正確に把握することは,行動認識や人間とのインタラクションにおいて重要である。
- ビデオからの人体メッシュ復元は,遮蔽や奥行き情報の不足により,曖昧な解釈が生じやすいという課題がある。
- 本研究では,トルソーと末端関節の曖昧さを分離し,よりロバストな復元を目指す。
- トルソーとルートの安定的な復元を優先し,確率的なフローマッチングを用いて残りの関節を補完する二段階フレームワークを提案した。
- 複合ターゲット表現,幾何学に基づいた教師あり学習,特徴量に基づいたclassifier-free guidanceを用いることで,遮蔽状況下での性能を向上させた。
- 多様な視点からの合成データパイプラインを導入し,カメラ空間およびワールド空間のベンチマークにおいて,良好な結果を得た。
SurgicalMamba:状態再構成によるオンライン手術段階認識のためのデュアルパスSSD [cs.CV, cs.AI]目的:オンライン手術段階認識の精度向上
- 手術室のコンテキストを理解したシステム構築に不可欠であり,医療の質向上に繋がる。
- 既存手法では,長時間の動画や非一様な時間経過,チャンネル間の強い相関に対応しきれない。
- 効率的な計算コストで,手術段階を正確かつリアルタイムに認識することを目指す。
- SurgicalMambaは,Mamba2のデュアルパスSSD構造を採用し,フレームごとの計算コストを抑止することに成功した。
- 7つの公開データセットで最先端の精度を達成し,特にCholec80では94.6%,AutoLaparoでは89.5%の認識率を記録した。
- 学習された回転平面は,手術ワークフローの解釈可能な内部表現を獲得し,段階に沿った構造を示した。
H-OmniStereo:ヘディングアラインド法線事前知識を用いたゼロショット全方位ステレオマッチング [cs.CL, cs.CV]目的:全方位ステレオマッチングの性能向上
- 全周視覚を実現する効果的な手法であり,進化したステレオ視差推定アーキテクチャの活用に繋がる。
- 全方位ステレオデータセットの不足と,球面歪みによる単眼視差推定の性能劣化が課題である。
- データセット拡張と,歪みに強い法線推定器の開発により,性能向上を目指す。
- 合成データセットを用いて学習を行い,既存手法と比較して高い精度を達成した。
- ヘディングアラインド座標系での法線推定器により,歪みに対するロバスト性と効率的な学習を実現した。
- 実環境のカメラ設定でも汎化性能を示し,単一モデルで対応可能であることを確認した。
Transformerを用いたラグランジュ粒子力学の統一的シミュレーション [cs.GR, cs.LG]目的:多様な物理現象のシミュレーション
- シミュレーション科学において,特定ソルバーに依存しない汎用的なシミュレータの実現が長年の課題である。
- 既存手法は,物理現象ごとにソルバーを設計する必要があり,柔軟性に欠ける。
- 単一のTransformerアーキテクチャで多様な物理現象をシミュレーションする手法を開発し,その問題を解決する。
- 提案手法は,布,弾性固体,ニュートン流体,非ニュートン流体,粒状材料,分子動力学といった多様な物理現象に適用可能である。
- 共有されたラグランジュ粒子表現に基づき,予測・修正デザインを採用することで,未見の材料や境界条件,初期条件,外部力に対しても汎化性能を示す。
- ダウンストリームタスクとして,インタラクティブな制御,逆設計,実世界の操作データからの学習も可能であり,現象ごとのソルバーエンジニアリングの必要性を低減する。
多数クラスに対する相補的ラベル学習のための偏った遷移行列の活用 [cs.LG, cs.AI, cs.CV]目的:多数クラス相補的ラベル学習における性能向上
- 弱教師あり学習は,ラベル付けコストを削減し,実用的な応用を可能にする重要な手法である。
- 従来の相補的ラベル学習法は,大規模なラベル空間への拡張が困難であり,10クラス程度の分類に限定されてきた。
- 本研究は,偏ったラベル生成プロセスを導入することで,多数クラス環境下での学習信号の希薄化問題を解決することを目指す。
- 提案手法であるBICLは,CIFAR-100とTinyImageNet-200において,従来手法と比較して7倍以上の精度向上を達成した。
- BICLは,データ収集から学習までの一貫したフレームワークを通じて,偏りを活用することで効果的な学習を可能にする。
- 本研究は,実世界アプリケーションにおける多数クラス相補的ラベル学習の実現に向けた新たな道筋を示す。
UAM:VLA学習における忘却に関する二重ストリームの視点 [cs.CV, cs.AI]目的:VLA学習における忘却現象とその改善策
- 視覚と言語,行動を統合するVLAモデルは,ロボット工学や人間-ロボットインタラクションにおいて重要な役割を担う。
- VLA学習時に,事前学習済みVLMの持つ多Modal能力が低下するという「具現化税」の問題が存在する。
- 脳の視覚経路に着想を得た新たなアーキテクチャUAMにより,VLMの能力を維持しつつ,行動学習を可能にすることを目指す。
- UAMは,VLMの多Modal能力を95%以上維持しながら,様々な操作タスクにおいて既存モデルを上回る成功率を達成した。
- アーキテクチャの分離により,VLMの知識を凍結したり,補助データを用いることなく,多Modal能力の維持が可能となった。
- UAMの結果は,VLMの持つ意味的理解能力が,行動学習においても一般化性能に貢献することを示唆している。
VLMにおける高密度メトリック深度推定の解禁 [cs.CL, cs.CV]目的:VLMにおける高密度な深度推定手法
- 画像と言語の理解はAIの重要な課題であり,3次元空間の理解はより高度な応用を可能にする。
- 既存のVLMは2次元タスクに優れる一方,3次元理解は限定的であり,詳細な視覚認識が困難である。
- VLMの能力を拡張し,高精度で効率的な3次元深度推定を実現することを目指す。
- DepthVLMは,軽量な深度ヘッドをLLMに追加し,統一的な視覚-テキストによる学習を行うことで,高解像度の深度マップを生成する。
- 既存のVLMを大幅に上回り,純粋な画像認識モデルよりも優れた性能を発揮し,推論効率も高い。
- 複雑な3次元空間推論能力を向上させ,真に統合された基盤モデルへの道を開く。
心臓拡散強調画像の高解像度参照画像支援ボリューム超解像 [eess.IV, cs.CV]目的:心臓拡散強調画像におけるボリューム超解像の実現
- 心臓の微細構造は機能と密接に関連しており,非侵襲的な評価が重要である。
- 拡散強調画像はSN比が低く,微細構造評価に適したボクセルサイズを得るのが困難である。
- 高解像度参照画像を用いた深層学習により,拡散強調画像の品質向上を目指す。
- 提案手法は,高解像度参照画像を入力とすることで,超解像画像の品質を向上させることを示した。
- 本モデルは,未知のb値の拡散強調画像も超解像可能であり,汎用性も確認された。
- 参照画像を付加した学習・推論が,パラメトリックイメージングの超解像フレームワークに有効である。
量子コンピュータにおける不完全情報ゲーム:スカットにおける事例研究 [quant-ph, cs.ET, cs.GT]目的:不完全情報ゲームにおける量子コンピュータの応用可能性の検証
- 組み合わせ最適化問題への量子コンピュータの応用が注目されており,古典コンピュータでは困難な計算の高速化が期待される。
- 不完全情報ゲームは,探索空間が巨大であり,古典コンピュータでの最適な戦略決定が困難である。
- 量子アルゴリズムを用いてスカットのような不完全情報ゲームの最適な戦略を探索し,古典コンピュータでは困難な計算の量子優位性を示す。
- 量子コンピュータを用いてゲームの状態を量子レジスタにエンコードし,量子ゲートを用いてゲームの進行をモデル化した。
- スコア演算子を用いて量子状態を勝利部分空間に投影し,各選択肢の勝利確率を評価することで,古典コンピュータでは困難な高速な計算を試みた。
- ペイオフ関数の最大化を通じて,プレイヤーに対する合理的な推奨行動を得ることができた。問題規模が大きくなるにつれて量子優位性が発揮される可能性を示唆した。
動物胚の細胞段階分類のための教師あり対照学習 [q-bio.QM, cs.CV]目的:動物胚の細胞段階分類
- 体外受精胚の発育研究において,機械学習とビデオ顕微鏡の組み合わせは有望である。
- 細胞分裂等の発生イベントのアノテーションは時間と労力を要し,実用的な規模での適用が困難である。
- 2D時間経過顕微鏡動画から深層学習を用いて細胞段階を自動分類し,その問題を解決する。
- 提案手法CLEmbryoは,教師あり対照学習と焦点損失関数を組み合わせることで,高精度な細胞段階分類を実現した。
- 特に,低画質画像や暗い細胞,クラスの曖昧さ,不均衡なデータ分布といった課題に対して有効であることが示された。
- Bovine ECSデータセットおよびNYUマウス胚データセットにおいて,最先端手法を上回る性能を達成した。
シームレスエディット:文脈に応じた音声強調によるゼロショット音声編集(背景雑音対応) [eess.AS, cs.SD]目的:騒音環境下におけるゼロショット音声編集手法
- 近年の音声合成技術の発展により,実音声と区別がつかない高品質な音声生成が可能となっている。
- 既存の研究はクリーンな音声環境を前提としており,現実の雑音環境下での性能劣化が課題である。
- 背景雑音と音声帯域が重なる状況でも,音声編集の品質を維持することを目的とする。
- 提案手法SeamlessEditは,周波数帯域を考慮した雑音除去モジュールと文脈に応じた音声強調戦略を採用している。
- SeamlessEditは,既存の最先端手法と比較して,定量評価および主観評価の両方で優れた性能を示した。
- 本研究は,現実的な雑音環境下での音声編集の信頼性を高める上で貢献する。
軽量な物理モデルに基づいたゼロショット超音波平面波ノイズ除去 [eess.IV, cs.CV]目的:超音波コヒーレント平面波合成像におけるノイズ除去
- 超音波画像は医療診断において不可欠であり,高画質化は臨床的有用性を向上させる。
- 超音波画像はノイズの影響を受けやすく,特に平面波合成像では画質とフレームレートのトレードオフが存在する。
- 外部データセットを用いず,テストサンプルのみで学習可能なノイズ除去手法を開発し,画質とフレームレートの両立を目指す。
- 提案手法は,異なる角度依存性を持つ合成画像を擬似ペアとして活用し,自己教師あり学習により軽量な畳み込みニューラルネットワークを訓練する。
- これにより,組織構造の情報をノイズやアーチファクトから分離し,ドメイン固有の調整やペアデータセットを必要としない適応性の高いノイズ除去を実現する。
- 本フレームワークは,わずか2つの畳み込み層で構成されており,高速かつ計算コストの低い学習を可能にする。
一貫性蒸留によるロバストなワンステップ音声強調 [eess.AS, cs.SD]目的:一貫性蒸留によるワンステップ音声強調モデルのロバスト性向上
- 音声強調は,様々な環境下での音声認識精度向上やコミュニケーション円滑化に不可欠である。
- 拡散モデルは高性能だが,多段階サンプリングのためリアルタイム処理が課題となっていた。
- 教師モデルのバイアスを軽減し,ノイズに対するロバスト性を高めることを目指す。
- 提案手法ROSE-CDは,ランダム化された学習軌跡によりノイズに対するロバスト性を向上させている。
- 時間領域の補助損失を導入することで,教師モデル由来のエラーからの復旧と性能向上を実現した。
- 30ステップの教師モデルと比較して,54倍の高速化と優れた性能をVoiceBank-DEMANDデータセットで示した。
局所学習された潜在拡散モデルを用いたドメイン適応による3D前立腺バイパラメトリックMRIデータ不足の軽減:前立腺がん検出への応用 [eess.IV, cs.CV]目的:前立腺がん検出のための潜在拡散モデルによる3DバイパラメトリックMRI生成
- 医療画像解析における機械学習の発展には大量のデータが不可欠であり,特に希少疾患や個人情報保護の観点からデータ収集が困難な場合がある。
- 医療画像データは,施設間やプロトコルによる違い(ドメインシフト)が存在し,異なるデータセット間でのモデルの汎化性能が低下する課題がある。
- 本研究は,データ不足やドメインシフトの問題を克服し,少ないデータでも高い性能を発揮できる前立腺がん検出モデルの構築を目指す。
- CCELLA++は,CCELLAと同等のAxT2カーネルインセプション距離を達成した(それぞれ0.0128,0.0131)。
- CCELLA++による合成bpMRIでの事前学習は,外部データセット(最大166サンプル)の少ない場合,実データでの事前学習よりもAPとAUCで最大12.5%向上を示した(p<0.01)。
- CCELLA++は,データが少ない場合と十分な場合の両方において,CCELLAによるAxT2のみでの事前学習よりも優れていた(p<0.001 APとAUC, p<0.05 APとAUC)。
発言を続けるタスク:音声モデルのバイアスを調査する手段 [eess.AS, cs.CL, cs.SD]目的:音声モデルにおけるバイアスの評価
- 音声技術の社会的な影響が大きいため,公平性と包容性を確保することが重要である。
- 既存の音声モデルは,性別や発声タイプなどの要因においてバイアスを含む可能性がある。
- 発言を続けるタスクを用いて,音声モデルのバイアスを系統的に評価し,その傾向を明らかにする。
- 発言を続けるタスクにおいて,モデルと性別間の相互作用がテキスト指標(主体性,文の極性)に影響を与えることが示された。
- 女性の発話プロンプトからの継続は,男性のものよりもモーダル発声に強く回帰する傾向があり,発声品質のバイアスが明らかになった。
- 発言を続けるタスクは,音声モデルにおける社会的に重要な表現バイアスの制御された評価手段として有効であることが示唆された。
適応二相ルディン-オッシャー-ファテミ去ノイズモデル [eess.IV, cs.CV, cs.NA, math.NA]目的:適応二相ルディン-オッシャー-ファテミ去ノイズモデルの提案
- 画像処理分野において,ノイズ除去は高品質な画像を得る上で不可欠な技術である。
- 古典的なROFモデルは階段状アーチファクトを起こしやすく,改善が求められていた。
- 本研究は,ROFモデルの階段状アーチファクトを抑制しつつ,エッジ保持性能を維持することを目的とする。
- 提案モデルは,ROFモデルと比較して,階段状アーチファクトを視覚的に低減することに成功した。
- SSIM,PSNR,LPIPSといった類似度指標において,既存モデルと同等以上の性能を示した。
- 二相型積分関数に基づく正則化項の導入により,ノイズ除去とエッジ保持のバランスが改善された。
SAMRI:あらゆるMRIセグメンテーション [physics.soc-ph, cs.CY, cs.SI, eess.IV, cs.CV]目的:MRI画像全領域のセグメンテーション性能向上
- MRIは疾患診断に不可欠だが,正確な画像セグメンテーションは時間と労力を要する。
- 既存のセグメンテーションモデルはMRI特有の課題(コントラスト,不均一性)に対応できていない。
- 臨床的に重要な小さな構造物のセグメンテーション精度を向上させる。
- SAMRIは,ボックスとポイントプロンプトを用いたMRI全領域セグメンテーションにおいて,既存モデルMedSAMを大幅に上回る性能を示した。
- 特に,小さい構造物と中程度の構造物において,それぞれ42.4%と26.9%の改善が見られた(p < 0.05)。
- 大規模なMRIデータセットでファインチューニングされたデコーダーのみのモデルは,強力なゼロショット汎化能力を発揮する。
機械学習を活用した粒子系複合材料のグラフ解析:全固体電池カソードへの応用 [cond-mat.mtrl-sci, cs.CV]目的:粒子系複合材料のグラフ表現による,局所的な微細構造と物性の関係性の解明
- 多相系複合材料は,様々な固体化学・電気化学システムにおいて重要な役割を担う。
- X線顕微鏡の進歩によりデータ取得は可能になったが,そこから物理的知見を得ることは困難である。
- 機械学習を用いたグラフ解析により,微細構造と性能の関係を明らかにし,材料設計を支援する。
- 機械学習により,実験的な多相画像からスケーラブルなトポロジーを考慮したグラフを自動生成する手法を開発した。
- 全固体リチウム電池カソードの解析において,三相接合部の重要性とイオン/電子伝導経路の相乗効果が確認された。
- グラフに基づく微細構造表現は,実験的イメージングと機能的理解を結びつける強力な手段となりうる。
任意の畳み込み辞書に対する空間適応的なスパース度マップ学習 [eess.IV, cs.CV, cs.LG, math.OC]目的:畳み込み辞書に対する空間適応的なスパース度マップ
- 画像処理において,高画質化やノイズ除去は重要な課題であり,効率的な表現方法が求められている。
- 従来の学習に基づく再構成法は,解釈性やロバスト性に課題があり,ブラックボックス化しやすい。
- データ駆動型情報をモデルベースの畳み込み辞書正則化に組み込むことで,解釈性とロバスト性の向上を目指す。
- 提案手法は,フィルタ置換に対する不変性を獲得し,推論時に畳み込み辞書を変更可能となった。
- 低磁場MRIへの応用実験において,他の深層学習法と比較して良好な結果が得られた。
- 分布外データに対するテストでは,学習データへの依存が少ないため,他の学習法よりもロバストであることが示された。
因果性の隠蔽と条件付き依存 [stat.ML, cs.AI, cs.GT, cs.LG, cs.SI]目的:禁止変数による意思決定への影響の許容可能な経路の特定
- 公平性,情報管理,不正取引防止など,規制と分析において重要な課題である。
- 層ごとの要件と平均的な制約との間に乖離が生じ,規制の有効性が損なわれる可能性がある。
- 平均的な制約による規制の限界を明らかにし,意思決定ルール自体の制御の必要性を示す。
- 平均制約による最適化は,層ごとの要件を満たさずに平均制約を正確に満たす政策を生み出すことが多い。
- 隠蔽による利益は交絡や結果の異質性とともに増加し,検出には条件付き独立性テストが不可欠となる。
- 隠蔽されたポリシーは制約なしの活用とほぼ同等の報酬を得ながら,検出が困難である。
知覚的注意ネットワークを用いたリアルな臨床的低線量肝臓CTの教師なしノイズ除去 [math.OC, cs.SY, eess.SY, eess.IV, cs.AI, cs.CV]目的:低線量CT画像のノイズ除去
- 医療画像処理は臨床研究を支援する重要な技術であり,診断精度向上に貢献する。
- 低線量CTは被ばく量を減らせるが,ノイズが増加し,医師の診断を妨げる可能性がある。
- 臨床データを用いた教師なし学習で,低線量CT画像の高品質化を目指す。
- 提案手法は,U-Net,注意機構,残差ネットワークを組み合わせたフレームワークである。
- 知覚的損失を用いることで,医療画像の特徴を考慮したノイズ除去を実現した。
- 実際の臨床データを用いた実験で,従来の古典的手法を上回る性能を実証した。
