arXiv雑要約

画像・音声 - 2026/03/10 公開

  • iGVLM:質問対応マルチモーダル理解のための動的指示駆動型視覚エンコーディング [cs.CV, cs.AI]目的:質問応答能力の向上を目指した視覚エンコーディングの新しいフレームワーク
    • 近年,画像とテキストを同時に処理するモデルが発展している。より高度な推論能力が求められている。
    • 既存モデルは,視覚情報を静的に処理するため,指示内容に応じた柔軟な推論が困難である。
    • 指示内容に応じて視覚情報を動的に調整し,より詳細な推論を可能にすることを目指す。
    • iGVLMは,事前に学習された視覚情報を維持しつつ,指示に基づいて視覚特徴を動的に調整する二分岐構造を採用している。
    • これにより,汎用的な視覚認識から指示に基づいた推論へのスムーズな移行が可能となる。
    • 多様な言語モデルにおいて,iGVLMが指示に対する感度を向上させることが実験的に示された。

    Link: https://arxiv.org/abs/2603.02748

  • 複数のアライメントと学習時融合による画像とテキストの統合 [cs.CV, cs.AI]目的:画像とテキスト表現の統合
    • 画像認識の性能向上には,画像とテキスト間の関連性を理解することが重要である。
    • 既存手法では,画像とテキストが完全に統合されず,モダリティ間の分離が残存する。
    • モダリティ間のギャップを解消し,より構造化された表現を獲得すること。
    • ITOは,多様な画像とテキストの対応関係を抽出する複数アライメントと,学習時にクロスモーダルな相互作用を強化する融合モジュールを用いる。
    • 実験結果から,ITOは分類,検索,マルチモーダルベンチマークにおいて,既存手法を上回る性能を示す。
    • 複数アライメントが識別能力を高め,学習時融合が構造的な正則化として機能し,早期飽和を防ぐことが明らかになった。

    Link: https://arxiv.org/abs/2603.02767

  • 解釈可能なモーションアテンションマップ:ビデオ拡散Transformerにおける概念の時空間的局在化 [cs.CV, cs.AI, cs.LG]目的:ビデオ拡散Transformerにおけるモーションワードからビデオへの変換メカニズムの解明
    • ビデオ生成技術は,テキストから高品質な動画を生成する上で重要性が増している。
    • 既存研究では,オブジェクトの顕著性マップは存在するが,動画におけるモーションに着目した研究は不足している。
    • モーション概念に対応するオブジェクトの動きがいつ,どこで発生するかを特定し,解釈可能性を高める。
    • 提案手法GramColは,モーションと非モーションの両概念に対し,フレーム単位の顕著性マップを適応的に生成する。
    • IMAP(解釈可能なモーションアテンションマップ)は,モーションを時空間的に局在化し,概念の顕著性マップを明らかにする。
    • 実験的に,モーション局在化タスクとゼロショット動画セマンティックセグメンテーションで高い性能を示し,解釈可能な顕著性マップを提供した。

    Link: https://arxiv.org/abs/2603.02919

  • CGL:強化学習による微調整を通じた継続的なGUI学習の進展 [cs.LG, cs.CV]目的:GUI継続学習における適応効率とスキル保持のバランス
    • GUIエージェントは近年の進歩により目覚ましい発展を遂げているため,その活用が期待されている。
    • GUIアプリケーションの頻繁な更新により,古いタスクを忘却することなく新しいタスクに適応することが課題である。
    • 知識の上書きを防ぎつつ,GUIアプリケーションの変化に追従できる学習手法を確立することを目指す。
    • 提案手法CGLは,SFTとRLの相乗効果を高めることで,適応効率とスキル保持のバランスを動的に調整する。
    • SFTの割合調整機構と勾配手術戦略により,知識の忘却を抑制し,継続的な学習性能を向上させる。
    • AndroidControl-CLベンチマークを用いて,様々な継続学習シナリオにおけるCGLの有効性を実験的に示した。

    Link: https://arxiv.org/abs/2603.02951

  • ACES:自動音声認識における結合,説明,およびストレステストのためのアクセント部分空間 [cs.CY, cs.AR, cs.CL, cs.HC, cs.SD, cs.AI, eess.AS]目的:自動音声認識におけるアクセントごとの性能格差の構造的脆弱性の評価
    • 音声認識技術は多様なコミュニケーションを可能にする基盤であり,社会生活において不可欠である。
    • 既存の音声認識システムはアクセントによって性能に差が生じることが課題となっている。
    • アクセント情報が音声認識にどのように影響しているかを明らかにし,公平性を改善することを目指す。
    • アクセント部分空間に沿った微小な摂動によって,語彙誤り率の格差が約50%拡大することが示された。
    • アクセント部分空間を部分的に除去すると,語彙誤り率と格差が両方とも悪化し,アクセント情報と認識に重要な特徴が絡み合っていることが示唆された。
    • ACESは,アクセントの公平性を評価するための強力なツールとして位置づけられ,単純な除去以上の価値を持つことが示された。

    Link: https://arxiv.org/abs/2603.03359

  • LDPスライス:ランダム化されたビットプレーンスライスによる画像に対する局所的差分プライバシー [cs.NI, cs.CV]目的:画像に対する局所的差分プライバシーの実現
    • 機械学習におけるプライバシー保護は重要であり,特にデータソースレベルでのプライバシー保証が求められる。
    • 画像データは高次元であるため,従来の局所的差分プライバシーメカニズムの適用は実用的でないと考えられてきた。
    • 適切なデータ表現を用いることで,高次元画像データにおける局所的差分プライバシーのユーティリティ損失を軽減すること。
    • 本研究で提案するLDPスライスは,画像をビットプレーンに分解することで,局所的差分プライバシーメカニズムを適用可能にする。
    • 知覚的な情報漏洩を抑制するモジュールと,プライバシー予算の最適化戦略を組み込むことで,プライバシー保護とユーティリティのバランスを図る。
    • 顔認識や画像分類の実験により,既存のDP/LDPベースラインと比較して,同程度のプライバシー予算で優れた性能を示す。

    Link: https://arxiv.org/abs/2603.03711

  • ZipMap:テスト時学習による線形時間状態保持3D再構成 [cs.CL, cs.CV, cs.AI, cs.LG]目的:大規模画像コレクションにおける3D再構成の効率化
    • 3Dビジョンは,ロボティクスやAR/VRなど幅広い分野で重要性が高まっている。
    • 既存手法は計算コストが高く,大規模な画像セットへの適用が困難である。
    • テスト時学習により,高速かつ高精度な3D再構成を実現することを目指す。
    • ZipMapは,入力画像数に対して線形時間で3D再構成を可能にする状態保持モデルである。
    • VGGT等の既存手法と比較して,20倍以上の高速化を達成した。
    • シーン状態のリアルタイムクエリや,ストリーミング再構成への応用も示された。

    Link: https://arxiv.org/abs/2603.04385

  • 注視してから聴取:ノイズに強い大規模音声言語モデルのためのプラグアンドプレイ型音声強調器 [cs.CL, cs.SD]目的:大規模音声言語モデルのノイズに対するロバスト性の向上
    • 音声理解の基盤モデルである大規模音声言語モデルの重要性が増している。
    • 現実世界のノイズ環境下では,性能が著しく低下する点が課題である。
    • ファインチューニングなしで,ノイズ環境下での性能向上を目指す。
    • 提案手法「注視してから聴取(FTL)」は,入力波形を音声と非音声に分離し,モダリティルーティングによって目的の音声モダリティを予測する。
    • モダリティを考慮した融合ブロックがタスク適応型強調信号を生成し,下流の知覚と推論を改善する。
    • 複数の大規模音声言語モデルとタスクにおいて,ファインチューニングなしでノイズレベルに関わらず性能が向上することを示した。

    Link: https://arxiv.org/abs/2603.04862

  • 最初の環境音ディープフェイク検出チャレンジ:堅牢性,評価,および洞察のベンチマーク [cs.SD]目的:環境音ディープフェイク検出におけるベンチマークと課題の特定
    • 公共の安全と信頼にとって,欺瞞的なコンテンツによるリスクが高まっているため。
    • 音声や歌声のディープフェイク検出は進んでいるが,環境音のディープフェイク検出は未開拓である。
    • 環境音ディープフェイク検出の進展を促し,今後の研究方向を示すこと。
    • 本チャレンジは97チーム,1748件の提出があり,データセット構築,評価プロトコル,ベースラインシステムが確立された。
    • 上位システムのアーキテクチャや学習戦略が分析され,共通の特徴が明らかになった。
    • 今後の研究の方向性として,新たな手法や未解決の問題点が提示された。

    Link: https://arxiv.org/abs/2603.04865

  • TAPFormer:フレームとイベントの非同期的融合によるロバストな任意点追跡 [cs.CV]目的:フレームとイベントを用いた任意点追跡におけるロバスト性と高頻度化
    • コンピュータビジョンの基礎課題であり,自動運転やロボット工学等,幅広い応用が期待される。
    • フレームとイベントを融合する際,時間的なずれや片方のモダリティの失敗時の性能劣化が課題となる。
    • フレームとイベントの時間的な不一致を解消し,ロバストな追跡を実現すること。
    • 提案手法TAPFormerは,フレームとイベントを非同期的に融合するTransient Asynchronous Fusion(TAF)メカニズムを採用。
    • TAFメカニズムにより,低フレームレートと高イベントレートのギャップを埋め,時間的に一貫性のある追跡が可能となった。
    • 新規に構築した実世界データセットにおいて,平均ピクセル誤差が28.2%改善し,既存手法を上回る性能を達成。

    Link: https://arxiv.org/abs/2603.04989

  • SAIL:類似度を考慮したガイダンスと相互キャプション拡張学習による弱教師あり密な動画キャプション生成 [cs.CV, cs.AI]目的:弱教師あり密な動画キャプション生成におけるイベントの局所化と記述
    • 動画理解の高度化に不可欠であり,人間による注釈コストを削減できる。
    • 既存手法では,意味的な関係性を考慮しない単純なマスク生成に課題がある。
    • 意味的に意味のある領域を捉え,データスパースネスを克服すること。
    • 提案手法SAILは,クロスモーダルアライメントを通じて意味的に認識されたマスクを構築する。
    • 類似度を考慮した学習目的により,対応するイベントキャプションとの類似度が高い動画領域を強調する。
    • LLMに基づく拡張戦略により,正確なマスク生成を支援し,ActivityNet CaptionsとYouCook2で最先端の性能を達成した。

    Link: https://arxiv.org/abs/2603.05437

  • RoboLayout:具現化されたエージェントのための微分可能な3Dシーン生成 [cs.AI, cs.CV, cs.LG, cs.RO]目的:具現化されたエージェントが相互作用可能な3Dシーンの生成
    • 空間推論や3Dシーン配置生成において,大規模言語モデルの応用が期待されている。
    • 物理制約のある屋内環境において,意味的な整合性とエージェントの実行可能性を両立した配置生成が困難である。
    • エージェントの到達可能性を考慮した微分可能な配置最適化により,実行可能な環境生成を目指す。
    • RoboLayoutは,LayoutVLMを拡張し,エージェントを意識した推論と最適化の安定性を向上させた。
    • 明示的な到達可能性制約を導入することで,エージェントがナビゲート可能な実行可能なレイアウトを生成する。
    • 多様な物理的特性を持つエージェントに対応可能であり,屋内環境の設計をエージェントに合わせて調整できる。

    Link: https://arxiv.org/abs/2603.05522

  • 部分空間を考慮したモデル結合によるドメイン間の橋渡し [cs.RO, cs.CY, cs.HC, cs.RO, cs.LG, cs.AI, cs.CV]目的:ドメイン汎化性能の向上
    • AIモデルの効率的な活用には,複数のタスクやドメインに対応できる汎化能力が不可欠である。
    • モデル結合は有望な手法だが,異なるドメインのモデルを結合する際の汎化性能は未解明な点が多い。
    • 異なる分布で学習したモデルの結合における部分空間の競合を緩和し,ドメイン汎化性能を向上させる。
    • 本研究では,タスク行列の特異値分解に基づき,異なるドメインで学習したモデルの結合が,従来のマルチタスク学習よりも強い競合を引き起こすことを示した。
    • 提案手法SCOREは,モデル間の部分空間の競合を解消するために,共通の直交基底を学習し,競合する特異方向を削減する。
    • 様々なアーキテクチャとモデル規模において,SCOREは既存のモデル結合手法を上回り,ドメイン汎化性能において優れた結果を示した。

    Link: https://arxiv.org/abs/2603.05768

  • TumorChain:臨床腫瘍分析のためのトレース可能なマルチモーダル連鎖思考 [cs.CV]目的:臨床腫瘍分析におけるマルチモーダル連鎖思考の活用
    • 腫瘍分析は,早期発見や精密なリスク評価に不可欠であり,診断と治療計画の精度向上に繋がる。
    • 既存の手法では,画像所見から臨床印象,病理学的結論への論理的な推論過程が不明確になりがちである。
    • マルチモーダル連鎖思考により,根拠に基づいた腫瘍分析を実現し,誤診のリスクを低減することを目的とする。
    • TumorCoTという大規模データセットを構築し,画像,テキスト,病理予測間の整合性を評価可能にした。
    • TumorChainというマルチモーダル連鎖思考フレームワークを提案し,視覚的証拠に基づいた根拠のある推論を可能にした。
    • 病変検出,印象生成,病理分類において,既存手法を上回る性能を示し,汎化性能も確認された。

    Link: https://arxiv.org/abs/2603.05867

  • OVGGT:O(1)定数コストストリーミングVisual Geometry Transformer [cs.CV]目的:ストリーミング動画からの3D形状再構成
    • 現実世界の3D再構成は,自動運転やロボティクス等の応用において重要である。
    • 既存手法は計算コストが高く,長時間のストリーミング動画への適用が困難である。
    • 長時間の動画を定数コストで処理し,高精度な3D形状再構成を実現すること。
    • OVGGTは,自己選択キャッシュと動的アンカー保護を組み合わせることで,メモリと計算量を定数に抑えた。
    • これにより,動画の長さに依存せず,限られたVRAM内で3D形状を再構成できるようになった。
    • 屋内,屋外,超長尺のシーケンスにおいて,最先端の3D形状精度を達成した。

    Link: https://arxiv.org/abs/2603.05959

  • CR-QAT:カリキュラム関係性量子化対応学習によるオープンボキャブラリ物体検出 [cs.CV]目的:オープンボキャブラリ物体検出におけるモデルの量子化手法
    • 資源制約のあるデバイスでの利用のため,モデルの軽量化が重要である。
    • 極端な低ビット量子化は,視覚と言語の微細なアライメントを損なう。
    • 関係性知識蒸留と段階的最適化による,量子化劣化の抑制。
    • 提案手法CR-QATは,既存の量子化対応学習手法と比較して,低いビット数設定下で優れた性能を示す。
    • LVISおよびCOCOのゼロショットベンチマークにおいて,平均適合率(AP)が最大で38.9%および40.9%向上した。
    • カリキュラムQATにより,エラーの蓄積を緩和し,安定した最適化を実現する。

    Link: https://arxiv.org/abs/2603.05964

  • 参照に基づくスケッチ彩色における高解像度かつ分離表現の実現 [cs.CV]目的:アニメーションやデジタルイラストの作成を自動化・支援するためのスケッチ彩色手法
    • アニメ制作やイラスト制作において,彩色作業の効率化が求められているため。
    • 学習データとテストデータ間の分布のずれが,品質低下の主要な原因となっている。
    • 分布のずれを直接的に最小化し,高品質で制御可能な彩色を実現すること。
    • 提案手法は,セマンティックに整列したブランチとそうでないブランチの二重構造により,分布のずれを抑制。
    • Gram正則化損失を用いることで,ドメイン間の分布の一貫性と安定性を効果的に実現。
    • アニメ特有のタッガーネットワークとSDXLの条件付きエンコーダの調整により,精密な制御とテクスチャ転送の強化を実現。

    Link: https://arxiv.org/abs/2603.05971

  • オクルージョンを考慮したSORT:ロバストな多物体追跡のためのオクルージョン観測 [cs.CV]目的:多物体追跡におけるオクルージョン処理手法の改善
    • 映像内の物体数を正確に把握することは,監視や自動運転など,様々な応用分野において重要である。
    • 2D多物体追跡では,部分的なオクルージョンによって位置推定が混乱し,追跡精度が低下する問題がある。
    • オクルージョンを考慮することで,位置推定の混乱を軽減し,よりロバストな追跡を実現することを目的とする。
    • 提案手法OA-SORTは,既存のSORTにプラグイン可能であり,追加の学習を必要としない。
    • DanceTrackデータセットにおいて,OA-SORTはHOTAで63.1%,IDF1で64.2%を達成した。
    • OA-SORTを他の4つの追跡器に統合することで,HOTAとIDF1が平均でそれぞれ2.08%,3.05%向上した。

    Link: https://arxiv.org/abs/2603.06034

  • 属性分布モデリングとセマンティック・ビジュアルアライメントによる生成型ゼロショット学習 [cs.CV]目的:生成型ゼロショット学習における属性分布のモデリングとセマンティック・ビジュアルアライメント
    • 画像認識技術は,未知のクラスへの対応が課題であり,ゼロショット学習はその解決策の一つである。
    • 従来のゼロショット学習では,クラス内の多様性やセマンティック特徴と視覚特徴のギャップが問題となっている。
    • 本研究は,属性分布のモデリングとセマンティック・ビジュアルアライメントにより,このギャップを埋めることを目指す。
    • 提案手法ADiVAは,既存の最先端手法と比較して,AWA2およびSUNデータセットでそれぞれ4.7%,6.1%の性能向上を達成した。
    • ADiVAは,各クラスの伝達可能な属性分布を学習し,未知クラスのインスタンスレベルの属性をサンプリングする属性分布モデリング(ADM)モジュールで構成される。
    • また,視覚構造をより良く反映するようにセマンティック表現を洗練する視覚誘導アライメント(VGA)モジュールを搭載している。

    Link: https://arxiv.org/abs/2603.06281

  • シーン文脈を考慮した漸進型Few-Shot 3Dセグメンテーション [cs.HC, cs.CV, cs.LG]目的:漸進型Few-Shot 3Dセグメンテーションにおける性能向上
    • 3D点群セグメンテーションは,ロボット工学や自動運転などの応用において重要である。
    • Few-Shot学習では,学習データが限られており,過学習や忘却が発生しやすい。
    • 背景領域の情報を活用し,Few-Shot学習時の過学習と忘却を抑制すること。
    • 提案手法SCOPEは,背景領域からの疑似インスタンスを利用してプロトタイププールを構築する。
    • 新しいクラスが到着した際,背景プロトタイプとFew-Shotプロトタイプを融合し,表現力を高める。
    • ScanNetとS3DISでの実験により,既存手法を上回る性能が確認された。

    Link: https://arxiv.org/abs/2603.06572

  • マルチモーダル大規模言語モデルを画像分類器として [cs.CV]目的:画像分類におけるマルチモーダル大規模言語モデルの性能評価
    • 画像認識は,コンピュータビジョンの根幹であり,様々な応用分野で不可欠な技術である。
    • 既存の研究では,評価プロトコルや正解ラベルの品質がモデルの性能評価に大きく影響している。
    • 本研究は,評価プロトコルの問題を修正し,より正確なモデル性能評価を目指す。
    • 評価プロトコルにおける課題(誤ったラベル,選択肢の弱さなど)を特定・修正することで,MLLMの性能が大幅に向上することが示された。
    • 改良されたReGTデータセットを用いた評価により,MLLMと教師ありモデルの性能差が縮小し,性能評価の歪みが明らかになった。
    • MLLMは,困難なケースにおいて人間の注釈者支援ツールとして機能し,大規模データセットのキュレーションに貢献できる可能性を示した。

    Link: https://arxiv.org/abs/2603.06578

  • 微分可能な顕微鏡設計:全光学的位相復元顕微鏡の設計 [physics.optics, cs.CV, physics.comp-ph]目的:全光学的位相復元顕微鏡の設計手法
    • 顕微鏡は生命科学をはじめ多様な分野で不可欠であり,高性能な光学系の開発が求められている。
    • 従来の手法では,光学系の設計に専門知識と創造性が不可欠であり,時間と労力がかかる。
    • データ駆動型アプローチによる効率的な顕微鏡設計法の確立を目指す。
    • 提案手法である微分可能な顕微鏡($\partial\mu$)は,既存の全光学的位相復元法と比較して一貫して優れた性能を示した。
    • 複数のデータセット(生物試料を含む)において,学習された設計の優位性が確認された。
    • 学習された設計の一つを実験的に検証し,概念実証を行った。

    Link: https://arxiv.org/abs/2203.14944

  • 共謀の幻想 [math.OC, cs.SY, eess.SY, econ.GN, cs.AI, cs.GT, cs.MA, q-fin.EC]目的:アルゴリズムによる共謀的行動の発生メカニズムの解明
    • 競争的環境下での意思決定において,アルゴリズムエージェントの利用が拡大している。
    • アルゴリズムエージェント間の相互作用が,意図しない共謀的行動を生む可能性がある。
    • エージェントの行動方針が,共謀的行動の発生にどのように影響するかを明らかにすること。
    • マルチアームバンディットアルゴリズムを用いるエージェント間では,ゲーム構造の事前知識や競合他社の情報がなくても,共謀的な行動が観察されることがある。
    • 共謀的行動の発生は,バンディット学習者が用いる行動方針に強く依存することが示された。
    • アルゴリズムの対称性や,過去の行動履歴が,共謀的行動の予測に重要であることが示唆された。

    Link: https://arxiv.org/abs/2411.16574

  • 逆問題に対するMAPに基づく問題非依存型拡散モデル [eess.IV, cs.CV]目的:逆問題に対する拡散モデルの性能向上
    • 画像処理における逆問題解決は,ノイズ除去や画像再構成など,多様な応用分野で重要である。
    • 既存手法では,条件付き生成タスクにおいて自然な画像を効果的に表現することが課題であった。
    • 事前学習済みの拡散モデルを活用し,より自然で高品質な逆問題解決を実現すること。
    • 本研究では,ベイズの定理に基づき,条件付きスコア関数を無条件スコア関数と誘導項に分割する手法を提案した。
    • 誘導項は,自然画像のガウス型事前分布を組み込んだ新規なMAPに基づく推定法によって算出される。
    • 実験結果から,提案手法は,特に超解像やインペインティングにおいて,既存手法よりもコンテンツをより効果的に保持し,一貫性のある結果を生成することが示された。

    Link: https://arxiv.org/abs/2501.15128

  • LLM支援視覚皮質キャプション生成 [q-bio.NC, cs.AI, cs.CL, cs.CV, cs.LG]目的:視覚皮質のボクセル選択性記述
    • 人間の知覚・認知メカニズム解明と,脳に触発された計算モデル開発に不可欠。
    • 深層ニューラルネットワークのブラックボックス性により,ボクセル応答を説明する特性の解釈が困難。
    • 大規模言語モデルを用いて,ボクセル選択性をより正確かつ詳細に記述する手法を確立。
    • LaVCaは,既存手法と比較して,ボクセル選択性をより正確に記述するキャプションを生成した。
    • 生成されたキャプションは,ボクセル間およびボクセル内のレベルで,より詳細な特性を定量的に捉えた。
    • 視覚皮質内の関心領域における機能的分化や,複数の概念を同時に表現するボクセルを明らかにした。

    Link: https://arxiv.org/abs/2502.13606

  • アルツハイマー病診断の向上:四面体メッシュ上のグラフ畳み込みニューラルネットワークにおける解剖学的ランドマークの活用 [eess.IV, cs.AI, cs.CV, q-bio.NC]目的:アルツハイマー病の診断における,解剖学的ランドマークを用いたグラフ畳み込みニューラルネットワークの応用
    • アルツハイマー病は世界中で多くの人々に影響を与える主要な神経変性疾患であり,早期診断が重要である。
    • 脳アミロイドの陽性判定はPET検査に依存するが,コストと侵襲性が課題である。
    • sMRIを用いた早期診断の精度向上,特に前臨床段階での病理検出が求められている。
    • 本研究では,四面体メッシュに対する新しいトークン化スキームを提案し,解剖学的ランドマークを組み込んだ。
    • 提案モデルは,ADの分類タスクにおいて優れた性能を示し,脳アミロイド陽性予測においても汎化性を示した。
    • 中リスク群の個人に対しても,従来のBBBM単独では明確な分類が困難なケースにおいて,分類性能が向上した。

    Link: https://arxiv.org/abs/2503.05031

  • DeepSparse:疎視点CBCT再構成のための基盤モデル [eess.IV, cs.CV]目的:疎視点CBCT再構成のための基盤モデルの開発
    • 医療分野における3Dイメージング技術としてCBCTは不可欠であり,被ばく線量を低減することが重要である。
    • 従来の疎視点再構成法は,計算コストが高い,汎用性に欠けるといった課題があった。
    • 大規模データを用いた事前学習と微調整により,高品質かつ効率的な再構成を実現することを目指す。
    • 提案手法DeepSparseは,最先端手法と比較して,再構成品質において優れた性能を示すことが確認された。
    • DiCEという新しいネットワーク構造により,2Dと3Dの特徴を効果的に統合することが可能となった。
    • HyViPという事前学習フレームワークと二段階の微調整戦略により,新たなデータセットへの適応性が向上した。

    Link: https://arxiv.org/abs/2505.02628

  • 適応最適化を用いたマルチコイル・マルチモダリティMRIのための深層アンロールメタ学習 [math.OC, cs.CV]目的:マルチコイル再構成とクロスモダリティ合成を同時に行う加速磁気共鳴画像(MRI)のための深層メタ学習フレームワーク
    • MRIは非侵襲的な医学画像診断法であり,病気の早期発見や治療効果の評価に不可欠である。
    • 従来のMRI再構成手法は,アンダーサンプリングデータや欠損モダリティへの対応に課題がある。
    • 未知のサンプリングパターンやモダリティの組み合わせへの適応能力を高めることを目指す。
    • 提案手法は,オープンソースデータセットにおいて,PSNRとSSIMが従来の教師あり学習よりも大幅に向上した。
    • 特に,高アンダーサンプリングやドメインシフト条件下で顕著な改善が認められた。
    • アンロール最適化,タスクに応じたメタ学習,およびモダリティ融合の相乗効果が示された。

    Link: https://arxiv.org/abs/2505.11518

  • H&E画像をIHC画像へ変換:精密腫瘍学のための分散ペナルティ付きGAN [eess.IV, cs.CV]目的:H&E染色画像から高忠実度なIHC画像を生成すること
    • HER2陽性乳癌は攻撃性が高く,正確な診断と標的治療が不可欠である。
    • IHC検査は高コストで手間がかかり,抗体の選択に依存する。
    • H&E画像からHER2の情報を効率的に取得する手段を提供する。
    • 提案手法は,既存モデルと比較してPSNR,SSIM,FIDの指標において優れた性能を示した。
    • 特にHER2陽性(IHC 3+)画像の変換において,既存手法の課題を克服した。
    • 本研究はAIを活用した精密腫瘍学の発展に貢献し,HER2診断の代替手段となり得る。

    Link: https://arxiv.org/abs/2506.18371

  • TransUNet-GradCAM:自己注意機構と説明可能な可視化を用いたハイブリッドTransformer-U-Netによる足部潰瘍セグメンテーション [eess.IV, cs.CV]目的:足部潰瘍のセグメンテーション
    • 糖尿病性足部潰瘍の適切な診断と治療計画の策定には,正確な潰瘍領域の特定が不可欠である。
    • 臨床画像における潰瘍領域は,外観の不均一性や複雑な背景により,正確なセグメンテーションが困難である。
    • TransformerとU-Netのハイブリッド構造により,遠隔空間依存性を捉え,セグメンテーション精度を向上させる。
    • 提案手法は,公開データセットFUSegにおいて,Dice係数0.8886を達成した。
    • 外部検証データセット(AZH, Medetec)においても,それぞれDice係数0.6209,0.7850を示し,高い汎化性能を証明した。
    • 予測された潰瘍面積と正解データとの間には,高い相関関係(Pearson r = 0.9749)が認められた。

    Link: https://arxiv.org/abs/2508.03758

  • UltraUPConvNet:UPerNetおよびConvNeXtに基づく超音波組織セグメンテーションと疾患予測のためのマルチタスクネットワーク [eess.IV, cs.CV]目的:超音波画像における組織セグメンテーションと疾患予測
    • 超音波検査は,低コスト,可搬性,安全性が高く,臨床現場で広く利用されている。
    • 既存の研究では,疾患予測と組織セグメンテーションを別タスクとして扱う場合が多く,計算コストが高い。
    • 本研究は,計算効率の良い共通フレームワークを提供し,上記課題の解決を目指す。
    • 提案手法UltraUPConvNetは,7種類の解剖学的領域を含む大規模データセットで学習され,高い性能を発揮する。
    • 特定のデータセットにおいて,既存手法と同等以上の性能を,より低い計算コストで達成した。
    • モデルの重みとコードは公開されており,研究の再現性を高めている。

    Link: https://arxiv.org/abs/2509.11108

  • DroFiT:リアルタイムUAV向け音声強調のための軽量バンド融合周波数アテンション [eess.AS, cs.SD]目的:UAVにおける重度の自己雑音環境下での音声強調ネットワーク
    • UAV(無人航空機)の利用拡大に伴い,騒音環境下での音声通話品質向上が重要視されている。
    • 従来の音声強調手法は計算コストが高く,UAVのような計算資源の限られた環境でのリアルタイム処理が困難である。
    • 限られた計算資源でリアルタイム処理を実現し,UAVでの音声通話品質を向上させることを目指す。
    • DroFiTは,周波数領域Transformerとハイブリッドエンコーダー・デコーダー,TCNバックエンドを統合し,メモリ効率の良いストリーミング処理を実現した。
    • 提案手法は,VoiceBank-DEMANDとドローン記録雑音を用いて学習し,標準的な音声強調指標および計算効率で評価された。
    • 実験結果から,DroFiTは競合する手法と同等の性能を維持しつつ,計算・メモリ負荷を大幅に削減することが示された。

    Link: https://arxiv.org/abs/2509.16945

  • w2v-BERT 2.0と知識蒸留による構造化プルーニングを用いた話者認証の性能向上 [eess.AS, cs.SD]目的:話者認証における性能向上
    • 話者認証は,セキュリティや人間工学において重要な役割を担う技術である。
    • 大規模な事前学習モデルの計算コストが高く,リソースに制約のある環境での利用が困難である。
    • モデルのサイズを削減しつつ,性能劣化を最小限に抑えることが課題である。
    • w2v-BERT 2.0とレイヤーアダプターを用いることで,Vox1-Oで0.12%,Vox1-Hで0.55%のEERを達成した。
    • 知識蒸留に基づいた構造化プルーニングにより,モデルサイズを80%削減しつつ,EERの劣化を0.04%に抑制した。
    • 本研究は,大規模モデルの効率的な利用方法を示すとともに,話者認証技術の応用範囲を広げる貢献をする。

    Link: https://arxiv.org/abs/2510.04213

  • 連続・外挿スペクトル超解像のための放射構造化ニューラル演算子 [eess.IV, cs.CV]目的:連続スペクトル超解像のための物理整合性を考慮した学習
    • ハイパースペクトル画像は,コンピュータービジョンやリモートセンシングにおいて重要な役割を担う。
    • 深層学習手法はデータ依存性が高く,物理原理に基づいた連続的なスペクトル表現が課題となっていた。
    • 物理的な制約を組み込み,より現実的で汎用性の高いスペクトル超解像を実現する。
    • 提案手法RSNOは,アップサンプリング,再構成,そして精緻化の3段階でスペクトル超解像を行う。
    • アップサンプリングと精緻化には,物理整合性を考慮したAngular-Consistent Projection(ACP)を用いる。
    • 実験により,従来の超解像,連続スペクトル再構成,そして赤外線外挿において有効性が確認された。

    Link: https://arxiv.org/abs/2511.17895