arXiv雑要約

画像・音声 - 2026/03/17 公開

FMS$^2$: セグメンテーションとシンセシスのための統一的フローマッチング [cs.CV]目的：薄い構造物のセグメンテーションとシンセシスのための統一的フローマッチングフレームワーク
- インフラのひび割れや血管など，薄い構造物の解析は医療や土木分野で重要である。
- 従来法では，複雑な形状やアノテーションコスト，ドメイン間の汎化性能に課題があった。
- 本研究は，フローマッチングを用いて，これらの課題を克服し，高性能なセグメンテーションとシンセシスを実現する。
- 提案手法SegFlowは，既存のCNN，Transformerなどの手法と比較して，平均IoUを0.511から0.599へ17.2%向上させた。
- また，SegFlowは，トポロジー指標であるBetti matching errorを82.145から51.524へ37.3%減少させた。
- SynFlowによるデータ拡張は，少ないラベル数でも性能を回復させ，ドメイン間のIoUを平均0.11向上させた。
Link: https://arxiv.org/abs/2603.13659
マスク誘導型自己教師あり学習による汎化可能な3D医療画像表現の学習 [cs.CV]目的：汎化可能な3D医療画像表現の学習
- 医療画像解析の精度向上には，解剖学的知識に基づいた特徴抽出が不可欠である。
- 既存の自己教師あり学習は，低レベルな特徴やコントラスト学習に偏り，医療画像特有の構造的情報を捉えきれない。
- 解剖学的構造や病理学的所見を網羅するマスクを用いて，意味的に豊かな表現を獲得することを目指す。
- 自動生成されたマスクによる構造的制約が，医療画像表現の学習に十分な情報を提供する。
- 少量データでのセグメンテーションや，ラベルデータが20-40%程度の条件下で，教師あり学習や既存の自己教師あり学習を上回る性能を示す。
- 未学習の病理に対する分類において，大量のラベルデータを用いた教師あり学習と同等の性能を達成する。
Link: https://arxiv.org/abs/2603.13660
TSDCRF：時系列CRFと正規化制御ペナルティによるプライバシーとマルチオブジェクトトラッキングのバランス [cs.HC, cs.AR, cs.CV]目的：プライバシー保護とトラッキング精度の両立
- ビデオにおけるマルチオブジェクトトラッキングは，監視や自動運転など様々な分野で重要性を増している。
- プライバシー保護のためのノイズ付加は，追跡性能を低下させ，IDスイッチやターゲット消失を引き起こす。
- プライバシー保護と追跡精度のトレードオフを解消し，ロバストなトラッキングを実現すること。
- TSDCRFは，差分プライバシー，正規化制御ペナルティ，時系列DCRFを組み合わせ，プライバシーとトラッキング精度を両立する。
- MOT16, MOT17, Cityscapes, KITTI等のデータセットで評価した結果，既存手法よりも優れたプライバシー保護と追跡性能を達成した。
- 特に，KL-divergenceの減少，トラッキングRMSEの低減，および軌道ハイジャックに対する堅牢性の向上を確認した。
Link: https://arxiv.org/abs/2603.13667
SHAMISA：自己教師あり無参照画像品質評価のための暗黙的な構造的関連性の形状モデリング [cs.DC, cs.CY, cs.HC, cs.CV, cs.AI, cs.LG]目的：無参照画像品質評価モデルの学習における課題克服
- 画像処理技術の発展に伴い，高品質な画像評価手法の重要性が高まっている。
- 既存手法は，高コストな人間の品質評価ラベルを必要とし，汎化性能に課題がある。
- ラベルを用いずに，画像間の構造的関連性を学習することで，汎化性能の高い評価手法を開発する。
- SHAMISAは，合成メタデータと特徴構造から推測される，歪みとコンテンツに依存するソフトな関係性を活用する。
- 歪みパターンが共有された画像は埋め込み空間内で近づけられ，歪みの強さの変化は予測可能なシフトを生み出す。
- 実データや異なるデータセットを用いた実験により，SHAMISAの優れた性能と汎化性能が示された。
Link: https://arxiv.org/abs/2603.13669
共同実地学習のスケーラビリティ向上に向けて：コンピュータビジョンとマルチモーダル分析による支援 [eess.SY, cs.SY, cs.HC, cs.CV]目的：共同実地学習における詳細な学習行動の捕捉可能性
- 実地学習の質向上は，専門職養成において重要であり，学習行動の可視化が求められている。
- 従来の評価方法は主観的であり，客観的な学習行動の分析が困難であった。
- ウェアラブルセンサーに頼らず，単一カメラで学習行動を分析する手法を確立すること。
- 天井設置型カメラを用いて看護シミュレーション中の学習行動を検出し，高いF1スコア(0.933)が得られた。
- 行動頻度のみでは成績差は見られなかったが，空間的コンテキストと組み合わせると，成績差が明確になった。
- 成績の高いチームは患者との相互作用が多く，低いチームは電話操作や二次領域での活動が多かった。
Link: https://arxiv.org/abs/2603.13679
あらゆるエラーには大きさがある：多クラスマルチプルインスタンス学習のための非対称なミス重大度トレーニング [cs.CV]目的：多クラスマルチプルインスタンス学習におけるミス重大度を考慮したトレーニング戦略
- 病理画像診断において，限られたアノテーションで効果的な学習を可能にするマルチプルインスタンス学習の重要性が高まっている。
- 既存のMILフレームワークは，診断の優先順位や，多クラスにおける誤分類の重大度の違いを考慮していない。
- 臨床的に重要なエラーを軽減するため，ミス重大度を意識した学習方法を開発し，診断精度向上を目指す。
- 提案手法は，診断クラスを階層構造に整理し，重大度に応じて損失を重み付けすることで，重大な誤分類を効果的に抑制する。
- 階層的一貫性を確率的アラインメントによって強化し，複数の症状を伴う症例にも対応できる頑健な学習を実現する。
- 医療分野特有のエラー重大度を定量化する非対称なMikel's Wheelベースの指標を新たに導入した。
Link: https://arxiv.org/abs/2603.13682
音声表現における構成構造の評価 [cs.SD]目的：音声表現の構成性評価のためのベンチマーク
- 聴覚知覚の中核であり，現実世界の音響シーンを理解する上で不可欠な要素である。
- 既存の評価プロトコルでは，音声の構成性に着目した評価がほとんど行われていない。
- 音声表現における構成構造を定量的に評価するための新たな基準を確立すること。
- 本研究では，視覚と自然言語処理のアイデアを応用し，構成性評価のための２つのタスク（A-COAT, A-TRE）を提案した。
- A-COATは加法変換下での一貫性を，A-TREは属性レベルのプリミティブからの再構成可能性を検証する。
- 音響属性を制御した大規模な合成データセットを用いて，音声埋め込みにおける構成構造のベンチマークを初めて提供する。
Link: https://arxiv.org/abs/2603.13685
τ-Voice：実世界ドメインにおけるフルデュプレックス音声エージェントのベンチマーク [cs.SD, cs.AI]目的：フルデュプレックス音声エージェントの性能評価
- 音声エージェントの活用が拡大しており，自然な対話とタスク遂行能力の重要性が増している。
- 既存の評価手法では，複雑な現実世界のタスクや音声特有の課題を十分に考慮できていない。
- 現実世界の複雑なタスクにおける音声エージェントの性能と課題を明確化すること。
- GPT-5は85%のタスク遂行率を達成する一方，音声エージェントはクリアな環境下でも31～51%にとどまる。
- ノイズや多様なアクセントを含む現実的な環境下では，音声エージェントのタスク遂行率は26～38%まで低下し，テキストベースの性能の30～45%しか維持できない。
- 失敗原因の定性的分析の結果，79～90%がエージェントの行動に起因することが示唆され，評価設定におけるエージェントの振る舞いが主要因である。
Link: https://arxiv.org/abs/2603.13686
アクセシビリティのための生成モデルの操舵：EasyRead画像生成 [cs.HC, cs.CV]目的：EasyRead画像の生成
- 知的障害，低識字率，言語の壁を持つ人々への理解を助けるEasyReadの重要性が高まっている。
- EasyReadコンテンツの大量生産は，手動設計のコストと専門知識によって制約されてきた。
- 生成モデルを用いて，よりスケーラブルでアクセシブルなピクトグラム制作を可能にすること。
- 拡散モデルをファインチューニングすることで，一貫性のあるEasyReadスタイル画像を生成できることが示された。
- LoRAアダプターを用いたStable Diffusionモデルの調整により，高品質なピクトグラム生成が可能となった。
- 新たに導入したEasyReadスコアは，ピクトグラムの品質と一貫性を評価するための指標として有効である。
Link: https://arxiv.org/abs/2603.13695
リモートセンシング画像に対するテキストガイダンスによる画像編集 [cs.CV]目的：リモートセンシング画像のテキストガイダンスによる編集手法
- 災害監視や都市成長の分析など，地球観測データの活用が重要視されている。
- 汎用画像編集モデルは，リモートセンシング画像の特性を考慮せず，不自然な結果を生じやすい。
- 地球観測データの時空間的構造を考慮した編集手法を開発し，高精度な編集を実現すること。
- RSEditは，事前学習済みの拡散モデルをリモートセンシング画像編集用に適応させることで，物理的に整合性のとれた編集を可能にした。
- 6万件以上の二時点比較画像ペアで学習することで，地表の地理空間情報を維持しつつ，高精度な編集を実現した。
- 災害の影響評価，都市成長，季節変動など，多様なシナリオで既存手法を上回り，汎用性の高いデータエンジンとしての可能性を示した。
Link: https://arxiv.org/abs/2603.13708
エントロピー較正を用いた差分プライバシーに基づくデータ公開：厳密な保証と攻撃に基づく評価 [cs.CR, cs.CV]目的：差分プライバシーフレームワークREAEDPの提案
- 個人情報保護の重要性が増す中，データの有効活用との両立が課題となっている。
- データ公開時のプライバシー侵害リスク（メンバーシップ推論攻撃など）が存在する。
- 厳密なプライバシー保証とデータ有用性の両立を目指す。
- REAEDPは，エントロピー較正ヒストグラム公開，合成データ生成，攻撃に基づく評価を組み合わせる。
- ヒストグラムデータのシャノンエントロピーとRényiエントロピーに対する感度を解析的に導出した。
- 複数の公開データセットにおいて，実験結果は理論的な範囲内であり，攻撃性能はランダムに近づいた。
Link: https://arxiv.org/abs/2603.13709
マルチモーダルトラッキングのための疎・密な専門家混合型アダプター [cs.HC, cs.CV]目的：マルチモーダルトラッキングにおけるパラメータ効率的なファインチューニング手法
- マルチモーダルデータは様々な分野で活用され，その重要性は増している。
- 異なるモダリティ間の異質性により，既存手法では統一的な枠組みでの特徴表現が困難である。
- 本研究は，モダリティ固有の情報と共有情報を効率的にモデル化することで，トラッキング性能の向上を目指す。
- 提案手法では，疎なMoEと密な共有MoEを組み合わせることで，マルチモーダル特徴を効率的に表現するSDMoEAフレームワークを設計した。
- GSAHFモジュールを導入することで，マルチレベルマルチモーダル融合における高次相関のモデリングの限界を克服した。
- 複数のマルチモーダルトラッキングベンチマークにおいて，提案手法が他のPEFTアプローチと比較して優れた性能を達成した。
Link: https://arxiv.org/abs/2603.13719
Bodhi VLM：ボトムアップ・トップダウン特徴検索による，視覚バックボーンとVLMエンコーダにおける階層的視覚表現のプライバシー整合モデリング [cs.CV, cs.CR]目的：視覚表現におけるプライバシー保護と精度維持の両立
- プライバシー保護は重要だが，視覚表現への影響を理解し制御する必要がある。
- 既存手法では，プライバシー保護のための摂動が，視覚表現にどのように影響するか不明確である。
- プライバシー予算と視覚表現の整合性をモデル化し，解釈可能性と適用範囲を向上させる。
- 提案手法Bodhi VLMは，階層的ニューラル表現におけるプライバシー整合モデリングフレームワークである。
- ボトムアップ・トップダウン戦略により，多規模表現における感応性特徴領域を特定する。
- Expectation-Maximization Privacy Assessment (EMPA)モジュールは，感応性特徴分布と参照分布の比較により，解釈可能な予算整合シグナルを提供する。
Link: https://arxiv.org/abs/2603.13728
UniVid：高品質ビデオ生成のためのピラミッド拡散モデル [cs.DC, cs.CV, cs.AI, cs.MM]目的：高品質ビデオ生成のための統一モデル
- ビデオ生成技術は，エンターテインメントから研究まで幅広い分野で重要性が増している。
- テキストと画像を組み合わせたビデオ生成は困難であり，統一的なモデル構築が課題であった。
- テキストと画像の両方を活用し，より自然で高品質なビデオ生成を実現することを目指す。
- UniVidは，テキストと参照画像を組み合わせることで，オブジェクトの外観と動きを効果的に表現できる。
- 時間的ピラミッド型クロスフレーム空間-時間注意モジュールと畳み込みにより，時間的に一貫性のあるフレームを生成する。
- 二つの制御モード（テキスト単独，テキストと画像）を柔軟に調整できる二重ストリームクロスアテンション機構を導入した。
Link: https://arxiv.org/abs/2603.13739
Sky2Ground：高度変動下におけるサイトモデリングのベンチマーク [cs.CV]目的：高度変化に対応したカメラ局所化，対応学習，再構成のためのデータセット
- 現実世界の3次元空間理解には，異なる視点からの情報統合が不可欠である。
- 衛星画像と地上画像のような高度差の大きい画像間では，精度低下が課題となる。
- 高度変動下での3次元認識・局所化の性能向上を目指し，新しい評価基盤を構築する。
- Sky2Groundは，合成画像と実画像から構成され，制御された幾何学構造と現実的なノイズを両立する。
- 既存の姿勢推定モデルのベンチマークを行った結果，衛星画像の利用が性能低下を招く場合があることが示された。
- 提案手法SkyNetは，カリキュラム学習により衛星画像の利用を改善し，RRA@5，RTA@5でそれぞれ9.6%，18.1%の性能向上を達成した。
Link: https://arxiv.org/abs/2603.13740
一人称視点ビデオのための大規模マルチビューデータセット Ego-1K [cs.CV]目的：一人称視点ビデオ研究の進展に貢献する大規模なマルチビュービデオデータセット
- ウェアラブルデバイスの普及に伴い，一人称視点からの映像理解の重要性が増している
- 既存の3D/4D合成手法は，近距離での動的な物体や自身の動きによる大きな差異に対応が困難である
- 本研究は，このような課題に対応するためのベンチマークデータセットを提供する
- Ego-1Kは，12個の同期カメラとVRヘッドセットを用いて撮影された，約1000件の一人称視点ビデオを含むデータセットである。
- 実験により，既存の3D/4D合成手法が，Ego-1Kの大きな差異と画像モーションによって困難に直面することが示された。
- 本データセットは，スマートグラスなどの普及に向けて，一人称視点シーン再構成の研究を促進する。
Link: https://arxiv.org/abs/2603.13741
複数オブジェクト広告クリエイティブ生成 [cs.CY, cs.CV]目的：家具製品マーケティングにおける，大規模な広告画像生成の自動化
- EC市場の拡大に伴い，製品を魅力的に表現する高品質な広告画像の需要が高まっている。
- 生成AIは高品質な画像を生成できるものの，製品の正確な表現や状況設定が難しく，手動修正が必要となる場合が多い。
- 生成AIを活用し，大規模な製品カタログに対応できる，高品質な広告画像を自動生成するシステムを開発すること。
- 本研究では，製品の配置，レイアウト生成，背景生成の各モジュールからなるシステムCreativeAdsを提案した。
- CreativeAdsは，ユーザーインターフェースを通じて大規模な生成を監督しつつ，個々の生成に対する詳細な制御を可能にする。
- ユーザー調査と画像評価の結果，CreativeAdsがGenAIの専門知識を必要とせずに，高品質な広告画像を大規模に生成できることが示された。
Link: https://arxiv.org/abs/2603.13745
サブバンドスペクトルマッチングと局所スコア集約によるロバストな異常音検出 [cs.HC, cs.RO, cs.MA, cs.SD, cs.AI]目的：騒音環境下における微小な逸脱の検出
- 異常音検出は，機械の故障予知やセキュリティ監視など，多様な応用分野で重要である。
- 従来の異常音検出手法は，正常音の変動に対して頑健性が低く，誤検出が多いという課題がある。
- サブバンド単位での比較とスコア集約により，正常音の変動による誤検出を抑制し，検出精度を向上させる。
- 提案手法BEAMは，サブバンドベクトルをメモリバンクに格納し，サブバンドごとに近傍ベクトルを検索することで，正常音の変動に対するロバスト性を向上させる。
- サブバンド応答の多様な時間的ダイナミクスに対応するため，パラメータフリーな適応的融合を導入した。
- DCASE Task 2ベンチマークにおける実験により，タスク固有の学習なしで高い性能と，ノイズやドメインシフトに対する頑健性が確認された。
Link: https://arxiv.org/abs/2603.13749
探索支援型ボトルネック遷移によるロバストかつデータ効率的な変形物体の操作 [cs.RO, cs.CV]目的：変形物体の操作におけるロバスト性とデータ効率の向上
- ロボットの操作技術は産業応用の鍵であり，特に変形物体の操作は高度な課題である。
- 変形物体の多様な状態に対応するためには大量のデータが必要だが，現実的には収集が困難である。
- 初期状態の多様性に対応し，知覚の不確実性に対処することで，ロバストな操作を実現する。
- 提案手法ExBotは，ボトルネック状態という標準化された構成を用いることで，未知の状態への対応を簡略化する。
- ExBotは，状態空間を認識可能性に基づいて分割し，二つの基本動作を用いることで，不正確な知覚下でも操作を可能にする。
- 実環境実験では，ロープや布の操作において，自己遮蔽を含む多様な未知状態からのタスク完了が実証された。
Link: https://arxiv.org/abs/2603.13756
QTrack：クエリ駆動型マルチモーダルMOT [cs.CV]目的：ユーザ指定のターゲットに対するセマンティックな指示に基づいた追跡
- 動画内の全オブジェクトの軌跡推定が主流だが，特定のターゲットに焦点を当てた追跡手法は限られている。
- 自然言語による指示に基づいたターゲット追跡は，従来のMOT手法では困難である。
- 自然言語クエリに基づいた，ターゲットに特化した追跡システムの開発。
- 本研究では，自然言語クエリを条件とした空間的時間的推論問題として追跡を定式化する新しい追跡パラダイムを提案。
- 大規模ベンチマークRMOT26を構築し，頑健な汎化性能評価を可能にした。
- マルチモーダル推論と追跡指向の局所化を統合したエンドツーエンドのビジョン言語モデルQTrackを提案し，その有効性を実証した。
Link: https://arxiv.org/abs/2603.13759
多目的最適化とVAD対応音声モデリングを用いた多Modal感情回帰：第10回ABAW EMIトラック [cs.AI, cs.SD]目的：感情模倣強度推定における多Modal特徴量の活用と最適化手法
- 感情認識は，人間と機械のより自然なコミュニケーションを可能にする基盤技術である。
- 既存手法では，異なるModality間の効果的な特徴量融合が課題となっている。
- 本研究は，多目的最適化とVADによる音声特徴の改善で，より高精度な感情推定を目指す。
- 事前学習済み特徴量を用いることで，単純な特徴量連結が複雑な融合戦略よりも優れていることを確認した。
- Multi-Objective Optimizationにより，学習の安定化と評価指標との整合性を向上させた。
- 公式検証セットにおいて，平均Pearson相関係数0.478567を達成した。
Link: https://arxiv.org/abs/2603.13760
大規模音声言語モデルにおける音声・テキスト融合の因果追跡 [cs.AR, cs.SD, cs.CL]目的：大規模音声言語モデルにおける音声・テキスト融合のメカニズム解明
- 音声とテキストを統合するモデルは，多様な応用で高い性能を示すため，その内部動作の理解が重要である。
- 大規模音声言語モデルがどのように音響特徴とテキスト情報を統合しているかは，未だ明確に解明されていない。
- 本研究は，大規模音声言語モデルの内部情報フローを分析し，音声・テキスト融合のタイミングと場所を特定する。
- 層ごとの分析により，DeSTAの漸進的な統合からQwenの後期の急激な融合まで，異なる融合戦略が存在することが明らかになった。
- トークンごとの分析では，最終シーケンストークンが音声からの関連情報の決定的な検索ボトルネックとして機能することが示された。
- 中間トークン位置におけるクエリメカニズムは，タスクに関連する音声コンテキストを引き出すトリガーとして機能することが確認された。
Link: https://arxiv.org/abs/2603.13768
PhysAlign：特徴量と3D表現のアライメントによる物理整合性のある画像から動画への生成 [cs.CV]目的：物理整合性のある画像から動画への生成
- ロボティクスやメディア生成などへの応用が期待される動画生成において，物理法則に沿った動画生成が重要である。
- 既存の動画生成モデルは，時間的な一貫性に欠け，基本的な物理的直感を損なうことが課題となっていた。
- 物理シミュレーションに基づく合成データと3D制約を利用し，物理法則に整合した動画生成を実現する。
- PhysAlignは，既存の動画生成モデルと比較して，複雑な物理的推論と時間的安定性を必要とするタスクにおいて，顕著に優れた性能を発揮する。
- 基礎モデルからの運動学的知識を活用し，物理的な潜在空間を構築することで，視覚的な品質を損なうことなく，物理整合性を実現している。
- 本研究は，生の視覚合成と剛体運動学のギャップを埋め，物理に基づいた実用的な動画生成パラダイムを確立する可能性を示す。
Link: https://arxiv.org/abs/2603.13770
3D MRIを用いた持続ホモロジーとベッチ数による脳腫瘍分類：BraTS2020へのトポロジーデータ解析アプローチ [cs.CV, cs.LG]目的：脳腫瘍の分類
- 医療画像解析は，病気の早期発見や正確な診断に不可欠であり，医療の発展に大きく貢献する。
- MRI画像は高次元で複雑な構造を持つため，脳腫瘍の正確な分類は依然として困難な課題である。
- 本研究は，MRI画像から抽出したトポロジー特徴を用いて，脳腫瘍の効率的な分類を目指す。
- 提案手法では，3D MRI画像から抽出されたトポロジー特徴とランダムフォレスト分類器を組み合わせることで，89.19%の精度を達成した。
- 持続ホモロジーは，複雑な3D医療画像の解析や脳腫瘍分類において，有効かつ解釈可能なアプローチであることが示唆された。
- 従来の深層学習とは異なり，大規模な学習データや複雑なアーキテクチャを必要とせず，計算効率の良い特徴抽出が可能である。
Link: https://arxiv.org/abs/2603.13771
AD-Copilot：視覚的文脈内比較による産業異常検知のための視覚言語アシスタント [cs.CV, cs.AI]目的：産業異常検知における視覚的文脈内比較を通じた視覚言語アシスタントの開発
- 産業分野における品質管理は重要であり，異常検知はその不可欠な要素である。
- 既存のマルチモーダル大規模言語モデルは，産業画像への適応に課題を抱えている。
- 本研究は，視覚的文脈内比較を通じて，産業異常検知の精度向上を目指す。
- AD-Copilotは，MMADベンチマークにおいて82.3%の精度を達成し，他のモデルを凌駕した。
- MMAD-BBoxテストでは，ベースラインと比較して最大3.35倍の改善が見られた。
- AD-Copilotは，特定のタスクにおいて人間専門家レベルの性能を上回り，実用的な産業検査支援の可能性を示した。
Link: https://arxiv.org/abs/2603.13779
あなたのビジョン言語行動モデルは，経路逸脱検出のための注意ヘッドを既に持っている [cs.RO, cs.RO, cs.CV]目的：経路逸脱の検出
- ロボットナビゲーションにおいて，複雑な指示と視覚情報を理解するVLAモデルの重要性が増している。
- VLAモデルは，視覚的推論における幻覚により経路逸脱を引き起こすという課題を抱えている。
- 既存のVLAモデルの注意ヘッドを活用し，追加計算コストなしに経路逸脱を検出すること。
- VLAモデル内の特定の注意ヘッド（Navigation Heads）が，経路逸脱を正確に検出できることが示された。
- わずか3つの注意ヘッドの組み合わせで，44.6%の経路逸脱検出率と11.7%の低い誤検出率を達成した。
- 経路逸脱を検出した場合，軽量な強化学習ポリシーを用いて安全に最短経路でロールバックするシステムが実証された。
Link: https://arxiv.org/abs/2603.13782
RetimeGS：4Dガウススプラッティングの連続時間再構成 [cs.CV]目的：4Dガウススプラッティングによる動的シーンの任意の時点での再構成とレンダリング
- 映像編集や特殊効果など，動的なコンテンツ制作において，時間軸の自由な操作が重要である。
- 既存の4Dガウススプラッティング法は，離散的なフレームに過剰適合し，連続時間フレームの表現に課題がある。
- 時間的エイリアシングを軽減し，滑らかで一貫性のある時間補間を実現する。
- 提案手法RetimeGSは，時間的エイリアシングを明示的に抑制する4Dガウススプラッティング表現である。
- 光流誘導初期化やトリプルレンダリングによる教師あり学習により，ゴーストアーティファクトの少ない，時間的に一貫性のあるレンダリングを可能にする。
- 高速運動，非剛体変形，重度のオクルージョンを含むデータセットにおいて，最先端手法よりも優れた品質とコヒーレンスを示す。
Link: https://arxiv.org/abs/2603.13783
ゲノム，プロテオーム，病理画像データの階層的融合による癌予後予測の高度化 [cs.CV]目的：癌予後予測の精度向上
- 癌治療の個別化医療実現には，より正確な予後予測が不可欠である。
- 既存研究では，ゲノムと病理画像の統合に注力する一方，プロテオームの役割が軽視されている。
- ゲノム，プロテオーム，病理画像の生物学的階層構造を考慮した統合解析手法を開発し，予後予測の向上を目指す。
- 提案手法HFGPIは，遺伝子からタンパク質，そして病理画像へと進む生物学的流れを階層的にモデル化する。
- HFGPIは，分子トークナイザーや遺伝子制御タンパク質融合（GRPF），タンパク質誘導型ハイパーグラフ学習（PGHL）などの新規モジュールを導入する。
- 5つのベンチマークデータセットにおける実験で，HFGPIが最先端手法を凌駕する優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.13787
医療診断を超えて：医療マルチモーダル大規模言語モデルは空間的にどのように思考するか [cs.CV]目的：医療画像解釈における視覚空間知能の評価
- 医療画像診断において，視覚空間知能は不可欠であり，高度な医療を支える基盤となる。
- 3D画像向けマルチモーダル大規模言語モデルにおいて，構造化された3D空間注釈データセットが不足している。
- 3D空間知能を評価するためのベンチマークデータセットを構築し，医療分野におけるモデルの空間推論能力を検証する。
- 本研究では，体積計算ツールや距離計算ツールを連携させたエージェントパイプラインを開発し，自律的に空間的視覚質問応答データを生成した。
- 生成されたデータセットSpatialMedは，複数の臓器と腫瘍タイプに対応した約1万件の質問と回答のペアから構成され，医療マルチモーダル大規模言語モデルの3D空間知能を評価するための包括的なベンチマークとなる。
- 最新の14種類のマルチモーダル大規模言語モデルの評価から，現在のモデルは医療画像における堅牢な空間推論能力を欠いていることが示された。
Link: https://arxiv.org/abs/2603.13800
ALTIS：センチネル1 SARによる損失のトリアージと影響スコアリングを用いた，物件レベルの洪水被害評価の自動化 [cs.CV]目的：物件レベルの洪水被害に対する影響スコアの自動算出
- 洪水は世界的に甚大な経済的損失をもたらす。迅速な被害状況把握が不可欠である。
- 従来の保険業界の対応は，人手による現地調査に依存しており，時間とコストがかかる。
- 本研究は，SAR画像を用いた迅速かつ効率的な被害評価システムの構築を目指す。
- ALTISは，センチネル1 SAR画像から24～48時間以内に物件レベルの洪水被害影響スコアを算出する5段階のパイプラインである。
- ハリス郡（テキサス州）におけるハービー・ハリケーン（2017年）の分析結果から，重度被害の90％を回収した場合，約52％の不要な現地派遣を削減できる見込みである。
- 本研究は，地球観測研究を保険業務の成果に変換するための方法論的基盤を確立する。
Link: https://arxiv.org/abs/2603.13803
量子応答下における意思決定の集約 [cs.GT]目的：個人の合理性と確率性に着目した集団意思決定における最適な集約方法
- 集団意思決定は重要だが，個人の認知限界や不確実性が課題となる
- 従来の合理性モデルでは，個人の行動の確率的な側面が十分に考慮されていない
- 量子応答モデルを用いて，合理性が低い状況下での最適な集約方法を解明する
- 合理性が一定水準を下回る場合，多数決が最適な集約方法であることが示された
- 集団の意思決定のランダム性は，決定的な行動では失われる弱い情報を符号化し，結果的に合理的な主体を上回る性能を発揮する可能性がある
- 大規模言語モデル（LLM）を用いた検証により，適度な確率性を持つLLMの出力を集約することで，複雑な推論タスクの精度が向上することが確認された
Link: https://arxiv.org/abs/2603.13807
降水適応エキスパート混合モデルを用いた長期降雨予測 (PA-Net) [cs.AI, cs.CV, cs.LG]目的：長期降雨予測における精度向上
- 洪水警報，農業管理，緊急対応など，社会に不可欠な技術である。
- 大規模な時空間データと極端な降水量の分布の偏りが課題となっていた。
- 降水強度に応じて計算資源を最適化し，豪雨予測の精度向上を目指す。
- PA-Netは，降水強度に応じて活性化されるエキスパート数を動的に調整する。
- Dual-Axis Compressed Latent Attentionにより，大規模な時空間データを効率的に処理する。
- ERA5データを用いた実験で，特に豪雨・暴雨において既存手法を上回る成果が得られた。
Link: https://arxiv.org/abs/2603.13818
テキスト-オーディオ生成システムにおける意味的脆弱性の評価：制御されたプロンプト摂動下での検討 [cs.SD, cs.AI]目的：テキスト-オーディオ生成システムの意味的脆弱性
- 近年の進歩により，テキストから多様な音楽への生成が可能になった。実用化には信頼性が重要である。
- わずかな言語変化がオーディオに大きな変化をもたらす可能性があり，システムの頑健性が不明である。
- 意味内容を維持しつつプロンプトを変化させることで，システムの脆弱性を定量的に評価する。
- 大規模モデルの方が意味的一貫性が高く，MLSとISにおいて高いコサイン類似度を示した。
- しかし，音響的・時間的分析では，類似度が高い場合でもずれが残ることが示された。
- 脆弱性は多Modal埋め込みの整合性よりも，意味から音響への変換段階で生じやすいと考えられる。
Link: https://arxiv.org/abs/2603.13824
深層学習を用いた効率的な半自動材料ミクロ構造解析：アディティブマニュファクチャリングにおける事例研究 [cs.CV, cond-mat.mtrl-sci, cs.LG]目的：材料ミクロ構造解析のための半自動セグメンテーションパイプラインの開発
- 材料の特性と性能を理解する上で，ミクロ構造解析は不可欠である。
- 材料画像の多様性により，従来の画像処理技術や深層学習では十分なセグメンテーションが困難である。
- 高品質なラベル付きデータの不足を補い，効率的なセグメンテーションを実現すること。
- アクティブラーニングパイプラインにより，ユーザーによる修正を組み込みながらモデルを反復的に更新した。
- 提案手法SMILEは，他の手法と比較して，macro F1スコアを0.74から0.93に向上させた。
- SMILEは，手動アノテーション時間を約65％削減し，スケーラビリティと堅牢性を確保した。
Link: https://arxiv.org/abs/2603.13831
MOGeo: 複数の視点からのオブジェクト地理位置特定を超えて [cs.CV]目的：クロスビューマルチオブジェクト地理位置特定
- 災害対応や都市計画など，地理空間情報は様々な分野で不可欠である。
- 既存手法は単一オブジェクトを前提とし，現実の複雑な状況に対応できない。
- 複数のオブジェクトを含む地理位置特定を可能にし，実用的な応用を目指す。
- 新しいベンチマークデータセットCMLocationを構築し，評価環境を整備した。
- 提案手法MOGeoは，既存手法と比較して高い性能を示すことが確認された。
- より現実的な設定でのオブジェクト地理位置特定は依然として困難な課題である。
Link: https://arxiv.org/abs/2603.13843
サイレンの囁き：音声駆動LLMに対する可聴外近超音波による脱獄 [cs.CR, cs.AI, cs.SD]目的：音声駆動LLMに対する，現実的な環境下での秘密裏なプロンプトベース攻撃
- 音声インターフェース利用増加に伴い，音響チャネルを介した新たなセキュリティリスクが顕在化している。
- 既存の手法では，実用的な環境下で高精度かつ秘匿的にプロンプトを注入することが困難であった。
- 市販デバイスを用いて，LLMを脱獄する高忠実度の秘密音響チャネルを確立し，実用的な攻撃手法を提案する。
- SWhisperは，近超音波にプロンプトをエンコードし，音声インターフェースを通じてLLMを効果的に脱獄可能。
- 商用モデルにおいて，最大0.94の非拒否率(NR)と0.925の特定の説得力(SC)を達成した。
- ユーザー調査の結果，注入された脱獄音は背景音と弁別がつかないことが確認された。
Link: https://arxiv.org/abs/2603.13847
VFM-Loc：識別的な視覚階層を整列させることによるゼロショットクロスビュージオロケーション [cs.CV]目的：リモートセンシングにおけるクロスビュージオロケーションの実現
- 災害時の状況把握や地図作成など，多様な応用が期待される分野である。
- 既存手法は，視点差やデータセットの偏りにより，実世界での汎化性能が低い。
- 事前学習済みの特徴量の整列により，視点差を克服し，実世界での汎化性能を高める。
- 提案手法VFM-Locは，既存の教師あり学習手法を大幅に上回る精度を，LO-UCVデータセットで示した。
- 視覚階層の抽出と統計的マニホールドの整列という戦略により，クロスビューギャップを効果的に克服した。
- VFM-Locは，訓練不要でロバストな実世界ジオロケーションを実現する新たなパラダイムを確立した。
Link: https://arxiv.org/abs/2603.13855
OrigamiBench：折り畳み可能な折り紙を合成するためのインタラクティブな環境 [cs.LG, cs.CV]目的：折り紙の自動合成のためのインタラクティブなベンチマーク環境
- 物理世界で計画・行動・創造するAIの実現には，パターン認識を超えた理解が不可欠である。
- 既存のベンチマークは，視覚認識とプログラム的推論を分離しており，統合的な評価が困難である。
- 視覚，幾何学的制約，計画を統合し，AIの物理的推論能力を評価することを目指す。
- OrigamiBenchは，モデルが折りを提案し，物理的妥当性と目標形状への類似性に関するフィードバックを受け取る環境である。
- 現在のビジョン・言語モデルは，モデルサイズの拡大だけでは物理的変換に関する因果的推論能力が向上しないことが示された。
- 一連の折り畳み戦略を生成することが難しく，視覚と言語表現の統合が不十分であることが示唆された。
Link: https://arxiv.org/abs/2603.13856
創発的学習：ハッシュを用いない動的カテゴリ発見のためのフレームワーク [cs.CV]目的：動的カテゴリ発見における新規カテゴリの認識能力向上
- 未知のカテゴリの出現に対応できる機械学習システムは，現実世界の多様なデータへの適応に不可欠である。
- 既存手法は，学習段階と推論段階の目的のずれや，表現能力の制約という課題を抱えている。
- 学習段階で新規カテゴリへの意識を組み込み，推論時の発見能力を向上させることを目指す。
- 提案手法LTCは，軽量なオンライン疑似未知生成器を用いて，学習時に新規カテゴリを意識した学習を実現する。
- 疑似未知サンプルを二重最大マージン目的関数を通じて組み込むことで，未知領域の識別能力を強化する。
- 7つのベンチマークにおいて，既存手法と比較して1.5%から13.1%の精度向上を達成した。
Link: https://arxiv.org/abs/2603.13858
Geo-ID：テスト時幾何学的合意によるクロスビュー一貫性のあるイントリンシック推定 [cs.CV]目的：クロスビュー一貫性のあるイントリンシック分解の実現
- 物理ベースレンダリングパラメータ推定は，編集可能なニューラルシーンや3D再構成に不可欠。
- 単一画像からの推定は高いが，複数ビュー間での一貫性が課題となり，応用を制限している。
- 疎な画像コレクションにおいても，幾何学的対応を用いて一貫性のある推定を可能にする。
- Geo-IDは，事前学習済みの単一画像推定器を再利用し，テスト時に幾何学的対応を通じてクロスビューの一貫性を実現する。
- 再学習や逆レンダリングを必要とせず，既存のイントリンシック推定器に直接適用可能である。
- 実験により，ビュー数が増加するにつれてクロスビューの一貫性が向上し，単一画像性能も維持されることが示された。
Link: https://arxiv.org/abs/2603.13859
必然的な遭遇：損失圧縮を伴うバックドア攻撃 [eess.SY, cs.SY, cs.CR, cs.CV]目的：損失圧縮環境下におけるバックドア攻撃の有効性
- 深層学習システムの安全性確保は重要であり，バックドア攻撃への対策が不可欠である。
- 画像圧縮による情報損失が，バックドア攻撃のトリガーを無効化する問題がある。
- 圧縮後のデータでもトリガー情報を保持し，バックドア攻撃を成功させる手法を開発する。
- 画像圧縮におけるROI（関心領域）コーディングメカニズムを利用した新たな攻撃戦略を提案した。
- Universal Attack ActivationとCompression-Adapted Attackの2つの手法により，損失圧縮下でのバックドア攻撃の有効性を実証した。
- 提案手法は，従来のコーデックと学習型画像圧縮の両方で適用可能である。
Link: https://arxiv.org/abs/2603.13864
二相認知カスケードによる忘却ゼロ継続的セマンティックセグメンテーション [cs.CV]目的：継続的セマンティックセグメンテーションにおける忘却問題の解決
- コンピュータビジョンの中核課題であり，多様な応用への基盤技術となる。
- 既存手法では，逐次的にクラスを学習する際に，過去の知識が失われる「破滅的忘却」が発生する。
- 二相カスケード構造により，新規クラスの学習と既存知識の保持を両立し，忘却を抑制する。
- 提案手法CogCaSは，クラス存在検出とクラス固有セグメンテーションを分離することで，より効果的な継続学習を実現した。
- PASCAL VOC 2012とADE20Kのベンチマークデータセットにおいて，既存の最先端手法と比較して著しい性能向上を示した。
- 特に，長期間の増分タスクシーケンスにおいて，その効果が顕著に現れた。
Link: https://arxiv.org/abs/2603.13874
Step-CoT：医療画像質問応答のための段階的視覚的思考過程 [cs.CV, cs.AI, cs.CL]目的：医療画像質問応答における段階的な視覚的思考過程の構築
- 医療診断の精度向上には，画像からの正確な情報抽出と論理的な推論が不可欠である。
- 既存の思考過程は自由形式で，臨床医の構造化された思考プロセスを捉えきれていない。
- 臨床診断ワークフローに沿った，追跡可能な多段階の推論を促進し，精度と解釈性を向上させる。
- Step-CoTは，10K件以上の臨床事例と70K件の質問応答ペアを含む大規模な医療推論データセットである。
- 本研究で提案する教師・生徒フレームワークは，診断的に重要なステップを優先し，無関係な情報をフィルタリングする。
- Step-CoTを利用することで，医療画像質問応答の推論精度と解釈性の向上が確認された。
Link: https://arxiv.org/abs/2603.13878
リモートセンシング画像におけるマルチスケール物体検出のためのYOLOv11nの二重戦略による改善 [cs.CV]目的：リモートセンシング画像におけるマルチスケール物体検出精度の向上
- リモートセンシング技術は，災害監視や土地利用分析など，幅広い分野で不可欠である。
- 高解像度画像や複雑なシーン，対象物のスケール変化により，物体検出は困難を伴う。
- YOLOv11nの検出精度を向上させ，多様なスケールの物体検出を可能にすること。
- 提案手法は，YOLOv11nの軽量性を維持しつつ，mAP@0.5を1.3%および1.8%向上させた。
- Large Separable Kernel Attention機構とGold-YOLO構造の導入により，小物体とマルチスケール物体の特徴抽出能力を強化した。
- DOTAv1データセットを用いた実験により，提案手法の有効性と実用性が実証された。
Link: https://arxiv.org/abs/2603.13879
SCoCCA：正準相関分析によるマルチモーダル疎概念分解 [eess.SY, cs.SY, cs.CV]目的：ビジョン言語モデルの内部推論の解釈
- 安全性が重要な分野におけるAI展開には，モデルの内部動作を理解することが不可欠である。
- 既存手法は画像に限定され，クロスモーダルな相互作用が考慮されていない。
- マルチモーダル埋め込みにおける概念レベルの解釈可能性を高めることを目指す。
- 正準相関分析（CCA）とInfoNCEの目的関数が密接に関連することを示した。
- 概念ベースの説明可能性とCCAを組み合わせたCoCCAフレームワークを提案した。
- さらにSCoCCAを提案し，疎性を課すことで，解釈可能な概念分解を改善した。
Link: https://arxiv.org/abs/2603.13884
中国語テキスト認識のためのマルチモーダル文字位置特定と抽出 [cs.CV, cs.AI]目的：中国語テキスト認識における文字の位置特定と抽出
- 画像からテキストを認識する技術は，自動運転や文書処理など幅広い分野で重要である。
- 中国語は構造が複雑で文字の種類が多いため，既存の英語向け技術の精度が伸び悩んでいる。
- 英語向けモデルをそのまま中国語に適用することの妥当性を検証し，新たな手法を提案する。
- 提案手法LERは，文字の位置特定，抽出，認識の3つのモジュールで構成される。
- 中国語の複雑な構造を考慮し，各文字を独立して認識することで高い精度を実現した。
- 大規模な中国語データセットでの実験により，既存手法を大きく上回る性能が確認された。
Link: https://arxiv.org/abs/2603.13886
UVLM：再現性のあるマルチモーダルベンチマークのための汎用ビジョン言語モデルローダー [cs.LG, cs.AI, cs.CV]目的：ビジョン言語モデルのローディング，設定，ベンチマークの統一的インターフェース
- 画像理解タスクにおいて，ビジョン言語モデルは強力なツールとなりつつある。
- モデル間のアーキテクチャの異質性が大きく，実用的な展開が妨げられている。
- 異なるモデルを同一の条件で比較するためのフレームワークを構築すること。
- UVLMは，LLaVA-NeXTとQwen2.5-VLを含む複数のVLMアーキテクチャをサポートする。
- カスタムの画像分析タスクに対して，統一された推論関数を提供し，プロンプトと評価プロトコルの一貫性を保つ。
- 街並み画像のコーパスを用いたベンチマークにより，VLMの複雑な推論能力を評価した。
Link: https://arxiv.org/abs/2603.13893
ノイズラベルに対する閉ループラベル修正を用いたロバストな自己教師あり学習 [cs.LG, cs.AI, cs.CV]目的：ノイズラベルからの学習におけるロバスト性の向上
- 深層学習の性能はデータ量に依存するが，現実世界のデータにはノイズを含む場合が多い。
- 既存手法はノイズサンプルの利用効率が低く，計算コストが高いという課題がある。
- ノイズの少ないデータと特徴量を利用し，誤差の増幅を防ぐ自己教師あり学習フレームワークを提案する。
- 提案手法は，分類器と修正関数を共進化させ，閉ループフィードバックシステムを構築することで，ノイズの影響を軽減する。
- 理論的保証により安定性が示されており，CIFARやClothing1Mなどのベンチマークデータセットで最先端の性能を達成した。
- 学習時間の短縮も確認され，ノイズラベルからの学習への実用的な適用性を示唆している。
Link: https://arxiv.org/abs/2603.13894
CT条件付き拡散事前分布と物理制約サンプリングによるPET超解像 [cs.CV]目的：PET超解像のための手法
- PET画像は診断に不可欠だが，高解像度なPET画像を得ることは困難である。
- PET超解像は，ペアとなるマルチ解像度スキャンが不足しており，制約が少ない。
- 解剖学的構造や物理的制約が弱い場合に発生する，幻覚構造の抑制。
- 提案手法は，標準的およびOOD条件下で，既存手法よりも実験指標と臨床的妥当性を向上させた。
- CT画像を利用した拡散事前分布により，解剖学的な指針を与え，幻覚アーチファクトを低減した。
- スキャナに依存する前方モデルと勾配ベースのデータ整合性により，測定の一貫性を確保し，構造的忠実度を高めた。
Link: https://arxiv.org/abs/2603.13901
都市交通監視のための分散音響センシング：再帰型ニューラルネットワークにおける時空間的注意機構 [cs.LG, cs.SD]目的：都市交通監視のための分散音響センシングにおける時空間的注意機構の有効性
- 都市のモビリティ向上，安全性確保，持続可能性支援のため，効果的な交通監視が不可欠である。
- 既存の光ファイバー網を活用するDASデータは高解像度だが，その時空間構造のモデル化が困難である。
- DASデータの時空間的特徴を捉え，信頼性の高い交通イベント認識を実現することを目的とする。
- 時空間的注意機構を再帰型ニューラルネットワークに組み込むことで，認識精度とモデルの複雑さのバランスが改善された。
- 注意機構のヒートマップは，分類判断の根拠となる空間的場所と時間的セグメントを可視化し，解釈可能性を高めた。
- 提案するSA-bi-TA構成は，学習データとは異なる場所での交通イベント認識において，空間的な転移性を実証した。
Link: https://arxiv.org/abs/2603.13903