arXiv雑要約

画像・音声 - 2026/03/11 公開

トリガーの除去ではなく，バックドアそのものの排除：代替トリガーと潜在的バックドア [cs.CV, cs.CR]目的：代替トリガーと潜在的バックドアの存在とその対策
- 機械学習モデルへのバックドア攻撃はセキュリティ上の重大な脅威であり，防御技術の確立が急務である。
- 既存の防御策は特定のトリガーの除去に焦点を当てており，トリガー以外の経路によるバックドア攻撃への対策が不十分である。
- 本研究は，トリガーに依存しないバックドアの特性を明らかにし，より強固な防御策を提案することを目的とする。
- 研究により，学習時に使用されたトリガーとは異なる代替トリガーが存在し，バックドアを活性化させることが示された。
- 代替トリガーは，特徴空間におけるバックドアの方向性を利用することで効率的に特定できることが明らかになった。
- 既存のトリガー除去防御策がバックドアを完全に排除できない場合があり，特徴空間におけるバックドア方向性を標的とする防御策の必要性が示唆された。
Link: https://arxiv.org/abs/2603.09772
欠けているものは何か？不在の概念によって活性化されるニューロンの説明 [cs.CV, cs.LG]目的：深層ニューラルネットワークにおける不在概念によるニューロン活性化の解明
- 説明可能なAIは，モデルの振る舞いを人間が理解しやすい形で提示し，信頼性と透明性を高める上で重要である。
- 既存の説明手法は，概念の存在に焦点を当てており，概念の不在がニューロン活性化に与える影響を無視している。
- 不在概念によるニューロン活性化を明らかにし，既存の説明手法を拡張することで，モデルの理解を深めることを目指す。
- 概念の不在がニューロン活性化を引き起こす現象が一般的であることが示された。
- 標準的なXAI手法では，この不在概念による活性化を捉えることが困難であることが確認された。
- 帰属および特徴可視化技術を拡張することで，不在概念を明らかにし，ImageNetモデルにおけるその利用が示された。
Link: https://arxiv.org/abs/2603.09787
テスト時エゴ・エキソセントリック適応による行動予測：マルチラベルプロトタイプ成長とデュアル手がかり一貫性 [cs.CV]目的：行動予測のためのテスト時エゴ・エキソセントリック適応
- 人間とロボットの協調など，多様な応用において，エゴ視点とエキソ視点の効率的な適応が重要である。
- 既存の方法は，ターゲット視点のデータに依存しており，計算コストやデータ収集コストが増大する。
- ターゲット視点の行動を予測するために，テスト時にソース視点モデルをオンラインで適応させることを目指す。
- 提案手法であるDCPGNは，マルチラベル知識の蓄積とクロスモダリティ手がかりの統合により，エゴ・エキソセントリック適応と行動予測を効果的に行う。
- ML-PGMは，マルチラベル割り当てと信頼度に基づく重み付けにより，複数の正クラスをバランスさせ，クラスごとのメモリバンクを更新する。
- DCCMは，行動の進行を示すテキスト手がかりを生成し，視覚手がかりを補完することで，エゴ視点とエキソ視点の間の時間的・空間的なギャップを埋める。
Link: https://arxiv.org/abs/2603.09798
RA-SSU：領域認識音源理解によるきめ細かいオーディオビジュアル学習へ [cs.DB, cs.CV]目的：領域認識音源理解を通じた，きめ細かいオーディオビジュアル学習の実現
- シーン理解やインタラクションにおいて重要な役割を果たす多Modal学習の基礎となる分野である。
- 既存研究は，粗粒度な視点での課題に注力しており，詳細なシーン知覚情報の提供が不足している。
- フレームレベルで，領域を意識した高品質な音源理解を実現し，より詳細なシーン知覚を可能とする。
- 新たなタスクであるRA-SSUを定義し，詳細な音源理解を可能にする2つのデータセット（f-Music，f-Lifescene）を構築した。
- SSUFormerを提案し，音源セグメンテーションと音源領域記述を多Modal入力・出力で実現する。
- 実験により，RA-SSUの実現可能性，データセットの有用性，SSUFormerの優位性が確認された。
Link: https://arxiv.org/abs/2603.09809
Confidence-Awareな補間によるビデオ拡散における精密なカメラ制御 [cs.CV]目的：大規模な視点変化下における，2枚の入力画像からの新規視点合成
- 3Dコンテンツ作成において，新たな視点からの映像生成は重要であり，リアリティのある体験を提供する。
- 従来の回帰ベース手法では未知領域の再構成が難しく，カメラ誘導型拡散モデルはノイズの影響で軌道が不安定になる。
- 確信度を考慮した補間により，カメラ制御と未知領域の補完を両立し，安定した映像生成を目指す。
- 提案手法ConfCtrlは，拡散モデルが指定されたカメラ姿勢に従いながら，未知領域を補完することを可能にする。
- 信頼性の高い投影に依存しつつ，不確実な領域の重みを下げることで，幾何学的に整合性のある映像を生成する。
- 複数のデータセットでの実験により，大規模な視点変化下でも隠れた領域を効果的に再構成できることが示された。
Link: https://arxiv.org/abs/2603.09819
EmoSURA：詳細かつ長文脈な感情表現音声キャプションの正確な評価に向けて [cs.SD]目的：感情表現音声キャプションの評価手法
- 音声技術の進展により，感情表現を含む詳細な音声キャプションの生成が可能になった。
- 従来の評価指標では，意味のニュアンスを捉えきれず，長文に対する大規模言語モデルの評価も不安定である。
- 音声信号に基づいた検証により，長文キャプションの信頼性向上を目指す。
- EmoSURAは，キャプションを「原子的知覚単位」に分解し，音声信号との照合検証を行う新しい評価フレームワークである。
- SURABenchという標準的な評価ベンチマークを新たに導入した。
- EmoSURAは人間による評価と正の相関を示し，従来の指標よりも長文キャプションの評価において信頼性があることが示された。
Link: https://arxiv.org/abs/2603.09820
BrainSTR：解釈可能な動的脳ネットワークモデリングのための時空間コントラスト学習 [cs.CL, cs.ET, physics.optics, cs.CV]目的：解釈可能な動的脳ネットワークモデリング
- 精神神経疾患の診断向上に，時間変動する脳活動の解析が不可欠である。
- 疾患に関連する脳活動の変化は微細で，時間と脳部位にまばらに分布しやすい。
- 微細な診断信号を捉え，解釈可能な動的脳ネットワークを構築すること。
- BrainSTRは，適応的な位相分割モジュールにより状態間の整合性を保った位相境界を学習する。
- 注意機構を用いて診断的に重要な位相を特定し，二値化，時間的滑らかさ，スパース性を考慮した増分グラフ構造生成器で疾患関連の結合を抽出する。
- 時空間コントラスト学習により，サンプル間の類似度指標を洗練し，ASD，BD，MDDにおける有効性が検証された。
Link: https://arxiv.org/abs/2603.09825
VLM-Loc：ビジョン言語モデルによる点群マップでの位置推定 [cs.CV]目的：点群マップからの自然言語記述に基づく高精度な空間位置の推定
- ロボット工学や自動運転において，周囲環境の正確な理解と位置把握は不可欠である。
- 従来の技術は，テキストと点群間の浅い対応に頼るため，複雑な環境下での精度が課題であった。
- ビジョン言語モデルの空間推論能力を活用し，よりロバストで高精度な位置推定を実現することを目指す。
- 提案手法VLM-Locは，点群を鳥瞰画像とシーングラフに変換し，言語と空間意味を繋ぐ表現を学習する。
- シーングラフのノードとテキスト情報を関連付ける部分ノード割り当てメカニズムにより，解釈可能な空間推論を実現する。
- 新しいベンチマークCityLocを用いた実験により，VLM-Locが最先端手法と比較して優れた精度とロバスト性を示すことが確認された。
Link: https://arxiv.org/abs/2603.09826
MA-EgoQA：複数エージェントからの一人称視点動画に対する質問応答 [cs.CV, cs.AI]目的：複数エージェントから収集された一人称視点動画の同時理解
- AIエージェントとの協働が身近になる中で，円滑なコミュニケーションが不可欠である。
- 複数のエージェントからの大量の視覚情報を効率的に処理し，統合的に理解することが困難である。
- 複数エージェントからの視覚情報を統合し，高度なシステムレベルの理解を目指す。
- 本研究では，複数エージェントから収集された一人称視点動画に対する質問応答のベンチマークデータセットMA-EgoQAを提案した。
- MA-EgoQAは，社会的相互作用，タスク連携，心の理論，時間的推論，環境との相互作用など，5つのカテゴリーを網羅する1700件の質問を提供する。
- 既存のアプローチでは，複数の一人称視点動画の同時処理が困難であり，エージェント間のシステムレベルの理解が課題であることが示唆された。
Link: https://arxiv.org/abs/2603.09827
拡散モデルにおけるプロンプト駆動型色彩アクセシビリティ評価 [cs.GR, cs.HC]目的：拡散モデル生成画像の色彩アクセシビリティに関する評価
- 画像生成技術は創造的ワークフローに不可欠であり，アクセシビリティ確保が重要である。
- 色彩視覚異常を持つユーザーへの配慮が画像生成モデルでは十分ではない。
- 既存モデルのアクセシビリティ対応能力を評価し，改善の方向性を示す。
- 生成画像の色彩アクセシビリティを既存のCVDシミュレーション手法で定量的に評価した。
- 新たな評価指標CVDLossを提案し，色彩アクセシビリティ改善の感度を検証した。
- 拡散モデルはアクセシビリティを意識したプロンプトへの応答に課題があることが示された。
Link: https://arxiv.org/abs/2603.09832
SCENEBench：支援技術と産業利用を基盤とする音声理解ベンチマーク [cs.SD, cs.AI]目的：音声理解の評価
- 音声処理技術は，多様な分野で不可欠であり，その重要性は増している。
- 従来の音声認識以外の音声理解能力の評価方法が不足していた。
- 実用的な音声理解能力を評価し，モデル改善の方向性を示す。
- 大規模言語モデル(LLM)を基盤とする音声モデル(LALM)の性能を，実際の利用場面を想定した4つのカテゴリで評価した。
- その結果，タスクによって性能に大きな差があり，いくつかのタスクではランダムよりも低い性能しか示されなかった。
- このベンチマークは，音声認識にとどまらない，音声の理解度向上に貢献することが期待される。
Link: https://arxiv.org/abs/2603.09853
MissBench：不均衡なモダリティ欠損下におけるマルチモーダル感情分析のベンチマーク [cs.CL, cs.CV]目的：マルチモーダル感情分析における，モダリティ欠損の不均衡性に対する評価基準とフレームワーク
- 感情分析や感情認識は重要なタスクであり，マルチモーダルなアプローチが不可欠である。
- 現実のアプリケーションでは，モダリティの欠損が不均衡に発生しやすく，学習にバイアスが生じやすい。
- 不均衡なモダリティ欠損下でのモデルの公平性と最適化の偏りを評価し，改善するためのツールを提供する。
- MissBenchは，4つの感情分析データセットで共有欠損と不均衡欠損のプロトコルを標準化するベンチマークである。
- モダリティエクイティ指数(MEI)は，異なるモダリティの貢献度の公平性を評価し，モダリティラーニング指数(MLI)は，学習中の最適化の偏りを定量化する。
- 実験により，共有欠損下で堅牢に見えるモデルでも，不均衡な条件下ではモダリティの不公平性や最適化の偏りを示すことが明らかになった。
Link: https://arxiv.org/abs/2603.09874
InternVL-U：理解，推論，生成，編集のための統合マルチモーダルモデルの民主化 [cs.CV]目的：統合マルチモーダルモデルの能力民主化
- マルチモーダルモデルは，画像とテキストを統合し，より高度なAI実現に不可欠である。
- 大規模モデルは高性能だが，計算コストが高く，利用が限られている。
- 軽量でありながら高性能なモデルを開発し，より多くの研究者が利用可能にすること。
- InternVL-Uは40億パラメータの軽量モデルでありながら，従来のモデルを上回る性能を示す。
- テキストレンダリングや科学的推論などの高セマンティック密度タスクにおいて，優れた性能を発揮する。
- 推論中心パラダイムとChain-of-Thoughtを活用し，ユーザー意図と視覚的生成の詳細を整合させている。
Link: https://arxiv.org/abs/2603.09877
疎な運動ガイダンスとマルチタスク補助による人-物体相互作用動画生成 [cs.CV]目的：制御可能で物理的に整合性の取れた人-物体相互作用（HOI）動画の生成
- 人間中心の動画生成は進歩しているが，制御性と物理的整合性が課題である。
- 既存手法は，密な制御信号やテンプレート動画に依存し，柔軟性や汎化性能に限界がある。
- 疎な運動ガイダンスによって，直感的で汎用的なHOI動画生成を実現する。
- 本研究では，手首関節座標と物体バウンディングボックスのみを用いた疎な運動ガイダンスによるDISPLAYというフレームワークを提案する。
- 物体に焦点を当てたアテンション機構により，疎な条件下の再現性を向上させている。
- 高品質なHOIデータの不足に対応するため，マルチタスク補助学習戦略とデータキュレーションパイプラインを開発した。
Link: https://arxiv.org/abs/2603.09883
スポーツにおける空間知能のベンチマーク：VLMsの活用 [eess.SY, cs.SY, cs.CV]目的：スポーツシーンにおける視覚言語モデル（VLM）の空間知能の評価
- スポーツは人間の身体能力と認知能力の限界に挑戦する場であり，学術的な関心が高い。
- 既存の空間知能ベンチマークは，スポーツのような複雑な動的シーンに対応できていない。
- スポーツシーンに特化したデータセットとベンチマークを構築し，VLMの空間知能を向上させる。
- CourtSIは，バドミントン，テニス，卓球など，ネットスポーツに特化した100万件以上のQAペアを含む大規模データセットである。
- CourtSI-Benchを用いて25のVLMを評価した結果，既存のベンチマークからの汎化性能に限界があることが示された。
- Qwen3-VL-8BをCourtSIでファインチューニングすることで，CourtSI-Benchでの精度が23.5%向上し，未知のスポーツへの汎化性能も向上した。
Link: https://arxiv.org/abs/2603.09896
802.11 MACプロトコルが非効率な均衡をもたらす [cs.NI, cs.GT]目的：802.11 MACプロトコルの均衡状態の効率性
- 無線LAN技術は広く普及しており，社会インフラとして重要性が増している。
- 既存のMACプロトコルでは，各ノードが自己最適化することでシステム全体の効率が低下する可能性がある。
- 非協調環境下における802.11 MACプロトコルの非効率性を解明し，改善策を提示する。
- ゲーム理論モデルとシミュレーションにより，既存の802.11 DCFが非効率な均衡状態に陥ることが示された。
- DCFおよび802.11eにおける分散協調機能(DCF)では，ノード間の相互作用がシステム全体のパフォーマンスを損なう。
- チャネル資源の割り当てと伝送戦略を分離することで，より効率的な均衡状態を実現できる可能性が示唆された。
Link: https://arxiv.org/abs/2603.09902
WikiCLIP：オープン領域視覚エンティティ認識のための効率的なコントラスト学習ベースライン [eess.SY, cs.SY, cs.CV]目的：オープン領域視覚エンティティ認識のための効率的かつ強力なベースライン
- 視覚情報と知識ベースを関連付け，画像の内容理解を深める上で不可欠な研究分野である。
- 既存手法は計算コストが高く，実用的な展開が困難であるという課題がある。
- 計算効率を向上させつつ，高い認識精度を実現することを目指す。
- WikiCLIPは，既存の強固なベースラインを大幅に上回る性能を示す。
- 特に，OVENのunseenセットにおいて16%の性能向上を達成した。
- 推論速度は，最先端の生成モデルAutoVERと比較して約100倍に短縮された。
Link: https://arxiv.org/abs/2603.09921
3D形状最適化におけるチャムファー距離の構造的失敗について [cs.CV, cs.GR]目的：3D形状最適化におけるチャムファー距離の構造的失敗の原因と解決策
- 点群処理は，3Dモデリングやコンピュータビジョンの基盤技術であり，多様な応用が期待される。
- チャムファー距離は広く利用されているが，最適化が必ずしも性能向上につながらないという問題がある。
- チャムファー距離最適化における勾配構造の崩壊を抑制し，より効果的な最適化手法を確立すること。
- チャムファー距離の勾配が，点対一の崩壊を引き起こすことが示された。これは局所的な正則化では解決しない。
- 崩壊を抑制するには，局所的な範囲を超えた結合が必要であるという条件が導かれた。
- 2Dや3D形状変換において，結合を強化する手法がチャムファー距離のギャップを減らす効果が確認された。
Link: https://arxiv.org/abs/2603.09925
関節角度モーション画像とトークンパッチ後方相互作用によるきめ細かいモーション検索 [cs.DB, cs.CV, cs.IR]目的：自然言語記述と3D人体モーションスケルトン系列間の意味的に整合した潜在空間の学習
- モーション検索は，ロボット制御や人間とコンピュータのインタラクションなど，様々な分野で重要である。
- 既存手法はグローバルな埋め込みを用いるため，詳細な局所的な対応関係が失われ，精度が低下する。
- 本研究は，解釈可能なきめ細かいテキストとモーションの対応関係を実現する。
- 提案手法は，HumanML3DとKIT-MLのデータセットで，最先端のテキスト-モーション検索手法を上回る性能を示した。
- 関節角度に基づくモーション表現と，トークン単位の後方相互作用機構MaxSimの改良により，解釈可能性の高い検索結果が得られた。
- Masked Language Modelingによる正則化が，堅牢なテキスト-モーションの整合性を促進する。
Link: https://arxiv.org/abs/2603.09930
臨床情報を考慮した潜在拡散モデルによるマルチモーダル脳画像生成と欠損モダリティ補完 [cs.CV, cs.AI]目的：マルチモーダル脳画像生成と欠損モダリティ補完の枠組み
- アルツハイマー病診断には，複数の脳画像モダリティを組み合わせた解析が重要である。
- 臨床データセットでは，画像モダリティの一部が欠損している場合が多く，診断精度低下の原因となる。
- 欠損したモダリティを補完し，診断精度を維持・向上させることを目指す。
- ACADiffは，臨床情報を考慮した適応的な拡散プロセスにより，欠損した脳画像モダリティを高精度に合成する。
- ADNIデータセットを用いた評価で，ACADiffは既存手法を上回り，欠損率80%という厳しい条件下でも優れた生成品質と診断性能を維持した。
- GPT-4oを活用したセマンティックな臨床ガイダンスにより，より適切な画像生成を実現している。
Link: https://arxiv.org/abs/2603.09931
ターゲットのみの周辺差分不一致による教師なしドメイン適応 [cs.CV]目的：介入CBCTにおける肝臓セグメンテーション性能の向上
- 画像診断技術は，低侵襲治療の精度向上に不可欠であり，CBCTはその重要なツールである。
- 介入CBCTデータは，アノテーションが少なく，利用可能なデータセットが限られているという課題がある。
- CBCTとCTのドメインギャップを埋め，アノテーション不足を克服し，肝臓セグメンテーションを改善することを目指す。
- 提案手法は，周辺差分不一致（MDD）の最適化フレームワークを再構成し，ターゲットドメインの性能を向上させる。
- CTとCBCTのデータセットを用いた実験の結果，肝臓セグメンテーションにおいて最先端の性能を達成した。
- 少量のデータを用いた学習においても優れた結果を示し，実用性の高さが確認された。
Link: https://arxiv.org/abs/2603.09932
画像を用いないでも問題ない：k空間のアンダーサンプリングからのエンドツーエンドマルチタスク心臓解析 [cs.CV, cs.AI]目的：アンダーサンプリングされたk空間データから心臓の生理学的ラベルを直接抽出する手法
- 心臓MRIは疾患診断に不可欠だが，計算コストが高い。
- 従来の画像再構成アプローチでは，情報損失やアーチファクトが発生しやすい。
- k空間から直接診断に必要な情報を抽出することで，これらの問題を解決する。
- k-MTRは，アンダーサンプリングされたk空間データと完全な画像を共有の潜在空間に整合させる。
- 大規模シミュレーションにより，k-MTRはアンダーサンプリングによる解剖学的情報の損失を潜在空間で回復する。
- 連続的表現の回帰，疾患分類，解剖学的セグメンテーションにおいて，最先端の画像ベースラインと同等の性能を達成した。
Link: https://arxiv.org/abs/2603.09945
Multiple Instance Learningにおける全スライド難易度を活用し，前立腺がんのグレード分類を改善する [cs.CV]目的：前立腺がん全スライド画像のグレード分類における性能向上
- 病理画像診断支援は，医師の負担軽減や診断精度の向上に不可欠である。
- 熟練医と非熟練医の間で診断が乖離することがあり，学習データに影響を及ぼす。
- 全スライド難易度を考慮することで，診断の難しい症例に対する分類精度を高める。
- 全スライド難易度を学習に組み込むことで，様々な特徴抽出器やMIL手法において分類性能が向上した。
- 特に高グレードの前立腺がん（より深刻な診断）において，その効果が顕著であった。
- マルチタスクアプローチと重み付き損失関数アプローチのいずれも有効であることが示された。
Link: https://arxiv.org/abs/2603.09953
意味からピクセルへ：階層的視覚理解のための粗から細へのマスク自己エンコーダー [cs.CV, cs.LG]目的：階層的視覚表現の学習
- 視覚的理解は，画像認識や物体検出など，多様な応用において不可欠である。
- 既存の自己教師あり学習法では，大域的な意味と細部の両立が困難である。
- 意味に基づいた学習から徐々に細部へと焦点を当てることで，よりロバストな表現を獲得する。
- C2FMAEは，意味マスク，インスタンスマスク，RGB画像という3つの粒度で階層的視覚表現を学習する。
- カスケードされたデコーダーが，シーンセマンティクスからオブジェクトインスタンス，そしてピクセル詳細へと順に再構成を行う。
- 画像分類，物体検出，セマンティックセグメンテーションにおいて，顕著な性能向上を達成した。
Link: https://arxiv.org/abs/2603.09955
閉塞下における言語条件付きナビゲーションアフォーダンス予測：BEACON [cs.CC, cs.RO, cs.AI, cs.CV]目的：閉塞下での言語条件付きナビゲーションアフォーダンス予測
- ロボットの自律的な移動において，周囲の状況を理解し，人間からの指示に基づいて効率的に移動する能力は重要である。
- 従来の画像と言語の空間的対応手法は，視覚情報に依存しており，閉塞された領域での目標位置の推論が困難である。
- 本研究は，閉塞された領域を含む広範囲な領域でアフォーダンスヒートマップを予測することにより，この問題を解決することを目的とする。
- BEACONは，ロボットの周囲のRGB-D情報を活用し，空間的情報をVLＭに注入することで，BEVヒートマップを予測する。
- 閉塞された目標位置を含む検証サブセットにおいて，最先端の画像空間ベースラインと比較して，平均精度が22.74パーセントポイント向上した。
- BEV空間での表現と，各モジュールの設計選択が有効であることが確認された。
Link: https://arxiv.org/abs/2603.09961
ReCoSplat：レンダーと照合を用いた自己回帰型前方ガウススプラッティング [cs.CV]目的：新規視点合成のための手法
- 視覚情報の理解や生成において，3次元シーンの表現は重要であり，多様な応用が期待される。
- 従来のオンライン新規視点合成は，不安定なシーン再構成や姿勢推定の誤差が課題であった。
- 姿勢推定誤差に強く，長時間のシーケンスにも対応可能な新規視点合成手法を開発する。
- ReCoSplatは，カメラ姿勢の有無，内部パラメータの有無にかかわらず，優れた性能を発揮する。
- レンダーと照合（ReCo）モジュールは，姿勢誤差を補正し，安定した条件付け信号を提供する。
- ハイブリッドKVキャッシュ圧縮戦略により，KVキャッシュサイズを90%以上削減し，長シーケンスに対応する。
Link: https://arxiv.org/abs/2603.09968
データ統計から特徴ジオメトリへ：相関が重ね合わせをどのように形作るか [cs.CL, cs.RO, cs.LG, cs.AI, cs.CV]目的：ニューラルネットワークにおける特徴の重ね合わせの構造
- 機械的解釈可能性の分野において，ニューラルネットワークの内部表現理解は重要である。
- 既存の研究では，特徴間の相関が考慮されず，理想化された設定に限定されていた。
- 現実的なデータにおける特徴の相関が重ね合わせに与える影響を明らかにすること。
- 特徴間に相関が存在する場合，干渉はノイズではなく，建設的な役割を果たすことが示された。
- 特徴を共起パターンに従って配置することで，活性な特徴間の干渉を建設的にし，誤検出を避ける。
- 重み減衰を用いたモデルでは，意味的なクラスタや環状構造が自然に発生することが確認された。
Link: https://arxiv.org/abs/2603.09972
普遍的な音声内容因子分解 [eess.AS, cs.SD]目的：低ランクな音声表現の抽出
- 音声処理技術は，人間と機械の円滑なコミュニケーションに不可欠である。
- 話者固有の情報が音声表現に強く影響し，内容の分離が困難である。
- 話者情報を抑制しつつ，音声内容を保持する表現を獲得すること。
- USCFは，話者依存性を効果的に除去し，低ランクな音声表現を抽出する。
- ゼロショット音声変換システムとして，USCFは高い可聴性，自然性，話者類似度を達成する。
- USCFの特徴量は，音声合成モデルの音色プロンプトとして利用可能である。
Link: https://arxiv.org/abs/2603.08977
敵対的ロバスト音声認識のためのニューラルオーディオコーデックにおける容量とロバスト性のトレードオフ [eess.AS, cs.SD]目的：敵対的ロバスト性に関するトレードオフ
- 音声認識技術は，人間と機械のコミュニケーションにおいて重要な役割を担っている。
- 敵対的摂動は音声認識システムに脆弱性があり，認識精度を低下させる可能性がある。
- ニューラルオーディオコーデックを用いて，敵対的摂動に対するロバスト性を改善することを試みる。
- 残差ベクトル量子化（RVQ）の深さが，敵対的ロバスト性に影響を与えることが示された。
- 浅い量子化は敵対的摂動を抑制するが，音声品質を低下させる。一方，深い量子化は音声と摂動の両方を維持する。
- 中間的な深さが，これらの効果のバランスを取り，書き起こしエラーを最小限に抑えることがわかった。
Link: https://arxiv.org/abs/2603.09034
空を「磨く」：強重力レンズ発見への応用を伴う広視野・高ダイナミックレンジ干渉画像再構成 [math.OC, cs.SY, eess.SY, astro-ph.IM, cs.CV, eess.IV]目的：広視野・高ダイナミックレンジ干渉画像再構成の実現
- 電波干渉計は高分解能な天体観測を実現し，宇宙の謎解きに不可欠である。
- 従来の画像再構成手法は計算コストが高く，実用化には課題が残る。
- 深層学習を活用し，現実的な条件での高精度な画像再構成を目指す。
- 本研究では，既存の深層学習モデルPOLISHを改良し，広視野・高ダイナミックレンジに対応した。
- シミュレーション結果から，提案手法は画像再構成の品質と安定性を大幅に向上させることが示された。
- 強重力レンズの検出において，既存手法を上回る性能を示し，次世代電波望遠鏡での観測に貢献する可能性がある。
Link: https://arxiv.org/abs/2603.09162
肺がん検診コホートにおける放射学的PPFE変化と死亡率の関連 [q-bio.QM, cs.CV, eess.IV, stat.AP]目的：肺がん検診における放射学的PPFE変化と死亡率および呼吸器疾患との関連
- 肺線維症は重篤な呼吸器疾患であり，早期発見と管理が重要である。
- 肺がん検診におけるPPFEの変化が，予後や呼吸器疾患に及ぼす影響は不明であった。
- 肺がん検診におけるPPFE進行の評価により，リスクの高い患者を特定することを目指す。
- PPFEの年間変化量は，NLSTおよびSUMMITコホートの両方で死亡率と独立して関連していた。
- PPFEの進行を示す群では，生存期間の短縮が確認された。
- SUMMITコホートでは，PPFEの変化量は呼吸器疾患による入院率の上昇や，抗菌薬・ステロイドの使用増加と関連していた。
Link: https://arxiv.org/abs/2603.09531
CycleULM：ラベルフリー超音波定位顕微鏡法のための統一的深層学習フレームワーク [physics.optics, cs.ET, cs.SY, eess.SY, eess.IV, cs.CV]目的：超音波定位顕微鏡法（ULM）におけるマイクロバブル局在化と追跡の性能向上
- 微小血管の可視化は，疾患の早期発見や治療効果の評価において重要である。
- 従来の超音波では分解能に限界があり，微小血管の観察が困難である。
- ラベル付きデータの不足やシミュレーションと実際の乖離を解決し，実用的なULMを実現すること。
- CycleULMは，ラベルフリー学習により，高精度なシミュレーターやラベル付きデータへの依存を解消した。
- 造影超音波（CEUS）のコントラスト比を最大15.3dB改善し，点像の幅を2.5倍に減少させた。
- マイクロバブルの局在化性能を向上させ，再現率を最大40%，適合率を46%改善し，平均定位誤差を14.0μm削減した。
Link: https://arxiv.org/abs/2603.09840
コンパクトな双方向アーキテクチャによる画像キャプション生成 [cs.CV, cs.CL]目的：画像キャプション生成における性能向上
- 画像とテキストを結びつける技術は，画像検索や視覚障碍者支援などに応用が期待される。
- 既存の画像キャプション生成モデルは，左から右への一方向的な処理に依存しており，文脈を十分に活用できていない。
- 双方向アーキテクチャにより，過去と未来の文脈を効率的に活用し，キャプション生成の精度を高める。
- コンパクトな双方向Transformerモデルを提案し，並列処理が可能になった。
- 文レベルアンサンブルと単語レベルアンサンブルを組み合わせることで，より高い性能を実現した。
- MSCOCOベンチマークにおいて，従来のモデルを上回る最先端の結果を達成した。
Link: https://arxiv.org/abs/2201.01984
PnLCalib：点と線最適化によるスポーツフィールド登録 [cs.CV, cs.AI]目的：スポーツフィールド登録の精度向上
- スポーツ映像解析において，正確なフィールド登録は不可欠である。選手の動きや戦術分析に必要となる。
- 従来手法は初期カメラ位置の推定に依存し，動的な環境や特殊なカメラ位置では精度が低下する。
- 3Dフィールドモデルと線分検出を活用し，初期推定に依存しない高精度なカメラ較正を実現する。
- 提案手法は，既存技術と比較して，マルチビューおよびシングルビュー3Dカメラ較正において優れた性能を示す。
- 特に，フィールドラインの非線形最適化による改良モジュールが，初期較正の精度向上に貢献する。
- SoccerNet-Calibration等の実データを用いた実験により，多様な放送環境下でのロバスト性と精度が実証された。
Link: https://arxiv.org/abs/2404.08401
TIMotion：効率的な人間同士のモーション生成のための時間的・相互作用的フレームワーク [cs.CV]目的：人間同士のモーション生成
- 人間を社会的な存在として理解する上で，人間同士のモーション生成は不可欠である。
- 既存手法は，単独人物ベース，または分離モデリングベースであり，相互作用のモデリングが不十分である。
- 時間的・因果的特性を考慮したモデリングと役割変化への適応により，モーション生成の性能向上を目指す。
- 本研究では，時間的・相互作用的モデリングフレームワークTIMotionを提案し，人間同士のモーション生成における効率性と有効性を示す。
- 提案手法では，因果的相互作用注入と役割進化スキャンを用いて，時間的・因果的な関係性をモデル化し，相互作用中の役割変化に対応する。
- 実験結果から，TIMotionがInterHumanおよびInterXデータセットにおいて，既存手法を上回る性能を達成することが確認された。
Link: https://arxiv.org/abs/2408.17135
任意の精度と疎性におけるニューラルネットワークのロバストな学習 [cs.LG, cs.AI, cs.CL, cs.CV, cs.NA, math.NA]目的：ニューラルネットワークのロバスト性の向上
- AI技術の発展に伴い，計算資源の効率的な利用が重要になっている。
- 量子化や疎性化は計算コスト削減に有効だが，勾配消失や不安定性を招く。
- 量子化ノイズへのロバスト性を高め，安定した学習を可能にすること。
- 本研究では，量子化を付加ノイズとして明示的にモデル化する手法を提案した。
- これにより，勾配パスを明確にし，量子化ノイズに対するロバスト性を獲得できる。
- 提案手法は，最新のLLMにおいて最先端の結果を示し，効率的なニューラルネットワークへの理論的根拠を提供する。
Link: https://arxiv.org/abs/2409.09245
特権情報を用いたデータセット縮約 [cs.CV, cs.AI, cs.LG]目的：データセット縮約における性能維持
- 大規模データセットの効率的な学習が重要であるため。
- 既存手法では，データとラベルのみを利用し，情報量が限定的である。
- 特権情報を活用し，より効果的なデータセット縮約を実現すること。
- 提案手法DCPIは，既存のデータセット縮約手法と容易に統合可能である。
- ImageNet-1K等の実験で，DCPIが性能向上に寄与することが示された。
- 効果的な特徴ラベルは，識別力と多様性のバランスが重要であることが判明した。
Link: https://arxiv.org/abs/2410.01611
疎な変換分析に基づく教師なし表現学習 [cs.LG, cs.CV]目的：系列データからの表現の学習
- 表現学習は，機械学習の性能向上に不可欠であり，データから有用な特徴を抽出する上で重要である。
- 既存手法では，学習された表現が解釈困難であったり，変換に対する汎化性能が低いという課題があった。
- 潜在変数の変換を疎な成分に分解することで，解釈性と汎化性能を向上させることを目指す。
- 提案手法は，系列データから疎な変換場を学習し，データの尤度と近似的な等変性誤差において最先端の結果を達成した。
- 学習された表現は，独立な因子だけでなく，独立な変換素因子の組み合わせによって表されるため，解釈可能性が高い。
- 確率フローモデルを回転場とポテンシャル場に分解することで，表現の学習を効率的に行うことを可能にした。
Link: https://arxiv.org/abs/2410.05564
ビジョン言語モデルの事前知識を用いたアクティブプロンプト学習 [eess.SY, cs.SY, math.OC, cs.CV]目的：アクティブプロンプト学習フレームワークの効率化
- ビジョン言語モデルは多様な分類タスクで高いゼロショット性能を示す。
- タスクごとに手作りされたテキストプロンプトへの依存が，新しいタスクへの効率的な適応を妨げる。
- 限られたラベルデータで高精度を実現するデータ選択戦略を確立し，ラベルコストを削減する。
- 提案手法は，クラスを考慮したクラスタリングにより，初期ラウンドからクラスバランスの取れたデータ取得を実現する。
- ビジョン言語モデルが示すクラスごとの信頼度のばらつきを考慮し，適応的な閾値に基づいた効率的なクエリ選択を行う。
- ７つのデータセットにおける実験で，既存手法と比較して高い性能を示すことが確認された。
Link: https://arxiv.org/abs/2411.16722
複合現実における協調的問題解決：視覚グラフ分析に関する研究 [cs.HC, cs.ET, cs.GR]目的：視覚グラフ分析における協調的問題解決の有用性
- 問題解決は認知活動の根幹であり，集団で行うことで複雑な課題に対応可能となる。
- 協調的環境が，個人の能力を最大限に引き出せるかどうかの評価基準が不足している。
- 複合現実環境における協調的問題解決の有効性を，客観的な指標を用いて検証する。
- 実験の結果，従来の基準グループとの比較において，3次元グラフ表示だけでは協調的な成果向上は確認されなかった。
- 複合現実環境における協調的作業を評価する際には，基準となるグループ設定が重要であることが示唆された。
- 課題の複雑さが視覚的需要に与える影響を定量化し，協調的問題解決の設計に役立てることが期待される。
Link: https://arxiv.org/abs/2412.14776
ARSGaussian: LiDARを用いた航空リモートセンシングのための3次元ガウススプラッティングによる新規視点合成 [cs.CV, cs.GR]目的：航空リモートセンシングにおける新規視点合成手法の開発
- 航空リモートセンシングは広範囲の情報を効率的に取得でき，環境認識や目標物検出に不可欠である。
- 遠距離や希薄な視点角により，既存手法では浮遊感や過剰な生成物が発生し，精度が低下する。
- LiDAR点群を制約条件として導入し，ガウススプラッティングの精度向上と高品質な画像生成を目指す。
- LiDAR点群を制約として3次元ガウススプラッティングに組み込むことで，過剰な生成物や浮遊感を抑制することに成功した。
- 歪みパラメータを考慮した座標変換により，LiDAR点群と多視点光学画像のピクセルレベルでの正確な融合を実現した。
- 深度，法線，スケールの整合性損失を導入し，ガウスの形状を誘導することで，幾何学的推定精度を大幅に向上させた。
Link: https://arxiv.org/abs/2412.18380
CuriousBot: 行動可能な3次元関係オブジェクトグラフによるインタラクティブな移動探索 [cs.RO, cs.CV, cs.LG]目的：行動可能な3次元関係オブジェクトグラフを用いた，インタラクティブな移動探索
- ロボットの自律探索は重要であり，環境理解と効率的な行動計画を可能にする。
- 既存手法は受動的な知覚に偏っており，ロボットの環境との積極的な相互作用が不足している。
- 本研究は，大規模な空間や複雑な行動空間における，積極的な相互作用による探索課題を解決する。
- 3次元関係オブジェクトグラフを導入することで，多様な物体間の関係性を表現し，探索行動を可能にした。
- 様々なシーンでの実験により，本システムの有効性と汎化性能が実証された。
- 視覚言語モデルのみに依存する手法と比較して，性能が向上した。
Link: https://arxiv.org/abs/2501.13338
iMarkers：高度なロボティクス向けの不可視フィデュシャルマーカー [cs.RO, cs.CV]目的：不可視フィデュシャルマーカーiMarkersの可能性
- ロボティクスでは，ナビゲーションや物体認識にマーカーが不可欠。しかし，従来のマーカーは視覚的な邪魔になる。
- 環境美観を損なうため，人眼に付随する用途には従来のマーカーは適さないという課題がある。
- 本研究は，ロボットやARデバイスのみが検出可能な，目立たないマーカーiMarkersを提案し，その問題を解決する。
- iMarkersは，従来のマーカーと比較して，環境への影響を抑えつつ，高い検出精度を実現した。
- 可視範囲や符号化アルゴリズムのカスタマイズが可能で，多様なロボティクスシナリオへの応用が期待される。
- ハードウェア設計とオープンソースの検出アルゴリズムを公開し，iMarkersの適応性と堅牢性を示した。
Link: https://arxiv.org/abs/2501.15505
準価値に基づくデータ評価における効用関数の影響 [cs.AI, cs.GT, cs.LG]目的：準価値に基づくデータ評価の効用関数に対する頑健性
- データはAI開発の重要な資源であり，その価値を定量化する需要が高まっている。
- 準価値に基づくデータ評価は，効用関数設定に依存するため，結果の安定性に課題がある。
- データセットの空間的署名を用いて，効用関数変化に対する頑健性を評価する手法を提案する。
- データ点を低次元空間に埋め込むことで，任意の効用関数が線形関数となり，評価の幾何学的解釈を可能にする。
- 提案手法は，効用関数の変化に対するデータ評価結果の変動を定量化する頑健性指標を提供する。
- 多様なデータセットでの検証により，ランキング相関分析と整合性があり，効用関数の選択が頑健性に与える影響を明らかにしている。
Link: https://arxiv.org/abs/2502.06574
Wi-Fiセンシングの汎化性能に関する調査：分類，手法，データセット，および将来の研究展望 [cs.CV]目的：Wi-Fiセンシングの汎化性能向上に関する研究の包括的なレビュー
- Wi-Fiセンシングは，人間活動認識や生体情報モニタリングなど，様々な応用において重要な役割を担う技術である。
- Wi-Fiセンシングは，新しいユーザー，デバイス，環境への適用時に性能が低下しやすいという課題がある。
- Wi-Fiセンシングシステムの汎化性能を高め，実用的な応用を促進することを目的とする。
- 2015年以降に発表された200以上の論文を分析し，Wi-Fiセンシングパイプラインに沿って手法を分類した。
- 信号前処理，ドメイン適応，メタ学習など，汎化性能を向上させるための主要な技術を詳細に検討した。
- 利用可能なデータセットを整理し，大規模な事前学習やマルチモーダルモデルとの統合など，将来の研究の方向性を示した。
Link: https://arxiv.org/abs/2503.08008
認識協調型シーンテキスト編集 [cs.CV]目的：シーン画像内のテキスト内容の変更
- シーンテキスト編集は，現実世界の多様な視覚情報に対応するテキスト操作技術として重要である。
- 既存手法は複雑なパイプラインを持ち，複雑な状況下では性能が十分でないという課題がある。
- テキスト認識と編集の相乗効果を活用し，簡素な構造で高性能な編集を実現することを目指す。
- 提案手法RS-STEは，テキスト認識と編集を統合した統一フレームワークを採用している。
- マルチモーダル並列デコーダにより，テキスト内容と様式化された画像を同時に予測する。
- 自己教師あり学習により，ペアでない実データでも効果的な学習が可能であり，合成データおよび実データで最先端の性能を達成した。
Link: https://arxiv.org/abs/2503.08387
拡散モデルと教師・生徒共同学習による半教師あり生体医用画像セグメンテーション [eess.SY, cs.SY, eess.SY, cs.SY, math.OC, eess.SY, cs.SY, cs.CV]目的：拡散モデルと教師・生徒共同学習を用いた生体医用画像セグメンテーション手法の開発
- 生体医用画像解析は，疾患診断や治療計画において不可欠であり，高精度なセグメンテーションが求められる。
- 深層学習は高い性能を示す一方，学習に大量の注釈付きデータが必要であり，臨床現場での適用が困難な場合が多い。
- 注釈付きデータが少ない状況下でも，セグメンテーション精度を向上させる手法の確立が課題である。
- 本研究では，ノイズ除去拡散確率モデル（DDPM）を活用した半教師あり学習フレームワークを提案し，少ない注釈付きデータでも高精度なセグメンテーションを可能にした。
- 教師モデルは，サイクル整合性制約に基づいたノイズ混入画像再構成により，教師なし学習で意味のあるセグメンテーションマスクを生成する。
- 提案手法は，複数の生体医用画像ベンチマークにおいて，既存の半教師あり学習手法を上回る性能を示し，その有効性を実証した。
Link: https://arxiv.org/abs/2504.01547
AI生成画像検出のための新たなデータセットと偽装増幅手法 [cs.CV]目的：局所的なAI生成画像検出のためのデータセットと手法の開発
- 視覚コンテンツの信頼性確保が重要課題であり，AI生成技術の進化に伴い偽造検出の必要性が高まっている。
- 既存のデータセットは主に物体レベルの偽造に焦点を当てており，空や地面などの広範囲なシーン編集に対応できていない。
- シーンを意識した高品質な偽造画像データセットを構築し，局所的な偽造を高精度に検出する手法を確立することを目指す。
- 大規模データセットBR-Genを構築し，高品質な偽造画像を15万枚収集した。
- ノイズ誘導偽装増幅Vision Transformer (NFA-ViT) を提案し，画像全体の偽造関連特徴を増幅することで検出性能を向上させた。
- 提案手法は既存手法を上回り，多様なベンチマークにおいても高い汎化性能を示した。
Link: https://arxiv.org/abs/2504.11922
M4-SAR：光学・SARオブジェクト検出のためのマルチ解像度，マルチ偏波，マルチシーン，マルチソースデータセットおよびベンチマーク [cs.DC, cs.RO, cs.CV]目的：光学・SAR画像融合によるオブジェクト検出
- リモートセンシング技術は，広範囲の地理情報を効率的に取得でき，防災や環境監視に不可欠である。
- 単一のセンサーでは，環境条件や画像特性により，検出精度が制限される場合がある。
- 大規模で標準化されたデータセットの不足が，光学・SAR画像融合の進展を妨げている。
- M4-SARデータセットは，11万件以上の画像ペアと約100万件のアノテーションを含む大規模なデータセットである。
- 光学画像とSAR画像の融合により，単一ソースの入力と比較してmAPが5.7%向上することが示された。
- 提案手法E2E-OSDetは，ドメイン間の不一致を軽減し，今後の研究の基盤となる。
Link: https://arxiv.org/abs/2505.10931
MARRS：マスクされた自己回帰ユニットに基づく反応合成 [cs.CV]目的：人間のアクションと反応の合成
- 人間行動の理解と生成は，ロボット工学やバーチャルリアリティなど，多様な分野で重要である。
- 既存のベクトル量子化法は，情報損失やコードブックの利用効率の低さといった課題がある。
- 連続表現を用いて，協調的で詳細な反応モーションを生成することを目指す。
- 提案手法MARRSは，体と手を独立してエンコードするUnit-distinguished Motion VAE (UD-VAE) を導入する。
- Action-Conditioned Fusion (ACF) により，行動情報に基づいた反応トークンのマスクと抽出を実現する。
- Adaptive Unit Modulation (AUM) を用いて，体と手のユニット間の相互作用を促進し，高性能な反応合成を可能にする。
Link: https://arxiv.org/abs/2505.11334