arXiv雑要約

画像・音声 - 2026/03/13 公開

FBCIR：合成画像検索におけるクロスモーダル焦点の均衡化 [cs.CV, cs.AI]目的：合成画像検索におけるクロスモーダル焦点の不均衡の分析と改善
- 画像とテキストの情報を統合し，より高度な画像検索を実現する技術として注目されている。
- 既存モデルは，意味的に類似した負例画像が存在する場合に精度が低下しやすいという課題がある。
- モデルが特定のモダリティに偏重する問題を分析し，データ拡張による改善を目指す。
- 提案手法FBCIRにより，既存の合成画像検索モデルにクロスモーダル焦点の不均衡が存在することが確認された。
- 困難な負例画像を含むデータセットを拡張することで，モデルの性能が向上することが示された。
- 提案手法は，標準的なベンチマークにおいても性能を維持しつつ，難しいケースでの精度を改善する。
Link: https://arxiv.org/abs/2603.11520
EReCu：マルチ手掛かり学習による擬似ラベル進化融合と洗練を用いた，教師なし迷彩物体検出 [cs.CV, cs.AI]目的：教師なし迷彩物体検出の性能向上
- 迷彩物体検出は，軍事，セキュリティ，野生動物保護など，様々な分野で重要な役割を担う。
- 従来の教師なし迷彩物体検出は，対象物体と背景の類似性が高く，ノイズの多い擬似ラベルに依存するため，困難である。
- 本研究は，擬似ラベルの信頼性と特徴の忠実性を高め，より正確な迷彩物体検出を実現することを目指す。
- マルチ手掛かりネイティブ知覚モジュールにより，低レベルテクスチャと中間レベルセマンティクスを統合し，マスクとネイティブオブジェクト情報の正確なアライメントを実現した。
- 擬似ラベル進化融合は，教師・生徒間の相互作用とDepthwise Separable Convolutionを用いて，ラベルの洗練と効率的なセマンティックノイズ除去を行う。
- スペクトルテンソルアテンション融合により，多層アテンションマップにわたるコンパクトなスペクトル集約を通じて，セマンティック情報と構造情報のバランスを効果的に調整した。
Link: https://arxiv.org/abs/2603.11521
MDS-VQA：モデル情報に基づく動画品質評価のためのデータ選択 [cs.CV]目的：動画品質評価のためのデータ選択メカニズム
- 動画品質評価は，動画サービスの品質向上に不可欠であり，その重要性は増している。
- 既存の動画品質評価モデルは，学習データに偏りがあり，汎化性能が低いという課題がある。
- 既存モデルの弱点を克服し，効率的にモデルを改善するためのデータ選択手法を開発すること。
- MDS-VQAは，既存モデルにとって難易度が高く，かつコンテンツが多様な動画を効率的に選択できる。
- ターゲットドメインの5%のデータセットでファインチューニングすることで，平均SRCCが0.651から0.722に向上した。
- また，gMADランキングで最高位を達成し，強力な適応性と汎化性を示した。
Link: https://arxiv.org/abs/2603.11525
モバイルGS：モバイルデバイス向けリアルタイムガウススプラッティング [cs.CY, cs.CV]目的：モバイルデバイス上でのガウススプラッティングの効率的な推論
- 3Dコンテンツの高品質なレンダリング需要が高まる中で，効率的な表現方法が求められている
- ガウススプラッティングは計算コストとストレージコストが高く，モバイルデバイスへの実装が困難である
- モバイル環境でのリアルタイムレンダリングとモデルサイズの縮小を実現すること
- 提案手法Mobile-GSは，ガウス深度ソートのボトルネックを解消する深度を考慮した順序非依存レンダリングを導入した
- 透明度のアーティファクトを抑制するため，視点方向と3Dガウス幾何学に基づいたニューラルビュー依存エンハンスメント戦略を提案した
- 球面調和蒸留，ニューラルベクトル量子化，貢献度に基づくプルーニングにより，モデルサイズを削減し，高品質なレンダリングを実現した
Link: https://arxiv.org/abs/2603.11531
リスク制御可能なマルチビュー拡散による運転シナリオ生成 [cs.CV]目的：自動運転システムの評価と改善のための安全性が重要な運転シナリオの生成
- 自動運転技術の安全性向上には，多様な運転シナリオでのテストが不可欠である。
- 現実世界のデータからは稀な危険な状況の収集が難しく，手動でのシナリオ設計にも限界がある。
- リスクを制御可能にしたシナリオ生成手法を確立し，安全性の高い自動運転システムの開発を支援する。
- 提案手法RiskMV-DPOは，リスクレベルを組み込んだ物理に基づいたリスクモデリングにより，多様で危険度の高い軌道を生成する。
- 空間的・時間的一貫性を保つため，幾何学的なアライメントモジュールと，動きを考慮したRA-DPO戦略を導入した。
- nuScenesデータセットでの実験により，3D検出mAPが18.17から30.50に向上，FIDは15.70に減少することが示された。
Link: https://arxiv.org/abs/2603.11534
ReHARK：ロバストなワンショット視覚言語適応のための改良型ハイブリッド適応RBFカーネル [cs.RO, cs.CV, cs.AI]目的：ワンショット視覚言語適応における安定性と可塑性の両立
- 大規模な視覚言語モデルは多様なタスクに応用可能だが，データが限られた状況下での性能向上が課題である。
- 既存の学習不要適応手法は局所的な推定に偏り，グローバルな構造的正規化が不足している。
- ReHARKは，カーネル空間におけるグローバルな近接正則化により，ワンショット適応の課題を解決する。
- ReHARKは，CLIPとGPT-3の知識を融合し，視覚クラスのプロトタイプと組み合わせることで，ロバストなセマンティック・視覚的アンカーを構築する。
- 視覚的およびテキスト形式間の移行をスムーズにするために，中間サンプルを生成するサポートセット拡張（ブリッジング）を導入する。
- ReHARKは，11の多様なベンチマークにおいて既存のベースラインを大幅に上回り，平均精度65.83%という新たな最先端性能を達成した。
Link: https://arxiv.org/abs/2603.11542
Mango-GS：マルチフレームノード誘導4Dガウススプラッティングによる動的シーン再構成における時空間一貫性の向上 [cs.CV]目的：動的シーンの高品質な4D再構成
- 現実世界を忠実に再現するため，動的3Dシーンの再構成技術は重要である。
- 既存手法では，瞬間的な状態に過剰適合し，真の運動ダイナミクスを捉えきれない場合がある。
- 時空間一貫性を高め，より自然な動的シーン再構成を実現すること。
- Mango-GSは，一時的な状態への過剰適合を抑制し，運動の背後にあるダイナミクスをより正確に捉える。
- フレーム内の制御ノードに時間的Transformerを適用することで，一貫性のある変形を実現した。
- 実験により，Mango-GSが最先端の再構成品質とリアルタイムレンダリング速度を達成することが示された。
Link: https://arxiv.org/abs/2603.11543
PCA強化確率的U-Netによる効果的な曖昧性のある医用画像セグメンテーション [cs.CV]目的：曖昧性のある医用画像セグメンテーションにおける性能向上
- 医用画像解析は，診断や治療計画において不可欠であり，その精度向上は患者予後の改善に繋がる。
- 医用画像にはノイズや曖昧性が含まれることが多く，セグメンテーションの精度を低下させる要因となっている。
- 高次元潜在空間の冗長性と表現力の限界を克服し，セグメンテーション精度と予測変動性のバランスを取る。
- 提案手法であるPEP U-Netは，PCAを用いて潜在空間の次元削減を行い，計算効率を向上させている。
- 逆PCA演算により重要な情報を再構成することで，潜在空間の表現能力を高めている。
- 従来の生成モデルと比較して，セグメンテーションの多様性と精度を両立し，医用画像セグメンテーションの性能を向上させている。
Link: https://arxiv.org/abs/2603.11550
合成開口プロジェクタを用いた卓上作業空間における影のないプロジェクションマッピング [cs.HC, cs.CV, cs.GR]目的：卓上作業空間における影のないプロジェクションマッピングの実現
- プロジェクションマッピングは，HMDなしでAR体験を提供し，複数ユーザーのインタラクションを可能にする技術として重要である。
- 従来のプロジェクションマッピングシステムは，ユーザーによる光路の遮断によって影が発生するという課題がある。
- 本研究では，多数のプロジェクタを密集配置することで，遅延なく影のないプロジェクションマッピングを実現し，その課題を解決する。
- 合成開口プロジェクションマッピングシステムにより，計算による補償なしで卓上作業空間における影のない投影を実現した。
- サブピクセル Misalignmentによる空間解像度低下に対し，オフラインでのぼかし補償手法を開発し，検証した。
- ユーザー調査に基づき，「投影感」を最小化するプロジェクションマッピング設計フレームワークを確立した。
Link: https://arxiv.org/abs/2603.11551
MANSION：長距離タスクのための多階層3Dシーン生成 [cs.CV, cs.AI, cs.RO]目的：大規模な建物環境の生成と評価
- 現実世界のロボットタスクは空間的な推論を必要とし，その重要性は増している。
- 既存の環境は単一階層に限られ，現実世界の複雑さを反映できていない。
- 多階層環境における空間推論と計画能力の向上を目指す。
- MANSIONは，言語指示に基づいて，現実的で移動可能な多階層3D環境を生成するフレームワークである。
- MansionWorldは，1,000以上の多様な建物（病院やオフィスなど）を含むデータセットであり，タスクに応じた環境編集も可能である。
- 最先端のエージェントは本環境で性能が低下し，MANSIONが新たな評価環境としての重要性を示す。
Link: https://arxiv.org/abs/2603.11554
マルチモーダル知覚に基づくデュアル条件付き拡散モデルによる画像美観の向上 [cs.CV]目的：画像美観の向上
- 画像美観は主観的評価であり，人間の視覚的感受性に深く関わるため，高品質な画像生成に不可欠である。
- 既存の画像編集モデルは制御性と柔軟性が高い一方で，美観の向上という点では課題が残されている。
- 曖昧な美観指示を明示的なガイダンスに変換し，弱ペア画像データセットを有効活用することで美観向上を目指す。
- 提案手法DIAEは，マルチモーダル美観知覚（MAP）を導入し，美観に関する詳細な指示を生成する。
- 弱ペア画像データセットIIAEDataを活用し，デュアルブランチの教師あり学習フレームワークを採用した。
- 実験結果から，DIAEは既存手法を上回り，画像美観およびコンテンツの一貫性において優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.11556
TornadoNet：順序尺度を用いたリアルタイム建築物被害検出 [cs.CV]目的：災害後の建築物被害評価手法の性能評価
- 自然災害発生時の迅速な被害状況把握は，効率的な復旧活動に不可欠である。
- 既存の被害検出手法では，被害レベルの順序関係を十分に考慮できていない場合がある。
- 被害レベルの順序関係を考慮した，より精度の高い被害検出手法を開発する。
- TornadoNetは，実際の災害状況を再現したベンチマークデータセットを提供し，建築物被害検出におけるアーキテクチャと損失関数の影響を分析した。
- YOLOモデルは高い検出精度と処理速度を示し，RT-DETRモデルは被害レベルの順序の一貫性に優れていることが示された。
- 順序尺度に基づいた教師データと損失関数を用いることで，RT-DETRモデルの性能が向上し，被害レベル推定の精度が向上した。
Link: https://arxiv.org/abs/2603.11557
段階的視覚言語学習：物理的に根拠のある具現化タスク計画 [cs.CV, cs.RO]目的：物理的に根拠のある具現化タスク計画のための手法
- ロボットによるタスク実行において，視覚情報と言語を統合した計画は不可欠である。
- 既存手法では，視覚情報と時間的推論のバランスが難しく，不安定な最適化が生じやすい。
- 視覚的依存関係と時間的推論を分離し，安全で現実的な行動計画を可能にすること。
- 段階的視覚言語学習（SVLL）は，空間的理解と時間的推論を分離することで，頑健な計画を可能にする。
- Bias-DPOは，専門家の行動を模倣し，非現実的な行動や誤りを抑制する。
- AI2-THORベンチマークと実世界ロボット実験で，最先端モデルを上回るタスク成功率と物理的制約違反の低減を実現した。
Link: https://arxiv.org/abs/2603.11563
R4Det：高性能3D物体検出のための4Dレーダー・カメラ融合 [cs.CV]目的：高性能3D物体検出
- 自動運転技術の発展において，周辺環境の正確な認識が不可欠である。
- 既存手法では，深度推定の精度不足や，自己車両の姿勢推定誤差が課題となっている。
- レーダーとカメラの情報を効果的に融合し，ロバストな物体検出を実現すること。
- R4Detは，パノラマ深度融合モジュールにより深度推定の精度を向上させている。
- 変形ゲート付き時間的融合モジュールにより，自己車両の姿勢に依存しない時間的融合を実現している。
- インスタンス誘導動的洗練モジュールにより，小物体検出性能を向上させている。
Link: https://arxiv.org/abs/2603.11566
LED表示と非周期レンズアレイを用いた光場照明による高コントラスト投影マッピング [cs.HC, cs.DC, physics.hist-ph, quant-ph, cs.HC, cs.GR]目的：高コントラスト投影マッピングの実現
- 投影マッピングは，特別なデバイスなしに複数ユーザーが共有できるAR体験を提供する技術である。
- 高品質な投影には暗い環境が必要であり，実用上の制約となっていた。
- 明るい環境下でも高コントラストな投影マッピングを可能にすること。
- 提案手法は，対象物を避けながら周囲を照射するターゲット排除型照明を実現した。
- LED表示パネルと最適化された非周期レンズアレイを組み合わせることで，自然な影を再現しつつ，空間的な制御性を維持した。
- 実験により，明るい環境下でも高コントラストな投影マッピングが可能であることが示された。
Link: https://arxiv.org/abs/2603.11573
波形生成のための複素ニューラルネットワークの探求 [cs.RO, cs.NI, cs.SD, cs.AI]目的：複素数値演算に基づくニューラルボコーダの設計
- 自然で表現力豊かな音声を生成する音声合成技術の重要性が高まっている。
- 既存のボコーダは，計算コストや表現力の限界といった課題を抱えている。
- 複素スペクトログラムの構造を捉え，より高品質かつ効率的な波形生成を目指す。
- 提案手法ComVoは，複素数値演算をネイティブに用いることで，従来のボコーダよりも高い合成品質を達成した。
- 位相量子化により，位相変換を構造化し，学習過程の安定化に貢献している。
- ブロック行列計算スキームは，冗長な演算を削減し，学習時間を約25%短縮することに成功した。
Link: https://arxiv.org/abs/2603.11589
WeEdit：テキスト中心画像編集のためのデータセット，ベンチマーク，およびグリフ誘導フレームワーク [cs.CV]目的：テキスト中心画像編集のためのデータセット，ベンチマーク，およびフレームワーク
- 画像編集技術は，コンテンツの生成や操作において重要な役割を担う。その中でもテキストは，画像の理解と操作において不可欠である。
- 既存の画像編集モデルは，複雑なテキスト編集において精度が低く，文字がぼやけたり，幻覚が生じたりする課題がある。
- テキスト中心画像編集に特化した学習パラダイムと大規模データセットを構築し，編集精度と品質の向上を目指す。
- WeEditは，多様な編集操作と15言語に対応する33万組の学習ペアを生成するHTMLベースの自動編集パイプラインを提案した。
- グリフ誘導による教師ありファインチューニングと，指示への適合性，テキストの明瞭性，背景の保存を目的とした多目的強化学習を組み合わせた。
- 実験の結果，WeEditは既存のオープンソースモデルを大幅に上回り，多様な編集操作において優れた性能を示した。
Link: https://arxiv.org/abs/2603.11593
LaMoGen：LLMによる記号的推論を通じた言語から動作生成 [cs.CV]目的：言語と動作の対応関係に基づく動作生成手法
- 人間の動作は言語と密接に関連し，表現豊かであるため，人間らしいロボットやアバターの実現に不可欠である。
- 従来のテキストと動作の埋め込みに基づく手法では，時間的精度や詳細な動作の合成が難しく，説明可能性に欠ける。
- 本研究では，言語と動作の間の記号的な繋がりを確立し，解釈可能性と制御性を向上させた動作生成を目指す。
- LabanLiteという新たな動作表現を提案し，複雑な動作を解釈可能な記号シーケンスと身体部位の指示に分解した。
- LLMを用いてLabanLiteの記号列を生成するLaMoGenフレームワークを開発し，言語と動作の整合性を高めた。
- 提案手法は，既存手法と比較して，解釈可能性と制御性において優れた性能を示し，新たな基準を確立した。
Link: https://arxiv.org/abs/2603.11605
Articulat3D：幾何学的・運動制約を用いた単眼ビデオからの関節型デジタルツインの再構成 [cs.CV]目的：単眼ビデオからの関節型デジタルツインの再構成
- 現実世界の様々なオブジェクトをデジタル空間で再現する需要が高まっており，デジタルツイン技術が重要視されている。
- 既存手法は多視点からの静止状態のキャプチャに依存し，現実世界での応用が難しいという課題がある。
- 本研究では，単眼ビデオから幾何学的・運動制約を組み合わせることで，この課題を解決することを目指す。
- 提案手法Articulat3Dは，運動事前知識に基づいた初期化と，幾何学的・運動制約による洗練処理を組み合わせる。
- これにより，物理的に妥当な関節運動を実現し，幾何学的に正確かつ時間的に一貫性のある再構成が可能となる。
- 合成ベンチマークと現実世界の単眼ビデオ実験において，最先端の性能を達成し，デジタルツイン作成の実現可能性を大きく向上させた。
Link: https://arxiv.org/abs/2603.11606
DyWeight：少ステップ拡散サンプリングのための動的勾配重み付け [cs.CV]目的：拡散サンプリングの効率化
- 拡散モデルは高性能だが，計算コストが高い。
- 既存手法は固定係数で，拡散サンプリングの非定常な挙動に対応できない。
- DyWeightは，勾配の動的な重み付けにより，効率的なサンプリングを実現する。
- DyWeightは，過去の勾配を適応的に集約し，ステップサイズを調整する軽量な学習ベースのソルバーである。
- 大規模な積分ステップにおいて，モデルの内部ノイズ除去ダイナミクスとソルバーの軌跡を正確に整合させる。
- CIFAR-10等の複数のデータセットで，DyWeightはより優れた画質と安定性，少ない計算量で最先端の結果を達成した。
Link: https://arxiv.org/abs/2603.11607
SemiTooth：多源歯セグメンテーションのための汎用的な半教師ありフレームワーク [cs.AR, cs.CV]目的：多源歯セグメンテーションにおける半教師あり学習のフレームワーク
- 歯科医療の発展に伴い，AIによる診断・治療への期待が高まっている。
- CBCT画像における高品質な歯構造セグメンテーションのためには，十分な注釈付きデータと多源データの一貫性が課題である。
- 多源かつラベルなしデータを効率的に活用し，セグメンテーション精度を向上させることを目指す。
- 本研究では，臨床歯科CBCT画像用の多源半教師ありデータセットMS3Toothsetを構築した。
- 提案手法SemiToothは，異なるソースのラベルなしデータから学習する複数の生徒ネットワークと教師ネットワークで構成される。
- SemiToothは，MS3Toothsetにおいて最先端の性能を達成し，半教師ありおよび多源歯セグメンテーションの有効性を示した。
Link: https://arxiv.org/abs/2603.11616
ノイズに強い少数ショット学習のための双方向マルチビュープロンプトアラインメント [cs.CV]目的：ノイズに対するロバスト性を備えた少数ショット学習フレームワーク
- ビジョン言語モデルは少数ショット学習で強力だが，ノイズラベルの影響を受けやすい。
- 既存手法は，詳細な意味的手がかりのモデル化やクリーン信号とノイズ信号の適応的な分離が困難。
- 本研究では，領域認識アラインメントによるロバストなプロンプト学習を目指す。
- NA-MVPは，マルチビュープロンプトと最適輸送により，信頼性の低い領域を抑制しつつ，パッチとプロンプトの対応を達成する。
- 双方向プロンプト設計により，安定した意味に焦点を当て，クリーン指向とノイズ認識の手がかりを捉える。
- アラインメント誘導型選択的リファインメント戦略により，誤ったラベルのサンプルのみを修正し，信頼性の高いデータは保持する。
Link: https://arxiv.org/abs/2603.11617
Shape-of-You: 野外画像における意味的対応のための融合グロモフ-ワッサースタイン最適輸送 [cs.CV, cs.LG]目的：野外画像における意味的対応の確立
- 画像間の意味的対応は，画像処理やコンピュータビジョンの基盤技術である。
- 明示的な対応関係がない野外画像では，意味的対応の確立が困難である。
- 既存手法の幾何学的曖昧性という課題に対し，構造的整合性を考慮した手法を提案する。
- 本研究では，疑似ラベル生成を融合グロモフ-ワッサースタイン（FGW）問題として再構築した。
- 3D基礎モデルを活用し，幾何学的空間における構造的整合性を定義することで曖昧性を解消した。
- SPair-71kおよびAP-10kデータセットで最先端の性能を達成し，新たなベンチマークを確立した。
Link: https://arxiv.org/abs/2603.11618
MedPruner：ビジョン言語モデルにおける効率的な3D医用画像理解のための訓練不要階層型トークンプルーニング [cs.CV, cs.AI]目的：3D医用画像理解のための効率化
- 医療画像診断の精度向上と，臨床現場での実用化が求められている
- 既存の3D医用画像処理モデルは計算コストが高く，実用性に課題がある
- モデルの計算効率を向上させ，臨床への応用を促進すること
- MedPrunerは，スライスレベルの冗長性とトークンレベルの冗長性を効果的に削減する
- MedGemma等のモデルにおいて，トークン数を5%以下に削減しながら，性能を維持または向上させる
- 動的なトークン選択の重要性を実証し，臨床現場への実装可能性を示唆する
Link: https://arxiv.org/abs/2603.11625
3D全身陽電子放出断層撮影における汎用セグメンテーションのための基盤モデル開発 [cs.CV]目的：3D全身PET画像からの汎用セグメンテーションを実現する基盤モデル
- PETは疾患管理に不可欠な核医学画像診断法であり，生理学的・代謝的プロセスの定量評価に用いられる。
- PET画像の解剖学的コントラストの低さと，データ収集・アノテーションのコストが，深層学習モデル開発の大きな障壁となっている。
- PET画像のセグメンテーション課題を解決し，臨床応用の促進を目指す。
- SegAnyPETは，多様なセグメンテーションタスクに対応可能な汎用性の高い基盤モデルである。
- プロンプトエンジニアリング戦略により，臓器や病変のセグメンテーションを効率的に行うことが可能である。
- 多施設，多トレーサー，多疾患データセットでの評価において，SegAnyPETは高いゼロショット性能を示した。
Link: https://arxiv.org/abs/2603.11627
VisDoT：人間らしい解釈に基づくグラウンディングと思考の分解による視覚的推論の強化 [cs.AI, cs.CV]目的：視覚的推論の強化
- 複雑なデータを視覚的に表現し，分析する能力は，意思決定や科学的発見において不可欠である。
- 既存の視覚言語モデルは，グラフ上の視覚的要素の正確な認識と意味的表現との整合性に課題を抱えている。
- 人間らしい知覚に基づくグラウンディングと思考の分解により，グラフベースの視覚的推論の精度向上を目指す。
- VisDoTフレームワークは，グラフ知覚理論に基づいた４つの知覚タスクを形式化し，視覚的推論能力を向上させる。
- DoTプロンプティングにより，視覚的知覚のサブ質問と論理的サブ質問を段階的に分離することで，推論プロセスを改善する。
- ChartQAやVisDoTQAといったベンチマークテストで，最先端の性能と汎化能力を示す。
Link: https://arxiv.org/abs/2603.11631
MV-SAM3D：レイアウトを考慮した3D生成のための適応的マルチビュー融合 [cs.HC, cs.RO, cs.CV]目的：レイアウトを考慮した3D生成におけるマルチビュー融合
- 3Dコンテンツの生成は，様々な分野で需要が高まっており，その重要性は増している。
- 既存手法は単一視点からの入力に限定され，複数の視点からの情報を活用できていない。
- マルチビュー情報を活用し，物理的に妥当なレイアウト生成を実現することを目的とする。
- MV-SAM3Dは，追加学習なしに，3D潜在空間でマルチ拡散プロセスを用いてマルチビュー融合を実現する。
- 注意エントロピー重み付けと可視性重み付けにより，信頼性の高い観測に基づいた融合が可能となる。
- 物理を意識した最適化により，衝突や接触制約を導入し，物理的に妥当なオブジェクト配置を生成する。
Link: https://arxiv.org/abs/2603.11633
トークン化により，マルチモーダル大規模言語モデルが建築の間取り図を理解，生成，編集することが可能になる [cs.RO, cs.RO, cs.CV, cs.AI]目的：建築間取り図の理解，生成，編集を統合したフレームワーク
- 建築設計は，幾何学，意味論，空間階層の複合的な推論を必要とし，AIにとって重要な課題である。
- 既存のAIシステムは，一貫性のある空間推論と制御可能な生成に苦戦している。
- 幾何学的な妥当性と制御性を向上させ，効率的かつローカルに展開可能なシステムを構築する。
- 本研究で開発されたHouseMindは，テキスト指示に基づいた一貫性のある制御可能な間取り図を生成できる。
- 離散的な部屋インスタンスのトークンを導入することで，レイアウトと記号的推論を繋ぐ統一された語彙を構築した。
- マルチモーダルアライメントと命令チューニングにより，優れた幾何学的妥当性と制御性を実現している。
Link: https://arxiv.org/abs/2603.11640
IDRL：個人に配慮した多次元うつ関連表現学習フレームワークによるうつ病診断 [cs.RO, cs.CV, cs.AI]目的：多次元うつ関連表現学習フレームワークによるうつ病診断
- うつ病は深刻な精神疾患であり，早期発見と治療が重要である。診断精度向上のため，多次元データを用いたアプローチが求められている。
- 既存手法では，異なる次元間の不整合や無関係な情報の混入，個人のうつ表現の多様性により，信頼性の高い統合が困難である。
- IDRLは，次元間の整合性を高めつつ，無関係な情報を抑制し，個々の特性に合わせた適応的な次元融合を実現することで，診断精度を向上させる。
- IDRLは，多次元表現を共通のうつ空間，固有のうつ空間，無関係空間に分離することで，次元間の整合性を強化し，ノイズを抑制する。
- 個人に配慮した次元融合モジュール（IAF）を導入し，予測の重要度に応じてうつ関連特徴の重みを動的に調整することで，個々の差異に対応した融合を実現する。
- 実験結果から，IDRLが多次元うつ病検出において優れた性能と堅牢性を示すことが確認された。
Link: https://arxiv.org/abs/2603.11644
OmniForcing：リアルタイム共同オーディオ・ビジュアル生成の実現 [cs.MM, cs.CV, cs.SD]目的：オフラインの双方向拡散モデルからの知識蒸留による，高忠実度ストリーミング自己回帰生成器
- 近年，オーディオとビジュアルの同時生成技術が発展しているが，リアルタイム処理が課題となっている。
- 双方向アテンション依存性により，既存モデルは高い遅延を抱え，リアルタイムアプリケーションへの応用が困難である。
- この研究は，高遅延問題を解決し，リアルタイムでのオーディオ・ビジュアル生成を可能にすることを目的とする。
- OmniForcingは，双方向拡散モデルをストリーミング自己回帰生成器に蒸留する新しいフレームワークである。
- 非対称ブロック因果アライメントと，オーディオシンクトークン機構により，学習の不安定性を克服している。
- 単一のGPU上で，約25 FPSのストリーミング生成を実現し，双方向モデルと同等の品質を維持する。
Link: https://arxiv.org/abs/2603.11647
FL-MedSegBench：医療画像セグメンテーションにおける連合学習の包括的ベンチマーク [cs.RO, cs.RO, cs.CV]目的：医療画像セグメンテーションにおける連合学習の評価基準
- 医療データは機密性が高く，共有が困難。連合学習はプライバシー保護とデータ活用を両立する手段として重要である。
- 既存のベンチマークが不足しており，連合学習手法の性能を公平かつ包括的に評価できないという課題がある。
- 医療画像セグメンテーションにおける連合学習手法の性能評価を可能にする標準化されたベンチマークを提供する。
- FL-MedSegBenchは，9つのセグメンテーションタスクと10種類の画像モダリティを網羅する包括的なベンチマークである。
- パーソナライズされた連合学習（pFL）手法，特にFedBNが，汎用的な連合学習（gFL）手法よりも一貫して高い性能を示すことが明らかになった。
- データセットに依存して最適な手法が異なり，コミュニケーション頻度を削減しても，正規化に基づくパーソナライズ手法はロバストであることが示された。
Link: https://arxiv.org/abs/2603.11659
Resonate：大規模音声言語モデルからのオンラインフィードバックによるテキスト音声生成の強化 [cs.SD]目的：テキスト音声生成における強化学習の適用と性能向上
- 近年，LLMや画像生成モデルの性能向上に，強化学習が有効であることが示されている。
- テキスト音声生成への強化学習の適用は限定的であり，オフライン手法が主流である。
- オンライン強化学習を導入し，より人間知覚に合致した報酬関数を用いることで，生成品質を向上させる。
- オンライン強化学習（GRPO）をFlow Matchingベースの音声モデルに適用し，オフライン手法を上回る性能を達成した。
- 大規模音声言語モデル（LALM）由来の報酬を組み込むことで，より詳細な評価信号を得て，生成品質を向上させた。
- 470MパラメータのResonateは，TTA-Benchにおいて，音声品質と意味的整合性の両面で新たなSOTAを確立した。
Link: https://arxiv.org/abs/2603.11661
BackdoorIDS：事前学習済みVision Encoderに対するゼロショットバックドア検出 [cs.CV]目的：事前学習済みVision Encoderにおけるバックドアサンプルの検出
- 画像認識技術は多様な分野で活用され，その性能向上が求められている。
- 第三者が提供する事前学習済みモデルにバックドア攻撃が潜む可能性が懸念されている。
- バックドア攻撃に対する，再学習不要な効率的な検出手法を開発する。
- BackdoorIDSは，入力画像の段階的なマスキングを利用し，注意機構の変化を捉える。
- バックドア画像は，マスキングによって注意が急激に変化し，埋め込み表現のクラスタリングが特徴的である。
- 多様な攻撃手法，データセット，モデルに対し，既存の手法を上回る性能を示した。
Link: https://arxiv.org/abs/2603.11664
プロンプト可能な外観付与による効率的な高精細バーチャル試着 [cs.CV]目的：高精細なバーチャル試着の効率化
- オンライン小売において，顧客満足度向上や返品率低減に貢献するバーチャル試着技術の重要性が高まっている。
- 拡散モデルを用いた既存のバーチャル試着手法は，写実的な画像生成を実現する一方で，処理速度が遅いという課題がある。
- プロンプトによる制御と効率的な画像生成を両立させ，高品質かつ高速なバーチャル試着を実現することを目指す。
- PROMOは，Flow Matching DiTを基盤とし，潜在多Modal条件結合を用いることで，推論時のオーバーヘッドを大幅に削減することに成功した。
- 標準的なベンチマークにおいて，PROMOは既存のバーチャル試着手法や汎用画像編集モデルと比較して，視覚的な品質に優れている。
- Flow Matching Transformerと潜在多Modal条件，自己参照加速の組み合わせが，高品質なバーチャル試着のための効果的かつ効率的な学習手法であることを示した。
Link: https://arxiv.org/abs/2603.11675
軽量超解像のための広範囲受容野を持つ統一畳み込み注意ネットワーク UCAN [cs.CV]目的：軽量な超解像のための畳み込みと注意機構の統合
- 画像超解像は，低解像度画像を高品質に復元する技術であり，多様な応用分野で重要である。
- 従来のハイブリッドCNN-Transformerアーキテクチャは計算コストが高く，リソース制約のある環境での利用が課題となっている。
- UCANは，効率的な受容野拡大により，計算コストを抑えつつ高精度な超解像を実現することを目的とする。
- UCAN-LはManga109($4\times$)において，31.63dBのPSNRを48.4G MACsで達成し，既存の軽量モデルを上回った。
- BSDS100において，UCANは27.79dBを達成し，より大規模なモデルと比較しても優れた性能を示した。
- 実験により，UCANは精度，効率性，拡張性のバランスに優れ，実用的な高解像度画像復元に適していることが示された。
Link: https://arxiv.org/abs/2603.11680
テキスト読み上げにおける因果的韻律媒介：FastSpeech2における持続時間，ピッチ，エネルギーの反実仮想的訓練 [cs.SD, cs.AI, cs.LG]目的：表現豊かなテキスト読み上げ合成のための因果的韻律媒介フレームワーク
- 自然な音声合成は，人間と機械の円滑なコミュニケーションに不可欠であり，その重要性は増している。
- 感情表現を含む韻律制御は難しく，感情と内容を分離したモデル構築が課題である。
- 感情に起因する韻律変化を明確化し，制御可能な音声合成を実現することを目指す。
- 提案手法は，韻律操作と感情表現においてベースラインのFastSpeech2モデルを大幅に上回る性能を示した。
- 因果的損失関数により，韻律の帰属が分離され，解釈可能なモデルが実現し，自然性を損なうことなく感情編集が可能となった。
- 話者間での感情転送時においても，明瞭度（低いWER）と話者一貫性が向上することが確認された。
Link: https://arxiv.org/abs/2603.11683
多結晶材料構造の三次元生成に関する制御可能な手法：PolyCrysDiff [cs.CV, cond-mat.mtrl-sci]目的：多結晶材料の三次元マイクロ構造生成
- 材料の機械的・物理的特性は，その内部の組織に大きく依存する。
- 組織と特性の関係を解明するには，現実的かつ制御可能なマイクロ構造構築が不可欠である。
- 本研究は，組織特性を制御した三次元マイクロ構造を効率的に生成することを目的とする。
- PolyCrysDiffは，ターゲットとする結晶粒の形状，配向分布，および三次元空間相関を忠実に再現できる。
- 結晶粒の大きさや球形度といった属性の制御において，R^2値0.972を超える高い精度を達成した。
- 生成されたマイクロ構造は，結晶塑性有限要素法シミュレーションにより，計算可能性と物理的妥当性が検証された。
Link: https://arxiv.org/abs/2603.11695
OSCBench：テキストから動画生成における物体状態変化のベンチマーク [cs.CV, cs.AI, cs.CL]目的：テキストから動画生成モデルにおける物体状態変化の評価
- 動画生成技術の発展は，視覚的リアリティと意味理解の両立が重要である。
- 既存の評価指標は，物体状態変化というアクション理解の重要な側面を捉えられていない。
- 物体状態変化に特化したベンチマークを通じて，動画生成モデルの課題を明確化する。
- 既存のテキストから動画生成モデルは，セマンティックな整合性やシーンの構成は優れているものの，正確かつ時間的に一貫した物体状態変化の再現に苦慮している。
- 特に，学習データにない新しい状況や複雑な組み合わせにおいて，その課題が顕著になる。
- 物体状態変化は，テキストから動画生成における重要なボトルネックであり，OSCBenchがその診断のためのベンチマークとして機能する。
Link: https://arxiv.org/abs/2603.11698
YOLO11に基づくカスタム綿花検出アルゴリズム：生育段階別綿花ぼう芽検出 [cs.CV]目的：綿花ぼう芽の生育段階別検出
- 綿花収穫は品質に大きく影響する重要な工程である。
- 綿花収穫の自動化には，生育段階に応じた綿花ぼう芽の正確な認識が不可欠である。
- 多様な生育段階の綿花ぼう芽を高精度に検出するアルゴリズムを開発する。
- 提案手法COTONETは，YOLO11をベースにアテンションメカニズムを組み込むことで検出精度を向上させた。
- COTONETは，標準的なYOLOモデルと比較して高いmAP50（81.1%）とmAP50-95（60.6%）を達成した。
- COTONETは7.6Mパラメータと27.8GFLOPSであり，低リソース環境での利用に適している。
Link: https://arxiv.org/abs/2603.11717
高解像度PM2.5予測のためのクロス解像度注意ネットワーク [cs.CV, cs.LG]目的：高解像度PM2.5予測の精度向上
- 環境モニタリングにおいて，大陸規模の高解像度データは不可欠である。広範囲をカバーする予測は重要性が高い。
- 従来のVision Transformerは計算量の制約から，高解像度・広範囲な環境データへの適用が困難であった。
- 気象データとPM2.5データを効率的に統合し，物理的に整合性のある特徴表現を学習することで予測精度を高める。
- CRAN-PMは，25kmの気象データと1kmのPM2.5データをクロス解像度注意を用いて効率的に融合する。
- ヨーロッパ全域の2900万ピクセル規模のPM2.5マップを単一GPUで1.8秒で生成可能である。
- 2022年のヨーロッパにおけるPM2.5予測において，予測時間T+1でRMSEを4.7%，T+3で10.7%削減し，複雑な地形におけるバイアスを36%低減した。
Link: https://arxiv.org/abs/2603.11725
VTEdit-Bench：バーチャル試着におけるマルチ参照画像編集モデルの包括的ベンチマーク [cs.CV]目的：バーチャル試着における汎用マルチ参照画像編集モデルの評価基準
- バーチャル試着技術は，ECサイト等の利便性向上に不可欠であり，その発展が求められている。
- 既存のバーチャル試着モデルは特定の条件に限定され，実用的な多様な状況に対応できない場合がある。
- 汎用画像編集モデルの能力を評価し，より柔軟なバーチャル試着システムの構築に貢献すること。
- VTEdit-Benchは，多様なバーチャル試着シナリオに対応するため，24,220組のテスト画像ペアを含む包括的なベンチマークである。
- 評価指標VTEdit-QAは，モデルの一貫性，衣服の一貫性，画像全体の品質の3つの側面から性能を評価する。
- 汎用編集モデルは，従来のタスクにおいて競争力があり，難しいシナリオへの汎化性能に優れる一方，複雑な参照設定には課題が残る。
Link: https://arxiv.org/abs/2603.11734
SoulX-LiveAct: 近傍強制とConvKVメモリによる時間規模のリアルタイム人物アニメーションへ [cs.CV]目的：時間規模のリアルタイム人物アニメーションの実現
- 人物アニメーションは，VR/ARやゲームなど多様な分野で重要な役割を担う。
- 既存手法では，時間規模が長くリアルタイムな生成に課題があり，計算コストが高い。
- 拡散モデルにおける近傍強制と構造化メモリにより，効率的なリアルタイム生成を実現する。
- 本研究では，時間規模の長いリアルタイム人物アニメーションにおいて，学習の収束性と生成品質を大幅に向上させた。
- 特に，近傍強制により学習信号の安定化を図り，ConvKVメモリによって効率的な推論を可能にした。
- 2枚のNVIDIA H100/H200 GPUで，20FPSのリアルタイムストリーミング推論が実現可能となった。
Link: https://arxiv.org/abs/2603.11746
オクルージョン認識スパース3D手関節による制御可能な一人称視点ビデオ生成 [cs.HC, cs.CV]目的：一人称視点ビデオの制御可能生成
- VRや具現化されたAIにおいて，一人称視点での操作が重要となる場面が増加している。
- 既存手法では，3Dの一貫性を保った細かい手の動きの生成が困難である。
- オクルージョン下でもロバストな3D情報に基づいた制御と生成を実現すること。
- 提案手法は，スパースな3D手関節を制御信号として利用することで，3Dの一貫性を維持したビデオ生成を可能にした。
- オクルージョン認識モジュールが，隠れた関節からの不確かな視覚信号を抑制し，動的なオクルージョンにロバストに対処する。
- 大規模なデータセットとベンチマーク構築により，提案手法の有効性を実証し，ロボットハンドへの汎化性能も確認した。
Link: https://arxiv.org/abs/2603.11755
HELM：グラフ学習による階層的・明示的なラベルモデリング - マルチラベル画像分類 [cs.CV, cs.AI]目的：マルチラベル画像分類における，階層的・明示的なラベルモデリング
- リモートセンシング分野では，複雑なラベル間の依存関係を捉えることが重要であり，階層的マルチラベル分類が不可欠である。
- 既存手法は，複数の分岐に属するインスタンスに対する対応や，ラベルなしデータの活用が不十分であるという課題がある。
- 本研究は，多岐にわたるラベル階層構造を効果的に学習し，ラベルなしデータも活用することで，分類精度向上を目指す。
- HELMは，Vision Transformerとグラフ畳み込みネットワークを組み合わせることで，ラベル間の複雑な関係性を捉えることに成功した。
- 複数のリモートセンシング画像データセットにおいて，既存の最先端手法を上回る性能を示し，特にラベル数の少ない状況でその効果が顕著であった。
- 自己教師あり学習を組み込むことで，ラベルなしデータの活用を可能にし，半教師あり学習においても優れた結果を達成した。
Link: https://arxiv.org/abs/2603.11783
CLIPのビジョンエンコーダにおけるアテンションヘッドレベルでの人口統計学的バイアスの特定 [cs.CV, cs.AI, cs.CY]目的：CLIPのビジョンエンコーダにおける人口統計学的バイアスの局在化
- 基礎モデルの公平性確保は重要であり，社会における差別や不公平を助長するリスクを軽減するため不可欠である。
- 既存の公平性評価ではバイアスの存在は示せるが，ネットワーク内のどこにバイアスが存在するかの特定が困難である。
- アテンションヘッドレベルでのバイアス局在化により，モデルの透明性と制御性を高め，公平性を改善することを目指す。
- 提案手法により，CLIP ViT-L-14エンコーダにおいて，性別のバイアスを示す特定のアテンションヘッドを特定できた。
- 特定されたアテンションヘッドを削除することで，全体的なバイアスが軽減（Cramer's V: 0.381 -> 0.362）され，精度もわずかに向上した（+0.42%）。
- 年齢バイアスについても候補ヘッドは特定されたが，アブレーションによる効果は性別バイアスほど顕著ではなかった。
Link: https://arxiv.org/abs/2603.11793
合成可能性に基づく内在概念抽出 [cs.CV]目的：単一画像からの内在概念抽出
- 画像認識の高度化には，画像に含まれる概念の理解が不可欠である。
- 既存手法では，構成要素に分解可能な内在概念の抽出が困難である。
- 単一画像から構成可能な概念を抽出し，再構成を可能にすること。
- 拡散モデルを活用し，物体レベルと属性レベルの概念を抽出するHyperExpressを提案。
- 双曲空間を利用した概念学習により，概念間の階層構造と関係性を維持しつつ，正確な概念の分離を実現。
- 概念埋め込み空間の最適化により，複雑な概念間関係を保ちながら概念の合成性を確保。
Link: https://arxiv.org/abs/2603.11795
リモートセンシングVLMsのためのOSMに基づくドメイン適応 [cs.CV, cs.LG]目的：リモートセンシング画像とテキストのドメイン適応
- リモートセンシング分野では，画像とテキストの関連性を理解するモデルの重要性が高まっている。
- 高品質なリモートセンシング画像のラベル付けは困難であり，コストが高いという課題がある。
- 既存手法の教師モデルへの依存を解消し，低コストで高性能なドメイン適応を実現する。
- OSMDAは，OpenStreetMapのデータを活用し，教師モデルなしで自己完結型のドメイン適応を可能にする。
- モデルは，航空画像とOSMタイルを組み合わせることで，自己生成されたキャプションを用いて学習する。
- 10のベンチマークにおいて，既存手法を凌駕する性能を示し，訓練コストも大幅に削減されることが確認された。
Link: https://arxiv.org/abs/2603.11804
CEI-3D：リアルで詳細なオブジェクト編集のための協調的明示・陰示3D再構成 [cs.HC, cs.RO, cs.CV]目的：リアルで詳細なオブジェクト編集を可能にする再構成パイプラインの構築
- 3Dコンテンツの需要増加に伴い，高品質な3D編集技術が不可欠となっている。
- 既存の3D編集手法は，再構成ネットワークが密結合であるため，不自然な結果になりやすい。
- 明示・陰示再構成を組み合わせることで，編集の自由度と品質を向上させる。
- 提案手法CEI-3Dは，陰示SDFネットワークとハンドラーポイントを用いて，全体構造と局所編集を協調的に制御する。
- ハンドラーポイントの物理特性を分離するモジュールにより，編集操作による意図しない干渉を防ぐ。
- 実験の結果，CEI-3Dは最先端手法よりもリアルで詳細な編集結果を，より短い時間で達成できることが示された。
Link: https://arxiv.org/abs/2603.11810
RADAR：セマンティックプランニングと自律的因果環境リセットによる閉ループロボットデータ生成 [cs.RO, cs.AI, cs.CV]目的：ロボット学習に必要な大規模物理的インタラクションデータの効率的な収集
- ロボットの学習には大量のデータが必要であり，物理的インタラクションデータの収集が重要な課題である。
- 従来の人間が介入するデータ収集方法では，コストや拡張性に限界がある。
- 人間を介在させずに，自律的にデータを収集できるシステムの開発。
- RADARは，人間による介入なしに，セマンティックプランニングと環境リセットを組み合わせた閉ループシステムを実現した。
- シミュレーション実験では，複雑なタスクにおいて90%の成功率を達成し，従来のベースラインを大幅に上回った。
- 実世界での実験では，少量のデータで，ドメイン固有の調整なしに多様なスキルを実行できることを示した。
Link: https://arxiv.org/abs/2603.11811
深層学習モデルとXAIを用いた卵巣悪性病変の自動検出 [cs.AI, cs.CV]目的：卵巣癌の正確な検出と識別
- 近年，医療現場における診断能力向上が喫緊の課題である。
- 卵巣癌は，非侵襲的検出の精度が低く，正確な診断に時間と侵襲性が必要である。
- 深層学習とXAIを活用し，卵巣癌の早期かつ正確な検出法の確立を目指す。
- 拡張データセットにおいて，InceptionV3モデルがReLU活性化関数とともに，全ての評価指標で平均94%の最高結果を示した。
- LIME，Integrated Gradients，SHAPといったXAIモデルを用いて，選択されたモデルの判断根拠を比較分析した。
- 本研究は，卵巣癌の検出方法の改善に貢献することが期待される。
Link: https://arxiv.org/abs/2603.11818