arXiv雑要約

画像・音声 - 2026/03/17 公開

HSImul3R：シミュレーション対応の人間とシーンのインタラクションの物理ループ再構成 [cs.CL, cs.CV, cs.RO]目的：人間とシーンのインタラクションの3D再構成
- ロボット工学やAI分野において，現実世界での人間と環境のインタラクションを再現することは重要である。
- 既存手法では，視覚的に妥当な再構成が物理法則に反し，シミュレーションやロボット制御に問題が生じる。
- 物理シミュレーターを活用し，物理的に安定した人間とシーンのインタラクションを再構成すること。
- HSImul3Rは，物理シミュレーターを積極的に活用し，人間とシーンのインタラクションを共同で最適化する。
- シーンを対象とした強化学習と，シミュレーションからの報酬を用いた直接最適化により，物理的に安定した再構成を実現。
- 多様な物体とインタラクションを含む新しいベンチマークHSIBenchを公開し，実世界のヒューマノイドロボットへの応用可能性を示した。
Link: https://arxiv.org/abs/2603.15612
トリプロンプティング：シーン，被写体，モーションを統合的に制御するビデオ拡散 [cs.CV]目的：シーン構成，マルチビュー一貫性のある被写体カスタマイズ，およびカメラポーズまたは物体モーションの調整を統合的に制御するフレームワーク
- 近年のビデオ生成技術の発展は目覚ましいが，実用的なカスタマイズ性を高めるためには，より精密な制御が不可欠である。
- 既存手法では，シーン，被写体，モーションを個別に制御することが多く，マルチビューでの被写体合成や姿勢変化下でのアイデンティティ維持が課題となっていた。
- シーン，被写体，モーションの制御を統合し，多様な制御を可能とする汎用的なビデオ生成手法を確立することを目的とする。
- トリプロンプティングは，シーン構成，マルチビュー一貫性，モーション制御を統合した統一的なフレームワークであり，既存のベースラインモデル（Phantom，DaSなど）と比較して，被写体識別，3Dの一貫性，モーション精度において大幅な性能向上を実証した。
- 背景シーンには3Dトラッキングポイント，前景被写体にはダウンサンプリングされたRGB情報を用いる二重条件モーションモジュールを導入することで，制御性と視覚的なリアリズムのバランスを実現している。
- 推論時のControlNetスケールスケジュールを提案することで，生成される映像の品質と制御性を向上させている。
Link: https://arxiv.org/abs/2603.15614
GlyphPrinter：グリフ精度のための領域グループ化直接選好最適化 [cs.CV]目的：グリフに忠実なテキストレンダリングの最適化
- 視覚的なテキストレンダリングにおいて，正確なグリフ生成は不可欠であり，その品質は重要な要素である。
- 既存手法では，グリフのバリエーション不足や過度なスタイライズにより，複雑な文字や未知の文字でグリフ精度が低下する。
- 領域レベルでのグリフの選好を用いて，グリフ精度を向上させることを目指す。
- 提案手法GlyphPrinterは，明示的な報酬モデルに依存せず，直接選好最適化(DPO)に基づいている。
- 領域グループ化DPO(R-GDPO)を導入し，領域レベルでのグリフの選好を最適化することで，グリフ精度を大幅に向上させた。
- Regional Reward Guidanceにより，制御可能なグリフ精度で最適な分布からサンプリングを行うことが可能となった。
Link: https://arxiv.org/abs/2603.15616
行動の前に見る：ビジョン言語行動モデルのためのビジョン基礎表現の強化 [cs.CV]目的：ビジョン言語行動モデルにおけるビジョン基礎表現の強化
- ロボット操作において，言語指示に基づいた視覚情報の正確な解釈と統合が重要である。
- 既存研究では，LLMバックボーンをブラックボックスとして扱い，視覚情報がどのように行動生成に結びつくかの洞察が不足している。
- 行動生成の過程で，視覚トークンへの感受度が深層で低下するという問題を解決し，より高精度な操作を実現する。
- 提案手法DeepVision-VLAは，ビジョン基礎モデルとVLAバックボーン間で注意を共有するVL-MoTフレームワークを基盤としている。
- DeepVision-VLAは，シミュレーション環境と実環境の両方において，既存の最先端手法をそれぞれ9.0％，7.5％上回る性能を示した。
- 行動誘導型視覚プルーニング（AGVP）により，計算コストを抑えつつ，重要な視覚的手がかりを強化することで，操作精度が向上した。
Link: https://arxiv.org/abs/2603.15618
動的な環境における汎用的なロボットマニピュレーションに向けて [cs.CV, cs.RO]目的：動的な環境下での汎用的なロボットマニピュレーションの実現
- ロボットの自律的な動作を可能にするため，環境変化への対応が不可欠である。
- 既存のビジョン-言語-アクションモデルは，動的な環境下での性能が十分でない。
- 動的なマニピュレーションのための大規模データセットとベンチマークを構築し，モデルの性能向上を目指す。
- 大規模データセットDOMINOを構築し，35種類のタスクと11万件以上の専門家による軌跡を提供した。
- 既存のVLAモデルを評価し，動的な環境認識のための効果的な学習戦略を検討した。
- ダイナミクスを考慮したVLAアーキテクチャPUMAを提案し，既存モデルを6.3%上回る成功率を達成した。
Link: https://arxiv.org/abs/2603.15620
ブロックベースの不確実性を活用した構造表現の学習：海底地形マッピングへの応用 [cs.LG, cs.AI, cs.CE, cs.CV, stat.ML]目的：海底地形マッピングのための構造表現の学習と不確実性の定量化
- 高精度な海洋モデリングや沿岸災害予測には高解像度な水深データが不可欠である。
- 既存の世界的な水深データは粗く，正確な数値シミュレーションには不十分である。
- 物理的な構造の一貫性を保ちつつ，海底地形の不確実性を定量化する手法を開発すること。
- ブロックベースの conformal prediction を用いることで，局所的な地形の複雑さを効率的に捉え，空間適応的な信頼性推定を実現した。
- 提案手法は，構造的整合性を維持しつつ，水深再構成の品質と不確実性推定の信頼性を向上させた。
- 本研究は，より堅牢な気候モデリングと沿岸災害評価への道を開く。
Link: https://arxiv.org/abs/2504.14372
ML-EcoLyzer：機械学習推論における環境コストの，フレームワークとハードウェアを通じた定量化 [cs.LG, cs.AI, cs.CV, cs.HC, cs.SE]目的：機械学習推論の環境コストの定量化
- 機械学習の利用拡大に伴い，環境負荷の評価と削減が重要課題となっている。
- 特に低リソースハードウェア環境下での環境影響は不明確であり，詳細な分析が必要である。
- 多様なハードウェア環境下での環境コストを定量化し，持続可能なモデル選択を支援する。
- ML-EcoLyzer は，CPU，GPU，データセンターアクセラレータなど，様々な環境での二酸化炭素排出量，エネルギー消費量，熱量，水使用量を測定するツールである。
- 量子化により，CO$_2$ 排出量あたりの有効パラメータ数が向上し，効率的な推論が可能になることが示された。
- 大規模アクセラレータは軽量なアプリケーションにおいて非効率的であり，モデルの最適化が重要であることが明らかになった。
Link: https://arxiv.org/abs/2511.06694
単一画像からの反射分離：層融合分離による手法 [cs.CV, cs.LG]目的：単一画像からの透過層と反射層の分離
- 画像編集や視覚効果において，反射成分の分離は重要な処理である。
- 非線形混合下では，既存手法は透過層と反射層の混同が生じやすい。
- 深層デコーダ層における誤りを減らし，より正確な分離を目指す。
- 提案手法ReflexSplitは，クロススケールゲート融合と層融合分離ブロックにより，従来のSIRS手法を上回る性能を示す。
- 特徴量の一貫性を保ち，勾配の流れを安定させることで，より高品質な分離結果が得られる。
- 合成データセットと実データセットの両方で，最先端の性能とロバストな汎化性能を実証した。
Link: https://arxiv.org/abs/2601.17468
CLIPoint3D：言語に基づく少数のサンプルによる3D点群ドメイン適応 [cs.HC, cs.CY, cs.ET, cs.CV, cs.LG]目的：3D点群のドメイン適応における，言語知識を用いた効率的な手法
- 近年，画像だけでなく3D認識においても，画像と言語を結びつけるモデルが注目されている。
- 合成データから実データへの適応は困難であり，汎化性能の向上が課題となっている。
- CLIPを活用し，少ないサンプルで効率的にドメイン適応を行うことを目指す。
- CLIPoint3Dは，従来のCLIPベースおよびエンコーダーベースの手法と比較して，一貫して3～16%の精度向上を達成した。
- 3Dサンプルを複数の深度マップに投影し，軽量な3Dエンコーダーと知識に基づいたプロンプト調整を用いてCLIPを改良する。
- 最適輸送に基づくアライメント損失と，不確実性を考慮したプロトタイプアライメント損失により，ソースとターゲットの分布のギャップを埋める。
Link: https://arxiv.org/abs/2602.20409
OpenClaw-RL：会話を通してエージェントを容易に学習 [cs.CL, cs.AI, cs.CV, cs.LG]目的：次状態信号を利用した強化学習フレームワークの構築
- エージェントの性能向上には，継続的な学習が不可欠であり，そのための効率的な手法が求められている。
- 従来の強化学習システムは，特定のタスクに特化しており，多様なインタラクションからの学習が困難であった。
- 様々な対話形式から情報を抽出し，統一的な学習ループを実現することで，汎用的なエージェントの学習を可能にする。
- OpenClaw-RLは，ユーザーの応答，ツール出力，GUIの変化など，あらゆる次状態信号を学習に活用する。
- 報酬と行動指針を抽出する手法を導入し，トークンレベルでの学習を可能にすることで，従来の報酬信号よりも詳細な学習を実現。
- 非同期設計により，リアルタイムでの応答，評価，ポリシー更新を並行して行い，オーバーヘッドを最小限に抑える。
Link: https://arxiv.org/abs/2603.10165
大規模ASRモデルを活用したニューラル音声デコーディング：BrainWhisperer [eess.AS, cs.SD]目的：皮質内記録からの連続音声のデコーディング
- 発話困難な患者へのブレイン・コンピュータ・インターフェース(BCI)への応用が期待され，生活の質向上に貢献しうる。
- 既存のデータセット規模が小さく，セッション間の変動に弱く，参加者間での汎化性能が課題となっていた。
- 大規模ASRモデルと皮質内記録を統合し，データセットの制約やセッション変動への耐性を高める。
- BrainWhispererは，既存の最先端デコーダーと同等かそれ以上の性能を示すことが確認された。
- クロスデータセット学習により，ファインチューニングなしに個々のデータセットの性能が向上し，汎化性能の高さが示された。
- フォネームベースの高精度パスと，低遅延で直接テキスト生成を行う高速パスの2つのデコーディング経路をサポートする。
Link: https://arxiv.org/abs/2603.13321
低線量CTにおけるノイズ除去のための射影誘導型個別化連合学習 [eess.IV, cs.CV, cs.LG]目的：低線量CT画像のノイズ除去における個別化連合学習手法の確立
- CT検査における被ばく線量を低減することは，患者の安全性を高める上で重要である。
- 低線量CTではノイズやアーチファクトが増加し，画像診断の精度が低下する可能性がある。
- 各機関のCT装置固有のノイズに対応し，高画質な画像再構成を実現することを目指す。
- ProFedは，射影空間での二段階の個別化により，装置ノイズと患者解剖構造を分離し，性能を向上させた。
- CNNおよびTransformerバックボーンにおいて，既存の連合学習手法を平均1.42dB上回るPSNR値（最大44.83dB）を達成した。
- 解剖学的・プロトコル適応ネットワークと不確実性に基づいた選択的集約により，安定した学習と高精度なノイズ除去を実現した。
Link: https://arxiv.org/abs/2603.13422
ベイズ的不確実性認識MRI再構成 [eess.IV, cs.CV]目的：MRI画像再構成と不確実性定量
- 医療診断において高精度な画像再構成は不可欠であり，MRIは重要な役割を担う。
- 限られたデータからの再構成では，画質劣化やアーチファクト発生の問題が存在する。
- ベイズ推定により，再構成画像の不確実性を定量的に評価し，診断精度向上を目指す。
- 提案手法は，最適化ベースの圧縮センシングアルゴリズムと比較して優れた性能を示す。
- 再構成画像と正解画像との誤差マップとの強い相関関係が示され，不確実性定量が有効であることが確認された。
- 分割拡張型ギブスサンプラーに基づくMCMC法により，未知パラメータの事後分布からのサンプリングを実現した。
Link: https://arxiv.org/abs/2603.13439
金属誘導型金属アーチファクト低減法：X線CTにおける金属アーチファクトの低減 [eess.IV, cs.AI, cs.CV]目的：X線CT画像における金属アーチファクトの低減
- X線CTは医療診断において不可欠だが，金属インプラントは画像品質を著しく低下させる。
- 金属インプラントによるアーチファクトは，診断精度を低下させ，誤診のリスクを高める。
- 金属情報を活用し，より高精度なアーチファクト低減を実現すること。
- 提案手法MGMARは，金属に影響されない投影データを用いて学習した条件付き暗黙的ニューラル表現（INR）を活用する。
- INRは，金属腐食画像とアーチファクトフリー画像で事前学習することで，金属依存的なパターンを捉える。
- AAPM-MARベンチマークにおいて，MGMARは最先端の性能を示し，平均最終スコア0.89を達成した。
Link: https://arxiv.org/abs/2603.13447
バイアス較正適応によるオープンワールドMRI再構成 [eess.IV, cs.CV]目的：オープンワールドにおけるMRI再構成問題の解決
- MRIは疾患診断に不可欠だが，環境依存性が高い。
- 異なる環境のデータに対する汎化性能が課題である。
- 未知のデータへの適応能力を向上させる。
- BiasReconは，最小限の介入原理に基づき，転移可能な要素は保持し，そうでない要素は較正する。
- 周波数ガイドされた事前分布較正，スコアベースのノイズ除去，適応正則化を組み合わせる。
- 4つのデータセットでの実験により，最先端の性能が示された。
Link: https://arxiv.org/abs/2603.13466
VoXtream2：動的発話速度制御を備えたフルストリームTTS [eess.AS, cs.CL, cs.HC, cs.LG, cs.SD]目的：インタラクティブシステム向けフルストリームTTSにおける低遅延性と動的制御の実現
- 対話型システムにおける自然な音声合成は，ユーザー体験を向上させる上で不可欠である。
- 既存のTTSモデルは，リアルタイム性や継続的なテキスト更新への対応に課題がある。
- 遅延を最小限に抑えつつ，テキストの逐次的な入力に対応できるTTSモデルの構築。
- VoXtream2は，duration statesの分布一致機構とclassifier-free guidanceにより，制御性と合成品質を向上させている。
- プロンプトテキストのマスキングにより，プロンプトの書き起こしが不要となり，柔軟性が高まっている。
- 標準ベンチマークおよび専用の速度テストセットにおいて，既存モデルと比較して競争力のある結果を達成している。
Link: https://arxiv.org/abs/2603.13518
FDGからPSMA PET/CTへの教師なし適応によるラベルシフト下での3D病変検出 [eess.IV, cs.AI, cs.CV, physics.med-ph]目的：3D病変検出における，ラベル付きFDG PET/CTからラベルなしPSMA PET/CTへのドメイン適応
- PET/CT画像を用いた病変検出は，がんの診断や治療効果判定において重要な役割を担う。
- 異なるトレーサー（FDGとPSMA）間では，病変の大きさや数に分布のずれが生じ，検出精度が低下する。
- ラベルシフトを考慮した自己教師あり学習により，PSMA PET/CTにおける病変検出のロバスト性を向上させる。
- 提案手法は，AutoPET 2024データセットにおいて，FDGのみを用いたベースラインや従来の自己教師あり学習を上回る性能を示した。
- ターゲットドメインの病変サイズの分布と発生頻度をモデル化することで，トレーサー間のロバストな病変検出が可能となった。
- 検出アンカー形状の適応的な調整と，病変サイズに応じた擬似ラベルの割り当てが有効であることが示された。
Link: https://arxiv.org/abs/2603.13666
3クラス定式化とLLRを用いた，スプーフィングに強い自動話者認証統合システム [eess.AS, cs.SD]目的：スプーフィングに強い自動話者認証の実現
- 話者認証は，セキュリティシステムや音声インターフェースにおいて重要な役割を担う。
- 既存手法では，スプーフィング攻撃に対する頑健性が十分でない場合がある。
- 解釈可能性のある，新しいスプーフィング対策技術の開発が求められている。
- 提案手法は，ASVSpoof5データセットにおいて既存手法と同等の性能を示した。
- SpoofCelebデータセットにおいては，より良い結果が得られた。
- 3クラス定式化により，より解釈可能な決定プロセスが実現されることが示された。
Link: https://arxiv.org/abs/2603.13780
心エコー画像生成のための潜在フローマッチング：EchoLVFM [quant-ph, cs.ET, eess.IV, cs.AI, cs.CV]目的：心エコー画像の合成を通じた，左室駆出率などの臨床パラメータ制御
- 心エコーは心機能評価に不可欠であり，正確な診断と治療に重要な役割を果たす。
- 既存手法は計算コストが高く，多様な臨床データへの適用が制限されている。
- 効率的かつ制御可能な心エコー画像合成を実現し，データ拡張や専門家トレーニングに貢献する。
- EchoLVFMは，従来の多段階フローベースラインと比較して約50倍のサンプリング効率を達成した。
- 臨床変数に基づく条件付けが可能であり，左室駆出率の正確な制御を実現した。
- 専門家による識別精度は偶然レベルに近い結果を示し，実用的な画像合成の可能性を示唆する。
Link: https://arxiv.org/abs/2603.13967
離散拡散による制御可能なアクセント正規化 [eess.AS, cs.AI, cs.SD]目的：制御可能なアクセント正規化システムの開発
- 言語学習やダビングなど，アクセントの調整が必要な応用例が多い。
- 従来のアクセント正規化手法では，アクセント強度を制御できないという課題がある。
- アクセント強度を調整可能な正規化手法を提案し，その有効性を検証すること。
- 提案手法DLM-ANは，単語誤り率において比較対象システムの中で最低の結果を達成した。
- DLM-ANは，競争力のあるアクセント軽減効果と滑らかで解釈可能なアクセント強度制御を実現する。
- 自己教師あり学習による音声トークンを用いた，マスク付き離散拡散に基づくシステムである。
Link: https://arxiv.org/abs/2603.14275
LUMINA：エネルギー調和プロトコルを用いたマルチベンダーマンモグラフィーベンチマーク [math.CO, cs.DM, eess.IV, cs.CV, cs.DB, cs.LG]目的：マルチベンダーマンモグラフィー画像データセットの構築と，エネルギー調和プロトコルの有効性評価
- マンモグラフィーAIの信頼性向上には，多様なデータセットと標準化された評価が不可欠である。
- 既存のデータセットは，規模，臨床ラベル，ベンダーの多様性が不足しており，汎用的なモデル開発の妨げとなっている。
- ベンダーやエネルギーによる画像外観の変化を軽減し，より信頼性の高いAIモデル開発を促進すること。
- LUMINAデータセットは，6種類の装置と高・低エネルギーの画像を含み，ベンダーやエネルギーに起因する外観の差異を明らかにしている。
- 開発されたエネルギー調和プロトコルは，背景を維持しつつ，病変形態を維持しながら画像間のずれを軽減し，診断精度を向上させた。
- 二方向画像を用いたモデルは一方向画像モデルよりも高い性能を示し，EfficientNet-B0は診断でAUC 93.54%を達成した。
Link: https://arxiv.org/abs/2603.14644
3D CTスキャンにおける臨床的事前知識に基づく肺疾患検出 [eess.IV, cs.CV]目的：肺疾患の分類精度向上
- 肺疾患の早期発見・治療には，高精度な画像診断が不可欠である。
- 深層学習モデルはデータセットの不均衡に弱く，少数疾患の認識精度が低下しやすい。
- 性別情報を活用することで，不均衡データの影響を軽減し，少数疾患の認識精度を向上させる。
- 提案手法では，性別を考慮した2段階の肺疾患分類フレームワークを採用した。
- 実験結果から，特に扁平上皮癌などの少数疾患の認識性能が向上することが示された。
- 他の疾患クラスにおいても，競争力のある性能を維持している。
Link: https://arxiv.org/abs/2603.15143
強誘電体における分極マッピングのための機械学習手法のベンチマーク：4D-STEMの活用 [cond-mat.mtrl-sci, cs.CV]目的：強誘電体である硝酸ナトリウムカリウムニオブ酸塩の4D-STEM回折パターンからの分極方向の自動検出
- 材料の構造に関する原子レベルの知見を得る手段として4D-STEMが注目されている。
- 強誘電体の機能特性を理解する上で重要な分極方向の抽出は依然として課題である。
- シミュレーションと実験のギャップを埋め，実用的な機械学習ツールの開発を目指す。
- 合成データで訓練されたモデルは理想的な回折パターンで高い精度を達成するが，現実の実験データとの乖離が課題である。
- 独自の表現学習とPCA法，データ拡張，フィルタリングを組み合わせることで，このギャップを縮小できることが示された。
- モデルの誤分類パターンと結晶構造の欠陥との相関が示唆され，構造欠陥検出への応用可能性が示された。
Link: https://arxiv.org/abs/2603.15582
コントラストとクラスタリングによる教師なし点群事前学習 [cs.CC, cs.RO, cs.CV, cs.AI, math.OC]目的：点群の識別表現学習
- 点群データは，自動運転やロボティクスなど多様な分野で活用が期待されている。
- 大規模な点群データのアノテーションはコストが高く，現実的な課題となっている。
- ラベルなしデータから効果的な表現を学習し，アノテーションコストを削減する。
- 提案手法ConCluは，コントラスト学習とクラスタリングを統合した汎用的な事前学習フレームワークである。
- 同一点群の異なる拡張ビュー間の特徴表現の類似性を最大化し，データ分割と拡張間の一貫性を実現する。
- 複数の下流タスクにおいて，最先端手法を上回る性能を示し，提案フレームワークの有効性を実証した。
Link: https://arxiv.org/abs/2202.02543
ニューラルネットワークの概念的視点：神経記号分析のためのフレームワーク [cs.LG, cs.AI, cs.CV]目的：ニューラルネットワークのグローバルな説明
- 深層学習の応用拡大に伴い，その解釈可能性が重要視されている。
- ニューラルネットワークの内部動作は不透明であり，解釈が困難である。
- ニューラルネットワークの挙動を概念的に理解し，説明可能なルールを抽出する。
- 概念的視点は，ニューラルネットワークを忠実に表現し，アーキテクチャの比較を可能にする。
- Fruits-360およびImageNetモデルの実験により，その有効性が確認された。
- ニューロンから人間が理解可能なルールを推論するアブダクティブ学習を支援する。
Link: https://arxiv.org/abs/2209.13517
ゲーム理論的強化学習における木探索，生成モデル，ナッシュ交渉概念の組み合わせ [cs.AI, cs.GT, cs.LG, cs.MA]目的：対戦相手の戦略に対する信念分布の構築と，それを利用した最適反応の探索
- マルチエージェント環境における意思決定において，対戦相手の行動を予測し，それに対応することが重要である。
- 既存手法は，ドメイン固有のヒューリスティックに依存したり，大規模な不完全情報環境での最適反応計算が困難である。
- 深層ゲーム理論的強化学習を用いた，スケーラブルで汎用的な対戦相手モデリング手法を開発し，その有効性を示す。
- 生成モデルを用いた木探索（GenBR）は，大規模な不完全情報環境でも効率的に最適反応を計算できる。
- ナッシュ交渉概念に基づく対戦相手混合戦略の構築により，パレート最適解に近いプロファイルを特定することができた。
- Deal-or-No-Dealゲームにおいて，人間との交渉実験で，人間同士と同程度の社会的厚生とナッシュ交渉スコアを達成できるエージェントを開発した。
Link: https://arxiv.org/abs/2302.00797
変形不変ニューラルネットワークとその歪んだ画像復元および解析への応用 [cs.CV, cs.AI, eess.IV]目的：幾何学的な歪みを持つ画像に対する画像処理タスクの解決
- 画像認識等の分野において，幾何学的な歪みは重要な課題である。高精度な画像処理を実現するためには，歪みに強い技術が不可欠。
- 既存の深層学習モデルは，幾何学的な歪みに対して脆弱であり，正確な性能を発揮できない場合が多い。
- 本研究では，幾何学的な歪みにロバストな特徴量を抽出するフレームワークを提案し，画像処理の精度向上を目指す。
- 提案手法であるDINNは，幾何学的に歪んだ画像であっても，同じ対象やシーンに対して一貫した潜在特徴量を出力する。
- DINNは，軽量な準共形変換ネットワーク（QCTN）を既存の深層学習ネットワークに組み込むことで実現されている。
- 大気や水の乱れによる歪んだ画像の復元において，既存のGANベースの手法を上回る性能が確認された。
Link: https://arxiv.org/abs/2310.02641
効率的な後学習による動画基礎モデルの育成 [eess.SY, cs.SY, cs.CV]目的：動画基礎モデルの育成手法
- 動画データは情報量が豊富であり，様々な応用が期待されるため，動画理解技術の発展が重要である。
- 高品質な動画-言語データセットの不足や動画データの冗長性により，動画基礎モデルの構築は困難である。
- 画像モデルから効率的に動画基礎モデルを育成することで，動画理解技術の発展に貢献する。
- 提案手法では，入力動画パッチをランダムに削除し，テキストをマスクすることで，学習効率を大幅に向上させている。
- 様々な動画-言語タスクにおいて，既存の高性能な動画基礎モデルと同等の性能を達成している。
- 本手法は，8つのGPUで1日以内に学習が完了し，WebVid-10Mのみを事前学習データとして使用する点が特徴である。
Link: https://arxiv.org/abs/2310.19554
3D-LFM：基盤モデルの活用 [cs.CV, cs.AI, cs.LG]目的：2Dランドマークからの3D構造とカメラの復元
- コンピュータビジョンの根幹技術であり，ロボット工学や拡張現実などに応用が期待される。
- 従来の技術は特定の形状に限定され，多様な物体への対応が課題であった。
- 3Dデータを必要とせず，汎用的な構造への対応を可能にすることを目指す。
- Transformerの特性を活用し，点数の異なる3Dデータへの対応，遮蔽への耐性を実現した。
- 既存の2D-3Dリフティングタスクのベンチマークにおいて，最高水準の性能を達成した。
- 広範な構造に対応可能であるため，初の3Dリフティング基盤モデルとして位置づけられる。
Link: https://arxiv.org/abs/2312.11894
全天候マルチモーダル画像融合：統一フレームワークと10万件のベンチマーク [cs.CV]目的：全天候マルチモーダル画像融合モデルの構築と評価
- 多様なセンサからの情報を統合することで，より客観的で包括的な状況理解が可能となる。
- 既存手法は，実際の環境における天候の影響を受けやすく，実用性に課題があった。
- 悪天候下でもロバストな画像融合を実現し，応用タスクの性能向上を目指す。
- 本研究では，低ランクとスパース成分への分解による特徴分離と，物理に基づいた明瞭な特徴予測モジュールを導入した。
- 提案手法は，雨，霞，雪といった様々な気象条件下で，画像融合および物体検出，セマンティックセグメンテーション，深度推定などの下流タスクにおいて優れた性能を示した。
- 10万組の画像ペアから構成される大規模なマルチモーダル画像融合データセットを新たに構築した。
Link: https://arxiv.org/abs/2402.02090
文脈内学習による点群の理解：Point-In-Context [eess.SY, cs.SY, math.OC, cs.CV]目的：点群理解のための文脈内学習フレームワーク
- 大規模モデルの登場により，自然言語処理や画像処理において文脈内学習が強力な手法として注目されている。
- 3D点群データに対する文脈内学習の応用は未だ十分とは言えない。
- 本研究は，点群データに対し，ファインチューニングなしで多様なタスクを遂行できる汎用的なフレームワークを提案する。
- 提案手法Point-In-Context（PIC）は，単一の学習フェーズで複数の点群理解タスクを実行可能である。
- PIC++は，動的な文脈内ラベリングと学習戦略により，未知のデータセットへの汎化能力を向上させている。
- ファインチューニングなしで，カスタマイズされたプロンプトを通じて新たな分割タスクに対応できることを示した。
Link: https://arxiv.org/abs/2404.12352
Simple-RF: より単純な解法による疎な入力放射場 (Radiance Fields) の正則化 [cs.CV]目的：疎な入力画像から高品質な画像を生成するための正則化手法
- 近年，NeRFなどの放射場を用いた画像生成技術が発展している。高精度な映像表現が可能となっている。
- 従来の放射場は，十分な数の画像データが必要であり，疎な入力画像では性能が低下するという課題があった。
- 入力画像が少ない状況でも，より単純な解法を導き出すことで，深度推定の精度向上を目指す。
- 提案手法では，位置エンコーディングの削減やテンソル分解成分数の制限などにより，放射場の表現能力を抑制する。
- これにより，モデルが過学習するのを防ぎ，より良い深度推定を実現できることが示された。
- 様々なデータセットにおいて，従来の最高性能を超える画像合成結果が得られた。
Link: https://arxiv.org/abs/2404.19015
二者総和確率的スタケルバーグゲームに対する方策反復法 [cs.GT, cs.LG, cs.MA, math.OC]目的：二者総和確率的スタケルバーグゲームにおける方策最適化
- ゲーム理論は経済学や機械学習など，様々な分野で意思決定を分析するための基盤となる。
- 既存のスタケルバーグゲームに対する方策勾配法や価値反復法は，必ずしも単調な改善を保証しない。
- 本研究では，リーダーの性能を単調に改善する方策反復アルゴリズムを提案し，最適解探索を目指す。
- 本研究では，最良応答フォロワー下でのスタケルバーグゲームに対する方策改善定理を導出した。
- 提案手法は，リーダーの性能を単調に改善することを保証する。
- リーダーが近視的な場合，パレート最適解に収束することが証明された。
Link: https://arxiv.org/abs/2405.06689
MetaGS：分布外3Dシーンのライティングに対するメタ学習型ガウス-Phongモデル [cs.CV, cs.LG]目的：分布外の3Dシーンライティングにおける課題解決
- 3Dシーンのフォトリアリスティックな再現は，仮想現実やロボティクス等の応用において重要である。
- 既存手法は，学習時とテスト時のライティング分布の差異に弱く，分布外のライティング環境下で性能が低下する。
- 多様なライティング条件に対応可能な汎化性能の高い3Dシーン再構築手法を開発すること。
- MetaGSは，メタ学習により，多様なライティング条件に対応できる汎化性の高いガウス形状と外観属性を学習する。
- Blinn-Phong反射モデルの物理的制約をガウススプラッティングに組み込むことで，陰影成分の分離を改善し，より正確な3Dシーン再構成を実現する。
- 合成データ及び実データにおける実験結果から，MetaGSが困難な分布外ライティングタスクにおいて有効であることが示された。
Link: https://arxiv.org/abs/2405.20791
二重の説明によるBCC診断支援AIシステム [cs.LG, cs.AI, cs.CV, cs.IR, eess.IV]目的：基底細胞癌の診断支援
- 皮膚癌の約75%を占める基底細胞癌の早期発見が重要である。
- 遠隔皮膚科の普及により皮膚科医の負担が増加している。
- AIシステムの透明性を高め，臨床現場での信頼を得る。
- BCCの分類において90%の精度を達成した (適合率0.90，再現率0.89)。
- 臨床的に重要なBCCパターンを陽性症例の99%で正しく検出した。
- Grad-CAMによる可視化が皮膚科医の領域定義と高い一致を示した。
Link: https://arxiv.org/abs/2407.00104
ネストされた音楽Transformer：記号音楽とオーディオ生成における複合トークンの逐次的なデコード [cs.SD, cs.IR, cs.LG, eess.AS]目的：記号音楽とオーディオ生成のための複合トークン逐次デコード手法
- 音楽生成において，表現の効率化と音楽構造の理解が重要である。
- 複合トークンは系列長を短縮するが，サブトークン間の依存関係を捉えきれない場合がある。
- サブトークン間の依存関係を捉えつつ，効率的な複合トークンデコードを実現すること。
- 提案手法であるネストされた音楽Transformer（NMT）は，メモリ使用量を抑えつつ複合トークンを自己回帰的にデコードする。
- NMTは，複合トークン系列を扱うメインデコーダーと，各複合トークンのサブトークンをモデル化するサブデコーダーで構成される。
- 記号音楽データセットおよびMAESTROデータセットの離散オーディオトークン処理において，NMTがより良い性能を示すことが確認された。
Link: https://arxiv.org/abs/2408.01180
3Dアフォードランスのグラウンディングのための2D不変アフォードランス知識の学習 [cs.CV]目的：3Dアフォードランスのグラウンディングに関する知識
- ロボティクス等の幅広い応用において，3D物体の機能領域の予測は不可欠である。
- 3D物体と人間の相互作用画像間の幾何学的構造の不一致が，汎化性能を低下させる。
- 同じアフォードランスカテゴリ内での複数の画像から，不変なアフォードランス知識を学習することで問題を解決する。
- 提案手法MIFAGは，複数の画像間で共通する相互作用パターンを特定することで，3D物体の機能領域をグラウンディングする。
- IAMモジュールは反復更新戦略により，複数の画像から整合的なアフォードランス知識を抽出し，アフォードランス辞書に統合する。
- ADMモジュールは，複数の画像における全てのアフォードランス候補を考慮した点群表現を学習する。MIPAベンチマーク上で既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2408.13024
拡散モデルにおける低次元部分空間の探索：制御可能な画像編集 [cs.CV, cs.LG]目的：拡散モデルの潜在空間における低次元部分空間の特定と，それを利用した制御可能な画像編集手法の確立
- 拡散モデルは画像生成において高い性能を示すが，その潜在空間の理解は十分ではない。
- 拡散モデルにおいて，追加学習なしで正確かつ分離された画像生成を実現することが課題である。
- 潜在空間の低次元部分空間を特定し，学習不要で局所的な画像編集を可能にすること。
- 拡散モデルのノイズレベルにおいて，事後平均予測子(PMP)が局所的に線形であり，そのヤコビアンの特異ベクトルが低次元の潜在空間に存在することを示した。
- この洞察に基づき，学習不要の単一ステップ編集手法LOCO Editを提案し，均質性，転移性，合成性，線形性といった優れた編集方向性を確認した。
- LOCO Editを様々なテキスト-画像拡散モデルに拡張したT-LOCO Editにより，高い有効性と効率性を実証した。
Link: https://arxiv.org/abs/2409.02374
顔なりすまし検出の再検討：顔表現からなりすまし検出へ [cs.CV]目的：顔なりすまし検出における汎化性能の向上
- 近年，高度な画像生成技術の発展により，現実と区別のつかない偽の顔画像が容易に作成可能となった。
- 既存の顔なりすまし検出手法は，特定のデータセットに過剰適合し，未知の偽造画像に対する汎化性能が低い。
- 顔の専門知識に基づいた表現学習と，効果的な微調整フレームワークにより，汎化性能を高める。
- 本研究では，自己教師あり学習を用いて顔認識能力に優れた事前学習バックボーンを開発した。
- 競争学習メカニズムを用いた微調整フレームワークにより，バックボーンが暗黙的な偽造の兆候を識別する能力を向上させた。
- 予測信頼度に基づく閾値最適化機構により，推論の信頼性を高めた。顔関連タスクにおいても高い性能を示した。
Link: https://arxiv.org/abs/2409.16945
解釈可能性のための適切な基底の選択：ニューロンベース表現と辞書ベース表現の心理物理学的比較 [cs.CV]目的：ニューロンベース表現と辞書ベース表現の解釈可能性の比較
- 深層学習モデルの内部動作を理解することは，モデルの信頼性と改善に不可欠である。
- ニューロンレベルでの解釈は，複数のパターンへの反応という問題があり，解釈の明確性が損なわれる場合がある。
- 辞書学習を用いることで，より明確な基底を学習し，解釈可能性を高めることを目指す。
- 心理物理実験の結果，辞書ベース表現はニューロンベース表現よりも一貫して解釈可能性が高いことが示された。
- 特に深い層において，辞書ベース表現の優位性は顕著であった。
- モデル間のニューロン整合性の違いが，解釈可能性の評価に影響を与える可能性が示唆された。
Link: https://arxiv.org/abs/2411.03993
MSEG-VCUQ：拡張された視覚基盤モデル，畳み込みニューラルネットワーク，および不確実性定量を用いたマルチモーダルSEG分割による高速ビデオ位相検出データ [cs.CV, cs.LG, eess.IV]目的：工業プロセスにおける気相，液相，マイクロ層相のモニタリングに不可欠な高速ビデオ位相検出セグメンテーションの実現
- 工業プロセスにおける二相流解析は，効率向上や安全性確保に不可欠であり，その可視化技術の発展が求められている。
- 従来のCNNモデルは簡略化された画像データに限定され，複雑な高速ビデオ位相検出データへの適用は困難であった。
- 本研究は，より高精度かつ汎用性の高いセグメンテーション手法と，評価のための大規模データセットの提供を目指す。
- MSEG-VCUQは，U-NetとSAMを組み合わせることで，既存のCNNや視覚基盤モデルを上回るセグメンテーション精度を達成した。
- 本手法は，エラー評価のための不確実性定量を取り入れ，信頼性の高い結果を提供することが示された。
- また，高速ビデオ位相検出データに特化した初のオープンソースマルチモーダルデータセットを公開し，今後の研究を促進する。
Link: https://arxiv.org/abs/2411.07463
INST-IT：明示的な視覚的プロンプト命令調整によるインスタンス理解の向上 [cs.CV]目的：インスタンスレベルの理解度向上
- マルチモーダルモデルの性能向上には，画像や動画の理解が不可欠である。
- 既存モデルは全体的な理解は可能だが，詳細なインスタンスレベルの理解が課題である。
- 視覚的プロンプトを用いた命令調整で，インスタンス理解能力を強化する。
- Inst-ITによって強化されたモデルは，インスタンス理解ベンチマークで優れた性能を示した。
- 従来の画像・動画理解ベンチマークにおいても，有意な改善が見られた。
- 本手法は，インスタンスレベル理解の向上に加え，汎用的な画像・動画理解能力も強化する。
Link: https://arxiv.org/abs/2412.03565
DiCoDe：拡散圧縮深層トークンを用いた言語モデルによる自己回帰型動画生成 [cs.CV]目的：拡散圧縮深層トークンを利用した言語モデルによる自己回帰型動画生成手法
- 動画生成は，エンターテインメントから教育まで幅広い分野で重要であり，高品質かつ効率的な生成手法が求められている。
- 既存手法は低レベルな表現に依存し，圧縮率が低い場合が多く，大規模な動画生成のボトルネックとなっている。
- 動画拡散モデルの事前知識を活用し，高圧縮率を実現する深層トークンを開発し，自己回帰型言語モデルの適用を可能にする。
- DiCoDeは，従来の動画生成手法と同等の品質を維持しつつ，より効率的な学習を実現した。
- モデルサイズを1億から30億パラメータに拡大することで，性能が着実に向上することを確認した。
- この研究は，自己回帰型言語モデルによるスケーラブルな動画モデリングの初期段階を示すものであり，より大規模で強力な動画生成モデル開発への道を開く。
Link: https://arxiv.org/abs/2412.04446
VisionZip：視覚言語モデルにおいて，長いことは必ずしも必要ではない [cs.CV, cs.AI, cs.CL, cs.LG]目的：視覚言語モデルにおける冗長性の削減と効率化
- 視覚言語モデルは画像とテキストの理解を可能にし，様々な応用が期待されている。
- 既存モデルでは，視覚トークンの長さを増やすことで性能向上を図る傾向があるが，計算コストが増大する。
- 本研究は，冗長な視覚トークンを選択的に利用することで，効率性と性能を両立することを目指す。
- VisionZipは，既存手法と比較して，ほぼ全ての条件下で少なくとも5%以上の性能向上を達成した。
- 推論速度が大幅に向上し，LLaVA-Next 13BモデルはLLaVA-Next 7Bモデルよりも高速に推論が可能となった。
- 視覚特徴量の抽出に着目し，トークン長の増加に頼らない方向性を示唆した。
Link: https://arxiv.org/abs/2412.04467
DepthLab: 不完全から完全へ [cs.CV]目的：深度データの補完手法
- 深度データは多様な応用分野で利用され，その重要性は増している。
- 深度データの欠損は，取得の不完全性や視点変化により頻繁に発生する。
- 欠損した深度データを高精度に補完し，3Dシーンの質を向上させる。
- DepthLabは，画像拡散事前知識を活用し，欠損領域に対してロバストな補完を実現した。
- 補完された深度データは，既存手法と比較してスケールの一貫性が高く，数値的性能と視覚的品質に優れる。
- 3Dシーンインペインティング，テキストから3Dシーン生成など，様々な下流タスクで有効性が確認された。
Link: https://arxiv.org/abs/2412.18153
3Dヒューマンポーズ推定におけるバランスの取れたマルチモーダル学習に向けて [cs.HC, cs.CV, cs.AI]目的：3Dヒューマンポーズ推定のためのバランスの取れたマルチモーダル学習手法
- RGB画像のみでは課題があり，プライバシーへの配慮も重要である。そのため，非侵襲センサーを活用したマルチモーダルセンシングが注目されている。
- マルチモーダル3D HPEでは，各モダリティの貢献度の不均衡が性能低下の原因となる場合がある。
- RGB，LiDAR，mmWave，WiFiなどのマルチモーダルデータを活用し，モダリティ間の不均衡を解消することで，よりロバストな3Dポーズ推定を目指す。
- 提案手法では，Shapley値に基づいた貢献度評価アルゴリズムを用いてモダリティ間の不均衡を検出し，学習の初期段階で学習速度を調整するモダリティ学習規制戦略を採用している。
- MM-Fiデータセットを用いた実験により，提案手法が複雑な条件下での3Dポーズ推定性能を向上させることが示された。
- ソースコードは公開されており，再現性とさらなる研究への貢献が期待できる。
Link: https://arxiv.org/abs/2501.05264
戦略的な購入者を考慮した公平性重視の文脈的動的価格設定 [cs.CL, cs.GT, cs.LG, stat.ML]目的：公平性と戦略的行動を両立する動的価格設定ポリシーの提案
- オンライン販売において文脈的価格設定は一般的であり，収益向上に貢献する。
- 特定のグループ間で価格差が生じると，公平性の問題や法規制違反の懸念が生じる。
- 購入者の戦略的行動を考慮しつつ，価格の公平性を確保し，不当な価格差を抑制する。
- 提案するポリシーは，$O(\sqrt{T}+H(T))$という上限のリグレットを達成する。
- 購入者が価格ポリシーの公平性を学習可能な場合，上限は$O(\sqrt{T})$に減少する。
- 実データ分析の結果，提案ポリシーはベンチマークポリシーと比較して35.06%のリグレット削減を達成した。
Link: https://arxiv.org/abs/2501.15338
脳MRIの量子化コードによる完全スタック仮想スキャン [cs.CV, cs.AI]目的：脳MRIの欠損モダリティの補完
- MRIは解剖学的情報を幅広く提供するが，時間とコストで全てのモダリティを収集するのは困難である。
- 既存の補完手法は，患者やプロトコルへの汎用性に限界がある。
- 様々な補完タスクを統一的に解決し，仮想完全スタックスキャンを実現する。
- 提案手法CodeBrainは，既存の最先端手法を凌駕し，脳MRI補完の新たなベンチマークを確立した。
- CodeBrainは，領域レベルでの完全スタックコード予測問題として補完タスクを再構築する。
- スカラー量子化コードとモダリティに依存しない共通特徴を用いることで，高忠実度の画像再構成を可能にする。
Link: https://arxiv.org/abs/2501.18328
VL-Nav：推論に基づく視覚言語ナビゲーションのためのニューロシンボリックアプローチ [cs.RO, cs.CV]目的：複雑な指示に基づく視覚言語ナビゲーションシステムの開発
- 自律移動ロボットにおける大規模環境でのナビゲーションは，実用化に向けて重要である。
- 既存手法は複雑なタスクの分解や効率的な探索に課題があり，ロボットの彷徨や目標認識の失敗を招く。
- ニューロシンボリックアプローチにより，タスク分解と効率的な探索を実現し，ナビゲーションの成功率向上を目指す。
- 提案システムVL-Navは，ニューラル推論とシンボリックガイダンスを組み合わせることで，高いナビゲーション性能を発揮する。
- DARPA TIAMATチャレンジのナビゲーションタスクにおいて，屋内環境で83.4%，屋外環境で75%の成功率を達成した。
- 実環境実験では86.3%の成功率を記録，特に483メートルの長距離走行においても高い性能を示した。
Link: https://arxiv.org/abs/2502.00931
深層学習に基づくイベントデータ符号化：時空間および極性情報の統合的解法 [eess.SY, cs.SY, cs.CV, eess.IV]目的：イベントデータの効率的な符号化
- イベントカメラは大量のデータを生成し，効率的な符号化が不可欠である。
- 既存手法は非可逆圧縮を避け，用途が限定されていた。
- 時空間情報と極性情報の相関性を活用し，符号化効率を向上させる。
- 提案手法DL-JECは，単一の点群表現を用いることで，従来の二点群表現と比較して高い圧縮性能を実現した。
- DL-JECは，MPEG G-PCCやJPEG Pleno PCCなどの既存手法を上回る圧縮性能を示した。
- 非可逆圧縮を用いても，イベント分類などのコンピュータビジョンタスクの性能を維持できることが示された。
Link: https://arxiv.org/abs/2502.03285