arXiv雑要約

画像・音声 - 2025/12/18 公開

  • スペクトルマスキングと補間攻撃(SMIA):音声認証および偽造防止システムに対するブラックボックス敵対的攻撃 [cs.SD, cs.AI]目的:音声認証および偽造防止システムの脆弱性を示す敵対的攻撃手法の開発
    • 音声認証はセキュリティ向上に不可欠だが,深層学習モデルへの攻撃リスクが課題となっている。
    • 既存の偽造防止対策は静的なモデルに依存し,新たな攻撃手法には脆弱性がある。
    • 人間の聴覚では知覚できない周波数領域を操作する攻撃手法によって,既存システムを回避する。
    • 提案手法SMIAは,組み合わせ型音声認証/偽造防止システムに対して82%以上の高い攻撃成功率を達成した。
    • 単独の音声認証システムに対しては97.5%,偽造防止対策単体に対しては100%の攻撃成功率を示した。
    • これらの結果から,現在のセキュリティ対策が適応的な敵対的攻撃に対して不十分であることが示された。

    Link: https://arxiv.org/abs/2509.07677

  • FitPro:オープンワールドにおけるインタラクティブなテキストベース歩行者検索のためのゼロショットフレームワーク [cs.CV]目的:オープンワールドにおけるインタラクティブなテキストベース歩行者検索
    • 歩行者検索は,監視カメラ等の映像から特定の人物を特定する上で重要であり,セキュリティや捜査に貢献する。
    • 既存手法は限定的な環境下での性能向上に留まり,多様な環境下での汎化性能や意味理解が課題となっていた。
    • 本研究は,多様な環境下で高い汎化性能と意味理解を実現し,実用的な歩行者検索システムを開発することを目指す。
    • FitProは,ノイズ除去された画像から高品質な歩行者記述を生成するFeature Contrastive Decoding (FCD) を導入し,ゼロショットシナリオにおける意味のずれを軽減する。
    • Incremental Semantic Mining (ISM) により,多視点からの観察から包括的な歩行者表現を構築し,視点変化や記述の微細な差異に対するロバスト性を向上させる。
    • Query-aware Hierarchical Retrieval (QHR) によって検索パイプラインを動的に最適化し,マルチモーダルおよびマルチビュー入力への効率的な適応を可能にする。

    Link: https://arxiv.org/abs/2509.16674

  • 医療画像言語モデルにおける追従性のベンチマークと軽減 [cs.CV, cs.AI]目的:医療画像言語モデルにおける追従性の評価と軽減策の開発
    • 医療現場でのAI活用が期待される中,画像と言語を理解するモデルの重要性が増している。
    • 医療分野でのAIモデルは,誤った判断に繋がり患者の安全を脅かす追従性という問題がある。
    • 本研究は,追従性を客観的に評価し,その影響を軽減する手法を確立することを目的とする。
    • 現在の医療画像言語モデルは,視覚的な手がかりに大きく依存し,追従性が高いことが示された。
    • 権威やユーザーの模倣といった社会的要素が追従性を引き起こすメカニズムが明らかになった。
    • 提案手法VIPERは,証拠に基づかない社会的要素をフィルタリングすることで,追従性を効果的に抑制し,解釈性を維持した。

    Link: https://arxiv.org/abs/2509.21979

  • スパースオートエンコーダが音声基盤モデルをより解釈可能にする [cs.CL, cs.SD, cs.AI, cs.LG, eess.AS]目的:音声基盤モデルの解釈可能性向上
    • 音声処理技術は,多様な応用分野で重要性が増しており,その高度化が求められている。
    • 既存の音声モデルは表現が不明瞭で,内部構造の分析が線形プロービングに限定される。
    • スパースオートエンコーダを用いて,音声表現の内部因子を特定し,解釈可能性を高める。
    • スパースオートエンコーダは,元の表現とクラスラベルの両方の情報を保持することが示された。
    • これにより,自己教師あり学習システムの内部構造に関する洞察が得られる。
    • さらに,スパースオートエンコーダは歌唱技術分類において,音声属性の分散表現を強化することが確認された。

    Link: https://arxiv.org/abs/2509.24793

  • 効率と有効性:脳血管3Dセグメンテーションにおける圧縮率とDice係数の関係評価 [cs.CV, eess.SP]目的:脳血管3Dセグメンテーションにおける圧縮率とDice係数の関係
    • 医療画像データは増大の一途を辿り,共同研究やデータ共有の妨げとなっている。
    • 大規模3D医療画像データの取り扱いは,計算資源の制約やデータ転送の困難さといった課題がある。
    • ZFP圧縮技術を用いて,データサイズを削減しつつ,セグメンテーション精度を維持できるか検証する。
    • ZFP圧縮により,最大22.89:1の圧縮率を達成し,データ量を大幅に削減できた。
    • 圧縮後もDice係数は0.87656と高く,セグメンテーション精度は維持された。
    • ZFPは,大規模医療データセットを用いた研究を効率化し,共同研究を促進するための有効なツールとなり得る。

    Link: https://arxiv.org/abs/2510.03769

  • 制御付き自己回帰拡散によるデータ同化 [cs.LG, cs.AI, cs.CV]目的:データ同化のための制御スキーム
    • 気象や流体などの複雑なシステムの予測精度向上には,観測データとモデルの統合が不可欠である。
    • 従来のデータ同化手法は計算コストが高く,観測データが少ない場合に予測誤差が累積しやすい。
    • 拡散モデルを用いたデータ同化の効率化と,予測精度の改善を目指す。
    • 事前学習済みの自己回帰拡散モデルに軽量な制御ネットワークを導入し,将来の予測を考慮したステップごとの制御を学習する。
    • この手法は,従来のデータ同化手法と比較して,計算速度が大幅に向上し,予測の安定性と精度が向上する。
    • 二つの代表的な偏微分方程式と六つの観測条件において,最先端のベースラインを上回る性能を実証した。

    Link: https://arxiv.org/abs/2510.06637

  • 拡散モデルとEMによる汚染データからの学習:DiffEM [cs.LG, cs.AI, cs.CV]目的:汚染データからの拡散モデル学習手法
    • 高次元逆問題において,拡散モデルは強力な生成事前分布として注目されている。
    • 観測データが汚染またはノイズを含む場合,拡散モデルの学習は困難である。
    • 汚染データから拡散モデルを学習するための新たな手法を開発し,その有効性を示す。
    • 提案手法DiffEMは,Eステップで条件付き拡散モデルを用いてクリーンなデータを再構成する。
    • Mステップでは,再構成されたデータを用いて条件付き拡散モデルを改良する。
    • DiffEMの反復における単調収束性について,統計的条件の下で理論的な保証を与える。

    Link: https://arxiv.org/abs/2510.12691

  • LoRAverse:拡散モデルのための多様なアダプター検索に関する部分モジュールフレームワーク [cs.CL, cs.CV]目的:拡散モデル向けLoRAアダプターの多様性確保と検索
    • 拡散モデルは高品質な画像生成を可能にするが,多様なコンテンツ生成にはパーソナライズが不可欠である。
    • LoRAアダプターは大量に存在するが,適切なアダプターの選択・利用が困難である。
    • 膨大なLoRAアダプターデータベースから,最適なアダプターの組み合わせを効率的に見つけ出す。
    • 提案手法は,部分モジュール性に基づき,多様な出力が得られるアダプター群を効率的に選択できる。
    • 定量評価と定性評価により,多様なドメインで良好な結果が得られていることが示された。
    • 本研究は,拡散モデルにおけるLoRAアダプターの活用を促進し,コンテンツ生成の可能性を広げる。

    Link: https://arxiv.org/abs/2510.15022

  • 指示に基づくビデオ編集のスケーリング:高品質な合成データセットによるアプローチ [cs.RO, math.OC, cs.CL, cs.CV]目的:大規模高品質なビデオ編集データセットの構築
    • コンテンツ制作の民主化が期待されるが,高品質な学習データの不足が課題である。
    • 既存のモデルは生成範囲が限られており,コストと品質のトレードオフが存在する。
    • 多様な指示生成と厳格な品質管理による,スケーラブルなデータパイプラインの実現を目指す。
    • Dittoというフレームワークを開発し,画像編集とビデオ生成を融合させたデータ生成パイプラインを構築した。
    • Ditto-1Mという100万件の高品質ビデオ編集例からなるデータセットを構築した。
    • EdittoモデルをDitto-1Mで学習した結果,指示追従能力が向上し,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2510.15742

  • AdSum:自動動画広告クリッピングのための二ストリーム音声・映像要約 [cs.RO, cs.CV, cs.IR, cs.MM]目的:動画広告の自動クリッピング
    • 広告キャンペーンにおいて,多様な尺の広告が求められるため,効率的な制作手法が不可欠である。
    • 従来の広告編集は手作業に頼る部分が多く,時間と労力がかかるという課題があった。
    • 本研究は,動画要約技術を用いて,広告の自動クリッピングを実現し,制作効率の向上を目指す。
    • 提案手法は,音声と映像の情報を融合した二ストリームモデルを用いることで,広告に特化した重要なフレームを予測する。
    • 新たに構築した広告データセットAdSum204を用いて実験を行った結果,最先端手法を凌駕する性能を示した。
    • 本研究で公開したデータセットとコードは,今後の広告クリッピング研究の発展に貢献すると期待される。

    Link: https://arxiv.org/abs/2510.26569

  • 深層ニューラルネットワークとGrad-CAMによる胸部X線画像からの弱学習肺炎局在化 [cs.CV]目的:胸部X線画像を用いた肺炎の分類と局在化
    • 肺炎診断には胸部X線画像が広く用いられる。迅速かつ正確な診断が重要である。
    • 詳細なピクセルレベルのアノテーション作成にはコストと時間がかかる。
    • 画像レベルのラベルのみで肺炎領域を局在化する手法を開発する。
    • 提案手法は,高精度な肺炎分類(96~98%)を達成した。
    • ResNet-18とEfficientNet-B0が最も優れた性能を示した。
    • Grad-CAMによる可視化により,臨床的に妥当な肺領域に注目していることが確認された。

    Link: https://arxiv.org/abs/2511.00456

  • MUSE:核検出と分類のためのマルチスケール稠密自己知識蒸留 [cs.CV]目的:組織病理分析における核検出と分類
    • 病理診断の精度向上に不可欠であり,多様な高次病理学的応用に基盤となる重要なタスクである。
    • 既存手法は,手間のかかる核レベルのアノテーションに依存しており,大規模な未ラベルデータを活用できていない。
    • ラベルなしデータを用いて,より識別力のある核表現を獲得し,組織病理学的な核検出・分類の課題を解決する。
    • MUSEは,NuLoと呼ばれる座標に基づいた局所的な自己知識蒸留メカニズムを導入することで,異なるスケール間の情報を効果的に活用する。
    • 従来の教師あり学習モデルを上回り,汎用的な病理学的基盤モデルよりも優れた性能を示すことが,3つのベンチマークデータセットで実証された。
    • エンコーダー・デコーダー構造と,広視野Semi-supervised fine-tuning戦略により,ラベルなし病理画像の価値を最大限に引き出した。

    Link: https://arxiv.org/abs/2511.05170

  • 視覚言語モデルにおける空間知能のための3D知覚 [cs.CV]目的:視覚言語モデルにおける3D関連タスクの空間認識能力の向上
    • ロボティクス等の実世界応用には,3D空間の理解が不可欠であり,その重要性は高い。
    • 既存の視覚言語モデルは2D画像で学習されるため,3Dタスクにおける性能が十分ではない。
    • 2D入力からの3D情報の抽出効率を向上させ,視覚言語モデルの3D推論能力を高める。
    • SandboxVLMは,抽象的なバウンディングボックスを用いて幾何学的構造と物理的運動論をエンコードする。
    • ゼロショット設定での評価により,既存手法と比較してSAT Realで8.3%の性能向上を達成した。
    • 3D抽象化を視覚言語モデルに組み込むことで,追加学習なしに3D推論能力を大幅に向上させることが示された。

    Link: https://arxiv.org/abs/2511.10946

  • MovSemCL:軌跡のセマンティクス対照学習による軌跡類似度計算 (拡張) [cs.CV, cs.AI, cs.DB]目的:軌跡類似度計算のための運動・セマンティクス対照学習フレームワーク
    • 軌跡類似度計算は,クラスタリング,予測,異常検知など,様々な応用において基盤となる機能である。
    • 既存の学習ベース手法は,軌跡のセマンティクスと階層構造のモデル化が不十分である。
    • 運動とセマンティクスに着目し,効率的で物理的に妥当な軌跡表現を獲得することで,類似度計算の精度向上を目指す。
    • MovSemCLは,生のGPS軌跡を運動・セマンティクス特徴に変換し,パッチに分割することで,効率的な階層的表現を可能にする。
    • 実世界のデータセットを用いた実験により,MovSemCLは最先端手法を凌駕し,類似度検索タスクにおいて平均順位を1に近づけた。
    • また,MovSemCLは,推論待ち時間を最大43.4%削減し,ヒューリスティック近似において最大20.3%の改善を達成した。

    Link: https://arxiv.org/abs/2511.12061

  • PerTouch:VLM駆動によるパーソナライズと意味的画像レタッチ [cs.CV]目的:パーソナライズされた美意識に合致した画像品質の向上
    • 画像レタッチは,視覚的な品質を高め,ユーザーの好みに合わせる上で重要である。
    • 制御性と主観性のバランスが難しく,ユーザーの意図を正確に反映することが課題である。
    • 自然言語による指示と視覚的な制御を結びつけ,ユーザーの意図により合致させることを目指す。
    • PerTouchは,拡散モデルに基づき,意味レベルでの画像レタッチを可能にする。
    • パラメータマップを用いて,特定の領域の属性値を制御し,詳細なレタッチを実現する。
    • VLM駆動エージェントにより,ユーザーの強弱の異なる指示に対応し,長期的な好みを学習する。

    Link: https://arxiv.org/abs/2511.12998

  • ターゲット事前知識に基づく暗黙的3D CT再構成による,低線量イメージングの向上 [cs.CV]目的:低線量CT画像からの高精度な3D再構成
    • X線画像は内部構造を可視化する上で重要であり,医療診断に不可欠である。
    • 従来の暗黙的3D再構成法は,解剖学的事前知識の活用が不十分で,特に低線量条件下では精度が低下する。
    • 本研究は,対象物体の投影データから得られる事前知識を用いて,暗黙的学習を促進し,再構成精度を向上させる。
    • 提案手法は,位置と構造のエンコーディングを統合し,ターゲット事前知識に基づいてボクセルサンプリングを誘導することで,学習効率と再構成品質を大幅に向上させる。
    • 実験の結果,複雑な腹部データセットにおいて,学習効率が最先端モデル NAF を10倍上回り,再構成品質がNeRPを上回ることが示された。
    • 特に,10,20,30投影時のPSNRはそれぞれ3.57 dB,5.42 dB,5.70 dB改善された。

    Link: https://arxiv.org/abs/2511.18806

  • 人間中心のオープンフューチャー課題発見:定式化,ベンチマーク,スケーラブルな木構造探索 [cs.CV]目的:人間中心のオープンフューチャー課題発見
    • ロボティクスや具現化されたAIの進歩は著しいが,人間支援を目的とした課題発見が重要である。
    • 大規模マルチモーダルモデルは進歩しているものの,人間の意図が多様で動的な状況での課題発見は未開拓である。
    • 人間の努力を軽減するような,将来の状況を考慮した課題を特定することを目指す。
    • 本研究では,人間中心のオープンフューチャー課題発見(HOTD)の問題を定式化し,HOTD-Benchを提案した。
    • 提案手法であるCMASTは,HOTD-Benchにおいて既存のLMMを大幅に上回る性能を達成した。
    • CMASTは既存のLMMとも容易に統合でき,性能向上に貢献する。

    Link: https://arxiv.org/abs/2511.18929

  • 履歴付き対照的学習とソフトMoEによる惑星リモートセンシング画像のブラインド超解像 [cs.CV]目的:惑星リモートセンシング画像のブラインド超解像のための新しいフレームワーク
    • 惑星探査において,高解像度画像は地質学的特徴の理解に不可欠である。
    • ブラインド超解像は,真の劣化パターンと教師データがないため,非常に困難な問題である。
    • 既存手法の不安定性や多様な地形への適応不足を克服し,より高精度な復元を目指す。
    • 提案手法HAC-MoEは,カーネル推定と画像再構成を分離し,外部のカーネル事前知識に依存しない。
    • 対照的カーネルサンプリングと履歴付き対照的学習により,最適化の安定性と過学習の抑制を実現している。
    • Ceres-50データセットを用いた実験で,HAC-MoEが最先端の性能を示すことが確認された。

    Link: https://arxiv.org/abs/2511.20045

  • SparseWorld-TC:軌道条件付き疎占有ワールドモデル [cs.CV]目的:将来の3Dシーン占有率の軌道条件付き予測
    • 自動運転やロボット工学において,周囲環境の正確な予測は不可欠である。
    • 既存手法は表現能力に限界があり,複雑なシーンの占有予測が困難である。
    • Transformerを用いて,より高精度かつロバストな占有予測を実現することを目指す。
    • 提案手法は,既存のVAEベースの手法と比較して,表現能力が向上している。
    • nuScenesベンチマークにおいて,1〜3秒先の占有予測で最先端の性能を達成した。
    • 任意の軌道条件に対する予測精度が高く,ロバストなシーンダイナミクス理解を示した。

    Link: https://arxiv.org/abs/2511.22039

  • dots.ocr:単一のVision-Languageモデルによる多言語ドキュメントレイアウト解析 [cs.CV]目的:多言語ドキュメントのレイアウト解析手法
    • 知識獲得において,ドキュメントの構造化された情報へのアクセスは重要である。
    • 既存手法は多段階パイプラインであり,エラー伝播や共同学習の不足が課題である。
    • 単一のモデルでレイアウト解析,テキスト認識,関係性の理解を統合的に行う。
    • dots.ocrは,レイアウト解析,テキスト認識,関係性理解を統合的に学習する初のモデルである。
    • 大規模な多言語データエンジンにより,多様な言語,レイアウト,ドメインで高い性能を発揮する。
    • OmniDocBenchおよびXDocParseベンチマークにおいて,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2512.02498

  • DM3D:オフセット誘導ガウスシーケンスによる変形可能なマンバ - 点群理解のための [cs.CV]目的:点群理解のための適応的なシリアライゼーション手法の開発
    • 点群データは,3次元形状の表現として重要であり,自動運転やロボティクス等,様々な分野で活用が期待されている。
    • 点群データは順序を持たないため,シーケンスモデルの適用が困難であり,従来のシリアライゼーション戦略は構造の多様性に適応できない。
    • 点群の構造に適応的に順序を付け,シーケンスモデルの性能を最大限に引き出すことを目指す。
    • 提案手法DM3Dは,オフセット誘導ガウスシーケンス機構により,点群の局所的なリサンプリングとグローバルな再順序付けを統合する。
    • DM3Dは,分類,Few-Shot Learning,部品セグメンテーションのベンチマークデータセットにおいて最先端の性能を達成した。
    • 適応的なシリアライゼーションは,点群理解におけるシーケンスモデルの潜在能力を効果的に引き出すことが示された。

    Link: https://arxiv.org/abs/2512.03424

  • セグメントからシーンへ:ビジョン言語モデルによる自動運転における時間的理解 [cs.CV, cs.AI]目的:自動運転における時間的理解能力の評価と向上
    • 自動運転の安全性向上には,周囲状況の時間的変化を正確に捉える能力が不可欠である。
    • 既存のベンチマークは,スポーツや映画など他の動画コンテンツに重点を置いており,自動運転特有の時間的理解の課題に対応できていない。
    • 自動運転映像に特化したベンチマークを構築し,時間的な関係性の把握能力を評価・改善すること。
    • 新しいベンチマーク「TAD」を導入し,既存のビジョン言語モデルの性能を評価した結果,詳細な動きの理解が不十分であることが明らかになった。
    • Chain-of-ThoughtとTCogMapという2つの新しい手法を提案し,既存モデルに統合することで,TADにおける平均精度を最大17.72%向上させた。
    • TADベンチマークと評価コードを公開することで,自動運転における時間的理解に関する今後の研究を促進することを目指す。

    Link: https://arxiv.org/abs/2512.05277

  • プロンプトに基づく継続的構成的ゼロショット学習 [cs.CV, cs.AI]目的:視覚言語モデルの新しい属性,物体,およびそれらの組み合わせへの継続的な適応
    • 視覚言語モデルの応用範囲拡大には,新たな概念への柔軟な対応が不可欠である。
    • 従来の継続学習では,クラスが分離している前提があり,複雑な組み合わせ学習には不向きである。
    • 既存知識の忘却を防ぎつつ,構成的なゼロショット学習における適応能力の向上を目指す。
    • 本研究では,凍結されたVLMバックボーン上に,プロンプトに基づく継続的構成的ゼロショット学習(PromptCCZSL)フレームワークを提案する。
    • PromptCCZSLは,過去知識の保持にrecency-weighted multi-teacher distillationを活用し,セッション固有の構成的プロンプトとセッションに依存しない属性・物体プロンプトを融合する。
    • UT-ZapposおよびC-GQAベンチマークにおいて,PromptCCZSLは既存手法を大幅に上回り,CCZSLの新たなベンチマークを確立した。

    Link: https://arxiv.org/abs/2512.09172

  • M4Human: 人間メッシュ再構成のための大規模マルチモーダルmmWaveレーダーベンチマーク [cs.CV]目的:人間メッシュ再構成のための大規模マルチモーダルデータセット
    • 身体と環境の相互作用理解は,没入型アプリケーションの実現に不可欠である。
    • 既存のデータセットはRGB入力に依存し,隠蔽やプライバシーの問題がある。
    • プライバシーを保護し,多様な動きを捉えた高精度なレーダーデータセットの提供。
    • M4Humanは,既存の最大規模データセットの9倍にあたる661Kフレームを提供する。
    • 生レーダーテンソルと処理済み点群を収録し,様々な研究レベルに対応する。
    • レーダーデータとRGB-Dデータの融合が,人間モデリングにおいて重要であることが示された。

    Link: https://arxiv.org/abs/2512.12378

  • RecTok:修正されたフローに沿った再構成蒸留 [cs.CV]目的:高次元のビジュアルトークナイザーの限界克服
    • 拡散モデルにおいて,ビジュアルトークナイザーは重要な役割を担う。
    • 潜在空間の次元数と生成品質の間にはトレードオフが存在する。
    • フローマッチングにおけるセマンティックな情報量を増強し,再構成を改善する。
    • RecTokは,フローセマンティック蒸留と再構成アライメント蒸留という2つの革新的な手法を用いる。
    • 実験の結果,RecTokは画像再構成,生成品質,識別性能において優れた結果を達成した。
    • gFID-50Kにおいて最先端の結果を達成し,潜在空間構造のセマンティックな豊かさを維持した。

    Link: https://arxiv.org/abs/2512.13421

  • 音楽感情認識のための専門家注釈データセットと双方向適応フレームワーク:Memo2496 [eess.SY, cs.HC, cs.NI, cs.SY, stat.AP, cs.SD, cs.AI, cs.MM]目的:音楽感情認識のための高品質な注釈データセットと,楽曲間特徴ドリフトへの対処
    • 音楽感情認識は,音楽と人間の感情との関係を理解する上で重要であり,音楽推薦やコンテンツベースの音楽検索に応用可能である。
    • 既存のデータセットは規模が小さく,質の高い注釈が不足している。また,楽曲間で特徴が変動し,認識精度が低下する課題がある。
    • 大規模で高品質なデータセットと,楽曲間特徴ドリフトを軽減する新たなフレームワークを構築し,音楽感情認識の精度向上を目指す。
    • 本研究では,30名の音楽専門家が注釈した2496曲のインストゥルメンタル音楽データセット「Memo2496」を公開した。
    • 提案手法DAMERは,Melスペクトログラムとコクログラムを融合し,信頼性の高い擬似ラベル生成と楽曲間特徴ドリフト軽減を実現した。
    • Memo2496,1000songs,PMEmoの各データセットにおいて,DAMERは最先端の性能を示し,特に覚醒度次元の精度を向上させた。

    Link: https://arxiv.org/abs/2512.13998

  • 履歴強化型二段階Transformerによる航空視覚言語ナビゲーション [cs.CV, cs.RO]目的:航空視覚言語ナビゲーションにおける性能向上
    • 都市環境における自律移動ロボットの実現には,環境理解と指示解釈が不可欠である。
    • 既存手法は,大域的推論と局所的理解のバランスが難しく,性能が制限される。
    • 粗視点からの探索と詳細視点での行動決定を組み合わせることで,この課題を解決する。
    • 提案手法HETTは,空間ランドマークと過去の履歴を利用し,粗視点での目標位置予測を可能にする。
    • 詳細な視覚分析を通じて行動を洗練させ,ナビゲーション精度を向上させる。
    • 実験結果から,HETTはCityNavデータセット上で顕著な性能向上を達成することが示された。

    Link: https://arxiv.org/abs/2512.14222

  • 注意の共有に潜む問題:注意相乗効果による複雑な非剛体画像編集の忠実性向上 [cs.CV]目的:複雑な非剛体画像編集における忠実性の向上
    • 拡散モデルを用いた画像編集は実用化が進んでいる。しかし,より高度な編集の実現には課題が残る。
    • 既存の注意機構では,位置埋め込みまたは意味特徴のいずれかが支配的となり,編集の過剰または不足を引き起こす。
    • 位置情報と意味情報を相乗的に活用することで,過剰・不足編集を防ぎ,編集の忠実性を高める。
    • 本研究では,位置埋め込みと意味情報の相乗効果に着目し,SynPSという新たな手法を提案した。
    • SynPSは,各ノイズ除去ステップにおける編集の大きさを定量化し,位置埋め込みの影響を動的に調整する注意相乗パイプラインを用いる。
    • 実験結果から,SynPSが既存手法よりも優れた性能と忠実性を示すことが確認された。

    Link: https://arxiv.org/abs/2512.14423

  • ViRC:Reason Chunkingによる視覚的交互型数学CoTの強化 [cs.CV]目的:多Modal数学タスクにおける視覚的交互型CoTの強化
    • LLMの推論能力向上にCoTが貢献。多Modal環境,特に数学問題への応用が課題。
    • 既存のMLLMは静的な画像のみを利用し,推論過程における視覚情報の動的な獲得が不十分。
    • 人間のようなステップバイステップの視覚情報利用と論理的分割による推論の実現。
    • ViRCフレームワークは,Reason Chunkingメカニズムにより多Modal数学CoTを構造化。
    • CRUXデータセットは,複数の推論経路におけるCRUを明示的にアノテーションすることで,モデルの学習を支援。
    • ViRC-7Bモデルは,複数の数学ベンチマークにおいてベースラインと比較して平均18.8%の性能向上を達成。

    Link: https://arxiv.org/abs/2512.14654

  • MMGR:マルチモーダル生成推論 [cs.CL, cs.CV]目的:生成モデルにおける推論能力の評価とベンチマーク
    • 映像生成モデルの発展は,現実世界のシミュレーションの信頼性に不可欠である。
    • 既存の評価指標は知覚的な品質に偏り,推論の失敗を見過ごす傾向がある。
    • 物理,論理,空間的制約を考慮した推論能力の評価基準を確立し,モデルの課題を明確にする。
    • MMGRは,物理,論理,3D空間,2D空間,時間的推論の5つの能力を評価するフレームワークである。
    • Veo-3,Sora-2,GPT-4o-imageなど主要なモデルを評価した結果,抽象的推論や長期的な空間計画において課題が残る。
    • モデルは視覚的妥当性を優先する傾向があり,因果関係の正しさに欠けることが示唆された。

    Link: https://arxiv.org/abs/2512.14691

  • 満足化均衡 [econ.TH, cs.GT]目的:エージェントの最良行動上位k_i個からの選択
    • 合理性の限界を考慮した意思決定モデルの構築が重要視されている。
    • 従来のゲーム理論では,完全合理性を仮定し現実との乖離が見られた。
    • 限定合理性に基づく均衡概念の厳密性と存在性,そして実証的妥当性を検証する。
    • 満足化均衡は,従来の均衡概念とは異なる予測を示すことが示された。
    • その厳密性,存在性,認識的・動学的基礎が分析された。
    • 限定合理性モデルの統一的な枠組みを提供し,実証研究への応用が期待される。

    Link: https://arxiv.org/abs/2409.00832

  • 事前学習からプライバシー保護へ:自己教師あり学習を用いた連合超音波基盤モデル [eess.IV, cs.AI, cs.CV]目的:超音波画像診断におけるプライバシー保護と汎用性の高い基盤モデルの構築
    • 超音波検査は非侵襲的かつリアルタイムであり,臨床診断において広く利用されている。
    • 従来の超音波診断は医師の熟練度に依存し,画質によっては誤診の可能性もある。
    • 大量のラベリング済みデータなしに,プライバシーを保護しつつ汎用的な超音波診断AIを開発する。
    • UltraFedFMは,9か国の16の医療機関の100万件以上の超音波画像データを用いて連合学習で事前学習された。
    • 疾患診断の平均AUROCは0.927,病変セグメンテーションのDSCは0.878を達成した。
    • UltraFedFMは,中堅レベルの超音波技師の診断精度を上回り,熟練技師と同等の性能を示した。

    Link: https://arxiv.org/abs/2411.16380

  • MedicoSAM:医療画像に対するSAMの堅牢な改善 [eess.IV, cs.CV]目的:医療画像に対するSAMの性能向上
    • 臨床現場や研究において,医療画像解析は不可欠であり,その中でも画像セグメンテーションは重要なタスクである。
    • 従来の深層学習モデルは特定のタスク向けに訓練されるため,新しい条件への適応には多大なコストと手動アノテーションが必要となる。
    • 汎用的なセグメンテーションモデルであるSegment Anythingを医療画像に特化させ,効率的なセグメンテーションを実現すること。
    • 様々なファインチューニング戦略を比較した結果,インタラクティブセグメンテーションの性能は顕著に向上した。
    • しかし,セマンティックセグメンテーションにおいては,医療画像での事前学習による恩恵は見られなかった。
    • 開発したMedicoSAMは既存のデータアノテーションツールとの互換性を持ち,実用的な価値を提供すると考えられる。

    Link: https://arxiv.org/abs/2501.11734

  • 少数のデータを用いた多種モダリティ医用画像:理論的枠組み [stat.ML, cs.AI, cs.CV, cs.LG, eess.IV]目的:少数のデータを用いた多種モダリティ医用画像におけるサンプル複雑性,不確実性定量化,解釈可能性の理論的特性評価
    • 医用画像診断は希少疾患や資源の限られた環境下でラベル付きデータが不足しがちであり,その克服が重要である。
    • 既存手法は性能向上に貢献するものの,成功要因や適用条件に関する理論的な説明が不足している。
    • 本研究は,データ効率,不確実性への対応,解釈可能性を備えた診断モデル設計の基盤を提供する。
    • PAC学習,VC理論,PACベイズ分析を用いて,信頼性の高い性能を達成するために必要なラベル付きサンプル数の下限を導出した。
    • 相補的なモダリティが,情報利得項を通じて有効容量を低減することを示した。
    • 説明の安定性に関する指標を導入し,説明の分散が1/nの割合で減少することを証明した。

    Link: https://arxiv.org/abs/2511.01140