arXiv雑要約

画像・音声 - 2025/10/14 公開

  • MSRBench:音楽ソース復元のためのベンチマークデータセット [cs.SD]目的:音楽ソース復元のための評価基準
    • 音楽制作において,音源分離技術の重要性が高まっている。高品質な復元は,創造的な可能性を広げる。
    • 既存のベンチマークは,現実的な制作環境における音質劣化を考慮していない。クリーンな参照データも不足している。
    • 現実的な音源と劣化を組み合わせたベンチマークデータセットを提供し,復元技術の評価を可能にすること。
    • MSRBenchは,8種類の楽器クラスにおけるロー・ステムミクスペアを提供することで,分離精度と復元忠実度を直接評価できる。
    • ミクスはプロのミキシングエンジニアによって制作され,さらに12種類の現実世界の劣化が加えられている。
    • U-NetとBSRNNのベースライン実験では,改善の余地が示されており,復元に特化したアーキテクチャの必要性を示唆している。

    Link: https://arxiv.org/abs/2510.10995

  • ContextGen:アイデンティティ一貫性を保つマルチインスタンス生成のための文脈的レイアウトアンカリング [cs.CV]目的:マルチインスタンス画像生成におけるオブジェクトのレイアウト制御と複数主体のアイデンティティ保持
    • 画像生成技術は多様な応用分野で重要であり,高品質な生成が求められている。
    • 既存の拡散モデルでは,正確なレイアウト制御と複数主体のアイデンティティ保持が課題となっていた。
    • 文脈的レイアウトアンカリングとアイデンティティ一貫性注意機構により,これらの課題を解決することを目指す。
    • ContextGenは,レイアウトと参照画像の両方によって誘導される新しい拡散Transformerフレームワークである。
    • Contextual Layout Anchoring (CLA)機構は,オブジェクトを所望の位置に確実に固定する。
    • Identity Consistency Attention (ICA)機構は,複数インスタンスのアイデンティティの一貫性を保証する。IMIG-100Kデータセットを用いた実験で,最先端の結果を達成した。

    Link: https://arxiv.org/abs/2510.11000

  • 周波数領域が腹部医用画像セグメンテーションの新たな展望を開く [cs.CV]目的:腹部医用画像の腫瘍及び隣接正常組織のセグメンテーション精度向上
    • 手術計画や腫瘍ステージ分類において,正確な医用画像セグメンテーションは不可欠である。
    • 背景が複雑でコントラストが低い画像において,前景への集中が難しく,悪性腫瘍と正常組織の識別が困難である。
    • 複雑な条件下や微細構造の認識において,セグメンテーション性能を向上させることを目指す。
    • 提案手法FASSは,前景認識モジュールにより背景との区別を強化し,ターゲット領域への集中を促す。
    • ウェーブレット変換に基づく周波数強調モジュールは,識別的な高周波特徴を抽出し,境界認識と詳細な知覚を向上させる。
    • エッジ制約モジュールはセグメンテーション境界の幾何学的連続性を維持し,複数のデータセットで優れた性能を実証した。

    Link: https://arxiv.org/abs/2510.11005

  • COCO-Tree:視覚言語モデルにおける高度な推論のための構成的階層的概念木 [cs.CV]目的:視覚言語モデルにおける構成的推論能力の向上
    • 画像と言語を組み合わせた理解は,AIの多様な応用において不可欠である。
    • 既存の視覚言語モデルは,複数の要素間の関係性を理解する構成的推論が苦手である。
    • LLMから学習した概念木を用いて,VLMの言語的推論能力を補完し,解釈可能な推論プロセスを提供する。
    • COCO-Treeは,VLMの出力をLLMから学習した概念木で拡張することで,構成的推論性能を向上させる。
    • Winoground,EqBench,ColorSwap,SugarCrepeの4つのベンチマークで,COCO-Treeはベースラインと比較して,構成的汎化性能を5-10%向上させる。
    • COCO-Treeの推論プロセスは,VLMの予測に対する根拠を提供し,解釈可能性を高める。

    Link: https://arxiv.org/abs/2510.11012

  • 未踏の領域へ:構成空間における計画のための環境不確実性の事前分布サンプリングに生成モデルを活用する試み [cs.RO, cs.AI, cs.CV]目的:環境不確実性の事前分布サンプリング
    • 部分的な観測下での計画は重要だが,現実的には事前分布の獲得が困難である。
    • 未観測領域における占有可能性と目標位置の不確実性を表現する適切な事前分布が課題である。
    • 生成モデルを用いて,環境の不確実性と空間・意味的関係を捉えた事前分布をゼロショットで生成する。
    • 本研究では,Matterport3Dのデータセットを用いて,ドア越しに部分的に見える部屋で目標物体へのナビゲーションを行う実験を行った。
    • 提案手法は,実測値と一貫性のある常識的な空間意味を再現し,モーションプランニングに利用可能な多様でクリーンな3D点群を生成した。
    • 生成モデルが,ロボット計画のための豊富な事前分布の供給源となり得ることを示した。

    Link: https://arxiv.org/abs/2510.11014

  • ビデオに基づく人体姿勢推定のためのグローバル・ローカル状態空間モデルによる高解像度時空間モデリング [cs.CV]目的:ビデオに基づく人体姿勢推定における高解像度時空間表現のモデリング
    • ビデオにおける人体姿勢推定は,行動認識や人間とロボットのインタラクション等,幅広い応用分野において重要である。
    • 既存手法は,グローバルな文脈とローカルな動きの詳細のバランスを取ることが難しく,高解像度シーケンスへの適用に限界がある。
    • 本研究は,状態空間モデルを拡張し,グローバル・ローカルな時空間表現を効率的に学習することで,これらの課題を解決することを目指す。
    • 提案手法は,6次元の選択的時空間スキャンと空間・時間変調スキャンマージにより,高解像度シーケンスからグローバルな表現を効率的に抽出する。
    • また,局所的なキーポイントの動きのハイフリクエンシーの詳細を強化するために,ウィンドウ化された時空間スキャンに基づくローカルリファインメントMambaを導入する。
    • 4つのベンチマークデータセットにおける実験により,提案モデルが最先端のVHPE手法を凌駕し,より優れた計算効率を示すことが実証された。

    Link: https://arxiv.org/abs/2510.11017

  • ロバスト性への容易な道:サンプル困難度を用いたコアセット選択 [cs.LG, cs.CV]目的:堅牢な特徴学習に不可欠な入力サンプルの特定
    • データ中心のアプローチによるロバストモデル設計の重要性が高まっている。
    • 既存のコアセット選択アルゴリズムはクリーンな精度に偏り,ロバスト性を維持できない。
    • 入力勾配ノルムに基づき,ロバスト性を重視したコアセット選択手法を開発する。
    • 提案手法EasyCoreは,入力勾配ノルムが低い「易しい」サンプルのみを保持する。
    • EasyCoreで学習したモデルは,標準訓練および敵対的訓練において,既存手法よりも高い敵対的精度を達成する。
    • 標準訓練とTRADES訓練でそれぞれ最大7%,5%の敵対的精度向上を達成した。

    Link: https://arxiv.org/abs/2510.11018

  • GeoVLMath:補助線作成のためのクロスモーダル報酬によるビジョン言語モデルにおける幾何学的推論の強化 [cs.RO, cs.CV, cs.AI]目的:補助線作成における幾何学的推論能力の向上
    • 幾何学的問題解決には補助線が不可欠であり,その能力は様々な分野で求められる。
    • 既存のビジョン言語モデルは,複雑な幾何学的問題において補助線を効果的に扱えない。
    • 補助線作成の説明をテキストで生成し,幾何学的構造との整合性を強化することで問題を解決する。
    • 提案手法GeoVLMathは,補助線に関するデータセットAuxSolidMathを活用し,図とテキストの整合性を高める。
    • GeoVLMathは,3Bおよび7Bスケールにおいて,補助線推論ベンチマークで既存のモデルを凌駕する性能を示す。
    • クロスモーダル報酬を用いた強化学習により,正確な図とテキストの整合性を実現した。

    Link: https://arxiv.org/abs/2510.11020

  • GIR-Bench:推論を伴う画像生成のための汎用ベンチマーク [cs.CV]目的:推論能力と画像理解・生成能力を統合したマルチモーダルモデルの評価
    • 大規模言語モデルの発展により,画像理解と生成を統合した高度なマルチモーダル知能が期待されている。
    • 理解と生成の整合性,複雑な視覚タスクにおける汎化性能を系統的に評価する厳格なベンチマークが存在しなかった。
    • 理解と生成の整合性,論理的制約を伴う画像生成,多段階推論編集の能力を評価するベンチマークを提供する。
    • GIR-Benchは,理解・生成の整合性,テキストから画像への推論生成,編集における多段階推論の3つの側面からモデルを評価する。
    • 統一モデルは推論駆動型の視覚タスクにおいてより優れた能力を示す一方で,理解と生成の間には依然としてギャップが存在する。
    • 本研究で開発したベンチマークと評価パイプラインは,既存の評価方法におけるバイアスを軽減し,解釈可能な評価を可能にする。

    Link: https://arxiv.org/abs/2510.11026

  • Vlaser:相乗的身体化推論を備えた視覚-言語-行動モデル [cs.CV]目的:視覚・言語・行動モデルにおける,高水準な推論と低水準な制御の統合
    • ロボットの自律的な行動を実現するには,環境を理解し,適切な行動を計画する能力が不可欠である。
    • 視覚言語モデル(VLM)と視覚言語行動(VLA)モデル間の推論と行動学習のギャップが課題となっている。
    • VLMによる推論とVLAの行動学習を繋ぎ,身体化された推論能力を向上させることを目指す。
    • Vlaserは,空間推論,身体化された接地,身体化されたQA,タスクプランニングなど,様々な身体化推論ベンチマークで最先端の性能を達成した。
    • VLMの初期化がVLAの教師ありファインチューニングに与える影響を分析し,ドメインシフトの軽減に関する新たな知見を得た。
    • WidowXベンチマークで最先端の結果,Google Robotベンチマークで競争力のある性能を達成した。

    Link: https://arxiv.org/abs/2510.11027

  • ゼロショット異常検出の強化:カスケードプロンプトを用いたCLIP-SAM協調 [cs.CV]目的:ゼロショット異常セグメンテーションにおける性能向上
    • 産業界における品質管理の自動化が求められており,異常検出技術は不可欠である。
    • 既存の異常検出手法では,未知の異常に対応できない場合がある。
    • ファウンデーションモデルを活用し,未知の異常に対するセグメンテーション性能を高める。
    • 本研究では,CLIPとSAMを組み合わせた二段階フレームワークを提案し,ゼロショット異常セグメンテーションを実現した。
    • SAMが対象物全体のセグメンテーションに偏る傾向を抑制するため,CLIPとSAM協調によるCo-Feature Point Prompt Generation (PPG)モジュールを導入した。
    • セグメンテーション結果の最適化とノイズ軽減のため,SAMのカスケードプロンプト(CPS)モジュールを導入し,高精度な異常領域のセグメンテーションを達成した。
    • Visaデータセットにおいて,$F_1$-maxとAPで最先端手法をそれぞれ10.3%,7.7%上回る結果が得られた。

    Link: https://arxiv.org/abs/2510.11028

  • 喉頭癌の病期分類のための深層学習モデルのベンチマーク:LaryngealCTデータセットを用いた評価 [cs.CL, cs.RO, cs.NI, cs.CV]目的:喉頭癌の病期分類における深層学習モデルの性能評価
    • 喉頭癌は,早期発見・治療が重要であり,画像診断技術の向上が求められている。
    • 深層学習モデルの開発において,標準化されたデータセットの不足が課題となっていた。
    • LaryngealCTデータセットを用いて,深層学習モデルの再現性と臨床応用を促進すること。
    • LaryngealCTデータセットは,1029例のCT画像から構成され,喉頭領域を均一に抽出した。
    • 3D CNNとResNet18が,それぞれ異なる病期分類タスクにおいて他のモデルを上回る性能を示した。
    • 3D GradCAMを用いた可視化により,T4例における病変部位への注目度が高いことが示された。

    Link: https://arxiv.org/abs/2510.11047

  • ID・属性分離逆変換によるゼロショット顔編集 [cs.CV]目的:IDと属性の分離逆変換に基づくゼロショット顔編集手法
    • 顔画像編集は,現実世界への応用が期待され,多様な分野で重要性が増している。
    • 既存手法では,顔のIDや構造の一貫性を維持することが課題となっていた。
    • テキストプロンプトのみで顔の属性を正確に操作し,IDと構造を維持すること。
    • 本手法は,顔表現をID特徴と属性特徴に分解し,逆変換と拡散過程を制御することで,IDの保持と構造の一貫性を実現した。
    • 領域指定を必要とせず,テキストプロンプトのみで複雑な多属性顔編集が可能である。
    • DDIM逆変換と同等の速度で動作し,実用性と有効性が実験により示された。

    Link: https://arxiv.org/abs/2510.11050

  • LSVOS 2025チャレンジ報告:複雑な動画物体セグメンテーションの近年の進歩 [cs.CV]目的:複雑な動画物体セグメンテーションにおける最新の進歩の概要
    • 動画中の物体セグメンテーションは,自動運転やロボティクスなど,様々な応用分野において不可欠である。
    • 現実の動画データでは,遮蔽,消失,低照度などにより,正確な物体セグメンテーションが困難である。
    • より現実的なシナリオ下でのセグメンテーション性能向上を目指し,困難度の高いデータセットと評価指標が導入された。
    • 2025年のLSVOSチャレンジでは,従来のVOSとRVOSに加え,より複雑なMOSEv2トラックが新設された。
    • MOSEv2では,小物体,消失・再出現,遮蔽,悪天候など,現実的な課題を含む困難なシナリオが導入された。
    • LLM/MLLMの活用やメモリを考慮した伝播など,今後の動画セグメンテーションの方向性が示された。

    Link: https://arxiv.org/abs/2510.11063

  • ROFI:深層学習に基づく眼科的特徴保持・可逆性のある患者顔面匿名化手法 [cs.CV]目的:患者顔面の匿名化
    • 眼科領域では,疾患評価に患者の顔画像が有用だが,個人情報保護が重要課題である。
    • 顔画像に含まれる個人情報が漏洩するリスクがあり,医療データの共有や研究の阻害要因となる。
    • 患者のプライバシーを保護しつつ,眼科診断に必要な情報を維持する匿名化手法を開発する。
    • ROFIは,顔部の特徴を匿名化しつつ,眼科的疾患の特徴を98%以上の精度で保持する。
    • 11種類の眼科疾患において,100%の診断感度と高い合意度(κ>0.90)を実現した。
    • AIシステムとの連携が可能であり,元の診断結果を維持し,98%以上の類似度で画像の復元も可能である。

    Link: https://arxiv.org/abs/2510.11073

  • ソースデータを用いない検出トランスフォーマーによる物体検出 [cs.HC, eess.SY, cs.SY, cs.CV, cs.AI]目的:ソースドメインから教師なしターゲットドメインへの物体検出における知識転移
    • 物体検出は画像認識の基礎であり,自動運転やロボット工学など幅広い分野で不可欠である。
    • 既存のソースフリー物体検出手法は,DETRのような新しいアーキテクチャへの適応が課題であった。
    • DETRに特化したフレームワークを開発し,ターゲットドメインへの適応を促進すること。
    • 提案手法FRANCKは,DETRのクエリ中心の特徴量強化を実現し,ロバスト性と汎化性能を向上させた。
    • OSSR,CMMB,UQFD,DTUIといった主要な構成要素を組み合わせ,偽ラベルの品質を最適化した。
    • 複数のベンチマークにおいて最先端の性能を達成し,DETRベースのソースフリー物体検出モデルとの互換性を示した。

    Link: https://arxiv.org/abs/2510.11090

  • CAD図面におけるテキスト情報を活用した全景シンボル検出 [cs.CV, cs.AI]目的:CAD図面における全景シンボル検出の精度向上
    • 工学,建築,産業デザイン等の分野でCAD図面の利用が拡大しており,その正確な解釈・分析が重要となっている。
    • 既存手法は図面の幾何学的要素に焦点を当てており,豊富なテキスト情報を活用できていない点が課題である。
    • 幾何学的要素とテキスト情報を統合的にモデル化し,図面全体の理解を深めることを目指す。
    • 本研究では,テキスト情報を組み込んだ全景シンボル検出フレームワークを提案した。
    • 事前学習済みCNNの特徴量とTransformer基盤を組み合わせ,タイプを考慮した注意機構を用いて幾何学的要素とテキスト要素間の関係性を明示的にモデル化した。
    • 実データセットでの実験により,提案手法がテキスト情報を伴うシンボル検出において既存手法を上回り,複雑なCAD図面に対しても高い堅牢性を示すことが確認された。

    Link: https://arxiv.org/abs/2510.11091

  • 未来を考慮したエンドツーエンド運転:軌跡計画とシーン進化の双方向モデリング [cs.CV]目的:軌跡計画とシーン進化の双方向モデリングによる自動運転手法
    • 自動運転技術は,交通安全の向上や移動の効率化に貢献する重要な分野である。
    • 従来の自動運転システムは,モジュール化されたパイプラインに依存しており,柔軟性に課題がある。
    • シーンの動的変化を考慮した,より適応的な軌跡計画手法の開発が求められている。
    • 提案手法SeerDriveは,シーンの将来予測と軌跡計画を閉ループで同時にモデル化する。
    • SeerDriveは,予測されたシーン情報を用いて,将来に配慮した軌跡を生成する。
    • NAVSIMおよびnuScenesベンチマークにおいて,既存手法を大幅に上回る性能を実証した。

    Link: https://arxiv.org/abs/2510.11092

  • CoDefend:拡散浄化とプロンプト最適化によるクロスモーダル協調防御 [cs.RO, cs.CE, cs.CV]目的:マルチモーダル大規模言語モデルに対する敵対的攻撃からの防御
    • マルチモーダル大規模言語モデルは多岐にわたるタスクで高い性能を示すが,その安全性確保が重要である。
    • 既存の防御手法は,既知の攻撃への対応や画像品質の低下といった課題を抱えている。
    • 本研究は,拡散モデルを用いた画像浄化とプロンプト最適化により,より堅牢な防御を実現することを目指す。
    • 提案手法は,敵対的攻撃に対するロバスト性を大幅に向上させることを実証した。
    • 本手法は,教師あり学習による拡散モデルのファインチューニングにより,高品質な画像再構成を可能にした。
    • 画像キャプション生成と視覚的質問応答タスクにおいて,未知の攻撃に対しても高い転移学習能力を示すことが確認された。

    Link: https://arxiv.org/abs/2510.11096

  • VCB Bench:音声認識に基づく大規模言語モデル会話エージェントの評価ベンチマーク [cs.SD, cs.CL]目的:音声認識に基づく大規模言語モデル会話エージェントの評価基準
    • マルチモーダル対話システムの発展には,音声とテキスト両方を理解するモデルが不可欠である。
    • 既存の評価基準は英語中心で,実音声データが少なく,多角的な評価が困難である。
    • 実音声を用いた高品質な中国語ベンチマークを提供し,モデルの性能評価を詳細に行う。
    • VCB Benchは,指示への追従性,知識理解,そしてロバスト性という3つの側面から評価を行う。
    • 代表的な大規模言語モデル実験の結果,性能の差が明らかになり,今後の改善点を示唆した。
    • VCB Benchは,中国語音声対話モデルの発展に役立つ,再現可能で詳細な評価フレームワークを提供する。

    Link: https://arxiv.org/abs/2510.11098

  • 構成的ゼロショット学習:サーベイ [cs.CV]目的:構成的ゼロショット学習に関する既存研究の体系的なレビュー
    • 画像認識の分野において,未知の組み合わせへの対応能力が求められている。
    • 全ての組み合わせに対する学習データを用意することは現実的ではない。
    • 文脈依存性や構成性を考慮した,より頑健な認識手法を確立すること。
    • 本サーベイでは,構成的ゼロショット学習手法を,解きほぐしに着目した分類に基づき整理・分析している。
    • 手法は,明示的な解きほぐしがないもの,テキストによる解きほぐし,視覚による解きほぐし,そしてクロスモーダル解きほぐしの4つのグループに分類される。
    • 閉世界およびオープンワールドCZSLといった異なる問題設定における各手法の利点と限界を詳細に比較している。

    Link: https://arxiv.org/abs/2510.11106

  • MoMaps:意味情報を考慮したシーンモーション生成によるモーションマップ [cs.CV]目的:3Dシーンモーションの事前知識の学習
    • 現実世界の多様なモーションを理解することは,ロボティクスやコンピュータビジョンの発展に不可欠である。
    • 単一画像からの将来のシーンモーション予測は,モーションの多様性と複雑さから困難である。
    • 意味的・機能的に意味のある3Dモーションの事前知識を効率的に学習し,予測精度を向上させる。
    • 提案手法MoMapは,既存の生成モデルを活用し,効率的なモーション予測を可能にする。
    • 5万件以上の動画からモーションマップの大規模データベースを構築し,拡散モデルを学習した。
    • 生成されたモーションは3次元空間で妥当かつ意味的に一貫性のある動きを示すことが確認された。

    Link: https://arxiv.org/abs/2510.11107

  • 空間的・時間的解きほぐしと多段階整合による多Modal疾患進行モデリング [cs.CV]目的:疾患進行のモデリング
    • 医療の質の向上には,疾患進行の正確な予測が不可欠である。
    • 連続的な胸部X線画像には冗長性が多く,臨床的に意味のある変化が捉えにくい。
    • 不規則な画像データと継続的な電子カルテデータの時間的なずれを解消することを目指す。
    • 提案手法DiProは,疾患進行に関わる変化を優先的に捉えることで時間的な臨床動態を効果的に抽出できる。
    • DiProは,局所的および全体的な同期により,非同期な胸部X線画像と電子カルテデータを整合させる。
    • MIMICデータセットを用いた実験で,DiProが疾患進行の特定とICU予測において最先端の性能を達成した。

    Link: https://arxiv.org/abs/2510.11112

  • 大規模マルチモーダルモデルの相乗的知識転移による少サンプル学習 [cs.CV, cs.MM]目的:少サンプル学習における知識転移の枠組み
    • 機械学習において,少ないデータで学習する少サンプル学習は重要な課題である。
    • 既存手法では,知識源のデータが単純化され,ノイズやバイアスが生じやすい。
    • 大規模モデルの知識を有効活用し,より高品質な知識転移を実現する。
    • 提案手法SynTransは,CLIPを教師モデル,少サンプル学習エンコーダを生徒モデルとして活用し,知識蒸留を行う。
    • SynTransは,複数モデル間の協調により高品質な知識を抽出し,視覚と意味空間間の双方向知識転移を実現する。
    • 実験結果により,SynTransが既存手法を大きく上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2510.11115

  • 拡散モデルにおける数性の解明 - 限界と対策 [cs.CV]目的:テキストプロンプトによる指定されたオブジェクトの正確な数を生成する能力
    • 近年の画像生成AIは目覚ましい発展を遂げているが,複雑な指示への対応は課題である。
    • テキストプロンプト中の数詞指示を正確に解釈し,指定された数のオブジェクトを生成することが困難である。
    • 大規模化だけでは数性認識の精度向上は難しく,新たな手法による改善を目指す。
    • 大規模なデータセットとモデルサイズを拡大しても,数性の認識精度向上は限定的であることが示された。
    • 拡散モデルはプロンプトの明示的な数性情報よりも,ノイズ初期化に大きく依存する傾向があることが判明した。
    • ノイズ事前分布に数性情報を注入することで,GrayCount250で20.0%から85.3%,NaturalCount6で74.8%から86.3%へ精度が向上した。

    Link: https://arxiv.org/abs/2510.11117

  • クロス言語感情TTSのための摂動自己教師あり表現:感情と話者の段階的モデリング [cs.IR, cs.NI, cs.SY, eess.SY, cs.SD]目的:クロス言語感情TTSにおける感情と話者の段階的モデリング
    • 感情TTSは,人間らしい自然な音声合成に不可欠であり,近年ますます重要になっている。
    • クロス言語環境では,感情と話者の特徴が混在しやすく,制御が困難である。
    • 感情と話者の特徴の分離と,言語を跨いだ感情表現の伝達能力向上を目指す。
    • 提案手法EMM-TTSは,2段階のフレームワークにより,感情表現と音色の復元を効果的に行う。
    • 話者摂動戦略(フォルマントシフト,話者匿名化)の調査により,感情と音色の分離が促進されることが示された。
    • 客観評価と主観評価の両方において,EMM-TTSは優れた自然性,感情伝達性,音色の一貫性を示すことが確認された。

    Link: https://arxiv.org/abs/2510.11124

  • 熱画像におけるマルチレベルクロスモーダル知識転移による軽量な顔ランドマーク検出 [cs.LG, cs.CV]目的:熱画像における顔ランドマーク検出の精度と効率の向上
    • 顔ランドマーク検出は,照明条件が厳しい環境下での応用において重要である。
    • 熱画像は視覚的な手がかりが乏しく,従来の顔ランドマーク検出の精度が制限されている。
    • RGB画像からの知識転移により,熱画像における顔ランドマーク検出の性能を向上させる。
    • 提案手法は,RGBから熱画像への高精度な知識転移とモデル圧縮を分離することで,高精度かつ効率的な熱画像顔ランドマーク検出モデルを実現した。
    • 双方向注入知識蒸留(DIKD)機構を導入し,RGBと熱画像のモダリティ間の意味的整合性を強化した。
    • 公開されている熱画像顔ランドマーク検出ベンチマークにおいて,既存手法を大幅に上回り,計算コストも削減することを示した。

    Link: https://arxiv.org/abs/2510.11128

  • video-SALMONN S:メモリを活用した長尺動画ストリーミング処理 [cs.CV, cs.AI]目的:長尺動画のストリーミング処理における制約克服
    • AIエージェントの高度化には,長尺かつ高画質な動画の連続処理が不可欠である。
    • 既存の動画理解LLMは,メモリ制約により長尺動画のスケーラビリティが課題となっていた。
    • 固定メモリ内で長尺動画を処理し,情報損失を抑制する手法を開発する。
    • video-SALMONN Sは,固定メモリ内で3時間動画(1FPS,360p)を処理可能な初のストリーミングLLMである。
    • トークンマージングに代わり,テスト時学習によるメモリモジュールで長距離依存性を捉える。
    • Video-MME long splitで74.2%の精度を達成し,既存手法を上回る性能を示す。

    Link: https://arxiv.org/abs/2510.11129

  • 精子DNA断片化検出のための人工知能ツールの検証:TUNEL法インシチュハイブリダイゼーションアッセイを用いた [cs.CV]目的:精子DNA断片化の検出
    • 男性不妊症の評価において,従来の精液検査では評価できない重要な指標である。
    • 従来の精液検査ではDNA断片化を評価できず,より詳細な評価法の必要性が求められている。
    • 位相差顕微鏡画像からAIを用いてDNA断片化を非破壊的に検出し,臨床応用を目指す。
    • 提案するAIモデルは,感度60%,特異度75%を達成し,有望な結果が得られた。
    • 本手法は,精子のDNA完全性に基づいたリアルタイムな精子選択を可能にする。
    • これにより,生殖医療における診断と治療の進歩に貢献することが期待される。

    Link: https://arxiv.org/abs/2510.11142

  • PolSAR画像分類のための多視点多様体エビデンス融合 [cs.CV]目的:PolSAR画像の分類における,多様体上の多視点情報融合による精度向上
    • PolSAR画像は,地物識別において有用な物理的解釈可能な情報を提供する。 その活用は防災や環境監視に不可欠である。
    • 従来の融合手法では,異なる多様体構造を持つ情報を適切に扱えず,不確実性を考慮できない場合がある。
    • 本研究は,PolSAR画像の多様体表現とエビデンス理論に基づき,信頼性の高い分類を実現することを目的とする。
    • 提案手法MMEFnetは,HPD多様体とグラスマン多様体上で表現された情報を効果的に融合する新しいフレームワークを提供する。
    • 信頼性のある多視点エビデンス融合により,各視点の信念質量と不確実性を定量化し,Dempster-Shafer理論に基づき証拠を組み合わせる。
    • 3つの実データセットでの実験により,提案手法が既存手法を精度,ロバスト性,解釈可能性において上回ることが示された。

    Link: https://arxiv.org/abs/2510.11171

  • CoPRS:思考の連鎖を用いた位置事前知識の学習による推論セグメンテーション [cs.CV, cs.MM]目的:推論セグメンテーションのための位置事前知識
    • 画像とテキストの理解に基づく高度な視覚タスクにおいて,推論能力が重要となる。
    • 既存手法では,言語モデルの隠れ特徴とマスクデコーダの直接的な接続や位置表現に限界があり,解釈性に乏しい。
    • 思考の連鎖を用いて位置事前知識を導入し,推論とセグメンテーションの間の関連性を強化する。
    • CoPRSは,RefCOCOおよびReasonSegの標準分割において,既存の最先端手法と同等またはそれ以上の性能を達成した。
    • 位置ヒートマップの品質がマスクの品質に強い影響を与えることが実験的に示され,推論とマスク生成の一貫した関連性が確認された。
    • CoPRSは,推論に基づいた集中化によって,より正確なマスク予測を実現する新たなパラダイムを提示する。

    Link: https://arxiv.org/abs/2510.11173

  • プロトタイプ反復構築による信頼性の高いクロスモーダルアラインメント [cs.CV]目的:クロスモーダルアラインメントの信頼性向上
    • 異なるモダリティ間の意味のギャップを埋めることは,マルチモーダル学習において重要である。
    • 既存手法は,スタイル情報の影響を無視しており,情報バイアスや損失を引き起こす可能性がある。
    • スタイル情報の干渉を抑制し,より正確な意味的アラインメントを実現することを目指す。
    • 提案手法PICOは,特徴列ごとの意味情報確率を定量化し,埋め込み相互作用における重みとして活用する。
    • プロトタイプ反復構築法により,性能改善に貢献するプロトタイプに高い重みを付与できることを理論的に証明した。
    • 様々なベンチマークにおいて,最先端手法を5.2%~14.1%上回る性能を達成し,PICOの有効性が示された。

    Link: https://arxiv.org/abs/2510.11175

  • G2L:知識蒸留によるギガスケールから癌特化大規模病理モデルへの展開 [cs.CV, cs.AI]目的:癌特化タスクにおけるギガスケールモデルの性能を,パラメータ数15%程度の大規模モデルで実現すること
    • 病理画像解析において,大規模モデルは診断精度向上に不可欠であり,近年急速に発展している。
    • ギガスケールモデルは計算コストが高く,開発・実用化のハードルが高いという課題がある。
    • 少ないデータとパラメータで,ギガスケールモデルと同等の性能を実現し,実用性を高める。
    • 知識蒸留フレームワークG2Lにより,ギガスケールモデルの能力を大規模モデルに効率的に転移することが可能となった。
    • G2Lで蒸留されたモデルは,同規模の最先端モデルを上回り,場合によってはギガスケールモデルを超える性能を示した。
    • 蒸留モデルは,画像変動に対するロバスト性も向上しており,異なる機関からの画像にも強いことが示された。

    Link: https://arxiv.org/abs/2510.11176

  • BLEnD-Vis:ビジョン言語モデルにおける多言語文化理解のベンチマーク [cs.CV, cs.CY]目的:ビジョン言語モデルにおける日常的な文化知識の頑健性の評価
    • グローバルに展開されるビジョン言語モデルにおいて,文化的背景知識の理解は不可欠である。
    • 既存の評価は静的な想起や孤立した視覚的認識に偏っており,文化理解の頑健性や転移性を評価できていない。
    • 言語表現や視覚モダリティを跨いで,ビジョン言語モデルの文化知識の頑健性を評価するベンチマークの提供。
    • BLEnD-Visは,16地域にわたる313の文化に基づいた質問テンプレートと,テキストのみ,エンティティから地域への質問,そしてVQA形式の3種類の形式で構成される。
    • 評価の結果,現在のビジョン言語モデルの文化知識は脆弱であり,言語表現の変更により性能が低下することが明らかになった。
    • 視覚的な手がかりは性能向上に役立つ場合もあるが,モダリティ間の整合性の低さは,テキストと視覚的理解の統合における課題を示唆している。

    Link: https://arxiv.org/abs/2510.11178

  • T5を用いたサウジアラビア手話翻訳 [eess.SY, cs.SY, cs.CV]目的:サウジアラビア手話翻訳の性能向上
    • 手話は聴覚障害者にとって重要なコミュニケーション手段であり,翻訳技術の発展が求められる。
    • 手話データセットの規模が小さく,翻訳モデルの性能向上が課題となっている。
    • 大規模なASLデータを活用し,サウジアラビア手話翻訳の性能改善を目指す。
    • サウジアラビア手話データセットを用いて,T5モデルによる翻訳実験を行った。
    • YouTubeASLデータセットでの事前学習が,サウジアラビア手話翻訳のBLEU-4スコアを大幅に改善した(約3倍)。
    • 大規模なASLデータは,サウジアラビア手話翻訳モデルの性能向上に貢献することが示唆された。

    Link: https://arxiv.org/abs/2510.11183

  • FlexAC:マルチモーダル大規模言語モデルにおける連想的推論の柔軟な制御に向けて [cs.DC, cs.CV]目的:マルチモーダル大規模言語モデルにおける連想的推論の強度を柔軟に調整するメカニズム
    • 大規模言語モデルのマルチモーダル化は,より高度な推論能力の実現に不可欠であり,多様な応用展開が期待されている。
    • 既存手法では,事実に基づいた正確性と創造性のバランスを取ることが難しく,状況に応じた連想的推論の強度の調整が課題であった。
    • 本研究は,連想的推論の強度を柔軟に制御することで,マルチモーダル大規模言語モデルの適応性を向上させることを目指す。
    • 中間層の表現を調整することで,モデルの連想的傾向を効果的に制御できることが示された。
    • 提案手法FlexACは,ハルシネーションを活用し,学習不要で連想的行動を調整する軽量なフレームワークである。
    • 実験の結果,FlexACは創造性ベンチマークで最大5.8倍の改善,ハルシネーション率を29%削減し,既存手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2510.11190

  • 医療画像・言語モデルにおける推論の妥当性評価:マルチモーダル摂動を用いた手法 [cs.CL, cs.CV]目的:医療画像と自然言語処理モデルにおける推論の妥当性評価手法
    • 医療分野におけるAIの利用が進む中で,AIの判断根拠の透明性と信頼性が重要となる。
    • 既存の評価方法は,正答率や形式的な適合性のみに重点を置いており,推論過程と結果の整合性を十分に評価できていない。
    • 臨床的な視点から,推論過程の妥当性を評価し,AIの判断根拠に対する信頼性を高めることを目指す。
    • 胸部X線画像に関するVQAにおいて,テキストと画像の変更による影響を分析することで,臨床的妥当性,因果的帰属,確信度調整を評価するフレームワークを構築した。
    • 読者実験の結果,専門家間の相関関係と同程度の評価者(放射線科医)間相関が得られ,特に因果的帰属において高い一致率が確認された。
    • モデルの性能評価から,正答率と説明の質は必ずしも一致せず,プロプライエタリモデルは帰属においてオープンソースモデルよりも優れていることが示された。

    Link: https://arxiv.org/abs/2510.11196

  • クラスプロトタイプに基づく対照学習による,マルチラベルおよび詳細な教育ビデオの分類 [cs.CV]目的:教育ビデオの分類
    • 幼児期におけるオンラインメディア利用の増加から,教育コンテンツの適切なフィルタリングが重要になっている。
    • 教育ビデオの内容は複数ラベルを持ち,視覚的に類似しているため,分類が困難である。
    • ファインチ grainedなマルチラベル分類問題に対し,クラスプロトタイプを用いた対照学習で解決を目指す。
    • 提案手法は,YouTube等の教育ビデオデータセットAPPROVEにおいて,既存手法を上回る性能を示した。
    • 視覚と音声の特徴を考慮したマルチモーダルTransformerネットワークを用いることで,ビデオの埋め込み表現を学習した。
    • APPROVEデータセットは,教育研究者によるアノテーション済みの193時間のビデオ19クラスで構成され,公開されている。

    Link: https://arxiv.org/abs/2510.11204

  • 会話における表情ダイナミクスを通じたアイデンティティ信号の調査 [cs.CV]目的:会話における表情ダイナミクスに含まれるアイデンティティ信号
    • 社会的知覚や臨床評価において,顔の動きが重要な役割を果たす。
    • 従来の顔認識は静的な顔の特徴に依存しており,表情の変化を考慮した認識は困難だった。
    • 表情のダイナミクスから個人のアイデンティティを識別する可能性を探る。
    • 表情のダイナミクスは,静的な顔の特徴とは独立に,個人のアイデンティティに関する強い信号を含んでいることが示された。
    • 1429人の話者を含むデータセットにおいて,61.14%の認識精度を達成し,偶然レベルを大幅に上回った。
    • 形状表現の分離の信頼性を定量化する指標(DNR)と認識性能の間に強い負の相関が確認された。

    Link: https://arxiv.org/abs/2510.11223

  • LightPneumoNet:軽量肺炎分類器 [cs.CV, cs.AI, cs.LG]目的:肺炎検出のための,効率的かつ軽量な畳み込みニューラルネットワーク
    • 肺炎の早期発見は,患者の予後改善に不可欠である。
    • 大規模な深層学習モデルは計算資源を要し,限られた環境での利用が困難である。
    • 低コスト環境でも高精度な肺炎診断を可能にするモデルの開発。
    • 提案手法LightPneumoNetは,わずか388,082パラメータで高性能を実現した。
    • テストデータセットにおいて,全体精度0.942,適合率0.92,F1スコア0.96を達成した。
    • 特に,肺炎症例の検出感度(再現率)は0.99と非常に高く,偽陰性を最小限に抑える。

    Link: https://arxiv.org/abs/2510.11232

  • ネパール手話文字の認識:データセット開発と深層学習アプローチ [cs.CV, cs.AI]目的:ネパール手話の文字認識のためのデータセット及び深層学習手法
    • 聴覚・言語障がい者にとって,手話は不可欠なコミュニケーション手段である。
    • ネパール手話のような少数言語の手話に関するデジタル言語データセットは不足している。
    • ネパール手話の文字認識におけるベンチマークデータセットの構築と深層学習の評価を行う。
    • 本研究では,ネパール手話の36種類のジェスチャーを収録したデータセットを新たに構築した。
    • MobileNetV2とResNet50のファインチューニングにより,それぞれ90.45%と88.78%の認識精度を達成した。
    • 深層学習は,リソースの少ない環境でも手話認識に有効であることが示された。

    Link: https://arxiv.org/abs/2510.11243

  • いいね,予算,均衡:社会的に最適な広告コンテストの設計 [cs.GT]目的:広告における予算配分戦略と,それによるブランド認知度の最大化
    • ソーシャルメディア広告は,企業や組織にとって重要なマーケティング手法である。
    • 広告予算の最適配分は,競争環境下で困難な問題である。
    • 社会的厚生を最大化する広告コンテスト設計の指針を提示する。
    • 提案モデルにおいて,企業の戦略は純粋戦略ナッシュ均衡に収束することが示された。
    • しかし,ナッシュ均衡は必ずしも社会的に最適な解とは限らない。
    • コンテスト成功関数を設計することで,ナッシュ均衡をユニークにし,社会厚生を最大化できる。

    Link: https://arxiv.org/abs/2510.11253

  • 時間的協調ゲーム [cs.CL, cs.GT]目的:時間的協調ゲームにおける報酬配分メカニズムの性質
    • 協調ゲーム理論は,資源配分や協力関係の分析に不可欠であり,経済学,政治学,計算機科学など多岐にわたる分野で応用されている。
    • 従来の理論では,エージェントの到着順序が考慮されておらず,現実の状況を正確に反映できていないという課題があった。
    • エージェントの到着順序が価値に影響を与える時間的協調ゲームにおいて,公平で効率的な報酬配分メカニズムを確立することを目指す。
    • 時間的協調ゲームにおいて,最適な到着を促すインセンティブ,オンライン個別合理性,系列効率を満たす報酬配分メカニズムを特定した。
    • 古典的なシャプレイ値は直接適用できないため,系列世界と拡張世界において自然な類似物を構築し,その性質を明らかにした。
    • シャプレイ値の類似物は,I4OA,OIR,SEを満たすメカニズムと矛盾することを示し,時間的協調ゲームにおける新たな課題を提示した。

    Link: https://arxiv.org/abs/2510.11255

  • DTEA:動的トポロジーの構築と不安定性駆動型エントロピー減衰による医用画像セグメンテーション [cs.CV]目的:医用画像セグメンテーションのための新たなモデル
    • 医用画像セグメンテーションは,病変の検出や診断において不可欠な技術である。
    • 既存手法は,構造表現の限界や文脈モデリングの不足により,複雑な臨床シナリオでの汎化性能が低い。
    • 本研究は,より高精度で汎化性能の高いセグメンテーションモデルの構築を目指す。
    • 提案手法DTEAは,セマンティックトポロジー再構成(STR)とエントロピー摂動ゲーティング(EPG)モジュールを導入した新たなskip connectionフレームワークである。
    • STRは,多スケールセマンティック特徴を動的ハイパーグラフに再構成することで,解剖学的依存関係のモデリングを改善する。
    • EPGは,チャネルの安定性を評価し,高エントロピーチャネルをフィルタリングすることで,臨床的に重要な領域に焦点を当て,空間的注意を向上させる。3つのベンチマークデータセットで優れた性能が確認された。

    Link: https://arxiv.org/abs/2510.11259

  • 走査電子顕微鏡画像に対する大規模言語モデル支援自動目盛バー検出・抽出フレームワーク [cs.CV, cond-mat.mtrl-sci, cs.AI, physics.data-an]目的:走査電子顕微鏡画像の目盛バー検出と抽出の自動化
    • 科学研究において,走査電子顕微鏡による微細構造の可視化と分析は不可欠である。目盛バーの正確な特定が分析精度に直結する。
    • 従来の目盛バーの特定は手作業に頼ることが多く,時間と労力を要し,ヒューマンエラーも発生しやすいという課題があった。
    • 本研究は,大規模言語モデルを活用し,目盛バー検出・抽出の効率と精度を向上させ,科学的画像分析の発展に貢献することを目的とする。
    • 提案手法は,オブジェクト検出,テキスト検出,テキスト認識を同時に行うことで,高い精度を実現した。
    • 特に,オブジェクト検出においては,100%の適合率,95.8%の再現率,mAP99.2% (IoU=0.5)という優れた性能を示した。
    • ハイブリッドOCRシステムは,既存のエンジンと比較して高い精度を達成し,科学的画像分析への信頼性を示した。大規模言語モデルは,結果の検証と次ステップの提案に貢献した。

    Link: https://arxiv.org/abs/2510.11260

  • クラスベクトルを用いた分類器編集の探求と活用 [cs.CV]目的:分類器編集のためのクラスベクトル
    • 医療画像診断や製造プロセス異常検知において,画像分類器は重要な役割を担う。
    • 学習後の分類器の挙動変更は困難であり,特定のクラスの忘却や分布シフトへの対応が課題。
    • クラス固有の変化を捉え,柔軟かつ効率的な編集を可能にすること。
    • 本研究では,ファインチューニング中のクラス固有の表現調整を捉える「クラスベクトル」を提案。
    • クラスベクトルを用いることで,潜在空間での特徴操作や重み空間へのマッピングによる分類器編集が可能。
    • クラスベクトルはセマンティックなシフトを捉え,線形性・直交性により高レベルな概念編集を実現。

    Link: https://arxiv.org/abs/2510.11268

  • 学習可能なゲーティング機構に基づくエッジプロンプト強化型医用画像セグメンテーション(EEMS) [eess.SY, cs.SY, cs.CV]目的:医用画像セグメンテーションの精度向上
    • 医用画像は診断,治療計画,疾患モニタリングに不可欠であり,その精度が求められる。
    • 曖昧なエッジや背景ノイズなどにより,正確な医用画像セグメンテーションが困難である。
    • エッジ情報の強化と高レベル・低レベル特徴の統合によるセグメンテーション精度の向上を目指す。
    • 提案手法EEMSは,エッジ認識とプロンプトガイドによる特徴統合により,セグメンテーション精度を向上させた。
    • ISIC2018データセット等の評価で,EEMSは既存手法と比較して優れた性能と信頼性を示した。
    • 臨床ツールとしての実用性が期待される。

    Link: https://arxiv.org/abs/2510.11287

  • 人間による不確実性を考慮したデータ選択と自動ラベリングによる視覚的質問応答 [cs.CV]目的:視覚的質問応答におけるデータ選択と自動ラベリングの枠組み
    • 視覚的質問応答は,AIの知能を示す重要なタスクであり,多様な応用が期待されている。
    • 大規模なアノテーション付きデータセットが必要であり,コストと労力がかかるという課題がある。
    • 人間による不確実性を考慮することで,データ効率を向上させ,モデルの精度と校正を改善することを目指す。
    • 人間による不確実性の高いサンプルは,モデルの性能向上に寄与しない,あるいは性能を低下させる可能性があることが示された。
    • 提案手法HaDolaは,有害なサンプルを特定し,有益なサンプルを優先することで,データセットの規模を縮小しつつ,高い性能を達成する。
    • HaDolaは,既存の最先端手法と同等またはそれ以上の性能を,より少ない学習データで実現できることが実証された。

    Link: https://arxiv.org/abs/2510.11295

  • Δエネルギー:ビジョン言語アライメント中のエネルギー変化の最適化が,OOD検出とOOD汎化の両方を改善する [cs.CV, cs.LG]目的:ビジョン言語モデルにおける,分布外(OOD)データ検出と汎化能力の向上
    • 現実世界のタスクにおいて,ビジョン言語モデルは多様なデータに遭遇するため,そのロバスト性が重要である。
    • 既存モデルは,データ分布のシフトや未知クラスといった分布外データへの対応が課題となっていた。
    • ビジョンと言語のモダリティ再アライメント時のエネルギー変化に着目し,分布外データをより正確に検出・汎化することを目指す。
    • 提案手法「ΔEnergy」は,既存のエネルギーベースのOODスコアを大幅に上回り,より信頼性の高いOOD検出を実現した。
    • さらに,「ΔEnergy」の下限最大化(EBM)により,共変量シフト下でのOOD汎化能力を同時に向上させることができた。
    • EBMはOOD検出能力の向上に加え,OOD汎化の指標となるドメイン整合性ヘッセ行列を提供する。

    Link: https://arxiv.org/abs/2510.11296

  • 教師あり学習はいつ価値があるか:Vision-Languageモデル時代の物体検出の隠れた経済性 [cs.CV, cs.AI, cs.LG]目的:物体検出における教師あり学習とゼロショット推論の費用対効果の比較
    • 物体検出は,画像認識の重要なタスクであり,様々な応用分野で利用されている。
    • 教師あり学習には大量のアノテーションコストがかかるという課題がある。
    • 推論回数やカテゴリの安定性に応じて最適なアーキテクチャを選択するための指針を提示する。
    • 教師あり学習(YOLO)は標準カテゴリにおいて91.2%の精度を達成するが,100カテゴリシステムでその精度を維持するには10,800ドルのアノテーションコストがかかる。
    • しかし,その優位性は1日151,000枚の画像を1年間処理する5,500万回以上の推論を超えた場合にのみ投資が正当化される。
    • ゼロショットGeminiは,YOLOが検出できない多様な製品カテゴリにおいて52.3%の精度を達成し,10万回の推論においては検出コストが大幅に低い($0.00050 vs $0.143)。

    Link: https://arxiv.org/abs/2510.11302