arXiv雑要約

画像・音声 - 2025/10/14 公開

小規模ViT-Batten: 小児MRIにおけるバテン病早期発見のための説明可能な注意機構付きFew-Shot Vision Transformer [cs.CV, cs.AI]目的：小児MRI画像を用いたバテン病の早期検出
- バテン病は希少な神経変性疾患であり，早期発見が重要である。小児の脳MRIは微妙な変化しか見られず，見逃されやすい。
- バテン病のMRI画像における早期兆候は微細であり，十分な訓練データがない状況で高精度な診断が困難である。
- 限られた訓練データで高精度なバテン病の早期検出を可能にするAIモデルの開発。
- 提案手法TinyViT-Battenは，79例のバテン病患者と90例の健常者を含む多施設データセットにおいて，高い精度（約91%）とROC面積（0.95以上）を達成した。
- TinyViT-Battenは，既存の3D-ResNetやSwin-Tinyといったベースラインモデルを上回り，感度90%以上，特異度約90%という高い性能を示した。
- Grad-CAMを統合することで，病気に関連する脳領域を可視化し，説明可能な予測を実現した。モデルの小規模性と高い性能により，実用的なAIソリューションとなりうる。
Link: https://arxiv.org/abs/2510.09649
Ultralytics YOLO進化：YOLO26，YOLO11，YOLOv8，YOLOv5オブジェクト検出器の概要 [cs.CV, cs.AI]目的：YOLOオブジェクト検出器群のアーキテクチャ進化，ベンチマーク，展開，将来の課題に関する包括的な概要
- 画像認識技術は，ロボティクスや自動運転など，幅広い分野で不可欠な役割を果たしている。
- 既存のオブジェクト検出器は，精度と処理速度のバランス，特に小型オブジェクトの検出に課題がある。
- YOLOモデルの進化を理解し，最新のYOLO26の利点を定量的に評価することで，実用的な応用を促進する。
- YOLO26は，DFLの削除，NMSフリー推論，ProgLoss，STAL，MuSGDといった革新的な技術を導入している。
- MS COCOデータセットにおけるベンチマークの結果，YOLOv5，YOLOv8，YOLO11，YOLO26の精度と効率に詳細な比較が見られた。
- 本研究は，YOLOモデルの展開におけるフォーマット，量子化戦略，そしてロボティクス，農業，監視，製造などの応用例について議論している。
Link: https://arxiv.org/abs/2510.09653
TreeNet：階層化された決定アンサンブル [cs.CV]目的：医療画像分析のための新規な階層型決定アンサンブル学習手法
- 医療画像分析は，疾患の早期発見や正確な診断に不可欠であり，臨床現場での応用が期待される。
- 医療画像のデータ量は限られることが多く，質の高いデータも十分に確保できない場合がある。
- 限られたデータでも高精度な分析を可能にする，解釈性の高いモデルを開発すること。
- TreeNetは，ニューラルネットワーク，アンサンブル学習，決定木モデルの特徴を統合したモデルである。
- 全訓練データを用いた場合，F1スコアは0.85を達成し，訓練データの50％使用時でも0.77を維持した。
- 本手法は32フレーム/秒の処理速度を実現し，リアルタイムアプリケーションへの応用が可能である。
Link: https://arxiv.org/abs/2510.09654
勾配符号マスクによる事前学習済みモデル間のタスクベクトル輸送 [cs.LG, cs.AI, cs.CV]目的：事前学習済みモデル間のタスクベクトル輸送
- 大規模言語モデルの進化は速く，継続的なタスク適応が重要である。
- 異なる事前学習済みモデル間でのタスクベクトルの転移は，パラメータ空間の不整合により困難である。
- 新しいモデルの勾配符号構造を利用し，少ないデータでタスクベクトルを転移させる。
- 提案手法GradFixは，勾配符号構造を近似し，少ないラベルサンプルで知識転移を実現する。
- 追加のファインチューニングは不要で，ターゲットモデルの損失地形に合わせた更新を行う。
- 画像認識と自然言語処理のベンチマークにおいて，既存手法を上回る性能を示す。
Link: https://arxiv.org/abs/2510.09658
拡散の舵取り：スペクトル異方性前方ノイズによる学習 [cs.LG, cs.AI, cs.CV]目的：拡散モデルにおける誘導バイアスの構築
- 生成モデルの性能向上には，データ分布に適した誘導バイアスの導入が不可欠である。
- 既存の拡散モデルは，その誘導バイアスが暗黙的であり，明示的な制御が困難である。
- 周波数領域に着目し，ノイズプロセスを異方的に制御することで，誘導バイアスを調整する。
- スペクトル異方性ガウス拡散(SAGD)により，特定の周波数帯域を強調または抑制することが可能となった。
- SAGDは，標準的な拡散モデルと比較して，複数の画像データセットで優れた性能を示した。
- 特定の周波数帯域に限定された既知の破損を無視しながら学習する選択的省略が可能となった。
Link: https://arxiv.org/abs/2510.09660
セマンティックな凝集性知識蒸留による深層クロスモーダルハッシュ [cs.LG, cs.CV, cs.IR]目的：深層クロスモーダルハッシュのためのセマンティックな凝集性知識蒸留
- マルチモーダルデータの活用は，画像検索や情報検索の精度向上に不可欠である。
- 既存手法では，セマンティック情報の抽出と生のマルチモーダルデータとの相互作用が不十分である。
- 画像とテキスト間のセマンティックな類似性をより効果的に捉えることで，モーダル間のギャップを埋める。
- 提案手法SODAは，ラベル情報をテキストモーダルとして扱い，教師ネットワークによる知識蒸留を行う。
- これにより，画像とラベル間のセマンティック特徴を効果的に学習し，ハミング空間を構築する。
- 実験結果から，提案手法が既存の最先端手法を上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2510.09664
OmniSAT：コンパクトな行動トークン，より高速な自己回帰 [cs.CV, cs.RO]目的：行動のコンパクトな表現学習と，それを用いた自己回帰モデルの効率化
- 視覚と言語と行動を統合するVLAモデルは，ロボット工学における応用が期待されており重要である。
- 既存の行動圧縮手法では，再構成精度を損なうか，圧縮効率が低いという課題があった。
- Bスプラインエンコーディングと残差量子化を用いて，行動を効率的に圧縮し，自己回帰モデルの学習を加速することを目指す。
- 提案手法OmniSATは，行動系列の長さを6.8倍に短縮し，ターゲットエントロピーを低下させることに成功した。
- ロボットと人間のデモンストレーションを組み合わせたクロスエンボディメント学習により，スケーラブルな補助学習を実現した。
- 実機およびシミュレーション実験の結果，OmniSATは再構成品質を維持しつつ高い圧縮率を達成し，自己回帰モデルの学習収束を速めた。
Link: https://arxiv.org/abs/2510.09667
MODIS時系列データを用いた変化検出と分類のための知識に基づいたMamba [cs.CV]目的：MODIS時系列データからの変化検出と分類
- 環境モニタリングにおいて，MODIS時系列データの変化検出は不可欠である。
- 混合ピクセル，空間・スペクトル・時間情報の結合効果，背景クラスの不均一性など，MODIS特有の課題が存在する。
- MODIS時系列データの変化検出精度向上を目指す。
- 提案手法KAMambaは，既存手法と比較して変化検出の平均F1スコアを約1.5-6%向上させた。
- 土地被覆変化検出とLULC分類において，OA，AA，Kappa係数も約2%改善した。
- 知識駆動型遷移行列による損失関数や，空間・スペクトル・時間情報を分離するモジュールが有効であることが示された。
Link: https://arxiv.org/abs/2510.09679
NNDM：脳腫瘍セグメンテーションのためのNN_UNet拡散モデル [cs.CV]目的：脳腫瘍セグメンテーションの精度向上
- 脳腫瘍の正確な検出とセグメンテーションは，効果的な診断と治療計画に不可欠である。
- 既存モデルは，汎化性能，境界精度，データ多様性の制限に課題がある。
- NN-UNetと拡散モデルを融合し，セグメンテーション精度とロバスト性を高める。
- 提案手法NNDMは，従来のU-NetやTransformerベースラインと比較して，Dice係数とHausdorff距離において優れた性能を示す。
- 拡散モデルによる修正により，モダリティや腫瘍の亜領域間のロバスト性が向上する。
- NNDMは，決定論的セグメンテーションネットワークと確率的拡散モデルの組み合わせという新たな方向性を示す。
Link: https://arxiv.org/abs/2510.09681
微分方程式に着想を得た深層ニューラルネットワーク [cs.LG, cs.AI, cs.CV, cs.NA, math.NA]目的：深層ニューラルネットワークのアーキテクチャと動的モデリング手法に関する研究
- 深層学習は，画像認識や科学計算など多様な分野で急速に発展しており，重要な技術となっている。
- 既存のニューラルネットワークは，理論的理解，解釈可能性，汎化性能に課題が残されている。
- 微分方程式の視点を取り入れることで，ニューラルネットワークの統一的な理論的枠組みと体系的な設計法を確立することを目指す。
- 本研究では，常微分方程式（ODE）に基づいた深層ニューラルネットワークモデルや決定論的動的ネットワークについて詳細な検討を行った。
- 確率微分方程式（SDE）にヒントを得た正則化手法や確率的動的ネットワークモデルについても比較検討し，その特性と性能を明らかにした。
- 微分方程式と深層学習の統合が，解釈可能性と汎化性能に優れた知能化された計算手法の開発に繋がる可能性を示唆した。
Link: https://arxiv.org/abs/2510.09685
レイアウト認識解析と効率的な大規模言語モデル：履歴書情報抽出と評価のための統一的で拡張性の高いフレームワーク [cs.CL, cs.AI, cs.CV]目的：履歴書からの情報抽出と評価のためのフレームワーク
- 人材獲得の効率化に不可欠な技術であり，企業の成長を支える重要な要素である。
- 履歴書のレイアウトや内容の多様性，大規模言語モデルのコストと遅延が課題となっている。
- 多様なレイアウトに対応し，効率的な情報抽出と評価を実現すること。
- 本フレームワークは，レイアウト解析と効率的な大規模言語モデルを組み合わせることで，高い精度と効率性を実現した。
- 0.6Bのコンパクトな言語モデルでも，トップレベルの精度を達成しつつ，推論遅延と計算コストを大幅に削減した。
- 本システムはAlibabaのインテリジェントHRプラットフォームに導入され，実運用されている。
Link: https://arxiv.org/abs/2510.09722
時間的順位付けと運動強度動画像を用いた適応型融合ネットワークによる微表情認識 [cs.CV]目的：微表情認識のための新しい手法
- 人の感情を正確に理解することは，心理学や行動分析において重要である。
- 微表情は非常に微細で捉えにくく，従来の認識手法では課題が残されている。
- 時間的情報と運動情報を効果的に融合することで，微表情認識の精度向上を目指す。
- 提案手法は，CASME-IIデータセットにおいて，93.95%の正答率と0.897のUF1スコアを達成し，最先端の性能を示した。
- SAMMデータセットにおいても，82.47%の正答率と0.665のUF1スコアを獲得し，クラス間の認識バランスが向上した。
- MMEWデータセットでの76.00%の正答率は，提案手法の汎化能力を裏付けている。
Link: https://arxiv.org/abs/2510.09730
複数カメラ連携ビジョンシステムとマルチビュー分析：包括的サーベイ [cs.CV]目的：複数カメラによる連携ビジョンシステムの包括的な調査と分析
- 自動運転，スマートシティなど様々な分野で活用が期待されており，社会実装の重要性が高まっている。
- 既存の調査は個別のタスクに焦点を当てており，システム全体としての統合的な理解が不足している。
- 複数カメラからの情報統合による，より高度な状況認識を実現するための課題と展望を明確にする。
- 本サーベイでは，複数カメラ追跡，再識別，行動理解を統合したフレームワークを提示し，分野全体の構造化に貢献する。
- 最新のデータセット，手法，評価指標を体系的に整理し，研究の進展を明確に示す。
- 継続学習やプライバシー保護など，今後の研究課題と新技術の可能性について議論する。
Link: https://arxiv.org/abs/2510.09731
VisRAG 2.0：視覚情報検索拡張生成におけるエビデンスに基づくマルチ画像推論 [cs.CL, cs.CV]目的：視覚情報検索拡張生成におけるマルチ画像推論の改善
- 画像と言語を組み合わせたモデルは，高度な推論能力を必要とする様々なタスクに応用可能である。
- 既存の視覚情報検索拡張生成システムは，複数画像からのエビデンスの信頼性のある知覚と統合に課題がある。
- 本研究は，複数画像からのエビデンスに基づいた推論能力を高めることで，より正確な回答生成を目指す。
- 提案手法EVisRAGは，検索された画像からエビデンスを記録し，集約されたエビデンスから最終的な回答を導き出す。
- 報酬スコープ付きグループ相対方策最適化（RS-GRPO）により，視覚的知覚と推論能力を同時に最適化することに成功した。
- 複数の視覚的質問応答ベンチマークにおいて，既存の基盤モデルと比較して平均27％の改善が確認された。
Link: https://arxiv.org/abs/2510.09733
ニューラル崩壊幾何学による信頼性の高いアクティブラーニング：信頼できないラベルからの学習 [cs.LG, cs.CV]目的：信頼できないラベル下での信頼性の高いアクティブラーニング手法
- アノテーションコスト削減のため，情報量の多いサンプルを優先するアクティブラーニングは重要である。
- アノテーターの誤りやデータ分布の変化により，アクティブラーニングの信頼性が損なわれる場合がある。
- ノイズや冗長なラベルの影響を軽減し，アクティブラーニングの安定性を向上させることを目指す。
- NCAL-Rは，クラス平均アライメント摂動スコアと特徴変動スコアの2つの信号を導入することで，クラス分離を維持しつつ曖昧な領域を強調する。
- ImageNet-100とCIFAR100の実験により，NCAL-Rは標準的なアクティブラーニング手法よりも高い精度をより少ないラベル数で達成することが示された。
- NCAL-Rは合成ラベルノイズに対するロバスト性，および分布外データへの汎化性能も向上させる。
Link: https://arxiv.org/abs/2510.09740
注意誘導画像歪曲によるMLLMの性能向上 [cs.CV, cs.LG]目的：マルチモーダル大規模言語モデルにおける詳細な知覚的根拠付けの精度向上
- MLLMは画像とテキストの理解において重要であり，様々な応用が期待されている。
- 複雑なシーンにおいて，MLLMは小さな詳細や空間関係を見落とす傾向がある。
- モデルの注意機構を活用し，画像内の重要な領域に解像度を集中させることで，精度を改善する。
- AttWarpは，モデルの重みを変更せずに，入力画像の矩形歪曲を行うことで解像度を再配分する。
- 5つのベンチマークと4つのMLLMにおいて，AttWarpは常に精度を向上させ，合成推論を強化し，幻覚を軽減する。
- 注意誘導による歪曲は，クエリに関連する情報を優先しつつコンテキストを維持することで，MLLMの性能を向上させる。
Link: https://arxiv.org/abs/2510.09741
因果関係と解読可能性：カウンティングViTの解釈から得られる教訓 [cs.LG, cs.CV]目的：ニューラルネットワークの内部コンポーネントが予測にどのように寄与するかを解明するメカニズム
- ニューラルネットワークの動作原理の理解は，AIの信頼性と安全性を高める上で重要である。
- 解読可能性と因果関係が混同されがちで，ネットワークの真の働きを理解する妨げとなっている。
- 解読可能性と因果関係の乖離を明らかにし，隠れた計算回路を明らかにすることを目指す。
- 中間層のオブジェクトトークンは解読可能性が低いにもかかわらず，強い因果関係を持つことが示された。
- 最終層のオブジェクトトークンは正確な解読を可能にするが，機能的には不活性であるという対照的な結果が得られた。
- CLSトークンは中間層で解読可能になるものの，最終層でのみ因果的な影響力を持つことが明らかになった。
Link: https://arxiv.org/abs/2510.09794
オンライン割り当てゲームにおける安定性 [eess.SY, cs.SY, cs.GT]目的：オンライン割り当てゲームにおける不安定性の評価
- 資源配分は経済活動の根幹であり，効率的な取引が社会全体の幸福度向上に不可欠である。
- 現実の市場では最適なマッチングが達成されず，不安定な状態に陥ることが多い。
- オンライン環境下での不安定性を定量化し，アルゴリズムの性能評価に資すること。
- サブオプティマルなマッチングにおける不安定性の2つの指標を導入し，比較した。
- これらの指標と基礎となるマッチングの最適化率との関連性を明らかにした。
- オンライン割り当てゲームにおけるランダム化アルゴリズムの安定性パフォーマンスを分析した。
Link: https://arxiv.org/abs/2510.09814
意味推論における多Modal入力の曖昧性解消への理解 [cs.CV, cs.AI]目的：多Modal文脈における単語の意味推論
- 言語学習において，視覚情報とテキスト情報を組み合わせることで，理解を深める可能性が示唆されている。
- 未知語の意味推論において，どのような視覚的・言語的特徴が効果的か不明である。
- 人間の推論プロセスを分析し，AIシステムの性能向上に繋げる。
- 参加者のパフォーマンスと直感的な特徴との間には強い相関関係が見られたが，さらなる調査が必要である。
- AIシステムが参加者のパフォーマンスを推論する能力を分析し，改善の方向性を示した。
- 異なる言語背景の参加者の成功との関連性についても分析を行った。
Link: https://arxiv.org/abs/2510.09815
クロスセンサー触覚生成 [cs.RO, cs.CV]目的：異なるセンサー間での触覚情報の生成
- 触覚センサーは多様化しており，汎用的な触覚表現の開発が求められている。
- 既存のモデルは特定のセンサー設計に依存しており，汎用性に欠ける点が課題である。
- センサー間の触覚情報の変換を可能にし，モデルの適用範囲を広げることを目指す。
- 提案手法により，センサー固有のモデルを複数のセンサー間で活用することが可能となった。
- ペアデータを利用するTouch2Touchと，中間的な深度表現を用いるT2D2の二つのアプローチが示された。
- これらのモデルは，ハンドポーズ推定や行動クローンといった下流タスクにおいて，センサー間のモデル転移の有効性を示した。
Link: https://arxiv.org/abs/2510.09817
視覚大規模言語モデルにおけるタスクに応じた解像度最適化 [cs.CV, cs.CL]目的：視覚言語タスクに対する最適な解像度の決定
- 現実世界の視覚言語応用では，知覚の粒度が多様に求められるため。
- 既存のVLLMは固定解像度を前提としており，性能が制限される場合がある。
- タスクの複雑さとVLLMの不確実性に基づいて最適な解像度を特定し，性能向上を目指す。
- 異なる視覚言語タスクの解像度選好を調査し，画像複雑さとVLLMの不確実性の関係を明らかにした。
- 画像複雑さと不確実性に基づいた最適な解像度を決定する経験式を提案した。
- 事前学習済みVLLMの入力解像度を効率的に拡張する微調整技術を開発し，有効性を検証した。
Link: https://arxiv.org/abs/2510.09822
分解ネットワーク：深層成分分析と合成 [cs.LG, cs.CV, cs.IT, cs.NE, math.IT]目的：入力の解釈可能な成分への分解
- データ表現の効率化と解釈性が重要視されている。
- 従来のオートエンコーダでは，潜在表現がブラックボックス化しやすい。
- 成分間の競合を促し，意味のある疎な表現を獲得すること。
- DecompNetは，複数の並列ブランチを持つセマンティックオートエンコーダである。
- 各ブランチは，他のブランチの再構成を引いた残差入力を担当する。
- Gauss-Seidel法を微分可能なネットワークに展開し，成分間の明示的な競合を促す。
Link: https://arxiv.org/abs/2510.09825
条件付き確率場を用いた画像セグメンテーション後処理 [cs.CV]目的：画像セグメンテーションの明確化
- 衛星画像等の解析において，正確なセグメンテーションは重要である。
- 衛星画像の品質が低い場合，セグメンテーション結果が不明瞭になりやすい。
- セグメンテーション結果の品質向上を目指し，最適な条件付き確率場を探索する。
- 様々な条件付き確率場を評価した結果，画像の特性に応じた選択が重要であることが示された。
- 衛星画像と高画質航空写真のデータセットを用いて検証を行い，各手法の利点と課題を比較した。
- 条件付き確率場を用いることで，セグメンテーション結果の明確化に一定の効果が得られることが確認された。
Link: https://arxiv.org/abs/2510.09833
単一モルフィング攻撃検出のための段階的合成非変形画像探索 [cs.CV, cs.CR, cs.LG, eess.IV]目的：単一モルフィング攻撃検出の性能向上
- 顔認証システムのセキュリティ確保は重要であり，モルフィング攻撃への対策は不可欠である。
- プライバシー保護の観点から，大規模な真正画像データセットの入手が困難である。
- 合成画像を用いて，既存のデータセットの汎化性能を改善することを目指す。
- 段階的な合成画像の追加により，汎化性能の向上が確認された。
- 合成データを無分別に使用すると，性能が低下する可能性がある。
- 合成データのみを用いた場合が最も低いEERを示すが，運用上は合成データのみに頼るのが最適ではない。
Link: https://arxiv.org/abs/2510.09836
自己教師あり深層学習と静止気象衛星を活用した山火事および大気質モニタリングの高度化：GOESとTEMPOの放射データを用いた煙と火線マスクの改善 [cs.NI, cs.AR, cs.PF, cs.LG, cs.AI, cs.CV]目的：山火事と大気質の管理改善
- 山火事の頻発と深刻化により，その監視と被害軽減が喫緊の課題となっている。
- 従来の山火事監視は，データの時間解像度やマスクの精度に課題があった。
- GOESとTEMPOのデータと深層学習を用いて，より高精度な煙と火線マスクを生成すること。
- NASAのTEMPO衛星データと自己教師あり深層学習を活用し，山火事と大気質の管理改善の可能性を示す。
- GOES-18とTEMPOのデータを用いて，煙と雲を効果的に区別する深層学習システムの有効性を実証した。
- 異なるセンシングモードからの煙と火線マスク間の高い一致度と，既存の運用製品に対する大幅な改善が確認された。
Link: https://arxiv.org/abs/2510.09845
細胞インスタンスセグメンテーション：境界が鍵となる [cs.DC, cs.PF, cs.CV]目的：細胞インスタンスセグメンテーションにおける境界特徴の活用
- 細胞の自動解析は，生物学研究や医療診断において不可欠な技術である。
- 従来のセグメンテーション手法では，細胞形状や曲率といった幾何学的特徴が失われやすい。
- 境界特徴に着目し，より正確な細胞インスタンスセグメンテーションを実現すること。
- 提案手法Cebは，セマンティックセグメンテーション確率マップ上で，改訂されたWatershedアルゴリズムを用いて前景-前景境界を抽出する。
- 抽出された境界に対し，境界署名と呼ばれる特徴量を構成し，境界分類器を用いて二値ラベルを予測する。
- 予測された境界ラベルに基づき，隣接領域を分割または統合することで細胞インスタンスを取得し，既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2510.09848
大規模ビジョン言語モデルに対するテキストプロンプトインジェクション [cs.CL, cs.CV]目的：大規模ビジョン言語モデルの誤誘導
- 大規模言語モデルの応用拡大に伴い，安全性確保の重要性が高まっている。
- 既存の手法では，大規模モデルへの攻撃に高い計算資源を要する課題がある。
- 計算資源の少ない環境でも効果的な攻撃手法を開発し，安全性を評価する。
- テキストプロンプトインジェクションという，簡便かつ効果的な誤誘導手法を検証した。
- 開発したアルゴリズムは，特に大規模モデルに対して高い有効性と効率性を示した。
- 本研究は，大規模モデルの安全性を脅かす脆弱性を明らかにした。
Link: https://arxiv.org/abs/2510.09849
Pinterestにおける統一的な広告軽量ランキングのためのマルチタスクマルチドメインフレームワーク [cs.CL, cs.IR, cs.CV]目的：Pinterestの広告軽量ランキングにおける，複数の最適化タスクと配信先を統合的に最適化するフレームワーク
- 広告配信システムにおいて，検索後の段階で最終ランキングを行う軽量ランキング層は，システムの成功に不可欠である。
- クリック率やコンバージョン率など，広告の種類や配信先によって最適化すべきタスクが異なり，統合的な最適化が課題である。
- 複数のドメインにおける専門知識を学習し，ドメイン間の知識転移を促進することで，マルチタスク学習の有効性を高める。
- MTMDは，オフライン損失値を12%～36%改善し，オンラインでのクリックコストを2%削減することに成功した。
- この単一のMTMDフレームワークは，Pinterestの広告推薦システムに導入され，9つの既存モデルに取って代わった。
- MTMDアーキテクチャは，異なる予測タスク，広告プロダクト，広告配信面を統一的なフレームワークで扱える。
Link: https://arxiv.org/abs/2510.09857
少数ショットVision-Languageモデル適応のためのクラスタ認識プロンプトアンサンブル学習 [eess.SY, cs.SY, cs.CV]目的：少数ショットVision-Languageモデルの適応手法
- 画像とテキストの情報を統合し，多様なタスクへのゼロショット転移を実現するVLMsの重要性が高まっている。
- 従来のプロンプトアンサンブルは特徴量の平均化を行うため，クラス重心が真のクラス分布からずれるという課題がある。
- プロンプトのクラスタ構造を維持し，分類ロジット空間でのアンサンブルを行うことで，この問題を解決することを目指す。
- 提案手法CAPELは，画像をクラスクラスタに分類し，各クラスタを異なるプロンプトで表現することで，より正確なクラス分布を学習する。
- クラスタ維持正則化項を導入することで，プロンプトが個別のクラスタに対して識別力を維持し，一様な方向に収束するのを防ぐ。
- 適応的なプロンプト重み付け技術により，不適切なプロンプトへの注意を抑制し，多様なデータセットやタスクにおけるロバストな性能を実現する。
Link: https://arxiv.org/abs/2510.09867
高速自己教師あり奥行き・マスク認識アソシエーションによるマルチオブジェクトトラッキング [cs.CV]目的：マルチオブジェクトトラッキングにおける物体アソシエーションの改善
- 様々な分野で物体追跡技術の重要性が増しており，高精度なトラッキング手法が求められている。
- 既存手法では，類似物体や遮蔽物がある場合にIoUを用いたアソシエーションが不安定になりやすい。
- 自己教師あり学習を用いた効率的な特徴表現を獲得し，アソシエーションのロバスト性を向上させる。
- 奥行き情報とマスク特徴を融合し，自己教師あり学習によって安定した物体表現を獲得した。
- この表現をIoUや再識別特徴と組み合わせてマッチングを行うことで，トラッキング精度を向上させた。
- SportsMOTやDanceTrack等の難易度の高いベンチマークにおいて，既存手法を上回る性能を達成した。
Link: https://arxiv.org/abs/2510.09878
CHUG：クラウドソーシングによるユーザー生成HDR動画品質データセット [cs.CV, cs.AI]目的：ユーザー生成HDR動画の品質評価のためのデータセット
- HDR動画は視覚体験を向上させるため，その重要性が増している。
- 既存のHDR動画品質評価データセットはプロ生成コンテンツに偏っている。
- 本研究は，実際のユーザー生成HDR動画における品質評価を可能にすることを目的とする。
- CHUGは，856本のユーザー生成HDRソース動画を含む大規模データセットである。
- 多様な解像度とビットレートで動画を変換し，現実的なシナリオをシミュレーションしている。
- Amazon Mechanical Turkを通じて211,848件の知覚評価データを収集した。
Link: https://arxiv.org/abs/2510.09879
新規視点合成のための幾何学的構造を意識したシーン構成 [cs.CV]目的：没入型体験生成のための表現能力の効率的な割り当て戦略
- 屋内環境のリアリティの高い再現は，仮想現実や拡張現実などの応用において重要である。
- 限られた観測データからの高品質な合成は，屋内シーンの複雑な形状やオクルージョンにより困難である。
- 幾何学的構造に基づき，表現能力を最適に配置することで，効率的な合成を目指す。
- 提案手法は，既存のNeRF表現よりも少ない計算資源で，高品質なレンダリングを可能にする。
- 幾何学的構造の情報を活用したベース配置は，均一な配置よりも性能が向上する。
- シーンに適応した仮想視点の導入により，入力経路の欠点を補い，より自然な合成を実現する。
Link: https://arxiv.org/abs/2510.09880
LTGS：疎な視点更新からの長期ガウスシーン時系列 [cs.CV]目的：日常環境変化に対応可能な効率的なシーン表現の構築
- リアルの環境を再現する技術は，ロボティクスや仮想現実など多岐にわたる応用が期待される。
- 既存手法は，密な空間・時間的観察が必要であり，カジュアルな撮影環境下では課題が多い。
- 疎な視点更新から長期的なシーン変化を捉え，スケーラブルな時系列3D環境を実現する。
- 提案手法LTGSは，ガウススプラッティング表現を用いて，少ない情報から長期的なシーン変化をロバストにモデル化する。
- オブジェクトをテンプレートガウスとして表現することで，構造的な事前知識を活用し，軽量な更新を可能にする。
- 実験により，LTGSが既存手法と比較して優れた再構成品質と高速な更新性能を示すことが確認された。
Link: https://arxiv.org/abs/2510.09881
データ効率的な多視点動物姿勢推定のための不確実性認識フレームワーク [cs.CV, q-bio.QM]目的：データ効率的な多視点動物姿勢推定
- 動物行動の定量化は科学研究において重要であり，姿勢推定はその鍵となる技術である。
- 既存手法は，ラベル付きデータの不足や不確実性の推定精度が低いという課題を抱えている。
- 本研究は，限られたデータでも高精度な姿勢推定と信頼性の高い不確実性評価を実現することを目指す。
- 提案手法は，3種類の異なる動物種（ハエ，ネズミ，ヒバリ）において既存手法を上回る性能を示した。
- 多視点Transformer (MVT) とEnsemble Kalman Smoother (EKS) を組み合わせ，学習と後処理を最適化した。
- 擬似ラベル生成による教師データへの依存度を低減し，実世界のデータ制約下での信頼性高い姿勢推定を可能にした。
Link: https://arxiv.org/abs/2510.09903
SpectralCA：次世代UAVハイパースペクトルビジョンのための双方向クロスアテンション [cs.CV, cs.AI]目的：UAVハイパースペクトルビジョンにおける知覚効率の向上
- 干渉や視界不良等により従来のナビゲーションが困難な環境下で，UAVの信頼性向上への要求が高まっている。
- 従来のUAVビジョンでは，詳細な材質認識や物体識別が難しく，ナビゲーション精度に課題がある。
- ハイパースペクトル画像を用いたUAVの知覚能力を向上させ，リアルタイムなナビゲーションを実現する。
- 提案手法SpectralCAは，スペクトル特徴と空間特徴を融合する双方向クロスアテンションブロックを導入し，認識精度を向上させた。
- パラメータ数を削減し推論時間を短縮することで，リアルタイム処理を可能にした。
- WHU-Hi-HongHuデータセットを用いた実験により，提案アーキテクチャがUAV知覚効率を改善することが確認された。
Link: https://arxiv.org/abs/2510.09912
HeadsUp！高忠実度ポートレート画像超解像 [cs.CV]目的：ポートレート画像超解像の技術
- SNS普及により，高品質なポートレート画像の需要が拡大している。
- 汎用画像や顔画像に特化したモデルでは，境界部の不自然さが課題となる。
- 顔領域に注目し，全体的な整合性を保つ超解像技術の開発。
- 提案手法HeadsUpは，顔領域の指導機構と参照に基づく機構により，ポートレート画像を高精度に超解像化する。
- 汎用画像や顔画像データセットにおいても，既存手法と同等以上の性能を達成した。
- 高解像度ポートレート画像データセットPortraitSR-4Kを構築し，モデルの学習と評価を支援する。
Link: https://arxiv.org/abs/2510.09924
位相認識型深層学習：複素数値CNNによる音声信号への応用 [eess.SY, cs.RO, cs.SY, cs.LG, cs.AI, cs.SD]目的：音声信号処理における複素数値CNNの設計と応用
- 音声処理は，人間と機械のコミュニケーションにおいて不可欠な技術であり，その高度化が求められている。
- 従来の深層学習は実数値に限定され，音声信号の重要な特徴である位相情報を十分に活用できていない。
- 位相情報を効果的に利用することで，音声処理の性能向上を目指す。
- 複素数値CNNは，画像データセットにおいても実数値CNNと同等の性能を示すことが確認された。
- 実数値MFCCを用いた音声分類では，わずかな性能向上が見られたが，位相を保持することによる課題も明らかになった。
- GNNによる位相情報のモデル化により，バイナリおよびマルチクラスのジャンル分類において明確な性能向上が確認された。
Link: https://arxiv.org/abs/2510.09926
水中画像の新たなフレームワークとしての拡散モデル [cs.CV, cs.AI]目的：水中画像品質向上手法の開発
- 海洋研究や海洋環境モニタリングにおいて，質の高い水中画像は生態系に関する重要な情報源である。
- 既存の画像強調技術は，汎化性能の低さや高品質な学習データへの依存性といった課題を抱えている。
- 多様な種類の水中画像データを生成し，データセットの品質向上を図ることで，これらの課題を解決する。
- 拡散モデルを用いたデータ拡張により，ステレオ画像，広角画像，接写画像など多様な水中画像データの生成が可能となった。
- Controlnetを用いた画像強調により，データセットの品質が向上し，海洋生態系の研究に貢献することが期待される。
- 本研究は，既存のデータセットの限界を克服し，より精度の高い水中画像解析を可能にする。
Link: https://arxiv.org/abs/2510.09934
経時的神経画像データの半分離された時空間暗黙的ニューラル表現による軌道分類 [cs.CV]目的：経時的神経画像データにおける脳の加齢軌道の分類
- 脳構造は生涯にわたって変化し，加齢に伴う病態解明に不可欠である。
- 従来の深層学習は，個体間・個体内の不規則な画像サンプリングに対応困難である。
- 暗黙的ニューラル表現を用いて，連続的な脳の変化を捉え，軌道分類を改善する。
- 提案手法は，脳加齢軌道分類において81.3%の精度を達成し，従来の深層学習モデル（73.7%）を上回った。
- 本手法は，空間的・時間的なパラメータを部分的に分離する新たな暗黙的ニューラル表現アーキテクチャを導入した。
- 生物学的に妥当な加齢軌道シミュレーションにより，提案手法の有効性を検証した。
Link: https://arxiv.org/abs/2510.09936
批評者からのフィードバック信号を用いた説明可能な人間介在型セグメンテーション [eess.SY, cs.SY, cs.HC, cs.CV, cs.AI, cs.HC, cs.LG, eess.IV]目的：セグメンテーションモデルにおける人間介入による学習の実現
- セグメンテーション技術は，自動運転や都市気候モニタリングなど，多様な分野で不可欠である。
- 既存のモデルは，データ特有の偏りに依存しやすく，実環境での汎化性能が課題である。
- 人間の修正を介入信号として活用し，モデルの頑健性を高めることを目指す。
- 人間の修正を修正情報として画像間で伝播させることで，モデルは表面的な特徴への依存を抑制し，意味のある特徴を学習する。
- 本手法は，困難なcubemapデータにおいて最大9mIoU（相対的に12-15%の改善）のセグメンテーション精度向上を実現した。
- 従来の再学習と比較して，アノテーション作業量を3-4倍削減しつつ，ベンチマークデータセットにおいても競争力のある性能を維持する。
Link: https://arxiv.org/abs/2510.09945
実世界の果樹園における沙田文旦検出のための多戦略フレームワーク [cs.CV]目的：沙田文旦の検出精度向上
- 沙田文旦は重要な特産品であり，市場規模が大きいため，効率的な生産管理が求められている。
- 既存手法は特定の条件下で最適化されている場合が多く，実世界の複雑な環境下では性能が低下する。
- 画像デバイス，照明条件，対象物のスケール変化，遮蔽といった課題を克服し，検出精度を高める。
- 提案手法は，精度(P)87.6%，再現率(R)74.9%，mAP@.50 82.8%，mAP@.50:.95 53.3%を達成した。
- 構築したSTP-AgriDataデータセットと，RFAConv，C3RFEM，MultiSEAMなどのモジュールが有効性を示した。
- 本手法は，他の最先端の検出手法と比較して優れた性能を発揮する。
Link: https://arxiv.org/abs/2510.09948
J-RAS：検索拡張型共同学習による医用画像セグメンテーションの向上 [cs.CV]目的：医用画像セグメンテーションの精度向上
- 医用画像セグメンテーションは，診断，治療計画，疾患モニタリングにおいて不可欠な技術である。
- 高品質なアノテーション付きデータセットの不足と，患者間・症例間での画像データの多様性が課題である。
- 検索による文脈情報の活用を通して，セグメンテーションモデルの汎化性能を高めることを目指す。
- 提案手法J-RASは，セグメンテーションモデルと検索モデルを共同で最適化することで，セグメンテーション精度を向上させる。
- ACDCデータセットにおいて，SegFormerを用いた実験で，Dice係数が0.8708から0.9115へ，Hausdorff距離が1.8130から1.1489へと改善された。
- J-RASは，様々なセグメンテーションモデルとデータセットで一貫した性能向上を示し，汎用性の高さが確認された。
Link: https://arxiv.org/abs/2510.09953
汎用離散領域音声強調 [cs.SD]目的：多様な歪み環境下における音声強調の実現
- 現実世界の音声は様々な干渉を受け，頑健な音声処理には音声強調が不可欠である。
- 既存手法は特定の歪みに限定され，複数の歪み同時発生下での汎化性能が課題である。
- 多様な歪みに対応可能な，実用的な音声強調手法を開発すること。
- 提案手法UDSEは，音声強調を離散領域の分類問題として捉え，RVQによる離散トークンを予測する。
- UDSEは，従来の回帰ベース手法と比較して，多様な歪み，およびそれらの組み合わせに対して優れた性能を示す。
- これにより，UDSEの汎用性と実用性が実証された。
Link: https://arxiv.org/abs/2510.09974
AIとLLMを活用したカメラシステムによる交通量分析のスケールアップ：データ駆動型交通意思決定 [cs.RO, cs.CV, eess.IV]目的：AIとLLMを活用したカメラシステムによる交通量分析のスケールアップ
- 交通管理は都市機能維持に不可欠であり，リアルタイムかつ長期的な交通状況の把握が重要である。
- センサーの広範囲な設置にはコストがかかり，既存の画像解析はカメラ視点の変化やデータ量の多さに課題がある。
- 既存のカメラインフラを活用し，大規模な交通量分析を効率的に行う方法を確立すること。
- YOLOv11モデルを都市部に特化して調整し，リアルタイムで交通密度と車両分類の指標を抽出することに成功した。
- パン・チルト・ズームカメラの視点変動に対応するため，グラフベースの視点正規化手法を新たに開発した。
- LLMを活用し，24時間体制の映像データから交通状況の変化を自動的に要約するシステムを構築し，ニューヨーク市の混雑料金制度導入後の交通量変化を分析した結果，乗用車の交通量が9%減少した。
Link: https://arxiv.org/abs/2510.09981
FlareX：2D合成と3Dレンダリングによるレンズフレア除去のための物理情報に基づいたデータセット [cs.CL, cs.CV]目的：レンズフレア除去のためのデータセット
- 画像処理技術の進歩は，視覚的なリアリティの向上に不可欠である。
- 既存のデータセットは，レンズフレアの多様性の欠如と物理原理の無視により，実写環境への汎化性能が低い。
- 物理に基づいたデータ生成により，実写環境でも有効なレンズフレア除去モデルの開発を目指す。
- FlareXデータセットは，2Dテンプレート9,500枚と3Dレンダリングによるペア3,000組から構成される。
- パラメータ化されたテンプレート作成，照明法則に基づいた2D合成，物理エンジンによる3Dレンダリングの3段階でデータ生成を行う。
- 実写画像のレンズフレア除去性能を評価するため，マスクを用いた手法を設計した。
Link: https://arxiv.org/abs/2510.09995
動的シーンにおけるちらつき除去のためのベンチマークデータセット：BurstDeflicker [cs.CV]目的：動的シーンにおけるちらつき除去のためのベンチマークデータセットの構築
- ローリングシャッターカメラの普及に伴い，AC電源の照明下で発生するちらつきが問題となっている。
- 大規模で現実的なデータセットの欠如が，ちらつき除去技術の研究開発の障壁となっていた。
- 多様なちらつきパターンを生成し，現実世界のちらつきに対応できるモデル開発を支援する。
- BurstDeflickerは，Retinexベースの合成パイプライン，実世界での画像キャプチャ，グリーンバック手法を組み合わせることで構築された。
- このデータセットは，ちらつき関連の属性を制御可能な形で操作し，多様なちらつきパターンを生成することを可能にする。
- 実験結果は，提案データセットの有効性と，ちらつき除去研究の進歩に貢献する可能性を示している。
Link: https://arxiv.org/abs/2510.09996
CLoD-GS：3Dガウススプラッティングによる連続的なレベル・オブ・ディテール [cs.GR, cs.CV]目的：リアルタイムコンピュータグラフィックスにおける複雑なシーンのレンダリングコスト管理と視覚的忠実度の維持
- 複雑な3Dシーンを効率的に描画するためには，描画負荷の軽減が不可欠である。
- 従来の離散的なLoD手法は，モデルの複数コピーが必要であり，視覚的な「ポップ」現象が発生しやすい。
- 3Dガウススプラッティングの特性を生かし，単一モデル内で滑らかなLoDを実現することで上記問題を解決する。
- 提案手法CLoD-GSは，3Dガウススプラッティング表現に連続的なLoDメカニズムを統合する。
- 各ガウスプリミティブに距離依存の減衰パラメータを導入し，視点との距離に応じて不透明度を動的に調整することで，滑らかな品質スケーリングを実現する。
- 実験により，CLoD-GSは単一モデルから高品質でスケーラブルなレンダリングが可能であり，ストレージオーバーヘッドと視覚的アーティファクトを排除できることが示された。
Link: https://arxiv.org/abs/2510.09997
MTP-S2UT：多トークン予測による音声対音声翻訳の品質向上 [cs.CL, cs.SD, eess.AS]目的：音声対単位翻訳モデルにおける多トークン予測損失の導入とその効果
- 音声翻訳は言語間のコミュニケーションを円滑にする上で不可欠であり，その重要性は増している。
- 従来の音声対音声翻訳では，意味の密度が低い単一の音声トークンを使用している点が課題であった。
- より完全な意味を捉え，トークンごとの情報密度を高めることで翻訳品質の向上を目指す。
- 提案手法であるMTP-S2UT損失は，中間層への多トークン予測損失の適用により，隠れ表現の早期強化を実現した。
- 実験の結果，MTP損失を適用した全ての変種において音声対単位翻訳の品質が向上することが確認された。
- 特にMTP-S2UT損失は最も優れた性能を示し，音声翻訳の精度向上に貢献することが示された。
Link: https://arxiv.org/abs/2510.10003
MIMO：視覚的参照とピクセル接地による多Modal入出力を用いた医療ビジョン言語モデル [cs.CV]目的：医療ビジョン言語モデルの性能向上
- 医療画像診断支援の自動化が求められており，ビジョン言語モデルが重要な役割を担う。
- 既存モデルは，画像内の視覚的情報と出力結果の画像領域との関連性が弱い。
- 視覚的参照とピクセル接地を組み合わせることで，画像の理解と説明の精度を高める。
- MIMOは，視覚的情報とテキスト指示を統合し，複雑な医療画像を理解できる。
- MIMOは，テキスト出力中の医療用語を画像内の特定領域に結び付けることができる。
- 大規模医療マルチモーダルデータセットMIMOSeg（895Kサンプル）を構築し，モデルの学習に活用した。
Link: https://arxiv.org/abs/2510.10011
Q-Adapter：ビデオキャプションのためのテキスト関連特徴抽出用ビジュアルクエリアダプター [cs.RO, cs.HC, cs.CV]目的：ビデオキャプションタスクにおけるテキスト関連特徴の効率的な抽出
- 大規模な事前学習モデルがビデオキャプションの進歩を牽引しているが，計算コストが課題となっている。
- パラメータ効率的なファインチューニング(PEFT)は有望だが，マルチモーダルタスクへの応用は十分ではない。
- ビジュアル情報の活用を強化し，効率的なファインチューニングを可能にする軽量なアダプターモジュールを開発する。
- Q-Adapterは，MSR-VTTとMSVDデータセットにおいて，PEFTアプローチを用いた手法の中で最先端の性能を達成した。
- フルファインチューニングアプローチと比較しても競争力のある性能を示しつつ，パラメータ数はわずか1.4%で済む。
- ハイパーパラメータや設計選択がファインチューニングに与える影響を分析し，アダプターベース学習の最適化戦略に関する知見を得た。
Link: https://arxiv.org/abs/2510.10022