arXiv雑要約

画像・音声 - 2025/10/13 公開

  • RadioFlow:フローマッチングによる効率的な無線マップ構築フレームワーク [cs.CV]目的:高精度かつリアルタイムな無線マップの生成
    • 次世代無線システムにおいて,正確な電波環境の把握は不可欠である。
    • 拡散モデルはモデルサイズが大きく,推論速度が遅いという課題があった。
    • 拡散モデルの課題を克服し,スケーラブルな電波デジタルツインを実現する。
    • RadioFlowは,単一ステップで効率的なサンプリングを行い,高精度な無線マップを生成する。
    • パラメータ数を最大8分の1,推論速度を4倍以上向上させた。
    • 将来の6Gネットワーク向けに,エネルギー効率の高い電波デジタルツインの実現に貢献する。

    Link: https://arxiv.org/abs/2510.09314

  • 自己教師あり単眼深度推定のための,粗い粒度から細かい粒度への言語誘導を用いたハイブリッド特徴集約 [cs.CV]目的:自己教師あり単眼深度推定における性能向上
    • 単眼深度推定は,自動運転やロボティクスなど,様々な分野で重要な役割を担う。
    • 既存手法では,十分な意味的・空間的知識の抽出が難しく,性能に限界がある。
    • CLIPやDINOなどの基盤モデルを活用し,特徴の粒度不一致問題を解決する。
    • 提案手法Hybrid-depthは,CLIPとDINOから得られる多粒度特徴を,言語誘導によって集約する。
    • 粗い特徴から詳細な特徴へと段階的に学習を進め,カメラ姿勢情報とピクセルレベルでの言語アライメントを用いて深度予測を洗練させる。
    • KITTIベンチマークにおいて,既存の最先端手法を凌駕する性能を示し,BEV知覚などの下流タスクにも貢献する。

    Link: https://arxiv.org/abs/2510.09320

  • 半教師あり病理画像におけるインスタンス認識型ロバスト整合性正則化 [cs.CV]目的:病理画像の核インスタンスセグメンテーションの精度向上
    • 腫瘍微小環境解析など,病理診断の精度向上に不可欠な技術である。
    • 高品質なアノテーションデータの取得コストが高く,データ不足が課題となっている。
    • インスタンスレベルでの整合性正則化と,病理構造の事前知識活用によるセグメンテーション精度の向上を目指す。
    • 提案手法(IRCR-Net)は,教師モデルと生徒モデル間の整合性を高めるMIACおよびPIACメカニズムを導入し,核インスタンスセグメンテーションを改善する。
    • 核の形態的特徴を事前知識として活用し,低品質な疑似ラベルを除去することで,ノイズを低減し,学習の安定化を図る。
    • 複数の公開データセットにおいて,既存手法や一部の完全教師あり手法を上回る性能を達成した。

    Link: https://arxiv.org/abs/2510.09329

  • ノイズを含むペアワイズ比較からの効率的なベイズ推論 [cs.LG, cs.CV]目的:生成モデルの評価における信頼性向上
    • 生成モデルの評価は重要だが,既存の指標では人間の選好を反映できない場合がある。
    • 人間の評価は信頼性が高いが,コストがかかり,ノイズの影響を受けやすい。
    • 評価者の質を考慮し,ノイズの影響を軽減することで,より堅牢なランキングを実現する。
    • BBQは,評価者の質を明示的にモデル化し,信頼性の低い参加者を適切に処理することで,より迅速な収束を実現する。
    • 不確実性の推定精度が向上し,既存のBradley-Terryモデルと比較して,よりロバストで解釈可能なランキングが得られる。
    • このフレームワークにより,生成モデルの人間による評価をより信頼性が高く,費用対効果の高い方法で実施することが可能となる。

    Link: https://arxiv.org/abs/2510.09333

  • 赤外線視覚の向上:漸進的プロンプト融合ネットワークとベンチマーク [cs.CV]目的:熱赤外線画像強調の性能向上
    • 赤外線画像は,暗闇や悪天候下での視覚情報を得る上で重要であり,様々な分野での応用が期待される。
    • 既存手法は個別の劣化に焦点を当てており,複合的な劣化を同時に処理することが困難である。
    • 本研究では,熱画像化のメカニズムに基づき,複合劣化に対応できる画像強調手法を提案する。
    • 提案手法は,プロンプトペアを融合することで,モデルに劣化に応じた適応的なガイダンスを提供する。
    • また,選択的漸進的訓練メカニズムを導入し,複合的なケースへの対応を段階的に改善することで,画像強調の精度を高めている。
    • 広範な実験により,提案手法が特定の劣化だけでなく,複合的な劣化シーンにおいても優れた性能を発揮することが示された。

    Link: https://arxiv.org/abs/2510.09343

  • WildElder:オンライン動画から収集した中国高齢者音声データセット [cs.SD, eess.AS]目的:中国高齢者音声のデータセットと詳細な手動アノテーション
    • 高齢化社会において,高齢者音声の自動処理技術の重要性は増している。
    • 既存のデータセットは,制御された環境で収録されており,多様性と実用性に欠ける。
    • 本研究は,現実世界での利用を想定した,多様な高齢者音声を活用可能にする。
    • WildElderは,オンライン動画から収集された高齢者音声データセットである。
    • その詳細なアノテーションは,音声認識と話者プロファイリングの研究に貢献する。
    • 実験結果は,高齢者音声認識の難易度と,WildElderの有用性を示唆している。

    Link: https://arxiv.org/abs/2510.09344

  • 視覚言語モデルにおける動的な思考連鎖を用いた多Modalキーフレーズ予測の強化 [cs.CL, cs.CL, cs.CV]目的:多Modalキーフレーズ予測の性能向上
    • テキストのみの手法では限界があり,視覚情報などの多Modal情報を活用することが重要である。
    • 既存手法は,入力情報の欠損や未知の状況への対応が難しいという課題がある。
    • 既存ベンチマークの過大評価問題を修正し,より現実的な性能評価を目指す。
    • 視覚言語モデル(VLM)のゼロショットおよび教師ありファインチューニングによる性能評価を行った。
    • 高品質な思考連鎖(CoT)データを用いてVLMの複雑な推論能力を向上させるFine-tune-CoTを適用した。
    • 動的なCoT戦略により,推論段階で柔軟に推論能力を活用し,「過剰思考」現象に対処した。

    Link: https://arxiv.org/abs/2510.09358

  • BLINK-Twice:あなたは見るか,それとも観察するか?視覚的知覚に関する推論ベンチマーク [cs.CL, cs.CV]目的:視覚的知覚に基づく推論能力の評価
    • 近年,画像と言語を組み合わせた大規模言語モデルが急速に進歩しており,その推論能力の向上が期待されている。
    • 既存の推論ベンチマークは言語ベースの推論に偏っており,視覚情報を単なる文脈として扱う傾向がある。
    • 視覚情報のみから推論を行う能力に焦点を当て,より高度な視覚的観察と分析的推論を評価する。
    • BLINK-Twiceは,従来の視覚知覚ベンチマークよりも高度な,観察に基づいた推論を必要とする。
    • 評価された20の主要なMLLMは,BLINK-Twiceにおいて大きな課題に直面しており,既存の言語ベースの推論戦略では不安定な結果となる。
    • 画像の反復観察や視覚的なインタラクションが性能向上に繋がり,新たな視覚的推論パラダイムの必要性が示唆された。

    Link: https://arxiv.org/abs/2510.09361

  • 動的な都市シーンにおける3Dガウススプラッティングのための視認性を考慮した密度化 [cs.CV]目的:動的な都市シーンにおける3Dガウススプラッティングの幾何構造復元
    • 3Dシーンの表現において,高品質な新規視点合成が重要視されている。
    • 都市環境のような広範囲で動的なシーンでは,初期点群の偏りが課題となっている。
    • 視認性に基づき信頼性の高い幾何学的情報を活用し,欠損構造を復元することを目指す。
    • 提案手法VAD-GSは,視点選択と多視点ステレオ再構成により,初期点群がない領域でもガウスプリミティブを生成できる。
    • WaymoとnuScenesデータセットにおける実験により,VAD-GSは既存の3Dガウススプラッティング手法を上回り,静的・動的オブジェクトの幾何構造の品質を大幅に向上させることが示された。
    • VAD-GSは,視認性に基づいて信頼できない幾何構造を特定し,多様性を考慮した視点選択を行うことで,より正確な復元を実現する。

    Link: https://arxiv.org/abs/2510.09364

  • ミンコフスキー・マンバネット:森林バイオマス定量のための選択的状態空間モデルを用いた点群フレームワーク [cs.CV]目的:森林バイオマス定量
    • 地球温暖化対策として,森林による炭素吸収量の正確な把握が重要である。
    • 点群データから直接,木材体積や地上部バイオマス(AGB)を正確に推定することが困難である。
    • 長距離依存性をモデル化し,木々の識別精度を高めることによって,森林バイオマス定量問題を解決する。
    • ミンコフスキー・マンバネットは,Danish National Forest Inventory LiDARデータにおいて,最先端の手法を上回る性能を示した。
    • 本手法は,デジタル地形モデル(DTM)を必要とせず,境界アーチファクトにも強いという特徴がある。
    • 大規模な森林バイオマス分析のための強力なツールとなり,LiDARに基づく森林調査を前進させる。

    Link: https://arxiv.org/abs/2510.09367

  • 事前学習済みDETRにおける動的疎性活用 [cs.CV]目的:DETRにおける疎性活用
    • Transformerモデルは画像認識で高性能だが,計算コストが高い。
    • DETRのMLP層には潜在的な疎性が存在するが,活用が難しい。
    • 事前学習済みモデルを再学習なしで効率化すること。
    • 本研究では,DETRのMLP層の疎性を活用する2つの手法を提案した。
    • 静的指標ベース疎性化(SIBS)は簡素だが,動的疎性を捉えきれない点が課題。
    • Micro-Gated Sparsification(MGS)は高い疎性化率を達成し,COCOデータセットで性能維持・向上を実現した。

    Link: https://arxiv.org/abs/2510.09380

  • データ可視化コード生成のための曖昧なユーザー目標の特定と対話的な改善 [cs.CL, cs.AI, cs.CV, cs.HC, cs.MA]目的:データ可視化コード生成における曖昧なユーザー目標の特定と改善
    • 人間とAIのコミュニケーションにおいて,共通目標の確立は不可欠である。可視化はデータ分析の重要な要素であり,その自動化が求められている。
    • 自然言語による指示の曖昧さが,期待通りの可視化結果を得る妨げとなる場合がある。既存手法では,曖昧さを十分に捉えられていない。
    • 本研究は,曖昧さの分類と定量化を行い,対話を通じて曖昧さを解消し,コード生成の精度向上を目指す。
    • 曖昧さの種類に関する分類体系を構築し,その定量化のための指標を提案した。
    • 提案指標は,既存の不確実性ベースラインよりも人間の評価との相関性が高いことが示された。
    • Griceの協調原理等のプラグマティックモデルに基づいた対話戦略が,曖昧さの低減とコード精度の向上に貢献することがシミュレーション実験で示された。

    Link: https://arxiv.org/abs/2510.09390

  • 単眼動画からの言語埋め込みガウス点による4Dシーン編集:Mono4DEditor [cs.CV]目的:単眼動画から再構成された4Dシーンに対するテキスト駆動編集
    • コンテンツ制作や仮想環境において,4Dシーン編集の需要が高まっている。
    • 複雑な動的シーンにおいて,局所的な領域の正確な編集と,未編集部分の維持が課題である。
    • 言語埋め込みガウス点を利用し,高精度な局所編集を実現する手法を開発すること。
    • Mono4DEditorは,3Dガウスに量子化されたCLIP特徴を付加することで,効率的な意味的検索を可能にした。
    • 提案手法は,CLIP類似度に基づいた候補ガウス選択と,空間範囲の精度向上により,編集の正確性を高めた。
    • 多様なシーンや物体に対して高品質なテキスト駆動編集を実現し,既存手法を上回る柔軟性と視覚的忠実度を示した。

    Link: https://arxiv.org/abs/2510.09438

  • 動的重みベースの時間集約による低照度ビデオの画質向上 [cs.CV]目的:低照度ビデオの画質向上手法
    • ビデオの活用範囲拡大のため,低照度環境下での高画質化技術が重要である。
    • 既存手法では,ノイズが多く,時間情報を効果的に活用できていないという課題がある。
    • 時間情報を活用し,ノイズ抑制と画質向上を両立させることを目指す。
    • 提案手法DWTA-Netは,短期・長期の時間的特徴を統合的に活用する二段階フレームワークである。
    • Visual State-Spaceブロックを用いてフレーム間の整合性を高め,明るさ,色,構造を復元する。
    • 動的光学フローに基づいた動的重みベースの時間集約により,静的領域と動的領域のバランスを適応的に調整する。

    Link: https://arxiv.org/abs/2510.09450

  • SilvaScenes:自然林における林床画像からの樹木セグメンテーションと樹種分類 [cs.CV, cs.AI, cs.LG, cs.RO]目的:自然林における林床画像からの樹木セグメンテーションと樹種分類のためのデータセット
    • 森林管理におけるロボット技術への関心が高まっているが,複雑な自然環境での知覚が課題となっている。
    • 既存のデータセットは都市環境に焦点を当てているか,対象樹種が限られており,精緻な樹種分類システムの開発を阻害している。
    • 本研究は,多様な樹種を含む自然林における樹木セグメンテーションと樹種分類のためのデータセットを提供し,課題解決を目指す。
    • SilvaScenesは,カナダ・ケベック州の5つのバイオクライメート領域で収集された1476本の樹木(24種)を含むデータセットである。
    • 樹木のセグメンテーションは比較的容易であるが(mAP 67.65%),樹種分類は依然として困難である(mAP 35.69%)ことが示された。
    • データセットとソースコードは公開されており,今後の森林管理技術開発に貢献することが期待される。

    Link: https://arxiv.org/abs/2510.09458

  • D-TPT:視覚言語モデルにおけるテスト時プロンプトチューニングのキャリブレーションのための次元エントロピー最大化 [cs.CV, cs.LG]目的:視覚言語モデルにおけるテスト時プロンプトチューニングのキャリブレーション改善
    • 視覚言語モデルは多様なタスクに対応可能であり,その汎化能力が重要視されている。
    • テスト時プロンプトチューニングでは,キャリブレーション性能の低下が課題となっている。
    • モーダル間の特徴量の依存性を軽減し,キャリブレーション性能を向上させることを目指す。
    • 対照的な視覚言語モデルにおいて,モーダル間の単一の支配的な特徴次元によって生じるギャップを特定した。
    • 支配的な次元の影響を抑制することで,キャリブレーションエラーを改善できることを示した。
    • 次元エントロピー最大化により,テキスト特徴量の分布を均一化し,テスト時プロンプトチューニングのキャリブレーション性能を向上させた。

    Link: https://arxiv.org/abs/2510.09473

  • LoRAを用いたスタイル一貫性のあるキャラクター生成のための少数ショット多トークンDreamBooth [cs.CV, cs.LG]目的:スタイルと共有視覚的特徴を維持した,新規キャラクターの無制限生成
    • 映像産業はAI技術を取り入れ変化しており,新たな表現手法の創出が期待される。
    • 少数精度のデータでキャラクターの詳細を捉え,スタイルを維持することが困難である。
    • 参照キャラクターのスタイルを維持しつつ,多様なキャラクターを生成する。
    • 提案手法は,参照キャラクターの独特な美学特徴を維持しつつ,高品質で多様なキャラクターを生成できる。
    • 多トークン戦略とLoRAによるパラメータ効率的なファインチューニングが,その有効性を支えている。
    • 人間による評価も,提案手法の有効性と可能性を示唆する結果となった。

    Link: https://arxiv.org/abs/2510.09475

  • 屋外シーン再構成のための二段階ガウススプラッティング最適化 [cs.GR]目的:屋外シーン再構成における高精度な新規視点合成
    • 屋外シーンの再構成は,実世界での応用において不可欠であり,その重要性は高い。
    • 遠景の低詳細度,不均一な照明,空の影響により,屋外シーンの再構成は困難である。
    • 近景と遠景の差異を考慮し,より高品質な再構成を実現する。
    • 提案手法は,背景と前景を分離・最適化することで,背景のアーティファクトを削減した。
    • 実験結果から,提案手法は最先端手法と比較して,知覚的な品質が向上することが示された。
    • 背景分離により,自動的なオブジェクトフリー環境マップ推定が可能となった。

    Link: https://arxiv.org/abs/2510.09489

  • 臨床に基づいたインタラクティブセグメンテーション評価手法 [cs.CV, cs.AI, cs.LG]目的:インタラクティブセグメンテーション評価の標準化
    • 医療画像セグメンテーションは,診断・治療計画において不可欠であり,その精度向上が求められている。
    • 既存の評価方法は一貫性がなく,臨床現場での現実的な状況を反映していないため,アルゴリズムの性能を正確に評価できない。
    • 臨床的に妥当な評価タスクと指標を定義し,客観的な性能比較を可能にすることを目指す。
    • ユーザーインタラクションの情報の損失を最小化することが,モデルの頑健性に重要であることが示された。
    • 適応的なズーム機構は,頑健性を高め,収束を加速させる効果が確認された。
    • 検証時のプロンプト行動や予算が学習時と異なると,性能が低下する傾向が明らかになった。

    Link: https://arxiv.org/abs/2510.09499

  • PhysToolBench:MLLMにおける物理的道具の理解に関するベンチマーク [cs.HC, cs.CV, cs.RO]目的:MLLMにおける物理的道具の理解度評価
    • 人間知能の本質は道具の使用・理解・創造にあり,汎用的な知能エージェントには不可欠である。
    • 既存のMLLMは知識を活用するが,物理的道具に対する真の理解度が定量的に評価されていない。
    • MLLMの物理的道具に対する理解能力を評価し,その課題を明らかにすることを目的とする。
    • 本研究で開発したPhysToolBenchは,MLLMの物理的道具理解度を評価する初のベンチマークである。
    • 32のMLLMを評価した結果,道具の理解において顕著な不足が認められた。
    • 詳細な分析と解決策の提案を行い,今後の研究の方向性を示唆した。

    Link: https://arxiv.org/abs/2510.09507

  • サムスン画像の斜め方向のアーティファクト:PRNUの課題と解決策 [cs.CV]目的:サムスン製スマートフォンの画像に現れる斜め方向のアーティファクトとそのPRNUベースのカメラソース検証への影響
    • デジタルフォレンジックにおいて,カメラの特定は重要な証拠となりうるため,その検証技術の信頼性は不可欠である。
    • スマートフォン画像では,画像処理によるアーティファクトが検証精度を低下させる可能性がある。
    • 本研究は,サムスン製スマートフォンの斜め方向のアーティファクトがPRNU検証に与える影響を明らかにし,その対策を提案する。
    • 特定のGalaxy Sシリーズ機種間で,フィンガープリントの衝突を引き起こす共通パターンが確認された。
    • PROモードでRAW画像を取得できる機種では,アーティファクトの影響を受けないため,信頼性の高いPRNU検証が可能である。
    • 斜め方向のアーティファクトは,HDR画像における誤検出の削減やポートレートモードでの合成ボケの影響範囲特定など,フォレンジック応用の可能性を示す。

    Link: https://arxiv.org/abs/2510.09509

  • 顕著性に基づくスペクトログラムマスクによるアクセント不変自動音声認識 [cs.HC, cs.CL, cs.CL, cs.RO, cs.CL, cs.SD, eess.AS]目的:アクセントと方言の分類を音声認識パイプラインに組み込むこと
    • 音声認識技術は,多様な言語環境においてコミュニケーションを円滑にする上で不可欠である。
    • 既存の音声認識モデルは,アクセントや方言の変化に弱く,認識精度が低下する課題がある。
    • アクセントや方言に依存しない,よりロバストな音声認識システムの開発を目指す。
    • 提案手法では,アクセントに特有な情報を捉えるスペクトログラム分類器を訓練し,マスク処理とデータ拡張を行う。
    • ペルシア語のスピーチデータセットを新たに収集し,ペルシア語のアクセント変動に関するベンチマークを確立した。
    • Whisperモデルを用いた実験により,英語とペルシア語の両方で単語誤り率が大幅に減少することを確認した。

    Link: https://arxiv.org/abs/2510.09528

  • PRNet:元情報こそが全てである [cs.CV]目的:航空画像における小物体検出の精度向上
    • 航空画像分析は,インフラ点検や災害状況把握などに応用され,社会課題の解決に貢献する。
    • 小物体検出では,特徴抽出時の情報劣化が課題であり,誤検出や見逃しが発生しやすい。
    • 本研究は,初期の空間情報を維持し活用することで,小物体検出の精度を高めることを目指す。
    • PRNetは,バックボーンの再利用と反復的な改良により,空間情報と意味情報の整合性を高めるProgressive Refinement Neck (PRN) を提案する。
    • PRNetは,ダウンサンプリング時の浅い情報の損失を防ぐEnhanced SliceSamp (ESSamp) を導入する。
    • VisDrone,AI-TOD,UAVDTデータセットにおける実験により,PRNetが既存手法を上回り,精度と効率のバランスに優れることが示された。

    Link: https://arxiv.org/abs/2510.09531

  • FLOWING:構造を保存したモーフィングのための暗黙的ニューラルフロー [cs.CL, cs.CV]目的:構造を保存したモーフィングのための暗黙的ニューラルフローの構築
    • モーフィングは,画像処理とコンピュータグラフィックスにおける重要な課題であり,特徴量のアライメントとスムーズな補間が求められる。
    • 従来のMLPを用いたモーフィングでは,安定した学習と効果的な特徴量アライメントが困難な場合がある。
    • 構造を保存しつつ,高精度で効率的なモーフィングを実現すること。
    • FLOWINGは,モーフィングを微分ベクトルフローの構築として再構築することで,連続性,可逆性,時間的な一貫性を自然に保証する。
    • このフロー中心のアプローチにより,2D画像と3D形状の両方において,構造を保存した正確なモーフィングが可能となる。
    • 様々なアプリケーションでの実験により,FLOWINGが最先端のモーフィング品質と高速な収束を実現することが示された。

    Link: https://arxiv.org/abs/2510.09537

  • TC-LoRA:時間的変調条件付きLoRAによる適応拡散制御 [cs.CL, cs.HC, q-bio.QM, cs.CL, cs.CL, cs.IR, cs.CL, cs.CV]目的:適応拡散制御のための新たな手法
    • 拡散モデルは高品質な画像生成が可能だが,制御が難しい。
    • 既存手法は固定された構造で条件を注入するため,生成段階に応じた適応性が低い。
    • 生成過程全体で条件に応じた動的な重み調整を実現し,制御性能を向上させる。
    • TC-LoRAは,時間や条件に応じてLoRAアダプターを動的に生成することで,モデルの重みを直接制御する。
    • 実験の結果,TC-LoRAは静的な活性化ベースの手法と比較して,生成の忠実度と空間条件への適合性が大幅に向上した。
    • モデルの重み調整を通じて条件付け戦略を変化させることで,タスクと生成段階の要求に合致した制御が可能となる。

    Link: https://arxiv.org/abs/2510.09561

  • 擬似触覚フィードバックの差異分析:心理物理学的評価のための視覚・聴覚的キュー統合に関する新規比較研究 [cs.HC, cs.GR, cs.NE, cs.RO, physics.med-ph]目的:視覚および聴覚的刺激の組み合わせによる擬似触覚圧感覚の誘発機構の定量化
    • 触覚技術は,VR/AR体験のリアリティ向上や,遠隔操作の臨場感付与に不可欠である。
    • 従来の触覚ハードウェアは高価であり,小型化も困難であるため,手軽な代替手段が求められている。
    • 低コストで擬似触覚を実現し,リハビリや訓練シミュレーターへの応用可能性を探る。
    • 視覚と聴覚の刺激強度が増加すると,平均的な触覚力も系統的に増加した。
    • 高周波の音と高密度な視覚テクスチャは,より強い筋活動を引き起こし,相乗効果により表面変化の知覚に必要な力を減少させた。
    • 安価なデバイスでも,特殊なアクチュエーターなしで,段階的な擬似触覚フィードバックを信頼性高く誘導・測定できることが示された。

    Link: https://arxiv.org/abs/2510.09570

  • ダイナマインド:経験からのシミュレーション学習によるAIエージェントの性能向上 [cs.RO, cs.CL, cs.AI, cs.CV]目的:AIエージェントのシミュレーション能力の向上
    • AIは数学やコーディングで進歩したが,ウェブナビゲーションなどインタラクティブなタスクでは課題が残る。
    • 複雑な環境で,AIエージェントが行動前に将来を予測する能力が不足している。
    • 人間の認知にヒントを得て,AIエージェントに仮想的な試行錯誤を学習させる。
    • 提案手法ReSimは,実際の環境との相互作用から得られた経験に基づき,AIエージェントにシミュレーション能力を効果的に組み込む。
    • Dyna-GRPOは,結果報酬と中間状態を活用することで,長期的な計画が必要なタスクにおいて,より優れたポリシーを学習する。
    • シミュレーションが,AIエージェントがより効果的に推論,計画,行動するために中心的な役割を果たすことが示された。

    Link: https://arxiv.org/abs/2510.09577

  • FSP-DETR:少サンプル原型寄生虫卵検出 [cs.CV]目的:少サンプル学習による寄生虫卵検出の実現
    • 生体医科学分野では,ラベル付きデータ不足と新規・稀有なカテゴリーの頻出が課題である。
    • 既存手法は,少数サンプル学習,未見クラス認識,タスク適応を個別に扱っている。
    • 少ないラベルデータで,未知のクラスも検出可能な汎用的なモデルを構築すること。
    • FSP-DETRは,クラス非依存なDETRバックボーン上に原型を構築し,軽量なTransformerデコーダーで学習を行う。
    • 原型マッチング損失,アライメント分離損失,KLダイバージェンス正則化を共同最適化し,特徴学習とキャリブレーションを改善。
    • 寄生虫卵,血球,マラリア検出タスクにおいて,既存の少数サンプル学習法や原型ベース検出法を大幅に上回る性能を示した。

    Link: https://arxiv.org/abs/2510.09583

  • ビジョン言語モデル:26,000件の論文の調査 [cs.SI, cs.CY, cs.CV]目的:ビジョン言語モデル研究の動向分析
    • 近年,画像と言語を組み合わせた研究が急速に進んでおり,AI分野において重要な位置を占めている。
    • 研究の急増に伴い,広範な論文の中から有用な情報を効率的に抽出することが課題となっている。
    • 大量の論文を分析し,研究のトレンドや将来の方向性を明らかにすることを目的とする。
    • 2023年から2025年にかけてのCVPR,ICLR,NeurIPSの論文を分析した結果,マルチモーダルなビジョン言語モデルの研究が急増している。
    • 生成モデルの研究は制御可能性,蒸留,高速化を中心に発展しており,3Dや動画の研究も活発である。
    • パラメータ効率の良い適応や軽量なビジョン言語ブリッジが主流であり,事前学習済みモデルの微調整が一般的になっている。

    Link: https://arxiv.org/abs/2510.09586

  • 構造を意識した統計的ウィンドウマージによる時間的系列要約 (STaTS) [cs.CL, cs.LG, cs.CV]目的:時間的系列データの効率的な要約
    • 時系列データは,様々な分野で観測され,その分析は重要性が高い。
    • 従来のモデルは,全ての時間ステップを均等に扱うため,長系列やノイズに弱い。
    • 時系列データの潜在的な構造を考慮し,効率的な要約を実現することを目指す。
    • STaTSは,時系列データをコンパクトなトークン系列に圧縮する軽量なフレームワークである。
    • BICに基づく統計的収束判定基準を用いて変化点を検出し,各セグメントを要約する。
    • 実験により,STaTSは高い性能を維持しつつ計算コストを大幅に削減できることが示された。

    Link: https://arxiv.org/abs/2510.09593

  • SpaceVista: ミリメートルからキロメートルまでの全スケール視覚空間推論 [cs.HC, cs.CV]目的:全スケール空間推論の実現
    • ロボティクスや自動運転など,様々な応用分野において空間推論能力は不可欠である。
    • 既存研究は屋内3Dスキャンに依存し,データセット作成に労力がかかるという課題がある。
    • 様々なシナリオにおける全スケール空間推論の精度向上を目指す。
    • 本研究では,構造化された空間推論知識システム,スケールを意識したモデリング,漸進的学習パラダイムを統合した。
    • SpaceVista-1Mという,約100万組の空間QAペアを含む新しいデータセットを構築した。
    • SpaceVista-7Bモデルは,5つのベンチマークで競争力のある性能を示し,全スケールおよび様々なシナリオでの高い汎化能力を実証した。

    Link: https://arxiv.org/abs/2510.09606

  • VITA-VLA:行動専門家蒸留によるビジョン言語モデルへの効率的な行動学習 [cs.CV]目的:ビジョン言語モデルによる行動実行能力の獲得
    • ロボットの操作において,事前学習済みのビジョン言語モデルの活用が重要視されている。
    • VLAモデルのゼロから学習は,計算コストが非常に高いという課題がある。
    • 本研究は,小規模な行動モデルからの知識蒸留により,効率的なVLAモデルの学習を目指す。
    • 提案手法は,事前学習済みのビジョン言語モデルの構造を維持しつつ,行動トークンと状態エンコーダを追加する。
    • LIBEROおよびLIBERO-LONGの実験において,既存手法を大幅に上回る成功率を達成した(それぞれ11.8%,24.5%の改善)。
    • 実世界の五つの操作タスクにおいても,教師モデルを上回り,82.0%の成功率を達成した(17%の改善)。

    Link: https://arxiv.org/abs/2510.09607

  • ストリーミングVLM:無限ビデオストリームのリアルタイム理解 [cs.CV, cs.AI, cs.CL]目的:無限ビデオストリームのリアルタイムかつ安定的な理解
    • ビジョン言語モデルはリアルタイムアシスタントや自律エージェントの基盤となり得るが,計算資源が課題である。
    • 従来のVLMは,長い動画を処理する際に計算コストが増大し,遅延が発生しやすい。
    • 効率的な状態再利用により,リアルタイムかつ安定的な動画理解を実現する。
    • StreamingVLMは,アテンションシンクの状態再利用により,コンパクトなKVキャッシュを維持する。
    • Inf-Streams-Evalベンチマークにおいて,GPT-4O miniに対して66.18%の勝率を達成し,最大8FPSで安定したリアルタイム性能を示した。
    • 短いオーバーラップ動画チャンクに対するSFT戦略は,VQA能力も向上させ,LongVideoBenchで+4.30,OVOBench Realtimeで+5.96の改善が見られた。

    Link: https://arxiv.org/abs/2510.09608

  • 深層多次元空間クラスタリングネットワーク [cs.LG, cs.AI, cs.CV, stat.ML]目的:多次元空間クラスタリング手法
    • 近年,画像やテキストなど複数のモダリティデータを統合的に扱う研究が重要視されている。
    • 既存手法では,複数のモダリティ間の関係性を十分に活用できていない場合がある。
    • 本研究では,深層学習を用いて多次元空間におけるクラスタリング精度を向上させる。
    • 提案手法では,多次元データをエンコーダで潜在空間に変換し,自己表現層で類似度行列を学習する。
    • 異なる融合手法(early, late, intermediate)を検討し,空間融合に基づく3種類のエンコーダを提案している。
    • 3つのデータセットによる実験の結果,提案手法は既存の最先端手法を大幅に上回る性能を示した。

    Link: https://arxiv.org/abs/1804.06498

  • 単一モダリティ動的手話認識の性能を,マルチモーダル学習によって向上させる [cs.CV, cs.AI, cs.HC, cs.LG, stat.ML]目的:単一モダリティ3D畳み込みニューラルネットワークの動的手話認識における性能向上
    • 人機インタフェースの発展において,自然な手話認識は重要な役割を担う。
    • 既存手法では,マルチモーダル情報を明示的に組み合わせるため,計算コストが高い。
    • 異なるモダリティ間の知識を個々のネットワークに埋め込み,単一モダリティでの認識精度向上を目指す。
    • 提案手法は,各モダリティのネットワーク間で共通のセマンティクスを学習させ,特徴表現を改善する。
    • 新たに「時空間セマンティックアライメント」損失関数と「焦点正則化パラメータ」を導入し,負の知識伝達を抑制。
    • 実験結果から,提案手法が単一モダリティネットワークの認識精度を向上させ,最先端の性能を達成することが示された。

    Link: https://arxiv.org/abs/1812.06145

  • 深層スパース表現に基づく分類 [cs.CV, cs.AI, cs.LG, stat.ML]目的:スパース表現に基づく分類手法の深層学習化
    • 画像認識などの分野で,特徴抽出の重要性が増しており,高性能な特徴表現が求められている。
    • 従来のスパース表現に基づく分類法は,特徴表現の学習能力に限界があった。
    • 深層学習を用いてロバストな特徴表現を獲得し,分類性能の向上を目指す。
    • 提案手法は,畳み込みオートエンコーダと全結合層を組み合わせたネットワーク構成である。
    • 実験の結果,提案手法は既存のスパース表現に基づく分類法よりも高い分類性能を達成した。
    • 深層特徴表現とスパース表現を組み合わせることで,分類精度が向上することが示された。

    Link: https://arxiv.org/abs/1904.11093

  • グラフ誘導バイ・スキャニングマンバを用いた単一視点3D手形状再構成 [cs.CV, cs.RO]目的:単一視点画像からの3D手形状再構成
    • 人間とロボットのインタラクションにおいて,正確な手形状の理解は不可欠である。
    • 関節間の空間関係のモデル化が不十分であり,ロバストかつ正確な再構成が困難である。
    • グラフ学習と状態空間モデルを組み合わせ,空間関係を効率的に学習することで再構成精度を向上させる。
    • 提案手法Hambaは,グラフ誘導バイ・スキャニングマンバを用いて関節間の空間関係を効果的に学習する。
    • 既存の最先端手法と比較して,Hambaは大幅に高い性能を示し,FreiHANDにおいてPA-MPVPE 5.3mm,F@15mm 0.992を達成した。
    • 論文受理時点で,3D手形状再構成の競争リーダーボードで2つのランキング1位を獲得している。

    Link: https://arxiv.org/abs/2407.09646

  • Human-VDM:ビデオ拡散モデルからの単一画像3Dヒューマンガウススプラッティング学習 [cs.CY, cs.ET, cs.HC, cs.CV, cs.GR]目的:単一画像からの3Dヒューマン生成
    • コンピュータビジョンにおいて,リアルな3Dヒューマン生成は重要である。人間中心のアプリケーションへの応用が期待される。
    • 既存手法は多視点からの拡散モデルを用いるが,視点間の不整合が高品質な3D生成の妨げとなる。
    • 本研究は,視点一貫性を確保することで,高品質な3Dヒューマン生成を実現することを目指す。
    • 提案手法Human-VDMは,ビデオ拡散モデルとガウススプラッティングを活用し,単一画像から高品質な3Dヒューマンを生成する。
    • 生成される3Dヒューマンは,テクスチャや形状において高解像度かつ滑らかであり,視点間の一貫性も高い。
    • 実験の結果,Human-VDMは最先端手法と比較して,生成品質と品質の双方において優れていることが示された。

    Link: https://arxiv.org/abs/2409.02851

  • 発音器官情報を活用した自動音声認識:補助的な音声逆変換とクロスアテンション融合によるアプローチ [eess.AS, cs.AI, cs.CL, cs.SD]目的:発音器官情報の自動音声認識への統合
    • 音声認識の性能向上には,音声信号以外の付加情報の活用が重要となる。
    • 従来の音声認識では,発音器官情報の活用が浅い層でのモデルに限られていた。
    • 深層学習アーキテクチャにおいて,発音器官情報を効果的に活用する手法を開発する。
    • 提案手法は,強力なTransformerベースのベースラインと比較して一貫した性能向上を示した。
    • 特に,低リソース環境下においてその効果が顕著であった。
    • 発音器官情報は,現代的なアーキテクチャと組み合わせることで,音声認識に有益な情報を提供することが示唆された。

    Link: https://arxiv.org/abs/2510.08585

  • 動的ストレス検出:音声におけるストレスの時間的進行モデリングの研究 [eess.AS, cs.AI, cs.CL, cs.SD]目的:音声におけるストレスの時間的進行のモデリング
    • 高圧環境下での心理的ストレスの検出は重要であり,人の健康や安全に直結するから。
    • 既存研究では,ストレスを静的なラベルとして扱うことが多く,時間的な変化が考慮されていない。
    • ストレスの時間的な進行を捉え,より正確なストレス検出を実現すること。
    • 提案手法は,MuSEデータセットで5%,StressIDデータセットで18%の精度向上を達成した。
    • クロスアテンションに基づくシーケンスモデルが,ストレスの時間的進行を効果的に捉えていることが示された。
    • 本研究は,ストレスを動的な構成要素としてモデリングすることの価値を強調する。

    Link: https://arxiv.org/abs/2510.08586

  • BaldWhisper:ヘッドシェアリングとレイヤーマージによる高速Whisper [eess.AS, cs.AI, cs.CL, cs.SD]目的:低リソース言語向けTransformerの軽量化・高速化
    • 音声認識技術は,多様な言語でのコミュニケーションを可能にする重要な技術である。
    • 低リソース言語では,十分な再学習データがないため,モデルの軽量化が困難である。
    • 少ないデータでWhisperモデルを軽量化し,エッジデバイスでの利用を可能にすること。
    • Bambara語(32時間データ)において,埋め込み層の低ランク分解と特徴蒸留,レイヤーマージを適用した。
    • 元の性能の90%を維持しつつ,モデルサイズを48%削減,MacBook Air M1上で2.15倍高速化した。
    • 語彙プルーニングではなく,コードスイッチングに対応可能な手法を選択した。

    Link: https://arxiv.org/abs/2510.08599

  • 書き起こし前の視覚的確認:視覚的に固定された方策最適化によるEnd-to-End SlideASR [eess.AS, cs.CV, cs.SD]目的:プレゼンテーションスライドの視覚情報を活用した書き起こし精度の向上
    • 専門用語が多い学術講義など,特定の分野では自動音声認識の性能が課題となる。
    • 既存のパイプライン方式は複雑で,十分な性能を発揮できない場合がある。
    • 大規模言語モデルがOCRに偏る問題を解決し,視覚情報に基づいた推論を促す。
    • 提案手法VAPOは,「視覚的確認→書き起こし」の構造化された推論プロセスを強化学習で最適化する。
    • VAPOは,書式適合性,OCR精度,ASR品質,視覚的固定の一貫性に基づいた報酬を用いて性能を向上させる。
    • 実験結果から,VAPOが専門用語の認識精度を大幅に改善し,SlideASRの有効なEnd-to-Endパラダイムを確立することが示された。

    Link: https://arxiv.org/abs/2510.08618

  • 相互絡み合った動的XCT再構成における空間・時間的陰性ニューラル表現 [physics.ed-ph, cs.CY, math.PR, cs.SI, math.CO, math.ST, physics.soc-ph, stat.TH, eess.IV, cond-mat.mtrl-sci, cs.CV]目的:相互絡み合った撮像スキーム下での動的X線コンピューター断層撮影(XCT)再構成法
    • 医療診断や非破壊検査において,高速かつ高精度なXCT画像再構成が求められている。
    • 従来の反復法では,計算コストが高く,ノイズやアーチファクトの影響を受けやすいという課題がある。
    • 陰性ニューラル表現の誘導バイアスを活用し,ノイズロバスト性と再構成速度の向上を目指す。
    • 提案手法は,様々な撮像条件下で優れた性能を示し,最先端のTIMBIRを上回った。
    • 特に,INRの誘導バイアスが中程度のノイズレベルに対して有効であり,重み付き最小二乗データ忠実度項の導入により,より困難な条件下での性能が向上した。
    • 検出器の非理想性をモデル化し,リングアーチファクト補正を再構成プロセスに直接組み込むことで,実用的な再構成フレームワークへの拡張可能性を示した。

    Link: https://arxiv.org/abs/2510.08641

  • 漸進的確信度誘導エビデンシャルU-KANによる信頼性の高い医用画像セグメンテーション [eess.IV, cs.CV]目的:信頼性の高い医用画像セグメンテーションの実現
    • 臨床判断において,正確かつ信頼性のある医用画像セグメンテーションは不可欠である。
    • 既存手法は,曖昧な境界のセグメンテーションにおいて不確実性マップの活用が不十分である。
    • 曖昧な領域における特徴表現学習を改善し,より正確なセグメンテーションを目指す。
    • 提案手法は,漸進的な確信度誘導と低ランク学習を組み合わせることで,困難な領域における特徴学習を強化する。
    • 意味を保持するエビデンス学習戦略により,曖昧な領域における不確実性の評価を改善する。
    • 4つのデータセットにおける実験で,最先端手法と比較して高い精度と信頼性を示すことが確認された。

    Link: https://arxiv.org/abs/2510.08949

  • FS-RWKV:周波数空間認識型RWKVを用いた3Tから7T MRI画像変換 [eess.IV, cs.CV]目的:3T MRI画像から7T MRI画像を生成する手法
    • 7T MRIは高解像度かつ組織コントラストに優れるため,神経疾患の微細な病理変化検出に有用である。
    • 7T MRIスキャナは高価で設置・運用が難しいため,普及が課題となっている。
    • 3T MRIから7T MRI画像を生成することで,7T MRIの利用可能性を向上させることを目指す。
    • 提案手法FS-RWKVは,既存のCNN,Transformer,GAN,RWKVベースの手法と比較して,UNCおよびBNUデータセットにおいて優れた性能を示した。
    • 特に,解剖学的構造の忠実性と知覚的品質において,FS-RWKVは既存手法を上回る結果が得られた。
    • FS-RWKVは,周波数空間情報を活用することで,全体的な組織コントラストと解剖学的詳細の両方を効果的に再現する。

    Link: https://arxiv.org/abs/2510.08951

  • SAM2-3dMed:3D医療画像セグメンテーションのためのSAM2の活用 [eess.IV, cs.CV]目的:3D医療画像セグメンテーションの性能向上
    • 臨床応用において,疾患評価や治療計画の策定には正確な画像セグメンテーションが不可欠である。
    • 動画データ向けに設計されたSAM2を3D医療画像に適用する際,解剖学的連続性と時間的流れの違いが課題となる。
    • 動画モデルを3Dボリュームデータへ適応させるための新たな手法を提案し,セグメンテーション精度を向上させる。
    • 提案手法SAM2-3dMedは,スライス間相対位置予測モジュールと境界検出モジュールを導入することで,3D医療画像セグメンテーションの性能を大幅に向上させた。
    • 肺,脾臓,膵臓の3つのデータセットを用いた実験により,既存の最先端手法と比較して,セグメンテーションの重複度と境界精度において優れた結果が得られた。
    • 本研究は,3D医療画像セグメンテーションの新たなパラダイムを提示し,動画中心の基盤モデルを空間的ボリュームデータへ応用する可能性を示す。

    Link: https://arxiv.org/abs/2510.08967

  • 音声からの教師なし語彙学習は,クラスタリングよりも表現に制限される [eess.AS, cs.CL, cs.SD]目的:音声からの教師なし語彙学習における性能制限要因の特定
    • 音声処理分野において,テキストラベルなしでの単語分割・クラスタリングは重要な課題である。
    • 既存手法では,生成される語彙の精度が十分ではなく,改善の余地がある。
    • 本研究は,語彙学習の性能制限要因を,表現かクラスタリングかの観点から明らかにすることを目指す。
    • 理想的な単語境界下での実験により,性能制限要因が表現にあることが示された。
    • 同一単語タイプにおけるセグメント間の表現の変動性が,クラスタリングよりも大きな影響を与える。
    • グラフクラスタリングと動的時間ワーピングを用いたシステムが,最も高い性能を示した。

    Link: https://arxiv.org/abs/2510.09225

  • 自動車用マイクロホンの周波数特性と騒音条件が音声と自動音声認識品質に与える影響 ― 実験的評価 [eess.AS, cs.SD]目的:自動車用マイクロホンの周波数特性と騒音環境における音声品質および自動音声認識性能の関係性
    • 自動車内通信や自動音声認識の重要性が増しており,高品質な音声入力が不可欠である。
    • 自動車という特殊な環境下では,マイクロホンの設置場所や耐久性などの制約から理想的な周波数特性を実現するのが難しい。
    • マイクロホンの周波数特性が音声品質や自動音声認識性能に及ぼす影響を明らかにすることで,適切なマイクロホン選定に貢献する。
    • 実車内での騒音環境下で実験を行い,マイクロホンの帯域幅と周波数特性が音声品質に与える影響を評価した。
    • 音声品質はETSI規格に基づきS-MOS,N-MOS,G-MOS等の指標を用いて評価され,SNRも併せて分析した。
    • 自動音声認識性能はWERを用いて評価した結果,マイクロホンの周波数特性が音声認識精度に影響を与えることが示唆された。

    Link: https://arxiv.org/abs/2510.09236

  • 脳セグメンテーションにおける再配線:成人脳の事前知識を活用した乳児MRIセグメンテーションの向上 [eess.IV, cs.CV]目的:乳児脳MRIセグメンテーションの性能向上
    • 早期神経発達の研究や神経疾患の診断に,正確な乳児脳MRIセグメンテーションは不可欠である。
    • 乳児の脳構造は発達段階によって変化するため,セグメンテーションは困難であり,高品質なラベル付きデータも不足している。
    • 成人脳の事前知識を活用することで,乳児脳MRIセグメンテーションの精度と汎化性能を向上させる。
    • 本研究では,成人脳MRIセグメンテーションモデルの事前知識を活用するLODiという新しいフレームワークを提案した。
    • 転移学習とドメイン適応戦略により,成人モデルを0-2歳の乳児に適合させ,乳児脳スキャンの解剖学的・画像的な変動に対応した。
    • 提案手法は,内部および外部データセットにおいて,従来の教師あり学習やドメイン固有モデルよりも優れた性能を示した。

    Link: https://arxiv.org/abs/2510.09306

  • 量子三角ベジェ曲線 [math.AT, cs.RO, math.CA, cs.GR, cs.NA, math.NA]目的:量子三角ベジェ曲線の形状制御
    • 曲線・曲面表現は,CAD/CAM,CGなど広範な分野で不可欠な技術である。
    • 従来のベジェ曲線では,形状の制御や評価アルゴリズムに課題が残されている。
    • 量子三角関数を用いたベジェ曲線により,より柔軟な形状制御と効率的な評価を目指す。
    • 量子三角ベジェ曲線の構成に,形状パラメータを持つ三角ベルンシュタイン基底関数を導入した。
    • 基底関数の完全陽性性を検証することで,形状保存特性を解析した。
    • 量子三角ベジェ曲線の評価には,2種類の再帰評価アルゴリズムが利用可能であることを示した。

    Link: https://arxiv.org/abs/2510.09336