arXiv雑要約

画像・音声 - 2026/05/19 公開

  • 指の関節紋認識のための単純なアプローチ:Sobelフィルタと類似度尺度に基づく [cs.CL, cs.CV]目的:指の関節紋認識のための新規手法
    • 生体認証は,セキュリティ分野において重要な役割を担う技術である。
    • 既存の生体認証方式は,複雑な処理や高価な機器を必要とする場合がある。
    • 低コストかつ高速な指の関節紋認識システムの実現を目指す。
    • Sobelフィルタと類似度尺度を用いた単純な前処理手法を提案した。
    • 提案手法は高速な処理と効率的なデータ保存を可能にする。
    • 大規模データセットにおいて,17.02%の認識成功率を達成した。

    Link: https://arxiv.org/abs/2605.17673

  • 占有予測と経路計画のためのガウス進化モデル [cs.RO, cs.CV]目的:占有予測および経路計画のためのガウス進化モデルの提案
    • 自動運転において,周囲の状況を予測し安全に走行するための重要な技術である。
    • 既存のモデルは,時間分解能が低く,長時間の予測で誤差が蓄積しやすい。
    • 連続的な時間ダイナミクスを捉え,柔軟かつ高精度な予測を可能にすることを目指す。
    • 提案手法GEMは,シーンをガウス分布の集合として表現し,非自己回帰的に占有を予測する。
    • GEMは,従来のモデルと比較して,予測精度と計算効率の両面で優れた性能を発揮する。
    • また,予測されたシーンの解釈可能性も高く,経路計画にも応用可能である。

    Link: https://arxiv.org/abs/2605.17682

  • 注意誘導による1Dと2D CNNの融合:堅牢な心電図ベースの生体認証 [cs.CV, cs.AI, cs.CR, cs.SY, eess.SP, eess.SY]目的:心電図に基づく生体認証の精度向上
    • 生体認証は,セキュリティと利便性の両立に不可欠であり,様々な分野で活用が期待されている。
    • 既存手法は,時間的特徴と周波数的特徴を別々に処理するため,その潜在能力を十分に引き出せていない。
    • 時間的・周波数的特徴を効果的に融合し,より堅牢で汎用性の高い生体認証システムの構築を目指す。
    • 提案手法は,ECG-ID,MIT-BIH,PTBの各ベンチマークデータセットにおいて,それぞれ99.56%,100.00%,99.89%の識別精度を達成した。
    • 10年間にわたるHeartprintデータセットを用いた実験では,セッション内精度が94.93%~99.09%と高い結果を示し,時間的な安定性も確認された。
    • InceptionTimeとResNet-34を組み合わせた構成と,注意機構に基づく融合が最適な性能を発揮することが示された。

    Link: https://arxiv.org/abs/2605.17685

  • 脳に触発されたスパイクタイミング可塑性による信頼性の高いラベル効率の良いイベントカメラビジョン [cs.CV]目的:イベントカメラを用いた物体検出における,ラベルコストとGPU計算量の削減
    • イベントカメラは,従来のカメラに比べて消費電力が低く,高速な動きの検出に適しているため,ロボット工学などの分野で注目されている。
    • イベントカメラの物体検出には,大量のフレームごとのラベル付けが必要であり,GPUによる計算負荷が高いという課題があった。
    • 本研究では,脳の神経回路網に着想を得たスパイクタイミング依存可塑性(STDP)を用いて,ラベルコストと計算負荷を低減することを目指す。
    • 提案手法は,ラベルなしで53.8%のmAP@30を達成し,約26ビットの学習データで76.9%のmAP@30を達成した。
    • STDPを用いた候補信頼性ゲートは,78.60 +/- 0.42%のmAP@30を達成し,ストリーミングk-meansよりも安定した性能を示した。
    • STDPはモデルの分散を6.6倍低減し,単一の学習ゲートは44個のモデルからなるアンサンブルと同等の性能に達した。

    Link: https://arxiv.org/abs/2605.17686

  • パッチMoE Mamba:医療画像セグメンテーションのためのパッチ順序混合エキスパート状態空間アーキテクチャ [cs.CL, eess.AS, cs.CY, cs.SI, cs.CL, eess.SY, cs.SY, math.DS, cs.NI, cs.CV]目的:医療画像セグメンテーションのためのパッチ順序混合エキスパート状態空間アーキテクチャ
    • 医療画像解析は,疾患診断や治療計画において不可欠であり,高精度なセグメンテーションが求められる。
    • CNNは長距離依存性のモデリングが苦手,Transformerは計算コストが高いという課題があった。
    • Mambaの弱点である局所空間構造の破壊と方向性融合の限界を克服し,セグメンテーション精度向上を目指す。
    • 提案手法Patch-MoE Mambaは,階層的なパッチ順序スキャンとMoEベースの方向性融合モジュールを導入した。
    • パッチ順序スキャンは局所空間構造を維持しつつ,多スケールコンテキストを捉えることを可能にした。
    • 複数の公開データセットにおける実験により,Patch-MoE Mambaの有効性と汎用性が実証された。

    Link: https://arxiv.org/abs/2605.17719

  • GraSP-VL:視覚と言語の表現における意味粒度インターフェースとしての長さ [eess.SY, cs.SY, econ.GN, q-fin.EC, cs.CV]目的:視覚言語表現における意味粒度インターフェースの制御可能性
    • 視覚と言語の理解はAIの重要な課題であり,両者の関連性を高める研究が求められている。
    • 既存の視覚言語モデルは固定長のベクトルで情報を表現するため,意味の細かさの制御が困難である。
    • 凍結された視覚言語モデルの埋め込み表現を再構成し,意味粒度に応じたアクセスを可能にすること。
    • GraSP-VLは,凍結されたVLM埋め込みに対して共有の近直交変換を学習することで,意味粒度インターフェースを実現した。
    • 実験結果から,GraSP-VLはCOCO/Flickr30Kデータセットで高い階段スコアと選択性を示し,空間的なずれを最小限に抑えた。
    • また,SugarCrepe-cleanやCIFAR-100においても高い精度を維持し,凍結されたVLM埋め込みの有効性を実証した。

    Link: https://arxiv.org/abs/2605.17727

  • パンデミックに強い胸部X線分析のためのドメイン増分学習 [cs.CV, cs.AI, cs.LG]目的:パンデミック時の胸部X線分析におけるドメイン適応性向上
    • 医療現場での画像診断の精度向上は,患者の早期発見と適切な治療に不可欠である。
    • 医療機関や撮影条件の違いから,深層学習モデルの汎化性能が制限される場合がある。
    • ドメイン間の知識の継続的な学習を通じて,忘却を抑制し,頑健性を高めることを目指す。
    • 提案手法は,PneumoniaMNISTデータセットにおいて,既存手法を上回る平均精度88.66%を達成した。
    • 特に,ドメインシフトの影響を受けやすい環境下で,安定した肺炎検出性能を示すことが確認された。
    • 本研究は,異なる臨床環境におけるロバストな肺炎検出の実現に貢献する。

    Link: https://arxiv.org/abs/2605.17729

  • 音声プロファイリング:音声ディープフェイク検出のための話者固有の音素フィンガープリント [cs.SD]目的:音声ディープフェイク検出のための話者固有の音素フィンガープリントのプロファイリング
    • 生成AIの進化により,音声の偽造が容易になり,著名人への脅威が増加しているため,その検出技術が重要である。
    • 既存の検出システムは汎用モデルに頼り,話者固有の特徴を捉えきれず,解釈性に欠けるという課題がある。
    • 本研究は,話者固有の音素パターンをモデル化することで,より高精度かつ解釈可能なディープフェイク検出を目指す。
    • 提案手法PVPは,話者固有の音素分布を軽量なGMMを用いてモデル化することで,少ないデータでも効果的なプロファイリングを実現した。
    • PVPは,既存の汎用検出器と比較して,著名人に対するディープフェイク検出において大幅な性能向上を示した。
    • また,PVPは音素レベルでの解釈性を提供し,フォレンジック分析に役立つ。

    Link: https://arxiv.org/abs/2605.17737

  • 不確実性を考慮した時空間点群インタラクションネットワークによる3D自己教師あり手ポーズ推定 [cs.CV, cs.HC]目的:3D手ポーズの自己教師あり推定
    • 3D手ポーズ推定は,VR/ARやジェスチャー認識などに応用され,重要性が増している。
    • 既存手法はノイズに弱く,点群データの空間相関を十分に活用できていない。
    • 不確実性を考慮し,空間相関を捉えることで,安定した学習と高精度な推定を目指す。
    • 提案手法UST-Handは,手ポーズの不確実性分布を推定し,確率的な点群特徴空間を構築する。
    • 条件付き正規化フローモデルを用いて多様な仮説を生成し,ノイズの多い擬似ラベル下での学習を安定化させる。
    • 3つのデータセットで最先端の性能を達成し,平均頂点位置誤差(MPVPE)を最大37.8%改善した。

    Link: https://arxiv.org/abs/2605.17742

  • MoASE++:活性化スパース性エキスパートとドメイン適応型オンポリシー蒸留による継続的テスト時適応 [cs.CV]目的:継続的なテスト時適応における性能向上
    • 視覚環境の変化に対応するAIの重要性が増しているため。
    • 既存手法では,過去の知識の忘却やエラーの蓄積が課題となっている。
    • テクスチャと形状の分離に着想を得て,適応性とロバスト性を両立すること。
    • MoASE++は,活性化スパース性エキスパートとドメイン適応型蒸留を組み合わせることで,エラー蓄積と破滅的忘却を防ぐ。
    • Spatial Differentiable Dropoutや高/低活性化経路により,ドメインに依存しない構造とドメイン固有のテクスチャを分離する。
    • CIFAR-10/100-C,ImageNet-C,Cityscapes→ACDCの実験で最先端の性能を示し,動的な視覚環境への適応において有効性が確認された。

    Link: https://arxiv.org/abs/2605.17743

  • 画像品質評価におけるVision Transformerの潜在能力の解放:グローバル・ローカル適応的相互作用によるアプローチ [cs.CV]目的:画像品質評価における潜在能力
    • 自然環境下の多様な歪みを持つ画像に対する知覚的品質の正確な予測は重要である。人間の視覚特性を反映した評価が求められるため。
    • 主観評価のコストや利用可能なデータセットの規模が限られており,既存手法の拡張性に課題がある。
    • 事前学習済みVision Transformerの効率的な活用により,計算コストを抑えつつ高精度な評価を実現することを目指す。
    • 提案手法GLIAは,グローバル・ローカル二重ストリーム特徴抽出と相互融合により,高い予測精度とロバスト性を実現した。
    • GLIAは,事前学習済みVision Transformerの能力を最大限に引き出し,少ない学習パラメータで優れた性能を発揮する。
    • 複数のベンチマークにおける実験により,GLIAの有効性と優位性が確認された。

    Link: https://arxiv.org/abs/2605.17748

  • FrequencyBooster:高忠実度ピクセル拡散のための全周波数モデリング [cs.CV]目的:高忠実度な画像生成のためのピクセル拡散モデルにおける全周波数モデリング
    • 画像生成技術は,様々な応用分野で重要であり,高品質な画像を効率的に生成することが求められている。
    • 既存のピクセル拡散モデルは,計算効率と高周波詳細の保持のバランスが難しく,高周波情報を抑制する傾向がある。
    • 本研究では,高周波数モデリング能力を備えたピクセル拡散モデルを開発し,高周波情報の損失を防ぐことを目指す。
    • 提案手法FrequencyBoosterは,高容量のデコーダを用いて高周波詳細と低周波セマンティクスを効率的に抽出し,優れた画像生成性能を実現する。
    • ImageNetデータセットを用いた実験により,FrequencyBoosterが$256 \times 256$解像度でFID 1.60を達成し,最先端の性能を示すことが示された。
    • さらに,$512 \times 512$解像度においてもFID 1.69を達成し,既存のピクセル空間および潜在空間生成モデルを大きく上回る結果が得られた。

    Link: https://arxiv.org/abs/2605.17759

  • 潜在UMM:統一マルチモーダルモデルのための二重潜在アラインメント [cs.CV]目的:統一マルチモーダルモデルにおける理解と生成の一貫性向上
    • マルチモーダル研究は,人間のように多様な情報を統合的に理解するAI実現に不可欠である。
    • 既存のUMMは,理解と生成の能力間に機能的な不整合が生じやすいという課題がある。
    • 潜在空間へのマッピング変換のアラインメントを明示化し,モード遷移時の意味ずれを抑制すること。
    • LatentUMMは,共有潜在空間を強化し,モードレベルと容量レベルでの二重潜在アラインメントを導入する。
    • クロスモーダルアラインメントは構造化された意味を課し,双方向容量アラインメントは生成と再符号化の一貫性を強化する。
    • 確率的潜在ロールアウトと嗜好最適化により,意味的一貫性を維持する軌跡を優先し,堅牢性を向上させる。

    Link: https://arxiv.org/abs/2605.17766

  • 普遍的な物理的敵対的攻撃に向けた,結合多目的・多モデル最適化フレームワーク [cs.CV]目的:物理的敵対的攻撃の汎化性能向上
    • 画像認識AIのセキュリティ評価において,物理的攻撃は現実的な脅威となり得るため重要である。
    • 既存の物理的攻撃は特定のモデルに過適合しやすく,異なるモデルへの転移性が低いという課題がある。
    • 複数のモデルと目的関数を統合的に最適化することで,汎化性能の高い攻撃手法を確立することを目指す。
    • 提案手法JMOFは,定量的な類似性分析を用いて最適なモデルアンサンブルを選択し,攻撃の効率と汎化性能を両立する。
    • 勾配の衝突を解決する直交勾配アライメント(OGA)戦略により,異なるモデル間の相乗的な最適化を可能にする。
    • 物体検出とセマンティックセグメンテーションなど,複数の視覚タスクに対する攻撃において,高い汎化性能を示すことが確認された。

    Link: https://arxiv.org/abs/2605.17772

  • PlantPose:木構造制約による植物骨格推定 [cs.CV]目的:植物の骨格構造の推定
    • スマート農業や植物科学において,植物の構造理解は不可欠である。
    • 植物の骨格は形状が多様であり,既存手法では正確な推定が困難である。
    • 画像から任意の木構造グラフを推定する手法を開発し,推定精度を向上させる。
    • 本研究では,学習ベースのグラフ生成と伝統的なグラフアルゴリズムを組み合わせたPlantPoseを提案する。
    • 多様な植物画像データセットを構築し,モデルの汎化性能を高めた。
    • 実験により,提案手法が複数のドメインでロバストかつ正確な植物骨格推定が可能であることを示した。

    Link: https://arxiv.org/abs/2605.17773

  • 効率的な疎-密視覚局所化:コンパクトなガウスシーン表現と高速な密ポーズ推定による [cs.RO, cs.CV]目的:3Dガウススプラッティングに基づく,効率的な視覚局所化手法の開発
    • ロボット工学や拡張現実において,正確かつ高速な位置推定は重要な課題である。
    • 既存手法は,メモリ消費量が大きく,計算コストが高いという問題があった。
    • メモリ効率と計算速度を改善し,低遅延な視覚局所化を実現することを目指す。
    • 提案手法LiteLocは,既存手法STDLocと比較して,メモリ使用量を大幅に削減し,計算速度を向上させた。
    • カラーフィールドを排除し,タスクに不可欠な特徴属性のみを保持することで,ガウスシーン表現をコンパクト化した。
    • 密なPnPソルバーのボトルネックを解消するため,代表的なマッチのみを抽出する凝縮戦略を導入し,高速化を実現した。

    Link: https://arxiv.org/abs/2605.17777

  • ネットワーク知識事前ガイドによるデータ効率的な表面欠陥検出 [cs.CV]目的:データ効率的な表面欠陥検出手法
    • 産業界における品質管理において,欠陥検出は不可欠であり,自動化のニーズが高まっている。
    • 深層学習は高性能だが,大量のデータが必要であり,解釈性の低さが課題となっている。
    • モデルの性能と解釈性の両立を目指し,少ないデータでも頑健な特徴表現を獲得する。
    • 提案手法は,既存のモデルの精度と平均適合率(AP)を向上させることを複数の公開データセットで示した。
    • 生成されたサリエンシーマップは,より集中しており,人間にとって解釈しやすいことが視覚的分析から明らかになった。
    • 本研究は,モデルの性能と解釈性のギャップを埋める簡潔で効果的な方法を提供する。

    Link: https://arxiv.org/abs/2605.17780

  • 精度だけでは不十分:ノイズありラベル学習と分布外検出における不確実性崩壊 [cs.LG, cs.CV]目的:ノイズありラベル学習と分布外検出における不確実性崩壊の検証
    • 現実世界のデータにはノイズが多く,機械学習モデルの性能に影響を与えるため,ノイズに強い学習方法が重要である。
    • ノイズありラベル学習は分類精度を重視する傾向があるが,分布外データの識別性能は必ずしも向上しないという課題がある。
    • 高精度なノイズありラベル学習モデルが,分布外データの識別において問題を抱える根本原因を特定し,改善策を提案する。
    • ノイズありラベル学習モデルは高い分類精度を示しながらも,分布外データの識別において信頼性が低い場合があることが示された。
    • この現象は,誤分類されたデータと分布外データの間でスコアや特徴空間が重なり合う「不確実性崩壊」と呼ばれる構造的な問題が原因であることが明らかになった。
    • 仮想マージン正則化(VMR)は,この崩壊による分布外データ識別失敗を部分的に軽減し,分類精度を維持できることが確認された。

    Link: https://arxiv.org/abs/2605.17795

  • 長尾分布におけるOOD検出に複雑な学習は必要か:特徴幾何学からの再検討 [cs.CV, cs.LG]目的:長尾分布OOD検出における検出性能の向上
    • 機械学習モデルの信頼性評価において,未知のデータに対する検出能力は重要である。
    • 長尾分布データに対するOOD検出は,少数クラスの識別が困難である。
    • 既存手法が複雑化している中で,単純な手法による性能改善を目指す。
    • 凍結された長尾分布の表現が持つOODに関する有用な情報を活用する手法を提案。
    • Hyperspherical Pooled Mahalanobis (HPM)により,マハラノビス距離の歪みを軽減し,検出精度を向上。
    • PC-ERMとHPMの組み合わせにより,CIFAR-10-LTとCIFAR-100-LTで高いAUROCとLog Efficiency Score (LES)を達成。

    Link: https://arxiv.org/abs/2605.17799

  • カリキュラムグループポリシー最適化:テキスト画像生成の潜在能力を引き出すための適応的サンプリング [cs.CV, cs.AI]目的:テキスト画像生成における効率的な学習戦略
    • 近年のテキスト画像生成技術の目覚ましい進歩とその応用範囲の拡大。
    • 従来の訓練における一様サンプリングが,モデルの学習能力とサンプル難易度のミスマッチを引き起こし,効率低下を招く。
    • モデルの学習能力に合わせたプロンプトの優先度付けによる,学習効率の向上。
    • 提案手法CGPOは,報酬の分散を用いてプロンプトの一貫性のオンラインプロキシを計算し,学習効果の高いプロンプトを優先的にサンプリングする。
    • 多カテゴリデータセットにおけるデータ不均衡に対処するため,比例的公平性最適化に基づくカテゴリキャリブレーション手法を設計した。
    • GenEval,T2I-CompBench++,DPG Benchを用いた実験により,生成性能が効果的に向上することが示された。

    Link: https://arxiv.org/abs/2605.17807

  • 証拠に基づく未知拒否:高信頼度の近既知未知に対するアプローチ [cs.CV]目的:高信頼度の近既知未知の誤受容軽減
    • オープンセット認識は,未知のクラスを扱う上で不可欠であり,その性能向上は重要な課題である。
    • 既存手法では,未知クラスに近い既知クラスに誤って分類され,高信頼度で受容されてしまう問題がある。
    • 本研究は,未知クラスの受容を抑制し,より正確なオープンセット認識を実現することを目指す。
    • EGUR-Aは,サンプルスコアの高さではなく,既知クラスがサンプルを受け入れるに足る証拠があるかを判断する。
    • EGUR-Aは,クラス条件付きの局所的な受容証拠とグローバルな残差証拠を組み合わせ,既知サンプル統計に基づいて相対的な重みを決定する。
    • CUB,FGVC-Aircraft,ImageNet-hardのデータセットで,EGUR-Aは高信頼度の誤受容を大幅に削減することを示した。

    Link: https://arxiv.org/abs/2605.17818

  • フーリエ形状の表現力を解き放つ:赤外線物体検出への攻撃 [cs.CV]目的:赤外線物体検出に対する攻撃手法の開発
    • 自動運転や監視システムにおいて,赤外線物体検出は不可欠な技術である。
    • 既存の形状ベース攻撃法は,表現力と最適化能力のトレードオフにより,攻撃効果が限定的である。
    • フーリエ形状を用いることで,このトレードオフを克服し,高精度な攻撃を可能にすることを目指す。
    • 提案手法では,フーリエ係数を用いて形状を定義し,巻き数定理によりピクセル空間に変換する微分可能なフレームワークを導入した。
    • デジタルおよび物理実験の結果,提案手法は既存手法よりも高い攻撃成功率を示し,多様な条件下で検出回避を実現した。
    • 25m以上の距離で88%以上の攻撃成功率を達成し,距離,角度,姿勢,個人に対する頑健性も確認された。

    Link: https://arxiv.org/abs/2605.17822

  • 視線が向く理由:シーン理解を最大化する焦点性視覚言語モデルにおける人間らしい注視点の創発 [cs.CV, cs.AI]目的:シーン理解を最適化する焦点性視覚言語モデルにおける人間らしい注視点の創発
    • 人間の視覚システムを理解することは,AIやロボット工学における知能開発に不可欠である。
    • 人間の注視点のパターンが,どのような認知プロセスを反映しているのか不明であった。
    • シーン理解の最適化が,人間の自然な注視点のパターンを生み出すメカニズムを解明する。
    • シーン理解を最適化するように訓練された計算モデルが,人間と類似した注視点のパターンを自然に獲得した。
    • 特定のタスク(検索や分類)のために訓練されたモデルや,周辺視野が異なるモデルでは,人間の注視点を正確に予測できなかった。
    • 人間の自由視線は,焦点性視覚という生物学的制約下でシーン理解を最適化する過程における機能的な副産物である可能性が示唆された。

    Link: https://arxiv.org/abs/2605.17823

  • CounterCount:ビジョン言語モデルにおけるカウントバイアスの診断フレームワーク [cs.CV, cs.AI]目的:ビジョン言語モデルにおけるカウントバイアスの診断
    • 視覚と言語を組み合わせた推論は重要であり,その妥当性評価が求められている。
    • モデルが視覚的証拠よりも言語や事前知識に依存している可能性が課題である。
    • 視覚的証拠と矛盾する状況下でのカウント能力を評価し,バイアスの原因を特定する。
    • 最近のビジョン言語モデルは,事実に基づいた画像では高い性能を示すものの,反事実的な属性変化下では性能が低下する。
    • この低下は,モデルが矛盾する視覚的証拠が存在する場合でも,オブジェクトレベルの事前知識に依存することを示唆する。
    • 推論時の注意機構の調整により,反事実的なカウントの精度が最大8%向上することが確認された。

    Link: https://arxiv.org/abs/2605.17826

  • 大規模拡散蒸留のためのMeanFlowの安定化,スケーリング,および強化 [cs.CV]目的:大規模拡散モデルの蒸留におけるMeanFlowの安定化と性能向上
    • 拡散モデルは生成能力が高いが,実用化には推論速度が課題となるため,高速化手法が求められている。
    • MeanFlowは有望な手法だが,最適化の不安定性や「平均探索バイアス」が大規模モデルへの適用を妨げる。
    • 本研究は,大規模モデル蒸留におけるMeanFlowの安定化と,バイアス軽減を目指す。
    • ウォームアップ手法により,MeanFlowの最適化目標の不安定性を解消し,学習崩壊を防ぐことに成功した。
    • 軌道分布のアライメントを導入することで,極めて少ないステップ数での推論における「平均探索バイアス」を軽減した。
    • 提案手法は,FLUX.1-devやHunyuanImage 3.0といった大規模テキスト-画像モデルで,既存手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2605.17834

  • 拡散ベースのビデオ生成における効率的な時間的認識プルーニング [cs.CV, cs.AI]目的:拡散ベースのビデオ生成における効率化
    • ビデオ生成技術は,コンテンツ制作や表現の可能性を広げ,その重要性が増している。
    • 既存のビデオ拡散モデルは計算コストが高く,実用的な応用には課題が残されている。
    • 時間的な一貫性を維持しつつ,計算量を削減するプルーニング手法の開発が求められている。
    • 提案手法TAPEは,時間的平滑化とトークン再選択により,ビデオ生成時の計算効率を大幅に向上させる。
    • TAPEは,フレーム間の時間的一貫性を保ち,背景の一貫性,ちらつき,画質の低下を抑制する。
    • 実験結果から,TAPEは既存のトークン削減手法を上回り,高画質を維持しながら高速化を実現することが示された。

    Link: https://arxiv.org/abs/2605.17837

  • 弱い環境結合下における経験的証拠均衡の学習 [cs.GT]目的:分散型環境下における多エージェントシステムの均衡状態の分析
    • 多エージェントシステムは,現実世界の複雑な問題を解決する上で不可欠である。
    • エージェントの知識や計算能力が限られている場合,正確な意思決定が困難である。
    • 弱結合環境下で均衡がどのように現れるかを明らかにすること。
    • エージェントがQ値反復学習を行う際,行動と環境の相互作用があっても均衡が生まれることを証明した。
    • 環境とエージェントの行動の結合が弱い場合に,経験的証拠均衡が成立することが示された。
    • この結果は,softmaxポリシーに対しても拡張され,十分な結合条件下での収縮結果が確立された。

    Link: https://arxiv.org/abs/2605.17848

  • CelloCut:四面体分割による構成的な水密リメッシング [cs.RO, cs.NI, cs.GR]目的:複雑な形状に対する水密リメッシング手法
    • 3Dモデリングやシミュレーションにおいて,形状の正確性と内部構造の一貫性が重要である。
    • 複雑なトポロジーや欠損のあるメッシュでは,水密性の確保が難しく,二重シェルなどの不整合が生じやすい。
    • 空間の体積分割問題として水密リメッシングを捉え,一貫性のある内部構造を構築することを目指す。
    • CelloCutは,空間のDelaunay四面体分割上で二値ラベリング問題として水密変換を定式化する。
    • グラフカットエネルギー最小化と片側制約を用いることで,水密性を保証し,偽の水密構造を抑制する。
    • CelloScanおよびCelloFillを含む実験結果から,既存手法と比較して,複雑な形状や単層構造に対して高い性能を示す。

    Link: https://arxiv.org/abs/2605.17853

  • テンソルコアを用いた3Dガウススプラッティングの高速化 [cs.GR]目的:3Dガウススプラッティングの高速化手法
    • リアルタイムな3D表現が求められる分野で,高品質かつ高速なレンダリング技術の重要性が増している。
    • 3Dガウススプラッティングは高速だが,特にラスタライズ処理の計算コストが高いという課題がある。
    • テンソルコアを活用し,ラスタライズ処理を効率化することで,レンダリング速度を向上させる。
    • 提案手法TensorGSは,ラスタライズ処理をテンソルコアで実行可能な行列演算に変換することで,処理速度を向上させている。
    • タイルの分割処理において,隣接タイル間でのガウスの再利用を促進し,データ転送オーバーヘッドを削減している。
    • 実験結果から,TensorGSはエンドツーエンドのレンダリング性能を1.65倍に向上させ,画像品質を維持していることが示された。

    Link: https://arxiv.org/abs/2605.17855

  • モーション誘起サンプリングによる消費者用LiDARを用いた隠れた物体のイメージング [cs.IR, cs.CV]目的:消費者用LiDARによる非視認物体イメージングの実現
    • LiDARは,ハンディ型,ウェアラブル,ロボット工学など,様々な消費者向けイメージング用途で普及が進んでいる。
    • 低出力レーザーや低い空間解像度,物体やカメラの動きにより,消費者用LiDARでの非視認物体イメージングは困難である。
    • 本研究は,モーション誘起サンプリングモデルを用いて,消費者用LiDARでの非視認物体イメージングを可能にすることを目的とする。
    • 提案手法により,スマートフォン級LiDARで3次元再構成,単一/複数物体の追跡,隠れた物体を利用したカメラの自己位置推定が可能となった。
    • 従来の非視認物体イメージングは,高価な研究用ハードウェアに限定されていたが,本研究は,手軽に利用可能な環境を実現する。
    • 消費者向け非視認物体イメージングの普及に貢献し,新たなアプリケーションの創出が期待される。

    Link: https://arxiv.org/abs/2605.17865

  • PySIFT:深層学習ビジョンパイプラインのためのGPU常駐決定論的SIFT [cs.CV]目的:古典的特徴記述子SIFTの性能向上と深層学習との組み合わせによるビジョンパイプラインの最適化
    • 局所特徴記述子は,画像認識や物体追跡など,コンピュータビジョンの基盤技術である。
    • 深層学習ベースの特徴記述子が主流となりつつあるが,古典的特徴記述子の潜在能力は十分に評価されていない。
    • 高速かつ決定論的なSIFT実装を提供し,深層学習モデルとの効果的な連携を可能にすること。
    • PySIFTは,従来のOpenCV SIFTよりも高い平均マッチング精度をHPatchesデータセットで達成した。
    • 高解像度画像であるMegaDepthデータセットにおいて,1組あたりの処理時間を383ms短縮した。
    • 異なるデータセット間での評価において,幾何学的精度が向上し,再現性も保証された。

    Link: https://arxiv.org/abs/2605.17869

  • 12誘導心電図における心異常の多ラベル分類のためのHexagonalWarriorMamba:優れた閾値依存性 [cs.CV]目的:12誘導心電図における心異常の多ラベル分類の性能向上
    • 心血管疾患の管理において,正確な心異常の自動診断は不可欠である。
    • 従来の深層学習モデルは,心電図信号に固有の長距離依存性を捉えるのが難しい。
    • 心電図信号の空間的関係を捉え,複数の異常を同時に検出すること。
    • 提案手法HWMambaは,5つの主要な閾値依存性指標において,既存の最先端手法を上回る性能を示した。
    • 訓練データから得られる効果的な閾値選択と,高い識別能力とのバランスを実現している。
    • 複数の評価次元において一貫した性能を示す,堅牢かつ汎用性の高い心電図多ラベル分類アプローチである。

    Link: https://arxiv.org/abs/2605.17875

  • ユークリッド原型の限界を超えて:スペクトル分離と測地線マッチングによる少数ショット医療画像セグメンテーション [cs.CV]目的:少数ショット医療画像セグメンテーションにおける新たな解法
    • 医療画像解析では,アノテーションのコストが高く,専門知識が必要となるため,学習データが不足しがちである。
    • 既存の原型ベース手法は,特徴の混同や,特徴空間のトポロジーを無視した距離計算が課題となっている。
    • 本研究は,特徴の分離と測地線距離に基づくマッチングにより,上記課題を解決することを目指す。
    • 提案手法SGP-Netは,スペクトル分解により形状,テクスチャ,境界情報を分離し,それぞれの情報を個別に活用する。
    • また,測地線距離を用いることで,特徴空間における接続性を考慮した,より正確なセグメンテーションを実現する。
    • 3つの公開データセットでの実験により,SGP-Netが最先端手法に匹敵する性能を達成することが示された。

    Link: https://arxiv.org/abs/2605.17904

  • あらゆるものを翻訳する単一モデル:異種協調知覚のための汎用的な任意-任意翻訳 [cs.CV, cs.AI]目的:異種協調知覚における,任意の入力モダリティから任意の出力モダリティへの特徴量翻訳
    • 協調知覚は,エージェントの感知能力を拡張する重要な技術である。
    • 現実世界の異なる特徴量モダリティ間の不適合が,融合の大きな課題となっている。
    • UniTransは,新たなモダリティへの再学習コストを削減し,スケーラビリティを向上させる。
    • UniTransは,事前学習済みの翻訳専門家パラメータと,モダリティ間のマッピングに基づく組み合わせ係数を利用する。
    • UniTransは,モダリティ固有かつシーン不変な潜在コードを抽出することで,ゼロショット翻訳を実現する。
    • OPV2V-HとDAIR-V2Xの実験において,UniTransは最先端手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2605.17907

  • WorldArena 2.0:知覚,機能,プラットフォームにおける具現化された世界モデルのベンチマークの拡張 [cs.CL, cs.RO, cs.CV]目的:具現化された世界モデルの評価
    • 具現化された知能において,世界モデルは重要な役割を担い,将来予測や環境理解を可能にする。
    • 既存のベンチマークは,視覚のみ,オフラインな利用,シミュレーション環境に限定されており,包括的な評価が困難である。
    • WorldArena 2.0は,知覚,機能,プラットフォームの3つの側面から評価を拡張し,より包括的な評価を目指す。
    • WorldArena 2.0は,視覚に加えて触覚情報を取り込み,マルチモーダルな知覚と予測の評価を可能にした。
    • 従来のポリシー評価や計画に加え,世界モデルを強化学習環境として活用し,ポリシー最適化を評価する。
    • シミュレーション環境に加え,多様なロボット環境での評価を実施し,汎用的な性能を検証する。

    Link: https://arxiv.org/abs/2605.17912

  • SurgLQA:スケーラブルな長期間手術ビデオ質疑応答 [cs.CV]目的:手術ビデオに対する長期間にわたる質疑応答
    • 手術の質の向上や医療技術の発展に貢献し,医師の意思決定を支援する可能性を秘めている。
    • 既存手法は短い映像に限定され,手術全体の流れや因果関係を捉えきれていない。
    • 手術ビデオの長期的な流れを理解し,正確な質疑応答を実現することで,その問題を解決する。
    • 提案手法SurgLQAは,手術ビデオの長期間にわたる質疑応答を可能にするフレームワークである。
    • FTC(忠実な時間的統合)により,時間的忠実性を保ちつつ,コンパクトな長距離表現を構築する。
    • TMS(時間的基盤マルチポリシーのスケーリング)により,時間的文脈に応じて推論能力を適応的に調整する。

    Link: https://arxiv.org/abs/2605.17915

  • PanoWorld:一貫性のある全住宅パノラマ合成のための生成空間世界モデル [cs.CV]目的:全住宅VRツアーの生成
    • VR/AR技術の発展に伴い,高品質な仮想空間の自動生成が重要になっている。
    • 既存手法では,視点変更時に幾何学構造や材質が不整合となる問題がある。
    • 高品質な2D合成と,部屋間の空間的な一貫性を両立させることを目指す。
    • PanoWorldは,住宅全体のパノラマ合成をノードベースで自己回帰的に生成する空間世界モデルである。
    • 床の間取りから3Dシェルを構築し,動的な3Dガウススプラッティングキャッシュを活用することで,幾何学構造と視覚情報を分離している。
    • これにより,高周波な2D合成品質を維持しつつ,部屋間のレイアウトと材質の一貫性を向上させている。

    Link: https://arxiv.org/abs/2605.17916

  • ドメイン転送は単一のアライメントによって識別可能になる [cs.LG, cs.AI, cs.CV]目的:ドメイン転送の識別可能性
    • 画像変換や医療画像処理など,多様な分野でドメイン転送の応用が期待されている。
    • ドメイン転送は本質的に未定義であり,対応関係が曖昧になりやすいという課題がある。
    • ヤコビ行列の構造的疎性を利用し,少ない教師データで転送を特定する。
    • 提案手法では,ヤコビ行列の疎性条件と単一ペアのアタッチメントサンプルでドメイン転送が識別可能になることを示した。
    • ヤコビ行列を明示的に評価せずに疎性を誘導する効率的な正則化項を提案し,高次元学習への適用を可能にした。
    • 合成データおよび実データを用いた実験により,理論的結果が検証された。

    Link: https://arxiv.org/abs/2605.17918

  • エージェント制御による効率的なストリーミングビデオ理解フレームワーク [cs.CV]目的:ストリーミングビデオ理解のためのフレームワーク
    • ビデオデータ活用の重要性が増しており,リアルタイム処理が求められる。
    • 既存手法は固定的な戦略に依存し,複雑なクエリとリアルタイム性の両立が困難。
    • 動的な情報密度に対応し,リアルタイム性と精度を両立するフレームワークの構築。
    • 提案手法R3-Streamingは,メモリ圧縮,応答準備判断,計算ルーティングを段階的に制御する。
    • 年齢を考慮した忘却ポリシーにより,メモリ圧縮効率を向上させ,パフォーマンスを改善。
    • TB-GRPOにより,クエリの難易度に応じて適切なモデルを選択し,モード崩壊を防ぐ。

    Link: https://arxiv.org/abs/2605.17921

  • AtlasVA: 教師なしVLMエージェントのための自己進化型視覚スキルメモリ [cs.CV]目的:VLMエージェントの視覚スキルメモリ
    • VLMエージェントの性能向上には,長期的タスクにおける経験の再利用が不可欠である。
    • 既存のメモリフレームワークはテキスト形式でメモリを保存し,教師モデルに依存する。
    • 視覚的な情報を保持したまま経験を再利用することで,空間認識タスクの性能向上を目指す。
    • AtlasVAは,空間ヒートマップ,視覚的模範例,および象徴的なテキストスキルの3層でメモリを組織する教師なしフレームワークである。
    • AtlasVAは,軌跡統計と軽量グリッドヒューリスティックから直接危険と親和性の地図を生成し,強化学習のための潜在ベースのシェイピング報酬として再利用する。
    • Sokoban,FrozenLake,3Dナビゲーション,ロボット操作などのベンチマークで,テキスト中心のメモリベースラインや競合するVLMエージェントを上回る性能を示した。

    Link: https://arxiv.org/abs/2605.17933

  • UAVFF3D:前方フィードフォワードUAV 3D再構成のための幾何学的認識ベンチマーク [cs.CV]目的:前方フィードフォワードUAV 3D再構成のためのベンチマーク
    • UAV画像は広範囲な応用が期待されるが,その特性上,3D再構成は困難である。
    • 従来のベンチマークはUAV画像の幾何学的特性や視点変化に対応できていない。
    • UAV特有の幾何学的曖昧性下での3D再構成精度向上を目指す。
    • UAVFF3Dは,17万枚以上の実UAV画像と37万枚以上の高品質な合成画像から構成される。
    • 評価プロトコルにより,カメラジオメトリ推定と再構成精度を同時に評価できる。
    • ドメイン適応により,Ray Error,Pose ATE,Chamfer Distanceが大幅に改善された。

    Link: https://arxiv.org/abs/2605.17942

  • SVFSearch:ゲーム分野における短尺動画フレーム検索のためのマルチモーダル知識集約型ベンチマーク [cs.AI, cs.CV, cs.LG]目的:短尺動画のフレーム検索におけるマルチモーダル大規模言語モデルの能力評価
    • 動画理解は,コンテンツ検索やインタラクティブなアプリケーションにおいて不可欠であり,その重要性は増している。
    • 既存のベンチマークは,短尺動画特有の視覚的曖昧さや,専門性の高いドメイン知識への対応が不十分である。
    • ゲーム分野の短尺動画フレーム検索に特化したベンチマークを構築し,モデルの能力を詳細に評価することを目指す。
    • SVFSearchは,5,000件の四択テストと4,198件の補助学習データを含む,初の中国語ゲームドメインに特化したフレーム検索ベンチマークである。
    • 実験の結果,既存のモデルとオラクル知識の間には大きな差があり,最良のオープンソースQAモデルは66.4%,実用的なエージェントは79.1%,オラクル知識は95.4%の正答率を示した。
    • 分析により,視覚的理解,検索品質,証拠に基づく推論,ツール利用におけるボトルネックが明らかになった。

    Link: https://arxiv.org/abs/2605.17946

  • SkyNative:リモートセンシングにおける視覚的証拠推論のためのネイティブマルチモーダルフレームワーク [cs.CV]目的:リモートセンシングにおける視覚的証拠推論のための新しいマルチモーダルフレームワーク
    • リモートセンシングは,地球観測と環境モニタリングにおいて不可欠な役割を果たしている。
    • 従来のモデルは,事前学習済みの視覚エンコーダに依存し,局所的な視覚情報を圧縮し,言語の先入観の影響を受けやすい。
    • SkyNativeは,視覚情報を直接言語モデルのトークン空間に表現することで,この問題を解決することを目指す。
    • SkyNativeは,事前学習済みの視覚バックボーンを排除したエンコーダーフリーのアーキテクチャを採用している。
    • モダリティアウェアなデカップリング機構により,低レベルの視覚パッチとテキストトークンを統合している。
    • 標準的なリモートセンシング理解タスクと大規模フォーマットの空間推論評価において,優れた性能とロバスト性を示した。

    Link: https://arxiv.org/abs/2605.17949

  • 機械部品の計数 [cs.RO, cs.SY, eess.SY, cs.CV]目的:機械部品の計数手法の開発
    • 画像処理技術は,在庫管理,群衆密度推定,細胞数計測など,幅広い分野で重要である。
    • 部品の重なり,スケール変化,隠蔽,照明条件の変化が,正確な計数における課題となる。
    • 本研究は,機械部品の計数における課題を解決し,高精度な計数手法を確立することを目指す。
    • 提案手法は,既存のFamNetを拡張し,追加の損失関数を導入することで,機械部品の計数性能を向上させた。
    • 従来の画像処理パイプライン,インスタンスセグメンテーション,密度マップ推定と比較検証を行った結果,提案手法が最も優れた性能を示した。
    • MAE(平均絶対誤差)は1.96であり,高精度な計数結果が得られたことを示している。

    Link: https://arxiv.org/abs/2605.17952

  • MLLMのための,より単語らしい画像トークン化 [cs.CV, cs.AI, cs.LG]目的:画像トークン化手法
    • 画像とテキストを統合するMLLMは,多様な応用を可能にする重要な技術である。
    • 既存手法では,画像が連続的な埋め込みに変換され,言語モデルとの整合性が低い。
    • DiVTは,画像を意味のある単位に分割し,言語モデルとの親和性を高める。
    • 提案手法DiVTは,画像を明確な視覚概念に対応するトークンにクラスタリングする。
    • DiVTは,画像複雑さに応じてトークン数を調整し,精度と計算量のトレードオフを実現する。
    • 様々なベンチマークで,DiVTは少ないトークン数で既存手法を上回り,メモリコストと遅延を削減する。

    Link: https://arxiv.org/abs/2605.17954

  • 生成ナビゲーター:状態認識型エージェントフレームワークによる画像生成 [cs.CV]目的:画像生成におけるユーザー意図の忠実な実現
    • テキストから画像を生成する技術は進歩しているが,ユーザーの意図を正確に反映することが課題である。
    • 既存システムは,単純なプロンプト修正や手動ルールに依存しており,生成過程への適応学習が不十分である。
    • 生成過程の状態に応じて動的に生成経路を制御するエージェントを開発し,ユーザー意図を実現する。
    • 本研究では,画像を生成する過程を状態に基づいた行動選択問題として再構築し,生成ナビゲーターを提案する。
    • 強化学習における報酬設計の課題を,PRE-GRPOという新たな目的関数で解決した。
    • T2I-ReasonBenchにおける評価で,WISEスコア0.90,推論精度79.06%を達成し,大幅な性能向上を示した。

    Link: https://arxiv.org/abs/2605.17969

  • バランス学習:参照に基づくリモートセンシング画像超解像のための分離型サイアミーズ拡散トランスフォーマー [cs.CL, cs.CV]目的:参照に基づくリモートセンシング画像超解像における,高解像度の参照画像からの詳細なテクスチャ情報の活用
    • リモートセンシング画像の解像度向上は,地球観測や環境モニタリングにおいて重要な役割を担う。
    • 既存手法では,参照情報の過度な依存と不十分な活用との間でトレードオフが生じ,テクスチャのアーティファクトや詳細の欠如といった問題がある。
    • 参照情報と低解像度画像の相互作用を分離し,参照画像のテクスチャ情報を効果的に活用することで,解像度向上における問題を解決する。
    • 提案手法DS-DiTは,アテンションレベルでの低解像度と参照画像の相互作用を分離することで,参照情報への過度な依存を抑制し,テクスチャのアーティファクトを軽減する。
    • パッチレベルの重み付けモジュールを導入することで,グローバルアテンションのローカルモデリング能力を補完し,条件付きソースの融合を適応的に調整する。
    • サイアミーズアーキテクチャを活用したオートガイダンス戦略により,参照条件の強弱の予測差異を利用して再構成を強化し,追加の学習なしに生成品質を向上させる。

    Link: https://arxiv.org/abs/2605.17980

  • 潜在光学センシングによる低遅延視線追跡 [cs.CV, cs.HC]目的:低遅延視線追跡システムの実現
    • 視線追跡は,人間とコンピュータ間の自然なインタラクションを可能にする重要な技術である。
    • 従来のカメラベースの視線追跡システムは,高解像度画像処理による遅延と消費電力の問題がある。
    • 光学エンコーディングにより,画像読み出しや計算負荷を削減し,低遅延な視線追跡を実現する。
    • 提案システムは,完全に受動的な光学エンコーダを用いてタスクに関連する潜在的特徴を直接取得する。
    • マイクロレンズアレイとバイナリクロムマスクを組み合わせることで,視線推定に必要なコンパクトな測定値を得る。
    • プロトタイプは,3.4msのエンドツーエンド遅延を実現し,既存システムを凌駕する性能を示す。

    Link: https://arxiv.org/abs/2605.17990

  • Stable Audio 3 [cs.SD, cs.AI]目的:可変長オーディオ生成と編集のための高速潜在拡散モデル
    • 音声生成技術は,音楽制作やコンテンツ制作において重要な役割を担う。
    • 長尺のオーディオ生成には計算コストが高く,短い音源の生成に非効率な点が存在する。
    • 効率的な潜在空間での拡散生成により,高品質なオーディオを低コストで実現することを目指す。
    • Stable Audio 3は,小・中・大のモデルファミリーであり,数分間のオーディオを生成できる。
    • 潜在拡散モデルは,高密度な潜在空間において,音質とセマンティック構造を維持しながら効率的な生成を可能にする。
    • 敵対的後学習により,推論速度を向上させ,生成品質とプロンプトへの適合性を改善する。

    Link: https://arxiv.org/abs/2605.17991

  • モジュール適応残差再構成による低ビットポストトレーニング量子化 [cs.LG, cs.AI, cs.CV]目的:低ビットポストトレーニング量子化における性能向上
    • モデルの効率化が,大規模モデルの普及に不可欠である。
    • 量子化に伴う精度低下が,依然として大きな課題となっている。
    • 残差再構成のバイアスを軽減し,モジュールごとに最適化すること。
    • 提案手法MARRは,LLMにおいて最大20.2%の性能向上を達成した。
    • ViTにおいても最大4.6%の相対的な性能向上を示した。
    • モジュールごとに残差の強さを調整することで,バイアスと補正のバランスを取った。

    Link: https://arxiv.org/abs/2605.17997