arXiv雑要約

画像・音声 - 2026/06/15 公開

  • HoloPathTracer:ホログラフィーのための高速かつ正確な波動パス追跡 [cs.GR, physics.optics]目的:ホログラフィーにおける知覚的リアリズムの実現
    • VR/ARにおいて,コンパクトな形状を維持しつつ,知覚的リアリズムを提供する技術として重要である。
    • 既存のCGHパラダイムは,光線と波動の計算を分離しており,焦点深度や視点連続性の再現に限界がある。
    • 波動パス追跡を用いて,3D視覚情報を位相ホログラムに符号化することで,これらの課題を解決する。
    • 物理的に正確かつ効率的な波動光学レンダリングフレームワークを提案し,波動パス追跡を活用して位相ホログラムを生成する。
    • モンテカルロ法により,レンダリング方程式とレイリー・ゾンマーフェルト積分を同時に解くことで,リアルな3D効果と複雑な材質を再現する。
    • 実験検証により,現実的なデフォーカスぼかしや視点依存効果,ハイライトや反射など,自然な3Dキューと複雑な材質の忠実なホログラフィック再構成を実証した。

    Link: https://arxiv.org/abs/2606.14173

  • ハイブリッド古典・量子アルツハイマー分類:教師ありβ-VAEと量子カーネル [cs.DB, cs.CV, cs.LG]目的:アルツハイマー病のバイナリ分類
    • アルツハイマー病は早期発見が重要であり,画像診断技術の進歩が求められている。
    • 従来の古典的な手法では,アルツハイマー病の画像診断における特徴抽出に限界がある。
    • 教師ありオートエンコーダと量子カーネルを組み合わせ,病気に特化した特徴量を学習し分類精度を向上させる。
    • 提案手法は,308件のADNI-1データセットにおいて,ベースラインの精度67.2%とAUC 0.759を上回る,72.1%の精度と0.799のAUCを達成した。
    • 安定性を向上させた変種では,交差検証の分散が半減し,頑健性も確認された。
    • 3D Grad-CAMによる検証により,モデルがアルツハイマー病に関連する脳領域に焦点を当てていることが示された。

    Link: https://arxiv.org/abs/2606.14194

  • 多項式情報量の代数的限界 [cs.IT, cs.GT, math.IT]目的:2つの確率変数の間の依存性を測る多項式測度の存在可能性
    • 情報理論において,変数間の依存関係を定量的に評価することは重要である。
    • 既存の相互情報量は超越関数であり,有限サンプルからの推定にバイアスが生じる。
    • 多項式による依存性測度は,有限サンプルでの無バイアス推定を可能にする。
    • 非対称な設定(変数ごとのアルファベットサイズが異なる場合)では,ゼロでない多項式が依存性消失とDPI(データ処理不等式)を同時に満たさないことが示された。
    • 対称な設定では,多項式は(det U)^2で割り切れることが示され,自明でない候補は少なくとも2nの次数を持つ必要がある。
    • これらの結果は,マルチタスクピア予測への応用があり,タスク数の下限が導かれる。

    Link: https://arxiv.org/abs/2606.14225

  • 汎用的なディープフェイク検出のためのマルチドメイン特徴融合フレームワーク [cs.NI, cs.DC, cs.CV, cs.CL]目的:様々な生成モデルに対する汎用的なディープフェイク検出
    • プライバシー,セキュリティ,情報誠実性を脅かすディープフェイクの出現は,社会に深刻な影響を及ぼしている。
    • 既存の手法はGANベースのディープフェイクには有効だが,拡散モデル生成画像への対応が課題となっている。
    • マルチドメイン表現の活用と,異なる生成モデル間での頑健性の評価を行うことで,ディープフェイク検出の精度向上を目指す。
    • 提案手法SGFF-Netは,空間,勾配,周波数表現を融合し,高い検出精度(98.95%)を実現した。
    • クロスモデル評価(70.46%),クロスパラダイム評価(69.94%)において,既存手法よりも性能が向上した。
    • マルチソース学習とデータ拡張により,頑健性がさらに向上し,実データでの精度も改善された。

    Link: https://arxiv.org/abs/2606.14230

  • HiST:クロスモダール空間トランスクリプトミクスモデリングのための階層的疎なTransformer [cs.RO, cs.CV]目的:クロスモダール空間トランスクリプトミクスモデリングにおける性能向上
    • 空間トランスクリプトミクスは,遺伝子発現と組織形態を結びつけ,疾患メカニズムの理解に不可欠である。
    • 空間トランスクリプトミクスの実験コストが高く,スループットが低いことが課題となっている。
    • ヒストロジー画像から遺伝子発現を効率的に推論するモデルの構築を目指す。
    • HiSTは,測定された位置を疎な場として扱い,アクティブな組織フットプリント上で直接動作する階層的な疎なTransformerである。
    • HiSTは,ローカルな幾何学的対応のための疎なウィンドウアテンションと,高速なマルチスケールコンテキスト統合のための解像度変更演算子を組み合わせる。
    • HiSTは,既存のベースラインと比較して予測性能を向上させながら,実行時間とピークメモリを削減する。

    Link: https://arxiv.org/abs/2606.14251

  • ある層の不要なものが,別の層にとっては宝となる:LVLMにおける適応的な層ごとの視覚トークン選択 [cs.DB, cs.CV]目的:LVLMにおける効率的な推論のための視覚トークン選択手法
    • 大規模ビジョン言語モデルは多岐にわたるタスクで成功を収めているが,計算コストが大きい。
    • 既存のトークン削減手法では,一度削減されたトークンは後続層で利用できず,情報損失が生じる。
    • 層ごとに最適なトークン集合が異なるという知見に基づき,効率と精度を両立する手法を提案する。
    • 提案手法ALVTSは,層ごとに重要トークンを選択・伝達し,重要度の低いトークンはスキップすることで計算量を削減する。
    • ALVTSは,低ランク近似を用いてフルアテンション機構のエッセンスを捉え,再学習を必要としない。
    • LLaVA-1.5等で89%のトークン圧縮率で元のモデルの96.7%の精度を維持し,効率と精度のトレードオフを改善した。

    Link: https://arxiv.org/abs/2606.14277

  • 一次視覚皮質に着想を得たロバストな点群解析フレームワーク [eess.SY, cs.SY, eess.SY, cs.SY, cs.CV]目的:点群解析のための新規な脳型ニューラルネットワークアーキテクチャの提案
    • 点群解析は,自動運転やロボット工学など,様々な応用分野で重要性が増している。
    • 従来の深層学習は,計算コストが高く,ノイズや遮蔽に弱いという課題を抱えている。
    • 本研究は,脳の仕組みに着想を得ることで,より効率的でロバストな点群解析を実現することを目指す。
    • 提案手法DC-CCNN++は,点群分類および部品セグメンテーションにおいて,既存の脳型ネットワークを上回る性能を示す。
    • DC-CCNN++は,スパース性,オクルージョン,ノイズなど,複雑な摂動条件下でも高いロバスト性を示す。
    • 効率性,ロバスト性,生物学的な基盤を備えたDC-CCNN++は,従来の深層学習手法に代わる有望な選択肢となり得る。

    Link: https://arxiv.org/abs/2606.14292

  • Pix2Pix-Hybrid:多チャンネル条件付けと弱い属性監督によるハッジ群衆画像の構造誘導条件合成 [cs.CV, cs.AI]目的:ハッジ巡礼の群衆シーンにおける群衆数モデルの精度向上
    • ハッジ巡礼のような特殊な状況における群衆解析は,安全管理や効率的な巡礼運営に不可欠である。
    • ハッジ巡礼の群衆画像に対するアノテーション付きデータが不足しており,プライバシー保護の観点からデータ収集が困難である。
    • データ不足とプライバシー問題を解決するため,合成データによるデータ拡張を目指す。
    • 提案手法Pix2Pix-Hybrid(P2P-H)は,構造的特徴と文脈的属性を組み合わせることで,高品質なハッジ群衆画像の合成を可能にした。
    • 合成データセットCrowdH(10,000枚)を構築し,既存手法(Pix2Pix, StyleGAN2-ADA)と比較して,構造保持能力と合成品質の向上が確認された。
    • 合成データと実データ混合による学習データセット(CrowdH-Mix-469)を用いた実験により,群衆数推定モデルの精度向上効果が実証された。

    Link: https://arxiv.org/abs/2606.14297

  • CLIPのテスト時適応を駆動する要因:更新の観点からの制御された経験的研究 [cs.CV, cs.LG]目的:CLIPのテスト時適応における駆動要因の解明
    • CLIP等の視覚言語モデルは画像認識の標準技術である。しかし,実環境での分布シフトに弱点がある。
    • テスト時適応(TTA)は軽量な解決策として注目されているが,その適応メカニズムは未解明な部分が多い。
    • 本研究は,TTA4CLIPの適応メカニズムを制御された実験により体系的に理解することを目的とする。
    • 既存のTTA4CLIP手法を3つのパラダイムに分類し,更新内容に基づいて整理した。
    • パラメータベース手法では,適応による性能向上は重い最適化よりもテスト時証拠や信頼できるプロキシに起因することが示された。
    • TTAには万能な手法はなく,シフトの種類によって最適なパラダイムが異なることが示された。

    Link: https://arxiv.org/abs/2606.14299

  • Pano3D:統一された3D再構成とパノラマセグメンテーション [cs.CV]目的:3D再構成と3Dパノラマセグメンテーションの統一的フレームワーク
    • 画像から高精度な3Dモデルの作成は,ロボット工学やAR/VRなど多くの分野で不可欠である。
    • 既存手法では,3D再構成と意味的理解を同時に行うことが難しく,精度向上が課題である。
    • 3D再構成モデルに意味的理解を組み込み,より高精度なパノラマセグメンテーションを実現する。
    • 提案手法は,既存の3D再構成モデルにマスクデコーダを追加し,幾何学的情報と意味情報を同時に学習する。
    • 幾何学的特徴を初期値として,幾何学と意味の両方を捉えるように特徴を微調整することで,相互に有益な改善が確認された。
    • ScanNet等のデータセットにおいて,3Dパノラマセグメンテーションで最先端の性能を達成した。

    Link: https://arxiv.org/abs/2606.14307

  • CausalMotion:キーフレームと軌跡誘導による学習不要な動画生成における構造化された物理的推論 [cs.CV]目的:物理的推論の構造化
    • 動画生成技術の発展は目覚ましいが,物理的整合性や因果関係の再現が課題である。
    • 既存手法では,長期間の相互作用を含む動画における物理的整合性を確保することが困難である。
    • 明示的な物理的推論を導入することで,物理的に妥当で一貫性のある動画生成を実現する。
    • CausalMotionは,学習を必要とせずに,物理的推論を動画生成に注入するフレームワークである。
    • テキストプロンプトを因果的に整合性のあるキーフレームと物体中心の軌跡に分解し,事前学習済みの動画拡散モデルを誘導する。
    • 実験により,物理的な妥当性と時間的な一貫性が向上し,特にダイナミクスを伴うシナリオで効果が確認された。

    Link: https://arxiv.org/abs/2606.14317

  • MaskedFOP:欠損する視覚モダリティ下における多言語話者識別 [cs.SD, cs.MM]目的:多言語話者識別システム
    • 近年,音声と映像を組み合わせた話者識別技術が注目を集めている。
    • 現実環境では,顔画像が利用できない状況も想定される。
    • 顔画像なしでも高精度な話者識別を実現することを目指す。
    • 提案手法MaskedFOPは,顔画像がない状況下でも高い識別精度を達成した。
    • 特に,カスケード化されたグラフラベル伝搬が性能向上に大きく貢献した。
    • POLY-SIM 2026 Grand Challengeにおいて,平均P-accuracy 0.9989で1位を獲得した。

    Link: https://arxiv.org/abs/2606.14321

  • Wave-U-Netに基づく基本波形強調による瞬間ピッチ推定 [cs.SD]目的:瞬間ピッチ推定の精度向上
    • 音声 Prosody や歌唱技術の分析において,瞬間ピッチ推定は重要な役割を果たす。
    • 従来の技術では,基本波形分離の精度がノイズの影響を受けやすく,推定精度が低下する。
    • 本研究では,基本波形分離を音声強調問題として捉え,高精度な瞬間ピッチ推定を目指す。
    • 提案手法は,従来の決定論的な手法よりも高い性能を示し,多様な音声データに対して正確かつロバストな瞬間ピッチ推定を実現した。
    • 特に,音声,歌声,楽器音,劣化音声など,様々なドメインにおいて有効性が確認された。
    • Wave-U-Netによる基本波形強調が,より正確な瞬間ピッチ推定に貢献することが示された。

    Link: https://arxiv.org/abs/2606.14324

  • ForceForget: テキスト画像モデルにおける安全性を高めるための強化学習による概念除去 [cs.CV]目的:テキスト画像モデルにおける安全性と有用性の両立
    • 生成AIの発展に伴い,テキストから画像を生成するモデルの利用が拡大している。
    • 既存の概念除去手法は,有害なプロンプトに含まれる安全な概念まで抑制してしまう場合がある。
    • 強化学習を用いて概念除去報酬を最適化し,有害なコンテンツの除去とモデル性能維持を目指す。
    • 提案手法は,既存の最先端手法と比較して,安全でないコンテンツの生成を軽減しつつ,良好な画像の忠実度を維持できる。
    • Red-teamingツールに対する堅牢性においても,提案手法は既存手法を上回る性能を示す。
    • 画像変換(I2I)シナリオにおいても有効であり,一般的な概念(芸術スタイルや物体など)の除去にも応用可能である。

    Link: https://arxiv.org/abs/2606.14351

  • パッチベースの周波数重ね合わせによる点群アップサンプリング [cs.CV, eess.SP]目的:点群のアップサンプリング手法
    • 3次元点群データは,自動運転やロボティクス等の分野で広く活用されており,高精度なデータ処理が求められている。
    • 既存の深層学習ベースの手法は,解釈性の低さやデータ依存性といった課題を抱えており,汎用性に欠ける。
    • 学習データに依存せず,数学的に解釈可能な点群アップサンプリング手法を開発し,汎用性と精度を向上させる。
    • 提案手法PUtPFSは,最適化に基づき,点群の疎な領域から点を繰り返し選択し,周波数の重ね合わせによって表面を推定することでアップサンプリングを実現する。
    • PUtPFSは,点-表面距離において既存の最良の手法を上回り,Chamfer距離とHausdorff距離においても最適化ベースの手法の中で最高の結果を達成した。
    • 本手法は学習データを必要とせず,数学的な解釈が可能な点が特徴である。

    Link: https://arxiv.org/abs/2606.14355

  • FLaRA:事故予兆のための将来潜在表現の予測 [cs.SI, cs.CY, cs.CV]目的:事故予兆のための将来潜在表現の予測
    • 交通システムの安全性向上は重要であり,事故を未然に防ぐ技術が求められている。
    • 既存手法は,将来の状況変化を明示的にモデル化せず,過去の視覚情報から事故確率を直接推定している。
    • 将来の潜在表現を予測することで,より現実的な事故予兆を実現し,誤警報を減らすことを目指す。
    • 提案手法FLaRAは,将来の潜在表現を予測し,その上で分類器を動作させることで,事故予兆の性能を向上させる。
    • V-JEPA2を基盤とし,特徴量レベルの再構成損失と交差エントロピー損失を同時に最適化することで,予測の現実性を担保している。
    • Nexarデータセットや,DAD,DADA-2000,DoTAベンチマークでの評価により,最先端の性能と早期警告能力が示された。

    Link: https://arxiv.org/abs/2606.14380

  • IndustryBench-MIPU:産業製品のマルチ画像属性値抽出のベンチマーク [cs.CV]目的:産業製品のマルチ画像属性値抽出のベンチマーク
    • 産業サプライチェーンにおいて,製品の調達,互換性,安全性を保証する技術仕様は重要である。
    • 技術仕様が複数の異種画像に分散しており,その抽出が困難である。
    • マルチモーダル大規模言語モデル(MLLM)の産業製品理解能力を評価し,改善を図る。
    • IndustryBench-MIPUは,産業製品の構造化された属性抽出に焦点を当てた大規模なベンチマークである。
    • MLLMの評価により,高い精度が得られる一方で,製品レベルでの属性回収率は低いことが明らかになった。
    • マルチ画像からの抽出は,シングル画像からの抽出と比較して,リコールが低下する傾向にある。

    Link: https://arxiv.org/abs/2606.14383

  • MooMIns -- 単眼画像からの複数インスタンスに基づく3D再構成と物体姿勢推定 [cs.CV]目的:単眼画像からの3D再構成と6D物体姿勢推定
    • 産業界では,物体を効率的に認識・操作するために,3D情報の取得が不可欠である。
    • 単眼画像からの3D再構成は本質的に解が定まらず,正確な形状把握が困難である。
    • ビンに乱雑に配置された複数物体から,幾何学に基づいた正確な3D再構成と姿勢推定を目指す。
    • 提案手法MooMInsは,ガウススプラッティングの原理を逆転させ,単眼カメラから複数の物体インスタンスをレンダリングする。
    • SAM3によるインスタンスセグメンテーションと修正されたSfMパイプラインによって初期化され,学習ベースの手法で生じるハルシネーションを回避する。
    • 合成データおよび実データを用いたビンピッキング実験で,未知の物体に対する正確な再構成と信頼性の高い姿勢推定が確認された。

    Link: https://arxiv.org/abs/2606.14389

  • ためらいを学習する:不流暢性認識ASRのための継続学習 [cs.CL, cs.AI, cs.SD]目的:不流暢性認識自動音声認識(ASR)のための継続学習手法
    • 音声認識技術は進歩しているが,自然な会話に含まれる不流暢性は依然として課題である。
    • 既存のシステムは不流暢性を無視または削除するため,情報損失や幻覚が発生しやすい。
    • 限られたデータセットでの学習では,既存知識の忘却(破滅的忘却)が問題となるため,継続学習で対処する。
    • 明示的な不流暢性トークンを導入することで,事前学習済みASRモデルの安定したトークン機構を確立した。
    • 不流暢性分布が異なる追加データセットで継続学習を行い,マーカー学習とASR性能のトレードオフを特定した。
    • 継続学習手法間で一貫したクロスアテンションヘッド機構が共有されていることを確認した。

    Link: https://arxiv.org/abs/2606.14391

  • タイプ構成ゲームに対するエントロピーポテンシャル [cs.GT]目的:タイプ構成ゲームにおける均衡状態の存在証明と効率的な均衡構築アルゴリズム
    • 理論計算機科学において,アルゴリズムの実行時間分析や戦略的ゲームの均衡状態の存在証明に不可欠なツールである。
    • ナッシュの定理は強力だが構成的証明ではないため,均衡状態を実際に求めるアルゴリズムの開発が課題であった。
    • エントロピーに着想を得た新たなポテンシャル関数を用いて,均衡状態の構成的証明と効率的な均衡構築アルゴリズムを提供する。
    • 提案するポテンシャル関数クラスは,複数のゲーム理論モデルにおいて均衡状態の存在証明を簡略化する。
    • 既存の複雑な技術的証明を代替し,より簡潔な証明を可能にする。
    • より一般的なモデルに対しても,効率的な均衡構築アルゴリズムを導き出し,未解決問題を解決する。

    Link: https://arxiv.org/abs/2606.14428

  • MoDiCoL:堅牢な音声認識のためのモジュール型診断継続学習データセット [cs.CY, cs.CL, cs.AI, cs.SD]目的:堅牢な音声認識のためのモジュール型診断継続学習データセット
    • 現実環境下での音声認識性能向上は重要である。録音条件,アクセント,障害,ノイズ等の影響を考慮する必要がある。
    • 既存データセットは要因を単独で扱う傾向があり,現実の複合的な状況への対応が課題である。
    • 音声認識モデルの堅牢性を継続的に学習・評価し,環境変化への適応能力向上を目指す。
    • MoDiCoLデータセットは,言語内容,話者特性,音響環境を制御可能に分析できるよう設計されている。
    • 現実的な継続学習カリキュラムを提案し,堅牢性の獲得,転移,忘却を分析した。
    • 3つの継続学習戦略を評価し,変化する環境下での堅牢性に関する詳細な知見を得た。

    Link: https://arxiv.org/abs/2606.14459

  • 音声モデルにおける説明の脆弱性:予測変化なしでの帰属の操作 [cs.NI, cs.SD, cs.AI, cs.LG]目的:音声モデルにおける説明の脆弱性
    • AIの信頼性向上は重要であり,特に説明可能性はモデルの意思決定根拠を理解する上で不可欠である。
    • 既存の説明手法は,わずかな入力の変化で説明が不安定になり,誤解を招く可能性がある。
    • 予測精度を維持しつつ,説明を操作する手法の脆弱性を評価し,対策を検討する。
    • 本研究では,知覚音声品質を考慮した微小な摂動により,モデルの帰属を分類結果から分離できることを示した。
    • 提案手法は,予測を維持しつつ,説明のヒートマップを系統的に歪めることが可能である。
    • この結果は,音声モデルの説明の脆弱性を浮き彫りにし,説明可能性の信頼性向上に向けた課題を提示する。

    Link: https://arxiv.org/abs/2606.14466

  • 汎用異常検知のための値順序分解 [eess.SY, cs.SY, math.OC, cs.IR, cs.HC, cs.CV]目的:汎用異常検知における汎化性能の向上
    • 産業分野における異常検知は品質管理において不可欠であり,データ不足が課題となる。
    • 既存手法では,異常と正常データの特徴が入り混じり,未知のドメインへの汎化が困難である。
    • 異なるカテゴリ,欠陥タイプ,データドメイン間の汎化ギャップを解消し,ロバストな異常検知を実現する。
    • 提案手法VODは,オブジェクトカテゴリ,欠陥タイプ,データドメインの三つの汎化ギャップを解消する。
    • VODは,正常サンプルと異常サンプルの分離を維持しつつ,カテゴリ,タイプ,ドメイン固有情報を抑制する。
    • 実欠陥と合成欠陥の整合性を利用し,参照データとして正常データと合成異常データのみを用いることで,未知の実欠陥タイプへの汎化を可能にする。

    Link: https://arxiv.org/abs/2606.14475

  • 傷ついたレンズ,歪んだ奥行き:受動的なカメラ側光学的攻撃 [cs.CV]目的:カメラ側の物理的な光学的攻撃手法の研究
    • 視覚システムは様々な分野で利用され,その信頼性が重要であるため,セキュリティ研究が不可欠である。
    • 既存の研究では,攻撃が画像空間の摂動として扱われ,レンズの物理的な欠陥とシーン依存の光学的相互作用が無視されている。
    • レンズの傷という受動的な損傷を利用し,特定の視覚条件下で幾何学的推論を歪める攻撃手法を提案する。
    • レンズに傷を付けることで,明るい光源や反射光と相互作用し,奥行き情報を歪ませるストリーク状のアーティファクトを生成する。
    • 固定された傷による攻撃でありながら,シーンに応じてトリガーされるため,持続性と選択性を兼ね備えている。
    • 実験の結果,単眼深度推定において最大32%の相対誤差が生じ,3D物体検出にも一貫した影響が確認された。

    Link: https://arxiv.org/abs/2606.14504

  • 主成分分析の危険な影:99.9999%の分散保持が招く壊滅的な意思決定エラー [cs.RO, cs.LG, cs.GT]目的:主成分分析におけるリスクの潜在的な問題点
    • 高次元データの解析において,主成分分析は広く利用されている。
    • 分散を最大化する主成分分析は,稀に起こる重大な事象への対応が不十分になりやすい。
    • 稀な事象に関する情報を保持し,より安全な意思決定を可能にすること。
    • 主成分分析は,分散の99.9999%を保持しつつも,重大な失敗に関する信号を完全に消去する可能性があることが示された。
    • この問題を回避するため,Expectile PCA (ExPCA) と Tail-Preserving PCA (TP-PCA) の2つの新しい手法が提案された。
    • 理論的および実験的な検証により,ExPCAは主成分分析よりも稀な事象に関する情報の保持において優れていることが確認された。

    Link: https://arxiv.org/abs/2606.14533

  • 摘出検体における3Dハイパースペクトルマッピングのための軽量フィデュシャルベースパイプライン [cs.CV]目的:乳房温存手術検体の3Dハイパースペクトル点群の生成
    • 乳房温存手術における切除縁の評価には,ハイパースペクトルイメージングが有望視されている。
    • 2Dスペクトル情報を3D形状に正確に合わせるための技術が課題となっていた。
    • 消費者向けカメラとハイパースペクトルカメラを用いた,自動化されたパイプラインの開発。
    • 本パイプラインは,1mm以下の3D登録誤差,0.02mm以下の2D再投影誤差を達成した。
    • 検体ごとの処理時間は,高速化されたハードウェア上で4分未満で完了する。
    • これらの結果は,手術中の切除縁評価にハイパースペクトルイメージングを組み込む可能性を示唆する。

    Link: https://arxiv.org/abs/2606.14534

  • グローバル平均プーリングの再考:あなたの分類器は秘密裏にマルチインスタンス学習器である [cs.CV, cs.AI]目的:グローバル平均プーリングの解釈と,それに基づく空間的なクラス情報の抽出
    • 画像分類はコンピュータビジョンの重要なタスクであり,様々な応用分野で利用されている。
    • 従来の画像分類器では,グローバル平均プーリングによって空間情報が失われる場合がある。
    • グローバル平均プーリングが持つマルチインスタンス学習の性質を利用し,空間的なクラス情報を復元すること。
    • 標準的な画像分類器は,マルチオブジェクトシーンにおいて意図した分類タスクを学習できることが示された。
    • グローバル平均プーリングによって隠蔽された空間的なクラス情報を,予測グリッドとして抽出することが可能となった。
    • 実験の結果,既存のモデルは前景領域において正解クラスを再現できることが確認された。

    Link: https://arxiv.org/abs/2606.14555

  • 再製造における大型白色家電製品の視覚的品質評価:Multi-View Deformable-DETRを用いたアプローチ [cs.CV]目的:大型白色家電製品の再製造における視覚的品質評価手法
    • 循環型経済の実現には再製造が不可欠であり,品質評価はその重要な要素である。
    • 従来の検出手法は,高解像度マルチビューデータにおける小さな欠陥の検出が困難である。
    • 手作業による品質評価のボトルネックを解消し,再製造ラインの効率化を目指す。
    • 提案手法は,冗長なビュー間の情報を集約することで,詳細な特徴を抽出する。
    • 自己教師あり学習と教師あり学習を組み合わせることで,限られたラベルでもロバスト性を向上させる。
    • 凍結された特徴マップへの線形投影により,モデルの判断根拠となる領域を特定し,説明可能性を高める。

    Link: https://arxiv.org/abs/2606.14556

  • NEST3D:フクロウの巣の高品質多次元データセット [cs.CV, cs.LG]目的:フクロウの巣の3次元構造の詳細なデータセットの構築
    • フクロウの巣は生態系において重要な役割を担うが,詳細な構造データが不足している
    • 従来のデータセットは3次元構造の細かさに欠け,正確な分析が困難であった
    • 本研究は,複雑な形状のフクロウの巣を高精度に3次元再構築するためのデータを提供する
    • 104本の巣を持つ木の,RGB画像,マルチスペクトル画像,3D点群データを含む1.4TBのデータセットを公開した。
    • セマンティックセグメンテーションにおいて,Point Transformer V3がテストセットで86.35%のmIoUを達成した。
    • このデータセットは,3次元再構成,セグメンテーション,分類アルゴリズムの進歩を促進し,生態学的応用を可能にする。

    Link: https://arxiv.org/abs/2606.14562

  • 産業コンピュータビジョンのデータ生成・拡張のためのGenAIベース手法の質的レビュー [cs.CV]目的:産業コンピュータビジョンにおけるデータ生成・拡張のためのGenAIベース手法の現状分析
    • AI駆動のコンピュータビジョンは産業界で不可欠であり,信頼性の高い動作と性能が求められる。
    • 産業用途では十分なデータセットの構築が難しく,アプリケーションの予測可能性と信頼性を損なう可能性がある。
    • 初期のデータ収集段階におけるGenAIベースのデータ生成・拡張手法の有効性と課題を明らかにすること。
    • GenAIベースの手法は,データセットの自動的な拡充に潜在的な可能性を示唆している。
    • しかし,ソース環境とターゲット環境(産業用事例)の間で,自然言語によるコンテキストやオブジェクト特性の不一致が課題となる。
    • ユーザーの信頼を失う「鶏の卵」状態を打破するため,データセットとアプリケーションの同時開発が重要である。

    Link: https://arxiv.org/abs/2606.14578

  • S$^2$COPE:嗜好学習による自己教師あり概念発見 [cs.CV]目的:自己教師あり学習による概念発見のフレームワーク
    • 大規模データでの表現学習が重要視される一方,特徴量の解釈性が課題となっている。
    • 解釈可能なモデルは,密な人間によるアノテーションに依存しており,拡張性に限界がある。
    • ラベルなしで,VLLMが自律的に概念を発見し,解釈可能性を高めることを目指す。
    • 提案手法S$^2$COPEは,VLLMを能動的な概念発見ループに組み込むことで,新たな概念を抽出する。
    • 自然,医療,物理学の各分野において,従来のVLLMでは生成が困難なドメイン固有の概念を抽出することに成功した。
    • 自己教師あり嗜好学習を通じて,未知データにおけるトップ1分類精度を最大24ポイント改善した。

    Link: https://arxiv.org/abs/2606.14586

  • AudioDER:ポストトレーニング大規模オーディオ言語モデルのための重複排除強化推論データセット [cs.SD, cs.AI]目的:大規模オーディオ言語モデルの推論能力向上を目指した,重複排除処理を施したデータセット
    • 音声理解の分野では,大規模言語モデルの活用が進んでいる。より高度な推論能力が求められている。
    • 既存の音声データセットは,内容が重複しており,多様性やポストトレーニングの効果を制限している。
    • データセットの多様性を高め,重複を排除することで,音声推論能力の向上を図る。
    • AudioDERは,約19.1万件の音声,質問,回答,キャプション,推論経路を含むデータセットである。
    • AudioDERを用いたポストトレーニングにより,Qwen2-Audio-7B-Instructの複数の音声推論ベンチマークにおける性能が向上した。
    • 本データセットは,音声推論研究とより高性能な大規模オーディオ言語モデルの開発に貢献することが期待される。

    Link: https://arxiv.org/abs/2606.14591

  • 潜在空間の月光:ベートーヴェン第27番第2楽章と機械学習メカニズムのキラリティーと構造的対応 [cs.CE, cs.SI, cs.SD, cs.AI, eess.AS]目的:ベートーヴェンの「月光ソナタ」の構造と機械学習アーキテクチャの対応
    • 音楽の構造と認知メカニズムの解明は,芸術理解の深化に不可欠である。
    • 音楽構造の分析には,音楽理論に依存した解釈が中心であり,客観的評価が困難である。
    • 音楽構造を機械学習の観点から捉え,新たな分析手法の可能性を示す。
    • 「月光ソナタ」の各楽章が,それぞれストリーミング,リカレント,周期的な位置エンコーディングメモリアーキテクチャを実装していることが示された。
    • 楽曲の「温度」は分布の幅ではなく,スループットによって制御されるという反直観的な結果が得られた。
    • エンコード・デコードサイクルのキラリティー測定から,自然言語の方が音楽よりも強い順序制約を持つことが示唆された。

    Link: https://arxiv.org/abs/2606.14612

  • StereoGeo:エンドツーエンドのステレオカメラキャリブレーション手法 [cs.CV]目的:ステレオカメラのキャリブレーション
    • ロボットや自動運転において,正確なカメラキャリブレーションは重要な基盤技術である。
    • 従来のキャリブレーション手法は,特定の環境や構成に依存し,汎用性に欠ける場合が多い。
    • 様々な環境下で,ステレオカメラの内部・外部パラメータを高精度に推定すること。
    • StereoGeoは,GeoCalibアルゴリズムを拡張し,深層ニューラルネットワークの特徴抽出と微分可能な最適化器を統合している。
    • 実世界のベンチマーク実験の結果,ステレオカメラの内部キャリブレーションにおいて競争力のある性能を示し,単眼設定に制限された既存手法を上回る正確な外部パラメータ推定を実現した。
    • 本研究で使用したデータセットの一部は,https://github.com/meddourimane/StereoGeo-dataset で公開されている。

    Link: https://arxiv.org/abs/2606.14619

  • イベントデータに対する知識蒸留による軽量顕著性予測:SED [cs.CV]目的:イベントデータにおける顕著性予測手法の開発
    • イベントカメラと顕著性推定の組み合わせは,エッジデバイスにおけるイベントベース知覚の効率化に貢献する。
    • 既存手法は,性能不足,または計算資源制約のあるエッジ環境への適用が困難である。
    • 軽量なネットワーク構造により,エッジデバイスでのリアルタイム処理を可能にすることを目指す。
    • 提案手法SEDは,教師モデルと比較してモデルサイズを562分の1,パラメータ数を554分の1に削減した。
    • N-DHF1KとN-UCF Sportsデータセットにおいて,教師モデルと同等以上の性能を達成した。
    • 合成データで学習したモデルは,実データに対しても高い汎化性能を示した。

    Link: https://arxiv.org/abs/2606.14631

  • 深層学習シュレーディンガーブリッジによる月面地形の改良 [cs.CV, astro-ph.EP]目的:月面地形の高解像度化
    • 惑星地形の研究は,表面プロセスや地質学的形態を理解する上で重要である。
    • 既存の高解像度化手法は計算コストが高く,大規模なデータへの適用が困難である。
    • 本研究は,深層学習を用いて月面地形の解像度を効率的に向上させることを目指す。
    • 拡散に基づくシュレーディンガーブリッジモデルを提案し,低解像度地形から高解像度地形への変換を実現した。
    • 光学画像情報を組み込むことで,物理的な制約を満たす地形再構成が可能となった。
    • 再構成された地形には,ピクセルレベルでの不確実性評価が含まれている。

    Link: https://arxiv.org/abs/2606.14638

  • 自己教師あり音声モデルから専門家混合モデルへ:堅牢な反スプーフィングのために [cs.SD, cs.AI]目的:スプーフィング検知の汎化性能向上
    • 音声合成技術の進歩により,現実と区別がつかない音声が生成され,スプーフィング攻撃が高度化している。
    • 既存のスプーフィング対策システムは,未知の合成手法に対して頑健性に欠けるという課題がある。
    • 自己教師あり学習で獲得した表現を活かし,未知の合成手法にも対応可能なスプーフィング検知手法を確立する。
    • 提案手法では,自己教師あり音声表現モデルを専門家混合(MoE)アーキテクチャに変換することで,音響特徴の多様な側面を捉える。
    • 14個のデータセットを用いた評価の結果,マクロEERを5.46%から4.81%に低減し,ベースラインと比較して11.9%の改善を達成した。
    • MoE変換におけるアーキテクチャ選択の影響や,専門家の活性化パターンについても分析を行った。

    Link: https://arxiv.org/abs/2606.14639

  • 注意を伴うリスニング:Transformerベースの音声モデルに対するエントロピー誘導型解釈可能性 [cs.SD, cs.AI]目的:Transformerベースの音声モデルにおける解釈可能性の向上
    • 高精度な音声認識は,人間と機械の円滑なコミュニケーションに不可欠である。
    • Transformerモデルの予測根拠は不透明であり,解釈性に課題がある。
    • モデルの内部構造を活用し,より忠実で局所的な解釈を生成すること。
    • 提案手法LEAF-Xは,エントロピー誘導型注意重み付けと多層注意展開を組み合わせる。
    • LEAF-Xは既存手法と比較して,解釈の忠実度を32%向上させた。
    • また,LEAF-Xは局所性とスパース性を高め,安定した帰属度を生成した。

    Link: https://arxiv.org/abs/2606.14647

  • HPSv3++:拡散モデルの能力全範囲における報酬モデルの拡張 [cs.CV]目的:拡散モデルの報酬モデルの汎用性向上
    • 画像生成AIの品質向上が,人間との調和を重視する上で不可欠である。
    • 既存の報酬モデルは,AIの進化に追随できず,性能が限定的である。
    • 様々な能力レベルの拡散モデルに対応できる報酬モデルを開発する。
    • HPSv3++は,HPDv3,GenAI-Benchにおいて,HPSv3をそれぞれ9.8%,5.5%上回る性能を示した。
    • 提案手法は,画像生成AIのRL学習において,多様なモデルでGenEvalスコアを改善した。
    • 高解像度画像生成と美的品質評価のための新たなデータセットHPDv3++を構築した。

    Link: https://arxiv.org/abs/2606.14657

  • AIに頭痛を負わせる:コンピュータビジョンアプリケーションへの音響的敵対的攻撃 [cs.CV, cs.AI]目的:コンピュータビジョンシステムに対する音響的敵対的攻撃の実現可能性
    • AIは自動運転,顔認識,セキュリティなど様々な分野で活用が拡大しており,その信頼性が重要である。
    • 既存の研究では高周波数帯域の音響振動を使用しており,距離が短いという課題があった。
    • 可聴域の低周波数音響振動を利用し,AIコンピュータビジョンシステムの脆弱性を明らかにすること。
    • 可聴域の音響振動により,市販のカメラに共振を発生させ,オブジェクト検出モデル(YOLO11)の誤動作を実験的に確認した。
    • AIコンピュータビジョンシステムが攻撃を受けやすい要因を特定し,将来的な対策開発に貢献する知見を得た。
    • カメラの内部安定化メカニズムが想定外の振動に弱く,画像にアーティファクトが発生することで誤認識が誘発されることが示された。

    Link: https://arxiv.org/abs/2606.14658

  • タスク性能を超えて:音声特徴量を用いた生物音響埋め込みの解読 [cs.DC, cs.LG, cs.SD]目的:生物音響埋め込みに含まれる音響特徴量の解明
    • 生物音響学は,動物の行動や生態を理解する上で重要な役割を担う分野である。
    • 既存の埋め込みモデルがどのような音響特徴を捉えているか不明瞭であり,希少種への応用が困難である。
    • 埋め込みモデルが捉える音響特徴を特定し,モデル選択の指針を提供する。
    • 事前学習された埋め込みモデルは,特定の音響特徴に特化しており,単一のモデルでは完全な音響空間を捉えられないことが示された。
    • 複数のモデルを組み合わせた埋め込みが,最も高い性能を発揮し,相補的な音響空間のカバー範囲が示唆された。
    • 音量特徴は高い再現性($R^2 = 0.76$)を示す一方,基本周波数は再現が困難($R^2 = 0.33$)であった。

    Link: https://arxiv.org/abs/2606.14662

  • 過半数の候補者には5人以下で十分であることの解説 [cs.HC, cs.RO, cs.GT, math.CO]目的:候補者選択における過半数の勝利セットの存在
    • 社会選択理論は,多数決による意思決定の公平性や効率性を追求する学問分野である。
    • 候補者が多い場合,過半数の支持を得る候補者を特定することが困難となる場合がある。
    • 候補者数が多くても,必ず過半数の勝利セットが存在することを示す。
    • ソン,グエン,リン(2026)の研究結果に基づき,順位付き選好を持つ選挙において,過半数の勝利セットは最大で5人の候補者で構成されることが示された。
    • この結果は,候補者の絞り込みや効率的な意思決定に役立つ可能性がある。

    Link: https://arxiv.org/abs/2606.14666

  • 長編動画生成のための再現による記憶:一貫性の確保 [cs.CV]目的:長編動画における登場人物の一貫性維持
    • 動画生成技術の発展は,エンターテイメントや教育分野において重要な役割を担う。
    • 既存手法では,動画を短いショット単位で生成するため,登場人物の長期的な一貫性が失われる場合がある。
    • 本研究は,登場人物の記憶を再現することで,長編動画における一貫性を高めることを目指す。
    • 本研究で提案するMementoは,登場人物の情報を明示的に保持し,記憶のみから再構築する能力を重視する。
    • デュアルクエリメカニズムにより,長期的な特徴と短期的なコンテキストを分離し,一貫性のある動画生成を可能にする。
    • 実験の結果,Mementoは,長期間の一貫性,ショット間のコヒーレンス,そして視覚的な品質において,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2606.14667

  • HumP-KD: 高度な不確実性認識を用いた多段階プログレッシブ知識蒸留フレームワークによる効率的な火災分類 [cs.CV, cs.LG]目的:効率的な火災分類のための知識蒸留フレームワーク
    • リアルタイム火災分類は,人命と財産を守る上で重要である。
    • 限られた計算資源での高精度な火災分類モデルの実現が課題である。
    • 軽量なモデルで高精度かつロバストな火災分類を可能にすることを目指す。
    • 提案手法HumP-KDは,Dataset-IIにおいて平均F1スコア0.9876±0.0063を達成し,知識蒸留なしのMobileViT-Sベースライン(0.9537±0.0351)を大きく上回った。
    • HumP-KDは,Swin-TinyやViT-Baseと比較してパラメータ数を大幅に削減しつつ,高い性能を維持している。
    • CPUでの処理速度は37.72 FPSであり,リアルタイム展開に適している。

    Link: https://arxiv.org/abs/2606.14684

  • コットンリーフビジョン:綿の葉病分類のための説明可能で堅牢な深層学習フレームワーク [cs.CV, cs.AI]目的:綿の葉病分類の精度向上
    • 綿は繊維産業の基盤であり,経済的に重要な作物である。
    • 葉病の正確な識別・検出が困難であり,経済的損失につながる。
    • 深層学習を活用し,より高精度で信頼性の高い葉病分類を実現する。
    • DenseNet201を用いて98%という高い分類精度を達成した。
    • Grad-CAMやオクルージョン感度分析,敵対的学習により,モデルの解釈性とロバスト性を高めた。
    • 実用的な農業アプリケーションのプロトタイプを開発し,現場での活用を検証した。

    Link: https://arxiv.org/abs/2606.14686

  • ClinHallu:医療MLLM推論における段階的幻覚診断のためのベンチマーク [cs.CV, cs.AI, cs.CL]目的:医療MLLM推論における段階的幻覚診断のためのベンチマーク
    • 信頼性の高い臨床意思決定支援には,医療MLLMの信頼性が不可欠である。
    • 既存の医療幻覚ベンチマークはデータ収集に重点が置かれ,推論過程のどの段階で幻覚が発生するかは無視されている。
    • 推論過程における幻覚発生源の特定と,その軽減を目指す。
    • ClinHalluは,視覚認識,知識想起,推論統合の3段階で構成される7,031件の検証済みインスタンスを含む。
    • 段階置換介入により,特定の段階を修正することで最終的な回答への影響を測定できる。
    • トレース監視型ファインチューニングは,段階的な幻覚を軽減することが示された。

    Link: https://arxiv.org/abs/2606.14697

  • Instruct-Particulate: キネマティック制御による3D物体関節のスケール拡大 [cs.CV, cs.GR, cs.RO]目的:3D物体の関節構造の推定と,それに伴う関節運動パラメータの予測
    • アニメーション,ゲーム,ロボットシミュレーション等において,3D物体の関節構造を再構成することは重要である。
    • 関節構造の推定において,アノテーションされたデータの不足が,モデルの汎化性能を制限している。
    • 多様なトレーニングデータを活用し,モデルの汎化性能を向上させることで,この課題を解決する。
    • Instruct-Particulateは,3Dメッシュとキネマティック仕様を入力とし,関節部のセグメンテーションと関節運動パラメータを予測する。
    • 大規模な言語モデルを用いてキネマティック仕様を自動的に取得することで,様々な入力メッシュに適用可能である。
    • 15万件以上の関節構造を持つ3Dオブジェクトの異種データセットを用いて学習を行い,既存モデルと比較して高い汎化性能を示した。

    Link: https://arxiv.org/abs/2606.14699

  • 表現空間におけるノイズ除去のためのマルチモーダル事前知識の活用:RepFusion [cs.CV]目的:表現空間におけるノイズ除去のためのマルチモーダル事前知識の活用
    • 近年の画像生成技術において,大規模言語モデルの活用が広がっている。高品質な画像生成には不可欠な要素である。
    • 既存の画像生成システムでは,言語モデルはテキストエンコーディングに限定され,ノイズ除去は新たに学習されたモデルに依存している。
    • 本研究は,マルチモーダル大規模言語モデルの持つ事前知識を活用し,ノイズ除去性能を向上させることを目指す。
    • RepFusionは,マルチモーダル大規模言語モデルをノイズのある表現のエンコーダとして再利用し,拡散変換器の条件付け信号として用いる。
    • 同程度の計算資源を持つベースラインと比較して,RepFusionは優れた性能を示す。
    • これらの結果は,マルチモーダル大規模言語モデルが視覚表現のノイズ除去に強い事前知識を提供することを示唆している。

    Link: https://arxiv.org/abs/2606.14700

  • RATS!レジスタを通じて対話するパッチ:レジスタ注意トランスフォーマーにおける創発的な部分 [cs.CV]目的:視覚モデルにおける構成構造の自律的な発見
    • 画像認識の性能向上には,対象物体の部分構造の理解が不可欠である。
    • 既存のモデルは,明示的な部分構造のラベル付けなしに,これを学習することが難しい。
    • レジスタ注意トランスフォーマーにより,ラベルなしで部分構造を自律的に学習する。
    • RATSは,5つのセグメンテーションベンチマークで平均+12 mIoUを達成し,既存モデルを上回った。
    • ADE20K (+1.11 mIoU)とCOCO (+0.2 AP^m)において,一貫した性能向上を示した。
    • レジスタ辞書は,関連カテゴリ間で部分レベルの一貫性と意味的な近接性を示した。

    Link: https://arxiv.org/abs/2606.14701

  • OmniVideo-100K:構造化スクリプトと証拠チェーンによるオーディオビジュアル推論のためのデータセット [cs.CV]目的:オーディオビジュアル推論のためのデータセット構築
    • 近年のマルチモーダル研究の発展に伴い,映像と音響を統合した情報処理への関心が高まっている。
    • 既存のQAシステムは,短いクリップ単位での処理と独立した記述生成により,音と視覚の関連性が失われやすい。
    • 本研究では,エンティティに起点を置いたスクリプトと手がかりに基づいたQA生成により,長期間の時系列推論とクロスモーダルな推論を可能にする。
    • 提案手法により構築されたOmniVideo-100Kデータセット上でVITA-1.5等のモデルをファインチューニングした結果,OmniVideo-Testにおいて最大20.59%の性能向上を達成した。
    • Daily-OmniやJointAVBenchといった既存のベンチマークにおいても,最大12.64%の性能向上が確認され,汎化性能の高さを示した。
    • エンティティリストを活用することで,セグメント間の参照一貫性を確保し,オーディオビジュアルの関連性を再構築することに成功した。

    Link: https://arxiv.org/abs/2606.14702