arXiv雑要約

画像・音声 - 2026/05/06 公開

  • 自己教師あり表現融合によるディープフェイク音声検出 [cs.CL, cs.CY, cs.NI, cs.SD, cs.AI]目的:ディープフェイク音声検出のための表現融合手法
    • 音声技術の進歩に伴い,ディープフェイク音声による悪用が深刻化しており,検知技術の確立が急務である。
    • 既存の検知手法は,音声と環境音の独立した操作に対応できていない場合があり,高精度な検知が困難である。
    • 音声と環境音の両方を考慮した,よりロバストなディープフェイク音声検出手法を開発すること。
    • 提案手法は,音声と環境音の文脈表現を共同でモデル化する二分枝フレームワークを採用している。
    • 事前学習済みモデルXLS-RとBEATsを活用し,音声と環境音の特徴表現を抽出することで,高い識別性能を実現した。
    • テストセットにおいて,F1スコア70.20%と環境EER16.54%を達成し,ベースラインシステムを上回る結果を示した。

    Link: https://arxiv.org/abs/2605.03420

  • MK-ResRecon:疎な2Dスライスからのテクスチャ認識3D MRI再構成のための多カーネル残差フレームワーク [cs.CV]目的:疎な2Dスライスからの高精度3D MRIボリュームの再構成
    • MRIは医療診断に不可欠だが,撮影時間が長く患者への負担が大きい。
    • 撮影時間の長さはモーションアーチファクトの原因となり,画質劣化を引き起こす。
    • 少ないスライス数から高精度な3D MRIを再構成し,撮影時間の短縮を目指す。
    • 提案手法MK-ResReconとIdentityRefineNet3Dにより,全解像度3D再構成に軸方向スライス12.5%で十分であることを示した。
    • 多カーネルテクスチャ認識損失を用いることで,細かな解剖学的構造を保持した再構成が可能になった。
    • 大規模な脳MRIデータセットでの評価により,高い精度と汎化性能が確認された。

    Link: https://arxiv.org/abs/2605.03432

  • 3D異常検知のためのマルチスケール詳細度特徴からの識別符号付き距離関数学習 [cs.CV, cs.LG]目的:3D点群における異常検知のための識別符号付き距離関数の学習
    • 3D点群データは,自動運転やロボティクス等,幅広い分野で利用が拡大しており,その応用可能性は高い。
    • 点群データの規模が大きく,疎であるため,点ごとの正確な表現学習が困難であるという課題が存在する。
    • マルチスケール詳細度特徴を用いた表面ベースの手法により,点群データの異常検知精度向上を目指す。
    • 提案手法は,Anomaly-ShapeNetデータセットで平均オブジェクトレベルAUROC 92.1%を達成し,既存手法を2.1%上回った。
    • Real3D-ADデータセットにおいても,平均オブジェクトレベルAUROC 85.9%を達成し,既存手法を3.6%上回る性能を示した。
    • ノイズ生成モジュールとマルチスケール詳細度特徴モジュールにより,異常点と正常点を効果的に識別する符号付き距離関数を学習した。

    Link: https://arxiv.org/abs/2605.03437

  • Mantis: Mambaネイティブなチューニングは3D点群ファウンデーションモデルに対して効率的である [cs.CV]目的:3D点群ファウンデーションモデルの効率的なパラメータ効率型ファインチューニング
    • 3D点群処理は,自動運転,ロボティクス,コンピュータビジョン等,多様な応用分野で重要性を増している。
    • ファウンデーションモデルのフルファインチューニングは計算コストとストレージ容量を要するため,実用上の課題となっている。
    • Mambaベースのモデルにおける既存のPEFT手法の適用による性能劣化と最適化の不安定性を解消することを目指す。
    • Mantisは,Mambaベースの3D点群ファウンデーションモデル向けの初のネイティブなPEFTフレームワークである。
    • State-Aware Adapter(SAA)を導入することで,わずか5%程度の学習パラメータで競争力のある性能を実現した。
    • Dual-Serialization Consistency Distillation(DSCD)により,シリアライゼーションに起因する不安定性を軽減している。

    Link: https://arxiv.org/abs/2605.03438

  • VL-SAM-v3:メモリによる視覚的事前知識を用いた,開かれた世界における物体検出 [cs.CL, cs.CL, cs.CL, cs.RO, cs.CV]目的:開かれた世界における物体検出の性能向上
    • 既存の物体検出は,限られたカテゴリにしか対応できないため,実世界での応用が課題となっている。
    • 従来のオープンワールド物体検出は,粗いテキスト情報に依存し,微細な外観変化や稀なカテゴリに対応できない。
    • 本研究は,外部の視覚的メモリを活用し,よりロバストな物体検出を実現することを目的とする。
    • VL-SAM-v3は,検索に基づいた外部視覚メモリを用いて,オープンワールド物体検出を強化する。
    • LVISデータセットでの実験により,VL-SAM-v3がオープンボキャブラリおよびオープンエンデッド推論の両方において,検出性能を向上させることが示された。
    • 特に,稀なカテゴリにおいて顕著な性能向上が認められ,提案手法の汎用性も確認された。

    Link: https://arxiv.org/abs/2605.03456

  • 形状先行,意味後行:屋内再構成のための効率的な幾何学と意味学習 [cs.CV]目的:屋内3D再構成における幾何学と意味の学習
    • 屋内3D再構成は,ロボティクスや拡張現実など,多様な応用分野で不可欠な技術である。
    • 既存手法は学習に時間がかかり,大規模なデータセットへの適用が困難な場合がある。
    • 幾何学と意味を効率的に学習し,再構成の精度と速度を向上させることを目指す。
    • まず幾何学を学習させた後で意味を推定する二段階アプローチにより,標準的な同時最適化と比較して大幅な改善が見られた。
    • Replicaデータセット上では2.3倍高速に学習し,ScanNet++データセット上では現実世界の不完全さに対するロバスト性が向上した。
    • より多くのオブジェクト表面を再構成することで,高い再現率を達成した。

    Link: https://arxiv.org/abs/2605.03463

  • WorldJen:生成ビデオモデルのためのエンドツーエンド多次元ベンチマーク [cs.CV]目的:生成ビデオモデルの評価における課題解決と,より信頼性の高い評価指標の確立
    • 生成ビデオモデルは急速に発展しているが,その性能を客観的に評価する方法が確立されていない。
    • 既存の評価指標は,画素レベルの忠実性や分布に偏っており,意味的な正確性や物理的な妥当性を捉えきれていない。
    • 多次元的な評価を可能にする新たなベンチマークを構築し,人間による評価との整合性を検証すること。
    • 本研究では,高解像度フレームを用いて,視覚言語モデル(VLM)による評価システムを開発した。
    • 人間によるペアワイズ比較実験の結果と,VLMによる評価結果が,三層構造のBT評価において高い一致を示した(Spearman $\hat{\rho}=1.000$)。
    • 複数のアブレーションスタディにより,VLM評価フレームワークの堅牢性が確認された。

    Link: https://arxiv.org/abs/2605.03475

  • MHPR:大規模ビジョン言語モデルのための多次元人間知覚・推論ベンチマーク [cs.CV, cs.AI]目的:人間中心のシーンにおける知覚と推論の共同評価
    • 現実世界の応用には人間理解が不可欠であり,特に映画分析やデジタルヒューマン開発において重要である。
    • 既存のベンチマークは単一タスクに偏っており,人間中心のきめ細かい評価が不足している。
    • 人間中心のシーンにおける多次元的な知覚・推論能力の評価基準を確立し,モデルの性能向上を目指す。
    • 本研究で開発したMHPRベンチマークは,個人の特徴,複数人物,人物と物体のインタラクションを網羅的に評価可能である。
    • SFTデータによる事前学習が,指示への追従性と安定性を大幅に向上させることが示された。
    • 難易度の高い事例に特化したRLデータを用いることで,知覚と推論能力がさらに強化され,より大規模なモデルに匹敵する性能が達成された。

    Link: https://arxiv.org/abs/2605.03485

  • 多角的MRI画像を用いた脳腫瘍分類のための方向性認識型ドメイン適応 [eess.SY, cs.SY, cs.CV]目的:多角的MRI画像を用いた脳腫瘍分類におけるドメイン適応手法
    • 脳腫瘍の診断精度向上は,患者の予後改善に不可欠であり,AI技術への期待が高い。
    • MRIデータのアノテーション不足や,施設間での画像の違いが,AIモデルの汎化性能を阻害する。
    • アノテーション不要で,異なる施設間での画像の違いを克服し,分類精度を向上させることを目指す。
    • 提案手法は,入力スライスの方位(axial, sagittal, coronal)を識別し,それぞれに特化したCNNを適用することで,特徴抽出の精度を高めた。
    • 多角的MRI画像(T1, T2, FLAIR)からの知識転移と,疑似ラベルを用いた適応により,アノテーション不足とドメイン不一致の問題を軽減した。
    • 実験結果から,提案手法が既存手法よりも高い分類性能を示すことが明らかになり,ドメイン適応の有効性が示された。

    Link: https://arxiv.org/abs/2605.03490

  • 低照度画像品質改善のためのバタフライ・ホタル最適化Retinexエンハンスメント [cs.CV, cs.AI]目的:低照度画像品質の改善
    • コンピュータビジョンやマルチメディア分野において,低照度環境下での画像処理は不可欠である。
    • 従来のRetinex法はパラメータ調整が手動であり,多様な照明条件への対応が困難である。
    • 本研究は,多様な照明条件に対応可能な自動パラメータ調整手法を確立する。
    • 提案手法BFOREは,LOLベンチマークデータセットにおいて,従来のエンハンスメント手法の中で最高のPSNR(17.22dB)を達成した。
    • BFOREは,ヒストグラム平坦化やMSRCRと比較して,それぞれ20.3%と17.5%のPSNR改善を示した。
    • 学習データ不要で,深層学習ベースラインであるRetinexNetよりもPSNRとSSIMの両方で優位性を示した。

    Link: https://arxiv.org/abs/2605.03509

  • Cosmodoit:演奏された音楽からの特徴抽出のための適応的・効率的なパイプラインを構築するPythonパッケージ [cs.SD, cs.IR]目的:演奏された音楽からの特徴抽出の効率化
    • 演奏は音楽体験の重要な要素であり,その分析は音楽情報研究の基盤である。
    • 既存のアルゴリズムやツールは分散しており,効率的な組み合わせが困難である。
    • 多様なツールを統合し,効率的な大規模処理を可能にすることを目的とする。
    • Cosmodoitは,演奏と楽譜のアライメント,シンボリック特徴抽出,オーディオ特徴抽出を統合する。
    • モジュール化された柔軟なパイプラインは,選択的処理,依存関係に基づいた計算,および漸進的な更新をサポートする。
    • 複数言語の実装に対応し,パラメータ調整による一貫した特徴抽出を可能にする。

    Link: https://arxiv.org/abs/2605.03541

  • DALPHIN:デジタル病理AIアシスタントの性能を多施設共同オープンデータセットで評価 [cs.CV, cs.AI]目的:デジタル病理におけるAIアシスタントの性能評価
    • 病理診断の精度向上と効率化が医療現場で求められているため。
    • AIアシスタントの性能評価は,客観的で標準化されたベンチマークが不足している。
    • 多施設共同のオープンデータセットを用いて,AIアシスタントの性能を客観的に評価すること。
    • PathChat+は6つのタスク中4つで,熟練病理医と同等の性能を示した。
    • Geminiは2/6,GPT-5は1/6のタスクで同等の性能を示した。
    • DALPHINは公開されており,堅牢なベンチマーク評価を促進する。

    Link: https://arxiv.org/abs/2605.03544

  • ペルソナを消去し,伝承を忘却する:大規模ビジョン言語モデルにおける多Modal著作権アンラーニングのベンチマーク [cs.CV, cs.AI]目的:大規模ビジョン言語モデルにおける著作権コンテンツのアンラーニング評価のためのベンチマーク
    • Web規模のデータで学習するモデルが著作権コンテンツを記憶・再生するリスクがあるため,その対策が重要である。
    • 既存の評価方法は,頑健性に欠けるか,クロスモーダル概念の消去のニュアンスを捉えられないという課題がある。
    • LVLMにおける著作権コンテンツのアンラーニングの評価を可能にする標準化されたツールを提供することを目的とする。
    • 本研究では,法的に安全な合成データと系統的な視覚バリエーションを用いて,新しいベンチマーク CoVUBench を提案した。
    • CoVUBenchは,著作権保有者の視点からの忘却効果と,デプロイヤーの視点からの汎用的なモデルの有用性の維持を評価する。
    • この評価を通じて,責任あるアンラーニング手法の開発を促進するための標準化されたツールを提供することができた。

    Link: https://arxiv.org/abs/2605.03547

  • MILE:ドメイン・モダリティを横断する継続的セマンティックセグメンテーションのための段階的LoRAエキスパートの混合 [cs.CV]目的:継続的セマンティックセグメンテーションにおけるドメイン・モダリティ間での適応
    • セマンティックセグメンテーションは,自動運転や医療画像解析など,様々な応用分野で重要である。
    • 既存手法では,新しいタスクを学習する際に,以前の知識を忘れてしまう「破滅的忘却」が課題となる。
    • 本研究は,効率的かつスケーラブルなエキスパート学習により,破滅的忘却を軽減し,継続学習性能を向上させる。
    • MILEは,軽量なLoRAエキスパートを活用することで,パラメータ効率の良い継続学習を実現する。
    • プロトタイプガイディングゲート機構により,推論時に最適なエキスパートが動的に選択される。
    • ドメイン・モダリティを横断するベンチマークにおいて,高い性能と安定性,可塑性,スケーラビリティを示す。

    Link: https://arxiv.org/abs/2605.03555

  • AfriVox-v2:野生環境下のアフリカ言語音声認識のためのドメイン特化型ベンチマーク [cs.CL, cs.SD]目的:アフリカ言語音声認識の性能評価
    • グローバル化が進む中で,多様な言語への対応が重要になっている。
    • 既存のベンチマークでは,アフリカ言語の現実的な環境下での性能評価が不十分である。
    • アフリカ言語の音声認識モデルの汎化性能のギャップを明らかにし,改善の指針を提供する。
    • AfriVox-v2は,現実的なアフリカの環境下での音声認識性能を評価するための包括的なベンチマークである。
    • 多様なドメイン(政府,金融,医療,農業など)に特化した評価を行い,数値や固有表現の認識精度も検証した。
    • 最新の音声認識モデル(Sahara-v2, Gemini 3 Flash, Omnilingual CTC)の評価を行い,専門的かつノイズの多い環境下での性能差を明らかにした。

    Link: https://arxiv.org/abs/2605.03590

  • LLMを用いた多エージェント戦略ゲーム [cs.GT, cs.AI, cs.CY]目的:紛争と協力の戦略的基盤の研究
    • 国際関係における協力と対立のメカニズム解明は,世界平和の実現に不可欠である。
    • 既存の研究では,複雑な戦略的相互作用を実験的に検証することが困難であった。
    • LLMを用いることで,戦略的状況における行動メカニズムを大規模に分析することを目指す。
    • 多極化は紛争の可能性を高め,有限期間は後方帰納法に沿った行動を引き起こすことが示された。
    • コミュニケーションは,シグナリングや互恵性を可能にし,紛争を減少させる効果が確認された。
    • LLMの思考過程やメッセージにアクセスすることで,戦略的ロジックと行動の関連性が明らかになった。

    Link: https://arxiv.org/abs/2605.03604

  • 高分解能衛星画像における影の除去のための物理に基づいたデータセット作成:deSEO [cs.CV, eess.IV]目的:高分解能衛星画像の影の除去のためのペアデータセットとモデルの開発
    • 衛星画像は地理空間分析に不可欠だが,影の影響で性能が低下する。
    • 影と影のない画像のペアデータセットが不足しており,既存のデータセットは影検出や3Dモデリング向けである。
    • 衛星画像に特化した,幾何学的に整合性の取れた影除去ペアデータセットを構築すること。
    • deSEOは,S-EOデータセットから幾何学と物理に基づいた方法でペアデータを生成する。
    • 生成されたデータセットとDSMを考慮したdeshadowingモデルは,多様な条件下で影の影響を軽減し,構造と知覚的な忠実度を向上させる。
    • deSEOは,衛星地球観測における影除去のための再現可能なデータセットとベースラインを提供する。

    Link: https://arxiv.org/abs/2605.03610

  • アフォードダンスインスタンスセグメンテーションにおける不確実性推定:ベイジアンビジュアルトランスフォーマーの活用 [cs.CV]目的:アフォードダンスインスタンスセグメンテーションにおける不確実性推定手法
    • シーン理解の新たなパラダイムとして,アフォードダンスの認識が重要視されている。
    • アフォードダンスの正確かつ局所的な予測が,応用展開の課題となっている。
    • ベイジアンビジュアルトランスフォーマーを用いて,不確実性を考慮したアフォードダンスセグメンテーションを目指す。
    • 提案手法は,複数のサブネットワークによるアンサンブルにより,決定論的ネットワークよりもマスクの精度と汎化性能を向上させた。
    • IIT-Affデータセットにおいて,$F_{\beta}^w$スコアが+7.4 p.p向上し,優れた結果が得られた。
    • ベイジアンモデルは,より適切な確率を生成し,不確実性の推定においても高い性能を示した。特に,アレオリック分散は物体の輪郭に,エピステミック分散は困難なピクセルに現れることが示され,解釈性にも貢献する。

    Link: https://arxiv.org/abs/2605.03614

  • PriorNet:事前知識に基づく顔動画からの関与度推定 [cs.CV]目的:顔動画からの関与度推定手法
    • 非言語コミュニケーション理解の基盤技術として重要であり,人間とコンピュータ間の自然な対話を可能にする。
    • 顔の表情が不完全だったり,アノテーションデータが不足していたり,関与度の判断が主観的であるため,正確な推定が困難である。
    • 事前知識を活用することで,不完全な顔情報の問題に対処し,よりロバストな関与度推定を実現することを目指す。
    • PriorNetは,前処理,モデル適応,目的関数設計の3段階で事前知識を導入することで,既存手法を上回る性能を達成した。
    • 顔検出の失敗を明示的に処理することで,入力シーケンスにおける顔の欠損を適切に表現し,推定精度を向上させている。
    • Prior-LoRAを用いた効率的なモデル適応と,不確実性を考慮した損失関数が,性能向上に貢献していることが示された。

    Link: https://arxiv.org/abs/2605.03615

  • 累積フローマップに基づく少数ステップ生成モデル [cs.LG, cs.GR]目的:確率空間における長距離輸送のための生成モデリング手法
    • 物理輸送やダイナミクスにおけるフローマップの考え方を応用し,確率モデルの長距離輸送を効率的に行う重要性。
    • 既存の拡散モデルやフローベースモデルは,生成に多くのステップを必要とし,計算コストが高いという課題。
    • 累積フローマップにより,少ないステップ数で高品質な生成を可能にし,計算コストを削減することを目指す。
    • 累積フローマップという概念を導入し,局所的な更新と有限時間輸送を繋ぐことで,少ないステップ数での生成を実現した。
    • 拡散モデルやフローベースモデルへの適用が容易であり,モデルの容量を増やすことなく,生成品質を維持できることを示した。
    • 画像生成,幾何分布モデリング,ジョイント予測,SDF生成など,多様なタスクにおいて有効性を実証し,推論コストを削減した。

    Link: https://arxiv.org/abs/2605.03623

  • RPBA-Net:RAWドメインISP強化のための解釈可能な残差ピラミッド双方向アフィンネットワーク [cs.CV]目的:RAWドメインにおけるISP強化手法
    • 画像処理において,RAWデータ処理は画質を最大限に引き出す上で重要である。
    • 既存手法では,モジュールが分断され,処理過程が解釈困難な場合が多い。
    • 本研究は,解釈可能性と効率性を両立したRAWドメインISP強化を目指す。
    • RPBA-Netは,RAWデータを入力とし,RGB表現の再構成と残差アフィン補正を統合することで,デモザイク処理と画像強調を同時に行う。
    • ピラミッド双方向アフィングリッドと,ガイド駆動型の自己回帰的適応スライス,適応的クロスカップリング融合により,グローバルなトーン補正とローカルなテクスチャ強調を階層的にモデル化する。
    • 実験結果から,RPBA-Netは既存のRAW-to-sRGB手法を凌駕し,再構成精度と知覚品質において最先端の性能を発揮することが示された。

    Link: https://arxiv.org/abs/2605.03626

  • 動的点群のための拡散マスク事前学習 [cs.RO, cs.CV]目的:動的点群の自己教師あり学習フレームワーク
    • ロボット工学や自動運転など,時系列点群データを扱う分野において重要性が増している。
    • 既存手法は,正確な位置情報推論と多様な運動予測が困難であるという課題があった。
    • 位置情報の漏洩を防ぎ,運動予測の分布構造を維持することを目的とする。
    • 提案手法DiMPは,位置情報推論と運動学習に拡散モデルを導入することで,位置情報の漏洩を抑制する。
    • DiMPは,決定論的な目標値を用いることなく,運動の潜在的な分布全体を学習可能にする。
    • オフラインアクションセグメンテーションとオンライン推論において,大幅な精度向上が確認された。

    Link: https://arxiv.org/abs/2605.03639

  • 検出器が自らを教える:オープンボキャブラリ物体検出のための軽量な自己教師あり適応 [cs.DB, cs.RO, cs.HC, cs.CV]目的:オープンボキャブラリ物体検出における性能向上
    • 物体検出は画像認識の根幹であり,様々な応用分野で不可欠な技術である。
    • 既存の物体検出器は,学習済みのカテゴリに限定され,未知の物体への対応が困難である。
    • 大規模データで事前学習されたVision-Language Modelの局所特徴の捕捉能力を向上させる。
    • Decoupled Adaptivity Training (DAT) により,VLMsの視覚バックボーンを効率的にファインチューニング可能となった。
    • DATは,COCOおよびLVISデータセットにおいて,新規カテゴリと既知カテゴリの両方で検出性能を向上させた。
    • 本手法は,わずか0.8M以下のパラメータで,推論オーバーヘッドなく性能を向上させるプラグアンドプレイモジュールである。

    Link: https://arxiv.org/abs/2605.03642

  • ビデオオブジェクト中心学習における時間的一貫性の再考:予測から対応へ [cs.CV, cs.LG]目的:ビデオオブジェクト中心学習における時間的一貫性の維持機構
    • 動画理解において,オブジェクト単位での学習は重要性を増しており,その時間的一貫性は課題である。
    • 従来の予測に基づく時間的一貫性は,計算コストが高く,必ずしも最適ではない。
    • 学習された予測関数ではなく,オブジェクトの特徴量間の対応関係を利用することで,効率的な時間的一貫性を実現する。
    • 学習された遷移関数を決定的な二部マッチングに置き換えることで,時間モデリングに必要な学習パラメータをゼロに削減した。
    • バックボーン特徴量の顕著領域からスロットを初期化し,スロット表現上でハンガリー法によるフレーム間の同一性を維持する。
    • MOVi-D,MOVi-E,YouTube-VISにおいて,競争力のある性能を達成した。

    Link: https://arxiv.org/abs/2605.03650

  • AniMatrix:芸術を思考するアニメ動画生成モデル [cs.CV, cs.AI]目的:アニメ動画生成における芸術性の表現
    • 動画生成技術は,映像制作の効率化や新たな表現の可能性を広げる上で重要である。
    • 既存の動画生成モデルは物理法則を重視し,アニメ特有の芸術表現を十分に再現できていない。
    • アニメの芸術的特徴を理解し,物理法則に縛られない動画生成を実現すること。
    • AniMatrixは,物理的正しさではなく芸術的正しさを目指すことで,アニメの表現力を向上させている。
    • Production Knowledge SystemとAniCaptionにより,アニメの制作変数を構造的に制御し,高い指示理解度を実現した。
    • 専門家による評価において,プロンプト理解度と芸術的なモーションにおいて既存モデルを大きく上回る結果が得られた。

    Link: https://arxiv.org/abs/2605.03652

  • 知識蒸留を用いた高性能モバイルNPU向けリアル画像ノイズ除去 [cs.RO, cs.CV, cs.LG]目的:モバイルNPUにおけるリアル画像ノイズ除去のためのハードウェア・アルゴリズム協調設計
    • モバイルデバイスでの高画質化処理の需要が高まっており,NPUの活用が重要となっている。
    • 深層学習モデルは高精度だが,モバイルNPUへの実装には演算子の互換性やメモリアクセスが課題である。
    • 本研究は,NPUに最適化された軽量なモデルにより,モバイルNPUでの高精度ノイズ除去を実現することを目指す。
    • 提案手法は,Teacherモデルの知識をStudentモデルに蒸留することで,パラメータ数を大幅に削減しつつ,高い復元品質を維持した。
    • Mobile AI 2026チャレンジにおいて,2432x3200の高解像度画像で37.58dB PSNR/0.9098 SSIMを達成した。
    • NPUネイティブな演算子に最適化することで,GPUと比較して最大3.88倍高速な推論が可能となった。

    Link: https://arxiv.org/abs/2605.03680

  • コードから予測へ:NNGPTにおけるニューラルネットワーク性能分類のためのLLMのファインチューニング [cs.LG, cs.CV]目的:ニューラルネットワークのコードから,異なるデータセットにおける性能の比較判断
    • AutoMLの発展に伴い,LLMがハイパーパラメータ最適化やネットワーク生成に活用されている。
    • LLMは生成されたコードの評価に重点が置かれ,ネットワーク性能の推論能力は未解明である。
    • LLMがニューラルネットワークのコードから性能を予測できるか検証する。
    • ファインチューニングされたLLMは,データセットを跨いだニューラルネットワークの性能を予測できることが示された。
    • コードのみをプロンプトに用いた場合,ピーク精度は80%に達し,データセットメタデータよりも優れた汎化性能を示した。
    • データセットメタデータは特徴的なデータセットに対して高い精度を示したが,特性が重複すると精度が低下する傾向が見られた。

    Link: https://arxiv.org/abs/2605.03686

  • 二重専門家混合を用いた統一マルチモーダル視覚トラッキング [cs.AR, cs.PF, cs.CV]目的:マルチモーダル視覚オブジェクトトラッキングの統一的フレームワーク
    • 視覚トラッキングは,自動運転やロボティクスなど幅広い応用分野で重要である。
    • 既存手法は,各モダリティごとにモデルを学習するか,事前学習モデルへの依存度が高い。
    • 様々なモダリティに対してエンドツーエンド学習を可能にする統一的なフレームワークを開発する。
    • OneTrackerV2は,5つのRGBおよびRGB+Xトラッキングタスクにおいて最先端の性能を達成した。
    • 共有アーキテクチャと単一のエンドツーエンド学習により,高い推論効率を維持している。
    • モデル圧縮後も高い性能を維持し,モダリティ欠損シナリオに対する頑健性も示す。

    Link: https://arxiv.org/abs/2605.03716

  • FluxFlow:天体画像の超解像のための保守的なフローマッチング [cs.CV]目的:地上からの観測データを用いた天体画像の超解像技術
    • 天体観測において,より高解像度の画像を得ることは,宇宙の理解を深める上で不可欠である。
    • 地上からの観測は,大気の影響や画素サンプリングの解像度により,画像の品質が制限されるという課題がある。
    • 本研究は,現実的な大気の状態を考慮し,物理的に不自然な画像の生成を抑制する超解像技術を開発する。
    • FluxFlowは,観測の不確実性と重要な領域の重みを学習時に組み込むことで,過剰な平滑化や幻覚のような画像の生成を抑制する。
    • トレーニングデータには,大規模な実世界のDESI-HSTデータセット(19,500組の画像ペア)を使用し,現実的な大気PSF変動を考慮した評価を行った。
    • 実験の結果,FluxFlowは既存の手法と比較して,測光精度と科学的精度において一貫して優れた性能を示した。

    Link: https://arxiv.org/abs/2605.03749

  • 忘れる前に覚えておく:LVLMアンラーニングベンチマークにおける基礎学習の失敗の再検討 [cs.CV, cs.AI]目的:LVLMにおける基礎学習の失敗の診断と,信頼性の高い記憶評価基準の確立
    • 近年,大規模ビジョン言語モデルの能力は飛躍的に向上しているが,プライバシー保護が重要課題となっている。
    • 既存のアンラーニングベンチマークは,モデルが情報を十分に記憶できていないという初期段階の失敗を見過ごしている。
    • 本研究は,モデルの初期学習の信頼性を高め,より正確なアンラーニング評価を実現することを目的とする。
    • 本研究では,ReMemという信頼性の高い多段階・多画像記憶評価ベンチマークを提案した。
    • ReMemは,データスケーリングや推論能力を考慮した質問ペア,多様な視覚的コンテキストを通じて,堅牢な基礎学習を保証する。
    • また,モデル内部の確率分布における情報消去の深さを定量化するExposure指標を新たに提案し,その有効性を実証した。

    Link: https://arxiv.org/abs/2605.03759

  • GeoTopoDiff:境界制約混合拡散による幾何・トポロジーグラフ事前学習を用いた疎なスライスによる3D多孔質構造再構築 [cs.CV]目的:3D多孔質微細構造の再構築
    • 産業応用において,材料の性能予測には正確な多孔質構造モデルが不可欠である。
    • 大規模3D多孔質構造の再構築は,連続的な細孔形状と離散的な細孔喉首トポロジーの同時モデリングが困難である。
    • 疎なCTスライスからの高精度な再構築を,トポロジーを忠実に再現しつつ実現すること。
    • GeoTopoDiffは,ボクセルベースから混合グラフ状態空間への拡散事前学習の転移により,幾何学的・トポロジー的特徴を同時に捉える。
    • 本手法は,PTFEおよびフォンテニュー砂岩において,形態関連誤差を平均19.8%,輸送誤差を36.5%削減した。
    • 混合グラフ状態空間が,疎な観測下での逆ノイズ除去プロセスにおける事後不確実性の低減を促進することが示唆された。

    Link: https://arxiv.org/abs/2605.03764

  • ReLeaf:ドメインと種を横断した葉セグメンテーションのベンチマーク [cs.CV]目的:葉セグメンテーションのベンチマーク評価
    • 食糧需要の増加と気候変動への対応から,持続可能な精密農業への関心が高まっている。
    • 作物の健康状態評価には葉レベルのセグメンテーションが重要だが,十分なデータセットや体系的な評価が不足している。
    • 既存のデータセットと新規データセットを用いた評価により,汎化性能向上を目指す。
    • YOLO26モデルが,実用的な精密農業タスクにおいて,精度と効率性のバランスが良いことが示された。
    • ドメイン間の汎化性能は低く,特に実験室データのみで学習したモデルでは顕著であった。
    • 既存データセットと新規データセットを合わせた学習により,汎化性能が向上することが確認された。

    Link: https://arxiv.org/abs/2605.03784

  • RKHS-MMDを用いた医療画像分類のためのロバストな教師なしドメイン適応フレームワーク [cs.CV]目的:医療画像分類におけるドメイン適応手法
    • 医療画像診断の精度向上は,疾患の早期発見や適切な治療に不可欠である。
    • 医療機関や画像装置の違いによるドメインシフトが,モデルの汎化性能を低下させる。
    • 教師なしドメイン適応により,ラベル付けコストを削減し,汎化性能を改善することを目指す。
    • 提案手法は,異なる医療機関で取得された胸部X線画像データセットにおいて,適応なしのモデルと比較して顕著な性能向上を示した。
    • RKHS-MMDは,標準的なMMDよりもモダリティギャップの低減に優れており,医療画像分類に有効であることが示された。
    • 本研究は,AI駆動型医療診断の発展に貢献する可能性を示す。

    Link: https://arxiv.org/abs/2605.03787

  • Chain-of-Question誘導による検索拡張生成を用いたマルチモーダルLLMによる視覚的質疑応答の強化 [cs.CV]目的:視覚的質疑応答における検索拡張生成の性能向上
    • マルチモーダルLLMは,多様なマルチモーダルタスクにおいて強力な性能を示す重要な技術である。
    • 既存の視覚的質疑応答は,外部知識の活用が不可欠なオープン領域において課題を抱えている。
    • 構造化された推論と知識獲得を通じて,LLMと外部知識の統合をより効果的に行うことを目指す。
    • 提案手法CoVQD-guided RAGは,複雑なクロスドメイン視覚的質疑応答において,LLMの汎化性能と信頼性を向上させる。
    • Chain-of-Thought推論と視覚的質問分解を融合したプロンプティング戦略CoVQDが,より正確かつ関連性の高い知識の検索を可能にする。
    • E-VQA,InfoSeek,OKVQAのベンチマークにおける実験により,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2605.03790

  • スコアリングされた監視における正直な報告:プレコパの原理による真のKL0特性 [cs.CL, cs.GT]目的:AI監視,予測競技,専門家調査で使用される異質スコアリングルールの真のKL0特性
    • AIの監視や予測市場など,情報収集メカニズムの設計において,エージェントの正直な報告を促すことが重要である。
    • 現在のメカニズム設計では,エージェントが自身の情報を歪めて報告することで,システムの効率性や公平性が損なわれる可能性がある。
    • この研究は,エージェントが常に正直な報告を行うことが最適であることを数学的に証明し,歪曲行為の可能性を排除することを目指す。
    • パラメータ化された異質スコアリングルールにおいて,特定の条件下で真のKL0特性が成立することが示された。
    • 真のKL0特性は,最適な歪曲報告が正直な報告よりも常に劣ることを保証し,正直さをインセンティブとして与える。
    • 次元数が5以上の場合は,真のKL0特性が成立しなくなる臨界閾値が存在することが明らかになり,その値が$d=5$に対して数値的に特定された。

    Link: https://arxiv.org/abs/2605.03793

  • 曲面に対する大域適応的・局所規則的な点離散化 [cs.CE, cs.GR]目的:曲面上の点分布の最適化
    • オブジェクトレンダリングや偏微分方程式の解法など,多様な応用分野で不可欠な技術である。
    • 数値的に安定した点離散化を計算することは,単純な曲面であっても容易ではない。
    • 与えられた曲面上での長さを考慮し,最適に近い点分布を効率的に算出すること。
    • 提案アルゴリズムは,局所的な点間相互作用に基づき,大域的なポテンシャルを最小化することで点分布を決定する。
    • レベルセット法を用いることで,追加の引力なしに表面への投影を正確に行うことが可能である。
    • 積分サポート測度を用いて点不足または過剰を検出し,動的に点を融合・挿入することで収束を加速する。

    Link: https://arxiv.org/abs/2605.03803

  • 低品質データに対するConformal予測自己較正を用いたマルチモーダル学習 [cs.CV, cs.LG, cs.MM]目的:低品質データにおけるマルチモーダル学習の性能向上
    • マルチモーダル学習は,様々な情報源を統合することで,より高度な認識や理解が可能となるため重要である。
    • マルチモーダルデータには,モダリティの不均衡やノイズが含まれている場合が多く,学習の妨げとなる。
    • 本研究は,Conformal予測を用いた自己較正により,これらの問題に対処し,ロバストな学習を実現することを目指す。
    • 提案手法CPSCは,Conformal予測を用いて,各モダリティやインスタンスの信頼性を評価し,自己較正を行う。
    • Representation Self-CalibrationとGradient Self-Calibrationという2つのモジュールを統合し,特徴表現の堅牢性と勾配の流れを最適化する。
    • 6つのベンチマークデータセットにおける実験の結果,既存手法と比較して,CPSCが常に優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2605.03820

  • 非接触指紋のアイデンティティ一貫性に基づくマルチポーズ生成 [cs.CL, cs.DM, q-bio.PE, cs.CV]目的:非接触指紋データのマルチポーズ生成手法
    • 非接触指紋認証は衛生面や取得の柔軟性で注目されている。
    • 接触がないため,3次元空間での指のポーズによる非線形な歪みが課題である。
    • 極端なポーズ変化にも対応可能な生成手法を開発する。
    • 本研究で提案するIMPOSEは,潜在拡散モデルと物理ベースのシミュレーションを活用し,アイデンティティを保持した非接触指紋データを生成する。
    • UWAとPolyU CL2CBのデータセットを用いた実験で,IMPOSEで生成したデータを用いたFDDの微調整により,最先端のクロスモーダル照合性能を達成した。
    • 合成データはDeepPrintやAFRNetなどの主流表現でも一貫した改善を示し,実データとの組み合わせが最も良い結果をもたらした。

    Link: https://arxiv.org/abs/2605.03830

  • 散乱媒質における良好な色復元のための条件 [cs.CV]目的:散乱媒質における色復元のための条件
    • 光学イメージングにおいて,シーンの色を正確に復元することは,様々な応用において重要である。
    • 散乱媒質中での画像取得は逆問題を構成し,複数の解が存在するため,問題が本質的に不適切である。
    • 本研究は,色復元が適切となるための十分条件を明らかにすることで,この問題を解決することを目指す。
    • 解の候補空間を理解することで,予測誤差を制御することが可能になる。
    • 画像中に自然に現れる復元パターンとクロスピクセル関係が,解を一意に制限することが証明された。
    • これにより,散乱環境下での画像の定量的な分析を可能にする,第一原理に基づいた新しい視覚アルゴリズムの開発への道が開かれる。

    Link: https://arxiv.org/abs/2605.03837

  • 効率的な多視点熟練度推定:識別的分類から生成的なフィードバックへ [cs.CV]目的:多視点熟練度推定における性能向上
    • コーチングやリハビリ,才能の発掘において,行動の熟練度を評価することは重要である。
    • 熟練度は,微妙な時間,バランス,動作の違いに表れるため,多視点データからの正確な推定が困難である。
    • 選択的な多視点融合,熟練度を考慮したサンプリング,そして実行可能な生成的フィードバックを組み合わせることで,効率的なシステムを構築する。
    • Ego-Exo4Dデータセットにおいて,既存のビデオTransformerと比較して,最大20分の1の学習パラメータ数と最大3分の1の学習エポック数で最高水準の精度を達成した。
    • SkillFormerはパラメータ効率の良い識別的アーキテクチャにより,選択的な多視点融合を実現している。
    • ProfVLMは熟練度推定を条件付き言語生成として再構築し,熟練度ラベルと専門家のようなフィードバックを生成する。

    Link: https://arxiv.org/abs/2605.03848

  • ストリームR1:信頼度・パープレキシティを考慮したストリーミング動画生成のための報酬蒸留 [cs.CV]目的:ストリーミング動画生成における報酬蒸留の効率化と品質向上
    • 動画生成技術は,エンターテインメントから教育まで幅広い分野で活用が拡大しており,その高速化が求められている。
    • 従来の蒸留法では,教師モデルの出力を無差別に模倣するため,生成品質の限界がある。
    • ロールアウトと空間・時間要素の信頼度・パープレキシティを考慮し,最適化の焦点を絞ることで生成品質を向上させる。
    • Stream-R1は,事前学習済みの動画報酬スコアを用いてロールアウトの損失を再調整し,信頼性の高いロールアウトを最適化の優先度にする。
    • ピクセルごとの勾配サリエンスを抽出し,空間・時間的な重み付けを行うことで,改善効果の高い領域・フレームに最適化圧力を集中させる。
    • Stream-R1は,標準的なストリーミング動画生成ベンチマークにおいて,ベースラインよりも品質,動き,テキスト整合性の全てにおいて一貫した改善を達成した。

    Link: https://arxiv.org/abs/2605.03849

  • PolyProtectの不可逆性の深掘り:保護された顔テンプレートの反転をより困難に [cs.RO, cs.NI, cs.CV, cs.CR]目的:PolyProtectの不可逆性の分析と,その不可逆性を高める鍵選択アルゴリズムの提案
    • 顔認証システムのセキュリティは重要であり,生体認証データの保護が不可欠である。
    • 既存の保護手法では,テンプレートの反転攻撃に対する脆弱性が残存する可能性がある。
    • PolyProtectの不可逆性を高め,テンプレート反転攻撃に対する耐性を向上させる。
    • コサイン距離に基づく数値ソルバーを用いることで,PolyProtectされたテンプレートの反転が容易になることが示された。
    • 提案された鍵選択アルゴリズムは,ランダムな鍵と比較して,PolyProtectされたテンプレートの不可逆性を高める効果が確認された。
    • アルゴリズムにより,オーバーラップパラメータの違いによる不可逆性のばらつきが抑制され,トレードオフの制御が可能となった。

    Link: https://arxiv.org/abs/2605.03857

  • 視覚言語モデルによるヒトの視覚エクスポゾームの定量化 [cs.AI, cs.CV]目的:ヒトの視覚エクスポゾームの定量化
    • 精神衛生は環境要因の影響を受けるが,その定量的な評価が課題となっている。
    • 既存の方法では,主観的な自己申告や粗い地理的情報に頼り,個人の視覚的文脈を捉えきれない。
    • 視覚言語モデルを用いて,個人の視覚体験のセマンティックな豊かさを定量的に評価する。
    • 視覚言語モデルによる緑度の推定値が,一時的な感情や慢性的なストレスと相関することが示された。
    • 大規模言語モデルを用いて,精神衛生に関連する環境要因を科学文献から抽出した。
    • 抽出された環境要因は,実際の画像分析において感情やストレスと有意な相関を示した。

    Link: https://arxiv.org/abs/2605.03863

  • 拡散モデルにおける意味的分布マッチングによる訓練不要データセット蒸留 (Kakusan moderu ni okeru imiteki bunpu macchiingu ni yoru kunren fuyo deeta setto jōryū) [cs.CV, cs.AI]目的:大規模データセットの情報をより小規模な合成データセットに蒸留すること
    • 大規模データセットの学習は計算コストが高い。データセット蒸留は効率的な学習を可能にする重要な技術である。
    • 拡散モデルを用いたデータセット蒸留は,追加のファインチューニングが必要であり,効果的なガイダンスメカニズムが不足している。
    • 追加のファインチューニングを不要とし,効率的なガイダンスメカニズムを確立することで,データセット蒸留の効率化を目指す。
    • 提案手法DMGDは,条件付き尤度最適化による意味的マッチングを確立し,補助分類器を不要にすることで,訓練効率を向上させている。
    • 動的なガイダンスメカニズムと,最適輸送に基づく分布マッチングにより,合成データの多様性と意味的整合性を両立している。
    • ImageNet-Woof, ImageNet-Nette, ImageNet-1Kにおける実験で,ファインチューニングが必要な最先端手法を平均で2.1%, 5.4%, 2.4%上回る精度を達成した。

    Link: https://arxiv.org/abs/2605.03877

  • 天井の引き上げ:サリエンスベンチマーキングのためのより優れた経験的注視密度 [cs.CV, cs.LG]目的:サリエンスベンチマーキングにおける経験的注視密度の向上
    • 視覚的注意の研究は,人間の視覚システムの理解に不可欠であり,様々な応用分野に繋がる。
    • 従来の注視密度推定方法は長らく変わらず,サンプルレベル評価の精度が課題であった。
    • より信頼性の高い画像ごとの密度推定を行うことで,モデルの改善余地を明らかにすること。
    • 提案手法は,複数のベンチマークで高い注視一致度を示し,平均で5-15%の対数尤度と最大2%のAUCの改善を実現した。
    • 特に,故障事例分析において重要な画像群において,改善率は25%を超えた。
    • 経験的注視密度は固定された正解ではなく,より良い方法論によって進化する推定値であるべきことが示された。

    Link: https://arxiv.org/abs/2605.03885

  • 視覚言語埋め込みと高次元計算を用いたロボット検査におけるタスクに応じたスキャンパラメータ設定 [cs.RO, cs.CV]目的:ロボット搭載型プロファイラのパラメータ設定
    • ロボット検査において,寸法検証や表面検査の精度はロボットの動きよりもセンサー設定に大きく左右される。
    • 従来,パラメータ設定は試行錯誤に頼られており,不適切な設定は測定不良の原因となる。
    • タスクとシーンの文脈から適切なセンサー設定を自動的に決定し,手動調整の不要化を目指す。
    • 提案手法ScanHDは,視覚情報と自然言語による指示からタスクに応じたコードを生成し,高次元計算を用いてパラメータを推論する。
    • Instruct-Obs2Paramデータセットを用いた評価で,ScanHDは5つのパラメータにおいて平均92.7%の正解率,98.1%のWin@1精度を達成した。
    • これにより,ルールベースや既存のマルチモーダルモデル,大規模言語モデルを上回る性能と低遅延を実現し,実用的な自動検査を可能にする。

    Link: https://arxiv.org/abs/2605.03909

  • 生態学的制約に基づくタスク演算による,共有データなしの多種分類バイオ音響分類器 [cs.SD, cs.LG]目的:多種分類バイオ音響分類器の構築
    • 生物音響学研究は,生物多様性保全において重要な役割を担う。
    • 生物音響データは分散しており,一元管理が困難である。
    • データ共有なしに多種分類器を構築し,データプライバシーを保護すること。
    • 独立して微調整されたBEATsエンコーダを,タスクベクトル演算により統合し,661種を識別する分類器を構築した。
    • バイオ音響タスクベクトルはほぼ直交しており,その分離はスペクトル分布距離と一致する。
    • タスクベクトルの平均化が最適であり,種数の多いグループの精度は低下する一方,少ないグループは向上する。

    Link: https://arxiv.org/abs/2605.03914

  • StateVLM:ロボットの把持可能性推論のための状態認識型ビジョン言語モデル [cs.CV]目的:ロボットの把持可能性推論における,数値的推論能力の向上
    • ロボット工学において,視覚情報と自然言語指示を組み合わせたタスク処理が重要である。
    • 既存のビジョン言語モデルは,物体検出や状態局在化といった数値的推論が苦手である。
    • 本研究は,ビジョン言語モデルの数値的推論能力を回帰タスクとして捉え,向上させることを目指す。
    • 補助回帰損失(ARL)を導入した学習戦略により,既存モデルと比較して平均1.6%の性能向上が確認された。
    • 新たに構築したベンチマークOSARにおいて,StateVLMはARLを用いることで平均5.2%の性能向上を示した。
    • ARLは,OSARにおける複雑な把持可能性推論において,モデル出力の一貫性を高める上で重要である。

    Link: https://arxiv.org/abs/2605.03927

  • PHALAR:学習された音楽オーディオ表現のための位相表現 [cs.SD, cs.AI, cs.LG, eess.SP]目的:音楽オーディオのステム検索における表現学習
    • 音楽制作において,ステム単位での編集は不可欠であり,効率的な検索手法が求められている。
    • 既存手法は時間情報を無視しており,検索精度に課題があった。
    • 時間情報を考慮し,より高精度なステム検索を実現する。
    • PHALARは,最先端の手法と比較して最大約70%の精度向上を達成した。
    • パラメータ数を50%以下に抑え,学習速度を7倍に向上させた。
    • PHALARは,MoisesDB,Slakh,ChocoChoralesの各データセットで新たな最高性能を確立した。

    Link: https://arxiv.org/abs/2605.03929

  • オープンワールド音響イベント検出への道 [cs.SD, cs.AI]目的:音響イベント検出における,未知のイベントの検出と学習
    • 音響情報理解は,監視,スマートシティ,医療など幅広い分野で重要である。
    • 従来のシステムは既知のイベントに限定され,現実環境での汎用性に課題がある。
    • 未知のイベントにも対応可能な,より実用的なシステム構築を目指す。
    • 提案手法は,従来のクローズドワールド設定において,既存手法と同等以上の性能を示す。
    • オープンワールド設定においては,既存のベースラインと比較して大幅な性能向上を達成した。
    • 変形可能な注意機構と特徴分離により,曖昧なイベントの検出精度を高めている。

    Link: https://arxiv.org/abs/2605.03934