arXiv雑要約

画像・音声 - 2026/05/19 公開

  • 決定に重要な特徴を翻訳することによるゼロショットテキスト説明 [cs.CV]目的:画像分類器の決定理由を自然言語で記述するテキスト説明の生成
    • 画像分類器の予測根拠を説明することは,AIの信頼性と透明性を高める上で重要である。
    • 既存手法では,画像全体の特徴と言語を対応付けるため,予測に影響する重要な要素が不明瞭になりがちである。
    • 本研究では,決定に重要な特徴を分離することで,より正確かつ解釈可能な説明を生成することを目指す。
    • 提案手法TEXTERは,予測に寄与するニューロンを特定し,それらがエンコードする特徴を強調することで,より忠実な説明を可能にする。
    • 強調された特徴をCLIP特徴空間にマッピングすることで,モデルの推論を反映したテキスト説明を取得する。
    • 疎なオートエンコーダを用いることで,特にTransformerアーキテクチャにおいて解釈性が向上する。

    Link: https://arxiv.org/abs/2512.07245

  • ブロックチェーン取引におけるプライバシーの販売 [cs.AR, cs.GT]目的:ブロックチェーン取引における統計的プライバシー向上手法
    • ブロックチェーンは分散型台帳技術であり,透明性が高い反面,プライバシー保護が課題である。
    • 取引のプライバシーが漏洩すると,経済的嗜好が明らかになり,ユーザーの利益が損なわれる可能性がある。
    • 経済的メカニズムを通して,プライバシーを重視するユーザーの効用を最大化することを目指す。
    • プライバシーの度合いがオークションの収益に与える影響を分析し,最適なオークションメカニズムとして密入札オークションを特定した。
    • ダッチオークションの変種を分析し,その収益を最適なオークションと比較した。
    • 両面市場(プライバシーマーケットプレイス)において,最適な社会福祉を一定の近似率で保証する価格提示メカニズムを提案した。

    Link: https://arxiv.org/abs/2512.08096

  • YawDD+: 正確なあくび予測のためのフレームレベル注釈 [cs.CV]目的:運転者の疲労度を正確に予測するためのフレームレベル注釈付きデータセット
    • 運転者の疲労は交通事故の主要な原因であり,安全運転支援システムの開発が重要である。
    • 既存のデータセットは,粗い時間軸での注釈によりノイズが多く,高精度な疲労検知を妨げている。
    • フレームレベルの注釈によってデータ品質を向上させ,エッジデバイス上でのリアルタイム疲労検知を可能とする。
    • YawDD+データセットを用いてモデルを訓練することで,フレーム精度が最大6%向上し,mAPが5%改善した。
    • Jetson NANOおよびAGX上で,それぞれ99.34%の分類精度と95.69%の検出mAPを達成した。
    • MNasNetはAGX上で1エポックあたり8.69分で完了し,最大115 FPSの推論速度を実現し,サーバー側での計算を必要としないオンデバイスシステムが有効であることが確認された。

    Link: https://arxiv.org/abs/2512.11446

  • 舞台設定:テキスト駆動によるシーン一貫性のある画像生成 [cs.CV]目的:シーン一貫性のある画像生成
    • 画像生成技術は,現実世界の視覚情報を再現し,多様な応用を可能にする重要な分野である。
    • 高品質なペアデータ不足と,制約のない生成目標が,この分野における課題となっている。
    • テキストによる指示と参照画像に基づいて,シーンの同一性を維持しつつ,整合性のある画像を生成すること。
    • 提案手法は,実写写真,エンティティ除去,画像-動画拡散モデルを組み合わせた新しいデータ構築パイプラインを用いる。
    • また,クロスビューの情報を活用する対応誘導型注意損失を導入し,参照シーンとの空間的整合性を強化する。
    • 実験結果から,提案手法は自動評価指標と人間による評価の両方において,最先端手法よりも優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2512.12598

  • 対称性が重要である:3D生成モデルの監査と対称化 [cs.CV]目的:3D生成モデルにおける対称性の保存度合いの評価と改善
    • 現実世界の多くの物体は対称性を持つため,3Dモデリングにおいて重要な要素である。
    • 既存の3D生成モデルの評価基準では,対称性の保存が十分に考慮されていない。
    • 3D生成モデルにおける対称性の欠如を明らかにし,その改善策を提案すること。
    • 既存の3D生成モデルは標準的な評価では高い性能を示すが,対称性を考慮した評価では性能が低下する。
    • 半物体データセットで学習し,サンプリング時に反射することで対称性を改善する手法が有効であることが示された。
    • 3D生成モデルの評価には,標準的な基準に加え,対称性を考慮した評価が必要である。

    Link: https://arxiv.org/abs/2512.18953

  • GaussianDWM:3Dガウスによる運転環境モデル:統一的なシーン理解とマルチモーダル生成 [cs.CV]目的:3Dガウスによるシーン表現に基づく,統一的な運転環境モデルの構築
    • 自動運転技術の発展には,周囲環境の正確な理解と未来予測が不可欠である。
    • 既存の運転環境モデルは3Dシーン理解能力が不足しており,環境の解釈や推論が困難である。
    • 3Dガウス表現を用いて,テキスト情報と3Dシーンを正確に整合させ,環境理解と生成能力を向上させる。
    • 提案手法は,3Dガウスに言語特徴を埋め込むことで,テキスト情報と3Dシーンの早期整合を実現した。
    • タスクを考慮した言語誘導サンプリング戦略により,冗長なガウスを削減し,効率的な3DトークンをLLMに注入した。
    • nuScenesおよびNuInteractデータセットにおける実験で,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2512.23180

  • PhyAVBench:物理に基づいたテキストからオーディオ・ビデオ生成のための挑戦的なオーディオ物理感度ベンチマーク [cs.SD, cs.AI]目的:テキストからオーディオ・ビデオ生成モデルのオーディオ物理的整合性の評価
    • 映画製作やワールドモデリングなど,応用分野が拡大しており,高品質な生成が求められている。
    • 既存のベンチマークは,主にオーディオ・ビデオの同期に焦点を当て,物理的妥当性の評価が不足している。
    • 物理的に妥当なオーディオ・ビデオ生成の研究を促進するため,その評価基準を明確化することを目的とする。
    • 本研究で開発されたPhyAVBenchは,多様なデータセットと評価指標(CPRS)を提供し,モデルの物理的整合性を定量的に評価することを可能にした。
    • 最新のモデル群の評価結果から,主要な商用モデルでさえ基本的なオーディオ物理現象で課題を抱えていることが明らかになった。
    • このベンチマークは,物理に基づいたオーディオ・ビデオ生成の研究を加速するための基盤となることが期待される。

    Link: https://arxiv.org/abs/2512.23994

  • パッチを超えて:グローバル認識型自己回帰モデルによるマルチモーダル少数ショットフォント生成 [cs.RO, cs.CV, cs.MM]目的:マルチモーダル少数ショットフォント生成のための手法
    • フォントは視覚表現の重要な要素であり,デザインの質がコミュニケーションに大きく影響する。
    • 既存の少数ショットフォント生成モデルは,構造とスタイルの両方を維持することが困難である。
    • グローバルな依存関係を捉え,言語によるスタイル制御を取り入れることで,高品質なフォント生成を目指す。
    • 提案手法GAR-Fontは,グローバルな特徴を捉えるトークナイザーと軽量な言語スタイルアダプターを備える。
    • これにより,既存手法と比較して,グローバルなスタイルの一貫性とテキストによるスタイル指示に対する性能が向上した。
    • GAR-Fontは,構造の忠実性とスタイルの一貫性を高めるための後処理パイプラインも導入している。

    Link: https://arxiv.org/abs/2601.01593

  • 少数ショット植物病理のためのメタ学習誘導プルーニング:エッジデバイスでの応用 [eess.SY, cs.SY, cs.CV, cs.LG]目的:少数ショット植物病理におけるエッジデバイスでのモデルサイズ削減と精度維持
    • 遠隔地の農家は,植物病害の迅速かつ信頼できる識別方法を必要としている。
    • 深層学習モデルは高性能だが,低コストなエッジデバイスでの実行には大きすぎる。
    • ラベル付き画像収集のコストと時間的制約を克服し,エッジデバイスでの実用性を高める。
    • 提案手法DACISを組み込んだPMPパイプラインにより,モデルサイズを78%削減した。
    • PlantVillageおよびPlantDocデータセットにおいて,元の精度92.3%を維持した。
    • Raspberry Pi 4上で7フレーム/秒の速度で動作し,現場診断を可能にした。

    Link: https://arxiv.org/abs/2601.02353

  • TED-TTS:テキスト読み上げ合成における学習不要な文内感情と長さ制御 [cs.SD]目的:文内感情と長さの制御
    • 自然な音声合成は,人間と機械のコミュニケーションにおいて重要な役割を担う。
    • 既存手法は文レベルでの制御に偏り,文内での細やかな感情表現が困難である。
    • 学習を伴わずに,既存の音声合成モデルで文内の感情と長さを制御する。
    • 提案手法TED-TTSは,学習データなしで,文内の感情と長さの制御を可能にする。
    • 感情条件付け戦略と長さ制御戦略により,滑らかな感情変化と一貫性を実現した。
    • 実験により,最先端の性能とベースラインの音質維持が確認された。

    Link: https://arxiv.org/abs/2601.03170

  • 拡散モデルにおけるスケーラブルで正確な概念アンラーニング [cs.LG, cs.CV]目的:拡散モデルにおける大規模な概念アンラーニングの実現
    • 画像生成AIの発展に伴い,著作権侵害や悪用といった問題が顕在化している。
    • 複数の概念を同時にアンラーニングする場合,生成性能の低下や類似コンテンツへの悪影響が課題となっている。
    • 本研究は,大規模なデータセットにおいても効率的かつ正確な概念アンラーニングを可能にすることを目指す。
    • 提案手法ScaPreは,スペクトル追跡正則化と幾何学的アラインメントにより,最適化の安定化,競合の抑制,およびグローバル構造の保存を実現する。
    • ScaPreは,概念に関連するパラメータを特定し,更新を適応的に重み付けすることで,アンラーニングの範囲をターゲット部分空間に限定する。
    • 実験の結果,ScaPreは既存手法と比較して最大で5倍多くの概念を削除でき,生成品質を維持しつつ,大規模アンラーニングにおいて最先端の精度と効率を達成した。

    Link: https://arxiv.org/abs/2601.06162

  • 忘却全て:概念認識ニューロンマスキングによる複数概念の機械的アンラーニング [cs.CV, cs.LG]目的:複数概念の機械的アンラーニング手法
    • テキスト画像生成モデルの普及に伴い,著作権や倫理的な問題が顕在化している。
    • 既存のアンラーニング手法は複数概念の削除に弱く,効果や生成品質が低下しやすい。
    • モデルのスパース性を活用し,複数概念を効果的に削除する手法を開発する。
    • 提案手法FIAは,各重み接続の概念への貢献度を定量化するコントラスティブ概念重要度を導入する。
    • 時間的・空間的な情報を組み合わせることで,概念に敏感なニューロンを特定し,概念非依存ニューロンを保護する。
    • 実験の結果,FIAは複数概念のアンラーニングにおいて,忘却効果と生成品質の両方を改善することを示した。

    Link: https://arxiv.org/abs/2601.06163

  • 視聴,推論,検索:エージェント型ビデオ推論のためのオープンウェブ上のビデオ深層研究ベンチマーク [cs.CV, cs.AI]目的:オープンウェブにおけるビデオ条件付きのオープン領域ビデオ質問応答
    • 現実世界のビデオ質問応答は,複雑な推論と外部知識の活用を必要とする。
    • 既存の研究では,ビデオ内の局所的な視覚的手がかりと,ウェブ上の分散した検証可能な情報との統合が困難である。
    • ビデオとウェブの情報を統合し,多段階推論を行うエージェントの能力評価のためのベンチマークを構築する。
    • 本研究で構築したVideoDRベンチマークは,ビデオ内容に基づいたオープンウェブ検索と推論能力を評価する。
    • 大規模言語モデルの評価により,エージェント型アプローチが常にワークフロー型に優位とは限らないことが示された。
    • 目標のずれと長期的一貫性が,ビデオエージェントの性能向上のための主要な課題であることが明らかになった。

    Link: https://arxiv.org/abs/2601.06943

  • Speech-Hands:全知覚に基づく音声認識と音声推論のための自己内省型ボイスエージェントアプローチ [cs.SD, cs.AI, cs.CL, cs.MA, eess.AS]目的:音声認識と音声推論における自己信頼と外部音声知覚の参照の判断
    • 音声認識や音声理解は,人間と機械のインタラクションにおいて不可欠な技術である。
    • 全知覚モデルの単純なファインチューニングは,誤った仮説に誘導されやすく,性能が低下することがある。
    • 自己内省メカニズムを導入し,モデルが誤った外部候補に惑わされるのを防ぐことを目指す。
    • Speech-Handsは,OpenASRリーダーボードにおいて,7つのベンチマークで12.1% WERの性能向上を達成した。
    • 音声QAタスクにおいて,77.37%の正解率と高いF1スコアを示し,多様なデータセットで堅牢な汎化性能を証明した。
    • 知覚と意思決定の統合により,信頼性の高い音声インテリジェンスの実現に向けた実用的な道筋を提供する。

    Link: https://arxiv.org/abs/2601.09413

  • 災害VQA:災害現場における視覚的質問応答ベンチマークデータセット [cs.CL, cs.CV]目的:災害現場における視覚的質問応答タスクの性能評価と改善
    • 災害発生時の迅速な状況把握と対応は,人命と財産を守る上で極めて重要である。
    • 既存のVQAモデルは,災害現場の複雑な状況を正確に理解することが困難である。
    • 災害対応に特化したVQAモデルの開発を促進し,現場での意思決定を支援すること。
    • 本研究で構築したDisasterVQAは,洪水,山火事,地震など多様な災害状況を網羅する。
    • 最新の7つのビジョン言語モデルの評価を行った結果,質問タイプや災害の種類によって性能にばらつきが見られた。
    • 特に,詳細な定量的な推論,物体数カウント,文脈に依存した解釈において課題が残ることを明らかにした。

    Link: https://arxiv.org/abs/2601.13839

  • 拡散モデルにおける多概念再活性化のための潜在空間アンブロッキング (LURE) [cs.CV, cs.LG]目的:拡散モデルにおける概念消去の脆弱性克服と,複数概念の同時再活性化
    • 拡散モデルは強力な画像生成技術であり,機密性の高いコンテンツの制御が重要である。
    • 概念消去技術は,完全に概念を削除できていない場合があり,再活性化の脆弱性が存在する。
    • 潜在空間の操作を通じて,複数概念の再活性化を同時に,かつ高精度に実現する。
    • 本研究では,生成過程を暗黙的関数としてモデル化し,テキスト条件,モデルパラメータ,潜在状態等の要素が再活性化に影響することを理論的に示した。
    • 提案手法LUREは,潜在空間の再構築とサンプリング軌道の誘導により,消去された概念を高精度で再活性化する。
    • 勾配場の直交化により,複数概念間の干渉を抑制し,潜在的意味識別を基盤としたサンプリングにより安定性を確保している。

    Link: https://arxiv.org/abs/2601.14330

  • 精度とリソースのジレンマを打破:軽量適応型ビデオ推論の強化 [cs.CY, cs.CL, cs.CV, cs.AI]目的:ビデオ推論の性能向上とリソース効率の最適化
    • ビデオ推論は,自動運転や監視システム等,様々な分野で重要な役割を担っている。
    • 既存手法はモデルサイズを拡大し複雑化するため,リソース効率が低下しやすい。
    • デバイスのリソース状況に応じてモデルを動的に切り替えることで,性能と効率の両立を目指す。
    • 提案手法は,システムパラメータと推論指標に基づき,モデルのスケールを動的に調整する。
    • これにより,リソース利用効率と推論性能のバランスを効果的に実現できることが実験的に示された。
    • 隣接フレーム間のターゲットの時空間相関を活用することで,より効率的な推論を可能にしている。

    Link: https://arxiv.org/abs/2601.14568

  • RadJEPA:関節埋め込み予測アーキテクチャによる胸部X線画像のラジロジーエンコーダ [cs.CV]目的:胸部X線画像のラジロジーエンコーダの学習
    • 医療画像と自然言語処理の融合が重要視される中,視覚表現の学習における新たなアプローチが求められている。
    • 言語による教師データに依存するため,質の高いデータ収集が課題であり,言語指示なしでの学習が難しい。
    • 言語による教師データを用いずに,ロバストなラジロジーエンコーダを学習することを目指す。
    • RadJEPAは,言語による教師データなしで自己教師あり学習を行う新しいフレームワークである。
    • 胸部X線画像のみで事前学習することで,隠れた潜在表現の予測に優れる。
    • 病変分類,セマンティックセグメンテーション,レポート生成タスクにおいて,最先端の手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2601.15891

  • 表面的なアンラーニングを超えて:マルチモーダルLLMにおける幻覚のシャープネスアウェアな堅牢な消去 [cs.LG, cs.AI, cs.CL, cs.CV]目的:マルチモーダルLLMにおける幻覚の堅牢な消去
    • マルチモーダルLLMは強力だが,信頼性を損なう存在しないエンティティを記述する幻覚を起こしやすい。
    • 既存のアンラーニング手法は,構造的な脆弱性により,幻覚がわずかな再学習で再発する可能性がある。
    • 損失関数の地形を平坦化し,パラメータの変化に対する安定性を確保することで,幻覚を堅牢に消去すること。
    • SAREは,ターゲットを絞ったmin-max最適化問題としてアンラーニングを定式化し,幻覚概念の周辺の損失関数の地形を明示的に平坦化するTargeted-SAMメカニズムを使用する。
    • 実験により,SAREは幻覚の消去効果においてベースラインを大幅に上回り,一般的な生成品質を維持することが示された。
    • SAREは,再学習やパラメータの更新に対する幻覚の抑制を維持し,幾何学的な安定化の有効性を検証した。

    Link: https://arxiv.org/abs/2601.16527

  • TPGDiff:階層的なトリプル事前知識に基づく拡散による画像復元 [cs.CV]目的:画像復元のための階層的・相補的な事前知識の活用
    • 画像劣化は様々な原因で発生し,高品質な画像復元技術の重要性が高まっている。
    • 既存手法では,激しく劣化された領域の復元が難しく,空間構造の歪みが生じやすい。
    • 拡散モデルの各層に適切な事前知識を導入し,多様な劣化に対応した高精度な復元を目指す。
    • TPGDiffは,拡散過程全体を通して劣化事前知識を取り込み,浅層に構造的,深層に意味的事前知識を導入する。
    • 多源的な構造的ヒントを活用し,詳細な情報を捉え,浅層表現を誘導することで空間構造の歪みを抑制する。
    • 蒸留駆動型意味抽出器により,強固な意味的事前知識を得て,激しい劣化下でも高レベルなガイダンスを可能にする。

    Link: https://arxiv.org/abs/2601.20306

  • 再構成誤差からの偽造痕跡の探索:マルチモーダルDeepfakeの時間的局在化のための弱教師ありフレームワーク [cs.CV]目的:Deepfake動画における偽造箇所の時間的局在化
    • デジタルセキュリティリスクが増大しており,動画の改ざん検出が重要になっている。
    • フレームレベルの注釈作成コストが高く,実用的な偽造検出が困難である。
    • 弱教師あり学習により,高コストな注釈なしで偽造箇所を特定することを目指す。
    • 再構成誤差を利用するRT-DeepLocフレームワークを提案し,Deepfakeの局在化を実現した。
    • Masked Autoencoderを用いて,本物の動画の時空間パターンを学習することで,偽造箇所の再構成誤差を検出する。
    • Asymmetric Intra-video Contrastive Lossにより,本物の特徴量を凝縮し,精度の高い局在化を可能にした。

    Link: https://arxiv.org/abs/2601.21458

  • 視覚トークン圧縮下における大規模ビジョン言語モデルの敵対的頑健性 [cs.CR, cs.AI, cs.CV]目的:大規模ビジョン言語モデルにおける視覚トークン圧縮時の敵対的頑健性の評価
    • 大規模ビジョン言語モデルは高性能だが,計算コストが高い。効率化が重要課題である。
    • 視覚トークン圧縮は効率化に有効だが,セキュリティ上の脆弱性が不明である。
    • 圧縮時の最適化と推論のずれを考慮した攻撃手法を開発し,脆弱性を明らかにする。
    • 既存の攻撃手法では,圧縮されたモデルの脆弱性を十分に評価できないことが示された。
    • Compression-AliGnEd (CAGE)攻撃は,圧縮推論に最適化を合わせることで,高い攻撃成功率を達成した。
    • 圧縮を考慮しない頑健性評価は楽観的になりうるため,圧縮を意識した評価と防御が不可欠である。

    Link: https://arxiv.org/abs/2601.21531

  • FG-TreeSeg:フロー誘導による樹冠セグメンテーション - インスタンスアノテーションなし [cs.CV]目的:樹冠インスタンスセグメンテーション
    • 森林バイオマス推定や生態学的モニタリングにおいて,個々の樹冠を正確に把握することは重要である。
    • 高密度で重なり合う樹冠の正確な輪郭抽出は依然として課題である。アノテーションコストや汎化性能の限界も存在する。
    • ドメイン知識を組み込み,高密度な樹冠でも正確なセグメンテーションを実現する。
    • 本研究では,バイオメディカルイメージング由来のフローベースの輪郭抽出をリモートセンシングに応用するFG-TreeSegを提案した。
    • Cellpose-SAMを用いることで,樹冠をベクトル収束に基づくトポロジカルフロー場内の星型凸オブジェクトとしてモデル化し,接触する樹冠を分離する。
    • NEONおよびBAMFORESTデータセットにおける実験により,多様なセンサーや樹冠密度に対して頑健に汎化することが示された。

    Link: https://arxiv.org/abs/2602.00470

  • VISTA-Bench:視覚化されたテキストを言語モデルは純粋なテキストと同等に理解できているか [cs.RO, cs.CV]目的:視覚化されたテキストに対する言語モデルの理解度評価
    • 画像とテキストの相互理解は,現実世界の様々な応用において重要性が増している。
    • 既存の評価指標は主に純粋なテキストクエリに焦点を当てており,視覚化されたテキストに対する性能評価が不足している。
    • 視覚化されたテキストの理解におけるモデルのギャップを診断し,より統一的な言語表現の発展を促す。
    • VISTA-Benchは,マルチモーダルな知覚,推論,そして単一モーダルな理解の領域を網羅する体系的なベンチマークである。
    • 30を超える代表的なVLMsの評価により,純粋なテキストクエリで高い性能を示すモデルが,視覚化されたテキストでは大幅に性能が低下することが明らかになった。
    • このギャップは,レンダリングの難易度が増すにつれて拡大し,意味内容が変化しないにもかかわらず,レンダリングの変化に敏感であることが示された。

    Link: https://arxiv.org/abs/2602.04802

  • CLEAR-HPV:全スライド組織学的画像におけるHPV関連形態の解釈可能な概念発見 [cs.CY, cs.CV]目的:HPV関連組織学的画像の形態における概念発見
    • 頭頸部および子宮頸がんの予後や治療反応を決定するHPVステータスの重要性が増している
    • Attention機構を用いたMILは高い予測性能を示すが,形態的な解釈性が課題となっていた
    • 概念ラベルなしで概念を発見し,解釈可能なMILモデルの構築を目指す
    • CLEAR-HPVは,注意機構を用いて潜在空間を再構成し,角化,基底細胞様,間質などの形態概念を自動的に発見する
    • 発見された概念を用いて空間概念マップを生成し,スライドをコンパクトな概念フラクションベクトルで表現する
    • CLEAR-HPVは,TCGA-HNSCC,TCGA-CESC,CPTAC-HNSCCのデータセットで汎化性能が確認され,解釈可能な概念レベルの表現を提供する

    Link: https://arxiv.org/abs/2602.05126

  • 幾何学による思考:空間推論のための能動的幾何学統合 [cs.CV]目的:空間推論における幾何学的知識の能動的統合
    • マルチモーダル大規模言語モデルの発展に伴い,空間推論における幾何学の重要性が高まっている。
    • 既存の統合手法は受動的で,意味と幾何学の不整合や冗長な信号の問題がある。
    • モデルが内部の推論要求に応じて幾何学的証拠を選択的に取得・統合する手法を開発する。
    • GeoThinkerは,空間知能において最先端の性能を達成し,VSI-Benchで72.6の最高スコアを記録した。
    • 複雑な下流タスク(具現化された参照,自動運転など)において,堅牢な汎化性能と空間認識能力の向上が確認された。
    • 空間構造を能動的に統合する能力は,次世代の空間知能にとって不可欠であることが示唆された。

    Link: https://arxiv.org/abs/2602.06037

  • MicroBi-ConvLSTM:リソース制約デバイス向け超軽量高効率ヒューマンアクティビティ認識モデル [cs.CV, cs.HC]目的:リソース制約デバイスにおけるヒューマンアクティビティ認識のための,超軽量かつ高効率なモデルの開発
    • ウェアラブルデバイスの普及に伴い,省電力かつ低コストなアクティビティ認識技術の重要性が増している。
    • 既存の軽量モデルでは,メモリ消費量がマイクロコントローラーのSRAM容量を超える場合がある。
    • MicroBi-ConvLSTMは,パラメータ数を大幅に削減し,メモリ消費量を抑えることで,この問題を解決する。
    • MicroBi-ConvLSTMは,平均11.4Kのパラメータ数で,既存の軽量モデル(TinierHAR,DeepConvLSTM)と比較して大幅なパラメータ削減を達成した。
    • UCI-HAR,SKODA,Daphnetの各ベンチマークにおいて,高い認識精度(93.41%~94.46%)を維持し,超軽量モデルとしての有効性を示した。
    • Raspberry Pi Pico 2とESP32への実装により,INT8量子化およびFP32でのハードウェア実現可能性が検証された。INT8量子化下では,MicroBi-ConvLSTMのみが両プラットフォームで全データセットをカバーした。

    Link: https://arxiv.org/abs/2602.06523

  • VideoNeuMat:生成ビデオモデルからのニューラル材質抽出 [cs.CV, cs.GR]目的:再利用可能なニューラル材質アセットの抽出
    • 3Dレンダリングにおけるフォトリアリスティックな材質作成は高度な技術を要する
    • 高品質なトレーニングデータ不足が,材質生成モデルの性能を制限している
    • インターネット規模のビデオモデルから材質知識を抽出し,再利用可能なアセットを生成する
    • 生成ビデオモデルから抽出された材質は,限られた合成トレーニングデータよりも高いリアリズムと多様性を示した
    • 大規模なビデオモデルをファインチューニングすることで,仮想ゴニオフォトメーターを構築し,材質の構造化された測定パターンを学習した
    • 生成された17フレームのビデオから,LRMが単一パス推論により,新しい視点や照明条件に一般化可能なニューラル材質パラメータを予測した

    Link: https://arxiv.org/abs/2602.07272

  • 自己教師ありによる行動予測型具現化推論のブートストラップ [cs.RO, cs.AI, cs.CV, cs.LG]目的:行動予測型具現化推論の自己教師ありによる改善
    • 具現化されたAIは,現実世界とのインタラクションにおいて重要であり,ロボット工学や自動運転技術の発展に不可欠である。
    • 既存の具現化推論手法は,固定テンプレートに依存しており,無関係な情報処理によるボトルネックが生じやすい。
    • インターネット規模の知識から具現化推論を自己教師ありでブートストラップし,高品質な推論と堅牢なポリシーの構築を目指す。
    • R&B-EnCoReは,外部報酬や検証器,人間による注釈なしに,具現化固有の戦略の精錬された推論訓練データセットを蒸留できる。
    • 操縦タスクの成功率が28%向上,ナビゲーションスコアが101%改善,衝突率が21%減少した。
    • 本手法は,手動のアノテーションエンジニアリングを回避しつつ,インターネット規模の知識を物理的な実行に結びつける。

    Link: https://arxiv.org/abs/2602.08167

  • 地理空間推論駆動による語彙非依存型リモートセンシング意味セグメンテーション [cs.CV]目的:リモートセンシングにおける語彙非依存型意味セグメンテーション
    • 土地被覆の変化把握は,環境監視や都市計画において重要である。
    • 既存手法は,視覚情報とテキストの一致に依存し,地理的に複雑なシーンで曖昧になりやすい。
    • 地理空間推論を用いて,複雑なシーンにおける意味的な曖昧性を解消することを目指す。
    • 提案手法は,LoveDAおよびGID5ベンチマークにおいて,セグメンテーション性能を向上させた。
    • 複雑なシーンにおいて,より意味的に一貫性のある予測結果が得られた。
    • オフライン知識蒸留とオンラインインスタンス推論を組み合わせることで,適応的な語彙を生成した。

    Link: https://arxiv.org/abs/2602.08206

  • 差分プライバシー下におけるプライバシー水準選択を通じたデータ共有 [cs.GT, cs.CR]目的:異質なプライバシー選好を持つプレイヤー間における,差分プライバシー下での分散型データ共有における大規模データ共有連合の形成
    • データ活用が重要性を増す中,プライバシー保護とデータ利便性の両立が課題である。
    • 分散型データ共有においては,各プレイヤーのプライバシー選好が相互に影響し,最適なデータ共有が困難である。
    • 本研究は,分散型データ共有における連合の安定性やプライバシー水準選択の戦略的影響を解明し,効率的なデータ共有メカニズムを提案する。
    • 完全分散型メカニズムは,社会厚生と推定精度において非効率的であることが示された。
    • 中央設計者が固定されたプライバシーノイズ水準を選択する部分分散型メカニズムは,効率性のギャップを定数倍以内に縮小する。
    • プライバシーコストの異なる攻撃/観測モデルにおいて,同様の結果が得られた。

    Link: https://arxiv.org/abs/2602.09357

  • メルトダウン:点群条件付き3D拡散Transformerにおける回路と分岐 [cs.RO, cs.LG, cs.CV]目的:点群条件付き3D拡散Transformerの不安定性とそのメカニズムの解明
    • 3D表面再構成は,手術ナビゲーションや自律認識など,安全性が重要な分野で活用されている。
    • 点群を入力とする3D拡散Transformerは高性能だが,現実的な入力変化に対して脆弱性を持つ。
    • 入力点群のわずかな摂動が再構成結果を多数の断片に分離する「メルトダウン」現象のメカニズムを特定し,改善策を提案する。
    • 点群の表面上での微小な摂動が,再構成された形状を多数の断片に分裂させる「メルトダウン」現象を確認した。
    • この現象は,点群エンコーダによる表面分布の均一性の伝達と,拡散バックボーンにおける初期段階のクロスアテンションの書き込みによって引き起こされる。
    • PowerRemapというテスト時制御を導入し,書き込みの特異スペクトルを再整形することで,WaLaとMake-a-Shapeでそれぞれ98.3%,84.6%の復旧率を達成した。

    Link: https://arxiv.org/abs/2602.11130

  • 知覚に基づく生成圧縮による画像ノイズ除去 [cs.CV, cs.AI]目的:知覚に基づいた画像ノイズ除去手法
    • 画像処理において,ノイズ除去は画像の品質向上に不可欠であり,様々な応用分野で重要である。
    • 従来の歪み駆動型手法では,特に強ノイズ下や分布シフトにおいて,過剰に平滑化された結果となりやすい。
    • エントロピー符号化された潜在表現を用いて低複雑度な構造を強制し,知覚的な指標によりリアルなテクスチャを復元することを目指す。
    • 生成圧縮フレームワークは,歪みと知覚のトレードオフを制御し,従来のノイズ除去手法よりも優れた結果を示す。
    • 条件付きWasserstein GAN (WGAN) および拡散ベース再構成戦略により,圧縮された潜在表現を用いて反復的なノイズ除去を実現。
    • 加法ガウスノイズ下における圧縮ベースの最尤推定量に対して,再構成誤差と復号誤差確率の上限を含む非漸近的保証を確立した。

    Link: https://arxiv.org/abs/2602.11553

  • 驚きの筆致:ベクトルスケッチにおける漸進的な意味的錯覚 [cs.CL, cs.CL, cs.CV]目的:ベクトルスケッチにおける意味的錯覚の生成
    • 視覚的錯覚の研究は,人間の知覚メカニズムの理解に不可欠である。
    • 従来の錯覚研究は空間操作に偏っており,時間的な変化による錯覚の探求が不足している。
    • 本研究は,筆順によって意味が変化する新しいタイプの錯覚を生成することで,このギャップを埋める。
    • 提案手法「Stroke of Surprise」は,初期の筆致を再調整し,複数の意味解釈が可能な構造空間を発見する。
    • デュアルブランチSDSメカニズムとオーバーレイ損失により,高い認識率と錯覚の強さを実現した。
    • 実験結果は,提案手法が既存手法を大幅に上回ることを示しており,視覚的アナグラムの時間的拡張に貢献する。

    Link: https://arxiv.org/abs/2602.12280

  • 拡散モデルを用いた疎な視野のX線CTデータの再構成に向けた試み [cs.CV]目的:疎な視野のX線CTデータ再構成における拡散モデルの有用性評価
    • X線CTは,非破壊検査や医療診断に不可欠であり,その高速化・低線量化が求められている。
    • 視野数が少ないX線CTでは,再構成画像にアーチファクトが発生しやすく,画質が劣化する問題がある。
    • 実験データに対する拡散モデルの適用における課題を明確にし,実用的な再構成手法の開発を目指す。
    • 拡散モデルの学習データと実験データの間のドメインシフトが,モデル崩壊やハルシネーションを引き起こす可能性があることが示された。
    • 多様な事前分布を用いたモデルは,良好にマッチした狭い事前分布よりも優れた性能を示す場合があることが明らかになった。
    • 順伝播モデルのミスマッチはアーチファクトの原因となるが,焼きなましされた尤度重みスケジュールによって軽減可能である。

    Link: https://arxiv.org/abs/2602.12755

  • 命令チューニングのための結合最適化幾何学による標的データ選択:GIST [cs.IR, cs.LG, cs.AI, cs.CV]目的:命令チューニングにおける標的タスクに対する効率的な訓練データサブセットの特定
    • 大規模言語モデルの性能向上には,タスク固有のデータセットを用いたチューニングが不可欠である。
    • 全訓練データを使用するチューニングは計算コストが高いため,効率的なデータ選択手法が求められている。
    • パラメータ効率的なファインチューニングにおける最適化幾何学の課題を解決し,より効果的なデータ選択を実現する。
    • GISTは,検証勾配からのタスク固有の低次元部分空間を復元し,訓練勾配をこの空間に投影することで,データ選択を行う。
    • 既存の最先端手法と同等またはそれ以上の性能を,必要なストレージ容量と計算時間のわずかな割合で達成する。
    • 特にパラメータ効率的なファインチューニングにおいて,パラメータ間の結合を考慮した最適化幾何学が重要となる。

    Link: https://arxiv.org/abs/2602.18584

  • 汎用的な視覚言語行動ポリシーのための汎用ポーズ事前学習 [cs.CV, cs.LG, cs.RO]目的:視覚言語行動モデルの汎化性能向上
    • ロボット工学において,視覚情報と自然言語指示に基づいた行動計画は重要な課題である。
    • 既存モデルは,視覚的理解と行動決定を同時に学習するため,効率が悪く,汎化性能が低い。
    • 3D空間情報の事前学習により,ロボットの行動能力を向上させ,少ないデータでの学習を可能とする。
    • Pose-VLAは,3D空間情報を事前に学習し,その後にロボット固有の行動空間に適合させることで,効率的な学習を実現した。
    • RoboTwin 2.0において,平均成功率79.5%という最先端の結果を達成し,LIBEROにおいても96.0%の競争力のある性能を示した。
    • 実世界実験では,タスクあたり100件のデモンストレーションのみで,多様な物体に対して頑健な汎化性能が確認された。

    Link: https://arxiv.org/abs/2602.19710

  • グローバル事前知識と局所的一貫性:効率的なロボット操作のためのデュアルメモリ拡張ビジョン・言語・行動モデル [cs.HC, cs.CL, cs.RO, cs.AI, cs.CV]目的:ロボット操作における効率的な行動生成のためのフレームワーク
    • ロボット操作は,自動化や複雑なタスク実行において不可欠であり,その性能向上は重要な課題である。
    • 既存の行動生成モデルは,推論効率の低さや,過去の行動履歴を考慮しないことによるロバスト性の不足が課題である。
    • タスクレベルの事前知識と行動履歴の一貫性モデリングにより,これらの課題を克服し,ロボット操作の性能向上を目指す。
    • OptimusVLAは,LIBEROベンチマークで平均98.6%の成功率を達成し,CALVINではpi_0よりも13.5%改善された。
    • RoboTwin 2.0 Hardベンチマークでは平均成功率38%を達成し,実環境評価ではGeneralizationとLong-horizonの両スイートでpi_0をそれぞれ42.9%と52.4%上回った。
    • また,推論速度を2.9倍向上させ,効率的なロボット操作を実現した。

    Link: https://arxiv.org/abs/2602.20200

  • 単眼による屋内シーンのオープンボキャブラリ占有予測 [cs.CV]目的:屋内シーンにおけるオープンボキャブラリ占有予測手法
    • ロボット工学や拡張現実において,周囲環境の理解は不可欠であり,特に屋内環境の理解が重要である。
    • 既存の占有予測手法は,屋内環境の複雑性やセマンティック情報の多様性に十分に対応できていない。
    • 複雑な屋内環境において,より正確で柔軟な占有予測を実現することを目指す。
    • 本研究では,幾何学情報のみを教師データとして利用するアプローチを採用し,3D Language-Embedded Gaussiansを基盤としたフレームワークを構築した。
    • Gaussian-to-Occupancy演算の収束問題を解決するため,不透明度を考慮したPoissonベースのアプローチを導入し,体積集積の安定化を図った。
    • Occ-ScanNetにおける実験により,本手法が既存手法を大きく上回る性能を示すことを確認した(IoU: 59.50, mIoU: 21.05)。

    Link: https://arxiv.org/abs/2602.22667

  • パニング・ズームされたビデオ記録に基づくカヌースプリントチームボートの速度とストロークレートの再構築 [cs.CV]目的:カヌースプリントにおける速度とストロークレートのプロファイル再構築
    • カヌースプリントの競技力向上には,効果的なペース配分戦略が不可欠である。
    • GPSは高精度だが,利用機会が限られるため,代替的な分析手法が求められている。
    • ビデオ記録のみで,高精度な速度とストロークレートを自動的に推定すること。
    • YOLOv8を用いたブイと選手検出と,既知のブイグリッドを利用したホモグラフィ推定により,位置情報を高精度に推定した。
    • U-netベースのボート先端キャリブレーションと,多人数艇に対応可能なオプティカルフロー追跡により,汎用性とロバスト性を向上させた。
    • GPSデータとの比較により,速度のMAPEは0.011,ストロークレートのMAPEは0.009と,高い精度が確認された。

    Link: https://arxiv.org/abs/2602.22941

  • GeoWorld:幾何学的世界モデル [cs.CV, cs.RO]目的:エネルギーベースの予測世界モデルにおける幾何学的構造と階層的関係の保存
    • 視覚的計画において,ピクセル生成ではなく潜在エネルギーランドスケープの推論を用いるアプローチの重要性が高まっている
    • 既存モデルは,潜在表現がユークリッド空間で学習され,状態間の幾何学的・階層的構造が無視されている
    • 長期間予測における性能劣化を抑制し,安定した多段階計画を可能にすること
    • 本研究では,ユークリッド空間から双曲多様体への潜在表現のマッピングを行う双曲JEPAを導入した
    • 幾何学的強化学習により,双曲潜在空間におけるエネルギーベースの最適化を安定的に実現した
    • CrossTaskとCOINでの実験により,3段階・4段階計画において最先端のV-JEPA 2を上回る成功率向上が確認された

    Link: https://arxiv.org/abs/2602.23058

  • ガウス過程統計的表面に対するマクロファセット理論 [cs.CL, cs.GR]目的:ガウス過程統計的表面の表現
    • レンダリングにおいて,現実世界の複雑な表面を正確に表現することが重要である。
    • 既存のマイクロファセットモデルは,マクロ表面の幾何学的法線方向の相関を無視している。
    • マイクロファセットモデルとガウス過程の理論的な繋がりを構築し,効率的なレンダリングを実現する。
    • マクロファセット理論により,マイクロファセットモデルをマクロ空間に拡張し,ボリューメトリック表現を保った。
    • ガウス過程統計的表面を古典的な指数型参加媒質に変換することで,実現ベースのアプローチよりも効率的なレンダリングを可能にした。
    • 本手法は,マイクロファセットモデルとガウス過程の理論的な架け橋となり,実装が容易である。

    Link: https://arxiv.org/abs/2603.00280

  • IdGlow:複数人物生成のための動的アイデンティティ変調 [cs.CV, cs.AI]目的:複数人物の画像生成における,一貫性のあるシーン内での複数参照アイデンティティの調和
    • 人物画像生成技術は,エンターテイメントやセキュリティなど,多様な分野で応用が期待されている。
    • 既存手法は,構造的な変形に対応できず,「安定性と可塑性」のジレンマに陥りやすい。
    • IdGlowは,このジレンマを克服し,高品質な複数人物画像生成を実現することを目指す。
    • IdGlowは,マスクフリーかつ段階的な2段階フレームワークであり,Flow Matching拡散モデルに基づいている。
    • タスク適応型タイムステップスケジューリングと,時間的ゲーティング機構により,顔のセマンティクスを維持しながら自然なグループ構成を可能にする。
    • VLMを用いたプロンプト合成と,DPOによるグループレベルの最適化により,アーティファクトの除去,テクスチャの調和,アイデンティティの忠実度向上を実現した。

    Link: https://arxiv.org/abs/2603.00607

  • 4Dガウススプラッティングにおける運動と形状の分離 [cs.CV]目的:動的シーンの忠実な再構成
    • 動的シーンの再構成は重要だが,複雑な課題が多い
    • 既存の4DGSでは,運動と形状が密結合で表現力に限界がある
    • 複雑な運動と視覚的アーティファクトの軽減を目指す
    • 提案手法VeGaSは,運動と形状を分離する新しいフレームワークである。
    • ガリレイ変換行列を用いて非線形運動を柔軟にモデル化し,幾何学的形状の歪みを抑制する。
    • 実験結果から,VeGaSが最先端の性能を達成することが示された。

    Link: https://arxiv.org/abs/2603.00952

  • 汎用的なマルチモーダル操作検出のためのフォレンジック推論の育成 [cs.CV]目的:マルチモーダルメディア操作検出におけるフォレンジック推論の汎化
    • 生成AIの発展により,メディア操作の検出が重要になっている。偽情報の拡散防止に貢献する。
    • 既存手法は結果重視で,操作の種類分類に偏っている。解釈性が低く,未知の操作に対応できない。
    • 明示的なフォレンジック推論を取り入れ,未知の操作パターンにも対応できる検出手法を開発する。
    • 提案手法REFORMは,フォレンジック推論を重視した学習フレームワークである。過程のモデル化により,汎化性能を向上させる。
    • REFORMは,ROMデータセット上で81.52%の正解率,DGM4で76.65%の正解率,MMFakeBenchで74.9のF1スコアを達成した。
    • 実験結果から,REFORMが最先端の性能を示し,既存手法を上回る汎化性能を持つことが示された。

    Link: https://arxiv.org/abs/2603.01993

  • 視覚理解とテキストから画像生成のための対照的および生成目的の統合 [cs.RO, cs.DC, cs.SY, eess.SY, cs.CV, cs.LG]目的:視覚理解とテキストから画像生成の統合
    • 画像とテキストの関連性を理解することは,AIにおける重要な課題である。
    • 対照学習と生成モデルは,それぞれ異なるマスク戦略を必要とし,統合が困難である。
    • マスクの段階的な変化を通して,両者の目的を同時に達成するフレームワークを提案する。
    • 提案手法DREAMは,マスクの段階的な変化により,対照学習と生成モデルを統合する。
    • DREAMは,ImageNet,ADE20K,NYUなどのデータセットで,既存手法CLIPやFLUIDを上回る性能を示した。
    • 対照学習と生成目的は,適切に統合することで相乗効果を生み出すことが示された。

    Link: https://arxiv.org/abs/2603.02667

  • マルチモーダルLLMは監視に適しているか?現実世界におけるゼロショット異常検知に関する現実点検 [cs.CV, cs.AI]目的:ビデオ異常検知におけるマルチモーダルLLMの性能評価
    • 監視システムの高度化に伴い,ビデオデータの効率的な解析が重要になっている。
    • 従来の異常検知手法は,再構成誤差や姿勢推定に依存し,複雑な状況への対応が課題。
    • 言語による誘導を可能にするLLMの異常検知への応用可能性を探求する。
    • ゼロショット設定では,モデルは高い精度を示すものの,異常クラスの検出率が著しく低いことが判明した。
    • クラス固有の指示を用いることで,F1スコアは大幅に改善したが,検出率は依然として課題のままである。
    • 本研究は,マルチモーダルLLMを監視システムに適用する際の性能ギャップを明らかにし,今後の研究の方向性を示唆する。

    Link: https://arxiv.org/abs/2603.04727

  • プロンプト駆動型ノイズ表現学習による拡散ベースsRGBリアルノイズ生成 [cs.CV]目的:リアルなsRGB画像ノイズ生成手法
    • 画像処理において,ノイズ除去は重要な課題であり,高品質な画像復元に不可欠である。
    • 実写ノイズとクリーン画像のペアデータが不足しており,実環境でのノイズ除去性能向上が課題である。
    • カメラメタデータに依存せず,多様で実写に近いノイズ画像を生成することで,汎用性を高める。
    • 提案手法は,入力ノイズの特徴を捉えた高次元のプロンプト特徴を獲得し,リアルなノイズ画像を生成する。
    • カメラメタデータの制約を受けずに,ノイズ合成の汎用性と適用範囲を大幅に向上させる。
    • 生成されたノイズ画像を用いて,複数のベンチマークデータセットで実写ノイズ除去の有効性が確認された。

    Link: https://arxiv.org/abs/2603.04870

  • CogBlender: テキストから画像生成における継続的な認知介入に向けて [cs.CV]目的:テキストから画像生成における認知特性の制御
    • 画像は意味情報に加え,記憶や感情といった心理的反応を引き起こすため,その影響は大きい。
    • 既存の画像生成モデルは意味的な一貫性は高いが,認知特性の制御は難しく,意図した心理効果が得られない。
    • ユーザーの心理的意図に合致した認知特性を持つ画像を生成することを目指す。
    • CogBlenderは,入力プロンプトを認知特性を考慮して書き換え,それらのプロンプト間の速度場を補間することで,認知特性を連続的に制御する。
    • 速度場を動的に混合することにより,生成プロセスを誘導し,目的とする認知特性を画像に反映させる。
    • valence(価),arousal(覚醒),dominance(優位性),memorability(記憶性)の4つの認知特性において,効果的な介入が確認された。

    Link: https://arxiv.org/abs/2603.09286

  • YOLO-NAS-Bench:YOLOアーキテクチャ探索のための自己進化型予測器を用いた代替ベンチマーク [cs.CV]目的:YOLOアーキテクチャ探索のための代替ベンチマーク
    • 物体検出の分野では,高性能なモデル構築に時間がかかるため,効率的な探索手法が求められている。
    • 既存のNASベンチマークは画像分類が中心であり,物体検出に特化した比較評価が困難である。
    • YOLOアーキテクチャ探索を効率化し,高性能な検出モデルを迅速に発見すること。
    • YOLO-NAS-Benchは,YOLOv8からYOLO12の主要モジュールを網羅する探索空間を定義し,1,000のアーキテクチャを評価した。
    • 自己進化メカニズムにより予測器の精度を向上させ,R2値を0.770から0.815,Sparse Kendall Tauを0.694から0.752に改善した。
    • 最終的な予測器を用いた探索により,COCO-miniにおいて公式のYOLOv8-YOLO12ベースラインを超えるアーキテクチャを発見した。

    Link: https://arxiv.org/abs/2603.09405