arXiv雑要約

画像・音声 - 2026/05/14 公開

  • EDITS:暗黙的テキストセマンティクスを用いたデータセット蒸留の強化 [cs.CV]目的:データセット蒸留を通じた効率的な学習と競争力のあるモデル性能の維持
    • 大規模データセットの学習は計算コストが高い。効率化が求められている。
    • 既存手法は低レベルな視覚特徴に偏り,高レベルなセマンティクス情報を活用できていない。
    • 画像内の暗黙的なテキストセマンティクスを利用し,蒸留効果を向上させる。
    • 提案手法EDITSは,VLMで生成されたテキストと画像特徴を融合し,セマンティクス情報に基づいたデータセットを構築する。
    • LLMを用いて生成されたテキストプロトタイプと画像プロトタイプを用いて,拡散モデルにより合成データセットを生成する。
    • 実験により,提案手法がデータセット蒸留において有効であることが確認された。

    Link: https://arxiv.org/abs/2509.13858

  • 赤外線と可視光モダリティのための統一的基盤モデル [cs.CV]目的:赤外線と可視光モダリティ間のロバストな知覚の実現
    • 多様な気象・照明条件下での知覚には両モダリティの統合が不可欠である。
    • 単一モダリティでは優れた性能を示す基盤モデルも,クロスモーダル劣化が課題となっている。
    • 表面的なセンサーパターンへの偏りを抑制し,セマンティクスに焦点を当てた学習を目指す。
    • UNIVは,Patch Cross-modal Contrastive Learning (PCCL)を用いて,統一的なクロスモーダル特徴空間を構築する。
    • PCCLは,セマンティック類似性に基づく疑似パッチペアのサンプリングと表現の整列により,クロスモーダルアライメントを強化する。
    • 実験により,UNIVが赤外線タスクにおいて優れた性能(セマンティックセグメンテーションで+1.7 mIoU,検出で+0.7 mAP)を示すことが確認された。

    Link: https://arxiv.org/abs/2509.15642

  • 選挙支配問題の近似 [cs.GT]目的:選挙支配問題の近似可能性
    • 選挙システムは民主主義の根幹であり,その公正性とセキュリティが重要である。
    • 選挙支配問題の計算複雑性は研究されているが,近似アルゴリズムは未検討であった。
    • 多数決,承認,コンドルセ法における選挙支配問題の近似可能性を決定すること。
    • 本研究により,多数決,承認,コンドルセ法における標準的な選挙支配問題の近似可能性が完全に決定された。
    • 重み付きおよび非重み付きの有権者モデルの両方において,結果が証明された。
    • 選挙支配問題に対する近似アルゴリズムの可能性についての理解が深まった。

    Link: https://arxiv.org/abs/2509.19279

  • FMC-DETR:周波数分離による航空画像物体検出のためのマルチドメイン協調 [cs.RO, cs.CL, cs.CV, cs.LG]目的:航空画像における物体検出の性能向上
    • リモートセンシング技術は,資源監視,交通管理,UAV救助など幅広い分野で不可欠である。
    • 高解像度航空画像における微小物体の検出は,視覚的特徴の弱さや大域的文脈のモデリング不足により困難である。
    • 既存手法の文脈的相互作用の遅延と非線形推論の限界を克服し,微小物体検出の精度を向上させる。
    • 提案手法FMC-DETRは,Wavelet Kolmogorov-Arnold Transformer(WeKat)バックボーンとMulti-Domain Feature Coordination(MDFC)モジュールを導入することで,低周波構造の認識能力とマルチスケール依存関係の適応的非線形モデリングを強化する。
    • Compact Partial Fusion(CPF)モジュールは,特徴の多様性とマルチスケール相互作用を改善し,情報フローを安定化させ,冗長な摂動を低減する。
    • 複数のリモートセンシングベンチマークにおいて,FMC-DETRは最先端の性能を示し,ベースライン検出器を大幅に上回る結果が得られた。

    Link: https://arxiv.org/abs/2509.23056

  • AIビデオ会議における人偽装をバイオメトリクス情報の漏洩を利用して暴く [cs.CV, cs.AI]目的:AIビデオ会議における人偽装の検知
    • ビデオ会議の普及に伴い,セキュリティ上の脅威が深刻化している。
    • 既存のディープフェイク検出器は合成映像に対しては有効でない。
    • 送信される潜在変数を分析し,人偽装を検知する手法を開発する。
    • 潜在変数に内在するバイオメトリクス情報を活用することで,RGB映像を見ることなく人偽装を検出する。
    • 提案手法は,既存の防御策よりも優れた性能を示し,リアルタイムで動作する。
    • 異なる生成モデルや未知のデータに対しても高い汎化性能を示す。

    Link: https://arxiv.org/abs/2510.03548

  • スケッチから対称性を考慮した形状生成:意味的ブリッジングによる手法 [cs.CV]目的:スケッチからの幾何学的整合性のある3次元形状の生成
    • 3次元形状の自動生成は,製品設計やコンテンツ制作など,幅広い分野で重要である。
    • スケッチは情報が少なく抽象的なため,高品質な3次元形状への復元は困難である。
    • スケッチの持つ意味情報を補強し,対称性という幾何学的制約を利用することで,形状生成の精度向上を目指す。
    • 提案手法Sketch2Symmは,スケッチから画像を生成する意味的ブリッジングを導入し,スケッチの表現力を高める。
    • また,対称性制約を幾何学的事前知識として組み込み,日常的な物体の構造的規則性を活用する。
    • 実験結果から,提案手法は既存手法と比較して,Chamfer Distance,Earth Mover's Distance,F-Scoreにおいて優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2510.11303

  • モバイルエッジコンピューティングにおけるインフラ更新と動的参加による共同投資 [cs.GT]目的:モバイルエッジコンピューティングにおける共同投資スキーム
    • 低遅延・大帯域幅サービスの需要増に伴い,モバイルエッジコンピューティングの重要性が高まっている。
    • ネットワーク事業者は高額なインフラ投資を負担する一方,収益の多くはサービス提供事業者に吸い上げられる。
    • ネットワーク事業者の投資意欲を高め,インフラ展開を促進するための解決策を提示する。
    • 共同投資スキームにより,ネットワーク事業者とサービス提供事業者の双方に利益をもたらすことが示された。
    • 資源の更新と動的参加を組み合わせることで,全体のペイオフが増加し,ネットワーク事業者の投資インセンティブが強化される。
    • 補償スキームを通じて,長期的な協力関係を維持することが可能となる。

    Link: https://arxiv.org/abs/2510.15384

  • STORM:単一画像からのセグメンテーション,トラッキング,および物体再検出 [eess.SY, cs.SY, cs.CV]目的:単一画像からの6D姿勢推定とトラッキング
    • 物理AIシステムの中核技術であり,現実世界での活用が期待されている。
    • CADモデルや手動マスキングに依存し,遮蔽や高速移動に弱いという課題がある。
    • 遮蔽や高速移動下でもロバストな6Dトラッキングを実現し,再初期化を可能とする。
    • STORMは,参照画像に基づいた6Dトラッキングを,最小限の入力で実現する統合フレームワークである。
    • HSFAとBCE学習によるトラッキング検証器を組み合わせることで,ドリフト検出と自動再初期化を可能にする。
    • LM-OおよびYCB-Videoデータセットでの実験により,既存手法を上回る精度と,遮蔽や視点変化に対する高いロバスト性が確認された。

    Link: https://arxiv.org/abs/2511.09771

  • 非凸・非凹ミニマックス問題のロバスト性に対するシナリオアプローチ [cs.GT, math.OC]目的:非凸・非凹ミニマックス問題の確率的ロバスト性評価
    • 最適化問題は様々な分野で基礎技術であり,そのロバスト性は重要である。
    • 従来のロバスト性評価は非退化性を仮定しており,適用範囲が限られていた。
    • シナリオアプローチを用いて,非退化性を仮定しないロバスト性保証を確立すること。
    • 凸戦略集合の場合,シナリオ数の増加に伴う定常残留値の単調性を示すことで,$\varepsilon$-定常点の確率的ロバスト性保証を確立した。
    • 非凸戦略集合の場合,既存の枠組みでは厳密な理論的限界を得ることが困難であることを明らかにした。
    • 結果として,グローバルミニマックス点に対する緩いながらも厳密な確率的限界を導出した。

    Link: https://arxiv.org/abs/2511.15606

  • スペクトル学習:ハイパースペクトル画像分類のための汎用フレームワーク [cs.CV, cs.AI]目的:ハイパースペクトル画像分類における学習効率の向上
    • ハイパースペクトル画像は,地表の詳細な分析に不可欠であり,多様な応用分野で利用されている。
    • 深層学習モデルの学習には膨大な計算資源が必要であり,実用的な展開が制限されている。
    • 計算コストを削減しつつ,ハイパースペクトル画像の分類精度を維持することを目的とする。
    • 提案手法SpectralTrainは,カリキュラム学習とPCAによるスペクトル次元削減を統合し,学習効率を大幅に向上させた。
    • Indian Pines,Salinas-A,CloudPatch-7の3つのベンチマークデータセットで,高い汎化性能が確認された。
    • 学習時間の2~7倍の高速化を実現し,バックボーンネットワークの種類によらず効果が認められた。

    Link: https://arxiv.org/abs/2511.16084

  • 複数オブジェクトのマッチングのための結合グロモフ・ワッサースタイン目的関数 [cs.CV, q-bio.BM]目的:複数オブジェクトのマッチング
    • 形状や構造の比較は,コンピュータグラフィックスや構造生物学など,多様な分野で重要である。
    • 従来のグロモフ・ワッサースタイン距離は,1対1のマッチングに限定され,複数オブジェクト間のマッチングには不向きであった。
    • 複数オブジェクト間のマッチングを可能にし,部分的な同型性を検出する新しい目的関数を提案する。
    • 結合グロモフ・ワッサースタイン(JGW)目的関数は,オブジェクトの集合間の同時マッチングを可能にする。
    • JGWは,mm空間の分布の部分的な同型性を識別し,点サンプリング収束性を持つ非負の相違度を提供する。
    • 提案手法は,既存のグロモフ・ワッサースタイン距離の変種と比較して,精度と計算効率において優れていることが示された。

    Link: https://arxiv.org/abs/2511.16868

  • 拡散モデルにおけるエネルギーのスケーリング則:画像生成における計算量の定量化 [cs.RO, cs.LG, cs.CV, cs.CY]目的:拡散モデルの画像生成におけるエネルギー消費量の予測
    • 画像生成AIの急速な発展に伴い,その莫大な計算資源消費と環境負荷が問題となっている。
    • モデル構成やハードウェアによってエネルギー消費量が異なるにも関わらず,体系的な予測手法が存在しなかった。
    • 拡散モデルの計算複雑度に基づき,GPUエネルギー消費量を予測するスケーリング則を確立し,持続可能なAI利用に貢献する。
    • 拡散モデルの推論処理をテキストエンコーディング,反復ノイズ除去,デコーディングに分解し,反復ノイズ除去がエネルギー消費の大部分を占めることを仮説として検証した。
    • 確立したエネルギーのスケーリング則は,個々のアーキテクチャ内で高い予測精度($R^2 > 0.9$)を示し,異なるアーキテクチャ間でも高い相関関係を維持した。
    • これらの結果は,拡散モデル推論が計算資源に依存することを確認し,エネルギー消費量の推定が持続可能なAI展開計画の基盤となることを示した。

    Link: https://arxiv.org/abs/2511.17031

  • FireScope:思考連鎖オラクルを用いた山火事リスクラスタ予測 [cs.CV, cs.LG]目的:山火事リスクのラスタ予測
    • 気候変動や森林管理の不備により,山火事の規模や頻度が世界的に増加しており,対策が急務である。
    • 既存手法は,山火事リスク予測に必要な因果的推論やマルチモーダルな理解が不十分である。
    • 視覚情報,気候データ,地理的要因を統合し,大陸を跨いだ汎化性能を持つ高精度なリスクモデルを開発する。
    • FireScopeは,米国で訓練し,ヨーロッパでテストすることで,著しい性能向上を達成した。
    • 専門家からのフィードバックと自動解析により,FireScopeの思考過程が信頼性が高く,意味的に妥当であることが確認された。
    • 言語に基づく推論が視覚生成における汎化性能を向上させることが示され,解釈可能性も高められた。

    Link: https://arxiv.org/abs/2511.17171

  • 拡散が制約を破るとき:RLとMCTSを用いた逐次自己回帰的生成 [eess.SY, cs.SY, eess.SY, cs.SY, cs.CL, cs.CV, cs.AI, cs.CL]目的:制約付き生成における課題とその解決策
    • データ駆動型生成モデルは言語や画像処理で成功を収めている。
    • 拡散モデルは,設計や計画といった制約が厳しいタスクにおいて,制約違反を起こしやすい。
    • 低次元部分多様体におけるサンプル生成の難しさを克服し,制約を満たす生成を目指す。
    • 拡散モデルの制約充足の困難さは,低次元部分多様体近傍でのサンプル生成の難しさに起因することが示された。
    • 逐次自己回帰的生成に問題を再構成することで,制約を満たす生成が可能になることが確認された。
    • 強化学習とモンテカルロ木探索の組み合わせが,実行可能性とタスクの成功率を向上させる。

    Link: https://arxiv.org/abs/2512.01242

  • StreamGaze:視線誘導による時間的推論とストリーミング動画の積極的理解 [cs.CV, cs.AI, cs.CL]目的:ストリーミング動画における視線誘導による時間的推論と積極的理解の評価
    • ストリーミング動画の理解は,ARグラス等の応用において重要であり,リアルタイムな処理が求められる。
    • 既存のストリーミング動画ベンチマークでは,視線情報の活用が評価されていない。
    • 本研究は,MLLMがストリーミング動画において視線情報をいかに活用できるかを評価する。
    • StreamGazeは,過去,現在,未来の視線誘導タスクを通じて,ストリーミング動画理解能力を包括的に評価する。
    • 最先端のMLLMは,人間のパフォーマンスと比較して大きな性能差が見られ,視線に基づく時間的推論に課題があることが示された。
    • 視線プロンプティング戦略,推論行動,タスク固有の失敗モードの詳細な分析を通じて,今後の研究の方向性を示唆する。

    Link: https://arxiv.org/abs/2512.01707

  • ポーズ自在:3Dキャラクターのためのフィードフォワード潜在ポージングモデル [cs.DC, astro-ph.IM, cs.PF, cs.DC, cs.NI, cs.PF, cs.CV]目的:3Dキャラクターのポージング手法
    • コンピュータグラフィックスにおける基本的な課題であり,様々な応用が存在する。
    • 従来の技術では,スキニングの不正確さやメッシュ構造の制約が課題となっていた。
    • AI生成3Dアセットの構造的欠陥に対処し,高品質なポージングを実現すること。
    • 本研究では,固定されたメッシュ構造に依存しない潜在空間変換による新たなポージング手法を提案した。
    • 提案手法は,既存のベースラインと比較して,ポージングの品質において顕著な改善を示した。
    • また,骨格に依存しない設計により,多様な形状への汎化性能も確認された。

    Link: https://arxiv.org/abs/2512.16767

  • エイリアシングフリーなニューラル音声合成 [cs.DC, cs.PF, cs.SD, eess.AS, eess.SP]目的:ニューラル音声合成におけるエイリアシング現象の軽減
    • 高品質な音声合成は,人間と機械の自然な対話を可能にし,様々な応用分野で重要である。
    • 既存のニューラル音声合成モデルは,特に音楽や歌声においてエイリアシングによる音質の劣化が課題となっている。
    • 非線形活性化関数やアップサンプリング層にエイリアシング対策を組み込み,高忠実度な音声合成を実現すること。
    • Pupu-VocoderとPupu-Codecは,既存システムと比較して歌声,音楽,オーディオの合成品質において優れた性能を示した。
    • 提案手法は,音声合成においては既存システムと同等の性能を維持している。
    • 微分可能なエイリアシング対策モジュールを評価するためのテスト信号ベンチマークが構築された。

    Link: https://arxiv.org/abs/2512.20211

  • MRIラディオミクスにおける多視点パラダイムシフト:膠芽腫におけるMGMTメチル化予測 [cs.CV, cs.AI]目的:膠芽腫におけるMGMTプロモーターメチル化状態の予測
    • 膠芽腫治療においてMGMTメチル化は予後や治療効果に重要であり,非侵襲的な予測が求められている。
    • 従来のラディオミクス手法は,特徴量の冗長性やモダリティ固有情報の不完全なモデル化に課題があった。
    • 本研究は,異なるMRIモダリティ情報を効果的に統合し,MGMTメチル化予測精度を向上させることを目指す。
    • 提案手法である多視点VAEとランダムフォレスト分類器の組み合わせは,テストAUC 0.77を達成した。
    • これは,ベースラインモデル(AUC 0.54)やハイパーパラメータ調整モデル(AUC 0.64)を大幅に上回る結果である。
    • 多視点確率的エンコーディングが,補完的なMRI情報の統合を促進し,予測性能を向上させることが示された。

    Link: https://arxiv.org/abs/2512.22331

  • 深層デルタ学習 [cs.LG, cs.AI, cs.CL, cs.CV]目的:Transformerの残差ストリーム管理機構の改善
    • Transformerは自然言語処理の基盤技術であり,高性能なモデル構築に不可欠である。
    • Transformerの残差結合では,不要な情報が蓄積し,性能低下を招く可能性がある。
    • 残差ストリームを能動的に書き換えることで,情報の管理効率を高めることを目指す。
    • 深層デルタ学習(DDL)は,各層が残差内容を選択的に書き換えることを可能にする。
    • DDLは,現在の状態と目標値を比較し,ゲート制御された修正を状態に書き込む。
    • 実験結果から,DDLは従来の残差結合よりも言語モデリングの性能を向上させることが示された。

    Link: https://arxiv.org/abs/2601.00417

  • PersonalAlign:長期ユーザー記録を用いたパーソナライズされたGUIエージェントのための階層的暗黙的意図整合 [cs.HC, cs.CY, cs.AI, cs.CV, cs.HC, cs.LG]目的:パーソナライズされたGUIエージェントにおける階層的暗黙的意図整合
    • GUIエージェントの応用範囲拡大のため,ユーザーの複雑な意図理解が不可欠である。
    • 明示的な指示だけでは,ユーザーの暗黙的な意図を正確に捉えきれないという課題がある。
    • 長期ユーザー記録を活用し,曖昧な指示や潜在的なルーチンを推測することで,より自然な支援を目指す。
    • 本研究では,長期ユーザー記録を基にした新しいベンチマーク「AndroidIntent」を開発した。
    • 提案手法であるHIM-Agentは,継続的に更新される個人用メモリと階層的な組織化により,実行性能と積極的な支援性能をそれぞれ15.7%,7.3%向上させた。
    • GPT-5,Qwen3-VL,UI-TARSを含む複数のGUIエージェントを用いて評価を行い,HIM-Agentの有効性を検証した。

    Link: https://arxiv.org/abs/2601.09636

  • バックドアと部分観測性:実世界強化学習への攻撃 [cs.RO, cs.CV]目的:実世界の強化学習に対するバックドア攻撃手法
    • 強化学習はロボット制御などに応用が期待され,安全性確保が重要である。
    • 強化学習モデルは,悪意のある入力に対して脆弱であり,攻撃に晒される可能性がある。
    • 実世界環境における観測の多様性に対応できる,新たなバックドア攻撃手法の開発。
    • 提案手法DGBAは,印刷可能な視覚的パッチをトリガーとして使用し,条件付き拡散モデルにより,変動する状態下でも一貫した攻撃活性化を実現する。
    • 決定的に重要な状態でのみトリガーを注入する利点ベースのポイズニング戦略も導入している。
    • 物理ロボットTurtleBot3を用いた実験により,DGBAが既存手法を上回り,通常タスク性能を維持することが示された。

    Link: https://arxiv.org/abs/2601.14104

  • SymbolSight:人工視覚による読字における文字間干渉の最小化 [cs.CV, cs.HC]目的:人工視覚による読字の文字間干渉を軽減するための視覚記号の最適化
    • 網膜補綴は視覚を回復するが,解像度と持続時間の影響で読字が困難であるため,新たな読字支援が求められている。
    • 従来の文字デザインは,低解像度かつ逐次表示の人工視覚には最適化されておらず,文字認識エラーを引き起こしやすい。
    • 言語統計に基づき,文字間の混同を最小限に抑える記号の割り当てを最適化することで読字性能の向上を目指す。
    • シミュレーションの結果,SymbolSightによって生成された異質な記号セットは,従来のアルファベットと比較して,予測される混同率を中央値で22倍低減した。
    • 標準的なタイポグラフィは,逐次低帯域幅の人工視覚には適していないことが示唆された。
    • 計算モデリングによって視覚符号のデザイン空間を絞り込み,将来的な心理物理学的・臨床評価の候補を特定できる可能性が示された。

    Link: https://arxiv.org/abs/2601.17326

  • サイコロのようなゲーム:分散システムにおける共通の乱数源 [cs.GT, cs.LO, cs.MA]目的:分散システムにおける共有乱数源の特性と最適戦略
    • 分散システムにおいて,効率的な合意形成やセキュリティ確保には,質の高い乱数が不可欠である。
    • 既存手法では,乱数源の共有による利点を十分に活用できていない場合がある。
    • 共有乱数源を用いた分散システムの最適な戦略を分析し,乱数資源の効率的な配分方法を確立する。
    • 本研究では,Dicey Gamesというフレームワークを導入し,共有乱数源の特性を形式的に分析した。
    • チームがペア間で乱数を共有する場合でも,1/4以上の確率で勝利できることを示した。
    • 最適戦略の存在,表現,計算複雑性を明らかにし,限られた乱数資源の最適配分に関する考察を行った。

    Link: https://arxiv.org/abs/2601.18303

  • GUIGuard-Bench:プライバシー保護GUIエージェントの汎用的な評価に向けて [cs.CR, cs.AI, cs.CV]目的:GUIタスクにおけるプライバシー保護の評価
    • GUIエージェントの利用拡大に伴い,プライバシー侵害リスクへの対応が重要となっている。
    • 既存の評価指標はタスク遂行率に偏っており,GUI固有のプライバシーリスク評価が不足している。
    • GUIタスクの軌跡に基づいたプライバシー保護GUIエージェントの評価基準を確立する。
    • GUIGuard-Benchは,AndroidとPC環境における241のGUIエージェント軌跡と4,080のスクリーンショットを含む。
    • 現在のモデルはプライバシー情報の有無は検知できるものの,詳細な位置特定,カテゴリ認識,リスク評価は困難である。
    • Claude Sonnet 4.6などのクローズドソースモデルは,プライバシー保護後もAndroid環境で計画の整合性を維持できることが示された。

    Link: https://arxiv.org/abs/2601.18842

  • 多様体射影によるフローマッチングのClassifier-Free Guidanceの改善 [cs.CV, cs.AI]目的:拡散モデルおよびフローベースモデルにおける制御可能な生成のためのClassifier-Free Guidanceの改良
    • 拡散モデルやフローベースモデルは高品質な生成が可能だが,生成制御が課題となる分野。
    • 従来のClassifier-Free Guidanceは,ガイダンススケールに敏感であり,安定性に課題がある。
    • ガイダンス感度を低減し,生成品質とプロンプトへの適合性を高めることを目指す。
    • 本研究では,最適化の観点からClassifier-Free Guidanceを解釈し,多様体射影によるサンプリングを提案。
    • 提案手法は学習不要であり,生成品質,プロンプトへの適合性,ガイダンススケールへのロバスト性を向上。
    • DiT-XL-2-256,Flux,Stable Diffusion 3.5など,大規模モデルを用いた実験で有効性が確認された。

    Link: https://arxiv.org/abs/2601.21892

  • 不完全マルチモーダル分類のための推論時動的モダリティ選択 [cs.CV]目的:不完全マルチモーダルデータにおける信頼性のあるモダリティの動的な選択と融合
    • マルチモーダル学習は多様な分野で成功を収めているが,実用化にはデータが揃わない状況が課題となる。
    • 既存手法はモダリティを破棄するか,補完するかの二者択一であり,それぞれ情報損失やノイズ混入のリスクがある。
    • タスクに関連する情報を最大限に活用し,破棄・補完のジレンマを解消することを目指す。
    • 提案手法DyMoは,推論時に動的にモダリティを選択・融合することで,既存手法を大きく上回る性能を達成した。
    • DyMoは,タスク損失を代理指標として,モダリティ選択のための報酬関数を設計することで,効率的な選択を実現している。
    • 様々な自然画像および医療画像データセットにおいて,様々な欠損シナリオで高い有効性が確認された。

    Link: https://arxiv.org/abs/2601.22853

  • 文脈依存異常検知のための条件付き適合性学習 [cs.CV, cs.LG]目的:文脈依存の異常を検知するための条件付き適合性学習
    • 現実世界の異常は,固有の性質ではなく文脈に依存する場合が多い。その理解は重要である。
    • 既存の異常検知手法は,主語と文脈の関連性を考慮していないため,誤検出が生じやすい。
    • 主語と文脈を分離し,文脈に応じた適合性を学習することで,より正確な異常検知を目指す。
    • 提案手法CC-CLIPは,主語と文脈を分離した表現を学習し,テキスト条件付きのアテンション機構を用いる。
    • CC-CLIPは,文脈依存異常検知において,既存のCLIPベースの手法や文脈推論ベースの手法を大幅に上回る性能を達成した。
    • CC-CLIPのシングルブランチ変種は,構造的異常ベンチマークにおいても競争力のある性能を示した。

    Link: https://arxiv.org/abs/2601.22868

  • サイビル監査:生成的介入的帰属による深層肺がんリスク予測の説明 [cs.LG, cs.AI, cs.CV]目的:深層学習モデルによる肺がんリスク予測の解釈可能性向上
    • 肺がんは依然として癌死因の第一位であり,自動スクリーニングの必要性が高まっている。
    • 既存の評価は相関関係に基づくもので,モデルの推論メカニズムが不明確である。
    • 因果検証によるモデルの意思決定の信頼性確保を目指す。
    • 提案手法S(H)NAPは,現実的な3D拡散モデルを用いて解剖学的特徴を操作し,リスクスコアへの貢献度を特定する。
    • サイビルの介入的監査を行った結果,悪性肺結節と良性肺結節の識別において専門医と類似した行動を示す一方で,重大な欠陥が見られた。
    • 臨床的に正当化されないアーチファクトへの過敏性や,放射方向の偏りなど,危険な誤りモードが存在することが明らかになった。

    Link: https://arxiv.org/abs/2602.02560

  • 画像と長文キャプションのアライメント:視覚的根拠に基づいた理解 [cs.CV, cs.AI, cs.LG]目的:画像と長文キャプションにおける,局所的な特徴と全体的な構造のアライメント
    • 画像とテキストを組み合わせた理解は,AIの視覚的理解能力を向上させる上で重要である。
    • 既存のモデルは長文のキャプションを正確に理解できず,詳細な視覚情報を無視する傾向がある。
    • 本研究は,画像内の要素とその意味を特定し,全体的な文脈に統合することで,この問題を解決する。
    • 提案手法CAFTは,局所的なテキストと画像領域のアライメントを同時に学習し,高い性能を示す。
    • CAFTは,3000万組の画像-テキストデータを用いて学習し,6つの長文検索ベンチマークで最先端の結果を達成した。
    • 実験により,CAFTが明示的な領域レベルの教師なしで,テキストの意味を画像領域に局所化できることが示された。

    Link: https://arxiv.org/abs/2602.02977

  • 空間的報酬:画像編集のためのオンラインRLにおける知覚のギャップを埋めるための明示的な空間推論 [cs.CV]目的:画像編集におけるオンラインRLの知覚ギャップ解消
    • 画像編集の自動化は,創造性と効率性を高める上で重要である。
    • 既存の評価指標は,画像の細部を捉えきれず,正確な評価が困難である。
    • 空間的な推論を取り入れることで,画像の評価精度を向上させる。
    • 提案手法SpatialRewardは,空間推論を用いることで評価精度を向上させ,最先端の結果を達成した。
    • MMRB2やEditReward-Benchなどのベンチマークで,既存手法や商用評価指標を上回る性能を示した。
    • オンラインRLにおいてOmniGen2の性能を大幅に向上させ,GPT-4.1をも凌駕する成果を得た。

    Link: https://arxiv.org/abs/2602.07458

  • 確実性のある知覚:到達可能性解析による認証済み姿勢推定 [cs.RO, cs.CL, cs.CV, cs.RO]目的:3次元カメラ画像と既知のターゲット形状から姿勢推定の認証
    • サイバー物理システムにおける安全性確保は重要であり,そのためには正確な位置推定が不可欠である。
    • 安全性が重要な場面では,おおよその推定値だけでは不十分であり,外部サービスへの依存も課題となる。
    • 最悪の場合でも安全性を保証するための,カメラ画像のみによる信頼性の高い姿勢推定を実現する。
    • 到達可能性解析とニューラルネットワーク検証の成果を活用し,姿勢を形式的に限定することで認証済み姿勢推定を実現した。
    • 合成データと実世界データを用いた実験により,提案手法が効率的かつ正確に位置を特定できることを示した。
    • 外部サービスに依存せず,カメラ画像とターゲット形状のみで姿勢推定の安全性を保証する。

    Link: https://arxiv.org/abs/2602.10032

  • 不確実性定量化とガイダンスによるフローマッチング [cs.CV, cs.LG]目的:フローマッチングにおける不確実性の定量化と,それを用いた生成のガイダンス
    • 生成モデルは,画像などの高品質なデータ生成に不可欠であり,その重要性は増している。
    • 既存のフローマッチングは,生成されるサンプルの品質にばらつきがあり,信頼性が課題となっていた。
    • 生成サンプルの信頼性を評価し,より高品質な出力を得るための手法を確立すること。
    • 提案手法 UA-Flow は,フローマッチングに軽量な拡張を加えることで,速度場と共に不確実性を予測する。
    • UA-Flow は,サンプルごとの不確実性を推定し,その不確実性推定値がサンプル品質と高い相関性を示すことが確認された。
    • 不確実性に基づいたガイダンスによって,生成品質がさらに向上することが示された。

    Link: https://arxiv.org/abs/2602.10326

  • GraphThinker:イベントグラフ思考による時間的根拠に基づいた動画推論の強化 [cs.CV]目的:動画推論における時間的依存性とイベント間の関係性のモデル化
    • 動画理解は,AI技術の応用範囲を広げる上で不可欠であり,その重要性は増している。
    • 既存のマルチモーダル大規模言語モデルは,動画推論において時間的な誤りを生じやすい。
    • 視覚的根拠に基づいた推論を強化し,時間的な誤りを軽減することを目指す。
    • GraphThinkerは,動画のイベントベースのシーングラフを構築し,構造化された動画推論プロセスを誘導する。
    • 視覚的注意報酬を導入することで,モデルが信頼性の高い視覚的手がかりに注意するように促す。
    • RexTimeデータセットでIoU=0.3において4%以上の改善,VidHallucデータセットで時間的シーケンスの誤認を9.8%削減した。

    Link: https://arxiv.org/abs/2602.17555

  • 物理を考慮した同時形状・姿勢最適化によるシミュレーション対応散乱シーン推定 [cs.RO, cs.CV]目的:現実世界の観測からシミュレーションに対応したシーンを推定すること。
    • ロボットの計画やポリシー学習において,現実世界の情報をシミュレーションに転用することが重要である。
    • 既存手法は散乱環境において計算コストが高く,ロバスト性や汎用性に課題がある。
    • 物理制約下での形状・姿勢の同時復元により,散乱シーンにおける推定精度と効率を向上させる。
    • 提案手法は,形状微分可能な接触モデルを用いて,形状と姿勢の同時最適化を可能にした。
    • 増大ラグランジュヘッセンの構造的疎性を活用し,効率的な線形システムソルバーを開発した。
    • 最大5つの物体を含む散乱シーンにおいて,物理的に妥当な形状と姿勢をロバストに復元できることを示した。

    Link: https://arxiv.org/abs/2602.20150

  • KVバインディングを用いたテスト時学習は,実は線形Attentionである [cs.LG, cs.AI, cs.CV]目的:テスト時学習におけるKVバインディングのメカニズム解明
    • 大規模言語モデルの性能向上には,効率的な学習方法が不可欠である。
    • テスト時学習は有望だが,その動作原理が十分理解されていない。
    • テスト時学習のメカニズムを線形Attentionとして捉え直すことで,理解と改善を目指す。
    • 既存のテスト時学習モデルは,線形Attention演算子として表現できることが示された。
    • この新たな視点により,モデル構造の簡略化や効率化が可能となる。
    • テスト時学習を,単なるテスト時の暗記ではなく,学習された線形Attentionと捉え直した。

    Link: https://arxiv.org/abs/2602.21204

  • 大規模超解像のためのロバストな循環フレームワーク:分布アライメントと自己類似性認識 [cs.CV]目的:任意のスケールでの超解像処理における性能向上
    • 画像処理の分野において,高解像度化技術は,医療診断や衛星画像解析等,幅広い応用が期待されている。
    • 超解像モデルは,学習範囲外のスケールで推論する際に,ノイズやアーチファクトが顕著に増加するという課題がある。
    • 本研究は,スケール間の分布シフトを抑制し,任意のスケールで安定した推論を可能とするフレームワークを提案する。
    • 提案手法CASRは,複数のスケール変換を繰り返す循環フレームワークを採用することで,分布シフトを抑制し,高解像化性能を向上させる。
    • SSAMモジュールは,超ピクセル集約による構造分布のアライメントを行い,エラーの蓄積を防ぐ。
    • SARMモジュールは,相関を誘導する整合性を適用し,自己類似構造を保存することで,高周波テクスチャを復元する。

    Link: https://arxiv.org/abs/2602.22159

  • エッジ環境におけるオンラインエピソード記憶質疑応答のためのマルチモーダルLMMの探求 [cs.CV]目的:オンラインエピソード記憶質疑応答の実現可能性
    • ウェアラブルアシスタント等,リアルタイムな情報アクセスが求められる場面が増加している。
    • クラウドへのオフロードはプライバシーと遅延の問題があり,エッジデバイスでの処理が課題である。
    • エッジ環境でプライバシーを保護しつつ,高速な質疑応答を実現することを目指す。
    • マルチモーダルLMMをエッジデバイスに実装し,動画をテキストメモリに変換するパイプラインを構築した。
    • 8GB GPUを用いた場合,51.76%の正答率,TTFT 0.41秒を達成し,クラウドベースのソリューションと比較して遜色ない結果を示した。
    • ローカルサーバでは54.40%の正答率,TTFT 0.88秒であり,エッジ環境でのプライバシー保護型エピソード記憶検索の可能性を示唆した。

    Link: https://arxiv.org/abs/2602.22455

  • 部分空間AD:部分空間モデリングによる学習不要な少数ショット異常検知 [cs.CV, cs.LG]目的:少数ショット異常検知における性能向上
    • 産業検査において,異常検知は品質管理の自動化に不可欠であり,効率化が求められている。
    • 既存の少数ショット異常検知法は,大規模なメモリや追加データセットに依存する傾向がある。
    • 学習やプロンプト調整,メモリバンクを用いずに,基礎モデルの表現能力のみで異常検知を実現する。
    • 提案手法SubspaceADは,学習なしで最先端の性能を達成し,メモリや追加データセットを必要としない。
    • MVTec-ADデータセットにおいて,画像レベルおよびピクセルレベルのAUROCがそれぞれ97.1%と97.5%という高い精度を示した。
    • VisAデータセットでも,画像レベルとピクセルレベルで93.2%と98.2%のAUROCを達成し,既存手法を上回る結果を得た。

    Link: https://arxiv.org/abs/2602.23013

  • Kiwi-Edit:指示と参照ガイダンスによる多用途な動画編集 [cs.CV, cs.AI]目的:指示と参照を用いた動画編集手法の開発
    • 動画編集はコンテンツ制作において不可欠であり,その効率化と高品質化が求められている。
    • 自然言語による指示だけでは,複雑な視覚的ニュアンスを正確に伝えることが難しいという課題がある。
    • 参照画像を用いた編集の可能性を引き出し,高品質な学習データを効率的に生成することを目指す。
    • 既存の動画編集ペアを,画像生成モデルを用いて高精度な学習データに変換するパイプラインを開発した。
    • 大規模なデータセットRefVIEと評価ベンチマークRefVIE-Benchを構築し,動画編集タスクの評価を標準化した。
    • Kiwi-Editという新しい編集アーキテクチャを提案し,参照画像のセマンティックガイダンスによる編集性能を向上させた。

    Link: https://arxiv.org/abs/2603.02175

  • 事前条件付きフローマッチング [cs.LG, cs.AI, cs.CV]目的:フローマッチングにおける最適化ボトルネックの解消
    • 生成モデルの学習において,効率的な学習が重要である。特に,高次元データにおける学習は困難を伴う。
    • フローマッチングでは,中間分布の共分散行列の条件数が悪化すると,学習が不安定になる問題がある。
    • 共分散行列を等方的に変換することで,学習の安定化と効率化を図る。
    • 提案手法である事前条件付きフローマッチングは,中間分布を等方的な表現に変換し,変換空間で学習を行う。
    • 理論的に,事前条件付けが中間的なフローマッチング経路を再構築し,条件数を改善することが示された。
    • 実験結果から,事前条件付けにより,FID,MMD,精度,再現率などの評価指標が改善されることが確認された。

    Link: https://arxiv.org/abs/2603.02337

  • ベースラインから輸送測地線へ:最適生成フローによる公理的帰属 [cs.LG, cs.AI, cs.CV]目的:特徴量帰属における経路選択の理論的枠組みと,その実装手法
    • 機械学習モデルの予測根拠を説明する上で,特徴量帰属は重要である。モデルの解釈可能性を高め,信頼性を向上させる。
    • 従来の帰属方法は,基準点からの経路に依存し,経路の選択が説明に大きな影響を与えるという問題があった。
    • データ生成プロセスに基づいた経路選択により,より安定した,構造化された説明を生成することを目指す。
    • 固定された経路に対して,Aumann-Shapley線積分が固定経路公理を満たす唯一の帰属規則であることを証明した。
    • 参考分布からデータ分布への輸送コストを最小化する輸送測地線に基づく帰属原理を提案し,Rectified FlowとReflowで近似した。
    • 実験の結果,輸送に一貫性のある経路は,より安定した説明を生み出し,削除忠実度を維持することが示された。

    Link: https://arxiv.org/abs/2603.05093

  • TW-Sound580K:検証に基づくキュレーションを用いた地域音声・テキストデータセット - 地域音声言語モデリングのために [cs.SD]目的:地域音声言語モデリングのための地域音声・テキストデータセット
    • 大規模言語モデルの性能向上には,多様な言語データの活用が不可欠である。
    • 地域の方言や話し方の特性を捉えた音声データセットが不足している。
    • 地域に特化した音声データセットを構築し,言語モデルの地域適応性を高める。
    • TW-Sound580Kは,58万件の高品質な音声・テキストペアで構成される台湾のデータセットである。
    • Tai-LALMは,TW-Sound580Kでファインチューニングすることで,TAUベンチマークにおいて6.5%の精度向上を達成した。
    • 厳格なキュレーションと動的な音声認識仲裁戦略が,地域音声言語モデリングの性能向上に大きく貢献する。

    Link: https://arxiv.org/abs/2603.05094

  • バイアス入り,バイアス抜き? バニラモデルにおける公平なサブネットワークの発見 [cs.LG, cs.CV]目的:バニラモデル内に存在するバイアスに依存しないサブネットワークの抽出
    • 深層学習モデルのバイアス問題は,社会的な公平性の観点から重要であり,その軽減策が求められている。
    • 既存のバイアス軽減手法は,多くの場合,複雑な学習やデータセット操作を必要とし,計算コストが高い。
    • 本研究は,追加データや再学習を用いずに,既存のモデルから公平なサブネットワークを抽出することで,効率的なバイアス軽減を目指す。
    • 提案手法BISEは,従来の学習済みモデルから「バイアスフリー」なサブネットワークを抽出可能である。
    • 抽出されたサブネットワークは,パラメータの変更なしに,バイアスのかかった特徴への依存を減らしつつ,高い性能を維持する。
    • 本研究は,モデル全体の再学習やデータセットの変更に頼らず,パラメータ削除による構造的適応によってバイアスを軽減する効率的な手法を提供する。

    Link: https://arxiv.org/abs/2603.05582

  • ランダム化は単独で,到達はチームで [cs.GT, cs.FL, cs.MA]目的:分散型グラフゲームにおけるチームの目標到達戦略
    • 複数エージェントが協力して目標達成を目指すゲーム理論は,様々な応用分野で重要である。
    • 各エージェントが独立にランダム化を行う場合,チームとしての戦略設計が困難である。
    • 共有乱数源を持たないチームにおける,目標到達確率の閾値問題とほぼ確実な到達問題の解決を目指す。
    • 閾値問題は,実数存在論の範囲内にあり,価値反復アルゴリズムの構築が可能となることが示された。
    • 閾値問題はNP困難であり,ほぼ確実な到達問題はNP完全であることが証明された。
    • 個別にランダム化された交代時間論理(IRATL)を導入し,共有乱数源を持たないチームの確率閾値に関する推論を可能にした。

    Link: https://arxiv.org/abs/2603.07094

  • データエージェント:エンドツーエンド動的最適化によるデータ選択の学習 [cs.LG, cs.CV]目的:オンライン学習における情報量の多いサンプルを優先することで,学習を加速するデータ選択手法
    • 機械学習の効率化は,計算資源の制約や大規模データセットの処理において不可欠である。
    • 既存手法はタスク固有の指標や静的な基準に依存し,学習パラダイムへの適応性やデータ有用性の時間変化への対応が課題である。
    • 学習と同時にデータ選択ポリシーを学習し,損失と不確実性に基づく報酬を統合することで,これらの課題を解決する。
    • データエージェントは,ImageNet-1kおよびMMLUにおいて,性能を損なうことなく学習コストを50%以上削減することを示した。
    • 本手法は,データセットに依存しない汎用性と,様々なタスクやシナリオへの適用可能性を示す。
    • ノイズの多いデータセットに対するロバスト性も確認されており,実世界への応用が期待される。

    Link: https://arxiv.org/abs/2603.07433

  • トポロジー異常の検出:ビジョン言語モデルによるアプローチ [cs.CV]目的:管状構造におけるトポロジー異常の局所化と分類
    • 血管,神経線維,道路網など管状構造の理解にはトポロジーが不可欠であり,機能解析に重要である。
    • 既存の汎用ビジョン言語モデルはトポロジーを意識した認識能力が不足しているという課題がある。
    • トポロジーを考慮した認識能力をVLMsに付与するためのベンチマークと学習手法の開発。
    • 大規模なトポロジー異常アノテーション付きデータセットを自動構築し,ベンチマークを確立した。
    • トポロジーを考慮した報酬関数に基づいたTopo-R1により,汎用VLMsを大幅に上回る性能を達成した。
    • 実セグメンテーションデータにおいても,Topo-R1は教師あり学習ベースラインと同等かそれ以上の性能を示した。

    Link: https://arxiv.org/abs/2603.13054

  • MCLR:クラス間尤度比最大化による条件付きモデリングの改善と,Alignment ObjectivesとのClassifier-Free Guidanceの統合 [cs.LG, cs.AI, cs.CV]目的:拡散モデルにおける条件付き生成の性能向上
    • 拡散モデルは生成モデリングで高い性能を示すが,その成功は推論時のヒューリスティックに依存する
    • 標準的なDSMではクラス間の分離が不十分であり,推論時のガイダンスが必要となる
    • クラス間尤度比の最大化により,推論時のガイダンスなしでも性能向上を目指す
    • MCLRを用いたファインチューニングにより,標準サンプリング下でCFGのような改善が見られた
    • ガイダンスなしの条件付き生成が大幅に向上し,推論時のCFGとの差が縮小した
    • CFGによるスコアは,サンプル適応型MCLR目的関数の最適解と理論的に示された

    Link: https://arxiv.org/abs/2603.22364

  • MedOpenClawとMedFlowBench:完全な画像研究ワークフローにおける医療エージェントの監査 [cs.CL, cs.CV]目的:医療エージェントの完全な画像研究ワークフローにおける監査
    • 医療画像診断は,医療現場において不可欠であり,その精度向上は患者の予後を大きく左右する。
    • 既存のベンチマークは,個別の画像に焦点を当てており,実際の臨床ワークフローの複雑さを反映していない。
    • 完全な画像研究データを用いたワークフロー全体を評価し,監査可能な根拠に基づいた診断能力を検証すること。
    • MedFlowBenchとMedOpenClawを導入することで,医療エージェントが完全な画像研究データから監査可能な根拠を提示できるかを評価できるようになった。
    • 最終的な回答のみを評価するよりも,正しい根拠とともに回答することで,複雑なワークフローにおける性能が大幅に低下することが示された。
    • 画像解析ツールを追加するだけでは問題は解決せず,エージェントは入力選択,ビューアの状態管理,中間出力の検証に苦労する。

    Link: https://arxiv.org/abs/2603.24649

  • ピクセルからBFSへ:高い迷路の精度は視覚的計画を意味しない [cs.FL, cs.LG, cs.CV]目的:マルチモーダルモデルにおける視覚空間タスクの解決メカニズムの解明
    • 視覚と言語を統合したAIモデルの能力評価は,高度な知能の実現に不可欠である。
    • 既存の評価指標では,モデルの表面的な精度のみが測られ,真の計画能力は見過ごされがちである。
    • 視覚的計画タスクにおけるモデルの行動を詳細に分析し,その限界を明らかにする。
    • GPT-5.4やGemini 3.1 Proといった高性能モデルも,迷路問題を解決する際にトークンを大量に消費する傾向が見られた。
    • モデルは画像からテキストグリッドへの変換後,幅優先探索(BFS)のようなトークンレベルの探索戦略を用いていることが判明した。
    • 視覚抽出能力が向上しても,モデルは依然として探索戦略に依存するため,人間のような空間理解とは異なることが示された。

    Link: https://arxiv.org/abs/2603.26839

  • 拡散に基づく特徴量ノイズ除去とNNMFを用いたロバストな手書き数字多クラス分類 [cs.CV]目的:手書き数字の多クラス分類におけるロバスト性の向上
    • 画像認識技術は,様々な分野で活用されており,その信頼性確保が重要である。
    • ノイズや敵対的攻撃に対して脆弱であり,分類精度が低下する可能性がある。
    • 特徴量空間における拡散とノイズ除去により,ロバスト性を向上させることを目指す。
    • 提案手法は,従来のCNNベースラインモデルを上回り,強力な分類性能を維持している。
    • 拡散に基づくハイブリッドモデルは,有効かつロバストであることが実験的に示された。
    • 特徴量レベルでの拡散防御が,信頼性の高い多クラス手書き数字分類に有効である。

    Link: https://arxiv.org/abs/2603.29917