arXiv雑要約

画像・音声 - 2026/06/17 公開

  • BusterX++:MLLMを用いた統一的なクロスモーダルAI生成コンテンツの検知と説明に向けて [cs.CV]目的:AI生成コンテンツの検知と説明
    • 生成AI技術の急速な発展に伴い,画像や動画の偽情報リスクが増大しているため,その検知技術が重要である。
    • 既存手法では,画像と動画のフォレンジックを個別のタスクとして扱うことが多く,クロスモーダルな相乗効果が十分に活用されていない。
    • 画像と動画を統合的に検知し,その根拠を説明できるシステムを構築することで,この課題を解決することを目指している。
    • BusterX++は,画像と動画を同時に検知し,解釈可能な根拠を提供する統一的なMLLMとして開発された。
    • GenBuster-Bench++は,多様な生成モデルと実世界シナリオを網羅した,難易度調整済みの新たなベンチマークである。
    • 純粋な強化学習(RL)戦略が,SFT+RLベースラインと同等以上の性能を示し,クロスモーダル能力の転移を促進することが示された。

    Link: https://arxiv.org/abs/2507.14632

  • Detail++:テキスト画像生成モデルのための学習不要な詳細化エンハンサー [cs.CV, cs.AI]目的:テキスト画像生成における詳細度の向上
    • 近年,テキストから画像を生成する技術が発展し,高品質な画像生成が可能となっている。
    • 複雑なプロンプト,特に複数の被写体と属性を含む場合に,正確な画像生成が困難である。
    • 複雑なプロンプトに対する詳細な画像生成能力の向上を目指す。
    • Detail++は,プロンプトを段階的に簡略化し,段階的に詳細を追加するProgressive Detail Injection (PDI)戦略を用いる。
    • 自己注意メカニズムを活用し,まず全体的な構図を確保し,次に正確な修正を行うことで,属性と被写体間の正確な結びつきを実現する。
    • T2I-CompBenchおよび新しく構築されたスタイル合成ベンチマークにおいて,既存手法を大きく上回る性能を示した。

    Link: https://arxiv.org/abs/2507.17853

  • OpenTie:オープンボキャブラリーシーケンシャル鉄筋結束システム [cs.RO, cs.CV]目的:鉄筋結束のための,訓練不要な3Dフレームワーク
    • 建設現場のロボット化は,複雑な課題解決に貢献し,特に鉄筋作業において注目されている。
    • 既存研究は,大量データ収集とモデル訓練に依存しており,その負担が大きい。
    • OpenTieは,訓練データ不要で,現場の鉄筋をリアルタイムに認識・結束することを目指す。
    • OpenTieは,RGB画像から点群を生成し,オープンボキャブラリーによる鉄筋検出を実現した。
    • 訓練不要で,YOLOベースの物体検出手法よりも高い精度で,実環境での鉄筋結束テストを成功させた。
    • 本システムは,水平・垂直の鉄筋結束に対応可能で,商業化の可能性を秘めている。

    Link: https://arxiv.org/abs/2509.00064

  • DiFlow-TTS:離散フローマッチングによるコンパクトかつ低遅延なゼロショット音声合成 [cs.CY, cs.SI, cs.SD, cs.CL, cs.CV]目的:ゼロショット音声合成における生成品質と推論効率のバランス改善
    • 音声合成技術は,人間と機械のコミュニケーションにおいて重要な役割を担う。
    • 既存手法では,低遅延性と高品質な音声生成を両立することが困難である。
    • 離散フローマッチングに基づく新たな枠組みで,上記課題の解決を目指す。
    • DiFlow-TTSは,音素と内容をマッピングする決定論的モジュールと,プロソディと音響トークンを生成する因子分解された離散フローデノイザーで構成される。
    • 提案手法は,複数の評価指標において有効性が確認された。
    • 連続空間を扱う従来法とは異なり,離散空間を用いることで最適化の課題を克服している。

    Link: https://arxiv.org/abs/2509.09631

  • 高精度オブジェクト再構成のための効果的なガウス管理 [cs.CV]目的:高忠実度なシーン再構成のためのガウス管理フレームワーク
    • 3Dシーンの再構成は,コンピュータビジョンやロボティクスにおいて重要な役割を果たす。
    • 既存のガウススプラッティングは,全てのガウス素子を一律に扱うため,勾配の競合や冗長性が生じやすい。
    • ガウス素子の属性活性化,表現,プルーニングを明示的に管理することで,再構成精度とモデルサイズを改善する。
    • 本研究では,ガウスの色や法線属性を選択的に活性化するGauSepを導入し,勾配の競合を緩和した。
    • 適応的なガウス表現GauRepを提案し,球面調和の次数調整とタスク非依存のプルーニングにより冗長性を削減した。
    • SDFブランチから信頼性の高い法線場を蒸留するCoReを導入し,ガウス表現に対する信頼性のある幾何学的制約を付与した。

    Link: https://arxiv.org/abs/2509.12742

  • 明示的な文脈駆動型ニューラル音響モデリングによる高忠実度RIR生成 [cs.SD, cs.AI, cs.LG]目的:高忠実度RIR(室インパルス応答)の生成
    • 音響シミュレーションは,多様な応用分野において重要な役割を担う。
    • 既存手法では,環境の幾何学的情報を十分に活用できていない。
    • 環境の幾何学的特徴を明示的に利用し,より正確なRIR予測を実現する。
    • 提案手法MiNAFは,粗い部屋メッシュから距離分布を抽出し,局所的な文脈を明示的に表現する。
    • MiNAFは,明示的な幾何学的特徴を取り入れることで,RIR予測の精度を向上させる。
    • 評価実験の結果,MiNAFは様々な評価指標において,既存手法や最新手法と競合可能な性能を示す。

    Link: https://arxiv.org/abs/2509.15210

  • LibriTTS-VI: 音声印象制御のための公開コーパスと効率的な手法 [cs.SD, eess.AS]目的:音声印象制御の精度向上
    • テキスト読み上げ技術の高度化には,より細やかな音声制御が不可欠である。
    • 音声印象制御に関する公開データセットが存在せず,研究開発の障壁となっていた。
    • 参照音声が音声合成に偏りを生じさせるという問題を解決する。
    • 提案手法により,客観評価において11次元の音声印象の平均二乗誤差が0.61から0.41に改善された。
    • 主観評価においても,1.15から0.92へと改善が確認された。
    • プロンプトベースのTTSと比較して,数値的な制御精度と音声印象とテキストの意味の分離において優位性を示した。

    Link: https://arxiv.org/abs/2509.15626

  • 重ね合わせにおける特徴間の干渉を利用した敵対的攻撃 [cs.LG, cs.AI, cs.CV]目的:敵対的攻撃の発生機序とモデル間の転移性
    • 深層学習モデルの脆弱性理解は,その安全性を高める上で不可欠である。
    • 既存研究では,敵対的攻撃が成功する理由や転移性が十分に説明されていない。
    • 重ね合わせによる干渉が敵対的脆弱性の根源であることを解明し,攻撃の予測可能性を示す。
    • 敵対的攻撃は,ネットワーク内の概念表現の重ね合わせによって生じる干渉パターンに依存することが示された。
    • 厳密に制御された環境下で,重ね合わせのみで敵対的脆弱性を再現することに成功した。
    • 画像分類器に対する攻撃においても,提案メカニズムで予測される構造が確認された。

    Link: https://arxiv.org/abs/2510.11709

  • 4D表現の進展:形状,運動,相互作用 [cs.CV]目的:4D生成と再構成に関する調査
    • コンピュータグラフィックスの発展は,現実世界の描写をより忠実に再現する要求から重要視されている。
    • 時間変化する3D形状の表現は,従来の技術では困難を伴う場合が多い。
    • 様々な4D表現の特性と課題を理解し,適切な表現を選択する指針を示す。
    • 本調査では,4D表現を形状,運動,相互作用の3つの柱に基づいて整理し,最新の代表的な研究を紹介している。
    • NeRFsや3DGSといった人気表現に加え,構造化モデルや長距離運動など,4Dコンテキストでは十分に探求されていない表現にも注目している。
    • 大規模言語モデル(LLM)やビデオ基盤モデル(VFM)の役割と限界を議論し,4Dデータセットの現状と今後の課題を提示している。

    Link: https://arxiv.org/abs/2510.19255

  • チャンクレベルのポリシー最適化から創発する原理に基づいた強化学習によるフローマッチング [cs.CV, cs.AI]目的:テキスト画像生成におけるフローマッチングの性能向上
    • 画像生成技術は,多様なコンテンツ作成を可能にし,その応用範囲は広い。
    • 既存の手法では,報酬の帰属問題が性能向上を阻害する要因となっている。
    • チャンクレベルでのポリシー最適化により,この問題を軽減し,性能向上を目指す。
    • 提案手法GCPOは,標準的なテキスト画像生成ベンチマークにおいて,GRPOと比較して最大43%の相対的な性能向上を達成した。
    • GCPOは,ユーザーの好みに沿った画像生成においても,高い性能を示した。
    • チャンクレベルのポリシー最適化が,フローマッチングの潜在能力を引き出すことが示唆された。

    Link: https://arxiv.org/abs/2510.21583

  • 都市河川における浮遊性人工ゴミのモニタリングのための幾何学・深層学習再現パイプライン [cs.CV, cs.AI]目的:都市河川における浮遊性人工ゴミのモニタリング手法の確立
    • 河川の生態系,水質,人々の活動に悪影響を及ぼす浮遊性人工ゴミ問題の深刻化
    • 従来のモニタリング手法では,継続的な定量評価や複雑な環境下での精度の確保が困難
    • 深層学習と幾何学モデルを組み合わせ,安価で自動化されたモニタリングシステムの実現
    • 固定カメラと深層学習を用いることで,浮遊性人工ゴミの継続的な定量モニタリングが可能になった。
    • 環境条件や学習設定を考慮した結果,最適な深層学習モデルの選定が重要であることが示された。
    • 投影幾何学と回帰補正を組み合わせることで,2D画像から対象物の正確なサイズを推定する手法の有効性が確認された。

    Link: https://arxiv.org/abs/2510.23798

  • FUSER:フィードフォワード多視点3D登録TransformerとSE(3)$^N$拡散による精度向上 [cs.CV]目的:多視点点群の3次元登録
    • 3D環境の理解やロボット工学において,点群データの正確な位置合わせは不可欠である。
    • 従来の登録手法は計算コストが高く,全体的な幾何学的制約なしには不安定になりがちである。
    • FUSERは,ペアワイズ推定なしで直接大域的な姿勢を予測し,計算効率と精度を向上させる。
    • FUSERは,全スキャンを統合された潜在空間で処理する初のフィードフォワード多視点登録Transformerである。
    • スパース3D CNNと幾何学的交互注意モジュールにより,効率的なスキャン内・スキャン間推論を実現している。
    • FUSER-DFというSE(3)$^N$拡散フレームワークを導入し,FUSERの推定値をSE(3)$^N$空間でノイズ除去することにより修正している。

    Link: https://arxiv.org/abs/2512.09373

  • DPDFNet:二重経路RNNによるDeepFilterNet2の性能向上 [cs.SD]目的:二重経路ブロックを導入した単一チャンネル音声強調モデルの開発
    • 周囲の騒音下における明瞭な音声通信は,様々なアプリケーションにおいて不可欠である。
    • 既存の音声強調モデルは,長距離の時間的および周波数帯域間の関係性を十分に捉えきれていない場合がある。
    • DPDFNetは,二重経路ブロックにより,より高度な音声強調性能を実現し,実用的な応用を可能とする。
    • DPDFNetは,標準的なVoiceBank+DEMANDおよびDNS4のベンチマークにおいて,DeepFilterNet2と比較して一貫した性能向上を示した。
    • 多言語低SNR評価セットにおいても,他のオープンソースモデルを上回る性能を発揮し,その有効性が確認された。
    • DPDFNetは,Ceva-NeuPro-NanoエッジNPU上でのリアルタイム処理が可能であり,組み込み環境への応用が期待できる。

    Link: https://arxiv.org/abs/2512.16420

  • 長尺動画における全モダリティ推論のためのベンチマーク [cs.CV]目的:長尺動画における視覚,音声,環境音の統合と,一貫性のある長文脈推論
    • 動画理解は,様々な応用において重要であり,より高度な推論能力が求められている。
    • 既存の動画ベンチマークは,時間スケール,モダリティ,対話性,評価可能性のバランスが課題であった。
    • 全モダリティ統合,意図に基づいた対話,詳細な診断を可能とするベンチマークの構築。
    • LongShOTBenchは,視覚,音声,環境音,時間的関係,モダリティ間の関連性を評価する質問で構成されている。
    • 各質問には参照回答と評価基準が用意されており,モデルの推論過程を詳細に分析できる。
    • 現在の最先端モデルはLongShOTBenchの性能を十分に引き出せていないが,LongShOTAgentが最も優れた結果を示した。

    Link: https://arxiv.org/abs/2512.16978

  • データ処理不等式は実践を反映しているか? 低レベルタスクの有用性について [cs.LG, cs.CV, stat.ML]目的:分類における低レベル処理の利点
    • 情報理論は,情報伝達の限界や最適化を扱う。その原理は,様々な分野で応用されている。
    • データ処理不等式では,前処理が無益であるとされているが,実際には前処理が行われることが多い。
    • 有限の学習データ数下において,分類精度を向上させる前処理の存在を理論的に示す。
    • 理論的に,任意の有限な学習サンプル数において,分類前処理が分類精度を向上させることが証明された。
    • クラス分離度,学習データサイズ,クラスバランスが,前処理による改善効果に影響を与えることが示された。
    • 実データ実験により,理論結果と一致するノイズ除去・エンコーディングの効果が確認された。

    Link: https://arxiv.org/abs/2512.21315

  • マルチモーダルLLMにおける知覚と推論の分離:報酬設計によるアプローチ [cs.CV, cs.CL]目的:マルチモーダルLLMにおける知覚と推論の貢献度分析
    • LLMの性能向上は,多様な応用を可能にし,AI技術の発展に不可欠である。
    • マルチモーダルLLMでは,知覚と推論が一体化しており,それぞれの能力向上に課題がある。
    • 視覚情報の正確な知覚を促す報酬設計により,マルチモーダルLLMの推論能力を向上させる。
    • 視覚パズルにおいて,推論ではなく知覚能力が性能のボトルネックとなっていることが示された。
    • 画像をテキスト記述に置き換えることで,Claudeモデルの性能が平均20ポイント以上向上した。
    • GRPOを用いた報酬設計は,Qwen-2.5-VL-7Bにおいて,自己参照と視覚的参照を含む構造化された推論を誘導し,5.56ポイントの性能向上をもたらした。

    Link: https://arxiv.org/abs/2601.00215

  • AlignDrive:エンドツーエンド自律運転のための横方向・縦方向計画の整合 [cs.RO, cs.CV]目的:エンドツーエンド自律運転のための横方向・縦方向計画の整合化
    • 実用的な自律運転システムの実現には,安全性確保のための空間・時間的推論能力が不可欠である。
    • 従来の並列計画アーキテクチャでは,経路上のエージェント行動と速度決定の連携が不十分であり,最適でない協調が生じることがある。
    • 横方向経路を条件とした縦方向計画の推論プロセスを確立し,安全性と協調性を向上させることを目指す。
    • 提案手法は,Bench2Driveベンチマークにおいて,ドライビングスコア89.07,成功率73.18%を達成し,従来の最高水準を超える性能を示した。
    • 縦方向計画を経路条件付きの推論プロセスに変換することで,幾何学的不確実性を低減し,相互作用主導のダイナミクスに焦点を当てることができた。
    • Fail2Driveでの評価により,並列形式が苦手とする稀有なエッジケースへの強い汎化性能が確認された。

    Link: https://arxiv.org/abs/2601.01762

  • 暗号化されたビデオ会議トラフィックにおけるパケットレベルの測定からのQoE学習 [cs.CL, cs.CL, cs.CR, cs.CV, cs.LG, cs.MM, eess.IV]目的:暗号化されたビデオ会議における品質評価(QoE)予測モデルの開発
    • 現代において,ユーザー体験の質はサービス継続利用に直結するため重要である。
    • エンドツーエンド暗号化により,ISPはビデオ会議のQoEを評価しづらい。
    • パケットサイズの情報のみでQoEを予測する手法を開発し,ISPの課題解決を目指す。
    • 提案手法は,WhatsAppとZoomのデータセットを用いて評価し,既存モデルを上回る予測性能を示した。
    • 本フレームワークは,複雑な計算資源を必要とせず,容易に実装できる点が特徴である。
    • BRISQUEとMOSという二つのQoE指標に対し,高い予測精度を達成した。

    Link: https://arxiv.org/abs/2601.06862

  • Co-PLNet:プロンプト誘導ワイヤーフレーム解析のための協調点線ネットワーク [cs.CV, cs.AI, cs.LG, stat.ML]目的:プロンプト誘導ワイヤーフレーム解析のための協調点線ネットワーク
    • SLAM等の後続タスクに有用な構造化幾何学的表現の取得は,ロボットビジョンの重要な課題である。
    • 既存手法は線分と接合部を別々に予測し,後処理で統合するため,不整合やロバスト性の低下を招く。
    • 点と線の間の空間的情報を相互に活用し,整合性と効率性を高めることで問題を解決する。
    • Co-PLNetは,点線間の空間的ヒントを交換する協調フレームワークであり,高精度なワイヤーフレーム解析を実現する。
    • Point-Line Prompt Encoder (PLP-Encoder)により,幾何学的属性を空間的に整合したコンパクトなマップに変換する。
    • Cross-Guidance Line Decoder (CGL-Decoder)は,疎な注意機構により予測を洗練し,点線の一貫性を強化する。

    Link: https://arxiv.org/abs/2601.18252

  • m2sv:地図からストリートビューへの空間推論のためのスケーラブルなベンチマーク [cs.RO, cs.CV, cs.AI]目的:地図とストリートビュー画像のアライメントによるカメラ視点方向の推論
    • 視覚と言語モデルの性能向上は目覚ましいが,空間推論能力には課題が残る。
    • 抽象的な地図表現と一人称視点のストリートビューを整合させる空間推論が困難である。
    • 地図とストリートビュー間の空間推論能力を評価するためのベンチマークを開発し,課題を明確化する。
    • 開発したベンチマークm2sv-20kにおいて,最先端のVLMは65.2%の精度にとどまり,人間の平均精度72.0%を下回る。
    • 教師ありファインチューニングや強化学習は性能向上に寄与するが,他のベンチマークへの転移は限定的である。
    • 幾何学的アライメント,証拠集約,推論の一貫性が課題であり,今後の空間推論研究の方向性を示す。

    Link: https://arxiv.org/abs/2601.19099

  • 大規模言語モデルの暗黙的な協調 [cs.GT, cs.LG, cs.MA]目的:大規模言語モデルにおける協調の発生状況,時期,及び理由の評価
    • AIエージェントの協調は,人間とのインタラクションや安全性が重要な場面で不可欠である。
    • 明示的なコミュニケーションなしに,AIエージェントがどのように協調すれば良いかという課題がある。
    • 大規模言語モデルにおける暗黙的な協調メカニズムの解明と改善を目指す。
    • 大規模言語モデルは,コミュニケーションなしでも高度な協調能力を示すことが明らかになった。
    • 人間の協調能力と同等か,それを上回る性能を発揮する場合もある。
    • 数値的な常識や文化的な背景知識を要する課題では,協調が困難になる傾向が確認された。

    Link: https://arxiv.org/abs/2601.22184

  • R1-SyntheticVL:生成モデルによる合成データはマルチモーダル大規模言語モデルの準備ができているか [cs.LG, cs.AI, cs.CL, cs.CV]目的:マルチモーダル大規模言語モデルの性能向上を目指した,効果的なデータ合成手法
    • マルチモーダルな情報処理は,人間と機械のより自然な対話を可能にするため重要である。
    • 大規模言語モデルの学習には大量のデータが必要だが,高品質なマルチモーダルデータの収集は困難である。
    • 生成モデルを用いた合成データで,マルチモーダル大規模言語モデルの性能を向上させる方法を確立する。
    • 本研究では,Collective Adversarial Data Synthesis (CADS) という新しい手法を提案し,高品質で多様な合成データを作成した。
    • CADSは,集団知能と敵対的学習を活用することで,モデルの改善を促進するような,より困難なサンプルを生成する。
    • CADSを用いて構築したMMSynthetic-20Kデータセットで学習させたR1-SyntheticVLは,様々なベンチマークで優れた性能を示した。

    Link: https://arxiv.org/abs/2602.03300

  • CoCoEmo:活性化ベクトル操作による,構成可能かつ制御可能な人間らしい感情表現を持つTTS [cs.SD, cs.LG]目的:感情表現の構成性と制御可能性
    • 人間らしい自然な音声合成には,感情表現が不可欠である。
    • 既存のTTSは単一の感情に限定され,多様な感情表現やテキストとの不一致に対応できない。
    • 活性化ベクトル操作による感情制御の可能性を検証し,自然な感情表現を実現する。
    • TTSにおける感情表現は,言語モジュールによって主に合成されることが示された。
    • 活性化ベクトル操作によって,混合感情やテキストとの感情の不一致を制御可能であることが確認された。
    • 軽量な操作手法により,自然で人間らしい感情表現を持つ音声合成が可能となった。

    Link: https://arxiv.org/abs/2602.03420

  • 部分リングスキャン:ビジョン状態空間モデルにおけるスキャン順序の再検討 [cs.CV]目的:ビジョン状態空間モデルにおけるスキャン順序の影響と改善
    • 画像認識において,効率性と精度の両立が重要課題であり,アテンション機構に代わる新たな手法が求められている。
    • 既存のビジョン状態空間モデルでは,2次元画像を1次元のトークン列に変換する際の固定的なスキャン順序が性能に影響を与えている。
    • 回転に対するロバスト性を高め,精度と効率を向上させるスキャン順序の設計を提案する。
    • 提案手法PRISMambaは,ImageNet-1Kで84.5%のTop-1精度を達成し,VMambaを精度とスループットの両面で上回る結果を示した。
    • PRISMambaは,従来の固定パススキャンと比較して,回転に対する性能劣化を抑制することに成功した。
    • 部分チャネルフィルタリングにより,計算効率を向上させ,少ないFLOPsで高性能を実現している。

    Link: https://arxiv.org/abs/2602.04170

  • オンライン戦略的分類におけるランダム化アルゴリズムについて [cs.LG, cs.GT]目的:オンライン戦略的分類におけるランダム化アルゴリズムの性能限界と改善
    • 信用スコア操作など,戦略的特徴量変更が予測に影響する状況への対応が重要である。
    • ランダム化アルゴリズムの可能性は未だ十分に探求されておらず,理論的限界が不明確である。
    • ランダム化アルゴリズムの限界を明らかにし,既存手法の改善を目指す。
    • 実現可能設定において,全ての学習者に対する下限を確立し,ランダム化アルゴリズムにも適用可能な下限を初めて示す。
    • 実現可能設定において,ランダム化学習器が既存の決定論的上限を改善する初の事例を提供する。
    • 非実現可能設定において,誤分類率を標準的なオンライン学習率に一致させる不適切なランダム化学習器を提案する。

    Link: https://arxiv.org/abs/2602.06257

  • RAIGen:テキスト画像生成モデルにおける稀な属性の特定 [cs.CV, cs.LG]目的:テキスト画像生成モデルにおける稀な属性の発見
    • 画像生成モデルの性能向上に伴い,潜在的な偏見の可視化が重要となる。
    • 既存研究では,既知の属性や支配的な属性に焦点を当て,稀な属性の特定が課題となっていた。
    • データ分布で過小評価されている属性を特定し,生成時の多様性を向上させる。
    • RAIGenは,ラベルを用いずに拡散モデルから稀な属性を発見する初のフレームワークである。
    • Matryoshka Sparse Autoencodersと新規な少数派指標により,解釈可能なニューロンを特定した。
    • 実験により,Stable DiffusionやSDXLを含む様々なモデルで稀な属性の発見と生成時の属性増幅が可能であることを示した。

    Link: https://arxiv.org/abs/2602.06806

  • GOT-JEPA:共同埋め込み予測アーキテクチャを用いたモデル適応とオクルージョン処理による汎用物体追跡 [cs.CV, cs.AI, cs.LG, cs.MM, cs.NE]目的:汎用物体追跡における汎化性能とオクルージョン認識の向上
    • 視覚システムは過去の情報と現在の観測を統合し,変化に適応する。追跡はAIの重要な課題である。
    • 既存の追跡器は特定の訓練対象に最適化され,未知の状況での汎化性能が低いという課題がある。
    • オクルージョンに対する詳細なモデリングと,動的な環境への適応能力の向上を目指す。
    • GOT-JEPAは,画像特徴から追跡モデルの予測へとJEPAを拡張した事前学習フレームワークである。
    • 教師予測器と生徒予測器を用いて,信頼性の高い追跡モデルをオクルージョン下でも生成するように学習する。
    • OccuSolverにより,物体認識に基づいた可視性推定とオクルージョンパターンの詳細な捕捉を実現し,追跡性能を向上させた。

    Link: https://arxiv.org/abs/2602.14771

  • 自己反省におけるモダリティの乖離を閉じる:閉ループ視覚的検証によるアプローチ [cs.IR, cs.HC, cs.CV]目的:視覚的根拠に基づいた自己反省のメカニズム
    • 近年,視覚と言語を統合するモデルが発展する中で,複雑な視覚情報に対する多Modal推論能力の向上が重要視されている。
    • 既存のモデルは,見た目上はもっともらしいが根拠のない回答を生成したり,自己反省の修正が視覚的証拠と乖離してしまう問題がある。
    • 視覚的領域に基づいた反省と検証を繰り返すことで,より正確で根拠のある回答を生成することを目指す。
    • 提案手法MIRRORは,ドラフト,批判,領域に基づく検証,修正の閉ループプロセスを繰り返すことで,視覚的根拠に基づいた出力を実現する。
    • 新しいデータセットReflectVを構築し,多段階の教師あり学習により,モデルの反省能力を向上させた。
    • 実験の結果,MIRRORは既存手法と比較して正答率が向上し,視覚的な幻覚を減少させることを示した。

    Link: https://arxiv.org/abs/2602.18746

  • 大規模超解像のための堅牢な循環的フレームワーク:分布アライメントと自己類似性認識 [cs.CV]目的:任意のスケールでの超解像処理における分布シフトへの対処
    • 画像処理分野において,高解像度化技術は,医療,セキュリティ,エンターテインメント等,幅広い分野で不可欠である。
    • 既存の超解像技術は,学習範囲外のスケールで性能が著しく低下し,ノイズやアーティファクトが発生しやすい。
    • 学習範囲外のスケールにおいても安定した超解像を実現し,汎化性能を高めることを目指す。
    • 提案手法CASRは,大規模超解像を分布内でのスケール遷移の系列として再構成する循環的フレームワークである。
    • SSAMモジュールとSARMモジュールを導入することで,分布のずれを抑制し,高周波テクスチャの一貫性を回復する。
    • 単一のモデルでありながら,極端な拡大率でも優れた汎化性能と,既存手法を超える性能を達成した。

    Link: https://arxiv.org/abs/2602.22159

  • 一般化された双線形嗜好性を用いた,証明可能な効率的な正則化オンラインRLHF [cs.LG, cs.GT, stat.ML]目的:オンラインRLHFにおける正則化最良応答最大後悔最小化
    • 強化学習と人間のフィードバックの組み合わせは,AIの安全性と有用性を向上させる上で重要である。
    • 既存の手法はKLダイバージェンスに依存しており,他の正則化手法への拡張が課題となっていた。
    • 一般的な正則化手法でも効率的な学習が可能であることを証明し,KLダイバージェンスへの依存性から脱却する。
    • 一般化された双線形嗜好性モデル(GBPM)の下で,貪欲法における双対ギャップが推定誤差の二乗で制限されることを証明した。
    • 貪欲サンプリングを用いた場合,多対数時間後悔 $\tilde{\mathcal{O}}(\eta d^4 C_{\min}^{-1} (\log T)^2 \wedge d^2 C_{\min}^{-1/2} \sqrt{T})$ が成立することが示された。
    • Explore-Then-Commitを用いた場合,より次元ごとに改善された後悔 $\tilde{\mathcal{O}}(C_{\min}^{-2} \sqrt{\eta r T} \wedge r^{1/3} C_{\min}^{-4/3} T^{2/3})$ が成立することが示された。

    Link: https://arxiv.org/abs/2602.23116

  • 古代ギリシア批判版における構造を意識したテキスト認識 [cs.CV]目的:古代ギリシア批判版の構造を意識したテキスト認識に関する研究
    • 歴史的文献のデジタル化が進む中,その解釈と利用における自動化技術の重要性が高まっている。
    • 既存の視覚言語モデルは,歴史的学術テキストの複雑なレイアウトを十分に理解できていないという課題がある。
    • 複雑な構造を持つ歴史的文献のテキスト認識精度を向上させることを目指している。
    • 視覚言語モデルの性能を評価するため,大規模な合成データセットと実写スキャン版のベンチマークデータセットを構築した。
    • 実験の結果,既存のモデルは高度に構造化された歴史的文書に対して限界があることが明らかになった。
    • Qwen3VL-8Bモデルは実写スキャンにおいて最先端の性能を示し,中央値での文字誤り率が1.0%を達成した。

    Link: https://arxiv.org/abs/2603.02803

  • Phys4D:ビデオ拡散からの微細な物理整合性を持つ4次元モデリング [cs.CV, cs.AI, cs.RO]目的:物理整合性のある4次元世界表現の学習
    • 近年,動画生成モデルの発展により,現実世界のシミュレーションが重要視されている。
    • 既存の動画拡散モデルは,微細な物理整合性に課題があり,時間的に不自然な動きを示すことがある。
    • 動画拡散モデルから,より物理的に整合性のある4次元世界表現を生成することを目指す。
    • Phys4Dは,外観ベースの動画拡散モデルを段階的に物理整合性のある4次元世界表現へと高める3段階の学習パラダイムを採用している。
    • 大規模な疑似教師あり事前学習により,ロバストな幾何学と運動表現を確立し,4次元シーンモデリングの基盤を構築する。
    • シミュレーションデータを用いた物理に基づいた教師ありファインチューニングと,シミュレーションに基づいた強化学習により,物理的な矛盾を修正する。

    Link: https://arxiv.org/abs/2603.03485

  • ThinkJEPA:大規模な視覚言語推論モデルによる潜在的世界モデルの強化 [cs.CV, cs.AI, cs.CL, cs.LG, cs.RO]目的:潜在的世界モデルにおける長期予測性能の向上
    • 将来予測は,ロボット工学や自動運転など,様々な分野で重要である。現実世界の複雑な変化を予測することで,より安全で効率的なシステムの実現に繋がる。
    • 従来の潜在的世界モデルは,短い観測期間に依存するため,長期的な意味的情報を捉えきれず,局所的な外挿に偏りがちである。
    • 視覚言語モデルの知識と推論能力を活用し,潜在的世界モデルの長期予測性能を向上させることを目指す。
    • 提案手法は,視覚言語モデルによるセマンティックなガイダンスと,潜在的世界モデルによる詳細な運動予測を組み合わせることで,予測精度を向上させている。
    • 特に,長期的な予測において,既存の視覚言語モデル単独,あるいは潜在的世界モデル単独の手法よりも優れた性能を示すことが確認された。
    • ヒエラルキーピラミッド表現抽出モジュールにより,視覚言語モデルからの知識を効果的に潜在予測に統合することが可能となった。

    Link: https://arxiv.org/abs/2603.22281

  • MACsを超えて:視覚バックボーンのためのハードウェア効率的なアーキテクチャ設計 [cs.CV, cs.AI]目的:視覚バックボーンの効率化
    • 現代のコンピュータビジョンにおいて,視覚バックボーンは中核的な役割を担うため,その効率向上が重要である。
    • MACs(乗算累積演算)は実行時間の予測指標として用いられることが多いが,特にエッジデバイスにおいては限界がある。
    • MACsに頼らない,ハードウェア効率を考慮したバックボーン設計手法を提案し,効率化を図る。
    • 実験により,従来の指標であるMACsの限界が明らかになり,効率的な実行のための重要な要素が特定された。
    • 提案手法であるLowFormerは,軽量なLowtentionモジュールにより,ImageNetで優れた性能と効率を実現した。
    • LowFormerは,様々なハードウェアプラットフォームで最新のバックボーンと比較して大幅な高速化を達成した。

    Link: https://arxiv.org/abs/2603.26551

  • DiffAttn:LLMによる意味的推論を強化した拡散ベースのドライバー視線予測 [cs.CV, cs.AI]目的:ドライバーの視線予測モデルの精度向上
    • ドライバーの視線は危険予測や運転操作に不可欠であり,交通安全に大きく関わる。
    • 既存モデルでは,ドライバーの視線パターンを正確に捉えきれていない場合がある。
    • 安全性に関わる重要な手がかりを捉え,より精度の高い視線予測を実現すること。
    • 提案手法DiffAttnは,拡散モデルを用いてドライバーの視線予測を高精度に実現した。
    • Swin TransformerとFeature Fusion Pyramidを組み合わせることで,局所的・全体的なシーン特徴を効果的に捉えた。
    • LLM層を組み込むことで,上位レベルの意味的推論を強化し,安全性に関わる手がかりへの感度を高めた。

    Link: https://arxiv.org/abs/2603.28251

  • 大規模音声言語モデルに対するメンバーシップ推論攻撃 [cs.SD, cs.AI]目的:大規模音声言語モデルのメンバーシップ推論攻撃の評価
    • プライバシー保護は重要であり,モデルが学習データに含まれる個人を特定されるリスクを評価する必要がある。
    • 音声データにおける学習データとテストデータの分離が容易であり,メンバーシップ推論攻撃が分布シフトの影響を受けやすい。
    • 分布シフトの影響を制御し,より信頼性の高いメンバーシップ推論攻撃の評価方法を確立すること。
    • 一般的な音声データセットでは,モデル推論なしでも学習データとテストデータの分離がほぼ完璧であることが示された。
    • 分布を一致させたデータセットを用いることで,分布シフトの影響を受けない,信頼性の高いメンバーシップ推論攻撃の評価が可能となった。
    • 大規模音声言語モデルの記憶はクロスモーダルであり,話者の音声IDとテキストの結合から生じることが明らかになった。

    Link: https://arxiv.org/abs/2603.28378

  • 流暢な嘘:敵対的頑健性は基盤に依存しうる [cs.CV]目的:物体検出器における敵対的攻撃に対する品質劣化現象の解明
    • 物体検出技術は,自動運転やセキュリティなど,様々な分野で不可欠であり,その信頼性が重要である。
    • 敵対的攻撃に対する頑健性の評価において,検出精度と検出数の相関が前提とされているが,検証が不十分である。
    • スパイクニューラルネットワークにおける特異な品質劣化を明らかにし,既存防御メカニズムの限界を示す。
    • 標準的なPGD攻撃において,EMS-YOLOはmAPが大幅に低下する一方で,検出数は70%以上を維持する品質劣化(QC)を示すことが確認された。
    • QCはEMS-YOLOに限って発生し,他のスパイクニューラルネットワークアーキテクチャでは確認されなかった。
    • 既存の5つの標準防御メカニズムはQCを検知または軽減できず,防御システムが単一の基盤に適合した仮定に基づいている可能性を示唆する。

    Link: https://arxiv.org/abs/2604.00605

  • SCC-Loc:UAV熱画像ジオロケーションのための統一セマンティックカスケードコンセンサスフレームワーク [cs.CV, cs.RO]目的:UAV熱画像ジオロケーションにおける高精度な絶対位置推定
    • GNSSが利用できない環境下でのUAVの自律運用において,熱画像を利用したジオロケーション技術は重要な役割を果たす。
    • 熱画像と可視画像の間にはモダリティギャップが存在し,従来の粗い位置合わせでは特徴量の曖昧性が生じやすい。
    • モダリティギャップによる曖昧性を解消し,高精度かつロバストなジオロケーションを実現すること。
    • 提案手法SCC-Locは,単一のDINOv2バックボーンを用いることでメモリ消費量を抑え,ゼロショットでの高精度な位置推定を可能にした。
    • Semantic-Guided Viewport Alignment(SGVA)モジュールやCascaded Spatial-Adaptive Texture-Structure Filtering(C-SATSF)メカニズムを導入することで,モダリティの曖昧性を効果的に抑制した。
    • 実実験の結果,平均位置推定誤差を9.37mまで抑制し,既存の最良手法と比較して5m以内での精度を7.6倍向上させた。

    Link: https://arxiv.org/abs/2604.03120

  • NeuroClaw 技術報告 [cs.CV]目的:実行可能かつ再現性のある神経画像研究のためのマルチエージェント研究アシスタント
    • 科学的発見の加速が期待されるAI研究において,神経画像解析は特有の課題を抱える。
    • 神経画像データは形式が多様で,処理パイプラインが複雑,再現性が課題となっている。
    • NeuroClawは,神経画像研究における実行可能性,再現性の向上を目指す。
    • NeuroClawは,様々な形式の神経画像データに直接作用し,BIDSメタデータに基づいて意思決定を行う。
    • ハarness engineeringと環境管理を組み合わせることで,ツールチェーンの透明性を高め,再現性と監査可能性を向上させる。
    • NeuroClawの導入により,マルチモーダルLLMを用いた実験において,一貫したスコアの向上が確認された。

    Link: https://arxiv.org/abs/2604.24696

  • 3D生成と編集のための離散ボクセル拡散 (DVD) [cs.CV, cs.LG]目的:3D生成パイプラインにおける疎なボクセル生成,評価,編集のための離散拡散フレームワーク
    • 3Dコンテンツ生成は,仮想現実やロボティクスなど多様な分野で不可欠であり,その重要性は増している。
    • 既存の3D生成手法は,計算コストが高い,生成される品質が十分でない,編集が困難などの課題が存在する。
    • 疎なボクセル表現と離散拡散モデルを用いることで,効率的かつ高品質な3D生成と編集を実現することを目指す。
    • DVDは,連続値への閾値処理を回避し,ボクセル占有率を直接的な離散変数として扱うことで,シンプルなボクセル生成フレームワークを提供する。
    • 予測エントロピーを活用することで,曖昧なボクセル領域や複雑なサンプルを特定し,データフィルタリングや品質評価を容易にする。
    • ブロック構造摂動パターンを用いた軽量なファインチューニング戦略により,単一のサンプリングラウンドでボクセルをインペイントや編集することが可能となる。

    Link: https://arxiv.org/abs/2605.07971

  • 拡散Transformerにおける注意シンク:因果分析 [cs.CV]目的:拡散Transformerにおける注意シンクの役割の解明
    • 画像生成モデルの性能向上には,Transformerアーキテクチャの理解が不可欠である。
    • 注意機構における注意シンクの機能と影響は未だ不明な点が多い。
    • 拡散Transformerにおける注意シンクの影響を因果的に分析し,その重要性を評価する。
    • 注意シンクの除去は,Stable Diffusion 3におけるテキストと画像の整合性(CLIP-T)を損なわない。
    • ある程度の介入($k \geq 10$)下では,HPS-v2指標に依存した境界が現れるが,CLIP-Tは依然としてロバストである。
    • 注意シンクの抑制による知覚的変化は,ランダムマスキングよりも顕著であり,意味的整合性と軌跡レベルの摂動との間に乖離が認められる。

    Link: https://arxiv.org/abs/2605.09313

  • Flash-GRPO:ワンステップポリシー最適化による動画拡散モデルの効率的なアライメント [cs.SI, math.OC, cs.CV]目的:動画拡散モデルと人間の選好のアライメント
    • 動画生成において,人間の好みに沿った高品質な動画生成が重要視されている。
    • GRPOは有効だが,計算コストが非常に高く,実用上のボトルネックとなっていた。
    • 低コストで高品質なアライメントを実現し,効率的な学習を可能にすること。
    • Flash-GRPOは,フルトラジェクトリー学習を上回り,低い計算コスト下で優れたアライメント品質を示す。
    • 等時性グループ化により,時間ステップに依存した分散を解消し,ポリシー性能を安定化。
    • 時間勾配修正により,時間ステップごとの勾配の大きさを均一化し,学習の安定性を向上。

    Link: https://arxiv.org/abs/2605.15980

  • 拡散Transformerにおけるクロスレイヤー情報ルーティングの再考 [cs.CV, cs.AI]目的:拡散Transformerにおけるクロスレイヤー情報フローの体系的な分析と,それに基づく新たな残差置換手法の開発
    • 近年のビジュアル生成において,拡散Transformerが重要な役割を担うようになっている。
    • 従来の拡散Transformerの残差ストリームは,Transformerから直接引き継がれており,改善の余地があった。
    • 残差加算の問題点を特定し,学習可能な適応的な情報集約手法を提案することで,性能向上を目指す。
    • 本研究で提案するDiffusion-Adaptive Routing (DAR) は,SiT-XL/2のFIDを2.11改善した。
    • DARは,REPAと組み合わせることで,トレーニング初期段階で2倍の高速化を実現した。
    • DARは,大規模なT2Iモデルのファインチューニングにも適用でき,高周波ディテールを維持する効果が確認された。

    Link: https://arxiv.org/abs/2605.20708

  • DRIVESPATIAL:自動運転のためのVLMにおける時空間知能のベンチマーク [cs.CL, cs.CV]目的:自動運転における時空間知能の評価
    • 自動運転の安全性を高めるには,周囲状況を正確に理解する知能が不可欠である。
    • 既存のベンチマークは単一視点に偏り,動的なシーンの理解を十分に評価できていない。
    • 多視点・時系列情報を統合し,状況を正確に把握する能力を評価するベンチマークが必要である。
    • 本研究では,大規模な自動運転データセットを用いた15.6K件のQAペアからなるベンチマーク「DriveSpatial」を開発した。
    • 評価の結果,既存のVLMは人間のパフォーマンスを大幅に下回り,特に認知的なシーン構築能力に課題があることが示された。
    • BEV(鳥瞰図)への明示的な対応付けがVLMの性能向上に寄与することから,シーン構築能力の重要性が示唆された。

    Link: https://arxiv.org/abs/2605.23176

  • 深層学習を用いたマルチスペクトル画像におけるリモートセンシングデータ補完 [cs.CV, cs.AI, stat.AP]目的:深層学習によるリモートセンシングデータ補完手法の評価
    • 水質管理において,光学衛星データの利用が不可欠である。雲の影響によるデータ欠損が課題となっている。
    • 雲などの影響でデータに欠損が生じ,藻類ブルームなどの重要な現象の検出が困難になる場合がある。
    • 深層学習モデルを用いて,光学衛星データの欠損値を効果的に補完し,水質モニタリングの精度向上を目指す。
    • 深層学習モデルは,線形補間法と比較して,スペクトルバンド値の補完において大幅に優れた性能を示した。
    • 特にCNNモデルは,対象湖沼の多くにおいて最も良い性能を発揮した。
    • 補完された画像から算出された藻類ブルーム指標は,観測データと比較して信頼性が高いことが示された。

    Link: https://arxiv.org/abs/2605.24003

  • 表現データの解釈可能な次元を明らかにするための類似性に基づく表現因子分解 [cs.CV, q-bio.NC]目的:表現データの次元回復
    • 脳科学,心理学,人工知能など広範な分野で表現の研究が重要視されている。
    • 既存手法では,表現を形作る次元へのアクセスが限られ,解釈性に乏しいという課題がある。
    • 類似性行列から解釈可能な低次元埋め込みを回復し,表現の次元を明らかにすることを目的とする。
    • SRFは,神経,行動,計算データセットにおいて,多様な表現データから解釈可能な次元を回復することに成功した。
    • SRFから得られた次元は,タスク特化型モデルの結果と一致し,独立した行動特性を予測することが示された。
    • SRFは,類似性行列の比較よりも高い検証力を持つことが確認され,表現の理解と利用に役立つ汎用的な手法となる。

    Link: https://arxiv.org/abs/2605.26921

  • 視点計画 [cs.AI, cs.CV, cs.RO]目的:視点計画の能力
    • ロボットやAIが環境を理解し,効率的に行動するための基盤技術。
    • 視覚言語モデル(VLM)は視点と行動の関係を理解するものの,複数ステップの計画に苦戦している。
    • VLMにおける多段階視点計画のギャップを埋め,3次元空間での推論・計画能力向上を目指す。
    • 提案手法である反復的フレームワークにより,Qwen2.5-VL-7Bの性能が大幅に向上し,GPT-5.4 ProやGemini 3.1 Proを上回った。
    • 自己探索と視点グラフ蒸留を組み合わせることで,VLMは効果的に視点間の関係を学習し,計画能力を高めることが示された。
    • この研究は,3次元空間で能動的に推論し計画できるVLMの開発に向けた有望な道筋を示す。

    Link: https://arxiv.org/abs/2605.29563

  • 抗VEGF治療後の視力予測のための応答を考慮したマルチモーダル学習 [cs.CL, cs.CV]目的:糖尿病性黄斑浮腫患者における長期視力予測
    • 糖尿病性黄斑浮腫の治療効果予測は,患者指導や治療計画に不可欠である。
    • 初期の検査データのみでは,長期的な視力予測は依然として困難である。
    • 本研究は,初期データに基づく多段階視力予測モデルを開発し,長期予後を改善する。
    • 提案手法ReVAは,ベースラインと治療1ヶ月後のOCT画像と臨床データを統合し,高精度な長期視力予測を実現した。
    • 24ヶ月後の視力予測において,MAE=0.1246,RMSE=0.1621,R^2=0.6064という良好な性能を示した。
    • 初期の治療反応を組み込むことで,データに基づいた臨床意思決定を支援できる可能性を示した。

    Link: https://arxiv.org/abs/2606.00588

  • SceneConductor:単一画像からのマルチエージェントオーケストレーションによる3Dシーン生成 [cs.CV, cs.AI, cs.MA]目的:単一画像からの3Dシーン生成
    • 3Dシーン生成は,メタバースやAR/VRなどの応用において不可欠であり,現実世界の再現度向上が求められる。
    • 既存手法は,シーン全体の情報を一度に処理するため,複雑な環境への汎化が難しいという課題がある。
    • 本研究は,複数のエージェントによる段階的な処理を通じて,複雑なシーンの生成を可能にすることを目的とする。
    • 提案手法は,シーンの初期化,環境構築,マルチエージェントによる洗練という3つの段階で3Dシーンを生成する。
    • 初期化段階では,画像からオブジェクトマスクを抽出し,空間レイアウトを予測することで粗い3Dシーンを構築する。
    • 実験結果から,提案手法が既存手法よりも幾何学的精度,空間的一貫性,および視覚的リアリズムにおいて優れていることが示された。

    Link: https://arxiv.org/abs/2606.08402

  • クレイ-CNNハイブリッド:地形空間基礎モデルを補助コンテキストとして活用した地すべり検出 [cs.CV, cs.AI, cs.LG, eess.IV]目的:地すべり検出における精度向上
    • 災害対応において迅速な地すべりマッピングは不可欠であり,その自動化が求められている。
    • 地すべりデータはクラス間の不均衡が極めて大きく,自動化を困難にする要因となっている。
    • 地形空間基礎モデルをCNNに組み込むことで,地すべり検出の精度を向上させることを目指す。
    • クレイとU-Netを組み合わせたハイブリッドモデルが,テストF1スコア64.5±1.8%を達成し,クレイ単独(55.2±3.6%)やU-Netベースライン(59.9%)を上回った。
    • クレイを単独エンコーダーとして使用した場合,U-Netに劣る性能を示したが,補助コンテキストとして注入することで一貫して性能が向上した。
    • 地形空間基礎モデルは,空間的に詳細な畳み込みアーキテクチャを補完することで,地すべり検出において最も効果的であることが示唆された。

    Link: https://arxiv.org/abs/2606.14081