arXiv雑要約

画像・音声 - 2026/03/10 公開

  • SketchGraphNet:大規模スケッチコーパス認識のためのメモリ効率の良いハイブリッドグラフTransformer [cs.CV, cs.AI]目的:大規模スケッチコーパスの認識
    • スケッチ認識は,ヒューマンコンピュータインタラクションやコンテンツベース画像検索において重要な役割を果たす。
    • 既存の手法は,ラスター画像やストロークシーケンスに依存しており,スケッチの構造的情報を十分に活用できていない。
    • グラフ構造として直接スケッチをモデル化することで,より効率的かつ高精度な認識を目指す。
    • SketchGraphNetは,ローカルメッセージパッシングとメモリ効率の良いグローバルアテンション機構を統合したハイブリッドグラフニューラルアーキテクチャである。
    • SketchGraphベンチマークを用いて評価した結果,SketchGraphNetはTop-1精度83.62%(SketchGraph-A)および87.61%(SketchGraph-R)を達成した。
    • MemEffAttnは,GPUメモリ使用量を40%以上,トレーニング時間を30%以上削減しつつ,同等の精度を維持した。

    Link: https://arxiv.org/abs/2603.07521

  • ACCURATE:ロバストな適応的二視点推定による,任意形状の連続体の正確な再構成 [cs.RO, cs.HC, cs.RO, cs.CV]目的:任意形状の細長い連続体の正確な再構成
    • 医療用ガイドワイヤー等,柔軟な連続体ロボットの機械シミュレーションにおいて,正確な形状把握が不可欠である。
    • 既存手法はカメラの配置を十分に活用せず,複雑な形状のロボットに対しては適用が難しい場合がある。
    • カメラ幾何学制約と動的計画法を統合し,ノイズやオクルージョンに強い再構成手法を開発する。
    • 提案手法(ACCURATE)は,画像セグメンテーションと幾何学制約を組み合わせることで,高い再構成精度を実現した。
    • シミュレーション及び臨床用X線Cアームで取得したデータを用いて評価した結果,平均絶対誤差は1.0mm以下であった。
    • 本手法は,オクルージョンやエピポーラ曖昧性に対してもロバストであることが確認された。

    Link: https://arxiv.org/abs/2603.07533

  • スケールを考慮したUAV-衛星クロスビュージオロケーション:セマンティック幾何学的アプローチ [cs.CL, cs.CV]目的:UAV画像と衛星画像間のクロスビュージオロケーションのロバスト性の向上
    • UAVと衛星画像を用いたターゲット位置特定やUAVの自己位置推定は,幅広い分野で重要性が増している。
    • 従来のCVGL手法は,UAV画像と衛星画像のスケールの一貫性を仮定しており,現実世界のスケール曖昧性への対応が課題である。
    • セマンティックアンカーを用いてUAV画像の絶対的なメトリックスケールを推定し,スケール不一致による問題を解決する。
    • 本手法では,車両などのセマンティックアンカーから絶対スケールを推定する幾何学的フレームワークを提案し,スケール適応型の衛星画像クロッピングを実現した。
    • DenseUAVおよびUAV-VisLocデータセットを用いた実験により,未知のUAV画像スケール下におけるCVGLのロバスト性が大幅に向上することが示された。
    • 提案手法は,受動的なUAV高度推定や3Dモデルのスケール復元といった下流アプリケーションへの応用も期待される。

    Link: https://arxiv.org/abs/2603.07535

  • 統一マルチモーダルモデルはどの程度長く信頼性の高い画像を生成できるか:文脈キュレーションによる長期的交錯画像生成の制御 [cs.CL, cs.CV, cs.AI]目的:長期的交錯画像生成における信頼性低下機構の解明と,その改善手法の提案
    • テキストと画像を組み合わせた長編ストーリー生成は,新たな表現方法として期待されている。
    • 既存のモデルでは,生成シーケンスが長くなるにつれて,生成品質が急速に低下する問題がある。
    • 過去の視覚情報の蓄積がノイズとなり,生成を歪める点を克服し,長期的信頼性を向上させる。
    • 視覚情報の蓄積が,トークン数に依存せず画像イベント数に応じて生成の質を低下させることを明らかにした。
    • UniLongGenは,モデル自身の関連性ランキングに基づいて不要な視覚情報を動的に削除する推論戦略である。
    • UniLongGenは,長期的な忠実度と一貫性を大幅に向上させ,メモリフットプリントと推論時間を削減する。

    Link: https://arxiv.org/abs/2603.07540

  • パッチ対照的強調とスタイルを意識した量子化による,高品質なワンショット手書き文字生成へ [cs.CV, cs.MM]目的:ワンショット手書き文字画像生成の品質向上
    • 手書き文字生成は,個人認証やデータ拡張など多様な応用可能性を持つ重要な研究分野である。
    • 単一の参照画像のみから手書き文字を生成する場合,多様な手書きの特徴を捉えるのが難しいという課題がある。
    • 参照画像のスタイルを正確に捉え,高品質でリアルな手書き文字画像を生成することを目指す。
    • 提案手法 CONSTANT は,スタイルを離散的な視覚トークンとしてモデル化し,スタイル空間におけるトークンの分離を強化する。
    • 潜在空間における多スケール空間パッチのアライメントにより,生成画像の品質と局所構造を改善する。
    • 英語,中国語,ベトナム語のベンチマークデータセットにおいて,最先端手法と比較して優れた性能を示す。

    Link: https://arxiv.org/abs/2603.07543

  • 匿名化された音声におけるパーキンソン病検出の評価:性能と音響分析 [cs.SD, eess.AS]目的:パーキンソン病検出性能と音響的特徴の分析
    • 音声によるパーキンソン病の自動検出は,侵襲性の低い診断法として期待されている。
    • 音声データには個人情報が含まれるため,プライバシー保護が課題となる。
    • 匿名化技術を用いながら,パーキンソン病検出の精度をいかに維持するかが焦点。
    • STT-TTSは高いプライバシー保護を提供するが,音韻情報の消失により検出精度が著しく低下した。
    • kNN-VCは音韻的特徴を保持し,オリジナルデータと比較してF1スコアがわずか3-7%低下するに留まった。
    • 適切な匿名化技術を用いれば,プライバシーを保護しつつパーキンソン病を検出できる可能性が示された。

    Link: https://arxiv.org/abs/2603.07544

  • 対称性の探索によるハミルトン世界モデルの学習:DreamSAC [cs.CV, cs.AI, cs.LG]目的:ハミルトン系に基づく探索戦略と世界モデルの設計
    • 物理現象の理解と予測は,ロボット工学やシミュレーションにおいて不可欠である。
    • 従来の学習された世界モデルは,未知の物理特性への外挿に課題がある。
    • 物理的変動や保存則といった環境の生成ルールを学習し,外挿性能を向上させる。
    • 本研究では,ハミルトンに基づいた好奇心ボーナスを用いた自己教師あり探索戦略「Symmetry Exploration」を提案した。
    • この戦略により収集されたデータを用いて,不変な物理状態を学習する新しい世界モデル「DreamSAC」を開発した。
    • 3D物理シミュレーションにおいて,DreamSACは外挿を必要とするタスクで最先端のベースラインを大きく上回る性能を示した。

    Link: https://arxiv.org/abs/2603.07545

  • ゼロショット音声合成における標的スピーカーポイズニングフレームワーク [cs.SD, cs.AI]目的:ゼロショット音声合成モデルからの特定スピーカーの識別子除去
    • 音声合成技術の高度化に伴い,個人情報の保護が重要課題となっている。
    • ゼロショットTTSは少ない情報で声質を再現するため,プライバシー侵害のリスクが高い。
    • 特定スピーカーの音声生成を阻止し,汎用的な音声合成の有用性を維持すること。
    • 提案手法は,最大15人のスピーカーに対して高いプライバシー保護性能を示した。
    • 100人以上のスピーカーを対象とする場合,識別子の重複により性能が制限されることが示された。
    • 本研究は,生成AIにおける音声プライバシー保護のための新たな問題提起と評価フレームワークを提供する。

    Link: https://arxiv.org/abs/2603.07551

  • ReconDrive: 自律走行シーン再構成のための高速前方フィードフォワード4Dガウススプラッティング [cs.CV, cs.RO]目的:自律走行シーンの高速かつ高精度な4Dガウススプラッティング生成
    • 自律走行におけるリアルな閉ループ評価には,高精度な視覚再構成と新規視点合成が不可欠である。
    • 既存のシーン毎の最適化手法は計算コストが高く,大規模な都市環境への適用が困難である。
    • 本研究は,高速かつ高品質な4Dガウススプラッティングを可能にし,現実的なドライビングシミュレーションを実現する。
    • ReconDriveは,既存の前方フィードフォワードベースラインと比較して,再構成,新規視点合成,3D知覚において大幅な性能向上を達成した。
    • シーン毎の最適化と同等の性能を,桁違いの速さで実現し,現実的なドライビングシミュレーションのためのスケーラブルで実用的なソリューションを提供する。
    • 本手法は,3D基礎モデルVGGTを活用し,ハイブリッドガウス予測ヘッドと静的・動的4D合成戦略を導入することで,動的な運転シーンに対応する。

    Link: https://arxiv.org/abs/2603.07552

  • ネワール語音声コーパス Nw\=ach\=a Mun\=a と近接言語転移ベンチマーク [cs.CL, cs.AI, cs.SD]目的:ネワール語自動音声認識のためのDevanagari文字による音声コーパスとベンチマーク
    • ネワール語は消滅の危機に瀕しており,デジタル化が遅れているため,言語保存が急務である。
    • ネワール語の注釈付き音声資源が著しく不足しており,自動音声認識の研究が進んでいない。
    • 近接言語からの転移学習により,少ないデータでネワール語音声認識の性能向上を目指す。
    • 新たに構築した5.39時間のネワール語Devanagari音声コーパス「Nw\=ach\=a Mun\=a」を公開した。
    • 近接言語であるネパール語からの転移学習が,大規模多言語事前学習に匹敵する性能を発揮した。
    • ネパール語Conformerモデルのファインチューニングにより,文字誤り率を大幅に改善できた。

    Link: https://arxiv.org/abs/2603.07554

  • 平均報酬ゲームに対する対称的な再帰的アルゴリズム [cs.GT, cs.DS]目的:平均報酬ゲームの解法
    • ゲーム理論は,経済学や計算機科学など,幅広い分野で重要な役割を果たしている。
    • 平均報酬ゲームの解法は,計算複雑性が高いことが課題であった。
    • 本研究では,効率的な解法を提供する対称的な再帰的アルゴリズムを提案する。
    • 平均報酬ゲームを解くための,新しい決定的な対称的な再帰的アルゴリズムを提案した。

    Link: https://arxiv.org/abs/2603.07555

  • 微表情認識のための能動推論:EFE誘導型時間的サンプリングと適応学習 [cs.CV]目的:微表情認識のための能動推論フレームワーク
    • 人間とコンピュータのインタラクションや臨床モニタリングにおいて,微表情は重要な情報源となりうる。
    • 微表情は振幅が小さく,持続時間が短く,個人差が大きいため,既存の深層学習モデルでは認識精度が低下しやすい。
    • 低サンプル,ノイズ,およびクロスサブジェクト条件下でもロバストな微表情認識を実現すること。
    • 提案手法は,期待自由エネルギー(EFE)に基づいて最も識別的な時間セグメントを能動的に選択し,動的な観測と情報獲得の最大化を可能にする。
    • 予測不確実性に基づくサンプル重み付けにより,ラベルノイズと分布シフトの影響を軽減する。
    • SMGデータセットを用いた実験により,提案手法が複数の主流バックボーンで一貫した性能向上を達成することが示された。

    Link: https://arxiv.org/abs/2603.07559

  • PureCC:テキストから画像への概念カスタマイズのための純粋学習 [cs.CV]目的:テキストから画像への概念カスタマイズにおける純粋学習
    • 画像生成モデルの応用範囲拡大のため,概念カスタマイズ技術の重要性が高まっている。
    • 既存手法では,個別の概念学習が元のモデルの性能に悪影響を及ぼす可能性がある。
    • PureCCは,元のモデル性能を維持しつつ,高精度な概念カスタマイズを実現する。
    • PureCCは,ターゲット概念のガイダンスと元の予測を分離した学習目標を導入することで,元のモデルへの影響を最小限に抑える。
    • 凍結された特徴抽出器と学習可能なフローモデルを用いた二分岐学習パイプラインにより,純粋な学習を実現している。
    • 適応的なガイダンススケールにより,カスタマイズの忠実性とモデルの維持のバランスを取っている。実験により,高い性能が確認された。

    Link: https://arxiv.org/abs/2603.07561

  • 脳-WM:脳神経膠腫の世界モデル [cs.CV]目的:脳神経膠腫の治療介入下における精密な予後予測モデリング
    • 脳神経膠腫は予後が極めて悪く,治療法の最適化が急務である。
    • 既存手法では,治療介入を静的な入力として扱うため,腫瘍と治療の相互作用を捉えきれない。
    • 腫瘍の進化と治療反応の共進化的な関係を捉えたモデルを構築し,治療計画の最適化を目指す。
    • Brain-WMは,次ステップの治療予測と将来のMRI生成を統合した世界モデルである。
    • Y字型のMoTアーキテクチャを採用し,異質な目的を構造的に分離することで,タスク間の相乗効果を高め,特徴崩壊を防ぐ。
    • 内部および外部コホートの検証で,治療計画の精度91.5%と,FLAIR, T1CE, T2Wシーケンスでそれぞれ0.8524, 0.8581, 0.8404のSSIMを達成した。

    Link: https://arxiv.org/abs/2603.07562

  • SiamGM:幾何学的および運動誘導を用いたリアルタイム衛星映像物体追跡ネットワーク [cs.CV]目的:衛星映像における物体追跡の精度向上
    • 衛星映像分析は,災害監視やインフラ管理など,幅広い分野で重要性が増している。
    • 衛星映像の物体は小さく,背景が不明瞭で,遮蔽物も多く,追跡が困難である。
    • 幾何学的情報と運動情報を活用し,ロバストな追跡を実現することを目指す。
    • SiamGMは,Inter-Frame Graph AttentionモジュールとAspect Ratio-Constrained Label Assignmentを導入し,空間的な曖昧さを軽減する。
    • さらに,Motion Vector-Guided Online Tracking OptimizationとOnline Motion Model Refinementにより,時間的な情報損失を抑制する。
    • SatSOTとSV248Sの評価において,既存の追跡手法を上回り,130FPSでのリアルタイム追跡を可能にした。

    Link: https://arxiv.org/abs/2603.07564

  • GRD-Net:領域関心モジュールを用いた生成・再構成・識別的異常検知 [cs.CV, cs.AI, cs.LG]目的:異常検知のための新たなアーキテクチャの開発
    • 産業応用において,製品の品質管理における異常検知の重要性が高まっている。
    • 従来の異常検知は,データセットに依存した前処理が必要であり,汎化性能が低い。
    • 関心領域に焦点を当てることで,前処理の削減と検知精度の向上を目指す。
    • 生成・再構成ネットワーク(GAN)と画像セグメンテーションを組み合わせた新しいアーキテクチャを提案した。
    • 関心領域(ROI)を用いた識別ネットワークにより,異常が起こりやすい領域を学習することで,汎化性能を高めた。
    • MVTecデータセットおよび医薬品BFSストリップのデータセットを用いた実験で,有効性を検証した。

    Link: https://arxiv.org/abs/2603.07566

  • マルチタスク適応学習とクロス次元特徴ガイダンスによる効率的なRGB-Dシーン理解 [cs.CV]目的:RGB-Dシーン理解の効率化
    • ロボットシステムにおける知能と自律性の実現には,周囲環境の正確な理解が不可欠である。
    • 従来のシーン理解手法は,オクルージョンや曖昧な境界,タスクに応じた注意の適応の困難さといった課題を抱えている。
    • 多様なシーンの変化に対応し,セグメンテーション精度と処理速度を向上させることを目指す。
    • 提案手法は,RGBと深度入力の冗長情報を効果的に活用する強化された融合エンコーダを組み込んでいる。
    • セマンティックセグメンテーションにおいては,正規化された焦点チャネル層と文脈特徴相互作用層が,特徴の誤誘導と局所-大域的特徴表現の不足を軽減する。
    • インスタンスセグメンテーションでは,非ボトルネック1D構造により,少ないパラメータで優れた輪郭表現を実現している。

    Link: https://arxiv.org/abs/2603.07570

  • 画像分類における分布外検出のための学習目的関数の系統比較 [cs.CV, cs.AI, cs.LG]目的:画像分類における分布外検出のための学習目的関数の比較
    • 安全性が求められる応用において,未知のデータへの対応能力が重要であるため。
    • 学習目的関数が分布外データ検出性能に与える影響は,十分に検討されていない。
    • 様々な学習目的関数が分布外検出性能に及ぼす影響を系統的に評価すること。
    • クロスエントロピー損失,プロトタイプ損失,AP損失は,分布内精度で同程度の性能を示す。
    • 全体として,クロスエントロピー損失が分布内および分布外データに対する最も安定した性能を示す。
    • 他の目的関数は,特定の条件下で競争力を持つ可能性がある。

    Link: https://arxiv.org/abs/2603.07571

  • 高速産業ラインにおける深層生成異常検知アルゴリズムの統合 [cs.CV, cs.AI, cs.LG]目的:医薬品製造における異常検知手法
    • 医薬品製造において,品質管理は安全性と有効性を保証する上で極めて重要である。
    • 従来の検査方法は,作業者のばらつきやスループットの限界,多様な生産状況への対応の難しさがある。
    • 本研究は,高速産業ラインでのリアルタイムな異常検知を可能にし,品質管理の自動化を目指す。
    • 生成敵対ネットワークと残差オートエンコーダを用いた半教師あり異常検知フレームワークを提案した。
    • 正常サンプルのみで学習し,再構成残差により異常を検出し,分類と空間的な局在化を実現した。
    • 実際の工業試験キットを用いた実験で,500msの取得スロット内で高い検出性能とタイミング制約を満たした。

    Link: https://arxiv.org/abs/2603.07577

  • エンジンサウンドデータセットの解析駆動型手続き的生成:制御注釈の埋め込み [cs.RO, cs.SD, cs.LG, eess.AS]目的:エンジンサウンドデータセットの生成
    • 自動車産業において,エンジン音の計算モデルは,アクティブサウンドデザインや仮想プロトタイピングに不可欠である。
    • 高品質なエンジン音のデータセットは,コスト,測定機器,ノイズ汚染のため入手が困難である。
    • 本研究は,高品質なエンジン音と制御注釈を効率的に生成することを目指す。
    • 提案手法は,実録音から調和構造を抽出し,拡張されたパラメトリックハーモニックプラスノイズシンセサイザーを駆動する。
    • 手続き的エンジンサウンドデータセット(19時間,5,935ファイル)を生成し,RPMとトルクの正確な注釈を付与した。
    • 合成データは,実録音の調和構造を保持し,機械学習タスクに適していることが実験的に確認された。

    Link: https://arxiv.org/abs/2603.07584

  • 3DGS-HPC:ハイブリッドパッチ分類によるノイズのない3Dガウススプラッティング [cs.HC, cs.CV]目的:3Dガウススプラッティングにおける,動的物体や影などの不要要素の除去
    • 3Dシーンの再構成や新規視点合成は,メタバースやロボティクスなど様々な分野で重要性が増している。
    • 従来の3DGSは,現実環境下では動的物体や影の影響を受けやすく,品質が低下するという課題があった。
    • 本研究では,局所的な空間的一貫性と光度・知覚的指標を組み合わせることで,よりロバストな不要要素除去を目指す。
    • 提案手法3DGS-HPCは,パッチ単位での分類とハイブリッド分類指標により,従来の課題を克服する。
    • 実験により,3DGS-HPCが新規視点合成において,不要要素の軽減と品質向上に優れていることが示された。
    • 特に,動的な環境下でのロバスト性が高く,実用的な3Dシーン再構成に貢献すると期待される。

    Link: https://arxiv.org/abs/2603.07587

  • モデルはレゴビルダー:無害なブロックから意味的青写真を通して悪意を組み立てる [cs.CC, cs.CV, cs.LG]目的:大規模ビジョン言語モデルにおける安全性脆弱性の悪用
    • 視覚情報を統合するモデルの安全性確保は重要であり,悪意ある利用を防ぐ必要がある。
    • 既存モデルは,一見無害な入力を組み合わせて悪意のある出力を生成される脆弱性を抱えている。
    • 構造化された視覚的プロンプトを用いて,モデルの推論能力を悪用し,安全機構を回避する手法を提案する。
    • 提案手法StructAttackは,有害なクエリを無害なスロットタイプに分解し,構造化された視覚的プロンプトとして埋め込む。
    • モデルはこれらのスロットを再構成し,安全機構を作動させずに悪意のある出力を生成する。
    • 複数のモデルとベンチマークにおける実験により,StructAttackの有効性が示された。

    Link: https://arxiv.org/abs/2603.07590

  • LiDAR点群に対する高速アテンションベースの簡略化:物体検出と分類への応用 [cs.CV]目的:LiDAR点群の効率的な簡略化手法
    • 自動運転技術において,周囲環境の正確な認識が不可欠であり,LiDAR点群はその重要なデータ源である。
    • 高密度な点群データは計算コストと消費電力が増大し,リアルタイム処理のボトルネックとなる。
    • 既存手法の速度と精度のトレードオフを解消し,リアルタイム性と認識精度の両立を目指す。
    • 提案手法は,KITTIデータセットにおける3D物体検出において,Farthest Point Sampling(FPS)と比較して同等以上の精度を維持しつつ高速化を実現した。
    • 4つのデータセットを用いた物体分類においても,FPSと同様の精度を保ち,特に高いダウンサンプリング率下で大きな改善が見られた。
    • ランダムサンプリング(RS)と比較すると速度は劣るものの,高サンプリング率下でより安定的に精度を維持した。

    Link: https://arxiv.org/abs/2603.07593

  • EmbedTalk:埋め込み駆動ガウス変形によるトリプレーンフリーの会話頭部合成 [cs.CL, eess.SY, cs.SY, cs.CV]目的:会話頭部合成における埋め込み駆動ガウス変形による手法
    • リアルタイム会話頭部合成は重要であり,低遅延が求められる。
    • 従来のトリプレーン表現は解像度や近似誤差により制約がある。
    • 埋め込み表現を用いることで,より高精度で効率的な合成を目指す。
    • EmbedTalkは,既存の3DGSベース手法と比較して,レンダリング品質,唇同期,モーションの一貫性で優れている。
    • トリプレーンの代わりに埋め込み表現を使用することで,モデルサイズを大幅に削減し,モバイルGPU (RTX 2060 6 GB) で60 FPS以上を実現する。
    • 学習された埋め込みが,時間的な変形を駆動することの優位性を示している。

    Link: https://arxiv.org/abs/2603.07604

  • 水面形状の教師なし学習による水中観察 [cs.HC, cs.HC, cs.CL, cs.CV]目的:水面による屈折で生じる画像歪みの除去
    • 水中の可視化は,環境モニタリングや水中探査において重要である
    • 水面反射による歪みは,水中画像の質の低下を招く
    • 教師なし学習で水面形状を推定し,画像歪みを補正すること
    • 提案手法は,水面形状と画像色の両方を予測するニューラルネットワークを使用する
    • SIRENを用いることで,水面形状の時間空間信号の効率的なモデリングを実現した
    • シミュレーションと実データにおいて,既存手法を上回る性能を示した

    Link: https://arxiv.org/abs/2603.07614

  • 拡散基礎モデルによる暗黙的な視覚表現:圧縮を適応として [cs.LG, cs.CV]目的:拡散基礎モデルを用いた視覚情報の暗黙的な表現方法
    • 近年,視覚生成モデルの発展により,大量の視覚知識が利用可能になった。
    • 既存の視覚表現はモデル外部にあり,学習済み知識の活用が限定的である。
    • 生成過程を関数として捉え,視覚情報の圧縮と生成を統合する枠組みを提案する。
    • 拡散基礎モデルに低ランク適応を付加し,信号を関数として暗黙的に表現する。
    • この表現はコンパクトなベクトルにハッシュ化され,極めて低いビットレートで優れた知覚的ビデオ圧縮を実現する。
    • 表現の関数的性質により,推論時のスケーリングや制御が可能となり,圧縮性能の微調整が容易である。

    Link: https://arxiv.org/abs/2603.07615

  • 過剰思考が幻覚を引き起こす:ビジョン言語モデルにおける交絡因子伝播の追跡 [cs.CV]目的:ビジョン言語モデルにおける幻覚検出メカニズムの解明
    • ビジョン言語モデルは画像とテキストの理解において重要であり,その応用範囲は広い。
    • 既存のモデルは存在しない物体を幻覚として認識することがあり,その原因特定が課題である。
    • モデルの思考過程に着目し,幻覚発生の根本原因である「過剰思考」を検出する。
    • 幻覚を起こす物体は,文脈の事前知識により集中した注意を示すことが判明した。
    • モデルは,誤った仮説に中間層で収束することで,高い確信度を示す傾向がある。
    • 新たに「過剰思考スコア」を導入し,幻覚検出性能を大幅に向上させた(MSCOCOで78.9% F1スコア)。

    Link: https://arxiv.org/abs/2603.07619

  • Duala:被験者と刺激の二段階アライメントによるクロス被験者fMRIデコーディング [cs.DC, cs.RO, cs.CV]目的:クロス被験者fMRIデコーディングにおける,被験者間での刺激の一貫性と脳応答のアライメントの維持
    • 脳活動から視覚体験を再構築するクロス被験者デコーディングは,大規模かつ実用的なブレイン・コンピュータインタフェース実現に不可欠である。
    • 既存手法は,限られたデータしかない新規被験者への適応時に,刺激の意味的一貫性と脳応答のアライメントを維持できず,性能が低下する。
    • Dualaは,刺激レベルと被験者レベルの二段階アライメントにより,この課題を解決し,クロス被験者デコーディングの精度向上を目指す。
    • Dualaは,刺激レベルでの意味的アライメントと関係整合性戦略を導入し,クラス内類似性とクラス間分離性を維持することで,明確な意味境界を保つ。
    • 被験者レベルでは,分布に基づく特徴摂動メカニズムにより,グローバルな変化と被験者固有の変化の両方を捉え,過学習なしに個々の神経表現への適応を可能にする。
    • NSDデータセットを用いた実験により,Dualaが被験者間のアライメントを効果的に改善し,わずか1時間のfMRIデータで81.1%を超える画像-脳検索精度を達成することが示された。

    Link: https://arxiv.org/abs/2603.07625

  • 空間解結合特徴学習によるリアルタイム喉頭検出フレームワーク:経鼻的挿管への応用 [cs.CV]目的:経鼻的挿管における喉頭のリアルタイム検出
    • 緊急時気道確保において,迅速かつ正確な喉頭検出は患者の安全を確保する上で不可欠である。
    • 既存の機械支援視覚検出システムは,高性能な計算資源を必要とし,推論遅延が大きいという課題がある。
    • 組込み・エッジデバイス上でのリアルタイム推論を可能にする軽量かつ効率的な喉頭検出フレームワークを開発する。
    • 提案手法Mobile GlottisNetは,わずか5MBのサイズで,PIDデータセットおよび臨床データセットにおいて高い性能を発揮する。
    • デバイス上では62FPS以上,エッジプラットフォーム上では33FPS以上の推論速度を達成し,緊急時の経鼻的挿管への応用が期待される。
    • 構造認識と空間アライメント機構,階層的動的閾値処理,適応的特徴解結合モジュール,動的重み付けスキームなどを導入することで,複雑な状況下でもロバストな喉頭局在化を実現している。

    Link: https://arxiv.org/abs/2603.07630

  • 多重ネットワークにおける協調ゲーム:意見ダイナミクスの合意形成,収束,安定性 [cs.GT]目的:多層社会ネットワークにおける意見ダイナミクスの分析
    • 社会現象や情報伝播を理解する上で,複雑なネットワーク構造の解析が不可欠である。
    • 単層ネットワークでは説明できない,多層ネットワーク特有の相互作用が問題となっている。
    • 多重ネットワークにおける意見形成プロセスを解明し,合意形成を促進する条件を明らかにする。
    • 多層ネットワークの相互作用は,単一の層だけでは達成できない合意形成を誘導または加速することが示された。
    • 層ごとの協調は,相互接続により合意を失う可能性があることも明らかになった。
    • 層の重み付けや切り替え周期が,ネットワーク全体の協調と情報拡散に大きな影響を与えることが確認された。

    Link: https://arxiv.org/abs/2603.07633

  • 空港物流における手荷物トロリー検出のための合成データ評価 [cs.RO, cs.CV, cs.AI, cs.LG]目的:空港における手荷物トロリー検出のための合成データ利用可能性の評価
    • 空港運営における効率化が求められており,手荷物トロリーの適切な管理はその重要な要素である。
    • セキュリティ上の制約やプライバシー保護の観点から,十分な量の学習データ収集が困難である。
    • 現実的なトロリー配置に対応できる高品質な学習データを効率的に生成し,検出精度向上を目指す。
    • 合成データと実データ40%の混合学習により,実データのみでの学習と同等以上の精度(mAP@50:0.94, mAP@50-95:0.77)を達成した。
    • アノテーション作業量を25~35%削減できることが示され,合成データの有効性が確認された。
    • 複数回の実験により再現性が高く,mAP@50の標準偏差が0.01以下で安定した結果が得られた。

    Link: https://arxiv.org/abs/2603.07645

  • AtomicVLA:ロボットにおけるアトミックスキル学習の可能性を解き放つ [cs.RO, cs.RO, cs.AI, cs.CV]目的:ロボットにおけるアトミックスキル学習の可能性
    • ロボット工学の発展には,複雑なタスクを自律的に実行できる能力が不可欠である。
    • 既存のVLAモデルは,スケーラビリティに課題があり,長期的かつ継続的なスキル獲得が困難である。
    • アトミックスキル抽象化と動的エキスパート構成により,長期的かつ生涯にわたるロボットタスクを解決する。
    • AtomicVLAは,LIBEROおよびLIBERO-LONGにおいて,既存モデルπ₀をそれぞれ2.4%,10%上回る性能を示した。
    • CALVINにおける平均タスク長では,π₀およびπ₀.5をそれぞれ0.22,0.25上回る結果が得られた。
    • 実環境の長期的タスクと継続学習においても,AtomicVLAはベースラインをそれぞれ18.3%,21%上回る性能を達成した。

    Link: https://arxiv.org/abs/2603.07648

  • グラフと視覚・言語支援による意味的形状対応 [cs.RO, cs.CV]目的:3D形状間の高密度な対応付け
    • テクスチャ転送や形状補間,ロボット操作などの基礎となる技術であり,3Dコンピューティングにおいて不可欠である。
    • 非等角変形や異なるクラス間の形状において,手動による教師なし学習が困難である。
    • 視覚言語モデルからの意味的知識を活用し,非等角変形や異種形状間でもロバストな形状対応を可能にする。
    • 本研究では,幾何学的スペクトル解析と視覚言語モデル由来の豊富な意味的情報を統合するGLASSフレームワークを提案した。
    • GLASSは,強力な視覚モデルからの多視点特徴抽出,ゼロショット3Dセグメンテーションによる言語埋め込みの活用,グラフ支援対照損失による構造的一貫性の維持を実現した。
    • SNIS,SMAL,TOPKIDSベンチマークにおいて最先端の結果を示し,既存手法と比較して平均測地線誤差を大幅に削減した。

    Link: https://arxiv.org/abs/2603.07652

  • 視覚言語モデルのテスト時堅牢性のスケーリング:自己批判的推論フレームワーク [cs.CV]目的:視覚言語モデルのテスト時堅牢性向上
    • 大規模言語モデルの発展により,マルチモーダル学習が急速に進展している。
    • 既存の視覚言語モデルは言語モデルへの依存度が高く,言語バイアスや言語感受性が課題である。
    • 言語バイアスと感受性を同時に解決し,モデルの堅牢性を高めることを目指す。
    • 自己批判的推論(SCI)フレームワークが,既存手法よりもDRBench上で優れた性能を示す。
    • 推論ラウンド数を増やすことで,既存のカウンターファクチュアル推論手法を超えた堅牢性向上が確認された。
    • 視覚言語モデルの失敗事例はモデルごとに異なり,固定された評価基準では信頼性を正確に評価できないことが示唆された。

    Link: https://arxiv.org/abs/2603.07659

  • ホリ・空間:ビデオストリームを包括的な3次元空間知能へ [cs.CV]目的:大規模で詳細な3次元データに基づく空間知能の構築
    • 空間知能は,ロボット工学や拡張現実など多様な分野で不可欠であり,その重要性は増している。
    • 既存の空間理解ベンチマークは,手動アノテーションされた限定的なデータセットに依存しており,スケーラビリティに課題がある。
    • 本研究は,人間介入なしに大規模な3次元空間データセットを自動的に構築することで,この課題を解決することを目指す。
    • Holi-Spatialは,3次元ガウススプラッティング再構成,オブジェクトレベルのセマンティックアノテーション,空間的なQAペアを含む大規模なマルチモーダルデータセットである。
    • Holi-Spatial-4Mは,12Kの最適化された3DGSシーン,1.3Mの2Dマスク,320Kの3Dバウンディングボックス,1.2Mの空間QAペアを含む高品質な3次元セマンティックデータセットである。
    • Holi-Spatialは,ScanNetなどの既存データセットと比較して優れたデータキュレーション品質を示し,VLMの空間推論タスクにおける性能を向上させる。

    Link: https://arxiv.org/abs/2603.07660

  • Ref-DGS:反射双ガウススプラッティング [cs.RO, cs.CV, cs.AI, cs.GR]目的:反射性のあるシーンにおける表面再構成と新規視点合成の精度向上
    • 現実世界の物体は反射性を持つため,その正確な再現は重要である。
    • 既存手法では,近距離の強い反射をモデル化するのが困難であった。
    • 効率的なラスタライズパイプラインで反射を捉え,計算コストを削減すること。
    • Ref-DGSは,ジオメトリガウスと局所反射ガウスの二重表現を用いることで,明瞭な反射を効率的に捉える。
    • グローバルな環境反射場と軽量な混合シェーダにより,遠距離・近距離の反射を統合的にモデル化する。
    • 実験により,既存のレイトレーシングベースの手法よりも高速に,反射性のあるシーンで高い性能を達成することが示された。

    Link: https://arxiv.org/abs/2603.07664

  • FusionRegister:あらゆる赤外・可視画像融合には登録が不可欠 [cs.CV]目的:赤外・可視画像融合のための汎用的なクロスメディア登録手法
    • 現実世界の認識には複数モダリティの画像融合が不可欠であり,空間的な登録はその重要なステップである。
    • 既存の登録ベース融合手法は,大規模な事前登録作業が必要で効率が低いという課題がある。
    • 視覚的な事前知識を活用し,融合結果のミスマッチ領域に焦点を当てることで,効率的な登録を実現する。
    • FusionRegisterは,全ての差異を強制的に一致させるのではなく,クロスメディアのミスマッチ表現を学習することで,ロバスト性を高める。
    • FusionRegisterは,融合結果上で直接動作し,ミスマッチを明示的に表現・処理することで,多様な融合手法とのシームレスな統合を可能にする。
    • 3つのデータセットを用いた実験により,FusionRegisterは最先端手法と同等の融合品質に加え,優れた詳細なアライメントとロバスト性を示すことが確認された。

    Link: https://arxiv.org/abs/2603.07667

  • UniUncer:エンドツーエンド運転のための統一的動的静的不確実性 [cs.RO, cs.CV]目的:エンドツーエンド運転における静的および動的なシーン要素に対する不確実性の推定と利用
    • 自動運転技術は,安全性向上や効率化に不可欠であり,社会実装に向けた研究が活発に進められている。
    • 既存のエンドツーエンド手法では,静的不確実性のみをモデル化しており,動的要素の不確実性への対応が課題となっていた。
    • 本研究では,静的・動的要素両方の不確実性を統合的に扱うことで,より安全で信頼性の高い運転計画を実現することを目指す。
    • UniUncerは,決定論的なヘッドを確率的なラプラス回帰器に変換し,静的・動的エンティティの位置とスケールを推定する。
    • 不確実性融合モジュールを導入し,推定されたパラメータをオブジェクト/マップクエリに注入することで,不確実性を考慮したクエリを生成する。
    • 不確実性に対応したゲートを設計し,現在の不確実性レベルに基づいて過去の入力への依存度を適応的に調整する。nuScenesとNavsimV2での実験により,性能向上が確認された。

    Link: https://arxiv.org/abs/2603.07686

  • FrameVGGT:ストリーミングVGGTのためのフレームエビデンスローリングメモリ [cs.CV]目的:ストリーミングVGGTにおけるメモリ使用量削減
    • 3次元知覚技術は,ロボット工学や自動運転などに応用が期待されており,重要性が増している。
    • ストリーミングVGGTは,長時間のデータ処理において,メモリ消費量が膨大になるという課題がある。
    • フレーム単位でメモリを管理することで,メモリ効率を向上させ,長時間の処理を可能にすることを目指す。
    • FrameVGGTは,フレームをコヒーレントなエビデンスブロックとして扱い,メモリ効率の良いプロトタイプを作成する。
    • 固定容量のミッドタームバンクと,オプションのアンカー層により,メモリ使用量を厳密に制御する。
    • 長時間の3次元再構成,ビデオ深度推定,カメラポーズのベンチマークにおいて,高い精度とメモリ消費量のトレードオフを実現した。

    Link: https://arxiv.org/abs/2603.07690

  • ロボPCA:人間のデモンストレーションからのロボット操作のための姿勢中心アフォード学習 [cs.RO, cs.CV]目的:ロボット操作における姿勢を中心としたアフォードの予測
    • ロボットが多様なタスクを実行するには,物体との相互作用における接触領域と姿勢の理解が不可欠である。
    • 既存手法では,接触領域の特定と姿勢推定が分離されており,一貫性のなさが課題となっていた。
    • この研究は,接触領域と姿勢を同時に予測することで,ロボット操作の成功率向上を目指す。
    • 本研究では,姿勢を中心としたアフォード学習のためのフレームワーク「ロボPCA」を提案した。
    • 「Human2Afford」というデータキュレーションパイプラインを開発し,人間のデモンストレーションから3次元情報を効率的に収集した。
    • ロボPCAは,画像データセット,シミュレーション,実機ロボットにおいて,既存手法を上回る性能を示し,汎化能力も高い。

    Link: https://arxiv.org/abs/2603.07691

  • 圧縮領域を考慮したオンラインビデオ超解像 [cs.CV, cs.AI]目的:オンラインビデオ超解像における品質と効率のバランス
    • 帯域幅制限下でのオンライン動画配信は,実用上重要であり,高画質化技術の需要が高い。
    • 既存のオンラインVSR手法は計算コストが高く,高解像度でのリアルタイム処理が困難である。
    • 圧縮領域情報を活用し,効率的な動き推定と処理を行うことで,リアルタイム性を実現する。
    • 提案手法CDA-VSRは,既存最先端手法TMPと比較して,最大0.13dBのPSNR改善を達成した。
    • CDA-VSRは,TMPよりも2倍以上の推論速度を実現し,効率性の向上を示した。
    • 動きベクトルを活用した変形アライメントモジュールにより,高精度かつ低計算量な処理を実現した。

    Link: https://arxiv.org/abs/2603.07694

  • マスクされたモーション拡散モデルのための文脈適応型モーション事前知識学習:効率的な運動学的アテンション集約による手法 [cs.CV]目的:視覚に基づいたモーションキャプチャの課題解決と,不完全または低信頼なモーションデータの高精度な再構成
    • 人間のモーション解析は,ロボティクス,アニメーション,VR/ARなど広範な分野で不可欠であり,その重要性は増している。
    • 従来のモーションキャプチャは,遮蔽やノイズの影響を受けやすく,正確な3Dモーション再構成が困難であるという課題を抱えている。
    • 部分的な高品質な再構成を用いて不完全なモーションデータを強化し,様々なモーションタスクに対応できる汎用的なモデルを構築すること。
    • 提案手法MMDMは,マスクされた自己符号化器アーキテクチャと運動学的アテンション集約メカニズムを組み合わせることで,効率的な特徴エンコーディングを実現した。
    • MMDMは,文脈適応型モーション事前知識を学習することで,モーションの洗練,補完,中間フレーム生成といった多様なタスクに柔軟に対応できる。
    • 公開データセットでの評価において,様々なマスキング戦略とタスク設定で高い性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.07697

  • TDM-R1:微分不可能な報酬による少ステップ拡散モデルの強化 [cs.RO, cs.CV, cs.AI]目的:少ステップ拡散モデルにおける,微分不可能な報酬を用いた性能向上
    • 画像生成AIは進化を続けており,その効率化が重要課題である。
    • 既存の強化学習は微分可能な報酬に依存し,実世界の多様な報酬に対応できない。
    • 微分不可能な報酬も活用し,少ステップモデルの性能を向上させることを目指す。
    • TDM-R1は,少ステップモデルに強化学習を適用する新たな手法を提供する。
    • 提案手法は,テキストレンダリング,画質,好みの整合性において最先端の性能を達成した。
    • TDM-R1は,Z-Imageモデルにおいても有効であり,少ない計算量で優れた結果を得る。

    Link: https://arxiv.org/abs/2603.07700

  • 部品認識に基づく関係空間モデリング [cs.CV]目的:空間知能の基盤となる物体間の関係性に関する研究
    • 空間知能の実現には,物体間の空間的関係の正確な理解が不可欠である。
    • 従来の表現方法では,物体の一部間の具体的な関係性を記述できず,曖昧なレイアウトや物理的に矛盾した配置が生じやすい。
    • 部品レベルでの表現を取り入れ,現実的で物理的に整合性のとれた空間配置を可能にすること。
    • PARSEフレームワークは,部品間の幾何学的関係を符号化するPart-centric Assembly Graph (PAG) を中心に,衝突のない物理的に有効なシーンを構築する。
    • 1万シーンからなるPARSE-10Kデータセットを構築し,Qwen3-VLのファインチューニングにより,物体レベルのレイアウト推論と部品レベルの関係理解の精度を向上させた。
    • PAGを構造的事前知識として活用することで,3D生成モデルが生成するシーンの物理的リアリズムと構造的複雑さを大幅に改善した。

    Link: https://arxiv.org/abs/2603.07704

  • 微分可能平衡ブロックを用いた深層インセンティブ設計 [cs.GT, cs.LG]目的:望ましい均衡結果をもたらすマルチエージェント間の相互作用の自動設計
    • 経済学や計算機科学において,インセンティブ設計は資源配分の効率化や協調行動の促進に不可欠である。
    • 均衡の計算困難性,非一意性,不安定性により,望ましい均衡を達成することが難しい場合がある。
    • 微分可能平衡ブロックを用いて,様々なインセンティブ設計問題を統一的に解決することを目指す。
    • 本研究では,ゲームに依存しない微分可能平衡ブロック(DEB)を導入し,深層インセンティブ設計(DID)と呼ばれる新しいフレームワークを提案した。
    • 契約設計,機械スケジューリング,逆均衡問題という3つの異なるタスクにおいて,単一のニューラルネットワークで問題インスタンスの分布全体を解決可能であることを示した。
    • 提案手法は,プレイヤーごとの行動数が2から16まで変化する様々な規模のゲームに対応できる。

    Link: https://arxiv.org/abs/2603.07705

  • VoiceSHIELD-Small: リアルタイムでの悪意のある音声の検知と文字起こし [cs.SD, cs.AI]目的:悪意のある音声の検知と文字起こし
    • 音声インターフェースの普及に伴い,セキュリティリスクへの対策が急務となっている。
    • 従来の音声セキュリティは,文字起こしに時間を要し,音声の重要な手がかりを見落とす可能性がある。
    • リアルタイムで音声の安全性評価と文字起こしを同時に行うことで,遅延と見落としを解消する。
    • VoiceSHIELD-Smallは,OpenAIのWhisper-smallを基盤とし,リアルタイム処理を実現している。
    • 947個の音声データセットで99.16%の精度と0.9865のF1スコアを達成した。
    • 悪意のある入力の検出漏れ率は2.33%であり,クロスバリデーションでも安定した性能を示している。

    Link: https://arxiv.org/abs/2603.07708

  • LLMバンディットにおける剛性:人間とAIの協調への示唆 [cs.AI, cs.GT, cs.HC]目的:LLMの頑健な意思決定バイアスの検証
    • AIとの協調が重要となる中で,AIの意思決定特性を理解することは不可欠である。
    • LLMは学習過程においてバイアスを生じやすく,その影響は予測が困難である。
    • LLMの意思決定におけるバイアスを定量化し,そのメカニズムを解明すること。
    • LLMは,対称報酬下で位置的な順序を頑固に優先する傾向を示した。
    • 非対称報酬下では,剛直に報酬を追求したが,最適解を下回る性能にとどまり,再検証は稀であった。
    • 階層的Rescorla-Wagner-softmaxモデルの結果,学習率の低さと高い逆温度がバイアスの増幅と硬直的な行動を説明した。

    Link: https://arxiv.org/abs/2603.07717

  • ブランドオークション広告のための軽量MPC入札フレームワーク [cs.GT, cs.LG, cs.SY, eess.SY]目的:ブランドオークション広告における入札戦略
    • ブランド広告は消費者認知度とロイヤリティ向上に不可欠であり,広告主にとって重要な施策である。
    • リアルタイム入札は研究されているが,ブランド広告特有の特性を活かしたアルゴリズムは少ない。
    • ブランド広告の安定したエンゲージメントと迅速なフィードバックを活用し,効率的な入札を可能とする。
    • 本フレームワークは,オンライン等方回帰を用いて入札と費用,入札とコンバージョン間の単調モデルを構築する。
    • 複雑な機械学習モデルを必要とせず,低コストで実用的なリアルタイム入札を実現する。
    • シミュレーション結果から,費用対効果とコスト管理において既存手法を上回る効果が確認された。

    Link: https://arxiv.org/abs/2603.07721

  • 3ViewSense:視覚言語モデルにおける正投影図からの空間的・精神的視点推論 [cs.CV, cs.CL]目的:視覚言語モデルにおける空間的・精神的視点推論能力の向上
    • 近年,大規模言語モデルの論理的推論能力は向上しているが,視覚情報との組み合わせでは空間認識能力に課題が残る。
    • 視覚言語モデルは,2次元の観察から一貫した3次元の心的表現を構築できず,空間的知能にギャップが存在する。
    • 正投影図を用いて空間推論を基礎付けることで,空間的知能のギャップを埋めることを目指す。
    • 3ViewSenseは,複雑なシーンを正投影図に分解する「シミュレーションと推論」メカニズムを導入し,幾何学的な曖昧さを解消する。
    • 本手法は,既存のベースラインと比較して空間推論ベンチマークにおいて顕著な性能向上を示し,特に閉塞の多いカウント処理と視点一貫性の高い空間推論で効果を発揮する。
    • また,空間記述の安定性と一貫性を向上させ,マルチモーダルシステムにおける空間知能強化への道を開く。

    Link: https://arxiv.org/abs/2603.07751

  • 固定視点動画における長期的なグラウンディングのためのアンカー参照と再識別 [cs.CL, cs.CV]目的:固定視点動画における長期的な言語誘導参照の実現
    • 動画中の対象物の参照は,ロボットや監視システムなどに応用が期待され,重要な研究分野である。
    • 対象物が一時的に見えなくなったり,長期間画面外に出たりすると,従来の参照パイプラインでは再識別が困難となる。
    • 背景の安定性を活用し,対象物が不在時でも参照を継続できるような手法を開発する。
    • 本研究では,静的な背景構造からアンカーバンクを生成し,参照クエリをアンカーバンクに整合させることで,長期的な意味記憶を実現した。
    • アンカーベースの再出現優先度により,対象物が再登場時の捕捉を加速し,ReID-ゲーティング機構がIDの連続性を維持する。
    • 提案手法は,既存手法と比較して再捕捉率が10.3%向上し,再捕捉遅延が24.2%削減されることを確認した。

    Link: https://arxiv.org/abs/2603.07758