arXiv雑要約

画像・音声 - 2026/03/10 公開

  • イベントカメラにおける周波数解析によるリアルタイムドローン検出 [cs.RO, cs.CV]目的:イベントカメラデータの高速移動物体,特にドローンのリアルタイム検出
    • ドローン利用の増加に伴い,セキュリティや安全確保のためのドローン検出技術の重要性が高まっている。
    • イベントカメラの非同期・疎なデータ特性が,従来の信号処理手法による高速物体検出を困難にしている。
    • 非一様データに対応する周波数解析手法を用いて,ドローンのローター周波数特性を捉え,高精度な検出を実現する。
    • 提案手法(DDHF)は,イベントカメラデータからドローンのローター周波数を解析し,正確なリアルタイムローカリゼーションを可能にする。
    • DDHFは,F1スコア90.89%かつ平均遅延2.39ms/フレームを達成し,既存のYOLO検出器(F1スコア66.74%,遅延12.40ms/フレーム)を上回る性能を示す。
    • DDHFは,解析的な手法を用いることで,少ないデータでのチューニングが可能であり,解釈が容易で,深層学習と同等の精度と低遅延を実現する。

    Link: https://arxiv.org/abs/2603.08386

  • AULLM++:大規模言語モデルを用いた微表情認識における構造的推論 [cs.CV]目的:微表情行動単位(AU)検出のための構造的推論フレームワーク
    • 表情は感情の重要な手がかりであり,その正確な認識は人間関係やコミュニケーションにおいて不可欠である。
    • 既存手法は,ノイズに弱く,詳細な特徴表現が不十分であり,AU間の関連性を無視している。
    • 大規模言語モデルを活用し,AUの予測精度向上と汎化性能の向上を目指す。
    • AULLM++は,標準ベンチマークにおいて最先端の性能を達成した。
    • 提案手法は,クロスドメイン汎化において優れた性能を示した。
    • 視覚的特徴をテキストプロンプトに注入することで,推論を効果的に誘導している。

    Link: https://arxiv.org/abs/2603.08387

  • StructBiHOI:長期的二手物体相互作用生成のための構造化関節モデル [cs.RO, cs.CV]目的:長期的二手物体相互作用生成のための構造化関節モデルの提案
    • 3Dハンドオブジェクト相互作用生成は,ロボット工学における重要な課題であり,実用的な応用への道を開く。
    • 既存手法は,単一ハンドの把持に焦点を当てており,より複雑な二手操作の安定性や一貫性に課題がある。
    • 本研究は,長期的な二手操作における関節の進化と微調整を構造的に分離することで,これらの課題を解決することを目指す。
    • 提案手法StructBiHOIは,関節VAEとmaniVAEを組み合わせることで,時間的な一貫性と物理的妥当性を両立した二手操作生成を可能にする。
    • Mambaをベースとした拡散デノイザーを導入することで,長期シークエンス生成における安定性と効率性を向上させた。
    • 二手操作および単一ハンド把持のベンチマークテストにおいて,提案手法は既存手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2603.08390

  • SPIRAL:反省的計画エージェントによる自己改善アクションワールドモデルの閉ループフレームワーク [cs.CV]目的:自己改善アクションワールドモデルの実現
    • 動画生成技術は,エンターテイメントや教育など幅広い分野で重要性が増している。
    • 既存の動画生成モデルは,一回限りの処理であり,アクションの実行が不完全になる場合がある。
    • 長期的な一貫性と意味的整合性を向上させた動画生成を目指す。
    • SPIRALは,計画,実行,反省を繰り返す閉ループプロセスによって,より制御可能で長期的な動画生成を可能にする。
    • PlanAgentが抽象的なアクションを分解し,CriticAgentが中間結果を評価することで,反復的な改善を促す。
    • ActWM-Benchや一般的な動画生成ベンチマークにおいて,SPIRALの有効性が確認された。

    Link: https://arxiv.org/abs/2603.08403

  • 成長,評価,圧縮:メモリ効率の良いクラス増分学習のための適応的バックボーンスケーリング [cs.LG, cs.CV]目的:クラス増分学習におけるメモリ効率の向上
    • 機械学習モデルの継続学習能力向上は,実世界での応用において重要である。
    • 既存手法では,新しいタスク学習時に過去の知識を忘却する「破滅的忘却」が課題となる。
    • モデルの拡張によるメモリ消費を抑制しつつ,破滅的忘却を防ぐ手法を開発する。
    • 本研究で提案するGRACE戦略は,モデルの容量を動的に調整することで,既存手法と同等以上の性能を達成した。
    • 特に,パラメータ数を最大73%削減し,メモリフットプリントの大幅な削減に成功した。
    • 飽和度評価により,バックボーンの拡張または圧縮を適切に判断し,モデルの効率的な学習を実現した。

    Link: https://arxiv.org/abs/2603.08426

  • 長尾分布への準教師ありドメイン汎化のための情報最大化 [cs.RO, cs.CV]目的:長尾分布を持つデータにおける準教師ありドメイン汎化の性能向上
    • 現実世界のデータはドメインが異なり,ラベル付きデータが不足しがちである。そのため,汎化性能が重要となる。
    • 既存の準教師ありドメイン汎化手法は,クラス分布が偏った長尾分布のデータに対して性能が低下する。
    • 長尾分布データにおけるクラスバランスの偏りを軽減し,ドメイン汎化性能を改善することを目的とする。
    • 提案手法IMaXは,InfoMax原理を準教師ありドメイン汎化に適用し,学習特徴と潜在ラベル間の相互情報量を最大化する。
    • IMaXは,αエントロピー項を導入することで,標準的な周辺エントロピー項に存在するクラスバランスの偏りを抑制する。
    • 実験により,IMaXは既存の準教師ありドメイン汎化手法に容易に組み込み可能であり,性能を向上させることが示された。

    Link: https://arxiv.org/abs/2603.08434

  • 視覚言語モデルはシェルゲームを解けるか [cs.CV, cs.CL]目的:視覚言語モデルにおける視覚的エンティティ追跡能力の評価と改善
    • 人間には自然な視覚的エンティティ追跡は,AIにおける知能の重要な指標となる。
    • 既存の動画ベンチマークでは,視覚的な手がかりにより追跡能力が過大評価されがちである。
    • 視覚的に同一な物体を追跡するテストベッドを用いて,VLMsの限界を明らかにし,改善策を提案する。
    • 現在の最先端VLMsはVET-Benchにおいて偶然レベルに近い性能しか示せず,時間経過に伴うエンティティ表現の維持が困難であることが明らかになった。
    • 固定深さのTransformerベースVLMsは,中間的な教師信号なしに区別できない物体を追跡する能力に本質的な限界があることが理論的に示された。
    • Spatiotemporal Grounded Chain-of-Thought (SGCoT) により,VET-Benchで90%を超える精度を達成し,VLMsがシェルゲームをエンドツーエンドで解けることを実証した。

    Link: https://arxiv.org/abs/2603.08436

  • 構造を考慮したクロスドメイン個別視線推定のための注意機構付き低ランクフィルタ適応:Alfa [cs.DB, cs.CV]目的:構造を考慮したクロスドメイン個別視線推定の性能向上
    • 視線推定は,ヒューマンコンピュータインタラクションやバーチャルリアリティなど,多様な分野で重要な役割を担う技術である。
    • 事前学習済みの視線推定モデルは,ユーザー固有の差異により性能が低下することがある。特に,デバイス上でのカスタマイズ時には計算資源が限られる。
    • 事前学習済みのフィルタ構造を最大限に活用し,少ないデータで効果的な個別適応を実現することを目指す。
    • 提案手法Alfaは,事前学習済みのフィルタ内のセマンティックパターンを再重み化することで,視線推定モデルの適応を行う。
    • 特異値分解と注意機構を用いることで,少ないラベルなしサンプルでターゲットユーザーに適切なフィルタ構造を抽出・強調する。
    • 4つのクロスデータセット視線推定ベンチマークにおいて,既存のTTP手法やLoRAと比較して,平均的な視線推定誤差を最小限に抑える結果が得られた。

    Link: https://arxiv.org/abs/2603.08445

  • X-AVDT:ロバストなディープフェイク検出のためのオーディオビジュアルクロスアテンション [eess.SY, cs.SY, math.DS, cs.CV, cs.AI, cs.LG]目的:ディープフェイク検出のための新規手法
    • 生成システムの進化により,高精細な合成動画が増加しており,悪用のリスクが高まっている。
    • 既存の検出器は高度な合成動画に対抗できず,誤検出や見逃しが生じる可能性がある。
    • 生成モデル内部のオーディオビジュアルの一貫性を利用し,ロバストな検出を実現する。
    • X-AVDTは,DDIM反転を用いて生成モデル内部のオーディオビジュアル信号を解析し,偽装の兆候を検出する。
    • MMDFという新しいマルチモーダルディープフェイクデータセットを導入し,多様な操作タイプと生成モデルに対応した評価を可能にした。
    • MMDFおよび外部ベンチマークにおいて,既存手法を13.1%上回る高い精度を達成し,汎用性も実証された。

    Link: https://arxiv.org/abs/2603.08483

  • 視覚的自己成就的アライメント:脅威関連画像による安全志向型ペルソナの形成 [cs.RO, cs.CV, cs.AI]目的:マルチモーダル大規模言語モデルの安全性の誤調整
    • マルチモーダルLLMの利用拡大に伴い,安全性の確保が重要な課題となっている。
    • 既存手法は安全ラベルや対照データに依存し,脅威概念と安全概念の表現の非対称性が問題である。
    • 脅威関連画像を用いた自己成就メカニズムにより,安全志向型ペルソナをラベルなしで形成する。
    • VSFAは,脅威関連画像を用いた中立的なVQAタスクでVLMをファインチューニングすることにより,攻撃成功率を低減する。
    • 応答の質を向上させ,過剰な拒否を軽減しつつ,一般的な機能を維持する。
    • 自己成就メカニズムをテキストから視覚モダリティに拡張し,ラベルフリーなアライメント手法を提供する。

    Link: https://arxiv.org/abs/2603.08486

  • グローバルクロスモーダル地理位置特定:百万規模データセットと物理的整合性学習フレームワーク [cs.RO, cs.CV]目的:グローバルクロスモーダル地理位置特定のためのデータセットと学習フレームワーク
    • 歩行者ナビゲーションや緊急対応において,テキスト情報と地理情報付き航空写真の照合が不可欠である。
    • 既存研究は地理的範囲が狭く,多様なシーンに対応できておらず,グローバルな建築様式や地形の多様性を反映できていない。
    • 本研究は,グローバル規模での位置特定を可能にするための,多様で大規模なデータセットと学習手法を提案する。
    • 103万件を超えるグローバルなクロスビュー画像データセットCOREを構築し,多様な環境や都市レイアウトに対応した。
    • 大規模ビジョン言語モデルを活用し,識別的な手がかりを含む高品質なシーン記述を生成した。
    • 物理法則を考慮したPLANETを提案し,コントラスト学習により衛星画像の物理的特徴を捉えるテキスト表現を学習した。その結果,最先端手法を大幅に上回る性能を達成した。

    Link: https://arxiv.org/abs/2603.08491

  • 読める≠見える:視覚言語モデルにおけるタイポグラフィのギャップの診断と解消 [cs.CV]目的:視覚言語モデルにおけるタイポグラフィ認識のギャップ
    • 画像認識と自然言語処理の融合が重要視される中,視覚情報の詳細な理解が求められている。
    • 視覚言語モデルはテキストの内容は読めるものの,フォントなどの視覚的なスタイル認識が苦手である。
    • 視覚言語モデルのタイポグラフィ認識能力を向上させ,より高度な視覚理解を目指す。
    • 既存の15種類の最先端視覚言語モデルにおいて,色の認識はほぼ完璧だが,フォントスタイルの認識は著しく低いことが判明した。
    • モデルの規模拡大だけでは性能向上は期待できず,学習データ不足が原因であることが示唆された。
    • 小規模な合成データによるLoRAファインチューニングにより,オープンソースモデルの性能が大幅に向上し,最良のクローズドソースシステムを上回る結果も得られた。

    Link: https://arxiv.org/abs/2603.08497

  • 全ての車両は嘘をつく:疑似乱数ベイズ推論による完全非信頼車両協調知覚における効率的な敵対的防御 [cs.CV]目的:完全非信頼車両環境下における協調知覚システムの敵対的攻撃に対する効率的な防御手法
    • 自動運転の安全性向上には,車両間での知覚情報の共有が不可欠であり,協調知覚はその重要な技術である。
    • 協調知覚は,悪意のある車両からの攻撃に対して脆弱であり,その対策が急務となっている。
    • 既存手法の制約を克服し,実用的な防御システムを構築することで,安全な協調知覚の実現を目指す。
    • 提案手法であるPRBIは,過去フレームの知覚情報を基準として,時間的な知覚のずれを利用して敵対的行動を検出する。
    • PRBIは,フレームごとにわずか2.5回の検証で高い性能を発揮し,既存手法を大幅に上回る効率を実現した。
    • 実験結果から,PRBIは攻撃前の検出精度を79.4%~86.9%に回復させることが示された。

    Link: https://arxiv.org/abs/2603.08498

  • 商用オフザシェルフエッジデバイスにおけるガウススプラッティングに基づく環境再構成のための継続学習の改善 [cs.CV]目的:エッジロボティクスにおけるガウススプラッティング最適化による継続学習手法
    • SLAMやナビゲーションに不可欠な3D環境モデルの効率的な再構成が求められている。
    • 高精度な計算や大きな中間テンソルが,エッジデバイスでの学習を困難にしている。
    • メモリ制約下でVBGSの学習を可能にする精度適応最適化フレームワークを提案する。
    • 提案手法により,A5000 GPU上でピークメモリを9.44GBから1.11GB,学習時間を234分から61分に削減した。
    • 再構成品質を維持,または向上させつつ,メモリ使用量と計算時間を大幅に削減することに成功した。
    • Jetson Orin Nanoのような商用組み込みプラットフォーム上でのNVS学習を初めて実現し,フレームごとのレイテンシを19倍削減した。

    Link: https://arxiv.org/abs/2603.08499

  • 球面GOF:幾何学的認識型全天球ガウス不透明度場による3Dシーン再構成 [cs.CL, cs.CV, cs.GR, cs.RO, eess.IV]目的:3Dシーン再構成のための全天球ガウス不透明度場
    • ロボティクスやビジョン分野において,全天球画像は広い視野角から利用が拡大している。
    • 既存の3Dガウススプラッティングは透視投影用に設計されており,全天球カメラモデルへの単純な適用は歪みや幾何学的矛盾を引き起こす。
    • 全天球画像における歪みを考慮した,幾何学的に整合性の高い3D再構成を可能にすること。
    • 提案手法である球面GOFは,全天球レンダリングにおいて,ガウスとの一貫性のある光線相互作用を実現する。
    • 球面GOFは,既存の最良手法と比較して,深度再投影誤差を57%削減し,サイクルインライアー比を21%改善した。
    • 実世界のロボット全天球データセットOmniRobを用いた検証により,汎化性能が確認された。

    Link: https://arxiv.org/abs/2603.08503

  • ハンガリー法を超えて:エンドツーエンド物体検出のためのマッチングフリーな教師あり学習 [cs.RO, cs.CV, cs.AI]目的:エンドツーエンド物体検出におけるマッチングフリーな教師あり学習
    • 物体検出は,画像認識の重要な課題であり,自動運転やロボティクスなど,幅広い応用分野がある。
    • DETRベースのフレームワークでは,クエリと正解データの間の二分マッチングにハンガリー法を用いるため,計算コストが高く,学習が不安定になる。
    • 本研究は,ハンガリー法を必要としない,より効率的で安定したDETRベースの物体検出学習方法を提案する。
    • 提案手法は,クロスアテンションに基づくクエリ選択(CAQS)モジュールにより,明示的なヒューリスティックマッチングを排除する。
    • CAQSモジュールは,正解情報を利用してデコーダクエリをプローブし,クエリとターゲットの間の暗黙的な対応関係を学習する。
    • 実験結果から,提案手法はマッチングの遅延を50%以上削減し,既存の最先端手法と比較して性能が向上することが示された。

    Link: https://arxiv.org/abs/2603.08514

  • OccTrack360: 周囲視魚眼カメラによる4Dパノラマ占有追跡 [cs.CV, cs.RO, eess.IV]目的:周囲視魚眼カメラによる4Dパノラマ占有追跡のためのベンチマークデータセットと基盤手法
    • ロボティクスや自動運転において,空間的連続性と時間的整合性のある3D環境の理解は不可欠である。
    • 従来のベンチマークは,周囲視魚眼センシング,長い時間シーケンス,インスタンスレベルのボクセル追跡をサポートしていない。
    • 周囲視魚眼カメラからの4Dパノラマ占有追跡のためのベンチマークと,歪み補正と位置特定精度の向上を目指す。
    • 新しいベンチマークOccTrack360は,174~2234フレームという,より長く多様なシーケンスと詳細なアノテーションを提供する。
    • FoSOccは,魚眼レンズ特有の歪みと不正確なボクセル空間の位置特定という課題に対し,空間的局所化と球面投影を改善する。
    • Occ3D-WaymoとOccTrack360での実験により,特に幾何学的に規則的なカテゴリにおいて占有追跡の品質が向上することが示された。

    Link: https://arxiv.org/abs/2603.08521

  • 衛星画像からのマルチタスク建築セグメンテーションと高さ推定のための視覚的状態空間モデルBuildMamba [cs.CV]目的:衛星画像からの建築セグメンテーションと高さ推定
    • 都市分析において,正確な建築物情報の抽出は不可欠であり,都市計画や防災に貢献する。
    • 従来の単眼画像からの手法では,建築物の構造多様性や大域的コンテキストモデリングの計算コストが課題となっていた。
    • 視覚的状態空間モデルを活用し,構造的結合と計算効率を高めることで,セグメンテーションと高さ推定の精度向上を目指す。
    • BuildMambaは,3つのベンチマークにおいて新たな性能上限を確立した。
    • DFC23ベンチマークにおいて,IoU 0.93,RMSE 1.77mを達成し,高さ推定で最先端手法を0.82m上回った。
    • シミュレーション結果は,大規模3D都市再構築におけるモデルの優れた堅牢性とスケーラビリティを示した。

    Link: https://arxiv.org/abs/2603.08523

  • SecAgent:セマンティックコンテキストを用いた効率的なモバイルGUIエージェント [cs.RO, cs.CV]目的:モバイルGUI自動化のための効率的なエージェント
    • モバイル環境でのGUI操作自動化は,ユーザーの利便性向上に不可欠である。
    • 高品質な多言語データセットの不足と,非効率な履歴表現方法が課題となっている。
    • セマンティックコンテキスト機構により,履歴情報を効率的に処理し,計算コストを削減する。
    • 18kの中国語モバイルGUIデータセットと121kのナビゲーションステップを構築し,ベンチマークを公開する。
    • セマンティックコンテキスト機構は,履歴スクリーンショットとアクションを自然言語で要約し,計算コストを削減する。
    • SecAgentは,同規模のベースラインモデルを上回り,7B-8Bモデルに匹敵する性能を達成した。

    Link: https://arxiv.org/abs/2603.08533

  • SWIFT:少数のサンプルとトレーニングなしで生成ビデオの帰属性を評価するスライディングウィンドウ再構成 [cs.CV]目的:生成ビデオの帰属性評価
    • ビデオ生成技術は急速に進歩しており,その応用範囲は広い。
    • 生成コンテンツの悪用が懸念されており,発生源の特定が重要である。
    • 既存手法は追加処理や学習が必要であり,品質低下やデータ不足の問題がある。
    • 提案手法SWIFTは,ビデオの時間的特徴を利用し,再構成の損失差で帰属性を評価する。
    • 5つの最先端ビデオ生成モデルで90%以上の平均帰属精度を達成した。
    • HunyuanVideo,EasyAnimate,Wan2.2に対してゼロショット帰属も可能であることを示した。

    Link: https://arxiv.org/abs/2603.08536

  • PCFEx:グラフニューラルネットワークのための点群特徴抽出 [cs.CV, cs.IR]目的:点群データの人間ポーズ推定および行動認識における性能向上
    • 3次元点群データは,ロボティクスや自動運転など,様々な分野で重要な役割を担う。
    • 点群データの複雑さから,効果的な特徴抽出が困難であり,認識精度向上のボトルネックとなっている。
    • グラフニューラルネットワークと点群特徴抽出を組み合わせ,点群データの効率的な処理を目指す。
    • 提案手法は,人間ポーズ推定の3つの主要なベンチマークにおいて,大幅な誤差削減を実現した。
    • ミリ波レーダーを用いた行動認識では,98.8%という高い全体精度を達成し,既存の最先端モデルを上回った。
    • 特徴抽出とグラフニューラルネットワークモデリングの組み合わせが,点群処理の精度向上に大きく貢献する。

    Link: https://arxiv.org/abs/2603.08540

  • ロボットポリシー学習と評価のためのインタラクティブなワールドシミュレータ [cs.RO, cs.CV, cs.LG]目的:ロボットポリシーの学習と評価のためのインタラクティブなワールドシミュレータの構築
    • ロボットの汎用的な活用には,現実世界での学習コストを削減するシミュレーション技術が不可欠である。
    • 既存のワールドモデルは,計算コストが高く,長時間の物理的な相互作用を正確に捉えることが困難である。
    • 現実世界でのデータ収集量を減らしつつ,高性能なロボットポリシーを学習・評価するための環境を構築する。
    • 本研究で開発したインタラクティブなワールドシミュレータは,高速かつ安定した物理シミュレーションを実現した。
    • シミュレータ内で収集したデータを用いて学習したロボットポリシーは,現実世界で収集したデータと同等の性能を示した。
    • シミュレーション環境と現実世界でのポリシー性能には高い相関が見られ,シミュレータの有用性が確認された。

    Link: https://arxiv.org/abs/2603.08546

  • mmGAT:相互特徴を用いたグラフ注意による姿勢推定 [cs.CV, cs.IR]目的:ミリ波レーダー点群を用いた姿勢推定
    • プライバシー保護が重要視されるなか,画像ベースの姿勢推定技術では課題が生じている。
    • 低照度環境や暗所での画像ベースの姿勢推定性能は十分とは言えない。
    • ミリ波レーダーを活用し,グラフニューラルネットワークと注意機構を用いて精度向上を目指す。
    • 提案手法mmGATは,公開されている2つのミリ波レーダーデータセットで顕著な性能を示した。
    • 姿勢推定の平均関節位置誤差(MPJPE)を35.6%,PA-MPJPEを14.1%削減し,最先端技術を更新した。
    • 本研究は,ミリ波レーダー点群を用いた姿勢推定における新たな可能性を示唆する。

    Link: https://arxiv.org/abs/2603.08551

  • BioGait-VLM:解釈可能な臨床歩行評価のための三様相(視覚・言語・バイオメカニクス)フレームワーク [cs.CV]目的:臨床歩行評価のための解釈可能なフレームワーク
    • 歩行は健康状態の重要な指標であり,客観的な評価手法の確立が求められている。
    • 既存のビデオベース歩行分析は,環境要因に過剰適合し,病的な動きの捉え方に課題がある。
    • 視覚的ショートカットに依存せず,関節メカニクスに基づいた歩行評価を実現する。
    • BioGait-VLMは,従来のビデオエンコーダとは異なり,時間的証拠蒸留とバイオメカニカストークン化を組み込むことで,高い認識精度を達成した。
    • バイオメカニカストークンは,臨床的な妥当性と証拠に基づいた判断を向上させることが専門家による検証で確認された。
    • 本研究は,透明性・プライバシー保護に配慮した歩行評価の実現に向けた道筋を示す。

    Link: https://arxiv.org/abs/2603.08564

  • LoopLens:ループベースの楽曲制作における創造的な探索と構築の支援 [cs.HC, cs.IR, cs.SD]目的:ループベースの楽曲制作におけるオーディオ検索結果の可視化を通じた創造的な探索と構築
    • 音楽制作は表現の重要な手段であり,新たな表現方法の探求は常に求められている。
    • 既存の検索ツールは情報検索に偏重しており,音楽制作における創造的な検索ニーズを満たせていない。
    • この研究は,音楽知識の有無にかかわらず,誰もが創造的な音楽制作を行える環境の実現を目指す。
    • 音楽の専門家はマルチモーダルな手がかりを迅速に活用してループを絞り込み,非専門家は主に音響的な印象に基づいて広範な探索を行った。
    • 非専門家は,限られた楽曲制作の語彙のためにクエリの定式化に制約を受けることが明らかになった。
    • この行動の二分性は,創造的な検索における探索と活用とのバランスを理解するための新たな視点を提供する。

    Link: https://arxiv.org/abs/2603.08571

  • レンジ・ナル空間分解に基づくスケーラブルなニューラルボコーダ [cs.SD]目的:レンジ・ナル空間分解理論とボコーダタスクの接続
    • 近年,深層学習が音声合成技術の進歩を加速させている。高品質な音声を効率的に生成することが求められている。
    • 既存のニューラルボコーダは,モデルの解釈性の低さ,柔軟性の低い再学習,パラメータと性能のトレードオフといった課題を抱えている。
    • レンジ・ナル空間分解を用いて,モデルの軽量化,スケーラブルな推論,高性能化を実現し,これらの課題を解決することを目指す。
    • 提案手法は,軽量なネットワーク構造とスケーラブルな推論を可能にしつつ,既存の最先端手法と同等以上の性能を達成した。
    • レンジ空間はメルスペクトルを線形スケールに変換し,ナル空間はニューラルネットワークでスペクトルの詳細を補完する。
    • データ拡張による多条件適応戦略により,様々な設定での推論を可能にした。

    Link: https://arxiv.org/abs/2603.08574

  • オンライン疎合成開口レーダー画像化 [cs.CV]目的:オンライン疎合成開口レーダー画像化手法
    • 近年の防衛応用では安価な自律型ドローン利用が増加しており,限られた資源での効率的な処理が重要である。
    • 合成開口レーダー(SAR)では,大量のデータ収集と処理が必要であり,計算量とメモリ消費量が課題となっている。
    • 本研究は,メモリ消費量を削減し,リアルタイムなSAR画像処理を可能にする手法を提案する。
    • 提案手法であるオンラインFISTAは,受信データを全て保存することなく,反復ごとにストレージ行列を更新することでメモリ需要を大幅に削減する。
    • オンラインSAR画像再構成により,自動標的認識(ATR)などの複雑な後処理をリアルタイムに実行できる統合的なフレームワークが実現する。
    • 従来のオフライン再構成・ATRアプローチと比較して,より柔軟で多様な応用が可能となる。

    Link: https://arxiv.org/abs/2603.08582

  • DualFlexKAN:独立関数制御を用いた二段階のコルモゴロフ・アーノルドネットワーク [cs.LG, cs.CV]目的:ネットワークの表現力と計算コストのトレードオフを最適化するハイブリッドネットワークの実現
    • 機械学習モデルの性能向上には,適切なネットワーク構造の設計が不可欠である。
    • 従来のネットワークは,固定された活性化関数に依存し,複雑な問題を解決する柔軟性に欠ける。
    • パラメータ数の爆発を抑制しつつ,高精度な関数近似とデータ効率の良い学習を実現する。
    • DualFlexKANは,MLPおよび従来のKANと比較して,精度,収束速度,勾配の忠実度において優れた性能を示した。
    • 提案手法は,標準的なKANよりも1〜2桁少ないパラメータ数で同等以上の性能を達成し,パラメータ爆発の問題を軽減する。
    • 科学技術分野におけるデータ効率の良い学習や解釈可能な関数発見に特に有効な,適応的な非線形性を組み込むための原理に基づいたスケーラブルなフレームワークを提供する。

    Link: https://arxiv.org/abs/2603.08583

  • CARE-Edit:文脈を考慮した専門家ルーティングによる画像編集 [cs.CV]目的:文脈的画像編集における専門家ルーティング手法
    • 画像編集技術は,多様な応用分野で不可欠であり,その高度化が求められている。
    • 既存の画像編集モデルは,複数の条件を扱う際に干渉が生じ,編集品質が低下することが課題である。
    • 条件に応じて最適な専門家を動的に選択することで,編集品質の向上を目指す。
    • 提案手法CARE-Editは,文脈に応じて適切な専門家をルーティングすることで,既存手法の課題を克服する。
    • マスクの修正,テキストによる編集,スタイル変換など,様々な画像編集タスクで優れた性能を発揮する。
    • 実験結果から,各専門家がタスク固有の振る舞いを示すことが確認され,動的な条件対応処理の重要性が示唆された。

    Link: https://arxiv.org/abs/2603.08589

  • PRISM:関節ごとの潜在分解によるストリーミング人間モーション生成 [cs.CV]目的:人間モーション生成における課題解決
    • 人間行動の理解と再現は,ロボット工学,バーチャルリアリティ,エンターテイメントなど広範な分野で重要である。
    • 既存手法では,モーションの潜在空間が構造化されておらず,高品質なモーション生成が困難である。
    • 本研究は,関節ごとに潜在空間を分解し,テキストやポーズからの条件付き生成と長期的なシーケンス合成を可能にする。
    • PRISMは,各関節を独立したトークンとして扱う潜在空間を導入し,生成品質を大幅に向上させた。
    • 時間軸埋め込みを活用したノイズフリーな条件注入により,テキストとポーズによる制御を単一モデルで実現した。
    • 自己強制学習により,長期的なモーション生成におけるドリフトを抑制し,安定したストリーミング合成を可能にした。

    Link: https://arxiv.org/abs/2603.08590

  • 幾何学的参照を用いた3Dシーン表現によるMLLM空間推論の強化 [cs.CV]目的:MLLMの空間推論能力向上
    • MLLMは2D画像理解で成功を収めているが,3D空間の推論能力には限界がある。
    • MLLMが3D空間を理解するためには,幾何学的な情報を効果的に活用する必要がある。
    • 幾何学的参照を用いた3Dシーン表現(GR3D)により,MLLMの3D空間推論能力を向上させる。
    • 本研究では,入力画像内のオブジェクトにIDを付与し,3D幾何学的属性をテキスト参照としてエンコードするGR3Dを提案した。
    • GR3Dを用いることで,追加学習なしにGPT-5のVSI-Benchパフォーマンスを全体で8%,空間レイアウト理解を要するタスクで11%以上向上させた。
    • GR3Dは,少ない入力画像でも複雑な空間推論を可能にし,MLLMの能力を強化することが示された。

    Link: https://arxiv.org/abs/2603.08592

  • 進行型疑似マスク洗練を用いた弱学習教師・生徒フレームワークによる腺分割 [cs.HC, cs.CV, cs.AI]目的:腺構造の分割精度向上
    • 大腸癌の病理組織学的グレード判定には,腺構造の正確な分割が不可欠である。
    • 従来の深層学習は大規模なピクセルレベルのアノテーションに依存し,臨床での利用が困難である。
    • 本研究は,限られたアノテーションで高品質な腺分割を実現することを目的とする。
    • Gland Segmentationデータセットにおいて,平均IoU 80.10%,平均Dice係数 89.10%を達成した。
    • TCGA COADおよびTCGA READデータセットでのクロスバリエーション評価において,追加のアノテーションなしで頑健な汎化性能を示した。
    • SPIDERデータセットでは性能が低下したが,これはドメインシフトによる影響と考えられる。

    Link: https://arxiv.org/abs/2603.08605

  • FOMO-3D:大規模ビジョン基盤モデルを用いた長尾3次元物体検出 [cs.CV, cs.RO]目的:長尾分布の3次元物体検出における性能向上
    • 自動運転の安全性確保には,多様な交通関係要素の認識が不可欠である。
    • 稀な交通状況下の物体(工事作業員等)の学習データが不足している。
    • 大規模ビジョン基盤モデルの知識を活用し,学習データ不足を補完する。
    • 提案手法FOMO-3Dは,LiDARとカメラ情報を融合し,OWLv2やMetric3Dv2からの知識を利用する。
    • OWLからの画像特徴への注意機構により,長尾分布の物体検出性能が大幅に向上した。
    • 実世界の運転データによる評価で,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2603.08611

  • StreamReady:長時間のストリーミング動画における,いつ何を答えるかを学習する [cs.RO, cs.RO, cs.CV]目的:ストリーミング動画理解における適切なタイミングでの応答
    • 動画理解は,人間の視覚的認知の基盤であり,様々な応用分野で重要性が増している。
    • リアルタイム性が求められるストリーミング動画において,応答タイミングの遅延が課題となっている。
    • 視覚的証拠の出現に合わせて,適切なタイミングで応答する能力の向上を目指す。
    • 本研究では,応答準備度スコア(ARS)という時間的要素を考慮した新しい評価指標を導入した。
    • StreamReadyは,軽量な準備度メカニズムにより,時間的な推論と適切なタイミングでの応答を統合するフレームワークである。
    • ProReady-QAという新たなベンチマークを用いて評価を行い,既存手法を上回る性能を実証した。

    Link: https://arxiv.org/abs/2603.08620

  • 時間に基づいた公平性がマルチレートWLANの性能を向上させる [cs.NI, cs.GT]目的:マルチレートWLANにおける公平性の改善
    • 無線LANの性能は,無線チャネル容量の割り当て方に大きく依存する。
    • チャネル状態の多様性により,スループットに基づく公平性では,集約スループットが低下することがある。
    • 時間に基づく公平性によって,集約性能の向上と,単一レートWLANと同等以上のチャネルアクセスを保証すること。
    • 時間に基づく公平性は,集約性能の大幅な向上をもたらす。
    • 提案するTBRアルゴリズムは,既存のMACプロトコルと連携して時間に基づく公平性を提供する。
    • TBRの実装は,後方互換性を保ちながら,時間に基づく公平性を実現する。

    Link: https://arxiv.org/abs/2603.08623

  • UNBOX:自然言語を用いたブラックボックス型画像モデルの解明 [eess.SY, cs.SY, cs.CV, cs.AI]目的:ブラックボックス型画像モデルの解明
    • 現実世界での画像認識の信頼性が重要視される中,モデルの解釈可能性が不可欠である。
    • 現代の画像認識システムはブラックボックス化が進み,内部構造や学習データが不明瞭になっている。
    • ブラックボックスモデルでも,その内部概念やバイアスを解明し,信頼性を高めることを目指す。
    • UNBOXは,データや勾配にアクセスできない状況下でも,大規模言語モデルと画像生成モデルを用いて,各クラスを最大に活性化させるテキスト記述子を生成する。
    • 生成されたテキスト記述子は,モデルが学習した概念や反映された学習分布,潜在的なバイアス源を明らかにする。
    • ImageNet-1K等のデータセットで評価した結果,UNBOXは既存の解釈手法と同等の性能を示し,内部アクセスなしでも有益な洞察が得られることを実証した。

    Link: https://arxiv.org/abs/2603.08639

  • 検索拡張ガウスアバター:表情汎化の改善 [cs.CV, cs.GR, cs.LG]目的:表情汎化の改善
    • 近年,高精度な顔のアバター生成が求められており,写実的な表現が重要視されている。
    • 既存手法では,学習データに依存した表情しか再現できず,未知の表情への対応が課題である。
    • 学習データを拡張することで,アバターの表情表現能力を向上させ,汎化性能を高める。
    • 本研究では,大規模な未ラベル表情バンクを構築し,学習時にバンクからの類似表情で置換する手法を提案した。
    • これにより,アバターはより多様な表情条件に触れ,個人と表情の分離を強化し,表情分布の変化に対するロバスト性を向上させた。
    • NeRSembleベンチマーク実験の結果,RAFは自己駆動およびクロス駆動のシナリオの両方で,ベースラインと比較して表情の忠実度が向上することが示された。

    Link: https://arxiv.org/abs/2603.08645

  • CAST:一貫性のある動画検索のための視覚状態遷移のモデリング [cs.CV]目的:動画検索における視覚状態遷移のモデリング
    • 動画コンテンツは長編化が進み,ストーリー性のある短編クリップの構成が重要になっている。
    • 既存の検索手法は,文脈を考慮せず,局所的な意味的整合性のみに焦点を当て,状態の一貫性を欠いている。
    • 状態遷移を明示的にモデル化することで,動画検索の一貫性を向上させることを目指す。
    • CASTは,様々な事前学習済みモデルに組み込める軽量なアダプターであり,視覚的履歴から状態に基づいた残差更新を予測する。
    • YouCook2およびCrossTaskにおいて性能が向上し,COINにおいても競争力のある結果が得られた。
    • Veoなどの動画生成モデルの候補を再ランク付けするシグナルとして機能し,時間的に一貫性のある続きを生成するのに貢献する。

    Link: https://arxiv.org/abs/2603.08648

  • ImprovedGS+: 3Dガウススプラッティングのための高性能C++/CUDA再実装戦略 [cs.CV]目的:3Dガウススプラッティングにおける再構成精度と計算効率のバランス向上
    • 3Dガウススプラッティングは,高品質な3Dシーンの高速な再構成を可能にする技術であり,その重要性が増している。
    • 既存の実装は,Pythonによる高レベルな処理に依存しており,ホスト-デバイス間の同期や計算遅延が課題となっていた。
    • C++/CUDAによる低レベルな実装によって,計算効率を向上させ,3Dガウススプラッティングのパフォーマンスを改善することを目指す。
    • ImprovedGS+は,Mip-NeRF360データセットにおいて,最先端のMCMCベースラインと比較して,学習時間を26.8%短縮し,17分/セッションの削減を達成した。
    • ImprovedGS+は,同等の視覚品質を維持しながら,ガウスの数を13.3%削減することに成功した。
    • フルバリアントでは,ADCベースラインと比較して,PSNRを1.28 dB向上させ,パラメータの複雑さを38.4%削減した。

    Link: https://arxiv.org/abs/2603.08661

  • 音声から3D対話の合成:同時対話者のリアルな表現 [cs.RO, cs.CV]目的:同時対話者の3D顔面アニメーション生成
    • 没入型VRやテレプレゼンスなど,リアルなコミュニケーション技術への需要が高まっている。
    • 既存手法では,単なる「話す頭」に留まり,自然な対話における空間的な相互作用が再現できていない。
    • 音声のみから,対話者の位置,姿勢,視線を含む3D空間におけるリアルな対話表現を実現する。
    • 提案手法は,2人の対話者の唇の動き,頭の向きをテキストで制御可能であり,流暢で自然な3Dアニメーションを生成する。
    • 役割埋め込みと話者間クロスアテンション機構により,混合音声を分離し,対話の相互作用をモデル化する。
    • 大規模な対話データセットを構築し,200万組以上のペアを用いて学習することで,既存手法を大きく上回るリアリティと一貫性を実現した。

    Link: https://arxiv.org/abs/2603.08674

  • 二者間取引におけるランダム提案メカニズムに対する新たな下限:AI誘導進化探索による [cs.LG, cs.AI, cs.GT, econ.TH]目的:ランダム提案メカニズムの最悪ケースにおける効率性ギャップの新たな下限
    • 二者間取引は経済学における基本的なモデルであり,資源配分の効率性評価に不可欠である。
    • 既存研究では,ランダム提案メカニズムの最悪ケースにおける性能評価が課題となっていた。
    • AI誘導進化探索を用いて,ランダム提案メカニズムの性能下限をより厳密に特定することを目指す。
    • AI誘導進化探索フレームワークAlphaEvolveを用いて,新たな最悪ケースの分布を特定した。
    • これにより,ランダム提案メカニズムの性能下限を,$\frac{\text{GFT}_{\text{FB}}}{\text{GFT}_{\text{RO}}} \ge \textbf{2.0749}$と改善した。
    • これは,既存研究よりも広い効率ギャップが存在することを示している。

    Link: https://arxiv.org/abs/2603.08679

  • ER-Pose:リアルタイム人体姿勢推定のためのキーポイント駆動型表現学習の再考 [cs.CV]目的:リアルタイム人体姿勢推定におけるキーポイント駆動型表現学習の新しいパラダイム
    • リアルタイム人体姿勢推定は,監視やヒューマンコンピュータインタラクションなど,様々な応用分野で不可欠である。
    • 従来の物体検出に基づくアプローチでは,姿勢推定の精度が,バウンディングボックスの制約に左右されやすい。
    • 本研究は,キーポイント駆動型のアプローチを通して,姿勢推定を主要な予測目標とし,精度向上を目指す。
    • 提案手法ER-Poseは,事前学習なしでMS COCOデータセットにおいてAPを3.2%,CrowdPoseで6.7%改善した。
    • 事前学習ありの場合でも,MS COCOで7.4%,CrowdPoseで4.9%のAP向上を達成し,高い精度を示す。
    • パラメータ数を削減しつつ,推論効率も向上しており,実用的なシステムへの応用が期待される。

    Link: https://arxiv.org/abs/2603.08681

  • フル解像度オーディオの可逆圧縮のための言語モデリングのベンチマーク [cs.SD, cs.AI, cs.LG, eess.AS]目的:フル解像度オーディオの可逆圧縮における言語モデリングの性能評価
    • 高音質オーディオの需要増加に伴い,効率的な圧縮技術が不可欠となっている。
    • 既存のコーデックでは,高ビット深度オーディオの圧縮性能に限界がある。
    • 高ビット深度オーディオに対応可能な,言語モデリングに基づく新しい圧縮手法の確立。
    • 言語モデルは,8ビットおよび16ビットのオーディオにおいてFLACよりも優れた圧縮性能を示した。
    • Trilobyteという新しいバイトレベルのトークン化方式を提案し,24ビットオーディオの言語モデリングに基づく可逆圧縮を実現した。
    • ビット深度が増加すると,圧縮性能の向上幅は小さくなることが観察された。

    Link: https://arxiv.org/abs/2603.08683

  • 階層的ノイズ除去による効率的な自己回帰型長尺ビデオ生成:HiAR [cs.CV]目的:長尺ビデオ生成における効率化と品質維持
    • ビデオ生成技術は,エンターテイメントや教育など様々な分野で応用が期待されており,重要性が高い。
    • 自己回帰型拡散モデルでは,時間的な一貫性を保ちつつ,エラーの蓄積による品質劣化が課題となっていた。
    • 同一ノイズレベルでの文脈条件付けにより,エラー伝播を抑制し,長尺ビデオの高品質な生成を実現すること。
    • 提案手法HiARは,従来の生成順序を逆転させ,全てのブロックを同一ノイズレベルで因果的に生成することで,時間的な一貫性を維持しつつ,エラーの蓄積を軽減する。
    • HiARは,パイプライン並列推論を可能にし,4ステップ設定で1.8倍の高速化を実現した。
    • VBench(20秒生成)において,HiARは総合スコアと時間ドリフトの両方で比較対象手法中最良の結果を達成した。

    Link: https://arxiv.org/abs/2603.08703

  • FVG-PT:視覚言語モデルに対する適応的前景視点誘導プロンプトチューニング [cs.CV]目的:視覚言語モデルのプロンプトチューニングにおける性能改善
    • 視覚言語モデルは多様なタスクに応用可能であり,その性能向上が求められている。
    • プロンプトチューニングにおいて,視覚エンコーダのアテンション変化が無視されている。
    • 前景アテンションの変動を抑制し,汎化性能の低下を防ぐことを目指す。
    • 提案手法FVG-PTは,前景の信頼性を高めるゲート機構と蒸留補償モジュール,事前キャリブレーションモジュールを導入する。
    • FVG-PTは,複数のバックボーンモデルとデータセットで有効性を示し,高い互換性を有する。
    • 視覚エンコーダの前景アテンションシフトが,プロンプトチューニングの予測失敗の原因であることを明らかにした。

    Link: https://arxiv.org/abs/2603.08708

  • スケール空間拡散 [cs.CV, cs.AI]目的:拡散モデルにおけるスケール空間の融合
    • 画像処理において,様々なスケールでの解析は重要な課題である。異なる解像度での特徴抽出が求められる。
    • 拡散モデルは高解像度での処理を必要とするが,計算コストが高いという課題がある。
    • 拡散過程における冗長な計算を削減し,効率的な画像生成を目指す。
    • 拡散過程のノイズ状態は,ダウンサンプリングされた画像と同等の情報量しか含まないことが示された。
    • スケール空間を拡散過程に融合することで,計算効率を向上させることが可能になった。
    • Flexi-UNetという新しいUNetアーキテクチャを導入し,解像度に応じた効率的なノイズ除去を実現した。

    Link: https://arxiv.org/abs/2603.08709

  • MRIフュージョン技術を用いたグリオーマのサブクラス分類 [eess.IV, cs.AI, cs.CV, cs.LG]目的:グリオーマサブクラスの分類精度向上
    • グリオーマは脳腫瘍の多くを占め,適切な治療計画と予後予測が重要である。
    • グリオーマの多様な悪性度と予後から,正確な分類が課題となっている。
    • MRI画像フュージョンにより,より精度の高いサブクラス分類を実現する。
    • 提案手法は,既存技術と比較して有意に高い性能を示した。
    • 分類精度は99.25%,適合率は99.30%,再現率は99.10%を達成した。
    • MRI画像セグメンテーションと分類が,正確な診断支援に重要であることが示唆された。

    Link: https://arxiv.org/abs/2502.18775

  • 感情認識のためのロバストな不完全マルチモーダル低ランク適応アプローチ [cs.CV, cs.AI, cs.LG]目的:不完全なマルチモーダルデータに対する感情認識の性能向上
    • 感情認識は,人間とコンピュータの自然なインタラクションを実現する上で不可欠な技術である。
    • 現実の応用において,センサーの故障やプライバシー保護により,マルチモーダルデータが不完全になることがある。
    • 異なるモダリティの組み合わせから生じる勾配の競合を解消し,学習効率を最適化することを目指す。
    • 提案手法MCULoRAは,モダリティ組み合わせを意識した低ランク適応(MCLA)と動的パラメータ微調整(DPFT)の2つのモジュールで構成される。
    • MCLAモジュールは,各モダリティ組み合わせの共有情報と固有の特徴を効果的に分離する。
    • DPFTモジュールは,各モダリティ表現空間の分離度に基づいて,モダリティ組み合わせの学習比率を調整し,ベンチマークデータセットにおいて既存手法を大幅に上回る性能を示した。

    Link: https://arxiv.org/abs/2507.11202

  • ProFocus:視覚と言語ナビゲーションにおける能動的知覚と集中推論 [cs.RO, cs.CV]目的:視覚と言語ナビゲーションにおける能動的知覚と集中推論の統合
    • ロボット工学やAI分野において,現実世界での自律的な移動能力は重要な課題である。
    • 既存手法では,冗長な視覚情報を処理し,過去の文脈を区別せずに扱うため,効率が悪い。
    • ProFocusは,効率的な知覚と集中推論を実現し,ナビゲーション性能を向上させることを目指す。
    • ProFocusは,大規模言語モデルと視覚-言語モデルの協調により,能動的知覚と集中推論を統合する学習不要なフレームワークである。
    • ProFocusは,パノラマ画像を構造化されたエゴセントリックなセマンティックマップに変換し,必要な視覚情報の特定と取得を可能にする。
    • また,Branch-Diverse Monte Carlo Tree Search(BD-MCTS)を用いて,重要な過去のウェイポイントに焦点を当て,推論効率を高める。

    Link: https://arxiv.org/abs/2603.05530

  • 不確実性を考慮した太陽フレア回帰 [quant-ph, cs.DC, cs.ET, astro-ph.SR, cs.CV, cs.LG]目的:太陽フレアの回帰モデルにおける信頼性評価
    • 宇宙天気予報は,衛星や地上インフラへの影響を予測する上で不可欠である。
    • 太陽フレア予測は,極端な事象に偏ったデータセットのため,誤報が多いという課題がある。
    • 予測の信頼区間を確立し,宇宙天気予報の信頼性を向上させることを目指す。
    • Conformalized Quantile Regressionが,他の手法と比較して高い網羅率と短い平均区間長を実現した。
    • 本研究は,機械学習フレームワークであるConformal Predictionの宇宙天気予報への応用可能性を示した。
    • 太陽磁場マップ画像を用いた太陽フレア予測において,予測区間の信頼性を高める効果が確認された。

    Link: https://arxiv.org/abs/2603.06712