arXiv雑要約

画像・音声 - 2026/03/25 公開

  • DiffBMP:ビットマッププリミティブによる微分可能なレンダリング [cs.GR, cs.CV]目的:ビットマップ画像群に対する,スケーラブルかつ効率的な微分可能なレンダリングエンジン
    • 画像処理分野において,現実世界の多くの画像はビットマップ形式であるため,その最適化が重要である。
    • 従来の微分可能なレンダラーはベクトルグラフィックスに限定されており,ビットマップ画像の扱いに課題があった。
    • 本研究は,ビットマップ画像に対する効率的な微分可能なレンダリングを可能にし,最適化処理を円滑に進めることを目指す。
    • DiffBMPは,カスタムCUDA実装による高度に並列化されたレンダリングパイプラインを実現し,高速な勾配計算を可能にした。
    • 数千個のビットマッププリミティブの位置,回転,スケール,色,不透明度などを,消費者向けGPUで1分以内に最適化できる。
    • ガウスぼかし,構造を考慮した初期化,ノイズキャンバス,特殊な損失関数/ヒューリスティクス等の技術を組み合わせることで,最適化の安定性を向上させた。

    Link: https://arxiv.org/abs/2602.22625

  • WISER:より広範な検索,より深い思考,そして適応的融合によるトレーニング不要ゼロショット複合画像検索 [cs.CV]目的:複合画像検索における検索性能向上
    • 画像検索は情報検索の根幹であり,多様な応用分野で不可欠な技術である。
    • 既存手法はテキストまたは画像に変換するため,詳細な視覚情報や複雑な意味的変更が困難である。
    • テキストと画像の双方を統合し,検索精度と汎化性能の向上を目指す。
    • WISERは,テキスト-画像検索と画像-画像検索を組み合わせることで,候補プールを広げ,より信頼性の高い検索を実現する。
    • 検索の確信度が低い場合は,自己内省を通じて改善提案を生成し,次の検索ラウンドを導くことで,より深い思考を可能にする。
    • CIRCOとCIRRの複数のベンチマークにおいて,既存のトレーニング不要手法を大幅に上回り,一部のトレーニング依存手法をも凌駕する性能を示す。

    Link: https://arxiv.org/abs/2602.23029

  • 効率的かつ高精度な全モダリティ検索 [cs.IR, cs.CL, cs.CV]目的:異種モダリティ間のクエリ情報を集約し,所望のターゲットを検索すること
    • 情報検索の分野において,多様なデータ形式に対応できる検索システムの需要が高まっている。
    • 既存のマルチモーダル検索モデルは,テキストと画像のみに限定されており,3つ以上のモダリティを組み合わせたクエリに対応できない。
    • テキスト,画像,音声の3つの主要なモダリティを統合的に処理可能な汎用的な検索モデルを開発すること。
    • 提案手法 OmniRet は,大規模言語モデル(LLM)への入力効率を向上させるため,アテンションに基づくリサンプリング機構を導入した。
    • また, OmniRet は,オムニモーダルデータの詳細な情報を保持する Attention Sliced Wasserstein Pooling を提案し,表現の忠実性を高めた。
    • 様々な検索タスクにおいて,既存モデルと同等以上の性能を示し,特に複合クエリ,音声,動画検索において顕著な改善が見られた。

    Link: https://arxiv.org/abs/2603.02098

  • スペクトルギャップと空間事前知識:TerraMindを用いたハイパースペクトル下流タスクへの適応の研究 [cs.CL, cs.CV]目的:ハイパースペクトル画像処理における下流タスクへの適応
    • 地理空間基礎モデルは多様なデータ処理に応用可能であり,社会課題解決に貢献する。
    • ハイパースペクトルデータの高次元性により,既存の地理空間基礎モデルでの処理が困難である。
    • TerraMindを用いて,ハイパースペクトルデータに対する事前学習なしでの適応可能性を検証する。
    • TerraMindは,ハイパースペクトルデータに特化した事前学習なしでも,下流タスクへの適応能力を示す。
    • バンド選択戦略は適応に有効だが,ネイティブなハイパースペクトルデータ対応モデルには劣る。
    • 本研究は,ハイパースペクトルデータ統合のための基盤を確立し,将来のモデル設計に示唆を与える。

    Link: https://arxiv.org/abs/2603.06690

  • 拡散Transformerの感度指向動的加速:SODA [cs.CV]目的:拡散Transformerの推論効率向上
    • 画像生成において拡散Transformerが主流だが,推論速度が課題となっている。
    • 既存手法では,キャッシュとプルーニングのバランスが難しく,精度低下を招く場合がある。
    • 感度に基づいた動的なキャッシュとプルーニングにより,精度を維持しつつ加速を目指す。
    • SODAは,時間ステップ,レイヤー,モジュールごとの感度エラーモデリングフレームワークを構築する。
    • 動的計画法を用いてキャッシュ間隔を最適化し,感度エラーを最小限に抑える。
    • DiT-XL/2,PixArt-α,OpenSoraでの実験で,SODAが最先端の性能を達成した。

    Link: https://arxiv.org/abs/2603.07057

  • セマンティック分割対照学習による効率的な胸部X線画像表現学習 [cs.CV]目的:胸部X線画像表現学習のための効率的な事前学習フレームワーク
    • 医療画像解析における注釈不足を克服するため,自己教師あり学習が重要視されている。
    • 既存の自己教師あり学習法は,計算コストや臨床的に意味のある構造の変化という課題を抱えている。
    • セマンティック分割対照学習により,効率的かつ高精度な胸部X線画像表現学習を実現することを目指す。
    • 提案手法S-PCLは,画像パッチをセマンティックな部分集合に分割し,部分的な情報から全体構造を推論する。
    • S-PCLは,手動でのデータ拡張や複雑なデコーダを必要とせず,計算効率が高い。
    • 大規模な胸部X線画像データセットでの実験により,S-PCLは既存手法と同等以上の性能を示し,計算コストを削減した。

    Link: https://arxiv.org/abs/2603.07113

  • LiveWorld:生成ビデオワールドモデルにおける視界外のダイナミクスのシミュレーション [cs.CV]目的:視界外のダイナミクスをシミュレーション可能な生成ビデオワールドモデルの構築
    • 現実世界を忠実に再現する環境シミュレーションは,ロボティクスやゲーム開発等に不可欠である。
    • 従来のビデオワールドモデルは,視界外のオブジェクトの状態を適切に更新できず,整合性が失われる問題がある。
    • LiveWorldは,視界外でも継続的に変化するワールドを表現し,長期的なシーンの一貫性を実現する。
    • LiveWorldは,静的な3D背景と動的なエンティティで構成される持続的なグローバル状態をモデル化することで,視界外のダイナミクスに対応する。
    • モニターベースの機構により,アクティブなエンティティの時間的な進行を自律的にシミュレーションし,再訪時に状態を同期させる。
    • 実験により,LiveWorldは持続的なイベントの進化と長期的なシーンの一貫性を実現し,従来の2D観測ベースのメモリとのギャップを埋めることが示された。

    Link: https://arxiv.org/abs/2603.07145

  • GazeShift: VR向け教師なし視線推定とデータセット [cs.CV]目的:VR環境における視線推定手法と大規模データセット
    • VR技術の発展において,視線追跡はユーザーインタラクションの向上に不可欠である。
    • VR環境向けの高品質な視線推定データセットが不足しており,研究開発のボトルネックとなっている。
    • 教師なし学習により,ラベル付けコストを削減し,VR環境における高精度な視線推定を実現すること。
    • 提案手法GazeShiftは,VR環境で収集した近赤外線画像を用いて,教師なしで視線表現を学習する。
    • GazeShiftは,既存手法と比較して少ないパラメータと計算量で,高い視線推定精度を達成した。
    • 開発したVRGazeデータセットは,210万枚の近赤外線画像を含み,VR視線研究に貢献する。

    Link: https://arxiv.org/abs/2603.07832

  • MERLIN: 低SNR環境に強い電磁波信号向けマルチモーダルLLMの構築 [cs.CV]目的:電磁波信号とテキスト間の関係性を学習するマルチモーダルLLMの基盤構築
    • 電磁波分野におけるAI活用は,信号解析の効率化や新たな応用展開に不可欠である。
    • 電磁波信号とテキストデータのペア数が限られており,高性能なLLMの学習が困難である。
    • 低SNR環境下での信号認識精度の低下という課題を解決し,実用的なLLMを開発する。
    • 大規模データセットEM-100kと包括的なベンチマークEM-Benchを新たに開発・公開した。
    • 提案手法MERLINは,低レベル信号表現と高レベル意味テキストを整合させ,低SNR環境下でのロバスト性を向上させる。
    • 実験の結果,MERLINはEM-Benchにおいて最先端の性能を示し,低SNR環境下でも優れた頑健性を示すことが確認された。

    Link: https://arxiv.org/abs/2603.08174

  • どこで,何を,なぜ:説明可能な3D-GSウォーターマーキングへ [cs.RO, cs.CV]目的:3D Gaussian Splattingにおけるロバストかつ知覚できないウォーターマーキングの実現
    • インタラクティブな3Dアセットの表現として3D Gaussian Splattingが普及し,その保護が重要になっている。
    • 既存手法では,ウォーターマークのロバスト性と画質の維持がトレードオフの関係にあった。
    • ウォーターマークの埋め込み位置と理由を説明可能にし,高画質を維持しつつロバスト性を高める。
    • 提案手法は,3D Gaussian Splattingの表現にネイティブなフレームワークにより,ウォーターマークの視認性とロバスト性を向上させた。
    • ガウス素子への書き込み位置と画質維持方法を分離し,歪みや圧縮に対する耐性を高め,既存手法よりPSNRが0.83dB,ビット精度が1.24%向上した。
    • 分離ファインチューニングにより,ウォーターマークが埋め込まれた場所と理由を可視化し,説明可能性を実現した。

    Link: https://arxiv.org/abs/2603.08809

  • テスト時自己中心・他者中心適応による行動予測:マルチラベルプロトタイプ成長と二重手がかり一貫性 [cs.CV]目的:行動予測のためのテスト時における自己中心視点と他者中心視点の適応
    • 人間とロボットの協調など,視点変換は重要課題である。効率的な適応技術が求められている。
    • 既存手法は対象視点データ依存が強く,計算コストやデータ収集コストが高いという課題がある。
    • 本研究は,テスト時にモデルをオンラインで適応させ,対象視点での行動予測を可能にすることを目指す。
    • 提案手法DCPGNは,マルチラベル知識を蓄積し,異なるモダリティの手がかりを統合することで,効果的な適応を実現した。
    • ML-PGMは,マルチラベル割り当てと信頼度に基づく重み付けにより,クラスごとのメモリバンクを更新し,複数の正クラスをバランスさせる。
    • DCCMは,テキスト手がかり(行動の進行を示す)と視覚手がかりを組み合わせ,二重手がかり一貫性を構築し,視点間の時空間的なギャップを埋める。

    Link: https://arxiv.org/abs/2603.09798

  • 博物館ビデオのためのカタログに基づくマルチモーダルアトリビューション:リソースと規制の制約下 [cs.CG, math.MG, eess.SY, cs.SY, cs.MM, cs.CV, cs.LG]目的:博物館ビデオのカタログ様式メタデータ作成の自動化
    • 博物館の映像資料は増加の一途を辿っており,その活用が重要である。
    • 既存のアーカイブ方法は手作業に依存しており,効率が悪い。
    • リソースと規制の制約下で,映像資料の検索性を向上させる。
    • 提案手法は,ビデオ内の美術作品を要約し,カタログ様式の説明とジャンルラベルを生成する。
    • 構造化されたカタログへの類似性マッチングにより,タイトルとアーティストの特定を試みる。
    • 初期の実装結果は,アーカイブの検索性を改善し,リソース制約やデータ主権,規制遵守に対応できる可能性を示す。

    Link: https://arxiv.org/abs/2603.11147

  • 局所的精密な改良:スペクトルシフトに対する基盤モデルの汎化性能を向上させるための二重ゲート付きMoE [cs.CV]目的:スペクトルリモートセンシングにおけるドメイン汎化セマンティックセグメンテーションの性能向上
    • リモートセンシング技術は,地球観測や資源管理において不可欠であり,その精度向上が求められている。
    • 異なる取得条件下でのスペクトルシフトが,モデルの性能低下を引き起こす主要な課題となっている。
    • スペクトルシフトにロバストなセマンティックセグメンテーションを実現するため,局所的な精密な改良を行う。
    • 提案手法SpectralMoEは,MoEアーキテクチャを用いて基盤モデルのフィーチャを局所的に精密に改良する。
    • VisualとDepthフィーチャを独立してルーティングする二重ゲート付きMoEにより,モダリティ特有の調整を可能にする。
    • 複数のDGSSベンチマークにおいて,最先端の性能を達成し,スペクトル変動によるセマンティック曖昧さを軽減することを示した。

    Link: https://arxiv.org/abs/2603.13352

  • 選択的ノイズ抑制と識別的相互作用によるロバストなオーディオビジュアルセグメンテーション [cs.CV]目的:オーディオビジュアルセグメンテーションにおけるロバスト性の向上
    • 動的な視覚シーンで音源を捉え,セグメント化することは,様々な応用において重要である。
    • オーディオとビジュアルの相互作用は進展しているものの,更なる検討が必要とされている。
    • オーディオノイズを抑制し,関連するオーディオ情報を強調することで,オーディオとビジュアルの識別的相互作用を実現する。
    • 提案手法SDAVSは,選択的ノイズ耐性プロセッサ(SNRP)と識別的オーディオビジュアル相互融合(DAMF)戦略を備えている。
    • SNRPは,関連する聴覚的手がかりを選択的に強調することでオーディオノイズ干渉を軽減し,DAMFは一貫性のあるオーディオビジュアル表現を保証する。
    • 実験結果は,提案手法がベンチマークAVSデータセットにおいて,特にマルチソースおよび複雑なシーンで最先端の性能を達成することを示している。

    Link: https://arxiv.org/abs/2603.14203

  • HalDec-Bench:画像キャプションにおけるハルシネーション検出器のベンチマーク [cs.CV]目的:画像キャプションにおけるハルシネーション検出器の性能評価
    • 画像とテキストの整合性は,ビジョン言語モデルの重要な性能指標である。
    • 異なるキャプション生成モデルやハルシネーションの種類における汎化性能の評価が困難である。
    • 包括的なベンチマークを用いて,ハルシネーション検出器の性能を詳細に分析すること。
    • HalDec-Benchは,多様なビジョン言語モデルで生成されたキャプションと,人間によるハルシネーション注釈を含む。
    • 検出器は,応答の先頭の文を正と判断する傾向があり,実際の正誤に関わらず誤認識を引き起こす可能性がある。
    • 強力なビジョン言語モデルをフィルタとして利用することで,データセットのノイズを大幅に削減できることが示唆された。

    Link: https://arxiv.org/abs/2603.15253

  • LLMを活用したソーシャルメディア画像からの浸水深推定:輸送の強靭性を 위한 ビジョン言語モデルフレームワークと機械的解釈可能性 [cs.CV]目的:都市部における浸水深のリアルタイム推定
    • 都市部の浸水は交通網に深刻な脅威を与えるため,迅速な対応が不可欠である。
    • センチメートル単位の浸水深をリアルタイムで把握するシステムが存在せず,車両の安全な運行を妨げている。
    • ソーシャルメディア画像から高精度な浸水深を推定し,交通網の強靭性向上に貢献すること。
    • FloodLlamaは,1cm分解能で浸水深を推定し,平均絶対誤差0.97cm以下,93.7%以上の@5cm精度を達成した。
    • 浅い浸水に対してはシンプルなプロンプト,深い浸水に対してはChain-of-Thought推論が有効であることが明らかになった。
    • 機械的解釈可能性フレームワークにより,深さ符号化の重要な層が特定され,パラメータ数を削減しつつ高精度を維持した。

    Link: https://arxiv.org/abs/2603.17108

  • SARE:サンプルごとの適応的推論による訓練不要な詳細視覚認識 [eess.SY, cs.SY, eess.SP, cs.CV, cs.AI]目的:訓練不要な詳細視覚認識のためのサンプルごとの適応的推論フレームワーク
    • 大規模なビジョン言語モデルの発展により,詳細な視覚認識が可能になった分野。
    • 下位レベルカテゴリの視覚的曖昧さにより,効果的な活用が難しいという課題がある。
    • サンプルごとの認識難易度に応じた推論を行い,誤りからの学習を可能にする。
    • SAREは,高速な候補検索と詳細な推論を組み合わせたカスケード設計を採用している。
    • 過去の失敗事例を活用し,推論時に識別的な指針を提供する自己反省的経験メカニズムを組み込む。
    • 14のデータセットにおける実験により,SAREが最先端の性能を発揮し,計算コストを大幅に削減することが確認された。

    Link: https://arxiv.org/abs/2603.17729

  • 継続学習のための適切な弾性重みコンソリデーション [cs.HC, cs.LG, cs.AI, cs.CV]目的:継続学習における壊滅的忘却の軽減
    • 機械学習モデルの継続学習は,人間の学習能力に匹敵する汎用的なAI開発に不可欠である。
    • 既存の継続学習手法は,過去の知識を忘却しやすく,性能劣化を引き起こすことがある。
    • 弾性重みコンソリデーションの重要度推定の誤りを修正し,性能向上を目指す。
    • 弾性重みコンソリデーション(EWC)における重要度推定が,勾配消失や不必要な制約によって不正確になることを指摘した。
    • ロジット反転(LR)演算を導入することで,EWCの重要度推定を修正し,勾配消失と冗長な保護を防ぐことに成功した。
    • 様々な継続学習タスクにおいて,提案手法(EWC-DR)が既存手法を大幅に上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.18596

  • ビルマ数字手書き文字認識のためのPETNN,KAN,および古典的深層学習モデルのベンチマーク:myMNIST [cs.CV, cs.AI, cs.CL]目的:ビルマ数字手書き文字認識における様々なモデルの性能評価と再現性のある基盤の確立
    • ビルマ語の自然言語処理/AI研究の基礎となるデータセットの活用が重要である。
    • 既存のビルマ数字手書き文字データセットには,網羅的な性能評価の基準が不足している。
    • 多様なモデルに対する客観的な性能比較を通じて,今後の研究を促進すること。
    • CNNが最も高い性能を示し(F1=0.9959,Accuracy=0.9970),堅牢な基盤として機能する。
    • PETNN (GELU)モデルはCNNに匹敵する性能を示し,LSTM,GRU,Transformer,KANモデルを上回った。
    • 本ベンチマークは,ビルマ数字認識研究の促進と,新興アーキテクチャの評価に貢献する。

    Link: https://arxiv.org/abs/2603.18597

  • 物理特性に基づく深層アンフォールディングによるリモートセンシング変化検出の進歩:PhyUnfold-Net [cs.CV]目的:リモートセンシング変化検出における偽警報の低減
    • リモートセンシングは,環境モニタリングや災害評価など,幅広い分野で不可欠な技術である。
    • 照明,季節,大気などの取得条件の違いにより,変化検出の精度が著しく低下する課題がある。
    • 物理的制約を組み込むことで,偽の変化を抑制し,変化検出のロバスト性を向上させる。
    • 提案手法PhyUnfold-Netは,変化検出を明示的な分解問題として定式化する物理特性に基づいた深層アンフォールディングフレームワークである。
    • 反復変化分解モジュール(ICDM)は,混合された差異特徴を変化成分とノイズ成分に段階的に分離するソルバーを展開する。
    • 実験結果から,PhyUnfold-Netは既存の最先端手法と比較して,困難な条件下で優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.19566

  • LoD-Loc v3:インスタンスシルエットアラインメントを用いた高密度都市における汎化空中位置推定 [cs.CV, cs.AI, cs.RO]目的:高密度都市環境における汎化空中視覚的位置推定手法
    • 都市の構造変化に対応した位置推定は,自動運転や都市インフラの維持管理において重要である。
    • 既存手法は,シーン間の汎化性能が低い,あるいは高密度な建物群の中で位置推定が困難であるという課題があった。
    • インスタンスシルエットアラインメントにより,シーン間の汎化性能向上と高密度環境における位置推定精度の向上を目指す。
    • 本研究で開発したLoD-Loc v3は,既存の最先端手法と比較して,シーン間および高密度都市環境における位置推定性能で大幅な改善を示した。
    • 大規模なインスタンスセグメンテーションデータセットInsLoD-Locを構築することで,ゼロショット汎化性能を向上させた。
    • セマンティックなシルエットアラインメントからインスタンスシルエットアラインメントにパラダイムシフトすることで,高密度シーンにおける位置推定の曖昧さを低減した。

    Link: https://arxiv.org/abs/2603.19609

  • OmniDiT:拡散TransformerをOmni-VTONフレームワークへ拡張 [cs.CV, cs.AI]目的:仮想試着および試着解除タスクの統合モデル構築
    • 仮想試着技術は,オンラインショッピング体験を向上させ,返品率を低下させる上で重要である。
    • 既存手法は,細部の再現性,複雑なシーンへの対応,効率的な推論に課題がある。
    • 拡散Transformerを用いて,汎用性と効率性を両立した仮想試着フレームワークを開発する。
    • 提案手法OmniDiTは,自己進化型データキュレーションパイプラインと大規模データセットOmni-TryOnを活用する。
    • Shifted Window Attentionを拡散モデルに導入することで,計算量の線形化と生成品質の向上を実現した。
    • 様々な複雑なシーンにおいて,モデルフリーおよびモデルベースの仮想試着・試着解除タスクで最先端性能を達成した。

    Link: https://arxiv.org/abs/2603.19643

  • 属性に基づく視点からの音声プライバシー [cs.SD, cs.AI]目的:音声プライバシー保護の評価基準
    • 音声データは個人識別情報を含むため,プライバシー保護は重要である。
    • 既存の評価基準は信号間の比較に依存し,属性情報の漏洩リスクを考慮していない。
    • 属性情報に基づく脅威に対する音声プライバシー保護の現状を明らかにする。
    • 音声の匿名化処理後も,推測された属性情報から個人を特定されるリスクが残存することが示された。
    • 単一の発話サンプルのみを用いた攻撃シナリオにおいても,属性情報が脅威となることが確認された。
    • 今後の音声プライバシー研究において,属性情報に関連する脅威と保護メカニズムの両方を考慮する必要がある。

    Link: https://arxiv.org/abs/2603.20301

  • ニューラルネットワークの反転:所定の出力からニューラルネットワーク入力生成のための新手法 [cs.CV]目的:ニューラルネットワークの出力に対応する入力画像の特定
    • ニューラルネットワークは複雑な写像を表現するが,その内部動作の理解は困難である。
    • 入力から出力への順方向写像は解析が進む一方,出力から入力への逆方向写像は未解明な部分が多い。
    • ニューラルネットワークの脆弱性を明らかにし,入力空間の網羅的な解析を目指す。
    • 提案手法は,既存手法と比較して,高い分類精度を達成するランダムな外観の入力画像を生成できる。
    • これにより,基盤となるネットワークの脆弱性が明らかになり,敵対的攻撃への応用が期待される。
    • 本研究は,ニューラルネットワークの入力空間の理解を深め,より堅牢なネットワーク設計に貢献する。

    Link: https://arxiv.org/abs/2603.20461

  • GHOST:観測されたStructure-from-Motion軌跡からの地上投影仮説 [cs.RO, cs.CV]目的:自律走行のための実行可能な車両軌跡のセグメンテーション
    • 複雑な都市環境における自律走行の実現には,安全かつ効率的な経路計画が不可欠である。
    • 従来の経路計画は,手動アノテーションや詳細な環境モデリングに依存し,汎用性に課題があった。
    • 大規模なデータから自己学習することで,道路構造やレーン構造を明示的にモデル化せずに,汎用的な軌跡予測を実現する。
    • 大規模なダッシュカム動画を活用し,自己車両の動きを教師データとして,カメラ軌跡を回収する。
    • 回収された軌跡を地上に投影することで,手動アノテーションなしに走行領域の空間マスクを生成する。
    • 生成されたラベルを用いて深層セグメンテーションネットワークを訓練し,単一のRGB画像から経路候補を予測する。

    Link: https://arxiv.org/abs/2603.20583

  • ScaleEdit-12M:マルチエージェントフレームワークによるオープンソース画像編集データ生成のスケールアップ [cs.CV]目的:大規模かつ高品質な画像編集データセットの構築
    • 画像編集は統一されたマルチモーダルモデルの重要な能力であり,その発展が求められている。
    • 高品質な編集データセットの構築にはコストがかかり,オープンソースでの大規模化が課題となっている。
    • オープンソースかつスケーラブルな画像編集データセットの構築を目指す。
    • ScaleEditorという階層型マルチエージェントフレームワークを提案し,ScaleEdit-12Mという大規模なデータセットを構築した。
    • ScaleEdit-12Mを用いたUniWorld-V1とBagelのファインチューニングにより,ImgEditとGEditの性能がそれぞれ最大10.4%,35.1%向上した。
    • 知識を活用した評価基準RISEとKRIS-Benchにおいても,それぞれ最大150.0%,26.5%の性能向上が確認された。

    Link: https://arxiv.org/abs/2603.20644

  • PiLoT:UAVベースの自己位置推定と標的のジオロケーションのためのニューラルピクセル-to-3D登録 [cs.CV]目的:UAVベースの自己位置推定と標的のジオロケーション
    • UAV(無人航空機)の利用拡大に伴い,高精度な位置情報取得技術の需要が高まっている。
    • 従来のGNSSやVIOに依存する手法は,GNSS非利用環境下で課題があり,ハードウェアコストも高い。
    • リアルタイムかつ高精度な位置推定を,GNSSに依存せずに実現することを目指す。
    • PiLoTは,ライブビデオストリームをジオ参照された3Dマップに直接登録することで,自己位置推定と標的のジオロケーションを統合的に行う。
    • デュアルスレッドエンジンにより,低遅延かつドリフトフリーな精度を実現した。
    • 大規模な合成データセットを用いて学習した軽量なネットワークは,シミュレーションから実データへのゼロショット転移が可能である。

    Link: https://arxiv.org/abs/2603.20778

  • LPNSR:低解像度画像誘導ノイズ予測による事前知識強化型拡散画像超解像 [cs.CV, cs.AI]目的:拡散モデルを用いた画像超解像の性能向上
    • 画像超解像は,低解像度画像から高解像度画像を復元する技術であり,様々な応用分野で重要である。
    • 既存の拡散モデルは,推論効率と復元品質のトレードオフが存在し,特に少ないステップ数での性能劣化が課題である。
    • LPNSRは,最適化されたノイズ予測と高品質な事前アップサンプリングにより,効率的かつ高精度な超解像を実現する。
    • LPNSRは,残差シフト拡散フレームワークにおいて,最適な中間ノイズを数学的に導出し,LR画像を考慮したノイズ予測器を設計した。
    • これにより,LR画像の構造的情報を逆プロセスに組み込み,エラーの蓄積を抑制し,初期バイアスを軽減することに成功した。
    • 合成データセットと実写データセットの両方で,LPNSRは最先端の知覚的性能を達成し,大規模なテキスト画像事前知識に依存しない。

    Link: https://arxiv.org/abs/2603.21045

  • 2Xplat:汎用モデルより専門家2名の方が優れている [cs.CV]目的:3D Gaussian Splatting の高速3Dモデリングにおける二つの専門家モデルの有効性
    • 近年,マルチビュー画像からの高品質な3Dモデル生成が求められており,3DGSが注目を集めている。
    • 従来の3DGS手法は,単一のネットワークでカメラ姿勢推定と3D表現を同時に行うため,性能が制限される場合がある。
    • 本研究では,カメラ姿勢推定と3D Gaussian 生成を分離した二つの専門家モデルによる性能向上を目指す。
    • 提案手法 2Xplat は,カメラ姿勢推定専用の専門家と,3D Gaussian 生成専用の専門家を組み合わせることで,従来の pose-free 3DGS 手法を大幅に上回る性能を達成した。
    • わずか5K回の学習反復で,既存の pose-free 3DGS 手法と同等の性能,さらにはカメラ姿勢が既知の場合の手法に匹敵する性能を実現した。
    • この結果は,従来の統合的な設計パラダイムに疑問を投げかけ,複雑な3D幾何推定と外観合成タスクにおけるモジュール設計の利点を示唆している。

    Link: https://arxiv.org/abs/2603.21064

  • モデルが自己評価する:マルチモーダル推論のための教師なし自己進化 [cs.RO, cs.CV, cs.AI]目的:マルチモーダル推論における自己進化
    • 大規模言語モデルの進歩により推論能力が向上しているが,高品質なアノテーションデータが必要。
    • アノテーションデータの作成コストが高い,また外部の報酬モデルに依存する問題がある。
    • 人間のラベルや報酬モデルなしで,推論性能を安定的に向上させる方法を確立する。
    • 提案手法は,ラベルなしデータのみで推論性能と汎化性能を向上させることを実証した。
    • 複数の推論経路をグループ化し,経路間の整合性に基づいて学習することで,安定した進化を実現する。
    • 5つの数学的推論ベンチマークで一貫して性能が向上し,自己進化するマルチモーダルモデルへの道を開く。

    Link: https://arxiv.org/abs/2603.21289

  • ビデオにおける表情認識のためのキャッシュパーソナライゼーションによるテスト時適応 [cs.CV]目的:ビデオにおける表情認識のためのテスト時適応手法
    • 表情認識は,人間が自然な形でコミュニケーションをとる上で不可欠であり,様々な応用分野で重要である。
    • 動画における表情認識は,個人差によりモデルの汎化性能が低下しやすいという課題がある。
    • 本研究では,計算コストを抑えつつ,個人に合わせた表情認識の精度向上を目指す。
    • 本研究で提案するTTA-CaPは,3つのキャッシュを活用することで,ノイズの影響を抑制し,安定した予測を実現する。
    • BioVid,StressID,BAHの3つのデータセットを用いた実験により,TTA-CaPは既存のテスト時適応手法を上回る性能を示すことが確認された。
    • TTA-CaPは,個人差や環境変化に対してロバストであり,実用的な計算コストとメモリ消費量で動作する。

    Link: https://arxiv.org/abs/2603.21309

  • Cerebra:多角的AIボードによる多角的認知症特性評価とリスクアセスメント [cs.DC, cs.MS, cs.AI, cs.CV]目的:多角的認知症特性評価とリスクアセスメントのためのAIボード
    • 患者データは多様かつ変化し,不完全な場合が多い。適切な臨床判断には,その活用が不可欠である。
    • 既存のAIモデルは静的で解釈が難しく,実際の臨床ワークフローとの整合性に課題がある。
    • 不完全なデータでも解釈可能な,臨床現場での意思決定支援を実現することを目的とする。
    • Cerebraは,EHR,臨床記録,医用画像分析を連携させ,リスク評価を視覚的に提示する。
    • 300万人規模のデータセットを用いた評価で,既存モデルや大規模言語モデルを凌駕する性能を示した。
    • 認知症リスク予測ではAUROC0.80,診断では0.86,生存予測ではC-index 0.81を達成し,医師の診断精度を17.5%向上させた。

    Link: https://arxiv.org/abs/2603.21597

  • 不確実な受容を伴う預言者の不等式 [cs.GT]目的:不確実な受容を伴う預言者の不等式モデルにおける意思決定者の競争的割合
    • 意思決定理論において,逐次的な選択問題は重要であり,資源配分や投資判断などに応用される。
    • 従来の預言者の不等式では,各選択肢の価値が事前に不明であるという不確実性のみを扱っていた。
    • 受容確率という新たな不確実性を導入することで,より現実的な意思決定モデルを構築し,その最適解を求める。
    • 本研究では,定義されたエージェント間の最悪の場合の競争的割合が全て1/2であることを明らかにした。
    • 価値をより良く知ることで,受容確率の知識を向上させるよりも,意思決定者にとって有利になる条件が示された。
    • 価値を認識する意思決定者の問題を,スケーリングされたベルヌーイ分布を持つ古典的な預言者の不等式に帰着させることで,分析を簡素化した。

    Link: https://arxiv.org/abs/2603.21740

  • 双曲視覚言語モデルにおける不確実性に基づく構成的アラインメントと部分-全体意味表現性 [cs.HC, cs.CV, cs.AI]目的:双曲視覚言語モデルにおける部分-全体意味表現性のモデリング
    • 視覚言語モデルは高性能だが,階層的関係の表現に限界がある。双曲空間を用いることで,その課題を克服可能となる。
    • 既存手法では,部分画像の全体に対する意味表現性の違いを考慮していない点が課題である。
    • 不確実性に基づく重み付けにより,より正確な部分-全体の関係を学習し,複雑なシーン理解を目指す。
    • 提案手法UNCHAは,不確実性に基づく重み付けを導入し,部分-全体関係のモデリングを強化する。
    • UNCHAは,不確実性に基づいた損失関数とエントロピー項による正則化を用いて,より正確な部分-全体順序を学習する。
    • その結果,ゼロショット分類,検索,マルチラベル分類のベンチマークにおいて最先端の性能を達成した。

    Link: https://arxiv.org/abs/2603.22042

  • タイル照合を超えて:視覚のみによるUAVナビゲーションのための空中画像と衛星画像のずれの解消 [cs.CV, cs.AI]目的:ずれのある空中画像と衛星画像間の対応付けによる,視覚のみによるUAVナビゲーションの実現
    • GNSSが利用できない環境下でのUAVナビゲーションにおいて,クロスビュージオローカリゼーションは重要な技術である。
    • 既存手法はタイル照合に依存し,精度とストレージ容量のトレードオフ,UAVのheadingの考慮不足が課題である。
    • クロスビューのずれやオーバーラップに強く,軽量かつロバストなナビゲーションシステムの構築を目指す。
    • 提案手法Bearing-UAVは,周辺の特徴からUAVの絶対位置とheadingを同時に予測することで,高精度なナビゲーションを実現する。
    • 多様な地形において,既存の照合・検索手法よりも低い位置特定誤差を示すことが実験的に示された。
    • グローバル・ローカル特徴と相対的な空間関係を明示的に符号化することで,クロスビューの変動やずれに強い。

    Link: https://arxiv.org/abs/2603.22153

  • パーキンソン病における多言語性構音障害検出のための自己教師あり音声表現の適応 [cs.CL, cs.SD]目的:多言語性構音障害検出の性能向上
    • 構音障害の早期発見は,患者の生活の質向上に不可欠である。
    • 構音障害音声データの言語間での不足と,言語依存的な表現の存在が課題である。
    • 言語依存的な構造を除去し,言語を跨いだ検出精度を向上させる。
    • 提案手法であるLSは,クロスリンガル設定において感度とF1スコアを大幅に改善した。
    • 多言語設定でも一貫した改善が見られた。
    • 表現分析の結果,LSが埋め込み空間における言語識別性を低減することが示された。

    Link: https://arxiv.org/abs/2603.22225

  • 自己教師ありモダリティデカップリングによるハイパースペクトル画像超解像 [eess.IV, cs.CV]目的:ハイパースペクトル画像とマルチスペクトル画像の融合による高空間・高分光解像度画像再構成
    • ハイパースペクトル画像は,微細なスペクトル情報により多様な応用が期待されるが,高解像度化は困難である。
    • 既存手法では,モダリティ間の相関を十分に活用できておらず,情報伝達が不十分な場合がある。
    • モダリティデカップリングにより,冗長性を削減し,効率的な情報融合を実現することを目指す。
    • 提案手法MossFuseは,モダリティ共有情報と補完情報を分離し,簡潔な表現を獲得することで,融合性能を向上させる。
    • サブスペースクラスタリング損失を導入することで,モダリティ共有特徴と補完特徴の分離を明確化する。
    • 複数のデータセットでの実験により,提案手法が既存手法を凌駕し,少ないパラメータで高速な推論が可能であることが示された。

    Link: https://arxiv.org/abs/2412.04802

  • 粗いものから連続的なものへ:モーションに強い異方性MRI再構成のための漸進的洗練された陰的ニューラル表現 [eess.IV, cs.CV]目的:モーションに強いMRI再構成における,解剖学的に整合性のある3D脳容積の再構築
    • MRIは脳の研究や診断に不可欠であり,高画質な画像再構成が重要である。
    • モーションや高速撮像によるアーチファクト,体積の異方性などが再構成の課題となっている。
    • モーションに強く,高精度なMRI再構成を可能にする新しいフレームワークの開発。
    • PR-INRは,モーション補正,構造の洗練,体積合成を統合したフレームワークである。
    • 提案手法は,モーションに起因するアーチファクトを抑制し,全体的な解剖学的構造を維持する。
    • 定量的な評価および視覚的な評価において,最先端の手法を凌駕する性能を示すことが確認された。

    Link: https://arxiv.org/abs/2506.16210

  • ゼロショットテキスト読み上げにおける選択的識別子不要ガイダンス [eess.AS, cs.AI, cs.SD]目的:ゼロショットテキスト読み上げの品質向上
    • 音声合成技術は,人間とコンピュータの自然な対話を可能にする重要な要素である。
    • ゼロショット学習では,ターゲットスピーカーへの忠実性とテキスト内容の正確性の両立が課題である。
    • 画像生成で有効な識別子不要ガイダンスを音声合成に応用し,その効果を検証する。
    • 画像生成で効果的な識別子不要ガイダンスは,一般的に音声合成の向上には寄与しないことが示された。
    • 初期段階で標準的な識別子不要ガイダンスを適用し,後期段階で選択的な識別子不要ガイダンスに切り替えることで,話者類似性を向上させつつ,テキスト内容の劣化を抑制できることが明らかになった。
    • 選択的識別子不要ガイダンスの効果は,テキスト表現に大きく依存し,英語と中国語で異なる結果が得られることが観察された。

    Link: https://arxiv.org/abs/2509.19668

  • 音声テキスト検索のための適応的自己改善知識フレームワーク [eess.AS, cs.IR, cs.LG, cs.MM, cs.SD]目的:音声テキスト検索における知識フレームワークの改善
    • 音声とテキストの関連性を捉えることは,情報検索やマルチモーダルな理解に不可欠である。
    • 既存手法では,局所的な学習に偏り,曖昧な音響情報や希少な概念の学習が不十分である。
    • 知識注入による課題解決が試みられるが,知識ベースとモデルの不整合が性能低下を招く。
    • 本研究では,多粒度知識注入と動的な知識ベースの更新により,これらの課題を克服するASKフレームワークを提案する。
    • ASKは,勾配の局所性の問題を解消し,表現のドリフト不一致を軽減することで,検索性能を向上させる。
    • 複数のベンチマークにおいて,ASKは最先端の性能を達成し,様々なバックボーンで有効であることが示された。

    Link: https://arxiv.org/abs/2512.19703

  • Wi-Fiレンジフィルタリングドップラースペクトルによる人体検知 [eess.SP, cs.AI, cs.CV]目的:Wi-Fiを用いた人体検知手法の開発
    • 省電力化やセキュリティ向上に貢献するため,デバイスにおける人体検知技術の重要性が高まっている。
    • 既存手法は,外部センサーやカメラに依存し,コスト増大やプライバシー侵害のリスクを伴う。
    • 内蔵Wi-Fiのみで,低コストかつプライバシー配慮型の検知手法を確立し,環境への適応性を高める。
    • 提案手法RF-DSは,Wi-Fi信号のチャネルインパルス応答に基づき,レンジフィルタリングとドップラー分析を組み合わせることで,効率的な人体検知を実現した。
    • 時間窓を用いることで推定の安定性を高め,適応的なマルチレート処理により計算量を削減した。
    • 本手法は,特別な校正や再学習を必要とせず,様々な環境やデバイスへの展開が可能である。

    Link: https://arxiv.org/abs/2603.10845