arXiv雑要約

画像・音声 - 2026/05/05 公開

  • 圧縮CTからの学習:特徴注意スタイル転送と構造化因数分解投影によるリソース効率の高い医用画像解析 [cs.CV, eess.IV]目的:胸部異常検出のための圧縮CTボリュームの利用
    • 医用画像におけるAI活用は,診断精度向上に不可欠である。しかし,計算資源の制約が課題となっている。
    • 非圧縮ボリュームデータは計算負荷が高く,AI診断への応用が限られていた。
    • 圧縮CTデータを用いても,高精度な異常検出を実現することを目指している。
    • 提案手法CT-Liteは,圧縮CTデータを用いて,非圧縮データと同等のAUROC(0.9以上)を達成した。
    • 特徴注意スタイル転送(FAST)と構造化因数分解投影(SFP)により,パラメータ数を削減し,計算効率を向上させた。
    • 本研究は,リソース制約下でのAI臨床評価への道を開き,実用化を促進する。

    Link: https://arxiv.org/abs/2605.00448

  • ローカルからグローバル,そしてメカニスティックへ:iERFを中心としたビジョンモデル解釈の統一的フレームワーク [cs.CV]目的:ビジョンモデルの解釈に関する統一的フレームワーク
    • 近年のビジョンモデルは高い精度を達成する一方,その判断根拠の解明が課題となっている。
    • モデルがどのような情報を符号化し,どのように計算を行っているか,その理解が断片的である。
    • iERFを中心に,ローカル,グローバル,メカニスティックな解釈を統合し,モデルの判断根拠を明らかにすること。
    • 提案手法は,Sharing Ratio Decomposition (SRD)により,活性化に忠実で高解像度な説明を生成し,ロバスト性も示している。
    • Concept-Anchored Feature Explanation (CAFE)により,抽象的な潜在ベクトルを検証可能なピクセルレベルの証拠に結びつけ,非局所的な潜在表現の解釈を可能にした。
    • Interlayer Concept Graph with Interlayer Concept Attribution (ICAT)により,層間の概念的影響を定量化し,モデルの表現構築プロセスを明らかにした。

    Link: https://arxiv.org/abs/2605.00474

  • MSACT:安定した低遅延精密操作のための多段階空間アラインメント [cs.RO, cs.CV]目的:安定した低遅延精密操作の実現
    • 現実世界の精密操作は,特に両手操作において低遅延制御と安定した視覚定位が不可欠である。
    • 大規模データの収集コストが高い上に,限られたデモンストレーションでは定位のドリフトが生じやすい。
    • 限られたデータ下での定位安定性を向上させ,低遅延を維持した精密操作を実現する。
    • 提案手法MSACTは,安定した2Dアテンションポイントを抽出し,時間的アラインメント損失を用いて将来のアテンション系列を予測する。
    • 事前学習済みのResNetとACTを基盤とし,タスクに関連する2Dアテンションポイントを抽出することで局所的な空間情報を活用する。
    • 自己教師あり学習により,予測アテンション系列と未来フレームの視覚特徴をアラインメントし,キーポイント注釈なしにドリフトを抑制する。

    Link: https://arxiv.org/abs/2605.00475

  • アクティブラーニングにおける弱アノテーターとしてのビジョン言語モデルの活用 [cs.CV]目的:アクティブラーニングにおける人的アノテーションコストの削減
    • データアノテーションは機械学習の性能に不可欠だが,コストと時間がかかる。
    • アノテーション予算が限られている場合,効率的な学習方法が求められる。
    • ビジョン言語モデルの特性を活用し,アノテーションコストをさらに削減する。
    • ビジョン言語モデルは,詳細なラベルでは性能が低いが,粗いラベルは正確に生成できることが判明した。
    • 提案手法は,人的アノテーションとビジョン言語モデルによる弱アノテーションを組み合わせることで,既存のアクティブラーニング手法を上回る性能を示した。
    • CUB200とFGVC-Aircraftの実験により,提案フレームワークの一貫した有効性が確認された。

    Link: https://arxiv.org/abs/2605.00480

  • 無音動画からのオーディオ生成によるオーディオイベントラベリング [cs.SD, cs.CV]目的:無音動画からのオーディオイベントのタイプとタイミングを明示するラベリング手法
    • 動画と音響情報を組み合わせることで,より自然でリアルなコンテンツ制作が可能となる。
    • 従来の音響イベント検出は,生成されたオーディオに対する後処理であり,エラーが蓄積しやすい。
    • オーディオ生成とイベント予測を同時に行うことで,より正確で解釈可能な合成を実現する。
    • 提案手法MMAudio-LABELは,音響イベントを意識したオーディオ生成フレームワークである。
    • Greatest Hitsデータセットを用いた評価により,オンセット検出精度が46.7%から75.0%に向上した。
    • また,マテリアル分類精度も40.6%から61.0%に向上し,有効性が確認された。

    Link: https://arxiv.org/abs/2605.00495

  • 高速視覚が人間の行動のゼロショット意味理解を向上させる [cs.CV, cs.RO]目的:人間の行動のゼロショット意味理解における,高速視覚の効果
    • 人間とロボットのインタラクションにおいて,人間の行動理解は不可欠である。特に,ラベル付けが困難な行動の理解には重要性が高い。
    • 十分なラベル付きデータの収集が困難なため,未知の行動に対する教師なし学習が課題となっている。既存モデルでは,高速かつ微細な動きに対する時間分解能の影響が不明である。
    • 本研究は,高速な人間の行動のゼロショット意味理解における時間分解能の影響を調査し,その改善を目指す。
    • 高フレームレートのビデオを用いることで,ゼロショット設定における意味的な分離性が有意に向上することが示された。
    • 剣道という高速で繊細な動きの事例を用いて,事前学習済みのビデオ言語モデルと大規模言語モデルに基づく推論パイプラインを提案した。
    • 高速ビデオが,高速な行動に対するより安定した解釈可能な意味表現を提供する可能性が示唆された。

    Link: https://arxiv.org/abs/2605.00496

  • GOR-IS:固有空間における3Dガウスオブジェクト除去 [cs.CV]目的:3Dシーンにおけるオブジェクト除去の物理的整合性と視覚的コヒーレンス向上
    • NeRFや3DGSにより3Dシーン再構成が一般的になり,その編集技術が重要視されている。
    • 既存手法は照明効果や非ランバート表面への対応が不十分で,現実離れした結果や不確かな復元が生じている。
    • 固有成分分解と光伝達モデリングにより,物理的に整合性のあるオブジェクト除去を目指す。
    • 提案手法GOR-ISは,シーンを固有成分に分解し,光伝達を明示的にモデル化することで,グローバルな照明効果の一貫性を維持する。
    • 固有空間インペインティングモジュールを導入し,材質と照明の領域で直接処理することで,非ランバート表面の課題に対処する。
    • 合成データと実データを用いた実験で,既存手法よりもLPIPSで13%,PSNRで2dB改善されることが示された。

    Link: https://arxiv.org/abs/2605.00498

  • 1Dセマンティックトークナイザーを用いたエンドツーエンドの自己回帰的画像生成 [cs.CV, cs.LG]目的:自己回帰的画像生成における画像圧縮表現の最適化
    • 画像生成技術は,現実世界の多様なコンテンツを創出する上で不可欠であり,その重要性は増している。
    • 従来の画像生成モデルでは,トークナイザーと生成モデルを別々に学習させるため,最適化が不十分だった。
    • トークナイザーと生成モデルを同時に最適化することで,より高品質な画像生成を目指す。
    • 本研究では,再構成と生成を同時に最適化するエンドツーエンドの学習パイプラインを提案した。
    • 提案手法は,ImageNet 256x256生成において,FIDスコア1.48という最先端の結果を達成した。
    • 視覚的基礎モデルを活用することで,自己回帰モデルのための1Dトークナイザーの性能向上が確認された。

    Link: https://arxiv.org/abs/2605.00503

  • スケールを意識した敵対的分析:多スケール複雑系における生成AIの診断 [cs.CE, cs.LG, cs.CV, physics.comp-ph]目的:生成AIの多スケール複雑系における物理法則の内部化度評価
    • 複雑系は自然界に広く存在し,その理解は科学技術の発展に不可欠である。
    • 既存の機械学習モデルは統計的相関を学習するに過ぎず,物理法則を理解しているかは不明である。
    • 生成AIが多スケール構造を正しく学習しているかを検証する診断手法を確立する。
    • 既存のXAI手法は物理的に不適切な摂動を引き起こし,モデルの評価を妨げる。
    • 本研究で提案するCDDに基づく診断手法は,スケールを考慮した物理的に制約されたデータ生成を可能にする。
    • 実験の結果,生成モデルは物理的摂動に対して構造の凍結や非線形不安定性を示し,連続的な物理応答を示さないことが明らかになった。

    Link: https://arxiv.org/abs/2605.00510

  • PhysiGen:衝突を考慮した物理制約の統合による高精度な人間-人間インタラクション生成 [cs.CV]目的:人間同士のインタラクション生成におけるリアリティ向上
    • 人間行動の理解は,バーチャルリアリティやロボット工学など幅広い分野で重要である。
    • 生成されたモーションにおいて,身体の衝突が頻繁に発生し,リアリティを損ねている。
    • 身体の衝突を回避し,物理的に妥当なインタラクション生成を可能にすること。
    • PhysiGenは,人間同士の衝突を考慮した物理制約を効率的に統合する手法である。
    • 人間の高解像度メッシュを幾何学的プリミティブに簡略化することで,衝突検出コストを削減している。
    • 既存の生成モデルと比較して,身体の貫通を効果的に軽減し,視覚的な整合性と物理的な妥当性を向上させている。

    Link: https://arxiv.org/abs/2605.00517

  • 犯罪捜査における識別可能な容疑者顔生成のためのマルチモーダル反復拡散フレームワークIdentiFace [cs.HC, cs.CV]目的:識別可能な容疑者顔生成
    • 犯罪捜査において,容疑者の特定は重要な課題であり,顔画像はそのための有力な手がかりとなる。
    • 従来の似顔絵作成は効率と品質が低く,拡散モデルも条件の曖昧性やワンショット生成の分散に課題があった。
    • 条件制御の強化と識別可能な特徴の調整により,容疑者顔生成の精度向上を目指す。
    • IdentiFaceは,マルチモーダル入力設計と反復生成パイプラインにより,既存手法よりも優れた性能を発揮する。
    • 特に,顔の識別精度が向上しており,実用的な応用への可能性を示す。
    • 顔の同一性損失関数と,本研究のための2つのタスク固有のデータセットも貢献した。

    Link: https://arxiv.org/abs/2605.00526

  • 血管画像における学習されたボクセル単位方向ベクトルからの血管グラフ再構築:Vesselpose [cs.CV, cs.LG]目的:3D血管画像からの,より正確な血管グラフの抽出
    • 医療画像解析において,血管のセグメンテーションとトレーシングは不可欠である。
    • 従来の「セグメンテーション後修正」パラダイムは,完全かつ正確な血管ネットワーク再構築には限界がある。
    • 血管グラフのトポロジー的精度向上を目指し,偽の分岐や合流を抑制すること。
    • 提案手法は,3つのベンチマークデータセットにおいて最先端の性能を達成した。
    • 特に,困難なラット心臓のマイクロCTスキャンにも適用可能であることを示した。
    • 血管グラフのトポロジー誤差を定量化する指標(偽の分岐・合流)を提案した。

    Link: https://arxiv.org/abs/2605.00538

  • カラフルノイズ:色に基づいた条件付き画像生成のためのトレーニング不要な低周波ノイズ操作 [cs.CV, cs.GR]目的:拡散モデルにおける低周波ノイズ操作による画像生成制御
    • 画像生成AIの発展は,多様なコンテンツ作成を可能にする。より高度な制御が求められている。
    • 拡散モデルのノイズは解釈が難しく,特定の視覚的特徴の制御が困難である。
    • 低周波ノイズ操作により,画像全体の構造と色を制御し,生成過程を改善する。
    • 低周波ノイズ成分が画像全体の構造と色構成を主に決定することが示された。
    • 低周波画像事前知識を用いたノイズ操作が,画像生成の条件付けに有効であることが確認された。
    • トレーニング不要で,画像全体の構造と色を制御しつつ,高周波成分による多様性を維持できる。

    Link: https://arxiv.org/abs/2605.00548

  • 深度情報に基づくプライバシー保護視覚測位のための3D球面クラウド [cs.IR, cs.CV]目的:プライバシー保護視覚測位における新たなシーン表現と測位フレームワーク
    • 視覚測位は,ロボットやAR/VRなどの応用において重要であり,高精度な位置推定が求められる。
    • プライベートマップを用いる視覚測位では,詳細なシーン情報を抽出する深層学習技術により,プライバシー侵害のリスクが存在する。
    • 密度ベース攻撃に対する脆弱性を克服し,プライバシー保護と高精度測位を両立する手法を開発する。
    • 本研究では,点群を3D球面クラウドに変換することで,密度ベース攻撃を効果的に抑制することを示した。
    • 新たな攻撃への対策として,クラウド構築戦略を提案し,ToFセンサーからの深度情報を活用した測位フレームワークを開発した。
    • 提案手法は,既存の深度情報に基づく測位手法と同等の精度と実行速度を維持しつつ,高いプライバシー保護性能を実現する。

    Link: https://arxiv.org/abs/2605.00562

  • 2D-SuGaR:表面を考慮したガウススプラッティングによる幾何学的に正確なメッシュ再構成 [cs.CV, cs.GR]目的:幾何学的に正確なメッシュ再構成
    • 3Dコンテンツの生成・編集において,高品質なメッシュモデルは不可欠である。
    • 従来の3Dガウススプラッティングは表面形状の正確な捕捉に限界があった。
    • 2Dガウススプラッティングの初期化依存性を改善し,ロバスト性を高める。
    • 提案手法は単眼深度と法線情報を活用し,ガウスの初期化戦略を改善した。
    • 退化したガウスの除去にクラスタリングベースの手法を導入することで,精度向上を実現した。
    • DTUデータセットにおいて,メッシュ再構成の最先端の結果を達成し,高品質な新規視点合成を維持した。

    Link: https://arxiv.org/abs/2605.00569

  • ガウス混合特徴量アラインメントとカリキュラム統合によるホールスライド画像に対する連合蒸留 [cs.HC, cs.CV]目的:ホールスライド画像解析のための連合学習フレームワーク
    • 病理診断の精度向上には,多数の症例データに基づく学習が不可欠である。
    • 各機関のデータセットやモデル構造の不均一性が,連合学習の課題となっている。
    • 異なる機関間での特徴量表現のずれを解消し,協調的な学習を実現すること。
    • 提案手法FedHDは,ガウス混合特徴量アラインメントにより,機関間の特徴量分布の差異を効果的に軽減する。
    • 合成特徴量を用いた蒸留戦略により,プライバシーを保護しつつ,診断能力の向上に寄与する。
    • カリキュラム学習の導入により,学習の安定性と効率性を高め,既存手法を上回る性能を達成した。

    Link: https://arxiv.org/abs/2605.00578

  • 視覚モダリティを通じた視覚言語モデルの脱獄 [cs.CV, cs.AI, cs.LG]目的:視覚言語モデルの安全対策を回避する攻撃手法の検証
    • 視覚言語モデルは多岐にわたる応用が期待される一方,その安全性確保が重要課題となっている。
    • 既存の安全対策は主にテキスト入力に焦点を当てており,視覚情報の脆弱性が看過されている。
    • 本研究は,視覚モダリティを介した安全対策回避の可能性を検証し,そのメカニズムを解明することを試みる。
    • 視覚モダリティを利用した攻撃手法によって,最先端の視覚言語モデルの安全対策を回避できることが示された。
    • テキストのみの攻撃手法と比較して,視覚的な暗号化による攻撃成功率が大幅に向上した(Claude-Haiku-4.5で40.9% vs 10.7%)。
    • 視覚情報の安全対策は,テキスト情報の対策とは独立して行う必要性を示唆する。

    Link: https://arxiv.org/abs/2605.00583

  • ビジョン言語モデルにおけるラベルノイズに対するプロンプトチューニングの内在的勾配抑制 [cs.CV]目的:ラベルノイズに対するプロンプトチューニングの頑健性向上
    • CLIPのようなビジョン言語モデルはゼロショット学習で高い性能を示すため,その適応方法が重要である。
    • プロンプトチューニングはラベルノイズに弱く,誤ったラベルが大きな勾配を生み出し,事前学習済みの知識を損なう。
    • 本研究は,ノイズの影響を抑制し,プロンプトチューニングの安定性と性能を向上させることを目指す。
    • Double-Softmax Prompt Tuning (DSPT)は,追加のハイパーパラメータなしで勾配を抑制し,ノイズの影響を軽減する。
    • DSPTは,確率的正規化により,高エラーのノイズサンプルからの勾配を自己適応的に抑制する飽和領域を誘導する。
    • 実験の結果,DSPTは様々なノイズベンチマークにおいて最先端の頑健性を達成し,複雑なアーキテクチャを持つ手法を上回る。

    Link: https://arxiv.org/abs/2605.00591

  • オブジェクトレベルV2Xのロバストな融合による学習3Dオブジェクト検出 [cs.NI, cs.CV, cs.RO]目的:3Dオブジェクト検出におけるV2X情報の統合と,そのロバスト性の評価
    • 自動運転の認知は,カメラやレーダー等のセンサーに依存。コスト効率が良い反面,視線や視野角に制限がある。
    • オンボードセンサーだけでは,遮蔽物や悪天候下で認知が失敗する可能性がある。V2X通信の信頼性も課題。
    • 現実的なV2X環境下での性能劣化を抑制し,ロバストな3Dオブジェクト検出を実現することを目指す。
    • オブジェクトレベルのV2X情報は検出性能を大幅に向上させる。好条件下のNDSは0.80を達成する。
    • 理想的なデータで学習したモデルはV2Xに過度に依存し,ノイズに弱いという課題が明らかになった。
    • 提案するノイズ対応学習戦略と確信度エンコーディングにより,ノイズやV2X浸透率低下下でも性能を維持した。

    Link: https://arxiv.org/abs/2605.00595

  • 深層学習における可能性的予測不確実性 [cs.IR, cs.LG, cs.AI, cs.CV]目的:深層学習モデルの予測不確実性のモデリング
    • 深層学習は多様な応用で高い成果を上げる一方,未知の入力に対する過信が課題である。
    • 既存の不確実性モデリング手法は,ベイズ法の計算コストや,効率的な手法の理論的根拠の欠如に悩む。
    • 可能性理論に基づき,計算効率と理論的根拠を両立した不確実性モデリング手法を開発する。
    • 提案手法DAPPrは,ディリクレ分布を用いた可能性的事後予測により,不確実性を定量化する。
    • DAPPrは,既存のエビデンス深層学習手法と同等以上の性能を,計算効率良く達成する。
    • 本研究により,深層学習モデルの信頼性向上に貢献する。

    Link: https://arxiv.org/abs/2605.00600

  • 学習可能な可逆変換と意味的事前知識を用いた忠実な極端な画像リサイズ [cs.CV]目的:極端な画像リサイズの忠実度向上
    • 画像処理において,解像度の変換は重要な課題であり,高画質化技術の需要は高い。
    • 大きなスケーリングファクターでのリサイズは,低解像度から高解像度への写像が不安定になりやすく,構造や詳細が失われる。
    • 意味的情報を活用し,可逆的な変換を行うことで,リサイズの際の情報の損失を抑制し,高画質化を実現する。
    • 本研究では,拡散モデルを基盤とするFaithEIRを提案し,学習可能な可逆変換と適応的な詳細事前知識を用いることで,既存手法を上回る結果を達成した。
    • 提案手法は,潜在空間での可逆的なダウン/アップスケーリングを可能にし,情報の損失を補償する。
    • 実験結果から,FaithEIRが再構成の忠実度と知覚的な品質の両方において優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2605.00605

  • CMTA:汎用的なAI生成動画検出のためのクロスモーダル時間的アーティファクトの活用 [cs.DB, cs.CL, cs.CV, cs.MM, eess.IV]目的:AI生成動画の検出
    • 高度なAI動画合成技術の発展により,デジタル動画の真正性に疑念が生じる場面が増加している。
    • 既存手法は単一のモダリティや時空間的アーティファクトに焦点を当てており,視覚とテキスト間のクロスモーダル空間の情報を十分に活用できていない。
    • AI生成動画特有のクロスモーダル時間的アーティファクト(CMTA)を検出し,汎化性能の高い検出手法を開発する。
    • 本研究では,AI生成動画に特有なクロスモーダル時間的アーティファクト(CMTA)を特定し,その特徴を捉えるフレームワークを提案した。
    • 提案手法CMTAは,BLIPとCLIPを用いて視覚とテキストの表現を抽出し,GRUとTransformerを用いて時間的な変動をモデル化した。
    • 4つの大規模データセットにおける実験により,既存手法を上回る性能と,生成モデルに対する優れた汎化性能が確認された。

    Link: https://arxiv.org/abs/2605.00630

  • BlenderRAG:検索拡張コード合成による高精度3Dオブジェクト生成 [cs.CL, cs.IR, cs.CV, cs.AI, cs.GR, cs.HC, cs.LG]目的:3Dオブジェクトの生成
    • 3Dコンテンツ制作の自動化が求められており,効率化に繋がる技術が重要である。
    • 大規模言語モデルによるBlenderコード生成は,構文エラーや形状の一貫性の問題がある。
    • 検索拡張生成により,高品質な3Dオブジェクト生成を,追加学習なく実現すること。
    • BlenderRAGは,500件の専門家検証済みデータセットを活用し,類似例を検索することでコード生成精度を向上させた。
    • コンパイル成功率が40.8%から70.0%に,セマンティック整合性(CLIP類似度)が0.41から0.77に改善された。
    • ファインチューニングや特殊なハードウェアを必要とせず,容易に導入可能である。

    Link: https://arxiv.org/abs/2605.00632

  • ペアードCSLiDAR: 航空機搭載型LiDARと地上型LiDARの交差ソース位置合わせによる姿勢精密化 [cs.RO, cs.CV]目的:航空機搭載型LiDARと地上型LiDARデータを組み合わせた姿勢精密化のためのベンチマークと手法
    • 航空機搭載型LiDARと地上型LiDARは,都市モデリングや災害評価など,幅広い分野で活用されている。
    • 異なるソースのLiDARデータを正確に位置合わせることは困難であり,精度向上が課題である。
    • 本研究では,航空機搭載型と地上型のLiDARデータ間の位置合わせ精度を向上させることを目指す。
    • 提案手法RGSRは,主要なベンチマークにおいて高い精度を示し,既存手法を上回る結果を得た。
    • 高さ層化ICPや登録方向の反転,信頼度に基づいた選択などの工夫により,位置合わせの精度を向上させている。
    • RMSEに基づく姿勢選択の妥当性も検証され,データセットとコードの公開が予定されている。

    Link: https://arxiv.org/abs/2605.00634

  • 自分自身からクリック箇所を学習:GUIグラウンディングのためのオンポリシー自己蒸留 [cs.AI, cs.CV]目的:GUIグラウンディングにおける自己蒸留の適用可能性の検証
    • GUIグラウンディングは,GUI自動化エージェントの中核技術であり,自然言語指示に基づいたGUI操作を実現する。
    • 既存の強化学習手法は,多数回のロールアウトが必要で,難しいサンプルに対する報酬が希薄であるという課題がある。
    • 本研究は,単一ロールアウトで密な教師信号を提供する自己蒸留をGUIグラウンディングに適用し,効率性と精度を向上させる。
    • 提案手法GUI-SDは,ターゲットバウンディングボックスとガウスソフトマスクを用いた視覚的に豊かな教師コンテキストを構築することで,効果的な指導を実現した。
    • エントロピーに基づく蒸留により,重要なトークンへの最適化を集中させ,信頼性の高い位置情報の学習を促進した。
    • 6つのベンチマークにおける実験により,GUI-SDは既存手法を精度と学習効率の両面で上回ることが示された。

    Link: https://arxiv.org/abs/2605.00642

  • 拡散事前分布を用いた汎用ビデオ生成のための統一マルチモーダルフレームワーク UniVidX [cs.CV]目的:多様なマルチモーダルグラフィックス課題に対する汎用ビデオ生成
    • ビデオ生成技術は,コンピュータビジョンやグラフィックス分野において重要性が増している。
    • 既存手法はタスクごとに個別のモデルを学習するため,モダリティ間の相関のモデリングが制限されている。
    • UniVidXは,ビデオ拡散モデルの事前分布を活用し,モダリティ間の整合性を高めることでこの問題を解決する。
    • UniVidXは,RGBビデオとイントリンシックマップ(反射率,照射率,法線)の生成において,最先端の手法と同等の性能を達成した。
    • RGBビデオとRGBAレイヤーの生成においても同様に高い性能を示し,未知のデータに対する頑健な汎化能力を実証した。
    • わずか1,000件以下のビデオで学習されたにもかかわらず,様々なタスクで競争力のある結果が得られた。

    Link: https://arxiv.org/abs/2605.00658

  • アフォードンスエージェントハーネス:検証ゲートによるスキルオーケストレーション [cs.RO, cs.CV]目的:アフォードンスの認識と制御におけるスキルオーケストレーションの改善
    • ロボットが現実世界で活動するには,周囲の環境を理解し,適切な行動を選択する必要がある。
    • 既存システムは固定されたパイプラインに依存しており,状況の変化への対応やエラーからの回復が困難である。
    • エビデンスの信頼性を評価し,コストを抑えつつ,適切なスキルを選択・実行することを目指す。
    • アフォードンスエージェントハーネスは,異種スキルを統合し,エビデンスストアとコスト制御を組み合わせることで,柔軟なスキルオーケストレーションを実現した。
    • 過去の経験を想起し,検証器を用いてエビデンスの信頼性を評価することで,精度の高いアフォードンス認識と制御を可能にした。
    • 複数のベンチマークテストにおいて,既存手法と比較して,精度とコストのバランスが改善されたことが示された。

    Link: https://arxiv.org/abs/2605.00663

  • 初期ノイズ最適化による構造化3D潜在空間のインペイント [cs.CV, cs.AI]目的:構造化3D潜在拡散モデルにおける初期ノイズの最適化
    • 3Dコンテンツ生成の重要性が増す中,高品質な3Dモデルの編集・補完技術が求められている。
    • 既存の3D潜在拡散モデルは,初期ノイズに敏感であり,インペイントなどのタスクで安定性に課題がある。
    • 初期ノイズを最適化することで,既存の文脈との整合性を保ちつつ,高精度な3Dインペイントを実現すること。
    • 提案手法は,初期ノイズを最適化することで,構造化3D潜在拡散モデルにおける3Dインペイントの品質を向上させた。
    • 文脈の一貫性とプロンプトへの適合性が,既存の学習不要インペイント手法と比較して一貫して改善された。
    • 初期ノイズ制御は,従来のサンプリング軌跡操作とは独立した,3Dインペイントのための重要な要素であることが示された。

    Link: https://arxiv.org/abs/2605.00664

  • 深層学習による網膜画像からのアルツハイマー病リスク因子の予測:UK Biobankにおける生物学的に関連性の高い形態的関連性の開発と検証 [cs.CV]目的:アルツハイマー病関連リスク因子の予測
    • アルツハイマー病は,世界的な健康問題であり,早期発見と予防が重要である。
    • アルツハイマー病のリスク因子と網膜構造の関連性は未解明な点が多い。
    • 網膜画像を用いてアルツハイマー病リスク因子を予測し,早期診断に貢献することを目指す。
    • 深層学習モデルは,アルツハイマー病関連リスク因子の予測において,既存の形態計測・機械学習モデルを上回る性能を示した。
    • モデルの注目領域は,生物学的に意味のある網膜領域(視神経乳頭や網膜血管)を特定し,形態計測との整合性も確認された。
    • アルツハイマー病患者と健常者間において,注目領域に基づくスコアに有意な差が見られ,潜在的なバイオマーカーとしての可能性が示唆された。

    Link: https://arxiv.org/abs/2605.00665

  • DMDSC:医療画像データセットにおけるオープンセット認識のための動的マージン深単体分類器 [cs.CL, cs.CV]目的:医療画像データセットにおけるオープンセット認識のための動的マージン深単体分類器の開発
    • 医療画像分析は,病気の早期発見や診断精度向上に不可欠であり,臨床応用が期待されている。
    • 医療画像データは,希少疾患のデータ数が少なく,クラス不均衡が深刻な課題となっている。
    • クラス不均衡に対処し,未知のサンプルを正確に識別するオープンセット認識の性能向上を目指す。
    • 提案手法DMDSCは,ラベル頻度に基づきクラスごとのマージンを動的に調整することで,希少疾患に対する識別能力を向上させる。
    • BloodMNIST,OCTMNIST,DermaMNIST,BreaKHisの多様な医療画像ベンチマークデータセットで,既存手法を上回る性能を実証した。
    • ニューラル崩壊を活用し,クラス間分離を最大化することで,未知サンプルに対する信頼性の高い識別を実現する。

    Link: https://arxiv.org/abs/2605.00675

  • PACE衛星データからのエアロゾル光学的厚さ推定のための基盤AIモデル [cs.CV]目的:エアロゾル光学的厚さの推定
    • 地球観測において不可欠であり,大気質モニタリングや気候変動研究を支援する。
    • 従来の物理モデルは計算コストが高く,データ駆動型アプローチは空間一貫性に課題がある。
    • 空間スペクトルの一貫性を活用し,バイアスと誤差を低減した推定手法を開発する。
    • 提案手法ViTCGは,既存の基盤AIモデルと比較して,平均二乗誤差を62%削減した。
    • ViTCGは,ハイパースペクトルデータを入力とし,空間的文脈とスペクトル情報を共同でモデル化する。
    • PACE衛星の観測データを用いた検証により,空間的に一貫性のあるエアロゾル光学的厚さ場を生成できることが示された。

    Link: https://arxiv.org/abs/2605.00678

  • 時間的ビデオグラウンディングのための静的・動的グラフアラインメントネットワーク [eess.SY, cs.SY, cs.CV]目的:時間的ビデオグラウンディングにおける,自然言語クエリに対応するビデオ内の時間的瞬間局在化
    • ビデオ理解の高度化に不可欠であり,人間と機械のインタラクションを円滑にする上で重要である。
    • 既存手法では,視覚表現の不完全性やクエリに依存しない特徴抽出が課題となっていた。
    • 静的・動的特徴を融合し,クエリを考慮したグラフ構造を構築することで,局在化精度向上を目指す。
    • 提案手法SDGANは,静的特徴と動的特徴を組み合わせた二つの補完的な時間的グラフを構築し,位置ごとのノードアラインメントを行うことで,より表現力豊かな視覚表現を獲得した。
    • クエリとビデオクリップ間のコントラスト学習と適応グラフモデリングを導入することで,クエリを意識した視覚表現を生成することに成功した。
    • マルチ粒度な時間的提案と段階的な易し難易トレーニング戦略を組み込むことで,粗視点な局在化と微細な境界線洗練を効果的に両立させた。

    Link: https://arxiv.org/abs/2605.00684

  • PhysEdit:適応的空間・時間推論による物理的に整合性のある領域認識画像編集 [cs.CL, cs.CL, cs.CV]目的:物理的に整合性のある画像編集手法の開発
    • 画像編集技術は,多様な応用分野で不可欠であり,その精度と効率が求められている。
    • 既存の画像編集手法は,指示の種類に関わらず固定的な推論プロセスを用いるため,柔軟性に欠ける。
    • 本研究は,空間と時間の両軸での適応性を導入することで,画像編集の効率と精度を向上させることを目指す。
    • PhysEditは,編集指示と参照画像から編集の複雑さを予測し,推論ステップ数とトークン長を動的に調整することで,処理速度を向上させた。
    • ImgEdit Basic-Edit Suiteにおいて,PhysEditは既存のベースラインと比較して1.18倍の処理速度向上と,わずかな指示遵守率の改善を示した。
    • 特に外観レベルの編集において1.52倍の速度向上が確認され,適応的なリソース配分が効率化の主要因であることが示された。

    Link: https://arxiv.org/abs/2605.00707

  • ノイズのある階層的ラベル下での変形性関節症の特徴表現の粗から細への学習 [cs.CV]目的:変形性関節症の粗い二値分類と,詳細なKellgren-Lawrence (KL) 重症度分類に基づく特徴表現の学習
    • 変形性関節症の評価は,患者のQOLに大きな影響を与えるため,正確な診断と重症度評価が重要である。
    • 既存研究では,粗いラベルと詳細なラベルを別々の問題として扱っており,臨床的な階層構造を十分に活用できていない。
    • 臨床的な階層構造を特徴表現の学習に活用し,より正確な診断と重症度評価を目指す。
    • 二重ヘッドモデルによる学習は,バックボーンに依存した改善を示し,一部のバックボーンではKL関連指標が向上した。
    • 学習された特徴表現は,粗から細へのより秩序だった組織化を示し,応答性の高いバックボーンでは軟骨領域とのサルイエンシーの解剖学的整合性が強化された。
    • 単純な二重ヘッドによる階層的学習は,ノイズのある粗/詳細ラベル下で疾患表現を再構築する有用な誘導バイアスを提供する。

    Link: https://arxiv.org/abs/2605.00718

  • 報酬誘導型自己強化学習戦略によるペアなし画像雨除去 [cs.CV]目的:ペアなし画像雨除去の性能向上
    • 現実世界の雨の分布を学習できるペアなし画像雨除去は,その実用性から重要性が増している。
    • ペアなし学習では,強い制約がないため,特に多様な雨の劣化パターン下で学習が収束しにくい。
    • 学習中に時折出現する高品質な雨除去結果を活用し,最適化プロセスを誘導することで問題を解決する。
    • 提案手法RGSUDは,画像品質評価に基づく動的な報酬リサイクルと自己強化学習の2段階で構成される。
    • 報酬リサイクルにより,訓練中に最適な雨除去結果を選択し,高品質な画像を継続的に収集する。
    • 実験結果から,RGSUDは既存のペアなし画像雨除去手法を上回り,SOTA性能を達成することが示された。

    Link: https://arxiv.org/abs/2605.00719

  • 生成的なインパルス応答の拡張による話者距離推定の精度向上 [cs.SD, cs.AI, eess.AS, eess.SP]目的:話者距離推定モデルの性能向上
    • 音響空間における音源の位置特定は,様々な応用で重要である。
    • 話者距離推定において,データ不足が精度向上の課題となる。
    • データ拡張により,少ないデータでも高い精度を目指す。
    • 提案手法により,GWA環境での平均絶対誤差が1.66mから0.6mに減少した。
    • 同様に,Treble環境でも2.18mから0.69mへと大幅な改善が見られた。
    • 特に中距離から長距離における推定精度が向上したことが示された。

    Link: https://arxiv.org/abs/2605.00721

  • 単一点教師あり赤外線微小ターゲット検出のためのエンドツーエンド特徴親和性伝播の限界探求 [cs.CV]目的:単一点教師あり赤外線微小ターゲット検出における限界の調査
    • 赤外線微小ターゲット検出は,軍事,監視,救助など,幅広い分野で重要である。
    • 従来の教師あり学習は,大量のアノテーションコストを必要とするため,実用上の課題がある。
    • 本研究は,外部のラベル進化ループなしに,コンパクトなエンドツーエンド設計で誤検出を抑制することを目指す。
    • GSACP-FinalはSIRST3データセットにおいて,高い競争力を持つmIoU 0.6674を達成した。
    • PALと比較して,誤検出アーティファクトを相対的に38%削減することに成功した。
    • 本研究は,バッチ内特徴伝播が誤検出抑制が重要な展開シナリオにおいて,コンパクトな代替手段となることを示した。

    Link: https://arxiv.org/abs/2605.00722

  • ソベルカーネルを用いた量子勾配ベースのエッジ・コーナー検出手法 [cs.CV, eess.IV]目的:エッジおよびコーナーの検出
    • 画像処理は,コンピュータビジョンの中核技術であり,様々な応用分野で不可欠である。
    • 古典的なエッジ・コーナー検出は計算コストが高く,リアルタイム処理が課題となる場合がある。
    • 量子計算の原理を利用し,エッジ・コーナー検出の効率化を目指す。
    • 提案手法は,古典的なソベルおよびハリス演算子と同等の結果を生成する。
    • QPIEベースの構成は,FRQIベースの構成よりも安定した結果を示す。
    • 本研究は,量子計算による古典的なエッジ・コーナー検出の実現可能性を示す。

    Link: https://arxiv.org/abs/2605.00744

  • 人間の視線を用いた都市主観知覚のモデル化 [cs.CV, cs.HC]目的:都市主観知覚のモデル化
    • 都市の経験や理解を形成する上で,都市主観知覚の理解は不可欠である。
    • 既存の研究では,視点画像から直接知覚をモデル化しており,人間の知覚プロセスが考慮されていない。
    • 人間の視線行動が都市主観知覚のモデル化にどのように貢献するかを明らかにすること。
    • 人間の視線データのみでも,都市主観知覚の予測に有用な情報が含まれることが示された。
    • 視線とシーン表現を組み合わせることで,予測精度がさらに向上することが確認された。
    • 都市シーン理解において,人間の知覚プロセスを組み込むことの重要性が強調された。

    Link: https://arxiv.org/abs/2605.00764

  • 言語敵対的話者エンコーディング:インド文字間スクリプトにおける話者同一性保持 [cs.SD, cs.CL, eess.AS]目的:多言語音声クローニングにおける話者エンコーダの性能向上
    • 多言語音声合成技術の発展は,グローバルコミュニケーションの促進に不可欠である。
    • 既存の話者エンコーダは,使用スクリプトによって話者認識にばらつきが生じる場合がある。
    • 異なるスクリプト間での話者同一性をより正確に保持するエンコーダの開発が求められている。
    • 提案手法LASEは,凍結されたWavLM-base-plusを基盤とし,言語非依存な話者表現を獲得する。
    • LASEは,西洋アクセントとインドアクセントのデータセットの両方で,既存手法と比較して話者同一性保持性能を改善した。
    • 合成マルチスピーカー対話分析において,LASEはECAPA-TDNNと同等の性能を示し,大幅に少ない学習データで実現した。

    Link: https://arxiv.org/abs/2605.00777

  • Map2World:セグメントマップに基づく3Dワールド生成 [cs.CV]目的:ユーザー定義のセグメントマップに条件付けられた3Dワールド生成
    • 没入型コンテンツや自動運転シミュレーションなど,3Dワールド生成は不可欠な技術である。
    • 既存手法はグリッドレイアウトに制約され,ワールド全体のオブジェクトスケールに一貫性がないという課題がある。
    • 任意の形状とスケールのセグメントマップによる3Dワールド生成を可能にし,グローバルスケールの一貫性と柔軟性を実現する。
    • 本手法は,ユーザー制御性,スケールの一貫性,コンテンツのコヒーレンスにおいて既存手法を大きく上回る。
    • 詳細エンハンサーネットワークにより,シーン全体の整合性を損なうことなく,細部の詳細を追加できる。
    • アセットジェネレーターからの強力な事前知識を活用することで,限られた学習データでも多様なドメインへの頑健な汎化が可能となる。

    Link: https://arxiv.org/abs/2605.00781

  • LVLMのKVキャッシュをより軽量化する [cs.CV, cs.AI, cs.LG]目的:大規模ビジョン言語モデルにおけるKVキャッシュのサイズ削減
    • 大規模言語モデルの効率的な推論にはKVキャッシュが不可欠であり,近年ビジョン言語モデルにも応用が広がっている。
    • ビジョン言語モデルでは,大量の視覚トークンを扱うため,KVキャッシュのサイズがGPUメモリの大きな負担となっている。
    • 視覚トークン埋め込み間の冗長性を利用し,テキストプロンプトに基づいて情報を集約・圧縮することで,KVキャッシュのサイズを削減する。
    • LightKVは,元の視覚トークンの55%でKVキャッシュサイズを半分に削減することに成功した。
    • 計算量を最大40%削減し,既存のベースラインと比較して著しく性能を向上させた。
    • 汎用的な性能を維持しつつ,視覚トークンKVキャッシュのサイズを効率的に削減する手法である。

    Link: https://arxiv.org/abs/2605.00789

  • GMGaze:CLIPとマルチスケールTransformerを用いた文脈認識型視線推定 [cs.CV]目的:視線推定の精度向上
    • 視線推定は,人間とコンピュータの自然なインタラクションや行動分析において重要な役割を担う。
    • 従来のCNNやTransformerを用いた手法では,特徴量の統合方法や計算資源の効率性に課題があった。
    • 本研究は,文脈情報を効率的に利用し,大規模データでも高精度な視線推定を実現することを目指す。
    • 提案手法GMGazeは,マルチスケールTransformerアーキテクチャとCLIP埋込みを活用し,多様な文脈情報を統合する。
    • 学習データに依存しない特徴表現を獲得するため,敵対的ドメイン適応技術を導入し,ドメイン間の汎化性能を高めている。
    • 4つの公開データセットにおいて,既存手法を凌駕する性能を示し,特にクロスドメイン評価で最先端の結果を達成した。

    Link: https://arxiv.org/abs/2605.00799

  • ViTに語らせる:生成言語画像事前学習 [cs.HC, cs.CV]目的:Vision Transformer (ViT) の生成言語画像事前学習フレームワーク
    • マルチモーダル大規模言語モデルの性能向上には,優れた視覚エンコーダーが不可欠である。
    • 従来の視覚エンコーダーは,対照学習や追加のテキストデコーダーを必要とし,複雑になりがちである。
    • ViTを直接言語トークンを予測するように学習させ,簡素でスケーラブルなフレームワークを構築すること。
    • GenLIPは,視覚トークンから言語トークンを直接予測することで,ViTと大規模言語モデルの整合性を高める。
    • 単一のTransformerで視覚とテキストのトークンを共同でモデル化し,シンプルさとスケーラビリティを実現した。
    • Recap-DataComp-1Bで80億サンプルで学習したGenLIPは,少ない事前学習データでも優れた性能を発揮した。

    Link: https://arxiv.org/abs/2605.00809

  • 持続的な視覚記憶:LVLMにおける深層生成のための知覚の維持 [cs.CV, cs.AI]目的:LVLMにおける深層生成時の視覚知覚維持機構
    • 大規模な視覚言語モデルはマルチモーダルタスクで高い性能を示すが,長文生成時に視覚情報が希薄化しやすい。
    • 生成されるテキストの長さが伸びるほど,視覚への注意が減衰し,精度低下を招くという課題がある。
    • 生成長に依存しない視覚情報の持続的な参照を可能にし,視覚信号の減衰を抑制することを目指す。
    • 提案手法PVMは,LVLMに軽量な学習モジュールとして組み込むことで,視覚情報の持続的な知覚を可能にする。
    • 実験結果から,PVMはパラメータ増加を最小限に抑えつつ,Qwen3-VLモデルにおいて,4Bおよび8Bスケールで顕著な精度向上を示すことが確認された。
    • 特に,持続的な視覚知覚が求められる複雑な推論タスクにおいて,PVMは信号減衰を抑制し,内部予測の収束を加速する。

    Link: https://arxiv.org/abs/2605.00814

  • 事後拡張フローマッチング [cs.MM, cs.CV]目的:高次元画像生成におけるフローマッチングの汎化性能向上
    • 生成モデルの学習において,データ分布の複雑さを捉えることが重要であり,フローマッチングはそのための有力な手法である。
    • 高次元データにおいて,フローマッチングは学習信号が希薄であり,勾配分散が大きいという課題がある。
    • 事後分布に基づくターゲット候補の混合により,学習信号の分散を低減し,汎化性能を向上させる。
    • 提案手法であるPAFMは,事後拡張によりFMの目的関数をバイアスなく推定し,勾配分散を大幅に低減する。
    • ImageNetおよびCC12Mのベンチマークにおいて,PAFMはFID50Kスコアを最大3.4ポイント改善した。
    • 計算コストの増加はわずかであり,SiTやMMDiTなど様々なモデルと組み合わせ可能である。

    Link: https://arxiv.org/abs/2605.00825

  • TimeRFT:強化学習による時系列予測モデルの汎化性能向上 [eess.SP, cs.AI, cs.CV, cs.LG]目的:時系列予測モデルの汎化性能向上
    • 時系列データは様々な分野で利用され,その予測精度は重要な課題である。
    • 既存のファインチューニング手法は過学習しやすく,予測性能が低下する可能性がある。
    • 分布シフトやデータ量の変化に対応できる汎化性能の高いモデルを開発すること。
    • TimeRFTは,予測品質に基づく報酬メカニズムと予測困難度に基づくデータ選択戦略を用いる。
    • 実験結果から,TimeRFTは既存のファインチューニング手法よりも高い予測精度と汎化性能を示す。
    • 特に,未知の分布シフトに対するロバスト性が向上することが確認された。

    Link: https://arxiv.org/abs/2605.00015

  • 計算ミラーによるブロードバンド広視野角イメージング [eess.IV, cs.CV, physics.optics]目的:ブロードバンドな可視・短波赤外線領域における高解像度,広視野角イメージング手法
    • 可視・短波赤外線センサーの出現により,幅広い波長での画像取得が期待される。
    • 従来の光学系では,広範囲な波長を同時に焦点合わせすることが困難である。
    • 計算ミラーを用いて,球面収差や歪曲収差を補正し,高画質化を目指す。
    • 提案手法SeidelConvは,凹面ミラー特有の収差を正確にモデル化・補正する。
    • 50mm F/1システムと100mm F/2システムで,RGB,近赤外線,短波赤外線領域でシャープな画像が得られた。
    • 個々の波長では見えにくい素材の詳細を可視化し,新たな応用への道を開く。

    Link: https://arxiv.org/abs/2605.00029

  • LTIシステムのモラルハザード:仮説検定によるアプローチ [math.OC, cs.GT, cs.SY, eess.SY]目的:制御システムにおけるモラルハザードの緩和策設計
    • 効率や努力が観察できない情報非対称性は,インセンティブ設計において重要な課題である。
    • 制御システムにおける情報非対称性を考慮したインセンティブ設計の研究は十分に進んでいない。
    • リスク回避的な主体が最適な制御則を選択するように,支払計画を設計することを試みる。
    • 最適な支払計画は,固定された期間後の支払額を尤度比仮説検定を用いて決定される。
    • 電力系統の周波数制御や体重減少のための介入といった具体的な例で数値的な検証を行った。
    • 提案する手法は,リスク回避的な主体がシステム状態と割引支払額の合計コストを最小化する制御則を選択するインセンティブを与える。

    Link: https://arxiv.org/abs/2605.00158

  • 鳥のさえずりからうなり声まで:異種埋め込みによるゾウの鳴き声の分類 [eess.AS, cs.LG, cs.SD, q-bio.QM]目的:ゾウの鳴き声の分類
    • 生物音響学研究は,動物行動や生態系の理解に不可欠である。音声データの活用が重要となる。
    • 生物音響データのアノテーションはコストが高く,データ不足が分類器の性能低下を招きやすい。
    • アノテーション不要な埋め込みモデルを用いて,汎用性の高いゾウの鳴き声分類を目指す。
    • 事前学習済みの音響埋め込みモデルは,エンドツーエンドの教師あり学習ネットワークに匹敵する分類精度を達成した。
    • 特にPerch 2.0は,アフリカゾウとアジアゾウの鳴き声分類においてそれぞれ0.849と0.936のAUCスコアを記録した。
    • wav2vec2.0とHuBERTの中間層表現が有効であり,パラメータ数を削減しつつ高い分類性能を維持できることが示された。

    Link: https://arxiv.org/abs/2605.00225