arXiv雑要約

画像・音声 - 2026/05/04 公開

圧縮CTからの学習：特徴注意スタイル転移と構造化因数分解射影によるリソース効率な医用画像解析 [cs.CV, eess.IV]目的：リソース制約下における医用画像解析
- 医療画像におけるAI活用は診断精度向上に不可欠であり，その重要性は増している。
- 非圧縮ボリュームデータの処理には高い計算コストが必要であり，実用上の制約となっている。
- 圧縮CT画像を用い，計算コストを抑えつつ，診断精度を可能な限り維持することを目指す。
- 提案手法CT-Liteは，圧縮CT画像に対して，非圧縮画像と同等の性能にほぼ匹敵するAUROCを達成した。
- 特徴注意スタイル転移（FAST）と構造化因数分解射影（SFP）を組み合わせることで，パラメータ数を削減し，計算効率を向上させた。
- CT-Liteは，リソースに制約のある環境下でのAI活用を促進し，臨床評価への道を開く。
Link: https://arxiv.org/abs/2605.00448
局所から大域，そしてメカニズムへ：iERFを中心としたビジョンモデル解釈の統一的フレームワーク [cs.CV]目的：ビジョンモデルの解釈に関する統一的フレームワーク
- 深層学習モデルの性能向上に伴い，その意思決定過程の解明が不可欠となっている。
- 既存の手法では，局所的，大域的，メカニズム的な解釈が分断されており，一貫性に欠ける。
- iERFを用いて，ピクセルから概念，そして決定に至る過程を首尾一貫して説明することを目指す。
- 提案手法は，SRDとCAFE，ICATという３つのモジュールで構成され，多様な視点から解釈を提供する。
- 実験の結果，ResNet50，VGG16，ViTにおいて，既存手法よりも高い精度とロバスト性を示すことが確認された。
- 特に，分散表現を持つSAEの特徴量や，Transformerにおける文脈の混合といった課題に対して有効であることが示された。
Link: https://arxiv.org/abs/2605.00474
MSACT：安定した低遅延精密操作のための多段階空間アライメント [cs.RO, cs.CV]目的：安定した低遅延精密操作を実現するための多段階空間アライメント手法
- 現実世界の精密操作は，特に両手操作において，低遅延性と安定した視覚定位が不可欠である。
- 大規模データの収集コストが高く，限られたデモンストレーションでは定位のドリフトが発生しやすい。
- 限られたデータでもドリフトを抑制し，視覚と行動の間のマッピングの安定性を向上させることを目指す。
- 提案手法は，タスクに関連する2次元注意点を抽出し，時間的アライメント損失を用いて将来の注意点シーケンスを予測する。
- シミュレーションおよび実世界の実験の結果，定位の安定性とタスク性能が向上し，低遅延推論を維持することが示された。
- 自己教師あり学習により，キーポイントアノテーションなしでドリフトを抑制し，限られたデータ下での安定性を改善する。
Link: https://arxiv.org/abs/2605.00475
アクティブラーニングにおける弱アノテーターとしてのビジョン言語モデルの活用 [cs.CV]目的：アクティブラーニングにおけるアノテーションコスト削減
- データアノテーションは機械学習の性能に不可欠だが，コストが課題となる。
- 限られた予算内で効率的に学習データを収集する方法が求められている。
- ビジョン言語モデルの特性を活用し，アノテーションコストをさらに削減する。
- ビジョン言語モデルは，細粒度なラベル認識では性能が低い一方，粗粒度なラベルは高精度に生成可能である。
- 提案手法では，人間による細粒度アノテーションと，ビジョン言語モデルによる粗粒度弱アノテーションを組み合わせる。
- CUB200とFGVC-Aircraftの実験で，既存のアクティブラーニング手法を上回る性能が確認された。
Link: https://arxiv.org/abs/2605.00480
無音動画からのオーディオ生成によるオーディオイベントラベリング [cs.SD, cs.CV]目的：無音動画からのオーディオイベントのタイプとタイミングの予測
- 動画と音響情報の統合は，コンテンツ制作やアクセシビリティ向上に不可欠である。
- 従来のオーディオ生成後のイベント検出は，誤り伝播の影響を受けやすい。
- オーディオ生成とイベント予測を同時に学習することで，より正確なラベリングを目指す。
- 提案手法MMAudio-LABELは，ベースラインと比較してオンセット検出精度を46.7%から75.0%に向上させた。
- また，マテリアル分類精度も40.6%から61.0%へと大幅に改善された。
- これにより，オーディオ生成とイベント予測の同時学習が，解釈性と実用性の高い動画-オーディオ合成を可能にすることが示唆された。
Link: https://arxiv.org/abs/2605.00495
高速ビジョンが人間の行動のゼロショット意味理解を向上させる [cs.CV, cs.RO]目的：人間の行動のゼロショット意味理解における時間分解能の影響
- 人間とロボットの相互作用において，行動理解は不可欠であり，特に未知の行動の理解が重要である。
- 十分なラベル付きデータの収集が困難な高速で稀な行動の理解には課題がある。
- 時間分解能を向上させることで，高速行動のゼロショット意味理解の精度を高めることを目指す。
- より高い時間分解能は，ゼロショット設定において意味的な分離性を大幅に向上させる。
- 高速ビデオは，高速行動のためのより安定した解釈可能な意味表現を提供する。
- 本研究は，トレーニング不要のアクション認識において時間分解能の重要性を強調する。
Link: https://arxiv.org/abs/2605.00496
GOR-IS：内在空間における3Dガウスオブジェクト除去 [cs.CV]目的：3Dシーンからのオブジェクト除去
- 近年，NeRFや3DGSにより3Dシーンの再構成が容易になり，編集技術の重要性が増している。
- 既存手法は，オクルージョン領域の完全かつシームレスなインペイントに課題があり，物理的に不自然な結果となることがある。
- 本研究は，グローバルな照明効果を維持し，非ラバーティアン表面への対処を通して，より現実的なオブジェクト除去を目指す。
- 提案手法GOR-ISは，シーンを内在成分に分解し，光の伝播を明示的にモデル化することで，照明の一貫性を保つ。
- 内在空間インペイントモジュールを導入し，材質と照明の領域で直接動作することで，非ラバーティアン表面の問題に対処する。
- 合成データおよび実世界データセットでの実験により，既存手法をLPIPSで13%，PSNRで2dB上回る性能が示された。
Link: https://arxiv.org/abs/2605.00498
1次元セマンティックトークナイザーを用いたエンドツーエンドの自己回帰画像生成 [cs.CV, cs.LG]目的：自己回帰画像生成における画像圧縮表現の最適化
- 画像生成技術は，現実世界の多様な視覚情報を再現する上で重要な役割を担う。
- 既存手法では，トークナイザーと生成モデルを別々に学習させるため，最適化が困難であった。
- トークナイザーと生成モデルを同時に最適化することで，生成品質の向上を目指す。
- 本研究では，再構成と生成を同時に最適化するエンドツーエンドの学習パイプラインを提案した。
- 提案手法は，ImageNet 256x256生成において，FIDスコア1.48を達成し，最先端の結果を示した。
- ビジョンファウンデーションモデルを活用することで，1次元トークナイザーの性能向上が確認された。
Link: https://arxiv.org/abs/2605.00503
スケールを考慮した敵対的分析：多スケール複雑系における生成AIの診断 [cs.CE, cs.LG, cs.CV, physics.comp-ph]目的：生成AIが多スケール複雑系の支配的物理法則を内部化しているかどうかの検証
- 複雑系は自然界に広く存在し，その理解は科学技術の発展に不可欠である。
- 既存の機械学習モデルは統計的相関を学習するだけであり，物理法則の理解が不十分である。
- スケールを考慮した診断により，生成AIの脆弱性を評価し，物理法則を尊重するモデル開発を促す。
- 従来のXAI手法は物理的に不適切な摂動を引き起こし，モデルの評価を歪める。
- 提案手法であるCDDは，物理制約に基づいたデータ生成とモデル評価を可能にする。
- 生成モデルは物理的摂動に対して構造の固定化と非線形不安定性を示し，連続的なPDEのような応答を示さない。
Link: https://arxiv.org/abs/2605.00510
PhysiGen：衝突を考慮した物理的制約を統合し，高忠実度な人間同士のインタラクション生成を実現する [cs.CV]目的：人間同士のインタラクション生成における高忠実度化
- 人間同士のインタラクションは，バーチャルリアリティやロボティクスなど様々な分野で重要である。
- 生成されたモーションにおける体同士の衝突は，リアリズムと実用性を著しく損なう深刻な問題である。
- 衝突を考慮した物理的制約を導入し，体同士の衝突を抑制することで，より自然なインタラクション生成を目指す。
- PhysiGenは，人間の高解像度メッシュを幾何学的プリミティブに簡略化し，衝突検出のコストを大幅に削減する。
- 衝突領域を最適化の方向性の指針として活用することで，効率的な制約統合を実現する。
- 実験の結果，PhysiGenは体同士の衝突を効果的に減らし，視覚的な整合性と物理的な妥当性を大幅に向上させることが示された。
Link: https://arxiv.org/abs/2605.00517
IdentiFace：犯罪捜査における特定可能な容疑者顔生成のためのマルチモーダル反復拡散フレームワーク [cs.HC, cs.CV]目的：犯罪捜査における特定可能な容疑者顔生成
- 犯罪捜査において，容疑者の顔を特定することは，事件解決の重要な鍵となる。
- 従来の似顔絵作成は効率と品質が低く，拡散モデルは条件の曖昧性や生成のばらつきに課題があった。
- 条件制御の強化と反復生成による特徴調整で，より特定可能な容疑者顔生成を目指す。
- 本研究で提案するIdentiFaceは，既存手法と比較して，特に同一人物検索において優れた性能を示す。
- マルチモーダル入力と反復生成パイプラインにより，条件制御を強化し，識別可能な特徴の調整を可能にした。
- 顔の同一性損失関数と，タスクに特化した2つのデータセットを新たに開発した。
Link: https://arxiv.org/abs/2605.00526
血管画像の3Dにおける学習されたボクセルごとの方向ベクトルからの血管グラフ再構築：Vesselpose [cs.CV, cs.LG]目的：3D血管画像からの血管グラフ再構築
- 医学画像処理において，血管のセグメンテーションと追跡は重要な役割を担う。
- 既存手法は，血管ネットワークの完全かつ正確な再構築には課題が残る。
- より正確な血管グラフを抽出し，複雑な血管構造のモデリングを可能にすること。
- 提案手法は，3つのベンチマークデータセットで最先端の性能を達成した。
- 特に，ラット心臓血管のマイクロCTスキャンといった困難な3D画像への適用が示された。
- グラフの誤った分割や融合を定量化する新たな指標が提案された。
Link: https://arxiv.org/abs/2605.00538
カラフルノイズ：色に基づいた条件付き画像生成のための訓練不要低周波ノイズ操作 [cs.CV, cs.GR]目的：拡散モデルにおける低周波ノイズ操作による画像生成制御
- 画像生成AIの発展は，多様な画像を生成する上で重要であり，その品質向上が求められている。
- 拡散モデルではノイズがランダムであるため，特定の視覚的属性の制御や予測が困難であるという課題がある。
- 低周波ノイズ操作により，画像全体の構造と色構成を制御し，生成される画像の品質を向上させることを目指す。
- 拡散モデルの入力ノイズの特性を分析し，低周波成分が画像全体の構造と色構成に大きく影響することを示した。
- 低周波画像事前情報を用いた低周波ノイズの単純な操作が，画像生成プロセスを効果的に条件付けできることを実証した。
- 本手法は訓練を必要とせず，画像の構造と色を制御しつつ，高周波成分による詳細な変動を可能にする。
Link: https://arxiv.org/abs/2605.00548
深度誘導プライバシー保護ビジュアルローカリゼーション：3D球雲の利用 [cs.IR, cs.CV]目的：プライバシー保護されたビジュアルローカリゼーションのための3D球雲の提案
- ビジュアルローカリゼーションは，ロボット工学や拡張現実など，多くの分野で重要な役割を担う技術である。
- プライベートマップを用いるビジュアルローカリゼーションでは，詳細なシーン情報が漏洩し，プライバシー侵害のリスクが存在する。
- 球雲を用いることで，密度ベースの攻撃からマップを保護し，同時にローカリゼーションの精度を維持することを目指す。
- 提案手法である球雲は，既存の線を用いた表現よりも，密度ベースの攻撃に対して高い耐性を示すことが確認された。
- 深度情報を用いることで，球雲特有の新たな攻撃への対策と，カメラポーズ推定のスケール問題を解決した。
- 公開データセットを用いた実験により，球雲はプライバシー保護性能とローカリゼーション速度において良好な結果を示した。
Link: https://arxiv.org/abs/2605.00562
2D-SuGaR：表面を意識したガウススプラッティングによる幾何学的に正確なメッシュ再構成 [cs.CV, cs.GR]目的：幾何学的に正確なメッシュ再構成
- 3Dコンテンツ作成において，リアルタイム性と高画質化が求められている。
- 既存の3Dガウススプラッティングは，表面形状の正確な捕捉に限界がある。
- 2Dガウススプラッティングの初期化依存性を軽減し，ロバスト性を向上させる。
- 単眼深度と法線情報を活用し，ガウスの初期化戦略を改善した。
- 退化したガウスを刈り込むクラスタリング手法を導入した。
- DTUデータセットにおいて，最先端のメッシュ再構成性能を達成した。
Link: https://arxiv.org/abs/2605.00569
ガウス混合特徴量アラインメントとカリキュラム統合による全スライド画像に対する連合蒸留 [cs.HC, cs.CV]目的：全スライド画像分析のための連合学習フレームワーク
- 病理診断の精度向上には，複数施設からのデータ活用が不可欠である。連合学習はその実現手段として注目されている。
- 施設ごとにMILアーキテクチャや特徴抽出器が異なるため，連合学習の適用には課題が存在する。
- 異なる施設間での特徴量のずれを修正し，診断能力の多様性を維持しつつ，連合学習を円滑に進めることを目指す。
- 提案手法FedHDは，ガウス混合特徴量アラインメントとカリキュラム統合により，既存の連合学習や蒸留手法を上回る性能を示す。
- 各クライアントが実WSIの分布に合わせて合成特徴量を生成することで，モデルパラメータの交換を回避し，プライバシーを保護する。
- 疑似パッチの再構成モジュールにより，透明性を高め，解釈可能性を向上させる。
Link: https://arxiv.org/abs/2605.00578
視覚モダリティを通じたビジョン・言語モデルの脱獄 [cs.CV, cs.AI, cs.LG]目的：ビジョン・言語モデルの安全性に関する脆弱性の検証
- 近年，画像とテキストを扱うビジョン・言語モデルが発展しているが，安全性確保が課題となっている。
- 既存研究ではテキストによる攻撃が中心であり，視覚モダリティに着目した安全性評価は十分ではない。
- 視覚情報を悪用した攻撃手法を開発し，モデルの安全性に対する脆弱性を明らかにする。
- 視覚的な記号や画像置換，文脈変換，類推問題などを利用した攻撃により，安全性対策を回避できることを示した。
- テキストベースの安全性訓練だけでは，視覚的に伝達される悪意のある意図に対処できないという，モダリティ間のずれを指摘した。
- 安全性向上のためには，視覚モダリティを重要な攻撃対象として捉え，安全対策を講じる必要があることを強調した。
Link: https://arxiv.org/abs/2605.00583
視覚言語モデルにおけるラベルノイズに対するプロンプトチューニングの内在的勾配抑制 [cs.CV]目的：ラベルノイズに対するプロンプトチューニングのロバスト性向上
- 視覚言語モデルはゼロショット汎化能力に優れるが，実データではラベルノイズの影響が大きい。
- プロンプトチューニングはラベルノイズに弱く，誤ったラベルが大きな勾配を生み出し，事前学習された知識を損なう。
- ラベルノイズによる影響を抑制し，ロバストなプロンプトチューニングを実現する。
- 提案手法DSPTは，逐次的な確率的正規化により，勾配の自己適応的な飽和領域を誘導し，ノイズの影響を抑制する。
- 理論的解析と実験的証拠により，DSPTが適応的に勾配を抑制するメカニズムが明らかになった。
- 様々なノイズベンチマークで最先端のロバスト性を達成し，複雑なアーキテクチャを上回る性能を示した。
Link: https://arxiv.org/abs/2605.00591
オブジェクトレベルV2Xと学習による3Dオブジェクト検出のロバストな融合 [cs.NI, cs.CV, cs.RO]目的：3Dオブジェクト検出におけるV2X情報の統合とロバスト性の評価
- 自動運転の安全性向上には，周囲環境の正確な認識が不可欠である。
- オンボードセンサーは視認性の制約があり，悪天候下では性能が低下する。
- V2X情報の活用により，オンボードセンサーの弱点を補い，ロバスト性を高める。
- V2X情報は3Dオブジェクト検出の性能を大幅に向上させるが，理想化されたデータで学習したモデルは脆い。
- ノイズを考慮した学習戦略と確信度エンコーディングにより，V2X情報のノイズや浸透率低下に対するロバスト性が向上する。
- 厳しい条件下でも性能維持が可能であり，NDS 0.80を達成した。
Link: https://arxiv.org/abs/2605.00595
深層学習における可能性的予測不確実性 [cs.IR, cs.LG, cs.AI, cs.CV]目的：深層学習モデルの予測不確実性の信頼性向上
- 深層学習は様々な応用で成果を上げているが，未知の入力に対する過信を抑制する必要がある。
- 既存の不確実性モデリング手法は，計算コストまたは理論的根拠の点で課題を抱えている。
- 可能性理論に基づき，計算効率と理論的厳密性を両立した不確実性モデリング手法を提案する。
- 提案手法DAPPrは，ディリクレ分布を用いた可能性的事後予測により，効率的な不確実性推定を実現する。
- DAPPrは，最先端のevidential deep learning手法と同等またはそれ以上の性能を複数のベンチマークで示した。
- DAPPrは，理論的な導出と計算効率の両方を維持しており，実用的な不確実性モデリングを提供する。
Link: https://arxiv.org/abs/2605.00600
学習可能な可逆変換と意味的事前知識を用いた忠実な極端な画像リサイズ [cs.CV]目的：極端な画像リサイズの忠実度向上
- 画像処理において，高画質化は重要な課題であり，様々な応用分野で求められている。
- 極端なリサイズでは，低解像度から高解像度へのマッピングが不適切であり，構造や詳細の再現が困難である。
- 本研究は，極端な画像リサイズにおける構造と詳細の再現性を高めることを目指す。
- 提案手法FaithEIRは，拡散モデルを基盤とし，学習可能な可逆変換と適応的な詳細事前知識を用いることで，既存手法を上回る性能を示す。
- 可逆変換により，潜在空間でのダウンサンプリングとアップサンプリングを可能にし，情報の損失を抑制する。
- 意味的埋め込みにより，拡散モデルに意味的な条件を提供し，より自然な画像生成を実現する。
Link: https://arxiv.org/abs/2605.00605
CMTA：クロスモーダル時間的アーティファクトを活用した汎用的なAI生成動画検出 [cs.DB, cs.CL, cs.CV, cs.MM, eess.IV]目的：AI生成動画の検出
- デジタルコンテンツの信頼性確保が重要視される中，AI生成動画の識別技術は不可欠である。
- 既存手法は単一モダリティに偏り，視覚とテキスト間の時間的な整合性の安定性に着目した研究が不足している。
- AI生成動画特有のクロスモーダル時間的アーティファクトを捉え，高精度な検出と汎化性能を実現することを目指す。
- 提案手法CMTAは，BLIPとCLIPを用いて画像とテキストの特徴を抽出し，時間的な変動をGRUとTransformerで捉える。
- 4つの大規模データセットを用いた実験により，既存手法を上回り，優れた汎化性能を示すことが確認された。
- AI生成動画のクロスモーダルな整合性が，入力プロンプトの影響で不自然に安定化するという特性を利用している。
Link: https://arxiv.org/abs/2605.00630
BlenderRAG：検索拡張コード合成による高精度3Dオブジェクト生成 [cs.CL, cs.IR, cs.CV, cs.AI, cs.GR, cs.HC, cs.LG]目的：3Dオブジェクトの生成
- 3Dコンテンツ制作の自動化が求められており，効率的な生成手法の開発が重要である。
- 既存の言語モデルでは，文法エラーや形状の不整合が頻発し，実用的な生成が困難である。
- 検索拡張によるコード生成を通じて，高品質な3Dオブジェクトを生成する手法を確立すること。
- 本研究では，50種類のオブジェクトカテゴリに関する専門家検証済みデータセットを活用し，BlenderRAGを提案した。
- BlenderRAGは，4つの最先端LLMにおいて，コンパイル成功率を40.8%から70.0%に，セマンティック正規化アライメントを0.41から0.77に向上させた。
- ファインチューニングや専用ハードウェアを必要とせず，容易に導入可能なシステムを実現した。
Link: https://arxiv.org/abs/2605.00632
ペアードCSLiDAR：クロスソース航空機搭載LiDARと地上LiDARの高層構造に基づく位置合わせによる姿勢精緻化 [cs.RO, cs.CV]目的：クロスソース航空機搭載LiDARと地上LiDARの単一スキャン姿勢精緻化のためのベンチマークと手法
- 航空機搭載LiDARと地上LiDARは，それぞれ異なる特性を持ち，多様な応用分野で重要性が増している。
- 異なるソースのLiDARデータを位置合わせる際，幾何学的な重複が少なく，局所的な最小値に陥りやすい。
- 航空機搭載LiDARと地上LiDARの共有する地表面の情報を活用し，高層構造に基づいた位置合わせにより姿勢精緻化を実現する。
- 提案手法RGSRは，主要なベンチマークにおいてS@0.75mで86.0%，S@1.0mで99.8%を達成し，既存手法を上回った。
- RMSEに基づく姿勢選択の妥当性を，独立した測量管理と軌道一貫性によって検証した。
- フーリエ・メリンBEV提案を追加することでRMSEは低減する一方，極端な部分的な重複下では実際の姿勢誤差が増加する可能性があることが示された。
Link: https://arxiv.org/abs/2605.00634
自分自身からクリック場所を学習：GUIグラウンディングのためのオンポリシー自己蒸留 [cs.AI, cs.CV]目的：GUIグラウンディングにおける自己蒸留フレームワーク
- GUIグラウンディングは，GUI自律エージェントの核となる能力であり，自然言語指示と視覚座標を対応付ける。
- 従来の強化学習法は，多数のロールアウトを必要とし，困難なサンプルに対して疎な報酬しか得られないという課題がある。
- 本研究は，単一のロールアウトで高密度なトークンレベルの教師信号を提供するオンポリシー自己蒸留のGUIグラウンディングへの適用を目指す。
- 提案手法GUI-SDは，ターゲットバウンディングボックスとガウスソフトマスクを用いた視覚的に豊かな特権コンテキストを構築することで，正確な座標を漏洩することなく有益なガイダンスを提供する。
- エントロピー誘導蒸留により，桁の重要度と教師の確信度に基づいてトークンに重みを付け，最適化を最も影響力のある信頼できる位置に集中させる。
- 6つのGUIグラウンディングベンチマークで，GUI-SDはGRPOベースの手法や単純なOPSDよりも精度と学習効率の両方で一貫して優れた性能を示した。
Link: https://arxiv.org/abs/2605.00642
拡散事前分布を用いた汎用ビデオ生成のための統一マルチモーダルフレームワーク UniVidX [cs.CV]目的：多様なマルチモーダルグラフィックスタスクに対する汎用的なビデオ生成
- ビデオ生成技術は，現実世界を忠実に再現する表現を可能にし，様々な応用分野で重要性が増している。
- 既存手法はタスクごとに個別のモデルを学習するため，モダリティ間の相関のモデル化が限定的である。
- UniVidXは，ビデオ拡散モデルの事前分布を活用し，モダリティ間の整合性を高めて多様な生成タスクに対応する。
- UniVidXは，RGBビデオと内包マップ，あるいはRGBビデオとRGBAレイヤーを生成する2つのドメインで実装された。
- 実験の結果，UniVidXは様々なタスクにおいて最先端手法と同等の性能を示し，少ないデータでもロバストに汎化することが確認された。
- 確率的条件マスキング，デカップルドゲート付きLoRA，クロスモーダル自己注意の3つの設計が，UniVidXの性能に貢献している。
Link: https://arxiv.org/abs/2605.00658
アフォードンスエージェントハーネス：検証ゲート付きスキルオーケストレーション [cs.RO, cs.CV]目的：アフォードンスの認識と活用におけるスキルオーケストレーションの改善
- ロボットが現実世界で自律的に動作するには，周囲の環境を理解し，適切な行動をとる能力が不可欠である。
- 既存システムは，複雑な環境下でのアフォードンス認識において，精度，効率，およびロバスト性の課題を抱えている。
- 本研究は，検証ゲートを活用した新しいスキルオーケストレーション手法によって，これらの課題を克服することを目的とする。
- 提案手法「アフォードンスエージェントハーネス」は，複数のスキルを統合し，エビデンスストアとコスト制御を用いることで，より柔軟なスキル選択とパラメータ調整を可能にする。
- アフォードンス固有の検証器は，自己整合性，スケール安定性，およびエビデンスの十分性を評価することで，信頼性の低いコミットメントを防止し，ターゲットを絞った再試行をトリガーする。
- 実験の結果，提案手法は既存手法と比較して，精度とコストのバランスが改善され，アフォードンス認識の品質が向上し，スキルの呼び出し回数とレイテンシが削減された。
Link: https://arxiv.org/abs/2605.00663
初期ノイズ最適化による構造化3D潜在空間の補完 [cs.CV, cs.AI]目的：構造化3D潜在拡散モデルにおける初期ノイズの最適化
- 3Dコンテンツ生成の重要性が高まる中で，高品質な3Dデータ編集技術が求められている。
- 既存の3D潜在拡散モデルでは，初期ノイズが構造に与える影響が大きく，安定性が課題となっていた。
- 初期ノイズを最適化することで，3Dデータの補完における一貫性とプロンプトへの適合性を向上させる。
- 本研究では，初期ノイズ最適化戦略を提案し，構造化3D潜在拡散モデルにおける3D補完の品質を大幅に改善した。
- 提案手法は，既存の学習不要な補完手法と比較して，文脈の一貫性とプロンプトへの整合性が向上することを示した。
- 初期ノイズ制御は，従来のサンプリング軌道操作とは異なる，3D補完のための独立した制御次元として確立された。
Link: https://arxiv.org/abs/2605.00664
深層学習による網膜画像からのアルツハイマー病リスク因子の予測：UK Biobankにおける生物学的に関連する形態学的関連性の開発と検証 [cs.CV]目的：アルツハイマー病に関連する12のリスク因子の網膜画像からの予測
- アルツハイマー病は高齢化社会において増加の一途を辿っており，早期発見と予防が重要である。
- アルツハイマー病のリスク因子と網膜構造の関連性は不明な点が多く，客観的な指標の確立が課題である。
- 深層学習を用いて網膜画像からリスク因子を予測し，網膜構造の変化を明らかにすることで，アルツハイマー病の早期リスク評価に貢献する。
- 深層学習モデルは，網膜画像からアルツハイマー病に関連する12のリスク因子を予測することができた。
- モデルの予測精度は，既存の形態計測と機械学習モデルを上回る良好な結果を示した。
- 網膜の光神経乳頭や血管といった生物学的に意味のある領域が，予測の根拠となっていることが示唆された。
Link: https://arxiv.org/abs/2605.00665
DMDSC：医療画像データセットにおけるオープンセット認識のための動的マージン深単体分類器 [cs.CL, cs.CV]目的：医療画像データセットにおけるオープンセット認識のための動的マージン深単体分類器
- 医療画像解析は，疾患の早期発見や診断精度向上に不可欠であり，臨床現場でのニーズは高い。
- 医療画像データセットは，希少疾患のデータが極端に少ないクラス不均衡が深刻な課題となっている。
- 本研究は，クラス不均衡に対処し，希少疾患の識別能力向上を目指す。
- 提案手法DMDSCは，ラベル頻度に基づきクラスごとにマージンを動的に調整することで，クラス不均衡の影響を軽減する。
- BloodMNIST，OCTMNIST，DermaMNIST，BreaKHisといった多様な医療画像データセットでの実験により，最先端手法を上回る性能が確認された。
- DMDSCは，ニューラルコラプスを活用し，クラス間分離を最大化しながら，未知サンプルを効果的に識別する。
Link: https://arxiv.org/abs/2605.00675
PACE衛星データからのエアロゾル光学厚推定のための基盤AIモデル [cs.CV]目的：エアロゾル光学厚の推定
- 地球観測において不可欠であり，大気質モニタリングや気候変動研究を支援する。
- 従来の物理モデルは計算負荷が高く，データ駆動型手法は空間スペクトルの一貫性を欠く場合がある。
- 空間的一貫性とノイズ耐性の高いエアロゾル光学厚推定を実現する。
- 提案手法ViTCGは，既存の基盤AIモデルと比較して，平均二乗誤差を62%削減した。
- ViTCGは，ハイパースペクトルデータの空間的文脈とスペクトル情報を共同でモデル化する。
- PACE衛星観測による検証により，空間的に一貫性のあるエアロゾル光学厚分布が得られた。
Link: https://arxiv.org/abs/2605.00678
時間的ビデオグラウンディングのための静的・動的グラフアラインメントネットワーク [eess.SY, cs.SY, cs.CV]目的：時間的ビデオグラウンディングにおける性能向上
- ビデオと自然言語の連携は，映像コンテンツの理解と検索に不可欠である。
- 既存手法は，静的特徴と動的特徴の不十分な活用や，クエリに依存しないグラフ構造が課題である。
- 静的・動的特徴を統合し，クエリに基づいたグラフ構造を構築することで，精度向上を目指す。
- 提案手法(SDGAN)は，静的・動的特徴を組み合わせたグラフ構造と位置ごとのノードアラインメントにより，表現力の高い視覚表現を実現した。
- クエリとクリップのコントラスト学習と適応的グラフモデリングにより，クエリを意識した視覚表現を獲得した。
- マルチ粒度の時間的提案と段階的なEasy-to-Hard学習戦略により，粗視点から詳細な局在化へと効果的に繋げた。
Link: https://arxiv.org/abs/2605.00684
PhysEdit：適応的な空間・時間的推論による物理的に整合性のある領域認識画像編集 [cs.CL, cs.CL, cs.CV]目的：物理的に整合性のある画像編集手法の開発
- 画像編集技術は，コンテンツ制作や画像操作において不可欠であり，その精度向上は重要な課題である。
- 既存の画像編集手法は，多様な編集指示に対して固定的な推論処理を用いるため，効率や精度が制限される。
- 空間的・時間的な適応性を持たせることで，より効率的かつ高精度な画像編集を実現することを目指す。
- 提案手法PhysEditは，編集指示と参照画像から編集の複雑さを予測し，推論ステップ数とトークン長を動的に調整することで，処理速度を向上させた。
- ImgEdit Basic-Edit Suiteにおいて，既存手法と比較して1.18倍の処理速度向上と，わずかながら指示への適合性向上を確認した。
- 特に，外観レベルの編集において1.52倍の高速化が確認され，適応的な推論ステップ数の調整が効率向上に大きく貢献していることが示された。
Link: https://arxiv.org/abs/2605.00707
ノイズのある階層的ラベル下での変形性関節症の特徴表現の粗から細への学習 [cs.CV]目的：変形性関節症の表現学習
- 変形性関節症の診断・重症度評価は，医療現場で重要である。客観的指標が求められている。
- 既存研究では，粗い二値分類と詳細な重症度評価を別問題として扱っている場合が多い。
- 臨床的な階層構造を活用し，変形性関節症の特徴表現を改善することを目指す。
- 二重ヘッドモデルによる学習が，特定のバックボーンにおいてKL関連指標を向上させた。
- 粗から細への潜在的組織化がより秩序正しくなり，特徴量の空間的分布が軟骨領域と一致する傾向が見られた。
- 単純な階層構造による学習でも，ノイズのあるラベル下での疾患表現を変化させ，診断と重症度評価に有用な誘導バイアスとなり得る。
Link: https://arxiv.org/abs/2605.00718
報酬誘導型自己強化学習戦略を用いたペアなし画像雨除去 [cs.CV]目的：ペアなし画像雨除去の性能向上
- 画像劣化の自動除去は，様々な画像処理応用において重要である。現実世界の多様な雨のパターンに対応する必要がある。
- ペアなし学習は，ペアデータ収集の困難さを克服するが，学習の安定性や品質向上が課題である。
- 学習中に得られる高品質な結果を活用し，最適化プロセスを誘導することで，学習の安定化と性能向上を目指す。
- 提案手法RGSUDは，IQAに基づく動的な報酬再利用メカニズムと自己強化学習訓練の二段階構成を採用する。
- IQAを用いた報酬を最適化プロセスに組み込むことで，合成された疑似ペアデータの品質を向上させ，学習を安定化させる。
- 複数のデータセットにおいて，既存のペアなし雨除去手法を凌駕する最先端の性能を達成した。
Link: https://arxiv.org/abs/2605.00719
生成的なインパルス応答の拡張による話者距離推定の改善に向けて [cs.SD, cs.AI, eess.AS, eess.SP]目的：話者距離推定モデルの性能向上
- 音響環境の理解と，それに基づく距離推定は，コミュニケーションシステムの質向上に不可欠である。
- 話者距離推定において，十分なデータ量の確保が課題であり，特に多様な音響条件でのデータが不足している。
- 本研究は，データ拡張によって話者距離推定の精度向上を目指す。
- 生成されたインパルス応答の品質をフィルタリングすることで，課題データとの整合性を確保した。
- GWA rooms において，平均絶対誤差（MAE）を1.66mから0.6mに，Treble rooms においては2.18mから0.69mへと大幅に削減した。
- 特に中距離から長距離における推定精度が向上しており，データ拡張の効果が示された。
Link: https://arxiv.org/abs/2605.00721
単一点教師あり赤外線微小目標検出のためのエンドツーエンド特徴親和性伝播の限界探索 [cs.CV]目的：単一点教師あり赤外線微小目標検出における，特徴親和性伝播を用いた限界の探求
- 赤外線微小目標検出は，監視，セキュリティ，軍事など，幅広い分野で重要となる技術である。
- 従来の赤外線微小目標検出は，大量のアノテーションコストが課題であった。
- 本研究は，エンドツーエンドの特徴親和性伝播による，低コストかつ高性能な検出手法を確立することを目指す。
- GSACPは，外部ラベル進化ループを排除し，ハードマージン特徴親和性によって検出器を直接監督する簡潔な設計である。
- SIRST3データセットにおいて，GSACP-Finalは，0.6674のmIoUを達成し，PALと比較して誤検出を38％削減した。
- エンドツーエンドパラダイムを体系的に分解することで，誤検出抑制が最優先される状況におけるコンパクトな代替手段を提供することを示した。
Link: https://arxiv.org/abs/2605.00722
ソベルカーネルを用いた量子勾配ベースのエッジおよびコーナー検出アプローチ [cs.CV]目的：エッジおよびコーナー検出手法
- 画像処理は，コンピュータビジョンや画像認識において基礎的な技術であり，様々な応用分野で不可欠である。
- 古典的なエッジ・コーナー検出は計算コストが高く，リアルタイム処理や大規模画像への適用が課題となる場合がある。
- 量子計算の原理を活用し，エッジ・コーナー検出の効率化とスケーラビリティの向上を目指す。
- 提案する量子回路は，古典的なSobelおよびHarris演算子と一致する出力を生成することを示した。
- QPIEベースの設定は，特に測定ショット数が限られている場合，FRQIよりも安定かつ一貫性のある結果をもたらすことがわかった。
- 量子勾配計算は回路レベルで効率的に実行可能だが，全体のコストは状態準備，測定，古典的な後処理に支配される。
Link: https://arxiv.org/abs/2605.00744
人間の視線を用いた都市主観認識のモデリング [cs.CV, cs.HC]目的：都市主観認識のモデリング
- 都市空間は人々の経験や理解に影響を与えるため，都市主観認識の解明は重要である。
- 既存研究では，ストリートビュー画像から直接認識をモデル化することが多く，人間の視覚過程が無視されている。
- 人間の視線行動が都市主観認識にどのように貢献するかを解明し，より精度の高いモデリングを目指す。
- 視線情報のみでも都市主観認識の予測に有用な信号が含まれることが示された。
- 視線情報とシーン表現を組み合わせることで，予測精度がさらに向上することが確認された。
- 本研究は，都市シーン理解において人間の視覚過程を取り込むことの重要性を強調する。
Link: https://arxiv.org/abs/2605.00764
言語敵対的話者エンコーディングによるインド系文字間話者ID維持 (LASE) [cs.SD, cs.CL, eess.AS]目的：インド系文字間での話者IDの一貫性保持
- 多言語音声クローニングにおいて，話者エンコーダは言語に依存せず同一人物を識別する必要がある。
- 既存のエンコーダは言語によって話者表現が変化し，特にアクセントによってその傾向が顕著になる。
- 言語情報に依存しないロバストな話者表現を獲得し，文字間での話者IDの一貫性を向上させる。
- LASEは，凍結されたWavLM-base-plus上に，話者IDのコントラスティブ損失と，言語識別器に対する勾配反転損失を組み合わせた小さな射影ヘッドを追加する。
- LASEは，西洋アクセントとインドアクセントの両方において，既存モデルと比較して文字間話者IDの差をほぼゼロに縮小することに成功した。
- 合成された複数話者ダイアリゼーションにおいて，LASEはECAPA-TDNNと同等の性能を示し，学習データ量を大幅に削減した。
Link: https://arxiv.org/abs/2605.00777
Map2World：セグメントマップに基づいた3Dワールド生成 [cs.CV]目的：セグメントマップに基づく3Dワールド生成手法
- 没入型コンテンツや自動運転シミュレーションなど，3Dワールド生成は重要性が増している。
- 既存手法はグリッド構造に制約され，ワールド全体のオブジェクトスケールに一貫性がない問題がある。
- 任意の形状・スケールのセグメントマップに基づき，大規模環境での一貫性と柔軟性を実現する。
- 本手法は，ユーザー定義のセグメントマップを条件とした3Dワールド生成を可能にし，グローバルスケールの一貫性を確保する。
- 詳細エンハンサーネットワークを導入することで，シーン全体の整合性を損なわずに，詳細なディテールを追加することが可能となる。
- 多様なドメインにおける汎化性能が高く，限られた学習データでも高品質なシーン生成を実現する。
Link: https://arxiv.org/abs/2605.00781
LVLMのKVキャッシュを軽量化する [cs.CV, cs.AI, cs.LG]目的：大規模ビジョン言語モデルにおけるKVキャッシュサイズの削減
- LVLMは画像とテキストを連携させるため，多様な応用が期待されている分野である。
- KVキャッシュはメモリ使用量が多く，LVLMの効率的な推論のボトルネックとなっている。
- テキストプロンプトを活用し，冗長な視覚トークンを圧縮することでKVキャッシュを軽量化する。
- LightKVは，元の視覚トークン数の55%でKVキャッシュサイズを半分に削減できる。
- 計算量を最大40%削減し，既存手法よりも優れた性能を維持する。
- MMEやSeedBenchを含む8つの公開ベンチマークデータセットで有効性が確認された。
Link: https://arxiv.org/abs/2605.00789
GMGaze：CLIPと多段階Transformerを用いた文脈認識型視線推定 [cs.CV]目的：視線推定の精度向上
- 視線推定は，ヒューマンコンピュータインタラクションや行動分析において重要な技術である。
- 既存手法では，画像特徴量の統合時期や，状況に応じた計算能力の調整が課題となっていた。
- 文脈情報を活用し，効率的な計算能力で高精度な視線推定を実現することを目指す。
- 提案手法GMGazeは，４つの公開データセットで既存手法を上回る精度を達成した。
- 特に，MPIIFaceGaze，ETH-XGazeでは，平均角度誤差がそれぞれ2.49°，1.44°と優れた結果を示した。
- ドメイン間の汎化性能においても，標準的な評価経路で最先端の結果を確立した。
Link: https://arxiv.org/abs/2605.00799
ViT を語らせる：生成言語画像事前学習 [cs.HC, cs.CV]目的：Vision Transformer (ViT) の生成言語画像事前学習
- マルチモーダル大規模言語モデルの性能向上には，画像エンコーダの重要性が増している。
- 既存の画像エンコーダは，対照学習や追加のテキストデコーダに依存しており，複雑になりがちである。
- ViTを直接言語トークンに予測させることで，シンプルかつスケーラブルな事前学習を目指す。
- GenLIPは，画像とテキストのトークンを単一のTransformerでモデリングするシンプルなフレームワークである。
- Recap-DataComp-1Bの80億サンプルで学習したGenLIPは，少ない事前学習データで強力なベースラインと同等またはそれ以上の性能を達成した。
- 高解像度画像での継続学習により，OCRやグラフ理解などの詳細なタスクで性能が向上し，MLLMにおける強力な基盤となる。
Link: https://arxiv.org/abs/2605.00809
持続的な視覚記憶：LVLMにおける深層生成のための知覚維持 [cs.CV, cs.AI]目的：深層生成における持続的な視覚知覚の確保
- 大規模ビジョン言語モデルはマルチモーダルタスクで高い性能を示すが，生成長が長くなるほど視覚情報が希薄になる課題がある。
- 生成シーケンス長が長くなるにつれて，視覚への注意力が減衰し，モデルの性能が低下する。
- 視覚情報の減衰を抑制し，長文生成においても安定した視覚知覚を実現すること。
- 提案手法PVMは，LVLMに組み込むことで，わずかなパラメータ増加で視覚的精度を大幅に向上させる。
- PVMは，生成長による視覚信号の減衰に強く，内部予測の収束を加速させる。
- Qwen3-VLモデルを用いた実験で，4Bおよび8Bスケールにおいて一貫した精度向上が確認された。
Link: https://arxiv.org/abs/2605.00814
事後拡張フローマッチング [cs.MM, cs.CV]目的：高次元画像生成におけるフロー崩壊の抑制
- 画像生成モデルの品質向上は，多様な応用を可能にする上で重要である。
- フローマッチングは学習信号の疎さが課題であり，フロー崩壊を引き起こしやすい。
- 事後分布に基づくターゲット候補の集合を用いることで，勾配分散を低減し，汎化性能を向上させる。
- 提案手法であるPAFMは，従来のFMと比較して，FID50Kスコアを最大3.4ポイント改善した。
- PAFMは，様々なモデル規模やアーキテクチャ，条件付きベンチマークにおいて性能向上を示した。
- 計算コストの増加はわずかであり，効率的な学習が可能である。
Link: https://arxiv.org/abs/2605.00825
TimeRFT：強化学習による時系列予測モデルの汎化性能向上 [eess.SP, cs.AI, cs.CV, cs.LG]目的：時系列予測モデルの汎化性能向上
- 時系列データは経済，気象，医療など広範な分野で重要であり，正確な予測は不可欠である。
- 既存のモデルは，時系列データの非定常性により，学習データとテストデータ間の分布のずれに弱く，汎化性能が低下しやすい。
- 本研究は，強化学習による微調整で，分布のずれに対するロバスト性とデータ不足状況下での汎化性能を改善することを目指す。
- TimeRFTは，予測精度を向上させるための時系列データに対する報酬メカニズムと，汎化性能の高いデータ選択戦略を導入した。
- 実験の結果，TimeRFTは様々な実世界の予測タスクにおいて，従来の教師あり微調整法を上回る性能を示した。
- TimeRFTは，予期せぬ分布の変化に対して，予測精度と汎化性能を向上させることが確認された。
Link: https://arxiv.org/abs/2605.00015
計算ミラーによる広帯域広視野角イメージング [eess.IV, cs.CV, physics.optics]目的：広帯域かつ広視野角なイメージング手法
- 可視～短波長赤外線帯域のセンサーの登場により，様々な分野で高精細な画像取得が期待されている。
- 従来の光学系は特定の波長帯に最適化されており，広帯域な光を同時に焦点を合わせることが困難である。
- 単純な凹面鏡の収差を補正し，広帯域かつ広視野角な高解像度イメージングを実現すること。
- 本研究では，異なる視野領域における焦点深度の差を利用し，最小限の焦点スタックから全焦点範囲の鮮明な画像を再構成する手法を提案した。
- 提案手法の鍵となるSeidelConvは，凹面鏡特有の収差を正確にモデル化し，補正する物理に基づいた空間的に変化する点像関数である。
- 50mm F/1および100mm F/2の光学系で有効性が示され，RGB，NIR，SWIR波長域において再焦点化なしに鮮明な画像を取得できることが確認された。
Link: https://arxiv.org/abs/2605.00029
LTIダイナミクスにおけるモラルハザード：仮説検定アプローチ [math.OC, cs.GT, cs.SY, eess.SY]目的：制御システムにおけるモラルハザードに対するインセンティブ設計
- 効率性や努力が観察できない情報非対称性は，インセンティブ設計における重要な課題である。
- 制御システムにおいて，情報非対称性下でのインセンティブ設計は，十分な研究がなされていない。
- リスク回避的なエージェントが，システム全体で最適な制御戦略を選択するよう促すための支払い方式を設計する。
- 最適な支払いスキームは，固定の最適化可能な時間水平における尤度比仮説検定を用いて決定される。
- 電力システムの周波数制御や体重減少のための健康介入といった事例で，数値的に有効性が示された。
- エージェントがシステム状態に関する二次コストに加え，割引された支払い額を最小化するようにインセンティブを与えることが可能である。
Link: https://arxiv.org/abs/2605.00158
鳥のさえずりからうなり声まで：異種埋め込みによるゾウの鳴き声の分類 [eess.AS, cs.LG, cs.SD, q-bio.QM]目的：ゾウの鳴き声の分類
- 生物音響学は，動物行動や生態系の理解に不可欠であり，その重要性は増している。
- 生物音響データのラベル付けは高コストであり，十分なデータが得られない場合が多い。
- ラベル付けされたデータが少ない状況下でも，精度の高い分類を可能にすること。
- 事前学習済みの音響埋め込みは，エンドツーエンドの教師ありニューラルネットワークに匹敵する分類精度を達成した。
- Perch 2.0は，アフリカゾウでAUC 0.849，アジアゾウでAUC 0.936という最も高い交差検証分類性能を示した。
- wav2vec2.0とHuBERTの2層目は，効果的なゾウの鳴き声の分類に必要な情報量をエンコードしていることが示された。
Link: https://arxiv.org/abs/2605.00225