arXiv雑要約

画像・音声 - 2026/06/03 公開

T2AV-Compass：テキストから音声・動画生成の統一的評価に向けて [cs.CV]目的：テキストから音声・動画生成システムの包括的評価のためのベンチマーク
- 近年，テキストから音声・動画を生成する技術が発展している。高品質なコンテンツ生成が求められている。
- 既存の評価指標は単一のモダリティに偏り，クロスモーダルな整合性や指示への追従性を十分に捉えられていない。
- クロスモーダルな整合性，指示への追従性，知覚的なリアリズムを総合的に評価できるベンチマークの提供。
- T2AV-Compassは，意味的豊かさと物理的妥当性を確保するため，分類学的パイプラインを用いて構築された500個の多様かつ複雑なプロンプトから構成される。
- 客観的な信号レベルの指標と，主観的なMLLM-as-a-Judgeプロトコルを組み合わせた二層評価フレームワークを導入した。
- 評価の結果，既存のモデルは人間レベルのリアリズムやクロスモーダルな整合性に大きく劣り，音声のリアリズムや細かな同期，指示への追従に課題が残ることが示された。
Link: https://arxiv.org/abs/2512.21094
VLA-Arena：ビジョン言語行動モデルのベンチマークのためのオープンソースフレームワーク [cs.RO, cs.RO, cs.CV]目的：ビジョン言語行動モデルの限界と失敗モードの定量的な理解
- ロボット工学において，汎用的なロボットポリシーの実現が求められており，ビジョン言語行動モデルはその重要な役割を担う。
- モデルの能力を客観的に評価する指標や，弱点を発見するための包括的なベンチマークが存在しない。
- モデルの能力範囲を正確に測定し，その限界と脆弱性を明らかにすること。
- VLA-Arenaは，タスク構造，言語コマンド，視覚的観察という3つの軸で難易度を定量化する構造化されたタスク設計フレームワークを提供する。
- 最先端のVLAの評価により，一般化への偏り，安全性の考慮不足，長期的タスクにおけるスキルの組み合わせの困難さなど，重要な限界が明らかになった。
- VLA-Arenaフレームワーク，データセット，モデル，リーダーボードを公開することで，今後の研究を促進し，再現性を確保する。
Link: https://arxiv.org/abs/2512.22539
エッジ認識および内容適応型赤外線ガス漏洩検知：産業安全監視への応用 [eess.SY, cs.SY, cs.CV, cs.AI]目的：産業環境における微弱なガス漏洩検知技術の開発
- 産業安全や環境監視において，ガス漏洩の早期発見は不可欠であり，その自動化が求められている。
- 赤外線画像におけるガス漏洩は，微弱で小さく，半透明であり，境界が不明瞭なため，自動検知が困難である。
- 本研究は，微弱なガス漏洩を検知するための，エッジ認識と内容適応型特徴融合検出器を提案することで，この課題を解決する。
- 提案手法ECAF-Detは，IIGデータセットにおいて，RT-DETR-R18ベースラインに対し，AP，AP50，small-object APでそれぞれ3.0%，6.5%，5.4%の性能向上を達成した。
- LangGasデータセットにおいても，APが36.3%，AP50が68.5%と良好な結果を示し，様々な赤外線ガス漏洩画像への汎化能力を証明した。
- エッジ認識による表現学習と，内容適応型疎性特徴ルーティングが，微弱な赤外線ガス漏洩の認識精度向上に貢献する。
Link: https://arxiv.org/abs/2512.23234
弱い拡散事前分布でも強力な逆問題性能を達成できる [cs.CY, cs.LG, cs.CV, stat.CO, stat.ML]目的：逆問題における弱い拡散事前分布の有効性
- 逆問題は，ノイズの多いデータから元の信号を復元する上で重要。画像処理や医療診断など，幅広い分野で利用。
- 従来の逆問題解決では，高品質な事前分布が必要だが，現実的には不一致や低品質な事前分布しか利用できない場合が多い。
- 本研究は，そのような弱い事前分布でも十分な性能を発揮できる条件を明らかにすることを目指す。
- 測定データが豊富な場合，弱い拡散事前分布でも真の信号に近い解に収束することが示された。
- ベイズ一貫性理論と局所相関分析により，弱い事前分布とより強力な事前分布が類似した局所的空間構造を持つことが説明された。
- この結果は，弱い拡散事前分布を信頼性高く使用できる条件を理論的に裏付けるものである。
Link: https://arxiv.org/abs/2601.22443
データ効率の良いクエリに基づく汎用音源分離のための意味的に一貫性のあるデータセット [cs.SD, cs.HC]目的：クエリに基づく汎用音源分離のための高品質なデータセットの構築
- 知能を持つ聴覚システムの基盤技術であり，実環境での応用が期待される。
- 既存のデータセットは弱ラベルやイベントの同時発生の問題を抱え，分離性能のボトルネックとなっている。
- 意味的に一貫性のある合成プロトコルにより，同時発生を排除した高品質なデータセットを構築し，データ効率を向上させる。
- 構築したデータセットHiveは，2.4k時間の高品質な音声データを含んでいる。
- Hiveで学習したモデルは，大規模データセットで学習したSAM-Audioと比較して競争力のある分離精度と知覚品質を実現した。
- また，分布外の評価ベンチマークにおいて顕著なゼロショット汎化性能を示した。
Link: https://arxiv.org/abs/2601.22599
リモートセンシング基盤モデルにおけるモデルの必要量：冗長性とスリム化可能性 [cs.CV]目的：リモートセンシング基盤モデルの冗長性とスリム化可能性の評価
- リモートセンシングは，地球観測や環境モニタリングにおいて不可欠な技術である。
- 大規模基盤モデルは計算コストが高く，リソース制約のある環境での利用が課題となる。
- モデルの冗長性を評価し，スリム化による効率的な運用を目指す。
- リモートセンシング基盤モデルは，大幅な幅削減下でも高い精度を維持できることが示された。
- 画像認識モデルと比較して，リモートセンシングモデルはより小さい規模で過パラメータ化領域に達する。
- 学習時のスリム化は，コントラスト学習において，事後スリム化よりも効果が期待される。
Link: https://arxiv.org/abs/2601.22841
ビデオOPD：時系列ビデオグラウンディングのためのオンポリシー蒸留によるマルチモーダル大規模言語モデルの効率的な後学習 [cs.CV]目的：時系列ビデオグラウンディングのためのマルチモーダル大規模言語モデルの後学習手法
- ビデオグラウンディングは，ビデオとテキスト間の理解を深める上で重要であり，様々な応用が期待される。
- 従来の強化学習手法は，報酬の疎らさと計算コストの高さが課題となっていた。
- オンポリシー蒸留を用いて，効率的かつ安定したビデオグラウンディングを実現すること。
- 提案手法Video-OPDは，従来の強化学習手法GRPOと比較して，優れた性能を示すことが確認された。
- Video-OPDは，GRPOよりも収束が速く，計算コストが低いことが示された。
- 教師検証型不一致集中(TVDF)により，学習効率がさらに向上することが確認された。
Link: https://arxiv.org/abs/2602.02994
PAND：プロンプトを意識した近傍蒸留による軽量な細粒度画像分類 [cs.CL, cs.CV, cs.AI, cs.LG, cs.MM]目的：細粒度画像分類における軽量ネットワークへの知識蒸留
- 画像認識技術は，多様な応用分野において重要であり，その精度向上は継続的な課題である。
- 既存の知識蒸留は固定されたプロンプトに依存し，大域的なアラインメントに偏りがちである。
- プロンプトを意識した近傍蒸留により，軽量なネットワークでも高精度な分類を可能にすること。
- 提案手法PANDは，プロンプトを意識した意味的校正と近傍を考慮した構造的蒸留を組み合わせる。
- CUB-200データセットにおいて，ResNet-18モデルで76.09%の精度を達成し，既存手法VL2Liteを3.4%上回った。
- PANDは，4つの細粒度画像分類ベンチマークで最先端手法を上回る性能を示した。
Link: https://arxiv.org/abs/2602.07768
スペクトル空間における物理情報を取り入れた拡散モデル [cs.LG, cs.AI, cs.CV, cs.NA, math.NA]目的：偏微分方程式の解の生成
- 物理現象のシミュレーションは科学技術の発展に不可欠であり，高精度かつ効率的な解法が求められている。
- 従来の数値解法は計算コストが高く，特に逆問題や不完全な観測データに対する対応が課題となっていた。
- スペクトル空間を利用することで，高次元データを効率的に扱い，物理法則に適合する解を生成することを目指す。
- 提案手法PISDは，スペクトル表現の潜在空間における拡散過程を通じて，偏微分方程式のパラメータと解の同時分布を学習する。
- PISDは，Poisson方程式，Helmholtz方程式，および非圧縮性Navier-Stokes方程式において，既存の拡散モデルよりも高い精度と計算効率を示す。
- 拡散過程における物理情報に基づく制約と観測条件を適用することで，疎な観測データに対してもロバストな解を得ることが可能となる。
Link: https://arxiv.org/abs/2602.09708
統一離散フローマッチングによるマルチモーダル推論と生成 [cs.CV]目的：マルチモーダル理解，生成，編集のための統一的フレームワーク
- 画像とテキストなど複数の情報を統合し，より高度なAIシステムを構築する上で重要である。
- 異なるモダリティ間での情報の整合性や，タスク固有の学習による汎化性能の低下が課題である。
- タスク固有の学習に依存せず，多様なマルチモーダルタスクへの適応を可能にする。
- UniDFlowは，理解と生成をタスク固有の低ランクアダプターで分離し，目的の干渉や表現の絡み合いを回避する。
- 参照ベースのマルチモーダル嗜好アラインメントにより，同一の条件付けの下で相対的な結果を最適化し，忠実性と制御可能性を向上させる。
- 8つのベンチマークで最先端の性能を達成し，明示的なタスク固有の学習なしで，inpaintingや画像生成などのタスクに対して強力なゼロショット汎化能力を示す。
Link: https://arxiv.org/abs/2602.12221
サインロックイン：ランダムに初期化された重みの符号が持続し，サブビットモデル圧縮のボトルネックとなる [cs.LG, cs.AI, cs.CL, cs.CV]目的：サブビットモデル圧縮における符号ビットの固定コストによるボトルネックの解消
- 近年，モデルの軽量化が重要視されており，特に重みの量子化による圧縮技術が注目を集めている。
- サブビット圧縮では，重みの絶対値を大幅に圧縮するため，符号ビットが性能低下のボトルネックとなりやすい。
- 本研究では，初期化時の符号が学習を通じて保持される現象「サインロックイン」に着目し，圧縮性能の向上を目指す。
- Transformer，CNN，MLPにおいて，学習された符号行列は低ランク近似に抵抗し，ランダムな符号パターンを示すことが確認された。
- 符号の反転は稀であり，初期化時の符号が主に保持されるため，符号パターンのランダム性は初期化に由来すると考えられる。
- サインロックイン理論に基づき，新たな符号テンプレート学習法を提案し，サブビット圧縮の性能向上に貢献する。
Link: https://arxiv.org/abs/2602.17063
病理医のように考える：組織を意識した全スライド画像推論 [cs.CL, cs.CV]目的：組織を意識した粗視点から微視点への検索フレームワークによる病理画像質問応答の精度向上
- 病理診断の効率化と精度向上が，医療現場における重要な課題である。
- 既存の画像質問応答モデルは，関連性の低い領域にも注意を払い，重要な視覚的証拠を見落とすことがある。
- 質問内容に応じて必要な組織領域を効率的に選択し，高精度な回答を導き出すことを目指す。
- 提案手法HistoSelectは，質問に関連する組織領域を特定し，その中で最も情報量の多いパッチを選択する。
- その結果，視覚トークンの使用量を平均70％削減しつつ，3つの病理QAタスクで精度を向上させた。
- 実験結果から，人間の検索・注意パターンをWSI推論に組み込むことが，実用的で信頼性の高い病理VLMs構築への有望な道筋であることが示唆された。
Link: https://arxiv.org/abs/2603.00667
Cryo-Bench：極圏応用のための基盤モデルのベンチマーク [cs.CV]目的：極圏応用における基盤モデルの性能評価
- 地球観測技術の進展に伴い，広範な環境課題解決への貢献が期待されている。
- 極圏環境に特化したモデル評価データセットが不足しており，モデルの性能検証が困難である。
- 極圏環境における基盤モデルの性能を客観的に評価し，最適な活用方法を提示すること。
- 新たに構築したベンチマークデータセットCryo-Benchを用いて，14の基盤モデルと既存モデルの性能を比較評価した。
- 冷凍エンコーダを用いたUNetが平均mIoUで最も高い結果（66.38）を示し，TerraMindがそれに続いた（64.02）。
- 少量データでの学習では，DOFAやTerraMindなどの基盤モデルがUNetを上回り，学習率調整付きのファインチューニングが性能向上に寄与した。
Link: https://arxiv.org/abs/2603.01576
Ref-DGS：反射的双ガウススプラッティング [cs.CV, cs.AI, cs.GR]目的：反射表面の再構成と新規視点合成の精度向上
- リアルな映像生成において，表面の反射表現は不可欠である。より写実的な表現が求められている。
- 既存手法では，近場の強い反射光のモデリングが困難であり，計算コストが高い場合が多い。
- 効率的なラスタライズベースのパイプラインで，反射光を正確に捉えることを目指す。
- Ref-DGSは，ジオメトリガウスと局所反射ガウスの二重表現を用いることで，明示的なレイトレーシングなしに近場の反射光を捉える。
- グローバルな環境反射場と，物理に基づいた軽量なスペキュラ適応混合シェーダにより，遠方および近方の反射光を融合する。
- 反射シーンにおいて，既存のガウス法よりも優れた性能と高速な学習速度を実現した。
Link: https://arxiv.org/abs/2603.07664
高ダイナミックレンジ映像再構成のための長時間協調的注意フレームワーク [cs.CV]目的：高ダイナミックレンジ映像再構成手法の改善
- 映像技術の発展に伴い，より現実的で鮮やかな映像表現への需要が高まっている。
- 従来のHDR映像再構成は，厳密な位置合わせに依存し，複雑なシーンでゴーストやちらつきが生じやすい。
- 位置合わせに頼らない，ロバストで安定したHDR映像再構成手法を確立すること。
- 提案手法LoCAtionは，従来のフレームワーキングを覆し，位置合わせを必要としない協調的特徴ルーティング問題としてHDR映像生成を再構築する。
- 長時間的な文脈と長距離時間モデリングを活用することで，ビデオ全体のコヒーレンスを強化し，ジッターを抑制する。
- 実験結果から，LoCAtionは最先端の視覚品質と時間的安定性を実現し，精度と計算効率のバランスに優れていることが示された。
Link: https://arxiv.org/abs/2603.14377
SJD-PAC：プロアクティブドラフティングと適応継続による推測ヤコビデコーディングの高速化 [cs.CV]目的：テキストから画像への自己回帰的合成の高速化
- 画像生成の分野は急速に進歩しており，高品質な画像を効率的に生成する技術が求められている。
- 推測ヤコビデコーディングは高速化に有効だが，複雑な領域ではドラフトトークンの受理率が低く，ボトルネックとなっている。
- SJD-PACは，高エントロピー領域での受理率向上とシーケンス検証の効率化により，推測ヤコビデコーディングの速度を改善する。
- SJD-PACは，プロアクティブドラフティングと適応継続の組み合わせにより，1ステップあたりの平均受理長を大幅に増加させる。
- その結果，推論速度が向上し，目標分布を厳密に維持することが確認された。
- 標準的なテキストから画像へのベンチマークテストでは，SJD-PACは$3.8\times$の高速化を達成し，画質の劣化は見られなかった。
Link: https://arxiv.org/abs/2603.18599
OrthoPhys：直交視点幾何学ガイダンスによる物理的に妥当な動画生成 [cs.CV]目的：物理的に妥当な動画生成のためのフレームワーク
- 動画生成技術は進歩しているが，物理的に一貫性のある動きを確保することが課題である。
- 既存手法では，３次元空間での物体の運動を２次元の視覚情報のみから捉えることが困難である。
- 直交視点幾何学ガイダンスを用いて，動画生成における物理的妥当性を向上させる。
- OrthoPhysは，２段階のフレームワークで，まず直交視点から同期した動画を生成する。
- この際，幾何学的な注意機構を組み込むことで，３次元空間の一貫性と物理的属性が効果的に適用される。
- 生成された物理的に整合性の高い前景と背景を組み合わせることで，最終的な動画を合成する。
Link: https://arxiv.org/abs/2603.18639
SleepVLM：視覚言語モデルによる説明可能かつルールに基づいた睡眠段階判定 [cs.DC, cs.DC, cs.CV, cs.AI, cs.CL]目的：睡眠段階の自動判定における説明可能性の向上
- 睡眠段階の自動判定は，睡眠障害の診断や治療において不可欠な要素である。
- 既存の自動判定システムは，その判断根拠が不明瞭であり，臨床現場での信頼性が課題となっている。
- AASMの基準に基づいた説明可能な睡眠段階判定モデルを開発し，臨床での信頼性を高める。
- SleepVLMは，多チャンネルポリソムノグラフィーの波形画像から睡眠段階を判定し，AASM基準に基づいた説明を生成する。
- 検証データセット（MASS-SS1，ZUAMHCS）において，最先端の性能と同等のCohen's kappa値（0.767，0.743）を達成した。
- 専門家による評価では，事実の正確性，証拠の網羅性，論理的な一貫性において高い評価（3.75-3.96点）を得た。
Link: https://arxiv.org/abs/2603.26738
なしから全てへ：新規視点合成による自己教師あり3D再構成 [cs.CV]目的：自己教師あり3D再構成の学習
- 3D再構成は，ロボティクスやAR/VRなど幅広い分野で不可欠な技術である。
- 高品質な3D再構成には，正確なカメラパラメータとアノテーションが必要であり，コストが高い。
- アノテーションなしで3D再構成を可能にし，データ収集の負担を軽減すること。
- NAS3Rは，明示的な3D形状とカメラパラメータを自己教師ありで学習する新しいフレームワークである。
- 未キャリブレーション，未ポーズの画像から3Dガウスを再構成し，自己予測されたカメラパラメータを用いてターゲット画像をレンダリングする。
- 既存の自己教師あり手法と比較して優れた結果を示し，スケーラブルな3D再構成パラダイムを確立した。
Link: https://arxiv.org/abs/2603.27455
Atariゲームにおける人間の意思決定への中心，周辺，時間的視覚情報の貢献度推定 [cs.LG, cs.CV]目的：人間の意思決定における視覚情報の貢献度の定量化
- ゲームAIの高度化には，人間の視覚的情報処理メカニズムの理解が不可欠である。
- 既存研究では，周辺視や過去状態の情報の役割が十分に解明されていなかった。
- 人間の意思決定に重要な視覚情報源を特定し，その貢献度を評価すること。
- 周辺視情報の貢献度が最も高く，除去時の予測精度低下が35.27-43.90%と顕著であった。
- 視線情報の貢献度は周辺視情報より小さく，予測精度低下は2.11-2.76%にとどまった。
- 過去状態の情報はゲームによってばらつきがあり，周辺情報の漏洩により影響を受けた可能性がある。
Link: https://arxiv.org/abs/2604.04439
注意，あなたの判断は？拡散モデルにおける生成選択の局所化 [cs.RO, cs.CV]目的：拡散モデルにおける生成選択の局所化
- 画像生成AIの発展は目覚ましいが，その内部動作は不透明である。
- テキストプロンプトが不十分な場合，モデルがどのように詳細を決定しているか不明である。
- モデルの意思決定プロセスを局所化し，より精密な制御を可能にすること。
- 曖昧な概念の解決は主に自己注意層によって行われることが示された。
- 自己注意層への介入が，既存の手法よりも優れたバイアス除去性能を発揮する。
- ICM（Implicit Choice-Modification）は，特定の層への介入により高精度な制御を可能にする。
Link: https://arxiv.org/abs/2604.06052
PRISM：大気散乱再構成を統一的な理解と復元モデルとして捉え直す - 実世界デヘイズへの応用 [cs.CV]目的：実世界画像デヘイズのための大気散乱再構成
- 実世界画像の視覚的な質の劣化は，大気散乱によって生じる。その改善は，コンピュータビジョンの重要な課題である。
- 現実のシーンにおける非均一なヘイズ分布や色変化，そしてペアとなるヘイズ画像とクリアな画像のデータ不足が課題となっている。
- 大気散乱モデルに基づいて，クリアなシーンと散乱変数を同時に再構成することで，実世界環境下での復元プロセスをより解釈可能にすることを目指す。
- PRISMは，物理的に構造化されたフレームワークであるProximal Scattering Atmosphere Reconstruction (PSAR) を提案し，大気散乱モデルに基づきクリアなシーンと散乱変数を再構成する。
- 合成データと実データ間のギャップを埋めるため，オンラインの非均一ヘイズ合成パイプラインと，選択的自己蒸留適応 (SSDA) スキームを導入。
- 実世界のベンチマークテストの結果，PRISMは実世界デヘイズにおいて競争力のある性能を発揮することが示された。
Link: https://arxiv.org/abs/2604.07048
概念に基づく注意機構を用いたファイングレインな概念ボトルネックモデル [cs.CV]目的：ファイングレインな概念ボトルネックモデルにおける画像と概念の適応的なアラインメント
- 画像認識において，概念ボトルネックモデルは解釈可能性と精度向上が期待される分野である。
- 既存手法は，事前学習バイアスや概念間の相互排他性を考慮しない損失関数に課題がある。
- 概念間の相対的な重要性を考慮し，より忠実な概念予測を実現することを目指す。
- 提案手法CoAt-CBMは，学習可能な概念別視覚クエリを用いることで，ファイングレインな概念別視覚埋め込みを獲得する。
- 概念コントラスト最適化により，概念スコアの相対的な重要性を考慮し，画像内容をより忠実に反映する概念予測を可能にする。
- 実験結果から，CoAt-CBMが最先端手法を安定的に上回ることが示された。
Link: https://arxiv.org/abs/2604.15748
BioLip：生体機械的制約違反モデリングによる言語一般化可能なリップシンク・ディープフェイク検出 [cs.CV]目的：リップシンク・ディープフェイクの検出
- 近年，ディープフェイク技術の発展により，偽情報の拡散が深刻化している。
- 既存の検出手法は学習データに依存し，言語や生成モデルの変化に弱い。
- 生体力学的制約に着目し，言語に依存しない汎用的な検出手法を開発する。
- 提案手法は，口周りのランドマークの運動統計量を利用し，軽量なネットワークでディープフェイクを検出する。
- 画像や音声などの情報を必要とせず，ランドマーク座標のみで動作する。
- 英語データのみで学習し，5つの未知の生成モデルと7つの言語に対してゼロショットで高い検出性能を示した。
Link: https://arxiv.org/abs/2604.16808
プラトンの洞窟へ再び：大規模なクロスモーダル表現収束の検証 [cs.CV, cs.AI, cs.LG]目的：異なるモダリティ（テキスト，画像など）で訓練されたニューラルネットワークの表現の収束性
- AIモデルのマルチモーダル化が進み，異なる情報源の統合が重要になっている。
- モダリティ間の表現が収束するかどうかの明確な証拠が不足していた。
- 大規模データセットでのクロスモーダル表現の収束性を検証し，その妥当性を評価する。
- 既存の研究におけるクロスモーダル表現収束の証拠は，評価方法に大きく依存することが示された。
- データセットの規模が大きくなるにつれて，表現のAlignmentは著しく低下する。
- 残存するAlignmentは，詳細な構造よりも粗い意味的オーバーラップを反映している。
Link: https://arxiv.org/abs/2604.18572
CADFit：ハイブリッド最適化による高精度なメッシュ-CADプログラム生成 [cs.HC, cs.CV, cs.LG]目的：メッシュからパラメトリックCADの構築シーケンス復元
- 設計や製造において，幾何学的入力からのCAD構築は不可欠である。高品質なCADモデルの自動生成が求められている。
- 既存手法は編集困難な形式や単純なパイプラインに限定され，複雑なデータセットへの対応が難しいという課題がある。
- CADFitは，複雑な形状のCADモデルを，幾何学的フィードバックに基づき，より正確に復元することを目的とする。
- CADFitは，ボリューメトリックIoUとChamfer Distanceにおいて，最先端のメッシュ-CAD手法を上回る性能を示した。
- 復元されたCADプログラムの無効比率を大幅に低減し，特に複雑な設計において効果を発揮することが確認された。
- 画像からCADの構築シーケンスをエンドツーエンドで復元するマルチモーダルパイプラインも提示され，学習ベースのアプローチの進展に貢献する。
Link: https://arxiv.org/abs/2605.01171
臨床医のトレーシングを模倣: 頭蓋計測ランドマーク検出のための解剖学的誘導空間事前知識 [cs.CV]目的：頭蓋計測ランドマーク検出における解剖学的誘導空間事前知識の構築
- 頭蓋顔面X線写真は，整形外科や歯科矯正において重要な診断情報を提供する。
- ランドマーク検出の精度は，診断の信頼性に直結するが，自動化は困難である。
- 臨床医のトレーシング手順を模倣することで，ランドマーク検出の精度向上を目指す。
- 解剖学的誘導パイプラインにより，25個のランドマークにおける平均半径方向誤差を1.04mmに抑制した。
- 事前知識を使用することで，検証データとテストデータ間のギャップを1%に維持し，精度の大幅な改善を実現した。
- 画像固有の解剖学的に正しい事前知識のみが，1.04mmの結果を達成し，訓練時の正則化として機能することが示された。
Link: https://arxiv.org/abs/2605.03358
メカニズム設計だけでは不十分：協調的AIのための利他的エージェント [cs.GT, cs.AI]目的：協調的AIにおける利他的エージェントの必要性
- AIの安全性確保は重要な課題であり，特に他者との相互作用における安全性が求められる。
- メカニズム設計だけでは，AIエージェントの社会福祉を最大化できない限界がある。
- 不完全な契約下での社会福祉の損失を解消し，協調的な相互作用を実現すること。
- メカニズム設計では，現実的な制約下で常に最適な結果が得られないことが理論的に示された。
- 利他的エージェントは，他者の福祉を考慮することで，社会的に優れた結果と個人の利益を両立できる。
- 大規模言語モデルを用いた実験により，利他的性は資源配分や社会的ジレンマにおいて有効であることが確認された。
Link: https://arxiv.org/abs/2605.08426
複雑な画像編集のためのロバストな逐次分解に向けて [cs.DC, cs.CV, cs.AI]目的：複雑な画像編集における逐次分解の堅牢性向上
- 画像生成モデルの発展により指示に基づいた画像編集が可能になったが，複雑な指示への対応が課題である。
- 単回編集では複雑な指示の正確な解釈が難しく，逐次編集では誤りの蓄積が画質低下を招く。
- 逐次分解の利点を最大限に活かしつつ，誤り蓄積の問題を克服することを目指す。
- 統一的な文脈内編集フレームワーク下で異なる編集パラダイムを分析し，逐次分解の有効性を検証した。
- 多様な複雑さの編集タスクを構築する合成データパイプラインを開発し，高品質な分解シーケンスデータセットを作成した。
- 合成データでのファインチューニングにより，適切なパラダイム設計による逐次分解の堅牢性が確認された。
Link: https://arxiv.org/abs/2605.09233
X-Restormer++：UG2+ CVPR 2026 全天候画像復元チャレンジ1位受賞ソリューション [cs.CV, cs.AI]目的：全天候下における画像復元手法の開発
- 近年，屋外環境で撮影された画像の品質劣化が問題となっており，実用的な復元技術の確立が求められている。
- 多様な天候条件下での画像劣化パターンに対応した汎化性能の高い復元モデルが不足している。
- 大規模データを用いた事前学習とドメイン適応による，ロバストな画像復元モデルの構築を試みる。
- X-Restormer++は，チャンネル間のグローバル依存性と空間的な局所構造情報を捉える二重注意機構と，空間適応入力スケーリング機構を組み合わせる。
- 大規模データセットによる二段階の学習戦略と，勾配誘導エッジ認識損失関数（GGEA Loss）の導入により，構造的詳細の保存を強化。
- Model AとModel Bの予測を重み付け平均することで，高い汎化能力を活かし，UG2+ CVPR 2026 全天候画像復元チャレンジで1位を達成した。
Link: https://arxiv.org/abs/2605.13258
推定と最適化の誤指定が競争を上回る価格につながる [cs.GT, cs.AI, econ.TH]目的：複数企業市場における共謀的な価格形成
- 価格設定は企業の収益に直結するため，最適な価格設定戦略の研究は重要である。
- 従来の価格設定モデルは競合他社の価格を考慮せず，非現実的な仮定に基づいている場合がある。
- 本研究は，競合他社の価格を考慮しない単純な価格設定ルールが，共謀的な価格形成につながる可能性を検証する。
- 企業が同様の価格帯で探索を開始した場合，ナッシュ均衡を上回る価格に収束することが示された。
- 対称的な探索下では，価格が独占レベルに達する可能性も明らかになった。
- 実際の集合住宅賃貸市場のシミュレーションでも，理論的予測と一致する共謀的な結果が確認された。
Link: https://arxiv.org/abs/2605.16064
QuadLink：点関係学習による自己回帰的な四辺形優位メッシュ生成 [cs.GR, cs.CV]目的：点群からの四辺形優位メッシュの生成
- 3Dコンテンツ作成において，実用的なメッシュ生成は不可欠な要素である。
- 既存手法では，点群から等方性密度を持つ純粋な三角形または四角形メッシュしか生成できない。
- QuadLinkは，異方性かつ四辺形優位なメッシュを効率的に生成することを目指す。
- QuadLinkは，点群から実用的な四辺形優位メッシュを生成するための統一的なフレームワークを提案する。
- この手法は，頂点と面の中心点を結びつけることでメッシュを生成し，高い幾何学的精度とトポロジー品質を実現する。
- QuadLinkは，三角形メッシュを四辺形優位なデータに変換するTri-to-Quad Operatorも導入している。
Link: https://arxiv.org/abs/2605.16813
Vision Inference Former：マルチモーダル大規模言語モデルにおける視覚的一貫性の維持 [cs.CV, cs.AI]目的：マルチモーダル大規模言語モデルにおける視覚的一貫性の維持
- 近年，視覚情報とテキスト情報を統合する手法が発展し，マルチモーダル大規模言語モデルの性能向上に寄与している。
- 既存手法では，視覚情報がテキストトークンと同等に扱われ，視覚情報の独自性が損なわれる場合がある。
- 生成長が長くなるほど，モデルの視覚情報への依存度が低下し，視覚情報と生成内容の整合性が失われるという課題を解決する。
- 提案手法であるVision Inference Former (VIF) は，視覚表現と出力空間を直接接続する軽量なモジュールである。
- VIFは推論時のデコーディング段階を通して継続的に視覚的意味を注入することで，生成中にモデルが視覚内容に確実に根ざすようにする。
- 14のベンチマークタスクにおける実験結果から，VIFは多様なアーキテクチャで一貫して性能を向上させ，オーバーヘッドを最小限に抑えることが示された。
Link: https://arxiv.org/abs/2605.18160
Vision-OPD：マルチモーダルLLMのための詳細な視覚理解学習（オンポリシー自己蒸留による） [cs.CV, cs.AI, cs.CL, cs.LG]目的：マルチモーダルLLMにおける詳細な視覚理解能力の向上
- マルチモーダルLLMは，画像とテキストの両方を処理することで，より高度なAIシステム構築に不可欠である。
- 既存のLLMは，画像内の小さな手がかりを見落とし，詳細な視覚理解において課題を抱えている。
- 本研究は，LLMが画像内の重要な領域に焦点を当てられるようにすることで，視覚理解の精度向上を目指す。
- Vision-OPDは，モデル自身の局所的な視覚情報を全体的な判断に活かす自己蒸留フレームワークである。
- 教師モデル（画像の一部に条件付け）と生徒モデル（画像全体に条件付け）を用いて，トークンレベルでの分布のずれを最小化する。
- 複数のベンチマークにおいて，Vision-OPDは大規模モデルと同等またはそれ以上の性能を達成した。
Link: https://arxiv.org/abs/2605.18740
テキスト配置：階層的報酬によるテキストレンダリングの嗜好性アラインメント [cs.CV, cs.DB]目的：テキストレンダリングにおける嗜好性アラインメント
- 大規模言語モデルの発展に伴い，高品質なテキストレンダリングが重要になっている。
- 既存の手法はモデル構造の変更を伴うことが多く，汎用性に課題がある。
- モデル再設計ではなく，報酬設計によってテキストレンダリングを改善することを目指す。
- 提案手法 TextAlignは，既存の生成モデル構造を変更せずに，テキストレンダリングの精度を向上させる。
- 階層的な視覚言語モデル(VLM)に基づく報酬関数が，グローバル，単語，グリフレベルでレンダリングエラーを分解し，精度向上に貢献する。
- FLUX.1-devとZ-Image-Turboでの実験により，既存のベースラインモデルと比較して，文字認識精度が向上することが示された。
Link: https://arxiv.org/abs/2605.19320
MSAVBench：マルチショット音声・映像生成の包括的かつ信頼性の高い評価に向けて [cs.CV]目的：マルチショット音声・映像生成モデルの評価基準およびフレームワーク
- 映像生成技術は，現実世界での応用を求めて，単一ショットから複雑なマルチショットへと進化している。
- 既存の評価基準は，範囲やデータ多様性に限界があり，モデルの信頼性評価を妨げている。
- 多様なタスク設定と評価方法を用いて，マルチショット音声・映像生成モデルの評価を包括的かつ客観的に行う。
- MSAVBenchは，映像，音声，ショット，参照の4つの側面から評価を行い，最大15ショットまでの変動に対応する。
- 適応的な自己修正機構や，主観評価指標のための基準，証拠抽出ツールにより，評価の堅牢性を向上させている。
- 本ベンチマークは人間の判断との相関が高く，スピアマンの順位相関係数は91.5%に達した。
Link: https://arxiv.org/abs/2605.20183
WildRoadBench：視覚言語モデルと自律エージェントのための野生の航空路面損傷位置付けベンチマーク [cs.CV, cs.LG]目的：野生の航空路面損傷位置付けベンチマークの構築と評価
- インフラの老朽化が進み，道路損傷の自動検出・修復が急務となっている。
- 既存のベンチマークは，現実世界の多様な環境を十分にカバーできていない。
- 現実世界の道路損傷検出における視覚言語モデルと自律エージェントの性能評価。
- WildRoadBenchは，専門家が注釈を付けたUAVコーパスを用いて，視覚言語モデルとLLM駆動エージェントの性能を評価する。
- VLMトラックでは，既存の高性能モデルでも性能に限界があり，半数以上の指標が未達成のままである。
- Agentトラックでは，エージェントの性能はVLMを上回らず，多くが予算内で有効な提出に失敗している。
Link: https://arxiv.org/abs/2605.20306
TASTE：AI生成グラフィックデザインのためのデザイナー注釈付き多次元嗜好データセット [cs.CV, cs.AI, stat.AP]目的：AI生成グラフィックデザインの嗜好評価に関する多次元データセット
- AIによるグラフィックデザインの自動化が進む中で，高品質なデザイン生成に不可欠な人間の嗜好評価の重要性が高まっている。
- 既存のデータセットは単一の評価指標に依存しており，デザインの多様な側面を捉えきれていないという課題があった。
- デザイナーによる多次元評価に基づいたデータセットを構築し，AIモデルの嗜好学習能力向上を目指す。
- TASTEデータセットは，タイポグラフィ，レイアウト，色彩調和など，デザインの9つの基準に基づいた評価データを含んでいる。
- 設計者間の合意度は有意であるが，完全ではないことが，検証フレームワークにより示された。
- TASTEデータセットで訓練した小規模なMLPモデルは，既存のVLMモデルよりも設計者との合意率が向上した。
Link: https://arxiv.org/abs/2605.20731
洪水環境下における自動運転のためのマルチモーダルデータセットFRED [cs.CV, cs.AI, cs.RO]目的：洪水環境下での自動運転のためのデータセット
- 自動運転技術は，安全性向上や移動の効率化に不可欠であり，その応用範囲は広い。
- 既存の自動運転データセットは，洪水などの悪天候下での走行データを十分に含んでいない。
- 本研究は，洪水環境下における自動運転システムの開発・検証を可能にするデータセットを提供する。
- 本データセットFREDは，洪水環境下での走行データを収集した初のマルチモーダルデータセットである。
- カメラ，LiDAR，IMU等の多様なセンサーデータに加え，KITTI形式とRTMaps形式で提供される。
- 水域危険検知や位置推定，SLAM等のタスクにおけるアルゴリズム開発・評価に活用できる。
Link: https://arxiv.org/abs/2605.22018
医学画像解析のためのタスク適合型自己教師あり学習：系統的レビューと実践的な設計ガイドライン [cs.CV, cs.AI]目的：医学画像解析における自己教師あり学習の現状と設計指針
- 医療画像解析は疾患の早期発見や正確な診断に不可欠であり，その精度向上は医療の発展に大きく貢献する。
- 医療画像の注釈には専門知識とコストがかかるため，ラベルなしデータからの学習が課題となっている。
- タスクと注釈の適合性を考慮した自己教師あり学習の最適な設計方法を提示することを目的とする。
- 自己教師あり学習の効果は，プレテキストタスクの設計と臨床目標との整合性に大きく依存することが示された。
- コントラスト学習は分類に適している一方，生成的アプローチはセグメンテーションなどの密な予測タスクに適している。
- モダリティ特有の設計が重要であり，ラベルが少ない状況で自己教師あり学習の利点が最も大きいことが明らかになった。
Link: https://arxiv.org/abs/2605.23995
CRISP：病理症例表現と検索のためのクラスタリングに基づく冗長性削減インスタンスサンプリング [cs.CV, cs.AI, cs.IR]目的：病理症例の表現と検索のための，冗長性を削減したインスタンスサンプリング手法
- デジタル病理は診断精度向上に不可欠だが，巨大画像データの効率的な処理が課題である。
- 既存手法は通常一枚のスライドのみを使用するため，症例内の情報が十分に活用されていない。
- 複数のWSIから代表的なパッチを抽出し，症例全体の多様性を捉えることで検索精度を向上させる。
- CRISPは，個々のWSI内の冗長性を削減し，クラスタリングに基づいたサンプリングを行うことで，効率的な症例表現を構築する。
- Mayo Clinicの乳癌データセットを用いた評価で，CRISPは既存の手法と同等以上の性能を示した。
- 本手法は，主観的なWSI選択を自動化し，複数のWSIに分散する臨床的に重要な情報を活用できる可能性がある。
Link: https://arxiv.org/abs/2605.24253
解剖学的アンカーを用いた自己教師あり学習：不変超音波表現のためのビジョンファウンデーションモデルの知識蒸留 [cs.CV, cs.AI]目的：超音波画像における不変表現の学習
- 医療画像分析において，転移可能な表現学習は重要であり，特に超音波画像では臨床に合致した表現が求められる。
- 既存の超音波画像に対する自己教師あり学習は，画像またはフレームレベルでのみ行われ，臨床的に重要な解剖学的文脈が考慮されていない。
- 本研究では，解剖学的構造を基盤とした自己教師あり学習により，臨床的に意味のある表現を獲得することを目指す。
- 提案手法ANAUSは，既存の公開画像・マスクペアを用いたドメイン適応と学習可能な潜在的プロンプトエンジンにより，アノテーション不要な大規模な解剖学的区分けを可能にした。
- 二つの自己教師あり学習戦略（異なる視点間の意味認識解剖学的分離アライメントと文脈的コア領域予測）により，解剖学的領域内の一貫性と構造間の識別能力を高めた。
- 6つの公開データセットにおける広範な評価により，ANAUSが既存の最先端手法を凌駕し，臨床展開に不可欠な計算効率を維持することが示された。
Link: https://arxiv.org/abs/2605.25402
MIND：テキスト駆動型物理ベースヒューマノイド制御のためのマルチスケール意図拡散 [cs.CV, cs.GR, cs.RO]目的：テキストによる指示に基づいた物理ベースヒューマノイドの制御
- ヒューマノイドロボットは多様なタスクを遂行できる汎用的なロボットとして期待されている。
- テキスト指示と低レベルな行動との間のモダリティギャップが，制御の課題となっている。
- テキスト指示と行動のセマンティックアライメントを向上させ，自然な動作を実現すること。
- MINDは，意図をセマンティックな橋渡しとして利用する，新しいエンドツーエンドの拡散フレームワークである。
- マルチスケール意図拡散メカニズムにより，全体的な行動合成と局所的な行動洗練を両立させている。
- 実験により，既存手法を上回り，物理的に妥当でセマンティックに整合性のとれたヒューマノイドの動作を生成することが示された。
Link: https://arxiv.org/abs/2605.26006
経腟超音波画像における帝切開瘢痕欠損のセグメンテーション：データセットとベンチマーク [cs.CV]目的：経腟超音波画像における帝切開瘢痕欠損のセグメンテーションのためのデータセットおよびベンチマークの提供
- 帝切開後の合併症として頻発し，女性の生活の質に影響を与えるため，早期発見と適切な治療が重要である。
- 帝切開瘢痕欠損は小さく，形状が不規則で，画像品質が低いため，熟練した超音波検査士でも見落としやすい。
- 帝切開瘢痕欠損のセグメンテーションを支援するAIアルゴリズム開発のための高品質なデータセットを提供し，診断精度向上を目指す。
- 1,111枚の画像と16本の動画を含む包括的なデータセットを構築し，501の陽性サンプルを提供した。
- 経験豊富な超音波検査士と博士課程の学生との協力により，標準化された臨床ガイドラインに従って正確なピクセルレベルの注釈を作成した。
- 本研究は，医療画像セグメンテーションアルゴリズムの進歩と臨床イノベーションを促進するための高品質なベンチマークリソースを提供する。
Link: https://arxiv.org/abs/2605.26774
画像駆動型点群補完のための反復的洗練 [cs.CV]目的：単一のRGB画像からの点群補完
- 3次元形状の理解は，ロボティクスや自動運転など，様々な分野で重要である。
- 既存の手法は，3次元データに依存したり，画像情報を補助的なものとして扱う傾向がある。
- 画像のみから高精度な点群を生成し，3次元データへの依存を軽減することを目指す。
- 提案手法I2PRefは，画像から直接点群を再構成するImage-to-Pointモジュールを導入した。
- TransformerベースのPoint-to-Pointモジュールにより，点群と画像特徴間の相互作用による反復的な洗練を実現した。
- ShapeNet-ViPCデータセットにおいて，既存手法を12.3%上回る最先端の性能を達成した。
Link: https://arxiv.org/abs/2605.26914
ST-ColoNet：ハイブリッド注意機構とエッジ誘導型特徴学習による時空間的結腸セグメント認識 [cs.CV]目的：結腸内視鏡動画における結腸セグメント認識
- 消化器疾患の早期発見には，内視鏡検査が不可欠であり，正確な画像認識技術が求められている。
- 既存手法は静止画のみを使用し，動画の持つ時間情報を十分に活用できていない点が課題である。
- 動画データを用いた結腸セグメント認識の精度向上を目指し，新たなフレームワークを提案する。
- 提案手法ST-ColoNetは，エッジに着目した空間特徴抽出と，時間情報を効果的に集約する注意機構を組み合わせている。
- 新たに構築したデータセットを用いて評価した結果，精度81.0%，F1スコア70.7%を達成し，既存手法を大幅に上回った。
- 本研究は，結腸内視鏡動画の解析における自動化技術の発展に貢献すると考えられる。
Link: https://arxiv.org/abs/2605.28119
幾何学に基づく基礎特徴のモデリングによる，汎用的な物体形状変形学習 [cs.CV]目的：汎用的な物体形状変形学習のためのフレームワーク
- 3次元形状復元は幾何学的理解の基礎であり，ロボット工学やコンピュータビジョンの発展に不可欠である。
- 視点や未知の物体カテゴリに対する頑健な汎化性能が課題となっている。
- テンプレート形状を変形させることで，多様な形状変化に対応し，汎化性能を高めることを目指す。
- 提案手法は，テンプレートの形状とターゲットの観測値を幾何学的にガイドされた特徴モデリングによって正確に変形させる。
- 視点に依存しない頑健な特徴表現を実現するため，多視点テンプレート特徴とカメラポーズを活用したモジュールを導入した。
- 実験結果から，提案手法は既存手法を凌駕し，新規カテゴリへの汎化性能とロボット操作タスクへの応用が期待できる。
Link: https://arxiv.org/abs/2605.29661
適応型マルチエージェントシステムにおける遅延した抑制と創発的不安定性 [cs.RO, cs.MA, cs.GT, math.DS]目的：遅延がマルチエージェントシステムの安定性に与える影響の分析
- 社会システムにおいて，規制機関は遅延を伴って介入する点が重要である。
- 遅延が，外的な要因なしにシステムの安定性を損なう可能性が指摘されている。
- 遅延がシステムに不安定性をもたらすメカニズムを明らかにすること。
- 遅延が一定の閾値を超えると，システムの安定性が失われ，振動的な挙動を示すことが示された。
- 反応型のエージェントは遅延に対して脆弱であり，固定ポリシーのエージェントは遅延の影響を受けないことが明らかになった。
- 強化学習エージェントは部分的に安定性を保つものの，遅延が大きくなるにつれて不安定になる傾向が確認された。
Link: https://arxiv.org/abs/2605.30392
DiTTo：スケーラブルな順序を考慮したオールインワン画像修復エージェント [cs.CV]目的：画像修復におけるエージェントの性能向上
- 現実世界の画像は複数の劣化の影響を受けることが多く，高品質な修復には対応が不可欠である。
- 既存のエージェントは訓練に膨大な計算コストがかかり，新しい修復専門家への拡張が困難である。
- DiTToは，効率性と拡張性を向上させ，より実用的な画像修復エージェントの実現を目指す。
- DiTToシミュレーターとエージェントにより，ORTD構築に必要な計算量を大幅に削減することに成功した。
- SFTと順序を考慮した修復アライメント(ORA)により，新たな修復専門家の追加を容易にした。
- MiO-100データセットにおいて，既存のエージェントベースの手法を上回る性能を達成した。
Link: https://arxiv.org/abs/2605.30915
多様性よりも頻度：視覚的思考連鎖エージェントにおける道具使用の再考 [cs.CV, cs.AI]目的：視覚的思考連鎖エージェントにおける道具使用の役割に関する研究
- 視覚的エージェントは，複雑な視覚的推論において，道具を利用することで性能向上が期待される分野である。
- 従来の道具使用研究は単純な視覚探索に偏り，複雑な推論タスクにおける道具使用のメカニズムが不明であった。
- 道具使用の崩壊現象を解消し，多様な探索を促すことで，視覚的推論性能を向上させることを目指す。
- モデルは高いタスク精度を維持しながら道具の使用を徐々に停止する「道具使用の崩壊」現象が確認された。
- 道具使用を完全に排除すると性能が低下する一方，道具使用を奨励しても性能向上は限定的であることが示された。
- ロールアウト多様性の低下が，高い道具使用頻度と強い推論性能の間に見られる乖離の原因であることが示唆された。
Link: https://arxiv.org/abs/2606.00096