arXiv雑要約

画像・音声 - 2026/05/19 公開

QQJ：生成AIの評価における質的判断の定量化 [cs.AI, cs.CL, cs.GR]目的：生成AIの評価のためのスケーラブルで人間との整合性の高い手法
- 生成AIの進化は目覚ましいが，評価手法の限界が露呈している。
- 従来の自動評価指標は表面的な類似度に依存し，人間の認識との乖離がある。
- 質的判断を定量化し，人間とAIの評価の一致度を高める。
- QQJは，専門家が設計した多次元評価基準に基づき，LLMを人間の判断に沿うように調整する。
- 実験の結果，QQJは従来の指標や制約のないLLMよりも人間の判断と強く一致することが示された。
- QQJは，幻覚や意図の不一致といった重大な問題点の特定にも優れている。
Link: https://arxiv.org/abs/2605.17382
最適輸送を用いたニューラルピアノ自動採譜への分布一致アプローチ [cs.SD, cs.MM]目的：ピアノ自動採譜における分布一致
- 音楽情報処理の発展に伴い，自動採譜技術の重要性が高まっている。
- 従来のフレーム単位の二値分類では，時間軸のずれに対する頑健性が課題であった。
- 最適輸送の理論に基づき，時間軸ずれに強い自動採譜手法を開発する。
- 本研究では，自動採譜を最適輸送問題として定式化する新しいパラダイムを提案した。
- 提案手法は，予測された音符イベントの分布と正解データの分布間の輸送コストを最小化する。
- MAESTROデータセットを用いた実験で，音符検出において最先端の性能を達成した。
Link: https://arxiv.org/abs/2605.17405
Soap2Soap：マルチエージェント協調による長尺シネマティックビデオのリメイク [cs.RO, cs.CV]目的：長尺ビデオのリメイク手法
- 映像制作の効率化が求められており，既存コンテンツの再利用は重要な課題である。
- 長尺ビデオ生成では，映像の一貫性維持が難しく，特にアイデンティティの変動が問題となる。
- 長編ビデオにおいて，ナラティブ構造とキャラクターを維持しつつスタイルを変更することを目指す。
- 提案手法Soap2Soapは，シーンごとのJSONスクリプトと視覚的参照アンカーを用いることで，長期間の一貫性を強化する。
- バッチキーフレーム整合性を導入することで，ビデオ合成前のドリフトを抑制し，生成品質を向上させる。
- 実験の結果，商用ビデオ生成APIと比較して，Soap2Soapは一貫性とナラティブ忠実度において優れた性能を示した。
Link: https://arxiv.org/abs/2605.17423
ノイズラベル学習における信頼性のある更新診断のための放射状・角度的幾何学 [cs.LG, cs.CV]目的：ノイズラベル学習における更新の信頼性診断
- 機械学習モデルの性能はラベルの質に大きく依存する。ノイズラベルは学習を阻害するため，その影響を軽減する技術が重要である。
- 従来のノイズラベル検出手法は，損失や確信度といった前方空間の信号に依存し，更新の信頼性を直接評価できていない。
- ラベル付き更新の診断を通じて，ノイズラベルの影響を正確に特定し，モデルの精度向上を目指す。
- 提案手法であるRGCは，観測ラベル勾配とEMA教師によって誘導される基準勾配との間の競合を比較することで，信頼性の低い更新を識別する。
- RGCは，ハードなクリーンサンプルと誤ラベルサンプルの区別を容易にし，クリーンサンプルの保持率と精度を向上させる。
- 合成データセットと実際のデータセットにおける実験により，RGCの有効性が確認された。
Link: https://arxiv.org/abs/2605.17429
VISTA：分散ゲーティングを用いた多系列MRIセグメンテーションにおけるテスト時適応 [cs.CV]目的：多系列MRIセグメンテーションモデルの臨床環境への展開における問題解決
- MRIは医療診断において不可欠であり，正確なセグメンテーションが治療計画の精度向上に繋がる。
- スキャナやプロトコルの違いにより，異なる臨床環境でセグメンテーションモデルの性能が低下する。
- 系列間相互作用による変動を捉え，テスト時にモデルを適応させることで，性能低下を抑制すること。
- 提案手法VISTAは，系列間の一貫性を損なう系列間相互作用変動に対処するソースフリーなフレームワークである。
- ISIGを用いて系列間の依存性を変化させる一貫性プローブを生成し，CDPLにより信頼性指標を用いて自己学習を動的に制御する。
- BraTS-SSAおよびBraTS-PEDデータセットで，ベースラインモデルと比較してDice係数がそれぞれ+1.89%，+2.82%改善された。
Link: https://arxiv.org/abs/2605.17433
臨床的文脈が臨床用ビジョン言語モデルの判断を歪める [cs.CL, cs.CV, cs.CL]目的：臨床用ビジョン言語モデルにおける判断の歪み
- 医療現場でのAI活用は重要だが，その信頼性評価は不可欠である。
- 医療記録の複雑な文脈を統合する際のVLMsの信頼性が十分に検証されていない。
- VLMsの判断におけるテキストへの過剰依存や，無関係な情報の影響を明らかにする。
- VLMsの判断はテキスト情報に大きく依存しており，視覚的証拠があっても同様の傾向が見られた。
- 無関係な臨床記録に影響を受けやすく，わずかなプロンプトの変化で正しい画像に基づく予測が覆されることもあった。
- 臨床現場での利用を検討する前に，明確な安全対策と厳格なテストが必要であることが示唆された。
Link: https://arxiv.org/abs/2605.17436
韓国語音声QAにおけるASR-LLMカスケードにおけるエラー伝播の分析 [cs.CL, cs.SD, eess.AS]目的：韓国語音声質問応答におけるASR-LLMカスケードにおけるエラー伝播の分析
- 音声QAは，ハンズフリーインターフェース実現や情報アクセス向上に不可欠な技術である。
- ASRエラーがLLMへの入力に影響し，最終的な回答精度を低下させる可能性がある。
- ASRエラーが下流のセマンティックな失敗にどのように影響するかを明らかにすること。
- ASRエラーによる下流の性能劣化は，LLMの絶対的な性能に関わらず一貫して観察された。
- 単一文字のASRエラーが，正解の欠如という明確なセマンティックな失敗を引き起こすことが示された。
- 大規模な音声言語モデルが，ノイズの多い韓国語音声QAにおいてASR-LLMパイプラインを上回る性能を示した。
Link: https://arxiv.org/abs/2605.17443
FastOCR：KVキャッシュ剪定による動的視覚注視と効率的なドキュメント解析 [cs.CV, cs.CL]目的：ドキュメント解析における効率的なOCR処理
- ドキュメントのデジタル化が進み，OCR技術の高速化と高精度化が求められている。
- 既存のOCR手法では，高解像度なドキュメント画像を処理する際の計算コストが課題となっている。
- 視覚注視の概念に基づき，計算コストを抑えつつOCR精度を維持する手法を開発する。
- FastOCRは，KVキャッシュの剪定を通じて，モデルの注視領域を動的に調整することで，計算コストを大幅に削減する。
- Qwen2.5-VLを用いた実験では，元のモデルの精度を98%維持しつつ，視覚トークンの5%のみに注視することで，注意機構の遅延を3.0倍削減した。
- FastOCRは，様々な規模とアーキテクチャのVLMに対して汎用的に適用可能であり，プラグアンドプレイ型の高速化モジュールとして機能する。
Link: https://arxiv.org/abs/2605.17447
有限要素解析をフィードバックとする自己改善型CAD生成エージェント [cs.GR, cs.CL]目的：有限要素解析による検証を伴うCAD生成モデルの性能向上
- 現代の産業設計においてCADは不可欠であり，その自動化は効率化に繋がる。
- 既存のCAD生成手法は，エンジニアの反復作業や工学的要件の評価を十分に再現できていない。
- 工学的要件を満たす実用的なCAD生成を実現するため，検証と改善のサイクルを導入する。
- GPT-5.5とClaude Codeのエージェントは，初期段階では厳密な要件を満たす成果物を生成できなかった。
- 新たに導入したテキスト形式の設計図と21ビュー画像レンダラーが，CAD生成ループをエンジニアの反復作業に近づけた。
- S2OとFusion360のデータセットにおいて，これらのツールによりGPT-5.5/xhighのBox-IoUがそれぞれ0.444から0.592，0.397から0.505へと向上した。
Link: https://arxiv.org/abs/2605.17448
ホールスライドマルチプルインスタンス学習における空間盲目性 [cs.CV, cs.AI]目的：ホールスライドマルチプルインスタンス学習モデルの空間盲目性
- 病理診断では組織構造が重要であり，画像全体を考慮した解析が不可欠である。
- 既存モデルは空間情報を利用していると見せかけるが，実際には空間構造を無視した予測を行う場合がある。
- 空間情報を活用し，より正確な病理診断を可能とするモデルを開発すること。
- ResTopoMILは，座標をシャッフルしても性能が低下しない空間盲目性を克服する。
- プロトタイプヒストグラムを固定化し，残差学習に軽量なグラフ構造を用いることで実現した。
- 9つの公開WSIベンチマークにおいて，分類および生存予測の精度を向上させた。
Link: https://arxiv.org/abs/2605.17449
DeTrack：ドローン搭載型追跡のためのベンチマークと高度を意識した二重世界モデル [cs.CV]目的：ドローン搭載型追跡タスクにおける性能評価と，高度を考慮した二重世界モデルの開発
- 公共安全，災害救助，野生動物モニタリングなど，ドローンを用いた物体追跡の応用範囲は広い。
- 既存の追跡ベンチマークは，固定カメラや事前定義された飛行経路に依存しており，ドローンの能動的な知覚・制御を考慮していない。
- ドローンが3次元環境で，自律的に飛行しながらターゲットを追跡する新しいベンチマークとモデルを提案し，追跡性能を向上させる。
- DeTrackベンチマークは，多様なシーン，レンダリング条件，移動する背景物体を含む11,368のターゲット軌跡を含む大規模なデータセットである。
- AaDWorldsは，高度を意識した知覚モジュールと，高高度・低高度の将来状態を予測する二重世界モデルで構成される。
- 実験結果から，AaDWorldsはDeTrackベンチマークにおいて，全ての評価指標で追跡性能を向上させることが示された。
Link: https://arxiv.org/abs/2605.17451
GCE-MIL：ホールスライド画像における複数インスタンス学習のための信頼性と再現性のあるエビデンス [cs.CV, cs.AI]目的：複数インスタンス学習におけるエビデンスの質向上
- 病理画像解析は，診断精度向上や個別化医療の実現に不可欠であり，近年重要性が増している。
- 既存のMILモデルでは，注意機構が分類精度に最適化されており，診断を裏付けるエビデンスとして適切でない場合がある。
- 分類とエビデンスの質の最適化を分離し，信頼性・必要性・再現性の高いエビデンス抽出を目指す。
- GCE-MILは，9つのバックボーンと9つのデータセットでMacro-F1を平均0.024，C-indexを0.014向上させた。
- 連続的な注意スコアと離散的なパッチ部分集合の乖離を4-7%縮小し，補完劣化を2-4%増加させた。
- オプションのタイルプレフィルタリングにより，推論速度を最大5倍向上させつつ，full-bag utilityを0.989を維持した。
Link: https://arxiv.org/abs/2605.17456
EchoSR：軽量画像超解像のための効率的な文脈活用 [cs.CV, cs.MM, eess.IV]目的：軽量画像超解像のための効率的な文脈活用フレームワーク
- 画像解析技術は，医療，監視，自動運転など幅広い分野で不可欠であり，高画質化へのニーズは高い。
- 既存の軽量化手法は，計算コストや受容野の拡大，多スケール統合の欠如など，性能向上の限界がある。
- EchoSRは，効率的な文脈活用により，軽量でありながら高画質な画像超解像を実現することを目指す。
- EchoSRは，局所的，多スケール，グローバルな特徴学習を効率的に分離し，クロススケール融合機構を導入することで，優れた性能を発揮する。
- 複数のベンチマークテストにおいて，最先端の軽量超解像手法と比較して一貫して優れた性能を示す。
- 従来の技術と比較して，約2倍の高速化を達成している。
Link: https://arxiv.org/abs/2605.17470
特徴アップサンプリングのための重み付き逆畳み込み [cs.CV]目的：事前学習済みビジョン基礎モデルの特徴を高解像度化する手法
- 事前学習済みモデルは強力だが，パッチレベルの特徴が粗く，高精度な位置認識が課題。
- 細粒度な局所化，高密度予測，点単位の対応付けが求められるタスクで性能が制限される。
- 空間適応的な特徴アップサンプリングにより，構造を保持しつつ過剰な平滑化を抑制する。
- 重み付き逆畳み込み(WRC)は，特徴アップサンプリングを逆問題として捉え，高レベルな視覚記述子の高密度化を実現する。
- WRCは，空間的に変化する重みを用いてデータ忠実度と事前制約の強度を調整し，空間的な特徴特性に適応する。
- WRCは効率的なFFT解を持ち，セグメンテーションや深度推定など様々なタスクで性能向上を示す。
Link: https://arxiv.org/abs/2605.17472
Mamba-VGGT：外部スライディングウィンドウMambaメモリによる持続的な長系列ビデオ幾何学に基づくTransformer [cs.RO, cs.CV]目的：高精度3Dシーン再構成における幾何学的整合性の維持
- 3Dシーン再構成は，ロボット工学や拡張現実など，様々な分野で重要な役割を果たす。
- 従来のTransformerモデルは，系列長が伸びるにつれて幾何学的情報を忘却し，誤差が累積する問題がある。
- 本研究は，長期的な幾何学的情報を効率的に保持し，誤差の蓄積を抑制する手法を開発することを目指す。
- Mamba-VGGTは，スライディングウィンドウMamba（SWM）メモリモジュールを導入することで，長系列ビデオにおける幾何学的推論を可能にした。
- Zero-Init Spatial Memory Injectorは，事前学習済みのVGGTの空間特徴を維持しながら，長期的な時間的情報を効果的に統合する。
- 実験結果は，Mamba-VGGTが既存手法と比較して，空間的一貫性の維持と軌跡累積誤差の低減において優れた性能を示すことを実証した。
Link: https://arxiv.org/abs/2605.17478
顔表情認識のための合成データセットの適用可能性について [cs.CV]目的：顔表情認識における合成データセットの有効性
- 顔表情認識は，人間とコンピュータの自然な対話を可能にする重要な技術である。
- 既存のデータセットは，クラスの不均衡やプライバシーの問題を抱えている。
- 本研究は，プライバシーを保護しつつ，データセットの不均衡を解消することを目指す。
- 本研究では，教師あり学習，拡散モデル，GANに基づく表情編集という3つの合成データセット構築戦略を検討した。
- 合成データセットは，既存のデータセットの不均衡を緩和し，プライバシー制限に対応できることが示された。
- クロスデータセット評価により，各戦略のトレードオフが分析された。
Link: https://arxiv.org/abs/2605.17483
オムニカスタマイザー：同時オーディオ・ビデオ生成のためのエンドツーエンド多Modalカスタマイズ [cs.CV, cs.MM, cs.SD]目的：同時オーディオ・ビデオ生成における多Modalカスタマイズの実現
- 近年の基盤モデルの発展により，オーディオ・ビデオ生成の可能性は大きく広がっている。
- 複数のインタラクション主体の視覚的アイデンティティと音声色を同時に維持するカスタマイズは未だ課題である。
- 視覚・聴覚情報を効果的に統合し，精密なアイデンティティのバインディングと融合を目指す。
- オムニカスタマイザーは，テキストプロンプトに多Modalアイデンティティ情報を効果的に組み込むことで，カスタマイズ性能を向上させる。
- 提案手法は，視覚的アイデンティティの類似性，音声色の整合性，オーディオ・ビデオの同期精度において最先端の性能を達成した。
- 音声漏洩問題を抑制し，多様な言語に対応可能なオーディオブランチの適応を迅速化する訓練戦略を開発した。
Link: https://arxiv.org/abs/2605.17488
視覚言語モデルを用いた顔画像品質評価 [cs.CV]目的：顔画像品質評価における視覚言語モデルの潜在能力の検証
- 生体認証システムにおいて，顔画像品質評価は正確性を担保する上で不可欠である。
- 既存の顔画像品質評価手法は高性能だが，判断根拠が不明瞭であるという課題がある。
- 視覚言語モデルを活用することで，評価根拠の提示と生体認証精度の維持を両立することを目指す。
- オフザシェルフの視覚言語モデルによるゼロショット評価が可能であることが示された。
- モデルの性能はパラメータ数だけでなく，アーキテクチャに大きく依存することが明らかになった。
- 視覚言語モデルの出力は既存手法と概ね一致するものの，プロンプトの影響を受ける可能性がある。
Link: https://arxiv.org/abs/2605.17489
線形重ね合わせを超えて：KAN-SAEを用いたAI天気モデルにおける気候特徴の発見 [cs.LG, cs.AI, cs.CV, physics.ao-ph]目的：AI天気モデルにおける気候特徴の表現の解明
- 気候変動予測の精度向上は喫緊の課題であり，AI技術の活用が期待されている。
- AI天気モデルの予測性能は高いが，内部表現が不透明であるという課題がある。
- 非線形な活性化関数を用いることで，AIモデル内部の気候特徴の可視化を目指す。
- KAN-SAEは，線形ベースラインと比較して72%多くの特徴を発見し，特徴間の冗長性を20%低減した。
- 気候に関する教師信号を用いずに，ヨーロッパの熱波や西太平洋の台風追跡特徴を特定した。
- 非線形活性化関数が，深層学習天気モデルの解釈可能性に不可欠であることが示された。
Link: https://arxiv.org/abs/2605.17493
沈黙の筆：AI画像生成における芸術様式の流出の評価 [cs.LG, cs.CV]目的：AI画像生成における芸術様式の流出の評価
- 画像生成AIは急速に進歩しており，創造的な可能性を広げている。しかし，学習データ由来の問題も顕在化している。
- 学習データに著作権で保護された美術作品が含まれる場合，意図しない様式の再現が懸念される。
- プロンプトに明示的に指定されなくても，学習された様式が生成画像に現れる現象を評価する。
- 本研究では，芸術様式の流出を評価するためのArt Arenaというプロトコルを提案した。
- Art Arenaは，美術作品のエンコードの強さ，作品間の相互作用，そして様式の再出現頻度を測定する。
- 実験結果から，芸術様式の流出は，作品間の表現力の強さの差と相互作用のダイナミクスに起因することが示された。
Link: https://arxiv.org/abs/2605.17500
視覚的メカニズム解釈のための分布的視点：KL最小ソフト制約原理 [cs.CV, cs.AI]目的：視覚的メカニズム解釈における分布的視点
- 深層学習モデルの内部動作を理解する重要性が増しており，その解釈可能性が求められている。
- 既存の手法は，ヒューリスティックに依存しており，解釈の質やモデルへの忠実性に課題がある。
- 自然な画像分布との乖離を最小化し，解釈性とモデルへの忠実性を両立することを目指す。
- 本研究では，特徴活性化が自然画像分布に与える影響を分布的にモデル化する理論的枠組みを確立した。
- 既存の手法に統計的な偏りが存在し，人間にとって解釈しにくいか，モデルの機能を正確に表現できていないことが示された。
- KL最小ソフト制約原理に基づいたモデルを提案し，DINOv3モデルを用いた実験で有効性を検証した。
Link: https://arxiv.org/abs/2605.17504
劣化頻度曲線：オールインワン画像復元のための明示的な頻度定量表現 [cs.CV]目的：画像劣化の頻度特性の定量化表現
- 画像処理において，高品質な画像復元は不可欠であり，現実世界での様々な劣化に対応できる技術が求められている。
- 従来の画像復元技術では，劣化を明示的に捉えることが難しく，複雑な劣化条件への対応が課題となっていた。
- 本研究は，劣化を定量的に表現することで，複雑な劣化条件下での画像復元性能を向上させることを目指している。
- 劣化頻度曲線（DFC）は，周波数領域における残差対劣化エネルギー比を計測し，劣化応答を定量化する構造化されたスペクトル表現である。
- DFCを用いることで，視覚的に入り組んだ劣化効果を測定可能な劣化座標空間に変換し，再利用可能な復元事前知識として活用できる。
- 提案手法であるDFC-IRは，複数のスケールでDFCを推定し，そのスペクトルトークンを用いて劣化を考慮した復元を段階的に行うことで，最先端の性能を実現した。
Link: https://arxiv.org/abs/2605.17506
拡散モデルを用いたストリートビュー画像からの街並み設計 [cs.CV]目的：ストリートビュー画像に基づいた代替的な街並み生成手法
- 都市計画やデザインにおいて，既存の状況測定だけでなく，多様な都市シナリオの検討が不可欠である。
- 既存研究では，現状の街並みの測定に重点が置かれ，代替的な都市景観の生成支援は十分ではない。
- 拡散モデルを用いて，視覚的指標に基づいた街並み生成を可能にし，都市計画の検討を支援することを目指す。
- 拡散モデルにより，テキストおよび画像制御に反応する現実的で意味的に一貫性のある街並み画像を生成可能となった。
- 視覚的制御を取り入れることで，意味的一貫性が向上し，LPIPS指標が約6%改善された。
- オルランドとシカゴにおいて，mIoU指標で全体的な意味的一貫性がそれぞれ23.7%と46.4%向上し，建物表示指標では100%以上の改善が見られた。
Link: https://arxiv.org/abs/2605.17527
曖昧性解消のための多段階質問応答による参照セグメンテーション [cs.CV]目的：曖昧な参照クエリに対するセグメンテーションの精度向上
- 画像や動画における対象物のセグメンテーションは，人間とコンピュータのインタラクションにおいて重要である。
- 既存手法は，クエリが明確である事を前提としており，現実世界での曖昧なクエリへの対応が課題である。
- 本研究は，多段階の質問応答を通してユーザの意図を明確化し，セグメンテーションの精度を向上させる。
- 提案手法IC-Segは，曖昧なクエリに対するセグメンテーション性能において既存手法を大幅に上回る。
- 新たな最適化戦略Hi-GRPOにより，効率的な意図の明確化と対話品質の向上が実現した。
- 新しいベンチマークAmbi-RVOSを用いて，曖昧なクエリに対する有効性が実証された。
Link: https://arxiv.org/abs/2605.17531
HL-OutPaint：高解像度長尺動画に対する粗密な動画アウトペインティング [cs.CV, cs.GR]目的：高解像度かつ長尺動画における動画アウトペインティング手法
- 動画表示フォーマットの多様化に対応するため，動画の空間拡張技術が重要である。
- 既存手法では，空間拡張と長尺動画の両立，あるいは一貫性確保が課題となっていた。
- 本研究は，大域的な構造と動きを考慮し，高解像度で安定した空間拡張を実現することを目指す。
- 提案手法HL-OutPaintは，粗密な戦略により，動画全体の構造と動きを捉えた大域的ガイダンスを構築する。
- 大域的ガイダンスの構築には，大域キーフレームと局所時間窓間の情報交換メカニズムを用いることで，長期的一貫性と短期動的変化の両立を図る。
- 実験結果から，HL-OutPaintは既存手法と比較して，広範囲な空間拡張と長尺動画において優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2605.17543
PFlow-T：トポロジー制御生成のための持続性に基づく前方過程 [cs.LG, cs.CV]目的：トポロジー制御生成のための持続ホモロジーに基づく前方過程
- 生成モデルにおいて，構造的特徴を保持しながら多様なデータを生成することは重要である。
- 既存のトポロジー認識拡散モデルは，ノイズ付加と構造復元でアプローチが異なり，非効率である。
- 持続ホモロジーに基づき，構造的なノイズ付加を実現し，効率的な生成を可能にすること。
- PFlow-Tは，前方過程を完全持続ホモロジーに基づいた生成モデルである。
- PFlow-Tは，MNISTデータセットにおいて，指定されたベティ数の生成でベースラインモデルを上回る性能を示した。
- 分布外タスクへの対応においても，PFlow-Tの有効性が確認された。
Link: https://arxiv.org/abs/2605.17555
リアルタイムニューラルヘアノイズ除去 [cs.GR, cs.CV]目的：ヘアのG-Buffer再構築手法
- リアルタイムレンダリングにおいて，高品質なヘア表現は重要な課題である。
- ヘアのラスタライズ処理は，サンプル不足によるノイズが発生しやすい。
- ラスタライズされた低解像度入力から高品質なヘアを再構築する。
- 提案手法は，既存のヘアノイズ除去技術やDLSS，FSR等の汎用的な再構築手法よりも高い品質を実現した。
- ニューラル空間再構成と時間的累積により，ヘアの被覆率と接線を復元する。
- 接線誘導再構成により位置を完成させ，物理ベースの遅延ヘアシェーディングに利用する。
Link: https://arxiv.org/abs/2605.17557
航空RGB画像から熱画像への変換のための事前・事後処理を用いた条件付きU-Netパイプライン [cs.CV]目的：航空RGB画像から熱画像を生成する手法の開発
- RGBと熱画像の組み合わせは，画像融合，物体追跡，異常検知など様々な応用分野で有用である。
- RGBと熱画像のペアデータが不足しており，その利用が制限されている。
- ペアデータが不足している状況下でも，熱画像を生成する技術を確立する。
- 提案手法である条件付きU-Netは，PSNR，SSIM，LPIPSの評価指標において，既存のThermalGenモデルを上回る性能を示した。
- 特に，天候データをU-Netのボトルネック層に取り込むことで，効果的な熱画像生成が可能となった。
- 事前処理と事後処理も性能向上に貢献したが，補助的なメタデータの統合が最も効果的であった。
Link: https://arxiv.org/abs/2605.17564
点群を系列と捉え直す：因果的次トークン予測学習フレームワーク [cs.CV]目的：点群データの自己教師あり学習における事前学習パラダイムの確立
- 3D点群データは，ロボティクスやコンピュータビジョンの重要なデータ形式であり，その活用が期待されている。
- 既存の点群学習方法は，入力の再構成や幾何学的な生成に依存しており，予測的な依存関係のモデリングが不十分である。
- 本研究は，点群データを潜在空間における因果的な次トークン予測問題として定式化し，より効果的な事前学習を可能にする。
- 提案手法PointNTPは，点群を局所パッチに分割し，幾何学的な中心点に基づいて構造化された3Dトークン系列に変換する。
- PointNTPは，ScanObjectNNのOBJ_BG, OBJ_ONLY, PB_T50_RSでそれぞれ93.8%, 92.6%, 89.3%を達成し，ShapeNetPartで85.0%，S3DIS Area 5で71.1%の精度を示した。
- 潜在空間での因果的な予測学習は，点群データの自己教師あり学習にシンプルでスケーラブルなパラダイムを提供する。
Link: https://arxiv.org/abs/2605.17566
クラスインクリメンタル学習における Mixture-of-Experts の安定ルーティング [cs.CV, cs.LG]目的：クラスインクリメンタル学習における Mixture-of-Experts の安定的なルーティング手法
- 継続学習は，モデルが新しい知識を獲得しつつ，過去の知識を保持することが重要である。
- MoEモデルでは，エキスパート拡張に伴うルーティングの不安定性が課題となっていた。
- 本研究は，ルーティングの安定性を確保し，知識の保持と新しいクラスへの適応を両立することを目指す。
- 提案手法 StaR-MoE は，感度を考慮したルーティングアラインメントにより，過去のルーティング分布との整合性を保つ。
- StaR-MoE は，非対称な容量正則化により，拡張されたエキスパートプールの効果的な活用を促進する。
- 4つのベンチマークデータセットにおいて，StaR-MoE は最先端手法と比較して平均精度と最終精度を向上させた。
Link: https://arxiv.org/abs/2605.17571
ネットワークの堅牢性モデリング：いくつかのグラフ分割ゲームの複雑性 [cs.CC, cs.GT]目的：グラフ分割ゲームにおける計算問題の複雑性
- ソフトウェア定義ネットワークにおけるコントローラ配置は，ネットワークの可用性と効率に不可欠である。
- 最適なコントローラ配置は，攻撃者の妨害を考慮する必要があるが，その計算量は非常に大きい。
- この研究は，コントローラ配置問題における攻撃と防御の戦略をゲーム理論的に分析し，計算可能な近似解法を探求する。
- 様々なゲームのバリアント（先手必勝，同時進行，純粋戦略，混合戦略）において，問題がNP困難またはΣP2完備であることが示された。
- この困難性結果は，最適なコントローラ配置アルゴリズムの限界を示唆している。
- 区間グラフや木幅が制限されたグラフのような制限されたグラフクラスに対しては，効率的なアルゴリズムが存在することが示された。
Link: https://arxiv.org/abs/2605.17572
ソーシャルメディアにおけるディープフェイク検出：3次元畳み込みニューラルネットワークを用いた時間的アーティファクト分析 [cs.CV, cs.CR]目的：ソーシャルメディアにおけるディープフェイク検出手法
- 偽情報の拡散と個人攻撃の増加により，ディープフェイク検出の重要性が高まっている。
- 既存のディープフェイク検出器は，生成技術の向上により精度が低下しやすい。
- 時間的な不整合に着目し，ロバストなディープフェイク検出を実現すること。
- 提案手法は，DeepfakeTIMITデータセットにおいて92.8%の精度を達成した。
- FaceForensics++データセットへの転移学習により，ファインチューニングなしで76.4%の精度，ファインチューニング後には精度が向上した。
- 転移学習と顔追跡，時間的一貫性正則化が，ディープフェイク検出精度の向上に貢献することが示された。
Link: https://arxiv.org/abs/2605.17573
TAME：MoEを用いたテスト時敵対的プロンプトチューニング [cs.CV]目的：視覚言語モデルに対するテスト時の敵対的ロバスト性向上
- 大規模な視覚言語モデルは汎化性能が高いが，セキュリティ上の脆弱性が課題となっている。
- 敵対的摂動に対して脆弱であり，実世界への展開には安全性への懸念がある。
- 再学習なしに，テスト時に敵対的攻撃に対するロバスト性を向上させること。
- TAMEは，CLIPのゼロショット敵対的ロバスト性をAutoAttack下で少なくとも49.1%向上させる。
- 既存の敵対的プロンプトチューニング手法と比較して，平均して30.2%以上のロバスト性向上を示す。
- クリーンなサンプルに対する汎化性能を維持しつつ，より表現力豊かな防御を実現する。
Link: https://arxiv.org/abs/2605.17577
エージェント制御TTS：複合指示に対する多エージェント閉ループフレームワーク [cs.CV]目的：複合指示に対する意図に基づいた表現制御
- TTS技術は表現力が高まる一方，複雑な指示への細かな制御が課題となっている。
- 離散的なテキスト指示と連続的な音響実現との構造的不一致が問題である。
- 人間の認知の解離に着想を得て，意図に忠実な表現制御を目指す。
- 敵対的判別エージェントにより，話者・感情の漏洩を抑制し，分離されたアイデンティティと感情・韻律の空間を学習。
- デュアルストリームアンカリングコントローラが，大規模な音響プロトタイプライブラリを用いて抽象的な意図を音響的に固定。
- 高速・低速フィードバックエージェントが，潜在的な勾配補正と高レベルの知覚的批判により出力強度を調整し，意味・音響の不一致を解決。
Link: https://arxiv.org/abs/2605.17583
VVitCutLER：ビデオにおける教師なし物体検出とセグメンテーションへ [cs.CV]目的：ビデオにおける教師なし物体検出とインスタンスセグメンテーションの性能向上
- 現実世界のビデオ理解において，物体検出とセグメンテーションは重要な課題である。
- モーションブラーやオクルージョンにより，時間的な不安定性や擬似ラベルのちらつきが生じやすい。
- 時間的な一貫性を高めることで，よりロバストなビデオ理解を目指す。
- VVitCutLERは，時間的な一貫性を重視した擬似ラベル生成器VitCutを導入することで，擬似ラベルの品質を向上させた。
- VitCutは，フレーム間の領域の一貫性を活用し，時間経過による誤差の蓄積を抑制する。
- 標準的なビデオベンチマークにおける実験により，VVitCutLERが検出とセグメンテーションの性能を大幅に向上させることが示された。
Link: https://arxiv.org/abs/2605.17584
単一画像超解像のためのモーメントに基づくスケール不変品質指標MSIQ [cs.CV]目的：単一画像超解像結果の品質評価
- 画像超解像技術は，医療画像やリモートセンシングなど，高解像度画像が求められる分野で不可欠である。
- 既存の評価指標は，画像の幾何学的構造の保存を明示的に評価しておらず，画像サイズを統一するための補間誤差を含む。
- 幾何学的構造の変化に敏感で，補間誤差の影響を受けない新たな品質指標を提案し，より正確な評価を可能とする。
- MSIQは，画像の正規化された中心幾何モーメントの比較に基づき，異なる解像度の画像をリサイズなしで直接比較できる。
- 実験により，MSIQは均一なスケーリングに対して安定しており，従来の評価指標は補間方法に大きく影響されることが示された。
- MSIQは，幾何学的歪みと非幾何学的アーティファクトを効果的に分離し，幾何学的忠実度が優先される分野で有用である。
Link: https://arxiv.org/abs/2605.17588
エラー分解に基づくクラス条件付き融合：統計的に保証されたハードカテゴリロバスト知覚 [cs.CV]目的：ハードカテゴリ信頼性問題の解決
- 安全性確保が求められる物体検出において，少数クラスの誤検出は重大な課題である。
- 既存の評価指標は少数クラスの誤りを隠蔽し，その改善を妨げている。
- 少数クラスの精度向上と安定クラスの性能維持を両立する手法を開発する。
- 提案手法ED-CCFは，エラーの種類に応じた動的なキャリブレーションにより，少数クラスczのmAP50を22.4%向上させた。
- この精度向上は，他のクラスの性能を損なうことなく達成された（Pareto最適性の維持）。
- 50回のペア比較試験において96%の勝率と有意なp値（p<0.05）を示し，統計的な保証を提供した。
Link: https://arxiv.org/abs/2605.17591
AutoRubric-T2I：テキスト画像生成のアライメントのためのロバストなルールベース報酬モデル [eess.SY, cs.SY, cs.CL, cs.RO, cs.AI, cs.CV, cs.LG]目的：テキスト画像生成モデルと人間の嗜好を整合させるための報酬モデルの自動合成と選択
- 画像生成技術は進歩しているが，生成画像の質を人間が判断するには限界があるため，自動評価が重要である。
- 従来の報酬モデルは学習コストが高く，評価基準が不明確であるという課題があった。
- 本研究では，VLM（Vision-Language Model）を活用し，人間の嗜好を反映した評価ルールを自動的に生成・選択する。
- AutoRubric-T2Iは，既存の報酬モデルと比較して，大幅に少ない学習データで高品質な報酬信号を生成できる。
- MMRB2などの画像報酬ベンチマークにおいて，既存の強固な報酬モデルを上回る性能を示した。
- TIIFやUniGenBench++といった下流タスクにおいても，拡散モデルの生成品質が向上した。
Link: https://arxiv.org/abs/2605.17602
不完全情報下におけるベルトランド競争での確率的1次アルゴリズムの収束 [cs.GT]目的：不完全情報下のベルトランド競争における確率的1次アルゴリズムの収束性
- オンライン市場での自動価格設定エージェント普及により，マルチエージェント学習の応用範囲が拡大している。
- 既存研究は完全情報環境でのQ学習に依存し，厳密な収束保証が不足している点が課題である。
- 標準的な安定条件が満たされない状況下で，確率的1次アルゴリズムの収束性を証明する。
- 正則化ロビンズ・モンロー（RRM）アルゴリズムが，戦略空間の有限次元近似内で，一意な効率的なベイジアン・ナッシュ均衡にほぼ確実に収束することを示した。
- 二人の企業間の対称的な区分線形価格戦略を分析することで，プライマルダイナミクスに関するグローバルなLyapunov関数を構築した。
- 本研究は，ベイジアン・ベルトランド競争における確率的1次学習アルゴリズムの厳密な収束保証を提供し，アルゴリズムによる共謀に関する主張に対する根拠を提供する。
Link: https://arxiv.org/abs/2605.17607
SafeLens：高速・低速スクリーニングによる意図的かつ効率的な動画ガードレール [cs.CV, cs.CL]目的：動画の安全性確保のための効率的かつ正確なコンテンツモデレーション
- 動画プラットフォームの拡大とAI生成コンテンツの増加に伴い，動画の安全性確保が重要となっている。
- 既存手法は，全ての動画に対して大規模モデルを一律に適用するため，コストが高く非効率である。
- 入力に応じて計算コストを変化させることで，効率性と精度を両立する動画ガードレールを構築する。
- SafeLensは，高速・低速推論アーキテクチャを導入することで，効率的かつ正確なコンテンツモデレーションを実現した。
- SafeWatch Datasetから影響力に基づきフィルタリングした高品質なデータセットを構築し，わずか2.4%のデータで性能を維持した。
- テスト時の推論能力を高めるため，Chain-of-Thoughtトレーを用いたデータ拡張を行い，既存のモデルを上回る性能を示した。
Link: https://arxiv.org/abs/2605.17610
SynVA：血管生成および脳動脈瘤編集のためのモジュール型ツールキット [cs.CV, cs.AI, cs.LG]目的：血管メッシュ生成と解剖学的に整合性のある脳動脈瘤合成
- 高齢化社会の進展に伴い，脳血管疾患の罹患率と負担が増加しており，対策が急務である。
- 大規模で高品質な医療データと対応するラベルが不足しており，診断・予後予測・治療の改善が困難である。
- 脳動脈瘤に関する大規模データセット生成を可能にし，深層学習モデルの訓練を支援することを目的とする。
- SynVAは，生理学的原理と統計的事前情報に基づいて，血管と脳動脈瘤の合成を可能にするプロシージャモデルを提供する。
- 生成された血管形状と脳動脈瘤は，現実的かつ解剖学的に妥当であることが定量評価および定性評価により示された。
- 一部手法は専門家の知覚と一致する形状を生成し，他は実際の脳動脈瘤再構築との定量的な類似性で優れている。
Link: https://arxiv.org/abs/2605.17620
部分的にラベル付けされたデータセットにおける不変/同変半教師あり学習によるマルチタスク学習 [cs.CV, cs.AI, cs.LG]目的：部分的にラベル付けされたデータセットにおけるマルチタスクモデルの学習
- マルチタスク学習は，複数のタスクを同時に学習することで効率化を図る重要な手法である。
- ラベル付きデータの不足は，マルチタスク学習における大きな課題となっている。
- ラベル付きデータが少ない状況下でのマルチタスク学習の性能向上を目指す。
- 不変および同変半教師あり学習は，ほとんどの状況で教師あり学習のベースラインを上回る性能を示した。
- 特に，タスクのラベル付きサンプルが少ない場合に，大きな改善が見られた。
- 同変学習アプローチは，一般的により良い結果を示唆している。
Link: https://arxiv.org/abs/2605.17624
SegRAG：訓練不要な検索拡張セマンティックセグメンテーション [cs.CV]目的：オープンボキャブラリセグメンテーションモデルにおける性能向上
- セマンティックセグメンテーションは，画像認識の重要な課題であり，自動運転や医療画像解析など，幅広い分野で応用されている。
- 既存のオープンボキャブラリモデルは，事前学習データに少ないクラスや，外見が異なるクラスに対して性能が低下しやすい。
- SegRAGは，空間的に正確なプロンプトを用いて，この問題を解決し，よりロバストなセグメンテーションを実現する。
- SegRAGは，事前学習済みのSAM3モデルを，DINOv3特徴量と空間情報を用いて拡張することで，訓練なしにセグメンテーション性能を向上させる。
- LVISベンチマークにおいて，SegRAGはSAM3のテキストのみのベースラインと比較して，最大+3.92 mIoUの改善を達成した。
- AgML農業ベンチマークでは，平均IoUを25.27から59.24に向上させ，個々のクラスの性能も大幅に改善した。
Link: https://arxiv.org/abs/2605.17630
SparseSAM：セグメンテーション全能モデルにおける活性化の構造化疎性化 [cs.CV, cs.AI]目的：セグメンテーション全能モデルにおける推論遅延とメモリ消費の削減
- 画像認識技術は，自動運転や医療診断など，幅広い分野で不可欠な役割を果たしている。
- セグメンテーション全能モデルは高性能だが，ViTベースの画像エンコーダが計算コストのボトルネックとなっている。
- 推論速度とメモリ効率を損なわずに，モデルの計算負荷を軽減することを目的とする。
- SparseSAMは，ストライプソートアテンションと残差整合性MLPを導入し，アテンション層とMLP層を同時に高速化する。
- 0.4の密度でmIoUの低下は0.004にとどまり，既存のトークンマージ法と比較して精度損失を2.10倍削減した。
- 推論速度は2倍，メモリ消費量は2.8倍削減され，効率的なセグメンテーションを実現した。
Link: https://arxiv.org/abs/2605.17633
TouchMap-OR：手と表面の接触のマルチビュー3Dマッピング [cs.CV]目的：手術室における手と表面の接触の識別と再構成
- 医療現場での感染症対策は重要であり，接触履歴の把握が不可欠である。
- 従来の感染対策は目視によるもので，詳細な接触履歴の記録が困難であった。
- 手術室における医療従事者と医療機器，患者との接触を正確に把握し，感染リスク評価に貢献する。
- TouchMap-ORは，複数のカメラ映像から医療従事者の3D骨格と手の形状を再構成し，接触を特定する。
- 手術室の3Dモデルを構築し，手の軌跡を表面にマッピングすることで，誰がいつ何を触ったかを推定する。
- 実際の麻酔導入記録を用いた評価で，0.75のF1スコアを達成し，従来の追跡ベースラインを上回った。
Link: https://arxiv.org/abs/2605.17638
動画検索による生成支援のための三段階パイプライン MARQUIS [cs.CL, cs.IR, cs.IR, cs.CV]目的：動画検索を用いた生成支援システムの性能向上
- 動画データ活用の重要性が高まる中，検索と生成を組み合わせた手法が注目されている。
- 複雑なクエリへの対応や，複数動画からの情報統合が課題となっていた。
- 検索と生成の各段階における課題を解決し，より高品質な生成を可能にすること。
- 提案手法 MARQUIS は，クエリ拡張，証拠抽出，記事生成の三段階で構成される。
- MAGMaR2026 タスクにおいて，検索性能が大幅に向上 (nDCG@10 で 0.195 から 0.759 へ)。
- 記事生成においても，ITER-QA-BASE と MARQUIS-RLM がベースラインと比較して人的評価で優位性を示した。
Link: https://arxiv.org/abs/2605.17640
Mono-Hydra++：マルチタスク学習による単眼シーングラフ構築と3D屋内マッピング [cs.RO, cs.CV]目的：3D屋内環境におけるシーングラフの構築と，それを用いた意味的マッピング
- ロボットが探索，検査，人とロボットのインタラクションを行うには，単なる幾何学的情報だけでなく，環境の理解が不可欠である。
- 従来の地図は位置特定や衝突回避には役立つが，意味的・関係的な構造の把握には限界がある。
- リソース制約のあるロボットプラットフォームでも，リアルタイムな意味的マッピングとシーングラフ構築を実現することを目指す。
- Mono-Hydra++は，単眼RGBカメラとIMUを用いて，リアルタイムな屋内意味的マッピングとシーングラフ構築を実現する。
- Go-SLAM ScanNet評価において，RGB-Dベースラインよりも平均軌道誤差が1.6%低減された。
- Jetson Orin NX 16GB上で，M2H-MX-L知覚モデルをFP16で25.53 FPSで実行可能であり，組み込み環境での実現可能性が示された。
Link: https://arxiv.org/abs/2605.17661
相関均衡の複雑性：正規形ゲームを超えて [cs.GT]目的：相関均衡の計算複雑性とスワップ後悔最小化に関する未解決問題の解決
- ゲーム理論は，経済学，コンピューターサイエンスなど幅広い分野に応用され，戦略的な意思決定を分析する上で不可欠である。
- 多項式型ゲーム以外のゲームにおける相関均衡の計算複雑性は長年の難問であり，実用的なアルゴリズムの構築が困難である。
- 凹面ゲームにおける相関均衡の複雑性を明らかにし，スワップ後悔最小化の限界を示すことで，これらの問題解決を目指す。
- 凹面二次ゲームにおける相関均衡の計算は，縮小写像の不動点を求めることと同程度に難しいことが示された。
- スワップ後悔最小化アルゴリズムにおいて，多次元における効率的なオンライン学習は不可能であることが，情報理論的な下界によって証明された。
- 相関均衡の近似解を効率的に計算するための手法として，Φ均衡の複雑性を解析し，一般凹面ゲームに対するFPTASを提示した。
Link: https://arxiv.org/abs/2605.17665
手続き的に生成された2D等角投影ゲーム地形のためのリアルタイムライティング手法 [cs.GR]目的：手続き的に生成された等角投影マップのリアルタイムライティング
- ゲーム開発において，高品質な視覚効果は没入感を高め，ゲーム体験を向上させる上で不可欠である。
- 等角投影ゲームにおけるリアルタイムライティングは，計算コストが高く，最適化が難しいという課題がある。
- 本研究は，手続き的に生成された等角投影マップにおけるリアルタイムライティングの効率化と品質向上を目指す。
- 提案手法は，2Dオブジェクトを3D形状として近似することで，2.5D効果を実現するリアルタイムライティングシステムである。
- CPUとGPUの連携により，効率的な処理を実現し，多様なグラフィックカードやプロセッサ環境において良好な性能を維持することが確認された。
- ゲーマー，プログラマー，デザイナーによる評価において，視覚効果，ゲームプレイ，パフォーマンスの全てで満足できる結果が得られた。
Link: https://arxiv.org/abs/2605.17666
ギガ解像度ホールスライド画像の深層学習に基づく圧縮 [cs.CV]目的：デジタル病理画像の圧縮方法の検討
- デジタル病理の普及に伴い，ホールスライド画像のデータ量が急増している。
- ホールスライド画像はファイルサイズが大きく，保存に多くのストレージ容量を要する。
- 深層学習を用いた圧縮手法により，ファイルサイズの大幅な削減を目指す。
- ガラス領域の除去は，JPEGおよびJPEG-XLのファイルサイズを大幅に削減する効果が認められた。
- 深層学習による画像圧縮は，JPEG圧縮と比較してWSIサイズを43-72%削減し，JPEGでは効率的に圧縮できないガラスタイルを効率的に圧縮できることが示された。
- パッチデータセットでは，深層学習モデルは平均でJPEGと比較して約35-40%の節約となり，SSIMも0.95以上を維持した。
Link: https://arxiv.org/abs/2605.17668