arXiv雑要約

画像・音声 - 2026/05/07 公開

制約を考慮したハイブリッド宇宙地上コンピューティングワークロードの実行計画 [cs.DC, cs.CV, cs.LG]目的：ハイブリッド宇宙地上コンピューティングワークロードの実行計画
- 低軌道衛星の高性能化により，エッジコンピューティングの可能性が広がり，リアルタイム処理への期待が高まっている。
- 衛星が生成するデータ量は，地上へのダウンリンク能力を大幅に上回り，効率的なデータ処理と伝送が課題となっている。
- 地上と衛星の計算資源を最適に活用し，データ伝送量を最小限に抑える実行計画の自動生成を目指す。
- 提案手法CAEは，衛星の軌道環境とリソース制約を考慮し，2秒以内に実行可能な計画を生成する。
- CAEは，オンボードでのデータ削減を効果的に活用し，データ転送量を最小限に抑えることに成功した。
- 伝送路の状態に応じて，前方誤り訂正やマルチパス割り当てを適応的に調整し，信頼性の高いデータ伝送を実現する。
Link: https://arxiv.org/abs/2605.04052
異なるドメインからの教師モデルの継続的知識蒸留 [cs.LG, cs.CV]目的：教師モデルからの継続的な知識蒸留による学習手法
- 深層学習モデルの規模拡大に伴い，モデルの保存容量が課題となっている。
- 過去の教師モデルへのアクセスが制限される継続的知識蒸留は，知識の喪失が問題となる。
- 教師モデルの専門性が異なる状況下で，知識の獲得と忘却のバランスをとることを目指す。
- 外部のラベルなしデータを用いることで，未知の知識の転移を可能にする。
- 提案手法SE2Dは，外部データ上のロジットを保持することで学習の安定化を図る。
- 複数のベンチマークにおいて，SE2Dは知識の忘却を軽減し，ドメイン間の汎化性能を向上させる。
Link: https://arxiv.org/abs/2605.04059
先読みドリフトモデル [cs.LG, cs.AI, cs.CV]目的：分布のマッピング
- 画像生成の性能向上は，コンピュータビジョンの重要な課題である。
- 既存手法では，生成される画像の品質や多様性に課題が残る。
- より高精度な画像生成手法を確立し，生成画像の品質向上を目指す。
- 提案手法は，過去に計算されたドリフト項を活用することで，より高次の勾配情報を捉える。
- 実験結果から，提案手法はベースラインよりも優れた性能を示すことが確認された。
- これにより，画像生成における新たな可能性が開かれると考えられる。
Link: https://arxiv.org/abs/2605.04060
軌跡認識型プロセス監督による医療VQAの改善 [cs.LG, cs.CV]目的：医療VQAにおける推論能力向上
- 医療画像と自然言語処理の融合は，診断支援や治療計画に不可欠である。
- 既存の医療VQAデータセットは，推論過程の説明が乏しいという課題がある。
- 推論過程を明示的に監督することで，より高度な医療VQAモデルを開発する。
- COMCTSアルゴリズムを用いて6つの医療VQAベンチマークに対する推論軌跡を生成した。
- 生成されたデータセットを用いて，プロセスに基づく報酬関数を用いた2段階の学習フレームワークを提案した。
- 軌跡認識型報酬関数を導入することで，平均精度が0.598から0.689に向上し，医療VQAの性能が大幅に改善された。
Link: https://arxiv.org/abs/2605.04064
機械学習によるオンライン犯罪行動の関連付け：著者特定を用いた潜在的なオンライン人身売買者の分析と連携 [cs.CL, cs.AI, cs.CV, cs.CY, cs.LG, cs.SI]目的：オンライン犯罪行動の理解と関連付け
- オンライン上での犯罪増加に対処するため，データ駆動型アプローチの重要性が高まっている。
- 匿名アカウントやIDの頻繁な変更により，犯罪ネットワークの規模や関連性の特定が困難である。
- オンライン広告における書き方や画像表現のパターンを分析し，関連アカウントの特定を目指す。
- オンライン広告における書き方や画像表現には，匿名化を試みても一貫したパターンが認められた。
- これらのパターン分析により，複数のオンライン市場における関連アカウントや反復行動の特定が可能となった。
- プライバシー，公平性，透明性を尊重した責任ある利用のためのガイドラインを提案した。
Link: https://arxiv.org/abs/2605.04080
マルチモーダルLLMは臨床皮膚科の現場で活用できるか？皮膚科における実世界での評価 [cs.NI, cs.CY, cs.CV, cs.AI, cs.CY]目的：臨床皮膚科におけるマルチモーダルLLMの性能評価
- 皮膚科領域では，画像診断の精度向上が課題であり，AI技術の活用が期待されている。
- ベンチマークでの高い性能が，実際の臨床現場での性能を反映しているとは限らない。
- ベンチマークと臨床現場の性能差を定量的に評価し，LLMの臨床応用可能性を探る。
- 公開データセットでは一定の診断精度が確認されたが，実際の臨床データでは精度が大幅に低下した。
- 臨床情報を加えることで性能は向上したが，不完全または誤った情報に影響を受けやすいという課題が明らかになった。
- 重症度に基づくトリアージにおいては，ある程度の感度は示したが，臨床での利用には信頼性が不十分である。
Link: https://arxiv.org/abs/2605.04098
HERCULES：ハードウェア効率，堅牢性，継続学習のためのニューラルアーキテクチャ探索 [cs.LG, cs.AR, cs.CL, cs.CV, cs.NE]目的：効率，堅牢性，継続学習を考慮したニューラルアーキテクチャ探索手法の分類と課題
- AIの進化に伴い，精度と効率に加え，実環境での信頼性や適応能力が重要になっている。
- 従来のNASはハードウェア効率に偏っており，堅牢性や継続学習といった側面が十分ではない。
- 効率，堅牢性，継続学習を同時に最適化するNASの枠組みを提示し，今後の研究の方向性を示す。
- 本研究では，効率，堅牢性，継続学習という三つの視点からNAS手法を分類し，それぞれの関係性を明らかにした。
- HERCULESという新たなフレームワークを定義し，多目的NASにおける探索空間の探索と計算コストの課題に取り組む。
- アルゴリズム，アーキテクチャ，ハードウェア・ソフトウェアの共同設計による，実用的な継続学習AIシステムの開発に向けたロードマップを提示した。
Link: https://arxiv.org/abs/2605.04103
MuCALD-SplitFed：プライバシー保護マルチタスク分割連合学習による因果潜在拡散 [cs.CV]目的：プライバシー保護マルチタスク分割連合学習のためのフレームワーク
- 医療画像解析は，疾患の早期発見や診断精度向上に不可欠であり，AI技術の活用が期待される。
- 従来の連合学習では，単一のタスクに限定され，実際の臨床ワークフローとの乖離が生じやすい。
- マルチタスク環境における連合学習の不安定性やプライバシー脆弱性の軽減を目指す。
- MuCALD-SplitFedは，セグメンテーション精度において，ベースラインのSplitFedよりも一貫して高い性能を示す。
- 分割点における情報漏洩を低減し，再構成攻撃やメンバーシップ推論攻撃に対する耐性を高める。
- 既存のパーソナライズドFLやマルチタスクFLの手法と比較して，優れた性能を達成する。
Link: https://arxiv.org/abs/2605.04108
統合されたマルチモーダル理解と生成における空間知能の覚醒 [cs.GR, cs.AI, cs.CL, cs.CV, cs.LG]目的：視覚的理解，テキストから画像への生成，および指示に基づいた画像編集のための統一マルチモーダル基盤モデル
- 視覚情報と言語情報を統合し，より高度なAIシステムを構築する上で重要である。
- 既存モデルは，空間的な推論能力や視覚的な制御性に課題を抱えている。
- 空間認識能力を強化し，より制御可能で創造的な画像生成を実現すること。
- JoyAI-Imageは，視覚理解，画像生成，編集において最先端または非常に高い性能を達成した。
- モデルの理解力，空間編集能力，そして新しい視点からの推論が相互に作用し，空間知能を向上させている。
- 本研究は，ビジョン・言語・行動システムやワールドモデルといった下流アプリケーションへの有望な道を示す。
Link: https://arxiv.org/abs/2605.04128
トポロジー制約付き量子化nnUNet：効率的かつ解剖学的に正確な3D歯分割 [cs.CV]目的：効率的かつ解剖学的に正確な3D歯分割の実現
- 医療画像解析における高精度な自動分割は，診断支援や治療計画において不可欠である。
- 深層学習モデルの量子化は計算効率を高めるが，空間歪みによる解剖学的構造の損失が課題となる。
- 量子化による精度低下を抑制しつつ，歯のトポロジー構造を維持する分割手法の開発。
- 提案手法は，従来の量子化モデルと比較してトポロジーエラーを大幅に削減することを示した。
- 歯数，隣接関係，空洞の完全性といった重要な解剖学的構造を維持し，臨床的に妥当な分割結果を得た。
- 整数演算のみによる推論が可能であり，リソースに制約のある臨床環境への実装に適している。
Link: https://arxiv.org/abs/2605.04201
失敗の解剖：科学分野における深層ビジョンの失敗時期，方法，理由 [cs.CV]目的：科学画像における深層学習の失敗メカニズムの解明
- 科学研究では画像解析が不可欠であり，高精度な解析手法が求められている。
- 深層学習はRGB画像では高い性能を示すが，科学画像の複雑さへの対応が課題である。
- 深層学習が科学画像で失敗する原因を特定し，安全なAIアルゴリズム開発に繋げる。
- 深層学習を科学画像に単純適用すると，重大な失敗に繋がる可能性があることが示された。
- 赤外線画像とRGB画像を用いた比較実験で，情報量の多い赤外線画像での性能が低いことが確認された。
- 深層学習モデルが単純化バイアスにより，表現能力を十分に活用できていないことが原因として特定された。
Link: https://arxiv.org/abs/2605.04231
潜在的学習が医療再構成のための暗黙的ニューラル表現を改善する [cs.CV]目的：医療画像再構成のための暗黙的ニューラル表現の改善
- 医療画像解析は診断精度向上に不可欠であり，近年その重要性が増している。
- 従来の暗黙的ニューラル表現は学習効率が悪く，十分な画像品質が得られない場合がある。
- 本研究は，共有表現と個別表現を分離することで，学習効率と再構成精度の両立を目指す。
- 提案手法DisINRは，共有エンコーダ・デコーダと個別エンコーダを導入し，効率的な学習を実現した。
- DisINRは，限られた生データから共有モジュールを事前学習することで，高品質な画像再構成を可能にした。
- 3つの医療画像タスクにおいて，DisINRは既存の最先端手法を精度と効率の両面で上回った。
Link: https://arxiv.org/abs/2605.04234
深層生成モデルを用いたマルチモーダルSAR・光学衛星データからのSentinel-2時系列の稠密化と予測 [cs.CV]目的：Sentinel-2時系列の稠密化と予測
- 地球観測は農業，気候変動モニタリング等に不可欠であり，時系列データの活用が重要である。
- 雲や観測範囲の端の影響で，時系列データに欠損が生じ，継続的なモニタリングが困難となる場合がある。
- 欠損値の補完に加え，将来の観測値の予測を行うことで，より高度な時系列分析を可能とする。
- 提案手法は，Sentinel-2の光学データとSentinel-1のSARデータを統合的に活用し，過去・未来の画像生成を実現した。
- 生成画像における不確実性の推定に焦点を当て，既存手法の限界を克服した。
- 実験結果から，疎な時系列データや時間的にずれのある時系列データに対して，効果的な稠密化と予測が可能であることが示された。
Link: https://arxiv.org/abs/2605.04239
物理に基づく回帰混合 [cs.CV]目的：スペクトルアンミクシングにおける回帰混合モデルの改善
- 分光データ解析は，物質の成分分析に不可欠であり，多様な分野に応用されている。
- 線形混合モデルは単純だが，多重散乱下では精度が低下する。
- 物理的特徴に基づき，非線形混合を適用すべき箇所を特定し，精度向上を目指す。
- 提案手法PGRUは，観測可能な物理的特徴からピクセルごとの非線形混合度を推定する。
- GBM，PPNM，Hapkeの残差を学習された注意機構で組み合わせることで，解釈可能な回帰マップを得る。
- Samson，Jasper Ridge，Urbanの実験結果から，既存手法と比較して一貫した改善が見られた。
Link: https://arxiv.org/abs/2605.04247
合成繊維ロープの残存寿命推定のための画像データセット [cs.CV, cs.LG]目的：合成繊維ロープの残存寿命推定のための画像データセット
- 洋上クレーンや風力タービン設置など，ロープの破断は重大事故や稼働停止に繋がるため，安全性が重要視される。
- データ駆動型状態監視の研究が進むも，合成繊維ロープの劣化過程全体を捉えた公開画像データセットが存在しない。
- 制御された疲労試験下でロープの劣化ライフサイクルを網羅する画像データセットを提供し，残存寿命推定を支援する。
- 11本のDyneema SK75/78ロープサンプルに対し，60kNから280kNの7段階の荷重で疲労試験を実施し，約34,700枚の高解像度画像を収集した。
- ロープは機械的破壊まで荷重され，疲労寿命は695サイクルから8,340サイクルまで変動した。ロープ表面の劣化を捉えるため，一定サイクル毎に複数箇所から画像を撮影した。
- 各画像にはサイクル数が注釈されており，残存寿命の直接計算が可能である。本データセットは，機械学習による状態監視や予知保全技術の開発に貢献する。
Link: https://arxiv.org/abs/2605.04262
自律走行における説明可能なマルチタスク分類のための固定閾値とドメイン固有のベンチマークの限界を超える [eess.SY, cs.SY, math.OC, cs.CL, cs.CV, cs.RO]目的：自律走行における説明可能なマルチタスク分類の性能向上
- 自律走行システムにおいて，周囲の状況を理解することは安全な走行に不可欠である。
- 深層学習モデルはブラックボックスであり，透明性と安全性の確保が課題である。
- マルチタスクによる視覚理解を通じて，自律走行システムの透明性と安全性を向上させる。
- 従来の固定閾値を用いた手法が，マルチタスクシナリオにおいて最適でないことが示された。
- 提案手法である適応的閾値選択により，様々なタスクにおいてF1スコアが向上した。
- IUST-XAI-ADという新しいデータセットが，多様な運転状況における評価を可能にし，文化的な運転行動の洞察をもたらした。
Link: https://arxiv.org/abs/2605.04299
階層型ビジュアルエージェント：高度なグラフ推論のための画像とテキストの共同空間におけるコンテキスト管理 [cs.CV, cs.CL]目的：高度なグラフ質問応答におけるコンテキスト管理
- グラフデータの分析は，複雑な情報を理解し，意思決定を支援するために不可欠である。
- 既存のマルチモーダルLLMは，複数のサブプロットにまたがる多段階推論で苦戦することが多い。
- グラフ推論において，重要な情報を効率的に管理し，推論精度を向上させることを目指す。
- 提案手法HierVAは，画像とテキストの共同空間でコンテキストを構築・更新する階層型ビジュアルエージェントフレームワークである。
- HierVAは，高レベルのマネージャーが計画を生成し，主要情報のみを含むコンパクトなコンテキストを維持する。
- 実験の結果，CharXivデータセットにおいて既存のベースラインモデルを上回る性能が確認された。
Link: https://arxiv.org/abs/2605.04304
ノイズ除去のための学習に基づく統計的改善 [cs.LG, cs.CV, eess.IV]目的：ノイズ除去結果の改善
- 画像処理において，ノイズ除去は高品質な画像取得や分析に不可欠な処理である。
- 既存手法は正確なノイズモデルやクリーンな画像が必要であり，現実的な状況下では性能が制限される。
- ノイズ分布の知識がない状況下で，ノイズ統計との整合性を高め，ノイズ除去品質を向上させる。
- 提案手法は，ノイズ分布の正確な情報なしに，ノイズ統計との整合性を評価し，ノイズ除去結果を改善する。
- 補助信号のベイズ推定に基づく手法により，ノイズデータから統計情報を活用し，ノイズ除去の質を向上させる。
- 実験結果から，提案手法がノイズ統計との整合性を高め，既存手法よりも優れた性能を示すことが示された。
Link: https://arxiv.org/abs/2605.04332
ノルム制約下ビームフォーミングのための適応的対角荷重 [eess.SY, cs.IT, cs.SD, cs.SY, math.IT, stat.AP]目的：大規模マイクロホンアレイにおける信頼性の高い適応ビームフォーミングの実現
- 大規模アレイは，騒音環境下での音声認識や定位において重要である。その性能はビームフォーミングに大きく依存する。
- 動的な音響環境下では，空間相関行列の推定に必要なデータが不足し，ビームフォーミングの性能が低下しやすい。
- 本研究は，ビームフォーミングの安定性とロバスト性を向上させ，目標信号のキャンセルを抑制することを目的とする。
- 提案手法は，ホワイトノイズゲイン(WNG)が指定された範囲内に収まることを保証する適応的対角荷重法である。
- WNGと相関行列の条件数の上限との関係をKantorovichの不等式を用いて明らかにした。
- トレースベースのboundingから完全な固有値分解まで，計算複雑度の異なる3つの荷重レベル推定手法を提示した。
Link: https://arxiv.org/abs/2605.04342
スケーラブルなForward-Forward学習のための共分散を考慮した良さの指標 [cs.LG, cs.CV]目的：スケーラブルなForward-Forward学習における性能向上
- 深層学習モデルの学習には大量の計算資源が必要であり，効率化が求められている。
- 従来のForward-Forward学習法は，特に画像認識のような複雑なタスクでバックプロパゲーションに劣る。
- 特徴量の共分散情報を活用することで，Forward-Forward学習の性能を向上させる。
- Bi-axis Covariance Goodness (BiCovG)を導入し，特徴量間の共分散と空間相関を捉えることで，性能低下を抑制した。
- 提案手法により，Viable Forward-Forward学習の深さを浅いモデルから16層アーキテクチャ（VGG-16）に拡張することに成功した。
- ImageNet-100で73.01%，Tiny-ImageNetで50.30%という結果を得て，メモリ使用量を約50%削減した。
Link: https://arxiv.org/abs/2605.04346
InterFuserDVS：安全な強化学習ベースの意思決定のためのイベント強化センサーフュージョン [cs.CV]目的：自動運転における安全な意思決定のためのセンサーフュージョン手法
- 自動運転システムの安全性向上には，周囲環境の正確な認識が不可欠である。
- 従来のRGBカメラとLiDARは，高速走行時や逆光などにおいて認識精度が低下する。
- イベントカメラの特性を活かし，従来のセンサーの弱点を補完する。
- 提案手法InterFuserDVSは，CARLA Leaderboardにおいて競争力のあるDriving Score 77.2を達成した。
- ルート完了率は100%であり，イベントカメラの追加がロバスト性を向上させることを示唆する。
- イベントベースの視覚が，悪条件下や動的な状況下での安全性と性能改善に貢献する。
Link: https://arxiv.org/abs/2605.04355
中間表現は強力なAI生成画像検出器である [cs.CV, cs.LG]目的：AI生成画像の検出
- AI技術の急速な発展に伴い，生成画像の利用が拡大している。
- 生成画像の悪用が懸念され，効果的な検出手法が求められている。
- 既存手法の汎化性能と検出精度を向上させる。
- 提案手法は，GenImageおよびForensics Smallの2つのベンチマークにおいて，既存手法を上回る性能を示した。
- Forensics Smallベンチマークでは，最高の訓練不要手法と比較してAUROCスコアが39.61%向上した。
- また，最高の訓練型手法と比較してAUROCスコアが5.14%向上した。
Link: https://arxiv.org/abs/2605.04358
キャプチャ時最適化：車内非接触心拍数モニタリングのための高度適応型露出制御 [cs.CV, cs.SY, eess.SY]目的：車内における非接触心拍数モニタリングの精度向上
- 運転者の健康状態の把握は，安全運転の確保に不可欠であり，その重要性は高い。
- 光の変化が大きい車内環境では，従来の露出制御方法では安定した測定が困難である。
- 予測モデリングに基づいた露出制御により，変動する照明条件下でも心拍数モニタリングの精度を向上させる。
- 提案手法は，固定露出やカメラ内蔵の自動露出と比較して，心拍数推定誤差を大幅に低減した。
- MAEを6.31 bpm削減（14.1から7.79 bpmへ），心拍数モニタリング成功率を32.3%向上（24.9%から57.2%へ）した。
- 暗所や強烈な光環境下でも心拍数モニタリング性能が改善され，本手法の有効性が確認された。
Link: https://arxiv.org/abs/2605.04397
ハミルトニアン力学によるディープフェイク検出 [cs.CV, cs.AI]目的：ディープフェイクの検出
- 生成AI技術の急速な発展に伴い，ディープフェイク検出の重要性は増している。
- ディープフェイク検出器は，新しい偽造技術に対応するため，定期的な再調整が必要となる。
- 静的パターン認識から動的安定性解析への転換による，ディープフェイク検出手法の確立。
- 本研究では，画像潜在多様体をポテンシャルエネルギー表面としてモデル化し，ディープフェイクと本物の画像を区別する。
- ハミルトニアン力学に着想を得たダイナミクスを用いて安定性を評価し，ディープフェイクが高いエネルギー状態に存在することを示す。
- 提案手法HAADは，既存の最先端手法を凌駕し，クロスデータセット転送ベンチマークにおいて優れた性能を発揮した。
Link: https://arxiv.org/abs/2605.04405
都市建設変化モニタリングにおけるUAV：新たなベンチマークと変化キャプションモデル [cs.RO, cs.CV]目的：都市部の建設変化を記述するキャプションの生成と変化検出
- リモートセンシング技術は，広範囲な土地利用変化の把握に不可欠であり，都市計画や防災に役立つ。
- 既存手法は，変化の構造的意味を明示的にモデル化せず，変化検出とキャプション生成の要求間の矛盾に苦慮している。
- 本研究は，高解像度な都市建設シナリオに対する変化の記述能力向上を目指す。
- 提案手法PTNetは，プロトタイプバンクによる構造化された変化意味のモデル化により，従来のモデルを上回る性能を示した。
- PTNetは，変化検出から得られる空間的情報をキャプション生成に活用し，意味的な一貫性と空間的な詳細を両立している。
- 大規模なUAVベンチマークUCCDを構築し，都市建設モニタリングにおける変化キャプションの研究を促進する。
Link: https://arxiv.org/abs/2605.04409
XAI指標の評価カード [cs.CV, cs.AI, cs.CY, cs.LG]目的：XAI指標評価の標準化
- AIの信頼性向上は重要であり，説明可能なAI(XAI)はその鍵となる。
- XAI指標の定義や報告が一貫せず，検証も不十分な状況である。
- 評価報告の透明性向上を目指し，XAI研究の信頼性を高める。
- 本研究では，XAI評価指標を伴う研究に付随するドキュメントテンプレート「XAI評価カード」を提案した。
- このカードは，評価対象特性，根拠レベル，指標の前提，検証証拠などを明示的に記述する。
- 評価の断片化を減らし，メタ分析を支援し，XAI研究の責任追及を改善すると考えられる。
Link: https://arxiv.org/abs/2605.04410
構造化された3D潜在表現は驚くほど強力である：2D拡散を用いた汎用的なスタイルの解放 [cs.CV]目的：3Dスタイル変換のための汎用的なスタイル事前知識の活用
- ゲームやVRなど，高品質3Dオブジェクトの迅速な生成が求められる分野において，3Dアセット生成は重要な役割を担っている。
- 既存手法は，訓練データ分布内のスタイル画像に依存するため，分布外のスタイルに対して性能が著しく低下する。
- 本研究は，汎用的なスタイル事前知識を用いて，分布外のスタイルにも対応可能な3Dスタイル変換を実現することを目指す。
- 提案手法DiLASTは，事前学習済みの2D拡散モデルを教師として活用し，3D潜在表現をスタイルに沿って最適化することで，高品質な3Dスタイル変換を可能にする。
- 実験結果から，構造化された3D潜在表現が十分に活用されていなかったことが，既存手法の課題の原因であることが示唆された。
- 限られたデータで訓練された3D生成モデルでも，2D拡散モデルのガイダンスにより，多様な分布外スタイルを生成できることが確認された。
Link: https://arxiv.org/abs/2605.04412
解釈可能なプロンプト学習のための共同セマンティックトークン選択とプロンプト最適化 [cs.CV]目的：解釈可能なプロンプト学習のためのフレームワーク
- 画像とテキストの関連性を高めるモデルの重要性が増している
- 既存手法では過学習や解釈性の低さが課題となっている
- 解釈性と精度を両立するプロンプト学習手法を提案する
- 提案手法は，セマンティックトークン選択と継続的なプロンプト最適化を交互に行うことで，解釈可能性を向上させる
- セマンティックトークン選択を近似的なサブモジュール最適化問題として定式化し，人間が理解しやすい多様なトークンを推奨する
- 複数のベンチマークで，既存のプロンプト学習手法と比較して，解釈性と精度を同時に改善することを示した
Link: https://arxiv.org/abs/2605.04425
Ground4D: 非構造化オフロード環境における空間的制約を加えた4D再構成 [cs.CV]目的：非構造化オフロード環境における4D再構成の性能向上
- 自動運転において，周囲環境の正確な3次元把握は不可欠であり，4D再構成はその重要な要素である。
- オフロード環境では，高周波な形状，エゴモーションの揺らぎ，非剛体な動きが複雑に絡み合い，再構成の精度を低下させている。
- 空間的制約を加えることで，時間的な矛盾を解消し，オフロード環境における4D再構成の品質を改善すること。
- Ground4Dは，空間的に局所化された条件付けによって時間的な矛盾を解決する，空間的制約を加えた4D再構成フレームワークである。
- ボクセル単位での時間的ガウス集約と，ボクセル内ソフトマックス正規化により，時間選択性と空間占有率を相互に強化する。
- ORAD-3DとRELLIS-3Dの実験結果から，Ground4Dが既存手法を凌駕し，未知のオフロード環境にも汎化することが示された。
Link: https://arxiv.org/abs/2605.04435
表情認識のためのクロスモーダルネットワーク [cs.CV]目的：表情認識のための新たなネットワーク構造
- 表情認識は，人間が自然なコミュニケーションを行う上で不可欠な要素である。
- 既存手法は，顔の階層的な情報に依存しがちで，表情の本質的な特徴を捉えきれない場合がある。
- 顔の対称性や左右分割による補完的な特徴抽出を通じて，より安定した表情認識を目指す。
- 提案手法CMNetは，SCNやLAENet-SAといった既存手法と比較して，表情認識性能において優れていることが実験的に示された。
- 顔全体の対称性，および左右半分の顔から表情情報を学習し，補完的な特徴抽出を実現している。
- 顕著な顔情報を洗練化するモジュールにより，安定した表情分類器を構築し，左右半分の顔情報のずれを最適化する機構が組み込まれている。
Link: https://arxiv.org/abs/2605.04439
LEGO：LoRAを活用した生成モデル指向の合成画像検出フレームワーク [cs.CV]目的：合成画像の検出
- 生成技術の発展に伴い，偽情報対策が喫緊の課題となっている
- 既存手法は汎用的な特徴に依存し，生成モデルの多様性増加に伴い汎化性能が低下する
- 生成モデル固有のアーティファクトを捉え，ロバストな検出を実現する
- LEGOは，生成モデルごとに事前学習されたLoRAモジュールと，それを制御するMLP，そして注意機構による特徴融合を組み合わせる。
- LoRAモジュールを段階的に学習させることで，汎化性能と特異アーティファクトの捉え方の両立を実現した。
- 従来のSOTA手法と比較して，少ない学習データ量とエポック数で高い性能を達成した。
Link: https://arxiv.org/abs/2605.04445
医療基礎モデルに対する深層リプログラミング蒸留 [cs.CV]目的：医療基礎モデルの特定医療シナリオへの適応
- 大規模データセットで事前学習された医療基礎モデルは，多様な性能を示すため重要である。
- 事前学習と下流タスクの乖離や計算資源の制約から，特定シナリオへの適応が課題となる。
- ドメインやタスクの差異を克服し，効率的な知識転移を実現する。
- 提案手法DRDは，18の医療下流タスクにおいて既存手法を上回る性能を示した。
- DRDは，2D/3D分類，2D/3Dセグメンテーションを含む多様なシナリオで有効であることが確認された。
- 中心核アラインメント蒸留により，異なる学習条件におけるロバストな知識転移を促進した。
Link: https://arxiv.org/abs/2605.04447
RemoteZero：アノテーションなし地理空間推論 [cs.CV]目的：地理空間推論におけるモデルの性能向上
- 地球観測において，複雑な空間的意味とユーザーの意図を正確な位置に結びつける能力が重要である。
- 既存手法は推論経路を自動化するものの，正確な座標のアノテーションに依存しており，自己進化を妨げている。
- アノテーションなしの遥感データを用いて，モデルが自己検証を通じて性能を向上させることを目指す。
- RemoteZeroは，ボックスアノテーションなしで地理空間推論を行うフレームワークであり，検証能力を重視する。
- モデルは，座標を直接生成するのではなく，領域がクエリを満たすかを検証することで学習する。
- 実験の結果，RemoteZeroは教師あり学習法と同等の性能を達成し，自己検証学習の可能性を示唆している。
Link: https://arxiv.org/abs/2605.04451
StableI2I：画像変換における意図しない変化の検出 [cs.CV, cs.AI]目的：画像変換における内容の忠実性と変換前後の整合性の評価
- 画像変換技術は，多様な応用分野で不可欠であり，その性能評価が重要である。
- 既存の評価指標は指示の遵守や美的品質に偏っており，意味的対応や空間構造の維持が評価されていない。
- 入力画像の内容と構造が変換後も維持されているかを定量的に評価する手法を確立すること。
- StableI2Iは，参照画像なしで，幅広い画像変換タスクにおける内容の忠実性と一貫性を評価する統一的なフレームワークである。
- StableI2I-Benchは，大規模言語モデルによる忠実性と一貫性の評価精度を体系的に評価するためのベンチマークである。
- StableI2Iの評価は，人間の主観的判断と強い相関があり，実用的な評価ツールとして機能する。
Link: https://arxiv.org/abs/2605.04453
Stream-T1：ストリーミング動画生成のためのテスト時スケーリング [cs.CV]目的：ストリーミング動画生成におけるテスト時スケーリング手法
- 動画生成技術は，エンターテインメントから教育まで幅広い分野で活用が期待されており，その重要性は増している。
- 拡散モデルに基づくテスト時動画生成は計算コストが高く，時間的な一貫性を保つのが難しいという課題があった。
- ストリーミング動画生成に特化したテスト時スケーリングフレームワークを開発し，効率性と品質向上を目指す。
- Stream-T1は，過去のチャンクノイズを活用することで時間的な依存関係を確立し，計算コストを大幅に削減した。
- 生成候補の評価において，短期的な美的品質と長期的な時間的一貫性のバランスを最適化する報酬プルーニング手法を導入した。
- KVキャッシュから排除されたコンテキストを報酬フィードバックに基づいて動的に更新することで，視覚情報のアンカー効果を高めた。
Link: https://arxiv.org/abs/2605.04461
情報協調：信頼性の高い自律運転シーン理解のためのニューロシンボリックアーキテクチャ [cs.CV]目的：自律運転シーン理解におけるセマンティック整合性と検証可能性の確保
- 自動運転の安全性を高めるには，周囲環境の正確な認識が不可欠である。
- 既存システムでは，センサー情報の矛盾や冗長性が，誤った判断を招く可能性がある。
- 異なるセンサー情報を協調させ，一貫性のあるシーン表現を構築することで，誤認識を抑制する。
- 提案手法InfoCoordiBridgeは，BEV中心のニューロシンボリックアーキテクチャを採用し，知覚と推論の間に明示的な協調ブリッジを設ける。
- 実験結果から，InfoCoordiBridgeは3D検出精度を維持しつつ，融合の一貫性を大幅に向上させ，冗長性を1%以下に削減し，属性の一致率を約98%達成した。
- NuScenes-QAおよびWaymo-QAベンチマークにおいて，事実に基づいた根拠付けを強化し，幻覚的なエンティティへの言及を減少させた。
Link: https://arxiv.org/abs/2605.04475
ナッシュ均衡における拡散モデル：汎用的な嗜好性調整に向けて [cs.LG, cs.CV]目的：拡散モデルの汎用的な嗜好性調整
- 画像生成AIの性能向上には，人間の嗜好に沿った調整が不可欠である。
- 既存手法はBradley-Terryモデルに依存し，複雑な人間の嗜好を捉えきれない場合がある。
- ゲーム理論的視点を取り入れ，自己対戦による改善を目指す。
- 提案手法Diff.-NPOは，既存の嗜好性ベースの拡散モデル調整手法を様々な指標において上回る。
- Diff.-NPOは，自己対戦を通じて，より良い嗜好性調整を実現する。
- 拡散モデルの調整を，ゲーム理論的な枠組みで捉えることで，より汎用的なアプローチを可能にする。
Link: https://arxiv.org/abs/2605.04494
事例に基づく物体検出 [cs.CV, cs.AI]目的：物体検出における誤検出・未検出の再発防止
- 物体検出技術は近年目覚ましい進歩を遂げており，実用的な応用範囲が拡大している。
- 既存手法では，誤検出や未検出が依然として発生し，特に同じ対象の誤り再発は許容されない。
- 過去の誤検出・未検出事例を活用し，モデルの再学習コストを抑えつつ，検出精度向上を目指す。
- 提案手法EBODは，プロンプトベース検出器SAM3と特徴量マッチングモジュールを組み合わせる。
- EBODは，過去の誤り事例を活用することで，誤検出・未検出の再発を効果的に抑制する。
- 追加のモデル再学習は不要であり，人的・計算資源のコスト削減に貢献する。
Link: https://arxiv.org/abs/2605.04501
DiffCap-Bench：画像差分キャプションのための包括的かつ挑戦的な堅牢なベンチマーク [cs.CV, cs.AI]目的：画像間の差異を正確に特定する自然言語記述の生成
- 画像認識，自然言語処理の融合領域であり，AIの視覚的理解能力向上に不可欠である。
- 既存のベンチマークは多様性と構成の複雑さに欠け，評価指標も不十分である。
- より包括的かつ堅牢な評価を可能にするベンチマークと評価プロトコルの開発。
- DiffCap-Benchは，10種類の差異カテゴリを網羅し，多様性と複雑性を確保したベンチマークである。
- LLMを評価者として活用する評価プロトコルにより，モデルの視覚変化の捉え方と記述能力を評価する。
- Proprietaryモデルとオープンソースモデルの性能差が明らかになり，推論能力の重要性が示された。
Link: https://arxiv.org/abs/2605.04503
SpecPL：プロンプト学習におけるスペクトル粒度の分離 [cs.CV, cs.AI, cs.CL, cs.LG]目的：プロンプト学習のためのスペクトル粒度の分離
- マルチモーダル大規模言語モデルの性能向上は，画像とテキストの融合に不可欠である。
- 既存手法では，視覚エンコーダーが固定されており，画像の特徴量の粒度を十分に活用できていない。
- スペクトル粒度の分離により，視覚情報の詳細な識別能力を向上させ，汎化性能を高める。
- 提案手法SpecPLは，視覚信号を低周波と高周波に分解し，テキスト表現を低周波の普遍的な不変量に固定することで，過学習を抑制する。
- 高周波信号を置換するカウンターファクチュアル粒度学習により，モデルは視覚的な粒度と意味的不変性の区別を明示的に学習する。
- 11のベンチマークにおいて，最先端の性能を達成し，調和平均精度81.51%という新たな上限を確立した。
Link: https://arxiv.org/abs/2605.04504
Ilov3Splat：ガウススプラッティングにおけるインスタンスレベルのオープンボキャブラリ3Dシーン理解 [cs.CV, cs.AI]目的：オープンボキャブラリ3Dシーン理解のためのフレームワーク
- 3Dシーン理解はロボティクスや拡張現実など，多くの分野で不可欠な技術である。
- 既存手法は2Dレンダリングに依存し，視点間の整合性やインスタンスレベルの推論が課題であった。
- 自然言語による記述に基づいた3Dシーンのオブジェクト識別・セグメンテーションを可能にすること。
- Ilov3Splatは，ガウススプラッティング上でシーンの幾何学とセマンティック表現を同時に最適化する。
- マルチ解像度ハッシュ埋め込みを活用し，3D空間における言語と特徴量の密な対応付けを実現した。
- 標準ベンチマークにおいて，既存のオープンボキャブラリ3D-GS手法をオブジェクト選択とインスタンスセグメンテーションの両方で上回る性能を示した。
Link: https://arxiv.org/abs/2605.04506
コヒーレントラスター：ライトフィールドディスプレイのための効率的な3Dガウススプラッティング [cs.CL, cs.GR]目的：ライトフィールドディスプレイにおけるリアルタイムレンダリングの効率化
- 視覚体験の向上に貢献するライトフィールドディスプレイ技術の発展が求められている
- 従来のレンダリング手法では計算負荷が高く，リアルタイム処理が困難であった
- 3Dガウススプラッティングをライトフィールドディスプレイに適用する際の計算効率を改善する
- 提案手法「コヒーレントラスター」は，サブピクセルレベルのラスタライズを導入することで，計算冗長性を削減している。
- クロスビューコヒーレント属性再利用により，隣接する視点間での不要な計算を排除し，効率的な処理を実現している。
- ビューコヒーレントリマッピングにより，メモリ効率を維持しつつ，高品質なライトフィールド合成を可能にしている。
Link: https://arxiv.org/abs/2605.04509
事前知識から知覚へ：物理現実に基づいたVideo-LLMの構築 [cs.CV]目的：Video-LLMにおける微細な物理的推論の能力向上
- 映像理解の高度化は，ロボティクスや自動運転など，現実世界とのインタラクションにおいて不可欠である。
- 既存のVideo-LLMは，詳細な物理的推論において系統的な欠陥を示す点が課題である。
- 内部のナラティブに影響されやすいVideo-LLMに対し，視覚的事実に基づく推論を促すことを目指す。
- 提案手法（PACCとVARC）は，既存モデルのアーキテクチャを大幅に変更することなく，LoRAファインチューニングで効果を発揮する。
- 物理法則に基づいた高品質な敵対的ビデオデータセット（PACC）と，視覚情報に基づいた推論を強制する手法（VARC）を開発した。
- 実験により，提案手法が既存モデルの事前知識による干渉を抑制し，物理的推論能力を大幅に向上させることが示された。
Link: https://arxiv.org/abs/2605.04515
DALight-3D：マルチモーダルMRIからの脳腫瘍セグメンテーションのための軽量3D U-Net [cs.CV, cs.LG, cs.NE]目的：マルチモーダルMRIからの脳腫瘍セグメンテーション手法
- 脳腫瘍の早期発見と正確な診断は，治療成績向上に不可欠である。
- 従来の3Dモデルは計算コストが高く，実用上の制約となる場合がある。
- 計算コストを抑えつつ，セグメンテーション精度を維持することを目的とする。
- DALight-3Dは，標準的な3D U-Netと比較して，パラメータ数を削減しつつ，同程度のDice係数（0.727 vs 0.710）を達成した。
- 深さ方向分離畳み込み，識別子条件正規化，クロススライス注意機構，適応的スキップ融合が，性能向上に貢献している。
- 各コンポーネントの除去実験により，提案手法の有効性が確認された。
Link: https://arxiv.org/abs/2605.04518
単一画像からの高精度頭部モデリング：業界標準のトポロジーで [cs.CV, cs.GR]目的：単一画像からの頭部メッシュ再構成
- デジタルヒューマン制作において，リアリティと効率性が重要であり，高品質な3Dモデルが求められている。
- 単一画像からの3D頭部再構成は，姿勢や照明条件の影響を受けやすく，精度とロバスト性に課題がある。
- 顔のアイデンティティを維持しつつ，業界標準のトポロジーを持つ高品質な頭部モデルを生成すること。
- 提案手法は，粗から細への最適化パイプラインを用いることで，安定した収束と一貫したトポロジーを実現した。
- 法線一貫性目的関数とランドマークアライメントにより，単一画像からの再構成の困難さを克服し，顔のアイデンティティを保持した。
- ユーザー調査の結果，専門家から業界標準レベルの有用性があると評価され，その有効性が示された。
Link: https://arxiv.org/abs/2605.04524
Velox：4次元幾何学と外観の表現学習 [cs.RO, cs.CV]目的：4次元オブジェクトの潜在表現
- 3次元コンピュータビジョンの発展に伴い，動的な形状の表現が重要視されている。
- 従来の動的形状の表現は，計算コストが高いか，十分な表現力がないという課題があった。
- 入力が少ない動的点群から，効率的に幾何学と外観を捉えた表現を学習することを目指す。
- Veloxは，時空間的なカラー点群を動的な形状トークンに圧縮するエンコーダを学習する。
- 形状トークンは，幾何学をモデル化する4次元表面デコーダと，外観を学習するガウスデコーダによって教師あり学習される。
- 動画からの4次元生成，3Dトラッキング，画像からの4次元生成を用いた布シミュレーションで高い性能が確認された。
Link: https://arxiv.org/abs/2605.04527
報酬誘導による意味進化：テスト時適応物体検出 [cs.CV]目的：テスト時分布シフト下における物体検出性能の低下に対する対策
- 物体検出は，画像認識の重要な課題であり，様々な応用分野で活用されている。
- 既存の視覚言語モデルは，テスト時の分布シフトに弱く，性能が低下しやすい。
- テキスト埋め込みと視覚埋め込み間の意味的なずれを，学習なしで直接的に解消することを目指す。
- 提案手法RGSEは，テキスト埋め込みを報酬誘導によって進化させ，テスト時に効率的に適応させる。
- バックプロパゲーションを用いず，複数の物体検出ベンチマークで最先端の性能を達成した。
- 計算コストの増加も最小限に抑えられている。
Link: https://arxiv.org/abs/2605.04531
Angle-I2P：角度整合性を考慮した階層的注意機構によるクロスモーダル外れ値除去 [cs.CV]目的：クロスモーダル外れ値除去における角度整合性に基づく手法
- ロボットの操作，把持，位置推定等のタスクにおいて，画像と点群の正確な対応付けが重要である。
- 初期対応ペアの内訳率が低い場合，従来のPnP法では正確な結果を得ることが困難である。
- 角度整合性という幾何学的制約と階層的注意機構により，低い内訳率下での登録精度向上を目指す。
- 提案手法Angle-I2Pは，角度整合性に基づくクロスモーダル幾何学的制約を導入し，外れ値の識別性能を高める。
- グローバルからローカルへの階層的注意機構により，剛体変換下で幾何学的に矛盾するマッチングを効果的にフィルタリングする。
- 7Scenes，RGBD Scenes V2，および自己収集データセットにおいて，最先端の性能を達成した。
Link: https://arxiv.org/abs/2605.04541
段階適応オーディオ拡散モデリング [cs.SD, cs.AI]目的：オーディオ拡散モデルの学習効率向上
- 近年のオーディオ生成・修復技術の進歩は著しいが，計算コストが大きい。
- 従来の学習法では，学習信号の重要度を固定しており，効率が悪い。
- 学習段階に応じた信号の重要度調整により，効率的な学習を目指す。
- SSL空間での不一致の傾きから学習段階を把握し，段階に応じた学習メカニズムを開発した。
- 早期段階ではSSLガイダンスを減衰させ，意味的構造の学習を促進する。
- 段階適応戦略により，収束が改善され，生成・スペクトル再構成の精度が向上した。
Link: https://arxiv.org/abs/2605.04547
InterMesh：明示的な相互作用を考慮したエンドツーエンド複数人物ヒューマンメッシュ復元 [cs.CL, cs.CV]目的：複数人物のヒューマンメッシュ復元における，人間と環境，人間同士の相互作用の明示的モデリング
- 人間の行動理解において，周囲との関係性を把握することは重要である。それらはロボット工学やVR/ARへの応用も期待される。
- 既存手法は相互作用を暗黙的に捉えており，人間と物体，または人間同士の具体的な相互作用に関する推論が不十分である。
- 人間と環境，人間同士の相互作用情報を明示的に組み込むことで，より正確な姿勢と形状の推定を実現することを目指す。
- 提案手法InterMeshは，人間と物体相互作用検出器を活用し，クエリ表現に構造化された相互作用セマンティクスを付加する。
- 軽量モジュールである文脈的相互作用エンコーダと相互作用誘導リファイナーにより，既存のHMRアーキテクチャへの統合を容易に実現。
- CMU PanopticにおいてMPJPEを9.9%削減し，Hi4Dでは8.2%削減するなど，複雑な相互作用シナリオにおいて高い有効性を示した。
Link: https://arxiv.org/abs/2605.04554