arXiv雑要約

画像・音声 - 2026/06/16 公開

DETR様式の集合予測とコントラスト的ノイズ除去による3Dワイヤーフレーム予測 [cs.CV]目的：3D建築ワイヤーフレームの予測
- 3次元空間の理解は，ロボティクスやAR/VRなどの応用において不可欠である。
- 点群データからの正確なワイヤーフレーム抽出は，ノイズや遮蔽の影響を受けやすい。
- 不安定なHungarianマッチングを安定化し，ワイヤーフレームの予測精度向上を目指す。
- 提案手法WireframeDETRは，S23DR 2026 Challengeにおいて，中間的な頂点検出段階なしに3D点群からワイヤーフレームを直接予測する。
- コントラスト的ノイズ除去，マルチスケールエンコーダ，漸進的補助損失重み付けの導入により，学習の安定性と性能向上を実現した。
- パブリックテストにおいてHSS 0.575 (F1~0.664, IoU~0.516)を達成し，cleaned val splitではHSS 0.534を記録した。
Link: https://arxiv.org/abs/2606.14811
空間オーディオ基盤モデルにおけるスペクトル一時干渉が位相エンコーディングを混乱させる [cs.MA, physics.soc-ph, cs.SD, cs.AI, cs.CL, eess.AS]目的：空間オーディオ基盤モデルにおける位相エンコーディングのメカニズム解明
- 空間聴覚は臨場感豊かな体験に不可欠であり，その再現には高精度な音源定位が求められる。
- 従来のモデルは微小な時間差に基づく位相情報への対応が不十分であり，定位精度に課題が残る。
- 本研究は，空間オーディオモデルが位相情報を適切にエンコードしているかを検証し，その課題を明らかにする。
- バイノーラルマスキングレベル差（BMLD）に基づく評価により，汎用バイノーラルSSLモデルは位相変化にほとんど感応しないことが示された。
- 一方，空間SSLモデルは解析的なベースラインと同程度のBMLDを示し，位相情報を活用している可能性が示唆された。
- 汎用バイノーラルSSLモデルは，位相計算ではなくスペクトル一時干渉テクスチャに依存していることが明らかになった。
Link: https://arxiv.org/abs/2606.14820
Multi-HMR 2：複数人カメラ中心型人体検出，メッシュ復元，追跡 [cs.CV]目的：複数人に対するカメラ中心座標系での人体検出，メッシュ復元，追跡
- ロボットとのインタラクションや社会環境理解など，現実世界への応用には，3次元位置の精度が重要である。
- 既存研究では，カメラ座標系における精度や検出精度が重視されておらず，実用性に課題がある。
- カメラ座標系での高精度な人体検出，メッシュ復元，追跡を実現し，実用的な応用を可能にすること。
- Multi-HMR 2は，DETRに基づいたシンプルな枠組みで，複数人に対するカメラ中心型人体検出，メッシュ復元，追跡を実現した。
- 真のカメラパラメータなしで，3次元位置の正確な推定を可能にし，検出精度と3次元位置の精度を大幅に向上させた。
- SAM2からの画像特徴を活用して追跡機能を実現し，ビデオデータなしでも一貫したIDの関連付けを達成した。
Link: https://arxiv.org/abs/2606.14841
レモンの葉病分類のためのアンサンブル深層学習アプローチ [cs.CV, cs.AI]目的：レモンの葉病分類の信頼性と拡張性向上
- 農作物の病害早期発見は，収量と品質維持に不可欠であり，農業生産の安定化に貢献する。
- 既存手法では，病状の多様性やデータのノイズに起因する誤分類が課題となっていた。
- 本研究は，アンサンブル学習と敵対的学習により，レモンの葉病を高精度に分類することを目指す。
- InceptionV3とMobileNetV2を組み合わせたアンサンブルモデルは，99.27%という高い精度を達成した。
- 敵対的学習の適用により，ノイズデータに対するモデルの頑健性が向上し，信頼性の高い予測が可能となった。
- Grad-CAMによる可視化の結果，モデルが葉病の特徴部位を正確に捉えていることが確認された。
Link: https://arxiv.org/abs/2606.14871
未来予測と視覚的好奇心に基づく拡散ポリシーを用いた地図不要の探索VANDERER [cs.CL, cs.RO, cs.CV, cs.LG]目的：未知環境における効率的な探索戦略
- ロボットが自律的に行動するためには，未踏領域の探索が不可欠である。
- 単眼カメラなどの限られたセンサーでは，正確な地図作成が困難である。
- センサー制約下での効率的な探索を可能にする手法の開発。
- VANDERERは，従来のベースラインと比較して平均13.4%広い範囲を探索できた。
- 視覚的好奇心モジュールが，ナビゲーションの世界モデルを用いて行動予測を行い，探索を促進する。
- 屋外環境において，視覚的好奇心と幾何学的好奇心との間に相関関係が認められた。
Link: https://arxiv.org/abs/2606.14879
継続的な視覚言語モデルにおけるクロスモーダル貢献の理解：理論的視点 [cs.SI, cs.DC, cs.RO, cs.CV, cs.LG]目的：継続的な視覚言語モデルにおけるクロスモーダル貢献の理論的理解
- 視覚と言語を統合したモデルは，様々な応用において重要性が増している。
- 新しいタスクに適応する際に，過去の知識を忘却する「破滅的忘却」が課題となる。
- 各タスクにおける視覚と言語の貢献度を分析し，安定学習を促進する。
- 本研究では，連続する環境におけるクロスモーダル貢献を理解するための理論的枠組みを提示した。
- 大規模な視覚言語モデルを用いた実験により，提案手法が環境レベルでのクロスモーダル貢献を捉える有効性が確認された。
- タスクの順序や類似性がモデルの頑健性と汎化性能に与える影響に関する新たな知見が得られた。
Link: https://arxiv.org/abs/2606.14883
土地利用画像分類のための知識蒸留の改良 [cs.CV, cs.AI]目的：土地利用画像分類における深層畳み込みニューラルネットワークの効率的な圧縮
- 土地利用状況の把握は，都市計画や環境保全など様々な分野で不可欠である。
- 深層学習モデルは高精度だが，計算コストが高く，組み込みシステム等への適用が難しい。
- 軽量なモデルでも高精度を維持できる知識蒸留による圧縮技術の向上を目指す。
- 提案手法は，VGG16からMobileNetV2への知識伝達により，モデルの圧縮と精度維持を両立した。
- Kullback-Leibler divergenceとCosine Similarity損失を組み合わせることで，従来の知識蒸留手法を上回る性能を実現した。
- 3つの土地利用データセットにおいて，99.04%という高い精度を達成し，ベースラインや単一損失蒸留よりも優れていることが示された。
Link: https://arxiv.org/abs/2606.14886
深部地質解釈における深層学習：塩ドームセグメンテーションの連合的進歩 [cs.CV]目的：塩ドームセグメンテーションのための連合学習フレームワークの構築と評価
- 石油探査，貯留層モデリング，掘削安全において，地下地質構造の解釈は不可欠である。
- ラベル付き地震データの不足，データバイアス，データ主権の問題が自動塩セグメンテーションの普及を妨げている。
- データ分散環境下での，ロバストかつ汎用性のある塩ドームセグメンテーション手法を確立すること。
- 提案手法FedSaltNetは，異なる地震データセット間でのデータの不均一性を効果的に軽減し，IoUを4.0%相対的に向上させた。
- 軽量なSmall U-Netアーキテクチャが，より高容量なResNet-18 U-Netアーキテクチャを平均IoUで166%上回る性能を示した。
- FedSaltNetは，次世代の地下地質解釈における連合学習の有効性を示す，検証済みの高性能ソリューションを提供する。
Link: https://arxiv.org/abs/2606.14905
測地フレームワークに基づくマスク提案投票によるロバストな画像セグメンテーション [cs.CC, cs.CV, cs.AI]目的：ロバストな画像セグメンテーションのための手法
- 画像認識や画像解析において，正確なセグメンテーションは重要な基礎技術である。
- 複雑な背景や変化する画像強度，形状により，正確なセグメンテーションは困難な課題である。
- 初期化の影響を受けやすい既存手法の課題を克服し，ロバストなセグメンテーションを実現する。
- 適応的なドメインカットを制約として用いることで，多様かつ信頼性の高いマスク候補を生成する。
- マスク投票スキームにより，各マスクの重要度を考慮した投票スコアマップを構築し，セグメンテーション精度を高める。
- 提案手法は，複雑な条件下で高い精度とロバスト性を示し，既存手法を上回る性能を実証した。
Link: https://arxiv.org/abs/2606.14912
感情的な音声合成のための潜在表現学習に関する実証研究 [cs.CY, cs.HC, cs.SD, cs.AI, cs.CL, eess.AS]目的：感情的な音声合成における潜在表現の学習
- 深層学習の進展により音声合成の品質が向上しており，より自然で明瞭な音声の生成が可能となっている。
- 表現力の制御が課題であり，多様なスタイルや感情を伴う音声生成が求められている。
- 感情的な音声合成タスクにおいて，人間らしい自然な音声を生成することを目的とする。
- FastSpeech 2に話者埋め込みと韻律ボトルネックを統合することで，単一話者の感情的な音声生成に有望な結果が得られた。
- 別の話者のスタイルをターゲット話者に転送し，ターゲット話者のアイデンティティを維持しながら，感情的な音声を生成できることが示された。
- VLSP 2022の感情的な音声合成タスクにおいて，本システムが有効であることが確認された。
Link: https://arxiv.org/abs/2606.14922
深層ネットワークにおける単純な補助分類器を用いたFlexPooling [cs.CV]目的：深層ネットワークにおける新しい適応プーリング手法
- 画像認識において，畳み込みニューラルネットワークは重要な役割を担う。
- 従来のプーリング手法は情報損失を伴うため，特徴量の識別能力が低下する可能性がある。
- 活性化の重要な情報を保持し，ネットワークの識別能力を向上させるプーリング手法を開発する。
- 提案手法FlexPoolingは，従来のプーリング手法と比較して，画像分類において一貫して高い精度を示す。
- FlexPoolingは，ネットワーク全体と同時に学習することで，活性化の加重平均を効果的に行う。
- Simple Auxiliary Classifiers (SAC)の追加により，FlexPoolingの性能がさらに向上することが示された。
Link: https://arxiv.org/abs/2606.14926
マルチモーダル神経画像のための疎な潜在的予測基盤モデルの学習 [cs.CV]目的：マルチモーダル神経画像表現学習のためのスケーラブルな方法論的枠組み
- 脳MRIは疾患診断や研究において不可欠であり，多様なコントラストを持つ複数のシーケンスが用いられる。
- 異なるMRIコントラスト間の統一的な表現学習手法が，大規模なヘルスシステムレベルで不足している。
- T1w，T2w，FLAIR画像を含む脳MRIのマルチモーダル表現学習を効率的に行うこと。
- Neuro-JEPAは，T1w，T2w，FLAIRの主要な構造的脳MRIシーケンスを効率的にエンコードする。
- 既存の神経画像基盤モデルと比較して，Neuro-JEPAはより強く，かつ一貫した性能を示した。
- 臨床的に多様なコホートと制御されたマルチモーダル比較を含む，基盤モデル評価プロトコルの必要性が示された。
Link: https://arxiv.org/abs/2606.14957
MVEB：大規模ビデオ埋め込みベンチマーク [cs.CV, cs.IR, cs.LG]目的：ビデオ埋め込みの評価基準
- ビデオ理解は，多様な応用において重要であり，高性能な埋め込み表現が求められている。
- 既存の評価方法では，多様なタスクにおけるビデオ埋め込みの性能を網羅的に評価することが困難であった。
- 多様なタスクに対応可能な，大規模かつ効率的なビデオ埋め込み評価基準を確立すること。
- 23種類のタスクで33モデルを評価した結果，単一のモデルがすべてのタスクで優位性を示すことはなかった。
- MLLMベースの埋め込みは分類，クラスタリング，ペア分類，QAで高い性能を示し，マルチモーダルバインディングは検索とゼロショット分類で優位性を示した。
- 音声の貢献度はデータセットの注釈元に依存し，両モダリティからのラベルと視覚のみからのラベルで結果が異なることが示された。
Link: https://arxiv.org/abs/2606.14958
リモートセンシング画像と深層学習を用いた自動災害被害評価のためのマルチモーダル注意機構 [cs.CL, cs.CV, cs.AI]目的：災害被害状況の自動分類
- 災害発生時の迅速な対応や復旧活動において，被害状況の正確な把握は不可欠である。
- 従来の被害評価手法は，手作業による調査やデータ不足により，時間と労力を要し，精度に課題があった。
- 本研究は，リモートセンシング画像と深層学習を組み合わせることで，被害評価の効率化と精度向上を目指す。
- 提案手法は，災害前後の衛星画像を活用し，建物被害を「無被害」「軽微」「中程度」「全壊」の4段階で分類する。
- マルチモーダル注意機構により，時系列データの構造変化を明確に検出し，被害評価の精度を高めている。
- 大規模災害データセットを用いた実験で，全体的な分類精度94.90%を達成し，実用性を示した。
Link: https://arxiv.org/abs/2606.14963
ReGenHuman：リアルな全身ビデオ匿名化のための人物外観の再生成 [cs.CV]目的：人物を中心とするビデオデータの匿名化手法
- プライバシー保護の重要性が高まる中，ビデオデータの匿名化技術の確立が求められている。
- 既存手法は，現実感や実用性を損ねるか，時間的な一貫性に欠けるという課題があった。
- 現実性と時間的一貫性を維持しつつ，効果的に人物を匿名化することを目指す。
- ReGenHumanは，人物の外観を完全に再生成することで，プライバシー，品質，実用性のバランスを実現した。
- 本手法は，構造的情報のみを用いて人物領域を合成するため，個人識別情報を排除した匿名化が可能である。
- 匿名化されたビデオは，ビデオ質疑応答などの下流タスクにおいても有効であることが示された。
Link: https://arxiv.org/abs/2606.14972
手続き型データ拡張によるより豊かなマテリアル生成へ [cs.GR]目的：マテリアル生成のためのデータ拡張手法
- 現実的なマテリアル表現は，コンピュータグラフィックスにおいて重要な課題である。
- 既存のマテリアルデータは表現力に乏しく，多様な視覚効果を再現できない場合がある。
- 単純なPBRマテリアルを拡張し，より表現豊かなマテリアル生成を可能にすること。
- 単純なPBRマテリアルを，複数のローブを持つ非拡散成分を追加することで拡張する手法を提案した。
- 物理学的先験知識に基づいて非拡散成分を生成し，ダストやクリアコートなどの効果を表現する。
- 生成されたマテリアルデータセットを用いて，ビデオ拡散モデルのファインチューニングを行い，生成の実現可能性を示した。
Link: https://arxiv.org/abs/2606.14988
NEXUS：物理的に整合性の高い接触豊富な3Dオブジェクトダイナミクスに対するニューラルエネルギー場 [cs.CV, cs.AI]目的：接触豊富な3Dシーンにおける物理的に整合性の高いオブジェクトダイナミクスの生成
- 物理シミュレーションは，ロボット工学，ゲーム，視覚効果など，幅広い分野で不可欠である。
- 従来の軌道ベースの手法では，複数の物理効果を組み合わせることが難しく，物理的な整合性を保つことが課題である。
- NEXUSは，接触豊富な環境下でより自然で正確なオブジェクトの動きを生成することを目指す。
- NEXUSは，オブジェクトを構造グラフとして表現し，エネルギー場を用いることで，保守的および非保守的なダイナミクスを効果的にモデル化する。
- 制御された軌道ベンチマークにおいて，NEXUSは既存のベースラインと比較して，長期間の予測精度が向上した。
- NEXUSで生成された軌道は，接触豊かなビデオ生成において，物理的な妥当性を向上させつつ，高品質な映像を維持することが示された。
Link: https://arxiv.org/abs/2606.15015
AIを活用した子宮頸がん検診のグローバル化に向けた試み [cs.CL, cs.CV]目的：多国籍データを用いた，深層学習に基づく子宮頸がん検診手法の開発と検証
- 子宮頸がんの早期発見・治療は，世界保健機関（WHO）の重要な公衆衛生目標である。
- 低・中所得国では，専門家や生検サービスの利用が制限されているという課題がある。
- 既存のAI技術の汎用性と，多様な国における性能のばらつきを改善することを目指す。
- 本研究で開発したアルゴリズムは，病理医の専門性と同等かそれ以上の性能（0.68 vs 0.64のBalanced Accuracy）を示した。
- 4カ国における外部検証では，既存手法と比較して優れた性能が確認された。
- アルゴリズムの性能は，年齢，変形部，合併症の有無によって変動し，特に合併症が性能低下に大きく影響した。
Link: https://arxiv.org/abs/2606.15019
ReportQA：QAベースの放射線科レポート評価 [cs.CL, cs.CV]目的：放射線科レポート生成システムの評価手法
- 放射線科レポートは診断の重要な情報源であり，自動生成技術の進歩が求められている。
- 既存の自然言語処理指標は臨床的意義が低く，臨床的有効性指標も網羅性に課題がある。
- レポートの情報を活用し，より臨床現場に即した，柔軟な評価フレームワークを構築する。
- 提案手法ReportQAは，既存の指標よりも放射線科医の判断と高い一致性を示すことが確認された。
- 現在の画像とテキストを組み合わせたモデルは，詳細な臨床表現の学習が困難であり，偏りが強い傾向にある。
- 質問応答に基づいた推論は，より効果的な代替手段となり得る可能性が示唆された。
Link: https://arxiv.org/abs/2606.15037
拡散モデルに対する時間差分学習 [cs.LG, cs.CV]目的：拡散モデルの時間的一貫性向上
- 拡散モデルは高品質な画像生成を可能とするが，計算コストが高いという課題がある。
- 従来の訓練方法は，ノイズ除去軌跡の一貫性を十分に考慮していない場合がある。
- 時間差分学習を用いて，少ないステップ数でのサンプリング精度を改善すること。
- 時間差分学習を導入することで，FIDスコアによるサンプル品質が大幅に向上することが示された。
- 特に，サンプリングステップ数が少ない場合に，その効果は顕著に現れる。
- 提案手法は，様々な拡散モデルに適用可能であり，汎用性が高い。
Link: https://arxiv.org/abs/2606.15048
手術動画における解剖学的知識を考慮した物体検出のためのガウス空間事前分布 [cs.CV]目的：手術動画における解剖構造物検出の精度向上
- 手術の安全性を高めるため，術中における解剖構造物の正確な検出が重要である。
- 小さな血管など，視覚的な曖昧さや一時的な隠蔽により，検出が困難な解剖構造物が存在する。
- 解剖学的構造間の空間的関係性を事前分布として組み込み，検出精度を向上させる。
- ガウス空間事前分布モジュール（GSP）を導入し，DAB-DETRの自己注意機構に空間的バイアスを注入することで，精度が向上した。
- GSPは，訓練アノテーションから計算されたガウスパラメータを用いており，5分割交差検証において，依存クラスの検出精度をDAB-DETRより$+33.5\%$，YOLOv26より$+53.9\%$改善した。
- 全ての分割において，統計的に有意な改善が認められた($p=0.012$, ペアt検定)。
Link: https://arxiv.org/abs/2606.15049
地理的偏りを克服する都市景観推論：視覚・意味的ピボットを用いた継続学習 [cs.CV, cs.AI]目的：都市景観推論における地理的偏りの軽減
- 都市計画，公衆衛生，地域活性化において，都市景観の視覚的理解は不可欠である。
- 既存モデルは，撮影頻度の低い地域で性能が低下し，地理的偏りを増幅させている。
- 異なる地域の都市景観データを継続的に学習し，地理的偏りを低減することを目指す。
- 提案手法HVSP-LLは，12都市を対象とした評価で，既存手法を大幅に上回る性能を示した。
- 特に，都市間の知覚ギャップを38%削減し，地理的に公平な景観推論を可能にした。
- 階層的アンカーと公平性を考慮したリハーサルが，継続学習における性能向上に貢献していることが確認された。
Link: https://arxiv.org/abs/2606.15055
財と雑用Fisher市場を通じた労働経済における競争均衡 [cs.CL, cs.GT]目的：財と雑用Fisher市場を統合した枠組みにおける労働市場の競争均衡の存在と計算可能性
- 労働市場は経済活動の根幹であり，資源配分や所得決定に不可欠である。
- 従来の労働市場モデルでは，財と雑用を分離して扱うため，現実の複雑な労働取引を捉えきれない。
- 本研究は，財と雑用を統合することで，より現実的な労働市場の分析を可能にすることを目指す。
- 本研究において，非常に一般的な条件下で競争均衡が存在することが示された。
- 線形選好下では，競争均衡はEisenberg-Gale型の非凸計画問題のKKT点に対応することが示された。
- 競争均衡を計算するための多項式時間アルゴリズムが存在し，特に「CEEI-like」なケースでは強力な多項式時間アルゴリズムが得られた。
Link: https://arxiv.org/abs/2606.15060
自動車用近赤外画像におけるロバストなセマンティックセグメンテーションのためのテクスチャ・形状バイアスバランス [cs.RO, cs.CL, cs.CL, cs.CV]目的：自動車用近赤外画像におけるセマンティックセグメンテーションのドメイン適応
- 自動運転システムにおいて，周囲環境の理解は安全性確保に不可欠である。セマンティックセグメンテーションはその基盤技術となる。
- 実環境データの高品質なアノテーションは困難であり，セグメンテーションモデルの性能向上を阻害する要因となっている。
- 合成データを用いたドメイン適応技術により，アノテーションコストを削減しつつ，実環境での性能を向上させることを目指す。
- 提案手法は，潜在拡散モデルとVoronoiベースの多様化戦略を組み合わせることで，合成データと実データのドメインギャップを大幅に縮小した。
- 特に，屋外シーンにおいて最大63.6%，車内シーンでは28.4%の性能改善が確認された。
- テクスチャと形状のバイアスバランスが，セグメンテーションのロバスト性に重要な影響を与えることが示された。
Link: https://arxiv.org/abs/2606.15072
認知債務：AIを知的レバレッジとして捉え，システム的脆弱性のダイナミクス [cs.AI, cs.GT, physics.soc-ph]目的：認知債務の蓄積とそのシステム的影響
- AI技術の発展は生産性向上に貢献する一方，人間の認知能力への依存度を高める。
- AIへの過度な依存は，人間の批判的思考力や問題解決能力の低下を招く恐れがある。
- AI利用による認知的なリスクと，システム全体の脆弱性を定量的に分析し，最適利用の道筋を示す。
- AIを思考の代替手段として利用する場合，短期的な生産性向上と引き換えに，検証されない推論義務が累積し「認知債務」となる。
- 平穏な時期にはAIの代替利用が促進され，システム全体としての脆弱性が高まる。これは認知的なミンスキー・モーメントと呼ばれる。
- AIの過剰な利用は，社会全体の最適解から逸脱し，認知的なパブリック・グッズの喪失や競争激化を引き起こす可能性がある。
Link: https://arxiv.org/abs/2606.15078
同じ音楽的知識が異なる忘却を示すとき：経路依存性忘却の明確な検証 [cs.SD, cs.CL, eess.AS]目的：マルチモーダルモデルにおける知識の忘却における経路の影響
- マルチモーダル学習は，多様な情報源からの知識統合を可能にし，AIの汎用性を高める上で重要である。
- 既存の研究では，知識の獲得経路が忘却のしやすさに与える影響が十分に考慮されていない。
- 本研究は，知識獲得経路が忘却に与える影響を検証し，そのメカニズムを解明することを目的とする。
- テキスト経路で獲得された知識は，同じ内容でも音声経路で獲得された知識よりも忘れられやすいことが複数のモデルで確認された。
- Paired Pathway Controlled Protocol (PPCP)という厳密な実験プロトコルにより，この効果が経路に依存することが示された。
- 入力表現がこの経路依存性忘却の主な要因であり，モデルの構造的な深さとは関係がないことが示唆された。
Link: https://arxiv.org/abs/2606.15088
思考を減らし，早期に行動：視覚-言語-行動モデルにおける早期終了による潜在的推論の強化 [cs.CV, cs.LG, cs.RO]目的：視覚・言語・行動モデルにおける潜在的推論の効率化と安定性向上
- ロボット工学において，環境を理解し行動を決定する能力は重要である。複雑なタスクには高度な推論が必要となる。
- 既存のモデルは，計算コストが高く，多段階タスクで誤りが伝播しやすいという課題がある。
- 潜在的推論のノイズを軽減し，タスクレベルの報酬に基づいて推論経路を最適化することを目指す。
- 提案手法AVA-VLAは，明示的なCoTと比較して6倍の推論速度向上を達成した。
- LIBEROベンチマークにおいて，98.3%という高い成功率を示し，長期的な安定性を改善した。
- 状態の確信度に基づいた早期終了戦略により，効率と深さの間の動的なトレードオフを実現した。
Link: https://arxiv.org/abs/2606.15099
双曲線空間におけるテキスト駆動型赤外線および可視画像融合：画像シーンへの適応 [cs.CV]目的：赤外線画像と可視画像の融合による補完的なモダリティの統合
- 画像認識や状況把握において，異なるモダリティの情報を組み合わせることは重要である。
- 従来のユークリッド空間に基づく手法では，マルチモーダル間の相互作用や意味階層構造が歪められる問題がある。
- 双曲線多様体学習を用いて，意味階層をより自然に表現し，画像融合における歪みを抑制することを試みる。
- 提案手法は，テキストプロンプトを双曲線空間におけるトポロジカルアンカーとして利用し，視覚的特徴と属性のアラインメントを誘導する。
- ポアンカレ球の負の曲率による指数的な体積増加を利用することで，粗い粒度から細かい粒度までの意味構造を効率的にエンコードする。
- 実験結果から，提案手法がベンチマークデータセットにおいて最先端手法を上回ることが示された。
Link: https://arxiv.org/abs/2606.15104
物理駆動型ゼロショットMRI再構成：非局所画像事前知識を用いた手法 [cs.CV]目的：ゼロショットMRI再構成の性能向上
- MRIは非侵襲的な画像診断技術であり，病気の早期発見や治療に不可欠である。
- 従来法では，高品質な再構成に完全なデータセットが必要で，スキャン時間の短縮が課題であった。
- 単一のアンダーサンプリングスキャンからの再構成における課題を解決し，学習データの不足を補う。
- 提案手法は，物理的整合性と画像ドメインの非局所事前知識を組み合わせることで，再構成の安定性と精度を向上させた。
- コイル感度マップに基づく動的リポジトリが，物理的に不整合なアーチファクトを除去し，学習を安定化させる。
- SPIRiTベースの正則化と非局所自己相似性ピクセルバンクにより，高い加速率下でも最先端の性能を実現した。
Link: https://arxiv.org/abs/2606.15110
頑健な衛星映像検出のための時間的一貫性の学習 [cs.CV]目的：衛星映像における対象物検出の精度向上
- 衛星画像は広範囲の監視に有効であり，災害状況把握などへの貢献が期待される。
- 既存手法は，対象物の種類が限定的，または検出精度が十分でない場合がある。
- 衛星映像の時間的な繋がりを利用し，より正確で安定した検出を目指す。
- 提案手法TCLは，時間的一貫性学習により，衛星映像内の対象物を高精度に検出する。
- SAT-MTBデータセットにおいて，TCLは既存手法を上回り，47.7%のmAPを達成した。
- TCLフレームワークは既存の画像ベース検出器にも容易に適用でき，精度向上に貢献する。
Link: https://arxiv.org/abs/2606.15112
アンサンブル音声映像を用いたドメイン適応のための教師・生徒構造によるディープフェイク検出 [cs.HC, cs.MM, cs.AI, cs.CV, cs.LG, cs.SD]目的：アンサンブル音声映像を用いたディープフェイク検出におけるドメイン適応メカニズム
- 生成AI技術の進展により，高精度なディープフェイクが容易に作成可能となり，プライバシーや社会への影響が懸念されている。
- 既存のディープフェイク検出モデルは，学習データと異なるドメインのデータに対して性能が低下するという課題がある。
- 未知のドメインデータに対しても高い汎化性能を発揮するディープフェイク検出モデルの開発を目指す。
- 提案手法は，教師・生徒構造を用いたドメイン適応メカニズムを組み込むことで，未知ドメインにおけるAUC性能を最大17.94%向上させた。
- 少量の未知ドメインデータのみで生徒モデルを学習させることで，効率的なドメイン適応を実現した。
- 本手法は，どのモダリティが操作されているかを識別する能力も示しており，実用的な応用が期待される。
Link: https://arxiv.org/abs/2606.15117
空間における微弱物体検出・セグメンテーションのための多視点特徴高次融合 [cs.CV]目的：空間における微弱物体検出・セグメンテーション性能の向上
- 宇宙空間の画像や動画には微弱物体が多く，その検出・認識は宇宙科学において重要である。
- 微弱物体の限られた情報から適切な特徴量を学習することは困難である。
- 多視点学習を活用し，微弱物体のより正確で豊かな特徴量を抽出・融合すること。
- 提案手法MHFは，既存の低次特徴量融合を拡張し，高次の多視点特徴量認識と再帰的なタスク貢献ゲート選択を実現した。
- MHFは様々な多視点特徴量表現と互換性があり，ビジョンTransformerやCNNベースのモデルに容易に組み込める。
- 3つのデータセットにおける検出・セグメンテーションタスクで，最先端の精度を達成した。
Link: https://arxiv.org/abs/2606.15118
EyeMVP：OCT情報に基づいた網膜表現学習 - ペアCFP-OCT事前学習による [cs.CV, cs.AI]目的：OCT情報を活用した網膜表現の学習
- 網膜疾患の早期発見と治療は重要であり，大規模スクリーニングの効率化が求められている。
- 網膜検査の主流である眼底写真は，立体的な情報に乏しいという課題がある。
- 眼底写真のみでOCTに近い診断能力を実現し，大規模スクリーニングを支援すること。
- EyeMVPは，多数のCFP-OCT画像ペアを用いて事前学習を行い，眼底写真の表現力を高めている。
- 16種類のタスクにおいて，既存のモデルを上回り，特に黄斑・視神経構造に関する性能が向上した。
- 黄斑浮腫の診断精度は，既存モデルEyeCLIPと比較してAUROCで0.948と高い結果を示した。
Link: https://arxiv.org/abs/2606.15129
関節を持つ物体の操作における物理的に妥当な手と物体の相互作用：DragMesh-2 [cs.RO, cs.CV]目的：関節を持つ物体の操作における，手と物体の相互作用のロバスト性の向上
- 家庭用，支援，ヒューマノイドロボットにおける操作において，多指ロボットハンドによる柔軟な接触が重要である。
- 関節を持つ物体の操作は，静的な物体の操作と異なり，物体の動きを直接制御できないという課題がある。
- 接触ダイナミクスをモデル化し，可変な接触荷重下でのロバスト性を向上させることを目指す。
- DragMesh-2は，物体中心の生成から手駆動による操作への移行を可能にする接触駆動フレームワークである。
- PICAという物理情報に基づいた学習メカニズムを提案し，触覚や力フィードバックなしでもロバスト性を向上させる。
- 7つのGAPartNetオブジェクトにおいて，DragMesh-2は比較手法よりも接触荷重の変動に対するロバスト性が高いことを実証した。
Link: https://arxiv.org/abs/2606.15133
スカラー距離を超えて：凍結されたMLLMからのセマンティック属性勾配による視覚埋め込み [cs.CV, cs.AI, cs.LG]目的：視覚埋め込みの改善
- 画像検索において，視覚エンコーダの性能が重要であり，埋め込みの質が検索精度に直結する。
- 従来の視覚エンコーダは，クラスラベルによる教師信号のみで学習され，属性間の詳細な差異を捉えきれない。
- MLLMの属性認識能力を活用し，より詳細な属性情報に基づいた教師信号を用いてエンコーダを学習する。
- SAGAフレームワークは，凍結されたMLLMの予測精度を向上させることで，視覚エンコーダの埋め込み表現を改善する。
- 本手法は，CUB-200-2011，Cars-196等のデータセットにおいて，ゼロショット画像検索のRecall@1を3〜6ポイント向上させた。
- 属性レベルでの勾配を用いてエンコーダを学習することで，従来のペアレベルのスカラーによる学習の限界を克服した。
Link: https://arxiv.org/abs/2606.15134
自動運転交渉者：隠れた意図下の社会的交渉と心の理論のためのインタラクティブかつ検証可能なベンチマーク [eess.SY, cs.SY, cs.PF, cs.OS, cs.DC, cs.PF, cs.GT, cs.RO]目的：社会的交渉と心の理論の評価
- 自動運転の安全性向上には，人間同士の微妙なコミュニケーション理解が不可欠である。
- 既存のベンチマークは，明示的なテキスト交渉に偏っており，運転中の暗黙の社会的協調を測れない。
- 運転状況下における暗黙の社会的協調を評価する環境を構築し，モデルの能力を測定すること。
- 本研究では，テキストのみを用いた多段階のプロシージャル生成環境「Self-Driving Negotiator」を開発した。
- 報酬と診断はモデルの説明ではなく，シミュレータの状態から算出される点が特徴である。
- 現在のモデルは専門家の行動に遠く及ばず，平均成功率は0.68にとどまることが示された。
Link: https://arxiv.org/abs/2606.15139
MotionVLA：ヒューマノイドモーションのためのビジョン・言語・行動モデル [cs.CV, cs.RO]目的：ヒューマノイドモーション生成におけるリアリズム向上
- ヒューマノイドロボットの行動計画やアニメーション生成において，自然な人間らしい動きは不可欠である。
- 既存手法では，モーション全体を単一のコードブックでトークン化するため，高周波成分の物理的ダイナミクスが十分に表現できていない。
- モーションの周波数特性を考慮し，低周波と高周波成分を分離することで，より自然でリアルなモーション生成を目指す。
- 提案手法DSFTは，ベースストリームと物理ストリームにモーションを分離し，それぞれ独立に圧縮することで，高周波成分の表現力を向上させた。
- MotionVLAは，軽量な2Bのバックボーンを用いながらも，HumanML3DおよびMBenchにおいて，現実データとの乖離を50%以上削減し，モーション一貫性を3.8%向上させた。
- 周波数に基づいた二重ストリーム分離が，自己回帰型モーション生成において有効であることを示した。
Link: https://arxiv.org/abs/2606.15142
AudEdit：事前学習済みオーディオフローモデルを用いたテキストによる編集（反転不要） [cs.SD, eess.AS]目的：テキストによるリアルオーディオの編集手法
- 近年，高品質なオーディオ生成技術が発展し，多様な応用が期待されている。
- 既存の編集手法は，指示への適合性と音質の維持とのトレードオフが生じやすい。
- 反転不要なフロー編集の考え方をオーディオに応用し，この課題を解決する。
- AudEditは，学習や最適化，内部アテンションマップへのアクセスを必要としない。
- FSD50KとSong Describer Datasetを用いた実験により，既存手法よりもCLAPテキストの整合性とオーディオの保存性が向上した。
- 例えば，効果音編集において，CLAP類似度を0.42から0.52に，FADを65.70から50.37に改善した。
Link: https://arxiv.org/abs/2606.15149
HiRo：効率的な画像分類のためのコンパクトな四方向階層型リザバー・トークンミキサー [cs.CV, cs.LG]目的：効率的な画像分類のためのモデル設計
- 画像認識の性能向上には，局所特徴のモデリングと全体的な文脈の理解が不可欠である。
- Transformerなどの高性能モデルはパラメータ数が多く，計算コストが高いという課題がある。
- パラメータ効率と計算コストを抑えつつ，高い分類精度を実現するモデルを開発する。
- 提案手法HiRoは，100万パラメータ以下でMNIST，CIFAR-10，CIFAR-100でそれぞれ高い精度を達成した。
- シフトウィンドウと多方向階層型リザバーコンピューティングを統合することで，効率的なトークンミキシングを実現した。
- 局所特徴と全体的な文脈の相互作用を促進し，Transformerと比較してメモリと計算時間の大幅な削減に貢献する。
Link: https://arxiv.org/abs/2606.15151
参照画像に基づく生成コンテンツの超解像と修正 [cs.CV]目的：生成コンテンツの超解像と修正に関する研究
- 生成モデルの発展に伴い，参照画像を用いたコンテンツ生成のニーズが高まっている。
- 既存手法では，参照画像を低解像度化するため，詳細な情報が失われるという課題がある。
- 参照画像から失われた詳細を復元し，生成されたアーティファクトを修正することを目的とする。
- 本研究では，参照画像に基づく生成コンテンツの超解像と修正を同時に行う新しいタスクを提案した。
- 提案手法は，参照画像から細かい情報を選択的に注入し，生成アーティファクトを除去する周波数認識型拡散Transformerモデルを用いる。
- 実験により，提案手法が既存手法と比較して，オブジェクトの同一性を忠実に維持し，高解像度の詳細を復元することが示された。
Link: https://arxiv.org/abs/2606.15158
多様な潜在世界モデルによる効率的なマルチモーダル推論 [cs.CV, cs.LG]目的：効率的なマルチモーダル推論のための多様な潜在世界モデルの構築
- マルチモーダルLLMの推論能力向上は重要である。現実世界での複雑な状況に対応するため。
- 既存手法は単一の解釈に依存し，多様な視点や曖昧さを考慮できないという課題がある。
- 複数の解釈を効率的に探索し，メモリ使用量を削減することで推論の精度向上を目指す。
- DLWMは，多様な潜在世界仮説を構築し，それぞれに対して潜在空間での推論を展開する。
- 正交性に基づく多様性正則化により，仮説の収束を防ぎ，多様性を維持する。
- リソース制約のある強化学習を用いて，仮説ごとの計算資源を動的に配分し，効率を高める。
Link: https://arxiv.org/abs/2606.15160
GeoStream：正確なカメラ制御ストリーミング動画生成に向けて [cs.CL, cs.CV]目的：動画ベースのワールドモデルにおける正確なインタラクティブカメラ制御
- 動画から現実世界を理解する上で，カメラ制御は不可欠であり，その精度が重要である。
- 既存手法ではカメラ動きが暗黙的に学習されるため，分布外の軌道下では制御精度が低下する。
- 本研究は，自己更新型3Dキャッシュを用いて，正確なカメラ制御を実現するストリーミング動画生成を目指す。
- GeoStreamは，モデル自身の出力から定期的に更新される3Dキャッシュを維持することで，正確なメトリックスケールのカメラ制御を可能にする。
- 生成されたフレームから深度を推定し，3D空間への変換と再投影を行うことで，幾何学的条件付けを生成し，後の合成に利用する。
- 学習時の条件付けも学生モデルの生成フレームからレンダリングすることで，学習時と推論時の条件付け分布を自然に整合させる。
Link: https://arxiv.org/abs/2606.15162
波形変換に基づくU-Netを用いた高速MRI再構成 [cs.CV]目的：高速MRIにおける再構成技術の改善
- MRI検査時間の短縮は，患者負担軽減や検査効率向上に不可欠である。
- 低サンプルデータからの再構成は不安定であり，アーチファクトや解像度低下が課題となる。
- 高周波成分の保持とアーチファクト抑制を両立する再構成手法の開発。
- 提案手法は，物理モデルに基づいた反復再構成と学習可能な多重スケール周波数表現を組み合わせる。
- 離散ウェーブレット変換を用いることで，ダウンサンプリング時の情報損失を抑制しつつ，高周波エッジの保持を可能にする。
- fastMRI kneeおよびM4Raw brainデータセットで，最先端の性能が確認された。
Link: https://arxiv.org/abs/2606.15167
コントラスト言語画像事前学習 (CLIP) を用いたオンラインゼロショット学習におけるラベルシフトを考慮した適応 [cs.CV]目的：オンラインゼロショット学習におけるラベルシフトへの対処
- データ不足環境下でのビジョン言語モデルの活用が重要視されている。
- テストデータのラベル分布が学習データと異なる場合に性能が低下する。
- 未知のテストデータ分布への適応による性能劣化の抑制を目指す。
- 提案手法LSAは，CLIPが学習したソース分布からターゲット分布への適応を行う。
- LSAは，ラベルシフト補正により，ソース分布とターゲット分布の不一致を軽減する。
- 複数のデータセットにおいて，既存のオンラインゼロショット学習手法を上回る性能を示した。
Link: https://arxiv.org/abs/2606.15169
リアルタイムPoint-of-Care超音波セグメンテーションの実現：リソース制約環境におけるGPU不要な展開 [cs.CV, cs.AI]目的：Point-of-Care超音波画像におけるセグメンテーションの実現
- 超音波検査は低コストで可搬性に優れ，世界中で広く利用されている。
- AI導入にはGPUが必須であり，AIのコストが超音波装置自体のコストを上回ることが課題。
- GPU不要で臨床レベルのセグメンテーションを可能にし，AIのコストを抑える。
- UltraSeg-130KはシングルコアCPUで89.7 FPS，リフアービッシュモバイルデバイスで34.8 FPSを達成した。
- UltraSeg-500KはCPUで44.6 FPS，モバイルデバイスで16.1 FPSを達成し，UNetやTransUNetと同等以上の性能を示した。
- UltraSeg-500Kは外部検証セットにおいて優れたゼロショット汎化性能を示した。
Link: https://arxiv.org/abs/2606.15176
FreeSonic：訓練不要な時間認識デカップルドAttentionによる高精度オーディオ編集 [cs.SD, cs.AI, eess.AS]目的：高精度かつ一貫性のあるオーディオ編集の実現
- 近年，テキストからオーディオへの生成技術は進歩したが，正確な編集は難課題である。
- 既存手法は，時間的一貫性と背景の維持との両立が難しい。
- 時間的精度を保ちつつ，背景音を維持した編集を可能にする。
- FreeSonicは，最先端のRectified Flow-based TangoFluxモデルを活用し，訓練不要なフレームワークとして高精度なオーディオ編集を実現する。
- 最適化された逆プロセスと，テキストとオーディオのAttentionマップを組み合わせることで，ターゲット部分を正確に抽出する。
- スケジュール化されたAttentionデカップリングにより，変更をターゲット領域に限定し，元の音響コンテキストを維持する。
Link: https://arxiv.org/abs/2606.15186
画像編集のための早期ステップ潜在的検証による適応型推論時間スケーリング [cs.CV]目的：画像編集における推論時間スケーリングの効率と性能向上
- 画像編集技術は，生成モデルの進歩により目覚ましい発展を遂げている分野である。
- 複雑な編集では，初期ノイズのランダム性により編集結果の品質が左右されるという課題がある。
- 初期ノイズの検証を早期に行うことで，効率と精度を両立した推論時間スケーリングを目指す。
- 提案手法VeriLatentは，早期ステップにおける潜在空間での編集活性化マップを用いて初期ノイズを評価する。
- これにより，画像へのデコードを伴わない効率的な初期候補の絞り込みを実現している。
- 複数のベンチマークにおいて，編集性能と推論時間スケーリング効率の双方において一貫した改善が確認された。
Link: https://arxiv.org/abs/2606.15188
都市景観の視界：不動産画像から都市規模の窓からの眺望認識を解き放つクラウドソーシングフレームワーク [cs.CV, cs.HC]目的：都市規模における窓からの眺望認識のマッピング
- 都市景観は生活の質に影響するため，その認識を理解することは重要である。
- 実際の窓からの眺望の認識は都市規模で十分に研究されていない。
- 本研究は，不動産画像を用いた都市規模の眺望認識のマッピングを目指す。
- 空間的な自己相関が明らかになり，都市全体に顕著なホットスポットとコールドスポットが確認された。
- 高層階は好ましい眺望を提供する一方，低層階は静かで鮮明な眺望を提供するという，階層による眺望認識への影響が明らかになった。
- 空，樹木，低層建築の割合が高いほど眺望の鮮明さが向上する一方，高層建築の割合が高いほど単調さと圧迫感が増すことが示された。
Link: https://arxiv.org/abs/2606.15198
心に留めておく：一人称視点ビデオストリームにおけるユーザー中心の継続的空間推論 [cs.CV]目的：ユーザー中心の継続的空間推論の診断
- 生活支援AIの発展には，現実世界とのインタラクションを理解する空間推論能力が不可欠である。
- 一人称視点ビデオにおける動的な空間推論，長期記憶，そしてユーザーの現在位置との整合性が課題である。
- ユーザーの動きを考慮した，ロバストなオブジェクト位置の追跡と想起を可能にすることを目指す。
- 提案手法DirectMeは，ストリーミングビデオから構造化された空間記憶を構築し，オブジェクト位置を追跡・想起する。
- DirectMeは，主要なマルチモーダルLLMの空間推論能力を大幅に向上させ，既存の空間認識モデルを上回る性能を示す。
- 本研究のベンチマークと解決策は，一人称視点AIアシスタントの空間知能研究を促進すると期待される。
Link: https://arxiv.org/abs/2606.15200
安全に関わる環境における人間の視線とビジョン言語モデルの注意比較 [cs.CV]目的：安全に関わる環境における人間の視線とビジョン言語モデルの注意の空間的対応
- 人間は潜在的リスクを認識し，行動するために視覚的注意を不可欠とする。
- 既存のビジョン言語モデルが人間の注意パターンをどれだけ捉えられるか不明である。
- ビジョン言語モデルが人間の視線と類似した注意領域を特定できるか検証する。
- GPT-4oを含む複数の大規模ビジョン言語モデルは，人間の視線と空間的に対応する領域を特定できた。
- GPT-4oは，KLダイバージェンスにより，人間の注意分布に最も近い結果を示した。
- これらの結果は，ビジョン言語モデルが眼球追跡データなしに，人間の注意パターンを近似できる可能性を示唆する。
Link: https://arxiv.org/abs/2606.15202