arXiv雑要約

画像・音声 - 2026/06/17 公開

あらゆるアセットの3次元オブジェクトに対する自動アノテーション：ロボット操作のため [cs.RO, cs.CV]目的：3次元アセットを操作可能なアセットに変換する自動アノテーションフレームワーク
- ロボットの学習には大量のデータが必要であり，シミュレーションは効率的なデータ収集手段として重要である。
- 既存の3次元アセットは形状情報のみで，ロボットがどのように操作すべきかの意味情報や物理的制約が欠如している。
- 3次元アセットに意味情報や操作に関する情報を自動的に付与し，ロボット操作を可能にすることを目的とする。
- AnnotateAnythingは，視覚言語アノテーションと物理アノテーションという2つのパイプラインを組み合わせることで，効率的なアノテーションを実現した。
- 生成されたアノテーションを用いて，多様なオブジェクト，タスク，ロボットに対する非同期並列シミュレーションデータ収集システムを構築した。
- 実験により，既存のアノテーションパイプラインと比較して，アノテーション効率，データ収集効率，タスク成功率が向上することが示された。
Link: https://arxiv.org/abs/2606.17446
MODE-RAG：多様体外れ値診断とエネルギーベースの検索拡張生成評価 [cs.CL, cs.AI, cs.CV, cs.LG, cs.MM]目的：マルチモーダル検索拡張生成におけるハルシネーションの定量化と軽減
- 大規模ビジョン言語モデルの性能向上に不可欠であり，知識獲得や推論能力の限界を克服する。
- クロスモーダルなハルシネーション，因果関係の誤り，迎合的応答が問題となっており，信頼性を損なう。
- 動的な介入ゲート機構により，ハルシネーションを抑制し，マルチモーダル推論の頑健性を高める。
- 提案手法MODE-RAGは，Variational Free Energyと内部注意状態に基づき，リスクの高いクエリに対して多段階のエージェントシステムを適用する。
- MODE-RAGは，モンテカルロ木探索とロジット摂動を用いることで，ハルシネーション率と論理的誤りを効果的に削減する。
- 新たに構築した評価データセットModeVentを用いた実験により，M-RAGシステムのロバスト性が大幅に向上することが示された。
Link: https://arxiv.org/abs/2606.17449
WeaveLA：イベント駆動型クロスサブタスク潜在記憶織り込みによる反復ロボット操作 [cs.CV, cs.RO]目的：反復ロボット操作におけるサブタスク間の情報伝達機構の改善
- ロボット操作において，複雑なタスクは複数のサブタスクに分解されることが一般的である。
- 既存のビジョン言語行動（VLA）ポリシーはサブタスク間の連携が弱く，反復操作で脆さを示す。
- サブタスク完了イベントをトリガーに潜在記憶を伝達し，クロスサブタスク情報を活用する。
- WeaveLAは，既存のVLAバックボーンを凍結した状態で，サブタスク完了時に潜在トークンに圧縮し，次のサブタスクに伝達する。
- RoboMMEにおける評価で，最も難しい反復タスク（SwingXtimes, N=3）の成功率が0%から47.8%に向上した。
- ペア分析により，クロスサブタスク情報が必要なタスクでのみ効果が確認された。
Link: https://arxiv.org/abs/2606.17463
StereoFactory：ロバストなステレオマッチングのための統一的なマージングフレームワーク [cs.CV]目的：ステレオマッチングにおけるモデルマージング手法の開発
- ステレオマッチングは，ロボット工学や自動運転などの分野において，周囲の環境を正確に認識するために不可欠である。
- 大規模データセットを用いたモデル学習は計算コストが高く，新しいデータへの対応が遅れるという課題がある。
- 既存モデルを再学習することなく，効率的に知識を統合し，性能向上を目指す。
- StereoFactoryは，遺伝的アルゴリズムとCMA-ES最適化を組み合わせ，最適なモデルサブセットを自動的に選択する。
- 実験の結果，既存手法と比較して，複数のベンチマークにおいて平均エラー率が大幅に減少することが示された。
- 本手法は，再学習にかかる時間のわずか数パーセントで，同等またはそれ以上の性能を実現する。
Link: https://arxiv.org/abs/2606.17475
強化学習最適化器を用いた分布外検出の理論的根拠 [cs.CV, cs.LG]目的：動的なオープンワールド環境における分布外検出の理論的基盤
- 現実世界のデータは常に変化するため，分布外検出はモデルの信頼性確保に不可欠である。
- 既存手法は現状の最適化に偏り，将来的な環境変化への対応が不十分である。
- 将来的な分布外検出性能を向上させるための理論的枠組みを構築すること。
- 強化学習によって更新を導くことで，分布外検出における偽陽性率を時間経過とともに低減できることを理論的に示した。
- 標準的な勾配降下法に強化学習による補正項を加えた新たな最適化器が，汎化性能と分布外拒否性能の両面で改善することを示した。
- モデル変化と環境変化の誤差分解を行い，勾配降下法と強化学習最適化器の汎化誤差を比較するための理論的枠組みを開発した。
Link: https://arxiv.org/abs/2606.17477
GeneralVLA-2：幾何形状を考慮した再構成とロボット計画のための管理されたメモリ [cs.CV, cs.RO]目的：ロボットの信頼性の高い軌道計画のための，物体中心の3次元エビデンスと再利用可能な操作経験
- ロボットの汎用的な計画には，周囲環境の正確な3次元理解が不可欠である。
- 単眼による3次元再構成は，隠れた形状や姿勢の推定に誤りが生じやすい。
- 幾何学的制約と高品質なメモリ管理により，ロボット計画の精度と効率を向上させる。
- 提案手法GeoFuse-MV3Dは，多視点SAM3Dによる再構成において，CDとLPIPSをそれぞれ2.20%，2.02%削減し，PSNRとSSIMをそれぞれ2.36%，1.03%向上させた。
- KnowledgeBankの改良により，Terminal-Bench SRにおける成功率が4.53%向上，SWE-Benchの解決率が3.73%向上した。
- 改良されたKnowledgeBankは，アテンションスコア（AS）をそれぞれ4.95%，5.65%削減し，メモリの効率化に貢献した。
Link: https://arxiv.org/abs/2606.17480
SPHINX：まず説明し，次に探索する [cs.NI, cs.ET, cs.CV]目的：自律走行車の意思決定システムの評価と改善
- 自動運転技術の安全性向上は重要であり，その検証には多様な走行シナリオが不可欠である。
- 既存手法は，LLM等の事前知識に依存しており，必ずしも走行ポリシーの弱点を効率的に突けるとは限らない。
- 走行ポリシーの失敗診断に基づき，弱点を集中的に攻撃するシナリオを生成することで，より効果的な改善を目指す。
- SPHINXは，説明可能なAIを用いて走行ポリシーを分析し，意思決定に影響する視覚的要素と不確実性を特定する。
- 特定された要素に基づき，LLMを用いてポリシーの失敗モードを批判し，それに対応したターゲットを絞った敵対的シナリオを生成する。
- SPHINXは，他の手法と比較して，ポリシーの失敗理由を解釈可能な形で提示し，既存手法を上回るロバスト性の向上を実現する。
Link: https://arxiv.org/abs/2606.17482
MagicSim：実行可能な身体性相互作用のための統一的インフラストラクチャ [cs.RO, cs.AI, cs.CV]目的：身体性相互作用のための実行可能な環境構築と評価システムの統合
- ロボット学習において，シミュレーション環境は制御，スキル，計画を連携させる上で不可欠である。
- 既存のシステムは層が分断され，再現性や評価が困難な場合がある。
- 多様なタスクに対応可能な，統一的で再現性の高いシミュレーション環境の構築。
- MagicSimは，YAMLによる記述に基づき，多様な物理特性，レイアウト，センサーを備えた環境を構築可能である。
- 共通の実行インターフェースにより，高レベルな指示をロボットの行動に変換し，実行可能な世界を実現する。
- 言語，行動，視覚情報を統合した多Modalな軌跡を保存し，効率的な学習と評価を支援する。
Link: https://arxiv.org/abs/2606.17511
GASE：ガウススプラッティングに基づく，具現化シミュレーション環境の自動構築システム [cs.RO, cs.CV]目的：具現化シミュレーション環境の自動構築
- ロボット学習において，大規模で費用対効果の高いデータ拡張は重要であり，シミュレーション環境が有効な代替手段となる。
- 既存の再構成ベースの手法は，データ収集の非効率性や前景オブジェクト抽出の質の低さが課題となっていた。
- 本研究は，高品質なアセット生成を可能にする自動化されたシミュレーション環境構築システムを提案することで，この課題を解決する。
- GASEは，既存の3Dガウスベースの手法と比較して，セグメンテーション精度を10%以上向上させた。
- 実ロボットを用いた実験では，実世界データのみで学習したポリシーとの性能差が10%未満に抑えられた。
- GASEは，シミュレーションと現実世界のギャップを埋めるための効率的かつ効果的なソリューションであることが確認された。
Link: https://arxiv.org/abs/2606.17520
OmniDrive：LLMによるオーケストレーションを用いた多視点運転映像生成のための統一された潜在圧縮空間を持つマルチエージェントワールドモデル [cs.RO, cs.CV, cs.AI]目的：自動運転のための生成ワールドモデルにおける，異質な制御入力と後処理的なクロスビュー融合の問題解決
- 自動運転技術の発展には，現実世界の複雑さを再現する高精度なシミュレーション環境が不可欠である。
- 既存のワールドモデルは，言語，地図，軌跡などの異質な制御入力を統合できず，多視点間の一貫性を欠く。
- 言語，幾何学，ピクセルレベルでの共有のシンボリック表現を確立し，多視点映像の一貫性と実用性を向上させる。
- DRIVE-CHOREOは，LLMを活用してユーザーの意図を構造化されたWorldScriptに解析し，空間的に位置づけられたレイアウトトークンに変換する。
- 複数のカメラからの映像とトークンシーケンスを，3D VAEの畳み込み受容野内でカメラ間幾何学を強制するパーミュテーションを用いて共同圧縮する。
- nuScenesデータセットにおいて，最先端の多視点一貫性とBEV mAP（21.6）を達成し，合成データで学習した検出器は実データで+2.4 NDSの性能向上を示した。
Link: https://arxiv.org/abs/2606.17536
空間視覚言語モデルにおける二重経路推論の強化 [cs.CV, cs.AI]目的：空間的視覚言語モデルにおける二重経路推論の実現
- 空間認識はロボティクスや拡張現実など，様々な分野で重要性を増している。
- 奥行き，距離，シーンの関係性を考慮した複雑な空間推論は依然として困難である。
- 言語的推論と3D情報に基づく推論の双方を効果的に活用する手法を開発すること。
- SR-REALは，言語のみによる推論と，3D情報を検出・利用する推論という二つの経路を統合的に学習するフレームワークである。
- 強化学習により，精度とフォーマットを考慮した報酬を与えることで，両方の経路を最適化し，相互に強化する。
- SR-REALは，様々な空間ベンチマークにおいて，既存の空間視覚言語モデルを大幅に上回り，汎化性能も高い。
Link: https://arxiv.org/abs/2606.17539
脅威を考慮した周波数分離による，異種攻撃に対する敵対的頑健性の向上 [cs.CV]目的：異種攻撃に対する敵対的頑健性の向上
- 深層学習モデルの安全性確保は重要であり，特に現実世界での様々な攻撃への耐性が求められる。
- 既存の多脅威防御手法は，攻撃の種類が異なると性能が低下する問題がある。
- 周波数領域での分析に基づき，攻撃の特性に応じた分離最適化を行うことで，この問題を解決する。
- TaFDは，攻撃スペクトルのクラスタリングと軽量な分類器により，脅威ドメインを識別する。
- 識別されたドメインに応じて，周波数条件付き畳み込みを用いて，ドメイン固有のスペクトルマスクを学習する。
- CIFAR-10，CIFAR-100，Tiny-ImageNetなどのベンチマークで，既存手法と比較して平均的な頑健精度が約11%向上した。
Link: https://arxiv.org/abs/2606.17540
内部化された思考連鎖推論による汎用画像復元 [cs.CV]目的：複雑な劣化が混在する画像からの高品質な画像復元
- 画像復元は，画像処理において重要な課題であり，視覚情報の質の向上に貢献する。
- 従来の画像復元モデルは，複雑な劣化に対して性能が低下するという課題があった。
- 思考連鎖推論をモデル内部に組み込むことで，効率的かつ効果的な画像復元を実現する。
- CoTIRは，単一のモデル内で思考連鎖推論を内部化することで，計算コストを削減し，劣化間の相互作用をより適切にモデル化する。
- 大規模な事前学習済みの画像編集モデルを基盤とし，CoTスタイルの推論を学習目標に組み込むことで，包括的な復元を可能にする。
- CoTIR-Benchという大規模なベンチマークデータセットを新たに作成し，その性能を評価することで，既存手法と比較して優れた知覚的品質と忠実度を示すことが確認された。
Link: https://arxiv.org/abs/2606.17557
RT-Counter：リアルタイムなテキストガイダンスによるオープンボキャブラリオブジェクトカウント [cs.CV]目的：テキストによる指示に基づいたオープンボキャブラリオブジェクトカウントの実現
- 画像認識と自然言語処理の融合が重要視され，多様な物体を認識・計測する応用が期待されている。
- 既存手法は，詳細な空間理解やリアルタイム処理能力に課題があり，実用化が難しい場合がある。
- 高精度と高速処理を両立し，リアルタイムでの物体カウントを可能とする手法を開発する。
- 提案手法RT-Counterは，既存手法と比較して，同程度の精度を維持しつつ，7.4倍の速度向上を達成した。
- RT-Counterは，Visual Prototype TextualizationモジュールとWeaformer層により，効率的な特徴抽出と処理を実現している。
- FSC147データセットにおいて，平均絶対誤差(MAE)13.30を達成し，112.48 FPSで動作する。
Link: https://arxiv.org/abs/2606.17561
多視点衛星画像における基盤モデル特徴の幾何学的整合性プロトコル [cs.CV, cs.AI]目的：衛星マルチビュー再構成における基盤モデル特徴の評価プロトコル
- リモートセンシング分野では，多様なセンサーや複雑な画像取得条件に対応した信頼性のあるベンチマークが不可欠である。
- 従来の2次元グローバルマッチングに基づく評価は，衛星画像の幾何学的な歪みを考慮せず，誤解を招く可能性がある。
- Rational Function Model (RFM)に適合した幾何学的に整合性のある評価プロトコルを提案し，評価の信頼性を高める。
- 提案手法では，RPC投影された3次元整合性指標と幾何学的制約のある高密度マッチングプロキシを統合し，類似度応答の局所性と一意性を評価する。
- 評価戦略の重要な発見として，意味的合意と幾何学的局在化の分離が挙げられる。投影された3D点での高いクロスビュー類似度だけでは，実用的な推論における信頼性の高いマッチングは保証されない。
- 本ベンチマークは，衛星画像における幾何学的制約の組み込みが問題定義の根幹であることを示している。また，最先端の2次元バックボーンモデルが，RPC整合性評価下で3次元認識モデルと競合できることを示す。
Link: https://arxiv.org/abs/2606.17564
軌道直線性に基づく整流化フローに対する固定点反転の根選択 [cs.DB, cs.CV, cs.LG]目的：整流化フローにおける固定点反転の根選択メカニズム
- 画像編集などの下流アプリケーションにおいて，データ生成ノイズの特定は重要な役割を果たす。
- 既存の固定点反転法は，複数の固定点解が存在する場合，適切な解を選択する原理的な仕組みが不足している。
- 軌道直線性に着目し，より直線性のある逆軌跡を誘導する固定点解を選択することで，反転精度を向上させる。
- 提案手法SelFixは，FLUX.1-devおよびPIE-Benchにおいて，既存手法よりも高品質な画像再構成を実現した。
- SelFixは，プロンプトに基づく画像編集において，元の画像をより忠実に保持した結果を得ることに貢献する。
- SelFixは，標準的な局所的仮定の下で正確な逆根への収束を維持しつつ，直線性に基づく根選択を行う。
Link: https://arxiv.org/abs/2606.17584
TivTok：スケーラブルな動画トークン化のための時間不変トークンのブロードキャスト [cs.CV]目的：スケーラブルな動画生成のための動画トークン化手法
- 動画生成において，トークン数は計算コストやモデル化可能な動画長に大きく影響する。
- 既存のトークナイザーは圧縮率向上に注力するが，静的な背景や一貫した物体表現の繰り返し表現が課題である。
- 時間経過で変化しない情報を再利用することで，効率的な動画トークン化を実現することを目指す。
- TivTokは，時間不変（TIV）トークンと時間可変（TV）トークンを導入し，効率的な特徴分解を実現した。
- 実験の結果，標準ベンチマークにおいてrFVDが12.65を達成し，既存手法と比較して圧縮効率が2.91倍向上した。
- ダウンサンプリングベースのトークナイザーと比較して，必要なトークン数を1.1%に抑えながら，高性能な動画トークン化を可能にした。
Link: https://arxiv.org/abs/2606.17590
MuseVLA：ロボット操作のための適応的マルチモーダルセンシングVision-Language-Actionモデル [eess.SY, cs.SY, math.OC, cs.RO, cs.CV]目的：ロボット操作における多様なセンシングモダリティの統合
- ロボットは人間のように多様なセンシングを活用することで，より柔軟な物理世界とのインタラクションが可能となる。
- 既存のVLAモデルはRGB画像のみに依存しており，温度や音などの物理的特性の認識に限界がある。
- MuseVLAは，必要に応じてセンサを動的に呼び出し，マルチモーダルな情報に基づいてロボット操作を可能とする。
- MuseVLAは，RGBのみのモデルや既存のマルチセンサVLAモデルを大きく上回り，平均80.6%の成功率を達成した。
- 本モデルは，温度，音，レーダーを用いた複雑な手動操作タスクにおいて，優れた性能を発揮した。
- 既存のRGB動画データセットを拡張するデータ合成パイプラインにより，未知のセンサ誘導タスクへの汎化能力も示された。
Link: https://arxiv.org/abs/2606.17598
テスト時学習によるロバストなテキストガイダンスによるオープンボキャブラリオブジェクトカウント [cs.CV]目的：テキストプロンプトで指定された任意のオブジェクトカテゴリのカウント
- 既存のカウント手法は限定的なカテゴリにしか対応できず，柔軟性に欠けるため，より汎用的なカウント手法が求められている。
- 現実世界の画像は，雨，霧，暗さ，ノイズなどの悪条件により視覚品質が低下し，ビジョンと言語の整合性が損なわれる。
- 悪条件下の画像においてもロバストにカウントできる手法を開発し，現実世界への応用を目指す。
- 提案手法Dual-TTTは，テスト時学習により，既存のTOOCモデルにannotationなしで組み込むことができる。
- TL-Denoiserと呼ばれるモジュールのみを学習させることで，悪条件に対応したノイズ除去を行う。
- 複数のTOOCベースラインモデルで有効性が確認され，ロバスト性の向上が示された。
Link: https://arxiv.org/abs/2606.17601
拡散モデルを用いた顔画像保護：Flux-Guard [cs.CV]目的：顔画像に対するプライバシー保護と顔編集の統合
- 顔認識技術の普及に伴い，個人の顔画像情報の漏洩とプライバシー侵害のリスクが高まっている。
- 既存のプライバシー保護手法は顔編集との両立が難しく，編集画像も追跡の対象となる可能性がある。
- 顔編集を行いながら，顔認識による個人識別を防ぐ新たなフレームワークを開発すること。
- Flux-Guardは，敵対的攻撃を用いて顔編集とプライバシー保護を統合したフレームワークである。
- CelebA-HQおよびLADNデータセットにおいて，既存手法よりも高い攻撃成功率と良好な画質を両立した。
- 商用APIを用いた評価でも，その有効性が確認された。
Link: https://arxiv.org/abs/2606.17606
SkillMoV：プロトタイプ条件付きゲーティングを用いた統一的なマルチビュー熟練度推定ルーティング [cs.DC, cs.CV, cs.AI]目的：マルチビュー動画からの人間の熟練度推定
- スポーツ指導，音楽教育，外科研修など，自動スキル評価の重要性が高まっている。
- 既存手法は特定のシナリオに限定されるか，カメラ視点や活動領域への適応性に課題がある。
- 異種カメラ視点と活動領域に対応できる汎用的な熟練度推定手法を開発する。
- SkillMoVは，EgoExo4Dにおける6つのスキル領域で，Exos設定において50.17%の全体精度を達成した。
- この結果は，比較対象手法におけるExos設定の最良結果を3.57%上回る。
- LoRA適応により，パラメータの23.32%のみを学習し，オーバーヘッドも抑制されている。
Link: https://arxiv.org/abs/2606.17615
RAVA：検索を用いた視点合わせによる主導型画像生成 [cs.HC, cs.CV]目的：主導型画像生成における視点合わせ
- 画像生成技術は目覚ましい進歩を遂げているが，人物間の視点制御は未だ課題である。
- 既存手法は，表面的な意味的相関に依存し，視点ずれや構造的不整合が生じやすい。
- 明示的な幾何学的証拠を用いて，異なる人物間での視点合わせを改善することを目指す。
- RAVAは，アンカー視点に合致するターゲット人物の画像を検索し，幾何学的根拠を供給する。
- 提案手法は，視点検索の質を大幅に向上させ，生成結果の安定性を高める。
- RAVAは，既存のベースラインと比較して，一貫して優れた性能を示す。
Link: https://arxiv.org/abs/2606.17619
分割，熟考，決定：ファーストパーソン視点のアクション認識のためのマルチエージェントフレームワーク [cs.CV, cs.AI]目的：ファーストパーソン視点ビデオにおける詳細なアクション認識
- 視覚情報と言語情報を組み合わせた認識技術は，ロボット工学やヒューマンコンピュータインタラクション等の応用において重要である。
- 既存のVision-Language Modelは，わずかな視覚的特徴の違いを見落とす傾向があり，特定のアクションに偏ることが課題である。
- 複数のモデルによる多様な視点を取り入れ，より正確なアクション認識を実現することを目的とする。
- 提案手法は，ファーストパーソン視点ビデオにおけるゼロショットアクション認識性能を向上させる。
- 性能向上は，追加の計算資源ではなく，異質なモデルの事前分布の相関を弱めることによってもたらされる。
- ビデオを分割し，複数の専門家モデルが熟考，意思決定を行うことで，よりロバストな認識が可能となる。
Link: https://arxiv.org/abs/2606.17627
ERQA-Plus：具現化AIにおける推論のための診断ベンチマーク [cs.RO, cs.CV]目的：具現化AIにおける推論能力の診断
- 汎用的な具現化エージェントには，物体認識だけでなく，空間関係の理解が不可欠である。
- 既存のベンチマークは推論依存関係の制御が難しく，根拠に基づいた推論と単なるパターンマッチングの区別が難しい。
- ERQA-Plusは，具現化AIにおける多様な推論能力を詳細に評価するフレームワークを提供する。
- ERQA-Plusは，711枚のロボット視点画像と1,766個の質問・回答ペアから構成され，知覚，行動，社会的相互作用などを含む。
- 強力なQwen3-VL-32Bモデルは全体で83.4%の正答率と61.4のSBERTスコアを達成したが，空間推論や手続き推論に課題が残る。
- このデータセットは，具現化AIがどの種類の推論を信頼性を持って行えるかを測定するための詳細な評価を可能にする。
Link: https://arxiv.org/abs/2606.17639
ドキュメントレイアウト解析データセットの再アノテーションのためのバウンディングボックスラベル伝播 [cs.CV, cs.AI]目的：ドキュメントレイアウト解析におけるオブジェクト検出インスタンスの再分類
- 実用的なドキュメント処理ではデータセットが拡大し，アノテーションの精度向上が常に求められる。
- データセットの継続的な改善には，時間とコストのかかる再アノテーション作業が伴う。
- 少量のアノテーションデータで，半教師あり学習により効率的に再アノテーションを行う。
- 提案手法BBLPは，バウンディングボックスの高精度なクラスアノテーションを生成する。
- D4LAデータセットにおいて，10%のアノテーションデータで，フル教師あり学習の81.6%相当のmAP 54.0%を達成した。
- ラベル伝播がオブジェクト検出に有効であり，実用的なドキュメント処理におけるアノテーションコスト削減に貢献する。
Link: https://arxiv.org/abs/2606.17644
MambaCount：空間疎性状態空間双対ブロックを用いた効率的なテキスト誘導汎用語彙オブジェクトカウント [cs.CV, cs.CL]目的：テキストプロンプトで記述されたオブジェクト数を推定するタスク
- 画像認識技術の発展は，複雑なシーンにおける物体認識の精度向上に不可欠である。
- 既存手法は計算量が多く，高解像度画像への対応が課題となっている。
- Mambaの特性を活かし，効率性と精度を両立したオブジェクトカウント手法を開発する。
- 提案手法MambaCountは，空間疎性状態空間双対ブロック（S^4D）を基盤とし，テキスト誘導汎用語彙オブジェクトカウントにおいて高い性能を示す。
- Mambaの因果モデリングによる制約を緩和し，空間トークンのエントロピーを低減する機構を導入することで，局所的な詳細情報を効果的に捉える。
- FSC-147データセットにおいて，二次クエリを必要としない手法の中で最先端の性能（テストMAE 12.23）を達成し，線形計算量を維持している。
Link: https://arxiv.org/abs/2606.17650
DeSRPA：推論時介入による分離型音声ロールプレイングエージェント [cs.SD]目的：音声ロールプレイングエージェントにおける性格と感情の一貫性向上
- LLMの発展によりテキストベースのロールプレイングは進展したが，音声によるロールプレイングには認知と非言語的ニュアンスの融合が不可欠である。
- 既存の音声ロールプレイングエージェントはエンドツーエンドのファインチューニングに依存し，未知のキャラクターへの汎化性能が低いという課題がある。
- DeSRPAは，事前学習済みのモデルに推論時の介入を行うことで，汎化性能を高め，LLMの本来の推論能力の低下を防ぐことを目指す。
- DeSRPAは，デュアルレベル制御ベクトル機構を用いて「思考」と「声」を同期させ，SpeechRoleとOmniCharacterのベンチマークにおいて，エンドツーエンドのベースラインよりも高い性格と感情の一貫性を示す。
- DeSRPAは，GPT-4o Audioのような商用モデルとの差を縮めつつ，高い音声の自然さを実現している。
- また，DeSRPAはスケーラブルであり，追加の学習を必要としないという利点がある。
Link: https://arxiv.org/abs/2606.17669
拡散は本当に必要か？ペア画像を用いた高速U-Netによる医療画像変換 [cs.CV]目的：医療画像間の変換による脂肪含有量定量推定
- 脂肪含有量定量は代謝・筋骨格系疾患のバイオマーカーとして重要であり，臨床応用が期待される。
- 特殊なMRIシーケンスが必要であり，日常的な臨床での利用が制限されている。
- 広く利用可能なT2強調画像から脂肪含有量を推定し，臨床応用の実現を目指す。
- 軽量なU-Netは，最先端の拡散モデル（DDPM）と比較して，相関関係と誤差の両方で優れた性能を示した。
- U-Netは推論時間をDDPMの208分の1に短縮し，リアルタイムでの臨床利用を可能にする。
- モデルは非自明なクロスモーダルマッピングを学習し，脂肪含有量の推定精度を向上させた。
Link: https://arxiv.org/abs/2606.17675
まず見て，後で答える：十分性駆動型強化学習による視覚的証拠の事前調整 [cs.CV, cs.AI]目的：視覚的証拠の事前調整
- マルチモーダル大規模言語モデルの発展に伴い，視覚情報の効果的な活用が重要となっている。
- 既存の事前学習では，粗いキャプションに偏り，詳細な視覚的証拠の利用が不十分である。
- 質問に基づいた視覚的証拠記述を最適化し，視覚的根拠の強化を目指す。
- 提案手法VEPAは，多様なベンチマークにおいて，視覚的に要求の高い評価で性能を向上させる。
- 標準的な教師あり事後学習を補完し，視覚的根拠の強化が性能向上に寄与する。
- VEPAによって獲得された視覚的根拠は，タスク固有の学習に依存せず，転移可能なものである。
Link: https://arxiv.org/abs/2606.17678
FllumaOne：実行可能プログラムとカーネル検証済みのフィーチャー履歴を持つコードネイティブなマルチモーダルCADデータセット [cs.AI, cs.GR]目的：実行可能なプログラムと検証済みのフィーチャー履歴を含む，マルチモーダルCADデータセット
- CADは製品開発において不可欠であり，効率的な設計と製造を支える基盤技術である。
- 既存のCADデータセットは，編集可能性を考慮した表現や検証機能が不足している場合がある。
- 編集可能なCAD研究を促進するため，操作，パラメータ，依存関係を伴う検証済みのジオメトリを提供する。
- FllumaOne-100Kは，4つの複雑度レベルを持つ10万件のサンプルを含むデータセットである。
- Qwen2.5-Coder-1.5B LoRAモデルは，Python構文の有効性99.98%，Fllumaビルド成功率99.97%を達成した。
- 表面点群への変換された9,909件の予測において，平均正規化Chamfer Distanceは0.002124であった。
Link: https://arxiv.org/abs/2606.17696
SegTME-UNI2：汎用的な多クラス細胞セグメンテーションとLLM駆動の組織病理における腫瘍微小環境特性評価のための基盤モデルベースフレームワーク [cs.CV, cs.AI]目的：組織病理画像からの腫瘍微小環境の特性評価
- 腫瘍微小環境は，治療効果や予後を左右するため，詳細な解析が重要である。
- 高品質なピクセルレベルのアノテーションデータが不足しており，大規模な解析が困難である。
- 擬似ラベルを用いた段階的な学習により，アノテーション不足の問題を解決し，精度の高いセグメンテーションを実現する。
- UNI2-UPERHOVERという二つのUperNetデコーダーを持つセグメンテーションモデルを開発した。
- このフレームワークは，細胞のセグメンテーション，特徴抽出，そして解釈可能な臨床レポートを統合的に行う。
- 公開されたデータセットとチェックポイントは，腫瘍微小環境プロファイリングと空間生物学研究を促進する。
Link: https://arxiv.org/abs/2606.17702
胸部X線写真に対するビジョン言語モデルは，必ずしも画像を必要としない [cs.IR, cs.CV, cs.AI, cs.CL, cs.LG]目的：胸部X線写真におけるビジョン言語モデルの画像利用状況の検証
- 医療画像診断の精度向上は，早期発見・治療に不可欠であり，AI技術の応用が期待されている。
- 既存の評価指標では，モデルが実際に画像を解析しているか，事前知識を利用しているかを区別できない。
- 画像に依存しないモデルの存在と，その性能評価方法の確立を目指す。
- 複数のビジョン言語モデルにおいて，画像を用いないテキストのみのモデルが，マルチモーダルモデルと遜色ない精度を達成した。
- 画像利用の有無を検証する因果的監査により，モデルは画像を利用しない，不安定，または一部の所見において選択的に利用することが示された。
- テキストのみのモデルは，画像利用モデルと比較して根拠（グラウンディング）がゼロでありながら，放射線科医と同等の精度を示した。
Link: https://arxiv.org/abs/2606.17710
ボロノイ図による構造化された敵対的迷彩 [cs.CV, cs.AI]目的：敵対的迷彩手法の研究
- セキュリティシステムにおいて，物体検出の信頼性確保は重要である。誤検出や回避は重大なリスクを招く。
- 従来の敵対的パッチは計算コストが高く，視覚的に検知されやすいという課題があった。
- 限られた計算資源下で，視覚的に自然な敵対的迷彩パターンを生成し，検出性能を低下させることを目指す。
- ボロノイ図を用いた敵対的迷彩は，固定されたパレット内で種点位置のみを最適化することで，構造化された迷彩パターンを生成する。
- 衣服レベルでの適用により，COCOスタイルのAP@[.5:.95]が大幅に低下し，異なる背景や検出器にも頑健であることが示された。
- パレットを変更することで効果は打ち消され，単色調整では耐性が低いことから，構造とパレットの結合が重要であることがわかる。
Link: https://arxiv.org/abs/2606.17711
雲汚染下におけるリアルタイムに近い土地利用・土地被覆マッピングのための異種SAR-光学融合：新しいフレームワークとグローバルベンチマークデータセット [cs.CV]目的：雲汚染下での土地利用・土地被覆マッピングのための異種SAR-光学融合フレームワークの開発と，大規模ベンチマークデータセットの構築
- 土地利用・土地被覆マッピングは，環境変動の監視や都市計画など，幅広い分野で重要な役割を担う。
- 光学リモートセンシング画像は雲の影響を受けやすく，リアルタイムなマッピングの信頼性を低下させるという課題がある。
- SARと光学データを融合することで，雲の影響を軽減し，より正確な土地利用・土地被覆マッピングを実現することを目指す。
- 提案手法CloudLULC-Netは，全体精度(OA)86.60%，F1スコア83.29%，平均IoU73.51%を達成し，既存手法を上回る性能を示した。
- 光学的信頼性変調により，雲の影響下にある不確実な光学情報を抑制し，よりロバストなマッピングを可能にした。
- 多様な地理的条件と雲量における評価を通じて，CloudLULC-Netが雲の多い地域での土地利用・土地被覆マッピングに有用であることが示された。
Link: https://arxiv.org/abs/2606.17713
GSPan：任意のスケールに対応するパンシャープニングのための連続ガウス素表現 [cs.NI, cs.IR, cs.CV]目的：任意のスケールに対応可能なパンシャープニング手法の開発
- 高解像度マルチスペクトル画像の生成は，リモートセンシング分野において重要な課題である。
- 既存の深層学習手法は固定グリッド予測に依存し，スケール適応性に課題がある。
- 連続的なガウス素表現を用いて，スケールに依存しない効率的なパンシャープニングを実現する。
- GSPanは，2D Gaussian Splattingをパンシャープニングに導入し，帯域ごとの残差の詳細を連続的なガウス素表現として学習する。
- Dual-Stream Hierarchical InteractionアーキテクチャとSpatial-Spectral Interactive Attentionモジュールにより，PAN画像とMS画像から効率的に素表現を推定する。
- Scale-Decoupled Asymmetric Inference戦略により，大規模シーンのパンシャープニングにおいて，推論速度と融合品質のバランスを実現した。
Link: https://arxiv.org/abs/2606.17722
行動認識メモリによる探査からインタラクティブなワールドモデルへ [cs.CV]目的：インタラクティブなワールドモデルの構築
- リアルタイムな環境シミュレーションの実現は，ロボット工学や仮想現実などの分野において重要である。
- 既存のワールドモデルは移動に偏っており，物体とのインタラクションが限定的であるという課題がある。
- 本研究は，移動と物体インタラクションの両方をサポートするワールドモデルの構築を目指す。
- ActWorldは，既存のナビゲーション中心モデルを拡張し，ロールアウト中に物体とのインタラクションを可能にする。
- 10万件のインタラクションビデオデータセットを構築し，Chain-of-Thought推論を用いたチャンクごとのキャプションを付与した。
- 階層的な行動認識メモリ設計を導入し，インタラクションの重要度に基づいた履歴圧縮と，長期ロールアウトにおけるイベント更新を維持する永続的なメモリバンクを組み合わせた。
Link: https://arxiv.org/abs/2606.17730
ED3R：協調型ロボットエージェントによるエネルギー効率の高い分散型災害検知 [cs.RO, cs.AI, cs.CV, cs.MA]目的：エネルギー効率を考慮した分散型災害検知のためのフレームワーク
- 環境モニタリングや自然災害管理において，ロボットの活用は不可欠である。不確実性下での迅速な意思決定が求められる。
- ロボットのエネルギー制約や運用時間の制約が，災害現場での活動範囲を狭めている。
- エネルギー消費を抑えつつ，迅速かつ高精度に災害を検知するシステムの実現。
- ED3Rは，ロボットとリモートコントローラー間の階層的な協調意思決定を可能にする。
- シミュレーション結果から，ED3Rは最悪の場合でも97.18%のミッション成功率を達成した。
- 厳しいミッション条件下では，ベースラインと比較してエネルギー消費量を最大36.4%削減し，災害検知時間を最大41%短縮した。
Link: https://arxiv.org/abs/2606.17739
脳の世界：構造的事前情報に基づく全脳4D fMRIダイナミクス生成モデル [eess.SY, cs.HC, cs.SY, cs.CV, q-bio.NC]目的：全脳4D fMRIダイナミクスの生成
- 脳機能の理解に不可欠であり，様々な神経疾患の研究に貢献する。
- 既存のモデルは予測に偏っており，条件付きの生成能力が不十分である。
- 構造情報を活用し，長期的な脳ダイナミクスのモデリングを目指す。
- BrainWorldは，sMRIを構造的文脈として利用し，安定した4D fMRI軌跡を最大400フレームまで生成する。
- 生成されたサンプルを用いたデータ拡張により，下流タスクの性能が向上する。
- ベースラインを上回る転移可能なマルチモーダル表現を学習する。
Link: https://arxiv.org/abs/2606.17742
効率的な音声イベント検出のためのニューロモーフィックトリガー [cs.SD, cs.AI, cs.NE]目的：効率的な音声イベント検出のためのニューロモーフィックトリガーの提案
- リアルタイム・省電力システムにおいて，継続的な音声ストリームの効率的な処理は重要な課題である。
- 従来の音声処理は計算コストが高く，特にリソース制約のある環境では困難である。
- 計算コストを削減しつつ，音声イベントの検出精度を向上させることを目指す。
- 提案するニューロモーフィックトリガーは，都市環境音データセットにおいて，クラスを識別せずに異常音を高い精度で検出した(F1スコア:0.97)。
- DCASE 2017チャレンジタスク2において，計算量(FLOPs)を約42.6倍削減しつつ，イベントベースのエラー率の下限を0.41から0.25に低減した。
- これらの結果は，ニューロモーフィックトリガーがリアルタイムかつ省電力なフロントエンドフィルタとして有効であることを示唆する。
Link: https://arxiv.org/abs/2606.17775
傾斜のパラドックス：合成標準化がAI再記述放射線レポートにおける臨床的不確実性とクロスモーダルアラインメントを蝕む仕組み [cs.HC, cs.HC, cs.CL, cs.DC, cs.HC, cs.CL, cs.CV]目的：AI再記述による放射線レポートの情報劣化の計測
- 医療AIの発展には，質の高いデータセットが不可欠であり，放射線レポートはその重要な情報源である。
- AIによるレポートの自動要約や標準化は効率化に繋がる一方，情報の損失や歪曲のリスクがある。
- AIタスクの種類が情報劣化に与える影響を定量的に評価し，適切なデータセット構築方法を提示する。
- 電子カルテ要約は，臨床エンティティやヘッジング表現を大幅に減少させるものの，画像とテキストのアラインメントはほぼ維持されることが判明した。
- 標準化と教育用事例作成は，エンティティの損失は少ないものの，画像とテキストのアラインメントを著しく損なうことが示された。
- 希少疾患と頻度疾患で情報劣化に差は見られず，AIタスクの種類が劣化の主要因であることが明らかになった。
Link: https://arxiv.org/abs/2606.17791
LiveStarPro：階層的メモリによる長時間のストリームに対するプロアクティブな動画理解 [cs.HC, cs.DB, cs.CV, cs.AI]目的：長期にわたる動画ストリームにおけるプロアクティブな動画理解
- 動画理解技術は，リアルタイムなインタラクションや情報検索において重要性が増している。
- 既存の動画LLMは，継続的な動画ストリーム処理，応答タイミングの決定，長期記憶の保持が困難である。
- 本研究は，リアルタイム性と長期記憶の課題を解決し，動画ストリーム理解の精度向上を目指す。
- LiveStarProは，単一パスのperplexity検証による応答タイミングの特定により，明示的な無音トークンへの依存を排除する。
- Streaming Causal Attention Masks (SCAM)という学習戦略により，可変長のストリーム上で動画と言語の整合性を強化する。
- Tree-Structured Hierarchical Memory (TSHM)により，過去の情報をイベントチェーンとして効率的に管理し，長期的なリコールを可能にする。
Link: https://arxiv.org/abs/2606.17798
MaineCoon：リアルタイムなオーディオビジュアルソーシャルワールドモデルの追求 [cs.CV]目的：ソーシャルワールドにおけるオーディオビジュアルモデルの構築
- 動画コンテンツの消費がソーシャルプラットフォームで増加しており，ソーシャルインタラクションを重視したモデルが求められている。
- 既存のワールドモデルは物理環境やゲーム空間のシミュレーションに偏っており，人間中心のソーシャルダイナミクスからの乖離が課題である。
- 本研究は，ソーシャルワールドモデルの実現に向けた第一歩として，リアルタイムなオーディオビジュアル生成モデルを開発する。
- MaineCoonは，220億パラメータを持つリアルタイムなオーディオビジュアル自己回帰モデルであり，単一のGPU上で最大47.5FPSのフレームレートを実現する。
- 自己リサンプリング，クロスモーダル表現アラインメント，ドメイン認識型プリファレンス最適化，ROPDなどの技術により，効率的かつ安定的な学習を可能にした。
- エージェントキャッシュ管理とプロンプト計画を用いた，長時間の生成をサポートする初のストリーミング推論フレームワークを設計した。
Link: https://arxiv.org/abs/2606.17800
大規模多種モダリティ花粉顕微鏡観察と専門家誘導型ファウンデーションモデル [cs.CV]目的：花粉の自動同定のための大規模多種モダリティリソースの構築
- 花粉は，植物分類，古生態学，生物多様性モニタリングにおいて重要な情報源である。
- 花粉の顕微鏡観察における自動同定は，準備方法やスキャナー設定，地理的起源に依存しやすく困難である。
- 本研究は，これらの課題を解決し，高精度な花粉自動同定を可能にするための基盤を提供する。
- 本研究で構築された「Pollen AI Atlas」は，4つの地理的起源と4つのスキャナー設定，46の分類群を含む150万件以上の花粉画像を提供する。
- 専門家による検証の結果，提案された花粉検出精度は99.6%に達し，形態学的特徴に関する詳細なキャプションも生成された。
- キャプションから得られたテキスト埋め込みは，画像類似度が低下してもロバストであり，花粉認識やドメイン適応のベンチマークとして活用できる。
Link: https://arxiv.org/abs/2606.17809
インタラクティブコンテンツワークフローのためのアトラスベース3Dアセットセグメンテーション：人間介入型手法 [cs.CV, cs.AI]目的：3Dアセットのセグメンテーション
- 3Dコンテンツ制作において，アセットを意味のある領域に分割することは不可欠である。
- セグメンテーション基準がアプリケーションに依存し，ユーザー制御が求められる場合，自動化が困難である。
- インタラクティブなメディア制作ワークフローに適合したセグメンテーション手法を開発する。
- 提案手法は，3Dモデルからパラメータ化された2Dアトラスを生成する人間介入型パイプラインである。
- このパイプラインは，多様な形状のオブジェクトに対して利用可能なセグメンテーションアトラスを生成できることが示された。
- 微細構造，空洞，および弱い外観境界において，手動修正が必要となる傾向が明らかになった。
Link: https://arxiv.org/abs/2606.17824
MRIからの骨盤臓器の高精度3D幾何再構成：ハイブリッド深層学習と反復最適化アプローチ [cs.CV, cs.AI, cs.CG, cs.GR]目的：MRI画像からの骨盤臓器の3D幾何形状再構成
- 骨盤底の研究や患者固有の解析には，正確な骨盤臓器の3Dモデルが不可欠である。
- 従来の再構成は手間がかかり，標準化されていない。高精度な形状再構成が課題である。
- 深層学習と反復最適化を組み合わせ，高品質な骨盤臓器の3D再構成を自動化することを目指す。
- 提案手法は，既存の深層学習ベースの臓器再構成モデルと比較して，幾何学的忠実度で顕著な優位性を示した。
- 膀胱，直腸，子宮の再構成において，Chamfer Distanceが有意に低く，Dice Similarity Coefficientが高い値を示した。
- 高い計算効率を維持しつつ，全体的なボリューメトリックメッシュ品質も向上させた。
Link: https://arxiv.org/abs/2606.17836
Qwen-RobotManip技術報告：アライメントがロボット操作の基盤モデルのスケーリングを可能にする [cs.CL, cs.RO, cs.HC, cs.NI, cs.RO, cs.CV, cs.LG]目的：ロボット操作における汎用的な基盤モデルの構築
- ロボット操作は，自動化や生活支援に不可欠であり，その重要性は増している。
- ロボット操作データは収集コストが高く，多様性に乏しいため，汎化性能を高めるのが困難である。
- 異質なデータを統合し，大規模な学習を可能にするアライメント技術を確立し，汎化性能を向上させる。
- Qwen-RobotManipは，表現，動作，行動の各次元におけるアライメントフレームワークを導入し，大規模な多源データ学習を可能にした。
- オープンソースデータと人間によるデモンストレーションのみを用いて，約38,100時間の事前学習コーパスを構築し，優れた汎化能力を示した。
- 既存の最先端モデルを上回り，RoboChallengeで20%の相対的な改善を達成し，実ロボットプラットフォームでも検証された。
Link: https://arxiv.org/abs/2606.17846
アルツハイマー病における多角的バイオマーカーの定量分析 [cs.CV, cs.AI]目的：アルツハイマー病における多角的バイオマーカー間の関係性の定量的な特徴付け
- アルツハイマー病の早期発見と治療法の開発には，正確なバイオマーカーの特定が不可欠である。
- 分子，構造，臨床，遺伝的バイオマーカー間の関係性が十分に解明されていない。
- バイオマーカー間の冗長性の特定と，効果的な組み合わせの発見を目指す。
- 多角的バイオマーカー間の相互情報量と説明分散を定量的に評価し，冗長性と予測依存性を評価した。
- タウPETトポロジーと脳領域における構造的萎縮との関連性を解析し，情報豊富なROIを選択した。
- タウと認知機能の関連性を，萎縮関連成分と非萎縮関連成分に統計的に分解した。
Link: https://arxiv.org/abs/2606.17867
自己注意による順序非依存セル表現を用いた自己回帰マルチタスク表認識における構造依存性の再検討 [eess.SY, cs.SY, cs.CV, cs.LG]目的：表構造予測，セル位置特定，セル内容認識の共同処理
- 表形式データの理解は，情報抽出や知識獲得において重要である。
- 既存手法では，自己回帰的処理によりセル表現が順序に依存し，一貫性が損なわれる場合がある。
- 非因果的注意機構を用いた構造洗練モジュールにより，セル表現の順序依存性を軽減する。
- 提案手法は，セル位置特定とエンドツーエンド認識において一貫した性能向上を示す。
- 推論時間を約3分の1に削減し，効率的な処理を実現する。
- 非因果的注意により，各セルがグローバルな文脈を考慮した処理が可能となる。
Link: https://arxiv.org/abs/2606.17874
寄生的な擬態：社会規模における人間と機械の相互作用 [cs.GT]目的：社会規模での人間と機械の相互作用のモデル化
- 人間と機械の相互作用は，社会における意思決定や行動に大きな影響を与える重要な研究分野である。
- 機械による操作が表面上は健全に見えても，自律的な探求心ではなく機械との結合によって推進されている場合がある。
- この研究は，寄生的な関係が社会システムに及ぼす影響を明らかにし，その検出方法を提案する。
- 機械への情報伝達が優位であり，寄生関係下でその非対称性が増大することが示された。
- 共生的均衡と寄生的均衡が共存し，環境ノイズが均衡を変化させる転換点となり得る。
- 個々の主体には設計されていない創発的現象が，人間と機械の複雑な相互作用構造から生じる。
Link: https://arxiv.org/abs/2606.17925
MoonSplat：Sim(3)グローバル最適化を用いた単眼オンラインガウススプラッティング [cs.CV]目的：単眼画像系列からのオンライン3D再構成
- ロボティクスやAR/VR等の応用展開が期待される分野であり，高精度な3D再構成技術が不可欠である。
- 既存のオンライン3DGS手法は，グローバル最適化の欠如によるカメラ姿勢推定の不安定性や，大規模・長系列データでの効率低下が課題である。
- 信頼性の高いカメラトラッキングと効率的なグローバルループクロージャを実現し，オンライン3D再構成の精度と効率を向上させる。
- 提案手法は，Sim(3)グローバル最適化を統合したロバストかつ効率的なオンラインボクセル化3DGS再構成フレームワークである。
- カラー残差学習戦略を導入することで，最適化の収束を加速し，レンダリング品質を向上させている。
- 多様な屋内および屋外データセットにおいて，カメラ姿勢推定の精度とレンダリング品質において最先端の性能を達成した。
Link: https://arxiv.org/abs/2606.17935