arXiv雑要約

画像・音声 - 2026/06/18 公開

SegmentAnyTreeV2：センサー，プラットフォーム，森林を横断したTransformerベースの樹木インスタンスセグメンテーションのスケール拡大 [cs.CV, cs.LG]目的：森林ポイントクラウドのセマンティックおよびインスタンスセグメンテーションのためのセンサー・プラットフォーム非依存なフレームワーク
- 森林資源管理において，樹木の正確な把握は不可欠であり，効率的なモニタリングと持続可能な利用に繋がる。
- 従来のセグメンテーション手法は，センサーやプラットフォームに依存し，異なる環境への汎化性能が課題であった。
- 本研究は，様々なセンサーやプラットフォームで利用可能な汎用性の高いセグメンテーション手法を開発し，森林調査の効率化を目指す。
- SegmentAnyTreeV2は，FOR-instanceV2テスト分割において，precision 90.5%，recall 80.2%，F1 85.0%，coverage 90.7%，semantic mIoU 87.6%を達成した。
- 既存の学習ベースの手法と比較して，インスタンス検出とマスクの完全性において優れた性能を示した。
- 独立したサイトでのゼロショット評価により，高いドメイン汎化性能が確認された。
Link: https://arxiv.org/abs/2606.08206
SPARX：エッジRISC-V SoCによる安全かつプライバシーを重視した近似CNNアクセラレーション [cs.AR, cs.CV]目的：安全かつプライバシーを保護する近似CNNアクセラレーションフレームワークの開発
- エッジAIシステムは，エネルギー効率，性能，セキュリティ，プライバシー制約下でのリアルタイムCNN推論が求められる。
- 既存の近似CNNアクセラレータは，セキュリティとプライバシー保護を考慮したエッジ展開が不十分である。
- エッジ環境における安全かつプライバシーに配慮した効率的なCNN推論を実現することを目指す。
- SPARXは，RISC-V SoCに統合されたカスタム命令拡張，近似対数CNNアクセラレーションユニット，軽量な差分ノイズベースのプライバシーエンジン，およびチャレンジ応答認証機構を組み合わせている。
- 評価の結果，反復対数乗算器(ILM)が最も適した設計であり，面積を51.7%，消費電力を81.5%削減し，スループットを2.13倍向上させた。
- FPGA実装では，250MHzで58.4 GOPS/Wのエネルギー効率を達成し，28nm CMOS物理実装によりASICの実現可能性が確認された。
Link: https://arxiv.org/abs/2606.09946
Adv-TGD：テキスト誘導拡散による顔認識のなりすまし攻撃 [cs.CV, cs.CR, cs.LG]目的：顔認識システムの欺瞞を目的とした，フォトリアリスティックな顔画像の生成
- 顔認識技術の普及は利便性をもたらす一方，プライバシー侵害のリスクも高めている。
- 既存のなりすまし攻撃手法は，生成される画像の品質や，攻撃成功率の向上が課題である。
- 軽量な手法で，高精度かつ自然な顔画像の生成による，顔認識システムの脆弱性検証を試みる。
- 提案手法Adv-TGDは，Stable Diffusion v2.1を基盤とし，テキストプロンプトに基づいたLoRAファインチューニングを行う。
- 黒箱評価において，IR152, IRSE50, MobileFace, FaceNetといった様々な顔認識システムに対し，平均攻撃成功率85.90%を達成した。
- Adv-CPG, DiffAIM, P3-Maskといった既存手法を上回り，高い攻撃性能と視覚的な忠実性を両立している。
Link: https://arxiv.org/abs/2606.11615
MoVerse：パノラマガウス構造によるリアルタイムビデオワールドモデリング [cs.CL, cs.CV]目的：単一の狭視野画像からのインタラクティブにナビゲート可能なシーンの生成
- 没入型体験の向上や仮想空間の構築において，リアルタイムな3D環境の生成が重要である。
- 限られた視点からの入力情報のみで，完全な周囲環境を再現することが困難である。
- 単一画像からインタラクティブなビデオ出力を実現する実用的なワールド作成手法を確立すること。
- MoVerseは，トポロジーを考慮した拡散により，入力画像を360度パノラマに拡張する。
- パノラマジオメトリを考慮した残差予測を用いて，パノラマを永続的な3Dガウス構造に変換する。
- ガウス条件付きビデオレンダラーは，ユーザー指定のカメラ軌跡に沿ってフォトリアリスティックなビデオを生成し，リアルタイムなシーンローミングを可能にする。
Link: https://arxiv.org/abs/2606.13376
シネオーケストラ：映画的ビデオ生成のための統一されたエンティティ中心の条件付け [cs.RO, cs.CL, cs.CV, cs.AI]目的：映画的ビデオ生成における，被写体，イベント，カメラ，ショット遷移の同時制御
- 映画的ビデオは，複雑な要素の組み合わせであり，その生成には高度な制御が求められる。
- 既存の手法は，各要素を個別に扱うため，それらを統合的に制御することが困難である。
- 映画的ビデオ生成において，要素間の関係性を考慮した統一的な制御フレームワークを構築する。
- CineOrchestraは，被写体，イベント，カメラ，ショット遷移を同時に制御する統一されたビデオ拡散モデルである。
- エンティティ中心の条件付けにより，異なる要素を共通の構造で表現し，複雑さを軽減している。
- 新しいベンチマークにおいて，既存の専門モデルを凌駕し，ユーザー調査でも一貫した改善が見られた。
Link: https://arxiv.org/abs/2606.13768
OmniVideo-100K：構造化スクリプトとエビデンスチェーンによるオーディオ・ビジュアル推論のためのデータセット [cs.CV]目的：オーディオ・ビジュアル推論のための大規模データセットの構築
- 動画と音声の理解は，AIのマルチモーダルな知能開発に不可欠である。
- 既存手法は動画を断片的に処理し，音声と映像の関連性を十分に捉えられていない。
- 動画全体を通して一貫性のある情報を捉え，複雑な推論を可能にするデータセットの必要性。
- 本研究では，エンティティに基づいた動画スクリプトと，手がかりに基づいたQA生成を組み合わせたデータ生成エンジンを開発した。
- 構築したOmniVideo-100KデータセットでVITA-1.5等のモデルをファインチューニングした結果，OmniVideo-Testにおいて最大20.59%の性能向上を示した。
- 既存のベンチマークにおいても高い汎化性能を示し，マルチモーダル推論における有効性を証明した。
Link: https://arxiv.org/abs/2606.14702
同じ音楽的知識が異なる忘れ方をする時：経路依存性忘却の明確な検証 [cs.SD, cs.CL, eess.AS]目的：マルチモーダルモデルにおける経路依存性忘却の検証
- マルチモーダル学習は，多様な情報源からの知識統合を可能にし，より高度なAIシステム構築に不可欠である。
- 既存の研究では，知識の喪失は計測されるものの，知識の獲得経路が忘却のしやすさに影響するかは未解明である。
- 本研究は，獲得経路が忘却に及ぼす影響を検証し，忘却研究の新たな視点を提供する。
- 複数のオーディオ・言語モデルにおいて，テキスト経路で獲得した知識は，対応するオーディオ経路で獲得した知識よりも忘れやすいという一貫した非対称性が観察された。
- Paired Pathway Controlled Protocol (PPCP) を導入することで，この効果が経路に起因することを明確に示し，アーキテクチャの深さや入力表現が影響しないことを確認した。
- 本研究は，忘却が経路に依存することを示し，忘却研究とマルチモーダルシステム設計における新たな分析次元を確立した。
Link: https://arxiv.org/abs/2606.15088
RaLMPH：全スライド画像分類における多病理医調和のための信頼性に基づいた学習 [cs.CV]目的：全スライド画像分類における多病理医間のラベル不一致問題の解決
- 病理診断の精度向上には，デジタル病理画像の活用が不可欠であり，その自動化技術への期待が高まっている。
- 病理医間には意見の相違が生じることが多く，既存手法ではその不確実性を十分に考慮できていない。
- 病理医の信頼性を考慮したラベル調和により，診断精度の高い画像分類を実現することを目指す。
- RaLMPHは，全スライド画像の特徴空間における局所的な近傍構造と専門家の不確実性（エントロピー）を共同でモデル化する信頼性場を導入した。
- この信頼性場を用いて，RaLMPHはサンプルごとに信頼性の高い近傍を選択し，局所的な信頼性に基づいてラベルを適応的に統合する。
- 臨床データセットおよびシミュレーション実験の結果，RaLMPHは既存手法と比較して一貫して高い性能を示した。
Link: https://arxiv.org/abs/2606.15554
オープンワールドビデオセグメンテーション [cs.CV]目的：オープンワールドにおける長期的なビデオセグメンテーションの実現
- ビデオセグメンテーションは，ロボット工学や自動運転など，多様な分野で不可欠な技術である。
- 既存手法は，動的な環境下での長期ビデオにおける物体検出と追跡が困難である。
- 本研究は，長期的なビデオにおける未知の物体を検出し，安定的に追跡する手法を確立する。
- 提案手法Savvyは，階層的なマスク検出，遅延的な承認，トラック統合を組み合わせることで，長期的な物体検出と追跡を実現した。
- 新たに提案する評価指標OGAは，粒度を考慮した柔軟なマッチングにより，既存の評価方法の課題を克服した。
- VIPSeg，ScanNet，HM3Dの評価により，Savvyが既存手法を凌駕し，実用的なベンチマークと強力なベースラインを確立した。
Link: https://arxiv.org/abs/2606.15632
進化と基盤：AIによる創造性の共有 [cs.NE, cs.GR, cs.HC]目的：自動設計と芸術的評価の創造的プロセス
- デザインやアート分野において，AIによる創造性の支援は重要である。
- AIが生成するアウトプットの審美的な品質管理が課題となっている。
- AIが審美的判断を下し，創造的なアウトプットを生成する仕組みを提案する。
- 大規模AIモデルと遺伝的アルゴリズムを統合し，美しい3D有機形状の進化を可能にした。
- アーティストの役割を詳細な選択からシステム設計へと変化させ，AIによる審美的判断を活用した。
- AIの審美的推論の記録と可視化ツールにより，進化実験の透明性と洞察を深めた。
Link: https://arxiv.org/abs/2606.16849
Qwen-RobotWorld技術報告：言語条件付きビデオ生成による具現化された世界モデルの統合 [cs.CG, cs.CV]目的：言語条件付きビデオ世界モデルによる具現化された知能の実現
- ロボティクス分野において，現実世界の複雑な環境に適応可能な知能の開発が重要である。
- 既存モデルは特定のタスクに特化し，汎用性や異なる環境への適応性に課題があった。
- 多様なロボットタスクにおいて，言語による指示に基づいた未来予測を可能とするモデルを構築する。
- Qwen-RobotWorldは，ロボットの操作，自動運転，屋内ナビゲーションなど，多様なタスクにおいて優れた予測性能を示した。
- EWMBenchおよびDreamGen Benchで1位，WorldModelBenchとPBenchでは他のオープンソースモデルを上回る競争力がある。
- RoboTwin-IFベンチマークにおけるゼロショット分析により，ロバストな汎化性能と多視点整合性が確認された。
Link: https://arxiv.org/abs/2606.17030
真に多言語ではない：VLM評価における文字体系の一貫性という欠如した側面 [cs.AR, cs.CV, cs.CL]目的：ビジョン-言語モデルの文字体系間性能格差の検証
- 多言語対応AIの普及が期待される中，言語の多様性を考慮した評価が不可欠である。
- 既存の多言語評価は，言語と文字体系の1対1対応を前提とし，多文字体系言語ユーザーへの対応が不十分である。
- パンジャブ語を対象に，文字体系の違いがVLMの性能に及ぼす影響を定量的に明らかにする。
- 最新のVLM10モデルを評価した結果，文字体系間の性能格差が顕著に確認された。
- 視覚情報による性能向上は全体的に見られるものの，文字体系間の格差を解消するには至らなかった。
- 文字体系間での文脈内学習による知識転移は脆く，文字体系に依存した知識表現が示唆された。
- 新たな評価指標である「文字体系一貫性率(SCR)」を提案し，公平なAIアクセスを担保する重要性を示した。
Link: https://arxiv.org/abs/2606.17188
クロススケール推論による病理VLMsの性能向上 [cs.CV, cs.AI]目的：病理画像のクロススケール推論能力の向上
- 病理診断には，組織全体の構造から細胞レベルの形態まで，多スケールの情報を統合する必要がある。
- 既存の病理画像データセットは多スケールに対応しているものの，明示的なクロススケール推論の目的が欠けている。
- クロススケール推論を可能にする高品質なベンチマークとモデルを構築し，病理理解の向上を目指す。
- 新たなクロススケール学習・評価パラダイムを導入し，病理解釈を多倍率推論として定式化した。
- テキストのみのショートカットを防ぐための，敵対的テキストスクリーニングと制約に基づいた質問設計を組み合わせたキュレーションパイプラインを提案した。
- クロススケールVQAタスクにおいて，強化学習を用いて訓練されたScaleReasoner-R1が最先端の性能を達成し，既存のシングルスケールベンチマークでも優れた性能を示した。
Link: https://arxiv.org/abs/2606.17412
ERQA-Plus：具現化AIにおける推論のための診断ベンチマーク [cs.RO, cs.CV]目的：具現化AIにおける推論能力の診断
- 汎用的な具現化エージェントには，物体認識に加え，状況に応じた推論能力が不可欠である。
- 既存のベンチマークは推論依存性を制御しにくく，真の推論と単なるパターン認識を区別困難である。
- ERQA-Plusは，具現化AIの推論能力を詳細に評価し，弱点を特定することを目的とする。
- ERQA-Plusは，711枚のロボット視点画像に基づき，1,766の質問と回答を含む。
- 最良モデルであるQwen3-VL-32Bは全体で83.4%の正答率，61.4のSBERTスコアを達成したものの，空間推論，手続き推論などで課題が残る。
- ERQA-Plusは，具現化AIが正答できるかだけでなく，どのような推論が可能かどうかの評価枠組みを提供する。
Link: https://arxiv.org/abs/2606.17639
Qwen-RobotManip技術報告：アライメントがロボット操作基盤モデルのスケーリングを可能にする [cs.RO, cs.CV, cs.LG]目的：ロボット操作における汎化性能の向上
- ロボット操作は，現実世界でのタスク自動化に不可欠であり，その重要性は増している。
- ロボット操作データは収集コストが高く，多様性に乏しいため，汎化性能の向上が課題である。
- 多様なデータのアライメントによる大規模学習を通して，ロボット操作の汎化性能を実現することを目指す。
- Qwen-RobotManipは，表現，動作，行動の各次元でアライメントを統合したフレームワークを導入した。
- 大規模なマルチソース学習を可能にし，ゼロショット指示追従，摂動へのロバスト性，エラーからの回復，異種ロボットへの転送などの創発的な汎化能力を示した。
- 既存のベンチマークでは事前学習品質を捉えきれないため，RoboCasa365などのOOD設定で評価し，最先端モデルを大幅に上回った。
Link: https://arxiv.org/abs/2606.17846
グリッド表現が，密な信号の圧縮において暗黙的ニューラル表現を凌駕することが多い [eess.IV, cs.AI, cs.CV]目的：密な信号に対する，グリッド表現と暗黙的ニューラル表現の性能比較
- 信号処理において，効率的な表現と圧縮は重要な課題である。データ量を削減し，計算コストを抑える必要がある。
- 暗黙的ニューラル表現の性能やスケーラビリティは未だ不明な点が多く，その能力を最大限に引き出すことが難しい。
- 信号の種類や帯域幅に応じて，グリッド表現と暗黙的ニューラル表現の最適な適用範囲を明らかにすること。
- 密な信号のタスクにおいては，パラメータ数が同じ場合，正則化されたグリッド表現が暗黙的ニューラル表現よりも高速に学習し，同等以上の精度を達成することが示された。
- 暗黙的ニューラル表現は，形状輪郭のような二値信号の適合においてグリッド表現を上回る性能を発揮することが確認された。
- 本研究は，暗黙的ニューラル表現の利用を，より有利なアプリケーションに絞り込むための指針を提供する。
Link: https://arxiv.org/abs/2506.11139
CTスキャン視野拡張のための効率的な画像間シュレーディンガーブリッジ [eess.IV, cs.CV]目的：CTスキャン視野拡張のための高速かつ高精度な画像再構成手法
- CTは体内の構造を非侵襲的に可視化する上で不可欠な技術であり，診断精度向上に貢献している。
- スキャン範囲がCT装置の視野を超える場合，データが途切れて再構成画像にアーチファクトが生じるという課題がある。
- 本研究は，視野拡張時に生じるアーチファクトを抑制し，高精度な再構成を可能にすることを目的としている。
- 提案手法であるI$^2$SBは，シミュレーションデータにおいて，最先端の拡散モデルよりも低いRMSE値（49.8 HU）を示した。
- 実際のデータに対しても，I$^2$SBは優れた性能を発揮し（152.0 HU），他の手法を上回った。
- I$^2$SBはワンステップ推論により，従来のcDDPMと比較して700倍以上高速に再構成を実現し，臨床応用への可能性を示唆した。
Link: https://arxiv.org/abs/2508.11211
多岐にわたる音声対話における安全性評価のための大規模音声言語モデルのベンチマーク：LALMを評価者として [eess.AS, cs.SD]目的：多岐にわたる音声対話における社会的に不適切なコンテンツの安全性評価
- 音声対話システムの普及に伴い，倫理的・社会的な問題への対応が不可欠となっている。
- 既存の評価手法はテキスト中心であり，音声特有の情報や書き起こしエラーを考慮していない。
- 音声とテキスト両方を利用した，より正確で包括的な安全性評価手法の確立を目指す。
- 大規模音声言語モデル（LALM）を評価者として用いることで，音声情報がテキスト情報に加えて有用な証拠となることが示された。
- マルチモーダル入力による性能向上は普遍的ではなく，モデルやプロンプトの選択に依存することが明らかになった。
- 本ベンチマークは診断ツールとして活用でき，実務者向けのモデル選択に関する指針を提供する。
Link: https://arxiv.org/abs/2602.04796
ポリベンチ：多声音響における構成的推論のためのベンチマーク [eess.AS, cs.SD]目的：多声音響における構成的推論の評価
- 音響処理分野の発展に伴い，音響データの理解が重要になっている。
- 既存のベンチマークは，複数の音が同時に発生する多声音響の推論評価が不十分である。
- 多声音響における構成的推論能力のボトルネックを明らかにすること。
- 最先端の音響言語モデルを評価した結果，多声音響環境下で性能が低下することが示された。
- これは，現在のモデルが複数の同時発生イベント間の関係を捉えるのが難しいことを示唆している。
- ポリベンチは，音響言語モデルの構成的推論能力向上に貢献する。
Link: https://arxiv.org/abs/2603.05128
太平洋島嶼言語音声認識の継続的適応 [eess.AS, cs.CL, cs.SD]目的：太平洋島嶼言語における音声認識の継続的な適応
- 言語多様性の保護は重要であり，少数言語のデジタル化は文化継承に不可欠である。
- データ不足のため，汎用的な音声モデルは太平洋島嶼言語に対応しにくい。
- データ不足下での過学習と，逐次学習時の忘却を抑制する手法が求められている。
- 太平洋島嶼言語への適応は，モデル内部の表現に深刻なずれを引き起こす。
- LoRAは初期適応には有効だが，逐次学習中に破滅的忘却を起こしやすい。
- 少数言語への対応には，頑健な適応戦略が不可欠である。
Link: https://arxiv.org/abs/2603.06310
レコメンデーション露出とのお気に入りリストの設計：スポットワークプラットフォームにおけるフィールド実験 [math.CO, cs.DM, econ.GN, cs.GT, cs.IR, q-fin.EC]目的：稀少で短命な機会へのアクセスをレコメンデーションが形成する場合の，レコメンダシステムの設計
- 労働市場において，仕事機会への迅速なアクセスは経済的安定と効率性に不可欠である。
- 人気のある仕事テンプレートに露出が集中し，需要のあるテンプレートへの露出が不足する傾向がある。
- テンプレートの露出を再配分し，仕事発見率の向上を目指す。
- 提案されたレコメンダ「閾値適格性制御（TEC）」は，大規模デジタルプラットフォームに適している。
- シミュレーションの結果，TECは仕事発見率を57.6%から70.0%に向上させた。
- 県レベルのランダム化フィールド実験により，実現したマッチングと露出が増加し，低露出テンプレートの割合が減少した。
Link: https://arxiv.org/abs/2606.17397