arXiv雑要約

画像・音声 - 2026/05/19 公開

構造完成と動作修正による機能化 [cs.CV, cs.GR]目的：3Dモデルの機能性
- 3Dアセット制作は視覚的側面が重視されがちであるため，機能に必要な構造要素が欠如している場合が多い。
- 既存の3Dモデルは，関節や内部構造など，機能に必要な構造要素が不足していることが課題である。
- 視覚的に妥当だが機能しない3Dモデルを，機能的で操作可能なものへと変換することを目指す。
- 本研究では，機能グラフ表現を用いたグラフ完成問題として機能化を定式化し，GraFuと呼ばれるニューラルネットワークを開発した。
- GraFuは不完全なグラフを完成させ，その結果を基に3D空間にコネクタや構造要素を生成し，誤ったモーションを修正する。
- 家具を対象としたデータセットFurFun-233を新たに作成し，モーション予測精度は最先端手法と同等でありながら，衝突や接続性の面で機能性が大幅に向上することを示した。
Link: https://arxiv.org/abs/2605.18010
セマンティックを考慮したサンプリングによる生成データセット蒸留 [cs.CV, cs.AI, cs.LG]目的：データセット蒸留におけるセマンティック情報の保持
- 深層学習の性能向上には大規模データが不可欠だが，計算コストやストレージが課題となる。
- 既存の蒸留手法はデータ分布や訓練統計に重点を置き，セマンティック情報の保持が不十分である。
- セマンティック情報を考慮し，コンパクトかつ識別力と多様性を備えた蒸留データセットを構築する。
- 本研究では，CLIPを活用し，セマンティック空間におけるクラス関連性，分離度，多様性を定量化するスコアリング関数を設計した。
- 既存の蒸留手法で生成した画像プールに対し，まず識別力のあるサンプルをフィルタリングし，信頼性の高い候補セットを形成する。
- 次に，動的に多様性を考慮した選択を行い，冗長性を削減しながらセマンティックカバレッジを維持する2段階戦略を開発した。
Link: https://arxiv.org/abs/2605.18012
TinySAM 2：効率的なTrack Anythingモデルのための極限的なメモリ圧縮 [cs.CV, cs.AI]目的：動画セグメンテーションのための軽量モデルの開発
- 動画セグメンテーションは，自動運転やロボティクスなど，様々な応用分野で重要な役割を担う技術である。
- SAM 2は高性能だが，複雑な計算特性から実用的な展開にハードルが存在する。
- SAM 2の課題であるパラメータ数，計算負荷，導入コストを削減し，効率的な動画セグメンテーションを実現する。
- TinySAM 2は，SAM 2.1の性能の90%を，わずか7%のメモリトークンと3%の学習データで達成する。
- 空間的および時間的なトークン圧縮により，メモリストレージと計算コストを大幅に削減した。
- RepViTを軽量な画像エンコーダーとして採用し，モデルパラメータをさらに削減することに成功した。
Link: https://arxiv.org/abs/2605.18013
視覚と言語表現の整合：ビデオにおける詳細な物体理解のために [cs.CV, cs.AI, cs.HC]目的：ビデオにおける詳細な物体理解のための視覚と言語表現の整合
- マルチモーダルな情報処理において，視覚と言語の理解を統合することは重要である。
- 既存手法では，明示的な視覚的プロンプトが必要であり，柔軟性に欠ける。
- テキストによる指示のみで詳細な物体理解を可能にする視覚と言語表現の整合を目指す。
- SWIMは，訓練時にマスクによる監督を用いて，クロスモーダルアテンションを誘導する新しい戦略である。
- 属性語は視覚モダリティで局所的な活性化を示す一方，物体名が拡散したパターンを示すという乖離が明らかになった。
- SWIMはNL-Referデータセットを用いてクロスアテンションマップの空間的一貫性を強制し，性能を向上させる。
Link: https://arxiv.org/abs/2605.18018
DSAA：微細粒度オープンボキャブラリ検出のための二段階属性活性化 [cs.CV]目的：微細粒度オープンボキャブラリ検出における性能向上
- 既存の物体検出モデルは，特定のカテゴリに限定されるため，未知の物体を認識できないという課題がある。
- オープンボキャブラリ検出モデルは，自然言語プロンプトで未知のカテゴリを識別できるが，色や材質などの微細な属性の検出が苦手である。
- 属性情報の軽視を解消し，属性と対象物との正しい関連付けを強化することで，微細粒度検出の精度向上を目指す。
- 提案手法DSAAは，テキスト埋め込み段階で属性プレフィックスアダプター（APA）モジュールを用いて明示的な属性情報を注入する。
- BERTエンコーディング段階では，K/Vモジュールが属性トークンのKey/Valueベクトルを強化し，属性の影響を増幅する。
- 属性認識対照損失を導入することで，異なる属性を持つ同じカテゴリのインスタンス間の識別能力を向上させる。
Link: https://arxiv.org/abs/2605.18023
オープンソースのビジョン言語モデルを用いた食料品検索における重要な要素 [cs.CV]目的：食料品検索タスクにおけるオープンソースのビジョン言語モデルの性能評価
- 小売業の自動化や在庫管理システムにおいて，正確な商品検索が不可欠である。
- 既存のビジョン言語モデルのベンチマークは，食料品のような細かいSKUの識別には不十分である。
- 本研究は，食料品検索におけるモデル性能の向上に貢献することを目的とする。
- データ品質がモデルの規模よりも重要であり，質の高いデータセットへの切り替えが性能向上に繋がる。
- MobileCLIP-Bのような効率的なモデルが，ノイズの多いデータで訓練されたより大規模なモデルを凌駕する。
- 最先端モデルはRecall@5で高い性能を示すが，Recall@1で大幅に低下し，類似SKUのランキングに課題が残る。
Link: https://arxiv.org/abs/2605.18029
弱軌跡ラベルを用いたロブストなサケ再識別のためのパッチアンサンブル [cs.CV]目的：商業養殖場におけるサケの再識別
- サケの個体識別は，漁獲量管理や遺伝的多様性の維持に不可欠である。
- 大規模な個体群とデータ収集の困難さから，高精度な再識別が課題となっている。
- 軌跡IDバイアスを軽減し，カメラ間での再識別精度を向上させる。
- 提案手法は，同一軌跡での検証において，平均適合率(mAP)を0.932から0.965に向上させた。
- また，異なるカメラ間でのテストにおいて，mAPを0.609から0.860に大幅に改善した。
- この結果は，提案手法がより優れた汎化能力とロバスト性を持つことを示している。
Link: https://arxiv.org/abs/2605.18038
テンプレート誘導ソフト信号による3D形状対応のための融合セマンティック幾何特徴学習：SGSoft [cs.CV]目的：変形可能な3D形状間の高密度対応学習
- 3D形状解析は，コンピュータビジョン，ロボティクス，医療画像処理など幅広い分野で不可欠である。
- 既存手法は，一般化性能，幾何学的精度，効率性の間でトレードオフを強いられる場合が多い。
- 大規模なポーズ変動や構造の違い，リメッシング下でも安定した対応関係を確立することを目指す。
- 提案手法SGSoftは，テンプレート上の測地線対応場を構築し，事前学習済みのセマンティック事前知識に誘導された多次元高密度記述子を学習する。
- 記述子空間内での最近傍探索により，単一の順伝播パスで高密度対応を効率的に取得可能である。
- SGSoftは，最先端のクロスカテゴリ一般化性能を示し，既存手法と比較して精度と効率性のバランスに優れる。
Link: https://arxiv.org/abs/2605.18039
OmniSelect：効率的なオムニモーダル大規模言語モデルのための動的なモダリティ認識トークン圧縮 [cs.CV]目的：オムニモーダル大規模言語モデルにおける効率的なトークン圧縮
- 近年，画像と音声を統合的に理解するオムニモーダルLLMの研究が活発化している。
- マルチモーダルな長いトークン系列の処理は計算コストが高く，効率的な圧縮が課題である。
- モダリティ間の重要度の変化に対応し，動的に圧縮戦略を選択することで効率化を図る。
- 提案手法OmniSelectは，学習を必要とせず，入力に応じて圧縮戦略を動的に選択する。
- AudioCLIPモデルを活用し，クロスモーダルな関連性を推定し，音響・映像中心，均一の3つの圧縮モードに分類する。
- 実験の結果，性能を維持しつつ，マルチモーダルなトークン数を効率的に削減できることが示された。
Link: https://arxiv.org/abs/2605.18041
効率的な3Dコンテンツの再構成と生成 [cs.CV]目的：3Dコンテンツの効率的な再構成と生成手法
- ゲーム，VR，ロボットなど，多様な分野で3Dコンテンツの需要が急速に高まっている。
- 従来の3Dモデリングやスキャンは時間と労力がかかるため，効率的な代替手段が求められている。
- テキストや画像から直接3Dアセットを生成・再構成する技術を向上させ，迅速なコンテンツ制作を目指す。
- Instant3Dを開発し，マルチビュー拡散とフィードフォワード疎視点3D再構成を組み合わせることで，高品質なアセットを5〜20秒で生成可能にした。
- FastMapを開発し，ファーストオーダー最適化とGPUカーネルを融合することで，既存の構造復元パイプラインの最大10倍の速度を実現した。
- FastMapは，姿勢精度と新規視点合成品質を維持しながら，高速な処理を実現している。
Link: https://arxiv.org/abs/2605.18052
アラビア文字手書き認識に対する脅威：組み込みConvNetモデルへのブラックボックス敵対的攻撃の調査 [cs.CV]目的：アラビア文字手書き認識モデルの敵対的攻撃に対する脆弱性の検証
- アラビア文字手書き認識は，文書処理や情報検索において重要な役割を担う技術である。
- 深層学習モデルの性能向上に注力するあまり，セキュリティへの対策が遅れている。
- ブラックボックス攻撃に対する脆弱性を明らかにし，モデルの安全性向上に貢献する。
- 敵対的攻撃により，高性能な手書き認識モデルが容易に欺瞞されることが示された。
- 特に，Pixle攻撃は，多くのモデルで99-100%という高い攻撃成功率を達成した。
- 攻撃によって生成された改変画像は，人間の目にはほとんど認識できないレベルであった。
Link: https://arxiv.org/abs/2605.18058
埋め込みConvNetアンサンブル：アラビア文字の手書き文字認識への軽量アプローチ [cs.RO, cs.CV]目的：アラビア文字手書き文字認識における軽量なモデルとアンサンブル学習の組み合わせ
- 近年，アラビア文字手書き文字認識は深層学習により飛躍的に進歩している。
- 既存モデルはパラメータ数や計算量が大きく，リソース制約のあるデバイスへの実装が困難である。
- リソース制約下でも高性能なアラビア文字手書き文字認識を実現すること。
- 埋め込みモデルは，より大規模なアーキテクチャと同等かそれ以上の精度を達成できることが示された。
- アンサンブル学習は，わずかな計算コストの増加で性能を向上させる。
- 特に，ソフト投票が最も良好な結果をもたらした。
Link: https://arxiv.org/abs/2605.18060
MixCountデータセット：オープンボキャブラリ物体計数のデータギャップの解消 [cs.CV, cs.LG]目的：混合物体環境における物体計数のためのデータセットとベンチマーク
- 物体計数は基礎的な画像処理技術であり，産業検査や製品選別など，実世界での応用が期待されている。
- 既存の物体計数データセットはアノテーションコストが高く，ノイズも多い。合成データでは多様性と現実感に課題がある。
- 本研究では，大量の合成データを用いて，混合物体環境における物体計数モデルの性能向上を目指す。
- MixCountデータセットは，現在の物体計数モデルの苦手とする混合物体環境を対象としたベンチマークとトレーニングデータを提供する。
- 提案手法による合成データで学習することで，実世界のベンチマークFSC-147とPairTallyでそれぞれMAEが20.14％，18.3％減少した。
- これにより，ラベル付きデータのボトルネックを解消し，高精度な物体計数モデルの開発に貢献する。
Link: https://arxiv.org/abs/2605.18063
MusicDET：ゼロショットAI生成音楽検出 [cs.CL, cs.SD]目的：AI生成音楽の検出
- 音楽の著作権保護やアーティストの権利擁護のため，生成技術の悪用防止が重要である。
- 既存の検出器は学習済みの生成モデルに依存し，未知の生成モデルに対して性能が低下する。
- 未知の生成モデルに対しても有効な，ゼロショット検出手法を確立すること。
- MusicDETは，周波数誘導正規化フローに基づき，実音楽の特徴量の分布を確率的にモデル化する。
- 実音楽分布下での入力サンプルの尤度を評価することで，分布外の音楽信号を高精度に検出する。
- FakeMusicCapsおよびSONICSデータセットで，既存手法と比較して高い検出性能が確認された。
Link: https://arxiv.org/abs/2605.18072
SENSE：持続可能な環境のための衛星ベースエネルギー合成 [cs.CV, cs.AI]目的：都市建物エネルギーモデルの生成
- 都市の持続可能性向上には，建物エネルギー消費量の正確な把握が不可欠である。
- 既存研究は予測型が多く，都市計画の生成的側面を反映できていない。
- 衛星画像と建物エネルギーデータを統合し，エネルギー効率的な都市計画を支援する。
- SENSEは，道路ネットワークと都市密度を条件として，現実的な衛星画像と建物エネルギー消費量を同時に生成する。
- 4都市での実験により，SENSEは高い視覚的忠実度と物理的整合性を持つことが示された。
- 少ないラベル付きデータで十分な合成データを生成し，下流タスクの予測性能を最大10％向上させた。
Link: https://arxiv.org/abs/2605.18101
DanceHMR：単眼動画からの手認識全身体網モデルの復元 [cs.CV]目的：単眼動画からの全身体網モデルの復元
- デジタルヒューマンやアバターアニメーション等の応用において，リアリティのある人物表現が重要である。
- 既存手法では，全身の動きは滑らかになるものの，手の細かい動きの再現が課題となっている。
- 全身の安定性と手の詳細な動きを両立し，より自然な人物モーションの復元を目指す。
- 本研究では，身体の全体的なコンテキストと手の情報を融合することで，安定した全身運動と詳細な手の動きを同時に再現する手法を提案した。
- 特に，手の部分への注意を促すデータ拡張により，上半身をクローズアップした動画に対するロバスト性を向上させた。
- 実験の結果，手の形状復元精度が向上し，全身の精度も競争力のある水準を維持することが示された。
Link: https://arxiv.org/abs/2605.18102
TaskGround：完全シーン家事推論のための構造化実行可能タスク推論 [cs.CL, cs.AI, cs.CV, cs.RO]目的：完全シーン家事推論における実行可能タスク構造の推論
- 家庭用ロボットの普及には，複雑な家庭環境でのタスク遂行能力が不可欠である。
- 完全な家庭シーンはタスクに関係ない情報が多く，直接プロンプトすると非効率になりやすい。
- プライバシーや計算資源の制約下で，コンパクトなモデルでも実用的な家事遂行を可能にすること。
- TaskGroundは，シーンをタスク関連部分に絞り込み，実行可能なタスク構造を推論するフレームワークである。
- FullHomeデータセットを用いて評価した結果，TaskGroundは既存モデルのタスク成功率を大幅に向上させた。
- 特に，Qwen3.5-9Bの性能をGPT-5に匹敵させつつ，入力トークンコストを最大18倍削減することに成功した。
Link: https://arxiv.org/abs/2605.18109
大規模言語モデルにおけるベンガル語医学画像質問応答の性能評価：データセットとベンチマーク [cs.SC, math.AG, cs.CL, cs.CV]目的：ベンガル語医学画像質問応答のためのデータセットと評価基準
- 近年，医療分野を含む複雑な推論タスクにおいて，大規模言語モデルの応用が期待されている。
- ベンガル語は世界で広く話されている言語であるにも関わらず，医学画像質問応答のベンチマークが存在しなかった。
- ベンガル語における医学的知識に基づいた質問応答の現状を明らかにし，モデルの改善に貢献すること。
- 本研究では，臨床的に検証された画像，質問，回答のペアからなるベンガル語医学画像質問応答データセット BanglaMedVQA を公開した。
- 評価の結果，既存の基盤モデルのベンガル語における性能は低く，特に専門的な診断問題において限界が明らかになった。
- Gemma-3 などのオープンソースモデルが一般的なカテゴリでは Gemini や GPT-4.1 mini を上回る場合もあるが，臨床的に複雑な質問には依然として苦戦している。
Link: https://arxiv.org/abs/2605.18111
WinTok：転移可能なトークンを用いた視覚的理解と生成の分解によるWin-Winハイブリッドトークナイザー [cs.CL, cs.CV]目的：視覚的理解と生成の間のギャップを埋めるための統合的な視覚トークナイザーの構築
- 視覚情報処理は，画像認識や画像生成など，幅広い応用分野において重要な役割を果たす。
- 既存のアプローチは，高レベルの抽象化と低レベルの再構成という相反するタスクに対応できず，性能が制限される。
- WinTokは，タスク間の干渉を軽減し，理解能力を向上させることで，この問題を解決することを目指す。
- WinTokは，視覚的な理解，生成，再構成において，一貫した性能向上を10のベンチマークで実証した。
- わずか5000万件のオープンソースデータで学習するだけで，強力なベースラインであるUniTokを分類精度で11.2%上回った。
- 再構成rFIDは0.41という競争力のあるスコアを達成し，UniTokよりも少ない学習データで優れた性能を発揮した。
Link: https://arxiv.org/abs/2605.18115
Rad-VLSM: 意味的プロンプトを用いた医用画像セグメンテーションと診断のためのクロスコモダルフレームワーク [cs.CV]目的：医用画像セグメンテーションと診断のためのフレームワーク
- 臨床現場では，病変のセグメンテーションだけでなく，診断支援が重要視されている。
- 既存モデルは背景組織やノイズに惑わされ，微細な診断的特徴を捉えきれない場合がある。
- 意味情報に基づいた局所化により，診断精度を向上させ，根拠に基づいた診断を可能とする。
- 提案手法Rad-VLSMは，セマンティクス情報を用いて病変候補領域を特定し，セグメンテーションと診断を同時に行う。
- BLIP-2とSAMを組み合わせることで，ロバストなセグメンテーションと高精度な診断を実現した。
- 臨床データセットおよび公開ベンチマークにおいて，優れた性能と汎化性能を示すことが確認された。
Link: https://arxiv.org/abs/2605.18130
この3Dアセットは誰が生成したか？生成3Dモデルのソース帰属学習 [cs.CV, cs.AI]目的：生成3Dモデルのソース帰属
- ゲーム，ロボティクス，没入型コンテンツ作成において生成3Dモデルの利用が拡大しており，著作権保護や品質管理が重要になっている。
- 3Dアセットの生成元を特定することは困難であり，特に分散した特徴や現実的な制約下では信頼性が低い。
- 生成3Dモデルが残す安定的な指紋を特定し，信頼できる3Dコンテンツの出所を追跡することを目指す。
- 本研究では，22種類の代表的な3D生成モデルを対象としたソース帰属ベンチマークを構築し，安定した指紋としてクロスビュー不整合と幾何学的構造のアーティファクトを特定した。
- 提案手法である階層型マルチビューマルチモーダルTransformerは，外観，幾何学，周波数領域の特徴を融合し，高い精度を達成した（完全教師あり下で97.22%）。
- 少ないデータ（1%の訓練データ）でも77.17%の精度を達成し，現代の3D生成モデルが追跡可能な指紋を残すことを示した。
Link: https://arxiv.org/abs/2605.18132
Xiaomi EVワールドモデル：再構成と生成を統合した自律運転用汎用ワールドモデル [cs.CV]目的：自律運転のためのワールドモデルにおける，ワールド表現とワールド生成の二つの主要な能力を統合する技術システム
- 自動運転の実現には，周囲環境の正確な理解と将来予測が不可欠であり，その基盤技術がワールドモデルである。
- 既存のワールドモデルは，計算コストが高い，一貫性のない表現，十分な生成能力がないといった課題を抱えている。
- ワールドモデルの性能向上により，シミュレーション，データ合成，そしてエンドツーエンドの訓練を促進し，自動運転の精度向上を目指す。
- WorldRecと呼ばれる再構成アーキテクチャを提案し，3D空間における疎なシーンクエリを活用することで，フレーム間の一貫性を保ちつつ高精度な3D Gaussianシーン表現を実現した。
- WorldGenという二段階の訓練フレームワークを開発し，双方向事前学習と因果的ファインチューニングにより，少ないステップ数で高品質なオンライン因果的ビデオ生成を可能にした。
- WorldRecとWorldGenを深く統合したJWMを導入し，生成の安定性，フレーム間の一貫性，視覚的忠実度を向上させ，自律運転の発展に貢献する基盤を確立した。
Link: https://arxiv.org/abs/2605.18137
Semi-LAR：線形注意を用いた半教師ありコントラスト学習による夜間フレア除去 [cs.CL, cs.CV]目的：夜間フレア除去のための半教師あり学習フレームワーク
- 画像処理において，レンズフレアは画質を著しく低下させるため，除去技術は重要である。
- 既存手法は大規模なペアデータに依存しており，ラベル付けコストが高いという課題がある。
- ラベルなし画像から安定した学習を可能にし，フレア除去性能を向上させることを目指す。
- 擬似ラベルリポジトリとフレアを意識したコントラスト損失により，エラーの蓄積を抑制し，表現の識別力を高める。
- 提案手法はモデルに依存せず，複数のフレアベンチマークで性能と堅牢性を一貫して向上させる。
- 参照なしの品質評価とモメンタムベース更新により，擬似ラベルの信頼性を高める。
Link: https://arxiv.org/abs/2605.18156
指向性ネットワークで定義される協調ゲームの扱いやすいクラス：一致分解とシャプレイ値 [cs.GT, econ.TH]目的：指向性ネットワークによって誘導される協調ゲームのクラス
- ネットワーク構造は，社会システムやインフラなど，様々な現実世界の相互作用をモデル化する上で重要である。
- 既存の研究では，複雑なネットワーク構造を持つ協調ゲームの解析が困難である。
- 安定性と公平性の概念が一致しない，構造化されたネットワーク誘導型協調ゲームの解析例を提供する。
- 提案されたゲームは，一致ゲームを用いて都合の良い表現が可能であり，シャプレイ値とバンザフ値を多項式時間で計算できる。
- このゲームクラスは，空でない核を持ち，完全にバランスが取れていることが示された。
- 安定性に基づく配分と公平性に基づく解概念が一致しない，解析的に扱いやすいゲームの例を提供する。
Link: https://arxiv.org/abs/2605.18157
ビジョン推論変換器：マルチモーダル大規模言語モデルにおける視覚的一貫性の維持 [cs.CV, cs.AI]目的：マルチモーダル大規模言語モデルにおける視覚的一貫性維持の改善
- 近年，画像とテキストの情報を統合する手法が発展し，大規模言語モデルの性能が向上している。
- 視覚情報はテキストトークンと同等に扱われ，視覚モダリティの独自性が薄れているという課題がある。
- 生成の長さが長くなるにつれて，視覚情報への依存度が低下し，視覚と言語の整合性が損なわれる問題を解決する。
- 提案手法VIFは，視覚表現とモデルの出力空間の間に直接的な橋渡しをする軽量なモジュールである。
- VIFは推論のデコーディング段階を通して視覚的意味を継続的に注入し，生成中にモデルが視覚内容に強く結び付けられるようにする。
- 14のベンチマークタスクにおいて，多様なアーキテクチャでVIFがモデル性能を一貫して向上させることが示された。
Link: https://arxiv.org/abs/2605.18160
視覚言語モデルにおける幾何学的論理整合性による自己進化型空間推論 [cs.CV, cs.AI]目的：視覚言語モデルの空間推論能力の向上
- 視覚言語モデルは急速に発展しているが，空間推論は依然として課題である。
- 既存モデルは，わずかな入力変化で予測が大きく変動し，頑健性に欠ける。
- 幾何学的論理整合性を強化することで，空間推論の頑健性を高めることを目指す。
- 提案手法SAGEは，幾何学的・言語的双対演算を通じて論理整合性を強制する自己進化型フレームワークである。
- SAGEは，GRPO訓練において双対整合性を補助報酬として組み込み，一貫性のある回答を促す。
- 実験の結果，既存手法と比較して性能が向上し，未知データへの汎化能力が改善された。
Link: https://arxiv.org/abs/2605.18162
音響干渉：大規模音声言語モデルに対する普遍的な脱獄のための音響潜在意味の新たな武器化パラダイム [cs.CR, cs.SD]目的：大規模音声言語モデルの安全性への脆弱性の検証
- 近年，音声入力を伴う言語モデルが発展しており，その安全性確保が重要課題となっている。
- 既存の攻撃手法は悪意のある内容を音声に埋め込む必要があり，高度な最適化が求められる。
- 音声自体が持つ潜在的な意味を利用し，内容に依存しない攻撃を可能にすることを目指す。
- 本研究では，音声の潜在的な意味が言語モデルの安全性に影響を与えることを示した。
- 特定の音響潜在意味を含む音声を用いることで，悪意のあるテキストに対する安全対策を回避できることを実証した。
- 10種類の言語モデルで実験を行い，本手法が最先端の攻撃成功率を達成することを確認した。
Link: https://arxiv.org/abs/2605.18168
テキスト修正は必要か？ソフトアテンションマスク埋め込みによる修正不要なシーンテキストスポットティング [cs.CV]目的：シーンテキストスポットティングの性能向上
- シーンテキストの読み取りは，自動運転や画像検索など，多様な分野で重要性を増している。
- 既存手法では，テキストのスケール変化や形状，背景の影響でマスク精度が低くなる問題がある。
- ソフトアテンションマスク埋め込みにより，背景ノイズを抑制し，テキスト境界をより正確に捉えることを目指す。
- 提案手法SAME-Netは，文字レベルのアノテーションや追加のテキスト修正モジュールを必要としない。
- Total-Textデータセットにおいて，84.02%のend-to-end H-meanを達成し，既存の最先端手法GLASSを1.02%上回った。
- ICDAR 2015データセットでも，競争力のある83.4%のstrong-lexicon結果を得た。
Link: https://arxiv.org/abs/2605.18173
モーツァルトのソナタ形式の構造解析のためのフレームワーク：Sonalyzer-Moz [cs.SD]目的：モーツァルトのソナタ形式の構造解析のための基盤およびモデル
- 音楽構造解析は，音楽理解の自動化に不可欠であり，音楽学研究の新たな可能性を拓く。
- ソナタ形式の解析は，専門的な音楽知識を要し，自動化が困難であった。
- 大規模なアノテーションデータセットと解析モデルを開発し，ソナタ形式の自動解析を実現する。
- SoSA-Mozという大規模な階層構造アノテーションデータセットを新たに構築した。
- Sonalyzer-Mozは，局所的な特徴と高レベル構造の両方を捉え，ソナタ形式の主要な構成要素の境界を特定できることを示した。
- 本研究は，ソナタ形式の高レベル構造の自動解析の有効性を実証し，今後の研究の基盤を提供する。
Link: https://arxiv.org/abs/2605.18175
MARS：EgoVis 2026 CASTLEチャレンジ技術報告 [cs.CV, cs.AI]目的：マルチモーダルな情報源からの証拠選択による質問応答システム
- 近年，個人の視点からの動画を用いた研究が盛んであり，現実世界の理解を深める上で重要である。
- 既存のベンチマークは単一の動画に限定されており，複数日間の活動や多様な情報を統合した推論が課題となっていた。
- 複数視点，記録，画像など多様な情報源を統合し，長期間の活動における質問応答能力を向上させる。
- 提案システムMARSは，動画やトランスクリプト，視線，心拍数，写真，熱画像といったマルチモーダルな情報源を活用する。
- 長い動画はキャプションや要約に変換され，計算資源の制約を克服しつつ，重要な情報を保持する。
- GPT-5.4を用いた意思決定エージェントが，証拠の必要性に応じて情報源の選択と回答生成を繰り返すことで高い性能を実現した。
Link: https://arxiv.org/abs/2605.18176
効率的なVision Transformerセグメンテーションのためのトークン空間マスク予測 [cs.CV]目的：Vision Transformerセグメンテーションにおける効率化
- 画像認識分野において，Vision Transformerは重要な役割を担っている。
- 従来のVision Transformerセグメンテーションは計算コストが高いという課題がある。
- トークン空間でのマスク予測により，計算効率の改善を目指す。
- TokenMaskは，クエリとトークンの関連性から直接マスクを予測する手法である。
- 特徴空間ではなく，ロジット空間で補間を行うことで，計算構造を簡素化している。
- 様々なViTバックボーン，データセット，セグメンテーションタスクにおいて，効率性と精度の両立を実現した。
Link: https://arxiv.org/abs/2605.18177
固定カメラをアクティブ3Dシーングラフ生成のための共通事前マップとして [cs.RO, cs.AI, cs.CV]目的：アクティブ3Dシーングラフ生成における共通事前マップの活用
- ロボットの自律性を高める上で，幾何学的・意味的文脈の事前知識は不可欠である。
- 既存手法では，ロボット搭載カメラのみに依存し，環境全体の理解が不十分な場合がある。
- 固定カメラからの情報を活用し，初期段階でのシーン理解を向上させ，探索効率を高める。
- 固定カメラからの情報を共通事前マップとして利用することで，初期段階でのオブジェクト検出率が最大79%向上した。
- ロボット搭載カメラと固定カメラを同一パイプラインで処理することで，ハードウェアの制約を克服した。
- 事前知識の活用により，その後のアクティブ探索の効率が大幅に向上することが示された。
Link: https://arxiv.org/abs/2605.18184
二重レート拡散：インターリーブされた重軽ネットワークによる拡散モデルの高速化 [cs.LG, cs.CV]目的：拡散モデルの推論高速化手法
- 生成AIの性能向上に貢献する拡散モデルは，その計算コストが課題となっている。
- 従来の拡散モデルは，重いニューラルネットワークの繰り返し評価により推論速度が遅い。
- 重軽ネットワークを組み合わせ，計算コストを抑えつつ高品質な画像を生成すること。
- 二重レート拡散は，重いコンテキストエンコーダと軽いノイズ除去モデルを交互に実行することで推論を高速化する。
- ImageNetベンチマークにおいて，標準的なベースラインと同等の性能を維持しつつ，計算コストを2～4倍削減した。
- モーメントマッチ蒸留などの蒸留技術との互換性も示され，少ステップ生成における効率をさらに向上させた。
Link: https://arxiv.org/abs/2605.18190
航空画像と地上画像における人物再識別のための視点に基づいた意味的アライメント [cs.CV]目的：航空画像と地上画像における人物再識別のための視点に基づいた意味的アライメント手法
- 監視カメラやドローンなどの多様な視点からの人物識別は，セキュリティや公共の安全において重要である。
- 航空画像と地上画像の間には視点の違いが大きく，従来の視点に依存しない手法では十分な識別性能が得られない。
- 本研究は，視点特有の特徴を考慮することで，より高精度な人物再識別を実現することを目的とする。
- 提案手法ViSAは，専門家駆動型トークン生成モジュールと二分岐ローカル融合モジュールにより，視点に応じた意味的整合性を実現する。
- ViSAは，AG-ReID.v2，CARGO，LAGPeRの3つのベンチマークで優れた性能を示し，特にCARGOクロスビュープロトコルで10.06％のmAP改善を達成した。
- 本手法は，視点特有のパターンを捉え，局所領域の抽出とアライメントを強化することで，人物再識別の精度を向上させる。
Link: https://arxiv.org/abs/2605.18192
画像形状対応のための最適なセグメンテーションペア [cs.CV, cs.GR]目的：画像と3D形状間のセグメンテーション対応の推定
- 画像と3D形状の対応は，コンピュータビジョンとグラフィックスの基礎課題であり重要である。
- 外観，形状，視点の違いから，画像と3D形状間のセグメンテーション対応は困難である。
- 異なるモダリティ間のギャップを埋め，意味的に対応する形状部分を特定することを目指す。
- 2Dビジョンモデルから抽出した特徴を3D形状に転送し，画像ピクセルと形状頂点の類似性を計算する。
- 最も類似した画像ピクセルがセグメンテーション領域内にある頂点を「最適なセグメンテーションペア」として識別する。
- 2D画像セグメンテーションモデルから抽出した3D特徴を用いて，3D形状を直接セグメンテーションする。
Link: https://arxiv.org/abs/2605.18193
デカルト的錯覚を超えて：知覚的ボトルネック下における二段階マルチモーダル心の理論の検証 [cs.AI, cs.CV]目的：マルチモーダル大規模言語モデルにおける，他者の信念推定能力の限界とその改善策
- 近年，マルチモーダル大規模言語モデルの汎用的な推論能力は向上しているが，空間認識能力は未だ十分とは言えない。
- 従来のモデルは，3D空間の理解が不十分で，テキストベースの確率分布に依存する「デカルト的錯覚」に陥りやすい。
- 知覚的ボトルネック下での空間推論能力を向上させ，より現実的なマルチエージェント環境に対応することを目指す。
- 提案手法である「アンカーベース埋め込み空間分解Chain-of-Thought」は，視覚情報と聴覚情報を動的に重み付けすることで，空間認識の精度を向上させた。
- 現在のマルチモーダル大規模言語モデルは空間対称性や視界外の曖昧さに苦戦する一方，提案手法はこれらの課題に対してロバストな性能を示した。
- 本研究は，マルチモーダル大規模言語モデルの空間推論の限界を明確にし，認識に基づいた，モダリティを意識した推論の新たなパラダイムを確立する。
Link: https://arxiv.org/abs/2605.18194
RGB画像のみによる屋内モバイルロボット向けアクティブ3Dシーングラフ生成 [cs.RO, cs.AI, cs.CV]目的：屋内モバイルロボット向け3Dシーングラフの生成
- ロボットが環境を理解し，自律的に行動するためには，周囲の3D構造を正確に把握することが不可欠である。
- 従来の3Dシーングラフ生成は，LiDAR等の専用センサーに依存しており，RGBカメラのみの環境下では適用が困難であった。
- RGB画像のみから，アクティブにシーングラフを生成し，ロボットの探索能力向上を目指す。
- 本研究では，RGB画像のみを用いて，アクティブかつ漸進的に3Dシーングラフを構築するフレームワークを提案した。
- Replicaデータセットでの実験結果から，提案手法は，深度情報を利用したベースラインと同等のF1スコアを達成した。
- ReplicaCADでの探索実験では，意味情報に基づいた視点選択が，幾何学的フロンティアベースの手法と比較して，2倍以上のオブジェクト検出に成功した。
Link: https://arxiv.org/abs/2605.18197
SPATIOROUTE：ゼロショット空間推論のための動的プロンプトルーティング [cs.CV, cs.AI]目的：ゼロショット空間推論における視覚言語モデルの性能向上
- 没入型ビデオにおける空間質疑応答は，現実世界とのインタラクションに不可欠である。
- 既存手法は，特にタスク固有のファインチューニングなしでは空間推論が困難である。
- 質問内容に応じて最適なプロンプトを選択し，空間推論の精度向上を目指す。
- SpatioRouteは，固定プロンプトと比較して，最大5%の全体的な精度向上を達成した。
- 3D点群を入力とせずに，ビデオのみで空間VQAにおいて最先端の性能を確立した。
- Qwenシリーズモデルにおいて，CoTプロンプティングが性能を低下させることを確認した。
Link: https://arxiv.org/abs/2605.18209
EgoInteract：相互理解と予測のための合成一人称視点ビデオ生成 [cs.CV]目的：相互作用の理解と予測のための合成一人称視点ビデオの生成
- 一人称視点ビデオは，ロボット工学やヒューマンコンピュータインタラクション等の分野で重要な役割を果たす。
- 大規模な一人称視点ビデオデータセットの収集には，コスト，時間，プライバシー等の課題がある。
- 多様な相互作用パターンを網羅した，高品質な合成データセットの構築を試みる。
- EgoInteractシミュレータは，カメラ，人体，オブジェクトの動きを精密に制御可能である。
- 生成された合成データを用いて学習したモデルは，実世界のベンチマークにおいて良好な性能を示した。
- シミュレーションベースのアプローチが，様々なタスクで効果的であることが示された。
Link: https://arxiv.org/abs/2605.18214
非多様体形状の処理のための接線ブローアップ [cs.GR]目的：非多様体形状の処理手法
- 幾何学処理は，３Dモデルの様々な応用において不可欠である。
- 既存手法は多様体であることを前提とするため，エッジやコーナーなどの特異点では適用できない。
- 特異点における構造を回復し，幾何学処理をより広範な形状に適用すること。
- 「接線ブローアップ」という表現を導入し，特異点において構造を回復させる。
- 位置は同じでも接線方向，曲率，または高次の接触が異なる点を分離する。
- 測地線計算，セグメンテーション，表面パラメーター化，曲率推定などへの応用を実証した。
Link: https://arxiv.org/abs/2605.18215
SIREM：学習サンプリングを用いた音声情報に基づくMRI再構成 [cs.SD, cs.CL, cs.CV, cs.LG, physics.med-ph]目的：音声情報を用いたMRI再構成フレームワークの提案
- 発話時の音声管運動を非侵襲的に可視化でき，音声科学や臨床評価に有用である。
- リアルタイムMRIは空間分解能，時間分解能，取得速度のトレードオフがあり，再構成が劣化しやすい。
- 音声情報を事前知識として利用し，高速かつ高品質なMRI再構成を実現することを目指す。
- SIREMは，音声とMRIの情報を融合することで，高スループットな再構成を実現した。
- これにより，解剖学的に妥当な音声管構造を維持しつつ，従来の反復法よりも高速な処理が可能となった。
- 本研究は，音声情報を活用したリアルタイムMRI再構成の新たなベンチマークを確立した。
Link: https://arxiv.org/abs/2605.18221
学習不要な無限フレーム生成による一貫性のある長尺動画の改善 [cs.CV]目的：長尺動画の一貫性維持
- 動画生成モデルの応用範囲拡大のため，計算コストを抑えつつ長尺動画生成が重要である。
- 既存手法では，学習時と推論時の乖離や，長期間の一貫性維持が課題となっていた。
- 学習不要で，長期間の一貫性を保てる長尺動画生成手法を開発すること。
- 本研究では，学習不要な長尺動画生成手法MIGAを提案し，二段階のアライメント機構により学習時と推論時の乖離を軽減した。
- 自己反省と長距離フレームガイダンスという二つのメカニズムを導入することで，時間的一貫性を改善した。
- VBenchとNarrLVでの実験により，MIGAが最先端の性能を示すことが実証された。
Link: https://arxiv.org/abs/2605.18233
デジタル実体の衝突回避型生体識別ID：幾何学，容量，および大規模仮想IDプロビジョニング [cs.CV]目的：AIエージェントやヒューマノイドロボットなどのデジタル実体に対する，衝突回避型の仮想生体識別IDのプロビジョニング
- 人間とデジタル実体が共存する社会において，デジタル実体の信頼性を担保するID基盤の確立が重要である。
- 現在のデジタル実体のID基盤は資格情報に依存しており，生体情報による認証が不可欠である。
- 既存の生体識別ID空間における衝突回避と，高忠実度の顔画像としての実現可能性を両立させる。
- 実顔IDが埋め込む超球空間の低次元部分空間に存在し，仮想IDのための残余空間がないという幾何学的洞察に基づき，仮想IDを実顔多様体内の未利用ギャップに割り当てる。
- ギャップを意識した生成器GapGenを導入し，訓練分布外への合成を段階的に拡張するカリキュラムで訓練することで，100万枚のフォトリアリスティックな仮想顔画像を生成可能。
- LFWの仮想版であるv-LFWを構築し，仮想顔の検証，現実と仮想の照合，現実/仮想の識別，および統合された認識・検出のためのプロトコルを確立した。
Link: https://arxiv.org/abs/2605.18238
GaussianZoom：幾何・意味的ガイダンスによる漸進的ズームイン3Dガウススプラッティング [cs.CV]目的：高解像度入力から高忠実度の極端なズームインレンダリングを可能にする，幾何学的整合性のあるシーンモデリングとマルチスケール意味的推論を組み合わせた，反復的漸進的フレームワーク
- 3Dシーン再構成は，メタバースやデジタルツインなどの多様な応用において重要である。
- 低解像度入力からの高解像度再構成は，詳細な表現の欠如とマルチビューの一貫性維持が課題である。
- 本研究は，大規模な倍率範囲におけるスムーズなズームインを実現する新しい手法を開発し，その限界を克服する。
- GaussianZoomは，Mip-NeRF360とTanks&Templesの実験において，知覚的な品質，マルチビューの一貫性，極端な倍率下での堅牢性において優れた性能を示した。
- 新たな多視点整合性超解像度モジュールにより，観測解像度を超えた微細な外観を強化し，正確な多視点対応を保証する。
- 拡張可能な連続的なレベル・オブ・ディテール階層を導入することで，スムーズでエイリアスフリーなクロススケールレンダリングを可能にした。
Link: https://arxiv.org/abs/2605.18252
CodeBind：統一的な構成コードブックを用いたマルチモーダルアライメントのための分離表現学習 [cs.CE, cs.IR, cs.CV, cs.AI, cs.CL]目的：マルチモーダル表現アライメントの最適化
- 大規模言語モデルやロボティクスにおいて，マルチモーダル理解は不可欠であり，その性能向上に繋がる。
- 既存手法は，モダリティ間情報差異やデータ不足により，最適なアライメント空間の構築が困難である。
- モダリティ固有の特徴を捉えつつ，効率的なアライメントを実現し，データ不足の問題を克服する。
- CodeBindは，共有・固有コードブック設計により，マルチモーダル表現空間を最適化し，高い性能を達成した。
- 全ペアデータが不要であり，Incremental Alignmentにより，様々なモダリティ間（9種類）で有効性が確認された。
- 共有ベクトル量子化スキームは，モダリティ間のギャップを埋め，代表的なモダリティによる偏りを抑制する。
Link: https://arxiv.org/abs/2605.18257
RT-Splatting：ガウススプラッティングによる反射・透過の同時モデリング [cs.CL, cs.RO, cs.CV]目的：半透明な鏡面反射を持つオブジェクトの表現手法
- リアルタイムレンダリング技術の発展は，高品質な画像生成に不可欠である。
- 既存の3DGSは，反射と透過が複雑に絡み合う半透明オブジェクトの表現が困難である。
- 反射と透過を分離し，高品質な表現とリアルタイムレンダリングを実現すること。
- RT-Splattingは，ガウスの幾何学的占有率と光学的不透明度を分離する手法を提案した。
- これにより，反射と透過を個別に処理し，高精度な反射と透明な透過を実現した。
- 提案手法は，既存の最先端手法と比較して，半透明オブジェクトの表現において優れた性能を示した。
Link: https://arxiv.org/abs/2605.18263
SRC-Flow：コンパクトな意味表現が画像生成のための正規化フローを可能にする [cs.CV]目的：画像生成のための正規化フローの性能向上
- 画像生成技術は，AI研究において重要な位置を占め，様々な応用が期待されている。
- 正規化フローは高次元空間での変換学習に課題があり，拡散モデルと比較して性能が劣ることが問題となっていた。
- 意味情報を圧縮することで，正規化フローの負担を軽減し，高画質な画像生成を可能にすることを目指している。
- SRC-Flowは，RAE特徴を低次元の意味空間に圧縮するSemantic Representation Compressor (SRC)を導入することで，正規化フローの性能を向上させた。
- ImageNet $256 \times 256$および$512 \times 512$において，分類器フリーガイダンス下でgFIDスコア1.65と2.07を達成し，既存の正規化フロー手法を上回る生成品質を実現した。
- コンパクトな意味表現空間での正確な尤度計算と，フローレベルでの決定論的な可逆的サンプリングを維持している。
Link: https://arxiv.org/abs/2605.18267
StableVLA：追加データなしの堅牢な視覚-言語-行動モデルへ [cs.CV, cs.RO]目的：視覚-言語-行動モデルの堅牢性向上
- ロボット工学やAIにおいて，現実世界でのタスク遂行能力は重要である。
- 既存モデルは，訓練データに存在しない視覚的ノイズに弱い。
- 訓練データに依存せず，視覚的ノイズに対するモデルの汎化性能を向上させる。
- 提案手法であるIB-Adapterは，追加データやデータ拡張なしに，既存モデルの性能を平均で30%向上させる。
- パラメータ数は10M未満であり，効率的かつ効果的である。
- 小規模なモデル（0.5Bパラメータ）でも，大規模モデル（7Bパラメータ）に匹敵する堅牢性を実現する。
Link: https://arxiv.org/abs/2605.18287
教師なし微細画像ハッシュのための衝突耐性のある単一パス法 [cs.CV]目的：微細画像ハッシュの学習
- 画像検索や類似画像判定において，効率的な特徴表現が不可欠である。
- 既存手法では，わずかな意味の違いで同じハッシュコードが生成される衝突問題が存在する。
- ハッシュ衝突を抑制し，微細な視覚的差異を捉えることによる識別精度の向上を目指す。
- 提案手法CS3Hは，正規化ハミング距離損失を用いてハミング空間での類似性を直接最適化することで，分離性の高いバイナリ表現を生成する。
- 衝突に敏感な注意モジュールを導入し，希少かつ識別的な局所パターンを強調することで，ハッシュ衝突を低減する。
- 複数のベンチマークにおいて，CS3Hは最先端手法を精度と衝突耐性で上回る結果を示した。
Link: https://arxiv.org/abs/2605.18288
ポート・ハミルトニアン生成ダイナミクスによる物理駆動型ワールドモデル：PH-Dreamer [cs.HC, cs.LG, cs.AI, cs.CV, cs.RO]目的：物理法則に基づいたワールドモデルの構築
- ロボット工学や制御において，現実世界を模倣するシミュレーションの精度向上が不可欠である。
- 既存のワールドモデルは物理構造が欠如しており，エネルギー保存則などの物理法則に反する挙動を示す場合がある。
- 物理法則を組み込んだワールドモデルを構築し，より現実的で効率的なシミュレーションを実現すること。
- 提案手法は，ポート・ハミルトニアンフレームワークを用いて，潜在空間のダイナミクスに物理的な制約を導入することで，より物理的に整合性の取れたモデルを実現した。
- 視覚制御ベンチマークにおいて，従来のモデルと比較して，収束までの報酬や，シミュレーションの忠実度が向上した。
- 潜在空間の体積，エネルギー消費量，ジャークがそれぞれ削減され，より効率的な制御が可能となった。
Link: https://arxiv.org/abs/2605.18303