arXiv雑要約

画像・音声 - 2026/05/27 公開

リアル音声への信頼の低下：大規模な音声ディープフェイク知覚の研究 [cs.SD, cs.AI]目的：音声ディープフェイクの知覚に関する大規模な研究
- 音声は重要なコミュニケーション手段であり，その信頼性は社会生活において不可欠である。
- 近年，音声ディープフェイク技術が急速に進歩し，現実の音声を区別することが困難になりつつある。
- 音声ディープフェイクが信頼に及ぼす影響を定量的に評価し，そのリスクを明らかにすること。
- 2021年と比較して，ディープフェイクの識別精度はほぼ変わらなかったが，リアルな音声の識別精度が大幅に低下した。
- 参加者は合成音声のアーティファクトを検出しにくくなったのではなく，現実の音声そのものを疑うようになった。
- 商用システムや自己回帰言語モデルで生成された音声が最も識別が難しく，従来のモデルは比較的容易に識別された。
Link: https://arxiv.org/abs/2605.26136
AssetGen：インタラクティブな速度での3Dアセット生成 [cs.GR, cs.AI, cs.CV]目的：リアルタイムレンダリングに適した3Dアセットの生成
- 3Dコンテンツ需要は増加の一途を辿っており，効率的な生成手法が求められている。
- 既存の3D生成技術は高解像度化に偏りがちで，ユーザー体験や実用性が課題となっていた。
- リアルタイムレンダリングを考慮した，迅速かつ実用的な3Dアセット生成システムの開発。
- AssetGenは，単一の参照画像から，モバイル用途を含むリアルタイムレンダリングに適した高品質な3Dメッシュを約30秒で生成する。
- Flashバリアントでは，生成時間を14秒に短縮し，インタラクティブなコンテンツ作成ループを実現している。
- 自動評価およびブラインドテストの結果，既存の商用ソリューションと比較して競争力のある視覚品質を示すことが確認された。
Link: https://arxiv.org/abs/2605.26137
VISTA：ビジュアル仕様からWebアプリケーションのコーディングエージェントのためのエンドツーエンドベンチマーク [cs.SE, cs.AI, cs.CV]目的：LLMベースのエージェントのWebアプリケーション生成能力の評価
- ソフトウェア開発の自動化は，開発効率の向上とコスト削減に不可欠である。
- 既存のコード生成ベンチマークはアルゴリズムに偏っており，UI中心の開発には不向きである。
- ビジュアル情報に基づいた，より現実的なWebアプリケーション開発の自動化を可能にする。
- VISTAは，テキストのみ，参照スクリーンショット，Figma構造といった多様な入力条件を提供し，厳密な評価を可能にする。
- 評価には，DOM比較，ブラウザテスト，CLIPによる視覚的類似性評価を組み合わせ，構造，動作，視覚的忠実性を測定する。
- 実験の結果，視覚的忠実性と機能的な正確さは部分的に分離されており，エージェントの編集スタイルはタスク品質とはほとんど関係がないことが示された。
Link: https://arxiv.org/abs/2605.26144
AnySurf：指向性エッジによる任意の表面生成 [cs.GR, cs.CV]目的：任意の3D表面生成のための統一的フレームワーク
- 産業界では，レンダリングやシミュレーション等に開いた表面を含む3Dコンテンツが広く利用されている。
- 既存手法は特定の分野に特化し汎用性に欠ける，または開いた表面において構造上の問題を抱えている。
- 開いた，閉じた，またはハイブリッドな3D表面を正確に生成し，ダウンストリームアプリケーションでの実用性を向上させる。
- AnySurfは，指向性エッジを強化した柔軟な二重グリッド（FDG-D）を基盤とし，正確な法線方向情報を保持する。
- ROS-FTポストトレーニングと軽量なDE-Adapterにより，指向性エッジ学習を促進しつつ，既存の生成性能を維持する。
- 工業用衣料と閉じたアクセサリーを含むOutfit3Dデータセットを構築し，衣料モデリングを普遍的な3D生成タスクへと変革した。
Link: https://arxiv.org/abs/2605.26149
PitchBench：音声言語モデルにおける音高聴取能力の測定 [cs.SD, cs.AI]目的：音声言語モデルにおける音高聴取能力の系統的な評価
- 音楽理解は，音楽教育，自動採譜，推薦システムなど多岐にわたる応用分野において重要である。
- 既存の評価指標では，音高聴取能力が間接的にしか評価されておらず，モデルの信頼性が不明確である。
- 音高聴取能力の評価を通して，音声言語モデルの音楽理解の限界を明らかにし，改善を促す。
- 最先端の音声言語モデルの評価を行った結果，音高聴取能力は依然として不安定であることが示された。
- モデルの性能は，音源，音符の長さ，表記形式によって大きく変動し，安定した音高知覚は確認されなかった。
- 現在の音声言語モデルは，制御された合成音や楽器の音であっても，安定した音高知覚能力を持たないことが明らかになった。
Link: https://arxiv.org/abs/2605.26176
BrickAnything：構造を意識したトークン化を用いた，形状条件付きの積み重ね可能なレンガ生成 [cs.AI, cs.GR]目的：3D形状から物理的に積み重ね可能なレンガ構造の生成
- 建築やロボット工学において，自動レンガ積みが重要視されているため。
- 既存手法は，制約下で実現可能な構造が存在しない場合に破綻したり，3D形状と組み立ての関係を明示的にモデル化していない。
- 3D形状の形状と組み立て制約を満たす，実現可能なレンガ構造を生成すること。
- BrickAnythingは，多様な3D表現から積み重ね可能なレンガ構造を生成する自己回帰フレームワークである。
- 点群を統一的な幾何学的インターフェースとして使用し，組み立て制約下で対象形状を再構成するレンガシーケンスを予測する。
- 構造を意識したツリートークン化を導入することで，レンガ間の構造的依存関係をモデル化し，物理的な建設プロセスとの整合性を高め，無効な中間状態を削減する。
Link: https://arxiv.org/abs/2605.26182
エージェント社会：エージェント的社会知性のインセンティブ設計 [cs.MA, cs.AI, cs.CY, cs.GT]目的：エージェント間の分散協調を可能にするメカニズム
- 複雑なタスク遂行には，自律的なエージェント間の協調が不可欠である。
- エージェント間の効率的なコミュニケーションとインセンティブ設計が課題である。
- 経済的インセンティブに基づいた分散協調メカニズムを提案し，その有効性を検証する。
- 提案メカニズムAgentSocietyは，液民主制と社会選択理論に基づき，エージェントの自律的な意思決定を促進する。
- 有能な近傍エージェントへの委任がインセンティブに適合し，合意に基づくマルチエージェント経路が自然に生成される。
- エージェントは自己利益に基づいて情報を選択的に開示することで影響力を獲得し，ナッシュ均衡において貢献度に応じた報酬を得る。
Link: https://arxiv.org/abs/2605.26203
形状を意識した表現ノイズ除去によるロバストな多視点3D再構成 [cs.CV]目的：多視点3D再構成におけるロバスト性の向上
- 現実世界の画像には様々な劣化が含まれるため，現実的な環境下での3D再構成の精度向上が重要である。
- 既存の3D再構成モデルは理想的な条件下で学習・評価されるため，劣化画像に対する汎化性能が課題となる。
- 特徴空間における拡散ベースのノイズ除去により，劣化画像からの高精度な3D再構成と高品質なRGB画像復元を目指す。
- 提案手法GARDは，3D再構成モデルの特徴空間で直接ノイズ除去を行うことで，正確なシーン形状の復元を可能にする。
- RGB画像デコーダを組み合わせることで，3D形状と高品質なRGB画像を同時に復元できる。
- Depth Anything 3 (DA3) ベンチマークにおける実験により，GARDの有効性が示された。
Link: https://arxiv.org/abs/2605.26230
指示に基づいたゲーティングによるマルチモーダル動画：すべてのモダリティが等しいわけではない [cs.CV]目的：マルチモーダル動画理解のためのフレームワーク
- 動画理解は，AI研究において重要な課題であり，多様な応用が期待される。
- 複数のモダリティを扱う際，無関係なチャネルが干渉し，性能が低下する問題がある。
- 指示に基づいてモダリティの重要度を動的に調整し，干渉を抑制することで理解精度向上を目指す。
- UniMVUは，動画，音声，深度図などの様々なモダリティを統合的に処理するフレームワークである。
- 提案手法は，モダリティ内の重要領域を強調するゲーティングと，モダリティ全体の重みを調整するゲーティングを組み合わせる。
- 6つのベンチマークにおいて，静的融合ベースラインと比較して，CIDEr指標で最大13.5%の改善を達成した。
Link: https://arxiv.org/abs/2605.26232
DuoGesture：神経科学と生体力学に基づいた二重ストリーム共同発話ジェスチャー生成 [cs.SI, cs.CV, cs.SD]目的：共同発話ジェスチャー生成のための，意味的表現性と生体力学的に妥当なリズム運動の両立
- 人間コミュニケーションにおいて，ジェスチャーは言語と不可分であり，その自然な生成は重要である。
- 既存モデルは意味的ジェスチャーとリズム的ジェスチャーを混合するため，意味的関連性やスムーズさが課題である。
- 意味とリズムを分離し，両者を効果的に統合することで，より自然なジェスチャー生成を目指す。
- DuoGestureは，意味ストリームとリズムストリームの二重構造によって，既存モデルを上回る性能を示す。
- 意味的関連性の強化，ストリーム選択の確率的制御，生体力学的な正則化が，その性能向上に貢献する。
- 客観評価と主観評価の両方において，DuoGestureの優位性が確認された。
Link: https://arxiv.org/abs/2605.26236
センチネル：具現化された協調的空間推論と計画 [cs.CV, cs.MA]目的：分散型具現化エージェントにおける協調的空間知能
- 都市規模環境下でのマルチエージェントシステムの協調は，現実世界への応用において重要である。
- 動的な環境制約下でのエージェント間コミュニケーションと協調的経路計画が課題である。
- 自然言語によるコミュニケーションと空間推論を統合し，ロバストな協調を実現すること。
- 提案手法CoSaRは，大規模な都市環境において，エージェントの集合時間を短縮し，経路長を最適化する。
- CoSaRは，動的な障害物を回避しながら安全な経路を生成し，協調的空間推論の有効性を示す。
- 本研究は，具現化されたマルチエージェントシステムにおける協調的空間知能の発展に貢献する。
Link: https://arxiv.org/abs/2605.26239
RoMo：人間モーション生成のための大規模かつ体系的に整理されたデータセットとセマンティックタクソノミー [cs.CV]目的：人間モーション生成のための大規模データセットとセマンティックタクソノミーの構築
- 言語，画像，動画分野における生成モデルの発展は，大規模な高品質データセットの重要性を示している。
- 3D人間モーション生成は，小規模なモーションキャプチャデータセットか，低品質な動画データセットの二択という課題があった。
- 高品質かつ多様な人間モーションデータを収集し，セマンティックな理解に基づくモーション生成を可能にすること。
- RoMoは，高品質なモーションデータを豊富に含み，既存のデータセットの課題を克服している。
- モデルはRoMoで学習することにより，高い再現性と多様性を達成し，複雑なテキストプロンプトに対する理解度も向上した。
- 標準化された評価指標，データ変換，可視化ツールであるMotion Toolboxを公開し，再現性と解釈可能性の高いモーション生成研究の基盤を構築した。
Link: https://arxiv.org/abs/2605.26241
LongAV-Compass：T2AV，I2AV，V2AVにおける分単位のオーディオビジュアル生成の統一的評価に向けて [cs.CV, cs.MM, cs.SD]目的：分単位のオーディオビジュアル生成に関する評価基準
- オーディオビジュアル生成技術は急速に進歩しており，その評価方法が重要となる。
- 既存の評価プロトコルは短尺コンテンツに限定されており，多様な入力形式に対応できていない。
- 長尺コンテンツにおける一貫性，整合性，同期性の低下を定量的に評価する基準を確立する。
- LongAV-Compassは，T2AV，I2AV，V2AVを含む284件のテストケースで構成される。
- 評価フレームワークは，MLLM支援評価とDINO-v2，ArcFace，CLIPなどの指標を統合している。
- 11の代表的なモデルを用いた実験により，現在のシステムの限界を分析できる。
Link: https://arxiv.org/abs/2605.26244
次元分布感情状態：視覚的感情分析のための価と覚醒度を共通埋め込み空間として活用 [cs.CV]目的：視覚的感情分析のための感情表現の強化と深層学習モデルの訓練プロセスの改善
- 美術館は文化・芸術の普及に不可欠であり，歴史的・伝統的な役割を担っている。
- 専門家による手動アノテーションは，時間と労力がかかる上に，キュレーターの主観が入りやすい。
- 美術館の展示設計を支援するため，作品が喚起する感情反応を予測するツールの開発を目指す。
- 提案手法である次元分布感情状態（DDES）は，既存の表現方法と比較して複数の利点を示す。
- DDESは，既存手法と同程度のベースライン性能を維持しつつ，感情表現を向上させる。
- 本研究は，多データセットを用いた訓練パイプラインを確立し，感情分析の精度向上に貢献する。
Link: https://arxiv.org/abs/2605.26262
量子化されたキーが注意を奪う：ビデオ拡散におけるKVキャッシュ圧縮のためのバイアス補正 [cs.LG, cs.AI, cs.CV, cs.GR, eess.IV]目的：ビデオ拡散モデルにおけるKVキャッシュの量子化による品質劣化の原因究明と，そのバイアス補正手法
- ビデオ拡散モデルは長尺動画の生成に有用だが，計算コストとメモリ使用量が課題となる。
- KVキャッシュの量子化はメモリ削減に有効だが，注意機構の精度低下を招きやすい。
- 量子化ノイズによる注意重みのバイアスを補正し，量子化による品質劣化を抑制すること。
- 量子化されたキーが注意質量を奪う現象（Jensenバイアス）を特定し，その原因を分析した。
- 量子化ステップサイズとクエリノルムからバイアス補正値を計算する手法を提案し，計算オーバーヘッドを抑制した。
- 提案手法はINT2量子化時において，ほぼBF16相当の画質を達成し，INT4量子化をも上回る性能を示した。
Link: https://arxiv.org/abs/2605.26266
RGB-Thermal画像に対する周波数誘導型融合 [cs.CV]目的：RGB-Thermal画像のセマンティックセグメンテーションにおける融合手法
- 自動運転などの複雑な環境下での認識精度向上は重要であり，特に悪条件下でのRGB単独では限界がある。
- 可視光と赤外線の効果的な統合は困難であり，特に異なる抽象度の特徴量レベルでの融合が課題である。
- 周波数に基づいた融合とモダリティ適応的な戦略により，RGB-Thermal画像のセグメンテーション精度を向上させる。
- 提案手法は，MFNetおよびPST900データセットにおいて，それぞれ61.73％および86.24％のmIoUを達成した。
- 特に，パラメータ数35.43Mと低コストで，既存手法と比較して優れた性能を示した。
- 周波数ベースの融合モジュールとクロスモーダルアテンションが，セマンティックセグメンテーションの精度向上に貢献した。
Link: https://arxiv.org/abs/2605.26273
VesselSim: 専門家による注釈なしでの3D血管セグメンテーション学習 [cs.CL, cs.CV, cs.AI]目的：3D血管セグメンテーションのための学習手法
- 血管疾患治療や手術計画において，画像解析は不可欠である。そのため，高精度な血管セグメンテーション技術が求められている。
- 深層学習の進展はあるものの，高品質な血管アノテーションの作成には専門知識と労力がかかり，データの収集がボトルネックとなっている。
- 専門家によるアノテーションを必要とせず，実データと同等の性能を実現する血管セグメンテーション手法を開発すること。
- VesselSimは，血管の形状を確率的にシミュレーションし，ドメインランダム化により実写に近い画像データを生成する。
- 生成された合成データのみを用いて3D U-Netを学習することで，専門家のアノテーションなしでも高精度な血管セグメンテーションが可能となった。
- テスト時の自己教師ありマスク再構成デコーダにより，実臨床データへの適応性を高め，脳や腎臓など複数の解剖学的領域で良好な結果を示した。
Link: https://arxiv.org/abs/2605.26277
連合自由エネルギーとマルチエージェント協調における適応的精度 [cs.GT]目的：マルチエージェント協調におけるクレジット配分
- 不確実性下での協調は，ロボット工学や分散システムにおいて重要である。
- 従来のクレジット配分方法は，不確実性やノイズの影響を受けやすい。
- 観測精度の適応的制御により，ロバストな協調を実現することを目指す。
- ゲーム理論的自由エネルギー原理(GT-FEP)に基づくフレームワークを提案した。
- エージェントのシャプレイ値とセンサリ精度の間に非単調な関係があることを示した。
- 適応的精度制御(APC)が，オンラインでノイズ条件に適応し，優れた性能を発揮した。
Link: https://arxiv.org/abs/2605.26278
多疾患網膜スクリーニングのための畳み込み，Transformer，ハイブリッド，および視覚言語モデルのベンチマーク [cs.CV, cs.LG]目的：多疾患網膜スクリーニングにおける多様な視覚モデルの性能比較
- 網膜疾患は失明の主要な原因であり，早期発見とスクリーニングが重要である。
- 実際の多疾患環境下での異なるモデルアーキテクチャの比較が明確ではない。
- 網膜スクリーニングにおける最適なモデル選択のための基準を提供する。
- RFMiDデータセットを用いた二値分類では，全てのアーキテクチャが高いAUCを示したが，Attention機構を用いたモデルが最も優れていた。
- SwinTiny，CoAtNet0，MaxViTTinyといったハイブリッドモデルが，二値分類と多ラベル分類の両方で高い性能を示した。
- Messidor-2を用いた外部検証でも，ハイブリッドモデルとTransformerモデルが良好な性能を維持した。
Link: https://arxiv.org/abs/2605.26283
多重フラクタルに基づくマスク付きオートエンコーダ：医用画像への応用 [cs.CV]目的：医用画像分類におけるマスク付きオートエンコーダの性能向上
- 医用画像は病気の診断に不可欠であり，高精度な画像解析技術が求められている。
- 従来のマスク付きオートエンコーダは，ランダムなマスキングにより重要な情報を失う可能性がある。
- 医用画像の複雑な構造を捉え，より診断に有用な特徴量を学習することを目指す。
- 提案手法MO-MAEは，多重フラクタル解析により重要な領域を特定し，マスキングを最適化する。
- MedMNISTやCOVID-CTなどのデータセットで評価した結果，既存モデルを上回る性能を示した。
- MO-MAEは，複雑な組織構造の捕捉と再構成能力を高め，医用画像解析の精度向上に貢献する。
Link: https://arxiv.org/abs/2605.26287
Evi-Steer：エビデンスに基づくチューニングによる生体医用ビジョン言語モデルの操縦学習 [cs.CV, cs.CL]目的：生体医用画像に対するビジョン言語モデルの精度向上
- 生体医用画像診断の精度向上に，ビジョン言語モデルの活用が期待されている。
- 既存手法は決定論的であり，ドメインシフトや曖昧な画像-テキスト対応に弱い。
- 少ないデータやドメインシフト下でも頑健なモデルの実現を目指す。
- Evi-Steerは，BiomedCLIPのパラメータ効率的な微調整を可能にする。
- 不確実性の推定と，それに基づく保守的な適応を実現することで，様々な生体医用画像データセットで高い性能を示す。
- 特に，少ないデータやドメインシフト下で，既存手法を上回る実用性とロバスト性を示す。
Link: https://arxiv.org/abs/2605.26292
皮膚癌検出のためのCNN，Transformer，ハイブリッド，および視覚言語モデル [cs.CV]目的：皮膚癌の二値分類
- 皮膚癌は世界的に罹患率が上昇しており，早期発見が治療成績向上の鍵となる。
- 既存研究では，評価するアーキテクチャが限定的で，実験設定も研究間で異なる場合が多い。
- PAD-UFES-20データセットを用いて，様々なモデルの性能を統一的に評価し，実用的な指針を示す。
- 調整済みのCNNは依然として堅牢な基盤となるが，Transformerベースのモデル群が識別能力を向上させる。
- ハイブリッドモデル（MaxViT Tiny，CoAtNet0）とSigLIPベースのVLMが，ランキング性能と臨床的に重要な動作点との間で最適なトレードオフを達成する。
- CLIPベースのモデルは高い精度を提供する。実験コードは公開されており，今後の研究の基準点となる。
Link: https://arxiv.org/abs/2605.26294
軽量自己教師ありモデルを用いた睡眠段階の効率的な分類 [cs.CV]目的：睡眠段階分類の性能向上
- 睡眠障害の診断には正確な睡眠段階の判別が不可欠であり，医療現場での負担軽減が期待される。
- 睡眠段階分類は専門知識と時間が必要であり，自動化技術の確立が課題となっている。
- 効率的かつ高精度な睡眠段階分類モデルを開発し，臨床応用の可能性を広げる。
- データ量を削減することで，モデルの簡略化よりもコストパフォーマンスが向上することが示された。
- ResNet-18を特徴抽出器として用いた場合，元のmulEEGモデルを上回る分類性能が達成された。
- 簡略化されたmulEEGモデルとロバストな分類器の組み合わせが，効率的かつ正確な睡眠段階分類に繋がる。
Link: https://arxiv.org/abs/2605.26295
E$^3$C：3D環境メモリと自己・他者ポーズ制御によるビデオ生成 [cs.CV, cs.AI]目的：没入型エージェントにおける，制御可能で物理的に整合性の高い一人称視点ビデオ生成
- 現実世界とのインタラクションを伴うエージェント開発には，行動と環境変化の理解が不可欠である。
- 一人称視点ビデオ生成は，視点変化や自己遮蔽が多く，制御が困難である。
- シーン構造と人間行動のダイナミクスを分離し，一貫性のあるビデオ生成を実現する。
- E$^3$Cは，3D環境メモリを用いて，シーン構造と人間行動を効率的に条件付けする。
- 提案手法は，既存手法と比較して，視覚的品質，カメラモーションの精度，物体の一貫性，および人間ポーズ制御において性能を向上させた。
- 直感的なシーン編集も可能となり，応用範囲の拡大に貢献する。
Link: https://arxiv.org/abs/2605.26316
RadarSim：マルチモーダルニューラル場による単一チップレーダーのシミュレーション [cs.CV]目的：レーダーシミュレーション手法の開発
- レーダーとカメラは補完的であり，安価なソリッドステートセンサーとして重要である。
- レーダーデータは解釈が難しく，センサー間でばらつきがあるため，シミュレーションの必要性が高まっている。
- 高解像度カメラを用いてレーダーデータを生成し，既存の低解像度レーダーの課題を克服すること。
- RadarSimは，カメラからの初期化されたニューラル場を利用し，ドップラーレーダーレンジ画像を生成する。
- カスタムのハンドヘルド装置で記録された校正済みのレーダー・カメラデータセットを用いて評価を行った。
- RadarSimは，レーダーのみによる再構成よりもシャープな幾何構造とドップラーレンジフレームを生成することが示された。
Link: https://arxiv.org/abs/2605.26328
消去されつつも悪用可能：学習済みテキスト-画像拡散モデルに対するブラックボックス埋め込み認識型プロンプト [cs.RO, cs.CV, cs.AI]目的：未学習のテキスト-画像拡散モデルに対するブラックボックス埋め込み認識型プロンプト攻撃の有効性
- 拡散モデルは画像生成において強力だが，学習データに依存する。倫理的・法的問題から概念の削除が求められる。
- 既存の攻撃はモデルへのアクセスを仮定，または検出容易なプロンプトしか生成できず，現実的な脅威モデルに沿わない。
- 現実的な脅威モデル下で，拡散モデルの隠れた脆弱性を突く効果的なプロンプト攻撃手法を開発すること。
- BEAPは大規模言語モデルを活用し，埋め込み空間を考慮した反復的なプロンプト生成により，高い攻撃成功率を実現した。
- BEAPは，安全フィルターを回避しつつ高品質な画像を生成できる。既存手法と比較して攻撃成功率を60%以上向上させた。
- 平均して15回のプロンプト試行で攻撃成功しており，効率性も高い。
Link: https://arxiv.org/abs/2605.26332
文脈的バイアス軽減のためのパーソナライズ生成モデル [cs.CL, cs.CV, cs.AI, cs.LG]目的：文脈的バイアス軽減のための生成モデル
- 画像認識の精度向上には，データセットの偏りの理解が不可欠である。
- 現実世界のデータセットは特定の文脈に偏っており，モデルが珍しい文脈での認識を苦手とする。
- 珍しい文脈の画像を生成することで，データセットの偏りを軽減し，認識精度を向上させる。
- 提案手法DecoupleGenは，テキストから画像を生成する拡散モデルをパーソナライズし，珍しい文脈の画像を生成する。
- 生成された画像は意味のある内容を含み，元のデータセットの視覚的詳細を保持している。
- 物体分類および認識タスクにおいて，既存手法と比較して一貫した改善が確認された。
Link: https://arxiv.org/abs/2605.26353
多視点基盤モデルによる統一的なパノラマ幾何推定 [cs.CV, cs.AI]目的：パノラマ画像からの3Dシーン構造の復元
- 視覚情報処理において，3Dシーンの理解は重要な課題である。現実世界の認識やロボット工学への応用が期待される。
- パノラマ画像からの幾何推定は，全方位の情報を扱うため，従来の視点画像とは異なる課題が多い。
- 本研究は，既存の3D基盤モデルをパノラマ画像にも適用し，高精度な幾何推定を実現することを目的とする。
- 提案手法PaGeRは，既存の3D基盤モデルを最小限の変更で拡張し，視点画像とパノラマ画像の双方に対応可能にした。
- PaGeRは，スケール不変な深度，メートル深度，表面法線，空マスクを単一のフォワードパスで予測できる。
- 屋内および屋外環境での実験により，PaGeRが最先端の性能と優れたゼロショット性能を示すことが確認された。
Link: https://arxiv.org/abs/2605.26368
航空画像における屋根構造のインスタンスセグメンテーションと幾何学的属性回帰 [cs.CV]目的：航空画像からの屋根セグメンテーションマスクと，建物高さ，屋根の傾斜，屋根の方位という3つの連続幾何学的属性の同時予測
- 都市計画や災害対策において，建物の3次元モデルは不可欠である。迅速かつ正確なモデル構築が求められる。
- 従来の3Dモデル構築は，LiDARデータ等の高コストなデータに依存しており，大規模な地域への適用が困難である。
- 単一の航空画像から屋根の幾何学的属性を推定し，3Dモデルを低コストで再構築することを目指す。
- 本手法は，Mask R-CNNを拡張し，属性回帰ブランチを導入。特に，方位推定におけるノイズを抑制する条件付き損失関数が有効であった。
- 建物高さの偏った分布に対応するため，対数正規化された表現を採用し，回帰精度を向上させた。
- 屋根の傾斜，方位，高さの平均絶対誤差はそれぞれ約4度，7度，1メートルであり，LoD2レベルの3Dモデル再構築が可能となった。
Link: https://arxiv.org/abs/2605.26370
BioFact-MoE：肝細胞癌における予後予測のための生物学的因子化された専門家混合モデル [cs.CV, cs.AI, cs.LG]目的：肝細胞癌における生存予測精度の向上と生物学的解釈性の獲得
- 肝細胞癌は生物学的に多様であり，予後予測には多角的な情報が必要である。
- 既存のビジョン言語モデルは，肝機能と腫瘍関連因子を統合した表現を学習するため，解釈性に乏しい。
- 生物学的な知識に基づき，肝機能と腫瘍関連因子を分離することで，より正確で解釈可能な予後予測を目指す。
- BioFact-MoEは，肝細胞癌患者の生存予測において，既存モデルを上回るAUCスコア(12ヶ月:75.33%, 18ヶ月:75.85%, 24ヶ月:73.96%)を達成した。
- 専門家の重み付けにより，表現型に基づいたリスク層別化が可能となった。
- 経路情報を活用したゲート機構により，治療に関連する生存率の異質性が明らかになった。
Link: https://arxiv.org/abs/2605.26376
VisualNeedle：情報量の多いシーンにおける能動的視覚探索のベンチマーク [cs.CV, cs.AI]目的：情報量の多いシーンにおける能動的視覚探索能力の評価
- 大規模言語モデルの性能向上に伴い，視覚情報に基づいた推論の信頼性評価が重要となっている。
- 既存のベンチマークは，言語的ヒントや大まかな意味情報で解答可能な場合があり，真の視覚探索能力を測れていない。
- 微細な領域に隠された情報を探索する能力を評価し，言語モデルの視覚探索の限界を明らかにする。
- 既存の主要なMLLM9モデルにおいて，ツールなしでは20%以下の精度しか得られなかった。
- ツールを使用した場合でも最高で56.01%の精度にとどまり，人間の投票による63.00%には及ばなかった。
- VisualNeedleにおける成功は，途中の視覚的証拠に依存しており，ツールが提供する情報が重要であることが確認された。
Link: https://arxiv.org/abs/2605.26380
衛星画像とストリートレベル画像によるPerceiver IO融合を用いた多角的建物検査 [cs.CV]目的：衛星画像とストリートレベル画像を用いた建物要素と屋根材の多ラベル分類
- 都市計画や防災において，建物の状態把握は重要であり，迅速かつ正確な情報収集が求められる。
- 建物検査には人的コストがかかる上に，広範囲なデータ収集が困難であるという課題が存在する。
- 衛星画像とストリートレベル画像の融合により，効率的かつ詳細な建物検査を可能にすることを目指す。
- 衛星画像とストリートレベル画像をPerceiver IOアーキテクチャで融合することで，建物検査の精度向上が確認された。
- 特に，ストリートレベルから視認可能な要素（例：スレート，ドーマー）において，大幅な性能改善が認められた。
- RGB-Mマスキング戦略は，ハードクロッピングよりも優れた空間的優先順位付けを提供し，より高い精度を実現した。
Link: https://arxiv.org/abs/2605.26381
効率的な3D MRIセグメンテーションのための詳細整合ステージワイズ蒸留 [cs.CV]目的：3D MRIセグメンテーションにおける効率化
- 医療画像解析の精度向上は，疾患の早期発見や治療効果の向上に不可欠である。
- 3D MRIセグメンテーションモデルは，メモリ消費量と推論速度が課題となる場合が多い。
- モデル圧縮による効率化と，微細構造の保持を両立させる。
- 提案手法DCDは，ウェーブレット分解表現を用いたステージワイズ蒸留により，詳細構造を保持しつつモデルを圧縮する。
- 各ステージで方向性のある詳細成分を蒸留することで，大域的なセマンティクスの過剰な正則化を回避する。
- BraTS 2024とISLES 2022のベンチマークにおいて，提案手法は優れた性能を達成した。
Link: https://arxiv.org/abs/2605.26382
一人称視点キッチン動画におけるマルチステージSAM3特徴融合によるゼロショット物体再識別 [cs.CV]目的：一人称視点キッチン動画におけるゼロショット物体再識別
- 料理や調理器具の認識は，ロボットやスマートキッチン実現の鍵となる。そのため，高精度な物体再識別が重要である。
- 視点変化，遮蔽，背景の複雑さ，同一クラス内での外観変化が大きく，再識別が困難である。
- 事前学習済みの特徴のみを用いて，アノテーション不足の問題を解決し，ゼロショット再識別を実現することを目指す。
- 既存の最先端の特徴抽出器はゼロショット再識別において十分な性能を示せていない。
- SAM3を核としたマルチステージパイプラインにより，性能が7.5%mAP向上し，52.8%mAPを達成した。
- 背景の抑制，特徴融合，形状IoUによる幾何学的整合性の強化，k-reciprocal再ランキングが有効であった。
Link: https://arxiv.org/abs/2605.26383
衣服粒子の表現：生成と編集のための2D-3D対称的な衣服表現 [cs.GR, cs.CV]目的：衣服の生成と編集を可能にする2Dと3Dを統合した衣服表現
- 衣服のデザインは，直感的な作成と専門的な編集の双方を必要とし，その複雑さから高度な技術が求められる。
- 既存のフレームワークは，生成または編集のいずれかに特化しており，両方を統合したものは存在しない。
- 本研究は，生成と編集の両方を可能にする新しい衣服表現を提案し，デザインワークフローの効率化を目指す。
- 提案手法である衣服粒子表現は，2Dの縫製パターンと3D形状を5次元点群として統合的に表現する。
- 衣服粒子フロー（GPF）を用いることで，テキストや画像からの生成，縫製パターンや3D形状の編集が可能となる。
- 生成された衣服粒子を曲線を基盤としたパターンに変換するParticles-to-Pattern Flowも導入され，シミュレーションへの応用も可能。
Link: https://arxiv.org/abs/2605.26391
OmniGF：統一的な視線追従のためのデュアルブランチな視覚言語フレームワーク [cs.CV]目的：多人数視線追従のための統一的なフレームワークの構築
- 複雑なシーン理解や人間-コンピュータ間のインタラクションにおいて，人間の視線行動の理解は不可欠である。
- 従来の視線追従モデルは空間的な位置特定に限定され，意味的なターゲットや複雑な社会的文脈を考慮できない場合がある。
- VLMsの持つ意味理解能力と視線追従の空間的精度を両立させ，効率的な多人数視線追従を実現することを目指す。
- 提案手法 OmniGF は，基礎的なVLMを多人数視線推論に適応させるための統一的な視覚言語フレームワークである。
- デュアルブランチのデコーディング戦略を採用し，離散的な推論状態と連続的な空間情報を効果的に活用することで，高精度な視線ターゲット推定を可能にする。
- ヘッド埋め込みを加えることで，個人の外見や向きに関する情報を明示的に考慮し，複数のベンチマークにおいて最先端の性能を達成した。
Link: https://arxiv.org/abs/2605.26399
救済効果：空間・意味的早期終了がCLIPの量子化崩壊を回避する [cs.CV, cs.AI]目的：CLIPにおける量子化誘発表現崩壊の抑制
- 画像とテキストを共同埋め込みで扱うモデルは多様な応用が可能であり，その効率化が求められている。
- CLIPのようなモデルをINT8量子化すると，活性化ノイズが累積し，ゼロショット検索の性能が低下する問題がある。
- ノイズが飽和する深層を回避し，浅層での適切な判断を促すことで性能劣化を防ぐ。
- LRA-EEは，空間・意味的集約により浅層の情報を活用し，ノイズの影響を軽減する。
- ImageNet-1Kのゼロショット分類において，FLOPsを13.4%削減し，Top-1精度を+2.44%p向上させた。
- 四象限分解により，浅層で正しく分類されるサンプルが深層でノイズにより誤分類されるケースが明らかになった。
Link: https://arxiv.org/abs/2605.26415
HydraPrompt：合成画像検出のための適応的・非対称な視覚言語モデルフレームワーク [cs.CV]目的：合成画像検出における性能向上
- 生成モデルの急速な進化に伴い，偽造コンテンツが増加しており，その検出が重要である。
- 既存の合成画像検出手法は，変化する偽造技術に適応できず，性能が低下する。
- 本研究は，画像の特徴に応じた動的なプロンプト調整により，偽造画像の多様性に対応することを目指す。
- 提案手法HydraPromptは，実画像の共通パターンと偽造画像の多様な特徴を捉える非対称なプロンプト適応機構を導入した。
- 条件付き教師あり対照学習により，実画像の表現を凝縮し，偽造画像の手がかりを明瞭にした。
- 主要な合成画像検出ベンチマークにおいて，最先端の性能を達成した。
Link: https://arxiv.org/abs/2605.26421
弱学習ビデオの時間的接地をゲームの視点から再考する [cs.CV, cs.AI]目的：弱学習ビデオの時間的接地手法の改善
- ビデオ理解と自然言語処理の融合は，動画コンテンツの検索や分析に不可欠である。
- 既存手法は，提案された時間セグメントの選択に依存し，計算コストが高い。
- フレームとクエリワード間の協調関係をゲーム理論で定量化し，より正確な接地を目指す。
- 本研究では，ビデオフレームとクエリワードをゲームプレイヤーとしてモデル化する新しいアプローチを提案した。
- 提案手法は，Charades-STAとActivityNet Captionデータセットで，既存手法を上回る性能を達成した。
- 時間セグメント提案に依存せず，フレーム単位のスコアを活用することで，より効率的な接地を実現した。
Link: https://arxiv.org/abs/2605.26441
水中360: 全方位ガウススプラッティングによるパノラマ画像からの水中シーン再構築 [cs.CV]目的：水中パノラマシーンの再構築
- 水中環境の没入型探索には不可欠だが，吸収や散乱などの影響で困難である。
- 従来の3Dガウススプラッティングは球面投影歪みや水中媒体劣化に弱い。
- 物理に基づいたフレームワークで，水中パノラマシーンの高品質な再構築を目指す。
- 提案手法Underwater360は，球面空間で直接レイキャスティングを行うことで幾何学的歪みを低減する。
- 物理ベースの表現モデルにより，シーンの輝度と水中媒体の影響を分離し，物理的に妥当な外観復元を実現する。
- 合成および実世界のシーンを含む新しい水中パノラマベンチマークデータセットを構築し，優れた性能を実証した。
Link: https://arxiv.org/abs/2605.26447
公共財ゲームにおける憲法による軍拡競争：協力と裏切り圧力下でのLLM憲法の共進化 [cs.MA, cs.GT, cs.NE]目的：LLM憲法の共進化過程における協力と裏切りの影響
- LLMの発展は社会に大きな可能性をもたらす一方，倫理的・社会的な課題も生じている。
- 単独エージェントや協調を前提としたアライメント手法では，悪意ある行動への対策が不十分である。
- 本研究は，競争的な環境下でLLM憲法がどのように進化するかを明らかにし，悪意ある行動への対策を検討する。
- 公共財ゲームにおいて，協力派とフリーライダー派は，S値約0.78の均衡状態に収束することが示された。
- 独立した評価では，両派の得点が相関せず，競争圧力が生じない一方，得点差に基づいた評価では競争圧力が回復した。
- 純粋な競争的評価では，評価回数Kが結果に影響し，K=5で長期的な専門家が維持された。
Link: https://arxiv.org/abs/2605.26448
GANの学習におけるクロススケールアラインド監視 [cs.CV, cs.AI]目的：GAN学習におけるクロススケールアラインド監視の提案
- GANは画像生成において高品質な成果を上げるが，学習の安定性や多様性向上が課題である。
- 段階的な生成において，各スケールでのリアルさ追求と生成サンプルの一貫性の維持が困難である。
- クロススケール軌道のずれを解消し，生成サンプルの一貫性を高めることを目指す。
- 提案手法CATは，各中間出力と最終出力を整合させることで，クロススケール軌道のずれを抑制する。
- ImageNet-256の実験結果において，CAT-H/2はFID-50Kスコア1.56を達成し，既存手法を上回る性能を示した。
- わずか60エポックの学習で，ワンステップ推論においても優れた結果が得られた。
Link: https://arxiv.org/abs/2605.26449
まずデザイン，後でコード：美観を重視したテンプレートフリーのスライド生成 [cs.HC, cs.CV]目的：プレゼンテーションスライドの自動生成におけるデザインプロセス
- プレゼンテーションは情報伝達において重要な役割を担うため，その質的向上は不可欠である。
- 既存手法はテンプレートに依存するか，直接コードを出力するため，柔軟なデザインが制限されている。
- テンプレートやスタイルに縛られず，デザインと実装を分離したスライド生成フレームワークを提案する。
- 提案手法DeepSlidesは，既存手法と比較して評価指標において優れた性能を示した。
- 人間の選好度評価においても，提案手法はより高い評価を得た。
- スライド生成のためのデータセットSlideDesignと，モデルSlideQwensを公開した。
Link: https://arxiv.org/abs/2605.26451
疎なLiDARプロンプティングによる単眼ジオメトリ基盤の拡張：長距離運転深度に向けた実証研究 [cs.CL, cs.CV]目的：長距離運転における深度推定の精度向上
- 自動運転技術の発展において，正確な深度認識は不可欠である。LiDARとカメラの融合は重要なアプローチ。
- 既存研究では，長距離領域（50-150m）における系統的な評価が不足している。また，疎なLiDARデータを直接活用した研究が少ない。
- 点マップ基盤モデルMoGe-2への疎なLiDARデータの直接入力と，その効果的な統合手法を確立すること。
- 提案手法SLIMは，Virtual KITTIおよびCARLAにおいて，MoGe-2のベースラインと比較して，100-150mにおける絶対相対誤差を約39-51%削減した。
- 部分畳み込みによるLiDAR注入は，Virtual KITTIにおいてAbsRelとRMSEの両方をすべての設定で改善した。
- CARLAではAbsRelが5/6の設定で改善し，RMSEは部分畳み込みにより3つの設定で向上した。
Link: https://arxiv.org/abs/2605.26456
AnchorDiff：アンカーに基づくグラフ伝播によるMM-DiTのトレーニングフリーな概念接地 [cs.CV, cs.AI]目的：マルチモーダル拡散Transformerを用いたトレーニングフリーな概念接地
- 画像とテキスト情報を統合し，より高度な画像理解を可能にする技術として重要である。
- 視覚的に紛らわしい概念間での活性化の重複（概念漏洩）が問題となっている。
- 概念漏洩を抑制し，正確な概念接地を実現することを目的とする。
- AnchorDiffは，概念と画像間のアテンションマップから高信頼度のアンカーを選択し，ハイブリッドグラフ上で伝播させる。
- その結果，ImageNet-SegmentationおよびPascalVOCにおいて高い接地性能を達成した。
- 新たに作成したMulti-Concept Confusion Dataset上で，概念漏洩を大幅に低減することを示した。
Link: https://arxiv.org/abs/2605.26460
逆問題のためのトライアディックダイナミクスを意識した拡散事後サンプル：ガイダンスと確率性スケジュールの最適化 [cs.CV]目的：逆問題解決における拡散モデルを用いた事後サンプリングの最適化
- 画像処理における逆問題は，ノイズ除去や画像再構成など，様々な応用に不可欠である。
- 既存手法では，各コンポーネントの調整が個別に行われ，最適なスケジュール設定が課題であった。
- データ整合性，分類者フリーガイダンス，確率性のスケジューリング間の相互作用を考慮した最適化を目指す。
- 提案手法TriPSは，時間変化する制御問題として事後サンプリングを再構築し，トライアディックなトレンドに従ってスケジュールの最適化を行う。
- テンプレートベースの探索と，グループ相対方策最適化(GRPO)を用いた強化学習により，柔軟な時間曲線を実現する。
- 実験により，TriPSはデータ忠実度と知覚的リアリズムにおいて最先端のベースラインを上回ることが示された。
Link: https://arxiv.org/abs/2605.26470
大規模平面シーンにおける視覚に基づく計量測定の比較研究 [cs.RO, eess.SY, cs.SY, cs.DB, cs.IR, cs.CV, cs.AI]目的：大規模平面シーンの視覚による計量測定手法の比較
- 屋外環境の監視や計測において，視覚情報を用いた計量測定の重要性が増している
- 長距離計測，カメラズーム，不安定な撮影条件が，正確な計量測定の課題となっている
- PTZカメラを用いた貯水池監視における計量測定手法の有効性と限界を明らかにする
- 単眼測距法は，十分なピッチ角下でメートルレベルの精度を達成する
- ステレオ測距法は，ピッチ角への感度が低く，デシメートルレベルの精度を実現する
- 画像ステッチングは小規模シーンには有効だが，大規模シーンでは安定性と拡張性に課題がある
Link: https://arxiv.org/abs/2605.26475
確率的デカップルド・ポリシー勾配による効率的なオンポリシー視覚的RL [cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY]目的：視覚的強化学習における効率的なポリシー学習手法
- ロボットの自律的な動作を実現する上で，視覚情報を用いた強化学習は不可欠である。
- 従来の視覚的RLは，計算コストが高く，学習に時間がかかるという課題がある。
- 本研究は，計算コストを削減し，学習時間を短縮する新しい手法を提案する。
- 確率的デカップルド・ポリシー勾配（SDPG）は，シングルGPUで数時間以内に多様な視覚運動制御ポリシーを学習できる。
- SDPGは，従来の基盤手法と比較して，学習時間，メモリ使用量，報酬において優れた性能を示す。
- また，本研究では，器用な操作，困難な移動を含む現実的な視覚ロボティクスベンチマーク群を新たに公開し，物理ハードウェアへのシミュレーションから現実世界への転移の有効性も実証した。
Link: https://arxiv.org/abs/2605.26478
臨床的根拠に基づいた医療ビデオ診断のための反実仮想推論 [cs.CV]目的：医療ビデオ診断における反実仮想推論の枠組み
- 医療ビデオ診断は，病状の早期発見や治療効果の判断に不可欠であり，その精度向上が求められている。
- 既存手法は，病理学的根拠に乏しく，臨床的知識を組み込むことが難しく，診断推論が不十分である。
- 臨床診断の思考プロセスを模倣し，病理状態を考慮した反実仮想推論を通じて診断精度を向上させる。
- 本研究では，拡散モデルを用いた反実仮想的な組織進化の生成，臨床規則に基づく表現学習，および二重診断予測戦略を組み合わせたMedVCRを提案した。
- MedVCRは，完全教師あり学習と弱教師あり学習の両方において，既存の最先端手法と比較して2.6%～10.2%の性能向上を達成した。
- 詳細な消去実験により，各コンポーネントの有効性が確認された。
Link: https://arxiv.org/abs/2605.26483
OmniInteract：リアルタイム全感覚アシスタント向けストリーミングインタラクションのベンチマーク [cs.CV, cs.CL]目的：リアルタイム全感覚大規模言語モデルのストリーミングインタラクション評価
- 音声と映像を同時に処理する全感覚AIは，より自然な人間との対話を実現し得るため重要である。
- 既存の評価方法はオフライン処理やテキストプロンプトに依存しており，リアルタイムストリーミング環境での課題に対応できていない。
- 本研究は，リアルタイムの音声・映像ストリームにおけるインタラクション能力を評価する新たなベンチマークを提示する。
- 新たに開発したベンチマークOmniInteractは，250本の動画と1430個の応答スロットを含む。
- 現状のモデルはストリーミングインタラクションにおいて課題が多く，最高のIA-QTF1スコアは0.368に留まる。
- オフラインでの能力は，オンラインインタラクションに必ずしも活かされないことが示された。
Link: https://arxiv.org/abs/2605.26485