arXiv雑要約

画像・音声 - 2026/06/16 公開

Tool-IQA：単純なツールによる画像品質評価の拡張 [cs.RO, cs.CV, cs.AI]目的：画像品質評価におけるツールを活用した評価手法
- 画像品質評価は，様々な画像処理技術の性能指標として重要である。画像認識や映像処理の進歩に不可欠な要素。
- 既存手法は静的な評価に留まり，人間の動的な視覚検査を模倣できていない。細部の評価や隠れたアーティファクトの検出が困難。
- 人間の視覚検査を模倣し，局所的な詳細や隠れたアーティファクトをより正確に評価することを目指す。
- 提案手法Tool-IQAは，拡大鏡とガンマ補正ツールをVLMに導入し，ツールを活用した評価ワークフローを構築した。
- 効率的なツール活用のため，貢献度の高いツール呼び出しを促すバッチ対応学習戦略を導入した。
- 様々なIQAベンチマークにおいて，既存最先端モデルを大幅に上回り，CLIVEデータセットでPLCC 0.854を達成した。
Link: https://arxiv.org/abs/2606.16082
VinQA：現実世界のマルチモーダルドキュメントQAのための視覚要素を組み込んだ長文応答生成 [cs.CV, cs.AI]目的：現実世界のマルチモーダルドキュメントQAにおける長文応答生成
- 現実世界のドキュメントはテキストと視覚要素が複雑に配置されており，その活用が重要である。
- 既存のマルチモーダルLLMは視覚要素を十分に活用できておらず，テキストのみの応答に留まっている。
- 視覚要素を明示的に参照し，応答に組み込むことで，より高精度なQAを実現することを目指す。
- VinQAデータセットは，視覚要素とテキストの参照関係が明確化された長文応答生成を可能にする。
- Page EncodingとModality Encodingの2つのエンコーディング手法を検討し，それぞれの有効性を比較した。
- ファインチューニングにより，オープンソースモデルの性能が向上し，商用モデルとの性能差が縮小した。
Link: https://arxiv.org/abs/2606.16092
車両中心型経路生成のための効果的かつ低コストなレーンベース地図局所化 [cs.MM, cs.CV]目的：車両中心型経路生成のためのレーンベース地図局所化手法
- 直感的で安全な自動運転を実現するには，運転者に寄り添った経路提示が不可欠である。
- 既存手法では，地図情報の利用とカメラ認識の連携が十分でなく，局所化精度や経路の一貫性に課題がある。
- 低コストで高精度な地図局所化に基づき，運転者に分かりやすい経路生成を目指す。
- 提案手法OLRAは，OpenPilotと比較して複雑な道路区間や遠距離における経路推定精度が向上した。
- nuScenesデータセットを用いた実験により，OLRAは全体的なユークリッド誤差を低減することを示した。
- 本研究は，低コストかつ地図局所化に基づいた経路生成手法のさらなる発展を促進すると期待される。
Link: https://arxiv.org/abs/2606.16101
シーンクラフト：シーングラフによる画像編集インタラクティブシステム [cs.HC, cs.CV]目的：画像編集のためのインタラクティブなフレームワーク
- 画像編集技術は，多様な表現を可能にし，クリエイティビティを支援する重要な分野である。
- 複雑なシーンでは，テキストプロンプトのみでの制御が難しく，意図通りの編集が困難である。
- シーングラフを用いることで，より直感的かつ正確な画像編集を実現し，プロンプト作成の負担を軽減する。
- シーンクラフトは，ユーザーがシーングラフを直接操作することで，複雑な空間的・関係的操作を可能にする。
- グラフの変更は，文脈を考慮した編集プロンプトに自動的に変換され，曖昧さを解消する。
- 多様な編集シナリオにおいて，従来のプロンプトエンジニアリングよりも直感的で高品質な結果が得られることが示された。
Link: https://arxiv.org/abs/2606.16103
EdgeZSAD：エッジデバイスにおけるゼロショット異常検知 [cs.CV]目的：エッジデバイスでのゼロショット異常検知の実用化
- 産業検査において，未知の異常を検知する能力が不可欠である。
- 既存手法は大規模モデルに依存し，エッジデバイスの制約下では実用的でない場合が多い。
- エッジデバイスで実行可能なコンパクトなゼロショット異常検知システムの開発。
- 本研究では，TinyViTを基盤としたEdgeZSADを開発し，エッジデバイスでの実用性を検証した。
- MVTec-ADおよびVisAにおいて，それぞれ平均AUROC 91.6%および88.2%を達成し，Jetson Orin Nano SuperやRB5 Gen2で直接実行可能であることが示された。
- デバイスでの評価において，ランキングのずれが0.2ポイント以内に抑えられ，ホスト側での挙動が維持されることが確認された。
Link: https://arxiv.org/abs/2606.16119
訓練不要のオープンボキャブラリリモートセンシング画像・動画における視覚的 groundeding [cs.CV]目的：リモートセンシング画像・動画における，自然言語による指示に基づいた対象物の位置特定
- 地理空間情報の解析において，対象物を正確に特定することは不可欠であり，その効率化が求められている。
- 従来の groundeding 手法は，特定のタスクに合わせた手動アノテーションに依存しており，汎用性に課題がある。
- 本研究は，事前学習済みの汎用モデルを活用することで，アノテーション不要で多様な指示に対応する groundeding を実現する。
- 提案手法RSVG-ZeroOVは，画像と動画の両方において，既存のzero-shotベースラインを大幅に上回る性能を示した。
- 視覚言語モデルと拡散モデルの異なる注意メカニズムを組み合わせることで，より正確な groundeding を実現している。
- 動画への適用では，キーフレーム選択と時間伝播により，効率的かつ時間的に一貫性のある groundeding を可能にしている。
Link: https://arxiv.org/abs/2606.16124
視覚的自己回帰モデルにおけるShift-and-Sum量子化 [cs.CV, cs.LG]目的：視覚的自己回帰モデルに対する量子化手法の開発
- 深層学習モデルの効率的な展開は，計算資源の制約下で重要である。
- 視覚的自己回帰モデルへの量子化適用は，再構成誤差やキャリブレーションデータ不足により困難である。
- 注意機構における再構成誤差の低減と，キャリブレーションデータの最適化を目指す。
- Shift-and-Sum量子化により，注意-値積の再構成誤差を効果的に削減できることが示された。
- キャリブレーションデータの再サンプリング戦略は，コードブックエントリの予測確率との整合性を高めた。
- 提案手法は，様々な視覚的自己回帰モデルにおいて，最先端の性能を達成した。
Link: https://arxiv.org/abs/2606.16131
チーム型ゼロサムゲームの計算複雑性 [cs.GT, cs.CC]目的：チーム型ゼロサムゲームにおけるナッシュ均衡の計算複雑性の決定
- ゲーム理論は，経済学，計算機科学などに応用され，最適な戦略決定を支援する。
- チーム型ゼロサムゲームの計算複雑性は未解決であり，効率的な解法が存在しない可能性が指摘されている。
- 本研究は，チーム型ゼロサムゲームのナッシュ均衡の計算が困難であることを示す。
- チーム型ゼロサムゲームにおけるナッシュ均衡の計算は，PPAD完全であることが示された。
- この結果は，チーム型ゼロサムゲームが，一般的な多人数ゲームと同程度の計算困難性を持つことを意味する。
- また，グループ型ゼロサムポリマトリックスゲームの計算複雑性も解明された。
Link: https://arxiv.org/abs/2606.16139
EconCSLib：計算経済学とAI支援研究のための軽量ライブラリ [cs.AR, cs.GT]目的：計算経済学におけるゲーム理論，メカニズムデザイン，社会選択などの再利用可能な定義と定理の提供
- 数理経済学の厳密化は，経済モデルの信頼性向上に不可欠であり，政策決定への応用が期待される。
- 既存の経済学研究は，形式化されていないため，誤謬の混入や検証の困難さという課題がある。
- 本研究は，AI支援による形式化を通して，経済学研究の検証可能性と効率性を高めることを目指す。
- EconCSLibは，Lean 4を用いた計算経済学のための初期のライブラリとして開発された。
- 本ライブラリは，既存の結果の検証証明だけでなく，未解決問題や最新研究の形式化も可能にする。
- AI支援による形式化の設計原則，開発からの教訓，および将来の方向性が議論された。
Link: https://arxiv.org/abs/2606.16144
医療画像セグメンテーションの包括的サーベイ：課題，ベンチマーク，そしてその先 [cs.CV, cs.AI]目的：医療画像セグメンテーションに関する体系的な発展の概要
- 臨床診断，治療計画，疾患モニタリングにおいて不可欠な技術であり，医療の質の向上に貢献する。
- 既存のサーベイは特定のモデルや臨床応用例に偏りがちで，包括的な分析が不足している。
- セグメンテーション精度と効率の向上に貢献する手法を統一的なフレームワークで分析し，今後の研究を促進する。
- U-Net，Transformer，SAMアーキテクチャに基づいた代表的な手法を網羅的にレビューした。
- 各アーキテクチャの有効性を，セグメンテーション精度と効率の観点から比較・分析した。
- 関連リソースをGitHubリポジトリで公開し，臨床応用への移行を支援する。
Link: https://arxiv.org/abs/2606.16153
必要に応じて焦点を当てる：トレーニングフリーな視覚的グラウンディングのための適応的ルーティングと協調的グラウンディング [cs.CV, cs.CL]目的：視覚的グラウンディングにおける効率性と精度向上
- マルチモーダル大規模言語モデルの視覚的理解能力の限界
- 高解像度画像における細部の認識の困難さ
- 複雑な画像中のターゲット認識の精度と効率の改善
- LazyMCoTは，予測不確実性に基づき，視覚的グラウンディングの試行を動的に調整する。
- 困難なサンプルに対しては，外部の視覚専門家との協調的グラウンディングにより，精度が向上する。
- 実験の結果，LazyMCoTはトレーニングベースの手法と同等の性能を示し，推論速度も向上する。
Link: https://arxiv.org/abs/2606.16158
連続スプラッティングとRetinexの融合：低照度画像強調のための連続ガウススプラッティングと暗黙的反射モデリング [cs.CV]目的：低照度画像強調における鮮明な画像復元
- 画像認識などの高次視覚タスクにおいて，低照度環境下での鮮明な画像取得は不可欠である。
- 既存手法では，大局的な滑らかな照明調整と局所的な高周波詳細の復元とのバランスが難しく，色歪みや構造歪みが生じやすい。
- 照明と反射を分離し，高周波構造と色の忠実な復元を実現することで，この問題の解決を目指す。
- CGS-Retinexは，明示的・暗黙的な結合モデリングに基づく初の低照度画像強調フレームワークである。
- 本研究では，連続ガウススプラッティングとRetinex理論を深く統合し，物理に基づいた表現パラダイムを確立した。
- 実験結果から，CGS-Retinexは暗領域ノイズと過曝を抑制し，優れた高周波構造の忠実性と色復元を実現することが示された。
Link: https://arxiv.org/abs/2606.16159
汎用的な人物再識別におけるマルチモーダルLLMを用いた再ランキング [cs.CV]目的：汎用人物再識別における再ランキングの性能向上
- 人物再識別は，監視カメラ映像などからの個人特定に不可欠であり，その精度向上は社会的なニーズが高い。
- 従来の再識別手法は，特定の環境に特化しやすく，未知の環境下での性能が低下する課題がある。
- 本研究は，マルチモーダルLLMを活用し，環境変化に強い再ランキング手法を開発することで，この課題を解決する。
- マルチモーダルLLMを再識別データに適応させ，ドメインに依存しない距離指標を開発した。
- 提案手法は，既存の再ランキングフレームワークに容易に組み込むことができ，モデルに依存しない。
- 複数の汎用人物再識別ベンチマークにおいて，提案手法が大幅な性能向上を達成した。
Link: https://arxiv.org/abs/2606.16161
Dehaze-GaussianImage：効率的な2Dガウシアンsplatting表現によるゼロショット除霧 [cs.CV]目的：2Dガウシアンsplatting表現を用いたゼロショット除霧フレームワーク
- 画像処理において，視界不良な画像を復元することは，様々な応用において重要である。
- 既存手法は，計算コストが高いか，物理的解釈に乏しいという課題を抱えている。
- 2Dガウシアンsplattingを導入し，効率的かつ高精度なゼロショット除霧を実現すること。
- 本研究では，画像を連続的なガウシアン分布としてモデル化する新しい手法を提案した。
- 提案手法は，伝送媒体と鮮明なテクスチャを幾何学的に分離し，アーティファクトを抑制する制約を導入する。
- 実験結果から，本手法がパラメータ数を最小限に抑えつつ，最先端の性能を達成することが示された。
Link: https://arxiv.org/abs/2606.16163
Fi-Gaussian：周波数認識型暗黙的ガウススプラッティングによる単一画像からの霧除去 [cs.CV]目的：単一画像からの霧除去
- 視覚的なリアリティの向上は，コンピュータビジョンの重要な課題である。霧除去はそのための基礎技術となる。
- 高周波情報の損失と，正確な物理散乱モデルの構築が，単一画像からの霧除去の課題となっている。
- 周波数認識型暗黙的ガウススプラッティングを用いて，高周波情報の復元と物理散乱モデルの改善を目指す。
- Fi-Gaussianは，低周波構造情報と高周波テクスチャ情報を周波数領域で分離し，適応的なガウス集約を行うことで，微細なディテールを効果的に復元する。
- 暗黙的ガウス事前知識に基づいた物理駆動型の散乱再正規化メカニズムにより，透過マップと大気光を正確に推定する。
- 複数のベンチマークデータセットでの実験により，Fi-Gaussianが最先端の性能を達成し，視覚的に優れた霧除去結果が得られることが示された。
Link: https://arxiv.org/abs/2606.16168
忘却は保存である：3D医療画像セグメンテーションにおける機械的アンラーニング [cs.RO, cs.CV, cs.LG]目的：3D医療画像セグメンテーションモデルからのデータアンラーニング手法の評価
- 個人情報保護の重要性が高まり，機械学習モデルからのデータ削除要求への対応が求められている。
- モデルから特定のデータを効率的に削除し，かつ性能劣化を最小限に抑えることが課題である。
- データプライバシー法に準拠しつつ，3D医療画像セグメンテーションにおける実用的なアンラーニング手法を確立する。
- Noisy Label戦略が，保持データセットの精度を84%維持しつつ，忘却データセットで93%の削減を達成した。
- 他の戦略は，エポック数が増加するにつれて，忘却が激化し，保持データセットの性能が大幅に低下した。
- 本研究は，件別アンラーニングの性能指標の厳密な基準を提供し，適切な戦略選択のための指針となる。
Link: https://arxiv.org/abs/2606.16180
長編動画のための閉ループ三重相乗生成 [cs.CV, cs.MM]目的：長編動画における一貫性および制御性の向上
- 動画生成技術は，エンターテインメント，教育，コミュニケーションなど幅広い分野で重要性が高まっている。
- 長編動画生成では，登場人物の同一性維持や，場面ごとの矛盾が課題となっている。
- 生成された映像情報を活用し，プロンプトや記憶を更新することで，動画の一貫性を高める。
- 提案手法CoTriSyGenは，視覚情報，テキスト，記憶を連携させた閉ループ構造により，長編動画生成において大幅な改善を達成した。
- 特に，場面間の整合性，プロンプトへの準拠度，映画的な連続性において，既存手法を上回る性能を示した。
- エンティティ中心の記憶を用いることで，物語の進行に伴う変化を反映し，より自然な動画生成を可能にした。
Link: https://arxiv.org/abs/2606.16184
DNNビジョン向け学習型JPEG圧縮 [cs.CV]目的：DNNの推論性能を最大化しつつ，圧縮率を最小化するJPEGエンコーディングパラメータの決定
- 画像データはAI技術の中核であり，その効率的な圧縮は，計算資源の節約やデータ伝送の高速化に不可欠である。
- 従来のJPEGは人間視覚に最適化されており，DNNの特性を考慮した圧縮は十分ではなく，性能低下を招く場合がある。
- DNNの推論性能を損なわずに，JPEG圧縮率を最適化することで，AIシステムの効率性と精度向上を目指す。
- 提案手法J4Dは，デフォルトJPEGや他の最適化されたJPEGコーデックと比較して，一貫して大幅な性能向上を示すことが実験的に確認された。
- J4Dは，同じ圧縮率で最大11.60%の精度向上，または同じ精度で最大80.05%の圧縮率削減を達成した。
- J4Dを用いることで，異なるDNNアーキテクチャに対して普遍的なJPEGエンコーディングパラメータを設計する可能性が示された。
Link: https://arxiv.org/abs/2606.16185
現実世界の画像超解像のための，学習効率の良い任意のステップ拡散Transformer [cs.CV]目的：現実世界の画像超解像のための拡散モデルの効率的な学習と推論
- 画像超解像は，限られた情報から高解像度画像を復元する重要な技術であり，多様な応用分野で求められている。
- 拡散モデルは高性能だが，反復サンプリングが遅い。既存の高速化手法は，大規模モデルへの適用が難しい場合がある。
- 追加の教師モデルを必要とせず，単一のGPUで大規模モデルの学習を可能にする，効率的な拡散フレームワークの提案。
- TEASRは，単一の拡散モデル内で1ステップと多ステップの両方の復元を可能にする，統一的なフレームワークを構築した。
- timestep-aware rectification戦略により，様々なノイズレベルでの1ステップ生成の安定性を向上させた。
- 実験結果から，TEASRは既存の最先端手法を複数データセットで上回り，シームレスな任意のステップサンプリングを可能にすることが示された。
Link: https://arxiv.org/abs/2606.16188
カスケードスパースオートエンコーダがマルチモーダルLLMにおける多層的視覚概念を学習する [cs.CV, cs.AI, cs.LG]目的：マルチモーダルLLMにおける多層的な視覚概念の学習
- 近年，画像とテキストを扱うLLMの性能は飛躍的に向上しているが，その内部の視覚表現は解釈が困難である。
- 既存のスパースオートエンコーダは，フラットな特徴辞書を回復する傾向があり，明示的な多層的概念構造の学習には不向きである。
- 本研究では，カスケードスパースオートエンコーダを用いて，LLM内の階層的な視覚概念を学習し，解釈性を高めることを目指す。
- カスケードスパースオートエンコーダは，既存のSAEベースラインと比較して，より一貫性のある階層的概念構造を学習できることが示された。
- 学習された概念群は，LLMの出力に対するグループレベルでの介入を効果的にサポートし，概念操縦の性能を向上させる。
- Qwen3-VL，Gemma-3，LLaVAといった複数のLLMで実験が行われ，様々な視覚データセットにおいて有効性が確認された。
Link: https://arxiv.org/abs/2606.16193
概念が欠如した場合の確信：表現摂動による解釈可能なOOD検出 [cs.LG, cs.CV]目的：分布外検出の解釈可能性向上
- 医療画像解析の性能向上は目覚ましいが，分布シフトへの過剰な一般化が臨床応用上の課題。
- 既存のOOD検出手法は，意味が不明瞭な内部信号に依存し，信頼性が低い。
- 概念に基づいた表現の安定性分析により，解釈可能なOOD検出を実現する。
- 提案手法では，スパースオートエンコーダを用いてクラス固有の概念ベクトルを学習。
- 分布内データは概念ベクトルに対する摂動に鈍感であり，分布外データはそれに敏感であることが示された。
- OOD検出を概念条件付き安定性分析として捉え，モデルの不確実性の原因を解釈可能にした。
Link: https://arxiv.org/abs/2606.16196
GRACE：行動中心の根拠付けられた証拠によるビデオMLLMの強化と視聴者の感情予測 [cs.CV]目的：ビデオ広告における視聴者の潜在的な感情反応の推論
- 広告効果測定において，視聴者の感情を正確に把握することは不可欠である。
- 既存のMLLMは，感情推論に必要な微細なイベント情報を捉えきれていない。
- 行動中心の証拠を明示的に提示することで，感情推論の精度向上を目指す。
- 提案手法は，ビデオ内の主語-動詞-目的語の三つ組と視覚的要素を抽出・対応させる。
- これにより，MLLMは感情推論に必要な具体的な視覚的根拠に基づいて判断できるようになる。
- Pittsデータセットにおける実験で，既存モデルを上回る性能が確認された。
Link: https://arxiv.org/abs/2606.16198
一人称視点動画からの変形物体の汎化可能な物理モデル学習：EgoPhys [cs.CV, cs.AI, cs.RO]目的：変形物体の汎化可能な物理モデルの構築
- 人間は日常的な相互作用を通じて物体物理を自然に理解するが，ロボットには困難。
- 弾性材料や布など，複雑な変形ダイナミクスの予測は，コンピュータビジョンとロボティクスの大きな課題。
- 一人称視点動画から，汎化可能な事前知識を用いて変形物体のデジタルツインを生成すること。
- EgoPhysは，コンパクトなコードブックへのオブジェクトごとの逆物理ソリューションの蒸留により，見慣れないオブジェクトに対する密なスプリング剛性場の予測を実現。
- 多様な一人称視点インタラクションで学習したEgoPhysは，再構成，未来予測，ゼロショット汎化においてベースラインを上回る性能を示す。
- EgoPhysを実機ロボットに展開した結果，単一の一人称視点動画から初期化されたデジタルツインが，変形物体計画を支援する内部世界表現として機能することが示された。
Link: https://arxiv.org/abs/2606.16202
外傷後てんかん診断のための動的機能構造混合エキスパートモデル [cs.CV]目的：外傷後てんかんの診断
- 外傷性脳損傷後の重篤な合併症であり，早期発見が重要である。
- 脳の複雑な構造的・機能的変化により，早期の識別は困難である。
- 時間的要素を考慮した機能と構造の融合による診断精度の向上を目指す。
- 提案手法は，静的な融合ベースラインと比較して，一貫して高い性能を示した。
- モダリティ特異的かつクロスモーダルなエキスパートが補完的な表現を学習した。
- 脳の領域間の相互作用を可視化し，解釈可能な診断アプローチを提供した。
Link: https://arxiv.org/abs/2606.16203
LUCID：決定論的フローマッチングを用いた疎視CT再構成のための学習アンダーサンプリング適応一貫性誘導推論 [cs.CL, cs.CV, cs.AI]目的：疎視CT再構成のための，学習に基づくアンダーサンプリング適応一貫性誘導推論手法
- 被ばく線量を削減し，検査時間を短縮できるため，CT検査において疎視法は重要視されている。
- 投影データの取得角度が少ないと，再構成が不安定になり，縞状アーチファクトや構造のぼやけが生じる。
- 特定のサンプリング設定に依存せず，かつ解剖学的に不整合な構造物の生成を抑制する再構成法の開発。
- LUCIDは，高品質なCT画像のみを用いて学習することで，サンプリングパターンに依存しない連続的な変換を学習する。
- 推論時には，サンプリングの疎さを明示的に組み込み，事前学習済みのモデルの生成軌跡を適応させる。
- 実験の結果，様々な疎視設定下で安定した再構成性能を示し，画像品質と構造の忠実性を向上させ，幻覚のような構造物のリスクを低減できることが示された。
Link: https://arxiv.org/abs/2606.16212
構造的ガイダンスの伝播：眼底画像と疎なOCTスキャンからのフルオレセイン血管造影合成 [cs.RO, cs.CV, cs.AI]目的：眼底画像とOCTスキャンを用いたフルオレセイン血管造影画像の合成
- 網膜血管異常の評価にフルオレセイン血管造影が不可欠だが，侵襲的であり実施が難しい場合がある。
- 既存研究は眼底画像のみに依存し，機能的な血管情報や微妙な病理変化の再構成が制限されていた。
- OCTによる構造的ガイダンスを導入し，より高精度なフルオレセイン血管造影合成を目指す。
- 本研究では，眼底画像とOCTスキャンを組み合わせることで，フルオレセイン血管造影画像を合成する新しいフレームワークを提案した。
- 提案手法は，最新の手法と比較して優れた合成性能を示し，下流の疾患診断性能も向上した。
- 本研究は，非侵襲的な診断支援ツールとしての臨床的な可能性を示唆している。
Link: https://arxiv.org/abs/2606.16234
高速なビジュアル・アナグラム合成のための構造・意味共最適化潜在拡散モデル [cs.CV]目的：ビジュアル・アナグラムの高速合成
- 画像生成技術は，芸術表現の可能性を広げ，新たな創造性をもたらす上で重要である。
- 既存手法では，計算コストが高く，美的品質や意味の忠実性に課題が残っている。
- 計算効率を維持しつつ，高品質で意味的に忠実なビジュアル・アナグラムの生成を目指す。
- 提案手法S2CO-Anagramは，既存の最先端手法と比較して，より高解像度で視覚的に調和のとれたアナグラム画像を生成する。
- S2COフレームワークは，ヌルテキスト構造アライメント最適化，意味的強調最適化，アテンション誘導型ノイズ融合の3つの要素から構成される。
- 大幅に高速な推論速度を達成し，イリュージョンのあるデジタルアートの創造を促進する。
Link: https://arxiv.org/abs/2606.16241
ビジョン・言語・行動モデルのための学習型画像圧縮 [cs.DC, cs.OS, cs.CV, cs.AI]目的：ビジョン・言語・行動モデルにおける視覚的通信ボトルネックの軽減
- ロボット制御において，視覚情報は重要な役割を担う。特に，多視点カメラを用いる場合，帯域幅が限られた環境でのリアルタイム制御が課題となる。
- 汎用的な画像・動画コーデックは，制御性能ではなく視覚的忠実度を重視しており，VLAモデルの性能を十分に引き出せていない。
- タスクに関連性の高い視覚情報に重点的にビットレートを割り当てることで，VLAモデルの制御性能を向上させることを目指す。
- 提案手法SPARCは，従来のコーデックや他の学習型圧縮手法と比較して，同じビットレート条件下で，RoboCasa365，VLABench，LIBEROなどのロボットベンチマークで一貫して高い制御性能を発揮する。
- SPARCは，空間的に適応的なレート制御により，カメラ視点や画像内の空間領域ごとに視覚情報の重要度に応じてビットレートを割り当てる。
- 実世界での遠隔制御実験においても，SPARCはビットレートと成功率のトレードオフを大幅に改善し，実用的なメリットを示す。
Link: https://arxiv.org/abs/2606.16253
UniDDT：デカップルド拡散Transformerによるマルチモーダル理解と生成の統合 [cs.CV]目的：マルチモーダル理解と生成の統合
- 汎用的なマルチモーダル知能の実現には，画像とテキストを統合したモデルが不可欠である。
- 既存モデルは，理解と生成タスクの学習競合，異なる視覚空間，タスク固有データへの依存が課題である。
- UniDDTは，これらの課題を解決し，マルチモーダル理解と生成の効率的な統合を目指す。
- UniDDTは，Noisy ViTエンコーダとLLMにより，視覚生成と理解のためのセマンティックエンコーディングを統合した。
- 拡散デコーダを分離することで，テキストデコーディングからの拡散デコーディングを分離し，スケーラビリティと表現力を両立した。
- 画像-テキストペアから二重のデータ構造を構築し，生成と理解データの相互依存性を高めることで，その固有の二重性を活用した。
Link: https://arxiv.org/abs/2606.16255
KeepLoRA++：層スケール残差勾配適応による継続学習 [cs.CV, cs.LG]目的：事前学習済みビジョン言語モデルにおける継続学習の課題解決
- 大規模言語モデルの応用範囲拡大に伴い，継続学習の重要性が高まっている。
- 既存の継続学習手法では，過去知識の保持と新しい知識の獲得のバランスが難しい。
- 層スケール残差勾配適応により，知識の干渉を抑制し，継続学習の性能向上を目指す。
- KeepLoRA++は，Transformerアーキテクチャにおける知識分布を層間および層内から分析した。
- その結果，汎用的な知識は浅い層の主要なパラメータ空間に，タスク固有の適応は深い層の残差空間に局在することが示された。
- 画像分類，VQA，動画理解タスクにおいて，既存手法を上回る性能を達成し，継続学習における3つの目的のバランスを効果的に実現した。
Link: https://arxiv.org/abs/2606.16256
ドメイン特有の事前知識を用いた地震層面追跡のためのコントラスティブ学習 [cs.DC, cs.CV, cs.LG]目的：地震層面追跡における精度向上
- 地震探査は地下資源探査において不可欠であり，層面追跡はその精度が重要である。
- 従来の層面追跡は断層付近での精度が課題であり，教師データ不足も問題となる。
- 信号とテクスチャに基づく手法を融合し，断層を含む層面追跡の精度向上を目指す。
- 信号由来の層面対応を事前知識として活用することで，テクスチャに基づく深層学習モデルの学習を効率化。
- コントラスティブ学習により，局所的な信号の連続性を維持しつつ，断層を越えた層面の伝播を可能にした。
- 公開データセットと合成データセットにおいて，教師なし学習のベースラインや半教師あり学習法と同等以上の性能を達成。
Link: https://arxiv.org/abs/2606.16271
GraphWorld：世界モデルを用いた長期的計画によるエンドツーエンド自動運転 [cs.RO, cs.CV]目的：エンドツーエンド自動運転のための長期的計画
- 自動運転技術の発展は，交通安全の向上や移動の効率化に不可欠である。
- 既存のエンドツーエンド自動運転は，短期的計画に偏っており，複雑な状況下での安全性確保が課題である。
- GraphWorldは，世界モデルを導入し，複雑な環境における長期的かつ安全な計画を実現することを目指す。
- GraphWorldは，エゴ車両中心の相互作用グラフを用いて，周囲の車両との関係性を効率的にモデル化する。
- 潜在的な世界表現を学習することで，車両間の相互作用や安全に関する情報を捉え，長期的計画を誘導する。
- Bench2Drive等の実験により，GraphWorldが衝突率を大幅に低減し，長期的計画性能を向上させることが示された。
Link: https://arxiv.org/abs/2606.16274
RealityBridge：編集可能な3Dガウススプラッティング駆動シミュレーションと実世界ビデオの架け橋 [cs.CV, cs.AI]目的：編集された3Dガウススプラッティング駆動ビデオのシミュレーションと現実のギャップを埋めるためのフレームワーク
- 自動運転の安全性向上には，多様な危険シナリオでの学習が不可欠である。
- 危険シナリオの収集・再現は困難であり，十分な学習データの確保が課題である。
- 3Dガウススプラッティングを用いたシミュレーションの現実感と安定性を向上させる。
- RealityBridgeは，レンダリングされたビデオ，前景マスク，エッジマップ，セマンティックマスクなどのマルチモーダル制御を用いる。
- 軽量なGateNetにより，バックボーン層全体で適応的な条件割り当てを実現する。
- 実験の結果，既存手法と比較して，アーティファクト除去，照明調和，長期的な一貫性において優れていることが示された。
Link: https://arxiv.org/abs/2606.16278
性別に基づくネットワーク固有の結合様式における差異：Krakencoderを用いた解析 [cs.CV, q-bio.NC]目的：脳結合様式の欠損が他 modalities にどのように伝播するかに関する検討
- 脳機能解明において，脳ネットワーク間の相互作用の理解は不可欠である。
- 脳ネットワークの損傷や機能低下が，他のネットワークに及ぼす影響の定量化が課題である。
- ネットワーク除去時の結合様式変化を評価し，性差の存在を明らかにすること。
- デフォルトモードネットワークの除去が最も大きな擾乱を引き起こし，体性運動ネットワークは最も小さい擾乱を示した。
- ネットワーク除去条件下で予測された結合様式による性別識別精度は66.09%であった。
- 完全な入力から予測された結合様式では，性別識別精度は最大84.76%に達し，有意な差が認められた。
Link: https://arxiv.org/abs/2606.16294
VisualClaw：物理世界のためのリアルタイムパーソナライズエージェント [cs.CV, cs.CL]目的：高コストかつ高遅延な動画処理と静的なエージェント構造，そしてツール使用環境での視覚的証拠の活用不足という課題の解決
- マルチモーダルタスクにおいて，ビジョン言語モデルが汎用的なインターフェースとして注目されているため。
- 動画フレームや長いプロンプトの処理における高遅延・高コストが，実用化の大きな障壁となっている。
- エージェントの自己進化機能を導入し，コスト削減と精度向上を図ることで，エッジアプリケーションへの応用を目指す。
- VisualClawは，APIコストを平均98%削減し，多くの設定で精度を向上させた。Gemini 3 Flashを用いたEgoSchemaでは，平均で3.85%，ピークで15.80%の精度向上を実現。
- VisualClawArenaという新しいマルチモーダルエージェントベンチマークを構築し，視覚的証拠，ドキュメント，動的更新，実行可能なチェックを必要とする環境を整備した。
- VisualClawArenaにおいて，自己進化機能により，CodexとClaude Codeの精度がそれぞれ2.9%，3.2%向上し，コストも9.5%削減された。
Link: https://arxiv.org/abs/2606.16295
DDTNet：劣化の分離と転送ネットワークによるテスト時オールインワン気象画像復元 [cs.CV]目的：気象画像復元における劣化パターン分離と転送
- 多様な悪天候下での画像利用が拡大しており，高品質な復元技術の重要性が高まっている。
- 既存手法は複数の劣化に対応するものの，個々の劣化に対して最適とは言えない状況である。
- テストデータと訓練データのドメインギャップを解消し，汎化性能の高い復元モデルを構築すること。
- DDTNetは，ターゲットドメインの劣化画像から劣化パターンを分離し，ソースドメインのクリーン画像に転送することで，ドメイン適応型訓練データを作成する。
- この訓練データを用いて復元モデルをファインチューニングすることで，多様な気象条件やドメインへの適応性を大幅に向上させる。
- 実験結果から，DDTNetは実世界の雨，雪，霞の除去において，既存のオールインワンモデルを大幅かつ一貫して改善することが示された。
Link: https://arxiv.org/abs/2606.16298
センチネル1 SAR画像における説明可能な洪水セグメンテーション：CNNとTransformerアーキテクチャの比較研究 [cs.CV]目的：センチネル1 SAR画像を用いた多クラス洪水セグメンテーション
- 迅速かつ正確な洪水予測は，災害対応と軽減計画に不可欠である。
- SARデータによる全天候型洪水モニタリングは可能だが，洪水域と常時水域の区別が困難である。
- 洪水域と常時水域を明確に分離するセグメンテーションモデルの性能向上を目指す。
- SegFormer-b2はETCIデータセットにおいて，U-Netを大幅に上回る性能を示した（Wilcoxon検定）。
- Sen1Floods11でファインチューニング後，SegFormerの優位性は狭まり，断片的な洪水に集中した。
- SegFormer-b2は洪水関連の特徴に焦点を当てた，より空間的に一貫性のあるGrad-CAM活性化を生成した。
Link: https://arxiv.org/abs/2606.16302
混合整数ゲームは有理数解を持つか？ [cs.GT, math.OC]目的：混合整数線形二次型一般ナッシュ均衡問題における有理数解の存在
- ゲーム理論は，経済学，政治学，生物学など幅広い分野で戦略的意思決定を分析する上で重要である。
- 混合整数ゲームの均衡解の存在や性質は必ずしも明らかではなく，計算困難な場合が多い。
- 本研究は，混合整数ゲームにおいて有理数解が存在するための条件を明確にすることを目的とする。
- 混合整数線形二次型一般ナッシュ均衡問題について，入力データが有理数である場合に有理数解の存在を検討した。
- プレイヤーの戦略に二次項を含まず，相手プレイヤーの戦略に依存しない制約がない線形ゲームのみが有理数解を持つことが示された。
- 残りの３つのクラスにおいては，有理数解を持たない例が存在することが示された。
Link: https://arxiv.org/abs/2606.16311
累積エネルギーフィルタリングに基づく学習不要な疎アテンション [cs.CV]目的：動画生成におけるDiffusion Transformerの高速化
- 動画生成における計算コスト削減が重要視されている。
- 疎アテンションでは，スパース性と精度を両立することが課題。
- 固定のリコール率を維持しつつ，計算コストを削減することを目指す。
- 提案手法は，BLASSTと比較してスパース性を61.42\%から82\%に向上。
- VBench指標の低下は5\%未満に抑えられ，精度劣化を最小限に留めた。
- アテンション計算量を約15\%削減し，計算効率を1.61倍に向上させた。
Link: https://arxiv.org/abs/2606.16317
単一画像からの人間材質推定のためのハイブリッド事前知識に基づく適応的融合（HAFMat） [eess.SY, cs.SY, cs.CL, cs.CV, cs.GR]目的：単一画像からの人間材質推定
- 仮想コンテンツ制作，レライト，デジタルヒューマンレンダリングなど，広範な応用分野を持つ基礎的な外観分解タスクである。
- 単一画像から材質を推定するには，照明，形状，反射率が複雑に絡み合い，問題が高度に不確定となる。
- 異なるレベルの制約を適切に活用し，より正確で物理的に妥当な材質推定を実現すること。
- 提案手法HAFMatは，外観，形状，構造，事前材質予測などの様々な情報を活用したガイダンスマップを導入する。
- マルチレイヤー適応的特徴融合メカニズムにより，テクスチャレベルとセマンティックレベルのガイダンス情報を適切に融合する。
- 合成データおよび実データを用いた実験により，材質推定とレライトにおいて最先端の性能を達成した。
Link: https://arxiv.org/abs/2606.16323
多評価者Few-Shot医療画像セグメンテーションのためのAttentionに基づくプロトタイプ較正 [cs.CV]目的：多評価者Few-Shot医療画像セグメンテーションにおけるプロトタイプ較正
- 医療画像解析の精度向上は，診断支援や治療計画の最適化に不可欠である。
- 臨床データセットでは，専門家間でのアノテーションのばらつきが課題となる。
- 評価者固有のばらつきを考慮したセグメンテーション手法の開発を目指す。
- 提案手法は，プロトタイプ空間で評価者固有のずれをモデル化するAttention機構を導入する。
- この機構は，バックボーン特徴抽出器を変更せずにプロトタイプを洗練させ，既存手法との互換性を維持する。
- 多評価者医療画像データセットでの実験により，提案手法がベースラインを上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2606.16325
自律型AIエージェント向け，ゲーム耐性のある保険契約：戦略的通行料金メカニズム設計 [cs.GT, cs.AI, q-fin.RM]目的：自律型AIエージェントの副作用に対する保険契約のゲーム耐性
- AIエージェントの普及に伴い，その安全性と信頼性確保が重要課題となっている。
- AIエージェントの行動予測が困難なため，保険契約における不正行為のリスクが存在する。
- AIエージェントに対する保険契約における不正行為を防ぎ，安全性を担保するメカニズムの構築。
- 本研究では，AIエージェントが保険契約を不正に利用する5つの攻撃方法を特定し，ゲーム耐性を評価する。
- 新たな契約条項（共通制御集約，インターフェース障害対応，モデルIDメニュー）を導入することで，これらの攻撃を防ぐ。
- 導入した条項と既存のランタイム保証を組み合わせることで，全体的なインセンティブ適合性を実現し，AIエージェントの副作用を制御する。
Link: https://arxiv.org/abs/2606.16326
ArtBoost：音響から発音器官運動への変換における合成発音器官データ拡張 [cs.SD, cs.AI, eess.AS]目的：音響から発音器官運動への変換モデルの性能向上
- 発音器官運動の理解は，音声認識や音声合成の精度向上に不可欠である。
- 発音器官運動データの取得にはコストがかかり，利用可能なデータセットが限られている。
- 限られた発音器官運動データでも，効果的にモデルを学習させることを目指す。
- ArtBoostは，大規模な音声メッシュデータを用いて，発音器官運動データの事前学習を実現する。
- 実験により，ArtBoostは，相関係数（PCC）および二乗平均平方根誤差（RMSE）において，一貫した性能向上を示す。
- 音声メッシュデータが，有効かつスケーラブルな発音器官運動の教師信号となることが示唆された。
Link: https://arxiv.org/abs/2606.16327
不規則な3Dオブジェクトの微分可能なパッキングと適応型コンテナ推定 [cs.CV, cs.GR, cs.LG]目的：不規則な3Dオブジェクトの効率的なパッキングと，それに伴うコンテナサイズの最適化
- 3Dオブジェクトのパッキングは，輸送，保管，製造など，様々な分野で重要である。
- 従来のパッキング手法では，コンテナサイズを固定するか，手動での調整が必要となる場合が多い。
- コンテナサイズとオブジェクトの配置を同時に最適化することで，より効率的なパッキングを可能にすること。
- 提案手法は，オブジェクトの姿勢とコンテナのサイズを同時に最適化する微分可能なフレームワークである。
- 実験の結果，提案手法は既存手法と比較して，11～32％小さいコンテナを実現した。
- また，本手法は高速であり，単一のコンシューマーGPU上で4分以内に処理を完了する。
Link: https://arxiv.org/abs/2606.16333
時間的盲目性：CHRONOSIGHTによるビジョン言語モデルの時間的推論のベンチマーク [cs.CV]目的：ビジョン言語モデルにおける視覚的時間的推論能力の評価
- 視覚シーンの理解には時間的要素が不可欠であり，現実世界での知覚に重要である。
- 大規模ビジョン言語モデルが，このような時間的な情報をどの程度理解しているかは未解明である。
- 時間的推論能力の評価を通じて，モデルの限界を明らかにし，改善の方向性を示す。
- 新たに構築したCHRONOSIGHTベンチマークを用いて，8つのオープンソースVLMsの時間的推論能力を評価した。
- 最も高性能なモデル(Qwen2.5-VL-7B)でも，人間の平均性能(0.89)には大きく及ばず，「時間的盲目性」が確認された。
- 少量データでのLoRAファインチューニングにより，特定のタスク(CHRONODELTA)の精度が向上し，他のタスクへの転移も示唆された。
Link: https://arxiv.org/abs/2606.16334
過去が重要となるとき：降水ナウキャストのためのフラッシュバックメモリ [cs.CV]目的：降水ナウキャストの精度向上
- 防災や社会経済計画において，正確な降水予測は不可欠である。
- 既存手法は，誤報や見逃し，高空間・時間分解能での長距離依存性のモデリングに課題がある。
- 高強度降雨や長期間予測における精度向上，誤報・見逃しの低減を目指す。
- 提案手法FlashBack Memory (FB) は，既存の再帰型モデルの空間・時間表現能力を向上させる。
- CIKM2017，Shanghai2020，SEVIRデータセットにおいて，MSE，MAE，SSIM，CSIなどの評価指標が大幅に改善された。
- FBは，時間的な一貫性と空間的な局所性を高め，汎用的かつ効率的なメモリ強化メカニズムを提供する。
Link: https://arxiv.org/abs/2606.16342
ストリーミング動画モデルは何を記憶すべきか [cs.CV, cs.AI]目的：ストリーミング動画理解における，限られたメモリと計算資源下でのクエリ応答能力の向上
- 動画コンテンツの利用拡大に伴い，動画理解技術の重要性が増している。
- 既存手法では，過去の情報を効果的に利用できず，現在のシーン認識が損なわれる場合がある。
- 限られたメモリ資源を，クエリに応じて選択的に活用するメカニズムの開発。
- 提案手法SelectStreamは，固定されたVLMに対し，クエリに応じて過去情報を選択的に提供する。
- SelectStreamは，StreamingBenchで82.67%，OVO-Benchで67.03%という高いオンラインストリーミング性能を達成した。
- オフライン動画ベンチマークでも高い精度を示し，既存手法を上回る性能を証明した。
Link: https://arxiv.org/abs/2606.16353
GraphBEV++：自動運転のための多Modal特徴量アライメント [cs.CV]目的：LiDARとカメラセンサー間の較正不確かさに起因するBEV知覚における特徴量位置ずれの軽減
- 自動運転は社会にとって重要な技術であり，安全性と効率性の向上が期待されている。
- LiDARとカメラの較正誤差により，BEV知覚において特徴量位置ずれが発生し，性能低下の要因となる。
- LiDARとカメラの多Modal情報を効果的に融合し，位置ずれを修正することで，より正確な知覚を実現する。
- GraphBEV++は，LocalAlign-v2とGlobalAlign-v2の2つのモジュールを用いて位置ずれを体系的に軽減する。
- nuScenesやWaymoデータセットにおいて，位置ずれノイズ下で最先端の性能を達成し，Argoverse2における長距離検出性能も向上した。
- 知覚，予測，計画のタスクにおいて，既存手法と比較して優れた性能を示し，エンドツーエンドの自動運転における問題解決に貢献する。
Link: https://arxiv.org/abs/2606.16354
低高度ワイヤレスネットワークにおける群れ軌道計画のためのゲーム理論的マルチエージェント強化学習 [cs.GT]目的：低高度ワイヤレスネットワークにおける群れ軌道計画
- 低高度経済圏の拡大に伴い，多数のUAVを活用するワイヤレスネットワークの重要性が増している。
- 既存研究では，UAV間の戦略的結合や多基地局環境における混雑の影響が考慮されていない。
- 基地局の無線リソースの混雑を考慮した，多基地局環境下でのUAV軌道計画問題を解決する。
- 提案手法は，集約的なユーティリティとミッション成功率において，QMIXや独立Q学習などのベースラインを上回る性能を示した。
- 本研究で提案するCTDE-MAPPOアルゴリズムは，実用的な学習予算内で安定した収束を実現する。
- 本手法は，通信スループットとミッション完了効率を同時に最適化することで，UAVのミッション成功に貢献する。
Link: https://arxiv.org/abs/2606.16386
相関値を持つ第一価格オークションにおけるナッシュ均衡の推定に関する実証研究 [cs.GT]目的：相関値を持つ第一価格オークションにおけるナッシュ均衡の推定
- オークション理論は，資源配分や競争メカニズムの設計において重要な役割を果たす。
- 入札者の評価値が独立でない場合，既存の均衡計算手法は適用が困難である。
- 相関値を持つ第一価格オークションにおけるナッシュ均衡の効率的な推定方法を確立する。
- フィクティヴ・プレイ法は，広範な事例においてε-均衡への数値収束が良好であった。
- [39]の知見を相関設定に拡張することができた。
- 第一価格オークションにおけるフィクティヴ・プレイ法の性質に関するさらなる調査が必要である。
Link: https://arxiv.org/abs/2606.16389