arXiv雑要約

画像・音声 - 2026/05/04 公開

グラフ拡散のための情報幾何学的適応サンプリング [stat.CO, cs.DC, cs.MM, stat.ML, cs.CV, cs.LG]目的：グラフ拡散モデルにおけるサンプリング戦略
- 複雑なグラフ構造の生成は，創薬やソーシャルネットワーク分析等，多岐にわたる分野で重要である。
- 従来の拡散モデルは均一な時間ステップを用いるため，分布の変化が非均一な多様体上では効率が低下する。
- 情報幾何学に基づき，分布の変化率を考慮した適応サンプリングにより，生成効率と構造の忠実性を向上させる。
- 本研究では，サンプリング軌跡をリーマン多様体上の曲線と捉え，Fisher-Rao計量に基づく Drift Variation Score (DVS) を導入した。
- DVS は，統計多様体上での情報速度を一定に保つことで，各離散化ステップが均等に情報速度に寄与するよう制御する。
- 分子やソーシャルネットワークの生成実験により，DVS が構造の忠実性とサンプリング効率を大幅に改善することが示された。
Link: https://arxiv.org/abs/2605.00250
Macaulay2における消去テンプレート [math.AC, cs.CV, cs.MS]目的：代数的に独立なパラメータを持つ零次元根基イデアルの族に対する自動ソルバーの構築
- 計算代数における問題解決の自動化が求められており，効率的なアルゴリズムが重要である。
- パラメータ付きイデアルの族に対する求解は計算コストが高く，汎用的な手法が課題である。
- 消去テンプレートを用いることで，そのようなイデアル族の求解を効率化することを目指す。
- Macaulay2用のパッケージ「EliminationTemplates」を導入し，消去テンプレートの構成を記述した。
- このパッケージは，パラメータ付き零次元根基イデアルの族に対する自動ソルバー構築を支援する。
- コンピュータビジョンなどへの応用例も示し，その有効性を確認した。
Link: https://arxiv.org/abs/2605.00278
勾配適応忠実度を持つ結合辞書展開ネットワークによる転移可能な多ソース融合 [stat.ME, cs.PF, cs.SY, eess.SY, eess.IV, cs.CV]目的：多ソース画像融合のための，軽量な結合辞書展開ネットワーク
- 画像融合は，異なるセンサーからの情報を統合し，より包括的な理解を可能にする重要な技術である。
- 既存の深層展開画像融合法は計算コストが高く，リソースに制約のあるデバイスでの利用が難しい。
- 本研究は，効率的な特徴学習と計算コスト削減を目指し，新しい融合アーキテクチャを提案する。
- CDNetは，既存手法と同等またはそれ以上の融合性能を高い効率で達成する。
- 赤外線・可視画像融合において，TNOデータセットでPSNRが1.23dB，RoadSceneデータセットで1.59dB向上した。
- 提案手法は，ハイ・ロー周波数画像忠実度損失により，教師なし学習が可能である。
Link: https://arxiv.org/abs/2605.00461
高速リサージュ共焦点レーザー内視鏡法におけるマルチフレーム復元 [eess.IV, cs.CV, cs.LG]目的：高速リサージュ共焦点レーザー内視鏡法における画像復元
- 生体組織の迅速な光学生検が求められており，携帯型内視鏡の重要性が高まっている。
- 高速スキャンに伴い，リサージュ走査で未訪問ピクセルが構造的な穴として残るという課題がある。
- リサージュ走査の欠点を克服し，高品質な画像再構成を実現することを目指している。
- 本研究で開発したMIRAは，軽量でありながら，時間的コンテキストを効果的に活用することで，既存手法よりも高い復元品質を達成した。
- MIRAは，特徴再利用と変位整合により，リサージュ共焦点レーザー内視鏡法における画像復元性能を向上させた。
- 計算効率も高く，臨床応用への展開が期待できる。
Link: https://arxiv.org/abs/2605.00527
戦略的な情報共有における集団パフォーマンスに対する最適なネットワーク構造 [physics.soc-ph, cs.GT]目的：集団推定タスクにおける個人の行動ダイナミクス
- 集団タスクのパフォーマンス向上には個人間の情報共有が不可欠である。
- 競争環境下では，情報共有への消極的な姿勢がパフォーマンス低下の要因となる。
- 戦略的な行動が集団パフォーマンスに及ぼす影響を明らかにすること。
- 進化ゲームモデルを用いて，ネットワーク構造と集団パフォーマンスの関係を分析した。
- 最適なネットワーク構造は，情報共有率と情報統合方法のトレードオフによって決まることが示された。
- 各ネットワークタイプにおいて，集団パフォーマンスを最大化する中間的な平均次数が存在することが判明した。
Link: https://arxiv.org/abs/2605.00758
知覚的注意ネットワークを用いたリアル臨床低線量肝CTの教師なしノイズ除去 [eess.IV, cs.AI, cs.CV]目的：低線量CT画像のノイズ除去
- 医療画像処理は臨床研究を支援する上で不可欠であり，深層学習の発展により精度向上が期待されている。
- 低線量CTは被ばく量を減らせる一方，ノイズが増加し，医師の診断を妨げる可能性がある。
- 教師なし学習により，臨床データの直接利用が困難な問題を解決し，ノイズ除去性能を向上させる。
- 提案手法は，U-Net構造，注意機構，残差ネットワークを組み合わせた，エンドツーエンドの教師なしフレームワークである。
- 知覚的損失を導入することで，医療画像の特徴を考慮したノイズ除去を実現している。
- 実験結果は，画像ベースの評価指標と医療評価基準の両方において，良好な性能を示し，臨床ニーズを満たすことが確認された。
Link: https://arxiv.org/abs/2605.00793
離散コサイン変換に基づく非相関注意機構：ViT向け [cs.CV, cs.LG, eess.SP]目的：Vision Transformerにおける効率性と性能の向上
- Transformerは画像認識で高い性能を示すが，計算コストが大きい。
- 自己注意機構の学習は，初期化が難しく，計算資源を消費する。
- 離散コサイン変換を用いて，初期化と圧縮による効率化を目指す。
- 離散コサイン変換に基づいた初期化により，CIFAR-10とImageNet-1Kで分類精度が向上した。
- 高周波成分の切り捨てによる圧縮により，計算コストを削減しつつ，同等の性能を維持した。
- 提案手法はSwin Transformerモデルにおいても有効であることが示された。
Link: https://arxiv.org/abs/2405.13901
CollaFuse：協調拡散モデル [cs.LG, cs.AI, cs.CV]目的：分散型協調拡散モデルのトレーニング
- 生成AI分野において，拡散モデルは高品質な画像生成に有効である。
- データ不足，計算コスト，プライバシー保護が課題となっている。
- クライアントの負担を軽減し，効率的な分散学習を実現すること。
- 提案手法CollaFuseは，スプリットラーニングに着想を得た分散型協調学習アプローチである。
- CelebA，CIFAR-10，Animals-with-Attributes2データセットで性能向上と情報漏洩の抑制を実証した。
- エッジコンピューティング等の応用展開に貢献する。
Link: https://arxiv.org/abs/2406.14429
Mercari検索における画像スコア：人間の嗜好の学習と評価 [cs.CL, cs.CV]目的：Mercari検索における人間の画像嗜好の学習と評価
- ECサイトにおける検索は，顧客が商品を効率的に見つける上で不可欠であり，売上向上に直結する。
- 画像の質は購買意欲に影響するが，質の評価にはコストがかかり，大規模なデータ収集が課題となる。
- LLMを活用し，低コストでECサイトにおける画像品質の評価と予測を可能にすることを目指す。
- Chain-of-Thought (CoT) を用いたLLMによる画像美しさラベルが，ECにおける人間の行動と相関することが示された。
- LLMによるラベル付けは，人手による判断よりもコスト効率が良く，画像品質評価の解釈可能性を向上させる。
- オンライン実験の結果，提案手法を導入することで，Webプラットフォームにおける売上が有意に増加した。
Link: https://arxiv.org/abs/2408.11349
PPLLaVA：プロンプト誘導による多様な動画シーケンス理解 [cs.CV]目的：動画内容の冗長性を抑制し，効率的な動画理解
- 動画ベースのLLMは急速に進歩しているが，計算コストが課題となっている。
- 動画内の冗長性が高く，大量の視覚トークンを処理する効率が悪い。
- プロンプト誘導によるプーリング戦略でトークン圧縮率を向上させ，推論速度を改善する。
- PPLLaVAは，最大18倍のトークン削減を達成しつつ，高い性能を維持している。
- 画像から動画へのタスク（キャプション生成やQA）から，長編動画の推論まで，多様なベンチマークで最先端の結果を達成した。
- ユーザー指示に基づいた関心領域の特定と適応的なプーリング機構が，効率的な動画理解を可能にしている。
Link: https://arxiv.org/abs/2411.02327
ローカル学習，グローバル修正：ノイズラベルを持つ連合学習のためのグローバル修正器 [cs.LG, cs.CV]目的：連合学習におけるノイズラベル問題のロバスト性向上
- 連合学習はデータプライバシー保護に貢献するが，現実的なデータ品質が性能に影響する。
- 連合学習では，クライアント間でラベルノイズの種類や割合，データ分布が異なり，問題が悪化する。
- グローバルモデルのノイズラベルに対する緩やかな記憶特性を活用し，ラベルノイズの修正とローカル学習の正則化を行う。
- 提案手法FedGRは，3つのモジュールによりノイズラベルを修正し，ローカル学習を正則化する。
- FedGRは，既存の最先端手法と比較して，厳しいノイズラベル環境下やデータ異質性下でも優れた性能を示す。
- FedGRは，自己完結型のアプローチにより，連合学習のラベルノイズに対するロバスト性を向上させる。
Link: https://arxiv.org/abs/2412.00452
両眼視野画像を用いた高近視診断のためのコプラ強化Vision Transformer [cs.CV, math.ST, stat.AP, stat.ME, stat.TH]目的：両眼の高近視状態の共同診断と軸長予測
- AIによる近視スクリーニングの進歩に伴い，両眼の情報統合が重要視されている。
- 両眼画像の非対称性を捉え，画像情報から混合型多変量応答をモデル化することが困難である。
- コプラを用いて両眼の類似性と異質性を同時に捉え，高精度な診断と予測を目指す。
- Vision TransformerにResidual Adapterを導入することで，両眼画像の特性を効果的に捉えることができた。
- 4次元コプラ損失関数とfMCEMアルゴリズムにより，コプラパラメータの安定的な推定を実現した。
- 実データと合成データを用いた実験により，分類と回帰の両タスクで予測性能の向上が確認された。
Link: https://arxiv.org/abs/2501.06540
異質なエージェントが存在する市場：ベイズ学習者と後悔回避学習者のダイナミクスと生存 [cs.GT, cs.AI, cs.MA, econ.TH]目的：資産市場における異質な学習エージェントのパフォーマンス
- 経済学において，市場参加者の行動様式を理解することは，効率的な市場メカニズムの設計に不可欠である。
- ベイズ学習と後悔回避学習のどちらがより有効か，その条件が明確でなかった。
- 市場選択における後悔の役割を明らかにし，ロバストな学習戦略を提案すること。
- 後悔最小化が市場選択において重要な役割を果たすが，低い後悔だけでは生存は保証されないことが示された。
- ベイズ学習は脆弱であり，後悔回避学習は環境知識の要求が少なく，よりロバストであることが示された。
- ベイズ更新を取り入れつつ，ロバスト性と適応性を向上させるハイブリッド戦略が提案された。
Link: https://arxiv.org/abs/2502.08597
拡散モデルは秘密裏にゼロショット3DGS調和器である [cs.CV]目的：3DGSシーンへのオブジェクト挿入の一貫性確保
- 3Dコンピュータビジョンは，現実世界の理解と再現に不可欠であり，多様な応用を可能にする。
- 3DGSによるオブジェクト挿入において，オブジェクトとシーンの照明の一致が課題である。
- 拡散モデルの潜在能力を利用し，照明や影の一貫性を保ちながらオブジェクトを自然に挿入すること。
- 拡散モデルが，大規模な現実世界データセットから正しいシーン照明を暗黙的に学習していることを明らかにした。
- 拡散ベースのDelta Denoising Score (DDS)に着想を得た目的関数を用いて，オブジェクトの3D Gaussianパラメータを最適化し，照明補正を行った。
- 提案手法は，既存手法と比較して，照明品質で2.0 dB PSNRの改善を達成した。
Link: https://arxiv.org/abs/2503.06740
大規模言語モデルと人間の選好の整合性：コンドッセのパラドックスからナッシュ均衡へ [cs.GT, cs.LG, econ.TH, math.ST, stat.ML, stat.TH]目的：大規模言語モデルと人間の選好の整合性に関する統計的限界
- 意思決定における公平性確保のため，人間の多様な選好とLLMの整合性は重要である。
- 報酬に基づく手法では，人間の選好の循環（コンドッセのパラドックス）が整合性の妨げとなる。
- ナッシュ学習のような報酬を用いないアプローチでの整合性の可能性を検討する。
- 人間の選好がLLM生成の応答間でコンドッセのサイクルを含まない場合に限り，報酬モデルで表現可能であることが示された。
- ルーモデル下では，コンドッセサイクルが指数関数的に高確率で発生し，報酬ベースでの完全な整合性の不可能性が示された。
- 少数意見の選好を明示的な正則化なしで維持するための統計的な可能性がルーモデル下で示された。
Link: https://arxiv.org/abs/2503.10990
スライスされたWasserstein距離によるガイダンスを用いた色条件付き生成 [cs.CV]目的：参照画像の色の分布に基づく画像生成
- 画像生成技術は，多様なコンテンツ作成において重要な役割を担う。
- 既存手法では，色を固定した画像生成において意味のある色を維持することが困難である。
- 参照画像の色の分布を考慮し，意味的に一貫性のある色条件付き画像を生成すること。
- 提案手法SW-Guidanceは，拡散モデルのサンプリング過程を修正することで，色の分布を制御する。
- スライスされた1-Wasserstein距離を用いることで，参照パレットとの色類似性を高める。
- 生成された画像は，参照色に一致しつつ，元のテキストプロンプトとの意味的な一貫性を維持する。
Link: https://arxiv.org/abs/2503.19034
イベントベースの土木インフラ目視欠陥検出：ev-CIVILデータセットとベンチマーク [cs.CV]目的：土木インフラにおける目視欠陥検出のためのイベントベースデータセットの構築と評価
- 土木インフラの老朽化が進み，定期的な点検の効率化と安全性確保が重要となっている。
- 従来のカメラでは，低照度や動的環境下での欠陥検出に課題があり，精度が低下しやすい。
- イベントカメラの特性を生かし，よりロバストな土木インフラ欠陥検出手法を確立することを目指す。
- イベントベースのデータセットev-CIVILを構築し，ひび割れと剥離の検出に特化したデータを提供した。
- DAVIS346カメラを用いて，現場と実験室の両方でデータを収集し，多様な環境への対応を可能にした。
- ４つのリアルタイム物体検出モデルを用いた評価により，イベントカメラによる土木インフラ欠陥検出の有効性を実証した。
Link: https://arxiv.org/abs/2504.05679
拡散駆動によるトレーニング不要モデル反転を用いた顔認識プライバシー侵害：DiffMI [cs.CR, cs.CV, cs.LG]目的：顔認識モデルからの個人情報復元
- 顔認識技術は，個人を特定する生体情報を用いるため，プライバシー侵害リスクが高い。
- 既存の手法は計算コストが高く，汎用性に乏しい場合がある。特に，ターゲット特有の学習が必要なものは課題が多い。
- 拡散モデルを用いて，学習不要で顔画像から個人情報を復元する効率的な攻撃手法を開発する。
- 提案手法DiffMIは，従来のGANベースの手法と比較して，攻撃成功率が4.01%〜9.82%向上した。
- DiffMIは，学習に依存せず，未知のターゲットに対しても高い適応性を示す。
- 本手法は，プライバシー保護機能を強化したシステムに対しても，84.42%〜92.87%の成功率を達成した。
Link: https://arxiv.org/abs/2504.18015
航空レーザー計測点群のセマンティックセグメンテーションのための継続的テスト時適応APCoTTA [cs.CV]目的：航空レーザー計測点群のセマンティックセグメンテーションにおける継続的テスト時適応手法の開発
- 大規模3Dシーン理解の基礎技術であり，都市計画や災害対策等，幅広い分野で活用が期待される。
- 環境やセンサーの変化によるドメインシフトが常に発生し，実環境でのモデル性能が劣化しやすい。
- ドメインシフトに対する頑健性を高め，継続的な学習によって性能低下を防ぐことを目指す。
- 提案手法APCoTTAは，低信頼度層の選択的更新と安定層の固定により，知識の忘却を防ぎ，適応性能を向上させる。
- エントロピーに基づく整合性損失関数により，信頼性の低いサンプルを除外することで，エラーの蓄積を抑制し，適応の安定性を高める。
- ISPRSCとH3DCという2つのベンチマークデータセットを構築し，航空レーザー計測点群セグメンテーションにおける継続的テスト時適応の評価を促進する。
Link: https://arxiv.org/abs/2505.09971
シェルとロッドにおける浸透のない固体流体相互作用 [cs.GR]目的：薄い弾性固体と流体の相互作用シミュレーション手法
- 流体と固体の相互作用は，物理シミュレーションの重要な課題であり，現実世界の多くの現象を再現する上で不可欠である。
- 従来のシミュレーション手法では，流体と固体の浸透問題が発生しやすく，シミュレーションの安定性や精度を損なうことがある。
- 位置制約を明示的に解決することで，浸透を防ぎ，流体と固体の相互作用をよりロバストにシミュレーションすること。
- 本研究では，最適化システムとバリアを用いて，流体と固体の浸透を防止する新しい手法を提案した。
- この手法は，流体の非圧縮性と固体の弾性ポテンシャルを最小化しながら，浸透がない状態を探索する。
- シェルやロッドといった低次元物体と流体の相互作用を，トポロジー変化，跳ね返り，水しぶきなど，幅広いプロセスにおいてロバストにシミュレーションすることができた。
Link: https://arxiv.org/abs/2505.12539
Sparse VideoGen2：意味に基づいた置換による疎な注意メカニズムを用いたビデオ生成の高速化 [cs.CV]目的：ビデオ生成における計算効率と品質のトレードオフの最適化
- ビデオ生成技術は，コンテンツ制作やエンターテイメント分野において重要性が増している。
- 拡散Transformerは高性能だが，注意メカニズムの計算コストが高く，遅延が課題となっている。
- 意味に基づいたトークンの置換により，計算効率を損なわずに生成品質を向上させる。
- 提案手法SVG2は，意味に基づいた置換により重要なトークンを効率的に識別し，計算コストを削減する。
- HunyuanVideoデータセットで最大2.30倍，Wan 2.1データセットで最大1.89倍の高速化を達成し，画質を維持した。
- 動的バジェット制御とカスタムカーネル実装により，さらなる効率化を実現している。
Link: https://arxiv.org/abs/2505.18875
胸部X線VLLMにおけるテスト時スケーリングのための思考グラフ探索 [cs.CV]目的：胸部X線レポート生成におけるVLLMの推論性能向上
- 医療画像診断支援において，VLLMの活用が期待されており，その性能向上が重要である。
- VLLMは学習データに偏りがあり，複雑な症例において適切な推論が困難な場合がある。
- テスト時スケーリングにより，追加学習なしでVLLMの推論能力を向上させることを目指す。
- 提案手法である思考グラフ探索(TGT)フレームワークは，臓器ごとの所見を医学的に整合性のとれた順序で分析することを可能にする。
- 推論予算強制戦略を組み合わせることで，凍結された放射線科VLLMが自己修正し，より正確で一貫性のあるレポートを生成する。
- 標準ベンチマークにおいて既存手法を上回り，推論経路の追跡によりデータセットの偏りを明らかにした。
Link: https://arxiv.org/abs/2506.11989
VGR：視覚的根拠に基づいた推論 [cs.CV, cs.AI, cs.CL]目的：マルチモーダル思考連鎖における推論能力の向上
- 画像とテキストを組み合わせた推論は，人間のように複雑な問題を解決する上で重要である。
- 既存の手法は言語に偏りやすく，詳細な画像理解を必要とするタスクへの応用が難しい。
- 視覚的情報を活用し，画像の詳細な理解に基づく推論能力を高めることを目指す。
- VGRは，問題解決に役立つ可能性のある領域を検出し，その領域を再提示することで，より正確な回答を導き出す。
- 大規模なVGR-SFTデータセットを用いてモデルを微調整し，視覚と言語の連携を強化した。
- MMStar，AI2D，ChartQAといったマルチモーダルベンチマークにおいて，大幅な性能向上を達成した。
Link: https://arxiv.org/abs/2506.11991
GPT-4oは視覚をどれだけ理解するか：標準的なコンピュータビジョンタスクにおけるマルチモーダル基盤モデルの評価 [cs.CV, cs.AI, cs.LG]目的：マルチモーダル基盤モデルの視覚理解能力の評価
- 画像とテキストを統合するマルチモーダルAIは，多様な応用分野で注目されている。
- 既存のモデルはテキスト出力に特化しており，セグメンテーションや3D幾何学など多様な視覚情報の表現が困難である。
- プロンプト連鎖によるテキスト変換を通して，API経由でアクセス可能なモデルの評価枠組みを構築する。
- マルチモーダル基盤モデルは，どのタスクにおいても専門的なモデルの性能には及ばない。
- GPT-4oは，推論能力を持たないモデルの中で最も優れた性能を示し，6つのタスクのうち4つで1位を獲得した。
- 最新のGPT-4oなどの画像生成機能を備えたモデルは，幻覚や入力と出力の不一致といった課題を抱えている。
Link: https://arxiv.org/abs/2507.01955
反復的・手動指示を用いた大規模VLMの適応による生成低照度画像強調 [cs.CV]目的：生成低照度画像強調のための大規模ビジョン言語モデルの適応
- 低照度画像強調は，暗い環境下での視覚情報を回復し，多様な応用分野で重要である。
- 既存手法は，正常光画像からの意味的ガイダンスを無視しており，複雑な照明条件下で性能が制限される。
- 意味的情報に基づいた高精度な低照度画像強調を実現し，より自然で詳細な結果を得ることを目指す。
- 提案手法VLM-IMIは，正常光画像の指示を組み込むことで，意味的に情報に基づいた復元を可能にする。
- 拡散プロセスにおいて，正常光からの指示を組み込むことで，精密な照明強調を実現する。
- 実験結果から，VLM-IMIは最先端手法と比較して，知覚的な品質とリアリズムにおいて優れた性能を示す。
Link: https://arxiv.org/abs/2507.18064
拡散モデルによる逆問題解決：段階的ガイダンスを用いた事後サンプリング [cs.LG, cs.CV]目的：逆問題解決のための拡散モデルの新しい枠組み
- 高次元分布からのサンプリングは，画像処理や機械学習を含む様々な分野で重要である。
- 逆問題解決は，観測データから原因を推定する難題であり，効率的な解決策が求められている。
- 異なるノイズレベルで最適な近似を用いることで，計算効率と精度を両立する手法を開発する。
- 提案手法は，画像補完と超解像において，既存のPseudoinverse-Guided Diffusion Model (PiGDM)と比較して，推論時間をそれぞれ25%，23%，24%短縮した。
- PSNRとSSIMのわずかな低下を伴いながら，この性能向上を実現した。
- 本手法は問題に依存せず，様々な逆問題に容易に適用可能である。
Link: https://arxiv.org/abs/2507.18654
スロットアテンション反復と再帰の平滑化 [cs.ET, quant-ph, cs.CL, cs.CV]目的：オブジェクト中心学習におけるスロットアテンションの反復と再帰の性能向上
- 画像や動画からオブジェクト単位での表現を獲得するオブジェクト中心学習は，様々な応用が期待される分野である。
- スロットアテンションは初期クエリがサンプル固有の情報に乏しいため，最初のフレームでの集約精度が課題であった。
- 最初のフレームとそれ以降のフレームで異なる集約変換を適用し，スロットアテンションの反復と再帰を平滑化することで精度向上を目指す。
- 提案手法SmoothSAでは，入力特徴情報を初期クエリに注入することで，最初のフレームでの集約精度を向上させている。
- 動画におけるフレーム間の再帰処理において，反復回数を調整することで，フレーム間の集約変換の違いを考慮している。
- オブジェクト検出，認識，視覚的推論といった複数のタスクで，提案手法の有効性が検証されている。
Link: https://arxiv.org/abs/2508.05417
InterChart：分解・分散された図表情報の視覚的推論のベンチマーク [cs.CL, cs.AI, cs.CV]目的：複数関連図表にわたる視覚的推論能力の評価
- 科学報告，金融分析，政策ダッシュボードなど，現実世界への応用において重要な能力である。
- 既存のベンチマークは単一の図表に焦点を当てており，複数図表間の統合推論の評価が不足している。
- 複雑な図表間の推論におけるモデルの限界を明らかにし，マルチモーダル推論の進展に貢献する。
- 最先端のVLMの評価において，図表の複雑性が増すにつれて精度が著しく低下することが示された。
- 複数要素を含む図表を単純な視覚単位に分解することで，モデルの性能が向上することが確認された。
- InterChartは，複雑なマルチビジュアル環境におけるマルチモーダル推論を前進させるための厳格なフレームワークを提供する。
Link: https://arxiv.org/abs/2508.07630
火災出口領域における喫煙自動検知のための深層学習ベースCCTVシステム [cs.CV, cs.LG]目的：火災出口領域における喫煙の自動検知
- 公共の安全確保は重要であり，喫煙による火災リスクを低減する必要がある。
- 従来の監視システムでは，低照度環境下での喫煙検知が困難であった。
- 本研究は，様々な環境下で喫煙を正確に検知できるシステムの開発を目指す。
- 提案システムは，YOLOv8，YOLOv11，YOLOv12を含む既存モデルを上回り，高い検知性能を示した。
- 特に，再現率78.90%およびmAP@50で83.70%を達成し，多様な環境下でのオブジェクト検出において最適性能を発揮した。
- Jetson Xavier NXを用いた評価では，52〜97ミリ秒/推論で処理が可能であり，リアルタイム処理に適していることが示された。
Link: https://arxiv.org/abs/2508.11696
入力劣化に対する物体検出の量子化ロバスト性 [cs.CV]目的：物体検出における量子化の入力劣化に対するロバスト性の評価
- 省電力デバイスでの利用のため，モデルの効率化が重要視されている。
- 量子化による精度低下が，現実世界の入力劣化に対するロバスト性に影響する。
- 量子化時のキャリブレーション戦略を改善し，入力劣化に対するロバスト性を高める。
- 静的INT8量子化は，精度小幅低下（~3-7% mAP50-95）と引き換えに，処理速度を大幅に向上させる（~1.5-3.3倍）。
- 劣化を考慮したキャリブレーションは，多くのモデル・劣化条件において一貫したロバスト性向上には繋がなかった。
- ただし，特定のノイズ条件下では，大規模モデルにおいて効果が見られ，モデルの容量が影響する可能性が示唆された。
Link: https://arxiv.org/abs/2508.19600
ディープフェイク：「本物」の画像の概念を再考する必要性 [cs.RO, cs.CV]目的：画像の「本物」の概念の再検討と，それに基づく研究の方向性
- 画像生成技術の発展は，犯罪や社会への悪影響といった懸念を生んでいる。
- 既存の研究は生成アルゴリズムと「偽」の画像に焦点を当てすぎており，「本物」の画像の定義とデータ収集が不十分である。
- 今日のスマートフォンで撮影される画像の特性を踏まえ，「本物」の画像の概念を再定義し，新たなベンチマークデータセットの必要性を提起する。
- 現代の画像生成モデルの普及により，ディープフェイクなどの偽造画像が容易に作成可能となっている。
- 現在の偽造画像検出手法は，ImageNetのような古い低解像度データセットに依存しており，近年のスマートフォンによる画像取得技術の進化を考慮していない。
- スマートフォンの画像処理アルゴリズムと画像生成アルゴリズムの類似性から，「本物」の画像の定義を再考する必要がある。
Link: https://arxiv.org/abs/2509.21864
FreeRet：追加学習なしの検索器としてのマルチモーダル大規模言語モデル [cs.CV]目的：マルチモーダル大規模言語モデルを検索器として利用する手法
- マルチモーダルデータ利用の重要性が高まる中で，効率的な検索技術が不可欠である。
- 既存手法は，検索性能向上のため，多量の追加学習を必要とする場合が多い。
- 追加学習なしに，マルチモーダル大規模言語モデルの潜在能力を最大限に活用すること。
- 提案手法FreeRetは，既存のマルチモーダル大規模言語モデルを検索器として機能させるためのフレームワークである。
- FreeRetは，高速な候補検索と精密な再ランク付けの2段階で検索を行い，既存モデルを大幅に上回る性能を示す。
- 本研究は，事前学習済みのマルチモーダル大規模言語モデルが，追加学習なしに強力な検索エンジンとして機能することを示す。
Link: https://arxiv.org/abs/2509.24621
間接報酬によるゼロショット地理空間推論の解禁 [cs.CV, cs.AI, cs.LG]目的：ゼロショット地理空間推論の実現
- 地理空間データは重要性が増しているが，学習データの不足が課題。
- 地理空間分野では，タスク固有のラベル付けデータの取得が困難。
- メタデータに基づく間接報酬で，地理空間推論を学習する。
- 間接報酬を用いることで，多様なタスクにおいて汎化性能の高い地理空間推論が可能になった。
- 提案手法Geo-R1は，既存の専門モデルを上回るゼロショット性能を示した。
- 大量のラベルなしデータを用いて，汎用的な推論能力を獲得できる可能性を示唆している。
Link: https://arxiv.org/abs/2510.00072
ClustViT：セマンティックセグメンテーションのためのクラスタリングに基づくトークンマージ [cs.CV]目的：セマンティックセグメンテーションにおけるトークンマージ手法
- ロボティクス等の実世界への応用において，高精度な画像認識が不可欠である。
- Vision Transformerは計算コストが高く，実用的なロボットシステムへの実装が課題となっていた。
- 計算コストを削減しつつ，セグメンテーション精度を維持することが本研究の目的である。
- 提案手法ClustViTは，トークンをクラスタリングによりマージすることで，GFLOPsを最大2.18倍削減。
- 推論速度を最大1.64倍向上させながら，セグメンテーション精度を維持することに成功。
- 疑似クラスタを用いたトークンマージと，詳細復元モジュールがこの結果に貢献している。
Link: https://arxiv.org/abs/2510.01948
インスタンス認識型擬似ラベリングとクラス集中型対照学習による電子顕微鏡画像の弱学習ドメイン適応セグメンテーション [cs.CL, cs.CV]目的：電子顕微鏡画像におけるミトコンドリアインスタンスのセグメンテーション精度向上
- 生物学や神経科学研究において，多数のミトコンドリアインスタンスを正確にセグメンテーションすることは重要である。
- ドメインシフトの影響や，各ドメインにおけるアノテーションコストの高さが課題となっている。
- 少ない点ラベルを用いた弱学習ドメイン適応により，アノテーションコストを削減しつつセグメンテーション精度を高める。
- 提案手法は，既存のUDAおよびWDA手法と比較して，セグメンテーション性能において優れていることが確認された。
- 特に，教師あり学習の上限との性能差を大幅に縮小することに成功した。
- UDA設定においても，他のUDA技術と比較して大きな改善が見られた。
Link: https://arxiv.org/abs/2510.16450
画像復元のための残差拡散ブリッジモデル [cs.CV]目的：画像復元における汎用性の高い手法の確立
- 画像処理の分野において，画像の品質向上は重要な課題である。
- 既存の拡散ブリッジモデルは，理論的な考察が不足している。
- 損傷領域と非損傷領域を区別し，適応的に復元すること。
- 本研究では，一般化された拡散ブリッジの確率微分方程式を理論的に再構成し，解析的な公式を導出した。
- 残差を利用することで，損傷領域のみにノイズ注入と除去を適用し，非損傷領域を保持する。
- 実験結果から，提案手法が様々な画像復元タスクにおいて最先端の性能を示すことが示された。
Link: https://arxiv.org/abs/2510.23116
蒸留による高速化を用いた多目的RTAインターセプションにおける不確実性モデリング [cs.LG, cs.GT]目的：リアルタイムオークションにおける無効または不適切なトラフィックのフィルタリング
- オンライン広告の品質向上は，広告プラットフォームの信頼性と収益性に不可欠である。
- トラフィック品質の推定精度とモデルの予測に対する確信度の両立が課題である。
- 不確実性モデリングの計算コストを削減しつつ，予測精度と信頼性を維持すること。
- 提案手法UMDAは，トラフィック品質予測と信頼性の高い確信度推定を同時に実現する。
- 知識蒸留をUMDAに適用することで，計算コストを大幅に削減しつつ，予測精度を維持した。
- 実験結果から，UMDAはダウンストリームタスクにおいて有効なサンプルを提供し，蒸留モデルは推論速度を10倍に向上させた。
Link: https://arxiv.org/abs/2511.05582
拡散モデルにおけるランダム性の決定論：潜在空間の退化 [eess.SY, cs.RO, cs.SY, cs.CV]目的：拡散モデルにおけるランダム性の影響と潜在空間の構造
- 画像生成AIの発展に伴い，高品質な画像の安定的な生成が求められている。
- 拡散モデルでは，同じプロンプトでもシード値を変えるだけで結果が大きく変わることが課題である。
- 潜在空間の構造を解析し，シード値の変動による影響を抑制する手法を提案する。
- 拡散モデルの潜在空間は，意味的な情報に敏感な方向性と，そうでない方向性を持つことが示された。
- この構造が「シード宝くじ」現象の原因であり，生成結果のばらつきを生み出すことが説明された。
- 提案手法は，プロンプトに沿った潜在空間の方向性を推定し，高品質な画像を生成することに成功した。
Link: https://arxiv.org/abs/2511.07756
LandSegmenter：土地利用・土地被覆マッピングのための柔軟な基盤モデルへ [cs.CV]目的：土地利用・土地被覆マッピングにおける基盤モデルの構築
- 地球観測において土地利用・土地被覆マッピングは不可欠であり，環境変化のモニタリングや資源管理に役立つ。
- 既存モデルは特定のモダリティや分類体系に依存し，汎用性や応用範囲が限られているという課題がある。
- 弱学習データを用いた大規模データセット構築と，それを利用した基盤モデルの枠組みを提案し，汎用性と性能向上を目指す。
- LandSegmenterは，多様なモダリティと分類体系を持つ6つのデータセットで，競争力または優れた性能を示した。
- 特に，未知のデータセットへの転移学習やゼロショット設定において，その有効性が確認された。
- 弱学習データを用いた基盤モデル構築の有用性と，タスク固有のモデルを構築するための新しいアプローチが示された。
Link: https://arxiv.org/abs/2511.08156
輝度・色度分解による高ダイナミックレンジ3Dガウススプラッティング [cs.CV]目的：高ダイナミックレンジ3Dモデルの再構成
- 映画製作やバーチャルプロダクション等，プロフェッショナルなコンテンツ制作において，高ダイナミックレンジ3D再構成は不可欠である。
- 既存手法は，広大な輝度空間における学習を制約するため，多重露光LDRによる教師あり学習に依存し，複雑な二分枝構造を必要とする。
- HDRデータ空間のみで学習し，モデル設計を簡素化することで，高ダイナミックレンジ3Dモデルの効率的な再構成を目指す。
- 輝度と色度を独立したパラメータに分解するLuminance-Chromaticity Decomposition Gaussian Splatting (LCD-GS)を提案し，学習の柔軟性を高めた。
- LCD-GSは，パラメータ数の増加を最小限に抑えつつ，再構成精度とダイナミックレンジの保持において，最先端手法を凌駕する性能を発揮した。
- 本手法は，元の学習・推論パイプラインを変更することなく，色の表現方法を変更するだけで適用可能であり，効率的なHDR3Dモデリングを実現する。
Link: https://arxiv.org/abs/2511.12895
多様相がん生存率解析のための構造的予後イベントモデリング [cs.CV]目的：多様相データからの構造的予後イベントのモデリング
- がん治療の個別化医療において，生存予測の精度向上は重要な課題である。
- 既存手法では，高次元かつ複雑な多様相データの相互作用を効率的にモデル化することが困難である。
- 重要な予後イベントを効率的に捉え，生存率予測の向上を目指す。
- 本研究では，SlotSPEというスロットベースのフレームワークを提案し，多様相データをコンパクトなスロット表現に圧縮する。
- SlotSPEは，10個の癌ベンチマークにおいて既存手法を8/10で上回り，全体で2.9%の改善を達成した。
- 遺伝子データの欠損に対しても堅牢であり，構造化されたイベント分解を通じて解釈可能性を高める。
Link: https://arxiv.org/abs/2512.01116
断層撮影画像に対する新規パッチベースTDAアプローチ [cs.CV, cs.LG]目的：断層撮影画像における特徴抽出手法の開発
- 診断，病期分類，予後予測において画像解析の重要性が高まっている
- 既存手法では，高解像度画像での計算コストと性能が課題となっていた
- 計算効率と性能を向上させる新たな特徴抽出手法の確立を目指す
- 提案手法は，従来のcubical complex法やラディオミクスと比較して，分類性能と計算時間の双方で優位性を示した。
- 精度，AUC，感度，特異度，F1スコアにおいて，平均7.2%，3.6%，2.7%，8.0%，7.2%の改善が見られた。
- 提案手法の利用を促進するため，Pythonパッケージ「Patch-TDA」を公開した。
Link: https://arxiv.org/abs/2512.12108
ニュアンスを捉えたビデオ検索のためのMLLMの適応 [cs.CV, cs.IR]目的：検索クエリと候補ビデオ間のニュアンスのある関係を捉える埋め込みモデル
- ビデオ検索は情報アクセスにおいて重要であり，多様な検索ニーズに対応できる性能が求められる。
- 従来のビデオ検索では，時間的ニュアンス，否定表現，マルチモーダルなクエリといった複雑な情報を適切に処理できていない。
- 本研究は，これらのニュアンスを効果的に捉え，より高度なビデオ検索を実現することを目指す。
- テキストのみのファインチューニングにより，ニュアンスを捉えたビデオ検索における最先端の性能を達成した。
- テキストとビデオの埋め込み間のモダリティギャップを縮小し，埋め込み空間の整理を改善することで，性能向上が実現された。
- 大規模マルチモーダル言語モデル(MLLM)を，テキストのみの対照損失を用いて埋め込みモデルとして再利用する手法を示した。
Link: https://arxiv.org/abs/2512.13511
議論強化擬似ラベリングと頻度認識プログレッシブ・デバイシング：スクリブル注釈を用いた弱学習カモフラージュ物体検出 [cs.CV, cs.AI]目的：弱学習カモフラージュ物体検出における物体位置特定とセグメンテーション
- 周囲の環境に隠蔽された物体の検出は，セキュリティや監視システム等で重要である。
- スクリブル注釈のみでは，汎用セグメンテーションモデルの性能限界や注釈バイアスにより精度が低い。
- 擬似ラベリングの精度向上と，スクリブルバイアスの軽減による性能改善を目指す。
- 提案手法${D}^{3}$ETORは，議論強化擬似ラベリングによりSAMの性能を向上させ，高精度な擬似マスクを生成する。
- FADeNetは，多レベルの頻度認識特徴を融合し，スクリブルバイアスを軽減することで，全体的な構造の把握を可能にする。
- 実験結果から，弱学習と完全学習の性能差が縮小し，複数のベンチマークで最先端の性能を達成した。
Link: https://arxiv.org/abs/2512.20260
訓練済み拡散モデルにおける崩壊からの回復のためのノイズ最適化：遅すぎることはない [cs.CV, cs.LG]目的：訓練済み拡散モデルにおけるモード崩壊の緩和と多様性の向上
- 近年のテキストから画像生成モデルの発展は目覚ましいが，生成画像の多様性に課題が残る。
- 同じプロンプトに対して，生成される画像が類似しやすく，モード崩壊が起こりやすいという問題がある。
- ノイズ最適化を通じて，モデルの忠実性を維持しつつ，生成画像の多様性を高めることを目指す。
- 単純なノイズ最適化目標が，モード崩壊を軽減し，ベースモデルの品質を維持することが示された。
- ノイズの周波数特性の分析から，異なる周波数プロファイルを持つ初期化が最適化と探索を改善する可能性が示唆された。
- ノイズ最適化は，生成品質と多様性の両方の点で，既存手法を上回る結果が得られた。
Link: https://arxiv.org/abs/2601.00090
画像品質評価のアルゴリズム的視線：LAION-Aesthetics Predictor の監査とトレーシング・エスノグラフィー [cs.CL, eess.SY, cs.SY, math.SP, cs.CL, cs.CL, cs.HC, cs.AI, cs.CV]目的：LAION-Aesthetics Predictor の評価基準の解明
- 視覚生成AIの発展において，画像品質の客観的評価が不可欠である。
- 「美的」の基準は主観的であり，文化的な価値観に依存するため，AIモデルに内在する偏りが懸念される。
- LAION-Aesthetics Predictorに存在するバイアスを特定し，その影響を明らかにすること。
- LAION-Aesthetics Datasetにおいて，女性に関する記述を持つ画像が優先的に選択され，男性やLGBTQ+に関する記述を持つ画像が除外される傾向が見られた。
- 芸術作品のデータセット分析の結果，西洋および日本の風景，都市景観，肖像画が最も高い評価を得た。
- LAPの開発過程におけるデータ収集が，英語圏の写真家やAI愛好家に偏っていることが示唆された。
Link: https://arxiv.org/abs/2601.09896
VecSet-Edit：単一画像からのメッシュ編集に事前学習済みLRMを活用する [cs.CV, cs.AI]目的：単一画像からの3Dメッシュ編集パイプライン
- 3D資産に対する柔軟な制御が求められるため，3D編集技術は重要な研究分野となっている。
- 既存手法は主に3D Gaussian Splattingやマルチビュー画像に依存しており，直接的な3Dメッシュ編集は未開拓である。
- 高精度なVecSet LRMを基盤とし，2D画像のみからターゲット領域を正確に特定し，幾何学的異常を除去する。
- 提案手法VecSet-Editは，VecSetトークンの空間的特性を分析し，トークン部分集合が特定の幾何学的領域を制御することを発見した。
- Mask-guided Token SeedingとAttention-aligned Token Gatingにより，2D画像に基づいてターゲット領域を精密に局所化する。
- Drift-aware Token PruningとDetail-preserving Texture Bakingにより，幾何学的詳細とテクスチャ情報を維持したメッシュ編集を実現した。
Link: https://arxiv.org/abs/2602.04349
幾何学と思考：空間推論のための能動的な幾何学統合 [cs.CV]目的：空間推論のための幾何学統合フレームワーク
- マルチモーダル大規模言語モデルの空間推論能力向上は，3Dエンコーダーからの幾何学的知識の活用が鍵となる。
- 既存の統合戦略は受動的で，意味と幾何学のずれや冗長な信号の問題を抱えている。
- モデルが内部推論の要求に応じて幾何学的証拠を選択的に取得・統合する手法を開発し，空間知能を向上させる。
- GeoThinkerは，空間情報に基づいた融合をVLMの選択された層で実行し，タスクに関連する幾何学を効率的に統合する。
- VSI-Benchにおいて72.6の最高スコアを達成し，空間知能において最先端の性能を示す。
- GeoThinkerは，組み込み参照や自動運転といった複雑なタスクにおいても，高い汎化性能と空間認識能力の向上を実証した。
Link: https://arxiv.org/abs/2602.06037
WildfireVLM：衛星画像を用いた早期の森林火災検知とリスク評価のためのAI活用 [cs.CV, cs.AI]目的：森林火災の早期検知とリスク評価
- 気候変動や人為的な活動により森林火災の頻度と規模が増大しており，生態系，人命，インフラへの脅威が高まっている。
- 衛星画像を用いた監視は，微弱な煙の検出，気象条件の変化，広範囲なリアルタイム分析の必要性から課題が多い。
- 衛星画像と言語駆動型リスク評価を組み合わせることで，スケーラブルな森林火災監視システムを構築し，防災管理を支援する。
- WildfireVLMは，Landsat-8/9やGOES-16等の衛星画像を用いて，YOLOv12による火災地域と煙の検知を実現した。
- 検出結果を多種多様な大規模言語モデル（MLLM）に変換することで，文脈に応じたリスク評価と優先順位付けされた対応策を生成した。
- LLM-as-judge評価により，リスク評価の質を検証し，リアルタイム処理，視覚的なリスクダッシュボード，長期的な森林火災追跡を可能にするシステムを構築した。
Link: https://arxiv.org/abs/2602.13305
ScreenParse：疎なグラウンディングを超え，完全な画面解析による教師あり学習 [cs.CV]目的：完全な画面解析のための大規模データセット
- コンピュータ利用エージェントの性能は，画面を構造化された状態として認識する能力に依存する。
- 既存のグラウンディングデータセットは，注釈が疎で多様性が低く，汎化性能を制限している。
- 画面内のUI要素の完全な解析を可能にし，効率的な画面理解を実現する。
- ScreenParseは，77万1千のウェブスクリーンショット（2100万要素）に対し，UI要素のボックス，55種類のタイプ，テキストを密に注釈した大規模データセットである。
- ScreenParseを用いて学習したScreenVLMは，既存のVLMよりも画面解析において大幅に高い性能（PageIoUで0.592 vs. 0.294）を示した。
- ScreenParseでのファインチューニングは，既存のVLMのグラウンディング性能を向上させ，構造的知識の転移可能性を示唆している。
Link: https://arxiv.org/abs/2602.14276