arXiv雑要約

画像・音声 - 2026/05/05 公開

  • グラフ拡散のための情報幾何学的適応的サンプリング [stat.CO, cs.DC, cs.MM, stat.ML, cs.CV, cs.LG]目的:グラフ拡散における情報幾何学に基づく適応的サンプリング手法
    • グラフ生成は,創薬やソーシャルネットワーク分析など,多様な分野で重要性が増している。
    • 従来の拡散モデルでは,複雑な多様体上での分布変化の非一様性を考慮できていない。
    • 分布変化の瞬間的な速度を定量化し,サンプリング効率と構造忠実性を向上させる。
    • 本研究では,拡散サンプリング軌跡をリーマン多様体上のパラメトリック曲線として再解釈する情報幾何学的フレームワークを提案した。
    • 提案手法であるドリフト変動スコア(DVS)は,統計多様体上で一定の情報速度を維持し,サンプリング軌跡に沿った分布変化率を均一に保つ。
    • 分子やソーシャルネットワーク生成の実験により,DVSが構造忠実性とサンプリング効率を大幅に改善することが示された。

    Link: https://arxiv.org/abs/2605.00250

  • Macaulay2における消去テンプレート [math.AC, cs.CV, cs.MS]目的:零次元の根基イデアルの族に対する自動ソルバーの構築
    • 計算代数における理想分解や方程式系の解法に不可欠な技術である。
    • パラメータ付き理想系に対して効率的な解法を求めることが課題である。
    • パラメータの変動に対する解の構造変化を効率的に扱う方法を提供する。
    • Macaulay2用のパッケージ「EliminationTemplates」を開発した。
    • 消去テンプレートの構成方法と特殊化特性について詳細に解説した。
    • コンピュータビジョンを含む様々な応用例を通して,パッケージの使用方法を示した。

    Link: https://arxiv.org/abs/2605.00278

  • 勾配適応忠実度を備えた転移可能多源画像融合のための複合辞書展開ネットワーク [stat.ME, cs.PF, cs.SY, eess.SY, eess.IV, cs.CV]目的:多源画像融合の実現
    • 画像融合は,異なるセンサーからの情報を統合し,より包括的な理解を可能にする重要な技術である。
    • 既存の深層展開画像融合法は計算コストが高く,リソース制約のある環境での利用が課題となっている。
    • 効率的な特徴学習と低計算コストでの画像融合を実現し,エッジデバイスでの利用を可能とすること。
    • 提案手法CDNetは,従来の分割最小化法に比べ,共通特徴と固有特徴を同時に更新することで効率性を高めている。
    • 高周波・低周波画像忠実度損失関数を用いることで,教師なし学習を実現し,汎用的な性能を向上させている。
    • TNOおよびRoadSceneデータセットにおいて,既存手法を凌駕する融合性能を示すことが実験的に確認された。

    Link: https://arxiv.org/abs/2605.00461

  • 高速リサージュ共焦点レーザー内視鏡法のためのマルチフレーム復元 [eess.IV, cs.CV, cs.LG]目的:高速リサージュ共焦点レーザー内視鏡法における画像復元
    • 生体内光学生検の高速化が求められている。ハンドヘルドデバイスでの利用に適している。
    • リサージュ走査は,走査経路上のピクセルのみをサンプリングするため,高速化に伴い構造的な欠損が生じる。
    • 欠損ピクセルの補完により,高速リサージュ走査の画質を改善し,臨床応用の実現を目指す。
    • 本研究では,高速リサージュCLEのベンチマークデータセットを新たに構築した。
    • 提案手法MIRAは,特徴再利用と変位アライメントにより時間的文脈を効果的に集約する軽量な再帰的フレームワークである。
    • 実験の結果,MIRAは既存手法と比較して復元品質が高く,計算効率も優れていることが示された。

    Link: https://arxiv.org/abs/2605.00527

  • 戦略的な情報共有における集団パフォーマンスに対する最適なネットワーク構造 [physics.soc-ph, cs.GT]目的:集団推定タスクにおける個人の戦略的行動の動的モデリング
    • 集団タスクにおいて,個々人の情報共有はパフォーマンス向上に不可欠である。
    • 競争的な環境下では情報共有に消極的になりやすく,集団パフォーマンスへの影響が不明である。
    • 戦略的な行動が及ぼす影響を分析し,集団パフォーマンスを最大化するネットワーク構造を特定する。
    • 最適なネットワーク構造は,情報共有率とネットワーク内の情報統合方法の間のトレードオフによって決まる。
    • 集団パフォーマンスを最大化する平均次数は,ネットワークの種類ごとに存在する。
    • 個人のサンプル数配分が不均一な場合,個人の取り出したボール数と次数が反比例するとパフォーマンスが最大化される。

    Link: https://arxiv.org/abs/2605.00758

  • 知覚的注意ネットワークを用いたリアルな臨床用低線量肝臓CTの教師なしノイズ除去 [eess.IV, cs.AI, cs.CV]目的:低線量CT画像のノイズ除去手法
    • 臨床研究を支援する画像処理技術の重要性が増している。
    • 低線量CTは被ばく量を減らすが,ノイズが増加し診断精度を低下させる。
    • 臨床データを用いた教師なし学習で高画質化を実現する。
    • 提案手法は,U-Net,注意機構,残差ネットワークを組み合わせた教師なし学習フレームワークである。
    • 知覚的損失を導入することで,医療画像の特徴を考慮したノイズ除去を実現した。
    • 実臨床データを用いた評価により,従来の技術と比較して優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2605.00793

  • 離散コサイン変換に基づくデ相関注意機構:Vision Transformerへの応用 [cs.CV, cs.LG, eess.SP]目的:Vision Transformerにおける効率性と性能の向上
    • Transformerは画像認識において高い性能を示すが,計算コストが大きい。
    • 自己注意機構の学習は,初期値設定が難しく,計算量が多い。
    • 離散コサイン変換を用いて,自己注意機構の初期化と圧縮を行うことで,効率性と精度を改善する。
    • 離散コサイン変換に基づく初期化戦略は,CIFAR-10とImageNet-1Kで分類精度を向上させた。
    • 高周波成分を削減する圧縮手法により,計算量を削減しつつ,同等の性能を維持した。
    • 提案手法は,Swin Transformerモデルにおいて,大幅な計算コスト削減を達成した。

    Link: https://arxiv.org/abs/2405.13901

  • CollaFuse:協調拡散モデル [cs.LG, cs.AI, cs.CV]目的:分散型協調拡散モデルの実現
    • 生成AIにおいて拡散モデルが注目されており,高品質な画像生成が可能である。
    • データ不足,計算コスト,プライバシー保護が課題であり,連合学習も計算負荷が大きい。
    • クライアントの計算負荷を軽減しつつ,拡散モデルの協調学習を可能にすること。
    • 提案手法CollaFuseは,スプリットラーニングに着想を得て,クライアントの計算負担を軽減する。
    • 各クライアントでデータと低コストな処理を保持し,高コストな処理をサーバーにオフロードする。
    • CelebA等のデータセットで性能向上と情報漏洩リスクの低減が確認された。

    Link: https://arxiv.org/abs/2406.14429

  • Mercari検索における画像スコア:人間の嗜好の学習と評価 [cs.CL, cs.CV]目的:Mercari検索における人間の画像嗜好の学習と評価
    • ECプラットフォームにおいて,検索は商品発見の重要な手段であり,ユーザー体験に直結する。
    • 画像品質評価における人間の判断は重要だが,コストと時間がかかるという課題がある。
    • LLMを活用し,費用対効果が高く,説明可能な画像品質評価手法を確立することを目指す。
    • Chain-of-Thoughtを用いたLLMによる画像美観ラベルが,ECにおける人間の行動と高い相関性を示すことが確認された。
    • LLMによる画像品質評価は,従来の人間による判断と比較して費用対効果が高い。
    • オンライン実験の結果,提案手法を導入することで,Webプラットフォームにおける売上が有意に増加した。

    Link: https://arxiv.org/abs/2408.11349

  • PPLLaVA:プロンプト誘導による多様な動画シーケンス理解 [cs.CV]目的:動画の内容の冗長性を削減し,効率的な動画理解
    • 動画データ活用は急速に進み,長尺動画処理の重要性が増している。
    • 長尺動画処理では,計算コストが課題であり,効率的な処理手法が求められている。
    • プロンプトに基づいて動画情報を圧縮し,効率と性能を両立させる。
    • PPLLaVAは,最大18倍のトークン削減を達成し,計算効率を大幅に改善した。
    • 多様な動画理解タスクにおいて,最先端の結果を達成した。
    • ユーザーの指示に基づいた領域選択により,重要な視覚情報を保持しつつ圧縮を実現した。

    Link: https://arxiv.org/abs/2411.02327

  • ローカル学習,グローバル修正:ノイズラベルを持つ連合学習のためのグローバル修正器 [cs.LG, cs.CV]目的:連合学習におけるノイズラベル問題のロバスト性の向上
    • 連合学習は,データプライバシー保護に貢献し,分散環境でのモデル構築を可能にするため重要である。
    • 現実のデータにはノイズラベルが含まれることが多く,連合学習の性能を著しく低下させる。
    • 異なる種類のノイズラベルやデータ分布を持つ分散環境下でもロバストな連合学習を実現すること。
    • 提案手法FedGRは,グローバルモデルのノイズラベルに対する遅い記憶特性を利用し,ラベルの修正とローカル学習の正則化を行う。
    • FedGRは,3つのモジュールを協調的に動作させ,ノイズラベルを修正し,連合学習のラベルノイズに対するロバスト性を高める。
    • 複数のベンチマーク実験において,FedGRは最先端のベースライン手法を上回り,優れた性能を示した。

    Link: https://arxiv.org/abs/2412.00452

  • 両眼UWF眼底画像を用いたコプラ強化型Vision Transformerによる高近視診断 [cs.CV, math.ST, stat.AP, stat.ME, stat.TH]目的:両眼高近視状態の診断と軸長予測
    • AIによる近視スクリーニングの進歩に伴い,両眼の情報を統合した診断が求められている。
    • 両眼画像の非対称性や,画像情報から混合型(二値・連続値)の多変量応答をモデル化することが課題である。
    • コプラを用いて両眼画像の類似性と異質性を同時に捉え,高精度な診断と予測を実現する。
    • 残差アダプターをVision Transformerに導入し,両眼の情報を効率的に処理する手法を開発した。
    • ガウスコプラ尤度に基づく4次元コプラ損失関数と,高速モンテカルロEMアルゴリズムを提案し,コプラパラメータを安定的に推定した。
    • 実際の眼底画像データと合成データを用いた実験により,分類および回帰タスクにおける予測性能の向上が確認された。

    Link: https://arxiv.org/abs/2501.06540

  • 異質なエージェントが存在する市場:ベイズ学習者と後悔しない学習者のダイナミクスと生存 [cs.GT, cs.AI, cs.MA, econ.TH]目的:資産市場における異質な学習エージェントのパフォーマンス
    • 経済学において,市場参加者の行動様式を理解することは,市場メカニズムの設計や政策立案に不可欠である。
    • 従来の市場モデルでは,参加者の学習能力や情報の非対称性が十分に考慮されていなかった。
    • ベイズ学習者と後悔しない学習者の競争を通して,市場における学習ダイナミクスと生存戦略を解明すること。
    • 後悔最小化は市場選択において重要な役割を果たすが,低後悔だけでは生存は保証されないことが示された。
    • ベイズ学習は脆弱性が高く,後悔しない学習は環境知識をあまり必要とせず,よりロバストであることが示された。
    • ベイズ更新を取り入れつつ,ロバスト性と分布シフトへの適応性を高めたハイブリッド戦略が提案された。

    Link: https://arxiv.org/abs/2502.08597

  • 拡散モデルは密かにゼロショット3DGS調和器である [cs.CV]目的:3DGSシーンへのオブジェクト挿入における調和
    • 3Dコンピュータビジョンは,現実世界の再現や新たな視点からの画像生成に不可欠である。
    • 3DGSによるオブジェクト挿入では,オブジェクトとシーンの見た目を自然に一致させるのが困難である。
    • 拡散モデルの潜在能力を活用し,照明や影の一貫性を保ったオブジェクト挿入を実現する。
    • 本研究では,拡散モデルが実世界の照明を暗黙的に理解していることを明らかにした。
    • D3DRという手法を提案し,3DGSシーンへのオブジェクト挿入時に照明や影を修正する。
    • 既存手法と比較して,照明品質が2.0dB PSNR改善されることが示された。

    Link: https://arxiv.org/abs/2503.06740

  • LLMと人間の選好の整合性:コンドッセのパラドックスからナッシュ均衡へ [cs.GT, cs.LG, econ.TH, math.ST, stat.ML, stat.TH]目的:LLMと人間の選好の整合性に関する統計的限界
    • LLMの公平性と情報に基づいた意思決定のため,人間の多様な選好との整合性が重要である。
    • 報酬モデルを用いたアラインメントにおいて,人間の選好にコンドッセのサイクルが生じる可能性がある。
    • 少数派の選好を明示的な正則化なしに保持する統計的可能性を明らかにすること。
    • 人間の選好は,LLM生成の応答間にコンドッセのサイクルが存在しない場合にのみ,報酬モデルで表現可能である。
    • ルーモデルの下で,コンドッセのサイクルが指数関数的に確率1に収束することが証明された。
    • ルーモデル下では,過半数によって他を凌駕する応答が存在しない場合,混合戦略が用いられる可能性が高い。

    Link: https://arxiv.org/abs/2503.10990

  • スライスド・ワッサースタイン・ガイダンスによる色条件生成 [cs.CV]目的:参照画像の色の分布に基づく画像生成
    • 画像生成技術は,多様なコンテンツ作成において重要な役割を担う。
    • 既存手法では,色条件を満たしつつ意味のある画像を生成することが困難。
    • 参照画像の色分布を反映し,意味的な一貫性を保った画像生成を実現。
    • 提案手法SW-Guidanceは,拡散モデルのサンプリング過程を修正することで,色の分布を制御。
    • 色の類似度において,既存技術を上回り,参照画像の色と意味の一貫性を両立。
    • 学習を必要とせず,テキストプロンプトと参照画像から高品質な画像を生成可能。

    Link: https://arxiv.org/abs/2503.19034

  • イベントベースの土木インフラ視覚的欠陥検出:ev-CIVILデータセットとベンチマーク [cs.CV]目的:土木インフラの視覚的欠陥検出のためのイベントベースデータセット
    • 土木インフラの老朽化が進行しており,効率的な点検手法の確立が不可欠である。
    • 従来のカメラでは,低照度や動的な照明条件下での欠陥検出が困難である。
    • イベントカメラの特性を活かし,土木インフラの欠陥検出における有効性を示す。
    • イベントカメラは,従来のカメラが苦手とする環境下でも,土木インフラの欠陥をロバストに検出可能であることが示された。
    • 新たに構築したev-CIVILデータセットは,イベントベースの土木インフラ欠陥検出研究を促進する。
    • ひび割れと剥離の検出において,リアルタイム物体検出モデルを用いた評価により,イベントカメラの有効性が確認された。

    Link: https://arxiv.org/abs/2504.05679

  • 拡散モデル駆動による学習不要モデル反転による顔認識プライバシー侵害:DiffMI [cs.CR, cs.CV, cs.LG]目的:顔認識プライバシー侵害のメカニズム解明と,それを克服するための手法開発
    • 顔認識技術は利便性が高い一方,個人情報保護の観点から倫理的な懸念が生じている。
    • 既存のモデル反転攻撃は計算コストが高く,汎化性能に課題がある。
    • 拡散モデルを用いて,学習不要かつ高精度なモデル反転攻撃を実現し,プライバシーリスクを評価する。
    • DiffMIは,拡散モデルを活用した初の学習不要モデル反転攻撃であり,高い攻撃成功率を達成した。
    • 既存の耐反転対策を施したシステムに対しても,84.42%~92.87%の成功率を示した。
    • 従来のGANベース手法と比較して,4.01%~9.82%高い性能を達成し,計算コストも低減した。

    Link: https://arxiv.org/abs/2504.18015

  • APCoTTA:航空機搭載LiDAR点群のセマンティックセグメンテーションのための継続的なテスト時適応 [cs.CV]目的:航空機搭載LiDAR点群のセマンティックセグメンテーションにおける継続的なテスト時適応手法
    • 大規模3Dシーン理解において,航空機搭載LiDAR点群のセマンティックセグメンテーションは不可欠である。
    • 実環境での固定モデルは,環境やセンサーの変化によるドメインシフトにより性能が低下しやすい。
    • 本研究は,LiDAR点群におけるキャタストロフィックフォゲッティングと誤差蓄積のリスクを軽減し,適応性能を向上させる。
    • 提案手法APCoTTAは,勾配駆動型レイヤー選択メカニズムにより,安定したレイヤーを固定し,信頼性の低いレイヤーのみを更新することで,知識の喪失を抑制する。
    • エントロピーに基づく整合性損失関数を用いることで,信頼性の低いサンプルを除外し,安定した適応を実現する。
    • 構築したISPRSCおよびH3DCベンチマークを用いて,既存手法と比較して約9%~14%のmIoU向上を実証した。

    Link: https://arxiv.org/abs/2505.09971

  • シェルおよびロッドにおける浸透なし固体-流体相互作用 [cs.GR]目的:シェルおよびロッドにおける固体と流体の相互作用シミュレーション手法
    • 流体シミュレーションは,物理現象の理解や製品設計に不可欠である。高精度なシミュレーションが求められる。
    • 既存手法では,固体と流体の間の浸透や,複雑な形状におけるシミュレーションの安定性が課題であった。
    • 浸透を許さず,複雑形状の流体・固体相互作用を安定してシミュレーションすること。
    • 最適化システムとバリアを用いて,浸透の回避と流体の非圧縮性,固体の弾性ポテンシャルの最小化を同時に実現した。
    • 位置制約を明示的に解決することで,従来の速度一貫性重視の手法よりも柔軟で効果的なシミュレーションが可能となった。
    • 多様な物理現象(バウンス,スプラッシュ,スライディング等)をロバストにシミュレーションできることを示した。

    Link: https://arxiv.org/abs/2505.12539

  • スパースVideoGen2:セマンティックを意識した置換によるスパース注意によるビデオ生成の高速化 [cs.CV]目的:ビデオ生成における高速化手法の開発
    • 近年のビデオ生成技術の発展に伴い,計算コストの増大が課題となっている。
    • 既存のスパース注意機構は,セマンティック情報を考慮せず位置情報に依存したため,十分な精度が得られていなかった。
    • セマンティック情報を活用したトークン置換により,計算効率と生成品質の両立を目指す。
    • 提案手法SVG2は,セマンティック類似度に基づいたトークンのクラスタリングと並べ替えを行うことで,識別精度と計算効率を向上させた。
    • HunyuanVideoとWan 2.1において,それぞれPSNRを最大30,26を維持しつつ,最大2.30倍,1.89倍の高速化を実現した。
    • SVG2は,トレーニングフリーなフレームワークであり,高品質かつ効率的なビデオ生成を可能にする。

    Link: https://arxiv.org/abs/2505.18875

  • 胸部X線VLLMにおけるテスト時スケーリングのための思考グラフ巡回 [cs.CV]目的:胸部X線レポート生成におけるVLLMの推論性能向上
    • 医療画像と自然言語処理の融合は,診断支援や医療効率化に不可欠である。
    • VLLMは強力だが,医療分野特有の知識や推論が不十分な場合がある。
    • 提示された思考グラフ巡回により,VLLMの医療知識に基づいた論理的分析を促進する。
    • テスト時スケーリングと思考グラフ巡回を組み合わせることで,追加学習なしに性能向上が確認された。
    • 提示手法は,標準ベンチマークにおいて既存のプロンプト手法を上回る結果を示した。
    • 思考経路の可視化により,データセットのバイアスも明らかになった。

    Link: https://arxiv.org/abs/2506.11989

  • VGR:視覚に基づいた推論 [cs.CV, cs.AI, cs.CL]目的:マルチモーダル思考の連鎖(CoT)における視覚的根拠に基づいた推論の性能向上
    • 画像とテキストの両方を理解するAIの重要性が高まっており,より高度な推論能力が求められている。
    • 既存の手法は言語に偏りやすく,複雑な視覚的推論タスクに対応できないという課題がある。
    • 画像の詳細な理解に基づく,より正確で信頼性の高いマルチモーダル推論を実現することを目指す。
    • VGRは,問題解決に役立つ可能性のある関連領域を検出し,それらの画像領域を基に正確な回答を提供する。
    • 大規模なVGR-SFTデータセットを用いて,視覚的根拠と言語的推論を組み合わせた学習を行った。
    • MMStar,AI2D,ChartQAなどのベンチマークにおいて,ベースラインモデルを大幅に上回る性能を示した。

    Link: https://arxiv.org/abs/2506.11991

  • GPT-4oは視覚をどれだけ理解するか:標準的なコンピュータビジョンタスクにおけるマルチモーダル基盤モデルの評価 [cs.CV, cs.AI, cs.LG]目的:マルチモーダル基盤モデルの視覚理解能力の評価
    • 画像とテキストを統合する技術は,AIの応用範囲を広げ,様々な分野での発展が期待されている。
    • 既存のモデルはテキスト出力を主とし,セグメンテーションや3D形状など多様な視覚情報を直接表現できない場合がある。
    • テキストプロンプトによる評価フレームワークを構築し,多様なモデルの視覚理解能力を定量的に比較することを目指す。
    • GPT-4oを含む主要なマルチモーダル基盤モデルは,標準的なコンピュータビジョンタスクにおいて,専門的なモデルには及ばない。
    • しかし,画像とテキストの学習のみで,優れた汎用性を示す点は特筆に値する。
    • 特に,GPT-4oは非推論モデルの中で最も優れた性能を示し,6つのタスクのうち4つで最高の結果を記録した。

    Link: https://arxiv.org/abs/2507.01955

  • 反復的・手動指示を用いた生成低照度画像強調のための大規模VLMの適応 [cs.CV]目的:生成低照度画像強調のための大規模視覚言語モデルの適応
    • 低照度環境下での画像利用が拡大しており,高品質な画像強調技術の需要が高まっている。
    • 既存手法は正常光画像からの意味的ガイダンスを無視しており,複雑な照明条件下で効果が限定的である。
    • 正常光画像からの意味的ガイダンスを活用し,より高品質で現実的な低照度画像強調を実現すること。
    • 提案手法VLM-IMIは,大規模視覚言語モデルを反復的・手動指示で適応させ,生成的な低照度画像強調を行うフレームワークである。
    • 正常光指示事前生成モジュールと指示認識型光強調拡散モジュールを組み合わせることで,意味的に情報に基づいた復元を可能にする。
    • 実験結果から,VLM-IMIは最先端手法と比較して,知覚的品質とリアリズムの点で優れていることが示された。

    Link: https://arxiv.org/abs/2507.18064

  • 逆問題を解くための拡散モデル:区分的ガイダンスによる事後サンプリング [cs.LG, cs.CV]目的:逆問題解決のための拡散モデルフレームワーク
    • 高次元データ生成において,拡散モデルは強力な手法として注目されている。
    • 逆問題解決には,タスク固有の再学習が必要となる場合が多い。
    • 問題に依存しない汎用的な逆問題解決フレームワークを構築する。
    • 提案手法は,区分的ガイダンスにより,高ノイズ時と低ノイズ時で異なる近似を用いることで,計算効率と精度を両立している。
    • 画像修復タスク(インペインティング,超解像)において,従来のベースライン手法と比較して,推論時間をそれぞれ25%,23%,24%短縮した。
    • PSNRおよびSSIMの低下は軽微であり,提案手法の有効性が示された。

    Link: https://arxiv.org/abs/2507.18654

  • スロットアテンション反復と再帰のスムージング [cs.ET, quant-ph, cs.CL, cs.CV]目的:オブジェクト中心学習におけるスロットアテンションの反復と再帰の改善
    • オブジェクト中心学習は,画像や動画を構成要素に分解し理解する上で重要である。
    • スロットアテンションでは,初期クエリが情報不足で正確な集約が難しい場合がある。
    • 本研究では,初期クエリの暖機とフレーム間集約の差異化により,この問題を解決する。
    • 提案手法SmoothSAは,入力特徴量で初期クエリを暖機することで,最初のフレームの集約精度を向上させる。
    • 動画において,最初のフレームとそれ以降のフレームで異なる集約変換を用いることで,再帰的な処理をスムーズにする。
    • オブジェクト検出,認識,視覚的推論の実験により,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2508.05417

  • InterChart:分解・分散されたグラフ情報における視覚的推論のベンチマーク [cs.CL, cs.AI, cs.CV]目的:複数関連グラフにわたる視覚的推論能力の評価
    • 科学報告,金融分析,政策ダッシュボードなど,現実世界での応用において,グラフ情報の理解は不可欠である。
    • 既存のベンチマークは単独のグラフに焦点を当てており,複数のグラフにまたがる複雑な推論を評価できていない。
    • 複数グラフ間の統合や,複雑な視覚的環境におけるマルチモーダル推論の限界を明らかにする。
    • 最先端のVLMを評価した結果,グラフの複雑性が増すと精度が大幅に低下することが明らかになった。
    • グラフを単純な視覚単位に分解することでモデルの性能が向上し,グラフ間の統合の困難性が示唆された。
    • InterChartは,複雑なマルチビジュアル環境におけるマルチモーダル推論の進歩を促進するための厳格なフレームワークを提供する。

    Link: https://arxiv.org/abs/2508.07630

  • 火災避難経路における喫煙自動検知のための深層学習CCTVシステム [cs.CV, cs.LG]目的:火災避難経路における喫煙の自動検知
    • 公共の安全確保は重要であり,火災予防は特に不可欠である。
    • 既存の監視システムでは,暗所や複雑な環境下での検知精度が課題となっていた。
    • 本研究は,低照度環境を含む多様な状況下で喫煙を正確に検知するシステムを開発し,安全性を高めることを目指す。
    • 提案モデルは,YOLOv8,YOLOv11,YOLOv12を凌駕し,Recall 78.90%,mAP@50 83.70%を達成した。
    • Jetson Xavier NXを用いた評価では,推論速度が52~97ミリ秒であり,リアルタイム処理に適していることが示された。
    • 本システムは,公共の安全監視と自動規制遵守を可能にする,堅牢かつ適応性の高いプラットフォームを提供する。

    Link: https://arxiv.org/abs/2508.11696

  • オブジェクト検出における入力劣化に対する量子化の頑健性 [cs.CV]目的:オブジェクト検出モデルの量子化における入力劣化の影響評価
    • エッジデバイス等のリソース制約環境における効率的なモデル展開が重要である。
    • 量子化による精度低下が,現実世界の入力劣化に対する頑健性に及ぼす影響が懸念される。
    • 入力劣化を考慮した量子化キャリブレーション戦略を提案し,頑健性の向上を目指す。
    • 静的INT8量子化は,クリーンデータに対して高い高速化効果(1.5~3.3倍)と適度な精度低下(3~7% mAP50-95)を示す。
    • 提案手法は,ほとんどのモデルと劣化に対して,標準的なキャリブレーションとの間で一貫した頑健性の向上を示さなかった。
    • 大規模モデルにおいて特定のノイズ条件下で効果が見られたことから,モデルの容量がキャリブレーションの有効性に影響する可能性がある。

    Link: https://arxiv.org/abs/2508.19600

  • ディープフェイク:画像における「本物」概念の再考 [cs.RO, cs.CV]目的:画像における「本物」概念の再検討
    • 画像生成技術の発展は,犯罪や社会への悪影響の懸念を高めている。
    • 既存研究は生成アルゴリズムに偏り,「本物」の画像定義とデータ収集が不足している。
    • 現代の画像取得技術の変化に対応した「本物」の定義とベンチマークデータセットが必要である。
    • 現在の「偽」検出手法は,古い低解像度の「本物」画像データセットに依存している。
    • 近年のスマートフォンによる画像取得技術は,ニューラルネットワークを用いた処理を含むため,「本物」の定義が曖昧になっている。
    • 「偽」画像検出の有効性自体について,議論を喚起し,技術的な定義と新たなデータセットの必要性を訴えている。

    Link: https://arxiv.org/abs/2509.21864

  • FreeRet:訓練不要の検索器としてのマルチモーダル大規模言語モデル [cs.CV]目的:マルチモーダル大規模言語モデルの検索能力
    • 多様なモダリティ情報を扱うAIシステムの重要性が高まっている。
    • 既存の検索システムは,追加の学習データや訓練が必要となる場合が多い。
    • 事前学習済みのモデルを活用し,訓練なしで高精度な検索を実現すること。
    • FreeRetは,既存のマルチモーダル大規模言語モデルを検索器として利用するためのフレームワークである。
    • このフレームワークは,2段階のアプローチにより,高速な候補検索と正確な再ランキングを実現する。
    • MMEBおよびMMEB-V2ベンチマークにおいて,数百万ペアで訓練されたモデルを大幅に上回る性能を示した。

    Link: https://arxiv.org/abs/2509.24621

  • 間接報酬によるゼロショット地理空間推論の解禁 [cs.CV, cs.AI, cs.LG]目的:地理空間推論の実現
    • 地理空間情報は重要だが,学習データが不足している。
    • 地理空間分野では,タスク固有の教師データが限られている。
    • メタデータ由来の間接報酬で汎用的な推論を可能にする。
    • 間接的な検証可能な報酬だけで,高度で汎用的な地理空間推論が誘導可能である。
    • Geo-R1は,メタデータとのクロスビューアライメントに基づく間接報酬を用いて,大規模な強化学習を実現した。
    • 特定のベンチマークでは,完全に教師ありの専門家モデルを上回るゼロショット転移性能を示した。

    Link: https://arxiv.org/abs/2510.00072

  • ClustViT:セマンティックセグメンテーションのためのクラスタリングに基づくトークンマージ [cs.CV]目的:セマンティックセグメンテーションにおけるトークンマージ手法
    • ロボットシステム等の実用的な応用において,高い精度と汎化性能が求められている。
    • Vision Transformerの二次的な注意機構の複雑さが,実用上の課題となっている。
    • セマンティックセグメンテーションにおける効率的なトークンマージ手法を開発し,計算コストを削減する。
    • ClustViTは,ViTバックボーンにクラスタリングモジュールとリジェネレーターモジュールを追加した。
    • 3つのデータセットで,最大2.18倍のGFLOPs削減と1.64倍の高速化を実現した。
    • セグメンテーション精度を維持しつつ,計算効率を向上させた。

    Link: https://arxiv.org/abs/2510.01948

  • インスタンス認識型擬似ラベリングとクラス集中型対照学習による電子顕微鏡画像の弱学習ドメイン適応セグメンテーション [cs.CL, cs.CV]目的:電子顕微鏡画像におけるミトコンドリアのセグメンテーション性能向上
    • 生物学や神経科学研究において,ミトコンドリアの正確なセグメンテーションは不可欠である。
    • ドメイン間の差異により,既存のドメイン適応手法では十分な性能が得られない場合がある。
    • 少ない注釈コストでドメイン適応を行い,セグメンテーション精度を向上させることを目指す。
    • 提案手法は,既存のUDAおよびWDA手法と比較して優れた性能を示す。
    • 特に,教師あり学習の性能との差を大幅に縮小することに成功した。
    • UDA設定においても,他の手法を上回る大幅な改善が見られた。

    Link: https://arxiv.org/abs/2510.16450

  • 画像復元のための残差拡散ブリッジモデル [cs.CV]目的:画像復元における拡散ブリッジモデルの理論的再構築と最適化
    • 画像復元は,ノイズ除去やアーティファクトの抑制など,様々な応用分野で重要な課題である。
    • 既存の拡散ブリッジモデルは,理論的な基盤が脆弱で,画像全体を均一に処理するため,良好な領域を歪める可能性がある。
    • 残差を利用したノイズ注入・除去により,劣化領域のみを適応的に復元し,良好な領域を保護する手法を提案する。
    • 本研究では,汎用的な拡散ブリッジモデルの確率微分方程式を理論的に再構築し,その解析解を導出した。
    • 残差を用いることで,ノイズ注入・除去を調整し,劣化領域と良好な領域を区別した適応的な復元を可能にした。
    • 多様な画像復元タスクにおいて,提案手法が最先端の性能を達成することが実験的に示された。

    Link: https://arxiv.org/abs/2510.23116

  • 蒸留による高速化を用いた多目的RTAインターセプションにおける不確実性モデリング [cs.LG, cs.GT]目的:RTAインターセプションにおける無効または不適切なトラフィックのフィルタリング
    • リアルタイムオークションのデータ品質は,下流タスクの信頼性・精度に大きく影響する。
    • 不確実性モデリングは重要だが,リアルタイム処理の効率性を損なうボトルネックとなる。
    • 不確実性モデリングの計算コストを削減しつつ,予測精度と信頼性を維持すること。
    • UMDAは,多目的学習と不確実性モデリングを統合し,トラフィック品質予測と信頼性の高い信頼度推定を実現。
    • 知識蒸留を適用することで,UMDAは計算コストを大幅に削減しつつ,予測精度を維持。
    • JDおよびCriteoデータセットで,UMDAが下流タスクに有効なサンプルを提供し,推論速度が10倍向上。

    Link: https://arxiv.org/abs/2511.05582

  • 拡散生成における乱数の決定論:プロンプト残差シード整形 [eess.SY, cs.RO, cs.SY, cs.CV]目的:拡散モデル生成時のシード依存性の改善
    • 拡散モデルは高品質な画像を生成するが,再現性や制御性に課題がある。
    • 同じプロンプトでもシードを変えるだけで結果が大きく変わり,安定性に欠ける。
    • シードのわずかな変化が意味空間に与える影響を理解し,制御することを目指す。
    • 初期ノイズから生成される意味への写像が多対一であるため,シードに対する感受性が高いことが示された。
    • プロンプト残差をシード整形に利用することで,生成画像の忠実性と品質が向上することが確認された。
    • この手法は追加学習を必要とせず,既存の拡散モデルに容易に組み込むことができる。

    Link: https://arxiv.org/abs/2511.07756

  • LandSegmenter:土地利用・土地被覆マッピングのための柔軟な基盤モデルへ [cs.CV]目的:土地利用・土地被覆マッピングのための基盤モデルの構築
    • 地球観測において土地利用・土地被覆マッピングは不可欠であり,環境変化の監視や資源管理に貢献する。
    • 既存モデルは特定のモダリティや分類体系に依存し,汎用性に乏しい。ラベル付きデータの大量取得も課題である。
    • 弱学習を用いた大規模データセットと,適応的なモデル構造により,汎用性と効率性を両立する。
    • LandSegmenterは,既存の土地利用・土地被覆データから弱ラベルを活用した大規模データセットLASを構築し,少ないラベルコストで学習可能にした。
    • リモートセンシング特有のアダプターとテキストエンコーダーを統合することで,多様なモダリティからの情報抽出と意味理解を強化した。
    • 未知のデータセットへの転移学習実験において,LandSegmenterは高い性能を示し,ゼロショット設定で特に優位性が見られた。

    Link: https://arxiv.org/abs/2511.08156

  • 輝度・色度分解による高輝度範囲3Dガウススプラッティング [cs.CV]目的:高輝度範囲の3Dモデル再構築手法の改良
    • 映画製作やバーチャルプロダクション等のプロフェッショナルコンテンツ制作において,高輝度範囲の3D再構築は不可欠である。
    • 既存手法は,広大な輝度空間での学習を制約するため,多重露光の低輝度範囲(LDR)データに依存し,複雑なアーキテクチャとなる。
    • 高輝度範囲データ空間のみで学習可能な,より簡素なモデル設計を目指す。
    • 提案手法であるLCD-GSは,輝度と色度を独立したパラメータに分解することで,パラメータ増加を最小限に抑えつつ,学習の柔軟性を大幅に向上させる。
    • LCD-GSは,既存の学習・推論パイプラインを維持しつつ,色表現のみを変更することで実装できる。
    • 合成データおよび実データを用いた実験により,LCD-GSが再構築精度とダイナミックレンジの維持において,最先端手法を凌駕することが示された。

    Link: https://arxiv.org/abs/2511.12895

  • 多次元がん生存率解析のための構造的予後イベントモデリング [cs.CV]目的:がん生存率予測の精度向上
    • がん治療における予後予測は,個別化医療の実現に不可欠である。
    • 既存手法では,高次元かつ複雑なデータから重要な予後イベントを効率的に抽出できない。
    • 構造的予後イベントモデリングにより,予後予測の精度と解釈性を向上させる。
    • SlotSPEは,スロットアテンションを用いて多次元データをコンパクトなスロット表現に圧縮する。
    • 10種類の癌ベンチマークにおいて,既存手法を8/10のコホートで上回り,全体で2.9%の改善を達成した。
    • ゲノムデータの欠損に対してもロバストであり,構造化されたイベント分解により解釈性が向上する。

    Link: https://arxiv.org/abs/2512.01116

  • コンピューター断層撮影における新規パッチベースTDAアプローチ [cs.CV, cs.LG]目的:コンピューター断層撮影画像からのトポロジー的特徴抽出手法の開発
    • 画像診断,病期分類,予後予測において,コンピューター断層撮影は不可欠な役割を担う。
    • 従来のトポロジーデータ解析は,高解像度画像において計算コストが高く,性能が低下する課題があった。
    • 本研究は,計算効率と性能を向上させたパッチベースのトポロジーデータ解析手法を提案することで,この課題を解決する。
    • 提案手法は,既存のcubical complex法やラディオミクス特徴量と比較して,分類性能と計算時間の双方で優位性を示した。
    • 精度,AUC,感度,特異度,F1スコアにおいて,それぞれ平均7.2%,3.6%,2.7%,8.0%,7.2%の改善が確認された。
    • 本研究の成果を容易に活用できるよう,Pythonパッケージ「Patch-TDA」を公開した。

    Link: https://arxiv.org/abs/2512.12108

  • ニュアンスを考慮した動画検索のためのMLLMの適応 [cs.CV, cs.IR]目的:検索クエリと候補動画間の微妙な関係性を捉える埋め込みモデル
    • 動画検索の精度向上は,情報アクセスの効率化に不可欠である。
    • 既存の動画検索システムは,時間的,否定,マルチモーダルといったニュアンスを捉えきれない。
    • 多様なニュアンスを効果的に処理できる統一的な埋め込みモデルの開発を目指す。
    • テキストのみの学習により,テキストと動画の埋め込み間のモダリティギャップが縮小された。
    • 埋め込み空間の組織化が改善され,より適切な動画が検索されるようになった。
    • 本手法は,ニュアンスを考慮した動画検索における全てのベンチマークで最先端の性能を達成した。

    Link: https://arxiv.org/abs/2512.13511

  • 議論を強化した擬似ラベル付けと頻度を考慮した漸進的バイアス軽減:スクリブル注釈による弱学習カモフラージュ物体検出 [cs.CV, cs.AI]目的:弱学習カモフラージュ物体検出における,物体位置とセグメンテーションの精度向上
    • カモフラージュ物体検出は,現実世界の様々な応用において重要であり,その自動化が求められている。
    • 弱学習設定では,アノテーションコストを削減できるものの,精度が大きく低下する課題がある。
    • 擬似ラベルの信頼性向上とスクリブルバイアスの軽減により,精度向上を目指す。
    • 提案手法${D}^{3}$ETORは,SAMの性能を向上させる議論強化擬似ラベル付けを導入し,より正確な擬似マスクを生成する。
    • FADeNetは,多水準周波数特徴を融合し,グローバルな理解とローカルな詳細モデリングのバランスを取ることで,スクリブルバイアスを軽減する。
    • 擬似マスクとスクリブルセマンティクスを組み合わせることで,弱学習とフル学習の性能差を縮小し,最先端の結果を達成する。

    Link: https://arxiv.org/abs/2512.20260

  • 訓練済み拡散モデルにおける崩壊からの回復のためのノイズ最適化:遅すぎることはない [cs.CV, cs.LG]目的:訓練済み拡散モデルにおけるモード崩壊の緩和
    • 近年の画像生成モデルにおいて,多様性の欠如が課題となっているため,生成品質向上が重要である。
    • 同一プロンプトでの画像生成時に,生成される画像が類似しやすく,多様性が不足するという問題がある。
    • ノイズ最適化によってモード崩壊を抑制し,生成画像の多様性と品質を向上させることを目指す。
    • ノイズ最適化というシンプルな手法が,ベースモデルの忠実性を保ちつつモード崩壊を軽減できることが示された。
    • ノイズの周波数特性を分析し,異なる周波数プロファイルを持つノイズ初期化が最適化と探索を改善する可能性が示唆された。
    • 実験の結果,ノイズ最適化は生成品質と多様性の両面において,既存手法よりも優れた結果が得られることが確認された。

    Link: https://arxiv.org/abs/2601.00090

  • 画像品質評価におけるアルゴリズムの視線:LAION-Aesthetics Predictor の監査とトレース・エスノグラフィー [cs.CL, eess.SY, cs.SY, math.SP, cs.CL, cs.CL, cs.HC, cs.AI, cs.CV]目的:画像生成AIモデルの学習に用いられる美的評価モデルの評価基準の解明
    • 画像生成AIの発展において,質の高いデータセット構築が不可欠であり,美的評価モデルはその重要な役割を担う。
    • 美的評価は主観的かつ文化的背景に依存するが,既存モデルが特定の価値観を反映している可能性が指摘されている。
    • 本研究は,LAION-Aesthetics Predictorが持つバイアスを特定し,より公平な美的評価のあり方を模索する。
    • LAION-Aesthetics Datasetにおいて,女性に関する記述のある画像が優先的に選択され,男性やLGBTQ+に関する記述のある画像が除外される傾向が確認された。
    • 西洋および日本の芸術家の風景画,都市景観,肖像画などの写実的な画像が,LAPによって高い評価を得る傾向が示された。
    • LAPの開発過程におけるデータ収集の偏りが,モデルのバイアスに影響を与えていることが示唆された。

    Link: https://arxiv.org/abs/2601.09896

  • VecSet-Edit:単一画像からのメッシュ編集における事前学習済みLRMの活用 [cs.CV, cs.AI]目的:単一画像からの3Dメッシュ編集手法
    • 3Dアセットの柔軟な制御が求められる分野であり,ユーザーエクスペリエンス向上に不可欠である。
    • 既存手法は3D Gaussian Splattingやマルチビュー画像に依存し,直接的なメッシュ編集は未開拓である。
    • 高精度なVecSet LRMを活用し,2D画像のみからメッシュを正確に編集することを可能とする。
    • 本研究では,VecSetトークンの空間的特性を分析し,トークン部分集合が特定の幾何学的領域を制御することを発見した。
    • Mask-guided Token SeedingとAttention-aligned Token Gatingにより,2D画像条件のみから目的領域を精密に特定する。
    • Drift-aware Token Pruningにより,ノイズ除去過程における幾何学的外れ値を排除し,Detail-preserving Texture Bakingで幾何学的・テクスチャ情報を保持する。

    Link: https://arxiv.org/abs/2602.04349

  • 幾何学的な思考:空間推論のための能動的な幾何学統合 [cs.CV]目的:空間推論における能動的な幾何学統合フレームワーク
    • マルチモーダル大規模言語モデルの発展に伴い,空間推論における幾何学的知識の重要性が増している。
    • 既存の統合戦略は受動的であり,意味と幾何学のずれや冗長な信号の問題がある。
    • モデルが内部推論の要求に応じて幾何学的証拠を選択的に取得・統合する仕組みを構築する。
    • GeoThinkerは,VSI-Benchにおいて72.6という最高スコアを達成し,空間知能の新たな基準を確立した。
    • 複雑な下流タスク(埋め込み参照や自動運転など)において,優れた汎化性能と空間認識能力の向上が示された。
    • 空間構造を能動的に統合する能力が,次世代の空間知能にとって不可欠であることが示唆された。

    Link: https://arxiv.org/abs/2602.06037

  • 衛星画像を用いたAIによる早期の山火事検知とリスク評価:WildfireVLM [cs.CV, cs.AI]目的:山火事の早期検知とリスク評価のためのAIフレームワーク
    • 地球温暖化や人為的な活動により山火事の頻度と規模が拡大しており,生態系や社会に甚大な被害をもたらす。
    • 衛星画像による監視は,微弱な煙の検出,動的な気象条件,広範囲のリアルタイム分析の必要性から課題が多い。
    • 衛星画像と言語駆動型リスク評価を組み合わせ,山火事の早期検知と迅速な対応を可能にすることを目指す。
    • WildfireVLMは,Landsat-8/9やGOES-16などの衛星画像を用いて山火事と煙を検知するYOLOv12を採用している。
    • 検出結果を多言語大規模言語モデル(MLLM)が文脈に応じたリスク評価と災害管理のための優先度の高い対応策に変換する。
    • システムはリアルタイム処理,視覚的なリスクダッシュボード,長期的な山火事追跡をサポートするサービス指向アーキテクチャで実装されている。

    Link: https://arxiv.org/abs/2602.13305

  • ScreenParse:疎なグラウンディングを超えて,完全なスクリーン解析の教師データによる進歩 [cs.CV]目的:完全なスクリーン解析のための大規模データセットと,それを用いたコンパクトなビジョン言語モデル
    • コンピュータ利用エージェントの性能向上には,画面の構造化された理解が不可欠である。
    • 既存のグラウンディングデータセットは教師ラベルが疎で,多様性が低く,汎化性能が課題である。
    • 高精度かつ効率的なスクリーン解析を実現し,実用的なエージェントの開発を促進すること。
    • ScreenParseは77万1千枚のウェブスクリーンショット(2100万要素)に対して,UI要素の完全なアノテーション(ボックス,55種類のタイプ,テキスト)を提供する大規模データセットである。
    • ScreenParseを用いて学習したScreenVLMは,既存のファウンデーションVLMと比較して,スクリーン解析において大幅に高い性能を示す(PageIoUで0.592 vs. 0.294)。
    • ScreenParseでファインチューニングされたVLMは,グラウンディング性能が向上し,構造化された事前知識がUI理解に貢献することが示唆された。

    Link: https://arxiv.org/abs/2602.14276