arXiv雑要約

画像・音声 - 2026/05/07 公開

  • CARD:困難な道路地形における高密度3D再構成のためのマルチモーダル自動車データセット [cs.CV]目的:困難な道路地形における高密度3D再構成のためのマルチモーダル自動車データセット
    • 自動運転技術の発展には,多様な路面環境への対応が不可欠である。
    • 既存の運転データセットは,平坦な道路での撮影が多く,詳細な幾何学的評価が困難な場合がある。
    • 本研究は,不整地やオフロードを含む多様な道路環境下での高密度3D再構成を可能にするデータセットを提供する。
    • CARDデータセットは,スピードバンプ,穴,不規則な路面などを含む連続シーケンスにおいて,準密な3Dグラウンドトゥルースを提供する。
    • 本データセットは,既存のKITTI Depth Completionデータセットと比較して,約6.5倍多くの有効な深度ピクセルを含む。
    • CARDデータセット上で,路面不整に対する評価プロトコルを確立し,最先端の深度推定モデルのベンチマークを実施した。

    Link: https://arxiv.org/abs/2605.05014

  • 拡散モデルにおける幻覚を局所内在次元が明らかにする [cs.CL, cs.CV, cs.AI]目的:拡散モデルにおける幻覚の解明と軽減
    • 画像生成AIの発展に伴い,生成画像の品質向上が重要課題となっている。
    • 拡散モデルは,統計的性質は満たすものの,構造的なルールに反する異常な画像を生成することがある。
    • モデル誘導多様体上の不安定性を原因とし,局所内在次元を抑制することで幻覚を軽減する。
    • 幻覚フィルタの性能評価の結果,提案手法は既存手法と同等以上の性能を示した。
    • 局所内在次元が幻覚の主要な原因であることが明らかになった。
    • 内在次元抑制(IQ)は,様々なベンチマークで既存手法を上回り,医療画像処理における解剖学的整合性の強化に貢献する。

    Link: https://arxiv.org/abs/2605.05026

  • プロンプトによる固定を伴う視覚・テキスト蒸留による生涯人物再識別 [cs.CV]目的:生涯人物再識別における汎化モデルの学習
    • 人物再識別は,監視カメラ等による個人特定に不可欠であり,その精度向上は社会の安全に貢献する。
    • 新しいドメインが出現すると,モデルが意味的なずれを起こし,適応性や過去の知識の忘却が問題となる。
    • テキスト情報を活用し,意味の安定性を保ちつつ,ドメインごとの適応能力を高めることを目指す。
    • 提案手法PADは,視覚とテキストの非対称な枠組みにより,ドメイン間の汎化性能を向上させる。
    • 固定されたテキストエンコーダを安定した意味的アンカーとして活用し,視覚情報の蒸留を行う。
    • 実験により,既存手法と比較して,PADが顕著な性能向上を示すことが確認された。

    Link: https://arxiv.org/abs/2605.05027

  • カスケード離散拡散モデルによるコンピューター支援設計生成 [cs.CV]目的:コンピューター支援設計の生成
    • 設計業務の効率化が求められる中で,CAD作成の自動化は重要な課題である。
    • 既存手法では,連続空間での拡散がCADの持つ離散性と異質性を考慮せず,無効な記号を生成する問題がある。
    • CADの離散性と異質性を考慮した拡散モデルを構築し,より有効な設計生成を目指す。
    • 提案手法は,CADコマンドとパラメータを別々に拡散処理することで,既存の自己回帰モデルや連続拡散モデルを凌駕する性能を示す。
    • コマンド拡散では吸収状態遷移行列,パラメータ拡散では属性に応じた遷移行列を用いることで,有効な設計生成を実現する。
    • DeepCADデータセットを用いた実験により,無条件生成および条件付き生成において,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2605.05031

  • サル痘皮膚疾患分類のための少数ショット学習パイプライン:CNN特徴抽出器の利用 [eess.SY, cs.SY, cs.CV]目的:サル痘およびサル痘に類似した皮膚疾患の認識
    • 感染症の早期発見と迅速な対応は公衆衛生上重要であり,画像診断技術の発展が求められている。
    • サル痘のような新興・稀少な疾患では,十分なアノテーション付きデータセットの確保が困難である。
    • 限られたデータから高精度な分類を実現する少数ショット学習による解決を目指す。
    • 提案するパイプラインでは,事前学習済みの軽量CNNを特徴抽出器として活用し,SimpleShotによる分類を行った。
    • MobileNetV2_100が,一貫して最も高い精度を示した。
    • クロスデータセット評価の結果,二値分類は安定しているものの,多クラス分類性能はドメインシフトの影響を受けることが示された。

    Link: https://arxiv.org/abs/2605.05034

  • 関係が途切れるとき:回転とノイズ下におけるビジョン言語モデルの関係幻覚の分析 [cs.DB, cs.CV, cs.CL]目的:ビジョン言語モデルにおける関係幻覚の分析
    • 画像とテキストを連携させる技術は,多様な応用において重要な役割を担う。
    • 既存モデルは,対象物間の相互作用という関係性の理解において,幻覚を起こしやすい。
    • 回転やノイズといった視覚的摂動に対するモデルの脆弱性を評価し,改善策を探る。
    • 軽微な視覚的歪みでさえ,モデルの様々なデータセットにおける関係性推論能力を著しく低下させる。
    • プロンプトによる拡張や前処理戦略(向き補正,ノイズ除去)は部分的な改善を示すが,幻覚を完全に解消するには至らない。
    • 知覚的な頑健性と関係性の理解の間にはギャップが存在し,よりロバストで幾何学を意識したVLMsが求められる。

    Link: https://arxiv.org/abs/2605.05045

  • 高詳細触覚知覚のための微分可能なシミュレーションによる低次元ニューラルモデリング [cs.RO, cs.CV]目的:高詳細な触覚知覚を実現するための低次元ニューラルシミュレーションフレームワーク
    • ロボットの器用な操作には触覚が不可欠であり,そのシミュレーション技術の重要性が高まっている。
    • 高解像度な弾性体変形のシミュレーションは計算コストが高く,実用上の課題となっていた。
    • 有限要素法やマテリアルポイント法の課題を克服し,効率的な触覚シミュレーションを実現すること。
    • 提案手法は,粗視化されたMPMダイナミクスと暗黙的ニューラルデコーダを組み合わせることで,高い計算効率とメモリ効率を実現した。
    • TacIPCと比較して,シミュレーション速度が65%以上向上し,メモリ使用量は40%削減された。
    • 触覚レンダリングと3D表面再構成において,精度が25%向上し,よりリアルな深度画像とメッシュを高速に生成した。

    Link: https://arxiv.org/abs/2605.05053

  • 直接積フローマッチング:少数のサンプルによる適応のための放射状および角度的ダイナミクスの分離 [cs.CV, cs.AI, cs.LG]目的:少数のサンプルを用いた適応におけるビジョン言語モデルのクロスモーダルアライメントの改善
    • 近年のビジョン言語モデルの発展は目覚ましいが,少数のサンプルでの適応は依然として課題である。
    • 既存のフローマッチング法は,事前学習済みのクロスモーダル特徴量の幾何学的制約により,最適化が困難である。
    • 放射状および角度的ダイナミクスを分離し,より効率的なフローマッチング手法を確立すること。
    • 提案手法であるDP-FMは,既存手法の制約を克服し,角度的ダイナミクスの歪みを解消する。
    • DP-FMは,放射状の一貫性を維持しながら,独立した放射状進化と一定速度の角度測地輸送を可能にする。
    • 11のベンチマークにおいて,DP-FMは多段階少数のサンプルによる適応において最先端の結果を達成した。

    Link: https://arxiv.org/abs/2605.05054

  • ScriptHOI:オープンボキャブラリ人-物体インタラクション検出のためのスクリプト化された状態遷移学習 [cs.CV]目的:オープンボキャブラリ人-物体インタラクション検出における認識精度向上
    • 人-物体インタラクションの理解は,ロボット工学や画像解析など,幅広い分野で重要である。
    • 既存手法は,物体のアフォーダンスやフレーズレベルの共起に偏り,状況を考慮した推論が難しい。
    • 視覚的証拠とスクリプトに基づいて,より正確なインタラクション認識を実現する。
    • ScriptHOIは,インタラクションフレーズを状態遷移として表現する構造化フレームワークである。
    • 視覚的状態トークナイザーとスロットごとのマッチングにより,HOIロジットを調整し,視覚的証拠の欠落を明らかにする。
    • HICO-DET,V-COCO,オープンボキャブラリHOIスプリットにおいて,稀なインタラクション認識と誤検出の削減に貢献する。

    Link: https://arxiv.org/abs/2605.05057

  • 一見して二度ビーム:カメラ誘導によるリアルタイム双方向mmWaveビーム管理 [cs.NI, cs.AI, cs.CE, cs.CV, cs.SY, eess.SY]目的:車両通信のためのリアルタイム双方向mmWaveビーム管理
    • 次世代通信においてmmWaveは高速・大容量の通信を可能にするが,その利用には課題が多い。
    • mmWaveは減衰が大きく,車両の移動に伴いビームのずれが生じやすいという問題がある。
    • カメラセンシングを活用し,ビーム探索空間を削減することで,高速かつ信頼性の高いビーム確立を目指す。
    • 提案手法VIBEは,従来の5G NR階層ビーム形成と比較して,一貫して低いアウトエージ率を維持することが示された。
    • 公開データセットを用いた評価において,最先端のend-to-end MLモデルを上回り,アウトエージ率1.1〜1.4%を達成した。
    • ハイブリッドモデルベースの閉ループ学習アーキテクチャが,実世界のmmWave車両通信に適していることが確認された。

    Link: https://arxiv.org/abs/2605.05071

  • 高さに基づく投影再パラメータ化によるカメラLiDAR占用率推定 [cs.CV]目的:カメラLiDAR占用率推定のための高さに基づく投影再パラメータ化
    • 3次元占用率推定は,センサー観測から高密度なボクセル単位でのシーンセマンティクスを推論する上で重要である。
    • 従来の固定された投影空間では,現実世界のシーンの疎性と高さの変化を捉えきれず,特徴量の集約に問題が生じる。
    • 本研究では,高さ情報を活用した投影空間の再パラメータ化により,特徴量の集約の精度向上を目指す。
    • 提案手法HiPRは,LiDARデータをBEV高さマップにエンコードし,高さ情報を利用して各柱状領域のサンプリング範囲を調整する。
    • これにより,投影された点が固定範囲ではなく,幾何学的に意味のある領域に再分布され,誤解を招く可能性のある無効な領域はマスクされる。
    • 実験の結果,HiPRは既存の最先端手法を凌駕し,リアルタイム推論を維持することが示された。

    Link: https://arxiv.org/abs/2605.05072

  • FlowDIS:フローマッチングによる言語誘導二値画像セグメンテーション [cs.CV]目的:言語誘導二値画像セグメンテーション手法
    • 画像編集,自動運転,医療画像解析など,現代のコンピュータビジョン応用に不可欠な技術。
    • 既存手法では,微細な詳細の保持や前景のセマンティック構造の完全な捕捉が課題。
    • フローマッチングフレームワークに基づき,より高精度なセグメンテーションを実現する。
    • FlowDISは,画像分布をマスク分布へ変換する時間依存ベクトル場を学習する。
    • 提案手法は,PAIPという学習戦略により,テキストプロンプトによる制御性を強化。
    • DIS-TEテストセットにおいて,最先端手法を大幅に上回り,高い性能を示す。

    Link: https://arxiv.org/abs/2605.05077

  • 激しい屈折歪み下におけるマルチフレーム画像復元の一元的なベンチマーク [cs.CV]目的:激しい屈折歪み下での動画幾何学的歪み除去に関するベンチマーク
    • 水中や大気中の乱れなど,屈折性媒体を通る映像の品質劣化は重要な課題である。
    • 既存のベンチマークは,強い非一様な屈折条件下の復元手法を体系的に評価できていない。
    • 本研究は,高歪み下での幾何学的歪み除去アルゴリズム開発・評価の基盤を確立する。
    • 実験データとして,実験室で撮影した実データと物理ベースの屈折モデルによる合成データを含む。
    • 歪みのレベルと表面波の種類を多様化することで,幅広い条件での評価を可能にした。
    • 提案ベンチマークを用いて,様々な手法を客観的・知覚的に評価し,幾何学的歪み除去の性能を詳細に分析した。

    Link: https://arxiv.org/abs/2605.05079

  • Driver-WM:交通状況に条件付けされたドライバー中心の潜在ワールドモデルによる車内ダイナミクスの展開 [cs.RO, cs.AI, cs.CV]目的:ドライバーの行動予測と交通状況の予測を統合した潜在ワールドモデル
    • 自動運転レベル2/3の安全確保には,ドライバーの反応予測が不可欠である。
    • 従来のワールドモデルは外部環境に焦点を当て,ドライバーの状態予測が不十分である。
    • ドライバーの行動と交通状況を考慮した予測モデルを開発し,安全な運転支援を実現する。
    • Driver-WMは,外部の交通状況を条件として,ドライバーの車内ダイナミクスを因果的に展開する。
    • このモデルは,ドライバーの幾何学的予測と行動・感情のセマンティック認識の精度を向上させた。
    • 外部から内部への条件付けにより,メカニズム応答の体系的な分析が可能になった。

    Link: https://arxiv.org/abs/2605.05092

  • タスク固有の次良視点選択のためのベイズアプローチ:不確実な幾何学形状への対応 [cs.GR, cs.CV, cs.LG, stat.ML]目的:タスク固有の次良視点選択
    • 3次元再構成は,ロボティクスやコンピュータビジョンの重要な基盤技術である。
    • 従来の視点選択は空間全体の不確実性を均一に削減するため,効率が低い場合がある。
    • タスクの目的に応じて不確実性を削減し,効率的な3次元再構成を実現すること。
    • 本研究では,ベイズ決定理論を用いてタスク固有の次良視点選択を可能にするフレームワークを開発した。
    • 提案手法は,セマンティック分類,セグメンテーション,PDE駆動物理シミュレーションにおいて,既存手法よりも少ない視点数で優れた性能を達成した。
    • このフレームワークは,再構成データの使用目的に最適化された視点選択を可能にする。

    Link: https://arxiv.org/abs/2605.05095

  • CPCANet:ドメイン汎化のための共通主成分分析の深層展開 [cs.CV]目的:ドメイン汎化におけるロバストな表現学習
    • 様々な環境下での機械学習モデルの性能維持が重要視されている。
    • 未知のデータ分布への対応が難しく,汎化性能が課題となっている。
    • データ分布の変化に頑健な表現学習手法を確立することを目指す。
    • 提案手法CPCANetは,4つの標準的なドメイン汎化ベンチマークにおいて最先端の性能を達成した。
    • CPCANetは,共通主成分分析を深層学習に組み込み,ドメイン間の共有部分空間を効率的に学習する。
    • この手法は,アーキテクチャに依存せず,データセット固有のチューニングも不要である。

    Link: https://arxiv.org/abs/2605.05136

  • 実用的な学習型画像圧縮において重要な要素 [cs.CV, cs.AI, cs.LG]目的:学習型画像圧縮における主要なモデル設計選択
    • 画像圧縮は,データサイズを削減し,効率的な情報伝送を実現する上で不可欠である。
    • 既存の学習型コーデックは,知覚品質と処理速度のバランスを取るのが難しい。
    • 知覚品質と処理速度を両立する,実用的な学習型画像コーデックを開発すること。
    • 本研究では,知覚品質と処理速度を両立する新しいコーデックを構築した。
    • 主観評価試験の結果,AV1,AV2,VVC,ECM,JPEG-AIと比較して,2.3~3倍のビットレート削減を達成した。
    • iPhone 17 Pro Max上で,12MP画像のエンコードに230ms,デコードに150msを要し,既存のMLベースコーデックよりも高速である。

    Link: https://arxiv.org/abs/2605.05148

  • Aes3D:3Dガウススプラッティングにおける美的評価 [cs.CV, cs.AI]目的:3Dシーンの美的属性の評価
    • 没入型メディアやデジタルコンテンツ制作において,3Dシーンの品質は重要であり,視覚的な魅力が不可欠である。
    • 既存の評価手法は再構成の忠実性や知覚的なリアリズムに重点を置いており,構成や調和といった高次の美的属性が軽視されている。
    • 3Dガウススプラッティング表現から高レベルな美的特徴を捉え,3Dシーンの美的評価を可能にすること。
    • 本研究では,初の3Dシーン美的評価専用データセット「Aesthetic3D」と,軽量な予測モデル「Aes3DGSNet」を提案した。
    • Aes3DGSNetは,3Dガウスプリミティブのみを用いて動作し,レンダリングコストを削減しつつ,高レベルな美的特徴を捉えることに成功した。
    • 実験結果は,提案手法が軽量性を維持しつつ高い性能を発揮し,3Dシーン美的評価の新たな基準を確立することを示した。

    Link: https://arxiv.org/abs/2605.05155

  • VLMに基づく分布外検出のためのWassersteinアラインメント局所化 [cs.CV]目的:医療画像におけるVLM(Vision-Language Models)を用いた分布外検出のための局所化手法
    • 医療画像解析において,希少疾患の検出は重要であり,異常検知技術の進展が求められている。
    • 既存のVLMを用いたゼロショット異常局所化は,正常な解剖学的文脈の欠如により性能が制限されている。
    • 正常な解剖学的分布との比較を通じて異常を特定することで,局所化精度の向上を目指す。
    • 提案手法WALDOは,DINOv2パッチ分布に基づくWasserstein距離と,Goldilocksゾーンサンプリングを活用し,参照選択の精度を高める。
    • 理論的分析により,適度な類似度を持つ参照が,比較視覚推論におけるバイアス・バリアンスのトレードオフを最小化することが示された。
    • NOVA脳MRIベンチマークにおいて,WALDOはベースラインを19%相対的に上回り,mAP@30で43.5%±1.6%を達成した。

    Link: https://arxiv.org/abs/2605.05161

  • PhysForge:インタラクティブな仮想世界のための物理に基づいた3Dアセット生成 [cs.CV]目的:インタラクティブな仮想世界および具現化されたAIのための物理に基づいた3Dアセットの生成
    • 仮想世界やAIの研究開発において,物理特性を考慮した3Dアセットは不可欠である。
    • 既存手法は静的な形状に偏っており,インタラクションに必要な機能的特性が欠けている。
    • 機能性と階層的な物理学に基づき,インタラクティブなアセット生成を可能にすること。
    • PhysForgeは,大規模な物理アノテーションデータセットPhysDBを活用した二段階フレームワークである。
    • VLMが「物理的青写真」を設計し,物理に基づいた拡散モデルがKVIメカニズムを用いて高精度な形状と運動パラメータを生成する。
    • 生成されたアセットは機能的に妥当であり,シミュレーションに利用可能であることが確認された。

    Link: https://arxiv.org/abs/2605.05163

  • 幾何構造を意識した状態空間モデル:全スライド画像表現の新たなパラダイム [cs.CV, cs.AI]目的:全スライド画像を用いた組織病理学的解析の精度向上
    • 病理組織診断・治療計画において,高解像度な全スライド画像解析は不可欠である。
    • 既存手法は,パッチ表現を均一なユークリッド空間に埋め込み,組織の階層構造や地域異質性を考慮していない。
    • 幾何構造を意識した表現学習により,組織の全体構造と微細な細胞形態をより正確に捉えることを目指す。
    • 双曲空間とユークリッド空間のハイブリッド表現を用いることで,階層的な組織構造と局所的な形態学的詳細を補完的にモデル化する。
    • S4バックボーンとMoEモジュールを組み合わせたBatMILフレームワークは,既存のMILアプローチを上回るスライドレベル分類性能を示す。
    • 7つのWSIデータセットにおける実験結果は,幾何構造を意識した表現学習が次世代の病理計算において有望な方向性であることを示唆する。

    Link: https://arxiv.org/abs/2605.05164

  • OpenSearch-VL:最先端マルチモーダル検索エージェントのためのオープンレシピ [cs.RO, cs.SY, eess.SY, cs.CV]目的:最先端マルチモーダル検索エージェントの訓練レシピ
    • 複雑な課題解決に不可欠な検索能力は,エージェントの知能向上に寄与する。
    • 高性能なマルチモーダル検索エージェントの再現が難しく,データや訓練方法が公開されていない。
    • 高品質な訓練データと訓練方法を公開し,マルチモーダル検索エージェントの研究を促進する。
    • OpenSearch-VLは,Wikipediaからのパスサンプリングや視覚的根拠付けにより,高品質な訓練データを構築した。
    • 多様なツール環境を構築し,テキスト検索,画像検索,OCRなどを統合することで,エージェントの知覚能力と知識獲得能力を高めた。
    • 7つのベンチマークで平均10ポイント以上の性能向上を達成し,商用モデルに匹敵する結果を得た。

    Link: https://arxiv.org/abs/2605.05185

  • LoViF 2026 PhyScore:4Dワールドモデルの包括的品質評価チャレンジ [cs.CV]目的:4Dワールドモデル生成動画の包括的な品質評価手法の開発
    • 生成AIの発展に伴い,生成動画の品質評価が重要性を増している。
    • 既存の評価指標では,物理的な妥当性や時間的な一貫性を十分に評価できない。
    • 動画の品質,物理的リアリズム,条件との整合性,時間的一貫性を総合的に評価する指標の確立を目指す。
    • 本チャレンジでは,多様な生成モデルによる1554本の動画を用いて評価を行う。
    • 評価指標は,タイムスタンプの一致度(TimeStamp_IOU)と相関係数(SRCC/PLCC)を組み合わせた複合プロトコルを用いる。
    • 提出された手法の分析から,物理的な異常検出が重要な課題であることが示唆された。

    Link: https://arxiv.org/abs/2605.05187

  • D-OPSD:ステップ蒸留拡散モデルの継続的チューニングのためのオンポリシー自己蒸留 [cs.CV]目的:ステップ蒸留拡散モデルにおける,教師ありファインチューニング中のオンポリシー学習の実現
    • 高画質画像生成モデルは,多段階から少段階モデルへの移行が進んでいる。
    • 少段階モデルは,直接的な継続的教師ありファインチューニングが困難である。
    • D-OPSDは,少段階推論能力を損なわずに新しい概念やスタイルを学習可能にする。
    • D-OPSDは,LLM/VLMエンコーダの文脈内能力を活用し,自己蒸留プロセスを可能にする。
    • 教師はテキストとターゲット画像のマルチモーダル特徴,生徒はテキスト特徴のみを条件とする。
    • モデル自身の軌跡と自己監督下で最適化することで,元の少段階能力を維持した学習を実現する。

    Link: https://arxiv.org/abs/2605.05204

  • 拡散Transformerにおける外れ値トークンの制御 [cs.CV, cs.AI, cs.LG]目的:拡散Transformerにおける外れ値トークンの現象とその抑制手法
    • 画像生成において,Transformerの性能向上は重要であり,その内部メカニズムの理解が不可欠である。
    • Vision Transformerにおいて,高ノルムな外れ値トークンが発生し,注意機構を歪める問題が存在する。
    • 外れ値トークンが画像生成品質に与える悪影響を軽減し,より安定した生成を可能にすること。
    • 拡散Transformerのエンコーダーとデノイザーの両方で外れ値トークンが発生することが示された。
    • 単純な外れ値トークンのマスク処理は効果がなく,局所的な意味の崩壊が原因であることが示唆された。
    • 提案手法であるDual-Stage Registers (DSR) は,外れ値アーティファクトを削減し,生成品質を向上させた。

    Link: https://arxiv.org/abs/2605.05206

  • Syn4D:マルチビュー合成4Dデータセット [cs.CV]目的:動的シーンの4Dデータセット
    • コンピュータビジョンの発展には,高品質なデータセットが不可欠である。
    • 既存のデータセットは,正確な幾何学的アノテーションが不足している場合が多い。
    • 高精度な3次元再構成と動的シーンの追跡を可能にするデータセットを開発する。
    • Syn4Dは,カメラモーション,深度マップ,追跡,人体ポーズのアノテーションを含む。
    • 任意のピクセルを,任意の時間とカメラに3次元空間で投影できる。
    • 4Dシーン再構成,3D点追跡などのタスクで,Syn4Dの有効性が示された。

    Link: https://arxiv.org/abs/2605.05207

  • ビジョンTransformerによるプロトハローのセグメンテーション [astro-ph.CO, astro-ph.IM, cs.CV]目的:最終的なハロー質量に基づいた初期密度場におけるプロトハロー領域のセグメンテーションと分類
    • 暗黒物質ハローの形成は宇宙の初期の微小な摂動から始まる,宇宙論の基本的な問題である。
    • 従来のN体シミュレーションは計算コストが高く,特に低質量ハローの精密な再構成が困難である。
    • 深層学習を用いて,初期密度場からプロトハローを正確かつ効率的に識別することを目指す。
    • Transformerベースのネットワークは,CNNと比較してすべての評価指標において大幅に高い性能を示した。
    • 特に低質量ハローやプロトハロー境界の詳細な再構成において,従来の摂動理論モデルを上回る精度を達成した。
    • 密度場と潮汐せん断の組み合わせが,入力特徴量として最も効果的であることが示唆された。

    Link: https://arxiv.org/abs/2508.00049

  • 人間の視線を用いた都市主観的知覚のモデル化 [cs.CV, cs.AI, cs.HC]目的:都市主観的知覚のモデル化
    • 都市の経験や理解を左右する都市主観的知覚は,都市計画やデザインにおいて重要である。
    • 既存の手法はストリートビュー画像に依存し,人間の知覚過程を無視している。
    • 人間の視線データを用いて,より精度の高い都市主観的知覚のモデル化を目指す。
    • 視線情報のみでも,都市主観的知覚の予測に有用な信号が含まれることが示された。
    • 視線情報とシーン表現を組み合わせることで,予測精度がさらに向上することが確認された。
    • 本研究は,都市シーン理解における人間の知覚過程の組み込みの重要性を示唆する。

    Link: https://arxiv.org/abs/2605.00764

  • 希薄化分位シェアは普遍的に実現可能である [math.ST, cs.DM, cs.GT, math.CO, stat.TH]目的:不分割財の公正な分割に関する新たなベンチマークの実現可能性
    • 公正な分割は資源配分において重要であり,社会的な公平性を担保する上で不可欠である。
    • 分位シェアは解釈性が高いが,その普遍的な実現可能性は未解決の仮説に依存していた。
    • 本研究は,仮説に依存しない普遍的な実現可能性を持つ分位シェアの改良を提案する。
    • 提案する希薄化分位シェアは,特定の定数cに対して,e^{-c}-分位シェアが普遍的に実現可能であることを示す。
    • これは,既存のFeigeの残差最大最小シェアに次ぐ,二番目の普遍的に実現可能なシェアである。
    • また,rainbow EMCを仮定した場合,元の分位シェアもより高い精度で実現可能であることが示された。

    Link: https://arxiv.org/abs/2605.04300

  • 敵対的割引 - AI,シグナル相関,そしてサイバーセキュリティの軍拡競争 [physics.comp-ph, cs.DC, physics.flu-dyn, econ.TH, cs.CR, cs.GT]目的:AIを活用した攻撃と防御投資における軍拡競争の構造的特性
    • サイバーセキュリティは,社会インフラや経済活動を支える上で不可欠であり,その重要性は増している。
    • 攻撃側の投資が防御側の投資を相対的に無効化する「敵対的割引」という問題が存在する。
    • シグナル相関を高めることで,攻撃側の優位性を中和し,効率的な防御投資を促進することを目指す。
    • 攻撃と防御の投資比率は,6つの構造的要素によって決定されることが示された。
    • シグナル相関が完全な場合,攻撃対象の数に関わらず,攻撃側の優位性は打ち消される。
    • 共有された脅威情報の集約が,個別防御投資を上回る場合があり,集団的な情報共有の重要性が示唆された。

    Link: https://arxiv.org/abs/2605.04336

  • JASTIN:自然言語指示によるゼロショット音声・言語評価のためのLLMのアライメント [eess.AS, cs.AI, cs.SD]目的:音声・言語評価のための汎用的な指示駆動型フレームワーク
    • 生成AIの急速な発展に伴い,客観的な評価手法の確立が不可欠となっている。
    • 既存の評価指標や汎用的なマルチモーダルLLMは,ドメイン汎化性能が課題である。
    • 指示に基づいた評価能力を持つフレームワークを構築し,ゼロショット性能を向上させる。
    • JASTINは,人間の主観評価と高い相関を示す最先端の結果を達成した。
    • タスク固有の再学習を必要とせず,音声,音響,音楽,そして未知のドメインにおける評価で,汎用的なMLLMを上回る性能を示した。
    • 凍結された高性能な音声エンコーダと,ファインチューニングされたLLMをアダプターで繋ぐことで実現した。

    Link: https://arxiv.org/abs/2605.04505

  • 超音波画像からのBI-RADS乳腺密度予測に対する深層学習モデルの外部検証 [eess.IV, cs.CV]目的:超音波画像を用いた乳腺密度の予測における深層学習モデルの汎化性能評価
    • 乳腺密度は乳癌リスクの重要な指標であり,早期発見に貢献する。
    • 乳腺密度評価はマンモグラフィが主流だが,読影のばらつきや被ばくが課題である。
    • 超音波画像と深層学習を用いて,マンモグラフィに代わる客観的な乳腺密度評価を目指す。
    • DenseNet121,ViT-B/32,ResNet50の3モデルを外部データで検証した結果,いずれも極めて高密度な乳腺で高い性能を示した。
    • DenseNet121は全体的に最も高い性能(micro-averaged AUROC 0.885)を示し,内部テストと外部テスト間で性能に差はなかった。
    • 年齢とAIによる乳腺密度を組み合わせたリスク予測モデルは,年齢とマンモグラフィによる密度を組み合わせたモデルと比較して有意な差は見られなかった。

    Link: https://arxiv.org/abs/2605.05082

  • リアルタイムライトフィールド再構成のための階層的疎な勾配降下法 [cs.CV]目的:リアルタイムライトフィールド再構成手法
    • 拡張現実技術の発展に伴い,リアルタイムでのライトフィールド再構成の需要が高まっている。
    • 既存手法は,高品質だが処理に時間がかかるもの,または汎用性や品質が低いものがある。
    • マルチプレーンイメージの疎な多様体に着目し,高速かつ高品質な再構成を目指す。
    • 提案手法RealLiFeは,階層的疎な勾配降下法を用いて,疎な入力画像からリアルタイムで高品質なライトフィールドを生成する。
    • 3D CNNで初期MPIを生成し,シーン内容に合わせた疎な勾配を用いて最適化する。
    • 実験により,最新のオフライン手法の100倍高速で,他のオンライン手法よりも高いPSNR値を示すことが確認された。

    Link: https://arxiv.org/abs/2307.03017

  • コントラスト学習におけるデータ拡張は,ポジティブインセンティブノイズの推定である [cs.LG, cs.CV]目的:コントラスト学習とポジティブインセンティブノイズの関係性の科学的調査
    • 深層学習において,大量のデータと効率的な学習方法が重要である。コントラスト学習はその有力な手法の一つ。
    • 既存のデータ拡張は,経験則に基づいている場合が多く,理論的な根拠が不足している点が課題である。
    • コントラスト学習におけるデータ拡張を,理論的に解釈し,より効果的な拡張手法を開発することを目指す。
    • コントラスト損失をガウス分布に変換することで,コントラスト学習の難易度を定量的に測定するタスクエントロピーを定義した。
    • 標準的なコントラスト学習におけるデータ拡張は,ポジティブインセンティブノイズの点推定とみなせることを証明した。
    • ポジティブインセンティブノイズ生成器を用いたフレームワークを提案し,多様なデータに対して有効なデータ拡張を学習できることを示した。

    Link: https://arxiv.org/abs/2408.09929

  • RoDyGS:カジュアルビデオのためのロバストな動的ガウススプラッティング [eess.SY, cs.SY, eess.SY, cs.SY, math.OC, cs.CV]目的:カジュアルビデオからの4D再構成
    • 動的3D形状の再構成は曖昧さを伴うため,現実世界の映像からの高品質な再構成が求められている。
    • 既存の再構成手法は,カメラや物体の動きが少ないデータセットで評価されている場合が多い。
    • 動的シーン表現のロバストな再構成と,高品質な新規視点合成を実現することを目指す。
    • RoDyGSは,静的要素と動的要素を明示的に分離し,物理的に妥当な形状と時間的に一貫した動きを強制する時空間正則化を導入した。
    • 既存の姿勢推定不要な動的新規視点合成手法と比較して,RoDyGSは大幅に性能が向上した。
    • Kubric-MRigという新しいベンチマークデータセットを提案し,多様なカメラと物体の動きを提供することで,より厳密な評価を可能にした。

    Link: https://arxiv.org/abs/2412.03077

  • 物理ベース編集のための単一画像逆レンダリング:Materialist [cs.CV, cs.AI, cs.GR]目的:単一画像からの物理ベース編集手法
    • 画像編集はコンピュータビジョンの重要な分野であり,現実世界の表現を扱う上で不可欠である。
    • 既存手法は影や屈折の扱いに弱く,物理的に整合性のとれた編集が困難である。
    • 単一画像から物理的に整合性の高い編集を実現し,実用的な応用範囲を広げる。
    • Materialistは,ニューラルネットワークで初期の材質プロパティを予測し,それを厳密に最適化する物理ベースのレンダリングパイプラインである。
    • 材質編集,オブジェクト挿入,ライティング変更など,様々な応用が可能であり,レイトレーシングによる屈折編集も実現した。
    • 合成データセットと実世界のデータセットの両方で優れた性能を示し,難しい外域画像でも高い精度を保った。

    Link: https://arxiv.org/abs/2501.03717

  • 二段階深層強化学習による衝突回避型物体目標視覚ナビゲーション [cs.RO, cs.CV]目的:物体目標視覚ナビゲーションにおける衝突回避性能の向上
    • ロボットの自律移動において,環境認識と安全な経路計画は不可欠である。
    • 既存のナビゲーション手法では,衝突を考慮せず,実用性に課題がある。
    • 衝突を明示的に考慮した評価指標と学習フレームワークを提案し,安全性を高める。
    • 衝突回避成功率(CF-SR)と,経路長を考慮した衝突回避成功率(CF-SPL)という新しい評価指標を導入した。
    • 二段階の深層強化学習フレームワークにより,衝突予測能力を獲得し,安全なナビゲーションを実現した。
    • AI2-THOR環境での実験と実機実験により,提案手法の有効性と汎用性が確認された。

    Link: https://arxiv.org/abs/2502.13498

  • ビデオインタラクションにおけるプライバシー保護共感性検出 [cs.ET, cs.CV, cs.HC, cs.LG]目的:ビデオインタラクションからの共感性検出
    • 人間とロボットの協調やメンタルヘルスケアなど,共感性の自動検出の応用範囲は広い。
    • プライバシー保護の観点から,学習用の生のビデオデータを入手することが困難である。
    • プライバシーを保護しつつ,高精度な共感性検出を実現する手法を開発する。
    • 提案手法TFMPathyは,プライバシー保護されたデータを用いて,既存手法を大幅に上回る性能を達成した。
    • 特に,Tabular Foundation Models (TFMs)のファインチューニングにより,汎化性能が大幅に向上した。
    • 時間的な特徴量を集約することで,個人情報や属性情報の漏洩を抑制し,データ最小化の原則に沿ったシステム構築が可能となった。

    Link: https://arxiv.org/abs/2504.10808

  • コンセンサスエントロピー:複数VLM合意を活用した自己検証・自己改善型OCR [cs.CV, cs.MM]目的:複数VLM間の合意に基づく出力信頼性推定
    • OCRはVLMやLLM学習のデータ品質に不可欠であり,その精度向上は重要である。
    • 既存VLMはサンプルレベルの誤りを検出しにくく,非教師あり品質管理が課題である。
    • VLM間の合意度に着目し,出力の信頼性を評価することで,OCRの品質向上を目指す。
    • 提案手法であるコンセンサスエントロピー(CE)は,VLM-as-Judgeと比較してF1スコアを42.1%向上させた。
    • CE-OCRは,自己整合性や単一モデルのベースラインを凌駕するOCR性能を,同等のコストで実現した。
    • CEは学習や教師データ不要で,既存システムへの容易な組み込みが可能である。

    Link: https://arxiv.org/abs/2504.11101

  • アラインメントとロバストな拡張を用いた固定長高密度指紋表現 [cs.CV]目的:固定長指紋表現の設計と,それを用いた指紋照合フレームワーク
    • 指紋認証は,個人識別に広く利用されており,セキュリティにおいて重要な役割を担う。
    • 多様な指紋の特性,姿勢変化,ノイズの影響に対応するロバストな表現の設計が課題である。
    • 様々な指紋モダリティ,姿勢,品質に対応可能な,ロバストかつ高精度な表現手法を確立する。
    • 提案手法FLAREは,ロール,プレーン,潜像,非接触指紋など,多様な指紋モダリティにおいて既存手法を上回る性能を示す。
    • 固定長高密度記述子は,指紋のリッジ構造間の空間的関係を効果的に捉え,ロバストかつ局所的に識別可能な表現を実現する。
    • 姿勢に基づくアラインメントとデュアルエンハンスメントにより,記述子の精度が向上し,高速かつ正確な類似度計算が可能となる。

    Link: https://arxiv.org/abs/2505.03597

  • UniMoCo:堅牢なマルチモーダル埋め込みのための統一されたモーダリティ補完 [cs.FL, cs.CV]目的:マルチモーダル埋め込みにおける性能向上
    • 画像とテキストの組み合わせは,情報検索など多くの応用で重要であり,その性能向上は不可欠である。
    • 既存手法では,多様なモーダリティの組み合わせに対応できず,特に稀なパターンで性能が低下する問題がある。
    • 多様なモーダリティ組み合わせに対する,一貫性と堅牢性を備えた埋め込み表現を実現することを目指す。
    • UniMoCoは,テキストから視覚特徴を生成するモーダリティ補完モジュールを導入し,クエリとターゲットのモーダリティの完全性を保証する。
    • UniMoCoは,オリジナル入力とモーダリティ補完された入力からの埋め込みを整合させることで,多様な組み合わせに対して堅牢な埋め込み表現を学習する。
    • 実験により,UniMoCoは既存手法を凌駕し,様々な設定で一貫した堅牢性を示すことが示された。また,学習データ内のモーダリティ組み合わせの不均衡によるバイアスを軽減する効果も確認された。

    Link: https://arxiv.org/abs/2505.11815

  • Vision-EKIPL:視覚的推論のための外部知識注入型方策学習 [cs.CV]目的:視覚的推論における方策学習の性能向上
    • 複雑なマルチモーダルデータを理解し,汎用人工知能の発展に不可欠な研究分野である。
    • 既存の強化学習アプローチは,方策モデルのみから行動をサンプリングし,推論能力に限界がある。
    • 外部モデルからの知識注入により,方策学習の探索空間を拡大し,推論能力を向上させることを目指す。
    • 提案手法Vision-EKIPLは,Reason-RFT-CoT Benchmarkで最先端技術と比較して最大5%の性能向上を達成した。
    • 従来の強化学習法の限界を克服し,マルチモーダル大規模言語モデルの視覚的推論性能を大幅に向上させる。
    • この研究は,この分野における新たな有効なパラダイムを提供する。

    Link: https://arxiv.org/abs/2506.06856

  • 不完全または不正確な承認投票による多様な委員会 [cs.GT]目的:承認制委員会選挙における多様性の研究
    • 委員会選出は民主的な意思決定の基盤であり,その質が社会の機能に大きく影響する。
    • 投票者の情報が不完全または不正確である場合,最適な委員会の選出が困難となる。
    • 不完全・不正確な情報下でも,効率的に多様な委員会を選出する方法を確立すること。
    • 不完全な情報下では,最適な近似率に近づくためにはΩ(m^2)の非適応的クエリが必要となる。
    • 適応的なクエリ戦略を用いることで,クエリ数をΩ(m)まで削減できることが示された。
    • マトロイド制約下での最大被覆問題に対しても,同様のΩ(m)のクエリ数で解けるアルゴリズムが提案された。

    Link: https://arxiv.org/abs/2506.10843

  • 図形から動物へ:自然なシルエットからの創造的な動物生成 [cs.CV]目的:自然なシルエットからの動物生成手法
    • 人間は曖昧な刺激から意味のあるパターンを認識する能力を持つ。この能力を模倣する試みは,創造性の解明に繋がる。
    • 既存手法では,形状と意味の関連性を学習し,多様な形状に対して創造的な動物画像を生成することが困難であった。
    • 自然なシルエットを動物の形として解釈し,視覚的に一貫性のある画像を生成することで,この課題を解決することを目指す。
    • 提案手法Shape2Animalは,雲や石などのシルエットを動物として再解釈する自動化フレームワークである。
    • オープンボキャブラリセグメンテーションとVision-Languageモデルを活用し,入力形状に合致する動物画像を生成する。
    • 多様な実世界入力に対する頑健性と創造性が評価され,視覚的ストーリーテリング,教育コンテンツ等への応用が期待される。

    Link: https://arxiv.org/abs/2506.20616

  • FaSTA$^*$: サブルーチンマイニングを用いた高速・低コストな多段階画像編集ツール [cs.CV]目的:多段階の画像編集タスクにおける効率的なツールパスの探索
    • 画像編集技術は,コンテンツ制作や画像加工において不可欠であり,その効率化が求められている。
    • 複雑な画像編集タスクでは,計算コストが高く,時間とリソースを要する点が課題である。
    • 本研究は,既存の手法よりも計算効率が良く,より迅速な画像編集を実現することを目指す。
    • 大規模言語モデルによる高速なサブタスク計画と,正確なツール利用および局所探索を組み合わせることで,コスト効率の良いツールパスを生成する。
    • 過去の成功したツールパスから頻繁に使用されるサブルーチンを抽出し,再利用することで,探索コストを大幅に削減する。
    • 最新の画像編集手法と比較して,FaSTA$^*$は計算効率が大幅に向上しつつ,同等の成功率を維持している。

    Link: https://arxiv.org/abs/2506.20911

  • AnyPos:双腕操作のためのタスク非依存アクション [cs.CV, cs.LG, cs.RO]目的:汎用的な操作ポリシーの学習
    • ロボットの知能化において,多様な作業をこなせる能力は不可欠である。
    • ロボット操作のデータは不足しており,特定のロボットに依存し,タスク間の転移が困難である。
    • タスクに依存しない学習により,データ不足を克服し,汎化性能を高めることを目指す。
    • AnyPosは,大規模な自動探索と逆ダイナミクス学習を統合したパイプラインである。
    • テスト精度がベースラインと比較して51%向上し,マイクロ波操作などの成功率が30-40%向上した。
    • データ駆動型の身体モデル化が,視覚運動制御における汎化を可能にする実用的なアプローチであることを示唆する。

    Link: https://arxiv.org/abs/2507.12768

  • PureSample: 微細形状のサンプリングによって学習されたニューラルマテリアル [cs.GR]目的:微細形状上での前方ランダムウォークのサンプリングによるマテリアルの外観学習
    • 現実的な画像生成において,マテリアルの表現は重要な課題である。特に,複雑な光の相互作用を再現するには,正確なBRDFモデリングが不可欠である。
    • 従来の物理ベースマテリアルモデルは,複雑な数式に依存し,モデル固有の導出を必要とするため,汎用性に課題がある。
    • 本研究は,解析的なBRDF評価やサンプリング手法の設計を必要とせず,学習によってマテリアルの外観を表現することを目的とする。
    • PureSampleは,ニューラルBRDF表現を用いて,マテリアルの外観を効率的に学習する。
    • フローマッチングニューラルネットワークと視点依存アルベド項を組み合わせることで,BRDF評価,重要度サンプリング,pdf評価を効率的に行う。
    • 様々な微細形状,多層マテリアル,多重散乱微細面マテリアルにおいて有効性を示す。

    Link: https://arxiv.org/abs/2508.07240

  • UAV-VL-R1:教師ありファインチューニングと多段階GRPOによるビジョン言語モデルの汎化 [cs.CV]目的:UAV(無人航空機)画像に対する視覚的推論のための軽量なビジョン言語モデルの開発
    • 近年,ビジョン言語モデルは自然画像処理で目覚ましい進歩を遂げている。その応用範囲は広い。
    • 汎用的なビジョン言語モデルは,高解像度かつ複雑な空間意味を持つUAV画像に対しては性能が低下する。
    • UAV画像における構造化された視覚的推論タスクへの適用を可能にする,高性能なモデルの実現が求められている。
    • 提案手法UAV-VL-R1は,ゼロショット精度においてQwen2-VL-2B-Instructの48.17%向上,72Bモデルを超える性能を達成した。
    • 教師ありファインチューニングは意味的整合性を向上させる一方,数学的タスクにおける推論の多様性を低下させる可能性がある。
    • GRPOに基づく強化学習は,この制約を補い,論理的な柔軟性と推論の頑健性を高める。

    Link: https://arxiv.org/abs/2508.11196

  • 車内におけるビジョンファウンデーションモデルを用いたスケーラブルな物体検出 [cs.CV]目的:車内における物体検出と位置特定
    • 車内AIは,パーソナルアシスタントの応答品質向上に不可欠であり,その重要性は増している。
    • 車載システムの計算資源は限られており,高性能な物体検出モデルの直接実装を阻害している。
    • 限られた計算資源下で,高性能な物体検出を実現し,車内AIの能力向上に貢献すること。
    • 提案するODALフレームワークは,クラウドとの連携により,車載システムの計算資源制約を克服する。
    • ファインチューニングされたODAL-LLaVAモデルは,ODALスコア89%を達成し,GPT-4oを上回る性能を示した。
    • ファインチューニングにより,検出精度を維持しつつ,幻覚を大幅に低減することに成功した。

    Link: https://arxiv.org/abs/2508.19651

  • 長尺ビデオの知覚,検証,理解:インタラクティブエージェントによるマルチ粒度知覚と能動的検証 [cs.RO, cs.CV]目的:長尺ビデオにおけるマルチ粒度知覚と能動的検証のメカニズム
    • 長尺ビデオの理解は,AIシステムの高度な推論能力を必要とする重要な課題である。
    • 既存手法は,固定的な粒度での知覚パイプラインと,ビジョンと言語の幻覚に課題を抱えている。
    • 人間の適応的な知覚と検証に着想を得て,幻覚を抑制し,効率的な情報抽出を目指す。
    • CogniGPTは,マルチ粒度知覚エージェントと能動的検証エージェントのインタラクティブなループを活用する。
    • EgoSchemaにおいて,既存の学習不要手法を上回り,Gemini 1.5-Proと同等の性能をわずか11.2フレームで達成した。
    • Video-MME,NExT-QA,MovieChatを含む複数のデータセットで,精度と効率性の向上を示すことができた。

    Link: https://arxiv.org/abs/2509.24943