arXiv雑要約

画像・音声 - 2025/12/22 公開

  • TimeSenCLIP:単一ピクセルを用いたリモートセンシングのための時系列Vision-Languageモデル [cs.CV]目的:リモートセンシングにおける時系列データのVision-Languageモデル
    • リモートセンシングは,土地利用・土地被覆の変化把握に不可欠であり,社会課題解決に貢献する。
    • 既存のVision-Languageモデルは,テキストによる教師データの制約や,高解像度画像への偏りが課題である。
    • 時系列データに含まれる情報に着目し,テキストアノテーションなしにリモートセンシング問題を解決する。
    • TimeSenCLIPは,Sentinel-2のマルチスペクトル時系列データと地上の画像データを,時間的対照学習により整合させた。
    • 空間的文脈よりも,時間的・スペクトル的信号を重視したモデルであり,単一ピクセルの時系列情報で多様なタスクを解決可能であることを示した。
    • テキストアノテーションを必要とせず,中解像度リモートセンシング画像において有効であることが確認された。

    Link: https://arxiv.org/abs/2508.11919

  • PhysGM: フィードフォワード4D合成のための大規模物理ガウスモデル [cs.CV]目的:単一画像からの3Dガウス表現と物理的特性の同時予測
    • 物理ベースの3Dモーション合成は,現実的な表現に不可欠であり,その重要性は高い。
    • 既存手法は,時間のかかるシーンごとの最適化や,不安定な最適化に依存しており,効率性と安定性に課題がある。
    • 単一画像から直接物理特性を推論することで,高速かつ高品質な4Dシミュレーションを実現することを目指す。
    • PhysGMは,単一画像から1分以内に高精度な4Dシミュレーションを生成し,既存手法と比較して大幅な高速化を実現した。
    • 物理情報を外観に組み込むことで,最適化に頼らず,より現実的なレンダリングを可能にした。
    • 50K以上の物理的特性と対応する参照ビデオを含むPhysAssetsという新しいデータセットを提案した。

    Link: https://arxiv.org/abs/2508.13911

  • STAGNet:事故予測のための空間的・時間的グラフとLSTMフレームワーク [cs.CV]目的:事故予測の精度向上
    • 道路安全の確保は重要であり,負傷リスク軽減や物的損害の最小化に不可欠である。
    • 高価なセンサーに依存するシステムが多く,コストと導入の容易性に課題がある。
    • ダッシュカム動画のみを用いた,費用対効果の高い事故予測手法を開発する。
    • 提案手法STAGNetは,公開データセットにおいて,既存手法よりも高い平均適合率と事故までの平均時間を達成した。
    • 交差検証および異なるデータセットでの学習・テストにおいても,STAGNetの有効性が確認された。
    • 空間的・時間的特徴を改善し,再帰型ネットワークを通じて集約することで予測精度を向上させた。

    Link: https://arxiv.org/abs/2508.15216

  • 手書きマークシートの最先端デジタル化:ハイブリッドヒューリスティック・深層学習フレームワーク [cs.CV]目的:手書きマークシートのデジタル化手法
    • 教育現場等でのデータ入力効率化が求められており,自動化技術の重要性が増している。
    • 既存の深層学習モデルは高精度だが,計算コストが高く,エッジデバイスでの利用が困難である。
    • 計算資源が限られた環境でも,高精度かつ高速なマークシートデジタル化を実現すること。
    • 提案手法では,OpenCVによる高速なテーブル構造検出と,軽量なYOLOv8による文字認識を組み合わせた。
    • EMNISTデータセットにおいて,修正されたYOLOv8モデルが97.5%の認識精度を達成した。
    • 標準的なOCRパイプラインと比較して95倍の推論速度向上,Qwen2.5-VL等の大規模モデルよりも大幅な効率改善を実現し,CPU上で29FPSのリアルタイム処理が可能となった。

    Link: https://arxiv.org/abs/2508.16295

  • 生成AIのための言語に基づいた疎なエンコーダによる人間らしいコンテンツ分析 [cs.CV]目的:生成AI生成コンテンツの分析・評価方法
    • 生成AI技術は急速に進歩し,コンテンツ作成やコミュニケーションに大きな影響を与えている。
    • 既存の分析手法は画像全体を扱うため,局所的な問題を見逃しがちである。
    • 言語に基づいた視覚パターンを分解し,より詳細な分析を可能にすること。
    • 提案手法LanSEは,画像を解釈可能な視覚パターンと自然言語記述に分解できる。
    • 5,000以上の視覚パターンを発見し,93%の人間の合意率を得た。
    • 既存手法を上回る分解評価と,物理的妥当性の体系的な評価を初めて実現した。

    Link: https://arxiv.org/abs/2508.18236

  • 音声からの神経・呼吸器疾患スクリーニングのための統合音響表現 [cs.SD, cs.LG]目的:神経・呼吸器疾患の音声によるスクリーニング
    • 音声は疾患の早期発見に有用であり,大規模なスクリーニングを可能とする。
    • 既存の手法は単一の疾患に焦点を当て,音声に含まれる多様な情報を十分に活用できていない。
    • 複数の疾患を同時にスクリーニング可能な,統合的なモデルの構築を目指す。
    • 提案手法MARVELは,9種類の神経・呼吸器疾患を同時に検出可能である。
    • 大規模データセットにおいて,全体でAUROC 0.78を達成し,特に神経疾患(AUROC = 0.89)において高い性能を示した。
    • 既存の単一モデルや自己教師あり学習モデルを上回り,臨床的に認知された音響パターンとの整合性も示された。

    Link: https://arxiv.org/abs/2508.20717

  • FakeParts:新たなAI生成ディープフェイクのファミリー [cs.CV, cs.AI, cs.MM]目的:部分的なディープフェイクの特性と検出の課題
    • 映像の信頼性は重要であり,偽造技術の進化に対応した検証が不可欠である。
    • 従来のディープフェイク検出技術は,完全な合成映像に偏っており,部分的な操作に弱い。
    • 部分的なディープフェイクの検出精度低下を明らかにし,対策技術開発を促す。
    • 本研究では,既存の検出器において,FakePartsは最先端モデルの性能を最大26%低下させることを示した。
    • FakePartsBenchは,部分的なディープフェイクを網羅的に評価するための大規模なベンチマークデータセットである。
    • 人間の検出精度も低下することから,部分的な操作が巧妙な偽造技術であることを実証した。

    Link: https://arxiv.org/abs/2508.21052

  • SGS-3D:信頼性の高いセマンティックマスク分割と成長による高精度3Dインスタンスセグメンテーション [cs.CV]目的:高精度な3Dインスタンスセグメンテーションの実現
    • 3Dビジョン分野において,高品質なシーン理解には正確な3Dインスタンスセグメンテーションが不可欠である。
    • 2D-to-3Dリフティングに基づく手法では,リフティング過程での誤差蓄積により,正確なインスタンスレベルのセグメンテーションが困難である。
    • 曖昧なセマンティックガイダンスと不十分な深度制約による問題を解決し,高精度な3Dインスタンスセグメンテーションを可能にする。
    • 提案手法SGS-3Dは,「分割後成長」のフレームワークにより,曖昧なリフティングマスクを精製・分割し,完全なインスタンスへと成長させる。
    • 既存手法とは異なり,SGS-3Dは学習を必要としない改良手法であり,セマンティック情報と幾何学的情報の融合により効果的な協調を実現する。
    • ScanNet200,ScanNet++,KITTI-360での実験により,SGS-3Dがセグメンテーション精度とロバスト性を大幅に向上させることが示された。

    Link: https://arxiv.org/abs/2509.05144

  • データを用いない学習のための言語自己対戦 [cs.AI, cs.CL, cs.GT]目的:データを用いない学習手法
    • 大規模言語モデルの発展には大量のデータが不可欠であり,その入手がボトルネックとなっている。
    • 既存手法では,モデルの性能向上には継続的なデータ供給が必要である。
    • 追加データなしでモデルの性能を向上させる方法を模索する。
    • 言語自己対戦(LSP)というゲーム理論的枠組みを導入し,モデルが自己対戦を通じて能力を向上させることを可能にした。
    • 事前学習済みモデルに対し,自己対戦のみで指示応答,数学,コーディングのベンチマークにおいて性能向上が確認された。
    • Llama-3.2-3B-Instructを用いて,データ依存性を克服できることを示した。

    Link: https://arxiv.org/abs/2509.07414

  • 基礎セグメンテーションモデルとテキスト-画像注意によるゼロショット階層植物セグメンテーション [cs.CV]目的:ゼロショット階層植物セグメンテーション手法
    • 植物の生育状況把握には,個体識別が不可欠であり,精密なセグメンテーション技術が求められる。
    • 植物個体のセグメンテーションは,アノテーション付きデータセットが必要で,労力とコストがかかる。
    • アノテーションなしで,植物個体を高精度にセグメンテーションすること。
    • 提案手法ZeroPlantSegは,追加学習なしで,様々な植物種や生育段階で高い性能を示す。
    • 既存のゼロショット手法を上回り,教師あり学習手法よりも優れた汎化性能を達成した。
    • 基礎セグメンテーションモデルとビジョン言語モデルを組み合わせることで,植物個体の構造を効果的に捉えた。

    Link: https://arxiv.org/abs/2509.09116

  • 多解剖学的X線画像汎用モデル [cs.CV, cs.AI]目的:多解剖学的X線画像における汎用モデルの構築
    • X線画像は臨床において広く利用されており,医療AI技術の発展に不可欠である。
    • 既存のAI汎用モデルは胸部解剖学に限定され,多様な臨床タスクへの応用が困難である。
    • 多様な解剖学的領域に対応可能な,より汎用性の高い医療画像AIモデルの開発を目指す。
    • XR-0は,12のデータセットと20のタスクで最先端の性能を示す多解剖学的X線画像汎用モデルである。
    • 特に多様な解剖学的領域でのタスクにおいて優れた性能を発揮し,胸部領域のベンチマークでも競争力を持つ。
    • 解剖学的多様性と教師あり学習が,堅牢で汎用的な医療画像AIモデル構築に重要であることが示された。

    Link: https://arxiv.org/abs/2509.12146

  • Fun-ASR技術報告 [cs.CL, cs.AI, cs.SD, eess.AS]目的:大規模言語モデルに基づく音声自動認識システムの開発
    • 音声自動認識は,データ量,モデルサイズ,大規模言語モデルとの統合により急速に進歩している。
    • 大規模言語モデルは幻覚を起こしやすく,実用的な音声自動認識アプリケーションの品質を低下させる可能性がある。
    • 実用的なアプリケーション要件に最適化された高性能な音声自動認識システムを構築すること。
    • Fun-ASRは,大規模データ,大規模モデル,大規模言語モデルとの統合,強化学習を組み合わせることで,最先端の性能を実現した。
    • 既存の大規模言語モデルに基づく音声自動認識システムは,オープンソースのベンチマークでは高い性能を示すものの,実際の産業用評価セットでは性能が低下することが多い。
    • Fun-ASRは,実運用に焦点を当てた最適化により,実際のアプリケーションデータセットで最先端の性能を達成し,実用性とその堅牢性を示した。

    Link: https://arxiv.org/abs/2509.12508

  • オンライン強化学習による盲目顔復元性能の向上 [cs.CL, cs.CV]目的:盲目顔復元における性能向上
    • 顔画像処理技術は,監視,認証,コミュニケーションなど,様々な分野で不可欠である。
    • 盲目顔復元は解空間が広大であり,欠落した詳細や個人識別に関する問題が頻発する。
    • 高画質の復元結果を得るため,強化学習による探索能力の向上を目指す。
    • 提案手法LRPOは,強化学習を盲目顔復元に適用する初の試みであり,有望な結果を示した。
    • 複合報酬関数,事前知識に基づく正則化,ノイズレベルの利点割り当てにより,知覚品質と忠実度のバランスを取っている。
    • 実験により,LRPOが既存手法を上回り,最先端の性能を達成することが示された。

    Link: https://arxiv.org/abs/2509.23339

  • G2L:知識蒸留によるギガスケールから癌特化大規模病理基盤モデルへ [cs.CV, cs.AI]目的:癌特化タスクにおけるギガスケールモデルに匹敵する性能を持つ大規模病理基盤モデルの構築
    • 病理画像解析において,大規模なデータとモデルは性能向上に不可欠である。
    • ギガスケールモデルは計算コストが高く,実用上の課題が多い。
    • 知識蒸留により,計算コストを抑えつつギガスケールモデルの性能を実現する。
    • 知識蒸留フレームワークG2Lを開発し,大規模モデルがギガスケールモデルと同等の性能を発揮することを示した。
    • G2Lは,一部のベンチマークにおいてギガスケールモデルや巨大スケールモデルを上回る性能を示した。
    • 蒸留モデルは,画像変動に対する高いロバスト性を示し,多施設間での応用可能性を示唆した。

    Link: https://arxiv.org/abs/2510.11176

  • EDVD-LLaMA:マルチモーダル大規模言語モデル推論による説明可能なディープフェイク動画検出 [cs.CV, cs.AI]目的:説明可能なディープフェイク動画検出タスクと,そのためのマルチモーダル大規模言語モデル推論フレームワーク
    • ディープフェイク技術の急速な発展は,創作活動を促進する一方で,誤情報の拡散を容易にしている。
    • 従来のディープフェイク動画検出手法は,原理の透明性や,高度化する偽造技術への対応能力が不足している。
    • 偽造されたコンテンツの識別と,検証可能な根拠の説明を可能にする検出器の開発。
    • EDVD-LLaMAは,空間的・時間的微細情報トークン化により,動画のグローバル・ローカルな特徴を抽出し,大規模言語モデルの推論に貢献する。
    • ファイングレインドマルチモーダルChain-of-Thought機構により,顔の特徴データを制約として用いることで,ピクセルレベルでの動画局在化と,信頼性の高い推論を実現する。
    • 提案手法は,検出精度,説明可能性,そして異なる偽造手法やデータセットへの対応において,優れた性能と頑健性を示す。

    Link: https://arxiv.org/abs/2510.16442

  • CharDiff-LP:文字レベルガイダンスによるナンバープレート画像復元拡散モデル [cs.CV, cs.AI]目的:ナンバープレート画像復元および認識の性能向上
    • ナンバープレート認識の前処理として重要であり,証拠能力向上や視認性改善に寄与する。
    • 低品質なナンバープレート画像の復元は困難であり,認識精度が著しく低下する。
    • 現実的な条件下で撮影された低品質なナンバープレート画像の復元・認識を改善する。
    • CharDiff-LPは,外部セグメンテーションとOCRモジュールから抽出された文字レベルの事前知識を活用することで,画像復元と認識の両方で優れた性能を示す。
    • 提案手法は,文字領域に特化した注意機構CHARMを導入し,各文字のガイダンスが干渉することなく効果的に機能する。
    • Roboflow-LPデータセットにおいて,ベースライン手法と比較して文字誤り率を28.3%相対的に削減することに成功した。

    Link: https://arxiv.org/abs/2510.17330

  • 多様な条件付き画像生成のためのGFlowNetsによる潜在グラフの発見 [cs.CC, math.AC, math.CT, math.RA, cs.IR, cs.CV, cs.AI]目的:多様な条件付き画像生成のための手法
    • 画像生成の分野では,多様性の確保が重要であり,特に条件に曖昧性が含まれる場合に顕著である。
    • 既存手法では,ランダムシードの変更やプロンプトの多様化に限界があり,意味のある差異を捉えにくいという課題がある。
    • 条件やプロンプトの曖昧性を捉え,多様な画像を生成する新たなフレームワークを提案し,その解決を目指す。
    • 本研究では,GFlowNetsを用いて潜在グラフを導入し,条件を多様な潜在表現に分解することで,多様な画像を生成するRainbowというフレームワークを提案した。
    • Rainbowは,自然画像および医療画像データセットにおいて,画像合成,生成,反実仮想生成タスクにおいて,多様性と忠実度の両方の向上を示すことが示された。
    • GFlowNetsのグラフサンプリング能力を活用し,条件の不確実性を捉え,多様な軌跡を生成することで,多様な条件表現とそれに対応する出力画像を生成する。

    Link: https://arxiv.org/abs/2510.22107

  • スパゲッティブリッジの荷重予測のための画像に基づく物理情報ニューラルネットワーク [cs.LG, cs.CV]目的:スパゲッティブリッジの荷重予測
    • 構造工学において,データが限られている場合でも物理法則を組み込むことは重要である。
    • 軽量構造物の設計において,初期段階での故障分析が難しい場合がある。
    • 本研究は,限られたデータでも信頼性の高い構造物の荷重予測を可能にすることを目指す。
    • 提案する物理情報Kolmogorov-Arnoldネットワーク(PIKAN)は,物理的洞察と普遍関数近似理論を融合させている。
    • 実験結果として,R^2スコア0.9603,平均絶対誤差(MAE)10.50を達成した。
    • ウェブベースのインターフェースにより,パラメータ入力と予測が容易に行える。

    Link: https://arxiv.org/abs/2510.23117

  • フローマッチングの生成段階:ノイズ除去の視点 [cs.CV, cs.AI, cs.LG]目的:フローマッチングの生成過程における品質に影響を与える要因の解明
    • 生成モデルの性能向上は,画像生成やデータ拡張など広範な応用分野において重要である。
    • フローマッチングの生成過程が複雑であり,その品質を決定する要因が不明確である。
    • 生成過程をノイズ除去の視点から分析し,各段階の特性を明らかにすることで,生成品質の改善に貢献する。
    • フローマッチングモデルとノイズ除去器の間の形式的な関係性を明らかにし,生成とノイズ除去の性能を比較する共通基盤を構築した。
    • ノイズとドリフトという制御された摂動を導入することで,生成過程における異なる動的段階を特定し,その特性を分析した。
    • ノイズ除去器が生成過程のどの段階で成功または失敗するかを明確に示し,その理由を説明することで,生成モデルの改善に繋がる洞察を得た。

    Link: https://arxiv.org/abs/2510.24830

  • あらゆる体型のためのヒューマンメッシュモデリング [cs.CG, eess.SY, cs.SY, cs.CV]目的:ヒューマンセントリックタスクのための構造的基盤を提供するパラメトリックボディモデル
    • 人間中心の応用は重要であり,そのためには正確な人体モデルが不可欠である。
    • 既存のモデルは高価な3Dスキャンに依存し,多様性に欠けることが課題である。
    • 広く利用可能で,多様な体型を表現できる人体モデルを開発すること。
    • Annyは,MakeHumanコミュニティの計測学的知識に基づいた,シンプルで完全に微分可能なスキャンフリーのヒューマンボディモデルである。
    • Annyは,性別,年齢,身長,体重などの表現型パラメータによって制御される,連続的で解釈可能な形状空間を提供する。
    • WHOの統計データで校正されており,ミリメートル単位の精度でスキャンデータに適合し,合成データ生成やHuman Mesh Recovery (HMR)をサポートする。

    Link: https://arxiv.org/abs/2511.03589

  • CLAReSNet:畳み込みと潜在的注意の融合によるハイパースペクトル画像分類 [cs.CV, cs.AI, cs.LG]目的:ハイパースペクトル画像分類のための新しいハイブリッドアーキテクチャの提案
    • ハイパースペクトル画像は,地表の物質を詳細に識別可能であり,精密農業や環境モニタリング等に不可欠である。
    • 高次元のスペクトル情報や複雑な空間相関,そして学習データ不足・クラス不均衡が分類精度向上を妨げる課題となっている。
    • 畳み込みニューラルネットワークとTransformerの長所を組み合わせ,効率的かつ高精度な分類を実現することを試みる。
    • CLAReSNetは,多段階の畳み込み抽出とTransformer形式の注意機構を潜在的ボトルネックを通じて統合した新しいアーキテクチャである。
    • Indian PinesデータセットおよびSalinasデータセットにおいて,既存手法を大幅に上回る最先端の分類精度(それぞれ99.71%と99.96%)を達成した。
    • 学習された埋め込み表現は,クラス間分離度が高く,クラス内凝集性が良好であり,クラス不均衡下でも有効であることが示された。

    Link: https://arxiv.org/abs/2511.12346

  • 多コントラストMRI超解像のための畳み込み辞書特徴解結合に基づくデュアルプロンプト専門家ネットワーク [cs.CV]目的:多コントラストMRI超解像における高解像度画像再構成
    • MRI超解像は,早期診断や臨床判断に不可欠な解剖学的詳細と軟部組織の識別能を向上させる。
    • 異なるコントラスト間の相違が,参照画像テクスチャの有効活用を妨げ,特徴統合の最適化が課題である。
    • コントラスト間の特徴冗長性と干渉を低減し,高精度な再構成を実現する手法を開発する。
    • 提案手法CD-DPEは,公開されている多コントラストMRIデータセットにおいて,最先端の手法と比較して詳細な再構成性能が向上した。
    • 畳み込み辞書特徴解結合モジュール(CD-FDM)により,クロスカントラスト特徴とイントラコントラスト特徴を分離し,冗長性と干渉を抑制した。
    • 新しいデュアルプロンプト特徴融合専門家モジュール(DP-FFEM)が,関連参照特徴の選択と特徴融合方法の最適化に貢献した。

    Link: https://arxiv.org/abs/2511.14014

  • 学習プラットフォームにおける先読み推論 [cs.LG, cs.GT, stat.ML]目的:学習プラットフォームにおける戦略的ユーザー行動の分析
    • 学習プラットフォームは教育に不可欠だが,その最適化基準が必ずしも学習者本位ではない。
    • プラットフォームのモデルへの戦略的な対応は研究されているが,他のユーザーとの相互作用は考慮されていない。
    • ユーザー間の連動性を考慮した先読み推論による行動分析と,その効果を明らかにすること。
    • レベルk思考の定式化により,ユーザーが相手の行動を予測する行動を分析した。
    • 先読み推論は均衡への収束を加速するものの,長期的な個人の利益には繋がらないことが示された。
    • 協調行動と利己的行動を比較することで,協調のメリットと限界,そして学習者とユーザーの利益の一致が明らかになった。

    Link: https://arxiv.org/abs/2511.14745

  • FlowerDance:効率的かつ洗練された3Dダンス生成のためのMeanFlow [cs.CV]目的:音楽からダンスを生成する手法
    • VR,振付,デジタルエンターテインメント等への応用が期待される研究分野である。
    • 既存手法の生成効率が低く,リアルタイムな高品質3Dレンダリングが困難である。
    • 生成効率とモーション品質の両立を目指し,より表現豊かなダンス生成を実現する。
    • FlowerDanceは,MeanFlowと物理整合性制約を組み合わせることで,少ないステップ数で高品質なモーション生成を可能にする。
    • BiMambaベースのシンプルなモデルアーキテクチャとチャネルレベルのクロスモーダル融合により,効率的な非自己回帰的なダンス生成を実現する。
    • AIST++とFineDanceでの実験により,モーション品質と生成効率の両方で最先端の結果を達成した。

    Link: https://arxiv.org/abs/2511.21029

  • MILE:指先視触覚センシングを備えた機械的に同型な外骨格データ収集システム - 巧妙な操作のために [cs.RO, cs.CV, cs.HC]目的:巧妙な手の操作のための大規模かつ高精度なデータセットの収集
    • 模倣学習は高度な手の操作に有効だが,大規模で高精度なデータの不足が課題となっている。
    • 既存のデータ収集パイプラインは,モーションリターゲットの精度が低く,効率が悪く,高解像度な指先の触覚センシングが不足している。
    • MILEは,人間,外骨格,ロボットハンド間の機械的同型性を活かし,これらの問題を解決することを目指す。
    • MILEは,人間とロボットハンド間の関節位置の1対1の同型性を維持し,非線形リターゲットを不要にすることで,正確で自然な制御を可能にする。
    • MILEを用いて,複雑なインハンドマニピュレーションをテレ操作し,高解像度な指先視触覚信号,RGB-D画像,関節位置を含むマルチモーダルデータセットを効率的に収集した。
    • テレ操作パイプラインの成功率は64%向上し,指先の触覚情報は,視覚のみの場合と比較して成功率を平均25%向上させた。

    Link: https://arxiv.org/abs/2512.00324

  • 胎児MRIにおける等変対称性に基づいた頭部姿勢推定 [cs.CV]目的:胎児MRIにおける頭部姿勢推定手法
    • 胎児MRIは,診断において重要な役割を果たすが,胎児の動きが課題となる。
    • 既存手法は,解剖学的対称性や低解像度,ノイズ,アーチファクトの影響を受けやすい。
    • 本研究は,胎児頭部の解剖学的対称性と剛体姿勢等変性を考慮した手法を開発し,高精度な姿勢推定を目指す。
    • 提案手法E(3)-Poseは,回転等変性および物体の対称性を明示的にモデル化することで,ロバストな姿勢推定を実現する。
    • 公開および臨床データセットを用いた実験により,提案手法が既存手法よりも優れた汎化性能と堅牢性を示すことが確認された。
    • 提案手法は,臨床MRIデータセットにおいて最先端の精度を達成し,臨床応用への道を開く。

    Link: https://arxiv.org/abs/2512.04890

  • CLUENet:クラスタ注意機構がニューラルネットワークに視覚をもたらす [cs.CV]目的:視覚的意味理解のための透明性の高い深層アーキテクチャ
    • 画像認識における性能向上は重要であり,特にモデルの解釈可能性が求められている。
    • 従来の畳み込みや注意機構に基づくモデルは,複雑な構造と解釈の困難さが課題である。
    • クラスタリングの柔軟性と精度,効率性の両立を目指し,学習時の勾配消失問題を解決する。
    • CLUENetは,グローバルなソフト集約とハード割当,特徴量分散機構,改良されたクラスタプーリング戦略により,局所モデリングを強化する。
    • CIFAR-100およびMini-ImageNetにおける実験により,CLUENetは既存のクラスタリング手法や主要な視覚モデルを上回り,精度,効率性,透明性のバランスを実現した。
    • 本研究は,高いモデル透明性が求められるタスクにおいて,新たな選択肢を提供する。

    Link: https://arxiv.org/abs/2512.06345

  • 階層的セマンティックセグメンテーションによる層状歯組織の検出 [cs.CV, cs.AI]目的:層状歯組織の検出のための階層的セマンティックセグメンテーション手法
    • 歯科疾患の段階的診断には,解剖学的構造の正確な理解が不可欠である。
    • 既存の階層対応セグメンテーションは損失関数に依存し,直接的な制御が難しい。
    • 解剖学的階層を明示的に組み込み,詳細な検出を可能にする手法を開発する。
    • 提案手法は,歯層や歯槽骨のセグメンテーションにおいて,IoU,Dice係数,再現率が向上した。
    • 特に微細な解剖構造の検出において,より臨床的に妥当なマスクを生成した。
    • 階層的変種は再現率が向上する一方で,偽陽性も増加する傾向が見られた。

    Link: https://arxiv.org/abs/2512.07984

  • SSCATeR:LiDAR点群における時間的データ再利用による疎な散布畳み込みアルゴリズム [cs.DM, cs.CV]目的:リアルタイム3D物体検出のための効率化
    • 自動運転やロボティクスにおける環境認識の重要性が高まっており,LiDARによる3D物体検出が不可欠である。
    • LiDAR点群処理は計算コストが高く,リアルタイム処理が課題となっている。
    • 点群データの時間的な連続性を活用し,計算量を削減することでリアルタイム性を実現する。
    • 提案手法SSCATeRは,時間的なデータ再利用により,従来の疎な畳み込み手法と同等の性能を維持しつつ,処理時間を最大6.61倍削減した。
    • SSCATeRは,変化のある点群データのみを処理することで,不要な計算を削減し,効率的な物体検出を可能にする。
    • 特徴マップの出力結果は,従来の疎な畳み込み手法と一致することを確認した。

    Link: https://arxiv.org/abs/2512.08557

  • 地震データ処理における文脈学習 [cs.CV, cs.LG]目的:地震データ処理における文脈学習の有効性検証
    • 地震探査は資源探査や地殻構造解明に不可欠であり,高品質な地下画像構築が重要である。
    • 従来の地震データ処理はノイズの影響を受けやすく,パラメータ調整に専門知識と手間がかかる。
    • 空間的な一貫性を保ちつつ,ユーザー制御可能な地震データ処理手法を開発すること。
    • ContextSeisNetは,U-Netと比較して合成データにおいて定量的に優れており,隣接するギャザー間の空間的なコヒーレンスが向上している。
    • 実際の地震データにおいて,ContextSeisNetは従来のRadon処理やU-Netと比較して,より優れた空間的な一貫性を示した。
    • ContextSeisNetはU-Netよりも少ないデータ量で同等の性能を達成しており,高いデータ効率を示す。

    Link: https://arxiv.org/abs/2512.11575

  • 目的地よりも過程:スローシンキングにおける視覚的忠実性の重要性 [cs.CV, cs.CL, cs.LG]目的:視覚言語モデルにおける推論過程の視覚的忠実性
    • マルチモーダルな推論能力の向上は,画像と言語を組み合わせた高度なAIシステムにとって不可欠である。
    • 既存の評価指標では,推論過程の妥当性と最終的な正答率を分離して評価できない。
    • 推論過程における視覚的根拠の確認と,不正確な過程の自動修正を目指す。
    • 推論過程を認識と推論のステップに分解し,既存の視覚言語モデルを用いてステップごとの忠実性を評価するフレームワークを提案。
    • このフレームワークに基づき,視覚的に不忠実な認識ステップを検出・再生成する軽量な自己反省メカニズムを開発。
    • 複数のモデルで,最終的な正答率を維持しつつ,不忠実な認識率を低減できることを確認。

    Link: https://arxiv.org/abs/2512.12218

  • SportsGPT:LLM駆動による解釈可能なスポーツモーション評価とトレーニング指導フレームワーク [cs.CV, cs.AI]目的:スポーツモーションの解釈可能な評価とトレーニング指導
    • スポーツ科学分野において,運動能力の客観的評価と個別最適化された指導が重要視されている。
    • 既存システムは得点化や可視化に偏り,詳細なパフォーマンス診断や具体的な指導が不足している。
    • LLMを活用し,運動データに基づいた専門的な診断と指導を自動化することを目指す。
    • 提案手法MotionDTWは,従来のアルゴリズムと比較して,時間的誤差が少なく,IoUスコアが高いことが示された。
    • KISMAMとSportsRAGのアブレーションスタディにより,SportsGPTが汎用LLMよりも診断精度と専門性が高いことが確認された。
    • SportsGPTは,モーションデータから専門的なトレーニング指導を生成する閉ループシステムを実現した。

    Link: https://arxiv.org/abs/2512.14121

  • ナノバナナProは万能な低レベルビジョンソルバーか?14のタスクと40のデータセットによる包括的評価 [cs.CV]目的:テキスト画像生成モデル,ナノバナナProの低レベルビジョン課題に対する汎用性評価
    • 画像生成技術の急速な発展は,視覚コンテンツ作成に革命をもたらしている。
    • 既存のモデルは特定のタスクに特化しており,汎用的な低レベルビジョン課題への対応が課題である。
    • ナノバナナProの低レベルビジョンにおける潜在能力を評価し,汎用性の限界を明らかにする。
    • ナノバナナProは,主観的な視覚品質において専門モデルを上回る結果を示した。
    • 一方で,従来の評価指標に基づく定量的な性能は専門モデルに劣る傾向が見られた。
    • この乖離は,生成モデルの確率的な性質に起因し,ピクセルレベルの一貫性を維持することが難しいためと考えられる。

    Link: https://arxiv.org/abs/2512.15110

  • 単一画像からの2D-3Dアラインメントされたプロキシ埋め込みによる制御可能な3D-Awareアニメーション合成 [cs.CV]目的:単一画像からの制御可能な3Dアニメーション生成
    • 現代のビジュアルメディアにおいて3Dアニメーションは不可欠だが,従来の制作はコストと専門知識が必要である。
    • 近年のAIGC手法は自動化を進めるが,3Dパイプラインのコストや,3D制御の犠牲を伴う場合がある。
    • レンダリング品質と3D制御のトレードオフを解消し,軽量な3Dアニメーション生成を目指す。
    • 本手法は,幾何学的な制御と外観合成を分離する軽量な3Dアニメーションフレームワークを提案する。
    • 2D-3Dアラインメントされたプロキシ表現を用いることで,正確な幾何学や高コストな最適化なしに,従来のパイプラインに匹敵する3D制御と相互作用を実現する。
    • 実験により,低消費電力プラットフォーム上での効率的なアニメーション生成,および既存のビデオベース手法に対する優位性が示された。

    Link: https://arxiv.org/abs/2512.15126

  • MiVLA:人間とロボットの相互模倣事前学習による汎化性能の高い視覚言語行動モデル [cs.RO, cs.CV]目的:視覚言語行動モデルの汎化性能向上
    • ロボットの自律的な行動を実現するには,現実世界のデータが不可欠だが,その収集は困難である。
    • 既存の視覚言語行動モデルは,カメラ視点や外観,ロボットの形態の違いに起因する汎化性能の限界を抱える。
    • 人間とロボットの行動類似性を利用し,両者の行動空間を整合させることで汎化性能を高める。
    • MiVLAは,人間とロボットの相互模倣事前学習により,現実世界の人間データとシミュレーションされたロボットデータの多様性を統合する。
    • シミュレーション実験では,最先端のVLAと比較して25%の性能向上を示し,汎化性能の高さが確認された。
    • 現実世界のロボット制御タスクにおいても,14%の性能向上を達成し,MiVLAの有効性が実証された。

    Link: https://arxiv.org/abs/2512.15411

  • Step-GUI技術報告 [cs.CV]目的:GUI自動化のための自己進化型学習パイプラインおよびGUIエージェントの開発
    • GUI自動化は,デジタルインタラクションの効率化に不可欠であり,幅広い応用が期待される。
    • 高品質な学習データの獲得と,アノテーションの信頼性確保が,GUI自動化の大きな課題である。
    • アノテーションコストを削減しつつ,信頼性の高い学習データを自動的に生成することを目指す。
    • 校正されたステップ報酬システムによる自己進化型学習パイプラインにより,アノテーションの精度を90%以上で維持しつつ,コストを10〜100倍削減した。
    • Step-GUIモデル群(4B/8B)は,最先端のGUI性能を達成し,汎用的な能力も維持している (8B: AndroidWorld 80.2%, OSWorld 48.5%, ScreenShot-Pro 62.6%)。
    • GUI-MCPは,プライバシー保護を重視した異機種デバイス間での標準化されたインターフェースを可能にする。

    Link: https://arxiv.org/abs/2512.15431

  • 様式化された合成データ拡張が,破損に対するロバスト性をさらに向上させる [cs.DC, cs.CV, cs.LG]目的:深層視覚モデルの破損に対する脆弱性への対処
    • 画像認識技術は,自動運転や医療診断など,多岐にわたる分野で不可欠である。
    • 現実世界の画像はノイズや劣化の影響を受けやすく,モデルのロバスト性が課題となる。
    • 合成データとスタイル変換を組み合わせることで,ロバスト性の向上を目指す。
    • スタイル変換を適用した合成データは,FID指標では品質が低下するものの,モデルの学習に効果的であることが示された。
    • スタイリゼーションと合成データは互いに補完し合い,TrivialAugment等の手法と組み合わせることで相乗効果が期待できる。
    • CIFAR-10-C, CIFAR-100-C, TinyImageNet-Cにおいて,最先端のロバスト性能を達成した。

    Link: https://arxiv.org/abs/2512.15675

  • mimic-video:汎用的なロボット制御のためのビデオ・アクションモデル(VLAsを超えて) [cs.RO, cs.AI, cs.CV, cs.LG]目的:ロボット制御におけるビデオ・アクションモデルの汎化性能向上
    • ロボットの自律的な動作には,視覚情報と自然言語による指示の理解が不可欠である。
    • 既存の視覚言語行動モデルは,静的なデータで事前学習されており,物理的ダイナミクスの理解が不十分である。
    • 本研究は,ビデオデータを用いて意味と視覚的ダイナミクスを同時に学習し,その課題を解決する。
    • 提案手法mimic-videoは,大規模なインターネットビデオモデルとフローマッチングに基づく行動デコーダを組み合わせる。
    • シミュレーションおよび実世界のロボット操作タスクにおいて,最先端の性能を達成した。
    • サンプル効率を10倍,収束速度を2倍改善し,従来のVLAアーキテクチャを上回った。

    Link: https://arxiv.org/abs/2512.15692

  • 拡散Transformerにおける防御:安全な画像編集 [cs.CV]目的:拡散モデルを用いた画像編集における不正利用からの保護
    • 画像生成技術の発展に伴い,プライバシー侵害のリスクが高まっている。
    • 拡散モデルは強力であるが,個人情報を含む画像の悪用が懸念される。
    • 入力画像への微小な摂動により,拡散モデルの編集能力を抑制する。
    • 提案手法DeContextは,クロスアテンション経路を弱めることで,画像編集を効果的に阻止する。
    • 特に,初期のノイズ除去ステップと特定のTransformerブロックが重要であることが示された。
    • Flux KontextとStep1X-Editの実験により,DeContextの有効性と画像品質の維持が確認された。

    Link: https://arxiv.org/abs/2512.16625

  • ランドマークに基づく包括的な胎児バイオメトリのための多施設・多機器ベンチマークデータセット [cs.CV]目的:胎児バイオメトリに関する臨床的に使用される測定のための専門家による解剖学的ランドマーク注釈を含む,多施設・多機器ベンチマークデータセット
    • 胎児の発育評価は,周産期医療において極めて重要であり,その精度向上は予後改善に直結する。
    • 手動によるランドマーク同定は時間と労力を要し,オペレーター依存性や機器間・施設間でのばらつきが課題である。
    • 本研究は,AI支援による胎児発育評価の信頼性を高めるため,汎用性の高いベンチマークデータセットを提供する。
    • 本データセットは,3つの臨床施設で7種類の超音波装置を用いて取得された4,513件の画像を含み,学習・テストデータ分割と評価コードを公開する。
    • 自動バイオメトリモデルを用いた評価により,単一施設での学習・評価が,多施設でのテストと比較して性能を過大評価することが示された。
    • 本データセットは,胎児バイオメトリにおけるドメイン適応および多施設間汎化を評価するための堅牢なベンチマークとなる。

    Link: https://arxiv.org/abs/2512.16710

  • AI駆動による骨密度評価:老化法則を導くバイオマーカー [eess.SY, cs.SY, cs.CC, physics.med-ph, cs.AI, cs.CV]目的:骨密度をバイオマーカーとして評価するためのAI駆動統計手法の開発
    • 世界的な高齢化が進む中で,生物学的年齢の指標への関心が高まっている。
    • 骨密度の年齢に伴う低下パターンは議論の余地があり,信頼性の高い老化指標とならない。
    • 骨密度の低下パターンを明確化し,老化過程の信頼できる指標を確立すること。
    • AI駆動統計手法により,椎骨の小梁骨における骨質量分布が非ガウス型,単峰性,歪んだ分布を示すことが明らかになった。
    • 骨質量分布の統計的モードを骨密度指標とする「小梁骨密度(TBD)」を新たに定義した。
    • TBD評価により,年齢に伴う骨密度の低下が性別や年齢層を問わず,一貫した指数関数的低下を示すことが示された。

    Link: https://arxiv.org/abs/2308.02815

  • 超低視野角CT再構成のためのマルチスケール拡散モデル [eess.IV, cs.CV]目的:超低視野角CT画像の再構成手法
    • 被ばく線量を低減するCT技術の重要性が高まっている。
    • 視野角が減少すると,画像再構成の質が低下する。
    • 拡散モデルを用いて,超低視野角CT画像の再構成を改善する。
    • 提案手法は,グローバルな情報分布に注目し,ローカルな画像特徴の再構成を促進するマルチスケール拡散モデルを活用している。
    • 包括的サンプリングと選択的疎サンプリング技術を統合し,多様なノイズ分布を抽出することで,画像全体の構造理解を深めている。
    • 実験結果から,提案手法は超低視野角下での画像再構成品質を大幅に向上させ,様々なデータセットで良好な汎化性能を示した。

    Link: https://arxiv.org/abs/2405.05814

  • セカンドプライスオークションにおける入札者の意識向上 [quant-ph, cs.AR, econ.TH, cs.GT]目的:複雑な対象に対する入札における入札者の評価に影響を与える特性の認識
    • オークション理論は,資源配分の効率性を高めるための重要な研究分野である。
    • 入札者が対象の特性を認識していない場合,評価額が歪み,オークション結果に悪影響を及ぼす可能性がある。
    • 入札者の特性認識を向上させることによって,オークション収益を最大化し,資源配分の効率性を改善すること。
    • 売り手は,入札者の特性認識を高めることで,入札者が誤った勝利確率や支払価格を認識することから生じる「認識不足レント」を捕捉できる。
    • 特性の認識度を高める場合,期待される最高額の向上と残りの認識不足入札者のレント維持とのトレードオフが存在する。
    • 特性の認識不足は,入札者が対象の特性を認識していないことに起因する「勝者の呪い」を引き起こす可能性がある。

    Link: https://arxiv.org/abs/2412.12676

  • 眼は全身の健康への窓:古典的手法からオキュロミクスまでの網膜画像に関する調査 [eess.IV, cs.CV]目的:網膜画像技術の進化と,古典的手法からオキュロミクスへの移行
    • 人間の眼は特異な血管構造を持ち,全身の健康状態を反映するため,早期発見や進行監視に重要である。
    • 従来の網膜画像解析には,熟練した専門知識が必要であり,客観的かつ効率的な分析が課題であった。
    • AIを活用した画像解析を統合し,全身の健康状態を非侵襲的に評価する新たな手法を確立すること。
    • 本調査では,網膜画像技術の発展と,AI駆動分析の統合の必要性を明らかにした。
    • オキュロミクスは眼疾患だけでなく全身疾患にも応用可能であり,注目を集めている。
    • オキュロミクスの進歩における課題と,今後の研究の方向性についても議論した。

    Link: https://arxiv.org/abs/2505.04006

  • テキスト誘導による多段階クロス知覚ネットワークを用いた医用画像セグメンテーション [eess.IV, cs.CV]目的:医用画像セグメンテーションにおける精度向上
    • 臨床医学において,診断支援,治療計画,疾患モニタリングに不可欠な役割を担う。
    • 従来のセグメンテーション手法は,対象領域の弱い意味表現に起因する汎化性能の不足に課題がある。
    • テキスト誘導による精度向上を目指し,クロスモーダルな相互作用と特徴表現の強化を図る。
    • 提案手法TMCは,3つの公開データセットにおいて,U-Netや既存のテキスト誘導法を上回る高い性能を示した。
    • QaTa-COV19,MosMedData,Duke-Breast-Cancer-MRI データセットで,それぞれ84.65%,78.39%,88.09%のDiceスコアを達成した。
    • 多段階クロスアテンションモジュールと多段階アライメント損失が,クロスモーダルな意味の一貫性を高めている。

    Link: https://arxiv.org/abs/2506.07475

  • V-Rex:動的KVキャッシュ検索によるリアルタイム動画LLMアクセラレーション [quant-ph, cs.AR, cs.DC, cs.ET, eess.IV, cs.AI, cs.AR, cs.CV, cs.MM]目的:ストリーミング動画LLMの推論加速
    • 動画キャプションや対話エージェントなど,リアルタイムなマルチモーダル処理へのLLM利用が拡大している。
    • 連続する動画入力によりKVキャッシュが肥大化し,計算量やデータ転送量が増加,精度低下を招く。
    • アルゴリズムとハードウェアの両面からボトルネックを解消し,エッジデバイスでのリアルタイム推論を実現する。
    • V-Rexは,動的KVキャッシュ検索アルゴリズムReSVとハードウェアアクセラレータDREを組み合わせたシステムである。
    • ReSVは,動画フレーム間のトークンクラスタリングによりKVキャッシュのメモリ使用量を削減する。
    • エッジ環境において,AGX Orin GPUと比較して1.9~19.7倍の高速化と3.1~18.5倍のエネルギー効率改善を達成した。

    Link: https://arxiv.org/abs/2512.12284