arXiv雑要約

画像・音声 - 2026/05/01 公開

  • ベジェ曲線の高速分割法 [cs.CL, cs.GR, cs.NA, math.NA]目的:ベジェ曲線の分割処理の効率化
    • CAD/CAMやCG等の分野において,ベジェ曲線は形状表現の基本として重要である。
    • 従来の分割アルゴリズムは計算コストが高く,大規模なデータ処理のボトルネックとなり得る。
    • 高速フーリエ変換を利用し,ベジェ曲線の分割処理をより効率的に行う手法を提案する。
    • 高速フーリエ変換を用いることで,従来の分割アルゴリズムよりも計算量を削減できることが示された。
    • 直接的な適用では数値的不安定性が見られたが,修正版アルゴリズムは良好な数値品質を持つことが確認された。
    • ベジェ曲線の制御点を追加した場合,分割処理の更新を高速に行えることが示された。

    Link: https://arxiv.org/abs/2509.15691

  • 肺塞栓症セグメンテーションの再考:既存手法と課題に関するオープンウェイトモデルを用いた研究 [cs.CV]目的:肺塞栓症セグメンテーションアルゴリズムの現状と課題の評価
    • 肺塞栓症は生命を脅かす疾患であり,迅速かつ正確な診断が患者ケアに不可欠である。
    • 既存研究では,データセットの小ささ,再現性の欠如,モデル間比較の不足などが課題となっている。
    • より信頼性の高いセグメンテーション手法を確立し,診断精度の向上に貢献すること。
    • 490例のCTPA画像からなる高品質なデータセットを構築し,9種類のセグメンテーションアーキテクチャを評価した。
    • 3D U-Net(ResNetエンコーディング)がPEセグメンテーションにおいて高い有効性を示すことが確認された。
    • 3Dモデルは2Dモデルに比べて一貫して良好な性能を示し,遠位塞栓症の検出が特に困難であることが示唆された。

    Link: https://arxiv.org/abs/2509.18308

  • 継続学習における可塑性を維持する活性化関数設計 [cs.LG, cs.AI, cs.CV]目的:継続学習における可塑性喪失の緩和
    • 機械学習モデルの性能向上には,学習方法の改善が不可欠である。特に,継続学習はその重要性が増している。
    • 継続学習では,モデルが過去の知識を忘却する「破滅的忘却」に加え,適応能力の低下が問題となる。
    • 本研究では,活性化関数の設計を通じて,継続学習における可塑性喪失を軽減することを試みる。
    • 活性化関数の選択が,アーキテクチャに依存せず,可塑性喪失の緩和に重要な役割を果たすことが示された。
    • Smooth-LeakyとRandomized Smooth-Leakyという2つの活性化関数が,継続学習における適応能力を向上させることが確認された。
    • 活性化関数の形状と適応能力との関連性を示す診断手法が提案され,継続学習における活性化関数設計の指針となる。

    Link: https://arxiv.org/abs/2509.22562

  • 報酬誘導による学習不要な画像編集:最適制御軌道によるアプローチ [cs.CV, cs.AI]目的:報酬誘導画像編集手法
    • 拡散モデルの発展により高精度な画像生成が可能となり,多様な応用が期待されている。
    • 画像編集において,元の画像の情報を維持しつつ報酬を最大化することが課題である。
    • 拡散モデルの逆過程を最適制御問題として捉え,報酬に基づいた編集を実現する。
    • 本手法は,既存の学習不要な報酬誘導ベースラインと比較して,顕著な性能向上を示した。
    • 報酬の最大化と元の画像への忠実性のバランスを改善し,報酬ハッキングを抑制した。
    • 様々な編集タスクにおいて,有効性が確認された。

    Link: https://arxiv.org/abs/2509.25845

  • NashPG:反復的な正則化を用いたNash均衡探索のための方策勾配法 [cs.LG, cs.GT]目的:不完全情報2人零和ゲームにおけるNash均衡の探索
    • マルチエージェント強化学習において,重要な課題であり,戦略的意思決定の基盤となる。
    • 既存手法は,ゲーム木の完全な列挙が必要,あるいは性能の低い内解法に依存する。
    • スケーラブルな方策勾配法に基づく解決策を提供し,実用的なアルゴリズムを開発する。
    • 提案手法NashPGは,Bregmanダイバージェンスの単調減少を保証し,最終的にはNash均衡に収束する。
    • 標準的な方策勾配法を用いて実装され,正則化を方策最適化の目的に直接組み込んでいる。
    • BattleshipやNo-Limit Texas Hold'emのような大規模なゲームにおいても高い平均報酬を達成した。

    Link: https://arxiv.org/abs/2510.18183

  • 医用画像セグメンテーションのための焦点モジュレーションと双方向特徴融合ネットワーク [cs.CV, cs.AI]目的:医用画像セグメンテーションにおける精度向上
    • 臨床診断,治療計画,疾患追跡に不可欠であり,精確な形態・空間情報の提供が治療判断に直結する。
    • CNNは局所的な演算のため,グローバルな文脈情報や長距離依存関係の把握が課題であり,複雑な境界や多様なサイズの構造のセグメンテーション精度が制限される。
    • Transformerの自己注意機構を活用し,CNNの弱点を克服することで,より高精度なセグメンテーションを実現することを目指す。
    • 提案手法FM-BFF-Netは,CNNとTransformerを組み合わせ,焦点モジュレーション注意機構と双方向特徴融合モジュールを導入することで,境界精度の向上と多様な病変へのロバスト性を実現した。
    • 8つの公開データセットでの実験により,FM-BFF-NetはJaccard係数とDice係数において最先端手法を凌駕し,その有効性と適応性が確認された。
    • ポリープ検出,皮膚病変セグメンテーション,超音波画像など,様々な医用画像シナリオにおいて高い性能を示した。

    Link: https://arxiv.org/abs/2510.20933

  • 量子に基づくアーキテクチャを活用した堅牢な診断 [cs.CV]目的:多クラス医療画像分類のためのハイブリッド古典-量子診断フレームワーク
    • 医療診断の精度向上は,患者の早期発見と治療に不可欠であり,医療の質を向上させる上で重要である。
    • 従来の機械学習モデルは,複雑な医療画像から効果的に特徴を抽出する能力に限界がある場合がある。
    • 量子機械学習を用いて,より高精度で効率的な医療画像診断システムの構築を目指す。
    • 提案されたハイブリッドモデルは,腎臓CT分類において99%のテスト精度を達成した。
    • 子宮細胞分類では97%,脳腫瘍分類では99%のテスト精度を示し,古典的CNNを上回る性能を発揮した。
    • 量子エンハンストアーキテクチャが,堅牢かつ効率的な医療診断に貢献する可能性を示唆している。

    Link: https://arxiv.org/abs/2511.12386

  • LM-CartSeg:膝関節軟骨および亜軟骨骨の自動セグメンテーションとラジミクス解析 [cs.CY, eess.SY, cs.SY, cs.RO, cs.CV]目的:膝MRIにおける軟骨と亜軟骨骨を捉えた関心領域(ROI)の自動セグメンテーション,幾何学的側方/内側(L/M)区画化,およびラジミクス解析
    • 膝関節のMRIラジミクスは,疾患の評価や進行のモニタリングにおいて有用な情報を生み出す可能性を秘めている。
    • 既存の研究では,ROIが手動で作成されることが多く,品質管理(QC)が十分に行われていない場合がある。
    • 本研究は,膝関節軟骨と亜軟骨骨の自動セグメンテーションパイプラインを開発し,高品質なROIを生成することを目指す。
    • 後処理により,OAIZIB-CMデータセットにおいて,macro ASSDは2.63mmから0.36mmへ,HD95は25.2から3.35mmへと改善された。
    • 幾何学的L/Mルールは,データセットを横断して安定した区画を生成し,直接的なL/M nnU-Netはドメイン依存性の側方置換を示した。
    • ラジミクスに基づくモデルは,OAIZIB-CMでAUC 0.91,Po-OAでAUC 0.83を達成し,サイズ関連の特徴のみに限定されたモデルを大きく上回った。

    Link: https://arxiv.org/abs/2512.03449

  • PVeRA:確率的ベクトルベースのランダム行列適応 [cs.CV, cs.LG]目的:大規模モデルの効率的な適応手法
    • 大規模モデルは多様なタスクで高性能を示すが,学習には膨大なデータと計算資源が必要である。
    • 限られたデータや計算資源でのモデル適応は課題であり,効率的な手法が求められている。
    • 入力の曖昧性を考慮し,学習と推論の多様性を実現する適応手法を提案する。
    • 提案手法PVeRAは,既存のVeRAアダプターの低ランク行列を確率的に変更する。
    • VTAB-1kベンチマークにおいて,PVeRAはVeRAや他のアダプターよりも優れた性能を示した。
    • PVeRAは,入力の曖昧性を自然に扱い,様々なサンプリング構成を可能にする。

    Link: https://arxiv.org/abs/2512.07703

  • MoCapAnything:単眼動画からの任意の骨格に対する統一的な3Dモーションキャプチャ [cs.CV]目的:任意の骨格を持つ3Dアセットを駆動する回転ベースのアニメーションの再構成
    • モーションキャプチャはデジタルヒューマンだけでなくコンテンツ制作に不可欠であり,幅広い応用が期待されている。
    • 既存のモーションキャプチャ技術は種別やテンプレートに依存しており,汎用性に課題がある。
    • 種別を問わず,指定された3Dアセットにモーションを適用できる汎用的なモーションキャプチャを実現する。
    • MoCapAnythingは,参照を基にした因数分解フレームワークであり,3D関節軌跡の予測とアセット固有の回転の回復を行う。
    • 参照プロンプトエンコーダ,ビデオ特徴抽出器,統合モーションデコーダの3つの学習モジュールと軽量なIK段階を含む。
    • 多様なリグを持つ異種アセット間での有意義なクロススペシータリターゲットが可能であり,スケーラブルなプロンプト駆動型3Dモーションキャプチャを実現する。

    Link: https://arxiv.org/abs/2512.10881

  • Mull-Tokens:モダリティ非依存な潜在的思考 [cs.CV, cs.AI]目的:モダリティ非依存な潜在トークンによる思考の実現
    • 現実世界の推論には,言語だけでは表現できない空間,時間,アフォーダンス等の理解が不可欠である。
    • 既存のマルチモーダルモデルは脆く,スケールしない。特殊なツールや画像生成にコストがかかる。
    • テキストと画像の情報を抽象的に統合し,より効率的な推論を可能にすることを目指す。
    • Mull-Tokensは,テキストと画像のどちらのモダリティでも情報を保持できる潜在トークンであり,複雑な空間推論タスクにおいて性能が向上した。
    • 4つの空間推論ベンチマークにおいて,既存のテキストのみ,またはテキスト・画像交互推論モデルよりも平均3%,最大16%の改善が見られた。
    • Mull-Tokensは,テキストと視覚的な推論の課題に対するシンプルな解決策を提供する。

    Link: https://arxiv.org/abs/2512.10941

  • オムニ属性:視覚的概念のパーソナライズのためのオープンボキャブラリ属性エンコーダ [cs.CV]目的:視覚的概念パーソナライズにおける,特定の画像属性の転送
    • 視覚的コンテンツの多様化に伴い,個々のニーズに合わせた画像生成が重要となっている。
    • 既存手法では,汎用的な画像エンコーダが複数の視覚要素を混在させ,属性の分離が困難である。
    • 属性固有の表現を学習し,情報漏洩や不自然な合成を防ぐことを目指す。
    • 提案手法オムニ属性は,オープンボキャブラリ画像属性エンコーダとして,高精度な属性固有表現を学習する。
    • セマンティックにリンクされた画像ペアを用いたデータセットと,生成忠実度と対照的分離を両立する学習パラダイムを採用。
    • 属性検索,パーソナライズ,合成生成において,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2512.10955

  • OmniDrive-R1:強化学習駆動型多Modal Chain-of-Thoughtによる信頼性の高い視覚言語自律運転 [cs.CV, cs.AI]目的:視覚言語モデルを用いた自律運転における信頼性向上
    • 自動運転技術は,安全性向上と効率化に不可欠であり,社会実装が期待されている。
    • 既存の視覚言語モデルは,幻覚(object hallucination)を起こしやすく,安全性を損なう恐れがある。
    • 本研究は,強化学習による視覚的根拠付けにより,幻覚を抑制し,信頼性の高い自律運転を実現する。
    • 提案手法OmniDrive-R1は,知覚と推論を統合した多Modal Chain-of-Thought(iMCoT)メカニズムを採用している。
    • 実験結果から,OmniDrive-R1はベースラインモデルと比較して,推論スコアを51.77%から80.35%に,最終的な正答率を37.81%から73.62%に向上させた。
    • Clip-GRPOアルゴリズムによるアノテーションフリーな報酬関数が,リアルタイムな視覚とテキストの一貫性を実現し,モデルの安定性を高めている。

    Link: https://arxiv.org/abs/2512.14044

  • プロンプト駆動型動画セグメンテーション基盤モデルに対するバックドア攻撃 [cs.CV, cs.CR]目的:プロンプト駆動型動画セグメンテーション基盤モデルに対するバックドア攻撃の可能性とその対策
    • 自動運転やデジタル病理などの応用が拡大しており,その信頼性と安全性が重要視されている。
    • 従来のバックドア攻撃は効果が低く,プロンプト駆動型モデル特有の構造が攻撃を困難にしている。
    • プロンプト駆動型モデルに特化したバックドア攻撃手法を開発し,脆弱性を明らかにする。
    • 新しい攻撃フレームワークBadVSFMを提案し,高い攻撃成功率と制御性を実現した。
    • BadVSFMは,エンコーダーの学習とデコーダーの訓練を二段階で行うことで,既存の防御策を回避できる。
    • 実験の結果,現在のVSFMには未開拓のバックドア脆弱性が存在することが示された。

    Link: https://arxiv.org/abs/2512.22046

  • 文脈が重要:VLMアクション解析とLLMシーケンス分類によるピア認識型学生の行動エンゲージメント測定 [cs.CV, cs.AI]目的:学生の行動エンゲージメントの測定
    • 教育の質と学生の学習意欲向上には,教室内の学生の行動理解が不可欠である。
    • 既存手法は多様な行動をモデル化するために大量の注釈データが必要だが,プライバシー保護の観点からデータ収集が困難である。
    • 本研究は,学生の行動と周囲の文脈を考慮したエンゲージメント測定を目指す。
    • 提案手法では,VLMを用いた少ないサンプルでの行動認識と,LLMによる行動シーケンス分類を組み合わせている。
    • 実験結果は,提案手法が学生のエンゲージメントを的確に識別できることを示唆している。
    • 周囲の学生の行動といった文脈を考慮することで,より精度の高いエンゲージメント測定が可能となった。

    Link: https://arxiv.org/abs/2601.06394

  • VeriTaS: マルチモーダル自動ファクトチェックのための初の動的ベンチマーク [cs.IR, cs.AI, cs.CV, cs.MM]目的:マルチモーダル自動ファクトチェックのための動的ベンチマーク
    • オンライン上の誤情報の拡散が深刻化しており,自動ファクトチェックの重要性が増している。
    • 既存のベンチマークは,タスク範囲,モダリティ,言語多様性,現実性などに限界があり,データリークの問題も存在する。
    • 大規模言語モデルの進化に対応し,データリークに強い,信頼性の高い評価ベンチマークを構築する。
    • VeriTaSは,54言語,104のファクトチェック機関からの25,000件のリアルワールドな主張を含む,初の動的ベンチマークである。
    • 自動アノテーションが人間の判断と一致することを示し,7段階のパイプラインによる自動更新が可能である。
    • 大規模言語モデルの事前学習の影響を受けにくい,継続的な評価を可能にするベンチマークとして貢献する。

    Link: https://arxiv.org/abs/2601.08611

  • 空間を見失うか? 視覚言語モデルにおける相対カメラ姿勢推定の困難性 [cs.CV, cs.AI, cs.CL]目的:視覚言語モデルの相対カメラ姿勢推定能力
    • ロボット工学や拡張現実など,多様な応用において,環境理解と空間認識は不可欠である。
    • 視覚言語モデルは画像とテキストを理解するが,複数の視点からの空間推論能力は未発達である。
    • 複数の視点からの空間推論能力を評価し,視覚言語モデルの改善点を特定すること。
    • 視覚言語モデルは,人間や専門的な幾何学的パイプラインと比較して,相対カメラ姿勢推定において著しく低い性能を示す。
    • 単一画像認識能力は高いものの,複数の視点間の推論が必要になると性能が著しく低下する。
    • この課題は,視覚言語モデルにおける視点間対応,一貫性のある推論,カメラ運動の理解といった具体的な能力の欠如を浮き彫りにする。

    Link: https://arxiv.org/abs/2601.22228

  • EAG-PT:エミッションを考慮したガウス関数とパス・トレーシングによる拡散室内シーンの再構成と編集 [cs.GR, cs.CV]目的:拡散性室内シーンの再構成と編集
    • 近年のXRコンテンツ作成やAI研究において,現実世界の室内環境の再現が重要となっている。
    • 既存手法では,編集時の照明の再現性やメッシュの精度が課題となっていた。
    • ガウス関数を用いた表現とパス・トレーシングを組み合わせ,編集可能な物理ベースの再構成を目指す。
    • EAG-PTは,2Dガウス関数を用いて効率的な再構成を実現し,明示的なメッシュ再構成を回避する。
    • 本手法は,エミッション成分を分離することで編集を可能にし,自然で物理的に整合性のとれたレンダリングを生成する。
    • 実験の結果,EAG-PTは既存手法と比較して,より詳細な幾何形状を保持しつつ,高品質な編集結果が得られることが示された。

    Link: https://arxiv.org/abs/2601.23065

  • EDU-CIRCUIT-HW:大学レベルSTEM科目の学生の handwritten 答案に対するマルチモーダル大規模言語モデルの評価 [cs.CV, cs.AI, cs.CY]目的:大学レベルSTEM科目の学生による handwritten 答案に対するマルチモーダル大規模言語モデルの認識精度と自動採点性能の評価
    • 教育現場でのAI活用は,教師の負担軽減や教育の質向上に貢献しうるため重要である。
    • STEM分野の handwritten 答案は複雑な数式や図が含まれ,既存のベンチマークでは正確な評価が困難である。
    • 本研究は,より現実的な handwritten 答案を用いた評価を通じて,大規模言語モデルの認識精度と自動採点能力の課題を明らかにすることを目的とする。
    • 本研究で公開されたEDU-CIRCUIT-HWデータセットを用いた評価により,大規模言語モデルが学生の handwritten 答案を正確に認識できていないことが明らかになった。
    • 特に,大規模言語モデルによる認識エラーは,自動採点などの重要な教育応用において信頼性の低下を招く可能性がある。
    • 認識エラーのパターンを事前に特定し,人的介入を最小限に抑えつつ修正することで,AIを活用した採点システムの堅牢性を高めることが示唆された。

    Link: https://arxiv.org/abs/2602.00095

  • MTAVG-Bench:マルチ参加者対話を中心とした音声・映像生成の診断ベンチマーク [cs.MM, cs.SD]目的:マルチ参加者対話型音声・映像生成における構造的失敗の診断
    • 近年,音声・映像生成技術が進歩し,対話コンテンツの自動生成が可能になった。
    • 既存の評価基準は,人間が作成した動画や単一話者向けであり,マルチ参加者対話の評価には不十分である。
    • マルチ参加者対話における,話者識別ミス,不自然な交代,音声と映像のずれ等の問題を診断する。
    • MTAVG-Benchは,主流の音声・映像生成モデルを用いて生成された1800件の動画と,2400件の手動アノテーションによる質疑応答ペアから構築された。
    • 評価は,音声・映像の忠実度,時間的属性の一貫性,社会的相互作用,映画的表現の4つのレベルで行われる。
    • Gemini 3 Proが全体的に最も高い性能を示したが,主要なオープンソースモデルも音声・映像の忠実度や一貫性において競争力があった。

    Link: https://arxiv.org/abs/2602.00607

  • 3Dマルチビュー行動条件付きロボット操作事前学習のためのコントラスト学習 (CLAMP) [cs.RO, cs.AI, cs.CV, cs.LG]目的:3Dマルチビューデータとロボットの行動を用いた,ロボット操作の事前学習フレームワーク
    • ロボットの知覚と制御において,3次元空間情報の利用は正確な操作に不可欠である。
    • 既存の2D画像表現では,3次元空間情報を捉えきれず,高精度な操作が困難である。
    • 3D点群とロボットの行動から3次元情報を学習し,ロボット操作の効率と性能を向上させる。
    • 提案手法CLAMPは,RGB-D画像から再レンダリングされたマルチビュー画像とコントラスト学習により,3D空間情報を効果的に捉える。
    • 事前学習されたエンコーダは,オブジェクトの3D形状とロボットの行動パターンを関連付けることで,サンプル効率の良いファインチューニングを可能にする。
    • シミュレーションおよび実世界環境における複数のタスクで,最先端のベースラインと比較して優れた性能を示す。

    Link: https://arxiv.org/abs/2602.00937

  • 競争から協調へ:LLMとオンラインフォーラム間の持続可能なメカニズムの設計 [cs.AI, cs.GT]目的:LLMとオンラインフォーラム間の持続可能な協調メカニズム
    • 知識共有は社会の発展に不可欠であり,オンラインフォーラムは重要な役割を担う。
    • LLMの台頭により,フォーラムの利用が減少し,知識共有の場が失われる懸念がある。
    • LLMとフォーラムが相互に利益を得られる協調メカニズムを構築し,持続可能な知識共有を実現する。
    • LLMがフォーラムに質問を提案し,一部を掲載する逐次的な相互作用の枠組みを提案した。
    • シミュレーションの結果,インセンティブの不一致が実証されたが,理想的な状況の約半分の利得が得られることが示された。
    • AIシステムと人間の知識プラットフォーム間の効果的な知識共有を維持する持続可能な協調の可能性が示唆された。

    Link: https://arxiv.org/abs/2602.04572

  • クラウド対応リモートセンシング画像理解のためのマルチモーダル機械学習データセットCBEN [cs.CV]目的:クラウドの影響を受けるリモートセンシング画像の理解
    • リモートセンシングは,災害対応など多様な分野で不可欠な技術である。
    • 光学衛星画像は雲の影響を受けやすく,学習データから雲のある画像を除外する手法が一般的である。
    • 雲の影響を受けにくいロバストな手法開発のため,雲のある画像を含めた学習データの重要性を示す。
    • 既存の手法は,晴天画像で学習した場合,雲のある画像での性能が23-33%低下することが示された。
    • 雲のある光学データで学習することで,雲のある画像での性能が17.2-28.7%向上することが確認された。
    • CBENデータセットとコードは公開されており,クラウド対応リモートセンシング研究を促進する。

    Link: https://arxiv.org/abs/2602.12652

  • 寄生蜂および関連ヒメネコ目昆虫データセット(DAPWH) [cs.CV, cs.AI]目的:寄生蜂および関連ヒメネコ目昆虫の画像データセット
    • 生物多様性モニタリングや農業管理において,正確な分類は不可欠である。
    • ヒメネコ目昆虫は形態が似通っており,未記載種も多く,分類が困難である。
    • 自動同定システムの開発を促進するためのデジタル資源の不足を解消する。
    • 本データセットは,3,556枚の高解像度画像を含み,特にネオ熱帯域のヒメネコ目寄生蜂に焦点を当てている。
    • 1,739枚の画像には,全身,翅脈,スケールバーに対するマルチクラスバウンディングボックスのアノテーションが含まれている。
    • これにより,これらの科の同定が可能なコンピュータービジョンモデルの開発の基盤となる。

    Link: https://arxiv.org/abs/2602.20028

  • スコアベース事前分布のモデル選択における効率的なエビデンス推定 [cs.LG, cs.CV, stat.ME]目的:モデル選択のためのスコアベース事前分布のエビデンス推定
    • 画像逆問題において,事前分布の選択は重要であり,測定値との整合性が求められる。
    • ベイズ逆問題では,エビデンス計算が困難であり,事前分布の選択に課題がある。
    • 拡散モデルを用いた事前分布のエビデンス推定を効率的に行うことで,モデル選択の精度向上を目指す。
    • 提案手法DiMEは,逆拡散サンプリングの中間サンプルを活用し,少数のサンプルで高精度なエビデンス推定を実現する。
    • 解析的に計算可能な場合と比較して,推定値が一致することを確認した。
    • 様々な逆問題において,適切な拡散モデルの選択と事前分布の不適合診断が可能であることを示した。

    Link: https://arxiv.org/abs/2602.20549

  • コードブック駆動確率的修正フローによるゼロショット動画圧縮:GVCC [cs.CV, cs.AI]目的:超低ビットレートにおける高忠実度再構成
    • 動画圧縮は,データ伝送と保存において不可欠であり,効率化が求められている。
    • 従来の動画圧縮手法では,超低ビットレートにおいて再構成品質が低下しやすい。
    • 事前学習済みの動画生成モデルを活用し,効率的な圧縮と高品質な再構成を実現する。
    • 提案手法GVCCは,UVGデータセットにおいて,既存手法と比較してLPIPS値を大幅に低減した。
    • 特に,DCVC-RTと同ビットレートにおいて,LPIPSを約65%削減することに成功した。
    • テキストからの動画生成,画像からの動画生成,フレームからの動画生成といった多様なモードに対応した。

    Link: https://arxiv.org/abs/2603.26571

  • HighFM:高頻度地球観測データからの表現学習のための基盤モデルへ [cs.CV, cs.AI]目的:高頻度地球観測データからの表現学習のための基盤モデル構築
    • 気候変動による災害の増加に伴い,リアルタイムな監視,早期警戒,情報に基づいた意思決定の必要性が高まっている。
    • 既存の基盤モデルは,再訪頻度の低い高解像度衛星画像に依存しており,急激な変化や緊急時の対応には不向きな点がある。
    • 高頻度で多波長な地球観測データを活用し,災害検知と追跡のための基盤モデル開発を目指す。
    • SEVIRI画像を用いてSatMAEフレームワークを適応させ,ロバストな時空間表現を獲得した。
    • 短期的変動を捉えるため,細かい時間エンコーディングをアーキテクチャに導入し,リアルタイム監視を支援した。
    • クラウドマスキングと火災検知タスクにおいて,従来のモデルや既存の地理空間基盤モデルと比較して,精度向上が確認された。

    Link: https://arxiv.org/abs/2604.04306

  • HQF-Net:リモートセンシング画像セグメンテーションのためのハイブリッド量子・古典マルチスケール融合ネットワーク [cs.CV, cs.AI]目的:リモートセンシング画像セグメンテーションのためのモデル設計
    • リモートセンシングは,地球観測や環境モニタリングに不可欠であり,高精度な画像解析が求められる。
    • 既存モデルは,複雑なシーンにおける空間的詳細と高レベルな意味的文脈の同時捕捉が課題である。
    • 量子・古典技術を融合し,セグメンテーション精度向上を目指す。
    • 提案手法HQF-Netは,LandCover.aiにおいて0.8568 mIoU,96.87%の全体精度を達成した。
    • OpenEarthMapでは71.82% mIoU,SeasoNetでは55.28% mIoUと99.37%の全体精度を示した。
    • 各構成要素の貢献度を示すアーキテクチャアブレーションスタディにより,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2604.06715

  • ねじれたエッジ:ラベル付き非多様体表面メッシュを用いた連結結び構造を設計するための統一的フレームワーク [cs.AR, cs.CL, cs.GR, math.GT]目的:連結結び構造の設計手法
    • 織物構造やロボット工学など,多様な分野で応用が期待されるトポロジー研究。
    • 従来の二値化されたねじれ表現では,構造や挙動の多様性を十分に捉えられていなかった。
    • 整数ラベルによるねじれ表現を用いることで,これまで実現できなかった構造の設計を目指す。
    • 整数ねじれを導入することで,表面の連結性を維持しつつ,鎖帷子のような構造を実現した。
    • 非多様体メッシュへの応用により,部分的な連結性や機能的なヒンジの設計が可能となった。
    • この手法により,四次元空間における結び面と,その三次元空間への埋め込みである連結結び構造が理論的に示された。

    Link: https://arxiv.org/abs/2604.12023

  • PAT-VCM:機械のためのビデオ符号化におけるプラグアンドプレイ補助トークン [cs.CV]目的:機械のためのビデオ符号化における補助トークンフレームワーク
    • 機械学習の発展に伴い,ビデオデータの効率的な圧縮と利用が重要となっている。
    • 既存のビデオ符号化は特定のタスクに特化し,汎用性やモデル更新への対応が課題である。
    • タスク固有の情報を効率的に付加することで,汎用性と適応性を両立することを目指す。
    • PAT-VCMは,共通の基盤ストリームと軽量なタスク対応補助トークンを用いることで,複数のタスクに対応可能である。
    • セグメンテーション,深度推定,意味認識の評価において,高い性能と低いオーバーヘッドを実現した。
    • 共有の検出補助ブランチが最初の改良を提供し,タスク固有のブランチが性能を向上させる。

    Link: https://arxiv.org/abs/2604.13294

  • UAF:全二重音声インタラクションのための統合音声フロントエンドLLM [cs.AI, cs.SD, eess.AS]目的:全二重音声インタラクションを実現するための統合音声フロントエンドLLMの提案
    • 自然な人間コミュニケーションの再現が,AI会話システムの発展を促している。
    • 従来の音声処理パイプラインは,遅延,情報損失,エラー伝播などの課題を抱えている。
    • 全二重音声システムに対応した,音声フロントエンドの最適化を目指している。
    • 本研究では,音声活動検知,ターンテイキング検知,話者認識,自動音声認識,質問応答といった多様なタスクを単一の自己回帰的シーケンス予測問題として定式化した。
    • 提案モデルは,複数の音声フロントエンドタスクで優れた性能を発揮し,応答遅延と割り込み精度の向上に貢献する。
    • 開始時には参照音声プロンプトを利用し,ターゲット話者を固定することで,安定した性能を実現している。

    Link: https://arxiv.org/abs/2604.19221

  • 言語駆動型3Dガウススプラッティング編集のための不均衡な意味的輸送 [cs.CV]目的:言語駆動型3Dガウススプラッティング編集における意味的対応の確立
    • VR/AR環境において,複雑なシーンをより直感的に編集する手法の重要性が高まっている。
    • 既存手法は,2D編集と3D表現の間の意味的な対応関係を明示的に扱えていない。
    • TransSplatは,この意味的対応を解決し,編集精度と構造的一貫性を向上させることを目指す。
    • TransSplatは,言語駆動型3Dガウススプラッティング編集を多視点不均衡意味的輸送問題として定式化した。
    • 可視ガウスと視点固有の編集プロトタイプ間の対応関係を確立することで,編集の正確性と制御性を向上させた。
    • 従来のビュー整合性向上手法と比較して,局所編集精度と構造的一貫性において優れた性能を示した。

    Link: https://arxiv.org/abs/2604.19571

  • 画像から音楽言語へ:複雑な多声音符のOMRのための二段階構造復号アプローチ [cs.RO, cs.SD, cs.CV]目的:複雑な多声音符の光学音楽認識(OMR)パイプラインにおける構造復号
    • 音楽情報処理の分野において,楽譜のデジタル化は重要な課題である。
    • 多声音符の楽譜認識では,声部分離と小節内タイミングの正確な推定が困難である。
    • 複雑な楽譜構造を効率的に復号し,編集可能な楽譜データを作成すること。
    • 本研究では,視覚パイプラインからの記号とイベント候補を復号する二段階構造復号アプローチを提案した。
    • トポロジー認識と確率誘導探索(BeadSolver)を核とした手法により,楽譜構造の復号を実現した。
    • 手続き的生成と認識フィードバック注釈を組み合わせたデータ戦略によって,実用的な復号コンポーネントの構築を可能にした。

    Link: https://arxiv.org/abs/2604.20522

  • 車両軌跡予測のための地図認識時空間推論器としてのフローズンLLM [cs.RO, cs.RO, cs.SY, eess.SY, cs.CV]目的:車両軌跡予測におけるLLMの時空間推論能力の評価
    • 自動運転技術の発展には,周囲の状況を正確に理解する能力が不可欠である。
    • LLMを自動運転に応用するには,交通主体と道路インフラの理解が十分でない。
    • 地図情報を活用し,LLMの推論能力を評価することで予測精度向上を目指す。
    • フローズンLLMを推論エンジンとして活用するフレームワークを提案した。
    • 交通エンコーダとCNNを用いて,空間レベルのシーン特徴とHDマップ情報をLLMに入力可能にした。
    • 提案手法は,多様なLLMアーキテクチャへの汎用性とモデル評価の統一的プラットフォームを提供する。

    Link: https://arxiv.org/abs/2604.21479

  • 編集したい場所を指定:領域認識アダプター注入によるマスク不要ローカル画像編集 [cs.CV]目的:マスクを用いないローカル画像編集の精度向上
    • 拡散モデルは画像編集において高い性能を示すが,局所的な編集が他の領域に影響を及ぼす問題がある。
    • 従来の拡散モデルは,編集対象領域を明示的に指定する機構を持たず,編集漏れや意図しない箇所への影響が生じやすい。
    • 本研究は,領域認識アダプター注入により,拡散モデルに局所的な編集能力を付与し,マスクを用いずに高精度な編集を実現する。
    • AdaptEditは,拡散モデルの各ブロックに軽量なブロックアダプターを注入することで,編集内容と編集領域を分離し,正確な局所編集を可能にする。
    • SpatialGateを用いることで,アダプター信号を編集領域に選択的に適用し,編集領域外の画像への影響を抑制する。
    • MagicBrushとEmu-Edit Testの両ベンチマークにおいて,AdaptEditは最先端の結果を達成し,マスクを使用しない既存手法を上回った。

    Link: https://arxiv.org/abs/2604.23763

  • FCMBench-Video:ドキュメントビデオインテリジェンスのベンチマーク [cs.CV, cs.CE, cs.MM]目的:ドキュメントビデオインテリジェンスの評価基準
    • 金融における信用審査や本人確認など,正確性と証拠の追跡可能性が重要視される業務で,ドキュメント理解能力は不可欠である。
    • 静止画像と異なり,ドキュメントビデオは時間的な冗長性があり,フレーム間の証拠統合や信憑性確認のための情報が必要となる。
    • 現実的な条件下でのドキュメントビデオ理解度,時間的根拠付け,証拠に基づく推論を評価するベンチマークを提供し,進捗を追跡すること。
    • FCMBench-Videoは,ドキュメントの認識,時間的根拠付け,証拠に基づいた推論を評価するためのベンチマークとして構築された。
    • 9つの最新Video-MLLMの評価により,システム間の明確な分離と能力の違いが確認された。特に,カウント処理はビデオの長さに大きく影響を受けることが示された。
    • FCMBench-Videoは,ドキュメントビデオ理解におけるVideo-MLLMの進捗を追跡し,金融分野における信憑性確認の限界を探るための再現可能なベンチマークとしての役割を果たす。

    Link: https://arxiv.org/abs/2604.25186

  • Self-DACE++:効率的な適応曲線推定によるロバストな低照度画像強調 [cs.CV]目的:低照度画像強調のための軽量かつ頑健なフレームワーク
    • 視覚情報の取得において,低照度環境下での画像鮮明化は重要な課題である。
    • 既存手法では,計算効率と復元品質のトレードオフが課題となっていた。
    • 計算効率を損なわずに,より高品質な低照度画像強調を実現すること。
    • 提案手法Self-DACE++は,適応調整曲線(AAC)を改良し,色再現性,構造維持,自然性を向上させた。
    • ランダム化された訓練戦略とネットワーク融合機構により,軽量な反復推論構造を実現した。
    • Retinex理論に基づく物理的根拠のある目的関数と,暗領域ノイズ抑制モジュールを組み込んだ。

    Link: https://arxiv.org/abs/2604.25367

  • CheXthought:胸部X線写真解釈のための臨床的な思考連鎖と視線注視点のグローバルなマルチモーダルデータセット [cs.CV, cs.AI]目的:胸部X線写真解釈における臨床的な思考連鎖と視線注視点のデータセット
    • 医療現場で頻繁に行われる診断であり,AI開発の主要なターゲットである。
    • 既存の画像とレポートのペアデータに偏っており,臨床推論の認知プロセスや視線注視点が考慮されていない。
    • 臨床的な思考プロセスや視線注視点を学習させ,より透明性の高いAIモデルの開発を目指す。
    • CheXthoughtは,71カ国501人の放射線科医による103,592件の思考連鎖と6,609,082件の視線注視点データを含む。
    • CheXthoughtを用いた学習は,最先端のビジョン言語モデルの精度向上,誤検出の抑制,不確実性の伝達に貢献する。
    • 画像から人間同士,または人間とAI間の意見の相違を予測し,ケースの難易度やモデルの信頼性を示すことが可能である。

    Link: https://arxiv.org/abs/2604.26288

  • 股関節X線写真におけるSingh Indexクラスタリングを用いた骨粗鬆症の教師なし機械学習 [quant-ph, cs.ET, physics.pop-ph, eess.IV, cs.CV, cs.LG]目的:骨粗鬆症診断のための機械学習によるSingh Indexの自動識別
    • 世界的な高齢化に伴い,骨粗鬆症は有病率が高く,骨折リスクが増大する重要な健康問題である。
    • 骨密度測定は一般的だが,集団スクリーニングには限界があり,手動でのSingh Index評価は時間と専門知識を要する。
    • 機械学習を用いて,簡便かつ迅速な骨粗鬆症診断を可能にするSingh Indexの自動化を目指す。
    • 開発した畳み込みニューラルネットワークは,既存モデルと比較してクラスタの均質性と異質性において優れた性能を示した。
    • クラスタリングの結果,Silhouette Scoreが高い有望な2つのクラスターが認められた。
    • データセットの不均衡や画像品質が課題であり,臨床データとの組み合わせや画像前処理の重要性が示唆された。

    Link: https://arxiv.org/abs/2411.15253

  • PhotIQA:画像品質評価付きの光音響画像データセット [math.PR, cs.PF, eess.IV, cs.CV]目的:光音響画像に対する画像品質評価指標の開発と検証のためのデータセット
    • 画像処理アルゴリズムの性能評価には,高品質な画像データセットが不可欠である。
    • 医療画像に対する既存の画像品質評価指標は,自然画像用に開発されたものが多く,適用に課題がある。
    • 光音響画像に特化した品質評価指標の開発を支援し,客観的な評価基準を確立すること。
    • 1134枚の光音響画像データセットPhotIQAを構築し,5名の専門家による5つの品質特性の評価結果を公開した。
    • 本データセットは,光音響画像だけでなく,他の医療画像分野における品質評価指標開発にも応用可能である。
    • 詳細な評価情報を用いることで,既存の指標の改善や新規指標の創出に貢献することが期待される。

    Link: https://arxiv.org/abs/2507.03478

  • ヒト灰白質微細構造の定量のための簡略化NEXIプロトコル [physics.med-ph, cs.AI, cs.CV, cs.LG, eess.IV]目的:ヒト灰白質微細構造定量のためのNEXIプロトコルの効率化
    • 脳の微細構造解析は,神経疾患の理解や診断に不可欠であり,その重要性は高い。
    • 従来のNEXI法は,スキャン時間が長く,臨床応用には課題があった。
    • Explainable AIを用いて,スキャン時間を短縮しつつ,高い精度を維持するプロトコルを確立する。
    • Explainable AIフレームワークにより,特徴量の数を8個に削減し,スキャン時間を27分から14分に短縮した。
    • 生体内での検証において,簡略化プロトコルは従来のフルプロトコルや理論的最適解と同等のパラメータ推定性能を示した。
    • 本研究は,Explainable AIが,複雑な解析手法なしに最適化を達成できることを示し,臨床応用への道を開く。

    Link: https://arxiv.org/abs/2509.09513

  • LiDARジオメトリ圧縮における効率的な手法:クロスビット深度特徴伝播とBag-of-Encoders [eess.IV, cs.CV]目的:LiDARジオメトリの効率的な圧縮
    • 自動運転やロボティクスにおいて,LiDARは重要なセンサであり,そのデータ量削減は処理効率向上に不可欠である。
    • 従来のLiDAR圧縮手法は,各ビット深度を独立に処理するため,圧縮効率が制限されていた。
    • クロスビット深度特徴伝播とBag-of-Encodersを用いて,LiDARデータの圧縮効率と処理速度を向上させる。
    • 提案手法ELiCは,クロスビット深度特徴伝播により,高密度な低ビット深度の特徴を再利用し,スパースな高ビット深度での予測を支援する。
    • Bag-of-Encodersは,各深度に適した符号化ネットワークを動的に選択することで,占有率の統計に適応し,モデルの訓練コストを削減する。
    • Morton順序を保持する階層構造により,レベルごとのソート処理を不要にし,低遅延を実現することでリアルタイム処理を可能にする。

    Link: https://arxiv.org/abs/2511.14070

  • オーバーラップフリープティコグラフィーによるシングルショットコヒーレントイメージング [physics.optics, cs.AI, cs.CV, cs.LG, physics.comp-ph]目的:オーバーラップフリープティコグラフィーによるシングルショットコヒーレントイメージングの実現
    • シンクロトロンやXFEL光源でのプティコグラフィーは高分解能イメージングに不可欠だが,スキャン密度が課題となる。
    • 従来のプティコグラフィーは,スキャンのオーバーラップが必須であり,スループット低下や被曝量の増加を招く。
    • 本研究は,オーバーラップなしで拡張サンプルをシングルショットで高精度に再構成する手法を確立することを目指す。
    • 提案手法PtychoPINNは,低光量下(約10^4光子/フレーム)でも高い再構成精度を維持できることが示された。
    • 実験的プローブを用いたシングルショット再構成では,SSIM 0.904を達成し,オーバーラップ制約下での再構成(SSIM 0.968)に匹敵する性能を示した。
    • PtychoPINNは,既存のモデルと比較して,少ない学習データ(1,024枚)で高いSSIMを達成し,未知の照明プロファイルにも汎化可能であることが確認された。

    Link: https://arxiv.org/abs/2602.21361

  • QMC-Net:リモートセンシング画像分類のためのデータに基づいた量子表現 [quant-ph, cs.CV]目的:リモートセンシング画像分類のためのデータに基づいた量子表現手法
    • リモートセンシングは,地球観測や環境モニタリングに不可欠な技術である。
    • 既存の量子回路はデータ特性を考慮せず,性能が限定される場合がある。
    • データ特性に応じた量子回路を設計することで,分類精度を向上させる。
    • QMC-Netは,バンドごとの統計量を量子回路のハイパーパラメータにマッピングする。
    • EuroSATデータセットで93.80%の精度,SAT-6データセットで99.34%の精度を達成した。
    • 残差強化変形により,それぞれ94.69%と99.39%に精度が向上し,古典モデルを上回った。

    Link: https://arxiv.org/abs/2604.11817