arXiv雑要約

画像・音声 - 2026/04/30 公開

  • COP-GEN:コペルニクス地球観測データのための潜在拡散Transformer [cs.CV]目的:異種地球観測モダリティの共同分布のモデル化
    • 地球観測は多様なセンサーデータに依存しており,それらの統合が重要である。
    • 従来の決定論的モデルは不確実性を表現できず,データ補完やセンサー間変換に課題がある。
    • 条件付き分布としてクロスモーダルマッピングをパラメータ化し,柔軟なデータ生成を目指す。
    • COP-GENは,光,レーダー,標高モダリティにおいて,多様かつ物理的に整合性の高い実現を生成する。
    • モデルは意味のあるクロスモーダル構造を捉え,条件付け情報が増加するにつれて出力の不確実性を適応させる。
    • 実観測マニホールドの90%,バンドごとの反射範囲の63%をカバーし,既存手法を大幅に上回る性能を示す。

    Link: https://arxiv.org/abs/2603.03239

  • ポインターCAD:ポインターベースのエッジ&面の選択によるB-Repとコマンドシーケンスの統合 [cs.CV, cs.CL]目的:B-Repモデルの幾何学的情報を逐次モデリングに組み込むための,ポインターベースのコマンドシーケンス表現を活用するLLMベースのCAD生成フレームワーク
    • CADモデル構築は,エンジニアリングと製造において不可欠であり,その効率化が求められている。
    • コマンドシーケンスによるCAD表現は,複雑な編集操作(面取りやフィレットなど)にエンティティ選択を組み込めず,実用性に課題がある。
    • ポインターベースのコマンドシーケンス表現により,B-Repモデルの幾何学的情報を明示的に組み込み,CAD生成時の量子化誤差を軽減する。
    • Pointer-CADは,複雑な幾何構造の生成を効果的にサポートし,セグメンテーションエラーを大幅に低減することを示した。
    • 従来のコマンドシーケンス手法と比較して,有意な性能向上を達成し,量子化誤差によるトポロジカルな不正確さを軽減する。
    • 約575KのCADモデルからなる大規模なデータセットを構築し,Pointer-CADの学習を可能にした。

    Link: https://arxiv.org/abs/2603.04337

  • ビデオ圧縮とビデオ生成の融合:注意回復による潜在フレーム間プルーニング [cs.CV]目的:ビデオ生成における計算遅延の軽減
    • ビデオ生成技術は発展しているが,リアルタイム処理には計算コストが課題となっている。
    • 既存のビデオ生成モデルは計算量が多く,リアルタイムアプリケーションへの応用が困難である。
    • 潜在的な冗長性を活用し,計算を削減することで高速化を目指す。
    • 提案手法LIPARは,重複する潜在パッチの再計算を省略し,ビデオ編集のスループットを1.53倍に向上させた。
    • NVIDIA RTX 4090環境下で,1.3B Self-Forcingモデルにおいて平均19.3 FPSを達成した。
    • 生成品質を損なうことなく,追加の学習なしに既存モデルに統合可能である。

    Link: https://arxiv.org/abs/2603.05811

  • OVGGT:O(1)定数コストストリーミング視覚幾何変換器 [cs.CV]目的:ストリーミング動画からの3次元幾何構造再構築
    • ストリーミング動画からの3次元再構築は,限られたリソース下での継続的な推論を必要とする。
    • 既存の幾何モデルは高い精度を誇るが,計算コストが高く,長時間の動画には適用できない。
    • OVGGTは,メモリと計算量を一定に抑え,長時間の動画処理を可能にすることを目指す。
    • OVGGTは,自己選択的キャッシュと動的アンカー保護を組み合わせることで,VRAM使用量を一定に保ちながら動画を処理する。
    • 実験により,OVGGTが室内外問わず,非常に長い動画を高精度に再構築できることが示された。
    • 本手法は,既存の技術と同等以上の3次元幾何精度を達成する。

    Link: https://arxiv.org/abs/2603.05959

  • SciMDR:科学的マルチモーダル文書推論の発展 [cs.CL, cs.AI, cs.CV]目的:科学的マルチモーダル文書推論のための大規模学習データセット
    • 科学研究の発展には,論文などの情報を効果的に理解する能力が不可欠である。
    • 既存のデータセットは規模,正確性,現実性のバランスを取ることが困難であった。
    • 現実的な複雑さを持ちつつ,大規模かつ正確なデータセットを構築すること。
    • 本研究では,Claim-Centric QA SynthesisとDocument-Scale Regroundingの二段階パイプラインを用いて,SciMDRを構築した。
    • SciMDRは,2万件の科学論文にわたる30万件のQAペアを含み,複雑な文書レベルの推論を必要とする科学的QAベンチマークにおいて,ファインチューニングされたモデルが有意な改善を見せた。
    • また,SciMDR-Evalという専門家が注釈を付けたベンチマークを構築し,マルチモーダル理解を評価した。

    Link: https://arxiv.org/abs/2603.12249

  • 物理情報を用いた深層学習によるレーダー降水ナウキャストのための体積運動場の実用性評価 [cs.LG, cs.AI, cs.CV]目的:レーダー反射強度データからの高度方向運動場の推定
    • 環境モデリングや予測において,時空間データの運動推定は不可欠である。気象現象の正確な予測には,高度方向の運動情報の活用が期待される。
    • 既存手法では,二次元的なアプローチが主流であり,高度方向の情報を十分に活用できていない場合がある。計算コストも課題となる。
    • 本研究は,高度方向の運動場を効率的に推定し,降水ナウキャストの精度向上を目指す。物理情報に基づいた深層学習モデルを提案する。
    • 推定された運動場は,高度間において高い相関を示し,垂直方向の一貫性が確認された。
    • しかし,中央ヨーロッパのデータを用いた評価では,二次元アプローチと比較して降水予測の顕著な改善は見られなかった。
    • 本フレームワークは,体積型地理空間データの運動構造解析のための汎用的なツールとなりうる。垂直的に一貫した降水システムでは,体積運動場のモデリングの複雑さが増してもメリットは限定的である可能性がある。

    Link: https://arxiv.org/abs/2603.13589

  • FASTER:リアルタイムフローVLAの再考 [cs.RO, cs.CV]目的:リアルタイムフローVLAにおける反応時間の最適化
    • 現実世界でのVLAモデルの利用には,リアルタイム性が不可欠である。
    • 既存手法は滑らかな軌跡に重点を置き,環境変化への迅速な反応性を欠いている。
    • FASTERは,近未来のアクションを優先することで,反応遅延を大幅に削減する。
    • FASTERは,Horizon-Aware Scheduleにより,即時的な反応に必要なステップ数を大幅に削減する。
    • ストリーミングパイプラインと組み合わせることで,特にコンシューマーグレードのGPUにおいて,実機での反応遅延を大幅に改善する。
    • テーブルテニスなどを用いた実証実験により,FASTERが汎用的なポリシーにおいて,これまでにないリアルタイム応答性を持つことが示された。

    Link: https://arxiv.org/abs/2603.19199

  • 人間オムニスピーカー:誰が何をいつ言ったかを特定する [cs.CV]目的:複数人物間の会話状況における発話者識別と発話タイミングの特定
    • 人間は,視覚情報と聴覚情報を統合して複雑な会話を理解する。
    • 既存モデルは,視覚的なバイアスを利用して性能を高く見せかけている。
    • 高頻度な視覚情報(唇の動きなど)を捉え,真の多Modal統合を実現する。
    • 本研究では,視覚的な近道がない厳密なベンチマーク「VR-SDR」と「HumanOmni-Speaker Benchmark」を提案した。
    • 「HumanOmni-Speaker」は,Visual Delta Encoderを用いて,高精度な発話者識別と空間定位を実現した。
    • 25fpsでの生動画サンプリングと,フレーム間差分の圧縮により,トークン数の爆発を防ぎつつ,視覚的な細部を捉えている。

    Link: https://arxiv.org/abs/2603.21664

  • 事前学習済みVision Transformerを用いたヒューマン・イン・ザ・ループ物体検索の再検討 [cs.CL, cs.CV, cs.HC, cs.IR]目的:ヒューマン・イン・ザ・ループ物体検索における多様な物体インスタンスの迅速な特定
    • 物体検索は画像処理の基礎であり,多様な応用分野で必要とされている。
    • 複雑な背景を持つ画像において,特定の物体の局所的な特徴を捉えることが困難である。
    • ユーザーのフィードバックを活用し,効率的な物体検索パイプラインの設計を目指す。
    • 事前学習済みのViT表現を用いることで,ヒューマン・イン・ザ・ループ物体検索の性能を向上させることが示された。
    • 画像内のどの物体インスタンスを考慮するか,アノテーションの形式,アクティブ選択の適用方法,表現戦略などが重要な設計要素であることが明らかになった。
    • グローバルな文脈の把握と,詳細な局所的な物体情報の捉え方のトレードオフが,データセットによって異なることが示された。

    Link: https://arxiv.org/abs/2604.00809

  • Woosh:音響効果の基盤モデル [cs.SD, cs.AI, cs.LG]目的:音響効果生成のための基盤モデル
    • 音響研究は,新たな手法開発や性能評価の基準となるツールを必要とする。
    • 既存のオープンソースモデルは,音響効果に特化した性能が十分でない場合がある。
    • より高品質で,リソース効率の良い音響効果生成モデルを提供すること。
    • Wooshは,高品質な音響エンコーダ/デコーダ,テキスト-音声アライメントモデルを含む。
    • テキスト-音声および動画-音声生成モデルも提供され,低リソース環境での高速推論が可能である。
    • 公開データおよび非公開データでの評価において,既存のオープンソースモデルと同等以上の性能を示した。

    Link: https://arxiv.org/abs/2604.01929

  • NTIRE 2026 3D復元と再構成:現実世界における不利な条件下のRealX3Dチャレンジ結果 [cs.CV]目的:現実世界における不利な条件下の3D復元と再構成手法の性能評価
    • 3D復元技術は,自動運転やロボット工学など幅広い分野で不可欠である。
    • 低照度や煙などの現実環境下では,既存の3D復元手法の性能が著しく低下する。
    • 現実環境における3D復元技術のロバスト性を向上させるための有効な戦略を特定すること。
    • NTIRE 2026 3D復元と再構成チャレンジでは,279名の参加者と33チームの有効な提出結果があった。
    • 提出された手法の評価により,不利な条件下での3D再構成において著しい進歩が見られた。
    • 上位手法に共通する設計原則の分析から,シーン劣化への効果的な対処戦略に関する知見が得られた。

    Link: https://arxiv.org/abs/2604.04135

  • 傾斜投影からのリアルタイムオープンセット3Dマクロ分子検出:FullTilt [cs.CV]目的:クライオ電子断層撮影におけるオープンセット3Dマクロ分子検出の実現
    • 生命科学において,タンパク質などの高分子構造解析は,機能理解の根幹である。
    • 従来の検出手法はモデルの再学習が必要であり,計算資源にも制約がある。
    • 傾斜投影データを用いて高速かつ効率的な3Dマクロ分子検出を可能とする。
    • FullTiltは,傾斜シリーズを直接処理することで,従来の断層スキャン法に比べ,処理速度を大幅に向上させた。
    • 傾斜シリーズエンコーダにより,クロスビュー情報を効率的に融合し,冗長な体積計算を削減した。
    • 実際のデータセットでの評価により,最先端のゼロショット性能とVRAM消費量の削減が確認された。

    Link: https://arxiv.org/abs/2604.10766

  • 衛星搭載AIのための衛星画像復元再考:軽量な学習ベースのアプローチ [eess.SY, cs.SY, cs.CV, cs.AI]目的:衛星画像復元による画像品質の向上
    • 地球観測において,高品質な衛星画像は不可欠であり,その重要性は増している。
    • 従来の復元手法は計算負荷が高く,衛星搭載AIのようなリアルタイム処理には不向きである。
    • 軽量な畳み込みニューラルネットワークを用いて,衛星搭載環境での高速復元を可能にすること。
    • 提案手法ConvBEERSは,シミュレーションデータと実データを用いて評価した結果,従来の復元パイプラインと同等以上の画質を達成した。
    • 特に,PSNRは6.9dBの改善が見られ,オブジェクト検出タスクではmAP@50が最大5.1%向上した。
    • Xilinx Versal VCK190 FPGA上での実装により,従来のパイプラインと比較して約41倍の低遅延化が確認され,実用性が示された。

    Link: https://arxiv.org/abs/2604.12807

  • グラフ伝播投影アンラーニング:画像と音声識別モデルのための統一的フレームワーク [cs.CV, cs.AI, cs.SD]目的:深層ニューラルネットワークからの学習済み情報の選択的かつ効率的な消去
    • プライバシー保護,法規制遵守,適応システム設計において,学習済み情報の消去の重要性が高まっている。
    • 既存手法は計算コストが高く,モデルの有用性を損なう可能性がある。
    • 効率的かつ効果的なクラスレベルのアンラーニング手法を開発し,モデルの汎用性を維持すること。
    • GPPUは,画像と音声モデルの両方で動作する,統一的かつスケーラブルなアンラーニングアルゴリズムである。
    • GPPUは,特徴空間におけるクラス固有の方向を特定し,直交部分空間への表現の投影を行うことで,対象クラスの情報が効果的に除去される。
    • 実験により,GPPUは既存手法と比較して10~20倍高速であり,保持されたクラスのモデルの有用性を維持することが示された。

    Link: https://arxiv.org/abs/2604.13127

  • テキストによる3次元拡散を用いたレイアウトと形状の共同生成 [cs.CV, cs.AI]目的:テキストからのシーン生成
    • 3次元シーン生成は,手作業の負担を軽減する点で重要性が高まっている。
    • 既存手法では,レイアウトと形状の同時生成が困難であり,複雑な記述に対応できない。
    • テキスト指示に基づいた,複雑なレイアウトと形状を持つシーンの生成を目指す。
    • 提案手法は,3次元自己回帰拡散モデル(3D-ARD+)を用いて,レイアウトと形状を逐次的に生成する。
    • 粗粒度なシーン空間での3次元潜在変数を生成後,より詳細なオブジェクト空間で形状を生成する。
    • 23万件の屋内シーンデータセットを用いて学習し,複雑な指示にも対応できることを示した。

    Link: https://arxiv.org/abs/2604.16552

  • 一貫性のない変形:Dynamic Gaussian Splattingにおける過学習の診断と軽減 [cs.CV]目的:Dynamic Gaussian Splattingにおける過学習の要因分析と,その軽減策の開発
    • 3D Gaussian Splattingは,高品質な3D表現を効率的に学習可能であり,様々な応用が期待されている。
    • Dynamic 3D Gaussian Splattingは,学習データに対する性能は高いものの,未知のデータに対する汎化性能が低いという課題がある。
    • 本研究は,Dynamic 3D Gaussian Splattingにおける過学習の根本原因を特定し,汎化性能を向上させることを目指す。
    • 分割処理が過学習の大部分を占めることが判明。分割処理を無効化することで,学習・テスト間の性能差が大幅に縮小した。
    • 変形の整合性を評価する指標(歪み)を導入し,Elastic Energy Regularization (EER)による正則化が性能向上に寄与することを示した。
    • EERに加え,densification thresholdやGaussian dropoutを組み合わせることで,さらに性能差を縮小し,汎化性能が向上することを確認した。

    Link: https://arxiv.org/abs/2604.16747

  • 低線量PET画像のノイズ除去における再考:残差ノイズ学習による平均化効果の軽減 [cs.CV]目的:低線量PET画像のノイズ除去性能向上
    • PET画像は医療診断に不可欠だが,放射線被ばくを抑えるため低線量化が求められている。
    • 単一のノイズレベルで学習したモデルは,他の線量条件への汎化性能が低いという課題がある。
    • ノイズの平均化効果を軽減し,線量条件に依存しない汎化性能の向上を目指す。
    • 残差ノイズ学習は,フルドーズ画像予測ではなく,直接ノイズを推定するアプローチである。
    • 大規模なマルチドーズPETデータセットを用いた実験で,提案手法は既存手法を上回る性能を示した。
    • 残差ノイズ学習が平均化効果を効果的に軽減し,クロスドーズPETノイズ除去の汎化性能を向上させることを実証した。

    Link: https://arxiv.org/abs/2604.16925

  • フルリファレンス画像品質評価のための因果的解きほぐし [cs.CV, cs.AI]目的:画像品質評価における因果的解きほぐし手法
    • 画像処理技術の発展に伴い,高品質な画像評価の重要性が増している。
    • 既存手法は,特徴量比較に依存しており,複雑な劣化要因を捉えきれない。
    • 潜在表現の介入による因果的解きほぐしで,劣化要因を正確に分離・評価する。
    • 提案手法は,標準的なIQAベンチマークにおいて競争力のある性能を発揮した。
    • 少ないラベルやラベルなし設定でも優れた性能を示し,汎用性が高い。
    • 水中の画像など多様な非標準ドメインにおいても,既存手法を上回る汎化性能を示した。

    Link: https://arxiv.org/abs/2604.21654

  • CAGE-SGG:オープンボキャブラリシーングラフ生成のための反実仮想的アクティブグラフ証拠 [cs.CV]目的:オープンボキャブラリシーングラフ生成における信頼性向上
    • シーングラフ生成は,視覚シーンの理解に不可欠であり,画像認識やロボティクスなど幅広い応用が期待される。
    • 既存手法では,言語事前知識やオブジェクト共起に依存し,視覚的証拠に基づかない関係予測が問題となる。
    • 視覚的証拠に基づいた関係性の検証により,信頼性の高いシーングラフ生成を目指す。
    • 反実仮想的な関係性検証フレームワークCAGE-SGGを提案し,視覚的,幾何学的,文脈的証拠に基づいて関係性を検証する。
    • 関係性予測のスコアが,必要な証拠の除去によって低下し,無関係な摂動に対しては安定することを確認することで,信頼性を評価する。
    • 従来のベンチマークにおいて,Recall,未見predicateの汎化性能,反実仮想的根拠付けの質を改善することを示した。

    Link: https://arxiv.org/abs/2604.22274

  • 事前学習済み3Dモデルからのトポロジー特徴の抽出 [cs.CV]目的:3Dモデルのトポロジー特徴抽出手法
    • 3D形状解析において,形状の多重スケール構造を要約するトポロジー記述子は有用である。
    • 既存の3Dエンコーダーは,形状のグローバルなトポロジー情報を十分に保持していない。
    • 3Dエンコーダーからトポロジー情報を抽出し,持続ホモロジー図を近似すること。
    • 本研究では,制御されたトポロジー複雑度を持つ合成ベンチマークDONUTを導入した。
    • 提案手法FILTRは,Transformerデコーダーを用いて,3Dエンコーダーから直接持続ホモロジー図を予測する。
    • 実験結果から,FILTRは既存エンコーダーが持つ限られたトポロジー情報を活用し,持続ホモロジー図を近似できることが示された。

    Link: https://arxiv.org/abs/2604.22334

  • 対照的意味投影:対照例を用いた忠実なニューロンラベリング [cs.DC, cs.AR, cs.CV, cs.LG]目的:深層ネットワーク内部ユニットへのテキスト記述の割り当て
    • 深層学習モデルの解釈性は,モデルの信頼性と安全性向上に不可欠である。
    • 既存手法は活性が高い例に依存し,誤解を招くラベリングになりがちである。
    • 対照例を活用し,より忠実で詳細なニューロンラベリングを実現する。
    • 対照的な画像セットをVLMに提供することで,より具体的で忠実な候補ラベルが得られることが示された。
    • Contrastive Semantic Projection (CSP) により,CLIPベースのスコアリングと選択パイプラインが改善された。
    • メラノーマ検出に関するケーススタディを含む実験により,対照ラベリングが最新手法を上回ることが示された。

    Link: https://arxiv.org/abs/2604.22477

  • 隠れた単一視点からの姿勢認識3D形状検索 (Kakureta tan'itsu shiten kara no shisei ninshiki 3D keijō kensaku) [cs.CV]目的:隠れた単一視点画像からの3D形状検索手法
    • 3Dデータ量は増加の一途を辿っており,効率的な検索技術の重要性が増している。
    • 既存手法は解釈が難しく,現実世界への応用において頑健性と汎化性能に課題がある。
    • 2D画像と3D形状のギャップを埋め,部分的遮蔽に対してもロバストな検索を実現する。
    • 提案手法PASRは,2Dの基礎モデルから知識を蒸留し,姿勢条件付きの3D投影を2D特徴マップに整合させることで,従来の限界を克服する。
    • テスト時最適化により,入力画像のパッチレベル特徴マップを最も良く再構成する形状と姿勢を同時に探索し,遮蔽に強く,詳細な形状認識を可能にする。
    • クリーンデータセットと遮蔽データセットの両方において,既存手法を大幅に上回る性能を達成し,形状検索,姿勢推定,カテゴリ分類の多タスク能力を示す。

    Link: https://arxiv.org/abs/2604.22658

  • Prox-E:プリミティブベースの抽象化による詳細な3D形状編集 [cs.HC, cs.GR]目的:詳細な3D形状編集のためのフレームワーク
    • 3Dコンテンツ作成は,ゲーム,映画,デザインなど幅広い分野で重要である。
    • 従来の2D画像編集モデルに基づく3D編集は,局所的な構造変更が困難である。
    • プリミティブベースの抽象化により,形状の全体的な同一性を維持しつつ,詳細な編集を可能とする。
    • 提案手法Prox-Eは,トレーニングを必要とせず,プリミティブレベルでの変更を可能にする。
    • Prox-Eは,既存の2Dベースの手法や学習ベースの手法と比較して,同一性の保持,形状品質,指示の忠実性のバランスが優れている。
    • 入力3D形状をコンパクトな幾何学的プリミティブ集合に抽象化し,事前学習済みのVLMで編集する。

    Link: https://arxiv.org/abs/2604.23774

  • CommFuse:分散LLM学習における通信分解と融合による末尾遅延の隠蔽 [cs.LG, cs.CV, cs.DC]目的:分散LLM学習における末尾遅延の解消
    • 大規模言語モデルの発展により,計算負荷分散が不可欠となっている。
    • 並列化戦略はデータ通信のオーバーヘッドが大きく,計算効率を阻害する。
    • テンソル並列とデータ並列における通信ボトルネックを軽減し,効率的な学習を目指す。
    • CommFuseは,従来の集合演算をP2P通信に置き換え,細粒度のオーバーラップを実現する。
    • 提案手法は,通信オーバーヘッドを削減し,末尾遅延を解消する正確なアルゴリズムを提供する。
    • 実験により,遅延の低減,MFUの向上,高いスループットが確認された。

    Link: https://arxiv.org/abs/2604.24013

  • 閉塞と小さい物体に対する言語誘導意味的手がかりによるMLLMの堅牢なグラウンディング [cs.CV, eess.IV]目的:混雑したシーンにおけるMLLMのグラウンディング精度向上
    • 視覚と言語情報を統合するMLLMは,多様なタスクで高い性能を示す重要な技術である。
    • 混雑したシーンでは,隠蔽や小さい物体により,オブジェクトの意味的理解が困難となる。
    • 言語表現を活用し,視覚パイプラインを改善することで,これらの課題を克服する。
    • 提案手法では,MLLMの視覚パイプラインからオブジェクトの意味的手がかりを抽出し,テキスト埋め込みを用いて誘導する。
    • 抽出された意味的手がかりを視覚パイプラインに再統合し,オブジェクトの意味的情報を洗練させる。
    • 実験結果から,言語誘導意味的手がかりが混雑したシーンでのグラウンディング精度を効果的に向上させることが示された。

    Link: https://arxiv.org/abs/2604.24036

  • PointTransformerX:スパースアルゴリズムを用いない,ポータブルで効率的な3次元点群処理 [cs.CV]目的:3次元点群処理の効率化と移植性向上
    • 3次元点群認識は,ロボティクスや自動運転などの応用において重要である。
    • 従来の処理はCUDAに依存し,NVIDIA以外の環境での移植性や効率が課題であった。
    • CUDAを使わず,PyTorchのみで動作する点群処理基盤を構築し,移植性と効率を改善する。
    • PointTransformerX(PTX)は,カスタムCUDA演算子や外部ライブラリを排除し,高い精度を維持した。
    • PTXは,3次元位置情報を自己注意機構に直接エンコードする3D-GS-RoPEと線形投影を導入した。
    • ScanNetにおいて,PointTransformer V3の98.7%の精度を,79.2%少ないパラメータと1.6倍の速度で実現した。

    Link: https://arxiv.org/abs/2604.24169

  • 安価でウェアラブルなステレオ眼追跡プラットフォーム [cs.CV]目的:ステレオ眼追跡プラットフォームのハードウェアアーキテクチャとキャリブレーションパイプライン
    • 視線追跡技術は,ヒューマンコンピュータインタラクションや認知科学において重要な役割を果たす。
    • 既存のウェアラブル眼追跡デバイスは,アルゴリズム開発の柔軟性や比較評価に限界がある。
    • 本研究は,アルゴリズム開発と評価を容易にする,モジュール性と拡張性に優れたプラットフォームを提供する。
    • 本プラットフォームは,市販部品と3Dプリント可能な部品を用いて構築され,低コストで実現可能である。
    • ステレオ,グリンチャ,双眼アプローチなど,複数の眼追跡パラダイムを単一のハードウェア構成でサポートする。
    • ハードウェア設計とドキュメントはオープンアクセスで公開されており,研究利用を促進する。

    Link: https://arxiv.org/abs/2604.24331

  • ViPO:大規模な視覚的嗜好性最適化 [cs.CV, cs.AI]目的:視覚的生成モデルの改善のための嗜好性最適化の規模拡大
    • 視覚的生成モデルの性能向上には,人間の嗜好に基づく最適化が不可欠である。
    • 既存の嗜好性データセットには,矛盾した嗜好パターンが存在し,学習の妨げとなっている。
    • ノイズに強いアルゴリズムと高品質なデータセットを構築し,大規模最適化を実現する。
    • 提案手法Poly-DPOは,データセットの特性に応じてモデルの信頼性を動的に調整し,多様なデータ分布下での学習を可能にする。
    • 大規模嗜好性データセットViPOを構築し,信頼性の高い嗜好信号とバランスの取れた分布を確保した。
    • Poly-DPOをViPOに適用した結果,最適な設定が標準のDPOに収束し,データ品質の高さとPoly-DPOの適応性が確認された。

    Link: https://arxiv.org/abs/2604.24953

  • VLMジャッジはランク付けはできるがスコアリングはできない:マルチモーダル評価におけるタスク依存的不確実性 [cs.LG, cs.CL, cs.CV, stat.ML]目的:マルチモーダル評価におけるVLM(Vision-Language Model)の不確実性の分析
    • マルチモーダルシステム評価の自動化が求められており,VLMはその有力な候補となる。
    • VLMによるスコアの信頼性が不明であり,評価の妥当性を損なう可能性がある。
    • VLMの評価における不確実性を定量化し,信頼性のマップを作成すること。
    • VLMの予測区間は,タスクによって大きく異なり,美的評価や自然画像では狭く,チャートや数理的推論では広くなることが示された。
    • ランキング相関は高いにもかかわらず,VLMは信頼性の低い絶対スコアを生成する「ランキング・スコアリングの乖離」という新たな問題が特定された。
    • 予測区間の幅は,タスクの難易度やアノテーション品質に強く影響を受けることが明らかになった。

    Link: https://arxiv.org/abs/2604.25235

  • エネルギー効率的なビデオカプセル内視鏡のためのバブル認識フレームレート適応圧縮 [cs.DC, cs.SY, eess.SY, cs.CV]目的:小腸検査におけるビデオカプセル内視鏡のエネルギー効率改善
    • 消化管検査において,小腸の観察が重要であり,ビデオカプセル内視鏡はその有用性が期待される。
    • 小型化に伴いバッテリー駆動時間が短く,画像取得と送信におけるエネルギー消費が大きいという課題がある。
    • 画像圧縮とフレームレート適応により,診断品質を維持しつつエネルギー消費を削減することを目指す。
    • 提案手法による画像圧縮は,圧縮率5.748(82.6%)とピーク信号対雑音比40.3dBを達成し,画質劣化は無視できるレベルであった。
    • 圧縮によりシステム全体の平均エネルギー消費量を20.58%削減することに成功した。
    • さらに,バブル認識フレームレート適応により,エネルギー消費量を最大40%削減することができた。

    Link: https://arxiv.org/abs/2604.25464

  • セマンティックセグメンテーションにおける正準知識蒸留の驚くべき有効性 [cs.CV, cs.AI]目的:セマンティックセグメンテーションのための知識蒸留手法の比較と性能向上
    • セマンティックセグメンテーションは,画像認識の重要な課題であり,自動運転や医療画像解析などへの応用が期待される。
    • 知識蒸留の評価において,計算コストと訓練時間の関係が明確でなく,手法の性能を正しく比較することが困難である。
    • 正準知識蒸留の有効性を示し,複雑な損失関数に頼らずとも高い性能を達成できることを示す。
    • 固定された訓練スケジュールではなく,ウォールクロック時間に基づいて比較した結果,正準知識蒸留が最新のセグメンテーション特化型手法を上回った。
    • 特徴ベースの知識蒸留は,拡張された訓練によってCityscapesとADE20Kで最先端のResNet-18性能を達成した。
    • PSPNet ResNet-18生徒モデルは,ResNet-101教師モデルに匹敵する性能(CityscapesでmIoU 79.0 vs 79.8,ADE20Kで92%)を,パラメータの4分の1で実現した。

    Link: https://arxiv.org/abs/2604.25530

  • トポロジーを意識したスキャンと融合による異種医療画像メディアのセグメンテーション [cs.CV]目的:異種医療画像メディアのセグメンテーション
    • 医療画像解析は,疾患の診断,治療計画,および予後予測において重要な役割を果たす。
    • 従来のセグメンテーション手法では,斜めや湾曲した構造のモデリングが不十分である場合がある。
    • トポロジーを考慮したスキャンと軽量な融合メカニズムにより,セグメンテーション精度を向上させる。
    • 提案手法TopoMambaは,Synapse CT,ISIC 2017,CVC-ClinicDBにおけるセグメンテーション性能を向上させた。
    • 特に膵臓や胆嚢などの薄い,または湾曲した対象物において明確な改善が見られた。
    • トポロジーを意識したスキャン順序と依存性に基づいた軽量な融合が,効果的な設計であることが示唆された。

    Link: https://arxiv.org/abs/2604.25545

  • 粗Q学習:無関心 vs. 不確定性 vs. 不安定性 [econ.TH, cs.GT]目的:確率的に変動する選択肢群を持つバンディット問題に対する粗Q学習モデルの解析
    • 強化学習は,複雑な意思決定問題において最適な行動戦略を学習する上で不可欠である。
    • 従来の強化学習は,選択肢の数が膨大である場合,計算コストや学習の不安定性が課題となる。
    • 選択肢を類似性によって粗視化することで,計算コストを削減し,学習の安定化を図ることを目指す。
    • 粗Q学習モデルの長期的な挙動を解析し,平衡状態が環境によって複数存在する場合や,混合均衡を示す場合があることが明らかになった。
    • ペイオフ感度が高い状況下では,無関心状態や安定した極限サイクルといった,従来のモデルでは見られない現象が発生することが示された。
    • 粗視化という手法が,これらの現象を引き起こす要因であることが確認された。

    Link: https://arxiv.org/abs/2412.09321

  • 3D血管構造の座標認識変調マンバネットワーク(COMMA) [eess.IV, cs.CV]目的:3D血管構造のセグメンテーション手法
    • 医療画像診断において,正確な血管構造の把握は不可欠である。
    • 既存手法はパッチ単位での学習が多く,血管の空間的な文脈を捉えきれない。
    • 空間情報を考慮した効率的な3D血管セグメンテーション手法を開発する。
    • COMMAは,グローバルブランチとローカルブランチを組み合わせることで,空間情報を効果的に活用する。
    • 実験の結果,COMMAは既存手法と比較して,特に微細血管のセグメンテーションにおいて優れた性能を示した。
    • COMMAは,計算効率にも優れていることが確認された。

    Link: https://arxiv.org/abs/2503.02332

  • 深層学習と話者数融合を用いた両耳補聴器における音源方向推定 [physics.soc-ph, cs.CY, eess.AS, cs.SD]目的:騒音下多話者環境における両耳補聴器のための音源方向推定
    • 両耳補聴器は,音源定位能力の低下に悩む人々にとって,生活の質を向上させる重要な技術である。
    • 騒音環境下や多話者環境下では,目標話者の音声を分離し,正確な音源方向を推定することが困難である。
    • 音源数を活用することで,多音源環境下での音源方向推定の精度向上を目指す。
    • 二重タスク学習は音源方向推定性能の向上には繋がなかったが,音源数予測性能は向上した。
    • 真値の音源数を補助特徴量として用いることで,単独の音源方向推定性能が大幅に向上した。
    • 特に,後期融合戦略を用いることで,ベースラインCRNNと比較して平均F1スコアが最大14%向上した。

    Link: https://arxiv.org/abs/2509.21382

  • q3-MuPa:物理情報に基づいた拡散モデルを用いた高速・静音・定量的多パラメトリックMRI [quant-ph, cs.CC, cs.CE, cs.DM, math-ph, math.MP, physics.med-ph, cs.AI, cs.CV]目的:拡散モデルと物理モデルに基づくデータ整合性によるqMRIマッピング性能の向上
    • MRIは疾患診断に不可欠だが,検査時の騒音や時間が患者の負担となる。
    • 従来法では,高精度な定量MRI (qMRI) の取得に時間がかかり,患者の動きに影響されやすい。
    • 本研究は,高速・静音なqMRI取得と拡散モデルによるマッピング性能向上を目指す。
    • 提案手法は,デジタル脳ファントム,NISM/ISMRMファントム,健常者,脳転移患者データにおいて,高い精度でqMRIマップを生成した。
    • 特に,合成データのみで学習したにも関わらず,実際のスキャンデータに対しても良好に汎化することが示された。
    • MuPa-ZTEと物理情報に基づいた拡散モデルの組み合わせ「q3-MuPa」は,臨床応用における高い可能性を持つ。

    Link: https://arxiv.org/abs/2512.23726

  • 不連続画像登録のための多様体群と代数的枠組み [math.GR, cs.CV]目的:不連続なスライド運動を伴う区分的微分同相画像登録の数学的枠組み
    • 画像処理において,正確な画像登録は画像解析や画像に基づくモデリングの基礎となる重要な技術である。
    • 従来のLDDMM法は,速度場の連続性と滑らかさを仮定するため,不連続なスライド運動の取り扱いに限界がある。
    • 不連続な境界での不連続性を許容しつつ,同相性を保つ新しい枠組みを構築することで,この問題を解決する。
    • 本研究では,多様体群と代数を用いた新しい枠組みを提案し,不連続なスライド運動を伴う区分的微分同相画像登録を可能にした。
    • 多様体群を拡張することで,同質領域内では微分同相性を維持しつつ,スライド境界において不連続性を許容する。
    • 数値実験によって,提案手法の有効性が検証された。

    Link: https://arxiv.org/abs/2603.11806

  • 肝胆相MRI合成のための三相逐次融合ネットワーク [eess.IV, cs.CV]目的:肝胆相MRI画像の合成
    • 肝細胞癌の検出・特性評価には肝胆相MRIが不可欠であり,その重要性は高い。
    • 肝胆相画像の撮像には遅延が必要で,撮影効率の低下やモーションアーチファクトのリスクがある。
    • 本研究は,遅延撮影の省略によるワークフローの改善と病変描出の向上を目指す。
    • 提案手法TriPF-Netは,前相画像(T1強調画像,動脈相,門脈相)の情報を逐次的に活用し,肝胆相画像を合成する。
    • 内部データセットにおいて,平均絶対誤差10.65,PSNR 23.27,SSIM 0.76を達成し,優れた性能を示した。
    • 外部検証データセットでも同様に良好な結果が得られ,臨床ワークフローの効率化に貢献する可能性がある。

    Link: https://arxiv.org/abs/2604.22904