arXiv雑要約

画像・音声 - 2026/03/16 公開

Ref-DGS：反射的双ガウススプラッティング [cs.CV, cs.AI, cs.GR]目的：反射性表面の再構成と新規視点合成の精度向上
- リアルな映像生成には，表面の反射表現が不可欠である。特に近場の強い反射は課題。
- 既存手法では，近場の反射を正確にモデル化できないか，計算コストが高い。
- 効率的なラスタライズパイプラインで，近場反射と遠方反射を分離して扱う。
- Ref-DGSは，ジオメトリガウスと局所反射ガウスという二重ガウス表現を用いる。
- これにより，明示的なレイトレーシングなしに近場反射を捉え，高速な処理を実現。
- 反射性シーンにおいて，既存のガウス系手法を凌駕する性能と学習速度を両立した。
Link: https://arxiv.org/abs/2603.07664
TrianguLang：姿勢推定なし3Dローカリゼーションのためのジオメトリを意識した意味的合意 [cs.CV]目的：3D空間における自然言語からの物体と部品のローカリゼーション
- ロボティクス，AR，身体化されたAIにおいて，3D空間での物体認識は不可欠である。
- 既存手法は，精度と幾何学的整合性のトレードオフ，または効率的な推論の欠如という課題がある。
- 本研究は，真の姿勢推定なしに，効率的かつ正確な3Dローカリゼーションを達成することを目指す。
- TrianguLangは，ジオメトリ情報を活用した意味的注意機構により，幾何学的に不整合な特徴量の対応を抑制する。
- ScanNet++やuCO3Dを含む5つのベンチマークにおいて，最先端のテキスト誘導セグメンテーションとローカリゼーション性能を達成した。
- 最適化なしで1フレームあたり約57ms（約18FPS）で処理可能であり，インタラクティブなロボティクスやARアプリケーションへの実用的な展開を可能にする。
Link: https://arxiv.org/abs/2603.08096
進行型疑似マスク洗練を伴う弱教師あり教師・生徒フレームワークによる腺分割 [cs.CV, cs.AI]目的：腺構造の正確な分割
- 大腸癌の組織学的等級判定には腺構造の正確な分割が不可欠である。
- 従来の深層学習は大規模なピクセルレベルのアノテーションに依存し，臨床での利用が困難である。
- 疎な病理医のアノテーションと教師ネットワークを用いて，精緻な疑似マスクを生成し，分割精度を向上させる。
- Gland Segmentationデータセットにおいて，平均IoU 80.10%，平均Dice係数89.10%を達成した。
- TCGA COADおよびTCGA READに対するクロス・コホート評価では，追加のアノテーションなしに頑健な汎化性能を示した。
- SPIDERデータセットでは性能が低下したが，これはドメインシフトによる影響と考えられる。
Link: https://arxiv.org/abs/2603.08605
血管様解剖構造におけるトポロジー知識探索のための基盤モデル [cs.CV]目的：血管様解剖構造のトポロジー知識探索
- 医療画像解析において，血管などの複雑な構造の正確なモデリングは重要である。
- 既存モデルは，データセットの変化に弱く，トポロジー的な不整合を起こしやすい。
- トポロジー情報を活用し，よりロバストで汎化性能の高いモデルを開発する。
- TubeMLLMは，従来のモデルと比較して，色網膜写真におけるトポロジーエラーを大幅に減少させた。
- 見慣れないX線血管造影画像に対しても，高いDice係数と低いトポロジーエラーを達成し，ゼロショット転移能力を示した。
- TubeMLLMは，画像の劣化（ぼかし，ノイズ，低解像度）に対しても高いロバスト性を示し，トポロジー的品質評価においても高い精度を達成した。
Link: https://arxiv.org/abs/2603.09217
ForgeDreamer：マルチ専門家LoRAとクロスビューハイパーグラフによる産業用テキストから3D生成 [cs.CV]目的：産業用途におけるテキストから3D生成の性能向上
- 製造業等の産業分野において，3Dモデルの自動生成技術は設計効率を飛躍的に向上させる可能性を秘めている。
- 既存の技術では，自然シーンに特化しており，産業用途への適応が困難である。特に知識干渉や幾何学的推論の課題が存在する。
- カテゴリ間の知識干渉を解消し，高次構造依存性を捉えることで，高精度な産業用3Dモデル生成を実現すること。
- 提案手法ForgeDreamerは，マルチ専門家LoRAアンサンブルにより，カテゴリ間の知識干渉を抑制し，汎化性能を向上させた。
- クロスビューハイパーグラフ幾何学的強化アプローチにより，複数視点間の構造依存性を捉え，幾何学的な精度を高めた。
- 産業用データセットにおける実験により，最先端手法と比較して，意味的汎化性能と幾何学的忠実度が向上することが示された。
Link: https://arxiv.org/abs/2603.09266
リアルタイム非線形モード合成：Maxにおけるnlm [cs.SD, eess.AS]目的：弦楽器，膜，板のリアルタイム非線形モード合成
- 音響シミュレーションの分野で，現実世界の音響現象をより正確に再現する重要性が高まっている。
- 従来の音響合成手法では，非線形な挙動を捉えるのが難しく，表現力に限界があった。
- nlmは，作曲家やサウンドデザイナーが非線形モード合成の表現力を容易に探求することを可能にする。
- nlmは，C++で実装されたMax外部オブジェクト群であり，弦，膜，板の非線形モード合成を効率的に行う。
- 物理パラメータのインタラクティブな制御，カスタムモードデータの読み込み，マルチチャンネル出力が可能である。
- nlmは，オープンソースソフトウェアとして公開されており，https://github.com/rodrigodzf/nlm で入手できる。
Link: https://arxiv.org/abs/2603.10240
模倣から直感へ：オープンインスタンス動画分類のための内在的推論 [cs.CV]目的：オープンインスタンス動画分類における内在的推論の確立
- 現実世界の動画データは多様であり，従来のモデルでは対応が難しい。
- 既存の動画分類モデルは，データ分布の変化に弱く，汎化性能が低い。
- ビジョン言語モデルの推論能力を活用し，汎化性能を高めることを目指す。
- 提案手法DeepIntuitは，まず教師あり学習で推論能力を初期化し，強化学習で強化する。
- 次に，内在的推論の軌跡に基づいて分類器を訓練し，知識の安定転移を保証する。
- 実験結果から，DeepIntuitは単なる特徴の模倣を超え，内在的推論へと進化することで，オープンインスタンス動画分類において顕著な性能向上を示す。
Link: https://arxiv.org/abs/2603.10300
DynVLA：自動運転における行動推論のための世界ダイナミクスの学習 [cs.CV, cs.RO]目的：自動運転のための行動推論における世界ダイナミクスの学習
- 自動運転技術は，交通渋滞の緩和や交通事故の削減に貢献し，社会に大きな変革をもたらす可能性を秘めている。
- 既存の自動運転システムは，複雑な環境変化への適応や，物理的に妥当な行動決定が課題となっている。
- 世界の状態変化を予測し，それに基づいてより安全で合理的な行動を決定することを可能とする。
- 提案手法DynVLAは，世界ダイナミクスを予測する「Dynamics CoT」という新たなCoTパラダイムを導入することで，より情報に基づいた行動決定を実現する。
- DynVLAは，自己中心的および環境中心的なダイナミクスを分離することで，より正確な世界ダイナミクスモデリングを可能にする。
- NAVSIM，Bench2Drive，大規模な社内データセットにおける実験結果は，DynVLAが既存手法を上回り，その有効性と実用性を実証している。
Link: https://arxiv.org/abs/2603.11041
進化最適化によるリアルタイムレンダリングに基づく手術器具追跡 [cs.RO, cs.CV]目的：手術器具の追跡手法
- ロボット支援下低侵襲手術の精度向上に不可欠であり，安全性と有効性を高める上で重要である。
- 手術器具の遮蔽や特殊な関節構造により，従来のビジョンベースの手法では安定した追跡が困難である。
- 計算コストと収束性の問題を克服し，より正確かつ効率的な手術器具追跡を実現する。
- 提案手法は，進化最適化戦略CMA-ESを追跡パイプラインに組み込むことで，推論時間を大幅に短縮し，収束の安定性を向上させた。
- 関節角度に依存しない追跡や両手での追跡にも対応可能であり，幅広い手術環境での応用が期待できる。
- 合成データと実データを用いた実験により，提案手法が既存手法よりも精度と実行時間で優れていることが示された。
Link: https://arxiv.org/abs/2603.11404
顕著性に従う：検索拡張型密な動画キャプション生成のための教師あり顕著性 [cs.CV]目的：密な動画キャプション生成における正確な時間的セグメンテーションの実現
- 動画キャプション生成は，動画の内容理解と人間とのコミュニケーションにおいて重要な役割を担う。
- 既存手法では，イベント境界に沿った正確な時間的セグメンテーションが困難であり，ヒューリスティックな戦略に依存している。
- 本研究は，教師ありの顕著性を用いることで，イベント境界に合致した正確なセグメンテーションを可能にすることを目指す。
- 提案手法STaRCは，動画中の重要な部分（ハイライト）を検出し，それをセグメンテーションとキャプション生成に活用する。
- ハイライト検出モジュールは，既存の動画キャプション生成の正解データのみを用いて訓練されるため，追加のアノテーションは不要である。
- YouCook2およびViTTのベンチマークにおいて，STaRCは最先端の性能を達成しており，時間的に一貫性のあるセグメンテーションとより正確なキャプション生成が可能となる。
Link: https://arxiv.org/abs/2603.11460
PCAによる確率的U-Net：曖昧な医用画像セグメンテーションの効率化 [cs.CV]目的：曖昧な医用画像セグメンテーションにおける性能向上
- 医用画像解析は診断・治療において不可欠であり，正確なセグメンテーションが求められる。
- 医用画像にはノイズや曖昧性が含まれる場合が多く，セグメンテーション精度が低下しやすい。
- 高次元潜在空間の冗長性と表現力の限界を克服し，セグメンテーション精度と予測変動性のバランスを改善する。
- 提案手法PEP U-Netは，PCAにより潜在空間の次元削減を行い，計算効率を高める。
- 逆PCA操作により，潜在空間の表現力を向上させ，重要な情報を再構成する。
- 従来の生成モデルと比較して，セグメンテーション精度と予測変動性の両面で優れた性能を示す。
Link: https://arxiv.org/abs/2603.11550
OmniForcing：リアルタイム共同オーディオ・ビジュアル生成の解放 [cs.MM, cs.CV, cs.SD]目的：オフラインの双方向拡散モデルからの知識蒸留による，高忠実度ストリーミング自己回帰生成器の実現
- 近年，マルチモーダル生成の重要性が増しており，特にオーディオとビジュアルの同時生成への関心が高まっている。
- 既存の共同オーディオ・ビジュアル拡散モデルは高品質だが，双方向アテンション依存性により遅延が大きく，リアルタイム利用が困難である。
- 双方向モデルをストリーミング可能な自己回帰モデルに変換し，低遅延かつ高精度なリアルタイム生成を可能にすることを目標とする。
- OmniForcingは，非対称ブロック因果的アライメントとグローバルプレフィックスにより，マルチモーダル同期のずれを防ぎ，知識蒸留の安定性を向上させる。
- オーディオトークンのスパース性による勾配爆発を，Audio Sink TokenとIdentity RoPE制約で抑制し，因果的シフトを克服する。
- Joint Self-Forcing Distillationにより，長期的な展開におけるクロスモーダルエラーを自己修正し，25FPSのストリーミング生成を達成する。
Link: https://arxiv.org/abs/2603.11647
HomeSafe-Bench：家庭環境における具現化されたエージェント向け，危険行動検出におけるビジョン-言語モデルの評価 [cs.HC, cs.CV, cs.AI, cs.CR]目的：家庭環境における危険行動検出のためのビジョン-言語モデルの評価
- 家庭用ロボットの導入が進む中で，安全性の確保は不可欠である。特に，予測不能な環境下での安全評価が重要となる。
- 既存の安全評価は静止画やテキストに限定され，家庭環境における動的な危険行動検出を十分に評価できていない。
- 本研究では，家庭環境における危険行動検出に特化した評価ベンチマークを構築し，より高度な安全評価を実現することを目指す。
- HomeSafe-Benchは，物理シミュレーションと高度なビデオ生成を組み合わせた，6つの機能領域にわたる438件の多様なケースを提供する。
- 提案手法HD-Guardは，高速なスクリーニングと深い多Modal推論を組み合わせることで，低遅延かつ高精度なリアルタイム安全監視を実現する。
- 実験結果から，HD-Guardが既存のVLMベースの安全検出におけるボトルネックを克服し，優れた性能を発揮することが示された。
Link: https://arxiv.org/abs/2603.11975
畳み込みを超えて：学習ベース画像処理のための構造化オペレーターの分類 [cs.CV, cs.AI]目的：学習ベース画像処理における構造化オペレーターの分類
- 画像処理において畳み込み演算は基盤技術であり，その性能向上が重要である。
- 従来の畳み込み演算は構造的な信号特性の捉え方に限界がある。
- より高度な信号特性を捉えうるオペレーターの体系化を目指す。
- 本研究では，従来の畳み込み演算を拡張または代替するオペレーターを5つのファミリーに分類した。
- 各ファミリーについて，定義，構造的特性，および適切なタスクについて議論した。
- 線形性，局所性，対称性，計算コストなどの観点からファミリー間の比較分析を行った。
Link: https://arxiv.org/abs/2603.12067
Node-RF：ニューラルODEに基づくNeRFを用いた汎化的な連続空間時間シーンダイナミクスの学習 [cs.CV]目的：シーンダイナミクスの学習
- 現実世界の理解には，時間経過に伴うシーンの変化を予測する能力が不可欠である。
- 既存手法は観測範囲外への外挿が苦手であり，長期的な予測に課題がある。
- 観測された軌道を超えて一般化可能な連続時間空間表現の構築を目指す。
- Node-RFはニューラルODEと動的NeRFを統合し，一定のメモリコストで長期的な外挿を可能にした。
- 視覚入力から暗黙的なシーン状態を学習し，ODEソルバーを用いて時間発展をシミュレートする。
- 複数のモーションシーケンスで学習することで，未知の条件への一般化を実現した。
Link: https://arxiv.org/abs/2603.12078
従来のSIダイナミクス下におけるゲームのソーシャルディスタンシング均衡 [cs.GT, math.DS, q-bio.PE]目的：ソーシャルディスタンシングゲームにおける戦略的均衡の数学的特徴付け
- 感染症理論やミーム理論への応用が期待され，学術的・社会的重要性が高い。
- 従来のモデルでは，均衡状態を厳密に解くことが難しく，政策立案の障害となっていた。
- 均衡状態を解析的に導き出し，最適な公的政策の指針を示すことを目指している。
- マルコフ決定理論と積分を用いて，均衡状態を明示的に構築することに成功した。
- 均衡戦略は，様子見期間に続きロックダウンを行うバンバン戦略となることが示された。
- 制限された戦略空間下では，このバンバン均衡がESS（進化的に安定な戦略）となることが確認された。
Link: https://arxiv.org/abs/2603.12107
HOI-Brain：fMRIを用いた脳疾患診断のための新規マルチチャネルTransformerフレームワーク - 高次相互作用の正確な抽出による [q-bio.NC, cs.GR]目的：脳機能イメージングデータからの高次相互作用の特性評価と解釈可能な組織的パターンの抽出
- 脳機能の理解は，精神疾患の診断や治療に不可欠であり，その複雑なネットワーク解析が重要である。
- 既存研究では，ペアワイズまたはトリadicなパターンに焦点を当て，高次相互作用の符号化された情報を捉えられていない。
- 本研究は，高次相互作用と組織的パターンを考慮することで，より包括的な脳疾患診断を目指す。
- 提案手法HOI-Brainは，アルツハイマー病，パーキンソン病，自閉症スペクトラム障害データセットにおいて，既存手法を上回る診断性能を示した。
- 時間分解能を持った共同変動指標と符号付き重み付き単体複体を組み合わせることで，脳コミュニケーションに関する洞察を得た。
- 抽出された主要な脳領域と高次パターンは，神経科学文献と一致しており，生物学的な意味のある知見を提供した。
Link: https://arxiv.org/abs/2507.20205
MAGE：マスク生成モデルを用いた粗→微 Speech Enhancer [eess.AS, cs.SD]目的：Speech Enhancement の効率と知覚品質の改善
- 音声処理において，高音質と計算効率の両立は重要な課題である。
- 従来の生成モデルでは，ランダムなマスキングが効率や汎化性能を低下させる。
- 効率と汎化性能を向上させる粗→微マスキング戦略と安定化モジュールを開発する。
- MAGEはBigCodecとQwen2.5-0.5Bを基盤とし，選択的な層保持により200Mパラメータに削減された。
- DNS Challengeとnoisy LibriSpeechにおける実験で，最先端の知覚品質とWERの低減を達成した。
- MAGEは，より大規模なベースラインと比較して優れた性能を示した。
Link: https://arxiv.org/abs/2509.19881
CHSH実験における抜け穴へのゲーム理論的確率アプローチ [quant-ph, cs.GT, math.PR]目的：CHSH不等式における抜け穴の構造的制約
- 量子力学の基礎概念を検証する上で，局所実在論の検証は重要である。
- CHSH実験には，局所性抜け穴や測定依存性抜け穴といった問題が存在する。
- これらの抜け穴をゲーム理論的に再構築し，実験的検証可能性を明確にすること。
- CHSH相関への実験的条件付き頻度の収束と，測定設定と自然の隠れた変数との間の系統的相関の不在を同時に満たすことは不可能である。
- 少なくとも一つの資本プロセスが発散する必要があり，科学者側が勝利するための運用戦略が存在する。
- 実験的に観測されたCHSH違反に対するゲーム理論的確率解釈が導き出される。
Link: https://arxiv.org/abs/2601.09339