arXiv雑要約

画像・音声 - 2026/03/18 公開

SAC-NeRF：ソフトアクタークリティック強化学習によるニューラル放射場のアダプティブなレイサンプリング [cs.CV, cs.AI]目的：ニューラル放射場における効率的なレンダリングのための適応的サンプリングポリシーの学習
- フォトリアリスティックな新規視点合成が可能だが，体積レンダリング時の高密度なレイサンプリングが計算コストとなる
- 従来の固定的なサンプリング戦略では，計算効率とレンダリング品質のバランスが課題であった
- 強化学習を用いて，シーンの特性に適応した効率的なサンプリング戦略を自動的に学習する
- SAC-NeRFは，ソフトアクタークリティック強化学習フレームワークを用いて，適応的なサンプリングポリシーを学習する。
- Synthetic-NeRFとLLFFデータセットにおいて，サンプリングポイント数を35-48%削減しつつ，レンダリング品質を維持した。
- 学習されたポリシーはシーン固有だが，データ駆動型サンプリング戦略の有効性を示唆している。
Link: https://arxiv.org/abs/2603.15622
視覚言語モデルによる視覚障碍者・弱視者のナビゲーション支援に関する研究 [cs.CV, cs.AI, cs.RO]目的：視覚障碍者・弱視者のナビゲーション支援における視覚言語モデルの活用可能性
- 高齢化社会において，視覚障碍者・弱視者の自立した生活支援が重要な課題となっている。
- 既存のナビゲーション支援技術は，環境変化への適応性や複雑な状況での理解に課題がある。
- 本研究は，視覚言語モデルの能力を評価し，ナビゲーション支援における課題解決に貢献する。
- GPT-4oは，空間推論やシーン理解において他のモデルを大きく上回る性能を示した。
- オープンソースモデルは，複雑な環境下での高度な推論や適応性に課題が残る。
- 視覚言語モデルは，人間のフィードバックや空間推論能力の向上により，さらなるナビゲーション支援の可能性を秘めている。
Link: https://arxiv.org/abs/2603.15624
物理情報に基づく拡散モデルによる浅水方程式のビデオ生成 [cs.HC, cs.GR, cs.CE, physics.comp-ph, physics.flu-dyn]目的：浅水方程式に基づくビデオの生成
- 流体シミュレーションは，現実的な映像生成に不可欠だが，計算コストが高い。
- 拡散モデルは高速だが，物理法則を無視し，一貫性のあるダイナミクスを捉えられない。
- 物理法則を拡散過程に統合し，物理的整合性とリアリズムを両立する。
- 本手法は，従来の数値シミュレーションとレンダリングのパイプラインと比較して，大幅な高速化を実現した。
- 物理制約を直接生成過程に組み込むことで，物理状態とリアルな映像を同時に予測できる。
- 実験により，本手法がデータ駆動型ビデオ拡散モデルよりもリアリズムと物理的忠実度で優れていることが示された。
Link: https://arxiv.org/abs/2603.15627
顔表情合成のための敵対的生成ネットワークの汎化性能向上 [cs.CV, cs.GR, cs.LG, cs.MM]目的：顔表情合成における汎化性能の向上
- 顔表情の理解は，人間関係の認識やコミュニケーションにおいて重要である。
- 既存のGANは学習データと異なる画像に対して性能が低下しやすい。
- 学習データ外の画像に対しても安定して表情合成を行うこと。
- 提案手法RegGANは，ECS，FID，QualiCLIPにおいて6つの最先端モデルを上回る性能を示した。
- FSSでは2位の成績であり，顔の同一性保持能力も高いレベルにある。
- 人間評価では，表情の質，同一性保持，リアリズムにおいて最良の競合モデルをそれぞれ25%，26%，30%上回った。
Link: https://arxiv.org/abs/2603.15648
OOD検出におけるプロトタイプ誕生と消滅の実現方法 [cs.LG, cs.CV]目的：異常分布検出のためのプロトタイプ数適応メカニズム
- 機械学習モデルの安全な利用には，未知のデータへの対応が不可欠であり，OOD検出はその鍵となる。
- 既存手法はプロトタイプ数を固定しており，データ複雑さに応じて適応できない点が課題。
- データ複雑さに応じてプロトタイプ数を動的に調整し，OOD検出性能を向上させる。
- 本研究では，生物の細胞誕生・消滅に着想を得たPID（Prototype bIrth and Death）を提案した。
- PIDは，既存プロトタイプの負荷状況に応じて新たなプロトタイプを生成し，曖昧なクラス境界のプロトタイプを削除する。
- CIFAR-100等のベンチマークで，PIDは最先端性能を達成，特にFPR95指標で顕著な改善を示した。
Link: https://arxiv.org/abs/2603.15650
プロンプトベース分類におけるジニ係数の隠れた役割の発見 [cs.LG, cs.AI, cs.CV]目的：プロンプトベース分類におけるクラスの精度格差の検出と最適化
- 少数クラスは分類において重要だが，精度が低いという課題がある。
- 高精度なクラスが優位になりやすく，精度格差が無視されがちである。
- ジニ係数を用いて精度格差を定量化し，バイアス軽減手法を提案する。
- ジニ係数は，相対的な精度支配の指標としてだけでなく，直接的な最適化指標としても機能することが示された。
- 実験の結果，提案手法は精度格差を大幅に縮小し，弱小クラスの精度を向上させることが確認された。
- 本手法は，ニュース，バイオメディカル，画像分類など，様々なタスクで有効であることが示された。
Link: https://arxiv.org/abs/2603.15654
属性誘導による信頼性の低いニューラルネットワーク動作の修正 [cs.LG, cs.AI, cs.CV]目的：ニューラルネットワークの信頼性の低い挙動の修正
- ニューラルネットワークの性能向上は，様々な応用において不可欠である。
- ノイズを含むデータに対する頑健性が低く，誤った特徴に依存しがちである。
- 少ない修正データで，モデルの信頼性を向上させることを目指す。
- 本研究では，ランク1モデル編集と属性情報を用いて，ニューラルネットワークの信頼性の低い挙動を特定し修正するフレームワークを提案した。
- 既存の研究とは異なり，モデルの性能を維持しつつ，限られた修正データで修正を行うことを可能にした。
- 層ごとの編集可能性を定量化する属性誘導層特定手法により，修正すべき主要な層を特定し，効率的な修正を実現した。
Link: https://arxiv.org/abs/2603.15656
OrthoAI v2：マウスピース矯正治療計画のためのシングルエージェントセグメンテーションからデュアルエージェント治療計画へ [cs.CV, cs.AI]目的：マウスピース矯正治療計画を支援するAIパイプラインの開発
- 矯正歯科治療は，審美性や機能性を改善する上で重要な医療行為である。
- 従来の治療計画は専門家の経験に頼る部分が大きく，客観性と効率性に課題があった。
- AIを活用することで，より正確かつ効率的な治療計画を支援し，患者の負担を軽減することを目指す。
- OrthoAI v2は，歯のセグメンテーションとランドマーク検出をデュアルエージェントで行うことで，精度を向上させた。
- 新しいバイオメカニカルスコアリングモデルにより，治療計画の質を多角的に評価可能になった。
- シミュレーション機能を搭載し，治療過程を可視化することで，より現実的な治療計画を立案できるようになった。
Link: https://arxiv.org/abs/2603.15663
IdentityGuard：パーソナライズされた合成のための文脈を意識した制限と来歴 [cs.CR, cs.AI, cs.CV]目的：パーソナライズされたテキストから画像へのモデルにおける安全性確保
- AI技術の発展に伴い，悪用リスクの抑制が重要課題となっている。
- 既存の汎用的なフィルタリング手法は，有用な概念も削除してしまう問題がある。
- 文脈を考慮した制限と来歴追跡により，悪用を防止しつつ有用性を維持すること。
- IdentityGuardは，パーソナライズされたIDと組み合わせた有害コンテンツのみを制限する。
- 特定の概念に固有の水印を付与することで，正確な追跡を可能にする。
- 実験により，IdentityGuardがモデルの有用性を損なわずに悪用を抑制できることが示された。
Link: https://arxiv.org/abs/2603.15679
DASH：効率的なオムニモーダル・トークン圧縮のための動的音声駆動セマンティックチャンキング [cs.MM, cs.AI, cs.CV, cs.SD]目的：オムニモーダル大規模言語モデルにおける効率的なトークン圧縮
- マルチモーダルな情報処理は，AIの性能向上に不可欠であり，音声と映像の同時処理が重要となる。
- 既存の圧縮手法は固定的な分割や注意機構に依存し，音声・映像のセマンティック構造を考慮していない。
- 音声駆動による動的なセマンティックチャンキングで，高圧縮率と高精度を両立することを目指す。
- DASHは，音声埋め込みをセマンティックなアンカーとして利用し，コサイン類似度の不連続性から境界候補を検出する。
- これにより，可変長のセグメントを生成し，音声と映像のクロスモーダルセグメンテーションを確立する。
- 実験結果から，DASHは既存手法と比較して，高い圧縮率を維持しつつ，優れた精度を示すことが確認された。
Link: https://arxiv.org/abs/2603.15685
PulmoVec：HeAR基盤モデルを用いた小児呼吸音の多角的分類のための二段階スタッキングメタ学習アーキテクチャ [cs.SD, cs.LG]目的：小児呼吸音の多角的分類のためのメタ学習アーキテクチャの開発
- 呼吸器疾患は小児における罹患率と死亡率の主要な原因であり，早期正確な診断が重要である。
- 聴診は主観的であり，聴診者間のばらつきが大きい。特に小児においては，その傾向が顕著である。
- 既存のAIアプローチでは，データセットの規模が小さく，単一タスクに限定されるという課題がある。
- PulmoVecは，イベントレベルの音響表現と患者レベルの臨床分類を結びつけることを可能にした。
- イベントレベルでのスクリーニングモデルはROC-AUC 0.96，音型認識モデルはマクロROC-AUC 0.96，疾患群予測モデルはマクロROC-AUC 0.94を達成した。
- 患者レベルでの疾患群分類では，正答率0.74，重み付きF1スコア0.73，マクロROC-AUC 0.91を示し，スタッキングによって性能が向上した。
Link: https://arxiv.org/abs/2603.15688
遷移フローマッチング [cs.LG, cs.AI, cs.CV]目的：遷移フローの学習
- 生成モデルの発展において，効率的なサンプリング手法は重要である。
- 従来のフローマッチングは多段階の積分が必要で計算コストが高い。
- 単一ステップでの生成と，任意の時点への生成を可能にすること。
- 本研究では，遷移フローを直接学習する新しいパラダイムを提案した。
- 遷移フローはグローバルな量であり，単一ステップ生成に適している。
- 提案手法とMean Velocity Flowとの関係性を示し，統一的な理論的視点を提供した。
Link: https://arxiv.org/abs/2603.15689
GLANCE：圧縮エッジ推論のための視線誘導注意ネットワーク [cs.AR, cs.CV, eess.IV]目的：AR/VRシステムにおけるリアルタイム物体検出の効率化
- AR/VR技術の発展に伴い，低遅延かつ低消費電力な物体検出が不可欠となっている。
- 既存の物体検出手法は計算コストが高く，AR/VR環境でのリアルタイム処理が困難である。
- 視線追跡と注意機構を組み合わせることで，計算量を削減し，AR/VRシステム要件を満たす。
- 提案手法は，記憶検索による高効率な視線追跡を実現し，わずか393 MACsで8.32°の角度誤差を達成した。
- 視線予測に基づいて注目領域に選択的に物体検出を行うことで，計算負荷を40-50%削減し，消費電力を65%低減した。
- Arduino Nano 33 BLE上でCOCOデータセットにおいて48.1%のmAPを達成し，10ms以下の遅延を維持した。
Link: https://arxiv.org/abs/2603.15717
CLRNet：深層学習を用いたカメラ，LiDAR，4Dレーダーのターゲットレス外挿較正 [cs.CV]目的：カメラ，LiDAR，4Dレーダーの外挿較正手法
- 自動運転やロボット工学において，複数のセンサー情報を統合するための基礎技術である。
- レーダーのデータは疎であるため，正確な外挿較正が困難であるという課題がある。
- 深層学習を用いて，カメラ，LiDAR，レーダーの同時較正やペアワイズ較正を実現し，精度向上を目指す。
- 提案手法CLRNetは，既存手法と比較して，並進誤差と回転誤差の中央値を少なくとも50%削減した。
- 等矩形投影，カメラベースの深度画像予測，追加レーダーチャネル，共有特徴空間，ループクロージャー損失などを導入した。
- View-of-DelftとDual-Radarデータセットを用いた実験で，優れた較正精度とドメイン汎化能力が確認された。
Link: https://arxiv.org/abs/2603.15767
効率的な全スライド画像解析のための計算負荷軽減型ドメイン適応 [cs.CV]目的：全スライド画像(WSI)解析におけるドメイン適応手法の効率化
- 病理診断支援においてWSI解析の重要性が高まっている。早期診断・治療に貢献し得る。
- WSIの高解像度により，エンドツーエンド学習が困難。自然画像データセットでの事前学習に依存しがち。
- ドメイン特化型事前学習の計算コストとタスク非特異性を解決し，効率的なWSIタスク学習を実現する。
- eWSIは，ImageNetで事前学習済みの特徴抽出器でも高い分類性能を示し，ドメイン内事前学習の必要性を軽減する。
- ドメイン内事前学習済みの特徴抽出器と組み合わせることで，さらに分類性能を向上させ，タスク固有情報を捉える能力を示す。
- eWSIは，計算効率が高く，タスク指向なWSI解析手法であり，計算病理におけるタスク特化型学習の有望な方向性を示す。
Link: https://arxiv.org/abs/2603.15774
3Dメッシュにおける並列化可能な微分可能な最短測地線 [cs.HC, cs.CV, cs.AI, cs.GR, cs.LG]目的：3Dメッシュ上の最短測地線の計算と，それを用いた機械学習パイプラインの改善
- 機械学習の応用範囲は非ユークリッド空間へ拡大しているが，幾何学的に正確な表面学習方法は遅れている。
- 閉形式のリーマン演算子の欠如，離散化された演算子の非微分可能性，並列化の困難さが課題である。
- メッシュ上に離散化されたリーマン曲面上の指数写像を計算するための枠組みを確立し，学習を促進する。
- GPUによる並列実装と，2つの微分法（外在的プロキシ関数と測地線有限差分法）を開発した。
- 並列化性能と精度を検証し，微分可能な指数写像が一般的な幾何学における学習と最適化を改善することを示した。
- 測地線畳み込み層，メッシュ上の学習のためのフローマッチング法，およびボロノイ分割の最適化器を提案した。
Link: https://arxiv.org/abs/2603.15780
低遅延ヘッドマウントディスプレイの知覚的要件 [cs.RO, cs.GR]目的：ヘッドマウントディスプレイにおけるエンドツーエンド遅延の知覚への影響の検証
- 仮想現実(VR)技術の発展は，没入感とリアリティの向上に不可欠であり，遅延は重要な要素である。
- 既存のHMDは12-60ミリ秒程度の遅延があり，それ以下の遅延での知覚研究が困難であった。
- 2ミリ秒という極めて低い遅延を実現するHMDを用いて，遅延がユーザー体験に及ぼす影響を詳細に分析する。
- 新たに開発したCamsicleを用いて，2msと14.3msの遅延が，23msと29msよりもボールキャッチにおいて好まれることが示された。
- 自然なタスクにおける遅延の主観評価と，高精度システムにおける知覚閾値との関連性が示唆された。
- 本研究は，低遅延HMDの設計と評価における知覚的要件を明確にし，VR技術の進歩に貢献する。
Link: https://arxiv.org/abs/2603.15796
推論時の自己省察型メモリによる多Modal大規模言語モデルの状況に応じた安全性向上 [cs.CV, cs.CL, cs.CR]目的：多Modal大規模言語モデルにおける状況に応じた安全性評価と向上
- 近年，画像認識などの分野で性能が向上している多Modal大規模言語モデルの安全性確保は重要である。
- 既存研究は明示的な有害入力の検出に偏っており，微妙な状況変化を見分けられない場合がある。
- 状況理解に基づいた安全性判断と，継続的な安全性進化を可能にする手法を開発する。
- 本研究では，状況に応じた安全性評価のためのベンチマークMM-SafetyBench++を構築した。
- 学習不要なフレームワークEchoSafeを提案し，過去の対話から得られた安全に関する知見を自己省察型メモリに蓄積・活用する。
- 様々な安全性ベンチマークにおいて，EchoSafeが既存手法を上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.15800
ヘッドアバターの作成と編集のための前方伝播ガウス登録 [cs.CV]目的：高品質なヘッドアバターの作成と編集手法
- リアルタイムなアバター作成の需要が高まっており，その効率化が重要である。
- 既存手法は追跡と最適化に時間がかかり，アバター作成に長時間を要する。
- マルチビュー画像から直接ガウススプラットテクスチャを予測し，高速なアバター作成を実現する。
- 本研究では，わずか0.5秒でフレームごとのガウススプラットテクスチャ予測を可能にするMATCHを提案した。
- MATCHは，既存手法と比較して，ノベルビュー合成，ジオメトリ登録，ヘッドアバター生成において性能が向上した。
- アバター作成時間を競合手法の10分の1に短縮し，高速な個人化アバター作成を実現した。
Link: https://arxiv.org/abs/2603.15811
ModTrack：カルマンフィルタリングによる識別情報に基づいたマルチビュー追跡 [cs.CV]目的：マルチビュー・マルチオブジェクト追跡における，一貫した物体識別子の維持
- 複数のセンサーからの情報を統合し，対象物体の追跡を行う分野であり，自動運転やロボティクス等への応用が期待される。
- 異なる視点からの情報や遮蔽により，追跡対象の識別が一貫性を保てないという課題が存在する。
- センサーの種類や配置に依存せず，汎用的に高い追跡精度と不確実性の定量化を実現することを目指す。
- ModTrackは，既存のモジュール型手法を大幅に上回るIDF1スコア(95.5)とMOTAスコア(91.4)をWildTrackデータセットで達成した。
- 学習済みモデルの再学習を必要とせず，MultiviewXやRadarScenesといった異なるデータセットへの展開が可能である。
- 検出と特徴抽出以外の部分を解析的に処理することで，不確実性の追跡とモジュール化を両立した。
Link: https://arxiv.org/abs/2603.15812
曖昧さと躊躇の認識のための衝突を意識したマルチモーダル融合 [cs.CV]目的：曖昧さと躊躇の自動認識
- 臨床現場において，人の微妙な感情状態を理解することは重要である。
- 異なる情報源からの信号の矛盾を捉えることが困難である。
- マルチモーダルなアプローチによって，矛盾の検出と一貫性の確認を目指す。
- 提案手法ConflictAwareAHは，テキスト，音声，視覚情報を統合し，各モダリティ間の差異を衝突特徴として活用する。
- 衝突特徴は，曖昧さ/躊躇の兆候として，また行動の一貫性確認にも寄与する。
- BAHW10データセットにおいて，既存手法を10ポイント以上上回る0.694のMacro F1スコアを達成した。
Link: https://arxiv.org/abs/2603.15818
埋め込みボトルネックの克服：適応的検索拡張3D CTレポート生成 [cs.CV]目的：3D CTボリュームからの自動放射線科レポート生成における病理学的網羅性の向上
- 医療画像の解析と診断支援は，医師の負担軽減と診断精度の向上に不可欠である。
- 既存の3D CT埋め込み表現は次元集中を起こし，十分な病理情報を捉えられていない。
- 視覚表現のボトルネックを解消し，より詳細かつ正確なレポート生成を実現すること。
- 本研究では，適応的検索拡張フレームワークAdaRAG-CTを提案し，テキスト情報の補完によるボトルネック克服を試みた。
- CT-RATEベンチマークにおいて，AdaRAG-CTは臨床F1スコアを0.420から0.480へと6ポイント改善し，最先端の性能を達成した。
- 検索と生成の両方のコンポーネントが性能向上に貢献することが，消去実験によって確認された。
Link: https://arxiv.org/abs/2603.15822
力強化されたエゴセントリック学習：物理的行動理解のためのデータセット [cs.CV, cs.LG, cs.RO]目的：物理的行動理解のための大規模データセット
- ロボットの自律的な行動を可能にする上で，物理的な世界とのインタラクション理解は不可欠である。
- 既存のデータセットは，力の情報を欠いており，物理的インタラクションの理解が限定的である。
- 力情報を活用することで，より正確な物理的行動理解を可能にすること。
- 本研究で開発したFEELデータセットは，約300万フレームの力とエゴセントリックビデオを同期して収録している。
- FEELを用いた実験により，接触理解と行動表現学習において最先端の結果が得られた。
- FEELで事前学習したモデルは，他のデータセットにおける行動理解タスクでの転移学習性能を向上させた。
Link: https://arxiv.org/abs/2603.15847
3D医療形状における疾患効果と加齢の自己教師あり分離 [cs.CV, cs.LG]目的：3D医療形状における疾患効果と加齢の分離
- 医療画像解析において，加齢変化と疾患変化の区別は，正確な診断や治療計画に不可欠である。
- 疾患と加齢は形状変化に重なり合うため，診断ラベルが限られている場合，分離が困難である。
- 加齢と疾患の形状変化を分離し，解釈可能なバイオマーカー開発を目指す。
- 提案手法は，教師なしの疾患発見と自己教師ありの潜在表現の分離を組み合わせることで，優れた性能を発揮した。
- ADNI海馬およびOAI遠位大腿骨の形状データにおいて，最先端の教師なしベースラインを上回る分解能と再構成精度を達成した。
- 高精度な再構成，制御可能な合成，そして要因に基づいた説明可能性を実現した。
Link: https://arxiv.org/abs/2603.15862
EvoIQA - 進化型論理を用いた画像歪みの説明 [cs.CV, cs.NE]目的：画像品質評価における歪み説明
- 視覚情報の重要性から，画像品質の客観的評価手法の確立が求められている。
- 既存手法は，解釈可能性と性能のトレードオフを抱えており，両立が課題となっていた。
- 解釈可能でありながら高性能な画像品質評価手法を開発し，両者の調和を目指す。
- EvoIQAは，遺伝的プログラミングに基づき，画像品質を評価するための明示的な数式を進化させる。
- 実験結果から，EvoIQAは人間の視覚的嗜好と高い整合性を示すことが確認された。
- EvoIQAは既存手法を上回り，DB-CNN等の高性能な深層学習モデルと同等の性能を達成した。
Link: https://arxiv.org/abs/2603.15887
AsgardBench - 最小限のフィードバック下における視覚的根拠に基づいたインタラクティブプランニングの評価 [cs.AI, cs.CV, cs.RO]目的：視覚的根拠に基づいたインタラクティブプランニングの能力評価
- 身体化AI研究は，現実世界での知的な行動を可能にするために不可欠である。
- 既存のベンチマークは，ナビゲーションと推論を混同しているか，詳細なフィードバックに依存している。
- 視覚情報のみからプランを修正する能力に焦点を当て，より現実的なインタラクティブプランニングを評価する。
- 最先端のビジョン言語モデルは，視覚入力がなければ性能が著しく低下し，視覚的根拠と状態追跡の弱点が明らかになった。
- AsgardBenchは，モデルが予期せぬ事態に対応してプランを適応できるかを評価する狭い範囲に焦点を当てている。
- ベンチマークは，オブジェクトの状態，配置，シーン構成を系統的に変化させることで，条件分岐を強調し，実行中のプラン修復を促す。
Link: https://arxiv.org/abs/2603.15888
プライバシー保護のための連合学習：医療AIへの応用 [cs.LG, cs.AI, cs.CV]目的：アルツハイマー病分類のためのプライバシー保護連合学習に関する研究
- 医療AIの発展は，患者データの活用に依存するが，プライバシー保護が重要課題となる。
- 既存手法は，現実的でないデータ分割やプライバシー保護の不足，ベンチマークの不備を抱える。
- 本研究は，現実的なデータ分割と高度なプライバシー保護メカニズムを確立し，実用的な医療AI展開を目指す。
- 提案手法であるサイト対応型データ分割は，機関間の境界を維持し，データ異質性を考慮した現実的な協調学習を可能にする。
- 適応的な局所差分プライバシー(ALDP)は，学習の進行に応じてプライバシーパラメータを調整し，プライバシーとユーティリティのバランスを向上させる。
- 実験結果から，FedProx等の連合学習アルゴリズムが中央集権型学習と同等以上の性能を達成し，厳格なプライバシー保護を両立することが示された。
Link: https://arxiv.org/abs/2603.15901
音源からのオーディオによる進化計算を通じたシンセサイザーパラメータの自動復元 [cs.CL, cs.SD]目的：オーディオからのシンセサイザーパラメータ復元
- 音色を特徴づける重要な要素を再現し，音楽制作の効率化が求められている。
- 既存のオーディオ-MIDI変換ツールは音程のみを抽出し，音色情報を無視している。
- オーディオからシンセサイザーパラメータを復元し，音色再現を可能にすること。
- 提案システムInstrumentalは，28パラメータの減算シンセサイザーとCMA-ESを組み合わせ，オーディオからシンセサイザーパラメータを復元する。
- 実録音データを用いて評価した結果，mel-scaled STFT，スペクトル重心，MFCCのダイバージェンスを組み合わせた知覚的損失が2.09に一致した。
- CMA-ESは勾配降下法よりも優れており，パラメータ数の増加が必ずしも一致精度向上につながらないことが示された。
Link: https://arxiv.org/abs/2603.15905
疎だが単純ではない：Vision Transformerの多層解釈可能性分析 [cs.CE, stat.ML, cs.CV]目的：Vision Transformerにおける重み疎性と解釈可能性との関係の評価
- 近年，画像認識においてTransformerが注目されており，その解釈可能性は重要な課題である。
- 疎なニューラルネットワークは解釈しやすいと考えられているが，構造的な疎性が本当に解釈可能性向上に繋がるかは不明である。
- 本研究は，Vision Transformerの疎性化が解釈可能性に与える影響を多層的に評価し，その実態を明らかにする。
- 疎なモデルは，密なモデルと比較して約2.5倍少ないエッジ数を持つ回路を生成することが示された。
- しかし，活性ノードの割合は類似するか，むしろ増加する傾向があり，疎性化が計算を単純化するのではなく，再配分している可能性が示唆された。
- ニューロンレベルの選択性，SAE特徴の解釈可能性，アトリビューションの忠実度において，疎なモデルは系統的な改善を示さなかった。
Link: https://arxiv.org/abs/2603.15919
LLM駆動型マルチモーダル拡散による肺結節進行予測のための結節アラインメント潜在空間学習 [cs.CV]目的：肺結節の進行予測
- 肺癌の早期診断は，生物学的不確実性と結節進行のメカニズム理解不足から困難である。
- 結節の属性変化と患者データとの関連性が明確でなく，精度の高い進行予測が難しい。
- 患者データと結節の属性変化を考慮した，より正確な進行予測手法の開発。
- 提案手法NAMDは，ベースラインスキャンや既存手法と比較して，結節悪性腫瘍予測において高い性能を示した。
- 生成された結節画像は，実際の経過観察画像に匹敵する精度で臨床的に重要な特徴を捉えていることが示された。
- 本研究は，肺結節の早期かつ正確な診断を支援する可能性を示す。
Link: https://arxiv.org/abs/2603.15932
視覚言語モデルにおける幻覚のない物体隠蔽：ギャップを作らない [cs.CR, cs.CV]目的：視覚言語モデルにおける幻覚の発生メカニズム解明と，それを抑制する物体隠蔽手法の提案
- 視覚言語モデルは画像とテキストの理解において進歩しているが，悪意のある操作に脆弱である。
- 従来の物体隠蔽攻撃は，特定領域の表現を抑制し，意味的なギャップが生じ，結果として幻覚を引き起こす。
- 意味的な不連続性を導入しない，背景と一貫性のある物体隠蔽手法を開発し，幻覚を抑制すること。
- 背景と一貫性のある物体隠蔽攻撃を提案することで，従来の攻撃と比較して幻覚を最大で3倍削減することに成功した。
- 提案手法は，隠蔽対象の物体を効果的に隠蔽しながら，非対象物体の最大86%を維持する。
- 本研究は，物体隠蔽攻撃における幻覚のメカニズムを解明し，より安全な視覚言語モデルの構築に貢献する。
Link: https://arxiv.org/abs/2603.15940
KL正則化群分布ロバスト最適化による公平で堅牢な容積CT分類 [cs.CV]目的：分布シフトと人口統計学的サブグループ間の性能格差への対処
- 胸部CT画像による自動診断は臨床応用が期待されるが，データ分布の変化や偏りが課題。
- 撮影場所や性別などの要因による性能のばらつきが，公平な診断を妨げる要因となる。
- KL正則化群分布ロバスト最適化により，性能の低いグループを重視し，公平性と性能の両立を目指す。
- COVID-19二値分類タスクにおいて，既存の最高性能エントリーを5.9ポイント上回るF1スコア0.835を達成した。
- 肺病理四分類タスクでは，{\alpha} = 0.5における群DROが，平均性別マクロF1スコア0.815を達成し，既存の最高性能エントリーを11.1pp上回った。
- 特に，女性スクワモウス細胞癌のF1スコアをベースラインのFocal Lossから17.4ポイント改善した。
Link: https://arxiv.org/abs/2603.15941
腎生検における基盤モデルの包括的ベンチマーク [cs.CV]目的：腎生検の病理組織学的評価における基盤モデルの性能評価
- 腎疾患の診断・予後予測において，病理組織学的検査は不可欠である。
- 既存の基盤モデルは主に癌領域に特化しており，腎疾患への適用は限定的である。
- 腎臓病理に特化した基盤モデルの必要性を示唆する。
- 粗大な腎臓形態に基づくタスク（診断分類，顕著な構造変化の検出）では，中程度から良好な性能が確認された。
- 微細な構造の識別，複雑な生物学的表現型，スライドレベルの予後予測タスクでは，性能が低下した。
- 現在の基盤モデルは，主に静的な中規模表現を学習しており，微細な腎病理や予後関連信号の捕捉能力に限界がある。
Link: https://arxiv.org/abs/2603.15967
UMO：統一されたIn-Context学習がモーション基礎モデルの潜在能力を解き放つ [cs.CV]目的：多様なモーション生成タスクにおける，大規模なモーション基礎モデルの潜在能力の活用
- 近年，モーション生成において基礎モデルの重要性が高まっている。大規模データによる事前学習が性能向上に貢献。
- 既存手法はタスク固有の適応が必要であり，汎用的なモーション生成フレームワークが不足している。
- 多様なタスクを単一のフレームワークで実行し，モーション基礎モデルの潜在能力を最大限に引き出す。
- UMOは，多様なタスクをフレーム単位の操作の組み合わせとして表現することで，事前学習済みのモデルを効率的に適応させる。
- UMOは軽量な機構により，実行時のオーバーヘッドを抑制しつつ，多様なモーション生成タスクをサポートする。
- 実験の結果，UMOは既存のタスク固有の手法と比較して，幅広いベンチマークで優れた性能を示した。
Link: https://arxiv.org/abs/2603.15975
視線と手ポインタにおけるミダス・タッチ：XRインターフェースに向けたモダリティ固有の失敗モードと示唆 [cs.HC, cs.AI, cs.GR]目的：XR関連のポインティングパフォーマンス向上と，静的な単一モダリティインタラクションと比較した際のワークロード軽減
- XR技術は没入感の高い体験を提供するが，操作方法の負担軽減が課題となっている。
- 視線入力は精度に限界があり，意図しない選択を引き起こす「ミダス・タッチ」問題が存在する。
- モダリティ固有の適応的介入により，XRインターフェースのユーザビリティ改善を目指す。
- 手ポインタの方が，視線入力よりもスループットが高く，エラー率が低く，NASA-TLXワークロードも軽かった。
- 視線入力エラーは主に「滑り」が，手ポインタエラーは主に「見逃し」が占めており，ミダス・タッチの説明と一致した。
- 適応的介入である視線クラッタ減少は，タイムアウトをわずかに減少させたが，スリップの削減には至らなかった。
Link: https://arxiv.org/abs/2603.15991
主にテキスト，賢いビジュアル：大規模視覚言語モデルのための非対称テキスト-ビジュアルプルーニング [cs.MM, cs.CL, cs.SC, cs.CL, cs.CY, cs.CV, cs.CL, cs.LG]目的：大規模視覚言語モデルの軽量化
- 近年，視覚情報とテキスト情報を統合する大規模モデルが重要性を増している。
- モデルのサイズが大きいことが計算コストやメモリ使用量の増加を招いている。
- テキストとビジュアル情報の特性の違いを考慮したプルーニング手法が求められている。
- テキストパスウェイはテキストトークンで，ビジュアルパスウェイは高い冗長性を持つことが示された。
- ATV-Pruningは，テキストとビジュアルの重要なトークンを選択することで，より正確なプルーニングを実現する。
- 標準的なマルチモーダルベンチマークにおいて，ATV-Pruningが最先端手法を上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.16001
FlatLands: 単一の主観視点からのフロアマップ生成補完 [cs.CV, cs.AI, cs.RO, eess.IV]目的：単一視点からのフロアマップ生成補完
- 屋内ナビゲーション等の応用には，周囲の正確な移動可能マップが不可欠である。
- 単一画像では捉えられる床領域が限られており，完全なマップ生成が課題である。
- 単一画像から完全なフロアマップを生成し，不確実性を考慮した屋内マッピングを目指す。
- FlatLandsデータセットは，既存の6つのデータセットから27万件以上の屋内シーンを含む。
- 多様な評価プロトコルを用いて，様々なモデル（非学習型，決定論的，生成型）を比較検証した。
- RGB画像からフロアマップを直接生成するエンドツーエンドのパイプラインを構築した。
Link: https://arxiv.org/abs/2603.16016
音声指示によるビデオ誘導下頭蓋底手術支援インタラクティブシステム [cs.CV]目的：ビデオ誘導下頭蓋底手術における音声指示に基づく知覚および画像誘導タスクの動的実行
- 頭蓋底手術は複雑であり，正確な解剖学的知識とリアルタイムの視覚誘導が不可欠である。
- 従来の画像誘導ナビゲーションシステムは，外部トラッカーや追加のハードウェアが必要で，設置に手間がかかる。
- 手術中のビデオ映像のみを用いて，迅速かつ柔軟な手術支援システムを実現することを目指す。
- 音声指示により，手術器具のインタラクティブなセグメンテーションとラベリングが可能となった。
- セグメント化された手術器具を空間アンカーとして活用し，解剖学的セグメンテーションや3Dモデルの登録を支援する。
- 提案システムは市販の光学トラッキングシステムと同等の空間精度を達成し，ワークフローの統合と迅速な導入を可能にする。
Link: https://arxiv.org/abs/2603.16024
批評家なし強化学習による協調的時系列特徴生成：ユーザ間センサベース活動認識 [cs.RO, cs.LG, cs.AI, cs.CV]目的：ユーザ間変動に対応した活動認識のための，汎化可能な時系列特徴抽出
- ウェアラブルセンサを用いた活動認識は，健康管理や運動分析などに応用が期待されている重要な技術である。
- ユーザの生理的特性や動作習慣の違いにより，異なるユーザ間での活動認識精度にばらつきが生じる点が課題である。
- 強化学習を用いて，ユーザに依存しない汎化性能の高い特徴量を自動的に生成し，活動認識精度を向上させる。
- 提案手法CTFGは，Transformerベースの生成モデルを用いて時系列特徴を協調的に生成し，ユーザ間変動の影響を低減する。
- 批評家なし強化学習により，安定した学習と高い汎化性能を実現し，既存手法を上回る活動認識精度を達成した。
- DSADSとPAMAP2のベンチマークにおいて，最先端のユーザ間精度(88.53%と75.22%)を示し，学習の安定性も確認された。
Link: https://arxiv.org/abs/2603.16043
エンドツーエンド自律の時代：ルールベース運転から大規模運転モデルへの移行 [cs.RO, cs.CV, eess.IV]目的：自動運転における，従来のシステムから大規模運転モデルへの移行
- 自動運転技術は，社会の安全性向上や移動の効率化に貢献する重要な分野である。
- 従来のモジュール型システムでは，複雑な状況への対応が困難であり，汎化性能に課題がある。
- 実世界の多様な運転シナリオに対応可能な，よりロバストな自動運転システムの開発を目指す。
- 自動運転は，従来の「感知・計画・制御」から，エンドツーエンド学習システムへと移行しつつある。
- テスラFSDやRivianのUnified Intelligenceなど，最新の取り組みを分析し，アーキテクチャや安全性について考察した。
- 2026年以降の商用展開が見込まれる，高度な運転支援システム（FSD Supervised）が主流になると示唆されている。
Link: https://arxiv.org/abs/2603.16050
構造を意識した検索拡張LLMによる信頼性の高い科学的可視化パイプライン構築 [cs.DC, cs.GR, cs.HC, cs.SE]目的：科学的可視化パイプラインの構築における信頼性向上
- 科学的可視化は，データ解析や理解に不可欠であり，科学研究の進展に大きく貢献する。
- パイプライン構築は，段階間の依存関係が厳しく，誤りが発生しやすい。自然言語からの自動生成は困難。
- LLMを活用し，構造化された情報を提供することで，パイプラインの実行可能性と正確性を高める。
- 提案手法は，パイプラインに沿ったvtk.jsコード例を提供することで，モジュール選択やパラメータ設定の精度を向上させる。
- 複数の科学的可視化タスクとLLMを用いて評価した結果，パイプラインの実行可能性が大幅に向上し，修正コストが減少した。
- 生成されたパイプラインの検査と評価を支援するインタラクティブな分析インターフェースも提供する。
Link: https://arxiv.org/abs/2603.16057
ViT-AdaLA：線形注意を用いたVision Transformerの適応 [cs.CV]目的：Vision Transformerへの線形注意の知識転移と適応
- 画像認識分野では，Vision Transformerが優れた性能を示すが，計算量が課題となっている。
- 既存の線形注意機構は，学習に多大な計算資源を必要とし，言語モデル向けの方法がそのままViTに適用できない。
- ViT-AdaLAは，既存のVision Transformerの知識を線形注意ViTへ効率的に転移し，性能を向上させる。
- ViT-AdaLAは，注意機構，特徴量，教師あり微調整の3段階で，既存のViTの知識を線形注意ViTへ適応させる。
- 線形注意をソフトマックス注意に合わせることで，層間での誤差の蓄積を抑制し，最終層の特徴量を教師ViTに近づける。
- 分類とセグメンテーションタスクにおいて，ViT-AdaLAは最先端の線形注意ViTと比較して，高い有効性と汎用性を示す。
Link: https://arxiv.org/abs/2603.16063
属性アップサンプリングは補間ではなく再分配を行うべきである [cs.CV, cs.LG]目的：説明可能なAIにおける属性の信頼性向上
- AIの解釈可能性は，モデルの意思決定プロセスを理解する上で不可欠であり，信頼性の高いAIシステムの構築に繋がる。
- 既存のアップサンプリング手法は自然画像向けに設計されており，属性マップの特性を考慮していないため，誤った解釈を招く恐れがある。
- 属性マップのアップサンプリングを，モデルの推論に基づいた意味的境界を考慮した再分配問題として捉え，より忠実な説明を生成すること。
- 提案手法であるUniversal Semantic-Aware Upsampling (USU)は，属性の総量と相対的な重要度の順序を数学的に保証する。
- USUは，アップサンプリングに関する4つの要件を形式化し，既存の補間手法がその3つに違反することを示している。
- ImageNet，CIFAR-10，CUB-200といったデータセットを用いた評価により，USUが既存手法よりも忠実度が高く，意味的に一貫性のある説明を生成することが確認された。
Link: https://arxiv.org/abs/2603.16067
神経微分可能フローを用いた胎盤MRIの体積整合性のある暗黙的アトラス学習 [cs.CV, cs.GR]目的：胎盤の共有された標準テンプレートの学習
- 解剖学的形状間の高密度な体積対応付けは，グループレベル分析に不可欠である。
- 既存の暗黙的登録法はゼロレベルセット付近の教師データに依存し，表面対応しか捉えられない。
- 胎盤MRIにおける体積整合性を改善し，グループ分析に適した形状を導出すること。
- 提案手法は，符号付き距離関数の再構成と神経微分可能フローを組み合わせることで，体積整合性のある暗黙的モデルを構築する。
- 体積正則化により，局所的な折り畳みを抑制し，グローバルに一貫性のある変形を促進する。
- 実験の結果，提案手法は表面ベースの既存手法と比較して，幾何学的精度と体積整合性が向上することが示された。
Link: https://arxiv.org/abs/2603.16078
合成から現実へのドライビングシーン解析のための構造化プロトタイプ正則化 [cs.CV]目的：合成データと現実データの間のドメインギャップを縮小し，ドライビングシーン解析の性能向上
- 自動運転車の信頼性向上には，複雑な現実世界の交通環境を正確に解析する能力が不可欠である。
- 合成データで学習したモデルは，現実世界の画像との違いから性能が低下するドメインギャップの問題がある。
- 特徴空間におけるセマンティック構造のモデリング不足を解消し，汎化性能の向上を目指す。
- 提案手法は，クラス固有のプロトタイプを用いて特徴クラスターの識別性と構造的 coherence を高めることで，ドメイン適応性能を向上させている。
- エントロピーに基づくノイズフィルタリング戦略により，疑似ラベルの信頼性が向上し，ピクセルレベルの注意メカニズムが特徴アラインメントをさらに洗練している。
- 複数のベンチマークにおける実験結果は，提案手法が最先端手法を安定的に上回ることを示しており，セマンティック構造の保持が重要であることを裏付けている。
Link: https://arxiv.org/abs/2603.16083
Interact3D：インタラクティブなオブジェクトの構成的な3D生成 [cs.CV, cs.AI]目的：インタラクティブなオブジェクトの構成的な3D生成
- 3D生成技術は，仮想現実やロボティクスなど幅広い分野で重要性が増している。
- 単一の画像から3D構成オブジェクトを生成する際，隠れた領域の幾何学的詳細の劣化やオブジェクト間の空間関係の維持が課題である。
- 隠れた領域の情報を活用し，物理的に妥当な3D構成オブジェクトを生成することを目指す。
- Interact3Dは，高品質な個々のアセットをキュレーションし，統一された3Dガイダンスシーンを活用する。
- 2段階の構成パイプラインにより，正確な幾何学的アライメントと，幾何学的交差を抑制するSDFベースの最適化を実現する。
- VLMによる多視点レンダリングの分析と，それに基づく自己修正により，衝突を意識した構成を生成する。
Link: https://arxiv.org/abs/2603.16085
ビジョン・サウンド・言語・行動パラダイムへ：音響中心操作のためのHEARフレームワーク [cs.RO, cs.AI, cs.CV, cs.SD]目的：音響を中心とした操作のためのフレームワークの提案
- ロボットの環境認識とインタラクションにおいて，視覚だけでなく聴覚も重要な役割を担うことが認識されている。
- 既存のVLAモデルは音響を静的なプロンプトとして扱うか，人間の音声に焦点を当てており，リアルタイムな音響中心操作に対応できていない。
- 環境音の変化を継続的に認識し，遅延ループ下で制御を行うことで，よりロバストな操作を実現することを目指す。
- 提案手法HEARは，音響情報の文脈維持，マルチセンサリ入力の推論，時間的動的な学習，そして滑らかな行動生成を実現する。
- 大規模な音響データセットOpenX-Soundと，厳密な因果的タイミング規則を持つベンチマークHEAR-Benchを新たに構築した。
- 実験結果から，因果的な持続性と明示的な時間的学習が，音響中心操作において必要不可欠であることが示唆された。
Link: https://arxiv.org/abs/2603.16086
大規模視覚言語モデルにおける並列文脈学習 [cs.CV, cs.AI, cs.LG]目的：大規模視覚言語モデルにおける効率的な文脈学習手法
- 視覚と言語を統合したモデルは，多様なタスクに応用可能であり，AI研究の重要な方向性である。
- 文脈学習は性能向上に寄与するが，計算コストが大きく，推論速度が課題となっている。
- 推論速度を改善しつつ，性能を維持できる文脈学習手法を開発すること。
- 提案手法Parallel-ICLは，文脈を分割して並列処理することで推論速度を向上させる。
- クラスタリングと類似度に基づいた文脈の分割・統合により，精度を維持する。
- VQA，画像キャプション，分類タスクで，従来の文脈学習と同等の性能を達成する。
Link: https://arxiv.org/abs/2603.16092
共同オーディオ・ビデオ生成のための拡散モデル [cs.SD, cs.AI, cs.CV, cs.MM]目的：共同オーディオ・ビデオ生成の実現
- マルチモーダル生成は，映像や音声の合成において目覚ましい進歩を遂げている。
- しかし，映像と音声を真に共同で生成することは依然として困難な課題である。
- 本研究は，映像と音声の同期性を高めるための新たな手法を提案する。
- 高品質なオーディオ・ビデオペアデータセットを新たに構築し，公開した。
- MM-Diffusionアーキテクチャを用いて，意味的に一貫性のあるオーディオ・ビデオペア生成を実証した。
- テキストからオーディオ・ビデオを生成する二段階パイプラインが，高忠実度な生成結果を生み出すことを示した。
Link: https://arxiv.org/abs/2603.16093
LICA：グラフィックデザイン研究のための階層型画像合成注釈 [cs.CV, cs.AI]目的：グラフィックデザインのレイアウト構造の理解と生成を促進するための大規模データセット
- グラフィックデザインは，視覚コミュニケーションにおいて重要な役割を担い，その自動化技術へのニーズは高い。
- 既存のデータセットは，グラフィックデザインの構造的な情報を十分に捉えていない。
- デザイン要素間の階層構造と関係性を明示的に表現することで，より高度なモデル開発を目指す。
- LICAは，155万を超える多層グラフィックデザイン構成を含む大規模データセットである。
- 各デザインは，テキスト，画像，ベクターなどの要素からなる階層構造で表現され，豊富なメタデータが付与されている。
- このデータセットは，レイヤーを意識した画像補完や，構造化されたレイアウト生成など，新たな研究課題を可能にする。
Link: https://arxiv.org/abs/2603.16098