arXiv雑要約

画像・音声 - 2026/03/02 公開

HumanOrbit：360度軌道生成による3D人体復元 [cs.CV]目的：単一画像からの人物周辺360度軌道動画の生成
- 3D人体モデルは，仮想現実やエンターテイメントなど幅広い分野で不可欠である。
- 既存手法では，多視点画像合成時に一貫性が失われたり，人物のIDが変化したりする問題がある。
- 本研究は，一貫性のある高品質な多視点画像生成と，それを用いた高精度な3D人体モデルの復元を目指す。
- 提案手法HumanOrbitは，ビデオ拡散モデルを用いて，人物の連続的なカメラ回転を生成する。
- 生成された多視点画像から，人物のテクスチャ付き3Dメッシュを復元するパイプラインを開発した。
- 実験結果から，HumanOrbitが既存手法と比較して，より完全かつ高精度な3Dモデルを生成することが示された。
Link: https://arxiv.org/abs/2602.24148
RAViT：解像度適応型ビジョンTransformer [cs.RO, cs.CV, cs.LG]目的：計算コスト削減と精度維持を両立する画像分類フレームワーク
- 画像認識分野において，Transformerは高性能を示すが，計算コストが高い点が課題である。
- 従来のVision Transformerは，高い計算資源を必要とするため，実用上の制約がある。
- 異なる解像度の画像を多分岐で処理し，早期終了機構を導入することで，効率的な画像分類を目指す。
- RAViTは，従来のVision Transformerと同等の精度を，約70%のFLOPsで達成した。
- 提案手法は，複数の解像度で画像を処理することで，計算コストを削減しつつ，高精度を維持する。
- 早期終了機構により，推論時に精度と計算コストの適切なトレードオフを選択できる。
Link: https://arxiv.org/abs/2602.24159
高次元画像を探索するための多様体保持型スーパーピクセル階層と埋め込み [cs.CV]目的：高次元画像の探索における，多様体構造を保持するスーパーピクセル階層の構築
- 画像解析において，高次元な属性情報を持つ画像の効率的な探索は重要である。
- 既存の階層的次元削減手法は，画像の空間構造を無視している点が課題である。
- 画像空間と属性空間の一貫性を保ち，探索を容易にすることを目的とする。
- 本手法では，多様体構造を考慮したスーパーピクセル階層を構築することで，画像と属性空間の一貫性のある探索を実現した。
- 実験結果から，提案手法は従来の階層的埋め込み手法と比較して，より効果的な画像探索が可能であることが示された。
- 画像の領域と属性抽象化の対応関係を明確化し，興味領域の探索を促進する。
Link: https://arxiv.org/abs/2602.24160
ジオメトリを意識した拡散による4Dヘッドアバター再構成：GeoDiff4D [cs.CV]目的：4Dヘッドアバターの再構成
- リアリスティックなアバター生成は，バーチャルコミュニケーションやエンターテイメントにおいて重要である。
- 既存手法は2D事前知識に依存し，一貫した3D形状の獲得が課題となっていた。
- 3D形状の正確性を保ちつつ，高忠実度なヘッドアバターを再構成することを目指す。
- 提案手法は，画像と法線ベクトルを同時に合成することで，強力な形状事前知識を学習する。
- 3D Gaussian を基盤とするアバター表現を用いることで，リアルタイムレンダリングが可能となった。
- 視覚品質，表情の再現性，汎化性能において，既存手法を大幅に上回る結果が得られた。
Link: https://arxiv.org/abs/2602.24161
不正確な選好下での公平な分割 [cs.GT]目的：不正確な選好に基づく，希少資源の公平な分割
- 資源配分の公平性は，数学，計算機科学，経済学など様々な分野で重要な課題である。
- 選好の数値化は負担が大きく，誤りやすい。順位情報のみでは，公平性の定量化が困難である。
- 不正確な選好下における公平性の最適化，特に嫉妬の最小化を目指す。
- 真の選好が確率的である場合，確率的に高い確率で嫉妬のない分割が可能となる。
- 最悪の場合の選好と制限されたノイズに対して，ラウンドロビンアルゴリズムにおける最大嫉妬値を解析した。
- 割り当て時に選好が明らかになる状況下で，対数的な最大嫉妬を保証するオンラインアルゴリズムを提案した。
Link: https://arxiv.org/abs/2602.24169
混合データがDINOを雑食性ビジョンエンコーダにする [cs.CV, cs.AI]目的：異なるモダリティ間の特徴表現の整合性向上
- 画像認識技術は，自動運転やロボティクスなど，様々な応用分野で不可欠である。
- 既存のビジョンエンコーダでは，異なるモダリティ間の特徴表現にずれが生じやすい。
- 本研究は，モダリティに依存しない汎用的な特徴空間を学習することで，この問題を解決する。
- 提案手法であるOmnivorous Vision Encoderは，異なるモダリティ間の特徴整合性を最大化する。
- DINOv2などの教師モデルからの知識蒸留により，識別能力の高い表現を獲得する。
- その結果，入力モダリティに関わらず，一貫性のある強力な埋め込み表現を生成できる。
Link: https://arxiv.org/abs/2602.24181
医療画像分類における系統的失敗検出と説明のためのマルチモーダルスライス発見フレームワーク [cs.CV, cs.LG]目的：医療画像分類における系統的失敗の検出と説明
- 医療画像診断の精度向上は重要だが，機械学習の安全性・信頼性が課題となっている。
- 既存の監査手法は解釈性に乏しく，隠れた系統的失敗を捉えきれない場合がある。
- マルチモーダル表現を用いた自動監査フレームワークを開発し，失敗検出と説明を可能とする。
- 提案フレームワークは，MIMIC-CXR-JPGデータセットを用いた実験で，失敗検出と説明において高い性能を示した。
- マルチモーダル情報は，より包括的かつ効果的な分類器の監査を可能にする。
- 画像以外の単一モーダル入力でも，リソース制約下で有望な結果が得られた。
Link: https://arxiv.org/abs/2602.24183
確率的システムにおける強靭性戦略：勝利戦略を打ち破るにはどれだけのものが必要か [cs.GT, cs.AI, cs.LO]目的：不確実性下における強靭性戦略の検討
- 現実世界のシステムは不確実性に満ちており，ロバストな意思決定が不可欠である。
- システムの故障など，予期せぬ擾乱によって意思決定が覆される可能性が課題となる。
- 確率的環境下での強靭性を定量的に評価し，システム設計に役立つ知見を得る。
- 本研究では，確率的マルコフ決定過程における到達可能性と安全性という観点から強靭性を議論した。
- 擾乱量の集約方法として，期待値や最悪ケースを提示し，その影響を分析した。
- 無限に発生する擾乱に対処するため，発生頻度のような定量的な指標を用いることを提案した。
Link: https://arxiv.org/abs/2602.24191
マルチモーダル大規模言語モデルにおける非一貫性調整済み意味的体積による不確実性定量化 [cs.RO, cs.AI, cs.CL, cs.CV, cs.LG]目的：マルチモーダル大規模言語モデルの不確実性定量化
- 大規模言語モデルの性能向上に伴い，その信頼性評価が重要となっている。
- 既存の不確実性指標は，特定のモダリティに限定される，外部ツールに依存する，計算コストが高いなどの課題がある。
- モデル自身の内部表現を用いて，効率的に不確実性を定量化することを目指す。
- UMPIREは，外部ツールを用いず，様々な入力・出力モダリティに対応可能な，トレーニング不要な不確実性定量化フレームワークである。
- UMPIREは，モデルの内部モダリティ特徴量に基づき，サンプリングされたMLLM応答の意味的体積と非一貫性を考慮することで，不確実性を捉える。
- 実験の結果，UMPIREは，画像，音声，動画-テキストベンチマークにおいて，エラー検出と不確実性較正において，既存指標を上回る性能を示した。
Link: https://arxiv.org/abs/2602.24195
Performative Prediction におけるオンラインアルゴリズムの安定性 [cs.RO, cs.LG, cs.CY, cs.GT, stat.ML]目的：Performative Prediction環境下におけるオンラインアルゴリズムの安定性
- 意思決定におけるアルゴリズム予測の利用が拡大しており，その影響を理解することは重要である。
- アルゴリズムがデータ分布に影響を与える状況下での安定性確保が課題となっていた。
- モデルがデータ分布を変化させる状況下でも安定な均衡点に収束することを示す。
- 本研究では，無条件の還元により，Performative Prediction 環境で展開された後悔しないアルゴリズムが，Performatively Stable Equilibrium に収束することを示した。
- 既存研究とは異なり，モデルが分布に与える影響に関する強い制限を設けることなく，この結果を得ている。
- マルチンゲール議論とランダム化を用いることで，安定モデルを見つけることの困難さを回避し，勾配降下法などのアルゴリズムが自然に安定化する理由を解明した。
Link: https://arxiv.org/abs/2602.24207
SenCache：感度を考慮したキャッシュによる拡散モデル推論の高速化 [cs.CV, cs.LG]目的：拡散モデル推論の高速化
- 高品質な動画生成が可能だが，計算コストが高い点が課題となっている。
- 既存のキャッシュ手法は，キャッシュするステップ選択に試行錯誤が必要である。
- 感度分析に基づき，キャッシュエラーを最小化する動的なキャッシュポリシーを開発する。
- 提案手法SenCacheは，既存のキャッシュ手法と比較して，同程度の計算量でより高品質な動画を生成できる。
- モデル出力の入力摂動に対する感度が，キャッシュエラーの重要な予測因子であることを理論的に示した。
- サンプルごとにキャッシュステップを適応的に選択する動的なキャッシュポリシーを実現した。
Link: https://arxiv.org/abs/2602.24208
MuViT：顕微鏡検査におけるスケール間学習のためのマルチ解像度Vision Transformer [cs.CV, cs.LG]目的：顕微鏡検査におけるスケール間学習のためのマルチ解像度Vision Transformerのアーキテクチャ
- 現代の顕微鏡はギガピクセル画像を出力し，細胞構造から組織構造まで様々なスケールの情報を含むため，解析にはスケールを組み合わせる必要がある。
- 既存のVisionモデルは単一解像度で動作するか，単一の視点からマルチスケール特徴を抽出するため，顕微鏡データの本来持つマルチ解像度性を活かせない。
- MuViTは，同一画像から得られた真のマルチ解像度情報を融合することで，この問題を解決することを目指している。
- MuViTは，全てのパッチを共有の世界座標系に埋め込み，回転位置埋め込みをこれらの座標系に拡張することで，広範囲のコンテキストと高解像度な詳細を統合する。
- 合成ベンチマーク，腎臓組織病理，高解像度マウス脳顕微鏡検査において，MuViTは強力なViTおよびCNNベースラインに対して一貫した改善を示した。
- マルチ解像度MAE事前学習は，下流タスクを強化するスケール整合性のある表現を生成する。
Link: https://arxiv.org/abs/2602.24222
ランダムフォレスト誘導グラフニューラルネットワークによる表形式データ学習 [cs.GR]目的：表形式データに対するグラフニューラルネットワークの適用
- 複雑な関係性や構造化された相互作用をモデル化する上で，グラフは不可欠である。
- 多くの現実世界のデータセット，特に表形式データは，固有のグラフ表現を持たないという課題がある。
- ランダムフォレストによって誘導される近接度に基づき，表形式データからインスタンスレベルのグラフを構築し，この課題を解決する。
- RF-GNNは，36のベンチマークデータセットにおいて，加重F1スコアの点で，強力な古典的ベースラインおよび最近のグラフ構築手法を安定的に上回る性能を示した。
- 提案手法は，非線形な特徴量間の相互作用とデータ適応的な類似性を捉え，特徴量幾何学に関する制約的な仮定を課さない。
- 追加の消去研究により，近接度設計の選択とグラフ構築設定の影響が明らかになった。
Link: https://arxiv.org/abs/2602.24224
画像生成における空間理解の向上：報酬モデリングによるアプローチ [cs.CV]目的：画像生成における空間理解の向上
- 画像生成技術は高度化の一途を辿るが，複雑な空間関係の表現は依然として課題である。
- テキストプロンプトで複雑な空間関係を正確にエンコードすることは困難であり，複数回の試行が必要となる場合がある。
- 空間関係の評価基準を明確化し，報酬モデルを構築することで，空間理解の改善を目指す。
- 8万組以上のペアリングからなるSpatialReward-Datasetを構築し，空間評価において既存モデルを上回るSpatialScoreを開発した。
- 開発した報酬モデルは，複雑な空間生成のためのオンライン強化学習を効果的に可能にした。
- 複数のベンチマークにおける実験により，提案手法が画像生成の空間理解を大幅かつ一貫して向上させることが示された。
Link: https://arxiv.org/abs/2602.24233
実世界超解像のための幾何学的・軌跡一貫性学習 [cs.CV]目的：実世界画像超解像における幾何学的・軌跡の一貫性学習
- 画像超解像は，低解像度画像を高品質に復元する技術であり，様々な応用分野で重要である。
- 拡散モデルを用いた超解像は計算コストが高く，軽量なConsistency Modelは構造の一貫性維持が課題である。
- 幾何学的・軌跡の一貫性を学習することで，効率的かつ高品質な超解像を実現する。
- 提案手法GTASRは，Tangent Vector Fieldの修正と構造的制約の強化により，既存手法を上回る性能を示す。
- GTASRは，わずかな遅延で優れた性能を維持し，実用的な超解像技術となる可能性を示す。
- Consistency Modelの課題である一貫性ドリフトと幾何学的デカップリングを効果的に解決する。
Link: https://arxiv.org/abs/2602.24240
潜在多様体圧縮による病理組織画像正規化 [eess.SY, cs.SY, cs.HC, cs.LG, cs.CV]目的：病理組織画像のバッチ効果軽減
- 病理診断の精度向上に不可欠な画像解析の発展のため，データ間のばらつきを抑える技術が重要である。
- 染色プロトコル等の技術的差異によるバッチ効果が，モデルの汎化性能を著しく低下させる。
- 単一のソースデータからバッチ不変な埋め込み表現を学習し，未知データへの汎化性能を高める。
- 提案手法LMCは，潜在多様体を圧縮することでバッチ効果を大幅に低減することを示した。
- 複数のデータセットにおいて，既存の正規化手法を上回る性能を，クロスバッチ分類・検出タスクで確認した。
- これにより，臨床現場へのモデル展開における信頼性を高めることが期待される。
Link: https://arxiv.org/abs/2602.24251
視覚埋め込みモデルにおける合成汎化には線形かつ直交な表現が必要である [cs.CV, cs.LG]目的：視覚埋め込みモデルにおける合成汎化に必要な表現の構造
- 知的なシステムの重要な特性として，合成汎化能力の理解が求められている。
- 大規模データセットで訓練されたモデルでも，入力の組み合わせ空間のごく一部しかカバーできない。
- 合成汎化を可能にする表現の幾何学的制約を明らかにすること。
- 合成汎化の望ましい条件（分割可能性，転移可能性，安定性）は，線形性と直交性を必要とする。
- ニューラル表現において広く観測される線形構造は，合成汎化の必要条件であると考えられる。
- CLIP，SigLIP，DINOなどのモデルにおいて，概念ごとの低ランクでほぼ直交な因子による線形分解が確認された。
Link: https://arxiv.org/abs/2602.24264
弱教師あり行動セグメンテーションのための階層的行動学習 [cs.CV]目的：弱教師あり行動セグメンテーションにおける性能向上
- 人間は階層的な抽象化レベルで行動を認識するが，機械は視覚特徴に依存し過剰な分割を起こしやすい。
- ビデオ理解における階層的推論の実現は困難であり，既存手法ではセグメンテーション精度が課題となっている。
- 視覚特徴と高レベル行動潜在変数の時間的変化率の違いを利用し，より識別可能な潜在変数を得ることを目指す。
- 提案手法（HALモデル）は，高レベル行動潜在変数が低レベル視覚特徴のダイナミクスを制御する階層的因果データ生成プロセスを導入する。
- 階層型ピラミッドトランスフォーマーとスパース遷移制約により，高レベル行動潜在変数の時間的な安定性を高め，識別性を向上させている。
- 複数のベンチマークにおいて，既存手法を大幅に上回り，実用的な有効性が確認された。
Link: https://arxiv.org/abs/2602.24275
モード探索と平均探索の融合による高速長尺動画生成 [cs.CV, cs.LG]目的：長尺動画生成における忠実性と長期的整合性の両立
- 動画生成技術は，エンターテイメントやコンテンツ制作において不可欠であり，その重要性は増している。
- 長尺動画の学習データは不足しており，高品質な生成が困難であるという課題がある。
- 限られた長尺動画から長期的整合性を学習し，短尺動画のリアリズムを継承することを目指す。
- 提案手法は，長尺動画のナラティブ構造を捉えるグローバルなFlow Matchingヘッドと，短尺動画教師へのアラインメントによるローカルなDistribution Matchingヘッドを組み合わせる。
- これにより，長尺動画の生成における忠実性と長期的整合性のギャップを効果的に縮小することに成功した。
- 結果として，限られた学習データから数ステップで高速に長尺動画を生成可能となった。
Link: https://arxiv.org/abs/2602.24289
UFO-4D：2枚の画像からの姿勢推定なし4次元再構成 [cs.CV]目的：姿勢推定なしの画像ペアからの高密度4次元再構成
- 3次元構造の再構成は，コンピュータビジョンにおける基本的な課題であり，様々な応用分野で重要である。
- 従来の4次元再構成手法は，処理速度が遅いか，特定のタスクに特化しており汎用性に欠けるという問題があった。
- 本研究では，高速かつ汎用的な4次元再構成を実現し，従来の課題を克服することを目指す。
- UFO-4Dは，2枚の画像から直接的に動的3次元ガウススプラットを推定する，統一された前方処理フレームワークである。
- この手法により，3次元形状，3次元動き，カメラ姿勢を同時に，かつ一貫して推定することが可能になった。
- 実験結果から，UFO-4Dは既存手法と比較して，3次元形状，動き，カメラ姿勢推定において最大で3倍の性能向上を示した。
Link: https://arxiv.org/abs/2602.24290
クロスモーダリティアラインメントによるCLIPのロバスト性向上 [cs.CV, cs.MA]目的：CLIPのロバスト性向上のための手法
- 画像と言語を結びつけるVLMsは，ゼロショット分類において高い汎化性能を示す。
- CLIPは敵対的摂動に対して脆弱であり，その原因は特徴空間における画像とテキストのミスマッチ。
- 敵対的摂動下でのミスマッチを修正し，画像とテキストのクロスモーダルアラインメントを回復。
- 提案手法COLAは，敵対的摂動に対してロバストなCLIPを実現する。
- COLAは，敵対的画像の特徴量をクラステキストの特徴量で張られる部分空間に投影することで，非意味的な歪みを抑制する。
- ImageNetおよびその変種において，PGD攻撃下で平均6.7%の性能向上を確認した。
Link: https://arxiv.org/abs/2510.24038
球対称光音響源に対する解析表現：統一的な一般解 [physics.optics, cs.CV]目的：球対称な初期圧力分布を持つ光音響源によって生成される時空間的な音圧の解析表現
- 光音響イメージングは，生体組織深部における血管や腫瘍の可視化に有用である。
- 複雑な初期圧力分布を持つ光音響源の音圧場を解析的に求めることは困難であった。
- 任意の球対称な初期分布に対する統一的な解析解を提供し，光音響イメージングの設計を支援する。
- 任意の球対称な初期分布に対して適用可能な統一的な解析解を導出した。
- 一般的な球対称モデルを用いた超高速前方シミュレーション用のコードをGitHubで公開している。
- 本研究で得られた表現は，光音響イメージングシステム設計と信号解析のための貴重なツールとなる。
Link: https://arxiv.org/abs/2602.23375
洪水バイアウトにおける連邦・地方の費用分担の公平性：異質な住宅所有者によるゲーム理論的分析 [physics.soc-ph, cs.GT, econ.GN, q-fin.EC]目的：洪水バイアウトにおける連邦・地方費用分担がもたらす不公平な結果の分析
- 気候変動による洪水リスク増大から，計画的な撤退が重要視されている。
- バイアウトプログラム実施において，人種や経済格差による不公平が存在する。
- 費用分担制度が不公平を生み出すメカニズムを解明し，公平な適応策を提示する。
- 現在の連邦緊急事態管理庁（FEMA）の75/25費用分担制度は，低所得者層の移転率を富裕層の約4分の1に抑える。
- 公平性を高めるには，連邦の費用負担率を少なくとも85％に引き上げる必要がある。
- 費用対効果を考慮した公平性重視のメカニズムは，費用の25％削減で同等の成果を達成可能である。
Link: https://arxiv.org/abs/2602.23379
SALIENT：頻度を考慮したペア拡散による制御可能な長尾CT検出 [astro-ph.HE, astro-ph.IM, cs.DC, eess.IV, cs.AI, cs.CV, cs.LG]目的：長尾分布における制御可能なCT画像拡張
- 全身CT検査において，稀な病変の検出は臨床上重要であり，早期発見に繋がる。
- 病変の出現頻度の偏り(長尾分布)が検出精度を低下させる主要な原因となっている。
- 頻度を考慮した拡散モデルを用いて，高精度な病変検出を可能にする。
- SALIENTは，離散ウェーブレット係数上で構造化された拡散を行うことで，計算効率の高い画像生成を実現した。
- 生成された画像の現実感は，MS-SSIMの向上(0.63から0.83)とFIDの低下(118.4から46.5)によって示された。
- SALIENTによる拡張データを用いた訓練は，低頻度病変の検出性能を大幅に向上させ，シードデータ量に応じた最適な合成比率を示した。
Link: https://arxiv.org/abs/2602.23447
適合な基本行列と本質行列の三組の多射影幾何 [math.AC, cs.CV, math.AG]目的：適合な基本行列三組の多様体の多次数と多同次消滅イデアルの計算
- 幾何学的コンピュータビジョン分野において，複数の視点からの画像情報を統合する上で，基本行列と本質行列は重要な役割を担う。
- 既存の研究では，基本行列の適合性を決定するための代数的制約が不完全であり，消滅イデアルを生成できていない場合がある。
- 基本行列三組の多様体の完全な代数的制約を導出し，適合性の判定をより正確に行うことを目指す。
- 適合な基本行列三組の多様体の多次数と多同次消滅イデアルを計算することに成功した。
- この結果は，基本行列に関する既存の代数的制約を改善し，より包括的な制約を提供する。
- 新たに発見された四次制約は，本質行列の適合性にも重要な役割を果たし，局所的に多様体を切り出すことが示された。
Link: https://arxiv.org/abs/2602.23450
構造誘導型動的畳み込み：医療画像セグメンテーションへの応用 [eess.IV, cs.CV]目的：医療画像セグメンテーションのための構造誘導型動的畳み込みメカニズムの開発
- 医療画像分析は，疾患の早期発見や治療効果の評価において不可欠であるため，高精度なセグメンテーション技術が求められている。
- 従来の動的畳み込みは平均プーリングを用いるため，高周波空間情報を失い，微細な臨床構造の再現性が低いという課題があった。
- 本研究では，構造抽出ブランチを用いて動的カーネルを誘導し，構造を考慮した特徴量変調を行うことで，この課題を解決することを目指す。
- 提案手法であるSGDCは，ISIC 2016，PH2，ISIC 2018，CoNICの各データセットにおいて最先端の性能を達成した。
- 特に，ハウスドルフ距離(HD95)を2.05減少させ，平均交差率(IoU)を0.99%～1.49%向上させることで，境界の再現性を大幅に向上させた。
- SGDCは，微細な構造を重視する他の画像処理タスク，例えば小物体検出などへの応用も期待でき，医療画像分析における構造保全の原則的な解決策となる。
Link: https://arxiv.org/abs/2602.23496
SegReg：医療画像セグメンテーションの改善のための潜在空間の正則化 [eess.IV, cs.AI, cs.CV]目的：医療画像セグメンテーションにおける汎化性能の向上
- 医療画像セグメンテーションは，疾患診断や治療計画において不可欠な技術である。
- 既存手法では，出力空間のみが制約され，潜在表現が十分に活用されていない。
- 潜在空間に正則化を導入し，モデルの汎化性能と継続学習能力を向上させる。
- SegRegは，U-Netモデルの潜在空間に正則化を施すことで，構造化された埋め込み表現を促す。
- Prostate，Cardiac，Hippocampusのセグメンテーションにおいて，ドメイン汎化性能の向上を確認した。
- 継続学習において，タスクドリフトの軽減と順方向転移の促進に貢献し，メモリやパラメータ増加を伴わない。
Link: https://arxiv.org/abs/2602.23509
大規模3D脳MRIデータを用いた事前学習済みモデルの知識転移: 少数の学習データによる継続学習 [eess.IV, cs.CV, cs.LG]目的：3D脳MRIにおける少数の学習データによる継続学習手法の開発
- 医療画像解析において，大規模な事前学習済みモデルの活用が重要視されている。
- 継続学習において，限られた学習データでのタスク適応時に知識の忘却が課題となる。
- 事前学習済みモデルを固定し，少量のパラメータでタスク適応を行うことで忘却を防ぐ。
- タスク固有のLoRAモジュールを用いることで，腫瘍セグメンテーションと脳年齢推定の両タスクで高い性能を維持した。
- 従来の継続学習手法と比較して，忘却を抑制しつつ，学習パラメータ数を大幅に削減した。
- 脳年齢推定において系統的な若年化傾向が認められたが，実用的な継続学習手法となりうる可能性を示唆した。
Link: https://arxiv.org/abs/2602.23533
大量データ利用のための放射線治療における自動投与量ベース解剖領域分類 [physics.med-ph, cs.CV]目的：放射線治療計画データベースの解剖領域分類の自動化
- 放射線治療の質向上には，大規模データの活用が不可欠である。そのためにはデータ整理が重要となる。
- 既存の方法では，計画ラベルや標的名称の一貫性欠如が課題であり，多施設共同研究での利用が困難である。
- 投与量と深層学習によるセグメンテーションから解剖領域を推論することで，メタデータへの依存をなくし，データ整理を効率化する。
- 開発したソフトウェアは，118の構造物を6つの領域に分類し，投与量と解剖領域の重複度合いから領域ラベルを付与する。
- 100件の臨床計画データに対する検証で，一次ラベルの一致率は95％と高い精度を示した。
- 誤った分類の多くは，解剖学的領域の境界付近の治療領域であり，解釈の曖昧性が原因であった。
Link: https://arxiv.org/abs/2602.23536
知識誘導型注意機構を用いた階層型マルチスケールグラフ学習による全スライド画像生存率解析 [eess.IV, cs.AI, cs.CV]目的：全スライド画像におけるマルチスケールな相互作用と空間的な階層構造のモデリング
- 癌の予後予測は，個別化医療の実現に不可欠であり，病理画像の解析が重要な役割を果たす。
- 従来のMIL(Multiple Instance Learning)では空間的な組織が無視され，グラフベースのMILでは静的なグラフに依存する。
- 空間的な局所性を考慮した階層構造を導入し，マルチスケールな特徴統合を行うことで，予後予測の精度向上を目指す。
- 提案手法HMKGNは，4つのTCGAコホート(KIRC, LGG, PAAD, STAD)において，既存のMILベースモデルを上回る性能を示した。
- 一致度指標(concordance index)が10.85%改善し，患者の生存リスクを統計的に有意に層別化することができた(log-rank p < 0.05)。
- HMKGNは，ROIレベルでのマルチスケール統合と，空間的な階層構造を持つ動的グラフを効果的に活用している。
Link: https://arxiv.org/abs/2602.23557
バイアス除去と解釈可能性を実現する教師なし因果プロトタイプネットワーク：皮膚鏡検査診断への応用 [eess.IV, cs.CV]目的：皮膚鏡検査画像におけるバイアス除去と解釈可能性の向上
- 皮膚鏡検査は皮膚がん診断に不可欠だが，熟練した医師の判断に頼る部分が大きい。
- 深層学習モデルは高い精度を出すが，判断根拠が不明瞭で臨床現場での信頼が課題。
- 臨床データのバイアスがモデルの誤った学習を招き，診断の信頼性を損なう問題を解決する。
- 提案手法CausalProtoは，因果推論に基づき，病理的特徴と環境要因を分離することで，バイアスを取り除く。
- 実験の結果，CausalProtoは従来の深層学習モデルを上回る診断精度と透明性を実現した。
- 環境ノイズを除去し，精度の低下を招くことなく，明確な視覚的解釈可能性を提供する。
Link: https://arxiv.org/abs/2602.23752
VideoPulse：非接触型ビデオからの新生児心拍数と末梢血中酸素飽和度推定 [eess.IV, cs.CV]目的：新生児の心拍数と末梢血中酸素飽和度の推定
- 新生児集中治療におけるモニタリングは重要だが，従来のセンサーは皮膚への負担が大きい。
- 従来の接触型センサーは新生児の繊細な皮膚を傷つけ，感染リスクを高める可能性がある。
- 非接触で正確な心拍数と酸素飽和度を測定し，新生児ケアの負担を軽減すること。
- VideoPulseデータセットとパイプラインを開発し，顔のビデオから心拍数と酸素飽和度を推定した。
- NBHRデータセットで心拍数MAE 2.97 bpm，酸素飽和度MAE 1.69%を達成した。
- クロスデータセット評価で良好な性能を示し，低コストで非侵襲的なモニタリングの可能性を示唆した。
Link: https://arxiv.org/abs/2602.23771
データ障壁の打破：ファウンデーションモデルを用いたロバストな少数ショット3D血管セグメンテーション [eess.IV, cs.CV]目的：ファウンデーションモデルを用いた3D血管セグメンテーション手法
- 医療画像解析における血管セグメンテーションは，診断・治療計画において不可欠である。
- 従来の血管セグメンテーションは，大量のアノテーション付きデータが必要であり，ドメインシフトに弱い。
- 本研究は，データ不足やドメインシフト下でも高い性能を発揮する手法を確立する。
- 提案手法は，5サンプルという極めて少ないデータセットで，Dice係数43.42%を達成し，最先端のnnU-Netを30%相対的に上回った。
- 外分布データセットにおいても，nnU-Netと比較して50%の相対的な改善を示し，ドメインオーバーフィッティングの影響を軽減した。
- 3Dアダプテーション機構とマルチスケール集約戦略が，血管の連続性とロバスト性に重要であることが確認された。
Link: https://arxiv.org/abs/2602.23782
蛍光顕微鏡における染色を考慮した焦点品質評価 [eess.IV, cs.CV]目的：蛍光顕微鏡における染色を考慮した焦点品質評価の新たな枠組み
- 蛍光顕微鏡は生命科学研究に不可欠だが，焦点評価の精度向上が課題である。
- 従来の焦点評価手法は染色の影響を無視しており，正確な評価が困難である。
- 染色特性を考慮することで，より正確な焦点品質評価を実現することを試みる。
- 既存のデータセットと新しく作成したデータセットの分析から，染色によって焦点の順位関係が大きく変化することが示された。
- 提案手法FluoCLIPは，テキストと画像のCLIPの整合性を利用し，生物学的染色を考慮した焦点品質を評価する。
- FluoCLIPは，多様な蛍光顕微鏡条件下で高い汎化性能を示すことが確認された。
Link: https://arxiv.org/abs/2602.23791
BiM-GeoAttn-Net：幾何学的な注意機構を用いた線形時間深度モデリングによる3D大動脈解離CTAセグメンテーション [eess.IV, cs.CV]目的：大動脈解離CTA画像の3Dセグメンテーション
- 大動脈解離の形態的評価と臨床的判断には正確なセグメンテーションが不可欠である。
- 長距離コンテキストモデリングの限界からスライス間の一貫性が損なわれやすい。
- 低コントラスト条件下での構造識別能力向上を目指す。
- BiM-GeoAttn-Netは，Diceスコア93.35%，HD95 12.36mmを達成し，既存のCNN，Transformer，SSMベースの手法を上回る性能を示した。
- 線形時間深度モデリングと幾何学的な注意機構の組み合わせが，堅牢な3D大動脈解離セグメンテーションを可能にする。
- 提案手法は計算効率に優れており，実用的な臨床応用が期待できる。
Link: https://arxiv.org/abs/2602.23803
DICOMシリーズ分類における画像とメタデータの統合の再検討：クロスアテンションと辞書学習 [math.CO, cs.DM, quant-ph, eess.IV, cs.CV]目的：DICOM画像シリーズの分類
- 医療画像の大規模解析，品質管理，プロトコル調和には，DICOMシリーズの自動識別が不可欠である。
- DICOMシリーズ分類は，スライスの内容の多様性，シリーズ長の変動，メタデータの欠損や不整合により困難である。
- 本研究は，これらの課題を考慮し，画像コンテンツと取得メタデータを共同でモデル化する手法を提案する。
- 提案手法は，Duke Liver MRIデータセットと大規模な内部データセットにおいて，画像のみ，メタデータのみ，およびマルチモーダルな2D/3Dベースラインを凌駕した。
- メタデータのスパース性，クロスモーダル相互作用を明示的にモデル化することで，DICOMシリーズ分類のロバスト性が向上することが示された。
- モダリティを意識したモジュールによる画像とメタデータのエンコードと，双方向クロスモーダルアテンション機構が有効であることが確認された。
Link: https://arxiv.org/abs/2602.23833
偏光不確実性誘導拡散モデルによるカラー偏光画像デモザイク [eess.IV, cs.CV]目的：カラー偏光画像デモザイクの再構成
- 偏光画像は，反射率情報に加え，物質認識や形状復元に有用な偏光情報を取得可能である。
- 既存手法は強度情報の復元には優れるものの，偏光特性（DOP，AOP）の再構成精度が十分でない。
- テキスト画像生成モデルの拡散モデルを利用し，限られたデータ分布下での表現能力不足を補う。
- 提案手法は，偏光不確実性を明示的にモデル化し，拡散モデルをエラーの多い領域の復元に誘導する。
- 実験の結果，提案手法はシーンの偏光特性を高精度かつ視覚的に自然に復元できることが示された。
Link: https://arxiv.org/abs/2602.23847
Fr\'echet Audio Distanceにおけるタスク誘導エンコーダバイアスの実証的分析 [math.CO, cs.DM, eess.AS, cs.SD]目的：Fr\'echet Audio Distanceにおけるタスク誘導バイアスの分析
- テキストから音声への生成技術の発展に伴い，客観的な評価指標の重要性が高まっている。
- 既存のFADはエンコーダに依存するため，エンコーダの学習タスクによるバイアスが評価に影響する。
- FADのバイアスを分解し，より公平な比較と改善策の提案を目指す。
- FADの評価は，再現率，適合率，アライメント（意味的・構造的側面）のトレードオフによって特徴づけられることが示された。
- AudioMAEは適合率に優れる一方，Whisperは構造的検出に強みを持つが，信号劣化に鈍感である。
- VGGishは意味的検出に優れるが，クラス内の自然な変動を過度にペナルティ化する傾向がある。
Link: https://arxiv.org/abs/2602.23958
NCCT画像における基礎表現を用いたスライスゲート損失による臨床的に整合した脳梗塞セグメンテーションとASPECTSスコアリング [eess.IV, cs.CV]目的：脳梗塞の迅速な評価
- 急性期脳梗塞治療において，迅速な病変評価が重要であり，画像診断技術の進歩が求められている。
- 既存の深層学習手法はピクセル単位でのセグメンテーションに集中し，ASPECTSスコアの構造的解釈を考慮していない。
- 基礎表現と臨床的知識を統合し，より正確な脳梗塞セグメンテーションとASPECTSスコアリングを実現すること。
- 提案手法は，AISDデータセットにおいて，従来のCNNや基礎モデルを上回るDice係数0.6385を達成した。
- 独自のASPECTSデータセットでは，TAGL損失が平均Dice係数を0.698から0.767に向上させた。
- 基礎表現と構造化された臨床的知識の統合が，NCCT画像における脳梗塞セグメンテーションとASPECTSスコアリングの精度向上に貢献することが示された。
Link: https://arxiv.org/abs/2602.23961
乳児脳MRI画像における2D DINOv3表現を3Dセグメンテーションへ拡張 [eess.IV, cs.CV]目的：乳児脳MRI画像の3Dセグメンテーション
- 早期の脳の発達評価は，将来的な神経発達の予測に重要である。
- 既存の2D画像認識モデルは，脳の3次元構造を捉えるのが難しい。
- 凍結された2D表現から，構造化されたデコーディングを通して3D構造を復元する。
- 提案手法は，ALBERTデータセットにおいて海馬セグメンテーションで0.65のDiceスコアを達成した。
- 2Dの基礎モデル表現から，構造化された構成的デコーディングにより，体積解剖学的構造を復元できることが示された。
- 本手法は，3D医療応用における基礎モデルの拡張に汎用性を持つと考えられる。
Link: https://arxiv.org/abs/2602.23962
CO^3：自動運転のための協調的非教師あり3D表現学習 [cs.CG, cs.CC, cs.CV, cs.RO]目的：屋外シーン点群に対する3D表現の非教師あり学習
- 自動運転において，周囲環境の正確な認識は安全性向上に不可欠である。点群データはその重要な情報源となる。
- 屋外シーン点群の非教師あり学習は，移動物体や遮蔽物により，既存手法ではシーン全体の再構成が困難である。
- 車両とインフラからの点群情報を協調的に利用し，屋外シーン点群の表現学習における課題解決を目指す。
- CO^3は，車両側とインフラ側のLiDAR点群を用いて，意味情報を共有しつつ十分な差異を持つビューを構築する。
- 形状コンテキスト予測を事前学習目標として導入することで，タスクに関連する情報を3D点群表現学習に組み込む。
- CO^3によって学習された表現は，異なるLiDARセンサーで収集された屋外シーンデータセットへの転移が可能であり，最先端手法を最大2.58mAP改善する。
Link: https://arxiv.org/abs/2206.04028
DirMixE：階層的ラベル変動を用いたテスト非依存型ロングテール認識の活用 [cs.LG, cs.AI, cs.CV]目的：テスト非依存型ロングテール認識における性能向上
- 画像認識の分野において，不均衡データに対するロバストな認識手法が求められている。
- ロングテールデータにおけるテストデータのラベル分布が未知で偏っている場合，認識精度が低下する。
- ラベル分布の変動を階層的に捉え，より柔軟な専門家混合モデルを構築することで，この課題を解決する。
- 提案手法DirMixEは，ラベル分布のDirichletメタ分布への専門家割当により，局所的な変動に適応する。
- Dirichletメタ分布の多様性により，大域的な変動も捉えられ，安定した学習が可能となる。
- CIFAR-10-LT等のデータセットで有効性が検証され，既存手法を上回る性能が確認された。
Link: https://arxiv.org/abs/2405.07780
Uni-ISP：複数モバイルカメラからのISP学習の統合に向けて [cs.CV]目的：多様なモバイルカメラに対するISP学習の統合
- モバイルデバイスの多様化により，各カメラに特化したISP開発が困難になっている。
- 既存の学習型ISPは汎用性に乏しく，異なるカメラシステムへの適応が課題である。
- Uni-ISPは，デバイス固有の情報を活用し，様々なカメラに対応可能なISPを実現する。
- Uni-ISPは，順方向および逆方向ISPの学習において，PSNRがそれぞれ+2.4dB/1.5dB向上した。
- Uni-ISPは，従来の学習型ISPでは実現困難であった新たな応用を可能にする。
- 実環境の4KデータセットFiveCamを用いて，Uni-ISPの精度，汎用性，適応性が検証された。
Link: https://arxiv.org/abs/2406.01003
分散型公正な分割 [cs.GT]目的：公正な分割の分散型アプローチ
- 資源配分は社会の公平性を維持する上で重要であり，経済学や政治学において不可欠な研究テーマである。
- 従来の公正な分割は中央集権的な視点に偏っており，分散型ネットワークにおける現実的な資源配分に対応できていない。
- 本研究は，利他的行動に着想を得た分散型公正な分割モデルを提案し，その性質を分析することで，この課題を解決することを目指す。
- 本研究で開発された分散型モデルと中央集権型モデルを比較した結果，公平性と社会的厚生に関して異なる特性を持つことが示された。
- 分散型モデルは，過去の逐次交換モデルの限界を克服し，より現実的な資源配分を可能にすることが示唆された。
- 特定の条件下では，両アプローチの組み合わせが単独のアプローチよりも優れた性能を発揮することが明らかになった。
Link: https://arxiv.org/abs/2408.07821
R2GenCSR：LLMベースの放射線レポート生成のための文脈と残差情報の活用 [cs.CV, cs.AI, cs.CL]目的：LLMを用いた放射線レポート生成における有効な情報抽出と計算効率の向上
- 医療画像の診断支援において，放射線レポートの自動生成は重要な役割を担う。
- 既存手法では，画像特徴抽出に計算コストの高いTransformerが用いられ，効率が課題となっている。
- 本研究は，効率的な画像特徴抽出と文脈情報の活用により，レポート生成の精度向上を目指す。
- 提案手法では，計算効率の高いMambaを画像特徴抽出器として採用し，Transformerと同等の性能を達成した。
- 学習時に文脈情報を検索・活用することで，特徴表現を強化し，識別学習を促進した。
- IU X-Ray，MIMIC-CXR，CheXpert Plusの３つのデータセットで有効性が確認された。
Link: https://arxiv.org/abs/2408.09743
シャッフルマンバ：マルチモーダル画像融合のためのランダムシャッフルを用いた状態空間モデル [cs.CV]目的：マルチモーダル画像融合における，バイアスを軽減した状態空間モデルの構築
- 画像融合は，異なるモダリティの情報統合により，より高機能な画像処理を実現する重要な技術である。
- 既存の状態空間モデルは，固定的なスキャン戦略を用いるため，先験的なバイアスが導入される可能性がある。
- ランダムシャッフルという新しいスキャン戦略を導入し，固定スキャン戦略によるバイアスを解消することを目的とする。
- 提案手法であるShuffle Mambaは，空間軸およびチャネル軸に沿ったモダリティ間相互作用を促進し，堅牢な融合を実現する。
- モンテカルロ平均に基づくテスト手法を開発し，モデル出力の信頼性を向上させた。
- 複数のマルチモーダル画像融合タスクにおいて，最先端の手法と比較して優れた融合品質を達成した。
Link: https://arxiv.org/abs/2409.01728
TIGER：効率的な音声分離のための時間周波数インターリーブドゲイン抽出・再構成 [cs.SD, cs.AI, eess.AS]目的：効率的な音声分離モデルの提案
- 近年の音声分離研究の重要性は，その実用性向上にある。特に，リアルタイム処理における効率性が不可欠である。
- 既存のモデルはパラメータ数が多く，計算コストが高いことが課題となっていた。
- パラメータ削減と計算コストの低減により，低遅延な音声分離システムの実現を目指す。
- TIGERは，パラメータ数を94.3%，MACsを95.3%削減し，既存の最先端モデルTF-GridNetを上回る性能を達成した。
- 新しく作成したEchoSetデータセットで学習したモデルは，現実世界のデータに対する汎化性能が向上した。
- EchoSetは，物体遮蔽や材質特性を考慮した，より現実的な残響を含むデータセットである。
Link: https://arxiv.org/abs/2410.01469
プライバシー保護されたラベルアンラーニング：垂直型連合学習における少数のサンプルでの忘却（情報開示なし） [cs.LG, cs.CR, cs.CV]目的：垂直型連合学習におけるラベルアンラーニングの実現
- データ活用とプライバシー保護の両立が重要視される中，連合学習は有望なアプローチである。
- 垂直型連合学習では，ラベル情報が機密情報となるため，効率的なアンラーニング手法が求められている。
- 本研究は，ラベル情報を効率的に忘却しつつ，モデルの性能を維持する手法を提案する。
- 本手法は，表現レベルのマニホールドミックスアップ機構により，アンラーニングおよび保持されたサンプルの合成埋め込みを生成する。
- これにより，勾配ベースのラベル忘却と回復ステップにおいて，より豊富な信号を提供し，効果的なラベルアンラーニングを実現する。
- MNIST，CIFAR-10など多様なデータセットでの実験により，手法の有効性とスケーラビリティが示された。
Link: https://arxiv.org/abs/2410.10922
LiDAR知覚のための時間的予測による教師なし3D表現学習 [cs.CV]目的：LiDARデータの教師なし3D表現学習
- 自動運転やロボット工学において，3D環境理解は不可欠であり，LiDARは重要な役割を担う。
- LiDAR点群のラベリングはコストと時間がかかるため，ラベルなし学習が求められている。
- 時間的な情報を活用することで，よりロバストで正確な3D表現学習を目指す。
- 提案手法TRENDは，時間的な情報を予測することで，教師なし3D表現学習を実現する。
- 既存の最先端手法と比較して，最大90%の性能向上をNuScenes, Once, Waymoデータセットで示した。
- 異なるダウンストリームモデルにおいて，TRENDは一貫して性能向上に貢献することが示された。
Link: https://arxiv.org/abs/2412.03054
CLAP：曲率サンプリングとプロトタイプ学習による融合3D知覚のための教師なし3D表現学習 [cs.CV]目的：融合3D知覚のための3D表現の教師なし学習
- 自動運転やロボティクス等，3Dデータを用いた知覚技術は不可欠であり，その性能向上が求められている。
- マルチモーダル3Dデータのラベル付けはコストが高く，学習のボトルネックとなっている。
- 画像と点群の相互補完性を活かし，効率的な教師なし事前学習手法を開発し，知覚性能を向上させる。
- 提案手法CLAPは，曲率サンプリングにより計算コストを削減し，画像と点群の同時事前学習を実現した。
- 学習可能なプロトタイプを用いて，各モダリティの埋め込みを共通の特徴空間にマッピングすることで，相互補完性を引き出した。
- NuScenesおよびWaymoデータセットにおいて，既存の最先端事前学習手法と比較して，最長100%の性能向上を達成した。
Link: https://arxiv.org/abs/2412.03059