arXiv雑要約

画像・音声 - 2026/03/06 公開

翻訳の迷路：言語が種を越えた病理学のための視覚を再調整する方法 [cs.IR, cs.CL, cs.CY, cs.CV, cs.AI, cs.LG]目的：計算病理学における基盤モデルの，種をまたいだ転移学習における挙動の解明
- 近年，計算病理学が発展し，病理診断の精度向上や効率化が期待されている。
- 既存モデルは，特定の癌種や種に特化しており，汎用性に課題がある。
- 言語を用いて視覚的特徴を再解釈することで，種を越えた汎化性能を向上させる。
- 少量のデータによるファインチューニングにより，同じ癌種および異なる癌種間の検出性能が向上した。
- 種を越えた評価では，組織の一致が有効であったものの，最先端モデルには及ばなかった。これは，従来の視覚-言語アライメントが最適でないことを示唆する。
- Semantic Anchoringという手法を導入し，テキストアライメント機構により，埋め込みの崩壊を回避し，性能を向上させた。
Link: https://arxiv.org/abs/2603.04405
思考の境界：二重チューニングによるマルチモーダルタスクの推論適性を定量化 [cs.CL, cs.CL, cs.CV]目的：マルチモーダルタスクにおける推論の有効性評価基準
- 大規模言語モデルの応用範囲拡大に伴い，多様なデータ形式への対応が重要となっている。
- 推論能力の導入効果を判断する明確な基準が存在せず，無駄な計算資源の消費が課題である。
- 推論が有効なタスクを特定し，効率的なモデル構築を可能にすること。
- 二重チューニングにより，CoTとDAデータの効果を定量的に比較し，「思考の境界」を確立した。
- 「思考の境界」は，空間，数学，学際的な多様なマルチモーダルタスクにおける推論トレーニングの適性を評価できる。
- 推論一辺倒のパラダイムに異議を唱え，データとトレーニング戦略の選択に役立つ指針を提供する。
Link: https://arxiv.org/abs/2603.04415
SkillNet：AIスキルの作成，評価，連携 [cs.NI, cs.CL, cs.PF, cs.NI, cs.MS, cs.SI, cs.AI, cs.CL, cs.CV, cs.LG, cs.MA]目的：AIスキルの体系的な蓄積と転移
- AIエージェントの発展には，過去の知識や経験の活用が不可欠である。
- 既存のエージェントは，同じ問題を繰り返し解決し，効率が悪い。
- AIスキルを構造化し，共有可能な基盤を構築することで，効率的な学習を目指す。
- SkillNetは，20万以上のスキルを保有するリポジトリ，インタラクティブなプラットフォーム，Pythonツールキットを備えている。
- ALFWorld，WebShop，ScienceWorldでの実験により，平均報酬が40%向上し，実行ステップが30%減少した。
- SkillNetは，エージェントが一時的な経験から永続的な習熟へと進化するための基盤を提供する。
Link: https://arxiv.org/abs/2603.04448
繰り返しヘテロネットワークオークションにおける入札エージェントとしての大規模言語モデル [cs.NI, cs.AI, cs.GT]目的：ヘテロネットワークにおける繰り返しスペクトルオークションにおける大規模言語モデルの活用
- 無線資源の効率的な配分は，通信システムの性能向上に不可欠である。
- 従来のオークションは単発的で，動的な入札者の行動や現実的な条件を考慮していない。
- 本研究は，長期的な経済的判断に基づいた分散型オークションフレームワークを提案し，その有効性を検証する。
- LLMを活用したUEは，従来のベンチマークと比較して，チャネルアクセス頻度と予算効率が向上した。
- LLMは，過去の結果を考慮し，競争を予測し，入札戦略を適応させる能力を発揮した。
- 本研究は，次世代ヘテロネットワークにおける分散型無線資源配分における，推論能力を備えたエージェントの可能性を示唆する。
Link: https://arxiv.org/abs/2603.04455
マルチモーダル深層学習による日常生活活動の認識：高齢者向け生活支援におけるビデオ，ポーズ，物体認識を統合したアプローチ [cs.CV]目的：日常生活活動の認識
- 高齢化社会において，高齢者の健康状態のモニタリングと自立支援の重要性が高まっている。
- 活動認識システムは，活動クラス内の変動，活動クラス間の類似性，環境の変化などの課題に直面している。
- 高齢者向けの生活支援システムにおける活動認識の精度向上を目指す。
- 提案手法は，3D CNNとGraph CNNを組み合わせ，視覚情報と人体ポーズデータを統合することにより，高い認識精度を実現した。
- 物体検出モジュールから得られるコンテキスト情報をクロスアテンション機構を用いて3D CNNの特徴量に融合することで，認識性能をさらに向上させた。
- Toyota SmartHomeデータセットを用いた評価により，提案手法が多様な日常生活活動において競争力のある分類精度を達成することが示された。
Link: https://arxiv.org/abs/2603.04509
InverseNet：圧縮イメージングモダリティにおける演算子不一致と較正のベンチマーク [cs.CV]目的：圧縮イメージングシステムにおける演算子不一致の定量評価
- 圧縮イメージングは，データ取得量を削減し，高速化が可能であり，様々な分野で重要性が増している。
- 実用的な圧縮イメージングシステムでは，演算子（物理モデル）と実際のシステムとの間に不一致が生じやすい。
- 本研究は，演算子不一致が性能に与える影響を定量的に評価し，その改善策を検討することを目的とする。
- 最先端のEfficientSCIは，わずか8パラメーターのずれで20.58dBの性能劣化が生じるが，演算子不一致を定量的に評価するベンチマークは存在しなかった。
- InverseNetは，CASSI，CACTI，シングルピクセルカメラを含む複数モダリティにわたる演算子不一致の初のベンチマークである。
- 演算子に条件付けられた手法は，較正により演算子不一致による損失の41〜90％を回復できる一方，マスク非依存型アーキテクチャは損失を回復できないことが示された。
Link: https://arxiv.org/abs/2603.04538
深層学習におけるフュージョンおよびグルーピング戦略：マルチモーダルリモートセンシングデータを用いた局所気候区分 [cs.CY, cs.RO, cs.CV, cs.LG]目的：局所気候区分のための深層学習におけるフュージョン戦略と，データ特性に基づくグルーピング戦略の分析
- 都市構造や土地利用の変化が局所的な気候に与える影響分析において，局所気候区分は不可欠な情報を提供する。
- マルチモーダルリモートセンシングデータの複雑性から，データフュージョン手法の体系的な分析が不足している。
- 深層学習モデルにおける様々なフュージョン戦略の効果を定量的に評価し，最適な組み合わせを明らかにすること。
- シンプルなフュージョン手法と比較して，ベースラインハイブリッドフュージョン(FM1)が常に優れた性能を示した。
- バンドグルーピング(BG)とラベルマージング(LM)をFM1に適用した結果，全てのフュージョン戦略の中で最も高い全体精度76.6%を達成した。
- 本研究は，これらの戦略が，データが少ないクラスの予測精度向上に貢献することを強調している。
Link: https://arxiv.org/abs/2603.04562
構造誘導ヒストパソロジ合成のためのデュアルLoRA拡散 [cs.CV]目的：構造一貫性のある組織合成
- 組織病理画像は，組織修復，データ拡張，腫瘍微小環境のモデリングにおいて重要な役割を果たす。
- 既存手法は復元と生成を分離しており，現実的な細胞組織の再現が課題である。
- 本研究は，軽量な空間的制約を用いて，局所構造と大域構造を統合的に合成することを目指す。
- マスク領域内でのLPIPS値がHARPから0.1524へと改善し，局所的な補完性能が向上した。
- FIDスコアがCoSysの225.15から76.04へ大幅に改善し，大域的な合成におけるリアリズムと構造忠実度が向上した。
- マスキングされた領域の構造的復元と，完全な合成における形態的一貫性が向上し，汎がん組織病理モデリングを支援する。
Link: https://arxiv.org/abs/2603.04565
マスクを意識した状態空間モデルによる推論 [cs.CV]目的：欠損または無効なデータ領域を持つ入力への対応
- 現実世界の画像処理タスクでは，欠損データへの対応が不可欠である。
- 従来のSSMは，不規則な形状の無効データを扱う仕組みがない。
- SSMにマスクを意識した処理を組み込み，欠損データへの対応を可能にする。
- PVMという新しいアーキテクチャコンポーネントを提案し，MambaにPartial Convolutionの考え方を導入した。
- PVMを用いたアーキテクチャ設計のためのルールを定義した。
- 深度補完，画像修復，無効データを含む分類タスクで有効性と汎用性を示した。
Link: https://arxiv.org/abs/2603.04568
PinPoint：明示的な否定例，複数画像クエリ，言い換えテストを用いた合成画像検索の評価 [cs.CV]目的：合成画像検索における評価基準の改善と，新たな課題の発見
- 画像検索技術は，情報検索の重要な要素であり，様々な応用分野で利用されている。
- 既存の合成画像検索の評価基準は，単一の正解に限定され，誤検知や多様なクエリへの対応が不十分である。
- 本研究は，より現実的で包括的な評価基準を提示し，合成画像検索技術の改善を目指す。
- PinPointベンチマークは，7,635件のクエリと329,000件の関連性判断を提供し，合成画像検索の評価において新たな基準を確立した。
- 既存手法の分析から，誤った結果を返す頻度が高いこと，言い換えに対する性能変動が大きいこと，複数画像のクエリに対する性能が低いことが明らかになった。
- これらの課題に対処するため，既存システムに適用可能な，オフザシェルフのMLLMに基づくリランキング手法を提案し，性能向上を図った。
Link: https://arxiv.org/abs/2603.04598
SGR3モデル：3Dにおけるシーングラフ検索・推論モデル [cs.CY, cs.CE, cs.HC, cs.CV]目的：3Dシーングラフの生成と推論
- ロボットの高度な理解と推論を可能にするため，シーンの構造化された表現が重要である。
- 従来のシーングラフ生成は多種多様なデータに依存し，関係性の予測に制約が生じることが課題である。
- 多Modal大規模言語モデルと検索拡張生成を利用し，3D再構成なしでシーングラフを生成する。
- SGR3モデルは，学習不要で既存のベースラインと同等の性能を達成した。
- 検索モジュールと知識ベースの規模に関する消去研究により，外部情報がトークン生成に明示的に組み込まれることが示された。
- ColPaliスタイルのクロスモーダルフレームワークと加重パッチレベルの類似性選択により，検索のロバスト性が向上した。
Link: https://arxiv.org/abs/2603.04614
多水準スタッケルベルクゲームにおける非フォロワーエージェントと異質リーダー間の戦略的相互作用 [eess.SY, cs.NI, cs.SY, cs.MA, cs.GT]目的：混雑を伴うシステムにおける戦略的相互作用の分析
- 交通，エネルギー，コンピューティング市場など，混雑を伴うマルチエージェントシステムの理解と最適化が重要である。
- 従来のスタッケルベルクゲームモデルでは，市場競争に直接参加しないが混雑に影響を与える非フォロワーエージェントが無視されてきた。
- 非フォロワーエージェントを考慮し，リーダーの意思決定における異質性を導入することで，より現実的な均衡予測を目指す。
- 非フォロワーエージェントを無視すると，混雑の影響を受ける市場における均衡予測が歪んでしまうことが示唆された。
- 電気自動車充電インフラのケーススタディを通して，非フォロワーエージェントと異質競争が戦略的インセンティブと均衡結果に質的な変化をもたらすことが明らかになった。
- 提案されたフレームワークは，電気自動車充電だけでなく，移動，エネルギー，コンピューティング市場など，広範な混雑を伴うマルチエージェントシステムに適用可能である。
Link: https://arxiv.org/abs/2603.04628
拡散MRIからの浸透率を考慮した微細構造再構成のための微分可能な物理モデル：Spinverse [cs.CV, cs.LG, q-bio.QM]目的：拡散MRI計測値の反転を通じた浸透率を考慮した微細構造の再構成
- 拡散MRIは微細構造の障壁に感度を持つため，脳組織の理解に不可欠である。
- 既存手法は不浸透性の境界を仮定するか，明示的な界面を復元せずにボクセルレベルのパラメータを推定する。
- Spinverseは，既存手法の限界を克服し，界面を明示的に復元することを目指す。
- Spinverseは，Bloch-Torreyシミュレータを通して拡散MRI計測値を反転させる。
- 界面の形状は固定されず，浸透率の低い面が拡散の障壁として現れる。
- 合成ボクセルメッシュを用いた実験により，Spinverseが多様な形状を再構成できることが示された。
Link: https://arxiv.org/abs/2603.04638
視覚と言語モデルを用いた問題難易度の予測 [cs.CG, math.CO, cs.RO, cs.AI, cs.CL, cs.CV]目的：データ可視化リテラシーテスト問題の難易度推定
- データ可視化能力は現代社会において不可欠であり，その評価手法の確立が重要である。
- 問題難易度の適切な評価は，テストの信頼性と妥当性を高める上で課題となる。
- 大規模言語モデルを用いて問題難易度を自動的に予測し，効率的なテスト開発を目指す。
- 視覚情報とテキスト情報を組み合わせた多Modalモデルが，MAEにおいて最も低い誤差（0.224）を示した。
- 単一Modalモデル（視覚のみ0.282，テキストのみ0.338）と比較して，多Modalモデルの性能が優れていることが示された。
- 外部評価においてもMSE 0.10805を達成し，LLMの心理測定分析および自動問題開発への応用可能性が示唆された。
Link: https://arxiv.org/abs/2603.04670
医療画像復元における幻影評価のためのsFRC [cs.CV, physics.med-ph, stat.ML]目的：医療画像復元における幻影の検出
- 医療画像は診断の精度に不可欠であり，高品質な画像復元が求められている。
- 深層学習による復元画像には，視覚的には良好に見えても，実際には存在しない幻影が含まれる場合がある。
- 深層学習復元画像の幻影を定量的に評価するための簡便かつ信頼性の高い手法を確立する。
- 提案手法sFRCは，CT超解像，CT疎視点，MRIサブサンプリング復元といった様々な医療画像処理問題において，幻影の検出に有効であることが示された。
- sFRCは，CT問題における幻影の検出において有効性を示し，MR問題における画像理論に基づく幻影マップとの整合性も確認された。
- 深層学習手法の頑健性を評価するため，分布内データと分布外データ，および異なるサブサンプリング率における幻影率が定量化された。
Link: https://arxiv.org/abs/2603.04673
マルチ画像理解タスクにおける推論VLMのパルス解読 [cs.CV, cs.AI]目的：マルチ画像推論における視覚言語モデル(VLM)の注意メカニズムの解析
- 画像と言語を組み合わせた理解は，AIの応用範囲を広げる上で不可欠である。
- VLMはマルチ画像推論において，関連画像への注意が拡散し，集中しにくいという課題がある。
- VLMの推論過程における注意の焦点を絞り，マルチ画像理解の性能向上を目指す。
- 推論時に計画と集中を繰り返すことで，VLMの注意メカニズムを改善する手法PulseFocusを提案。
- PulseFocusは，BLINKベンチマークで+3.7%，MuirBenchで+1.07%の性能向上を達成。
- 提案手法により，VLMの注意がより関連性の高い画像に集中することが確認された。
Link: https://arxiv.org/abs/2603.04676
ノイズ除去が阻害する場合：SAM-AudioとWhisperを用いたゼロショットASRの再検討 [cs.SD, cs.AI, cs.LG]目的：現代のゼロショットASRシステムにおける，ノイズ除去が必ずしも認識精度向上に繋がらないことの検証
- 音声認識技術は，人間と機械のコミュニケーションを円滑にする上で不可欠であり，その精度向上は重要な課題である。
- 近年の音声認識システムは，ノイズ環境下での性能向上が課題であり，ノイズ除去技術が積極的に導入されている。
- 本研究は，ノイズ除去が必ずしもASR性能を向上させないという現状を明らかにし，その原因を分析することを目的とする。
- SAM-Audioによる前処理は，信号レベルでの品質向上にも関わらず，Whisperを用いたゼロショットASRの性能を悪化させる。
- エラー率は，Whisperモデルのサイズが大きくなるほど悪化し，この現象は特定の音声に限らない。
- 人間が聴覚的にクリーンだと感じる音声が，必ずしも機械認識に適しているとは限らないという根本的なミスマッチが示唆された。
Link: https://arxiv.org/abs/2603.04710
ハイパースペクトル画像分類のためのニューラルネットワーク圧縮手法に関するベンチマーク研究 [cs.CV, cs.LG]目的：ハイパースペクトル画像分類におけるニューラルネットワーク圧縮手法の評価
- リモートセンシング分野では，高次元データの解析に深層学習が活用されている。その応用範囲は広い。
- 深層学習モデルは計算資源やメモリを大量に消費するため，組み込み機器への実装が困難である。
- モデルの圧縮により，計算コストとメモリ消費量を削減し，エッジデバイスでの利用を可能とする。
- 圧縮されたモデルは，分類精度を維持しつつ，モデルサイズと計算コストを大幅に削減できることが示された。
- プルーニング，量子化，知識蒸留といった圧縮戦略の性能を比較し，それぞれのトレードオフが明らかになった。
- 本研究の結果は，リモートセンシングアプリケーションにおける効率的な深層学習展開の可能性を示唆する。
Link: https://arxiv.org/abs/2603.04720
マルチモーダルLLMは監視に適しているか：リアルワールドにおけるゼロショット異常検知の現実点検 [cs.CV, cs.AI]目的：ビデオ異常検知におけるマルチモーダルLLMの信頼性評価
- 監視システムの高度化に伴い，映像解析技術の重要性が増しているから。
- 従来の異常検知は，再構成誤差や姿勢推定に依存し，複雑な状況への対応が困難である。
- LLMを活用した言語誘導型推論による異常検知の可能性を探求する。
- ゼロショット設定では，モデルは「通常」クラスを過度に優先し，再現率が著しく低下する。
- クラス固有の指示により，上海テックデータセットのF1スコアは0.09から0.64に向上したが，再現率は依然として課題である。
- ノイズの多い環境下でのLLMの性能に大きな差があり，今後の研究で再現率向上とモデル調整が重要である。
Link: https://arxiv.org/abs/2603.04727
FOZO：テスト時適応のための前方のみゼロ次プロンプト最適化 [cs.CV]目的：テスト時適応における性能向上
- 現実世界のデータ分布の変化に対応した深層学習モデルの運用が重要であるから。
- 既存手法は，計算資源の制約やモデルの変更といった課題を抱えているから。
- 計算資源が限られた環境下でも，効果的なテスト時適応を可能にすることを目指す。
- FOZOは，ImageNet-C(5K, level 5)において59.52%のTop-1精度を達成し，既存の勾配ベース手法や最先端のFOA(58.13%)を上回った。
- 動的に減衰する摂動スケールを導入することで，分布外データストリーム上での効率的かつ安定的な適応を実現した。
- 量子化(INT8)モデルに対しても高い汎化性能を示し，リソース制約のある環境での展開に適していることが示された。
Link: https://arxiv.org/abs/2603.04733
現実世界の赤外線画像超解像に向けた統一された自己回帰的フレームワークとベンチマークデータセット [cs.CV]目的：現実世界の赤外線画像超解像のための統一的なフレームワークとデータセットの構築
- 赤外線画像は，可視光では困難な状況下での情報取得に不可欠であり，応用範囲は広い。
- 既存研究はシミュレーションデータに依存しており，現実の赤外線画像の劣化要因を考慮できていない。
- 現実世界の赤外線画像に特化した超解像技術を開発し，その評価用データセットを整備すること。
- 本研究では，熱構造と構造的特徴をガイドする視覚的自己回帰を用いて，段階的に赤外線画像を再構築するReal-IISRフレームワークを提案した。
- 熱放射と構造的エッジの不一致を緩和するため，熱・構造ガイダンスモジュールと適応的コードブックを導入した。
- 温度とピクセル強度間の単調性を保証する損失関数により，物理的な整合性を維持し，空間ずれや熱ドリフトの影響を軽減した。
Link: https://arxiv.org/abs/2603.04745
GPT-5のマルチモーダル臨床推論能力評価：現状分析 [cs.RO, cs.RO, cs.SY, eess.SY, cs.RO, cs.MA, cs.CV, cs.AI, cs.LG]目的：GPT-5ファミリーの臨床推論能力
- 臨床医学は，曖昧な情報統合が不可欠であり，AIの汎用性向上は重要である。
- 既存のAIは特定のタスクに特化しており，臨床推論に必要な統合的思考が課題である。
- GPT-5の臨床的課題に対する推論能力を評価し，汎用AIの可能性を探る。
- GPT-5は，専門家レベルのテキスト推論で25%以上の絶対的改善を示した。
- マルチモーダル合成において，GPT-5は画像情報に基づき臨床的曖昧さを解消し，VQAベンチマークで好成績を収めた。
- 専門領域モデルと比較して，特に神経放射線学やマンモグラフィーでは改善の余地が残る。
Link: https://arxiv.org/abs/2603.04763
動的微表情認識における人手アノテーションバイアスの評価と修正 [cs.CV, cs.CY]目的：微表情認識における人手アノテーションバイアスの軽減
- 微表情は，感情の漏洩を防ぐ無意識的な表情であり，心理学やセキュリティ等の分野で重要視されている。
- 既存の手動アノテーションは，特に文化間において精度に課題があり，キーフレームのアノテーションのずれが顕著である。
- 本研究は，キーフレームの再選択を通じて，微表情の時空間モデリングの有効性を高め，人手アノテーションバイアスを軽減することを目指す。
- 提案手法GAMDSSは，SAMMや4DME等の多文化データセットにおいて，人為的な要因による主観的エラーを効果的に低減できることが示された。
- 定量分析の結果，多文化データセットにおけるオフセットフレームのアノテーションは不確実性が高いことが確認され，微表情アノテーションの標準化の必要性が示唆された。
- 本手法は既存モデルに容易に組み込むことができ，パラメータ数の増加を伴わないため，微表情認識性能の向上に貢献する可能性がある。
Link: https://arxiv.org/abs/2603.04766
DSA-SRGS：動的疎視点DSA再構築のための超解像ガウススプラッティング [cs.CV, cs.AI]目的：動的疎視点DSA再構築における超解像ガウススプラッティングの実現
- 脳血管疾患の診断・治療において，DSAは重要な役割を担う画像技術である。
- 既存手法は入力投影の解像度に制限され，単純なアップサンプリングでは画質劣化が生じる。
- 微細な血管構造の復元を可能にし，高精度な診断・治療への応用を目指す。
- 提案手法DSA-SRGSは，臨床DSAデータセットにおいて，既存手法を凌駕する定量評価と視覚的品質を示す。
- Multi-Fidelity Texture Learning Moduleにより，DSA特化型超解像モデルの高精度な事前知識を4D再構築に統合する。
- Confidence-Aware StrategyとRadiative Sub-Pixel Densificationにより，疑似ラベルによる誤りや画質劣化を抑制する。
Link: https://arxiv.org/abs/2603.04770
MADCrowner：マージンを考慮したテンプレート変形と洗練による歯科クラウン設計 [cs.CV, cs.AI]目的：歯科クラウンの自動設計手法
- 歯の欠損治療において，適合性の高い歯科クラウン設計は重要である。
- 既存のCADシステムでは，手作業での調整が依然として必要とされる。
- 空間解像度，ノイズ，表面再構成の過剰な拡張といった課題を解決する。
- 提案手法は，解剖学的コンテキストに基づき初期テンプレートを変形させるCrownDeformRと，マージンを抽出するCrownSeggerから構成される。
- CrownDeformRは，歯頸部のマージンを制約条件として性能が向上し，過剰な領域の除去にも利用される。
- 大規模な口腔内スキャンデータセットを用いた実験により，既存手法と比較して幾何学的精度と臨床的実現可能性で有意に優れた結果が得られた。
Link: https://arxiv.org/abs/2603.04771
プライバシー保護カメラ 2.0 技術報告 [cs.DC, cs.CV, cs.CL]目的：プライバシー保護と知覚能力の均衡
- 監視技術の利用拡大に伴い，プライバシー保護が重要課題となっている。
- 既存手法では，プライバシー保護と情報精度の両立が困難である。
- プライバシーを保護しつつ，証拠能力を確保することを目指す。
- 本研究では，AIフローとエッジ・クラウド連携により，リアルタイムで画像情報を抽象化する手法を提案。
- 非線形マッピングと確率的ノイズ注入により，個人識別情報を除去し，画像の再構成を数学的に不可能にする。
- 抽象化された表現を用いて行動認識とセマンティック再構成を行い，プライバシーと知覚能力のバランスを実現する。
Link: https://arxiv.org/abs/2603.04775
RMK RetinaNet：リモートセンシング画像におけるロバストな配向物体検出のための回転多カーネルRetinaNet [cs.CV]目的：リモートセンシング画像におけるロバストな配向物体検出手法
- リモートセンシング技術は，環境モニタリングや災害対応など，幅広い分野で重要性が増している。
- 既存手法では，様々なスケールや角度の物体を正確に検出することが困難である。
- 本研究は，リモートセンシング画像における配向物体検出の精度とロバスト性を向上させることを目指す。
- 本研究では，Multi-Scale Kernel (MSK) BlockやMulti-Directional Contextual Anchor Attention (MDCAA)メカニズムを導入したRMK RetinaNetを提案した。
- 提案手法は，DOTA-v1.0，HRSC2016，UCAS-AODデータセットにおいて，最先端の回転物体検出器と同等の性能を達成した。
- 特に，マルチスケールおよびマルチオリエンテーションのシナリオにおいて，RMK RetinaNetはロバスト性が向上することが示された。
Link: https://arxiv.org/abs/2603.04793
医療画像における適応的空間重み付け：拡散とセグメンテーションへの応用 [cs.CV, cs.AI]目的：医療画像の拡散モデルとセグメンテーションにおける空間的不均衡の解消
- 医療画像解析は正確なセグメンテーションに依拠し，新たな学習画像の生成を通じて精度向上が期待される。
- 病変領域は背景に比して小さく，空間的不均衡が課題となっている。拡散モデルでは病変の配置が不安定になりやすい。
- 計算資源を適切に配分することで，拡散モデルの生成性能とセグメンテーション精度を向上させる。
- LAW（学習可能な適応的重み付け）は，拡散学習におけるピクセルごとの損失変調を予測し，生成画像のFIDスコアを20%改善した。
- 合成データを用いた訓練により，セグメンテーションのDice係数が4.9%向上し，83.2%となった。
- ORDER（効率的な解像度を用いた最適領域検出）は，MK-UNetのDice係数を6.0%向上させ，パラメータ数を730分の1に削減した。
Link: https://arxiv.org/abs/2603.04795
脳グリア腫イメージングにおける伝統的手法と深層学習の比較評価 [cs.CV, cs.AI]目的：脳グリア腫イメージングにおける伝統的手法と深層学習の比較
- 脳腫瘍治療において，正確な画像解析は，治療計画とモニタリングの精度向上に不可欠である。
- 従来の手法では，不均一な組織構造のため，正確かつ再現性のあるセグメンテーションが困難である。
- 深層学習を用いた手法が，脳グリア腫のセグメンテーションと分類において従来法を上回る性能を示すことを検証する。
- 本レビューでは，MRI画像取得後の効果的なセグメンテーションと分類技術を評価した。
- 畳み込みニューラルネットワーク（CNN）アーキテクチャが，これらのタスクにおいて従来の手法を上回ることが示された。
- 放射線科医による利用を考えると，半自動技術が精度と使いやすさのバランスに優れている。
Link: https://arxiv.org/abs/2603.04796
MASQuant：マルチモーダル大規模言語モデルのためのモダリティ認識スムージング量子化 [cs.CV]目的：マルチモーダル大規模言語モデルに対するモダリティ認識スムージング量子化手法
- 大規模言語モデルの効率化は，計算資源の制約を克服し，より幅広い応用を可能にする上で重要である。
- マルチモーダル大規模言語モデルへの量子化適用は，モダリティ間の計算不変性の問題により困難である。
- モダリティ間のスムージングのずれと計算不変性の問題を解決し，安定した量子化性能を実現する。
- MASQuantは，モダリティ固有の平滑化係数を学習するモダリティ認識スムージング(MAS)を導入し，スムージングのずれを防ぐ。
- また，SVDホワイトニングを用いてマルチモーダルな活性化差を低ランク形式に変換するクロスモーダル補償(CMC)により，クロスモーダル計算不変性に対処する。
- 実験結果から，MASQuantはデュアルモーダルおよびトリモーダルモデルで安定した性能を示し，最先端の量子化アルゴリズムに匹敵する。
Link: https://arxiv.org/abs/2603.04800
コントラスト信号による拡散再構成の誘導：バランスの取れた視覚表現のために [cs.CV, cs.AI, cs.LG]目的：視覚表現のバランス改善
- CLIPモデルの性能向上は，画像とテキストの理解において重要である。
- CLIPの視覚エンコーダの表現能力に限界があり，性能のボトルネックとなっている。
- 拡散モデルとコントラスト信号を組み合わせ，CLIPの視覚表現の限界を克服することを目指す。
- 本研究では，拡散再構成にコントラスト信号を統合するDiffusion Contrastive Reconstruction (DCR)を提案した。
- DCRは，再構成画像から得られるコントラスト信号を拡散プロセスに注入することで，識別能力と詳細知覚能力を同時に最適化する。
- 様々なベンチマークと大規模言語モデルにおける実験により，DCRの有効性が確認された。
Link: https://arxiv.org/abs/2603.04803
WhisperAlign：単語境界を意識したASRとWhisperXアンカー付きPyannoteによる長時間のベンガル語音声のダイアリゼーション [cs.HC, cs.SD, cs.LG]目的：長時間のベンガル語音声に対する自動音声認識と話者ダイアリゼーションの実現
- 音声認識と話者ダイアリゼーションは，音声データの利用を促進し，様々な応用を可能にする重要な技術である。
- 長時間の音声データでは，音声活動検出，重なり合った音声，文脈の維持が課題となる。
- ベンガル語音声における音声認識エラー率(WER)とダイアリゼーションエラー率(DER)の低減を目指す。
- Whisperのタイムスタンプを活用した音声チャンク分割により，高精度な音声認識を実現した。
- Pyannoteのセグメンテーションモデルをベンガル語データでファインチューニングすることで，複雑な話者境界を正確に解決した。
- インテリジェントなタイムスタンプ付きチャンク分割とターゲットを絞ったセグメンテーションのファインチューニングが，WERとDERの大幅な改善に繋がった。
Link: https://arxiv.org/abs/2603.04809
脳腫瘍解析と欠損モダリティセグメンテーションのためのメタデータ対応アーキテクチャMeta-D [cs.DC, cs.CV, cs.AI]目的：脳腫瘍解析のための特徴抽出におけるメタデータ活用
- 医療画像解析は，疾患診断・治療において不可欠であり，高精度な解析が求められる。
- 医療画像の多様性により，モデルの汎化性能が課題となる場合がある。
- 欠損モダリティ下でのセグメンテーション精度向上を目指す。
- MRIシーケンスや断面方向などのメタデータを活用することで，腫瘍検出におけるF1スコアが最大2.62%向上した。
- Transformer Maximizerにより，メタデータに基づいたクロスアテンション機構を導入し，利用可能なモダリティに焦点を当てた。
- これにより，モダリティが極端に不足する場合でも脳腫瘍セグメンテーションのDiceスコアが最大5.12%向上し，モデルパラメータを24.1%削減した。
Link: https://arxiv.org/abs/2603.04811
ビジョンファウンデーションモデル時代における偏光からの形状復元に関する再検討 [cs.IR, cs.CV]目的：偏光情報を活用した軽量モデルによる単一ショットオブジェクトレベル表面法線推定の性能向上
- 偏光と表面形状の間に強い物理的関係があるため，形状復元において重要な役割を果たす。
- 既存の偏光からの形状復元手法は，データ量や現実世界のノイズへの対応が不十分であった。
- 高品質な偏光データセットとノイズを考慮したデータ拡張により，偏光情報の有効性を再評価する。
- 偏光情報を活用することで，RGBのみのビジョンファウンデーションモデルを凌駕する性能を，少ないデータで実現した。
- 偏光を用いることで，トレーニングデータ量を33分の1，モデルパラメータを8分の1削減しながら，同等以上の性能を達成した。
- 既存の偏光からの形状復元手法の性能低下は，偏光モダリティ自体の問題ではなく，ドメインギャップに起因することが示された。
Link: https://arxiv.org/abs/2603.04817
インスタンス依存部分ラベル学習におけるインスタンス間の絡み合いの軽減 [cs.CV, cs.LG]目的：インスタンス依存部分ラベル学習におけるインスタンス間の絡み合い軽減
- 弱教師あり学習は，ラベル付けコストを削減し，実用的な応用を可能とする重要な手法である。
- 部分ラベル学習では，候補ラベルがインスタンスの特徴に影響を受け，クラス間の混同が生じやすい。
- 本研究は，インスタンス間の絡み合いを軽減することで，ID-PLLの性能向上を目指す。
- 提案手法CADは，クラス固有の特徴を増幅し，同じクラスのインスタンス間で一貫性を保つことで，クラス内の特徴を明確化する。
- CADは，曖昧なラベルに対するペナルティを大きくすることで，クラス間の距離を広げ，混同を低減する。
- 実験結果から，CADがインスタンス間の絡み合いを効果的に軽減し，ID-PLLの性能を向上させることが示された。
Link: https://arxiv.org/abs/2603.04825
セマンティック拡張動的コントラスト対照的相互作用による高度な転移性を持つ画像言語攻撃 [cs.CV]目的：画像言語モデルに対する敵対的攻撃の転移性向上
- 画像言語事前学習モデルは急速に発展し普及しているため，そのセキュリティ確保は重要である。
- 既存の攻撃手法は静的な相互作用に依存し，正例の破壊に偏っており，転移性が低いという課題がある。
- セマンティック誘導による動的な摂動を通じて，敵対的攻撃の転移性を高めることを目指す。
- 提案手法SADCAは，敵対的画像とテキスト間の動的相互作用により，クロスモーダルアライメントを段階的に破壊する。
- SADCAは，敵対的サンプル，正例，負例を用いたコントラスト学習機構により，摂動のセマンティックな不整合を強化する。
- 実験の結果，SADCAは既存の手法を凌駕し，敵対的攻撃の転移性を大幅に向上させることが示された。
Link: https://arxiv.org/abs/2603.04839
マルチパラダイム協調的敵対攻撃：マルチモーダル大規模言語モデルに対する [cs.RO, cs.CV]目的：マルチモーダル大規模言語モデルに対する敵対的脆弱性の転移性を高めること
- マルチモーダル大規模言語モデルは様々な応用を可能にするが，セキュリティ上の脆弱性が懸念される。
- 既存の攻撃手法は単一の学習パラダイムに依存し，特徴空間の多様性が制限されている。
- 異なるパラダイムの特徴表現を統合し，バイアスを軽減することで，より強力な攻撃を目指す。
- 提案手法であるMPCAttackは，複数のベンチマークにおいて最先端手法を上回る性能を示した。
- MPCAttackは，オープンソースおよびクローズドソースのマルチモーダル大規模言語モデルに対して有効である。
- マルチパラダイム協調的最適化(MPCO)により，異なるパラダイムの重要度を適応的に調整し，全体的な摂動最適化を促進する。
Link: https://arxiv.org/abs/2603.04846
GloSplat：高速かつ高精度な3D再構成のための姿勢・外観同時最適化 [cs.CV, cs.GR]目的：3D Gaussian Splattingにおける姿勢と外観の同時最適化
- 3D再構成は，実世界をデジタルで再現する上で不可欠であり，様々な分野で活用が期待されている。
- 従来の3D再構成手法では，特徴抽出や姿勢推定が分離されており，最適化の効率や精度に限界があった。
- GloSplatは，姿勢と外観を同時に最適化することで，より効率的かつ高精度な3D再構成を実現することを目指す。
- GloSplatは，3D Gaussian Splattingの学習中に姿勢・外観同時最適化を行うフレームワークである。
- GloSplat-FはCOLMAPを使用せず，GloSplat-Aは全探索マッチングを用いており，いずれも高い再構成品質を達成した。
- 実験により，GloSplat-FはCOLMAPフリー手法の中で最先端の性能を示し，GloSplat-AはCOLMAPベースラインを上回ることが示された。
Link: https://arxiv.org/abs/2603.04847
非パラメトリック構造事前知識による多段階定理予測について [cs.AI, cs.CV]目的：多段階定理予測の性能向上
- 自動推論はAIの重要な課題であり，定理予測はその核心である。
- 既存手法は汎化性能が低く，定理ライブラリの進化に対応できない。
- 構造的ドリフトに対処し，LLMによる構造化計画を可能にすること。
- 定理先行グラフを用いることで，LLMが勾配最適化なしに構造化されたプランナーとして機能する。
- FormalGeo7kベンチマークにおいて，89.29%の精度を達成し，ICLベースラインや教師あり学習モデルを上回る。
- 明示的な構造事前知識が，LLMベースの記号推論のスケーリングに有望な道を示す。
Link: https://arxiv.org/abs/2603.04852
注視そして聴取：ノイズに強い大規模オーディオ言語モデルのためのプラグアンドプレイ型オーディオエンハンサー [cs.SD]目的：大規模オーディオ言語モデルのノイズ耐性の向上
- 音声理解における基盤モデルとして重要性が増しているため。
- 現実のノイズ環境下では性能が著しく低下するという課題がある。
- ファインチューニングなしに，ノイズ環境下での性能向上を目指す。
- 提案手法「Focus-Then-Listen (FTL)」は，大規模オーディオ言語モデルにプラグアンドプレイで組み込むことが可能である。
- FTLは，音声と非音声の分離とモダリティルーティングにより，タスク適応的なオーディオエンハンスメントを実現する。
- 実験の結果，FTLはファインチューニングなしに様々なノイズレベルで性能を向上させることが示された。
Link: https://arxiv.org/abs/2603.04862
野球投球におけるブロードキャスト映像からのスケーラブルな怪我リスクスクリーニング [cs.CG, cs.CV]目的：野球投球における怪我リスク評価のためのバイオメカニクス指標の算出
- 野球選手のパフォーマンス向上と怪我予防は，スポーツ医学および競技力強化において重要な課題である。
- 高精度なバイオメカニクス指標の測定には高価なモーションキャプチャシステムが必要であり，利用が制限されている。
- ブロードキャスト映像のみを用いて，スケーラブルな怪我リスクスクリーニング手法を確立することを目指す。
- 提案手法は，ブロードキャスト映像から18の臨床的に重要なバイオメカニクス指標を算出可能である。
- 算出された指標は，モーションキャプチャシステムによる測定値と高い一致性を示す (MAE $< 1^{\circ}$)
- 怪我予測モデルは，トミー・ジョン手術と重度の腕の怪我に対して，それぞれAUC 0.811と0.825を達成した。
Link: https://arxiv.org/abs/2603.04864
初の環境音ディープフェイク検出チャレンジ：堅牢性，評価，および洞察のベンチマーク [cs.SD]目的：環境音ディープフェイク検出のベンチマークと課題の特定
- 公共の安全と信頼を脅かす偽情報のリスクが増大しており，環境音の信頼性が重要になっている。
- 音声や歌声のディープフェイク検出研究は進んでいるが，環境音のディープフェイク検出は未開拓の分野である。
- 環境音ディープフェイク検出の性能評価と改善のための基盤を構築すること。
- 初の環境音ディープフェイク検出チャレンジが開催され，97チーム，1748件の提出があった。
- 上位システムの共通のアーキテクチャと学習戦略が分析された。
- 今後の研究方向性が議論され，この分野における機会と未解決の問題が示された。
Link: https://arxiv.org/abs/2603.04865
SURE：半密度の不確実性洗練特徴点マッチング [cs.CV]目的：画像間の信頼性の高い対応関係の確立
- ロボットビジョンにおいて，正確な画像対応は基本的な課題であり，様々な応用を支える。
- 従来の技術では，視点変化やテクスチャのない領域で誤った対応関係が生じやすい。
- 不確実性を考慮することで，信頼性の低い対応関係を抑制し，より正確なマッチングを実現する。
- 提案手法SUREは，アレアリック不確実性とエピステミック不確実性を共同でモデル化することで，対応関係とその信頼性を予測する。
- エビデンスヘッドと軽量な空間融合モジュールにより，座標回帰の信頼性を高め，局所特徴の精度を向上させている。
- 複数のベンチマークにおいて，既存の最先端手法と比較して，精度と効率の両方で優れた性能を示した。
Link: https://arxiv.org/abs/2603.04869
プロンプト駆動型ノイズ表現学習による拡散ベースsRGBリアルノイズ生成 [cs.CV]目的：リアルノイズ生成手法の開発
- 画像処理において，ノイズ除去は画質向上に不可欠であり，実用的な応用を支える重要な技術である。
- 実世界のノイズは変動が大きく，ノイズ画像とクリーン画像のペアデータ収集が困難であるという課題がある。
- カメラメタデータに依存しない汎用性の高いリアルノイズ生成手法を確立し，ノイズ除去性能を向上させる。
- 本研究では，プロンプト駆動型ノイズ生成（PNG）という新たなフレームワークを提案し，入力ノイズの特徴を捉えた高次元プロンプト特徴を獲得する。
- 提案手法は，明示的なカメラメタデータへの依存を排除し，ノイズ合成の汎用性と適用可能性を大幅に向上させる。
- 実験結果から，本モデルが現実的なノイズ画像を効果的に生成し，多様なベンチマークデータセットにおけるノイズ除去に貢献することが示された。
Link: https://arxiv.org/abs/2603.04870
放送3Dキネマティクスからの解釈可能な事前リリース・野球球種予測 [cs.CV, cs.AI, cs.LG]目的：野球の球種予測の可能性
- 野球における投球フォームの分析は，選手のパフォーマンス向上や怪我予防に不可欠である。
- 既存の研究では，球種予測にボールの軌道データに依存しており，フォームのみでの高精度な予測が課題であった。
- 本研究は，球種の軌道データを用いずに，投手のフォームから球種を高精度に予測することを目指す。
- 119,561投球のデータを用いて，フォームのキネマティクスのみで80.4%の精度を達成した。
- 予測において，上半身の動きが64.9%の情報を担い，下半身が35.1%を占めることが明らかになった。
- 手首の位置や胴体の傾きが特に重要な特徴量であり，フォームから球種を区別できる上限が約80%であることが示された。
Link: https://arxiv.org/abs/2603.04874
構造観察駆動型画像テキスト対比学習によるComputed Tomography レポート生成 [cs.CV]目的：Computed Tomographyレポートの自動生成
- 臨床放射線科におけるレポート作成の負担軽減と，より迅速な患者ケアが求められている
- CT画像はデータ量が多く，記述に必要な詳細度も高いため，既存手法の性能が制限される
- CT画像とレポート間の構造レベルでの意味的対応関係を学習し，レポート生成の精度向上を目指す
- 本研究で提案するフレームワークは，2つの公開データセットにおいて，臨床効率の面で最先端の性能を達成した
- 構造に特化した画像とテキストの対比学習により，CT画像とレポート間の構造レベルでの対応関係を効果的に学習できた
- 動的な多様性向上ネガティブキューを用いることで，様々な異常を識別する能力が向上した
Link: https://arxiv.org/abs/2603.04878
DeformTrace：リレー記号を用いた変形可能な状態空間モデルによる時間的フォレンジック局所化 [cs.CV, cs.AI, cs.MM]目的：時間的フォレンジック局所化における操作されたセグメントの正確な特定
- 動画や音声の改ざん検知は，セキュリティやフォレンジックにおいて重要な役割を果たす。
- 既存手法では，曖昧な境界，まばらな改ざん，長距離モデリングの限界が課題となっていた。
- 変形可能なダイナミクスとリレー機構により，これらの課題を解決し，より正確な局所化を目指す。
- 提案手法DeformTraceは，状態空間モデル（SSM）を強化し，より少ないパラメータで最先端の性能を実現した。
- Deformable Self-SSMとRelay Token Mechanismにより，時間的局所化の精度と長距離モデリング能力を向上させた。
- Deformable Cross-SSMは，改ざん以外の情報蓄積を減らし，まばらな改ざんに対する感度を高めた。
Link: https://arxiv.org/abs/2603.04882
マルチモーダル脳腫瘍セグメンテーションのための連合モダリティ固有エンコーダと部分的に個別化された融合デコーダ [cs.CV]目的：マルチモーダル脳腫瘍セグメンテーションにおける，連合学習の枠組み
- 医療画像解析において，複数施設での共同学習がデータ活用の鍵となる。
- 異なる施設で撮影モダリティが異なる場合，モデルの汎化性能が低下する。
- モダリティの異質性と個別化ニーズに対応し，セグメンテーション精度を向上させる。
- 提案手法FedMEPDは，各モダリティ固有のエンコーダと部分的に個別化された融合デコーダを用いることで，モダリティ間および施設間の異質性に効果的に対処する。
- フルモーダルデータを保有するサーバが融合デコーダを用いて特徴量を統合し，エンコーダの最適化を促進する。
- 不完全なモダリティを持つクライアントは，グローバルなアンカーに特徴量を近づけることで情報損失を補完し，精度向上を実現した。
Link: https://arxiv.org/abs/2603.04887
FedAFD：敵対的融合と知識蒸留によるマルチモーダル連合学習 [cs.LG, cs.AI, cs.CV]目的：マルチモーダル連合学習における性能および効率の向上
- データプライバシー保護が重要視される中で，分散データを用いた機械学習へのニーズが高まっている。
- 既存手法では，クライアントごとの性能差や，モダリティ・タスク間の不一致，モデルの異質性が課題となっている。
- クライアントとサーバーの学習を強化し，上記課題を克服することで，連合学習の精度向上を目指す。
- 提案手法FedAFDは，敵対的アラインメントと粒度認識型融合モジュールにより，クライアントの学習を改善する。
- サーバー側では，類似度に基づいたアンサンブル蒸留により，モデルの異質性を緩和し，グローバルモデルを効率的に学習する。
- IIDおよびnon-IID設定下での実験により，FedAFDが既存手法を上回る性能と効率を示すことが確認された。
Link: https://arxiv.org/abs/2603.04890
局所性に着目した Vision Transformer [cs.CV]目的：Vision Transformer のセグメンテーション性能向上
- 画像認識の分野で，Transformer が大きな成果を上げている。
- Transformer のグローバルな自己注意機構が，セグメンテーションに必要な詳細な空間情報を損なう場合がある。
- セグメンテーション性能を向上させつつ，画像認識能力を維持すること。
- 提案手法は，ViT Tiny および Base で ADE20K データセットにおいて，それぞれ 6% 以上，4% 以上のセグメンテーション性能向上を実現した。
- 学習方法や画像認識性能を変化させることなく，セグメンテーション性能を向上させるシンプルな追加モジュールである。
- 自己注意機構を学習可能なガウスカーネルで調整し，パッチ表現を洗練することで，局所的な情報への集中を促している。
Link: https://arxiv.org/abs/2603.04892