arXiv雑要約

画像・音声 - 2026/03/04 公開

時系列予測をレンダリングとして：2Dガウススプラッティングによる時系列予測フレームワーク [cs.LG, cs.AI, cs.CV]目的：時系列予測のための2次元ガウススプラッティングフレームワーク
- 時系列データは，経済，気象，医療など多くの分野で重要な役割を果たす。
- 既存手法は，時系列データの複雑な変動を捉えきれず，予測精度が低い場合がある。
- 本研究は，時系列予測を生成的なレンダリングとして捉え，より高精度な予測を実現することを目指す。
- 本研究で提案するTimeGSは，時系列を連続的な潜在表面として捉え，ガウスカーネルを用いて柔軟な幾何学的アラインメントで複雑な変動をモデル化する。
- Multi-Basis Gaussian Kernel Generation (MB-GKG)ブロックとMulti-Period Chronologically Continuous Rasterization (MP-CCR)ブロックを導入し，最適化の安定化と時間的な連続性を実現。
- 標準的なベンチマークデータセットでの実験により，TimeGSが最先端の性能を達成することが示された。
Link: https://arxiv.org/abs/2603.02220
SGPA：マルチモーダル大規模言語モデルにおける実行可能なシャープレイ値の説明のためのスペクトログラム誘導型音声韻素アラインメント [cs.SD, eess.AS]目的：マルチモーダル大規模言語モデルにおける説明可能性向上
- 音声言語モデルの解釈性は，モデルの信頼性と改善に不可欠である。
- 従来のトークン化では，計算量が膨大で，音声フレームの意味が不明確になりやすい。
- 音声の説明を可能にするための計算効率と精度向上を目指す。
- SGPAは，モデル評価回数を43倍削減することに成功した。
- 統計的検定により，SGPAが帰属の集中度を大きく変化させながら，全体的な累積プロファイルを維持することが確認された。
- これにより，SGPAが音声の説明可能性を可能にする基盤技術であることが示された。
Link: https://arxiv.org/abs/2603.02250
MEBM-Phoneme：エンドツーエンドMEG音素分類のための多段階強化BrainMagic [cs.DB, cs.SD, cs.AI, eess.AS]目的：非侵襲性脳磁図(MEG)信号からの音素分類
- MEGは，高時間分解能で脳活動を計測でき，言語処理研究に有用である。
- MEG信号に基づく音素分類は，データ品質や個人差の影響を受けやすい。
- 多段階的な特徴抽出と学習安定化により，音素分類精度を向上させる。
- MEBM-Phonemeは，BrainMagicを基盤とし，多段階畳み込みモジュールを組み込んだ。
- LibriBrain Competition 2025 Track2において，高い音素識別精度を達成した。
- 階層的な時間モデリングと学習安定化の重要性が示された。
Link: https://arxiv.org/abs/2603.02254
MEBM-Speech：ロバストなMEG音声検出のための多重スケール強化BrainMagic [cs.SD, cs.AI, eess.AS]目的：非侵襲的脳磁図(MEG)信号からの音声活動検出
- 脳活動と音声の関連解明は，認知神経科学や臨床応用において重要である。
- MEG信号はノイズの影響を受けやすく，音声検出の精度向上が課題である。
- 多重スケールでの時間的特徴抽出により，MEG音声検出のロバスト性を向上させる。
- MEBM-SpeechはBrainMagicを基盤とし，多重スケール畳み込みモジュール，BiLSTM，Depthwise Separable Convolutionを統合した。
- 軽量な時間ジッター戦略と平均プーリングにより，音声開始位置のロバスト性と境界の安定性を向上させた。
- LibriBrain Competition 2025 Track1で，検証セットにおいて平均F1マクロ89.3%を達成し，優れた性能を示した。
Link: https://arxiv.org/abs/2603.02255
CamDirector：長期的整合性のある動画軌跡編集に向けて [cs.CV]目的：動画軌跡編集の新しいフレームワーク
- 動画制作において，カメラワークは映像の品質と印象を大きく左右するため，重要性が高い。
- 既存手法は精密なカメラ制御と長範囲の一貫性に課題があり，動画全体の品質を損ねる場合がある。
- 本研究は，長期的整合性を保ちつつ，より自然で高品質な動画軌跡編集を実現することを目標とする。
- 提案手法は，ハイブリッドなワーピングスキームにより，ソース動画全体の情報を明示的に集約することで，一貫性のある粗いフレームを生成する。
- ヒストリーガイド付き自己回帰拡散モデルを用いて動画セグメントをまとめて処理し，長期間の整合性を実現する。
- 新たなベンチマークiPhone-PTZにおいて，少ないパラメータで最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.02256
Social-JEPA：創発する幾何学的同型性 [cs.CV, cs.AI]目的：異なる視点からの環境モデル間の表現の幾何学的同型性
- 分散型ビジョンシステム間の相互運用性は，協調的なAIシステムの構築に不可欠である。
- 異なる視点からのデータの表現には一貫性がなく，知識の転移が困難である。
- 予測学習が表現幾何学に課す正則性を利用し，軽量な相互運用性を実現する。
- 複数のエージェントが異なる視点から学習した環境モデルにおいて，潜在空間が近似線形等距変換で関連付けられることが示された。
- この幾何学的合意は，視点やピクセルオーバーラップの少なさに関わらず維持される。
- 学習されたアライメントを利用することで，一方のエージェントで学習した分類器を他方へ追加学習なしで移植可能となり，学習の加速化も実現した。
Link: https://arxiv.org/abs/2603.02263
スケール拡大が失敗する場合：知覚認識を意識した多段階推論によるLALMの音声知覚劣化の軽減 [cs.SD, cs.AI, eess.AS]目的：LALMにおける音声知覚劣化の軽減
- 近年，大規模な音声・言語モデル(LALM)の性能向上が期待されている。
- LALMにおいて，推論計算量を増やすスケール拡大が必ずしも性能向上に繋がらない場合がある。
- 音声認識の段階で劣化が生じ，推論性能が低下するという問題を解決する。
- CAFEという評価フレームワークを用いて，LALMが推論中に音声知覚で苦戦し，推論の長さが伸びるにつれて音声知覚が劣化することが明らかになった。
- MPAR$^2$というパラダイムを提案し，動的な知覚的推論を促し，複雑な質問を知覚に富んだ部分問題に分解した。
- MPAR$^2$は，CAFEでの知覚性能を大幅に向上させ，知覚の劣化を軽減し，MMAUベンチマークでの精度を向上させた。
Link: https://arxiv.org/abs/2603.02266
視覚からマルチモーダルへ：動物識別におけるエンコーダと融合戦略の系統的アブレーション [cs.CV]目的：動物識別のためのマルチモーダル検証フレームワーク
- 動物識別の自動化は，迷子になったペットと飼い主を再会させる上で重要である。
- 既存システムは，データセットの規模が限られており，視覚情報のみに依存しているため，性能が低い場合がある。
- 合成されたテキスト記述から得られる意味的情報を活用し，識別精度を向上させる。
- 提案手法では，ゲート化された融合メカニズムを採用し，大規模なペット再識別において高い性能を示した。
- Top-1精度は84.28%，EERは0.0422であり，既存の単一モーダルベースラインを11%上回る結果となった。
- 合成された意味記述の統合が，大規模な識別における意思決定境界を改善することが示された。
Link: https://arxiv.org/abs/2603.02270
音声認識における系列レベルの教師なし学習：理論的研究 [cs.SD, cs.LG, eess.AS]目的：音声認識における教師なし学習の成立条件とその分類誤差の関係解明
- 音声データは大量に存在するが，ラベル付けにはコストがかかるため，教師なし学習が重要である。
- 教師なし学習は，ラベルなしデータからモデルを学習するため，識別精度の向上が課題である。
- 分類誤差の理論的限界を導き，教師なし学習の成功条件を明らかにすること。
- 教師なし学習が成功するための二つの条件を理論的に導出した。
- これらの条件の下で，音声認識における分類誤差の上限を導き，シミュレーションで検証した。
- 得られた結果に基づき，単一段階の系列レベルクロスエントロピー損失関数を提案した。
Link: https://arxiv.org/abs/2603.02285
プロトタイプ誘導二重プールプロンプティングによる増分オブジェクト検出 [cs.CV, cs.AI]目的：増分オブジェクト検出における性能向上
- 画像認識技術は，自動運転やロボット工学など，様々な分野で不可欠である。
- 既存の増分オブジェクト検出手法は，学習の過程で以前の知識を忘れてしまう問題がある。
- プロンプト劣化を抑制し，継続的な学習における安定性と可塑性を両立させる。
- 提案手法PDPは，共有プールとプライベートプールという二重のプロンプト分離パラダイムを採用することで，プロンプトの干渉を抑制し，性能を向上させた。
- プロトタイプに基づく疑似ラベル生成モジュールPPGは，学習中のクラスプロトタイプ空間を動的に更新し，一貫性のある教師信号を維持する。
- MS-COCOおよびPASCAL VOCのベンチマークにおいて，最先端の性能を達成し，その有効性を実証した。
Link: https://arxiv.org/abs/2603.02286
AutoFFS：顔面女性化手術計画のための敵対的変形 [cs.CV, eess.IV]目的：顔面女性化手術計画のための反実仮想的頭蓋形態の生成
- 性自認を持つ患者のQOL向上は重要であり，そのための医療技術の進歩が求められている。
- 現在の手術計画は主観に依存し，客観的・再現性のある解剖学的指針が不足している。
- 客観的な指標に基づいた手術計画を可能にし，顔面女性化手術の精度向上を目指す。
- 敵対的自由形式変形を用いて，頭蓋形状を目標の性別に変形させるAutoFFSを提案した。
- 生成された頭蓋形態は，性別の識別器に基づいた評価と人間による知覚的評価により，目標性別の特徴を示すことが確認された。
- 本手法は，顔面女性化手術における術前計画の定量的な基盤を提供する。
Link: https://arxiv.org/abs/2603.02288
HAMMER：意図駆動型3Dアフォーダンス接地のためのクロスモーダル統合によるMLLMの活用 [cs.CV]目的：意図駆動型3Dアフォーダンスの接地
- 人間は画像や動画からアフォーダンスを認識し，それを新しい物体に汎化する。
- 既存手法では，明示的な属性記述や2Dセグメンターに依存し，アフォーダンスの接地が不十分である。
- MLLMを活用し，意図を考慮したより正確な3Dアフォーダンス接地を実現する。
- HAMMERは，画像内の相互作用意図を接触を意識した埋め込みに集約し，テキストアフォーダンスラベルの推論を導く。
- 階層的なクロスモーダル統合メカニズムにより，MLLMからの情報を活用し，3D表現を洗練させる。
- 多粒度ジオメトリリフティングモジュールにより，空間的特徴を意図埋め込みに注入し，アフォーダンス局在化の精度を向上させる。
Link: https://arxiv.org/abs/2603.02329
事前条件付きスコアおよびフローマッチング [cs.CL, cs.LG, cs.AI, cs.CV]目的：拡散モデルにおける最適化バイアスの軽減
- 生成モデルの性能向上は，画像生成等の分野で不可欠である。
- 中間分布の共分散行列の条件数が悪いと，最適化が停滞する問題がある。
- 分布の幾何学的構造を改善し，最適化の停滞を回避する手法を開発する。
- 事前条件付きマップは，中間分布の共分散行列の条件数を改善することで，最適化のバイアスを軽減する。
- この手法は，初期の収束を加速するのではなく，以前は抑制されていた方向への進捗を可能にする。
- MNISTや高解像度データセットにおいて，事前条件付きマップがより良い学習結果をもたらすことが実証された。
Link: https://arxiv.org/abs/2603.02337
MERG3R：大規模ニューラル視覚幾何学に対する分割統治アプローチ [cs.CV]目的：大規模ニューラル視覚幾何学における3次元再構成
- 3次元再構成技術は，自動運転やロボット工学など，様々な分野で不可欠である。
- TransformerベースモデルはGPUメモリ容量に制限され，大規模な画像コレクションへの対応が困難である。
- GPUメモリ制限を超えた大規模データセットにおける3次元再構成の精度向上を目指す。
- MERG3Rは，既存のニューラル幾何モデルと組み合わせて使用できる，モデルに依存しないフレームワークである。
- 提案手法は，7-Scenes，NRGBD，Tanks & Temples，Cambridge Landmarksなどの大規模データセットで再構成精度，メモリ効率，スケーラビリティを向上させた。
- MERG3Rは，データセットがメモリ容量の制限を超える場合でも，高品質な再構成を可能にする。
Link: https://arxiv.org/abs/2603.02351
ビデオモーメント検索におけるキャプションベースクエリを超えて [cs.CV]目的：ビデオモーメント検索における汎化性能の課題と改善策
- ビデオコンテンツの検索は，情報へのアクセスを効率化する上で重要である。
- 既存手法は，キャプションを用いた学習に偏り，検索クエリに対する性能が低下する。
- 検索クエリへの対応能力を高め，マルチモーメント検索の精度向上を目指す。
- キャプションベースクエリと検索クエリの間に言語的およびモーメント数のギャップが存在することが明らかになった。
- DETRアーキテクチャにおけるデコーダークエリの崩壊が，マルチモーメント検索の性能低下の主要な原因であることが特定された。
- デコーダークエリ数を増加させることで，検索クエリに対するmAP_mが最大14.82%，マルチモーメント検索クエリでは最大21.83%向上した。
Link: https://arxiv.org/abs/2603.02363
偽造検出器が旅する：低リソース言語偽造コーパスにおける66言語での評価 [cs.SD, eess.AS]目的：多言語音声偽造検出のロバスト性の評価
- 音声による本人認証はセキュリティ上重要だが，偽造音声による攻撃が課題。
- 低リソース言語における偽造音声検出技術は，データ不足のため十分でない。
- 多言語に対応可能な偽造音声検出モデルの汎化性能を評価する。
- 大規模な多言語偽造音声コーパスLRLspoofを構築し，66言語で評価実験を実施した。
- 既存の11個の対策手法に対し，言語間で偽造拒否率に大きな差が見られた。
- 言語が偽造検出におけるドメインシフトの独立した要因であることが示唆された。
Link: https://arxiv.org/abs/2603.02364
患者特異的ラジノミック特徴セットの検索：透明性の高い膝MRI評価 [cs.CV]目的：患者ごとのラジノミック特徴セットの選択
- 画像定量解析は，疾患の早期発見や治療効果の評価に不可欠であり，医療の質向上に貢献する。
- 既存手法では，集団レベルで定義された特徴セットに依存し，患者ごとの多様性を捉えきれていない。
- 患者特異的な特徴セットを選択し，診断精度と解釈可能性を両立させる。
- 提案手法は，既存のトップk特徴選択アプローチよりも高い診断性能を達成した。
- 深層学習モデルと同等の診断性能を維持しつつ，高い透明性を確保した。
- 臨床医が予測の根拠となる解剖学的構造や定量指標を検証可能にする，信頼性の高い特徴セットを生成する。
Link: https://arxiv.org/abs/2603.02367
RO-N3WS：多様なルーマニア語音声ベンチマークによる低リソースASRの汎化性能向上 [cs.CL, cs.LG, cs.SD]目的：低リソースおよび分布外条件における自動音声認識（ASR）の汎化性能の向上
- 音声認識技術は，人間と機械のコミュニケーションにおいて重要な役割を担う
- 低リソース言語における音声データ不足が，認識精度のボトルネックとなっている
- 多様な音声データを用いてASRモデルの汎化性能を高めることを目指す
- RO-N3WSは，放送ニュース，オーディオブック，映画台詞，児童向け読み物，会話型ポッドキャストなど，多様なスタイルのルーマニア語音声を含む126時間以上のデータセットである。
- 実験の結果，RO-N3WSで限定的なファインチューニングを行うことで，ゼロショットベースラインと比較して，実質的なWER（単語誤り率）の改善が確認された。
- 研究の再現性を支援するため，全てのモデル，スクリプト，データ分割を公開する。
Link: https://arxiv.org/abs/2603.02368
文化的な反事実：反事実的な例を用いた大規模視覚言語モデルにおける文化的偏見の評価 [cs.CV]目的：大規模視覚言語モデルにおける文化的偏見の測定
- 視覚言語モデルの性能向上に伴い，潜在的な偏見への懸念が高まっている。
- 既存研究は主に外見に基づく偏見に焦点を当て，文化的な背景に起因する偏見の評価が遅れている。
- 文化的背景を考慮したデータセットを用いて，視覚言語モデルの文化的偏見を定量的に評価すること。
- 本研究では，宗教，国籍，社会経済的地位に関する約6万件の反事実的な画像を含む高品質な合成データセット「Cultural Counterfactuals」を構築した。
- このデータセットは，異なる人種・属性の人物を現実の文化的背景画像に配置することで生成され，文化的文脈の違いがLVLMの出力に与える影響を正確に測定する。
- Cultural Counterfactualsを用いて，一般的なLVLMにおける文化的偏見を定量的に評価し，その存在を示唆する結果が得られた。
Link: https://arxiv.org/abs/2603.02370
胎児解剖構造と運動学的木構造を用いた対数ユークリッド多剛体変換のアラインメント [cs.CV, cs.GR]目的：胎児解剖構造と運動学的木構造を用いた対数ユークリッド多剛体変換によるアラインメント
- 医療画像解析において，関節構造の自動解析は重要であり，診断や治療計画に貢献する。
- 既存の表面ベースモデルは内部構造を無視し，解剖学的整合性を保証できない変形法に依存している。
- 本研究は，大規模な関節運動における曖昧さを解消し，滑らかな体積マッピングを促進する新しい変換手法を提供する。
- 提案手法は，53件の胎児MRI画像において，変形フィールドにおけるフォールディングアーティファクトを大幅に減少させた。
- グループワイズ画像登録の堅牢性を向上させ，テンプレートベースの胎児臓器セグメンテーションを効率化した。
- 本フレームワークは，医療画像における関節構造の標準化された体積解析のための堅牢な基盤を提供する。
Link: https://arxiv.org/abs/2603.02371
非同期の出自情報とウォーターマークによる認証の矛盾 [cs.CR, cs.CV, cs.MM, eess.IV]目的：デジタルコンテンツの認証における矛盾の形式化と実証
- デジタルコンテンツの信頼性確保が重要視される中，偽造・改ざん対策は喫緊の課題である。
- C2PAやウォーターマークといった技術は独立して機能するため，矛盾が生じる可能性がある。
- 出自情報とウォーターマークの検証を統合し，矛盾を検出する手法を確立すること。
- C2PAマニフェストが人間の作成を主張し，同時にウォーターマークがAI生成を識別する矛盾状態を「Integrity Clash」と定義した。
- 標準的な編集パイプラインを利用し，C2PA仕様の許容範囲内で矛盾する偽造コンテンツを生成できることを示した。
- 出自情報とウォーターマーク検出状況を共同で評価するプロトコルにより，100%の分類精度を達成した。
Link: https://arxiv.org/abs/2603.02378
機械学習による地球観測の発展：TorchGeoチュートリアル [cs.HC, cs.RO, cs.SY, eess.SY, cs.CV]目的：機械学習パイプラインにおける地球観測データの利用促進
- 地球観測は，環境変動の監視や資源管理など，持続可能な社会実現に不可欠である。
- 地球観測データの特殊性から，標準的な画像処理手法の適用が困難であった。
- 地球観測データを容易に扱える機械学習ライブラリTorchGeoの活用方法を示す。
- TorchGeoは，地球観測データ特有の形式に対応したデータセット，サンプラー，変換，事前学習済みモデルを提供する。
- Sentinel-2画像を用いた水域セグメンテーションの事例を通じて，TorchGeoの主要な機能を解説する。
- 学習済みモデルの予測結果をGeoTIFF形式で保存し，その後の地理空間分析に活用できることを示した。
Link: https://arxiv.org/abs/2603.02386
OpenMarcie：産業環境におけるマルチモーダル行動認識のためのデータセット [cs.CV, eess.SP]目的：産業環境における人間の行動監視を目的としたマルチモーダルデータセット
- スマートファクトリー実現には，作業者の行動理解が不可欠であり，生産性向上と安全確保に繋がる。
- 既存のデータセットは規模が小さく，実際の産業環境での多様な行動を捉えきれていない。
- 現実的な製造現場の状況を反映した大規模なデータセットを構築し，行動認識技術の発展に貢献する。
- OpenMarcieは，ウェアラブルデバイスとカメラから収集された37時間以上のマルチモーダルデータを含む，最大規模の産業用データセットである。
- 自転車の組み立て・分解，3Dプリンターの組み立てという2つの実験設定で，合計36名の参加者によるデータを収録した。
- 活動分類，オープンボキャブラリキャプション，クロスモーダルアライメントの3つのタスクでベンチマークを行い，有効性を検証した。
Link: https://arxiv.org/abs/2603.02390
少ないサンプルから少ないビットへ：データセット蒸留を精度とコンパクト性の共同最適化として再構築 [cs.CV, cs.AI, cs.LG]目的：データセットのコンパクト性と精度に関する共同最適化
- 大規模データセットの取り扱いは計算資源を圧迫し，効率的な学習が課題となるため，データセット圧縮が重要である。
- 既存のデータセット蒸留法はサンプル数の削減に重点を置いており，データ精度と効率の関係が十分に考慮されていない。
- 固定されたビット予算の下で，データセットのコンパクト性と精度を同時に最適化することで，情報効率の良い蒸留を目指す。
- 提案手法QuADDは，蒸留ループに微分可能な量子化モジュールを統合し，合成サンプルと量子化パラメータをエンドツーエンドで共同最適化する。
- レート歪み理論に基づいてビット配分が学習性能に与える影響を分析し，均一および適応的な非均一量子化をサポートする。
- 画像分類および3GPPビーム管理タスクにおいて，既存手法を上回り，ビットあたりの精度において新しい基準を確立した。
Link: https://arxiv.org/abs/2603.02411
TruckDrive：長距離自律高速道路運転データセット [eess.SY, cs.SY, cs.CV]目的：大型トラックの長距離自律高速道路運転のためのデータセット
- 自動運転技術は，物流効率化や安全性向上に不可欠であり，社会実装が期待されている。
- 既存のデータセットは都市部が中心で，長距離の安全な運転に必要な環境認識能力の評価が困難である。
- 本研究は，長距離環境認識を可能にするデータセットを構築し，自律運転システムの性能向上を目指す。
- TruckDriveデータセットは，最長1000メートルまでの環境認識を可能にする，多様なセンサーデータを収録している。
- 実験の結果，最先端の自動運転モデルは150メートルを超える距離での性能が著しく低下することが示された。
- この結果は，既存のアーキテクチャや学習信号が長距離環境認識の課題に対応できていないことを示唆する。
Link: https://arxiv.org/abs/2603.02413
ブルーベリー収穫に向けたロボット認識のためのDINOv3ビジュアル表現 [cs.CV]目的：ブルーベリー収穫に関するロボット視覚タスクにおけるDINOv3の性能評価
- 農業分野における自動化の重要性が増しており，特に収穫ロボットの視覚認識技術が鍵となる。
- 大規模な自己教師あり学習モデルは汎化性能が高いが，農業環境下での実用性と限界は不明確である。
- DINOv3を基盤として，ブルーベリーの果実や傷のセグメンテーション，果実や房の検出における課題を明らかにする。
- DINOv3はセグメンテーションにおいて，安定したパッチレベル表現により一貫して性能が向上し，モデルサイズに比例してスケールアップする。
- 一方，検出はターゲットのスケール変動，パッチの離散化，位置合わせの互換性によって制約される。
- 房の検出の失敗は，空間的集約によって定義される関係性のあるターゲットのモデル化における限界を示唆している。
Link: https://arxiv.org/abs/2603.02419
分類知識蒸留における温度の統一的再検討 [cs.LG, cs.CV]目的：分類知識蒸留における温度選択に関する理解の深化
- 知識蒸留は，教師モデルの知識を生徒モデルへ効率的に伝達する手法であり，性能向上に貢献する。
- 適切な温度パラメータの選択が難しく，探索に時間と労力がかかる場合が多い。
- 温度パラメータの選択が，最適化手法や教師モデルの学習方法に依存することを示す。
- 温度パラメータは，教師モデルの事前学習/ファインチューニングや最適化手法と密接に関連していることが示された。
- 温度選択が，特定の学習設定において顕著な影響を及ぼす一般的な状況が特定された。
- この研究は，知識蒸留の実践者にとって，温度選択の指針を提供する。
Link: https://arxiv.org/abs/2603.02430
MIRAGE：知識グラフ誘導によるコホート間MRI合成とアルツハイマー病予測 [cs.CV, cs.AI]目的：アルツハイマー病予測のためのMRIデータ欠損問題解決
- アルツハイマー病診断にはMRIと電子カルテの組み合わせが重要だが，MRI検査は高価で利用できない場合が多い。
- 電子カルテから直接3D MRI画像を合成することは技術的に難しく，臨床リスクも伴う。
- 本研究は，知識グラフを用いて電子カルテからMRI情報を補完し，MRIデータがなくても高精度なアルツハイマー病予測を実現する。
- MIRAGEは，知識グラフとグラフ注意ネットワークにより，電子カルテの情報をMRIデータを持つコホートから持たないコホートへ伝播させる。
- 凍結された3D U-Netデコーダーを補助的な正則化エンジンとして利用し，生物学的に妥当な病理学的セマンティクスをエンコードする。
- MRIデータのないコホートにおいて，AD分類率を13%改善し，モダリティ欠損の問題を克服した。
Link: https://arxiv.org/abs/2603.02434
ORCA：ドキュメント視覚的質問応答のための協調的エージェントによるオーケストレーション [cs.CV]目的：ドキュメント視覚的質問応答における複雑な推論と多段階ワークフロー
- ドキュメント理解は，情報検索や知識発見の基礎であり，その重要性は増している。
- 既存モデルは複雑な質問の分解や，ドキュメント要素に応じた処理の活用が不十分である。
- エージェント間の戦略的連携と反復的な改善を通じて，この課題を克服することを目的とする。
- ORCAは，推論エージェントが質問を論理的なステップに分解し，ルーティング機構が専門エージェントを起動する。
- 各エージェントが異なるモダリティに特化することで，ドキュメント構成要素のきめ細やかな理解と協調的な推論を実現する。
- 信頼性を高めるため，ストレス試験による議論機構や，正誤判定プロセスを導入し，優れた性能を達成した。
Link: https://arxiv.org/abs/2603.02438
転移学習を用いた泥炭地火災検出のための深層学習 [cs.CV, cs.AI]目的：泥炭地火災検出のための深層学習モデル
- 森林火災による環境破壊は深刻であり，早期発見と迅速な対応が重要である。
- 既存の森林火災検出器は，泥炭地火災特有の燃焼形態に対応できていない。
- 泥炭地火災に適応した高精度な火災検出システムの構築を目指す。
- 転移学習により，ラベル付き泥炭地火災データの不足を克服し，効果的な学習を実現した。
- 従来の火災検出器と比較して，検出精度とロバスト性が大幅に向上した。
- 低コントラストの煙や遮蔽物，照明変化といった困難な条件下でも，高い検出性能を示した。
Link: https://arxiv.org/abs/2603.02465
実環境における肌の色調分類のための大規模データセットとベンチマーク [cs.CV, cs.LG]目的：実環境における肌の色調分類のためのデータセットと評価手法
- 機械学習モデルにおけるバイアス問題は重要であり，特に肌の色調のような詳細な分析は課題である。
- 既存データセットは規模が小さく，再現性が低いか，あるいは医療的な尺度に依存しており，視覚的な表現性に欠ける。
- 大規模なデータセットと公平性を考慮した評価手法を開発し，肌の色調分類の精度向上を目指す。
- 大規模な肌の色調データセットSTWを構築し，公開することで，研究の再現性と発展に貢献する。
- 従来の画像処理手法は低い性能を示す一方，深層学習は高い精度を達成することを示す。
- ファインチューニングされたViTモデルSkinToneNetが，未知のデータに対しても高い汎化性能を示す。
Link: https://arxiv.org/abs/2603.02475
E2E-GNet：エンドツーエンドな骨格ベース幾何学的深層ニューラルネットワークによる人体動作認識 [cs.CG, cs.CV]目的：人体動作認識のための幾何学的深層ニューラルネットワーク
- 近年，非ユークリッド空間上のデータを扱う幾何学的深層学習が注目されている。
- 骨格データを用いた動作認識において，異なる動作間の識別力が課題となっている。
- 幾何学的変換層と歪み補正層により，識別力の向上と形状歪みの抑制を目指す。
- 提案手法E2E-GNetは，幾何学的変換層と微分可能な対数写像活性化関数を導入することで，非ユークリッド空間上の骨格動作系列を最適化する。
- 歪み補正最適化層は，線形空間への投影による骨格形状の歪みを抑制し，識別可能な幾何学的特徴の保持を可能にする。
- 5つのデータセットにおける実験により，E2E-GNetは他の手法よりも高い認識率を達成し，計算コストも低いことが示された。
Link: https://arxiv.org/abs/2603.02477
ModalPatch: 多様なモダリティ消失下におけるロバストな3次元物体検出のためのプラグアンドプレイモジュール [cs.CV]目的：多様なモダリティ消失シナリオ下でのロバストな3次元物体検出
- 自動運転において，LiDARやカメラ等の多様なセンサー情報の統合は不可欠である。
- センサーの故障，悪天候，遮蔽等により，モダリティが一時的に消失する問題が存在する。
- 同時モダリティ消失時における車両の視覚的盲目状態を解消し，信頼性を向上させる。
- ModalPatchは，既存の検出フレームワークに容易に組み込むことができるプラグアンドプレイモジュールである。
- 本モジュールは，センサーデータの時間的性質を利用し，消失した特徴量を予測・補完することで，ロバスト性を高める。
- 不確実性に基づいたクロスモダリティ融合戦略により，補完された特徴量の信頼性を動的に評価し，精度を向上させる。
Link: https://arxiv.org/abs/2603.02481
MUSE：大規模言語モデルの多角的統一安全性評価のための実行中心プラットフォーム [cs.LG, cs.CL, cs.CV, cs.SD, eess.AS]目的：大規模言語モデルの多角的統一安全性評価
- 大規模言語モデルの利用拡大に伴い，安全性評価の重要性が高まっている。
- 既存の安全性評価はテキスト中心であり，音声，画像，動画など他のモダリティへの対応が不十分である。
- 多角的なモダリティに対応し，より包括的な安全性評価を実現する。
- MUSEは，自動クロスモーダルペイロード生成，多段階攻撃アルゴリズム，プロバイダーに依存しないモデルルーティング，LLMジャッジを統合した実行中心のプラットフォームである。
- デュアルメトリックフレームワークにより，ハードASR（コンプライアンスのみ）とソフトASR（部分コンプライアンスを含む）を区別し，二値指標では捉えきれない部分的な情報漏洩を捉える。
- ターンごとのモダリティを切り替えるITMSにより，モダリティ境界を越えたアライメントの一般化を検証し，モデルごとの効果の方向性が異なることを明らかにした。
Link: https://arxiv.org/abs/2603.02482
WTHaar-Net：ハイブリッド量子古典アプローチ [cs.CV]目的：畳み込みニューラルネットワークにおける線形フィルタ演算の効率的な実現
- 深層学習の性能向上には，計算効率の高い線形変換が不可欠である。
- 既存のハイブリッド量子古典アーキテクチャでは，局所性の低い変換が課題となっていた。
- 視覚タスクに適した多解像度表現を実現し，量子計算との親和性を高める。
- WTHaar-Netは，従来のハダマード変換をハールウェーブレット変換に置き換えることで，パラメータ数を大幅に削減できる。
- Tiny-ImageNetデータセットにおいて，ResNetやハダマード変換ベースのモデルと比較して優れた性能を示す。
- IBM Quantumクラウドハードウェア上での検証により，近接量子デバイスとの互換性が確認された。
Link: https://arxiv.org/abs/2603.02497
セマンティック誘導型モダリティ認識セグメンテーション：不完全なマルチモーダルリモートセンシングデータへの対応 [cs.CV]目的：不完全なマルチモーダルデータを持つリモートセンシングにおけるセマンティックセグメンテーションの精度向上
- リモートセンシングは，地球観測において多様なセンサー情報を統合することで，より詳細な分析を可能とする。
- センサー故障や観測範囲の制限により，データの一部が欠損することが多く，セグメンテーション精度を低下させる。
- モダリティ間の不均衡や異質性を解消し，セグメンテーションのロバスト性を向上させることを目指す。
- 提案手法SGMAは，セマンティック誘導型モダリティ認識により，各モダリティの情報をバランス良く統合する。
- マルチスケールなクラスごとのセマンティックプロトタイプを用いて，モダリティ間の差異を低減し，一貫性のあるセマンティック応答を実現する。
- 実験結果から，SGMAは既存手法と比較して，特に脆弱なモダリティにおいて顕著な性能向上を示すことが確認された。
Link: https://arxiv.org/abs/2603.02505
rs-fMRIと機能的区分を用いた，説明可能なASD分類：グラフ注意ネットワークの活用 [cs.HC, cs.CV]目的：自閉スペクトラム症（ASD）の分類
- 脳機能の研究は，ASDの理解と診断に不可欠であり，その精度向上が求められている。
- 従来の解剖学的区分では，ASD特有の複雑な機能的接続パターンを捉えきれない場合がある。
- 機能的区分を用いることで，ASDの特性をより正確に捉え，分類精度を向上させる。
- 機能的区分を用いたグラフ注意ネットワークは，ABIDE Iデータセットにおいて95.0%の精度を達成し，既存のGNNベースの手法を凌駕した。
- 解剖学的区分から機能的区分への切り替えだけで分類精度が10.7ポイント向上し，機能的区分の重要性が示された。
- モデルの解釈性分析の結果，ASDの神経病理と一致する脳領域（後扣帯皮質，楔前葉）が特定された。
Link: https://arxiv.org/abs/2603.02518
NeighborMAE：マスク化オートエンコーダ事前学習における隣接する地球観測画像の空間的依存性の活用 [cs.MM, cs.IR, cs.CV]目的：地球観測画像の空間的依存性の学習
- 地球観測データは広範な分野で利用され，その活用は重要性が増している。
- 既存手法では，隣接する画像間の空間的依存関係が十分に活用されていない。
- 隣接画像間の関係性を活用し，自己教師あり学習の性能向上を目指す。
- NeighborMAEは，隣接する地球観測画像を共同で再構築することにより，空間的依存性を学習する。
- 実験結果から，NeighborMAEは既存のベースラインを大幅に上回り，隣接画像の有効性が示された。
- 動的にマスク率とピクセルレベル損失の重みを調整する戦略が，再構成の難易度維持に貢献している。
Link: https://arxiv.org/abs/2603.02522
EIMC：効率的なインスタンス認識に基づくマルチモーダル協調知覚 [cs.CV]目的：自動運転の安全性向上を目指したマルチモーダル協調知覚の効率化
- 自動運転の安全性を高める上で，周囲環境の正確な認識は不可欠である。
- 既存手法では，特徴データ伝送に多大な帯域幅を要し，効率性に課題がある。
- 帯域幅を削減しつつ，協調知覚による環境認識の精度向上を目指す。
- EIMCは，軽量な協調ボクセルを早期段階で注入する革新的な協調パラダイムを提案する。
- これにより，クロスモーダルアライメントが強化され，コンパクトで情報量の多い3D協調事前情報が得られる。
- OPV2VとDAIR-V2Xの評価において，既存手法と比較してAP@0.5を向上させ，バイト帯域幅使用量を87.98％削減した。
Link: https://arxiv.org/abs/2603.02532
焦点エントロピーの機能的性質 [cs.IT, cs.CV, cs.LG, math.IT, math.ST, stat.ML, stat.TH]目的：焦点損失の理論的基盤の解明
- 不均衡なクラス分類は，画像認識を含む多くの分野で重要な課題である。
- 焦点損失は実証的に成功しているが，情報理論的な考察が不十分であった。
- 焦点損失の挙動を理論的に理解し，不均衡学習におけるトレードオフを明確化すること。
- 焦点エントロピーの有限性，凸性，連続性に関する条件が確立された。
- 焦点損失が中間確率を増幅し，高確率の結果を抑制することが厳密に示された。
- 極端なクラス不均衡下では，非常に低い確率がさらに抑制される過剰抑制状態が生じることが明らかになった。
Link: https://arxiv.org/abs/2603.02533
森林パーソンズ：樹冠下での捜索対象者検出のための大規模データセット [cs.CV]目的：樹冠下での捜索対象者検出用大規模データセット
- 森林環境における捜索は困難であり，迅速かつ正確な検出技術が求められる。
- 従来の航空画像では，樹冠に隠れて捜索対象者を見つけ出すことが難しい。
- 樹冠下の環境に特化したデータセットを用いて，検出性能の向上を目指す。
- 本研究では，樹冠下で撮影された96,482枚の画像と204,078件のアノテーションを含む「ForestPersons」データセットを公開する。
- 既存の物体検出モデルは，本データセットにおいて限定的な性能しか示さず，樹冠下の捜索対象者検出の難しさを示す。
- 本データセットは，実世界の捜索救助活動における高度な人物検出能力の開発を支援する。
Link: https://arxiv.org/abs/2603.02541
識別的 vs. 生成的分類器：行動理解のためのMLLMの再考 [cs.HC, cs.CV]目的：行動理解におけるMLLMの分類器の性能比較と改善
- MLLMは，現実世界の複雑な行動を理解する上で重要な役割を担う。
- 生成的な分類器は効率が悪く，ラベル間の意味的重複が曖昧さを生む。
- 生成的分類器の性能を識別的分類器に近づけ，効率性を高める。
- 識別的分類器は，生成的な分類器よりも高い精度と効率を示すことが明らかになった。
- 生成モデルの助けを借りることで，識別的分類器の性能をさらに向上させることが可能である。
- 提案手法GADは，4つのタスクで最先端の結果を達成し，精度と効率の両方を改善した。
Link: https://arxiv.org/abs/2603.02546
SemGS：疎な視点からの汎用的なシーン理解のためのフィードフォワード意味的3Dガウススプラッティング [cs.CV]目的：汎用的なシーン理解のための意味的3Dシーン再構成
- ロボットが複雑な環境で効果的かつ安全に動作するためには，3Dシーンの意味理解が不可欠である。
- 既存手法は密な多視点入力に依存し，シーン固有の最適化が必要で，現実世界への応用が困難である。
- 疎な画像入力から汎用的な意味場を再構成し，実用性と拡張性を高めることを目指す。
- SemGSは，色と意味の特徴を抽出する二分岐アーキテクチャを採用し，テクスチャと構造の情報を活用した意味推論を可能にする。
- カメラ間の幾何学的関係を明示的にモデル化するため，カメラアウェアな注意メカニズムを特徴抽出器に組み込んだ。
- ベンチマークデータセットで最先端の性能を達成し，迅速な推論と多様なシーンへの高い汎化能力を示した。
Link: https://arxiv.org/abs/2603.02548
メスを渡して：手術器具搬送のための衝突回避型デュアルアーム手術支援ロボット [cs.RO, cs.CV, cs.HC, cs.LG]目的：手術器具搬送のための衝突回避型デュアルアーム手術支援ロボットの実現
- 手術の効率化と医療従事者の負担軽減が重要な課題である。
- 従来のロボットは固定経路に依存し，動的な手術環境への対応が困難であった。
- 手術従事者の指示に基づき，柔軟かつ安全に器具搬送を行うことを目指す。
- 提案システムは，手術器具搬送において83.33%の成功率を達成した。
- 視覚と自然言語処理モデルを活用し，ゼロショットでロボットの軌道を生成する。
- リアルタイムな障害物検知と二次計画法により，衝突回避を実現している。
Link: https://arxiv.org/abs/2603.02553
セマンティックセグメンテーションのためのビジョン基礎モデルからの汎化知識蒸留 [cs.CV]目的：セマンティックセグメンテーションにおける汎化性能の向上
- セマンティックセグメンテーションは，画像認識の重要なタスクであり，自動運転や医療画像解析など，幅広い分野で応用されている。
- 従来の知識蒸留は，ドメイン内精度を優先し，分布シフトに対する汎化性能が課題となっていた。
- 本研究は，汎化性能を明示的に強化することで，ビジョン基礎モデルの能力を最大限に引き出すことを目指す。
- 提案手法GKDは，ドメインに依存しない表現学習とタスク学習を分離することで，過学習を抑制し汎化性能を高める。
- クエリベースのソフト蒸留メカニズムにより，教師モデルから転移可能な空間的知識を選択的に抽出する。
- 5つのドメイン汎化ベンチマークにおいて，既存の知識蒸留手法を上回り，F2F蒸留で平均+1.9%，F2L蒸留で平均+10.6%の性能向上を達成した。
Link: https://arxiv.org/abs/2603.02554
コントラストのレンズを通して：VLMにおける自己改善型視覚的推論 [cs.IR, cs.CV, cs.AI, cs.CL, cs.LG]目的：VLMにおける視覚的推論能力の向上
- 大規模言語モデルの重要な能力として推論が注目されており，その性能向上は様々な応用において不可欠である。
- VLMにおける推論過程での視覚的幻覚は，言語モデルとは異なり，検証や修正が困難であるという課題がある。
- 視覚的コントラストを利用することで，VLMの推論過程における幻覚を軽減し，視覚的推論能力を向上させることを目指す。
- 視覚的コントラストペアを活用するVC-STaRフレームワークを提案し，モデルが生成する推論の根拠における幻覚を軽減することに成功した。
- 多様なVQAデータセットを用いてコントラストペアをキュレーションし，VisCoR-55Kという新しい視覚的推論データセットを構築した。
- VC-STaRは，既存の自己改善アプローチや最先端の視覚的推論データセットでファインチューニングされたモデルを上回り，VLM自身の視覚的推論能力を向上させることを示した。
Link: https://arxiv.org/abs/2603.02556
混乱認識プロンプトチューニング：視覚と言語のずれの軽減 [cs.CV, cs.AI]目的：視覚と言語モデルにおけるカテゴリー間の混同パターン軽減
- 近年，視覚と言語を結びつけるモデルが発展したが，類似カテゴリー間での誤分類が課題となっている。
- 既存モデルは，特定のカテゴリーペア間での混同パターンを示し，詳細な識別能力が不十分である。
- モデル自身のずれから学習し，混同パターンを明示的にモデル化することで，誤分類を減らす。
- 提案手法CAPTは，混同バンクを構築し，カテゴリー間の安定した混同関係をモデル化する。
- SEMとSAMを用いて，セマンティックおよびサンプルレベルの混同情報を効果的に捉え，多粒度差分エキスパートで統合する。
- 11のベンチマークデータセットで，混同によるエラーを大幅に削減し，識別性と汎化性能を向上させた。
Link: https://arxiv.org/abs/2603.02557
CAWM-Mamba：赤外線と可視光画像の融合と複合悪天候復元の統一モデル [cs.NI, cs.CV]目的：赤外線と可視光画像の融合と複合的な悪天候環境下での画像復元
- 自動運転やUAV監視において，より鮮明な画像は不可欠であるため，マルチモーダル画像融合が重要である。
- 既存手法は単一の悪天候（霧，雨，雪など）にしか対応できず，複数の悪天候が同時に存在する状況では性能が低下する。
- 複数の悪天候下での画像融合と復元を同時に行い，汎化性能を高めることを目指す。
- 提案手法CAWM-Mambaは，悪天候下における画像融合と復元を統一的に行う初のエンドツーエンドフレームワークである。
- AWMM-100Kベンチマークと3つの標準融合データセットにおいて，最先端手法と比較して一貫して優れた性能を示した。
- セマンティックセグメンテーションや物体検出といった下流タスクにおいても，実用的な価値が確認された。
Link: https://arxiv.org/abs/2603.02560
SOLAR：特異値分解による長寿命注意機構を用いた推薦システム [cs.IR, cs.CV, cs.LG]目的：推薦システムにおける系列モデリング
- Transformerの注意機構は表現力に優れるが，計算コストが高い。
- 系列長が長くなるほど注意機構の計算量が増大し，現実的な制約となる。
- 特異値分解を利用し，計算コストを削減しつつ，性能を維持すること。
- 提案手法SOLARは，特異値分解による注意機構により，計算量を削減。
- 大規模な行動系列や候補アイテムセットに対して，フィルタリングなしで適用可能。
- Kuaishouのオンライン推薦実験で，動画視聴回数が0.68%向上。
Link: https://arxiv.org/abs/2603.02561
Track4World：ワールド中心の稠密3Dトラッキングによる全ピクセルの追跡 [cs.HC, cs.CY, cs.HC, cs.CE, q-bio.BM, cs.CV]目的：単眼動画からの全ピクセルの3次元軌跡推定
- 動画の3次元構造理解には，各ピクセルの3次元動きの把握が不可欠である。
- 既存手法は，最初のフレームの疎な点のみを追跡するか，稠密トラッキングが遅いという課題があった。
- 本研究では，効率的な全ピクセル3Dトラッキングを実現し，この課題を解決することを目指す。
- 提案手法Track4Worldは，VGGTスタイルのViTを用いたワールド中心座標系で，全ピクセルの3次元トラッキングを可能にする。
- 新たな3次元相関スキームにより，任意のフレームペア間のピクセル単位の2D/3D稠密フローを同時に推定する。
- 複数のベンチマークにおいて，既存手法を上回り，ロバスト性とスケーラビリティが確認された。
Link: https://arxiv.org/abs/2603.02573