arXiv雑要約

画像・音声 - 2026/03/13 公開

オンラインソーシャルネットワークにおける信頼性の量的モデリングに関する調査 [cs.SI, cs.AI, cs.CR, cs.CY, cs.GT]目的：オンラインソーシャルネットワークにおける信頼性モデリング手法の分類とレビュー
- ソーシャルメディアは情報伝達の重要な手段となり，その信頼性確保は社会にとって不可欠である。
- 既存の調査は信頼概念の軽視，または特定のモデルに偏重する傾向が見られる。
- オンラインにおける信頼形成要因を分析し，定量モデリングの課題を明確にすること。
- 心理学における信頼理論とモデルを調査し，オンライン信頼形成に影響する要因を特定した。
- 最新の信頼モデルをアルゴリズムの基礎に基づいて分類し，各モデルの貢献を明確にした。
- 利用可能なデータセット，特徴量，モデリング手法，応用事例をまとめた実装ガイドを提供した。
Link: https://arxiv.org/abs/2603.11054
TinyNav: マイクロコントローラ上でのリアルタイム自律航法のTinyML [cs.RO, cs.CV, cs.LG]目的：マイクロコントローラ上でのリアルタイム自律航法のためのTinyMLシステム
- 低コストロボットへのアクセスを制限する，電力消費の大きいプロセッサへの依存を軽減する必要がある
- マイクロコントローラはリソース効率が良いが，モデルの複雑さに厳しい制約がある
- 制約されたエッジデバイス上で応答性の高い自律制御を実現し，外部コンピューティング資源への依存を減らす
- TinyNavは，ESP32マイクロコントローラ上で動作する，エンドツーエンドのTinyMLシステムである。
- 20フレームのスライディングウィンドウの深度データを用いて，操舵とスロットルを予測する2D畳み込みニューラルネットワークを用いる。
- 23kパラメータのモデルで，30msの推論遅延を達成し，空間認識と障害物回避が確認された。
Link: https://arxiv.org/abs/2603.11071
エッジ支援による効率的な通信を用いたマルチロボット視覚慣性SLAM [cs.RO, cs.CV, cs.MA]目的：マルチロボットSLAMにおける効率的な通信とエッジコンピューティングの統合
- ロボットの自律的な行動範囲拡大には，正確な自己位置推定と環境地図作成が不可欠である。
- ロボットの計算資源や通信帯域の制約が，マルチロボットSLAMの性能向上を妨げる要因となっている。
- 限られた通信帯域下でも，SLAMの精度を維持しつつリアルタイム性を実現すること。
- 提案手法では，ピラミッドIMU予測に基づく光流トラッキングにより計算コストを削減し，リアルタイム性を向上させている。
- ロボット・エッジ・クラウドの階層型アーキテクチャを採用することで，データ伝送量を削減し，帯域幅の制約を克服している。
- EuRoCデータセットによる実験で，提案手法は既存手法と同等以上の位置精度を低負荷で実現することを示した。
Link: https://arxiv.org/abs/2603.11085
V2A-DPO：動画から音声生成のための全方向性嗜好最適化 [cs.SD, cs.MM, eess.AS]目的：動画から音声生成モデルにおける人間の嗜好との整合性向上
- 動画と音声を組み合わせたコンテンツの重要性が増しており，高品質な音声生成が求められている。
- 既存の音声生成モデルは，生成される音声の品質や内容において人間の嗜好と乖離している場合がある。
- 人間の嗜好を直接最適化することで，より自然で高品質な音声生成を実現することを目指す。
- 提案手法V2A-DPOは，人間の嗜好に合致した評価システムAudioScoreを導入し，大規模なペアデータ生成パイプラインを構築した。
- V2A-DPOによって最適化されたFrierenとMMAudioは，DDPOや既存モデルと比較して，ベンチマークデータセット上で優位性を示した。
- 特にMMAudioは，複数の評価指標において最先端の性能を達成し，既存の動画から音声生成モデルを上回った。
Link: https://arxiv.org/abs/2603.11089
音声と映像の感情認識のための時間的配置を考慮したマルチモーダル自己注意ネットワーク [cs.MM, cs.SD, eess.SP]目的：音声と映像の感情認識におけるマルチモーダル特徴量配置の最適化
- 感情認識は，人間とコンピュータ間の自然なコミュニケーションを実現する上で不可欠な技術である。
- 異なるモダリティ間（音声と映像）のフレームレートの不一致が，認識精度を低下させる要因となっている。
- 時間的配置を考慮することで，マルチモーダル特徴量の融合を改善し，感情認識精度を向上させる。
- 提案手法は，音声と映像の特徴量を共有空間で捉え，相互依存関係を効果的に学習する。
- 時間的に配置されたロータリー位置埋め込み（TaRoPE）により，異なるサンプリングレート間の同期を実現している。
- Cross-Temporal Matching（CTM）損失関数を用いることで，時間的に近いペア間の整合性を強化し，より正確な配置を促す。
Link: https://arxiv.org/abs/2603.11095
ロボット操作におけるリアルタイム異常検知のためのロボット条件付き正規化フロー [cs.CV, cs.RO]目的：ロボット操作における異常検知と介入の監視モデル
- ロボットの複雑なタスク遂行能力向上に伴い，信頼性確保が重要課題となっている。
- 模倣学習によるVLAモデルは，動的な環境下や未知の状況で失敗しやすいという課題がある。
- タスクとロボットの状態・物体の軌跡の整合性を監視し，異常をリアルタイムに検知・対処する。
- 提案手法RC-NFは，正規化フロー内でロボットと物体の状態を分離し，教師なし学習が可能である。
- シミュレーション評価用ベンチマークLIBERO-Anomaly-10を用いて，既存手法を上回る性能を実証した。
- 実環境実験では，VLAモデルにプラグアンドプレイで組み込み，100ms以下の低遅延で異常信号を検出可能であることが示された。
Link: https://arxiv.org/abs/2603.11106
Uni-ASR：ノンストリーミングおよびストリーミング自動音声認識のための統一LLMベースアーキテクチャ [cs.SD, cs.CL]目的：ノンストリーミングとストリーミング両方の音声認識能力を統合する統一フレームワーク
- 音声認識は，人間と機械のコミュニケーションを円滑にする上で不可欠な技術である。
- 低遅延が求められるストリーミング環境での高性能な音声認識システムの実現が課題である。
- ストリーミング環境下での音声認識精度向上と低遅延化を両立するシステムを開発すること。
- Uni-ASRは，ノンストリーミングモードで競争力のある性能を達成する。
- Uni-ASRは，多様な遅延制約下でストリーミングシナリオにおいて高い有効性を示す。
- 文脈を考慮した学習パラダイムと共同設計されたフォールバックデコーディング戦略により，ストリーミング認識精度が向上する。
Link: https://arxiv.org/abs/2603.11123
注意が集まり，MLPが構成する：VideoViTにおける行動と結果の関係性の因果分析 [cs.LG, cs.AI, cs.CV]目的：ビデオモデルにおける行動の結果表現のメカニズム解明
- AIの信頼性向上には，モデル内部の処理過程の理解が不可欠である。
- モデルが最終的な出力に影響を与えない隠れた意味情報をどのように表現しているかが課題である。
- ビデオモデルにおける行動の結果表現回路の役割を明らかにすること。
- Attentionヘッドが低レベル情報を集約し，MLPブロックが概念を構成する分担構造が明らかになった。
- 成功/失敗の信号は，層5から11にかけて段階的に増幅されることが示された。
- この分散冗長な回路は，単純なアブレーションに対するロバスト性を示す。
Link: https://arxiv.org/abs/2603.11142
博物館ビデオのためのカタログに基づくマルチモーダルアトリビューション：リソースと規制の制約下 [cs.MM, cs.CV, cs.LG]目的：博物館ビデオのカタログスタイルメタデータキュレーションの自動化
- 博物館の視覚資料は増加の一途をたどっており，その有効活用が重要である。
- 既存のアーカイブ作業は手作業に依存しており，時間と労力がかかる。
- リソースや規制の制約下で，視覚資料の検索性を向上させる。
- 提案手法は，ビデオ内の美術作品の要約，カタログスタイルの説明とジャンルラベルの生成，そしてカタログとの類似性に基づくタイトルと作者の特定を行う。
- 初期段階の実験では，本フレームワークが視覚資料アーカイブの検索性を向上させることが示された。
- リソース制約，データ主権，そして新たな規制を尊重する，応用志向の機械学習のテンプレートとなりうる。
Link: https://arxiv.org/abs/2603.11147
バイオマーカーによる監督学習を用いたハンチントン病の自動音声認識 [cs.LG, cs.CL, cs.SD]目的：ハンチントン病の自動音声認識の精度向上
- 音声認識技術は，コミュニケーション支援や医療診断において重要である。
- ハンチントン病の音声は，発話タイミングの不規則性や構音障害により，既存の音声認識モデルでは認識が困難である。
- バイオマーカーを活用し，ハンチントン病の音声認識における誤りを軽減し，認識精度を向上させる。
- ハンチントン病患者の音声データを用いた実験により，Parakeet-TDTが他のモデルよりも優れた性能を示した。
- バイオマーカーに基づいた適応学習により，単語誤り率を6.99%から4.95%に低減することができた。
- バイオマーカーによる補助的な監督学習は，単に単語誤り率を改善するのではなく，重症度に応じてエラーパターンを変化させた。
Link: https://arxiv.org/abs/2603.11168
幾何形状に基づいた点変換器 (GGPT) [cs.CV]目的：RGB画像からの高密度点マップ予測による3D再構成の精度向上
- 3D再構成は，ロボット工学やコンピュータビジョンなど，多様な分野で不可欠な技術である。
- 従来のニューラルネットワークは，幾何学的整合性の欠如や微細な精度低下といった課題を抱えていた。
- 本研究では，幾何学的制約を取り入れ，高精度かつ完全な3D再構成を実現することを目指す。
- 提案手法GGPTは，信頼性の高い幾何学的ガイダンスを導入することで，3D再構成の精度と一貫性を向上させた。
- 最適化されたガイダンスエンコーディングを用いた点変換器により，部分的な幾何学的情報に基づいて点マップを洗練させる。
- ScanNet++とVGGT予測のみで学習されたGGPTは，様々なアーキテクチャとデータセットで優れた汎化性能を示した。
Link: https://arxiv.org/abs/2603.11174
段階的視覚言語相互作用と証拠学習に基づく乳房腫瘍セグメンテーション [cs.CV]目的：乳房腫瘍のセグメンテーション技術
- 乳癌は女性の死亡原因として世界的に最も多い病気のひとつであり，早期発見と正確な診断が重要である。
- 従来の深層学習によるセグメンテーション手法では，癌と正常組織のコントラストが低い，境界が不明瞭などの課題があり，正確な腫瘍輪郭の特定が難しい。
- テキストプロンプトを活用し，視覚情報とテキスト情報を段階的に相互作用させることで，コントラストの低い領域における腫瘍領域の特定を支援し，セグメンテーションの精度向上を目指す。
- 提案手法TextBCSは，公開データセットにおいて他のセグメンテーションネットワークと比較して，最も優れた乳房腫瘍セグメンテーション性能を示した。
- 段階的な視覚言語相互作用により，ダウンサンプリングの各段階で視覚特徴とテキスト特徴間の情報伝達を促進し，テキストプロンプトの利点を活かした。
- 証拠学習により，セグメンテーションの不確実性を定量化し，変分ディリクレ分布を用いて境界の不確実性に対処した。
Link: https://arxiv.org/abs/2603.11206
非線形マルチアダプターを用いたVision-Languageモデルによる単純な効率的増分学習フレームワーク [cs.CV, cs.AI]目的：増分学習における効率向上
- 機械学習において，継続的な学習能力は重要であり，既存の知識を保持しつつ新たなタスクに対応できる能力が求められる。
- 従来の増分学習法は，学習効率の低さ，過去データの保存に依存する問題，そして強力な基盤モデルの必要性といった課題を抱えている。
- 本研究は，Vision-Languageモデルと非線形アダプターを用いることで，これらの課題を克服し，効率的な増分学習を実現することを目指す。
- SimEは，TinyImageNetにおいて従来の学習手法を9.6%上回り，CIFAR-100においては他のCLIPベース手法を5.3%上回る優れた性能を示した。
- アダプターの接続数とモデルの増分学習能力の間には非線形な相関関係が存在することが明らかになった。Transformerブロック間での接続増加は性能向上に寄与する一方，Transformerブロック内での接続増加は必ずしも性能向上に繋がらない。
- CLIPのゼロショット学習能力を最大限に活用するため，より大規模なデータセット(LAION2B)や強力なアーキテクチャ(ViT-L/14)で学習したCLIPモデルをSimEのエンコーダーに置き換えることを提案する。
Link: https://arxiv.org/abs/2603.11211
Senna-2：VLMとエンドツーエンド運転ポリシーの一貫性確保による一貫した意思決定と計画 [cs.CV]目的：VLMとエンドツーエンド運転ポリシーの一貫性
- 自動運転技術の発展は，安全性向上と交通効率化に不可欠である。
- VLMとエンドツーエンド運転ポリシー間の不整合により，意図した運転行動と実際の軌道が乖離する問題がある。
- VLMの意思決定とエンドツーエンドの低レベル計画を整合させ，安全かつ効率的な運転を実現することを目指す。
- Senna-2は，VLMとエンドツーエンド運転ポリシー間の二重システムの一貫性を高めることで，意思決定と計画の整合性を実現した。
- オープンループ実験ではFDEが5.7%削減され，クローズドループ実験ではAF-CRが30.6%削減され，運転安全性が大幅に向上した。
- 二重システムの一貫性に関するF1スコアは19.3%改善された。
Link: https://arxiv.org/abs/2603.11219
マトリョーシカ大規模マルチモーダルモデルのための周波数変調視覚復元 [cs.CV, cs.CL]目的：視覚トークン削減下における大規模マルチモーダルモデルの推論能力向上
- マルチモーダルモデルは，画像とテキストを理解し活用することで，より高度なAIシステムを実現する上で重要である。
- 大規模マルチモーダルモデルは，計算資源の制約から視覚トークンの削減が求められるが，視覚的意味情報の損失が課題となる。
- 本研究は，視覚的意味情報の損失を抑制しつつ，計算コストを削減できる視覚復元戦略を提案し，その有効性を検証する。
- 提案手法FMVRは，視覚表現を周波数成分に分解し，軽量な学習パラメータを用いて変調することで，視覚的意味情報を効果的に復元する。
- FMVRをMatryoshka表現学習と組み合わせることで，推論時に視覚トークン数を柔軟に調整しながら，高い性能を維持することが可能となった。
- 実験結果から，FMVR-LLaVAはLLaVA-1.5-7BのFLOPsを89%削減しつつ，元の精度をほぼ維持できることが示された。
Link: https://arxiv.org/abs/2603.11220
スロットが競合するとき：物体中心学習におけるスロットマージ [cs.CV]目的：物体中心学習におけるスロットマージの導入
- 画像認識において，画像内の物体を独立して捉えることは重要である。
- 既存手法では，スロット数が固定されており，同一物体に複数のスロットが対応してしまう場合がある。
- 重複するスロットをマージすることで，物体表現の効率化と認識精度向上を目指す。
- 提案手法では，Soft-IoUを用いてスロットの重複度を定量化し，重複するペアを重心更新により統合する。
- 学習モジュールの追加は不要であり，既存のDINOSAURパイプラインに容易に組み込むことができる。
- 物体分割やオブジェクト検出のベンチマークにおいて，他の適応型手法を上回る性能を達成した。
Link: https://arxiv.org/abs/2603.11246
モバイルレーザースキャンとセマンティック3D道路空間モデルを用いた物体表面の放射特性フィンガープリンティング [cs.CV]目的：物体表面の放射特性フィンガープリンティング
- 都市のデジタルツインは，都市管理や自動運転などの分野で重要性が増している。
- 既存のセマンティック3D都市モデルは，材料情報が十分に活用されていない。
- LiDARデータの材料特性を分析し，都市モデルの応用範囲を広げる。
- Audi A2D2データセットの3.124億個のLiDARビームを6368個の物体に自動的に関連付けた。
- 抽出された放射特性フィンガープリンティングから，クラスに共通する材料パターンが明らかになった。
- セマンティックモデル，実装，データベース3DSensorDBを公開している。
Link: https://arxiv.org/abs/2603.11252
経胸部超音波における人体メッシュと骨格復元を用いた自動初期プローブ配置への取り組み [cs.CV]目的：経胸部超音波における自動初期プローブ配置手法
- 心臓・肺超音波は熟練が必要であり，遠隔超音波では特に配置が困難であるため，自動化が望まれる。
- 患者固有の肋間音響窓の特定やプローブ位置・角度の調整が難しく，熟練者による支援が不可欠である。
- RGB画像のみを用いて，患者固有の形状と骨格に基づいて初期プローブ配置を自動的にガイドすることを目指す。
- 提案手法では，MRヘッドマウントディスプレイで取得したRGB画像から患者の体表面と骨格モデルを推定する。
- 骨格のランドマークを利用して肋間領域を推定し，再構成された体表面にプローブ配置のガイダンスを投影する。
- 予備実験の結果，提案手法による初期配置は解剖学的変動範囲内で一貫性があることが示唆された。
Link: https://arxiv.org/abs/2603.11257
InstantHDR：HDR 3D再構成のための単一前方ガウススプラッティング [cs.CV]目的：HDRシーンの3D再構成
- 近年，フォトリアリスティックな画像生成が求められ，HDRコンテンツの重要性が増している。
- 従来のHDRパイプラインは，カメラ姿勢や初期化に依存し，最適化に時間がかかる。
- 未知のカメラ姿勢から，迅速かつ高品質なHDRシーン再構成を実現すること。
- InstantHDRは，単一のフォワードパスで，未較正の多曝光LDR画像群から3D HDRシーンを再構成する。
- ジオメトリ誘導の外観モデリングと，汎用的なシーン固有のトーンマッピングメタネットワークを設計した。
- 最適化ベースの手法と同等の性能を，約700倍～20倍の高速化で達成した。
Link: https://arxiv.org/abs/2603.11298
野生環境におけるロバストな多Modal AU検出のための階層的な粒度アラインメントと状態空間モデリング [cs.HC, cs.CV]目的：野生環境におけるロバストなAU検出手法
- 表情認識は，人間と機械の自然なコミュニケーションに不可欠であり，幅広い応用が期待される。
- 既存手法は，複雑な環境やポーズ，音声と視覚の依存関係により，精度が課題となっている。
- 微細な意味変化や長時間の文脈を捉え，より高精度なAU検出を実現することを目指す。
- DINOv2やWavLMといった強力な基盤モデルを活用し，視覚と音声の高品質な表現を獲得した。
- 階層的な粒度アラインメントモジュールにより，顔のグローバルな意味論と局所的なアクティブパッチを動的にアラインメントした。
- Vision-Mambaアーキテクチャを導入し，従来の畳み込みネットワークの受容野の制限を克服，長距離の動的変化を効率的に捉えた。
Link: https://arxiv.org/abs/2603.11306
UniCompress：統一された視覚言語理解と生成のためのトークン圧縮 [cs.CV]目的：視覚言語理解と生成におけるトークン数を削減すること
- 視覚と言語の統合は，AIの多角的理解と応用を可能にする重要な研究分野である。
- 既存モデルでは，多数の視覚トークンが必要となり，計算資源やメモリ消費量が課題となっていた。
- 本研究は，視覚トークン数を削減し，効率的なモデル構築を目指す。
- UniCompressは，視覚トークン数を最大4分の1に削減することに成功した。
- 推論速度と学習コストを大幅に改善し，性能劣化は最小限に抑えられた。
- これにより，リソース制約のある環境下での実用的なマルチモーダル応用が期待される。
Link: https://arxiv.org/abs/2603.11320
UNet-AF：エイリアシングフリーな画像復元用UNet [cs.CV]目的：画像復元のためのUNetアーキテクチャの改善
- 画像復元は，画像処理において重要なタスクであり，様々な応用分野で利用されている。
- 従来のUNetアーキテクチャは，エイリアシングの影響を受けやすく，翻訳等変性が損なわれる場合がある。
- 本研究は，エイリアシングの影響を受けにくい，翻訳等変なUNetアーキテクチャを構築することを目的とする。
- 提案手法UNet-AFは，画像復元タスクにおいて，既存の非等変モデルと同等以上の性能を発揮する。
- UNet-AFは，測定された等変性において大幅な改善を示す。
- 詳細な消去実験により，各変更が等変性に不可欠であることが確認された。
Link: https://arxiv.org/abs/2603.11323
信頼性の高い選択的生成に向けた試み：超低磁場から高磁場MRI合成のための信頼度誘導拡散 [cs.CV]目的：低磁場から高磁場へのMRI合成における信頼性向上
- 高磁場MRIは高画質だが，高価でアクセスが限られる。低磁場MRIの活用が重要。
- 拡散モデルは画質向上に貢献するが，詳細な構造と正確性の両立が課題。
- 解剖学的に曖昧な領域での偽構造物生成を抑制し，臨床的信頼性を高める。
- 提案手法ReDiffは，サンプリングと後処理の段階で合成のロバスト性を向上。
- 信頼度誘導サンプリングにより，不安定な応答を抑制し，不確実性を考慮した複数候補選択により信頼性を強化。
- マルチセンターMRIデータセットでの実験により，構造的忠実度とアーチファクトの低減が確認された。
Link: https://arxiv.org/abs/2603.11325
アシスト学習：マルチエージェント強化学習による物理シミュレーションに基づいた人間同士の協調制御 [cs.CV, cs.GR, cs.RO]目的：人間同士の協調運動の模倣
- 人型ロボットは，日々のサービスや介護の分野において変革をもたらす可能性を秘めている。
- 従来の技術では，人間同士の力や接触を伴う継続的な相互作用を再現することが困難であった。
- 人間同士の助け合い運動を学習し，人型ロボットの協調制御を実現すること。
- 本研究では，マルチエージェント強化学習を用いて，助ける側と助けられる側の両方の行動を同時に学習するアプローチを提案した。
- 単独の人間運動追跡コントローラーから得られた事前知識を活用することで，学習の効率化に成功した。
- 動的な参照リターゲットと接触促進報酬を用いることで，物理的に妥当な支援動作の実現に貢献した。
Link: https://arxiv.org/abs/2603.11346
公平性考慮型解釈可能なリスクゲーティングによる性差に配慮した音声生体認証 [cs.SD, eess.AS]目的：音声生体認証における性差に着目した公平性の向上
- 音声生体認証はセキュリティにおいて重要な役割を担うが，性別による性能差が課題となっている。
- 既存手法では，性別と個人を識別する特徴が混同され，公平性に欠ける結果となる場合がある。
- 性別情報の利用を抑制し，個人識別性能を維持しつつ，公平性を高めることを目指す。
- 提案手法Fair-Gateは，リスク外挿により性別ごとの識別リスクのばらつきを抑制する。
- 中間特徴量を個人識別パスと性別パスに分岐させるローカルな補完ゲートを導入し，解釈可能性を確保する。
- VoxCeleb1を用いた実験で，Fair-Gateが厳しい評価条件下でより公平なASV性能を実現することを示した。
Link: https://arxiv.org/abs/2603.11360
低リソースSwahili音声認識のための継続的事前学習：最小限のラベル付きデータで最先端の性能を達成 [cs.SD, cs.LG, eess.AS]目的：低リソース言語Swahiliの音声認識性能向上
- 音声認識は，人間と機械の自然な対話を可能にする重要な技術である。
- リソースの少ない言語では，ラベル付きデータの不足が課題となっている。
- 少ないラベル付きデータでも高性能な音声認識を実現する手法を開発する。
- wav2vec2-bert-2.0モデルをSwahili音声認識に適用する継続的事前学習を検討した。
- 20,000件のラベル付きデータを用いて，Common Voice Swahiliで3.24%のWERを達成した。
- 既存の最高性能システムと比較して，61%の相対的な改善が見られた。
Link: https://arxiv.org/abs/2603.11378
DriveXQA：悪天候下における運転シーン理解のためのクロスモーダル視覚質問応答 [cs.CV]目的：悪天候下における運転シーン理解のためのクロスモーダル視覚質問応答データセットとアーキテクチャ
- 自動運転の安全性を高めるには，周囲状況を正確に把握することが不可欠である。
- 複数のセンサーからの情報を統合的に活用する手法が不足している。
- 多様なセンサー情報を効果的に利用し，悪天候下での認識精度向上を目指す。
- 本研究では，運転シーン理解のためのクロスモーダルVQAデータセットDriveXQAを構築した。
- MVX-LLMという，情報冗長性を軽減するDual Cross-Attention (DCA) プロジェクターを備えた新しいアーキテクチャを提案した。
- DCAは，特に霧天候下において，ベースラインと比較して性能が向上した(GPTScore: 53.5 vs. 25.1)。
Link: https://arxiv.org/abs/2603.11380
フリンジ投影プロファイル法における全局位相復元による高精度6自由度姿勢推定による3Dマッピング [cs.CV]目的：3Dマッピングのための高精度6自由度姿勢推定手法
- 微細な3D再構成が可能だが，大規模マッピングへの応用には姿勢推定の精度向上が不可欠である。
- 従来のICP法は大規模点群で効率が悪く，ダウンサンプリング等により詳細が失われる場合がある。
- 固定型グローバルプロジェクタを用いて，特徴抽出に依存しない高精度な姿勢推定を実現する。
- 提案手法は，固定型グローバルプロジェクタの位相情報とPnP様式の再投影誤差を用いて，高精度な姿勢推定を可能にする。
- 座標系を保存したサブサンプリング下でもサンプリング不変性を示し，サブサンプリングに対する耐性も確認された。
- 均質表面や低オーバーラップな視点に対してもロバストであり，ICP法による軌跡の誤差累積を低減できる。
Link: https://arxiv.org/abs/2603.11389
データ的不均衡の活用：フィンズラー世界における多様体学習 [cs.LG, cs.CV]目的：多様体学習による高次元データの低次元埋め込み
- データ分析や可視化の根幹をなす技術であり，複雑なデータ構造の理解に不可欠である。
- 従来の多様体学習は対称な幾何学に依存し，非対称な情報やデータの不均一性を無視する傾向がある。
- フィンズラー幾何学を用いることで，データ固有の非対称性を捉え，より効果的な埋め込みを実現することを目指す。
- 提案手法は，従来の対称な手法では失われていた密度階層などの情報を明らかにした。
- 合成データおよび大規模な実データにおいて，従来の埋め込み手法よりも質の高い埋め込み結果が得られた。
- フィンズラー幾何学への移行により，非対称な埋め込み手法の適用範囲が拡大した。
Link: https://arxiv.org/abs/2603.11396
トークンレベル推測デコーディングによる音声-言語モデルを用いたエッジクラウド協調音声感情キャプション生成 [cs.SD]目的：音声感情キャプション生成の効率性とプライバシー保護
- 音声感情認識は，人間と機械のより自然な対話を実現する上で重要である。
- リソース制約のあるエッジデバイスでの計算負荷と，音声データのプライバシーリスクが存在する。
- エッジとクラウドの協調により，効率性と精度を両立した音声感情キャプション生成を目指す。
- 提案手法は，不確実性に基づいた推測デコーディングにより，エッジデバイスでの負担を軽減し，クラウドへのデータ転送量を削減する。
- MER2024ベンチマークにおいて，BLEUスコアで最大62.7%の改善が確認された。
- 推測デコーディングにより，エッジのみのモデルと比較して，1.4倍の低遅延と8.5倍のトークン処理速度を実現した。
Link: https://arxiv.org/abs/2603.11397
DeepHistoViT：病理組織学的癌分類のための解釈可能なVision Transformerフレームワーク [cs.CV]目的：病理組織学的画像の自動分類
- 癌の診断において，細胞レベルでの組織形態の評価は不可欠であり，病理組織学が金標準である。
- 熟練した病理医による手動検査は，時間と労力を要し，観察者間のばらつきが生じやすい。
- 信頼性の高いコンピュータ支援診断ツールを開発し，病理医の診断を支援することを目的とする。
- 提案手法DeepHistoViTは，肺癌・結腸癌データセットにおいて，分類精度，適合率，再現率，F1スコア，ROC-AUCで100%の性能を達成した。
- 急性リンパ性白血病データセットにおいても，それぞれ99.85%，99.84%，99.86%，99.85%，99.99%の高い性能を示した。
- 本研究は，Transformerアーキテクチャが病理組織学的画像解析に有効であり，DeepHistoViTが解釈可能な診断支援ツールとして期待できることを示唆する。
Link: https://arxiv.org/abs/2603.11403
進化戦略に基づくリアルタイムレンダリングによる手術器具追跡 [cs.RO, cs.CV]目的：手術器具の追跡手法
- ロボット支援下低侵襲手術の精度向上に不可欠であり，安全な手術操作を支援する。
- 手術器具の遮蔽や特殊な関節構造により，従来の画像処理による追跡は困難である。
- レンダリングと進化戦略を組み合わせ，高精度かつ高速な手術器具追跡を実現する。
- 提案手法は，CMA-ES進化戦略を用いて，手術器具の姿勢と関節構成を同時に推定する。
- バッチレンダリングにより，多数の姿勢候補を効率的に評価し，推論時間を大幅に削減した。
- 合成データおよび実データ実験により，提案手法が既存手法よりも精度と処理速度で優れていることが示された。
Link: https://arxiv.org/abs/2603.11404
視覚だけでは方向を捉えられない：認知に基づいたベンチマークがMLLMの体系的な方向認識の失敗を明らかにする [cs.CV]目的：物体の方角を識別・回転・比較する人間の認知発達段階に着目した，物体の方角認識を主要な評価対象とするベンチマーク
- 視覚と言語を組み合わせたAIの発展は，ロボット操作や3D空間の再構築，人間とのインタラクションに不可欠である。
- 既存のベンチマークは，方角と位置，または一般的なシーン理解を混同しており，物体の方角認識能力を正確に評価できていない。
- 既存のベンチマークに内在する問題を解消し，物体の方角認識能力を明確に評価するための新たなベンチマークを開発する。
- 最新の24モデルの評価の結果，一般的な空間ベンチマークで高成績を収めるモデルでも，物体中心の方角認識タスクではほぼランダムな性能しか示さなかった。
- 粗視的な判断では最高で54.2％，詳細な判断では45.0％の正答率にとどまり，特に複合的な回転や物体間の参照フレームの変化で失敗が目立った。
- 粗視的な判断と詳細な判断の大きな乖離は，幾何学的推論ではなく，カテゴリー的なヒューリスティックに依存していることを示唆する。
Link: https://arxiv.org/abs/2603.11410
ゼロショットクロスシティ一般化：エンドツーエンド自律運転における自己教師あり表現と教師あり表現 [cs.CL, cond-mat.mtrl-sci, cs.CL, cs.CV, cs.LG]目的：エンドツーエンド自律運転におけるクロスシティ一般化能力の評価
- 自律運転システムの普及には，多様な環境への適応能力が不可欠である。
- 既存モデルは，都市固有の特徴に依存し，未知の都市への汎化性能が課題である。
- 自己教師あり学習が，都市間での汎化性能向上に貢献するか検証する。
- 教師あり表現を用いたモデルは，異なる都市間での転移において大きな性能低下を示す。
- 自己教師あり表現を用いた事前学習は，この性能低下を緩和する効果が認められる。
- 自己教師あり事前学習は，閉ループ評価においてPDMSを最大4%改善する。
Link: https://arxiv.org/abs/2603.11417
ShotVerse：テキスト駆動型マルチショット動画作成のための映画的カメラ制御の進歩 [cs.CV]目的：テキストによるマルチショット動画作成における映画的なカメラ制御の改善
- 動画生成技術の発展は，映画制作の民主化に貢献している。
- テキスト指示の曖昧さや，手動による軌道設定の負担が，動画品質のボトルネックとなっている。
- テキストから高品質なカメラ軌道を自動生成し，マルチショット動画の制作効率を向上させる。
- ShotVerseは，テキストから映画的なカメラ軌道を生成し，それを動画に変換する「Plan-then-Control」フレームワークである。
- 自動化されたカメラキャリブレーションパイプラインにより，複数のシングルショット軌道を統合し，高品質なデータセットShotVerse-Benchを構築した。
- 実験により，ShotVerseがテキスト制御の信頼性と手動プロットの労力を両立し，優れた映像美と一貫性を実現することが示された。
Link: https://arxiv.org/abs/2603.11421
単一サンプルを超えて：ビデオ理解のための信頼性の高い複数サンプル蒸留 [cs.CV]目的：ビデオ理解のための信頼性の高い蒸留手法
- 大規模なビジョン-言語モデルの性能向上は，様々な応用において重要である。
- 従来の蒸留は教師データの応答のばらつきが大きく，安定性に課題があった。
- 教師データのサンプリングのばらつきを考慮し，蒸留の安定性を高めることを目指す。
- 提案手法R-MSDは，タスク適応型教師プールを活用し，多様な応答を考慮することで，蒸留のロバスト性を向上させている。
- 品質を考慮した信号マッチングと敵対的蒸留目的関数により，教師データのノイズを効果的に抑制し，知識伝達を最大化している。
- VideoMME，Video-MMMU，MathVerseなどのベンチマークにおいて，既存手法を大きく上回る性能を達成している。
Link: https://arxiv.org/abs/2603.11423
レーンにとどまれ：重複抑制損失を用いた役割特定クエリによる高密度動画キャプション生成 [cs.DC, cs.OS, cs.CV]目的：高密度動画キャプション生成における役割特定クエリの有効性
- 動画内容理解と自然言語処理を融合し，動画の高度な解析を可能にする重要な分野である。
- 既存手法では，動画の局所化とキャプション生成が共有クエリに依存し，タスク間の干渉や時間的冗長性が課題となっていた。
- 役割特定クエリと抑制損失を用いて，局所化とキャプション生成の干渉を解消し，より正確な局所化と表現力豊かなキャプション生成を目指す。
- 役割特定クエリにより，局所化とキャプション生成を独立させ，それぞれの役割を特化的に学習することで，マルチタスク干渉を軽減できる。
- 時間的な重複を抑制するメカニズムを導入することで，局所化の精度向上に貢献し，冗長なイベント領域の学習を防ぐ。
- YouCook2とActivityNet Captionsの主要なベンチマークにおいて，提案手法の有効性が実験的に確認された。
Link: https://arxiv.org/abs/2603.11439
リアルタイム物体検出：シングルプロンプトセグメンテーションからマルチクラス検出へ [cs.CV]目的：リアルタイムにおけるマルチクラス物体検出手法
- 近年のビジョン言語モデルの進展により，自然言語クエリを用いた物体検出・セグメンテーションが可能になった。
- 既存手法は，各クラスごとにバックボーンネットワークを再計算する必要があり，計算コストが高い。
- バックボーンネットワークの計算を共有し，計算コストを削減することで，リアルタイム処理を実現する。
- DARTは，SAM3を訓練なしでマルチクラス検出器に変換し，バックボーン計算をクラス間で共有する。
- その結果，3クラスで5.6倍，80クラスで25倍の高速化を達成し，モデルの重みを変更する必要はない。
- COCO val2017データセットにおいて，DARTは55.8 APを15.8 FPSで実現し，既存のオープンボキャブラリ検出器を上回る性能を示した。
Link: https://arxiv.org/abs/2603.11441
GPT4o-Receipt：AI生成文書の法科学に関するデータセットと人間による研究 [cs.AI, cs.CV]目的：AI生成の金融文書の検出能力に関する人間と機械の比較
- AI技術の発展に伴い，AI生成文書の真偽判定の重要性が高まっている。
- AI生成文書は巧妙化しており，視覚的な判断だけでは真偽を見抜くことが困難になりつつある。
- AI生成文書の検出における人間とLLMの能力差を明らかにし，より効果的な検出手法を模索する。
- 人間はAI生成文書の視覚的な特徴を認識する能力は高いものの，実際の検出精度はLLMに劣ることが示された。
- この矛盾は，AI生成文書に内在する計算ミスが，人間には認識できないがLLMには容易に検出できることが原因である。
- AI文書の法科学研究を促進するため，データセット，評価フレームワーク，および研究結果を公開する。
Link: https://arxiv.org/abs/2603.11442
注目度に従う：検索拡張型高密度動画キャプション生成のための教師あり注目度 [cs.CV]目的：高密度動画キャプション生成における正確な時間的セグメンテーション
- 動画キャプション生成は，動画の内容を理解し，自然言語で記述する上で重要である。
- 従来の検索拡張型手法は，真のイベント境界とのずれが生じやすいという課題がある。
- 本研究は，イベント境界に合致した正確な時間的セグメンテーションを実現することを目指す。
- 提案手法STaRCは，動画の注目度を教師ありで学習することで時間的セグメンテーションの精度を向上させる。
- 注目度スコアを検索とキャプション生成の両方に活用することで，より自然で文脈に沿ったキャプションを生成する。
- YouCook2およびViTTベンチマークにおいて，STaRCは最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.11460
段階適応型信頼性モデリングによる連続的価感情動推定 [cs.MM, cs.AI, cs.SD]目的：連続的価感情動推定における信頼性モデリング
- 感情認識は，人間とコンピュータの自然な対話を実現する上で不可欠な技術である。
- 音声と視覚信号の信頼性が変動し，相互作用に依存した変化が生じやすい。
- 相互作用の段階に応じた信頼性を考慮し，より安定した感情推定を目指す。
- 提案手法SAGEは，段階に応じた信頼性を明示的に推定・調整するフレームワークである。
- SAGEは，信頼性を考慮した融合メカニズムにより，各モダリティの情報を動的に再調整する。
- Aff-Wild2ベンチマークでの実験により，既存手法と比較して高い相関関係が確認された。
Link: https://arxiv.org/abs/2603.11468
ビデオLLMにおける誘導された忠実性と事実性の幻覚の診断ベンチマーク：INFACT [cs.RO, cs.CV, cs.AI]目的：ビデオLLMの幻覚（忠実性，事実性）を診断するためのベンチマーク
- ビデオLLMの発展は目覚ましいが，幻覚は信頼性を損なう重要な課題である。
- 既存のベンチマークは事実性の幻覚の網羅性が低く，クリーンな環境での評価が中心である。
- 忠実性と事実性の幻覚を詳細に評価し，様々な劣化条件下での堅牢性を検証する。
- INFACTは，忠実性と事実性に関する9,800件のQAインスタンスを含む診断ベンチマークである。
- ベースラインの精度は，劣化条件下での信頼性と必ずしも相関しないことが判明した。
- 特にオープンソースモデルは，時系列に関する質問において低いTemporal Sensitivity Scoreを示した。
Link: https://arxiv.org/abs/2603.11481
AnimeScore：アニメ風音声スタイル評価のための嗜好に基づくデータセットとフレームワーク [cs.SD, cs.CL, eess.AS]目的：アニメ風音声スタイルの自動評価のための嗜好に基づくフレームワーク
- 音声合成技術の発展に伴い，より自然な音声だけでなく，特定のスタイルを模倣する技術が求められている。
- アニメ風音声の評価は主観的であり，客観的な評価指標が存在しないため，高品質な音声合成が困難である。
- アニメ風音声の評価における主観性の問題を解決し，客観的かつ信頼性の高い評価指標を確立すること。
- AnimeScoreは，187名の評価者による15,000件のペアワイズランキングデータを用いて構築された。
- 分析の結果，アニメ風音声は，共鳴の制御，プロソディの連続性，明確な発音によって特徴づけられることが示された。
- SSLベースのランキングモデルは最大90.8%のAUCを達成し，生成音声モデルの嗜好に基づく最適化のための実用的な指標となる可能性が示された。
Link: https://arxiv.org/abs/2603.11482
SPEGC：意味的プロンプトによるグラフクラスタリングを用いた継続的なテスト時適応による医用画像セグメンテーション [cs.CV, cs.AI]目的：医用画像セグメンテーションにおける継続的なテスト時適応
- 医療現場での画像診断支援において，精度の高いセグメンテーションは不可欠である。
- 学習データとテストデータ間のドメインギャップが，モデルの性能を著しく低下させる。
- ドメインギャップに頑健な適応手法を開発し，実臨床での信頼性を向上させる。
- 提案手法SPEGCは，意味的プロンプトによる特徴強化とグラフクラスタリングを組み合わせることで，ドメインシフトへの耐性を高める。
- グラフクラスタリングソルバーは，類似度行列を洗練し，高次の構造表現を獲得することで，より安定した適応を可能にする。
- 複数の医用画像セグメンテーションベンチマークにおいて，最先端のCTTA手法と比較して優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.11492
OrthoEraser：概念消去のための結合ニューロン直交投影 [cs.CV, cs.AI, cs.CY]目的：テキスト画像生成モデルにおける有害概念の消去
- テキスト画像生成モデルの安全性確保は重要であり，悪意ある誘導に対する対策が求められる。
- 既存の概念消去法は，不要な属性にも影響を与え，画像品質を低下させる問題がある。
- 本研究は，直交投影により有害概念のみを選択的に消去し，安全性を向上させることを目指す。
- OrthoEraserは，疎な自動符号化器を用いて特徴量の分離を行い，高精度な概念消去を実現する。
- 結合ニューロン検出により，影響を受けやすい特徴を特定し，直交化戦略を用いて有害概念と分離する。
- 実験結果から，OrthoEraserは最先端の手法と比較して，消去精度と生成画像の品質を両立していることが示された。
Link: https://arxiv.org/abs/2603.11493
ActiveFreq: インタラクティブセグメンテーションのためのアクティブラーニングと周波数領域解析の統合 [cs.DB, cs.CL, cs.CV]目的：インタラクティブセグメンテーションにおける人間とのインタラクションを最小限に抑えつつ，高品質なラベリングを実現すること
- 医療画像解析において，正確なピクセルレベルのラベリングは重要であり，診断や治療計画に不可欠である。
- 既存手法では，ユーザーからの入力情報を十分に活用できず，特徴抽出が不十分な場合がある。
- 誤ラベリング領域の重要度を評価し，効率的に修正することで，セグメンテーションの質を向上させることを目指す。
- ActiveFreqは，アクティブラーニングと周波数領域解析を統合することで，少ないユーザー操作で高品質なセグメンテーションを実現した。
- ISIC-2017データセットにおいてNoC@90が3.74，OAI-ZIBデータセットにおいてNoC@90が9.27を達成し，既存手法をそれぞれ23.5%と12.8%上回った。
- わずか2回のクリックで，ISIC-2017ではmIoUが85.29%，OAI-ZIBでは75.76%に達し，効率性と精度を両立した。
Link: https://arxiv.org/abs/2603.11498
ナノフォトニックデバイスにおける製造ばらつきを予測する変分対応生成モデルGen-Fab [cs.CV, cs.AI, cs.LG]目的：ナノフォトニックデバイスの製造ばらつき予測における不確実性のモデル化
- ナノフォトニクスは，高性能な光デバイスを実現する基盤技術であり，情報処理速度の向上に不可欠である。
- 製造過程におけるエッチング不足や過剰エッチングにより，デバイス性能が設計値から大きく乖離する問題がある。
- 製造ばらつきを予測し，より現実的なデジタルツインを構築することで，設計の最適化を目指す。
- 提案手法Gen-Fabは，GDS形式の設計図から製造後のSEM画像に類似した多様な予測画像を生成し，ナノスケールでのばらつきを捉える。
- Gen-Fabは，既存のU-NetやモンテカルロドロップアウトU-Net，アンサンブル学習と比較して，予測精度と不確実性モデリングの両方で優れた性能を示した。
- 評価実験では，Gen-FabがIoUスコア89.8%を達成し，他の手法を上回るとともに，実際の製造結果分布との整合性も高かった。
Link: https://arxiv.org/abs/2603.11505
多様体最適ガイダンス：拡散ガイダンスの統一的なリーマン幾何制御の視点 [cs.CV]目的：条件付き拡散におけるガイダンス制御手法の改善
- 拡散モデルは画像生成などで高い性能を示すが，制御方法の改善が課題。
- 従来のCFGは高いガイダンススケールで飽和や構造崩壊を起こしやすい。
- 多様体上の最適制御問題としてガイダンスを再構成し，オフ多様体からのドリフトを修正する。
- 本研究で提案するMOGは，追加学習なしにデータ多様体上でのサンプリングを最適化する。
- MOGは，既存手法と比較して，より高い忠実度と整合性を示すことが実験的に確認された。
- Auto-MOGにより，手動でのハイパーパラメータ調整が不要となり，計算コストもほとんど増加しない。
Link: https://arxiv.org/abs/2603.11509
ペン運びから睡眠状態へ：シグマ対数正規手書き特徴を用いた低回復日の検出 [cs.CL, cs.HC, econ.GN, q-fin.EC, cs.HC, cs.CV]目的：低回復日の検出
- 健康な個人の日々の生理的変動を捉えることは，ウェルビーイングの維持・向上に不可欠である。
- 既存の研究では，手書きが文字認識や疾患分類に焦点が当たり，生理的変動の指標としての活用が十分でない。
- 日常的な手書きデータから，個人の自律神経系の回復状況を非侵襲的に把握することを目指す。
- シグマ対数正規モデルに基づく手書きの特徴量を用いた二値分類により，睡眠関連指標の低い四分位を低回復日として検出した。
- 28日間の実環境調査の結果，PR-AUCはベースラインを上回り，心拍数関連変数で最も高い性能を示した。
- タスクの種類や記録時間に関わらず性能が同程度であったことから，回復関連信号が一般的な運動力学に埋め込まれていることが示唆された。
Link: https://arxiv.org/abs/2603.11512
筆跡を用いた児童・青少年の学年，性別，学業成績の予測：シグマ対数正規モデルの活用 [cs.HC, cs.CV]目的：児童・青少年の学年，性別，学業成績の予測
- 筆跡は，書き方の運動過程を反映する詳細な時間的・運動学的信号を捉えられるため，発達や教育特性の研究に有用である。
- 児童の筆跡分析は，臨床や成人を対象とした研究に比べ，発展途上であり，その可能性が十分に探求されていない。
- 筆跡の運動特性が，児童の学年，性別，学業成績と関連しているかを検証し，筆跡分析の有用性を明らかにすること。
- 筆跡の運動特性には，発達段階や個人差に関連する測定可能な信号が含まれていることが示された。
- 特に，学年予測において高い予測性能が確認された。
- 児童の筆跡は発達とともに，対数正規分布に従う運動組織へと変化していくことが確認された。
Link: https://arxiv.org/abs/2603.11519