arXiv雑要約

画像・音声 - 2026/03/24 公開

視覚的排他攻撃：エージェント計画による自動マルチモーダルレッドチーム [cs.CR, cs.CV, cs.LG]目的：視覚コンテンツの推論を介してのみ損害が発生する，より堅牢な「イメージを基盤とする」脅威の体系的利用
- マルチモーダルモデルの安全性確保は重要である。特に，現実世界のデータに含まれる潜在的なリスクを評価する必要がある。
- 従来のマルチモーダルレッドチームは，脆弱性があり，防御策によって容易に対処されてしまうという課題がある。
- エージェント計画を用いて，既存の手法では対処困難な，推論に依存した脅威に対する脆弱性を明らかにする。
- MM-Planは，Claude 4.5 Sonnetに対して46.3%の攻撃成功率，GPT-5に対して13.8%の攻撃成功率を達成し，既存手法を大幅に上回った。
- この結果は，最先端モデルがエージェントによるマルチモーダル攻撃に対して脆弱であり，安全対策のギャップが存在することを示唆している。
- VE-Safetyは，高リスクな技術的視覚理解の評価における重要な欠落を埋める，人間がキュレーションしたデータセットである。
Link: https://arxiv.org/abs/2603.20198
ロボットは今，あなたの気持ちを理解する：ロボットと具現化されたエージェントにおける共感 [cs.HC, cs.RO, cs.AI, cs.CV]目的：ロボットおよび具現化されたエージェントにおける共感の実現方法
- 人間とロボットの相互作用は，より自然で効果的なコミュニケーションを可能にするため重要である。
- ロボットの共感能力は，人間らしい応答や感情的なつながりを実現する上で課題であった。
- 本研究は，過去の研究から得られた教訓を，ChatGPTのような言語ベースのエージェントに適用することを目指す。
- 人間や動物の行動を模倣することで，ロボットに共感的な行動やモデルが実装されてきた。
- 機械特有のアナロジーを作成することで，共感表現の新たな可能性が探求されている。
- これらの研究成果は，今日の汎用的な言語ベースエージェントの共感能力向上に役立つと考えられる。
Link: https://arxiv.org/abs/2603.20200
安全フィルタ付きテキスト画像生成モデルにおける芸術的人体写真のためのモジュール式プロンプトエンジニアリング手法 FIGURA [cs.MM, cs.CV, cs.CY]目的：芸術的人体写真生成の体系的な手法
- 近年のテキスト画像生成技術の発展は，芸術表現の新たな可能性を開いている。
- 市販のテキスト画像生成モデルの安全フィルタが芸術的な人体表現を過剰に制限している。
- 安全フィルタの制約下で芸術的人体写真生成を可能にする実用的な解決策を提示する。
- 本研究で開発したFIGURAメソッドは，8つの知識ファイルを組み合わせたモジュール式プロンプトエンジニアリングシステムである。
- 安全フィルタは，身体の描写よりも欠如の描写（服がないという記述）に強く反応することが判明した（黄金律）。
- 画家への言及は，美的ガイドラインと安全フィルタの動作変更の両方の役割を果たすことが示された。
Link: https://arxiv.org/abs/2603.20201
Rheos：階層型3Dシーングラフにおける連続的な運動ダイナミクスのモデル化 [cs.RO, cs.CV]目的：階層型3Dシーングラフにおける連続的な運動ダイナミクスのモデル
- 3Dシーングラフは環境の幾何学的・意味的構造を表現するが，運動の扱いは限定的である。
- 従来のダイナミクスモデルは，セマンティックな情報を欠き，スケールアップが難しい離散的なグリッドに依存する。
- Rheosは，連続的な運動モデルを3Dシーングラフに組み込み，ナビゲーション性能を向上させることを目指す。
- Rheosは，不確実性を明示的に表現する半ラップガウス混合モデルを使用することで，離散的なベースラインよりも優れた性能を示す。
- リザバーサンプリングとベイズ情報量規準(BIC)を用いることで，モデル更新の計算コストを削減し，オンライン動作を可能にしている。
- シミュレーション環境において，Rheosは異なる空間解像度で一貫して良好な結果が得られた。
Link: https://arxiv.org/abs/2603.20239
LL-SDR：離散表現による低遅延音声強調 [cs.SD, eess.AS]目的：離散表現を活用した低遅延音声強調手法
- 音声強調は，通信や認識の精度向上に不可欠であり，その需要は高い。
- 従来の音声強調は計算コストが高く，リアルタイム処理が困難な場合がある。
- 本研究は，低遅延かつ高精度な音声強調を実現することを目指す。
- LL-SDRは，連続表現を基盤とする既存手法を上回る性能を示す。
- 提案手法は，自己回帰的なトークンベース手法と同等の性能を，低遅延で実現する。
- 分散順位残差ベクトル量子化器(VO-RVQ)により，音声とノイズの分離が改善される。
Link: https://arxiv.org/abs/2603.20242
Abjad-Kids：初等教育のためのアラビア語音声分類データセット [cs.CL, cs.HC, cs.LG, cs.SD, eess.AS]目的：初等教育向けアラビア語音声分類のためのデータセット
- 近年，子供向け音声AI教育アプリの需要が高まっており，音声認識技術の重要性が増している。
- 特にアラビア語のようなリソースが少ない言語においては，公開データセットの不足が課題となっている。
- 本研究は，アラビア語の子供音声認識のデータ不足を解消し，教育分野への応用を促進することを目的とする。
- Abjad-Kidsは，3歳から12歳までの子供たちの音声サンプル46397件を含むデータセットである。
- 提案手法では，CNN-LSTMアーキテクチャを用いた階層的音声分類を採用し，静的言語ベースのグルーピングが優れた性能を示した。
- データ拡張や正則化を行っても過学習が課題として残るため，追加データの収集が今後の展望である。
Link: https://arxiv.org/abs/2603.20255
前立腺がん生化学的再発予測のための効率的なAI駆動型多断面全スライド画像解析 [cs.CV, cs.AI]目的：前立腺がんの生化学的再発予測における，AI駆動型多断面全スライド画像解析の有効性
- 前立腺がんは男性において頻度の高い悪性腫瘍であり，早期発見と適切な治療が重要である。
- 根治的前立腺全摘除後の生化学的再発予測は，腫瘍の多焦点性により困難である。
- 前立腺全域の腫瘍分布を網羅的に捉え，より正確な再発予測を実現することを目指す。
- 提案されたAIフレームワークは，1年および2年の生化学的再発予測において，既存の臨床的基準を大幅に上回る高い予測性能を示した。
- AIによって算出されたリスクスコアは，前立腺特異抗原（PSA）やグリーソン病理スコアといった従来の臨床指標を上回る，独立した予後因子として検証された。
- パッチおよびスライドの部分サンプリング戦略を用いることで，計算コストを削減しつつ，予測性能と汎化性能を維持できることが示された。
Link: https://arxiv.org/abs/2603.20273
ビジョン言語モデルにおける剪定戦略の理解：ドメインを意識したレイヤー選択を通して [cs.CV, cs.AI]目的：ビジョン言語モデルの剪定戦略に関する理解
- 近年，ビジョン言語モデルの性能向上は目覚ましいが，計算コストが課題となっている。
- モデルの深さは冗長性が高く，どのレイヤーを削除すれば性能劣化を最小限に抑えられるか不明である。
- ドメインを意識したレイヤー選択により，性能劣化を抑制し，モデルを効率化することを目指す。
- 活性化の類似性に基づき，数学と非数学の入力に対する各レイヤーの変換度合いを測定した。
- 剪定率が低い場合，削除するレイヤーの選択が性能に大きく影響するが，徐々に収束する傾向が確認された。
- ドメインを意識したランキング手法は，性能が不安定な段階で最も安定した結果を示し，より大きな剪定率でも既存手法を上回るか同等であった。
Link: https://arxiv.org/abs/2603.20275
予算制約のある顧客を抱える電力市場における資源配分 [cs.GT, cs.SY, eess.SY]目的：予算制約下の顧客を考慮した電力市場における資源配分
- 電力市場の効率的な運用は，経済活動を支える上で不可欠である。
- 顧客の予算制約を厳密に考慮した市場モデルの構築が困難であった。
- 予算制約下での市場均衡を導き，現実的な市場運用を可能にすること。
- 自然な双対上昇アルゴリズムが，予算制約下で一意な競争均衡に収束することが示された。
- 予算制約下の均衡は，対数関数を組み込んだ修正された効用関数を用いた凸型の厚生最大化問題の解と等価であることが示された。
- 修正された効用関数の具体的な構成方法が提示され，二次関数および平方根関数を用いた例で検証された。
Link: https://arxiv.org/abs/2603.20277
ミックス＆マッチ剪定：DNNのグローバル誘導型層別スパース化 [cs.CV, cs.AR, cs.LG]目的：深層ニューラルネットワークの層別スパース化手法
- エッジデバイスでのDNN利用拡大のため，モデル圧縮が不可欠である。
- 単一の剪定戦略では，層やアーキテクチャの違いに対応できない。
- 多様で高品質な剪定設定を効率的に生成し，精度劣化を抑制する。
- ミックス＆マッチ剪定は，既存の剪定シグナルを協調させることで，より信頼性の高い効率的な圧縮モデルを実現する。
- Swin-Tinyにおける精度劣化を，標準的な単一基準剪定と比較して40％削減した。
- アーキテクチャを考慮したスパース化範囲を導出し，多様な戦略を効率的に探索する。
Link: https://arxiv.org/abs/2603.20280
AIエージェントの共謀の脆弱性について [cs.GT, cs.AI]目的：AIエージェントの共謀に関する脆弱性の分析
- AIの進化は市場構造に影響を与え，競争原理の根幹を揺るがしかねない重要な分野である。
- 対称的なLLMエージェント間では共謀が発生しうるが，現実の環境下での多様性が考慮されていない。
- 現実的な多様性を考慮することで，AIエージェント間の共謀の脆弱性を明らかにし，対策を検討する。
- エージェントの忍耐力の違いは，共謀による価格上昇を22%から10%に抑制する効果が確認された。
- 非対称的なデータアクセス権限は，価格上昇をさらに7%まで低下させる。
- エージェント数の増加や，異なるアルゴリズム間の競争は共謀を抑制する一方，モデルサイズの差は共謀を安定化させる。
Link: https://arxiv.org/abs/2603.20281
STAC：ストリーミング3D再構成のためのプラグアンドプレイ型時空間認識キャッシュ圧縮 [cs.CV, cs.GR, eess.IV]目的：ストリーミング3D再構成における効率的なメモリ使用と長期的な時間的一貫性の維持
- リアルタイム3D再構成は，ロボティクスや拡張現実など，幅広い分野で重要性が増している。
- 大規模な因果的VGGTトランスフォーマーでは，キャッシュサイズがストリーム長に比例して増加し，メモリボトルネックとなる。
- 時空間的な疎性を利用し，メモリ効率を高め，再構成品質を維持することを目的とする。
- STACは，キャッシュ圧縮によりメモリ消費量をほぼ10分の1に削減し，推論速度を4倍に向上させた。
- STACは最先端の再構成品質を達成し，リアルタイム3D再構成のスケーラビリティを大幅に改善した。
- ワーキングテンポラルトークンキャッシュ，長期空間トークンキャッシュ，チャンクベースのマルチフレーム最適化の3つの要素で構成される。
Link: https://arxiv.org/abs/2603.20284
エッジにおける効率的な異常検知：リソース制約デバイスでのリアルタイム産業検査の実現 [cs.IR, cs.IR, cs.CV]目的：産業用品質管理のための効率的な異常検知手法
- 製造業における品質管理の自動化は，生産性の向上とコスト削減に不可欠である。
- クラウドへのデータ送信による遅延やプライバシー問題が，リアルタイム性と機密性を要求される産業現場で課題となる。
- エッジデバイスの制約下でも高性能な異常検知を実現し，リアルタイムかつプライバシーに配慮した検査システムを構築すること。
- 提案手法PatchCore-Liteは，メモリ使用量を79%削減し，エッジ環境での実用性を示した。
- Padim-Liteは，計算量を削減し，メモリ使用量を77%削減，推論時間を31%短縮することに成功した。
- これらの結果から，異常検知はエッジデバイス上で効果的に実行可能であり，リアルタイムで費用対効果の高い産業検査が可能となる。
Link: https://arxiv.org/abs/2603.20288
リモートセンシング画像からのヘイズ除去：進捗，課題，展望の体系的レビュー [cs.CV]目的：リモートセンシング画像のヘイズ除去に関する体系的な調査
- リモートセンシング画像は，地表面の情報を正確に把握するために不可欠であり，多様な応用分野で利用されている。
- ヘイズ，霧，薄雲などの影響により，リモートセンシング画像の視認性が低下し，解析精度が損なわれるという課題がある。
- 本研究は，リモートセンシング画像のヘイズ除去技術の進歩を整理し，今後の発展に向けた課題を明らかにすることを目的とする。
- 既存手法を，手動特徴量に基づくもの，深層学習に基づくもの，そして物理モデルと深層学習を組み合わせたもの，の３段階に分類した。
- Transformerや拡散モデルなどの最新モデルは，SSIMを平均12%～18%向上させ，知覚誤差を20%～35%削減する効果が確認された。
- 物理制約を取り入れたモデルは，色ずれを最大27%まで低減し，放射測度的な安定性を向上させることが示された。
Link: https://arxiv.org/abs/2603.20289
透明破片の視覚・触覚融合による輪郭推定：自律再構成への応用 [cs.CV, cs.RO, eess.IV]目的：透明破片の輪郭推定
- 精密光学機器修理や文化財修復など，高価な破損物の復元において，破片の正確な輪郭推定は不可欠である。
- 透明破片は，光学的特性や不規則な形状により，一般的な物体よりも輪郭推定が困難である。
- 視覚情報と触覚情報を融合することで，透明破片の正確な輪郭推定を可能にし，自律再構成を実現する。
- 本研究では，透明破片の輪郭推定のためのデータセットTransFrag27Kと，視覚的把持位置検出ネットワークTransFragNetを開発した。
- 視覚情報とGelsight Miniセンサーで取得した触覚情報を融合する素材分類器を提案し，人間の輪郭推定のメカニズムを模倣した。
- 提案手法は実環境での検証において良好な性能を示し，輪郭推定と破片再構成のベンチマークを提供することに貢献する。
Link: https://arxiv.org/abs/2603.20290
知識蒸留に基づくハイパースペクトル画像増強分類：忘却に関する研究 [cs.CV, cs.AI, cs.LG]目的：ハイパースペクトル画像における継続的分類タスクにおける忘却の軽減
- ハイパースペクトル画像は多様な情報を含むため，精密な分類が求められる。
- 継続的分類では，新しいカテゴリを学習する際に過去の知識が失われる「忘却」が課題。
- 過去のデータを必要とせず，新しいデータのみで忘却を抑制する手法を提案。
- 知識蒸留とマスクに基づく部分的なカテゴリ知識蒸留アルゴリズムを導入することで，誤解を招く可能性のある情報をフィルタリング。
- 提案手法は，既存手法と比較して，より頑健な性能を示すことが実験的に確認された。
- 新しいカテゴリサンプルのみを用いて，古いカテゴリサンプルの依存度を低減することに成功。
Link: https://arxiv.org/abs/2603.20292
属性に基づく視点からの音声プライバシー [cs.SD, cs.AI]目的：音声プライバシー保護における属性の分析
- 音声データは個人情報であり，その保護は重要である。特に，話者識別技術の進歩により，プライバシー侵害の危険性が高まっている。
- 既存のプライバシー保護手法は，信号間の比較に依存しており，話者の属性情報の漏洩リスクを十分に考慮していない。
- 話者の属性情報に着目し，プライバシー保護の評価方法を再考することで，より効果的な保護メカニズムの開発を目指す。
- 音声の匿名化処理後も，推測された属性情報から話者を特定できるリスクが残存することが示された。
- 単一の発話のみを用いた攻撃シナリオにおいて，属性情報が依然として脅威となることが確認された。
- 今後の音声プライバシー研究において，属性関連の脅威と保護メカニズムの両面を考慮する必要性が示唆された。
Link: https://arxiv.org/abs/2603.20301
InjectFlow：直交射影による弱ガイダンスが強固なフローマッチングを実現 [cs.CV, cs.AI]目的：データセットの偏りに対するロバスト性向上
- 高精度な画像生成において，フローマッチングは重要な手法として注目されている。
- フローマッチングモデルは，データセットの偏りの影響を受けやすく，少数クラスの生成に課題がある。
- 偏りによる性能低下を防ぎ，より公平で頑健な画像生成モデルを構築すること。
- 提案手法InjectFlowは，学習不要で初期速度場に直交する意味情報を注入することにより，潜在空間のドリフトを抑制する。
- GenEvalデータセットにおいて，標準的なフローマッチングモデルが失敗するプロンプトの75%を正しく生成することに成功した。
- 理論的分析とアルゴリズムにより，公平で頑健な画像生成モデルを容易に構築するための解決策を提供する。
Link: https://arxiv.org/abs/2603.20303
凍結拡散モデルにおける潜在的整合性ブリッジを用いた多ビット透かしの転移可能性 [cs.CV]目的：拡散モデルにおける透かし技術の研究
- 拡散モデルの発展に伴い，生成画像の出所特定と責任追跡が重要になっている。
- 既存手法は，検出にコストがかかるか，特定のモデルに依存して汎用性に欠ける。
- モデルを再学習することなく，高速かつ転移可能な透かし技術を開発すること。
- 提案手法DiffMarkは，単一パスでの多ビット検出，画像ごとのキー柔軟性，モデル間の転移性を実現した。
- Latent Consistency Models (LCM) を利用することで，勾配計算ステップ数を大幅に削減し，高速化に貢献した。
- Distortion，再生，敵対的攻撃に対する耐性も維持し，実用性を高めている。
Link: https://arxiv.org/abs/2603.20304
グローバル・ローカルループ：多数のコミュニティからの地理空間データのギャップを埋めるために何が不足しているか [cs.CV]目的：地理空間データの融合における課題と可能性
- 地球観測技術の発達により，多様な地理空間データが膨大に蓄積されている。
- 既存のデータ融合手法は「主従」関係に偏り，相互のメリットを活かしきれていない。
- 複数のデータソースを対称的に活用し，グローバル・ローカルループを構築することを目指す。
- 本研究では，地理空間データの融合における主要な相互作用パターンを具体的な事例を通じて明らかにした。
- データの規模やコミュニティの多様性を考慮した，未開拓の研究方向性を議論した。
- グローバルとローカル，コミュニティ間の連携を強化することで，地理空間データの潜在能力を最大限に引き出すことが可能となる。
Link: https://arxiv.org/abs/2603.20305
EARTalking：フレーム単位制御によるエンドツーエンドGPTスタイル自帰回帰的 talking head 合成 [cs.DL, cs.HC, cs.CV, cs.AI, cs.MM, cs.SD]目的：音声駆動型 talking head 生成における表現力とリアリズムの向上
- 動画生成技術は，コミュニケーションやエンターテイメントにおいて重要な役割を担うため，その発展が求められている。
- 従来のARベース手法は，中間表現に依存し表現力に限界があり，拡散ベース手法は逐次生成のため遅延が生じやすい。
- 本研究は，フレーム単位での制御と効率的な生成を可能にする新しい手法を提案し，これらの課題を解決することを目指す。
- EARTalkingは，エンドツーエンドかつ自帰回帰的な手法により，インタラクティブな音声駆動型 talking head 生成を実現した。
- Sink Frame Window Attention (SFA)機構とStreaming Frame Condition In-Context (FCIC)スキームにより，動画の長さや制御信号の多様性に対応した。
- 実験の結果，EARTalkingは既存のAR手法を上回り，拡散ベース手法と同等の性能を達成した。
Link: https://arxiv.org/abs/2603.20307
グラフコンタクト：姿勢を考慮した人間とシーンのロバスト接触認識 [cs.IR, cs.DB, cs.CV, cs.GR]目的：人間とシーンの接触認識
- インタラクティブシステムの基礎技術であり，支援モニタリング等に応用が期待される。
- 従来の技術では，3D人体形状の活用が不十分，または接触認識のロバスト性が課題であった。
- 姿勢情報を活用し，遮蔽やノイズに対するロバストな接触認識を目指す。
- GraphiContactは，Transformerエンコーダからの人体事前知識を活用し，再構成されたメッシュ上で頂点レベルの接触を予測する。
- SIMUという学習戦略により，遮蔽やノイズをシミュレーションし，実環境でのロバスト性を向上させている。
- 5つのベンチマークデータセットにおいて，接触認識と3D人体再構成の両方で性能が向上した。
Link: https://arxiv.org/abs/2603.20310
VGS-デコーディング：医療VLMsにおける幻覚軽減のための視覚的根拠スコアによるデコーディング [cs.CV, cs.LG]目的：医療VLMにおける幻覚軽減
- 医療画像と自然言語処理の融合は，診断支援や医療知識の提供に不可欠である。
- 既存のVLMは，視覚的証拠に基づかず，言語事前知識に頼って回答を生成し，幻覚を起こしやすい。
- 視覚的根拠に基づいたトークンを強調し，幻覚を抑制することで，より信頼性の高いVLMを実現する。
- VGS-デコーディングは，画像の改変に対するトークン確率の変化を利用して，視覚的根拠スコアを算出する。
- このスコアに基づき，デコーディング時に視覚的根拠のあるトークンを増幅し，幻覚を抑制する。
- MIMIC-Diff-VQAおよびVQA-RADにおける実験で，一貫して性能が向上し，最大で9.12%の全体的な改善が見られた。
Link: https://arxiv.org/abs/2603.20314
軌道上データセンターのためのワークロード優先フレームワーク：セマンティック抽象化 [cs.CV, cs.DC, cs.NI]目的：ワークロードの配置決定に関するフレームワーク
- 宇宙空間での計算は，打ち上げコストの低下とデータ集約型AIワークロードの増加により現実味を帯びている。
- 従来の検討では，生の計算規模が重視され，セマンティック抽象化によるデータ削減の利点が十分に考慮されていない。
- セマンティック抽象化によるデータ削減効果を検証し，ワークロードの軌道適合性を評価する。
- Sentinel-2画像処理パイプラインにおいて，セマンティック変換によりペイロードを99.7-99.99%削減することに成功した。
- マルチパスステレオ再構成プロトタイプでは，3D表現を約306MBから約1.57MBに削減し，99.49%の圧縮率を実現した。
- これらの結果は，生の計算規模ではなく，セマンティック抽象化が初期ワークロードの適合性を大きく左右することを示唆している。
Link: https://arxiv.org/abs/2603.20317
NCSTR：ノード中心デカップルド空間時間推論によるビデオベース人体姿勢推定 [cs.CV]目的：ビデオベース人体姿勢推定の精度向上
- ビデオベースの姿勢推定は，人間の行動理解や監視システム等に応用され，重要性が高まっている。
- モーションブラーやオクルージョン，複雑な空間時間的ダイナミクスにより，高精度な姿勢推定が困難である。
- ノード中心推論により，姿勢推定における空間時間的整合性を強化し，表現力を高めることを目指す。
- 本研究では，視覚情報，時間情報，構造的推論を統合するノード中心フレームワークを提案した。
- 提案手法は，既存の最先端手法と比較して，３つの主要なビデオ姿勢推定ベンチマークにおいて優れた性能を示した。
- ノード中心推論の有効性が確認され，ビデオベース人体姿勢推定の新たな展望が開かれた。
Link: https://arxiv.org/abs/2603.20323
DCG-Net：解釈可能な医療診断のための二重クロスアテンションと概念価値グラフ推論 [cs.CV]目的：医療画像診断における解釈可能性の向上
- 医療画像診断の精度向上は医療の質向上に不可欠であり，深層学習はその鍵となる。
- 深層学習モデルの判断根拠が不明瞭であり，医師の信頼を得ることが困難である。
- 概念的ボトルネックモデルの限界を克服し，臨床概念間の依存関係を考慮した解釈性向上を目指す。
- DCG-Netは，視覚的トークンと概念価値プロトタイプ間の双方向アテンションにより，空間的に局所化された証拠帰属を実現した。
- 正Pointwise Mutual Informationを用いたパラメトリック概念グラフを開発し，臨床知識に基づいた概念間の依存関係をモデル化した。
- 白血球形態および皮膚病変診断実験において，最先端の分類性能と臨床的に解釈可能な診断説明を両立した。
Link: https://arxiv.org/abs/2603.20325
プロンプト不要な軽量SAM適応による組織病理学的核セグメンテーション：強力なクロスデータセット汎化性能 [cs.CV]目的：組織病理学的核セグメンテーションの精度向上と汎化性能の実現
- 定量的な組織分析や癌診断において，核セグメンテーションは不可欠な技術である。
- 既存手法は計算コストが高く，データセット間の汎化性能に課題がある。
- ヒストパソロジー画像における高密度・異質性核に対し，軽量かつ汎用的なセグメンテーション手法を確立する。
- 提案手法は，凍結されたSAMエンコーダ内のLoRAモジュールのみを微調整し，わずか4.1Mの学習可能なパラメータで済む。
- TNBC，MoNuSeg，PanNukeの3つのベンチマークデータセットで最先端の性能と強力なクロスデータセット汎化性能を実証した。
- 本フレームワークは，ヒストパソロジー応用に効果的かつ実用性があることが示された。
Link: https://arxiv.org/abs/2603.20326
潜在世界の探求：潜在表現における創発的な離散記号と物理構造 [cs.LG, cs.AI, cs.CV]目的：潜在表現における離散記号と物理構造の発見
- 動画理解の分野において，効率的な表現学習は重要な課題である。
- 潜在表現の解釈が難しく，物理構造との対応付けが困難である。
- 凍結された潜在表現から，構造化された記号表現を抽出することを目指す。
- JEPAモデルの潜在空間は，多様な行動カテゴリ間で共通の表現核を共有することが示された。
- 意味的な違いは，カテゴリ的な境界ではなく，分布のわずかな変化として符号化されている。
- AI Mother Tongue（AIM）フレームワークにより，潜在空間から離散記号列を抽出できることが確認された。
Link: https://arxiv.org/abs/2603.20327
スケール符号化ニューラル表面表現を用いた高精度マルチビュー法線統合 [cs.CV]目的：マルチビュー法線統合における表面再構成の精度向上
- 3次元形状の再構成は，コンピュータビジョンやグラフィックスにおいて重要な課題である。
- 従来の法線統合手法では，ピクセルのカバレッジ面積を考慮せず，距離に応じた法線の不整合が生じやすい。
- 異なる距離で取得された法線データから，高精度な表面再構成を実現すること。
- 提案手法は，ピクセルカバレッジ面積を考慮したスケール符号化ニューラル表面表現を導入することで，マルチスケールな表面法線表現を可能にした。
- 各頂点に最適な局所スケールを割り当てるメッシュ抽出モジュールにより，スケールを考慮した表面再構成を実現した。
- 実験結果から，提案手法が既存手法よりも高精度な表面再構成を達成することが示された。
Link: https://arxiv.org/abs/2603.20337
マルチビュー脳ネットワーク基盤モデルの構築：任意の脳アトラス間のクロスビュー整合学習 [cs.CV]目的：脳ネットワークの汎用的な表現学習
- 脳組織の理解や神経疾患の特定に有用な脳ネットワーク解析の重要性が高まっている。
- 既存モデルは特定のアトラスに依存し，多角的な視点や解剖学的情報を十分に活用できていない。
- 異なるアトラス間での整合性を保ちつつ，脳ネットワークの汎用的な表現を獲得することを目的とする。
- MV-BrainFMは，Transformerアーキテクチャに解剖学的距離情報を組み込み，領域間の相互作用を誘導する。
- クロスビュー整合学習により，同一被験者の異なるアトラスからの表現を共通の潜在空間に整合させる。
- 2万人以上のfMRIデータを用いた実験で，既存の基盤モデルやタスク特化型モデルを上回る性能を示した。
Link: https://arxiv.org/abs/2603.20348
360度サリエンスグラフによるシーン表現とその視覚に基づく屋内ナビゲーションへの応用 [cs.CV, cs.RO, eess.IV, eess.SP]目的：シーン表現のための360度サリエンスグラフの提案と，それを用いた視覚に基づく屋内ナビゲーションの実現
- シーン理解は，ロボットナビゲーションや環境認識など，様々な応用において不可欠な要素である。
- 従来のシーン表現は，照明変化や遮蔽物などの影響を受けやすく，ロバスト性に課題がある。
- 本研究は，これらの課題を克服し，よりロバストで効率的なシーン表現を提案することで，屋内ナビゲーションの性能向上を目指す。
- 提案手法は，シーンの視覚的，文脈的，意味的，幾何学的情報を360度グラフとして明示的にエンコードすることで，従来の表現よりもロバスト性を高めている。
- 実験結果から，提案手法はシーンの局所化と視覚に基づく屋内ナビゲーションの両方において，既存手法よりも優れた性能を示すことが確認された。
- 特に，埋め込まれた幾何学的情報を活用することで，トポロジカルマップ上での2Dナビゲーションを効率的に実現している。
Link: https://arxiv.org/abs/2603.20353
ユニバーサルガイダンス分類器：ビデオ拡散事前知識の活用 [cs.CV]目的：生成モデル間の分布不一致による品質低下の抑制
- AIワークフローにおいて，複数の生成モデルを連携させることは一般的であり，その重要性は高い。
- アップストリームモデルとダウンストリームモデル間の分布の不一致が，全体の生成品質を低下させる問題がある。
- ビデオ拡散事前知識を用いて，先行モデルの出力を後続モデルの要件に合わせることを目指す。
- Uni-Cは，ビデオおよび3D生成タスクにおいて，ワークフロー型と単独型の両方で，生成品質を安定的に向上させる。
- このモジュールは，生成モデル間の分布不一致を軽減し，全体的なワークフローの品質を改善する。
- Uni-Cは，汎用性と強力な一般化能力を持つ，シンプルかつ効果的なプラグアンドプレイモジュールである。
Link: https://arxiv.org/abs/2603.20382
多様なヘッドアンサンブルを用いた病理基礎モデルの多段階ファインチューニング：白血球分類への応用 [cs.CV]目的：白血球の分類に関する研究
- 白血球分類は白血病の診断に不可欠であり，医療現場での重要性が高い。
- 既存の自動化手法では，クラス不均衡やドメインシフト，形態的な連続性の問題が課題となっている。
- 本研究は，これらの課題を克服し，白血球分類の精度向上を目指す。
- DINOBloom-baseをファインチューニングし，線形，コサイン，MLPの異なる分類器ヘッドを訓練した。
- コサインヘッドは成熟顆粒球の分類，線形ヘッドは未成熟顆粒球，MLPヘッドは最も未成熟な顆粒球で高い性能を示し，クラス特異的な専門性が明らかになった。
- MLPヘッドを主予測器とし，他のヘッドとの合意に基づいて予測を置換するヘッド多様性アンサンブルを構築し，分類精度を向上させた。
Link: https://arxiv.org/abs/2603.20383
ホールスライド画像分類におけるジグソー正則化 [cs.CV]目的：ホールスライド画像分類の性能向上
- 病理診断のデジタル化が進み，巨大なホールスライド画像（WSI）の解析が重要になっている。
- 既存の多重インスタンス学習（MIL）はパッチ間の空間的構造を無視している。
- パッチ内の局所的な空間構造と，パッチ間の空間的関係性を考慮した分類を目指す。
- ビジョンファウンデーションモデル埋め込みとグラフニューラルネットワーク，そして新規のジグソー正則化を組み合わせた。
- この組み合わせにより，乳がん，頭頸部がん，大腸がんのベンチマークデータセットにおいて，最先端の注意機構に基づくMIL手法を大幅に上回る分類性能を実現した。
- 空間情報を組み込むことで，より高精度な病理画像分類が可能になった。
Link: https://arxiv.org/abs/2603.20386
単眼モデルはマルチビュー人体メッシュ復元の強力な学習者である [cs.CV]目的：マルチビュー人体メッシュ復元における単眼モデルの活用
- 人体認識は，仮想現実，モーションキャプチャなど幅広い分野で重要である。
- 既存手法はカメラ較正が煩雑，または未知のカメラ配置への汎化性能が低い。
- 事前学習済みの単眼モデルを活用し，マルチビュー学習データなしで汎化性能を高める。
- 本研究では，単眼モデルの予測値を初期値とし，テスト時に最適化することで高精度な復元を実現した。
- マルチビューの一貫性と人体の制約を考慮した最適化により，既存のマルチビューモデルを上回る性能を達成した。
- カメラ較正を必要とせず，任意のカメラ配置への対応を可能にした。
Link: https://arxiv.org/abs/2603.20391
カバレッジゲーム [cs.GT, cs.LO]目的：マルチエージェント計画の枠組み
- 複数のエージェントが協調するシステムの設計・制御において，重要な理論的基盤となる。
- エージェントの行動が完全に制御できない環境下での計画立案が困難である。
- 不確実な環境下での目標達成可能性と，目標の分散化による効率化を目指す。
- カバレッジゲームは，カバー者と妨害者の2人ゲームとして定式化される。
- カバー者は複数のエージェントを操作し，妨害者の行動を考慮しながら目標を達成する。
- ゲームの複雑性解析を行い，特殊なケースにおける効率的な解法を検討した。
Link: https://arxiv.org/abs/2603.20398
FAAR：自動ランク選択による効率的な周波数認識型マルチタスクファインチューニング [eess.SY, cs.SY, eess.SP, cs.CV]目的：マルチタスク学習における効率的なファインチューニング手法の開発
- 大規模事前学習モデルの活用は，様々なタスクで高い性能を迅速に実現できる。
- モデルの巨大化により，従来のフルファインチューニングはコストが高く，特にマルチタスク学習では問題となる。
- タスクごとの最適なランクを自動で選択し，タスク間の関係性を考慮することで，効率と精度を向上させる。
- 提案手法FAARは，位置とタスクごとに最適なランクを割り当てるPerformance-Driven Rank Shrinking (PDRS)を導入する。
- 画像周波数スペクトル分析に基づき，タスク間の関係性を反映したTask-Spectral Pyramidal Decoder (TS-PD)を提案する。
- 様々なタスクベンチマークで，既存のPEFT手法と比較して，FAARは精度と効率の両方で優れていることを示す。
Link: https://arxiv.org/abs/2603.20403
反復ベイズ説得のためのメタ学習 [cs.GT, cs.AI, cs.LG, cs.SY, eess.SY, math.OC]目的：反復的なベイズ説得における最適な説得戦略の学習
- 現実世界の戦略的相互作用は多くの場合反復されるため，過去の経験を活用した効率的な説得手法が求められる。
- 単独のゲームにおける説得戦略を反復適用するだけでは，タスク間の構造的な類似性を十分に活用できない。
- タスク間の類似性を利用することで，説得における後悔（regret）を低減し，学習効率を向上させることを目指す。
- 本研究で提案するメタ説得アルゴリズムは，自然なタスク類似性の仮定の下で，既知の収束率よりも優れた後悔率を達成する。
- また，ゲームの並びがランダムに選択された場合，標準的な単一ゲームの保証を再現することも可能である。
- 数値実験により，提案手法の後悔率の改善と，反復説得環境におけるメタ学習の利点が示されている。
Link: https://arxiv.org/abs/2603.20408
PEARL：パーソナライズされたストリーミングビデオ理解モデル [cs.CV, cs.AI, cs.IR]目的：パーソナライズされたストリーミングビデオ理解のタスクとベンチマーク
- 近年のAIアシスタントの進化において，リアルタイムなインタラクションが重要となっている。
- 既存のパーソナライズ手法は，静止画やオフライン動画に限定されており，ストリーミングデータへの対応が不十分である。
- 連続的な視覚入力とリアルタイムフィードバックを結びつけ，パーソナライズされたAIアシスタントを実現することを目的とする。
- 本研究では，パーソナライズされたストリーミングビデオ理解（PSVU）という新たなタスクを提案し，その評価のためのベンチマークであるPEARL-Benchを開発した。
- PEARL-Benchは，フレームレベルとビデオレベルの2つのモードで，正確なタイムスタンプに基づいたパーソナライズ概念への応答能力を評価する。
- 提案手法PEARLは，既存のモデルに容易に組み込むことができ，8つのモデルで最先端の性能を示した。
Link: https://arxiv.org/abs/2603.20422
新規視点合成のための効率的・効果的なカメラ姿勢推定戦略のベンチマーク [cs.CV]目的：新規視点合成のためのカメラ姿勢推定手法の性能評価
- 高品質な3Dシーン再現は，様々な応用において不可欠であり，その精度はカメラ姿勢推定に大きく依存する。
- 従来のSfMは高精度だが処理に時間がかかり，最近のニューラルネットワークによる手法は高速だが精度が低い。
- 効率と精度を両立したSfM手法の開発を促進するため，新規視点合成に特化したベンチマークを提案する。
- 従来のSfMにおいて，特徴点数を減らすだけで処理速度が大幅に向上し，精度は維持できることが示された。
- ニューラルネットワークで初期推定を行い，古典的なSfMで精度を高める手法が，最も効率と効果のバランスが良い。
- 提案するベンチマークとコードを公開し，今後の研究開発に貢献する。
Link: https://arxiv.org/abs/2603.20428
ALICE：大規模音声言語モデルの文脈内学習能力の多面的評価フレームワーク [cs.SD, cs.AI, cs.CL, eess.AS]目的：大規模音声言語モデルの文脈内学習能力の評価
- 音声と言語を統合するモデルは，様々な応用で重要性が増している。
- 大規模音声言語モデルの指示への追従能力が低下することが示唆されている。
- 音声条件付きでの文脈内学習能力を系統的に評価し，その限界を明らかにすること。
- ALICEフレームワークにより，テキストガイダンスを段階的に削減した評価が可能となった。
- 実験の結果，文脈内デモンストレーションはフォーマット遵守性を向上させるが，タスクのパフォーマンスは改善せず，むしろ低下することがわかった。
- 大規模音声言語モデルは，表面的なフォーマットパターンは学習できるものの，音声条件付きの例からタスクの目的を推論する能力に限界があることが示唆された。
Link: https://arxiv.org/abs/2603.20433
熱は常に予測不能：熱画像のみからの新規視点合成における課題の特性評価と対策 [cs.RO, eess.SY, cs.SY, cs.CV, eess.IV]目的：熱画像のみからの新規視点合成における課題の特性評価と対策
- 夜間や悪天候下でも視認性を提供する熱カメラは，監視や自動運転などの分野で不可欠である。
- 安価な熱センサーのダイナミックレンジの低さや，フレーム間の光度変動が合成の安定性を損なう。
- 熱画像のみから高品質な新規視点合成を実現するための前処理とスプラッティングパイプラインを提案する。
- 提案手法は，熱画像のみの新規視点合成ベンチマークにおいて最先端の性能を達成した。
- データセット固有のチューニングを必要とせず，汎用的な性能を示す。
- ダイナミックレンジの拡張とフレーム間光度の安定化により，アーティファクトを抑制し，高品質な合成を実現する。
Link: https://arxiv.org/abs/2603.20448
ニューラルネットワークの反転：指定された出力からニューラルネットワーク入力を生成する新手法 [cs.CV]目的：ニューラルネットワークの出力に対応する入力画像の探索
- 深層学習モデルの内部動作の理解は，その信頼性と安全性の確保に不可欠である。
- 既存手法では，高い分類精度を示す入力画像を生成することが困難であった。
- ニューラルネットワークの入力空間を網羅的に探索し，脆弱性を明らかにする。
- 提案手法は，変換器および逐次ネットワークの両方で，ほぼ完璧な分類スコアが得られるランダムな外観の入力画像を生成可能である。
- これにより，既存手法よりも入力空間の広範な領域を探索し，逆マッピング問題を解決できることが示された。
- 本研究は，ニューラルネットワークの脆弱性を明らかにし，モデルの堅牢性向上に貢献する。
Link: https://arxiv.org/abs/2603.20461
CREG：ビジョン言語モデルにおける空間推論の解釈のためのコンパス関係的証拠 [cs.CV]目的：ビジョン言語モデルにおける方向関係の符号化メカニズムの解明
- 近年のビジョン言語モデルの発展は目覚ましいが，その推論過程の理解は不十分である。
- 既存の解釈手法では，モデルがどこに着目しているかは示せるが，物体間の方向関係の推論が不明確である。
- コンパス関係的証拠グラフを用いて，空間推論における方向性に関するより正確な解釈を可能にすること。
- 提案手法CREGは，標準的な解釈手法と比較して，VSRおよびCOCO-Pairsデータセットにおいて一貫して高い性能を示した。
- COCO-Pairsデータセットでは，予測ターゲットCREGは，角度誤差においてAttention Rolloutより16.1度，EAにおいて0.120向上した。
- 因果的遮蔽実験の結果からも，提案手法が生成する方向性に関する解釈の信頼性が支持された（COS ≥ +0.42）。
Link: https://arxiv.org/abs/2603.20475
時系列カメラトラップ種認識に関する統一的な研究からの教訓と未解決の問題 [cs.CV]目的：カメラトラップによる種認識の経時的な課題解決
- 生物多様性のモニタリングにおいて，カメラトラップは不可欠なツールである。効率的なデータ分析が求められている。
- 既存手法は，多様な環境への対応が難しく，特に同一場所での長期的な信頼性維持が課題である。
- 経時変化に対応した種認識モデルの構築と，実用的な展開指針の策定を目指す。
- 生物基礎モデルは，初期段階から多くの場所で性能が低く，現地特有の適応の必要性を示唆している。
- 過去データを用いた適応学習は，現実的な評価においてゼロショット性能を下回る場合があり，課題であることが示された。
- クラスの不均衡と種分布の経時変化が，適応学習の困難さを引き起こす主要因として特定された。
Link: https://arxiv.org/abs/2603.20509
偏光測定と材質分類器の端点間最適化 [cs.CV]目的：材質分類の精度向上
- シーン理解において重要な役割を果たすため。
- 偏光測定には時間がかかり，最適な測定角度が不明である。
- 偏光素子角度の最適化と材質分類器の同時学習により，効率化を目指す。
- 提案手法は，限られた測定回数でも高精度な材質分類を可能にした。
- 偏光測定と材質分類を同時に最適化するフレームワークを提案した。
- Mueller行列材質データセットを用いて有効性を検証した。
Link: https://arxiv.org/abs/2603.20519
マップよりメモリ：再構成を伴わない3D物体局所化 [cs.RO, cs.CV]目的：3D物体局所化手法
- ロボットのナビゲーションや操作といった具現化されたタスクにおいて，対象物の局所化は必要不可欠である。
- 従来の局所化手法は，3Dシーンの再構成に依存し，計算コストやストレージ容量，拡張性に課題があった。
- 本研究は，3Dシーンの再構成を行わずに，画像ベースのシーンメモリから直接物体を局所化する手法を提案する。
- 提案手法は，RGB-Dキーフレームを軽量な視覚メモリとして保存し，3D再構成を必要としない。
- 既存の再構成ベースの手法と比較して，前処理コストを大幅に削減し，シーンインデックス作成速度を2桁以上向上させた。
- タスク固有の学習なしに，複数のベンチマークで良好な性能を示し，画像ベースのシーンメモリによる直接推論の有効性を示した。
Link: https://arxiv.org/abs/2603.20530
視覚言語モデルにおける否定は幾何学的な問題である [cs.RO, cs.MA, cs.SI, eess.SY, cs.SY, cs.CV]目的：視覚言語モデルにおける否定の理解
- 視覚と言語を組み合わせた理解は，画像検索や画像キャプション生成など，様々な応用において重要である。
- 既存の視覚言語モデルは，テキストクエリにおける否定表現の理解に苦戦しているという課題がある。
- 否定表現の理解度を正当に評価するフレームワークを確立し，モデルの否定認識能力を向上させる。
- 従来の評価指標は否定の理解を正確に反映しないため，Multimodal LLMを判断者として用いる新しい評価フレームワークを提案した。
- CLIP埋め込み空間内に否定に関連する方向が存在することを発見し，表現操作により否定を認識するようにCLIPを誘導できることを示した。
- 分布シフト下での汎化性能を評価するため，一般的な画像テキストサンプル以外のデータセットで否定理解を検証した。
Link: https://arxiv.org/abs/2603.20554
患者再入院リスクの監視と予測のための拡張現実知能 [cs.HC, cs.GR]目的：糖尿病患者の再入院リスク予測
- 医療システムにおいて，慢性疾患患者の再入院は大きな課題であり，改善が求められている。
- 30日以内の予期せぬ再入院は，医療コスト増大や資源の逼迫を引き起こす可能性がある。
- 臨床現場における再入院リスクの早期発見と，医療従事者の情報共有を支援すること。
- 機械学習モデル（XGBoost）は，患者の再入院リスク予測において0.72のAUROC，0.11のAUPRCを達成した。
- 過去の入院回数，退院時の状況，血糖コントロール指標などが重要な予測因子として同定された。
- 拡張現実（MR）プロトタイプにより，リスクレベルや主な要因，ケアの要約を視覚的に提示することで，医療従事者の状況把握を支援する。
Link: https://arxiv.org/abs/2603.20556
ネビスのデジタルツイン：歴史的遺跡のフォトグラメトリと没入型可視化 [eess.SY, cs.SY, cs.HC, cs.GR]目的：歴史的遺跡のデジタル保存と仮想復元
- カリブ海の文化遺産は，自然災害や環境変化により失われつつあり，保護が急務である。
- 高精度な測量技術は高コストであり，一般市民へのアクセスが限られている。
- 低コストでアクセス可能なデジタル保存手法を確立し，文化遺産の民主化を目指す。
- 実験の結果，カメラの高さとオペレーターの軌跡がデータ取得の精度に影響することが示された。
- メッシュ再構成と3Dガウシアン・スプラッティングは，それぞれ異なる特性を持つドキュメンテーション手段として有効であることが確認された。
- 得られたデータはVR環境に統合され，文化遺産へのアクセスを容易にする，拡張性の高いモデルが構築された。
Link: https://arxiv.org/abs/2603.20560