arXiv雑要約

画像・音声 - 2026/04/21 公開

内在的重要度認識による適応的なフォレンジック特徴の洗練 [cs.CV]目的：合成画像検出における汎化性能の向上
- 生成モデルの進化により，未知の生成元への対応が重要課題となっている。
- 既存手法は特徴表現の階層構造を明示的にモデル化できていない。
- 転移学習構造を維持しつつ，フォレンジック情報の識別能力を高める。
- 提案手法I2Pは，SIDに最も識別的な重要な層を適応的に特定する。
- タスク駆動型のパラメータ更新を低感度パラメータ部分空間に制約することで，汎化性能を維持する。
- 実験結果から，I2Pが既存手法よりも優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2604.16879
公平性と信頼性を考慮した臨床AIのためのバイアス制約型マルチモーダル知能 [cs.CV]目的：臨床AIにおける公平性と信頼性の向上
- 医療現場でのAI活用は，診断精度向上や効率化に不可欠である。
- 疾患の偏りや画像プロトコルの違いなど，バイアスがAIの公平性と信頼性を損なう。
- バイアスをモデル設計に組み込み，公平な推論を促進することで課題解決を目指す。
- BiasCareVLは，8つの公開ベンチマークで20以上の最先端手法を上回り，特に臨床的に困難なシナリオで顕著な改善を見せた。
- 多クラスの皮膚病変診断では10%以上の精度向上，小さな腫瘍のセグメンテーションでは20%以上のDice係数の改善が確認された。
- 熟練した放射線科医と比較して，診断性能は人間を超える一方で，時間要件は大幅に短縮された。
Link: https://arxiv.org/abs/2604.16884
CrossFlowDG：クロスモーダルフローマッチングによるドメイン汎化のモダリティギャップ解消 [cs.CV]目的：ドメイン汎化におけるモダリティギャップの解消
- 画像認識において，ドメインの変化に対応した汎化性能の向上が重要である。
- 既存手法では，画像とテキストの埋め込み空間にギャップが生じ，性能が制限される。
- クロスモーダルフローマッチングにより，画像埋め込みをテキスト埋め込みへ変換し，ドメイン不変性を実現する。
- 提案手法CrossFlowDGは，画像とテキストの潜在空間において連続的な変換を学習する。
- これにより，ドメインに依存した画像埋め込みを，正しいクラスに対応するドメイン不変なテキスト埋め込みへ輸送する。
- TerraIncognitaベンチマークにおいて，最先端の性能を達成した。
Link: https://arxiv.org/abs/2604.16892
EasyVideoR1：ビデオ理解のためのより容易な強化学習 [cs.CV, cs.LG]目的：ビデオ理解のための強化学習フレームワークの効率化
- 大規模言語モデルの推論能力向上に，検証可能な報酬を用いた強化学習が有効性が示されている。
- ビデオデータの多様性，計算コスト，再現性のある評価の難しさから，ビデオ理解への応用は遅れている。
- ビデオデータに特化した強化学習フレームワークを開発し，効率性と再現性を高める。
- EasyVideoR1は，ビデオの冗長なデコードを排除し，スループットを1.47倍に向上させるパイプラインを実現した。
- 11種類のビデオ・画像問題に対応する報酬システムを構築し，多様なタスクへの拡張性を確保した。
- オフラインデータとオンライン探索を組み合わせた学習パラダイムにより，難しいタスクの学習効果を高めた。
Link: https://arxiv.org/abs/2604.16893
物理情報に基づくトラッキング (PIT) [cs.CV, cs.AI]目的：単一粒子の動画トラッキング手法
- 動画解析における物体追跡は，科学研究やロボティクス等，広範な応用分野で重要である。
- 従来の追跡手法では，ノイズやオクルージョンに対し頑健な追跡が困難な場合がある。
- 物理法則を組み込むことで，より正確でロバストな追跡を実現することを目指す。
- 本研究では，ニューラルネットワークと物理モデルを統合したPITフレームワークを提案した。
- 提案手法は，教師あり・教師なし学習の両方をサポートし，亜ピクセル精度での追跡を達成した。
- 物理情報に基づく損失関数を用いることで，ラベルなしでも物理的に整合性の取れた軌跡を推定できることを示した。
Link: https://arxiv.org/abs/2604.16895
スワップ公理から加重幾何平均へ：AMMの特性化 [cs.DC, cs.GT]目的：AMM（自動マーケットメーカー）の取引軌道の幾何学的性質に関する理論的枠組み
- DeFi（分散型金融）において，AMMは重要な役割を担っており，その設計原理の理解が不可欠である。
- 既存のAMM設計原理は，特定のモデルに依存しており，一般的な原理に基づく体系的な説明が不足している。
- AMMの取引軌道が加重幾何平均で記述される理由を，基本的な公理から導き出すことを試みる。
- AMMの取引軌道は，有効性不変性，パレート効率性，単位不変性という3つの公理から導かれる加重幾何平均のレベル集合として表現できる。
- この結果は，2資産プールだけでなく，n資産プールにも拡張可能であり，トークン再ラベル対称性を用いることで，定積公式などを導出できる。
- 本研究は，AMM設計の基礎理論を提供し，より効率的で柔軟なAMMの構築に貢献する可能性がある。
Link: https://arxiv.org/abs/2604.16898
LAGS：グループ化異種グラフ学習を用いた低高度ガウススプラッティング [cs.CV, cs.RO]目的：低高度ガウススプラッティングにおける資源配分
- ドローンを用いた3Dシーン再構成は，インフラ点検や災害対応など，多様な分野で重要性が増している。
- 既存の資源配分法は，多様な視点からの画像の特徴を考慮せず，効率が低いという課題があった。
- 画像の多様性を考慮した資源配分により，再構成品質と通信効率のバランスを最適化することを目指す。
- 提案手法GW-HGNNは，再構成品質指標PSNR，SSIM，LPIPSにおいて，既存手法を大きく上回る性能を示した。
- GW-HGNNは，広く用いられるMOSEKソルバーと比較して，計算遅延を約100倍削減し，リアルタイム展開に適したミリ秒レベルの推論を実現した。
- GW-HGNNは，再構成プロセスへの各画像グループの貢献度を明示的にモデル化し，データ忠実性と伝送コストを自動的にバランスさせる。
Link: https://arxiv.org/abs/2604.16910
統合超音波インテリジェンス：エンドツーエンドのエージェントシステムに向けて [cs.CV, eess.IV]目的：異種臓器，ビュー，デバイスに対応し，解釈可能なワークフローレベル分析を支援するモデルの構築
- 臨床超音波は，迅速かつ正確な診断に不可欠であり，医療現場での需要は高い。
- 既存手法はタスクごとに適応が必要であり，タスク間の干渉により安定した学習が困難である。
- 様々な超音波タスクに対応し，一貫した臨床ワークフローを支援する汎用的な超音波インテリジェンスシステムの実現。
- 提案手法USTriは，汎用的な特徴抽出器USGen，タスク特化型ヘッドUSpec，エージェントUSAgentの3段階構成である。
- FMC_UIA検証セットにおいて，USTriは4種類のタスクと27のデータセットで最先端の結果を達成した。
- USAgentは，臨床的に構造化されたレポートを高精度かつ解釈可能性をもって生成することが示された。
Link: https://arxiv.org/abs/2604.16914
KIRA：専門的な視覚領域のための知識集約型画像検索・推論アーキテクチャ [cs.CV]目的：専門的な視覚領域における知識集約型画像検索と推論
- 画像認識技術は，医療診断やインフラ点検など，専門分野での応用が期待されている。
- 既存手法では，画像とテキスト知識ベース間のギャップや，複雑な推論が困難であった。
- 画像検索と推論を統合し，専門領域における正確な回答生成を目指す。
- KIRAは，階層的なセマンティックチャンキング，ドメイン適応型コントラストエンコーダ，二重経路クロスモーダル検索，チェーンオブRetrieval，エビデンス条件付き生成といった5つの主要な要素を備えている。
- 提案されたDOMAINVQARベンチマークを用いて評価した結果，KIRAは高い検索精度(0.97)，確実な根拠(1.0)，ドメインの正確性(0.707)を示した。
- アブレーション実験により，各コンポーネントの貢献と，精度と多様性のトレードオフが明らかになった。
Link: https://arxiv.org/abs/2604.16915
ノイズ適応型拡散サンプリング：タスク固有の調整なし逆問題への適用 [cs.LG, cs.AI, cs.CV]目的：逆問題に対するノイズ適応型拡散サンプリング手法
- 画像復元などの逆問題は，情報が不足する状況下での高品質な画像再構築に不可欠である。
- 従来の最適化手法は局所解に陥りやすく，また拡散モデルはノイズ過学習を引き起こす可能性がある。
- ノイズ空間におけるハミルトニアンモンテカルロ法により，よりロバストな逆問題解決を目指す。
- 提案手法N-HMCは，拡散過程を決定論的な写像として捉え，解空間を網羅的に探索することで局所解を回避する。
- ノイズ適応型N-HMC (NA-NHMC) は，未知のノイズタイプやレベルを持つ逆問題に対しても有効に機能する。
- 線形・非線形逆問題における実験結果から，NA-NHMCが既存の最先端手法を大幅に上回る再構成品質を示すことが確認された。
Link: https://arxiv.org/abs/2604.16919
クロスコーズPETノイズ除去の再考：残差ノイズ学習による平均化効果の軽減 [cs.CV]目的：低線量PET画像からのノイズ除去性能向上
- PET画像は医療診断に不可欠だが，被ばく量を低減する必要がある。
- 単一のノイズレベルで学習したモデルは，他の線量条件への一般化が困難である。
- 残差ノイズ学習により，線量条件に依存しない汎用的なノイズ除去を実現する。
- 提案手法は，複数の医療センターからの大規模なPETデータセットで，既存手法を上回るノイズ除去性能を示した。
- 残差ノイズ学習は，ノイズレベル間の平均化効果を軽減し，クロスコーズPETノイズ除去の一般化性能を向上させる。
- 本研究は，PET画像の低線量化におけるノイズ除去戦略の新たな方向性を示す。
Link: https://arxiv.org/abs/2604.16925
CoGR-MoE：一貫した選択と柔軟な推論を備えたコンセプト誘導エキスパートルーティング [cs.CL, cs.CV, cs.AI]目的：視覚的質問応答におけるコンセプト誘導エキスパートルーティング手法
- 視覚情報とテキスト情報を統合し，適切な回答を選択する能力が重要である。
- エキスパートのルーティングが不安定だと，同じ質問タイプで選択されるエキスパートが一貫しない。
- コンセプト誘導によりルーティングを安定化させ，柔軟性を維持することで，VQAの性能向上を目指す。
- 提案手法CoGR-MoEは，回答候補の意味的情報を活用してエキスパート選択を誘導する。
- 選択されたエキスパートの重みを調整し，各候補の識別表現を生成する。
- 複数のVQAタスクにおいて，CoGR-MoEが高い性能を示すことが実験的に確認された。
Link: https://arxiv.org/abs/2604.16930
少数ショット微細画像分類のための適応的受容野に基づく空間周波数特徴再構成ネットワーク [cs.CV, cs.AI]目的：少数ショット微細画像分類における空間周波数特徴再構成
- 画像認識技術は，様々な分野で応用が広がっており，その重要性は増している。
- 少数サンプルでの分類は難しく，特に微細なカテゴリの区別が困難である。
- 異なるカテゴリ画像から最適な特徴量を抽出するための受容野サイズの適応的決定を目指す。
- 提案手法であるARF-SFR-Netは，空間的特徴と周波数的特徴の受容野サイズを適応的に決定する能力を有する。
- ARF-SFR-Netは，特徴量の再構成と少数ショット微細画像分類タスクにおいて高い性能を発揮する。
- 複数のベンチマークテストにおいて，最先端の手法と比較して有効性と優位性が実証された。
Link: https://arxiv.org/abs/2604.16936
展開形ゲームにおけるナッシュ均衡の選択：Logit QREの系列形変種によるアプローチ [cs.CL, cs.GT]目的：展開形ゲームにおけるLogit QREを用いたナッシュ均衡選択メカニズム
- ゲーム理論は，経済学，政治学，生物学など幅広い分野で意思決定を分析する上で重要である。
- 展開形ゲームにおけるLogit QREの計算は，戦略空間の指数関数的な増加により困難を極める。
- 系列形によるLogit QREの定式化を通じて，効率的な計算フレームワークを提供し，均衡選択特性を活用すること。
- 本研究では，展開形ゲームにおけるLogit QREの計算を効率化する系列形定式化を提案した。
- 提案手法は，ナッシュ均衡への収束を保証する微分可能な経路追跡法に基づいている。
- 理論的分析と数値実験により，提案手法の有効性が確認された。
Link: https://arxiv.org/abs/2604.16944
条件付き・劣化マスクオートエンコーダによる異種マルチモーダル画像共同事前学習の改善 [cs.CV]目的：高解像度光学画像とSAR画像の共同事前学習を通じたモダリティ間の相乗効果の実現
- マルチモーダル画像処理は，多様な情報を統合することで，単一モダリティでは困難なタスクを可能にするため重要である。
- 高解像度画像における光学画像とSAR画像の物理的な差異が大きく，既存の剛体的なアライメント手法では特徴量の抑制や汚染が発生する。
- CoDe-MAEは，アライメントを最小限に抑えつつ，光学画像からの知識蒸留とコントラスト学習により，表現劣化を防ぎ相乗効果を高める。
- CoDe-MAEは，SAR画像のスペックルノイズをセマンティックな多様体へマッピングする光学画像アンカー型知識蒸留(OKD)を導入した。
- 勾配バッファリングメカニズムを用いた条件付きコントラスト学習(CCL)により，共通認識を維持しつつ，異なる物理的特徴を安全に保持する。
- クロスモーダル劣化再構成(CDR)は，不必要なスペクトル偽特徴を除去し，真の構造不変性を捉えることで表現の質を向上させる。
Link: https://arxiv.org/abs/2604.16952
TSM-Pose：意味的Mambaを用いたトポロジーを意識したカテゴリレベル物体姿勢推定 [cs.CV]目的：カテゴリレベル物体姿勢推定のロバストな汎化性能向上
- 具現化された知能を実現する上で，物体姿勢推定は不可欠な要素である。
- 既存手法は単純な特徴抽出に依存し，カテゴリ共有のトポロジー構造の捕捉が困難である。
- トポロジー構造と意味的キーポイントモデリングにより汎化性能の限界を克服する。
- 提案手法TSM-Poseは，点群のグローバルなトポロジー表現を抽出するトポロジー抽出器を導入した。
- Mambaベースのグローバル意味集約器により，キーポイントに意味的先験知識を注入し表現力を向上させた。
- REAL275，CAMERA25，HouseCat6Dの３つのベンチマークデータセットで，最先端手法を上回る性能を示した。
Link: https://arxiv.org/abs/2604.16954
網膜画像の経時予測における訓練と推論の入力整列がフレームワーク選択よりも重要である [cs.CV, cs.AI, cs.LG]目的：進行性黄斑疾患における臨床的意思決定を支援するための，経時的な網膜画像からの将来の外観の定量的な予測
- 進行性黄斑疾患の診断と治療において，客観的な指標の重要性が高まっている。
- 既存の手法は定量的評価が困難であり，疾患進行の正確な予測が課題となっている。
- 本研究は，入力分布の整列が予測精度に与える影響を明らかにすることを目的とする。
- 訓練と推論の入力分布の整列により，予測精度が大幅に向上した (delta-SSIM +0.082, SSIM +0.086)。
- 整列されたフレームワーク間の選択は，主要な評価指標に有意な影響を与えなかった。
- TRU（Temporal Retinal U-Net）は，様々なプラットフォームで最先端のベンチマークを上回り，履歴の長さとともに優位性が増した。
Link: https://arxiv.org/abs/2604.16955
物語性を考慮した製品グリッド・コラージュ生成のための自己推論エージェントフレームワーク [cs.CV]目的：物語性のある製品グリッド・コラージュの生成
- 現代マーケティングにおいて，製品の価値を伝え，顧客との感情的なつながりを築く上で，物語性のある製品写真が重要視されている。
- 既存の画像生成手法は，構造化された物語の計画やパネル間の連携をサポートしておらず，物語性や視覚的な一貫性に欠ける場合がある。
- 本研究は，視覚的な一貫性と美的調和を保ちつつ，製品の物語を効果的に伝えるグリッド・コラージュ生成を目指す。
- 提案手法は，製品の特性，使用場面，環境を明示的に表現する「製品物語フレームワーク」を構築し，統一された視覚スタイルでコラージュを生成する。
- 生成されたコラージュは，内容の妥当性と写真の品質の両方について評価され，必要に応じて反復的な自己修正を行うことで，徐々に改善される。
- 実験の結果，提案手法は，直接プロンプトによるベースラインと比較して，美的品質，物語性，視覚的な一貫性を一貫して向上させることが示された。
Link: https://arxiv.org/abs/2604.16958
不完全マルチビュークラスタリングのための双曲型表現学習の強化 [cs.LG, cs.CV]目的：不完全マルチビューデータからの識別的な表現学習
- 現実世界データは階層構造を持つことが多く，その構造を捉えた表現学習が重要である。
- 既存のユークリッド空間に基づく手法では，階層構造を持つデータに対し，意味的曖昧さが生じやすい。
- 双曲空間を利用し，構造を意識した潜在空間を構築することで，表現学習の精度を向上させる。
- 提案手法HERLは，双曲空間上で角度ベース損失と距離ベース損失を組み合わせた二重制約による対照学習を行う。
- HERLは，クロスビューの階層構造を考慮したプロトタイプ分布を整列させることで，グローバルな構造ずれを修正する。
- 実験結果から，HERLが最先端手法と比較して一貫して優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2604.16959
ハイパースペクトル画像分解の階層構造 [cs.CL, cs.CV, eess.IV]目的：ハイパースペクトル画像の構成要素の空間分布とスペクトル詳細の解明
- ハイパースペクトル画像は多様な分野で活用され，その分析技術の重要性は高い。
- スペクトルの変動や，構成要素数の決定，そして要素数の増加に伴う解像度の低下が課題。
- 階層構造を用いることで，これらの課題を克服し，より高精度な分析を実現する。
- 階層的な制約をDeep Nonnegative Matrix Factorizationに課すことで，ハイパースペクトル画像の分解を可能にした。
- 実験の結果，BLUTHsは，特に実験室環境において，最先端のアルゴリズムを上回る分解精度を示した。
- HYPSOやPACE衛星のデータを用いた海洋色分解においても良好な結果が得られた。
Link: https://arxiv.org/abs/2604.16969
UGD：現実世界のノイズ混じり点群ノイズ除去評価のための教師なし幾何距離 [cs.CV, cs.GR]目的：現実世界のノイズ混じり点群ノイズ除去手法の評価
- 点群データは，自動運転やロボット工学など幅広い分野で不可欠な役割を担う。
- 既存の評価指標は教師あり学習が必要であり，現実的な利用が困難である。
- ノイズ混じり点群のみからノイズ除去手法を評価する手法を確立する。
- 提案手法であるUGDは，教師なしで点群のノイズ除去性能を評価可能である。
- UGDは，クリーンな点群データから学習した事前モデルを用いて，ノイズ除去後の点群の幾何学的変化を測定する。
- 合成データおよび実データによる実験により，UGDは既存の教師あり評価指標と同等の性能を示すことが確認された。
Link: https://arxiv.org/abs/2604.16976
DOSE：汎用モデルによるマルチモーダルLLMのためのデータ選択 [cs.CV, cs.CL]目的：マルチモーダルLLMの学習用データ選択手法
- マルチモーダルモデルの性能向上には高品質なデータが不可欠であり，学習効率に影響を与える。
- 既存データセットにはノイズ，冗長性，アライメント不良の問題が存在し，フィルタリングコストも課題。
- タスク特化的な学習なしに，汎用モデルで効果的なデータ選択を行い，フィルタリングコストを削減する。
- タスク固有の学習なしでも，汎用モデルはテキスト品質と画像-テキストのアライメントを評価できる。
- 品質-アライメント分布と適応的重み付けサンプリングにより，多様性を維持しつつ情報量の多いサンプルを選択する。
- DOSEでフィルタリングしたデータで学習したモデルは，標準的なVQAおよび数学ベンチマークで，フルデータセットで学習したモデルと同等またはそれ以上の性能を示す。
Link: https://arxiv.org/abs/2604.16979
極端環境下全景セグメンテーション：URVIS 2026研究とベンチマーク [cs.CV]目的：極端環境下における全景セグメンテーションの性能評価と課題分析
- 自動運転やロボティクスにおいて，悪天候下での認識は安全性確保に不可欠である。
- 既存のセグメンテーション手法は，悪天候下や極端な環境下では性能が著しく低下する。
- マルチモーダルデータを用いたロバストな全景セグメンテーション手法の開発が求められている。
- URVIS 2026チャレンジでは，17チームが登録し，47件の提出があった。
- MUSESデータセットに基づき，重み付き全景品質(wPQ)をランキング指標として評価した結果，複数チームが良好な性能を示した。
- 本研究は，マルチモーダル全景セグメンテーションの現状と今後の課題を明らかにした。
Link: https://arxiv.org/abs/2604.16984
DVAR：ビデオの真正性検出のための敵対的マルチエージェント討論 [cs.CV]目的：ビデオの真正性検出における多エージェント討論による推論プロセス
- 動画生成技術の急速な進化により，メディアフォレンジックの重要性が増している。
- 従来の検出手法は，学習データ分布外の動画に対して汎化性能が低いという課題がある。
- 未知の生成アーキテクチャに対しても有効な，汎化性能の高い検出手法を確立すること。
- DVARは，学習を必要としないフレームワークとして，既存の最先端手法と同等の性能を達成した。
- 特に，未知の生成アーキテクチャに対する汎化性能において，優れた結果を示した。
- DVARは，ビデオの真正性を評価するための透明性のある議論を提供し，解釈可能な推論経路を提供する。
Link: https://arxiv.org/abs/2604.16987
Rule-VLN：意味的推論と幾何学的修正による知覚とコンプライアンスの架け橋 [cs.AI, cs.CV, cs.RO]目的：ルール遵守型ナビゲーションの実現
- 現実世界でのAI活用には，経路探索だけでなく社会的な規範遵守が不可欠である。
- 既存のナビゲーションAIは，物理的な到達可能性に偏重し，行動規範への配慮が不足している。
- 視覚情報と行動規範を統合し，安全性を考慮したナビゲーションAIを開発すること。
- 新たなベンチマーク「Rule-VLN」を構築し，多様な行動規範が設定された大規模な都市環境を整備した。
- SNRM（Semantic Navigation Rectification Module）を提案し，事前学習済みのAIモデルに安全性に関する知識を付与した。
- SNRMの導入により，ナビゲーション性能が向上し，CVRの低下とTCの向上が確認された。
Link: https://arxiv.org/abs/2604.16993
任意のサンプリングによるテンソル補完のための帰納的畳み込み核ノルム最小化 [cs.CV, cs.AI]目的：テンソル補完における復元性能の向上
- テンソル分解は，高次元データの解析に有効であり，多様な応用分野で重要である。
- 既存手法では，特異値分解の繰り返し計算により，計算コストが高いという課題があった。
- 事前学習された畳み込み固有ベクトルを用いることで，計算効率と復元性能の向上を目指す。
- 提案手法ICNNMは，既存手法CNNMと比較して，特異値分解を回避することで計算時間を大幅に削減する。
- 事前学習された畳み込み固有ベクトルが，より高い復元性能に貢献する。
- 動画補完，予測，フレーム補間などの実験により，ICNNMの優位性が確認された。
Link: https://arxiv.org/abs/2604.17001
TeMuDance：音楽駆動型ダンス生成におけるコントラスト学習に基づくテキスト制御 [cs.CV, cs.SD]目的：音楽とテキストに基づいたダンス生成におけるテキスト制御の実現
- 音楽とダンスの融合は，エンターテインメントや表現の新たな可能性を広げる重要な研究分野である。
- 既存手法では，自然言語によるダンス動作の制御が難しく，テキストとモーションの関連データが不足している。
- テキストによるダンス動作の制御を可能にし，音楽とテキストに沿った質の高いダンス生成を目指す。
- TeMuDanceは，大規模な音楽・テキスト・モーションのトリプレットデータセットなしでテキスト制御を実現する。
- モーションをセマンティックなアンカーとして活用し，音楽-ダンスとテキスト-モーションのデータセットを統合的に学習する。
- 実験の結果，既存手法と比較してダンスの質を維持しつつ，テキストによる制御性能が大幅に向上した。
Link: https://arxiv.org/abs/2604.17005
MobileAgeNet：モバイル展開のための軽量な顔年齢推定 [cs.CV, cs.AI]目的：モバイルデバイスでの顔年齢推定のための軽量なモデル
- 顔年齢推定は，セキュリティやマーケティングなど，様々な分野で応用が期待されている重要な技術である。
- 既存のモデルは，精度が高い反面，計算コストが高く，モバイルデバイスへの搭載が困難であるという課題がある。
- 本研究は，モバイルデバイスでもリアルタイムに動作する，軽量かつ高精度な顔年齢推定モデルを開発することを目的とする。
- MobileAgeNetは，UTKFaceデータセットにおいて4.65年の平均絶対誤差(MAE)を達成した。
- AI Benchmarkアプリケーションを用いた測定では，平均遅延時間が14.4msであり，モバイルデバイス上での効率的な推論が可能であることが示された。
- PyTorchで学習したモデルをONNX経由でTensorFlow Liteに変換するパイプラインは，推論性能を損なうことなく，実用的なオンデバイス条件を維持することが確認された。
Link: https://arxiv.org/abs/2604.17007
普遍的な骨格ベースのアクション認識に向けて [eess.SY, cs.SY, cs.CV]目的：異質な骨格データを用いたオープンボキャブラリーアクション認識
- ロボット技術の発展に伴い，人間やヒューマノイドロボットのアクション理解が不可欠となっている。
- 既存研究では，骨格データの異質性が考慮されておらず，均質なデータのみを用いてモデルが構築されている。
- 多様な骨格データに対応可能な，普遍的なアクション認識手法の確立を目指す。
- 大規模な異質骨格データセットHOVを構築し，複数の既存データセットを統合・改良した。
- Transformerベースモデルを提案し，統一的な骨格表現，モーションエンコーダ，多粒度モーション-テキストアラインメントを実現した。
- 提案手法は，複数のベンチマークにおいて有効性と汎化性能を示すことが確認された。
Link: https://arxiv.org/abs/2604.17013
指示に基づく動画編集のための画像操作の事前知識の活用 [cs.CV]目的：指示に基づいた動画編集能力の向上
- 動画編集は，ユーザーの意図に従って動画を修正する重要な技術である。
- 動画データの注釈コストが高く，動画編集データセットの規模や質が課題となっている。
- 画像編集データと動画データを共同で学習することで，この課題を解決する。
- 提案手法LIVEは，大規模な画像編集データを利用し，動画編集能力を向上させる。
- フレームごとのトークンノイズ戦略により，静止画像と動画のドメイン間の差異を軽減する。
- 様々な動画編集タスクにおいて，最先端の性能を達成した。
Link: https://arxiv.org/abs/2604.17021
CAM3DNet：複数カメラを用いた3D物体検出におけるマルチスケール特徴の包括的な活用 [cs.CV]目的：複数カメラ画像を利用した3D物体検出における，効率的なマルチスケール情報の活用
- 自動運転やロボティクスにおいて，周囲環境の正確な3D認識は不可欠である。
- 既存手法では，マルチスケール情報の動的な活用が不十分であり，計算コストも高い。
- マルチスケール特徴を効率的に活用し，より高精度かつ高速な3D物体検出を実現する。
- 提案手法CAM3DNetは，複合クエリ(CQ)，適応的自己注意(ASA)，マルチスケールハイブリッドサンプリング(MSHS)の3モジュールを組み合わせる。
- nuScenes，Waymo，Argoverse等のベンチマークデータセットにおいて，既存手法を上回る性能を示した。
- 各モジュールの効果や計算コストについて，詳細な実験による検証を行った。
Link: https://arxiv.org/abs/2604.17024
過食症の神経生物学的特徴づけのための解釈可能なモダリティ認識混合エキスパートフレームワーク：IMA-MoE [eess.SY, cs.SY, eess.SY, cs.SY, cs.CV]目的：過食症の神経生物学的特徴の解明
- 過食症は最も有病率の高い摂食障害であり，早期発見と生物学的介入が重要である。
- 既存の研究は仮説に基づいたモデルや単一モダリティ解析に偏っており，一般化が困難である。
- 多種多様なデータを統合し，過食症の一般化可能で生物学的に意味のある特徴を特定すること。
- 提案手法IMA-MoEは，既存手法と比較して，過食症と健常対照群の識別において優れた性能を示した。
- ホルモン測定値は，特に女性において予測に大きく貢献する性差特異的なパターンが明らかになった。
- 解釈可能な多変量モデリングが，神経精神疾患の精密かつ個別化された介入を促進する可能性を示す。
Link: https://arxiv.org/abs/2604.17028
解釈可能な多次元診断のための条件付きエビデンス再構成と分解 [cs.CV]目的：解釈可能な多次元診断のための条件付きエビデンス再構成と分解に関するフレームワーク
- 神経疾患は遺伝，脳の変化，環境要因など多岐にわたる要因が複雑に絡み合って発生する。
- 臨床データでは，モダリティ（計測手段）の欠損が一般的であり，既存モデルの汎用性が低い。
- 欠損モダリティ下でもロバストで解釈性の高い多次元診断を可能にすることを目的とする。
- CERDは，欠損モダリティを条件付きで再構成し，診断エビデンスを共有成分とモダリティ特有成分に分解する。
- ADNIデータを用いた実験で，CERDは既存手法を上回り，臨床的に妥当なエビデンス帰属を示す。
- これにより，信頼性の高い意思決定支援を実現する。
Link: https://arxiv.org/abs/2604.17030
SIF：大規模ビジョン言語モデルのセマンティックなイン分布フィンガープリント [cs.CV]目的：大規模ビジョン言語モデルの不正利用検出と知的財産保護
- 大規模言語モデルの急速な発展に伴い，知的財産の保護が重要になっている。
- 既存の所有権検証方法は，異常なクエリに依存するため，攻撃者による検出と除去が容易である。
- セマンティックに整合性のある，検出と回避が困難なフィンガープリントを開発すること。
- SIFは，セマンティックアラインドフィンガープリント蒸留（SAFD）により，視覚モダリティに透かし情報を埋め込む。
- ロバストフィンガープリント最適化（RFO）によって，モデルの変更に対する耐性を高めている。
- LLaVA-1.5とQwen2.5-VLでの実験により，SIFのステルス性と堅牢性が実証された。
Link: https://arxiv.org/abs/2604.17041
都市交差点における広角知覚と評価テストベッドを備えたリアルタイム自転車・歩行者安全システム [cs.CY, cs.HC, cs.CV]目的：都市交差点における自転車と歩行者の衝突回避
- 都市部では，自転車と歩行者の衝突事故が頻発しており，安全対策が急務である。
- 既存のシステムは高価であるか，リアルタイム性に欠ける場合が多く，汎用的なハードウェアでの実現が課題である。
- 低コストなハードウェアでリアルタイムな衝突警告システムを構築し，歩行者や自転車利用者の安全性を向上させる。
- 広角魚眼レンズの較正パイプラインを開発し，コーナー検出の失敗や最適化の不安定性を克服した。
- 魚眼レンズに対応した物体検出と，事前計算されたルックアップテーブルによる地面平面への投影を組み合わせた。
- シミュレーションテストの結果，本システムは93.3％の感度と92.3％の特異度を達成し，平均警告時間は3.3秒であった。
Link: https://arxiv.org/abs/2604.17046
OASIS：ストリーミングビデオ推論のためのオンデマンド階層型イベントメモリ [cs.CV]目的：ストリーミングビデオ推論における，長期的な文脈理解と構成的推論の精度向上
- ビデオ推論は，現実世界でのAI応用に不可欠であり，その性能が求められている。
- ストリーミングビデオでは，文脈が無限に拡大する中，重要な手がかりが少ないという課題がある。
- 重要な手がかりを効率的に発見し，必要な時にのみメモリを検索するメカニズムを構築すること。
- OASISは，ストリーミング履歴を階層型イベントとして構造化し，不確実性が生じた場合にのみ意味に基づいた検索を行う。
- 従来の埋め込み類似度に基づく検索よりも，OASISはより正確でノイズの少ないメモリを検索できる。
- 複数のベンチマークとバックボーンで，OASISは長期的な精度と構成的推論において顕著な改善を示した。
Link: https://arxiv.org/abs/2604.17052
ベクターグラフィックスと画像検索のためのトレーニングフリーな指示駆動型マルチモーダル埋め込み器 [cs.CL, cs.CV, cs.AI]目的：ベクターグラフィックスと画像検索におけるマルチモーダル埋め込み
- 多様なデータ形式を統合し，より高度な検索・理解を可能にするマルチモーダル研究の重要性。
- 従来のマルチモーダル手法は，構造化された情報を十分に活用できていないという課題。
- 指示に基づき，ベクターグラフィックス，画像，テキストを効果的に統合し，構造を意識した検索を実現すること。
- トレーニング不要で，大規模言語モデルを用いてテキスト，画像，SVGコードを共通の埋め込み空間にマッピングするフレームワークを提案。
- モダリティ固有の指示とSVGの構造的特徴を利用し，学習済み射影ヘッドや対照学習の必要性を排除。
- 新たに構築したテキストからSVGへの検索ベンチマークにおいて，既存手法を上回る性能を達成。
Link: https://arxiv.org/abs/2604.17054
ネックレスから連合へ：公正かつ自己利益に基づく連合価値計算の分配 [cs.GT, cs.MA]目的：特性関数ゲームにおける分散型連合形成における連合価値計算の，エージェント間での分配方法
- エージェント数が増加すると連合の数も指数関数的に増加し，効率的な計算分配が重要となる。
- 既存手法では，不均等な分配，冗長性，または連合メンバー外のエージェントへの割り当てといった問題が発生しうる。
- エージェント間の通信なしに，公正，効率，自己利益を保証する連合価値計算の分配を実現すること。
- 本研究では，各エージェントが自身のIDとエージェント総数のみを用いて計算分配を独立に決定する，Necklace-based Distributed Coalition Algorithm (N-DCA)を提案する。
- N-DCAは，漸近的に一定時間で分配列挙が可能であり，5つの望ましい特性（非通信，公平性，非冗長性，負荷分散，自己利益）を証明的に満たす。
- 実験評価により，DCVCと比較して，現実的な特性関数評価コスト下ではN-DCAがメモリ使用量，スケーラビリティ，自己利益保証の点で優位性を示すことが示された。
Link: https://arxiv.org/abs/2604.17057
負のプロンプトを用いたモーション誘導による意味的アラインメント：ゼロショット動画行動認識 [cs.CC, cs.CV]目的：ゼロショット動画行動認識のための意味的アラインメント手法
- 動画行動認識は，監視やロボット工学など，様々な応用において重要である。
- 既存手法では，既知クラスと未知クラス間の意味的ギャップが課題となっていた。
- 未知クラスへの汎化性能を向上させるため，意味的アラインメントを強化する。
- 本研究では，CLIPモデルを拡張し，分散埋め込みと意味誘導インタラクションを導入した。
- モーション分離モジュール（MSM）とモーション集約ブロック（MAB）により，モーション特徴の表現を洗練した。
- 正のプロンプトによるアラインメントに加え，負のプロンプトを活用し，未知クラスの認識精度を向上させた。
Link: https://arxiv.org/abs/2604.17062
バスケットHAR：バスケットボールトレーニングにおける人間活動認識とスポーツ分析のためのマルチモーダルデータセット [cs.DC, cs.DC, cs.CV]目的：バスケットボールトレーニングにおける人間活動認識とスポーツ分析のためのマルチモーダルデータセット
- 人間活動認識は幅広い応用可能性があり，近年注目を集めている分野である。
- 既存のデータセットは基本的な活動に偏っており，スポーツパフォーマンス分析のような特殊な用途には不十分である。
- バスケットボールトレーニングに特化したデータセットを提供し，高度な人間活動認識タスクを支援することを目的とする。
- 本研究では，慣性計測ユニット，心拍数，皮膚温度，ビデオ映像を含む多様なデータからなるBasketHARデータセットを新たに開発した。
- 実験結果は，データセットの複雑さと高度な人間活動認識タスクへの適合性を示している。
- バスケットボールトレーニングセッションの分析や，専門的なパフォーマンスレポートの生成への応用が期待される。
Link: https://arxiv.org/abs/2604.17065
NTIRE 2026 離岸流検出・セグメンテーションチャレンジ報告書 [cs.CV]目的：離岸流の画像における自動理解
- 離岸流は世界中で水難事故の原因となる危険な海流であり，早期発見が重要である。
- 離岸流の外観は，場所，視点，海況によって大きく変化するため，識別が困難である。
- 多様な条件下での離岸流検出・セグメンテーション技術の進展を目指す。
- 本チャレンジでは，159名の参加者が登録し，9つの有効なテスト提出が行われた。
- 評価指標は，$F_1[50]$, $F_2[50]$, $F_1[40\!:\!95]$, $F_2[40\!:\!95]$を組み合わせた複合スコアに基づきランキングが決定された。
- 事前学習済みモデルとデータ拡張，後処理を組み合わせた手法が主流であり，汎用的な画像認識モデルの進歩が離岸流理解に大きく貢献していることが示唆された。
Link: https://arxiv.org/abs/2604.17070
比較が好みを左右する：AI生成動画品質評価のための参照認識モデリング [cs.CV]目的：AI生成動画の品質評価手法の改善
- AI技術の発展により生成動画が増加しており，その品質を自動的に評価する重要性が高まっている。
- 既存手法は個々の動画を独立に評価するため，動画間の関係性を考慮できていない点が課題である。
- 動画間の比較を通じて品質評価を行うことで，より人間らしい評価を実現し，評価精度を向上させる。
- 提案手法RefVQAは，既存の高品質評価手法を複数の品質指標において上回る性能を示した。
- RefVQAは，意味的に関連する動画をグラフ構造で整理し，参照動画からの差異を集約することで評価精度を高めている。
- クロスデータセット評価により，RefVQAの高い汎化能力が確認された。
Link: https://arxiv.org/abs/2604.17074
D-プリズム：構造化された動的モデリングのための微分可能なプリミティブ [cs.CL, eess.SY, cs.SY, cs.CV]目的：構造化された動的オブジェクトの動的モデリング
- 構造化された動的モデリングは，ロボティクスやコンピュータグラフィックスにおいて重要である。
- 既存手法は，非構造化表現に依存し，適切な形状と関節運動の同時モデリングが困難である。
- プリミティブベース手法の動的領域への応用により，高精度な構造化動的モデリングを実現する。
- D-プリズムは，微分可能なプリミティブを動的領域に拡張することで，高精度な構造化動的モデリングを可能にする。
- 3DGSをプリミティブサーフェスに結合し，外観と形状のそれぞれの利点を活用している。
- 変形ネットワークと適応的制御戦略により，正確な動きとオブジェクトの空間的フットプリントを表現する。
Link: https://arxiv.org/abs/2604.17082
EvoComp：セマンティック誘導進化ラベリングによるマルチモーダル大規模言語モデルの視覚トークン圧縮学習 [cs.CV, cs.LG]目的：マルチモーダル大規模言語モデルにおける視覚トークン圧縮
- 近年，画像とテキストの理解において優れた性能を示す大規模言語モデルの重要性が増している。
- 高解像度画像や複数画像の場合，視覚トークン数が多くなり，推論効率が低下する点が課題である。
- 視覚およびテキスト情報を考慮し，重要なトークンを選択することで，トークン数を削減し，効率的な推論を可能とする。
- EvoCompは，既存の手法と比較して，タスク精度を維持しながらトークン数を大幅に削減できることが示された。
- 3倍のトークン圧縮下で元の精度を99.3%維持し，モバイルデバイスでは最大1.6倍の高速化を実現した。
- 進化ラベリング戦略と損失関数により，効果的なトークン圧縮とセマンティックな多様性の維持を両立している。
Link: https://arxiv.org/abs/2604.17087
テキストからモーション生成と骨格ベースのアクション認識の融合 [cs.CV]目的：テキストとモーションの対応付けに関する研究
- 人間中心のコンピュータビジョン分野において，行動認識とモーション生成は重要な課題である。
- 既存研究では，行動認識とモーション生成が分離して扱われ，両者の関連性が十分に解明されていない。
- モーション生成に不可欠な意味的理解を，行動認識と統合的に実現することを目指す。
- 提案手法CoAMDは，座標に基づき粗い段階から徐々に詳細なモーションを合成する。
- CoAMDの中核となるMulti-modal Action Recognizer(MAR)は，モーション生成のための勾配に基づいた意味的ガイダンスを提供する。
- 13のベンチマークデータセットを用いた実験により，提案手法が最先端の性能を達成し，汎用性も示された。
Link: https://arxiv.org/abs/2604.17090
ハダマールネットワークに基づくバイアス補正と残差ネットワークによる多次元MRI前立腺がん検出 [cs.CV, cs.LG]目的：前立腺がん検出のためのAIフレームワーク
- 前立腺がんは，男性に多い悪性腫瘍であり，早期発見が治療予後を大きく左右する。
- 多次元MRIは有用だが，画像内の輝度ムラが自動診断の精度を低下させる。
- 輝度ムラを抑制し，高精度な自動検出を実現することで臨床応用を目指す。
- 提案手法HBR-Net-18は，従来のラディオミクスやCNNモデルと比較して，感度と特異度のバランスが優れている。
- ハダマールU-Netによる輝度ムラの抑制とResNet-18によるパッチレベル分類を組み合わせた二段階のAIフレームワークが有効である。
- 2Dおよび3D情報を統合することで，空間的な一貫性を高め，検出精度を向上させている。
Link: https://arxiv.org/abs/2604.17107
臨床意図から臨床モデルへ：臨床医主導型AI開発のための自律コーディングエージェントフレームワーク [cs.CV]目的：臨床医主導の臨床AI開発のための自律型プロトタイプの構築と評価
- 臨床AIは医療の質を向上させる可能性を秘めているが，開発には専門知識が不可欠である
- 臨床医とAI開発者の間には専門知識の隔たりがあり，コミュニケーションの齟齬が生じやすい
- 臨床医が専門知識なしにAIモデルを開発できるよう，AI開発プロセスを簡素化すること
- 本研究で開発したシステムは，臨床医からの要求に基づいて様々な臨床タスクにおいて有望な性能を発揮した。
- 特に，胸部X線写真における気胸分類において，システムはショートカット学習を軽減し，胸ドレンへの依存度をほぼ半減させた。
- これらの結果は，自律コーディングエージェントが臨床AI開発をより臨床医主導型に変える可能性を示唆するものである。
Link: https://arxiv.org/abs/2604.17110
SAM2を用いた安定した動画セグメンテーションのための推論時 temporal probability smoothing [cs.CL, cs.CV]目的：弱いプロンプト下でのSAM2による安定した動画セグメンテーション
- 動画理解や制御において，正確なセグメンテーションは重要な役割を果たす。
- SAM2のようなモデルは汎化性能が高いが，弱い指示下では時間的な不安定性を示す。
- 時間的な一貫性を向上させ，動画セグメンテーションの信頼性を高めることを目指す。
- 提案手法は，再学習やアーキテクチャ変更なしに，SAM2の動画セグメンテーションの時間的安定性を向上させる。
- フレームごとのセグメンテーション確率マップと，optical flowに基づくmotion warping，およびセグメンテーションエントロピーから導出されるピクセルごとの不確実性推定を活用する。
- 実験結果から，提案手法は空間精度を維持しつつ，時間的安定性を一貫して改善することが示された。
Link: https://arxiv.org/abs/2604.17115
病理画像と電子カルテの多imodal融合による早期乳がん診断 [cs.CV]目的：病理画像と電子カルテの統合による乳がん早期診断の精度向上
- 乳がんは世界的に死亡原因上位であり，早期正確な診断が生存率向上に不可欠である。
- 既存研究では，病理画像と電子カルテを別々に扱うことが多く，統合的な解析が課題となっていた。
- 病理画像と電子カルテを融合し，より高精度で透明性の高い診断モデルを構築することを目指す。
- ResNet-18は，病理画像パッチレベル分類においてほぼ完璧な精度(1.000)とAUC(1.000)を達成した。
- XGBoostは，電子カルテ予測タスクで98%の精度を達成し，中間融合モデルはマクロ平均AUC 0.997を記録した。
- 中間融合モデルは，特に病理学的に重要な分裂像カテゴリー（AUC 0.994）において，単一modalのベースラインを上回る改善を示した。
Link: https://arxiv.org/abs/2604.17122
視覚と言語の接地におけるプロンプトの感度：わずかな表現の変化が物体検出にどのように影響するか [cs.CV]目的：視覚と言語モデルにおけるプロンプトのわずかな表現変化が物体検出の一貫性に与える影響の評価
- 視覚と言語モデルは，自然言語による指示に基づいて物体を特定する技術であり，幅広い応用が期待される。
- 同じ意味の表現でも，モデルの出力にばらつきが生じることがあり，その原因が不明である。
- プロンプトの表現変化に対するモデルの感度を分析し，不安定性の原因を特定することを目的とする。
- 「人」「人間」「歩行者」といった類似のプロンプトでも，異なる物体が選択されることが頻繁に確認された。
- このばらつきはランダムではなく，特定の方向に偏った構造を持つことが主成分分析によって示された。
- プロンプトのアンサンブル学習は品質向上に繋がらず，むしろ一般的な領域への選択をシフトさせる傾向が見られた。
Link: https://arxiv.org/abs/2604.17126