arXiv雑要約

画像・音声 - 2026/04/22 公開

シーングラフを構築できるか？分類ではないか？ FlowSG：フローマッチングによるプログレッシブな画像条件付きシーングラフ生成 [cs.CV]目的：シーングラフの生成
- 視覚的な理解において，対象の検出とそれらの関係性の把握は重要な課題である。
- 既存のシーングラフ生成は，生成的なタスクではなく，分類問題として扱われる傾向がある。
- 本研究は，シーングラフ生成を連続的な生成過程として捉え，より自然な表現を目指す。
- FlowSGは，ノイズから開始し，画像に応じてシーングラフを徐々に成長させる連続時間輸送モデルである。
- VQ-VAEを用いてシーングラフをトークン化し，グラフTransformerで形状とセマンティクスを結合して予測する。
- VGおよびPSGデータセットでの実験により，既存手法と比較して，平均で約3ポイントの性能向上が確認された。
Link: https://arxiv.org/abs/2604.18623
産業倉庫におけるAMRの安全性と効率性を高めるための視覚に基づく人間注意推定 [cs.CV, cs.RO]目的：人間注意推定手法
- 倉庫内では人間とAMRが混在し，人間の安全確保が重要である。
- 既存手法では人間を単なる障害物とみなし，AMRの行動が保守的になりがちである。
- 人間の注意状態を推定し，AMRが安全かつ効率的に動作するための解決策を提示する。
- 提案手法は，単眼RGBカメラを用いて人間の姿勢と頭の向きをリアルタイムに推定する。
- 推定結果に基づき，人間がAMRを認識しているかどうかを判断し，AMRの行動を適応させる。
- シミュレーション実験により，提案手法が人間の位置と注意を正確に検出し，AMRの安全性向上に貢献することが確認された。
Link: https://arxiv.org/abs/2604.18627
経験的パフォーマンス分析のための補完的な可視化スイート：ベートーヴェンのピアノとチェロソナタへのテンポグラフ，ヒストグラム，リッジラインプロット，積み上げ棒グラフ，複合グラフの応用 [cs.SD]目的：経験的パフォーマンス分析における可視化手法の相互補完性
- 音楽パフォーマンス分析は，演奏解釈や音楽表現の理解を深める上で重要である。
- 単一の可視化手法に依存すると，データの他の側面が隠れてしまうという問題がある。
- 複数の可視化手法を組み合わせることで，より包括的な分析を可能にすることを目指す。
- テンポグラフは，集計統計では見えない瞬間的な構造的類似性を示す。
- スプライン平滑化ヒストグラムは，ビニングアーティファクトによって抑制される二峰性や二次ピークを明らかにする。
- 本研究で提案するスプラインCDF平滑化法は，パフォーマンス分析のツールキットに新たな貢献をもたらす。
Link: https://arxiv.org/abs/2604.18630
ベートーヴェンのピアノとチェロのソナタにおけるテンポ表示の改訂に向けて：チェルニー，モシェレス，コリッシュ，および1930-2012年の録音実践 [cs.SD]目的：ベートーヴェンのピアノとチェロのソナタにおける歴史的メトロノームによるテンポ表示の検証と，それに基づく改訂テンポ表示の提案
- 古典音楽解釈において，作曲家の意図と演奏者の解釈のバランスは重要な課題である。
- ベートーヴェンのテンポ指示は，演奏者や研究者にとって長年，解釈が難しい問題として認識されてきた。
- 歴史的資料と現代の演奏データを比較分析し，演奏可能な現実的なテンポ範囲を提示することを目指す。
- チェルニーとモシェレスのテンポ表示は，録音データ全体で一貫して大きく上回っており，特に緩徐な楽章での乖離が顕著であった。
- コリッシュの1943年のテンポ表示は，チェルニーやモシェレスのものと比較して，実際の演奏慣行とより一致していた。
- 各楽章の主要なアレグロのテンポ伝統は80年間安定しており，これは多様な解釈の共存によるものである。
Link: https://arxiv.org/abs/2604.18631
気孔解析のための包括的システム：拡散復元検出ネットワークStomaD2 [cs.CV, stat.AP]目的：気孔の表現型分析のための高精度かつ高速な非侵襲的フレームワークの開発
- 植物の生理学的プロセスや環境応答を理解する上で，気孔は重要な役割を担う。
- 従来の気孔表現型分析は破壊的サンプリングや手動注釈に依存し，大規模かつ現地での展開が制限されていた。
- 複雑な画像条件下でも，高精度かつ高速な気孔表現型分析を可能にするシステムの構築を目指す。
- StomaD2は，拡散復元モジュールと回転物体検出ネットワークを統合し，優れた性能を発揮する。
- MaizeおよびWheatのデータセットにおいて，それぞれ0.994および0.992の高い精度を達成し，既存のベンチマークを大幅に上回った。
- 130種類以上の植物種で検証され，汎用性と大規模表現型分析，精密農業への応用可能性が示唆された。
Link: https://arxiv.org/abs/2604.18632
三次元外部音響問題に対する仮想境界積分ニューラルネットワーク [cs.SD, cs.LG]目的：三次元外部音響問題の解析手法
- 音響解析は，製品設計や環境評価など，幅広い分野で不可欠な技術である。
- 従来の境界積分法では，積分カーネルの特異性や近特異性が課題となっていた。
- 仮想境界を導入することで，特異性回避と高精度な音響解析を実現することを目指す。
- 仮想境界積分ニューラルネットワーク（VBINN）は，物理境界から離れた仮想境界を用いることで，特異性回避に成功した。
- VBINNは，解析精度と計算効率の両立を可能にし，複雑な形状の音響散乱問題にも適用できる。
- 数値実験の結果，VBINNは解析解やCOMSOLの結果と良好な一致を示し，特性周波数近傍での安定性も向上した。
Link: https://arxiv.org/abs/2604.18636
ダンスクラフター：振付構文による，きめ細かいテキスト駆動型ダンス生成 [cs.CV, cs.AI]目的：テキストによる制御可能なダンス生成の実現
- ダンスは芸術表現として重要であり，その自動生成技術は新たな創造的可能性を秘めている。
- 質の高いダンスデータセットの不足と，複雑な振付を表現することの難しさが課題となっていた。
- ダンスの空間的ダイナミクスと身体各部の独立した動きを考慮し，生成の質と制御性を向上させる。
- 独自の「振付構文」と大規模ダンスデータセット「DanceFlow」を構築することで，高精度なダンス生成を可能にした。
- 運動Transformer「DanceCrafter」は，安定した学習と高品質な動き生成を実現している。
- 実証実験とユーザー調査の結果，生成されるダンスの品質，制御性，自然さにおいて最先端の性能を示した。
Link: https://arxiv.org/abs/2604.18648
APRVOS：第5回PVUW MeViS-Audioトラック優勝 [cs.SD]目的：音声認識を用いた参照に基づくビデオオブジェクトセグメンテーションパイプライン
- ビデオ理解において，自然言語による指示に基づくオブジェクトの特定は重要な課題である。
- 音声による指示はテキストに比べてノイズが多く，対象物が映像内に存在しない場合がある。
- 音声認識のノイズと，映像内への対象物の存在確認という課題を解決する。
- 本研究では，音声認識，視覚的存在検証，粗セグメンテーション，そしてエージェントによる改良の段階を踏んだパイプラインを提案した。
- 提案手法は，音声由来のノイズを抑制し，対象物が映像内に存在しない場合は早期に処理を終了する。
- 粗セグメンテーションの結果を初期仮説として扱い，エージェントが信頼性や時間的関連性を評価し，SAM3を用いて精度を向上させている。
Link: https://arxiv.org/abs/2604.18665
整列と洗練：テキスト誘導による3D前立腺病変セグメンテーション [cs.CL, cs.CV]目的：前立腺病変の3Dセグメンテーション手法
- 前立腺癌の早期発見・治療には，正確な病変の検出と定量評価が不可欠である。
- 既存手法では，マルチモーダル情報を統合し，解剖学的整合性を保ちつつ高精度なセグメンテーションを実現することが困難である。
- テキストによる局所的なガイダンスを強化し，マルチモーダル融合を改善することでセグメンテーション精度向上を目指す。
- 提案手法は，テキストと画像の類似性を高める整列損失と，ヒートマップ損失により不要な活性化を抑制する。
- 最終段階では，信頼度の高い領域で局所的な境界修正を行う確信度ゲート付きマルチヘッドクロスアテンションリファイナーを採用する。
- PI-CAIデータセットにおいて，既存手法を上回り，最先端の性能を達成した。
Link: https://arxiv.org/abs/2604.18713
コンピュータビジョンを用いたトンボ類の色彩抽出パイプライン [cs.CV]目的：トンボ類の体部を識別・分割し，色彩情報を抽出するパイプライン
- 昆虫の形態的特徴と気候との相関は重要であり，生態系の保全評価に不可欠である。
- 既存のオープンソースデータセットには形態的特徴の注釈が不足しており，大規模なデータ収集が課題である。
- 市民科学プラットフォームの画像を活用し，自動的に体部の色彩情報を抽出することで，生態学的相関分析を可能にする。
- 深層ニューラルネットワークを用いたパイプラインにより，頭部，胸部，腹部，翅を高い精度で分割することができた。
- 限られた注釈付きデータと疑似教師データを用いてモデルを学習・改良することで，汎化性能を高めた。
- 本手法は，色彩と気候変動，生息地喪失，地理的場所との関連性など，大規模な生態学的相関分析を促進する。
Link: https://arxiv.org/abs/2604.18725
エージェント型Cアーム制御に向けた自律的な骨格ランドマーク局在化 [cs.CV]目的：骨格ランドマークの自律的な局在化
- 緊急介入を要する患者の迅速な治療が求められる医療現場において，Cアームの自動制御は重要である。
- 従来の深層学習アプローチが失敗した場合，手動操作に戻る必要があり，遅延が生じるという課題がある。
- マルチモーダル大規模言語モデルを活用し，臨床医のフィードバックを取り入れ，より正確な位置決めを実現する。
- ファインチューニングされた大規模言語モデルは，両方のデータセットにおいて，局在化タスクにおいて深層学習アプローチと同等の性能を示した。
- 大規模言語モデルは，推論と空間認識能力を示すことが定性実験で明らかになった。
- 本研究により，ファインチューニングされた大規模言語モデルが正確な骨格ランドマーク局在化を達成し，エージェント型自律Cアーム制御の可能性を示すことが示された。
Link: https://arxiv.org/abs/2604.18740
マッチ・エニイ・イベント：広基線におけるゼロショットモーションロバスト特徴点マッチング（イベントカメラ用） [cs.HC, cs.CV]目的：イベントカメラにおける広基線対応関係の実現
- イベントカメラは高速動作や低照度下で優れた性能を示すため，ロボット工学や自動運転などの分野で注目されている。
- イベントカメラの画像特徴量は動きによって大きく変化するため，広基線における対応関係の推定は困難である。
- 異なるデータセット間でも汎用的に対応関係を推定できるモデルを開発し，広基線対応関係の問題を解決する。
- 本研究では，一度学習したモデルをターゲットドメインの微調整なしに適用することで，広基線対応関係を実現するイベントマッチングモデルを提案した。
- 提案手法は，モーションにロバストで計算効率の良いアテンションバックボーンと，スパース性を考慮したイベントトークン選択を用いることで，大規模な学習を可能にしている。
- 複数のベンチマークにおける実験により，提案手法が既存のイベント特徴点マッチング手法を37.7%上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2604.18744
DeltaSeg：多階層アテンションと深層デルタ学習による多クラス構造欠陥セグメンテーション [cs.CV]目的：構造欠陥の多クラスセグメンテーション手法
- インフラの老朽化が進む中で，構造物の損傷を正確に把握することが重要である。
- 損傷の種類が多様で，データの不均衡性が高く，正確な境界線の抽出が困難である。
- 多様な損傷と条件に対応できる，高精度なセグメンテーション手法を開発する。
- DeltaSegは，既存の12個のアーキテクチャと比較して，S2DSデータセットとCulvert-Sewer Defect Dataset（CSDD）の両方で優れた性能を示した。
- 多階層アテンション機構と深層デルタ学習により，様々な損傷タイプ，撮影条件，構造形状に対して高い汎化性能を実現した。
- 特に，スキップコネクションにおけるDeep Delta Attention(DDA)モジュールが，ノイズ特徴の抑制と空間注意ゲートの強化に貢献している。
Link: https://arxiv.org/abs/2604.18745
URoPE：幾何学的空間における普遍的な相対位置埋め込み [cs.CV]目的：幾何学的空間における相対位置埋め込みの汎用化
- Transformerモデルにおいて位置情報をエンコードする上で，相対位置埋め込みは不可欠な要素である。
- 既存の手法は，1次元系列や規則的な2D/3Dグリッドといった固定された幾何学的空間に限定されており，汎用性に欠ける。
- 異なる視点や2Dと3D空間間の幾何学的推論を必要とするタスクへの適用を可能にする。
- URoPEは，RoPEを拡張し，異なる視点や次元間の幾何学的空間に適用可能な汎用的な相対位置埋め込みを提供する。
- URoPEは，パラメータフリーであり，カメラの内部パラメータに依存せず，グローバル座標系に不変である。
- 様々なタスク（新規視点合成，3D物体検出，物体追跡，深度推定）において，URoPEはTransformerベースのモデルの性能を向上させる。
Link: https://arxiv.org/abs/2604.18747
REVEAL：網膜形態計測と臨床的リスクのマルチモーダル視覚・言語アライメントによるADおよび認知症発生予測 [cs.CV, cs.AI]目的：アルツハイマー病および認知症の発生予測
- 網膜は非侵襲的に疾患早期の変化を捉え，認知症研究において重要である。
- 既存の手法では，画像とリスク因子を別々にモデル化し，複合的なパターンを捉えられていない。
- 網膜画像と臨床的特徴を統合し，早期リスク予測の精度向上を目指す。
- REVEALは，網膜 Fundus 像と個別化されたリスクプロファイルをアライメントするフレームワークである。
- 診断平均8年前（1-11年）にAD/認知症発生を予測可能であり，既存モデルを大きく上回る。
- リスク因子を臨床的に解釈可能な記述に変換することで，事前学習済みVLMsを活用している。
Link: https://arxiv.org/abs/2604.18757
CAHAL：臨床応用を考慮した低解像度MRIスキャンの解像度向上 [cs.CV]目的：臨床用MRIにおける解像度向上手法の開発
- 脳MRIの形態計測解析は，臨床現場で広く用いられており，脳疾患の診断や進行評価に不可欠である。
- ルーチン臨床で取得される厚いスライスを持つMRIでは，解像度が低く，正確な解析が困難であるという課題がある。
- 既存の解像度向上手法では，解剖学的構造の誤りや体積の過大評価が生じ，定量分析の精度を損なう問題を解決する。
- CAHALは，患者自身のネイティブな取得空間で直接動作する，幻覚に強い物理情報に基づいた解像度向上フレームワークである。
- CAHALは，ボリューメトリック解像度と取得異方性を条件とする，決定論的な二変量MoEアーキテクチャを採用している。
- T1強調画像およびFLAIRシーケンスの検証において，既存手法と比較して，精度と効率の点で最先端の結果を達成した。
Link: https://arxiv.org/abs/2604.18781
EfficientPENet：軽量なマルチモーダル融合によるスパースLiDARからのリアルタイム深度補完 [cs.CV]目的：スパースLiDAR計測と対応するRGB画像からの深度補完
- ロボットシステムにおける正確な3D知覚には不可欠な技術であり，自動運転や環境認識への応用が期待される。
- 既存手法は高い精度を達成するものの，組み込みハードウェアでのリアルタイムな利用を妨げる重いバックボーンアーキテクチャに依存している。
- 組み込みプラットフォームでのリアルタイム処理を可能にする，軽量かつ高精度な深度補完手法の開発を目指す。
- EfficientPENetは，従来のResNetエンコーダを最新のConvNeXtバックボーンで置き換え，深度ストリームにスパース不変畳み込みを導入することで，効率的な深度補完を実現した。
- KITTIベンチマークにおいて，EfficientPENetは631.94mmのRMSE，36.24Mのパラメータ数，20.51msのレイテンシを達成し，48.76FPSで動作する。
- BP-Netと比較して，パラメータ数を3.7倍，速度を23倍削減しながら，競合力のある精度を維持しており，リソース制約のあるエッジプラットフォームでの実用的なソリューションとなる。
Link: https://arxiv.org/abs/2604.18790
CrossPan：膵臓MRIセグメンテーションと汎化性能の包括的ベンチマーク [cs.CV]目的：膵臓MRIセグメンテーションのベンチマークデータセットおよび汎化性能の評価
- 腹部MRI分析において膵臓の自動セグメンテーションは不可欠であり，臨床応用が期待されている。
- 異なるMRIシーケンス間で学習したモデルの性能が著しく低下する問題が存在する。
- 異なるMRIシーケンス間での汎化性能のボトルネックを特定し，改善策を検討する。
- 異なるシーケンス間での性能低下は，施設間での変動よりも大きいことが示された。
- 最先端のドメイン汎化手法は，物理的なコントラストの変化に対してほとんど効果がないことが明らかになった。
- MedSAM2のような基盤モデルは，コントラストに依存しない形状特徴により，ある程度のゼロショット性能を維持した。
Link: https://arxiv.org/abs/2604.18797
新規製品に対するアソートメント決定における最適探索 [cs.SI, cs.GT, cs.LG]目的：新規製品のアソートメント決定を通じた最適探索
- プラットフォームにおける新規製品の導入は，顧客の多様なニーズに応え，収益向上に不可欠である。
- 新規製品の品質は当初不明であり，効果的な探索戦略の欠如が，学習の遅延や機会損失を引き起こす。
- アソートメント決定を通じて，プラットフォームが新規製品の品質を効率的に学習し，最適な探索を行うこと。
- 新規製品単独での提供よりも，既存の人気製品と組み合わせる方が常に最適である。
- 同時探索の最適数は，新規製品の潜在力に依存し，個々の購入確率には影響されない。
- UCBとThompson Samplingといった既存のバンディットアルゴリズムは，この設定ではそれぞれ過探索と探索不足に陥る。
Link: https://arxiv.org/abs/2604.18800
視覚言語モデルにおけるトーン誘発ハルシネーション評価のためのLLM-as-Judgeフレームワーク [cs.CV, cs.AI]目的：視覚言語モデルにおけるトーン（口調）が誘発するハルシネーションの評価
- 視覚言語モデルは実用的な場面で利用が増えているため，その信頼性評価は重要である。
- 既存のハルシネーション評価は中立的なプロンプトに偏っており，口調の影響を詳細に分析できていない。
- 段階的に口調を強めるプロンプトに対するモデルの応答を分析し，ハルシネーションの発生頻度と程度を評価する。
- 新たに構築したベンチマーク「Ghost-100」を用いて，9つのオープンウェイト視覚言語モデルを評価した。
- H-Rate（根拠のない肯定応答の割合）とH-Score（ハルシネーションの確信度と具体性）は，モデルの種類によって大きく異なった。
- 一部のモデルでは，中間的な口調でハルシネーションの感受性がピークに達するなど，単純な指標では捉えられないパターンが確認された。
Link: https://arxiv.org/abs/2604.18803
幾何学的デカップリング：潜在空間の構造的不安定性の診断 [cs.CV, cs.AI]目的：潜在拡散モデルの構造的不安定性診断
- 画像生成技術の発展に伴い，潜在拡散モデルの信頼性評価が重要になっている。
- 潜在拡散モデルは，編集時に意味的な不連続性が発生しやすいという課題がある。
- 生成ヤコビアンの幾何学的構造を分析し，不安定性の根本原因を特定すること。
- 生成ヤコビアンをLocal Scaling（容量）とLocal Complexity（曲率）に分解するRiemann幾何学的なフレームワークを導入した。
- 通常の生成では曲率が画像詳細を符号化する一方，OOD生成では不安定な意味境界に曲率が費やされている「幾何学的デカップリング」を発見した。
- この幾何学的誤配分が構造的不安定性の根源である「幾何学的ホットスポット」を特定し，生成信頼性の指標を提示した。
Link: https://arxiv.org/abs/2604.18804
データセット蒸留の再考：ソフトラベルに関する重要な示唆 [eess.SY, cs.SY, cs.LG, cs.CV]目的：データセット蒸留手法の性能評価と，データ品質が性能に与える影響の分析
- 大規模データセットの利用は深層学習の性能向上に不可欠だが，計算コストが課題となる。
- 既存のデータセット蒸留手法は，ソフトラベルの使用により性能向上が見られない場合がある。
- ハードラベルを用いたデータセット蒸留において，有効なサンプル選択方法を確立すること。
- 大規模データセット蒸留において，ソフトラベルはデータ品質の影響を小さくし，性能飽和を引き起こす。
- ハードラベル条件下では，RDEDがランダムベースラインを上回るが，コセット法と比較して改善の余地がある。
- CAD-PruneとCA2Dという新しい手法を導入し，ImageNet-1Kにおけるデータセット蒸留の性能を向上させた。
Link: https://arxiv.org/abs/2604.18811
DUALVISION：ロバストな視覚的推論のためのRGB-赤外マルチモーダル大規模言語モデル [cs.CV]目的：RGBと赤外画像の情報を統合した大規模言語モデルの性能向上
- 視覚的知覚と推論において，大規模言語モデルの重要性が増している。
- RGB画像のみでは，悪天候や低照度などの条件下で性能が低下しやすい。
- 赤外画像との融合により，これらの条件下でのロバスト性を向上させることを目指す。
- DUALVISIONは，RGBと赤外情報の効率的な統合を実現する軽量なモジュールである。
- DV-204KとDV-500という，赤外-RGB画像ペアとQAペアからなるデータセットを新たに構築した。
- 様々な視覚的劣化条件下において，DUALVISIONはオープンソースおよびクローズドソースの大規模言語モデルで優れた性能を発揮する。
Link: https://arxiv.org/abs/2604.18829
視覚基盤モデルからの知識蒸留による屋内フレーム単位LiDARセマンティックセグメンテーションの実現可能性 [cs.CV, cs.RO]目的：屋内LiDARスキャンのフレーム単位セマンティックセグメンテーション
- 3Dシーン理解やマッピングへの応用において，屋内環境の認識は重要である。
- 深層学習モデルの学習にはフレーム単位の正解データが必要だが，そのアノテーションはコストと時間がかかる。
- 視覚基盤モデルを利用した知識蒸留により，アノテーションコストを削減し，セグメンテーションの実現を目指す。
- 知識蒸留モデルは，疑似ラベルによる評価で最大56%のmIoUを達成した。
- 実ラベルによる評価では約36%のmIoUを示し，屋内LiDARセマンティックセグメンテーションへの応用可能性を実証した。
- クロスモーダルな知識蒸留により，手動アノテーションなしでのセグメンテーションが期待できる。
Link: https://arxiv.org/abs/2604.18831
グローバルエキスパートマッピングによるマルチドメイン学習 [cs.CV]目的：マルチドメイン学習における性能向上
- 人間の知覚は多様なドメインで汎化するが，既存のビジョンモデルは訓練データ外で苦戦する。
- データ分布やラベルの意味の不整合により，統一的な訓練は困難である。
- ドメインを意識したルーティングを可能にし，エキスパートの冗長な表現学習を抑制する。
- GEM（Global Expert Mapping）は，学習されたルーターをグローバルスケジューラーに置き換えるプランナーコンパイラフレームワークである。
- 線形計画緩和に基づくプランナーがデータセットからエキスパートへの割り当てを計算し，コンパイラがそれを決定論的なマッピングに変換する。
- UODBベンチマークで最先端の性能を達成し，表現の少ないデータセットや少数ショット適応において顕著な改善が見られた。
Link: https://arxiv.org/abs/2604.18842
DDF2Pol：偏波SAR画像分類のための二重ドメイン特徴融合ネットワーク [cs.CV]目的：偏波SAR画像分類のための二重ドメイン特徴融合ネットワークの提案
- 偏波SAR画像は，地表面の特徴を詳細に捉え，土地利用分類や環境モニタリングに不可欠である。
- 既存の手法では，偏波SAR画像の複雑な特徴を十分に活用できていない場合がある。
- SAR画像の空間的・偏波的情報を効率的に統合し，高精度な分類を実現することを目指す。
- 提案手法DDF2Polは，Flevolandデータセットで全体精度98.16%を達成し，最先端のモデルを凌駕した。
- San Franciscoデータセットでも全体精度96.12%を示し，高い分類性能を証明した。
- DDF2Polは，わずか91,371パラメータで高精度を実現し，限られた学習データでも実用的な解法を提供する。
Link: https://arxiv.org/abs/2604.18853
ConvVitMamba：ハイパースペクトル画像分類のための効率的なマルチスケール畳み込み，Transformer，Mambaベースのシーケンスモデリング [cs.CV]目的：ハイパースペクトル画像分類における効率的なフレームワークの提案
- ハイパースペクトル画像は，その高次元性から精密な分析が求められる分野であり，農業，環境監視等に活用。
- 従来の深層学習モデルは計算コストが高く，モデルサイズが大きいという課題があり，実用性に限界がある。
- 本研究は，効率性と精度を両立する新しいハイブリッドフレームワークを開発し，この課題を解決することを目指す。
- 提案手法ConvVitMambaは，既存のCNN，Transformer，Mambaベースの手法と比較して，精度，モデルサイズ，推論効率のバランスが良いことが実証された。
- マルチスケール畳み込み，Vision Transformer，Mambaベースのモジュールが，それぞれ異なる特徴を抽出し，相互に補完し合うことで，高い分類性能を実現している。
- PCAによる前処理が，冗長性の低減と効率向上に貢献し，多様なデータセットで良好な結果が得られた。
Link: https://arxiv.org/abs/2604.18856
近接解離による忘却を伴わないタスク切り替え [cs.LG, cs.CV]目的：継続学習における新たなタスク学習と過去知識の保持
- 継続学習は，人間の学習能力を模倣する上で不可欠であり，AIの応用範囲を広げる。
- 過去知識の忘却は継続学習における主要な課題であり，モデルの性能低下を招く。
- 学習と安定性のトレードオフを解消し，効率的なモデル容量の使用を目指す。
- 提案手法は，演算子の分割により，タスク学習と安定性の確保を分離している。
- スパース正則化により不要なパラメータを刈り込み，タスクに関連するパラメータを保持することで安定性を高める。
- 標準的なベンチマークにおいて，リプレイバッファやメタ学習を必要とせず，最先端の結果を達成した。
Link: https://arxiv.org/abs/2604.18857
HMR-Net：航空画像におけるクロスドメイン物体検出のための階層的モジュールルーティング [cs.CV]目的：航空画像におけるクロスドメイン物体検出の汎化性能向上
- 航空画像は，空間解像度やシーン構成の違いから，物体検出が困難な分野である。
- 既存手法は，異なるデータセット間で一貫した表現を学習できず，特定の地域や新規カテゴリへの対応が課題である。
- データセットとシーンに応じて専門的な処理モジュールを動的に選択し，汎化性能を高める。
- 提案手法は，地理情報に基づいたグローバルな専門家割り当てと，シーン分解に基づくローカルなサブモジュール割り当てを導入した。
- これにより，データセット間および複雑なシーン内での専門化が可能となり，汎化性能が向上した。
- また，外部セマンティック情報を用いた条件付き専門家モジュールにより，再学習なしでの新規カテゴリ検出を実現した。
Link: https://arxiv.org/abs/2604.18866
階層的に頑健なゼロショット視覚言語モデル [cs.CV, cs.AI, cs.LG]目的：ゼロショット視覚言語モデルのadversarial attackに対する頑健性向上
- 視覚と言語を理解するモデルは，画像認識や自然言語処理の融合において重要である。
- 既存の視覚言語モデルは，adversarial attackに対して脆弱であり，頑健性の向上が課題である。
- 階層的な埋め込みとadversarial fine-tuningにより，モデルの頑健性と汎化性能を向上させる。
- 提案手法では，階層的な埋め込みと複数レベルのadversarial robustなアライメントを用いることで，モデルの頑健性を高めている。
- 視覚埋め込みを階層の適切な深さに配置するメカニズムを導入し，埋め込みの深さとマージンサイズの関係を理論的に解明した。
- 複数のツリー構造を用いて意味的多様性を高め，adversarial attackに対する汎化性能を向上させている。
Link: https://arxiv.org/abs/2604.18867
地球観測と位置エンコーダのグラウンデッドフュージョンにおけるプロキシ整合性損失 [cs.CV, cs.AI]目的：地球観測データと位置エンコーダの融合におけるプロキシ整合性損失の導入
- 地球観測データは重要だが，高品質なラベル付きデータの不足が課題である。
- 関連する変数を利用できる場合もあるが，その活用方法が不明確である。
- 位置エンコーダを介してプロキシデータを活用し，汎化性能の向上を目指す。
- 提案手法は，位置エンコーダを通じてプロキシデータを暗黙的に統合することで，既存手法を上回る性能を示した。
- 特に，学習データが少ない地域での予測性能の向上が確認された。
- プロキシ整合性損失が，プロキシデータから豊富な情報を効果的に取り込んでいることが示唆される。
Link: https://arxiv.org/abs/2604.18881
アダプティブオクトリー上の代数的に整合性のある粗化を用いた行列フリー多重グリッド法 [math.NA, cs.GR, cs.NA]目的：不規則領域を持つアダプティブオクトリーグリッド上のポアソン方程式の解法
- 科学技術計算において，大規模な連立方程式の効率的な解法は不可欠である。
- 複雑な形状の領域に対する計算コストが高く，メモリ使用量が多いことが課題である。
- 行列フリー法と多重グリッド法を組み合わせ，計算効率とメモリ効率を向上させる。
- 本研究では，GPU上で動作する行列フリー多重グリッド前処理器を提案した。
- 提案手法は，第2次精度とグリッドサイズに依存しない収束性を示すことが実験的に確認された。
- 単一のNVIDIA RTX 4090 GPU上で，解析的なポアソン方程式に対して毎秒2億個以上のセルを処理できる性能を示した。
Link: https://arxiv.org/abs/2604.18886
発話様式間におけるsEMG符号化精度の比較：調音特徴と音素特徴を用いた検討 [cs.CL, cs.SD, cs.CL]目的：発話様式（朗読，模倣，心内発話）におけるsEMG包絡波の予測精度に関する比較
- 音声コミュニケーションにおける新たな入力手段として，sEMGに基づくサイレントスピーチ技術への期待が高まっている。
- sEMGから音声を直接復元する際の符号化方法が課題であり，有効な特徴量の選択が重要である。
- 調音特徴SPARCがsEMGの予測において，音素特徴よりも有効性を示すかを検証する。
- SPARC特徴量は，ほぼ全ての電極と全ての発話様式において，音素特徴よりも高い予測精度を示した。
- 朗読と模倣の発話は同程度の性能を示し，心内発話においても有意な予測が可能であった。
- SPARC特徴量が予測精度に大きく貢献し，音素特徴量の寄与は小さいことが示された。
Link: https://arxiv.org/abs/2604.18920
タダブル：大規模コーラン音声データセット [cs.CY, cs.SD, cs.AI]目的：大規模コーラン音声データセット
- コーラン研究への関心が高まる中，音声データの重要性は増している。
- 既存のコーランデータセットは規模と多様性の両面で不足している。
- 多様なコーラン音声データを提供し，研究の発展を支援すること。
- 本研究では，1400時間以上のコーラン音声を収録した「タダブル」を構築した。
- 600人以上の朗読者による多様な朗読スタイル，声質，録音条件を網羅している。
- このデータセットは，コーラン音声研究のための包括的なリソースとなる。
Link: https://arxiv.org/abs/2604.18932
ローカリゼーション誘導による前景拡張 [cs.CV, cs.RO]目的：自動運転における前景知覚の向上
- 悪天候時など視認性の低い環境下での自動運転システムの性能維持は重要である。
- 高精度HDマップの作成・維持コストが高く，大規模な展開が課題となっている。
- オンラインでの幾何学的コンテキストの補完とローカリゼーションの改善を目指す。
- LG-FAは，フレームごとのBEV予測から疎なグローバルベクトル層を構築する。
- クラス制約幾何学的アライメントにより，自己位置推定とローカルトポロジーの補完を同時に行う。
- 拡張された前景を統合的なグローバルフレームに再投影し，BEV表現の完全性と安定性を向上させる。
Link: https://arxiv.org/abs/2604.18940
顕微鏡画像からの自動的な結晶粒度推定に向けた基盤モデルとASTM金属材料規格の架け橋 [cs.CV]目的：顕微鏡画像からの結晶粒度自動推定パイプライン
- 材料の品質管理において，結晶粒度は重要な指標である。その評価の効率化が求められている。
- 複雑な結晶粒構造と教師ありセグメンテーションに必要なデータ量により，標準化された金属材料指標の抽出は困難である。
- 基盤モデルを活用し，より正確かつ効率的な結晶粒度推定手法を確立すること。
- Cellpose-SAMを微細構造に適応させ，ASTM E112 Jeffriesプランimetricモジュールと統合したパイプラインを提案。
- 提案手法は，U-Net，MatSAM，Qwen2.5-VL-7Bと比較して，卓越したトポロジカル分離を維持し，優れた性能を示した。
- わずか2つの訓練サンプルで，平均絶対パーセント誤差（MAPE）1.50%という高い精度でASTM結晶粒度数(G)を予測可能であることを示した。
Link: https://arxiv.org/abs/2604.18957
AIを活用した画像ベースのハイブリッド視覚/力制御による腱駆動空中連続体マニピュレータ [cs.HC, cs.CY, cs.RO, cs.CV]目的：腱駆動空中連続体マニピュレータの，AIを用いたハイブリッド視覚/力制御フレームワーク
- ロボット工学分野において，複雑な環境下での自律的な操作は重要な課題である。
- 従来の制御手法では，環境の不確実性やセンサノイズへの対応が難しく，ロバスト性に課題がある。
- 本研究では，画像と力の情報を統合し，不確実性に強い制御手法を開発することで，より高度な操作性能を実現する。
- 提案手法は，高速固定時間スライディングモード制御とニューラルネットワークを組み合わせることで，視覚と力に関する不確実性をオンラインで学習する。
- 最新のグラフニューラルネットワークを用いて特徴抽出を行うことで，線特徴を利用した視覚サーボイングによる，力制御と画像特徴誤差の同時制御を可能にした。
- シミュレーションと実験の結果から，提案手法が様々な初期条件や環境下でロバストな操作性能を発揮することが示された。
Link: https://arxiv.org/abs/2604.18961
臨床的に許容可能な胸部X線レポート生成に向けたパイロット研究：CXRMate-2の質的レトロスペクティブ研究 [cs.CV]目的：臨床的に利用可能な胸部X線レポート生成モデルの開発
- 医療現場における画像診断の効率化が求められており，レポート作成の自動化は重要な課題である。
- 既存の胸部X線レポート生成モデルは性能が向上しているものの，放射線科医による評価が限られており，臨床的有用性が不明確である。
- 放射線科医のレポートと同等の品質を持つレポート生成モデルを開発し，臨床現場での活用可能性を探ること。
- CXRMate-2は，既存のモデルと比較して，MIMIC-CXRデータセットにおいて，GREENとRadGraph-XLでそれぞれ11.2%と24.4%の性能向上を達成した。
- 質的評価において，生成されたレポートは45%の評価で放射線科医のレポートと同等または好ましいと判断された。
- 放射線科医のレポートは再現率で優位性があったが，生成されたレポートは可読性で好まれる傾向があった。
Link: https://arxiv.org/abs/2604.18967
AdaGScale：3Dガウススプラッティングにおける視点適応ガウススケーリングによるガウス-タイルペアの削減 [cs.CV]目的：3Dガウススプラッティングにおけるガウス-タイルペア数の削減
- 3Dシーンの高速レンダリングは，VR/AR等の応用において不可欠であり，その重要性は高い。
- ガウススプラッティングは計算コストが高く，特にガウス-タイルペア数の削減が課題となっていた。
- ガウス周辺領域の色寄与に基づき，ガウスサイズを適応的に調整することでレンダリング速度を向上させる。
- AdaGScaleは，ガウス周辺タイルの色寄与が無視できるという観察に基づき，ガウスサイズを調整する。
- その結果，重要度の低いガウスとタイルの交差数を減らし，レンダリング速度が向上する。
- 実験的に，AdaGScaleはGPU上で元の3D-GSに対して13.8倍の高速化を達成し，PSNRはわずか0.5dBの低下にとどまった。
Link: https://arxiv.org/abs/2604.18980
構造化された推論と内省的洗練を用いたマルチエージェントフレームワークによる多Modal共感応答生成 [eess.SY, cs.SY, cs.CV]目的：多Modal共感応答生成の精度向上
- 人間は感情を理解する際に構造的な思考を行うため，より自然な応答生成が求められる。
- 既存手法は多Modal情報を直接応答に変換するため，感情の認識過程における構造化が欠如している。
- 感情の曖昧性から生じるバイアスを解消し，より適切な共感応答を生成することを目指す。
- 提案手法は，多Modal情報の知覚，感情予測，戦略計画，応答生成を段階的に行う構造化された推論モジュールを導入した。
- グローバルな内省エージェントが中間状態や生成された応答を監査し，感情バイアスや共感エラーを除去する。
- IEMOCAPおよびMELDのベンチマーク実験において，最先端手法と比較して優れた共感応答生成能力を示した。
Link: https://arxiv.org/abs/2604.18988
AutoAWG：自動車動画のための適応的マルチコントロールによる悪天候生成 [cs.CV, cs.AI, cs.MM]目的：自動車運転における悪天候下での知覚の堅牢性向上
- 自動運転技術の安全性を確保する上で，悪天候下での知覚能力は不可欠である。
- 悪天候時の実データが不足しており，既存の生成手法では視覚品質と注釈の再利用性の両立が困難である。
- 悪天候動画を生成し，実データ不足を補うことで，自動運転システムの知覚性能を向上させる。
- AutoAWGは，複数のコントロールを適応的に融合することで，悪天候のスタイルと安全目標の忠実性を両立する。
- 消失点に基づいた時間的合成戦略により，合成データへの依存度を低減し，訓練シーケンスを構築する。
- nuScenes検証セットにおいて，既存手法と比較してFIDとFVDを大幅に低減し，優れた性能を示した。
Link: https://arxiv.org/abs/2604.18993
勾配に基づく強化学習による分布一致蒸留の誘導 [cs.CL, cs.DC, cs.MS, cs.CL, cs.LG, cs.CV]目的：少ステップ生成における分布一致蒸留の品質向上
- 拡散蒸留は少ステップ生成に有効だが，サンプリング速度と品質のトレードオフが存在する。
- 従来の強化学習との単純な融合では，初期段階のノイズにより報酬が不安定になりやすい。
- 蒸留勾配を主な最適化信号とすることで，報酬の信頼性を高め，最適化のずれを抑制する。
- 提案手法GDMDは，少ステップ生成における最先端の性能を達成した。
- 4ステップモデルは，多ステップの教師モデルの品質を上回り，既存のDMDRの結果をGenEvalと人間評価で大幅に上回った。
- スケーラビリティの潜在力も示唆されている。
Link: https://arxiv.org/abs/2604.19009
CDTに基づくAWW（アンガンワディワーカー）研修内容，ILA（漸進的学習アプローチ）モジュールの分析 [cs.HC, cs.GT]目的：AWW（アンガンワディワーカー）研修内容の分析
- 地域保健活動の質向上は，母子保健や栄養改善に不可欠である。
- AWWの研修内容は，地域や経験によって均一でない場合がある。
- 研修内容を分析し，学習目標と教育手法を明確にすることで，効果的な研修プログラムを開発する。
- ILAモジュールを構成要素（事実，概念，手順，原理）に分類し，学習目標を設定した。
- CDT（構成要素表示理論）を用いて，内容と学習目標を関連付けた。
- 分析結果に基づき，ゲーミフィケーション学習を用いたAndroidアプリによる研修の再活性化を目指す。
Link: https://arxiv.org/abs/2604.19032
人間のように探索：オンラインSG-メモ構築による具現化されたエージェントの自律探索 [cs.CV]目的：複雑なナビゲーションタスクにおける長期的な推論を可能にする構造化された空間記憶の構築
- ロボットが複雑な環境で自律的に行動するためには，効率的な環境理解と空間認識が不可欠である。
- 従来の空間記憶構築はオフラインで行われ，人間のような意味的な理解を取り入れられていない。
- 本研究は，意味的情報に基づいたオンラインでの空間記憶構築による探索効率の向上を目指す。
- 提案手法ABot-Explorerは，大規模な視覚言語モデルを用いて，ナビゲーションに重要な意味的アフォードを抽出する。
- 抽出されたアフォードを階層的なSG-メモに動的に統合することで，人間のような探索ロジックを模倣し，効率的な環境網羅を可能にする。
- 実験結果から，提案手法は既存手法と比較して探索効率と環境網羅率において有意な改善が見られた。
Link: https://arxiv.org/abs/2604.19034
生成的なテクスチャフィルタリング [cs.CV]目的：テクスチャフィルタリングのための生成手法
- 画像処理において，テクスチャの適切な処理は，視覚的な品質向上に不可欠である。
- 従来のテクスチャフィルタリングは，複雑なパターンや構造の保存が困難であった。
- 事前学習済み生成モデルを活用し，テクスチャ除去と構造保持の両立を目指す。
- 提案手法は，既存手法と比較して優れた性能を示し，難しいケースにも有効であることが確認された。
- 事前学習済み生成モデルを２段階でファインチューニングすることで，テクスチャフィルタリングの精度を向上させた。
- 教師あり学習と強化学習を組み合わせることで，少量のペア画像と大量のラベルなしデータで効果的な学習を実現した。
Link: https://arxiv.org/abs/2604.19039
2025年低消費電力コンピュータビジョンチャレンジ優勝解法の評価 [cs.CV]目的：低消費電力コンピュータビジョンモデルの効率性評価
- エッジデバイスの普及に伴い，低消費電力な画像処理技術の重要性が高まっている。
- 既存モデルは，精度と消費電力のバランスが課題であり，エッジデバイスへの実装が困難である。
- 本研究は，エッジデバイス向けに最適化された高性能なビジョンモデル開発を促進する。
- 2025年のLPCVCは，画像分類，テキストプロンプトによるセマンティックセグメンテーション，単眼深度推定の3つのトラックで構成された。
- Qualcomm AI Hubを利用した評価フレームワークにより，一貫性と再現性の高いベンチマークを実現した。
- 各トラックの優勝解法を紹介し，今後のコンピュータビジョンコンペティションに向けた提言を行った。
Link: https://arxiv.org/abs/2604.19054
ATRIE：ロバストな推論と感情のための適応的チューニング，パーソナ駆動型音声合成 [cs.SD]目的：パーソナ駆動型音声合成におけるロバストな推論と感情表現の実現
- 没入型マルチメディア体験において，高品質なキャラクター音声合成は不可欠である。
- 既存システムでは，多様な感情表現において一貫したキャラクター性を維持することが困難である。
- ATRIEは，一貫したキャラクター性を保ちつつ，豊かな感情表現を可能にする。
- ATRIEは，Persona-Prosody Dual-Track (P2-DT) アーキテクチャにより，音色と韻律を分離して生成する。
- ATRIEは，大規模言語モデルの知識を活用し，ゼロショット話者検証で高い性能（EER: 0.04）を達成した。
- 拡張されたAnimeTTS-Bench (50キャラクター) において，生成およびクロスモーダル検索で最先端の性能（mAP: 0.75）を示した。
Link: https://arxiv.org/abs/2604.19055
ビジョンと言語ナビゲーションにおける自己改善エージェントのバランスの重要性 [cs.RO, cs.CV]目的：ビジョンと言語ナビゲーションにおける自己改善メカニズムのバランス
- ロボットナビゲーションの自律性を高める上で，視覚と言語情報の統合は不可欠である。
- 自己改善エージェントは，多様な行動と学習の安定性のバランスを取ることが難しかった。
- 多様性と安定性を両立するメカニズムを構築し，自己改善の信頼性を向上させる。
- 提案手法SDBは，隠れ状態の制御されたシフトにより行動仮説を多様化し，信頼性に基づいた評価と集約を行う。
- 明示的な正則化項により，仮説間の相互作用を抑制し，多様性の崩壊を防ぎ，学習の安定性を高める。
- R2R，SOON，REVERIEでの実験で性能向上が確認され，REVERIE val-unseenでSPLとOSRがそれぞれ向上した。
Link: https://arxiv.org/abs/2604.19064
協調強制ゲームにおける学習の最終反復保証 [cs.GT, cs.SY, eess.SY, math.OC, stat.ML]目的：協調強制ゲームにおける学習の最終反復保証
- ゲーム理論は，経済学，コンピューター科学など幅広い分野に応用され，社会現象の分析に不可欠である。
- 従来の解析ではノイズが消失することを前提としており，現実の学習環境での応用が難しい場合がある。
- 非消失ノイズ下での最終反復境界を確立し，より実用的な学習アルゴリズムを開発することを目指す。
- 協調強制ゲームにおいて，ノイズ付きフィードバック下で，バニラ確率的勾配降下法に対する有限時間最終反復保証を確立した。
- ノイズの二乗モーメントが反復の二乗ノルムに比例してスケールするという，より一般的なノイズモデル下での解析を実現した。
- 最終反復境界は$O(\log(t)/t^{1/3})$であり，反復がナッシュ均衡の集合にほとんど確実に収束することも示した。
Link: https://arxiv.org/abs/2604.19065
適応的確率ガウス較正によるテスト時適応 [cs.CV, cs.AI]目的：マルチモーダルモデルにおける分布シフトへの耐性を向上させるテスト時適応手法
- マルチモーダル学習は，多様な情報源を統合し，よりロバストで汎化性能の高いモデル構築に不可欠である。
- 既存のマルチモーダルテスト時適応は，カテゴリごとの分布の明示的なモデリングが不十分であり，精度と信頼性に課題がある。
- カテゴリごとの分布を明示的にモデリングし，モダリティ間の非対称性を修正することで，より正確な予測と信頼性の高い決定境界を実現する。
- 提案手法は，カテゴリ条件付き分布を明示的にモデル化する調整された確率ガウスモデルを導入することで，マルチモーダルテスト時適応の性能を向上させる。
- モダリティ間の非対称性の悪影響に対抗するため，適応的なコントラスト的な非対称性修正技術を提案し，キャリブレーションされた予測と信頼性の高い決定境界を導く。
- 多様なベンチマークにおける実験により，提案手法が幅広い分布シフト下で最先端の性能を達成することが示された。
Link: https://arxiv.org/abs/2604.19093