arXiv雑要約

画像・音声 - 2026/05/07 公開

大規模音声埋め込みベンチマーク(MSEB)におけるLLMの性能評価 [cs.SD, cs.LG]目的：大規模音声埋め込みベンチマーク(MSEB)におけるLLMの性能
- 音声処理技術は，多様な応用分野で不可欠であり，その進歩が求められている。
- 既存の音声モデルは，特定のタスクに特化しており，汎用性に課題がある。
- LLMを用いた音声処理の可能性を探り，最適なモデリング手法を明らかにすること。
- GeminiやGPTといった主要なLLMをMSEBの8つの主要な機能で評価した結果，性能とロバスト性にモーダリティギャップが残存することが示された。
- 最適なモデリング手法は特定されず，ユースケースの要件やレイテンシ，コスト，推論深度などの前提条件に依存することが明らかになった。
- 単一のマルチモーダルバックボーンが複雑なタスク固有のパイプラインに取って代わる可能性が示唆された。
Link: https://arxiv.org/abs/2605.04556
効率的な形状制御による高解像度衛星画像合成 [cs.CV, cs.AI]目的：高解像度衛星画像合成手法
- 機械学習モデルの性能向上に，高品質な衛星画像データが不可欠である。
- リモートエリアや稀な事象に関する高解像度衛星画像は，入手が困難である。
- 既存の拡散モデルを制御し，形状に沿った画像合成を可能にすること。
- 提案手法は，ウィンドウ化されたクロスアテンションモジュールを用いることで，効率的な形状制御を実現した。
- 既存の制御手法と比較して，同等の性能を維持しつつ，形状制御マップとの整合性が向上した。
- 現在の評価手法の限界が示され，整合性評価の重要性が強調された。
Link: https://arxiv.org/abs/2605.04557
SAMIC：効率的な知覚画像圧縮のための軽量な意味認識型Mamba [cs.IR, cs.CV]目的：知覚画像圧縮におけるレート・歪み・知覚間のトレードオフの改善
- 画像圧縮は，データ容量の削減と効率的な画像伝送・保存に不可欠である。
- 既存の知覚画像圧縮手法は，計算コストが高く，モデルが複雑になりがちである。
- Mambaの長距離モデリング能力を活用し，計算効率の高い圧縮手法を開発する。
- 提案手法SAMICは，動的にクラスタリングされた意味特徴によるスキャンにより，Mambaの因果制約と長距離情報減衰を緩和する。
- SVD-RRMモジュールは，潜在特徴の低ランク近似により，チャンネルごとの冗長性情報を削減する。
- 実験の結果，SAMICは最新手法と比較して，レート・歪み・知覚間のトレードオフとモデルの複雑さにおいて優れた性能を示す。
Link: https://arxiv.org/abs/2605.04560
オープンソース画像編集モデルはゼロショットの視覚学習者である [cs.AR, cs.RO, cs.DC, cs.CV, cs.CL]目的：オープンソース画像編集モデルのゼロショット視覚理解能力の評価
- 大規模生成モデルは，明示的に学習していない視覚タスクも解決可能であることが示されており，その応用が期待される。
- 既存の研究はクローズドソースモデルに依存するか，タスク固有の調整が必要であり，オープンソースモデルの能力は不明であった。
- 本研究は，事前学習のみで，オープンソース画像編集モデルがゼロショットで視覚タスクをこなせるか検証する。
- Qwen-Image-Edit，FireRed-Image-Edit，LongCat-Image-Editの3モデルを評価し，ファインチューニングなしでも視覚理解能力があることを確認した。
- FireRed-Image-EditはNYUv2の表面法線推定において，ファインチューニング済みのMarigoldやVision Bananaと同等以上の性能を示した。
- LongCat-Image-EditとQwen-Image-Editはそれぞれ，深度推定のデータセットにおいて優れた結果を得た。また，Qwen-Image-Editはセマンティックセグメンテーションにおいても良好な結果を示した。
Link: https://arxiv.org/abs/2605.04566
文脈内スパース注意による超高速ビデオ編集 [cs.CV]目的：文脈内学習を用いたビデオ編集における計算ボトルネックの解消
- ビデオ編集は高度化し，文脈内学習が注目されている。効率的な処理が求められている。
- 文脈内学習における二次的な注意コストが，計算資源の大きな制約となっている。
- 文脈内の冗長性を削減し，効率的な注意機構を構築することで，高速化と高精度化を両立する。
- 提案手法In-context Sparse Attention (ISA) は，ほぼ損失なくスパース化を実現し，計算コストを削減する。
- LIVEditorは，ISAと高品質なデータパイプラインにより，EditVerseBench等で最先端手法を上回る性能を示す。
- 注意モジュールのレイテンシを約60%削減し，視覚的な品質を維持した高速なビデオ編集を実現した。
Link: https://arxiv.org/abs/2605.04569
VL-UniTrack：視覚言語プロンプトを用いたUAV-地上視覚追跡の統一フレームワーク [cs.CV]目的：UAVと地上からの同時物体追跡
- UAVと地上からの同時追跡は，監視や自律ナビゲーションなど幅広い応用が期待される。
- 既存手法は特徴抽出が分離しており，視点差が大きい場合に信頼性の高い対応付けが困難である。
- 視覚言語プロンプトにより，視点間の特徴抽出を統合し，信頼性の高い追跡を実現する。
- 本研究では，視覚言語プロンプトを用いた統一フレームワークVL-UniTrackを提案した。
- 提案手法は，単一の共有エンコーダにより視点間の特徴分離を解消し，十分なクロスビュー相互作用を可能にした。
- 実験結果から，提案手法が最新ベンチマークにおいて最先端の性能を達成することが示された。
Link: https://arxiv.org/abs/2605.04574
光場超解像のための全方向エピポーラ画像Transformer [cs.CL, cs.CV]目的：光場画像の超解像性能向上
- 光場画像は，視差情報を利用することで臨場感あふれる画像表現が可能である。
- 既存のTransformerベース手法では，斜め方向のエピポーラ幾何学の活用が不十分である。
- 全方向のエピポーラ画像を明示的にモデル化し，光場画像の幾何学的な特徴を最大限に活用する。
- GTFは，水平，垂直，45度，135度のエピポーラ画像を統合的に処理することで，従来のTransformerベース手法を上回る性能を示す。
- 推論時間の最適化により，さらなる性能向上が確認された。NTIRE 2026の評価において，高いPSNR値(32.78dB)を達成した。
- 軽量版のGTF-Tinyは，パラメータ数と計算量を抑えながらも，高い超解像性能を維持している(32.57dB, 0.915Mパラメータ, 19.81 GFLOPs)。
Link: https://arxiv.org/abs/2605.04581
拡散から修正フローへ：テキストに基づくセグメンテーションの再考 [cs.CL, cs.HC, cs.CV, cs.AI]目的：テキストプロンプトからの画像セグメンテーション
- 従来の固定カテゴリセグメンテーションより柔軟で応用範囲が広い。
- 拡散モデルの生成的性質が，識別的なセグメンテーションタスクに悪影響を及ぼす。
- 拡散モデルのノイズ除去プロセスに依存しない，直接的なマッピング学習を目指す。
- 提案手法RLFSegは，潜在空間内で画像からセグメンテーションマスクへの直接マッピングを修正フローを用いて学習する。
- 従来の拡散モデルベースの手法と比較して，特にゼロショットシナリオで大幅に性能が向上する。
- ラベルの改良と適応的なワンステップサンプリング戦略により，単一推論ステップでも高い精度を実現する。
Link: https://arxiv.org/abs/2605.04590
DiCLIP：拡散モデルがCLIPの密な知識を強化し，弱学習セマンティックセグメンテーションを実現 [cs.CV]目的：弱学習セマンティックセグメンテーションにおける性能向上
- 画像認識の精度向上は，コンピュータビジョンの重要な課題であり，様々な応用分野に貢献する。
- 既存手法では，CLIPの密な知識が十分に活用されておらず，CAM生成の精度が限界を迎えている。
- CLIPの知識を拡散モデルで強化し，より精度の高いセグメンテーションを実現することを目指す。
- 提案手法DiCLIPは，Visual Correlation Enhancement（VCE）とText Semantic Augmentation（TSA）モジュールにより，CLIPの密な知識を強化する。
- VCEモジュールは，拡散モデルの空間的整合性を利用し，CLIPの注意機構における過剰平滑化問題を軽減し，多様な相関マップを抽出する。
- TSAモジュールは，拡散モデルの生成能力を活用し，テキスト埋込みのセマンティクスを拡張することで，新たな視覚知識検索パラダイムを確立する。
Link: https://arxiv.org/abs/2605.04593
参照に基づくカテゴリ検出：カテゴリ認識を伴う教師なし物体検出 [cs.CE, cs.CV, cs.AI]目的：カテゴリを意識した物体検出
- 物体検出は画像認識の重要な要素であり，自動運転やロボティクス等，幅広い応用が期待される。
- 教師あり学習には大量のアノテーションが必要であり，コストや手間がかかるという課題がある。
- アノテーションなしでカテゴリを認識し，物体検出の精度向上を目指す。
- 提案手法RefCDは，参照画像と予測オブジェクト間の特徴量の類似性を活用し，カテゴリを意識した物体検出を可能にする。
- カテゴリのラベルがない状態でも，カテゴリ特有の特徴を学習するための損失関数を導入することで，高い検出精度を実現した。
- 参照画像を使用しないカテゴリ非依存検出もサポートしており，汎用性の高いフレームワークである。
Link: https://arxiv.org/abs/2605.04606
構図転送による審美的画像生成の進歩 [cs.CV]目的：審美的画像生成における構図の役割のモデル化と制御
- 視覚的な美学において構図は重要な要素であり，画像の魅力に大きく影響する。
- 既存手法では，構図を直接モデル化せず，暗黙的な学習や意味に基づいたレイアウト制御に頼ることが多い。
- 意味に依存しない構図のモデル化により，構図の転送とテーマに基づいた構図の計画を実現する。
- 本研究では，審美理論に基づき，構図を意味に依存せずにモデル化するComposerを提案する。
- Composerは，参照画像から構図情報を抽出して拡散モデルを制御し，構図転送を可能にする。
- また，LVLMを活用したテーマに基づいた構図検索や，テキストからの構図計画も実現し，テキスト画像生成における審美性を大幅に向上させる。
Link: https://arxiv.org/abs/2605.04609
承認制複数勝者投票における比例性の公理的分析 [cs.RO, cs.GT]目的：承認制複数勝者投票における比例性の概念に対する公理的考察
- 複数勝者投票において比例性は重要な目標であり，様々な比例性の概念が提案されている。
- どの比例性の概念を選択すべきかの規範的な根拠が十分に理解されていない。
- 比例性の概念を評価するための公理的枠組みを構築し，PJR+とEJR+を特徴づける。
- 本研究では，比例性の概念が満たすべき性質（公理）を定義し，PJR+とEJR+を公理的に特徴づけた。
- 特に，PJR+とEJR+をその前身であるPJRとEJRから区別する重要な公理は，単調性であることが示された。
- また，PJR+は比例性の最小限の要件として機能することが明らかになった。
Link: https://arxiv.org/abs/2605.04612
VocalParse：大規模オーディオ言語モデルを用いた統一的かつスケーラブルな歌声書き起こし [cs.SD, cs.AI]目的：歌声書き起こしモデルの性能向上
- 歌声合成システムの進化には，高品質な歌声注釈が不可欠である。
- 手動での注釈作成はコストと専門知識が必要であり，自動注釈技術が求められている。
- 既存のシステムが抱える複雑性，音符と歌詞のずれ，汎化性能の低さを解決する。
- VocalParseは，歌詞，メロディ，音符の対応関係を同時にモデル化する新しいプロンプト形式を採用した。
- Chain-of-Thought戦略により，歌詞を先行して生成することで文脈の混乱を軽減し，構造的利点を維持した。
- 複数の歌声データセットにおいて，最先端の歌声書き起こし性能を達成した。
Link: https://arxiv.org/abs/2605.04613
ウェアラブルヒューマンアクティビティ認識における効率的なテスト時適応のための時間構造の重要性 [cs.CV, cs.HC, cs.LG]目的：ウェアラブルヒューマンアクティビティ認識におけるテスト時適応の効率化
- ウェアラブルデバイスの普及により，人々の活動認識の需要が高まっている。
- 異なる利用者間でのデータ分布のずれにより，認識精度が低下する問題がある。
- テストデータを用いてモデルをオンラインで適応させ，精度低下を抑制することを目指す。
- 本研究では，時間構造を特徴量に基づく推論信号として捉えることで，テスト時適応の性能向上を試みた。
- 提案手法SIGHTは，軽量かつバックプロパゲーションを必要としないフレームワークであり，エッジデバイスでのリアルタイム展開を可能にする。
- 実世界のデータセットにおける評価により，SIGHTが既存のテスト時適応手法を上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2605.04617
UniPCB：生成を支援するPCB欠陥検査フレームワーク [cs.MA, cs.MS, math.CO, cs.CV]目的：PCB欠陥検査のための生成支援フレームワーク
- 電子機器の品質管理において，PCB欠陥検査は不可欠である。高精度な検査は製品信頼性に直結する。
- 欠陥サンプルが少なく，偏りがあるため，モデル学習が困難である。複雑な回路背景下での特徴量表現も課題。
- 欠陥サンプルの生成と欠陥検出を統合し，データ不足と特徴表現の課題を同時に解決することを目指す。
- 提案手法UniPCBは，欠陥検出においてmAP@0.5で98.0%，mAP@0.5:0.95で61.8%を達成し，既存手法を上回る性能を示した。
- 生成部においてもFIDが129.61，SSIMが0.619と，既存の条件付き生成アプローチを凌駕する優れた結果が得られた。
- マルチモーダル条件生成と特徴抽出モジュールが，生成と検出の両方の性能向上に寄与している。
Link: https://arxiv.org/abs/2605.04635
CAST：キャプション誘導による視覚的注意制御を介した大規模視覚言語モデルにおける物体幻覚の軽減 [cs.HC, cs.CV]目的：大規模視覚言語モデルにおける物体幻覚の軽減
- 大規模視覚言語モデルは多様なタスクで高性能を示すが，視覚情報との乖離による幻覚が課題である。
- 既存手法は高コストな注釈や学習，または推論時間の増加を伴うことが多く，実用性に課題がある。
- キャプションに対する注意機構に着目し，学習不要で推論コストを抑えた幻覚軽減手法を開発する。
- キャプション誘導による視覚的注意制御(CAST)により，5つの大規模視覚言語モデルと5つのベンチマークで平均6.03%の物体幻覚の軽減が確認された。
- CASTは，推論コストをほとんど増加させることなく，最先端の性能を発揮する。
- 既存モデルの基礎的な能力を維持しつつ，より正確な視覚情報の利用を促進する。
Link: https://arxiv.org/abs/2605.04641
接触行列：精密なインタラクションモデリングによるダンスモーション合成の強化 [cs.CV]目的：ダンスモーション合成におけるリアクションの精度向上
- 人間同士のインタラクションは，現実的なモーション生成において不可欠である。
- ダンスのような複雑なインタラクションでは，高品質なデータが不足しがちである。
- 厳密なインタラクション制約下で，より正確で制約されたインタラクションダイナミクスを実現する。
- 提案手法は，Duolandoと比較してFIDk，FIDcdともに低いスコアを示し，モーションの質を向上させている。
- BEDスコアの向上は，インタラクションの忠実度とリズム同期が改善されたことを示唆する。
- 体部位ごとのエンコーダとジョイントデコーダを持つVQ-VAEにより，表現能力が高まり，矛盾のないモーション生成が可能になっている。
Link: https://arxiv.org/abs/2605.04662
見えない熱検知器を欺く物理的な敵対的衣類：RGB-Tパターンの非重複性 [cs.RO, cs.CV]目的：RGB-T（可視光・熱）検出器に対する物理的攻撃手法の開発
- 自動運転などの分野で，マルチモーダルなRGB-T検出技術の重要性が増している。
- RGB-T検出器の物理世界におけるセキュリティ脆弱性が十分に検討されていない。
- 敵対的衣類を用いたRGB-T攻撃手法を開発し，検出器の安全性を検証すること。
- 本研究では，可視光と熱画像を重ね合わせない新しい敵対的パターン（NORP）を提案した。
- 提案手法は，様々なRGB-T検出器に対し，高い攻撃成功率を示すことが確認された。
- 異なる融合アーキテクチャを持つ検出器間での攻撃の汎化性能を高めるアンサンブル法も導入した。
Link: https://arxiv.org/abs/2605.04675
ピクセルからトークンへ：視覚-言語-行動モデルにおける潜在的行動教師あり学習の体系的な研究 [cs.RO, cs.CV]目的：視覚-言語-行動モデルの潜在的行動教師あり学習における体系的な研究
- 異種データセット間での一貫性のあるモデリングを可能にするため，潜在的行動は重要な役割を果たす。
- 潜在的行動による視覚-言語-行動モデルの教師あり学習のアプローチは分断されており，体系的な比較が不足している。
- 画像と行動に基づいた潜在的行動による学習戦略を比較し，最適な方法を明らかにすることを試みる。
- 画像ベースの潜在的行動は，長期的推論とシーンレベルでの汎化に貢献することが示された。
- 行動ベースの潜在的行動は，複雑な運動協調において優れた性能を発揮することが示された。
- 離散的な潜在的行動トークンによる直接的な教師あり学習が最も効果的であることが判明した。
Link: https://arxiv.org/abs/2605.04678
脳波に基づく視覚復号のための多層双方向生体模倣学習 [cs.AR, cs.CV, cs.AI]目的：脳波と視覚刺激の対応付けによる画像検索の精度向上
- 脳波を用いた視覚復号は，ブレイン・マシン・インターフェースや認知機能解明に不可欠である。
- 質の高い学習データ不足と，画像情報と脳の視覚処理の構造的・生理的差異が課題である。
- 視覚情報の構造的差異を軽減し，脳の階層的処理に沿った特徴抽出を実現することで復号精度を向上させる。
- 提案手法MB2Lは，ゼロショット脳波-画像検索において，上位1件正答率80.5％，上位5件正答率97.6％を達成した。
- 既存手法を大幅に上回り，被験者や実験設定に依存しない高い汎化性能を示した。
- 視覚情報の適応的ぼかしと，生体模倣視覚特徴抽出が，脳波と視覚特徴の整合に貢献している。
Link: https://arxiv.org/abs/2605.04680
空間トランスクリプトミクス遺伝子発現予測のための六角シフトウィンドウTransformer (HEXST) [cs.LG, cs.CV]目的：空間トランスクリプトミクス遺伝子発現予測の精度向上
- 組織内の空間分解能遺伝子発現プロファイリングは重要だが，コストとスループットが課題である。
- 既存モデルは直交座標系を前提とし，広く使われる六角サンプリングプラットフォームに対応できていない。
- 六角座標系に最適化されたTransformerモデルによる遺伝子発現予測精度の向上を目指す。
- HEXSTは，六角座標系で効率的な局所-大域的文脈モデリングを実現し，高精度な遺伝子発現予測を可能にした。
- ポイントごとの回帰だけでなく，コントラストを重視した微分目的関数と転移学習を組み合わせることで，遺伝子ごとの空間的コントラストを維持した。
- 7つの空間トランスクリプトミクスデータセットで，最先端モデルを凌駕する性能を示した。
Link: https://arxiv.org/abs/2605.04682
疎なトークンで十分：トークン認識勾配最適化による音声言語モデルの脱獄 [cs.NI, cs.DM, cs.CR, cs.AI, cs.CL, cs.LG, cs.SD]目的：音声言語モデルの脱獄攻撃における最適化手法
- 音声言語モデルの安全性確保は，その社会実装において不可欠であり，潜在的なリスクの軽減が重要である。
- 既存の脱獄攻撃は，音声波形全体を密に更新するため，計算コストが高く，効率性に課題がある。
- 音声波形の勾配構造に着目し，重要度の低いトークンを削減することで，効率的な脱獄攻撃を実現する。
- 提案手法TAGOは，既存手法と比較して優れた性能を示し，高い攻撃成功率を維持する。
- Qwen3-Omniにおいては，トークン保持率を0.25に削減しても，攻撃成功率(ASR_l)は87%から86%へのわずかな低下で済む。
- この結果は，密な波形更新が冗長であることを示唆し，今後の研究におけるトークンレベル勾配構造の活用を促す。
Link: https://arxiv.org/abs/2605.04700
グラフ探索と構造化された選好：統一的なフレームワークと計算量に関する結果 [cs.GT]目的：選好制限と古典的なグラフ探索パラダイムを結びつけるフレームワークの研究
- 社会的選択理論において，選好制限は重要な役割を果たす。本研究は，その理論的基盤を深める。
- 選好プロファイルが特定のグラフ構造で表現可能かどうか判定する問題は，計算困難であることが多い。
- グラフ探索パラダイムに基づき，選好プロファイルをサポートするグラフ構造の存在判定問題を解く。
- 6つの基本的なグラフ探索パラダイム（BFS, DFS, LexBFS, LexDFS, MCS, MNS）において，グラフ支持がk辺以下という制約下では，問題はNP困難であることが示された。
- DFSにおいては，選好プロファイルをサポートする木構造の存在判定が多項式時間で解けることが証明された。
- BFSとLexBFSを除く他の探索パラダイムでは，多項式時間で解けることが既存の結果から示唆されている。
Link: https://arxiv.org/abs/2605.04701
忠実な顔: テキストから動画生成における姿勢に忠実な顔の同一性保持 [cs.CV, cs.AI]目的：テキストから動画生成における顔の同一性保持
- 動画生成技術の発展は，多様なコンテンツ制作を可能にする重要な技術である。
- 既存手法では，顔の姿勢変化や隠蔽によって同一性が損なわれる課題がある。
- 姿勢変化や隠蔽に強い，顔の同一性を保持する動画生成技術を確立すること。
- 提案手法「FaithfulFaces」は，姿勢情報を共有するアライナーにより，異なる視点からの顔の姿勢を調整・整合させる。
- Euler角埋め込みを用いて姿勢情報を明示的に表現することで，姿勢に忠実な顔の事前知識を提供し，同一性保持を促進する。
- 大規模な顔姿勢多様性を持つ高品質な動画データセットを構築し，提案手法の有効性を実験的に示した。
Link: https://arxiv.org/abs/2605.04702
全ての被験者を保持すべきではない：ノイズの多いエンゲージメント認識のための機械的アンラーニング [cs.CV]目的：ノイズの多いエンゲージメント認識データセットにおける，問題のある被験者に対する影響の除去
- エンゲージメント認識は，教育やコミュニケーションにおける効果測定に不可欠であり，その精度向上は重要である。
- エンゲージメント認識データセットは主観的なラベルを含むことが多く，データ品質が課題となっている。
- 学習済みのモデルから，特定の被験者の影響を，再学習なしで効率的に除去する方法を確立すること。
- 提案手法は，完全な再学習の約4分の1のコストで，Oracleモデルの性能の89.3％～92.5％を回復することを示した。
- 被験者選択の質と除去方法によって効果が左右されるが，近似的な被験者レベルのアンラーニングは有用な低コスト修正メカニズムである。
- 特に中間的な忘却セットサイズにおいて，その効果が最も強固であることが示された。
Link: https://arxiv.org/abs/2605.04713
Anny-Fit：全年齢の人体メッシュ復元 [cs.CV]目的：全年齢に対応した3D人体メッシュ復元
- 人間中心のビジョンにおいて，3D人体姿勢と形状の復元は重要な課題である。
- 既存手法は成人を前提としており，多様な年齢層を扱うことが難しい。
- Anny-Fitは，年齢層の異なる複数人を含むシーンにおける復元精度向上を目指す。
- Anny-Fitは，カメラ座標系で全体を最適化することで，空間的な一貫性を実現した。
- 実験結果から，2D投影精度，相対的な深度順序，3D/形状推定誤差が改善された。
- VLM由来の年齢や性別のセマンティック情報を活用し，学習データに疑似ラベルを付与することで，HMRモデルの性能向上に貢献した。
Link: https://arxiv.org/abs/2605.04728
ULF-Loc: 3Dガウススプラッティングによるロバストなビジュアルローカリゼーションのためのバイアスなしランドマーク特徴 [cs.CV]目的：ロバストなビジュアルローカリゼーションのためのランドマーク特徴
- 拡張現実や自律航行の基盤技術であり，環境理解に不可欠である。
- 3Dガウススプラッティングを用いた手法では，学習された特徴にバイアスが生じやすい。
- バイアスを取り除き，高精度な特徴量マッチングを実現すること。
- ULF-Locは，バイアスのある特徴最適化をジオメトリ重み付き特徴融合に置き換えることで，ランドマーク特徴のバイアスを解消する。
- Cambridge Landmarksデータセットにおいて，最先端手法と比較して平均中央変換誤差を17%削減した。
- 学習時間とGPUメモリ使用量はそれぞれSTDLocの1/10，1/6と効率的である。
Link: https://arxiv.org/abs/2605.04730
形態誘導によるクロスタスク結合：建物高さとフットプリントの同時推定 [cs.CV]目的：建物高さと建物フットプリントの同時推定
- 都市気候，防災，人口分布モデル等に建物高さとフットプリントは不可欠な情報である。
- リモートセンシング研究では，建物高さとフットプリントが独立に扱われることが多い。
- 建物高さとフットプリント間の相互関係を明示的にモデル化することで精度向上を目指す。
- 提案手法MorphoFormerは，建物フットプリントに基づいて建物高さを推定する機構と，一貫性損失関数を導入。
- Swin-MTLをベースラインとして，建物高さのRMSEを3.39mから3.15mに低減（R^2は0.62から0.67に向上）。
- 提案する機構の除去は，建物高さのRMSEをそれぞれ0.11m悪化させ，残差は約0.02mであり，エンコーダ側の変動内。
Link: https://arxiv.org/abs/2605.04731
知識を必要としない相関合意による連合学習のインセンティブ設計 [cs.LG, cs.AI, cs.GT]目的：連合学習におけるクライアントの貢献度に対する報酬メカニズム
- 連合学習は，データプライバシーを保護しつつモデルを学習可能にする重要な技術である。
- 連合学習において，クライアントの貢献度を評価し，報酬を与える仕組みが課題となっていた。
- 真のラベルや公開テストセットを必要とせず，クライアントの貢献を公平に評価する。
- KFCAは，カテゴリカルな報告と誠実な多数派の仮定の下で，厳密な真実性を保証する。
- 既存の相関合意(CA)のラベル反転脆弱性を解決する。
- LLMアダプターのチューニングとPCB検査タスクで有効性が示され，分散型インセンティブ設計に適している。
Link: https://arxiv.org/abs/2605.04747
VC-FeS: 熱画像における車両再識別のための視点条件付き特徴選択 [cs.CV, cs.SY, eess.SY]目的：熱画像における車両再識別性能の向上
- 監視システムなど，単一チャンネル画像による対象物識別は重要な技術である。
- 熱画像では色情報がないため，形状やテクスチャの情報が十分に活用されていなかった。
- 視点変化による特徴量の変動を考慮し，よりロバストな特徴表現を獲得することを目指す。
- 提案手法は，RGBNT100 (IR) データセットにおいて，最先端手法を19.7%上回るmAPスコアを達成した。
- また，独自に収集した海上熱画像データセットでも，12.8%の性能向上を示した。
- 海上船舶識別を目的とした，初の熱画像データセットの公開も計画している。
Link: https://arxiv.org/abs/2605.04750
フロー誘導型注意と経験モード分解を用いたハイブリッド交通渋滞分類フレームワーク [eess.SY, cs.SY, cs.CV, cs.AI]目的：交通渋滞の正確な分類
- 交通渋滞の正確な把握は，交通管理や都市計画において不可欠である。
- 既存研究では，道路状況と交通流動の変化を同時に捉えることが課題であった。
- 空間情報と時間的変化を統合し，より精度の高い分類を実現すること。
- 提案手法FLO-EMDは，テストデータにおいて97.5%の総合正答率（重み付きF1スコア=0.9742）を達成した。
- 既存手法を上回り，様々な環境条件においても高い頑健性を示した。
- 経験モード分解（EMD）の貢献や，内在モード関数の数などが定量的に評価された。
Link: https://arxiv.org/abs/2605.04752
コントラスト的アライメントと知識蒸留による軽量クロススペクトル顔認識 [eess.SY, cs.SY, cs.CV]目的：異種顔認識の効率化
- 顔認識はセキュリティ等の分野で重要であり，様々な環境下での利用が求められている。
- 既存手法は計算コストが高く，リソース制約のある環境への実装が困難である。
- 計算コストを抑えつつ，異種顔認識の性能を維持することを目指す。
- 本研究では，RGB顔認識用に開発されたハイブリッドCNN-Transformerモデルを異種顔認識に適用し，軽量かつ効果的なフレームワークを提案した。
- 少量のペア異種データのみで効率的なエンドツーエンド学習が可能であり，標準的なRGB顔認識ベンチマークでも高い性能を維持する。
- 複数のベンチマークにおいて，計算コストを抑えつつ，最先端または競争力のある性能を達成した。
Link: https://arxiv.org/abs/2605.04769
Gaze4HRI: 人間ロボットインタラクションのためのゼロショット視線推定ニューラルネットワークのベンチマーク [cs.CV, cs.HC, cs.LG, cs.RO]目的：人間ロボットインタラクションにおけるゼロショット視線推定の性能評価
- 人間とロボットの円滑な協調には，ロボットが人間の視線を正確に理解することが不可欠である。
- 既存のベンチマークは，動的な視点や移動する対象など，実際のHRI環境を十分に考慮していない。
- HRI環境における視線推定の信頼性を高めるための，より厳密な評価基準を確立すること。
- 大規模データセットGaze4HRIを用いた評価により，既存手法はいずれも特定の条件下で失敗することが明らかになった。
- 特に，下向きの視線推定が共通の課題であることが示された。
- ETH-X-Gazeで学習されたPureGazeが，他の条件下で高い堅牢性を示すことがわかった。
Link: https://arxiv.org/abs/2605.04770
MIRAGE：医学教育のためのマルチモーダル画像とテキストの検索・生成 [cs.CV]目的：医学教育におけるマルチモーダルな画像とテキストの検索・生成システム
- 医療従事者の診断能力向上には，豊富な医学画像と解剖学的知識の習得が不可欠である。
- 既存の医学アトラスは巨大で非インタラクティブ，オンライン画像検索は誤情報を含む可能性がある。
- 信頼できる情報源から臨床的に関連性の高い画像や情報を容易に検索・生成することを目指す。
- MIRAGEは，テキストと画像を共通の潜在空間にマッピングすることで，意味的に適切なクエリを可能にする。
- MedICaT-ROCO等の事前学習済みモデルを活用し，再現性とアクセシビリティを確保している。
- 医学部の学生向けに，プログラミングスキル不要で，インタラクティブな学習ツールを無償で提供する。
Link: https://arxiv.org/abs/2605.04772
AGIPC：GPU IPCのための適応的インソルブ代数粗視化 [cs.GR, cs.PF]目的：GPU IPCにおける線形システムの効率的な解法
- 剛体や大きな変形を安定してシミュレーションするには不可欠であり，計算コストが課題となる。
- 従来の粗視化手法は，並列実装の複雑化やメモリ効率の低下を招く場合がある。
- GPUの並列性を活かした，効率的な粗視化手法を開発し，計算コストを削減することを目指す。
- 本手法は，GPU上で線形システムの解法中に動的に自由度を削減する代数粗視化法である。
- エッジ崩壊プロセスを並列化し，GPUのwarpレベルハッシュマッピングを用いて粗視化を実現している。
- 最先端のGPU IPCソルバーと比較して，最大3倍の高速化を達成し，視覚的に区別がつかない結果が得られた。
Link: https://arxiv.org/abs/2605.04773
海の音を聴く：生体触発ガマトーン‐CNNフレームワークによるロバストな水中音響標的分類 [cs.SD]目的：水中音響標的認識のための生体触発信号処理フレームワーク
- 海洋資源探査や環境モニタリングにおいて，水中音響による標的識別の重要性が増している。
- 水中音響信号はノイズが多く，特に低周波成分の識別が困難であるという課題があった。
- 本研究は，船舶推進信号に含まれる複雑な低周波成分を高精度に識別し，ロバストな水中音響標的認識を実現する。
- 提案フレームワークは，生体模倣ガマトーンフィルターバンクを用いて，水中音響信号の周波数選択性を高め，ノイズを抑制する。
- 得られたコクレアグラム特徴量は，軽量なCNNによって処理され，VTUADデータセットにおいて98.41%の分類精度を達成した。
- この精度は，既存手法と比較して3.5%～7.7%向上し，リアルタイム展開に適した0.77msの推論遅延と0.971のCohen Kappaスコアを示した。
Link: https://arxiv.org/abs/2605.04839
QuadBox：幾何形状を考慮したボックスによる3Dガウススプラッティングの高速化 [cs.CV, cs.GR]目的：3Dガウススプラッティングにおける高速なタイル交差計算手法
- リアルタイムな新規視点合成技術は，VR/ARなどへの応用が期待され，重要性が高まっている。
- 3Dガウススプラッティングのレンダリング速度は，ガウスとタイルの交差計算の効率に大きく依存する。
- 幾何形状を考慮したボックスを用いて，不要なタイルへのアクセスを削減し，レンダリングを高速化する。
- 提案手法QuadBoxは，軸並みのバウンディングボックスを用いて，ガウスの投影をタイルの範囲内に効率的に収める。
- QPassアルゴリズムは，QuadBoxの離散的な性質を利用し，単純な区間テストでタイル交差をチェックする。
- 実験結果から，QuadBoxは3Dガウススプラッティングのレンダリング速度を1.85倍に向上させることが示された。
Link: https://arxiv.org/abs/2605.04844
Transformer増強残差ネットワークを用いた3D超音波由来疑似CT合成：リアルタイム手術支援への応用 [cs.CV]目的：3D超音波からCT様画像を合成するフレームワークの開発
- 臨床診断や画像誘導手術にはCTが不可欠だが，被ばくのリスクがあるため，安全な代替技術の開発が求められている。
- 超音波検査は被ばくがないが，術者の熟練度に依存し，定量的な組織評価が難しく，診断の不確実性につながることがある。
- 超音波画像からCT様の解剖学的参照ボリュームを生成することで，術者のガイドを行い，不要なCT検査を減らすことを目指す。
- 提案手法は，既存の基盤モデルと比較して，構造的忠実度と知覚的画像品質において優れていることが定量的な評価により示された。
- 本研究で開発された疑似CTボリュームは，リアルタイムでの解剖学的参照情報を提供し，術者の操作を支援する可能性を秘めている。
- 本研究の限界として，ペアデータの量が少ないことが挙げられ，提案モデルの汎用性に影響を与える可能性がある。
Link: https://arxiv.org/abs/2605.04856
第二言語イディオム処理における認知負荷の評価：眼球運動データセット [cs.CL, cs.AI, cs.CV]目的：第二言語イディオム処理における認知負荷の評価のための眼球運動データセット
- 言語習得研究において，イディオム処理は第二言語学習者の認知能力を測る上で重要な指標となる。
- 第二言語学習者は，ネイティブスピーカーと異なり，イディオムを逐語的に処理する傾向があり，認知コストが増大する。
- 本研究は，第二言語学習者のイディオム処理における認知負荷を客観的に測定するためのデータセットを構築・検証する。
- データセットは，英語を学習するポルトガル語話者を対象とし，CEFRレベルA1からC2までを網羅している。
- 予備分析の結果，言語能力と後戻り眼球運動の間には強い負の相関関係が認められた。
- 本データセットは，言語処理モデルや大規模言語モデルの評価基準として活用できる。
Link: https://arxiv.org/abs/2605.04857
VTAgent: エビデンスに基づいたビデオ質疑応答のためのエージェント型キーフレームアンカリング [cs.HC, cs.CV]目的：ビデオ質疑応答における，質疑応答に関連するキーフレームの特定
- ビデオとテキストを組み合わせた質疑応答は，現実世界の理解に不可欠であり，その重要性は増している。
- 既存のビデオLLMはマルチモーダルな理解能力を持つものの，ビデオ質疑応答のベンチマークにおける性能が十分ではない。
- 質疑応答に重要なエビデンスとなるキーフレームの特定が困難であり，その解決を目指す。
- フレーム単位での質疑応答分析の結果，ビデオ全体での推論よりも高い性能が示され，キーフレームの特定がボトルネックであることが明らかになった。
- 提案手法VTAgentは，質疑応答に基づいてキーフレームを明示的にアンカリングすることで，訓練なしでも性能を向上させた。
- SFTおよびRLを用いた追加の学習により，ベンチマーク全体で平均12.12%の精度向上，ANLSで11.15%の改善を達成し，最先端の結果を確立した。
Link: https://arxiv.org/abs/2605.04870
マルチモーダル大規模言語モデルにおける不確実性に基づいた探索型直接選好最適化 [cs.CL, cs.LG, cs.CL, cs.CV]目的：マルチモーダル大規模言語モデルの幻覚軽減のための不確実性に基づいた学習戦略
- マルチモーダル大規模言語モデルは多様なタスクで活用されるが，幻覚が生じやすいという課題がある。
- 既存手法はモデル自身の感度推定に頼るため，学習済みの視覚的特徴を強化する傾向があり，重要な詳細を見落とす可能性がある。
- モデルが自身の認知的な弱点を特定し，不確実性に基づいて視覚的に困難なトークンに重点を置いて学習することで，幻覚を抑制する。
- 提案手法UE-DPOは，トークンレベルの認識論的確実性に基づいて，モデルが自己修正を行うことを可能にする。
- 不確実性に基づいた探索強度により，選好されるサンプル中の視覚的に欠損したトークンへの学習圧力を高め，望ましくないサンプルにおける過剰なペナルティを軽減する。
- 理論的な正当化と実験により，提案手法の有効性と頑健性が示された。
Link: https://arxiv.org/abs/2605.04874
FairEnc：緑内障検出のための公正なビジョン言語モデル [cs.CE, math.DS, physics.ao-ph, cs.CV, cs.AI, cs.LG, eess.IV, q-bio.QM]目的：緑内障検出における公平性を確保するためのビジョン言語モデルの公正な事前学習手法
- 視覚障害の進行を防ぎ，医療負担を軽減するため，緑内障の自動検出が重要である。
- 多様な患者集団間における公平性を確保することが，依然として大きな課題となっている。
- 人種，性別，民族，言語などの複数の機密属性にわたるバイアスを同時に軽減することを目指す。
- FairEncは，DPDおよびDEOddsという指標で測定される人口統計学的格差を効果的に低減できることが示された。
- ゼロショット評価と線形プローブ評価の両方において，高い診断性能を維持しながら公平性を実現している。
- クロスドメインおよびクロスモダリティ設定下でも一貫して公平性を保ち，競争力のある診断性能を維持する。
Link: https://arxiv.org/abs/2605.04882
デルタに基づくニューラルアーキテクチャ探索：コード差分によるLLMのファインチューニング [cs.DB, cs.LG, cs.AI, cs.CV]目的：LLMを用いたニューラルアーキテクチャの生成
- LLMはアーキテクチャ生成に強い潜在力を持つが，計算コストが高い。
- 既存手法はモデル全体を最初から生成するため，冗長なコードとなる。
- ベースラインアーキテクチャをコード差分で効率的に改良する手法を提案する。
- 提案手法は，完全生成ベースラインよりも高い有効率と初期エポックの平均精度を達成した。
- DeepSeek-Coderは75.3%の有効率と65.8%の平均精度，Qwen2.5-Coderは72.1%/64.6%，Mistralは66.6%/66.1%を記録した。
- 出力コード量は，完全生成と比較して75-85%削減された。
Link: https://arxiv.org/abs/2605.04903
パターンに基づく個体識別のための画像修復モデル埋め込みのクラスタリング能力の探求 [cs.CV]目的：動物の皮膚パターンに基づく個体識別
- 生物多様性モニタリングにおいて，個体識別は個体数変化や種内相互作用の分析に不可欠である。
- 既存の個体識別モデルは，皮膚パターンではなく，背景や体型に依存しがちである。
- 皮膚パターンの構造に着目した機械学習モデルの開発を目指す。
- 画像修復を補助タスクとして導入することで，個体識別における皮膚パターンへの感度を高めることを検討した。
- ゼブラフィッシュを対象に，4つの異なるエンコーダーバックボーンモデルを比較分析した結果，クラスタリング性能に差が見られた。
- 分類精度，埋め込みクラスタリング指標，GradCAM可視化などの評価指標を用いて，エンコーダーバックボーンの性能を評価した。
Link: https://arxiv.org/abs/2605.04904
DART：包括的なロープ状態監視のためのビジョン-言語ファウンデーションモデル [cs.CL, cs.CV, cs.AI]目的：合成繊維ロープの状態監視における一連のタスクの実行
- 海洋，海事，産業におけるロープの安全な運用には，定期的な状態監視が不可欠である。
- 従来のロープの状態監視は，損傷の分類に留まり，詳細な評価や推奨事項が不足している。
- 単一の画像から，損傷の程度，メンテナンス推奨，異常検知などを包括的に提供すること。
- DARTは，損傷の分類において，ビジョンのみのベースラインと比較して大幅な精度向上（38.5%）を示した。
- 連続的な損傷度の回帰分析では，Spearmanの相関係数0.94という高い結果が得られた。
- DARTは，タスク固有のファインチューニングなしに，多様なダウンストリームタスクに対応できる汎用的なモデルである。
Link: https://arxiv.org/abs/2605.04943
プライバシー保護を考慮した俯瞰視点RGB-Dカメラにおける人物再特定コンペティション (TVRID) [cs.CV]目的：プライバシー保護を考慮した俯瞰視点における人物再特定技術の評価
- 監視カメラの普及に伴い，プライバシー保護と高精度な人物識別技術の両立が重要になっている。
- 従来の再特定技術では，プライバシー侵害のリスクや，RGB情報のみでは困難な状況が存在する。
- RGB-D情報と俯瞰視点を利用することで，プライバシー保護と高精度な再特定を両立する手法を確立すること。
- RGB画像を用いた再特定が最も高い精度を示し，Depth画像やRGB-Depth間のクロスモーダル検索がそれに続いた。
- データセットの公開により，俯瞰視点，深度情報，クロスモーダル再特定に関する再現性のあるベンチマークが確立された。
- モダリティに依存しない学習が有効であり，異なるモダリティ間の連携が課題であることが示唆された。
Link: https://arxiv.org/abs/2605.04977
注意基盤カオス的自己教師あり学習による医療画像分類 [cs.CV]目的：医療画像分類のための新たな自己教師あり学習戦略
- 医療画像診断の精度向上は，医療の質を向上させる上で極めて重要である。
- 大規模なアノテーション付きデータセットの構築はコストと時間がかかるという課題がある。
- カオス変換を用いた自己教師あり学習により，ドメイン固有の特徴抽出を可能とする。
- 提案手法は，ISIC 2018データセットにおいて，精度0.9221，F1-macro 0.8530を達成した。
- APTOS 2019データセットにおいても，精度0.8644，F1-macro 0.7433と高い性能を示した。
- 注意機構による特徴融合が，汎用性とドメイン固有性の両方の表現学習に貢献している。
Link: https://arxiv.org/abs/2605.04985
センチネル2データを用いた野生火災マッピングのための地理空間基盤モデルの低ランク適応 [cs.CV]目的：野生火災の焼失面積マッピングの効率的な適応手法
- 地球観測において，多様な生態学的地域における火災と気候の相互作用理解は重要である。
- 地理的・時間的ドメインシフト下における，基盤モデルの効率的な適応方法が不明である。
- 軽量なパラメータ効率の良い手法で基盤モデルを適応し，焼失面積マッピングの解決を目指す。
- LoRAは，パラメータ更新率が1%未満でありながら，クロスドメイン汎化性能が最も優れていた。
- Prithvi-v2とLoRAの組み合わせが，全体的な精度が最も高く，フルファインチューニングと比較して最大の改善を示した。
- LoRAのような軽量な手法を用いた地理空間基盤モデルは，大規模な焼失面積マッピングに対する堅牢かつスケーラブルな解決策となる。
Link: https://arxiv.org/abs/2605.04989
ジャンル適応型コード生成のためのポップとジャズの混合比に関する実証研究 [cs.SD, cs.IR, cs.LG]目的：ジャンル適応型コード生成における，ポップとジャズのデータ混合比の最適化
- 音楽生成は重要な研究分野であり，特にコード進行生成は作曲支援への応用が期待される。
- 既存の研究では，コード生成が他のタスクの条件付け要素として扱われる傾向があり，単独のタスクとしての研究が不足している。
- 異なるジャンルの音楽に適応させる際，元のジャンルの情報をどれだけ保持すべきかという課題を解決する。
- ジャズへのファインチューニングにより，コード予測精度が7〜9ポイント向上することが確認された。
- ポップの精度は，ジャズのみのファインチューニングで低下するが，ある程度のポップデータを混合することで回復し，飽和する。
- 最適な混合比（2.5K）は必ずしも聴覚的に最も好まれるとは限らず，スタイルが明確なモデルの方が好まれる場合がある。
Link: https://arxiv.org/abs/2605.04998
ロバストなテクスチャ分類のためのカオス的コントラスト学習 [cs.CV]目的：テクスチャ分類におけるロバスト性の向上
- コンピュータビジョン分野において，テクスチャ分類は重要な課題であり，画像認識の精度向上に不可欠である。
- テクスチャ分類は，クラス間類似性が高く，スケールや照明変化に敏感であるため，汎化性能が低いという課題がある。
- 本研究は，カオス的コントラスト学習を用いて，テクスチャ分類のロバスト性と汎化性能を向上させることを目指す。
- 提案手法は，FMD，UMD，KTH-TIPS2-b，DTD，GTOS，1200Texの6つのテクスチャベンチマークにおいて，最先端の手法を凌駕する性能を示した。
- カオス的摂動は，複雑な環境ノイズや反射変動を模倣することで，ネットワークにトポロジ的にロバストな特徴学習を促す。
- 大規模なバックボーンとカオス学習済み小型エンコーダからの特徴を融合するアテンションベースの特徴アンサンブルが，性能向上に貢献する。
Link: https://arxiv.org/abs/2605.05012