arXiv雑要約

画像・音声 - 2026/06/15 公開

視線ヘッド：VLMがどのように記述対象を見ているか [cs.CV, cs.CL, cs.LG]目的：ビジョン言語モデルにおける画像記述メカニズムの解明
- 視覚と言語を結びつけるVLMは，多様な応用が期待される重要な分野である。
- VLMが画像記述をどのように実現しているかの内部メカニズムは未だ不明確である。
- VLMの画像記述メカニズムを特定し，その制御方法を確立することを目的とする。
- モデルは，画像記述時に注視する領域を追跡する「視線ヘッド」と呼ばれる少数の注意ヘッドを持つことが明らかになった。
- 上位100の視線ヘッドへの注意マスク介入により，83.1%の精度でモデルの回答を任意の漫画パネルに誘導できる。
- このメカニズムは，モデルサイズやアーキテクチャに依存せず，推論時にモデルの行動を制御するための実用的な手段となり得る。
Link: https://arxiv.org/abs/2606.14703
C-MambaPose：物理情報に基づいた複雑Mambaフレームワークによるクロス環境WiFiヒューマンポーズ推定 [eess.SP, cs.CV]目的：クロス環境におけるWiFiを用いた3Dヒューマンポーズ推定手法の開発
- WiFi信号を利用したヒューマンポーズ推定は，デバイスフリーでプライバシーを保護し，遮蔽や暗闇に強い点が重要である。
- 既存手法はWiFi信号の位相情報が不十分であり，環境変化に弱いという課題がある。
- WiFi信号の位相情報を活用し，環境変化にロバストな推定を可能にすることを目指す。
- C-MambaPoseは，複雑な位相情報を考慮した新しいフレームワークであり，MM-Fiデータセットで最先端の性能を達成した。
- 特に，クロス環境のデータセットにおいて，GraphPose-FiやMetaFi++と比較して大幅なパラメータ削減と性能向上を実現した。
- わずか3.78Mパラメータで，既存のDT-Poseと同程度のサイズでありながら，より優れた性能を発揮する。
Link: https://arxiv.org/abs/2606.13700
アルツハイマー病診断のためのグラフマッチングネットワーク：テスト時ドメイン適応と多施設構造MRIの活用 [eess.IV, cs.AI, cs.CV]目的：アルツハイマー病診断のためのグラフマッチングネットワーク
- 高齢化社会において，アルツハイマー病の早期診断は医療費抑制や患者QOL向上に不可欠である。
- 従来のグラフベース手法は，画像の種類や施設間差により，診断性能が制限される場合がある。
- 脳の異種グラフ間の関係性を捉え，ドメインシフトを軽減することで，より高精度な診断を目指す。
- 提案手法GMN4ADは，３つの公開ADデータセットにおいて，最先端手法と比較して優れた性能を示した。
- グラフマッチングにより，脳グラフ間の関係性を捉え，診断精度を向上させた。
- テスト時ドメイン適応戦略により，異なる施設間での診断性能のばらつきを抑制した。
Link: https://arxiv.org/abs/2606.13919
可逆ニューラル変換と暗黙的条件付けに基づく高忠実度ビデオ圧縮 [eess.IV, cs.CV, cs.MM]目的：高範囲かつ高忠実度圧縮のための可逆ニューラルネットワークベースのビデオコーデック
- ビデオ圧縮は，通信とストレージにおいて不可欠な技術であり，高品質な映像体験の実現に貢献する。
- 既存の学習ベースのビデオ圧縮手法は，非可逆変換を用いるため，高画質化に伴い変換誤差がボトルネックとなる。
- 可逆変換と暗黙的条件付けを用いることで，変換誤差を低減し，高忠実度なビデオ圧縮を実現する。
- 提案手法InnVCは，UVGベンチマークにおいてx265と比較してPSNRで21.66%，MS-SSIMで46.06%のBDレート削減を達成した。
- InnVCは，低ビットレートから高忠実度まで，単一のアーキテクチャで幅広い動作点をカバーする初のニューラルビデオコーデックである。
- コンテンツ適応的な文脈を注入することで，相関の強いビデオコンテンツと細部の再構成タスクを分離し，圧縮効率を向上させている。
Link: https://arxiv.org/abs/2606.13957
周波数認識型畳み込みTransformerによる聴覚的注意デコーディング [eess.SP, cs.AI, cs.LG, cs.SD, eess.AS]目的：多話者環境における神経応答から注意を払っている話者を推論すること
- 聴覚系の神経メカニズム解明は，脳神経インタフェースや補聴器等の開発に不可欠である。
- 既存の聴覚的注意デコーディングモデルは，周波数領域の脳波情報を十分に活用できていない。
- 周波数帯域特有の情報と，帯域間の相互作用を効果的にモデル化することで，デコーディング精度向上を目指す。
- 提案手法FAConformerは，既存の12個の基盤モデルを凌駕し，最先端モデルより4.9%高い性能を示した。
- 周波数帯域ごとの重要度分析により，提案手法が周波数情報を有効活用していることが確認された。
- 帯域ごとの補助的学習により，各ブランチの最適化を促進し，モデルの頑健性を向上させた。
Link: https://arxiv.org/abs/2606.14120
マルチスペクトル画像を用いたスペクトル認識照明推定 [eess.IV, cs.CV]目的：マルチスペクトル画像を利用した照明スペクトルの推定
- 画像処理において，正確な照明推定は色再現や画像解析の精度向上に不可欠である。
- 従来の照明推定手法は，スペクトル情報を十分に活用できておらず，多様な照明環境下で性能が低下する。
- 本研究は，スペクトル情報を効果的に利用し，様々な環境下での照明推定精度を向上させることを目指す。
- 提案手法は，空間的・スペクトル的な特徴抽出ブロックとスペクトル注意機構を組み込み，照明に関連するスペクトル相関と空間的特徴を強化する。
- 照明事前知識（IP）を取り入れ，MS画像においてより有益な情報を有する特定のチャネルを優先することで，推定精度を高める。
- 異なるMSセンサー空間間でのスペクトル領域変換により，高次元センサー空間で学習した照明スペクトルを，追加学習なしに低次元カメラセンサー空間に変換できる。
Link: https://arxiv.org/abs/2606.14248
容積対照学習による多様性グリオマ表現の整合 [eess.IV, cs.CV]目的：グリオマのトリモーダル表現の整合
- グリオマの病理診断と予後予測には，多様なスケールの情報統合が不可欠である。
- 既存モデルは二つの情報源の組み合わせに留まり，整合性の目的がペアワイズである。
- 組織病理，遺伝子発現，MRIという3つのモダリティを統合し，より正確な予測を目指す。
- GLORIAは，組織病理画像，遺伝子発現プロファイル，3D MRIボリュームを処理する。
- GLORIAは，トリモーダル埋め込みが占める体積を測定するグラム行列対照損失を用いて，それらを共通潜在空間に投影・整合させる。
- GLORIAは，TCGA-GBM/LGGおよびBraTS21コホートにおいて，二分法ベースラインよりも全ての評価指標で改善を示した。
Link: https://arxiv.org/abs/2606.14568
MirrorCheck：ビジョン言語モデルに対する効率的な敵対的防御 [cs.RO, cs.CV, cs.AI, cs.LG]目的：ビジョン言語モデルの敵対的攻撃に対する堅牢な検出
- ビジョン言語モデルは急速に進化しており，様々な応用分野で利用が拡大している。
- 既存の防御策を回避する高度な敵対的攻撃に対して脆弱であるという課題がある。
- 適応的な攻撃に対する堅牢性を高める防御フレームワークを開発すること。
- MirrorCheckは，テキストから画像生成モデルを利用し，画像とキャプションの意味的一貫性を評価する。
- 複数の画像生成モデルやエンコーダーをランダムに選択することで，適応攻撃への耐性を向上させている。
- One-Time-Use摂動をエンコーダー埋め込みに適用し，攻撃の効果を抑制する。
Link: https://arxiv.org/abs/2406.09250
繰り返し価格競争におけるオンライン最適化アルゴリズム：均衡学習とアルゴリズムによる談合 [cs.ET, cs.SI, cs.CY, cs.GT]目的：価格設定におけるオンライン学習アルゴリズムの競争的結果または黙示的な談合
- デジタル市場でのアルゴリズム価格設定の普及に伴い，競争規制当局からの関心が高まっている。
- アルゴリズムが均衡または競争を阻害する価格につながる可能性がある点が問題となっている。
- オンライン学習アルゴリズムが持続的な超競争価格を生み出す可能性を評価すること。
- 平均ベースのアルゴリズムは，相関合理化可能な行動に収束し，ナッシュ均衡またはそれに隣接する価格につながる。
- 多くの多腕バンディットアルゴリズムも収束することが数値実験で示された。
- 超競争価格は，UCBなどの特定のアルゴリズムの対称的なバージョンをすべての売り手が実装する場合にのみ観察された。
Link: https://arxiv.org/abs/2412.15707
暗黙的ニューラル表現のための正弦波活性化関数の統一理論 [cs.CV]目的：暗黙的ニューラル表現における学習可能な正弦波活性化関数に関する理論的・実践的枠組みの確立
- 画像処理，グラフィックス，信号処理など広範な分野で利用され，連続信号を効率的にモデル化する手法として重要性が増している。
- 微細な情報を正確に捉えるためには，複雑なエンコーディングや不安定な学習手法に頼らざるを得ないという課題が存在する。
- 学習可能な正弦波活性化関数を導入し，スペクトルバイアスを緩和し，性能とパラメータ効率のバランスを改善することを目指す。
- 提案手法STAFは，PSNR/SSIMなどの歪みベースの再構成メトリクスにおいて，既存手法と同等またはそれ以上の性能を示す。
- STAFは，層間でのパラメータ共有により，パラメータ効率の向上を実現する。
- 正弦波活性化関数はスペクトルバイアスを完全に解消するわけではないが，学習可能な正弦波は，性能と容量のトレードオフを改善する可能性を示唆する。
Link: https://arxiv.org/abs/2502.00869
建設現場用自律型フォークリフトADAPT [cs.CL, cs.RO, cs.CV, cs.SY, eess.SY]目的：建設現場における資材物流の効率化
- 建設業界では，コストと工期を管理する上で効率的な資材物流が重要である。
- 手作業による資材運搬は，非効率，遅延，安全上のリスクを伴う。
- 本研究は，建設現場の複雑な環境下における自律型フォークリフトの実現を目指す。
- 開発したADAPTは，AI駆動の認識技術と従来の手法を統合し，過酷な環境下でも安定した動作を可能にした。
- 実環境での実証実験の結果，自律型フォークリフトは熟練オペレーターと同等の性能を発揮することが示された。
- この結果は，建設現場の資材物流における安全性と効率性の向上に貢献する可能性を示す。
Link: https://arxiv.org/abs/2503.14331
消失する奥行き：正弦波状奥行き前処理を用いた汎化奥行きアダプターの学習 [cs.CV, cs.AI]目的：汎化された奥行き理解の実現
- 精密な視覚誘導ロボット工学には不可欠であり，現実世界への応用が期待される。
- 既存の視覚エンコーダーは，正確な奥行き情報をサポートしていないという課題がある。
- 事前学習済みRGBエンコーダーに奥行き情報を統合し，汎化性能を高めることを目指す。
- 提案手法は，セグメンテーション，姿勢推定，奥行き補完といったRGBDタスクにおいて，既存手法を上回る性能を示す。
- SUN-RGBDセグメンテーションにおいて56.05 mIoUを達成し，最先端の奥行き認識型エンコーダーを凌駕する。
- 奥行き情報がない場合でも，空のマップや単一ピクセルの奥行き情報で奥行き対応特徴抽出が可能となる。
Link: https://arxiv.org/abs/2503.19947
多様なモダリティと粒度における検索拡張生成 [eess.SY, cs.SY, cs.CL, cs.AI, cs.CV, cs.IR, cs.LG]目的：異種データからの知識検索と統合
- 質問応答の精度向上が求められる中で，外部知識を活用するRAGが注目されている。
- 既存のRAGはテキストデータに限定され，マルチモーダルへの拡張も単一モダリティに留まっている。
- 多様なモダリティと粒度に対応し，より適切な知識検索を実現すること。
- UniversalRAGは，モダリティ間のギャップを軽減するモダリティ認識ルーティングを提案する。
- 異なるモダリティと粒度を考慮することで，クエリに適した知識ソースから効率的に情報を取得する。
- 10種類のマルチモーダルベンチマークで，既存手法よりも優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2504.20734
HIL：動画からの多様なパルクールスキルのハイブリッド模倣学習 [cs.GR]目的：多様なパルクールスキルの学習
- 身体シミュレーションによる自然な人間らしい動作の実現が重要視されている。
- 未知の環境への適応や，多様なスキルを組み合わせて複雑なタスクを実行することが困難である。
- 適応性とスキル構成能力を高め，ロバストな動的制御を実現することを目指す。
- 提案手法HILは，モーション追跡による精密なスキル再現と，敵対的模倣学習による適応性向上を組み合わせている。
- HILは，並列マルチタスク環境と統合された観測空間を利用し，目標条件付き表現により知識共有を促進する。
- パルクールの様な障害物走査タスクと見出し制御タスクで有効性が示され，参照モーションの自然さを維持しつつ，難しい環境への汎化性能が向上した。
Link: https://arxiv.org/abs/2505.12619
スマートシティにおける高度なマッピングのためのVision Transformerによる遍在するRFデータと空間画像の融合 [cs.CV, cs.AI]目的：スマートシティにおけるマッピング精度の向上
- 都市のスマート化において，高精度な地図作成は不可欠であり，様々なサービス基盤となる。
- 既存の地図データには誤りが含まれる場合があり，RFデータのみでは精度に限界がある。
- RFデータと空間画像を効果的に融合することで，地図作成の精度向上を目指す。
- 提案手法は，既存の地図データとRFデータをVision Transformerで統合し，空間依存性を捉える。
- 合成データセットでの評価において，Jaccard indexは65.3%を達成し，既存手法を大きく上回った。
- オスロ地域の現実データでも64.9%のJaccard indexを達成し，実用性も確認された。
Link: https://arxiv.org/abs/2508.03736
特徴空間平面探索器：解釈性と計算効率のための汎用ドメイン適応フレームワーク [cs.CV]目的：解釈性と計算効率に優れた汎用ドメイン適応フレームワークの提案
- 深層学習システムの利用拡大のため，ラベルなしターゲットドメインへの適応が重要である。
- 既存手法は特徴抽出器の微調整に依存し，効率性，解釈性，スケーラビリティが課題である。
- 事前学習済みモデルの幾何学的パターンを利用し，境界のずれを最適化することで解決を目指す。
- 提案手法FPSは，特徴エンコーダを固定したまま決定境界を最適化し，効率的なドメイン適応を実現する。
- FPSは，既存の最先端手法と同等またはそれ以上の性能を公的なベンチマークで示している。
- 多岐にわたるドメイン（タンパク質構造予測，リモートセンシング，地震検出など）において，スケーラビリティと汎用性を示す。
Link: https://arxiv.org/abs/2508.18693
SARSteer：セーフアブレーションによる安全な拒否操縦を介した大規模音声言語モデルの保護 [cs.SI, cs.CY, cs.SD, cs.CR]目的：大規模音声言語モデルにおける有害な応答の抑制
- 現実世界への応用において，音声と言語を扱う大規模モデルの重要性が増している。
- 音声入力はテキスト入力よりも有害な応答を引き起こしやすく，安全性確保が課題となっている。
- 音声入力時の過剰な拒否を防ぎつつ，有害なクエリに対する拒否性能を向上させる。
- SARSteerは，音声入力を直接操作せず，テキスト由来の拒否操縦を活用することで，有害なクエリに対する拒否を強化する。
- セーフスペースアブレーションを導入することで，無害な音声クエリに対する過剰な拒否を抑制する。
- 実験により，SARSteerが有害クエリの拒否性能を大幅に向上させ，同時に無害な応答を維持することが示された。
Link: https://arxiv.org/abs/2510.17633
大規模視覚言語モデルにおける幻覚の軽減：テキスト埋め込みの改良による試み [cs.CV, cs.CL]目的：大規模視覚言語モデルにおける幻覚の軽減
- 視覚と言語を統合するAIモデルの精度向上は，現実世界とのインタラクションにおいて重要である。
- 既存モデルは言語情報に偏りやすく，視覚情報の活用が不十分なため幻覚が発生しやすい。
- 視覚情報に基づいたテキスト埋め込みを学習し，言語と視覚のバランスを改善することを目指す。
- 提案手法は，視覚情報を効果的に組み込むことで，テキスト埋め込みの偏りを軽減する。
- MMVP-MLLMで+9.33%，POPE-AOKVQAで+2.99%，Merlinで最大+3.4%，HallusionBenchのhardデータ分割で+3%の改善が確認された。
- 実験結果から，本手法が幻覚を大幅に抑制し，よりバランスの取れたマルチモーダル推論を促進することが示された。
Link: https://arxiv.org/abs/2511.05017
音響シーンの空間セマンティックセグメンテーションに対する評価指標分析 [cs.SD]目的：音響シーンの空間セマンティックセグメンテーションシステムの評価
- 音響シーン理解は，ロボティクスや自動運転など，様々な応用において重要な役割を果たす。
- 既存の評価指標は，分離性能と分類性能を区別しにくく，システム間の比較が困難である。
- 分離性能に焦点を当てた，より解釈性の高い評価指標を提案し，評価の改善を目指す。
- 提案手法CASA-SDRは，従来のCA-SDRと比較して，ラベルの入れ替えや分離性能の低い場合に過剰なペナルティを科さない。
- CASA-SDRは，分離性能に焦点を当てた評価を行うことで，S5システムの性能をより適切に評価できる。
- シミュレーション実験とDCASE 2025チャレンジのデータを用いた実験により，CASA-SDRの有効性が確認された。
Link: https://arxiv.org/abs/2511.07075
MMRINet：低リソースMRI解析のためのデュアルパス改良による効率的なMambaベースセグメンテーション [cs.CV]目的：低リソース環境における多パラメータMRI画像からの脳腫瘍セグメンテーションの効率化
- 脳腫瘍の正確なセグメンテーションは，治療計画や予後予測に不可欠であり，医療現場での需要が高い。
- 高解像度MRIの取得や高性能GPUの利用が困難な環境では，深層学習モデルの適用が制限される。
- 本研究は，限られた計算資源とデータ量でも高精度なセグメンテーションを可能にする新たなアーキテクチャを提案する。
- MMRINetは，従来のTransformerベースの手法と比較して，計算コストを削減しつつ，長距離の文脈モデリングを実現した。
- DPFRとPFAの組み合わせにより，データ不足下でも特徴量の多様性を高め，セグメンテーション境界の精度を向上させた。
- BraTS-Lighthouse SSA 2025データセットにおいて，既存のベースラインモデルを凌駕するDiceスコア0.752とHD95 12.23mmを達成した。
Link: https://arxiv.org/abs/2511.12193
HULFSynth：コントラスト係数推定による超解像度および超低磁場MRI合成 [cs.CV, cs.LG]目的：高磁場画像から超低磁場画像への，およびその逆方向の画像合成
- MRIは臨床診断に不可欠だが，高磁場装置は高価であり，場所も限られる。
- 超低磁場MRIはコストが低い一方，画質が劣るという課題がある。
- 高磁場と超低磁場のコントラスト変化の物理的原理に基づく合成手法を開発する。
- 合成された超低磁場画像において，白質-灰白質のコントラストが52%向上した。
- 64mT画像においても，コントラストが37%向上し，本手法の有効性が示された。
- ターゲットコントラスト，ノイズ，初期シードに対するロバスト性が確認された。
Link: https://arxiv.org/abs/2511.14897
MVAD：マルチモーダルAI生成動画・音声検出のためのベンチマークデータセット [cs.CV]目的：マルチモーダルAI生成動画・音声検出のための包括的なデータセット
- AI技術の発展により，動画・音声コンテンツの偽造が容易になり，情報セキュリティ上の懸念が高まっている。
- 既存のデータセットは主に視覚情報に偏っており，動画と音声を組み合わせた偽造検出には不十分である。
- 現実的な動画・音声の偽造パターンを網羅したデータセットを提供し，信頼性の高い検出システムの開発を促進する。
- MVADは，3種類の現実的な動画・音声の偽造パターンを包含し，多様な高品質なコンテンツを提供する。
- データセットは，写実的およびアニメの視覚スタイル，4つのコンテンツカテゴリ，4つの動画・音声データタイプを網羅する。
- MVADは，マルチモーダルAI生成コンテンツの検出における新たなベンチマークとなることが期待される。
Link: https://arxiv.org/abs/2512.00336
再発性直腸腫瘍の評価のための二重クロスアテンションSiamese Transformer [cs.CV]目的：経過観察内視鏡画像における直腸腫瘍の局所再発の早期検出
- 直腸癌の治療成績向上には，経過観察による管理が重要視されている。
- 経過観察中の再発を早期に正確に検出する手法が確立されていない。
- 内視鏡画像を用いて，臨床的完全奏効と局所再発を識別する。
- 開発したSSDCAは，バランスの取れた精度（81.76%），感度（90.07%），特異度（72.86%）を示した。
- 画像中の血液，糞便，毛細血管拡張など，アーチファクトに強く，安定した性能を発揮した。
- 特徴量抽出後のUMAPクラスタリングにより，高い識別能が確認された。
Link: https://arxiv.org/abs/2512.03883
整列しているがステレオタイプか？LLMベースの画像生成モデルにおけるシステムプロンプトが人口統計学的偏りをどのように形成するか [cs.CV, cs.LG]目的：LLMベースのテキスト-画像モデルにおける人口統計学的偏りの形成機構
- 画像生成技術の発展は，多様な表現を可能にする一方で，社会的な偏りを助長する可能性も孕んでいる。
- LLMベースのモデルは，テキスト理解度が高い反面，潜在的なバイアスを画像生成に反映しやすいという課題がある。
- システムプロンプトの調整によって，バイアスを軽減しつつ，ユーザーの意図を損なわずに画像生成を行うことを目指す。
- LLMベースのテキスト-画像モデルは，非LLMベースのモデルと比較して，人口統計学的偏りが顕著に強いことが示された。
- システムプロンプトはテキスト埋め込みに強い影響を与え，結果として偏った画像生成を引き起こすことが明らかになった。
- FairProという学習不要のデバイアスフレームワークが，公平性を考慮した指示生成によって人口統計学的格差を大幅に減少させることを実証した。
Link: https://arxiv.org/abs/2512.04981
RAMEN：地球観測のための解像度調整可能マルチモーダルエンコーダ [cs.CV]目的：地球観測データのマルチモーダル表現学習
- 地球観測は，環境監視や災害対応など，多岐にわたる分野で不可欠な情報源である。
- 既存モデルは，固定された解像度での入力や，センサー特有のエンコーダに依存し汎用性に欠ける。
- 異なるセンサーや解像度のデータを統合し，効率的な解析を実現することを目指す。
- RAMENは，地球観測データをセンサーに依存せず，解像度を調整可能な形で統合する。
- 学習済みのRAMENは，未知のセンサー構成にも高い転移学習性能を示す。
- PANGAEAベンチマークにおいて，既存の最先端モデルを凌駕する性能を達成した。
Link: https://arxiv.org/abs/2512.05025
局所脳エキスパートの多角的融合による解釈可能なアルツハイマー病診断 [eess.SY, cs.SY, cs.LG, cs.AI, cs.CV, eess.IV]目的：アルツハイマー病診断のための多角的融合モデリング
- アルツハイマー病の早期正確な診断は，効果的な介入のために不可欠である。
- 従来の融合手法は特徴量の単純な連結に依存し，脳領域ごとのバイオマーカーへの適応的な重み付けが困難である。
- 脳領域ごとの貢献度を考慮した，解釈可能な診断モデルを開発する。
- 提案手法MREF-ADは，既存手法と比較して競争力のある性能を達成した。
- MREF-ADは，構造的および分子イメージングがAD診断にどのように寄与するかに関する，解釈可能な知見を提供する。
- 各モダリティと脳領域レベルでの貢献度を明確に示せる。
Link: https://arxiv.org/abs/2512.10966
高忠実度Implicit Neural Representationのためのランク最適化 [cs.CV]目的：高忠実度Implicit Neural Representationのランク最適化
- Implicit Neural Representationは，3次元形状やシーンの表現に有効であり，様々な応用が期待されている。
- 従来のImplicit Neural Representationは，高周波成分の表現に限界があり，詳細な形状の再現が課題となっていた。
- ネットワークのランクを制御することで，高周波成分の表現能力を向上させ，より忠実なImplicit Neural Representationを構築することを目指す。
- ネットワークのランクを安定的に維持することで，単純なMLPアーキテクチャでも高周波信号を表現可能になることが示された。
- Muonなどのランクを重視するオプティマイザを使用することで，様々なINRアーキテクチャの性能が向上することが確認された。
- 自然画像や医療画像，新規視点合成など，多様なドメインにおいて最大で+9 dBのPSNR改善が確認された。
Link: https://arxiv.org/abs/2512.14366
シュレーディンガーのナビゲーター：ゼロショット物体ナビゲーションのための未来のアンサンブルの想像 [cs.RO, cs.AI, cs.CV]目的：未知環境におけるゼロショット物体ナビゲーションの性能向上
- 汎用サービスロボット実現には，地図作成や特定タスクの学習なしでの物体探索能力が不可欠である。
- シミュレーションで高い性能を示す手法が，現実世界では隠蔽や潜在的危険により性能が低下する。
- 不確実性の高い環境下でのロバストかつ安全なナビゲーションを実現する。
- 提案手法は，複数の未来状態を考慮することで，隠れた目標物の発見率を向上させた。
- 適応的なサンプリングにより，不確実性の高い領域に焦点を当て，より安全な経路選択を可能にした。
- シミュレーションと実機実験の両方で，既存のゼロショットナビゲーション手法を上回る性能を示した。
Link: https://arxiv.org/abs/2512.21201
実用的なVLA基盤モデル [cs.RO, cs.CV]目的：ロボット操作におけるVLA基盤モデルの能力向上
- ロボットの汎用的な操作能力向上は，製造業やサービス業における自動化の鍵となる。
- 既存のVLAモデルは，タスクやプラットフォームへの適応にコストがかかる場合がある。
- データ効率と計算効率に優れたVLA基盤モデルを開発し，実用性を高める。
- LingBot-VLAは，9種類のデュアルアームロボット構成で収集された約2万時間の実際のデータを用いて開発された。
- 3種類のロボットプラットフォームでの評価において，100のタスクを各プラットフォームで130エピソード実行し，競合モデルを上回る優れた性能と汎化能力を示した。
- 8-GPU環境で毎秒261サンプルの処理速度を実現し，既存のVLAコードベースと比較して1.5～2.8倍の高速化を達成した。
Link: https://arxiv.org/abs/2601.18692
SMART：Transformerに基づく代理モデルを用いた，生形状からのスケーラブルなメッシュフリー空力シミュレーション [cs.LG, cs.AI, cs.CV, cs.NE]目的：複雑形状における空力シミュレーションの効率的な代替手法
- 自動車などの複雑形状のシミュレーションは，設計・開発において不可欠である。
- 従来のシミュレーションでは，形状に応じたメッシュ生成にコストがかかる。
- メッシュ生成を不要としつつ，シミュレーション精度を向上させること。
- SMARTは，点群データのみから物理量を予測するニューラル代理モデルである。
- 構造とパラメータ特性を捉えた潜在空間と，物理デコーダによる層間相互作用が特徴である。
- 既存のメッシュ依存型手法と比較して，競争力があり，多くの場合で性能を上回る。
Link: https://arxiv.org/abs/2601.18707
FBSDiff++：拡散特徴の周波数帯域置換による効率的かつ高制御なテキスト駆動型画像-画像変換の改善 [cs.CV]目的：テキストと参照画像に基づく画像-画像変換の効率化と制御性向上
- 大規模テキスト-画像生成モデルの発展に伴い，画像-画像変換への応用が注目されている。
- 既存手法では，モデルの再学習や複雑な最適化が必要であり，柔軟性に課題がある。
- 周波数領域に着目し，モデル学習なしで高精度かつ柔軟な画像変換を実現する。
- FBSDiff++は，拡散特徴の周波数帯域置換により，外観，レイアウト，輪郭の制御を可能にした。
- 置換する周波数帯域の帯域幅を調整することで，変換の強度を連続的に制御できる。
- 改良されたモデルアーキテクチャにより，推論速度が大幅に向上し，多様な解像度に対応可能となった。
Link: https://arxiv.org/abs/2601.19115
幾何構造を考慮した拡散過程による水中光場画像の品質向上 [cs.CV]目的：水中光場画像の品質向上
- 水中環境における画像取得は，水による光の吸収・散乱により困難である。
- 従来の画像処理手法では，水中画像の色彩劣化や構造の歪みを十分に修正できない。
- 光場画像の幾何学的構造を活用し，拡散モデルを用いて水中の色彩劣化を軽減することを目指す。
- 提案手法GeoDiff-LFは，SD-Turboを基盤とし，光場画像の空間・角度構造を考慮した拡散過程を導入することで，水中画像の品質向上を実現した。
- 幾何学的情報をモデル化するU-Netアーキテクチャ，幾何構造を考慮した損失関数，効率的なサンプリング戦略が特徴である。
- 実験結果から，提案手法は既存手法と比較して，視覚的品質と定量的な性能において優れていることが示された。
Link: https://arxiv.org/abs/2601.21179
Pix2Fact：視覚だけでは不十分である -- 高解像度実世界シーンにおけるWeb検証を用いた詳細VQAのベンチマーク [cs.CV, cs.LG]目的：詳細な視覚的根拠付けと外部知識を必要とする課題に対する視覚言語モデルの性能評価
- 視覚と言語の理解を組み合わせたAI技術は，現実世界の複雑な問題を解決するために不可欠である。
- 既存のベンチマークは，視覚的根拠付けと外部知識を分離して評価しており，両者の相乗効果が考慮されていない。
- 現実世界の複雑なシーンにおいて，高度な視覚理解と知識検索能力を必要とする課題に対するモデルの限界を明らかにする。
- 最新の視覚言語モデル（Gemini-3.1-Proを含む）は，Pix2Factベンチマークにおいて平均51.7%の精度しか達成できず，困難な課題であることが示された。
- 低精度の主な要因は，視覚的根拠付けエラー，検索ツールの浅い活用，そして長尾の非構造化ローカル情報の取得困難にある。
- Pix2Factは，詳細な視覚的理解と堅牢な知識検索を統合した次世代の視覚言語エージェント開発を促進するための重要なベンチマークとなる。
Link: https://arxiv.org/abs/2602.00593
高速自己回帰型ビデオ拡散モデルと，時間キャッシュ圧縮および疎な注意機構を備えたワールドモデル [cs.CV, cs.AI]目的：自己回帰型ビデオ拡散モデルにおける推論時間のボトルネック軽減
- ビデオ生成技術の発展は，長編コンテンツやインタラクティブなゲームエンジン等，多様な応用を可能にする。
- 自己回帰型モデルでは，生成が進むにつれてKVキャッシュが肥大化し，遅延増大やGPUメモリ消費の問題が生じる。
- キャッシュ圧縮，プロンプト選択，疎な注意機構により，メモリ効率と速度を改善し，長時間の安定した生成を目指す。
- 提案手法FAST-ARは，既存の自己回帰型拡散モデルに容易に組み込むことが可能である。
- 実験の結果，推論速度は最大で5倍～10倍向上し，視覚的な品質は維持された。
- 特に，長時間の生成において，安定したスループットとほぼ一定のGPUメモリ使用量を実現した。
Link: https://arxiv.org/abs/2602.01801
HyperPotter：オーディオ偽装検知における高次相互作用の魅力 [cs.IR, cs.CL, cs.SD, cs.AI, eess.AS]目的：オーディオ偽装検知における高次相互作用の捉え方
- AI技術の発展により，人間の聴覚を欺くほどリアルな偽装音声が生成可能になり，社会問題化が懸念されている。
- 既存手法は局所的な特徴量やペアごとの関係性に依存しており，複数の要素間の複雑な相互作用を見落としている。
- 高次相互作用を捉えることで，より識別性の高いパターンを検出し，偽装音声を高精度に検知することを目指す。
- 提案手法HyperPotterは，クラスを考慮したプロトタイプ初期化を用いたクラスタリングに基づくハイパーエッジにより，高次関係性を捉える。
- 13のテストセットにおいて，11セットでベースラインを上回り，平均EERを12.68%削減，改良セットでは22.15%削減を達成した。
- 結果は，様々な状況下での高い汎化性能と，深刻なコーデック歪みやチャンネル歪みに対する一定の耐性を示唆している。
Link: https://arxiv.org/abs/2602.05670
3D-RFT：ビデオに基づく3次元シーン理解のための強化学習によるファインチューニング [cs.CY, cs.CV, cs.AI]目的：ビデオに基づく3次元シーン理解のための強化学習によるファインチューニング手法の開発
- 3次元シーン理解は，ロボティクスや自動運転などの応用において不可欠な技術である。
- 従来のファインチューニングは間接的な最適化に頼り，タスク性能との乖離が生じやすい。
- 評価指標を直接最適化することで，3次元シーン理解の性能向上を目指す。
- 提案手法3D-RFTは，様々なビデオに基づく3次元シーン理解タスクにおいて最先端の性能を達成した。
- 特に，3Dビデオ検出，3Dビジュアルグラウンディング，空間推論ベンチマークにおいて，より大規模なモデルを上回る性能を示した。
- 3D-RFTの堅牢性や，学習戦略とデータの影響に関する貴重な洞察が得られた。
Link: https://arxiv.org/abs/2603.04976
デジタルツイン駆動による繊維の分類と異物検出：自動選別システムへの応用 [cs.CV, cs.RO]目的：繊維の分類および異物検出に関する研究
- 持続可能な繊維リサイクルの需要増加に伴い，変形しやすい衣類を扱う自動化技術の重要性が高まっている。
- 複雑な環境下での衣類や異物の正確な認識，およびそれに対応した自動選別の実現が課題となっている。
- セマンティックな推論とデジタルツイン技術を組み合わせ，スケーラブルな自動繊維選別システムの実現を目指す。
- 本研究では，デジタルツイン駆動のロボット選別システムを構築し，RGBDセンサーや触覚フィードバックを活用した衣類の分類と異物検出を行った。
- 9種類のVisual Language Model（VLM）を評価した結果，Qwenモデルが最高87.9%の分類精度を達成し，異物検出においても高い性能を示した。
- 軽量なGemma3モデルは，エッジデバイスへの展開に適した速度と精度のトレードオフを提供する。
Link: https://arxiv.org/abs/2603.05230
SinGeo：ロバストなクロスビュージオロケーションのための単一モデルの可能性を解き放つ [cs.CY, cs.SI, cs.CV]目的：ロバストなクロスビュージオロケーションの実現
- 画像を用いた位置特定技術は，自動運転や拡張現実など幅広い分野で不可欠である。
- 既存手法は視野角依存性が高く，未知の視野角や向きに対して性能が低下する。
- 単一モデルで多様な視野角に対応し，ロバストなジオロケーションを実現すること。
- SinGeoは，追加モジュールや明示的な変換なしに，単一モデルでロバストなクロスビュージオロケーションを可能にする。
- SinGeoは，4つのベンチマークデータセットで最先端の結果を達成し，特に極端な視野角に対して優れた性能を示した。
- SinGeoは異なるアーキテクチャへの転移性を示し，モデルの安定性を定量的に評価する整合性評価法を提案した。
Link: https://arxiv.org/abs/2603.09377
SAR物体検出に対する物理的に実現可能な敵対的減衰パッチ [cs.IR, cs.CV, cs.CR]目的：SAR物体検出システムに対する敵対的減衰パッチの提案
- SAR画像は天候に左右されず有用だが，セキュリティ上の脆弱性が存在する。
- 既存の攻撃手法は，検出を欺くには顕著な摂動が必要で，物理的な実装が困難である。
- エネルギー制約と減衰ベースの配置により，攻撃効果と隠蔽性を両立させる。
- 提案手法は，高いステルス性を維持しつつ，検出性能を効果的に低下させることを示した。
- 異なるモデル間での高い汎化性能が確認された。
- 物理的な実現可能性に重点を置いた敵対的攻撃の新たな視点を提供する。
Link: https://arxiv.org/abs/2604.00887
並列処理の危険性：実行不確実性下におけるトランザクション手数料メカニズム [cs.CR, cs.GT]目的：トランザクション手数料メカニズムの性能と公平性に関する問題点
- ブロックチェーン技術の高性能化には並列実行が不可欠であり，その手数料メカニズム設計が重要である。
- 並列実行を考慮した手数料メカニズムは，悪意のある操作による不正利用や公平性の問題にさらされる可能性がある。
- 並列実行と実行コンティンジェンシー下での手数料メカニズムのトレードオフを明らかにすること。
- 並列実行が手数料に影響する場合，偽のトランザクションを挿入して手数料を削減する攻撃や，無駄な逐次トランザクションを作成して収益を増やす操作が可能になる。
- 実行コンティンジェンシーは，ユーザーによる未使用リソースへの過払い，およびスケジューラーの収益低下を引き起こす。
- 並列実行とコンティンジェンシーは，ユーザーとスケジューラーのリスク最小化の間にトレードオフが存在することを示した。
Link: https://arxiv.org/abs/2604.04193
ゼロ和フィクティヴプレイは一点に収束しない [cs.GT]目的：ゼロ和ゲームにおけるフィクティヴプレイの収束性
- ゲーム理論は，経済学や社会科学における意思決定の分析に不可欠である。
- フィクティヴプレイは，均衡点集合への収束が保証されているものの，一点への収束は自明ではない。
- 均衡点集合が非単一である場合のフィクティヴプレイの収束メカニズムを解明する。
- ゼロ和ゲームにおいて，均衡点集合が混合戦略のみから成る場合，フィクティヴプレイは一点に収束しないことが証明された。
- 均衡点集合内部では慣性が収束を妨げ，境界では相手の行動のずれが収束を不安定にする。
- 本研究は，フィクティヴプレイにおける均衡点集合への収束と均衡点への収束のギャップを明確化する。
Link: https://arxiv.org/abs/2604.07544
QualiaNet：経験優先推論ネットワーク [cs.DC, cs.CV, eess.IV, q-bio.NC]目的：立体視深度と距離推定の関係性の解明
- 人間の3D視覚理解のメカニズムは，ロボット視覚や自動運転技術に応用が期待される。
- 立体視は絶対距離の情報を提供しないにも関わらず，距離推定に影響を与える点が未解明であった。
- 近景は鮮明な視差勾配，遠景は平坦な視差勾配という自然な統計性を活用した距離推定モデルを構築する。
- QualiaNetは，人間の立体視経験を模倣した視差マップを入力とし，距離を推定するCNNを実装した。
- ネットワークは，視差勾配のみから距離を復元可能であり，提案するアプローチの有効性が確認された。
- この結果は，人間の3D視覚における経験と推論の分離を示唆する。
Link: https://arxiv.org/abs/2604.14193
境界集中型クリップ予算化アクティブラーニングによる時間行動セグメンテーション [cs.CV]目的：時間行動セグメンテーションにおけるラベル効率の向上
- 動画中の時間行動セグメンテーションは，ビデオ理解の重要な課題であり，様々な応用への展開が期待される。
- 行動境界付近での誤りがセグメンテーション精度に大きく影響し，ラベルコストが課題となっている。
- 行動境界に集中したラベル付与により，限られた予算内でセグメンテーション性能を最大化することを目指す。
- 提案手法B-ACTは，予測不確実性に基づきラベル付与対象の動画を選択し，行動境界を特定する。
- 境界スコアは，近傍の不確実性，クラスの曖昧性，時間予測の動的変化を統合することで，各フレームの重要度を評価する。
- GTEA，50Salads，Breakfastデータセットでの実験により，B-ACTが既存手法を上回るラベル効率と性能を示すことが確認された。
Link: https://arxiv.org/abs/2604.15173
効率的なオンライン3Dマルチカメラマルチオブジェクトトラッキングと姿勢推定 [cs.CV]目的：3Dマルチオブジェクトトラッキングと姿勢推定の実現
- ロボット工学や自動運転など，周囲環境を理解する上で重要である。
- 高精度な3Dデータ取得や学習済みモデルの依存度が高いことが課題である。
- 2D検出器のみを用いて，高速かつ高精度なトラッキングと姿勢推定を行う。
- 提案手法は，既存手法と比較して高速でありながら，精度を損なわないことを示した。
- 高価な3D学習データや計算コストの高い深層学習モデルを必要としない。
- カメラの接続・切断が頻繁に発生する状況下でもロバストな性能を発揮する。
Link: https://arxiv.org/abs/2604.16522
BRDF取得のためのレンダリングを意識した疎サンプル [cs.CL, q-bio.NC, cs.CV, cs.GR]目的：現実的なレンダリングに必要な正確なBRDF取得
- リアルな映像生成において，材質表現の正確さは不可欠であるため。
- 従来のBRDF測定は高精度だが，時間とコストがかかるという課題がある。
- 少ない測定データから高精度な材質表現を効率的に復元することを目指す。
- 提案手法は，レンダリング結果への影響を考慮した最適化により，極めて少ないサンプル数でのBRDF取得性能を向上させる。
- セットエンコーダ，事前学習済みのBRDF再構成器，微分可能なレンダラーを組み合わせることで，測定位置の最適化を実現している。
- 比較実験の結果，既存手法と比較してレンダリング品質が向上し，特に疎なデータセットでその効果が顕著であった。
Link: https://arxiv.org/abs/2604.26740
SAFformer：活性予測フィルタリングによるスパイクTransformerの性能向上 [cs.CV, cs.AI]目的：スパイクTransformerの性能向上
- 低消費電力なAI実現への期待から，生物学的妥当性とエネルギー効率に優れたSNNへの注目が集まっている。
- 既存のスパイクTransformerは受動的な反応型であり，重要情報への集中や冗長なデータ処理のオーバーヘッドが課題である。
- 予測符号化メカニズムに基づき，予測可能な信号を抑制し，重要な視覚特徴に焦点を当てることで，この課題を解決する。
- SAFformerは，CIFAR-10/100およびCIFAR10-DVSにおいて，最先端の性能を確立した。
- ImageNet-1Kでは，26.58Mパラメータ，5.88mJの消費量で80.44%のTop-1精度を達成し，高い精度と効率性を両立した。
- 活性予測フィルタリングという新しいアプローチが，スパイクTransformerの可能性を広げた。
Link: https://arxiv.org/abs/2605.08270
関係的検索：既知-新規相互作用を活用した汎用カテゴリ検出 [cs.CV, cs.AI, cs.MM]目的：汎用カテゴリ検出における関係的検索の枠組み
- 画像認識の分野において，未知のカテゴリを検出する能力は重要である。
- ラベル付きデータとラベルなしデータを効果的に活用できていない点が課題である。
- ラベル付きデータとラベルなしデータの相互作用による性能向上を目指す。
- 提案手法Relational Pattern Consistency (RPC)は，既存手法を上回る性能を達成した。
- RPCは，ラベル付きデータとラベルなしデータの双方向の知識伝達を可能にする。
- RPCは，既知クラスの維持と新規カテゴリの発見を同時に実現する。
Link: https://arxiv.org/abs/2605.09420
漫画109-v2026：現代漫画理解のための漫画109注釈の再検討 [cs.NI, cs.SY, eess.SY, cs.CL, cs.AI, cs.CV]目的：現代漫画理解のための漫画109注釈の修正
- 漫画は日本を代表する大衆文化であり，AI研究における重要な対象である。
- 既存の漫画109データセットは，不正確な文字起こしや粗い注釈を含むため，最新のOCR技術との整合性に課題がある。
- 漫画109データセットの注釈を修正し，現代的な漫画理解システムの性能向上を目指す。
- 漫画109の約29,000件の対話注釈を，OCRベースの検出と手動修正を組み合わせることによって修正した。
- 修正されたデータセット「漫画109-v2026」は，現代的なOCRシステムやマルチモーダル漫画理解システムとの整合性が向上した。
- 漫画特有の表現構造を維持しつつ，より正確なデータセットを構築した。
Link: https://arxiv.org/abs/2605.21182
Stream3D：エビデンスメモリによる逐次マルチビュー3D生成 [cs.CL, cs.CV]目的：一連の視点からの3D生成における時間的一貫性の維持
- 現実世界の視覚情報は連続的なストリームとして捉えられるため，時間的整合性が重要である。
- 既存の3D生成モデルは単一の視点に最適化されており，ストリームデータへの適用は一貫性を損なう。
- 時間的整合性を保ちながら，既存の3D生成モデルをストリームデータに適用可能とする。
- Stream3Dは，学習を必要とせず，既存の3D生成モデルをストリーム処理に対応させる仕組みである。
- エビデンスメモリを導入し，過去のフレームを選択的にキャッシュすることで，時間的一貫性を実現している。
- 現実的および合成のストリームベンチマークにおいて，既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2605.21472
迷彩認識におけるテスト時適応のための階層的整合性学習 [cs.RO, cs.SY, eess.SY, cs.CV]目的：迷彩物体検出におけるテスト時適応による動的な表現再調整
- 迷彩物体検出は，背景との知覚的差異が少ない対象物の検出であり，現実世界での応用が期待される。
- 既存手法は，静的な学習・凍結パラダイムに縛られ，ドメイン剛性と注釈依存性が課題となっていた。
- 本研究は，シーンの変動や未知の迷彩パターンへの適応能力を高めることを目指している。
- 提案手法は，階層的表現再構成(HRR)により特徴量の絡み合いを緩和し，空間的再構成と周波数分解を組み合わせることで，外観の均質化に対するロバスト性を強化する。
- ピクセルおよびスペクトル推論は，構造的および文脈的な事前情報を提供する。
- タスク親和性ガイダンス(TAG)とプロトタイプ整合性較正(PCC)により，知識伝播と意味的な不変性を確保し，分布シフト下での性能を向上させる。
Link: https://arxiv.org/abs/2605.25651