arXiv雑要約

画像・音声 - 2026/06/16 公開

スーダンにおける教師なし深層学習を用いた紛争関連火災のほぼリアルタイム検出 [cs.CV, cs.AI]目的：スーダンにおける紛争関連火災の影響を受けた地域の迅速なモニタリング
- 紛争地域における状況把握は，人道支援や治安維持において不可欠である。
- 紛争下では，迅速かつ正確な火災検出が困難であり，被害状況の把握が遅れる場合がある。
- 入手しやすい衛星データを用いて，紛争関連火災をほぼリアルタイムで検出する手法を開発する。
- 本研究では，軽量なVAEモデルを用いて，3m解像度のPlanet Labs衛星画像から火災被災地を約24～30時間以内に検出することに成功した。
- 提案手法は，既存のcosine distance，CVA，IR-MADといった手法と比較して，高い再現率とF1スコアを示した。
- 8バンド画像や時系列画像を用いた実験では，4バンド画像を用いた手法と比べて，性能向上はわずかであり，軽量なアプローチの有効性が示された。
Link: https://arxiv.org/abs/2512.07925
PoseGAM: 幾何形状を考慮したマルチビュー推論による未知物体姿勢推定のロバスト性向上 [cs.CV]目的：未知物体に対する6D姿勢推定手法
- ロボット工学やコンピュータビジョンにおいて，物体認識と位置姿勢推定は重要な課題である。
- 既存手法は，クエリ画像とオブジェクトモデルやテンプレート画像との特徴量対応付けに依存し，未知物体への対応が困難である。
- 幾何形状情報を活用し，特徴量対応付けなしで未知物体姿勢を高精度に推定することを目指す。
- 提案手法PoseGAMは，マルチビュー情報を活用し，幾何形状情報を明示的な点ベース幾何と学習された特徴を通じて統合する。
- 大規模な合成データセットを構築することで，ロバスト性と汎化性能を向上させている。
- 複数のベンチマークにおいて，既存手法を平均5.1%上回り，最先端の性能を達成し，未知物体への強い汎化性を示した。
Link: https://arxiv.org/abs/2512.10840
情動制約によるディープフェイク検出の強化と音声表現の維持 [cs.SD]目的：音声ディープフェイク検出性能の向上と，その際の音声表現の歪みの抑制
- 音声技術の進歩に伴い，ディープフェイクの脅威が増大しており，その検出が重要課題となっている。
- 従来のディープフェイク検出手法では，音声表現が歪みやすく，他の音声処理タスクへの悪影響が懸念される。
- 情動情報を活用することで，音声表現を維持しつつ，ディープフェイク検出性能を向上させることを目指す。
- 情動認識に特化した音声エンコーダのファインチューニングと，軽量なSVMを用いたディープフェイク検出により，高い検出性能が実現された。
- FakeOrRealおよびIn-the-Wildデータセットにおいて，それぞれ最大6％，2％の精度向上が確認された。
- 情動情報を代替する話者識別では，ディープフェイク検出性能が低下し，情動情報の有効性が示唆された。
Link: https://arxiv.org/abs/2512.11241
エンドツーエンド敵対的学習による時間変化オーディオエフェクトモデリング [cs.RO, cs.SD, cs.LG]目的：時間変化オーディオエフェクトのモデリング
- オーディオエフェクトは音楽制作や音響処理において不可欠であり，その高品質なモデリングが求められている。
- 時間変化エフェクトは，内部変調信号の抽出やアライメントが必要で，学習が困難であった。
- 入力と出力のオーディオ記録のみを用いて，時間変化エフェクトをモデリングし，変調信号抽出の課題を解決する。
- 敵対的生成ネットワーク（GAN）フレームワークを用いて，変調信号なしで時間変化エフェクトをモデリングすることが可能となった。
- 状態予測ネットワーク（SPN）により，モデルとターゲットを同期させる初期内部状態を推定し，精度が向上した。
- チャープ信号に基づく新しい指標により，変調の正確さを定量的に評価できることが示された。
Link: https://arxiv.org/abs/2512.15313
CropTrack：精密農業のための再識別を伴う追跡フレームワーク [cs.CV, cs.RO]目的：農業環境における多物体追跡の性能向上
- 精密農業の発展には，作物の生育状況を正確に把握することが不可欠である。
- 農地特有の環境下では，類似した外観の作物が多く，遮蔽も頻繁に発生する。
- 外観情報を活用した追跡技術により，遮蔽時の追跡精度を向上させる。
- 提案手法CropTrackは，外観情報と動き情報を組み合わせることで，従来の追跡手法を上回る性能を示す。
- 特に，遮蔽物による遮断が多い状況下でのID維持率の向上が確認された。
- 公開データセットでの評価において，CropTrackは関連付けの正確性および識別精度において大幅な改善が認められた。
Link: https://arxiv.org/abs/2512.24838
CLAP：コントラスト学習による潜在的行動事前学習 - 人間動画からの視覚・言語・行動モデル学習 [cs.FL, math.GR, math.RA, cs.RO, cs.CV]目的：視覚・言語・行動モデルの学習
- ロボット開発において，人間による動作模倣は有効な学習手法である。
- ロボットデータは限られており，人間動画の活用が課題である。
- 人間動画から潜在的行動空間へのマッピングを確立し，ロボットへの応用を目指す。
- CLAPは，Act-VAEとコントラスト学習を組み合わせることで，人間動画を物理的に根拠のある潜在的行動空間にマッピングする。
- CLAP-NTPは，ロボットデータと擬似ラベル付き人間動画を用いて，自己回帰的なVLAとして学習される。
- CLAPは，既存のベースラインと比較して優れた性能を示し，人間動画からロボットへの効果的なスキル転移を実現する。
Link: https://arxiv.org/abs/2601.04061
Akasha 2：ハミルトニアン状態空間双対性と視覚言語共同埋め込み予測アーキテクチャ [cs.CV, cs.AI]目的：視覚言語モデルにおける，ハミルトニアン状態空間双対性とVL-JEPAの統合
- 近年，視覚と言語を統合したモデルが注目されており，様々な応用が期待されている。
- 既存のモデルでは，長期的な時間的・空間的整合性の維持が課題となっていた。
- 物理学に基づいた誘導的バイアスを組み込むことで，この問題を解決することを目指す。
- Akasha 2は，最先端のビデオ予測性能（FVD: 287）を達成した。
- 拡散モデルと比較して，4倍高速な画像生成が可能である。
- Transformerベースラインと比較して，3-18倍高速な推論速度を実現し，エネルギー保存則も維持される。
Link: https://arxiv.org/abs/2601.06212
CASHEW: 反復軌道集約によるマルチモーダル推論の安定化 [cs.MA, cs.CY, cs.CV]目的：マルチモーダル推論の安定化
- 画像と言語の理解は，AI研究における重要な課題であり，様々な応用が期待される。
- マルチステップ推論において，同じ入力に対する結果が変動しやすく，一貫性に欠ける問題がある。
- 推論軌道を反復的に集約することで，推論の安定性を向上させ，より信頼性の高い結果を得ることを目指す。
- CASHEWは，複数の推論軌道を集約し，幻覚的なステップをフィルタリングすることで，推論を安定化する。
- CASHEW-RLは，報酬関数を用いて推論行動を学習し，最小限の視覚的証拠に基づいて正確な回答を導き出す。
- 13のベンチマークテストで大幅な性能向上を確認し，ScienceQAで最大+26.2%p，EgoSchemaで+9.1%pの改善を実現した。
Link: https://arxiv.org/abs/2601.08010
クロスパースペクティブ知覚を用いたファインチ grainedな対応学習による，オープンボキャブラリ6Dオブジェクト姿勢推定 [cs.CV, cs.RO, eess.IV]目的：オープンボキャブラリ6Dオブジェクト姿勢推定の性能向上
- ロボットが未知の物体を操作するためには，自然言語による指示を理解する能力が不可欠である。
- 従来の技術は，曖昧なグローバルマッチングに依存しており，背景ノイズの影響を受けやすい。
- 本研究は，空間的に制約されたパッチレベルでの対応学習により，ロバストな姿勢推定を実現することを目指す。
- 提案手法FiCoPは，オブジェクト中心の分離により背景ノイズを抑制し，ターゲットを分離する。
- CPGPモジュールにより，二つの視点からの特徴を統合し，文脈推論とセマンティック注入により構造的な合意を確立する。
- REAL275およびToyota-Lightデータセットにおいて，最先端手法と比較してAverage Recallがそれぞれ8.0%，6.1%向上した。
Link: https://arxiv.org/abs/2601.13565
色に基づく同時ジョブを持つ間隔スケジューリングゲーム [cs.GT]目的：色に基づく同時ジョブを持つ間隔スケジューリングゲームにおけるナッシュ均衡の存在，計算，非効率性
- 無線ネットワークのアンテナスケジューリングなど，様々な応用分野で間隔スケジューリングが重要である。
- 従来のスケジューリング問題では，プレイヤー間の戦略的な相互作用が考慮されていない。
- プレイヤー間の競争を考慮した最適なジョブ配置方法を明らかにすることを目指す。
- プレイヤーの戦略プロファイルが与えられた場合，機械のスケジューリング問題を多項式時間で解くことができる。
- 古典的な間隔スケジューリング問題と，複数のジョブを色セットに含む場合を区別して分析を行った。
- ナッシュ均衡の存在，計算可能性，および非効率性について検討した結果を得た。
Link: https://arxiv.org/abs/2601.15148
SAMTok：2つの単語で任意のマスクを表現 [cs.RO, cs.CV]目的：任意の領域マスクを2つの特殊トークンに変換し，高精度にマスクを再構成する手法
- 対話型知能システムの構築には，ピクセルレベルの認識能力が不可欠である。
- ピクセルレベルのマルチモーダルLLMのスケールアップは，複雑なエンコーダやセグメンテーションデコーダにより困難である。
- SAMTokは，従来のLLMを修正することなく，ピクセルレベルの能力を獲得することを可能にする。
- SAMTokは，マスクを離散的なトークンとして扱うことで，標準的な次トークン予測と強化学習を通じてピクセルレベルの能力を学習させる。
- QwenVL-SAMTokは，領域キャプション，VQA，グラウンデッド会話，参照セグメンテーションなど，様々なタスクで最先端または同等の性能を達成した。
- テキストによる回答一致報酬を用いる強化学習により，GRESおよびGCGベンチマークで大幅な改善が確認された。
Link: https://arxiv.org/abs/2601.16093
アラビア文字の筆跡認識データセットにおける人間介入型ラベル誤り検出フレームワーク [cs.CV]目的：アラビア文字の筆跡認識データセットにおけるラベル誤りの検出
- アラビア文字の筆跡認識は，ラテン文字に比べて進捗が遅れているため，認識精度の向上は重要である。
- データセットの品質が，アラビア文字の筆跡認識における課題となっている。
- 本研究は，筆跡認識の性能を低下させるラベル誤りを検出・修正することで，データセットの品質向上を目指す。
- 提案フレームワークCER-HVは，文字誤り率に基づくノイズ検出器と人間による検証の二段階でラベル誤りを検出する。
- CER-HVフレームワークは，アラビア文字データセットにおいて最大90%の精度でラベル誤りを特定できた。
- データセットのクリーニングと再学習により，評価CERが最大1.8%ポイント改善された。
Link: https://arxiv.org/abs/2601.16713
実用的なVLA基盤モデル [cs.CL, cs.RO, cs.CV]目的：ロボット操作におけるVLA基盤モデルの性能向上
- ロボットの汎用性と自律性を高める上で，視覚，言語，行動を統合するVLAモデルは不可欠である。
- 既存のVLAモデルは，タスクやプラットフォームへの適応に多くのデータと計算資源を必要とする場合がある。
- 本研究は，データ効率と計算効率に優れた，実用的なVLA基盤モデルを開発し，ロボット学習の発展に貢献することを目指す。
- LingBot-VLAは，9種類のデュアルアームロボット構成で収集した約2万時間の実データを用いて開発された。
- 4つのロボットプラットフォームでの評価により，100のタスクにおいて，既存モデルを上回る優れた汎化性能と性能が確認された。
- 8GPU環境において，261サンプル/秒という高い処理速度を実現し，既存コードベースと比較して1.5～2.8倍の高速化を達成した。
Link: https://arxiv.org/abs/2601.18692
情報非対称性の解消：不確実性を低減したブラインド顔復元のための階層的フレームワーク [cs.CV]目的：ブラインド顔復元における不確実性の低減
- 顔認識技術は，セキュリティ，監視，人間とコンピュータのインタラクションなど，多岐にわたる分野で重要である。
- 著しく劣化された画像からの顔復元は本質的に困難であり，現在の生成モデルは，アイデンティティの一貫性を欠く可能性がある。
- 安定した高レベルなアンカーを提供し，顔認識に重要な詳細を復元することで，復元不確実性を低減することを目指す。
- 提案手法Pref-Restoreは，セマンティック情報拡張，テクスチャレベルの忠実度調整，および忠実度制約付きの嗜好最適化という3つの原理に基づいて構築されている。
- 合成データおよび実データを用いた実験の結果，Pref-Restoreは最先端の性能を達成し，より強力なアイデンティティに基づいた忠実度と，低い復元不確実性を示す。
- 段階的な学習，テキスト経路の堅牢性，忠実度制約付き嗜好最適化の利点が，性能向上に貢献することが示された。
Link: https://arxiv.org/abs/2601.19506
MapDream：視覚言語ナビゲーションのためのタスク駆動型地図学習 [cs.CL, cs.RO, cs.AI, cs.CV]目的：視覚言語ナビゲーションにおける地図表現の学習
- ロボットが環境を理解し，自律的に行動するために，環境地図の構築が不可欠である。
- 既存の地図作成手法は手作業に頼るか，ナビゲーションとは独立して構築されるため，効率的ではない。
- ナビゲーションの目的に応じて地図を学習することで，より効率的かつ効果的なナビゲーションを実現する。
- MapDreamは，タスク駆動型の地図生成フレームワークであり，鳥瞰図画像を生成する。
- 地図生成と行動予測を同時に学習することで，ナビゲーションに必要な情報のみを効率的に地図に集約する。
- R2R-CEとRxR-CEの実験で，最先端の性能を達成し，タスク駆動型地図学習の有効性を実証した。
Link: https://arxiv.org/abs/2602.00222
RAGが有害になる時：検索拡張されたLVLMにおける注意散漫の診断と軽減 [cs.CV, cs.AI, cs.CL]目的：検索拡張されたLVLMにおける注意散漫の診断と軽減
- 知識ベースのVQAタスクにおいて，大規模な視覚言語モデル(LVLM)の性能向上にRAGが広く利用されている。
- RAGの失敗の原因として，検索された文脈への注意の集中不足が指摘されている。
- 検索された文脈が十分である場合に生じる注意散漫を特定し，その軽減策を提案すること。
- 本研究では，検索された文脈が十分な場合，視覚情報への注意がグローバルに抑制され，質問に関連する領域からの注意が逸れるという「注意散漫」という新たな失敗モードを特定した。
- この問題に対処するため，文脈統合と視覚的根拠付けを分離するMAD-RAGという，学習不要な介入手法を提案した。
- OK-VQA，E-VQA，InfoSeekにおける実験結果から，MAD-RAGは既存手法を上回り，最大で4.76%，9.20%，6.18%の絶対的な性能向上を示した。
Link: https://arxiv.org/abs/2602.00344
不完全なトポロジー的監督下での統合肺樹木モデリングのためのトポロジーを意識した暗黙的フィールド学習 [cs.CV]目的：不完全な肺樹木モデリングにおけるトポロジー補完と解剖学的解析
- 肺は呼吸器系の中核であり，その構造理解は疾患診断や治療計画に不可欠である。
- CT画像から抽出される肺樹木はトポロジーが不完全であることが多く，解析精度を低下させる。
- 不完全な肺樹木構造に対し，トポロジー補完を通じて高精度な解析を実現すること。
- 提案手法TopoFieldは，トポロジー補完を主要な課題として扱い，肺構造の解析を統合的に行う。
- TopoFieldは，疎な表面点群と骨格点群を用いて暗黙的フィールドを学習し，完全な接続情報なしでトポロジーを補完する。
- 実験結果から，TopoFieldはトポロジーの完全性を向上させ，正確な解剖学的ラベリングと肺セグメンテーションを実現した。
Link: https://arxiv.org/abs/2602.02186
SLUM-i：インフォーマル居住地の都市マッピングとデータ品質ベンチマークのための半教師あり学習 [cs.CV, cs.AI]目的：インフォーマル居住地の都市マッピングとデータ品質の評価
- 都市の急速な拡大により，発展途上国におけるインフォーマル居住地が増加しており，そのマッピングが重要である。
- アノテーションの不足に加え，構造間のスペクトル的な曖昧さやアノテーションノイズなど，データ品質に課題が存在する。
- 本研究は，ラベル付きデータが少ない状況下でも高精度なマッピングを可能にする手法を開発し，データ品質を向上させることを目指す。
- パキスタン（ラホール，カラチ）とインド（ムンバイ）を含む7都市のデータセットを構築し，データ品質評価を行った。
- 少数クラスの抑制を防ぐClass-Aware Adaptive Thresholding機構と，分布外タイルを除去するDINOv2ベースのフィルタを導入した半教師ありセグメンテーションフレームワークを提案した。
- 提案手法は，最先端の半教師あり学習手法と比較して，最大で+5.9 pp mIoUの改善を示し，推論オーバーヘッドは発生しない。
Link: https://arxiv.org/abs/2602.04525
ライトフォーシング：スパース注意による自己回帰型ビデオ拡散の高速化 [cs.CV]目的：自己回帰型ビデオ生成における効率的な展開
- ビデオ生成の品質向上とインタラクティブ性の向上が求められている。
- 注意機構の計算量がボトルネックとなり，処理速度が課題となっている。
- 自己回帰型ビデオ生成モデルに特化したスパース注意機構を開発する。
- 提案手法「ライトフォーシング」は，既存のスパース注意機構よりも高品質かつ高速なビデオ生成を実現した。
- Chunk-Aware Growth機構により，生成時の知識継承を促進し，効率的なスパース処理を可能にした。
- Hierarchical Sparse Attentionにより，多様な注意パターンに対応し，多様なGPUで2.0～3.0倍の速度向上を達成した。
Link: https://arxiv.org/abs/2602.04789
自己プロンプトによる深度認識を用いた汎用セグメンテーションモデル SPDA-SAM [cs.CL, cs.CV]目的：インスタンスセグメンテーションのための自己プロンプト深度認識SAMモデル
- インスタンスセグメンテーションは，画像認識の重要なタスクであり，様々な応用分野で活用されている。
- SAMの性能は手動プロンプトの質に依存し，RGB画像だけでは空間構造の把握が困難である。
- 自己プロンプトと深度情報を活用することで，SAMの性能向上と空間構造の把握を目指す。
- 提案手法SPDA-SAMは，12種類のデータセットにおいて最先端のモデルを上回る性能を示した。
- 自己プロンプトによる誘導と，粗大粒度から微細粒度へのRGB-D融合が，性能向上に貢献していると考えられる。
- SAMにおける自己プロンプトと深度認識の組み合わせは，これまでの研究では検討されていなかった。
Link: https://arxiv.org/abs/2602.06335
言葉で道を見る：言語誘導型RGB-Tドライビングシーンセグメンテーションフレームワーク [eess.SY, cs.SY, cs.CV, cs.AI, cs.LG, cs.RO]目的：悪条件下におけるRGB-Tドライビングシーンのセグメンテーション手法
- 自動運転の実現には，多様な環境下での正確なシーン理解が不可欠である。
- 既存手法では，照明条件に応じた適切なモダリティ融合が課題となっていた。
- 照明状態に応じた動的な融合戦略により，セグメンテーション精度向上を目指す。
- 提案手法CLARITYは，ビジョン言語モデルの知識を活用し，状況に応じたモダリティの貢献度を調整する。
- 従来のノイズ除去手法で誤って破棄される暗い物体情報を保持する機構を導入した。
- MFNetデータセットにおいて，CLARITYは最先端の性能（mIoU 62.3%，mAcc 77.5%）を達成した。
Link: https://arxiv.org/abs/2602.07343
低ランク・クープマン変形体と対数線形時間積分 [cs.GR]目的：変形体サブスペースシミュレーションの高速化
- 物理シミュレーションは，リアルな視覚効果や制御システムの設計に不可欠である。
- 変形体シミュレーションは計算コストが高く，特に長時間のシミュレーションや最適化処理に課題がある。
- クープマン演算子を用いることで，計算効率を向上させ，より複雑な変形体シミュレーションを実現する。
- 動的モード分解(DMD)を用いたクープマン演算子により，変形体の時間発展を効率的に学習し，予測することが可能になった。
- 本手法は，時間ステップ数に対して対数線形スケーリングを実現し，シミュレーションの高速化に貢献する。
- 形状やメッシュ解像度に依存しない拡張により，形状最適化の可能性が広がり，クープマン演算子の実用性が向上した。
Link: https://arxiv.org/abs/2602.07687
自己教師あり学習における離散的コミュニケーション [cs.DC, cs.CV, cs.IR, cs.LG]目的：視覚的自己教師あり学習における表現構造の制御
- 視覚情報の理解には，効率的な表現学習が不可欠である。多様なタスクへの適応性が求められる。
- 従来の連続的な表現学習では，表現次元間の情報の構造化が不十分であるという課題がある。
- 限られた情報伝達路を通じて情報を伝達する離散的なコミュニケーション枠組みを導入し，表現構造を制御する。
- 教師ネットワークと生徒ネットワーク間の二値メッセージの予測により，離散的な合意を促す。
- チャンネルレート正則化により，制約された伝達路の効率的な利用を促進し，構造化された表現を獲得する。
- 画像分類，検索，高密度視覚予測タスクにおいて，従来の連続的な合意基準線に対して一貫した性能向上を示す。
Link: https://arxiv.org/abs/2602.09764
UniT：統一マルチモーダル思考連鎖テスト時スケーリング [cs.CV, cs.AI, cs.LG]目的：マルチモーダル思考連鎖テスト時スケーリングのフレームワーク
- マルチモーダル理解と生成は重要であり，複雑なタスクへの応用が期待される。
- 既存モデルは単一パス処理が主であり，反復的な推論や修正が難しい。
- テスト時スケーリングをマルチモーダルモデルに適用し，推論能力を向上させる。
- 統一モデルは短い推論軌跡で学習することで，テスト時に長い推論連鎖に一般化可能であることが示された。
- 逐次的な思考連鎖は，並列サンプリングよりもスケーラブルで計算効率の良いテスト時スケーリング戦略である。
- 生成と編集の軌跡で学習することで，分布外の視覚的推論が改善されることが確認された。
Link: https://arxiv.org/abs/2602.12279
効果を模倣する：シミュレーションフィルタリングによるモジュールポリシー学習 - 人間動画からの学習 [cs.RO, cs.CV, cs.LG]目的：模倣学習によるロボットの操作スキルの獲得
- ロボット学習において，人間によるデモンストレーションは，データ収集の効率化に貢献する。
- ロボットの手の構造が人間と異なる場合，把持動作の学習が困難である。
- タスクに適した把持動作を効率的に学習し，ロボットの操作性能を向上させる。
- 提案手法Perceive-Simulate-Imitate(PSI)は，シミュレーションによる把持の適合性ラベル付与により，タスク指向の把持能力を学習する。
- 実機実験の結果，PSIはロボットデータを一切使用せずに，高精度な操作スキルを効率的に学習できることが示された。
- 提案手法は，単純な把持生成器と比較して，よりロバストな性能を発揮することが確認された。
Link: https://arxiv.org/abs/2602.13197
FireRed-Image-Edit 1.0 技術報告 [cs.CV, eess.IV]目的：指示に基づいた画像編集のための拡散Transformerモデル
- 画像生成技術は，多様な分野で活用が期待されており，その発展が重要である。
- 既存の画像編集技術には，編集精度や多様性の点で課題が残されている。
- 高品質な画像編集を実現し，より高度な制御性と汎用性を備えたモデルを開発すること。
- FireRed-Image-Editは，データキュレーション，学習方法，評価設計を体系的に最適化することで，最先端の性能を達成した。
- 15種類の編集カテゴリを含む包括的なベンチマークであるREDEdit-Benchを新たに確立し，多様なタスクでの性能を評価した。
- オープンソースおよびプロプライエタリな既存システムと比較して，競争力のある，あるいはそれ以上の性能を示した。
Link: https://arxiv.org/abs/2602.13344
ToaSt：ViTの効率化のためのトークンチャネル選択と構造化プルーニング [cs.MA, cs.CY, cs.RO, cs.SY, eess.SY, cs.CV]目的：ViTの効率化
- ViTは画像認識で高い性能を示すが，計算コストが大きい点が課題。
- 従来のプルーニングやトークン圧縮は，再学習や層間依存性により最適化が難しい。
- ViTの各コンポーネントに特化した戦略を適用し，効率的な推論を実現する。
- ToaStは，既存手法と比較して精度と効率性の両面で優れたトレードオフを実現した。
- ViT-MAE-Hugeでは，精度を1.64%p向上させつつ，FLOPsを39.4%削減した。
- COCO検出タスクでも，mAPが52.2から51.9へと向上し，多様なタスクへの転移性も確認された。
Link: https://arxiv.org/abs/2602.15720
画像処理におけるナンバープレート検出とノイズ除去の実装 [cs.CV, eess.IV, eess.SP]目的：ナンバープレート検出システムの実現
- 車両数増加に伴い，効率的な車両識別技術の需要が高まっている。
- 既存のシステムでは，ノイズの影響を受けやすく，認識精度が課題となっている。
- 画像処理技術を用いて，ナンバープレートの正確な検出とノイズ除去を目指す。
- ナンバープレート検出システムは，駐車場決済，高速道路料金徴収，交通監視など，多岐にわたる分野での応用が期待される。
- 本研究は，ナンバープレート検出技術の精度向上に貢献し，関連システムの効率化に繋がる。
- 将来的には，生物学や航空宇宙分野など，他の分野との連携も視野に入れる。
Link: https://arxiv.org/abs/2603.01016
TIMI：学習不要な空間的忠実度を備えた画像から3Dマルチインスタンス生成 [cs.CV]目的：画像から3Dマルチインスタンス生成における空間的忠実度の確保
- 現実世界の応用において，3Dモデルの精度は不可欠であり，その中でも空間的忠実度は特に重要である。
- 既存手法では，事前学習済みモデルの微調整が必要で，計算コストが高く，空間的忠実性の保証が困難である。
- 事前学習済みモデルが持つ空間情報を活用し，学習を伴わない高精度な生成手法を確立することを目指す。
- 提案手法TIMIは，インスタンス分離を促すISGモジュールと，幾何学的特徴を安定化させるSGUモジュールを導入することで，空間的忠実度を向上させる。
- 既存のマルチインスタンス生成手法と比較して，全体的なレイアウトと個々のインスタンスの識別性において優れた性能を示す。
- 追加の学習を必要とせず，高速な推論が可能である。
Link: https://arxiv.org/abs/2603.01371
クロスモーダルアイデンティティマッピング：強化学習によるモダリティ変換時の情報損失最小化 [cs.DC, cs.CV, cs.AI]目的：モダリティ変換における情報損失の最小化
- 画像と言語の融合は，AIの多角的理解に不可欠であり，その応用範囲は広い。
- 画像キャプション生成において，重要な視覚情報の省略や誤表現が課題となっている。
- 画像とキャプション間のアイデンティティマッピングにより，情報損失を定量的に評価し，改善する。
- 提案手法CIMは，追加のアノテーションなしで画像キャプション生成の性能を向上させる。
- CIMは，Gallery Representation ConsistencyとQuery-gallery Image Relevanceという2つの指標に基づいて情報損失を評価する。
- COCO-LN500ベンチマークにおいて，Qwen2.5-VL-7B上で関係推論の精度が20%向上した。
Link: https://arxiv.org/abs/2603.01696
Proact-VL：リアルタイムAIコンパニオンのためのプロアクティブなVideoLLM [cs.CV]目的：リアルタイムAIコンパニオン実現のためのプロアクティブVideoLLMの構築
- 人間らしいAIコンパニオンには，リアルタイムなインタラクションが不可欠である。
- 継続的なストリーミング入力下での低遅延推論，応答タイミングの自律的決定が課題。
- 生成されるコンテンツの質と量を制御し，リアルタイム制約を満たすことを目指す。
- Proact-VLは，優れた応答速度と品質を両立し，強力な動画理解能力を示す。
- Live Gaming Benchmarkという大規模データセットを構築し，実用性を実証した。
- ゲームシナリオ（解説者，ガイド）を通して，AIコンパニオンの有効性を評価した。
Link: https://arxiv.org/abs/2603.03447
拡散Transformerにおける多様な表現学習に向けて [cs.CV]目的：拡散Transformerにおける表現の多様性確保
- 画像生成分野において，拡散Transformerの優れた拡張性が注目されている。
- 拡散Transformer内部における表現学習のメカニズムは未だ解明されていない。
- 拡散Transformerにおける表現の多様性を高めることで，学習効率と性能向上を目指す。
- 本研究により，拡散Transformerのブロック間の表現多様性が効果的な学習に不可欠であることが示された。
- 提案手法であるDiverseDiTは，残差接続と表現多様性損失を導入し，表現の多様性を明示的に促進する。
- ImageNetでの実験により，DiverseDiTが様々なバックボーンで性能向上と収束加速をもたらすことが確認された。
Link: https://arxiv.org/abs/2603.04239
WavSLM：WavLM蒸留による単一ストリーム音声言語モデル [cs.LG, cs.AI, cs.CL, cs.SD]目的：単一ストリーム音声言語モデルの構築
- 音声処理技術の発展は，人間と機械の自然な対話を可能にする上で不可欠である。
- 従来の音声言語モデルは，テキスト依存や複雑な構造を必要とし，簡素なモデル構築が困難である。
- WavLMの表現を蒸留することで，テキスト非依存で効率的な音声言語モデルを開発する。
- WavSLMは，自己教師あり学習モデルWavLMの表現を量子化・蒸留することで，単一のコードブックを用いた音声言語モデルを実現した。
- テキストによる教師なし学習や事前学習なしで，音声の意味と音響情報を単一のトークンストリームで共同にモデル化できる。
- WavSLMは，パラメータ数や学習データ量が少なく，ストリーミング推論に対応しており，既存モデルと同等の性能を示す。
Link: https://arxiv.org/abs/2603.05299
MSpoofTTS：離散音声合成のための多解像度スプーフ誘導推論 [cs.SD, eess.AS]目的：離散音声合成における品質向上
- 近年，ニューラルコーデック言語モデルが音声合成の高品質化を可能にしている。
- 推論時にトークンレベルの不自然さや分布のずれが生じ，知覚的な自然さが損なわれる場合がある。
- モデル再学習なしに，ゼロショット合成の品質と堅牢性を向上させることを目指す。
- MSpoofTTSは，多解像度スプーフガイダンスを用いて，高品質な音声合成を実現する推論フレームワークである。
- 異なる時間粒度でのスプーフ検出により，不自然なパターンを特定し，推論候補を絞り込む。
- 実験により，MSpoofTTSがコーデックベースの音声生成において，堅牢性と高品質を向上させることが確認された。
Link: https://arxiv.org/abs/2603.05373
ビデオ場所認識のための新規視点合成の系統的評価 [cs.CV, cs.RO]目的：ビデオ場所認識における新規視点合成の効果検証
- ロボットナビゲーションの向上に貢献し，地上と空中の連携を可能にする技術として重要である。
- 既存の場所認識システムは，視点や環境の変化に弱く，ロバスト性に課題がある。
- 新規視点合成によるデータ拡張で，場所認識の精度とロバスト性を向上させることを目指す。
- 少量の新規視点合成データ追加は，ビデオ場所認識の性能向上に寄与することが示された。
- 大量のデータ追加においては，視点変化の大きさよりも，追加するビューの数や画像の種類が重要である。
- 公共のVPR画像データベースと7つの画像類似度評価手法を用いた系統的な検証により，これらの結果を得た。
Link: https://arxiv.org/abs/2603.05876
IGLU：積分ガウス線形ユニット活性化関数 [cs.LG, cs.CV]目的：深層ニューラルネットワークにおける活性化関数の改良
- 深層学習の性能は活性化関数に大きく依存し，その最適化は重要な課題である。
- ReLUは一般的だが，勾配消失問題や表現能力の限界が指摘されている。
- 重い裾を持つCauchy分布を用いた活性化関数を提案し，勾配消失問題を軽減する。
- IGLUは，GELUのゲート関数を半正規分布で混合することにより導出された新しい活性化関数である。
- IGLUは，GELUと比較して，よりロバストな勾配特性を示すことが確認された。
- 画像認識および自然言語処理のデータセットにおいて，ReLUやGELUと同等以上の性能を達成した。
Link: https://arxiv.org/abs/2603.06861
多重ネットワークにおける協調ゲーム：意見ダイナミクスの合意，収束，安定性 [cs.CL, cs.GT]目的：多層ネットワークにおける意見ダイナミクス
- 社会現象や情報伝達を分析する上で，人々の意見形成過程の理解は不可欠である。
- 単層ネットワークモデルでは，現実世界の複雑な相互作用を十分に捉えきれないという課題がある。
- 多重ネットワークにおける意見ダイナミクスの特性を解明し，合意形成を促進するネットワーク設計指針を提供する。
- 多層ネットワークの相互作用は，単一の層だけでは達成できない合意形成を誘導または加速することが示された。
- 層の加重次数の一致が，層の統合または切り替えが単独の層と比較して合意への収束を速めるかどうかの主要な決定要因となる。
- ネットワークの摂動に対する安定性についても解析し，十分条件を導出した。
Link: https://arxiv.org/abs/2603.07633
RLPR：2段階の非対称クロスモーダルアラインメントによるレーダーto LiDAR場所認識 [cs.CV]目的：自律走行のためのレーダーとLiDAR間の場所認識
- 全天候での自律走行は重要であり，多様な環境下での信頼性の高い位置認識が不可欠である。
- LiDARによる場所認識は悪天候時に性能が低下し，レーダーはマップの利用可能性に制限がある。
- レーダーとLiDAR間の場所認識を通じて，悪天候下でもLiDARマップを活用することを目指す。
- 提案手法RLPRは，シングルチップ，スキャン，4Dレーダーを含む様々なレーダーに対応可能である。
- RLPRは，センサー固有の信号特性を抽象化する構造特徴抽出のためのデュアルストリームネットワークを採用する。
- 実験により，RLPRが最先端の認識精度と強力なゼロショット汎化能力を達成することが示された。
Link: https://arxiv.org/abs/2603.07920
CT-VDETR：密な頂点相対位置エンコーディングを用いたCTスキャンにおける半教師あり3次元外傷検出 [cs.CV, cs.LG]目的：腹部CTスキャンにおける3次元外傷検出の効率的な手法
- 外傷は救急医療における重要な課題であり，迅速かつ正確な診断が求められる。
- ボクセルレベルのアノテーション作成はコストと時間がかかるため，十分な学習データが得られにくい。
- ラベルの少ない状況下でも高精度な外傷検出を可能にする技術の開発。
- 自己教師あり学習による3次元U-Netエンコーダの事前学習により，解剖学的表現学習の精度向上を実現した。
- V-DETRを密な体積CTに適合させることで，不規則な形状の外傷の局在化性能を向上させた。
- 半教師あり学習を用いることで，ラベル付きデータが少ない状況下でも高い検出精度(mAP@0.50で31.33%)を達成した。
Link: https://arxiv.org/abs/2603.12514
検閲された需要学習下における動的な卸売価格設定 [cs.GT, econ.TH, math.OC]目的：検閲された需要データからの需要学習を行う二段階サプライチェーンにおける動的卸売価格設定と発注
- POSデータ共有が進み，需要予測の精度向上はサプライチェーン全体の効率化に不可欠である。
- 欠品時の需要は観測されないため，発注量が将来の需要シグナルの情報量に影響を与え，最適な在庫管理が困難である。
- 卸売価格を通じて学習ペースを調整し，在庫決定が将来の情報に与える影響を考慮した，最適な価格・発注戦略を確立する。
- メーカーは，より多くの発注を促し，将来の検閲を減らすために，近視的なベンチマークよりも低い卸売価格を設定することが示された。
- 小売業者は，将来の卸売価格設定におけるメーカーの立場を強化することを避けるため，より緩やかな学習を好む場合がある。
- Weibull需要および指数需要に対して，Markov完全均衡の存在と一意性が証明された。
Link: https://arxiv.org/abs/2603.13599
胸部X線モデルにおける概念網羅のための臨床的に認識された合成画像生成 [cs.CV, cs.HC]目的：胸部X線診断モデルにおける臨床的に意味のある概念の組み合わせの網羅度向上
- 医療画像診断における深層学習の活用が重要視されているため。
- 公開されている学習データセットの概念網羅性が限定的である点が課題。
- 臨床的・解剖学的制約を考慮した合成画像生成による概念網羅性の向上を目指す。
- 提案手法CARPAは，臨床概念ベクトルを標的に作用させつつ解剖学的構造を維持することで，現実的な合成画像を生成する。
- CARPAで生成されたデータでファインチューニングすることで，既存手法と比較して，モデルの精度・再現率が向上し，予測不確実性が低減した。
- 構造的・意味的分析および専門医による評価から，CARPAは高い解剖学的忠実度と臨床的妥当性を持つことが示された。
Link: https://arxiv.org/abs/2603.15525
MAND：モダリティ認識による新規性検出を用いたオープンワールド一人称活動認識 [cs.RO, cs.CV, cs.AI]目的：オープンワールド一人称活動認識における新規活動検出と継続学習
- 一人称視点での活動認識は，ロボットやウェアラブルデバイスの応用において重要である。
- 既存手法では，RGBデータに偏ったモダリティ融合が行われ，IMUなどの他のモダリティの活用が不十分である。
- モダリティ間の貢献度を適応的に調整し，より信頼性の高い新規活動検出を目指す。
- 提案手法MANDは，MoASによりサンプルごとの信頼度に基づきモダリティの貢献度を調整する。
- MoRSTにより，各モダリティの識別能力を維持し，タスク間の知識の忘却を防ぐ。
- 公開データセットでの実験により，MANDは新規活動検出精度と既知クラスの精度を向上させ，誤検出率を大幅に低減した。
Link: https://arxiv.org/abs/2603.16970
Rel-Zero：AI編集に対する堅牢なゼロウォーターマーキングのためのパッチペア不変性の活用 [cs.CV, cs.AI, cs.CR]目的：AI編集に対するデジタル画像の真正性を保護するためのゼロウォーターマーキング手法
- デジタルコンテンツの改ざんが容易になり，画像の信頼性が損なわれることが問題となっている。
- 従来のウォーターマーキングは画質劣化を招き，既存のゼロウォーターマーキングは高度な編集に弱い。
- パッチペア間の関係性の不変性を利用し，編集に強く非侵襲的な認証機構を構築すること。
- AI編集において，個々の画像パッチは変化しても，パッチペア間の関係性は比較的安定であることが示された。
- Rel-Zeroは，この安定性を利用し，元の画像を変更せずにゼロウォーターマークを生成する。
- 多様な編集モデルや操作に対して，既存手法と比較して大幅に高い堅牢性を示すことが実験で確認された。
Link: https://arxiv.org/abs/2603.17531
注意の不均衡修正によるLVLMにおける物体幻覚の軽減 [cs.CV, cs.AI]目的：大規模ビジョン言語モデルにおける物体幻覚の軽減
- 実世界での応用において信頼性が重要であり，特に自動運転や医療画像分析などの分野で不可欠である。
- 大規模ビジョン言語モデルは物体幻覚を起こしやすく，それが実用上の大きな障壁となっている。
- 注意の不均衡が物体幻覚の原因となることを明らかにし，その修正によって幻覚を抑制することを目指す。
- 注意の不均衡を定量化する指標を新たに提示し，幻覚を引き起こすパターンを可視化した。
- 提案手法AIRは，デコーディング時に注意の重みを再配分し，不均衡を修正することで物体幻覚を軽減する。
- AIRは，既存手法と比較して最大35.1%の物体幻覚の減少と，最大15.9%の汎化性能の向上を達成した。
Link: https://arxiv.org/abs/2603.24058
DPC-VQA：ビデオ品質評価のための品質知覚と残差較正の分離 [cs.CV, cs.MM]目的：ビデオ品質評価のための知覚と較正の分離フレームワーク
- ビデオ品質評価は，ユーザー体験に直接影響するため，重要性が高い。
- 大規模な再学習や高コストなMOSアノテーションが，新しいシナリオへの適応の課題となる。
- 既存の事前学習済みMLLMの知覚的バイアスを効率的に較正し，MOS空間への適応を目指す。
- DPC-VQAは，凍結されたMLLMを活用し，軽量な較正ブランチで残差補正を予測することで，コストを削減。
- ユーザー生成コンテンツ(UGC)とAI生成コンテンツ(AIGC)の両方で，既存手法と同等の性能を実現。
- 従来手法の2%未満の学習可能パラメータ数と，MOSラベルの20%で効果を維持。
Link: https://arxiv.org/abs/2604.12813
NVV-SuperBench：言葉を超え，品質評価を超えて - 音声生成における非言語性発声のベンチマーク [cs.HC, cs.SD]目的：音声生成における非言語性発声の評価基準
- 人間らしい自然な音声生成には，言葉だけでなく，笑いやため息などの非言語性発声が不可欠である。
- 既存の評価方法では，非言語性発声の意図，配置，そして発声の明瞭度を総合的に評価できていない。
- 非言語性発声に関する制御性，配置，知覚的顕著性の評価を包括的に行う新たなベンチマークを構築すること。
- NVV-SuperBenchは，英語と中国語に対応した45種類の非言語性発声分類体系と，多角的な評価プロトコルを提供する。
- 15の音声生成システムを客観指標，リスニングテスト，LLMによる評価で比較した結果，非言語性発声の制御性と音声品質は必ずしも一致しないことが示された。
- SNRの低い口頭的な手がかりや，長時間の感情的な非言語性発声がボトルネックになっていることが明らかになった。
Link: https://arxiv.org/abs/2604.16211
機械における人間認知：ワールドモデルの統一的視点 [cs.RO, cs.AI, cs.CV, cs.ET]目的：ワールドモデルにおける認知機能の体系化と今後の研究方向性の提示
- AI研究において，人間のような認知能力を持つ機械の開発は重要な目標である。
- 既存のワールドモデル研究は，認知機能の定義や評価基準が曖昧である。
- 人間認知理論に基づいた統一的なフレームワークを提示し，未発達な認知機能を明確にする。
- ワールドモデルを構成する認知機能（記憶，知覚，言語，推論，想像，動機づけ，メタ認知）を包括的に整理した。
- 特に動機づけ（内発的動機づけを含む）とメタ認知は，既存研究で十分に扱われていないことが示された。
- 能動推論とグローバルワークスペース理論に基づき，これらのギャップを埋めるための具体的な方向性を示した。
Link: https://arxiv.org/abs/2604.16592
戦略的なペアごとのデータ摂動によるランキング操作 [cs.LG, cs.AI, cs.GT]目的：ランキングシステムの操作可能性の評価
- 集団意思決定において，多数の意見を統合するランキングシステムは重要である。
- 既存のランキングシステムは，悪意のあるデータ操作に対して脆弱である可能性がある。
- 限られた操作資源でランキングを大きく変化させる手法を開発する。
- 最尤推定に基づくランキングシステムは，小さなデータ摂動でも急激にランキングが変化する。
- 提案手法ASSAは，ランダムや貪欲法よりも制約下で優れた性能を示す。
- 構造化された摂動に対するランキングシステムの脆弱性が明らかになった。
Link: https://arxiv.org/abs/2604.17805
HMR-Net: 空中画像のクロスドメイン物体検出のための階層型モジュールルーティング [cs.CV]目的：空中画像におけるクロスドメイン物体検出のための新たなモジュール学習フレームワーク
- 航空写真解析は，災害状況把握や都市計画に不可欠であり，その精度向上は社会への貢献に繋がる。
- 既存の物体検出モデルは，解像度やシーン構成，セマンティックラベルの網羅性の違いから汎化性能が低い。
- 地理的特性やシーンに応じた専門的なモジュールによる解析で，未知のカテゴリへの対応も可能にする。
- 提案手法は，地理的埋め込みに基づくドメインルーティング層と，シーンルーティングメカニズムを導入し，データセットやシーンに応じた専門化を実現する。
- 外部セマンティック情報を用いることで，再学習やファインチューニングなしに，新たな物体カテゴリの検出を可能にする。
- 4つのデータセットでの評価により，汎化性能，地域特化，オープンカテゴリ検出において性能向上が確認された。
Link: https://arxiv.org/abs/2604.18866
RSRCC：検索拡張型Best-of-Nランキングに基づくリモートセンシング地域変化理解ベンチマーク [cs.CV, cs.AI]目的：リモートセンシングにおける地域変化に関する質問応答のためのベンチマークデータセット
- リモートセンシング技術は，環境モニタリングや災害対応など，幅広い分野で不可欠である。
- 従来の変化検出は変化箇所を特定するのみで，変化内容の詳細な自然言語説明が不足している。
- 局所的で具体的な変化に関する質問応答を通じて，リモートセンシングデータの意味理解を深める。
- RSRCCは，12.6万件の質問を含む新しいベンチマークデータセットであり，変化箇所に特化した質問応答を可能にする。
- 本研究では，Best-of-Nランキングを用いた階層的な半教師ありキュレーションパイプラインを導入し，ノイズや曖昧さを含む候補を効率的にフィルタリングする。
- RSRCCは，リモートセンシングの変化検出における，詳細な意味的推論に基づく教師あり学習の初の試みである。
Link: https://arxiv.org/abs/2604.20623