arXiv雑要約

画像・音声 - 2026/02/03 公開

画像理解と視覚テキスト編集のための統一マルチモーダルモデルUM-Text [cs.CV]目的：画像理解と視覚テキスト編集に関する研究
- 画像生成技術の発展に伴い，視覚テキスト編集の重要性が増している。
- 既存手法では，テキスト内容や属性の指定が複雑で，参照画像とのスタイルの一貫性が課題である。
- 参照画像と指示に基づいて，スタイルの一貫性を保ったテキスト編集を可能にすること。
- 本研究では，指示と参照画像を処理するVisual Language Model (VLM) を導入し，コンテキスト情報に基づいたテキスト内容とレイアウトを設計する。
- また，VLMが入力指示に応じて条件情報の埋め込みを自動的に構成するUM-Encoderを提案し，正確で調和のとれた視覚テキスト画像を生成する。
- さらに，グリフ生成のための領域一貫性損失を提案し，3段階の学習戦略を採用することで，モデル性能を向上させている。
Link: https://arxiv.org/abs/2601.08321
VibrantSR：ジェネレーティブフローマッチングを用いたSentinel-2によるサブメートルキャノピー高さモデル [cs.CV, cs.LG]目的：サブメートルキャノピー高さモデルの推定
- 森林資源管理や炭素循環研究において，高精度なキャノピー高さモデルは不可欠である。
- 高解像度なキャノピー高さモデルは，航空写真に依存する場合が多く，取得頻度やコストに課題があった。
- Sentinel-2データから高精度なキャノピー高さモデルを生成し，広域での継続的な森林モニタリングを実現する。
- VibrantSRは，Sentinel-2画像から0.5mのキャノピー高さモデルを高精度に推定できる。
- 米国西部22のEPAレベル3生態地域での評価において，既存の衛星ベースのベンチマークを上回る性能を示した。
- 航空写真ベースのアプローチに比べると精度は劣るものの，広範囲な森林モニタリングを可能にする。
Link: https://arxiv.org/abs/2601.09866
DR$^2$Seg：マルチモーダル大規模言語モデルにおける効率的な推論セグメンテーションのための分解型二段階ロールアウト [cs.CV]目的：マルチモーダル大規模言語モデルにおける推論セグメンテーションの効率化
- 画像とテキストを理解するAIの精度向上は，ロボット工学や自動運転など，様々な応用分野で重要である。
- 既存手法では，詳細すぎる推論が対象物の特定を妨げ，セグメンテーション精度が低下する課題がある。
- 過度な推論を抑制し，効率的かつ正確なセグメンテーションを実現することを目指す。
- DR$^2$Segは，推論と参照セグメンテーションを分解する二段階ロールアウト戦略を採用することで，推論の効率性とセグメンテーション精度を向上させる。
- 自己報酬メカニズムを導入することで，過度な推論を抑制し，注意の分散を軽減する。
- Qwen2.5-VLおよびSAMモデルを用いた実験により，DR$^2$Segが常に推論効率とセグメンテーション精度を改善することが示された。
Link: https://arxiv.org/abs/2601.09981
構造的害悪としての美学：テキスト画像生成と分類におけるアルゴリズムによる外見至上主義 [cs.CV, cs.AI, cs.CY]目的：テキスト画像生成AIと性別分類タスクにおけるアルゴリズムによる外見至上主義の構造
- AI技術の社会実装が進む中，潜在的な偏見や差別構造の解明が不可欠である。
- AIモデルが社会的な偏見を学習し，それを増幅・固定化する危険性がある。
- AIビジョンシステムに内在する外見至上主義の構造を明らかにし，その影響を軽減する。
- Stable Diffusion 2.1と3.5 Mediumで生成された26,400枚の合成顔画像から，AIが顔の魅力と肯定的な属性を関連付ける傾向が確認された。
- 性別分類アルゴリズムにおいて，特にネガティブな属性を持つ女性の顔で誤分類率が高いという，性別間の不均衡が明らかになった。
- AIモデルの進化に伴い，年齢の均質化，ジェンダー化された露出パターン，地理的還元主義を通じて，美学的な制約が強まっていることが示唆された。
Link: https://arxiv.org/abs/2601.11651
UAVを用いたインフラ点検：AEC+FM分野における文献レビューと提案フレームワーク [cs.CV, cs.RO]目的：AEC+FM分野におけるUAVを用いたインフラ点検に関する研究動向と課題の整理
- 社会インフラの老朽化が進み，効率的かつ高精度な点検手法の確立が急務となっている。
- 従来の点検手法は，コストや時間，安全性などの課題を抱えており，効率化が求められている。
- UAVを活用し，マルチモーダルデータを統合することで，点検の精度と効率を向上させる。
- 本研究では，150件以上の文献を分析し，UAVを用いたデータ取得，フォトグラメトリ，欠陥検出，意思決定支援の各手法を明らかにした。
- 提案フレームワークは，RGB画像，LiDAR，熱画像等のマルチモーダルデータを融合し，Transformerベースのアーキテクチャを用いることで，構造欠陥，熱異常，幾何学的矛盾の検出精度を向上させる。
- 今後の研究方向性として，軽量AIモデル，適応的な飛行計画，合成データセット，より高度なモダリティ融合などが挙げられる。
Link: https://arxiv.org/abs/2601.11665
TensorRTを用いた効率的な3D物体検出のための混合精度PointPillars [cs.CY, cs.CL, cs.HC, cs.CY, cs.HC, cs.CY, cs.CL, cs.CV, cs.AI]目的：効率的な3D物体検出のための混合精度モデルの構築
- 自動運転車の実現には，周囲環境の正確かつ高速な認識が不可欠である。
- LiDARデータは数値分布が広く，外れ値も多く，量子化による性能劣化が課題となる。
- LiDARデータの特性に適した混合精度化により，性能劣化を抑制し，高速化を実現する。
- 提案手法は，量子化による性能劣化を最小限に抑えながら，PointPillarsの推論速度を最大2.538倍向上させた。
- PTQパイプラインにおいて，学習不要で混合精度モデルを生成できることを示した。
- QATパイプラインにおいては，FPモデルに匹敵する性能を達成した。
Link: https://arxiv.org/abs/2601.12638
AI生成データ汚染が病理学的多様性と診断信頼性を損なう [cs.CY, cs.AI, cs.CL, cs.CV, cs.LG]目的：AI生成データ汚染による臨床的影響の評価
- 医療AIの発展には，質の高い学習データが不可欠である。データの信頼性が，診断精度に直結する。
- AIが生成したデータが学習データに混入し，AI自身が生成したデータで学習を繰り返すことで，質の低下が懸念される。
- AI生成データ汚染が，病理学的多様性と診断信頼性に与える影響を明らかにすること。
- AIによるデータ生成を繰り返すと，病理学的多様性が失われ，モデルが一般的な表現に収束していくことが示された。
- 特に，気胸や滲出といった重要な所見がAI生成データから消失し，患者の属性も中年男性に偏る傾向が確認された。
- AIは誤った自信を持って診断結果を出力し，致命的な病理を見逃す率が3倍に増加することが判明した。医師の評価でも，AI生成ドキュメントの臨床的有用性が失われることが確認された。
Link: https://arxiv.org/abs/2601.12946
ConceptCaps：音楽モデルの解釈可能性のための蒸留された概念データセット [cs.SD, cs.AI, cs.LG]目的：音楽モデルの解釈可能性向上のための概念データセット
- 音楽理解の深まりは，作曲支援や音楽推薦など，多様な応用への道を開く。
- 既存の音楽データセットは，タグの信頼性や概念の定義が曖昧で，解釈可能性研究の妨げとなる。
- 明確な概念ラベルを持つデータセットを提供し，音楽モデルの解釈可能性評価を促進する。
- ConceptCapsは，200の属性分類に基づいた23,000件の音楽-キャプション-オーディオの組で構成される。
- 属性の共起パターンをVAEで学習し，LLMで高品質なキャプションを生成，MusicGenで対応するオーディオを合成する分離型パイプラインを採用。
- CLAPスコアやBERTScoreなどの評価により，データセットの品質と音楽的な意味の再現性が確認された。
Link: https://arxiv.org/abs/2601.14157
LangForce：潜在的行動クエリによる視覚言語行動モデルのベイズ分解 [cs.AI, cs.CL, cs.CV, cs.RO]目的：視覚言語行動モデルにおける情報崩壊の抑制と，言語指示へのロバストな言及
- ロボットマニピュレーションにおいて，視覚と言語と行動を統合するモデルの重要性が高まっている。
- 既存モデルは，データ収集時のバイアスにより，言語指示が視覚情報から予測可能となり，言語が無視される。
- 言語指示と行動の相互情報量を最大化し，視覚的ショートカットを抑制することで汎化性能を向上させる。
- 提案手法LangForceは，ベイズ分解により，視覚のみの事前分布と，言語条件付きの事後分布を推定する。
- SimplerEnvおよびRoboCasa環境での実験により，LangForceが大幅な性能向上を達成することが示された。
- 特に，難易度の高いOOD SimplerEnvベンチマークにおいて，11.3%の改善が見られ，言語指示のロバストな言及が確認された。
Link: https://arxiv.org/abs/2601.15197
光と闇を透視する：シングル露出画像とイベントに基づくセンサー物理に基づいたHDR NeRFの鮮明化 [cs.CV]目的：低動的範囲のぼやけた画像からの高動的範囲かつ鮮明な3次元表現の再構成
- 現実世界の画像は低動的範囲でぼやけていることが多く，高画質化のニーズがある。
- 既存手法はセンサーと物理世界のラディアンスの不一致を無視し，HDRや鮮明化の結果が不十分である。
- センサー物理に基づいたNeRFフレームワークを用いて，HDRと鮮明化を同時に実現する。
- 提案手法は，NeRFを用いてHDR領域での3次元シーンのラディアンスを直接表現する。
- ピクセルごとのRGBマッピングとイベントマッピングを導入し，センサーデータとの整合性を高めている。
- 実験結果から，提案手法が最先端のHDRと鮮明化の再構成を実現することが示された。
Link: https://arxiv.org/abs/2601.15475
GEDIバイオマス推定のためのキャリブレーションされた確率的補間 [cs.LG, cs.CE, cs.CV]目的：GEDIミッションのバイオマス分布マッピングにおける，疎なLiDAR観測データの補間
- 地球規模での炭素循環理解には，森林バイオマスの正確な把握が不可欠である。
- 既存手法では，異質地形における予測区間のキャリブレーションが課題となっていた。
- 複雑な地形や植生に対応し，より信頼性の高いバイオマス分布マッピングを実現する。
- Attentive Neural Processes (ANPs)は，局所的な観測データと地理空間基礎モデルを条件とした確率的メタ学習フレームワークである。
- ANPsは，複雑な地形で不確実性推定値を拡大し，均一な地域で縮小する柔軟な空間共分散関数を学習する。
- 5つの異なるバイオームでの検証により，ANPsは高い精度と理想的な不確実性キャリブレーションを両立することが示された。
Link: https://arxiv.org/abs/2601.16834
モデル中心型診断：内部状態読み出しのためのフレームワーク [cs.CV, cs.AI]目的：訓練状態の内部状態読み出しに関する診断フレームワーク
- 機械学習モデルの性能向上には，訓練過程の理解が不可欠である。
- モデルの内部状態の把握が難しく，診断手法が断片的である。
- モデルの内部状態を統一的に捉え，診断手法を体系化すること。
- 予測ヘッドの損失風景の幾何学的構造が，特徴量のタスクとの整合性を示す。
- 様々な読み出し方法は，この幾何学的構造の異なる射影に対応している。
- チェックポイント選択，早期終了，軽量アーキテクチャの選別は，共通の内部状態を異なる視点から評価している。
Link: https://arxiv.org/abs/2601.16874
PhaSR：物理的に整合した事前知識を用いた汎用的な画像影除去 [cs.CV]目的：画像影除去における性能向上
- 影除去は，画像編集やコンピュータビジョンの重要な課題であり，現実的な画像合成に不可欠である。
- 照明条件が多様な状況下では，照明と固有反射率を分離することが難しく，既存手法は事前知識の整合性に課題がある。
- 物理的に整合した事前知識を用いることで，単一光源から複数光源への影除去をよりロバストに行うことを目指す。
- 提案手法PhaSRは，PANとGSRAという二つのレベルの事前知識の整合性を実現し，多様な照明条件下で高い性能を発揮する。
- PANは，グレイワールド正規化やRetinex分解を利用し，色相の偏りを抑制することで照明補正を行う。
- GSRAは，奥行き情報とセマンティック情報を統合し，照明の変化下での矛盾を解決することで，より自然な影除去を実現する。
Link: https://arxiv.org/abs/2601.17470
拡散モデルにおける適応的なドメインシフト：クロスモーダル画像変換 [cs.CV]目的：クロスモーダル画像変換における効率性と堅牢性の向上
- 画像変換は，医療，リモートセンシングなど幅広い分野で重要であり，データ不足を補う手段となる。
- 従来の拡散モデルは，ドメイン間の線形変換に依存し，高コストで意味ずれを起こしやすいという課題があった。
- 生成過程にドメインシフトのダイナミクスを組み込み，局所的な残差補正により，変換の精度と効率を向上させる。
- 本研究では，空間的に変動する混合フィールドを予測し，ターゲットに一致する復元項をドリフトに注入する手法を提案した。
- 提案手法は，生成過程を大域的なアライメントから局所的な残差補正へと転換させ，計算コストを削減する。
- 医療画像，リモートセンシング，エレクトロルミネセンスセマンティックマッピング等のタスクにおいて，構造忠実度と意味的一貫性の向上が確認された。
Link: https://arxiv.org/abs/2601.18623
SeNeDiF-OOD：開かれた世界における分類のための意味的ネスト二分法融合による分布外検出手法 - 建造物様式分類のケーススタディ [cs.CV, cs.AI]目的：分布外データの検出
- AIの信頼性確保には不可欠であり，現実世界の多様な環境への応用を可能にする。
- OODデータの多様性（低レベルの破損から意味的変化まで）に対処することが困難である。
- 多様なOODカテゴリを効果的にフィルタリングし，分布内性能を維持する。
- 提案手法SeNeDiF-OODは，意味的抽象レベルに応じた決定境界を統合する二分法融合ノードの階層構造を採用する。
- 建造物様式認識システムMonuMAIを用いたケーススタディにより，その有効性が検証された。
- 実験結果は，SeNeDiF-OODが従来のベースラインを大幅に上回り，多様なOODカテゴリのフィルタリングに成功することを示した。
Link: https://arxiv.org/abs/2601.18739
言語系統が重要: 言語境界を越えたLLMベースASRの評価 [cs.CL, cs.AI, cs.SD]目的：LLMベースASRにおける言語系統に基づくコネクタ共有戦略
- 近年，LLMを活用した音声認識技術が発展しており，限られたリソースでの高性能化が期待されている。
- 従来の言語ごとのコネクタ学習は，言語間の系統関係を無視しており，効率性に課題があった。
- 言語系統を考慮したコネクタ共有により，パラメータ削減と汎化性能向上を目指す。
- 言語系統に基づいたコネクタ共有は，パラメータ数を削減し，ドメイン間の汎化性能を向上させる。
- 本研究で提案する戦略は，実世界の音声データを用いた実験で有効性が確認された。
- 多言語ASRの展開において，実用的かつスケーラブルなアプローチを提供する。
Link: https://arxiv.org/abs/2601.18899
汎がんスクリーニングにおける一瞥と焦点の強化 [cs.CV]目的：汎がんスクリーニングにおける病変検出とセグメンテーションの精度向上
- 大規模CT検査におけるがんの早期発見は，予後改善に不可欠である。
- 既存のAI手法では，多様な微小病変の局在化が困難であり，偽陽性が多く発生する。
- 医師の診断戦略を模倣し，病変領域への注意集中と効率的なスクリーニングを実現する。
- GF-Screenは，一瞥モデルと焦点モデルを組み合わせた強化学習フレームワークである。
- 一瞥モデルが病変領域を特定し，焦点モデルが精密なセグメンテーションを行うことで，全体的な精度が向上した。
- MICCAI FLARE25チャレンジにおいて，既存の最高性能を大きく上回り，優れた成果を実証した。
Link: https://arxiv.org/abs/2601.19103
VGGT-SLAM 2.0：リアルタイムな密な前方フィードフォワードシーン再構成 [cs.HC, cs.CL, cs.CV, cs.RO]目的：リアルタイムRGB前方フィードフォワードSLAMシステムによるシーン再構成
- ロボットの自律的なナビゲーションには，周囲環境の正確な理解が不可欠である。
- 既存のSLAMシステムは，ドリフトや平面退化といった問題に悩まされる場合がある。
- 未知のカメラ内部パラメータ下でも高精度な再構成を可能にし，ループクロージャを改善する。
- VGGT-SLAM 2.0は，従来のVGGT-SLAMと比較して，高次元ドリフトと平面退化を改善した。
- VGGTの注意層を活用することで，追加学習なしに画像検索の検証を支援し，誤ったマッチングを抑制，ループクロージャを促進する。
- 室内環境や大型の納屋において，リアルタイム性能と高い精度を実証し，TUMデータセットにおいてVGGT-SLAMよりも約23％低い姿勢誤差を達成した。
Link: https://arxiv.org/abs/2601.19887
OSマラソン：長期間反復タスクにおけるコンピュータ利用エージェントのベンチマーク [cs.CV]目的：長期間反復タスクにおけるコンピュータ利用エージェントの性能評価
- 事務処理などプロフェッショナルな環境では，反復作業が頻繁に発生する。
- そのようなタスクは人間にとって退屈であり，効率が悪いという課題がある。
- 本研究では，コンピュータ利用エージェントの評価ベンチマークを確立し，効率的な学習手法を提案する。
- OSマラソンは，2つのドメインにわたる242の長期間反復タスクから構成されるベンチマークである。
- 少数の事例を用いた効率的なデモンストレーション構築方法を提案し，エージェントの学習を支援する。
- 実験により，これらのタスクの難易度と提案手法の有効性が示された。
Link: https://arxiv.org/abs/2601.20650
音楽盗用検出：問題設定とセグメントに基づく解決策 [cs.SD, cs.AI, cs.LG, eess.AS]目的：音楽盗用検出タスクの問題設定とその解決策
- 音楽は社会的に重要な表現手段であり，その権利保護は不可欠である。
- 音楽盗用検出の研究は進むものの，タスク自体の定義が曖昧になっている。
- 明確な問題定義とデータセットの提供により，研究の進展と実用化を目指す。
- 音楽盗用検出タスクを他の音楽情報検索タスクと区別し，解決すべき課題を明確化した。
- 新たなタスク定義をサポートするため，Similar Music Pair データセットを新たに構築した。
- セグメント転写に基づく手法を，このタスクを解決するためのアプローチとして提案した。
Link: https://arxiv.org/abs/2601.21260
XRにおける迅速な注意捕捉のための空間オーディオキューの評価 [cs.HC, cs.SD, eess.AS]目的：XR環境における迅速な注意捕捉のための空間オーディオキューの有効性
- XR技術は，現実世界と仮想世界を融合し，没入感の高い体験を提供する。そのため，様々な分野での応用が期待されている。
- 緊急時の注意喚起において，視覚情報に頼ると注意散漫になる場合があり，迅速な対応が困難となることがある。
- 空間オーディオキューを活用することで，視覚情報を阻害せずに，迅速かつ直感的な注意誘導を実現することを目指す。
- 短い空間オーディオキューでも，おおまかな方向情報を伝えることが可能であることが示された。
- 短時間の視覚と聴覚のフィードバックトレーニングは，ユーザーの聴覚信号認識精度を向上させることが確認された。
- 空間オーディオは，他の感覚情報や視覚的キューと組み合わせることで，より効果的な注意誘導が可能となることが示唆された。
Link: https://arxiv.org/abs/2601.21264
エンドツーエンド多視点表面再構成のためのメッシュスプラッティング [cs.GR]目的：エンドツーエンド多視点表面再構成手法
- 3D再構成は，コンピュータビジョンやロボティクスにおいて重要な役割を担う。
- 従来のメッシュ生成は過密になりやすく，誤差が蓄積しやすいという課題がある。
- 複雑な形状をより正確かつ効率的に再構成することを目指す。
- 本手法では，微分可能なボリューメトリック表現を用いることで，複雑な形状のモデリングを可能にする。
- メッシュを半透明層に変換することで，3D受容野を制御し，詳細な幾何学的形状を捉える。
- スプラッティングベースのレンダラーとトポロジー制御戦略により，高精度な表面再構成を約20分で実現する。
Link: https://arxiv.org/abs/2601.21400
MPF-Net：階層的多様体偏差と微小時間変動による高精度AI生成動画偽造の露呈 [cs.CV]目的：高精度AI生成動画の偽造検出
- 動画生成技術の進歩により，現実との区別が困難になりつつあり，偽造検出の重要性が増している。
- 既存手法では，高精度な偽造動画のマクロレベルな誤りや時間的不整合は検出が難しい。
- AI生成動画特有の多様体投影変動に着目し，偽造を露呈することを目指す。
- 提案手法MPF-Netは，大規模視覚基盤モデルを用いて空間的な異常を検出し，現実世界との乖離を捉える。
- 空間検出を回避した高精度動画に対しては，微小時間変動を分析する第二のフィルタリング処理を行う。
- 空間的な異常と計算上の指紋の双方に対応し，偽造動画を高精度に検出可能となる。
Link: https://arxiv.org/abs/2601.21408
自己注意キャッシュポリシーにおける重要度推定を用いた過去・未来情報活用 [cs.CV]目的：自己回帰型ビデオ拡散モデルにおけるKVキャッシュポリシーの改善
- ビデオ生成はデジタルメディア制作において不可欠であり，リアルタイム合成の効率向上が求められている。
- 既存手法はトークンの重要度の違いを無視したヒューリスティックなKVキャッシュポリシーに依存し，情報損失や冗長なキャッシュ蓄積が問題となっている。
- トークンの重要度に基づいたKVキャッシュポリシーを提案し，ビデオ生成の品質と効率を改善することを目指す。
- 提案手法PaFu-KVは，双方向教師モデルから蒸留された軽量な重要度推定ヘッドを用いて，KVキャッシュに有益なトークンを保持し，不要なものを破棄する。
- 実験の結果，PaFu-KVはKVキャッシュの容量を削減し，メモリ使用量を低減することで，ビデオ生成品質を維持しつつ推論を高速化できることが示された。
- これにより，より効率的な長時間のビデオ生成が可能となる。
Link: https://arxiv.org/abs/2601.21896
TraceRouter：大規模基盤モデルの堅牢な安全性確保に向けた経路レベル介入 [cs.CV, cs.AI, cs.CY, cs.MM]目的：大規模基盤モデルに対する有害な意味的影響の因果伝播経路の特定と遮断
- 大規模基盤モデルは強力だが，悪意のある操作に脆弱であり，安全性確保が重要である。
- 既存の防御策は局所的な介入に依存し，分散した有害な意味的影響には効果が薄い。
- 有害な情報の伝播経路を遮断することで，モデルの安全性と汎用性の両立を目指す。
- TraceRouterは，アテンションの発散を分析し，有害な意味的影響の起点層を特定する。
- スパースオートエンコーダと微分活性化分析を用いて，悪意のある特徴を分離・特定し，その因果経路をマッピングする。
- 選択的に因果連鎖を抑制することで，有害情報の流れを遮断しつつ，正当な計算経路は維持する。
Link: https://arxiv.org/abs/2601.21900
グローバルアラインメントを超えて：ピラミッド型シャプレイ・テイラー学習による詳細なモーション-言語検索 [cs.CV]目的：モーションと言語の間の詳細な検索
- 人間中心のクロスモーダル知能の基礎として，モーションと言語の理解が重要である。
- 既存手法は全体的なアラインメントに偏っており，詳細なモーションとテキストの関係性を見落としている。
- 人間の知覚プロセスに着想を得て，詳細なモーション-言語検索を可能にする。
- 提案手法は，モーションを時間的セグメントと空間的な関節に分解し，ピラミッド型にクロスモーダル対応を学習する。
- これにより，局所的な意味の詳細と階層的な構造関係の両方を効果的に捉えることができる。
- 複数のベンチマークデータセットで最先端手法を凌駕し，モーションとテキストの正確なアラインメントを実現した。
Link: https://arxiv.org/abs/2601.21904
VideoAesBench：大規模マルチモーダルモデルの動画美学認識能力のベンチマーク [cs.CV]目的：大規模マルチモーダルモデルの動画美学認識能力の評価
- 動画理解は，AI技術の発展において重要な課題であり，人間にとって不可欠な能力である。
- 動画美学の質評価は人間にとって基本的な能力だが，大規模マルチモーダルモデルにおける評価は不十分である。
- 大規模マルチモーダルモデルの動画美学認識能力を客観的に評価するためのベンチマークを提供すること。
- VideoAesBenchは，多様な動画コンテンツと複数の質問形式を含む包括的なベンチマークである。
- 23のオープンソースおよび商用の大規模マルチモーダルモデルの評価を行った結果，現在のモデルは基本的な認識能力しか持たないことが示された。
- 本ベンチマークは，説明可能な動画美学評価のためのテストベッドとして活用されることが期待される。
Link: https://arxiv.org/abs/2601.21915
感情認識には注意機構だけでは不十分：EAVデータセットにおけるドメイン特徴がTransformerを上回る [cs.LG, cs.CV, cs.SD, eess.AS]目的：小規模データセットにおける感情認識の性能向上
- 感情認識は，人間とコンピュータの自然な対話を実現する上で不可欠な技術である。
- 小規模な感情データセットでは，過学習が起こりやすく，汎化性能が低いという課題がある。
- 本研究は，Transformerのような複雑なモデルではなく，ドメイン知識に基づいたシンプルな改良で性能向上が可能となることを示す。
- 複雑な注意機構は小規模データセットにおいて一貫して性能が劣る傾向にあることが示された。
- 音響特徴量のデルタMFCCを追加することで，音声CNNの精度が向上した（61.9%から65.56%へ）。
- 脳波の周波数領域特徴量が有効であり，精度が7.62pp向上した（67.62%）。
Link: https://arxiv.org/abs/2601.22161
VisionTrim：トレーニング不要なMLLM高速化のための統一された視覚トークン圧縮 [cs.CV]目的：マルチモーダル大規模言語モデルの高速化
- 近年のマルチモーダルAIの発展に伴い，画像や動画を扱うMLLMの需要が高まっている。
- 高解像度画像や動画処理において，視覚トークンの過剰な増加が計算コスト増のボトルネックとなっている。
- 視覚トークン圧縮による計算コスト削減と，テキストとの整合性維持を両立する手法が求められている。
- VisionTrimは，トレーニング不要でMLLMを高速化する統一的なフレームワークである。
- DVTSモジュールが重要な視覚トークンを抽出し，TGVCモジュールがテキスト情報に基づいたトークン補完を行う。
- 多様なマルチモーダルベンチマークにおいて，VisionTrimが既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2601.22674
信頼度に基づく知識蒸留によるゲート付き関係的アラインメント：効率的なVLMsのために [cs.CV, cs.AI]目的：ビジョン言語モデルの効率的な量子化手法
- ビジョン言語モデルは強力だが，計算コストが高い。
- 量子化は精度低下を引き起こしやすい。
- 量子化を考慮した学習による精度低下の抑制。
- GRACEは知識蒸留と量子化対応学習を情報ボトルネック原理に基づいて統合したフレームワークである。
- INT4モデルは，FP16ベースラインを上回り，教師モデルの性能に匹敵する。
- 実用的なINT4カーネルを使用することで，スループットが3倍になり，メモリ使用量が54%削減される。
Link: https://arxiv.org/abs/2601.22709
異常検知に訓練は必要か？ [cs.CV]目的：多クラス非教師あり異常検知における訓練不要アプローチの提案
- 産業界における異常検知の自動化ニーズが高く，製品の品質管理や設備の故障予知等に不可欠である。
- 既存手法は，特徴量の再構成を前提とするため，再構成残差の精度と安定性のトレードオフが存在する。
- 訓練データに頼らず，記憶に基づいた検索で高精度な異常検知を実現し，実用性の向上を目指す。
- 提案手法RADは，4つのベンチマークデータセットで最先端の性能を達成した。
- 特に，MVTec-ADにおいて，単一の正常画像のみで96.7\%のPixel AUROCを達成し，訓練の必要性を示唆した。
- 検索に基づくスコアが，再構成残差に基づくスコアよりも理論的に優位であることが証明された。
Link: https://arxiv.org/abs/2601.22763
高密度森林におけるRGB画像とニューラル3D再構成による林床地形再構築 [cs.CV, cs.CY, cs.ET, cs.GR]目的：高密度森林の林床地形再構築手法
- 森林は多様な生態系であり，資源管理や災害対策において地形把握が重要である。
- 従来の地形計測は高価なLiDARや特殊なAOSに依存しており，コストや利用が制限されていた。
- RGB画像とニューラル3D再構成を用いて，低コストで高解像度の地形再構築を実現する。
- 提案手法は，従来のAOSと同等以上の精度で人物検出を可能にし，捜索救助活動に貢献する。
- RGB画像のみを用いることで，コストを大幅に削減し，より広範な利用を可能にする。
- 林木計測タスクにおいても高い性能を示し，森林資源管理への応用が期待される。
Link: https://arxiv.org/abs/2601.22861
画像埋め込みからの意味的漏洩 [cs.CY, cs.CV, cs.CL, cs.CR]目的：画像埋め込みからの意味構造の復元可能性
- 画像認識技術の発展に伴い，画像埋め込みの利用が拡大しているため，その安全性評価が重要である。
- 画像埋め込みはプライバシーリスクが低いとされているが，その安全性に関する検証が十分ではない。
- 画像埋め込みが持つ意味的情報を漏洩させる脆弱性を明らかにし，プライバシー保護の課題を提示する。
- 画像埋め込みは元の画像を完全に再構築しなくても，意味構造を復元される可能性があることが示された。
- 提案手法SLImEは，画像埋め込みから意味情報を推測する軽量なフレームワークであり，特定のタスクに特化したデコーダーを必要としない。
- GEMINI，COHERE，NOMIC，CLIPなど，様々な埋め込みモデルにおいて，意味情報の漏洩が確認された。
Link: https://arxiv.org/abs/2601.22929
胸部・肝臓シネMRIにおけるPCA呼吸運動モデルを用いた将来フレーム予測：Transformerと動的訓練再帰型ニューラルネットワークの比較 [eess.IV, cs.CV, cs.LG, cs.NE]目的：胸部および肝臓のシネMRIにおける将来フレーム予測の精度向上
- 放射線治療において，呼吸による腫瘍位置の変化は正確な照射を困難にするため，その補正が重要である。
- 呼吸パターンは個人差が大きく，既存手法では変化への適応が課題であった。
- 呼吸パターン変化に対応可能なフレーム予測手法を開発し，治療計画の精度向上を目指す。
- 線形回帰は短い予測時間（h=0.32秒）で高い精度（ETH Z\"urichデータで1.3mmの幾何学的誤差）を示した。
- RTRLとSnAp-1は，中・長時間の予測において他のアルゴリズムを上回り，それぞれETH Z\"urichおよびOvGUデータで1.4mmと2.8mm以下の幾何学的誤差を達成した。
- 予測フレームは概ね正解データに類似していたが，横隔膜付近や面外運動の影響を受ける領域で誤差が見られた。
Link: https://arxiv.org/abs/2410.05882
限定視野前立腺超音波コンピューテッドトモグラフィーのための大規模データセットOpenPros [physics.soc-ph, cs.SI, physics.med-ph, cs.CV]目的：限定視野前立腺超音波コンピューテッドトモグラフィー（USCT）のための大規模ベンチマークデータセット
- 前立腺癌は男性に多い癌であり，早期発見のための正確かつアクセス可能な画像技術の開発が求められている。
- 前立腺USCTは，限られた角度からのデータ取得，組織の不均一性，骨による波の歪み，データセットの不足により困難である。
- 本研究は，機械学習手法の評価と，USCTの実用化に向けた研究を支援する厳密なベンチマークを確立することを目指す。
- OpenProsは，28万件を超える音速マップと超音波波形データのペアを含む大規模データセットである。
- 学習ベースの手法は，物理モデルに基づく手法と比較して，推論速度と再構成精度を大幅に向上させる。
- しかし，ロバスト性，汎化性能，高解像度再構成の品質には課題が残る。
Link: https://arxiv.org/abs/2505.12261
スライスから構造へ：フリーハンド経膣超音波による女性骨盤解剖学的構造の教師なし3D再構築 [eess.IV, cs.CV]目的：女性骨盤解剖学的構造の3D再構築
- 超音波技術は診断精度向上に貢献するが，高価な装置や制約のある撮影プロトコルが普及の妨げとなっている。
- 従来の3D超音波システムは，外部トラッキング装置や学習済みの姿勢推定器に依存するため，柔軟性に欠ける。
- 本研究は，外部追跡なしで2D超音波スキャンから高精度な3D再構築を実現し，AI支援診断の可能性を広げる。
- 提案手法TVGSは，ガウススプラッティングの原理を応用し，超音波特有の物理特性と形状に適応した微分可能なラスタライザを開発した。
- 解剖学的構造を異方性3Dガウスの集合としてモデル化し，画像レベルの教師データから直接パラメータを最適化する。
- スライス姿勢と解剖学的構造を同時に最適化する手法により，不規則なプローブ運動に対するロバスト性を確保した。
Link: https://arxiv.org/abs/2508.14552
RDDM：実世界の画像復元のためのRAWドメイン拡散モデルの実践 [eess.IV, cs.AI, cs.CV]目的：実世界の画像復元におけるRAWドメイン拡散モデルの有効性
- 画像処理技術は，多様な分野で不可欠であり，その品質向上は重要課題である。
- 従来の画像復元はsRGBデータに依存し，RAWデータの利点を活かせていない点が存在する。
- RAWデータを直接処理することで，より高画質でアーティファクトの少ない画像復元を目指す。
- 提案手法RDDMは，sRGBドメインの拡散モデルと比較して，より高い忠実度で画像を復元できる。
- RAWドメインでのVAE（RVAE）とLoRAモジュール（CMB）により，異なるドメイン間の分布の違いに対応し，様々なRAWパターンに適応する。
- 既存のsRGBデータセットからRAWデータのペアを合成するデータ合成パイプラインを開発し，大規模な学習を実現した。
Link: https://arxiv.org/abs/2508.19154
二層型補助金を用いたモビリティハブネットワーク設計：摂動型効用選択に基づいた共同割り当て [math.OC, cs.CY, cs.GT, econ.GN, q-fin.EC]目的：モビリティハブネットワークの最適な設計
- 都市交通は多様なサービスにより変化しており，モビリティハブが重要な役割を担う。
- ラストワンマイル輸送における事業者のインセンティブ設計が課題である。
- 補助金の最適配分を通じて，モビリティハブの社会経済的価値を最大化する。
- 本モデルは，補助金の設定によりラストワンマイル事業者へのインセンティブを与える二層構造を採用。
- 数値実験の結果，数分で1%以下の最適解が得られ，計算効率も高いことが示された。
- モビリティハブの価値や，補助金の効果，マイクロトランジット事業者の価格規制などを定量的に評価可能。
Link: https://arxiv.org/abs/2509.10465
音楽ネットワーク表現における構造的豊かさと通信効率のトレードオフ [physics.soc-ph, cs.SD, eess.AS, q-bio.NC]目的：音楽ネットワーク表現における特徴選択の影響
- 音楽の構造的組織や通信効率を理解する上で，ネットワーク科学は強力な枠組みを提供する。
- 特徴選択が再構成されたネットワークの特性と知覚的整合性にどう影響するかは不明であった。
- 特徴選択が音楽ネットワーク表現に与える影響と，構造的豊かさと通信効率のトレードオフを明らかにすること。
- 単一の特徴量による表現は，効率的な通信をサポートする密な遷移構造を生成するが，構造的豊かさを失う。
- 多特徴量による表現は，記述的詳細と構造的特異性を維持するが，知覚的誤差が増加する。
- 不確実性は，拡散中心性に基づく中心性の高いノードに集中する傾向があり，予測構造と局所的な驚きの間の相互作用が示唆される。
Link: https://arxiv.org/abs/2509.14053
ST_GCNアテンションを用いたAIベースの脳卒中リハビリテーション在宅評価システム [eess.IV, cs.AI, cs.CV]目的：脳卒中患者の在宅リハビリテーション評価とフィードバック
- 脳卒中後の機能回復には継続的なリハビリテーションが不可欠である。
- 従来の評価は専門家による対面が必要で，継続的な評価が困難である。
- AIを活用し，在宅での客観的かつ継続的な評価を実現すること。
- 提案システムは，RGB-Dカメラとウェアラブルセンサーで運動を捕捉し，AIモデルRAST-G@を用いて評価を行う。
- RAST-G@は，空間-時間グラフ畳み込みネットワークとTransformerアテンションを組み合わせ，運動品質を評価する。
- KIMOREおよびNRCデータセットでの実験結果から，RAST-G@はベースラインモデルよりも高い精度を達成した。
Link: https://arxiv.org/abs/2510.00049
SatFusion：マルチフレームおよびマルチソース画像融合によるリモートセンシング画像品質向上統合フレームワーク [eess.IV, cs.CV, cs.MM]目的：リモートセンシング画像の品質向上のための，マルチフレームとマルチソースの画像融合
- リモートセンシング技術は，地球観測や環境モニタリングに不可欠であり，その重要性は増している。
- 高品質なリモートセンシング画像の取得にはコストや物理的制約があり，画像の品質向上が課題である。
- マルチフレームとマルチソースの情報を統合し，高品質な画像復元とロバストな特徴抽出を実現する。
- SatFusionは，複数の低解像度マルチスペクトル画像から高解像度のセマンティック特徴を抽出し，高解像度パンクロマティック画像からの微細な構造情報を統合する。
- SatFusion*は，パンクロマティック画像をガイドとしてマルチフレーム融合段階に組み込むことで，構造情報に基づいた特徴埋め込みを強化する。
- WorldStrat，WV3，QB，GF2データセットでの実験により，既存手法と比較して，再構成品質，ロバスト性，汎用性の点で優れていることが示された。
Link: https://arxiv.org/abs/2510.07905
肺がんセグメンテーションにおける分布外検出のための腫瘍アンカー型深層特徴ランダムフォレスト [eess.IV, cs.CV, cs.LG]目的：肺がんセグメンテーションにおける分布外入力の検出
- 肺がんの治療計画や効果評価において，正確な腫瘍領域の特定は不可欠である。
- 既存のモデルは分布外入力に対して誤ったセグメンテーションを行うリスクがあり，臨床応用上の課題となっている。
- 腫瘍領域を基準とした深層特徴を利用し，分布外検出の信頼性を向上させることを目指す。
- 提案手法RF-Deepは，近接分布外データセットにおいて93.50以上のAUROCを達成し，既存手法を大幅に上回る性能を示した。
- 遠隔分布外データセットにおいては，ほぼ完璧な検出性能（99.00以上のAUROC）を実現した。
- RF-Deepは様々なネットワーク構造や事前学習戦略に対して安定した性能を維持し，汎用性の高さを示した。
Link: https://arxiv.org/abs/2512.08216
FastSLM：効果的な音声モダリティ適応のための階層的フレームQ-Former [physics.soc-ph, cs.DL, eess.AS, cs.AI, cs.SD]目的：長尺音声に対する大規模マルチモーダル言語モデルのスケーラビリティ向上
- 視覚，言語，映像理解において優れた能力を示す大規模マルチモーダル言語モデルの応用範囲拡大が期待される。
- 長尺音声への適用は，入力トークン数の爆発的な増加により計算資源の制約を受ける。
- 極端な時間圧縮によりトークン数を削減し，長尺音声の効率的な処理を実現する。
- 提案手法FastSLMは，階層的フレームクエリTransformer（HFQ-Former）を用いて音声情報を効率的に圧縮する。
- これにより，標準的なフレームレベルアダプターと比較して93%のトークン削減を達成し，計算コストを大幅に削減する。
- 長尺ベンチマークにおいて，最新モデルと同等の性能を，より少ない計算量で実現した。
Link: https://arxiv.org/abs/2601.06199