arXiv雑要約

画像・音声 - 2026/06/11 公開

LLMの病理画像性能に対する一見些細な設計選択の影響 [cs.CV]目的：LLMを病理画像解析に利用する際の入力設計要因の最適化
- 病理診断の精度向上にAI活用が期待されており，LLMはその有力な選択肢の一つである。
- LLMを病理画像に適用する際，画像サイズが大きいため入力設計が重要だが，体系的な検討が不足している。
- LLMの入力設計を最適化することで，専門モデルとの性能差を縮小し，汎用LLMの可能性を広げる。
- 入力設計（パッチサイズ，倍率，パッチ数，推論モード）の系統的な分析により，従来のLLM性能評価が最適化されていなかったことが示された。
- 最適な設定（大きなパッチ，低倍率，同時処理）に切り替えることで，GPT-5の癌種分類・臓器分類の精度が大幅に向上した（それぞれTCGAで15.1%から39.5%へ，GTExで38.1%から62.9%へ）。
- 同様の設定は他のモデルや外部データセットにも適用でき，Gemini 3 Flashの性能を23.4%改善した。
Link: https://arxiv.org/abs/2606.12407
リルート：ビジョン言語モデルにおける回復可能な視覚トークンルーティング [cs.CV, cs.AI]目的：ビジョン言語モデルの視覚トークンルーティングによる効率化
- 近年，ビジョン言語モデルは画像理解において重要な役割を担う。
- 視覚トークンの数が多いと，計算コストやメモリ使用量が増大する。
- 視覚トークンの重要度が変化するため，一度削除すると回復できない問題がある。
- 提案手法Rerouteは，トークンの削除ではなくルーティングにより効率化を図る。
- Rerouteは，既存のランキングルールとスケジュールを再利用し，計算コストを維持しながら性能を向上させる。
- LLaVA-1.5およびQwenをベースとした実験で，Rerouteは grounding performance を改善する。
Link: https://arxiv.org/abs/2606.12412
MA-DLE：記憶増強による音声ベースのうつ病レベル自動推定 [eess.AS, cs.AI, cs.CL, cs.SD]目的：うつ病レベルの自動推定手法
- メンタルヘルスケアの現場では，早期発見と迅速な介入が重要であり，特にリソースの限られた環境下では，自動化技術の活用が求められる。
- 既存の手法は，短期的な音声セグメントに焦点を当てがちで，長期間の依存関係を捉えることが難しいという課題があった。
- 本研究では，長距離依存関係を捉え，より高精度なうつ病レベル推定を可能にすることを目指す。
- 提案手法では，GRUで抽出した特徴量を記憶ベースで増強し，表現能力を高めることで，DAIC-WOZおよびE-DAICデータセットにおいて最先端の性能を達成した。
- 記憶バンクは，現在のGRU出力と類似した過去の時系列特徴量と，特徴量の変動に基づいて特定される動的な記憶特徴量を統合することで，冗長性と無関係性を低減する。
- さらに，記憶増強された特徴量とGRUの出力を効果的に融合させるために，階層型注意融合（HAF）モジュールを設計した。
Link: https://arxiv.org/abs/2606.11197
大規模開語彙キーワードスポッティング [eess.AS, cs.CL, cs.LG, cs.SD]目的：大規模語彙におけるキーワード検出
- 音声認識技術は専門用語などの稀少語の認識に課題を抱える分野である。
- 既存システムは扱う用語数が数百程度に制限され，大規模なデータベースには対応できない。
- 本研究は，大規模な用語データベースを扱うことのできるキーワードスポッティングシステムを開発する。
- 提案システムは，既存システムと比較して128分の1のメモリ消費量で運用可能である。
- 音声認識モデルの再学習なしに，既存システムと同等のキーワード検出精度を達成した。
- 学習時に未見の言語に対しても，良好な性能を維持することが確認された。
Link: https://arxiv.org/abs/2606.11279
マルチスペクトルメタサーフェスとハイブリッド手法を用いた知能皮膚がん検出 [eess.IV, cs.CV]目的：皮膚がん検出のための新たなフレームワーク
- 皮膚がんは罹患率が高く，早期発見が患者の生存率向上と治療費削減に不可欠である。
- 従来の皮膚鏡検査や可視光イメージングは，スペクトルの微細な変化を捉えきれない場合がある。
- メタサーフェスとハイブリッド深層学習モデルにより，高精度な皮膚がん検出を目指す。
- 提案手法は，シミュレーション評価において約98%の精度，95%の感度，99%の特異度を達成した。
- ハイブリッドCNN-ViTモデルは，局所特徴と全体特徴を同時に抽出し，皮膚病変を堅牢に分類する。
- アテンションマップ分析により，モデルが臨床的に重要な病変領域に注目することが確認された。
Link: https://arxiv.org/abs/2606.11287
Gumbel-BEARD：低リソース領域におけるWhisperの自己教師あり適応のための自動レイヤー選択 [eess.AS, cs.CL, cs.SD]目的：低リソース領域におけるWhisperの適応のための自動レイヤー選択手法
- 近年の音声認識技術は目覚ましい進歩を遂げているが，データ不足の領域では性能が低下しやすい。
- 既存のドメイン適応手法は，手動でのチューニングが必要であり，効率性に課題がある。
- 本研究は，データが少ない状況下でも効率的にWhisperの性能を向上させることを目指す。
- Gumbel-BEARDは，エンドツーエンドで学習可能なGumbel-Softmaxセレクターを用いてWhisperエンコーダーのレイヤー選択を自動化する。
- MySTデータセットを用いた実験により，10時間のラベル付きデータで，133時間の完全教師あり学習と同等の性能を達成した。
- OGI SpontaneousデータセットやCORAALデータセットにおいても，最先端のWERを達成し，汎用性の高さが示された。
Link: https://arxiv.org/abs/2606.11429
生成空間オーディオ指標の感度分析：応答性，滑らかさ，対称性に関する研究 [eess.AS, cs.SD]目的：生成空間オーディオ指標の感度分析
- 没入型体験の質を評価する上で，空間オーディオの重要性は増している。
- 空間パラメータの変化に対する指標の応答性の理解が不足している。
- 空間オーディオ指標の適切な評価基準を確立することを目指す。
- ローカライゼーション固有の埋め込みを用いたFréchet Audio Distance（FAD）と音響マップは，高い応答性と安定した滑らかさ，対称性を示す。
- 一方，強度ベクトルはシーンの複雑さが増すにつれて性能が低下する。
- 本研究は，生成空間オーディオ指標の感度を調査する第一歩となる。
Link: https://arxiv.org/abs/2606.11581
レート歪み観点からのニューラル音声圧縮のベンチマーク [eess.AS, cs.SD]目的：ニューラル音声圧縮におけるレート歪み特性の評価と，低ビットレート圧縮のためのエントロピー制約符号化の調査
- 音声圧縮は通信や保存において帯域幅やストレージを節約するため，非常に重要である。
- 従来のニューラル音声コーデックは，表現学習と確率モデリングが分離されており，潜在表現の非一様性や時間的依存性を十分に活用できていない。
- 学習された潜在表現のエントロピー制約符号化により，レート歪み特性を改善し，低ビットレートでの圧縮効率を高める。
- 提案手法ECCは，スカラー量子化と学習されたエントロピーモデルを組み合わせることで，優れたレート歪み性能を実現した。
- ECCは，ViSQOLで平均39.9%，PESQで平均76.3%のBDレートを削減し，従来のコーデックと比較して大幅な改善を示した。
- エントロピーモデルの有効性は，詳細な実験と診断研究によって検証された。
Link: https://arxiv.org/abs/2606.11631
インターリーブスタッキングを用いた高速音声基盤モデル蒸留 [eess.AS, cs.AI, cs.CL, cs.SD]目的：高速音声基盤モデル蒸留の効率化
- 音声基盤モデルは様々な音声タスクに応用可能であり，その重要性が増している
- 蒸留は推論速度を向上させるが，学生モデルの学習に時間がかかる
- スタッキングによって学習を加速し，モデルの展開を迅速化することを目指す
- 提案手法であるインターリーブスタッキングは，層の位置を維持することで性能劣化を抑制する。
- 実験の結果，SUPERBにおいて有効性が確認された。
- インターリーブスタッキングは，従来のスタッキング手法よりも学習効率が高いことが示された。
Link: https://arxiv.org/abs/2606.11766
因果・逆因果整合性に基づく話者分離における厳密な境界予測 [eess.AS, cs.SD]目的：話者分離における厳密な境界予測の実現
- 会話音声認識の性能向上は，会議や対話システムにおいて不可欠である。
- 既存の学習データは，意味的なつながりを優先する傾向があり，境界が曖昧である。
- 曖昧なラベルデータから，より厳密な予測を可能とする手法の開発。
- 提案手法では，因果モデルと逆因果モデルを用いて擬似ラベルを生成し，境界を厳密化する。
- ラベルの厳密化とモデルの更新を繰り返す共同学習スキームを提案し，段階的な精度向上を目指した。
- 実験結果から，提案手法は理想的な厳密ラベルでの学習効果の約70%を回復し，下流タスクの性能も向上することが示された。
Link: https://arxiv.org/abs/2606.11795
テキスト本来の推論にどの音声表現がより適しているか：フレームレートと表現に関する音声-テキストアラインメントの研究 [eess.AS, cs.CL, cs.SD]目的：音声とテキストのアラインメントにおける最適なフレームレートと表現の探索
- 対話システムの性能向上には，音声とテキストの効率的な統合が不可欠である。
- 音声による条件付けはテキストに比べて推論能力が低下する点が課題である。
- 音声表現の設計を最適化し，テキスト本来の推論能力を音声でも実現することを目指す。
- 最適なフレームレートは4.17Hzであり，中間層表現のアラインメントが音声QAにおいて最も有効であることが示された。
- フレームレートを調整することで，音声トークンの時間的な冗長性を軽減し，トークンごとの意味密度を高めることが可能となった。
- 因数分解されたFSQと軽量な非自己回帰型音声LMヘッドにより，効率的な予測性能を維持しつつ，容量を拡大することができた。
Link: https://arxiv.org/abs/2606.12199
AIのためのマーケット設計：著作権二分法の克服 [econ.TH, cs.AI, cs.GT, cs.LG, stat.ML]目的：AIモデルの学習に利用される人間が生成したコンテンツのマーケット設計
- AI技術の進歩には，大量の学習データが不可欠であり，そのデータ供給が重要課題となっている。
- 既存の著作権制度では，コンテンツ制作者への適切な報酬が確保されず，創作意欲が減退する可能性がある。
- 創作者のインセンティブを維持しつつ，AIの性能向上を両立できるマーケット設計を提案することを目的とする。
- 「無制限利用」と「強固な知的財産権」のどちらも，創作者への報酬や創作意欲の維持に問題があることが示された。
- 特に革新的な創作者は，「独創性へのペナルティ」により，十分なインセンティブが得られないという現象が明らかになった。
- データ仲介者による外部不経済の内部化と，革新的な貢献への補助金支給によって，効率的なマーケット設計が可能となることが示唆された。
Link: https://arxiv.org/abs/2606.12260
衣服変化に不変な特徴学習のための因果的アプローチ：服装変更時の人物再特定 [cs.CV]目的：服装変化時の人物再特定における衣服に不変な特徴の学習
- 人物再特定は，監視カメラ等による個人識別に応用され，社会の安全確保に貢献する重要な分野である。
- 既存手法は，服装と人物IDの間の誤った相関関係を学習し，未知の服装に対する汎化性能が低いという課題がある。
- この研究は，因果的介入学習により服装のショートカットを遮断し，より頑健な特徴表現を獲得することを目的とする。
- 提案手法CCILは，PRCCデータセットにおいてRank-1精度66.4%を達成し，最先端手法を1.4%上回った。
- DeepChangeデータセットにおいても，Rank-1精度59.2%を達成し，最先端手法を4.1%上回る成果を得た。
- 因果モデリングにより，特徴学習における不要な相関関係の捕捉を効果的に抑制し，衣服変化に強いモデルを実現した。
Link: https://arxiv.org/abs/2305.06145
クロスドメインにおける音声・視覚的欺瞞検出のベンチマーク [cs.HC, cs.SD, cs.CV, cs.MM, eess.AS]目的：音声と視覚情報を利用した欺瞞検出手法の汎化性能評価
- 人間の真実性評価を支援する自動欺瞞検出技術の重要性が高まっている。
- 既存の音声・視覚的欺瞞検出手法は，異なる状況下での汎化性能が十分に検証されていない。
- 本研究は，様々な状況下での欺瞞検出手法の汎化性能を評価するためのベンチマークを構築し，改善を目指す。
- 本研究で構築したベンチマークを用いて，既存手法のクロスドメインにおける汎化性能を評価した。
- ドメインサンプリング戦略の検討と，勾配内積を最大化するMM-IDGMアルゴリズムにより，汎化性能の向上を図った。
- Attention-Mixer融合手法を提案し，さらなる性能向上を試みた。このベンチマークが今後の研究を促進すると期待される。
Link: https://arxiv.org/abs/2405.06995
Temporal2Seq：時間的ビデオ理解タスクのための統一的フレームワーク [cs.CV]目的：時間的ビデオ理解タスクの出力表現の統一
- ビデオ理解技術の発展に伴い，多様な時間的分析タスクが重要になっている
- 各タスクに特化したモデルが主流であり，複数のタスクを同時に扱える汎用的なフレームワークが不足している
- 時間的ビデオ理解タスクを離散トークン列として統一的に表現し，汎用モデルの学習を目指す
- Temporal2Seqは，TAD，TAS，GEBDといった複数の時間的ビデオ理解タスクを単一のフレームワークで処理可能である。
- 提案手法は，各タスクのテストセットにおいて，タスク特化型モデルと同等以上の性能を示す。
- 異なるタスクのデータセットに対しても，特化型モデルよりも優れた汎化性能を発揮する。
Link: https://arxiv.org/abs/2409.18478
STEAM：絞り込みと変換による強化アテンションモジュール [cs.CL, cs.IR, cs.CV]目的：深層畳み込みニューラルネットワークにおける表現能力の向上
- 深層学習における画像認識の精度向上は重要な課題である。
- 既存のアテンション機構はパラメータ数や計算コストが増大しやすい。
- パラメータと計算量を削減しつつ，チャネルと空間のアテンションを包括的にモデル化する。
- STEAMは標準的なResNet-50モデルと比較して，精度を2%向上させ，GFLOPsの増加を最小限に抑えた。
- STEAMはECAやGCTなどの主要なモジュールと比較して，精度が向上し，GFLOPsを3分の1に削減した。
- グラフに基づくチャネルと空間のアテンションモデリングを初めて提案した。
Link: https://arxiv.org/abs/2412.09023
汚染に着目：水文情報に基づいたノイズを考慮した学習によるジオ空間PFASマッピング [cs.CY, cs.SI, cs.CY, physics.soc-ph, cs.CV, cs.AI, cs.CY, cs.LG]目的：ジオ空間PFAS汚染マッピングのための深層学習フレームワーク
- PFASは環境中に残留し，健康への影響が懸念されるため，広範囲なモニタリングが重要である。
- 現地サンプリングのコストと労力により，大規模モニタリングが困難であり，データが不足している。
- AIを活用し，限られたデータと環境情報を統合することで，汚染リスク評価を支援する。
- FOCUSは，既存手法と比較してPFAS汚染マッピングにおいて，空間的な一貫性を保ちながら高い精度を達成した。
- 水文連結性，土地被覆，発生源からの距離といった要素を考慮した学習により，ロバストな予測が可能となった。
- 本研究は，完全な物理モデルがない状況下で，追加サンプリングの優先順位付けと汚染源の特定に貢献する。
Link: https://arxiv.org/abs/2502.14894
輪郭場に基づく楕円形状事前知識を用いたSegment Anything Model [cs.CV]目的：画像セグメンテーションにおける楕円形状の精度向上
- 医療画像や自然画像において，正確なセグメンテーションは診断や認識の精度に不可欠である。
- 既存の深層学習セグメンテーション手法は，特に楕円形状のセグメンテーションにおいて効率性に課題がある。
- 深層学習モデルSAMに楕円形状の事前知識を組み込み，セグメンテーション精度を向上させる。
- 本研究では，変分法を用いてSAMに楕円形状の事前知識を統合する新しいアプローチを提案した。
- パラメータ化された楕円輪郭場を確立することで，セグメンテーション結果が事前定義された楕円輪郭に沿うように制約した。
- 実験結果から，提案手法はオリジナルのSAMと比較して，特定の画像データセットにおいてセグメンテーション精度が向上することが示された。
Link: https://arxiv.org/abs/2504.12556
拡散に基づく累積敵対的浄化によるビジョン言語モデルの保護 [cs.CV, cs.AI]目的：ビジョン言語モデルにおける敵対的摂動に対する堅牢性の向上
- マルチモーダル理解において優れた性能を示すビジョン言語モデルの信頼性確保が重要である。
- 人間には知覚できない程度の摂動が，モデルの出力結果を大きく変化させ，誤った判断を招く可能性がある。
- 敵対的摂動を効果的に中和し，ビジョン言語モデルの安全な運用を実現することを目的とする。
- 本研究では，拡散過程において意味的な変化の収束速度を理論的に定量化し，敵対的影響が単調に減少することを示した。
- 提案手法DiffCAPは，ビジョン言語モデルの埋め込み間の類似性に基づいてノイズ注入の閾値を適応的に決定し，効率的なノイズ除去を実現する。
- 実験結果から，DiffCAPは既存の防御手法と比較して大幅な性能向上を示し，ハイパーパラメータ調整の複雑さや拡散時間を削減することが確認された。
Link: https://arxiv.org/abs/2506.03933
クロスドメイン数え上げにおける条件付き特徴量アライメント [cs.CV]目的：クロスドメイン数え上げにおける性能低下の改善
- 画像内の物体数推定は，監視や医療など様々な応用分野で重要である。
- ドメインが異なると，画像の密度構成が変化し，数え上げの精度が低下する。
- 条件付き特徴量アライメントによって，ドメイン間のずれを抑制し，数え上げ精度を向上させる。
- 提案手法CFAは，ラベルに基づいて条件を生成し，条件が一致する特徴量のみをアライメントする。
- これにより，条件内での不一致は解消しつつ，条件間の密度シフトは維持される。
- 実験の結果，多様なUDAおよびDG設定において，既存手法を上回る性能が確認された。
Link: https://arxiv.org/abs/2506.17137
周期MAE：rPPG推定のための周期性を持つビデオマスク自動エンコーダ [cs.CV]目的：周期性生理信号の汎化可能な時空間表現学習
- 顔画像から非接触で生理信号を推定する技術は，健康管理や行動認識への応用が期待される。
- rPPG推定は，照明条件や被写体運動の影響を受けやすく，ロバスト性に課題がある。
- 周期的な信号の特徴を捉え，汎化性能の高い特徴抽出器を学習することを目指す。
- Periodic-MAEは，マスクされたビデオトークンを再構成することで，rPPG特有の教師信号に依存しない高次元な顔表現を学習する。
- ビデオリサンプリングに基づく周期性考慮型フレームマスキング戦略と，周波数領域での生理学的バンド制限制約を導入することで，脈波信号推定に有用な表現を獲得する。
- PURE, UBFC-rPPG, MMPD, V4Vの4つのベンチマークデータセットおよび実環境データセットにおいて，rPPG推定性能の向上が確認された。
Link: https://arxiv.org/abs/2506.21855
サポート境界経験混合による継続学習 [cs.LG, cs.CV]目的：逐次的なタスクで訓練されたモデルにおける破滅的忘却の軽減
- 機械学習において，新しいタスクを継続的に学習する能力は，実用的な応用において不可欠である。
- 既存の継続学習手法は，過去のデータを十分に表現できず，決定境界が不安定になりやすい。
- 決定境界付近の表現を強化し，より安定した継続学習を実現すること。
- 提案手法は，潜在特徴にノイズを加え，決定境界付近のデータを生成するサポート境界データ（SBD）を導入する。
- 経験再生とSBDを組み合わせた経験混合（EB）フレームワークにより，CIFAR-10, CIFAR-100, Tiny ImageNet, ImageNet1Kで一貫して精度が向上した。
- 精度向上率は，それぞれ10%, 6%, 13%, 2%であった。
Link: https://arxiv.org/abs/2507.23534
RelayFormer：スケーラブルな画像・動画操作局所化のための統一的な局所・グローバル注意フレームワーク [cs.CV, cs.AI]目的：画像と動画における改ざん領域の特定
- 高度な編集ツールの普及に伴い，画像や動画の改ざん検出は重要性を増している。
- 既存手法は，解像度の多様性や画像から動画への拡張に課題がある。
- RelayFormerは，解像度変化に対応し，画像と動画を統一的に処理することで，これらの課題を解決する。
- RelayFormerは，固定サイズのサブ画像とGLRトークンを用いたリレーベースの注意機構により，効率的なグローバル情報の伝播を実現した。
- 既存手法と比較して，解像度への適応性，画像・動画の統一処理，計算コストと精度のバランスに優れる。
- 様々なベンチマークにおいて，優れた性能と効率が確認された。
Link: https://arxiv.org/abs/2508.09459
補助的な推論がVLMにおけるGUI接地を解き放つ [cs.CV]目的：GUI接地性能の向上
- GUIエージェント構築の基礎であり，実用的な応用を広げる上で重要である。
- 汎用的なVLMは，GUI接地において最適化が不足しており，性能が低い。
- VLMが持つ潜在的なGUI接地能力を引き出し，明示的な座標出力の精度を向上させる。
- 補助的な推論により，VLMは暗黙的な空間理解能力をより効果的に活用できる。
- Mark-Grid ScaffoldはGemini-3.1-ProのScreenSpot-v2における性能を11.72%から95.20%に向上させた。
- ScreenSpotで最先端の性能を達成し，ScreenSpot-v2とUI-I2E-Benchでも強力なファインチューニング手法に匹敵する性能を示した。
Link: https://arxiv.org/abs/2509.11548
MARIC：画像分類のためのマルチエージェント推論 [cs.HC, cs.CV, cs.AI, cs.CL, cs.MA]目的：画像分類の協調推論プロセス
- 画像認識はAI研究の基盤であり，多様な応用分野で重要性を増している。
- 従来の画像分類は大規模データセットとパラメータ調整に依存し，汎化性能に課題があった。
- マルチエージェントシステムにより，多様な視点からの分析と統合を実現し，分類精度を向上させる。
- MARICは，グローバルなテーマ分析と詳細な視覚的特徴抽出を組み合わせることで，単一の表現に頼るVLMsの限界を克服した。
- 複数のエージェントが協調することで，パラメータを多く必要としない，堅牢で解釈可能な画像分類を可能にした。
- 4つの画像分類ベンチマークデータセットで，MARICは既存手法を大きく上回り，マルチエージェント推論の有効性を示した。
Link: https://arxiv.org/abs/2509.14860
SAM：Mamba-2 を基盤とする音声・言語モデル [cs.SD, eess.AS]目的：音声と言語を統合したモデルの設計原則
- 音声と言語を理解するAIは，様々な応用において重要性が増している。
- 従来のTransformerモデルはパラメータ数が多く，計算コストが高いという課題がある。
- State Space Model (SSM) を利用することで，効率的なモデル構築を目指す。
- SAM-2.7BはAudioSetで21.1 mAP，AudioCapsで17.6 SPICEを達成し，7BのTransformerモデルと同等以上の性能を示す。
- SSMは，コンパクトで情報量の多い音声トークン表現からより恩恵を受けることが示された。
- 指示応答の学習を取り入れることで，MMAU-Soundの精度が大幅に向上した。
Link: https://arxiv.org/abs/2509.15680
バックドアはどこに潜むか：音声言語モデルにおけるバックドア伝播のコンポーネントレベル分析 [cs.CL, cs.CR, cs.SD]目的：音声言語モデルにおけるバックドア伝播のメカニズム解明
- 音声言語モデルは複雑化しており，セキュリティ上の脆弱性が懸念されるため。
- 既存研究では，音声言語モデルをエンドツーエンドで捉えがちで，内部の伝播経路が不明確である。
- 各コンポーネントの役割を特定し，バックドア攻撃への耐性を高めることを目指す。
- バックドア攻撃は音声言語モデル全体に伝播し，多様なタスクを脆弱にする可能性があることが確認された。
- バックドアの持続性または消去は，攻撃対象のコンポーネントに大きく依存することが示された。
- マルチタスク埋め込みにおいて，悪意のあるサンプルと正常なサンプルを分離することは困難であり，既存の防御策に課題が残る。
Link: https://arxiv.org/abs/2510.01157
物体検出データセット評価のための合成データ品質指標：SDQM [cs.CV, cs.AI, cs.IT, cs.LG, math.IT]目的：物体検出タスクにおける合成データセットの品質評価
- 機械学習モデルの性能向上には，大規模で高品質な学習データが不可欠である。
- アノテーション付きの学習データセットの不足が，モデルの頑健性向上を妨げている。
- 合成データセットの品質を効率的に評価する指標を開発し，データセット作成を支援する。
- 提案手法SDQMは，モデルの学習を必要とせずにデータ品質を評価できる。
- SDQMは，YOLO11のmAPスコアとの強い相関関係を示し，既存の指標を上回る性能を発揮した。
- データセット品質改善のための知見を提供し，高コストな反復学習の必要性を低減する。
Link: https://arxiv.org/abs/2510.06596
AI生成動画検出のための物理駆動型時空間モデリング [cs.CV, cs.LG]目的：AI生成動画の検出
- AI技術の進歩により，現実と区別がつかない動画が生成可能となり，社会への影響が懸念されるため。
- 既存手法では，高次元な時空間動特性のモデリングや，物理法則に反する微妙な異常の検出が困難である。
- 物理法則に基づき，AI生成動画特有の統計的特徴を捉え，高精度な検出を実現すること。
- 提案手法は，確率の流れの保存則に基づき，空間勾配と時間密度変化の比率を示すNormalized Spatiotemporal Gradient (NSG)を導入した。
- 拡散モデルを活用し，複雑な運動分解なしにNSGを推定することで，物理制約を維持しつつ，自然な動画ダイナミクスからの逸脱を捉える。
- 実験により，提案手法NSG-VDは最先端手法を大きく上回り，Recallで16.00%，F1-Scoreで10.75%の性能向上を達成した。
Link: https://arxiv.org/abs/2510.08073
拡散を超えて：階層構造から階層構造への自己回帰によるfMRIから画像再構成 [cs.NI, cs.DC, cs.CL, cs.CY, cs.MA, cs.CV, cs.AI]目的：fMRI信号からの視覚刺激再構成
- 機械学習と神経科学を結びつける重要な課題であり，脳機能と視覚情報の関係解明に不可欠である。
- 既存手法では，固定された神経埋め込みが階層的な神経情報を十分に活用できていない点が課題である。
- 段階依存的な画像再構成に対応し，より効率的で認知に合致した再構成手法を開発すること。
- MindHierは，Multi-levelな神経埋め込み抽出，層間対応付け，スケール対応型ガイダンスという3つの要素で構成される。
- 実験の結果，MindHierは既存の拡散モデルよりも優れた意味的忠実度，高速な推論，そして決定的な結果を示した。
- MindHierは，全体的な意味を合成してから局所的な詳細を洗練するという，人間の視覚知覚に似た階層的な再構成プロセスを実現する。
Link: https://arxiv.org/abs/2510.22335
UI2Code^N: UIからコード生成をインタラクティブな視覚的最適化として [cs.CV]目的：UIからコードへの変換における視覚的最適化
- UI開発の自動化は，ソフトウェア開発の効率化に不可欠である。
- 既存手法はUIを一度でコードに変換するため，実際の反復的な開発フローと乖離がある。
- 視覚的フィードバックに基づいた反復的な最適化により，より実用的なUIコード生成を目指す。
- 本研究では，UI-to-codeをインタラクティブな視覚的最適化問題として再構築した。
- Relative Visual Policy Optimization (RVPO)により，視覚的ランキングに基づく強化学習を実現した。
- UIドラフティング，ポリッシング，編集のベンチマークにおいて，最先端の性能を示した。
Link: https://arxiv.org/abs/2511.08195
PIGEON：関心地点選択によるVLM駆動型物体ナビゲーション [cs.RO, cs.CV]目的：未知の屋内環境における物体ナビゲーション手法
- ロボットナビゲーションは，自律的な行動を可能にする上で重要な技術であり，特に複雑な環境での応用が期待される。
- 従来のナビゲーション手法では，環境の抽象化や計算コストの問題があり，リアルタイムな視覚情報との連携が困難であった。
- 本研究では，視覚と言語モデルを活用し，効率的かつロバストな物体ナビゲーションを実現することを目指す。
- PIGEONは，環境を疎な関心地点として捉え，視覚情報に基づいた意思決定を可能にするフレームワークである。
- 実験の結果，PIGEONはHabitat ObjectNavベンチマークにおいて最先端のゼロショット性能を達成した。
- 実機ロボットでの実験により，その堅牢性と効率性が実証された。
Link: https://arxiv.org/abs/2511.13207
EvoLMM：連続報酬による自己進化型大規模マルチモーダルモデル [cs.CC, cs.CV]目的：大規模マルチモーダルモデルの自己進化に関する研究
- 近年，マルチモーダルモデルは高度な推論能力を示すが，データ収集や報酬設計に依存している。
- 既存手法は人間によるアノテーションや外部報酬モデルに頼り，自律性や拡張性に課題がある。
- 教師データや報酬モデルなしで，マルチモーダルモデルの推論能力を向上させることを目指す。
- EvoLMMは，提案者と解答者の二つのエージェントを生成し，内部整合性により自己学習を行う。
- この動的なフィードバックにより，情報に基づいたクエリ生成と構造化された推論の洗練が促進される。
- Qwen2.5-VLをベースに，ChartQA等のマルチモーダル数学推論ベンチマークで約3%の性能向上が確認された。
Link: https://arxiv.org/abs/2511.16672
N体問題：一人称視点動画からの並列実行 [cs.CV]目的：N人による同一タスクの並列実行予測
- 人間は複雑な活動を直感的に並列化できるが，その能力をモデルで再現することの探求。
- 単一の人物の動画から，複数の人物の行動を予測することの難しさ。
- 現実的な制約を満たしつつ，タスクの速度向上と網羅性を最大化する並列実行予測手法の確立。
- 構造化プロンプトにより，Gemini 2.5 Proの行動網羅率がベースラインプロンプトと比較して45%向上。
- 同時に，衝突率，物体競合，因果関係の矛盾がそれぞれ51%，52%，55%減少。
- 提案手法は，3D環境，物体利用，時間的依存関係を考慮した現実的な並列実行を可能にした。
Link: https://arxiv.org/abs/2512.11393
拡散Transformerにおける空間的・時間的冗長性の低減 [cs.CV]目的：拡散Transformerの計算コスト削減
- 画像生成AIは高画質だが，計算資源を大量に消費するため，実用上の課題となっている。
- 拡散Transformerは高い計算コストが課題であり，効率的な計算手法が求められている。
- 空間的・時間的冗長性を低減することで，計算コストを削減し，性能を維持・向上させる。
- 提案手法RSTRは，時間的冗長性を削減する進化探索と，空間的冗長性を削減する適応的ランク割り当てを組み合わせる。
- DiT-XL/2, PixArt-$\alpha$, FLUX, Qwen-Image等の実験により，50%-70%の計算量削減を達成。
- DiT-XL/2では57%の計算量削減と15%のFID改善，Qwen-Imageでは3.43倍の高速化を確認。
Link: https://arxiv.org/abs/2512.14096
CountZES：ゼロショット例選択によるカウント手法 [cs.CV]目的：複雑なシーンにおけるオブジェクトカウントの精度向上
- 画像認識技術は，自動運転やロボット工学など，様々な分野で不可欠である。
- 未学習カテゴリのカウントは困難であり，既存手法は検出器のノイズやインスタンスの曖昧さに弱点がある。
- 質の高い例選択によって，未知のオブジェクトの正確なカウントを可能にすることを目指す。
- CountZESは，検出アンカー例，密度誘導例，特徴コンセンサス例の3段階で多様な例を発見する。
- 各段階はテキストの関連性，カウントの一貫性，特徴表現性をバランス良く実現する。
- 様々なデータセットで，既存のゼロショットカウント手法を上回る性能を示す。
Link: https://arxiv.org/abs/2512.16415
回転不変な高次主成分分析類似特徴量：回転を考慮した詳細な形状記述子 [cs.CV, cs.LG]目的：回転を考慮した形状記述
- 形状認識や比較において，回転の影響を排除することが重要である。
- 従来の形状記述子は，複雑な形状に対して十分な精度が得られない場合がある。
- 高次主成分分析類似特徴量を用いて，より高精度な回転不変形状記述を実現する。
- 主成分分析を拡張し，高次モーメントや多項式 times ガウス関数を用いることで，任意の高精度な形状記述子を生成する。
- 提案手法は，分子形状記述子や画像/3Dスキャンにおける物体認識，3Dシーン理解などへの応用が期待される。
- 回転を考慮した形状比較において，コストのかかる最適化処理を回避し，効率的な類似度評価を可能にする。
Link: https://arxiv.org/abs/2601.03326
FronTalk：マルチモーダルフィードバックによる会話型コード生成としてのフロントエンド開発のベンチマーク [cs.CL, cs.CL, cs.CV, cs.LG, cs.SE]目的：フロントエンド開発における会話型コード生成のベンチマーク
- ウェブ開発において，フロントエンドはユーザインターフェースを構築する上で不可欠であり，その効率化は重要な課題である。
- 従来のコード生成研究では，視覚的な情報（スケッチやモックアップ）の活用が十分ではなく，ユーザの意図を正確に反映することが困難であった。
- 本研究は，マルチモーダルフィードバックを活用し，より自然で効率的なフロントエンド開発のコード生成を目指す。
- FronTalkベンチマークは，実際のウェブサイトから抽出された100件の会話データを提供し，多様なドメインを網羅する。
- 評価結果から，モデルは過去の実装内容を忘却し，機能を上書きしてしまうという課題が明らかになった。
- AceCoderを用いることで，この忘却問題をほぼ解消し，パフォーマンスを最大9.3%向上させることに成功した。
Link: https://arxiv.org/abs/2601.04203
OpenVTON-Bench：制御可能なバーチャル試着評価のための大規模高解像度ベンチマーク [cs.CV, cs.AI]目的：制御可能なバーチャル試着システムの評価基準
- バーチャル試着技術は，Eコマース等の分野で重要な役割を担う。
- 既存の評価指標では，微細なテクスチャや意味的一貫性を定量化するのが困難である。
- 大規模かつ多様なデータセットと，信頼性の高い評価プロトコルを提供する。
- OpenVTON-Benchは，約10万組の高解像度画像ペアから構成される大規模ベンチマークである。
- 提案手法は，背景の一貫性，人物の忠実度，テクスチャの忠実度など5つの側面からVTON品質を評価する。
- 実験結果は人間の判断と高い相関を示し，VTON評価における堅牢なベンチマークとしての有用性を示す。
Link: https://arxiv.org/abs/2601.22725
内容を編集し，音響を保持する：自己整合性報酬による，知覚できないテキストベースの音声編集 [cs.SD, eess.AS]目的：知覚できないテキストベースの音声編集手法
- 音声編集は，コンテンツの修正と自然な音響の維持が求められる重要な技術である。
- 既存手法は，内容とスタイルが絡み合い，生成の不安定さや境界部の不自然さを招く。
- コンテンツ編集の安定性と音響の自然性を両立させ，高品質な音声編集を実現すること。
- 提案手法は，安定した意味空間での編集とFlow Matchingデコーダによる音響実現を組み合わせる。
- Self-Consistency Rewards Group Relative Policy Optimizationにより，知覚的な一貫性を確保している。
- 実験により，最先端のベースラインと比較して，明瞭度，頑健性，知覚品質が向上することが示された。
Link: https://arxiv.org/abs/2602.00560
メンティスオクリ: メンタルイメージによる推論の限界の解明 [cs.DC, cs.AI, cs.CV, cs.LG]目的：メンタルイメージを用いた推論能力の評価と限界の特定
- 近年，画像情報を処理するだけでなく，視覚とテキストを統合したモデルが発展している。
- 生成される画像が不正確であったり，推論の助けになっていない場合がある。
- モデルの推論能力に視覚情報が貢献するかどうかを検証する。
- 最先端のモデルを評価した結果，視覚戦略は一般的に性能向上に貢献しないことが判明した。
- UMMはタスクを解決するテキストベースの推論能力と正しい画像を生成できるものの，生成エラーが積み重なり，正解の視覚情報でさえ活用できない。
- 現時点では，視覚的な思考はモデルの推論に役立たない可能性が示唆された。
Link: https://arxiv.org/abs/2602.02465
グローバルな幾何学はビジョン表現には不十分である [cs.CL, cs.CV, cs.AI]目的：ビジョンエンコーダにおける構成的結合能力の評価
- 視覚情報の効率的な処理は，コンピュータビジョンの発展に不可欠である。
- 既存の表現学習は，グローバルな幾何学に偏重し，構成的な理解が困難である。
- 表現の構成的結合能力を評価する新たな指標の確立を目指す。
- グローバル幾何学に基づく統計量は，構成的結合能力との相関がほぼゼロであることが判明した。
- 入力・出力ヤコビアンによる機能的感受性は，構成的結合能力を信頼性高く追跡できることが示された。
- 既存の損失関数が幾何学を制約する一方で，局所的な入力・出力マッピングは制約されていないことが明らかになった。
Link: https://arxiv.org/abs/2602.03282
エピソード付きバンディット社会学習 [cs.GT]目的：自己利益を持つエージェントが，単純な多腕バンディットプロトコルに従う社会学習の動態
- AIとの反復的なインタラクションや，マーケットプレイスでの繰り返し買い物のモデリングに有用である。
- エージェント内での探索は行われるものの，集団としての探索が失敗する。
- 有機的な探索だけでは不十分であり，外部からの探索が必要であることを示す。
- エージェントはエピソードごとに意思決定を行うが，集団全体のベイズ後悔が時間とともに線形に増加する。
- この結果は，最悪のケースではなく，典型的なケースとして成立する。
- エピソードごとの報酬関数が最小値や最大値であっても，同様の結果が得られた。
Link: https://arxiv.org/abs/2602.05835
対応関係から行動へ：マルチモーダル大規模言語モデルにおける人間らしい複数画像空間推論 [cs.CV]目的：複数画像空間推論の実現
- 画像とテキストを組み合わせた推論は，ロボット工学や拡張現実など，幅広い分野での応用が期待される。
- 複数画像からの空間推論は，異なる視点からの情報を統合する必要があり，既存モデルでは困難である。
- 視点間対応関係と段階的視点変換という人間の認知メカニズムをモデルに明示的に組み込むことで，精度向上を目指す。
- 提案手法HATCHは，既存のベースラインモデルと比較して一貫して優れた性能を示した。
- HATCHは，より大規模なモデルと同等の結果を達成しつつ，単一画像推論能力を維持している。
- HATCHは，パッチレベルでの空間配置と，行動を先に行う推論という2つの目的関数を組み合わせることで，この性能を実現した。
Link: https://arxiv.org/abs/2602.08735
非公式および民間交通：インセンティブ，効率，および調整 [cs.GT, econ.TH, math.OC]目的：非公式および民間交通システムのインセンティブ構造の分析
- 都市部における移動手段の重要な選択肢であり，公共交通機関の不足を補う。
- 利潤追求による運転手のルート選択が，システム全体の効率性を損なう可能性がある。
- 分散型の運転手のルート選択による効率損失を緩和するインセンティブメカニズムの設計。
- ゲーム理論モデルを用いて，非公式交通システムにおける非効率性を定量的に評価した。
- 予算均衡型クロスサブシディや運賃最適化が，効率損失を軽減する効果が示された。
- インドのナラソパラにおける実証実験により，これらの結果が裏付けられた。
Link: https://arxiv.org/abs/2602.10456
ReMoT：運動コントラスト三重項を用いた強化学習 [cs.CV]目的：視覚言語モデルにおける時空間一貫性の欠如に対する体系的な対処法
- ナビゲーション，ロボティクス，自動運転等の分野において，時空間一貫性は重要な課題である。
- 既存の視覚言語モデルは，時空間一貫性に乏しく，性能のボトルネックとなっている。
- 運動コントラスト三重項を用いて，視覚言語モデルの時空間推論能力を向上させることを目指す。
- ReMoT-16Kという大規模な運動コントラストデータセットを，ルールベースの自動フレームワークによって生成した。
- Group Relative Policy Optimizationが，コントラスト学習において最適な性能とデータ効率を示すことが実証された。
- 提案手法は，新たなベンチマークや標準ベンチマークにおいて最先端の性能を達成し，時空間推論タスクで25.1%の性能向上を実現した。
Link: https://arxiv.org/abs/2603.00461
音声LLMにおけるマルチイベントオーディオグラウンディングの感度分析 [cs.SD]目的：音声LLMにおけるマルチイベントオーディオグラウンディングの感度
- 音声認識技術は，人間と機械の円滑なコミュニケーションに不可欠であり，その精度向上は重要な課題である。
- 複雑な音響環境下では，複数の音源を正確に識別することが難しく，誤認識や幻覚が発生しやすい。
- 本研究は，複雑な音響シーンにおける音声LLMの信頼性を評価し，改善の余地を示すことを目指す。
- イベント数が増加すると，真陽性率は低下し，偽陽性率は上昇することが確認された。
- プロンプトの変更は，真陽性率と偽陽性率の間に強いトレードオフをもたらすことが示された。
- マルチイベントオーディオに対してモデルの確信度が低下しており，改善の余地があることが示唆された。
Link: https://arxiv.org/abs/2603.03855
潜在色空間：高次元カオスの創発的秩序 [cs.LG, cs.AI, cs.CV]目的：画像生成における色の表現構造の解明
- 画像生成技術の発展に伴い，生成画像の制御が重要な課題となっている。
- 意味情報がどのように符号化されているかの理解が不十分であり，細かな制御が困難である。
- 潜在空間における色の表現構造を明らかにし，色の制御を実現することを目指す。
- FLUX.1の潜在空間において，色表現が色相，彩度，明度を反映した構造を持つことを確認した。
- 潜在色空間（LCS）を用いて，色の予測と制御が可能であることを示した。
- FLUXにおいて，学習を用いない閉形式の潜在空間操作のみによる色の制御を導入した。
Link: https://arxiv.org/abs/2603.12261
分散型二層強化学習におけるサンプル効率の良いハイパー勾配推定 [cs.LG, cs.AI, cs.GT, cs.MA]目的：分散型二層強化学習のためのハイパー勾配推定手法
- 戦略的意思決定問題において，環境設計など二層RLの応用が重要である。
- リーダーがフォロワーの最適化過程に介入できない状況下での課題が存在する。
- リーダーの戦略に対する勾配を効率的に推定し，最適化を可能にすること。
- ボルツマン共分散トリックを用いることで，高次元のリーダー決定空間でもサンプルから効率的にハイパー勾配を推定できる。
- 分散型環境における2人ゼロサムマルコフゲームに対するハイパー勾配最適化を初めて可能にした。
- 離散状態と連続状態の両方のタスクにおいて，ハイパー勾配更新の効果と手法の有効性が確認された。
Link: https://arxiv.org/abs/2603.14867
CoVR-R：理由を考慮した合成ビデオ検索 [cs.CV]目的：テキストによる修正と参照ビデオから目的のビデオを検索すること。
- ビデオ検索技術は，膨大なビデオデータの中から必要な情報を効率的に得るために不可欠である。
- 従来の合成ビデオ検索は，編集内容を正確に反映できておらず，結果の精度が低い。
- 編集から生じる帰結や間接的な影響を考慮することで，より高精度なビデオ検索を実現すること。
- 本研究では，大規模なマルチモーダルモデルを活用し，編集から推測される因果的・時間的な帰結を推論する手法を提案した。
- 提案手法は，タスク固有のファインチューニングなしで，推論されたクエリと候補ビデオを整合させることで，高い検索精度を実現した。
- 特に，暗黙的な影響を伴うケースにおいて，既存手法を大幅に上回る性能を示し，検索結果の整合性と事実性が向上した。
Link: https://arxiv.org/abs/2603.20190