arXiv雑要約

画像・音声 - 2025/10/14 公開

ツヴェルスキニューラルネットワーク：微分可能なツヴェルスキ類似度を用いた心理学的に妥当な深層学習 [cs.LG, cs.AI, cs.CL, cs.CV]目的：深層学習における類似度のモデルの心理学的妥当性の向上
- 深層学習の性能向上には，人間の認知特性に基づいたモデルの構築が不可欠である。
- 従来の深層学習の類似度モデルは，心理学的な知見と整合性が低いという課題があった。
- ツヴェルスキの類似度理論を深層学習に取り込み，より人間らしい学習モデルを実現すること。
- ツヴェルスキ類似度を用いた投影層は，線形投影層と比較して画像認識タスクで24.7%の精度向上を実現した。
- GPT-2の言語モデリングにおいて，ツヴェルスキ投影層の導入により，perplexityが7.8%減少し，パラメータ数が34.8%削減された。
- 提案手法は，線形投影層とツヴェルスキ投影層を学習されたプロトタイプへの入力刺激の類似度計算として統一的に解釈できる。
Link: https://arxiv.org/abs/2506.11035
データセンターにおける効率的なプレイヤー分離：Capsule [cs.DC, cs.GR]目的：データセンターにおけるプレイヤー数の増加とリソース利用率の向上
- クラウドゲームの人気が高まる中で，データセンターのリソース効率が重要課題となっている。
- 既存のゲームエンジンはシングルプレイヤー向けに設計されていることが多く，リソースの無駄が生じやすい。
- Capsuleにより，複数のプレイヤーがGPUなどのリソースを共有し，効率的な利用を目指す。
- CapsuleをO3DEに実装した結果，プレイヤー数を最大2.25倍に増加させ，ゲーム体験を損なうことなくデータセンターのリソース利用率を向上させた。
- Capsuleは，ベースラインと比較して，GPU使用量を1.43倍，VRAMを3.11倍，CPUを3.7倍，RAMを3.87倍削減することに成功した。
- Capsuleはアプリケーションに依存せず，既存のゲームエンジンにも適用可能である。
Link: https://arxiv.org/abs/2506.11483
ViFusionTST：荷重信号からの時系列画像表現の深層融合による早期ベッド離床予測 [cs.CV, cs.AI]目的：早期ベッド離床意図の予測
- 病院や介護施設における転倒は重大な傷害の原因であり，予防が重要である。
- 既存の転倒検知アラームは，患者がベッドから離れてから作動することが多い。
- ベッド下の低コストな荷重セルのみを用いた早期離床予測を目指す。
- 提案手法ViFusionTSTは，荷重信号を画像に変換し，深層学習モデルで融合することで高い予測精度を達成した。
- 実際の介護施設データにおいて，F1スコア0.794，正解率0.885という良好な結果が得られた。
- この結果は，荷重センサー信号の画像ベースの融合が，実用的かつプライバシーを保護しながら転倒予防に有効であることを示唆する。
Link: https://arxiv.org/abs/2506.22498
OmniVCus：多岐にわたる制御条件による被験者主導型ビデオカスタマイズ [cs.CV]目的：多被験者シナリオにおけるビデオカスタマイズ手法の開発
- ビデオ編集技術は，エンターテイメントやコミュニケーションにおいて重要な役割を担う分野である。
- 既存手法は単一被験者限定であり，複数被験者に対応したデータ構築が困難である。
- 深度，マスク，カメラ，テキストなどの多様な制御信号を用いたビデオ編集の実現を目指す。
- 本研究では，ラベルなしビデオからカスタマイズ用の学習データペアを生成するパイプラインVideoCus-Factoryを提案した。
- 画像編集データを用いたImage-Video Transfer Mixed (IVTM) 訓練により，被験者への指示的な編集を可能にした。
- 拡散TransformerフレームワークOmniVCusにより，複数被験者に対応し，制御信号からのガイダンス抽出を促進した。
Link: https://arxiv.org/abs/2506.23361
拡散反転感度を用いた改ざん認識型生成画像ウォーターマーキング [cs.MM, cs.CV, eess.IV]目的：生成画像への著作権と位置情報ウォーターマーク埋め込み手法
- AI生成コンテンツの普及に伴い，著作権保護と真正性の確保が重要課題となっている。
- 画像編集ツールの進化により，ウォーターマークの改ざんリスクが増大し，検出が困難になっている。
- 改ざんを考慮したロバスト性と位置特定能力を高めることで，信頼性の高いウォーターマーキングを実現する。
- 提案手法TAG-WMは，高品質な画像生成を維持しつつ，著作権と位置情報を同時に埋め込む二重マーク同時サンプリングアルゴリズムを用いる。
- 拡散反転感度を利用した改ざん領域検出器により，統計的なずれから改ざん箇所を高精度に特定する。
- 実験結果から，TAG-WMは改ざんに対するロバスト性と位置特定能力において最先端の性能を達成することが示された。
Link: https://arxiv.org/abs/2506.23484
LH2Face：困難な高品質顔認識のための損失関数 [cs.CV]目的：困難な高品質顔認識における認識精度向上
- 顔認証システムはセキュリティにおいて不可欠であり，その精度向上が常に求められている。
- 従来の顔認識手法は困難なサンプルに対して弱く，画一的な学習戦略になりがちである。
- 顔の品質や認識の難易度を考慮した，より効果的な学習手法を確立することを目指す。
- 提案手法LH2Faceは，von Mises-Fisher分布に基づく新たな類似度尺度と，不確実性を考慮した周辺関数を用いる。
- 代理サンプルを用いた損失関数により，表現空間の分布を最適化し，顔再構成による精度向上も試みている。
- IJB-Bデータセットにおいて49.39%の精度を達成し，既存手法を2.37%上回る優れた性能を示した。
Link: https://arxiv.org/abs/2506.23555
進歩の錯覚か？ビジョン言語モデルにおけるテスト時適応の批判的考察 [cs.LG, cs.CV]目的：ビジョン言語モデルにおけるテスト時適応手法の評価基準
- 画像と言語を理解するAIモデルの性能向上は，様々な応用分野において重要である。
- テスト時適応の研究は，実験設定の不統一や評価指標の少なさにより，公平な比較が困難である。
- 本研究は，より信頼性の高いテスト時適応手法の開発を促進するための公平な評価基盤を提供する。
- 既存のテスト時適応手法は，初期の研究と比較して限定的な改善しか示していないことが明らかになった。
- 現在のテスト時適応手法は，学習時の微調整手法との連携が不十分であるという課題が示された。
- 精度向上が，モデルの信頼性低下を招く場合があることが示された。
Link: https://arxiv.org/abs/2506.24000
DeRIS：参照画像セグメンテーションにおける知覚と認知の分離とループバック相乗効果による性能向上 [cs.CV]目的：参照画像セグメンテーションにおける性能ボトルネックの分析と改善
- 画像と自然言語を結びつける技術は，人間とコンピューターの対話において不可欠である。
- 既存の参照画像セグメンテーションモデルは，詳細な局所化に注力するあまり，認知能力の限界を無視している。
- 知覚と認知を分離し，それらの相乗効果を高めることで，セグメンテーション精度とロバスト性を向上させる。
- DeRISは，参照画像セグメンテーションを知覚と認知の2つの要素に分解する新しいフレームワークである。
- 実験結果から，現在のモデルの主な限界は知覚の欠如ではなく，マルチモーダルな認知能力の不足であることが明らかになった。
- 提案するループバック相乗効果メカニズムにより，知覚と認知の連携が強化され，高精度なセグメンテーションと堅牢な画像-テキスト理解が実現された。
Link: https://arxiv.org/abs/2507.01738
認知心理学的視点からのVLMハルシネーションの調査：解釈に向けた第一歩と興味深い観察 [cs.CV, cs.CL, cs.LG]目的：VLMにおけるハルシネーションの原因となる認知バイアス
- 近年，画像とテキストを扱うVLMの応用が進む中で，その信頼性が重要視されている。
- VLMは誤った情報を生成するハルシネーションを起こしやすく，その原因が技術的な問題に限ると考えられていた。
- 本研究は，ハルシネーションを人間の認知バイアスと比較することで，新たな解釈の可能性を探る。
- VLMにおけるハルシネーションに，同調性，論理的不整合，権威への訴えといった認知バイアスが関与することが示された。
- モデル規模が大きくなるにつれて，同調性は強まり，権威バイアスは減少する傾向が確認された。
- 人間を対象とした実験により，VLMと人間の応答パターンの違いが明らかになり，VLM評価における心理学的原理の重要性が示唆された。
Link: https://arxiv.org/abs/2507.03123
SenseShift6D：環境およびセンサーの変化に対するロバストな6D姿勢推定のためのマルチモーダルRGB-Dベンチマーク [cs.CV]目的：環境およびセンサーの変化に対するロバストな6D姿勢推定のためのベンチマークデータセット
- ロボットビジョンやコンピュータビジョンの分野において，物体の姿勢推定は重要な課題である。
- 既存のデータセットは，照明やカメラ設定が固定されており，現実世界の変動に対応できていない。
- 照明やセンサー設定を変化させることで，現実世界の変動に対するロバスト性を評価する。
- 提案手法であるSenseShift6Dは，13種類のRGB露出，9種類のRGBゲイン，4種類の深度キャプチャモード，5種類の照明レベルを網羅するデータセットである。
- テスト時にマルチモーダルセンサー制御を適用することで，事前学習済みの汎用モデルの性能が19.5pp向上することが示された。
- 環境やセンサーの変化があっても，テスト時のセンサー制御が有効であり，大規模な学習データの収集を代替できる可能性がある。
Link: https://arxiv.org/abs/2507.05751
合成画像検索のための高品質なトリプレットデータの自動生成 [cs.CV]目的：合成画像検索におけるトリプレットデータの自動生成手法と，高品質な合成トリプレットデータセット
- 画像とテキストを組み合わせた検索は，情報検索の重要な課題であり，より高度な画像理解が求められている。
- 既存手法は，手動でラベル付けされたトリプレットに依存しており，大規模なデータセットの作成やゼロショット学習の実現が困難である。
- 大規模言語モデルと画像生成モデルを活用し，高品質な合成トリプレットデータセットを自動生成することで，この問題を解決する。
- 提案手法により生成された合成データセットを用いて，既存の枠組みCoAlignが3つのベンチマークにおいて優れたゼロショット性能を達成した。
- CoAlignは，大域的なアラインメントと局所的な推論を可能にするハイブリッドコンテキストアラインメントにより，よりロバストで情報量の多い表現を学習する。
- 教師あり学習においても，提案手法は最先端の教師あり合成画像検索アプローチを上回り，有効性が確認された。
Link: https://arxiv.org/abs/2507.05970
マルチスケール注意機構とゲートシフトを用いた動画における微細イベント検出 [cs.CV]目的：スポーツ動画における微細イベントの正確な検出
- スポーツ分析やコンテンツ理解において，イベント検出は重要な役割を担う。
- 既存手法は，時間的受容野や空間適応性に限界があり，微細なイベント検出が困難。
- 時間的・空間的特徴を効率的に捉え，イベント検出の精度向上を目指す。
- マルチスケール注意機構ゲートシフトモジュール（MSAGSM）を提案し，時間的・空間的な特徴抽出能力を強化。
- MSAGSMは軽量で様々な2Dバックボーンに容易に組み込むことが可能。
- 新たに卓球イベント検出のためのデータセット（Table Tennis Australia）を公開し，最先端の性能を達成。
Link: https://arxiv.org/abs/2507.07381
柔軟な表現誘導を用いた拡散モデルの学習 [cs.LG, cs.AI, cs.CV]目的：拡散モデルにおける表現誘導の体系的な枠組み
- 拡散モデルは画像生成等の分野で注目されており，その性能向上は重要である。
- 拡散モデルの性能は表現の質に左右されるが，表現の最適化は課題である。
- 事前学習モデルとの表現整列による生成品質向上と学習の高速化を目指す。
- 本研究では，表現誘導を組み込むための新しい戦略を2つ提案した。
- マルチモーダルペアに対する同時学習と，表現学習とデータ生成のバランスを取る最適な学習カリキュラムである。
- 画像，タンパク質配列，分子生成タスクで優れた性能と学習速度の向上を確認した。
Link: https://arxiv.org/abs/2507.08980
RoHOI：人間と物体のインタラクション検出の頑健性ベンチマーク [cs.CV, cs.HC, cs.RO, eess.IV]目的：人間と物体のインタラクション検出におけるモデルの頑健性評価
- ロボットによる人間支援において，状況に応じたサポートのためにHOI検出は不可欠である。
- 現実世界の環境下では，想定外のノイズやオクルージョンにより，モデルの性能が著しく低下する。
- 様々な汚染に対するモデルの耐性を評価し，より頑健なHOI検出を実現することを目指す。
- 本研究では，HOI検出の頑健性評価のための新たなベンチマークRoHOIを提案した。
- 既存モデルは，環境変化，オクルージョン，ノイズに対して脆弱であることが明らかになった。
- 提案手法SAMPLは，最先端の手法を上回り，頑健なHOI検出の新たな基準を確立した。
Link: https://arxiv.org/abs/2507.09111
Prompt4Trust：マルチモーダル大規模言語モデルにおける臨床的に整合した信頼度較正のための強化学習プロンプト拡張フレームワーク [cs.CV, cs.AI, cs.CL]目的：マルチモーダル大規模言語モデルにおける信頼度較正
- 医療分野での大規模言語モデル活用が期待される一方で，その信頼性確保が重要課題となっている。
- プロンプト設計への依存性や，誤った回答に高い信頼度を示す傾向が，安全性が求められる医療現場での導入を阻害している。
- 臨床意思決定において重要な信頼度と精度の整合性を高め，モデルの信頼性を向上させることを目指す。
- Prompt4Trustは，プロンプト拡張を通して信頼度較正を目的とした初の強化学習フレームワークである。
- 臨床的意思決定に重要な較正に焦点を当てた結果，タスク精度も向上し，PMC-VQAベンチマークで最先端の性能を達成した。
- 小規模なモデルで学習したフレームワークは，大規模モデルへのゼロショット汎化も示唆しており，計算コストを抑えた信頼性向上に繋がる可能性がある。
Link: https://arxiv.org/abs/2507.09279
LOFベース前処理とYOLO-v11nを用いたリアルタイム大腸ポリープ検出のための軽量かつ堅牢なフレームワーク [cs.CV, cs.AI]目的：大腸ポリープ検出のための軽量かつ効率的なフレームワーク
- 大腸癌は世界的に主要な死亡原因であり，早期発見と予防が重要である。
- 既存の大腸ポリープ検出手法は，計算コストが高く，リアルタイム処理が困難な場合がある。
- 本研究では，ノイズ除去とモデル効率化により，臨床現場でのリアルタイム検出を可能にする。
- 提案手法は，ポリープ検出において，精度95.83%，再現率91.85%，F1スコア93.48%を達成した。
- mAP@0.5は96.48%，mAP@0.5:0.95は77.75%であり，既存のYOLOベースの手法と比較して，精度と効率が向上した。
- これらの結果は，本手法が臨床現場でのリアルタイム内視鏡支援に適していることを示唆している。
Link: https://arxiv.org/abs/2507.10864
S²M²: 信頼性の高い深度推定のためのスケーラブルなステレオマッチングモデル [cs.CV, cs.AI, cs.RO]目的：汎用的なステレオマッチングモデルの実現
- 自動運転やロボティクスなど，3次元空間の認識は様々な分野で重要である。
- 既存手法は，特定のデータセットに依存したり，計算コストが高いといった課題がある。
- 高精度かつ効率的なグローバルマッチングアーキテクチャを開発し，汎化性能を高める。
- 提案手法S²M²は，既存のステレオマッチングモデルと比較して，高い精度と効率を達成した。
- 特に，Middlebury v3およびETH3Dベンチマークにおいて，主要な評価指標で優れた性能を示した。
- S²M²は，長距離対応のためのマルチ解像度Transformerと，実行可能なマッチに確率を集中させる新しい損失関数を統合している。
Link: https://arxiv.org/abs/2507.13229
タスクのオンラインMMS割り当て [cs.GT]目的：タスクの公平な分割
- 資源配分において，公平性は重要な概念であり，社会的な合意形成に不可欠である。
- タスク割り当てにおいて，各エージェントの不満を最小化する効率的なアルゴリズムが求められる。
- 本研究は，オンライン環境下でのタスク割り当てにおける公平性の限界と可能性を明らかにする。
- 固定されたエージェント数に対し，$(n - \varepsilon)$-MMS割り当てを保証するアルゴリズムは存在しないことが証明された。
- 一般的なケースにおいて，$\min\{n, O(k), O(\log D)\}$ -MMS割り当てを保証するオンラインアルゴリズムが提案された。
- 特に二値タスクの場合，$(2 + \sqrt{3})$ 近似のMMS割り当てを達成できることが示された。
Link: https://arxiv.org/abs/2507.14039
STAR: 天文星野の超解像度に関するベンチマーク [cs.CL, cs.CV]目的：天文星野の超解像度評価のための大規模データセット
- 天体観測において，遠方の天体検出や構造解析には高解像度画像が不可欠である。
- 既存の天文超解像度データセットは，放射束の不整合，切り抜き設定，データ多様性の不足といった課題を抱えている。
- 本研究は，これらの課題を克服し，天文分野における超解像度モデル開発を促進することを目指す。
- STARデータセットは，54,738組の放射束が整合性のとれた星野画像ペアを提供し，広範囲な天体領域を網羅している。
- 提案手法FISRは，既存の最先端手法と比較して，新しい放射束整合性指標において24.84%の性能向上を示した。
- STARデータセットとFISRモデルは，天文分野における超解像度技術の発展に貢献するものと考えられる。
Link: https://arxiv.org/abs/2507.16385
IONext：慣性測位法における次世代の可能性 [cs.CV, cs.RO]目的：慣性測位法の性能向上
- ロボットや自動運転における位置推定は，安全性と自律性の実現に不可欠である。
- Transformerモデルは長距離依存性のモデリングに優れるものの，局所的な微小な動きの変化への感度が低い。
- 局所的特徴と大域的特徴を効果的に捉え，時間的モデリングの限界を克服することを目指す。
- 提案手法IONextは，既存のTransformerおよびCNNベースの手法と比較して，6つの公開データセットで一貫して優れた性能を示した。
- 特にRNINデータセットにおいて，平均ATEを10%，平均RTEを12%削減し，代表的なモデルiMOTを上回る結果となった。
- DADMモジュールとSTGUユニットにより，多スケール特徴の集約と時間的モデリングが効率的に行われる。
Link: https://arxiv.org/abs/2507.17089
目標に基づいた視覚言語による自動運転 [cs.CL, cs.CL, cs.CV, cs.AI, cs.LG, cs.MM, cs.RO]目的：複雑な状況下における自動運転のための，視覚情報と言語指示を用いたナビゲーションシステム
- 自動運転技術は，交通事故削減や移動の効率化に貢献する重要な分野である。
- 従来のシステムでは，複雑な環境認識と迅速な判断が課題となっていた。
- 本研究は，視覚情報と言語指示を統合し，より安全で効率的な自動運転を実現することを目指す。
- NovaDriveは，HDマップ，LiDAR，画像，テキストウェイポイントを統合的に処理する。
- MD-NEX Outdoorベンチマークにおいて，成功率を84%に向上させ，衝突頻度を1.2%に低減した。
- ウェイポイント，部分VLMファインチューニング，クロスアテンション融合が性能向上に貢献している。
Link: https://arxiv.org/abs/2507.23042
リアルタイム自動運転のためのビジョン・言語クロスアテンション [cs.CV, cs.AI, cs.LG, cs.RO]目的：自動運転における幾何学的精度と意味的理解の統合
- 複雑な環境下での自動運転には，正確な状況認識が不可欠であり，安全性向上に寄与する。
- 既存手法では，幾何学的情報と意味的理解が分離されており，効率的な統合が課題となっていた。
- ビジョン，言語，地図情報を早期に融合し，高精度で透明性の高い自動運転を実現すること。
- XYZ-Driveは，MD-NEX Outdoor-Drivingベンチマークにおいて95%の成功率と0.80のSPLを達成し，PhysNav-DGを上回った。
- 各モダリティ（画像，ウェイポイント，地図）のいずれかを削除すると，成功率が最大11%低下し，相補的な役割が確認された。
- ゴール中心型アテンションは，マップ知識を効果的に注入し，ファインチューニングも性能向上に重要であることが示された。
Link: https://arxiv.org/abs/2507.23064
CoRGI：事後的視覚的根拠付けによる検証可能な思考連鎖推論 [cs.CC, cs.AI, cs.CV]目的：視覚と言語モデルにおける推論の信頼性向上
- 視覚と言語モデルは多様なタスクに応用可能だが，幻覚に悩まされることが多い。
- 既存モデルは画像の表層的な検査のみで説明を生成し，根拠が薄弱な場合がある。
- 思考連鎖の出力を事後検証し，視覚的根拠に基づいて信頼性を高めることを目指す。
- CoRGIは，思考連鎖を段階的な記述に分解し，各段階を視覚的証拠に根拠付けることで，幻覚を抑制する。
- 複数のVLMバックボーン（Qwen-2.5VL, LLaVA-1.6, Gemma3-12B）において，回答精度と説明の忠実性が一貫して向上した。
- 定性的な分析からも，検証プロセスが幻覚を軽減し，解釈可能性を高めることが示唆された。
Link: https://arxiv.org/abs/2508.00378
多Modal感情推論における感情の衝突のベンチマークと解決 [cs.AI, cs.CV, cs.MM, cs.SD, eess.AS]目的：多Modal感情推論における感情の衝突に対するベンチマークと，それを解決するためのフレームワーク
- 感情認識は，人間と機械のより自然なインタラクションを可能にする上で重要である。
- 既存の多Modal大規模言語モデルは，異なるModalからの感情的な手がかりが矛盾する状況を十分に扱えていない。
- 感情の衝突状況下で，モデルが各Modalからの情報をバランス良く統合できるよう改善すること。
- 本研究では，感情の衝突に焦点を当てた新しいベンチマークCA-MERを提案し，既存モデルの課題を明らかにした。
- 提案手法MoSEARは，パラメータ効率的なフレームワークであり，感情の衝突を緩和し，一貫したサンプルにおける性能を向上させる。
- 複数のベンチマーク実験の結果，MoSEARは特に感情の衝突条件下で最先端の性能を達成した。
Link: https://arxiv.org/abs/2508.01181
適応近傍と補助正則化による不均衡に強く，サンプリング効率の良い連続条件付きGAN [cs.LG, cs.CV]目的：連続条件付きGANの性能向上
- 高次元データの分布推定において，連続値回帰ラベルに基づく条件付き生成モデルが重要である。
- 既存のCcGANはデータの不均衡に弱く，CCDMは計算コストが高いという課題がある。
- 適応的な近傍の調整と補助的な正則化により，これらの課題を解決する。
- 提案手法CcGAN-AVARは，データの不均衡を軽減し，生成器の学習を促進する。
- CcGAN-AVARはCCDMと比較して，推論速度が大幅に向上する。
- 複数のベンチマークデータセットにおいて，最先端の生成品質とサンプリング効率を達成した。
Link: https://arxiv.org/abs/2508.01725
文脈誘導型Transformerエントロピーモデリングによるビデオ圧縮 [cs.CV, cs.MM]目的：ビデオ圧縮のためのエントロピーモデリング手法
- ビデオ圧縮は，データ量を削減し，効率的な通信や保存を可能にする重要な技術である。
- 既存のエントロピーモデルは，計算コストが高く，空間的依存関係の明示的なモデリングが不足している場合がある。
- 計算コストを削減しつつ，空間的依存関係を考慮した効率的なエントロピーモデリングを実現する。
- 提案手法であるCGTモデルは，エントロピーモデリング時間を約65%削減することに成功した。
- 既存の最先端のエントロピーモデルと比較して，BDレートを約11%削減する性能を示した。
- Transformerエンコーダを用いた時間的文脈リサンプラと，依存性重み付けされた空間的文脈アサイナにより，効率的な文脈モデリングを実現している。
Link: https://arxiv.org/abs/2508.01852
StreamAgent：ストリーミングビデオ理解のための先見性を持つエージェントへ [cs.CV]目的：ストリーミングビデオ理解における先見的なエージェントの実現
- 自動運転や監視など，リアルタイムな映像処理の重要性が増している。
- 既存手法は反応型または非同期的で，計画性や未来予測が不足している。
- タスク駆動型で，未来の情報を予測し，能動的な意思決定を可能にする。
- StreamAgentは，タスクに関連する将来の情報が現れる時間と空間を予測することで，プロアクティブな応答を実現する。
- 質問の意味と過去の観察を統合し，キーイベントの進行を予測し，将来の証拠と現在の観察を整合させる。
- 効率的な推論のために，ストリーミングKVキャッシュメモリ機構を設計し，関連トークンの選択的なリコールを可能にした。
Link: https://arxiv.org/abs/2508.01875
CLIP-IN：指示編集データと長文キャプションによるCLIPの細粒度視覚理解の強化 [cs.CV]目的：CLIPの細粒度視覚理解能力の向上
- 画像と言語の対応付けで成功を収めるVLMsの重要性が増している。
- VLMsは，詳細な視覚情報の理解において課題が残されている。
- 細粒度視覚理解能力の向上を目指し，新たなフレームワークを提案する。
- CLIP-INは，指示編集データと対称的なハードネガティブ対照損失を活用することで，微妙な視覚的・意味的差異を識別する能力を高める。
- 長文記述キャプションと回転位置埋め込みを導入することで，CLIPが標準的な手法では捉えきれない豊富な意味的文脈を捉える。
- MMVPベンチマークや細粒度視覚認識タスクで顕著な性能向上を示し，汎化性能を損なうことなく，大規模言語モデルにおける視覚的幻覚を低減し推論能力を高める。
Link: https://arxiv.org/abs/2508.02329
エージェントは互いの欲求をどのように考えるか：他者の目的推定のためのレベル2逆ゲーム [cs.GT, cs.MA]目的：エージェント間の戦略的相互作用の解釈
- 複数エージェント間の戦略的相互作用を理解する上で，各エージェントの目的を推論することは重要である。
- 従来の逆ゲーム理論は，エージェントが互いの目的を完全に知っているという非現実的な仮定に基づいている。
- エージェントが互いの目的を異なるように推定している可能性を考慮し，より現実的な推論を行うことを目指す。
- レベル1推論では捉えきれない，エージェント間の微妙な目的の食い違いを明らかにすることができた。
- レベル2推論は，各エージェントが他者の目的をどのように考えているかを問うことで，従来の推論の限界を克服する。
- 線形二次ゲームにおいて，レベル2推論問題は非凸であることが証明されたが，効率的な勾配ベースの手法で局所解を特定することが可能である。
Link: https://arxiv.org/abs/2508.03824
重要度を考慮したマルチ粒度融合によるビデオ瞬間検索 [cs.IR, cs.CV, cs.MM, cs.SD, eess.AS]目的：ビデオ瞬間検索における，音声，視覚，テキストの文脈を動的に選択的に集約する手法
- ビデオ検索において，視覚情報とテキスト情報に加え，音声情報が重要な役割を果たすことが認識されている。
- 既存手法では，音声，視覚，テキストを同等に扱い，細かい相互作用を考慮していない場合が多い。
- ノイズや無意味な音声の影響を軽減し，効果的な音声と視覚の融合を目指す。
- 提案手法IMGは，擬似ラベルを用いた音声重要度予測器により，ノイズを含む音声の干渉を抑制する。
- ローカル，イベント，グローバルレベルでのマルチ粒度融合により，音声と視覚の補完的な文脈を捉える。
- 推論時の音声欠落に対応するため，クロスモーダル知識蒸留戦略を導入する。
Link: https://arxiv.org/abs/2508.04273
NEP：次期編集トークン予測による画像編集 [cs.CV]目的：画像編集における次期編集トークン予測
- 画像編集技術は，多様な画像操作を可能にし，コンテンツ制作や応用分野で重要性が増している。
- 既存手法は画像全体を再生成するため，計算コストが高く，編集領域以外の品質が低下しやすい。
- 編集が必要な領域のみを再生成することで，効率性と品質の両立を目指す。
- 本研究では，画像編集を次期編集トークン予測(NEP)として定式化し，autoregressiveな画像生成モデルを活用した。
- これにより，非編集領域への意図しない変更を回避しつつ，編集領域のみを効率的に再生成することが可能となった。
- 提案手法は，既存の画像編集ベンチマークにおいて最先端の結果を達成し，テスト時スケーリングにも対応している。
Link: https://arxiv.org/abs/2508.06044
FormCoach：賢くトレーニング，無理はしない [cs.CV, cs.HC]目的：自宅でのトレーニングにおけるフォーム指導の自動化
- 健康意識の高まりから，自宅でのトレーニング需要が増加している。
- 専門家によるフォーム指導は高価であり，利用が限られている。
- AIを活用し，リアルタイムで正確なフォーム指導を実現すること。
- FormCoachは，カメラを用いてAIによるインタラクティブなトレーニング指導を実現する。
- 1700件の専門家によるアノテーション済みの動画データセットを公開し，AIモデルの評価を可能にした。
- 現状の最先端のビジョン言語モデルには，人間レベルの指導との差があることが示された。
Link: https://arxiv.org/abs/2508.07501
MRFD：自己整合性を用いた多領域融合デコーディングによるLVLMにおける幻覚の軽減 [cs.CV, cs.AI]目的：LVLMにおける幻覚軽減のための手法
- 近年，画像と言語を扱うLVLMの性能は向上しているが，視覚情報との矛盾した内容を生成する幻覚が課題となっている。
- LVLMは画像内の異なる領域の情報を検証する能力が限られており，事実と異なる内容を生成しやすいという問題点がある。
- 画像内の重要な領域間の整合性を考慮することで，より正確な応答生成を目指す。
- 提案手法MRFDは，クロスアテンションを用いて重要な領域を特定し，各領域に対して初期応答を生成する。
- 応答間のJensen-Shannon Divergence (JSD)に基づき信頼度を算出し，Chain-of-Thoughtに着想を得た領域に応じたプロンプトを用いて応答を融合する。
- 複数のLVLMとベンチマークを用いた実験により，MRFDが幻覚を大幅に軽減し，応答の事実性を向上させることが示された。
Link: https://arxiv.org/abs/2508.10264
量子化された拡散モデルにおける誤差伝播メカニズムと補償戦略 [cs.CL, cs.CV]目的：拡散モデルにおける誤差伝播の理論的解明と，それに対する補償戦略の開発
- 画像生成において，拡散モデルは飛躍的な品質向上を実現しており，その重要性は高い。
- 拡散モデルの計算コストが高く，実用化の妨げとなっている。量子化による高速化も，誤差の蓄積が問題となる。
- 量子化による誤差伝播を数学的に解明し，その累積誤差を補償することで，生成画像の品質を維持すること。
- 誤差伝播の数理モデルを構築し，各ステップにおける誤差伝播方程式と累積誤差の閉形式解を導出した。
- ステップに応じた累積誤差補償スキームを提案し，複数の画像データセットで有効性を示した。
- SDXL W4A4において，SVDQuantと比較してPSNRが1.2向上し，計算時間への影響は0.5%未満に抑えられた。
Link: https://arxiv.org/abs/2508.12094
マルチモーダルLLMにおける空間知能の包括的評価 [cs.CV, cs.CL, cs.LG, cs.MM, cs.RO]目的：マルチモーダルLLMの空間知能に関する包括的評価
- AIの汎用性実現には，現実世界との相互作用が不可欠であり，空間理解はその根幹をなす。
- 既存のマルチモーダルモデルは空間理解・推論能力に限界があり，その進歩が阻害されている。
- 最新モデルの空間知能レベルを評価し，今後の発展の方向性を示すことを目指す。
- GPT-5は空間知能において未曾有の強みを示す一方で，広範なタスクで人間のパフォーマンスを下回る。
- 空間知能タスクは，非空間知能タスクよりもモデルの苦手な点が顕著になる。
- 高度な空間知能タスクにおいて，プロプライエタリモデルは決定的な優位性を示さない。
Link: https://arxiv.org/abs/2508.13142
4脚ロボットのアーム制御のための視覚に基づく共有制御遠隔操作スキーム [cs.CL, cs.RO, cs.CV, cs.LG, cs.SY, eess.SY]目的：危険かつ遠隔地でのロボットアーム遠隔操作の安全性と効率向上
- 災害現場や宇宙探査など，人が立ち入れない環境でのロボット活用が重要視されている。
- 四脚ロボットの遠隔操作は，障害物検出やアーム制御の難しさから，衝突リスクが高いという課題がある。
- 人間の直感的な動作を反映し，安全で容易なロボットアーム遠隔操作を実現することを目指す。
- 人間の腕の動きを視覚的に推定し，ロボットアームの制御に直接マッピングすることで，直感的な遠隔操作を実現した。
- 機械学習に基づいた姿勢推定パイプラインと，衝突回避機能を持つ軌道計画器を組み合わせることで，安全性を確保した。
- 実機検証により，リアルタイムでの安定した制御性能と，コスト効率の良いソリューションであることを示した。
Link: https://arxiv.org/abs/2508.14994
RAGベースの医療診断のための汎用ビジョン言語モデルと検索器の軽量な共同最適化 [cs.CV]目的：医療診断のためのビジョン言語モデルと検索器の共同最適化
- 医療現場では，画像とテキスト情報を活用した診断支援が重要視されている。
- 従来のRAGシステムでは，検索器の出力が言語モデルに与える影響が考慮されていない。
- 検索器と言語モデルを共同で最適化することで，診断精度向上を目指す。
- 汎用的なバックボーンを用い，軽量なファインチューニングのみで，専門的に事前学習されたモデルと同等の性能を達成した。
- 検索された上位の画像が異なる予測を行う場合があり，これは全てのモデルにとって課題となる。
- 共同最適化により，従来のRAGでは改善が難しいケースの性能が向上した。
Link: https://arxiv.org/abs/2508.17394
脚部ロボットにおける把持の最適化：ロコ・マニピュレーションのための深層学習アプローチ [cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY]目的：四脚ロボットの把持能力向上
- ロボットの自律的な動作において，把持は重要な要素である。特に，移動と把持を同時に行うロコ・マニピュレーションは，実用的な応用範囲が広い。
- 実世界のロボットにおける把持の学習には，大量の物理的なデータ収集が必要であり，時間とコストがかかるという課題がある。
- シミュレーションによる学習で得られた知識を実機に転移し，効率的な把持動作を実現することで，データ収集のコストを削減することを目指す。
- シミュレーション環境で生成した合成データを用いてCNNモデルを訓練し，RGB-Dカメラからの情報を基に把持品質を予測する。
- 訓練されたモデルは，四脚ロボット上でのロコ・マニピュレーションタスクにおいて，目標物への自律的な移動，知覚，把持位置の予測，そして正確な把持を成功裏に実行した。
- シミュレーション訓練と高度なセンシングの組み合わせは，物体操作のためのスケーラブルかつ効果的な解決策となりうることを示した。
Link: https://arxiv.org/abs/2508.17466
ロボットアプリケーションにおけるマノメトリ認識のための合成データセット [cs.CV, cs.AI, cs.LG, cs.RO]目的：ロボットアプリケーションにおけるマノメトリ認識のための合成データセット
- 産業環境の自動化には，高精度な物体検出が不可欠であり，安全性の向上に貢献する。
- 危険な環境下でのデータ収集は困難であり，十分な学習データの確保が課題である。
- 合成データを用いた学習により，安全かつ低コストで信頼性の高い認識システムを開発する。
- 合成データと実データを組み合わせたデータセットで学習させたYOLOベースの検出器が，実データのみで学習させたモデルを上回った。
- 実データと合成データの比率が1:1の時，最も高い精度が得られた。
- 合成データ生成は，安全性と資源制約のある産業用途における認識システムの開発において，有効な戦略である。
Link: https://arxiv.org/abs/2508.17468
TTF-VLA：ピクセル注意統合による時間的トークン融合 - 視覚・言語・行動モデルにおける活用 [cs.CL, cs.CV, cs.AI, cs.LG, cs.RO]目的：視覚・言語・行動モデルにおける推論品質の向上
- ロボット操作において，視覚情報と行動の関係性を理解することが重要である。
- 既存モデルは各フレームを独立に処理するため，時間的な情報を十分に活用できていない。
- 時間的情報を効果的に統合し，ロバスト性と性能を向上させることを目指す。
- 提案手法TTFは，過去と現在の視覚表現を統合することで，VLAモデルの性能を改善する。
- LIBERO，SimplerEnv，実ロボットタスクにおいて，一貫した性能向上が確認された (平均4.0%向上)。
- 注意機構におけるクエリ行列の再利用が，性能向上に寄与することを示唆しており，計算加速への応用が期待される。
Link: https://arxiv.org/abs/2508.19257
鋭い眼差しで再び見つめる：軽量キャプション生成を実用的な画像専門家として再考する [cs.CL, cs.CV]目的：軽量キャプション生成モデルの開発と性能評価
- 画像キャプション生成は，ロボットやチャットボットなどへの応用において不可欠な技術である。
- 大規模なマルチモーダルLLMは計算コストが高く，ローカルデバイスへの実装が困難である。
- 低計算量で高性能なキャプション生成モデルを開発し，オンデバイスでの利用を目指す。
- 125Mパラメータの軽量言語モデルを使用し，詳細なキャプション生成において，大規模LLMと同等の性能を達成した。
- 注意メカニズムの改善と，より詳細な視覚的表現を獲得する「Sharp-Eyed Refinement」フレームワークを開発した。
- 提案手法は，詳細なキャプション生成および長距離ビデオQAタスクにおいて，既存手法や大規模LLMを上回る性能を示した。
Link: https://arxiv.org/abs/2508.21451
PicoAudio2：自然言語記述による時間制御可能なテキストから音声生成 [cs.CL, cs.SD, eess.AS]目的：時間制御可能なテキストから音声生成の実現
- 近年，音声合成技術は目覚ましい進歩を遂げているが，より自然で制御可能な音声生成が求められている。
- 既存の研究では，音声品質や入力形式に課題があり，実データでの性能が低い場合がある。
- 実データとシミュレーションデータの活用，および新たなアーキテクチャの提案により，これらの課題を解決する。
- PicoAudio2は，実音声データにイベントのタイムスタンプを付与することで，学習データの品質を向上させた。
- 提案アーキテクチャは，タイムスタンプ情報と自由記述テキストを統合し，より詳細な制御を可能にした。
- 実験の結果，PicoAudio2は時間制御性と音声品質において優れた性能を発揮することが示された。
Link: https://arxiv.org/abs/2509.00683
Cryo-RL：強化学習による前立腺癌凍結療法計画の自動化 [cs.CV]目的：前立腺癌凍結療法計画の最適化
- 前立腺癌は罹患率が高く，低侵襲治療法のニーズが高い。
- 従来の計画は専門家依存で時間がかかり，質にばらつきがある。
- 強化学習を用いて，効率的かつ再現性の高い計画を自動化する。
- Cryo-RLは，従来の自動化手法と比較してDice係数で8%以上の改善を達成した。
- 専門家と同等の性能を示しつつ，計画時間を大幅に短縮した。
- 臨床的に有用な，再現性と効率性に優れた凍結療法計画の実現可能性を示した。
Link: https://arxiv.org/abs/2509.04886
バングラデシュ都市部におけるリアルタイム車両検出のためのYOLOアーキテクチャの評価 [cs.CV]目的：バングラデシュの都市部におけるリアルタイム車両検出のためのYOLOアーキテクチャの性能評価
- 自動運転技術は発展途上国において重要な役割を担うが，地域特有の環境への適応が課題である。
- 既存の車両検出システムは，バングラデシュ固有の車両を正確に識別できないという問題がある。
- バングラデシュの交通事情に適応した，よりロバストな物体検出システムの開発を目指す。
- YOLOv11xが最も高い性能を示し，mAP@0.5で63.7%，mAP@0.5:0.95で43.8%を達成した。
- YOLOv8m，YOLOv11mなどのミディアムモデルは，検出性能と推論時間のバランスに優れていた。
- 建設車両や「Desi Nosimon」など，希少な車両クラスの検出には課題が残る。
Link: https://arxiv.org/abs/2509.05652
言語モデルが視覚を導く：DINOを用いた牛の口吻検出 [cs.CV]目的：牛の口吻領域の検出
- 個体識別において，口吻模様は有用な生体認証特性であるため，その自動検出が重要視される。
- 従来の口吻検出は手作業に頼るか，大量のアノテーションデータが必要であり，汎用性に課題があった。
- アノテーションデータなしで，多様な品種や環境下での口吻検出を可能にすることを目指す。
- Grounding DINOという視覚言語モデルを活用し，ゼロショットでの口吻検出フレームワークを提案した。
- 自然言語プロンプトを用いて検出を誘導することで，アノテーションデータに依存しない検出を実現した。
- mAP@0.5で76.8%を達成し，実用的な口吻検出の可能性を示した。
Link: https://arxiv.org/abs/2509.06427
CrunchLLM：構造化されたビジネス推論と成果予測のためのマルチタスクLLM [cs.LG, cs.CV]目的：スタートアップ企業の成功予測
- 起業家精神とイノベーション研究において，企業の成功を予測することは極めて重要である。
- 異種データ（構造化データと非構造化データ）を効果的に活用することが困難である。
- ドメイン特化型データに対するLLMの適応能力向上を目指す。
- CrunchLLMは，Crunchbaseのスタートアップ企業成功予測において80％を超える精度を達成した。
- 従来の分類器やベースラインLLMと比較して，有意に高い性能を示した。
- 予測の根拠となる解釈可能な推論プロセスを提供し，透明性と信頼性を高めた。
Link: https://arxiv.org/abs/2509.10698
ドメイン汎化のためのクラス不変テスト時拡張 [cs.CV, cs.LG]目的：ドメイン汎化における性能劣化の軽減
- 深層学習モデルの汎化性能は，分布シフトに弱いため，実用上重要である。
- 既存手法は，多ドメイン学習や高コストなテスト時適応に依存する傾向がある。
- 軽量なテスト時拡張により，ドメイン汎化性能を向上させることを目指す。
- 提案手法CI-TTAは，弾性およびグリッド変形による画像変形と，信頼性に基づく予測のフィルタリングを組み合わせる。
- PACSおよびOffice-Homeデータセットでの実験により，既存のDGアルゴリズムやバックボーンと組み合わせて一貫した性能向上を示す。
- 本手法は，汎用性と有効性が確認された。
Link: https://arxiv.org/abs/2509.14420
時間変動スカラー場における特徴追跡のための編集距離に基づく手法の比較研究 [cs.CL, cs.GR]目的：時間変動スカラー場における特徴追跡
- 科学計算において，データの重要な特徴を要約するトポロジカル記述子は不可欠である。
- 既存の編集距離計算手法は，分岐分解への依存の有無によって分類され，その結果に差が生じている。
- 異なる編集距離に基づく手法の特性を比較し，追跡結果に影響を与える要因を特定すること。
- ４つの異なる編集距離に基づく手法を比較した結果，分析データと実データにおいて明確な差異が確認された。
- 同一カテゴリの手法間においても，時間経過に伴う追跡される特徴に有意な違いが見られた。
- 結果の変動要因を調査し，手法選択における指針を得た。
Link: https://arxiv.org/abs/2509.17974
プロンプト最適化と部分空間表現学習による少サンプル分布外検出 [cs.LG, cs.AI, cs.CV]目的：分布外入力検出の性能向上
- AIシステムの信頼性は，未知の入力に対する検出能力に左右される。実世界での応用には不可欠。
- 既存のプロンプト学習法はソフトマックス確率に依存し，VLMsが学習した特徴量の識別力を活かせていない。
- 特徴量の部分空間表現学習とプロンプト調整を組み合わせ，ID-OOD分離性を高めることを目指す。
- 提案手法は，プロンプトベクトルにID特徴を投影し，ID無関係な特徴を直交空間に投影することで，ID-OOD分離性を向上させる。
- エンドツーエンド学習基準を設計し，高いOOD検出性能とID分類精度を両立させた。
- 実世界のデータセットにおける実験により，提案手法の有効性が確認された。
Link: https://arxiv.org/abs/2509.18111
WavJEPA：意味的学習が打ち開く，ロー波形向け堅牢な音声基盤モデル [cs.SD, eess.AS]目的：ロー波形からの汎用的な音声表現学習
- 音声処理技術は，多様な応用分野において不可欠であり，その性能向上は常に求められている。
- スペクトログラムに依存する手法では，計算コストや位相情報の損失が課題となっていた。
- ロー波形から直接学習することで，これらの課題を克服し，より効率的で高精度なモデルを開発すること。
- WavJEPAは，様々なダウンストリームタスクにおいて，既存の時間領域音声基盤モデルを大幅に上回る性能を示した。
- WavJEPA-Natは，シミュレーションされた自然な環境下での学習により，残響やノイズに対する高いロバスト性を持つことを確認した。
- これらの結果は，ロー波形からの汎用的な音声表現学習の実現可能性と計算効率を示唆している。
Link: https://arxiv.org/abs/2509.23238