arXiv雑要約

画像・音声 - 2026/05/01 公開

二眼カメラ設定におけるデュアルストリームTransformerによる相互視線と共同注意の自動検出 [cs.CV]目的：相互視線および共同注意の自動検出
- 発達心理学において，相互作用研究は重要である。行動の理解に不可欠な要素だから。
- 多眼カメラ環境では，複雑な関係性から自動化が困難であった。
- 本研究は，効率的な自動検出手法を確立し，研究の効率化を目指す。
- 提案手法は，凍結された視線認識バックボーンとトークン融合メカニズムを活用している。
- ケアギバーと乳幼児の相互作用データセットで評価した結果，既存手法や大規模言語モデルを上回る性能を示した。
- モデルと事前学習済み重みを公開することで，様々な実験環境への応用を促進する。
Link: https://arxiv.org/abs/2604.27105
生成による再構成：疎な観測からの3Dマルチオブジェクトシーン再構成 [cs.CV, cs.AI, cs.LG, cs.RO]目的：3Dマルチオブジェクトシーンの再構成
- ロボティクスにおけるシミュレーションの信頼性向上に不可欠な技術分野である。
- 疎な観測からの複雑なシーン再構成は依然として困難な課題である。
- 遮蔽や部分的視認下におけるオブジェクト形状と姿勢の推定問題を解決する。
- 提案手法RecGenは，合成シーン生成と3D形状事前知識を活用し，多様なオブジェクトと環境への汎化性能を示す。
- 既存手法SAM3Dと比較して，RecGenは学習に用いるメッシュ数を80%削減しながら，幾何学的形状品質で30.1%，テクスチャ再構成で9.1%，姿勢推定で33.9%の性能向上を達成した。
- 特に，強い遮蔽，対称オブジェクト，複雑な形状やテクスチャに対するロバスト性が確認された。
Link: https://arxiv.org/abs/2604.27106
InterPartAbility：解釈可能な人物再識別を可能にするテキスト誘導パートマッチング [cs.CV]目的：テキスト誘導による人物再識別の解釈性向上
- 人物再識別は，監視カメラ等による個人特定に不可欠であり，その精度向上は社会的なニーズが高い。
- 既存のテキスト-画像人物再識別モデルは高い精度を示すものの，その判断根拠が不明確であるという課題がある。
- 視覚的特徴とテキスト情報を結びつけ，人物のどの部分に注目しているかを明確にすることで，解釈可能な再識別を実現する。
- InterPartAbilityは，画像内の各部分とテキストフレーズを明示的にマッチングさせることで，解釈性を高める。
- 新モジュールPPIMを用いて，概念レベルのガイダンスでモデルを学習し，関連する画像領域への注意を促す。
- CUHK-PEDESおよびICFG-PEDESベンチマークにおいて，既存手法を上回る解釈性と競争力のある再識別精度を達成した。
Link: https://arxiv.org/abs/2604.27122
エッジ展開可能な個体レベル家畜モニタリングと縦断的視覚分析のためのSAM 3およびDINOv3の軽量蒸留 [cs.CV, cs.AI]目的：エッジデバイスでの家畜モニタリングと視覚分析のための軽量なモデルパイプラインの構築
- 精密畜産は，家畜の福祉向上や生産性向上に不可欠であり，高度な画像解析技術が求められている。
- 最新の基盤モデルは高性能だが，GPUメモリ消費量が大きく，エッジデバイスでの利用が困難である。
- GPUメモリ消費量を削減し，エッジデバイスでの実用化を目指す。
- 蒸留により，パラメータ数を大幅に削減し，GPUメモリ消費量を抑制することに成功した。
- Edinburgh Pigデータセットにおいて，SAM 3の教師モデルと比較して，わずかな精度低下にとどめながら，7.77倍のパラメータ削減と3.01倍のVRAM削減を達成した。
- NVIDIA Jetson Orin NX 16GBに搭載可能であり，長期的な視覚記録と個体識別メカニズムの可能性を示した。
Link: https://arxiv.org/abs/2604.27128
答えレベルの微調整のための分布整合ゲーム [cs.LG, cs.GT]目的：答えレベルの微調整問題
- 言語モデルの性能向上は，様々な自然言語処理タスクにおいて重要である。
- 答えの正確性に基づいた直接的な最適化は計算量が膨大になる。
- 計算可能な範囲で答えレベルの最適化を実現すること。
- 本研究では，分布整合ゲームというゲーム理論的枠組みを提案した。
- このゲームのナッシュ均衡は，元の答えレベル最適化問題の解と一致する。
- これにより，多様性や自己改善といった既存手法を統一し，数学的推論タスクで性能向上を実証した。
Link: https://arxiv.org/abs/2604.27166
大規模言語モデルにおけるナッシュ均衡プレイを抑制する要因：メカニズム的証拠と因果的制御 [cs.GT, cs.AI, cs.LG]目的：大規模言語モデルにおける戦略的相互作用でのナッシュ均衡からの逸脱の原因究明と，その逸脱の是正可能性の検証
- 戦略的相互作用の理解は，AIエージェントの協調行動や競争行動を予測し，制御する上で不可欠である。
- 既存研究では，大規模言語モデルがナッシュ均衡から逸脱する傾向が認められるが，その内部メカニズムは不明であった。
- 本研究では，大規模言語モデルの内部表現を分析し，ナッシュ均衡プレイを抑制するメカニズムを解明し，その制御を目指す。
- モデルの初期層で相手の行動履歴が忠実にエンコードされる一方，ナッシュ行動のエンコードは弱いことが示された。
- 最終層において，ナッシュ行動を優先する傾向が覆され，協調行動の確率が向上することが確認された。
- モデル規模やアーキテクチャによって，ナッシュ均衡プレイに対する影響が異なり，思考連鎖（chain-of-thought）推論が小規模モデルではナッシュ均衡プレイを悪化させる一方，大規模モデルでは改善することが示された。
Link: https://arxiv.org/abs/2604.27167
知識蒸留による省エネルギー植物モニタリング [cs.DC, cs.RO, cs.CV]目的：植物種および植物病害認識における効率化
- 生物多様性モニタリングや精密農業の発展に貢献するため，植物認識技術の重要性が高まっている。
- 高性能モデルは計算コストが高く，モバイル環境等への実装が困難であるという課題がある。
- 知識蒸留を用いて，大規模モデルの能力を小型モデルに効率的に移行し，実装の容易化を目指す。
- 知識蒸留は，タスクとアーキテクチャを問わず，性能向上に寄与することが示された。
- 蒸留されたモデルは，より大規模なモデルと同等の性能を維持しつつ，計算コストを大幅に削減できる。
- 本研究は，実環境での植物認識システムの効率的かつスケーラブルな展開の可能性を示唆する。
Link: https://arxiv.org/abs/2604.27178
HQ-UNet：リモートセンシング画像セグメンテーションのための量子ボトルネック付きハイブリッド量子・古典的U-Net [cs.CV]目的：リモートセンシング画像セグメンテーションのためのハイブリッド量子・古典的U-Netアーキテクチャ
- リモートセンシングは地球観測に不可欠であり，高精度な画像解析が重要である。
- 古典的深層学習はパラメータ数が多く，計算コストが高いという課題がある。
- 量子機械学習を用いて，少ないパラメータで高精度なセグメンテーションを実現すること。
- HQ-UNetはLandCover.aiデータセットにおいて，平均IoU 0.8050，全体精度94.76%を達成した。
- 古典的U-Netと比較して性能が向上しており，量子ボトルネックが特徴表現を強化する効果が示された。
- この結果は，ニアターム量子コンピュータ環境下でのパラメータ効率の良い画像セグメンテーションの可能性を示唆する。
Link: https://arxiv.org/abs/2604.27206
期待値での真実性を満たすメカニズムによるMMS近似 [cs.GT]目的：加法的な評価値を持つ戦略的なエージェント間での分割不能な財の公正な割り当て
- 戦略的環境下での資源配分は，効率性と公平性の両立が課題であり，社会実装への応用が期待される。
- 決定論的な真実性メカニズムには限界があり，より現実的なメカニズム設計が求められている。
- エージェントに一定割合のMaximin Share（MMS）を保証するメカニズムを設計し，近似率を向上させる。
- 本研究では，調和数を用いて近似率を評価する真実性メカニズムを提案し，既存手法との比較を行った。
- 少量の追加情報を用いることで，近似率を$\Omega(\frac{1}{\log\log n})$-MMSまで改善できることを示した。
- 2人のエージェントに対しては，$\frac{2}{3}$-MMSを保証する真実性メカニズムを提示し，最適性を示した。
Link: https://arxiv.org/abs/2604.27211
AttriBE: ボディ埋め込みにおける属性表現力の定量化 - 認識と識別のため [cs.CV]目的：ボディ埋め込みにおける属性表現力の定量化
- 人物再識別は，監視カメラなど多様な応用で不可欠であり，その性能向上は重要な課題である。
- 既存手法は，性別や姿勢，BMIなどの属性の影響を受けやすく，公平性や汎化性能に課題がある。
- 学習された特徴量と属性間の相互情報量を評価し，属性がどの程度埋め込みに反映されているかを定量化する。
- TransformerベースのReIDモデルにおいて，BMIが最も高い属性表現力を持つことが明らかになった。
- 属性表現力のランキングは，BMI > ピッチ > 性別 > ヨウであり，層の深さと学習エポックと共に変化する。
- 赤外線を用いた人物識別では，ピッチがBMIに匹敵し，層の深さとともに属性依存度が増加する傾向が示された。
Link: https://arxiv.org/abs/2604.27218
地球観測データからの生垣と線状の樹木性のマッピングの一般化：ドイツ全国製品に向けて [cs.CV]目的：生垣と線状樹木性のマッピング手法
- 農業景観における生態系サービス提供の観点から，生垣等の重要性が認識されている。
- 多様なセンサー，解像度，環境条件から，線状樹木性のマッピングの汎用的なワークフローが課題。
- 本研究は，異なるデータソースに対応可能なモジュール型ワークフローを構築し，汎用性を検証する。
- 構築したワークフローは，ドイツ全国規模の線状樹木性マップを3つのデータソースから生成することに成功した。
- 評価の結果，既存のマップと比較して競争力のある結果が得られ，全国レベルでの有効性が確認された。
- モジュール設計により，ドイツ国外へのスケーラブルで汎用的な線状樹木性マッピングの基盤を提供する。
Link: https://arxiv.org/abs/2604.27247
VTBench：チャートに基づく表現を用いた時系列分類のためのマルチモーダルフレームワーク [cs.CV, cs.LG]目的：時系列分類における，生の数値入力とチャートに基づく可視化のマルチモーダル融合
- 時系列データは様々な分野で出現し，その分析・予測は重要性が高い。
- 既存手法は数値データに偏りがちで，可視化による情報活用が不十分である。
- チャート表現の有効性を系統的に評価し，最適な活用法を確立すること。
- チャートのみのモデルが，特に小規模データセットにおいて競争力を持つことが示された。
- 複数のチャートタイプを組み合わせることで，相補的な視覚的特徴を捉え，精度が向上することが確認された。
- マルチモーダルモデルは，視覚特徴が冗長性を持たない場合に性能が向上する一方，冗長性が高い場合は精度が低下する可能性がある。
Link: https://arxiv.org/abs/2604.27259
LLM誘導の音素編集による少量データでのアクセント合成 [cs.SD]目的：LLM誘導による音素編集を用いた，少量データでのアクセント合成手法
- 自動音声認識の性能は，アクセントに大きく依存するため，多様なアクセントに対応することが重要である。
- アクセント付き音声認識の訓練データは不足しており，特に希少なアクセントのデータ収集は困難である。
- 本研究は，ごく少量のデータでアクセントに適応できる音声合成手法を開発し，音声認識の性能向上を目指す。
- LLMによる音素編集とTTSデコーダの組み合わせにより，10個以下の参照文からアクセント付き音声を合成できることが示された。
- 合成音声を用いたASRモデルのファインチューニングにより，アクセント付きの実際の音声認識において，WERの顕著な低減が確認された。
- 音素空間での摂動自体も強力なデータ拡張手法であり，LLMによる編集はさらなる改善に寄与することが示された。
Link: https://arxiv.org/abs/2604.27273
最適束を持つフィッシャー市場とPPADに対するPCP定理の必要性 [cs.GT, cs.CC]目的：分離型区分線形凹型効用関数を持つフィッシャー市場における近似最適束を持つ競争的均衡の計算
- 市場設計は，資源配分の効率化や社会的厚生の最大化に不可欠である。
- フィッシャー市場における均衡計算は，NP困難であり，効率的なアルゴリズムが未だ存在しない。
- 近似最適束を持つ均衡計算の計算困難性を示すことで，PCP-for-PPAD予想の検証に貢献する。
- 本研究により，ある定数δ＞0に対して，近似最適束を持つフィッシャー市場の均衡計算がPPAD困難であることが示された。
- この困難性は，買い手の予算が同一，線形上限効用，近似的な清算を許容する場合にも成立する。
- 本問題は，PCP-for-PPAD予想を検証するための最初の自然な問題であることが示された。
Link: https://arxiv.org/abs/2604.27276
BrainDINO：汎用的な臨床表現学習のための脳MRI基盤モデル [cs.LG, cs.AI, cs.CV]目的：脳MRIの汎用的な臨床表現学習
- 脳MRIは神経科学および臨床応用の広範な基盤であり，その重要性は高い。
- 既存の機械学習手法は特定のタスクに特化し，大量のラベル付きデータが必要となる点が課題。
- 脳MRIにおける多様なタスクに対し，ラベル不足時でも高精度な表現学習を実現すること。
- BrainDINOは，約660万枚のラベルなし脳MRI画像を用いて自己教師あり学習を行った基盤モデルである。
- 腫瘍セグメンテーション，神経変性疾患分類など多様なタスクにおいて，既存手法と同等またはそれ以上の性能を示した。
- タスク固有のラベルが少ない状況下で特に優れており，脳MRI分析におけるデータ効率とロバスト性を向上させる。
Link: https://arxiv.org/abs/2604.27277
3秒の音声から吃音発生を予測：層別評価による重症度選択的前兆の発見と，デバイス上での完全な動作 [cs.SD, cs.LG, eess.AS]目的：吃音の発生予測モデルの開発
- 吃音はコミュニケーションに支障をきたし，社会生活に大きな影響を与えるため，その改善が重要である。
- 既存のシステムは吃音の検出に特化しており，介入に必要な予測能力は未開拓であった。
- 重症度の高い吃音イベントに特化した予測モデルを開発し，リアルタイムな介入を可能にすること。
- 吃音の種類別に評価した結果，重度のブロックや音繰り返しに対して高い予測性能が確認された。
- 学習済みのモデルを小児の吃音データに適用したところ，高い検出・予測精度を維持した。
- CoreML，ONNX，TFLiteへの変換により，デバイス上での低遅延かつ効率的な動作を実現した。
Link: https://arxiv.org/abs/2604.27279
アクセント変換：社会言語学的・技術的制約に関する問題駆動型調査 [cs.SD]目的：アクセント変換手法の進化と制約
- グローバル化が進む現代において，異文化間のコミュニケーション円滑化は重要課題である。
- データアラインメント，表現の分離，リソース不足など，解決すべき課題が山積している。
- アクセント変換の制御性と知覚的整合性の向上を目指す将来の研究方向性を示す。
- 初期のルールベース手法から最新のニューラルアーキテクチャへの発展を概観した。
- アクセント変換は，言語学的基盤とアプリケーション要件によって制約を受けることが示された。
- 一般的なデータセットや評価方法をレビューし，今後の課題と研究の方向性を提示した。
Link: https://arxiv.org/abs/2604.27281
改善されたYOLOv8sに基づく学生の教室での行動認識 [cs.CV, cs.CY]目的：学生の教室での行動認識モデルの改善
- 教育の質向上には，学生の学習状況と授業への参加度を把握することが不可欠である。
- 教室内の学生の密集，小物体の多数，頻繁な遮蔽，クラス分布の不均衡が課題である。
- 複雑な教室環境下における自動学生行動認識の精度向上を目指す。
- 提案モデルALC-YOLOv8sは，ベースラインモデルと比較してmAP50が1.8%，mAP50-95が2.1%向上した。
- SPPF-LSKA，CFC-CRB，SFC-G2の導入により，特徴抽出と多スケール特徴融合が最適化された。
- ATFLossの組み込みにより，少数クラスと難易度の高いサンプルの学習能力が向上した。
Link: https://arxiv.org/abs/2604.27293
PINN-Cast：Transformerと連続深度NODE，および物理情報損失をソフト制約として用いた短期天気予報 [cs.LG, cs.CV]目的：短期天気予報における連続深度NODEの役割と，物理情報損失をソフト制約として利用することの探求
- 天気予報は社会基盤を支える重要な技術であり，その精度向上は喫緊の課題である。
- 従来の数値予報モデルは計算コストが高く，Transformerモデルは物理法則を考慮していないという課題があった。
- Transformerの表現学習を滑らかにし，物理法則との整合性を高めることで，より高精度な天気予報を目指す。
- 提案手法PINN-Castは，標準的なTransformerと比較して優れた予測性能を示した。
- 各エンコーダーブロックにNeural ODEダイナミクスを導入することで，連続的な表現学習を実現した。
- 物理情報損失をソフト制約として組み込むことで，予測の物理的整合性を向上させた。
Link: https://arxiv.org/abs/2604.27313
YOSE：効率的なDiTベースの動画オブジェクト除去のための必須トークンのみ選択 [cs.CV]目的：動画オブジェクト除去における推論速度の向上
- 動画生成技術の進歩により，動画オブジェクト除去の精度が向上している。
- 既存手法は，マスク領域が小さくても，全時空間トークンに対して計算を行うため，推論速度が遅い。
- マスク領域に応じて計算量を削減し，推論速度を向上させる。
- YOSEは，マスク情報を基に必須トークンのみを選択するBatch Variable-length Indexing (BVI)と，Diffusion Process Simulator (DiffSim) Moduleを導入することで，推論速度を向上させている。
- 実験の結果，YOSEは70%のケースで最大2.5倍の高速化を達成し，ベースラインと同等の視覚品質を維持している。
- 推論時間がマスク領域の大きさに応じて線形にスケールし，マスクサイズに関わらず計算量が一定である既存手法との違いが示されている。
Link: https://arxiv.org/abs/2604.27322
SQuadGen：チャート距離場を用いた単純な四角形レイアウトの生成 [cs.GR, cs.CV]目的：3D形状における単純な四角形メッシュレイアウトの生成
- 3Dモデリングにおいて，効率的な編集には単純な四角形メッシュレイアウトが不可欠である。
- 既存の四角形リメッシング技術は複雑なレイアウトを生み出し，手動修正やアルゴリズム調整に手間がかかる。
- SQuadGenは，単純な四角形レイアウトを自動生成することで，この課題を解決することを目指す。
- SQuadGenは，チャート距離場（CDF）を活用した拡散ベースの生成フレームワークである。
- CDFは，メッシュの接続性の離散性を克服し，四角形レイアウトの学習と合成を可能にする連続的な表現である。
- 多様な3D入力に対する評価において，SQuadGenは既存手法を上回り，堅牢でアーティストにとって扱いやすい単純な四角形レイアウトを生成することが示された。
Link: https://arxiv.org/abs/2604.27329
大規模言語モデルに基づく意味プロトタイプ最適化によるゼロショット分類の反復定義洗練 [cs.CV]目的：ゼロショットウェブコンテンツ分類の精度向上
- ウェブコンテンツは多様化・変化が激しく，正確な分類がセキュリティやコンプライアンス上重要である。
- 埋め込みベースのゼロショット分類は定義の質に大きく依存し，曖昧な定義が誤分類を引き起こしやすい。
- 定義の質を改善することで，モデルのパラメータ更新なしに分類精度を高めることを目指す。
- 提案手法は，誤分類された事例からのフィードバックに基づき，カテゴリ定義を反復的に洗練する。
- 3種類の洗練戦略（例示誘導型，混同認識型，履歴認識型）を比較検討し，いずれも性能向上に貢献する。
- 大規模なベンチマークデータセットを用いて評価した結果，定義の質が埋め込みベースシステムの重要な要素であることが示された。
Link: https://arxiv.org/abs/2604.27335
JI-ADF：適応的決定融合を用いた共同・個別学習による多角的な皮膚病変分類 [cs.CV]目的：多角的皮膚病変の分類
- 皮膚病変の早期診断は重要であり，迅速かつ正確な分類が求められている。
- 既存のシステムは皮膚鏡画像に依存し，臨床で得られる多角的な情報を十分に活用できていない。
- 臨床現場で得られる多角的な情報を統合し，より信頼性の高い分類を実現すること。
- 提案手法JI-ADFは，皮膚鏡画像，臨床写真，患者データという3つのモダリティを統合し，高い分類性能を示した。
- 特に，感受性，Dice係数において改善が見られ，良好な校正性能も維持している。
- モダリティの寄与度をサンプルごとに動的に調整する適応的決定融合機構が，その性能向上に貢献している。
Link: https://arxiv.org/abs/2604.27343
深層残差ネットワークと多分岐特徴融合による歩行者識別 [cs.CV]目的：歩行者識別における高精度なフレームワーク
- 監視・セキュリティ用途で有用な生体認証技術であり，非侵襲性や変装への耐性がある。
- 視点変化，服装の変化，持ち物など，歩行時の状況変化に対するロバスト性が課題である。
- 深層学習と多分岐特徴融合により，状況変化に強い歩行者識別を目指す。
- 高解像度ネットワークを用いて，低解像度入力でも詳細な空間情報を保持する堅牢な骨格キーポイント推定を実現した。
- 体格比，歩行速度，骨格運動という３つの補完的な特徴分岐を構築し，深層特徴抽出モジュールで表現を獲得した。
- チャネルごとの注意メカニズムに着想を得た多分岐特徴融合モジュールにより，分岐間の貢献度を動的に調整した。
Link: https://arxiv.org/abs/2604.27353
解剖学的ガイド付きトポロジー認識損失：大規模多施設データを用いたウィリス動脈輪の多クラスセグメンテーション [cs.LG, cs.CV]目的：ウィリス動脈輪の多クラスセグメンテーションの精度向上
- 神経血管疾患の管理において，ウィリス動脈輪の正確なセグメンテーションは不可欠である。
- 既存手法では，複雑な血管トポロジーや可変な形態により，血管の不連続性やクラス間誤分類が生じやすい。
- 本研究は，高精度かつ効率的なセグメンテーションを実現し，臨床応用を目指す。
- 提案手法AG-TALは，5分割交差検証において，全ウィリス動脈輪動脈で平均Dice係数80.85%を達成した。
- 特に，小動脈において，最先端手法と比較して1.05～3.09%高いDice係数を実現した。
- AG-TALは，6つの独立データセットで74.46%～81.17%のDice係数を実現し，小動脈の精度を2.20%～9.98%向上させた。
Link: https://arxiv.org/abs/2604.27357
CasLayout：暗黙の関係性モデリングによる屋内シーン合成のためのカスケード3Dレイアウト拡散 [cs.CV, cs.GR]目的：屋内シーンの3Dレイアウト合成
- 仮想空間の需要拡大に伴い，現実的な屋内シーンの自動生成技術が重要となっている。
- 既存手法では，構造的な境界の無視や，冗長なエラーを引き起こす密な関係グラフが課題である。
- 人間の設計認知に着想を得て，より効率的かつ制御可能なレイアウト生成を目指す。
- 提案手法CasLayoutは，タスクを4つの段階に分解することで，データ要件を軽減し，LLM/VLMとの統合を可能にする。
- 物理的な制約を考慮し，疎な関係グラフを用いることで，機能的な組織を尊重したレイアウト生成を実現した。
- 実験の結果，CasLayoutは，既存手法を上回る忠実度と多様性，そして制御性を示すことが確認された。
Link: https://arxiv.org/abs/2604.27361
効率的なグローバルスペクトルスーパートークンクラスタリングによるハイパースペクトル画像分類 [cs.CV]目的：ハイパースペクトル画像分類のための手法
- ハイパースペクトル画像は，地表の物質を詳細に分析でき，精密農業や環境モニタリング等に不可欠である。
- 従来のスーパーピクセル法は，領域の一貫性を損なうピクセル単位での分類に依存しており，境界の正確な識別が課題である。
- スペクトルと空間的な近さを考慮したスーパートークンクラスタリングにより，境界を保持した高精度な分類を実現する。
- 提案手法DSCCは，WHU-OHSデータセットにおいて，CF1スコア0.728，処理速度197.75 FPSを達成した。
- DSCCは，既存の最先端手法と比較して，精度と効率性の両面で優れた結果を示している。
- マルチ基準特徴距離と局所性に基づいた割り当て正則化により，境界を保持したスペクトルスーパートークンを生成する。
Link: https://arxiv.org/abs/2604.27364
判断してから運転：自律運転のための批評家中心の視覚言語行動フレームワーク [cs.SI, cs.CV]目的：自律運転のための視覚言語行動フレームワークの構築
- 自動運転技術は，交通の安全性向上や移動の効率化に不可欠である。
- 既存の視覚言語行動モデルは，複雑な状況下での判断と行動の改善が課題である。
- 視覚言語モデルの批評能力を活用し，運転判断の質を高めることを目指す。
- 本研究では，まず粗い軌跡を生成し，次に視覚言語行動モデルに基づいた批評家によって評価・最適化する二段階フレームワークを提案した。
- 大規模な合成データセットを構築し，批評家の推論と改善能力を強化した。
- Bench2Driveベンチマークにおいて，最先端のベースラインを大きく上回り，総合成功率は73.33%を達成し，困難なシナリオで約30%の改善を示した。
Link: https://arxiv.org/abs/2604.27366
DOT-Sim：高精度な実世界-シミュレーション物理キャリブレーションによる微分可能な光学触覚シミュレーション [cs.RO, cs.CV, cs.GR]目的：光学触覚センサの物理的に正確なシミュレーション
- ロボットの触覚センサは，繊細な操作や環境認識に不可欠であり，その性能向上は重要である。
- 既存の触覚シミュレーションは，センサの変形や光学特性の複雑さを捉えきれていない。
- 本研究は，より現実的な光学触覚センサのシミュレーションを可能にし，実世界への応用を目指す。
- DOT-Simは，Material Point Methodを用いて柔らかいセンサの物理的挙動を正確にモデル化する。
- 実世界のセンサデータとシミュレーションを短時間でキャリブレーションでき，大きな変形にも対応可能である。
- シミュレーションで訓練した分類器を実世界で直接利用し，高い分類精度（85%および90%）を達成した。
Link: https://arxiv.org/abs/2604.27367
VeraRetouch：マルチタスク推論による写真レタッチのための軽量な完全微分可能フレームワーク [cs.CV]目的：マルチタスク写真レタッチのための軽量で完全微分可能なフレームワーク
- 写真レタッチ技術は，画像品質の向上に不可欠であり，多様な応用分野で需要が高まっている。
- 既存手法は非微分可能な外部ソフトウェアに依存し，最適化の妨げや汎化性能の低下を招いている。
- 本研究は，微分可能なフレームワークを構築し，データ不足を克服することで，これらの課題を解決することを目指す。
- VeraRetouchは，軽量なVision-Language Model（VLM）を中核とし，指示とシーンの意味に基づいてレタッチ計画を立案する。
- 完全に微分可能なRetouch Rendererを開発し，外部ツールに代わることで，エンドツーエンドのピクセルレベルでの学習を実現する。
- 大規模なレタッチデータセットAetherRetouch-1M+と，美観認識を強化するDAPO-AEを提案し，最先端の性能を達成した。
Link: https://arxiv.org/abs/2604.27375
COHERENCE：交差するマルチモーダル文脈における詳細な画像とテキストの整合性の評価 [cs.CV, cs.AI]目的：交差するマルチモーダル文脈における，マルチモーダル大規模言語モデルの画像とテキストの細かな整合性回復能力の評価
- マルチモーダルな情報処理は，現実世界の多くのタスクにおいて不可欠であり，その性能向上が求められている。
- 既存のベンチマークは単一画像や複数画像に焦点を当てており，現実的な交差するマルチモーダル文脈の理解を評価できていない。
- 現在のマルチモーダル大規模言語モデルの弱点を明らかにし，交差する文脈における理解能力向上に貢献する。
- COHERENCEベンチマークは，４つの代表的なドメインからなる6,161個の高品質な質問で構成されている。
- このベンチマークを用いることで，モデルの画像とテキストの細かな対応関係の回復能力を定量的に評価できる。
- ６種類の誤り分析により，現在のモデルが交差する画像とテキストの理解において欠けている能力を特定した。
Link: https://arxiv.org/abs/2604.27389
自律走行におけるビジョン言語モデルの敵対的転移性の理解：クロスアーキテクチャ分析 [cs.CV, cs.CR, cs.LG]目的：自律走行用ビジョン言語モデルにおける敵対的転移性
- 自動運転技術の安全性向上は重要であり，特にAIの脆弱性評価は不可欠である。
- 敵対的攻撃に対するVLMsの堅牢性は十分に理解されておらず，実用上のリスクが存在する。
- 異なるVLMアーキテクチャ間での敵対的転移性を評価し，そのリスクを明らかにする。
- 異なるアーキテクチャ間での敵対的転移率が73〜91%と高く，高い効果が確認された。
- 最適化されていないパッチでも，重要な意思決定ウィンドウの64.7〜79.4%でフレームレベルの操作が持続した。
- 攻撃者が車両のモデルを特定していなくても，攻撃が有効であることが示唆された。
Link: https://arxiv.org/abs/2604.27414
野生環境における疎な視点からの3Dガウススプラッティング [cs.IR, cs.CL, cs.CV]目的：制約のない実世界環境における3D新規視点合成
- 3Dシーン再現は，ロボット工学，AR/VRなど幅広い分野で重要性を増している。
- 既存手法は，制約された画像や高密度な画像セットに依存しており，実世界環境への適用が困難である。
- 本研究は，少ない制約のない画像から高品質な3D再構成を実現し，実世界環境での応用を可能とする。
- 提案手法は，拡散モデルを用いた参照画像ガイドによる視点補正により，3D表現の質を向上させ，レンダリングアーティファクトを軽減する。
- ガウス分布の希薄な領域に対しては，疑似視点生成とスパースネスを考慮した複製戦略により，表現能力を強化する。
- 公開データセットを用いた実験により，既存手法を大幅に上回り，高精度な3Dレンダリング結果が得られることが示された。
Link: https://arxiv.org/abs/2604.27422
Softmax-GS：ブレンドと境界を学習する汎化ガウス [cs.CY, cs.CV]目的：3Dガウススプラッティングにおける重なり領域の競合をsoftmax関数で制御する手法
- 3Dシーンの新規視点合成において，効率性と高品質な表現が求められている。
- 既存の3Dガウススプラッティングは，ガウスの重なりが前提となっており，アーティファクトや視点不整合が発生しやすい。
- ガウス間の競合を学習することで，鮮明な境界と高品質な視点整合を実現する。
- Softmax-GSは，重なり領域において2つのガウス間でsoftmaxに基づく競合を強制することで，視点不整合とぼやけた境界の問題を同時に解決する。
- 学習可能なパラメータにより，滑らかな色のブレンドから鮮明な境界まで，連続的な表現を可能にする。
- 実験の結果，Softmax-GSは再構成品質とパラメータ効率の両方において最先端の性能を達成した。
Link: https://arxiv.org/abs/2604.27437
文脈を事前情報として：家庭猫を用いた非言語エージェントの意図推論 [cs.CV]目的：非言語エージェントの意図推論
- 現実世界では言語を使えないエージェントが多く，その意図を理解することは重要である。
- 行動観察だけでは意図を特定しにくく，文脈情報に過度に依存すると誤った推論につながる。
- 文脈を事前情報として活用し，行動観察と組み合わせることで，より正確な意図推論を目指す。
- 提案手法は，猫の行動データを用いた実験で，既存手法よりも高い精度（77.72%）を達成した。
- 特に，文脈情報に依存した誤った予測を大幅に減少させた。
- 文脈を事前情報として扱うことで，よりロバストな意図推論が可能となった。
Link: https://arxiv.org/abs/2604.27445
LA-Pose：潜在的行動事前学習と姿勢推定の融合 [cs.CV]目的：カメラ姿勢推定における自己教師あり事前学習の可能性
- ロボットや自動運転において，環境を正確に理解するための基盤技術である。
- 3Dアノテーションの作成コストが高く，大規模なデータセットの構築が困難である。
- 少ないアノテーションデータで高精度な姿勢推定を実現すること。
- LA-Poseは，潜在的行動表現をカメラ姿勢推定器への入力として再利用することで，高い性能を発揮する。
- WaymoとPandaSetのベンチマークにおいて，最新手法を凌駕する精度を達成した。
- 大規模なラベル付きデータに依存せずに，汎化性能の高い姿勢予測を可能にする。
Link: https://arxiv.org/abs/2604.27448
EdgeFM：Vision-Languageモデルのエッジ推論効率化 [cs.CV]目的：Vision-Languageモデルのエッジ環境における効率的な推論手法
- 産業用途での活用が進む一方，低遅延性やリソース制約への対応が課題となっている
- 既存フレームワークは汎用性が高いか，特定のハードウェアに依存しており，移植性が低い
- エージェントによる自動最適化により，クロスプラットフォームでの高性能な推論を実現する
- EdgeFMは，不要な機能を削減し，最適化されたカーネルを再利用可能なスキルとして提供する
- NVIDIA Orinプラットフォームでは，TensorRT-Edge-LLMと比較して最大1.49倍の高速化を実現した
- Horizon Journeyプラットフォームへの対応により，クロスプラットフォーム移植性の向上に貢献する
Link: https://arxiv.org/abs/2604.27476
Uni-HOI：テキストと人間-物体インタラクションの同時分布を学習する統一的フレームワーク [cs.CL, cs.CV]目的：テキスト，人間の動き，物体の動き間の同時分布の学習
- 仮想現実や複合現実アプリケーションを実現する上で不可欠な技術であり，重要性が高まっている。
- 既存研究は特定のタスクに特化しており，多様な条件入力に対応できる統一的なフレームワークが存在しない。
- テキスト，人間の動き，物体の動きを統合的にモデル化し，様々なHOI関連タスクの性能向上を目指す。
- Uni-HOIは，大規模言語モデルとベクトル量子化変分オートエンコーダを活用し，異種モーションデータをLLM入力に適合するトークン系列に変換する。
- 二段階の学習戦略により，大規模HOIデータセットで同時相関を学習し，特定のタスクで性能をさらに向上させる。
- テキスト駆動のHOI生成，物体駆動の人間の動き生成，人間の動き駆動の物体予測など，複数のHOI関連タスクで優れた性能を示す。
Link: https://arxiv.org/abs/2604.27491
オフロード運転のための終日知覚：大規模なマルチスペクトルデータセットと包括的なベンチマーク [cs.CY, cs.CV]目的：オフロード運転における終日知覚のための大規模な赤外データセットとベンチマーク
- オフロード運転の自動化には，夜間を含むあらゆる環境下での正確な状況認識が不可欠である。
- 赤外線を用いたオフロード環境の知覚は重要だが，注釈付きデータセットが不足しており，単一フレーム法の不整合が課題である。
- 本研究は，オフロード環境における終日知覚を可能にするためのデータセットとフレームワークを開発し，その課題を解決する。
- 大規模な赤外データセットIRONを構築し，多様な環境と光条件で24,314枚の注釈付き画像を提供した。
- フレームワークIRONetを提案し，記憶注意機構とマスクデコーダにより，フレーム間の不整合を抑制した。
- IRONデータセットにおいて，IRONetはIoU 82.93%(+1.19%)，F1スコア90.66%(+0.71%)を達成し，RGBデータセットでも高い汎化性能を示した。
Link: https://arxiv.org/abs/2604.27499
REVIVE 3D：ボリュームエンコーディングによる形状洗練を通じたボリュームエンハンスメント [cs.HC, eess.SP, cs.CV]目的：平面画像からのボリューム感のある3Dアセット生成
- 3Dアセット生成は，コンピュータビジョンとグラフィックスにおける重要な研究テーマである。
- 入力画像が3Dの情報に乏しい場合，ボリューム感のある3Dアセット生成が困難である。
- 平面画像からボリューム感のある3Dアセットを生成するための新たなパイプラインを提案し，その有効性を示す。
- 提案手法REVIVE 3Dは，シルエットの膨張と部分認識による詳細な構造の重ね合わせにより，グローバルなボリュームを回復する。
- 潜在空間へのノイズ注入とノイズ除去を通じて，事前知識を活用し，3D形状を洗練する。
- 実験により，提案手法が既存手法を上回り，ボリューム感と表面の平坦さの評価指標が人間の知覚と一致することが示された。
Link: https://arxiv.org/abs/2604.27504
検証者ベースの強化学習を用いた画像編集 [cs.CV]目的：画像編集のための推論検証型報酬モデルの構築と活用
- 画像生成におけるRLHFの重要性が高まる中，画像編集への応用は未開拓の分野である。
- 既存の画像編集報酬モデルは，詳細な検証を欠き，指示の要件を考慮しない偏った報酬を与えがちである。
- 指示を構成要素に分解し評価することで，解釈可能な高精度な報酬モデルを構築し，編集性能を向上させる。
- Edit-RRMは，既存の強力なVLM（Seed-1.5-VL, Seed-1.6-VL）を凌駕する画像編集特化型報酬モデルとして機能する。
- モデルのパラメータ数を増やすにつれて，Edit-RRMの性能は一貫して向上する傾向が見られた。
- Edit-R1は，FLUX.1-kontextなどの編集モデルの性能向上に貢献し，その有効性が示された。
Link: https://arxiv.org/abs/2604.27505
FMCL：基礎モデル表現を用いたクラス認識型クライアントクラスタリングによる異種連合学習 [cs.HC, cs.RO, eess.SY, cs.SY, cs.LG, cs.CV]目的：異種連合学習におけるクライアントのクラス認識型クラスタリング手法
- 連合学習はデータ共有なしにモデルを学習できるが，データの統計的異質性が課題。
- 既存のクラスタリング手法は，クラスレベルのセマンティック構造を捉えきれない場合がある。
- 基礎モデル表現を用いて，効率的かつ安定したクライアントクラスタリングを実現する。
- FMCLは，事前学習済みの基礎モデルを用いてクライアントのクラスレベル埋め込みプロトタイプを計算する。
- クライアント間の類似性は，そのクラス認識型表現間のコサイン距離によって測定される。
- 実験結果から，FMCLは既存手法よりも連合学習の性能を向上させ，安定したクラスタリング動作を示すことが確認された。
Link: https://arxiv.org/abs/2604.27510
随伴逆変換によるCNN分類器におけるホログラフィックな重ね合わせと破壊干渉の解明 [cs.HC, cs.HC, math.OC, cs.CV]目的：CNN分類器の動作原理の解明
- 深層学習モデルの解釈性は，モデルの信頼性と応用範囲を広げる上で不可欠である。
- 既存の可視化ツールは空間的な幻覚を引き起こし，エンコーダの動作を正確に理解するのを妨げていた。
- 空間的な幻覚のない逆変換フレームワークを開発し，CNNの内部表現を詳細に分析することを目指す。
- 新たな逆変換フレームワークにより，CNNエンコーダにおける強い重ね合わせの存在が初めてピクセルレベルで証明された。
- 分類は，背景方向を相殺し，クラス識別的な残差を構築する破壊干渉によって行われることが示された。
- 干渉サブ空間の体積がチャネル選択を支配する幾何学的量であることが数学的に証明され，外挿データに対する性能低下のメカニズムが明らかになった。
Link: https://arxiv.org/abs/2604.27529
植物画像表現の自己教師あり学習 [cs.CV]目的：植物画像表現の学習
- 生物多様性のモニタリングや保全において，植物の自動認識は不可欠な役割を担う。
- 従来の植物認識は教師あり学習に依存しており，専門家によるラベル付きデータの不足が課題である。
- 植物種認識のような微細な識別を必要とする分野に適した自己教師あり学習手法を確立する。
- 既存の自己教師あり学習における一般的なデータ拡張（ガウシアンぼかし等）は，植物画像においては識別上の重要な手がかりを失わせるため，逆効果であることが示された。
- アフィン変換やポスタリゼーションなどの代替的な変換が，植物画像ドメインに適していることが明らかになった。
- iNaturalist 2021 Plantaeデータセットを用いたSimDINOv2の学習は，ImageNet-1Kでの学習よりも優れた表現を獲得し，ドメイン特化型データの重要性が強調された。
Link: https://arxiv.org/abs/2604.27538
超疎な視点からのCBCT再構成のための残差ガウススプラッティング [cs.CV]目的：超疎な視点からの円錐ビームCT再構成における画像品質向上
- CBCTは医療画像診断において不可欠であり，低被ばく再構成技術の確立が求められている。
- 超疎な視点からのCBCT再構成では，スペクトルバイアスにより画像が平滑化され，細部が失われやすい。
- 本研究は，ウェーブレット変換とガウススプラッティングを組み合わせ，高周波情報を活用することで，この問題を解決することを目指す。
- 残差ガウススプラッティング（RGS）は，幾何学的ベース成分と残差詳細成分にボリューメトリックフィールドを分離する。
- RGSは，スペクトルと空間の協調的最適化戦略により，スペクトルクロストークを効果的に防止し，より詳細な幾何学的テクスチャを捉える。
- 臨床データセット実験の結果，RGSはアーチファクト抑制と詳細保持のトレードオフを解消し，既存のニューラルレンダリングと比較して，より優れた視覚的忠実度を実現した。
Link: https://arxiv.org/abs/2604.27552
大規模視覚言語モデルによる属性ベース記述に対する視覚的テキストスタイルの影響 [cs.CV]目的：大規模視覚言語モデルによる属性ベース記述への視覚的テキストスタイルの影響評価
- 画像とテキストを組み合わせた理解は，人間にとって自然であり，多様な応用が期待される。
- 視覚言語モデルはテキストのスタイルが意味に影響を与えないと仮定している場合が多い。
- テキストスタイルがモデルの属性ベース記述に与える影響を明らかにすること。
- 視覚的テキストスタイルが，概念の正確な識別とは無関係に，属性ベース記述に影響を与えることが示された。
- 機能的なスタイルと装飾的なスタイルが，異なる影響を及ぼすことが明らかになった。
- この結果は，視覚言語モデルにおけるスタイル漏洩への対策の必要性を示唆する。
Link: https://arxiv.org/abs/2604.27553
RIHA：放射線科レポート生成のためのレポート画像階層的アライメント [cs.RO, cs.CV, cs.AI]目的：放射線科レポートと画像間の階層的なアライメント
- 放射線科医の負担軽減とヒューマンエラーの削減が求められているため，自動レポート生成技術が重要である。
- 既存手法では，レポートの構造化されたセクションや意味階層が考慮されず，正確なクロスモーダルアライメントが困難である。
- レポートと画像の多段階アライメントを実現し，臨床記述のニュアンスを捉えた高精度なレポート生成を目指す。
- 提案手法RIHAは，段落，文，単語レベルでの階層的アライメントにより，クロスモーダルマッピングの精度を向上させる。
- 視覚特徴ピラミッド(VFP)とテキスト特徴ピラミッド(TFP)を導入し，最適輸送を用いて多段階アライメントを実現した。
- IU-XrayとMIMIC-CXRの二つのデータセットで，既存の最先端モデルを凌駕する性能が確認された。
Link: https://arxiv.org/abs/2604.27559
SandSim：曲線誘導ガウススプラッティングによる砂絵制作過程の再構成 [cs.GR]目的：砂絵制作過程の再構成
- 砂絵は粒状物質の蓄積から生まれる芸術であり，その表現の理解は重要である。
- 既存手法は構造の一貫性や材質の整合性に欠け，非現実的な制作過程となりやすい。
- 単一画像から現実的な砂絵制作過程を再構成することを目的とする。
- 提案手法SandSimは，曲線誘導ガウス表現を用いて一貫性のあるストローク構造をモデル化する。
- 減算合成スキームにより砂の蓄積に伴う光の減衰を再現し，リアリティを高める。
- 実験の結果，既存手法と比較して，時間的に一貫性があり，視覚的にリアルな結果が得られた。
Link: https://arxiv.org/abs/2604.27572
World2Minecraft: 居住状況に基づいたシミュレーションシーンの構築 [cs.IR, cs.CV]目的：現実世界のシーンを構造化されたMinecraft環境へ変換する手法
- 具現化された知能研究において，高精度なシミュレーション環境は不可欠である。
- 既存プラットフォームは，データ汚染や柔軟性の低さといった課題を抱えている。
- 正確な居住状況予測に基づき，カスタマイズ可能なシミュレーション環境を構築すること。
- World2Minecraftは，3Dセマンティック居住状況予測に基づき，現実世界のシーンをMinecraft環境に変換する。
- MinecraftOccという大規模データセット（156シーン，100,165画像）を構築し，居住状況予測モデルの性能向上に貢献する。
- 本研究は，パーソナライズされた具現化AI研究のための，カスタマイズ可能かつ編集可能なプラットフォームの価値を示す。
Link: https://arxiv.org/abs/2604.27578
膵管腺癌血管浸潤の評価：PDACVIベンチマーク [cs.DL, cs.CV]目的：膵管腺癌血管浸潤の評価基準の確立
- 膵管腺癌の治療は外科切除が唯一の根治的手段であり，血管浸潤の正確な評価が治療方針を決定する上で不可欠である。
- 血管浸潤の評価は，腫瘍と血管の境界の曖昧さから，専門家間でも意見が分かれる場合が多く，客観的な評価が困難である。
- 公開データセットの不足を解消し，不確実性を考慮したAIによる血管浸潤評価のベンチマークを構築することで，より信頼性の高い評価を目指す。
- 公開データセット「CURVAS-PDACVI」と評価フレームワークを開発し，最新のAIモデル6つを評価した結果，空間的重複率と臨床的有用性の間には必ずしも相関関係がないことが示された。
- 二値セグメンテーションに最適化されたモデルは平均的な重複率では良好な結果を示すものの，専門家の意見が分かれる複雑なケースでは性能が低下する傾向がある。
- 専門家間の不一致を考慮したモデルは，より校正された確率マップを生成し，曖昧なケースにおいてより高い堅牢性を示すことが明らかになった。
Link: https://arxiv.org/abs/2604.27582