arXiv雑要約

画像・音声 - 2026/05/29 公開

アクティブRGB-NIRイメージングを用いた環境光に頑健な逆投影 [cs.CV, cs.GR]目的：環境光に対する頑健性を有する逆投影手法
- 画像から物体の形状と反射特性を復元する技術は，コンピュータビジョンの重要な課題である。
- 従来の逆投影手法は，環境光の影響を受けやすく，復元精度が低下する問題がある。
- 環境光の影響を受けにくい，高精度な形状・反射特性の復元を目指す。
- アクティブRGB-NIRイメージングを用いることで，環境光に左右されにくい安定した点光源シェーディングを取得できる。
- RGB画像とNIR画像を組み合わせることで，それぞれの利点を活かした3段階の逆投影手法を開発した。
- 提案手法は，様々な環境光条件下で，従来の技術よりも正確な形状と反射特性の推定が可能となった。
Link: https://arxiv.org/abs/2605.30250
VideoFDB：対話型エージェントにおける双方向視覚・音声能力の評価 [cs.CV, cs.CL, cs.HC]目的：対話型エージェントの双方向視覚・音声能力の評価基準
- 自然な人間同士の会話は，音声と視覚情報が同時に行われる。エージェントにも同様の能力が求められる。
- 既存の双方向ベンチマークは音声のみに焦点を当てており，視覚情報の評価が不十分である。
- 双方向の視覚・音声情報を包括的に評価することで，より自然な対話型エージェント開発を促進する。
- VideoFDBは，11種類の非言語的対話動態を含む237件の双方向ビデオクリップから構成される。
- 現在のシステムは，視覚的な質問応答には優れるが，自然な会話に必要な同時的な視覚・音声情報の接地には課題があることが示された。
- 音声からアバターへの変換システムは，双方向の非言語的合図の生成を本質的に妨げることが判明した。
Link: https://arxiv.org/abs/2605.30256
Stable-Layers：VLMスコアに基づく強化学習による画像層分解モデルの微調整 [cs.CV]目的：画像層分解モデルの微調整
- 画像認識の解釈可能性向上は，AIの信頼性向上に不可欠である。
- 既存の層分解モデルは，ペアデータによる教師あり学習に依存している。
- VLMからのフィードバックのみで，層分解モデルを微調整する手法を開発する。
- Stable-Layersは，VLMからの報酬を用いて，層分解モデルを強化学習により微調整する。
- 二段階評価パイプラインにより，VLMの評価精度を向上させ，より安定した学習を実現した。
- Crelloデータセットにおいて，より明確な層分離と低い再構成誤差が確認された。
Link: https://arxiv.org/abs/2605.30257
LoRAはどのように記憶するか？ LLMファインチューニングのためのパラメータ記憶法則 [cs.MA, cs.CL, cs.AI, cs.CV, cs.LG]目的：LLMのファインチューニングにおけるパラメータ記憶容量とそのダイナミクス
- LLMは実世界環境に適応するため，継続的な学習と知識更新が不可欠である。
- LoRAを用いた記憶更新の研究は，定量的評価が不足しており，記憶容量の限界が不明である。
- LoRAのパラメータ記憶メカニズムを定量的に解明し，効率的な記憶更新手法を開発すること。
- パラメータ記憶法則は，損失減少量と有効パラメータ数，シーケンス長の間に存在するべき乗則の関係を明らかにした。
- 予測確率が0.5を超える場合，貪欲探索下での逐語的想起の十分条件となることが分かった。
- MemFTは，閾値に基づいて学習予算を再配分することで，記憶の忠実性と効率性を向上させる。
Link: https://arxiv.org/abs/2605.30260
minWM：リアルタイムインタラクティブなビデオワールドモデルのためのフルスタックオープンソースフレームワーク [cs.CV]目的：リアルタイムインタラクティブなビデオワールドモデル構築のためのフレームワーク
- 近年のビデオ生成モデルの進歩は目覚ましいが，リアルタイムインタラクティブ性実現が課題である。
- 低遅延で制御可能かつ因果的なビデオ展開を実現するための，包括的なパイプライン構築が難しい。
- 既存のビデオ拡散モデルを，リアルタイム動作可能なカメラ制御型ワールドモデルへと変換すること。
- minWMは，双方向のT2V/TI2Vビデオ基盤モデルをカメラ制御可能な少ステップ自己回帰型ワールドモデルへと変換する，エンドツーエンドのパイプラインを提供する。
- カメラ制御付きの微調整，因果的強制パイプライン，および非対称DMDを利用することで，低遅延な展開を実現する。
- Wan2.1やHY1.5などのオープンソースバックボーンで動作検証され，既存のワールドモデルへの適用も可能である。
Link: https://arxiv.org/abs/2605.30263
LoMo：より深い視覚言語融合のための局所的モダリティ置換 [cs.CV, cs.CL]目的：視覚言語モデルにおけるモダリティ置換による性能劣化問題の解決
- 視覚言語モデルは，様々な理解と推論タスクにおいて目覚ましい進歩を遂げているため，その重要性が増している。
- 既存の学習データにはテキストと画像に偏りがあり，モダリティ間の表現の整合性が取れていないという課題がある。
- 意味的に等価なテキストと画像の情報を，どのモダリティで伝達しても性能が変わらないようにすることを目指す。
- 提案手法LoMoは，テキストの一部を画像に置き換えることで，モダリティ間の表現不変性を学習させるデータキュレーション手法である。
- LoMoは，13の多様なマルチモーダルベンチマークにおいて，マルチモーダル推論を大幅に改善し，より深いクロスモーダル融合を実現した。
- LLaVA-OneVision-1.5-8Bで2.67点，Qwen3.5-9Bで2.82点，標準的なSFTを上回る性能向上を達成した。
Link: https://arxiv.org/abs/2605.30265
PhyGenHOI：物理制約を考慮した動的な人間と物体のインタラクションの4D生成 [cs.CV, cs.AI]目的：人間と物体のインタラクションの4D生成
- 人間と物体のインタラクションは，ロボット工学やバーチャルリアリティなど，様々な分野で重要である。
- 既存手法では，物理的に現実的なインタラクションの生成が困難であった。
- 物理シミュレーションと生成モデルを組み合わせ，現実的なインタラクションを実現する。
- 提案手法PhyGenHOIは，3Dガウススプラットを用いて人間と物体を表現し，物理シミュレーションとモーション拡散モデルを結合することで，物理的に整合性のある4D HOIを生成する。
- Windowed Attraction Loss，Contact-Driven Re-simulation，Masked Video-SDS objectiveという3つのメカニズムを導入し，時間的同期，運動量伝達，接触の忠実性を向上させている。
- 多様なアクション，人間，物体に対して実験を行い，ベースライン手法を上回る性能を実証した。
Link: https://arxiv.org/abs/2605.30268
画像品質評価性能の向上：深層最大事後確率推定による教師なしスコア融合 [cs.CV, eess.IV]目的：画像品質評価モデルのスコア融合による性能向上
- 画像処理技術の発展に伴い，高品質な画像評価の重要性が増している。
- 個々の画像品質評価モデルは，特定の画像コンテンツや歪みに偏りがちである。
- 複数のモデルの強みを統合し，弱点を補完することで，よりロバストな評価を目指す。
- 本研究では，深層最大事後確率推定を用いた教師なしスコア融合フレームワークを提案した。
- 提案手法は，スコアレベルでの詳細な不確実性推定を行い，融合予測の精度向上と不確実性低減を実現した。
- 実験結果から，提案手法が既存モデルや他の融合手法と比較して優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2605.30269
RAFI -- データ並列マルチノード/マルチGPU計算のためのレイ/ワーク転送インフラストラクチャ [cs.DC, cs.GR]目的：データ並列マルチノード/マルチGPU計算におけるGPU間でのレイまたは類似のワークアイテムの移行を簡素化するソフトウェアフレームワーク
- GPUの並列計算能力を最大限に引き出すには，複数のGPUを効率的に活用する必要がある。
- GPU間でワークアイテムを移行する処理は複雑であり，開発のボトルネックとなりやすい。
- GPU間でのワークアイテムの移行を容易にし，データ並列計算の効率を向上させる。
- RaFIはCUDAとMPIを基盤とし，GPU間でのワークアイテムの転送を簡素化するインターフェースを提供する。
- これにより，開発者はCUDAおよびMPIに関する複雑な処理を意識することなく，GPUを活用したデータ並列ソフトウェアを構築できる。
- RaFIの有効性は，いくつかのアプリケーション例を通して示されている。
Link: https://arxiv.org/abs/2605.30294
3次元認識を考慮した空間視覚言語モデル [cs.CY, cs.DM, cs.CV]目的：空間視覚言語モデルにおける3次元認識能力の向上
- 視覚情報と言語を統合する技術は，ロボティクスや拡張現実など，様々な応用分野において重要である。
- 既存の視覚言語モデルは，空間的な推論や3次元の理解において課題を抱えている。
- 本研究は，2次元および3次元の情報を活用することで，空間認識能力を向上させることを目指す。
- GR3Dは，2次元と3次元の両方の情報を活用する3つの異なる空間的根拠付け機能を統合したモデルである。
- モデルは，生成時にエンティティ言及を特定し，対応する領域トークンをテキストストリームに挿入することで，視覚的証拠を即座に参照できる。
- 実験結果から，根拠付けが視覚言語モデルにおける空間的理解を強化する有効な誘導バイアスであることが示された。
Link: https://arxiv.org/abs/2605.30307
City-Mesh3R：マルチビュー画像からの都市規模3Dメッシュ再構築 [cs.DB, cs.CV, cs.AI, cs.GR]目的：都市規模の3Dメッシュ再構築手法
- 都市シミュレーションの精度向上には，現実世界の都市構造を忠実に再現した3Dモデルが不可欠である。
- 既存手法では，大規模な都市シーンの複雑さから，シミュレーションに適した高品質な3Dメッシュの生成が困難である。
- 本研究は，大規模で複雑な都市シーンに対応可能な，効率的かつ高精度な3Dメッシュ再構築を可能とする。
- 提案手法City-Mesh3Rは，画像分割・並列処理により，大規模都市の3Dメッシュ再構築を効率的に実現する。
- トポロジーに基づく画像クラスタリングと局所的なSfM処理により，画像特徴点マッチングの負荷を軽減し，スケーラビリティを向上させている。
- 実験結果から，City-Mesh3Rは，高精度かつ滑らかな都市規模の3Dメッシュを生成し，シミュレーションへの応用に適していることが示された。
Link: https://arxiv.org/abs/2605.30310
Archon：包括的なデジタルヒューマン生成のための統一マルチモーダルモデル [cs.CV, cs.AI]目的：包括的なデジタルヒューマン生成のための統一マルチモーダルモデルの構築
- 没入型インタラクションにおいて，デジタルヒューマンは不可欠であり，その重要性は増している。
- テキスト，音声，動き，視覚コンテンツを含む，全ての様相を統合したモデルの構築は困難である。
- マルチモーダルモデルの学習と，高精細な動画生成におけるトークン爆発問題を解決することを目指す。
- Archonは，7つの様相を統合し，多様なタスクで事前学習することで，ホリスティックなデジタルヒューマン生成を実現した。
- トークン削減技術とセマンティック駆動型ビデオ拡散デコーダにより，高精細な動画生成の効率を向上させた。
- 「様相での思考」という手法により，曖昧なタスクを段階的に処理することで，忠実性と制御性を高めた。
Link: https://arxiv.org/abs/2605.30311
視覚的プレフィックスガイダンス：自己回帰型画像・動画生成 [cs.CV]目的：自己回帰型画像・動画生成における生成品質の向上
- 画像や動画生成技術は，コンテンツ制作やデータ拡張など幅広い応用が期待されている。
- 自己回帰モデルは，生成時に過去の出力に依存するため，エラーが累積しやすく，品質が低下しやすい。
- 生成されたプレフィックス自体を強化することで，生成時のずれを抑制し，品質を向上させる。
- VPGは，学習不要な推論時のガイダンス手法であり，既存のモデルを再学習することなく適用可能である。
- VAR，Infinity，InfinityStarを用いた実験により，VPGがFIDスコアを改善し，生成品質を向上させることが確認された。
- 生成されたプレフィックスの事後確率を高めることで，より安定した高品質な画像・動画生成を実現する。
Link: https://arxiv.org/abs/2605.30317
シャッターを切る前に：3Dシーンにおける美的かつ実行可能なポートレート写真計画 [cs.GR, cs.AI, cs.CV]目的：3Dシーンにおける人的ポーズ，カメラ設定，照明計画の生成
- ポートレート写真は，被写体と背景の調和が重要であり，計算機による支援が求められている。
- 既存手法は2D画像処理が中心で，撮影前の計画は未開拓の分野である。
- 3Dシーンにおける美的で実行可能なポートレート写真計画を自動化することを目指す。
- 提案手法は，シーンの特性，被写体との関係性，照明構造を表現する「写真シーングラフ」を構築する。
- 美的ガイドに基づき，過去の試みや現在の視点からの観察と比較検討を行うことで，最適な計画を導出する。
- 実験の結果，提案手法は人間や大規模言語モデルの評価において，既存手法よりも好ましいポートレートを生成することを示した。
Link: https://arxiv.org/abs/2605.30318
単眼ビデオからの形状，外観，物理パラメータ推定：MonoPhysics [cs.CV]目的：単眼ビデオからの形状，外観，物理パラメータの推定
- 物理シミュレーションの精度向上は，現実世界の現象を理解し，再現する上で重要である。
- 単眼ビデオでは，多眼ビデオのような幾何学的制約が得られず，スケールや形状の推定が困難である。
- 単眼ビデオから，正確な形状，外観，物理パラメータを同時に推定することを目指す。
- 提案手法MonoPhysicsは，微分可能なMPMシミュレーションと3D Gaussian Splattingを組み合わせることで，単眼ビデオからのパラメータ推定を可能にした。
- グローバルスケール調整，物理ベースの形状補正，微分可能な位置マップという3つの視覚-物理ブリッジによって，推定精度が向上した。
- Vid2Simデータセットおよび新規データセットでの実験により，MonoPhysicsが単眼設定で既存手法を凌駕し，多眼ベースラインと同等の性能を達成することが示された。
Link: https://arxiv.org/abs/2605.30320
Veda：蒸留された疎な注意によるスケーラブルな動画拡散 [cs.CV]目的：高解像度で長時間の動画生成のためのスケーラビリティ向上
- 動画生成における拡散モデルの重要性が高まる中，計算資源の制約が課題となっている。
- 自己注意機構の計算コストが大きく，既存の疎な注意法ではスパース性が高まると性能が低下する。
- 完全注意のタイル状構造に合わせた疎な注意マスクを生成し，効率的な動画拡散を実現する。
- Vedaは，完全注意からの明示的な再構成問題としてタイル選択を定式化することで，高いスパース性を実現した。
- WaverやWan2.1を用いた実験で，生成品質を損なうことなく大幅な高速化を実証した。
- Waver-T2V-12Bで720P 10秒の動画生成時に，エンドツーエンドで5.1倍，自己注意機構で10.5倍の高速化を達成した。
Link: https://arxiv.org/abs/2605.30325
深度推定による熱ガウススプラッティングの性能向上 [cs.CV]目的：熱画像と深度推定に基づく3Dシーンの表現手法
- 自動運転やロボット工学において，高精度な3Dシーン表現は不可欠である。
- マルチモーダルデータの統合は処理速度の低下や複雑性を招く場合がある。
- 可視光に依存しない熱画像を用いた高速な3D表現の実現を目指す。
- 提案手法TDgは，RGBT-ScenesおよびThermalMixデータセットにおいて，ベースラインMSMGを上回る性能を示した。
- TDgは，LPIPS，SSIM，PSNRといったレンダリング品質指標において，それぞれ平均1.12%，0.034%，0.01%改善された。
- また，学習時間を大幅に短縮し，55%の改善（12分47秒削減）を実現した。
Link: https://arxiv.org/abs/2605.30328
カラーノイズ拡散サンプリング [cs.CV]目的：拡散モデルにおける効率的なエネルギー配分による画像生成の改善
- 拡散モデルは最先端の画像合成技術であり，その応用範囲は広大である。
- 従来のサンプリング手法は，周波数特性の変化を考慮せず，エネルギー配分が非効率である。
- 本研究は，周波数分解能に基づいた動的なノイズ注入スケジュールを提案し，生成品質を向上させる。
- 提案手法であるCNSは，標準的なODEやSDEサンプラーと比較して，ImageNet-256においてFIDスコアを大幅に改善した。
- SiT-XL/2では8.26から6.27へ，JiT-B/16では32.39から26.69へ，JiT-H/16では11.88から8.31へとFIDが低減した。
- Classifier-Free Guidanceを用いた場合でも，一貫したFID改善効果が確認された。
Link: https://arxiv.org/abs/2605.30332
単一画像からの物理的に安定な3Dシーン再構築: REST3D [cs.CV]目的：単一画像からの物理的に安定な3Dシーンの再構築
- 没入型インタラクションやコンテンツ作成など，多様な応用を可能にする技術分野である。
- 既存手法では，物理構造の把握が不十分で，浮遊や浸透といった物理的に矛盾した結果が生じやすい。
- 入力画像に忠実で，かつ物理的に安定した3Dシーンを再構築することを目指す。
- REST3Dは，物理的シーンの理解と物理制約に基づく改良を統合することで，物理的に安定な3Dシーンを再構築する。
- 重力と支持の関係に着目したシーンツリー表現を用いて構造的事前知識を取り入れ，再構築の初期化とガイドを行う。
- 実験の結果，合成データと実世界データの両方で物理的エラーを大幅に削減し，シミュレーションの安定性を向上させた。
Link: https://arxiv.org/abs/2605.30338
単一要素物理現象に基づく動画からの音声生成ベンチマーク [cs.CV, cs.MM, cs.SD, eess.AS]目的：動画から音声を生成するモデルの物理的推論能力の評価
- 動画と音声の生成モデルは発展途上であり，現実世界の物理現象を理解した生成が求められている。
- 既存の評価指標は知覚的なリアリズムに偏っており，物理的な正確性の検証が不十分である。
- 動画の単一要素を変化させた際の音声の変化を検証し，モデルの物理的推論能力を評価する。
- 最先端モデルは，物理と意味を推論する際に，視覚情報よりもテキストキャプションに依存する傾向が見られた。
- キャプションは物理的・意味的な正確性を向上させる一方で，時間的な整合性を損なうという逆説的な結果が得られた。
- 提案する物理ベースの評価指標は，独自のデータに対する人間による好みのテストと強い相関関係があることが示された。
Link: https://arxiv.org/abs/2605.30339
GPIC：視覚生成のための巨大な許容画像コーパス [cs.CV, cs.AI]目的：視覚生成モデリングのための大規模データセット
- 視覚生成モデルの発展には，大量の学習データが不可欠である。
- 既存のデータセットは，規模や利用規約に制約がある場合が多い。
- 研究・商用利用が可能な大規模な画像コーパスの提供を目的とする。
- GPICは，約28兆ピクセルの多様なインターネット画像から構成される。
- 画像には最先端の画像-言語モデルによるキャプションが付与されている。
- データセット，ベンチマーク，モデルはHugging Faceで公開されている。
Link: https://arxiv.org/abs/2605.30341
異方性視界場を用いた不確実性駆動3Dガウススプラッティングアクティブマッピング [cs.CV, cs.RO]目的：3Dガウススプラッティングにおける不確実性定量とアクティブマッピング
- 3Dシーン再構成は，ロボット工学や拡張現実など，様々な分野で重要な役割を担っている。
- 従来の3DGSは，学習データから見えない領域の予測において信頼性が低いという課題があった。
- 学習データからの視認性に基づき，不確実性を定量化し，効率的なアクティブマッピングを実現すること。
- 本研究では，異方性視界場（GAVIS）と名付けた新しいフレームワークを提案し，3DGSにおける不確実性の定量化とアクティブマッピングを可能にした。
- GAVISは，学習データからの視認性を考慮することで，予測の信頼性を向上させ，リアルタイム（200 FPS）での不確実性定量を実現した。
- 実験結果は，GAVISが既存手法と比較して，精度と効率の両面で優れた性能を発揮することを示している。
Link: https://arxiv.org/abs/2605.30342
YoCausal：ビデオ生成は世界モデルからどれだけ進んでいるか？因果性の視点から [cs.CV]目的：ビデオ生成モデルにおける因果性理解の度合い評価
- ビデオ生成モデルは急速に進化し，現実世界を理解する世界モデルへの応用が期待されている。
- 既存の評価指標は合成データに依存しており，現実世界への汎化性能を測るには不十分である。
- 現実世界のビデオを反転させることで，因果関係の理解度を評価する新たなベンチマークを提案する。
- 提案手法YoCausalは，認知科学の「期待違反」パラダイムに基づき，安価に反実仮想的なサンプルを生成する。
- 実験の結果，時間的なパターン認識と因果性の理解は必ずしも一致せず，高性能なモデルでも因果認知能力に差があることが示された。
- 時間軸の方向性の認識能力と因果的認知能力の間には乖離があり，さらなる研究が必要であることが明らかになった。
Link: https://arxiv.org/abs/2605.30346
NeuROK：生成4次元ニューラルオブジェクト運動論 [cs.CV, cs.GR]目的：オブジェクト中心の物理システムに対するデータ駆動型運動学的状態パラメータ化
- 3Dビジョンの発展は目覚ましく，静的な3Dオブジェクトの再構成や生成が可能になった。
- 物理条件下の静的オブジェクトのリアルな4Dダイナミクス生成は困難であり，特定分野に限定される。
- 低次元潜在空間におけるダイナミクスのみを考慮することで，生成の簡略化を目指す。
- 提案手法NeuROKは，オブジェクトの状態を潜在空間で表現し，変形形状をデコードする。
- 大規模4Dデータセットを用いてTransformerベースのモデルを学習し，汎用性の高いシミュレーションを実現した。
- 多様な動的オブジェクトタイプにおいて，従来の技術と比較して明確な優位性を示す。
Link: https://arxiv.org/abs/2605.30347
AdaState：ストリーミングビデオ生成のための自己進化型アンカー [cs.CV]目的：ストリーミングビデオ生成における動きと自然なシーン進行の改善
- ビデオ生成技術は，現実世界の映像を再現する上で不可欠であり，その品質向上は重要な課題である。
- 既存の自己回帰型ビデオ拡散モデルは，最初のフレームに依存しやすく，ダイナミクスが抑制されるという問題がある。
- この研究は，静的なアンカーを自己進化型状態に置き換えることで，この問題を解決することを試みる。
- 自己進化型アンカーは，ビデオのダイナミクスを大幅に改善し，より豊かな動きと自然なシーン進行を可能にする。
- 生成ステップごとにシーンアンカーを生成することで，時間経過に伴うシーンの変化を捉えることができる。
- 生成プロセスに再帰性をもたらし，外部モジュールを必要としない効率的なビデオ生成を実現する。
Link: https://arxiv.org/abs/2605.30349
VideoMLA：分単位の自己回帰型動画拡散のための低ランク潜在KVキャッシュ [cs.CV, cs.AI]目的：動画拡散における低ランク潜在KVキャッシュの利用
- 動画生成は，高品質なコンテンツ作成に不可欠であり，その効率化が求められている。
- 従来のKVキャッシュはメモリ使用量が多く，長時間の動画生成におけるボトルネックとなっていた。
- 本研究は，低ランク潜在KVキャッシュを用いてメモリ効率を向上させ，長時間の動画生成を可能にすることを目的とする。
- 提案手法VideoMLAは，従来のKVキャッシュのメモリ使用量を92.7%削減し，効率的な動画拡散を実現した。
- 動画拡散において，言語モデルで想定されるスペクトル的仮定が成立しないにも関わらず，高い品質を維持できることを示した。
- VBenchにおける評価で，VideoMLAは既存手法を上回り，スループットを1.23倍に向上させた。
Link: https://arxiv.org/abs/2605.30351
GMOS：3D空間と時間における移動物体セグメンテーションの根拠付け [cs.CV]目的：移動物体セグメンテーションにおける3D空間と時間の根拠付け
- ロボット工学や自動運転において，周囲の状況を正確に理解するための基盤技術である。
- 既存手法は，3D幾何情報に乏しい2D補助情報に依存しており，高精度なセグメンテーションが困難である。
- 3D情報を活用し，瞬時の運動状態を考慮することで，より正確かつ効率的な移動物体セグメンテーションを実現する。
- GMOSはRGB動画から直接3D情報を考慮した移動物体セグメンテーションを実現し，既存手法を上回る性能を示した。
- 高速な展開を可能にするGMOS-Sという変種も提案され，実用性も考慮されている。
- 五つのVOSベンチマークから収集した2,210本の動画を含むGMOS-2Kデータセットと，詳細な評価プロトコルMOS-Iを新たに構築した。
Link: https://arxiv.org/abs/2605.30352
CNN・階層的注意TransformerハイブリッドによるHEVCイントラ分割の高速化 [eess.IV, cs.CV]目的：HEVCイントラモード分割予測の高速化
- 高効率動画圧縮技術は，通信・配信において不可欠であり，その効率化は重要である。
- HEVCの分割予測は計算コストが高く，エンコード時間の大部分を占めている。
- CNNとTransformerの長所を組み合わせ，低遅延かつ高精度な分割予測を実現する。
- 提案手法HFViTは，HEVCイントラエンコードを高速化し，VMAF BDレートの劣化を抑制する。
- クラスA，B，Eにおいて，既存のETH-CNNベースラインと比較して，それぞれ2.4%，2.6%，7.9%のBDレート劣化を削減した。
- CPU推論のレイテンシはCNNベースラインの8%以内，GPUでは40%向上しており，実用的なリアルタイムエンコーダ統合が可能である。
Link: https://arxiv.org/abs/2605.29063
共役勾配法を用いた理想観測者向け効率的チャネルの構築 [eess.IV, cs.CV, cs.LG, eess.SP, stat.ML]目的：医療画像システムの設計・最適化のための画像品質評価手法
- 医療画像システムの性能評価は，診断精度向上に不可欠である。
- 高次元画像データに対する理想観測者の計算は，計算量が膨大である。
- 効率的なチャネル構築により，理想観測者の計算を現実的な時間で実現する。
- 本研究では，共役勾配法を用いた効率的なチャネル構築手法を提案した。
- 提案手法は，ベイズ理想観測者およびホットリング観測者の性能近似を可能にする。
- 次元削減により，高次元画像データへの理想観測者の適用を容易にした。
Link: https://arxiv.org/abs/2605.29415
拡散モデルに基づく音声認識のデコーディング戦略：信頼度に基づく閾値処理の系統的評価 [eess.AS, cs.SD]目的：拡散モデルに基づく音声認識におけるデコーディング戦略の評価
- 音声認識は，人間と機械のコミュニケーションにおいて不可欠な技術である。
- 拡散モデルは並列処理が可能だが，音声認識への応用ではデコーディング戦略が未検討であった。
- 信頼度に基づく閾値処理が，固定数デコーディングよりも効率的な解法となりうる。
- 信頼度に基づく閾値処理戦略は，固定数スキームと比較して，精度と速度の両方で大幅に向上した。
- 音声認識において，多くのトークンは早い段階で高い信頼度に達するため，信頼度の高いものを積極的に収集できる。
- 静的閾値戦略は，自己回帰デコーディングと同等の精度を達成しつつ，より高い効率を実現した。
Link: https://arxiv.org/abs/2605.29613
80代における皮質下構造の形状変化と認知機能との関連 [q-bio.NC, cs.CV, q-bio.TO]目的：皮質下構造の形状変化と認知機能低下との関連性
- 加齢に伴う脳形態の変化は，認知機能の変化を理解する上で重要である。
- 皮質下構造の形状変化と認知機能低下の関連性は十分に解明されていない。
- 80代の集団において，皮質下構造の形状変化と認知機能低下の関連性を明らかにすること。
- 皮質下構造の形状変化は多様であり，海馬や腹側DCは左右で異なる変形が見られた。
- 視床や淡蒼球は，ほぼ対称的に容積が収縮した。
- 認知機能の変化は，頂点の時間経過に伴う内側および外側への変位と関連していた。
Link: https://arxiv.org/abs/2605.29703
因果関係に着想を得た介入を用いたフェデレーテッドドメイン汎化による聴診器誘発の近道緩和 [eess.AS, cs.CL, eess.AS, cs.AI, cs.SD]目的：聴診器によるデバイスシフト下における呼吸音分類のためのフェデレーテッドドメイン汎化
- 呼吸音分類は肺疾患の自動検出に有用だが，聴診器の多様性が課題となる。
- 聴診器の種類によるスタイルと疾患特有の情報が混在し，スタイル除去が困難である。
- デバイスに依存しない表現を獲得し，未知の聴診器でも汎化性能を向上させる。
- 因果関係に着想を得た介入ネットワークがコンテンツを維持しつつスタイルを変化させる。
- カウンターファクチュアルなテキスト拡張により，メタデータの近道を中和する。
- 勾配アラインメントにより，クライアント間でのデバイス非依存的な表現を促進する。
Link: https://arxiv.org/abs/2605.29862
視覚空間学習：畳み込みニューラルネットワークを用いた単一フィールド空間補間 [stat.ML, cs.CV, cs.LG, stat.AP]目的：空間的に相関のあるフィールドの疎な観測からの完全な予測
- 空間統計や環境モデリングにおいて，フィールド全体の予測は不可欠な課題である。
- 従来の補間法は，非定常な状況下では効果が限定され，専門知識が求められる。
- 本研究は，外部データや事前フィールドなしに，単一の観測フィールドから空間補間を行う。
- 本研究では，畳み込みニューラルネットワーク（CNN）を基盤とした空間補間手法を提案した。
- 提案手法は，共分散モデリングやバリグラム推定を必要とせず，データ駆動的に局所的な空間パターンを捉える。
- 疎な観測下での空間補間において，CNNの有効性を示すとともに，古典的な地球統計手法への代替案を提供する。
Link: https://arxiv.org/abs/2605.30167
Gaga：3D認識メモリバンクを用いたガウス分布のグループ化 [cs.CV]目的：オープンワールド3Dシーンの再構成とセグメンテーション
- 3Dシーン理解は，ロボット工学や拡張現実など，幅広い分野で不可欠である。
- 既存手法は，カメラ姿勢の変化に弱く，疎な画像サンプルでは精度が低下する。
- カメラ姿勢の変化にロバストで，多様なセグメンテーションモデルに対応できる手法の確立。
- Gagaは，ゼロショット汎用セグメンテーションモデルの不確実な2Dマスクを活用し，3Dシーンを再構成・セグメント化する。
- 3D認識メモリバンクを用いることで，異なるカメラ姿勢におけるオブジェクトマスクを効果的に関連付け，連続的な視点変化の仮定を排除した。
- 最先端手法と比較して優れた性能を示し，3Dシーン理解や操作といった現実世界への応用が期待される。
Link: https://arxiv.org/abs/2404.07977
AMMにおけるトランザクションのCLVR順序付け [cs.NI, cs.ET, cs.GT, q-fin.MF, q-fin.TR]目的：自動マーケットメイカーにおけるインラブロック価格変動の低減
- 分散型金融は，従来の金融システムに代わる有望な技術であり，透明性と効率性が求められる。
- AMMでは取引順序が価格に大きく影響するが，最適な順序付け手法は確立されていない。
- インラブロック価格変動を最小化し，取引失敗率の低減と有利な価格での取引を実現する。
- 提案手法CLVRは，比較的低い計算コストで価格変動を最小化する順序付けを構築できる。
- CLVRは，取引者がより参照価格に近い価格で取引を実行できるよう，取引失敗率を低減する効果が期待される。
- CLVRによる順序付けは外部から容易に検証可能である。
Link: https://arxiv.org/abs/2408.02634
テキストを超えて：マルチモーダル二重注意とソフト画像誘導による大規模視覚言語モデルの言語バイアス低減 [cs.CV, cs.CL]目的：大規模視覚言語モデルにおける言語バイアスの低減
- 視覚言語モデルは多様なタスクで高性能だが，言語バイアスが課題となっている。
- 言語モデルの事前学習データ規模とマルチモーダルアライメント段階の規模に差がある。
- 言語バイアスを解消し，視覚理解を向上させ，幻覚を抑制することを目指す。
- 提案手法LACINGは，マルチモーダル二重注意機構（MDA）とソフト画像誘導（IFG）により言語バイアスを低減する。
- MDAは視覚入力の統合を強化し，IFGは学習可能なソフト視覚プロンプトを用いてテキスト入力の優先度を高める。
- 実験により，追加の学習リソースやデータなしに，視覚理解が向上し，幻覚が抑制されることが示された。
Link: https://arxiv.org/abs/2411.14279
ローカル学習，グローバル修正：ノイズラベルを持つ連合学習のためのグローバル修正器 [cs.LG, cs.CV]目的：連合学習におけるノイズラベル問題の改善
- 連合学習は，データプライバシー保護に貢献する重要な技術である。
- 連合学習では，クライアントのラベル品質が保証されず，ノイズラベル問題が発生しやすい。
- クライアントごとのラベルノイズの異質性に強く，頑健な学習を実現すること。
- 提案手法FedGRは，グローバルモデルがノイズラベルを緩やかに記憶するという特性を利用している。
- FedGRは，3つのモジュールを連携させ，ノイズラベルを修正し，ローカル学習を正則化することで，連合学習のロバスト性を向上させる。
- 3つのベンチマークにおける実験で，FedGRは8つの最先端手法を凌駕する優れた性能を示した。
Link: https://arxiv.org/abs/2412.00452
心不全予後予測のためのコンポーザブルマルチモーダルフレームワーク [cs.LG, cs.AI, cs.CV]目的：心不全予後予測の精度向上
- 心不全は世界的な死因であり，早期発見と適切な治療が重要である。
- 既存手法では，患者データの多面性を十分に活用できていない点が課題である。
- 多様な臨床データを統合し，より正確な予後予測と個別化治療を可能にする。
- マルチモーダルフレームワークは，単一モダルのAIアルゴリズムと比較して，心不全予後予測において優れた精度を示した。
- 本フレームワークは，様々な病理学的指標が心不全予後に与える影響の詳細な評価を可能にする。
- 異種臨床データの体系的な統合により，包括的な予後評価と個別化治療計画の最適化を支援する。
Link: https://arxiv.org/abs/2502.16548
長期間の生物音響データにおける鯨の鳴き声の弱学習検出と時間局在化 [cs.SD, cs.AI, cs.LG, eess.AS]目的：鯨の鳴き声の検出と時間局在化
- 海洋生態系の理解には，鯨の行動や分布の把握が不可欠である。
- 従来の鯨の鳴き声分析には，膨大な手作業によるアノテーションが必要であった。
- 記録レベルのラベルのみで，効率的な検出と時間局在化を可能にすること。
- 提案手法DSMIL-LocNetは，記録レベルのラベルのみを用いて，分類と時間局在化を同時に行う。
- AcousticTrends BlueFinLibraryにおいて，300-1800秒の録音でF1スコア0.88-0.91を達成した。
- 完全教師ありCNNベースラインと比較して，性能が大幅に向上し，時間局在化も実現した。
Link: https://arxiv.org/abs/2502.20838
マスクを柔らかく：効率的な動的表情認識のための適応的時系列ソフトマスク [cs.CV]目的：動的表情認識における効率と有効性の向上
- 表情は非言語コミュニケーションの重要な要素であり，心理的意図の理解に不可欠である。
- 既存手法は，背景ノイズや冗長な意味情報といった不要な情報への対処に課題がある。
- 時間的な重要度に応じた柔軟なマスク処理により，効率的な特徴表現学習を目指す。
- 提案手法AdaToskは，既存手法と比較して計算コストを大幅に削減できる。
- 自己教師あり学習と教師あり学習を組み合わせることで，ロバストな特徴表現を獲得する。
- クラス非依存およびクラス意味的ソフトマスクが，重要な表情瞬間を強化し，時間的な意味の冗長性を低減する。
Link: https://arxiv.org/abs/2502.21004
ドメイン非依存な特徴量モジュレーションによる半教師ありドメイン汎化 [cs.HC, cs.ET, cs.CV]目的：半教師ありドメイン汎化におけるモデルの汎化性能向上
- 現実の応用では，ラベル付きデータが限られ，異なるドメインへの適応が重要となる。
- ドメインシフトによるドメインノイズが，擬似ラベルの一貫性を損ない，性能低下を引き起こす。
- ドメインラベルなしで，ドメインノイズを軽減し，擬似ラベルの精度向上を目指す。
- 提案手法は，クラス識別的な特徴量を強化し，ドメイン固有情報を抑制する特徴量モジュレーション戦略を用いる。
- このモジュレーションにより，ドメインを横断してロバストな表現を獲得し，分類器と特徴抽出器の性能を向上させる。
- また，擬似ラベルの信頼度閾値を動的に調整する損失スケーリング関数を導入し，ラベルなしデータの活用を最適化する。
Link: https://arxiv.org/abs/2503.20897
文脈を考慮した制御可能な動画生成：CamC2V [cs.CV]目的：文脈を考慮した制御可能な動画生成手法
- 動画生成技術は，エンターテイメントや教育など様々な分野で応用が期待されており，重要性が増している。
- 既存の画像から動画生成モデルは，文脈を拡張することが難しく，カメラ制御による多様性の向上は画質低下を招く場合がある。
- 本研究は，3次元制約とカメラ制御を統合することで，よりコヒーレントで文脈を考慮した動画生成を目指す。
- 提案手法CamC2Vは，複数の画像条件を文脈として統合し，グローバルな意味と詳細な視覚情報を強化することで，高品質な動画生成を実現した。
- RealEstate10Kデータセットを用いた実験により，FVDスコアが24.09%改善し，視覚品質とカメラ制御性の向上が確認された。
- 時間的な認識の重要性を示し，効果的な文脈表現への貢献を強調した。
Link: https://arxiv.org/abs/2504.06022
クロスイメージ一貫性制約によるパーソナライズされたテキスト画像合成に対するプライバシー保護 [cs.RO, cs.SY, eess.SY, cs.CV]目的：パーソナライズされたテキスト画像合成におけるプライバシー保護
- 拡散モデルの進化と個人化技術により，公開画像から個人を再現可能になり，創造的な応用が拡大している。
- 悪意のある攻撃者によるリアルななりすましが可能となり，深刻なプライバシー侵害の危険性が存在する。
- 複数画像の関係性を活用し，より強力なプライバシー保護を実現する。
- 提案手法CAPは，摂動された画像間のスタイル一貫性を強制することで，既存手法と比較してパーソナライズへの耐性を大幅に向上させる。
- 動的な比率調整戦略により，攻撃反復を通じて一貫性損失の影響を適応的に調整する。
- CelebHQとVGGFace2のベンチマークを用いた実験により，CAPの有効性が確認された。
Link: https://arxiv.org/abs/2504.12747
単一マイク環境におけるエンドツーエンド多話者自動音声認識に関する調査 [cs.CL, cs.AI, cs.SD, eess.AS]目的：単一マイク環境におけるエンドツーエンド多話者自動音声認識手法の体系的な分類と分析
- 音声認識技術は，人間と機械の自然な対話を可能にする基盤技術であり，その重要性は高い。
- 複数話者の音声を分離・認識することは難しく，特に重なり合った音声の認識精度向上が課題である。
- エンドツーエンド方式の最新動向を整理し，多話者音声認識の課題解決に貢献する。
- 本調査では，SIMOとSISOという2つの主要なアーキテクチャ・パラダイムの特徴とトレードオフを分析した。
- 各パラダイムに基づいたアーキテクチャやアルゴリズムの改善，および長尺音声への拡張手法について検討した。
- 標準ベンチマークにおける手法の評価と比較を行い，今後の研究課題と方向性を示唆した。
Link: https://arxiv.org/abs/2505.10975
LLMの過剰な料金請求：トークン化，透明性，およびインセンティブ [cs.GT, cs.AI, cs.CY, cs.LG]目的：LLM利用におけるトークン課金メカニズムのインセンティブ構造と，それによる過剰請求の可能性
- LLMの利用拡大に伴い，クラウドサービス経由での利用が一般的となり，課金メカニズムの透明性が重要になっている。
- 現在のトークン課金システムでは，プロバイダーがトークン数を偽報することで，利益を最大化する動機が存在する。
- トークン課金におけるプロバイダーのインセンティブをなくし，ユーザーが安心してLLMを利用できるメカニズムを提案すること。
- プロバイダーはトークン数を偽報することで，ユーザーに過剰な料金を請求するインセンティブを持つことが示された。
- 透明性を義務付けることで偽報を抑制できる可能性はあるが，効率的な偽報アルゴリズムが開発可能であることも確認された。
- トークン数を文字数に比例して課金することで，インセンティブ構造を改善し，平均利益を維持できることが示唆された。
Link: https://arxiv.org/abs/2505.21627
EPiC：正確なアンカービデオガイダンスによる効率的なビデオカメラ制御学習 [cs.CV, cs.AI]目的：効率的なビデオカメラ制御学習のためのフレームワーク
- ビデオ生成におけるカメラ制御は，リアリティのある映像制作に不可欠である。
- 従来のカメラ制御手法は，点群やカメラ軌跡の推定誤差が大きく，計算コストが高い。
- 推定誤差なしに高精度なアンカービデオを作成し，効率的な学習を実現すること。
- EPiCは，点群やカメラ姿勢の推定を必要とせず，最初のフレームの可視性に基づいてソースビデオをマスクすることで，高精度なアンカービデオを生成する。
- Anchor-ControlNetという軽量モジュールを導入し，事前学習済みのビデオ拡散モデルにアンカービデオガイダンスを統合することで，パラメータ数を抑制している。
- RealEstate10KとMiraDataのI2Vカメラ制御タスクにおいて，最先端の性能を達成し，ゼロショット汎化能力も高い。
Link: https://arxiv.org/abs/2505.21876
VRAG：インタラクティブな動画生成のためのワールドモデル学習 [cs.CV, cs.AI]目的：インタラクティブ性と時空間的コヒーレンスを維持するワールドモデルの構築
- 将来の行動選択に基づいた計画において，基盤となるワールドモデルの重要性が増している。
- 既存の長尺動画生成モデルは，エラーの蓄積とメモリ機構の不十分さにより，ワールドモデルの能力が限定されている。
- 本研究は，エラーの蓄積を抑制し，ワールドモデルの時空間的一貫性を高めることを目指す。
- 提案手法VRAGは，明示的なグローバル状態条件付けにより，長期間にわたるエラーの蓄積を大幅に削減する。
- VRAGは，時空間的な一貫性を高めることで，より自然でコヒーレントな動画生成を実現する。
- 拡張されたコンテキストウィンドウや単純な検索拡張生成では，動画モデルの限られた文脈学習能力のため，効果が限定的である。
Link: https://arxiv.org/abs/2505.21996
追加情報を用いたオンライン公平分割 [cs.GT, cs.AI]目的：不可分な資源のオンライン公平な割り当て
- 資源配分は，社会全体の効率と公平性を向上させる上で不可欠である。
- オンライン環境下では，将来の情報が不明確なため，公平性の保証が難しい。
- 将来情報の種類に応じた，より良い公平性保証アルゴリズムの設計。
- 総価値情報を用いることで，既存研究よりも強い公平性保証を実現するアルゴリズムを提案した。
- 頻度予測を用いることで，オフラインの「シェアベース」保証をオンライン環境へ拡張するメタアルゴリズムを設計した。
- ノイズを含む総価値や頻度予測に対して，ロバストかつ漸進的な性能劣化を示す学習拡張モデルを提示した。
Link: https://arxiv.org/abs/2505.24503
MVP-Shapley：バスケットボールにおける最高選手評価のための特徴量に基づくモデリング [cs.GT, cs.LG]目的：バスケットボールにおける最高選手（MVP）評価手法の開発
- eスポーツやオンラインゲームの隆盛により，MVP評価の重要性が増している。
- 客観的かつ説明可能なMVP評価手法の確立は，非常に難しい課題である。
- プレイバイプレイデータを用いて，Shapley値に基づくMVP評価フレームワークを提案し，課題解決を目指す。
- 提案手法は，選手の貢献度に基づき，Shapley値を割り当てることでMVPランキングを決定する。
- 因果関係の観点からアルゴリズムを最適化し，専門家による投票結果との整合性を高めた。
- NBAデータとDunk City Dynastyデータを用いた検証により，手法の有効性を確認し，産業界へのオンライン展開を実現した。
Link: https://arxiv.org/abs/2506.04602
データセンター向け効率的なプレイヤー分離機構Capsule [cs.DC, cs.GR]目的：データセンターにおけるリソース共有の効率化
- データセンターの利用効率向上は，コスト削減とサービス拡張に不可欠である。
- プレイヤーごとにリソースを確保する方式では，リソースの無駄が生じやすい。
- プレイヤー間のリソース共有を最大化し，利用効率を向上させることを目指す。
- Capsuleは，プレイヤーごとのローカル状態とグローバル状態を分離することにより，リソースの共有を可能にする。
- 評価の結果，Capsuleは，ユーザーエクスペリエンスを低下させることなく，最大2.25倍多くのプレイヤーを収容できることが示された。
- GPU，VRAM，CPU，RAMの使用量をそれぞれ最大1.43倍，3.11倍，3.7倍，3.87倍削減できることも確認された。
Link: https://arxiv.org/abs/2506.11483