arXiv雑要約

画像・音声 - 2026/05/06 公開

MiniMind-O技術報告：小規模な音声ネイティブ全能モデル [cs.SD, cs.MM, eess.AS]目的：小規模な全能モデルの構築と評価
- マルチモーダルAI研究は，人間のような知能を実現する上で重要である。
- 大規模モデルに比べ，小規模モデルの性能向上は課題である。
- 小規模モデルにおける全能モデル構築の重要な要素を特定する。
- MiniMind-Oは，テキスト，音声，画像を入力として受け取り，テキストとストリーミング音声を生成する。
- Thinker-Talkerの一貫性評価において，CER 0.0897と0.0900を達成し，ボイスクローニングの類似度は0.5995と0.5937を示した。
- 中間層セマンティックブリッジ，マルチモーダルシーケンスフォーマット，パラメータ効率的なインターフェースが，小規模全能モデルにおける重要な設計要素であることが示唆された。
Link: https://arxiv.org/abs/2605.03937
インタラクティブなワールドモデルのベンチマーク：統一された行動生成フレームワーク [cs.CV, cs.AI]目的：インタラクティブなワールドモデルの評価のためのベンチマークおよび行動生成フレームワーク
- 汎用人工知能実現には，環境に適応的に学習・相互作用するエージェントが不可欠であり，そのための環境としてワールドモデルが重要である。
- 大規模なデータセットや，物理的相互作用能力を評価するための統一されたベンチマークが不足している。
- 距離知覚や記憶など，相互作用に関連する能力を持つワールドモデルを評価するための基準を確立し，モデルの性能向上を目指す。
- iWorld-Benchは，33万件の動画クリップを含む多様なデータセットを構築し，様々な視点，天候，シーンを網羅する2100件の高品位サンプルを選定した。
- 既存のワールドモデルの多様な相互作用モダリティに対応するため，評価を統一する行動生成フレームワークを導入し，6種類のタスクと4900件のテストサンプルを生成した。
- 14の代表的なワールドモデルを評価した結果，主要な限界が明らかになり，今後の研究の方向性に関する洞察が得られた。
Link: https://arxiv.org/abs/2605.03941
フローニンゲンガス田の貯留層特性画像スライス：画像変換とセグメンテーションへの応用 [cs.CV, cs.DB, physics.geo-ph]目的：フローニンゲンガス田の静的モデルから生成された貯留層特性画像スライス群
- 地質モデルの精度向上は，資源探査・開発において不可欠であり，その鍵は適切な特性評価にある。
- 再現性のあるベンチマークのための地質画像データセットは限られており，機械学習の発展を阻害している。
- 地質画像解析手法のベンチマークと，貯留層特性間の関係性の研究を支援する基盤を提供する。
- 本研究では，ファシエス，孔隙率，浸透率，水飽和度を示す高解像度な2次元PNG画像データセットを公開する。
- 画像拡張，マスク生成，ペア画像作成，およびベースライン実験を再現するためのソフトウェアワークフローも提供する。
- データセットと再現性のあるワークフローを分離することで，地質科学，貯留層モデリング，機械学習における再利用を促進する。
Link: https://arxiv.org/abs/2605.03942
UnAC：抽象化と段階的検証を用いた適応的視覚プロンプティングによる複雑なマルチモーダル推論 [cs.CV]目的：複雑なマルチモーダル推論における視覚的証拠に対する多段階の推論の信頼性向上
- マルチモーダル推論は，現実世界の理解に不可欠であり，AIシステムの応用範囲を広げる。
- 既存のLMMは視覚的認識能力は向上しているが，複雑な推論を要する問題では信頼性に課題がある。
- LMMにおける推論能力を強化し，視覚的証拠に基づいた複雑なタスクの精度向上を目指す。
- UnACは，LMMの画像理解を向上させるため，重要な領域に焦点を当てる適応的視覚プロンプティング戦略を提案。
- 画像から重要な情報を効果的に抽出するため，画像抽象化プロンプトを設計し，推論の質を高める。
- 各部分質問と回答を検証する段階的自己チェック機構を導入し，推論の精度と信頼性を向上させる。
Link: https://arxiv.org/abs/2605.03950
航空画像からの弱学習事前学習とファインチューニングによるラベル効率的な学校検出 [cs.CV, cs.AI, cs.LG]目的：航空画像からの学校検出
- 教育インフラ整備やインターネット接続拡大には，正確な学校の位置情報が不可欠である。
- 多くの地域で，学校情報の記録が古く，不完全，または利用できないという課題が存在する。
- 手作業によるマッピングは，時間と労力がかかるため，大規模な地域での適用が困難であるという問題を解決する。
- 本研究では，手動アノテーションの必要性を最小限に抑え，グローバルなマッピング活動を支援する弱学習フレームワークを提案する。
- 限られた手動アノテーションデータ（50枚）で高い検出性能を実現し，コストのかかるアノテーション作業を大幅に削減する。
- 本フレームワークは，世界規模での教育および接続イニシアチブを支援するための，効率的かつ拡張可能なアプローチを提供する。
Link: https://arxiv.org/abs/2605.03968
RGB画像からの3DMM顔モデルを用いた3D人顔再構成 [eess.SY, cs.SY, cs.CV, cs.GR]目的：RGB画像からの3D人顔モデルの再構成パイプライン
- 画像処理分野において，畳み込みニューラルネットワークの能力が注目されている。
- CNNの学習には大量のラベル付きデータが必要であり，その作成が課題である。
- 粗い形状の顔モデルでは，皺などの詳細な表現が困難である。
- 提案手法は，顔検出，ランドマーク検出，3DMMパラメータ回帰，ソフトレンダリングを含む。
- 単一のRGB画像から3D人顔モデルを再構成できるパイプラインを実現した。
- フォトリアリスティックな詳細な顔データの生成を目指している。
Link: https://arxiv.org/abs/2605.03996
RD-ViT：少ないデータ依存でセマンティックセグメンテーションを行う再帰的深度型Vision Transformer [cs.CL, cs.CY, cs.CV]目的：セマンティックセグメンテーションにおけるデータ依存性の低減
- 画像認識分野では，Vision Transformer (ViT) が高い性能を示すが，大規模なデータセットを必要とする。
- ViTは各層が独立に学習されるため，パラメータ数が多く，データ効率が低いという課題がある。
- 再帰的深度型Transformer (RDT) アーキテクチャを応用し，少ないデータでも高精度なセグメンテーションを実現する。
- RD-ViTは，2Dおよび3Dの入力に対応し，共有ブロックをループさせることでパラメータ数を削減した。
- 2Dセグメンテーションにおいて，10%の学習データで標準ViTを上回り，フルデータでも同等以上の性能を示した。
- 3Dセグメンテーションでは，MoEを用いたRD-ViTは，パラメータ数を53%削減しつつ，標準ViTの99.4%の性能を達成した。
Link: https://arxiv.org/abs/2605.03999
多様な精度訓練を用いた3D脳腫瘍セグメンテーションの向上 [cs.IR, cs.CV, cs.LG]目的：3D脳腫瘍セグメンテーションの精度向上
- 脳腫瘍は幅広い年齢層に影響を及ぼす疾患であり，早期発見が生存率向上に不可欠である。
- 脳腫瘍のセグメンテーションは，正確な診断と治療計画のために重要だが，困難な課題である。
- 本研究は，より正確かつ効率的な脳腫瘍セグメンテーション手法を開発することを目指す。
- SegResNetアーキテクチャと自動マルチプレシジョン訓練を用いることで，高精度な3D脳腫瘍セグメンテーションを実現した。
- Diceスコアは，腫瘍コアで0.84，腫瘍全体で0.90，腫瘍増強部で0.79と良好な結果を示した。
- 本研究の結果は，脳腫瘍の早期発見と治療計画の改善に貢献することが期待される。
Link: https://arxiv.org/abs/2605.04008
事前計算されたレンズ輸送マップ [cs.GR]目的：レンズ光学系の正確かつリアルタイムなシミュレーション
- 現実的な映像制作や視覚効果において，レンズの正確な再現は不可欠である。
- 従来のピンホールモデルや薄レンズモデルでは，レンズの歪曲収差や色収差などの光学効果を正確に再現できない。
- フレネルの反射強度を考慮し，より正確なレンズシミュレーションを実現すること。
- 本手法は，波長を考慮した入力とフレネル強度の出力を組み合わせることで，内部反射やレンズフレアを正確にシミュレーションする。
- 有効/遮蔽された光線を二値マスクで分類し，遮蔽されていない光線に回帰することで，不連続点近傍での精度を向上させている。
- 本手法は，従来の多項式モデルよりも精度が高く，ブルートフォース光線追跡よりも大幅に高速である。
Link: https://arxiv.org/abs/2605.04017
予算とストレージ制約下における分散型エッジキャッシュ：ゲーム理論的アプローチ [cs.GT, cs.PF]目的：予算制約，ストレージ制限，および関係者間の戦略的相互作用を考慮した分散型マルチコンテンツプロバイダエッジキャッシュの枠組み
- モバイルソーシャルネットワークの拡大により，低遅延で信頼性の高いコンテンツ配信の需要が高まっている。
- エッジデバイスのストレージリソースは限られており，複数のコンテンツプロバイダが競合している。
- コンテンツプロバイダとエッジデバイス間の効率的なリソース配分を実現するスケーラブルな枠組みを提案する。
- ストレージ制約が緩い場合，コンテンツプロバイダ間の競争は正確なポテンシャルゲームを構成し，純粋戦略ナッシュ均衡の存在と分散型収束を保証する。
- ストレージ制約が厳しい場合でも，シミュレーションにより安定した効率的な収束が実証されている。
- ストレージの不足は経済的結果を根本的に変化させ，コンテンツプロバイダ間の不平等を増幅させ，エッジデバイスの交渉力を高める。
Link: https://arxiv.org/abs/2605.04023
マルチビューキャプチャからの大規模高品質3Dガウス頭部再構成 [cs.CV, cs.LG]目的：大規模なマルチカメラセットアップからの高品質3Dガウス頭部再構成
- 人間認識やコンピュータビジョンにおいて，3D頭部モデルは重要な役割を担う。
- 既存のデータセットは規模が小さく，高解像度な再構成が困難である。
- 大規模データセットを用いて，高品質かつ効率的な3D頭部再構成手法を開発する。
- 提案手法HeadsUpは，効率的なエンコーダ・デコーダ構造により，入力画像をコンパクトな潜在表現に圧縮する。
- この潜在表現は，UVパラメータ化された3Dガウス群としてデコードされ，高品質な頭部再構成を実現する。
- 1万人以上の被験者データを用いた実験で，既存手法を上回る再構成品質と汎化性能を確認した。
Link: https://arxiv.org/abs/2605.04035
大規模言語モデルはビジュアル生成のための汎用推論器である [cs.CV]目的：テキストから画像生成における理解と生成のギャップの解消
- 画像生成技術の進歩は目覚ましく，多様な応用が期待されているため。
- 既存システムでは，複雑なプロンプトに対する生成の忠実性が課題となっている。
- LLMの推論能力を活用し，生成プロセスをガイダンスすることで解決を目指す。
- UniReasonerは，LLMを汎用推論器として活用し，視覚的なドラフトを生成する。
- 生成されたドラフトをLLM自身で評価し，修正点をテキストで特定する。
- 拡散モデルは，プロンプト，ドラフト，評価に基づいて画像を生成し，より正確な画像を生成する。
Link: https://arxiv.org/abs/2605.04040
UniCorrn: 2Dと3D間の統一的な対応Transformer [cs.CV]目的：2D-2D，2D-3D，3D-3D幾何学的対応の統一的モデル
- 3Dビジョンの多くのタスクにおいて，画像と点群の対応は不可欠である。
- 既存手法はタスクごとに異なる設計であり，汎用性に欠ける。
- 異なるモダリティ間の幾何学的対応を単一モデルで統一し，性能向上を目指す。
- UniCorrnは，2D-2Dマッチングにおいて競争力のある性能を示す。
- 7Scenes (2D-3D)において，既存の最先端手法を8%上回る登録リコールを実現した。
- 3DLoMatch (3D-3D)においても，既存の最先端手法を10%上回る登録リコールを実現した。
Link: https://arxiv.org/abs/2605.04044
大規模基盤モデルにおける聴覚・視覚知能 [cs.CV]目的：聴覚と視覚のマルチモーダルな知能に関する包括的なレビュー
- AI研究において，現実世界の複雑な情報を処理するための聴覚と視覚の統合が重要である。
- 既存の研究は分散しており，タスクや評価方法が一貫しておらず，比較や知識統合が困難である。
- 大規模基盤モデルを通じた聴覚・視覚知能の分野を体系的に整理し，今後の研究の基盤を築く。
- 本調査は，聴覚・視覚知能タスクを包括的に分類し，理解，生成，インタラクションの各領域を網羅する。
- モダリティのトークン化，クロスモーダル融合，大規模事前学習など，方法論的な基盤を整理し，最新動向を解説する。
- データセット，ベンチマーク，評価指標を整理し，同期，空間推論，制御可能性，安全性の課題を特定する。
Link: https://arxiv.org/abs/2605.04045
リアルタイムヨガポーズ検出と姿勢矯正のための知能的フレームワーク [cs.CV, cs.DL]目的：リアルタイムヨガポーズ検出と姿勢矯正システム
- ヨガは，体力，柔軟性，精神的な健康の向上に広く認識されている。
- 自己指導やオンライン環境では，不適切な姿勢が怪我のリスクを高める。
- 姿勢の誤りを検出し，リアルタイムで矯正ガイダンスを提供する。
- 軽量な人体姿勢推定モデルとバイオメカニカル特徴抽出，CNN-LSTMによる時間的学習を統合した。
- 関節角度や骨格特徴から姿勢の正確性を評価し，ずれを定量的にスコアリングする。
- 視覚，テキスト，音声によるリアルタイムな矯正フィードバックを提供する。
Link: https://arxiv.org/abs/2603.26760
ビデオ生成モデルを世界モデルとして：効率的なパラダイム，アーキテクチャ，アルゴリズム [eess.IV, cs.CV]目的：効率的な世界モデルとしてのビデオ生成に関するフレームワークおよび技術の体系的レビュー
- ビデオ生成技術の進展は，複雑な物理現象のシミュレーションを可能にし，AI研究における重要性が増している。
- 計算コストの高さが，ビデオ生成モデルを実用的な世界モデルとして活用する上での大きな課題となっている。
- ビデオ生成モデルの効率性を高め，リアルタイムでロバストな世界シミュレータとしての実現を目指す。
- 効率的なモデリングパラダイム，ネットワークアーキテクチャ，推論アルゴリズムの3つの次元で新たな分類法を提案した。
- 効率性の向上は，自動運転，具現化されたAI，ゲームシミュレーションといったインタラクティブなアプリケーションを可能にする。
- 効率性は，汎用的なリアルタイムかつ堅牢な世界シミュレータへとビデオ生成モデルを進化させるための基本的な前提条件である。
Link: https://arxiv.org/abs/2603.28489
非剛体点群登録のための構造化解析的コヒーレント点ドリフト [cs.LG, cs.CV, stat.ML]目的：非剛体点群登録における，構造化解析的コヒーレント点ドリフトの提案
- 点群登録は，３次元形状のモデリングや認識など，様々な応用分野で不可欠な技術である。
- 従来の非剛体点群登録手法は，計算コストが高く，大規模変形に弱いという課題があった。
- 本研究は，計算効率と大規模変形への対応力を向上させた新たな登録手法を開発する。
- 提案手法Analytic-CPDは，標準的なCPDよりも低い最終誤差と高速な収束を実現した。
- CPDの確率的対応付けと構造化解析的写像を組み合わせることで，コンパクトかつ解釈可能な代替手法を提供する。
- 次数継続戦略を用いることで，大規模変形登録の安定性を向上させている。
Link: https://arxiv.org/abs/2605.00934
EMOVIS：感情最適化画像処理 [eess.IV, cs.CV]目的：感情と画像処理パラメータ間の体系的マッピング
- 映像制作において感情的な表現は重要であり，視覚的属性が物語性を高める。
- 従来のISPは忠実なシーン再現を優先し，感情的な表現力を考慮していない。
- 感情に基づいたISP制御により，表現力豊かな映像体験を実現する。
- 感情状態（幸福，穏やか，怒り，悲しみ）とISP制御パラメータ間の対応関係が確立された。
- 感情最適化された映像は，シーンの感情的文脈と一致する場合に87％の確率で好まれることが示された。
- 提案手法は，既存のISPハードウェアを変更することなく，感情に基づいた調整を組み込むことが可能である。
Link: https://arxiv.org/abs/2605.03131
行凸多角形の分割に基づく母関数 [quant-ph, cs.AR, cs.ET, math.CO, cs.CV]目的：行凸多角形の列挙
- 組合せ数学における多角形の数は，計算機科学や物理学など様々な分野で重要である。
- 内部に穴のない行凸多角形の正確な数を効率的に計算する方法が課題であった。
- 整数分割と多角形の列挙の関係を明確にし，正確かつ漸近的な解析を可能にする。
- 総面積の整数分割に基づいた新しい母関数を提案することで，行凸多角形の列挙が可能となった。
- この母関数を用いることで，多角形の正確な数と漸近的成長率（S(N) as A2^(N) cos(N*theta) + phi)を導出した。
- 本手法は，離散画像解析やグリッドベースモデリングなどへの応用が期待される。
Link: https://arxiv.org/abs/2605.03203
集団的意思決定におけるコミュニケーション [econ.TH, cs.GT]目的：集団的意思決定におけるコミュニケーションのメカニズム
- 組織運営や政策決定において，効率的な情報伝達は不可欠である。
- 情報伝達手段の違いが，意思決定の質と効率に影響を与える可能性がある。
- 公共と私的なコミュニケーション手段の比較を通して，最適な情報伝達方法を明らかにすること。
- 公共メッセージングは，私的なメッセージングよりも弱い支配性を持つことが示された。
- 線形ペイオフを持つ標準的な環境下で，各コミュニケーション体制における主人の最適なテストが特定された。
- 主人の対立する協力者が存在する場合に限り，公共メッセージングが厳密に優位になることが明らかになった。
Link: https://arxiv.org/abs/2605.03621
複雑貯留層における双方向相特性変換のためのPix2Geomodelの頑健性と転移性 [physics.geo-ph, cs.CC, cs.CV, physics.comp-ph]目的：複雑な貯留層における双方向相特性変換のためのPix2Geomodelの適用可能性
- 地層モデリングは地下資源評価において不可欠だが，データが疎で地質ヘテロジェニティが強いことが課題である。
- 従来の地統計的手法では，相と物理特性の非線形関係を捉えきれない場合がある。
- 本研究は，データ制約下で相-特性関係を維持するPix2Geomodelの性能を検証する。
- モデルは主要な地質構造と空間連続性の傾向を保持することが示された。
- 相から孔隙率への変換は，0.9326のピクセル精度と0.8807の交差率を達成し，最も高い性能を示した。
- 粘土体積から相への変換は，平均ピクセル精度0.8506と平均交差率0.7049を達成した。
Link: https://arxiv.org/abs/2605.03919
分割不可能なタスクの公平な間隔スケジューリング [cs.GT]目的：付加価値を持つエージェント間での離散タスクの公平な割り当て
- 資源配分は，効率性と公平性を両立させることが重要である。特に，個々のエージェントの価値観を考慮する必要がある。
- タスクの割り当てにおいて，公平性を保証しつつ，最大限の効率を達成することは難しい課題である。
- モノトーンな付加価値を持つ2人のエージェントに対し，EF1と最大化を満たす効率的なアルゴリズムを開発する。
- 2人のエージェントかつモノトーンな付加価値を持つ場合，任意の区間グラフでEF1かつ最大化されたスケジュールを多項式時間で計算できるアルゴリズムを開発した。
- 同一の付加価値を持つ任意の数のエージェントに対し，パスグラフでEF1かつ最大化されたスケジュールが存在することが示された。
- 4人以上のエージェントで二分的な付加価値を持つ場合，EF1と最大化を満たすスケジュールを効率的に見つけるアルゴリズムが提供された。
Link: https://arxiv.org/abs/2402.04353
異種エッジデバイスにおける深層学習物体検出モデルの包括的評価 [cs.CV, cs.AR, cs.DC, cs.LG, cs.SE]目的：深層学習物体検出モデルの性能評価
- 自動運転やスマートシティなど，エッジデバイスでの物体検出の需要が急速に高まっている。
- 異種エッジデバイス間でのモデルの挙動や，シーンの複雑さによる性能変化が十分に理解されていない。
- 様々なデバイスとシーンにおけるモデルの性能トレードオフを明らかにすること。
- YOLOv8 Mediumが最も高い精度を達成したが，計算コストも高い。
- SSD MobileNet V1は，最も低いレイテンシと消費電力を示した一方で，精度は低い。
- TPU搭載のRaspberry Piは，SSDとEfficientDet Liteの効率を向上させたが，YOLOv8の精度は低下した。
Link: https://arxiv.org/abs/2409.16808
ハ이브マインドは単一の強化学習エージェントである [cs.MA, cs.AI, cs.GT]目的：集団意思決定と単一エージェントの試行錯誤の等価性
- 自然界における効率的な戦略獲得のメカニズム解明は，知能研究の根幹である。
- 個々の単純行動から集団としての知性がどのように生まれるか不明確である。
- 模倣による集団意思決定が，強化学習エージェントと等価であることを示す。
- ミツバチの巣探し行動に着目し，単純な模倣ルールが単一の強化学習エージェントとして機能することを示した。
- 特に，ワグルダンスにおける「重み付き投票者モデル」は，「Maynard-Cross Learning」と呼ばれる多腕バンディットアルゴリズムに対応する。
- 本研究は，集団レベルの知性が自然選択における単純行動の選択を説明しうる可能性を示唆する。
Link: https://arxiv.org/abs/2410.17517
分位評価に基づく最大厚生配分 [cs.CL, cs.GT]目的：分位評価に基づく厚生配分の最適化
- 資源配分は，社会全体の効率性と公平性を高める上で重要である。
- 既存の評価関数では，個人の多様な認識を捉えきれない場合がある。
- 分位評価モデルを用いて，より現実的な厚生配分を目指す。
- 本研究では，分位評価に基づく厚生配分の計算複雑性を解析した。
- 厚生配分の種類や配分の制約によって，複雑性が大きく異なることが示された。
- 功利厚生に対する近似アルゴリズム，平等厚生に対する厳密アルゴリズムを提案した。
Link: https://arxiv.org/abs/2502.17869
正規化マッチングTransformer [cs.CV, cs.LG]目的：画像ペア間の疎な意味的キーポイントマッチング
- 画像間の対応関係は，ロボット工学や画像認識など様々な分野で重要である。
- 既存手法では，計算コストが高く，正確性に課題がある場合がある。
- 効率的かつ高精度なキーポイントマッチング手法を開発し，性能向上を目指す。
- 提案手法NMTは，PascalVOCとSPair-71kにおいて最先端の性能を達成した。
- 既存手法（BBGM, ASAR, COMMON, GMTR）と比較して，それぞれ5.1%と2.2%の性能向上を示した。
- また，学習エポック数も他の手法より少なくとも1.7倍短縮された。
Link: https://arxiv.org/abs/2503.17715
ゼロショット被写体駆動型ビデオ生成のための，1%の計算資源による学習 [cs.CV, eess.IV]目的：被写体駆動型ビデオ生成における，データ効率と計算効率の良い手法
- パーソナライズされたコンテンツ作成への応用が期待され，ビデオ生成分野の発展に不可欠である。
- 従来の被写体固有のチューニングは計算コストが高く，ゼロショット手法は大規模データセットを必要とする。
- 被写体固有のチューニングや大規模データセットを使用せずに，効率的なビデオ生成を実現する。
- 本研究では，被写体画像ペアからの同一性注入と，少数の任意のビデオによる動きの保持という2つのタスクを組み合わせる。
- これにより，従来のゼロショット手法と比較して，計算コストを約1%に削減しつつ，被写体の再現性と動きの品質を維持する。
- 提案手法は，CogVideoX-5BおよびWan 2.2-5Bの両モデルで有効であることが示された。
Link: https://arxiv.org/abs/2504.17816
四元数ウェーブレット条件付き拡散モデルによる画像超解像 [cs.CV, cs.LG]目的：画像超解像のための新しいフレームワーク
- 画像認識技術の向上は，医療画像から衛星分析まで幅広い分野で重要である。
- 高解像度の再構成において，微細なディテールやリアルなテクスチャの再現が課題である。
- 知覚的品質と構造的忠実度を両立する超解像技術の開発。
- 提案手法ResQuは，四元数ウェーブレット前処理と潜在拡散モデルを統合した新しいフレームワークである。
- 四元数ウェーブレット埋め込みを動的に統合することで，ノイズ除去プロセスの条件付けを強化する。
- ドメイン固有のデータセットを用いた実験により，既存手法と比較して優れた超解像結果が得られた。
Link: https://arxiv.org/abs/2505.00334
それほどグルーヴじゃない：ゼロショットシンボリック音楽編集 [cs.SD, cs.CL, eess.AS]目的：ゼロショットシンボリック音楽編集の実現
- 音楽生成AIの発展は著しいが，プロの音楽制作者が求める柔軟性に課題がある。
- シンボリック音楽編集には，指示とMIDIデータのペアが不可欠だが，データが極端に不足している。
- 大規模言語モデルを活用し，指示に基づいたシンボリック音楽編集をデータ不足を克服して実現する。
- 提案する「drumroll」記法により，大規模言語モデルが音楽のメカニズムを論理的に理解し，編集を実行できる。
- 評価ベンチマーク「Not that Groove」と自動ユニットテストフレームワークを構築し，編集の正確性を検証した。
- 最先端モデルで68%の成功率を達成，ユニットテストと音楽家の主観評価との高い一致性も確認された。
Link: https://arxiv.org/abs/2505.08203
フラクタルマンバ++：ヒルベルトフラクタル幾何学による解像度スケール対応ビジョンマンバ [cs.CV]目的：高解像度画像におけるビジョンマンバの性能向上
- 画像認識分野では，長大な視覚シーケンスを効率的に処理することが重要である。
- 従来のビジョンマンバでは，2Dパッチグリッドの1D状態空間へのシリアライズ方法が性能に大きく影響する。
- ヒルベルト曲線に基づくシリアライズで，解像度変化に対応し，空間的連続性を維持し，情報消失を抑制する。
- フラクタルマンバ++は，ヒルベルト曲線に基づきパッチをシリアライズすることで，2D近傍の情報をより忠実に保持する。
- フラクタル階層的スキップ接続（FHSC）により，状態注入経路を決定的に導き出し，長シーケンスにおける情報消失を軽減する。
- フラクタル対応2D回転位置エンコーディング（FA-RoPE）は，実際の空間的近接性と階層的構造に基づいて特徴量の相互作用を調整する。
Link: https://arxiv.org/abs/2505.14062
動画品質評価のための文脈・ピクセル認識大規模言語モデル [cs.CV, cs.MM, eess.IV]目的：動画品質評価における性能向上
- 動画の利用拡大に伴い，その品質評価の重要性が高まっている。
- 従来のモデルは，文脈理解が不十分で，微細な歪みに弱いという課題があった。
- 文脈とピクセルレベルの両面から評価し，品質スコアと説明を同時に生成する。
- CP-LLMは，動画の文脈とピクセル歪みを独立して解析する二重の視覚エンコーダを備えている。
- これにより，CP-LLMはロバストな品質スコアと解釈可能な品質説明を同時に生成することが可能となった。
- 実験結果から，CP-LLMはVQAベンチマークで最先端の性能と，ピクセル歪みに対する優れた堅牢性を示した。
Link: https://arxiv.org/abs/2505.16025
BEVCALIB：幾何学誘導の俯瞰視表現によるLiDAR-カメラキャリブレーション [cs.CV, cs.RO]目的：LiDAR-カメラキャリブレーションの新しい手法
- 自動運転やロボットシステムにおいて，マルチモーダル知覚融合の基礎となる技術である。
- 従来のキャリブレーション手法は，制御された環境下での広範なデータ収集が必要であり，移動中の変換変化に対応できない。
- BEV特徴量を用いて，LiDARとカメラのキャリブレーションを効率的に行うことを目指す。
- BEVCALIBは，KITTIデータセットにおいて，既存の最高性能ベースラインよりも翻訳で平均47.08%，回転で82.32%改善された。
- NuScenesデータセットにおいても，翻訳で78.17%，回転で68.29%の平均的な性能向上を示した。
- オープンソースドメインにおいては，再現可能な最高性能ベースラインを1桁以上改善した。
Link: https://arxiv.org/abs/2506.02587
高次非結合学習ダイナミクスとナッシュ均衡 [cs.RO, math.OC, cs.MA, cs.GT, cs.SY, eess.SY]目的：有限ゲームにおける混合戦略ナッシュ均衡の学習可能性
- ゲーム理論は経済学，政治学，生物学など広範な分野に応用され，戦略的相互作用を理解する上で不可欠である。
- 従来の学習ダイナミクスでは，ナッシュ均衡への収束が保証されない場合や，収束が遅いという課題がある。
- 高次非結合学習ダイナミクスを用いて，ナッシュ均衡への学習を促進し，学習ダイナミクスの普遍性を検証する。
- 高次非結合学習ダイナミクスは，分散型制御におけるフィードバック安定化と密接な関係があることが示された。
- 完全に混合戦略ナッシュ均衡を持つ有限ゲームに対し，その均衡へ局所的に収束する高次非結合学習ダイナミクスが存在することが証明された。
- 漸近的最適応答（ABR）特性が導入され，高次学習ダイナミクスにおける内部安定性条件との関連性が明らかにされた。
Link: https://arxiv.org/abs/2506.10874
衛星画像超解像のためのメタデータ，ウェーブレット，時間依存拡散モデル [cs.CC, math.LO, cs.CV, cs.LG]目的：衛星画像超解像のための新規フレームワーク
- 環境モニタリング等の分野で，高精細な衛星画像が不可欠である。
- 衛星センサーの制約やコストにより，高解像度画像の取得が困難である。
- 衛星画像の解像度を向上させ，詳細なリモートセンシング分析を可能とする。
- 本研究で提案するMWT-Diffは，ウェーブレット変換と潜在拡散モデルを組み合わせることで，従来の技術と比較して優れた性能を示す。
- メタデータ，マルチスケール周波数情報，時間的関係性を捉えるMWT-Encoderが，高解像度画像の再構成を促進する。
- テクスチャパターンや境界の不連続性など，リモートセンシング分析に重要な空間特性を維持する。
Link: https://arxiv.org/abs/2506.23566
RoboEval：ロボット操作と構造化されたスケーラブルな評価の融合 [cs.RO, cs.AI, cs.CV]目的：ロボット操作の評価のための構造化されたベンチマーク
- ロボット操作は，自動化や人間の生活支援において不可欠な技術である。
- 既存の評価方法は，成功/失敗の二元論に偏り，操作の質や失敗原因の分析が困難である。
- 操作の質と失敗構造を詳細に分析できる評価指標を提供し，ロボットの性能向上を目指す。
- RoboEvalは，効率性，協調性，安全性といった多角的な指標を用いてロボット操作を評価する。
- 実験により，提案された指標は，わずかな性能差を識別し，タスクの成功との相関性を示すことが示された。
- 3000件以上の専門家によるデモンストレーションデータとモジュール化されたシミュレーション環境が提供される。
Link: https://arxiv.org/abs/2507.00435
Geometry Forcing：ビデオ拡散と3D表現の融合による一貫性のある世界モデルの構築 [cs.CV, cs.AI]目的：ビデオ拡散モデルにおける3D表現の内部化
- 現実世界は3次元であり，それを理解するためのコンピュータビジョンの研究は重要である。
- ビデオ拡散モデルは2D情報のみを学習するため，3次元構造を捉えきれない場合がある。
- ビデオ拡散モデルに幾何学的構造を導入し，3Dの一貫性を向上させることを目指す。
- Geometry Forcingは，幾何学的基礎モデルの特徴とのアラインメントを通じて，ビデオ拡散モデルの中間表現を誘導する。
- Angular AlignmentとScale Alignmentという2つのアラインメント目的関数を導入し，方向性とスケール情報の整合性を高める。
- カメラ視点条件およびアクション条件付きのビデオ生成タスクにおいて，提案手法はベースライン手法と比較して視覚品質と3Dの一貫性を大幅に向上させる。
Link: https://arxiv.org/abs/2507.07982
農業におけるAI：作物，水産養殖，畜産のための深層学習技術の調査 [cs.CV]目的：農業分野における深層学習技術の応用可能性
- 食料生産は世界人口増加に対応するため不可欠であり，効率化が求められている。
- 気候変動，資源制約，持続可能な管理の必要性など，農業には多くの課題が存在する。
- これらの課題解決のため，多様な環境に対応可能なAIモデルの開発が求められている。
- 本調査では，作物病害検出，家畜健康管理，水産種モニタリングなど，幅広いタスクにおける深層学習技術の応用事例を200件以上レビューした。
- データ変動や評価指標，地理的焦点といった実装上の課題についても考察した。
- マルチモーダルデータ統合，エッジデバイス展開，ドメイン適応型AIモデルの必要性が示唆された。
Link: https://arxiv.org/abs/2507.22101
4脚ロボットのロボットアーム制御のための視覚に基づく共有制御遠隔操作スキーム [cs.RO, cs.CV, cs.LG, cs.SY, eess.SY]目的：危険かつ遠隔環境におけるロボットアーム制御のための遠隔操作スキーム
- 災害現場や宇宙探査など，人が立ち入れない場所での作業において，ロボットの活用が不可欠である。
- 4脚ロボットの遠隔操作は複雑で，障害物検知や直感的なアーム制御が課題となり，衝突リスクが高い。
- 人間の腕の動きを直接ロボットアームに反映することで，直感的かつ安全な遠隔操作を実現することを目指す。
- 本研究では，外部カメラと機械学習モデルを用いてオペレーターのリスト位置を推定し，その動きをロボットアームの制御指令に変換するシステムを提案する。
- 提案システムは，軌道計画により障害物との衝突を検知・回避し，安全な遠隔操作を可能にする。
- 実機実験により，提案システムがリアルタイムで安定した制御性能を発揮することが確認された。
Link: https://arxiv.org/abs/2508.14994
脚部ロボットにおける把持の最適化：ロコ・マニピュレーションのための深層学習アプローチ [cs.CL, cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY]目的：四脚ロボットの把持能力向上
- ロボットの自律的な動作において，把持は重要な要素である。環境とのインタラクションに不可欠。
- 実環境での把持は，多様な状況に対応する必要があり，データ収集が困難。
- シミュレーションによる学習で，実環境への適応性を高めることを目指す。
- シミュレーション環境で生成したデータを用いて，把持品質マップを予測するCNNモデルを開発した。
- RGB-Dカメラからの情報を入力とし，把持に適した箇所を特定する。
- 四脚ロボットによる自律的なナビゲーション，知覚，把持の統合タスクを成功裡に実行した。
Link: https://arxiv.org/abs/2508.17466
社会的合意における不確実性の代償 [cs.GT, cs.MA, cs.SI]目的：社会的合意達成の困難性
- 社会現象の理解に不可欠であり，意思決定や集団行動の分析に役立つ。
- 現実のネットワークでは情報の不確実性が存在し，合意形成を阻害する要因となる。
- 不確実性が合意形成に及ぼす影響を定量的に評価し，その影響を最小限に抑える方法を探る。
- 不確実性が僅かな場合でも，社会的ネットワークにおける合意形成能力が大きく低下することが示された。
- 不確実性の代償に関する理論的な上限と下限が導出され，その評価基準が明確化された。
- 隣接ノードの色数に対する摂動（誤差）の大きさが，合意形成の困難さに直結することが明らかになった。
Link: https://arxiv.org/abs/2508.17557
大規模音声言語モデルにおける直接同時翻訳活性化 [cs.SD, cs.CL, eess.AS]目的：大規模音声言語モデルにおける同時翻訳能力の直接的な活性化
- 音声翻訳はグローバルコミュニケーションにおいて不可欠であり，そのリアルタイム化が求められている。
- 既存の研究はモデル構造の変更に依存しており，大規模モデルへの適用が困難であった。
- モデル構造を変更せずに，大規模言語モデルの潜在能力を引き出す同時翻訳手法を開発する。
- SimulSAによって，わずか1%程度の同時翻訳データで，大規模言語モデルの同時翻訳能力を大幅に向上させることが示された。
- SimulSAは，オフラインSFTデータに同時翻訳データを組み込むことで，学習データと推論データの分布差を縮小する。
- モデルアーキテクチャやデコーディング戦略の変更なしに，大規模言語モデルで同時翻訳が可能になる。
Link: https://arxiv.org/abs/2509.15692
運動学的キットバッシング [cs.RO, cs.GR]目的：関節を持つ3Dオブジェクトの合成
- 3Dモデリングにおいて，再利用可能なパーツを効率的に組み合わせる手法が求められている。
- 既存手法では，パーツ間の接続や可動範囲を考慮した自然な関節表現が難しい場合がある。
- 運動学に基づいたエネルギー関数を用いて，パーツの配置と接続を最適化する。
- 本手法は，抽象的な運動学的グラフに基づいてパーツを組み合わせ，一貫性のある関節を持つ3Dオブジェクトを生成する。
- パーツの配置には，類似アセットとの比較に基づく例示的な類似性を用いることで，関節の可動範囲全体を通して自然な接続を維持する。
- タスクレベルの機能を組み込むために，この接続エネルギーを事前分布として利用し，勾配を必要としない最適化を実現した。
Link: https://arxiv.org/abs/2510.13048
シーン幾何学を用いた自律走行のための教師なし単眼道路セグメンテーション [cs.CV]目的：道路セグメンテーションにおける手法
- 自動運転技術の発展には，周囲環境の正確な認識が不可欠である。
- 教師あり学習には大量のラベル付きデータが必要であり，コストと時間がかかる。
- ラベルなしデータのみで高精度な道路セグメンテーションを実現すること。
- 本研究では，シーン幾何学と時間的情報を活用した教師なしセグメンテーション手法を提案した。
- 水平線より上を非道路領域，車両前方の四角形を道路領域と定義し，幾何学的事前知識から弱ラベルを生成する。
- Cityscapesデータセットにおいて，IoU 0.86を達成し，既存の教師なし手法を上回る性能を示した。
Link: https://arxiv.org/abs/2510.16790
自己回帰型ビジュアル生成の損失のない高速化のための推測結合デコーディング [cs.CV]目的：自己回帰型ビジュアル生成における推測結合デコーディングによる，トレーニング不要な損失のない高速化
- 近年，ビジュアル生成において自己回帰モデルが有望視されているが，生成速度が課題となっている。
- 既存の推測デコーディング法は，速度向上，品質低下，ドラフトモデルのトレーニングが必要などの問題がある。
- 本研究は，トレーニング不要かつ損失のない高速化を実現する推測結合デコーディングを提案し，上記の課題を解決する。
- 提案手法は，既存アルゴリズムへのわずかな変更で実装可能であり，オーバーヘッドはほとんどない。
- 画像生成において最大4.2倍，動画生成において最大13.6倍の速度向上を達成した。
- 標準的な自己回帰デコーディングと比較して，品質劣化や追加のトレーニングは不要である。
Link: https://arxiv.org/abs/2510.24211
PDFからの数式抽出におけるドキュメントパーサーのベンチマーク [cs.CV, cs.AI, cs.IR]目的：PDFからの数式抽出性能の評価
- 大規模言語モデルの学習や学術知識ベース構築には，PDFから正確に数式を抽出することが不可欠である。
- 既存のベンチマークは数式を除外するか，意味に基づいた評価指標が不足しているという課題がある。
- 本研究は，数式の意味的等価性を評価できるベンチマークフレームワークを構築し，抽出性能を比較する。
- 数式抽出の評価にLLMを活用し，人間の判断との相関が0.78と高いことを確認した。従来の文字レベルマッチングでは0.34にとどまる。
- LLMに基づいた抽出とファジー検証を組み合わせた二段階のマッチングパイプラインは，数式の書式違いにも強く対応できる。
- 20以上のPDFパーサーを評価した結果，性能に大きな差があることが明らかになった。実用的な選択の指針を提供する。
Link: https://arxiv.org/abs/2512.09874
マルチスケール特徴融合による骨格スニペット対照学習 [cs.CV]目的：行動局所化のための表現学習
- 人間行動認識は，ロボット工学やヒューマンコンピュータインタラクション等の分野で重要である。
- 骨格データに基づく行動局所化は，認識に比べて難易度が高く，十分な研究が進んでいない。
- フレーム間の微妙な差異を捉え，正確な行動境界を検出するための表現学習を目指す。
- 提案手法では，骨格系列を非重複セグメントに変換し，対照学習を通じてセグメントを識別する事前学習を行う。
- 既存の骨格ベース対照学習手法に対し，BABELデータセットにおいて様々なサブセットや評価プロトコルで性能向上を実証した。
- NTU RGB+DとBABELでの事前学習により，PKUMMDデータセットにおける最先端の転移学習性能を達成した。
Link: https://arxiv.org/abs/2512.16504
合唱：汎用的な3Dガウスシーンエンコーディングのための複数教師事前学習 [cs.CV]目的：3Dガウススプラッティングシーンの包括的なエンコーダの学習
- 3Dシーンの表現において，高忠実度な表現形式として3Dガウススプラッティングが注目されている。
- 3Dガウススプラッティングのプリミティブから直接，汎用的な特徴を効果的に抽出する方法が未開拓である。
- 2Dの基礎モデルからの知識蒸留を通して，意味と構造の両方を捉えるエンコーダを構築する。
- Chorusは，言語，汎用性，オブジェクト認識といった異なる教師信号から知識を蒸留することで，3Dガウススプラッティングのエンコーダの性能を向上させる。
- 提案手法は，セマンティックセグメンテーションや質問応答など，様々なタスクにおいて優れた性能を示す。
- ガウス中心，色，法線のみを用いた事前学習でも，既存の点群ベースラインを上回る性能を達成し，汎用性の高さを示した。
Link: https://arxiv.org/abs/2512.17817
LangPrecip：言語認識型マルチモーダル降水短時間予報 [cs.CE, cs.IR, cs.MM, cs.LG, cs.AI, cs.CV]目的：降水短時間予報における言語情報の活用
- 短時間予報は，突発的な気象現象への対応に不可欠であり，社会への貢献度が高い。
- 既存手法では，視覚情報への依存が高く，降水の動きの予測が曖昧になりがちである。
- 気象テキストを意味的な制約として利用し，より正確な降水予測を目指す。
- 提案手法LangPrecipは，テキスト情報とレーダー情報を統合し，物理的に整合性の高い予測を実現した。
- LangPrecip-160kという大規模データセットを構築し，学習データ不足の問題を克服した。
- スウェーデンとMRMSデータセットにおいて，最先端手法と比較してCSIが大幅に向上した。
Link: https://arxiv.org/abs/2512.22317
疎なデータ木冠セグメンテーション：わずか150枚の画像で主要な事前学習モデルのファインチューニング [cs.NI, cs.HC, cs.CV, cs.AI]目的：樹冠セグメンテーションの性能評価
- 環境モニタリング，都市計画，生態系分析において，樹冠の検出は重要なタスクである。
- データに偏りがあり，データセットが小さいため，深層モデルの過学習が深刻な問題となる。
- 限られたデータセットでも，効果的な樹冠検出手法を確立することを目的とする。
- 事前学習済みの畳み込みベースのモデル（YOLOv11，Mask R-CNN）は，Transformerベースのモデルよりも汎化性能が高いことが示された。
- DeepLabv3，Swin-UNet，DINOv2は，セマンティックセグメンテーションとインスタンスセグメンテーションの違いや，Vision Transformerのデータ要件の高さから性能が劣った。
- Transformerアーキテクチャは，大規模な事前学習やデータ拡張がない場合，少ないデータセット下では苦戦することが確認された。
Link: https://arxiv.org/abs/2601.10931
単一RGB画像からの物理に基づく視覚的質量推定 [cs.CV, cs.AI]目的：単一RGB画像からの物体の質量推定
- 物体認識において，質量は重要な属性の一つであり，ロボット工学などへの応用が期待される。
- RGB画像だけでは，質量を決定する体積と密度を直接的に把握することが困難である。
- 視覚的特徴と物理的要素を結びつけ，質量推定の曖昧さを解消することを目指す。
- 提案手法は，単眼深度推定により3次元形状を復元し，言語モデルで材質情報を抽出し，質量推定に活用する。
- 形状，意味，外観情報を融合させ，体積と密度に関連する潜在因子を推定する。
- Image2MassとABO-500の実験で，提案手法が既存手法を上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2601.20303