arXiv雑要約
画像・音声 - 2026/04/22 公開
プロンプト制御拡散増強によるロングテールバイアスの軽減 [cs.CV]目的:ロングテールバイアス軽減のための拡散増強フレームワーク
- 高解像度リモートセンシング画像におけるセマンティックセグメンテーションは,土地利用分析等に不可欠である。
- 少数クラスのセグメンテーション精度が低く,特にクロスドメイン設定では顕著に問題となる。
- 少数クラスをターゲットとしたデータ増強により,セグメンテーション精度の向上を目指す。
- プロンプト制御による拡散増強により,現実的な空間共起関係を保ちつつ,クラス比率を調整した合成データが生成された。
- 生成された合成データを実データと混合することで,特に少数クラスやドメインシフト下でセグメンテーション性能が向上した。
- 適切なサンプルを適切な割合で加えることで,より良い下流タスクのセグメンテーション結果が得られることが示された。
TFusionOcc:T-プリミティブに基づく物体中心マルチセンサーフュージョンフレームワークによる3D占有予測 [cs.CV, cs.AI, cs.RO]目的:3Dセマンティック占有予測のための物体中心マルチセンサーフュージョン
- 自動運転車の安全なナビゲーションと意思決定には,詳細な3Dシーン構造の理解が不可欠である。
- 既存手法は,ボクセルベースでは無駄な計算コストが生じ,ガウスプリミティブでは複雑な形状の表現に限界がある。
- 複雑な形状も扱える,T-プリミティブを用いた効率的な3D占有予測手法を開発する。
- 提案手法TFusionOccは,Students t分布に基づくT-プリミティブを利用し,カメラとLiDAR情報を効果的に統合する。
- 実験結果から,TFusionOccはnuScenesデータセットにおいて最先端の性能を発揮することが示された。
- nuScenes-Cデータセットでの評価により,TFusionOccのロバスト性が確認された。
VimRAG:Retrieval-Augmented Generationにおけるマルチモーダルメモリグラフを用いた大規模視覚的コンテキストのナビゲーション [cs.CV, cs.CL]目的:マルチモーダルRetrieval-Augmented Generationにおける視覚的コンテキストのナビゲーション
- エージェントシステムの高度化には,マルチモーダル情報の効果的な活用が不可欠である。
- 従来のRAG手法は,長文脈処理や視覚データのような情報密度の低いデータに弱点がある。
- 視覚情報を活用したRAGの性能向上と,複雑な推論における効率的なメモリ管理を実現する。
- VimRAGは,テキスト,画像,動画を統合したマルチモーダルRAGフレームワークを提案する。
- 推論プロセスを動的有向非巡回グラフとしてモデル化し,重要な証拠に高解像度トークンを割り当てる。
- 提案手法は,様々なマルチモーダルRAGベンチマークにおいて最先端の性能を達成した。
CLIPoint3D:言語に基づいた少数ショットによる3D点群ドメイン適応 [cs.CV, cs.LG]目的:3D点群のドメイン適応における性能向上
- 画像認識の進展に伴い,3D点群処理への応用が期待されている。
- 合成データから実データへの適応は,モデルの汎化性能が課題となる。
- CLIPを基盤とし,少ないデータで効率的にドメイン適応を実現する。
- CLIPoint3Dは,従来のCLIPベースおよびエンコーダーベースの手法と比較して,一貫して3-16%の精度向上を達成した。
- 3Dサンプルを複数の深度マップに投影し,知識に基づいたプロンプト調整により,CLIPの性能を最大限に活用している。
- 最適輸送に基づくアラインメント損失と不確実性を考慮したプロトタイプアラインメント損失が,ソースとターゲットの分布間のギャップを埋めている。
逐語から要旨へ:意味的情報ボトルネックによるピラミッド型マルチモーダルメモリの蒸留と長期的ビデオエージェント [cs.CV, cs.AI, cs.CL, cs.IR, cs.MM]目的:長期的ビデオ理解のためのピラミッド型マルチモーダルメモリ構造
- ビデオ理解は,ロボット工学や自動運転など幅広い分野で重要であり,高度な知能の実現に不可欠である。
- 既存のモデルは,文脈長の制限や静的なメモリ機構により,長期的なビデオ理解に苦戦している。
- 視覚情報とテキスト情報のバランスを取り,効率的なメモリ構造を構築することで,長期的なビデオ理解を可能にする。
- MM-Memは,感覚バッファ,エピソードストリーム,象徴的スキーマという階層的なメモリ構造を採用し,知覚的痕跡を意味的スキーマに段階的に蒸留する。
- 意味的情報ボトルネック目的関数とSIB-GRPOを用いて,メモリ圧縮とタスク関連情報の保持とのトレードオフを最適化する。
- 4つのベンチマークにおける実験により,MM-Memがオフラインおよびストリーミングタスクの両方で最先端の性能を達成し,頑健な汎化能力を示すことが確認された。
AD-Copilot:視覚的文脈内比較による産業異常検知のためのビジョン言語アシスタント [cs.CV, cs.AI]目的:産業異常検知のための視覚的文脈内比較によるビジョン言語アシスタントの開発
- 製造業における品質管理は重要であり,異常検知はその自動化を支える基盤技術である。
- 既存のマルチモーダル大規模言語モデルは,汎用データで学習されているため,産業画像への適応が課題である。
- 視覚的文脈内比較を通じて,微妙な視覚的差異を捉え,産業異常検知の精度向上を目指す。
- AD-Copilotは,視覚的特徴間のクロスアテンションを用いた比較エンコーダにより,微細な異常の認識能力を高めた。
- MMADベンチマークにおいて82.3%の精度を達成し,既存モデルを大幅に上回る性能を示した。
- 特定のIADタスクにおいて,人間の専門家レベルを超える性能を発揮し,実用的な産業検査アシスタントとしての可能性を示唆した。
Affectron:感情的および文脈的に整合した非言語性発声による感情音声合成 [cs.SD]目的:感情音声合成における感情的および文脈的に整合した非言語性発声の生成
- 音声合成において,感情表現は重要であり,非言語性発声はその鍵となる要素である。
- 非言語性発声のデータが限られており,適切なタイミングでの挿入が困難である。
- 多様で文脈に合った非言語性発声を生成し,より自然な感情音声合成を実現すること。
- Affectronは,小規模なデータセットを活用し,非言語性発声を効果的に学習するフレームワークである。
- 非言語性発声の多様性と挿入場所の分布を拡大する学習戦略により,より表現力豊かな発声が可能となった。
- 実験結果から,Affectronはベースラインと比較して,自然性を維持しつつ,より多様な非言語性発声を生成することが示された。
マップよりもメモリ:再構成を伴わない3D物体局所化 [cs.AR, cs.RO, cs.CV]目的:3D物体局所化
- ロボットのナビゲーションや操作といった,具現化されたタスクの遂行には,対象物の局所化が不可欠である。
- 従来の技術は,点群やボクセルグリッドなどの3Dシーン表現の構築に依存するため,処理時間やストレージ容量に課題がある。
- 本研究は,密な3D再構成を行わずに,画像ベースのシーンメモリから直接推論することで,効率的な物体局所化を実現する。
- 提案手法は,シーン全体の3D表現を構築せず,RGB-Dキーフレームのみを軽量な視覚メモリとして保存する,マップフリーなパイプラインである。
- 従来の再構成ベースの手法と比較して,前処理コストを大幅に削減し,シーンインデックス作成の速度を2桁以上向上させ,ストレージ使用量を大幅に削減する。
- タスク固有の学習を必要とせずに,複数のベンチマークで強力な性能を発揮し,画像ベースのシーンメモリからの直接推論が,物体中心のロボットナビゲーションにおいて高密度な3D再構成に代わる有効な手段となることを示す。
アクティブマッピングのためのImagined Gaussianによる効率的な長期計画フレームワークMAGICIAN [cs.CV, cs.RO]目的:未知環境の効率的な再構成のためのエージェントの移動方法の決定
- ロボットが未知の環境で自律的に行動するためには,効率的な環境地図作成が不可欠である。
- 既存手法は貪欲な次善視点予測に依存し,探索効率が悪く,再構成が不完全になりがちである。
- 3D Gaussian Splattingに基づく表現を用いて,長期的な視点計画による探索効率の向上を目指す。
- 提案手法MAGICIANは,Imagined Gaussianを用いて表面被覆率の累積増加を最大化する長期計画フレームワークである。
- 高速な体積レンダリングにより,任意の視点での被覆率増加を効率的に計算し,木構造探索アルゴリズムに組み込む。
- 屋内および屋外のベンチマークにおいて,最先端の性能を達成し,長期計画の有効性を示した。
ORSIFlow:顕著性誘導修正フローによる光学リモートセンシング顕著物体検出 [cs.CL, cs.CV]目的:光学リモートセンシング画像における顕著物体検出の性能向上
- リモートセンシング技術は,地球観測や資源管理において不可欠な役割を担う。
- 複雑な背景,低いコントラスト,不規則な形状,そして対象物のスケール変動が課題。
- 効率的かつ高精度な顕著物体検出を実現し,リモートセンシングの応用範囲を拡大。
- ORSIFlowは,顕著性誘導修正フローという新たなフレームワークを提案し,課題解決に貢献。
- 潜在空間での効率的な推論を可能にし,計算コストを大幅に削減。
- 複数のベンチマークにおいて,最新技術を上回る性能と効率性を実証。
Q-Mask:OCR指向の視覚言語モデルにおけるテキストアンカリングのためのクエリ駆動型因果マスク [cs.CV]目的:OCR指向の視覚言語モデルにおけるテキストアンカリングの精度向上
- 近年の視覚言語モデルにおいて,OCR技術は重要な基盤技術となりつつある。
- 既存モデルは,クエリされたテキストを対応する空間領域に正確に結びつけることに苦戦している。
- クエリ駆動型因果マスクを用いて,テキストアンカリングの安定性と精度を向上させる。
- Q-Maskは,クエリ条件付きの視覚マスクを逐次生成する因果的視覚デコーディングにより,テキストの位置と内容を分離する。
- TextAnchor-26Mという大規模データセットを用いて,安定したテキスト領域対応を学習し,視覚言語モデルに空間的priorを注入する。
- 実験結果から,Q-Maskは様々な視覚シーンにおいてテキストアンカリングと理解を大幅に改善することが示された。
組織病理画像と多目的パッチ選択を用いたPAM50サブタイプ分類のための深層学習パイプライン [cs.CV, cs.AI]目的:組織病理画像からのPAM50サブタイプ分類
- 乳癌は分子プロファイルが多様であり,個別化医療の必要性が高まっている。
- PAM50サブタイプ分類は遺伝子検査に依存しており,コストと時間がかかる。
- 組織病理画像のみから高精度なPAM50サブタイプ分類を実現することを目指す。
- 本研究で提案する手法は,TCGA-BRCAデータセットにおいてF1スコア0.8812,AUC 0.9841を達成した。
- 外部検証データセットCPTAC-BRCAでは,F1スコア0.7952,AUC 0.9512を示し,良好な汎化性能を確認した。
- 最適化と不確実性に基づいたパッチ選択が,計算効率と分類性能の向上に貢献すると示唆された。
長期的操作のための利得報酬モデリング (ARM) [cs.RO, cs.AI, cs.CV]目的:長期的ロボット操作における報酬の効率的な学習
- ロボットの自律的な操作は,人間の作業を代替し,様々なタスクを自動化する上で重要である。
- 強化学習では,疎な報酬設定が学習のボトルネックとなり,効率的な探索が困難である。
- 人間の介入を最小限に抑えつつ,より効率的な報酬学習を実現し,複雑な操作タスクを成功させる。
- 提案手法ARMは,絶対的な進捗ではなく相対的な利得を推定することで,効率的な報酬学習を可能にする。
- 新しいラベル戦略により,人間の認知負荷を軽減しつつ,高いアノテーションの一貫性を実現した。
- 複雑なタオル折りタスクにおいて,99.4%という高い成功率を達成し,既存手法を上回る安定性とデータ効率を示した。
分子構造認識のためのDeepSeek-OCR-2のファインチューニング [cs.CL, cs.CY, cs.HC, cs.CV, cs.AI, q-bio.BM]目的:分子光学認識タスクにおける性能向上
- 化学構造のデジタル化は,創薬や物質科学の研究において不可欠である。
- 既存のOCRモデルでは,化学構造の正確な認識が困難であり,誤認識が頻発する。
- 大規模データを用いたファインチューニング戦略により,化学構造認識の精度向上を目指す。
- 提案手法MolSeek-OCRは,画像からSMILES文字列を生成するタスクにおいて高い性能を示す。
- 既存の画像からシーケンスへの変換モデルと同等の精度を達成したが,画像からグラフへの変換モデルには劣る。
- 強化学習やデータキュレーションによるさらなる精度向上は,厳密なSMILES文字列の一致性確保の面で効果が限定的であった。
現実世界のマルチビュー煙復元のための物理ベース誘導型疑似クリーン3DGS:SmokeGS-R [eess.SY, cs.SY, math.OC, cs.CV]目的:現実世界のマルチビュー煙復元のための実用的なパイプライン
- 実世界の画像は,煙の影響で画質が低下し,3D再構成の精度が課題となる。
- 煙はシーンの輝度を減衰させ,光の散乱を引き起こし,マルチビューの一貫性を損なう。
- 煙の影響を軽減し,正確な3D再構成を可能にする手法の開発。
- 提案手法SmokeGS-Rは,幾何学的な復元と外観の修正を分離することで,安定した復元を実現した。
- 公式チャレンジのテストリーダーボードにおいて,PSNR=15.217,SSIM=0.666を達成した。
- RealX3Dの公開データセットを用いた評価においても,既存のベースライン平均を上回る性能を示した。
VDPP:速度とスケーラビリティのためのビデオ深度後処理 [cs.CV]目的:ビデオ深度推定の速度と精度向上
- 自動運転や複合現実など,3Dシーン構造の提供は様々な応用分野で不可欠である。
- 既存のE2Eモデルは高性能だが,単眼深度推定器の進歩に追従するための再学習が必要となる。
- 後処理手法により,既存モデルの再学習なしに最新の深度推定モデルを組み込むことを可能とする。
- VDPPは,計算コストの高いシーン再構築から,低解像度空間でのターゲットを絞った幾何学的洗練へとパラダイムをシフトさせる。
- NVIDIA Jetson Orin Nano上で43.5 FPSを超える高速性を実現しつつ,E2Eシステムと同等の時間的整合性を維持する。
- RGB画像に依存しないアーキテクチャにより,あらゆる単眼深度モデルとの即時的な統合が可能となり,真のスケーラビリティを実現する。
時間と空間の架け橋:ビデオグラウンディングのための空間的・時間的アラインメントの分離 [cs.IR, cs.CV]目的:ビデオグラウンディングにおける空間的・時間的局所化
- ビデオ理解は,多様な応用を可能にする基盤技術であり,その重要性は高い。
- 既存のマルチモーダル大規模言語モデルは,空間的・時間的アラインメントを同時に行うことに課題がある。
- 空間的・時間的局所化を分離することで,より効率的なビデオグラウンディングを目指す。
- 提案手法Bridge-STGは,空間的・時間的局所化を分離し,セマンティックな一貫性を維持する。
- Spatio-Temporal Semantic Bridging (STSB)機構により,言語モデルの時間的推論コンテキストを空間デコーダへ効率的に伝達する。
- VidSTGにおいて平均m\_vIoUを26.4から34.3へ改善し,最先端の性能を達成した。
LAMP:汎用的な3D事前知識としての画像編集の活用によるオープンワールド操作 [cs.CV]目的:オープンワールドにおける汎用的なロボット操作
- ロボット操作において,人間のような汎用性を実現することは重要課題である。
- 既存手法は,新しいタスクや未知の環境への対応が困難であるという課題がある。
- 3D空間における正確な操作ガイダンスを提供し,オープンワールド操作の汎化性能を高める。
- LAMPは,画像編集を3D事前知識として活用し,オブジェクト間の3D変換を抽出する。
- この手法は,画像編集に内在する2D空間情報を3D変換に変換することで,高精度な操作を可能にする。
- 実験により,LAMPが正確な3D変換を実現し,オープンワールド操作において高いゼロショット汎化性能を示すことが確認された。
多周波数VisNet階層における教師なし局所可塑性 [cs.CV, cs.AI]目的:教師なし視覚表現学習システム
- 視覚情報の効率的な処理は,人工知能の発展に不可欠である。
- 従来の学習方法はラベルやバックプロパゲーションに依存し,生物学的な妥当性に課題がある。
- ラベルを用いない局所的な可塑性規則による視覚表現学習の可能性を探る。
- 本システムは,ラベル,バックプロパゲーション,またはグローバルな誤差信号なしに,CIFAR-10で80.1%の精度を達成した。
- アンチヘブ学習,自由エネルギーに基づく可塑性,および連想記憶が主な貢献因子であり,相乗効果が認められた。
- 可塑性のみが性能向上に寄与していることを示唆し,バックプロパゲーションで学習したCNNとの性能差を縮小した。
悪条件下におけるレーダー情報を用いた3次元マルチオブジェクトトラッキング [cs.CV]目的:悪条件下での3次元マルチオブジェクトトラッキングの堅牢性向上
- 自動運転やロボティクスにおいて,周囲の状況を正確に把握する能力は不可欠である。
- 既存のマルチモーダル手法では,レーダーが単なる特徴量として扱われ,環境悪化時にその利点が失われる。
- レーダー情報を明示的に活用し,長距離における物体検出と状態推定の精度を向上させる。
- 提案手法RadarMOTは,レーダー点群を状態推定の改善と長距離の物体検出に利用する。
- MAN-TruckScenesデータセットでの評価により,RadarMOTが長距離で平均マルチオブジェクトトラッキング精度(AMOTA)を12.7%,悪天候下で最大10.3%向上させることが示された。
- レーダー情報を効果的に活用することで,悪条件下でのトラッキング性能を大幅に改善できることが明らかになった。
報酬を考慮した軌道形状化による少ステップビジュアル生成 [cs.CV]目的:少ステップビジュアル生成における生成品質の向上
- 生成モデルの重要な目標は,少ない計算ステップで高品質な画像を生成することである。
- 既存手法は,教師モデルの性能に制限され,教師を超えることが困難である。
- 報酬に基づいた軌道形状化により,教師の模倣に縛られず,生成品質を向上させる。
- 提案手法RATSは,教師と生徒の潜在軌道を水平線マッチングで整列させ,報酬を考慮したゲートで教師の指導を適応的に調整する。
- 教師の報酬が高い場合に軌道形状化を強化し,生徒が教師に匹敵または上回る場合に緩和することで,継続的な報酬駆動型改善を実現する。
- 実験結果から,RATSは少ステップビジュアル生成における効率性と品質のトレードオフを大幅に改善し,多ステップジェネレーターとの差を縮小することが示された。
フローマッチングの驚くべき安定性 [cs.CV]目的:フローマッチングモデルにおけるサンプル品質と多様性の安定性
- 深層生成モデルは高品質なサンプル生成に不可欠であり,その応用範囲は広い。
- モデルの性能は,アーキテクチャやデータセットの規模に大きく依存すると考えられていた。
- データやアーキテクチャの変更に対する安定性を定量的に評価し,そのメカニズムを解明する。
- CelebA-HQデータセットにおいて,データセットの50%を削除してもフローマッチングの安定性が維持された。
- データ削除は潜在表現にわずかな影響しか与えず,生成サンプルは類似した出力を示した。
- アーキテクチャや学習設定を変更しても同様の安定性が確認され,潜在表現が維持された。
画像影の除去に関するCVPR2026 NTIREチャレンジ優勝:カスケードリファインメントによる意味的・幾何学的ガイダンス [cs.CV]目的:画像影の除去手法の開発と性能向上
- 画像処理において,画像の品質向上は重要な課題であり,影の除去はその一環である。
- 既存の影除去手法では,アーティファクトの除去や多様なシーンへの適応が課題となっていた。
- 意味的・幾何学的ガイダンスとカスケードリファインメントにより,より自然な影除去を目指す。
- 提案手法は,RGB画像に加えて,DINOv2による意味的情報と,単眼深度・表面法線からの幾何学的情報を活用する。
- カスケード構造と収縮制約損失関数により,多段階最適化の安定化を実現し,WSRD+ 2026データセットで最高性能を達成した。
- ISTD+とUAV-SC+データセットにおいても高い性能が確認され,汎用性の高さを示した。
非言語性発声を含む音声合成のためのベンチマーク:NVBench [cs.SD]目的:非言語性発声(NVV)を含む音声合成の評価
- 人間らしい自然な音声合成を実現するには,笑いやため息などの非言語性発声が不可欠である。
- NVVの生成,配置,および音声への影響を総合的に評価する標準的な手法が不足している。
- NVVの制御性,配置,顕著性を評価する統一されたフレームワークを構築し,システム間の公平な比較を可能にする。
- NVBenchは,45種類のNVV分類体系と,英語と中国語の二言語に対応したデータセットを提供する。
- 評価の結果,NVVの制御性と音質が必ずしも一致せず,低S/N比の口頭的合図や長時間の情動的なNVVが課題であることが示された。
- NVBenchは,多様な制御インターフェース下で,システム間の公平な比較を可能にする標準化されたフレームワークを提供する。
幾何構造を意識したCLIP検索:局所クロスモーダルアライメントとステアリング [cs.CV, cs.AI]目的:幾何構造に基づいたCLIP検索の性能向上
- 画像とテキストの関連性を評価する上で,CLIPモデルは重要な役割を担う。
- CLIP検索は,局所的な幾何学的矛盾により,周辺項目の順序が誤っている場合がある。
- 局所的な構造に着目し,検索結果の正確性と制御性を向上させる。
- ハンガリー法を用いた近傍再ランキングにより,構造的な整合性が向上し,検索性能が改善される。
- クエリに条件付けられた局所的なステアリングにより,検索結果の近傍構造が制御され,属性結合や構成的検索タスクにおいて性能が向上する。
- 再ランキングと局所的ステアリングは異なる役割を果たし,局所構造の重要性を示している。
BARD:効率的なプログレッシブブロックマージと段階的知識蒸留による自己回帰型と拡散型ビジョン言語モデルの架け橋 [cs.CV, cs.LG]目的:自己回帰型ビジョン言語モデルから,同じアーキテクチャの効率的な拡散型ビジョン言語モデルへの変換
- マルチモーダルなタスクにおいて,ビジョンと言語を統合したモデルの重要性が高まっている。
- 自己回帰型モデルの逐次的なデコーディングは推論速度のボトルネックとなる。
- 事前学習済みの自己回帰型モデルを拡散型モデルに変換する際の性能劣化を抑制すること。
- BARDは,プログレッシブブロックマージと段階的知識蒸留を組み合わせることで,自己回帰型モデルの能力を拡散型モデルに効果的に移行させる。
- 少ないデータ(最大440万件)でQwen3-VLのマルチモーダル能力を大規模ブロック拡散型モデルに転移させることに成功した。
- 評価スイートにおいて,40億および80億パラメータ規模の同等のオープン拡散型ビジョン言語モデルの中で,最先端の性能を達成し,最大3倍のデコーディング速度向上を実現した。
古代碑文テクスチャ復元のための学習不要マルチ事例深層フレームワークMESA [cs.CV, cs.AI, cs.GR]目的:古代碑文の損傷箇所の復元
- 歴史的資料の保存・解読において,碑文は重要な一次情報源である。
- 碑文は破損や風化により情報が失われ,読解や分析を困難にする場合がある。
- MESAは,類似した碑文を利用し,損傷部分のテクスチャを効果的に復元することを試みる。
- MESAは,既存の画像復元手法の限界を克服し,高い復元精度を実現した。
- VGG19の畳み込み特徴をグラム行列としてエンコードすることで,碑文のスタイルや筆致を捉えている。
- 文字幅推定に基づいた層ごとの重み付けにより,文字形状に合わせたフィルタリングが可能となった。
IncreFA:生成モデル帰属の静的な壁を打ち破る [cs.CV]目的:生成モデルの帰属に関する構造化された継続学習
- AI生成モデルの急速な進化に伴い,画像の帰属判定の重要性が増している。
- 既存手法は新しい生成モデルの登場によりすぐに陳腐化するため,帰属判定の適応性が課題となっている。
- 生成モデルの構造的関係性を活用し,継続的な適応を通じて帰属判定の精度向上を目指す。
- IncreFAは,生成モデルの階層構造を活かし,モデル固有の特徴と共通の特徴を分離する。
- 潜在的記憶バンクにより,未知のモデルに対する識別能力を向上させ,表現のドリフトを抑制する。
- 2022年から2025年にかけて発表された28の生成モデルを用いた実験で,最先端の性能を達成した。
DuQuant++:微細回転がFP4量子化のマイクロスケール化を向上 [cs.CV, cs.AI, cs.CL]目的:LLM推論効率化のためのMXFP4マイクロスケール化における量子化誤差の低減
- 大規模言語モデルの推論コスト削減は,実用化において重要な課題である。
- MXFP4形式では,外れ値がブロックスケールを増大させ,量子化誤差を引き起こす。
- 外れ値に特化した微細回転によって,MXFP4形式における量子化誤差を軽減すること。
- DuQuant++は,MXFP4形式にDuQuantの外れ値対応微細回転を適用することで,回転コストを半減させた。
- LLaMA-3ファミリーを用いた実験で,DuQuant++は最先端の性能を達成した。
- ブロックスケール間の分散の問題が解消され,単一の外れ値対応回転で処理が可能となった。
テキストによる指示に基づく弱学習参照ビデオオブジェクトセグメンテーション [cs.CY, cs.HC, cs.CV]目的:テキスト指示によるビデオ内対象インスタンスのセグメンテーション
- ビデオ理解の高度化に不可欠であり,人間とコンピュータの円滑なコミュニケーション実現に寄与する。
- 従来のセグメンテーションには高コストなピクセルレベルのマスクアノテーションが必要となる。
- テキスト指示のみでセグメンテーションを可能にし,アノテーションコストを削減することを目指す。
- 大規模言語モデルを活用した参照表現の拡張により,正負両方の表現を生成することで学習を強化。
- 視覚特徴と言語特徴の双方向選択と相互作用により,詳細なマルチモーダルアライメントを実現。
- インスタンス認識型表現分類と正予測融合戦略により,高品質な擬似マスクを生成し,追加の学習監督信号を提供する。
MM-JudgeBias:MLLM-as-a-Judgeにおける構成的バイアスの評価ベンチマーク [cs.CL, cs.AI, cs.CV]目的:MLLM-as-a-Judgeにおける構成的バイアスの評価
- 近年,MLLMを自動評価者として活用する研究が進む。
- MLLMの信頼性やバイアスに対する脆弱性は未解明な点が多い。
- 視覚・テキスト情報の統合の不備による評価の不安定性を解消する。
- 多くのMLLMは重要な視覚・テキスト情報を適切に統合できず,信頼性の低い評価を示す。
- MM-JudgeBiasは,クエリ,画像,応答に対する制御された摂動を通じて,バイアスを評価する。
- 26個の最先端MLLM実験により,モダリティの無視や評価傾向の非対称性が明らかになった。
必要に応じて記憶:空間的に整合的な長尺ビデオ生成のための分離型メモリ制御 [cs.CV]目的:空間的な整合性の維持
- 長尺ビデオ生成は,現実世界の多様な視覚的シナリオを再現する上で不可欠である。
- 既存手法はメモリと生成が密結合で,シーン再訪時の不整合や,新規領域探索時の生成能力低下が課題となる。
- メモリと生成の分離により,空間整合性と生成能力の両立を目指す。
- 提案手法は,メモリ学習のコストを削減しつつ,空間整合性を向上させ,新規シーン探索能力を維持する。
- ハイブリッドなメモリ表現とフレームごとのクロスアテンションにより,空間的に関連性の高い過去情報を活用する。
- カメラ認識ゲート機構により,意味のある過去参照が存在する場合のみメモリが生成に影響を与える。
EFXへの反例:3人以上のエージェント,n+5個以上のアイテム,単調な評価関数 [cs.GT, cs.DS]目的:不分割財の公正な分配問題におけるEFX(任意のアイテムの削除に対する羨望の自由性)の存在性
- 不分割財の公正分配は,資源配分における公平性の重要な理論的基盤である。
- EFXの成立条件は完全には解明されておらず,特定の条件下での存在性証明が課題であった。
- エージェント数とアイテム数がある条件を満たす場合におけるEFXの非成立を示すこと。
- エージェントが3人,アイテムが7個の場合,EFXが成立することはSATソルバーによる証明で確認された。
- エージェントが3人,アイテムが8個の場合,EFXが成立しない反例がSATソルバーによって見出され,検証された。
- エージェントが3人以上,アイテムがn+5個以上の場合,SATソルバーを用いずに反例の拡張が示された。
UDM-GRPO:一様離散拡散モデルのための安定かつ効率的なグループ相対方策最適化 [cs.ET, cs.CL, cs.CV, cs.LG]目的:一様離散拡散モデルと強化学習の統合
- 離散生成モデリングの新たな手法として,一様離散拡散モデルが注目されている。
- 既存の強化学習アルゴリズムを単純に適用すると,学習が不安定になり,性能向上が限定的になる。
- 拡散モデルと強化学習を安定的に統合し,生成性能を向上させることを目指す。
- 提案手法UDM-GRPOは,画像生成タスクにおいてベースラインモデルの性能を大幅に向上させる。
- GenEvalの精度は69%から96%に,PickScoreは20.46から23.81に向上し,最先端の性能を達成した。
- OCRベンチマークでは精度が8%から57%に向上し,汎化能力を実証した。
AnchorSeg: 言語に基づいたクエリバンクによる推論セグメンテーション [cs.CV]目的:推論セグメンテーションのための言語に基づいたクエリバンク
- 画像理解において,テキストによる指示に基づいた正確な領域抽出は重要な課題である。
- 既存手法では,セグメンテーションに必要な意味推論と空間局在化が単一のトークンに圧縮され,分離が困難である。
- 言語に基づいたクエリバンクにより,意味推論と空間局在化を明示的に分離し,セグメンテーション精度を向上させる。
- AnchorSegは,言語に基づいたクエリバンクを用いて,推論セグメンテーションを構造化された条件付き生成プロセスとして再構築する。
- 中間的な意味状態を捉える潜在的な推論トークンと,空間的根拠を提供するセグメンテーションアンカーの順序付けられたクエリバンクを構築する。
- ReasonSegテストセットにおいて,最先端の結果(67.7% gIoU,68.1% cIoU)を達成した。
マルチワールド:スケーラブルなマルチエージェントマルチビュービデオワールドモデル [cs.CV]目的:マルチエージェント,マルチビュー環境におけるビデオワールドモデルの構築
- 現実世界の複雑なインタラクションを理解・再現するため,マルチエージェント環境のシミュレーションが重要である。
- 既存のビデオワールドモデルは単一エージェントに限定されており,複数エージェント間の協調や競合を捉えられない。
- マルチエージェント,マルチビュー環境における高精度な制御と一貫性を実現するモデルを開発すること。
- MultiWorldは,マルチエージェントの制御性とマルチビューの一貫性を両立する統一的なフレームワークである。
- マルチエージェント条件モジュールとグローバル状態エンコーダにより,正確な制御と一貫した観察を実現した。
- マルチプレイヤーゲーム環境と多ロボット操作タスクにおいて,ベースラインモデルを上回る性能を示した。
表現力豊かな音声合成のための物語理解 [eess.AS, cs.CL, cs.SD]目的:物語の構造を理解することによる,表現力豊かな音声合成
- 音声合成技術は近年目覚ましい進歩を遂げているが,物語データの活用は十分ではない。
- 既存の音声データは単調になりがちで,登場人物の感情や状況に応じた表現が不足している。
- 物語の引用句に着目し,文脈情報と表現ラベルを付与することで,より自然な音声合成を目指す。
- 新たに構築した大規模データセットLibriQuoteを用いて,音声合成モデルのファインチューニングを行った結果,表現力と明瞭度が向上した。
- LibriQuoteで学習したモデルは,特に登場人物の台詞において,より自然で豊かな表現を生成することが確認された。
- 本研究で公開したデータセット,コード,評価指標は,今後の研究発展に貢献することが期待される。
MR画像再構成のための事前条件付き非調整ランジェバンアルゴリズムによる高速堅牢な拡散事後サンプリング [physics.med-ph, cs.CV, cs.LG, math.PR]目的:MR画像再構成における高速収束を可能にするロバストなサンプリングアルゴリズムの開発
- MRIは,病気の診断や治療において不可欠な画像診断技術であるため,その高速化・高画質化は重要課題である。
- 高度にアンダーサンプリングされたk空間データからの再構成は,計算時間が長く,パラメータ調整が難しいという課題がある。
- 拡散事後サンプリングの収束速度を改善し,パラメータ調整の必要性をなくすことを目指す。
- 提案手法は,カルテシアンおよび非カルテシアン加速MRIにおいて,焼きなましサンプリングやDPSよりも高速な再構成速度とサンプル品質を実現した。
- 事前条件付き正確尤度を用いることで,様々なMRI再構成タスクにおいて,高速かつ信頼性の高い事後サンプリングが可能となった。
- 提案手法は,パラメータ調整を必要とせずに,安定した結果が得られる。
フローマッチングによるリアルタイムストリーミング生成音声復元 [eess.SP, cs.LG, cs.SD]目的:リアルタイム通信における生成音声処理の実現
- 近年の音声処理分野において,拡散モデルに基づく生成モデルが注目されており,自然な音声合成が可能となっている。
- 拡散モデルは計算コストが高く,リアルタイム通信への応用が遅れている。
- 低遅延かつ高品質なストリーミング生成音声処理システムの構築を目指す。
- Stream$.$FMは,アルゴリズム遅延32ミリ秒,総遅延48ミリ秒を実現し,リアルタイム通信における生成音声処理への道を開いた。
- 提案手法は,バッファリングストリーミング推論スキームと最適化されたDNNアーキテクチャを採用し,計算資源と品質のトレードオフを考慮したモデル圧縮を検討した。
- Stream$.$FMは,様々な音声処理タスク(ノイズ除去,残響除去など)において,最先端の性能を示し,非ストリーミングモデルと比較して品質の低下を抑えた。
ハイパースペクトルリモートセンシング画像の教師なし超解像のための合成存在量マップ [eess.IV, cs.GR, eess.SP]目的:ハイパースペクトル画像の空間解像度向上
- ハイパースペクトル画像は,多様な地表面情報を詳細に分析可能にするため重要。
- 既存の超解像手法は教師データに依存し,実用上の課題となっていた。
- 教師データなしでハイパースペクトル画像の超解像を実現する。
- 合成された存在量データを用いた教師なし学習フレームワークを提案した。
- 提案手法は,3つのデータセットと3つの拡大率で有効性が確認された。
- 合成データによる学習の価値と,手法の有効性が示された。
