arXiv雑要約

画像・音声 - 2026/05/08 公開

AIによるアイデア多様性の崩壊の事前評価 [cs.AI, cs.GT]目的：AI誘発性アイデア多様性崩壊
- 創造性は社会経済活動の根幹であり，AIによる創造性の拡張が期待される。
- AIの生成するアイデアが類似しやすく，多様性が失われる可能性がある。
- AIによるアイデアの混雑リスクを，人間とのインタラクションなしに評価する。
- アイデアを混雑可能な資源と捉え，モデル生成のみで混雑度を評価する指標を提案した。
- 3つの最先端LLMにおいて，多様性の評価指標が人間の水準を下回ることが示された。
- 生成プロトコルの工夫により，多様性の崩壊を抑制可能であることが示唆された。
Link: https://arxiv.org/abs/2605.06540
連続潜在拡散言語モデル [cs.CL, cs.AI, cs.CV]目的：階層的情報分解によるテキスト生成の枠組み
- 大規模言語モデルは目覚ましい成功を収めているが，生成方法には改善の余地がある。
- 既存の手法では，生成効率，スケーラブルな表現学習，効果的なグローバルな意味モデル化を両立するのが難しい。
- 連続潜在空間におけるグローバルな意味的事前分布のモデリングによる新たなテキスト生成手法を提案する。
- 提案手法Cola DLMは，テキストVAEによる安定したテキストから潜在空間へのマッピングと，ブロック因果DiTによる潜在空間でのグローバルな意味的事前分布のモデリングを組み合わせる。
- この設計により，柔軟な非自己回帰的誘導バイアス，潜在空間における意味的圧縮と事前分布の適合が可能となり，他の連続モダリティへの拡張も容易になる。
- 実験結果から，Cola DLMは優れたスケーリング特性を示し，従来の自己回帰モデルと比較して優れた生成性能を発揮することが確認された。
Link: https://arxiv.org/abs/2605.06548
FFTに基づく補間を用いた，行列の逆演算なしでの最小問題の解法 [cs.CV, cs.NA, math.NA]目的：カメラ幾何推定における最小問題の解法
- カメラ幾何推定は，ロボット工学やコンピュータビジョンなど幅広い分野で不可欠である。
- 既存の解法は行列の逆演算を必要とし，計算コストが高く，数値的な不安定性を招く場合がある。
- 本研究は，行列の逆演算を回避し，高速フーリエ変換を用いた補間により効率的な解法を提案する。
- 提案手法は，疎な隠変数を用いた結果式を構築することで，既存手法の計算コストを削減する。
- 高速フーリエ変換を用いた補間により，結果式の多項式の効率的な再構成を実現し，数値的な安定性を向上させる。
- 様々な最小問題に対する実験の結果，提案手法は，特に小規模問題において，従来の解法と同等以上の性能を示す。
Link: https://arxiv.org/abs/2605.06572
PairAlign: 自己アライメントによる系列トークン化フレームワーク：音声トークン化への応用 [cs.LG, cs.CL, cs.SD]目的：音声データのコンパクトなトークン化
- 感覚データ処理において，離散的な記号構造は比較，記憶，検索，推論に不可欠である。
- 既存の音声トークナイザーは局所的な割り当てに依存し，系列の一貫性や編集類似度を最適化できていない。
- 系列レベルでの自己アライメントを通じて，音声データの効率的なトークン化を実現する。
- PairAlignは，系列生成を条件付きで行い，トークンの識別，順序，長さを学習する。
- TIMIT検索において，編集距離を維持しつつ，トークン数を55%削減することに成功した。
- 連続スイーププローブの結果，高密度な幾何学的トークナイザーよりも長さの制御に優れていることが示された。
Link: https://arxiv.org/abs/2605.06582
DINORANKCLIP: DINOv3蒸留と注入による高次ランキング一貫性を用いた視覚言語事前学習 [cs.CV, cs.AI, cs.LG]目的：視覚言語事前学習の性能向上
- 視覚言語事前学習は，画像とテキストの理解を深め，多様な応用を可能にする重要な技術である。
- 従来のCLIPモデルは，ペア間の相対的な順序を考慮せず，微細な局所構造への感受性が低いという課題があった。
- DINOv3蒸留と高次ランキング一貫性損失を用いることで，これらの課題を解決し，より高度な視覚言語理解を実現する。
- DINORANKCLIPは，DINOv3教師モデルを注入することで，既存のCLIPモデルよりも優れた特徴表現を獲得した。
- 高次ランキング一貫性損失は，ペア間の順序関係をより正確に捉え，性能向上に貢献した。
- 実験結果から，DINORANKCLIPは，微細な局所構造を必要とする評価において，特に顕著な性能向上を示した。
Link: https://arxiv.org/abs/2605.06592
ReActor：物理シミュレーションに基づいたモーションリターゲティングのための強化学習 [cs.RO, cs.GR, cs.LG]目的：物理に基づいたモーションリターゲティング手法の開発
- ロボットの模倣学習において，人間のような自然な動きを実現するには，適切なモーション生成が不可欠である。
- 既存手法では，足の滑り，自己衝突，物理的に不可能な動きなど，物理的な不整合が発生しやすい。
- ロボットの形態に合わせて参照モーションを適応させ，現実的な動きを生成すること。
- 本研究では，二層最適化フレームワークと強化学習を組み合わせることで，物理的に整合性の取れたモーションリターゲティングを実現した。
- 提案手法は，人間の参照モーションをロボットの形態に適応させながら，追跡ポリシーを訓練する。
- シミュレーションと実機実験により，四足歩行ロボットを含む多様な形態に対して，有効性が検証された。
Link: https://arxiv.org/abs/2605.06593
SoftSAE：適応的疎な自動符号化器のための動的上位K選択 [cs.LG, cs.CV]目的：疎な自動符号化器における動的上位K選択機構
- 機械的解釈可能性は，LLMやViT等の内部表現を分析する上で重要である。
- 従来のTopK SAEは固定の疎性レベルであり，データの複雑さに対応できない。
- 入力に依存した適切な疎性レベルを学習することで，表現の質を向上させる。
- SoftSAEは，微分可能なSoft Top-K演算子を用いて入力ごとの疎性レベルを学習する。
- 実験結果から，SoftSAEは意味のある特徴を抽出し，各概念に適切な特徴数を選択することが確認された。
- これにより，表現はデータの構造により適合し，説明長は入力情報の量を示すようになる。
Link: https://arxiv.org/abs/2605.06610
ベクトル値ゲームにおけるオンラインスカラー化 [cs.GT]目的：ベクトル値ゲームにおけるオンラインスカラー化の学習フレームワーク
- ゲーム理論は，経済学，政治学，生物学など，様々な分野で戦略的相互作用を分析する上で不可欠である。
- 従来のゲーム理論では，スカラー化の選択が固定されている場合が多く，動的な環境への適応が困難である。
- 本研究は，プレイヤーが状況に応じてスカラー化を適応的に選択することで，より効率的な学習を実現することを目的とする。
- 提案手法では，外側の学習器がスカラー化を選択し，内側の学習器がそのスカラー化によるフィードバックを用いて行動を選択する。
- バンディットオンラインミラーディセントと安定化重要度重み付けに基づいた実装可能なアルゴリズムを開発し，その性能を理論的に保証した。
- 実験結果から，適応的なスカラー化を用いることで，好ましい均衡への収束率が大幅に向上することが示された。
Link: https://arxiv.org/abs/2605.06624
PianoCoRe：統合・改良されたピアノMIDIデータセット [cs.CL, cs.SD, cs.LG]目的：大規模ピアノMIDIデータセットの構築と公開
- 音楽情報検索(MIR)研究において，楽譜と演奏データが揃ったデータセットは不可欠である。
- 既存のデータセットは，作曲家範囲が狭い，演奏バリエーションが少ない，楽譜との対応がない，命名規則が一貫しない等の課題がある。
- 既存データセットを統合・改良し，高品質で大規模なピアノMIDIデータセットを提供することで課題解決を目指す。
- PianoCoReは，483人の作曲家による5,625曲，250,046回の演奏を含む大規模データセットである。
- 楽譜との対応レベルに応じてPianoCoRe-A/A*, PianoCoRe-B, PianoCoRe-Cの3つのサブセットが提供される。
- MIDI品質分類器とアライメント改良パイプラインRAScoPを開発し，データ品質の向上と演奏の正確性を実現した。
Link: https://arxiv.org/abs/2605.06627
DPM++：閉塞された人物再識別のための動的マスク付き距離学習 [cs.CL, cs.CV]目的：閉塞された人物再識別におけるロバストな可視性一貫性のあるマッチング
- 人物再識別は重要な技術であり，監視カメラ等の画像から個人を特定する上で不可欠である。
- 現実環境では，障害物による人物の閉塞が課題であり，再識別の精度を低下させている。
- DPM++は，閉塞パターンに適応的に信頼性の高い特徴量を抽出し，再識別の性能を向上させる。
- DPM++は，入力に合わせたマスク付き距離学習により，可視性のある領域に焦点を当て，信頼性の低い領域を抑制する。
- CLIPを用いた二段階の教師あり学習により，テキスト情報からのIDレベルのセマンティックな知識を距離学習に活用する。
- サリエンシーマップに基づくパッチ転送戦略により，現実的な閉塞画像を生成し，学習データの多様性を高める。
Link: https://arxiv.org/abs/2605.06637
GlazyBench：陶磁器釉薬特性予測と画像生成のためのベンチマーク [cs.AI, cs.CV]目的：陶磁器釉薬の特性予測と画像生成に関するベンチマークデータセット
- 陶磁芸における釉薬開発は，技術と経験を要し，芸術作品の質を大きく左右する。
- 釉薬開発には試行錯誤が不可欠だが，化学的複雑さから時間とコストがかかる。
- AIを活用した釉薬設計を支援するため，大規模データセットの必要性が課題となっていた。
- GlazyBenchは，23,148件の実際の釉薬配合を含むデータセットであり，釉薬設計を支援するAIモデルの訓練を可能にする。
- 釉薬の原料から焼成後の色や透明度を予測する特性予測と，釉薬の視覚表現を生成する画像生成の二つの主要なタスクに対応する。
- 従来の機械学習や大規模言語モデル，深層生成モデルを用いた実験により，有望な結果が得られた。
Link: https://arxiv.org/abs/2605.06641
マルチモーダルドメイン汎化の進歩は達成されているか？包括的なベンチマーク研究 [cs.CV, cs.AI, cs.LG, cs.MM]目的：マルチモーダルドメイン汎化の進歩評価のための標準化されたベンチマークの提供
- モデルの頑健性を高めるマルチモーダルドメイン汎化の重要性が高まっている。
- 評価プロトコルの不一貫性により，性能向上とアルゴリズムの真の進歩の区別が困難である。
- 標準化された評価を通じて，マルチモーダルドメイン汎化分野の進捗状況を明確にすること。
- 公平な比較下では，最新のマルチモーダルドメイン汎化手法はERMベースラインと比べてわずかな改善にとどまることが示された。
- データセットやモダリティの組み合わせに関わらず，一貫して他の手法を上回る手法は存在しないことが明らかになった。
- データ破損やモダリティ欠損に対する脆弱性が評価手法全体で見られ，一部手法ではモデルの信頼性が損なわれた。
Link: https://arxiv.org/abs/2605.06643
Relit-LiVE：環境動画と共同学習によるビデオの再照明 [cs.CV]目的：ビデオの再照明のためのフレームワーク
- ビデオ生成AIの発展により，物理ベースレンダリングが高度に可能になりつつある。
- 実写ビデオのイントリンシック分解は不安定で，歪みや時間的なアーティファクトが発生しやすい。
- イントリンシック表現に失われた情報を補完し，物理的に整合性の取れた再照明を実現する。
- Relit-LiVEは，カメラ姿勢の事前知識なしに，物理的に整合性が高く時間的に安定したビデオ再照明を実現する。
- 生の参照画像をレンダリングプロセスに導入することで，失われたシーン情報を回復する。
- 環境動画予測と再照明を同時に行うことで，幾何学的・照明の一貫性を高め，動的な照明やカメラモーションをサポートする。
Link: https://arxiv.org/abs/2605.06658
GUIグラウンディングにおける訓練不要のバイアス軽減手法BAMI [cs.RO, cs.CL, cs.CV, cs.AI]目的：GUIグラウンディングにおけるバイアス軽減
- GUIエージェントのタスク実行能力に不可欠な技術であり，自動化の進展に寄与する。
- 複雑なGUI環境下では，既存モデルの性能が十分でないという課題が存在する。
- 高解像度画像と複雑なUI要素に起因するバイアスを軽減し，GUIグラウンディングの精度向上を目指す。
- 提案手法BAMIは，訓練なしで様々なGUIグラウンディングモデルの精度を大幅に向上させる。
- TianXi-Action-7Bモデルに適用した場合，ScreenSpot-Proベンチマークでの精度を51.9%から57.8%に向上させた。
- 多様なパラメータ設定での消去実験により，BAMIの頑健性と有効性が確認された。
Link: https://arxiv.org/abs/2605.06664
ActCam：ビデオ生成のためのゼロショットジョイントカメラおよび3Dモーション制御 [cs.CV, cs.AI, cs.LG]目的：ビデオ生成におけるキャラクターのモーションとカメラの軌跡の同時制御
- 芸術的なビデオ制作において，パフォーマンスと撮影技術の両方を精密に制御することが重要である。
- 既存手法では，キャラクターの動きとカメラの動きを同時に，かつ自然に制御することが困難である。
- 学習なしで，キャラクターの動きとカメラパラメータを同時に制御し，高品質なビデオ生成を実現すること。
- ActCamは，既存の画像からビデオへの拡散モデルを活用し，シーンの深度とキャラクターの姿勢を条件として利用する。
- これにより，カメラの動きに沿ったキャラクターの姿勢と，幾何学的に整合性の取れた深度条件を生成することが可能となった。
- 評価実験の結果，ActCamはカメラの追従性とモーションの忠実度を向上させ，特に大きな視点変化において人間の評価で好ましい結果が得られた。
Link: https://arxiv.org/abs/2605.06667
Whisperへのプロンプトによる音声認識と話者区分の同時実行 [eess.AS, cs.SD]目的：音声認識と話者区分の同時実行手法
- 医療現場での会話記録は，診療の質向上や医療過誤防止に不可欠である。
- 従来のシステムでは，音声認識と話者区分の精度が十分でなく，リアルタイム処理が困難である。
- Whisperを活用し，プロンプトによる誘導で高精度な同時実行を可能にすること。
- Whisperへの話者ラベル付きテキストのプロンプトにより，ある程度の精度でラベル挿入が可能であることが示された。
- 話者ラベル付きプロンプトでWhisperをファインチューニングすることで，一貫性のある話者IDと正確な文字起こしが実現された。
- プロンプトの誤りや重なり合った音声のタイムスタンプの不正確さにより，話者区分の性能が低下する課題が明らかになった。
Link: https://arxiv.org/abs/2605.05231
反事実的効用を用いた意思決定の公理的基礎 [math.OC, cs.SY, eess.SY, econ.TH, cs.GT, math.ST, stat.TH]目的：反事実的効用に基づく意思決定の公理的枠組み
- 意思決定における効用理論は，合理的選択の基盤であり，経済学や行動科学において不可欠である。
- 従来の効用理論では，反事実的な結果や後悔といった非対称な判断基準を扱いきれないという課題があった。
- 反事実的効用の首尾一貫性と推移性を確立し，より現実的な意思決定モデルを提供する。
- 反事実的効用は，起こりうる全ての結果を考慮することで，フォン・ノイマン・モルゲンシュテルンの公理を満たすことが示された。
- この枠組みは，統計学のルーレット例や行動経済学のAllaisのパラドックスといった矛盾を解消する。
- 反事実的効用を通常の効用関数に還元するための追加公理が導出され，加法的な反事実的効用の公理的基盤が確立された。
Link: https://arxiv.org/abs/2605.05521
腫瘍を考慮した拡張とタスク誘導型注意分析が，磁気共鳴画像からの直腸癌セグメンテーションを改善する [eess.IV, cs.CV]目的：直腸癌のセグメンテーション精度向上
- 医療画像解析における正確な腫瘍検出・セグメンテーションは，診断と治療計画の精度向上に不可欠である。
- 既存の事前学習モデルは，異なる画像モダリティ間での転移学習において，入力形状や特徴表現の不一致が課題となっている。
- 転移学習における効率的なトークン利用と特徴適応を改善することで，モダリティ間の性能低下を抑制することを目指す。
- 事前学習済みTransformerモデルの転移学習における課題を，注意機構の分析から明らかにした。
- 腫瘍を考慮したデータ拡張と異方性クロッピングにより，トークン効率を改善し，セグメンテーション精度を向上させた。
- 提案手法は，CTからMRIへの転移学習において，SMITとSwin UNETRの検出率をそれぞれ90.7%と88.7%に向上させた。
Link: https://arxiv.org/abs/2605.05522
学習済みリーマン多様体距離を用いた最適輸送オーディオ距離 [eess.AS, cs.SD]目的：オーディオ生成評価における距離指標の改善
- オーディオ生成技術の発展に伴い，客観評価指標の精度向上が不可欠である。
- 既存のFréchet Audio Distance (FAD)には，アーティファクトや離散性の問題が存在する。
- FADのコストと結合のメカニズムを修正し，より正確なオーディオ距離指標を提案する。
- 提案手法Optimal Transport Audio Distance (OTAD)は，既存手法FADよりも高い精度でオーディオ品質との相関性を示す。
- OTADは，Sinkhornアルゴリズムを用いることで，FADよりもrank-1汚染の影響を軽減する。
- OTADは，個々のサンプルに対する診断能力を備えており，従来の指標にはないintrinsicな利点を提供する。
Link: https://arxiv.org/abs/2605.05554
フレームレベルのリーク問題： intrinsic image decomposition の評価プロトコルの再考 - ソース分離可能な不確実性を用いた事例研究 [eess.SP, cs.CV]目的：intrinsic image decomposition の評価プロトコルにおけるフレームレベルのリークの影響の定量化と，より適切な評価方法の提案
- 画像処理分野において，intrinsic image decomposition は，画像から反射率と陰影を分離する重要な技術である。
- 既存の評価プロトコルには，学習データとテストデータ間のフレームの重複によるリークの問題が存在し，性能評価の信頼性を損なっていた。
- 本研究は，フレームレベルのリーク問題を定量化し，シーンレベルの分割を標準的な評価プロトコルとして確立することを目的とする。
- フレームレベル分割は，シーンレベル分割と比較して，テスト時の R_PSNR を 1.6～2.0 dB 程度過大評価することが確認された。
- 提案手法は，ソース分離可能な不確実性を導入し，非ラモバート成分の不確実性チャネルが非ラモバート残差誤差と高い相関関係を示すことが示された。
- 不確実性の高い75%のピクセルを除去することで，残りのピクセルにおける再構成MSEを77%削減できることが実証され，提案手法の有効性が示された。
Link: https://arxiv.org/abs/2605.06359
教師のモダリティレベルのグラム行列学習によるマルチモーダル知識蒸留 [cs.AI, cs.CV]目的：マルチモーダル知識蒸留における知識伝達の効率化
- 多様な情報源を統合することで，より高度な認識・理解が可能となるため。
- 従来の知識蒸留は最終出力に集中しており，教師と生徒のネットワーク間の深い差異が存在する。
- 教師ネットワークのモダリティ間関係性を生徒ネットワークに学習させることで，知識伝達を改善する。
- 本研究では，異なるモダリティ間の関係性をグラム行列としてモデル化する新たな知識蒸留パラダイムを提案した。
- 教師のモダリティレベルのグラム行列を学習することで，生徒ネットワークが教師のモダリティ間関係性を獲得することを可能とした。
- 実験結果から，提案手法が既存手法と比較して，知識伝達の効率と性能向上に貢献することが示された。
Link: https://arxiv.org/abs/2112.11447
LiCamPose：マルチビューLiDARとRGBカメラを組み合わせたロバストなシングルタイムスタンプ3D人体姿勢推定 [cs.CV]目的：マルチビューLiDARとRGBカメラによる3D人体姿勢推定手法
- 人間行動理解やロボットとの協調には，正確な3D人体姿勢推定が不可欠である。
- RGB画像のみでは，オクルージョンや照明変化に弱く，ロバストな推定が困難である。
- RGBと点群データを統合することで，よりロバストな3D人体姿勢推定を実現する。
- LiCamPoseは，マルチビューRGB画像と点群情報を統合するパイプラインであり，単一フレームからロバストな3D人体姿勢を推定できる。
- 手動アノテーションの必要性を回避するため，合成データジェネレーターを開発し，教師なしドメイン適応戦略を用いることで，アノテーションなしでの学習を実現した。
- 複数のデータセットでの評価により，LiCamPoseの高い汎化性能と応用可能性が示された。
Link: https://arxiv.org/abs/2312.06409
SAMを用いた領域識別事前知識による復元指向型ビデオフレーム補間 [cs.CV]目的：ビデオフレーム補間の性能向上
- ビデオの品質向上は，様々な応用において不可欠であり，フレーム補間はその重要な技術である。
- 隣接フレーム間の正確な動き推定が難しく，領域の一意な特定が課題となっている。
- SAMのようなオープンワールドセグメンテーションモデルを活用し，領域識別事前知識によって動き推定を改善する。
- 提案手法HRFFMは，ビデオフレーム補間のエンコーダの各階層に領域識別事前知識を組み込む。
- HRFFMはRDPguided Feature Normalization(RDPFN)を使用し，残差学習を通じて特徴表現を統一する。
- 様々なシーンにおいて，HRFFMとRDPの組み合わせがビデオフレーム補間の性能を向上させることを実験的に示した。
Link: https://arxiv.org/abs/2312.15868
離散コサイン変換に基づくデコレーテッドアテンションによるビジョンTransformer [cs.CV, cs.LG, eess.SP]目的：ビジョンTransformerの効率性と性能向上
- Transformerは画像処理において重要な役割を果たしており，その性能向上が求められている。
- 自己注意機構の学習は計算コストが高く，初期化が難しいという課題がある。
- 離散コサイン変換を活用し，初期化と圧縮による効率化を目指す。
- 離散コサイン変換を用いた初期化戦略により，CIFAR-10およびImageNet-1Kの分類精度が向上した。
- 高周波成分の切断による注意機構の圧縮により，計算量を削減しつつ同等の性能を維持した。
- 提案手法はSwin Transformerモデルにおいて，大幅な計算量の削減を実現した。
Link: https://arxiv.org/abs/2405.13901
人工知能に対するオークションベースの規制 [cs.GT, cs.AI, cs.CY, econ.GN, q-fin.EC]目的：人工知能の規制メカニズム
- AI技術の発展は社会に大きな影響を与えるため，安全性と倫理性の確保が重要である。
- 現状のAI規制は遅れており，安全性，バイアス，法的問題への対応が不十分である。
- AIの安全性とコンプライアンスを向上させる現実的な規制フレームワークを提案すること。
- 提案するオークションベースの規制メカニズムは，コンプライアンスモデルの導入と規制プロセスへの参加を促進する。
- 理論的な分析により，合理的な主体は規定されたコンプライアンス基準を超えるモデルを提出することが示された。
- 実験結果は，この規制オークションがコンプライアンス率を20%，参加率を15%向上させることがわかった。
Link: https://arxiv.org/abs/2410.01871
KFC-W：ポーズ情報のないインターネット画像から3D一貫性のある動画の生成 [cs.CV]目的：ポーズ情報のないインターネット画像からの動画生成
- 3D構造の理解は，コンピュータビジョンの基盤であり，現実世界の認識と再現に不可欠である。
- 既存の動画生成モデルは，3D構造を捉えた一貫性のある動画生成に課題がある。
- 2Dデータのみを用いて，大規模なシーンレベルの3D学習を実現することを目指す。
- 提案手法は，幾何学的および外観の一貫性の両面において，既存の基盤モデルを上回る性能を示す。
- 本手法は，カメラ制御を可能にする3D Gaussian Splattingなどの応用にも貢献する。
- 動画やマルチビュー画像といった2Dデータのみでシーンレベルの3D学習を拡張できる可能性が示唆された。
Link: https://arxiv.org/abs/2411.13549
情報伝播：MLLMを用いた画像生成における文脈的一貫性の醸成 [cs.CV, cs.AI]目的：画像生成における文脈的一貫性の向上
- 拡散モデルは画像生成において高性能だが，その仕組み上，文脈の一貫性に課題が残る。
- 拡散モデルにおける情報伝播の無秩序さが，画像領域間の干渉や詳細の劣化を引き起こす。
- MLLMを活用し，情報伝播を制御することで，文脈に沿った高精度な画像生成を目指す。
- 本研究では，効率的な一方向拡散フレームワークであるCOWを導入し，精密な情報伝達と干渉の抑制を実現した。
- さらに，MLLMを用いて文脈的関係性を明確化するSOWを提案し，拡散の方向と強度を動的に制御する。
- 実験結果は，制御された情報伝播の潜在能力を示し，より適応的で汎用性の高い生成モデルへの道を開く。
Link: https://arxiv.org/abs/2411.19182
衛星画像時系列データからの作物セグメンテーションにおけるTransformerと畳み込みモデルの比較研究 [cs.CV, eess.IV]目的：衛星画像時系列データからの作物セグメンテーションにおけるTransformerと畳み込みモデルの性能比較
- 農業モニタリングや土地利用分析において，作物セグメンテーションは不可欠な技術である。
- 従来の畳み込みニューラルネットワークは広く利用されているが，時空間依存性の表現に限界がある。
- 本研究は，Transformerモデルが時空間依存性をどのように捉え，作物セグメンテーションの精度向上に貢献するかを検証する。
- TSViTは全体として最も優れた結果を示し，強力なCNNベースラインである3D U-Netをわずかに上回った。
- VistaFormerは最も効率的であり，時系列を空間次元として扱うアプローチやCNNよりもTSViTが優れていることが示された。
- 本研究は，時系列モデリングがSITSにおいて重要であり，VistaFormerが効率と性能のバランスを提供することを示唆する。
Link: https://arxiv.org/abs/2412.01944
構図の芸術：合成視覚的根拠付けのための注意正則化訓練 [cs.CV, cs.CL, cs.LG]目的：複合的な視覚的根拠付けの性能向上
- 画像と言語を理解するモデルは，視覚的な内容とそれに対応する言語表現の関係を解明する上で重要である。
- 既存モデルは，単純な単一オブジェクトの表現には強いが，複雑な複数オブジェクトの表現の根拠付け性能が低下する。
- 複数オブジェクトの表現を分解し，注意のバランスを促進することで，複数オブジェクトの根拠付け精度を向上させる。
- 提案手法CompARTは，異なるVLMアーキテクチャとデータセットにおいて，単一オブジェクトと複数オブジェクト両方の根拠付け性能を改善した。
- CompARTは，画像キャプションのアライメントに依存する従来の訓練方法の課題を克服し，複数オブジェクトの情報を効果的に活用する。
- VQAタスクにおいても性能が向上し，視覚的理解能力が向上したことが示された。
Link: https://arxiv.org/abs/2412.08110
蒸留と潜在報酬最適化による数ステップの動画生成 [cs.CV]目的：拡散モデルを用いた効率的な動画生成手法
- 動画生成技術は，コンテンツ制作や多様な応用において重要性が増している。
- 拡散モデルは計算コストが高く，生成に多くのステップを要するという課題がある。
- 少ないステップ数で高品質かつ多様な動画を生成する技術の開発。
- 提案手法は，蒸留と潜在報酬最適化により，動画生成のステップ数を大幅に削減することに成功した。
- 10秒間の動画生成において，VBenchのスコア82.57を達成し，既存手法を上回る性能を示した。
- 教師モデルの278.6倍の速度で動画を生成可能であり，リアルタイムに近い生成を実現した。
Link: https://arxiv.org/abs/2412.15689
トークンレベルのエントロピーが言語モデルにおける人口統計学的格差を明らかにする [cs.CL, cs.CV]目的：言語モデルにおける人口統計学的アイデンティティが生成分布に与える影響の解明
- 言語モデルは多様なテキスト生成を可能にするが，潜在的なバイアスが懸念されている。
- 明示的な人口統計学的プロンプトでは一貫したバイアスが示される一方，暗黙的な影響は不明確である。
- 名前のみから，言語モデルの生成分布における人種・性別の影響を定量的に評価する。
- 黒人に関連する名前は，どのモデルにおいても，白人に関連する名前よりも最初のトークンのエントロピーが高かった。
- 女性に関連する名前は，男性に関連する名前と比較して，最初のトークンのエントロピーが低く，出力の均質性が高かった。
- 指示チューニングは，人種間の格差を縮小させる効果はなかった。プロビング手法が結果に大きく影響することが示された。
Link: https://arxiv.org/abs/2501.19337
Grad-ECLIP：CLIPに対する勾配に基づく視覚的・テキスト的説明 [cs.CV]目的：CLIPの画像-テキスト間のマッチング結果の解釈
- 画像とテキストの理解を深め，AIの信頼性を高める上で，モデルの判断根拠の可視化は不可欠である。
- CLIPモデルの内部構造は複雑であり，その判断根拠を理解することは困難であった。
- CLIPの視覚的およびテキスト的な特徴を分析し，その判断根拠を明確にすることを目的とする。
- Grad-ECLIPは，画像領域や単語がCLIPの結果に与える影響を示すヒートマップを生成する。
- 従来のTransformer解釈手法と比較して，より高品質な視覚的説明が可能であることが示された。
- 生成された説明マップを活用し，CLIPのファインチューニングにおける微細なアライメントを向上させる手法を提案した。
Link: https://arxiv.org/abs/2502.18816
拡散モデルに対するバックドア攻撃における画像スタイル特徴の利用：Gungnir [cs.CV, cs.CR]目的：拡散モデルへのバックドア攻撃手法の開発
- 画像生成において拡散モデルの成功は目覚ましいが，セキュリティ上の脆弱性が懸念される。
- 既存のバックドア攻撃は，検出されやすい低次元のトリガーに依存する傾向がある。
- 目立たないスタイル特徴をトリガーとして利用することで，防御を回避する攻撃を提案する。
- Gungnirは，入力画像に埋め込まれたスタイルベースのトリガーを通じて悪意のある動作を活性化する。
- 提案手法は，Reconstructing-Adversarial NoiseとShort-Term Timesteps-Retentionにより，拡散過程の一貫性を保つ。
- 実験の結果，Gungnirは最先端の防御策を回避し，ファインチューニングによる浄化にも耐性があることが示された。
Link: https://arxiv.org/abs/2502.20650
離散自己回帰言語モデルへの距離尺度の学習 [cs.LG, cs.CV]目的：離散自己回帰言語モデルに対する距離尺度の学習手法
- 大規模言語モデルは様々な分野に応用されているが，トークン間の距離情報を考慮しない点が課題である。
- 従来のone-hotターゲットによる学習は，数値や空間座標など距離が重要なタスクにおいて性能が制限される。
- トークン間の距離情報に基づいた報酬重み付き分布を用いて，より効率的な学習を目指す。
- 提案手法DIST2Lossは，データ効率と様々なドメインにおける下流タスクの性能を向上させる。
- 視覚的接地においてより正確なバウンディングボックスを獲得し，ロボット操作の学習を加速する。
- LLMアライメントのための報酬モデリングを強化し，ベクトル量子化画像生成の精度を高める。
Link: https://arxiv.org/abs/2503.02379
カメレオン：商用AI生成動画の検出と追跡のベンチマーク [cs.HC, cs.CV]目的：商用AI生成動画の検出と情報源の追跡に関するベンチマークデータセット
- AI生成コンテンツの急速な普及は，社会の信頼を損なう深刻な脅威となりつつある。
- 既存のベンチマークはオープンソースモデルに偏っており，商用モデルのよりリアルな動画に対する評価が不十分である。
- 本研究は，商用AI生成動画の検出能力を向上させ，その情報源を特定することを目的とする。
- 既存の手法では，商用モデル生成の高精度で時空間的に整合性の高い動画の検出と追跡に限界があることが示された。
- 本研究で公開したカメレオンデータセットは，AI生成コンテンツのセキュリティ研究における重要な課題を提供する。
- カメレオンは，顔中心の偽造検出から，より包括的なシーンフォレンジックへと検出研究の方向性を変える。
Link: https://arxiv.org/abs/2503.06624
Few-shotファッションスタイル認識のためのMasked Language Promptingによる生成データ拡張 [cs.CV]目的：Few-shotファッションスタイル認識における生成データ拡張手法
- ファッション分野の研究において，スタイル認識は重要な課題である。多様なスタイルの理解は，ファッション産業の発展に不可欠である。
- ファッションスタイルの主観性・曖昧性から，十分な学習データを構築することが困難である。データ不足は認識精度低下の要因となる。
- 本研究は，限られたデータでも高精度なスタイル認識を可能にするデータ拡張手法の開発を目指す。
- Masked Language Prompting (MLP) により，参照キャプションの単語をマスクし，大規模言語モデルで多様な補完を行うことで，スタイルの一貫性と視覚的多様性を両立した画像生成を実現した。
- MLPに基づくデータ拡張は，クラス名やキャプションのみを用いた既存手法と比較して，FashionStyle14データセットにおいて優れた性能を示した。
- 本手法は，ファインチューニングなしで効果的なデータ拡張が可能であり，Few-shot学習におけるファッションスタイル認識の精度向上に貢献する。
Link: https://arxiv.org/abs/2504.19455
Sparse VideoGen2：意味認識に基づく置換による疎アテンションによるビデオ生成の高速化 [cs.DM, cs.CV]目的：ビデオ生成における高速化手法
- ビデオ生成技術は，コンテンツ制作やエンターテイメント分野において重要性が増している。
- 拡散Transformerは計算コストが高く，生成に時間がかかるという課題がある。
- 計算効率を向上させつつ，生成品質を維持することが本研究の目的である。
- 提案手法SVG2は，意味認識に基づく置換により，重要なトークンを正確に識別し，計算資源の浪費を抑制する。
- HunyuanVideoおよびWan 2.1データセットにおいて，PSNRを維持しつつ，最大で2.30倍および1.89倍の高速化を達成した。
- SVG2は，生成品質と効率の間のパレート最適解を提供し，top-p動的予算制御とカスタマイズされたカーネル実装を統合する。
Link: https://arxiv.org/abs/2505.18875
SwitchCodec：スパース量子化を用いた高忠実度ニューラル音声コーデック [cs.SD, eess.AS]目的：高忠実度ニューラル音声圧縮アルゴリズムの開発
- 音声，音楽などの効率的な表現が求められ，ニューラル音声圧縮技術が注目されている。
- 低ビットレート環境下では，埋め込み空間の制約から性能が著しく低下するという課題がある。
- 埋め込み空間を拡大し，限られたビットレート下での音質劣化を抑制することを目指す。
- 提案手法は，2.67kbpsにおいてPESQスコア2.87，ViSQOLスコア4.27を達成し，高い性能を示した。
- スペクトルブラーを効果的に低減し，元のメルスペクトログラムとの距離を13%減少させた。
- ポストトレーニング戦略により，固定ビットレートモデルと同等の性能を，半分の学習時間で実現した。
Link: https://arxiv.org/abs/2505.24437
自律走行シナリオにおけるマルチスケールスペクトル注意モジュールに基づくハイパースペクトルセグメンテーション [cs.DC, cs.CV, cs.AI]目的：自律走行環境下でのハイパースペクトルセグメンテーション性能向上
- 自動運転技術の発展において，より高度な環境認識が不可欠であり，ハイパースペクトル画像はその鍵となる。
- 高次元のスペクトルデータの効率的な処理が課題であり，計算コストと精度向上がトレードオフとなる。
- マルチスケール注意モジュールを導入し，スペクトル特徴抽出の精度と効率を改善することを目指す。
- 提案手法であるMSAMをUNetに組み込むことで，都市部運転シナリオにおけるセマンティックセグメンテーション性能が向上した。
- MSAMは，ベースラインのUNet-SCと比較して，平均でmIoUが2.32%，mF1が2.88%改善された。
- 最適なカーネルサイズの組み合わせはデータセットに依存し，(1;5;11)や(3;7;11)といった構成が特に有効であることが示された。
Link: https://arxiv.org/abs/2506.18682
多重グラフにおけるマクシミンシェア配分に関する厳密解と近似解 [cs.GT]目的：分割不可能なアイテムをエージェント間でマクシミンシェア（MMS）配分すること
- グラフ構造を利用したアイテム配分は，ネットワーク資源配分などに応用可能である。
- 既存研究では，厳密なMMS配分の計算困難性や，近似アルゴリズムの性能限界が課題となっている。
- 加法，XOS，および部分加法評価関数に対するMMSおよびペアワイズMMSの公平性に関する近似解を提案する。
- 本研究では，グラフ上のアイテム配分におけるMMSの公平性に関する正負両方の結果を示す。
- 特に，加法評価関数においては，近似アルゴリズムの性能限界が明らかになった。
- 一方で，XOSおよび部分加法評価関数においては，より良い近似解が存在することを示唆している。
Link: https://arxiv.org/abs/2506.20317
図形から動物へ：自然なシルエットからの創造的な動物生成 [cs.CV]目的：自然なシルエットから動物の形態を生成する手法
- 人間の認知特性であるパレイドリアに着目し，曖昧な刺激から意味のあるパターンを認識する能力の活用。
- 既存手法では，形状と概念を関連付けることが難しく，自然な景観に動物を統合する一貫性が課題。
- 入力された形状に合致する動物画像を生成し，視覚的に一貫性のある合成画像を作成すること。
- 提案手法Shape2Animalは，オープンボキャブラリセグメンテーションとテキスト-画像拡散モデルを組み合わせることで，多様な自然なシルエットから動物を生成可能。
- 生成された動物画像は，元のシーンにシームレスに統合され，視覚的な一貫性と空間的な整合性が高い。
- 本手法は，ビジュアルストーリーテリング，教育コンテンツ，デジタルアート，インタラクティブメディアデザインなど，幅広い分野への応用が期待される。
Link: https://arxiv.org/abs/2506.20616
拡散モデルにおけるガイダンスウォーターマーキング [eess.SY, cs.SY, cs.CR, cs.CV]目的：拡散モデルへのウォーターマーク埋め込み手法
- 生成AIの普及に伴い，生成物の権利保護が重要となっている。
- 既存のウォーターマーキングは，攻撃に弱く，生成品質を損なう場合がある。
- 生成過程でウォーターマークを埋め込むことで，堅牢性と品質維持を目指す。
- 本手法は，既存のウォーターマーク検出器の勾配を用いて拡散過程を誘導する。
- これにより，再学習や微調整なしに，ウォーターマークのロバスト性を高めることができる。
- 生成された画像の品質と多様性を維持しつつ，効果的なウォーターマーク埋め込みを実現した。
Link: https://arxiv.org/abs/2509.22126
REMAP：動画埋め込みの正則化マッチングと部分的アラインメント [cs.CV, cs.AI]目的：動画の手順学習のためのフレームワーク
- 実世界のインストラクショナル動画の理解は，ロボット支援や教育など，様々な応用において重要である。
- 動画が長く，ノイズが多く，冗長な部分を含むため，意味のある手順を正確に抽出することが困難である。
- 実世界の動画に見られる変動性を考慮し，手順学習の精度を向上させることを目指す。
- 提案手法REMAPは，部分的な輸送を通じて非情報的なフレームをマッチングから除外することで，よりロバストなアラインメントを実現した。
- EgoProceLデータセットにおいて，F1スコアで最大11.6%，IoUで19.6%の改善が見られた。
- ProceLとCrossTaskデータセットでは，平均F1スコアが41%向上し，実用的な手順理解への貢献を示した。
Link: https://arxiv.org/abs/2509.24382
スクリプト駆動型マルチモーダル動画要約手法とデータセット：SD-MVSum [cs.HC, cs.CV]目的：スクリプト駆動型マルチモーダル動画要約
- 動画コンテンツの増加に伴い，効率的な要約技術の重要性が高まっている。
- 従来の動画要約は視覚情報のみに依存し，スクリプトとの関連性が考慮されていなかった。
- ユーザ提供スクリプトと動画内容の関連性を考慮した要約手法を開発し，精度向上を目指す。
- 本研究では，動画とスクリプト，スクリプトと音声の関連性を捉える加重クロスモーダル注意機構を提案した。
- 提案手法SD-MVSumは，スクリプトとの関連性が高い動画部分を強調し，要約精度を向上させる。
- 拡張されたデータセットとSD-MVSumは，他の最先端手法と比較して競争力があることが実験的に示された。
Link: https://arxiv.org/abs/2510.05652
白内障手術動画解析のための大規模多源多タスクベンチマーク：Cataract-LMM [cs.CV, cs.AI, cs.LG]目的：白内障手術動画の多様なアノテーションデータセット
- 手術支援研究には大規模データが必要。臨床・技術的な多様性を捉えたデータセットが求められる。
- 既存の白内障手術データは多様性とアノテーションの深さに欠け，汎用的な深層学習モデルの学習を阻害する。
- 多様なデータと多層アノテーションにより，汎用的な手術ワークフロー解析モデル開発を促進する。
- 3,000件の白内障手術動画データセットを構築。2つの医療機関から収集し，熟練度の異なる外科医の動画を含む。
- 手術段階，器械・解剖構造のインスタンスセグメンテーション，器械・組織のインタラクション追跡，スキルスコアの4層アノテーションを提供。
- ワークフロー認識，シーンセグメンテーション，器械-組織インタラクション追跡，スキル評価の4タスクで深層学習モデルの性能を評価した。
Link: https://arxiv.org/abs/2510.16371
SARSteer：セーフアブレーションによる安全な拒否誘導を通じて大規模オーディオ言語モデルを保護する [cs.SD, cs.CR]目的：大規模オーディオ言語モデルにおける有害な応答の抑制と安全性の確保
- 現実世界での応用において，オーディオと言語を扱うモデルの重要性が高まっている。
- オーディオ入力はテキスト入力よりも有害な応答を引き起こしやすく，安全性の問題が顕在化している。
- オーディオ入力における過剰な拒否反応を抑制しつつ，有害なクエリに対する拒否率を高めることを目指す。
- SARSteerは，推論時にオーディオ入力に手を加えることなく，テキスト由来の拒否誘導を活用することで有害な応答を抑制する。
- セーフスペースアブレーションを導入することで，無害な音声クエリに対する過剰な拒否反応を軽減する。
- 実験の結果，SARSteerは有害なクエリの拒否率を大幅に向上させ，無害な応答を維持することに成功した。
Link: https://arxiv.org/abs/2510.17633
コンピュータ断層撮影における腎臓および腎腫瘍の自動3Dセグメンテーションのためのサブマニホールドスパース畳み込みネットワーク [cs.CV, cs.LG]目的：腎臓および腎腫瘍のコンピュータ断層撮影における自動3Dセグメンテーション手法の開発
- 腎腫瘍の正確な輪郭抽出は，定量的分析や精密腫瘍学において不可欠であり，医療の発展に貢献する。
- CT画像はデータ量が大きく，高解像度な畳み込みネットワークは計算コストが高く，ダウンサンプリングやパッチベース推論に依存しやすい。
- ボクセル希疏化とサブマニホールドスパース畳み込みネットワークを用いて，高解像度な3D処理を効率的に実現し，メモリ使用量と推論時間を削減する。
- 提案手法は，KiTS23データセットを用いて5分割交差検証を行い，腎臓＋腫瘍のDice係数を95.8%と高い結果を得た。
- 腫瘍＋嚢胞および腫瘍単独のDice係数も，KiTS23のトップレベル手法と遜色なく，一部でより高いスコアを示した。
- 提案手法は，nnU-NetやSegVolと比較して，VRAM使用量と推論時間を大幅に削減し，特に小規模な病変において優れた性能を発揮した。
Link: https://arxiv.org/abs/2511.04334
継続学習のための階層型レイヤーグループ化プロンプトチューニング [cs.CV]目的：継続学習におけるプロンプト調整手法の改善
- 事前学習済みモデルの活用は，計算コストを抑えつつ高い性能を発揮するため重要である。
- 従来のプロンプトチューニングでは，過剰な柔軟性が破滅的忘却を引き起こす可能性がある。
- 層ごとに独立したプロンプト調整を抑制し，モデルの安定性を向上させることを目指す。
- 提案手法では，同じグループ内の層でプロンプトを共有し，位置エンコーディングで調整することで，事前学習済みモデルの特徴関係を維持する。
- また，タスク固有のルートプロンプトを用いて，各レイヤーグループに対するサブプロンプトを生成することで，サブプロンプト間の相乗効果を高める。
- 4つのベンチマーク実験の結果，最先端手法と比較して良好な性能が確認された。
Link: https://arxiv.org/abs/2511.12090
活性化リプレイによる大規模マルチモーダルモデルにおける推論能力の向上 [cs.CV]目的：大規模マルチモーダルモデルの推論能力向上
- 近年，画像とテキストを扱うモデルが発展し，多様なタスクへの応用が期待されている。
- 既存手法では，モデルの推論能力を効果的に向上させるメカニズムが不明確である。
- 活性化リプレイにより，推論能力向上のメカニズムを解明し，新たな手法を提案する。
- 強化学習による報酬付き検証（RLVR）は，大規模マルチモーダルモデルの推論能力を向上させる効果があることが示された。
- 活性化リプレイは，入力トークンの操作を通じて，ベースモデルの低エントロピー活性化を再現し，RLVRモデルの推論能力を向上させる。
- 数学，視覚エージェント，動画推論など，多様なシナリオにおいて，活性化リプレイがPass@Kを向上させ，推論範囲の狭さを軽減することが確認された。
Link: https://arxiv.org/abs/2511.19972
LC4-DViT：変形型Vision Transformerを用いた土地被覆生成と分類 [cs.CV]目的：高解像度土地被覆マッピングのための手法
- 土地被覆は，生態系サービス，水文調節，災害リスク軽減，土地利用計画に不可欠。
- 高解像度画像における幾何学的歪みや，注釈データの不足と不均衡が課題。
- 記述に基づいた生成拡張と変形認識型Transformerの組み合わせで解決を目指す。
- 提案手法LC4-DViTは，Aerial Image Datasetにおいて，全体精度95.72%を達成。
- 従来のViTベースラインやResNet50，MobileNetV2，FlashInternImageよりも性能が向上。
- SIRI-WHUデータセットでの実験でも高い汎化性能を示し，GPT-4oによる評価でDViTの注意機構が水文構造と一致。
Link: https://arxiv.org/abs/2511.22812