arXiv雑要約

画像・音声 - 2026/06/05 公開

大規模言語モデルを用いたテキストから3D室内シーン生成のためのグローバル・ローカルモンテカルロ木探索 [cs.CV]目的：テキストによる指示に基づいた3D室内シーンの生成
- 近年，大規模言語モデルは多様なタスクで高い推論能力を示す。
- 既存手法は逐次的な意思決定に依存し，過去の決定を修正できないため，誤差が蓄積しやすい。
- 空間配置の常識に基づいた計画問題として捉え，誤差伝播を抑制する手法を提案する。
- グローバル木とローカル木を用いた木探索により，効率的なシーン生成を実現した。
- 階層的なシーン表現とPRMガイド付きMCTSにより，探索空間を効果的に削減し，最適な解を効率的に見つけ出した。
- 大規模で多様なデータセット3DTindo-benchを構築し，生成された3Dシーンのリアリティを向上させた。
Link: https://arxiv.org/abs/2606.06002
ReSAGE-PAR：歩行者属性認識における生成的拡張のための表現類似性評価 [cs.CV]目的：歩行者属性認識におけるデータ拡張手法
- 歩行者属性認識は，監視システムや自動運転など，安全性向上に不可欠な技術である。
- 歩行者属性認識では，多様なデータが不足しており，学習データの偏りが課題となっている。
- 生成モデルを活用し，データ不足を補い，認識精度向上を目指す。
- ReSAGE-PARは，事前学習済みの拡散モデルを歩行者属性認識の解像度に適合させるLoRAベースの手法を採用した。
- 生成画像とプロンプト間の視覚-言語対応スコアを評価し，信頼性の高い疑似ラベルを生成する。
- 標準的なバックボーンにおいて最大8.7%の性能向上を示し，歩行者属性認識の新たな限界を打ち立てた。
Link: https://arxiv.org/abs/2606.06020
SpeechJBB：コードスイッチ音声下における大規模オーディオ言語モデルの安全性と理解の探求 [cs.SD, eess.AS]目的：大規模オーディオ言語モデルにおける安全性評価
- 音声による対話が広がり，オーディオ言語モデルの重要性が増しているから。
- 多言語や音声入力，特にコードスイッチ音声に対する安全性評価が不十分である。
- コードスイッチ音声に対する安全性脆弱性を明らかにし，対策を検討する。
- コードスイッチ音声は，単一言語音声よりも高い脱獄成功率を示すことがわかった。
- 非英語単一言語や非英語コードスイッチペアで攻撃成功率が高い傾向が見られた。
- 無意味な発音の挿入は，安全性ポリシーを回避する有効な手段となりうる。
Link: https://arxiv.org/abs/2606.06037
円錐ビームCTの truncated reconstruction におけるテクスチャ保持型陰解表現 [cs.CL, cs.CV]目的：円錐ビームCTの truncated reconstruction 問題に対する，テクスチャ保持を可能とする陰解表現の提案
- 円錐ビームCTは医療画像診断において不可欠であり，低線量かつ迅速な撮影が可能である。
- データ欠損によるアーチファクトが課題であり，再構成画像の品質低下を引き起こす。
- アーチファクト抑制とデータ補完を両立し，高精細な画像再構成を実現することを目指す。
- 提案手法は，投影データの直接写像により，従来のフィルタリングや逆投影処理を回避し，アーチファクトを抑制する。
- 座標ネットワークのスペクトルバイアスに着目し，物理モデルに基づく反復処理モジュールを導入することで，高周波テクスチャの保持を可能にした。
- シミュレーションデータと実データを用いた実験により，提案手法がアーチファクト抑制と高精細化の両立に有効であることが示された。
Link: https://arxiv.org/abs/2606.06039
LoomVideo：ビデオ生成と編集へのマルチモーダル入力の統合 [cs.CV]目的：ビデオ生成と編集のための統一的なモデル開発
- ビデオ生成技術は，エンターテインメントからビジネスまで広範な分野で活用が期待されている。
- 既存モデルは巨大な計算資源を必要とし，効率的な編集が困難である。
- 計算コストを削減しつつ，高精度なビデオ編集を可能にすること。
- LoomVideoは，50億パラメータのコンパクトなモデルでありながら，最先端の性能を達成した。
- トークン連結を必要としないScale-and-Add機構により，計算コストを大幅に削減し，推論速度を最大5.41倍に向上させた。
- Eコマースやファッション生成において特に優れた性能を示し，実用的なビデオ基礎モデルの実現に貢献する。
Link: https://arxiv.org/abs/2606.06042
構造化された歩行-言語表現によるLLM条件付き病理的歩行合成 [cs.CL, cs.CV]目的：病理的歩行の合成
- 歩行分析は，疾患の診断や進行評価に不可欠であり，医療現場での応用が期待される。
- 病理的歩行データセットは，プライバシー，募集，コスト，運動の多様性により，入手が困難である。
- テキスト記述に基づき，病理的歩行データを合成することで，データ不足を解消することを目指す。
- 提案手法により合成された歩行データは，既存のデータと組み合わせることで，再帰型分類器の性能向上に貢献する。
- GRU分類器を用いた実験では，実データと合成データを組み合わせて訓練することで，92.77%の精度を達成した。
- 病理特有の運動特性を保持する病理的トークナイザーが，離散表現学習において重要な役割を果たす。
Link: https://arxiv.org/abs/2606.06048
ReCache：拡散モデルにおけるREINFORCEを用いた予算を考慮したキャッシュスケジュール学習 [cs.CV]目的：拡散モデルの生成品質を最大化する再計算スケジュール
- 拡散モデルは高品質な画像や動画を生成するが，計算コストが高いという課題がある。
- 既存のキャッシュスケジュールは固定か，ヒューリスティックに基づくため，計算コストの指定が難しい。
- 目標予算内で生成品質を最大化するキャッシュスケジュールを学習することで，この問題を解決する。
- ReCacheは，ポリシー勾配を用いて学習を行い，拡散モデル全体のバックプロパゲーションを回避する。
- FLUXにおいてFLOPsを5.04倍削減し，DiCacheと比較してLPIPSを31%削減することに成功した。
- Wan 2.1では，速度を2.6倍向上させ，LPIPSを65%削減し，VBenchスコアを7%向上させた。
Link: https://arxiv.org/abs/2606.06060
マルチタスク学習だけでは不十分：二重出力第二言語音声認識における表現の絡み合い [cs.RO, cs.DC, cs.CL, cs.SD, eess.AS]目的：二重出力第二言語音声認識における表現の絡み合い
- 第二言語音声認識は，グローバルコミュニケーションにおいて重要であり，その性能向上は不可欠である。
- マルチタスク学習は有効だが，タスク間の表現が絡み合うことで，一方のタスクの性能が低下する可能性がある。
- 本研究は，表現の絡み合いを軽減するマルチタスク学習フレームワークの設計指針を提示することを目指す。
- 韓国語と英語の比較により，マルチタスク学習が意味認識は向上させるものの，音声の転写精度を低下させることが示された。
- 特に英語において，転写精度の低下は意味と音声の乖離度合いと相関があることが明らかになった。
- エンコーダレベルでの表現の絡み合いが原因であり，タスク固有の表現を分離する必要性が示唆された。
Link: https://arxiv.org/abs/2606.06065
FontFusion：拡散モデルにおけるタイポグラフィ的条件付けによる生成テキストの向上 [cs.CV, cs.GR]目的：拡散モデルにおけるテキスト生成の質の向上
- 高品質なテキスト生成は，多様なデザインやコミュニケーションにおいて不可欠である。
- 拡散モデルでは，フォント制御の精度とテキストの可読性の両立が課題であった。
- タイポグラフィと画像内容の空間的な結びつきを強化し，未学習フォントへの汎化性能を高める。
- FontFusionは，既存のDiTアーキテクチャに組み込むことができ，再学習を必要としない。
- 難しい装飾フォントにおいて，単一エンコーダーのベースラインと比較して約76%の相対的な改善が見られた。
- 無条件モデルと比較して，フォントの一貫性が約68〜76%向上した。
Link: https://arxiv.org/abs/2606.06066
VZCrash：エゴ車両衝突の大規模IMUデータセット [cs.IR, cs.CV]目的：エゴ車両衝突に関する大規模IMUデータセット
- 自動車の安全性向上は社会的な要請であり，事故軽減技術の開発が不可欠である。
- 現実世界の衝突データは入手が困難であり，十分な量のデータセットが存在しない。
- 大規模な衝突データセットを用いて，高精度な衝突検知モデルの構築を目指す。
- VZCrashは31,000件以上の衝突データと158,000件の非衝突データを含む，大規模なIMUデータセットである。
- 衝突検知モデルの学習において，データ量のスケールが性能に大きく影響することが示された。
- シンプルな閾値ベースの手法から最先端の深層学習モデルまで，様々な手法をベンチマークした。
Link: https://arxiv.org/abs/2606.06074
記号的状態を介した視覚空間計画の学習：モダリティギャップを意識した自己蒸留 [cs.NI, cs.AI, cs.CV]目的：視覚空間計画の学習
- 視覚と言語を組み合わせたモデルは多岐にわたるタスクで性能を発揮するが，空間計画は依然として困難である。
- 画像から潜在的な状態構造を推論し，行動を決定する視覚計画は，記号的な計画に比べて推論が難しい。
- モダリティギャップを意識した自己蒸留によって，視覚モデルの認識能力と計画能力を向上させる。
- 提案手法MGSDは，2段階の自己蒸留フレームワークによって，視覚モデルの状態表現の信頼性を高める。
- MGSDは記号的な状態を用いて教師モデルが計画能力を伝え，視覚モデルのロールアウトを監督することで，計画性能を向上させる。
- 実験結果から，MGSDは4Bおよび8Bのバックボーンで視覚計画の性能を大幅に向上させ，記号入力の上限に迫る結果が得られた。
Link: https://arxiv.org/abs/2606.06076
視覚自己回帰モデルのための知識蒸留 [cs.CV]目的：視覚自己回帰モデルにおける知識蒸留戦略
- 画像生成モデルの表現力向上は重要だが，計算コストも課題となる。
- 知識蒸留は言語モデルでは有効だが，画像生成への応用は未熟である。
- 教師データの信頼性が低い場合でも有効な蒸留手法を開発する。
- VarKDは，学生モデルのサンプルに基づいて蒸留を行い，教師データの信頼性の低い部分を抑制することで，性能を向上させる。
- ImageNetでの実験により，VarKDは既存の蒸留手法を上回り，大規模モデルとの性能差を縮小することを示した。
- 自己回帰モデルの長いデコード時間や視覚的トークンの曖昧さが，教師データの有効性を低下させていた。
Link: https://arxiv.org/abs/2606.06078
ファーストプライスオークションにおける後悔ダイナミクスの収益保証 [cs.CY, cs.GT]目的：離散型ファーストプライスオークションにおける近似相関均衡の収益
- オークションは資源配分の効率的な手段であり，競争原理に基づいている。
- 入札者の戦略が不確実な場合，収益を保証することが難しい。
- 後悔ダイナミクスに基づく入札者の行動が収益に与える影響を分析する。
- 近似相関均衡の収益が，第二位の評価額から一定の誤差を除いた値以上であることが示された。
- 後悔の程度が$\mathcal{O}(\sqrt{k T})$である場合，時間平均収益は少なくとも$v_2 - \Theta(1/k) - \Theta(\epsilon)$となる。
- 本研究は，ファーストプライスオークションにおける後悔入札者の収益に関して，初の多項式収束率を確立した。
Link: https://arxiv.org/abs/2606.06085
HyperVis：ローレンツ双曲面上での連続潜在視覚関係グラフによる構成的推論 [cs.CV]目的：構成的推論を必要とする視覚言語モデルの性能向上
- 視覚と言語を組み合わせたモデルは，複雑なシーンの理解において重要な役割を担う。
- 既存の視覚言語モデルは，オブジェクト間の関係性を理解する構成的推論が苦手である。
- シーングラフの利用が有効だが，離散的なテキストラベルがボトルネックとなり性能低下を招く。
- 提案手法HyperVisは，シーングラフ生成器を介さずに，視覚的関係性を直接学習することでこの問題を解決する。
- 学習時にHyperVisを正則化項として用いることで，生成VQAの精度が向上し，ベースラインを上回る性能を示す。
- 推論時にHyperVisを関係エンコーダーとして用いることで，識別的構成的スコアリングにおいても高い性能を発揮する。
Link: https://arxiv.org/abs/2606.06100
MS-DKC：医療画像セグメンテーションモデルの設計・適応のためのデータセット知識カードフレームワーク [cs.CV]目的：医療画像セグメンテーションにおけるデータセットの要求事項を明確化し，モデル設計の指針を提供するフレームワーク
- 医療画像セグメンテーションは医療診断・治療において不可欠であり，その精度向上が求められている。
- 既存研究では，モデルアーキテクチャの改良に偏りがちで，データセット固有の特性が考慮されていない場合が多い。
- データセットの特性を記述する「知識カード」を用いて，より適切なモデル設計を支援することを目的とする。
- DRIVEデータセットでは，DKC-TNet-v2がDice 0.8044，IoU 0.6730を達成し，詳細な血管構造のセグメンテーションに有効性が示された。
- ISIC2018データセットでは，MS-DKC-AttNextTopo-VCSF-NoAugがDice 0.8872，IoU 0.8214を達成し，多様な病変形状への対応が確認された。
- ACDCデータセットでは，MS-DKCが4クラスsoftmaxセグメンテーションを推奨し，データセットに合わせた損失関数の選択が重要であることが示された。
Link: https://arxiv.org/abs/2606.06103
位置，種類，理由，重要度：テキスト画像生成における構造化欠陥の特定 [cs.CV]目的：テキスト画像生成モデルにおける欠陥の構造化された特定手法
- 画像生成技術の進歩に伴い，より高品質な画像を生成することが求められている
- 生成された画像には局所的で微妙，かつ構造的に複雑な欠陥が残存し，その診断が困難である
- 欠陥の位置，種類，理由，重要度を明確に示す構造化された欠陥特定手法の開発
- 本研究では，各欠陥を（位置，種類，理由，重要度）のタプルとして表現する構造化欠陥特定（SDG）を提案した。
- SDGの学習と評価のために，4つの最新テキスト画像生成モデルに対する3万枚の画像データセットSDG-30Kを構築した。
- SDGを用いた報酬が，テキスト画像生成モデルの精度向上と局所的な画像改善に貢献することが示された。
Link: https://arxiv.org/abs/2606.06113
拡散モデルによる共通因子と顕著な因子の分離 [cs.CV]目的：二つのデータ分布間の共通因子と，片方の分布に特有な顕著な因子との分離
- 画像生成や編集において，潜在空間での因子分離は重要な課題である。
- 既存のコントラスト分析手法は，再構成能力や画質に限界があり，高精度な因子分離が困難である。
- 拡散モデルを用いて，生成品質を損なうことなくコントラスト分解を可能にすること。
- 拡散モデルの条件付けフレームワークにより，コントラスト分解を実現し，生成品質を維持した。
- 弱い教師信号を用いて，条件を共通因子と顕著な因子に分解する手法を開発した。
- 加法的なコントラスト因数分解が，穏やかな条件下で識別可能であることを証明した。
Link: https://arxiv.org/abs/2606.06120
単一次元契約設計における後悔最小化：二値行動を伴う場合 [cs.GT]目的：二値行動をとる単一次元の媒介変数を持つエージェントに対する，アウトカム依存報酬計画（契約）の最適化
- プリンシパル・エージェント問題は，情報非対称性下でのインセンティブ設計の根幹をなす重要な研究分野である。
- 既存研究では，エージェントの行動を観測できない状況下での最適な契約設計が困難であった。
- 本研究は，オンライン学習を通じて最適な契約を導き出すアルゴリズムを開発し，後悔を最小化することを目指す。
- 敵対的なシーケンスに対して，$\Theta(T^{2/3})$というタイトな後悔保証が得られた。
- このレートは，アウトカムの数$m$に依存しないという特徴を持つ。
- 単一の隠れた型が存在する場合，$\widetilde{\Theta}(\sqrt{T})$という改善された後悔限界を示すことができた。
Link: https://arxiv.org/abs/2606.06125
選択的注意による計算効率を考慮したイベントからフレーム再構成 [cs.CV]目的：イベントからフレームへの再構成
- イベントカメラは高速な動きや高輝度変化下でも動作し，従来のカメラの限界を克服する。
- 既存手法は再構成品質と計算効率のトレードオフに直面しており，リアルタイム処理が困難である。
- 計算効率を考慮しつつ，高精度なイベントからフレームへの再構成を実現することを目指す。
- 提案手法は，因果関係に基づいた時間モデリングと計算効率を重視した設計により，効率的な再構成を可能にする。
- 選択的なコンテキスト融合戦略と軽量なハイブリッド注意機構により，高速な動きや照明変化に対するロバスト性を向上させる。
- 標準的なベンチマークテストの結果，提案手法は高い再構成性能とモデルの複雑さのバランスを達成した。
Link: https://arxiv.org/abs/2606.06142
均一価格資源配分メカニズムのための統一的フレームワーク [cs.GT]目的：資源配分メカニズムの設計
- 資源配分は，経済学，計算機科学など多くの分野で重要な課題である。
- 既存メカニズムは複雑なルールや直感的でない支払いが必要な場合がある。
- シンプルで効率的な資源配分メカニズムの構築を目指す。
- 本研究で提案するフレームワークは，ケリーメカニズムと第一価格オークションの間を補間するメカニズム群を提供する。
- 提案メカニズムは，ケリーメカニズムの効率性を厳密に改善し，均衡状態において完全な効率を達成する。
- また，VCGメカニズムに対する収益保証も提供する。
Link: https://arxiv.org/abs/2606.06151
アフォードVLA：アフォード認識に基づく理解を通じた行動生成を可能にする視覚-言語-行動モデル [cs.RO, cs.CV, cs.MM]目的：アフォード認識を通じた，視覚・言語・行動間の精密な知覚-行動マッピングの確立
- ロボット操作において，事前学習済みの視覚-言語モデルの知識を活用することで，高度なタスク遂行が可能となる。
- 視覚-言語モデルの意味空間と，ロボット制御ポリシーとの構造的な不一致が，精密な知覚-行動マッピングの学習を阻害する。
- アフォード予測を中間表現として導入することで，視覚，言語，行動を繋ぎ，より強固なマッピングを実現する。
- 提案手法AffordanceVLAは，オブジェクト中心のグラウンディング，2Dインタラクション局所化，3D幾何学的推論を組み合わせたアフォードキューを活用する。
- MoTアーキテクチャと段階的な学習戦略により，アフォード認識を効率的に学習し，視覚，言語，行動間のギャップを埋める。
- シミュレーションおよび実世界実験において，多様な操作シナリオで優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2606.06155
時間的冗長性マスキングと潜在的インペインティングによる適応型トークン化 [cs.CV]目的：動画シーケンスの視覚的な複雑さに基づいてトークン予算を動的に割り当てる仕組み
- 動画圧縮技術は，効率的なデータ伝送と保存に不可欠であり，その重要性は増している。
- 従来の適応型トークン化は，計算コストが高く，リアルタイム処理が困難な場合がある。
- 時間的冗長性を活用し，計算コストを抑えつつ，効率的な適応型トークン化を実現すること。
- 提案手法は，時間的L1差分に基づいて冗長な潜在的位置を特定し，トークン割り当てを自動的に調整する。
- これにより，静止画は積極的に圧縮され，動きの激しいシーケンスはより多くのトークンを保持するという，コンテンツ主導の圧縮が可能となる。
- 実験結果は，既存手法と比較して，推論速度が大幅に向上し，高い再構成品質を維持することを示している。
Link: https://arxiv.org/abs/2606.06158
競争を学習する：クロスアテンションによる協調マルチエージェント強化学習における分散型ロバストな公平性 [cs.MA, cs.GT]目的：協調型マルチエージェント強化学習における公平性の確保と，悪意のあるエージェントに対するロバスト性の実現
- マルチエージェント強化学習は，複雑な協調行動を学習する上で重要であり，現実世界の様々な問題に応用可能である。
- 公平性を考慮した協調型マルチエージェント強化学習は，利己的なエージェントによる不正利用に対して脆弱であるという課題がある。
- 本研究は，分散型のポリシーを用いて，悪意のあるエージェントからの不正利用に対するロバストな公平性を実現することを目指す。
- 提案手法CANは，エージェントの行動を観察し，フリーライダーの数を推論することで，状況に応じた行動をとる。
- CANは，PSROを用いたアドバーサリアルリーグでの訓練により，不正利用可能性を低く抑え，高い効率性と公平性を両立した。
- ただし，CANの有効性は，競争のレバレッジに依存し，状況によってはその効果が限定的または消失する可能性がある。
Link: https://arxiv.org/abs/2606.06162
RQUL-UIE：データ内自己教師あり学習による不安定なラベルの再活性化を用いた水中画像強調 [cs.CV]目的：水中画像強調のための不安定なラベルの再活性化戦略
- 水中画像は水中の光の吸収や散乱により劣化するため，視覚的な情報を失いやすい。
- 従来の学習ベースの手法は，不安定な品質のラベルを持つペアデータセットに依存しており，性能のボトルネックとなっている。
- 本研究は，データセット内のラベル品質分布を活用し，学習効率と画像強調性能の向上を目指す。
- 提案手法では，事前学習済みの拡散モデルから得られる意味知覚埋め込みを用いてラベル品質を評価する。
- 評価されたラベル品質はノイズレベル指数に量子化され，多段階ノイズ除去プロセスを段階的に監督する。
- 実験結果から，提案手法は最先端の手法と比較して，復元品質において一貫して優れた性能を示すことが示された。
Link: https://arxiv.org/abs/2606.06176
敵対的攻撃は既に答えを伝えている：方向性バイアス誘導によるテスト時防御 [cs.CV]目的：視覚言語モデルに対する敵対的攻撃のテスト時防御手法
- 視覚言語モデルは汎化性能が高いが，現実世界での応用において敵対的攻撃への脆弱性が課題となっている。
- 既存の防御手法は，大規模な再学習が必要であり，効率性に課題がある。
- 敵対的攻撃が持つ方向性バイアスを利用し，再学習なしでロバスト性を向上させる。
- 敵対的画像は特徴空間において一貫した方向にシフトする傾向があり，これはクリーンな画像とは対照的である。
- 提案手法DBDは，この「防御方向」を推定し，2ストリーム再構成戦略を用いてロバストな表現を回復する。
- DBDは，最先端の堅牢性を実現し，敵対的精度がクリーン精度を上回る場合もあることが示された。
Link: https://arxiv.org/abs/2606.06186
ActiveMimic：積極的知覚を用いた一人称視点ビデオ事前学習 [cs.CL, cs.MA, cs.RO, cs.CV]目的：一人称視点ビデオによる事前学習における性能向上
- ロボットのデータ収集はコストがかかるため，代替手段として人間のビデオが注目されている。
- 人間のビデオで事前学習したモデルは，ロボットデータで学習したモデルに比べて性能が劣る。
- 人間の視点移動をノイズと捉えず，積極的な知覚行動として活用することで性能向上を目指す。
- ActiveMimicは，単一のカメラからカメラと手首の軌跡を復元し，視点行動をモデル化する。
- 多様なタスクにおける実験で，人間のビデオで事前学習した既存手法を上回り，ロボットデータで学習した最先端モデルに匹敵する性能を示した。
- 積極的知覚能力は，ロボット固有の微調整ではなく，一人称視点ビデオの事前学習から得られることが示唆された。
Link: https://arxiv.org/abs/2606.06194
SC-MFJ：医療画像セグメンテーションのための単純な触覚品質指標 [cs.CV, cs.GR]目的：医療画像セグメンテーションにおける触覚レンダリングに適した表面の品質評価
- 手術シミュレーションの精度向上には，視覚情報に加え，触覚情報の重要性が増している。
- 従来のDice係数やHausdorff距離は幾何学的オーバーラップのみを評価し，触覚品質を反映しない。
- 触覚シミュレーションに適したセグメンテーション結果を，簡便かつ迅速に評価する指標を提案する。
- SC-MFJは，単純なガウシアン平滑化処理によって，バイナリセグメンテーションの触覚品質が大幅に向上することを示した。
- 学習されたSDF回帰は，ガウシアン平滑化よりも触覚品質のばらつきが大きいことが明らかになった。
- 提案手法は，従来の幾何学的指標では検出できない問題を検出できる可能性を示唆している。
Link: https://arxiv.org/abs/2606.06199
ゼロショットクロス言語音声感情認識のための感情識別表現学習 [cs.SD, eess.AS]目的：ゼロショットクロス言語音声感情認識における感情識別表現
- 音声感情認識は，人間と機械のより自然なコミュニケーションに不可欠である。
- 言語間のデータ分布の不一致と，ターゲット言語の感情アノテーション不足が課題。
- 言語を跨いだ感情認識の汎化性能向上を目指す。
- 提案手法は，教師あり対照学習と話者敵対的学習を統合することで，感情識別表現を学習する。
- 対照学習は言語間の感情アライメントを促進し，話者敵対的学習は話者固有の特徴を抑制する。
- 実験結果から，提案手法が従来の学習戦略よりも著しく音声感情認識性能を向上させることが示された。
Link: https://arxiv.org/abs/2606.06200
病理的音声認識のためのSpeechLLMに対するFiLMベースの話者条件付け [cs.CL, cs.SD, eess.AS]目的：病理的音声の認識に関する研究
- 標準的な音声認識技術は進歩しているが，神経疾患による病理的音声の認識は依然として課題である。
- 既存の音声認識システムは，病理的音声に対して十分な性能を発揮できないという問題がある。
- 本研究は，FiLMを用いた話者条件付けによって，病理的音声認識の性能向上を目指す。
- FiLMを用いた話者条件付けは，既存の適応戦略と比較して競争力のある性能を示す。
- また，条件付けされていない音声に対する性能も維持することが確認された。
- さらに，適応されたモデルは，音声関連の質問に答える能力を保持している。
Link: https://arxiv.org/abs/2606.06211
DisasterBench：複雑な環境におけるUAVを用いた災害対応のためのマルチモーダルベンチマーク [cs.CV, cs.AI]目的：UAVを用いた災害対応におけるマルチモーダル推論の評価
- 災害対応は人命と財産を守る上で不可欠であり，迅速かつ的確な状況把握が求められる。
- 既存のベンチマークは，災害の種類が限られ，実践的な緊急対応に必要な多段階推論を十分にサポートしていない。
- 複雑な環境下でUAVが収集したデータから，災害の原因，予測，対応策を導き出すためのベンチマークを提供する。
- DisasterBenchは，14種類の災害シナリオと9つの対応タスクを網羅し，災害とタスク間の関係を詳細にマッピングすることで，因果関係の特定，被害状況の分析，意思決定を評価する。
- 軽量マルチモーダルモデルDisasterVLは，ドメイン適応，CoTによるマルチモーダルアライメント，強化学習により最適化され，エッジデバイス上での推論を可能にする。
- DisasterVLは，21のMLLMと比較して優れた性能を示し，GPT-4oと同等の推論精度と効率性を実現した。
Link: https://arxiv.org/abs/2606.06217
Symb-xMIL：デジタル病理における複数インスタンス学習の説明可能性向上 [cs.CV, cs.LG]目的：複数インスタンス学習モデルの振る舞いを，人間が理解しやすい論理規則との整合性に基づいて定量化すること
- デジタル病理におけるMILモデルの利用が拡大しており，その判断根拠の明確化が求められている
- 既存の説明手法は，影響領域の可視化に留まり，組織特徴間の相互作用の説明が不十分である
- モデルの予測における論理的規則との整合性を評価し，透明性と解釈性を高めることを目指す
- Symb-xMILは，合成データ上で正解の論理規則を高い精度で再現することに成功した
- 臨床腫瘍検出タスクでは，モデルの意思決定パターンを明らかにし，隠れたエラーを検出することができた
- TCGA-HNSCCデータを用いたHPV予測タスクにおいて，HPVステータスに加えて患者生存率の層別化を改善した
Link: https://arxiv.org/abs/2606.06224
SAM-Flow: ソースに固定されたマスクフローによるトレーニング不要な画像編集 [cs.CV]目的：トレーニング不要な画像編集のための手法
- 拡散モデルやフローマッチングモデルの活用が進み，画像編集への応用が期待されている。
- 既存手法では，編集領域外に影響が広がり，背景漏れが発生しやすいという課題がある。
- 編集領域を局所化し，背景への影響を抑制することで，高精度な画像編集を実現すること。
- SAM-Flowは，ソース画像に固定されたマスクフローを用いて局所的な編集を可能にする。
- 編集対象領域を特定し，その領域内のみに速度更新を適用することで，背景への影響を抑制する。
- Stable Diffusion 3やFLUXといった既存モデルに容易に組み込むことができ，高い編集精度と背景保存能力を示す。
Link: https://arxiv.org/abs/2606.06228
機関文書からのデータスナップショット抽出のためのオープンソースレイアウト検出モデルのベンチマーク [cs.CL, cs.AI, cs.CV, cs.IR]目的：機関文書内の意味のある視覚的要素の特定と局所化
- 機関文書には，図表に埋め込まれた重要な運用・分析情報が含まれるため，活用が求められる。
- 汎用的な文書レイアウト分析では，図表が分析要素として適切に扱われず，情報抽出の精度が低い。
- 機関文書に特化したデータスナップショット抽出の性能向上を目指す。
- 既存のオープンソースモデルは，一般的な学術的ベンチマークでは高い性能を示すものの，実際の機関文書への適用では汎化性に課題があることが示された。
- 分析内容とそうでない内容の混同，複合的な分析要素の分割，解釈に必要な文脈情報の抽出不足が，主な失敗要因として特定された。
- 汎用的な文書レイアウト分析と，実運用に役立つデータスナップショット抽出の間には，依然として大きな隔たりが存在することが明らかになった。
Link: https://arxiv.org/abs/2606.06242
GRAMformer：体積多Modalクロスアテンションによる任意の順序のModal相互作用 [cs.CV, cs.LG]目的：異種Modal間の情報統合
- 近年，多様なデータから学習する多Modal研究が盛んであり，その性能向上が求められている。
- 既存手法は計算コストが高いか，高次のModal間相互作用を捉えきれないという課題がある。
- 本研究は，任意のModalの組み合わせを考慮した効率的な相互作用モデルを構築することを目的とする。
- 提案手法VMAは，クエリと複数のModal固有のキーの幾何学的形状に基づいてアテンションスコアを定義する。
- VMAは，ペアごとの類似度を超えて共同多Modal依存性を捉え，任意の順序のModal間相互作用をモデル化する。
- 実験の結果，提案モデルGRAMformerは，既存手法と比較して効果と効率の向上を示した。
Link: https://arxiv.org/abs/2606.06249
半径FPS：球状ボクセルプルーニングによるCPUおよびGPUでの効率的な最遠点サンプリング [cs.RO, cs.CV, cs.DC]目的：ロボット認識のための効率的な最遠点サンプリング手法の開発
- ロボット工学において，点群はLiDAR等のセンサ情報として不可欠であり，自律運転やSLAM等の性能を左右する。
- 従来の最遠点サンプリングは計算コストが高く，最新の3Dセンサのデータ処理速度に追いつかず，リアルタイム処理のボトルネックとなっている。
- 球状ボクセルプルーニングを用いて，冗長な距離計算を削減し，処理速度を向上させることで，ロボットシステムのリアルタイム性を実現する。
- 提案手法RadiusFPS-Gは，GPU実装により従来のGPUベースFPSと比較して最大2.5倍の高速化を達成した。
- RadiusFPS-Gは，QuickFPSと同等またはそれ以上の性能を示し，GPUメモリ使用量は約半分で済む。
- FastPointサンプラと組み合わせることで，エンドツーエンド推論において最も高速な処理速度を実現した。
Link: https://arxiv.org/abs/2606.06255
リーマン劣化多様体上の測地流マッチングによるブラインド画像復元 [cs.CV]目的：ブラインド画像復元のための手法
- 画像劣化は，様々な原因で発生し，画像利用の妨げとなるため，その復元は重要である。
- 既存手法は，線形的な劣化モデルに依存しており，複雑な劣化に対応できない場合がある。
- 劣化をリーマン多様体としてモデル化することで，より現実的な劣化構造に対応する。
- 本研究では，劣化を低次元のリーマン多様体として捉え，画像と多様体空間間の測地輸送として復元を定式化する。
- 測地流マッチングという目的関数を用いて，劣化空間の曲率を考慮した輸送ダイナミクスを学習する。
- この枠組みは線形流マッチングを一般化し，観測された劣化を超えた汎化性能を理論的に保証する。
Link: https://arxiv.org/abs/2606.06278
両手による布操作のための合成データ生成と視覚的シワ・キーポイント検出 [cs.CV, cs.RO]目的：布操作におけるシワとキーポイントの検出
- ロボットによる布操作は，衣料品産業の自動化や家庭用ロボットの実現に不可欠である。
- 布の連続的な変形と自己遮蔽により，正確な状態推定が困難であり，ロバストな視覚認識が課題である。
- 布操作のための視覚的認識精度を向上させ，実用的なロボットシステムを構築すること。
- Blenderを用いた合成データ生成パイプラインを開発し，自動アノテーションされたキーポイントデータセットを作成した。
- CNNを用いた順列不変なキーポイント検出と，YOLOv8-OpenCVによる把持点抽出を統合した知覚フレームワークを提案した。
- 提案手法は，ファインチューニングなしで実布に転移し，高遮蔽や強い折り目状態でもベースラインを上回る性能を示した。
Link: https://arxiv.org/abs/2606.06292
複数箇所への時系列特定に関する研究 [cs.CV, cs.AI]目的：複数箇所への時系列特定タスクの性能向上
- 動画とテキストの関連付けは，動画理解の重要な要素であり，様々な応用が期待される。
- 従来の時系列特定研究は，単一のセグメントの特定に偏っており，複数セグメントへの対応が課題であった。
- 単一のクエリに対し，複数の時系列セグメントを特定する新たなベンチマークと手法を確立すること。
- 本研究では，複数箇所への時系列特定のための初の包括的なベンチマークを構築し，評価指標を導入した。
- 56kサンプルの高品質なデータセットを構築し，時系列およびキャプション報酬関数を開発した。
- 提案手法は，既存モデルを大きく上回り，新たな最先端性能を達成した。
Link: https://arxiv.org/abs/2606.06294
RhymeFlow：非同期去ノイズフロー計画によるビデオ生成のトレーニング不要な高速化 [cs.RO, cs.CV]目的：ビデオ生成における推論速度と計算コストの削減
- ビデオ生成技術は，コンテンツ制作など様々な分野で応用が期待されており，重要性が増している。
- 拡散モデルに基づくビデオ生成は計算コストが高く，特に3Dアテンションの計算量が課題となっている。
- 重要フレームのみを詳細に処理することで，全体の計算量を削減し，効率的なビデオ生成を目指す。
- RhymeFlowは，トレーニング不要なフレームワークであり，異なるフレームの去ノイズ化軌道を分離する。
- 重要フレームを特定し，それらのみを詳細に去ノイズ化することで，計算コストを最小限に抑える。
- 実験の結果，既存手法と比較して，推論速度が向上し，視覚品質も改善された。
Link: https://arxiv.org/abs/2606.06309
ハイランド・ゼクハウザー均衡に対する定数近似 [cs.GT]目的：ハイランド・ゼクハウザー均衡の近似計算
- 資源配分における効率性と公平性の両立は，社会厚生の向上に不可欠である。
- 多値効用関数を持つ市場における均衡の計算は，計算困難性が高い。
- 多値効用市場における効率的な近似アルゴリズムの確立を目指す。
- 多値市場を構造化された二値市場に帰着する新しい効用層別化技術を開発した。
- この帰着により，バジラニとヤナカキスの厳密アルゴリズムを活用した効率的な近似計算が可能となった。
- 多値効用を持つ市場におけるハイランド・ゼクハウザー均衡に対する $1/e$-近似多項式時間アルゴリズムを確立した。
Link: https://arxiv.org/abs/2606.06317
高次元データ多様体における効率的な平均曲率計算 [cs.LG, cs.CG, cs.CV, stat.ML]目的：高次元データセットの各点における局所平均曲率の推定
- 機械学習アルゴリズムにおいて，幾何学的な情報を活用する重要性が増している。
- 高次元データにおける平均曲率の計算は，計算コストが高く，現実的な問題への適用が困難である。
- 本研究は，高次元データにおける平均曲率計算の効率化を図り，幾何学的な特徴量としての利用を促進する。
- 提案手法では，共分散行列の固有ベクトルの直交性とトレース演算の性質を利用し，平均曲率計算のコストを大幅に削減した。
- また，特異値分解(SVD)の truncated バージョンを用いることで，計算量をさらに低減し，実用的な速度を実現した。
- 実データを用いた実験により，提案手法が既存手法に対して50倍から300倍の高速化を達成し，精度の低下も無視できる程度であることが確認された。
Link: https://arxiv.org/abs/2606.06329
StoryVideoQA：大規模・多ジャンル・自動生成データセットによる深層ビデオ理解の拡張 [cs.CV]目的：深層ビデオ理解を可能にする大規模なビデオ質疑応答データセットの構築
- ビデオ理解は，映像コンテンツの活用において重要な役割を担うため，その発展が求められている。
- 既存のビデオ質疑応答データセットは，複雑なストーリーラインの理解を要する深層ビデオ理解において，規模と多様性の面で課題がある。
- 本研究は，TVシリーズと映画の両方に対応可能な，より大規模かつ高品質な深層ビデオ理解データセットを構築し，その性能評価を行う。
- StoryVideoQAは，393.2時間の多様なストーリービデオから363K以上の質疑応答ペアを含む，現時点で最大規模の深層ビデオ理解データセットである。
- 既存の20種類の最先端ビデオ質疑応答手法の評価の結果，長距離のキャラクターの関連性や複雑なストーリーラインの理解に限界があることが示された。
- 提案手法PlotTreeは，ビデオコンテンツを階層的なプロット構造に再構成することで，ストーリーラインの効率的な推論を可能にする。
Link: https://arxiv.org/abs/2606.06338
F3-Tokenizer：音声オートエンコーダ潜在表現の制御による理解と生成 [cs.SD, cs.AI, eess.AS]目的：音声の理解と生成を両立するトークナイザ
- 音声処理において，音声の構造を効率的に表現する手法が重要である。
- 理解と生成にそれぞれ最適化されたモデル間には乖離が存在する。
- 連続オートエンコーダの潜在表現を制御し，理解と生成を両立させる。
- ノイズ正則化されたオートエンコーダボトルネックにより，スケール制御された連続潜在表現を獲得した。
- 凍結されたオートエンコーダ潜在表現に対して，RQ-MTPと凍結されたLLMの監督学習で表現エンコーダを訓練した。
- これにより，理解のための高次元表現と，生成のための正規化された連続潜在表現を同時に提供するトークナイザを実現した。
Link: https://arxiv.org/abs/2606.06357
UAVマルチスペクトル画像を用いた深層学習フレームワークの稲病害マッピング比較 [eess.SY, cs.SY, eess.SP, cs.CV]目的：稲の細菌性いもち病の重症度区分
- 食糧増産において，病害虫の早期発見と適切な対策が重要である。
- UAV画像を用いた病害診断は進んでいるものの，フレームワーク間の性能比較が不十分である。
- より効率的で高精度な病害マッピング手法の確立を目指す。
- U-Net++ with EfficientNet-B3が最も高い性能を示し，mIoUは97.62%であった。
- SegFormerは分割精度は低いものの，推論速度は同程度であった。
- 軽量なCNNバックボーンが実運用に適しており，植生指標の統合は微小ながら改善効果があった。
Link: https://arxiv.org/abs/2606.06359
2段階の物理：運動の事前知識を固定後，視覚的洗練がそれを消去する [cs.CV]目的：画像から動画を生成する拡散モデルにおける物理法則に反する運動の改善
- 動画生成は，エンターテイメントから科学シミュレーションまで，幅広い応用分野で重要である。
- 既存の画像から動画への拡散モデルは，物理法則に反する不自然な運動を生成しやすいという課題がある。
- 初期段階の有効な運動情報を保持することで，物理的に整合性の高い動画生成を実現することを目指す。
- 拡散モデルの生成ステップ数が少ないほど，物理的な整合性が高いことが分かった。これは，ステップ数の増加に伴う位相の劣化が原因である。
- PhaseLockという訓練不要なフレームワークを提案し，初期段階の運動情報を保持することで位相劣化を抑制した。
- 提案手法は，物理的な整合性を改善し，計算コストとメモリ使用量の増加を最小限に抑え，外部ガイダンスへの依存度を軽減する。
Link: https://arxiv.org/abs/2606.06361
GMBFormer：NDVI誘導型グローバルメモリバンク変換器による超高解像度画像からの都市緑地抽出 [cs.CV]目的：都市緑地抽出の精度向上
- 都市の持続可能性を評価し改善するため，正確な都市緑地の把握が不可欠である。
- 従来手法では，画像パッチごとに処理するため，空間的に離れた類似パターン間の意味的再利用が限定的である。
- NDVIとRGB情報を効果的に統合し，高精度な都市緑地の抽出を可能にすることを目指す。
- GMBFormerは，SegFormerをベースとし，NDVIを物理情報に基づいたゲートとして活用することで，高精度な緑地抽出を実現した。
- 成都市のデータセットとISPRS Potsdamデータセットを用いて実験を行い，既存手法と比較して高いmIoU/mDiceスコアを達成した。
- NDVIの分離，メモリ検索，容量，そしてモーメンタム更新が，最終的な性能を向上させる上で重要な要素であることが示された。
Link: https://arxiv.org/abs/2606.06363
シーングラフ生成のための視覚的常識に基づく知識洗練 [cs.CV]目的：シーングラフ生成における知識洗練
- 視覚的理解はAIの重要な要素であり，シーングラフ生成はその一環として重要である。
- 既存のSGGモデルは，注釈が少ない場合に性能が低下し，信頼性の高い視覚的常識を捉えられない。
- 学習データから常識に基づいた制約を抽出し，シーングラフの予測を修正・洗練することを試みる。
- 提案手法は，空間的，機能的，質的な関係の規則性を捉え，SGG予測を改善する。
- 手動ルール作成やモデル再学習は不要であり，データセットやアーキテクチャに依存しない汎用性を持つ。
- ３つの標準ベンチマークにおいて，既存手法と比較して一貫した性能向上が確認された。
Link: https://arxiv.org/abs/2606.06369
EasyLens：トレーニング不要な医療画像・言語モデル用微細病変表現増幅器 [cs.CV, cs.AI]目的：医療画像・言語モデルにおける微細病変の検出感度向上
- 医療画像診断の精度向上は，早期発見・治療に不可欠であり，医療の質を大きく左右する。
- 既存の医療画像・言語モデルは，微細で視覚的特徴の乏しい病変の検出に課題を抱えている。
- 本研究は，事前学習やモデル特化の調整を必要とせず，既存モデルの性能を向上させることを目指す。
- EasyLensは，病理・解剖学のプロトタイプ空間とカウンターファクチュアル推論を活用し，病変に関連する領域を正確に特定する。
- 形態学に基づいた残差強調により，微細病変の特徴を増幅し，画像全体の埋め込み表現への寄与を高める。
- 複数の医療画像データセットにおいて，既存手法と比較して，微細病変の検出精度が向上することを示した。
Link: https://arxiv.org/abs/2606.06379
HomeWorld：制御可能な高密度インタラクティブな全住宅シーン生成のための統合的な間取り図から家具配置フレームワーク [cs.CV, cs.AI]目的：制御可能な，高密度インタラクティブな全住宅シーンの生成
- ロボットシミュレーションや最新のインテリアデザインにおいて，屋内シーン生成は不可欠である。
- 複雑な間取りと3Dシーンデータの不足が，学習ベースの生成を困難にしている。
- グローバルな一貫性，リアリズム，シミュレーションの準備が整ったシーン生成を実現する。
- 本研究では，大規模な間取り図データセットを用いて，全住宅の間取り図生成を可能にする大規模言語モデルを学習した。
- 画像生成モデルとVLMベースのリファイナーを活用し，家具配置とオブジェクト配置の反復的な修正を行った。
- 実験とユーザー調査により，多様性と3Dデザインの魅力において，既存手法を上回る屋内空間が生成できることが示された。
Link: https://arxiv.org/abs/2606.06390
放射線科における比較推論のための視覚-言語フレームワーク [cs.CE, cs.CG, eess.SY, cs.SY, cs.CV, cs.IR, cs.LG, eess.IV]目的：放射線科における比較推論のための視覚-言語フレームワークの開発
- 医療画像AIは診断支援に不可欠であり，その精度向上は医療の質向上に繋がる。
- 既存のAIは単独画像の解析に偏っており，時間経過や類似症例との比較が苦手である。
- 臨床現場で求められる，過去画像や類似症例との比較に基づく診断支援を実現する。
- 大規模比較画像データベースMedReCo-DBを構築し，エンティティを意識した画像検索と時間経過の変化解釈を可能にした。
- MedReCoは，内部および外部評価において，類似症例検索のRecall@1で最高の結果を達成し，既存手法を上回った。
- MedReCo-VLMは，比較的な生成評価において最良の性能を示し，胸部X線写真およびCTにおける経過観察の精度を向上させた。
Link: https://arxiv.org/abs/2606.06407