arXiv雑要約

画像・音声 - 2026/06/15 公開

  • オーケストラ-o1:全感覚エージェントのオーケストレーション [cs.AI, cs.CL, cs.CV]目的:全感覚エージェントの効率的な協調
    • LLMエージェントの発展に伴い,複雑なタスクを複数のエージェントで分担するオーケストレーションが重要になっている。
    • 既存のオーケストレーションフレームワークは,限られた種類の感覚情報にしか対応できず,多様な情報源を扱うことが困難である。
    • 本研究は,テキスト,画像,音声,動画などの多様な感覚情報を統合的に理解し,協調させるオーケストレーションを実現する。
    • Orchestra-o1は,感覚情報に配慮したタスク分解,オンラインでのサブエージェントの専門化,並列サブタスク実行を可能にする。
    • OmniGAIAベンチマークにおいて,既存の二番目に良い手法を10.3%上回る精度を達成した。
    • 決定に沿ったグループ相対方策最適化(DA-GRPO)により,Orchestra-o1-8Bの効率的な学習に成功し,他のオープンソース全感覚エージェントを上回る性能を示した。

    Link: https://arxiv.org/abs/2606.13707

  • 教室環境における多Modal話者識別 [cs.SD, cs.CL]目的:教室環境における話者識別のための多Modalフレームワーク
    • 教育の質向上には,生徒一人ひとりの発言を把握し,学習状況に応じた指導を行うことが重要である。
    • 教室内の雑音や子供の発話の多様性により,音響情報のみでの話者識別は困難である。
    • 音響情報とLLM由来の文脈情報を組み合わせることで,話者識別の精度向上を目指す。
    • 音響ベースライン(ECAPA-TDNN)の正答率は39.0%であった。
    • テキスト情報による「文脈アンカリング」を組み込んだ多Modalアプローチにより,生徒の識別精度が50.3%に向上した。
    • 5秒以上の発話に対しては,正答率が76.9% (ベースライン64.9%),Top-3正答率が90.9%に達し,教師と生徒の区別は99.3%の精度を示した。

    Link: https://arxiv.org/abs/2606.13712

  • TSA:持続的なオブジェクト中心ビデオ表現のための時間的スロット活性化 [cs.CV]目的:動的シーンを時間的に持続するエンティティ表現に分解すること
    • ビデオ理解において,オブジェクトの識別と追跡は重要な課題であり,その精度向上が求められている。
    • 既存手法では,常に全てのスロットを更新するため,オブジェクトが存在しない状況で情報が歪められる問題がある。
    • 時間的スロット活性化(TSA)により,スロットの活性度を制御し,不要な情報の更新や干渉を抑制し,表現の精度を高める。
    • TSAは,スロットごとに時間的活性化スコアを学習することで,スロットのライフサイクルをモデル化し,状態のドリフトと再構成干渉を低減する。
    • 部分的な遮蔽や徐々に現れるオブジェクトに対しても,TSAは時間的文脈エンコーダーを用いて活性化予測を条件付けし,より良い判断を可能にする。
    • MOVi-C/E,YT-VIS,OVIS等のベンチマークにおいて,TSAはオブジェクト分解と時間的同一性保持を改善し,特に長くて遮蔽の多いビデオで大きな効果を示す。

    Link: https://arxiv.org/abs/2606.13714

  • 形態認識に基づくサンプル割り当て:IoU感受性の克服による表面欠陥検出 [cs.CV, cs.AI]目的:表面欠陥検出における陽性サンプルセットの質向上と検出モデルの学習効率改善
    • 視覚検出モデルの性能は,候補領域と正解アノテーションの空間的整合性を測るIoUに大きく依存する。
    • IoUは形状の違いを捉えきれず,幾何学的な重複が類似していてもIoUスコアがほぼ同一になる領域が存在する。
    • IoUの限界を補完し,より識別力のある信頼性の高いサンプルマッチングを実現すること。
    • 提案手法は,面積,形状,アスペクト比などの形態的類似度指標を導入し,陽性サンプル割り当てを改善する。
    • 形態的類似度を組み合わせることで,マッチング関数の応答分布を再構築し,高応答領域を正解インスタンスの周囲に集約する。
    • YOLOv9フレームワークを用いた実験で,NEUDETおよびGC10-DETデータセットにおいて性能向上を確認した。

    Link: https://arxiv.org/abs/2606.13723

  • 畳み込みニューラルネットワークのフィルタペア間の接続が精度向上に貢献 [cs.CV]目的:畳み込みニューラルネットワークにおけるフィルタペア間の接続による精度向上
    • 画像認識等の分野で広く用いられるCNNの性能向上は重要な課題である。
    • 従来のCNNアーキテクチャは,点ごとの活性化関数による分離に依存しており,表現力に限界がある。
    • 学習可能なパラメータを持つ汎用的な接続を導入し,層ごとに最適な接続関数を学習することで,性能向上を目指す。
    • フィルタ間のペアワイズ接続がCNNの精度向上に有効であることが示された。
    • 特に,学習可能なパラメータを持つ接続を用いることで,タスクに応じた最適な接続関数を学習可能となった。
    • 提案手法は,従来のネットワーク構造と比較して,より高い表現力を実現しうる。

    Link: https://arxiv.org/abs/2606.13736

  • シネオーケストラ:映画的ビデオ生成のための統一されたエンティティ中心条件付け [cs.CV, cs.AI]目的:映画的ビデオ生成における,被写体,イベント,カメラ,ショット遷移の同時制御
    • 映画的ビデオ生成は,高品質なコンテンツ制作において重要な役割を担う分野である。
    • 既存のテキストからのビデオ生成モデルは,映画的な要素の細やかな制御が困難である。
    • 複数の映画的要素を統合的に制御するフレームワークを構築し,生成品質の向上を目指す。
    • CineOrchestraは,被写体,イベント,カメラ,ショット遷移を同時に制御可能な統一的なビデオ拡散モデルである。
    • エンティティ中心条件付けという共通構造を用いることで,複雑な制御を効率的に実現している。
    • 新たなベンチマークにおいて,既存手法を上回り,ユーザー評価および構成要素の削減実験でも一貫した改善が確認された。

    Link: https://arxiv.org/abs/2606.13768

  • μ₀:スケーラブルな3Dインタラクション・トレース世界モデル [cs.RO, cs.CV, cs.LG]目的:3Dインタラクション・トレースに基づく世界モデルの構築
    • ロボットの学習において,行動による物理的変化を捉える世界モデルは,特定のロボット形態に依存しない学習を可能にする。
    • 既存モデルは,ピクセルレベルの再構成に容量を費やすか,ロボット特有のラベルを必要とし,汎用性に課題がある。
    • 本研究は,オブジェクトや接触領域などの主要点の3D軌跡を予測することで,スケーラブルかつ汎用的な表現を目指す。
    • μ₀は,2Dおよび3Dトレース予測において,既存モデルよりも優れた性能を示した。
    • 凍結されたμ₀は,様々なロボット形態に対して再利用可能であり,行動エキスパートと組み合わせることで下流タスクを効率的に実行できる。
    • 行動ラベルを用いない事前学習にも関わらず,μ₀を用いたポリシーは,行動ラベルを用いて事前学習されたVLAモデルと同等の性能を達成した。

    Link: https://arxiv.org/abs/2606.13769

  • 単一のモデルフォワードへの画像スタイル学習の圧縮 [cs.CL, cs.CV]目的:画像スタイル変換における効率性とスタイルの忠実度のバランス改善
    • 画像スタイル変換は,コンテンツの視覚表現を変化させ,創造的な応用を可能にする重要な技術である。
    • 既存手法では,効率と忠実度の両立が難しく,特定参照への外挿や意味のコピーが生じやすい。
    • スタイルLoRAの学習を単一のフォワードパスで実現し,効率的かつ高忠実なスタイル変換を目指す。
    • 提案手法i2Lは,参照画像からLoRA重みを予測し,個別の最適化プロセスを不要にする。
    • 実験の結果,Z-Image,FLUX.2,Hidream-O1において,既存手法よりもスタイル忠実度,プロンプトへの適合性,知覚的品質が向上した。
    • i2Lは,明示的なLoRA重みを生成するため,非対称なClassifier-Free Guidanceや複数参照のスタイル融合が可能となる。

    Link: https://arxiv.org/abs/2606.13809

  • リズムフォーマーの説明:遠隔光容量脈波測定のための周期的なスパース注意機構に関する系統的なXAI分析 [cs.IR, cs.CV, cs.AI, eess.IV]目的:遠隔光容量脈波測定(rPPG)における周期的なスパース注意機構の解釈可能性に関する定量的な評価
    • 遠隔光容量脈波測定は,非侵襲的な心拍数推定技術として,臨床応用が期待されている。
    • rPPGトランスフォーマーは高い精度を達成するものの,その意思決定過程は不透明であり,信頼性に課題がある。
    • 既存のXAI手法では,定量的な評価と生理学的妥当性の検証が不足しており,解釈の信頼性が低い。
    • リズムフォーマーに4つの帰属手法を適用し,スパース注意機構における多段階リーク現象を定量的に評価した。
    • 皮膚被覆率指標を導入し,帰属質量が皮膚領域に集中しているかを検証した。
    • SaCo係数をrPPG回帰問題に適用し,摂動に対する予測波形の変化を評価することで,帰属の忠実度を測定した。

    Link: https://arxiv.org/abs/2606.13839

  • マルチエージェント埋め込み型自律運転:V2X情報交換から共有世界モデルへ [cs.RO, cs.CV]目的:マルチエージェント埋め込み型自律運転における共有世界モデルの構築と活用
    • 交通システムの安全性向上と効率化が求められ,車両間の協調が不可欠である。
    • 車両単体の知能では限界があり,不確実性下での協調運転が課題となっている。
    • V2X情報交換から協調行動までの一連の流れにおける課題解決を目指す。
    • 本調査では,V2X通信,協調知覚,エージェント間認知,協調計画など,380以上の論文を分析した。
    • シミュレーション評価が中心であり,実交通におけるリアルタイムな安全性の保証が課題である。
    • 共有状態の維持,意図と計画の整合性,安全な協調行動が今後の研究課題として重要である。

    Link: https://arxiv.org/abs/2606.13840

  • テスト時生成ビデオ推論のための時間遡及探索 [cs.CV]目的:テスト時における生成ビデオ推論の性能向上
    • ビデオ理解は,ロボット工学や自動運転など,様々な応用分野において重要である。
    • 既存のビデオ推論は,単発的な処理に依存しており,複雑な推論タスクには限界がある。
    • 時間遡及探索により,ビデオモデルの潜在能力を引き出し,より効率的な推論を実現すること。
    • 時間遡及探索(TBS)は,ビデオ生成を反復的な生成・検証・再開ループに変えることで,推論の精度を向上させる。
    • TBSは,既存のBest-of-Nサンプリングと比較して,計算資源の効率的な活用と高い性能を両立する。
    • 分布外データに対する頑健性が高く,単発生成が失敗する状況下でも,有意な改善を示す。

    Link: https://arxiv.org/abs/2606.13861

  • ミラージュ探査:視覚モデルが視覚的理解をどのように偽装するか [cs.CV, cs.AI, cs.LG]目的:視覚言語モデルにおけるミラージュ現象のメカニズム解明
    • 画像認識技術は,自動運転や医療診断など様々な分野で不可欠であり,その信頼性向上が重要である。
    • 視覚言語モデルは,画像なしで質問に自信を持って回答することがあり,評価指標を誤って高く見せている。
    • この研究は,ミラージュ現象をテキストバイアスと虚像という2つのモードに分け,その根本原因を特定することを目指す。
    • ミラージュ現象は,残差ストリーム,MLP,注意機構など,モデル内部の活性化から線形的に検出可能であることが示された。
    • テキストベースラインではこの信号を復元できないことから,表層的な語彙的混同ではないことが示唆された。
    • テキスト分布のクリーニングはテキストバイアスに対処できるが,虚像の生成には効果がないことが明らかになった。

    Link: https://arxiv.org/abs/2606.13870

  • アバターV:ビデオ参照によるアバター動画生成のスケーリング [cs.CV]目的:ビデオ参照に基づいたアイデンティティモデリング
    • アバター技術は,バーチャルコミュニケーションやエンターテインメントにおいて重要な役割を担う。
    • 既存手法は,静止画像のみに依存するため,動的な動作特性を捉えきれないという課題がある。
    • ビデオ参照を通じて,静的・動的な両側面からアイデンティティを忠実に再現することを目指す。
    • アバターVは,参照ビデオのフルトークンシーケンスに直接条件付けすることで,顔の形状や肌の質感,発話リズム,微表情といった要素を学習する。
    • 提案手法であるSparse Reference Attentionは,長尺の参照ビデオに対しても線形時間複雑度で条件付けを実現する。
    • 自動評価指標および人間評価において,Seedance 2.0,Kling O3 Pro,Veo 3.1,OmniHuman 1.5などの既存システムを上回る性能を達成した。

    Link: https://arxiv.org/abs/2606.13872

  • PhysVLA:具現化されたロボット操作のための物理に基づいたVLAへ [cs.RO, cs.CV, cs.LG]目的:ロボット制御ポリシーの品質向上
    • ロボットの自律的なタスク遂行において,視覚情報と自然言語指示を統合するVLAモデルの重要性が高まっている。
    • 既存のVLAモデルは物理法則を明示的に考慮していないため,運動の不安定性や失敗を引き起こす可能性がある。
    • 物理シミュレーションを活用し,VLAモデルの予測行動に物理的な整合性を付与することで,よりロバストな制御を実現する。
    • PhysVLAは,既存のVLAモデルに追加することで,追加学習やモデルの変更をすることなく性能を向上させる。
    • LIBERO-Spatial環境での実験により,成功率が最大17%向上し,安定性が最大19%向上することが示された。
    • 実機ロボットアーム(Agilex Piper)を用いた実験でも,成功率が最大50%向上し,物理環境への適応性が確認された。

    Link: https://arxiv.org/abs/2606.13886

  • Gefen:最適化された確率的最適化アルゴリズム [cs.LG, cs.AI, cs.CL, cs.CV]目的:深層学習におけるメモリ効率の良い最適化手法
    • 深層学習モデルの規模拡大に伴い,メモリ消費量がボトルネックとなるケースが増加している。
    • AdamWのような代表的な最適化アルゴリズムは,パラメータ数に比例したメモリを必要とする。
    • Gefenは,第二モーメントの共有と第一モーメントの量子化によりメモリ消費量を削減する。
    • GefenはAdamWと同等の性能を維持しながら,メモリフットプリントを約8分の1に削減することに成功した。
    • 分散学習環境(FSDP, DDP)において,Gefenはマイクロバッチサイズを拡大し,スループットを大幅に向上させた。
    • GefenはAdamWのドロップイン置換として,より大規模なモデルの学習やバッチサイズ増大を可能にする。

    Link: https://arxiv.org/abs/2606.13894

  • 自己教師ありリモートセンシングビジョンモデルは下流タスクにどのように転移するか [cs.CV, cs.AI]目的:自己教師ありリモートセンシング基礎モデルの転移学習に関する評価
    • リモートセンシング技術は,地球観測において重要な役割を果たし,環境変化のモニタリングに不可欠である。
    • リモートセンシングモデルの汎化性能は課題であり,特にラベル付きデータの不足が問題となっている。
    • 自己教師あり学習を用いて,ラベルなしデータから有効な特徴量を学習し,下流タスクへの転移性能を向上させる。
    • 自己教師ありリモートセンシング基礎モデルのランキングは,タスクや適応方法によって変化することが示された。
    • タスクに関連する情報は,最終層の埋め込みよりも,中間層のTransformerブロックでよりアクセスしやすい傾向にある。
    • セグメンテーションタスクにおいて,デコーダー設計やファインチューニングが,基礎モデルの選択と同程度に影響を与えることが明らかになった。

    Link: https://arxiv.org/abs/2606.13896

  • HiLo-Token:効率的な画像編集のための入力適応型高低周波数トークン圧縮 [cs.CV, cs.AI]目的:画像編集における効率化のための入力適応型トークン圧縮フレームワーク
    • 画像編集ツールは,顧客利用の中心であり,Photoshop等のトラフィックを大きく占める重要な分野である。
    • Diffusion Transformer (DiT) への移行に伴い,生成AIモデルの遅延が大きな課題となっている。
    • DiTモジュールの遅延を削減し,画像編集の効率を向上させることを目指す。
    • 提案手法HiLo-Tokenは,高周波領域に多くのトークンを割り当て,低周波領域には少ないトークンを割り当てることで,DiTモジュールの速度を大幅に向上させた。
    • A100-80GB上で,マスク比率が小さい,中程度,大きいタスクにおいて,それぞれ3.13倍,2.59倍,1.67倍の速度向上を達成した。
    • 生成品質の低下なしに速度向上を実現しており,実用的な画像編集において有効であることが確認された。

    Link: https://arxiv.org/abs/2606.13898

  • PMOF:頭上魚眼カメラを用いた乗客監視のためのデータセットとベンチマーク [cs.IR, cs.CL, cs.CV]目的:移動車両内における乗客監視のためのデータセットおよび評価基準
    • 自動運転や無人公共交通の実現には,車内状況の正確な把握が不可欠である。
    • 車内は空間が狭く,照明変化や動きによる背景変動,隠蔽,視点制限などの課題が存在する。
    • 移動車両内の環境変化に対応した乗客監視のためのデータセットを構築し,性能向上を目指す。
    • PMOFは,移動車両内で撮影された頭上魚眼画像から構成される約19,000フレームのデータセットである。
    • このデータセットは,回転矩形,追跡ID,行動ラベルを含み,物体検出,追跡,行動認識をサポートする。
    • PMOFを用いたクロスドメイン微調整により,乗客検出性能が向上し,汎化性能が改善されることが示された。

    Link: https://arxiv.org/abs/2606.13910

  • 航空野生生物ロケーター(OWL):航空野生生物調査における弱学習のベンチマーク [cs.CV]目的:航空野生生物調査における弱学習手法の性能評価
    • 野生生物の個体数把握は,生態系の保全や管理において不可欠である。
    • 従来の野生生物検出には,手間とコストのかかるバウンディングボックスによるアノテーションが必要であった。
    • 弱学習を用いることで,アノテーションコストを削減し,効率的な野生生物調査を実現することを目指す。
    • OWL-DはDelplanqueデータセットにおいて,HerdNetを上回る最高性能(AP 0.934)を達成した。
    • 高密度なSheepCounterデータセットでは,OWL-Tが最高のAP(0.978)を示し,状況に応じたモデル選択の重要性が示された。
    • アラスカ州のカリブー調査において,OWL-Cは高いF1スコア(0.965)と低いカウント誤差(+3.1%)を示し,実運用への適用可能性を検証した。

    Link: https://arxiv.org/abs/2606.13911

  • 自己進化型ビジュアル質問者 [cs.CV, cs.LG]目的:ビジュアル質問の質と難易度を自律的に向上させる手法
    • 画像と言語を組み合わせたモデルの性能向上は,AI研究における重要な課題である。
    • 既存のビジュアル質問システムの性能は,高品質な学習データの不足によって制限されている。
    • 外部の監督なしに,モデル自身が質問を生成・評価することで学習を進めることを目指す。
    • 提案手法により,モデルはより難易度の高い,視覚に焦点を当てた質問を自律的に生成できる。
    • 自己学習によって生成された質問を用いた訓練は,既存の静的なデータを用いた訓練よりも効果的である。
    • 自己進化型質問者は,質問者としての性能を向上させながら,回答者としての能力も維持または向上させる。

    Link: https://arxiv.org/abs/2606.13929

  • 機械学習による多段階両側マッチングのための定員最適化 [cs.GT]目的:機械学習を活用した多段階の女子学生会入会選考における定員最適化手法
    • 両側マッチングは,採用,大学入学,住宅割り当てなど幅広い分野で活用されており,効率性と公平性の両立が重要である。
    • 特に小規模な市場では,データが限られており,予測モデルの精度が低いという課題がある。
    • 本研究は,限られたデータ環境下でも実用的な定員最適化を実現し,マッチングの質を向上させることを目指す。
    • 過去5年間の入会選考データを用いて,候補者と女子学生会の相性スコアを予測する機械学習モデルを構築した。
    • 最適化された定員配分は,実際の選考担当者の判断と一致しており,機械学習のシグナルが弱い場合でも安定した結果が得られた。
    • 提案手法は,実際の入会選考結果を96.4%の個別レベルの一致率と100%のマッチング率で再現し,実用性を実証した。

    Link: https://arxiv.org/abs/2606.13935

  • カリックハーモニー:アイデンティティ保持カリカチュア合成のためのコントラスト拡散経路 [cs.CV]目的:アイデンティティ保持カリカチュア合成における,形状とアイデンティティの調和
    • カリカチュア生成は,個性を強調しつつ表現する芸術であり,多様な応用可能性を秘めている。
    • 拡散モデルにおいて,アイデンティティと形状の条件を組み合わせると,干渉が生じ,正常な生成が困難になる。
    • 条件信号の汚染を解消し,アイデンティティと形状を調和させたカリカチュア生成を実現すること。
    • 本研究では,学習不要な手法「カリックハーモニー」を提案し,並列拡散経路を通じて条件信号の汚染を解決する。
    • 提案手法は,アイデンティティ,形状,および両者の調和のための3つの経路を維持し,クロスアテンション特徴に基づいたエネルギー関数を用いて最適なバランスを導く。
    • 実験の結果,既存手法と比較して,形状CLIPスコアおよびユーザー評価において優れた性能を示した。

    Link: https://arxiv.org/abs/2606.13964

  • Prompt2Effect: LoRA生成による画像から動画モデルの訓練不要な特殊効果特化 [cs.CV]目的:特定の視覚効果を持つ画像から動画への変換モデルの特化
    • 高品質な動画生成において,特定の視覚効果を付与する需要が高まっている。
    • 従来,各効果ごとにLoRAモジュールを訓練する必要があり,データ準備や最適化にコストがかかる。
    • 効果特化のためのLoRA重みを,訓練なしで直接生成し,効率的な制御を実現する。
    • Prompt2Effectは,効果特有のLoRA重みを単一の順伝播で合成する重み駆動型ハイパーネットワークである。
    • 従来のLoRAファインチューニングと同等かそれ以上の動画品質と効果の整合性を実現し,計算コストを大幅に削減する。
    • 予測された重みは,その後のファインチューニングの初期値として使用することで,性能向上と最適化の高速化に貢献する。

    Link: https://arxiv.org/abs/2606.13971

  • ケーキの分割と曲線の交差 [cs.CL, cs.GT, cs.CC]目的:公平なケーキ分割問題における計算複雑性
    • 資源配分は経済学や計算機科学において基本的課題であり,公平性の確保が重要である。
    • 3人以上のエージェントにおける公平なケーキ分割問題は,計算困難性が未解決であった。
    • 本研究は,3人エージェントにおける公平なケーキ分割問題の困難性を示す。
    • 公平なケーキ分割問題とジョルダン曲線定理に関連する計算問題との間に新たな繋がりが見出された。
    • ジョルダン曲線問題に対するクエリ下界およびUEOPLクラスにおける困難性が初めて示された。
    • 3人エージェントにおける公平なケーキ分割問題は,計算量的に困難であることが証明された。

    Link: https://arxiv.org/abs/2606.13980

  • マスク,サンプル,修正:ガイダンス付き離散フローマッチングテキスト読み上げのための修正可能なCTMC推論スタック [cs.CY, cs.SD, cs.AI]目的:ガイダンス付き離散フローマッチングテキスト読み上げにおける安定した低ステップ条件付き充填のための推論スタック
    • 近年,テキスト読み上げの分野では,明示的な長さ予測や外部アライメントを不要とする非自己回帰モデルが注目されている。
    • 離散フローマッチングは自然な選択肢であるが,推論時の制御が課題であり,安定した低ステップ条件付き充填が難しい。
    • 推論時にテキスト条件を強化し,音響プロンプトとの整合性を高め,早期のマスク解除決定を修正するスタックを提案する。
    • 提案手法は,追加のファインチューニングなしに,NFEが少ない状況下で明瞭度とロバスト性を向上させる。
    • 予測不要のガイダンス,プロンプト適合型条件付き結合,スケジュール制約付きリマスキング機構を組み合わせることで,低ステップでの安定性を実現する。
    • 従来の無誘導およびガイダンスのみのサンプラーと比較して,大幅に少ないステップ数で性能を向上させる。

    Link: https://arxiv.org/abs/2606.13989

  • 文脈誘導型意味的アライメントによる特徴融合ネットワーク [cs.CV]目的:特徴融合ネットワークにおける特徴間の意味的不整合の解消
    • 物体検出において,様々なサイズの物体を検出するためには,多段階の特徴を統合することが重要である。
    • 異なる段階の特徴を直接融合する場合,表現の異質性から意味的な不整合が生じやすい。
    • 高レベルの文脈情報を活用し,低レベルの特徴を洗練することで,意味的な整合性を高めることを目指す。
    • 提案手法FINEは,クロスレベルAttentionとAlignment-Aware Token Samplingにより,計算効率を維持しつつ,特徴アライメントを実現した。
    • 生成されたAttention重みは,低レベルの特徴を空間・チャネル方向に変調し,意味的に関連性の高いピクセルを強調する。
    • 様々な物体検出器に対して適用可能であり,検出精度を向上させつつ,効率を損なわないことが示された。

    Link: https://arxiv.org/abs/2606.14005

  • HARBOR:行動観測とレーダーからの針路分析と再構成 [cs.CV, cs.ET]目的:レーダー画像から船舶の行動予測情報の生成
    • 海洋状況把握は安全航行や防衛において重要であり,船舶の位置把握は不可欠である。
    • AISデータの利用不能な状況下では,広域的な海洋監視手段が限られていた。
    • AISデータに依存せず,レーダー画像のみから船舶の行動を予測することを目指す。
    • 提案手法HARBORは,レーダー画像から船舶を検出し,種類を分類し,針路を推定する。
    • オフラインでAISデータを用いて船舶タイプごとの行動パラメータを学習し,将来位置の確率ヒートマップを生成する。
    • ブラジル南部の実データを用いた実験で,データ欠落環境下における船舶位置予測能力が示された。

    Link: https://arxiv.org/abs/2606.14006

  • RT-VLA:知識蒸留によるリアルタイムビジョン-言語-行動モデル [cs.CV, cs.LG, cs.RO]目的:リアルタイム運転におけるビジョン,言語,行動の統合モデリング
    • 自動運転技術の発展には,周囲の状況を正確に理解し,適切な判断を下す能力が不可欠である。
    • 既存のVLAモデルは高性能だが,計算コストが高く,リアルタイム処理が困難である。
    • 高性能を維持しつつ,推論速度を向上させ,リアルタイム運転への応用を目指す。
    • RT-VLAは,最先端モデルSimLingoの能力を知識蒸留によって軽量なモデルに転移させることで,高速な推論を実現した。
    • RT-VLAは,SimLingoと同等の運転性能と言語推論能力を維持しつつ,推論時間を大幅に短縮した。
    • 知識蒸留は,リアルタイムで説明可能なVLAモデルを構築するための有効な手法であることが示唆された。

    Link: https://arxiv.org/abs/2606.14010

  • ViT-Up:Vision Transformerのための忠実な特徴アップサンプリング [cs.CV]目的:Vision Transformerにおける特徴アップサンプリング手法
    • 画像認識分野において,Vision Transformerは強力な特徴抽出器として注目されている。
    • ViTの自己注意機構の計算コストにより,高解像度な予測タスクへの適用が課題となっていた。
    • ViTの中間層表現を活用し,特徴漏れやぼやけを抑制するアップサンプリング手法を提案する。
    • ViT-Upは,既存の画像誘導型アップサンプラーを様々な高密度予測タスクで上回る性能を示した。
    • Cityscapesデータセットでは,DINOv3-S+バックボーンで最大+2.07 mIoU,DINOv3-Bバックボーンで+3.36 mIoUの改善が見られた。
    • SPair-71kデータセットにおいても,同様に性能向上が確認され,バックボーン容量とのスケーラビリティも示された。

    Link: https://arxiv.org/abs/2606.14024

  • GarmentSketch:大規模なスケッチからファッションへのベンチマーク [cs.CV]目的:ファッションスケッチと対応する画像,テキストの説明のデータセット
    • ファッションデザインにおいて,スケッチはアイデアを素早く視覚化する上で重要な役割を果たす。
    • スケッチに基づくファッション画像生成の研究は,大規模で高品質なペアデータの不足により進展が遅れている。
    • 既存の手法の限界を明らかにし,スケッチ理解とファッション画像生成の研究基盤を確立すること。
    • GarmentSketchは,21種類の服のカテゴリーにわたる26,249枚のファッションスケッチと詳細なテキストの説明を含む新しいデータセットである。
    • テキストキャプションは,複数のマルチモーダル大規模言語モデルと人間の修正を組み合わせた多段階パイプラインによって生成され,意味の正確性と記述の豊富さを保証している。
    • 最新の生成モデルでGarmentSketchをベンチマークした結果,スケッチをガイドとしたテキストから画像への生成の可能性と課題が明らかになった。

    Link: https://arxiv.org/abs/2606.14025

  • ニューラル話者ダイアリゼーションにおける構造化プルーニングと低ビット量子化による効率と性能のトレードオフ [cs.SD, cs.CL]目的:ニューラル話者ダイアリゼーションの効率と性能のトレードオフに関する研究
    • 緊急時の医療派遣など,リアルタイム処理が求められる場面で話者ダイアリゼーションは不可欠である。
    • リソース制約のある環境での利用のためには,モデルの小型化と高速化が課題となる。
    • モデル圧縮による性能劣化を評価し,リアルタイム展開における最適なバランスを明らかにすること。
    • モデル圧縮は性能とメモリフットプリントのトレードオフをもたらすことが示された。
    • FP16によるモデルサイズを半分に削減した場合,リアルタイムファクターはほぼ変化せず,DERは40%相対的に増加した。
    • 低レイテンシ動作点は性能を著しく低下させる可能性があり,追加のバッファリングは必ずしも有益ではない。

    Link: https://arxiv.org/abs/2606.14030

  • チューニングフリー拡散モデルと再焦点化クロスアテンションによる360度屋内パノラマ編集へ [cs.RO, cs.CV]目的:テキストによる指示に基づいた,正確かつ領域特定的な画像操作
    • 画像編集技術は,現実世界と仮想世界の両方において重要な役割を担うため,その発展は不可欠である。
    • 従来の拡散モデルは,プロンプトの脆弱性,意図しない領域への影響,小規模/複雑なオブジェクトへの対応の難しさといった課題を抱えている。
    • FocusDiffは,これらの課題を克服し,より正確で使いやすい画像編集を実現することを目的としている。
    • FocusDiffは,再焦点化クロスアテンションを用いて,編集対象領域への注意を集中させることで,高精度な画像操作を可能にする。
    • 提案手法は,背景の忠実性を保ちながら,簡単なテキストプロンプトから正確な編集を単一の処理で実現する。
    • 実験の結果,既存のゼロショットエディタと比較して,テキストと画像の整合性,背景の保持において優れた性能を示した。

    Link: https://arxiv.org/abs/2606.14035

  • コードエディットによるワンステップ画像編集の再考:再現,簡素化,そして新たな知見 [cs.CV]目的:ワンステップ画像編集のメカニズムの理解
    • テキストによる指示に基づいた画像編集は,迅速かつ実用的な編集を可能にする重要な技術である。
    • ワンステップ画像編集の根底にあるメカニズムは,十分に解明されていない点が課題である。
    • コードエディットの分析を通して,編集プロセスの理解を深め,より適応的な画像編集への道筋を示す。
    • コードエディットのコードウィンドウδは,タイムステップのシフトとして機能することが示された。
    • コードトランスポートはノイズの多い画像に作用し,低周波のセマンティック編集を行う。
    • プロキシマルアラインメントはノイズの少ない画像に作用し,高周波の詳細を加えることで補完する。

    Link: https://arxiv.org/abs/2606.14042

  • 空間登録トークンによる高速4次元ワールドアクションモデル [cs.CV, cs.RO]目的:未来の観測と実行可能なロボットアクションの同時モデリング
    • ロボットの自律的な行動計画において,現実世界の物理的制約を考慮したシミュレーションが不可欠である。
    • 既存のWAMは2D画像や潜在空間で動作するため,正確な操作に必要な3D空間制約や隠れた接触形状を捉えきれていない。
    • 事前学習された幾何学的知識を効率的に活用し,高速かつ空間的に整合性の高い行動予測を実現すること。
    • WAM4Dは,空間登録トークンを用いて幾何学的知識を因果的ビデオ・行動Transformerに転移することで,高速な4Dワールドアクションモデリングを実現した。
    • 非因果的なショートカットを防ぐため,MoT WAMバックボーンに因果混合注意機構を導入し,モダリティ間の視認性を定義した。
    • RoboTwin 2.0と現実世界の操作タスクにおける実験により,空間的な整合性の向上と競争力のある行動予測性能が確認された。

    Link: https://arxiv.org/abs/2606.14048

  • FoleyGenEx:マルチモーダル制御,時間的整合性,意味的精度を用いた統一的な動画-音声生成 [cs.SD, cs.CV]目的:動画から音声を生成するための統一的なフレームワーク
    • 動画と音声を連携させる技術は,エンターテイメントやアクセシビリティなど幅広い分野で重要である。
    • 既存手法は,マルチモーダル制御と時間的整合性の両立が難しく,生成される音声の質が課題である。
    • FoleyGenExは,時間的整合性と意味的精度を高め,多様なタスクに対応できる音声生成を目指す。
    • FoleyGenExは,動画と音声の同期,多様な制御,そして精度の高い意味表現を可能にする。
    • 条件注入メカニズム,動的マスキング戦略,およびデータ拡張アルゴリズムという3つの革新的な技術を導入した。
    • AudioCaps,VGGSound,Greatest Hitsの実験で,既存手法と比較して優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2606.14049

  • ShearFuse-UNet:ハダマール変換,DCT,およびシアレット変換の融合による翌日山火事延焼予測 [cs.CL, cs.DB, cs.DC, cs.RO, cs.CV]目的:翌日山火事延焼予測の性能向上
    • 山火事は生態系や社会に甚大な被害をもたらすため,その早期予測は不可欠である。
    • 既存の山火事延焼予測モデルは,計算コストが高く,リアルタイムな予測が困難な場合がある。
    • 計算効率を維持しつつ,高精度な山火事延焼予測を実現することを目指す。
    • ShearFuse-UNetは,パラメータ数が267kと軽量でありながら,F1スコア0.596を達成した。
    • ResNet18ベースのU-Net(パラメータ数14M,F1スコア0.589)と比較して,精度と効率性の点で優れていることが示された。
    • 異なるベンチマークデータセット(Google Next-Day Wildfire Spread)でも同様の結果が得られ,汎用性も確認された。

    Link: https://arxiv.org/abs/2606.14071

  • 小児脳腫瘍MRIにおける拡散を用いたセグメンテーションとビジョン・言語解釈 [cs.CV, cs.CL]目的:小児脳腫瘍MRIのセグメンテーション精度向上と臨床的解釈
    • 小児脳腫瘍は,治療が困難であり,正確な診断が重要であるため。
    • 学習データ不足,腫瘍表現の多様性,境界の不明瞭さ,クラス不均衡が課題である。
    • 拡散モデルを用いたセグメンテーション精度向上と,解釈可能なAIワークフローの構築。
    • 拡散モデルによるセグメンテーションの安定性と精度が向上し,特に腫瘍境界の検出精度が向上した。
    • MedSegDiffは,最も低いHD95値を達成し,境界との一致性が高いことが示された。
    • 予測された腫瘍容積とセグメンテーション結果を言語モデルと統合することで,放射線科医スタイルのレポートが生成可能となった。

    Link: https://arxiv.org/abs/2606.14072

  • Clay-CNNハイブリッド:地滑り検出のためのジオ・ファウンデーションモデルの補助的コンテキスト活用 [cs.CV, cs.AI, cs.LG, eess.IV]目的:地滑り検出におけるジオ・ファウンデーションモデルの有効性検証
    • 災害対応には迅速な地滑りマッピングが不可欠であり,自動化の重要性が高まっている。
    • 地滑りデータは正例が極端に少なく,地滑り検出の自動化は困難である。
    • ジオ・ファウンデーションモデルをCNNに統合することで,地滑り検出の精度向上を目指す。
    • U-NetとClayのハイブリッドモデルが,テストF1スコア64.5±1.8%を達成し,Clay単体(55.2±3.6%)およびU-Netベースライン(59.9%)を上回った。
    • Clayを単独エンコーダーとして使用した場合,U-Netよりも性能が低かったが,補助コンテキストとして注入することで一貫して性能が向上した。
    • ジオ・ファウンデーションモデルは,空間的に詳細な畳み込みアーキテクチャを補完することで,地滑り検出において最も効果的であることが示唆された。

    Link: https://arxiv.org/abs/2606.14081

  • 信頼性と説明可能性のある音声感情認識:信頼度スコアと強化学習による音声感情記述子の修正 [cs.RO, cs.RO, cs.SD]目的:音声感情認識システムの信頼性と説明可能性の向上
    • 感情理解は,人間と機械の自然な対話に不可欠であり,様々な応用分野で重要性が増している。
    • 音声感情認識の学習データは,信頼性の高い音声感情記述子ラベルが不足しているという課題がある。
    • 自動注釈された音声感情記述子ラベルの精度を向上させ,音声感情認識の性能を改善することを目指す。
    • 提案手法では,信頼度スコアと強化学習を用いた音声感情記述子の動的な修正アプローチを提示した。
    • IEMOCAPおよびMELDの実験結果から,提案手法はベースラインよりも一貫して優れた性能を示すことが確認された。
    • 両方の要素を統合したシステムは,IEMOCAPとMELDでそれぞれ2.9%,3.3%の絶対的な改善(3.7%,5.4%の相対的な改善)を達成した。

    Link: https://arxiv.org/abs/2606.14086

  • FEMOT:フレームカメラとイベントカメラを用いた多物体追跡 [cs.DC, cs.CV, cs.AI]目的:RGBとイベントデータを活用した多物体追跡手法の評価とベンチマーク
    • 現実世界での物体追跡は,自動運転やロボティクスなど様々な応用において重要である。
    • 従来のRGBカメラは,モーションブラーや低照度環境下で性能が低下する課題があった。
    • RGBとイベントカメラの利点を組み合わせ,よりロバストな追跡を実現することを目指す。
    • FEMOTという大規模なRGB-イベント多物体追跡データセットを構築し,多様なシナリオと属性を網羅した。
    • FEMOTを用いて既存の追跡器を評価し,包括的なベンチマークを確立した。
    • RGBとイベント特徴を周波数領域で融合するFEMOTRという追跡フレームワークを提案し,その有効性を実証した。

    Link: https://arxiv.org/abs/2606.14094

  • 微行動認識・検出のための新たなマルチドメインベンチマーク [cs.CV]目的:微行動の認識と検出のためのベンチマークデータセットの構築
    • 人間の意図,反応,感情の変化を捉える微行動研究は,人間中心AIの発展に不可欠である。
    • 既存のベンチマークは規模,多様性,評価プロトコルが限定的であり,現実的な設定での分析が困難である。
    • より現実的で包括的な環境下での微行動分析を可能にする,大規模で多様なデータセットの提供を目指す。
    • MMA-82は,82種類の微行動カテゴリを含む大規模なマルチドメインデータセットであり,多様なシーンと被験者から構成される。
    • 認識タスクでは,ドメイン内およびドメイン外の評価に加え,Few-shot/Zero-shot設定でモデルの汎化能力を検証した。
    • 微行動と感情の関連性が示され,感情認識の精度向上に微行動が貢献することが明らかになった。

    Link: https://arxiv.org/abs/2606.14096

  • 単純な視覚的記憶だけでは不十分:GUIエージェントの失敗モード研究 [cs.MA, cs.CV]目的:GUIエージェントにおける視覚的記憶の効果の体系的な分析
    • GUIエージェントは複雑なタスク自動化に不可欠であり,その信頼性向上は重要課題である。
    • 視覚的記憶は文脈情報提供に役立つが,どのような失敗を軽減し,悪化させるか不明である。
    • アクションと関連するGUI領域に焦点を当てることで,視覚的記憶の効率化を目指す。
    • 全画面記憶は状態レベルの失敗を減らす一方で,アクションレベルの失敗を悪化させる。
    • 隠れた操作の見落としや,状況の把握ミスが増加する傾向が見られた。
    • 提案手法AGMemは,OSWorldにおいて全画面記憶と比較してタスク成功率を33.3%向上させた。

    Link: https://arxiv.org/abs/2606.14106

  • 拡散画像編集における条件付けの重要性:反転と注意機構の安定化 [cs.CV, cs.AI]目的:拡散画像編集における反転精度と編集品質の向上
    • 画像編集技術は,創造的な表現や実用的な応用において重要な役割を担う
    • 既存手法では,反転精度と編集忠実性・背景維持のトレードオフが課題である
    • テキスト条件付けの役割を明確にし,安定した反転と注意機構制御を実現する
    • テキスト条件付けの精度が拡散過程の安定性に影響し,注意機構の一貫性を高めることが示された
    • SimEditは,条件付けの改善とトークンごとの注意制御により,反転の質と編集性能を向上させる
    • PIE-Benchを用いた実験により,SimEditが既存手法を上回る性能を示すことが確認された

    Link: https://arxiv.org/abs/2606.14125

  • BoRAD:マルチクラス異常検知のための表現を自力で構築する [cs.CV]目的:マルチクラス異常検知のための表現学習手法
    • 産業検査の自動化において,異常検知技術は重要な役割を担う。
    • 従来の異常検知は,カテゴリごとに学習する必要があり,汎用性に課題があった。
    • 多様な正常データを効率的に表現し,異常を正確に検出する手法を確立する。
    • BoRADは,ラベルを用いずに学習できるフレームワークであり,表現能力の割り当て問題として異常検知を捉えている。
    • 空間的なプロトタイプ配置により,異常データのコピーを抑制し,プロトタイプ相対的なグローバル配置により,正常カテゴリ間の分離性を向上させている。
    • MVTec AD, VisA, Real-IADにおいて,高い異常検知性能を達成し,異常漏れの低減,正常カテゴリ分離性の向上を確認した。

    Link: https://arxiv.org/abs/2606.14129

  • 動的音源のための時空間オーディオ言語モデル [cs.SD, cs.AI, cs.CL]目的:動的音源に関する時空間オーディオ質問応答
    • 音響イベント理解は,ロボット工学や自動運転など,様々な分野で重要性を増している。
    • 既存のモデルは,音響イベントの空間的・時間的な情報を十分に活用できていない。
    • 音源の識別,位置,動きに関する質問応答を可能にするモデルの構築を目指す。
    • 本研究では,時空間オーディオ質問応答データセットST-AudioQAを構築した。
    • 提案するST-Audio Encoderは,音響イベントの意味と軌跡を同時に学習する。
    • 実験により,提案手法が既存手法よりもセマンティックと位置情報のトレードオフを改善し,高い推論性能を示すことが示された。

    Link: https://arxiv.org/abs/2606.14141

  • 距離歪みとコンドルセ勝利集合に関する二つの観察 [cs.GT]目的:距離歪みと支配されない委員会の選択に関する研究
    • 社会選択理論は,多数決の矛盾を解消し,公平な意思決定を支援する上で重要である。
    • 距離歪みは,順位データの近似の質を評価する上で課題となる。
    • バイクリテリア距離歪みを改善するための支配されない委員会の役割を解明する。
    • 支配されない委員会は,バイクリテリア距離歪み$3$以下を達成するための必要条件かつ十分条件である。
    • $\alpha$支配されない委員会($\alpha \le 0.5 - \Omega(1)$)は,距離歪みが厳密に$3 - \Omega(1)$となる。
    • 歪みが$2.7384$以下のサイズ$5$の委員会が存在することが示唆される。

    Link: https://arxiv.org/abs/2606.14144

  • エンコーダの優位性はVLAバックボーン規模に依存しない:固定バックボーン移植診断 [cs.NI, cs.CV, cs.RO]目的:VLAモデルにおけるビジョンエンコーダ選択のバックボーン規模への依存性の検証
    • VLAモデルは視覚情報を重要な要素とするため,高性能なビジョンエンコーダの選択が重要である。
    • 小規模バックボーンで優位性を示すエンコーダが,大規模バックボーンでも同様に機能するか不明確である。
    • 大規模バックボーンにおける最適なエンコーダ選択のための低コストな診断手法を確立する。
    • 固定バックボーン移植診断の結果,小規模バックボーンで優れたエンコーダが大規模バックボーンでも常にトップティアであるとは限らないことが示された。
    • バックボーンの規模と組み合わせによってエンコーダのランキングが変化するケースが多く,バックボーン依存性が確認された。
    • 移植ラッパー自体がバックボーンによって異なる影響を与えるため,結論は固定移植プロトコルに依存する。

    Link: https://arxiv.org/abs/2606.14153

  • VideoWeave:幾何学的整合性のための動画生成における幾何学・動画の同時モデリング [cs.RO, cs.CV]目的:動画生成における幾何学的整合性の向上
    • 動画生成技術は,多様なコンテンツ制作において重要性を増している。
    • 大規模動画拡散モデルでは,時間経過に伴う3D構造の維持が課題である。
    • 幾何学的整合性を保ちつつ,視点変化に対する自然な動きを実現すること。
    • VideoWeaveは,幾何学モデルの特徴量を活用し,生成分布を制約することで幾何学的整合性を向上させる。
    • 本手法は,明示的な幾何学的再構成に依存せず,柔軟かつ非剛体的なガイダンスを提供する。
    • GeoVid-80Kデータセットを用いた実験により,高品質を維持しつつ幾何学的整合性が改善されることが示された。

    Link: https://arxiv.org/abs/2606.14162

  • MUSE:記憶に基づいた増分要件充足によるエージェント駆動の3Dシーンオーサリング [cs.CV]目的:3Dシーンの制御可能なオーサリング
    • デジタルコンテンツ制作やAIシミュレーションにおいて,3Dシーンの自動生成の重要性が高まっている。
    • 既存手法では,要件レベルでの状態追跡が難しく,部分的な失敗がシーン全体の再生成や手動修正を招く。
    • 要件レベルの制御性と既存コンテンツの維持を両立した,3Dシーンの効率的な編集手法を開発する。
    • MUSEは,指示を構造化された要件に変換し,ローカルなシーン操作を実行,検証を行うことで,3Dシーンの編集を可能にする。
    • 建設タスクにおいて,MUSEは既存の最良ベースラインと比較して,全目標達成率を37.9%から80.7%に,表面制約充足率を35.0%から92.6%に向上させた。
    • 編集タスクでは,全目標達成率49.6%,既存コンテンツ維持率99.9%,意図しない変更率0.6%を達成し,ユーザーの意図との整合性と空間的安定性も高いことが示された。

    Link: https://arxiv.org/abs/2606.14168

  • 文脈を考慮したマルチモーダル属性グラフのモダリティ・トポロジー共アラインメント [cs.LG, cs.CV]目的:マルチモーダル属性グラフにおけるタスク適応的な信頼できる文脈とモダリティ保存的なアラインメントの学習
    • 現実世界のエンティティをモデル化する上で,グラフ構造と多様な属性(テキスト,画像等)の統合が重要である。
    • 既存手法は固定されたグラフ文脈や均一な表現に依存し,タスク固有の要求やモダリティ特有の情報を十分に活かせていない。
    • タスクに適応した信頼できる文脈を学習し,モダリティを保持したアラインメントを行うことで,性能向上を目指す。
    • 提案手法CoMAGは,マルチモーダルな意味的一貫性からエッジの信頼性を推定し,タスクに応じたゲートを用いて文脈を選択する。
    • モダリティ特有の多段トラジェクトリを維持し,モダリティ間でのホップトークンをマッチングさせることで,共有表現と固有表現を分離する。
    • 9つのOpenMAGデータセットでの実験により,グラフレベル予測,モダリティマッチング,グラフ条件付き生成の全てにおいて,CoMAGが最先端の性能を示すことが確認された。

    Link: https://arxiv.org/abs/2606.14172