arXiv雑要約

画像・音声 - 2026/05/14 公開

  • Scale-Gest:オンデバイスジェスチャ検出のためのスケーラブルなモデル空間合成と実行時選択 [cs.CV, cs.AI, cs.HC, cs.RO, eess.IV]目的:オンデバイスジェスチャ検出のためのスケーラブルなモデル空間合成と実行時選択
    • モバイルデバイスの普及に伴い,低消費電力でリアルタイムなジェスチャ検出技術の重要性が高まっている。
    • 既存手法では,単一の固定検出器に依存するため,バッテリー残量に応じた最適化が困難である。
    • バッテリー消費と精度を両立し,様々なバッテリーレベルで安定したジェスチャ検出を実現することを目指す。
    • Scale-Gestは,多数のtiny-YOLOアーキテクチャから最適なモデルを選択することで,エネルギー消費量を大幅に削減した。
    • バッテリー駆動のノートPCでの実験では,フレームあたりのエネルギー消費量を4分の1に低減(6.9mJから1.6mJ)し,高いジェスチャ検出性能(F1=0.8-0.9)を維持した。
    • 新たに構築したDSG-18データセットを用いて,実車走行環境での有効性が検証された。

    Link: https://arxiv.org/abs/2605.12506

  • 構造的多様性が革新的な科学的イノベーションを促進する [cs.SI, cs.CV, cs.CY, cs.DL, stat.AP]目的:革新的な科学的イノベーションを促進する構造的多様性の特定
    • 科学的進歩は協調研究に依存しており,効果的な組織構造の理解が不可欠である。
    • 従来のチーム規模や多様性指標では,協調の深層構造を捉えきれないという課題があった。
    • 本研究は,チームの知識コミュニティ間の橋渡しを示す構造的多様性が,イノベーションに与える影響を解明する。
    • 構造的多様性(SD)は,従来の指標よりも disruptive innovation の強力かつ堅牢な予測因子であることが示された。
    • SD はチーム規模と正の相互作用を示し,規模の拡大に伴う負の影響を軽減する効果がある。
    • SD の効果のメカニズムの一つとして,異種知識の統合を促進する学際的統合(DI)が挙げられる。

    Link: https://arxiv.org/abs/2605.12514

  • モダリティギャップの解消:視覚言語モデルのテキストのみでのキャリブレーション改善 [cs.CL, cs.AI, cs.CV]目的:視覚言語モデルのテキストのみ入力時のキャリブレーション改善
    • 視覚言語モデルは多様なタスクに応用可能だが,性能を最大限に引き出すには課題が多い。
    • 画像入力なしのテキストのみでの推論では,精度低下とキャリブレーションの悪化が問題となる。
    • 欠落した視覚情報を潜在的に補完し,テキストのみでの信頼性のある推論を実現することを目指す。
    • 提案手法であるLIMは,テキスト入力から潜在的な埋め込みを予測し,凍結されたVLMバックボーンに供給する。
    • テキストのみのベンチマーク,未学習タスク,画像欠落シナリオにおいて,LIMは精度とキャリブレーションエラーを改善する。
    • 潜在的なモダリティ補完は,欠落モダリティ下での信頼性の高いVLM推論に対する実用的なアプローチである。

    Link: https://arxiv.org/abs/2605.12517

  • MorphOPC:多段階階層的形態学的学習によるマスク最適化の推進 [cs.SI, cs.CY, cs.IR, cs.HC, cs.CV, cs.AI, cs.AR]目的:マスク生成における幾何学的変換の学習
    • 半導体製造技術の微細化に伴い,回路パターンの転写精度が重要課題となっている。
    • 従来のマスク最適化手法では,複雑な幾何学的変換を捉えきれない場合がある。
    • 局所的なレイアウト特徴に対する形態学的演算を学習し,マスク品質を向上させる。
    • MorphOPCは,エッジベースOPCおよびILTベンチマークにおいて,最先端手法を凌駕する性能を示した。
    • 印刷忠実度の向上と製造コストの削減が確認され,スケーラブルなマスク最適化の可能性を示唆している。
    • 多段階階層的モデルとニューラル形態学的モジュールにより,幾何学的変換を効果的に学習している。

    Link: https://arxiv.org/abs/2605.12528

  • BioSEN:動物の鳴き声のためのバイオ音響信号増強ネットワーク [eess.SY, cs.SY, nlin.CD, cs.SD, cs.LG, q-bio.NC]目的:動物の鳴き声のバイオ音響信号増強
    • 生物多様性モニタリングや保全活動において,動物の鳴き声は重要な情報源である。
    • 野外録音ではノイズが多く,動物の鳴き声特有の性質を考慮した処理が課題であった。
    • バイオ音響信号に特化した増強ネットワークを開発し,録音品質の向上を目指す。
    • BioSENは,既存の音声増強モデルと同等以上の性能を示しつつ,計算コストを大幅に削減した。
    • 多スケール二軸注意ユニット,バイオハーモニック多スケール増強ユニット,エネルギー適応ゲーティング接続ユニットの組み合わせが有効である。
    • 本研究は,生物多様性モニタリングや保全活動におけるバイオ音響信号の利用を促進する可能性を示す。

    Link: https://arxiv.org/abs/2605.12534

  • バイプロファイル逸脱論理:報告置換フレームと監査証拠 [cs.LO, cs.GT]目的:戦略的な社会選択状態のモデル化と,その健全性・完全性の証明
    • 社会選択理論は,公正な資源配分や集団的意思決定の原理を研究する上で不可欠である。
    • 報告された情報と実際の選好との乖離が,社会選択の効率性や公平性を損なう可能性がある。
    • 報告情報の操作や改ざんを検出し,適切な監査メカニズムを構築することを目指す。
    • バイプロファイル逸脱論理の健全性・完全性が,抽象フレームクラスDev(N)に対して証明された。
    • 抽象的なDev(N)コンポーネントと,実際の報告座標積を分離するための座標分離が導入された。
    • 表現変化のための監査層として,型付き操作証拠,境界行定理,因子閉包基準が提示された。

    Link: https://arxiv.org/abs/2605.12537

  • CROP:構成的推論と嗜好最適化による専門家志向の画像クロッピング [cs.CE, cs.CV, cs.AI]目的:美的画像クロッピングの改善
    • 画像における美的品質は重要であり,視覚的魅力に影響する。
    • 既存手法は,構成と美学の本質的な理解を欠いている。
    • 専門家の美的感覚に合致したクロッピングを自動化すること。
    • 提案手法CROPは,画像を「分析-提案-決定」のプロセスで処理する。
    • これにより,複雑なシーンにおける構成のトレードオフを可能にする。
    • 実験結果から,CROPが既存手法を上回り,その有効性が確認された。

    Link: https://arxiv.org/abs/2605.12545

  • デコーディング前になにが起こるか? VLMにおけるGUIグラウンディングはプリフィルによって決定される [cs.CV]目的:GUIグラウンディングにおけるプリフィル段階の重要性の解明と,その改善手法の提案
    • GUI自動化の精度向上は,ユーザーインターフェースとの効率的な対話に不可欠である。
    • 既存手法は,複数回の推論が必要であり,計算コストが高いという課題がある。
    • 本研究は,プリフィル段階の改善によってGUIグラウンディングの精度を向上させることを目指す。
    • GUIグラウンディングは,候補UI要素の選定を行うプリフィル段階と,最終座標を決定するデコーディング段階の二段階で構成されることが示された。
    • プリフィル段階における誤りは,デコーディング段階で修正することが難しく,プリフィルがGUIグラウンディングのボトルネックであることが明らかになった。
    • 提案手法Re-Prefillは,アテンションに基づいて候補要素を再検討する第二のプリフィル段階を導入することで,GUIグラウンディングの性能を向上させる。

    Link: https://arxiv.org/abs/2605.12549

  • SSDA:スペクトルと構造のギャップを二重適応で埋めるビジョンベース時系列予測 [cs.CV, cs.AI]目的:時系列予測のためのビジョンベース手法におけるスペクトルと構造のギャップを埋めること
    • 近年,画像認識モデルを時系列予測に応用する研究が盛んであり,その有効性が注目されている。
    • 時系列データを画像として扱う際,画像認識モデルの事前学習データとのギャップが課題となっている。
    • スペクトル特性と構造的特徴を適応的に調整し,画像認識モデルの性能を最大限に引き出すことを目指す。
    • 提案手法SSDAは,スペクトルと構造の二つの側面から,画像認識モデルを時系列データに適応させる。
    • スペクトル適応には,2D FFTを用いたスペクトルマグニチュードアライナー(SMA)が用いられ,自然画像に近いスペクトル分布に調整する。
    • 構造適応には,位置情報を考慮した時系列エンコーディングを注入し,LoRAによる注意機構の適応を行う。

    Link: https://arxiv.org/abs/2605.12550

  • チーム対称確率的ゲームにおける多エージェント強化学習:DelAC [cs.NI, eess.SP, cs.MA, cs.GT]目的:チーム対称確率的ゲームのチーム対称ナッシュ均衡
    • 協調行動を伴う問題解決において,複数エージェント間の協調戦略は重要である。
    • チーム対称ゲームのナッシュ均衡を効率的に求める手法が不足している。
    • チーム対称ゲームにおける多エージェント強化学習アルゴリズムを開発し,性能を向上させる。
    • チーム対称ゲームには必ずチーム対称ナッシュ均衡が存在することを示した。
    • チーム対称ナッシュ均衡を求めるための線形相補問題の解法を開発した。
    • 提案する多エージェント強化学習アルゴリズムは,既存のアルゴリズムよりも優れた性能を示すことがシミュレーションで確認された。

    Link: https://arxiv.org/abs/2605.12555

  • M2Retinexformer:低照度画像強調のためのマルチモーダルRetinexformer [cs.CV]目的:低照度画像強調のための新規フレームワーク
    • 低照度画像はノイズや歪みを含み,視覚的な情報取得が困難であるため,実用的な応用範囲が限られる。
    • 既存のRetinexベース手法はRGB情報のみに依存しており,照明変化へのロバスト性や画像理解に課題がある。
    • 本研究は,深度情報や意味情報を活用することで,より自然で高品質な低照度画像強調を実現する。
    • M2Retinexformerは,深度,輝度,意味特徴を段階的に洗練するパイプラインに組み込むことで,RGB情報のみのRetinexformerを拡張した。
    • 複数のスケールで特徴を抽出し,クロスアテンションと適応的なゲーティング機構により,補助情報の信頼性に基づいて自己注意とクロス注意のバランスを動的に調整する。
    • LOL,SID,SMID,SDSDのベンチマークにおいて,Retinexformerおよび最新技術と比較して全体的な改善が確認された。

    Link: https://arxiv.org/abs/2605.12556

  • テスト時超音波画像ノイズ除去のためのピラミッド自己対照学習フレームワーク [cs.CV, cs.AI]目的:テスト時超音波画像ノイズ除去手法の開発
    • 臨床における超音波画像の解釈は,ノイズの影響を受けやすい。高画質化は診断精度向上の鍵となる。
    • 従来のノイズ除去手法は,ノイズの仮定に依存し,複雑な環境下では性能が低下しやすい。
    • 本研究は,学習データや事前学習のコストを削減し,ドメインシフトの影響を回避するノイズ除去手法を提案する。
    • 提案手法A2Aは,合成アパーチャ超音波(SAU)において,69.3%のSNR,34.4%のCNRの改善を示した。
    • 生体実験では,心臓,肝臓,腎臓において,それぞれ84.8%のSNR,25.7%のCNRの改善が確認された。
    • A2Aは,多様な撮像対象や設定においてクリアな画像を提供し,超音波検査の信頼性向上に貢献する。

    Link: https://arxiv.org/abs/2605.12567

  • M3Net:臨床に触発された階層型3Dネットワークによる肺結節の分類 [cs.CV]目的:肺結節の悪性・良性分類
    • 肺がんの早期発見には,CT画像における正確な肺結節の分類が不可欠である。
    • 肺結節は多スケールかつ異質であり,既存の深層学習モデルは説明可能性に乏しい。
    • 医師の診断プロセスに着想を得て,より透明で信頼性の高い分類手法を開発する。
    • 提案手法M3Netは,公的なLIDC-IDRIデータセットにおいて86.96%の精度を達成した。
    • 自己収集のUSTC-FHLNデータセットにおいても84.24%の精度を達成し,既存手法を上回った。
    • M3Netは,肺結節の分類において,より堅牢かつ臨床的に妥当な解を提供する。

    Link: https://arxiv.org/abs/2605.12570

  • VideoSEAL: エージェントによる長尺ビデオ理解におけるエビデンスのずれを緩和する - 応答権限の分離 [cs.CV, cs.AI]目的:長尺ビデオにおけるエビデンスのずれ軽減
    • 長尺ビデオ理解は,多様なタスクに応用可能であり,AI研究において重要な課題である。
    • 既存のモデルは,長尺ビデオ内の稀少な視覚的証拠の特定と検証に課題を抱えている。
    • 応答権限を分離することで,計画と証拠検証の間の構造的な問題を解決する。
    • 提案手法は,4つの長尺ビデオベンチマークにおいて,応答精度とエビデンスの整合性を向上させた。
    • LVBenchで55.1%,LongVideoBenchで62.0%を達成し,解釈可能な検索軌跡を生成した。
    • 分離されたアーキテクチャは,検索予算の増加に一貫して対応し,モデルのアップグレードを容易にした。

    Link: https://arxiv.org/abs/2605.12571

  • 画像復元のための遅延時間補正を用いた拡散事後サンプラーの改善 [cs.CV, cs.AI, cs.LG]目的:画像復元における拡散事後サンプラーの性能向上
    • 画像処理において,ノイズ除去や画像の鮮明化は重要な課題であり,その精度向上は常に求められている。
    • 従来の拡散事後サンプラーは,時間的な変動の影響を受けやすく,安定した復元が困難な場合がある。
    • 時間遅延補正を導入することで,拡散事後サンプラーの時間的安定性を高め,復元精度を改善することを目指す。
    • 提案手法LAMPは,既存の拡散事後サンプラーに容易に組み込むことができるモジュールとして実装された。
    • LAMPは,バイアスと分散のトレードオフを通じて逆移行を改善し,リスク分析によってその有効性が確認された。
    • 様々な画像復元タスクにおいて,DiffPIRやDDRMといった既存手法と比較して,一貫した性能向上が示された。

    Link: https://arxiv.org/abs/2605.12573

  • DistractMIA:セマンティックな攪乱によるVision-Languageモデルに対するブラックボックスメンバーシップ推論 [cs.CV, cs.AI]目的:Vision-Languageモデルの学習データに含まれる機密情報の検出
    • Vision-Languageモデルは大規模データで学習され,プライバシー侵害リスクがあるため,学習データの監査が重要である。
    • 既存手法は,モデルへのアクセスが必要,または特定の視覚的仮定に依存するため,実用性に課題がある。
    • 出力のみで,モデル内部にアクセスせずに,学習データに含まれていたか否かを判定する手法を提案する。
    • DistractMIAは,元の画像に既知のセマンティックな攪乱要素を挿入し,生成されるテキストの変化を測定することでメンバーシップを推論する。
    • メンバーサンプルは元の画像に忠実でありやすく,非メンバーサンプルは攪乱要素に誘導されやすいという仮説に基づいている。
    • 複数のVLMsおよびベンチマークにおいて,既存手法よりも高い精度を示し,医療分野への応用も実証された。

    Link: https://arxiv.org/abs/2605.12574

  • 3DプリミティブはVLMのための空間言語である [cs.CV, cs.AI, cs.DB]目的:VLMにおける空間的理解の中間表現としての3D幾何プリミティブの活用
    • 近年,画像とテキストを同時に処理するVLMの研究が進んでおり,多様なタスクへの応用が期待されている。
    • VLMは3Dシーンの再構成コード生成は得意だが,単純な空間認識タスクの精度が低いという課題がある。
    • 3D幾何プリミティブを介した空間推論能力を向上させ,VLMの汎化性能を高めることを目指す。
    • 本研究では,VLMが3Dプリミティブを用いてシーンを再構成する能力を評価するためのベンチマーク「SpatialBabel」を提案した。
    • 推論戦略「Code-CoT」を導入し,VLMの空間的推論能力を向上させ,SpatialBabel-QAスコアを最大6.4%改善した。
    • 自己教師あり学習「S$^3$-FT」により,VLMにプリミティブ空間知識を蒸留し,人間によるラベルや教師モデルなしで性能を向上させた。

    Link: https://arxiv.org/abs/2605.12586

  • TrackCraft3R:ビデオ拡散Transformerを密な3次元トラッキングへ再利用 [cs.CV]目的:単眼ビデオからの密な3次元トラッキング手法
    • 動的なシーンを理解する上で,3次元トラッキングは不可欠である。現実世界の動きを捉えることが課題。
    • 既存のトラッカーは合成データで学習するか,静止画からの再構成モデルを微調整するため,現実世界の動きの知識が不足している。
    • ビデオ拡散Transformerの持つ時空間的な知識を活用し,高精度かつ効率的な3次元トラッキングを実現する。
    • TrackCraft3Rは,ビデオ拡散Transformerを密な3次元トラッカーとして再利用する初の試みである。
    • フレームごとの生成パラダイムを,基準フレームに固定されたトラッキングへと変換し,単一のフォワードパスでトラッキングを行う。
    • 既存のベンチマークにおいて,最高水準の性能を達成し,高速化とメモリ使用量の削減にも成功した。

    Link: https://arxiv.org/abs/2605.12587

  • クリア2フォグパイプラインを用いた物体検出のための合成霧のデータ効率に関する研究 [cs.CV]目的:物体検出におけるデータ効率の向上
    • 自動運転の安全性確保には,悪天候下での物体検出が不可欠である。
    • 実世界の霧データにはラベル付けが不足しており,学習のボトルネックとなっている。
    • 物理ベースの霧生成パイプラインにより,データ効率とロバスト性を高める。
    • 提案手法Clear2Fogは,カメラとLiDAR間でセンサーレベルの一貫性を保ちながら,物理的に現実的な霧画像を生成する。
    • 多様な霧密度データセットで学習することで,固定密度データセットよりも優れた性能が得られた。
    • 合成データで学習したモデルを実データでファインチューニングする際,学習率を上げることで性能向上が確認された。

    Link: https://arxiv.org/abs/2605.12608

  • ストリーミングされた意図からの行動の創発 [cs.RO, cs.CV]目的:エンドツーエンドの自律運転における行動創発の実現
    • 自動運転技術の発展は,安全性と効率性を高め,人々の移動を支援する上で重要である。
    • 既存の手法では,多様な交通状況への対応や,意図に基づいた柔軟な行動計画が困難である。
    • シーンの理解から導出される,安全で適切な行動を生成するメカニズムを確立すること。
    • 本研究では,Streaming Intentという手法を提案し,連続的な思考過程を通じて運転意図を表現する。
    • 提案手法SIは,Waymo End-to-Endベンチマークにおいて,競争力のある性能(RFSスコア7.96/7.74)を達成した。
    • SIは,データ駆動型学習のみで,意図に応じた多様かつ高品質な計画を生成する制御性を実証した。

    Link: https://arxiv.org/abs/2605.12622

  • DocAtlas:80以上の言語における多言語文書理解 [cs.CL, cs.CV, cs.LG]目的:多言語文書理解のための高忠実度OCRデータセットおよびベンチマーク
    • グローバル化が進む中で,多言語文書処理の重要性は増しており,多様な言語への対応が求められている。
    • 低リソース言語においては,学習データ不足とバイアスのあるモデルによるアノテーションが課題となっている。
    • 学習モデルに依存しないアノテーションパイプラインを構築し,低リソース言語の文書理解能力向上を目指す。
    • DocAtlasは,82言語9タスクを網羅する高忠実度OCRデータセットとベンチマークを構築した。
    • Direct Preference Optimization (DPO)を用いることで,言語をまたいだ安定した適応を実現し,精度向上に成功した。
    • DocAtlas-DeepSeekは,最強のベースラインと比較して+1.7%の性能向上を示した。

    Link: https://arxiv.org/abs/2605.12623

  • MindVLA-U1:統合ストリーミングアーキテクチャによるVLAがVAを凌駕する自律運転 [cs.RO, cs.CV]目的:自律運転のためのVLAモデルの性能向上
    • 自律運転はモジュール型からエンドツーエンドへと進化しており,VLAモデルはその自然な拡張である。
    • 既存のVLAモデルは,VAモデルと比較して計画の質が低いという課題があった。
    • VLAモデルの統合的なアーキテクチャを構築し,VLAとVAの性能差を解消することを目指す。
    • MindVLA-U1は,VLMバックボーンとフローマッチングによる行動軌跡生成を統合した初のストリーミングVLAアーキテクチャである。
    • WOD-E2Eベンチマークにおいて,人間のドライバーのパフォーマンスを初めて上回る結果(8.20 RFS vs. 8.13 GT RFS)を達成した。
    • 従来のVA/VLAモデルを大きく上回る計画ADE(Average Displacement Error)を達成し,VAと同等のスループット(16 FPS)を維持した。

    Link: https://arxiv.org/abs/2605.12624

  • 運転意図が計画志向型強化学習を増強する [cs.RO, cs.CV]目的:運転意図を考慮した強化学習フレームワークの開発
    • 自動運転技術は,交通渋滞の緩和や事故の削減に貢献し,社会に大きな利益をもたらす可能性がある。
    • 単一の模範軌跡で学習した場合,方策が模倣した行動に集中し,多様な運転行動を学習できないという問題がある。
    • 運転意図を明示的に考慮することで,多様な運転行動を学習し,性能向上を目指す。
    • DIALは,運転意図に基づいた行動の多様性を拡大し,模範軌跡への過度な依存を解消することに成功した。
    • 意図に基づいたCFGサンプリングにより,従来の最高性能を上回り,人間の運転行動を超えるRFSスコアを達成した。
    • マルチ意図GRPOは,保持されたRFSスコアを改善し,単一意図ベースラインの性能劣化を防いだ。

    Link: https://arxiv.org/abs/2605.12625

  • MambaPanoptic:パノラマセグメンテーションのためのVision Mambaベース構造化状態空間フレームワーク [cs.CV]目的:パノラマセグメンテーションのためのフレームワーク
    • 画像認識の高度化と,シーン理解の実現に不可欠な技術である。
    • 従来のCNNやTransformerは,計算コストや長距離依存関係のモデリングに課題がある。
    • Vision Mambaを活用し,効率的かつ高精度なパノラマセグメンテーションを実現する。
    • MambaPanopticは,Mambaブロックを活用したMambaFPNにより,線形計算量でグローバルに一貫性のある多スケール特徴表現を生成する。
    • PanopticFCNスタイルのカーネル生成器とQuadMambaベースの特徴洗練モジュールにより,提案不要なパノラマ予測を強化する。
    • CityscapesとCOCOのベンチマークにおいて,PanopticDeepLabやPanopticFCNを凌駕し,Mask2Formerと同等以上の性能を達成した。

    Link: https://arxiv.org/abs/2605.12640

  • DIVER:表現豊かな意味的復元による蒸留データの深化 [cs.CV]目的:蒸留データの表現力向上と,それによる汎化性能の改善
    • データプライバシー保護と効率的な学習のために,データセットの蒸留が重要視されている。
    • 既存の蒸留手法は,特定のアーキテクチャに過剰適合しやすく,意味表現が抑制されやすい。
    • DIVERは,アーキテクチャ依存性を低減し,意味情報を効果的に伝達することで,汎化性能の低下を防ぐ。
    • DIVERは,事前学習済みの拡散モデルを活用し,蒸留データの意味的復元を深める二段階蒸留フレームワークを提案する。
    • 意味継承により,抽象化された蒸留画像からアーキテクチャ特有のノイズを除去し,本質的な意味を保持する。
    • 実験により,DIVERが既存の蒸留手法を改善し,クロスアーキテクチャの汎化性能を大幅に向上させることが確認された。

    Link: https://arxiv.org/abs/2605.12649

  • CRAFT:臨床的報酬整合ファインチューニングによる医用画像合成 [cs.CV]目的:医用画像合成における臨床的整合性の向上
    • 医用画像は診断・治療に不可欠であり,高品質な画像合成技術の確立が求められている。
    • 既存の医用画像合成は,ラベル付きデータの不足や,臨床的に妥当でない画像の生成が課題となっている。
    • 臨床的妥当性を評価する指標と,それに基づいた画像合成手法の開発が急務である。
    • 提案手法CRAFTは,新たな指標Clinical Alignment Score (CAS)を用いて,生成画像の臨床的整合性を評価する。
    • CRAFTは,マルチモーダル大規模言語モデルと視覚言語モデルから医療知識を転移することで,CASと下流タスクの分類性能を向上させた。
    • 特に,低整合性画像の割合を大幅に削減し,医師の好み調査においても高い評価を得た。

    Link: https://arxiv.org/abs/2605.12650

  • 両者間取引における円滑な敵対者に対する利益最大化 [cs.GT, cs.LG]目的:両者間取引における利益最大化戦略
    • 市場メカニズム設計は,資源配分の効率化に不可欠であり,経済学における重要な研究テーマである。
    • 敵対的環境下では,従来のオンライン学習アルゴリズムの性能が低下し,最適な取引戦略の発見が困難である。
    • 円滑な敵対者モデルにおいて,オンライン学習アルゴリズムの限界を克服し,効率的な利益最大化を実現することを目指す。
    • 本研究では,$\tilde{O}(\sqrt{T})$ のリグレット上限を保証する学習アルゴリズムを開発した。
    • この結果は,独立同一分布(i.i.d.)ケースにおけるミニマックスレートに一致し,敵対的設定との差を示す。
    • 円滑な敵対者の連続性に着目し,行動空間の階層的ネット構築を通じて,この成果を達成した。

    Link: https://arxiv.org/abs/2605.12664

  • 地理空間基盤モデルの最先端技術は誰にも分かっていない [cs.CV, cs.CY]目的:地理空間基盤モデルの現状の評価に関する問題点と改善策
    • 災害対応や土地被覆マッピングなど,地球観測技術の重要性が高まっており,その基盤となるモデルの性能評価が不可欠である。
    • 地理空間基盤モデルの研究は進んでいるものの,評価基準やデータ共有が標準化されておらず,モデル間の比較が困難である。
    • 研究コミュニティ全体の協力体制を構築し,モデル評価の標準化を促進することで,技術革新を加速させることを目指す。
    • 論文152件の調査により,同一モデル,ベンチマーク,プロトコルにおいて,少なくとも10ポイントの評価の不一致が46件も見られた。
    • 抽出可能な事前学習データを用いた論文の94/126件は,他の論文とは異なる設定を使用しており,再現性の問題が示唆された。
    • 地理空間基盤モデルの論文の39%がモデルの重みを公開しておらず,研究の透明性や共有に課題があることが明らかになった。

    Link: https://arxiv.org/abs/2605.12678

  • 視覚的審美性ベンチマーク:最先端モデルは美を判断できるか? [cs.CV, cs.AI, cs.HC]目的:視覚的審美性の評価能力の現状
    • 画像理解・生成技術の発展に伴い,審美的な判断が求められる場面が増加している。
    • 既存の評価方法は,単一画像のスコア予測に留まり,人間の美的感覚との乖離が課題である。
    • 比較選択形式による新たなベンチマークを導入し,モデルの審美性判断能力をより正確に評価する。
    • 既存の最先端モデルは,専門家による判断と比較して,画像の良し悪しの識別精度が低いことが示された。
    • 比較選択形式で学習データを作成することで,モデルの審美性判断能力を向上させることが可能である。
    • 本研究で開発したベンチマークは,マルチモーダルモデルの審美性評価能力の向上に貢献すると期待される。

    Link: https://arxiv.org/abs/2605.12684

  • MMCL-Bench: 視覚的ルール,手順,証拠からのマルチモーダル文脈学習 [cs.CV, cs.AI]目的:視覚的または混合モーダルの教育文脈からタスク固有のルール,手順,経験的パターンを学習し,新たな視覚的インスタンスに適用すること。
    • 画像認識技術は,人間のように状況を理解し,推論するために不可欠であり,その精度向上が求められている。
    • 既存のモデルは,画像から関連証拠を効果的に抽出・特定し,文脈に基づいて推論する能力に課題がある。
    • マルチモーダルモデルが文脈学習を行う際のボトルネックを特定し,その能力向上を目指す。
    • MMCL-Benchは,ルール適用,手順実行,経験的発見という3つのカテゴリに分類される102のタスクを含む。
    • 最先端のマルチモーダルモデルの評価を行った結果,厳格な評価下ではタスクの3分の1未満しか解決できず,頑健な文脈学習には至っていないことが示された。
    • エラー分析の結果,文脈の固定,視覚的証拠の抽出,文脈推論,応答構築など,文脈から回答を得るパイプライン全体で失敗が発生することが明らかになった。

    Link: https://arxiv.org/abs/2605.12703

  • 結果が手段を正当化する:比例型逐次決定のための線形ランキングルール [cs.GT, cs.AI]目的:比例型逐次決定における線形ランキングルールの選択
    • AIアラインメントや参加型設計において,集団的な意思決定ルール選択の重要性が高まっている。
    • 既存の平均化ルールは多数派偏重であり,多様な意見をバランスさせるのが困難である。
    • 多数の投票者の意見を公平に反映する線形ランキングルールを確立することを目指す。
    • 長期的には,角度平均を用いることで,各投票者の意見の比例性が確保されることが示された。
    • バッチサイズが大きくなるにつれて,バッチごとの比例性と長期的比例性の間のギャップが縮小する。
    • 実データを用いた実験では,意見が対立する場合に角度平均が比例性を大きく改善することが示された。

    Link: https://arxiv.org/abs/2605.12717

  • 画像編集におけるインライン批評家 [cs.CV, cs.AI]目的:画像編集における困難さの地域差に対応するための修正方法
    • 画像編集技術は,創造性や表現の幅を広げる上で重要である。
    • 既存の画像編集モデルは,画像全体の一貫性や局所的な詳細の修正に課題がある。
    • モデルの生成過程に介入し,リアルタイムに修正を加えることで,より高品質な編集を実現すること。
    • 提案手法「インライン批評家」は,モデルの中間層で予測を評価し,隠れ状態を調整することで生成を誘導する。
    • GEdit-Bench,RISEBench,KRIS-Benchといったベンチマークテストで,最先端の結果を達成した。
    • 分析の結果,批評家がモデルの注意と予測を後続の層で適切に更新していることが確認された。

    Link: https://arxiv.org/abs/2605.12724

  • ビデオ異常検知は誤った枠組みで進められているか?LLMベースおよびマルチシーンモデルからの証拠 [cs.CV]目的:ビデオ異常検知における既存手法の課題と,単一シーンに焦点を当てたアプローチの重要性
    • ビデオ異常検知は,セキュリティ,監視システム等において重要な役割を担う技術である。
    • 近年の研究は汎化性能を重視するあまり,シーン固有の正常行動のモデリングが軽視されている。
    • 本研究は,単一シーンに特化した,空間情報を考慮した説明可能な異常検知手法の必要性を示す。
    • 既存の異常検知手法は,事前学習済みのモデルやビデオレベルの弱学習に依存し,意味的な異常カテゴリに反応しやすい。
    • その結果,空間的な局所化が抑制され,異常検知が行動認識に還元されるという問題が生じている。
    • 本研究では,単一シーンに焦点を当てたアプローチが,現実世界のビデオ異常検知において重要であることを実証した。

    Link: https://arxiv.org/abs/2605.12725

  • BEHAVE:集団的人間ダイナミクスのリアルタイムモデリングのためのハイブリッドAIフレームワーク [cs.AI, cs.GR, cs.MA, physics.soc-ph]目的:集団的人間ダイナミクスのモデリング
    • 社会現象の予測や集団行動の理解は,安全管理や教育など様々な分野で重要である。
    • 従来のAIは個人の行動や事後的なイベント検出に偏り,集団全体のダイナミクスを捉えきれていない。
    • 集団を力学系として捉え,集団状態を記述する場の概念を導入することで,集団行動を予測すること。
    • BEHAVEは,観測可能な身体信号から相互作用空間を導出し,連続的な行動場として集団ダイナミクスをモデル化する。
    • 運動学的微小信号を構造化し,集団状態の非冗長な軸を捉える行動場の基底を構築する。
    • BEHAVEは,交渉シーンにおいて集団ダイナミクスの学習,表現,予測を行うための計算システムとして機能する。

    Link: https://arxiv.org/abs/2605.12730

  • 静止的カモフラージュ,移動する錯覚:自律運転における視点誘起軌道操作 [cs.CR, cs.CV]目的:視点に依存した軌道操作による自律運転システムの誤動作誘発
    • 自動運転技術は交通効率化や安全性向上に不可欠であり,その信頼性確保が重要である。
    • 既存の物理的敵対的攻撃は複雑で,多視点での有効性を維持する必要がある。
    • 自然な視点変化を利用することで,より簡素かつ効果的な攻撃手法を確立する。
    • 静的なカモフラージュを車両に取り付けることで,移動に伴う視点変化が特徴量のドリフトを引き起こす。
    • この特徴量ドリフトにより,システムは不自然だが物理的に可能な軌道を予測し,不要なブレーキを誘発する。
    • nuScenesデータセットを用いた実験で,最高87.5%の成功率が確認され,様々な条件下でロバストであることが示された。

    Link: https://arxiv.org/abs/2605.12743

  • テーブルを要求するだけ:30トークンのユーザープロンプトが12のLLMでスポンサー推奨を打ち破る [cs.CV]目的:大規模言語モデルにおけるスポンサー推奨の頻度とその抑制策に関する調査
    • LLMの利用拡大に伴い,推奨の公平性と透明性が重要課題となっている。
    • LLMがスポンサー製品を優先的に推奨する問題があり,ユーザーへの不利益が生じる可能性がある。
    • シンプルなユーザープロンプトによるスポンサー推奨の抑制効果を検証し,対策の可能性を探る。
    • 大規模言語モデルにおいて,スポンサー製品の推奨は依然として高い頻度で発生することが確認された。
    • 30トークンのユーザープロンプト(中立的な比較表の要求)を用いることで,オープンソースモデルでは推奨率を46.9%から1.0%へ,OpenAIモデルでは53.0%から0%へと大幅に削減できた。
    • AIリテラシーや価格比較サイトなどの対策も有効と考えられるが,有害製品の推奨を完全に防ぐことは困難である。

    Link: https://arxiv.org/abs/2605.12772

  • WildPose:ワイルドな環境におけるロバストな姿勢推定のための統一的フレームワーク [cs.CV]目的:動的な環境におけるカメラ姿勢推定
    • SLAMやSfMは,ロボットの自律移動や3D環境理解に不可欠な技術である。
    • 従来のSLAM/SfMは静的なシーンを前提とし,動的な環境では性能が低下する。
    • 動的な環境においてもロバストな姿勢推定を実現し,既存手法の課題を克服する。
    • WildPoseは,フィードフォワードモデルと微分可能バンドル調整を統合した統一的フレームワークである。
    • 事前学習済みのMASt3R特徴バックボーンとモーションマスク検出器を活用することで,動的環境での性能を向上させている。
    • 動的・静的・低自己運動データセットにおいて,既存手法を上回る性能を示すことが実証された。

    Link: https://arxiv.org/abs/2605.12774

  • 連続的暗黙的表現上での拡散による生成モーション中間補間 [cs.GR, cs.CV]目的:生成モーション中間補間の手法
    • モーション生成は,ロボティクスやコンピュータグラフィックス等,幅広い分野で重要な役割を果たす。
    • 既存手法では,キーフレーム情報の保持やモーションの連続性の確保に課題が残されている。
    • 少ないキーフレームから自然で滑らかなモーションを生成する手法を開発すること。
    • 本研究では,モーション暗黙的ニューラル表現(INR)に基づいた潜在拡散モデル(LDM)のパイプラインとサンプリング最適化戦略を提案した。
    • 提案手法は,極めて疎なキーフレームデータからINRパラメータをサンプリングし,妥当かつ滑らかなモーションを再構築できる。
    • 実験により,少ないキーフレーム条件下でモーション生成品質が大幅に向上し,キーフレーム精度とモーション多様性を両立することが示された。

    Link: https://arxiv.org/abs/2605.12778

  • イーサリアム・メンプールにおける動的トランザクションスケジューリングと価格設定 [cs.GT, cs.CR, cs.DC, cs.NI, cs.SY, eess.SY]目的:イーサリアム・メンプールにおけるトランザクションの動的スケジューリングと価格設定に関する研究
    • ブロックチェーン技術は金融,サプライチェーン等,様々な分野での応用が期待されており,その効率性向上が重要である。
    • 既存研究ではEIP-1559を静的な視点から分析しており,メンプール内のトランザクションの動的な挙動が考慮されていない。
    • メンプール内のトランザクションの動的な変化を捉え,長期的な報酬を最大化する価格設定メカニズムを提案する。
    • 動的価格設定によりメンプールが安定化し,長期的な割引報酬が最大化されることが示された。
    • オーバーシュート罰則が増加すると,スケジューリングされるトランザクション量はターゲットのブロック容量に収束し,価格更新ルールがEIP-1559に類似する。
    • 均質なトランザクションの場合,最適なポリシーは閾値構造を持つことが示され,一様到着に対するバンバン価格設定メカニズムが提案された。

    Link: https://arxiv.org/abs/2605.12794

  • 画像操作検出のためのフォレンジックルーティングと適応型マルチパス証拠融合 [cs.CV, cs.AI]目的:画像操作検出のための,多様なフォレンジックアルゴリズムの活用と証拠融合手法
    • デジタル画像の改ざん検出は,ジャーナリズム,法医学,そして公共の信頼にとって重要な課題である。
    • 既存の検出手法は,頑健性,証拠の断片化,多様な操作や画像条件への一般化性能に課題がある。
    • 本研究は,単一手法の限界を超え,より柔軟で解釈可能な画像フォレンジック推論を実現することを目指す。
    • FRAMEは,複数のフォレンジックアルゴリズムをマルチパス分析空間に整理し,入力画像に応じて最適なパスを選択する。
    • 異なる証拠源からの情報を融合することで,検出と局所化の性能を向上させる。
    • 実験結果は,多様な操作シナリオにおいてFRAMEの有効性を示している。

    Link: https://arxiv.org/abs/2605.12826

  • AssemblyBench: 物理を考慮した複雑な産業オブジェクトの組み立て [cs.CV, cs.AI]目的:複雑な産業オブジェクトの組み立てに関する研究
    • 産業用ロボットの自動化が進む中で,組み立て作業の効率化が重要となっている。
    • 既存のデータセットは簡略化されたシナリオに焦点を当てており,実際の産業用組み立ての複雑さを捉えられていない。
    • 複雑な形状や軌道を伴う産業用組み立てに対応できる,新しいデータセットとモデルを開発すること。
    • AssemblyBenchは,2,789個の産業オブジェクトと,その組み立て手順,3Dモデル,軌跡を含むデータセットである。
    • 提案モデルAssemblyDynoは,指示書と3D形状から組み立て順序と軌跡を予測する。
    • AssemblyDynoは,既存手法と比較して,組み立て姿勢推定と軌跡の実現可能性において優れた性能を示した。

    Link: https://arxiv.org/abs/2605.12845

  • PRISM:急性リンパ性白血病の分類のための核周囲リングに基づく画像セグメンテーション手法 [cs.CV, cs.AI]目的:急性リンパ性白血病の分類のための画像セグメンテーション
    • 血液細胞の自動解析は,白血病などの血液疾患の診断において重要な役割を果たす。
    • 従来の膜ベースのセグメンテーションは,細胞質のコントラストの低さや多様性により困難である。
    • 本研究は,細胞境界の正確な検出を必要とせず,細胞質の堅牢な特徴量を抽出する手法を提案する。
    • 核周囲リングを利用したPRISMは,従来の複雑なニューラルネットワークに頼らず,高い汎化性能を実現した。
    • 色情報とテクスチャ統計を組み合わせることで,細胞質の記述子を効率的に抽出することに成功した。
    • 提案手法は,98.46%の精度と0.9937のPrecision-Recall AUCを達成し,高い分類性能を示した。

    Link: https://arxiv.org/abs/2605.12851

  • 直腸癌再発の縦断的内視鏡検査からの予測 [cs.CV]目的:直腸癌の再発予測手法の開発
    • 直腸癌の治療後の経過観察は重要だが,再発の早期発見は困難である。
    • 経過観察における客観的に正確な再発検出方法が存在しない。
    • 縦断的内視鏡画像を用いた深層学習により,再発の早期発見を目指す。
    • 開発したTREXは,再発の検出において高い感度(97%±6%)とバランスの取れた精度(90%±3%)を示した。
    • 臨床的検出の3-6ヶ月前,6-12ヶ月前における早期検出においても,他の手法を上回る性能を示した(それぞれ74%±1%,62%±4%)。
    • 外科医の評価では,TREXの精度は熟練医師の精度と同等レベルであった(TREX: 86.21% vs. 医師: 87.84%±1.28%)。

    Link: https://arxiv.org/abs/2605.12855

  • CiteVQA:信頼性の高い文書インテリジェンスのための根拠帰属のベンチマーク [cs.CL, cs.CV]目的:文書理解における根拠帰属の評価基準
    • 文書理解の分野は,法務,金融,医療など,重要な領域で活用が期待されており,その重要性は高い。
    • 既存のDoc-VQA評価は最終回答のみを評価しており,根拠となる箇所が正しいか検証されていない。
    • 正しい回答と根拠箇所を同時に評価することで,信頼性の高い文書理解を実現することを目指す。
    • 本研究で開発したCiteVQAベンチマークは,1,897問の質問と711件のPDF文書で構成され,回答とともに根拠となる領域を特定する。
    • 大規模言語モデル20種を評価した結果,回答は正しくても根拠箇所が誤っている「帰属の幻覚」が頻繁に発生することが明らかになった。
    • 最も性能の高いモデルでも厳密な根拠帰属精度は76.0%にとどまり,オープンソースモデルは22.5%であった。

    Link: https://arxiv.org/abs/2605.12882

  • 信頼性と説明可能性の高い医用画像分類のための適応的適合性予測 [cs.CV, cs.LG]目的:医用画像分類における信頼性と説明可能性の向上
    • 医用画像診断の精度向上は,医療の質を向上させ,患者の転帰を改善する上で重要である。
    • 深層学習モデルは過信傾向があり,曖昧な診断シナリオで安全上のリスクをもたらす可能性がある。
    • 不確実なサンプルに対するカバレッジ不足を解消し,信頼性の高い予測を可能にすること。
    • 提案手法は,予測集合サイズ層ごとに最悪の場合のカバレッジ違反を最小化する適応的ラムダ基準を導入した。
    • OrganAMNISTデータセットにおいて,95.72%の全体的なカバレッジと平均集合サイズ1.09を達成し,全ての層で少なくとも90%のカバレッジを確保した。
    • Grad-CAM分析により,多ラベル予測が解剖学的に曖昧な領域への集中的な注意と対応することを示した。

    Link: https://arxiv.org/abs/2605.12917

  • 3Dガウススプラッティングの統一的な所有権追跡と編集抑止 [cs.CL, cs.CV]目的:3Dガウススプラッティングにおける所有権追跡と不正な編集抑止の同時最適化
    • 3Dガウススプラッティングは新しい視点からの合成において実用的な表現となりつつあり,その重要性が増している。
    • 3DGS資産の無許可利用と編集による著作権侵害のリスクが存在するが,既存手法では両面を同時に保護できていない。
    • 本研究は,所有権追跡と編集抑止を統合することで,3Dガウススプラッティング資産の著作権保護をより効果的に実現することを目指す。
    • 提案手法は,シーン全体のウォーターマーク目的と編集抑止のための敵対的目的を組み合わせることで,所有権追跡と不正な編集抑止を同時に行う。
    • 敵対的ブランチは,潜在的アンカー分離,ノイズ除去軌跡の逸脱,およびクロスアテンションの逸脱を組み合わせることで編集軌跡を逸らし,レンダリング品質を維持しつつ,ウォーターマークの回復性と編集抑止効果を両立している。
    • Mip-NeRF 360とInstruct-NeRF2NeRFの実験結果から,提案手法がビット精度,編集抑止,レンダリング品質のバランスに優れていることが示された。

    Link: https://arxiv.org/abs/2605.12919

  • ThermalTap:VRヘッドセットにおける熱サイドチャネルを用いた受動的なアプリケーションフィンガープリンティング [cs.CR, cs.CV, cs.HC]目的:VRヘッドセットの熱放射を利用したアプリケーションの識別
    • VR技術の普及に伴い,プライバシー保護の重要性が増している。
    • VRヘッドセットのセキュリティ脆弱性に関する研究が不足している。
    • 非接触でアプリケーションを識別する新たな攻撃手法の可能性を検証する。
    • ThermalTapは,VRヘッドセットから放射される赤外線を捉え,アプリケーションを識別する受動的かつ非接触な攻撃手法である。
    • 室内環境において,10秒間の熱画像データのみで90%以上の精度でアプリケーションを識別できることが示された。
    • 屋外環境でも,長時間観察により,ある程度の精度でアプリケーションの識別が可能であることが確認された。

    Link: https://arxiv.org/abs/2605.12927

  • Anatomy-Slot:網膜診断における双眼対応推論のための教師なし解剖学的ファクタライズ [cs.CV, cs.AI]目的:網膜診断における双眼対応推論のための解剖学的要素のファクタライズ
    • 網膜診断は左右眼の比較が不可欠であり,正確な診断には両眼の構造的対応の理解が重要である。
    • 既存の深層学習モデルは単眼の表現に焦点を当てており,両眼間の構造的対応を十分に活用できていない。
    • 本研究は,解剖学的構造の対応関係を明示的にモデル化することで,網膜診断の精度向上を目指す。
    • 提案手法Anatomy-Slotは,パッチトークンをスロットに分解し,双方向クロスアテンションを通じて両眼間でスロットをアライメントする。
    • ODIR-5Kデータセットにおいて,Anatomy-SlotはViT-Lベースラインと比較してAUCを4.2%向上させた(95%信頼区間,p=0.002)。
    • ペアの破壊やガウスノイズを用いたストレステストにより,構造的対応関係への依存性とノイズに対する頑健性が確認された。

    Link: https://arxiv.org/abs/2605.12929

  • AuraMask:審美的な対顔認識画像フィルタ開発のための拡張可能なパイプライン [cs.CV, cs.AI, cs.HC]目的:審美性と対顔認識効果を両立する画像フィルタの作成
    • 監視社会への抵抗手段として,顔認識回避技術の重要性が高まっている。
    • 既存の対顔認識フィルタは,効果がある反面,審美性が低く,利用者の自己表現を妨げる。
    • 審美性と対顔認識効果を両立させ,より利用しやすいフィルタを開発すること。
    • AuraMaskを用いることで,既存手法と同等以上の対顔認識効果を持つ40種類のフィルタを生成した。
    • オンラインユーザー調査(N=630)の結果,AuraMaskフィルタは既存手法よりも有意に高いユーザー受容性を示した。
    • 本研究で開発したパイプラインを公開し,関連分野の研究加速に貢献する。

    Link: https://arxiv.org/abs/2605.12937

  • CRePE:統一カメラ制御ビデオ生成のための曲線光線期待位置エンコーディング [cs.CV, cs.AI, cs.LG]目的:統一カメラモデル下での汎用的なカメラ制御を可能にする位置エンコーディング
    • カメラ制御ビデオ生成は,多様な視覚表現の創出において不可欠であり,その重要性は増している。
    • 既存の位置エンコーディングは,カメラの動きやレンズ構成の変化に弱く,汎用的なカメラ制御が困難である。
    • 広角レンズや魚眼レンズを含む,様々なカメラモデルに対応可能な安定したカメラ制御を実現すること。
    • CRePEは,光線に沿った深度情報を考慮した位置分布を用いることで,幅広いカメラモデルに対応した位置エンコーディングを実現した。
    • ジオメトリ注意機構アダプターをDiTに組み込むことで,シーン距離情報を注入し,モノキュラー幾何学モデルからの疑似教師あり学習によって安定性を向上させた。
    • 幾何学に基づいた評価指標と知覚的品質指標が向上し,多様なカメラモデルにおいて高い性能を発揮した。

    Link: https://arxiv.org/abs/2605.12938