arXiv雑要約

画像・音声 - 2026/06/11 公開

自動コンクリートバリア設計のための軽量マルチエージェントフレームワーク [cs.AI, cs.GR]目的：コンクリートバリアの自動設計
- 高速道路などのインフラ安全確保は重要であり，コンクリートバリアはその根幹を担う。
- 従来の設計は手作業が多く，複雑な制約条件を満たすのに手間と時間がかかる。
- LLMの誤りリスクを低減しつつ，物理的根拠に基づいた設計自動化を実現する。
- 提案手法は98%以上の設計精度を達成し，単独の汎用LLMを大きく上回る性能を示した。
- モデルの規模と設計性能に相関関係がないことが示され，軽量モデルでも高性能な設計が可能となった。
- 計算コスト削減とAI支援設計ツールの産業応用への貢献が期待される。
Link: https://arxiv.org/abs/2606.12040
ゼロショット事故理解のためのメタデータに基づいたマルチプロンプト推論 [cs.RO, cs.CV, cs.AI, stat.ML]目的：監視動画からの事故理解
- 映像解析技術は，安全管理や事故調査において不可欠であり，その重要性は増している。
- 既存手法では，未知の事故パターンへの対応が困難であり，汎化性能が課題となっている。
- ゼロショット設定で事故の「いつ」「何」「どこ」を特定し，よりロバストな理解を目指す。
- 本研究では，事故理解を時間的局在化，意味的分類，空間的特定に分解するパイプラインを提案した。
- メタデータ駆動型マルチプロンプト推論と，不一致解決のためのエントロピーゲート処理を組み合わせた。
- 提案手法は，CVPRのACCIDENTベンチマークにおいて，大幅な性能向上を達成した。
Link: https://arxiv.org/abs/2606.12047
MFEN：可視・赤外線人物再識別のための多周波数エキスパートネットワーク [cs.CV]目的：可視・赤外線人物再識別におけるロバストな表現学習
- 人物再識別は，監視カメラなどを用いた個人特定に不可欠であり，社会安全への貢献が期待される。
- 可視光と赤外線画像は，照明条件の違いから表現に大きな隔たりがあり，再識別精度を低下させる。
- 異なる周波数帯域を効果的に組み合わせることで，多様な照明条件下での再識別性能向上を目指す。
- 提案手法MFENは，多周波数モジュレーションとエキスパート混合によって，周波数領域の特徴を総合的に学習する。
- ランダム周波数拡張と周波数補助最適化により，MFENの学習を促進し，特徴表現の質を向上させる。
- 3つのVI-ReIDデータセットでの実験により，提案手法の有効性が実証された。
Link: https://arxiv.org/abs/2606.12051
悪天候下における発展途上国での混合交通物体検出のためのYOLOv11とYOLOv8の性能分析 [cs.CV]目的：悪天候下における混合交通物体検出のためのYOLOv11とYOLOv8の性能評価
- 自動運転技術の発展に伴い，悪天候下のような厳しい環境下でのロバストな性能が不可欠となっている。
- 発展途上国では，交通状況が複雑で，悪天候も頻繁に発生するため，既存の物体検出システムでは誤検出が多い。
- 本研究は，悪天候下における複雑な交通状況下での物体検出精度向上を目指している。
- YOLOv11nは，ベースラインであるYOLOv8nと比較して，平均Precisionで3.2%の向上を示し，誤検出を効果的に削減した。
- YOLOv11nは，計算量は22%削減（6.3G vs. 8.1G）されながら，Tesla T4 GPU上で70.9 FPSのリアルタイム推論速度を維持した。
- YOLOv11nは，安全性重視のエッジデバイスへの実装に適した，精度，速度，効率の最適なバランスを実現した。
Link: https://arxiv.org/abs/2606.12066
Tac-DINO：パッチアラインメントによる視覚・触覚特徴の学習 [cs.CL, cs.CV]目的：視覚・触覚特徴の局所-全体アラインメント能力の評価
- 人間は触覚を通じて環境と相互作用する。触覚情報の活用はロボット工学において重要である。
- 既存研究は画像レベルでの事前学習やアラインメントに偏り，局所的な接触に対応する触覚信号の扱いが課題である。
- スケールアラインメントやホログラフィックマッチングの不足を補い，視覚と触覚の局所-全体アラインメントを強化すること。
- 大規模な触覚データセット（2万件以上の接触，505個の物体）を構築し，Vis-Tac Holographic Matching Benchmarkを新たに提案した。
- 視覚・触覚表現学習のためのVision-Tactile Patch Alignment (VTPA)手法を提案し，アラインメント無しの場合より性能が向上することを示した。
- VTPAが，物体全体画像とのアラインメントにおいて高い精度を達成することを確認した。
Link: https://arxiv.org/abs/2606.12069
ワールドモデルの自己蒸留：汎用タスク解決のためのワールドモデルの学習 [cs.CV]目的：汎用タスク解決のためのワールドモデル学習の枠組み
- 視覚的な世界モデルは，タスク解決能力を示すが，詳細なテキスト記述への依存が課題。
- タスク実行動画のペアを用いた教師あり学習は高コストであり，スケーラビリティが低い。
- 自己蒸留と強化学習を組み合わせることで，タスク解決能力を効率的に獲得すること。
- 提案手法は，テキストによる指示のみでタスク解決能力を獲得し，大規模データセットへの適用が可能。
- VLMに基づく評価プロトコルにおいて，自己蒸留によって学習したExecutorがDemonstratorを上回る性能を示した。
- ロボティクスベンチマークにおいて，Executorは競争力のある性能を発揮し，実用性を示唆する結果が得られた。
Link: https://arxiv.org/abs/2606.12072
GANとメモリスタを用いた非正面顔認識 [cs.CV, cs.AI, eess.IV]目的：非正面顔画像に対する顔認識の精度向上
- 顔認識技術はセキュリティや監視システム等，多様な分野で重要な役割を担っている。
- 従来の深層学習は計算コストが高く，リソースに制約のある環境での利用が困難である。
- メモリスタを活用し，計算負荷を軽減した効率的な顔認識システムを開発すること。
- 提案手法では，GANによる姿勢補正とメモリスタによる認識を組み合わせることで，非正面顔認識の精度を高めた。
- 実験結果から，本手法は最長96%の認識精度を達成し，有効性が確認された。
- 従来のAIの計算ボトルネックを解消し，動的な実環境における顔認識の実現に貢献する。
Link: https://arxiv.org/abs/2606.12074
ISAP-3D：同一性スロットアラインメントを考慮した部品認識型3D生成 [cs.CV]目的：部品認識型3D生成における構造的曖昧性の解消
- 3D生成技術は，製品設計や仮想環境構築などに応用が期待され，重要性が増している。
- 既存手法では，部品の同一性と配置が絡み合い，配置の不安定性や部品の誤認識が発生しやすい。
- 同一性スロットアラインメントを導入し，部品と生成スロット間の対応を明確化することで安定的な生成を目指す。
- 提案手法ISAP-3Dは，意味的トークンを用いて各部品を固定し，同一性に基づいた配置予測を行う。
- これにより，意味，空間，幾何学の各段階で同一性の整合性を維持し，構造的安定性を向上させる。
- 実験の結果，最先端の部品認識型3D生成手法と比較して，制御性と堅牢性が改善されたことが示された。
Link: https://arxiv.org/abs/2606.12099
DAM-VLA：非同期マルチモーダル視覚言語行動モデル [cs.SC, cs.CC, cs.DC, cs.RO, cs.CV, cs.LG]目的：視覚，言語，行動の統合モデルにおける時間処理の非同期化
- ロボットによる物理的相互作用の実現には，多様な感覚情報の効率的な統合が不可欠である。
- 既存の視覚言語モデルは同期的な処理に依存しており，異なる時間特性を持つ情報の扱いに課題がある。
- 各モダリティの時間特性に適応した非同期処理により，ロボットの制御性能を向上させる。
- DAM-VLAは，各モダリティの潜在バッファをセンサーレートで更新し，行動生成に利用することで，よりスムーズで反応性の高い制御を可能にする。
- 7つの実世界操作タスクにおいて，DAM-VLAは最も強力な同期ベースラインの成功率を2倍以上に向上させた（95.2\% vs.\ 40.95\%）。
- 従来の事前学習済みバックボーンを維持しながら，ゲート付きクロスアテンションにより新しい高頻度モダリティを統合する。
Link: https://arxiv.org/abs/2606.12105
MSUE：多Modalサッカー理解エキスパート [cs.CV, cs.AI]目的：サッカーに関する視覚・言語情報を統合した質問応答システム
- サッカーの試合分析において，視覚情報と言語情報の両方を理解することが重要である。
- サッカーの試合に関する質問応答は，データが不足し，複雑な推論が必要となる場合がある。
- 多様なデータと高度な質問応答能力を備えたシステムを構築し，試合理解を深める。
- 本研究では，Vision-Language Modelを活用したデータ合成パイプラインを開発し，多様な質問応答サンプルを生成した。
- MSUEは，LLMを用いて質問をテキスト，画像，動画のエキスパートに動的に割り当て，協調してVQA性能を向上させる。
- MSUEは，挑戦課題のベンチマークで0.95の精度を達成し，リーダーボードで3位を獲得した。
Link: https://arxiv.org/abs/2606.12106
クエリ認識型フォーカス・コンテキスト時空間フォールディングによる長編ビデオ理解 [cs.CV]目的：長編ビデオ理解のための入力構築手法
- マルチモーダル大規模言語モデルの発展において，長編ビデオの効率的な処理が課題となっている。
- 既存手法は，限られた計算資源内で長編ビデオを処理するため，フレーム単位で情報を圧縮してしまう。
- 重要なフレームを保持しつつ，広範な時間的情報を維持することで，より高精度な理解を目指す。
- Q-Foldは，クエリに基づいて重要なセグメントを高精度に保持し，関連性の低いセグメントを圧縮する。
- これにより，重要な視覚的証拠と広範な時間的カバレッジを両立し，局所的な時間的連続性を維持する。
- 複数のベンチマークにおいて，入力予算を増やすことなく，一貫して性能が向上し，最大9.1%の改善を達成した。
Link: https://arxiv.org/abs/2606.12125
アンカー誘導型エビデンス学習による患者レベル予測 [cs.CV]目的：患者レベル予測のための，アンカー誘導型エビデンス学習
- 病理診断は複数のWSI全体から統合的な情報を得るため，患者レベルでのモデリングが重要である。
- 従来のMILフレームワークでは，患者レベルの弱教師あり学習が不安定になりやすく，予測精度が低下する問題がある。
- WSI表現から患者レベルのアンカーを構築し，診断上重要なパッチを抽出することで，安定した患者レベルモデリングを実現する。
- AGE-MILは，従来のMIL手法8種類と比較して，一貫して高い性能を示した。
- 患者レベルのリスクをエビデンスの蓄積過程としてモデル化することで，弱教師あり学習下での最適化を安定化させている。
- 提案手法は，2つの独立したコホートを用いた6つの臨床的に関連性の高い患者レベル予測タスクで評価された。
Link: https://arxiv.org/abs/2606.12126
肺がんにおける2D PET/CT投影からの時間依存的および多時間生存予測 [cs.CV]目的：肺がん患者の生存予測精度の向上
- がん治療における個別化医療の重要性が高まっており，予後予測技術の発展が求められている。
- 画像データからの生存予測において，時間軸を考慮したモデリングの検討が十分ではない。
- PET/CT画像における時間的情報を活用し，より精度の高い生存予測モデルを開発すること。
- ATCSおよびMTSモデルは，従来のTCSモデルと比較して，生存予測において優れた性能を示した。
- ATCSは早期の生存予測，MTSは長期の生存予測においてより高いAUCを示した。
- 腫瘍特異的な特徴量と組織ごとの特徴量を組み合わせることで，予測性能が向上した。
Link: https://arxiv.org/abs/2606.12140
AerialClaw：LLM駆動自律航空機エージェントのためのオープンソースフレームワーク [cs.RO, cs.CV]目的：LLM駆動による自律航空機エージェントの実現
- UAVは，検査，捜索救助，環境モニタリング等，幅広い分野で活用が拡大している。
- 既存のシステムは，手動でのモジュール接続に依存し，柔軟性，再現性，拡張性に課題がある。
- 自然言語によるミッション指示に基づき，自律的に判断・行動できる航空機システムの構築を目指す。
- AerialClawは，知覚，計画，飛行制御などを統合し，UAVを単なる操縦プラットフォームではなく，意思決定を行うエージェントとして機能させる。
- 本フレームワークは，モジュール化された脳・スキル・実行環境アーキテクチャを採用し，ハードスキルとソフトスキルを組み合わせることで，柔軟なタスク戦略を実現する。
- 標準化されたスキル，ドキュメント駆動の状態管理，メモリ，閉ループLLMによる意思決定により，再現性と拡張性に優れたシステムを提供する。
Link: https://arxiv.org/abs/2606.12142
離散化せず最適化せよ：ほぼ貪欲なフィクティヴ・プレイ [cs.GT]目的：ゼロサムゲームにおけるナッシュ均衡への収束
- ゲーム理論は，経済学や機械学習など，様々な分野で意思決定のモデル化に不可欠である。
- フィクティヴ・プレイの収束速度は，その応用範囲を制限する要因となっていた。
- 本研究は，離散化を回避しつつ，フィクティヴ・プレイの収束速度を向上させることを目指す。
- 提案手法「ほぼ貪欲なフィクティヴ・プレイ」は，デュアリティギャップに関して$\mathcal{O}(1/T)$の収束率を達成する。
- この収束率は，連続フィクティヴ・プレイと同等であり，既存手法への新たな選択肢を提供する。
- 実験結果は，提案手法の有効性を実証している。
Link: https://arxiv.org/abs/2606.12149
TopoCap：単眼動画に対するトポロジー非依存なモーション事前知識の学習 [eess.SY, cs.SY, cs.CV, cs.GR]目的：任意の骨格構造へのモーションの抽出と再ターゲット
- 3Dアセットの生成が活発化する中，モーションキャプチャの需要が高まっている。
- 既存手法は特定の骨格構造に限定されるか，手動リギングが必要となり，柔軟性に欠ける。
- 未知の骨格構造を持つキャラクターへのモーション適用を可能にし，汎用的なモーション生成を目指す。
- TopoCapは，様々な骨格構造のキャラクターに対して，テスト時の最適化なしでモーションを再ターゲットできる初の統一フレームワークである。
- グラフCVAEを用いて，多様な運動連鎖を固定長の潜在コードに圧縮し，運動の背後にある物理法則の連続性と低次元性を活用している。
- Mobjaverseという大規模データセット（5,000以上の骨格構造，200万フレーム）を用いて，汎用的な事前知識を学習し，既存データセットを構造的多様性で2桁上回る性能を示した。
Link: https://arxiv.org/abs/2606.12153
共有インフラ投資と価格設定：リスク回避型テイク・オア・ペイ契約におけるスタッケルベルク均衡 [cs.PF, cs.CL, cs.GT]目的：リスク回避型テイク・オア・ペイ契約下における，インフラ事業者の容量決定とアクセス価格設定の最適化
- 新技術導入において，インフラ投資は莫大な初期費用を伴い，収益性の確保が重要となる。
- 不確実な収益を前提としたインフラ利用料金設定は，事業者の投資回収と利用者のリスク管理のバランスが課題。
- 異質なリスク選好を持つ利用者の行動を考慮した，最適なインフラ容量と価格設定手法の確立を目指す。
- スタッケルベルク均衡の存在が証明され，近似解を求める多項式時間アルゴリズムが開発された。
- シミュレーション結果から，利用者のリスク回避度が高いほどインフラ容量と価格が低下し，事業者の利益は減少する一方，利用者の利益確率は上昇することが示された。
- 利用者の利益確率の下限が導出され，リスク選好がインフラ投資に及ぼす影響が定量的に評価された。
Link: https://arxiv.org/abs/2606.12167
OpenMedReason：医療ビジョン言語モデルのための科学的推論指導 [cs.CV, cs.AI, cs.CL, cs.LG]目的：医療ビジョン言語モデルの科学的推論能力の向上
- 臨床応用において，正確な最終回答だけでなく，根拠に基づいた推論が不可欠である。
- 既存のモデルは，視覚的証拠や臨床知識に基づかない推論を行う可能性がある。
- 質の高い医療データを用いた推論指導により，モデルの信頼性と説明可能性を高める。
- OpenMedReasonは，約45万件の画像・質問・回答ペアと，科学論文に由来する推論過程を含む大規模な医療推論コーパスである。
- 本コーパスを用いた学習により，VQAの精度が平均20％向上し，既存の医療LVLMに匹敵する性能が得られた。
- 推論，知識，知覚の各側面において性能が向上し，モデルの推論過程が人間の専門家によって好まれることが示された。
Link: https://arxiv.org/abs/2606.12169
暗黙的知識を超えて：Mixupに基づく知識蒸留による信頼性の高い予測 [cs.CV, cs.LG]目的：知識蒸留とMixupの相互作用による予測の信頼性向上
- 機械学習モデルの汎化性能と予測の信頼性は重要であり，その向上は様々な応用において不可欠である。
- 知識蒸留やMixupは有効だが，Mixupを学生モデルの学習時にのみ用いる場合の影響は十分に理解されていない。
- 教師モデルが学習時に見たことのない分布からの入力に対する影響を分析し，より信頼性の高いモデルを構築すること。
- Mixupを用いた知識蒸留は，CIFARやImageNetにおいて，ベースラインと比較して学生モデルの精度を向上させ，過信を大幅に軽減する。
- 教師モデルから学生モデルへのキャリブレーションは，精度の向上とは独立して伝播し，温度スケーリングは精度とキャリブレーションのトレードオフを制御する。
- Mixup蒸留は，標準的な知識蒸留の劣化版ではなく，識別性能，不確実性の推定，表現の幾何学を同時に形成する，より豊かな転移チャネルである。
Link: https://arxiv.org/abs/2606.12171
pノルムに基づく社会的コストにおける戦略的施設配置 [cs.CL, cs.GT]目的：pノルムによる社会的コストを定義する空間における戦略的施設配置問題に関する近似率の保証
- 施設配置は，資源配分における基本的な問題であり，効率的なインフラ整備に不可欠である。
- 多次元空間や一般的なpノルム下における戦略的施設配置の近似率保証は十分には解明されていない。
- 座標ごとの中央値メカニズム(CM)の近似率を厳密に評価し，高次元空間における上限を導出すること。
- 2次元空間において，CMメカニズムの近似比が，GoelとHann-Caruthersの予想を解決する$2^{1 - 1/ \max(p, q)}$であることを示した。
- 3次元以上の空間において，任意のpノルムに基づく社会的コストに対するCMメカニズムの近似比の上限を導出した。
- 次元に関わらず，CMメカニズムの近似比は3を超えないことを示した。
Link: https://arxiv.org/abs/2606.12187
DynaTok：部分点群からの4次元再構成 [cs.CV]目的：部分点群シーケンスからの4次元再構成
- 点群データは，ロボット工学や自動運転など，様々な分野で利用されており，その重要性は高い。
- 部分的な点群データからの再構成は，観測データの欠損や時間的な対応関係の不明確さから困難である。
- DynaTokは，画像を用いずに，部分的な点群シーケンスから時間的に一貫性のある4次元点群を再構成する。
- DynaTokは，フレームをコンパクトな潜在トークンにエンコードし，Transformerを用いて時空間エンコーディングを行う。
- 残差トークンにより幾何学と運動を分離し，フローマッチングデコーダを用いて4次元点群を再構成する。
- 物体およびシーンレベルのベンチマークテストにおいて，部分的な点群データからの再構成品質と時間的な一貫性の向上が示された。
Link: https://arxiv.org/abs/2606.12189
InternVideo3：マルチモーダル文脈推論による基盤モデルの能力拡張 [cs.CV]目的：マルチモーダル文脈推論による基盤モデルの拡張
- 基盤モデルは多段階推論やツール利用といったエージェント的行動を可能にする重要な技術である。
- 既存のオープンソース研究はテキスト中心であり，長期にわたるマルチモーダルタスクは未開拓である。
- 動画理解における持続的な時間的理解と反復的なインタラクションを可能にすることを目的とする。
- InternVideo3は，観察，指示，推論，ツールアクション，記憶を含む共有される進化する文脈を通じてマルチモーダル文脈推論（MCR）を実現する。
- MCRは，長編動画理解を証拠の蓄積と検証として捉え，効率的なKVキャッシュ圧縮機構M^2LAを導入している。
- Video-MME，MLVU，EgoSchemaなどのベンチマークで優れた性能を示し，動画エージェントとしての堅牢な証拠に基づいた行動を実証した。
Link: https://arxiv.org/abs/2606.12195
SHERPA：シームを考慮した調和的ERP適応による全方位360°パノラマ生成 [cs.CV]目的：全方位360°パノラマ生成のための軽量適応フレームワーク
- 世界生成，ゲーム，シミュレーション等でパノラマ画像の利用が増加しており，高品質な画像生成が求められている。
- 既存の画像生成モデルは平面画像で学習されているため，全方位パノラマ特有の位相ずれや極地域での歪みが生じやすい。
- 全方位パノラマの位相ずれを解消し，多様なスタイルに対応した高品質な画像生成を実現する。
- SHERPAは，周波数選択的Circular RoPE，Circular Latent Encoding/Decoding，FFNアダプター，デュアルパス学習スキームを組み合わせることで，全方位360°パノラマの生成を可能にする。
- Circular RoPEは，高周波水平RoPE帯域のみを整数周期の調和関数に置き換えることで，位相ずれを抑制し，事前学習済みの低周波スペクトルを維持する。
- Paired Panorama PathとUnpaired Style Pathを組み合わせることで，写実的なパノラマと，ターゲットフリーのスタイライズされたプロンプトの両方に対応した高品質なパノラマ生成を実現した。
Link: https://arxiv.org/abs/2606.12213
仮想現実ゲームにおけるサイバーシックネスの原因特定：記号的機械学習アルゴリズムの利用 [cs.HC, cs.GR]目的：仮想現実ゲームにおけるサイバーシックネスの原因のランキング
- 仮想現実技術は教育，軍事，娯楽，医療など多岐にわたる分野で普及が進んでおり，その重要性が増している。
- 高い没入感を提供する一方で，サイバーシックネスという不快感を引き起こす可能性があり，快適な利用を妨げている。
- 記号的機械学習を用いてサイバーシックネスの原因を特定し，その影響度を明らかにすることで，対策に繋げる。
- フライトゲームでは回転と加速が，レースゲームでは回転と加速がサイバーシックネスをより頻繁に引き起こすことが示された。
- VR経験が少ない被験者ほど不快感を抱きやすく，VR経験がサイバーシックネスに影響を与えることが明らかになった。
- 短時間と長時間のVR体験で異なる原因が不快感を引き起こすことが示唆され，それぞれに対する軽減策が提案された。
Link: https://arxiv.org/abs/2606.12214
MLT-Dedup：マルチレベル表現と空間的・時間的マッチングによる大規模オンライン動画重複排除 [cs.CV, cs.IR, cs.LG]目的：オンラインプラットフォームにおける動画の重複排除
- 動画コンテンツの急増に伴い，ストレージコストや帯域幅の浪費が深刻化している。
- 限られたインデックス予算内で十分な候補を検索することと，効率性と精度とのトレードオフが課題である。
- マルチレベル表現と空間的・時間的マッチングにより，効率的かつ高精度な重複排除を実現すること。
- MLT-Dedupは，オンラインでの重複率を91％削減し，90％の精度を達成した。
- スパース検索設計により，インデックス容量が5倍に増加し，より広範な候補をカバーすることが可能となった。
- マルチレベル動画エンコーダと差分特徴量強化類似性モジュール(DiF-SiM)が，効率的かつ正確な重複検出に貢献している。
Link: https://arxiv.org/abs/2606.12215
フォアサイトを実用化する：ワールドアクションモデルにおける表現アライメントの再利用 [cs.CV, cs.AI, cs.RO]目的：ロボット操作のための将来のシーン進化モデリングと制御行動の生成
- ロボットの自律的な操作能力向上は，製造業や物流などの分野で不可欠である。
- 視覚的に妥当な未来予測が可能でも，正確な行動抽出が保証されないという課題がある。
- 視覚再構成に最適化された表現と，低レベル行動制御に適した表現の不一致を解消する。
- AGRAは，ワールドアクションモデルの表現をより行動に結び付け，物体位置の特定精度とアフォードンス理解を向上させる。
- AGRAは，タスクに関係のない領域の摂動に対するロバスト性を高め，分布内および分布外の汎化性能を改善する。
- AGRAは，中間ビデオ拡散特徴と，基盤となる視覚エンコーダからの空間的に一貫性のある意味表現とのアライメントによって，ワールドアクションインターフェースを正則化する。
Link: https://arxiv.org/abs/2606.12217
フード・水資源ネクサスにおける休耕地検出のためのPrithvi-EOの適応：ViT-Adapterネックとパラメータ効率的なバックボーン調整 [cs.CV, cs.AI]目的：フード・水資源ネクサス最適化のための休耕地の空間分布把握
- フード・水資源の効率的な利用は重要であり，その最適化には作物の輪作や水資源保全における休耕地の役割理解が不可欠である。
- USDA Cropland Data Layerにおける休耕地クラスの精度が低いことが課題となっている。
- 汎用的な地理空間基盤モデルPrithvi-EOを用いて，休耕地の検出精度向上を目指す。
- Lite ViT-Adapterとワンステージヘッドの組み合わせにより，Diou損失を用いたmAP@50で0.9479を達成し，中心点に基づいた局所化が不整形な休耕地の検出に有効であることが示された。
- LoRA下でのViT-Adapterフリーワンステージ検出は，アンカーベースアプローチを6.42%向上させ，最良の構成はベースラインアンカーベースアプローチを25.70%向上させた。
- 軽量な空間事前融合と選択的なバックボーンのアンフリーズにより，Prithvi-EOは局所的な休耕地のパターンを効果的に捉え，単一ストライドViTトークンを再構築するアプローチを上回ることが示された。
Link: https://arxiv.org/abs/2606.12218
電気ポテンシャル増強型ベンチマークデータセット：物理に基づいた電気容量断層撮影画像再構成 [cs.CV, eess.IV]目的：電気容量断層撮影(ECT)の画像再構成のためのベンチマークデータセット
- ECTは非侵襲的な計測技術であり，工業プロセスや生体イメージングへの応用が期待されている。
- 既存の深層学習手法は，センサをブラックボックスとして扱っており，物理法則の活用が不十分である。
- ECTにおける潜在的な物理現象である電気ポテンシャル場をデータセットに組み込み，物理に基づいた機械学習を促進する。
- 本研究で提案するデータセットは，従来のデータに加えて，電気ポテンシャルマップの情報を含んでいる。
- 実験により，電気ポテンシャルマップの包含が，モデルの精度とロバスト性を向上させることが示された。
- 物理法則の統合を容易にする標準化された基盤を確立し，ECT画像再構成の未来の研究を支援する。
Link: https://arxiv.org/abs/2606.12226
自律運転システムの設計とエージェントのスケジューリング [cs.CL, cs.AR, cs.RO, cs.CV]目的：自律運転システム設計とスケジューリングの自動化
- 自動運転は，安全性向上や効率化に貢献し，社会変革をもたらす重要な技術である。
- 新しいモデルの統合には手間がかかり，リアルタイム制約を満たす動的なスケジューリングが課題である。
- システム設計とリアルタイムスケジューリングを統合し，継続的な運用を可能にするフレームワークを構築する。
- DrivingAgentは，システムアーキテクチャを解釈し，コード生成とスーパーネットワークによるモジュール検証を自動化する。
- 軽量なLLMと強化学習による動的なモジュール編成により，リアルタイム性能と精度を両立している。
- nuScenesとBench2Driveのベンチマークにおいて，優れた速度と精度のトレードオフを実現した。
Link: https://arxiv.org/abs/2606.12236
Damage-TriageFormer：単一時点画像からの建物損傷類型に基づく被害状況評価のための基盤モデルフレームワーク [cs.DC, cs.IR, cs.CY, cs.CL, cs.CV]目的：建物損傷の類型化に基づく被害状況評価
- 災害後の資源配分と復旧において，迅速な建物被害評価は不可欠である。
- 既存手法は被害を単純な段階評価に留めるか，入手困難な災害前後の画像ペアを必要とする。
- 単一の災害後の画像から，建物損傷の類型を特定し，的確な緊急対応を支援する。
- 提案手法Damage-TriageFormerは，単一画像から建物損傷の類型を推定し，実運用における緊急トリアージのニーズに応える。
- 新たに構築したベンチマークDamageTriage-Benchを用いて評価した結果，マクロF1スコアは0.624（検証），0.619（テスト）を達成した。
- 特に，損傷なし建物と構造完全崩壊のクラスにおいて高い精度（それぞれ0.91，0.84）を示した。
Link: https://arxiv.org/abs/2606.12248
昼夜間の橋渡し：相乗的なプロンプトとプロトタイプ学習による教師なしクロスドメイン再識別 [cs.CV]目的：昼夜間のクロスドメイン再識別における同一人物の関連付け
- 監視カメラ技術の発展に伴い，昼夜問わず人物を正確に識別する需要が高まっている。
- 昼夜間の画像には視覚的な差異が大きく，従来の再識別手法では性能が低下しやすい。
- 教師なし学習により，ラベル付けのコストを削減し，汎化性能の高い再識別システムを実現することを目指す。
- 提案手法は，プロンプト学習とプロトタイプ学習を組み合わせることで，ラベルなしの昼夜間の画像を関連付ける。
- 2段階の学習戦略を採用し，まずビジョン言語モデルを用いてインスタンス固有のテキストプロンプトを生成する。
- 実験結果から，提案手法は教師ありの手法と同等のRank-1精度を達成することを示した。
Link: https://arxiv.org/abs/2606.12258
VOID：潜在拡散モデルにおける不正な模倣の阻止 [cs.CV]目的：潜在拡散モデルにおける個人の不正な模倣に対する防御
- 画像生成技術の高度化に伴い，個人のプライバシー保護が重要課題となっている。
- 潜在拡散モデルは模倣攻撃に対して脆弱であり，既存の防御策は効果が限定的である。
- モデルの確率的性質を操作することで，より強固な防御を実現し，不正な模倣を阻止することを目指す。
- VOIDは，潜在拡散モデルの内部確率性を操作することで，画像の意味構造を破壊し，不正な模倣を抑制する。
- 特筆すべきは，防御による視覚的な品質劣化を最小限に抑えつつ，高いセキュリティ性能を実現している点である。
- 実験結果から，VOIDは既存の防御策を大幅に上回り，Frechet Inception Distance (FID) を223%改善した。
Link: https://arxiv.org/abs/2606.12263
単一の学習サイクルによるプログレッシブな大きさに基づく剪定による疎なサブネットワークの発見 [cs.CV, cs.LG]目的：ニューラルネットワークの疎化
- モデルのサイズ削減は，計算資源の節約や推論速度の向上に不可欠である。
- 既存の剪定手法は，複数回の学習サイクルが必要であり，計算コストが高いという課題がある。
- 単一の学習サイクルで効率的に疎なサブネットワークを発見すること。
- 提案手法は，CIFAR-10においてResNet-18で72.9％の疎さで95.12％の精度を達成し，LTHの90.5％を上回った。
- 極端な疎さにおいても，VGG系アーキテクチャで97％の疎さで93.13％，VGG-19で97.97％の疎さで93.44％の精度を達成し，SNIPやGraSPを上回った。
- ResNet-18における疎さ-精度分析では，70〜85％の疎さにおいて，密なベースラインの精度との差が0.1％以内であることが示された。
Link: https://arxiv.org/abs/2606.12278
ピアノコンテクスト：無表現な文脈からの表現力豊かな演奏生成 [cs.SD, cs.LG]目的：表現力豊かな演奏生成
- 音楽表現の自動生成は，作曲や演奏支援など，様々な応用可能性を秘めている。
- 既存モデルは，一定長の音楽サンプルしか扱えず，表現豊かなタイミングの理解が課題であった。
- 学習データ生成にDTWを用いることで，楽譜と演奏の依存関係を効率的に学習することを目指す。
- PianoKontextは，事前学習済みのMusic2Latentモデルの潜在空間で可変長の演奏を生成する。
- 楽譜を無表現な音声に合成し，潜在空間でのDTWによりペアデータを作成することで，学習を実現した。
- DiTブロックを用いることで，楽譜と演奏間の依存関係をシンプルかつ効果的に学習した。
Link: https://arxiv.org/abs/2606.12282
CellNet -- 疎なノイズのある点注釈を用いた細胞局在化 [cs.CY, cs.CV]目的：細胞数自動カウント手法
- 生物学研究において，細胞数の正確な計測は不可欠であり，特に大規模スクリーニングにおいて重要である。
- 従来の細胞数計測は手作業に頼ることが多く，時間と労力を要する課題があった。
- 少ない点注釈のみで効率的に細胞数をカウントする手法を開発し，アノテーションコストを削減する。
- 回帰ベースの深層学習アルゴリズムにより，位相差顕微鏡画像から細胞を高精度に検出・カウントすることが可能となった。
- 少量データ環境下において，最先端のゼロショット法と比較して，回帰ベースのカウント手法が有望な代替手段となることが示された。
- 本研究は，人間のゲノムに関する貴重な研究に貢献し，細胞数自動カウントの効率化を実現する。
Link: https://arxiv.org/abs/2606.12286
法医学的画像検索におけるモダリティギャップの架橋 [cs.CL, cs.CV, eess.IV]目的：法医学的画像検索のための統一的な検索フレームワーク
- 現代の法医学捜査において，効率的な画像検索は証拠比較の基盤であり，捜査の効率化に不可欠である。
- 既存研究は多種多様な現実世界のシナリオにおける法医学的応用可能性の評価に十分な注意を払っていない。
- 限られた情報やノイズを含む状況下での検索精度と堅牢性を向上させ，捜査を支援する。
- マルチモーダル大規模言語モデルを活用し，画像とテキストを統合することで，検索精度が向上した。
- 特に，スケッチや部分的なタトゥーなど，視覚情報が限られる状況下で，その効果が顕著であった。
- 本研究は，タトゥー，顔の合成写真，証言などの法医学的捜査におけるマルチモーダル検索の有用性を示した。
Link: https://arxiv.org/abs/2606.12294
MAGMaR 2026 共有タスクの結果 [cs.CV, cs.CL, cs.IR]目的：マルチモーダル検索と記事生成の性能評価
- 動画とテキストの融合は，情報検索やコンテンツ生成の精度向上に不可欠である。
- マルチモーダルな情報検索と生成において，既存手法は十分な性能を発揮していない。
- 検索と生成の両タスクにおいて，最新の性能を評価し，改善の方向性を示す。
- 動画検索タスクにおいて，全チームが昨年度の優勝システムを上回る性能を示した。
- 記事生成タスクにおいて，全てのチームが少なくとも1つ，人間による評価で最良と判断されたレポートを生成した。
- マルチモーダルな情報処理技術の進展が確認された。
Link: https://arxiv.org/abs/2606.12295
長時間の動画における自然言語による時間的 groundedness は探索問題である：ベンチマークと経験的分解 [cs.CV, cs.AI]目的：長時間動画における自然言語クエリに対する時間的 groundedness の実現
- 動画理解において，自然言語による指示に基づいた時間特定は重要な課題である。
- 従来の動画 groundedness 研究は短時間の動画に偏っており，長時間動画への適用が課題であった。
- 本研究は，長時間動画における groundedness のボトルネックが検索にあることを検証し，解決を目指す。
- 大規模な長時間動画ベンチマーク「ExtremeWhenBench」を公開し，既存の Video-LLM の性能限界を示した。
- Video-LLM の失敗原因の多くが検索能力の不足に起因すること，そして検索と groundedness を組み合わせることで大幅な性能向上が得られることを明らかにした。
- 本研究の結果は，オープン領域質問応答における retrieve-then-read と同様に，retrieve-then-ground が効果的であることを示唆する。
Link: https://arxiv.org/abs/2606.12300
2Dグリッドから1Dトークンへ：マルチモーダル画像融合のための共有表現の再構築 [cs.CV]目的：マルチモーダル画像融合における共有表現の再構築
- 画像処理において，異なるモダリティの情報を統合し，より高精度な分析や認識を目指すことが重要である。
- 従来の画像融合手法では，局所構造のモデリングに優れる2D特徴グリッドに依存し，大域的な外観要素の活用が限定的である。
- 本研究は，局所性と大域性のバランスを取り，より優れた画像融合を実現するための新たな共有表現を提案する。
- 凍結された事前学習済み画像トークナイザーに基づくコンパクトな1Dトークンインターフェースを導入し，非局所的な大域的要素をモデル化した。
- Selective Token Editing (STE)により，少数の重要なトークンを更新/置換することで，大域的な一貫性を軽量に制御し，融合バックボーンを維持する。
- 4つのベンチマークにおいて，提案手法が全体的な性能で優れ，大域的な一貫性と局所的な忠実度において一貫した改善が見られた。
Link: https://arxiv.org/abs/2606.12303
スロット，遷移，ループ：ARCのための構成可能なワールドモデルの学習 [cs.RO, cs.CV]目的：ARC課題における文脈内ルール誘導の学習
- 視覚記号的推論は，AIの汎用的な問題解決能力にとって重要である。
- 既存手法では，複雑なルールを言語やコードで表現することに限界がある。
- 視覚記号的ワールドモデルとしてルールを学習し，推論能力の向上を目指す。
- Loop-OWMは，ARC-1およびARC-2において，既存のベースラインモデルを上回る性能を示した。
- 学習可能なスロット，タスク概要，ループ化された遷移モデルがその性能に貢献している。
- ARCルールは，言語やコードだけでなく，視覚記号的ワールド状態の遷移としても学習可能である。
Link: https://arxiv.org/abs/2606.12316
解剖学的条件に基づいた再帰的洗練によるトポロジーを意識したウィリス輪のセグメンテーション [cs.CV]目的：ウィリス輪のセグメンテーションにおける精度向上
- 脳血管異常の診断や治療計画において，ウィリス輪の正確な構造把握が不可欠である。
- 複雑なトポロジーと脆弱な血管構造により，従来の画像処理手法ではセグメンテーションが困難である。
- トポロジー的制約を考慮したセグメンテーション手法を開発し，血管の断裂といったアーチファクトを軽減する。
- AC2RUNetは，従来のnnU-Netと比較して，ハウスドルフ距離を大幅に低減した（4.72mm vs 9.17mm）。
- ベティ数の誤りも大幅に減少（0.19 vs 0.40）し，トポロジー的接続性が向上した。
- 体積ベースのDice係数はnnU-Netと同程度に維持された。
Link: https://arxiv.org/abs/2606.12319
高速SDE：残響環境における単一マイクロホン音源距離推定 [cs.SD, cs.RO]目的：残響環境下での単一マイクロホンによる音源距離推定手法
- 人間とロボットのインタラクションにおいて，音源距離の推定は重要な技術である。自然で快適な対話を実現するためには不可欠。
- 従来の音源距離推定はマイクロホンアレイに依存し，ハードウェア同期やキャリブレーションに手間がかかる。小型ロボットへの実装が困難。
- 計算資源や空間制約のあるロボットプラットフォームに適用可能な，軽量な単一マイクロホンSDEフレームワークを開発する。
- 提案手法Fast-SDEは，周波数軸を複数のサブバンドに分割することで計算量を削減し，低リソース環境での推定を可能にした。
- サブバンドエンコーダを用いて，各サブバンドの特徴量を抽出・統合し，音響構造と時間周波数パターンの関係を学習した。
- シミュレーションと実環境実験の結果，提案手法は高い精度で音源距離を推定できることが示された。
Link: https://arxiv.org/abs/2606.12339
過去の残響：忘却の計算現象学 [cs.CV]目的：忘却の主観的現象学の可視化
- 記憶は現実の基盤であり，その機能不全は世界認識に深刻な影響を及ぼす。
- 脳の予測的事前知識の喪失に伴う体験は，未だ十分に解明されていない。
- ニューロモルフィックな美学を通じて，知性の脆弱性を可視化する試み。
- フィードフォワード3D再構成モデル内で制御されたシナプス減衰を誘導することで，脳の予測的事前知識の浸食を芸術的に表現した。
- ニューラルネットワークを工学的ツールではなく，認知的なプロキシとして位置づけ，世界との繋がりを失う体験を再現した。
- 本研究は，ニューロモルフィックな美学における新たな可能性を模索するための触媒となることを目指す。
Link: https://arxiv.org/abs/2606.12340
Atlas H&E-TME：専門病理医レベルの精度を持つスケーラブルなAIベース組織プロファイリング [cs.CV, cs.AI, cs.LG]目的：ヘマトキシリン・エオジン染色組織標本画像の大規模かつ定量的な解析
- 病理診断において，ヘマトキシリン・エオジン染色が基本的な手法である。
- ヘマトキシリン・エオジン染色標本画像の定量解析には，スケーラビリティと精度の課題が存在する。
- AI技術を用いて，組織環境の定量的評価を可能にし，新たなバイオマーカー開発に貢献する。
- Atlas H&E-TMEは，多様な癌種において，細胞レベルでの4,500以上の定量的なデータを提供できる。
- IHCに基づく多病理医コンセンサスプロトコルにより，従来のH&Eのみの評価におけるrater間一致度を向上させた。
- Atlas H&E-TMEは，病理医のH&Eのみの評価と同等またはそれ以上の性能を示し，広範な組織学的・技術的範囲で汎用性がある。
Link: https://arxiv.org/abs/2606.12346
DepthMaster：パースペクティブ画像とパノラマ画像のための統一的な単眼深度推定 [cs.RO, cs.CV]目的：パースペクティブ画像および360度パノラマ画像の両方に対する汎化されたメトリック深度推定
- 単眼深度推定は進展してきたが，多様な環境での汎化性能が課題である。
- パースペクティブ画像とパノラマ画像の幾何学的差異や，パノラマデータの不足が問題である。
- パノラマ画像をパースペクティブパッチに分解し，幾何学的差異を解消することを目指す。
- DepthMasterは，パノラマ画像を重複するパースペクティブパッチに分解する。
- Correspondence Consistency Loss (CCL)と仮想投影カメラを利用し，境界処理を最適化する。
- 13種類のデータセットで最先端のゼロショット性能を示し，汎用モデルや専門モデルを上回る。
Link: https://arxiv.org/abs/2606.12368
物体検出とインスタンスセグメンテーションのためのターボ推論戦略 [cs.CV]目的：物体検出とインスタンスセグメンテーションの精度向上
- 物体検出とインスタンスセグメンテーションは，コンピュータビジョンの重要な課題であり，様々な応用分野で活用されている。
- 従来の検出・セグメンテーション手法では，検出精度がセグメンテーション性能に大きく影響する点が課題であった。
- 検出とセグメンテーションの相互作用を活用し，両タスクの精度を同時に向上させることを目指す。
- 提案手法は，検出とセグメンテーションを反復的に連携させることで，両タスクの精度を大幅に向上させる。
- COCO，iFLYTEK，Cityscapesデータセットにおける実験により，その有効性が実証された。
- 計算コストの増加を伴うものの，予測精度と推論速度のトレードオフを達成する。
Link: https://arxiv.org/abs/2606.12371
水中マルチヒューマン・ロボット協調のための意味的認識ダイバー活動認識フレームワーク [cs.CL, cs.RO, cs.CV]目的：ダイバー活動の認識
- 水中環境は危険であり，人間の活動範囲拡大にはロボットとの協調が不可欠である。
- 水中環境の視界が悪く，ロボットがダイバーの活動を正確に認識することが困難である。
- ダイバーの活動を理解し，安全を確保するための知能的なロボットシステムの開発を支援する。
- 本研究で開発したDAR-Netは，Transformerを用いたフレームワークで，水中シーンからダイバーの活動を認識する。
- 意味的なガイダンスによる学習とピクセルレベルのシーン監視を組み合わせることで，低視界下でも高い認識精度を実現した。
- 新たに構築した水中ダイバー活動(UDA)データセットを用いて実験を行い，最先端モデルを上回る性能を実証した。
Link: https://arxiv.org/abs/2606.12374
照明ロバストなカメラベース心拍数推定：ロボットにおける生理的センシングへ [cs.CV, cs.AI]目的：照明変動下におけるリモート心拍数推定の精度向上
- サービスロボット等において，人間の生理状態を把握することは，より自然なインタラクションを実現する上で不可欠である。
- 従来の非接触式心拍数推定は，照明条件の変化に大きく影響を受け，安定した性能を発揮できないという課題があった。
- 本研究は，照明変動に強い心拍数推定システムを開発し，ロボットが多様な環境で利用できるようになることを目指す。
- 提案手法は，PRNetを用いた3次元顔面整列，クリップレベルの照明オーギュメンテーション，残差時間標準化モジュール，および周波数領域での制御されたハイブリッド教師あり学習を統合している。
- 実験結果から，最適な重み係数β=5において，心拍数MAEが0.79 bpm，相関係数が0.982と高い精度を達成した。
- 既存のPhysFormerと比較して，MAEを93.6%削減し，相関係数を0.088から0.982に向上させ，照明変動下でも利用可能なシステムを実現した。
Link: https://arxiv.org/abs/2606.12378
VLGA：自律運転のためのビジョン・言語・幾何学・行動モデル [cs.CV, cs.RO]目的：自律運転における，ビジョン，言語，幾何学，行動を統合したモデルの開発
- 自動運転技術は，移動の効率化や安全性向上に不可欠であり，社会実装が期待されている。
- 既存のビジョン・言語・行動モデルは，3次元空間との連携が弱く，現実世界の正確な把握に課題がある。
- LiDARによる点群データを用いて，モデルに3次元空間の幾何学的情報を効果的に学習させる。
- VLGAは，nuScenesデータセットにおいて，エゴモーション情報なしで既存のビジョン・言語・行動モデルを上回る性能を達成した。
- 特に，L2誤差は0.50m，3秒以内の衝突率は0.18%であり，いずれも最低値を記録した。
- また，Bench2Driveデータセットにおけるクローズドループ評価では，最高のドライビングスコア79.08を達成し，既存モデルを0.71上回った。
Link: https://arxiv.org/abs/2606.12396
具現化プランナーにおけるテスト時計算資源の割り当て：いつ，どこに資源を配分すべきか [cs.CL, cs.IR, cs.RO, cs.AI, cs.CV]目的：具現化プランナーにおけるテスト時計算資源の最適な割り当て戦略
- ロボット工学において，環境を理解し行動計画を立てる能力は重要であり，VLMsはその実現に貢献し得る。
- テスト時計算資源の増強は，レイテンシ，トークン使用量，計算コストを増加させ，効果が限定的になりやすい。
- マルチモーダルなシーンコンテキストに基づき，計算資源を動的に割り当てることで，性能とコストのバランスを最適化する。
- DIRECTは，固定モデル選択と比較して，成功-コストのパレート最適解を改善するルーティングフレームワークである。
- 実験の結果，テスト時計算資源は均一なものではなく，思考連鎖の深さ，モデルサイズ，メモリ履歴など，軸によって効果が異なることが示された。
- 実機Frankaアームでの実験では，DIRECTはより高性能なモデルと同等の成功率を，平均レイテンシを最大65%削減して達成した。
Link: https://arxiv.org/abs/2606.12402