arXiv雑要約

画像・音声 - 2026/06/05 公開

  • この編集は正しいか? 推論を意識した画像編集のための多次元ベンチマーク [cs.HC, cs.CV]目的:推論を意識した画像編集システムの評価
    • 画像編集技術は,指示に従った高品質な画像を生成する点で目覚ましい進歩を遂げている。
    • 既存システムは表面的な指示に従うのみで,文脈上の制約を推論できない場合がある。
    • 論理的な整合性を損なうことなく,より高度な画像編集を実現すること。
    • RE-Editベンチマークは,物理,環境,文化,因果,参照といった五つの推論次元でシステムを評価する。
    • 既存の画像編集モデルは,高品質な画像を生成する一方で,多次元的な推論において課題を抱えていることが示された。
    • 明示的な推論を組み込むことで,モデルに依存しない形でエラーを軽減できる可能性が示唆された。

    Link: https://arxiv.org/abs/2606.05172

  • Drishti AI-Event Guardian:大規模集会のリアルタイム群衆監視と緊急対応システム [cs.CY, cs.CV, cs.LG]目的:大規模集会における群衆の安全管理と緊急時対応の向上
    • 大規模イベントは人命に関わる事故が多発する。安全なイベント運営のためには,群衆の動向把握が不可欠である。
    • 従来の監視システムは知能的な分析機能に乏しく,脅威の特定や適切な資源配分が遅れる場合がある。
    • 本研究は,AIを活用し,大規模集会における群衆の安全管理と緊急時対応を迅速化・高度化することを目的とする。
    • リアルタイム群衆密度推定において,平均絶対誤差3.2人/m2を達成し,高い精度を実証した。
    • 異常検知ではF1スコア0.91,顔認識の適合率は0.93と高く,迅速な脅威検出が可能であることを示した。
    • チャットボットはインシデント報告の89%をオペレーターなしで解決し,警備員の再配置時間を34%削減した。

    Link: https://arxiv.org/abs/2606.05185

  • Flash-WAM:モダリティ認識型蒸留によるワールドアクションモデルの高速化 [cs.LG, cs.CV, cs.RO]目的:ワールドアクションモデルの推論ステップ数を削減し,リアルタイム制御を可能とする手法
    • ロボットの操作計画において,将来の映像と行動を同時に生成するワールドアクションモデルは重要である。
    • 既存のステップ蒸留法は,映像と行動ストリームのノイズスケジュールが異なるため,ワールドアクションモデルには適用が難しい。
    • モダリティに応じた蒸留関数を選択することで,この非対称性を克服し,推論速度を向上させることを目指す。
    • Flash-WAMは,各モダリティのノイズ特性に合わせた蒸留関数を用いることで,推論ステップ数を大幅に削減できる。
    • RoboTwin 2.0において,推論時間を8.1秒から348msへと23倍高速化し,リアルタイム推論を実現した。
    • シミュレーションおよび実ロボット実験において,タスク成功率を維持し,従来の蒸留法と比較して大幅な性能向上を示した。

    Link: https://arxiv.org/abs/2606.05254

  • VideoKR:知識と推論を重視した動画理解への取り組み [cs.CV]目的:知識と推論を必要とする動画理解能力を強化するための大規模学習コーパス
    • 動画理解は,AIの重要な応用分野であり,様々なタスクへの展開が期待される。
    • 既存の動画理解モデルは,知識や推論を必要とする複雑なタスクにおいて性能が低い。
    • 知識と推論能力を向上させるための,高品質な学習データの不足を解消することを目指す。
    • 新たに構築した大規模データセットVideoKRを用いてモデルを学習させた結果,知識を要する動画推論において既存手法を上回る性能が確認された。
    • VideoKRは,一般的な動画推論タスクにおいても競争力のある性能を維持していることから,データ設計の重要性が示唆される。
    • 詳細な実験により,VideoKRの有効性と,今後の研究への示唆が得られた。

    Link: https://arxiv.org/abs/2606.05259

  • 可変フォント生成のためのニューラル軸変動 [cs.CV, cs.AI, cs.LG]目的:静的フォントから完全に機能する可変フォントへの自動変換
    • 可変フォントは,文字の形状を連続的に変化させ,多様なデザインニーズに応えることが可能であるため重要である。
    • 静的フォントから可変フォントを構築するには,専門的なタイポグラフィの知識と手作業によるデータ指定が必要であり,労力がかかる。
    • 本研究では,静的フォントから自動的に可変フォントを生成することで,この課題を解決することを目指す。
    • 提案手法NIVは,ベクター形式の文字形状に対して,複数の軸間の相互作用を捉えるProperty Embeddingメカニズムを用いて,点ごとの変位を予測する。
    • NIVは,Google Fontsの可変フォントから構築したデータセットで学習し,未知の文字コードや複雑なCJK文字に対しても高い汎化性能を示す。
    • 生成された出力は,既存のレンダリングエンジンで連続的な補間をサポートする標準的な可変フォントファイルとして利用可能である。

    Link: https://arxiv.org/abs/2606.05261

  • LLMベースの弱検証器の集約による空間レイアウト生成 [cs.GR, cs.LG]目的:空間レイアウトドメインにおける強検証器の構築と集約
    • 空間レイアウトは,ロボット工学やデザインなど幅広い分野で重要であり,自動化のニーズが高い。
    • 既存手法では,自然言語によるタスク記述とレイアウトの一致判定が難しく,精度向上が課題である。
    • LLMを活用し,複数の弱検証器を集約することで,高精度な検証器を効率的に構築することを試みる。
    • LLMが生成した複数の弱検証器を集約することで,従来のLLM直接判定手法と比較してF1スコアを最大7倍向上させた。
    • わずか10件の人手ラベリングデータを用いて,弱学習技術により効果的な検証器の集約を可能にした。
    • 強検証器によるフィードバックを用いたレイアウト生成により,ベースレイアウトジェネレーターの品質を最大66.2%向上させた。

    Link: https://arxiv.org/abs/2606.05268

  • カメラロールに対するパーソナルAIエージェント [cs.CV, cs.AI]目的:パーソナルカメラロールの視覚的質問応答
    • 個人の写真データは,思い出や経験の重要な記録であり,その活用が求められている。
    • カメラロールのデータ量は膨大であり,関連情報の効率的な検索が困難である。
    • パーソナルな視覚情報を理解し,長期間にわたるユーザーのコンテキストを考慮した質問応答を目指す。
    • camrollデータセットは,50人のユーザー,31,476枚の画像,2,500組のQAペアを含む。
    • camroll-agentは,階層的なメモリと効率的なナビゲーションツールを備えたAIエージェントである。
    • camroll-agentは,既存の長文コンテキスト理解AIエージェントを上回る性能を示した。

    Link: https://arxiv.org/abs/2606.05275

  • モデルは安全性の表現を共有するか?安全な画像生成のためのクロスモデル操縦 [cs.CV, cs.AI, cs.MM]目的:異機種の生成モデル間での安全性の転移可能性
    • 生成モデルの進歩に伴い,安全性の制御は重要な課題となっている。
    • 既存のアプローチはモデル固有であり,新しいアーキテクチャごとに再学習や調整が必要である。
    • ターゲットモデルに危険なデータを使用せずに安全性を転移させる方法を模索する。
    • 異なるモデルペアにおいて,転移された安全性方向は,ターゲットモデル上でネイティブに学習された方向と同等のASR削減とCLIP-Score/FIDのトレードオフを実現した。
    • ターゲット側の危険なデータを使用することなく,安全性の向上が生成品質を損なわないことが示された。
    • 安全性に関する行動はモデル固有ではなく,モデル間で持続する潜在方向を通じて制御可能であることが示唆された。

    Link: https://arxiv.org/abs/2606.05290

  • 物理の不可視の手:ビデオ拡散モデルが示す以上の知識 [cs.GR, cs.AI, cs.CV, cs.LG]目的:ビデオ拡散モデルにおける物理構造の符号化
    • 現実的な動画生成は,世界シミュレーターとしての応用を促進する。
    • モデルが物理構造を内部的に符号化しているか,単に学習した動きを再現しているか不明。
    • 拡散モデルの潜在軌跡を分析し,物理的妥当性の情報を抽出する。
    • 拡散トランスフォーマーの状態から物理的妥当性を線形的に復号可能であることが示された。
    • IntPhysとInfLevelにおいて,平均精度は約81.27%に達し,V-JEPAやVideoMAEなどの基盤モデルを上回った。
    • この信号はVAEの潜在入力にはなく,自己教師あり予測目的で訓練されていないにもかかわらず,ノイズ除去トランスフォーマー内で出現する。

    Link: https://arxiv.org/abs/2606.05328

  • TopoPult-SSL:弱臨床事前知識によるデバイス間眼瞼腺分割(腺マスク不要) [cs.CL, cs.CV]目的:眼瞼腺のデバイス間分割技術の開発
    • 眼瞼腺機能不全(MGD)は,ドライアイの主要な原因であり,早期発見が重要である。
    • 異なる臨床画像装置間では,ドメインシフトが発生し,正確な眼瞼腺分割が困難である。
    • 高価な腺マスクを用いずに,容易に入手可能な臨床データを用いて分割精度を向上させる。
    • 提案手法TopoPult-SSLは,ターゲット装置の眼瞼マスクと臨床データのみを用いて,教師なし学習で初期モデルを適応させる。
    • 学習後,ターゲットの腺マスクが利用可能な場合は,自己蒸留によりコンパクトなモデルを構築する。
    • MGD-1kデータセットでの評価において,Dice係数0.716を達成し,既存手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2606.05347

  • LightVesselNet:10万パラメータ以下の超軽量な網膜血管セグメンテーションネットワーク [eess.SY, cs.SY, cs.CV]目的:網膜血管セグメンテーションのための効率的なニューラルネットワーク
    • 網膜血管の解析は,糖尿病性網膜症や緑内障などの早期発見に不可欠である。
    • 既存の深層学習モデルは精度が高い一方,計算資源を多く必要とする。
    • エッジデバイスでの実用化を可能にする,軽量なセグメンテーションモデルの開発。
    • LightVesselNetはわずか75Kパラメータで,既存のより大規模なモデルと同等の性能を示す。
    • 5つの公開データセット(DRIVE, STARE, CHASEDB1, FIVES, HRF)で高い感度とDice係数を実現した。
    • 計算効率(性能/パラメータ数またはGFlops)の面で,最先端モデルと比較して優れている。

    Link: https://arxiv.org/abs/2606.05354

  • 単眼ビデオからの物理的に妥当な人間-物体インタラクションの復元 [cs.CV]目的:物理的に妥当な人間-物体インタラクションの復元
    • 人間と物体のインタラクション理解は,ロボット工学やコンピュータビジョンの発展に不可欠である。
    • 既存手法では,見た目は自然でも,貫通や浮遊といった物理的に不自然な現象が発生しやすい。
    • 物理シミュレーションを用いて,より現実的なインタラクションを生成することを試みる。
    • 提案手法RePHOは,強化学習を用いて初期の運動推定を物理シミュレータで再現するように洗練させる。
    • 適応的サンプリング戦略と二重自己更新メカニズムにより,ノイズの多い運動推定でも安定した学習を実現する。
    • 標準的なHOIベンチマークにおいて,最先端手法よりも物理的妥当性の指標で明確な改善を達成した。

    Link: https://arxiv.org/abs/2606.05359

  • 需要モデルは競合価格を組み込むべきか:無意識学習とアルゴリズムによる共謀 [cs.AR, cs.GT, cs.LG, econ.TH, math.OC]目的:需要学習における競合価格のモデル化選択
    • プラットフォーム市場における価格設定戦略は,競争環境下で利益を最大化する上で重要である。
    • 競合価格を無視した場合の需要モデルの誤りや効率性の低下が問題となっている。
    • 競合価格の無視が共謀的な結果を招く可能性を検証し,最適な価格設定戦略を提示する。
    • 競合他社を無視する販売者は,動的な競合情報喪失を補うために,より積極的な価格探索が必要となる。
    • 全ての販売者が競合価格を無視する場合,十分な探索下では競争的な価格に収束するが,探索が減少すると擬似均衡が多数発生する。
    • 競合価格を組み込んだ販売者は,競合価格を無視する販売者よりも収益性が高いことが示された。

    Link: https://arxiv.org/abs/2606.05363

  • 言語モデルベースのテキスト読み上げにおける感情表現制御のためのタスクベクトル演算 [cs.SD, eess.AS]目的:言語モデルを基盤とするテキスト読み上げシステムにおける感情表現制御の可能性
    • 感情豊かな音声合成は,人間と機械のより自然なコミュニケーションを実現する上で不可欠である。
    • 大規模言語モデルに基づくテキスト読み上げシステムでは,感情表現の制御が難しい場合がある。
    • 話者埋め込みベクトル空間における演算によって,感情表現制御の性能向上を目指す。
    • タスクベクトル演算が,モジュール型のテキスト読み上げシステムで有効であることが示された。
    • 話者埋め込みベクトル(x-vector)が,感情的な抑揚の主要な担い手であることが特定された。
    • x-vector空間における重心演算により,英語からブラジルポルトガル語への感情転送が可能となり,性能向上が確認された。

    Link: https://arxiv.org/abs/2606.05367

  • バイオマゾン:アマゾン盆地における3D森林構造とバイオマスモデリングのためのマルチモーダルデータセット [cs.CV]目的:アマゾン盆地における3D森林構造とバイオマスモデリングのためのマルチモーダルデータセット
    • 熱帯林の構造把握は,地球規模の炭素循環や生態系モニタリングにおいて不可欠である。
    • 既存研究では,森林の垂直構造を順序付きプロファイルとして学習する試みが少ない。
    • GEDI RHプロファイルとAGBDを同時に予測するための機械学習ベンチマークを構築する。
    • バイオマゾンは,GEDI RHとAGBDのターゲットと,多様なセンサーデータ(Sentinel-1/2等)を組み合わせた20m解像度のデータセットである。
    • 実験結果から,バックボーンのスケールやモダリティの組み合わせ,補助的な埋め込み表現が予測精度に影響することが示された。
    • バイオマゾンは,熱帯林における構造とバイオマスのモデリングに関する将来の研究のための基準となる。

    Link: https://arxiv.org/abs/2606.05368

  • OCTアンギオグラフィーにおける三次元網膜微小血管構造の復元 [cs.CV, cs.AI]目的:OCTアンギオグラフィー画像の三次元網膜微小血管構造復元アルゴリズムの開発
    • 網膜血管は眼の健康状態を示す重要な指標であり,その正確な評価は様々な眼疾患の診断・治療に不可欠である。
    • OCTアンギオグラフィー画像には,撮像アーチファクトなどが含まれ,正確な血流定量や非灌流領域の特定が困難となる場合がある。
    • 既存手法では三次元血管構造が考慮されておらず,より高精度な血管構造復元が求められている。
    • 提案手法は,従来のOCTアンギオグラフィー画像と比較して,画質評価指標PSNRおよびSSIMを大幅に向上させた。
    • 特に,三次元での血管構造の適合性を示すDice係数は,少なくとも3.8%から51.2%改善された。
    • 本研究により,OCTアンギオグラフィー画像の微小血管構造の定量的な評価精度向上が期待される。

    Link: https://arxiv.org/abs/2606.05375

  • 深層学習支援によるOCTおよびOCTAを用いた加齢黄斑変性(AMD)の病期分類 [cs.CV]目的:OCTおよびOCTAデータを用いた加齢黄斑変性(AMD)の重症度自動分類のための深層学習モデルの開発と評価
    • 加齢黄斑変性は,高齢者の視力低下の主要な原因であり,早期発見と適切な治療が重要である。
    • AMDの病期分類は熟練した専門医の判断に依存しており,客観性と効率性の向上が課題である。
    • OCTおよびOCTAデータから深層学習を用いて,AMDの病期分類を自動化し,診断支援を可能にすること。
    • 深層学習モデルは,参照標準との間で高いAMD病期分類性能を示した(QWK >= 0.83)。
    • バイオマーカーベースのモデルは,全体的な性能が最も高く,初期AMDの検出においても優れていた(QWK = 0.85 +/- 0.03, F1-score = 0.59 +/- 0.14)。
    • 3Dモデルは2Dモデルと同程度の性能を示し,2DモデルはAMDのない眼の識別精度が高かった。

    Link: https://arxiv.org/abs/2606.05379

  • nnAudio 2:動的コンパイルの障壁と変換の不整合の克服 [cs.SD, eess.AS]目的:深層学習のための音声特徴抽出ツールボックスの改良
    • 深層学習における音声分析は,様々な分野で重要性を増しており,その基盤技術の安定性が求められる。
    • 既存のnnAudioは,TorchScriptとの互換性問題や逆変換における問題点,依存関係の変化により利用が制限されていた。
    • 最新のPyTorch環境下での安定性と信頼性の向上,および正確な逆変換の実現を目指す。
    • STFTおよびiSTFTにおけるTorchScriptコンパイルエラーを,動的な状態変異とモジュール構築の排除,引数処理の厳格化によって解決した。
    • 逆STFTの動作を明確化し,信頼できる逆変換を均一ビン設定に限定することで,音質の劣化を防ぐようにした。
    • VQTがgamma=0のときにCQTに還元されるように修正し,SciPyとの互換性を確保した。

    Link: https://arxiv.org/abs/2606.05394

  • UniPixie:フローマッチングによる統一的かつ確率的3D物理学習 [cs.CV]目的:多様な物理的性質の連続的な分布の学習
    • 現実世界の物理的曖昧さを捉える必要性から,物理シミュレーションの精度向上が求められている。
    • 既存手法は単一の物理的性質を予測するため,現実世界の多様な可能性に対応できない。
    • 視覚情報から物理的性質の連続的な変化を予測し,物理シミュレーションの柔軟性を高める。
    • UniPixieは,視覚情報から物理的に妥当な材質の連続的なパスを予測するフレームワークである。
    • 異なる物理ソルバーに対応する統一的なアーキテクチャにより,移植性の問題が解決される。
    • Youngの弾性率予測誤差を50%以上削減し,静的な点推定と物理現実の連続性のギャップを埋めている。

    Link: https://arxiv.org/abs/2606.05399

  • VLMと人間の新しい視覚的参照 [cs.CV, cs.CL]目的:新しい視覚的参照のマッピングのメカニズムの解明
    • 画像と言語を理解するモデルの性能向上は,AI研究の重要な課題である。
    • 事前学習の知識と矛盾する新しい視覚概念の学習が困難である。
    • モデルが新しい視覚的参照をどのように学習し,一般化するかを検証する。
    • 新しい視覚的参照データセット(NVRD)を構築し,モデルと人間の学習を比較した。
    • モデルは,事前知識と矛盾する概念の学習に苦戦することがわかった。
    • モデルは人間よりも過剰に一般化する傾向があり,誤ったラベルを適用する。

    Link: https://arxiv.org/abs/2606.05409

  • 不確実性認識型適応センサ融合による自律ナビゲーション [cs.RO, cs.CV]目的:自律ナビゲーションのためのVisual-Inertial Odometry(VIO)における姿勢推定精度の向上
    • ロボットの自律移動において,正確な自己位置推定は不可欠であり,安全性と効率性を高める上で重要である。
    • VIOはノイズやセンサの不確実性に弱く,環境変化へのロバスト性が課題となっていた。
    • 本研究は,センサの不確実性を考慮した適応的なセンサ融合により,VIOの精度とロバスト性を向上させる。
    • 提案手法は,ViTとMCNNを組み合わせたハイブリッド深層学習モデルを用いて,IMUとビジュアルデータの時間的依存性とモーション情報を効果的に捉える。
    • 不確実性に基づいた動的なセンサ融合モジュールにより,多様かつ困難な環境条件においてロバスト性が向上する。
    • KITTIデータセットを用いた評価により,ATEとRPEの両方において既存手法を大きく上回る性能が示された。

    Link: https://arxiv.org/abs/2606.05437

  • 自律型AIの保険 [cs.AI, cs.GT, econ.EM]目的:自律型AIに関する新興保険市場の構造
    • AI技術の進化は,社会に大きな変革をもたらす一方,新たなリスクを生み出している。
    • 既存の保険カテゴリーでは,自律型AI特有のリスクに対応できないという課題がある。
    • 自律型AIのリスクに対応するための保険アーキテクチャを提案し,保険商品の設計に貢献する。
    • 自律型AIは,その自律性の度合いによってリスクが異なり,情報提供と外部環境への影響を考慮する必要がある。
    • ハルシネーション,プロンプトインジェクション,モデルドリフトなど,様々なリスク経路が特定された。
    • サイバー保険,技術賠償責任保険,製品責任保険などを組み合わせた,包括的な保険アーキテクチャの必要性が示唆された。

    Link: https://arxiv.org/abs/2606.05449

  • 不完全な画像・表形式データの分類のための,分離されたきめ細かいプロトタイプ学習 [cs.CV]目的:画像と表形式データのマルチモーダル学習における不完全なモダリティ問題への対処
    • 製品理解,レコメンデーション,医療診断など,多様なマルチメディア応用において重要な課題である。
    • 画像と表形式データはセマンティックな粒度やデータ分布が大きく異なるため,既存手法ではきめ細かい不整合が見過ごされる。
    • 欠損したモダリティ下でも,補完的な情報を活用するためのきめ細かい整合性を確保することを目指す。
    • 提案手法DFPLは,共有・固有プロトタイプのコンパクトかつ多様な抽出と,プロトタイプレベルでの分離を実現した。
    • プロトタイプレベルの分布マッチングとクラスへのセマンティックな整合を促すPFAモジュールにより,モダリティ間の整合性を維持する。
    • CMAモジュールは,グローバルおよびプロトタイプレベルから共有セマンティクスと固有特徴を適応的に集約し,ロバストな予測を可能にする。

    Link: https://arxiv.org/abs/2606.05455

  • 馬のまばたきの検出と分類:馬の感情状態評価への応用 [cs.CV]目的:馬の感情状態評価のための馬のまばたきの検出と分類
    • 馬の福祉向上は重要であり,感情状態の客観的な評価が不可欠である。
    • 痛みの評価は主観的になりがちで,客観的な指標が求められている。
    • 微細な表情であるまばたきの自動検出による客観的な評価を目指す。
    • 馬の動画におけるまばたきの分類において,YOLOv12,光フロー,VideoMAEを用いて評価した。
    • まばたきの分類において,マクロF1スコア0.898,二値分類では0.926を達成した。
    • 本研究は,馬の福祉モニタリングにおける微細な表情検出の可能性と課題を示した。

    Link: https://arxiv.org/abs/2606.05458

  • ORACLE-CT:解剖学的認識型サポートプーリングによるCT画像分類 [cs.CV]目的:CT画像分類のための解剖学的認識型サポートプーリングフレームワーク
    • 腹部CT画像診断は,病変が特定の臓器や解剖学的部位に限定されることが多い。
    • 従来の分類器は解剖学的構造を考慮しないプーリングや注意機構を用いるため,局所的証拠と大域的集約のミスマッチが生じやすい。
    • 臓器分割を用いて解剖学的サポートを定義し,関連領域に注意機構を制限することで,分類精度と汎化性能の向上を目指す。
    • ORACLE-CTは,DINOv3およびI3D-ResNet-121エンコーダにおいて,MERLINデータセットでのmacro-AUROC/AUPRCをそれぞれ0.838/0.638から0.858/0.676,0.829/0.617から0.848/0.659へと改善した。
    • Duke-AbdomenおよびAMOSデータセットに対する外部評価においても,DINOv3でそれぞれ0.802/0.628から0.835/0.683,0.742/0.313から0.762/0.350へ,同様の改善が認められた。
    • ORACLE-CTは,予測と解剖学的証拠の関連性を明確にしつつ,識別能力と外部ロバスト性を向上させる。

    Link: https://arxiv.org/abs/2606.05460

  • 形式概念格子は概念ベース学習のための良好な意味的足場である [cs.RO, cs.CV]目的:概念ベース学習における意味的足場の提供
    • 深層学習モデルの解釈性と人間との整合性が重要視されている
    • 従来の概念ベースモデルでは,概念間の階層構造が考慮されていない
    • 意味的階層構造に基づいた学習を深層ネットワークに導入すること
    • 形式概念格子を用いることで,ネットワーク内で概念を学習すべき層を特定できる。
    • モデルは段階的で意味的に根拠のある表現を深層全体で構築する。
    • 実験結果から,より解釈しやすい埋め込み表現や効果的な介入が可能になることが示された。

    Link: https://arxiv.org/abs/2606.05471

  • テキスト・画像生成コンテンツに対する人間の選好は生成前に予測可能か,そしてそれは有用か? [cs.CV, cs.LG]目的:テキスト・画像生成コンテンツに対する人間の選好予測の可能性と有用性
    • 画像生成技術の進歩は,ユーザーの要求に応じた高品質なビジュアルコンテンツの生成を可能にした。
    • 拡散モデルの生成過程におけるランダムノイズの影響は大きく,特に小規模モデルでは顕著である。
    • 生成リソースを浪費することなく,人間の選好を事前に予測し,生成品質を向上させることを目指す。
    • 人間の選好スコアは,生成前に予測可能であることが示された。
    • 予測を活用することで,生成画像の品質向上が可能であり,ハードウェアへの負担も軽微である。
    • 特定の人間選好指標は,この予測タスクに特に適していることが明らかになった。

    Link: https://arxiv.org/abs/2606.05478

  • LLM誘導によるANNインデックス最適化:人間と物体のインタラクション検索 [cs.CE, cs.CV, cs.DB]目的:人間と物体のインタラクション検索のためのANNインデックス最適化
    • 現代のAIアプリケーションの基盤であり,効率的な情報検索が不可欠である。
    • 従来のハイパーパラメータ最適化手法は,パラメータ間の依存関係を考慮できない。
    • LLMを活用し,パラメータ間の結合性を考慮した最適化手法を確立する。
    • 提案手法は,HICO-DETベンチマークにおいて,Optuna TPEやVDTunerを33~34%上回る性能を示した。
    • パラメータ間の結合度が高いほど,提案手法の優位性は増すことが,3つのベンチマークで確認された。
    • Milvusを用いたクロスシステム検証により,提案手法がベクトルデータベース管理システム間で高い移植性を持つことが示された。

    Link: https://arxiv.org/abs/2606.05489

  • 視覚幾何学的変換器を用いたペアなしRGB-熱画像ガウススプラッティング [cs.CV, cs.RO]目的:RGBと熱画像の組み合わせによる新規視点合成の実現
    • RGBと熱画像を組み合わせることで,視覚情報と熱情報を活用した高精度な3次元シーン再構成が可能となる。
    • 既存手法は,正確に較正されたRGB-熱画像ペアやステレオセットに依存するため,拡張性と実用性に課題がある。
    • ペアなしRGB-熱画像からの新規視点合成を可能にし,較正の必要性を解消することを目指す。
    • 提案手法は,RGBと熱画像のそれぞれに対して独立にカメラポーズを推定し,Procrustesアルゴリズムを用いてアラインメントを実現する。
    • ペアなし画像から直接学習するマルチモーダル3Dガウススプラッティングアプローチを提案し,熱画像合成性能とRGBの忠実性を両立した。
    • 既存手法のモダリティ特有の再構成におけるクロスモーダルの一貫性の欠如を指摘し,評価フレームワークを導入した。

    Link: https://arxiv.org/abs/2606.05491

  • ブロック報酬後のビットコイン [cs.RO, cs.CR, cs.DC, cs.GT]目的:正直なマイニングが個人的に最適でなくなる閾値の特定
    • ビットコインは分散型台帳技術の基盤であり,そのセキュリティは金融システムに不可欠である。
    • ブロック報酬の減少により,マイナーのインセンティブ構造が変化し,ネットワークのセキュリティが脅かされる可能性がある。
    • ブロック報酬がゼロになった際に,不正なマイニングを防ぐための条件を明確にすること。
    • 2024年の半減期において,現在のマイニング行動は大規模な不正行為を示唆していないことが示された。
    • ブロック報酬が除去された場合,わずかな手数料でも不正行為が発生する可能性があることが示唆された。
    • ベースフィー,手数料下限,適応的な最大ブロックサイズ規則の組み合わせが不正行為の閾値を高め,インセンティブの崩壊を緩和することが示された。

    Link: https://arxiv.org/abs/2606.05503

  • LiDAR誘導対照学習によるPointGoalナビゲーションのロバストなシーン転移 [cs.CV]目的:PointGoalナビゲーションにおける視覚表現学習のフレームワーク
    • ロボットナビゲーションは,多様な環境での自律的な移動を実現する上で重要である。
    • 環境の変化に強い視覚表現学習が,ナビゲーションの汎化性能向上における課題である。
    • 特権センサを活用し,ナビゲーションに必要な構造的情報を捉えた表現学習を目指す。
    • 提案手法は,多様な屋内・屋外環境におけるシーン転移性能を大幅に向上させる。
    • 特に,外観や意味内容が大きく異なる環境においても,優れた性能を示す。
    • LiDARなどの特権センサに依存せず,RGB画像のみでナビゲーションが可能となる。

    Link: https://arxiv.org/abs/2606.05506

  • BRepCLIP:CAD理解のための境界表現プリミティブに対するコントラスト学習マルチモーダル事前学習 [cs.CV]目的:CADモデルの表現学習
    • CADデータの利用拡大に伴い,CADモデルの理解・処理技術の重要性が高まっている。
    • 従来の3D表現学習は点群やメッシュに偏っており,CADのネイティブ形式である境界表現(BRep)の活用が遅れている。
    • BRepを用いたCADモデルの表現学習により,より高精度なCAD理解を目指す。
    • BRepCLIPは,BRepの幾何学構造と言語・画像情報をコントラスト学習により整合させる新たなフレームワークである。
    • 既存の点群ベースの手法と比較して,識別力と意味的根拠に基づいたembeddingsを生成し,CADモデルの検索性能を大幅に向上させた。
    • BRepCLIPは,テキストや画像に基づいたCAD生成の評価指標としても有用であり,構造を意識した事前学習の重要性を示した。

    Link: https://arxiv.org/abs/2606.05515

  • 南アジア音楽の理解と生成における大規模言語モデルの探求 [cs.DC, cs.SD, cs.AI, eess.AS]目的:南アジア音楽に対する大規模言語モデルの能力の体系的評価
    • 音楽情報処理分野は,多様な文化の音楽を理解し,生成することで,音楽文化の保存と発展に貢献できる。
    • 既存の研究は西洋音楽に偏っており,構造が異なる南アジア音楽のような低リソース言語の音楽への対応が課題である。
    • 本研究は,大規模言語モデルが南アジア音楽の構造的特徴や文化的背景を理解し,生成できるかを検証する。
    • 大規模言語モデルの理解度評価では,Gemini 2.5 Proが高精度(85-90%)を示したが,オープンソースモデルは精度が低い(23-40%)。
    • 音楽生成においては,最高性能モデルでもスタイルに忠実な出力を40%の頻度でしか生成できず,構造的妥当性とスタイル維持は異なる課題であることが示された。
    • 本研究は,文化に根ざした音楽モデリングにおける課題を提示し,今後の研究の方向性を示唆する。

    Link: https://arxiv.org/abs/2606.05522

  • Almieyar-Oryx-BloomBench:視覚言語モデルの認知的な評価のための二言語マルチモーダルベンチマーク [cs.CV, cs.AI, cs.CL, cs.LG]目的:視覚言語モデルの真の推論能力を厳密に診断し,人間のようなマルチモーダル知能への進歩を示すためのベンチマーク
    • 視覚言語モデルの急速な進歩に伴い,その能力を正確に評価し,改善点を見つけることが重要である。
    • 既存の評価は断片的であり,モデルの認知的な弱点を明らかにし,改善への洞察を提供できていない。
    • Bloomの分類体系に基づき,視覚言語モデルの認知レベルを体系的に評価し,弱点を特定する。
    • 最新の視覚言語モデルは意味理解において高い性能を示す一方,事実の想起や創造的な合成において著しく苦戦していることが明らかになった。
    • 現在の汎用的なマルチモーダル能力は,特定の認知層における深い限界を隠蔽していることを示唆している。
    • アラビア語と英語の間には顕著な性能差が存在し,現在のクロスリンガルマルチモーダル推論の限界を露呈している。

    Link: https://arxiv.org/abs/2606.05531

  • 物体が何をもたらすか:アフォード感応のための機能潜在空間 [cs.LG, cs.AI, cs.CV, cs.RO]目的:アフォード感応のための機能潜在空間の構築
    • ロボットの計画システムにおいて,物体の認識は不可欠であり,効率的な計画遂行に直結する。
    • 従来のシステムは外観に基づくため,タスクに必要な機能性(移動可能性など)を捉えきれない。
    • アフォード感応により,外観に依存せず,タスクに関連する機能に基づいて計画を行うことを可能にする。
    • 提案手法A4Dは,視覚情報をアフォード感応を基準とした潜在空間にマッピングする。
    • 既存のアフォード感応の推論精度を15%以上向上させ,新規アフォード感応の精度を大幅に改善した。
    • 少ない学習データで高い精度を実現し,推論速度も100倍に向上した。

    Link: https://arxiv.org/abs/2606.05533

  • 医療画像質疑応答のためのノイズに強い視覚表現学習 [eess.SY, cs.SY, cs.CV, cs.AI]目的:医療画像質疑応答における視覚表現のロバスト性向上
    • 臨床意思決定支援において,AIによる医療画像解釈と質問応答の重要性が高まっている。
    • 既存手法では,視覚表現に含まれるノイズや微小な変化への対処が不十分である。
    • 視覚表現のロバスト性を高め,ノイズの影響を軽減することで,医療画像質疑応答の精度向上を目指す。
    • 提案手法では,ノイズ除去オートエンコーダを用いて,ロバストな視覚表現を獲得する。
    • 獲得された視覚表現は,多層パーセプトロンで言語モデルの埋め込み空間に投影され,画像情報をLLMに提供する。
    • SLAKEおよびPathVQAベンチマークでの実験により,ノイズに対するロバスト性とクリーンな状態での性能の両立が確認された。

    Link: https://arxiv.org/abs/2606.05535

  • ファインチューングレインOOD検出のための二重特徴分離 [cs.CV]目的:ファインチューングレインOOD検出における特徴分離
    • 機械学習モデルを実世界で利用する上で,未知のデータ検出は不可欠である。
    • 既存手法はクラス間差分が大きい場合に有効だが,微妙な差異しかないファインチューングレインタスクには不向きである。
    • ファインチューングレインOOD検出における,高次元特徴の干渉と背景要素の問題を解決する。
    • 提案手法DFDNetは,空間周波数分離モジュールと再構成誘導分離モジュールで構成される。
    • 空間周波数分離モジュールは,分類に有用なコンテンツ特徴を保持しつつ,タスクに無関係なスタイル情報を抑制する。
    • 再構成誘導分離モジュールは,ピクセルレベルの敵対的再構成タスクにより,低レベルな情報を除去し,カテゴリ特有のセマンティック表現を強化する。

    Link: https://arxiv.org/abs/2606.05536

  • 事前学習済み音声表現における空間構造の探求 [cs.SD, eess.AS]目的:事前学習済み音声表現の空間的符号化能力の評価
    • 音響情報の認識や分析において,空間的な情報は重要な役割を担う。
    • 事前学習済み音声モデルの空間符号化能力は十分に解明されていない。
    • 現在の音声表現に存在する空間情報に関する系統的な偏りを明らかにする。
    • 様々なエンコーダ実験の結果,入力構成と学習パラダイムが空間符号化に影響することが示された。
    • 音源要素は部屋要素よりも復号化が容易であり,擾乱に対する応答も異質であることが確認された。
    • SARLベンチマークを公開することで,空間音声表現の再現性のある評価を可能にした。

    Link: https://arxiv.org/abs/2606.05544

  • オンライン最小コストマッチング:一般的な到着モデルにおける考察 [cs.CL, cs.DS, cs.GT]目的:動的に到着する要求と静的なサーバー間の最小コストマッチング
    • リソース配分やタスク割り当てなど,多様な応用分野で重要な課題である。
    • 従来のモデルでは,片側のみがオンラインで到着することに制約があった。
    • 両側がオンラインで到着する場合の競争率を解明し,アルゴリズムの限界を示す。
    • 敵対的およびランダム順序の入力モデルでは,競争率は無限大となることが示された。
    • 独立同一分布(i.i.d.)の到着モデルでは,O(log^2{n})の競争率を達成するアルゴリズムが提案された。
    • ランダム順序モデルと未知のi.i.d.モデル間の競争率の分離例が示された。

    Link: https://arxiv.org/abs/2606.05546

  • ブートストラップされたトークン化による画像圧縮と生成のバランス化 [cs.LG, cs.AI, cs.GR]目的:画像圧縮と生成における効率性と品質の向上
    • 画像処理において,効率的な圧縮と高品質な生成は重要な課題である。
    • 従来の画像トークン化は冗長な情報を抱え,生成器の学習を複雑にしている。
    • 本研究は,トークン化による情報分解により,生成器の負担を軽減し効率化を目指す。
    • 提案手法SelfBootTokは,グローバルとローカルトークンを分離することで冗長性を解消した。
    • 生成器はグローバルなトークンのみを使用し,計算量を約40%削減しつつ,再構成・生成品質を向上させた。
    • SelfBootTokは,自己教師あり学習を活用し,gFIDスコア1.56を達成し,最先端の性能を示した。

    Link: https://arxiv.org/abs/2606.05552

  • 言語特有の統計グラフを用いたドメイン依存の誤発音検出と診断 [cs.IR, cs.CL, cs.CL, cs.SD, eess.AS]目的:誤発音の検出と診断
    • 言語学習支援や音声技術において,発音の正確さはコミュニケーションの円滑さに不可欠である。
    • 学習者の母語による発音の干渉や,言語ごとの発音規則の違いが課題となっている。
    • 母語背景に応じた発音の系統的な違いを捉え,誤発音検出の精度向上を目指す。
    • 提案手法は,音素の混同パターンを表現する統計グラフを用いることで,効果的な誤発音検出を実現した。
    • L2-ARCTICベンチマーク実験において,F1スコア59.52%を達成し,既存手法を上回る性能を示した。
    • 言語特有の戦略を導入することで,母語背景に応じた発音の差異を考慮した診断が可能となった。

    Link: https://arxiv.org/abs/2606.05569

  • ユニバーサルカテゴリシステムを用いた音響効果データセットの統合 [cs.SD, eess.AS]目的:音響効果データセットの統合手法
    • 音響効果は,様々な分野で利用が拡大しており,その重要性は増している。
    • 既存のデータセットは分類体系が異なり,データの相互利用や統合が困難である。
    • 異なるデータセットを統一的な体系で扱い,活用を促進することを目的とする。
    • 本研究では,業界標準の階層的分類体系であるユニバーサルカテゴリシステム(UCS)を導入し,既存データセットのタグをUCSに変換するフレームワークを提案した。
    • 提案手法により,高精度な自動変換とデータセット分割が可能となり,複数データセットの統合を実現した。
    • 環境音データセットEnvSound-UCSを公開し,実用性を示した。これは,AudioSet,FSD50K,ESC-50の3つのソースから58,057個の音響クリップを含む。

    Link: https://arxiv.org/abs/2606.05571

  • SB-RF: シュレーディンガーブリッジ修正フローによるワンステップのロバストな音声強調 [cs.SD, eess.AS]目的:ロバストな音声強調のためのフレームワーク
    • 音声強調は,通信,補聴,音声認識など,多様な応用分野において重要な技術である。
    • 生成モデルは高性能だが,多段階の推論が必要となり,リアルタイム処理が困難であるという課題がある。
    • 本研究は,高効率なワンステップ生成による高品質な音声強調を実現することを目的とする。
    • SB-RFは,シュレーディンガーブリッジと修正フローを統合した,新しい生成フレームワークである。
    • VoiceBank-DEMANDベンチマークにおいて,他の生成モデルと比較して優れた性能を達成した。
    • 低S/N比のシミュレーション環境下でも,高いロバスト性と効率性を示し,実用的な応用への可能性をvalidatedした。

    Link: https://arxiv.org/abs/2606.05575

  • UltraVR:エビデンスに基づく推論のための超高解像度画像VQA診断ベンチマーク [cs.CV]目的:超高解像度画像におけるエビデンスに基づく視覚的推論の診断
    • 画像とテキストを組み合わせた処理は,多様な応用分野で重要であり,その性能向上は不可欠である。
    • 既存の評価指標は最終的な正答率のみに着目しており,モデルがどのようにエビデンスを獲得・統合しているかの詳細な分析が困難である。
    • 本研究は,超高解像度画像における視覚的推論プロセスを詳細に診断するためのベンチマークを提供することを目的とする。
    • UltraVRは,監視カメラ映像,リモートセンシング,病理組織画像,産業異常検知の4つの分野を網羅する。
    • 既存の最先端VLモデルは,超高解像度画像の推論において信頼性に欠けることが示された。
    • エラーは,エビデンスの特定と局所的な知覚に集中しており,中間的な視覚的事実が与えられれば,その後の推論は改善される傾向にある。

    Link: https://arxiv.org/abs/2606.05576

  • 大規模幾何処理のためのモンテカルロ・ステクロフ演算子 [cs.GR, cs.CV, cs.LG]目的:大規模幾何データにおけるステクロフ演算子のモンテカルロ推定
    • 形状解析,学習,編集において,等長変換不変性が求められるため,幾何処理の基礎となる演算子が重要である。
    • 既存の幾何処理手法は,メッシュ品質や連結成分数に依存し,実際のデータへの適用が困難な場合がある。
    • 本研究は,品質の低いメッシュや多連結成分を持つ形状に対してもロバストなステクロフ演算子の推定を目指す。
    • モンテカルロ法により,境界要素法よりも大幅に高速かつロバストにステクロフスペクトルを計算できることを示した。
    • Objaverseデータセットの約45万の形状に対して,内部および外部のステクロフ固有スペクトルを計算した。
    • 得られた演算子をSteklov-CLIPに組み込み,大規模な3D表現学習における有効性を示した。

    Link: https://arxiv.org/abs/2606.05581

  • 強化学習によるリモートセンシング物体検出のための適応的バックボーンモジュール構成 [cs.CV, cs.MM]目的:リモートセンシングにおける物体検出のためのバックボーンモジュール構成
    • リモートセンシングは,広範囲な情報を効率的に取得でき,多様な応用分野で不可欠である。
    • 既存手法では,固定されたバックボーンや手動設計のハイブリッド構造に依存し,入力の複雑さに適応できない。
    • 入力に応じてCNNとViTの利点を動的に組み合わせ,検出精度を向上させることを目指す。
    • 提案手法BMCRは,CNNとViTの再利用可能なモジュールから適応的な推論パスを動的に構成する。
    • モジュール間の互換性を確保するため,構造,意味,計算メタデータを用いてモジュールツールボックスを構築した。
    • DOTA-v1.0,DOTA-v1.5,DIOR-Rにおいて,BMCRは最先端のベースラインを最大2.5ポイント上回るmAPスコアを達成した。

    Link: https://arxiv.org/abs/2606.05586

  • HDST-GNN:UAV航空画像におけるマルチオブジェクト追跡のための異種動的時空間グラフニューラルネットワーク [cs.CV, cs.AI, cs.LG]目的:UAV航空画像におけるマルチオブジェクト追跡の性能向上
    • UAVを用いた広域監視は重要性が増している。正確な対象物追跡が不可欠である。
    • 従来の追跡手法では,対象物のサイズ変化や遮蔽による追跡IDの誤りが課題となっていた。
    • 遮蔽や対象物のライフサイクル状態を考慮した追跡手法を開発し,追跡精度を向上させる。
    • HDST-GNNは,高度適応的なグラフ構造,異種ノード表現,遮蔽ゲート付き時間集約を導入した。
    • VisDrone2019-MOTデータセットにおいて,HDST-GNNはSORTと比較してMOTAが+5.0ポイント向上,IDスイッチが81%減少した。
    • YOLOv8n検出器を用いた実環境データでも,HDST-GNNはSORTと比較してIDスイッチを49%削減した。

    Link: https://arxiv.org/abs/2606.05587

  • 豚の皮膚下の状態:体条件の推定 [cs.CL, cs.CV]目的:豚の体条件推定システム
    • 母豚の体条件は,泌乳成績や子豚の生存率に大きく影響するため,養豚管理上重要な指標である。
    • 既存の体条件評価法は,実際の組織組成との相関が低く,正確性に課題がある。
    • 非接触かつ自動的な体条件モニタリングを可能にするシステム開発が求められている。
    • 提案手法PigFormerは,RGB-Dカメラからの深度画像を用いて,皮下脂肪厚,腰筋深,組織全体の厚みを高精度に推定する。
    • PigFormerは,既存のResNet-18やViT-smallなどの手法と比較して,優れた性能を示す。
    • 本研究は,商業養豚における継続的かつ自動化された体条件モニタリングへの実用的な道筋を提供する。

    Link: https://arxiv.org/abs/2606.05611

  • KV-Control:軌道制御のためのパラメータ効率的なK/V注入 [cs.CL, cs.CL, cs.IR, cs.CL, cs.CV, cs.GR]目的:テキストによる3D人体モーション生成モデルへの,軌道制御のための効率的な制御手法
    • 近年,テキストからの3D人体モーション生成技術が発展しているが,実用的なアニメーション制作では,テキスト以外にも様々な制約条件が必要となる。
    • 既存手法では,詳細な制御を実現するためにモデル全体のパラメータを調整する必要があり,計算コストが高いか,生成品質が低下する問題がある。
    • 本研究では,既存モデルの学習済みパラメータを固定したまま,軽量なパラメータ追加によって軌道制御を可能にする手法を提案する。
    • KV-Controlは,自己注意機構の内部に幾何学的制約を記憶として組み込むことで,高精度な軌道制御を実現する。
    • 提案手法は,学習済みモデルの重みを変更することなく,ルート軌道や関節軌跡をサブセンチメートル精度で追跡できる。
    • 軽量なアダプターとして実装されるため,計算コストを抑えつつ,テキストによるモーション生成の品質を維持できる。

    Link: https://arxiv.org/abs/2606.05624

  • ShotCrop$^3$: シネマティックなトリプルショット構図への人物中心画像のクロッピング [cs.CL, cs.CV, cs.MM]目的:人物中心画像から,導入,ミディアム,クローズアップの3つのショットと簡単な説明文を生成すること
    • 美的構成は,視覚的な魅力を高める上で重要であり,広告や映像制作など,様々な分野で応用されている。
    • 既存研究は単一のクロップに焦点を当てており,複数のショットを組み合わせることで生まれる物語性を考慮していない。
    • 単一の画像からトリプルショット構図を生成し,視覚的なストーリーテリングを支援することを目的とする。
    • ShotCropは,Chain-of-Thoughtを用いた教師ありファインチューニング,半教師ありファインチューニング,GRPO-Sによる最適化という3段階の学習プロセスを採用している。
    • 擬似ラベル戦略には,MLLMベースのスコアリング,美的評価,CLIP類似度を組み合わせ,高信頼度の学習信号を維持している。
    • ShotCropは,ショット位置の正確さにおいてGPT-5を平均2.82倍上回る性能を示し,TSC-Benchというベンチマークデータセットでその有効性を実証した。

    Link: https://arxiv.org/abs/2606.05635