arXiv雑要約

画像・音声 - 2025/10/14 公開

  • マルチモーダル視覚・言語とモーション解析による交通渋滞の段階的分類 [cs.CV]目的:交通渋滞の段階的分類
    • 都市の交通管理において,交通状況の正確な把握は不可欠であるため。
    • 既存手法では,交通渋滞の程度を正確に,かつ段階的に分類することが困難である。
    • 視覚,言語,モーションの情報を統合することで,より正確な段階的分類を実現する。
    • 提案手法は,76.7%の精度,0.752のF1スコア,0.684のQWKを達成し,単一モダリティのベースラインを大きく上回った。
    • 視覚・言語情報とモーション解析を組み合わせることで,段階的な構造を維持し,より効果的な分類が可能となった。
    • 可視化による解釈性の向上や,モーションに基づく信頼性重み付けも有効であった。

    Link: https://arxiv.org/abs/2510.10342

  • Ortho-Fuse:中間光流推定による疎な高解像度作物健康マップ向けオルソモザイク生成 [cs.CV, cs.AI]目的:疎な航空画像データセットからのオルソモザイク生成
    • 精密農業において,作物の健康状態を迅速かつ低コストで把握する重要性が高まっている。
    • 従来のオルソモザイク生成には高い画像重複率が必要で,資源制約下では精度が低下する。
    • オルソモザイクの生成において必要な重複率を低減し,より少ないデータでも高精度なマップ作成を可能にする。
    • 提案手法Ortho-Fuseは,中間光流推定を用いて画像間の特徴点数を人工的に増やし,オルソモザイクの精度向上を実現した。
    • 実験により,従来のオルソモザイク生成に必要な最小重複率を20%削減できることが示された。
    • 精密農業における導入障壁分析を通じて,AI駆動型モニタリングシステムの統合に向けた道筋を提示した。

    Link: https://arxiv.org/abs/2510.10360

  • PointMAC:強固なテスト時点群補完のためのメタ学習適応 [cs.CV]目的:点群補完における強固なテスト時適応
    • ロボティクスやARなど安全性が重要な応用において,3D認識の精度向上は不可欠である。
    • 既存モデルは学習時のバイアスに依存し,未知の構造やセンサーノイズへの適応が困難である。
    • テスト時に個々の点群データに特化して適応し,補完精度を向上させることを目指す。
    • PointMACは,メタ学習フレームワークを用いてテスト時の点群補完に適応し,追加の教師データなしにサンプル固有の改善を可能にする。
    • 構造的・センサーレベルの不完全さを模倣する2つの自己教師あり目的関数に基づき,MAMLを用いたメタ補助学習戦略で適応を安定化させる。
    • 合成,シミュレーション,実データセットでの実験により,PointMACが最先端の結果を達成し,高品質な補完を実現することが示された。

    Link: https://arxiv.org/abs/2510.10365

  • Vision4PPG:バイタルサイン(血圧など)のPPG解析におけるVision Foundation Modelsの潜在能力 [cs.CV, cs.LG]目的:ウェアラブル・臨床機器におけるPPGセンサーを用いたバイタルサイン推定手法の開発
    • ウェアラブルデバイス等の普及により,非侵襲的なバイタルサインモニタリングの重要性が高まっている。
    • 既存のPPG解析手法は,特定のタスクに特化している場合が多く,汎用性に課題がある。
    • Vision Foundation Modelsを活用し,汎用的なPPG解析能力を獲得することで,この課題を解決する。
    • Vision Foundation Models (VFM)をPPG信号の画像変換に適用したVision4PPGは,血圧推定において最先端の性能を達成した。
    • DINOv3やSIGLIP-2等の最新VFMを用いることで,他のバイタルサインや血液検査測定タスクにおいても有望な結果が得られた。
    • Parameter-Efficient Fine-Tuning (PEFT)技術により,計算効率が高く,臨床科学者にとって有用なツールとなる。

    Link: https://arxiv.org/abs/2510.10366

  • 注意誘導型融合を用いた自己教師ありマルチスケールTransformerによる効率的なひび割れ検出 [cs.CV]目的:効率的なひび割れ検出手法の開発
    • 道路インフラの維持管理において,ひび割れの早期発見は重要である。劣化の進行を抑制し,安全性を確保するため。
    • 従来の手法は,大規模なデータに対する手動アノテーションが必要であり,コストと時間がかかるという課題があった。
    • 本研究は,手動アノテーションなしで高精度なひび割れ検出を可能にすることで,その課題を解決することを目指す。
    • 提案手法「Crack-Segmenter」は,10の公開データセットにおいて,最先端の教師あり学習手法13個を全ての主要指標で上回る性能を示した。
    • mIoU,Dice係数,XOR,Hausdorff距離などの指標において一貫して優れた結果が得られた。
    • これにより,アノテーション不要のひび割れ検出は実現可能であり,よりスケーラブルで費用対効果の高いインフラモニタリングが可能となることが示された。

    Link: https://arxiv.org/abs/2510.10378

  • CNN画像分類におけるバイアスの特定:画像スクランブルと変換の利用 [cs.CV, cs.AI]目的:CNN画像分類におけるバイアスの特定
    • 画像認識技術は高度化の一途を辿り,様々な分野で活用が拡大している。
    • CNNはデータ駆動型であるため,判断根拠が不明瞭で,バイアスに影響されやすい。
    • 背景情報など,本来学習に不要な要素にCNNが依存していないかを検証する。
    • 画像分割によるタイル化とランダムなシャッフルにより,データセットのバイアスを検出する手法を提案した。
    • フーリエ変換,ウェーブレット変換,メディアンフィルター等の画像変換を適用し,背景ノイズを抽出する手法を開発した。
    • 提案手法は,背景情報が利用できない状況下でも,コンテキスト情報と背景ノイズを区別し,バイアスの存在を検知できることを示した。

    Link: https://arxiv.org/abs/2510.10383

  • AVoCaDO:時間的オーケストレーション駆動型オーディオビジュアル動画キャプション生成 [cs.RO, cs.SY, eess.SY, cs.CV]目的:オーディオビジュアル動画キャプション生成手法
    • 動画理解や生成において,視覚と聴覚情報を統合した表現が重要である。
    • 既存手法では,視覚と聴覚情報の時間的な整合性が十分でない場合がある。
    • 視覚と聴覚の時間的オーケストレーションを強化し,キャプションの質を向上させる。
    • AVoCaDOは,4つのオーディオビジュアル動画キャプション生成ベンチマークで既存のオープンソースモデルを大幅に上回る性能を示した。
    • 視覚情報のみを用いたVDCおよびDREAM-1Kベンチマークにおいても,競争力のある性能を達成した。
    • 新たにキュレーションされた高品質な時系列アラインメントされたオーディオビジュアルキャプションデータセットを用いたファインチューニングが有効であることが示された。

    Link: https://arxiv.org/abs/2510.10395

  • MRSAudio:精緻な注釈付き大規模多Modal収録空間オーディオデータセット [cs.SD]目的:空間オーディオ理解と生成研究の発展
    • 没入型技術(VR/AR等)において,空間オーディオは重要な役割を担う。
    • 既存の多Modalデータセットはモノラルオーディオが主流であり,空間オーディオ研究の発展を阻害している。
    • 多様な実世界のシナリオを網羅した大規模空間オーディオデータセットの提供。
    • MRSAudioは,バイノーラルおよびアンビソニックオーディオ,動画,モーション軌跡,詳細な注釈を含む。
    • MRSAudioを用いることで,高品質な空間モデリングが可能となり,幅広い空間オーディオ研究を支援する。
    • 空間音響化,空間テキスト読み上げ,空間歌声合成,空間音楽生成,音源定位・検出等の基盤タスクが確立された。

    Link: https://arxiv.org/abs/2510.10396

  • 合成個人データを用いた知識分離機能的不変経路によるパーソナライズ自動音声認識 [cs.SD]目的:パーソナライズ自動音声認識の性能向上
    • 音声認識技術は,人間と機械の自然な対話を可能にする基盤技術である。
    • 汎用モデルを個人データで微調整する際,既存知識の忘却や汎化性能の低下が課題となる。
    • 合成データと実データを活用し,知識の分離と保存を実現することで,性能向上を目指す。
    • KDFIPは,ターゲットスピーカーに対して29.38%の文字誤り率の相対的な削減を達成した。
    • KDFIPは,適応されていないベースラインと同等の汎化性能を維持している。
    • 知識分離機能的不変経路(KDFIP)フレームワークを提案し,汎用知識と個人知識を分離したモジュールに格納した。

    Link: https://arxiv.org/abs/2510.10401

  • Mesh-Gait:2Dシルエットからの多Modal表現学習を通じた歩行者認識の統一的フレームワーク [cs.CV, cs.AI, cs.LG]目的:歩行者識別のための歩行パターン認識
    • 歩行者認識は,生体認証技術として重要な役割を担う。個人の識別に応用可能。
    • 視点変化,遮蔽,ノイズなどにより,従来の2D表現による認識精度が課題。
    • 2Dシルエットから直接3D表現を再構成し,高精度かつ効率的な認識を実現。
    • Mesh-Gaitは,2Dシルエットから3D表現を再構成することで,両Modalの利点を組み合わせる。
    • 中間表現として3Dヒートマップを用いることで,計算効率と3D幾何学的情報の捕捉を両立。
    • 実験結果から,Mesh-Gaitが最先端の認識精度を達成することが示された。

    Link: https://arxiv.org/abs/2510.10406

  • 特徴空間順序を用いた誘導画像特徴点マッチング [eess.SY, cs.SY, cs.CY, cs.CV, eess.IV]目的:画像特徴点マッチングの効率と精度向上
    • 画像特徴点マッチングは,多くのコンピュータビジョンタスクにおいて重要な役割を担う。
    • 特徴点数が多い画像において,特徴点マッチングには時間がかかるという課題がある。
    • 特徴空間順序の概念を用いて,マッチングの探索範囲を絞り,効率と精度を改善する。
    • 本手法は,特徴空間順序のモデル構築と,それを用いた不要なマッチング候補の除去により,マッチング効率を大幅に向上させる。
    • エピポーラ幾何と組み合わせることで,マッチングの精度もさらに向上することが確認された。
    • 実験結果から,提案手法は従来の技術よりも効率的かつ正確な特徴点マッチングを実現することが示された。

    Link: https://arxiv.org/abs/2510.10414

  • Combo-Gait: マルチモーダル歩行認識と属性分析のための統一Transformerフレームワーク [cs.CV, cs.AI, cs.LG]目的:マルチモーダル歩行認識と人間属性推定の同時実行
    • 歩行は遠距離からの個人識別における重要な生体認証技術である。セキュリティや監視への応用が期待される。
    • 単一の表現形式(2Dまたは3D)では,歩行パターンの複雑な幾何学的・動的特徴を捉えきれないという課題がある。
    • 2Dと3Dの歩行情報を統合し,よりロバストな分析と高精度な属性推定を実現することを目指す。
    • 提案手法は,大規模歩行データセットにおいて最先端の手法を上回り,歩行認識性能を向上させた。
    • 年齢,BMI,性別などの人間属性推定においても高い精度を示し,実用的な可能性を提示した。
    • マルチモーダル・マルチタスク学習が,歩行に基づく人間理解を深める上で有効であることが示された。

    Link: https://arxiv.org/abs/2510.10417

  • VRゲームプレイ動画からの乗り物酔い重症度分類:転移学習と時間モデリング [cs.IR, cs.RO, cs.CV]目的:VRゲームプレイ動画を用いた乗り物酔い重症度分類手法
    • VR技術は医療,教育,娯楽など多様な分野で普及している。快適なVR体験の実現が重要である。
    • VR体験における乗り物酔いは依然として大きな課題であり,VRの普及を阻害している。
    • ゲームプレイ動画から乗り物酔いを予測する手法を確立し,VR環境の改善に貢献する。
    • 転移学習により,VRゲームプレイ動画から高次の視覚特徴を抽出することに成功した。
    • LSTMネットワークを用いて,VR体験の時間的変化を捉え,乗り物酔い重症度を予測した。
    • 提案手法は68.4%の分類精度を達成し,既存のビデオデータのみを用いたモデルを上回った。

    Link: https://arxiv.org/abs/2510.10422

  • 加法性評価における最大最小分担保証の改善 [cs.GT]目的:分割不能な資源の公平な配分における最大最小分担の近似保証の向上
    • 資源配分において,公平性は重要な課題であり,特に分割不能な資源の配分では,各エージェントへの公平な分配が求められる。
    • 加法性評価において,既存のアルゴリズムでは,最大最小分担の値を十分に保証できていないという課題が存在する。
    • この研究は,加法性評価における最大最小分担の近似保証を向上させ,より公平な資源配分を実現することを目的とする。
    • 本研究により,最大最小分担の近似保証が,既存の$\tfrac{3}{4} + \tfrac{3}{3836}$から$\tfrac{10}{13}$へと改善された。
    • この改善は,分割不能な資源の公平な配分に関する理論的限界に近づくものである。

    Link: https://arxiv.org/abs/2510.10423

  • 人間らしい読み方で画像を読み取るための検索フレームワーク:MLLMの生成能力向上 [cs.CV, cs.AI]目的:画像に対する人間らしい読み取りを行う検索フレームワークの制御
    • MLLMは画像とテキストの情報を統合し,高度な質問応答を可能にする重要な技術である。
    • 既存のMLLMは,視覚的な詳細な情報を捉えきれず,幻覚を起こしやすいという課題がある。
    • 人間らしい視覚情報の処理に基づいた検索・生成フレームワークを開発し,幻覚を抑制すること。
    • 提案手法HuLiRAGは,「何を」「どこで」「再重み付け」という段階的な処理を行うことで,視覚的な根拠に基づいた推論を可能にする。
    • HuLiRAGは,空間情報を活用したファインチューニングにより,生成時に空間的制約を課し,回答の信頼性を高める。
    • 実験の結果,HuLiRAGは,既存手法と比較して,視覚的な根拠の正確性,事実の一貫性,および幻覚の抑制において優れた性能を示した。

    Link: https://arxiv.org/abs/2510.10426

  • MonoSE(3)-Diffusion:ロバストなカメラ・ロボット姿勢推定のための単眼SE(3)拡散フレームワーク [cs.CV, cs.RO]目的:画像に基づくロボット姿勢推定の課題解決
    • ロボットの自律的な動作には,正確な自己位置推定が不可欠である。
    • 既存手法では,多様な視点からの姿勢推定が難しく,汎化性能に課題がある。
    • 拡散モデルを用いて,多様な姿勢データを生成し,汎化性能を向上させる。
    • 本研究では,ノイズ除去拡散過程を用いて,姿勢推定を段階的に行うフレームワークを提案した。
    • 可視性制約を組み込むことで,より現実的な姿勢データを生成し,学習データの多様性を高めた。
    • DREAMおよびRoboKeyGenのベンチマークにおいて,最先端技術を大幅に上回る性能を達成した。

    Link: https://arxiv.org/abs/2510.10434

  • ゼロショット産業異常検知における一貫した異常の問題について [cs.RO, cs.SY, eess.SY, cs.CV, stat.AP]目的:ゼロショット産業異常検知における一貫した異常の検出とフィルタリング
    • 産業界における品質管理の自動化ニーズが高まっており,異常検知技術は不可欠である。
    • 既存のゼロショット異常検知手法は,一貫した異常の検出に苦戦しており,性能が低い。
    • 本研究は,一貫した異常を効果的にフィルタリングし,異常検知の精度向上を目指す。
    • CoDeGraphは,類似性計算から一貫した異常を特定・フィルタリングする新しいアルゴリズムである。
    • ViT-L-14-336バックボーンを用いた実験で,ACのAUROCは98.3%,ASのF1スコアは66.8%,APは68.1%を達成した。
    • DINOv2バックボーンを使用することで,ASのF1スコアは69.1%,APは71.9%に向上し,多様なアーキテクチャへの適応性を示した。

    Link: https://arxiv.org/abs/2510.10456

  • 意見の不一致から学ぶ:堅牢な医用画像セグメンテーションのためのグループ意思決定シミュレーションフレームワーク [cs.CV, cs.AI]目的:医用画像セグメンテーションにおけるグループ意思決定シミュレーションフレームワーク
    • 医用画像解析は,診断精度向上に不可欠であり,臨床応用への期待が高い分野である。
    • 専門家間での意見の相違が大きく,単純な平均化では不確実性を考慮できないという課題がある。
    • 専門家の意見の不一致を有効活用し,より堅牢で信頼性の高いAIシステムを構築することを目指す。
    • 提案手法は,CBCTデータセットにおいて最先端の性能(Diceスコア92.11%)を達成した。
    • MRIデータセットにおいても高い性能(Diceスコア90.72%)を示し,有効性が確認された。
    • 専門家の意見の不一致を有益な信号として捉えることで,医療AIシステムの信頼性向上に貢献する。

    Link: https://arxiv.org/abs/2510.10462

  • TIPS術後予測のための多角的相互作用:多施設データセットと生存率,合併症,門脈圧評価のためのフレームワーク [cs.CV]目的:TIPS術後の生存率,合併症,門脈圧を予測するための多角的フレームワークの開発
    • 門脈高血圧症の治療法であるTIPSは重要だが,術後予後や肝性脳症の発症にばらつきがあり,正確な予測が求められている。
    • 既存研究では,ROIアノテーションの労力や単一モダリティの限界,単一エンドポイント予測の不完全性といった課題が存在する。
    • 本研究は,多施設データセットと多角的相互作用フレームワークにより,TIPS術後の予後予測精度の向上を目指す。
    • MultiTIPSデータセットは,TIPS術後の予後研究を促進する初の公開多施設データセットである。
    • 提案手法は,既存手法と比較して,生存率,門脈圧勾配,肝性脳症の予測において優位性を示した。
    • 多角的特徴量の相互作用と補完的な表現統合により,モデルの精度と頑健性が向上し,臨床応用への期待が高まる。

    Link: https://arxiv.org/abs/2510.10464

  • 画像が雄弁に語るとき:クロスモーダルガイダンスによるVLMにおける言語バイアス誘発幻覚の軽減 [cs.CV]目的:言語バイアスが誘発する幻覚の軽減
    • 画像と言語を理解するVLMは,多様な応用を可能にする重要な技術である。
    • 既存のVLMは,文法的に流暢だが画像と無関係な回答を生成する幻覚の問題を抱える。
    • 本研究は,言語バイアスが幻覚に及ぼす影響を分析し,それを軽減する手法を提案する。
    • 提案手法CMGは,追加の学習や条件設定なしに,VLMの幻覚を効果的に軽減できる。
    • CMGは,視覚-言語注意機構を弱めることで,視覚情報の認識を強調し,言語バイアスを抑制する。
    • 様々なVLMにおいて,幻覚評価ベンチマークで性能向上が確認され,汎用性も示された。

    Link: https://arxiv.org/abs/2510.10466

  • DAGLFNet:深層注意誘導型グローバル・ローカル特徴融合による疑似画像点群セグメンテーション [cs.RO, cs.SY, eess.SY, cs.CV, cs.LG]目的:疑似画像点群セグメンテーションのための深層学習フレームワーク
    • 高精度マッピングや自律走行において,環境認識は不可欠であり,LiDARは重要な役割を担う。
    • 点群データの構造的・意味的情報を効率的に抽出することが課題であり,既存手法では特徴融合が不十分な場合がある。
    • 点群の構造と意味を考慮し,特徴融合と識別能力を向上させることでセグメンテーション精度を高める。
    • DAGLFNetは,SemanticKITTIの検証セットで69.83%,nuScenesで78.65%の精度を達成した。
    • グローバル・ローカル特徴融合モジュールにより,点群の局所特徴間の相関と大域的な文脈情報を強化した。
    • 深層特徴誘導型注意機構により,チャンネル間特徴融合の精度を向上させ,リアルタイム性能と高精度を両立した。

    Link: https://arxiv.org/abs/2510.10471

  • MSF-Mamba:モーション認識を意識した状態融合Mambaによる効率的な微表情ジェスチャー認識 [cs.CV]目的:微表情ジェスチャーの識別
    • 人間の微妙な動きの認識は,ヒューマンコンピュータインタラクション等の分野で重要性が増している。
    • 既存のモデルは,長距離依存性と局所的な時空間的依存性の両方を捉えるのが難しい。
    • モーション情報を考慮した局所的な時空間的依存性のモデリングにより,微表情ジェスチャー認識の精度向上を目指す。
    • 提案手法MSF-Mambaは,状態融合モジュールとモーション認識モジュールを導入し,Mambaの性能を向上させた。
    • MSF-Mambaは,既存のCNN,Transformer,SSMベースのモデルと比較して,高い効率を維持しつつ,最先端の性能を達成した。
    • 特に軽量版のMSF-Mambaでも,優れた性能が確認された。

    Link: https://arxiv.org/abs/2510.10478

  • 視覚言語モデルの三角整合性に基づく自己洗練 [cs.CV, cs.AI]目的:視覚言語モデルの自己洗練能力の検証
    • 視覚と言語の統合は,AIの高度な理解と推論能力を実現する上で不可欠である。
    • 教師ありデータへの依存度が高く,教師なし学習による潜在能力が十分に活用されていない。
    • 視覚言語モデルが外部からの入力なしに,自己で高品質な学習データ生成と改善を可能にする。
    • 提案手法は,三角整合性という原理に基づき,モデル自身が指示生成とデータフィルタリングを行うことで,自己洗練を実現する。
    • LLaVA-1.5を用いた実験により,外部の教師データなしで,複数のベンチマークにおいて一貫した性能向上が確認された。
    • この研究は,視覚言語モデルの学習メカニズムに関する新たな知見をもたらし,今後の研究を促進することが期待される。

    Link: https://arxiv.org/abs/2510.10487

  • ファイングレイン画像生成のためのヘッドワイズ適応ロータリー位置エンコーディング [cs.CV]目的:ファイングレイン画像生成における位置情報のモデリング改善
    • 画像生成において,Transformerの性能は位置情報の効果的な表現に大きく依存する。
    • 従来のロータリー位置埋め込み(RoPE)は,多次元画像への適用において空間関係や色情報の捉え方に課題があった。
    • RoPEの周波数割り当てを適応的に変化させ,ヘッドごとに異なる位置受容野を学習することを目指す。
    • 提案手法HARoPEは,特異値分解(SVD)を用いた軽量な線形変換を導入することで,RoPEの性能を向上させる。
    • HARoPEは,動的な周波数再割り当て,セマンティックなロータリー平面のアライメント,ヘッド固有の位置受容野を実現する。
    • ImageNetやテキストからの画像生成実験により,HARoPEがRoPEのベースラインおよび拡張に対して一貫して優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2510.10489

  • Jigsaw3D:パッチシャッフルとマスキングによる分離型3Dスタイル転送 [cs.CV]目的:3Dアセットのスタイル転送
    • 3Dコンテンツの表現力向上は,様々な応用分野において重要である。
    • 既存手法では,スタイルと意味内容が混同され,最適化に時間がかかる場合がある。
    • スタイルと内容を分離し,高速かつ一貫性のあるスタイル転送を実現する。
    • Jigsaw3Dは,参照画像のスタイルを3Dアセットに適用し,多視点の一貫性を保ちながら高速なスタイル転送を可能にする。
    • パッチシャッフルとマスキングにより,オブジェクトの意味内容を抑制し,スタイルの統計情報(色,ストローク,テクスチャ)を分離する。
    • 標準的な3Dスタイル転送ベンチマークにおいて,高いスタイル忠実度と一貫性,そして低遅延を実現した。

    Link: https://arxiv.org/abs/2510.10497

  • SuperEx:非視認範囲感知による屋内マッピングと探索の高度化 [cs.RO, cs.CV]目的:未知の屋内環境における効率的な探索とマッピング
    • 災害時などの緊急時において,迅速かつ正確な環境理解が不可欠である。
    • 従来のロボットは視認範囲に制限され,遮蔽物の裏側は物理的に移動しないと認識できない。
    • 非視認範囲の感知技術を導入し,効率的な探索と高精度なマッピングを実現する。
    • SuperExは,単一光子LiDARの持つ非視認範囲感知能力をマッピング・探索ループに統合するフレームワークである。
    • タイミングヒストグラムから空虚な非視認範囲を削ぎ取り,物理ベースとデータ駆動型アプローチで占有構造を再構築する。
    • シミュレーションと実環境での評価により,既存手法と比較してマッピング精度が向上し,探索効率が改善された。

    Link: https://arxiv.org/abs/2510.10506

  • MARS-Sep:マルチモーダルアラインメント強化学習による音源分離 [cs.SD, cs.AI]目的:マルチモーダルアラインメント強化学習フレームワークMARS-Sep
    • 音源分離は,音声認識やコミュニケーションにおいて重要な技術であり,実用性が高い。
    • 従来の音源分離は,信号レベルの評価指標と知覚的な品質との間に乖離が生じやすい。
    • 知覚的に妥当な音源分離を実現するため,マルチモーダル報酬を用いた強化学習を適用する。
    • MARS-Sepは,音源分離を意思決定問題として再定義し,強化学習フレームワークを導入した。
    • 提示された実験結果から,テキスト,音声,画像を用いたクエリ分離において,性能が向上することが示された。
    • マルチモーダル報酬により,意味的な一貫性を高め,信号レベルの評価指標と知覚的な品質のバランスを取ることができた。

    Link: https://arxiv.org/abs/2510.10509

  • VR-Thinker:画像を用いた思考推論によるビデオ報酬モデルの性能向上 [cs.CV]目的:ビデオ報酬モデルにおける思考推論能力の強化
    • 視覚生成モデルの性能向上に,マルチモーダル報酬モデルが大きく貢献している。
    • 現在の報酬モデルは,視覚情報の入力にコンテキストの多くを消費し,詳細な情報を捉えきれない。
    • 視覚的根拠に基づいた思考推論を可能にし,幻覚や忘却を抑制する。
    • VR-Thinkerは,視覚的推論操作と可変の視覚メモリウィンドウを導入することで,報酬モデルの視覚的証拠の取得と更新を改善した。
    • キュレーションされた視覚的思考データを用いた冷間スタートと,高品質なサンプルを用いたリジェクションサンプリングによるファインチューニングを実施した。
    • VideoGen Rewardで80.5%,GenAI-Benchで82.3%,MJ-Bench-Videoで75.6%という,最先端の精度をオープンソースモデルで達成した。

    Link: https://arxiv.org/abs/2510.10518

  • ビジョン推論のための受容野拡張ルックアップテーブル:低レベルから高レベルタスクへの発展 [cs.CY, cs.RO, cs.CV]目的:CNNの高速推論性能向上
    • 深層学習の推論速度向上は,実用化において重要な課題である。
    • 既存のルックアップテーブル法は,受容野が限られているという課題がある。
    • 固定サイズのテーブルで受容野を拡大し,高速推論と精度を両立することを目指す。
    • 最適な格子ベクトル量子化器を学習することで,データ次元ごとの量子化解像度を適応的に割り当てている。
    • 格子ベクトル量子化器は,従来のScalar量子化器よりもCNNカーネルを高精度に近似できる。
    • 不規則なDilated畳み込みやU字型のカスケードLUT構造により,テーブルサイズを膨らませることなく多レベルの文脈情報を捉えている。

    Link: https://arxiv.org/abs/2510.10522

  • マルチモーダルプロンプトによる統一されたオープンワールドセグメンテーション [cs.CV]目的:オープンワールドセグメンテーションにおける課題解決
    • 画像認識技術の発展は,多様なシーン理解に不可欠である。
    • 既存手法は,語彙や文脈への対応が不十分である。
    • マルチモーダルプロンプトを活用し,汎化性能を高める。
    • COSINEは,テキストと画像の両方のプロンプトに対応した統一的なセグメンテーションモデルである。
    • これにより,オープンボキャブラリーセグメンテーションとインコンテキストセグメンテーションの性能が向上する。
    • 視覚的プロンプトとテキストプロンプトの相乗効果により,単一モダリティ手法よりも汎化性能が向上する。

    Link: https://arxiv.org/abs/2510.10524

  • 統合されたビジョンと言語モデルによるレイアウト非依存型ナンバープレート認識 [cs.CV]目的:多様なナンバープレートのレイアウトと厳しい現実世界の条件下で信頼性の高い自動ナンバープレート認識
    • 交通管理や監視システムにおいて,ナンバープレート認識技術は重要な役割を担う。
    • 従来のナンバープレート認識は,特定のレイアウトに依存し,多様な状況への対応が課題であった。
    • レイアウトに依存せず,ノイズや歪み,特殊なフォントにも対応できる認識システムの開発。
    • 提案手法は,視覚情報と言語的情報を統合し,反復的な言語モデル機構によりOCR精度を向上させている。
    • 複数の国際データセット(IR-LPR,UFPR-ALPR,AOLP)において,既存のセグメンテーションフリー手法と比較して,優れた精度と堅牢性を示した。
    • 認識段階にパターン分析を組み込むことで,コンピュータビジョンと自然言語処理の連携を強化し,適応性を高めている。

    Link: https://arxiv.org/abs/2510.10533

  • 欠損率の不均衡下におけるモダリティの取り扱いに関する汎用的なフレームワーク:MCE [cs.CV, cs.LG, cs.MM]目的:不均衡な欠損率下におけるモダリティの取り扱い
    • マルチモーダル学習は多様なパターン認識応用に進展しているが,欠損モダリティへの対応は課題である。
    • 欠損率の高いモダリティは学習が進まず,表現力が低下し,貢献度が減少するという悪循環に陥りがちである。
    • モダリティの有用性のサンプルレベルでの変動や,特徴量の質の低下といった問題を解決する。
    • MCEは,マルチレベルの因子を導入し,モダリティごとの学習進捗を動的に調整する学習能力向上(LCE)と,部分集合予測とクロスモーダル補完タスクを通じて特徴量の意味と堅牢性を向上させる表現能力向上(RCE)の2つの相乗効果的なコンポーネントを含む。
    • 4つのマルチモーダルベンチマークにおける包括的な評価により,MCEは様々な欠損構成下で最先端の方法を一貫して上回ることが示された。
    • 本研究のコードは公開されており,論文のプレプリント版も利用可能である。

    Link: https://arxiv.org/abs/2510.10534

  • GLOFNet:GLOFモニタリングと予測のためのマルチモーダルデータセット [cs.RO, cs.SY, eess.SY, cs.CV, cs.AI]目的:GLOFモニタリングと予測のためのマルチモーダルデータセット
    • 高山地域におけるGLOFは甚大な被害をもたらすため,その予測研究は重要である。
    • 既存研究は事後的なマッピングに偏っており,予測に必要な多角的なデータ統合が不足している。
    • 視覚的指標と物理的前兆を組み合わせた調和のとれたデータセットを提供し,予測精度向上を目指す。
    • GLOFNetは,Sentinel-2画像,NASA ITS_LIVE速度データ,MODIS LSTデータを統合した。
    • 過去20年以上のデータを用いて,季節的な氷河速度サイクルや約0.8K/decadeの長期的な温暖化が確認された。
    • データセットは公開されており,マルチモーダル深層学習による希少災害予測研究のベンチマークとして活用可能である。

    Link: https://arxiv.org/abs/2510.10546

  • 鉄道線路における改良YOLO11とチャネルプルーニングに基づく異物検知MRS-YOLO [eess.SY, cs.SY, cs.CV]目的:鉄道線路における送電線異物検知の高精度化と効率化
    • 送電線は電力供給の基盤であり,安定稼働には異物の早期発見が不可欠である。
    • 既存の異物検知手法では,見逃しや誤検出が多く,リアルタイム処理が困難である。
    • 本研究は,より高精度かつ高速な異物検知アルゴリズムを開発し,送電線の安全性を向上させる。
    • 提案手法MRS-YOLOは,mAP50が94.8%,mAP50:95が86.4%と,ベースラインと比較してそれぞれ0.7%p,2.3%p向上した。
    • パラメータ数とGFLOPsは,それぞれ44.2%と17.5%削減され,計算効率も大幅に改善された。
    • 改良アルゴリズムは,鉄道送電線における異物検知タスクに優れた適用性を持つことが示された。

    Link: https://arxiv.org/abs/2510.10553

  • BitMar:エピソード記憶を用いた低ビットマルチモーダル融合によるエッジデバイス向けモデル [cs.CL, cs.AI, cs.CV]目的:エッジデバイスにおける効率的な画像テキスト生成
    • マルチモーダルモデルは画像とテキストの理解に優れるが,計算コストが高い。
    • 大規模モデルの推論は,リソース制約のあるエッジデバイスでは困難である。
    • 低ビット量子化とエピソード記憶を活用し,エッジデバイスでの実用化を目指す。
    • BitMarは,テキストと画像のエンコーダにそれぞれ1.58ビットの量子化を用いることで,コンパクトな埋め込み表現を実現した。
    • 固定サイズのキーバリュー型エピソード記憶をクエリすることで,限られたリソース下で効果的な画像テキスト生成を可能にした。
    • レイヤーごとの条件付けとスライディングウィンドウ型アテンション機構により,高品質かつ低遅延な性能を両立した。

    Link: https://arxiv.org/abs/2510.10560

  • 一貫性正則化と類似度学習に基づく深層半教師あり学習による雑草分類 [cs.CV, cs.LG]目的:雑草分類のための深層半教師あり学習手法
    • 精密農業の発展には,雑草の正確な識別が不可欠であり,収量損失の抑制に貢献する。
    • 雑草と作物の外観の類似性や環境条件の変化により,雑草の識別は困難な課題である。
    • ラベル付きデータの不足を補い,ロバストで高性能な分類を実現することを目的とする。
    • 提案手法は,DeepWeedsデータセットを用いた実験とノイズ条件下での推論により,最先端の完全教師あり深層学習モデルと比較して有効性とロバスト性が実証された。
    • 一貫性正則化と類似度学習を組み合わせた深層オートエンコーダアーキテクチャが,ラベルなしデータの活用に貢献する。
    • 提案手法の共同学習戦略に関する詳細な分析のために,アブレーションスタディを実施した。

    Link: https://arxiv.org/abs/2510.10573

  • UniFlow:視覚的理解と生成のための統一されたピクセルフロー・トークナイザー [cs.CV]目的:視覚的理解と生成のための統一的なトークナイザーの開発
    • 視覚理解と生成は,AIの重要な分野であり,汎用的なモデル構築への鍵となる。
    • 既存のトークナイザーは,視覚理解と生成の性能にトレードオフが存在する。
    • UniFlowは,高レベルな意味特徴と低レベルなピクセル再構成の両立を目指す。
    • UniFlowは,事前学習済みの視覚エンコーダーに自己蒸留を適用し,理解と生成の両方の性能を向上。
    • 軽量なパッチごとのピクセルフロー・デコーダーにより,高忠実度のピクセル再構成を実現。
    • 13のベンチマークにおいて,既存のTokenFlow-XLを上回り,UniTokよりも優れた再構成・生成性能を示した。

    Link: https://arxiv.org/abs/2510.10575

  • 困難なシーンにおける拡散を用いた光学的フローへのフレーム・イベント補完的融合 [cs.CV]目的:高速度・低照度シーンにおける光学的フロー推定の改善
    • 光学的フロー推定は,自動運転やロボット工学など,様々な応用分野で不可欠な技術である。
    • 従来のシーンでは良好な結果が得られるが,モーションブラーや照度不足により,高速度・低照度シーンでは性能が低下する。
    • フレームカメラとイベントカメラの特性を融合し,拡散モデルを用いることで,劣化した視覚特徴に依存しないロバストな推定を目指す。
    • 提案手法Diff-ABFlowは,拡散モデルを用いてノイズ化されたフローから鮮明なフローを学習することで,劣化した視覚特徴の影響を軽減する。
    • フレームカメラのテクスチャとイベントカメラの境界情報を融合することで,高速度・低照度シーンにおける光学的フロー推定の精度を向上させる。
    • 実証実験により,提案手法が既存手法と比較して優れた性能を発揮することが示された。

    Link: https://arxiv.org/abs/2510.10577

  • GraphTracer:LLMエージェントによる堅牢な多段階深層探索のためのグラフ誘導型障害追跡 [cs.DB, cs.GR]目的:LLMエージェントにおける多段階深層探索の障害追跡
    • LLMを活用したマルチエージェントシステムは複雑なタスクに優れるが,信頼性向上が課題である。
    • 既存手法では,マルチエージェント間でのエラー伝播の根本原因の特定が困難である。
    • 情報依存性を考慮した障害追跡により,マルチエージェントシステムのデバッグを改善する。
    • GraphTracerは,情報依存グラフを用いてエージェント間の情報フローを分析し,障害の根本原因を特定する。
    • Who\&Whenベンチマークで,最先端モデルと比較して最大18.18%高い障害特定精度を達成した。
    • 実運用システムへの統合により,マルチエージェントフレームワークの性能が4.8%~14.2%向上した。

    Link: https://arxiv.org/abs/2510.10581

  • 専門家混合を用いたビジョン基盤モデルによる分布外検出 [cs.CV]目的:分布外検出のためのビジョン基盤モデルの性能向上
    • 画像認識技術の進歩は,様々なコンピュータビジョンの応用を可能にした。
    • 分布外データの検出は,現実世界の応用において重要な課題である。
    • 複雑なデータ分布に対応し,分布外検出の精度を向上させる。
    • 事前学習済みのDINOv2モデルは,追加の学習なしで高い識別能力を示し,既存手法と同等の性能を発揮する。
    • 専門家混合モジュール(MoFE)は,特徴空間を分割し,複雑なデータ分布を捉え,識別境界を洗練させる。
    • 動的-$\beta$ Mixup戦略は,カテゴリ間の学習難易度に応じて重みを調整し,難しいカテゴリの学習を改善する。

    Link: https://arxiv.org/abs/2510.10584

  • D3MAS:マルチエージェントシステムにおける知識共有の強化のための分解,推論,および分散 [cs.GR]目的:マルチエージェントシステムにおける知識冗長性の軽減
    • 大規模言語モデルを活用したマルチエージェントシステムは,共同問題解決能力が高い。
    • エージェント間での知識の重複が大きく,検索や推論の効率を低下させている。
    • 各段階で必要最小限の情報共有を可能にする構造を構築し,冗長性を削減すること。
    • D3MASは,タスク分解,共同推論,分散メモリの3層構造により,知識の冗長性を効果的に抑制する。
    • 実験の結果,D3MASは,推論精度を8.7%~15.6%向上させ,知識の冗長性を平均46%削減することに成功した。
    • 構造化されたメッセージングにより,情報がタスクのニーズと整合性を保たれる。

    Link: https://arxiv.org/abs/2510.10585

  • 視覚的 grounded 言語理解のためのシンプルかつ優れたベースライン [cs.CV]目的:視覚的 grounded 言語理解における対象オブジェクトの位置予測
    • 画像とテキストを結びつける研究分野であり,ロボット工学や画像検索への応用が期待される。
    • 既存手法は計算コストが高く,特に異なる画像スケールでの反復処理に課題がある。
    • 計算コストを削減しつつ,精度と効率性の両立を目指す。
    • 提案手法FSVGは,複雑な反復処理を排除し,言語と視覚の特徴量を直接統合する。
    • 類似度に基づく特徴選択メカニズムにより,言語に関連する視覚特徴のみを利用し,高速な予測を実現する。
    • 複数のベンチマークデータセットにおいて,最先端手法と比較して,精度と効率性のバランスが向上することが示された。

    Link: https://arxiv.org/abs/2510.10587

  • SpikeGrasp:ステレオ・スパイクストリームからの6自由度把持姿勢検出のためのベンチマーク [cs.RO, cs.RO, cs.CV]目的:6自由度把持姿勢検出
    • ロボットの把持は,自動化において重要な役割を担う。高度な知能を備えたロボットの実現に不可欠である。
    • 従来のシステムは3D点群の再構成に依存し,計算コストが高く,生物の視覚システムとは異なる。
    • スパイクカメラからの直接的な情報処理による,効率的かつ生物に似た把持システムの実現を目指す。
    • SpikeGraspは,従来の点群ベースの手法と比較して,特に煩雑な環境やテクスチャのない環境で優れた性能を示す。
    • 本研究で構築した大規模な合成ベンチマークデータセットを用いて,提案手法の有効性が検証された。
    • スパイクストリームの直接的な処理による把持姿勢検出の可能性を示し,将来のロボットシステムの発展に貢献する。

    Link: https://arxiv.org/abs/2510.10602

  • ViSurf:大規模ビジョンと言語モデルに対する視覚的教師あり・強化学習によるファインチューニング [cs.CV]目的:大規模ビジョンと言語モデルの性能向上
    • 近年,画像とテキストを理解する大規模モデルが注目を集めている。その性能は様々な応用において重要である。
    • 教師ありファインチューニングは性能改善に寄与するものの,最適とは言えない場合がある。強化学習は知識不足により課題を抱える。
    • 教師あり学習と強化学習の長所を統合し,モデルの知識不足と性能最適化を同時に解決することを目指す。
    • ViSurfは,教師あり学習と強化学習を単一の段階で統合する新しいファインチューニング手法である。
    • ViSurfは,ロールアウトに正解ラベルを注入することで,外部からの教師信号と内部の強化学習を同時に実現する。
    • 実験の結果,ViSurfは既存の教師あり学習,強化学習,および二段階のSFT→RLVRを上回る性能を示した。

    Link: https://arxiv.org/abs/2510.10606

  • OmniQuality-R:包括的な品質評価による報酬モデルの発展 [cs.CV]目的:マルチタスクにおける品質評価の統合的報酬モデリング
    • 画像認識技術の発展に伴い,生成画像の品質評価の重要性が増している。
    • 既存の評価手法は単一タスクに限定され,汎用的な品質評価が困難である。
    • 多様なタスクに対応可能な,継続的かつ解釈可能な報酬信号の生成を目指す。
    • OmniQuality-Rは,複数タスクの品質評価を連続的な報酬信号に変換する統合的フレームワークである。
    • 拒否サンプリングによる計画・推論軌跡のデータセットを構築し,高品質なCoTデータを用いた教師ありファインチューニングを実現した。
    • GRPOとSTDフィルタリング,エントロピーゲーティングにより,学習の安定化と汎化性能の向上を達成した。

    Link: https://arxiv.org/abs/2510.10609

  • HyperAgent:マルチエージェント通信におけるトポロジー最適化のためのハイパーグラフの活用 [cs.MA, cs.GR]目的:マルチエージェント通信におけるトポロジー最適化
    • 大規模言語モデルを用いたマルチエージェントシステムは,効果的なコミュニケーションにより高い集団知能を示す。
    • 既存手法は,ペアごとの関係表現に依存し,複数エージェント間の関係性を捉えきれない点が課題である。
    • タスクの複雑さに応じた通信トポロジーの動的な調整により,効率性と協調性を向上させる。
    • HyperAgentは,ハイパーグラフを用いてエージェント間の関係性を直接的に表現し,グループ協調パターンを効果的に捉える。
    • 実験の結果,GSM8Kにおいて95.07%の精度を達成し,トークン消費量を25.33%削減することに成功した。
    • ハイパーグラフに基づく最適化が,マルチエージェント通信において高い性能と効率性をもたらす可能性を示唆する。

    Link: https://arxiv.org/abs/2510.10611

  • MIDIからギタータブ譜への変換に関する機械学習アプローチ [cs.CL, cs.SD, cs.AI]目的:MIDIデータからのギタータブ譜の生成
    • 音楽制作や学習において,ギタータブ譜は演奏の補助,楽曲分析,教育に不可欠である。
    • 既存の手法では,ギターの演奏特性を考慮した自然なタブ譜の生成が困難である。
    • 機械学習を用いて,ギターの演奏特性を考慮した,より自然なタブ譜生成を試みる。
    • 機械学習によるタブ譜生成において,データの拡張学習がパフォーマンス向上に寄与することが示された。
    • 単純な単音のケースにおいても,拡張データでの学習が有効であることが確認された。
    • 本研究の結果は,今後の改善点を示唆しており,より高度なタブ譜生成への道筋を提供する。

    Link: https://arxiv.org/abs/2510.10619

  • ImpMIA:現実的なシナリオ下における暗黙的バイアスを活用したメンバーシップ推論攻撃 [cs.AR, cs.CE, cs.LG, cs.CR, cs.CV]目的:メンバーシップ推論攻撃における暗黙的バイアスの活用
    • 機械学習モデルのプライバシー保護は重要であり,学習データが推測されるリスクを軽減する必要がある。
    • 既存のメンバーシップ推論攻撃は,現実世界では成立しない仮定に依存している場合が多い。
    • モデルの重みへのアクセスに基づき,より現実的な条件下で有効なメンバーシップ推論攻撃を実現すること。
    • 本研究では,ニューラルネットワークの暗黙的バイアスを活用するImpMIAを提案し,参照モデルを必要としない。
    • ImpMIAは,KKT条件を用いて学習データに含まれるサンプルを特定し,その勾配を用いてモデルパラメータを再構成する。
    • 実験結果から,ImpMIAは現実的な設定下で,既存の攻撃手法と比較して最先端の性能を発揮することが示された。

    Link: https://arxiv.org/abs/2510.10625

  • GraphTARIF:拡張されたランクと改善された注意による線形グラフTransformer [cs.CL, cs.CV, cs.LG]目的:ノード表現の分離可能性向上
    • グラフ構造データは様々な分野で重要であり,その分析には高性能なモデルが求められる。
    • 従来のグラフTransformerは計算コストが高く,大規模グラフへの適用が困難である。
    • 線形注意機構の表現力低下と注意分布の均一性を改善し,分類性能を向上させる。
    • 提案手法は,ゲート付きローカルグラフネットワークによって注意マップのランクを向上させる。
    • 学習可能な対数べき関数を導入し,注意スコアのエン​​トロピーを減少させ,注意の集中度を高める。
    • ホモフィリックおよびヘテロフィリックなグラフベンチマークにおいて,高い性能を維持しつつ,線形注意のスケーラビリティを保っている。

    Link: https://arxiv.org/abs/2510.10631

  • disentangled motion latent flow matching による微細な制御可能な会話ポートレート合成 [cs.CV, cs.AI]目的: 微細な制御が可能な会話ポートレート動画の合成
    • 近年,動画生成技術は急速に進歩しており,現実的な映像表現が求められている。
    • 微細な動きの制御や,時間的な一貫性を保つことが課題となっていた。
    • 音声に基づき,口の動き,頭の向き,目の動きなどを独立に制御することを目指す。
    • 本研究では,モーションオートエンコーダを用いて,動きの潜在空間を構築し,各要素を分離した。
    • 最適輸送に基づくフローマッチングとTransformer予測器を組み合わせることで,滑らかな動きの軌跡を生成した。
    • 複数のベンチマークにおいて,DEMOは既存手法よりも,写実性,音声との同期性,動きの正確性で優れていた。

    Link: https://arxiv.org/abs/2510.10650