arXiv雑要約

画像・音声 - 2026/03/18 公開

  • 敵対的転移可能性向上のための局所不変性の強化 [cs.RO, cs.CV]目的:敵対的転移攻撃における局所不変性の重要性の解明と,その向上手法の開発
    • 敵対的攻撃は,現実世界のAIシステムに対する深刻な脅威であり,その対策は喫緊の課題である。
    • 既存の研究では,敵対的摂動と入力画像の間の内在的な関係が見過ごされており,転移可能性の向上が不十分である。
    • 敵対的摂動の局所不変性を高めることで,モデル間の敵対的転移可能性を向上させることを目指す。
    • 本研究により,敵対的摂動の局所不変性と,その転移可能性との間に正の相関関係があることが示された。
    • 提案手法LI-Boostは,様々な敵対的攻撃手法に対して有効であり,CNN,ViT,防御機構など,幅広いモデルで性能を向上させる。
    • 本研究は,モデル間の敵対的転移可能性を向上させるための新たな方向性を示す。

    Link: https://arxiv.org/abs/2503.06140

  • CloSE:形状に依存しない布の状態表現 [cs.RO, cs.CV]目的:布の状態表現
    • 布の操作は,その非剛体性から困難であり,変形を適切に表現することが重要である。
    • 既存の表現方法は,布の形状やサイズに依存し,汎用性に欠ける場合がある。
    • 異なる形状やサイズ,向きの布に対して一貫した特徴を捉える表現を提案する。
    • 提案手法CloSEは,布の状態をコンパクトかつ連続的に表現できる。
    • CloSEは,複数の布シミュレーションデータセットにおいて,折り目の位置を正確に予測できる。
    • セマンティックラベリングや高・低レベルプランニングといった応用においても有効性が示された。

    Link: https://arxiv.org/abs/2504.05033

  • 雪を降らせよう!物理シミュレーションによるスコア蒸留を用いた3Dガウスシーンの動的な気象効果のアニメーション [cs.GR, cs.CV]目的:3Dガウスシーンにおける動的な気象効果の生成
    • 3Dシーンの高速かつ写実的な再構成が求められる中で,動的な編集技術は重要な課題である。
    • 既存技術では,写実性と一貫性のある運動の生成が難しいという問題がある。
    • 物理シミュレーションとスコア蒸留を統合し,写実性と運動の一貫性を両立させる。
    • 提案手法は,物理シミュレーションによってスコア蒸留を誘導し,写実的な運動の生成を可能にする。
    • 本手法により,雪,雨,霧,砂嵐などの物理的に妥当な気象効果をシーン全体に適用できる。
    • 実験の結果,提案手法は既存手法と比較して,一貫性と忠実度の高い動的な表現において優れた性能を発揮する。

    Link: https://arxiv.org/abs/2504.05296

  • MASS:適応的部分空間選択による融合 [cs.LG, cs.AI, cs.CV]目的:複数タスクのファインチューニング済みモデルの統合
    • モデルの再利用性が高く,限られた計算資源での性能向上が期待される分野である。
    • 既存のモデル融合手法では,個別にファインチューニングしたモデルの性能に及ばない場合がある。
    • 適応的部分空間選択により,融合モデルの性能を向上させ,アンサンブルの代替とする。
    • MASSは,タスク固有の更新を低ランク分解し,重要な特異成分のみを保存することで,複数のファインチューニング済みモデルを統合する。
    • 推論時には,データ不要のルーターが入力の中間特徴を最も良く説明する部分空間を特定し,対応するタスク固有のブロックを活性化する。
    • CLIPベースの画像分類において,最先端の性能を達成し,個別にファインチューニングしたモデルの平均精度を約98%まで回復する。

    Link: https://arxiv.org/abs/2504.05342

  • ソーシャルネットワークにおける戦略的な資源配分と利用を通じた持続可能な協力の促進 [cs.GT]目的:ソーシャルネットワークにおける持続可能な協力の促進
    • 集団の福祉と長期的な社会の持続可能性にとって,資源の効率的な配分と利用は不可欠である。
    • 協力と自己利益の間で緊張が生じ,資源配分と利用の戦略が複雑化している。
    • 資源配分と利用戦略,相互作用構造間の相互作用から協力を生み出す方法を解明する。
    • 均等な資源配分は均質ネットワークでは協力を促進するが,異質ネットワークでは抑制する可能性があることが示された。
    • 資源配分スキームの設計に関する政策立案者向けの戦略と,持続可能な利用を支援する個人向けの戦略が提案された。
    • これらのアプローチは,合成および実証的な事例の両方で有効であることが確認された。

    Link: https://arxiv.org/abs/2504.10910

  • コンセンサスエントロピー:複数VLMの合意を用いた自己検証・自己改善型OCR [cs.CV, cs.MM]目的:複数VLM間の合意度から出力の信頼性を推定する指標
    • OCRはVLMやLLM学習のための高品質データ生成に不可欠であり,その重要性は高い。
    • 既存VLMはサンプルレベルのエラー検出が難しく,教師なし品質管理が課題である。
    • 本研究は,VLMのOCRエラー検出能力向上と品質管理の自動化を目指す。
    • コンセンサスエントロピー(CE)は,モデル間の出力合意度に着目し,エラーを効率的に検出する。
    • CEを用いたCE-OCRは,アンサンブル合意による出力検証と適応的ルーティングにより,OCR精度を向上させる。
    • CEは学習不要で既存システムに容易に組み込めることが示され,VLM-as-JudgeよりF1スコアを42.1%改善した。

    Link: https://arxiv.org/abs/2504.11101

  • ハイパースペクトル画像分類のための動的メモリTransformer [cs.CV]目的:ハイパースペクトル画像分類における複雑な空間-スペクトル依存性の効果的なモデリング
    • ハイパースペクトル画像は,精密な地表面分析に不可欠であり,様々な分野での応用が期待されている。
    • ラベル付きデータの不足と高次元性により,効果的な分類が困難であるという課題が存在する。
    • Transformerの冗長な注意機構を改善し,高精度かつ効率的なハイパースペクトル画像分類を実現すること。
    • 提案手法MemFormerは,3つのベンチマークデータセットで,従来の畳み込み,ハイブリッド,Transformerベースの手法と比較して優れた分類性能を示した。
    • Indian Pinesデータセットにおいて,全体精度99.55%,平均精度99.38%,κ係数99.49%を達成し,その有効性と効率性を実証した。
    • 動的メモリ機構と空間-スペクトル位置埋め込みにより,長距離依存性の効率的なモデリングと冗長性の低減に成功した。

    Link: https://arxiv.org/abs/2504.13242

  • FALCON:視覚と言語の整合における対照的負例の偽陰性認識学習 [cs.CV, cs.AI]目的:視覚言語整合のための対照的負例学習における偽陰性への対応
    • 大規模データセットにおける画像とテキストの多対多の関係から,偽陰性は視覚言語事前学習の重要な課題である。
    • 従来の学習法では,偽陰性による矛盾した教師信号が埋め込み空間を劣化させ,ハードネガティブサンプリングの効果を損なう。
    • FALCONは,各アンカーインスタンスに対して適切な難易度の負例を動的に選択し,偽陰性の影響を軽減する。
    • FALCONは,ALBEF,BLIP-2,SigLIP-2を含む3つの視覚言語学習フレームワークにおいて性能を大幅に向上させた。
    • 様々なダウンストリームタスクと評価設定において,FALCONの有効性と堅牢性が確認された。
    • FALCONは,ハードネガティブと偽陰性のトレードオフを動的に調整し,クロスモーダル整合性を向上させる。

    Link: https://arxiv.org/abs/2505.11192

  • SophiaVL-R1:思考報酬によるマルチモーダル大規模言語モデルの推論能力強化 [cs.NI, cs.FL, cs.CV]目的:マルチモーダル大規模言語モデルにおける推論能力向上のための手法
    • マルチモーダル大規模言語モデルは,画像とテキストを理解し活用できるため,多様な応用が期待されている。
    • 既存手法では,最終的な結果のみに報酬を与えるため,推論過程の最適化が不十分になりやすい。
    • 思考過程に対する報酬を導入し,より効率的な推論戦略を獲得し,汎化性能を向上させる。
    • 本研究で提案するSophiaVL-R1は,様々なベンチマークにおいて既存の推論型マルチモーダル大規模言語モデルを上回る性能を示した。
    • 特に,SophiaVL-R1-7Bは,10倍のパラメータ数を持つLLaVA-OneVision-72Bを多くのベンチマークで凌駕する結果となった。
    • 思考報酬の信頼性を高めるTrust-GRPOや,報酬の減衰スケジュールが,性能向上に貢献している。

    Link: https://arxiv.org/abs/2505.17018

  • 強化学習による数ステップテキストから多視点拡散の改良 [cs.LG, cs.CV]目的:数ステップテキストから多視点拡散モデルの品質向上
    • テキストからの画像生成技術は,多様な視点からの画像生成を可能にし,3Dコンテンツ作成などに貢献する。
    • 数ステップモデルは高速だが,生成される各視点の品質や視点間の整合性に課題が残る。
    • 本研究は,強化学習を用いて,数ステップテキストから多視点拡散モデルの品質と一貫性を向上させる。
    • 提案手法MVC-ZigALは,生成された全ての視点を同時に評価する新しいマルコフ決定過程(MDP)を導入した。
    • 自己改善サンプリングスキームを活用した新しい利点学習戦略により,強化学習の学習信号を強化した。
    • ラグランジュ双対法を用いた統一的な強化学習フレームワークにより,単一視点と全体的な品質のバランスを取ることに成功した。

    Link: https://arxiv.org/abs/2505.20107

  • 記憶から汎化へ:結合的記憶からの拡散モデルの創現 [cs.RO, cs.NI, cs.LG, cond-mat.dis-nn, cs.CV, q-bio.NC, stat.ML]目的:拡散モデルの創現過程における記憶と汎化の移行
    • 生成モデルの性能向上には,データ記憶と新しいデータ生成能力のバランスが不可欠である。
    • 結合的記憶では,記憶容量を超えると望ましくない偽の状態が現れ,記憶想起を妨げる。
    • 拡散モデルにおける偽の状態が,生成能力の兆候であることを明らかにする。
    • 拡散モデルは,学習データが少ない場合,各サンプルに対応する明確な引力点(アトラクタ)を作成する。
    • 学習データ量が増加すると,拡散モデルは記憶から汎化へと移行し,その過程で結合的記憶の理論で予測される偽の状態が現れる。
    • これらの偽の状態は,生成モデリングにおいて否定的なアーティファクトではなく,生成能力の最初の兆候として機能する。

    Link: https://arxiv.org/abs/2505.21777

  • VideoReasonBench:MLLMは視覚中心の複雑な動画推論を実行できるか [cs.CV]目的:視覚中心の複雑な動画推論能力の評価
    • 動画理解は,AIの知能において重要な課題であり,その応用範囲は広い。
    • 既存の動画理解ベンチマークは,複雑な推論を必要とせず,視覚情報の活用が不十分である。
    • 視覚情報に基づいた高度な推論能力を評価し,動画理解AIの性能向上を目指す。
    • VideoReasonBenchは,動画内の細かい操作シーケンスを理解し,段階的な推論を必要とする。
    • 18の最先端MLLMを評価した結果,多くのモデルが複雑な動画推論で低い性能を示した。
    • 思考能力を強化されたGemini-2.5-Proは,56.0%の精度で他のモデルを大きく上回った。

    Link: https://arxiv.org/abs/2505.23359

  • 構造化された指示によるチャートからコード生成のための改良反復洗練法 [cs.CV, cs.AI]目的:チャートからコード生成における性能向上
    • 視覚的理解能力を持つマルチモーダル大規模言語モデルは,様々な画像処理タスクで注目されている。
    • チャートからコード生成は複雑であり,既存モデルの性能は十分とは言えない。
    • 構造化された指示と反復洗練により,コード生成の精度を向上させる。
    • 本研究では,視覚的理解とコード変換を分離し,記述と差分の構造化された指示を導入した。
    • チャート生成パイプラインを初期コード生成と反復洗練の2段階に分解することで,段階的な改善を可能にした。
    • Qwen2-VLおよびGPT-4oにおいて,提案手法が既存手法を上回る性能を達成した。

    Link: https://arxiv.org/abs/2506.14837

  • BridgeShape:潜在拡散シュレーディンガーブリッジによる3D形状補完 [cs.CV]目的:3D形状補完のための新しいフレームワーク
    • 3Dモデリングは,コンピュータグラフィックス,ロボティクス,VR/ARなど,幅広い分野で不可欠である。
    • 既存手法では,全体的な形状変換の最適経路を明示的にモデル化できていない場合がある。
    • ボクセル空間での拡散の解像度制約を克服し,高精度な3D形状補完を実現することを目指す。
    • BridgeShapeは,形状補完を最適輸送問題として定式化し,不完全形状から完全形状への整合性の高い変換を保証する。
    • Depth-Enhanced VQ-VAEを用いて3D形状をコンパクトな潜在空間にエンコードし,高解像度での形状補完を可能にする。
    • 大規模な3D形状補完ベンチマークにおいて,最先端の性能を達成し,高い忠実度と未知のオブジェクトクラスへの対応を示す。

    Link: https://arxiv.org/abs/2506.23205

  • IMAIA:旅行計画と地理空間インテリジェンスのためのインタラクティブ地図AIアシスタント [cs.AI, cs.CV]目的:旅行計画と地理空間情報の理解を支援するインタラクティブな地図AIアシスタント
    • 地図は現代社会において不可欠であり,様々な分野で活用されている。
    • 従来の地図アプリは操作性が限られ,自然な質問や視覚情報との連携が困難である。
    • 言語と地図,地理空間情報を統合し,より自然で実用的な地図利用を実現する。
    • IMAIAは,ベクトル地図と衛星画像を自然言語で操作可能にする。
    • カメラからの入力と地理空間情報を融合し,周囲の状況を理解する。
    • 既存のシステムと比較して,精度と応答速度が向上し,実用的な展開が可能である。

    Link: https://arxiv.org/abs/2507.06993

  • VideoITG:指示による時間的グラウンディングを用いたマルチモーダル動画理解 [cs.CV, cs.AI]目的:動画から情報豊かなフレームを効率的に選択するための手法
    • 動画理解は,視覚情報と言語情報を統合し高度な推論を可能にする重要な研究分野である。
    • 複雑な指示への対応や精密な時間的モデリングが難しく,性能向上の課題となっている。
    • ユーザーの指示に基づいてフレームサンプリング戦略を適応的にカスタマイズすることを目指す。
    • VideoITGは,ユーザーの指示に基づいてフレームを選択するVidThinkerパイプラインを導入した。
    • VidThinkerを用いて,4万本の動画と50万の時系列グラウンディングアノテーションを含むVideoITG-40Kデータセットを構築した。
    • VideoITGは,複数のマルチモーダル動画理解ベンチマークで性能を向上させ,有効性を示した。

    Link: https://arxiv.org/abs/2507.13353

  • マルチモーダル視覚オブジェクトトラッキングにおける包括的サーベイ [cs.CV]目的:マルチモーダル視覚オブジェクトトラッキング(MMVOT)におけるマルチモーダリティ分析
    • スマートシティの発展により,インフラやサービスを包括的に監視する多種多様なデータが生成されている。
    • MMVOTでは,データ収集,モダリティ整列・注釈,モデル設計,評価において単一モダルトラッキングとの違いが生じる。
    • MMVOTの現状を把握し,情報融合が常に優位であるか,どのような場合に有効かを考察する。
    • 本サーベイでは,6つのMMVOTタスクと338件の文献を網羅し,すべての側面を包括的に調査した。
    • 既存のMMVOTデータセットにおけるオブジェクトカテゴリ分布を分析した結果,ロングテール現象と動物カテゴリの不足が明らかになった。
    • RGBブランチからの実験設定を複製または非複製で補助Xブランチにプログラムすることで,様々なモダリティのMMVOT手法を分類した。

    Link: https://arxiv.org/abs/2508.13000

  • PhysGM:前方4次元合成のための大規模物理ガウスモデル [cs.MA, cs.CV]目的:単一画像からの3Dガウス表現と物理的特性の同時予測
    • 物理ベースの3Dモーション合成は,現実世界の動きを再現する上で不可欠である。
    • 既存手法は,時間のかかる事前最適化や不安定な最適化に依存し,効率と品質に課題がある。
    • PhysGMは,これらの課題を解決し,高速かつ高品質な4次元合成を実現することを目指す。
    • PhysGMは,単一画像から1分以内に高品質な4次元シミュレーションを生成し,従来手法と比較して大幅な高速化を達成した。
    • 物理情報を外観に組み込み,最適化のコストを抑えながら,物理的に妥当なレンダリングを実現した。
    • 物理的特性と対応する参照動画を含む50K以上の3DアセットからなるPhysAssetsデータセットを新たに提案した。

    Link: https://arxiv.org/abs/2508.13911

  • 反復エージェントガイダンスによる学習不要な高インスタンス画像生成:CountLoop [cs.CV]目的:高密度な環境における正確なオブジェクト数の制御
    • 拡散モデルは写実的な画像を生成するが,高密度な場面での正確なオブジェクト数制御は課題である。
    • 既存の画像生成モデルは,オブジェクトの数や配置を正確に制御することが困難である。
    • VLMを活用し,反復的なフィードバックを通してオブジェクト数を正確に制御する手法を開発する。
    • COUNTLOOPは,VLMに基づくプランナーと批評家を交互に用いることで,正確なインスタンス制御を学習なしに実現した。
    • COCO-Count,T2I-CompBenchを含む評価により,オブジェクト数のカウントエラーを最大57%削減し,空間品質も向上することが示された。
    • インスタンス駆動型のアテンションマスキングにより,オブジェクト間の意味的漏洩を抑制し,高密度なシーンでも明確な分離を実現した。

    Link: https://arxiv.org/abs/2508.16644

  • 視覚言語モデルとHOI専用手法におけるHOI評価のための統一ベンチマーク [cs.CV]目的:視覚言語モデルとHOI専用手法のHOI検出性能を比較可能にするためのベンチマーク
    • 人間と物体の相互作用(HOI)の理解は,ロボット工学や画像解析において不可欠な技術である。
    • 既存のHOIベンチマークは,不完全な注釈による厳密なラベルマッチングを要求し,妥当な予測も誤りと判定される問題がある。
    • 妥当な予測も正しく評価できる,新しいHOIベンチマークの開発によって,公平な比較評価を実現する。
    • 大規模な視覚言語モデルは,ゼロショット学習においてHOI検出において競争力,場合によっては優れた性能を示すことが明らかになった。
    • 視覚言語モデルは,複数の同時アクションやターゲット人物への正確な相互作用の割り当てにおいて課題を抱えていることが示された。
    • 一方,HOI専用手法は,一般的なHOI推論は弱いものの,複数のアクション認識や人物の特定においてより高い信頼性を示すことがわかった。

    Link: https://arxiv.org/abs/2508.18753

  • TempCore: ビデオQAベンチマークは時間的に基盤があるか?フレーム選択感度分析とベンチマーク [eess.SY, cs.SY, math.OC, cs.CV, cs.CL, cs.LG]目的:ビデオQAベンチマークにおける時間的基盤の検証
    • ビデオ理解はAI研究の重要な分野であり,現実世界での応用が期待される。
    • 既存のビデオQAベンチマークは,時間的な情報をどの程度必要としているか不明である。
    • 時間的基盤に依存するサンプルを抽出し,より適切な評価基準を確立すること。
    • 多くのビデオQAサンプルはフレーム選択に依存せず,時間的要素が重要でないことが示された。
    • フレーム選択感度 (FSS) と言語独立性スコア (LIS) を組み合わせることで,時間的に敏感なサンプルの割合が低いことが明らかになった。
    • 時間的に敏感なサンプルに焦点を当てた評価サブセット TempCore を構築し,公開予定である。

    Link: https://arxiv.org/abs/2509.01167

  • 凸ゲームにおける最小コア値と核の高速アルゴリズム [cs.GT]目的:凸ゲームにおける最小コア値と核の計算手法
    • 協力ゲーム理論は,資源配分や意思決定の公平性を分析する上で重要である。
    • 核の計算はNP困難であり,効率的なアルゴリズムが求められていた。
    • 既存の楕円体法よりも高速な,組合せ的なアルゴリズムを開発し,計算効率を向上させる。
    • 最小コア値計算のオラクル複雑度を従来の $n^3$ 倍に改善する組合せアルゴリズムを開発した。
    • その結果,凸ゲームにおける核の計算に対して,新しい強多項式時間かつ組合せ的なアルゴリズムが得られた。
    • 予備的な分析により,楕円体法に基づくアルゴリズムと比較して,オラクル複雑度が改善される可能性が示唆された。

    Link: https://arxiv.org/abs/2509.02380

  • ANTS:テスト時MLLM理解と推論によるOOD検出のための適応的負のテキスト空間の形成 [cs.CV]目的:分布外(OOD)検出における適応的な負のテキスト空間の形成
    • 画像認識の信頼性向上には,未知の画像に対する検出能力が不可欠である。
    • 既存手法はOOD画像の理解不足により,正確な負の空間を構築しにくい。
    • MLLMの理解と推論能力を活用し,高精度なOOD検出を実現すること。
    • 提案手法ANTSは,ImageNetベンチマークにおいて誤検出率(FPR95)を3.1%大幅に削減し,最先端の性能を達成した。
    • 本手法は学習不要でゼロショットに対応しており,高い拡張性を有する。
    • 遠隔OODと近傍OODの両方に対応可能な適応的な重み付けスコアを設計した。

    Link: https://arxiv.org/abs/2509.03951

  • 信頼と協力の分離:社会的なジレンマにおける信頼の進化 [cs.GT]目的:社会的なジレンマにおける信頼の進化機構
    • 社会的なジレンマは,協力と自己利益の衝突を理解する上で重要である。
    • 従来のモデルでは,信頼と協力を区別できず,信頼の本質的な効果測定が困難である。
    • 信頼を「監視コストの削減」として定義し,信頼が協力に与える影響を明確にすることを目的とする。
    • 信頼を監視コストの削減として定義することで,様々な社会的なジレンマにおいて協力が促進されることが示された。
    • 監視コストが高い場合,信頼に基づく戦略は,高い裏切り誘惑があるジレンマにおいても協力を実現する。
    • 行動エラーが発生する場合でも,信頼に基づく戦略は調整問題における協力を促進する。

    Link: https://arxiv.org/abs/2509.04143

  • 画像生成からインフラ設計へ:ストリートデザイン生成のためのマルチエージェントパイプライン [cs.AI, cs.CV, cs.CY, cs.HC]目的:ストリートデザイン生成のためのマルチエージェントパイプライン
    • 公共交通計画における住民参加は重要であり,現実的な視覚化が不可欠である。
    • 従来のストリートデザインは手間がかかり,協調的な意思決定を阻害している。
    • リアルなストリートビュー画像上で,自転車レーンなどのインフラを自動で設計・修正する。
    • 提案手法は,多様な都市環境において道路形状や条件に適応し,指示に沿ったデザインを生成できる。
    • レーン抽出,プロンプト最適化,デザイン生成,自動評価を統合したフレームワークである。
    • 本研究は,交通インフラ計画や施設設計へのマルチエージェントパイプライン適用の基盤となる。

    Link: https://arxiv.org/abs/2509.05469

  • ERGO:ビジョン言語モデルのための効率的な高解像度ビジュアル理解 [cs.CV, cs.AI, cs.CL, cs.LG]目的:ビジョン言語モデルにおける高解像度画像処理の効率化
    • 現実世界の応用では,高解像度画像の効率的な処理が不可欠である。
    • 既存のモデルは,大量のビジョントークン処理により計算コストが大きい。
    • タスクに関連する領域に焦点を当て,計算コストを削減することを目指す。
    • ERGOは,マルチモーダルな文脈を活用して知覚的不確実性を考慮し,質問応答のために曖昧な領域をカバーする。
    • V*ベンチマークにおいて,Qwen2.5-VL-7Bを4.7ポイント上回り,ビジョン トークン数を23%削減し,推論速度を3倍に向上させた。
    • 粗い段階から細かい段階へと推論を行うことで,効率性と精度を両立している。

    Link: https://arxiv.org/abs/2509.21991

  • VLOD-TTA:テスト時にVision-Languageオブジェクト検出器を適応させる手法 [cs.CV]目的:Vision-Languageオブジェクト検出器のテスト時適応
    • Vision-Languageモデルは汎化性能が高いが,分布シフトには弱い。
    • 分布シフト下では性能が低下するため,適応技術が求められる。
    • 低オーバーヘッドでVLODを適応させ,性能低下を抑制すること。
    • 提案手法VLOD-TTAは,密な提案の重複と画像条件付きプロンプトを利用する。
    • IoU重み付きエントロピー損失と画像互換性に基づいたプロンプト選択を組み合わせる。
    • 多様な分布シフトにおいて,既存手法を上回る性能を示す。

    Link: https://arxiv.org/abs/2510.00458

  • 沈黙が重要な場合:大規模オーディオ言語モデルにおける無関係な音声がテキスト推論に与える影響 [cs.SD, cs.CL]目的:大規模オーディオ言語モデルにおけるテキスト推論性能への無関係な音声の影響
    • 音声とテキストを統合するモデルの重要性が増しているため,実世界環境における堅牢性を評価する必要がある。
    • ノイズの多い環境下では推論精度が低下する可能性があり,モデルの信頼性が損なわれる。
    • 無関係な音声が推論に及ぼす影響を特定し,その改善策を検討することで,モデルの堅牢性を高める。
    • 無関係な音声(沈黙やノイズなど)は,テキスト推論タスクにおいて精度を低下させ,予測の不安定性を増大させる。
    • 音声の持続時間,振幅,デコーディング温度が高いほど,干渉は大きくなることが示された。
    • プロンプティングによる軽減策は限定的だが,自己整合性を用いることで安定性を向上させることができる。

    Link: https://arxiv.org/abs/2510.00626

  • 美の表現:参加型でありながら客観的な潜在美学に向けて [cs.CY, cs.AI, cs.CV]目的:美の認識に関する機械の能力
    • 美は文化や経験的に魅力的であり,人間の根源的な関心事である。
    • 美の概念は哲学的にも捉え難く,機械による客観的な評価が困難である。
    • 異なるデータで学習したモデル間での美の表現の一致性を示すことで,美の客観的根拠を探求する。
    • 美しい画像は,異なるモデル間でより類似した表現を生み出すことが示された。
    • この結果は,美しい画像の形式構造には現実的な基盤が存在することを示唆する。
    • 美が文化生産と機械知覚の両方において,目的とする吸引力として機能することを示唆する。

    Link: https://arxiv.org/abs/2510.02869

  • 逐次視覚場所認識のための柔軟かつ効率的な時空間Transformer [cs.CV]目的:逐次視覚場所認識における時空間特徴の効率的な捉え方
    • ロボットや自動運転における自己位置推定は,環境理解と安全な行動に不可欠である。
    • 既存のTransformerベース手法は,柔軟性や効率性において課題があり,リアルタイム処理が困難である。
    • 可変長シーケンスへの対応,高速な推論,低メモリ使用量を同時に実現することを目指す。
    • 提案手法Adapt-STformerは,Nordland,Oxford,NuScenesデータセットにおいて,最大17%のリコール率向上を達成した。
    • Adapt-STformerは,シーケンス抽出時間を36%削減し,メモリ使用量を35%削減することに成功した。
    • Recurrent Deformable Transformer Encoderを用いることで,柔軟性,効率性,高性能を両立した。

    Link: https://arxiv.org/abs/2510.04282

  • 2Dセマンティック知識を用いた3Dアフォーダンスセグメンテーションの解明 [cs.CV]目的:3Dオブジェクトを機能的な役割に基づいて分解する手法の開発
    • ロボット工学やコンピュータビジョンの分野において,物体とのインタラクションを理解する上で重要である。
    • 3D点群データが疎であり,幾何学的手がかりが弱く曖昧な場合,既存手法は機能情報を捉えるのが困難である。
    • 大規模2Dビジョンファウンデーションモデルのセマンティック知識を活用し,3D表現学習を促進することでこの課題を解決する。
    • 提案手法Cross-Modal Affinity Transfer (CMAT)は,2D特徴からのセマンティック構造とのアライメントを3Dエンコーダに強制する事前学習戦略である。
    • CMATは,幾何学的再構成と特徴多様性という2つの補助損失によって,構造化された識別的な特徴学習を促進する。
    • 実験結果から,提案手法は既存の最先端手法と比較して,精度と効率の両方において一貫した改善が確認された。

    Link: https://arxiv.org/abs/2510.08316

  • VideoVerse: あなたのテキストから動画生成モデルは,ワールドモデル能力を持っているか? [cs.CV]目的:テキストから動画生成モデルのワールドモデル能力の評価
    • 動画生成技術の急速な進歩に伴い,モデルに高度な世界理解が求められる。
    • 既存の評価指標では,最先端モデルの性能を区別することが困難になっている。
    • 複雑な時間因果関係と世界知識を理解する動画生成モデルの評価を目指す。
    • VideoVerseは,時間因果関係と世界知識の理解度を評価する包括的なベンチマークである。
    • 多様なドメインの動画からイベントレベルの説明を抽出し,テキストから動画へのプロンプトを作成した。
    • 最先端のオープンソースおよびクローズドソースのモデルを評価し,ワールドモデル能力のギャップを明らかにした。

    Link: https://arxiv.org/abs/2510.08398

  • 疎な視点更新からの長期的ガウスシーンクロノロジー (LTGS) [cs.CV]目的:疎な視点更新からの長期的ガウスシーンクロノロジーの構築
    • 現実世界の環境を再現する技術は,ロボット工学や拡張現実など,幅広い応用分野で重要性が増している。
    • 既存手法では,密な空間・時間的観測が必要であり,日常的な環境変化への対応が困難であった。
    • 本研究は,限られた観測データから,日常的な環境変化を捉えた長期的なシーンクロノロジーの構築を目指す。
    • 提案手法LTGSは,初期入力画像から得られた不完全な3Dガウススプラッティング表現に対し,構造的な事前知識を活用することで,長期的なシーン変化をロバストにモデル化する。
    • オブジェクトをテンプレートガウスとして表現し,共有オブジェクトの追跡に再利用可能な事前情報として活用することで,効率的なシーン表現を実現する。
    • 実験結果から,LTGSは既存手法と比較して再構成品質が向上し,高速かつ軽量な更新が可能であることが示された。

    Link: https://arxiv.org/abs/2510.09881

  • 分布整合性損失:逆問題における点ごとのデータ項を超えて [cs.LG, cs.CV, physics.med-ph]目的:逆問題における真の信号の復元
    • 医療画像,地球物理学,信号処理など広範な分野で重要な信号復元技術である。
    • 従来のデータ整合性損失はノイズに過剰適合しやすく,復元精度が制限される場合がある。
    • ノイズ分布との整合性を評価することで,過剰適合を抑制し,復元精度を向上させる。
    • 提案手法である分布整合性損失は,従来の損失関数を置き換え,過剰適合を防ぐ。
    • 深層画像事前知識を用いた画像ノイズ除去において,早期終了の必要性をなくし,PSNRを向上させた。
    • ポアソンノイズを含む医療画像再構成において,アーチファクトを低減し,手動で作成した正則化の効果を高めた。

    Link: https://arxiv.org/abs/2510.13972

  • MARIS:幾何学的拡張と意味的整合による海洋オープン語彙インスタンスセグメンテーション [cs.CV, cs.AI]目的:海洋オープン語彙インスタンスセグメンテーションのための手法
    • 海洋環境下での物体認識は,水中ロボットや海洋調査において不可欠であり,その精度向上が求められている。
    • 既存手法は語彙の制限が強く,未知の海洋生物種を認識することが困難であるという課題があった。
    • 水中画像特有の視覚劣化や意味的ずれを解消し,未知の海洋生物種のセグメンテーション精度を向上させる。
    • 本研究では,大規模な水中オープン語彙セグメンテーションベンチマーク「MARIS」を新たに開発した。
    • 幾何学的特徴を強化するモジュール(GPEM)と,意味的整合性を高めるモジュール(SAIM)を組み合わせたフレームワークを提案した。
    • 提案手法は,MARISベンチマークにおいて既存のオープン語彙セグメンテーション手法を上回り,水中知覚研究の基盤となる。

    Link: https://arxiv.org/abs/2510.15398

  • 視覚的プロンプトによる画像合成を用いた,頻度を超えたバイアスなき物体検出 [cs.CV]目的:物体検出におけるバイアス軽減
    • 物体検出はコンピュータビジョンの基盤であり,自動運転やロボティクス等の応用が期待される。
    • 既存手法では,学習データの偏りが性能低下の原因となることが知られている。
    • 表現の多様性に着目し,データ生成によるバイアス軽減を目指す。
    • 表現スコアを用いて,頻度だけでは捉えきれない表現のギャップを特定し,バイアスのないレイアウトの生成を誘導する。
    • 曖昧なテキストプロンプトを精密な視覚的ブループリントに置き換え,生成器と検出器間のコミュニケーションを促進する生成アライメント戦略を採用する。
    • 少数クラスや大型オブジェクトにおいて,ベースラインと比較して大幅な性能向上を実現し,生成画像のレイアウト精度も向上する。

    Link: https://arxiv.org/abs/2510.18229

  • 生成画像モデルにおける文化的偏りの評価:盲点を明らかにする [cs.CV]目的:生成画像モデルにおける文化的偏りの評価
    • 画像生成AIの利用拡大に伴い,多様な文化への配慮が重要課題となっている。
    • 既存研究ではテキストからの画像生成に偏りがちで,画像からの画像生成における文化的偏りは未解明な点が多い。
    • 本研究は,多様な国や時代を考慮した評価フレームワークを構築し,文化的偏りを定量的に明らかにする。
    • 国を特定しないプロンプトでは,モデルはグローバルノース,現代的な描写に傾き,各国間の差異を無視する傾向が明らかになった。
    • 反復的な画像編集を行うと,従来の評価指標が改善しても,文化的正確性が損なわれることが示された。
    • 画像編集モデルは,時代に沿った文脈を考慮した変更ではなく,表層的な変化(パレット変更,小道具の使用など)に頼ることが多い。

    Link: https://arxiv.org/abs/2510.20042

  • 公正な選考における認識された偏りの戦略的コスト [cs.GT, cs.CY, cs.LG, econ.TH]目的:公正な選考における認識された偏りがもたらす戦略的コストの分析
    • 能力主義は社会の公平性を担保する上で重要である。しかし,現実には不平等が残存している。
    • 公正な選考プロセスにおいても,社会経済的背景による格差が解消されない場合がある。
    • 認識された価値の差異が努力に影響を与え,結果として不平等を拡大するメカニズムを解明する。
    • 社会経済的背景が異なる候補者の,選考後の価値に対する認識の差が,合理的な努力の差を生み出すことが示された。
    • 選考における選択性の変更や認識された価値の修正が,公平性を向上させるための最適化フレームワークとして提案された。
    • テクノソーシャル環境が個人のインセンティブに与える影響を考慮することで,合理的な選択と構造的な不平等の説明を統合する。

    Link: https://arxiv.org/abs/2510.20606

  • TAUE:トレーニングフリーなノイズ移植と培養拡散モデル [cs.CL, cs.CY, cs.CV, cs.AI, cs.GR, cs.LG]目的:レイヤーごとの画像生成
    • 画像生成AIの発展は,クリエイティブな分野に革新をもたらしている。
    • 既存モデルは,レイヤー制御が難しく,完全なシーン生成が困難である。
    • 追加学習なしで,レイヤー間の一貫性を保ちつつ高品質な画像を生成する。
    • TAUEは,追加学習やデータなしで,最先端の性能を達成した。
    • ファインチューニングモデルと同等の画質と,優れたレイヤー間一貫性を示す。
    • レイアウト編集,複数オブジェクトの合成,背景置換など新たな応用を可能にする。

    Link: https://arxiv.org/abs/2511.02580

  • 追加学習なしの水中の世界セグメンテーションの探求 [cs.CV, cs.AI]目的:水中生物のセグメンテーション技術
    • 海洋生物多様性のモニタリングや生態学的評価において,正確なセグメンテーションは不可欠である。
    • 既存のデータセットやモデルは,主に陸上シーンに限定されており,水中環境への応用が遅れている。
    • 陸上シーンで学習したモデルを水中環境へ追加学習なしで応用する手法を開発し,セグメンテーション性能を向上させる。
    • 新たに大規模な水中セグメンテーションデータセット「AquaOV255」とベンチマーク「UOVSBench」を構築した。
    • 追加学習なしで陸上モデルを水中へ転移させるフレームワーク「Earth2Ocean」を提案した。
    • 「Earth2Ocean」は既存手法と比較して,平均的に有意な性能向上を示し,効率的な推論を実現する。

    Link: https://arxiv.org/abs/2511.07923

  • グラスマン多様体におけるトポロジー駆動型多部分空間融合学習 [cs.CV, cs.AI]目的:グラスマン多様体上での適応的な部分空間協調
    • 高次元データを低次元部分空間で表現する手法は,幾何学的表現学習において重要である。
    • 既存手法は静的な単一部分空間表現に依存し,複雑な幾何構造を捉えるための複数部分空間の相互作用を無視している。
    • 本研究は,トポロジーに基づく多部分空間融合により,動的な部分空間協調を実現し,この問題を解決する。
    • 本研究では,Kolmogorov-Arnold表現定理に着想を得て,タスクに関連する部分空間をトポロジカル収束解析を通して動的に選択・重み付けする適応的複数部分空間モデリングメカニズムを提案する。
    • さらに,多様体上のFréchet平均最適化による異質幾何学的表現の融合を可能にする,多部分空間相互作用ブロックを導入する。
    • 実験の結果,3Dアクション認識,脳波分類,グラフタスクにおいて最先端の性能が示され,幾何学的深層学習の進展に貢献する。

    Link: https://arxiv.org/abs/2511.08628

  • 劣化古文書と印章を含む久志本字の検出・二値化のためのベンチマークデータセットDKDS [cs.CV]目的:劣化古文書と印章を含む久志本字の検出と二値化タスクのための新たなベンチマークデータセット
    • 久志本字は専門家でなければ読解困難であり,歴史的資料のデジタル化が急務である。
    • 既存のOCR技術は,劣化や印章といったノイズに弱く,認識精度が低下する。
    • 古文書の劣化や印章の影響を考慮した,高精度なOCR技術の開発を目指す。
    • DKDSデータセットは,久志本字と印章の検出,および文書の二値化という2つのベンチマークトラックを定義する。
    • 久志本字と印章の検出トラックでは,YOLOの最新バージョンを用いたベースライン結果が示されている。
    • 文書の二値化トラックでは,従来のアルゴリズムやGANを用いたベースライン結果と,提案手法による改善が報告されている。

    Link: https://arxiv.org/abs/2511.09117

  • MSGNav:ゼロショット埋め込みナビゲーションのためのマルチモーダル3Dシーングラフの活用 [cs.CV, cs.RO]目的:ゼロショット埋め込みナビゲーションシステムの開発
    • ロボットエージェントの自律的な動作には,現実世界でのナビゲーション能力が不可欠である。
    • 既存のゼロショット手法は,シーングラフ構築時に視覚情報をテキストに圧縮し,詳細な情報を損失している。
    • 視覚情報を保持したシーングラフにより,より効率的かつ高精度なナビゲーションを実現することを目指す。
    • 提案手法MSGNavは,GOAT-BenchおよびHM3D-ObjNavベンチマークにおいて,最先端の性能を達成した。
    • MSGNavは,効率的な推論のためのKey Subgraph Selectionモジュール,適応的な語彙更新モジュール,閉ループ推論モジュールを備えている。
    • ラストワンマイル問題への対応として,視覚情報に基づくViewpoint Decisionモジュールを導入し,目標地点の特定精度を向上させた。

    Link: https://arxiv.org/abs/2511.10376

  • Lite Any Stereo:効率的なゼロショット立体マッチング [cs.CV]目的:ゼロショット立体マッチングにおける効率性と汎化性能の向上
    • 立体マッチングは,ロボットビジョンや自動運転などの応用において不可欠な技術である。
    • 高精度なモデルは計算コストが高く,リアルタイム処理が困難な場合がある。
    • 軽量でありながら汎化性能の高いモデルを開発し,効率的な立体マッチングを実現する。
    • 本研究では,コンパクトなバックボーンとハイブリッドコスト集約モジュールを設計し,効率性と精度を両立した。
    • 大規模データを用いた三段階の訓練戦略により,シミュレーションと現実世界間のギャップを効果的に埋めた。
    • 提案手法は,既存の高性能な手法と同等以上の精度を,計算コストの1%以下で達成し,新たな基準を確立した。

    Link: https://arxiv.org/abs/2511.16555

  • 変形画像登録のための潜在表現レベルの方策最適化:MorphSeek [cs.CV]目的:変形画像登録における高次元変形空間とボクセルレベルの教師データの不足
    • 医療画像解析において,画像間の変形を正確に捉えることは,疾患の診断や治療計画に不可欠である。
    • 既存手法では,高次元な変形空間を扱うことが難しく,十分な精度を達成できない場合がある。
    • MorphSeekは,潜在空間での効率的な方策最適化により,高精度かつデータ効率の良い変形画像登録を実現する。
    • MorphSeekは,3つの3D登録ベンチマークにおいて,既存手法と比較して一貫してDice係数の改善を達成した。
    • 少ないパラメータ数と低い計算コストで高いラベル効率を維持し,スケーラブルな画像アライメントを実現する。
    • 潜在表現レベルの方策学習というパラダイムを確立し,様々なバックボーンやオプティマイザに適用可能である。

    Link: https://arxiv.org/abs/2511.17392

  • 無人航空機追跡のための三種モーダルデータセットとベースラインシステム [cs.CV]目的:無人航空機追跡のための多種モーダルデータセットの構築と,その評価システム
    • 低高度における無人航空機の増加に伴い,セキュリティ確保のための正確な追跡技術が不可欠となっている。
    • 単一の視覚情報のみでは,低照度下や背景の複雑さ,急激な動きなどの環境下で追跡が困難となる場合がある。
    • 本研究では,RGB,赤外線,イベント信号の三種モーダルデータを統合したデータセットを公開し,よりロバストな追跡システムの開発を目指す。
    • MM-UAVという大規模な多種モーダルUAV追跡ベンチマークデータセットを新たに構築し,公開した。
    • 提案するフレームワークは,センサー間の空間的なずれを解消するモジュールと,各モーダルの情報を動的に融合するモジュールを導入している。
    • イベント信号を活用したアソシエーション機構により,従来の出現モデルの限界を克服し,追跡性能を向上させた。

    Link: https://arxiv.org/abs/2511.18344

  • SineProject:安定した視覚言語アライメントのための機械的アンラーニング [cs.CV]目的:視覚言語アライメントの安定性を保ちつつ,特定の知識を忘却すること
    • マルチモーダルLLMの利用拡大に伴い,安全性やプライバシー保護の重要性が増している
    • 既存のアンラーニング手法は,視覚言語アライメントを損ない,正常なクエリも拒否する問題がある
    • アンラーニング時のプロジェクターネットワークの不安定性を改善し,アライメントを安定化させる
    • SineProjectは,凍結されたプロジェクターに正弦波変調された学習可能なパラメータを追加するシンプルな手法である
    • LLaVA v1.5 7Bおよび13Bを用いた実験で,正常なクエリの拒否を減らしつつ,ターゲット情報の完全な忘却を実現した
    • 計算コストの増加はわずかで,忘却と保持のトレードオフにおいて最先端の性能を示した

    Link: https://arxiv.org/abs/2511.18444

  • 3M-TI:較正不要マルチカメラクロスモーダル拡散による高品質モバイル熱画像処理 [cs.CV, physics.optics]目的:モバイル環境における熱画像の空間解像度とテクスチャの向上
    • モバイル機器への熱センサーの組み込みは進んでいるが,小型化による解像度低下が課題である。
    • 既存の熱画像超解像技術は,単一画像処理の限界や,カメラ較正の煩雑さといった問題を抱えている。
    • 本研究は,カメラ較正なしで熱画像とRGB画像の情報を融合し,高精度な熱画像超解像を実現する。
    • 提案手法3M-TIは,クロスモーダル自己注意モジュールを拡散UNetに組み込み,熱画像とRGB特徴を適応的に整合させる。
    • これにより,明示的なカメラ較正を必要とせず,熱画像の空間解像度,構造,テクスチャを向上させることが可能となる。
    • 実世界のモバイル熱画像カメラを用いた評価で,オブジェクト検出・セグメンテーションなどの下流タスクにおいても性能向上が確認された。

    Link: https://arxiv.org/abs/2511.19117

  • ビデオGRPOにおける報酬信号の再考:スコアが目標となる時 [cs.CV]目的:ビデオ生成におけるグループ相対ポリシー最適化(GRPO)の報酬信号の信頼性向上
    • ビデオ生成技術は,コンテンツ制作やエンターテイメント分野で重要性が増している。
    • GRPOは報酬最適化に依存するが,報酬スコアが真の品質を反映しなくなる問題がある。
    • 報酬の信頼性を保ち,より効果的なポリシー更新を実現することを目的とする。
    • TaRoSは,コンポーネントレベルの評価とグループ内スパース性により,多角的な報酬を最適化目標に沿って編成する。
    • 飽和を示すコンポーネントの重みを適応的に下げ,効果的な最適化方向を維持し,冗長性を軽減する。
    • 視覚的忠実度,モーションの一貫性,テキストとビデオの整合性において,既存手法を上回る結果が得られた。

    Link: https://arxiv.org/abs/2511.19356

  • AIA:統一マルチモーダルモデルにおけるアーキテクチャ分離戦略の再考 [cs.DC, eess.SY, cs.SY, eess.SP, cs.CV]目的:マルチモーダルモデルにおけるタスク間の競合緩和と性能向上
    • 画像生成と理解を統合するマルチモーダルモデルは,汎用人工知能実現に向けた重要な一歩である。
    • 理解と生成という異なるタスク間の目標の矛盾が,最適な学習パラダイムを確立する上で課題となる。
    • アーキテクチャ分離に頼らず,タスク間の競合を緩和しつつ,高い性能を達成することを目指す。
    • アーキテクチャ分離が性能向上に寄与する理由を,クロスモーダルアテンション挙動の分析を通して解明した。
    • 分離はタスク間の競合を解消するのではなく,タスク固有モデルのクロスモーダルインタラクションパターンを誘導する。
    • 提案するAttention Interaction Alignment (AIA)損失関数は,学習中にタスク固有のパターンを明示的に学習する。

    Link: https://arxiv.org/abs/2511.22663