arXiv雑要約

画像・音声 - 2026/04/02 公開

  • 記号的解法を超えて:大規模言語モデルにおける幾何学的推論のためのマルチChain-of-Thought投票 [cs.AI, cs.CL, cs.CV]目的:大規模言語モデルにおける幾何学的推論の性能向上
    • 数学的推論能力向上には,幾何学問題解決が不可欠である。図と記号,論理的推論を組み合わせる必要がある。
    • 従来のモデルでは,論理的推論が単一のChain-of-Thoughtに限定され,性能向上のボトルネックとなっていた。
    • 本研究は,マルチChain-of-Thoughtと数値検証による論理的推論の強化を目指す。
    • 提案手法MARS-GPSは,Geometry3Kデータセットで88.8%の正答率を達成し,既存の最先端手法を約11%上回った。
    • 並列ロールアウト数を増やすことで,精度が向上し,16ロールアウトでは+6.0%の改善が見られた。
    • トークンレベルのエントロピーを用いた信頼度信号によるランク付けと,多段階投票・自己検証パイプラインが有効であることが示された。

    Link: https://arxiv.org/abs/2604.00890

  • フローマッチングによる粗解像度天気予報の超解像化 [cs.LG, cs.CV]目的:粗解像度天気予報の超解像化手法
    • 高精度な天気予報は,社会経済活動や防災に不可欠であり,その重要性は増している。
    • 高解像度での数値予報は計算コストが非常に高く,実用上の制約となっている。
    • 計算コストを抑えつつ,高解像度予報と同等の精度を実現することを目指す。
    • 学習された生成的な超解像化を後処理として適用することで,空間解像度と予報を分離するフレームワークを提示した。
    • 再粗解像化後の大規模構造と分散が保持されることが確認され,物理的に整合性の取れた小規模変動を導入した。
    • 0.25度解像度において,運用アンサンブルベースラインと同等の確率的予報スキルを,適度な追加学習コストで達成した。

    Link: https://arxiv.org/abs/2604.00897

  • IDDM:調整可能なプライバシー・ユーティリティ間のトレードオフを持つ,アイデンティティ非依存型パーソナライズ拡散モデル [cs.CV]目的:パーソナライズされたテキストから画像への拡散モデルにおける,プライバシーと実用性のトレードオフを制御可能な出力免疫化
    • ソーシャルメディアにおける個人の表現において,高品質なアバター生成技術の重要性が高まっている。
    • 既存のパーソナライズモデルは,顔認識システムを介して個人情報漏洩のリスクを抱えている。
    • 本研究は,正当なパーソナライズを維持しつつ,生成された画像からの個人識別可能性を低減することを目指す。
    • 提案手法IDDMは,パーソナライズとアイデンティティ非依存化を交互に行うことで,プライバシーとユーティリティのバランスを最適化する。
    • 実験の結果,IDDMは既存手法と比較して,個人識別可能性を効果的に低減しつつ,高品質な画像生成を維持することが示された。
    • IDDMは,多様なデータセットとプロンプト,そして最先端の顔認識システムにおいて,一貫して優れた性能を発揮する。

    Link: https://arxiv.org/abs/2604.00903

  • JAMMEval:信頼性の高いVLM評価のための日本語ベンチマークの改良版 [cs.CV]目的:視覚言語モデルの信頼性評価のための日本語ベンチマーク
    • 視覚言語モデルの発展には,精度の高い評価が不可欠である。
    • 日本語VQAベンチマークは英語に比べて改良が遅れており,信頼性が低い。
    • 既存ベンチマークの曖昧さや誤りを修正し,信頼性の高い評価を可能にする。
    • JAMMEvalは,既存の7つの日本語ベンチマークを人間によるアノテーションで2回にわたり体系的に改良したものである。
    • 実験の結果,JAMMEvalはモデルの能力をより正確に反映し,評価スコアの変動を抑え,モデル間の能力差を明確に示すことが示された。
    • データセットとコードを公開し,VLMの信頼性評価の進展に貢献する。

    Link: https://arxiv.org/abs/2604.00909

  • ProCap:空間拡張現実のための投影認識キャプション生成 [cs.CV, cs.MM]目的:空間拡張現実における物理環境と投影コンテンツの区別
    • 空間拡張現実は没入感の高い体験を提供する技術であり,新たなインタラクションの可能性を秘めている。
    • 従来のビジョン言語モデルは,物理環境と投影コンテンツの区別が難しく,曖昧な解釈を引き起こす。
    • 本研究は,投影コンテンツを物理環境から明確に分離し,正確な意味理解を可能にすることを目指す。
    • ProCapは,自動セグメンテーションによる仮想層と物理層の分離,および歪みによる曖昧さを回避する領域認識検索を用いることで,この課題に対処する。
    • RGBPデータセットは,65種類の物理環境と18万件以上の投影を含む大規模な空間拡張現実セマンティックベンチマークである。
    • 実験結果は,ProCapが空間拡張現実研究のための堅牢な意味的基盤を提供することを示している。

    Link: https://arxiv.org/abs/2604.00912

  • 視覚と言語モデルのベンチマークとメカニズム分析:クロス表現組み立て指示のアライメント [cs.CV, cs.CL]目的:組み立て指示のアライメントに関する視覚言語モデルの性能評価とメカニズム解明
    • 組み立て説明は抽象的で理解が難しく,進捗監視やエラー検出を支援するインテリジェントアシスタントの必要性が高まっている。
    • 組み立て図とビデオ映像は視覚的特徴をほとんど共有せず,視覚言語モデルは表現のギャップに直面している。
    • 視覚言語モデルにおける表現ギャップを定量的に評価し,改善の方向性を示す。
    • IKEA-Benchベンチマークを用いて19の視覚言語モデルを評価した結果,テキストによる組み立て指示の理解は回復するものの,図とビデオのアライメントは低下した。
    • モデルのアーキテクチャの方が,パラメータ数よりもアライメント精度に強く影響することが示された。
    • ViTサブスペース分析により,図とビデオが分離しており,テキストの追加がモデルの推論を視覚からテキスト駆動型へとシフトさせることが明らかになった。

    Link: https://arxiv.org/abs/2604.00913

  • カノニカル相関分析によるクロスモデル合意に基づく表現選択 [cs.CL, cs.CV, cs.AI]目的:画像表現の効率改善
    • 画像認識パイプラインにおいて,事前学習済みエンコーダの表現再利用が一般的になっている。
    • 事前学習済み表現は過剰であり,モデルに依存した特性を持つ場合がある。
    • クロスモデル合意に基づき,冗長な次元を削減し,表現を洗練させる。
    • 提案手法は,2つの事前学習済みエンコーダ間の表現の共有構造を利用して線形投影を見つけ,表現選択と次元削減を実現する。
    • 従来のPCAとは異なり,単一の埋め込み空間ではなく,クロスモデル合意を活用して表現の蒸留と改良を行う。
    • ImageNet-1k等での実験により,ベースラインやPCAと比較して,最大12.6%の精度向上を示した。

    Link: https://arxiv.org/abs/2604.00921

  • ダンスフィンガープリンティングのための量子化構造保存運動表現学習 [cs.CL, eess.SY, cs.SY, cs.CV, cs.AI]目的:ダンスの運動に基づいた検索手法
    • ダンスの構造を理解し,効率的な検索を可能にする研究は,ダンスアーカイブの構築やダンス解析に不可欠である。
    • 既存手法は連続的な埋め込みに依存しており,インデックス作成やスケーラビリティに課題がある。
    • ダンスの空間・時間構造を捉え,大規模検索を可能にするコンパクトな運動シグネチャを構築すること。
    • 提案手法DANCEMATCHは,スケルトンモーション量子化(SMQ)と空間・時間Transformer(STT)を組み合わせ,効率的なダンス検索を実現した。
    • DANCE RETRIEVAL ENGINE(DRE)により,ヒストグラムベースのインデックスを用いた高速な検索と再ランキングによる高精度なマッチングを可能にした。
    • 公開されたDANCETYPESBENCHMARKデータセットを用いた実験により,多様なダンススタイルや未知の振付に対するロバストな検索性能が確認された。

    Link: https://arxiv.org/abs/2604.00927

  • 3Dガウスアバターの外観自己回帰的予測 [cs.CV, cs.GR]目的:3Dガウスアバターの外観予測手法
    • リアリティのあるアバター体験には,個人特有の詳細な表現が不可欠である。
    • 高品質なデータセットは,類似ポーズと外観の曖昧さや誤った相関関係を引き起こしやすい。
    • 新規ポーズでの外観変化の不安定化を抑制し,安定したアバター駆動を実現すること。
    • 本研究では,ポーズと外観潜在変数を条件とする3Dガウススプラッティングアバターモデルを提案する。
    • 学習時にエンコーダによって学習された潜在変数は,再構成品質を向上させ,ポーズに基づいたレンダリングの曖昧さを解消する。
    • 駆動時には,潜在変数を自己回帰的に推論し,時間的に滑らかな外観変化と安定性を実現する。

    Link: https://arxiv.org/abs/2604.00928

  • EmoScene:制御可能な感情的な画像生成のための二重空間データセット [cs.CV]目的:制御可能な感情的な画像生成のためのデータセット
    • 画像生成技術の発展は,視覚的なコンテンツ作成に革新をもたらしている。
    • 既存の画像生成モデルでは,シーンの意味と感情のニュアンスを正確に制御することが困難である。
    • 感情的要素と知覚的要素を統合的に表現するデータセットを構築し,感情制御の精度向上を目指す。
    • EmoSceneは,120万枚以上の画像と,感情ラベル,VAD値,知覚的記述子,テキストキャプションを含む大規模な二重空間データセットである。
    • 多空間分析により,離散的な感情がVAD空間をどのように占有し,感情がシーンレベルの知覚的要素とどのように相関するかを明らかにした。
    • 二重空間の制御を組み込んだ軽量なベースラインモデルを提示し,感情制御の再現性と可能性を示した。

    Link: https://arxiv.org/abs/2604.00933

  • YieldSAT:高解像度作物収量予測のためのマルチモーダルベンチマークデータセット [cs.CV]目的:高解像度作物収量予測のための大規模かつ高品質なマルチモーダルデータセット
    • 食糧需給の安定化には,正確な作物収量予測が不可欠である。データ駆動型アプローチが重要となる。
    • 既存のデータセットは,入手困難,品質が低い,地域や作物に限定されるなどの課題がある。
    • データ取得コスト,品質のばらつき,プライバシー問題を克服し,汎用的なデータセットを提供すること。
    • YieldSATは,アルゼンチン,ブラジル,ウルグアイ,ドイツを含む複数の国々で,トウモロコシ,菜種,大豆,小麦などの主要作物を網羅している。
    • 10mの空間解像度で1220万件以上の収量サンプルと,113,555枚の衛星画像,および環境データを収録している。
    • 分布のシフトに対応するため,ドメイン知識に基づいた深層アンサンブルアプローチが有効であることを示した。

    Link: https://arxiv.org/abs/2604.00940

  • 連合学習における勾配反転攻撃の強化:階層的特徴最適化によるアプローチ [cs.CV]目的:連合学習システムにおける勾配反転攻撃の精度向上
    • プライバシー保護と機械学習の発展のため,連合学習のセキュリティ評価が重要である。
    • 連合学習における勾配情報の漏洩リスクが指摘されており,データ復元の脆弱性が存在する。
    • 既存の攻撃手法の表現能力と汎化性能の限界を克服し,より高精度なデータ復元を目指す。
    • 提案手法GIFDは,GANモデルの階層的特徴空間を探索することで,従来の勾配反転攻撃よりも高い精度で画像再構成を可能にする。
    • GIFDは,GANとFLのデータ分布が異なる状況(OOD設定)においても有効であり,ラベル不整合問題に対する解決策も提示する。
    • 実験結果から,提案手法が様々なFLシナリオにおいて,既存の攻撃手法を上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2604.00955

  • DLWM:デュアル潜在ワールドモデルによる包括的なガウス中心型事前学習 [cs.HC, cs.CV]目的:自律運転におけるガウス中心型事前学習の実現
    • 視覚に基づく自律運転は,低コストで高性能であるため注目を集めている。
    • 従来のBEVや疎なクエリモデルでは,3次元シーンの表現に限界があった。
    • 3Dガウスを用いてシーンを表現するガウス中心型手法の性能向上を目指す。
    • DLWMは,マルチビューのセマンティック画像と深度画像を自己教師ありで再構成することにより,3Dガウスを予測する。
    • 2つの潜在ワールドモデルを用いて,占有知覚と予測,モーションプランニングのための時間的特徴学習を行う。
    • SurroundOccとnuScenesの評価において,DLWMはガウス中心型3D占有知覚,4D占有予測,モーションプランニングにおいて優れた性能向上を示した。

    Link: https://arxiv.org/abs/2604.00969

  • ACT Now:適応的文脈統合による大規模視覚言語モデルの幻覚の抑制 [cs.CV]目的:大規模視覚言語モデルにおける幻覚の軽減
    • 視覚と言語情報を統合するモデルは,多様な応用で重要性が増している。
    • 既存モデルは幻覚を起こしやすく,生成される内容の信頼性が課題。
    • 生成過程における動的な文脈変化に対応し,幻覚を抑制する手法が求められている。
    • 提案手法ACTは,視覚的探索を強化し,文脈情報を適応的に統合することで幻覚を大幅に軽減する。
    • ACTは,既存モデルに手を加えることなく,推論時に幻覚を抑制できる。
    • 判別と生成の両方のベンチマークで競争力のある結果を示し,汎用性の高い解決策となる。

    Link: https://arxiv.org/abs/2604.00983

  • 期待拡散強調画像に基づいた前立腺癌T2強調画像のみによる局在化の最大化 [cs.CV]目的:前立腺癌の局在化
    • 前立腺癌の早期発見と正確な局在化は,治療方針の決定に不可欠である。
    • 拡散強調画像(DWI)を含む多パラメータMRIはコストと専門性が高い。
    • T2強調画像のみで高精度な局在化を可能にし,臨床的負担を軽減することを目指す。
    • 拡散強調画像(DWI)を潜在的モダリティとして扱うことで,T2強調画像のみから前立腺癌の局在化を学習する新しい枠組みを提案した。
    • 提案手法は,DWI画像を使用したベースライン手法と比較して,優れた癌局在化性能を示した(患者レベルF1スコア14.4%向上,ゾーンレベルQWK 5.3%向上)。
    • 4,133人の前立腺癌患者データを用いて,内部および外部データセットでの定量的な評価を行い,その有効性を検証した。

    Link: https://arxiv.org/abs/2604.00985

  • 大規模ビジョンモデル誘導低ランク近似による地盤波ノイズ除去のカスタマイズ [cs.CL, cs.CV]目的:地盤波ノイズの除去
    • 地震探査において,地盤波ノイズは反射波を隠蔽し,画像処理や解釈の精度を低下させる主要な要因である。
    • 従来のノイズ除去手法は,適応性の低さ,信号漏洩,ラベル付きデータの依存性などの課題があり,特に信号とノイズが重なる場合に問題となる。
    • 本研究は,大規模ビジョンモデルを用いて地盤波の領域を特定し,反射波を保持しつつ,ノイズを効果的に抑制することを目的とする。
    • 提示手法は,地盤波ノイズの除去において,既存の変換領域フィルタリングやニューラル表現法と比較して優れた性能を示す。
    • 大規模ビジョンモデルを活用し,訓練データや手動アノテーションを必要としない,訓練不要なフレームワークを実現した。
    • 地震探査データを視覚表現に変換し,テキストまたは画像プロンプトによって地盤波領域を特定することで,空間適応的なノイズ除去を可能にした。

    Link: https://arxiv.org/abs/2604.00998

  • EgoSim:具現化されたインタラクション生成のための自己中心的世界シミュレーター [cs.CV, cs.AI]目的:具現化されたインタラクション生成のための自己中心的世界シミュレーション
    • ロボット工学や仮想現実において,現実世界とのインタラクションを再現するシミュレーションは不可欠である。
    • 既存のシミュレーターは,3次元空間の整合性が低いか,環境変化に対応できないという課題があった。
    • 3次元環境を更新可能な状態としてモデル化することで,より現実的で継続的なシミュレーションを実現する。
    • EgoSimは,空間的な整合性と汎化性能において既存手法を大きく上回ることを実験的に示した。
    • 本研究では,大規模な実世界の動画データから学習データを作成するスケーラブルなパイプラインを開発した。
    • EgoCapという低コストなデータ収集システムを導入し,現実世界データの収集を容易にした。

    Link: https://arxiv.org/abs/2604.01001

  • クエリ条件付きエビデンスに基づくキーフレームサンプリング:MLLMを活用した長尺ビデオ理解のため [cs.CV, cs.AI, cs.LG]目的:長尺ビデオ理解のためのキーフレーム選択
    • マルチモーダル大規模言語モデルの応用範囲拡大には,計算資源の制約が課題となる。
    • 既存手法は,エビデンスの把握や最適化効率に課題があり,十分な性能を発揮できない。
    • クエリとの関連性を最大化するキーフレーム選択により,長尺ビデオ理解の効率と精度向上を目指す。
    • 提案手法は,情報ボトルネック理論に基づき,クエリと選択されたフレーム間の条件付き相互情報量を最大化する。
    • フレームレベルでのスコアリングに分解することで,効率的な最適化を実現した。
    • 長尺ビデオ理解ベンチマークにおいて,既存手法を上回り,高い性能と効率を示した。

    Link: https://arxiv.org/abs/2604.01002

  • 敵対的画像攻撃に対するロバストな視覚言語モデルのためのテキスト拡張防御フレームワークPDA [cs.CV, cs.MM]目的:視覚言語モデルのロバスト性向上
    • 視覚言語モデルは多様なタスクに応用可能であり,AI技術の中核を担う。
    • 敵対的摂動に対して脆弱であり,現実世界での利用に課題がある。
    • 計算コストを抑えつつ,未知の攻撃に対しても汎化性能の高い防御手法を確立する。
    • PDAは,学習を必要としないテスト時防御フレームワークであり,テキスト拡張を活用する。
    • プロンプトの言い換え,質問の分解,一貫性集約をテスト時に実行し,モデル自体を変更しない。
    • 複数の視覚言語モデルとベンチマークで,様々な摂動に対するロバスト性と高い精度を両立した。

    Link: https://arxiv.org/abs/2604.01010

  • AutoMIA:エージェントによる自己探索を通じたメンバーシップ推論攻撃の改善されたベースライン [cs.CR, cs.CV]目的:機械学習モデルの学習データ漏洩評価のためのメンバーシップ推論攻撃手法
    • 機械学習モデルのプライバシー保護は重要であり,学習データ漏洩は深刻なリスクとなる。
    • 既存の攻撃手法は静的なヒューリスティックに依存し,モデル間の汎用性に欠ける点が課題である。
    • モデルに依存しない自動的な戦略探索により,メンバーシップ推論攻撃の性能向上を目指す。
    • 提案手法AutoMIAは,高レベルなシナリオに基づいて攻撃戦略を自動的に生成・改善する。
    • 抽象的な戦略推論と低レベルな実行を分離することで,モデルに依存しない探索を実現した。
    • 実験の結果,AutoMIAは最先端の手法と同等またはそれ以上の性能を示し,手動による特徴量エンジニアリングを不要にした。

    Link: https://arxiv.org/abs/2604.01014

  • 野生環境における運動予測 [cs.CV]目的:野生環境におけるエージェントの運動予測のための表現
    • 視覚知能において,将来の行動を予測することは不可欠である。そのため,効果的な運動表現が求められる。
    • 既存のビジョンシステムは,一般的な運動と行動の表現を欠いており,多様なエージェントへの汎化が困難である。
    • 本研究は,多様な非剛体エージェントの運動を予測するための,新しい表現と予測モデルを提案する。
    • 本研究では,運動を表現する視覚トークンとして密な点軌跡を提案し,外見と運動を分離した。
    • 拡散トランスフォーマモデルを設計し,軌跡の集合をモデル化することで,複雑な運動パターンを予測することを可能にした。
    • 実験により,提案手法が既存手法を凌駕し,未知の種や形態への汎化能力が高いことが示された。

    Link: https://arxiv.org/abs/2604.01015

  • Diff3R:不確か性に基づいた微分可能最適化によるフィードフォワード3Dガウススプラッティング [cs.CV]目的:3Dガウススプラッティングの最適化初期値を予測するフレームワーク
    • 3Dシーンの表現・再構成技術は,ロボティクスやVR/ARなど幅広い分野で重要性が増している。
    • 既存手法では,高速な推論と高品質なレンダリングを両立することが困難であった。
    • フィードフォワード予測とテスト時最適化を統合し,両者の利点を組み合わせることを目指す。
    • Diff3Rは,微分可能な3DGS最適化層を訓練ループに組み込むことで,最適化に適した初期値を予測する。
    • Implicit Function TheoremとスケーラブルなPCGソルバーを用いることで,最適化ステップを通じた勾配計算のコストを削減。
    • データ駆動型の不確か性モデルにより,過学習を抑制し,入力外れ値に対するロバスト性を向上。

    Link: https://arxiv.org/abs/2604.01030

  • チャンドラヤーン2 OHRCマルチビュー画像を用いたオープンソースフォトグラメトリによるサブメートル月面DEM生成と検証 [cs.CV]目的:月面DEMの生成と検証
    • 月探査や着陸地点の選定において,高精度な月面地形データは不可欠である。
    • 既存の月面地形データは分解能が粗く,詳細な地形解析には不十分な場合がある。
    • チャンドラヤーン2 OHRCの画像を用いて,高精度なサブメートルDEMを生成し,その精度を検証すること。
    • OHRCのマルチビュー画像から,オープンソースのパイプラインを用いてサブメートルDEMを生成した。
    • 生成されたDEMとLRO NACのDEMとの比較により,垂直方向のRMSEが5.85m,水平方向の精度が30cm以下であることが確認された。
    • 画像メタデータ解析によるステレオペアの識別,およびIterative Closest Point法による高精度な位置合わせを行った。

    Link: https://arxiv.org/abs/2604.01032

  • 基礎モデル誘導反復プロンプティングと疑似ラベリングによる部分的ラベル付き医療画像セグメンテーション [cs.CV]目的:部分的ラベル付き医療画像セグメンテーションの性能向上
    • 医療画像解析は疾患診断や治療計画において不可欠であり,自動化による効率化が求められている。
    • 完全なラベル付けはコストと時間がかかるため,部分的ラベルデータでのセグメンテーション精度が課題となる。
    • 基礎モデルとセグメンテーションネットワークの協調により,ラベルなし領域のセグメンテーション精度を向上させる。
    • 提案手法IPnPは,AMOSデータセットにおいて,既存手法と比較してセグメンテーション性能を向上させた。
    • IPnPは,部分的ラベル設定下で,完全ラベル時の性能に匹敵する結果を達成した。
    • 実際の臨床データセットにおいても有効性を示し,実用性が確認された。

    Link: https://arxiv.org/abs/2604.01038

  • 空間解結合型モーション注入とハイブリッドコンテキスト統合による,一人掛けの人間・環境ビデオ合成 [cs.CV]目的:人間と環境を含むビデオの構成的な生成
    • ビデオ生成技術は,エンターテインメントやコミュニケーションなど,多様な分野で応用が期待されている。
    • 既存手法では,被写体と背景の独立した編集が難しく,制御性と生成の柔軟性の両立が課題となっていた。
    • 本研究は,空間解結合とハイブリッドコンテキスト統合により,ビデオ生成の制御性と多様性を向上させることを目指す。
    • 提案手法ONE-SHOTは,人間と環境の動きを分離し,クロスアテンション機構を通じて生成プロセスを効率化する。
    • Dynamic-Grounded-RoPEは,ヒューリスティックな3Dアライメントなしに空間的な対応関係を確立し,一貫性のあるビデオ生成を可能にする。
    • 実験結果から,ONE-SHOTは既存手法を凌駕し,構造制御と創造性の両面で優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2604.01043

  • 連続都市運転ダッシュカム映像のグローバルデータセット [cs.CV]目的:都市部における連続的なダッシュカム運転映像のグローバルデータセット
    • 自動運転技術の発展には,多様な環境下でのデータが不可欠である。
    • 既存のデータセットは,事故や特殊な状況に偏りがちであり,日常的な運転状況を捉えきれていない。
    • 日常的な運転状況を網羅するデータセットを提供し,自動運転システムの汎化性能向上に貢献する。
    • CROWDは,世界238の国と地域,7,103の都市における約2万時間の都市部ダッシュカム映像を含む大規模データセットである。
    • 事故や編集されたコンテンツを除外し,日常的な運転に焦点を当てることで,汎化性能の評価に適している。
    • YOLOv11xによる80種類のMS-COCOクラスの検出結果と,BoT-SORTによる多物体トラッキングデータも提供し,ベンチマークの障壁を低減している。

    Link: https://arxiv.org/abs/2604.01044

  • PHASOR:解剖学的・位相整合的容積拡散によるCTバーチャル造影強調 [cs.CV]目的:CTバーチャル造影強調の忠実度向上
    • 造影CTは組織灌流や血管構造の可視化に不可欠だが,造影剤や放射線被ばくのリスクが課題である。
    • 既存のバーチャル造影強調法は,解剖学的異質性や空間ずれにより,一貫性のない強調や誤った詳細を招く。
    • PHASORは,解剖学的・位相整合性を重視し,より高精度なCTバーチャル造影強調を実現する。
    • PHASORは,CTボリュームをコヒーレントなシーケンスとして扱い,ビデオ拡散モデルを活用して構造的整合性と容積精度を高める。
    • 解剖学的ルーティング混合エキスパート(AR-MoE)と強度・位相認識表現アライメント(IP-REPA)により,解剖学的知識に基づいた正確な強調を実現する。
    • 3つのデータセットにおける実験により,PHASORが最先端手法を凌駕し,合成品質と強調精度が大幅に向上することが示された。

    Link: https://arxiv.org/abs/2604.01053

  • ProOOD:プロトタイプによる分布外3D占有率予測 [cs.CV, cs.LG, cs.RO, eess.IV]目的:分布外入力に対する3D占有率予測の性能向上
    • 自動運転において,3Dシーンの理解は不可欠であり,占有率予測はその重要な要素である。
    • 既存手法は,クラスの不均衡や分布外入力に対して脆弱であり,誤った予測を招く可能性がある。
    • 本研究は,分布外入力に対するロバスト性を高め,より安全な自動運転を実現することを目指す。
    • ProOODは,プロトタイプによる特徴補完と分布外入力のスコアリングを組み合わせることで,占有率予測の精度を向上させる。
    • SemanticKITTIデータセットにおいて,既存手法を上回り,全体的なmIoUを3.57%,レアクラスのmIoUを24.80%改善した。
    • VAA-KITTIデータセットでは,AuPRCrを19.34ポイント向上させ,他のベンチマークでも一貫した改善が見られた。

    Link: https://arxiv.org/abs/2604.01081

  • ReMoGen:多様なデータからのモジュール学習によるリアルタイム人間インタラクション応答生成 [cs.CV, cs.GR]目的:リアルタイム人間インタラクション応答生成
    • 仮想アバターやロボットとの協調など,現実的な人間行動の再現が重要である。
    • 人間間のインタラクションデータが分散しており,質の高いリアルタイム応答が困難である。
    • 多様なデータとモジュール学習で,データ不足下でも応答生成を可能とする。
    • ReMoGenは,大規模な単独運動データから学習した汎用的な運動事前知識を活用する。
    • Meta-Interactionモジュールによって,異なるインタラクション領域への適応と汎化性能を向上させる。
    • フレーム単位のセグメント洗練モジュールにより,応答性と時間的な一貫性を両立させる。

    Link: https://arxiv.org/abs/2604.01082

  • TRACE:訓練不要な部分オーディオディープフェイク検出 - 基礎モデルの埋め込み軌跡分析による [cs.SD, cs.AI, cs.CV]目的:部分オーディオディープフェイクの検出
    • 音声フォレンジックは,デジタルコンテンツの信頼性確保に不可欠であり,その重要性は増している。
    • 既存の検知手法は教師あり学習に依存し,特定合成パイプラインへの過学習や,新たな生成モデルへの対応が課題である。
    • 本研究は,教師なしで部分オーディオディープフェイクを検出する新たなアプローチを提案し,その有効性を検証する。
    • 本研究で提案するTRACEは,音声基礎モデルの埋め込み表現の時系列変化を分析することで,訓練データやアーキテクチャ変更なしに部分オーディオディープフェイクを検出する。
    • PartialSpoofベンチマークにおいて,TRACEは教師あり学習ベースラインと同等の性能(EER 8.08%)を達成した。
    • 特に困難なLlamaPartialSpoofベンチマークでは,ターゲットドメインデータなしで教師あり学習ベースラインを上回る性能を示した(EER 24.12% vs. 24.49%)。

    Link: https://arxiv.org/abs/2604.01083

  • ProTPS:プロトタイプ誘導によるテキストプロンプト選択を用いた継続学習 [eess.SY, cs.SY, cs.CV]目的:継続学習におけるテキストプロンプト選択手法
    • 機械学習モデルの知識の継続的な獲得は重要であり,既存の知識を忘却せずに新しい知識を学習することが求められる。
    • テキストプロンプトベースの手法では,新しいクラスの情報を暗黙的に担うテキストプロンプトが,既存クラスの表現と重なってしまい,忘却問題を引き起こす。
    • 本研究では,プロトタイプを用いてテキストプロンプトの選択を誘導し,クラス間の特徴表現の分離を促進することで,忘却問題を軽減することを目指す。
    • 提案手法ProTPSは,クラス固有の視覚プロトタイプとテキストプロンプトを学習し,プロトタイプがテキストプロンプトの選択と学習を誘導する。
    • クラスインクリメンタル学習とクロスデータセット継続学習の実験で,ProTPSは良好な性能を示し,既存手法に匹敵する結果が得られた。
    • さらに,6年間にわたって収集された112種の海洋生物画像からなる実データセットMarine112を公開し,クラス・ドメインインクリメンタル学習の新たな課題を提示した。

    Link: https://arxiv.org/abs/2604.01116

  • 単眼深度推定のための軽量プロンプト誘導型CLIP適応 [cs.CV, cs.AI, cs.LG]目的:単眼深度推定におけるCLIP表現の適応
    • 画像認識の精度向上に,視覚と言語を結びつけるVLMsの活用が期待されている。
    • VLMsを深度推定に応用するには,大規模な調整が必要で,幾何学的精度に課題がある。
    • 少ない計算量でVLMsの知識を単眼深度推定に転移する手法を開発する。
    • 提案手法MoA-DepthCLIPは,NYU Depth V2ベンチマークで高い性能を示した。
    • $\delta_1$精度が0.390から0.745に,RMSEが1.176から0.520に大幅に改善された。
    • 軽量なMoAモジュールが,VLMsの知識を単眼深度推定に効果的に転移することを示した。

    Link: https://arxiv.org/abs/2604.01118

  • ReinDriveGen:分布外運転シーン生成のための強化学習ポストトレーニング [cs.CV]目的:分布外運転シーン生成における制御可能性の向上
    • 自動運転システムの安全性評価において,多様な運転シーンを再現することは不可欠である。
    • 既存のデータセットでは,安全性が脅かされるような危険な状況を網羅的にカバーできていない。
    • 危険な運転シーンを生成し,自動運転システムのロバスト性を検証することを目指す。
    • ReinDriveGenは,アクターの軌跡を編集することで,衝突や急旋回といった危険な運転状況を制御可能に生成する。
    • 分布外の状況下でも,強化学習によるポストトレーニングによって生成動画の品質を向上させる。
    • 編集された運転シーンや,新規な視点からの合成において,既存手法を上回る性能を示す。

    Link: https://arxiv.org/abs/2604.01129

  • パーソナライズされたダーツトレーニングに向けた:骨格ベースのバイオメカニクス分析とモーションモデリングに基づくデータ駆動型フレームワーク [cs.LG, cs.CV]目的:ダーツトレーニングを支援するデータ駆動型システムの開発
    • スポーツトレーニングはデータ駆動型へと移行しており,経験や視覚観察に基づく指導法では限界がある。
    • 既存研究では局所的な変数や単一のリリース指標に注目し,個々の動きの多様性が見過ごされがちである。
    • 本研究は,個人の最適な制御範囲からの逸脱を評価し,パーソナライズされたトレーニングを可能にすることを目指す。
    • システムは,自然な人間の動きに合致する滑らかな個人最適化された参照軌跡を生成することが示された。
    • ケーススタディでは,体幹の不安定さ,肘の異常な動き,速度制御の不均衡を検出し,的確な推奨を提供できることが示された。
    • 本フレームワークは,ダーツの評価を均一な基準からの逸脱から,個人の最適制御範囲からの逸脱へと転換させる。

    Link: https://arxiv.org/abs/2604.01130

  • 非線形アンミキシングへの取り組み -- 生成的アプローチ [cs.RO, cs.DB, eess.IV, cs.CV, cs.AI, eess.IV]目的:高分解能リモートセンシング画像における非線形スペクトルアンミキシング手法
    • リモートセンシング技術は,地球観測や資源探査において不可欠であり,その精度向上が求められている。
    • 従来のアンミキシング手法は混合モデルに依存するため,複雑な非線形混合への対応が課題であった。
    • 混合モデルを必要とせず,高精度な非線形スペクトルアンミキシングを実現することを目的とする。
    • 提案手法LCGU netは,サイクル整合性と線形・非線形混合間の関連性を制約として利用する。
    • 実験結果から,LCGU netは複数のデータセットにおいて,既存手法と同等以上の性能を示すことが確認された。
    • 本研究は,混合モデルが不明な状況下での非線形アンミキシングの新たな可能性を示唆する。

    Link: https://arxiv.org/abs/2604.01141

  • FineLAP:ファインチューニングのための異種教師データ活用による言語-音声事前学習の最適化 [cs.SD]目的:言語と音声のファインチューニングのための事前学習方法
    • 音声と言語の理解は,多様な応用において不可欠であり,その性能向上は重要な課題である。
    • 既存の音声-言語モデルはクリップレベルの理解に優れるものの,フレームレベルのタスクには課題がある。
    • 異種データ(クリップレベルとフレームレベル)を効果的に活用し,音声-言語モデルの性能を向上させる。
    • FineLAPは,クリップレベルとフレームレベルの双方の精度向上を実現する新しい事前学習パラダイムである。
    • デュアルストリームシグモイド損失とクラスタベースサンプリング戦略により,異種教師データからの学習を促進する。
    • 大規模な合成SEDデータセットFineLAP-100kを構築し,実験で最先端の性能を達成した。

    Link: https://arxiv.org/abs/2604.01155

  • 開放集合型教師あり3次元異常検知:産業データセットと未知の欠陥に対する汎化可能なフレームワーク [cs.CV]目的:3次元点群データにおける未知の異常を検出し,工業製品の品質管理の自動化
    • 製造業における品質管理は重要であり,異常検知は不良品流出防止に不可欠である。
    • 既存の異常検知手法は,未知の異常に対して十分な性能を発揮できない場合がある。
    • 限られた異常サンプルを用いた教師あり学習で,未知の異常を高精度に検出することを目指す。
    • 提案手法Open3D-ADは,正常サンプル,シミュレーション異常,部分的観察された実異常を活用し,確率密度分布をモデル化する。
    • Correspondence Distributions Subsamplingにより,正常分布と非正常分布の重なりを低減し,識別性能を向上させる。
    • Open-Industryデータセットを用いた実験により,Open3D-ADの有効性が確認された。既存手法と比較しても高い性能を示した。

    Link: https://arxiv.org/abs/2604.01171

  • Florence-2のROS 2ラッパー:ロボットシステムのためのマルチモードなローカル視覚言語推論 [cs.RO, cs.AI, cs.CV]目的:ロボットシステム向けFlorence-2のROS 2ラッパー
    • ロボティクスにおいて,より豊かな意味的知覚を提供する基盤視覚言語モデルの重要性が高まっている。
    • ロボットソフトウェアスタックにおける実用的な採用には,モデル品質だけでなく,再現性のあるミドルウェア統合が不可欠である。
    • Florence-2をROS 2環境で利用可能にし,ロボットシステムへの組み込みを容易にすること。
    • Florence-2を,トピック駆動型処理,同期サービス呼び出し,非同期アクションの3つのモードで利用できるROS 2ラッパーを開発した。
    • ラッパーはローカル実行向けに設計されており,ネイティブインストールとDockerコンテナ展開の両方をサポートする。
    • 消費者グレードのハードウェアでもローカル展開が可能であることを,GPUを用いたスループット調査によって示した。

    Link: https://arxiv.org/abs/2604.01179

  • 真実(VIS)の嘘:生成AIが視覚化における意図,レトリック,誤解をどのように認識するか [cs.HC, cs.CL, cs.CV]目的:誤解を招く視覚化の識別と解釈能力,およびその原因と意図の認識
    • 視覚化は情報伝達において重要であり,誤った視覚化は誤解を招き,意思決定に悪影響を及ぼす可能性がある。
    • 視覚化のレトリックや意図の解釈は複雑であり,AIによる自動化は困難であった。
    • 最新のLLMを用いて,誤解を招く視覚化の認識能力を評価し,人間の専門家と比較することで,AIの判断の限界を明らかにする。
    • 大規模言語モデル(LLM)は,COVID-19関連のツイートに含まれる誤解を招く視覚化を識別する実験において,多様なモデルサイズとアーキテクチャで評価された。
    • 多くのLLMが視覚化のレトリックや作者の意図をある程度認識できることが示されたが,人間の専門家と比較すると,まだ判断に差があることが明らかになった。
    • この研究は,AIが視覚化の誤解を理解し,批判的に評価するための基盤を構築する上で貢献する。

    Link: https://arxiv.org/abs/2604.01181

  • ニューラル調和テクスチャを用いた高品質プリミティブベースニューラル再構成 [cs.CV, cs.AI, cs.GR, cs.LG]目的:高品質なニューラル再構成の実現
    • 近年,新しい視点からの画像合成や再構成において,重要性が増している分野である。
    • 既存のプリミティブベースの手法では,高周波の詳細な表現が困難であるという課題がある。
    • プリミティブの表現力を高め,より詳細な再構成を可能にすることを目的としている。
    • ニューラル調和テクスチャは,既存のプリミティブベースのパイプラインに容易に統合可能である。
    • リアルタイムでの新規視点合成において,最先端の結果を達成している。
    • ニューラルフィールドベースとプリミティブベースの再構成間のギャップを埋めている。

    Link: https://arxiv.org/abs/2604.01204

  • TRACE:有形再構成と幾何学的に整合した文脈的ビデオマスキングによる高精度3Dシーン編集 [cs.CV]目的:3Dシーン編集のためのフレームワーク
    • 3Dコンテンツ制作の効率化が求められており,高品質な編集技術が不可欠である。
    • 既存の編集手法では,構造的整合性を保ちつつ,詳細な部分レベルの操作が困難である。
    • 3D形状を基盤にビデオ拡散を固定化し,構造的整合性を維持した高精度なシーン編集を実現する。
    • TRACEは,明示的な3D幾何学を基盤としてビデオ拡散を固定化することで,高精度なシーン変換を可能にする。
    • 提案手法は,特に編集の汎用性と構造的整合性において,既存手法を凌駕する性能を示す。
    • 多視点3Dアンカー合成,有形幾何学アンカリング,文脈的ビデオマスキングの3段階構成により,安定したレンダリングを実現する。

    Link: https://arxiv.org/abs/2604.01207

  • 短時間系列からの潜在的位相推論のための浅い再帰型デコーダ (LAPIS-SHRED) [cs.LG, cs.AI, cs.CV]目的:疎な時空間データの完全な時空間ダイナミクスの再構成と予測
    • 複雑なシステムの理解や予測には,時空間ダイナミクスの完全な把握が不可欠である。
    • 観測データが空間的にも時間的にも不完全である場合が多く,完全な軌跡の推定が困難である。
    • 短時間系列の観測データから,完全な時空間ダイナミクスを効率的に再構成・予測することを目指す。
    • LAPIS-SHREDは,シミュレーションデータで事前学習されたSHREDモデルと時間系列モデルを組み合わせることで,疎な観測データから完全な軌跡を再構成・予測する。
    • 本手法は,双方向推論,データ同化,多スケール再構成が可能であり,極端な観測制約下でも動作する。
    • 乱流,推進物理,燃焼遷移,衛星データなど,様々な複雑な物理現象に対する実験で有効性が確認された。

    Link: https://arxiv.org/abs/2604.01216

  • HippoCamp:個人用コンピューターにおける文脈的エージェントのベンチマーク [cs.CL, cs.AI, cs.CV]目的:マルチモーダルファイル管理におけるエージェントの能力評価
    • 個人のデジタル環境は情報量が増加し,効率的な管理が不可欠となっている。
    • 既存のベンチマークは汎用的な設定に偏り,実際の利用者の環境を十分に反映していない。
    • 個人のファイルシステムにおける文脈理解と高度な推論能力の評価を目指す。
    • HippoCampは,42.4GBを超える大規模な個人用ファイルシステムを構築し,エージェントの能力を評価する。
    • 最先端のマルチモーダル大規模言語モデル(MLLM)の評価の結果,ユーザープロファイリングの精度は48.3%にとどまった。
    • マルチモーダルな知覚と証拠の基盤作りが,現在のエージェントの主要なボトルネックであることが判明した。

    Link: https://arxiv.org/abs/2604.01221

  • 連続環境における意味的視覚聴覚ナビゲーション [cs.CV, cs.SD]目的:連続環境における視覚と聴覚を利用したナビゲーション手法の研究
    • ロボットやAIエージェントが現実世界で活動するためには,環境を認識し,自律的に移動する能力が不可欠である。
    • 従来のナビゲーション手法は,離散的な位置での音響シミュレーションに依存しており,現実的な連続空間での移動に対応できないという課題があった。
    • 音源が途絶える場合でも,空間情報と意味情報を統合することで,エージェントが目標を追跡し,ナビゲーションを成功させることを目指す。
    • 提案手法MAGNetは,マルチモーダルTransformerを用いて空間的・意味的目標表現を統合し,過去の文脈と自己運動情報を活用することで,記憶を補強した目標推論を実現した。
    • 実験結果から,MAGNetは既存の最先端手法を大きく上回り,成功率を最大12.1%絶対的に向上させたことが示された。
    • 短時間の音や長距離ナビゲーションにおいても,MAGNetはその堅牢性を示す結果が得られた。

    Link: https://arxiv.org/abs/2603.19660

  • 普遍的な音素認識のための経験的レシピ [math.ST, cs.CC, stat.TH, cs.CL, cs.LG, cs.SD, eess.AS]目的:音素認識の性能向上
    • 多言語・低リソース音声処理の鍵となる技術であり,グローバルなコミュニケーションを促進する。
    • 英語に特化したモデルは言語汎用性に乏しく,多言語モデルは事前学習の潜在能力を活かしきれていない。
    • 大規模多言語データを用いた訓練レシピを確立し,性能向上に貢献する。
    • PhoneticXEUSは,大規模多言語データで訓練され,多言語(PFER 17.7%)およびアクセント付き英語音声(PFER 10.6%)において最先端の性能を達成した。
    • 100以上の言語での評価により,自己教師あり学習表現,データ規模,損失関数の影響を定量的に明らかにした。
    • 言語ファミリー,アクセント,発音特徴におけるエラーパターンを分析し,より詳細な理解を深めた。

    Link: https://arxiv.org/abs/2603.29042

  • マルチコントラスト自己注意GANによる脳MRI画像合成 [eess.IV, cs.AI, cs.CV]目的:マルチコントラストMRI画像の合成
    • 脳腫瘍の評価には様々なコントラストのMRI画像が不可欠である。各コントラストは補完的な情報を提供する。
    • 全てのコントラスト画像を撮影するには時間,コスト,患者への負担がかかり,十分な評価を妨げる場合がある。
    • 単一のT2画像から,高精度に不足するコントラスト画像を生成し,腫瘍の特徴を維持することを目的とする。
    • 提案手法3D-MC-SAGANは,高精度なマルチコントラスト画像をT2画像から合成できることが示された。
    • 腫瘍の形態を維持するためのセグメンテーション制約が組み込まれ,臨床的に意味のある情報が保持されることが確認された。
    • 実データを用いた評価により,最先端の性能と,現実的な解剖学的構造を持つコントラスト画像を生成できることが示された。

    Link: https://arxiv.org/abs/2604.00070

  • 計算回折波面推定のための瞳孔設計 [eess.IV, cs.CV]目的:回折波面推定の精度向上
    • 適応光学等の先端技術において,入射波面と像強度間の正確な関係性が重要である。
    • 瞳孔設計における対称性の破綻が波面復元を可能にするも,最適な設計指針は存在しなかった。
    • 瞳孔の非対称性を定量化し,波面復元能力との関係を明らかにすることで設計指針を提供する。
    • 非対称性の定量化指標を導入し,その増加が波面復元能力の向上に寄与することを示した。
    • 瞳孔設計における非対称性と光スループット,ノイズ耐性のトレードオフを分析した。
    • 大規模シミュレーションと光学実験の両方で,本研究の知見を検証した。

    Link: https://arxiv.org/abs/2604.00225

  • 自己教師あり学習による病院間胸部X線画像転移における特徴レベルのサイト漏洩削減 [quant-ph, cs.AR, eess.IV, cs.CV]目的:病院間胸部X線画像転移におけるサイト漏洩の測定と削減
    • 医療画像診断の精度向上は,患者ケアの質を向上させる上で不可欠である。
    • 病院間でのデータ分布の違い(ドメインシフト)が,モデルの汎化性能を阻害する。
    • 自己教師あり学習と敵対的サイト混同により,サイト漏洩を低減し,転移学習の性能向上を目指す。
    • マルチサイトの自己教師あり学習は,RSNAデータセットにおけるAUCを向上させる。
    • 敵対的サイト混同は,サイト漏洩を減らすものの,AUCの改善は一貫せず,ばらつきを増大させる。
    • サイト漏洩の測定は,転移学習手法の解釈を変え,自己教師あり学習の有効性を示す。

    Link: https://arxiv.org/abs/2604.00263

  • ハードドライブ設計における構造特性評価のためのAI支援型人間協調ウェブプラットフォーム [cond-mat.mtrl-sci, cs.CV]目的:ハードドライブ設計における構造特性評価のためのウェブプラットフォーム開発
    • 半導体デバイスの性能向上には,ナノスケールでの材料分析が不可欠であり,STEMが重要な役割を担う。
    • 従来の分析手法は,自動化と柔軟性のバランスが難しく,サンプル変動への対応や分析の効率性に課題があった。
    • 本研究は,人間の知見とAIの精度を融合し,スケーラブルで標準化された半導体製造分析を実現することを目指す。
    • 本プラットフォームは,勾配ベースのピーク検出と対話的な修正モジュールを統合し,人間による設計段階での介入を可能にする。
    • 薄膜における層厚と界面粗さの定量化ワークフローを実装し,ナノメートルレベルの精度で統計的な粗さおよび厚さの指標を出力する。
    • ウェブベースのインターフェースとして実装され,TEM/EMDファイルを直接処理し,ノイズ低減と界面追跡アルゴリズムを適用する。

    Link: https://arxiv.org/abs/2604.00359

  • 光場の角度・空間制御のための二重自由曲面レンズ設計 [quant-ph, cs.AR, physics.optics, cs.GR]目的:光場の角度的・空間的分布の同時制御
    • 光場制御は,ディスプレイやホログラフィ等の分野で重要であり,高度な光機能を実現する鍵となる。
    • 従来の光場制御は,複雑な多要素構成が必要であり,小型化やコストが課題であった。
    • 単一レンズによる角度・空間制御を実現し,小型で高性能な光学系の構築を目指す。
    • 本研究では,二重自由曲面を共最適化することで,光場の角度的・空間的変調を統合的に実現する手法を提案した。
    • 拡張コージェネ法を用い,2つの受容面での輝度パターンを規定することで,光場の角度特性と空間精度を両立した。
    • 数値シミュレーションにより,本手法の有効性が確認され,従来の多レンズ系と同等の性能が得られた。

    Link: https://arxiv.org/abs/2604.00831