arXiv雑要約

画像・音声 - 2026/03/13 公開

  • 深層学習を用いた放射線誘発性造影増強と腫瘍再発の多角的分類 [cs.CV]目的:放射線治療後の神経膠腫患者における腫瘍再発と放射線誘発性造影増強との識別
    • 神経膠腫治療後,再発と放射線影響の区別は重要課題である。正確な鑑別は治療方針決定に不可欠。
    • 従来のMRIのみでは識別が難しく,拡散MRIも臨床応用が限られる。放射線治療情報活用が課題。
    • 放射線治療情報を統合した深層学習モデルにより,より正確な識別を目指す。
    • 開発したRICE-NETは,独立テストセットでF1スコア0.92を達成し,高い識別性能を示した。
    • 消去実験により,放射線治療マップが信頼性の高い分類に大きく貢献することが定量的に示された。
    • オクルージョン解析により,モデルが臨床的に関連性の高い領域に注目していることが確認された。

    Link: https://arxiv.org/abs/2603.11827

  • LLM駆動プログラム生成とテキストベースB-Rep素体接地による高忠実度CAD生成 [cs.CV]目的:高忠実度CAD生成のためのフレームワーク
    • 産業製品設計においてCADは不可欠であり,AIによる設計の自動化が求められている。
    • パラメータCADと直接境界表現(B-Rep)のパラダイムの隔たりが,AI駆動CADの限界となっている。
    • LLMとB-Rep接地変換器を用いて,この隔たりを埋め,複雑な形状のCAD生成を可能にすること。
    • FutureCADは,LLMとBRepGroundを活用し,テキストから高忠実度CADを生成する新しいフレームワークである。
    • LLMは自然言語による素体選択を可能にし,BRepGroundがこれを実際の素体に接地する。
    • 実世界のCADモデルから構築したデータセットを用いた実験により,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2603.11831

  • エネルギー市場におけるハイブリッド人間・エージェントの社会的ジレンマ [cs.MA, cs.AI, cs.GT]目的:エネルギー市場における人間と自律エージェントが混在する環境下での協調行動の発生メカニズムの解明
    • エネルギー需給の最適化は,持続可能な社会の実現に不可欠であり,そのための効率的な需要管理が重要である。
    • 従来の需要管理は個々のエージェントの最適化に偏りがちで,全体としての協調が困難であるという課題がある。
    • 本研究は,協調を促進する人工エージェントを導入することで,エネルギー市場における社会的ジレンマの解決を目指す。
    • 人工エージェントが,全体を俯瞰した情報に基づき協調行動を促し,学習ダイナミクスを協調的な結果へと導くことを示した。
    • 人工エージェントの導入が初期段階でも,導入側が不利になることなく,全体的な成果の向上に貢献する可能性があることを示した。
    • 導入側の協調行動が非導入側にも利益をもたらす場合があり,AI技術導入における戦略的な配慮の重要性を示唆した。

    Link: https://arxiv.org/abs/2603.11834

  • 多孔質材料再構成のための敵対的生成ネットワーク10年 [cs.CV, cond-mat.mtrl-sci, physics.geo-ph]目的:多孔質材料の画像再構成における敵対的生成ネットワーク(GAN)の進展と応用
    • 地質貯留層評価から組織工学,電気化学デバイス設計まで,多孔質材料のデジタル再構成は重要性を増している。
    • 従来の再構成手法は限界があり,大規模かつ高精度な再構成には計算資源が課題となっていた。
    • 本研究は,GANアーキテクチャの選択に関する包括的なフレームワークを提供し,応用に適した手法を選定することを目的とする。
    • GANに基づく再構成の精度は向上しており,多孔率の誤差は1%以内,透水率予測の平均相対誤差は最大79%減少した。
    • 再構成可能なボリュームは,初期の$64^3$ボクセルから現在の$2{,}200^3$ボクセルへと大幅に拡大している。
    • 計算効率,大規模再構成におけるメモリ制約,2D-3D変換時の構造連続性の維持などが,今後の課題として残る。

    Link: https://arxiv.org/abs/2603.11836

  • ZeroSense:長文圧縮における視覚情報の重要性 [cs.CV]目的:視覚情報を活用した長文圧縮手法の品質評価
    • 長文の処理能力はLLMの性能向上に不可欠であり,圧縮技術はその実現に貢献する。
    • 既存の評価指標はLLMの言語能力に依存し,テキスト情報の正確な保持度を測れない。
    • LLMの能力に左右されない,VTC品質を直接評価する新たなフレームワークの確立。
    • 既存手法の圧縮率は高いが,テキスト情報の保持率は必ずしも高くないことが示された。
    • ZeroSense Benchmarkを用いることで,VTCの品質と下流タスクの精度に乖離があることが明らかになった。
    • 提案手法は,VTC品質をより正確に評価できることを実証した。

    Link: https://arxiv.org/abs/2603.11846

  • 雨画像復元のためのプラグアンドプレイエージェントフレームワーク Derain-Agent [cs.CV]目的:雨画像復元における残差アーティファクトと知覚品質の不整合の改善
    • 画像処理技術は,監視カメラや自動運転など,様々な分野で不可欠であるため重要性が高い。
    • 既存の深層学習モデルは,現実世界の雨による複雑な劣化に対応できず,残差アーティファクトが残ることが課題である。
    • 本研究は,動的なエージェントベースの復元により,状況に応じた最適な復元処理を可能にすることで,この課題を解決する。
    • Derain-Agentは,既存の雨画像復元モデルに,計画ネットワークと強度変調メカニズムを組み込むことで性能を向上させる。
    • 計画ネットワークは,各画像に対して最適な復元ツールの実行順序を決定し,強度変調メカニズムは,空間的に適応的な強度でツールを適用する。
    • 合成データと現実世界のデータセットの両方において,最先端の雨画像復元モデルの性能を一貫して向上させることを実証した。

    Link: https://arxiv.org/abs/2603.11866

  • 単一視点ローリングシャッターSfM [cs.MA, cs.CV, math.AG]目的:ローリングシャッターカメラにおける単一視点幾何学の特性化
    • 現代のコンピュータビジョンにおいて,3次元構造復元は重要な課題である。
    • ローリングシャッターカメラの特性上,従来のSfM手法の適用が困難である。
    • 単一画像から復元可能な運動・シーンパラメータを特定し,最小限の再構成問題を解く。
    • 提案手法により,ローリングシャッターカメラの単一視点幾何学に基づく3次元復元が可能となった。
    • いくつかの代表的なケースにおいて,概念実証ソルバーを用いた評価を行った。
    • 実現可能性と実用上の限界が明らかになった。

    Link: https://arxiv.org/abs/2603.11888

  • 視聴しながら思考する:マルチターン動画推論のためのマルチモーダル大規模言語モデルにおけるオンラインストリーミングセグメントレベルの記憶 [cs.CV, cs.AI, cs.CL]目的:マルチターン動画推論のためのオンラインストリーミングセグメントレベル記憶の枠組み
    • 動画理解の分野は,人間の知覚能力を模倣し,より高度なAIシステムの構築に不可欠である。
    • 既存のストリーミング手法は,知覚と生成の同時実行が難しく,長期依存関係のモデリングが困難である。
    • 連続的に到着する動画ストリームに対するマルチターンインタラクションを可能にするオンライン推論の強化。
    • 提案手法「Think While Watching」は,セグメントレベルの記憶を保持することで,ストリーミング動画推論の性能を向上させる。
    • StreamingBenchおよびOVO-Benchにおいて,シングルラウンドの精度がそれぞれ2.6%,3.79%向上した。
    • マルチラウンド設定では,性能を維持しながら,出力トークン数を56%削減することに成功した。

    Link: https://arxiv.org/abs/2603.11896

  • InSpatio-WorldFM:オープンソースリアルタイム生成フレームモデル [cs.CV]目的:空間知能のためのリアルタイムフレームモデル
    • ロボット工学や拡張現実において,環境の理解と予測は重要な課題である。
    • 従来のビデオベースのワールドモデルは,処理の遅延が大きく,リアルタイム性に課題がある。
    • 本研究は,低遅延でリアルタイムな空間推論を可能にするフレームベースのモデルを開発する。
    • InSpatio-WorldFMは,3Dアンカーと空間メモリにより,視点変化にも耐えうるシーン全体の幾何構造を維持する。
    • 事前学習済みの画像拡散モデルを段階的に学習することで,制御可能なフレームモデル,そしてリアルタイムジェネレーターを実現した。
    • 実験結果から,InSpatio-WorldFMは高い多視点一貫性を持ち,一般的なGPUでもインタラクティブな探索が可能であることが示された。

    Link: https://arxiv.org/abs/2603.11911

  • PicoSAM3:リアルタイム・インセンサー関心領域セグメンテーション [cs.CL, cs.CV]目的:リアルタイム関心領域セグメンテーションモデルの開発
    • スマートグラスやIoT機器など,低遅延かつプライバシー保護が重要な応用分野が拡大している。
    • エッジデバイスやセンサー上でのリアルタイムセグメンテーションは,計算資源の制約から困難であった。
    • センサー上でリアルタイムに動作する軽量なセグメンテーションモデルの実現を目指す。
    • PicoSAM3は1.3Mパラメータの軽量モデルであり,COCOとLVISにおいてそれぞれ65.45%と64.01%のmIoUを達成した。
    • 既存のSAMベースやエッジ向けベースラインと比較して,同等または低い複雑度で性能を上回る。
    • INT8量子化により精度の低下を最小限に抑えつつ,IMX500上で11.82msのリアルタイム・インセンサー推論を実現した。

    Link: https://arxiv.org/abs/2603.11917

  • 詳細構造化ラジオロジーレポートのためのプロトタイプに基づく知識ガイダンス [cs.AI, cs.CV, cs.LG]目的:詳細な構造化ラジオロジーレポート作成のための知識ガイダンス手法
    • 迅速かつ一貫性のあるコミュニケーションが求められる医療現場において,構造化レポートの重要性が増している。
    • 構造化された監督データが限られているため,詳細な所見や属性に関するモデルの自動化は困難である。
    • 自由記述テキストから得られる知識を活用し,詳細な画像理解を支援することを目的とする。
    • ProtoSRは,自由テキスト情報を構造化レポート作成に活用する新しいアプローチである。
    • 大量のMIMIC-CXRデータから知識ベースを構築し,画像と質問のペアに対して関連するプロトタイプを検索する。
    • Rad-ReStructベンチマークにおいて,ProtoSRは最先端の結果を達成し,特に詳細な属性に関する質問で顕著な改善が見られた。

    Link: https://arxiv.org/abs/2603.11938

  • 大規模音声言語モデルにおけるパラ言語的認識の再活性化 [cs.SD, cs.CL, cs.MM, eess.AS]目的:大規模音声言語モデルのパラ言語的認識能力の向上
    • 音声対話の普及に伴い,文脈を伝えるパラ言語的情報の重要性が高まっている。
    • 既存の大規模音声言語モデルは内容中心であり,パラ言語的情報を十分に活用できていない。
    • パラ言語的認識能力を再活性化し,より自然な対話応答を実現することを目指す。
    • 本研究では,層ごとの分析を通じてパラ言語的情報と意味理解に関わる層を特定した。
    • 提案するパラ言語的強化ファインチューニング(PE-FT)プロトコルは,選択的な層のファインチューニングと二重レベルの分類ヘッドを用いる。
    • PE-FTプロトコルは,全層ファインチューニング戦略を上回る性能を示すことが示された。

    Link: https://arxiv.org/abs/2603.11947

  • オフロード林業環境におけるRGB-NIR画像レジストレーション技術の予備的分析 [cs.CV]目的:オフロード林業環境向け画像レジストレーション技術の適合性評価
    • センサーフュージョンや画像強調,オフロード自動運転において重要な役割を担う技術分野である。
    • オフロード林業環境のような複雑な環境下では,正確な画像レジストレーションが困難である。
    • オフロード林業環境において,ロバストでマルチスケールな画像レジストレーションの実現を目指す。
    • NeMARは一部成功を収めたが,GAN損失の不安定性が幾何学的整合性の維持における課題を示唆する。
    • MURFはオフロード林業データにおいて有望な大規模特徴量アライメントを示したが,密集した植生における細部の処理に苦戦した。
    • 本予備評価は,オフロード林業アプリケーション向けに,より堅牢なレジストレーション技術の改良の必要性を示している。

    Link: https://arxiv.org/abs/2603.11952

  • 小天体レンダリング・再構成のための物理ベースのガウススプラッティング [cs.RO, cs.CV]目的:小天体の表面再構成と特性評価
    • 小天体探査ミッションにおいて,表面の理解は計画,航行,科学分析に不可欠である。
    • 既存のガウススプラッティングは,見た目のみに依存し,材質や光の相互作用を明示的にモデル化しない。
    • 現地画像から小天体の表面再構成と光度特性を高める物理ベースのフレームワークを提供する。
    • 提案手法AstroSplatは,惑星反射モデルを統合することで,より正確な再構成と光度特性評価を実現する。
    • NASAのDawnミッションの実際の画像を用いた検証により,従来の球面調和パラメータ化と比較してレンダリング性能と再構成精度が向上することが示された。
    • AstroSplatは,小天体探査における表面理解の精度向上に貢献する。

    Link: https://arxiv.org/abs/2603.11969

  • 双方向クロスアテンションと時間的モデリングによるマルチモーダル感情認識 [cs.CV, cs.AI]目的:マルチモーダル感情認識のフレームワーク
    • 感情認識は,人間とコンピュータの自然な対話を可能にする上で不可欠である。
    • 現実世界の動画データでは,表情や姿勢の変化,ノイズなどが多く,感情認識が困難である。
    • 視覚情報と聴覚情報を統合し,時間的な変化を考慮することで,よりロバストな感情認識を目指す。
    • 提案手法は,視覚と聴覚の情報を双方向クロスアテンションで融合することで,それぞれの特徴を補完し,認識精度を向上させている。
    • 大規模な事前学習モデル(CLIP, Wav2Vec 2.0)を活用し,動画の表情変化を時間的畳み込みネットワークでモデル化している。
    • ABAW 10th EXPRベンチマークにおいて,単一のモダリティよりも高い性能が確認された。

    Link: https://arxiv.org/abs/2603.11971

  • HomeSafe-Bench:家庭環境における具現化されたエージェント向けに不安全な行動検出を行うビジョン言語モデルの評価 [cs.CV, cs.AI, cs.CR]目的:家庭環境における不安全な行動検出のためのビジョン言語モデルの性能評価
    • 家庭用ロボットの導入が進む中で,安全性確保は重要な課題となっている。
    • 既存の安全評価は静的なデータに限定され,家庭環境特有の動的な危険への対応が不十分である。
    • 本研究は,家庭環境における不安全な行動検出のベンチマークと安全監視アーキテクチャを提案し,その課題解決を目指す。
    • HomeSafe-Benchは,家庭環境における不安全な行動検出を評価するための新たなベンチマークとして構築された。
    • HD-Guardは,リアルタイムな安全監視を実現する階層型ストリーミングアーキテクチャであり,低遅延性と高い検出精度を両立する。
    • 現在のビジョン言語モデルに基づく安全検出におけるボトルネックが明らかになった。

    Link: https://arxiv.org/abs/2603.11975

  • Ada3Drift:ワンステップ3D視覚運動ロボット操作のための適応的訓練時ドリフト [cs.HC, eess.SY, cs.SY, cs.RO, cs.CV]目的:3D点群からの高忠実度ワンステップ生成
    • ロボットの自律的な動作を実現するためには,環境を認識し,適切な行動を選択する視覚運動制御が不可欠である。
    • 拡散モデルは高性能だが推論速度が遅く,リアルタイム制御には不向きである。フローマッチング等は高速だが,多様な行動モードを維持できない。
    • 訓練時に行動モードを明確化し,高速かつ高精度なロボット制御を実現すること。
    • Ada3Driftは,訓練時に予測行動を専門家のデモンストレーションモードに近づけ,他の生成サンプルから遠ざけるドリフト場を学習する。
    • これにより,3D点群からの1回のニューラルネットワーク評価(NFE)で高忠実度のワンステップ生成を可能にする。
    • シミュレーション及び実機実験の結果,Ada3Driftは最先端の性能を達成し,拡散モデルと比較して10分の1の関数評価回数で済む。

    Link: https://arxiv.org/abs/2603.11984

  • CrossEarth-SAR:ドメイン汎化セマンティックセグメンテーションのためのSAR中心大規模地球観測基盤モデル [cs.CV]目的:SAR画像を用いたドメイン汎化セマンティックセグメンテーション
    • 地球観測において,SARは全天候に対応可能であり,広範囲なデータ取得に不可欠である。
    • センサーや地域による画像特性の違いが大きく,セマンティックセグメンテーションの汎化性能を著しく阻害する。
    • 異なるドメイン間でのセグメンテーション精度向上を目指し,大規模基盤モデルを開発する。
    • CrossEarth-SARは,物理特性を考慮したMoEアーキテクチャにより,SAR画像のドメイン汎化セグメンテーションを実現した。
    • 大規模データセットCrossEarth-SAR-200Kを構築し,弱学習と教師あり学習を組み合わせた事前学習を行った。
    • 22のサブベンチマークで構成される評価スイートを新たに開発し,既存手法を大きく上回る性能を示した。

    Link: https://arxiv.org/abs/2603.12008

  • Pano360:幾何学的整合性に基づいたパノラマ視覚への展望 [cs.CV]目的:複数視点からの画像を利用したパノラマ画像生成手法
    • パノラマ画像は広範囲の視覚情報を捉えられ,VR/ARなど多様な応用分野で重要である。
    • 従来のパノラマ画像生成は特徴点のマッチングに依存し,テクスチャの少ない場所での歪みやずれが生じやすい。
    • 3次元空間での幾何学的整合性を活用し,より正確で歪みの少ないパノラマ画像生成を目指す。
    • 本研究では,3次元空間におけるカメラ姿勢を利用した画像歪み補正とグローバルなアライメントを実現するTransformerベースのアーキテクチャを提案した。
    • 提案手法は,複数特徴量の同時最適化により,パノラマ画像の継ぎ目を精度良く計算する。
    • 大規模な実写データセットを用いた実験により,既存手法と比較してアライメント精度と視覚品質が大幅に向上することが示された。

    Link: https://arxiv.org/abs/2603.12013

  • Nyxus:ビッグデータとAI時代の次世代画像特徴抽出ライブラリ [cs.CV, q-bio.QM]目的:ビッグデータとAI時代における画像特徴抽出の効率性と比較可能性の向上
    • 現代の画像計測機器は膨大なデータをもたらし,その処理能力が重要課題となっている。
    • 既存の画像解析アルゴリズムは,大規模データセットの処理効率や精度に課題がある。
    • Nyxusは,スケーラブルな特徴抽出とドメイン間比較を可能にし,その問題を解決する。
    • Nyxusは,2Dおよび3D画像データのスケーラブルなアウトオブコア特徴抽出のために設計された。
    • 多様なバイオメディカル分野を網羅し,CPUおよびGPUでの計算スケーラビリティを実現している。
    • Pythonパッケージ,コマンドラインツール,Napariプラグイン,OCIコンテナとして提供され,様々なユーザーに対応する。

    Link: https://arxiv.org/abs/2603.12016

  • 超高速デジタル・ライト・プロジェクターを用いた単一ピクセル画像分類 [cs.CV, physics.optics]目的:単一ピクセルイメージングによる画像分類
    • 機械視覚において,パターン認識と画像分類は不可欠であり,自動運転などリアルタイムな情報処理が求められる。
    • 従来の画像分類は,処理速度が遅く,高速変化する環境への対応が課題であった。
    • 単一ピクセルイメージングと低複雑度な機械学習モデルを組み合わせ,高速かつ効率的な画像分類を実現すること。
    • マイクロLED-on-CMOSデジタル・ライト・プロジェクターを用いて,サブミリ秒単位の画像エンコードを可能にした。
    • MNIST数字分類タスクにおいて,極限学習機械(ELM)とバックプロパゲーション学習による深層ニューラルネットワークの性能を比較した。
    • 画像再構成を必要としない時空間変換に基づく単一ピクセル画像分類アプローチが,異常検知への応用可能性を示した。

    Link: https://arxiv.org/abs/2603.12036

  • セマンティック・ジオメトリ保存によるVision-Languageモデルの継続学習 [cs.CV, cs.LG]目的:Vision-Languageモデルの継続学習における,セマンティック・ジオメトリの保存
    • 事前学習済みモデルの活用が重要視される中,継続学習による性能維持が課題となっている。
    • 新しいタスクへの適応時に,既存の知識が失われる「破滅的忘却」が問題である。
    • セマンティック・ジオメトリの歪みを抑制し,継続学習における安定性と転移学習を向上させる。
    • 提案手法SeGP-CLは,敵対的アンカーを用いてドリフトしやすい領域を特定し,セマンティック・ジオメトリを保存する。
    • ACGDとTSGRにより,クロスモーダル構造を維持し,テキスト参照フレームを安定化させる。
    • 5つの継続学習ベンチマークで,SeGP-CLが最先端の性能とセマンティック・ジオメトリの保存において優れていることを示した。

    Link: https://arxiv.org/abs/2603.12055

  • 重み付きh変換サンプリングによる粗ガイド型ビジュアル生成 [cs.CV, cs.AI]目的:粗ガイド型ビジュアル生成の性能向上
    • 現実世界の多様な応用において,低品質な参照から高品質な画像を生成する技術が不可欠である。
    • 既存手法は,学習コストが高いか,汎化性能が限定的であるという課題があった。
    • h変換を用いて,生成プロセスを誘導し,高品質な画像を生成することを目指す。
    • 提案手法は,h変換を用いて確率過程を制約することで,粗ガイドに基づいて高品質な画像を生成する。
    • ノイズレベルに応じた重み付けにより,誘導の正確性と合成品質の両立を実現した。
    • 多様な画像および動画生成タスクにおいて,提案手法の有効性と汎化性能を実証した。

    Link: https://arxiv.org/abs/2603.12057

  • NBAvatar:リアルな手と顔のインタラクションを伴うニューラルビルボードアバター [cs.CV]目的:手と顔のインタラクションによる非剛体変形を扱うヘッドアバターのリアルなレンダリング手法
    • 近年,バーチャルコミュニケーションの普及に伴い,リアルなアバター表現の重要性が高まっている。
    • 従来法では,手と顔の複雑なインタラクションをリアルタイムかつ高品質に再現することが困難であった。
    • 本研究は,手と顔のインタラクションをより自然に表現可能なアバター生成を目指す。
    • NBAvatarは,指向性平面プリミティブの学習とニューラルレンダリングを組み合わせた新しいアバター表現を導入した。
    • 実験結果から,NBAvatarは手と顔のインタラクションによる色の変化を暗黙的に学習し,既存手法を上回るレンダリング品質を実現することが示された。
    • 特に,高解像度レンダリングにおいて,Gaussianベースのアバター法と比較して最大30%のLPIPS削減を達成し,PSNRおよびSSIMも向上した。

    Link: https://arxiv.org/abs/2603.12063

  • 複数視点動画からの高密度動的シーン再構成とカメラ姿勢推定 [cs.CV]目的:複数カメラからの動的シーン再構成とカメラ姿勢推定
    • 現実世界のイベントを捉える場面で,複数カメラからの情報統合が重要となる。
    • 既存手法は単一カメラに限定されるか,厳密なカメラセットアップが必要で,実用性に課題がある。
    • 複数の自由なカメラ移動下でも,ロバストな再構成と姿勢推定を可能とする手法を確立する。
    • 提案手法は,カメラトラッキングと深度の精密化を分離した二段階最適化フレームワークを採用する。
    • カメラ間の空間的重なりと時間的連続性を活用し,一貫性のあるスケールとロバストなトラッキングを実現する。
    • 新しい実世界データセットMultiCamRobolabを公開し,最先端モデルを上回る性能を実証した。

    Link: https://arxiv.org/abs/2603.12064

  • 畳み込みを超えて:学習ベースの画像処理のための構造化演算子の分類 [cs.CV, cs.AI]目的:学習ベースの画像処理における構造化演算子の分類
    • 画像処理において畳み込み演算は基本的だが,その限界が課題となっている。
    • 固定された線形演算である畳み込みは,複雑な信号特性の捕捉が難しい。
    • 畳み込み演算を拡張または代替する演算子の体系的な分類を提案する。
    • 本研究では,構造化演算子を分解型,適応重み型,基底適応型,積分・カーネル型,注意機構型に分類した。
    • 各演算子の構造的特性を分析し,適切なタスクへの適用可能性を示した。
    • 線形性,局所性,等変性,計算コストなど,各演算子の比較分析を行った。

    Link: https://arxiv.org/abs/2603.12067

  • LoV3D:脳MRIにおける認知予後推論を,長期的3D脳MRIと局所的体積評価によって実現する [cs.DB, cs.SY, eess.SY, cs.CV, cs.AI]目的:長期的3D脳MRIを用いた認知予後推論のパイプライン
    • アルツハイマー病などの神経疾患の進行評価には,脳MRIが不可欠である。
    • 既存の深層学習ツールは,診断ラベル化,体積測定,そして解釈可能性の欠如といった問題を抱えている。
    • LoV3Dは,脳MRIから得られる情報に基づき,より正確で信頼性の高い認知診断と予後予測を目指す。
    • LoV3Dは,3D視覚言語モデルを訓練し,長期的脳MRIの変化を評価することで,高い診断精度を実現した。
    • ADNIテストセットにおいて,3段階診断精度93.7%(ベースライン比+34.8%),2段階診断精度97.2%(SOTA比+4%)を達成した。
    • MIRIADやAIBLといった外部データセットでも高い汎化性能を示し,臨床現場への応用が期待される。

    Link: https://arxiv.org/abs/2603.12071

  • Node-RF:ニューラルODEに基づくNeRFを用いた汎化された連続空間時間シーンダイナミクスの学習 [cs.RO, cs.SY, eess.SY, cs.CV]目的:シーンダイナミクスの学習
    • 現実世界の理解と予測には,時間変化するシーンのモデル化が不可欠である。
    • 既存手法では,観測範囲外のダイナミクスを予測する能力が限定されている。
    • 観測された軌道を超えた,連続時間かつ空間時間的なシーン表現の汎化を実現すること。
    • Node-RFは,ニューラルODEと動的NeRFを統合することで,この課題を克服した。
    • 学習された潜在状態は,ODEソルバーを用いて時間発展し,長距離の予測を可能にする。
    • 複数のモーションシーケンスでの学習により,未知の状況への汎化性能が向上する。

    Link: https://arxiv.org/abs/2603.12078

  • 写真カメラにおける普遍的な収差補正:包括的なベンチマーク分析 [cs.CV, cs.RO, eess.IV, physics.optics]目的:写真カメラの普遍的な収差補正の実現可能性の評価
    • 現代のカメラ技術において,高画質は重要な要素であり,レンズの収差補正はその実現に不可欠である。
    • 既存の収差補正手法は特定のレンズに最適化されており,異なるレンズへの適用には再学習が必要となる点が課題である。
    • 多様なレンズに対して汎用的に機能する収差補正手法を確立し,その性能を客観的に評価することを目指す。
    • 新たにUniCACという大規模ベンチマークを提案し,自動光学設計を通じて多様な収差を再現した。
    • ODE(Optical Degradation Evaluator)という収差補正タスクの難易度を客観的に評価するフレームワークを導入した。
    • 事前学習,ネットワーク構造,学習戦略が収差補正性能に大きく影響することを示唆する知見を得た。

    Link: https://arxiv.org/abs/2603.12083

  • 従来のSIダイナミクス下におけるゲームにおけるソーシャル・ディスタンシング均衡 [eess.SY, cs.SY, math.CO, math.OC, cs.RO, cs.CL, cs.CG, cs.GT, math.DS, q-bio.PE]目的:ソーシャル・ディスタンシングゲームにおける戦略的均衡の構築
    • 感染症やミーム拡散といった多様な現象を理解する上で,ゲーム理論と疫学の融合が不可欠である。
    • 古典的な疫学モデルでは,合理的な行動を考慮した均衡状態の解析が十分に進んでいない。
    • 動的な有限期間のSIソーシャル・ディスタンシングゲームにおける均衡戦略を数学的に明確化すること。
    • 本研究では,マルコフ決定理論と閾値線形走行コストを用いて均衡戦略を解析した。
    • その結果,特異解は存在せず,待ち期間の後,ロックダウンを行うバンバン戦略が常に一意の均衡となることが示された。
    • 制限された戦略空間において,このバンバン均衡が進化的に安定な戦略(ESS)となることも確認された。

    Link: https://arxiv.org/abs/2603.12107

  • EvoTok:残差潜在進化による統一画像トークナイザー - 視覚的理解と生成 [cs.CV]目的:視覚的理解と生成のための統一画像トークナイザー
    • マルチモーダル大規模言語モデルの発展には,視覚情報の適切な表現が不可欠である。
    • 従来の画像トークナイザーは,理解と生成で異なる粒度の表現が必要となり,一貫性に欠ける場合がある。
    • 残差潜在進化を通じて,視覚的理解と生成の粒度ギャップを解消し,統一的な表現を可能にすること。
    • EvoTokは,残差ベクトル量子化により,低レベル詳細から高レベル意味表現への進化軌跡を捉える。
    • ImageNet-1Kにおいて,256x256解像度で0.43のrFIDスコアという高い再構成品質を達成した。
    • 大規模言語モデルとの統合により,視覚的理解および画像生成のベンチマークで有望な結果を示した。

    Link: https://arxiv.org/abs/2603.12108

  • CRAFT:腱駆動式ハイブリッドハード・ソフトコンプライアンスを持つ手 [cs.RO, cs.AI, cs.CV]目的:接触操作のためのハイブリッドハード・ソフトコンプライアンスを備えた腱駆動式人型ロボット手
    • ロボットハンドは,人間のような器用さを実現する上で重要な要素である。
    • 既存のロボットハンドは,強度と柔軟性の両立が難しいという課題がある。
    • 本研究では,関節部分に柔軟な素材を使用することで,強度と柔軟性のバランスを改善する。
    • CRAFTは,従来の設計と比較して強度と耐久性を向上させつつ,再現性を維持している。
    • 遠隔操作実験では,CRAFTは壊れやすい物品や摩擦の低い物品の取り扱い性能が向上した。
    • CRAFTは,Feix分類における33/33の把持を可能にし,幅広い用途に対応できることが示された。

    Link: https://arxiv.org/abs/2603.12120

  • Hoi3DGen:3Dにおける高品質な人間と物体のインタラクション生成 [cs.CL, cs.CV, cs.LG]目的:3Dにおける人間と物体のインタラクションの生成
    • AR,XR,ゲーム等の応用において,3Dでの人間と物体のインタラクションのモデリングと生成は不可欠である。
    • 既存手法はテキスト-画像モデルからのスコア蒸留に依存するが,高品質なインタラクションデータが不足し,指示通りにならない。
    • 入力されたインタラクション記述に忠実な,高品質な3Dインタラクション生成を目指す。
    • 本研究では,マルチモーダル大規模言語モデルを活用し,現実的かつ高品質なインタラクションデータを構築した。
    • その結果,テキストと3Dモデルの一貫性が既存手法を4〜15倍,3Dモデルの品質が3〜7倍上回る性能を達成した。
    • 多様なカテゴリやインタラクションタイプへの汎化性能も高く,高品質な3D生成を維持している。

    Link: https://arxiv.org/abs/2603.12126

  • HATS:GUIエージェントのための困難度を考慮した軌道合成 [cs.SI, cs.CV]目的:GUIエージェントの訓練を支援する高品質な軌道データの生成
    • GUI自動化は,デジタルタスクを効率化する上で不可欠であり,その精度向上は重要課題である。
    • 既存の軌道合成パイプラインは,複雑な操作への汎化性能が低く,実用性に課題がある。
    • 曖昧な操作の処理能力向上により,よりロバストで汎用性の高いGUIエージェントの実現を目指す。
    • HATSは,曖昧さを困難度として定義し,困難度の高い操作に焦点を当てたデータ収集と軌道の改良を繰り返す。
    • 困難度駆動型探索とアライメント誘導型改良の二つのモジュールを閉ループで運用することで,軌道データの質を向上させる。
    • 実験結果から,HATSで訓練されたエージェントは,既存の最先端手法を上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.12138

  • O3N:全方位オープンボキャブラリ占有率予測 [cs.CV, cs.RO, eess.IV]目的:全方位視覚情報を用いた3D占有率の予測手法
    • 自律エージェントや具現化された知能の開発において,全方位からの3D世界理解は不可避である。
    • 既存手法は,入力視点の制限や学習データの偏りにより,実世界での応用が困難である。
    • 本研究は,多様な環境で安全な認識を可能にする汎用的な3D世界モデルの構築を目指す。
    • 提案手法O3Nは,極座標スパイラル構造を利用し,360度の連続的な空間表現と長距離の文脈モデリングを実現した。
    • 占有コスト集約モジュールにより,幾何学的・意味的情報を一貫性をもって統合し,高精度な3D再構成を可能にした。
    • 視覚特徴,ボクセル埋め込み,テキストの意味論を調和させる自然モダリティアライメントにより,優れた汎化性能とスケーラビリティを示した。

    Link: https://arxiv.org/abs/2603.12144

  • 軌道誘導による少数ステップ制御ビデオ生成:FlashMotion [cs.CV, cs.AI, cs.LG, cs.MM]目的:軌道制御ビデオ生成の効率化と高精度化
    • ビデオ生成技術は,エンターテイメントやコンテンツ制作など,幅広い分野で重要性が増している。
    • 既存の軌道制御ビデオ生成は計算コストが高く,生成に時間がかかるという課題がある。
    • 少数ステップでの高画質・高精度な軌道制御ビデオ生成を実現し,効率性と品質の両立を目指す。
    • FlashMotionは,多段階生成モデルを少数ステップに蒸留する新しい学習フレームワークである。
    • 実験の結果,既存の蒸留手法や多段階モデルと比較して,視覚的品質と軌道の一貫性において優れた性能を示した。
    • FlashBenchという新しいベンチマークを用いて,様々な前景オブジェクト数での評価を行った。

    Link: https://arxiv.org/abs/2603.12146

  • EgoIntent:行動の目的,理由,次に行うことの理解のための一人称視点ステップレベルベンチマーク [cs.CV]目的:一人称視点ビデオにおける人間の意図のステップレベル理解
    • 人間活動の理解は,ロボット工学やヒューマンコンピュータインタラクションなど,多くの分野で重要である。
    • 既存のベンチマークは,ステップレベルの意図理解よりも,エピソードレベルの意図推論に重点を置いている。
    • 本研究は,一人称視点ビデオにおけるステップレベルの意図理解の精度向上を目指す。
    • 本研究では,15種類の日常生活シナリオにおける3,014ステップからなるEgoIntentベンチマークを導入した。
    • 評価した15のMLLMは,3つの意図の次元において平均33.31%のスコアしか達成せず,ステップレベルの意図理解が依然として困難であることを示している。
    • 将来のフレームの情報漏洩を防ぎ,より厳密な評価を可能にするために,重要な結果の直前にビデオを切り捨てた。

    Link: https://arxiv.org/abs/2603.12147

  • MLLMにおける知覚,確信度,精度の関連性 [cs.CV, cs.CL]目的:マルチモーダル大規模言語モデルにおける確信度の較正
    • 画像とテキストを統合するMLLMは,多様な応用において重要な役割を担う。
    • MLLMは高い精度を示す一方,自身の予測の不確実性を正しく評価できない場合がある。
    • 確信度較正を改善し,モデルが自身の限界を認識できるようにすること。
    • 提案手法CDRLにより,MLLMの知覚的感受性と確信度較正が向上した。
    • 確信度を指標としたテスト時スケーリングCA-TTSにより,性能がさらに向上した。
    • 4つのベンチマークにおいて,一貫して8.8%の性能向上が確認された。

    Link: https://arxiv.org/abs/2603.12149

  • GlyphBanana:エージェントワークフローによる正確なテキストレンダリングの進歩 [cs.CL, cs.CV, cs.AI]目的:複雑なテキストおよび数式レンダリングの精度向上
    • 近年,テキストレンダリング技術は進歩しているが,複雑なテキストの正確な生成は依然として困難である。
    • 既存のモデルは,分布外のプロンプトに対して命令遂行能力が限定的であり,複雑な記号や数式のレンダリングに課題がある。
    • GlyphBananaは,エージェントワークフローを用いて,潜在空間と注意マップにグリフテンプレートを注入し,生成画像の反復的な改善を目指す。
    • GlyphBananaは,様々なText-to-Imageモデルに学習なしで適用可能であり,既存のベースラインと比較して優れた精度を達成する。
    • 複雑な文字や数式をレンダリングするための専用ベンチマークを新たに設計した。
    • エージェントワークフローが,生成画像の精度向上に有効であることが実験により示された。

    Link: https://arxiv.org/abs/2603.12155

  • 潜在空間における学習可能な補助構成:マルチモーダル幾何学的推論 [cs.CL, cs.CV]目的:マルチモーダル幾何学的推論における補助幾何構成表現の学習
    • マルチモーダル推論はAI研究の重要な分野であり,現実世界の複雑な問題を解決する鍵となる。
    • 既存手法では,補助幾何構成を忠実に表現できず,離散記号と連続幾何構造のミスマッチが生じやすい。
    • 潜在空間で補助幾何構成を学習することで,エンドツーエンドでの最適化を可能にし,幾何推論の精度向上を目指す。
    • LatentGeoは,ピクセルレベルのレンダリングや外部実行ツールを使用せずに,補助幾何構成を内部化する連続的な潜在視覚表現を学習するフレームワークである。
    • 3段階のカリキュラムと,潜在表現を安定化させつつエンドタスクの正答率を向上させるLaGDPOという潜在認識型強化学習手続きを用いる。
    • GeoAuxという新しいベンチマークを用いた評価により,補助構成を必要とする幾何学的な推論タスクにおいて,LatentGeoが著しい成果を上げることが示された。

    Link: https://arxiv.org/abs/2603.12166

  • BehaviorVLM:視覚と言語の推論による統一的なファインチューニングフリー行動理解 [cs.CV, cs.AI]目的:動物の自由な行動理解のためのフレームワーク
    • 神経科学において,行動理解は神経活動と自然な行動の関連付けの基礎となる。
    • 既存手法は人間の注釈や不安定な非教師あり学習に依存し,拡張性と再現性に課題がある。
    • 事前学習済みVLMsを活用し,詳細な推論ステップを通じて,少ないラベルで行動理解を可能にする。
    • BehaviorVLMは,タスク固有のファインチューニングを必要とせず,姿勢推定と行動理解を統一的に行う。
    • 量子ドットに基づいた行動データと,多段階パイプラインにより,姿勢推定の精度を向上させている。
    • 深層埋め込みクラスタリング,VLMによるキャプション生成,LLMによる推論を統合し,行動セグメントを理解する。

    Link: https://arxiv.org/abs/2603.12176

  • SaPaVe: ロボットのためのビジョン・言語・行動モデルにおける能動的知覚と操作に向けて [cs.CL, cs.RO, cs.CV]目的:ロボットの能動的知覚と操作の統合的学習
    • ロボットが複雑な環境で活動するためには,能動的知覚と操作が不可欠である。
    • 従来の技術では,意味に基づいた能動的知覚と,視点に依存しない堅牢な実行を統一することが困難である。
    • 視点変化に対応可能な,効率的かつ汎用的な能動的操作の実現を目指す。
    • 提案手法SaPaVeは,大規模データセットを用いた意味的カメラ制御の学習と,ハイブリッドデータを用いた両タイプの行動の最適化を組み合わせる。
    • 新たに作成したデータセットActiveViewPose-200Kと3D形状を考慮したモジュールにより,視点変化に対する実行の堅牢性を向上させている。
    • シミュレーションおよび実環境での実験の結果,SaPaVeは既存モデルと比較して最大31.25%高い成功率を達成した。

    Link: https://arxiv.org/abs/2603.12193

  • 法科学的Zip:法医学的視覚言語モデルにおいて,より多くのトークンは良いが必須ではない [cs.CL, cs.CV]目的:法科学における視覚言語モデルのフォレンジック性能維持と計算コスト削減
    • デジタルフォレンジックは,改ざんされたメディアの信頼性検証に不可欠であり,その重要性は増している。
    • 高解像度画像や動画の処理には高い計算コストがかかり,実用上の課題となっている。
    • 改ざん痕跡が潜む可能性のある背景領域の重要性を見逃さずに,計算効率を高めることが目的。
    • ForensicZipは,トレーニング不要で,フォレンジックの観点からトークン圧縮を再構築するフレームワークである。
    • 10%のトークン保持率で,2.97倍の高速化と90%以上のFLOPs削減を実現し,最先端の検出性能を維持する。
    • 時間的トークン変化をBirth-Death Optimal Transport問題としてモデル化し,物理的な不連続性を定量化する。

    Link: https://arxiv.org/abs/2603.12208

  • RDNet:光学リモートセンシング画像における領域比率を意識した動的適応サル顕著物体検出ネットワーク [cs.CV, cs.AI]目的:光学リモートセンシング画像におけるサル顕著物体検出の性能向上
    • リモートセンシング画像は広範囲の情報を得るために重要だが,解析には高度な技術が求められる。
    • 既存手法は物体サイズのばらつきや計算コスト,グローバルな文脈の把握が課題となっていた。
    • 多様な物体スケールへの対応と,高精度な物体局在化を可能にすることを目指している。
    • RDNetはSwinTransformerを用いてグローバルな文脈をモデル化し,領域比率を考慮した動的適応畳み込みを採用することで,スケール変化へのロバスト性を実現した。
    • DAD,FCE,RPLモジュールを組み合わせることで,既存手法と比較して優れた検出性能を達成した。
    • 周波数マッチングと注意機構を活用することで,文脈情報を豊かにし,セマンティックな詳細を強調する。

    Link: https://arxiv.org/abs/2603.12215

  • 検証器による疑似ラベル生成を用いた実世界における点追跡 [cs.CV]目的:実世界の点追跡における性能向上
    • 点追跡は,自動運転やロボティクスなど,様々な応用分野で不可欠な技術である。
    • 実世界の動画データには,合成データにはない特徴があり,追跡性能が低下しやすい。
    • 教師なしデータに対する自己学習による性能改善と,そのための信頼性の高い疑似ラベル生成。
    • 提案手法では,複数の事前学習済み追跡器からの候補軌道を検証器を用いて評価し,信頼性の高い予測を選択する。
    • 検証器による疑似ラベル生成は,教師データの質を向上させ,少ないデータで実世界動画への適応を可能にする。
    • 4つの実世界ベンチマークにおいて,既存の自己学習手法よりも優れた性能を達成した。

    Link: https://arxiv.org/abs/2603.12217

  • 表情認識のための二段階デュアルモダリティモデル [cs.HC, eess.SY, cs.SY, cs.CV]目的:顔の表情認識における精度向上
    • 感情認識は,人間とコンピュータ間の自然な対話を可能にする上で重要である。
    • 動画中の表情認識は,顔の位置検出の不正確さや,ポーズ変化,モーションブラーなどの影響を受けやすい。
    • 不確実な条件下でのロバストな表情認識を実現する手法の開発。
    • 提案手法では,DINOv2を基盤とした堅牢な視覚特徴抽出と,音声特徴との融合により,表情認識の精度を向上させた。
    • 公式検証セットにおいて,Macro-F1スコア0.5368を達成し,従来のベースラインを上回る性能を示した。
    • 5分割交差検証においても,0.5122 ± 0.0277という結果が得られ,安定した性能が確認された。

    Link: https://arxiv.org/abs/2603.12221

  • Vision Transformer のマルチ粒度確率的自動プルーニングフレームワーク HiAP [cs.CV, cs.LG]目的:Vision Transformer の効率的なサブネットワークの発見
    • エッジデバイスでの利用拡大のため,計算資源とメモリ帯域幅の削減が重要である。
    • 既存の構造化プルーニングは,単一の粒度で複雑なパイプラインを必要とする。
    • HiAP は,複数粒度での自動プルーニングにより,効率性と精度を両立する。
    • HiAP は,注意ヘッドや FFN ブロックなど,複数粒度で確率的ゲートを最適化する。
    • ImageNet データセットでの実験により,HiAP が効率的なアーキテクチャを自動的に発見することが示された。
    • 既存の複雑な手法と同等の性能を,より簡略化されたパイプラインで実現する。

    Link: https://arxiv.org/abs/2603.12222

  • SceneAssistant:オープンボキャブラリ3Dシーン生成のためのビジュアルフィードバックエージェント [cs.CV]目的:オープンボキャブラリ3Dシーン生成のためのビジュアルフィードバック駆動型エージェントの開発
    • デジタルコンテンツ作成において,自然言語からの3Dシーン生成のニーズは高い。
    • 既存手法はドメインに制限されるか,定義された空間関係に依存し,汎用性に欠ける。
    • 制約のない,オープンボキャブラリでの3Dシーン合成能力の向上を目指す。
    • SceneAssistantは,3Dオブジェクト生成モデルとVision-Language Models (VLMs)を組み合わせることで,高品質な3Dシーンを生成する。
    • VLMsに基本的な操作(拡大縮小,回転,フォーカスなど)を与えることで,多様なシーン構成を実現する。
    • 自然言語による指示に基づき,既存シーンの編集も可能である。

    Link: https://arxiv.org/abs/2603.12238

  • BiGain: 生成と分類のための統一的なトークン圧縮 [cs.CV, cs.LG]目的:拡散モデルにおける生成と分類の性能維持・向上を目指したトークン圧縮手法
    • 拡散モデルの高速化は,計算コスト削減に不可欠であり,実用化を促進する上で重要である。
    • 既存の高速化手法は,生成品質の最適化に偏りがちで,識別能力の低下を招く可能性がある。
    • BiGainは,生成品質を維持しつつ,高速化した拡散モデルの分類性能を向上させることを目指す。
    • BiGainは,周波数分離の概念に基づき,トークンマージとKVダウンサンプリングの2つの演算子を提案する。
    • ImageNet-1Kにおいて,トークンを70%マージした場合,BiGainは分類精度を7.15%向上させ,FIDを0.34改善した。
    • スペクトル保持のバランスが,拡散モデルにおけるトークン圧縮の信頼できる設計原則であることが示唆された。

    Link: https://arxiv.org/abs/2603.12240

  • 一つのモデル,多様な予算:拡散Transformerのための弾力性潜在インターフェース [cs.CV]目的:拡散Transformerの計算効率と品質のトレードオフの改善
    • 画像生成AIの品質向上は重要であり,計算資源の効率的な利用が不可欠である。
    • 既存の拡散Transformerは,解像度に計算量が依存し,重要でない領域に無駄な計算を行う。
    • ELITは,計算量を動的に調整し,重要な領域にリソースを集中することでこの問題を解決する。
    • ELITは,既存の拡散Transformerに容易に組み込むことが可能であり,性能を向上させる。
    • ImageNet-1K 512pxにおいて,FIDとFDDスコアがそれぞれ平均35.3%,39.6%向上した。
    • ELITは,潜在インターフェースを導入し,重要度に応じた表現を学習することで,計算効率を高めている。

    Link: https://arxiv.org/abs/2603.12245