arXiv雑要約

画像・音声 - 2025/12/17 公開

  • MIMIR:相互情報に基づく敵対的頑健性のためのマスク画像モデリング [cs.CG, cs.RO, cs.IR, cs.CV, cs.AI]目的:ViTにおける敵対的頑健性の向上
    • 画像認識の分野でViTは重要な役割を果たしており,その安定性は不可欠である。
    • ViTは敵対的攻撃に対して脆弱であり,既存の防御手法との適合性が低い。
    • 相互情報に基づく制約を導入し,ViTの敵対的頑健性を高めることを目指す。
    • 本研究では,ViTの自己教師あり事前学習において,敵対的サンプルと潜在表現間の相互情報を制約するMIMIRを提案した。
    • MIMIRは,CIFAR-10,Tiny-ImageNet,ImageNet-1Kにおいて,自然精度と頑健精度を向上させることを示した。
    • 特にImageNet-1Kでは,最先端の敵対的学習手法を上回り,未知の攻撃やデータ破損に対しても優れた頑健性を示した。

    Link: https://arxiv.org/abs/2312.04960

  • 自動運転におけるレーン検出システムの安全性を評価するための包括的指標LSM [cs.CV]目的:レーン検出システムの安全性の評価
    • 自動運転の安全確保には,周囲環境の正確な認識が不可欠である。
    • レーン検出の安全性評価は,物体検出と比較して十分な指標が不足している。
    • 道路状況や速度などを考慮した,レーン検出システムの安全性スコア算出を目指す。
    • 提案するLSMは,道路タイプや幅,検出範囲,速度などの要素を考慮し,レーン検出の安全性を定量的に評価する。
    • 仮想環境での実験により,LSMが既存の評価指標と比較して,より包括的な安全性評価を提供することが示された。
    • LSMは,レーン検出システムの安全性を判断するための,解釈しやすい安全スコアを提供する。

    Link: https://arxiv.org/abs/2407.07740

  • 疎な変換分析に基づく教師なし表現学習 [cs.LG, cs.CV]目的:系列データからの表現学習
    • 表現学習は,機械学習の基礎であり,データから有用な特徴量を自動的に抽出する上で重要である。
    • 既存の表現学習は,複雑なデータ構造を捉えきれず,汎化性能が低い場合がある。
    • 潜在変数の変換を疎な成分に分解することで,より解釈可能で汎化性能の高い表現学習を実現する。
    • 提案手法は,潜在活性化の分布を確率フローモデルを用いて変換し,疎な変換場を学習する。
    • 学習された表現は,独立な因子だけでなく,独立な変換素因子の組み合わせによって特徴付けられる。
    • 系列変換データセットにおいて,データ尤度と近似的な等変誤差の点で最先端の結果を達成した。

    Link: https://arxiv.org/abs/2410.05564

  • リモートセンシングセマンティックセグメンテーションのためのマルチモーダル微調整を伴う統一的フレームワーク [cs.CV]目的:リモートセンシングデータのセマンティックセグメンテーション
    • 地球規模の地理空間分析において,多様なセンサーからのリモートセンシングデータは不可欠である。
    • 単一のデータソースでは,地理情報の詳細かつ正確な分析に限界がある。
    • マルチモーダルデータを活用し,セグメンテーションの精度と汎用性を向上させる。
    • 提案手法MFNetは,既存手法と比較してマルチモーダルセマンティックセグメンテーションにおいて顕著な性能向上を示した。
    • Segment Anything Model (SAM)の汎化能力を活かし,DSMデータへの適用という新たな可能性を示した。
    • 本研究は,今後のリモートセンシング分野における研究と応用を促進する基盤を提供する。

    Link: https://arxiv.org/abs/2410.11160

  • 腎細胞癌のサブタイプ分類:多解像度局在化からの学習 [cs.CV, cs.AI, cs.LG]目的:腎細胞癌のサブタイプ分類手法の開発
    • 腎細胞癌は発見が遅れる傾向があり,高い死亡率を伴うため,早期診断が重要である。
    • 教師あり機械学習の性能向上のためには注釈付きデータセットが必要だが,その数が限られている。
    • 注釈付きデータセットの必要量を削減しつつ,診断精度を維持することを目的とする。
    • 提案手法は,腎癌のサブタイプ分類において,既存の最先端手法と比較して同等以上の性能を示した。
    • 多解像度画像を用いた自己教師あり学習により,注釈付きデータセットが少ない状況でも,高い分類能力を実現した。
    • 本研究は,組織学的サンプルの多解像度特性に着目した新たな学習戦略の有効性を示唆している。

    Link: https://arxiv.org/abs/2411.09471

  • 意味を持たない手続き型3D形状は,驚くほど優れた教師である [cs.CV]目的:3D表現の獲得
    • 3D表現は,ロボット工学やコンピュータビジョンの基盤技術であり,その重要性は高い。
    • 3Dモデルの獲得には専門知識や高価な機材が必要で,データ収集の拡張性や著作権の問題がある。
    • 手続き型3Dプログラムから3D表現を学習することで,これらの課題を解決し,より汎用的な表現を獲得する。
    • 手続き型3Dプログラムから学習した3D表現は,既存のセマンティックな3Dモデルから学習した表現と同等の性能を示した。
    • 形状分類,部品分割,マスク点群補完,シーンセマンティック/インスタンス分割など,様々な3Dタスクでその有効性が確認された。
    • 現在の3D自己教師あり学習法は,3D形状のセマンティクスに依存せずとも機能することが示唆された。

    Link: https://arxiv.org/abs/2411.17467

  • 2Dオルソ画像と3D航空レーザースキャン点群からの森林生物多様性ポテンシャルのマルチモーダル分類 [cs.CV]目的:森林の生物多様性ポテンシャルの評価
    • 生態系管理と保全において,森林の生物多様性評価は不可欠である。
    • 従来の現地調査は高精度だが,労力がかかる上に空間的な制約がある。
    • 深層学習による2D画像と3D点群の融合が,効率的な生物多様性評価に貢献する。
    • 深層学習を用いた2Dオルソ画像と3D点群の融合により,森林の生物多様性ポテンシャルを評価可能になった。
    • 単独のデータモダリティ(オルソ画像,点群)による精度はそれぞれ76.7%,75.8%であった。
    • エンドツーエンド学習による融合アプローチが最も高い精度(82.0%)を示した。 スペクトル情報と構造情報が互いに補完し合う。

    Link: https://arxiv.org/abs/2501.01728

  • 私の視点からあなたの視点へ:日常生活理解のためのVLMにおけるエゴからエキソへの転移 [cs.CV]目的:日常生活における活動の理解
    • 視覚と言語を組み合わせたモデルは,様々なタスクで高い性能を示す。日常生活支援への応用が期待される。
    • 既存モデルは,自身の視点に依存した学習のため,他者の視点からの活動理解が苦手である。
    • エキソ視点からの動画からエゴ視点の情報を推論し,より高度な活動理解を目指す。
    • 提案手法Ego2ExoVLMは,エゴとエキソの同期動画を用いて,知識転移を行うことでエキソ視点からのエゴ情報推論を可能にした。
    • 新たなベンチマークEgo-in-Exo Perceptionを導入し,エゴ視点情報の理解度を定量的に評価した。
    • Ego2ExoVLMは,既存のADLベンチマークで最先端の結果を達成し,提案ベンチマークでも高い性能を示した。

    Link: https://arxiv.org/abs/2501.05711

  • LWGANet:リモートセンシング視覚タスクにおける空間的・チャネル冗長性の解決 [cs.CV]目的:リモートセンシング画像に対する軽量な特徴表現の効率化
    • リモートセンシング技術は,環境監視や災害対応など,広範な分野で重要性が増している。
    • 既存の画像処理モデルは自然画像向けであり,リモートセンシング画像の特性に対応できていない。
    • 空間的・チャネル冗長性を効率的に解消し,軽量かつ高精度なモデルを構築すること。
    • 提案手法LWGANetは,Top-K Global Feature InteractionモジュールとLight-Weight Grouped Attentionモジュールを導入することで,空間的・チャネル冗長性を効果的に削減する。
    • 12種類のデータセットを用いた実験により,LWGANetはシーン分類,物体検出,セマンティックセグメンテーション,変化検出などのタスクにおいて,既存の軽量なバックボーンモデルを精度と効率の両面で上回ることが示された。
    • LWGANetは,リモートセンシング画像における効率的な視覚分析の新たな基準を確立する。

    Link: https://arxiv.org/abs/2501.10040

  • Exo2Ego:エキセントリック知識誘導による自己視点ビデオ理解のためのMLLM [cs.CV]目的:エキセントリック知識を利用した自己視点ビデオ理解の性能向上
    • ロボットやウェアラブルを通じたAIアシスタントには,人間との協調に具現的な理解が不可欠である。
    • 既存のMLLMは三人称視点に重点を置いており,自己視点ビデオ特有の課題への対応が不十分である。
    • エキセントリック知識を自己視点領域へ移行させ,データ不足を補うことで,理解性能の向上を目指す。
    • 既存のMLLMは自己視点ビデオ理解において性能が低いことが示された。
    • 提案手法は,主要な既存モデルと比較して,自己視点タスクにおいて大幅な性能向上を達成した。
    • Ego-ExoClipとEgoITという大規模なデータセットと,段階的なマッピング学習パイプラインが有効であることが確認された。

    Link: https://arxiv.org/abs/2503.09143

  • GASPACHO:制御可能な人間と物体に対するガウススプラッティング [cs.CV]目的:人間と物体のインタラクションのフォトリアリスティックで制御可能なレンダリング
    • コンピュータビジョン分野において,現実世界の人間と物体を正確に再現することは重要な課題である。
    • 既存手法では,人間のみを再構成し,物体を背景として扱うため,インタラクションの制御が困難であった。
    • 人間と物体を独立したガウス集合として同時に復元し,制御可能なレンダリングを実現すること。
    • GASPACHOは,BEHAVE,NeuralDome,DNA-Renderingの3つのベンチマークにおいて,重いオクルージョン下でも高品質な再構成を実現した。
    • 本手法は,2D表面多様体上で物体ガウスを学習することで,動的な物体の再構成においてシャープで詳細な表現を可能にした。
    • ガウス空間における接触制約を導入することで,人間と物体の自然で物理的に妥当なアニメーションを実現した。

    Link: https://arxiv.org/abs/2503.09342

  • Med3DVLM:3D医療画像解析のための効率的なビジョン言語モデル [cs.CV, eess.IV]目的:3D医療画像と臨床テキストの対応付けによる,スケーラブルなマルチタスク推論の実現
    • 医療画像診断支援の高度化が求められており,画像と自然言語を組み合わせた解析が重要である。
    • 3D医療画像の処理には高い計算コストがかかり,画像特徴とテキストの整合性を保つことが課題である。
    • 3Dボリュームデータの効率的な処理と,画像とテキストのより効果的な整合性を実現することを目指す。
    • Med3DVLMは,画像-テキスト検索において,既存の最先端モデルを大幅に上回るR@1スコア61.00%を達成した。
    • レポート生成タスクでは,METEORスコア36.42%と優れた性能を示し,既存モデル(14.38%)を大きく上回った。
    • オープンエンドおよびクローズドエンドのVQAタスクにおいても,それぞれ36.76%と79.95%のMETEORスコアと正解率を記録し,性能向上を示した。

    Link: https://arxiv.org/abs/2503.20047

  • CCMNet:較正された色補正マトリクスを活用したクロスカメラの色定性 [cs.CE, cs.IR, cs.CE, math.OC, cs.CV]目的:クロスカメラの色定性
    • 画像の色再現は,視覚体験の重要な要素であり,多様な環境下で正確な色を捉えることが求められる。
    • カメラ固有の特性により,異なるカメラ間での色再現にばらつきが生じ,一貫した色定性を実現するのが困難である。
    • カメラのISPで利用可能な色補正マトリクスを活用し,再学習なしに新しいカメラへ対応可能な色定性を実現する。
    • 提案手法は,複数のデータセットとバックボーンで最先端の水準のクロスカメラ色定性を達成した。
    • 軽量でありながら,カメラISPで容易に入手可能なデータのみに依存している点が特徴である。
    • カメラと色補正マトリクス間のデータ拡張により,過学習を抑制し,汎化性能を向上させている。

    Link: https://arxiv.org/abs/2504.07959

  • AI-GenBench:AI生成画像検出のための新たな継続的ベンチマーク [cs.CV]目的:AI生成画像の検出性能評価
    • AI技術の急速な発展により,画像生成が容易になったが,メディアの信頼性確保が重要課題となっている。
    • 既存のベンチマークは静的なデータセットに依存しており,新しい生成モデルへの汎化性能を評価できない。
    • 生成モデルの進化に対応し,より実用的なAI生成画像検出手法の開発を促進すること。
    • Ai-GenBenchは,生成モデルの進化に合わせて段階的に学習・評価する時間的評価フレームワークを導入した。
    • 多様で高品質な画像データセットと標準化された評価プロトコルを提供し,検出手法の比較を容易にした。
    • 研究者だけでなく,ジャーナリストやファクトチェッカーなど,専門家以外も利用可能なツールを公開している。

    Link: https://arxiv.org/abs/2504.20865

  • 幾何構造を考慮したガウススプラッティングへのテクスチャ転送 [cs.CV]目的:ガウススプラッティングのための幾何構造を考慮したテクスチャ転送フレームワーク
    • マルチメディアコンテンツ作成の効率化が求められており,3D表現へのテクスチャ転送が重要である。
    • 既存手法は3D表現への画像テクスチャ転送に焦点を当てず,高品質な転送が困難である。
    • 幾何構造の情報を活用し,より自然で制御可能なテクスチャ転送を実現することを目指す。
    • 提案手法GT^2-GSは,レンダリングされたビューにおけるテクスチャ特徴と幾何情報のマッチングに着目し,テクスチャ特徴の不足を解消する幾何構造を考慮した拡張モジュールを導入する。
    • カメラ姿勢と3D幾何情報を損失関数に組み込むことで,テクスチャ指向の外観編集を可能にする幾何構造一貫性のあるテクスチャ損失を提案する。
    • テクスチャ転送と幾何補正を繰り返す戦略により,テクスチャ学習と幾何構造の保全のバランスを取ることで,人間の視覚認識に合致した結果を実現する。

    Link: https://arxiv.org/abs/2505.15208

  • VIBE:VLMは状況を読み取れるか? [cs.CV, cs.LG]目的:視覚的社会的・語用推論能力
    • 人間社会の理解は重要であり,感情や社会状況の理解は困難である。
    • 既存のVLMは非言語的情報に基づいた社会状況の推論が苦手である。
    • VLMにおける視覚的社会的・語用推論のギャップを明らかにし,克服すること。
    • 本研究では,VLMが社会状況を読み取る能力に焦点を当て,新しい評価タスクを提案した。
    • 高品質なデータセットを構築し,複数のVLMの性能を評価した結果,課題が残ることが示された。
    • VLMの社会状況理解には,視覚情報と言語情報の統合が不可欠であることが確認された。

    Link: https://arxiv.org/abs/2506.11162

  • Wi-CBR:顕著性に基づいた適応型WiFiセンシングによるクロスドメイン行動認識 [cs.CV, eess.SP]目的:クロスドメイン行動認識のためのWiFiセンシング手法
    • 行動認識は,ヘルスケアやスマートホームなど多様な分野で応用が期待されており,重要性が高い。
    • 既存手法では,ドメイン固有の信号がジェスチャーの変化に干渉し,汎化性能が低下しやすいという課題がある。
    • ドップラー周波数シフトを活用し,動的な経路長変化と運動速度から特徴を抽出し,より高い汎化性能を目指す。
    • 提案手法Wi-CBRは,二重分岐自己注意モジュールにより,位相情報とドップラー周波数シフトから時間的・運動学的特徴を捉える。
    • サリエンシーガイダンスモジュールは,グループ注意メカニズムとゲーティングメカニズムを用いて,重要な活動特徴を抽出し,情報エントロピーを最適化する。
    • Widar3.0とXRF55のデータセットを用いた実験で,提案手法がインドメインおよびクロスドメインにおいて優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2506.11616

  • マルチエージェント人間の軌跡予測における最近の進歩:包括的なレビュー [cs.CV, cs.LG, cs.RO]目的:マルチエージェント人間の軌跡予測に関する最近の研究動向の整理
    • 社会ロボット,自動運転,群衆モデリングなど,様々な分野で人間の行動予測の重要性が高まっている。
    • 複数のエージェント間の相互作用を正確にモデル化することが困難であり,予測精度向上の課題となっている。
    • 深層学習に基づくマルチエージェント軌跡予測の進歩を体系的に整理し,今後の研究方向性を示す。
    • 本レビューでは,2020年から2025年の間に発表された研究を,アーキテクチャ,入力表現,予測戦略に基づいて分類した。
    • ETH/UCYベンチマークを用いて評価されたモデルに焦点を当て,既存手法の現状を詳細に分析した。
    • マルチエージェント軌跡予測における重要な課題と将来の研究の方向性について言及した。

    Link: https://arxiv.org/abs/2506.14831

  • TextMesh4D:ヤコビアン変形場によるテキストから4Dメッシュ生成 [cs.CL, cs.CV]目的:テキストからの4Dメッシュ生成
    • 動的な3D/4Dコンテンツ生成は,現代のコンピュータグラフィックスにおいて重要な役割を担う。
    • 既存手法は幾何学的精度,時間的アーティファクト,CGパイプラインとの互換性の問題がある。
    • トポロジー制約に縛られない柔軟な変形と,時間的・空間的な意味の一貫性を実現する。
    • TextMesh4Dは,ヤコビアン変形場(JDF)と局所-大域的意味正則化(LGSR)を導入することで,高品質な4Dメッシュ生成を可能にした。
    • 実験により,時間的一貫性,構造的忠実性,視覚的なリアリズムにおいて最先端の性能を達成したことが示された。
    • 単一の24GB GPUで効率的に動作し,新たなベンチマークを確立した。

    Link: https://arxiv.org/abs/2506.24121

  • 少ないショットセグメンテーションのための画像間・画像内洗練 [cs.CV]目的:少ないショットセグメンテーションにおける性能向上
    • セマンティックセグメンテーションは画像認識の重要な課題であり,高精度なモデル構築が求められている。
    • 大規模なアノテーションデータが必要となり,アノテーション作業のボトルネックが生じている。
    • 少ないアノテーションデータで未知のクラスに対応できるセグメンテーション手法の開発を目指す。
    • 提案手法IIRは,画像間・画像内の一致しない特徴を洗練することで,より正確でロバストな事前マップを生成する。
    • 特に,プロトタイプに基づく既存手法におけるクラス内ギャップとクラス間干渉の問題を解決する。
    • 9つのベンチマークにおいて最先端の性能を達成し,標準,部分,クロスドメインFSSにおいて有効性を示す。

    Link: https://arxiv.org/abs/2507.05838

  • RTR-GS:ラディアンス・トランスファと反射を用いた逆レンダリングのための3Dガウススプラッティング [cs.GR, cs.CV]目的:反射特性を持つ物体のロバストなレンダリング,BRDFと照明の分解,そして信頼性の高いリライティング結果の実現
    • 新規視点合成の分野において,3DGSは目覚ましい性能を示すが,反射物体のレンダリングは課題である。
    • 逆レンダリングやリライティングにおいて,反射物体の表現は難しく,高周波ディテールの再現が困難である。
    • ラディアンス・トランスファと遅延レンダリングを組み合わせることで,高周波・低周波の表現を分離し,より正確なレンダリングを実現する。
    • 提案手法RTR-GSは,高周波ディテールのオーバーフィッティングによる浮遊アーティファクトを軽減することに成功した。
    • BRDFと照明の分解を物理ベースの遅延レンダリングを用いて洗練させ,新規視点合成,法線推定,分解,リライティングの性能を向上させた。
    • 効率的な学習と推論プロセスを維持しながら,反射物体のレンダリング精度が向上した。

    Link: https://arxiv.org/abs/2507.07733

  • マスク誘導型煙合成による森林火災検知の高度化 [cs.CV, eess.IV]目的:森林火災煙のリアルな画像合成
    • 森林火災の早期発見は甚大な被害を抑制するため,喫緊の課題である。
    • 森林火災煙の画像データが不足しており,検知精度向上の妨げとなっている。
    • マスクと画像特徴を活用し,一貫性のある煙画像を生成することで,データ不足を補完する。
    • 提案手法により生成された煙画像は,リアリティと多様性を兼ね備えている。
    • 合成された煙画像は,森林火災煙の検知モデルの性能向上に貢献する。
    • マスクのランダムな拡張・収縮による損失関数が,生成効果の一貫性を高める。

    Link: https://arxiv.org/abs/2507.11252

  • 深部病変セグメンテーションのためのText Embedded Swin-UMamba [cs.CY, cs.CV, cs.AI]目的:CT画像における病変のセグメンテーション
    • 慢性疾患(リンパ腫など)の臨床評価において,病変の自動計測は不可欠である。
    • 画像特徴と放射線レポートの病変記述を組み合わせる方法が課題となっていた。
    • 画像とテキスト情報を統合し,病変セグメンテーションの精度向上を目指す。
    • 提案手法は,テストデータセットにおいて高いDice係数(82.64)と低いHausdorff距離(6.34ピクセル)を達成した。
    • LLM駆動型モデルLanGuideMedSegと比較して37.79%の性能向上(p < 0.001)を示した。
    • 画像ベースのXLSTM-UNetやnnUNetと比較しても,それぞれ2.58%,1.01%高い性能を示した。

    Link: https://arxiv.org/abs/2508.06453

  • ガイドラインに沿ったセグメンテーションのためのマルチエージェントによる洗練 [cs.MA, cs.CV]目的:ガイドラインに沿ったセグメンテーションの実現
    • 現実世界のセグメンテーションでは,正確さだけでなく,ガイドライン遵守が重要である。
    • 複雑なガイドラインを忠実に守ることは,人間と自動ラベル付けの両方において課題である。
    • 長文のガイドラインに対しても,再学習なしにセグメンテーション品質を向上させることを目指す。
    • 提案手法は,Worker-Supervisorの反復的な洗練アーキテクチャにより,ガイドラインに沿ったマスクを生成する。
    • WaymoとReasonSegデータセットで,最先端のベースラインを大幅に上回る性能を示した。
    • 汎化性能と指示への遵守が優れていることが示された。

    Link: https://arxiv.org/abs/2509.04687

  • データを用いない学習のための言語自己対戦 [cs.AI, cs.CL, cs.GT]目的:データを用いない学習による言語モデルの性能向上
    • 大規模言語モデルの進化には大量のデータが不可欠であり,その限界が課題となっている。
    • データ収集のコストやプライバシーの問題から,更なるデータ増加が困難になりつつある。
    • 自己対戦を通じてモデルが自らを改善し,データ依存性を克服することを目指す。
    • 言語自己対戦(LSP)により,追加データなしで事前学習済みモデルの性能向上が確認された。
    • Llama-3.2-3B-Instructを用いた実験で,指示応答,数学,コーディングのベンチマークで改善が示された。
    • 自己対戦というゲーム理論的枠組みが,データ依存性の克服に有効であることが示唆された。

    Link: https://arxiv.org/abs/2509.07414

  • 少ないサンプル数における3次元点群セマンティックセグメンテーションのためのホワイト集約と復元 [cs.CV]目的:少ないサンプル数における3次元点群セマンティックセグメンテーションのためのプロトタイプ生成手法
    • 3次元点群セマンティックセグメンテーションは,自動運転やロボティクスなど幅広い分野で重要な役割を担う。
    • 学習データが少ない場合,既存手法はプロトタイプサンプリングに依存し,サンプリング結果に性能が左右される。
    • 注意機構に基づいたプロトタイプ生成により,性能変動を抑制し,セマンティックな関係性を捉えたプロトタイプを生成すること。
    • 提案手法WARMは,特徴量の分布を調整するホワイトニングとカラリング変換を組み合わせたクロスアテンションを用いることで,プロトタイプ生成における特徴量の不整合を解消する。
    • WARMは,既存のFS-PCSベンチマークにおいて,顕著な性能向上を達成し,その有効性を示す。
    • ホワイトニングによる特徴量とトークンの整列と,カラリングによる分布の復元が,ロバストな注意機構を実現する鍵となる。

    Link: https://arxiv.org/abs/2509.13907

  • 大規模ヘルスシステムデータからの神経画像モデル学習 [cs.CV, cs.AI]目的:神経画像モデルの学習
    • 神経画像は神経疾患の評価に不可欠であり,需要が世界的に増加している。
    • ヘルスシステムへの負担増大,検査待ち時間,医師の疲弊が課題となっている。
    • ヘルスシステム規模のデータを用いて,AIによる診断支援を目指す。
    • Primaは22万件以上のMRI画像で学習されたビジョン言語モデルである。
    • 52種類の神経疾患診断において,AUCは92.0%と高い診断精度を示した。
    • Primaは,診断の根拠説明,優先順位付け,紹介推奨機能を提供し,医療格差の是正に貢献する。

    Link: https://arxiv.org/abs/2509.18638

  • シフト可能なRGB-A分布学習による安定透明度ビデオ生成 [cs.CV]目的:安定した透明度ビデオ生成
    • ビデオ生成技術は,多様な応用分野において重要な役割を担っている。
    • 既存手法では,RGBとアルファチャンネルの混同により,生成品質が低下しやすい。
    • RGB品質を損なわずに,安定した透明度ビデオ生成を実現することを目指す。
    • 提案手法は,潜在空間とノイズ空間の両方においてRGB-A分布をシフトさせることで,アルファ分布を外側に移動させながらRGB分布を維持する。
    • VAE学習時に透明度を考慮した双方向拡散損失を導入し,尤度に基づいてRGB-A分布をシフトさせる。
    • 拡散ノイズサンプリングの平均をシフトさせ,ガウス楕円マスクを適用することで,透明度に関するガイダンスと制御性を実現する。

    Link: https://arxiv.org/abs/2509.24979

  • インタラクティブ3D医療画像セグメンテーション訓練のための動的プロンプト生成 [cs.IR, cs.CV]目的:インタラクティブ3D医療画像セグメンテーション訓練における動的プロンプト生成戦略
    • 医療画像解析は,疾患の診断や治療計画において不可欠であり,その精度向上は医療の質向上に繋がる。
    • 既存のモデルは,体積データの処理能力不足や,ユーザーとのインタラクティブな連携が限定的であるという課題がある。
    • 現実的なユーザーインタラクションを訓練に取り込み,単一GPUでの効率的な学習を可能にすることを目指す。
    • 動的体積プロンプト生成と内容に応じた適応的クロッピングを組み合わせた訓練戦略を提案した。
    • nnInteractiveセグメンテーションモデルの重みを初期値として用いることで,効率的な学習を実現した。
    • 競技会における評価で,平均Dice係数0.6385,正規化表面距離0.6614,AUC (Dice) 2.4799,AUC (NSD) 2.5671という良好な結果が得られた。

    Link: https://arxiv.org/abs/2510.03189

  • FutrTrack:3次元多物体追跡のためのカメラ・LiDAR融合Transformer [cs.CL, cs.CV]目的:3次元多物体追跡のためのカメラ・LiDAR融合フレームワークの開発
    • 自動運転やロボティクスにおいて,周囲環境の正確な把握が不可欠であるため,多物体追跡技術が重要視されている。
    • 既存の3次元多物体追跡技術は,センサーデータのノイズやオクルージョンに弱く,追跡精度が十分でないという課題がある。
    • カメラとLiDARの情報を効果的に融合し,ロバストな追跡を実現することで,上記の課題を克服することを目指す。
    • FutrTrackは,既存の3次元物体検出器にTransformerベースのスムーザーと融合駆動型トラッカーを導入したモジュール型のフレームワークである。
    • nuScenesデータセットにおいて,aMOTA74.7という高い性能を達成し,3次元多物体追跡のベンチマークで優れた結果を示した。
    • 提案手法は,限られたデータや事前学習なしでも,他のニューラルネットワークベースの手法と競争できる効率的なフレームワークを提供する。

    Link: https://arxiv.org/abs/2510.19981

  • 胸部X線画像を用いた深層学習とGrad-CAMによる弱教師あり肺炎局在化 [cs.FL, cs.CV]目的:肺炎の分類と局在化
    • 肺炎診断において胸部X線画像は不可欠であり,迅速かつ正確な診断が求められる。
    • ピクセルレベルのアノテーションは高コストであり,時間も要するため,実用上の課題となっていた。
    • 画像レベルのラベルのみを用いて肺炎領域を効率的に局在化し,臨床的有用性を検証する。
    • 提案手法は,高精度(96-98%)で肺炎を分類できた。
    • ResNet-18とEfficientNet-B0が全体的に最も良好な性能を示した。
    • Grad-CAMによる可視化により,提案手法が臨床的に関連性の高い肺領域に焦点を当てていることが確認された。

    Link: https://arxiv.org/abs/2511.00456

  • VesSAM:複雑な血管のセグメンテーションのための効率的なマルチプロンプティング [cs.CV]目的:複雑な血管のセグメンテーションのための効率的なフレームワーク
    • 臨床診断や手術計画において,正確な血管セグメンテーションは不可欠である。
    • 血管は細く分岐が多く,テクスチャのコントラストが低いことから,セグメンテーションが困難である。
    • 汎用セグメンテーションモデルの性能を向上させ,血管セグメンテーションの精度を高める。
    • VesSAMは,最先端のSAMベース手法と比較して,Dice係数で10%以上,IoUで13%以上の性能向上を達成した。
    • VesSAMは,完全なファインチューニング手法と同等の性能を,大幅に少ないパラメータで実現する。
    • VesSAMは,分布外データに対しても高い汎化性能を示し,平均的なOoD DiceとIoUで全てのベースラインを上回る。

    Link: https://arxiv.org/abs/2511.00981

  • 輝度を考慮した統計的量子化:照明強調のための教師なし階層学習 [cs.CV]目的:低照度画像強調における再構成忠実性と汎化性能のバランス
    • 視覚情報処理において,低照度環境下での画像認識は重要な課題である。
    • 既存手法は,ペアとなる低/通常照度画像間の決定論的ピクセルレベルマッピングに依存しがちである。
    • 自然な輝度ダイナミクスに着想を得て,輝度層間の統計的サンプリングによる照明強調を目指す。
    • 提案手法LASQは,低照度画像強調を階層的な輝度分布に対する統計的サンプリング過程として再構築する。
    • 輝度遷移を強度座標空間におけるべき乗則分布として捉え,教師なしで最適な遷移パスを学習する。
    • 通常照度画像が不要な状況下でも高い性能を発揮し,汎化性能も向上する。

    Link: https://arxiv.org/abs/2511.01510

  • OLATverse:精密な照明制御を備えた大規模現実世界オブジェクトデータセット [cs.CV, cs.GR]目的:大規模現実世界オブジェクトデータセットの構築
    • 近年,オブジェクト中心の逆レンダリング技術が発展しているが,現実世界での応用には課題が残る。
    • 既存のデータセットは,合成データに依存するか,小規模な現実世界データに限られており,汎化性能に限界がある。
    • 現実世界のオブジェクトを大規模に扱い,高精度な照明制御を可能とするデータセットを提供することで,この課題を解決する。
    • OLATverseは,765種類の現実世界のオブジェクトの約900万枚の画像を含む大規模データセットである。
    • 各オブジェクトは35台のデジタル一眼レフカメラと331個の制御可能な光源を用いて撮影されており,多様な照明条件を再現できる。
    • カメラパラメータ,オブジェクトマスク,表面法線,拡散反射率などの情報も提供され,逆レンダリングや法線推定のベンチマークとして活用できる。

    Link: https://arxiv.org/abs/2511.02483

  • 低データ環境におけるX線プティコグラフィーのための汎用基盤モデルの適応 [cs.CV]目的:X線プティコグラフィー解析のための基盤モデルの適応戦略の比較と最適化
    • 高度な顕微鏡検査の自動化は重要であり,基盤モデルはその実現に貢献しうる。
    • 汎用モデルを専門科学タスクに適合させる最適な戦略は明確ではない。
    • データ不足下におけるタスク依存的な適応戦略の有効性を検証する。
    • 視覚タスクにおいて,SFTとICLは相補的であり,コンテキスト情報を活用したファインチューニングモデルが最高の性能を示した。
    • テキストタスクにおいては,大規模基盤モデルを用いたICLがSFTモデルを上回り,高い性能を発揮した。
    • コンテキストを意識したプロンプティングの優位性と,ファインチューニングモデルにおける文脈干渉現象が確認された。

    Link: https://arxiv.org/abs/2511.02503

  • SIGMMA:病理画像と空間トランスクリプトームの階層的グラフベースマルチスケールマルチモーダル対照的アライメント [cs.IR, eess.SY, cs.SY, cs.CV, cs.LG]目的:病理画像と空間トランスクリプトームプロファイルの表現学習
    • 病理診断の精度向上と個別化医療の実現に貢献する計算病理学の重要性が高まっている。
    • 既存手法では単一スケールでのアライメントに留まり,細胞構造や空間的組織の微細な情報を捉えきれていない。
    • マルチスケールでのアライメントにより,細胞間相互作用を含む組織微小環境の理解を深めることを目指す。
    • SIGMMAは,異なるスケールで学習された表現の一貫性を確保するマルチスケール対照的アライメントを導入した。
    • 遺伝子発現予測タスクにおいて平均9.78%の性能向上,クロスモーダル検索タスクにおいては平均26.93%の性能向上を達成した。
    • 下流解析において,組織の多層的な組織化を学習できることが示された。

    Link: https://arxiv.org/abs/2511.15464

  • 大規模生物多様性データベースにおけるインタラクティブな探索のためのフレームワーク:INQUIRE-Search [cs.CV]目的:大規模生物多様性データベースにおける概念検索とデータ発見の効率化
    • 生物多様性保全や生態学的理解には,膨大なデータの活用が不可欠である。
    • 既存の手法では,画像に記録された生態学的コンテキストの活用が困難である。
    • 自然言語による検索を通じて,隠れた生態学的情報を効率的に発見すること。
    • INQUIRE-Searchは,従来の検索方法と比較して,大幅な時間短縮を実現する。
    • 本システムは,種間行動の季節変化や森林再生といった多様な研究事例に対応可能である。
    • AIを活用した探索ツールは,実験設計やデータ収集における新たな方法論を促す。

    Link: https://arxiv.org/abs/2511.15656

  • 一過性蛍光信号を持つ癌細胞の高度な多重物体追跡と分類:TransientTrack [cs.CV, q-bio.CB, q-bio.QM]目的:癌細胞の一過性蛍光信号を持つ動画データにおける細胞追跡と分類
    • 単一細胞レベルでの細胞集団動態のモニタリングは,生物学研究において不可欠である。
    • 従来の細胞追跡手法は,一定の信号を持つ動画向けであり,細胞死のような重要なイベントを検出できない。
    • 細胞分裂や細胞死を含む完全な軌跡を構築し,細胞系統情報を明らかにすること。
    • 本研究で開発したTransientTrackは,軽量でありながら,多様な条件下で高い追跡性能を発揮する。
    • Transformer Networkやカルマンフィルターを統合し,細胞の分裂と死を効果的に捉える。
    • 化学療法薬の効果を単一細胞レベルで分析する際の応用例を示し,治療応答と耐性メカニズムの詳細な解析を可能にする。

    Link: https://arxiv.org/abs/2512.01885

  • VideoMem:適応的メモリ管理による超長編ビデオ理解の強化 [cs.CV]目的:超長編ビデオ理解のための適応的メモリ管理フレームワーク
    • ビデオと言語を組み合わせた理解は,多様な応用への可能性を秘めているため重要である。
    • 既存モデルは,長文脈の保持と効率的な長期記憶に課題があり,超長編ビデオ理解が困難である。
    • VideoMemは,動的なメモリ管理により,情報保持効率を高め,超長編ビデオ理解を実現する。
    • VideoMemは,ビデオ理解を逐次生成タスクとして捉え,グローバルメモリバッファを動的に更新する。
    • PRPOアルゴリズムとPSPモジュールを統合することで,長期タスクの効率的な学習を実現している。
    • 様々なベンチマークにおいて,既存のオープンソースモデルを大幅に上回る性能を示した。

    Link: https://arxiv.org/abs/2512.04540

  • TARDis:不完全マルチモーダル腫瘍セグメンテーションと分類のための時間減衰表現の分離 [cs.CV]目的:不完全なマルチモーダルデータからの腫瘍セグメンテーションと分類の精度向上
    • 腫瘍診断において,造影CTにおける造影剤の時間経過による血行動態の把握が重要である。
    • 臨床現場では,放射線量制限やプロトコルの不統一により,時間経過の全容を捉えられない場合が多い。
    • 欠損している時間情報を推論することで,低線量での高精度な診断を可能にすることを目指す。
    • TARDisは,時間減衰曲線上の欠損点を連続的なものとして捉え,時間不変な静的成分と時間依存的な動的成分に潜在特徴を分離する。
    • 実験の結果,大規模な腹部CTデータセットおよび公開データセットにおいて,既存のフレームワークを大きく上回る性能が確認された。
    • 特に,データ欠損が著しい状況下でも高い診断性能を維持し,放射線量の低減に貢献する可能性を示唆する。

    Link: https://arxiv.org/abs/2512.04576

  • SAM3-I:指示によるあらゆるものをセグメンテーション [cs.CV]目的:指示に基づいたセグメンテーションの実現
    • 画像認識分野において,汎用的なセグメンテーション技術の確立が求められている。
    • 既存のSAM3では,複雑な指示を正確に反映したセグメンテーションが困難であった。
    • 自然言語による指示を直接理解し,高精度なセグメンテーションを実現すること。
    • SAM3-Iは,指示の意味とSAM3の視覚・言語表現を段階的に整合させる機構を導入した。
    • これにより,複雑な指示に直接対応しつつ,SAM3の概念に基づくセグメンテーション能力を維持している。
    • 多様な指示とマスクのペアからなるデータセットを構築し,SAM3-Iの有効性を示した。

    Link: https://arxiv.org/abs/2512.04585

  • 順序が重要: シーケンシャルVRスケッチからの3D形状生成 [cs.CV]目的:VRスケッチからの3D形状生成
    • 3Dモデリングの効率化が求められており,VR技術はその有望な手段の一つである。
    • 既存のスケッチ-形状モデルは,ストロークの順序を無視しており,形状の意図を捉えきれていない。
    • ストロークの順序を考慮することで,より正確な3D形状生成を目指す。
    • 提案手法VRSketch2Shapeは,ストローク順序を考慮したエンコーダと拡散ベースの3Dジェネレータを組み合わせる。
    • 既存手法と比較して,より高い幾何学的精度を達成し,合成データから実データへの汎化性能も高い。
    • 部分的なスケッチに対しても良好な性能を示す。データセットとモデルは公開される。

    Link: https://arxiv.org/abs/2512.04761

  • HQ-DM:単一アダマール変換に基づく量子化対応学習による低ビット拡散モデル [cs.CV]目的:低ビット拡散モデルの量子化による性能維持
    • 画像生成において拡散モデルの応用が拡大しているが,計算コストとメモリ消費が大きい。
    • 既存の量子化手法では,推論時の活性化行列の異常値を抑制できず,低ビット化で性能が低下する。
    • 単一アダマール変換による量子化対応学習で活性化行列の異常値を低減し,性能劣化を防ぐ。
    • HQ-DMは,活性化行列に単一アダマール変換を適用することで,活性化の異常値を効果的に削減する。
    • ImageNet 256x256データセットを用いた実験で,W4A4とW4A3量子化方式において,既存手法を大きく上回るInception Scoreの改善が確認された。
    • 二重アダマール変換と比較し,INT畳み込み演算を円滑にサポートし,重みの異常値増幅を防ぐ。

    Link: https://arxiv.org/abs/2512.05746

  • 3Dアテンションによる拡散事前知識のバイアス除去:一貫性のあるGaussian Splattingのために [cs.CV]目的:Text-to-Image拡散モデルからの3Dタスクにおける事前知識のバイアスを除去し,多視点の一貫性を向上させること
    • 大規模な3Dデータセットを必要としない3D生成・編集技術の重要性が高まっている。
    • Text-to-Imageモデルは,視点バイアスにより,異なる視点間でオブジェクトの見た目に矛盾が生じるという課題がある。
    • 視点バイアスの根本原因を分析し,多視点の一貫性を高めるためのフレームワークを提案することで,この課題を解決する。
    • 提案手法TD-Attnは,3D-AAGとHAMという2つの主要なモジュールにより,多視点間の不整合に対処する。
    • 3D-AAGは,視点に依存しない3Dアテンションガウスを構築し,空間的な一貫性を強化する。
    • HAMはSemantic Guidance Treeを用いて,視点条件に敏感なCA層を特定し調整することで,より一貫性のある3Dアテンションガウスの構築を支援する。

    Link: https://arxiv.org/abs/2512.07345

  • UnCageNet:ケージ内の動物の追跡と姿勢推定 [cs.CV]目的:ケージ構造による性能低下の抑制
    • 動物の追跡と姿勢推定は,行動解析や福祉に不可欠である。
    • 既存手法はケージ構造や遮蔽により性能が著しく低下する。
    • ケージ構造の除去による追跡・姿勢推定の精度向上を目指す。
    • 提案手法は,Gaborフィルタを用いたケージセグメンテーション,CRFillによる画像補完,および補完画像での評価という3段階のパイプラインである。
    • ケージ構造の除去により,既存手法と同等の追跡・姿勢推定性能が実現された。
    • キーポイント検出精度と軌跡の一貫性も大幅に向上した。

    Link: https://arxiv.org/abs/2512.07712

  • OpenVE-3M:指示に基づく動画編集のための大規模高品質データセット [cs.CV]目的:指示に基づく動画編集のための大規模高品質データセット
    • 動画編集技術は,コンテンツ制作や表現の幅を広げる上で不可欠である。
    • 指示に基づいた動画編集データセットは規模や質が十分でなく,課題となっていた。
    • 高品質で多様なデータセットを提供し,動画編集技術の進展に貢献すること。
    • OpenVE-3Mは,既存のオープンソースデータセットと比較して,規模,編集タイプの多様性,指示の長さ,全体的な品質において優れている。
    • OpenVE-Benchという統一された評価基準を構築し,人間の判断と整合性の高い3つの主要な指標を用いた評価を行った。
    • OpenVE-3Mで学習された5BモデルOpenVE-Editは,OpenVE-Benchで最先端の性能を示し,14Bのベースラインモデルを上回った。

    Link: https://arxiv.org/abs/2512.07826

  • 単一層で十分:事前学習済み視覚エンコーダの画像生成への適応 [cs.CV, cs.AI]目的:事前学習済み視覚表現を画像生成に適応するための手法
    • 画像生成モデルの性能向上は,コンピュータビジョンの重要な課題である。
    • 理解のための特徴と生成のための潜在空間の間には,根本的な不整合が存在する。
    • 事前学習済み表現を効率的に画像生成に活用することを目指す。
    • 提案手法FAEは,単一のアテンション層で事前学習済み視覚表現を低次元潜在空間に変換する。
    • FAEは,再構成と理解に必要な情報を保持しつつ,拡散モデルや正規化フローといった様々な生成モデルに適用可能である。
    • ImageNet 256x256において,FIDが1.29(800エポック),1.70(80エポック)と高い性能を達成した。

    Link: https://arxiv.org/abs/2512.07829

  • 戦略進化の理論:内生的なプレイヤーと戦略的複製子を持つゲーム [cs.GT, cs.AI, econ.TH]目的:戦略進化の解析
    • ゲーム理論と自己複製オートマトンは,それぞれ独立して発展してきたが,両者の統合が重要である。
    • 資源制約下で最適化と自己複製を行う戦略的複製子の進化を理解する上での理論的枠組みが不足している。
    • 自己複製を行う主体(系統)を基本戦略単位とするゲームモデルを構築し,進化的に安定な分布を明らかにする。
    • ゲームのプレイヤー数が進化的に決定される「内生的なプレイヤーを持つゲーム」を導入し,新たな均衡概念「進化的に安定な知能分布」を定義した。
    • 小利得条件の下で,システムの各階層にグローバルな Lyapunov 関数が存在することを示し,メタ選択の下での閉包性(構造保存性)を証明した。
    • 自己修正の制限なく行うと安定性が損なわれることを示し,安定した多エージェントシステムに必要な憲法上の制約を特定した。

    Link: https://arxiv.org/abs/2512.07901

  • エンドツーエンド強化学習によるマルチイメージビジョンエージェントの学習 [cs.HC, cs.CY, cs.CV, cs.AI]目的:複雑なマルチイメージタスクのためのビジョンエージェントの学習
    • 画像とテキストを組み合わせた理解は,現実世界のタスクにおいて重要な役割を担う。
    • 既存のオープンソース手法は単一の画像入力に制限されており,マルチイメージQAタスクに対応できない。
    • マルチイメージQAタスクにおいて,VLMの潜在能力を最大限に引き出すことを目指す。
    • 提案手法IMAgentは,エンドツーエンドの強化学習により,マルチイメージタスクにおいて安定したツール利用行動を達成した。
    • IMAgentは,既存のシングルイメージベンチマークで高い性能を維持しつつ,新しいマルチイメージデータセットで大幅な改善を示した。
    • モデルが推論中に視覚コンテンツへの注意を再配分するための,視覚的な反射と確認のためのツールを開発した。

    Link: https://arxiv.org/abs/2512.08980

  • エコー・コパイロット:心エコー解釈とレポート作成のためのマルチビュー・マルチタスクエージェント [cs.AI, cs.CV, cs.LG, eess.IV]目的:心エコー検査の解釈とレポート作成の自動化
    • 心血管疾患の診断と治療において,心エコー検査は不可欠な役割を担っている。
    • 心エコー検査の解釈は専門知識を要し,多角的な視点からの評価が必要である。
    • 既存のモデルは個別のタスクに特化しており,臨床的に整合性のある包括的な評価が困難である。
    • エコー・コパイロットは,大規模言語モデルを用いて複数の心エコーツールを統合し,クエリに応じた解析を行う。
    • MIMIC-EchoQAベンチマークにおいて,汎用モデルやバイオメディカルモデルを上回る50.8%の精度を達成した。
    • 定量的な測定値と生理学的情報を活用し,臨床的な判断が難しい症例の解決に貢献することが示された。

    Link: https://arxiv.org/abs/2512.09944