arXiv雑要約

画像・音声 - 2026/03/09 公開

  • Influence-Guided Diffusionによる顔属性学習における教師データのずれの調整 [cs.CV]目的:顔属性学習における教師データのずれを軽減すること
    • 顔属性認識は,年齢や表情といった連続的な情報をカテゴリカルラベルに変換するため,ラベルの曖昧さが課題となる。
    • 主観性や撮影条件によるラベルの一貫性欠如が,学習の妨げとなり,性能低下を招く。
    • 影響力の大きい誤ったラベルを修正し,学習データを改善することで性能向上を目指す。
    • DiffInfは,教師データのずれを特定し,潜在拡散自動符号化器を用いて画像の内容をラベルに適合させる。
    • 影響力の大きいサンプルを削除するのではなく,修正することで,データセットの分布を維持する。
    • 実験の結果,DiffInfは標準的なノイズラベル学習や影響度フィルタリングよりも汎化性能が向上することが示された。

    Link: https://arxiv.org/abs/2603.06399

  • 時間的ネットワーク生成ゲーム:柔軟なラベルの影響 [cs.DB, cs.GT]目的:ネットワーク形成におけるゲーム理論的アプローチの研究
    • 現実世界の交通網や情報網の形成メカニズム解明は,社会インフラの最適化に不可欠である。
    • 既存モデルでは,エッジの時間設定が固定されており,現実の動的なネットワーク変化に対応できない。
    • エージェントがエッジの時間的出現を決定できるモデルを構築し,より現実的なネットワーク形成を分析する。
    • 提案モデルにおいて,ナッシュ均衡の存在が証明された。
    • 到達可能性モデルとコスト関数設定の違いに応じて,アナーキー価格と安定価格の上界・下界が導出された。
    • エージェントがエッジのラベルを柔軟に設定することで,ネットワーク形成の戦略的行動が明らかになった。

    Link: https://arxiv.org/abs/2603.06406

  • ビジョンTransformerにおける図と地の組織化の特定と編集 [cs.CV]目的:ビジョンTransformerにおける図と地の組織化の実現箇所
    • 視覚認知において,図と地の分離は基本的な処理であり,物体認識に不可欠である。
    • Transformerモデルでは,局所的な情報と大域的な情報の間で図と地の組織化が曖昧になりやすい。
    • 本研究は,Transformer内部で図と地の組織化がどのように決定されるかを明らかにすることを目指す。
    • BEiTは,制御された知覚的競合下で,凸形状の完成を信頼性高く選択する。
    • 内部活性化の解析により,この選択がTransformerの特定の機能ユニットによって制御されていることが示された。
    • 図と地の組織化は,初期層で曖昧になり,後期層で急激に解決される。注意ヘッドL0H9が初期のバイアスを生み出している。

    Link: https://arxiv.org/abs/2603.06407

  • 物理シミュレーター連携型ビデオ生成 [cs.CV, cs.AI, cs.GR]目的:物理法則に基づいたビデオ生成手法
    • AIによるビデオ生成の発展は目覚ましいが,現実世界の物理法則を遵守することが課題である。
    • 既存の生成モデルでは,重力や慣性といった物理法則に反する動きや不自然な挙動がしばしば見られる。
    • 物理シミュレーターを導入し,ビデオ生成過程で物理的な整合性を確保することを目指す。
    • 本手法は,事前学習済みの拡散モデルで生成されたテンプレートビデオに対し,物理シミュレーターを用いて物理的に整合性のある軌跡を生成する。
    • シミュレーションされた軌跡をガイドとして活用することで,時間的・空間的に物理的に一貫性のある動きを実現する。
    • また,TTCOという手法を提案し,オブジェクトの動きに伴うテクスチャの一貫性を向上させている。

    Link: https://arxiv.org/abs/2603.06408

  • 家庭水槽における小型淡水魚の非侵襲的成長モニタリング:ステレオビジョンによる手法 [cs.CL, cs.CV]目的:小型淡水魚の成長モニタリング手法
    • 水産養殖や愛好家の水槽において,魚の健康状態を把握する上で成長状況のモニタリングは重要である。
    • 水槽環境下では,魚が小さく,屈折の影響が強いため,正確なサイズ計測が困難である。
    • 本研究は,水槽環境における屈折を考慮したステレオビジョンによる魚の体長推定を可能にすることを目的とする。
    • YOLOv11-Poseネットワークを用いて魚を検出し,解剖学的キーポイントを予測する。
    • 空気-ガラス-水の界面を考慮したエピポーラ制約により,ロバストな対応付けを実現し,学習された品質スコアで信頼性の低い検出を除去する。
    • 屈折を考慮した3次元三角測量により,3次元キーポイントを復元し,魚の体長を測定する。実験結果から,低品質の検出を除去することが正確な体長推定に不可欠であることが示された。

    Link: https://arxiv.org/abs/2603.06421

  • CLoPA:医療画像アノテーションのためのインタラクティブセグメンテーションの継続的低パラメータ適応 [cs.CL, cs.CV, cs.AI, cs.LG]目的:医療画像アノテーションにおけるインタラクティブセグメンテーションの継続的な適応戦略
    • 医療画像解析において,正確なセグメンテーションは診断・治療計画の精度向上に不可欠である。
    • 既存のゼロショットモデルは,多様な医療画像タスクにおいて専門家レベルの性能を安定して達成できない。
    • アノテーションデータ蓄積によるセグメンテーションモデルのオンライン適応を通じて性能向上を目指す。
    • CLoPAは,nnInteractiveのパラメータのごく一部をアノテーションキャッシュ上で継続的に調整することで,迅速に専門家レベルの性能に到達する。
    • 特に,nnInteractiveが従来失敗していたタスクにおいても,わずか1回の学習エピソードで大きな性能向上を達成する。
    • パラメータグループのチューニング効果はタスク特性に依存し,複雑な形状のターゲットではより深い特徴表現の調整が必要となる。

    Link: https://arxiv.org/abs/2603.06426

  • LLMベースTTSにおけるストリーミングテキスト入力に対応した,発声区間を意識したストリーミング生成 [cs.SD, cs.AI]目的:LLMベースTTSにおけるストリーミング生成の改善
    • 対話システム等において,リアルタイムな音声合成の需要が高まっているため。
    • 先行情報不足による不自然な抑揚や,コンテキストの無限拡大による長文崩壊が課題である。
    • 発声区間を意識した学習により,これらの課題を解決し,高品質なストリーミングTTSを実現する。
    • 提案手法は,短文・長文の両方において,既存のベースラインモデルを上回る性能を示す。
    • 特に長文合成において,単語誤り率を66.2%絶対的に削減し,話者・感情の類似性をそれぞれ16.1%,1.5%向上させた。
    • 本手法は,インクリメンタルテキストを用いたストリーミングTTSに対する堅牢な解決策を提供する。

    Link: https://arxiv.org/abs/2603.06444

  • もしあれば?ワールドモデルを用いた状況推論のための模倣シミュレーション [cs.CV]目的:状況推論のためのメンタルな探索
    • ロボット工学や視覚障碍者支援において,現実世界での物理的制約や安全上の問題から積極的な探索が困難な場合がある。
    • 限られた情報から将来の軌跡を予測し,「もし〜だったら」という空間的な問いに答える能力が不足している。
    • 積極的な探索なしに,ワールドモデルを用いたメンタルな探索による状況推論の可能性を検証する。
    • 大規模データセットWanderDreamを構築し,モデルが能動的な探索なしに推論できることを示した。
    • ワールドモデルはWanderDream-Genにおいて高い性能を発揮し,想像力はWanderDream-QAにおける推論を促進した。
    • WanderDreamデータは現実世界でのシナリオへの高い転移性を示すことが確認された。

    Link: https://arxiv.org/abs/2603.06445

  • CaTok:1次元因果画像トークン化のための平均フローの制御 [cs.CV]目的:1次元因果画像トークン化のための手法
    • 画像認識における自己回帰モデルの重要性が高まっており,その基盤となる因果的なトークン化技術が求められている。
    • 既存の画像トークナイザーは,2次元画像を因果関係のないシーケンスに変換するか,不自然な順序付けを行うという課題がある。
    • 平均フローデコーダを用いたCaTokにより,因果的な1次元表現を学習し,高速な生成と高精度なサンプリングを可能にすること。
    • CaTokは,ImageNet再構成において,FID 0.75,PSNR 22.53,SSIM 0.674という最先端の結果を,少ないエポック数で達成した。
    • CaTokによって学習された因果的な1次元表現は,高速なワンステップ生成と高忠実度のマルチステップサンプリングをサポートする。
    • 正則化手法REPA-Aの導入により,エンコーダ特徴とVision Foundation Modelsとの整合性が向上し,学習の安定化と高速化に貢献した。

    Link: https://arxiv.org/abs/2603.06449

  • Pinterest Canvas:Pinterestにおける大規模画像生成 [cs.RO, cs.CV]目的:Pinterestにおける画像編集と拡張ユースケースを支援するための大規模画像生成システム
    • 画像生成技術は多様なタスクに対応可能だが,製品要件の厳格な制御が課題であった。
    • 汎用的なモデルでは,特定の製品要件を満たす精度や効率が不足している場合がある。
    • タスク固有のデータセットでモデルを迅速にファインチューニングし,専門的な画像生成を実現する。
    • Pinterest Canvasは,多様なマルチモーダルデータセットで学習された拡散モデルを基盤とする。
    • 背景の強化とアスペクト比のアウトペインティングにおいて,18.0%と12.5%のエンゲージメント向上を確認。
    • 人間の評価者との比較により,第三者のモデルを上回る性能が検証された。

    Link: https://arxiv.org/abs/2603.06453

  • フローマッチングの学習:重み付けとパラメータ化の役割 [cs.CV]目的:ノイズ除去型生成モデルの学習目標に関する分析
    • 生成モデルは,現実世界のデータを模倣する能力から,様々な分野で活用が期待されている。
    • 学習目標やパラメータ設定が性能に大きく影響するものの,その相互関係は十分に解明されていない。
    • フローマッチングモデルの学習における,重み付けとパラメータ化の影響を明らかにすること。
    • 学習目標の選択が,データ多様性やモデル構造,データセットサイズと相互作用することが示された。
    • ノイズレベルごとのPSNRとFIDスコアに基づき,定量的な評価が行われた。
    • 本研究は,フローマッチングモデルの設計に関する実践的な知見を提供する。

    Link: https://arxiv.org/abs/2603.06454

  • 基礎モデルは幾何学を知っているか? 連続的な物理的測定のための凍結された特徴の調査 [cs.CV, cs.AI]目的:連続物理測定のための凍結された特徴からの幾何学的知識の抽出
    • 視覚と言語を統合したモデルの幾何学的理解の程度が不明であり,その評価が必要である。
    • 既存の言語モデルは,視覚情報に内在する幾何学的情報を十分に表現できていない可能性がある。
    • 凍結された特徴から幾何学的情報を抽出することで,モデルの潜在能力を明らかにする。
    • 凍結された特徴を用いた線形プローブにより,テキスト出力と比較して,大幅に高い関節角度の推定精度が示された。
    • LoRAファインチューニングによって精度は向上したが,訓練経路の欠如が主要なボトルネックであることが示唆された。
    • 異なるエンコーダ構造を持つモデルでも,幾何学的精度は統計的に同等に収束し,機能的収束と表現的収束の乖離が確認された。

    Link: https://arxiv.org/abs/2603.06459

  • GreenRFM:リソース効率的な放射線画像基礎モデルへ [cs.CV]目的:放射線画像における基礎モデルの開発
    • 医療画像診断の精度向上は,患者の早期発見と適切な治療に不可欠である。
    • 既存の基礎モデルは,計算資源を大量に消費し,実用性に課題がある。
    • 少ない計算資源で高性能な基礎モデルを構築し,臨床現場での利用を促進する。
    • 提案手法GreenRFMは,既存の手法を凌駕する性能を,大幅に少ない計算量で実現した。
    • 単一の24GB GPUで24時間以内に,最先端の性能を達成するモデルを構築可能である。
    • また,6GB VRAMで4時間以内に既存ベンチマークに匹敵する性能を持つ軽量モデルも実現した。

    Link: https://arxiv.org/abs/2603.06467

  • Match4Annotate:暗黙的ニューラル特徴量マッチングによる疎なビデオ注釈の伝播 [cs.CV]目的:ビデオ注釈の伝播手法
    • 医療画像解析など専門分野での応用には,正確なビデオ注釈が不可欠である。注釈作成は専門知識と時間を要する。
    • 既存手法は,単一ビデオ内での伝播に限定されるか,低テクスチャ領域での対応付けが困難である。
    • ビデオ内外で点とマスク両方の注釈をスムーズに伝播し,注釈作成の効率化を目指す。
    • 本研究では,DINOv3特徴量にSIRENベースの暗黙的ニューラル表現を適用し,連続的な時空間特徴量場を生成する。
    • フレームペア間のスムーズな変形場を学習し,対応点マッチングを誘導する軽量なフレームワークMatch4Annotateを提案する。
    • 臨床超音波データセットにおいて,最先端の性能を達成し,特徴量マッチングやワンショットセグメンテーションを上回る結果を示した。

    Link: https://arxiv.org/abs/2603.06471

  • スケーラブルなマルチモーダル合成のための自己教師ありフローマッチング [cs.RO, cs.RO, cs.SI, stat.AP, cs.CL, cs.CL, cs.CV]目的:スケーラブルなマルチモーダル合成手法
    • 拡散モデルやフローモデルの性能向上には,強力な意味表現が不可欠である。
    • 既存手法は外部モデルに依存し,目的のずれやスケーリングの不安定性がある。
    • 意味表現学習を生成フレームワークに統合し,外部教師なしで高性能化を目指す。
    • 自己教師ありフローマッチング「Self-Flow」を提案し,異なるタイムステップのノイズスケジュールを利用することで,モデルが破損した入力から情報を推論することを可能にした。
    • これにより,外部の監督なしで強力な表現学習と生成能力を両立し,画像,動画,音声の生成において優れた性能を示した。
    • 提案手法は様々なモダリティに適用可能であり,期待されるスケーリング則に従うことが確認された。

    Link: https://arxiv.org/abs/2603.06507

  • 方向条件付き閉塞推論を用いたシーングラフ学習:ピーマン植物への応用 [cs.RO, cs.CV]目的:ピーマン植物のシーングラフの推論
    • 農業ロボットの普及には,密集した作物環境下での正確な認識が不可欠である。
    • 従来の認識手法では,方向性を考慮した閉塞関係の推定が困難であった。
    • 方向性を考慮した閉塞推論により,より正確な作物構造の理解を目指す。
    • 提案手法SG-DORは,インスタンスセグメント化された器官点群から,物理的接続と方向条件付き閉塞をエンコードするシーングラフを推論する。
    • 閉塞ランキングタスクにおいて,ターゲットフルーツとアプローチ方向に対する候補葉の検索とランキングを実現する。
    • 合成データセット実験の結果,閉塞予測(F1=0.73, NDCG@3=0.85)と接続推論(エッジF1=0.83)において高い性能を示した。

    Link: https://arxiv.org/abs/2603.06512

  • 胎児口蓋裂の検出における人工知能の活用と医学教育の発展 [cs.CV, cs.AI, cs.LG]目的:胎児口蓋裂の検出と医学教育の向上
    • 口蓋裂は頻度の高い先天性疾患であり,早期発見と適切な介入が重要である。
    • 経験豊富な専門家の不足と疾患の稀少性により,正確な産前診断は困難である。
    • 専門家不足の環境下での診断精度向上と,研修医の専門性育成を支援する。
    • 人工知能システムが,93%以上の感度と95%以上の特異度で胎児口蓋裂を診断できることが示された。
    • このシステムは,ベテラン放射線科医と同等の性能を示し,経験の浅い放射線科医の感度を6%以上向上させた。
    • 研修医への教育ツールとしての活用により,希少疾患に関する臨床能力の向上に貢献する可能性がある。

    Link: https://arxiv.org/abs/2603.06522

  • SCAN:自己確信度と解析ネットワークによる視覚的説明 [cs.CV]目的:深層学習モデルの意思決定過程を透明化するための視覚的説明手法
    • AIの信頼性向上には,モデルの判断根拠を理解することが不可欠であり,特にコンピュータビジョン分野では重要である。
    • 既存の説明手法は,高精度と汎用性のトレードオフに陥り,抽象的または断片的な説明になりがちである。
    • 異なるモデル構造間での説明力の比較が困難という問題を解決し,信頼性の高いモデル理解を可能とする。
    • SCANは,CNNとTransformerの両アーキテクチャに対して,既存手法よりも優れた性能を示す。
    • 生成される自己確信度マップは,情報量の多い領域を特定し,高解像度で明確な説明を提供する。
    • モデルの透明性を向上させ,複雑なニューラルネットワークの意思決定過程を理解するための信頼できるツールとなる。

    Link: https://arxiv.org/abs/2603.06523

  • AV-Unified:オーディオビジュアルシーン理解のための統一フレームワーク [cs.RO, cs.CV]目的:多様なオーディオビジュアルシーン理解タスクにおける共同学習
    • 人間は複数の感覚情報を統合して世界を認識する。そのメカニズムの解明はAI発展の鍵となる。
    • 既存研究は個々のタスクに偏り,複雑なシーンの全体的な理解やタスク間の関係性分析が困難である。
    • 様々なタスクを統合的に処理し,より高度なオーディオビジュアルシーン理解を目指す。
    • AV-Unifiedは,多様な入力形式と出力形式を標準化し,単一のアーキテクチャで複数のデータセットを共同学習可能とした。
    • マルチスケール時空間知覚ネットワークにより,オーディオビジュアル間の関連性を効果的に捉えることを可能にした。
    • ベンチマークデータセットでの実験により,AV-Unifiedが時間的,空間的,時空間的なタスクにおいて有効であることが示された。

    Link: https://arxiv.org/abs/2603.06530

  • 拡散型LiDARの空間較正 [cs.CV, cs.RO]目的:拡散型LiDARとRGB画像の空間対応関係
    • LiDARは,自動運転やロボティクスにおいて,周囲環境の3次元把握に不可欠な技術である。
    • 従来のLiDAR-RGB較正は,単一光線の仮定に基づいているため,広い視野角を持つ拡散型LiDARには適用が困難である。
    • 拡散型LiDARのピクセルに対応する有効支持領域と空間感度を推定し,正確な較正を実現すること。
    • 提案手法は,スキャンされた反射板と背景差分を用いることで,LiDAR-RGB間の明確な対応関係を示すピクセル応答マップを生成する。
    • これにより,LiDARとRGB画像のクロスモーダルアライメントと融合が可能となる。
    • ams OSRAM TMF8828を用いて,提案手法の有効性を実証した。

    Link: https://arxiv.org/abs/2603.06531

  • NEGATE:テキスト-ビデオ拡散における言語的否定のための制約付き意味的誘導 [cs.CV]目的:拡散モデルにおける言語的否定の形式的な取り扱い
    • 自然言語処理と画像生成の融合は,より高度なコンテンツ生成を可能にする重要な研究分野である。
    • 拡散モデルでは,言語的否定のような複雑な意味構造が十分にモデル化されておらず,意図した内容と異なる画像を生成する可能性がある。
    • 言語的否定を,拡散過程における意味的誘導の構造化された実現可能性制約として捉え,その問題を解決することを目指す。
    • 提案手法は,モデルの再学習やヒューリスティックな手法を用いることなく,事前学習済みの拡散モデルに適用可能である。
    • 多様な否定現象(オブジェクトの不在,段階的な非反転意味,多重否定の構成,スコープに依存する曖昧性解消)に対し,統一的なフレームワークを提供する。
    • 実験の結果,提案手法は,視覚的な忠実性と構造的な一貫性を維持しながら,堅牢な否定の遵守を達成した。

    Link: https://arxiv.org/abs/2603.06533

  • RAMoEA-QA:呼吸音響質問応答のための階層的専門化 [cs.SD, cs.AI]目的:呼吸音響データに対する質問応答システムの性能向上
    • 医療分野における会話型AIの重要性が高まる中,多様な患者データと対話形式に対応できるモデルが求められている。
    • 既存の呼吸音響質問応答システムは,多様なデータと質問形式への対応が不十分であり,実用環境での信頼性が課題である。
    • 呼吸音響データの特性と質問意図に応じてモデルを専門化することで,よりロバストな質問応答を実現する。
    • RAMoEA-QAは,呼吸音響データと質問内容に応じて,最適な音声エンコーダと言語アダプタを選択する階層的なルーティング構造を採用している。
    • 実験結果から,RAMoEA-QAは既存の最先端モデルと比較して,in-domainテスト精度が向上し,ドメイン,モダリティ,タスクの変化に対する汎化性能が高いことが示された。
    • わずかなパラメータ増加で性能を向上させることで,実用的な呼吸音響質問応答システムへの応用が期待される。

    Link: https://arxiv.org/abs/2603.06542

  • SurgFormer:切除支援とリアルタイム推論による臓器変形のスケーラブルな学習 [cs.CV]目的:臓器変形学習モデルの構築
    • 手術シミュレーションの精度向上は,医療技術の発展と安全な手術計画に不可欠である。
    • 高精度なバイオメカニカルソルバーは計算コストが高く,リアルタイムなインタラクティブ利用が困難である。
    • ソルバー生成データに基づき,リアルタイムで臓器変形を予測するモデルを学習することで,この問題を解決する。
    • SurgFormerは,マルチ解像度ゲート付きTransformerを用いて,体積メッシュ上でソフトティッシュシミュレーションを効率的に行う。
    • 切除条件下のシミュレーションにおいて,切除情報を学習済みの埋め込みとしてエンコードし,標準的な変形予測とトポロジー変化に対応する統一的なモデルを実現した。
    • 多様なベースラインと比較して,SurgFormerは高い精度と効率性を両立し,両タスクの実用的な基盤となることが示された。

    Link: https://arxiv.org/abs/2603.06543

  • 自動運転のためのマルチソースマルチモーダルデータにおける冗長性のモデリングと測定 [cs.CV]目的:マルチソースマルチモーダルデータにおける冗長性のモデリングと測定
    • 自動運転は,リアルタイムな意思決定のために大量のデータを必要とするため,データ品質の重要性が高い。
    • 既存研究ではアルゴリズム設計が優先され,自動運転データセットにおけるデータ品質(DQ)の分析が不足している。
    • 自動運転データセットにおけるデータ品質問題の一つである冗長性を定量的に評価し,その改善を目指す。
    • カメラデータにおいて,重複する視野を持つカメラからの冗長なラベルを選択的に削除することで,YOLOv8を用いた物体検出性能が向上した。
    • nuScenesデータセットにおいて,代表的な重複領域でmAP${50}$が0.66から0.70,0.64から0.67,0.53から0.55へと改善された。
    • 画像とLiDARデータの組み合わせにおいても,有意な冗長性が確認され,データ品質の重要な要素であることが示唆された。

    Link: https://arxiv.org/abs/2603.06544

  • タスク適応型構造化思考による一人称視点4D推論学習:EgoReasoner [cs.CV]目的:一人称視点ビデオにおける4D推論タスク遂行能力の向上
    • 一人称視点ビデオ理解は,現実世界の動的な状況を捉える上で重要である。
    • 既存手法では,タスクごとの認知構造の違いに対応できていない。
    • タスクに応じた推論構造と報酬信号を整合させることで,問題を解決する。
    • EgoReasonerは,タスク適応型思考テンプレートを用いて構造化されたCoTトレースを生成する。
    • タスクに応じた報酬関数により,エンティティのグラウンディングと論理的整合性を強化する。
    • HD-EPICベンチマークにおいて,Qwen2.5-VL-7Bを10ポイント以上上回る平均精度37.5%を達成した。

    Link: https://arxiv.org/abs/2603.06561

  • Penguin-VL:LLMベースの視覚エンコーダを用いたVLMの効率限界の探求 [cs.CV]目的:VLMの性能限界の探求
    • VLMはマルチモーダルなAIの基盤技術であり,その応用範囲は広い。
    • VLMの高性能化にはモデルサイズの拡大が不可欠とされ,リソース制約下での利用が課題。
    • 対照学習に頼らない,より効率的な視覚エンコーダの開発。
    • テキストLLMから初期化されたPenguin-Encoderが,対照学習による事前学習よりも優れた視覚表現を獲得。
    • 数学的推論,文書理解,視覚的知識,マルチパースペクティブ動画理解など,多様なベンチマークで既存のVLMと同等以上の性能。
    • 軽量なアーキテクチャで高性能を実現し,リソース制約下でのVLM利用を促進する可能性を示す。

    Link: https://arxiv.org/abs/2603.06569

  • SUREON:外科的推論のためのベンチマークおよびビジョン言語モデル [cs.CV, cs.AI]目的:外科手術の場面における推論能力を評価するためのベンチマークデータセットおよびビジョン言語モデル
    • 外科手術の質の向上には,熟練した外科医の知識と判断能力が不可欠である。
    • 既存の外科AIは,手術における意図やリスク評価といった高次の推論を欠いている。
    • 手術教育ビデオに含まれる専門家の解説を活用し,外科AIの推論能力を向上させる。
    • SUREONデータセットは,170種類の手術,134.7Kのクリップ,206.8KのQAペアで構成される大規模なデータセットである。
    • SureonVLMおよびSureonVLM-R1は,SUREONベンチマークで84%以上の精度を達成し,汎用モデルを上回る性能を示した。
    • SureonVLM-R1は,視覚的文脈から手術の意図を推論するなど,明示的な推論行動を示すことが確認された。

    Link: https://arxiv.org/abs/2603.06570

  • シーンコンテキストを考慮した漸進型Few-Shot 3Dセグメンテーション [cs.CV, cs.LG]目的:漸進型Few-Shot 3Dセグメンテーションにおける性能向上
    • 3D点群処理は,ロボティクスや自動運転等の応用において重要性が高まっている。
    • Few-Shot学習では,少数サンプルからの学習が課題であり,3D点群データでは特に困難である。
    • 背景領域を活用し,少ないラベルサンプルでも汎化性能を向上させる。
    • 提案手法SCOPEは,既存のプロトタイプベース手法に組み込めるプラグアンドプレイ型フレームワークである。
    • 背景領域からの疑似インスタンスを利用し,プロトタイププールを構築することで,Catastrophic Forgettingを抑制する。
    • ScanNetとS3DISでの実験により,新規クラスのIoUが最大6.98%向上し,SOTA性能を達成した。

    Link: https://arxiv.org/abs/2603.06572

  • BEVLM:LLMからの意味的知識をバードアイビュー表現へ蒸留 [cs.CV, cs.AI, cs.LG, cs.RO]目的:LLMとバードアイビュー表現の接続による,自動運転における推論能力の向上
    • 自動運転において,複雑な状況判断やレアケースへの対応には,高度な推論能力と意味理解が不可欠である。
    • 既存手法では,LLMへの入力が冗長になり,視点間の一貫性が失われ,3次元空間推論の精度が制限される。
    • 本研究は,空間構造と意味的理解を両立させ,LLMによるより効果的な推論を実現することを目指す。
    • BEVLMは,統一された入力としてバードアイビュー特徴量を用いることで,LLMのクロスビュー運転シーンにおける推論精度を46%向上させた。
    • LLMからの意味的知識をバードアイビュー表現に蒸留することで,安全性が重要なシナリオにおいてエンドツーエンド運転性能を29%向上させた。

    Link: https://arxiv.org/abs/2603.06576

  • オムニ拡散:マスク付き離散拡散を用いた統一的なマルチモーダル理解と生成 [cs.CV]目的:マルチモーダル言語モデルの理解と生成
    • 近年のマルチモーダル研究の発展は目覚ましいが,その基盤技術に更なる改善の余地がある。
    • 既存のマルチモーダルモデルは,自己回帰型アーキテクチャに依存しており,効率性や表現力に限界がある。
    • 離散拡散モデルの可能性に着目し,テキスト,音声,画像を統一的に扱えるモデルを構築する。
    • オムニ拡散は,マスク付き離散拡散モデルを基盤とする初のany-to-anyマルチモーダル言語モデルである。
    • 本手法は,多様なベンチマークにおいて,既存のマルチモーダルシステムと同等以上の性能を示す。
    • 拡散モデルが次世代のマルチモーダル基盤モデルを駆動するための有望なアプローチであることを示唆する。

    Link: https://arxiv.org/abs/2603.06577

  • マルチモーダル大規模言語モデルを画像分類器として [cs.CV]目的:画像分類におけるマルチモーダル大規模言語モデルの性能評価プロトコルと正解データの質の重要性
    • 画像認識は,コンピュータビジョンの根幹であり,様々な応用分野で不可欠な技術である。
    • 既存の評価プロトコルは,性能を過大評価または過小評価する可能性があり,モデルの真の能力を測れない。
    • 評価プロトコルの改善と,質の高い正解データを用いた性能評価によって,モデルの潜在能力を引き出す。
    • 従来の評価プロトコルには,モデル出力の除外,弱い選択肢による性能の過大評価,不適切な出力マッピングなどの問題点が存在する。
    • ReGTという再アノテーションデータセットを用いた評価により,MLLMは修正されたラベルによって大幅に性能が向上することが示された。
    • MLLMは,人間のアノテーターを支援する可能性があり,難易度の高い事例の約50%で予測が確認または統合された。

    Link: https://arxiv.org/abs/2603.06578

  • 小児ループス腎炎予後予測のためのドメイン適応型MAEを用いた臨床注入Transformer [eess.IV, cs.CV, cs.LG]目的:小児ループス腎炎における治療反応(完全寛解,部分寛解,無反応)の三種分類
    • 全身性エリテマトーデスに伴う重篤な合併症であり,小児患者への影響が大きい。
    • 既存の研究では,小児ループス腎炎の予後予測は計算病理学において未開拓の分野である。
    • ルーチンなPAS染色標本と臨床データのみを用いて,高精度な予後予測を目指す。
    • 提案手法は,臨床情報を自己注意機構に注入する臨床注入Transformer(CIT)と,ドメイン適応型Masked Autoencoder(MAE)を導入。
    • 71名の小児ループス腎炎患者コホートにおいて,三種分類の正解率90.1%とAUC 89.4%を達成。
    • 本手法は,高精度かつ費用対効果の高い予後予測ツールとしての可能性を示す。

    Link: https://arxiv.org/abs/2603.05535

  • テストして罰する:繰り返しゲームへの統計的アプローチ [stat.AP, cs.GT]目的:割引付き無限繰り返しゲームにおける協力の維持
    • ゲーム理論は,経済学,政治学,生物学など,多様な分野で意思決定を分析する上で重要である。
    • 不完全なモニタリング下では,相手の行動を正確に把握できないため,協力関係を維持することが困難である。
    • 統計的推論に基づいた戦略を用いることで,不完全なモニタリング下でも協力関係を維持することを目指す。
    • 仮説検定を戦略に組み込むことで,古典的なトリガー戦略が機能しない状況下でも協力が維持できることを示した。
    • 観測された行動が協調的な混合戦略と一致するかどうかを継続的に検証し,逸脱の十分な統計的証拠が蓄積されれば,永久に罰則に切り替える「テストして罰する」戦略を提案した。
    • この戦略は,十分な忍耐力を持つプレイヤーにとって,実行可能かつ個別合理的なペイオフを維持することを可能にし,不完全なモニタリング下で民俗定理のような結果をもたらす。

    Link: https://arxiv.org/abs/2603.05619

  • 加速心臓シネMRI再構成のためのガボール素子 [eess.IV, cs.CV]目的:加速心臓シネMRI再構成手法
    • 心臓画像診断において,高速かつ高精度なMRI再構成技術が重要視される。
    • 従来の再構成法では,十分なデータ収集時間や複雑な事前知識が必要となる場合がある。
    • ガボール素子を用いることで,高周波成分の表現能力を高め,効率的な再構成を実現する。
    • ガボール素子は,圧縮センシング,ガウシアン素子,ハッシュグリッドINRと比較して,一貫して優れた性能を示した。
    • 本手法は,コンパクトかつ連続分解能の表現を可能にし,物理的に意味のあるパラメータを提供する。
    • 心臓の運動や造影変化を捉える低ランク幾何学的基底と信号強度基底を組み合わせることで,時空間的な冗長性を活用した。

    Link: https://arxiv.org/abs/2603.05681

  • 脳MRIにおける3D領域認識拡散による縦断的病変インペインティング [eess.IV, cs.AI, cs.CV]目的:脳MRI縦断的病変のインペインティング手法
    • 脳MRIは神経変性疾患の診断・進行評価に不可欠であり,正確な解析が求められる。
    • 病変の経時的な変化が自動解析の精度を低下させ,信頼性のある定量評価を妨げる。
    • 病変を自然に補完し,縦断的な変化を考慮した高精度なMRI解析を実現する。
    • 提案手法は,既存手法(FastSurfer-LIT)と比較して,知覚的な忠実度を大幅に向上させた。
    • 縦断的安定性も高く,理想値に近いTemporal Fidelity Index(1.024)を示した。
    • RAD機構により処理効率が向上し,LITの10倍の速度で処理を完了した。

    Link: https://arxiv.org/abs/2603.05693

  • 構造的脳MRIにおける解釈可能な動きアーチファクト検出 [eess.IV, cs.CV]目的:構造的脳MRIにおける動きに関連するアーチファクトの検出
    • 脳画像解析の信頼性確保には,画像品質評価が不可欠である。そのため,自動化技術が求められている。
    • 既存手法は,前処理の負荷が高いか,未知データへの汎化性能が低いという課題がある。
    • 本研究は,効率的かつ解釈可能な方法で,脳MRIの動きアーチファクトを検出することを目的とする。
    • 提案手法は,DHoGMを3次元空間に拡張し,2Dと3D特徴を組み合わせることで,高精度な検出を実現した。
    • MR-ARTおよびABIDEデータセットにおいて,94.34%の精度(in domain),89%の精度(unseen site)を達成した。
    • 誤検出をほぼ完全に回避し,大規模な臨床・研究ワークフローへの統合可能性を示した。

    Link: https://arxiv.org/abs/2603.05726

  • Uni-LVC:学習型ビデオ圧縮におけるフレーム内・フレーム間符号化の統一的アプローチ [eess.IV, cs.CV]目的:学習型ビデオ圧縮におけるフレーム内およびフレーム間符号化の統一的モデル
    • ビデオ圧縮は,効率的なデータ伝送と保存のために不可欠であり,様々な応用分野で重要性が増している。
    • 既存の学習型ビデオ圧縮は,フレーム内とフレーム間の符号化に異なるモデルが必要であり,信頼性の低い参照フレームへの依存度が高い。
    • Uni-LVCは,単一のモデルでフレーム内・フレーム間符号化を統一し,参照フレームの信頼性に左右されない効率的な圧縮を目指す。
    • Uni-LVCは,フレーム内およびフレーム間符号化の両方において,既存手法を上回るレート歪み性能を達成した。
    • クロスアテンション適応モジュールにより,低遅延およびランダムアクセス予測モードをシームレスにサポートする。
    • 参照フレームの信頼性に応じて,Temporal Cueを適切に調整することで,より安定した圧縮を実現している。

    Link: https://arxiv.org/abs/2603.05756

  • 偏光イメージングにおける多様な劣化に対するアーキテクチャの統合 [eess.IV, cs.CV]目的:偏光イメージングにおける劣化の影響を軽減し,物理的に整合性の取れた偏光パラメータの復元
    • 偏光イメージングは,物質の特性を把握する上で重要な技術であり,様々な分野で応用が期待されている。
    • 現実の環境下では,ノイズ,モーションブラー,モザイクアーチファクトなど,様々な劣化の影響を受けることが課題である。
    • 異なる劣化に対して柔軟に対応可能で,かつ物理的な整合性を保つ統一的なアーキテクチャを構築することを目的とする。
    • 提案手法は,複数の劣化シナリオにおいて一貫したアーキテクチャを維持し,それぞれの劣化に対して個別に学習を行う。
    • 単一ステージで画像とストークスパラメータを同時に処理することで,誤差の蓄積を抑制し,物理的な整合性を明示的に保持する。
    • 低照度ノイズ除去,モーションデブラー,デモザイク処理などのタスクにおいて,最先端の性能を達成し,汎用性の高いソリューションであることを示した。

    Link: https://arxiv.org/abs/2603.05834

  • 静止画シーンのニューラル動画圧縮におけるポジティブインセンティブノイズの活用 [eess.IV, cs.CV]目的:静止画シーン動画の効率的なニューラル圧縮手法
    • 動画データは保存容量やネットワーク帯域を大きく消費するため,効率的な圧縮技術が重要である。
    • 既存の圧縮技術は静止画シーン動画の特性を活かしきれておらず,学習データとテストデータの分布のずれが課題である。
    • 本研究では,静止画シーン動画における一時的な変化をノイズとして活用し,より効率的な圧縮を目指す。
    • 提案手法は,一般的なニューラル動画圧縮モデルと比較して,73%のBDレート削減を実現した。
    • 計算量を増やすことで帯域を削減し,厳しいネットワーク環境下でも安定した動画伝送を可能にする。
    • 監視映像の長期保存コスト削減にも貢献し,実用的なソリューションを提供する。

    Link: https://arxiv.org/abs/2603.06095

  • 太平洋島嶼言語音声認識における継続的適応 [eess.AS, cs.CL, cs.SD]目的:太平洋島嶼言語音声認識への適応戦略
    • 言語的多様性の保護が重要であり,消滅の危機に瀕している言語の記録と活用が求められる。
    • データ不足のため,汎用的な音声モデルは太平洋島嶼言語への適応が困難である。
    • 少ないデータで効率的に適応し,過去の知識を忘却しない方法を確立する必要がある。
    • 完全なファインチューニングは破滅的忘却のリスクがあり,LoRAも逐次学習では同様の問題に直面する。
    • データ量と言語的特徴が適応の成功に影響を与えることが実証された。
    • モデルの内部表現が大きく変化し,可塑性と安定性のトレードオフが顕著になることが示された。

    Link: https://arxiv.org/abs/2603.06310

  • RGB-Dオブジェクト検出のためのRBF重み付きハイパーインボリューション [cs.CV]目的:RGB-Dオブジェクト検出における性能向上
    • ARデバイス普及に伴い,RGB-Dデータ処理の重要性が増している。
    • 深度画像と色画像の特性の違いから,効率的な特徴抽出が困難である。
    • 深度画像から直接情報を抽出する効率的な処理手法の確立を目指す。
    • 提案手法は,既存のRGB-D 2Dオブジェクト検出手法の中で,NYU Depth V2データセットにおいて最も高い性能を達成した。
    • 動的なRBF重み付きハイパーインボリューションにより,深度情報の空間的相互作用に適応した特徴抽出が可能となった。
    • アップサンプリングに基づく学習可能な融合層が,RGBとDの特徴を効果的に統合し,情報伝達を妨げない。

    Link: https://arxiv.org/abs/2310.00342

  • 漫画キャラクター画像における視覚的幻覚をポーズ情報で認識する [cs.CV, cs.AI, cs.LG, cs.MM]目的:漫画キャラクター画像における視覚的幻覚の検出
    • 画像合成や3D再構成など,大規模テキスト画像生成モデルの利用が一般的になっている。
    • 特に漫画やピクセルアートのような非写実的レンダリングでは,深刻な視覚的幻覚が問題となっている。
    • ポーズ情報を用いた文脈学習により,視覚的幻覚検出の精度向上を目指す。
    • 提案手法であるPA-ICVLは,GPT-4vおよびGemini pro visionにおいて,幻覚検出精度をそれぞれ50-78%,57-80%向上させた。
    • 文脈学習にポーズ情報を加えることで,VLMの判断精度が向上し,より正確な幻覚検出が可能になった。
    • この研究は,視覚的幻覚の軽減を通じてテキスト画像生成モデルの実用化を促進し,非写実的レンダリングへの応用範囲を拡大する。

    Link: https://arxiv.org/abs/2403.15048

  • Bi-level Optimizationによるマルチモーダル医用画像セグメンテーションのための画像融合 [cs.CL, cs.CY, cs.CL, cs.CV]目的:マルチモーダル医用画像融合による医用画像セグメンテーションの精度向上
    • 医用画像診断において,複数のモダリティの情報を統合することで,より正確な診断が可能となる。
    • 従来の画像融合手法は視覚的な品質に偏重し,セグメンテーションのような高精度なタスクに必要な情報を損なう場合がある。
    • 視覚的品質とセグメンテーション精度を両立する画像融合フレームワークを開発し,臨床ワークフローにおける課題を解決する。
    • 提案手法Fuse4Segは,セグメンテーション結果からのセマンティック勾配を用いて画像融合を最適化する。
    • 周波数分解損失と空間勾配損失により,物理的忠実性を確保し,解剖学的歪みを防ぎ,重要な詳細を保持する。
    • 多様なマルチスケールモダリティにおいて高い汎化性能を示し,最新の二チャンネルセグメンテーション手法を上回る性能を達成した。

    Link: https://arxiv.org/abs/2409.10328

  • PACE:パラメータ効率的なファインチューニングにおける汎化性能と一貫性正則化の融合 [cs.LG, cs.CV]目的:パラメータ効率的なファインチューニングにおける汎化性能の向上
    • 事前学習済みTransformerの活用は重要だが,汎化性能の低下が課題となる。
    • ファインチューニングによるタスク性能向上と汎化性能維持はトレードオフの関係にある。
    • 勾配の正則化と事前学習モデルとの整合性により汎化性能を改善する。
    • 提案手法PACEは,アダプター層にノイズを加え,同一サンプルの異なる摂動に対するモデルの一貫性を維持する。
    • 理論分析により,PACEが勾配を暗黙的に正則化し,汎化性能を向上させることが示された。
    • 実験結果から,PACEがVTAB-1k,FGVCなどの画像適応タスクや,GLUE,GSM-8Kなどのテキストタスクで既存手法を上回ることが確認された。

    Link: https://arxiv.org/abs/2409.17137

  • FALCON:文脈に基づいたオブジェクト中心事前学習によるUAVアクション認識のための未来予測学習 [cs.CV, cs.AI, cs.LG, cs.RO]目的:UAVアクション認識のための自己教師あり型ビデオ事前学習手法
    • UAV(無人航空機)の利用拡大に伴い,映像からの行動認識の重要性が高まっている。
    • UAV映像は背景が大きく,行動に関係ない領域の学習にリソースが費やされやすい。
    • 背景の影響を抑制し,行動に関連する物体や人物への学習を促進することを目指す。
    • FALCONは,NEC-Droneベンチマークでトップ1精度を2.9%,UAV-Humanで5.8%向上させた。
    • 事前学習時にオブジェクト検出のみを使用し,マスキングと再構成のバランスを調整することで,背景の影響を軽減する。
    • 短期的・長期的な未来予測を行うオブジェクト中心の監視領域を設定し,時間的ダイナミクスの学習を促進する。

    Link: https://arxiv.org/abs/2409.18300

  • AuthFace:顔認識生成拡散事前知識を用いたリアルな盲復元へ [cs.CV]目的:顔画像を高精度に復元するためのフレームワーク開発
    • 顔画像復元はコンピュータビジョンの重要な課題であり,実用的な応用範囲が広い。
    • 既存手法では,顔以外の領域の誤生成や顔の詳細不足が課題となっていた。
    • 高品質な顔画像データと顔認識に特化した事前知識を用いて,より自然な復元を目指す。
    • 専門家が撮影した高解像度画像を用いて,顔認識に最適化された拡散モデルを学習した。
    • 写真撮影の知識を活用したアノテーションシステムにより,高品質な顔画像の潜在能力を最大限に引き出した。
    • 目の周りや口元など重要な領域のアーティファクトを低減するため,時間依存の潜在的顔特徴損失を導入した。

    Link: https://arxiv.org/abs/2410.09864

  • PPLLaVA:プロンプト誘導による多様な動画シーケンス理解 [cs.CV]目的:動画の内容の冗長性を低減し,効率的な動画理解
    • 動画処理における大規模言語モデルの重要性が増しており,長尺動画の処理能力が求められている。
    • 動画のトークン数が膨大になり,計算コストが増大し,効率性が課題となっている。
    • プロンプトに基づいたプーリング戦略により,計算コストを削減しつつ,動画理解の性能を維持すること。
    • PPLLaVAは,最長18倍のトークン削減を可能にし,動画理解タスクにおいて高い性能を維持している。
    • ユーザーの指示に基づいて重要な領域を特定し,効率的に動画シーケンスを圧縮するプーリングメカニズムを導入している。
    • キャプション生成,質疑応答,長編動画推論など,多様な動画理解ベンチマークで最先端の結果を達成している。

    Link: https://arxiv.org/abs/2411.02327

  • マルチモーダルLLMにおける視覚理解向上のためのビジョンエンコーダ混合パラダイムの再考 [cs.CV, cs.CL]目的:マルチモーダルLLMの視覚理解能力向上のための融合設計の原則
    • 近年,画像とテキストを扱うLLMの性能向上が求められており,視覚情報の理解が重要な課題となっている。
    • 多様なエンコーダを組み合わせるMoVEは有効だが,高解像度画像への適用やトークンの統合が課題となっていた。
    • MoVEの融合設計を体系的に研究し,トークンレベルでの統合方法を明らかにすることで,性能向上を目指す。
    • 提案手法LEOは,既存のMoVEベースの手法と比較して,多くのベンチマークにおいてより良い結果を達成した。
    • LEOは,アーキテクチャや学習レシピを変更することなく,自動運転の専門分野にも効果的に適応し,競争力のある性能を示した。
    • LEOは,ポスト適応融合,タイルレベルシーケンスインターリーブ,動的タイリングとグローバルコンテキストを組み合わせることで高い性能を発揮した。

    Link: https://arxiv.org/abs/2501.06986

  • PoI:シーン座標回帰のための新規視点からの注目ピクセル抽出フィルタ [eess.SY, cs.SY, cs.CV]目的:シーン座標回帰に基づく局所化のための,新規視点合成によるデータ拡張の有効化
    • 近年,NeRFや3DGS等のNeural View Synthesis技術が発展し,視覚的局所化の訓練データ拡張に利用されている。
    • 既存のNVS技術は観測された幾何学と輝度に依存するため,未知の構造や欠損コンテンツの復元が困難である。
    • 合成された画像に含まれる信頼性の低いピクセルを抑制し,より正確な3D supervisionを実現することを目指す。
    • 提案手法PoIは,3DGSでレンダリングされた新規視点を拡散モデルで改良し,構造的に妥当な詳細を合成する。
    • プロジェクション誤差に基づくピクセルレベルのフィルタリング戦略により,信頼性の高いピクセルのみを訓練に利用する。
    • 7ScenesとCambridge Landmarksでの実験により,PoIが既存のSCRベースラインを上回り,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2502.04843

  • 大規模言語モデルによる科学の変革:AI支援科学的発見,実験,コンテンツ生成,評価に関する調査 [cs.CL, cs.AI, cs.CV, cs.LG]目的:AI支援科学的発見の技術,評価手法,および新たな動向の概観
    • 科学研究の効率化と新たな知見の創出が期待されるため,AI技術の応用は重要である。
    • 生成モデルの誤用による研究の信頼性低下や倫理的な懸念が存在する。
    • AI技術を科学研究の全段階に統合し,研究の加速と質の向上を目指す。
    • 本調査は,科学研究ライフサイクルにおけるAI支援の現状を,文献調査に基づき整理した。
    • 文献検索,実験計画,コンテンツ生成,図表作成,査読など,科学研究の主要なタスクにおけるAIの役割を網羅的に議論した。
    • データセット,手法,評価戦略,限界,倫理的課題についても考察し,今後のAI4Scienceシステムの開発に貢献する。

    Link: https://arxiv.org/abs/2502.05151