arXiv雑要約

画像・音声 - 2026/03/12 公開

類似度を証拠として：解釈可能かつラベル効率の良い医療アクティブラーニングのための過信したVLMsの較正 [cs.CV]目的：医療画像におけるアクティブラーニングのための，過信したVLMsの較正
- 医療画像分析では，高品質なアノテーションが不可欠だが，アノテーションコストが高い。
- 限られたラベルデータでは，アクティブラーニングがコールドスタートの問題に陥りやすい。
- 類似度を証拠として扱うことで，VLMsの過信を軽減し，効率的なサンプル選択を実現する。
- 提案手法SaEは，10の医療画像データセットで，最先端のマクロ平均精度82.57%を達成した。
- 代表的なBTMRIデータセットでは，より優れた較正性能を示し，負の対数尤度(NLL)は0.425であった。
- SaEは，初期段階で希少疾患を優先し，後期段階で曖昧な診断を優先することで，臨床的に解釈可能な選択理由を提供する。
Link: https://arxiv.org/abs/2602.18867
リアル異常は不要：MLLMを活用したゼロショット動画異常検知 [cs.CV, cs.AI]目的：動画異常検知における新しいフレームワーク
- 動画データは，その稀少性から収集・検知が困難であり，監視や自動運転等の応用において重要である。
- 既存手法は，データセットの多様性の不足や文脈依存の異常セマンティクスの理解不足から，オープンワールド環境で性能が低い。
- 未知の異常カテゴリへの適応性を高め，異常パターンの空間的時間的な稀少性に対処し，計算コストを削減することを目的とする。
- 提案手法LAVIDAは，擬似異常を用いてゼロショットで動画異常を検知するエンドツーエンドのフレームワークである。
- 異常曝露サンプラーにより，モデルの未知の異常カテゴリへの適応性を向上させている。
- MLLMの統合と逆注意に基づくトークン圧縮により，SOTA性能を達成した。
Link: https://arxiv.org/abs/2602.19248
UrbanAlign: VLMと人間の選好の整合に向けた事後意味的較正 [cs.CV]目的：VLMと人間の選好の整合
- 都市環境の理解は，安全評価や美的評価など，様々な応用分野において重要である。
- 既存のVLMは詳細な描写が可能だが，特定のドメインにおける人間の選好を正確に予測できない。
- 本研究は，VLMの重みを変更せずに，人間の選好に適合させる方法を提案する。
- 提案手法UrbanAlignは，Place Pulse 2.0において，6つの知覚カテゴリで72.2%の精度（kappa=0.45）を達成した。
- これは，既存のベースラインを11.0%ポイント，ゼロショットVLMを15.5%ポイント上回る結果である。
- また，本手法は完全な解釈可能性とゼロの重み修正でこの性能を達成する。
Link: https://arxiv.org/abs/2602.19442
画像由来ドメインの幾何学的配慮型離散化のための構造化ビットマップからメッシュへの三角形分割 [cs.CG, cs.CV, cs.GR]目的：画像由来ドメインに対する安定した偏微分方程式離散化
- 画像データを解析する際，形状の正確な表現が重要となるため，適切なメッシュ生成が不可欠である。
- 従来の制約付きDelaunay三角形分割法では，境界への対応でメッシュ全体を更新する必要があり，効率が悪い。
- 境界に干渉する三角形のみを再分割し，並列処理を可能とする，効率的な三角形分割手法を確立すること。
- 本手法は，境界との交差パターンを分類し，衝突のない再分割テンプレートを適用することで，安定したメッシュを生成する。
- 生成されたメッシュは閉じており，角度が制限され，コタンジェントベースの離散化や標準有限要素法と互換性がある。
- 実験により，本手法が，複雑な境界付近で，より滑らかな三角形と，より高い幾何学的忠実度を提供することが示された。
Link: https://arxiv.org/abs/2602.19474
SIMSPINE：3次元脊椎モーションのアノテーションとベンチマークのための生体力学を意識したシミュレーションフレームワーク [cs.CV]目的：3次元脊椎モーションのアノテーションとベンチマークのためのシミュレーションフレームワーク
- 人間の生体力学理解の基礎でありながら，脊椎の複雑な運動と大規模な3次元アノテーションの不足から，コンピュータビジョン分野では未開拓な領域である。
- 既存の人体姿勢データセットには，解剖学的に整合性の高い3次元脊椎キーポイントが欠如しており，正確な脊椎モーション推定が困難である。
- 生体力学に基づいたシミュレーションにより，3次元脊椎モーションのアノテーションを生成し，データ駆動型学習を可能にすることで，この問題を解決する。
- 新たに大規模な脊椎3次元アノテーションデータセット「SIMSPINE」を公開し，自然な全身運動における脊椎運動の学習を促進する。
- 2D検出器，単眼3D姿勢推定モデル，マルチビュー再構成パイプラインの事前学習済みベースラインを公開し，統一的なベンチマークを確立した。
- 2D脊椎ベースラインは，制御された環境でAUCを0.63から0.80に，実環境での脊椎トラッキングでAPを0.91から0.93に向上させた。
Link: https://arxiv.org/abs/2602.20792
パッチデノイザー：低線量CT画像のためのパラメータ効率の良い多重スケールパッチ学習と融合デノイザー [cs.CV, cs.AI]目的：低線量CT画像のノイズ低減手法
- 癌検診や小児画像など，被ばく線量を低減するCT撮影が重要視されている。
- 低線量CT画像はノイズが多く，臨床解釈や後続の解析に影響を及ぼす可能性がある。
- 従来の技術では，詳細を損なうか，計算コストが高いという課題があった。
- 提案手法PatchDenoiserは，既存のCNNやGANベースの手法と比較して，PSNRとSSIMにおいて一貫して優れた性能を示した。
- スライス厚，再構成カーネル，HUウィンドウの変化に対して頑健であり，スキャナの種類に関わらず高い汎化性能を発揮する。
- パラメータ数と推論時のエネルギー消費量を大幅に削減し，臨床への応用可能性を高めた。
Link: https://arxiv.org/abs/2602.21987
参照画像セグメンテーションのためのアライメントを意識したマスク学習 (AMLRIS) [cs.CV, cs.AI]目的：参照画像セグメンテーションにおける汎化性能の向上
- 画像と自然言語の理解を融合し，指示された対象物を正確に特定する技術であり，ロボティクスや画像検索に応用可能である。
- 従来の学習方法では，アライメントの難しい視覚情報やインスタンス固有の情報が学習に悪影響を及ぼす場合がある。
- 視覚と言語のアライメントを明示的に推定し，信頼性の低い領域を除外することで，より汎化性能の高いモデルを構築する。
- 提案手法AMLは，視覚特徴とテキスト特徴間の類似度マップを計算し，適応的な閾値に基づいてアライメントの低いピクセルをマスクすることで，学習プロセスから誤った情報を排除する。
- AMLは，アーキテクチャの変更や推論時のオーバーヘッドを必要とせず，テキスト記述と一致する領域に注意を向ける。
- RefCOCOデータセットでの実験により，AMLは全8分割において最先端の結果を達成し，多様な記述やシナリオに対するロバスト性も向上した。
Link: https://arxiv.org/abs/2602.22740
負のテキスト選択に注意を払う：VLMを用いたOOD検出における距離の一貫性の追求 [cs.CL, eess.SY, cs.SY, cs.CV]目的：OOD検出における性能向上のためのフレームワーク
- 機械学習モデルを現実世界で利用するには，未知のデータに対する識別能力が不可欠である。
- 既存手法は，VLMが最適化されたモジュール間距離との不整合を生じ，性能が低下する可能性がある。
- モジュール間距離の一貫性を重視することで，OOD検出の精度向上を目指す。
- 提案手法InterNegは，テキストと視覚の両面からモジュール間距離の強化を体系的に行う。
- ImageNetベンチマークにおいて，FPR95を3.47%削減し，Near-OODベンチマークではAUROCを5.50%改善した。
- InterNegは，既存研究と比較して最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.02618
BrandFusion：テキストから動画生成におけるシームレスなブランド統合のためのマルチエージェントフレームワーク [cs.CL, cs.CV, cs.AI]目的：テキストから動画生成におけるブランド統合
- 動画生成技術の急速な進歩はコンテンツ制作を革新したが，商業的活用は限定的である。
- 生成された動画に広告主のブランドを自然かつ認識可能に組み込むことが課題である。
- ユーザーの意図を損なわずに，ブランドを動画に統合する手法を開発する。
- BrandFusionは，プロンプトの忠実性，ブランドの認識可能性，文脈に自然な統合という3つの課題に対処する。
- オフライン段階でブランド知識ベースを構築し，オンライン段階で複数のエージェントがユーザープロンプトを反復的に洗練する。
- 実験により，BrandFusionは既存手法と比較して，意味保持，ブランド認識，統合の自然さにおいて大幅な改善が確認された。
Link: https://arxiv.org/abs/2603.02816
CFG-Ctrl：制御に基づく分類子不要拡散ガイダンス [cs.CV, cs.LG]目的：拡散モデルにおけるセマンティックアライメントの向上
- 拡散モデルは画像生成等の分野で注目されており，生成品質向上が重要である。
- 従来のCFGは，ガイダンススケールが大きい場合に不安定性やオーバーシュートが生じやすい。
- スライディングモード制御を用いて，セマンティックアライメントを強化し，安定性を向上させる。
- 提案手法SMC-CFGは，Stable Diffusion 3.5, Flux, Qwen-Imageを含む様々なモデルで，標準的なCFGよりも優れたセマンティックアライメントを示した。
- SMC-CFGは，幅広いガイダンススケールにおいてロバスト性を向上させることが確認された。
- 理論的な収束性もリャプノフ安定性解析によって裏付けられている。
Link: https://arxiv.org/abs/2603.03281
協調のギャップ：複数エージェントの「駆け引き」における時間的ダイナミクスに対する交互性指標 [cs.MA, cs.GT, cs.LG]目的：複数エージェント間の協調における時間的構造と集団ダイナミクスを捉えるための指標の提案
- 複数エージェントシステムは現実世界の多くの問題を解決する鍵となるが，個々の最適化と集団全体の利益のバランスが課題となる。
- 従来の評価指標は時間的構造を考慮せず，協調の質を正確に評価できない場合がある。特にエージェント数が増えると公平性の評価が難しくなる。
- 時間的ダイナミクスに敏感な新しい協調指標を導入し，従来の指標の限界を克服することで，より正確な協調評価を目指す。
- 従来の報酬公平性指標は高い値を示す一方で，提案する交互性指標を用いると，学習された戦略がランダムな戦略よりも最大81%低いパフォーマンスを示すことが判明した。
- 高い集団報酬と，質の低い時間的協調が共存しうることを実証した。従来の指標では，このような協調のダイナミクスを誤って評価する可能性がある。
- 複数エージェントゲームにおける協調を分析するには，時間的要素を考慮した指標が不可欠であり，ランダムな戦略を基準として比較する必要があることが示唆された。
Link: https://arxiv.org/abs/2603.05789
FreeFly-Thinking：思考の連鎖型推論と連続的なUAVナビゲーションの整合 [cs.CV]目的：UAVナビゲーションにおける思考の連鎖型推論の整合
- 現実世界でのロボット活用において，自然言語による指示に基づいた自律的なナビゲーションは不可欠である。
- 既存UAVナビゲーションモデルは，複雑な屋外環境において，推論過程が不透明であるという課題がある。
- UAVが都市環境で自然言語指示を理解し，効率的かつロバストにナビゲーションするための枠組みを提案する。
- 提案手法FreeFly-thinkingは，UAVの視覚情報と自然言語指示を基に，一連の行動を生成する。
- 構築したUAVデータセットと二段階の学習戦略（教師あり学習と強化学習）により，高い性能とロバスト性を実現した。
- 未知のテスト環境において，本手法の有効性が実証された。
Link: https://arxiv.org/abs/2603.07181
画像分類における分布外検出のための学習目的関数の系統的な比較 [cs.CV, cs.AI, cs.LG]目的：分布外検出における学習目的関数の影響評価
- 安全性が求められる応用において，未知の入力への対応能力が不可欠であるため。
- 学習目的関数が分布外検出性能に与える影響については，十分な検討がなされていない。
- 画像分類における分布外検出性能を向上させるための最適な学習目的関数を特定すること。
- クロスエントロピー損失，プロトタイプ損失，AP損失は同程度の分布内精度を示すことが判明した。
- 全体として，クロスエントロピー損失が近傍および遠方の分布外データにおいて最も安定した性能を示した。
- 他の目的関数も特定の条件下では競争力を持つ可能性がある。
Link: https://arxiv.org/abs/2603.07571
SGI：効率的かつコンパクトな大規模画像表現のための構造化2次元ガウス関数 [cs.CV]目的：高解像度画像の効率的かつコンパクトな表現
- 画像処理分野において，高解像度画像の取り扱いは計算コストが高く，課題となっている。
- 既存の2次元ガウススプラッティングは，パラメータ数が増大しやすく，収束が遅延する。
- シードに基づいた構造化により，ガウス関数の冗長性を削減し，圧縮率向上を目指す。
- 提案手法SGIは，従来の非量子化2次元ガウス関数法と比較して最大7.5倍の圧縮率を達成した。
- また，量子化された手法と比較しても1.6倍の圧縮率向上を実現した。
- 最適化速度もそれぞれ1.6倍と6.5倍向上し，画質劣化は見られず，むしろ改善した。
Link: https://arxiv.org/abs/2603.07789
音声認識を考慮したビデオ表現学習：ビデオとテキストの検索に向けて [cs.CV]目的：ビデオとテキストの検索のためのビデオ表現学習
- ビデオとテキストの検索は，多様なマルチメディアコンテンツを扱う上で重要な技術である。
- 既存手法では，ビデオの音声トラックが無視される傾向があり，表現力に課題があった。
- 音声情報を効果的に活用し，視覚情報との融合を最適化することで，検索精度を向上させる。
- SAVEは，最先端のAVIGATEを改善し，より効果的な音声埋め込みを実現する専用の音声ブランチを導入した。
- また，SAVEは，初期の視覚-音声アライメントを促進するソフトALBEFを導入し，融合を支援する。
- 5つのベンチマークにおける実験結果から，SAVEが最先端技術を上回り，MSRVTT-9kで+4.1%の性能向上を示した。
Link: https://arxiv.org/abs/2603.08224
SPIRAL：反省的計画エージェントによる自己改善アクションワールドモデルの閉ループフレームワーク [cs.CL, cs.CV]目的：自己改善型アクションワールドモデルの構築
- 動画生成技術は，多様な応用可能性を秘めており，その重要性は増している。
- 既存の動画生成モデルは，一回限りの処理であり，アクションの実行が不完全になる場合がある。
- SPIRALは，長期的な動画生成における意味的整合性と時間的一貫性を向上させる。
- SPIRALは，計画・行動・反省の閉ループプロセスを通じて，段階的な動画生成を実現する。
- プランエージェントが抽象的なアクションをオブジェクト中心のサブアクションに分解し，クリティックエージェントが中間結果を評価し，長期記憶に基づいて改善を導く。
- ActWM-DatasetおよびActWM-Benchを用いて実験を行った結果，SPIRALは既存の動画生成ベンチマークにおいて一貫した性能向上を示した。
Link: https://arxiv.org/abs/2603.08403
Fish Audio S2 技術報告 [cs.SD, cs.AI, cs.CL]目的：オープンソースのテキスト読み上げシステムFish Audio S2の開発
- 音声合成技術は，人機インタフェースやアクセシビリティ向上に不可欠である。
- 既存のオープンソースTTSは，多様な話者や指示への対応に課題があった。
- 自然言語による指示に基づいた高品位な音声合成の実現を目指す。
- Fish Audio S2は，複数話者，複数ターン生成，および自然言語指示への対応を特徴とする。
- 大規模な学習のために，ビデオキャプションや音声キャプションを含む段階的なデータパイプラインと学習手法を開発した。
- ストリーミングに最適な推論エンジンを実装し，RTF 0.195，初回音声出力までの時間100ms以下を達成した。
Link: https://arxiv.org/abs/2603.08823
PathoScribe：統一されたLLM駆動フレームワークによる病理データの生きた図書館への変革 - セマンティック検索と臨床統合 [cs.HC, cs.CV, cs.AI, cs.CL, cs.DL, cs.IR]目的：病理データのセマンティック検索と臨床統合を通じた，生きた図書館への変革
- 現代の診断と癌治療の根幹をなす病理学において，過去の知見活用が重要である。
- 病理報告書のデジタル化が進む一方，有効な検索・推論メカニズムがないため，知識が活用されていない。
- デジタル化された病理アーカイブを，臨床判断を支援する能動的な知識プラットフォームへと進化させる。
- PathoScribeは，自然言語による症例検索において，Recall@10で完璧な性能を示した。
- 自由記述の適格基準から自動的にコホートを構築する時間を大幅に短縮し，91.3%の精度を実現した。
- 本研究は，デジタル病理アーカイブを，受動的な保存システムから能動的な臨床インテリジェンスプラットフォームへと変換するための基盤を確立する。
Link: https://arxiv.org/abs/2603.08935
VIVID-Med：実用的な医療用ViTのためのLLMによる構造化事前学習 [cs.CV, cs.AI]目的：医療画像解析におけるViTの事前学習手法
- 医療画像解析は，診断支援や治療計画において不可欠であり，高精度な解析手法が求められている。
- 従来の事前学習では，臨床所見の複雑な意味関係を捉えきれておらず，性能向上の限界があった。
- LLMを活用することで，臨床所見の意味的構造を反映した効率的なViTの事前学習を目指す。
- VIVID-Medは，CheXpert線形プローブにおいて，BiomedCLIPを6.65ポイント上回る0.8588のマクロAUCを達成し，500分の1のデータ量で済んだ。
- NIH ChestX-ray14へのゼロショットクロスドメイン転移においても高い性能（0.7225マクロAUC）を示し，CTやOrganAMNIST 11-organ分類への汎化性能も確認された。
- VIVID-Medは，リソースを大量に消費するビジョン言語モデルの代替となり，臨床現場への導入を促進する。
Link: https://arxiv.org/abs/2603.09109
Transformerを用いたHR-pQCT画像における多領域セグメンテーションとラディオミクス解析による骨粗鬆症分類 [cs.CV]目的：骨粗鬆症の分類
- 骨粗鬆症は高齢化社会において深刻な健康問題であり，早期発見と適切な治療が重要である。
- 従来のDXA検査では骨微細構造や軟部組織の情報が得られず，診断精度に限界がある。
- HR-pQCT画像からより多くの情報を抽出し，骨粗鬆症の診断精度向上を目指す。
- Transformerベースのセグメンテーションモデル（SegFormer）を用いて，HR-pQCT画像の多領域を自動的に高精度に区分できた（F1スコア95.36%）。
- 軟部組織由来のラディオミクス特徴量が骨のみに基づくモデルを上回り，骨粗鬆症の診断精度向上に貢献した（AUROC 0.85）。
- 患者レベルでの解析において，軟部組織ラディオミクスが既存の指標を置き換えることで，AUROCが向上した（0.792→0.875）。
Link: https://arxiv.org/abs/2603.09137
6Gにおける連合学習のためのネットワーク制御プレーン知能層としてのエージェントAI [cs.CV]目的：6Gネットワーク上での連合学習における制御
- ユーザーに合わせたオンデバイス学習の需要が高まり，無線システムに新たな要件が生じている。
- 分散データの学習における，遅延，帯域幅，信頼性の制約が課題となっている。
- ネットワーク状況を考慮した行動を通じて，連合学習を効率的に管理することを目指す。
- エージェントAIを制御層として導入することで，クライアント選択，インセンティブ設計などを最適化する。
- 閉ループ評価とメモリを活用し，信号品質やデバイス能力の変化に対応した意思決定を継続的に改善する。
- ケーススタディの結果，エージェントAIシステムがツールを活用して高い性能を達成できることが示された。
Link: https://arxiv.org/abs/2603.09141
冗長性を削減し，本質を保存する：相乗的重要度・多様性によるVLMにおけるビジョントークン圧縮 [cs.CV]目的：ビジョン言語モデルにおける過剰な視覚トークンの生成による計算効率の低下を抑制すること
- ビジョン言語モデルは，画像とテキストを理解する上で重要な役割を担うため，その効率化は不可欠である。
- 既存の圧縮手法では，重要情報の保持と情報多様性のバランスを取ることが困難である。
- 重要度と多様性を考慮したトークン圧縮により，効率と性能の両立を目指す。
- 提案手法PruneSIDは，LLaVA-1.5において11.1%のトークン保持率で96.3%の精度を達成し，最先端の性能を示した。
- LLaVA-NeXTでは，極端な圧縮率（5.6%）においても92.8%の精度を維持し，既存手法を2.5%上回る性能を発揮した。
- このフレームワークは多様なVLMや画像・動画モダリティで汎用性を示し，元のモデルと比較して7.8倍高速なプリフィル速度を実現する。
Link: https://arxiv.org/abs/2603.09480
対角蒸留によるストリーミング自帰的ビデオ生成 [cs.CV]目的：ストリーミングビデオ生成の効率化
- ビデオ生成技術は，コンテンツ制作やエンターテインメント分野において重要性が増している。
- 高品質なビデオ生成には計算コストが高く，リアルタイム処理が課題となっていた。
- 時間的依存性を考慮した蒸留手法により，効率的かつ高品質なビデオ生成を目指す。
- 提案手法である対角蒸留は，既存の画像向け蒸留手法の課題を克服し，時間情報を有効活用する。
- 非対称な生成戦略により，初期段階で詳細な情報を獲得し，後続の段階に継承することで，長編シーケンスの品質を向上させる。
- 実験の結果，蒸留されていないモデルと比較して，277.3倍の速度向上を達成し，5秒のビデオを2.61秒で生成することに成功した。
Link: https://arxiv.org/abs/2603.09488
コンテキスト駆動型探索と視点依存3D空間推論によるインスタンスナビゲーション [cs.CV, cs.RO]目的：テキスト指示に基づくインスタンスナビゲーションにおける，正しいオブジェクトインスタンスへの到達
- ロボット工学において，環境を理解し，指示に基づいた行動を可能にするナビゲーション技術は重要である。
- 従来のナビゲーションシステムは，曖昧な指示や類似オブジェクトの存在下で正確な目標地点に到達することが困難である。
- 本研究は，コンテキスト情報を活用し，3D空間推論を行うことで，インスタンスナビゲーションの精度向上を目指す。
- 提案手法Context-Navは，長文のコンテキスト情報を探索の優先順位付けに活用し，候補地点の検証に3D空間推論を用いる。
- 実験の結果，Context-NavはInstanceNavとCoIN-Benchにおいて最先端の性能を達成した。
- フルキャプションの符号化と視点依存の3D検証が，ナビゲーションの効率化と精度の向上に貢献することが示された。
Link: https://arxiv.org/abs/2603.09506
サッカードに着想を得たVision Transformerアテンションマップを用いた画像分類手法 [cs.CV]目的：画像分類における効率性と性能向上
- 人間の視覚は代謝制約下でも優れた性能を発揮する。そのメカニズム解明はAI開発に役立つ。
- 従来のAIは画像全体を均一に処理するため，効率性に課題がある。
- 人間の視覚システムに着想を得て，より効率的な画像処理モデルを構築する。
- DINOという自己教師ありVision Transformerのアテンションマップが，人間の注視パターンと類似していることが示された。
- サッカードに着想を得た選択的処理戦略により，フル画像での分類性能を維持，場合によっては上回ることが確認された。
- DINOが，人間の注視予測モデルよりも優れた注視誘導効果を発揮することがベンチマークにより示された。
Link: https://arxiv.org/abs/2603.09613
AutoViVQA：ベトナム語ビジュアル質問応答のための大規模自動構築データセット [cs.CL, cs.CV, cs.AI]目的：ベトナム語ビジュアル質問応答のための大規模データセット
- 画像とテキストを理解するマルチモーダルタスクであるVQAは，AI研究において重要な課題である。
- 既存のデータセットは言語バイアスを含み，視覚的な根拠付けとバランスが課題となっていた。
- 本研究は，ベトナム語におけるVQAのための大規模データセットを構築し，評価指標を比較する。
- Transformerベースのアーキテクチャを用いることで，ベトナム語VQAにおいてテキストと視覚情報の活用を検証した。
- マルチリンガル環境下での自動評価指標の比較を行い，その妥当性を検討した。
- 大規模言語モデルが，VQAにおける自動評価と人間による評価の整合性を高める可能性を示唆した。
Link: https://arxiv.org/abs/2603.09689
ENIGMA-360：産業シナリオにおける人間行動理解のための自我・外部視点データセット [cs.CL, cs.CV]目的：産業シナリオにおける人間行動理解のための自我視点（ego）と外部視点（exo）を組み合わせたデータセット
- 産業環境における作業支援や安全性向上には，人間行動の理解が不可欠である。
- 現実的な産業シナリオにおける両視点からのデータセットが不足しており，研究の進展を阻害している。
- この研究は，産業現場で取得した自我・外部視点データセットを提供し，人間行動理解の進展を目指す。
- ENIGMA-360は，現実の産業シナリオで収集された180組の自我視点と外部視点プロシージャル動画から構成される。
- 動画には，時間的・空間的な注釈が付与されており，人間行動の様々な側面を分析することが可能である。
- 3つの基礎タスク（行動セグメンテーション，キーステップ認識，自我視点人間・物体インタラクション検出）において，既存手法の限界が示された。
Link: https://arxiv.org/abs/2603.09741
Ego：埋め込みによる視覚言語モデルの個別化 [cs.CV, cs.AI]目的：視覚言語モデルの個別化手法
- 日常生活を支援するAIアシスタントの実現が求められており，そのためにはモデルの個別化が不可欠である。
- 既存の個別化手法は，汎用性やスケーラビリティに課題があるか，導入が複雑である。
- モデル本来の能力を活用し，効率的かつ効果的な個別化を実現することを目指す。
- モデルの内部注意機構を用いて，特定の概念を強く表す視覚トークンを抽出する手法を提案した。
- 抽出されたトークンは，その概念の記憶として機能し，テスト画像中の概念の想起と記述を可能にする。
- 単一概念，複数概念，動画の個別化を含む様々な設定で，提案手法が既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2603.09771
MA-EgoQA：複数エージェントによる一人称視点動画に対する質問応答 [cs.CV, cs.AI]目的：複数エージェントから収集された一人称視点動画の同時理解
- AIエージェントとの協働が将来的に不可欠となるため，人間との円滑なコミュニケーションが重要である。
- 多数の一人称視点動画を効率的に処理し，システムレベルの記憶を構築することが課題である。
- 複数エージェントの視点情報を統合し，より高度な状況理解を可能にすることを目的とする。
- 本研究では，複数エージェントの一人称視点動画に関する新しいベンチマークデータセットMA-EgoQAを提案した。
- 既存手法は，複数の一人称視点動画の同時処理に課題があることが示された。
- エージェント間での記憶共有と動的な情報検索を行うEgoMASというベースラインモデルを開発した。
Link: https://arxiv.org/abs/2603.09827
深層学習を用いた低コスト光干渉断層法画像における網膜セグメンテーション [eess.IV, cs.CV]目的：深層学習に基づく網膜および色素上皮剥離のセグメンテーション
- 加齢黄斑変性症の治療には継続的な眼科検査が不可欠であり，OCT画像に基づくバイオマーカーの変化が重要となる。
- 現在の治療頻度は患者個々の状態に最適化されておらず，十分な効果が得られない場合がある。
- 本研究は，低コストな家庭用OCTシステムにおける自動診断を可能にする網膜セグメンテーション手法を確立する。
- 深層学習（CNN）を用いて網膜全体のセグメンテーションは高精度に実現された。
- 色素上皮剥離のセグメンテーションは課題が残るものの，CNNによるセグメンテーションが可能であることが示された。
- 畳み込みノイズ除去オートエンコーダ（CDAE）によるCNN予測の改善により，OCT画像に起因するアーチファクトによるセグメンテーションエラーの修正が確認された。
Link: https://arxiv.org/abs/2001.08480
感情を考慮した複数登録融合によるロバストな音声・視覚ターゲット話者抽出 [eess.AS, cs.SD]目的：音声・視覚ターゲット話者抽出のロバスト性向上
- 騒音環境下での音声分離技術は，コミュニケーション円滑化に不可欠である。
- 既存手法は，一部のモダリティが欠損すると性能が著しく低下する。
- モダリティ欠損に対するロバスト性を高める手法の確立が求められている。
- 欠損モダリティの多い状況下での学習が，テスト時の性能劣化を抑制する。
- 顔画像とリップ特徴の組み合わせが，高い性能とロバスト性を両立する。
- 本研究で開発したモデルおよびコードは公開されている。
Link: https://arxiv.org/abs/2509.12583
音楽ネットワーク表現における構造的豊かさと通信効率のトレードオフ [physics.soc-ph, cs.SD, eess.AS, q-bio.NC]目的：音楽ネットワーク表現における特徴エンコーディングの多様性と，それらが不完全な記憶やノイズ下での記述的確実性期待に及ぼす影響の比較
- 音楽は時間経過に伴う音の構造化された知覚的に豊かなシーケンスであり，その知覚は次の展開に対する期待と不確実性の相互作用によって形作られる。
- 音楽から推測される不確実性は，楽曲がイベントシーケンスとしてどのようにエンコードされるかに依存する。多様なエンコーディング方法が存在する。
- 音楽の表現方法が，ネットワーク構造や不確実性の分布にどのように影響するかを解明し，知覚との関連性を明らかにすること。
- 単一特徴による圧縮された表現は，高いエントロピー率を持つ高密度な遷移構造を示す。これにより，ステップごとの平均的な不確実性は高まる。
- 一方，多特徴表現は細かな区別を保持するものの状態空間を拡大し，遷移プロファイルを鋭敏化させ，エントロピー率を低下させ，モデル誤差を増加させる。
- 不確実性は拡散中心ノードに集中する傾向があり，一方でモデル誤差はそこで低いままである。これは，予測可能な流れと局所的な驚きが共存する情報的景観を示唆する。
Link: https://arxiv.org/abs/2509.14053
高次視覚皮質の潜在グループにおける意味選択性の解明：相互情報に基づく拡散法 [q-bio.NC, cs.CV, cs.LG]目的：高次視覚皮質における神経集団が物体中心の視覚情報をどのように符号化しているかの理解
- 視覚情報の神経メカニズム解明は，脳科学における重要な課題である。
- 既存研究では，神経集団自身の構造や意味的な組織化が不明確である。
- 神経集団における視覚・意味的特徴の分布と組織化を明らかにすること。
- MIG-Visは，拡散モデルを用いて神経潜在空間に符号化された視覚・意味的属性を可視化・検証する手法である。
- 実験結果から，MIG-Visは物体姿勢，カテゴリ間変換，クラス内コンテンツなど，多様な視覚特徴に対する明確な意味選択性を持つ神経潜在グループを特定した。
- 本研究は，高次視覚皮質における構造化された意味表現の直接的かつ解釈可能な証拠を提供する。
Link: https://arxiv.org/abs/2510.02182
HyWA：ハイパーネットワークを用いた重み適応型個別音声活動検出 [eess.AS, cs.AI, cs.LG, cs.SD]目的：個別音声活動検出の性能向上
- 音声認識や対話システムにおいて，話者固有の音声活動を正確に検出することは重要である。
- 既存の個別音声活動検出手法は，話者情報をVADモデルの入力や活性化関数に組み込むことに課題がある。
- ハイパーネットワークを用いてVADモデルの選択された層の重みを個別最適化し，性能向上を目指す。
- 提案手法HyWAは，既存のベースライン手法と比較して，一貫して高い個別音声活動検出性能を示す。
- HyWAは，平均適合率（mAP）を向上させることで，既存の個別化手法の改善に貢献する。
- 同一のVADアーキテクチャを再利用できるため，容易な展開が可能となる。
Link: https://arxiv.org/abs/2510.12947
広視野時間領域サーベイにおけるアラート分類のためのビジョンモデルの事前学習 [astro-ph.IM, cs.CV]目的：広視野時間領域サーベイから得られるアラートの分類におけるビジョンモデルの性能向上
- 時間領域天文学は，宇宙の過渡現象や可変天体，移動天体の研究に不可欠であり，データ量の増大に伴い機械学習の重要性が高まっている。
- 従来の天文学におけるCNNアーキテクチャはカスタム設計が主流であり，最新のコンピュータビジョンの進歩を取り入れていない。
- 最新のコンピュータビジョン技術を導入し，アラート分類の精度と効率を向上させることを目指す。
- 事前学習済みモデルは，カスタムCNNと同等以上の性能を示すことが確認された。
- Galaxy Zooの銀河画像で事前学習すると，ImageNetやスクラッチ学習よりも優れた性能が得られることが示された。
- 標準化されたアーキテクチャは，カスタムCNNよりも推論に必要な時間とメモリを大幅に削減し，効率性が向上した。
Link: https://arxiv.org/abs/2512.11957
超高磁場MRIにおける脳セグメンテーションと皮質分割のための次世代ツールボックスGOUHFI 2.0 [eess.IV, cs.CV, physics.med-ph]目的：超高磁場MRIデータに対する脳セグメンテーション，皮質分割，および体積測定の包括的なソリューション
- 脳機能研究の進展に伴い，高精度な脳画像解析が不可欠となっている。
- 超高磁場MRI画像は信号の不均一性やコントラストの違いから，自動セグメンテーションが困難である。
- 既存のツールでは超高磁場MRIデータへの最適化が不十分であり，よりロバストな手法が求められている。
- GOUHFI 2.0は，オリジナル版と比較して，特に多様なデータセットにおけるセグメンテーション精度が向上した。
- GOUHFI 2.0は，Desikan-Killiany-Tourville (DKT)プロトコルに基づいた信頼性の高い皮質分割を可能にする最初の深層学習ツールボックスである。
- 統合された体積測定パイプラインは，標準的な体積測定ワークフローと一貫性のある結果を示した。
Link: https://arxiv.org/abs/2601.09006
遊戯王OCGにおける勝利戦略決定の困難性 [physics.ins-det, cs.AR, eess.SP, hep-ex, math.LO, cs.CC, cs.GT]目的：遊戯王OCGにおける勝利戦略の決定可能性
- ゲームAI研究において，複雑なゲームの戦略決定は重要な課題である。
- 遊戯王OCGのような複雑なカードゲームでは，勝利戦略の判定が困難である。
- 本研究は，遊戯王OCGにおける勝利戦略の決定不可能性を明らかにすることを目指す。
- 遊戯王OCGにおいて，ある局面から与えられた戦略が勝利に繋がるかどうかの判定は，決定不能であることが示された。
- 停止問題が，この問題に帰着可能であることが証明され，さらに$\Pi^1_1$-完全であることが示された。
- 現在の禁止制限リストに準拠したデッキを用いて，この帰着を実現できることが示された。
Link: https://arxiv.org/abs/2603.02863