arXiv雑要約
画像・音声 - 2026/06/03 公開
フルフィルメントセンターにおける学習不要・物体識別不要な詰まり検知 [cs.RO, cs.CV]目的:フルフィルメントセンターにおける詰まりの検知
- 物流倉庫の効率化が重要であり,搬送システムの安定稼働が不可欠である。
- 従来の詰まり検知は,物体検出モデルとトラッキングに依存し,アノテーションコストが高い。
- 学習不要で,物体種類を識別せずに詰まりを検知する手法の開発。
- 提案手法は,参照点を遮蔽する状況を利用して詰まりを検知する。
- 1069本の動画による実験で,100.00%の適合率と93.33%のF1スコアを達成した。
- アノテーション不要,物体識別不要,開発時間の短縮という利点がある。
UniVerse:セグメンテーション不要な,分離されたマルチコンセプト個別化のための統一的な変調フレームワーク [cs.CV]目的:セグメンテーション不要な,分離されたマルチコンセプト個別化の実現
- 視覚的理解の個別化は進展しているが,複雑な画像における特定コンセプトの抽出が課題である。
- 既存手法はセグメンテーションに依存したり,構成の一般化性能が低い場合がある。
- 複数のコンセプトを分離し,正確に操作可能な柔軟な視覚的理解を目指す。
- UniVerseは,拡散Transformerにおいてセグメンテーションなしで,分離されたマルチコンセプト個別化を実現する。
- 複雑なシーンをコンセプト固有の表現に分解し,それらを統合することで,多様な視覚的コンテキストに対応可能である。
- 複数のベンチマークにおいて,UniVerseは最先端のベースラインを精度と忠実度で大幅に上回る。
視覚的マンバを用いた3Dセグメンテーションモデル:胎盤癒着スペクトラムの診断へ [cs.AR, cs.PF, cs.CV]目的:胎盤癒着スペクトラムのMRI画像からの病変領域セグメンテーションによる診断精度の向上
- 胎盤癒着スペクトラムは妊産婦の健康を脅かす重篤な疾患であり,早期発見が重要である。
- 専門医が不足している地域病院では,正確な診断が困難であり,診断支援システムの必要性が高い。
- MRI画像から病変領域を自動的にセグメンテーションすることで,診断精度を向上させることを目指す。
- 本研究では,初のMRIベースの胎盤癒着スペクトラムデータセットを構築し,病変領域のセグメンテーションと分類の注釈を付与した。
- 提案する3DSAMbaは,3Dセグメンテーションモデルと視覚的マンバを組み合わせることで,病変領域のセグメンテーション精度を大幅に向上させた。
- 実験結果から,本フレームワークが胎盤癒着スペクトラムの診断性能を著しく向上させることが確認された。
ChartArena:言語,シナリオ,形式を横断したチャート解析のベンチマーク [cs.CV]目的:チャート解析モデルの体系的な評価
- 定量的な情報伝達においてチャートは重要であり,その解析能力の評価が不可欠である。
- 既存のベンチマークは限定的なチャートタイプに焦点を当てており,多様な形式や手書きのチャートに対応できない。
- 様々なチャート形式,シナリオに対応可能な包括的なベンチマークと評価プロトコルの開発。
- ChartArenaは,数値チャートと図式構造を含む8種類のチャートファミリーを,デジタル,印刷,手書きの3つのシナリオで評価する包括的なデータセットである。
- 大規模言語モデル (MLLM) 26個の評価により,Gemini 3.1 Proが優位性を示す一方,オープンソースモデルも急速に追随していることが示された。
- 特にレーダーチャートと手書きシナリオは,どのモデルにとっても難しい課題であり,今後の進歩の余地がある。
次にテストすべきこと:運転VLMsにおける解釈可能なカバレッジギャップの発見 [cs.CY, cs.CV, cs.SE]目的:運転VLMsの検証における,未検証領域の優先度付け方法
- 自動運転技術の安全性確保には,多様な条件下での性能評価が不可欠である。
- 現在の検証方法は不十分であり,信頼性の高い故障率を算出できない場合がある。
- 未検証領域を効率的に特定し,安全性を高めるための検証手法を開発する。
- 提案手法SliceScorerは,稀な条件下と類似条件からのリスク伝播を組み合わせ,効果的に未検証領域を特定する。
- SliceNavは,LLMを活用し,開発者の質問に基づいて検証ワークフローを自動的に構築し,SliceScorerによるスコアリングを組み込む。
- 実験の結果,SliceNavは既存手法よりも高リスクなカバレッジギャップを効率的に発見し,多様な条件下での提案を維持することが示された。
MOSS-Audio 技術報告 [cs.SD, cs.AI]目的:音声,環境音,音楽の理解
- 音声と言語の理解は,人間と機械の自然なコミュニケーションを実現する上で不可欠である。
- 既存モデルでは,音声の多様性に対応し,時間的な情報を正確に処理することが課題であった。
- 多様な音声データに対する理解能力向上と,時間軸に沿った正確な処理を目指す。
- MOSS-Audioは,音声,環境音,音楽を統合的に理解するモデルであり,多様なタスクに対応可能である。
- DeepStackによる特徴量注入と時間マーカーの導入により,音声情報の活用と時間的精度が向上した。
- 大規模な音声言語データを用いた事前学習と,多段階のポストトレーニングにより,高性能を実現した。
多様なシナリオに対応した金属表面欠陥検出のためのドメイン特化型強化コントラスト拡張Transformer [cs.MA, eess.SY, cs.SY, eess.SP, cs.CV]目的:金属表面欠陥の堅牢な検出
- 工業製品の品質維持には不可欠であり,不良品流出防止に繋がる重要な研究分野である。
- アノテーション付きデータの不足,微細かつ多スケールな欠陥の識別困難性,多様なシナリオへの汎化性能の低さが課題である。
- 限られたデータとノイズ条件下でも高精度な欠陥検出を可能にし,実用的な汎化性能を向上させる。
- 提案手法CATはKolektorSDD2データセットにおいて,既存手法を凌駕するpixelレベルAUROC 99.54%を達成した。
- KSDD1,MTD,MSDDを含む3つの未知データセットにおいても,CATは優れた汎化性能と堅牢性を示した。
- ドメイン特化型ドロップレット拡張とコントラスト損失によるハードネガティブマイニングが性能向上に貢献した。
FocusDiT:拡散Transformerにおけるクエリのマスクによる高精度画像生成 [cs.CV]目的:拡散Transformerにおけるクエリのマスク機構
- 画像生成技術は,コンピュータビジョン分野において重要な課題であり,高品質な画像の生成が求められている。
- 拡散Transformerは性能が高い一方,複雑な詳細の生成において,より改善の余地がある。
- 重要なクエリに焦点を当て,詳細な画像生成能力を向上させること。
- 本研究では,重要なクエリトークンに選択的にマスクを適用するFocusDiTを提案した。
- マスクされたクエリはFFNの語彙から視覚トークンを取得し,詳細な視覚情報を復号化する。
- 実験により,提案手法が画像生成性能を向上させることが確認された。
X-Stream:マルチストリーム理解のためのMLLMをマルチプレクサとして探求 [cs.CV]目的:マルチストリーム理解のためのベンチマーク
- リアルタイムな複数ストリームの相互作用は,スポーツ中継,自動運転などに応用が期待される。
- 既存のベンチマークは単一ストリームに限定されており,オンラインでのクロスストリーム推論の評価が困難である。
- 本研究は,複数ストリームの同時処理におけるMLLMの課題を明確化し,性能向上への方向性を示す。
- X-Streamは,マルチウィンドウ,マルチビュー,マルチデバイスのシナリオを網羅する4,220組のQAペアで構成される。
- 最新のMLLMは,複数のストリームの同時処理で50%程度のスコアしか達成できず,予測能力も低いことが示された。
- 本研究は,現在のマルチプレクサ方式のトレードオフを明らかにし,次世代エージェント開発のための評価プロトコルと実証的な指針を提供する。
ワンステップ生成モデルにおけるドリフト最適化 [cs.LG, cs.CV]目的:ワンステップ生成モデルの嗜好性最適化
- 画像生成モデルは,その高品質さから様々な応用が期待されている重要な分野である。
- ワンステップ生成モデルの嗜好性調整は難しく,既存手法は複雑な計算を必要とする。
- 本研究は,効率的かつシンプルな嗜好性調整手法を開発し,計算コストを削減することを目指す。
- 提案手法DrPOは,報酬勾配を必要とせず,単一の生成器呼び出しで推論が可能である。
- SD-TurboおよびSDXL-Turboを用いた評価により,DrPOが既存手法を上回る性能を示すことが確認された。
- HPSv3の学習計算量を最大3.51倍削減し,効率的な学習を可能にすることが示された。
大規模LensLib事前学習と離散劣化事前知識を用いたブラインドレンズ収差補正 [eess.IV, cs.CV, cs.LG, physics.optics]目的:ブラインドレンズ収差補正の汎化性能向上
- レンズ収差は画像品質を大きく左右するため,その補正は重要な課題である。
- 既存手法では,学習データの多様性不足や,光学劣化に関する事前知識の欠如が課題となっていた。
- 大規模データセットと離散劣化事前知識により,未知のレンズに対する汎化性能を向上させる。
- 本研究では,大規模なレンズライブラリAODLibproを構築し,劣化の多様性を高めた。
- 点像分布関数(PSF)をベクトル量子化し,潜在的なPSF表現(LPR)を構築することで,劣化に関する事前知識を導入した。
- 合成データおよび実レンズを用いた実験により,ゼロショット汎化性能およびFew-shot適応性能の優位性が確認された。
胎児超音波画像平面分類における不確実性校正された説明可能な人工知能:系統的レビュー [eess.IV, cs.CV]目的:胎児超音波画像平面分類における説明可能な人工知能の現状と課題
- 胎児超音波検査は周産期ケアの基盤であり,正確な平面認識は生体計測や異常検知に不可欠である。
- 深層学習モデルは高い精度を達成するものの,不透明で信頼性が低く,臨床判断を支援するには不十分である。
- 不確実性校正,説明可能性,公平性を備えた胎児超音波AIの実現に向けた報告基準を提案する。
- 78の研究をレビューした結果,平面分類の平均精度は0.93であったが,不確実性の校正を報告したのは24%に過ぎなかった。
- CALIB-XFUSという22項目の報告フレームワークを提案し,臨床用途,データセット,モデル,説明可能性,公平性などを網羅した。
- 不確実性校正,説明可能性,公平性を備えたAIは技術的にも規制的にも実現可能であり,今後の医療現場での利用が期待される。
多行動ゲームにおけるゲーム連結性と適応力学的性質 [econ.TH, cs.GT, math.CO]目的:多行動ゲームにおけるゲームの連結性の構造
- ゲーム理論は,経済学,政治学,生物学など,多様な分野で意思決定の分析に不可欠である。
- 多くの行動選択肢を持つゲームでは,ナッシュ均衡への到達が困難になる場合がある。
- 多くのプレイヤーと行動を持つゲームにおける連結性の割合を解析し,均衡への収束を促進する適応力学を特定する。
- プレイヤー数が増加するにつれて,多くの行動を持つゲームの連結性の割合は1に近づく。
- ただし,行動数が非常に多い場合,連結でないゲームの割合は正の定数になる。
- 連結性は均衡への収束を促進するため,ほとんどのゲームでナッシュ均衡に収束する適応力学が存在する。
ニューラル場としての世界モデル [physics.optics, cs.ET, q-bio.NC, cs.CV, cs.LG]目的:世界モデルの構造
- 人間の学習には,環境とのインタラクション以外に,将来の予測やシミュレーションが重要である。
- 従来の機械学習の世界モデルは,視覚情報を潜在ベクトルに圧縮する際に空間構造を失う。
- 空間構造を保持することで,物理予測を幾何学的伝播として実現し,効率的な学習を可能にする。
- 運動ゲート付きニューラル場は,弾道予測において「瞬間移動」現象を防ぎ,正確な予測を実現した。
- 学習済みの世界モデルを通じてタスクエラーを伝播させることで,オフラインでの把持ポリシーを改善することに成功した。
- 身体ラベルなしで,身体に特化した運動チャネルが自律的に発達することを示唆する結果が得られた。
NL-MambaXCT:自己教師ありネスト学習マンバによるノメックスハニカムX線CT欠陥分類 [eess.IV, cs.CV]目的:ノメックスハニカム構造のX線CT画像からの欠陥分類
- 航空宇宙製造において,ノメックスハニカム構造の非破壊検査は不可欠である。
- 従来の検査は手作業に依存しており,教師あり学習モデルはラベル付きデータの不足に悩まされている。
- ラベル効率の良い自動欠陥分類手法の開発が求められている。
- 自己教師あり学習とネスト学習を組み合わせたNL-MambaXCTは,高い分類精度を達成した。
- テストセットにおいて96.91%の精度と96.8%のmacro F1スコアを示し,既存手法を上回った。
- マスク画像モデリングと高速/低速学習ダイナミクスが,堅牢な欠陥分類に有効であることが示唆された。
UNISON:深層LLM融合による統一的な音生成・編集フレームワーク [eess.AS, cs.SD]目的:音生成,音声生成,オーディオ編集を単一モデルで統合するフレームワーク
- 多様な音響コンテンツ生成への需要が高まる中で,柔軟性と効率性が求められている。
- 従来のモデルは特定のタスクに特化しており,汎用性に欠けるという課題があった。
- 様々な音響タスクを単一モデルで効率的に処理することを目指している。
- UNISONは,テキストからオーディオ,テキストから音声,ゼロショット話者クローニングなど,複数のタスクを単一の重みで実行可能である。
- 層ごとの深層LLM融合により,意味的条件付けが強化され,指示への追従性が向上している。
- 6億2100万~7億3200万の学習可能パラメータで,タスク特化型モデルと同等以上の性能を発揮しつつ,モデルサイズを約4分の1に抑えている。
