arXiv雑要約
画像・音声 - 2026/02/04 公開
トレーニング不要なゼロショット複合画像検索のためのパラコスム生成 [cs.CV]目的:複合画像検索における性能向上
- 画像とテキストによる検索は,情報検索の精度向上に不可欠である。
- 複合画像検索は,想起画像が物理的に存在しないため,困難を伴う。
- 大規模多Modalモデルによる想起画像生成を通じて,検索精度を高める。
- 提案手法Paracosmは,大規模多Modalモデルを用いて複合クエリに対応する「想起画像」を生成する。
- データベース内の画像に対しても合成画像を生成し,ドメインギャップを解消することでマッチングを促進する。
- Paracosmは,既存のゼロショット手法を大きく上回り,最先端の性能を達成した。
SyNeT:歩行可能領域学習のための合成ネガティブデータ [cs.RO, cs.CV]目的:歩行可能領域推定の信頼性向上
- 自律ロボットが複雑な屋外環境を安全にナビゲートするには,正確な歩行可能性推定が不可欠である。
- 既存手法では,明示的なネガティブデータの欠如が課題であり,非歩行可能領域の正確な識別を妨げている。
- 本研究は,多様な非歩行可能領域を識別する能力を向上させることを目指す。
- 提案手法は,既存のPositive-Unlabeled (PU) および Positive-Negative (PN) フレームワークに容易に統合可能である。
- 合成ネガティブデータが挿入された領域におけるモデルの予測を分析するobject-centric FPR評価を導入した。
- 公開データセットと独自収集データセットの両方で,ロバスト性と汎化性能の向上が確認された。
CAR-T/NK免疫シナプスの高忠実度画像生成のためのデータ拡張 [cs.CV]目的:CAR-T/NK細胞免疫シナプスの画像検出・セグメンテーション性能の向上
- CAR-T/NK細胞免疫療法は癌治療に変革をもたらし,免疫シナプスの質が治療効果予測のバイオマーカーとなりうる。
- 人工ニューラルネットワークの汎化能力を制限する,注釈付き顕微鏡データセットのサイズが限られているという課題がある。
- データ拡張によりデータセットを拡張し,CAR-T/NK細胞免疫シナプスの正確な検出とセグメンテーションを可能にすることを目指す。
- Instance Aware Automatic Augmentation (IAAA) と Semantic-Aware AI Augmentation (SAAA) の2つのデータ拡張フレームワークを統合した。
- 生成された合成画像は,実際の免疫シナプスデータと視覚的・構造的に類似しており,検出・セグメンテーション性能を大幅に向上させた。
- 本研究は,CAR-T/NK細胞免疫療法の患者応答を予測するための,より信頼性の高いイメージングバイオマーカーの開発を支援する。
PISA:効率的な拡散Transformerのための区分的疎注意は賢明である [cs.CV]目的:拡散Transformerの効率化
- 画像や動画生成においてTransformerが不可欠だが,計算コストが大きい。
- 既存の疎注意法は,高い疎性度で性能が低下する問題がある。
- 重要なブロック以外も近似計算することで効率と品質の両立を目指す。
- PISAは,Wan2.1-14BとHunyuan-Videoでそれぞれ1.91倍,2.57倍の高速化を実現した。
- 従来の疎注意法と比較して,一貫して最高の品質を維持している。
- FLUXにおける画像生成においても,視覚品質を損なうことなく1.2倍の加速を達成した。
MiTAアテンション:トップk活性化の混合による効率的な高速重みスケーリング [cs.FL, cs.LG, cs.CV]目的:高速重みスケーリングの効率化
- Transformerの性能向上は,自然言語処理や画像認識など様々な分野で重要である。
- Transformerのアテンション機構は,系列長が長くなるほど計算コストが増大する。
- トップk活性化の混合により,アテンション機構のスケーリングコストを削減することを目指す。
- MiTAアテンションは,アテンション機構を高速重みMLPとして捉え,トップk活性化の混合によって効率化を図る。
- ランドマーククエリを用いてMLPを圧縮し,活性化されたキーバリューペアを集めることで,変形可能なエキスパートを構築する。
- 画像認識タスクにおける予備実験で,MiTAアテンションの有効性が示唆された。
TreeLoc:森林における樹木間幾何学的マッチングによる6自由度LiDARグローバル局所化 [cs.HC, cs.CY, cs.IR, cs.RO, cs.CV]目的:森林環境におけるLiDARによるグローバル局所化手法
- 森林環境はGPSが利用困難で,LiDAR計測が複雑なため,自律移動技術の確立が重要である。
- 従来の都市部向け局所化手法は森林の構造的特徴に対応できず,信頼性が低下しやすい。
- 森林特有の構造を考慮し,LiDARデータから高精度な局所化を実現することを目指す。
- 本研究で提案するTreeLocは,樹木の直径と軸に基づき,樹木分布ヒストグラムと三角形記述子を用いて局所化を実現した。
- 複数の森林ベンチマークにおいて,TreeLocは既存手法を上回り,高精度な局所化性能を示した。
- 提案手法の各構成要素の貢献度を検証した結果,それぞれの有効性が確認された。
フレームからシーケンスへ:時間的に一貫性のある人間中心の稠密予測 [cs.CV]目的:時間的に一貫性のある人間中心の稠密予測の実現
- 映像解析における人間理解は,ロボティクスや自動運転など多岐にわたる応用で重要性が増している。
- 既存手法では,動きや遮蔽,照明変化によって予測結果が不安定になるという課題がある。
- 動きに合わせた合成データと時間的な一貫性を高める学習戦略により,この課題を解決する。
- 提案手法は,THuman2.1とHi4Dのデータセットにおいて,最先端の性能を達成した。
- 静的事前学習と動的シーケンスによる教師あり学習という二段階の学習戦略が有効であることが示された。
- 実環境の動画に対しても高い汎化性能を発揮することが確認された。
Moonworks Lunara Aesthetic II:画像バリエーションデータセット [cs.CV]目的:文脈的一貫性の評価と学習を支援する画像データセット
- 画像生成技術は発展しているが,生成された画像の品質評価は課題である。
- 既存のデータセットでは,文脈を維持しつつ多様なバリエーションを生成するのが難しい。
- 高品質で一貫性のある画像バリエーションを生成するための評価基準を提供する。
- Lunara Aesthetic IIは,高品質な画像とそのバリエーションペア2,854組で構成される。
- このデータセットは,照明,天候,視点などの文脈的変換を維持しつつ,安定した識別性を保っている。
- 実験結果から,高い識別性の安定性,目的とする属性の実現性,優れた美的プロファイルが確認された。
RGB-D送電線欠陥検出のためのクロスモーダルアライメントと融合 [cs.CV, cs.AI]目的:送電線欠陥の検出性能向上
- 送電線は社会インフラであり,安定稼働維持は重要である。目視検査の自動化が求められている。
- 小型欠陥,複雑な背景,照度変化により,自動検査は困難である。RGB画像だけでは識別が難しい場合がある。
- RGB画像と深度情報を統合することで,識別性能を向上させることを目指す。
- 提案手法CMAFNetは,RGB画像と深度情報を効果的に融合し,TLRGBDベンチマークにおいて高い検出精度を達成した。
- 特に,小型欠陥の検出において,既存手法を大幅に上回る性能を示した(mAP@50:32.2%)。
- 軽量バージョンは,低計算コストで高い処理速度(228 FPS)を実現し,YOLOベースの手法を上回る性能を示した。
ObjEmbed:汎用的なマルチモーダルオブジェクト埋め込みに向けて [cs.CV]目的:視覚と言語の理解における,物体と対応するテキスト記述のアライメント
- 画像とテキストの相互理解は,AI研究の重要な課題であり,多様な応用が期待される。
- 既存モデルは,画像全体とテキストのアライメントは得意だが,画像領域と特定のフレーズの細かなアライメントに課題がある。
- 画像内の各物体に対応する埋め込み表現を生成し,より正確な物体とテキストのアライメントを実現する。
- ObjEmbedは,画像を複数の領域埋め込みに分解し,各領域を個々の物体に対応させることで,視覚的な意味的情報を捉える。
- 物体埋め込みとIoU埋め込みを組み合わせることで,意味的な類似度と局所化の精度を向上させ,より正確な検索を可能にする。
- 領域レベルと画像レベルの両方のタスクに対応し,効率的なエンコーディングを実現することで,多様なベンチマークで優れた性能を示す。
DDP-WM:効率的なワールドモデルのための分離された動力予測 [cs.CV, cs.RO]目的:自律型ロボット計画のためのワールドモデルの効率化
- ロボットの自律的な計画において,周囲環境の予測は不可欠である。
- 既存のワールドモデルは計算コストが高く,リアルタイムでの利用が困難である。
- 動力予測を分離することで,計算効率と性能のバランスを改善することを目指す。
- DDP-WMは,物理的な相互作用と背景更新を分離することで,効率的な動力予測を実現した。
- Push-Tタスクにおいて,既存のモデルと比較して約9倍の推論速度向上と,MPCの成功率が90%から98%に向上した。
- 本研究は,効率的で高精度なワールドモデル開発への有望な道を示す。
FlyPrompt:脳に触発されたランダム拡張ルーティングと時間的アンサンブルエキスパートによる汎用継続学習 [cs.LG, cs.AI, cs.CV]目的:汎用継続学習における性能向上
- 人工知能システムが変化するデータに対応する必要性から,継続学習の研究が重要である。
- 既存手法は複数回の訓練やタスクの明示的な区別が必要で,汎用的な継続学習には不向きである。
- エキスパートパラメータの割り当てと表現能力の向上を通して,継続的パラメータ効率調整の課題を解決する。
- FlyPromptは,果蠅の階層的記憶システムに着想を得た新しいフレームワークである。
- 提案手法は,インスタンスレベルでのエキスパート活性化と動的な決定境界の適応を実現する。
- CIFAR-100,ImageNet-R,CUB-200において,最先端手法を最大12.43%上回る性能を示した。
表面連続性事前知識を用いたフィードフォワード2Dガウススプラッティング [cs.CV, cs.AI]目的:疎な画像からの3Dシーン再構築
- 3Dシーンの理解は,ロボット工学,VR/ARなど様々な分野で重要である。
- 最適化なしで正確な形状とテクスチャを復元することは困難である。
- 高解像度での再構築品質を向上させ,アーティファクトを抑制すること。
- SurfSplatは,2Dガウススプラッティングに基づき,より高い幾何学的精度と異方性を提供する。
- 表面連続性事前知識と強制アルファブレンディングにより,一貫性のある形状と忠実なテクスチャを再構築する。
- RealEstate10K,DL3DV,ScanNetでの実験により,既存手法を上回る高忠実度な再構築が可能であることが示された。
Reg4Pru:トークンプルーニングのためのランダムトークンルーティングによる正則化 [cs.CV]目的:トークンプルーニングにおける性能劣化の緩和
- Transformerは汎用性が高く,データセット規模拡大に強いが,計算量がトークン数に対して2乗で増加する。
- トークンプルーニングによる計算効率化は,保存された表現の安定性を損ない,深い層での性能低下を招く。
- Reg4Pruは,セグメンテーションにおけるトークンプルーニングによる性能損失を抑制することを目的とする。
- Reg4Pruは,ルーティングなしで訓練されたモデルと比較して,平均精度を絶対値で46%向上させた。
- この向上は,非プルーニングベースラインと比較して,壁時計時間で29%の相対的な高速化を達成する構成で観測された。
- これらの結果は,Reg4Pruがトークン削減戦略のための有用な正則化手法であることを示唆する。
CIEC:暗黙的および明示的な手がかりの結合によるマルチモーダル弱教師あり操作局所化 [cs.CV]目的:マルチモーダル弱教師あり操作局所化の実現
- 誤情報の拡散が問題視される中,画像とテキストから操作箇所を特定する技術が重要である。
- 既存手法は,パッチやトークンレベルの詳細なアノテーションが必要で,コストと時間がかかる。
- 粗粒度な画像/文レベルのアノテーションのみで操作局所化を可能にすることを目的とする。
- 提案手法CIECは,画像とテキスト双方の手がかりを統合することで,高精度な局所化を実現した。
- TRPSモジュールとVCTGモジュールにより,視覚的・言語的な手がかりから疑わしい領域を特定し,信頼性を高めている。
- 実験結果から,CIECは完全に教師あり学習手法と同等の性能を示すことが確認された。
無限世界:姿勢推定を用いない階層型メモリによる1000フレームのインタラクティブなワールドモデルの拡張 [cs.CV, cs.AI]目的:複雑な実世界環境における1000フレーム以上のコヒーレントな視覚的メモリを維持可能な,堅牢なインタラクティブなワールドモデル
- 現実世界の理解や操作において,長期的な視覚情報の保持と活用は不可欠である。
- 既存のワールドモデルは,実世界のノイズの多いデータに対して,姿勢推定の誤差や視点再訪の少なさから学習が困難である。
- 本研究は,姿勢推定を用いない方法で長期メモリを効率的に圧縮し,実世界のデータを用いた学習を可能にすることを目指す。
- 提案手法であるInfinite-Worldは,視覚的な品質,行動の制御性,空間的な整合性において,既存手法を上回る性能を示す。
- 階層型姿勢推定フリーメモリ圧縮器(HPMC)により,過去の潜在変数を固定予算の表現に再帰的に蒸留し,計算コストを抑えつつ長期的な生成を可能にする。
- 不確実性認識型行動ラベリングモジュールは,連続的な動きを三値論理で離散化し,ノイズの影響を受けにくいロバストな行動学習を実現する。
ReasonEdit:人間による推論を用いた視覚言語モデルの編集 [cs.CV, cs.AI]目的:視覚言語モデルの編集性能向上
- 大規模言語モデルは多様なタスクに応用可能だが,誤りを修正するには専門知識が必要である。
- 既存の編集手法は,推論を必要とする複雑なタスクへの対応が困難である。
- 人間による推論を活用することで,編集の汎化性能を高めることを目指す。
- ReasonEditは,人間が編集時に推論を説明できる初の視覚言語モデルエディタである。
- 人間による推論をコードブックに保存し,ネットワーク科学に着想を得た手法を用いて関連情報を検索する。
- 複数のデータセットにおいて,最新技術を上回る編集性能を達成し,推論の活用が編集の汎化に貢献することを示した。
RANKVIDEO:テキストから動画検索のための推論による再ランク付け [cs.IR, cs.CV]目的:テキストから動画検索における関連性評価
- 動画検索は情報アクセスの重要な手段であり,その精度向上は不可欠である。
- 既存の動画検索システムは,検索精度と計算コストのバランスに課題がある。
- 推論能力を活用し,動画内容に基づいた関連性評価で検索精度を向上させる。
- RANKVIDEOは,大規模ベンチマークMultiVENT 2.0において,既存手法と比較してnDCG@10で平均31%の改善を示した。
- テキストのみ,または視覚言語モデルを用いた再ランク付け手法よりも優れた性能を発揮し,効率的である。
- 知覚に基づいた教師あり微調整と,点ごとの損失,ペアワイズ損失,教師の信頼性蒸留を組み合わせた2段階のカリキュラムで学習された。
キャリーオーバー・ロッテリー配分:実用的なインセンティブ整合ドラフト [cs.GT]目的:インセンティブ整合性を有し,弱いチームを優遇するドラフトメカニズムの提案
- NBAドラフトは競争均衡を促進するが,意図的な敗北(タンキング)を誘発する可能性がある。
- タンキングを防ぐためのインセンティブ設計が課題となっている。
- 長期的パフォーマンスの悪いチームに報奨するドラフトメカニズムを構築する。
- 提案メカニズム(COLA)は,複数年のプレーオフ結果を基にチームの質を評価し,タンキングのインセンティブを取り除く。
- 未使用のロッテリーチケットを将来に繰り越し,プレーオフ成功や上位指名獲得はチケットを減少させる。
- 特に強力なドラフトクラスの年には,プレーオフチームもロッテリー対象に含めることで,タンキングを防ぐ。
拡散に基づく画像合成とアライメントによる高度な多重モーダル肝腫瘍セグメンテーション:Diff4MMLiTS [math.OC, cs.SY, eess.SY, eess.IV, cs.CV]目的:多重モーダル肝腫瘍セグメンテーションの性能向上
- 臨床タスクにおいて,多様なデータモダリティが異なる視点を提供し,性能向上が期待される。
- 既存手法は厳密なモダリティ登録に依存しており,実際の臨床画像では困難な場合がある。
- 厳密なモダリティアライメントを必要とせず,肝腫瘍セグメンテーションの精度向上を目指す。
- Diff4MMLiTSは,CT画像の事前登録,マスクの拡張とインペインティングによる正常CTの生成,拡散モデルによる腫瘍を含むCT合成の4段階構成である。
- 本研究では,厳密なモダリティアライメントを必要としないセグメンテーションモデルの学習を実現した。
- 公開データセットおよび社内データセットにおける実験により,Diff4MMLiTSが他の最先端手法を上回る性能を示すことが確認された。
公平なCMRセグメンテーションのための理解に基づくバイアス軽減 [eess.IV, cs.AI, cs.CV]目的:公平なCMRセグメンテーションのためのバイアス軽減手法の評価
- 医療画像診断におけるAI利用が拡大しており,その精度と公平性が重要視されている。
- AIモデルは学習データの偏りにより,人種などの属性においてバイアスを示す場合がある。
- 本研究は,CMRセグメンテーションにおける人種間バイアスを軽減する手法を検証し,公平性を向上させる。
- オーバーサンプリング等のバイアス軽減手法は,少数派であるBlack患者群の性能を大幅に向上させた。
- クロップ画像を用いることで,両人種群の性能向上とバイアスの軽減が確認された。
- 臨床検証データセットでは,高いセグメンテーション性能と統計的に有意なバイアスの存在が確認されなかった。
ニューラル音声コーデックにおける動的フレームレートによる時間冗長性圧縮:CodecSlime [eess.AS, cs.SD]目的:ニューラル音声コーデックの時間冗長性圧縮
- 音声圧縮技術は,通信帯域の効率化や高品質な音声伝送に不可欠である。
- 従来の固定フレームレートコーデックでは,音声の時間的な情報密度の不均一性に対応できていない。
- 時間冗長性を削減し,より効率的な音声圧縮を実現すること。
- CodecSlimeは,既存のニューラル音声コーデックに容易に組み込むことが可能である。
- 40HzのDFRで運用した場合,CodecSlimeは従来のFFRベースラインと比較して,再構成WERを最大32%削減した。
- CodecSlimeは,再構成品質とビットレートの間の柔軟なトレードオフを可能にする。
ピアノダイナミクスと拍動構造の同時推定:マルチタスク・マルチスケールネットワーク [eess.AS, cs.LG, cs.SD]目的:ピアノダイナミクスと拍動構造の推定
- 音楽表現の理解には,ダイナミクスと拍動構造の分析が不可欠である。
- 既存手法では,計算量が多く,長時間の楽曲解析が困難であった。
- 効率的なモデルにより,大規模な音楽データの解析を可能にすること。
- 本研究では,ダイナミクスレベル,変化点,拍,ダウンビートを同時に推定するマルチタスクネットワークを提案した。
- Barkスケール特有のラウドネスを入力特徴量とすることで,モデルサイズを大幅に削減し,長時間の入力に対応した。
- 公開データセットMazurkaBLにおいて,全てのタスクで最先端の結果を達成した。
フリンジ投影法におけるフォトリアリスティックな合成データを用いた包括的な機械学習ベンチマーク [quant-ph, cs.ET, eess.IV, cs.CV, cs.LG]目的:フリンジ投影法における機械学習のベンチマーク評価
- 非接触三次元計測技術として,工業検査や逆設計など幅広い分野で活用されている。
- 機械学習の導入には,大規模で多様なデータセットと標準化された評価プロトコルの不足が課題である。
- フォトリアリスティックな合成データセットとベンチマーク環境を構築し,機械学習の性能向上を目指す。
- 提案手法により,従来の深度マップ再構成精度を9.1倍向上させる個別正規化の効果が確認された。
- 背景フリンジパターンの除去が性能低下を引き起こすことが示され,その空間位相参照の重要性が明らかになった。
- ハイブリッドL1損失が最適であり,UNetアーキテクチャが最も優れた性能を発揮した。しかし,古典的なフリンジ投影法と比較して誤差が大きい。
コンドルセ勝者・敗者基準,積極的参加,解決可能性の非両立性 [econ.TH, cs.GT, cs.MA]目的:コンドルセ勝者・敗者基準,積極的参加,解決可能性を満たす優先順位投票方式の存在可能性
- 社会選択理論は,多数決の非合理性を明らかにし,より公平な意思決定方法の探求に貢献する。
- 現実の投票システムでは,コンドルセ基準と他の望ましい性質との間に矛盾が生じることが知られている。
- 本研究は,積極的参加と解決可能性という性質がコンドルセ基準と両立しないことを証明する。
- コンドルセ勝者・敗者基準,積極的参加,および$n$人投票による解決可能性を同時に満たす優先順位投票方式は存在しないことが示された。
- この非可能性定理は,任意の正の整数$n$に対して成立する。
- コンドルセ敗者基準をクローン独立性の基準で,あるいは積極的参加を消極的参加の基準で置き換えても,同様の結果が得られる。
