Ramon

Ramon
Ramon Gallart

dilluns, 19 de novembre del 2018

Detecció d'objectes amb vídeo 4K i 8K mitjançant GPU.

Investigadors de la Universitat Carnegie Mellon, han desenvolupat un nou model que permet detectar ràpidament i de forma precisa objectes amb imatges d'alta resolució 4K i 8K  amb GPU. El  mètode, realitza una avaluació en dues etapes de cada imatge o frame de vídeo.

** Detecció d'objectes en vídeo de 4K i 8K amb GPU

En els últims anys, el machine learning, ha aconseguit notables resultats en les tasques de visió per computador, inclosa la detecció d'objectes. Tanmateix, la majoria dels models de reconeixement d'objectes, normalment funcionen millor en imatges amb una resolució relativament baixa. A mesura que la resolució dels dispositius de gravació millora,  ràpidament sorgeix una creixent necessitat  d'eines que puguin processar dades d'alta resolució.


S'estava interessat en trobar i superar les limitacions dels actuals enfocaments en aquesta matèria, mentre abunden les fonts de dades en alta resolució, els models actuals  de detecció d'objectes d'última generació, com són el YOLO, RCNN, SSD, etc. funcionen amb imatges que tenen una resolució relativament baixa d'aproximadament 608 x 608 px. El  principal objectiu era escalar la tasca de detecció d'objectes en vídeos  4K-8K (fins a 7680 x 4320 px) mantenint una alta velocitat de processament. També es volia comprendre  quin benefici aportaria l'alta resolució en comparació amb l'ús de baixes resolucions d'imatges, en termes dels models de precisió.

La proposta de Růžička i el seu col·lega Franz Franchetti es basa en dividir la tasca per la detecció d'objectes en dues etapes. En aquestes dues etapes, els investigadors van subdividir la imatge original superposant-la amb una xarxa regular i després van aplicar el model YOLO v2 per a la detecció ràpida d'objectes.

** Detecció d'objectes en vídeo de 4K i 8K amb GPU

La gestió de la resolució en l'exemple del processament de frames en vídeo 4K i durant l'etapa d'atenció, la imatge es processa en una resolució que permet als investigadors decidir quines regions de la imatge han d'estar actives en una avaluació final més precisa. Font: Růžička i Franchetti.

Es creen molts  petits 'cultius'   rectangulars, que poden ser processats per YOLO v2 en diversos treballs d'un servidor i de manera paral·lela. La primera etapa observa la imatge reduïda a una resolució més baixa i realitza una detecció ràpida d'objectes per obtenir caixes limitadores. La segona etapa utilitza aquests quadres  limitadors, com a mapa d'atenció per decidir on s'ha de comprovar la imatge en alta resolució. 

** Detecció d'objectes en vídeo de 4K i 8K amb GPU

Els investigadors van implementar el seu model en codi, distribuint el seu treball a través de les GPU. D'aquesta manera, es va aconseguir mantenir una alta precisió obtenint un rendiment mitjà de tres a sis (frames per second) fps en els vídeos  4K i dos fps en vídeos de 8K. El seu mètode va obtenir significatius beneficis amb una precisió mitjana mesurada en el conjunt de dades provades que van passar des de 33,6 AP 50 a 74,3 AP 50, quan es processen imatges en alta resolució en comparació amb les imatges d'escalat inferior en baixa resolució.

Imatge relacionada

Aquest mètode va reduir el temps necessari per processar imatges d'alta resolució en aproximadament un 20 per cent, en comparació amb el processament de totes les parts de la imatge original en alta resolució. La implicació pràctica, és que el processament de vídeo en temps real de 4K sigui factible. Aquest mètode també requereix una menor quantitat de treballs del servidor per completar aquesta tasca.

Resultat d'imatges de Object detection in 4K and 8K video using GPUs
Malgrat els prometedors resultats  aconseguits per aquest nou mètode de detecció d'objectes, l'ús d'una malla regular que superi la imatge original pot donar lloc a diversos problemes. Per exemple, de vegades pot donar lloc a que els objectes detectats es tallin per la meitat, el que requereix un pas posterior al processament a les detectades caselles delimitades. Actualment, Růžička i Franchetti estan explorant altres maneres d'abordar i eludir aquests problemes per millorar encara més el seu model.

Font: Universitat Carnegie Mellon