Investigadors de la Universitat Carnegie Mellon, han desenvolupat un nou model que permet detectar ràpidament i de forma precisa objectes amb imatges d'alta resolució 4K i 8K amb GPU. El mètode, realitza una avaluació en dues etapes de cada imatge o frame de vídeo.
En els últims anys, el machine learning, ha aconseguit notables resultats en les tasques de visió per computador, inclosa la detecció d'objectes. Tanmateix, la majoria dels models de reconeixement d'objectes, normalment funcionen millor en imatges amb una resolució relativament baixa. A mesura que la resolució dels dispositius de gravació millora, ràpidament sorgeix una creixent necessitat d'eines que puguin processar dades d'alta resolució.
S'estava interessat en trobar i superar les limitacions dels actuals enfocaments en aquesta matèria, mentre abunden les fonts de dades en alta resolució, els models actuals de detecció d'objectes d'última generació, com són el YOLO, RCNN, SSD, etc. funcionen amb imatges que tenen una resolució relativament baixa d'aproximadament 608 x 608 px. El principal objectiu era escalar la tasca de detecció d'objectes en vídeos 4K-8K (fins a 7680 x 4320 px) mantenint una alta velocitat de processament. També es volia comprendre quin benefici aportaria l'alta resolució en comparació amb l'ús de baixes resolucions d'imatges, en termes dels models de precisió.
La proposta de Růžička i el seu col·lega Franz Franchetti es basa en dividir la tasca per la detecció d'objectes en dues etapes. En aquestes dues etapes, els investigadors van subdividir la imatge original superposant-la amb una xarxa regular i després van aplicar el model YOLO v2 per a la detecció ràpida d'objectes.
La gestió de la resolució en l'exemple del processament de frames en vídeo 4K i durant l'etapa d'atenció, la imatge es processa en una resolució que permet als investigadors decidir quines regions de la imatge han d'estar actives en una avaluació final més precisa. Font: Růžička i Franchetti.
Es creen molts petits 'cultius' rectangulars, que poden ser processats per YOLO v2 en diversos treballs d'un servidor i de manera paral·lela. La primera etapa observa la imatge reduïda a una resolució més baixa i realitza una detecció ràpida d'objectes per obtenir caixes limitadores. La segona etapa utilitza aquests quadres limitadors, com a mapa d'atenció per decidir on s'ha de comprovar la imatge en alta resolució.
Els investigadors van implementar el seu model en codi, distribuint el seu treball a través de les GPU. D'aquesta manera, es va aconseguir mantenir una alta precisió obtenint un rendiment mitjà de tres a sis (frames per second) fps en els vídeos 4K i dos fps en vídeos de 8K. El seu mètode va obtenir significatius beneficis amb una precisió mitjana mesurada en el conjunt de dades provades que van passar des de 33,6 AP 50 a 74,3 AP 50, quan es processen imatges en alta resolució en comparació amb les imatges d'escalat inferior en baixa resolució.
Aquest mètode va reduir el temps necessari per processar imatges d'alta resolució en aproximadament un 20 per cent, en comparació amb el processament de totes les parts de la imatge original en alta resolució. La implicació pràctica, és que el processament de vídeo en temps real de 4K sigui factible. Aquest mètode també requereix una menor quantitat de treballs del servidor per completar aquesta tasca.
Malgrat els prometedors resultats aconseguits per aquest nou mètode de detecció d'objectes, l'ús d'una malla regular que superi la imatge original pot donar lloc a diversos problemes. Per exemple, de vegades pot donar lloc a que els objectes detectats es tallin per la meitat, el que requereix un pas posterior al processament a les detectades caselles delimitades. Actualment, Růžička i Franchetti estan explorant altres maneres d'abordar i eludir aquests problemes per millorar encara més el seu model.
Font: Universitat Carnegie Mellon
Cap comentari:
Publica un comentari a l'entrada