Un equip d'investigadors de la Universitat de Stanford, recentment han desenvolupat un mètode de classificació Convolutional Neural Network (CNN) per a la coloració d'imatges en escala de grisos. L'eina que van dissenyar, anomenada ColorUNet, s'inspira en U-Net, que és una xarxa totalment convolucional per a la segmentació d'imatges.
Com a part de la classe Computer Vision (CV) de Stanford, es va treballar en aquest projecte durant diversos mesos on l'objectiu era reproduir avançats resultats utilitzant un mou model, en lloc de millorar els models existents augmentant la seva complexitat computacional, un enfocament molt comú en els problemes CV. Es vol que els resultats siguin fàcils d'avaluar i visualment atractius, perquè a més de ser útil per aplicacions també, tingui un interès en l'assignatura CV.
Billaut i els seus col·legues van decidir fer una aproximació de la tasca de coloritzar automàticament les imatges a escala de grisos des de l'angle de classificació, treballant amb un conjunt finit de possibilitats de color. El seu model va seguir una funció de pèrdua i predicció, afavorint imatges de colors més realistes.
En lloc d'intentar predir els colors directament a través d'una tasca de regressió, amb una tasca de classificació es divideixen tots els colors,. Formular el problema com una tasca de classificació, permet tenir un millor control sobre el colorit que es vol veure, ajustant-se la manera de predir un color.
Els investigadors van formar el seu model en subconjunts dels conjunts SUN i ImageNet, que contenien imatges de paisatges. L'arquitectura de la xarxa neuronal que van desenvolupar, va permetre que el seu algoritme de deep-learning extregui una informació local i global de cada imatge en escala de grisos.
L'algoritme pot decidir el color de la regió en funció del seu propi aspecte, així com en el context que l'envolta. En general, és fonamental que les tècniques de la intel·ligència Artificial (IA) que en la vida real necessitin de la presa de decisions, aprofitin tant la identificació del subjecte localment i de forma precisa com una comprensió del context més ampli.
Un dels objectius fonamentals de l'estudi va ser desenvolupar una arquitectura lleugera que fos escalable, així com models d'última generació en tasques de colorització. Per aconseguir-ho, els investigadors van limitar la tasca a les imatges dels paisatges naturals.
Font: Billaut, De Rochemonteix i Thibault.
El més important, es que s'ha utilitzat una arquitectura U-Net per millorar el rendiment i reduir la complexitat del model. L'arquitectura de ColorUne, permet una formació més ràpida i estable, sense canviar la profunditat i la potencia representativa del model.
Quan es van avaluar les imatges de paisatges, ColorUNet va aconseguir resultats molt prometedors, amb un augment de dades que van millorar significativament el rendiment i la robustesa del model. Els investigadors també van aplicar el model a la colorització de vídeo, que proposava una manera de reduir les prediccions de colors en marcs sense haver d'entrenar en una xarxa recurrent per obtenir entrades seqüencials.
La principal contribució d'aquesta tècnica, és la capacitat de l'algoritme per entendre el que està passant en una imatge a escala local, alimentant tot el context de la imatge. Mentre es mostra la seva eficàcia en la coloració d'imatges, també s'està treballant en altres aplicacions, especialment en el domini mèdic. Dins del Gevaert Lab de Stanford, s'ha aplicat aquest mètode a la detecció de tumors per als pacients amb glioma (càncer de cervell) basats en exploracions de ressonància magnètica La recerca està evolucionant en aquest camp, amb més i més tècniques de CV aplicades a la imatge mèdica.
Font: Universitat de Standford
Cap comentari:
Publica un comentari a l'entrada