Amb els sistemes del machine-learning que ara s'utilitzen per determinar tot, des dels preus de les accions fins als diagnòstics mèdics, mai no havia estat més important el mirar com s'obtenen les decisions.
Un nou enfocament del MIT, demostra que el principal 'culpable' no només són els algoritmes, sinó també, com es recopilen les dades .
Científics informàtics solen dir que la manera de fer menys sistemes en aquests entorns, és simplement dissenyar millors algorismes. Però els algoritmes són tan bons com la qualitat de les dades que estan utilitzant, aquesta investigació demostra que sovint es poden prendre millors decisions amb millors dades.
Pel que fa a exemples específics, els investigadors van poder identificar les causes potencials de les diferències en la precisió i quantificar així, l'impacte individual de cada factor en les dades. Després van mostrar com canviant la forma en què es van recollir les dades, es podrien reduir els tipus de dades de baix valor i mantenir el mateix nivell de precisió predictiu.
Això es veu com solució per ajudar els enginyers amb el machine-learning a determinar quines preguntes fer de les seves dades per tal de diagnosticar perquè els seus sistemes poden fer prediccions injustes.
Un dels grans conceptes erronis és que sempre és millor disposar de més dades. L'obtenció de més participants no necessàriament ajuda, ja que dibuixar des de la mateixa població de dades, sol conduir a que els mateixos subgrups estiguin sub-representats. Fins i tot la popular base de dades d'imatge ImageNet, amb els seus molts milions d'imatges, s'ha mostrat tendenciosa en aquest sentit.
Sovint, el més important, és sortir i obtenir més dades d'aquells grups menys representatius. Per exemple, l'equip va analitzar un sistema de previsió d'ingressos i va trobar que havia el doble de possibilitat de classificar erròniament treballadors femenins com a treballadors de baixos ingressos i homes, amb ingressos elevats. Van trobar que si s'augmentava el conjunt de dades per un factor de 10, aquests errors passarien més vegades en un 40 %.
En un altre conjunt de dades, els investigadors van trobar que la capacitat d'un sistema de predir la mortalitat de la unitat de cures intensives (UCI) era menys precisa per als pacients asiàtics. Els enfocaments existents per reduir la discriminació, bàsicament, només fan que les prediccions no asiàtiques siguin menys precises, cosa que resulta un problema, quan es parla de configuracions com ara l'assistència sanitària com podria ser literalment, la vida o la mort.
Aquest enfocament, permet observar un conjunt de dades i determinar quants més participants de diferents poblacions es necessiten per millorar la precisió del grup amb menor precisió i al mateix temps preservar la precisió del grup amb una major precisió.
Es poden dibuixar les corbes de la trajectòria per veure què passaria si s'agreguen més de 2.000 persones enfront de 20.000, i d'aquesta xifra, quina mida hauria de ser el conjunt de dades si es vol tenir el millor de tots els mons. Amb un enfocament més matisat, els hospitals i altres institucions estaran més ben equipats per fer anàlisis de costos i beneficis per veure si seria útil obtenir més dades.
També es pot provar obtenir dades addicionals dels participants existents. Tanmateix, això tampoc millorarà les coses si les dades addicionals no són realment rellevants, com ara estadístiques sobre l'alçada de les persones per a un estudi sobre el coeficient intel·lectual. La pregunta llavors es converteix en: com identificar quan i per a qui s'ha de recollir més informació?
Un mètode és identificar els grups de pacients amb precisió i amb altes disparitats. Per als pacients de la UCI, un mètode de clusterització en el text anomenat modelatge de temes, mostrava que els pacients amb malaltia cardíaca i amb càncer tenien grans diferències racials en la precisió. Aquesta troballa podria suggerir que si es fan més proves diagnòstiques per a pacients amb malaltia cardíaca o amb càncer, podrien reduir les diferències racials en la precisió.
L'equip va presentar recentment el document a la conferència anual sobre els sistemes de processament de la informació neuronal (NIPS) a Montreal.
Font: Massachusetts Institute of Technology
Cap comentari:
Publica un comentari a l'entrada