Ramon

Ramon
Ramon Gallart

dimarts, 27 de novembre del 2018

Com fer que l'AI sigui menys parcial

Amb els sistemes del machine-learning que ara s'utilitzen per determinar tot, des dels preus de les accions fins als diagnòstics mèdics, mai no havia estat més important el mirar com s'obtenen les decisions.

Un nou enfocament del MIT, demostra que el principal 'culpable' no  només són els algoritmes, sinó també, com es recopilen les dades .

aprenentatge automàticCientífics informàtics solen dir que la manera de fer menys sistemes en aquests entorns, és simplement dissenyar millors algorismes. Però els algoritmes són tan bons com la qualitat de les dades que estan utilitzant, aquesta investigació demostra que sovint  es poden prendre millors decisions amb millors dades.

Resultat d'imatges de How to make AI less biased

Pel que fa a exemples específics, els investigadors van poder identificar les causes potencials de les diferències en la precisió i quantificar així, l'impacte individual de cada factor en les dades. Després van mostrar com canviant la forma en què es van recollir les dades, es podrien reduir els tipus de dades de baix valor i mantenir el mateix nivell de precisió predictiu.

Això es veu com solució per ajudar els enginyers amb el machine-learning a determinar quines preguntes fer de les seves dades per tal de diagnosticar perquè els seus sistemes poden fer prediccions injustes.

Un dels grans conceptes erronis és que sempre és millor disposar de més dades. L'obtenció de més participants no necessàriament ajuda, ja que dibuixar des de la mateixa població de dades, sol conduir a que els mateixos subgrups estiguin sub-representats. Fins i tot la popular base de dades d'imatge ImageNet, amb els seus molts milions d'imatges, s'ha mostrat tendenciosa en aquest sentit.

Resultat d'imatges de How to make AI less biased

Sovint, el més important, és sortir i obtenir més dades d'aquells grups menys representatius. Per exemple, l'equip va analitzar un sistema de previsió d'ingressos i va trobar que havia el doble de possibilitat de classificar erròniament  treballadors femenins com a treballadors de baixos ingressos i homes, amb ingressos elevats. Van trobar que si s'augmentava el conjunt de dades per un factor de 10, aquests errors passarien més vegades en un 40 %.

En un altre conjunt de dades, els investigadors van trobar que la capacitat d'un sistema de predir la mortalitat de la unitat de cures intensives (UCI) era menys precisa per als pacients asiàtics. Els enfocaments existents per reduir la discriminació, bàsicament, només fan que les prediccions no asiàtiques siguin menys precises, cosa que resulta un problema, quan es parla de configuracions com ara l'assistència sanitària com podria ser literalment, la vida o la mort.

Aquest enfocament, permet observar un conjunt de dades i determinar quants més participants de diferents poblacions es necessiten per millorar la precisió del grup amb menor precisió i al mateix temps preservar la precisió del grup amb una major precisió.

Resultat d'imatges de How to make AI less biased

Es poden dibuixar les corbes de la trajectòria per veure què passaria si s'agreguen més de 2.000 persones enfront de 20.000, i d'aquesta xifra, quina mida hauria de ser el conjunt de dades si es vol tenir el millor de tots els mons. Amb un enfocament més matisat, els hospitals i altres institucions estaran més ben equipats per fer anàlisis de costos i beneficis per veure si seria útil obtenir més dades.

També es pot provar obtenir dades addicionals dels  participants existents. Tanmateix, això tampoc millorarà les coses si les dades addicionals no són realment rellevants, com ara estadístiques sobre l'alçada de les persones per a un estudi sobre el coeficient intel·lectual. La pregunta llavors es converteix en: com identificar quan i per a qui s'ha de recollir més informació?

Resultat d'imatges de How to make AI less biased

Un mètode és identificar els grups de pacients amb precisió i amb altes disparitats. Per als pacients de la UCI, un mètode de clusterització en el text anomenat modelatge de temes, mostrava que els pacients amb malaltia cardíaca i amb càncer tenien grans diferències racials en la precisió. Aquesta troballa podria suggerir que si es fan més proves  diagnòstiques per a pacients amb malaltia cardíaca o amb càncer, podrien reduir les diferències racials en la precisió.

L'equip  va presentar recentment el document  a la conferència anual sobre els sistemes de processament de la informació neuronal (NIPS) a Montreal.

Font: Massachusetts Institute of Technology