Un nou model desenvolupat pels investigadors del MIT i Microsoft, identifiquen casos en què els sistemes autònoms "han après" d'exemples de casos que no coincideixen amb el que està passant realment. Els enginyers podrien utilitzar aquest model per millorar la seguretat dels sistemes d'intel·ligència artificial, com ara vehicles sense conductor i robots autònoms.
Els sistemes d'Intel·ligència Artificial (IA), que van en els cotxes sense conductor, es formen en simulacions virtuals per preparar el vehicle per a gairebé totes les situacions que es poden trobar per la carretera. Però de vegades el cotxe fa un error inesperat perquè ocorre una situació altera el comportament de l'automòbil.
Font: Google |
Un cotxe sense conductor que no s'hagi entrenat i no necessiti els sensors necessaris per diferenciar per exemple les ambulàncies, o els senyals d'emergència de llums de les carreteres, possiblement en la situació que aquest cotxe autònom tingui de circular l'autopista i es trobi amb una ambulància amb les seves sirenes, és possible que el cotxe no sàpiga fer la maniobra de cedir el pas.
En un parell de comunicats -presentats a la conferència de l'Autoritat Autònoma i Multi-agents a l'any passat i la propera conferència Associació per a la Promoció de la Intel·ligència Artificial-, els investigadors descriuen un model que utilitza l'aportació humana per descobrir aquesta formació anomenada com els "punts cecs".
Font: Robohub.org |
El mètode, va ser validat utilitzant videojocs simulant un humà modificant la seva ruta. Però el següent pas, és incorporar el model amb enfocaments de capacitació i proves estàndards per a cotxes autònoms i robots.
Aquest model ajuda als sistemes autònoms a conèixer millor el que no saben. Moltes vegades, quan aquests sistemes es despleguen, les seves simulacions sorgides d'entrenaments, no coincideixen amb l'entorn del món real, de manera que, podrien cometre errors, com ara no evitar entrar en accidents. La idea és utilitzar els humans per superar aquesta esceltxa entre la simulació i la realitat, d'una manera segura, de manera que es puguin reduir alguns d'aquests errors.
Els autors d'ambdós treballs són: Julie Shah, professora associada del Departament d'Aeronàutica i Astronàutica i responsable del Grup de Robòtica Interactiva de CSAIL; i Ece Kamar, Debadeepta Dey i Eric Horvitz, tots ells de Microsoft Research. Besmira Nushi és coautor addicional en el proper document.
Prenent comentaris
Alguns mètodes d'aprenentatge tradicionals proporcionen comentaris personals per ser provats en entorns reals, però només per actualitzar les accions del sistema. Aquests enfocaments no identifiquen punts cecs, que podrien ser útils per a una execució més segura del món real.
L'enfocament dels investigadors posa en primer lloc un sistema d'IA a través de l'aprenentatge de simulació, on es produirà una "política" que, bàsicament, assigna cada situació a la millor acció que pot prendre en les simulacions. A continuació, el sistema es desplegarà en el món real, on els humans proporcionen senyals d'error en regions on les accions del sistema són inacceptables.
Font: IEEE spectrum |
D'altra banda, un humà pot proporcionar correccions, amb el control humà del sistema ja que actua en la realitat. Un humà podria asseure's al seient del conductor mentre el cotxe autònom es mou per la ruta planificada. Si les accions de l'automòbil són correctes, l'humà no fa res. Si les accions de l'automòbil són incorrectes, l'humà pot agafar el volant per fer saber que el sistema no actuava acceptablement en aquesta situació específica.
Una vegada que les dades dels comentaris de l'ésser humà es compilen, el sistema té essencialment una llista de situacions i, per a cada situació, diverses etiquetes que diuen que les seves accions són acceptables o inacceptables. Una sola situació pot rebre molts senyals diferents, perquè el sistema percep que moltes situacions són idèntiques. Per exemple, un cotxe autònom pot haver-se creuat al costat d'un cotxe gran moltes vegades sense desaccelerar-se. Però, en només una instància, una ambulància, que apareix exactament igual al sistema anterior, es creuarà amb ell. Per això cal que el cotxe autònom si no cedeix el pas, rebi un senyal per que fer saber que el sistema ha pres una acció inacceptable.
En aquestes situacions, el sistema ha rebut múltiples senyals contradictòries d'un ésser humà: algunes amb un cotxe gran al seu costat, però la decisió del cotxe autònom era correcte on hi havia una ambulància en la mateixa ubicació exacta. El sistema identifica que va fer alguna cosa malament, però no sap per què. Com que l'agent està rebent tots aquests senyals contradictoris, el següent pas consisteix a compilar la informació que es demana: Com és probable que es faci un error en aquesta situació on s'han rebut aquests senyals mixtes?.
Agregació intel·ligent
L'objectiu final és tenir aquestes situacions ambigües etiquetades com a punts cecs. Però això va més enllà de comprovar les accions acceptables i inacceptables per a cada situació. Per exemple: si el sistema realitzés accions correctes nou vegades de cada 10 en la situació d'ambulància, un vot de majoria simple etiquetaria aquesta situació com a segura.
Però com que les accions inacceptables són molt més rares que les accions acceptables, el sistema acabarà aprenent a predir totes les situacions com a segures les quals, poden ser extremadament perilloses.
Font: Slashgear.com |
Al final, l'algorisme produeix un tipus de "mapa de calor", on cada situació de l'aprenentatge original del sistema està assignat a la probabilitat de ser un punt cec del sistema.
Quan el sistema es desplegui en el món real, pot utilitzar aquest model aportat per actuar amb més cautela i intel·ligència. Si el model audaç, prediu que un estat és un punt cec amb alta probabilitat, el sistema pot consultar a un ésser humà per la seva validació.
Font: Massachusetts Institute of Technology
Cap comentari:
Publica un comentari a l'entrada