Ramon

Ramon
Ramon Gallart

divendres, 5 d’octubre del 2018

Model que ajuda als robots a navegar com ho farien els humans

Quan es mou a través d'una multitud per arribar a un objectiu final, els humans normalment poden navegar l'espai de manera segura sense pensar massa. Poden aprendre del comportament dels altres i assenyalar els obstacles que cal evitar. Els robots, d'altra banda, lluiten amb conceptes de navegació.

Els investigadors del MIT ja han elaborat una forma d'ajudar els robots a navegar per entorns més com els humans. El seu nou model de planificació de moviment permet que els robots determinin com assolir un objectiu explorant el medi ambient, observant altres agents i explotant el que han après abans en situacions similars. Un document que descriu el model es va presentar a la IEEE / RSJ International Conference on Robots i Sistemes Intel·ligents (IROS) d'aquesta setmana.

Els algorismes de planificació de moviments populars crearan un arbre de possibles decisions que es ramifiquen fins que trobi bons camins per a la navegació. Un  que necessiti navegar per arribar a una porta, per exemple, crearà un arbre de cerca pas a pas dels possibles moviments i, a continuació, executarà el millor camí cap a la porta, considerant diverses restriccions. Un dels inconvenients, però, és que aquests algoritmes rares vegades aprenen: els robots no poden aprofitar informació sobre com ells o altres agents actuaven prèviament en entorns similars.
"Igual que quan es juga als escacs, aquestes decisions s'aproximen fins que [els robots] troben una bona forma de navegar. Però, a diferència dels jugadors d'escacs, [els robots] exploren el que sembla el futur sense aprendre molt sobre el seu entorn i altres agents", diu el coautor Andrei Barbu, investigador del Laboratori d'Informàtica i Intel·ligència Artificial del MIT (CSAIL) i el Centre de Cervells, Ments i Màquines (CBMM) al McGovern Institute del MIT. "La mil·lèsima vegada que passen per la mateixa multitud és tan complicada com la primera vegada. Estan explorant, rares vegades observant i mai utilitzant el que va passar en el passat".

Els investigadors han desenvolupat un model que combina un algoritme de planificació amb una  que aprèn a reconèixer els camins que podrien donar lloc al millor resultat i utilitza aquest coneixement per guiar el moviment del robot en un determinat entorn.

Els investigadors han demostrat els avantatges del seu model en dos escenaris: 
1.- Navegar per les habitacions evitnat trampes i passos estrets.
2.- Navegar per zones evitant col·lisions amb altres coses.

Una prometedora aplicació en el món real serà ajudar a vehícles navegar per les interseccions, on han d'avaluar ràpidament el que altres haurien de fer. Actualment, els investigadors treballens amb aquestes solucions en el Centre de Investigacions Conjuntes de Toyota-CSAIL.
Quan els humans interactuen amb un objecte, es pot veure la seva posició de manera que es sap com actuar per evitar-lo. Llavors, la idea que hi ha darrere d'aquest treball és afegir a l'espai de cerca, un model d'aprenentatge automàtic que ha aprés des de l'experiència passada.
Negociació d'exploració i explotació
Els planificadors del moviment tradicionals, exploren un entorn mitjançant lqa ràpida expansió d'un arbre de decisions que eventualment manté un espai sencer. El robot després mira l'arbre per trobar una manera d'arribar a la meta. El model dels investigadors, però, ofereix un intercanvi entre explorar el món i explotar el coneixement passat.
El procés d'aprenentatge comença amb alguns exemples. Un robot que utilitza el model està format de maneres diferents de navegar per entorns similars. La xarxa neuronal aprèn el que fa que aquests exemples triomfin interpretant l'entorn del robot, com la forma de les parets, les accions d'altres agents i les característiques dels objectius. En resum, el model, s'assabenta que quan s'està atrapat en un entorn i es veu una porta, probablement, la millor opició sigui sortir per aquesta.
El model combina el comportament d'exploració amb els mètodes anteriors donada aquesta informació apresa. El planificador subjacent, anomenat RRT *, va ser desenvolupat pels professors del MIT, Sertac Karaman i Emilio Frazzoli. (Es tracta d'una variant d'un algoritme de planificació de moviments àmpliament conegut com Rapidly-exploring Random Trees o RRT). El planificador crea un arbre de cerca mentre que la xarxa neuronal reflecteix cada pas i fa prediccions probabilístiques sobre el lloc on ha d'anar el robot. Quan la xarxa fa una predicció amb gran confiança, basada en la informació apresa, guia el robot per un nou camí. Si la xarxa no té molta confiança, permet al robot explorar el medi, com ho faria un planificador tradicional.
Per exemple, els investigadors van demostrar que, el model en una simulació coneguda com "trampa d'errors", on un robot de 2-D ha d'escapar d'una cambra interior a través d'un canal central estret  i arribar a una ubicació en una habitació més gran que l'envolta. En aquesta simulació, el robot es va entrenar amb alguns exemples de com escapar de diferents trampes. Quan s'enfronta amb una nova trampa, reconeix característiques de la trampa, escapa i continua buscant el seu objectiu a la sala més gran. La xarxa neuronal ajuda al robot a trobar la sortida de la trampa, identificar els extrems sense sortida, i li dóna al robot un sentit del seu entorn perquè pugui trobar ràpidament l'objectiu.
Els resultats, es basen en les probabilitats de que es trobi una ruta transcorreguda durant un cert temps, la longitud total de la ruta i la coherència de les rutes. En ambdues simulacions, el model dels investigadors va representar més ràpidament trajectes molt més curts i consistents que els planificadors tradicionals.


Treballant amb múltiples agents
En un altre experiment, els investigadors van entrenar i provar el model en entorns de navegació amb múltiples agents mòbils, que és una prova útil per als automòbils autònoms, especialment per a la navegació per interseccions i rotondes. En la simulació, diversos agents estaven circulant de manera que un determinat agent robot, ha de navegar amb èxit amb els altres agents, evitar col·lisions i arribar a una ubicació d'objectiu, com podria ser, una sortida en una rotonda.

Les situacions com serien les rotondes són difícils, perquè requereixen un raonament sobre com els altres respondran a les accions, que faran a continuació, etc. Finalment descobrirà que la seva primera acció va ser incorrecta, perquè més endavant donarà lloc a un possible accident. Aquest problema es torna exponencialment pitjor amb els cotxes que cal evitar.
Els resultats indiquen que el model dels investigadors pot capturar prou informació sobre el comportament futur dels altres agents (automòbils) per eliminar el procés abans d'hora, tot i que segueix prenent bones decisions en la navegació. Això fa que la planificació sigui més eficient. A més, només necessitaven formar el model per alguns exemples de rotondes amb només  pocs cotxes. Els plans que fan els robots tenen en compte el que faran els altres cotxes, com qualsevol altre humà ho faria.

Passar per les interseccions o rotondes és un dels escenaris més difícils d'afrontar els cotxes autònoms. Aquest treball podria un dia permetre als cotxes conèixer com es comporten els éssers humans i com adaptar-se als conductors en diferents entorns, segons els investigadors. Aquest és el focus del treball del Joint Research Center de Toyota-CSAIL, ja que, no tothom es comporta de la mateixa manera, però la gent és molt estereotipada: hi ha persones que són tímides, persones que són agressives. El  reconeix ràpidament i és per això que es pot planificar eficaçment.
Font: Massachusetts Institute of Technology