Blog d'en Ramon Gallart: Analiisi del llenguatge oral i les expressions facials 3D per combatre la depressió.

diumenge, 23 de desembre del 2018

Analiisi del llenguatge oral i les expressions facials 3D per combatre la depressió.

Investigadors de Stanford, recentement han explorat l'ús del deep-learning per mesurar la gravetat dels símptomes depressius mitjançant l'anàlisi del llenguatge parlat i les expressions facials en 3-D. El seu mètode multimodal, prèviament esbossat en un document publicat a arXiv, va aconseguir resultats molt prometedors, amb una sensibilitat del 83,3% i una especificitat del 82,6%.

Actualment, més de 300 milions de persones a tot el món pateixen trastorns de la depressió en diversos graus. En casos extrems, la depressió pot conduir al suïcidi, amb una mitjana d'aproximadament 800.000 persones que se suïciden cada any.

Els trastorns de la salut mental són diagnosticats actualment per un ampli ventall d'assistents sanitaris, inclosos els metges d'atenció primària, psicòlegs clínics i psiquiatres. No obstant això, detectar malalties mentals sol ser molt més difícil que diagnosticar malalties físiques.

Diversos factors, incloent l'estigma social , el cost del tractament i la disponibilitat, poden evitar que els individus afectats busquin ajuda. Actualment, els investigadors estimen que el 60% dels afectats per malalties mentals no reben tractament.

El desenvolupament de mètodes que detectin de manera automàtica els símptomes depressius, podrien millorar la precisió i la disponibilitat d'eines de diagnòstic, que condueixen a intervencions més ràpides i eficients. Un equip d'investigadors de Stanford ha investigat recentment l'ús del deep-learning per mesurar la gravetat dels símptomes depressius.

En aquest treball, es presenta un mètode de deep-learning per mesurar la gravetat dels símptomes depressius. Aquest mètode multimodal utilitza expressions facials en 3D i llenguatge oral, comunament disponibles a partir dels telèfons mòbils moderns.

En general, el model és una Convolutional Neural Network ( CNN )causal. L'entrada del model és: l'àudio, l'escaneig facial en 3D i el text. La incrustació de la frase multimodal s'alimenta a un classificador de depressió i al model de regressió de PHQ.
Font: Haque et al.

Els individus deprimits sovint presenten una sèrie de símptomes verbals i no verbals, incloent-hi el to monòton, la reducció de la velocitat de l'articulació, el volum inferior de parla, menys gestos i més mirades cap avall. Una de les proves més comunes per avaluar la gravetat dels símptomes de depressió és el qüestionari de salut del pacient (PHQ).

El mètode ideat pels investigadors analitza les pistes d'àudio de la veu dels pacients, el vídeo en 3-D de les seves expressions facials i les transcripcions de text de les seves entrevistes clíniques. A partir d'aquestes dades, el model produeix una puntuació de PHQ o una etiqueta de classificació que indica un trastorn depressiu major.

Resultat d'imatges de Analyzing spoken language and 3-D facial expressions to measure depression severity

En una avaluació inicial, el model va aconseguir un error mitjà de 3,67 punts (15,3% relatiu), en l'escala PHQ, detectant trastorn depressiu major amb 83,3% de sensibilitat i 82,6% d'especificitat. Els investigadors van optar per recollir les dades utilitzades en el seu estudi a través d'entrevistes entre humans i ordinadors, en comptes de les entre humans.

En comparació amb un entrevistador humà, la investigació ha demostrat que els pacients presenten menys por a la divulgació i mostren més intensitat emocional quan conversen amb un avatar. A més, la gent experimenta beneficis psicològics per revelar experiències emocionals als xats.

En el futur, aquest nou mètode de deep-learning es podria desplegar als telèfons intel·ligents de tot el món, ajudant a la missió de fer que l'atenció mèdica sigui més econòmica i més accessible. Segons els investigadors, el seu model està dissenyat per augmentar i complementar els mètodes clínics existents, en comptes d'emetre diagnòstics formals.

Això repersenta que és un mètode de deep-learning multimodal que combina tècniques del reconeixement de veu, la visió per computadora i el processament del llenguatge natural. S'espera que aquest treball inspiri als altres per construir eines basades en la IA per comprendre trastorns de la salut mental més enllà de la depressió.

Font: Universitat de Stanford

Cap comentari:

Publica un comentari a l'entrada