Aprendizaje reforzado: cuando las máquinas aprenden solas

Los más veteranos recordarán a Radio Futura en 1980, cuando Santiago Auserón y sus compañeros cantaban aquello de “El futuro ya está aquí”. Pues sí, parece que ese futuro es ya nuestro presente, y la robótica tiene mucho que decir en ello. La Inteligencia artificial se ha convertido en una verdadera revolución que ya forma parte de nuestro día a día, con aplicaciones que van desde la informática hasta la medicina, el transporte o la construcción. De hecho, puede que ahora estés leyendo estas líneas desde un smartphone con algún sistema de reconocimiento facial, de texto o de voz, inteligencia artificial instalada en nuestras vidas.

El ordenador Watson de IBM, ganador del concurso americano de preguntas y repuestas Jeopardy!, no es más que otro ejemplo. Un sistema que utiliza técnicas de aprendizaje superavanzadas y que hoy día está siendo entrenado para ayudar a los médicos a tomar mejores decisiones.

Lo cierto es que la tendencia es que los ordenadores acaben actuando como humanos a base de ir mejorando su algoritmo de adiestramiento hasta poder aprender por sí solos. Y ahí es donde aparece el concepto del que hablamos en este artículo, el aprendizaje reforzado, un conjunto de algoritmos que permite a los robots hacer que su comportamiento sea cada vez más autónomo. Veamos.

Sistemas de Machine Learning cada vez menos supervisados

¿Cómo aprenden las máquinas? La base está en el Aprendizaje supervisado, un tipo de aprendizaje máquina o Machine Learning en donde la máquina cuenta con un conjunto de ejemplos de los cuáles conoce de antemano la respuesta, es decir, intenta hacer predicciones a futuro basadas en comportamientos que ya ha visto y que tiene almacenados en su histórico de datos.

El increíble aumento en la capacidad de cálculo de los ordenadores ha permitido que este aprendizaje sea cada vez más preciso, y es donde nos encontramos con un concepto de ‘adiestramiento’ de inteligencia artificial mucho más avanzado: el Aprendizaje profundo que, a diferencia del anterior, implica menos supervisión humana directa.

El Aprendizaje profundo usa una gran red neuronal simulada y es capaz de reconocer patrones de comportamiento en esos datos almacenados. Los ejemplos de Aprendizaje profundo en acción más conocidos son los sistemas de reconocimiento de voz Google Now, Siri de Apple, o Cortana de Microsoft.

El Aprendizaje profundo o Deep Learning combinado con el Aprendizaje reforzado puede ser la clave para conseguir que realmente las máquinas se comporten como humanos.

La experiencia como base del Aprendizaje reforzado

Entonces, ¿pueden aprender solas las máquinas? La respuesta corta es sí, la respuesta larga nos obliga a entender qué es el Aprendizaje reforzado como sistema capaz de acelerar los procesos de automatización de un robot o un ordenador.

El Aprendizaje por refuerzo intenta conseguir que una inteligencia artificial aprenda a decidir mediante su propia experiencia. Es decir, que ante una situación determinada, sea capaz de seleccionar por sí misma la mejor acción a ejecutar en ese momento mediante un proceso interactivo de prueba y error a base de reforzar positivamente cada vez que se aproxima o logra objetivo.

Por eso, con el Aprendizaje reforzado una máquina puede tomar decisiones aunque no almacene un conocimiento a priori del entorno o de las variables que se están dando, y realizar de manera satisfactoria cuestiones abstractas más avanzadas.

La aplicación de ese aprendizaje les permite ya reconocer caras, clasificar secuencias de ADN, conducir vehículos, o hacer diagnósticos médicos. En la actualidad compañías tecnológicas punteras como Google, Apple o IBM, están invirtiendo en investigación para entrenar robots que realicen sencillas tareas mediante esta técnica.

La idea es que los robots se puedan autoprogramar mientras aprenden sobre la marcha, compartiendo además ese proceso de aprendizaje con otros robots para acelerar el proceso. Los resultados alimentarán una suerte de servidor central, una gran red neuronal con todos los comportamientos aprendidos que los redistribuye de nuevo a los robots para crear un nuevo ciclo de aprendizaje.

Aprendizaje reforzado aplicado a la conducción

Es el sueño de los que nos pasamos horas al volante, que nuestro coche aprenda a circular por sí solo. El Aprendizaje reforzado inspirado en la psicología conductual es la clave para que la conducción autónoma sea una realidad: que un coche sea capaz de entrar por sí solo en una rotonda por el sitio correcto, incorporarse a una autovía de forma segura, o saber moverse en un monumental atasco.

Llevamos varios años leyendo noticias sobre la conducción autónoma y parece que su implantación en la vida está a la vuelta de la esquina, pero aún los vehículos sin conductor a veces titubean ante situaciones complejas en las que intervienen otros conductores humanos, como incorporaciones a otras vías. Si no queremos riesgos innecesarios ni atascos, tendrán que adquirir capacidades de conducción más precisas, como ubicarse entre una multitud de coches.

Mobileye, una empresa israelí que realiza sistemas de seguridad para diversas empresas del motor, trabaja ahora mismo en una plataforma que permitirá a los fabricantes compartir los datos recopilados por sus coches autónomos, y de esta manera seguir aprendiendo de todo el entorno, ya sea de los humanos o de los vehículos que se conducen solos. Un software que acelera los procesos y resulta mucho más eficiente que si los programadores tuviesen que codificar todas estas decisiones.

La colaboración como forma de trabajo entre robots y humanos

Pero aún no ha llegado la hora de que las máquinas sustituyan a las personas, sobre todo en muchos terrenos profesionales, sino de que trabajen y mejoren juntas.

Una startup canadiense, Kindred AI, está enseñando a máquinas a realizar tareas complejas con la ayuda de “pilotos” humanosque les asisten mediante Realidad Virtual. Los robots intentan realizar una tarea, como coger un objeto, por ejemplo, y conseguir el resultado deseado mediante el aprendizaje automático. Pero cuando ninguno de sus algoritmos almacenados ofrece una solución, el robot pide asistencia humana. Es el momento en el que entra en escena una persona que emplea un hardware de realidad virtual para visualizar el reto y asumir el control de la acción temporalmente. Gracias al aprendizaje reforzado, el robot aprende lo que hace el humano y acumula esa experiencia para las próximas veces que se encuentre en esa situación.

Si en 1980 ya nos anunciaban la llegada del futuro, está claro que ya es algo imparable. Las máquinas serán nuestras aliadas en ese futuro tan cercano. Por supuesto, será nuestra labor marcar dónde queremos que lleguen.

Fuente: MIT Technology Review, Advanced Tech, Fernando Sancho Caparrini, Clever Data