Desde la creación de cámaras fotográficas ha ido progresando la capacidad de la tecnología de imitar a los humanos, así como facilitar el trabajo por medio de la inteligencia artificial, y en este camino ha sido creada la realidad aumentada para mejorar aquellas reproducciones de movimientos. Con ello, el departamento de Inteligencia Artificial de Google ha mejorado esta tecnología, permitiendo una herramienta que entienda la lengua de señas. ¿Conoces MediaPipe?
Google ha mejorado sus herramientas para evolucionar a una plataforma multidisciplinaria, recabando miles de documentos, imágenes e información que aportan a la eficiencia de los diferentes mecanismos electrónicos. Pero, cuando implementó Google Traductor impactó notablemente en la relación de los idiomas para formar un puente entre personas de varios lugares del mundo.
Por ahora, MediaPipe incluye gestos de una variedad de culturas y signos de manos como los números, el dedo hacia arriba, “OK”, “yeah”, “rock” y el gesto de “Spiderman”.
El equipo de investigadores de Inteligencia Artificial de Google ha empleado la plataforma de código abierto, MediaPipe, que es una herramienta dirigida para móviles Android, con la cual a través de la cámara percibe los movimientos y las formas de las manos por medio del aprendizaje automático, permitiendo gesticular la lengua de señas para comunicar a Google lo que se desea transmitir.
¿Cómo funciona? El sistema está basado en un rastreo de la palma y los dedos de la mano para luego detectar 21 puntos clave 3D de un solo fotograma, es una imagen cinematográfica considerada aisladamente, por lo que se divide en tres partes. Es decir, un detector de palmas que recorta la forma de la mano del fotograma, un modelo que detecta puntos de referencia en 3D de la imagen recortada y un detector de gestos que clasifica los puntos claves configurados previamente en un set de gesto.
Primero que nada, para detectar la forma de la palma de la mano emplean un modelo de detección de disparo único llamado BlazePalm, que es capaz de detectar manos tapadas o sobrepuestas y tiene una precisión del 95.7 por ciento, superando en casi diez puntos a los sistemas anteriores. En segundo lugar, tras la detección de la palma, el modelo de puntos de referencia localiza los 21 puntos clave 3D de nudillos y dedos dentro de las distintas regiones de la mano, sin importar que se encuentren cubiertos, además funciona inclusive con gestos parcialmente visibles.
Por último, el modelo aplica un algoritmo para descifrar los gestos que está realizando la mano. Primero se detecta la posición de los dedos, ya sea que esté recto o doblado. Luego, comparan el conjunto de dedos con gestos predeterminados, con el fin de identificarlo, es decir, saber exactamente cuál gesto se está haciendo.
Snapchat ya permitía la realidad aumentada, pero no tan precisa como MediaPipe
La lengua de señas funciona para que una persona con alguna discapacidad auditiva o del habla pueda comunicarse, por lo que esta tecnología se aplicará con esta finalidad. Al permitir llegar a la programación el uso de gestos para la comunicación da un paso para la inclusión, permitiendo, por ejemplo, a quienes usan la lengua de señas tener una alternativa más de interacción con la tecnología.
Aunado a esto, la plataforma deberá tener en cuenta que cada lengua de señas, dependiendo del país, es diferente. Por lo que Google tendrá que expandir su base de datos en cuanto a este tema. Por el momento no hay fecha de salida pues sigue en desarrollo. ¿Qué te parece la propuesta?
No comments