Google explicó los detalles del funcionamiento de la tecnología de aprendizaje automático que emplea su aplicación grabadora Recorder. La herramienta está presente en los teléfonos Pixel y permite transcribir automáticamente a texto una conversación grabada en audio.
Recorder no requiere de conexión a Internet y emplea el aprendizaje automático para varias funciones. Entre ellas incluye la capacidad de identificar el tipo de audio (música, habla o sonidos como aplausos, risas o silbidos).
La herramienta también indexa la información para que los usuarios puedan buscar segmentos concretos.
Google utiliza un modelo automático de reconocimiento de habla capaz de convertir en texto audios de varias horas, indexando el texto junto con marcas de tiempo. De esta manera, el usuario puede hacer clic en una palabra y volver a la parte del archivo de sonido correspondiente.
Recorder muestra las ondas de sonido en colores diferentes en función del tipo de sonido, de manera que el contenido sea visualmente más sencillo de encontrar. El azul para habla, naranja para música y gris para silbidos, entre otros. Cuando dos sonidos suenan al mismo tiempo, Google elige el color del más dominante.
Para identificar el tipo de sonidos, la compañía utilizó un tipo de redes neuronales conocidas como convolucionales (‘Convolutional Neural Networks’, o CNNs) que clasifican determinados sonidos, combinándolas posteriormente con base de datos para la detección de eventos de audio.
Google, con el objetivo de clasificar el texto, sugiere tres palabras como título justo al finalizar la grabación, seleccionando las partes que considera más importantes del discurso. Esto lo determina por la cantidad de veces que se haya repetido una palabra y por su género gramatical, priorizando los sustantivos.