Transcribir audio de un vídeo a texto con Inteligencia Artificial con OpenAI y Make

Transcribir audio de un vídeo a texto con Inteligencia Artificial con OpenAI y Make

Pablo Pérez-Manglano

Pablo Pérez-Manglano

Cofounder & CMO

Cofounder & CMO

Oct 29, 2024

Oct 29, 2024

Los límites de la inteligencia artificial están todavía por explorar. Lo que sí puedo decirte, a día de hoy, es qué diabluras podemos hacer ya. Y esto es imparable.

Todos sabemos del archiconocido Chat GPT. También hemos oído hablar de la tecnología que hay detrás de él, con OpenAI como responsable.

Los modelos de inteligencia artificial que nos llegan desde OpenAI son una auténtica burrada y hoy quiero hablarte de uno que, quizás, es menos conocido para el público mainstream. Se trata de Whisper, una tecnología con la que vas a poder hacer transcripciones de un audio a texto y también hacer traducciones de audio.

Esta tecnología es una auténtica locura. Una barbaridad. Un salvavidas muy bestia que va a vitaminar, y mucho, nuestras campañas de contenido.


¿Qué es Whisper?

Whisper es una tecnología de OpenAI. Un modelo que nos permite, a través de un archivo que contenga audio (en formatos mp3, mp4, mpeg, mpga, m4a, wav, o webm), transcribirlo o traducirlo.

De momento, eso sí, la traducción sólo la podemos hacer al inglés. Pero la transcripción de audio funciona que es una locura.

Lo que necesitamos es tener el archivo en el formato que indicaba anteriormente y pasárselo a OpenAI. Eso sí, el tamaño máximo de este archivo no podrá superar los 25 MB.


¿Cómo podemos conectarnos a Whisper con Make?

Para poder usar Whisper, sólo podemos hacerlo mediante llamadas a la API de OpenAI. Por tanto… o bien eres programador o, como en nuestro caso, vamos a conectarnos a través de Make.

Para hacerlo, vamos a necesitar, como mínimo, un escenario como el que ves en la imagen de debajo.

El primer módulo captura el archivo que vamos a pasarle a OpenAI para que analice. Por ejemplo lo podemos sacar de Google Drive, si lo tenemos almacenado ahí. En el segundo, nos conectamos a la API de OpenAI para que analice ese audio y lo convierta a texto.

Te preguntarás aquí… ¿por qué no usas el módulo nativo de OpenAI que tiene Make? En el momento en el que escribo este artículo la opción de conectarse a Whisper no está disponible dentro de las opciones nativas de OpenAI, ni siquiera en el módulo de “Make an API call”, que puedes ver en la imagen siguiente, porque no permite que subir el archivo que necesitamos para que lo analice.

Empezamos el proceso. Vamos a meter un vídeo en nuestra carpeta de Google Drive. Recuerda que no debe de pesar más de 25MB.

Después lo buscamos dentro de nuestro Google Drive con el módulo “Download a File”.

‍El siguiente paso es insertar un módulo HTTP de “Make a request”. Vamos a indicarle la URL de la llamada, que podrás encontrar en la documentación de OpenAI (https://platform.openai.com/docs/api-reference/audio)

La URL de la petición es https://api.openai.com/v1/audio/transcriptions y el método de llamada es POST.

Como ves en la documentación de la API, necesitamos indicar, en el header, la autorización para que la API se conecte. Lo hacemos con el método Bearer seguido de nuestra clave API key de OpenAI.

En el Body type le indicamos que es multipart/form-data. A partir de aquí necesitamos dos fields: el archivo en sí del que vamos a extraer el audio (poniendo como tipo de campo “File”) y el modelo de Inteligencia Artificial que vamos a usar (con tipo de campo Text), en este caso Whisper-1. Puedes ver cómo queda en la imagen siguiente:

‍Por último, necesitamos que la respuesta salga parseada. Se lo indicaremos en la parte inferior de los ajustes del módulo.

‍Una vez hecho todo esto… ahora toca probar el escenario. Lo ejecutamos y… ahí tenemos la respuesta. Audio transcrito.

‍Podemos ser mucho más precisos si, por ejemplo, añadimos parámetros a la solicitud como la temperatura, que es el grado de aleatoriedad que puede tener la transcripción.

Traducimos el texto generado al inglés

Una vez tenemos la transcripción… vamos a traducirla al inglés. ¿Cómo? Pues podemos usar el mismo modelo de Whisper, analizando el audio y traduciéndolo. También podríamos llamar directamente al modelo GPT y que nos haga esa traducción en base al texto que hemos sacado.

Pero aquí estamos probando el modelo Whisper, así que vamos a optar por la primera. Simplemente cambiamos la llamada a “translations”.

Y aquí tenemos el resultado:

¿Te das cuenta de la potencia de esto y de las maravillas que podemos hacer insertándola en escenarios de automatización muchos más complejos?

Pues casos de uso y mucho más sobre IA lo tienes en la Buildt Academy. ¡Nos vemos por allí!

Cambia tu vida, aprende NoCode

Tu camino hacia la mejor formación de vanguardia empieza aquí

Cambia tu vida, aprende NoCode

Tu camino hacia la mejor formación de vanguardia empieza aquí

Cambia tu vida, aprende NoCode

Tu camino hacia la mejor formación de vanguardia empieza aquí

Post relacionados