Durante la primera quincena de mayo hemos realizado nuestro primer entrenamiento utilizando el modelo de Whisper y los datos de audio capturados previamente para el fine-tuning.
(“El modelo Whisper es una herramienta de IA que se utiliza para transcribir de audio a texto”)
Nuestro objetivo principal ha sido asegurarnos de que nuestros datos de audio se han preparado correctamente para que el modelo Whisper pueda reconocerlos y transcribir esos audios. Además, hemos evaluado el tiempo que toma en entrenar el modelo y cuál es su eficacia a la hora de hacer transcripciones.
Durante estas dos semanas hemos entrenado el modelo Whisper utilizando nuestro conjunto de
datos. Probamos diferentes versiones del dataset el “small” el “medium” y el “large” y recogimos
datos sobre cuánto tiempo toma entrenarlos.
Tuvimos la idea de rediseñar un poco la interfaz y hacerla un poco más interactiva para que facilitara a las personas subir sus audios o grabar su voz en tiempo real. Después de realizar la prueba, verificamos los resultados de la transcripción generada por el modelo. Esto nos da una primera impresión de la precisión del
modelo con nuestros datos.
Tras cargar el modelo Whisper y nuestro conjunto de datos, ajustamos los audios a una frecuencia específica para poder manejarlos mejor.
Hicimos nuestra primera prueba con un audio y comprobamos cómo se comporta el modelo.
Para finalizar, reproducimos el audio y le pedimos al modelo que lo transcribiera para ver si estaba todo correcto.
Como conclusión este ejercicio nos ha ayudado a entender mejor cómo preparar y utilizar datos de audio para entrenar modelo de reconocimiento automático del habla. También hemos evaluado la eficiencia y precisión del modelo Whisper con nuestros datos específicos.
Alumnado del curso de especialización en Inteligencia Artificial y Big Data del IES Severo Ochoa de Elche. Mayo 2024.
Deja una respuesta