Whisper de OpenAI puede inventar información en transcripciones de audio
Introducción a Whisper
Whisper, una herramienta de reconocimiento y transcripción de habla artificial de OpenAI, lanzada en 2022, ha sido encontrada para «alucinar» o inventar información, lo que ha generado preocupación entre los expertos sobre el daño que podría causar en contextos inapropiados.
Hallucinaciones en transcripciones
Un investigador de la Universidad de Michigan encontró alucinaciones en ocho de cada diez transcripciones de audio que inspeccionó, producidas por Whisper durante un estudio de reuniones públicas. Otro ingeniero que revisó 100 horas de transcripciones de Whisper encontró alucinaciones en aproximadamente el 50% de ellas, mientras que otro desarrollador descubrió alucinaciones en casi todas las transcripciones que generó utilizando Whisper, que totalizan 26.000.
Uso de Whisper en diferentes industrias
OpenAI afirma que Whisper, una red neuronal de código abierto, «se acerca al nivel de robustez y precisión humano en el reconocimiento de habla en inglés». Se ha integrado ampliamente en varias industrias para tipos comunes de reconocimiento de habla, incluyendo la transcripción y traducción de entrevistas y la creación de subtítulos de video.
Riesgos de las alucinaciones
El nivel de ubicuidad de Whisper podría propagar rápidamente texto fabricado, citas mal atribuidas y otra información errónea a través de varios medios, lo que puede variar en importancia según la naturaleza del material original. Según la AP, Whisper se ha incorporado en algunas versiones de ChatGPT, se ha integrado en centros de llamadas, asistentes de voz y plataformas en la nube de Oracle y Microsoft, y se descargó más de 4,2 millones de veces el mes pasado desde HuggingFace.
Uso en la industria médica
Lo que es aún más preocupante, los expertos dicen que los profesionales médicos están utilizando cada vez más herramientas basadas en Whisper para transcribir consultas entre pacientes y médicos. La AP entrevistó a más de 12 ingenieros, investigadores y desarrolladores que confirmaron que Whisper inventó frases y oraciones completas en el texto de transcripción, algunas de las cuales «pueden incluir comentarios racistas, retórica violenta e incluso tratamientos médicos imaginarios».
Consecuencias y soluciones
«Nadie quiere un diagnóstico erróneo», dijo Alondra Nelson, profesora del Instituto de Estudios Avanzados. OpenAI puede no haber recomendado el uso de Whisper en casos médicos, pero poner la herramienta en el mercado y promocionar su precisión significa que es probable que sea adoptada por varias industrias que intentan agilizar el trabajo y crear eficiencias en todas partes, sin importar los posibles riesgos.
Problemas más amplios en la industria del AI
Los hallazgos de los investigadores indican un problema más amplio en la industria del AI: las herramientas se lanzan al mercado demasiado rápido por ganancias, especialmente mientras que Estados Unidos aún carece de regulaciones adecuadas sobre AI. Esto también es relevante considerando el debate en curso de OpenAI sobre si debe ser una organización con fines de lucro o sin fines de lucro, y las recientes predicciones de su liderazgo que no consideran los riesgos del AI.
Conclusiones y recomendaciones
En resumen, Whisper ha demostrado tener un problema significativo con las alucinaciones, lo que puede tener consecuencias graves en contextos como la industria médica. Es importante que OpenAI aborde este problema y que los usuarios sean conscientes de los riesgos potenciales al utilizar herramientas de transcripción de AI. Mientras tanto, se recomienda probar Otter.ai, una herramienta de transcripción de AI de confianza para periodistas, que acaba de agregar seis nuevos idiomas. Es crucial revisar y editar las transcripciones para garantizar la precisión, especialmente en tareas críticas o conversaciones importantes.