Open AI transcribió sin autorización más de un millón de horas de contenido de YouTube para entrenar a GPT4

Los chatbots y los grandes modelos de lenguaje (LLM) requieren de una gran cantidad de datos constantes para su entrenamiento y los creadores de estos modelos de IA han utilizado todo tipo de recursos para entrenarlos, pero estos (sobre todo los de calidad) no son infinitos. En este sentido, una reciente investigación de Los New York Times ha revelado que el Los investigadores de Open AI agotaron las reservas de texto en inglés fuentes confiables de Internet a finales de 2021, con lo que debían buscar la manera de seguir alimentando el modelo y afinarlo.

Para resolver este problema, los investigadores de Open AI decidieron desarrollar “Susurro”un modelo de audio a texto, que habrían utilizado para transcribir audio de vídeos de YouTube. Obteniendo así acceso a miles de textos “nuevos”. De esta forma utilizaron la herramienta para transcribir más de un millón de horas de audio. y entrenar GPT4su modelo de generación de texto más avanzado.

YouTube considera que OpenAI ha violado sus términos de servicio

El controversia de la situación se centra en si OpenAI ha violado la Derechos tanto de YouTube como plataforma como de los creadores de contenidos. quien lo usa. De hecho, las fuentes consultadas por The New York Times aseguraron que el equipo creativo de Susurroque incluía a Greg Brockman, presidente de OpenAI, tuvo un debate interno sobre si extraer texto de videos de YouTube era una violación de los términos de uso de la plataforma.

Lindsay Heldportavoz de OpenAI, envió un correo electrónico al medio El bordeen el que se asegura que la empresa seleccionar conjuntos de datos «único» para cada uno de sus modelos y así «Ayuda a tu comprensión del mundo.». Además, añade que utilizan «numerosas fuentes, incluidos datos disponibles públicamente, al tiempo que se realizan acuerdos para obtener datos no públicos».

Por su parte, Matt BryantEl portavoz de Google, también ofreció una entrevista a dicho medio e indicó que «tanto nuestros archivos robots.txt como nuestros términos de servicio prohibir la extracción o descarga no autorizada de contenido de YouTube». Similarmente, Neal MohanEl CEO de YouTube, aseguró que si Open AI ha utilizado el vídeo de YouTube para entrenar su modelo realista de generación de vídeo, Sora, es un clara violación de los términos de servicio.

Ética dentro de la privacidad de datos

Como sabemos, los derechos de autor de la IA y la privacidad de los datos digitales caen en un área gris de regulaciones que, a pesar de los esfuerzos de muchos gobiernos (como el europeo con su RGPD), todavía presenta muchos vacíos legales para resolver.

A pesar del enojo latente por parte de Google y YouTube porque Open AI usó los datos de la plataforma de video para entrenar GPT-4, la investigación del New York Times reveló que Google también ha utilizado transcripciones de vídeo. para alimentar sus propios modelos de generación de textos, lo que también vulnera los derechos de los creadores de contenidos.

Bryant aseguró que la empresa ha entrenado a sus modelos «con algún contenido de YouTubede acuerdo con nuestros acuerdos con los creadores de YouTube. De hecho, The New York Times informó que el departamento legal de Google pidió al equipo de privacidad de la compañía que modificara su política de privacidad para ampliar el uso que podían hacer de los datos de los usuarios.

Por otro lado, Meta también enfrentó datos de entrenamiento limitados para su modelo de lenguaje Llama 2, por lo que el año pasado los directores discutieron comprar la editorial Simon & Schuster y acceder a material de formato largo, según el periódico.

A raíz de las múltiples demandas producidas en materia de derechos de autor y privacidad de datos, una opción a tener en cuenta sería negociar licencias con creadores utilizar sus datos sin implicaciones legales, incluso si esto lleva más tiempo.

Foto: generada a través de GPT4

Mantente informado de las noticias más relevantes en nuestro canal Telegrama

Post navigation

Mitos y realidades sobre los hábitos de consumo de la Generación Z
Las youtubers de moda españolas más influyentes (2024)