Principales Indicadores Económicos Juegos Olímpicos París 2024

¿De qué páginas extrae ChatGPT la información? Esto es lo que se sabe

  • Con información de Infobae
20 de abril de 2023, 13:52
Estas son las páginas de donde la inteligencia artificial ChatGPT extrae la información que procesa. (Foto ilustrativa: computerworld.com)

Estas son las páginas de donde la inteligencia artificial ChatGPT extrae la información que procesa. (Foto ilustrativa: computerworld.com)

Esto es lo que se sabe de las páginas de donde se extra la información que procesa la inteligencia artificial como ChatGPT. 

OTRAS NOTICIAS: ¿Cómo puedes tener ChatGPT en el teclado de tu celular?

Para ejecutar los procesos, ofrecer una mejor calidad y cantidad de datos, los programas de inteligencia artificial como ChatGPT requieren grandes cantidades de información, en el caso de OpenAI, se sabe que la data proviene de millones de páginas web. 

Según una investigación realizada por The Washington Post, estas serían las páginas web que utiliza esta inteligencia artificial para "alimentarse" y poder genera las respectivas respuestas a las consultas que realizan los usuarios. 

A pesar de que no es posible identificar con exactitud cada una de las páginas web, si se puede identificar el conjunto de datos que extrae la información, no solo de esta, sino también de otras inteligencias artificiales. 

Se sabe que la información en internet está organizada en grandes conjuntos que actúan como pozos que son visitados, para sacar lo que se necesite. 

En el caso del ChapGPT, se sabe que visita el conjunto llamado C4 y que otros modelos similares para generar respuestas de consultas de internet, están compuestas por al menos 15.1 millones de sitios web. 

La investigación 

Esta investigación asegura que este conjunto de datos se encuentran en sitios web relacionados con negocios, tecnología, noticias, ciencia, arte y otras especialidades. 

Además, muchos de los contenidos que son extraídos de estos sitios están protegidos por derechos de autor, por lo que cada chatbot utiliza el conjunto C4 como fuente, lo que podría infringir esa normativa en el proceso, por una consulta eventual o en caso de que un estudiante pida que la inteligencia artificial le haga la tarea. 

Por su parte, el Instituto Allen para la Inteligencia Artificial, que también participó en la investigación, el símbolo de copyright aparece más de 200 millones de veces, en el conjunto de datos conocido como C4. 

Según las investigaciones, algunas de las páginas web de las que se extraen datos son Fool.com, Kickstarter.com, Patreon.com, en el contenido relacionado con negocios, pese a que muchos de ellos estén protegidos por derechos de autor. 

La información buscada por las inteligencias artificiales también incluyen a algunos de los medios de comunicación y sitios web de recopilación de información, pero muchos de ellos pueden ser fiables y pero no implica que no se hayan incluido fuentes que aporten datos falsos. 

Obteniendo...
Obteniendo...
Obteniendo...
Obteniendo...
Obteniendo...
Obteniendo...
Obteniendo...
Obteniendo...
Obteniendo...
cerrar