Mentes Artificiales #9 - ¿Ha usado Google o Facebook tu web para entrenar sus modelos de lenguaje?

Te traigo una herramienta para comprobarlo, y todas las noticias de la semana. ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌

Para ver esta newsletter en tu navegador, haz clic aquí

Edición #9 · Miércoles 19 de abril de 2023 · Por Juan González Villa

Ya somos 776 entusIAstas

Human-Computer. Tema de la semana: ¿Qué datos han usado Google, Facebook y otras empresas para entrenar sus modelos?
Resumen artificial: otras noticias destacadas de la semana
Hacer cosas: guías, recursos, tutoriales, herramientas, scripts y todo lo que necesitas para dominar la IA

¿Te gustaría saber si tu web ha sido usada para entrenar modelos de IA como T5 de Google, o LLaMA de Facebook? 💡

Pues tenemos una herramienta para consultarlo. E incluso podremos saber qué porcentaje de tokens del total se han tomado de cada web incluida en la base de datos.

Empecemos por el principio. C4 es un corpus con textos extraídos de millones de webs en abril de 2019.

Este rastreo es obra de Common Crawl, organización sin ánimo de lucro que cada dos meses crea una "copia" de una parte representativa de internet, pública y disponible para el que quiera consultarla.

Como he dicho, tanto Google como Facebook usaron C4, que sale de un rastreo concreto de Common Crawl, para entrenar algunos de sus modelos.

¿Y OpenAI? Sabemos que OpenAI también usó Common Crawl para entrenar a GPT-3 (confirmado, aunque no sabemos exactamente qué parte) y presumiblemente también lo ha usado para GPT-4, aunque en este caso no tenemos confirmación, ya que ha sido totalmente opaco con los datasets de entrenamiento.

Aún sin tener más detalles, podemos decir que C4 probablemente será bastante similar en su composición al dataset de Common Crawl usado para GPT-3.

Por supuesto, todos los modelos usan fuentes adicionales en su entrenamiento, pero nos sirve para tener una idea del contenido procedente de internet que han usado.

Y ahora a la herramienta: el Washington Post ha publicado un artículo muy completo analizando la composición de este corpus, y lo mejor es que incluye un buscador donde puedes comprobar si tu sitio, o el que tú quieras, está presente en C4 y en qué proporción.

Las webs más usadas dentro de C4 son, en este orden, el directorio de patentes de Google, Wikipedia, Scribd y el New York Times.

En cuanto a temáticas, las principales son Negocios/Industrial con un 16% del contenido, Tecnología con un 15% y Noticias con un 13%, pero claro, casi siempre a partir de webs en inglés.

C4 se centra en textos en inglés "natural y de calidad", por lo que las webs en español y en otros idiomas están muy poco representadas.

La más alta que he encontrado en el ranking es El País, con un 0,0004% de los tokens (y un puesto 26.649 en el ranking).

En fin, ¿por qué es importante esto (aún cuando no se trata del dataset de entrenamiento de ChatGPT, que está en boca de todos)?

Porque aporta transparencia sobre la procedencia concreta de los datos, que es algo que hasta ahora se está echando un poco de menos.

Como se supo hace unos días, la UE prepara algunas medidas "duras" de cara a ChatGPT y similares, y entre ellas podría estar la obligación de revelar si se han usado datos con copyright, para en su caso poder establecer una compensación a los propietarios de los datos.

Puede que de aquí en adelante veamos más iniciativas de este tipo, e incluso que sea requisito legal para poder comercializar o hacer público un chatbot.

Y esto nos lleva al problema de la compensación, que creo que va a ser importante en los próximos meses: es decir, ¿qué ofrecen las empresas como OpenAI a cambio de usar los datos de una web para entrenar sus modelos?

Por un lado está el precedente de iStock, que ha demandado a Stable Diffusion por usar imágenes de su colección (con marca de agua y todo) en su entrenamiento.

Y hace nada, hemos sabido que Reddit hará su API de pago, para forzar a pagar a cualquiera que quiera entrenar un modelo con sus datos:

https://www.nytimes.com/2023/04/18/technology/reddit-ai-openai-google.html

¿Será pronto esta la tónica habitual? ¿Afectará esto a Google buscador? En principio, Google "recompensa" a las webs cuyo contenido indexa enviando tráfico, y ese tráfico puede llegar a tener mucho valor. ChatGPT, en cambio, no envía ningún tráfico.

Y la situación puede hacerse más compleja si crece el uso de Bing Chat, que ya envía "algún" tráfico hacia webs (pero menos que un buscador tradicional), y sobre todo si Google integra chatbot en sus resultados (quizá en mayo).

¿Qué harán los publishers entonces? 🤔

Stable Diffusion lanza su primer modelo de texto, capaz de generar tanto lenguaje natural (también en español) como código. Acaba de salir, pero por lo pronto promete. Ya dije en la última edición que poco a poco irían llegando modelos Open Source cada vez más potentes.

Bloomberg revela sus planes para BloombergGPT, su modelo entrenado con datos financieros: lo integrará directamente en su terminal, su principal producto para entidades financieras e inversores.

Al mismo tiempo, surge un modelo Open Source que tiene exactamente el mismo objetivo: AskOBB, dentro de Open BB Terminal.

Muy buena explicación sobre cómo funciona ChatGPT y si tiene una mente e ideas propias (spoiler: no).

ArxivGPT es un bot de Twitter que publica resúmenes de los papers que se publican sobre IA cada día. Puede ser una buena forma de estar al día.

Google revela planes para lanzar un buscador totalmente nuevo e impulsado por IA a largo plazo, y de cara al futuro inmediato (se cree que mayo) tiene a 160 personas trabajando para integrar funcionalidades de chatbot en el actual buscador (lo que internamente han llamado Projecto Magi)

Puedes mandarme tu feedback, proponer artículos o temas para próximas ediciones o incluso hablarme de patrocinios, contestando a este email. :)

Soy Juan González Villa, consultor SEO y director de la agencia USEO, especializada en ecommerce y proyectos internacionales.

Estás en esta lista porque te interesa la inteligencia artificial y porque has pasado las 12 pruebas que pone el RGPD para pertenercer legalmente a una lista de email en la UE.

Contenidos:

HUMAN-COMPUTER

¿De dónde vienen los datos de los LLMs? El "melón" de la compensación

¿Te está gustando esta edición?
No te la guardes y comparte:

RESUMEN ARTIFICIAL

HACER COSAS

¿Aún no estás suscrito?

¿Te ha gustado esta edición?

¿Quién hace Mentes Artificiales?