Convertir una Fuente de Datos Pública en un Feed Mensual de 29 Euros

Cuadrícula de datos en portátil y hojas de cálculo anotadas que representan el scraping de datos de nicho y su reventa

Vender datos como suscripción es el proyecto de IA más aburrido que he ejecutado, y es el que genera el margen más limpio. El producto no es un chatbot llamativo, es una hoja de cálculo que se actualiza según una programación y llega al buzón o la API del comprador. El crawler es pequeño, el filtro legal es estricto y la lista de clientes es corta y fiel. Lo construí en cuatro fines de semana y lleva funcionando prácticamente sin tocar durante cinco meses. Así elijo el nicho, cómo lo mantengo legal y cómo consigo los primeros clientes de pago.

El test de nicho, antes de ningún código

Un feed de datos vendible tiene tres propiedades: la fuente es pública, los datos cambian con suficiente frecuencia para justificar una suscripción y los compradores ya están pagando a alguien por una versión más tosca de lo mismo. Desecho cualquier candidato que falle en una sola de estas. Hago la lista corta publicando un pitch de dos líneas en foros del sector y pequeños subreddits, el mismo filtro que uso para mi suscripción de chatbot de IA. Si no obtengo al menos cuatro respuestas serias en 72 horas, el nicho muere en el acto. Construir un feed que nadie pidió es el fallo que me niego a repetir.

La lista de comprobación legal que nunca cruzo

Este es el paso que mata la mayoría de proyectos, y con razón. Antes de escribir una sola línea de código del crawler, respondo cinco preguntas sobre la fuente. ¿Están los datos detrás de un inicio de sesión? ¿Prohíben los términos de servicio el acceso automatizado? ¿Excluye el robots.txt las rutas que quiero? ¿Supera mi velocidad de rastreo lo que haría un agente de usuario educado? ¿Expone el resultado datos personales de una forma que el editor original no hace? Si cualquier respuesta resulta incómoda, paso al siguiente candidato. Guardo un registro escrito por fuente, fechado, para que si alguna vez surge una disputa pueda demostrar la comprobación. La higiene legal aquí se solapa con el rastro de papel que mantengo en los flips de dominios; la documentación aburrida te salva más adelante.

La pila, deliberadamente pequeña

Un VPS pequeño a 6 euros al mes, Python con requests y selectolax para el parseo, SQLite para el estado, un pool de proxies residenciales rotativos a 15 euros al mes, un único cron job cada 60 minutos. Sin Kafka, sin colas, sin microservicios. El coste total de infraestructura es de 21 euros al mes. La IA entra en exactamente dos puntos: primero, redactar los selectores de extracción a partir de una página de muestra, lo que ahorra unas tres horas; segundo, normalizar campos de texto libre desordenados como nombres de empresas y ubicaciones. El crawler en sí tiene 380 líneas de Python determinista. Código aburrido, fácil de depurar a las once de la noche cuando algo falla.

  1. Obtener la página de listado, comparar con la última instantánea, extraer las URLs de nuevos elementos.
  2. Obtener cada nuevo elemento, parsear los campos, validar los tipos.
  3. Normalizar el texto libre con una llamada LLM barata, limitando el coste a 0,002 euros por fila.
  4. Deduplicar contra SQLite por hash del payload normalizado.
  5. Añadir al CSV diario, enviar a suscriptores por correo más un pequeño endpoint JSON.

Precio, empaquetado y los primeros 14 compradores

Fijé el precio en 29 euros al mes desde el primer día, sin prueba gratuita. Una prueba gratuita habría traído curiosos, y este producto sobrevive gracias a compradores que ya conocen el problema. Los tres primeros suscriptores vinieron del mismo foro donde probé el pitch. Los siguientes ocho vinieron de un único lote de correos en frío que envié a 40 pequeñas agencias que claramente hacían el mismo trabajo de forma manual. La tasa de respuesta fue del 28 %, y la tasa de cierre sobre las respuestas, del 25 %. Los tres restantes me encontraron a través de búsquedas tras dos artículos cortos que publiqué. Ingresos al mes cinco: 406 euros mensuales; costes, 21 euros de infraestructura más unos 85 euros de tokens y proxies en el mes más intenso; margen neto, unos 300 euros. Eso es un margen del 74 % en un producto que me ocupa unas 90 minutos semanales de mantenimiento. La economía unitaria se parece más a mi newsletter de pago que a la mayoría de los wrappers de IA.

El mantenimiento: la parte que nadie muestra en una página de ventas

Cada martes por la tarde abro el panel, reviso el registro de errores y corrijo lo que haya cambiado. En cinco meses he tocado los selectores cuatro veces. Dos fueron ajustes menores de maquetación en la fuente, uno fue un 403 silencioso que necesitaba una nueva rotación de user agent, y uno fue un cambio de esquema que me costó una tarde entera. Presupuesto 90 minutos semanales y uso aproximadamente 60 de media. Sin ese espacio fijo el feed se deterioraría en un trimestre, que es el fallo del que aviso en el hub de Proyectos con IA.

El consejo poco habitual de John

Vende el esquema, no el scrape

A los compradores no les importa que hagas scraping. Les importa que tu resultado sea un esquema limpio y estable que puedan integrar en sus propias herramientas sin renombrar columnas. Publico el esquema en la página de ventas con un CSV de ejemplo y un pequeño archivo JSON Schema. Ese único detalle cerró al menos tres de mis primeros diez suscriptores que habían sufrido con un feed anterior que cambiaba las columnas sin aviso. Un documento de esquema de una página vale más que cualquier texto de landing que pudiera escribir.

Lo que evitaría

No hagas scraping de nada que requiera autenticación, aunque parezca fácil. La única vez que doblé esta regla, en una fuente con un muro de inicio de sesión muy fino, perdí una semana discutiendo con el editor y tuve que devolver el dinero a dos suscriptores. Una fuente pública estrecha con volumen modesto supera siempre a una fuente gated rica con riesgo legal. Si la única manera de construir el feed es detrás de un inicio de sesión, construye un feed diferente.

Preguntas frecuentes

¿Es legal hacer scraping de datos públicos?

Los datos públicos sin inicio de sesión y sin términos de servicio clickwrap que prohíban el acceso automatizado son la zona segura en la mayoría de las jurisdicciones. Hacer scraping detrás de un inicio de sesión, saltarse límites de velocidad o ignorar una exclusión de robots.txt te saca rápidamente de esa zona. Mantengo una lista de comprobación legal de una página por fuente y rechazo cualquier feed que no pueda responder sí a cada línea de ella.

¿Cuánto puedes cobrar realmente por un feed de nicho?

Mi feed está a 29 euros al mes para 14 suscriptores de pago, 406 euros de ingresos recurrentes. Un feed de noticias general no sobreviviría a ese precio; un feed de sector estrecho con frescura de 60 minutos y un esquema limpio sí. Los compradores casi siempre son pequeñas agencias o investigadores individuales que valoran el tiempo ahorrado, no los datos en bruto.

¿Puede la IA reemplazar el pipeline de scraping?

La IA redacta los prompts de extracción y normaliza campos desordenados, pero la fontanería (programación, reintentos, deduplicación, detección de cambios) sigue siendo código predecible. Intenté ejecutar todo el pipeline a través de un agente LLM y funcionó un fin de semana, luego derivó silenciosamente. Usa IA para las partes imprecisas; mantén deterministas las partes deterministas.