Transformar uma Fonte de Dados Pública num Feed Mensal de 29 Euros

Grelha de dados de laptop e folhas de cálculo anotadas representando raspagem de dados de nicho e revenda

Vender dados como subscrição é o negócio paralelo de IA mais aborrecido que já geri, e é o que produz a margem mais limpa. O produto não é um chatbot vistoso, é uma folha de cálculo que atualiza num horário e chega à caixa de entrada ou API do comprador. O crawler é pequeno, o filtro legal é rigoroso e a lista de clientes é curta e leal. Construí o meu em quatro fins de semana e tem funcionado quase sem toque durante cinco meses. Eis como escolho o nicho, como o mantenho legal e como angario os primeiros clientes pagantes.

O teste de nicho, antes de qualquer código

Um feed de dados vendável tem três propriedades: a fonte é pública, os dados mudam com frequência suficiente para justificar uma subscrição e os compradores já estão a pagar a alguém por uma versão mais feia. Elimino tudo o que falhe mesmo num destes critérios. Faço uma lista de candidatos publicando um pitch de duas linhas em fóruns da indústria e pequenos subreddits, o mesmo filtro que uso para a minha subscrição de chatbot IA. Se não obtiver pelo menos quatro respostas sérias em 72 horas, o nicho morre ali mesmo. Construir um feed que ninguém pediu é o modo de falha que me recuso a repetir.

A checklist legal que não ultrapasso

Este é o passo que elimina a maioria dos projetos, e com razão. Antes de escrever uma única linha de código de crawler, respondo a cinco questões sobre a fonte. Os dados estão atrás de um login? Os termos de serviço proíbem o acesso automático? O robots.txt exclui os caminhos que pretendo? A minha taxa de crawl excede o que um agente de utilizador polido faria? O output expõe dados pessoais de forma que o editor original não expõe? Se alguma resposta for desconfortável, passo para o próximo candidato. Mantenho um registo escrito por fonte, com data, para que, se alguma disputa surgir, possa demonstrar a verificação. A higiene legal aqui sobrepõe-se ao registo em papel que mantenho nos flips de domínios; a documentação aborrecida salva-te mais tarde.

A stack, deliberadamente pequena

Um VPS pequeno a 6 euros por mês, Python com requests e selectolax para parsing, SQLite para estado, um pool de proxies residenciais rotativos a 15 euros mensais, um único cron job a cada 60 minutos. Sem Kafka, sem filas, sem microsserviços. O custo total de infraestrutura é de 21 euros por mês. A IA entra exatamente em dois lugares: primeiro, a redigir os seletores de extração a partir de uma página de amostra, o que poupa talvez três horas; segundo, a normalizar campos de texto livre confusos como nomes de empresas e localizações. O crawler em si tem 380 linhas de Python determinístico. Código aborrecido, fácil de depurar às 23h quando algo quebra.

  1. Buscar página de listagem, comparar com o último snapshot, extrair URLs de novos itens.
  2. Buscar cada novo item, analisar campos, validar tipos.
  3. Normalizar texto livre com uma chamada LLM económica, limitar o custo a 0,002 euros por linha.
  4. Deduplicar contra SQLite por hash do payload normalizado.
  5. Acrescentar ao CSV diário, enviar aos subscritores por email mais um pequeno endpoint JSON.

Preços, embalagem e os primeiros 14 compradores

Fixei o preço em 29 euros mensais desde o primeiro dia, sem período de avaliação gratuita. Uma avaliação gratuita teria atraído curiosos, e este produto sobrevive com compradores que já conhecem a dor. Os três primeiros subscritores vieram do mesmo fórum onde testei o pitch. Os oito seguintes vieram de um único lote de emails frios que enviei a 40 pequenas agências que claramente faziam o mesmo trabalho manualmente. A taxa de resposta foi de 28%, a taxa de fecho nas respostas foi de 25%. Os restantes três encontraram-me através de pesquisa depois de duas pequenas publicações que fiz. Receita no mês cinco: 406 euros mensais, custos de 21 de infraestrutura mais cerca de 85 euros de tokens e proxies no mês mais intenso, margem líquida à volta de 300 euros. É uma margem de 74% num produto que me ocupa cerca de 90 minutos por semana de manutenção. A economia unitária está mais próxima da minha newsletter paga do que da maioria dos projetos de wrapper IA.

Manutenção, a parte que ninguém mostra numa página de vendas

Todas as terças à noite abro o dashboard, analiso o registo de erros e corrijo o que mudou. Em cinco meses toquei nos seletores quatro vezes. Dois foram pequenos ajustes de layout na fonte, um foi um 403 silencioso que precisava de uma nova rotação de user agent, um foi uma alteração de schema que me custou uma noite inteira. Orço 90 minutos por semana e uso em média cerca de 60. Sem esse slot fixo, o feed deteriorar-se-ia num trimestre, que é o modo de falha sobre o qual aviso no hub de IA para Negócios Paralelos.

Dica rara do John

Vende o schema, não o scraping

Os compradores não ligam ao facto de fazeres scraping. Ligam ao facto de o teu output ser um schema limpo e estável que podem integrar nas suas ferramentas sem renomear colunas. Publico o schema na página de vendas com um CSV de exemplo e um pequeno ficheiro JSON Schema. Esse detalhe sozinho fechou pelo menos três dos meus primeiros dez subscritores que tinham sido queimados por um feed anterior que mudou colunas sem aviso. Um documento de schema de uma página vale mais do que qualquer copy de landing que eu pudesse escrever.

O que evitaria

Não faças scraping de nada que requeira autenticação, mesmo que pareça fácil. A única vez que dobrei esta regra, numa fonte que tinha uma parede de login muito fina, perdi uma semana a discutir com o editor e tive de reembolsar dois subscritores. Uma fonte pública restrita com volume modesto supera sempre uma fonte fechada rica com risco legal. Se a única forma de construir o feed é atrás de um login, constrói um feed diferente.

Perguntas frequentes

É legal fazer scraping de dados públicos?

Dados públicos sem login e sem termos clickwrap que proíbam acesso automático constituem a zona segura na maioria das jurisdições. Fazer scraping atrás de um login, contornar limites de taxa ou ignorar uma exclusão no robots.txt sai rapidamente dessa zona. Mantenho uma checklist legal de uma página por fonte e recuso qualquer feed que não consiga responder afirmativamente a cada ponto.

Quanto se pode cobrar realmente por um feed de nicho?

O meu feed está a 29 euros mensais para 14 subscritores pagantes, 406 euros de receita recorrente. Um feed de notícias geral não sobreviveria a esse preço; um feed de indústria restrito com atualização de 60 minutos e schema limpo, sim. Os compradores são quase sempre pequenas agências ou equipas de investigação individuais que valorizam o tempo poupado, não os dados brutos.

Pode a IA substituir o pipeline de scraping?

A IA escreve os prompts de extração e normaliza campos com texto confuso, mas a canalização (agendamento, reintentos, deduplicação, deteção de alterações) continua a ser código maçudo. Tentei correr todo o pipeline através de um agente LLM e funcionou num fim de semana, depois foi desviando silenciosamente. Usa IA para as partes imprecisas, mantém as partes determinísticas determinísticas.