Aus einer öffentlichen Datenquelle ein 29-Euro-Monats-Feed machen

Laptop-Datennetz und kommentierte Tabellen für das Scraping und den Wiederverkauf von Nischendaten

Daten als Abo zu verkaufen ist das langweiligste KI-Nebenprojekt, das ich je betrieben habe – und das mit der saubersten Marge. Das Produkt ist kein glänzender Chatbot, sondern eine Tabelle, die sich nach Zeitplan aktualisiert und im Postfach oder per API beim Käufer landet. Der Crawler ist klein, der rechtliche Filter ist streng, und die Kundenliste ist kurz und loyal. Ich habe meinen in vier Wochenenden gebaut, und er läuft seit fünf Monaten weitgehend unberührt. Hier ist, wie ich die Nische auswähle, wie ich es legal halte und wie ich die ersten zahlenden Kunden gewinne.

Der Nischen-Test, bevor eine Zeile Code geschrieben wird

Ein verkäuflicher Datenfeed hat drei Eigenschaften: Die Quelle ist öffentlich, die Daten ändern sich oft genug, um ein Abo zu rechtfertigen, und die Käufer zahlen bereits jemanden für eine hässlichere Version davon. Alles, was auch nur eines davon nicht erfüllt, schließe ich aus. Kandidaten suche ich, indem ich einen zweigleisigen Pitch in Branchen-Foren und kleinen Subreddits poste – denselben Filter, den ich für mein KI-Chatbot-Abo nutze. Bekomme ich nicht mindestens vier ernsthafte Antworten innerhalb von 72 Stunden, stirbt die Nische sofort. Einen Feed zu bauen, den niemand bestellt hat, ist der Fehler, den ich nicht wiederholen werde.

Die rechtliche Checkliste, die ich nicht überschreite

Das ist der Schritt, der die meisten Projekte tötet – zu Recht. Bevor ich eine einzige Zeile Crawler-Code schreibe, beantworte ich fünf Fragen zur Quelle. Liegen die Daten hinter einem Login? Verbieten die Nutzungsbedingungen automatisierten Zugriff? Schließt die robots.txt die gewünschten Pfade aus? Übersteigt meine Crawl-Rate, was ein höflicher User-Agent tun würde? Legt die Ausgabe personenbezogene Daten offen, die der ursprüngliche Anbieter nicht offenlegt – was in Deutschland unter die DSGVO fiele? Ist eine Antwort unbequem, gehe ich zum nächsten Kandidaten über. Ich führe pro Quelle ein schriftliches, datiertes Protokoll, damit ich bei einem etwaigen Streit nachweisen kann, dass die Prüfung stattgefunden hat. Diese Rechtshygiene überschneidet sich mit dem Aktenführungsprinzip bei Domain-Flips; langweilige Dokumentation schützt später.

Der Stack, bewusst schlank gehalten

Ein kleiner VPS für 6 Euro im Monat, Python mit requests und selectolax zum Parsen, SQLite für den Zustand, ein rotierender Wohnproxy-Pool für 15 Euro im Monat, ein einziger Cron-Job alle 60 Minuten. Kein Kafka, keine Queues, keine Microservices. Gesamte Infrastrukturkosten: 21 Euro im Monat. KI kommt an genau zwei Stellen zum Einsatz: erstens beim Entwerfen der Extraktions-Selektoren aus einer Beispielseite, was etwa drei Stunden spart; zweitens beim Normalisieren unordentlicher Freitextfelder wie Firmennamen und Standorte. Der Crawler selbst umfasst 380 Zeilen deterministisches Python. Langweiliger Code, leicht zu debuggen um 23 Uhr, wenn etwas kaputtgeht.

  1. Listenseite abrufen, gegen letzten Snapshot vergleichen, neue Element-URLs extrahieren.
  2. Jedes neue Element abrufen, Felder parsen, Typen validieren.
  3. Freitext mit einem günstigen LLM-Call normalisieren, Kosten auf 0,002 Euro pro Zeile begrenzen.
  4. Gegen SQLite per Hash der normalisierten Nutzlast deduplizieren.
  5. An tägliche CSV anhängen, per E-Mail und kleinem JSON-Endpunkt an Abonnenten ausliefern.

Preisgestaltung, Verpackung und die ersten 14 Käufer

Ich habe von Tag eins an 29 Euro im Monat verlangt, ohne kostenlose Testphase. Eine Testphase hätte Schaufensterbummler angelockt, und dieses Produkt lebt von Käufern, die den Schmerz bereits kennen. Die ersten drei Abonnenten kamen aus demselben Forum, in dem ich den Pitch getestet hatte. Die nächsten acht kamen aus einem einzigen Cold-E-Mail-Batch, den ich an 40 kleine Agenturen geschickt hatte, die die gleiche Arbeit offensichtlich manuell erledigten. Die Antwortrate betrug 28 Prozent, die Abschlussrate bei Antworten 25 Prozent. Die restlichen drei fanden mich über die Suche nach zwei kurzen Artikeln, die ich veröffentlicht hatte. Umsatz in Monat fünf: 406 Euro im Monat, Kosten 21 Euro Infrastruktur plus etwa 85 Euro Token- und Proxy-Nutzung im stärksten Monat, Nettomarge etwa 300 Euro. Das entspricht einer Marge von 74 Prozent bei einem Produkt, das mich etwa 90 Minuten Wartung pro Woche kostet. Die Kennzahlen ähneln denen meines bezahlten Newsletters mehr als den meisten KI-Wrapper-Projekten.

Wartung – der Teil, den keine Verkaufsseite zeigt

Jeden Dienstagabend öffne ich das Dashboard, überfliegge das Fehlerprotokoll und patche, was sich verändert hat. In fünf Monaten habe ich die Selektoren viermal angepasst. Zweimal waren es kleinere Layout-Änderungen an der Quelle, einmal ein stiller 403, der eine neue User-Agent-Rotation brauchte, einmal eine brechende Schema-Änderung, die mich einen ganzen Abend kostete. Ich plane 90 Minuten pro Woche ein und brauche im Schnitt 60. Ohne diesen festen Slot würde der Feed innerhalb eines Quartals verrotten – das ist der Fehler, vor dem ich auf dem KI-Nebenprojekte-Hub warne.

Johns seltener Tipp

Das Schema verkaufen, nicht das Scraping

Käufern ist es egal, dass du scrapst. Ihnen ist wichtig, dass deine Ausgabe ein sauberes, stabiles Schema ist, das sie ohne Spalten-Umbenennung in ihre eigenen Tools einfügen können. Ich veröffentliche das Schema auf der Verkaufsseite mit einer Beispiel-CSV und einer kleinen JSON-Schema-Datei. Dieses eine Detail schloss mindestens drei meiner ersten zehn Abonnenten, die schon einmal von einem Feed verbrannt worden waren, der Spalten ohne Vorwarnung änderte. Ein einseitiges Schema-Dokument ist mehr wert als jeder Verkaufstext, den ich schreiben könnte.

Was ich vermeiden würde

Nichts scrapen, das eine Authentifizierung erfordert, auch wenn es einfach aussieht. Das eine Mal, als ich diese Regel gebogen habe – bei einer Quelle mit einer sehr dünnen Login-Schranke –, verlor ich eine Woche mit Streitigkeiten mit dem Anbieter und musste zwei Abonnenten erstatten. Eine enge öffentliche Quelle mit bescheidenem Volumen schlägt eine reichhaltige, gesperrte Quelle mit rechtlichem Risiko jedes Mal. Wenn der einzige Weg zum Feed hinter einem Login liegt, einen anderen Feed bauen.

Häufig gestellte Fragen

Ist das Scrapen öffentlicher Daten legal?

Öffentliche Daten ohne Login und ohne Nutzungsbedingungen, die automatisierten Zugriff ausdrücklich verbieten, sind in den meisten Rechtsordnungen die sichere Zone. Scrapen hinter einem Login, das Umgehen von Rate Limits oder das Ignorieren einer robots.txt-Ausschlussregel führt schnell aus dieser Zone heraus. Ich führe eine einseitige rechtliche Checkliste pro Quelle und lehne jeden Feed ab, der nicht alle Punkte mit Ja beantwortet. In Deutschland sind zusätzlich die DSGVO-Anforderungen zu beachten, sofern personenbezogene Daten betroffen sein könnten.

Wie viel kann man wirklich für einen Nischen-Feed verlangen?

Mein Feed kostet 29 Euro im Monat für 14 zahlende Abonnenten – 406 Euro wiederkehrender Umsatz. Ein allgemeiner Nachrichten-Feed würde diesen Preis nicht überleben; ein eng gefasster Branchen-Feed mit 60-Minuten-Aktualität und sauberem Schema schon. Käufer sind fast immer kleine Agenturen oder Einzelpersonen in Research-Desks, die die eingesparte Zeit bezahlen, nicht die Rohdaten.

Kann KI die Scraping-Pipeline ersetzen?

KI schreibt die Extraktions-Prompts und normalisiert unordentliche Felder, aber das Fundament – Scheduling, Retries, Deduplizierung, Change Detection – ist nach wie vor langweiliger Code. Ich habe die gesamte Pipeline einmal durch einen LLM-Agenten laufen lassen: es funktionierte ein Wochenende lang, dann driftete es still davon. KI für die unscharfen Teile nutzen, deterministische Teile deterministisch halten.