Wie ich zwei KI-Rater-Verträge ohne Informatikstudium gelandet habe

Laptop mit Nebeneinander-Vergleichskarten und Rubrik für RLHF- und KI-Bewerter-Arbeit

KI-Rater-Arbeit ist das stillste, gut bezahlte Mikrojob-Standbein im Ökosystem. Ich bin Anfang 2024 zufällig darauf gestoßen und hatte bis Ende des Jahres gut 4.300 Euro mit zwei Nischenanbietern verdient. Niemand in den gängigen Mikrojob-Foren spricht darüber, weil die Leute, die hereinkommen, es tendenziell für sich behalten.

Was die Arbeit tatsächlich ist

In der Praxis liest du einen Prompt, liest zwei oder drei Modellantworten und bewertest sie anhand einer Rubrik. Manchmal schreibst du selbst eine bessere Version. Manchmal annotierst du, welche von zwei Antworten sicherer, wahrheitsgemäßer oder hilfreicher ist. Die Aufgabentypen, die ich bearbeitet habe, waren: Präferenz-Ranking, Faktenprüfung, Sicherheitslabeling und Umschreiben. Keiner erforderte einen technischen Hintergrund. Alle erforderten klares schriftliches Englisch und die Fähigkeit, eine Bewertung in zwei bis vier Sätzen ohne Geschwätz zu begründen.

Woher die Jobs tatsächlich kommen

Nicht von den großen Mainstream-Plattformen. Die zwei Verträge, die ich landete, kamen über Nischenanbieter, die als Mittler zwischen den KI-Laboren und einzelnen Ratern agieren. Denke an sie als Personalvermittlungsagenturen. In meinem Fall: ein britischer Anbieter, der Präferenzdaten für ein großes Labor verwaltet, und ein europäischer Anbieter, der Sicherheitsevaluierungen für ein anderes Labor durchführt. Beide wurden durch LinkedIn-Suche nach Stellen mit dem Tag Data Analyst Teilzeit und den Schlüsselwörtern preference data oder RLHF gefunden und dann direkt beworben. Für das breitere Playbook zum Finden stiller Arbeit, die niemand bewirbt, bietet der Freelance-Hub meine vollständige Strategie.

  1. LinkedIn-Suche: Filtern nach Teilzeit, Vertrag, Remote; Schlüsselwörter RLHF, AI annotation, preference data, rater.
  2. Unternehmensseiten: 8 bis 12 Nischenanbieter identifizieren, ihnen folgen und sich auf jede offene Rater-Stelle bewerben.
  3. Screener: Rechne mit einer unbezahlten schriftlichen Aufgabe von 90 Minuten, typischerweise 4 bis 6 Ranking-Übungen.
  4. Interview: Ein 20- bis 30-minütiges Gespräch mit einem Programm-Manager. Nicht technisch, fokussiert auf Rubrik-Denken.
  5. Bezahltes Qualifikations-Batch: 2 bis 5 Stunden bezahlte Arbeit, bewertet anhand interner Benchmarks. Bestehe es, und du bist dabei.

Das Geld, ohne Hype

Bei meinen zwei Verträgen lagen die Stundensätze bei 18 und 22 Euro. Zahlungsfristen waren netto 15 beim ersten Anbieter und netto 30 beim zweiten, beide per SEPA-Banküberweisung mit Umsatzsteuer-Rechnungsstellung auf meinen Micro-Entreprise-Status. Das Volumen schwankte stark; einen Monat protokollierte ich 41 bezahlte Stunden, den nächsten Monat sieben. Behandle es als hochvergütetes, unzuverlässiges Standbein, und es funktioniert. Behandle es als Gehaltsersatz, und es wird dein Budget ruinieren.

Für den Vergleich mit anderen Freelance-Standbeinen, die ich parallel betreibe, ist der Prolific-vs.-Userlytics-Artikel die Beglektüre. Für die Denkweise hinter der Schichtung mehrerer kleiner Einkommensströme, damit keiner alleine tragen muss, gilt der Dividenden-Apps-Artikel dieselbe Logik auf einem anderen Standbein.

Die roten Fahnen, die mir Zeit kosteten

Ich bewarb mich bei elf Anbietern, bevor ich mein erstes Angebot erhielt. Drei waren Betrug oder MLM-ähnlich, zwei antworteten nie, vier ließen mich einen Screener durchlaufen und verschwanden dann. Die verbleibenden zwei zahlten. Rote Fahnen, die ich jetzt sofort herausfiltre: unbezahlte Screener länger als zwei Stunden, Stundensätze über 40 Dollar für allgemeine Rater, jeder Anbieter, der eine Testgebühr oder Bonitätsprüfung verlangt, und jede Stelle, die einen bezahlten Schulungskurs erfordert. Seriöse Anbieter bezahlen das Qualifikations-Batch, immer.

Johns seltener Tipp

Eine saubere Musterbewertung schreiben und wiederverwenden

Screener bitten fast immer darum, zwei Modellausgaben zu bewerten und das Ranking zu begründen. Ich habe eine Vorlage geschrieben, 180 Wörter, strukturiert als was der Prompt gefordert hat, wie jede Antwort damit umgegangen ist, warum ich A über B stelle. Diese Struktur bei jedem Screener wiederzuverwenden hat meine Screener-Schreibzeit von 90 Minuten auf 40 Minuten reduziert und mir bei vier von fünf Bewerbungen eine überdurchschnittliche Bewertung beschert.

Was ich vermeiden würde

Unterschreibe keinen NDA, ohne die Wettbewerbsverbotsklausel gelesen zu haben. Ein Anbieter bot mir einen 24-Euro-pro-Stunde-Vertrag an, der mich 12 Monate nach Beendigung von jeglicher anderer KI-Annotations-Arbeit ausgeschlossen hätte. Ich lehnte ab, nahm das 18-Euro-pro-Stunde-Angebot ohne diese Klausel an und behielt die Möglichkeit, sechs Monate später einen zweiten Vertrag zu stapeln. Die Flexibilität war die 6 Euro wert.

Häufig gestellte Fragen

Brauche ich einen technischen Hintergrund, um KI-Ausgaben zu bewerten?

Nein, aber du brauchst klares schriftliches Englisch und ein geduldiges Auge für Nuancen. Mein Hintergrund ist Sporttrading, nicht maschinelles Lernen, und ich habe den Screener beim zweiten Versuch bestanden. Entscheidend ist die Fähigkeit, eine Bewertung in einem sauberen Absatz zu begründen.

Wie lange dauert es von der Bewerbung bis zur ersten bezahlten Aufgabe?

In meiner Erfahrung drei bis sechs Wochen. Der Onboarding-Prozess läuft über einen Recruiter, einen schriftlichen Screener, ein kurzes Interview und dann ein bezahltes Qualifikations-Batch. Alles, was schneller als drei Wochen geht, ist meistens ein schlechter bezahltes Programm, dem du skeptisch begegnen solltest.

Ist das Einkommen stabil genug, um damit zu planen?

Nicht monatlich. Programme nehmen Fahrt auf und laufen in Vier-bis-Acht-Wochen-Wellen aus. Ich habe 30 Stunden pro Woche angeboten gesehen und dann zwei Wochen lang nichts. Behandle es als hochvergütetes, unzuverlässiges Standbein, nicht als Gehaltsersatz.