公開データソースを月額29ユーロのフィードに変える

ラップトップのデータグリッドと注釈付きスプレッドシートで、ニッチなデータのスクレイピングと再販売を表現

データをサブスクリプションとして売るのは、私がこれまで運営した中で最も地味なAIサイドハッスルで、そして最もクリーンなマージンを叩き出すものでもあります。製品は派手なチャットボットではなく、スケジュールで更新され、買い手の受信箱やAPIに届くスプレッドシートです。クローラーは小さく、法的フィルターは厳格で、顧客リストは短くロイヤル。週末4回で作り、5か月ほとんど手を入れず動き続けています。以下、ニッチの選び方、合法の保ち方、最初の有料顧客の獲り方を紹介します。

コードを書く前のニッチテスト

売れるデータフィードには3つの性質があります。ソースが公開であること、データがサブスクリプションを正当化するほど頻繁に変わること、そして買い手が既に誰かに醜いバージョンの対価を払っていること。どれか1つでも欠けたら候補から外します。候補を絞り込むには、業界フォーラムと小さなサブレディットに2行のピッチを投稿します。AIチャットボット課金と同じフィルターです。72時間で真剣な返信が4件未満なら、そのニッチは即死。誰も頼んでいないフィードを作ることは、二度と繰り返さないと決めた失敗モードです。

越えない法的チェックリスト

ほとんどのプロジェクトを殺すのはこの工程で、当然そうあるべきです。クローラーのコードを1行書く前に、ソースについて5つの問いに答えます。データはログインの背後にあるか。利用規約は自動アクセスを禁じているか。robots.txtは私が欲しいパスを除外しているか。私のクロール速度は礼儀正しいユーザーエージェントが行う範囲を超えるか。出力は元の発行元が露出していない形で個人データを晒すか。どれか一つでも気持ち悪い答えが出たら、次の候補に進みます。ソースごとに日付入りの書面記録を残し、紛争が浮上したときにチェックを提示できるようにしておきます。ここでの法的衛生は、ドメインフリップで残すペーパートレイルと重なります。地味なドキュメンテーションが後で自分を救います。

スタック、意図的に小さく保つ

月額6ユーロの小さなVPS1台、Pythonとrequestsとselectolaxでパース、状態はSQLite、月額15ユーロのローテーション住宅プロキシプール、60分ごとに単一のcronジョブ。Kafkaなし、キューなし、マイクロサービスなし。インフラ総額は月21ユーロ。AIは正確に2か所にだけ入ります。まずサンプルページから抽出セレクタを下書きするところ(約3時間の節約)、次に会社名や所在地のような乱れた自由記述フィールドの正規化。クローラー本体は380行の決定的なPythonです。地味なコード、夜11時に壊れてもデバッグしやすい。

  1. リストページを取得し、前回スナップショットと差分を取り、新規アイテムのURLを抽出。
  2. 各新規アイテムを取得し、フィールドをパースし、型を検証。
  3. 安価なLLM呼び出しで自由記述を正規化、行あたりコストは0.002ユーロに上限設定。
  4. 正規化後のペイロードのハッシュでSQLiteに対して重複排除。
  5. 日次CSVに追記し、メールと小さなJSONエンドポイントでサブスクライバーに配信。

価格、パッケージング、最初の14人の買い手

初日から月額29ユーロに設定、無料トライアルなし。無料トライアルはウィンドウショッパーを呼び込み、この製品は既に痛みを知る買い手でしか生き残りません。最初の3人は、ピッチをテストしたのと同じフォーラムから来ました。次の8人は、明らかに同じ作業を手動でやっていた小さな代理店40社に送った一度のコールドメール一括送信から。返信率28パーセント、返信者のクローズ率25パーセント。残りの3人は、私が投稿した2本の短い記事から検索で見つけてきました。5か月目の収益は月次経常406ユーロ、コストはインフラ21に加え、最も重かった月のトークンとプロキシの使用料が約85ユーロ、純マージンは約300ユーロ。週に約90分のメンテナンスで回る製品としては74パーセントのマージンです。単位経済性は、ほとんどのAIラッパーよりも有料ニュースレターに近いです。

メンテナンス、セールスページが見せない部分

毎週火曜の夜、ダッシュボードを開き、エラーログに目を通し、変わったところにパッチを当てます。5か月でセレクタを触ったのは4回。2回はソース側の小さなレイアウト変更、1回は静かな403で新しいユーザーエージェントのローテーションが必要、1回は壊れるスキーマ変更で丸一晩かかりました。週90分の枠を予算化し、平均で約60分使います。この固定枠がなければ、フィードは一四半期内に朽ち、それこそAIサイドハッスルのハブで私が警告している失敗モードです。

ジョンの秘密のヒント

スクレイプではなくスキーマを売る

買い手はあなたがスクレイプしていることには関心がありません。関心があるのは、出力がカラム名を変えずに自分たちのツールに流し込めるクリーンで安定したスキーマであること。私はセールスページにスキーマをサンプルCSVと小さなJSON Schemaファイルとともに公開しています。たったこの一点が、予告なくカラムが変わる前のフィードに焼かれた経験のある最初の10人のうち少なくとも3人を決めさせました。1ページのスキーマ文書は、私が書けるどんなランディングコピーよりも価値があります。

避けること

たとえ簡単に見えても、認証が必要なものは絶対にスクレイプしないこと。一度だけこのルールを曲げ、非常に薄いログイン壁を持つソースに手を出し、発行元との議論で1週間失い、2人のサブスクライバーに返金する羽目になりました。控えめなボリュームの狭い公開ソースは、法的リスクを抱えたリッチなゲート付きソースに毎回勝ります。フィードを作る唯一の方法がログインの背後なら、別のフィードを作りましょう。

よくある質問

公開データのスクレイピングは合法ですか?

ログインなし、かつ自動アクセスを禁じるクリックラップ規約のない公開データは、ほとんどの法域で安全圏です。ログインの背後、レート制限の回避、robots.txtの除外を無視した瞬間、その安全圏からすぐに外れます。私はソースごとに1ページの法的チェックリストを管理し、全項目にyesと答えられないフィードは一切扱いません。

ニッチなフィードで現実的にいくら請求できますか?

私のフィードは月額29ユーロ、有料ユーザー14人で経常収益は406ユーロです。一般ニュース向けのフィードならこの価格では生き残れません。60分鮮度とクリーンなスキーマを備えた狭い業界特化フィードだからこそ成立します。買い手はほぼ常に小さな代理店か一人でリサーチを回す担当者で、彼らは生データではなく節約される時間に価値を置きます。

AIでスクレイピングパイプラインを置き換えられますか?

AIは抽出プロンプトの下書きや乱れたフィールドの正規化を担いますが、配管部分(スケジューリング、リトライ、重複排除、変更検出)は依然として地味なコードの領域です。パイプライン全体をLLMエージェントで回す実験もしましたが、週末は動き、そのあと静かにドリフトしました。曖昧な部分にAIを、決定的な部分は決定的なままに保ってください。