공개 데이터 소스를 월 29유로 피드로 바꾸기

노트북의 데이터 그리드와 주석이 달린 스프레드시트 — 틈새 데이터 스크래핑 및 리셀을 상징

데이터를 구독으로 판매하는 것은 제가 운영해본 AI 부업 중 가장 지루하며, 동시에 가장 깨끗한 마진을 찍는 쪽입니다. 제품은 화려한 챗봇이 아니라, 정해진 스케줄에 맞춰 새로고침되어 구매자의 메일함이나 API로 들어가는 스프레드시트입니다. 크롤러는 작고, 법적 필터는 엄격하며, 고객 명단은 짧지만 충성도가 높습니다. 저는 이것을 네 번의 주말에 걸쳐 만들었고, 다섯 달 동안 거의 손대지 않은 채 돌아가고 있습니다. 어떻게 틈새를 고르고, 합법 영역에 머무르고, 첫 유료 고객을 어떻게 확보하는지 정리합니다.

코드 한 줄 쓰기 전, 틈새 테스트

팔리는 데이터 피드에는 세 가지 속성이 있습니다. 소스가 공개되어 있고, 데이터가 구독을 정당화할 만큼 자주 바뀌며, 구매자가 이미 누군가에게 더 조잡한 버전에 돈을 지불하고 있다는 것. 이 중 하나라도 실패하는 후보는 제외합니다. 저는 업계 포럼과 작은 서브레딧에 두 줄짜리 피치를 올려 후보를 추리는데, AI 챗봇 구독에서 쓰는 것과 같은 필터입니다. 72시간 안에 진지한 답변이 최소 네 개 오지 않으면 그 자리에서 틈새가 죽습니다. 아무도 요청하지 않은 피드를 만드는 것은 제가 반복하기를 거부하는 실패 방식입니다.

내가 넘지 않는 법적 체크리스트

이 단계가 대부분의 프로젝트를 죽이며, 그래야 마땅합니다. 크롤러 코드 한 줄을 쓰기 전에 소스에 대해 다섯 가지 질문에 답합니다. 데이터가 로그인 뒤에 있는가? 약관이 자동 접근을 금지하는가? robots.txt가 내가 원하는 경로를 배제하는가? 내 크롤 속도가 예의 바른 유저 에이전트가 낼 수준을 넘는가? 출력물이 원 게시자가 드러내지 않는 방식으로 개인정보를 노출하는가? 답 하나라도 불편하면 다음 후보로 넘어갑니다. 저는 소스별로 날짜를 적은 서면 기록을 유지해서, 언젠가 분쟁이 생기면 점검 사실을 보여줄 수 있게 합니다. 여기서의 법적 위생은 도메인 플리핑에서 유지하는 서류 흔적과 겹칩니다. 지루한 문서 작업이 나중에 당신을 구합니다.

의도적으로 작게 유지한 스택

월 6유로(약 9천 원)짜리 작은 VPS 하나, 파싱은 Python requests와 selectolax, 상태 저장은 SQLite, 월 15유로(약 2만 2천 원) 로테이팅 레지덴셜 프록시 풀, 60분마다 도는 단일 크론 잡. Kafka도, 큐도, 마이크로서비스도 없습니다. 총 인프라 비용 월 21유로(약 3만 1천 원). AI는 정확히 두 자리에서 들어옵니다. 첫째, 샘플 페이지에서 추출 셀렉터 초안을 만드는 일로 세 시간 정도가 절약됩니다. 둘째, 회사명·지역처럼 지저분한 자유 텍스트 필드를 정규화하는 일. 크롤러 자체는 380줄의 결정론적 Python입니다. 지루한 코드, 새벽 한 시에 뭔가 망가져도 디버깅이 쉬운 코드입니다.

  1. 리스트 페이지를 가져와 직전 스냅샷과 diff, 새 항목 URL을 추출.
  2. 새 항목을 각각 가져와 필드를 파싱하고 타입을 검증.
  3. 저렴한 LLM 호출로 자유 텍스트를 정규화, 행당 비용을 0.002유로(약 3원)로 캡.
  4. 정규화된 페이로드의 해시로 SQLite에서 중복 제거.
  5. 일간 CSV에 추가, 이메일과 작은 JSON 엔드포인트로 구독자에게 발송.

가격 책정, 패키징, 그리고 첫 14명의 구매자

첫날부터 월 29유로(약 4만 4천 원)로 매겼고, 무료 체험은 없었습니다. 무료 체험은 구경꾼을 불러왔을 것이고, 이 제품은 이미 그 고통을 아는 구매자로 살아남습니다. 첫 세 구독자는 피치를 테스트했던 그 포럼에서 왔습니다. 다음 여덟 명은 분명히 같은 일을 수작업으로 하고 있던 작은 에이전시 40곳에 보낸 한 번의 콜드 이메일 배치에서 왔습니다. 답장률은 28%, 답장 중 성사율은 25%였습니다. 나머지 세 명은 제가 올린 짧은 글 두 편을 본 뒤 검색을 통해 저를 찾아왔습니다. 다섯째 달 매출은 월 406유로(약 61만 원), 비용은 인프라 21유로에 가장 무거웠던 달의 토큰·프록시 사용량이 대략 85유로(약 12만 7천 원), 순 마진 약 300유로(약 45만 원). 주당 약 90분의 유지 관리로 얻는 74% 마진입니다. 단위 경제학은 대부분의 AI 래퍼 시도보다 유료 뉴스레터에 훨씬 가깝습니다.

유지 관리, 세일즈 페이지에는 아무도 안 보여주는 부분

매주 화요일 저녁 대시보드를 열고, 에러 로그를 훑고, 바뀐 것을 패치합니다. 다섯 달 동안 셀렉터는 네 번 손댔습니다. 두 번은 소스의 사소한 레이아웃 변경, 한 번은 새 유저 에이전트 로테이션이 필요했던 조용한 403, 한 번은 저녁 한 나절을 통째로 잡아먹은 스키마 파괴 변경이었습니다. 저는 주당 90분을 예산으로 잡고 평균 60분 정도를 씁니다. 그 고정된 슬롯이 없다면 피드는 한 분기 안에 썩을 것이고, 이것이 제가 AI 부업 허브에서 경고하는 실패 방식입니다.

존의 숨은 팁

스크래핑이 아니라 스키마를 팔아라

구매자는 당신이 스크래핑한다는 사실에 관심이 없습니다. 그들이 신경 쓰는 것은 당신의 출력물이 컬럼 이름을 고치지 않고도 자기들 도구에 바로 떨어뜨릴 수 있는, 깔끔하고 안정적인 스키마라는 점입니다. 저는 세일즈 페이지에 예시 CSV와 작은 JSON Schema 파일을 함께 스키마로 공개합니다. 그 단 하나의 디테일이 첫 열 명 구독자 중 최소 세 명을 성사시켰는데, 그들은 모두 이전 피드가 예고 없이 컬럼을 바꾸는 바람에 덴 사람들이었습니다. 한 페이지 스키마 문서가 제가 쓸 수 있는 어떤 랜딩 카피보다 값집니다.

내가 피하는 것

아무리 쉬워 보여도 인증이 필요한 대상은 스크래핑하지 마세요. 이 규칙을 한 번 어겼을 때, 로그인 장벽이 매우 얇은 소스였는데, 게시자와 한 주 동안 다투었고 구독자 두 명에게 환불해야 했습니다. 적정 볼륨의 좁은 공개 소스가 법적 리스크를 품은 풍부한 게이티드 소스를 항상 이깁니다. 피드를 만들 유일한 방법이 로그인 뒤라면, 다른 피드를 만드세요.

자주 묻는 질문

공개 데이터를 스크래핑하는 것은 합법인가요?

로그인이 없고, 자동 접근을 금지하는 클릭랩 약관도 없는 공개 데이터는 대부분의 국가에서 안전 구역입니다. 로그인 뒤 스크래핑, 레이트 리밋 우회, robots.txt 배제 무시는 그 구역을 빠르게 벗어나게 만듭니다. 저는 소스별로 한 페이지짜리 법적 체크리스트를 유지하고, 모든 항목에 "예"라고 답할 수 없는 피드는 받지 않습니다.

틈새 피드로 실제로 얼마까지 받을 수 있나요?

제 피드는 월 29유로(약 4만 4천 원)에 유료 구독자 14명, 반복 매출 406유로(약 61만 원)입니다. 일반 뉴스 피드라면 이 가격에 살아남지 못했겠지만, 60분 신선도와 깔끔한 스키마를 가진 좁은 산업 피드라면 가능합니다. 구매자는 거의 항상 작은 에이전시거나 1인 리서치 데스크이며, 원시 데이터가 아니라 절약되는 시간에 가치를 매깁니다.

AI가 스크래핑 파이프라인을 대체할 수 있나요?

AI는 추출 프롬프트를 쓰고 지저분한 필드를 정규화하지만, 배관(스케줄링, 재시도, 중복 제거, 변경 감지)은 여전히 지루한 코드입니다. 전체 파이프라인을 LLM 에이전트로 돌려봤더니 한 주말은 잘 돌다가 조용히 드리프트했습니다. 퍼지한 부분에는 AI를 쓰고, 결정론적이어야 하는 부분은 결정론적으로 유지하세요.