Превръщане на публичен източник на данни в месечен фийд за 29 евро

Продажбата на данни като абонамент е най-скучният AI страничен доход, който съм реализирал, и именно той осигурява най-чистия марж. Продуктът не е впечатляващ чатбот — той е електронна таблица, която се обновява по график и пристига в пощенската кутия или API на купувача. Роботът е малък, правният филтър е строг, а списъкът с клиенти е кратък и лоялен. Изградих моя за четири уикенда и той работи почти без намеса от пет месеца. Ето как избирам нишата, как оставам легален и как намирам първите платени клиенти.
Тестът за ниша, преди всякакъв код
Продаваемият фийд от данни има три свойства: източникът е публичен, данните се променят достатъчно често, за да оправдаят абонамент, и купувачите вече плащат на някой за по-грозна версия на тях. Изключвам всичко, което не отговаря дори на едно от тях. Набелязвам кандидати, като публикувам двуредов питч в индустриални форуми и малки субредити — същият филтър, който използвам за абонамента ми за AI чатбот. Ако не получа поне четири сериозни отговора за 72 часа, нишата умира на място. Изграждането на фийд, за който никой не е питал, е провалният режим, който отказвам да повтарям.
Правният контролен списък, който не пресичам
Това е стъпката, която убива повечето проекти, и с основание. Преди да напиша дори един ред код за робота, отговарям на пет въпроса за източника. Данните зад вход ли са? Забраняват ли условията за ползване автоматизирания достъп? Изключва ли robots.txt пътищата, които искам? Превишава ли скоростта ми на обхождане това, което би направил учтив потребителски агент? Разкрива ли изходът лични данни по начин, по който оригиналният издател не го прави? Ако някой отговор е неудобен, преминавам към следващия кандидат. Поддържам писмен протокол за всеки източник, датиран, така че ако някога възникне спор, мога да докажа проверката. Правната хигиена тук се припокрива с документацията, която поддържам при сделки с домейни — скучната документация ви спасява по-късно.
Стекът, умишлено малък
Един малък VPS на 6 евро месечно, Python с requests и selectolax за парсване, SQLite за състояние, ротиращ пул от жилищни проксита на 15 евро месечно, едно cron задание на всеки 60 минути. Без Kafka, без опашки, без микроуслуги. Общата инфраструктурна цена е 21 евро месечно. AI влиза точно на две места: първо, при изготвянето на извличащите селектори от примерна страница, което спестява около три часа; второ, при нормализирането на объркани текстови полета като имена на компании и местоположения. Самият робот е 380 реда детерминиран Python. Скучен код, лесен за дебъгване в 23:00 ч., когато нещо се счупи.
- Извличане на страница с списък, сравнение с последния снимок, извличане на URL адреси на нови елементи.
- Извличане на всеки нов елемент, парсване на полета, валидиране на типове.
- Нормализиране на свободен текст с евтино LLM извикване, ограничаване на разхода до 0,002 евро на ред.
- Дедупликация спрямо SQLite по хеш на нормализирания payload.
- Добавяне към дневен CSV файл, изпращане до абонатите по имейл и малък JSON endpoint.
Ценообразуване, пакетиране и първите 14 купувача
Определих цена от 29 евро месечно от самото начало, без безплатен пробен период. Безплатният пробен период би привлякъл разгледчии, а този продукт оцелява с купувачи, които вече познават болката. Първите трима абонати дойдоха от същия форум, където тествах питча. Следващите осем дойдоха от единична партида студени имейли, изпратени до 40 малки агенции, които явно правеха същата работа ръчно. Процентът на отговор беше 28%, а процентът на затваряне на отговорили беше 25%. Останалите трима ме намериха чрез търсене след две кратки статии, които публикувах. Приход на пети месец: 406 евро месечно, разходи 21 евро инфраструктура плюс около 85 евро за токени и прокси в най-натоварения месец, нетен марж около 300 евро. Това е 74% марж върху продукт, за чието поддържане отделям около 90 минути седмично. Единичната икономика е по-близо до моя платен бюлетин, отколкото до повечето AI обвивки.
Поддръжката, частта, която никой не показва в страниците за продажби
Всеки вторник вечер отварям таблото, преглеждам журнала за грешки и поправям каквото се е променило. За пет месеца съм докосвал селекторите четири пъти. Два пъти бяха незначителни промени в оформлението на източника, веднъж беше тих 403, изискващ нова ротация на потребителския агент, веднъж беше промяна в схемата, коствала ми цяла вечер. Планирам 90 минути седмично и използвам средно около 60. Без този фиксиран слот фийдът би се влошил за тримесечие — това е провалният режим, за който предупреждавам в хъба за AI странични доходи.
Продавайте схемата, не скрейпинга
Купувачите не ги интересува, че скрейпвате. Важното за тях е изходът ви да е чиста, стабилна схема, която могат да вградят в собствените си инструменти без преименуване на колони. Публикувам схемата на страницата за продажби с примерен CSV файл и малък JSON Schema файл. Тази единствена подробност затвори поне трима от първите ми десет абонати, които вече бяха изгаряни от предишен фийд, който смени колоните без предупреждение. Едностраничен документ за схемата струва повече от всеки текст за целева страница, който бих могъл да напиша.
Не скрейпвайте нищо, което изисква удостоверяване, дори да изглежда лесно. Единственият път, когато огънах това правило — при източник с много тънка стена за вход — загубих седмица в спор с издателя и трябваше да върна пари на двама абонати. Тесен публичен източник с умерен обем бие богат, заграден зад достъп, с правен риск всеки път. Ако единственият начин да изградите фийда е зад вход, изградете различен фийд.
Често задавани въпроси
Законно ли е скрейпингът на публични данни?
Публичните данни без вход и без клик-обвързващи условия, забраняващи автоматизиран достъп, са безопасната зона в повечето юрисдикции. Скрейпингът зад вход, заобикалянето на ограниченията за скорост или игнорирането на изключенията в robots.txt бързо ви извеждат от тази зона. Поддържам едностранична правна проверка за всеки източник и отказвам всеки фийд, който не може да отговори „да" на всеки ред от нея.
Колко можете наистина да таксувате за нишов фийд?
Моят фийд е на цена 29 евро месечно за 14 платени абоната — 406 евро повтарящ се приход. Общ новинарски фийд не би оцелял на тази цена; тесен индустриален фийд с 60-минутна свежест и чиста схема — да. Купувачите са почти винаги малки агенции или еднолични изследователски отдели, които ценят спестеното време, а не суровите данни.
Може ли AI да замени тръбопровода за скрейпинг?
AI пише промптите за извличане и нормализира объркани полета, но водопроводът (планиране, повторни опити, дедупликация, засичане на промени) все още е скучен код. Опитах да пусна целия тръбопровод през LLM агент и работеше един уикенд, след което тихо се отклони. Използвайте AI за неясните части, пазете детерминираните части детерминирани.