Es izstrādāju pielāgotus Python tīmekļa skrāpjus un datu parsētājus, sākot no €60. Iegūstiet datus no jebkuras publiski pieejamas vietnes pēc grafika. Tīra JSON, CSV vai tieša datubāzes izvade. Ja jums nepieciešams datus vākt automātiski, sazinieties ar mani, norādot vietni un nepieciešamos laukus — es apstiprināšu, vai tas ir iespējams un cik tas maksās.

Īsa atbilde

  • Sākumcena: €60 par pamata skrāpi vienai vietnei
  • Pilns konveijers ar datubāzi: €100–200
  • Izpildes laiks: 2–5 dienas atkarībā no vietnes sarežģītības
  • Izvades formāti: JSON, CSV, Excel, PostgreSQL, MySQL, SQLite
  • Plānošana: Cron, uzdevumu plānotājs vai palaišana pēc pieprasījuma
Iegūto vakanču datu tabula ar rekrutiera e-pastu, tālruņa numuru, amata aprakstu, nozari, uzņēmumu un atrašanās vietu, kas izvilkti automātiski
Python vakanču skrāpis, kas izveidots rekrutēšanas aģentūrai: katra rinda ir viens darba sludinājums, katra kolonna ir svarīgs lauks — kontaktinformācija, amats, nozare, atrašanās vieta, viss tiek izvilkts automātiski.

Ko es izstrādāju

  • Produktu skrāpji — nosaukumu, cenu, aprakstu, attēlu izvilkšana no e-komercijas vietnēm
  • Cenu uzraudzības skripti — konkurentu cenu izsekošana, brīdinājumi par izmaiņām
  • Datu parsētāji — JSON API, XML plūsmu, HTML lapu parsēšana strukturētos datos
  • Datubāžu ievietotāji — skrāpēšana un tieša nosūtīšana uz PostgreSQL, MySQL vai SQLite
  • PDF un Excel ekstraktori — strukturētu datu izvilkšana no dokumentiem
  • API integrācijas skripti — divu pakalpojumu savienošana, palaišana pēc grafika vai trigera
  • Skrāpis + LLM konveijeri — skrāpēšana, apstrāde ar AI, tīru rezultātu ievietošana

Satura rādītājs

Reāls projekts: ASOS cenu izsekotājs, kas katru dienu pārbauda 10 000 produktu

Klientam bija nepieciešams uzraudzīt ASOS produktu lapas, lai fiksētu cenu kritumu simtiem preču. Manuāla pārbaude bija neiespējama. Risinājums bija Python skrāpis, kas:

  1. Pieņem produktu URL no lietotājiem, izmantojot Telegram bota saskarni
  2. Apmeklē katru produkta lapu ieplānotā intervālā, izmantojot requests + BeautifulSoup
  3. Salīdzina pašreizējo cenu ar saglabāto bāzes cenu SQLite datubāzē
  4. Nosūta tūlītēju Telegram paziņojumu, kad cena pazeminās vai parādās atlaide

Skrāpis apstrādā pagināciju, atkārto pieprasījumus kļūdu gadījumā un reģistrē visu cenu vēsturi. Lietotāji saņem paziņojumu tajā brīdī, kad cena mainās. Nav nepieciešama manuāla pārbaude. Zemāk esošajā videoklipā parādīts, kā tas darbojas:

YouTube video sīktēls ▶ Atskaņot video

Kā darbojas tīmekļa skrāpēšana un kad tā ir nepieciešama

Tīmekļa skrāpēšana ir automatizēts process, kurā tiek apmeklēta vietne un no tās lapām izvilkti konkrēti dati. Tā vietā, lai datus kopētu manuāli, skripts to izdara dažu sekunžu laikā un var atkārtot šo procesu pēc jebkura grafika.

Jums ir nepieciešams skrāpis, kad:

  • Jūs uzraugāt konkurentu cenas: Manuāla pārbaude aizņem stundas. Skrāpis pārbauda tūkstošiem lapu dažu minūšu laikā.
  • Jums nepieciešami dati no vietnes bez API: Lielākā daļa vietņu nepiedāvā API. Skrāpis ir vienīgais veids, kā iegūt datus programmatiski.
  • Jūs apkopojat datus no vairākiem avotiem: Iegūstiet sludinājumus, atsauksmes vai statistiku no 10 dažādām vietnēm vienā datubāzē.
  • Jums nepieciešami dati pēc grafika: Svaigi dati katru stundu, dienu vai nedēļu bez jebkāda manuāla darba.

Piezīme par aizsardzību pret botiem: Vietnēm ar smagu JavaScript renderēšanu ir nepieciešams Playwright vai Selenium. Vietnēm ar agresīvu botu noteikšanu var būt nepieciešama starpniekserveru (proxy) rotācija. Es to novērtēju pirms cenas un izpildes termiņa apstiprināšanas.

Ko jūs saņemat

  • Pilnu Python pirmkodu: Tīru, komentētu kodu, kas pilnībā pieder jums
  • Izpildi pēc grafika: Cron uzdevuma vai uzdevumu plānotāja iestatīšana jūsu serverī
  • Kļūdu apstrādi un atkārtošanu: Skripts automātiski atgūstas no neizdevušiem pieprasījumiem
  • Izvadi jūsu vēlamajā formātā: JSON, CSV, Excel vai tieša ievietošana datubāzē
  • Reģistrēšanu (Logging): Izpildes vēsturi, kļūdu žurnālu un izvilkto ierakstu skaitu katrā palaišanas reizē
  • 7 dienu atbalstu pēc piegādes: Kļūdu labošana un nelieli pielāgojumi pēc piegādes bez papildu maksas

Kā tas darbojas

  1. Sazinieties ar mani — dalieties ar vietnes URL, norādiet, kādi dati jums nepieciešami, un cik bieži tie jāatjaunina.
  2. Es novērtēju iespējamību — pārbaudu vietnes struktūru un apstiprinu, vai skrāpēšana ir iespējama un kādi instrumenti ir nepieciešami.
  3. Fiksētas cenas vienošanās — jūs saņemat skaidru cenas piedāvājumu pirms darbu uzsākšanas. Nekādu pārsteigumu.
  4. Es izstrādāju un testēju — skrāpis tiek izveidots, testēts reālajā vietnē, izvade tiek pārbaudīta.
  5. Piegāde — pirmkods, izvietošana jūsu serverī un 7 dienu atbalsts ir iekļauts.

Tīmekļa skrāpju izstrādes cenas

Fiksēta cena par projektu. Tiek saskaņota pirms darbu uzsākšanas. Nekādu slēpto izmaksu.

Tīmekļa skrāpēšanas un datu parsēšanas cenas
Pakalpojums Kas tajā iekļauts Cena Izpildes laiks
Pamata skrāpis Viena vietne, statisks HTML, CSV vai JSON izvade no €60 1–2 dienas
Cenu monitors Cenu izsekošana pēc grafika, brīdinājumi par izmaiņām, vēstures reģistrēšana no €80 2–3 dienas
API parsētājs JSON/XML API atbilžu parsēšana, filtrēšana, strukturēšana, izvade no €80 2–3 dienas
Skrāpis + Datubāze Skrāpēšana un tieša ievietošana PostgreSQL vai MySQL datubāzē no €120 3–5 dienas
Vietņu ar smagu JS skrāpis Playwright vai Selenium dinamiskām vietnēm, pilns konveijers no €150 3–5 dienas
Skrāpis + LLM konveijers Skrāpēšana, apstrāde ar AI, tīru rezultātu ievietošana DB no €200 5–7 dienas

Stundas likme: €15/stundā par izmaiņām, papildinājumiem vai jaunām mērķa vietnēm pēc piegādes.

Nolīgstiet Scrapy izstrādātāju liela mēroga datu iegūšanai

Ja jums ir nepieciešams pārmeklēt tūkstošiem lapu daudzlīmeņu vietnē, Scrapy ir īstais rīks. Tas nodrošina vienlaicīgumu (concurrency), iebūvētus konveijerus un vienumu apstrādātājus tieši no kastes. Es strādāju kā ārštata Scrapy izstrādātājs projektiem, kas pārsniedz vienkāršu requests + BeautifulSoup iestatījumu.

Kad nolīgt Scrapy programmētāju, nevis pamata skrāpi:

  • Apjoms: Jums jāpārmeklē tūkstošiem URL vienā palaišanas reizē, nevis tikai daži desmiti.
  • Struktūra: Vietnei ir vairāki līmeņi — kategoriju lapas, sarakstu lapas, detalizētās lapas.
  • Konveijeri (Pipelines): Jums nepieciešama deduplikācija, validācija vai transformācija pirms dati nonāk datubāzē.
  • Vienlaicīgums: Ātrumam ir nozīme. Scrapy veic vairākus pieprasījumus paralēli bez papildu koda.

Es piegādāju pilnu Scrapy projektu ar "zirnekļiem" (spiders), vienumu definīcijām, konveijeriem un iestatījumiem, kas konfigurēti jūsu mērķim. Jūs saņemat tīru, dokumentētu kodu, kuru varat palaist vai paplašināt paši. Sazinieties ar mani, ja jums nepieciešams nolīgt piesaistītu Scrapy izstrādātāju jūsu projektam.

Kāpēc nolīgt ārštata tīmekļa skrāpju izstrādātāju, nevis aģentūru

Tieši nolīgstot piesaistītu tīmekļa skrāpju izstrādātāju, jūs saņemat vienu cilvēku, kurš izstrādā, testē un atbalsta skrāpi. Nekādu kontu menedžeru. Nekādu pieteikumu (ticket) rindu. Nekādu uzpūstu aģentūru uzcenojumu.

  • Tieša komunikācija: Jūs runājat ar izstrādātāju, kurš veido skrāpi, nevis ar projektu vadītāju, kurš nodod ziņojumus tālāk.
  • Ātrāks izpildes laiks: Pamata skrāpji tiek piegādāti 1–2 dienu laikā. Aģentūras par to pašu darbu pieprasa 2–3 nedēļas.
  • Fiksēta cena: Jūs vienojaties par apjomu un cenu pirms darbu sākšanas. Nekādu pārsteigumu ar stundas apmaksu.
  • Pilnas īpašumtiesības uz kodu: Jūs saņemat pilnu Python pirmkodu. Nav piesaistes konkrētai platformai vai abonementam.
  • Attālināta pieejamība: Es strādāju ar klientiem visā pasaulē. Attālināta tīmekļa skrāpju izstrādātāja nolīgšana nozīmē, ka nav ģeogrāfisku ierobežojumu.

Ja jums nepieciešami tīmekļa skrāpju izstrādātāja pakalpojumi un vēlaties tos bez liekiem izdevumiem, nosūtiet man ziņu.

Kad jums nepieciešams piesaistīts tīmekļa skrāpju izstrādātājs

Vienreizējs skrāpis ir labs vienreizējai datu iegūšanai. Taču daži projekti prasa pastāvīgu darbu. Nolīgstiet piesaistītu tīmekļa skrāpju izstrādātāju, kad:

  • Mērķa vietne bieži mainās: Vietnes atjaunina izkārtojumus. Piesaistīts izstrādātājs uztur un salabo skrāpi.
  • Jūs skrāpējat vairākas vietnes: Desmit dažādi avoti nozīmē desmit dažādas struktūras. Jums nepieciešams tīmekļa skrāpēšanas programmētājs, kurš spēj tikt galā ar visām no tām.
  • Jums nepieciešamas pastāvīgas datu plūsmas: Ikdienas vai stundas datu atjauninājumi prasa uzraudzību un darbspējas laika (uptime) pārvaldību.
  • Jūs integrējat iegūtos datus savā produktā: Datiem, kas darbina tiešsaistes lietotni, ir nepieciešama uzticamība, nevis tikai vienreizējs skripts.

Pastāvīgam darbam es piedāvāju abonēšanas maksu (retainer) €15 stundā. Sazinieties ar mani, lai apspriestu apjomu.

Biežāk uzdotie jautājumi

Cik maksā tīmekļa skrāpis?
Pamata skrāpis vienai vietnei maksā, sākot no €60. Pilns skrāpis ar plānošanu, datubāzes ievietošanu un kļūdu apstrādi maksā €100–200 atkarībā no vietnes sarežģītības un izvades prasībām. Cena ir fiksēta un tiek saskaņota pirms darbu uzsākšanas.
Vai jūs varat iegūt datus no jebkuras vietnes?
Lielāko daļu publiski pieejamo vietņu var noskrāpēt. Vietnēm ar smagu JavaScript renderēšanu nepieciešams Playwright vai Selenium. Vietnēm ar agresīvu pretbotu aizsardzību var būt nepieciešama starpniekserveru rotācija. Es apstiprinu iespējamību pirms samaksas saņemšanas.
Kādā formātā tiek piegādāti iegūtie dati?
JSON, CSV, Excel vai tieša ievietošana PostgreSQL, MySQL vai SQLite datubāzē. Formāts ir atkarīgs no tā, kā jūs plānojat datus izmantot. Es piegādāju formātā, kas atbilst jūsu darba plūsmai.
Kā es varu automātiski iegūt datus no vietnes?
Python skrāpis darbojas pēc grafika, izmantojot cron vai uzdevumu plānotāju. Tas apmeklē mērķa vietni, izvelk jums nepieciešamos datus un automātiski saglabā vai ievieto tos jūsu datubāzē. Jūs saņemat svaigus datus bez jebkāda manuāla darba.
Vai tīmekļa skrāpēšana ir legāla?
Publiski pieejamu datu iegūšana lielākajā daļā valstu parasti ir legāla. Es strādāju tikai ar publiski pieejamu datu skrāpēšanu un nepalīdzu apiet maksas barjeras (paywalls) vai skrāpēt datus, kas paslēpti aiz autentifikācijas.