Skip to content


You are browsing EzinArticles.com faster than a normal human would

Tidigare i veckan var jag inblandad i ett internt webbprojekt som till stor del bygger på skrapad data. Åtminstone i början då vi inte har egen unik data som användare kommer och skapar på vår egen sajt.

Efter att ett lättanvänt PHP-bibliotek specialbyggt för skrapningsändamål hittades gick det relativt smidigt att enkelt hacka ihop ett “snabbt” hack som slet av all data från extern sajt och som sedan preparerade data så den passade vår egna databas.

Nej, sajten var inte EzineArticles.com, dock fick jag en ide att pröva att skrapa en av de större sajterna på nätet efter att skriptet var färdigt. Efter att ha analyserat EzineArticles kod visade det sig vara en bagatell att skapa en bot som skrapade in 35 000 artiklar till MySQL-databasen på localhost.

Dessvärre visade det sig att jag nog inte var den första som var sugen på att bygga upp mitt eget arkiv med 100 000 textfiler att nyttja och slakta i målet att hitta den unika textkombinationen då EzineArticles hade satt in skrapningsspärr på sajten (vilket jag upptäckte efter att jag blev IP-bannad).

Nåja, ett steg fram och två steg tillbaka, en kollega föreslog att jag skulle titta på TOR som anonymerings-lösning så att jag skrapar från multipla IP istället för ett och samma IP, vi får se om jag orkar ta mig tid att kolla på TOR eller om jag siktar på en annan sajt istället.

Hur som helst, är du också sugen på att skrapa lite data från Internet tycker jag du också ska ta en titt på simplehtmldom.

Lycka till ;)

Relaterade inlägg

Posted in Egna webprojekt.

Tagged with , , , .


2 Responses

Stay in touch with the conversation, subscribe to the RSS feed for comments on this post.

  1. Muhammad Afandi says

    Swedish>English

    Well Hi there!

    I got this page as well. ahaha.. how do you copy articles from ezine automatically.

    I’m not so technically powerful..

    Please help me out here!

    Thanks

  2. Erkan says

    There is no easy solution to copy articles from the eZinearticles.

    First you need to make a custom script that fetches links to articles, then you code a script that fetches just the text from the articles, preferably straight into your database running on localhost.

    But eZinearticles knows about this, so they put a block if they sense someone with the same IP-number is accessing articles faster than what is normal.

    One solution would be to do this over different IP-adresses by using anon IP, how you do that is unknown by me but maybe I will check it out in the future.

    Wikipedia, the other big “scraping site” is alse a nice site to scrape, but you do not have to since they offer their full DB for download :)



Some HTML is OK

or, reply to this post via trackback.


Blogg listad p Bloggtoppen.se
Blogg Topplista
Top Internet bloggar