Een volledig overzicht dankzij webscraping

Een volledig overzicht dankzij webscraping

Door: Peter – 26/07/2019

Bent u ook benieuwd naar de techniek achter ons platform? Regelmatig krijgen wij de vraag hoe iedere dag nieuwe banen geüpload worden op werkenindeeuregio. Kunnen gebruikers deze vacatures direct posten op het platform, zonder tussenkomst van een van onze collega’s? Middels deze post geven wij inzicht in hoe Octoparse ons ondersteund om een volledig overzicht te geven van alle beschikbare vacatures in de regio, zelfs wanneer bedrijven hun vacatures niet direct op werkenindeeuregio plaatsen. Octoparse helpt bij het scrapen van vacatures van diverse websites; vergelijkt deze met elkaar, en stuurt enkel het beste resultaat door om daadwerkelijk te posten op ons vacatureplatform.

Scrapen

Scrapen, of specifieker web scraping omhelst het geautomatiseerd, periodiek controleren van een webpagina op inhoud. Hierbij gebruiken we html attributen om te ontdekken waar elk stukje informatie (titel, beschrijving, bedrijfsnaam, etc.) is opgeslagen. Zelf kun je eenvoudig de structuur van een webpagina bekijken door met je rechtermuisknop te klikken op een willekeurige webpagina en te kiezen voor ‘view page source’ of ‘inspect’. Voor deze pagina ziet dit er als volgt uit:

Zoals je kunt zien zijn er diverse elementen die ontdekt kunnen worden in de opbouw van de website. Deze elementen kunnen het beste vergelijken worden met een inhoudsopgave van een boek.

Octoparse

Octoparse is een web scraping tool waarmee we elk html attribuut op een pagina kunnen aanduiden en automatisch kunnen opslaan en exporteren. Octoparse heeft een intuïtieve, visuele interface waardoor zelf niet geprogrammeerd hoeft te worden. Vergevorderde gebruikers kunnen natuurlijk wel gebruik maken van ‘custom code’ om specifieke data te kunnen onttrekken van een webpagina.

Octoparse gebruik de elementen (de inhoudsopgave van de site) om consistent dezelfde inhoud op elke pagina te ontdekken en onttrekken. Daarnaast kan Octoparse logische paden, bijvoorbeeld naar een productpagina/subpaginas of webshop ontdekken en opslaan, om deze later te gebruiken bij het ophalen of navigeren naar een pagina waar tekst en media vandaan gekopieerd moet worden. Octoparse kan zelfs doorklikken naar volgende pagina’s en producten om zo zelfstandig op zoek te gaan naar specifieke elementen.

De gratis versie van Octoparse is voldoende om te starten met het bouwen van een eigen webscraper, de uitgebreidere versies bieden meer flexibiliteit en cloud processing + cloud opslag. Zelf aan de slag? Octoparse