Semalt-gids over scraper-extensie voor Chrome

Om elk bedrijf te laten overleven en uiteindelijk te laten groeien, is het noodzakelijk om zijn concurrenten en verschillende risico's voor te blijven. Het nemen van beslissingen op basis van analytische gegevens is een zekere manier om deze problemen te vergeten. Dergelijke gegevens kunnen worden verkregen door gegevens te schrappen. Dat is waar eenvoudige schraper-extensie voor Chrome binnenkomt: het zal niet alleen het proces van gegevensverzameling vergemakkelijken, maar het ook mogelijk maken om onderweg te schrapen zonder ingewikkelde instellingen.

Hoe Scraper te gebruiken

    1. Het eerste dat u moet doen, is de extensie installeren, dus ga naar de Chrome-webwinkel, zoek naar "scraper" en klik op toevoegen aan Chrome.

    2. Navigeer naar de website waarvan u gegevens wilt schrapen , markeer het item waarin u geïnteresseerd bent door het te markeren. Klik er met de rechtermuisknop op en selecteer "vergelijkbaar schrapen" in het menu dat verschijnt.

    3. Als u dit doet, wordt een afzonderlijk scraperconsolevenster geopend. Hier ziet u een lijst met de geschrapte gegevens .

    4. Om de inhoud op te slaan, klikt u op "opslaan in Google-documenten", dit exporteert de gegevens automatisch naar een Google-spreadsheet.

Uitgebreid schrapen

Als u van plan bent meer gegevens te schrapen, kunt u de geavanceerde aanpak gebruiken. Let op, het zal veel gemakkelijker zijn om met de tool te werken als je enige kennis van HTML hebt. Stel dat u gegevens wilt schrapen uit een bron met een archief op basis van tijdreeksgegevens. Als u in dat geval de hierboven beschreven methode probeert, krijgt u de onleesbare gegevens.

Om dit probleem op te lossen, kunt u gebruik maken van een HTML- en XML-querytaal die bekend staat als XPath. Wat doet het? XPath herkent gegevens over de verschillende elementen in elke selectie. Het volgende is een gids over hoe u dit kunt doen:

1. Ga naar de Scraper-console, linksboven zou je een "XPath" -knop moeten zien, klik erop en ga verder met het samenstellen van de eerste tafel.

2. Je moet XPath schrijven voor het juiste element. De huidige XPath die de volledige informatie bevat, wordt weergegeven in een indeling als deze "// div [3] / div [3] / div [2] / div". De <div> -elementen worden door de computer herkend in het HTML-document.

3. Om de herkende gegevens te scheiden, moet u de Schraper-kolommen gebruiken. Om dit te doen, moet u zoeken naar de verschillende soorten informatie die u beschikbaar heeft. Afhankelijk van de gegevens die u scrapt, heeft u mogelijk titels. Deze titels zijn aanwezig naast elke set gegevens. Ze gaan vergezeld van een tag, in dit geval een <b> tag.

4. Lokaliseer en gebruik de <b> -tag aan uw XPath met behulp van het inspect-element. Nu kunt u deze eerste kolom labelen als de "titelkolom", omdat de titels worden weergegeven. Ga verder met het maken van verschillende XPaths voor elke kolom die je nodig hebt.

5. Klik op het schraapblad en de extensie oogst automatisch de gegevens en organiseert deze in de verschillende kolommen die u hebt ingesteld.