Tutoriel Chrome Web Scraper De Semalt Expert

Si vous utilisez Google Chrome, il existe une extension pour votre navigateur qui peut aider à gratter les pages Web. Il est connu sous le nom de «Scrapper» et peut être utilisé sans problème. Scrapper aidera à gratter le contenu d'un site Web et à télécharger les résultats dans les documents Google.
Comment supprimer un site Web à l'aide de l'extension Scraper?
1. Sélectionnez Chrome Web Store dans Google Chrome;
2. Dans les extensions, effectuez une recherche sur '' Scrapper '';
3. Le premier résultat de la recherche est l'extension connue sous le nom de «Scrapper»;
4. Sélectionnez le bouton répertorié comme «Ajouter à Chrome»;
5. Revenez à la liste des députés britanniques;
6. Cliquez sur le lien suivant;
7. Recherchez maintenant un député et assurez-vous que l'entrée est marquée;

8. Cliquez avec le bouton droit pour choisir l'option "Scrape Similar ...";

9. La console pour scrapper apparaîtra dans une autre fenêtre;
10. Affichez le contenu gratté dans la console du grattoir;
11. Pour vous assurer que le contenu est enregistré en tant que feuille de calcul Google, sélectionnez "Enregistrer dans Google Docs ..."
Grattage prolongé
Avant de s'en tenir à cette recette, il est utile de comprendre les bases du HTML. Par exemple, vous pouvez lire une courte introduction au HTML via ce lien
Imaginons que nous nous intéressions à tous les films avec Asia Argento, une célèbre actrice italienne.
1. Il existe une archive très détaillée des acteurs dans IMDB. Le site Asia Argento est: http://www.imdb.com/name/nm0000782/;
2. Ici, vous pouvez voir tous les rôles joués par l'actrice. Commençons par supprimer les informations qui nous intéressent;
3. Essayez de le gratter comme il a été décrit ci-dessus;
4. Vous verrez que la liste est un peu déformée. Cela est dû au fait que la liste ici peut être structurée différemment;
5. Dirigez-vous vers la console du grattoir. En haut à gauche, vous verrez la petite boîte qui dit XPath;
6. Xpath est une sorte de langage de requête qui fonctionne pour XML et HTML;
7. XPath peut aider à localiser les parties de la page qui vous intéressent. La prochaine chose est de trouver un élément approprié et d'écrire le XPath pour celui-ci;
8. Maintenant organisons notre table;
9. Vous verrez que notre XPath existant, qui contient toutes les données nécessaires, est "// div [3] / div [3] / div [2] / div";
10. XPath informe le système de visualiser le document HTML et de choisir le troisième élément, puis le deuxième et ensuite tous;
11. Mais, nous aimerions que nos données soient séparées;
12. Utilisez la section des colonnes dans la console pour le scrapper pour y parvenir;
13. Trouvons d'abord notre titre – Utilisez Inspect Element pour afficher le titre;
14. Vérifiez le titre dans une balise. Ajoutez la balise au XPath;

15. L'expression semble fonctionner correctement, alors faites-en notre première colonne;
16. Dans la section "Colonnes", remplacez le nom de la première colonne par "titre";
17. Ajoutez-y le XPath;
18. Dans la section des colonnes, les XPaths sont relatifs et cela signifie que "./b" choisira l'élément <b>
19. Dans le XPath pour la colonne de titre, ajoutez "./b" et sélectionnez "gratter";

20. Maintenant, continuons pendant un an. Les années peuvent être trouvées sur une seule période;
21. Créez une nouvelle colonne en sélectionnant le petit plus à côté de la colonne pour votre titre;
22. À l'aide de XPath "./span", créez une colonne pour "année";
23. Cliquez sur gratter et voir comment l'année a été ajoutée;
24. Terminé!