Link Humans

Buzzword – le scraping c’est un truc trop cool et top trendy… OUI Mais pas que!!!

Cet article est tiré du meetup “Scraping pour les recruteurs” qui a eu lieu le 4 octobre dernier chez LinkHumans. Encore un immense merci pour leur acceuil et leur soutien !!!

Le Scraping Kesako ?

Wikepedia est notre ami… en voici la définition :

Le web scraping (parfois appelé harvesting) est une technique d’extraction du contenu de sites Web, via un script ou un programme, dans le but de le transformer pour permettre son utilisation dans un autre contexte.

Scraper d’accord mais pour quoi faire?

Le scraping est une technique ou un outil selon le cas destiné à nous simplifier la vie :

Création de “Target lists”

Liste de sourceurs…

Récupérer par exemple le programme de #Trusourcing en un clic pour réexploiter pour se faire une targetlist de sourceurs…

Nous utiliserons un premier plugin Chrome : INSTANT DATA SCRAPER

Une fois installé, rdv sur la page du programme de #Trusourcing

Lançons notre nouveau plugin… 

Il ne reste plus qu’à télécharger le document..

Dans d’autres cas, je vais pouvoir aller scraper des listes de sociétés cibles…

par exemple je recherche un Data engineer, s’intéresser au salon du Big data et ses exposants peut avoir du sens…

https://www.bigdataparis.com/2019/exposants/

Si Instant data scraper focntionne pour récupérer la liste des exposants, je vous propose de regarder un nouvel outil : SCRAPER

Scraper fonctionne par “clic droit” 

Je copie dans le “presse-papier” et ouvre mon tableur préféré – GSuite pour ma part, et je colle le contenu… 

Il ne me reste qu’à remettre un peu en forme la donnée pour l’exploiter

Et me voici avec une liste de sociétés dans lesquelles je pourrais certainement trouver mon “Data engineer”

Si je vais plus loin, je prends cette liste que je copie dans ma feuille “OR Builder” et j’ai une booléenne sympathique…

https://docs.google.com/spreadsheets/d/1WWzvRcnIzjocaKHdChx9D5d7Jgj6BoMf98ss_rCvo7c/edit?usp=sharing

“Ab Initio” OR “ADELEAN” OR “Advanced Shema” OR “Alteryx” OR “Altares” OR “ASKR.AI” OR “Attunity” OR “BI” OR “Bluescale” OR “CentraleSupélec Exed” OR “Claranet” OR

Le tour est joué…

Optimisation des google X-Ray

Pour ce scraping nous continuons dans la découverte d’outils : DATAMINER.IO

Scraper les résultats de Google, quel intérêt? 

  • Eviter les doublons lorsqu’on mène une recherche itérative
  • Ouvrir plusieurs onglets automatiquement via un “Bulk opener”

Construisons notre scraper :

“New Recipe”

Nous allons ensuite ouvrir en bloc les URLS scrapées avec Multiple URL Opener

Et c’est parti…

Le cas Linkedin

Linkedin n’apprécie pas vraiment les scrapers… donc attention au Linkedout ou Linkedinjail.

Il existe pléthore d’outils… malheureusement payant pour la plupart…

Personnellement j’utilise LinkedinHelper… qui outre le scraping de profils permet d’automatiser un certain nombre d’actions.

LinkedinHelper embarque un bouton dans Linkedin “Add to LH” qui permet de mettre dans un Pipeline dédié le profil..

Une fois agrégée vous voilà en possession d’une liste qu’il ne vous reste plus qu’a downloader en CSV pour ensuite la travailler soit à partir de votre tableur ou ATS/CRM…


D’autres produits proposent ce même type d’option PEOPLE.CAMP est un produit gratuit, intéressant et prometteur… à suivre


Meetup & Web Scraper

Web Scraper est un plugin chrome auquel on accède via la console de Chrome – Il permet entre autre de construire un scraper avancé…

Je invite à consulter les tutoriels sur le site webscraper.io

Dans ce nouvel exemple nous allons scraper la liste de participants à un meetup. J’ai pris l’évènément “LA CLAQUE #29 – Faites-moi confiance, je suis commercial ;)”

Tout d’abord, je me loggue au site, sinon je n’aurais pas accès au nom complet…

Une fois loggué… je clique sur le lien “Voir tout” dans participants

Me voilà donc sur une page dédiée : 

“Clic droit” et inspecter

Rendez-vous dans Web Scraper

Create Sitemap

Chacun des “particpants” appartiennent à un “bloc” dans lequel sont stockés les informations qui nous intéressent – nous allons donc fair eune sélection multiple. 

Une fois sélectionné, je peux sauvegarder mon “Selecteur” et avancer dans la création du scraper.

Le principe est d’aller chercher le nom du participant, et ce qui serait fantastique, c’est qu’une fois sélectionné notre scraper ouvre chacun des profils pour aller “chercher” de l’information complémentaire. Certains profils contiennent un lien vers un profil linkedin, twitter ou facebook, ainsi que des informations sur la localisation voire une biographie… 

Ce premier sélecteur va donc aller chercher le contenu “Text” de la balise div.flex

Je vais créer un second sélecteur me permettant de scraper l’Url du profil.



Si on veux poursuivre le scraping du profil, il va falloir poursuivre en créat des sélecteur au niveau de l’url de profils…

On recréé un bloc de sélection dans lequel nous créerons les sélecteurs d’information que nous souhaitons obtenir.

Le nom : 

Le lieu : 

Comme il existe la possibilité de faire figurer plusieurs réseaux sociaux, nous allons créer un “bloc de sélection”

Une fois le bloc créer nous allons créer un sélecteur multiple de liens

Si je vérifie les données scrapées par “data preview” je dois obtenir deux liens : facebook & twitter.

Une fois les réseaux sélectionnés, je vais retourner au bloc précédent pour poursuivre la collecte, il me reste la biographie et le membership…

Puis le membership… toujours sur le même processus. 

Une fois terminé, je vais pouvoir lancer mon scraper.

Je peux régler la temporisation… sur meetup, celle par défaut est suffisante.


Quelques minutes plus tard, il ne vous reste plus qu’à charger le CSV issu du scraping et le tour est joué…