24 octobre 2020

Le Booléen ne sert (plus) à rien !

2  comments

Pierre-André Fortin

Le booléen, ça vous parle ? C'est ce langage issu des travaux de l'algébriste logicien Georges Boole qui nous permet d’interroger un moteur de recherche. C’EST UN TRUC COOL DE SOURCING… ce petit plus, qui nous permet de nous sentir sachant vis à vis du profane ! C’est l’effet waouh du Sourceur… - faire une belle booléenne reviens à dire au profane  : hé ! t’as vu ! Moi je sais parler à Google  ! Et Toi?

Ça titille le geek qui sommeille en nous… et pour un peu, de loin dans le brouillard… ça fait développeur !!!

Plus sérieusement, le booléen est un langage qui nous permet de construire des requêtes précises et ainsi d’interroger le web afin d’en saisir la substantifique moelle…


Ne pas connaitre le booléen m’empêche-t-il de trouver une information ?

Bien sûr que non ! Si je cherche les horaires de TGV pour Paris-Marseilles, je peux le demander tel quel à Google et j’aurai ma réponse….

Qu’en est-il si cela concerne le profil d’un Chef de produit chez Unilever ?

J’en trouve aussi mais avec d’autres réponses beaucoup moins pertinentes…

Pour quelle raison?

Google comme du reste beaucoup des moteurs de recherches tend à évoluer vers du langage naturel… Ces 10 dernières années, la recherche sur le traitement automatique du langage naturel a fait des progrès énormes. Disponibilité des données, algorithmes auto-apprenants et puissance de calcul aidant... Les progrès sont fulgurants... au bénéfice de nouveaux services tels qu'Alexa, Siri, Google Assistant ou dans la pertinence de réponses apportés par des moteurs de recherche comme Bing ou Google.... 

Car oui, demander à Google ou à Bing "quand ouvre le bureau de poste de ma ville" c’est du requétage… et si aujourd'hui il nous parait normal et naturel d'avoir une réponse pertinente... il n'en a pas toujours été ainsi...

Le moteur de recherche, toujours plus intelligent, va jusqu'à comprendre une requête comportant des fautes d'orthographe...

Chaque jour, Google & Bing, pour ne citer qu'eux, progressent un peu plus apportant leurs lots d’innovation et surtout une précision toujours plus accrue.

Dans cette perspective nous pouvons nous interroger sur la pérennité du booléen dans ces moteurs stars…

Et de là à dire que le booléen ne sert plus à rien, il n’y a qu’un pas…

Pourquoi donc m’embêter avec une suite d’obscurs opérateurs peu sexy ?

La fluence booléenne, serait-elle uniquement un signe distinctif réservé à un club voué à la disparition...

Certes maîtriser le booléen me permettra de concourir à de multiples hackathon… et qui sait, peut-être d'en gagner ou de figurer dans le leaderboard, et gagner ainsi la reconnaissance de mes pairs….

Admettons-le une bonne fois pour toute… nos plus belles booléenes, les plus complexes et les plus léchées sont produites bien souvent lors de ces fameux hackathons ou sourcing games…  ces concours réunissant d’autres Sourceurs du monde entier… 

« Si tu connais pas le booléen, t’es pas un vrai Sourceur…. »

Sans jamais aller jusque-là, le Sourceur est bienveillant 😉… chacun brandit sa Boolean fluency comme un étendard, une compétence à avoir… Boolean ergo Sum…

Pourtant, avec les progrès réalisés par le langage naturel, il est probable qu’à terme le booléen disparaisse des moteurs de recherche courant…

LinkedIn ne l’a-t-il pas déjà expérimenté par le passé ? Certes, la plateforme a reculé devant les protestations de ses utilisateurs... pour autant, régulièrement certains opérateurs avancés sont abandonnés… relégués aux oubliettes...

Dans le cas LinkedIn, au regard des efforts de codification et normalisation qu'opère la plateforme sur chacun des champs, il est probable qu'un jour l'usage du booléen disparaisse à nouveau...


Pauvres Sourceurs… que deviendrons-nous?

Sourcer, c’est bien plus que faire du booléen… bon nombre d'excellents sourceurs, chargé(e)s de recherche  et recruteurs font un travail de recherche remarquable sans connaître les opérateurs avancés inurl:,  intitle: ou encore p:more:metatags-twitter_title:… Et pourtant ils sourcent... et leurs résultats sont loin d'être ridicules ! 

J'ai moi-même appartenu à cette catégorie, et ai toujours travaillé sur des compétences rares… peu visibles : Expert du refroidissement moteur par air pour l'automobile, Chef de projet maintenance TPM dans l'embouteillage… Data Scientist expert en Marketing digital capable de monter en avant-vente et de présenter ses résultats à une direction générale, Directeur de projet CRM expert de la plateforme Adobe Campaign…. J’en passe et des meilleurs… j’ai réalisé ces recherches sans connaitre les opérateurs avancés de Google, Bing ou Yandex…

En revanche j'ai mené ces recherches avec un approche méthodique où à chaque fois je recensais les univers dans lesquels évoluaient les compétences attendues, puis une fois ciblé le/les univers, je cartographiais le secteur par recension des entreprises les plus importantes (un classique Pareto sectoriel qui fait que +/- 20% des entreprises représentent +/- 80% d'un secteur). Une fois ce ciblage réalisé, il ne restait plus qu'à identifier les compétences espérées...

Point de booléennes complexes, bien au contraire ! Pour tout dire, lorsque j'en viens à concevoir des booléennes complexes c'est que je n'ai pas été assez rigoureux sur la méthodologie d'investigation et qu'il est donc plus que temps de revenir au basique.

Le basique "Qui je cherche ?" et "Où vais-je le trouver ?".  Car au risque d'enfoncer une porte ouverte, pour trouver quelque chose il ne suffit pas de le chercher.... encore faut-il savoir ce que nous cherchons précisément et surtout où nous le cherchons... et comment nous  devons le chercher... En d'autre terme, pour trouver quelques choses, il nous faut le comprendre... Quand nous jouons à "Où est Charlie" nous savons à quoi il ressemble...  N'oublions pas, rien ne ressemble plus à Charlie que Charlie....

Si nous ne sommes pas capables de répondre à ces questions, nous risquons de chercher longtemps... Pour trouver, il faut avoir une idée précise de ce que nous souhaitons trouver et surtout d'où nous allons le trouver. 

En d'autre terme, le plus long, n'est pas d'identifier ou de chercher le "Profil" mais bien de cibler l'écosystème où nous trouverons les compétences - ni trop large ni trop restreint... un subtil équilibre.

Il est en du recrutement comme de la pêche. 

Nous pouvons pêcher au filet ou au harpon... Dans tous les cas, si nous n'avons pas établi un plan d'action au préalable nous pourrons engager des actions mais celles-ci risquent d'être inefficientes...

Il est plus probable d'apercevoir un lion dans la savane que dans une forêt d'Europe... Est-ce à dire qu'il est impossible d'en apercevoir à Fontainebleau ? Non, bien sûr, il arrive qu'un zoo ou un cirque laissent échapper la bête... Mais avouons-le, fonder le succès de sa recherche sur cette approche est absurde. Il en est de même pour le sourcing et le recrutement... 

Avant de nous ruer sur telle ou telle plateforme, quand bien même elle ait été vendue en précisant que 2/3 de la population active y était présente, posons-nous quelques questions quant à comment nous entendons mener notre recherche.

De la méthode et un objectif : cibler, identifier et approcher des prospects pour en faire des candidats et selon les cas, les évaluer au regard du projet de notre client pour enfin accompagner l’un et l’autre dans un processus de détermination.

Le booléen est ici un infime rouage…

Au-delà de l'évolution magique vers le NLP (Natural Language Processing, traitement automatique du langage naturel) - le booléen n'est pas uniquement notre seule source pour trouver des profils pertinents...

Linkedin nous rend myope... apparaissant trop comme l'unique canal de sourcing... Meetup, github, reddit, Stackoverflow, Twitter, Medium.... autant de réseaux qui peuvent être des sources d'inspiration selon la recherche...

Prenons l'exemple d'une recherche pour un développeur NodeJs et React. Je peux bien évidemment en sourcer dans LinkedIn : quelques mots clés dans la barre de recherche et j'obtiens des résultats...

Et Alors ? pourquoi cette approche n'est pas satisfaisante ? 

Cette approche est limitante : tous les profils ne spécifient pas toujours les langages ou technologies sur lesquels ils travaillent... l'approche par mots clés vous fait passé à côté de nombreux profils qui pour autant pourraient être pertinents... 

Parce que vous n'êtes pas seuls à rechercher ces compétences, vous devrez déployer bien plus d'énergie pour retenir l'attention de ses prospects facilement identifiables et fortement sollicités.

Très bien mais comment faire? 

Si je sais qu'il existe une plateforme proposant par exemple des événements regroupant des centres d'intérêts, comme des groupes qui se réunissent pour échanger sur tels ou tels sujets. Et qu'il existe un groupe spécifique sur les technologies que je recherche, ne serait-il pas intéressant d'investiguer la plateforme ? 

Il y a fort à parier qu'une personne fréquentant régulièrement des événements NodeJs soit selon le cas un développeur intéressé par ces technologies.... ou alors un recruteur, malin, en quête de compétences comme vous.

Dans ce cas, la démarche sera par exemple de cibler le groupe meetup vous intéressant, d'en capturer la données avec un scraper -  InstantDataScraper fera très bien l'affaire. 

Une fois obtenu les participants de plusieurs événements, il sera facile de filtrer uniquement les plus assidus, puis d'en constituer une liste à rematcher avec LinkedIn et/ou github, pour l'enrichir et ainsi reconstituer son parcours et obtenir ses coordonnées...

Cet enrichissement pourra être, selon les cas et le volume, réalisé via une simple "googlisation" des profils ou automatiquement si la liste est conséquente via Phantombuster.

Dans ce cas, pas de booléen... ou si peu...

Mais au fait, si c'est pour finir dans LinkedIn, pourquoi toute cette gymnastique ?!

Et bien c'est simple, parmi les profils que vous aurez sourcés de la sorte, certains sont ce qu'on appelle des "profils squelettes", c’est-à-dire, des profils ne laissant apparaître que peu ou pas  d'informations... Informations que nous aurons obtenues via un autre canal. 

LinkedIn dans ce cas nous permettra d'enrichir le profil sur quelques informations et ainsi de faire des hypothèses quant à l'expérience, et surtout, LinkedIn nous offrira un levier de contact, parfois plus pertinent que les possibilités de contacts offertes par la plateforme initiale.

L'autre intérêt de la découverte de ces "profils squelettes", est qu'ils sont en général moins sollicités.... et donc parfois plus disposés à nous répondre...

Cet exemple est déclinable sûr d'autres plateformes ou communautés  telles que Github, Stackoverflow, Gitlab, HackerRank, Kaggle, Datasciencentral, GoogleScholar, Trailheadd Salesforces et bien d'autres encore.... Le web nous offre des gisements de sourcing insoupçonnés d'une richesse infinie.

Mais revenons au booléen ! 

Connaitre le booléen, c’est avoir les outils pour contraindre un moteur de recherche et ainsi d’orienter la recherche et  préciser là où on souhaite l'orienter… En d’autre terme, c’est reprendre la main !

Reprendre la main ?

S'il est facile d'obtenir la liste des opérateurs, il reste tout de même assez complexe de savoir comment fonctionne précisément ces moteurs de recherches.

Google n'indexe que 6% du web... et pourtant il indexe déjà quelques milliards de pages.

Plus gênant, est la compréhension de comment le moteur de recherche référence les pages et finalement ce qui détermine le ranking d'une page. 

Sujet complexe s'il en est, la documentation proposée est quant à elle sibylline... 

Autre sujet plus délicat, le fait que s'il est admis que nous ne puissions avoir 100% de résultats exploitables, certaines requêtes simples donnent des résultats plus qu'étranges alors qu'elles devraient être équivalentes...

Prenons un  exemple concret* :

Il est admis communément admis que l'opérateur AND puisse être remplacé par un espace et que par conséquent, ils aient la même signification.

87 résultats dont 21 Urls renvoyant à des profils LinkedIn - le reste sont des pages où figurent les trois mots. 

115 résultats dont 19 Urls renvoyant à des profils LinkedIn - le reste sont des pages où figurent les trois mots. 

Sur ces deux exemples "j'ai demandé" à Google de me retourner les pages comportant au moins une occurrence des termes "sourcer paris LinkedIn" - Les résultats sont des pages comportant l'occurrence de ses trois termes qu'importe où ils seront placés dans la page.

Si nous regardons le volume de résultats, la première requête apparait plus limitée avec 87 résultats que la seconde 115 résultats.

Plus curieux encore, lorsque nous comparons les résultats nous n'obtenons que 20 résultats communs aux deux requêtes et sur ces 20 résultats seulement 12 profils LinkedIn identiques.

Pour y parvenir nous avons récupéré le résultats de chacune des deux requêtes puis avons comparer les URL via la fonction Equiv ou Match dans google spreadsheet (cette fonction permet la recherche d'un élément sur une plage spécifique).

Cela semble réfuter l'équivalence de AND & de l'Espace.

Plus étrange encore sont les résultats lorsque nous introduisons l'opérateur "site:"

Les résultats de cette recherche sont pour tout aussi curieux... Dans la mesure où cette recherche d'un point de vue booléen est plus restrictive que la première - elle devrait donc nous donner moins de résultats.

Pour rappel, dans le premier cas lorsque je demandais à Google toutes les occurrences de pages contenant "sourcer paris LinkedIn".

Dans l'exemple ci-dessus, je ne lui demande de ne me retourner uniquement les pages du domaine "linkedin.com/in" contenant les mots sourcer et paris...

A nouveau lorsque je remplace l'Espace par AND j'obtiens un nombre de résultats différents. 

C'est à ne plus rien y comprendre ! J'ai les Booles !!!

Le booléen est-il mort ? Si je considère mes résultats, la question n'est pas si absurde... comment m'assurer lorsque j'opère une recherche que j'ai la complétude des résultats existants... Ou que j'ai les résultats les plus pertinents ? 

Au regard de ces différents exemples, la réponse est  malheureusement "Rien"

Il s'agit ici de la limite d'un système qui repose sur une croyance commune : le booléen nous permet d'interroger une base de donnée de "manière neutre" : or nous l'avons vu, les moteurs de recherche interprètent et extrapolent nos requêtes.... la neutralité est une chimère.

Il n'y a plus de "recherche neutre" 

La validité du résultat repose avant tout dans la confiance que nous avons envers le moteur de recherche... Tout comme pour la monnaie, le droit, ou le commerce, Il s'agit d'un consensus social sur lequel nous nous fondons. C'est parce que chacun y croit que  le système tient... 

Très bien mais alors comment je source ? 

Sourcer c'est cibler, identifier et approcher... 

Le fondement du sourcing reste la recherche... dans tout travail de recherche, la bibliographie est un travail central souvent mésestimé du néophyte ou béotien.... Ce travail bibliographique sera pour Nous autres sourcers, ce travail amont de ciblage qui vise à comprendre "où" et "comment" évolue le profil recherché... En d'autre terme, avant de nous ruer sur les mots clés, prenons le temps de comprendre l'écosystème, les enjeux et le métier du profil que nous souhaitons sourcer. Sans ce travail préalable pas de ciblage pertinent et pas de sourcing efficient. 

Cela nous invite aussi à questionner nos habitudes et certitudes de sourcing.

*Concomitamment à la rédaction de cet article un échange avec Guillaume Alexandre sur le référencement de profils LinkedIn sur Google, est venu quelque peu éclairer d'un jour nouveau nos certitudes sur le référencement, et plus largement sur l'opérationnalité du  booléen dans nos recherches... j'emprunte ici l'exemple de "sourcer paris LinkedIn" utilisé par Guilaume pour SosuV sur le Ranking Linkedin et ses perspectives pour le personal branding... 




Vous souhaitez laisser un commentaire? 

Votre adresse e-mail ne sera pas publiée.

  1. Salut Pierre-André,

    Je te rejoins sur la majorité des points et surtout (et c'est le plus important) sur l'esprit de ton article.

    Par rapport à gogle, le AND n'est pas un opérateur repris officiellement par Google.

    Il n'existe pas, l'espace est un soft AND.

    En fait il permet un combinaison des mots et c'est l'interprétation NLP qui donne des résultats différents.

    Google te propose des résultats en fonction de ce qu'il connais de toi 🙂

    A ma connaissance le seul moyen de faire un véritable AND est avec les "".

    Mettre un mot entre guillemets impose sa présence dans les résultats.

    Donc "A" "B" dans Google serait l'équivalent de (A AND B) au sens logique.

    1. Hello Nicolas, merci pour ton commentaire.
      Ton éclairage sur AND est des plus intéressants – A creuser… en faisant une rapide recherche sur les pages de supports Google, la liste des « opérateurs officiels » est in fine bien plus courte que celle que nous trouvons habituellement et que pour certains nous utilisons chaque jour.

      J’en reprends la liste :

      Search social media
      Put @ in front of a word to search social media. For example: @twitter.

      Search for a price
      Put $ in front of a number. For example: camera $400.

      Search hashtags
      Put # in front of a word. For example: #throwbackthursday

      Exclude words from your search
      Put in front of a word you want to leave out. For example, jaguar speed -car

      Search for an exact match
      Put «  » a word or phrase inside quotes. For example, « tallest building ».

      Search within a range of numbers
      Put « .. » between two numbers. For example, camera $50..$100.

      Combine searches
      Put « OR » between each search query. For example, marathon OR race.

      Search for a specific site
      Put « site: » in front of a site or domain. For example, site:youtube.com or site:.gov.

      Search for related sites
      Put « related: » in front of a web address you already know. For example, related:time.com.

      See Google’s cached version of a site
      Put « cache: » in front of the site address.

      Important: Not all search operators return exhaustive results.

      https://support.google.com/websearch/answer/2466433?hl=fr

      Point d' »inurl: » ou de « intitle: » ils sont pourtant documentés dans les pages parlant de Programmable Search Engine (ex Google CSE)
      « filetype: » quant à lui se retrouve, lorsqu’on indique la typologie de document recherché dans la page « Advanced search »
      https://www.google.com/advanced_search

      Les voies de Google sont impénétrables…

      Plus que jamais méthode plus que technique !

      https://ahrefs.com/blog/google-advanced-search-operators/

{"email":"Email address invalid","url":"Website address invalid","required":"Required field missing"}

D'autres articles

avril 8, 2021

Dans cet article seront abordés les notions d'automatisation.Comment

février 6, 2021

LinkedIn est aujourd’hui le Réseau professionnel de Référence

janvier 5, 2021

Recruter sans budget ou avec un faible budget