Introduction au Web Scraping avec Selenium

Dans cette formation, nous apprendrons à utiliser Selenium et BeautifulSoup pour faire du web-scraping! Mais en fait, c’est quoi le web-scraping? Le terme peut littéralement être traduit en français par « raclement du web » ou encore par « grattage du web ». Il s’agit donc de la collecte ou bien de l’extraction de données à partir du web. Par la réalisation d’un script dans un langage de programmation quelconque, le web-scraping vous permettra d’extraire le contenu d’un site web.

Cette technique est parfois utilisée à mauvais escient pour plagier des articles provenant de plusieurs sites web, et ce, afin de construire un site web n’ayant comme but que le profit. Heureusement, cette utilisation est désormais punie par les moteurs de recherche comme Google ou Bing. Autrement, cette technique trouve particulièrement écho dans la communauté scientifique et dans les nouvelles technologies. Afin de vous donner une idée des possibilités, voici quelques exemples d’utilisation:

Moteurs de recherche

Les différents moteurs de recherche sont basés sur le concept de web-scrapping. En effet, pour référencer un site dans leur moteur, les entreprises doivent fouiller le web à la recherche de site internet. Les «bots» des sites comme Google ou Yahoo vont chercher des sites sur le web, en extraire les métadonnées puis suivre les liens hypertextes dans la page, et ce, afin de réaliser le même processus sur ces pages.

Comparateurs de prix

Pour vous présenter les meilleurs prix, ces sites et ces logiciels doivent « racler » le web pour extraire les prix des différents produits.

Création d’une base de données

Dans certains cas, vous pourriez vouloir récupérer des informations sur un site web pour en faire une table de données. Le processus peut parfois être très long… Ouvrir une à une 1000 pages web, puis sélectionner un contenu précis, puis le mettre en forme dans un fichier Excel… C’est long… Avec le web-scraping, c’est 5 minutes…

Ressources

Installation

Python

PIP

Anaconda (Facultatif)

Problèmes de « path » avec Python ?

Introduction à Selenium

Installation de Selenium

Initialisation du programme

Hello… Google!

Comprendre les pages web

Raclons le web

Exemple concret

Pour aller plus loin…

Ressources pour Selenium

Alternatives à Selenium