Scraper des URL spécifiques, extraire des donnés précises et rechercher une chaîne

Dans ce tutoriel, nous allons traiter 3 besoins

  • Scraper uniquement une liste d’URL
  • Rechercher une chaine de caractères et compter le nombre d’occurrences
  • Extraire des données via une expression régulière (extraction de contenu)

Crawler en mode liste (Liste d’URL)

Si vous souhaitez crawler uniquement une liste d’URL précises, alors utilisez le module SCRAPE de SENTINEL.

Il est disponible dans le menu de SENTINEL (à gauche)

Rechercher une chaîne (mots)

Si vous souhaitez rechercher une chaine spécifique lors d’un crawl, allez sur la page « Configurer » d’un site avant de la crawler. Puis indiquez dans la partie « Rechercher » le texte que vous souhaitez rechercher.

SENTINEL (ou SCRAPE) va lors de son crawl non seulement vous indiquer la présence ou non de cette chaine sur chaque URL mais va aussi compter le nombre d’occurrences par URL en cas d’apparitions multiples.

Vous pourrez récupérer le résultat de la recherche via l’archive ZIP et un rapport CSV spécifique nommé : « Block »

Extraire des données (contenu) via une expression régulière

Si vous souhaitez extraire le contenu d’une nouvelle balise ou un contenu spécifique, vous pouvez cibler une zone précise en utilisant une expression régulière.

Imaginons que vous rédigiez du contenu sur vos pages de type « Catégorie » et que vous souhaitez extraire ce texte. Analysez entre quelles balises il est inclus sur votre site.

Imaginons cette implémentation :

<div class= »FooterSEO »>Bla Bla Bla</div>.

Allez sur la page « Configurer » d’un site avant de la crawler.

Puis indiquez dans la partie « Extraction de données » une expression régulière afin de scrapper ce contenu.

Voici des exemples :

<div class="FooterSEO">.*</div>
<h4>.*</h4>
<script type="application/ld+json">(.*?)</script>

Vous pourrez récupérer le résultat de l’extraction via l’archive ZIP et un rapport CSV spécifique nommé : « Block »

Vous pouvez tester vos expressions régulières avant de lancer un crawl via l’outil  « Extraction de Contenu par Expression Régulière » qui est proposé gratuitement dans « BOX ».

Pour en savoir plus sur les expressions régulières, nous vous recommandons d’utiliser chatgpt et de tester ce site : https://jex.im/regulex/