Apache SPARK ML : principes, concepts et mise en œuvre MICHRAFY MUSTAFA
Cette étude vise à présenter les concepts et les étapes pour la mise en œuvre d’une méthode d’apprentissage dans le cadre de Spark ML (API de méthodes d'apprentissage en SPARK) :
1. Spark ML : motivations
2. Transformateurs et estimateurs
3. Concepts de Pipeline
4. Évaluation d’une méthode d’apprentissage
5. Validation croisée et sélection des variables
6. Mise en œuvre des concepts sous Spark ML
Big Data : Hadoop
- Généralité
- Architecture HDFS
- Algorithme MapRduce
- Architecture YARN
- Hadoop v3.x vs Hadoopv2.x
Cours Big Data - Chap2 - GI3 - ENIS
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Big Data : Hadoop
- Généralité
- Architecture HDFS
- Algorithme MapRduce
- Architecture YARN
- Hadoop v3.x vs Hadoopv2.x
Cours Big Data - Chap2 - GI3 - ENIS
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Se rendre visible sur le web mobile avec le seoMarref Imen
Les référenceurs se sont tournés vers le SEO mobile depuis l'apparition des smartphones et le développement des applications web sur mobile.
Pour obtenir un référencement naturel et efficace sur mobile, il convient de respecter certaines règles que j'essaye de recenser dans cette présentation.
Ce document, accompagné d’une série d’exercices corrigés, constitue un support de formation présentielle d’une durée de 5 jours basé sur le cours officiel de Microsoft 20480B.
La data science au service du consultant SEO | SEO Campus 2023Grégory Florin
La data science est un excellent assistant pour le consultant SEO.
Nous allons vous présenter différents exemples pour illustrer comment la data va nous aider à aller plus vite et plus loin.
Google est le champion de la data et naturellement sa plateforme cloud propose toutes les briques nécessaires pour mettre en place un Data lake.
Dans cette présentation, nous vous détaillerons les différents services permettant de mettre en place concrètement un data lake, et ainsi répondre aux questions suivantes:
Comment stocker mes données ?
Comment les intégrer ?
Comment les exploiter ?
Comment orchestrer des traitements ?
Comment maitriser mon data lake ?
Imprimer le vivant : de l’impression à la biologieArchivesdeLyon
Par Christophe Marquette
Pour les Amis du Musée de l'Imprimerie
L’impression a fait un saut vers une troisième dimension qui lui va bien. Loin des préoccupations initiales de l’imprimerie historique ou moderne, mais tellement proche au niveau technologique, l’impression 3D (ou fabrication additive) s’inspire et adapte l’imprimerie au monde de la manufacture d’objets. La santé n’est pas en reste, voire est pionnière, et propose des applications dans des domaines aussi hétéroclites que les implants, les tissus vivants, voire les organes. La conférence offrira une introduction à ce foisonnement de recherches alliant technologie, biologie et médecine.
ChatBot : Intelligence Artificielle et Automatisation de l’Interaction Utilis...hoktechco
L’essor des chatbots propulsés par l’intelligence artificielle transforme la manière dont les entreprises et les institutions interagissent avec leurs utilisateurs. Grâce aux algorithmes de traitement du langage naturel (NLP) et à l’apprentissage automatique, ces assistants virtuels sont capables de répondre instantanément aux questions, d’automatiser les tâches répétitives et d’améliorer l’expérience client.
Cette présentation explore le fonctionnement des chatbots, depuis leur architecture jusqu’à leur mise en œuvre dans différents domaines tels que le service client, l’éducation, la finance et la santé. Elle met en lumière les différentes technologies utilisées, notamment les modèles d’IA comme GPT, les frameworks de développement tels que Dialogflow et Rasa, ainsi que les défis liés à la compréhension du langage naturel et à l’adaptation aux besoins des utilisateurs.
Nous aborderons également les enjeux éthiques et les limites de ces systèmes, notamment en matière de biais algorithmiques, de protection des données et d’impact sur l’emploi. Enfin, nous examinerons les tendances futures et les innovations qui façonneront la prochaine génération de chatbots intelligents.
Notre meetup du mois de mars
- Question pour un conteneur par Aurélie Vache et Shérine Khoury
- NetObserv - observabilité réseau et eBPF par Joel Takvorian
Hosté par FGTech
Onopia - 30 jours pour intégrer l’IA Générative dans votre quotidien pro
L’intelligence artificielle générative est en train de transformer le monde professionnel.
Que ce soit pour
- automatiser des tâches,
- gagner en productivité,
-stimuler la créativité,
- ou affiner la prise de décision, elle offre des opportunités inédites.
Pourtant, beaucoup hésitent encore à l’utiliser faute de temps ou de méthode.
Ce livret gratuit a été conçu pour vous permettre d’explorer **progressivement** les capacités de l’IA générative et de l’intégrer efficacement à votre quotidien professionnel. Pendant **30 jours**, vous disposerez de **3 prompts quotidiens** à tester, soit un total de **90 prompts concrets et actionnables**.
### **Pourquoi suivre ce programme ?**
Apprendre à utiliser l’IA ne se limite pas à connaître les outils, mais aussi à **savoir poser les bonnes questions**. La clé d’une utilisation efficace repose sur la capacité à structurer ses prompts pour obtenir des réponses pertinentes et exploitables. Grâce à ce livret, vous allez :
✅ **Comprendre comment formuler des prompts précis et optimisés**
✅ **Expérimenter des cas d’usage concrets adaptés aux professionnels**
✅ **Développer des compétences pratiques en IA sans perdre de temps**
✅ **Identifier les meilleures stratégies pour maximiser les résultats de vos interactions avec l’IA**
### **Comment fonctionne ce programme ?**
Chaque jour, vous recevrez **trois prompts** répartis en trois catégories :
1. **Optimisation & productivité** : simplifier, automatiser et améliorer vos tâches quotidiennes
2. **Créativité & innovation** : explorer de nouvelles idées et générer du contenu original
3. **Analyse & prise de décision** : structurer des réflexions stratégiques et affiner votre vision
Les exercices sont conçus pour être **rapides** (quelques minutes par jour), tout en vous offrant des résultats concrets et immédiatement applicables.
### **À qui s’adresse ce livret ?**
📌 **Entrepreneurs & dirigeants** souhaitant optimiser leur gestion du temps et structurer leurs réflexions
📌 **Consultants & marketeurs** cherchant à enrichir leurs analyses et leurs stratégies
📌 **Formateurs & coachs** voulant tirer parti de l’IA pour créer du contenu de valeur
📌 **Tout professionnel curieux** de comprendre et d’exploiter l’IA générative au quotidien
En **30 jours**, vous aurez acquis des **réflexes** et des **compétences clés** pour faire de l’IA un **véritable levier d’efficacité et d’innovation**. Téléchargez dès maintenant votre livret et commencez votre transformation digitale !
Managers Interviews - Data, IA et Humanité-compressed.pdfELYADATA
Dans cette interview, Salim Jouili Ph.D., CEO de ELYADATA, nous plonge dans la genèse de l'entreprise et partage sa vision sur la data, l'IA et l'humain.
Un récit authentique qui dévoile ce qui fait vraiment la différence d'elyadata.
hashtag#interview hashtag#IA hashtag#humanité
Les métiers dans l'Intelligence Artificielle c'est un domaine en pleine expan...Erol GIRAUDY
L’IA est un domaine en pleine expansion qui ouvre la voie à de nombreux métiers.
Les impacts de l'IA
L’IA transforme profondément notre quotidien et l’industrie
Les compétences nécessaires
Quel que soit le métier choisi dans l’IA, certaines compétences techniques et transversales sont indispensables
Les cursus possibles et études en France
Pour se lancer dans l’IA dès le lycée, il est essentiel de développer un socle solide en mathématiques et en informatique. Voici quelques parcours et formations envisageables
Quels métiers de l'IA ont le plus d'avenir ?
Quels sont d'autres métiers de l'IA émergents?
Pour aller plus loin…
Quelles compétences sont nécessaires pour ces nouveaux métiers?
Quelles formations recommandiez-vous pour acquérir ces compétences ?
Des sites pour mieux comprendre l’IA :
Tableaux récapitulatifs
L’IA générative transforme l’éducation aux médias et à l’information | Réseau Canopé
https://www.reseau-canope.fr/actualites/article/lia-generative-transforme-leducation-aux-medias-et-a-linformation
Tous les MOOC dédiés à l'Intelligence Artificielle | My Mooc
https://www.my-mooc.com/fr/categorie/intelligence-artificielle
L'Intelligence Artificielle... avec intelligence ! - Cours - FUN MOOC
https://www.fun-mooc.fr/fr/cours/lintelligence-artificielle-avec-intelligence/
Découvrir et comprendre l'intelligence artificielle avec le Mooc Class'Code IAI - francenum.gouv.fr
https://www.francenum.gouv.fr/formations/decouvrir-et-comprendre-lintelligence-artificielle-avec-le-mooc-classcode-iai
Welcome to LlamaCloud 🦙 | LlamaCloud Documentation
https://docs.cloud.llamaindex.ai/
Présentation du centre pour les enseignants - Centre Microsoft Learn pour les enseignants | Microsoft Learn
https://learn.microsoft.com/fr-fr/training/educator-center/
Programme d'école Showcase
https://learn.microsoft.com/fr-fr/training/educator-center/programs/microsoft-educator/showcase-schools
Erol GIRAUDY - YouTube mes vidéos et PowerPoint :
https://www.youtube.com/@EROLGIRAUDY
https://www.ugaia.eu
https://gouver2020.blogspot.com/
https://uga-ia.blogspot.com/
https://www.erolgiraudy.eu/2024/10/mes-15-livres.html
https://uga-ia.blogspot.com/2025/03/mon-guide-sur-lia-et-la-genealogie.html
1. Présenté par :
NABIL Anass
BENABDELKADER Marouane
Université Sultan Moulay Slimane
École Supérieure de technologie – Fkih Ben Salah
LP BIG DATA
Année universitaire : 2023-2024
Web Scraping / Data Scraping
Encadré par :
Prof Rachid AIT DAOUD
2. Plan
I. Web Scraping : Définition
II. Pourquoi Web Scraping ?
III. Le processus de Web Scraping
IV. Outils de Web Scraping
V. Beautiful Soup
VI. Protection contre le web scraping
VII.Exemple Web Scraping
VIII.L’aspect éthérique et juridiques du Web Scraping
2
3. Definition
● Le web scraping, également connu sous le nom de data scraping, est le processus d'extraction et de
collecte de données sur Internet ou des sites Web. Les données récupérées peuvent être enregistrées sur un
système local ou peuvent être utilisées pour l'analyse des données.
● Une fois les données extraites et stockées, elles peuvent être utilisées de plusieurs manières. Par exemple,
pour trouver des informations de contact ou comparer des prix sur différents sites web.
3
4. Definition
● Le web-scraping permet de collecter des données :
○ Automatiquement : Des outils spécialisés naviguent et récupèrent les informations sans intervention
humaine, réduisant les erreurs et augmentant l'efficacité.
○ Rapidement : Cette automatisation permet de traiter des pages web à une vitesse bien supérieure à
celle d'une personne, ce qui est crucial pour les tâches où le temps est un facteur déterminant.
○ En grande quantité : Capable de gérer des volumes de données massifs, le web scraping est idéal pour
les projets nécessitant de grandes quantités d'informations, telles que l'analyse de marché
4
5. Pourquoi web Scraping
1. Comparaison des prix des produits :Les sites web de comparaison de prix
peuvent utiliser le web scraping pour extraire des données de différents sites de
vente en ligne et afficher les résultats aux utilisateurs
2. Données d'IA et d'apprentissage automatique : Le web scraping pour
l'apprentissage automatique aide les data scientists à collecter les informations
requises pour alimenter leurs ensembles de données.
3. Développement d'applications : Les développeurs peuvent utiliser le web
scraping pour intégrer des données provenant de différentes sources dans leurs
applications.
4. Analyse de marché :Les professionnels du marketing et les entreprises peuvent
utiliser le web scraping pour recueillir des données sur les tendances du marché,
les préférences des consommateurs et d'autres informations pertinentes.
5
6. Pourquoi web Scraping
4. Surveillance du sentiment des consommateurs
5. Mise à jour de contenu : Certains sites web peuvent utiliser le web
scraping pour mettre à jour automatiquement leur contenu en récupérant
des informations à partir de sources externes.
6
7. 7
Industrie de Web Scraping
● Dans le meilleur des cas, le
web scraping sert à de
nombreuses fins utiles dans
de nombreux secteurs.
● En 2021, près de la moitié
de l’ensemble de
l’extraction web est utilisé
pour soutenir les stratégies
de commerce électronique.
9. Processus de base du web scraping
1. Identification de la cible : Identifiez les pages spécifiques ou les sections du site
contenant les données que vous souhaitez extraire.
2. Analyse de la structure du site : Identifiez les balises HTML, les classes, les
identifiants et les modèles qui entourent les données que vous souhaitez extraire.
3. Sélection de l'outil de scraping :Utilisez les bibliothèques de scraping pour
naviguer à travers la structure HTML du site et extraire les informations
nécessaires.
4. Exécution du script de scraping : Écrivez un script pour accéder au site web et
extraire les données souhaitées, puis lancez le script pour collecter les données à
partir du site web cible.
5. Stockage des données : stocker les données extraites dans un fichier local, une
base de données, ou même un service de stockage cloud.
9
10. Analyse de la structure du site
● Dans le code HTML d’une page web, les informations sont associées à différents
types de balises :
○ title renseigne le titre de la page
○ h1 à h6 composent les titres et sous-titres du contenu
○ img est une balise associée aux images
○ a permet d’insérer un lien hypertexte
○ table est la balise associée aux tableaux
○ span et div sont des balises génériques qui peuvent être associées à une
classe spécifique (ce qui permet de rendre la balise unique).
10
11. Pouvez-vous extraire tous les sites
Web ?
Le scraping entraîne une augmentation du trafic sur le site Web et
peut provoquer une panne du serveur du site Web.
Ainsi, tous les sites Web ne permettent pas aux utilisateurs
d’extraite leurs données.
Comment savoir quels sites Web sont autorisés ou non ?
12. Robots.txt
● Vous pouvez consulter le fichier
« robots.txt » du site Web.
● Il vous suffit de mettre robots.txt après
l'URL que vous souhaitez récupérer et
vous verrez des informations indiquant
si l'hébergeur du site Web vous autorise
à supprimer le site Web.
● Prenons Google.com comme exemple :
12
Vous pouvez voir que Google
n'autorise pas le web scraping
pour bon nombre de ses sous-
sites. Cependant, il autorise
certains chemins comme «
/m/finance » et donc si vous
souhaitez collecter des
informations sur la finance,
c'est un endroit tout à fait légal
à gratter.
13. L’aspect éthérique et juridiques du Web
Scraping
● Consentement : Le scraping de sites web sans
consentement peut violer les termes et conditions
de ces sites, ce qui pose des questions d'éthique
sur le respect de la propriété et des règles établies
par les propriétaires de sites web.
● Respect de la vie privée : La collecte de données
personnelles sans consentement des individus
peut enfreindre les lois sur la protection de la vie
privée, comme le Règlement général sur la
protection des données (RGPD) en Europe.
13
14. L’aspect éthérique et juridiques du Web
Scraping
● Charge sur les ressources : Un scraping intensif peut surcharger les serveurs
des sites web, affectant potentiellement leur fonctionnement et leur accessibilité
pour les autres utilisateurs.
● Utilisation des données : L'utilisation des données collectées pour des fins
malveillantes, comme le spamming ou la concurrence déloyale, est également
un aspect critique.
● Propriété intellectuelle : Le contenu des sites web peut être protégé par des
droits d'auteur, et sa réutilisation sans autorisation peut constituer une infraction.
14
15. Avantages de web scraping
● Gain de temps : Lorsque vous utilisez le web scraping, vous n'avez pas besoin de
collecter manuellement les données des sites Web et vous pouvez rapidement
supprimer plusieurs sites Web en même temps.
● Données à grande échelle : le Web scraping vous fournit des données dans un
volume bien supérieur à celui que vous pourriez jamais collecter manuellement.
● Rentable : un simple grattoir peut souvent faire l'affaire, vous n'avez donc pas besoin
d'investir dans des systèmes complexes ou du personnel supplémentaire
● Modifiable : créez un grattoir pour une tâche et vous pouvez souvent le modifier pour
une tâche différente en n'apportant que de petites modifications.
● Précis et robuste : configurez correctement votre scraper et il collectera avec
précision les données directement à partir des sites Web, avec un très faible risque
d'introduction d'erreurs.
15
17. ● Beautiful Soup : Une bibliothèque Python qui facilite l'extraction
d'informations à partir de fichiers HTML et XML. Elle est souvent utilisée
conjointement avec la bibliothèque requests pour effectuer des requêtes
HTTP.
● Requests : Bien que principalement une bibliothèque Python pour effectuer
des requêtes HTTP, elle est souvent utilisée en conjonction avec Beautiful
Soup pour extraire des données de pages web.
● Scrapy : Un framework Python open source dédié au web scraping. Il offre
une architecture robuste pour le scraping de sites web de manière structurée
et extensible.
● Selenium : Une suite d'outils pour automatiser les navigateurs web. Il est
souvent utilisé pour le scraping de sites web qui utilisent JavaScript pour
générer leur contenu, car il permet de simuler l'interaction avec un
navigateur.
17
Outils de Web Scraping
18. ● Octoparse : Octoparse est un logiciel de web scraping, qui permet
d’extraire un volume important de données sur le web. Cet outil no
code offre la possibilité de transformer les pages web en feuilles de
calcul structurées, sans avoir besoin de connaissance technique.
● ParseHub : ParseHub est un outil de web scraping permettant aux
professionnels d’extraire des données, même complexes, à partir de
pages web, sans avoir besoin de savoir coder. Les données sont
collectées à partir de l’interface desktop et exportées dans des feuilles
de calcul structurées.
● ParseHub et Octoparse sont deux outils similaires dans le sens où ils
sont tous deux des plateformes de web scraping visuel, permettant
aux utilisateurs d'extraire des données à partir de sites web sans
nécessiter de compétences avancées en programmation.
18
Outils de Web Scraping
19. Les basiques Beautiful Soup
1. Récupérer la page web
2. Analyser le contenu HTML : Utilisez BeautifulSoup pour analyser le
contenu HTML de la page.
3. Trouver les éléments cibles : Utilisez les méthodes de BeautifulSoup pour
trouver les éléments HTML que vous souhaitez extraire.
19
20. Les basiques Beautiful Soup
● Si vous n’avez pas besoin de l’élément complet, mais seulement du texte, vous
pouvez également le faire avec get_text():
20
résultat
résultat
21. ● Et si vous n’avez besoin que de l’attribut d’un élément ? Aucun
problème :
21
23. Protection contre le web scraping
● Blocage des adresses IP : De
nombreux hébergeurs web gardent
la trace des adresses IP de leurs
visiteurs. Si un hébergeur remarque
qu’un visiteur particulier génère de
nombreuses requêtes de serveur
(comme dans le cas de certains
extracteurs de sites web ou robots),
il peut alors bloquer entièrement
l’IP.
23
24. Protection contre le web scraping
● Configuration de robots.txt : Un
fichier robots.txt permet à un
hébergeur web d’indiquer aux
extracteurs, aux analyseurs et aux
autres robots ce à quoi ils peuvent
ou non accéder. Par exemple,
certains sites web utilisent un
fichier robots.txt pour rester privés
en indiquant aux moteurs de
recherche de ne pas les indexer. Si
la plupart des moteurs de recherche
respectent ces fichiers, ce n’est pas
le cas de nombreuses formes
malveillantes d’extracteurs web.
24
25. Protection contre le web scraping
● Filtrage des requêtes : Lorsqu’une
personne visite un site web, elle «
demande » une page HTML au
serveur web. Ces requêtes sont
souvent visibles pour les
hébergeurs web, qui peuvent voir
certains facteurs d’identification
tels que les adresses IP et les agents
utilisateurs comme les navigateurs
web. Nous avons déjà abordé le
blocage des IP, mais les hébergeurs
web peuvent également filtrer par
agent utilisateur.
25
26. Protection contre le web scraping
• Afficher un Captcha : Avez-vous
déjà dû saisir une étrange chaîne de
texte ou cliquer sur au moins six
voiliers avant d’accéder à une page
? Alors vous avez rencontré
un Captcha. Bien qu’ils soient
simples, ils sont incroyablement
efficaces pour filtrer les extracteurs
web et autres robots.
26
27. Protection contre le web scraping
• Honeypots : Un honeypot ou pot de
miel est un type de piège utilisé
pour attirer et identifier les visiteurs
indésirables. Dans le cas des
extracteurs web, un hébergeur web
peut inclure des liens invisibles sur
sa page web. Les utilisateurs
humains ne s’en apercevront pas,
mais les robots les visiteront
automatiquement en les faisant
défiler, ce qui permettra aux
hébergeurs web de collecter (et de
bloquer) leurs adresses IP ou leurs
agents utilisateurs.
27
28. https://books.toscrape.com/
28
● C'est un endroit sûr pour les débutants qui apprennent le web scraping et pour les
développeurs qui valident également leurs technologies de scraping.
29. Grandes lignes du projet
● Nous allons récupérer les informations suivantes sur notre site
https://books.toscrape.com/
○ Les titres de livres
○ Les prix
○ La disponibilité des stocks
○ Lien pour obtenir chaque livre
● Après avoir collecté les informations, nous allons les stocker dans un
cadre de données Pandas et les convertir en fichier CSV pour un accès
facile et une analyse plus approfondie.
29
33. Utilisation de l’élément Inspect pour obtenir
l’emplacement des informations nécessaires.
● get_book_titles récupère le texte d'une balise dans la balise h3.
33
38. Collecte de données à partir de plusieurs pages
● Dans cette section, nous allons créer une fonction pour collecter les
informations de plusieurs pages.
● L'image montre les cinq premières pages, à partir desquelles nos
informations doivent être récupérées.
38
https://books.toscrape.com/catalogue/page-1.html https://books.toscrape.com/catalogue/page-2.html https://books.toscrape.com/catalogue/page-3.html
https://books.toscrape.com/catalogue/page-4.html https://books.toscrape.com/catalogue/page-5.html