Skip to content

Многопоточный автоматический парсинг сайта и занесение данных в базу PostgreSQL (selenium, concurrent, beautifulsoup, bleach)

Notifications You must be signed in to change notification settings

Yyalexx/scraping-to-postgresql-data-base

Repository files navigation

Многопоточный автоматический парсинг сайта и занесение данных в базу PostgreSQL

Результат проекта - база данных рецептов для дальнейшего использования при создании приложения.
Реализован многопоточный автоматический парсинг сайта с рецептами и занесение структурированных данных в базу данных PostgreSQL.

СТРУКТУРА БАЗЫ ДАННЫХ

Этапы проекта:

  • 1.1. Сбор ссылок сайта на страницы с рецептами.
  • 1.2. Парсинг по ссылкам п. 1.1
  • 1.3. Создание датафреймов в соответствии с приведенной выше структурой базы данных.
  • 2.1. Создание базы данных PostgreSQL и соответствующих таблиц в ней.
  • 2.2. Заполнение базы данными из датафреймов п. 1.3.

1.1. Сбор ссылок сайта на страницы с рецептами.

Многопоточный автоматический парсинг с использованием Selenium, BeautifulSoup и concurrent реализован в скрипте multigrab_urls.py

1.2. Парсинг по ссылкам.

Многопоточный автоматический парсинг с использованием Selenium, BeautifulSoup, bleach и concurrent реализован в скрипте scrap_recipes.py.

1.3. Создание датафреймов в соответствии с приведенной выше структурой базы данных.

Реализовано в ноутбуке make_dfs.ipynb

2.1. Создание базы данных PostgreSQL и соответствующих таблиц в ней.

Реализовано в ноутбуке create_db&tables.ipynb

2.2. Заполнение базы данными из датафреймов.

Реализовано в ноутбуке dfs_to_sql.ipynb

About

Многопоточный автоматический парсинг сайта и занесение данных в базу PostgreSQL (selenium, concurrent, beautifulsoup, bleach)

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published
pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy