Tutorial de Web Scraping#
Neste tutorial, iremos aprender o processo de web scraping usando Python, especificamente as bibliotecas BeautifulSoup e Pandas. Também iremos apresentar o SelectorGadget, uma ferramenta que nos ajudará a encontrar os selectores CSS certos para usar com o BeautifulSoup.
Web scraping refere-se à extração de dados de websites. Isto pode ser feito manualmente, mas muitas vezes é mais eficiente automatizar o processo usando um programa ou script. Muitas vezes trabalhamos com APIs, o que nos facilita muito o processo de obtenção de dados mas nem sempre é assim, às vezes pretendemos dados de página on-line que não têm API. É aí que webscraping entra em acção. Se está na open web provavelmente podemos ir “buscar” os dados automáticamente e inclui-los no nosso script, ou o próprio script pode consistir na obtenção de dados para análise que pretendemos ou envio para um ficheiro excel.
BeautifulSoup#
BeautifulSoup é uma biblioteca Python que é usada para fins de web scraping para extrair dados de documentos HTML e XML. Ela cria uma árvore de análise a partir do código-fonte da página, facilitando a extração de dados.
SelectorGadget#
SelectorGadget é uma ferramenta de código aberto que torna fácil a geração e descoberta de seletores CSS. Podes usá-la para encontrar os seletores CSS certos para usar com BeautifulSoup, tornando o processo extremamente simples, mesmo para quem não sabe HTML e CSS.
Pandas#
Pandas é uma poderosa biblioteca de manipulação de dados em Python. Fornece estruturas de dados e funções necessárias para manipular dados estruturados. Também tem capacidades simples de web scraping, nomeadamente o download de tabelas.