.NET Core 3.0 + Selenium WebDriver: exemplos de extração de dados da Web

Renato Groffe
3 min readOct 21, 2019

--

Publiquei no final de 2018 um artigo em que demonstrava a extração automatizada de dados de uma página Web (técnica esta também conhecida Web Scraping), empregando como tecnologias na construção de um processo deste tipo o .NET Core 2.2, o Selenium Web Driver e uma planilha do Excel (em que as informações obtidas finalmente eram gravadas):

Excel e Open XML SDK: gerando novas planilhas .xlsx a partir de templates

Posteriormente realizei uma apresentação sobre este assunto no SQLSaturday #817 em Joinville-SC (o link a seguir reune diversas referências sobre este assunto):

Extração de Dados da Web com Selenium WebDriver - SQLSaturday #817 - Joinville

E também uma live no Canal .NET, com a gravação podendo ser assistida gratuitamente no YouTube:

Neste novo post trago alguns exemplos que disponibilizei no GitHub envolvendo a implementação de Web Scraping em Console Applications criadas com o .NET Core 3.0. Os links dos projetos correspondentes estão apontando para os respectivos repositórios no GitHub:

.NET Core 3.0 + ClosedXML + Excel + Selenium WebDriver + Chrome Driver

.NET Core 3.0 + SQL Server + Dapper.Contrib + Selenium WebDriver + Chrome Driver

.NET Core 3.0 + MongoDB + Selenium WebDriver + Chrome Driver

.NET Core 3.0 + DocumentDB + Selenium WebDriver + Chrome Driver

Todas as aplicações estão fazendo uso do Chrome Driver (driver que permite a execução em background do navegador Chrome no processo automatizado de extração de dados), além da imagem Docker renatogroffe/site-indicadores-economia-nginx. No print a seguir podemos observar a página da qual serão extraídos os dados:

Nas próximas imagens temos os resultados em Excel, SQL Server, MongoDB e DocumentDB da gravação dos dados obtidos a partir desta página:

Dados gravados em uma planilha do Excel
Tabela no SQL Server após a gravação da cotação do Bitcoin
Coleção do MongoDB com as cotações extraídas
Coleção no DocumentDB com as cotações de moedas

E concluo este post com um convite.

Dia 22/10/2019 (terça) a partir das 21:30 — horário de Brasília — teremos mais uma live no Canal .NET. Desta vez será abordado o uso da biblioteca Polly, solução esta que possibilita um melhor tratamento de falhas em projetos .NET e contribui assim para a obtenção de aplicações mais estáveis.

Para efetuar a sua inscrição acesse a página do evento no Meetup. A transmissão acontecerá via YouTube, em um link a ser divulgado em breve.

--

--

Renato Groffe
Renato Groffe

Written by Renato Groffe

Microsoft Most Valuable Professional (MVP), Multi-Plataform Technical Audience Contributor (MTAC), Software Engineer, Technical Writer and Speaker

No responses yet