跳到主要內容

發表文章

目前顯示的是 八月, 2021的文章

[Python爬蟲教學]3步驟教你部署Python網頁爬蟲到Google(GCP)雲端平台

Photo by Firmbee.com on Unsplash 利用Python網頁爬蟲來進行資料蒐集,想必都會希望能夠自動化的持續運行,將爬取的資料儲存在資料庫中,讓後續可以輕鬆的使用與分析,而要達成自動化的持續運行,就需要將Python網頁爬蟲部署到雲端平台上 。 所以,本文就來接續 [Python爬蟲教學]Python網頁爬蟲寫入資料到Google BigQuery雲端數據庫指南 文章,把其中建置的Python網頁爬蟲部署到Google Cloud雲端平台,並且依然保有原來資料儲存到Google Bigquery數據庫的功能。其中的實作步驟包含:

[Python爬蟲教學]Python網頁爬蟲寫入資料到Google BigQuery雲端數據庫指南

Photo by Souvik Banerjee on Unsplash 在使用Python網頁爬蟲搜集資料的過程中,隨著時間的累積,資料量就會逐步的增加形成大數據,這時候,就會需要藉由雲端資源來協助我們進行資料分析。 而Google BigQuery雲端數據庫(Cloud Data Warehouse)就是一個非常強大的資料儲存分析工具,除了能夠儲存大量的數據外,還擁有很好的查詢效能,並且可以結合Google Data Studio來進行資料視覺化。 所以本文就接續 [Python爬蟲教學]一學就會的Python網頁爬蟲動態讀取資料庫應用 文章, 來和大家分享,如何將Python網頁爬蟲爬取的資料,載入Pandas DataFrame後,存入Google BigQuery資料表,以利於分析。其中的實作步驟包含:

[Python爬蟲教學]一學就會的Python網頁爬蟲動態讀取資料庫應用

Photo by CardMapr.nl on Unsplash Python網頁爬蟲在日常生活中有非常多的應用,股票分析就是其中之一,利用Python網頁爬蟲自動化爬取的特性,蒐集所需的各個公司股價資訊。 但是隨著經濟的變動,關注的股票代碼時常會進行調整,這時候,該如何讓Python網頁爬蟲有彈性的讀取股票代碼就很重要 。 而資料庫就是實務上最常使用的資料儲存工具,本文就以SQLite資料庫為例,來和大家分享Python網頁爬蟲如何動態讀取資料庫中所要分析的股票代碼資料,來爬取 臺灣證券交易所 的 個股日成交資訊 。其中的實作步驟包含:

[Python爬蟲教學]Selenium動態網頁爬蟲通過Captcha驗證碼的實用技巧

Photo by Christina @ wocintechchat.com on Unsplash 想必大家在開發網頁爬蟲的過程中,都會有遇到各種反爬蟲機制的經驗,而Captcha就是其中一種透過圖片驗證的方式,來增加Python網頁爬蟲爬取資料的困難度。 所以,本文就以 博客來網路書店 的登入頁面為例,來和大家分享如何利用 2Captcha服務 ,破解登入時的一般驗證碼(Normal Captcha),順利登入會員。其中實作的重點包含: