發表文章

目前顯示的是有「Python爬蟲教學」標籤的文章

Selenium網頁爬蟲串接ScraperAPI輕鬆應對網站的反爬蟲機制

在上一篇有效利用ScraperAPI打造不被偵測的Python網頁爬蟲文章中，介紹了Python網頁爬蟲串接 ScraperAPI 爬取網頁資料的方式，透過它隨機輪換Proxy IP、瀏覽器標頭等機制，讓我們不用擔心網頁爬蟲被偵測封鎖。那如果今天遇到了動態網頁，需要使用Selenium套件來操作網頁的話，該如何與 ScraperAPI 進行串接呢?這篇文章就來分享Selenium串接 ScraperAPI 的過程。

繼續閱讀 »

有效利用ScraperAPI打造不被偵測的Python網頁爬蟲

有些大型的網站，都會有網頁爬蟲的偵測機制，像是請求的標頭、IP、規則性等等，一旦被偵測到就很有可能被封鎖，沒辦法再使用該網站的服務，導致很多人不敢輕易嘗試爬取大型網站的資料。那想要降低被偵測風險的方法之一，就是隨機輪換不同的Proxy IP和請求標頭，最近看到 ScraperAPI 提供了這樣的解決方案，使用上也非常的簡單，又有1000 API額度可以免費使用，所以這篇文章就來分享一下 ScraperAPI 的使用方式。

繼續閱讀 »

一篇看完就懂Python網頁爬蟲爬取JavaScript網頁資料的實作

我們都知道在開發Python網頁爬蟲之前，都要先檢視網頁原始碼，瞭解網頁資料的結構之後才會進行爬取的動作。但是有些網頁在檢視網頁原始碼的時候，會發現找不到網頁上的資料，這就是網站為了防止資料被輕易的爬走，使用JavaScript的技術，動態載入網頁上的資料，讓Python網頁爬蟲無法從網頁原始碼裡面爬取到資料。這篇文章我就用雄獅旅遊網站，來和大家分享Python網頁爬蟲如何爬取JavaScript型網站的資料，其中的爬取步驟如下：

繼續閱讀 »

詳解Python網頁爬蟲下載網頁驗證碼圖片(Captcha)的系統化作法

相信大家平常在瀏覽網頁的過程中，都有看過文字驗證碼(Captcha)，要使用者輸入正確的英文數字才可以繼續操作，那要通過這種反爬蟲機制，就是要先把文字驗證碼(Captcha)的圖片下載下來，再進行後續的辨識動作。這時候如果你使用圖片的src屬性來下載文字驗證碼(Captcha)圖片，會發現下載下來的圖片和網頁上的不一樣，是因為當我們發送請求到圖片的來源網址時，等於又再打開一次網頁的意思，它就會再次產生不一樣的文字驗證碼，導致下載下來的圖片會不一樣，解決方案就是使用Selenium套件來下載文字驗證碼(Captcha)圖片，這篇文章我就用博客來網站為例，來示範其中的實作方式。

繼續閱讀 »

教你學會Python網頁爬蟲自動化登入網站的秘訣

想要利用Python網頁爬蟲蒐集網路上的資料，除了一般網頁之外，有些還會需要進行"登入"的動作，才會顯示網頁資料，這也就是所謂的登入型網頁，最常見的像是Facebook、Instagram等社群網站。這時候就可以利用Python的Selenium套件來模擬登入的動作，進而爬取到想要的資料。這篇文章我就用Facebook網站為例，來教大家Python網頁爬蟲如何利用Selenium套件來自動化登入網站。

繼續閱讀 »

揭密Selenium動態網頁爬蟲常用的網頁操作方法

很多新手在遇到動態網頁的時候，都會不知所措，因為它需要額外的網頁操作，像是會員登入、滾動網頁卷軸、點擊按鈕等等，才有辦法爬取到網頁資料。今天這篇文章我就用 Facebook網站為例，分享在建置Python動態網頁爬蟲上，最常使用的5個Selenium網頁操作方法，讓你之後可以順利爬取到動態網頁的資料，包含：

繼續閱讀 »

5個實用的Selenium網頁資料爬取方法應用指南

說到建置Python網頁爬蟲的工具，之前我有整理了一篇「 7個Python使用BeautifulSoup開發網頁爬蟲的實用技巧」的教學文章，今天這篇就用 The News Lens 關鍵評論網的國際新聞為例，來分享Selenium常用的爬取資料方法，讓大家在建置Python網頁爬蟲爬取動態網頁的時候，可以快速上手。

繼續閱讀 »

全面掌握Selenium建置動態網頁爬蟲的步驟與重要模組

如果有在開發Python網頁爬蟲的話，「動態網頁」這個詞應該都不陌生。那想要爬取動態網頁上的資料，Selenium套件就是最常被用來開發網頁爬蟲的工具之一，透過它提供的網頁操作方法，來模擬使用者的操作，進而爬取到動態網頁的資料。這篇文章我整理了Selenium建置網頁爬蟲專案的步驟與重要模組，幫助大家之後能夠更方便、快速的建立Python動態網頁爬蟲專案。

繼續閱讀 »

[Python爬蟲教學]掌握這6個開發重點優化Python網頁爬蟲的效率與穩定度

Python網頁爬蟲是現在非常受歡迎的資料蒐集方式之一，而在定期爬取的過程中，非常有機會因為網頁架構或樣式的改變，導致Python網頁爬蟲發生錯誤中斷。所以，本文提供以下6個檢查點，只要在開發時特別留意，將會讓Python網頁爬蟲較為穩定及有效率。包含：

繼續閱讀 »

[Python爬蟲教學]學會Python網頁爬蟲輪流或隨機使用Proxy IP發送請求的技巧

利用Python網頁爬蟲爬取網頁資料已經是常見的資料蒐集方法之一，但是在爬取的過程中，難免擔心會不會被網站偵測或封鎖，繼 [Python爬蟲教學]有效利用Python網頁爬蟲爬取免費的Proxy IP清單文章之後，看完本篇文章，你將學會如何在Python網頁爬蟲專案，透過隨機使用不同的Proxy IP發送請求，降低被偵測或封鎖的機率。實作步驟包含：

繼續閱讀 »

[Python爬蟲教學]有效利用Python網頁爬蟲爬取免費的Proxy IP清單

Photo by Cytonn Photography on Unsplash 在開發網頁爬蟲的過程中，是不是會擔心被偵測或封鎖，而爬不到所需的資料呢? 有些大型網站為了保護網頁上的資料不被大量的爬取，會特別偵測像Python網頁爬蟲這種非人工的自動化請求，這時候 Python網頁爬蟲使用相同的IP來發送請求就很容易被發現。所以，如果有多組IP能夠讓Python網頁爬蟲在發送請求時輪流使用，就能夠大幅降低被偵測的風險。而現在有許多網站上也有提供免費的Proxy IP，本文就以 Free Proxy List 網站為例，透過Python網頁爬蟲來蒐集上面的Proxy IP，製作我們的IP清單。實作步驟包含：

繼續閱讀 »

[Python爬蟲教學]常見的Python網頁爬蟲自動化下載檔案資料方法

Photo by Helena Lopes on Unsplash 在進行網頁資料分析的過程中，除了網頁資訊外，有時也會有檔案資料，供使用者下載使用，像是股市相關的網站，就會有各種不同的財務報表下載，這時候，就可以結合Python網頁爬蟲的特性，來自動化下載檔案資料，協助股市資料的分析實作。本文就以證券交易所的個股日成交資訊及上市公司季報為例，來分別和大家分享以下兩個常見的Python檔案資料下載方式，包含：

繼續閱讀 »

[Python爬蟲教學]定時自動化執行Google(GCP)雲端平台上的Python網頁爬蟲方法

Photo by Clay Banks on Unsplash 在 [Python爬蟲教學]3步驟教你部署Python網頁爬蟲到Google(GCP)雲端平台文章中，和大家分享了部署Python網頁爬蟲到Google Cloud Platform雲端平台，並且能夠將爬取的資料存入Google BigQuery數據庫，而接下來該如何定時自動化執行Python網頁爬蟲呢? 這時候，就會需要利用 Google Scheduler(雲端排程器)，透過自訂時間來排程執行Python網頁爬蟲，其中的實作重點包含：

繼續閱讀 »

[Python爬蟲教學]3步驟教你部署Python網頁爬蟲到Google(GCP)雲端平台

Photo by Firmbee.com on Unsplash 利用Python網頁爬蟲來進行資料蒐集，想必都會希望能夠自動化的持續運行，將爬取的資料儲存在資料庫中，讓後續可以輕鬆的使用與分析，而要達成自動化的持續運行，就需要將Python網頁爬蟲部署到雲端平台上。所以，本文就來接續 [Python爬蟲教學]Python網頁爬蟲寫入資料到Google BigQuery雲端數據庫指南文章，把其中建置的Python網頁爬蟲部署到Google Cloud雲端平台，並且依然保有原來資料儲存到Google Bigquery數據庫的功能。其中的實作步驟包含：

繼續閱讀 »

[Python爬蟲教學]Python網頁爬蟲寫入資料到Google BigQuery雲端數據庫指南

Photo by Souvik Banerjee on Unsplash 在使用Python網頁爬蟲搜集資料的過程中，隨著時間的累積，資料量就會逐步的增加形成大數據，這時候，就會需要藉由雲端資源來協助我們進行資料分析。而Google BigQuery雲端數據庫(Cloud Data Warehouse)就是一個非常強大的資料儲存分析工具，除了能夠儲存大量的數據外，還擁有很好的查詢效能，並且可以結合Google Data Studio來進行資料視覺化。所以本文就接續 [Python爬蟲教學]一學就會的Python網頁爬蟲動態讀取資料庫應用文章，來和大家分享，如何將Python網頁爬蟲爬取的資料，載入Pandas DataFrame後，存入Google BigQuery資料表，以利於分析。其中的實作步驟包含：

繼續閱讀 »

[Python爬蟲教學]一學就會的Python網頁爬蟲動態讀取資料庫應用

Photo by CardMapr.nl on Unsplash Python網頁爬蟲在日常生活中有非常多的應用，股票分析就是其中之一，利用Python網頁爬蟲自動化爬取的特性，蒐集所需的各個公司股價資訊。但是隨著經濟的變動，關注的股票代碼時常會進行調整，這時候，該如何讓Python網頁爬蟲有彈性的讀取股票代碼就很重要。而資料庫就是實務上最常使用的資料儲存工具，本文就以SQLite資料庫為例，來和大家分享Python網頁爬蟲如何動態讀取資料庫中所要分析的股票代碼資料，來爬取臺灣證券交易所的個股日成交資訊。其中的實作步驟包含：

繼續閱讀 »

[Python爬蟲教學]Selenium動態網頁爬蟲通過Captcha驗證碼的實用技巧

Photo by Christina @ wocintechchat.com on Unsplash 想必大家在開發網頁爬蟲的過程中，都會有遇到各種反爬蟲機制的經驗，而Captcha就是其中一種透過圖片驗證的方式，來增加Python網頁爬蟲爬取資料的困難度。所以，本文就以博客來網路書店的登入頁面為例，來和大家分享如何利用 2Captcha服務，破解登入時的一般驗證碼(Normal Captcha)，順利登入會員。其中實作的重點包含：

繼續閱讀 »

[Python爬蟲教學]你該學會的Python網頁爬蟲取得網頁圖表數據方法

Photo by Markus Winkler on Unsplash 如果大家有在觀測或分析趨勢，會看到有些網頁會以圖表的方式來呈現資料，透過使用者將滑鼠移上去後，顯示每個點的數據，來提升可讀性及使用體驗，這時候，如果想要利用Python網頁爬蟲來爬取圖表上的數據，進行客製化的分析，該如何達成呢? 本文將以 Yahoo奇摩股市的「美股大盤行情圖表」為例，帶大家了解網頁圖表的顯示原理，並且該如何利用這樣的原理，讓Python網頁爬蟲能夠取得資料。

繼續閱讀 »

[Python爬蟲教學]善用多執行緒(Multithreading)提升Python網頁爬蟲的執行效率

Photo by Chris Spiegl on Unsplash Python網頁爬蟲的執行效率，相信是開發人員在蒐集網頁資料時所追求的，除了可以使用 GRequests 或 Asyncio 等套件打造非同步的Python網頁爬蟲外，應用多執行緒(Multithreading)的技巧也是不錯的選擇。所以本文想來和大家分享程序(Process)與執行緒(Thread)的差別，以及多執行緒(Multithreading )的重要觀念，最後，實際應用在Python網頁爬蟲專案，提升執行效率。

繼續閱讀 »

BeautifulSoup vs Selenium vs Scrapy三大Python網頁爬蟲實作工具的比較

Photo by Prince Abid on Unsplash 網路的普及，為了要自動化的搜集資料，提升工作效率，相信Python網頁爬蟲是最常使用的方法之一，而要實作Python網頁爬蟲，最受歡迎的三大工具莫過於BeautifulSoup、Selenium及Scrapy，其中各自的主要特色以及使用時機，本文就來為大家進行簡單的分享與比較。

繼續閱讀 »