如何從零開始學會自動化Python網頁爬蟲? 這個免費線上培訓,送給想要學會打造自動化Python網頁爬蟲,提升2倍工作效率的人 即使你是完全新手,也能夠學會.... 在這個線上的免費培訓,我將和你分享3個網頁爬蟲的密技: 密技1:沒有經驗如何學會網頁爬蟲?(5種常見的網頁類型爬取技巧) 密技2:遇到反爬蟲機制有哪些解決方案?(不會高難度的機器學習一樣有機會通過) 密技3:如何利用網頁爬蟲提升自己2倍的工作效率?(透過自動化來得到更多自己的時間) 課程老師:古耕全(Mike) Mike是 「Learn Code With Mike」品牌的創辦人,也是 一位網頁工程師,持續分享Python的「入門教學、爬蟲應用、資料分析、網頁開發」教學,幫助想要學習Python程式語言的新手,透過小專案實作的教學方式,讓新手有能力開發出屬於自己的Python應用程式。 馬上報名免費培訓
Photo by LAUREN GRAY on Unsplash 相信大家都知道,取得資料後能夠進行許多的應用,像是未來的趨勢預測、機器學習或資料分析等,而有效率的取得資料則是這些應用的首要議題,網頁爬蟲則是其中的一個方法。 網頁爬蟲就是能夠取得網頁原始碼中的元素資料技術,但是,有一些網頁較為特別,像是社群平台,需先登入後才能進行資料的爬取,或是電商網站,無需登入,但是要透過滾動捲軸,才會動態載入更多的資料,而要爬取這樣類型的網頁爬蟲,就稱為動態網頁爬蟲。 該如何實作呢? 本文將使用 Python Selenium 及 BeautifulSoup套件 來示範動態網頁爬蟲的開發過程,重點包含: BeautifualSoup vs Selenium 安裝 Selenium 及 Webdriver 安裝 BeautifulSoup Selenium get() 方法 Selenium 元素定位 Selenium send_keys() 方法 Selenium execute_script 方法 BeautifulSoup find_all() 方法 BeautifulSoup getText() 方法 一、 BeautifualSoup vs Selenium BeautifulSoup套件 相信對於 開發 網頁爬蟲的人員來說,應該都有聽過,能夠解析及取得 HTML 原始碼各個標籤的元素資料,擁有非常容易上手的方法 (Method) ,但是,對於想要爬取 動態 網頁資料來說,則無法達成,因為 BeautifulSoup套件 並沒有模擬使用者操作網頁的方法 (Method) ,像是輸入帳號密碼進行登入或滾動捲軸等,來讓網頁動態載入資料,進行爬取的動作。 所以,這時候,就可以使用被設計於自動化測試的 Selenium 套件,來模擬使用者的動作,進行登入後爬取資料或滾動卷軸,並且能夠執行 JavaScript 程式碼,這些就是 Selenium 與 BeautifulSoup套件 最大不同的地方。對於開發 Python 動態爬蟲來說,就可以結合 Selenium套件 以上的特點,讓網頁動態載入資料後,再利用 BeautifulSoup套件簡潔的 方法 (Method) ,將所需的資料爬取下來。 本文就是利用這樣的概念,利用 Selenium 套件登入 Facebook 後,前往