發表文章

Python網路爬蟲應用實例：臺北市不動產實價周報開放資料爬取指南

在眾多的資料分析專案中，不動產實價也是很常被拿來分析的主題，那想要利用Python網頁爬蟲蒐不動產的資料，除了可以爬取網站上的資料之外，地方政府也有透過OpenAPI來提供各種不同的開放資料(OpenData)，讓大家進行多元的分析或應用。這篇文章就來和大家分享，如何利用Python網頁爬蟲爬取臺北市資料大平臺上的不動產實價開放資料。開放資料(OpenData)存取方法 Python網頁爬蟲存取開放資料(OpenData) Python網頁爬蟲爬取開放資料(OpenData) 一、開放資料(OpenData)存取方法前往臺北市資料大平台，如下圖：在搜尋的地方輸入「臺北市實價周報」，就可以找到臺北市不動產實價周報的開放資料(OpenData)，如下圖：點擊之後，可以看到它的資料描述、欄位說明等，那存取方式就在最下面的地方，分別提供下載CSV檔案資料、API、預覽資料集，而想要利用Python網頁爬蟲爬取不動產的實價資料，就要選擇API的方式，如下圖：在API的文件中，Python網頁爬蟲會需要利用API位址、API使用方式與參數來發送請求，進而爬取回應的不動產實價資料。另外，「API參數及測試」則是依需求選擇性加入的參數，如下圖：二、Python網頁爬蟲存取開放資料(OpenData) 瞭解臺北市不動產實價周報的開放資料API使用方式之後，就可以開啟Python網頁爬蟲專案，引用requests模組，如下範例： import requests 接下來，Python網頁爬蟲發送請求到臺北市不動產實價周報的開放資料API，並且傳入必要的參數，如下範例： import requests # 參數 params = { "resource_id": "2979c431-7a32-4067-9af2-e716cd825c4b" } # 發送請求 response = requests.get( 'https://data.taipei/api/v1/dataset/2979c431-7a32-4067-9af2-e716cd825c4b?scope=resourceAquire', params=params ) 假設我們只想要利用Python網頁爬蟲爬取10筆的臺北...

繼續閱讀 »

Python網路爬蟲應用實例：雄獅旅遊行程資料爬取指南

每到放假出遊的時候，規劃行程就是最花時間的工作，要到許多網站蒐集各種旅遊景點，而這也是Python網頁爬蟲很常應用的情境，透過自動化的方式有效蒐集熱門的旅遊景點資料，提升規劃行程的效率。這篇文章就用雄獅旅遊網站來當作網路爬蟲應用實例，教大家使用Python網頁爬蟲蒐集旅遊資料。網站分析及爬取策略 Python網頁爬蟲爬取JavaScript網站資料 Python網頁爬蟲爬取多分頁資料一、網站分析及爬取策略首先，前往雄獅旅遊網站，如下圖：截取自雄獅旅遊假設我們想要利用Python網頁爬蟲蒐集韓國旅行團的資料，在上面「國外團體」的地方選擇「韓國」，如下圖：截取自雄獅旅遊並且在下面「季節限定」的區塊選擇「更多行程」，如下圖：截取自雄獅旅遊就可以看到非常多季節限定的旅行團資料，如下圖：截取自雄獅旅遊這時候點擊滑鼠右鍵，選擇「檢查」，切換到「Network(網路)」頁籤，來檢視網頁背後發送請求的況況。接下來，按下「Ctrl + R」重新整理網頁，並且搜尋網頁上的資料，會發現網站有使用JavaScript發送請求來取得資料，如下圖：由此可知，這個網頁就是JavaScript型網頁，那要利用Python網頁爬蟲爬取JavaScript型網頁的資料，我們就需要知道它的請求網址(Url)、請求方法(Request Method)及請求參數(Payload)，可以切換到Headers(標頭)、Payload(參數)頁籤檢視，如下圖：如果想要瞭解更詳細的Python網頁爬蟲爬取策略，可以參加我的免費線上培訓，教你各種網頁的爬取方法，讓你能夠輕鬆判斷網頁類型，爬取到想要的資料。二、Python網頁爬蟲爬取JavaScript網站資料 Python網頁爬蟲爬取JavaScript網站回應的資料，需要引用requests模組，如下範例： import requests 接著，利用requests模組發送POST請求到JavaScript的請求網址，如下範例： import requests response = requests.post('https://travel.liontravel.com/search/grouplistinfojson') 由於剛剛有看到網頁發送請求的時候有傳入參數(Payload...

繼續閱讀 »

Python網路爬蟲應用實例：MOMO購物網電商資料爬取指南

在電商領域中，不論是賣家或買家，很多時候都會需要蒐集各個電商網站的商品、價格與評論等資料，來分析各種商品的價格、用戶滿意度，這時候就可以使用Python網頁爬蟲來自動化蒐集電商網站的資料，進而提升資料分析的效率。今天這篇文章就以 MOMO購物網作為網路爬蟲應用實例，學會如何利用Python網頁爬蟲蒐集電商網站的資料。

繼續閱讀 »

Python網路爬蟲應用實例：Yahoo財經新聞資料爬取指南

Python網頁爬蟲可以說是現在大數據時代很重要的資料蒐集技術，在財經領域，很常會需要蒐集財經新聞或相關的股市資料，來作為後續的投資分析或參考，這時候就可以利用Python網頁爬蟲爬取網站上的財經資料，提升蒐集資料的效率。這篇文章就以 Yahoo股市的財經新聞網站作為網路爬蟲應用實例，教大家如何使用Python網頁爬蟲來自動化爬取財經新聞資料。網站分析及爬取策略 Selenium發送請求 Selenium自動化滾動網頁卷軸載入資料 Selenium爬取網頁資料一、網站分析及爬取策略首先前往 Yahoo股市的財經新聞網站，假設我們想要爬取其中的財經新聞區塊資料，如下圖：在操作的時候可以發現需要滾動網頁捲軸，才會動態載入更多的財經新聞資料，所以我們就會需要選擇使用Python的Selenium套件來建置動態網頁爬蟲，透過它提供的網頁操作方法(Method)，在操作網頁的同時動態爬取財經資料。如果想要瞭解更詳細的Python網頁爬蟲爬取策略，可以參加我的免費線上培訓，教你各種網頁的爬取方法，讓你能夠輕鬆判斷網頁類型，爬取到想要的資料。二、Selenium發送請求接下來，打開Python網頁爬蟲專案，引用Selenium必要的模組，如下範例： from selenium import webdriver #瀏覽器驅動模組 from webdriver_manager.chrome import ChromeDriverManager #Chrome瀏覽器驅動模組 from selenium.webdriver.common.by import By #網頁元素定位模組 import time #時間模組更多Selenium專案的初始化與模組引用時機介紹，可以參考我的全面掌握Selenium建置動態網頁爬蟲的步驟與重要模組文章。引用Selenium套件的模組之後，就可以建立瀏覽器驅動物件，發送請求到 Yahoo股市的財經新聞網站，如下範例： from selenium import webdriver #瀏覽器驅動模組 from webdriver_manager.chrome import ChromeDriverManager #Chrome瀏覽器驅動模組 from selenium.webdriver.common.by ...

繼續閱讀 »

立即用Looker Studio自動生成報表：讓數據工作變得更簡單

如果想要在雲端上實作資料分析專案，那就不能不知道Looker Studio(原名Google Data Studio)雲端資料視覺化工具，能夠免費在Google雲端平台上透過連結各種資料來源，建立屬於自己的視覺化報表，這篇文章我就用Kaggle網站的 Most Subscribed YouTube Channel( 訂閱最多的 YouTube 頻道) 資料集為例，帶你認識Looker Studio的使用方式，並且學會製作雲端資料視覺化圖表，傳達資料價值或故事。

繼續閱讀 »

教你簡單上手Seaborn資料視覺化工具的重要實作

想要洞察資料的價值，除了可以使用像是Power BI或Tableau等市面上的產品，來製作視覺化的圖表之外，Python生態系也有提供資料視覺化圖表的套件，其中之一就是Seaborn套件，讓開發人員能夠透過寫程式的方式來客製化建立資料視覺化圖表，這篇文章就以 Kaggle網站的線上銷售資料集( Online Sales Data ) 為例，簡單上手Seaborn套件的使用方式。什麼是Seaborn？ Seaborn安裝方法 Seaborn連結CSV資料集 Seaborn建立資料視覺化圖表一、什麼是Seaborn？ Seaborn是以Matplotlib為基礎建構的高階繪圖套件，透過封裝的方式，簡化圖表的設定語法，提升輸出的視覺化美感，並且支援結合Pandas資料分析套件，讓使用者能夠快速產製精美的資料視覺化圖表。二、Seaborn安裝方法安裝Seaborn套件非常簡單，開啟命令提示字元，利用pip指令就可以進行安裝，如下： $ pip install seaborn 三、Seaborn連結CSV資料集 Seaborn套件安裝好之後，就可以開啟專案引用 Pandas模組來讀取資料集，還有 Seaborn、Matplotlib模組來建立圖表，如下範例： import pandas as pd import seaborn as sns import matplotlib.pyplot as plt 接下來，利用Pandas模組來讀取 Kaggle網站的線上銷售資料集( Online Sales Data ) ，如下範例第7行： import pandas as pd import seaborn as sns import matplotlib.pyplot as plt # 讀取資料集 onlineSalesData_df = pd.read_csv('Online Sales Data.csv') 四、Seaborn建立資料視覺化圖表有了資料集之後，使用Matplotlib的pyplot模組來設定圖表的大小，如下範例第10行： import pandas as pd import seaborn as sns import matplotlib.pyplot as plt # 讀取資料集 onlineSalesData_df...

繼續閱讀 »

Tableau實戰教學 - 快速打造企業級的資料視覺化圖表

在資料分析的過程中，很多時候我們都需要快速探索資料背後的資訊或價值，進而解決商業上的問題，而資料視覺化就是常用來洞察資料的方法之一。那資料視覺化的工具非常多，這篇文章就來介紹Tableau資料視覺化工具，並且以 Kaggle網站的連鎖超市資料集為例，教大家從零開始打造精美的資料視覺化圖表。

繼續閱讀 »

無痛學會Power BI有效建立互動式的資料視覺化圖表

在實務上，想要進行資料分析，探索大數據背後的價值或趨勢，很常會使用資料視覺化的方法來呈現，幫助決策人員進行商業決策。那資料視覺化的工具非常多，今天就來分享Power BI這套資料視覺化工具，並且以Kaggle網站的 Most Subscribed YouTube Channel( 訂閱最多的 YouTube 頻道) 資料集為例，手把手帶大家建立Power BI視覺化圖表。

繼續閱讀 »

Selenium網頁爬蟲串接ScraperAPI輕鬆應對網站的反爬蟲機制

在上一篇有效利用ScraperAPI打造不被偵測的Python網頁爬蟲文章中，介紹了Python網頁爬蟲串接 ScraperAPI 爬取網頁資料的方式，透過它隨機輪換Proxy IP、瀏覽器標頭等機制，讓我們不用擔心網頁爬蟲被偵測封鎖。那如果今天遇到了動態網頁，需要使用Selenium套件來操作網頁的話，該如何與 ScraperAPI 進行串接呢?這篇文章就來分享Selenium串接 ScraperAPI 的過程。

繼續閱讀 »

有效利用ScraperAPI打造不被偵測的Python網頁爬蟲

有些大型的網站，都會有網頁爬蟲的偵測機制，像是請求的標頭、IP、規則性等等，一旦被偵測到就很有可能被封鎖，沒辦法再使用該網站的服務，導致很多人不敢輕易嘗試爬取大型網站的資料。那想要降低被偵測風險的方法之一，就是隨機輪換不同的Proxy IP和請求標頭，最近看到 ScraperAPI 提供了這樣的解決方案，使用上也非常的簡單，又有1000 API額度可以免費使用，所以這篇文章就來分享一下 ScraperAPI 的使用方式。

繼續閱讀 »

一篇看完就懂Python網頁爬蟲爬取JavaScript網頁資料的實作

我們都知道在開發Python網頁爬蟲之前，都要先檢視網頁原始碼，瞭解網頁資料的結構之後才會進行爬取的動作。但是有些網頁在檢視網頁原始碼的時候，會發現找不到網頁上的資料，這就是網站為了防止資料被輕易的爬走，使用JavaScript的技術，動態載入網頁上的資料，讓Python網頁爬蟲無法從網頁原始碼裡面爬取到資料。這篇文章我就用雄獅旅遊網站，來和大家分享Python網頁爬蟲如何爬取JavaScript型網站的資料，其中的爬取步驟如下：

繼續閱讀 »

詳解Python網頁爬蟲下載網頁驗證碼圖片(Captcha)的系統化作法

相信大家平常在瀏覽網頁的過程中，都有看過文字驗證碼(Captcha)，要使用者輸入正確的英文數字才可以繼續操作，那要通過這種反爬蟲機制，就是要先把文字驗證碼(Captcha)的圖片下載下來，再進行後續的辨識動作。這時候如果你使用圖片的src屬性來下載文字驗證碼(Captcha)圖片，會發現下載下來的圖片和網頁上的不一樣，是因為當我們發送請求到圖片的來源網址時，等於又再打開一次網頁的意思，它就會再次產生不一樣的文字驗證碼，導致下載下來的圖片會不一樣，解決方案就是使用Selenium套件來下載文字驗證碼(Captcha)圖片，這篇文章我就用博客來網站為例，來示範其中的實作方式。

繼續閱讀 »

教你學會Python網頁爬蟲自動化登入網站的秘訣

想要利用Python網頁爬蟲蒐集網路上的資料，除了一般網頁之外，有些還會需要進行"登入"的動作，才會顯示網頁資料，這也就是所謂的登入型網頁，最常見的像是Facebook、Instagram等社群網站。這時候就可以利用Python的Selenium套件來模擬登入的動作，進而爬取到想要的資料。這篇文章我就用Facebook網站為例，來教大家Python網頁爬蟲如何利用Selenium套件來自動化登入網站。

繼續閱讀 »

揭密Selenium動態網頁爬蟲常用的網頁操作方法

很多新手在遇到動態網頁的時候，都會不知所措，因為它需要額外的網頁操作，像是會員登入、滾動網頁卷軸、點擊按鈕等等，才有辦法爬取到網頁資料。今天這篇文章我就用 Facebook網站為例，分享在建置Python動態網頁爬蟲上，最常使用的5個Selenium網頁操作方法，讓你之後可以順利爬取到動態網頁的資料，包含：

繼續閱讀 »

5個實用的Selenium網頁資料爬取方法應用指南

說到建置Python網頁爬蟲的工具，之前我有整理了一篇「 7個Python使用BeautifulSoup開發網頁爬蟲的實用技巧」的教學文章，今天這篇就用 The News Lens 關鍵評論網的國際新聞為例，來分享Selenium常用的爬取資料方法，讓大家在建置Python網頁爬蟲爬取動態網頁的時候，可以快速上手。

繼續閱讀 »

全面掌握Selenium建置動態網頁爬蟲的步驟與重要模組

如果有在開發Python網頁爬蟲的話，「動態網頁」這個詞應該都不陌生。那想要爬取動態網頁上的資料，Selenium套件就是最常被用來開發網頁爬蟲的工具之一，透過它提供的網頁操作方法，來模擬使用者的操作，進而爬取到動態網頁的資料。這篇文章我整理了Selenium建置網頁爬蟲專案的步驟與重要模組，幫助大家之後能夠更方便、快速的建立Python動態網頁爬蟲專案。

繼續閱讀 »

[Pandas教學]常用的Pandas套件合併CSV檔案資料的驗證方式

日常的資料分析工作中，有非常多的資料集需要處理，並且各資料集的結構與關係都不盡相同，這時候在利用Pandas套件來合併相關的資料集進行分析時，就可能發生不如預期的資料錯誤。而Pandas套件常用的merge()及concat()合併資料方法(Method)，也提供了資料驗證的機制，本文就來和大家分享其中的應用方式，避免在合併資料後，產生問題而影響分析結果。重點包含：

繼續閱讀 »

[Pandas教學]解析Pandas套件的Pivot Table(樞紐分析表)用法透視資料

在海量的數據中，如果沒有進一步的探索與分析，往往無法看出其中所傳達的訊息，而使用Pandas套件的Pivot Table樞紐分析表，就能夠將欄位資料透過交叉比對的方式，進行群組、匯總及統計，幫助資料分析人員快速解讀資料。本文就以 Kaggle網站的2017年Stack Overflow開發者調查資料集(survey_results_public.csv) 為例，帶大家瞭解Pandas套件的 Pivot Table樞紐分析表使用方式，包含：

繼續閱讀 »

[Pandas教學]你要學會的Pandas套件對於資料單位與格式的處理技巧

從各種管道蒐集資料的過程中，因為資料來源的不同，其中使用的「單位」或「格式」就可能有所不同，像是幣別、重量、日期或容量等，當進行資料合併或整合時，如果沒注意就會發生資料「單位」或「格式」不一致的問題。而這會影響分析及預測的結果，所以，本文利用3個範例，讓大家學會使用Pandas套件進行「單位」或「格式」的統一，包含：

繼續閱讀 »

[Pandas教學]解密Pandas套件清理類別資料(Categorical Data)的方法

如果有在實作資料分析或機器學習的朋友就會知道，為了要群組或分類相似的資料，會使用標籤、代號或數字等類別資料(Categorical Data)進行分群。像是影像辨識，將相近的圖片使用特定的標籤來代表，提升分析或訓練模型的效率。但是當資料量非常龐大時，就可能因為人為輸入或解析有誤，導致類別資料(Categorical Data)產生不一致的問題。所以，本文以 Kaggle網站的銀行直銷資料集(bank-direct-marketing-campaigns.csv) 為例，來聊聊如何利用Pandas套件來進行清理。重點包含：

繼續閱讀 »

[Pandas教學]3個實用的Pandas套件清理重複資料教學

當遇到一個商業問題或假設，要從各個管道蒐集資料來解決問題時，像是檔案、網頁及公開資料庫等，而在進行資料整合的過程中，如果處理流程不夠完善，就有機會產生重複的資料誤導分析的結果。本文以 Kaggle網站的Amazon 2009-2019年Top50暢銷書資料集(bestsellers with categories.csv) 為例，教大家如何查找及清理資料集的重複資料，提升資料的品質。重點包含：

繼續閱讀 »

[Pandas教學]善用Pandas套件幫你清理資料範圍異常的資料

在大量的數據中，有時為了精準分析特定群組的資料，通常都會依需求定義所要分析的資料範圍，像是評價、日期及年齡區間等。而在蒐集資料或人為處理資料的過程中，就有可能發生資料超出所要分析的範圍錯誤，導致分析結果出現異常。本文將以 Kaggle網站的Kindle Store電子書店評論資料集(kindle_reviews.csv) 為例，來和大家分享如何利用Pandas套件來處理以下兩種類型的資料範圍錯誤：

繼續閱讀 »

[Pandas教學]教你用Pandas套件清理資料中的常見資料型態問題

想要實作資料分析，讀取資料是第一步所要執行的動作，而如果沒有正確的進行資料前處理(Data Preprocessing)，就會影響最後分析結果的準確性及可靠性。其中，最常見的基本資料問題，包含「資料型態」、「資料範圍」及「重複資料」，本文就先針對「資料型態」，來和大家分享如何有效找出髒資料(Dirty Data)，並且利用Pandas套件來進行資料處理或清理，避免髒資料(Dirty Data)導致分析的副作用：

繼續閱讀 »

[Scrapy教學13]掌握3個降低Scrapy網頁爬蟲被封鎖的技巧

在市面上眾多的Python網頁爬蟲工具中，如果想要開發大型的網頁爬蟲專案，這時候都會使用Scrapy框架，擁有完整的爬取、儲存及效率等功能。而Scrapy框架如何克服網站的反爬蟲機制呢? 看完這篇文章，你將學會在Scrapy框架中，利用以下三個常見的實用方法，降低反爬蟲網站的偵測風險：

繼續閱讀 »

[Scrapy教學12]在Scrapy框架整合Selenium套件爬取動態網頁的實作指南

現在市面上，為了增加Python網頁爬蟲爬取資料的困難度，都會使用反爬蟲機制，像是登入、驗證碼及JavaScript動態產生內容等，而Scrapy框架沒有JavaScript Engine(引擎)，所以，通常都會結合Selenium或Splash套件來爬取這些動態網頁。本文就以 Accupass網站的精選活動為例，來分享Scrapy框架整合Selenium套件，開發Python網頁爬蟲的流程，包含：

繼續閱讀 »

[Python爬蟲教學]掌握這6個開發重點優化Python網頁爬蟲的效率與穩定度

Python網頁爬蟲是現在非常受歡迎的資料蒐集方式之一，而在定期爬取的過程中，非常有機會因為網頁架構或樣式的改變，導致Python網頁爬蟲發生錯誤中斷。所以，本文提供以下6個檢查點，只要在開發時特別留意，將會讓Python網頁爬蟲較為穩定及有效率。包含：

繼續閱讀 »

[Python爬蟲教學]學會Python網頁爬蟲輪流或隨機使用Proxy IP發送請求的技巧

利用Python網頁爬蟲爬取網頁資料已經是常見的資料蒐集方法之一，但是在爬取的過程中，難免擔心會不會被網站偵測或封鎖，繼 [Python爬蟲教學]有效利用Python網頁爬蟲爬取免費的Proxy IP清單文章之後，看完本篇文章，你將學會如何在Python網頁爬蟲專案，透過隨機使用不同的Proxy IP發送請求，降低被偵測或封鎖的機率。實作步驟包含：

繼續閱讀 »

[Python爬蟲教學]有效利用Python網頁爬蟲爬取免費的Proxy IP清單

Photo by Cytonn Photography on Unsplash 在開發網頁爬蟲的過程中，是不是會擔心被偵測或封鎖，而爬不到所需的資料呢? 有些大型網站為了保護網頁上的資料不被大量的爬取，會特別偵測像Python網頁爬蟲這種非人工的自動化請求，這時候 Python網頁爬蟲使用相同的IP來發送請求就很容易被發現。所以，如果有多組IP能夠讓Python網頁爬蟲在發送請求時輪流使用，就能夠大幅降低被偵測的風險。而現在有許多網站上也有提供免費的Proxy IP，本文就以 Free Proxy List 網站為例，透過Python網頁爬蟲來蒐集上面的Proxy IP，製作我們的IP清單。實作步驟包含：

繼續閱讀 »

[Pandas教學]使用Pandas套件將資料集拆分成多個CSV檔案資料應用

Photo by Mad Fish Digital on Unsplash 當單一資料集過於龐大，想要拆分為不同的檔案，或在實作機器學習時，需要將資料集分為測試及訓練資料等，這時候就有機會把單一CSV檔案中的資料，依據特定條件拆分成多個CSV檔案。而使用Pandas套件來進行資料分析，就能夠很輕鬆的解決以上任務，本文就以Kaggle網站的「 Coursera Course Dataset( coursea_data.csv ) 」資料集為例，基於其中的課程難易度等級欄位(course_difficulty)，來分別拆分多個CSV檔案，實作步驟包含：

繼續閱讀 »

[Pandas教學]3個Pandas套件比較CSV檔案資料之間的差異秘訣

Photo by Elena Kloppenburg on Unsplash 使用Pandas套件處理多份CSV檔案資料，相信是資料分析的過程中不可或缺的任務之一，其中，很常有機會比較各個資料集的相同與不相同資料內容，藉此來瞭解差異或檢核資料整合的結果是否有誤。所以，本文就以Kaggle網站的「 Coursera Course Dataset( coursea_data.csv ) 」及「 Course Reviews on Coursera(Coursera_courses.csv) 」兩個資料集為例，來分享3個Pandas套件比較CSV檔案資料集的常用方法，包含：

繼續閱讀 »

[Python爬蟲教學]常見的Python網頁爬蟲自動化下載檔案資料方法

Photo by Helena Lopes on Unsplash 在進行網頁資料分析的過程中，除了網頁資訊外，有時也會有檔案資料，供使用者下載使用，像是股市相關的網站，就會有各種不同的財務報表下載，這時候，就可以結合Python網頁爬蟲的特性，來自動化下載檔案資料，協助股市資料的分析實作。本文就以證券交易所的個股日成交資訊及上市公司季報為例，來分別和大家分享以下兩個常見的Python檔案資料下載方式，包含：

繼續閱讀 »