每到放假出遊的時候,規劃行程就是最花時間的工作,要到許多網站蒐集各種旅遊景點,而這也是Python網頁爬蟲很常應用的情境,透過自動化的方式有效蒐集熱門的旅遊景點資料,提升規劃行程的效率。這篇文章就用 雄獅旅遊網站 來當作網路爬蟲應用實例,教大家使用Python網頁爬蟲蒐集旅遊資料。 網站分析及爬取策略 Python網頁爬蟲爬取JavaScript網站資料 Python網頁爬蟲爬取多分頁資料 一、網站分析及爬取策略 首先,前往 雄獅旅遊網站 ,如下圖: 截取自 雄獅旅遊 假設我們想要利用Python網頁爬蟲蒐集韓國旅行團的資料,在上面「國外團體」的地方選擇「韓國」,如下圖: 截取自 雄獅旅遊 並且在下面 「季節限定」的區塊選擇 「更多行程」,如下圖: 截取自 雄獅旅遊 就可以看到非常多季節限定的旅行團資料,如下圖: 截取自 雄獅旅遊 這時候點擊滑鼠右鍵,選擇 「檢查」,切換到 「Network(網路)」頁籤,來檢視網頁背後發送請求的況況。 接下來,按下「Ctrl + R」重新整理網頁,並且搜尋網頁上的資料,會發現網站有使用JavaScript發送請求來取得資料,如下圖: 由此可知,這個網頁就是JavaScript型網頁, 那要利用Python網頁爬蟲爬取JavaScript型網頁的資料,我們就需要知道它的請求網址(Url)、請求方法(Request Method)及請求參數(Payload),可以切換到Headers(標頭)、Payload(參數)頁籤檢視,如下圖: 如果想要瞭解更詳細的Python網頁爬蟲爬取策略,可以參加 我的免費線上培訓 ,教你各種網頁的爬取方法,讓你能夠輕鬆判斷網頁類型,爬取到想要的資料。 二、Python網頁爬蟲爬取JavaScript網站資料 Python網頁爬蟲爬取JavaScript網站回應的資料,需要引用requests模組,如下範例: import requests 接著,利用requests模組發送POST請求到JavaScript的請求網址,如下範例: import requests response = requests.post('https://travel.liontravel.com/search/grouplistinfojson') 由於剛剛有看到網頁發送請求的時候有傳入參數(Payload