[Scrapy教學12]在Scrapy框架整合Selenium套件爬取動態網頁的實作指南

現在市面上，為了增加Python網頁爬蟲爬取資料的困難度，都會使用反爬蟲機制，像是登入、驗證碼及JavaScript動態產生內容等，而Scrapy框架沒有JavaScript Engine(引擎)，所以，通常都會結合Selenium或Splash套件來爬取這些動態網頁。

本文就以Accupass網站的精選活動為例，來分享Scrapy框架整合Selenium套件，開發Python網頁爬蟲的流程，包含：

建立Scrapy網頁爬蟲
安裝scrapy-selenium套件
Scrapy整合Selenium爬取動態網頁

一、建立Scrapy網頁爬蟲

在開始本文的實作前，如果對於Scrapy框架的結構還不熟悉的話，可以先參考[Scrapy教學1]快速入門Scrapy框架的5個執行模組及架構文章。

首先，利用以下指令安裝Scrapy框架：

$ pip install scrapy

接著，新增一個資料夾，並且使用命令提示字元切換到該資料夾的目錄下，建立Scrapy專案，如下：

$ scrapy startproject accupass_scraper .

PS.特別注意指令最後要加「.」，代表在目前路徑下建立專案。

有了專案後，就能夠利用以下指令建立Scrapy網頁爬蟲：

$ scrapy genspider accupass accupass.com

到目前為止，Scrapy專案的結構如下圖：

二、安裝scrapy-selenium套件

而Scrapy框架想要使用Selenium套件來發送請求(Request)與接收回應(Response)，就需要一個Middleware來使用Selenium套件，如下圖黃框的地方：

其中的Middleware，也就是在Scrapy發送請求前，以及將回應結果傳給Scrapy網頁爬蟲前，能夠在Middleware中來進行前處理。

所以，Scrapy框架想要使用Selenium套件來發送請求與接收回應結果，就需要定義Middleware，當然，已經有大大寫好了scrapy-selenium Middleware可以使用，安裝方式如下指令：

$ pip install scrapy-selenium

接下來，前往下載Selenium的瀏覽器驅動，並且放置於Scrapy專案資料夾中，如下圖：

開啟settings.py檔案，加入scrapy-selenium Middleware的相關設定，如下範例：

DOWNLOADER_MIDDLEWARES = {
    'scrapy_selenium.SeleniumMiddleware': 800
}

SELENIUM_DRIVER_NAME = 'chrome'  #瀏覽器名稱
SELENIUM_DRIVER_EXECUTABLE_PATH = 'chromedriver.exe'  #驅動程式路徑
SELENIUM_DRIVER_ARGUMENTS = ['-headless']

三、Scrapy整合Selenium爬取動態網頁

前往Accupass網站首頁，如下圖：

截取自https://www.accupass.com/?area=north

在活動標題的地方，點擊右鍵，選擇「檢查」，可以看到HTML原始碼如下：

開啟Scrapy專案的accupass.py檔案，引用scrapy-selenium的SeleniumRequest模組(Module)，如下範例：

import scrapy
from scrapy_selenium import SeleniumRequest

而想要讓Scrapy框架使用Selenium套件發送請求，就可以新增start_requests()方法(Method)，如下範例：

import scrapy
from scrapy_selenium import SeleniumRequest


class AccupassSpider(scrapy.Spider):
    name = 'accupass'
    allowed_domains = ['accupass.com']
    start_urls = ['http://accupass.com/']

    def start_requests(self):
        yield SeleniumRequest(url='https://www.accupass.com/?area=north', callback=self.parse)

以上範例的第11行，callback參數就是收到網頁的回應結果之後，所要執行的方法(Method)，也就是爬取網頁上的資料，如下範例：

import scrapy
from scrapy_selenium import SeleniumRequest


class AccupassSpider(scrapy.Spider):
    name = 'accupass'
    allowed_domains = ['accupass.com']
    start_urls = ['http://accupass.com/']

    def start_requests(self):
        yield SeleniumRequest(url='https://www.accupass.com/?area=north', callback=self.parse)


    def parse(self, response):

        titles = response.css("p.style-f13be39c-event-name::text").getall()  #爬取所有活動標題

        for title in titles:
            print(title)  #印出活動標題

截取部分執行結果

更多詳細的Scrapy框架定位網頁元素方法可以參考[Scrapy教學4]掌握Scrapy框架重要的CSS定位元素方法及[Scrapy教學5]掌握Scrapy框架重要的XPath定位元素方法。

四、小結

Scrapy框架透過scrapy-selenium Middleware，整合了Selenium套件的功能後，即可爬取像是JavaScript產生的動態網頁，並且享有非同步的爬取效率。大家實作完本文，可以接續將資料存入資料庫或匯出至檔案，進行更多的資料分析應用唷。更多有關scrapy-selenium Middleware的使用方式可以參考https://github.com/clemfromspace/scrapy-selenium。

如果您喜歡我的文章，別忘了在下面訂閱本網站，以及幫我按五下Like(使用Google或Facebook帳號免費註冊)，支持我創作教學文章，回饋由LikeCoin基金會出資，完全不會花到錢，感謝大家。

GitHub網址：https://github.com/mikeku1116/scrapy-integrate-selenium

有想要看的教學內容嗎?歡迎利用以下的Google表單讓我知道，將有機會成為教學文章，分享給大家😊

https://forms.gle/UW8u9XddoY17HjaSA

Python學習資源

Python學習資源整理

Python網頁爬蟲推薦課程

Python網頁爬蟲－Scrapy教學

Python非同步網頁爬蟲

Python網頁爬蟲技巧

留言

Unknown2022年2月18日上午10:19
大大,在pip install scrapy-selenium的scrapy少一個r喔~
回覆刪除
回覆
匿名2022年7月7日凌晨1:28
請問
titles = response.css("p.style-f13be39c-event-name::text").getall()
為什麼改成xpath選取，如下
titles = response.xpath("//p[@class='style-f13be39c-event-name']/text()").getall()
會沒辦法順利print呢
回覆刪除
回覆

新增留言

你的Py教練Mike

搜尋此網誌

[Scrapy教學12]在Scrapy框架整合Selenium套件爬取動態網頁的實作指南

一、建立Scrapy網頁爬蟲

二、安裝scrapy-selenium套件

三、Scrapy整合Selenium爬取動態網頁

四、小結

標籤

留言

張貼留言

這個網誌中的熱門文章

[Pandas教學]資料分析必懂的Pandas DataFrame處理雙維度資料方法

[Python教學]搞懂5個Python迴圈常見用法

[Python爬蟲教學]7個Python使用BeautifulSoup開發網頁爬蟲的實用技巧

[Python物件導向]淺談Python類別(Class)

[Python教學]5個必知的Python Function觀念整理

[Pandas教學]5個實用的Pandas讀取Excel檔案資料技巧

[Python+LINE Bot教學]6步驟快速上手LINE Bot機器人

[Python教學]Python Lambda Function應用技巧分享

[Python爬蟲教學]整合Python Selenium及BeautifulSoup實現動態網頁爬蟲

Visual Studio Code Python環境建置

取得最新發佈的免費Python教學