[Python爬蟲教學]7個Python使用BeautifulSoup開發網頁爬蟲的實用技巧

Photo by Stanley Dai on Unsplash

在實務上開發專案時，很多時候會利用其他網站的資料來進行分析或運用，而取得的方式除了透過網站所提供的API(Application Programming Interface)外，也可以利用Python來開發爬蟲程式，將網頁的HTML內容下載下來，接著利用BeautifulSoup套件(Package)，擷取所需的資訊。

本文將開發一個簡單的爬蟲程式，爬取「ETtoday旅遊雲」網頁，擷取桃園旅遊景點的標題資訊，如下圖：

取自ETtoday的旅遊雲

而在開發的過程中，常會需要搜尋HTML的節點，本文將分享幾個常用的方法，包含：

BeautifulSoup安裝
以HTML標籤及屬性搜尋節點
以CSS屬性搜尋節點
搜尋父節點
搜尋前、後節點
取得屬性值
取得連結文字

一、BeautifulSoup安裝

BeautifulSoup是一個用來解析HTML結構的Python套件(Package)，將取回的網頁HTML結構，透過其提供的方法(Method)，能夠輕鬆的搜尋及擷取網頁上所需的資料，因此廣泛的應用在網頁爬蟲的開發上。

Beautifulsoup套件(Package)可以透過pip指令來進行安裝，如下範例：

pip install beautifulsoup4

而要解析網頁的HTML程式碼前，還需要安裝Python的requests套件(Package)，將要爬取的網頁HTML程式碼取回來，安裝方式如下：

pip install requests

安裝完成後，首先引用requests套件(Package)，並且透過get()方法(Method)存取ETtoday旅遊雲的桃園景點網址，如下範例：

import requests

response = requests.get(
    "https://travel.ettoday.net/category/%E6%A1%83%E5%9C%92/")

將網頁的HTML程式碼取回來後，接著引用BeautifulSoup類別(Class)，傳入取回的HTML結構字串，並且指定HTML的解析型態來建立其物件，如下範例：

import requests
from bs4 import BeautifulSoup

response = requests.get(
    "https://travel.ettoday.net/category/%E6%A1%83%E5%9C%92/")
soup = BeautifulSoup(response.text, "html.parser")

print(soup.prettify())  #輸出排版後的HTML內容

執行結果(截取其中的片段)：


   <div class="box_0 clearfix" itemscope="" itemtype="https://schema.org/NewsArticle">
   <a class="pic" href="https://travel.ettoday.net/article/1640961.htm">
      <img height="150" src="https://cdn2.ettoday.net/images/4690/b4690669.jpg" width="200" />
   </a>
   <br />
   <h3>
      <a href="https://travel.ettoday.net/article/1640961.htm">
         網美必去!桃園打卡聖地玫瑰山谷  鮮花+童話小屋超浪漫
      </a>
   </h3>
   <div class="summary">
      網美看過來!桃園熱門景點[玫瑰山谷],以浪漫的歐風童話小屋,加上滿院的豔麗玫瑰,成為IG上的打卡熱點.雖然歷經一次搬家,但在空間和環境都有做改變的情況下,人氣不減反升,是個不論情侶或姐妹聚會都能來的地方,趕緊揪人出門浪漫一下.
      <em content="2020-02-09T16:03:00+08:00">
         (2020-02-09 16:03)
      </em>
   </div>
</div>

接下來將以這個HTML結構為基礎，說明搜尋節點的常用方法。

二、以HTML標籤及屬性搜尋節點

現在，soup物件已經包含了整個網頁的HTML程式碼，接下來就可以利用BeautifulSoup套件(Package)所提供的以下方法，來進行節點的搜尋。

find()

只搜尋第一個符合條件的HTML節點，傳入要搜尋的標籤名稱，如下範例：

result = soup.find("h3")
print(result)

執行結果

find_all()

搜尋網頁中所有符合條件的HTML節點，傳入要搜尋的HTML標籤名稱。如果要更明確的搜尋，可以利用關鍵字參數(Keyword Argument)指定其屬性值。由於執行結果可能會搜出許多的HTML內容，所以最後也可以利用limit關鍵字參數(Keyword Argument)限制搜尋的節點數量，如下範例：

result = soup.find_all("h3", itemprop="headline", limit=3)
print(result)

執行結果

範例中可以看到，find_all()方法(Method)回傳了一個串列(List)，包含了網頁中所有的<h3>標籤，且itemprop屬性值為headline的節點，由於限定搜尋數量為2，所以僅搜尋兩個節點。

另外，如果要同時搜尋多個HTML標籤，可以將標籤名稱打包成串列(List)後，傳入find_all()方法(Method)中即可，如下範例：

result = soup.find_all(["h3", "p"], limit=2)
print(result)

執行結果

範例中同時搜尋了網頁中所有<h3>及<p>的HTML標籤內容，這邊限定只搜尋兩個節點。

select_one()

當某一節點下只有單個子節點時，可以利用BeautifulSoup套件(Package)的select_one()方法(Method)，選取子節點，如下範例：

result = soup.find("h3", itemprop="headline")
print(result.select_one("a"))

執行結果

select()

而如果某一節點下有多個子節點時，則使用select()方法(Method)，選取子節點，如下範例：

result = soup.find("div", itemprop="itemListElement")
print(result.select("a"))

執行結果

範例中，由於<div>標籤下有多個<a>標籤的子節點，所以可以利用select()方法(Method)，選取其下所有的<a>標籤，並且為串列(List)的資料型態。

三、以CSS屬性搜尋節點

要依據HTML的css屬性來進行節點的搜尋，需使用 class_ 關鍵字參數(Keyword Argument)來進行css屬性值的指定，同樣提供了以下的搜尋方式：

find()

搜尋第一個符合指定的HTML標籤及css屬性值的節點，如下範例：

titles = soup.find("p", class_="summary")
print(titles)

執行結果

find_all()

搜尋網頁中符合指定的HTML標籤及css屬性值的所有節點，如下範例：

titles = soup.find_all("p", class_="summary", limit=3)
print(titles)

執行結果

第二、三個<p>節點由於其下還有<em>節點，所以也會進行回傳。

select()

而如果單純只想要透過css屬性值來進行HTML節點的搜尋，則可以使用BeautifulSoup套件(Package)的select()方法(Method)，如下範例：

titles = soup.select(".summary", limit=3)
print(titles)

執行結果

四、搜尋父節點

以上皆為向下的搜尋節點方式，如果想要從某一個節點向上搜尋，則可以使用BeautifulSoup套件(Package)的find_parent()或find_parents()方法(Method)，如下範例：

result = soup.find("a", itemprop="url")
parents = result.find_parents("h3")
print(parents)

執行結果

範例中，搜尋<a>標籤且itemprop屬性值為url的節點，接著透過find_parents()方法(Method)，向上搜尋<h3>標籤的父節點。

五、搜尋前、後節點

在同一層級的節點，想要搜尋前一個節點，可以使用BeautifulSoup套件(Package)的find_previous_siblings()方法，如下範例：

result = soup.find("h3", itemprop="headline")
previous_node = result.find_previous_siblings("a")
print(previous_node)

執行結果

相反的，在同一層級的節點，想要搜尋後一個節點，則使用find_next_siblings()方法(Method)，如下範例：


result = soup.find("h3", itemprop="headline")
next_node = result.find_next_siblings("p")
print(next_node)

執行結果

六、取得屬性值

在前面範例中，皆為取得所需之HTML節點，而如果想要取得某一個節點中的屬性值，則可以利用BeautifulSoup套件(Package)的get()方法(Method)。

假設，想要爬取「ETtoday的旅遊雲」桃園景點首頁的標題連結。首先，利用find_all()方法搜尋網頁中所有<h3>標籤且itemprop屬性值為headline的節點，接著，透過for迴圈讀取串列(List)中的節點，由於<h3>標籤底下只有一個<a>標籤，所以可以利用BeautifulSoup套件的select_one()方法進行選取，如下範例：

titles = soup.find_all("h3", itemprop="headline")
for title in titles:
    print(title.select_one("a"))

執行結果

最後，利用get()方法(Method)取得href屬性值中的網址，如下範例：

titles = soup.find_all("h3", itemprop="headline")
for title in titles:
    print(title.select_one("a").get("href"))

執行結果

七、取得連結文字

要取得<a>標籤的連結文字，可以利用BeautifulSoup套件(Package)的getText()方法(Method)，如下範例：

titles = soup.find_all("h3", itemprop="headline")
for title in titles:
    print(title.select_one("a").getText())

執行結果

八、小結

以上就是利用Python開發網頁爬蟲時，常用的HTML節點搜尋及資料取得的方式，透過實際的爬取旅遊景點資訊，讓各位可以瞭解Python基本的爬蟲開發，運用本文所教的概念，實作一個爬蟲獲取想要的資訊吧。如果在練習的過程中有遇到任何問題，或是有不錯的爬蟲開發技巧及經驗，歡迎留言分享。

如果您喜歡我的文章，請幫我按五下Like(使用Google或Facebook帳號免費註冊)，支持我創作教學文章，回饋由LikeCoin基金會出資，完全不會花到錢，感謝大家。

有想要看的教學內容嗎?歡迎利用以下的Google表單讓我知道，將有機會成為教學文章，分享給大家😊

https://forms.gle/UW8u9XddoY17HjaSA

Python學習資源

Python學習資源整理

Python網頁爬蟲推薦課程

Python網頁爬蟲－Selenium教學

Python非同步網頁爬蟲

Python網頁爬蟲應用

Python網頁爬蟲部署

[Python爬蟲教學]教你如何部署Python網頁爬蟲至Heroku雲端平台

Python網頁爬蟲資料儲存

Python網頁爬蟲技巧

留言

BILL2020年11月30日晚上10:04
你好
想請問find/find_all
與select_one/select
這兩種方法的差別和適合的使用時機是？
感謝！
回覆刪除
回覆
匿名2021年1月1日晚上10:05
你好!請問如果有很多個網站的網址放在txt檔案內!可以一次輸出多個網站標頭嗎?
回覆刪除
回覆
IvanKe2021年1月16日下午2:55
您好，我在 VS code 裡也有安裝 Code Runner
我照著您的文章做，但程式輸出時在 OUTPUT 分頁裡面它呈現亂碼耶！

若不裝 Code Runner 的話，執行時結果會呈現在 TERMINAL 裡面，
這時又沒有亂碼，請問是什麼問題呢？
回覆刪除
回覆
Kevin2021年4月28日下午5:44
你好!嘗試用Python抓網頁上的資料試過幾個還順利但有些網頁上的資料只有抓到頭尾一部分中間部分資料抓不到用網頁開發者工具也有找到相對映的ID 請問是要用BeautifulSoup之外的技巧抓嗎?
網頁: https://mis.twse.com.tw/stock/etf_nav.jsp?ex=tse/ctrl-reference
回覆刪除
回覆

新增留言

你的Py教練Mike

搜尋此網誌

[Python爬蟲教學]7個Python使用BeautifulSoup開發網頁爬蟲的實用技巧

一、BeautifulSoup安裝

二、以HTML標籤及屬性搜尋節點

三、以CSS屬性搜尋節點

四、搜尋父節點

五、搜尋前、後節點

六、取得屬性值

七、取得連結文字

八、小結

標籤

留言

張貼留言

這個網誌中的熱門文章

[Pandas教學]資料分析必懂的Pandas DataFrame處理雙維度資料方法

[Python教學]搞懂5個Python迴圈常見用法

[Python物件導向]淺談Python類別(Class)

[Python教學]5個必知的Python Function觀念整理

[Pandas教學]5個實用的Pandas讀取Excel檔案資料技巧

[Python+LINE Bot教學]6步驟快速上手LINE Bot機器人

[Python教學]Python Lambda Function應用技巧分享

[Python爬蟲教學]整合Python Selenium及BeautifulSoup實現動態網頁爬蟲

Visual Studio Code Python環境建置

取得最新發佈的免費Python教學