跳到主要內容

發表文章

目前顯示的是 一月, 2021的文章

[Scrapy教學7]教你Scrapy框架匯出CSV檔案方法提升資料處理效率

Photo by Maxwell Ridgeway on Unsplash 在實作Python網頁爬蟲時,有一個非常重要的議題,就是如何將爬取到的資料有效儲存起來,這時候除了能夠像 [Scrapy教學6]解析如何在Scrapy框架存入資料到MySQL教學 文章一樣,存入資料庫外,另一個最常使用的方法,就是檔案的匯出,像是CSV、JSON及XML等。

[Scrapy教學6]解析如何在Scrapy框架存入資料到MySQL教學

Photo by Cytonn Photography on Unsplash 在利用Scrapy框架開發網頁爬蟲的過程中,成功取得想要蒐集的資料後,下一個步驟就是資料的儲存,像是存入資料庫或是檔案中等,這時候,就會需要使用到Scrapy框架的item資料模型及pipeline資料模型管道模組(Module),來幫助開發人員建立好維護的資料處理方式。

[Scrapy教學5]掌握Scrapy框架重要的XPath定位元素方法

Photo by Markus Winkler on Unsplas h Scrapy網頁爬蟲框架除了提供 [Scrapy教學4]掌握Scrapy框架重要的CSS定位元素方法 文章中所分享的css()方法(Method)來定位網頁元素(Element)外,也提供了xpath()定位方法(Method)讓開發者使用。 XPath(XML Path Language)是一個使用類似檔案路徑的語法,來定位XML文件中特定節點(node)的語言,因為能夠有效的尋找節點(node)位置,所以也被廣泛的使用在Python網頁爬蟲的元素(Element)定位上。

[Scrapy教學4]掌握Scrapy框架重要的CSS定位元素方法

Photo by NordWood Themes on Unsplash 想要開發Python網頁爬蟲的朋友,都會知道 定位 元素(Element)是一個非常重要的動作,在 [Scrapy3教學]如何有效利用Scrapy框架建立網頁爬蟲看這篇就懂 文章中,使用了Scrapy框架的bs4 模組( Module ),也就是 BeautifulSoup的語法,來示範爬取目標網頁中的HTML元素(Element)。 但事實上,Scrapy框架本身就有提供自己的 定位 元素(Element)方法(Method),包含CSS與XPath兩種,而本文將延續使用 [Scrapy3教學]如何有效利用Scrapy框架建立網頁爬蟲看這篇就懂 文章的 INSIDE 硬塞的網路趨勢觀察網站- AI 新聞 為例,先 來和大家分享在Scrapy框架中,如何利用CSS的 定位 元素(Element)方法(Method),爬取想要的網頁內容,重點包含:

[Scrapy教學3]如何有效利用Scrapy框架建立網頁爬蟲看這篇就懂

Photo by Alex Kulikov on Unsplash 在 [Scrapy教學2]實用的Scrapy框架安裝指南,開始你的第一個專案 文章,完成Scrapy框架的 安裝 以及專案的建立後,接下來,就可以在其中開發網頁爬蟲,而在開發之前,又有哪些基本的觀念需要知道?本文將 一步一步 帶大家來進行瞭解,重點包含: