跳到主要內容

發表文章

Tableau實戰教學 - 快速打造企業級的資料視覺化圖表

  在資料分析的過程中,很多時候我們都需要快速探索資料背後的資訊或價值,進而解決商業上的問題,而資料視覺化就是常用來洞察資料的方法之一。那資料視覺化的工具非常多,這篇文章就來介紹Tableau資料視覺化工具,並且以 Kaggle網站的連鎖超市資料集 為例,教大家從零開始打造精美的資料視覺化圖表。

無痛學會Power BI快速打造互動式的資料視覺化圖表

在實務上,想要進行資料分析,探索大數據背後的價值或趨勢,很常會使用資料視覺化的方法來呈現,幫助決策人員進行商業決策。那資料視覺化的工具非常多,今天就來分享Power BI這套資料視覺化工具,並且以Kaggle網站的 Most Subscribed YouTube Channel( 訂閱最多的 YouTube 頻道) 資料集為例,手把手帶大家建立Power BI視覺化圖表。

Selenium網頁爬蟲串接ScraperAPI輕鬆應對網站的反爬蟲機制

在上一篇 有效利用ScraperAPI打造不被偵測的Python網頁爬蟲 文章中,介紹了Python網頁爬蟲串接 ScraperAPI 爬取網頁資料的方式,透過它隨機輪換Proxy IP、瀏覽器標頭等機制,讓我們不用擔心網頁爬蟲被偵測封鎖。那如果今天遇到了動態網頁,需要使用Selenium套件來操作網頁的話,該如何與 ScraperAPI 進行串接呢?這篇文章就來分享Selenium串接 ScraperAPI 的過程。

有效利用ScraperAPI打造不被偵測的Python網頁爬蟲

有些大型的網站,都會有網頁爬蟲的偵測機制,像是請求的標頭、IP、規則性等等,一旦被偵測到就很有可能被封鎖,沒辦法再使用該網站的服務,導致很多人不敢輕易嘗試爬取大型網站的資料。那想要降低被偵測風險的方法之一,就是隨機輪換不同的Proxy IP和請求標頭,最近看到 ScraperAPI 提供了這樣的解決方案,使用上也非常的簡單,又有1000 API額度可以免費使用,所以這篇文章就來分享一下 ScraperAPI 的使用方式。

一篇看完就懂Python網頁爬蟲爬取JavaScript網頁資料的實作

我們都知道在開發Python網頁爬蟲之前,都要先檢視網頁原始碼,瞭解網頁資料的結構之後才會進行爬取的動作。但是有些網頁在檢視網頁原始碼的時候,會發現找不到網頁上的資料,這就是網站為了防止資料被輕易的爬走,使用JavaScript的技術,動態載入網頁上的資料,讓Python網頁爬蟲無法從網頁原始碼裡面爬取到資料。 這篇文章我就用 雄獅旅遊網站 ,來和大家分享Python網頁爬蟲如何爬取JavaScript型網站的資料,其中的爬取步驟如下:

詳解Python網頁爬蟲下載網頁驗證碼圖片(Captcha)的系統化作法

相信大家平常在瀏覽網頁的過程中,都有看過文字驗證碼(Captcha),要使用者輸入正確的英文數字才可以繼續操作,那要通過這種反爬蟲機制,就是要先把文字驗證碼(Captcha)的圖片下載下來,再進行後續的辨識動作。 這時候如果你使用圖片的src屬性來下載文字驗證碼(Captcha)圖片,會發現下載下來的圖片和網頁上的不一樣,是因為當我們發送請求到圖片的來源網址時,等於又再打開一次網頁的意思,它就會再次產生不一樣的文字驗證碼,導致下載下來的圖片會不一樣,解決方案就是使用Selenium套件來下載 文字驗證碼(Captcha)圖片 ,這篇文章我就用 博客來 網站為例,來示範其中的實作方式。

教你學會Python網頁爬蟲自動化登入網站的秘訣

想要利用Python網頁爬蟲蒐集網路上的資料,除了一般網頁之外,有些還會需要進行"登入"的動作,才會顯示網頁資料,這也就是所謂的登入型網頁,最常見的像是Facebook、Instagram等社群網站。 這時候就可以利用Python的Selenium套件來模擬登入的動作,進而爬取到想要的資料。這篇文章我就用Facebook網站為例,來教大家Python網頁爬蟲如何利用Selenium套件來自動化登入網站。

揭密Selenium動態網頁爬蟲常用的網頁操作方法

很多新手在遇到動態網頁的時候,都會不知所措,因為它需要額外的網頁操作,像是會員登入、滾動網頁卷軸、點擊按鈕等等,才有辦法爬取到網頁資料。 今天這篇文章我就用 Facebook網站 為例, 分享在 建置Python動態網頁爬蟲上 , 最常使用的5個Selenium網頁操作方法,讓你之後可以順利爬取到動態網頁的資料,包含:

5個實用的Selenium網頁資料爬取方法應用指南

說到建置Python網頁爬蟲的工具,之前我有整理了一篇「 7個Python使用BeautifulSoup開發網頁爬蟲的實用技巧 」的教學文章,今天這篇就用 The News Lens 關鍵評論網的國際新聞 為例,來分享Selenium常用的爬取資料方法,讓大家在建置Python網頁爬蟲爬取動態網頁的時候,可以快速上手。

全面掌握Selenium建置動態網頁爬蟲的步驟與重要模組

如果有在開發Python網頁爬蟲的話,「 動態網頁」這個詞應該都不陌生 。那 想要爬取動態網頁上的資料,Selenium套件就是最常被用來開發網頁爬蟲的工具之一,透過它提供的網頁操作方法,來模擬使用者的操作,進而爬取到動態網頁的資料。 這篇文章我整理了Selenium建置網頁爬蟲專案的步驟與重要模組,幫助大家之後能夠更方便、快速的建立Python動態網頁爬蟲專案。

[Pandas教學]常用的Pandas套件合併CSV檔案資料的驗證方式

日常的資料分析工作中,有非常多的資料集需要處理,並且各資料集的結構與關係都不盡相同,這時候在利用Pandas套件來合併相關的資料集進行分析時,就可能發生不如預期的資料錯誤。 而Pandas套件常用的merge()及concat()合併資料方法(Method),也提供了資料驗證的機制,本文就來和大家分享其中的應用方式,避免在合併資料後,產生問題而影響分析結果。重點包含:

[Pandas教學]解析Pandas套件的Pivot Table(樞紐分析表)用法透視資料

在海量的數據中,如果沒有進一步的探索與分析,往往無法看出其中所傳達的訊息, 而使用Pandas套件的Pivot Table樞紐分析表,就能夠將欄位資料透過交叉比對的方式,進行群組、匯總及統計,幫助資料分析人員快速解讀資料。 本文就以 Kaggle網站的2017年Stack Overflow開發者調查資料集(survey_results_public.csv) 為例,帶大家瞭解Pandas套件的 Pivot Table樞紐分析表使用方式,包含:

[Pandas教學]你要學會的Pandas套件對於資料單位與格式的處理技巧

從各種管道蒐集資料的過程中,因為資料來源的不同,其中使用的「單位」或「格式」就可能有所不同,像是幣別、重量、日期或容量等,當進行資料合併或整合時,如果沒注意就會發生資料「單位」或「格式」不一致的問題。 而這會影響分析及預測的結果,所以,本文利用3個範例,讓大家學會使用Pandas套件進行「單位」或「格式」的統一,包含:

[Pandas教學]解密Pandas套件清理類別資料(Categorical Data)的方法

如果有在實作資料分析或機器學習的朋友就會知道,為了要群組或分類相似的資料,會使用標籤、代號或數字等類別資料(Categorical Data)進行分群。像是影像辨識,將相近的圖片使用特定的標籤來代表,提升分析或訓練模型的效率。 但是當資料量非常龐大時,就可能因為人為輸入或解析有誤,導致類別資料(Categorical Data)產生不一致的問題。所以,本文以 Kaggle網站的銀行直銷資料集(bank-direct-marketing-campaigns.csv) 為例,來聊聊如何利用Pandas套件來進行清理。重點包含:

[Pandas教學]3個實用的Pandas套件清理重複資料教學

當遇到一個商業問題或假設,要從各個管道蒐集資料來解決問題時,像是檔案、網頁及公開資料庫等,而在進行資料整合的過程中, 如果處理流程不夠完善,就有機會產生重複的資料 誤導分析的結果 。 本文以 Kaggle網站的Amazon 2009-2019年Top50暢銷書資料集(bestsellers with categories.csv) 為例,教大家如何查找及清理資料集的重複資料,提升資料的品質。重點包含:

[Pandas教學]善用Pandas套件幫你清理資料範圍異常的資料

在大量的數據中,有時為了精準分析特定群組的資料,通常都會依需求定義所要分析的資料範圍,像是評價、日期及年齡區間等 。 而在蒐集資料或人為處理資料的過程中,就有可能發生資料超出所要分析的範圍錯誤,導致分析結果出現異常。本文將以 Kaggle網站的Kindle Store電子書店評論資料集(kindle_reviews.csv) 為例 ,來和大家分享 如何利用Pandas套件來處理 以下兩種類型的資料範圍錯誤:

[Pandas教學]教你用Pandas套件清理資料中的常見資料型態問題

想要實作資料分析,讀取資料是第一步所要執行的動作,而如果沒有正確的進行資料前處理(Data Preprocessing),就會影響最後分析結果的準確性及可靠性。 其中,最常見的基本資料問題,包含「資料型態」、 「資料範圍」及 「重複資料」, 本文就先針對 「資料型態」, 來和大家分享如何有效找出髒資料(Dirty Data),並且利用Pandas套件來進行資料處理或清理,避免髒資料(Dirty Data)導致分析的副作用 :

[Scrapy教學13]掌握3個降低Scrapy網頁爬蟲被封鎖的技巧

在市面上眾多的Python網頁爬蟲工具中,如果想要開發大型的網頁爬蟲專案,這時候都會使用Scrapy框架,擁有完整的爬取、儲存及效率等功能。而Scrapy框架如何克服網站的反爬蟲機制呢? 看完這篇文章,你將學會在Scrapy框架中,利用以下三個常見的實用方法,降低反爬蟲網站的偵測風險:

[Scrapy教學12]在Scrapy框架整合Selenium套件爬取動態網頁的實作指南

現在市面上,為了增加Python網頁爬蟲爬取資料的困難度,都會使用反爬蟲機制,像是登入、驗證碼及JavaScript動態產生內容等,而Scrapy框架沒有JavaScript Engine(引擎),所以,通常都會結合Selenium或Splash套件來爬取這些動態網頁。 本文就以 Accupass網站 的精選活動為例,來分享Scrapy框架整合Selenium套件,開發Python網頁爬蟲的流程,包含:

[Python爬蟲教學]掌握這6個開發重點優化Python網頁爬蟲的效率與穩定度

Python網頁爬蟲是現在非常受歡迎的資料蒐集方式之一,而在定期爬取的過程中,非常有機會因為網頁架構或樣式的改變,導致Python網頁爬蟲發生錯誤中斷。所以,本文提供以下6個檢查點,只要在開發時特別留意,將會讓Python網頁爬蟲較為穩定及有效率。包含:

[Python爬蟲教學]學會Python網頁爬蟲輪流或隨機使用Proxy IP發送請求的技巧

利用Python網頁爬蟲爬取網頁資料已經是常見的資料蒐集方法之一,但是在爬取的過程中,難免擔心會不會被網站偵測或封鎖,繼 [Python爬蟲教學]有效利用Python網頁爬蟲爬取免費的Proxy IP清單 文章之後,看完本篇文章,你將學會如何在Python網頁爬蟲專案,透過隨機使用不同的Proxy IP發送請求,降低被偵測或封鎖的機率。實作步驟包含 :

[Python爬蟲教學]有效利用Python網頁爬蟲爬取免費的Proxy IP清單

Photo by Cytonn Photography on Unsplash 在開發網頁爬蟲的過程中,是不是會擔心被偵測或封鎖,而爬不到所需的資料呢? 有些大型網站為了保護網頁上的資料不被大量的爬取,會特別偵測像Python網頁爬蟲這種非人工的自動化請求,這時候 Python網頁爬蟲 使用相同的IP來發送請求就很容易被發現。 所以,如果有多組IP能夠讓Python網頁爬蟲在發送請求時輪流使用,就能夠大幅降低被偵測的風險。 而現在有許多網站上也有提供免費的Proxy IP,本文就以 Free Proxy List 網站為例,透過Python網頁爬蟲來蒐集上面的Proxy IP,製作我們的IP清單。實作步驟包含:

[Pandas教學]使用Pandas套件將資料集拆分成多個CSV檔案資料應用

Photo by Mad Fish Digital on Unsplash 當單一資料集過於龐大,想要拆分為不同的檔案,或 在實作機器學習時,需要將資料集分為測試及訓練資料等,這時候就有機會把單一CSV檔案中的資料,依據特定條件拆分成多個CSV檔案。 而使用Pandas套件來進行資料分析,就能夠很輕鬆的解決以上任務,本文就以Kaggle網站的「 Coursera Course Dataset( coursea_data.csv ) 」 資料集為例,基於其中的課程難易度等級欄位(course_difficulty),來分別拆分多個CSV檔案,實作步驟 包含:

[Pandas教學]3個Pandas套件比較CSV檔案資料之間的差異秘訣

Photo by Elena Kloppenburg on Unsplash 使用Pandas套件處理多份CSV檔案資料,相信是資料分析的過程中不可或缺的任務之一,其中,很常有機會比較各個資料集的相同與不相同資料內容,藉此來瞭解差異或檢核資料整合的結果是否有誤。 所以,本文就以Kaggle網站的「 Coursera Course Dataset( coursea_data.csv ) 」及 「 Course Reviews on Coursera(Coursera_courses.csv) 」 兩個 資料集為例,來分享3個Pandas套件比較CSV檔案資料集的 常用 方法,包含:

[Python爬蟲教學]常見的Python網頁爬蟲自動化下載檔案資料方法

Photo by Helena Lopes on Unsplash 在進行網頁資料分析的過程中,除了網頁資訊外,有時也會有檔案資料,供使用者下載使用,像是股市相關的網站,就會有各種不同的財務報表下載,這時候, 就可以結合Python網頁爬蟲的特性,來自動化下載檔案資料, 協助股市資料 的 分析實作。 本文就以 證券交易所 的 個股日成交資訊 及 上市公司季報 為例,來分別和大家分享以下兩個常見的Python檔案資料下載方式,包含:

必學的Python Selenium套件自動化網頁截圖技巧

Photo by Marga Santoso on Unsplash 平時在瀏覽網頁的時候,相信大家有時會對於網頁上的某部分資訊感到有興趣,就會想要透過截圖的方式保存下來,就像是 Yahoo奇摩股市 網站,提供了不少資料視覺化的圖表,如果能夠利用網頁截圖的技巧,就可以大幅提升每天的分析效率 。 所以,今天就以 Yahoo奇摩股市 網站為例,來 和大家分享如何使用Python Selenium套件的自動化截圖方法(Method),截取 網頁圖表,其中的重點包含 :

[Python爬蟲教學]定時自動化執行Google(GCP)雲端平台上的Python網頁爬蟲方法

Photo by Clay Banks on Unsplash 在 [Python爬蟲教學]3步驟教你部署Python網頁爬蟲到Google(GCP)雲端平台 文章中,和大家分享了部署Python網頁爬蟲到Google Cloud Platform雲端平台,並且能夠將爬取的資料存入Google BigQuery數據庫,而接下來該如何定時自動化執行Python網頁爬蟲呢? 這時候,就會需要利用 Google Scheduler(雲端排程器),透過自訂時間來排程執行Python網頁爬蟲,其中的實作重點包含:

[Python爬蟲教學]3步驟教你部署Python網頁爬蟲到Google(GCP)雲端平台

Photo by Firmbee.com on Unsplash 利用Python網頁爬蟲來進行資料蒐集,想必都會希望能夠自動化的持續運行,將爬取的資料儲存在資料庫中,讓後續可以輕鬆的使用與分析,而要達成自動化的持續運行,就需要將Python網頁爬蟲部署到雲端平台上 。 所以,本文就來接續 [Python爬蟲教學]Python網頁爬蟲寫入資料到Google BigQuery雲端數據庫指南 文章,把其中建置的Python網頁爬蟲部署到Google Cloud雲端平台,並且依然保有原來資料儲存到Google Bigquery數據庫的功能。其中的實作步驟包含:

[Python爬蟲教學]Python網頁爬蟲寫入資料到Google BigQuery雲端數據庫指南

Photo by Souvik Banerjee on Unsplash 在使用Python網頁爬蟲搜集資料的過程中,隨著時間的累積,資料量就會逐步的增加形成大數據,這時候,就會需要藉由雲端資源來協助我們進行資料分析。 而Google BigQuery雲端數據庫(Cloud Data Warehouse)就是一個非常強大的資料儲存分析工具,除了能夠儲存大量的數據外,還擁有很好的查詢效能,並且可以結合Google Data Studio來進行資料視覺化。 所以本文就接續 [Python爬蟲教學]一學就會的Python網頁爬蟲動態讀取資料庫應用 文章, 來和大家分享,如何將Python網頁爬蟲爬取的資料,載入Pandas DataFrame後,存入Google BigQuery資料表,以利於分析。其中的實作步驟包含:

[Python爬蟲教學]一學就會的Python網頁爬蟲動態讀取資料庫應用

Photo by CardMapr.nl on Unsplash Python網頁爬蟲在日常生活中有非常多的應用,股票分析就是其中之一,利用Python網頁爬蟲自動化爬取的特性,蒐集所需的各個公司股價資訊。 但是隨著經濟的變動,關注的股票代碼時常會進行調整,這時候,該如何讓Python網頁爬蟲有彈性的讀取股票代碼就很重要 。 而資料庫就是實務上最常使用的資料儲存工具,本文就以SQLite資料庫為例,來和大家分享Python網頁爬蟲如何動態讀取資料庫中所要分析的股票代碼資料,來爬取 臺灣證券交易所 的 個股日成交資訊 。其中的實作步驟包含:

[Python爬蟲教學]Selenium動態網頁爬蟲通過Captcha驗證碼的實用技巧

Photo by Christina @ wocintechchat.com on Unsplash 想必大家在開發網頁爬蟲的過程中,都會有遇到各種反爬蟲機制的經驗,而Captcha就是其中一種透過圖片驗證的方式,來增加Python網頁爬蟲爬取資料的困難度。 所以,本文就以 博客來網路書店 的登入頁面為例,來和大家分享如何利用 2Captcha服務 ,破解登入時的一般驗證碼(Normal Captcha),順利登入會員。其中實作的重點包含:

[Pandas教學]有效使用Pandas Profiling套件實現探索式資料分析(EDA)

Photo by Giorgio Tomassetti on Unsplash 當手上有一份數據資料要進行分析,這時候如果是使用Pandas套件,通常會利用describe()方法(Method),來初步瞭解資料內容,但是對於想要深入分析資料集來說,資訊還不夠充足。 所以本文就以 Kaggle網站的「Netflix data with IMDB scores added」資料集(mycsvfile.csv) 為例,來和大家分享一個很常用來進行 探索式資料分析( Exploratory Data Analysis )的套件-Pandas Profiling, 能夠將Pandas DataFrame中儲存的資料,產製為一個互動式的網頁報表,並且以視覺化的方式呈現詳細的資料結構。其中的重點包含:

[Pandas教學]利用Pandas套件的to_html方法在網頁快速顯示資料分析結果

Photo by Yura Fresh on Unsplash 資料蒐集的過程中,為了能夠有效的整理資料,通常都會搭配使用Pandas套件來進行實作,而在完成資料整理後,有時就會需要將資料顯示在網頁上,藉此分享其中的資訊 。 Pandas套件也提供了內建方法(Method),讓資料分析人員能夠將Pandas DataFrame中整理好的資料,轉為HTML的表格來加以運用,本文就以 Kaggle網站的「Netflix data with IMDB scores added」資料集(mycsvfile.csv) 為例,來和大家分享如何利用Pandas套件將讀取到的資料顯示在網頁上,重點包含:

[Pandas教學]4個必學的Pandas套件處理遺漏值(Missing Value)資料方法

Photo by Eugene Chystiakov on Unsplash 遺漏值(Missing Value)的處理可以說是在資料清理的過程中,不可或缺的步驟之一,而Pandas套件也提供了許多實用的方法(Method),讓分析人員能夠有效的探索與檢視 遺漏值(Missing Value),並且進行適當的處理。 所以,本文以 Kaggle網站的「Netflix data with IMDB scores added」資料集(mycsvfile.csv) 為例,來和大家分享筆者在處理 遺漏值(Missing Value)時, 常用的Pandas套件方法(Method),包含:

[Pandas教學]有效利用Pandas套件的pipe方法打造資料處理流程管道

Photo by Zan on Unsplash 想要在機器學習或資料分析的過程中順利實作,資料集的前置處理就非常重要,像是資料清理或篩選等,而這些動作通常都是一個有順序性的流程,雖然能透過一次一次的呼叫Pandas套件方法(Method)來達成,但是如果想要讓程式碼可讀性高,以及自動化重複性的資料處理流程,就需要建置資料處理管道(Pipeline)。

[Pandas教學]3個優化Pandas套件讀取大型CSV檔案資料的技巧

Photo by Michael Dolejš on Unsplash 對於資料分析人員來說,Pandas套件相信是最受歡迎的套件之一,提供了許多強大而簡單的方法(Method)來操作資料,但是當處理的資料量較多時,讀取效率就會顯得非常的慢,並且耗用大量的記憶體資源 。

[Pandas教學]一定要學會的Pandas套件讀寫Google Sheets試算表資料秘訣

Photo by Brett Jordan on Unsplash Google Sheets(試算表)相信大家都不陌生,能夠允許多個使用者在上面同時協作,不論是新增或編輯資料等, 對於資料分析來說,就是一個非常好的儲存與共享資料工具 。

[Pandas教學]客製化Pandas DataFrame樣式提升資料可讀性的實用方法

Photo by Sean Lim on Unsplash 面對大量資料的分析工作中,有時想要快速識別遺漏的值,或是已經整理好報表資料,想要為老闆強調某些重要的數字等,這時候除了可以將資料匯出到Excel進行處理外,Pandas套件也提供了許多客製化Pandas DataFrame樣式的功能,來解決以上的需求。

[Pandas教學]3個Pandas套件合併多個CSV檔案資料的實用技巧

Photo by Walling on Unsplash 你有沒有過這樣的經驗,分析的資料分散在多個CSV檔案中,想要利用Pandas套件進行合併,來實作後續的資料處理呢?如果所要分析的資料量或欄位較多時,相信資料被分類在多個CSV檔案中的情況是有機會發生的,這時候就會需要使用Pandas套件的合併方法(Method)來整合多個CSV檔案的資料 。

[Pandas教學]看完這篇就懂Pandas套件如何即時讀取API的回應資料

Photo by LinkedIn Sales Solutions on Unsplash 現在有許多網站,為了 共享擁有的資料或服務, 都會透過建立API(Application Programming Interface)的方式,給外部的使用者進行更多元的應用,對於網站來說,除了能夠方便授權外,也可以彈性管理所提供的資料內容。 這時候,如果想要利用Pandas套件強大的資料分析功能,處理網站API所回傳的JSON格式資料內容,該怎麼實作呢?本文就以 痞客邦(PIXNET)網站的Open Data API 為例,來和大家分享Pandas套件如何讀取回傳的熱門美味食記文章資料,重點包含:

[Pandas教學]快速掌握Pandas套件讀寫SQLite資料庫的重要方法

Photo by Mia Baker on Unsplash 好不容易蒐集到所需的大量資料,經過一連串的 資料清理 、 格式化 、 排序 與 篩選 等前置操作,為了後續的應用及分析,想必都會寫入資料庫中來留存,Pandas套件當然也提供了相關的方法(Method),讓開發人員除了可以將Pandas DataFrame中的資料存入資料庫外,相對的,也能夠透過SQL語法讀取資料庫中的資料 。

[Pandas教學]輕鬆入門3個常見的Pandas套件排序資料方式

Photo by Taras Shypka on Unsplash 面對現實生活中所蒐集來的各式各樣資料,想要能夠快速的進行初步整理,並且有效觀察其中的內容,資料排序可以說是最常使用的方法之一。 而Pandas套件對於資料排序的功能,也提供了非常好支援,本文就以 Kaggle網站的2009-2019年Amazon前50名暢銷書資料集(bestsellers with categories.csv) 為例, 帶大家來瞭解如何在資料集中應用Pandas套件的排序方法(Method)。重點包含:

[Python+LINE Bot教學]一篇搞懂如何在Django框架整合多個LINE Bot機器人服務

Photo by freestocks on Unsplash LINE Bot的自動化回覆訊息功能,普遍的應用在日常生活中,尤其是服務的提供者,都會利用LINE Bot來推播最新消息或回覆客戶的問題等。 隨著各種不同類型的需求增加,有時就會需要更多的LINE Bot來提供服務,而在開發的過程中,普遍都是一個專案包含一個LINE Bot,就會造成有多個專案需要維護,有沒有辦法在一個專案中,包含多個LINE Bot呢?

[Pandas教學]有效利用Pandas套件篩選資料的應用技巧

Lee Campbell on Unsplash 在對資料集進行分析的過程中,有時並不是所有的資料內容都符合需求,往往會透過條件篩選的方式,取得部分資料集來觀察與操作,除了能有更多的變化應用外,也可以對資料有更深入的理解。 所以在學習Pandas套件時,如何篩選出符合自己需求的資料就是一大重點,本文利用 Kaggle網站的星巴克滿意度調查資料集( Starbucks satisfactory survey.csv ) ,來和大家分享Pandas套件篩選資料的常見語法應用,包含:

[Pandas教學]善用Pandas套件的Groupby與Aggregate方法提升資料解讀效率

Content Pixie on Unsplash 為了要能夠在海量的數據資料中,透過資料分析的方式來得知其中的價值,進而做出決策或發現趨勢,就需要簡單的統計方法來幫助理解資料內容,才有辦法將資料做最有效的應用。 所以,本文就以 Kaggle網站的星巴克滿意度調查資料集( Starbucks satisfactory survey.csv ) 為例,分享三個常用的Pandas套件統計方法(Method)來解讀資料內容,包含:

[Pandas教學]使用Pandas套件實作資料清理的必備觀念(下)

DocuSign on Unsplash 使用Pandas套件實作資料清理時,除了對於遺漏、重複與拆分資料的處理外,資料型態與格式也是資料清理過程中需要注意的,這時候就可以利用Pandas套件所提供的轉型與格式化方法(Method)來有效的進行操作。 所以,本文接續 [Pandas教學]使用Pandas套件實作資料清理的必備觀念(上) 文章,使用 Kaggle網站的「Netflix data with IMDB scores added」資料集(mycsvfile.csv) , 針對資料型態與格式的部分,來和大家分享幾個Pandas套件提供的方法(Method)應用,包含:

[Pandas教學]使用Pandas套件實作資料清理的必備觀念(上)

Ioan F on Unsplash 在資料分析的過程中,蒐集來的大量數據很可能不是那麼完整,像是含有空值、NULL或重複等,這時候就需要適當的清理與處理,讓資料集更符合所需,進而能夠精確的分析。 而Pandas套件提供了許多資料清理的方法(Method),本文就以 Kaggle網站的「Netflix data with IMDB scores added」資料集(mycsvfile.csv) 為例,來和大家分享這些方法(Method)的應用方式,包含:

Visual Studio Code漂亮印出Pandas DataFrame資料的實用方法

Pankaj Patel on Unsplash Pandas套件相信是Python開發人員在資料分析的領域中, 最普遍使用的工具之一,對於蒐集來的資料進行後續觀察及清理都相當的便利,而如果您和筆者一樣是Visual Studio Code開發工具的愛好者,利用Pandas套件操作資料後,在印出結果時,就會長得像以下的圖樣:

[Pandas教學]資料視覺化必懂的Pandas套件繪製Matplotlib分析圖表實戰

Ruthson Zimmerman on Unsplash 資料分析一詞相信大家耳熟能詳,目的就是將蒐集到的大量數據,經過有效整理及分析後,來洞悉其中的價值,進而提供更好的用戶體驗或是預測未來的趨勢。

[Scrapy教學11]學會使用3個Scrapy網頁爬蟲偵錯技巧提升開發效率

Photo by Sigmund on Unsplash 在實務上開發Scrapy網頁爬蟲時,難免過程中會發生錯誤或產生問題,這時候該如何有效的偵錯找到原因,進而提升開發效率及品質,就是一個非常重要的議題。 而Scrapy網頁爬蟲框架提供了許多非常實用的方法,來幫助開發人員有效的偵錯,本文就 來和大家分享3個筆者最常使用的偵錯方法,包含: