【scikit-learn基礎】--『數據載入』之真實數據集

来源:https://www.cnblogs.com/wang_yb/archive/2023/12/06/17878841.html
-Advertisement-
Play Games

上一篇介紹了scikit-learn中的幾個玩具數據集,本篇介紹scikit-learn提供的一些真實的數據集。玩具數據集:scikit-learn 基礎(01)--『數據載入』之玩具數據集 1. 獲取數據集 與玩具數據集不同,真實的數據集的數據不僅數據特征多,而且數據量也比較大,所以沒有直接包含在 ...


上一篇介紹了scikit-learn中的幾個玩具數據集,本篇介紹scikit-learn提供的一些真實的數據集。
玩具數據集:scikit-learn 基礎(01)--『數據載入』之玩具數據集

1. 獲取數據集

與玩具數據集不同,真實的數據集的數據不僅數據特征多,而且數據量也比較大,
所以沒有直接包含在scikit-learn庫中。

雖然scikit-learn中提供了線上載入數據的函數,不過由於網路方面的原因,線上載入幾乎不可能成功。
我離線下載了所有scikit-learn的真實數據,並且轉換成了緩存文件,經測試可正常離線使用。

已經轉換好的離線數據集:

  1. olivetti:https://url11.ctfile.com/f/45455611-930509718-42d985?p=6872
  2. 20newsgroups:https://url11.ctfile.com/f/45455611-930509625-f32241?p=6872
  3. lfw_home:https://url11.ctfile.com/f/45455611-930509715-c10239?p=6872
  4. covertype:https://url11.ctfile.com/f/45455611-930509631-f5e629?p=6872
  5. RCV1:https://url11.ctfile.com/f/45455611-930509760-30d2a2?p=6872
  6. kddcup99-py3:https://url11.ctfile.com/f/45455611-930509652-4f47ea?p=6872
  7. kddcup99_10-py3:https://url11.ctfile.com/f/45455611-930509637-2f0131?p=6872
  8. cal_housing:https://url11.ctfile.com/f/45455611-930509628-395dab?p=6872

:所有文件的下載密碼都是:6872

下載上面的 zip 包之後,解壓到本地某個目錄中(下麵的示例是:d:\share\sklearn-realdata),
載入離線數據集的方法如下:

import os
# sklearn一共提供了9種載入真實數據的方法
from sklearn.datasets import fetch_olivetti_faces
from sklearn.datasets import fetch_20newsgroups
from sklearn.datasets import fetch_20newsgroups_vectorized
from sklearn.datasets import fetch_lfw_people
from sklearn.datasets import fetch_lfw_pairs
from sklearn.datasets import fetch_covtype
from sklearn.datasets import fetch_rcv1
from sklearn.datasets import fetch_kddcup99
from sklearn.datasets import fetch_california_housing

home_dir = "d:\share\sklearn-realdata"
data = fetch_olivetti_faces(data_home=os.path.join(home_dir, "olivetti"))
print(data)

data = fetch_20newsgroups(data_home=os.path.join(home_dir, "20newsgroups"))
print(data)

data = fetch_20newsgroups_vectorized(data_home=os.path.join(home_dir, "20newsgroups"))
print(data)

data = fetch_lfw_people(data_home=home_dir)
print(data)
data = fetch_lfw_pairs(data_home=home_dir)
print(data)

data = fetch_covtype(data_home=home_dir)
print(data)

data = fetch_rcv1(data_home=home_dir)
print(data)

# 只載入10%的數據
data = fetch_kddcup99(data_home=home_dir)
print(data)
# 載入全部的數據
data = fetch_kddcup99(data_home=home_dir, percent10=False)
print(data)

data = fetch_california_housing(data_home=os.path.join(home_dir, "cal_housing"))
print(data)

載入離線數據集的關鍵在於設置 data_home 參數。

2. 數據集概況

真實數據和之前的玩具數據集相比,它的優勢在於數據取自實際應用之中,更能夠反映實際問題的複雜性。
用它來學習演算法時,可以提前遇到各種調整模型的問題。

scikit-learn一個提供了9 種載入真實數據集的函數,實際是7 種數據集。

2.1. Olivetti 面部數據集

這個數據集來自從 AT&T,包含40 個不同個體的人臉圖像的數據集,每個個體有10 張不同的圖片。
這些圖像是在不同的時間拍攝的,並且具有不同的照明和麵部表情(睜開/閉上眼睛,微笑/不微笑)以及面部細節(戴眼鏡/不戴眼鏡)。

所有的圖像都採用黑色均勻的背景,並且個體處於直立的正面位置,允許一定的側移。
圖像被量化為256 個灰度級並以8 位無符號整數的形式存儲。
這個數據集的目標是從 0 到 39 的整數,代表圖中人物的身份。
由於每一類只有十個樣例,這個相對較小的數據集對無監督學習半監督學習具有有趣的挑戰性。

此數據集的載入函數:fetch_olivetti_faces

2.2. 新聞組數據集

這是一個常用的文本分類數據集,包含大約20,000 篇新聞文章,這些文章均勻分佈在20 個不同的主題中。

這些新聞組數據來源於 1997 年之前的新聞文章,包括各種不同的新聞來源日期
這個數據集的目標是進行文本分類,將每篇文章分配到其對應的主題中。

該數據集通常用於訓練和測試文本分類演算法,例如朴素貝葉斯分類器、支持向量機或決策樹等。
由於數據集的大小適中,它也適用於較小的機器學習模型。

此數據集的載入函數:fetch_20newsgroupsfetch_20newsgroups_vectorized
這兩個函數的主要區別在於:

  • fetch_20newsgroups返回的是一個原始的文本列表,每個新聞組的數據都以字元串形式給出
  • fetch_20newsgroups_vectorized返回的是一個可以直接用於機器學習或評估的向量數據集,它已經為文本數據進行了特征提取,返回的是一個稀疏矩陣

2.3. 人臉數據集

這個數據集是一個包含13233 張人臉圖像的數據集,用於測試人臉識別演算法。
這些圖像均來自互聯網,包含不同的人臉角度、表情和光照條件。
每張圖像都給出了對應的人名,共有5749 個個體,其中大部分人只有一張圖像,部分人有多張圖像。

此數據集的目標是測試人臉識別演算法的準確率,通常用於評估演算法的準確性召回率交叉驗證等。
由於數據集包含大量的人臉圖像和個體,因此也適用於訓練和測試深度學習模型。

此數據集的載入函數:fetch_lfw_peoplefetch_lfw_pairs
這兩個函數的主要區別在於:

  • fetch_lfw_people數據集中每個人至少有一張圖片,每張圖片都對應不同的人。這個數據集的目標是訓練一個分類器來識別不同的人
  • fetch_lfw_pairs數據集中每個人有兩張不同圖片。這些圖片是在不同的時間、不同的光照條件下拍攝的。這個數據集的目標是訓練一個分類器來識別同一個人在不同條件下的圖片

2.4. 森林覆蓋數據集

這個數據集是一個包含森林覆蓋類型信息的植被覆蓋類型數據集。
該數據集包含581,012 個樣本,每個樣本是一個30m x 30m 區域的森林覆蓋類型,
包括 7 種類型:雲杉/冷杉、洛奇波爾松、黃松、三葉楊/柳樹、阿斯彭、花旗松和克魯姆霍爾茨。

除了前 10 個特征是浮點數外,其餘特征都是one-hot 變數。這個數據集的目標是預測給定區域的森林覆蓋類型。
適用於分類相關的機器學習演算法的測試。

此數據集的載入函數:fetch_covtype

2.5. RCV1 多標簽數據集

這個數據集是一個包含1063389 個樣本的大規模文本分類數據集。
該數據集由英國廣播公司(BBC)和英國郵報(The Guardian)的新聞文章組成,每篇文章都被標記為其中一個類別(例如體育、娛樂、政治等)。

RCV1數據集的目標是訓練和測試文本分類演算法。由於數據集規模較大,它適合用於評估大型機器學習模型和分散式計算系統的性能。
RCV1數據集包含多個屬性,如文本內容、類別標簽和樣本權重等,可以用於訓練多種不同類型的文本分類模型,例如朴素貝葉斯分類器、支持向量機或深度學習模型等。

此數據集的載入函數:fetch_rcv1

2.6. kddcup99 數據集

這個數據集是一個網路入侵檢測的數據集,源自DARPA入侵檢測評估項目。
該數據集包含了 9 個星期的網路連接數據,分為訓練集測試集兩部分。

訓練集包含了4920917條連接記錄,測試集包含了4555136條連接記錄。
這些連接記錄涵蓋了多種網路協議和攻擊類型,例如 TCP、UDP、ICMP 等以及 DoS、U2R、R2L 等攻擊類型。
數據集中的每個連接記錄包含41 個固定的特征屬性,包括源 IP 地址、目的 IP 地址、協議類型、位元組數等,以及一個類標識符表示該連接是否屬於攻擊類型。

kddcup99數據集是網路入侵檢測領域廣泛使用的事實基準數據集,可用於評估和比較不同入侵檢測演算法的性能。

此數據集的載入函數:fetch_kddcup99
由於此數據集數據量很大,所以預設只載入 10%的數據,若要載入全部數據設置參數percent10=False
本文第一節載入離線數據的示例中也載入示例。

2.7. 加州住房數據集

這個數據集包含了加利福尼亞州 1990 年所有城市的房價信息。
數據集中的每個樣本都包含 8 個變數的值:

  1. MedianHouseValue(中位數房價):以 1000 美元為單位。
  2. MedianIncome(中位數收入):以年為單位,以美元為單位。
  3. HouseAge(房齡):以年為單位。
  4. Rooms(房間數):整數。
  5. Bedrooms(卧室數):整數。
  6. Population(人口):以 1000 人為單位。
  7. HousingUnits(房屋數量):以千為單位。
  8. SquareMiles(平方英里):以平方英里為單位。

該數據集被廣泛用於房價預測相關的機器學習演算法的學習中。
此數據集的載入函數:fetch_california_housing

3. 總結

當機器學習的演算法掌握到一定程度的時候,一定會想嘗試用真實的數據集來訓練模型。
這些經典的真實數據集不僅數據量豐富,而且涵蓋的範圍廣,用來練手和提高自己的能力再好不過。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 現象描述:Spring Boot項目,啟動的時候卡住了,一直卡在那裡不動,沒有報錯,也沒有日誌輸出 但是,奇怪的是,本地可以正常啟動 好吧,姑且先不深究為什麼本地可以啟動而部署到伺服器上就無法啟動的問題,這個不是重點,重點是怎麼讓它啟動起來。(PS:我猜測可能是環境不同造成的,包括操作系統不同和JD ...
  • 如圖所示,項目中定義了這樣幾個模塊: pdd-workflow-build :定義項目版本,及全局配置 pdd-workflow-dependencies :外部依賴管理,統一管理所有用到的外部依賴的版本 pdd-workflow-service :項目service模塊 pdd-workflow- ...
  • 在日常項目開發中,可能會遇到使用 ES 做關鍵詞搜索的場景,但是一般來說業務數據是不會直接通過 CRUD 寫進 ES 的。 因為這可能違背了 ES 是用來查詢的初衷,數據持久化的事情可以交給資料庫來做。那麼,這裡就有一個顯而易見的問題:ES 里的數據從哪裡來? 本文介紹的就是如何將 MySQL ... ...
  • 來源:zhihu.com/question/359630395/answer/954452799 今天,在知乎上看到這樣一個問題:"為什麼游戲公司的server不願意微服務化?" 背景介紹 最近面試了一家游戲公司(滿大間的,有上市) 我問他,公司有沒有做微服務架構的打算及考量? 他很驚訝的說,我沒聽 ...
  • 1. 獲取本地IP地址 使用 net 包可以獲取本地機器的 IP 地址。以下是一個獲取本地 IP 地址的簡單示例: package main import ( "fmt" "net" ) func main() { // 獲取所有網路介面 interfaces, err := net.Interfa ...
  • java的世界千奇百怪。。。當我甩出如下代碼段,不知閣下如何應對? try(A a=new A()){ 和a變數無關的業務代碼塊 } 沒錯,這就是“臭名昭著”的try-with-resource語法,乍一看讓人不知所云,其實它和try-finally的下述代碼等價 A a=new A() try{ ...
  • 在 Go 語言中,主要的條件控制語句有 if-else、switch 和 select。以下是對它們的簡單介紹: 1. if 語句: if 語句用於根據條件執行不同的代碼塊。它的基本形式如下: if condition { // code block } else if condition2 { / ...
  • 作者:Lxlxxx 鏈接:https://juejin.cn/post/7221461552343072828 前言 繼上次線上CPU出現了報警,這次服務又開始整活了,風平浪靜了沒幾天,看生產日誌服務的運行的時候,頻繁的出現OutOfMemoryError,就是我們俗稱的OOM,這可還行! 頻繁的O ...
一周排行
    -Advertisement-
    Play Games
  • 1、預覽地址:http://139.155.137.144:9012 2、qq群:801913255 一、前言 隨著網路的發展,企業對於信息系統數據的保密工作愈發重視,不同身份、角色對於數據的訪問許可權都應該大相徑庭。 列如 1、不同登錄人員對一個數據列表的可見度是不一樣的,如數據列、數據行、數據按鈕 ...
  • 前言 上一篇文章寫瞭如何使用RabbitMQ做個簡單的發送郵件項目,然後評論也是比較多,也是準備去學習一下如何確保RabbitMQ的消息可靠性,但是由於時間原因,先來說說設計模式中的簡單工廠模式吧! 在瞭解簡單工廠模式之前,我們要知道C#是一款面向對象的高級程式語言。它有3大特性,封裝、繼承、多態。 ...
  • Nodify學習 一:介紹與使用 - 可樂_加冰 - 博客園 (cnblogs.com) Nodify學習 二:添加節點 - 可樂_加冰 - 博客園 (cnblogs.com) 介紹 Nodify是一個WPF基於節點的編輯器控制項,其中包含一系列節點、連接和連接器組件,旨在簡化構建基於節點的工具的過程 ...
  • 創建一個webapi項目做測試使用。 創建新控制器,搭建一個基礎框架,包括獲取當天日期、wiki的請求地址等 創建一個Http請求幫助類以及方法,用於獲取指定URL的信息 使用http請求訪問指定url,先運行一下,看看返回的內容。內容如圖右邊所示,實際上是一個Json數據。我們主要解析 大事記 部 ...
  • 最近在不少自媒體上看到有關.NET與C#的資訊與評價,感覺大家對.NET與C#還是不太瞭解,尤其是對2016年6月發佈的跨平臺.NET Core 1.0,更是知之甚少。在考慮一番之後,還是決定寫點東西總結一下,也回顧一下.NET的發展歷史。 首先,你沒看錯,.NET是跨平臺的,可以在Windows、 ...
  • Nodify學習 一:介紹與使用 - 可樂_加冰 - 博客園 (cnblogs.com) Nodify學習 二:添加節點 - 可樂_加冰 - 博客園 (cnblogs.com) 添加節點(nodes) 通過上一篇我們已經創建好了編輯器實例現在我們為編輯器添加一個節點 添加model和viewmode ...
  • 前言 資料庫併發,數據審計和軟刪除一直是數據持久化方面的經典問題。早些時候,這些工作需要手寫複雜的SQL或者通過存儲過程和觸發器實現。手寫複雜SQL對軟體可維護性構成了相當大的挑戰,隨著SQL字數的變多,用到的嵌套和複雜語法增加,可讀性和可維護性的難度是幾何級暴漲。因此如何在實現功能的同時控制這些S ...
  • 類型檢查和轉換:當你需要檢查對象是否為特定類型,並且希望在同一時間內將其轉換為那個類型時,模式匹配提供了一種更簡潔的方式來完成這一任務,避免了使用傳統的as和is操作符後還需要進行額外的null檢查。 複雜條件邏輯:在處理複雜的條件邏輯時,特別是涉及到多個條件和類型的情況下,使用模式匹配可以使代碼更 ...
  • 在日常開發中,我們經常需要和文件打交道,特別是桌面開發,有時候就會需要載入大批量的文件,而且可能還會存在部分文件缺失的情況,那麼如何才能快速的判斷文件是否存在呢?如果處理不當的,且文件數量比較多的時候,可能會造成卡頓等情況,進而影響程式的使用體驗。今天就以一個簡單的小例子,簡述兩種不同的判斷文件是否... ...
  • 前言 資料庫併發,數據審計和軟刪除一直是數據持久化方面的經典問題。早些時候,這些工作需要手寫複雜的SQL或者通過存儲過程和觸發器實現。手寫複雜SQL對軟體可維護性構成了相當大的挑戰,隨著SQL字數的變多,用到的嵌套和複雜語法增加,可讀性和可維護性的難度是幾何級暴漲。因此如何在實現功能的同時控制這些S ...