【scikit-learn基礎】--『數據載入』之真實數據集

来源:https://www.cnblogs.com/wang_yb/archive/2023/12/06/17878841.html
-Advertisement-
Play Games

上一篇介紹了scikit-learn中的幾個玩具數據集,本篇介紹scikit-learn提供的一些真實的數據集。玩具數據集:scikit-learn 基礎(01)--『數據載入』之玩具數據集 1. 獲取數據集 與玩具數據集不同,真實的數據集的數據不僅數據特征多,而且數據量也比較大,所以沒有直接包含在 ...


上一篇介紹了scikit-learn中的幾個玩具數據集,本篇介紹scikit-learn提供的一些真實的數據集。
玩具數據集:scikit-learn 基礎(01)--『數據載入』之玩具數據集

1. 獲取數據集

與玩具數據集不同,真實的數據集的數據不僅數據特征多,而且數據量也比較大,
所以沒有直接包含在scikit-learn庫中。

雖然scikit-learn中提供了線上載入數據的函數,不過由於網路方面的原因,線上載入幾乎不可能成功。
我離線下載了所有scikit-learn的真實數據,並且轉換成了緩存文件,經測試可正常離線使用。

已經轉換好的離線數據集:

  1. olivetti:https://url11.ctfile.com/f/45455611-930509718-42d985?p=6872
  2. 20newsgroups:https://url11.ctfile.com/f/45455611-930509625-f32241?p=6872
  3. lfw_home:https://url11.ctfile.com/f/45455611-930509715-c10239?p=6872
  4. covertype:https://url11.ctfile.com/f/45455611-930509631-f5e629?p=6872
  5. RCV1:https://url11.ctfile.com/f/45455611-930509760-30d2a2?p=6872
  6. kddcup99-py3:https://url11.ctfile.com/f/45455611-930509652-4f47ea?p=6872
  7. kddcup99_10-py3:https://url11.ctfile.com/f/45455611-930509637-2f0131?p=6872
  8. cal_housing:https://url11.ctfile.com/f/45455611-930509628-395dab?p=6872

:所有文件的下載密碼都是:6872

下載上面的 zip 包之後,解壓到本地某個目錄中(下麵的示例是:d:\share\sklearn-realdata),
載入離線數據集的方法如下:

import os
# sklearn一共提供了9種載入真實數據的方法
from sklearn.datasets import fetch_olivetti_faces
from sklearn.datasets import fetch_20newsgroups
from sklearn.datasets import fetch_20newsgroups_vectorized
from sklearn.datasets import fetch_lfw_people
from sklearn.datasets import fetch_lfw_pairs
from sklearn.datasets import fetch_covtype
from sklearn.datasets import fetch_rcv1
from sklearn.datasets import fetch_kddcup99
from sklearn.datasets import fetch_california_housing

home_dir = "d:\share\sklearn-realdata"
data = fetch_olivetti_faces(data_home=os.path.join(home_dir, "olivetti"))
print(data)

data = fetch_20newsgroups(data_home=os.path.join(home_dir, "20newsgroups"))
print(data)

data = fetch_20newsgroups_vectorized(data_home=os.path.join(home_dir, "20newsgroups"))
print(data)

data = fetch_lfw_people(data_home=home_dir)
print(data)
data = fetch_lfw_pairs(data_home=home_dir)
print(data)

data = fetch_covtype(data_home=home_dir)
print(data)

data = fetch_rcv1(data_home=home_dir)
print(data)

# 只載入10%的數據
data = fetch_kddcup99(data_home=home_dir)
print(data)
# 載入全部的數據
data = fetch_kddcup99(data_home=home_dir, percent10=False)
print(data)

data = fetch_california_housing(data_home=os.path.join(home_dir, "cal_housing"))
print(data)

載入離線數據集的關鍵在於設置 data_home 參數。

2. 數據集概況

真實數據和之前的玩具數據集相比,它的優勢在於數據取自實際應用之中,更能夠反映實際問題的複雜性。
用它來學習演算法時,可以提前遇到各種調整模型的問題。

scikit-learn一個提供了9 種載入真實數據集的函數,實際是7 種數據集。

2.1. Olivetti 面部數據集

這個數據集來自從 AT&T,包含40 個不同個體的人臉圖像的數據集,每個個體有10 張不同的圖片。
這些圖像是在不同的時間拍攝的,並且具有不同的照明和麵部表情(睜開/閉上眼睛,微笑/不微笑)以及面部細節(戴眼鏡/不戴眼鏡)。

所有的圖像都採用黑色均勻的背景,並且個體處於直立的正面位置,允許一定的側移。
圖像被量化為256 個灰度級並以8 位無符號整數的形式存儲。
這個數據集的目標是從 0 到 39 的整數,代表圖中人物的身份。
由於每一類只有十個樣例,這個相對較小的數據集對無監督學習半監督學習具有有趣的挑戰性。

此數據集的載入函數:fetch_olivetti_faces

2.2. 新聞組數據集

這是一個常用的文本分類數據集,包含大約20,000 篇新聞文章,這些文章均勻分佈在20 個不同的主題中。

這些新聞組數據來源於 1997 年之前的新聞文章,包括各種不同的新聞來源日期
這個數據集的目標是進行文本分類,將每篇文章分配到其對應的主題中。

該數據集通常用於訓練和測試文本分類演算法,例如朴素貝葉斯分類器、支持向量機或決策樹等。
由於數據集的大小適中,它也適用於較小的機器學習模型。

此數據集的載入函數:fetch_20newsgroupsfetch_20newsgroups_vectorized
這兩個函數的主要區別在於:

  • fetch_20newsgroups返回的是一個原始的文本列表,每個新聞組的數據都以字元串形式給出
  • fetch_20newsgroups_vectorized返回的是一個可以直接用於機器學習或評估的向量數據集,它已經為文本數據進行了特征提取,返回的是一個稀疏矩陣

2.3. 人臉數據集

這個數據集是一個包含13233 張人臉圖像的數據集,用於測試人臉識別演算法。
這些圖像均來自互聯網,包含不同的人臉角度、表情和光照條件。
每張圖像都給出了對應的人名,共有5749 個個體,其中大部分人只有一張圖像,部分人有多張圖像。

此數據集的目標是測試人臉識別演算法的準確率,通常用於評估演算法的準確性召回率交叉驗證等。
由於數據集包含大量的人臉圖像和個體,因此也適用於訓練和測試深度學習模型。

此數據集的載入函數:fetch_lfw_peoplefetch_lfw_pairs
這兩個函數的主要區別在於:

  • fetch_lfw_people數據集中每個人至少有一張圖片,每張圖片都對應不同的人。這個數據集的目標是訓練一個分類器來識別不同的人
  • fetch_lfw_pairs數據集中每個人有兩張不同圖片。這些圖片是在不同的時間、不同的光照條件下拍攝的。這個數據集的目標是訓練一個分類器來識別同一個人在不同條件下的圖片

2.4. 森林覆蓋數據集

這個數據集是一個包含森林覆蓋類型信息的植被覆蓋類型數據集。
該數據集包含581,012 個樣本,每個樣本是一個30m x 30m 區域的森林覆蓋類型,
包括 7 種類型:雲杉/冷杉、洛奇波爾松、黃松、三葉楊/柳樹、阿斯彭、花旗松和克魯姆霍爾茨。

除了前 10 個特征是浮點數外,其餘特征都是one-hot 變數。這個數據集的目標是預測給定區域的森林覆蓋類型。
適用於分類相關的機器學習演算法的測試。

此數據集的載入函數:fetch_covtype

2.5. RCV1 多標簽數據集

這個數據集是一個包含1063389 個樣本的大規模文本分類數據集。
該數據集由英國廣播公司(BBC)和英國郵報(The Guardian)的新聞文章組成,每篇文章都被標記為其中一個類別(例如體育、娛樂、政治等)。

RCV1數據集的目標是訓練和測試文本分類演算法。由於數據集規模較大,它適合用於評估大型機器學習模型和分散式計算系統的性能。
RCV1數據集包含多個屬性,如文本內容、類別標簽和樣本權重等,可以用於訓練多種不同類型的文本分類模型,例如朴素貝葉斯分類器、支持向量機或深度學習模型等。

此數據集的載入函數:fetch_rcv1

2.6. kddcup99 數據集

這個數據集是一個網路入侵檢測的數據集,源自DARPA入侵檢測評估項目。
該數據集包含了 9 個星期的網路連接數據,分為訓練集測試集兩部分。

訓練集包含了4920917條連接記錄,測試集包含了4555136條連接記錄。
這些連接記錄涵蓋了多種網路協議和攻擊類型,例如 TCP、UDP、ICMP 等以及 DoS、U2R、R2L 等攻擊類型。
數據集中的每個連接記錄包含41 個固定的特征屬性,包括源 IP 地址、目的 IP 地址、協議類型、位元組數等,以及一個類標識符表示該連接是否屬於攻擊類型。

kddcup99數據集是網路入侵檢測領域廣泛使用的事實基準數據集,可用於評估和比較不同入侵檢測演算法的性能。

此數據集的載入函數:fetch_kddcup99
由於此數據集數據量很大,所以預設只載入 10%的數據,若要載入全部數據設置參數percent10=False
本文第一節載入離線數據的示例中也載入示例。

2.7. 加州住房數據集

這個數據集包含了加利福尼亞州 1990 年所有城市的房價信息。
數據集中的每個樣本都包含 8 個變數的值:

  1. MedianHouseValue(中位數房價):以 1000 美元為單位。
  2. MedianIncome(中位數收入):以年為單位,以美元為單位。
  3. HouseAge(房齡):以年為單位。
  4. Rooms(房間數):整數。
  5. Bedrooms(卧室數):整數。
  6. Population(人口):以 1000 人為單位。
  7. HousingUnits(房屋數量):以千為單位。
  8. SquareMiles(平方英里):以平方英里為單位。

該數據集被廣泛用於房價預測相關的機器學習演算法的學習中。
此數據集的載入函數:fetch_california_housing

3. 總結

當機器學習的演算法掌握到一定程度的時候,一定會想嘗試用真實的數據集來訓練模型。
這些經典的真實數據集不僅數據量豐富,而且涵蓋的範圍廣,用來練手和提高自己的能力再好不過。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 現象描述:Spring Boot項目,啟動的時候卡住了,一直卡在那裡不動,沒有報錯,也沒有日誌輸出 但是,奇怪的是,本地可以正常啟動 好吧,姑且先不深究為什麼本地可以啟動而部署到伺服器上就無法啟動的問題,這個不是重點,重點是怎麼讓它啟動起來。(PS:我猜測可能是環境不同造成的,包括操作系統不同和JD ...
  • 如圖所示,項目中定義了這樣幾個模塊: pdd-workflow-build :定義項目版本,及全局配置 pdd-workflow-dependencies :外部依賴管理,統一管理所有用到的外部依賴的版本 pdd-workflow-service :項目service模塊 pdd-workflow- ...
  • 在日常項目開發中,可能會遇到使用 ES 做關鍵詞搜索的場景,但是一般來說業務數據是不會直接通過 CRUD 寫進 ES 的。 因為這可能違背了 ES 是用來查詢的初衷,數據持久化的事情可以交給資料庫來做。那麼,這裡就有一個顯而易見的問題:ES 里的數據從哪裡來? 本文介紹的就是如何將 MySQL ... ...
  • 來源:zhihu.com/question/359630395/answer/954452799 今天,在知乎上看到這樣一個問題:"為什麼游戲公司的server不願意微服務化?" 背景介紹 最近面試了一家游戲公司(滿大間的,有上市) 我問他,公司有沒有做微服務架構的打算及考量? 他很驚訝的說,我沒聽 ...
  • 1. 獲取本地IP地址 使用 net 包可以獲取本地機器的 IP 地址。以下是一個獲取本地 IP 地址的簡單示例: package main import ( "fmt" "net" ) func main() { // 獲取所有網路介面 interfaces, err := net.Interfa ...
  • java的世界千奇百怪。。。當我甩出如下代碼段,不知閣下如何應對? try(A a=new A()){ 和a變數無關的業務代碼塊 } 沒錯,這就是“臭名昭著”的try-with-resource語法,乍一看讓人不知所云,其實它和try-finally的下述代碼等價 A a=new A() try{ ...
  • 在 Go 語言中,主要的條件控制語句有 if-else、switch 和 select。以下是對它們的簡單介紹: 1. if 語句: if 語句用於根據條件執行不同的代碼塊。它的基本形式如下: if condition { // code block } else if condition2 { / ...
  • 作者:Lxlxxx 鏈接:https://juejin.cn/post/7221461552343072828 前言 繼上次線上CPU出現了報警,這次服務又開始整活了,風平浪靜了沒幾天,看生產日誌服務的運行的時候,頻繁的出現OutOfMemoryError,就是我們俗稱的OOM,這可還行! 頻繁的O ...
一周排行
    -Advertisement-
    Play Games
  • 1. 說明 /* Performs operations on System.String instances that contain file or directory path information. These operations are performed in a cross-pla ...
  • 視頻地址:【WebApi+Vue3從0到1搭建《許可權管理系統》系列視頻:搭建JWT系統鑒權-嗶哩嗶哩】 https://b23.tv/R6cOcDO qq群:801913255 一、在appsettings.json中設置鑒權屬性 /*jwt鑒權*/ "JwtSetting": { "Issuer" ...
  • 引言 集成測試可在包含應用支持基礎結構(如資料庫、文件系統和網路)的級別上確保應用組件功能正常。 ASP.NET Core 通過將單元測試框架與測試 Web 主機和記憶體中測試伺服器結合使用來支持集成測試。 簡介 集成測試與單元測試相比,能夠在更廣泛的級別上評估應用的組件,確認多個組件一起工作以生成預 ...
  • 在.NET Emit編程中,我們探討了運算操作指令的重要性和應用。這些指令包括各種數學運算、位操作和比較操作,能夠在動態生成的代碼中實現對數據的處理和操作。通過這些指令,開發人員可以靈活地進行算術運算、邏輯運算和比較操作,從而實現各種複雜的演算法和邏輯......本篇之後,將進入第七部分:實戰項目 ...
  • 前言 多表頭表格是一個常見的業務需求,然而WPF中卻沒有預設實現這個功能,得益於WPF強大的控制項模板設計,我們可以通過修改控制項模板的方式自己實現它。 一、需求分析 下圖為一個典型的統計表格,統計1-12月的數據。 此時我們有一個需求,需要將月份按季度劃分,以便能夠直觀地看到季度統計數據,以下為該需求 ...
  • 如何將 ASP.NET Core MVC 項目的視圖分離到另一個項目 在當下這個年代 SPA 已是主流,人們早已忘記了 MVC 以及 Razor 的故事。但是在某些場景下 SSR 還是有意想不到效果。比如某些靜態頁面,比如追求首屏載入速度的時候。最近在項目中回歸傳統效果還是不錯。 有的時候我們希望將 ...
  • System.AggregateException: 發生一個或多個錯誤。 > Microsoft.WebTools.Shared.Exceptions.WebToolsException: 生成失敗。檢查輸出視窗瞭解更多詳細信息。 內部異常堆棧跟蹤的結尾 > (內部異常 #0) Microsoft ...
  • 引言 在上一章節我們實戰了在Asp.Net Core中的項目實戰,這一章節講解一下如何測試Asp.Net Core的中間件。 TestServer 還記得我們在集成測試中提供的TestServer嗎? TestServer 是由 Microsoft.AspNetCore.TestHost 包提供的。 ...
  • 在發現結果為真的WHEN子句時,CASE表達式的真假值判斷會終止,剩餘的WHEN子句會被忽略: CASE WHEN col_1 IN ('a', 'b') THEN '第一' WHEN col_1 IN ('a') THEN '第二' ELSE '其他' END 註意: 統一各分支返回的數據類型. ...
  • 在C#編程世界中,語法的精妙之處往往體現在那些看似微小卻極具影響力的符號與結構之中。其中,“_ =” 這一組合突然出現還真不知道什麼意思。本文將深入剖析“_ =” 的含義、工作原理及其在實際編程中的廣泛應用,揭示其作為C#語法奇兵的重要角色。 一、下劃線 _:神秘的棄元符號 下劃線 _ 在C#中並非 ...