【scikit-learn基礎】--『數據載入』之真實數據集

来源:https://www.cnblogs.com/wang_yb/archive/2023/12/06/17878841.html
-Advertisement-
Play Games

上一篇介紹了scikit-learn中的幾個玩具數據集,本篇介紹scikit-learn提供的一些真實的數據集。玩具數據集:scikit-learn 基礎(01)--『數據載入』之玩具數據集 1. 獲取數據集 與玩具數據集不同,真實的數據集的數據不僅數據特征多,而且數據量也比較大,所以沒有直接包含在 ...


上一篇介紹了scikit-learn中的幾個玩具數據集,本篇介紹scikit-learn提供的一些真實的數據集。
玩具數據集:scikit-learn 基礎(01)--『數據載入』之玩具數據集

1. 獲取數據集

與玩具數據集不同,真實的數據集的數據不僅數據特征多,而且數據量也比較大,
所以沒有直接包含在scikit-learn庫中。

雖然scikit-learn中提供了線上載入數據的函數,不過由於網路方面的原因,線上載入幾乎不可能成功。
我離線下載了所有scikit-learn的真實數據,並且轉換成了緩存文件,經測試可正常離線使用。

已經轉換好的離線數據集:

  1. olivetti:https://url11.ctfile.com/f/45455611-930509718-42d985?p=6872
  2. 20newsgroups:https://url11.ctfile.com/f/45455611-930509625-f32241?p=6872
  3. lfw_home:https://url11.ctfile.com/f/45455611-930509715-c10239?p=6872
  4. covertype:https://url11.ctfile.com/f/45455611-930509631-f5e629?p=6872
  5. RCV1:https://url11.ctfile.com/f/45455611-930509760-30d2a2?p=6872
  6. kddcup99-py3:https://url11.ctfile.com/f/45455611-930509652-4f47ea?p=6872
  7. kddcup99_10-py3:https://url11.ctfile.com/f/45455611-930509637-2f0131?p=6872
  8. cal_housing:https://url11.ctfile.com/f/45455611-930509628-395dab?p=6872

:所有文件的下載密碼都是:6872

下載上面的 zip 包之後,解壓到本地某個目錄中(下麵的示例是:d:\share\sklearn-realdata),
載入離線數據集的方法如下:

import os
# sklearn一共提供了9種載入真實數據的方法
from sklearn.datasets import fetch_olivetti_faces
from sklearn.datasets import fetch_20newsgroups
from sklearn.datasets import fetch_20newsgroups_vectorized
from sklearn.datasets import fetch_lfw_people
from sklearn.datasets import fetch_lfw_pairs
from sklearn.datasets import fetch_covtype
from sklearn.datasets import fetch_rcv1
from sklearn.datasets import fetch_kddcup99
from sklearn.datasets import fetch_california_housing

home_dir = "d:\share\sklearn-realdata"
data = fetch_olivetti_faces(data_home=os.path.join(home_dir, "olivetti"))
print(data)

data = fetch_20newsgroups(data_home=os.path.join(home_dir, "20newsgroups"))
print(data)

data = fetch_20newsgroups_vectorized(data_home=os.path.join(home_dir, "20newsgroups"))
print(data)

data = fetch_lfw_people(data_home=home_dir)
print(data)
data = fetch_lfw_pairs(data_home=home_dir)
print(data)

data = fetch_covtype(data_home=home_dir)
print(data)

data = fetch_rcv1(data_home=home_dir)
print(data)

# 只載入10%的數據
data = fetch_kddcup99(data_home=home_dir)
print(data)
# 載入全部的數據
data = fetch_kddcup99(data_home=home_dir, percent10=False)
print(data)

data = fetch_california_housing(data_home=os.path.join(home_dir, "cal_housing"))
print(data)

載入離線數據集的關鍵在於設置 data_home 參數。

2. 數據集概況

真實數據和之前的玩具數據集相比,它的優勢在於數據取自實際應用之中,更能夠反映實際問題的複雜性。
用它來學習演算法時,可以提前遇到各種調整模型的問題。

scikit-learn一個提供了9 種載入真實數據集的函數,實際是7 種數據集。

2.1. Olivetti 面部數據集

這個數據集來自從 AT&T,包含40 個不同個體的人臉圖像的數據集,每個個體有10 張不同的圖片。
這些圖像是在不同的時間拍攝的,並且具有不同的照明和麵部表情(睜開/閉上眼睛,微笑/不微笑)以及面部細節(戴眼鏡/不戴眼鏡)。

所有的圖像都採用黑色均勻的背景,並且個體處於直立的正面位置,允許一定的側移。
圖像被量化為256 個灰度級並以8 位無符號整數的形式存儲。
這個數據集的目標是從 0 到 39 的整數,代表圖中人物的身份。
由於每一類只有十個樣例,這個相對較小的數據集對無監督學習半監督學習具有有趣的挑戰性。

此數據集的載入函數:fetch_olivetti_faces

2.2. 新聞組數據集

這是一個常用的文本分類數據集,包含大約20,000 篇新聞文章,這些文章均勻分佈在20 個不同的主題中。

這些新聞組數據來源於 1997 年之前的新聞文章,包括各種不同的新聞來源日期
這個數據集的目標是進行文本分類,將每篇文章分配到其對應的主題中。

該數據集通常用於訓練和測試文本分類演算法,例如朴素貝葉斯分類器、支持向量機或決策樹等。
由於數據集的大小適中,它也適用於較小的機器學習模型。

此數據集的載入函數:fetch_20newsgroupsfetch_20newsgroups_vectorized
這兩個函數的主要區別在於:

  • fetch_20newsgroups返回的是一個原始的文本列表,每個新聞組的數據都以字元串形式給出
  • fetch_20newsgroups_vectorized返回的是一個可以直接用於機器學習或評估的向量數據集,它已經為文本數據進行了特征提取,返回的是一個稀疏矩陣

2.3. 人臉數據集

這個數據集是一個包含13233 張人臉圖像的數據集,用於測試人臉識別演算法。
這些圖像均來自互聯網,包含不同的人臉角度、表情和光照條件。
每張圖像都給出了對應的人名,共有5749 個個體,其中大部分人只有一張圖像,部分人有多張圖像。

此數據集的目標是測試人臉識別演算法的準確率,通常用於評估演算法的準確性召回率交叉驗證等。
由於數據集包含大量的人臉圖像和個體,因此也適用於訓練和測試深度學習模型。

此數據集的載入函數:fetch_lfw_peoplefetch_lfw_pairs
這兩個函數的主要區別在於:

  • fetch_lfw_people數據集中每個人至少有一張圖片,每張圖片都對應不同的人。這個數據集的目標是訓練一個分類器來識別不同的人
  • fetch_lfw_pairs數據集中每個人有兩張不同圖片。這些圖片是在不同的時間、不同的光照條件下拍攝的。這個數據集的目標是訓練一個分類器來識別同一個人在不同條件下的圖片

2.4. 森林覆蓋數據集

這個數據集是一個包含森林覆蓋類型信息的植被覆蓋類型數據集。
該數據集包含581,012 個樣本,每個樣本是一個30m x 30m 區域的森林覆蓋類型,
包括 7 種類型:雲杉/冷杉、洛奇波爾松、黃松、三葉楊/柳樹、阿斯彭、花旗松和克魯姆霍爾茨。

除了前 10 個特征是浮點數外,其餘特征都是one-hot 變數。這個數據集的目標是預測給定區域的森林覆蓋類型。
適用於分類相關的機器學習演算法的測試。

此數據集的載入函數:fetch_covtype

2.5. RCV1 多標簽數據集

這個數據集是一個包含1063389 個樣本的大規模文本分類數據集。
該數據集由英國廣播公司(BBC)和英國郵報(The Guardian)的新聞文章組成,每篇文章都被標記為其中一個類別(例如體育、娛樂、政治等)。

RCV1數據集的目標是訓練和測試文本分類演算法。由於數據集規模較大,它適合用於評估大型機器學習模型和分散式計算系統的性能。
RCV1數據集包含多個屬性,如文本內容、類別標簽和樣本權重等,可以用於訓練多種不同類型的文本分類模型,例如朴素貝葉斯分類器、支持向量機或深度學習模型等。

此數據集的載入函數:fetch_rcv1

2.6. kddcup99 數據集

這個數據集是一個網路入侵檢測的數據集,源自DARPA入侵檢測評估項目。
該數據集包含了 9 個星期的網路連接數據,分為訓練集測試集兩部分。

訓練集包含了4920917條連接記錄,測試集包含了4555136條連接記錄。
這些連接記錄涵蓋了多種網路協議和攻擊類型,例如 TCP、UDP、ICMP 等以及 DoS、U2R、R2L 等攻擊類型。
數據集中的每個連接記錄包含41 個固定的特征屬性,包括源 IP 地址、目的 IP 地址、協議類型、位元組數等,以及一個類標識符表示該連接是否屬於攻擊類型。

kddcup99數據集是網路入侵檢測領域廣泛使用的事實基準數據集,可用於評估和比較不同入侵檢測演算法的性能。

此數據集的載入函數:fetch_kddcup99
由於此數據集數據量很大,所以預設只載入 10%的數據,若要載入全部數據設置參數percent10=False
本文第一節載入離線數據的示例中也載入示例。

2.7. 加州住房數據集

這個數據集包含了加利福尼亞州 1990 年所有城市的房價信息。
數據集中的每個樣本都包含 8 個變數的值:

  1. MedianHouseValue(中位數房價):以 1000 美元為單位。
  2. MedianIncome(中位數收入):以年為單位,以美元為單位。
  3. HouseAge(房齡):以年為單位。
  4. Rooms(房間數):整數。
  5. Bedrooms(卧室數):整數。
  6. Population(人口):以 1000 人為單位。
  7. HousingUnits(房屋數量):以千為單位。
  8. SquareMiles(平方英里):以平方英里為單位。

該數據集被廣泛用於房價預測相關的機器學習演算法的學習中。
此數據集的載入函數:fetch_california_housing

3. 總結

當機器學習的演算法掌握到一定程度的時候,一定會想嘗試用真實的數據集來訓練模型。
這些經典的真實數據集不僅數據量豐富,而且涵蓋的範圍廣,用來練手和提高自己的能力再好不過。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 現象描述:Spring Boot項目,啟動的時候卡住了,一直卡在那裡不動,沒有報錯,也沒有日誌輸出 但是,奇怪的是,本地可以正常啟動 好吧,姑且先不深究為什麼本地可以啟動而部署到伺服器上就無法啟動的問題,這個不是重點,重點是怎麼讓它啟動起來。(PS:我猜測可能是環境不同造成的,包括操作系統不同和JD ...
  • 如圖所示,項目中定義了這樣幾個模塊: pdd-workflow-build :定義項目版本,及全局配置 pdd-workflow-dependencies :外部依賴管理,統一管理所有用到的外部依賴的版本 pdd-workflow-service :項目service模塊 pdd-workflow- ...
  • 在日常項目開發中,可能會遇到使用 ES 做關鍵詞搜索的場景,但是一般來說業務數據是不會直接通過 CRUD 寫進 ES 的。 因為這可能違背了 ES 是用來查詢的初衷,數據持久化的事情可以交給資料庫來做。那麼,這裡就有一個顯而易見的問題:ES 里的數據從哪裡來? 本文介紹的就是如何將 MySQL ... ...
  • 來源:zhihu.com/question/359630395/answer/954452799 今天,在知乎上看到這樣一個問題:"為什麼游戲公司的server不願意微服務化?" 背景介紹 最近面試了一家游戲公司(滿大間的,有上市) 我問他,公司有沒有做微服務架構的打算及考量? 他很驚訝的說,我沒聽 ...
  • 1. 獲取本地IP地址 使用 net 包可以獲取本地機器的 IP 地址。以下是一個獲取本地 IP 地址的簡單示例: package main import ( "fmt" "net" ) func main() { // 獲取所有網路介面 interfaces, err := net.Interfa ...
  • java的世界千奇百怪。。。當我甩出如下代碼段,不知閣下如何應對? try(A a=new A()){ 和a變數無關的業務代碼塊 } 沒錯,這就是“臭名昭著”的try-with-resource語法,乍一看讓人不知所云,其實它和try-finally的下述代碼等價 A a=new A() try{ ...
  • 在 Go 語言中,主要的條件控制語句有 if-else、switch 和 select。以下是對它們的簡單介紹: 1. if 語句: if 語句用於根據條件執行不同的代碼塊。它的基本形式如下: if condition { // code block } else if condition2 { / ...
  • 作者:Lxlxxx 鏈接:https://juejin.cn/post/7221461552343072828 前言 繼上次線上CPU出現了報警,這次服務又開始整活了,風平浪靜了沒幾天,看生產日誌服務的運行的時候,頻繁的出現OutOfMemoryError,就是我們俗稱的OOM,這可還行! 頻繁的O ...
一周排行
    -Advertisement-
    Play Games
  • 前言 推薦一款基於.NET 8、WPF、Prism.DryIoc、MVVM設計模式、Blazor以及MySQL資料庫構建的企業級工作流系統的WPF客戶端框架-AIStudio.Wpf.AClient 6.0。 項目介紹 框架採用了 Prism 框架來實現 MVVM 模式,不僅簡化了 MVVM 的典型 ...
  • 先看一下效果吧: 我們直接通過改造一下原版的TreeView來實現上面這個效果 我們先創建一個普通的TreeView 代碼很簡單: <TreeView> <TreeViewItem Header="人事部"/> <TreeViewItem Header="技術部"> <TreeViewItem He ...
  • 1. 生成式 AI 簡介 https://imp.i384100.net/LXYmq3 2. Python 語言 https://imp.i384100.net/5gmXXo 3. 統計和 R https://youtu.be/ANMuuq502rE?si=hw9GT6JVzMhRvBbF 4. 數 ...
  • 本文為大家介紹下.NET解壓/壓縮zip文件。雖然解壓縮不是啥核心技術,但壓縮性能以及進度處理還是需要關註下,針對使用較多的zip開源組件驗證,給大家提供個技術選型參考 之前在《.NET WebSocket高併發通信阻塞問題 - 唐宋元明清2188 - 博客園 (cnblogs.com)》講過,團隊 ...
  • 之前寫過兩篇關於Roslyn源生成器生成源代碼的用例,今天使用Roslyn的代碼修複器CodeFixProvider實現一個cs文件頭部註釋的功能, 代碼修複器會同時涉及到CodeFixProvider和DiagnosticAnalyzer, 實現FileHeaderAnalyzer 首先我們知道修 ...
  • 在軟體行業,經常會聽到一句話“文不如表,表不如圖”說明瞭圖形在軟體應用中的重要性。同樣在WPF開發中,為了程式美觀或者業務需要,經常會用到各種個樣的圖形。今天以一些簡單的小例子,簡述WPF開發中幾何圖形(Geometry)相關內容,僅供學習分享使用,如有不足之處,還請指正。 ...
  • 在 C# 中使用 RabbitMQ 通過簡訊發送重置後的密碼到用戶的手機號上,你可以按照以下步驟進行 1.安裝 RabbitMQ 客戶端庫 首先,確保你已經安裝了 RabbitMQ 客戶端庫。你可以通過 NuGet 包管理器來安裝: dotnet add package RabbitMQ.Clien ...
  • 1.下載 Protocol Buffers 編譯器(protoc) 前往 Protocol Buffers GitHub Releases 頁面。在 "Assets" 下找到適合您系統的壓縮文件,通常為 protoc-{version}-win32.zip 或 protoc-{version}-wi ...
  • 簡介 在現代微服務架構中,服務發現(Service Discovery)是一項關鍵功能。它允許微服務動態地找到彼此,而無需依賴硬編碼的地址。以前如果你搜 .NET Service Discovery,大概率會搜到一大堆 Eureka,Consul 等的文章。現在微軟為我們帶來了一個官方的包:Micr ...
  • ZY樹洞 前言 ZY樹洞是一個基於.NET Core開發的簡單的評論系統,主要用於大家分享自己心中的感悟、經驗、心得、想法等。 好了,不賣關子了,這個項目其實是上班無聊的時候寫的,為什麼要寫這個項目呢?因為我單純的想吐槽一下工作中的不滿而已。 項目介紹 項目很簡單,主要功能就是提供一個簡單的評論系統 ...