上一篇介紹了scikit-learn中的幾個玩具數據集，本篇介紹scikit-learn提供的一些真實的數據集。玩具數據集：scikit-learn 基礎(01)--『數據載入』之玩具數據集 1. 獲取數據集與玩具數據集不同，真實的數據集的數據不僅數據特征多，而且數據量也比較大，所以沒有直接包含在 ...

上一篇介紹了scikit-learn中的幾個玩具數據集，本篇介紹scikit-learn提供的一些真實的數據集。
玩具數據集：scikit-learn 基礎(01)--『數據載入』之玩具數據集

1. 獲取數據集

與玩具數據集不同，真實的數據集的數據不僅數據特征多，而且數據量也比較大，
所以沒有直接包含在scikit-learn庫中。

雖然scikit-learn中提供了線上載入數據的函數，不過由於網路方面的原因，線上載入幾乎不可能成功。
我離線下載了所有scikit-learn的真實數據，並且轉換成了緩存文件，經測試可正常離線使用。

已經轉換好的離線數據集：

olivetti：https://url11.ctfile.com/f/45455611-930509718-42d985?p=6872
20newsgroups：https://url11.ctfile.com/f/45455611-930509625-f32241?p=6872
lfw_home：https://url11.ctfile.com/f/45455611-930509715-c10239?p=6872
covertype：https://url11.ctfile.com/f/45455611-930509631-f5e629?p=6872
RCV1：https://url11.ctfile.com/f/45455611-930509760-30d2a2?p=6872
kddcup99-py3：https://url11.ctfile.com/f/45455611-930509652-4f47ea?p=6872
kddcup99_10-py3：https://url11.ctfile.com/f/45455611-930509637-2f0131?p=6872
cal_housing：https://url11.ctfile.com/f/45455611-930509628-395dab?p=6872

註：所有文件的下載密碼都是：6872

下載上面的 zip 包之後，解壓到本地某個目錄中（下麵的示例是：d:\share\sklearn-realdata），
載入離線數據集的方法如下：

import os
# sklearn一共提供了9種載入真實數據的方法
from sklearn.datasets import fetch_olivetti_faces
from sklearn.datasets import fetch_20newsgroups
from sklearn.datasets import fetch_20newsgroups_vectorized
from sklearn.datasets import fetch_lfw_people
from sklearn.datasets import fetch_lfw_pairs
from sklearn.datasets import fetch_covtype
from sklearn.datasets import fetch_rcv1
from sklearn.datasets import fetch_kddcup99
from sklearn.datasets import fetch_california_housing

home_dir = "d:\share\sklearn-realdata"
data = fetch_olivetti_faces(data_home=os.path.join(home_dir, "olivetti"))
print(data)

data = fetch_20newsgroups(data_home=os.path.join(home_dir, "20newsgroups"))
print(data)

data = fetch_20newsgroups_vectorized(data_home=os.path.join(home_dir, "20newsgroups"))
print(data)

data = fetch_lfw_people(data_home=home_dir)
print(data)
data = fetch_lfw_pairs(data_home=home_dir)
print(data)

data = fetch_covtype(data_home=home_dir)
print(data)

data = fetch_rcv1(data_home=home_dir)
print(data)

# 只載入10%的數據
data = fetch_kddcup99(data_home=home_dir)
print(data)
# 載入全部的數據
data = fetch_kddcup99(data_home=home_dir, percent10=False)
print(data)

data = fetch_california_housing(data_home=os.path.join(home_dir, "cal_housing"))
print(data)

載入離線數據集的關鍵在於設置 data_home 參數。

2. 數據集概況

真實數據和之前的玩具數據集相比，它的優勢在於數據取自實際應用之中，更能夠反映實際問題的複雜性。
用它來學習演算法時，可以提前遇到各種調整模型的問題。

scikit-learn一個提供了9 種載入真實數據集的函數，實際是7 種數據集。

2.1. Olivetti 面部數據集

這個數據集來自從 AT&T，包含40 個不同個體的人臉圖像的數據集，每個個體有10 張不同的圖片。
這些圖像是在不同的時間拍攝的，並且具有不同的照明和麵部表情（睜開/閉上眼睛，微笑/不微笑）以及面部細節（戴眼鏡/不戴眼鏡）。

所有的圖像都採用黑色均勻的背景，並且個體處於直立的正面位置，允許一定的側移。
圖像被量化為256 個灰度級並以8 位無符號整數的形式存儲。
這個數據集的目標是從 0 到 39 的整數，代表圖中人物的身份。
由於每一類只有十個樣例，這個相對較小的數據集對無監督學習或半監督學習具有有趣的挑戰性。

此數據集的載入函數：fetch_olivetti_faces

2.2. 新聞組數據集

這是一個常用的文本分類數據集，包含大約20,000 篇新聞文章，這些文章均勻分佈在20 個不同的主題中。

這些新聞組數據來源於 1997 年之前的新聞文章，包括各種不同的新聞來源和日期。
這個數據集的目標是進行文本分類，將每篇文章分配到其對應的主題中。

該數據集通常用於訓練和測試文本分類演算法，例如朴素貝葉斯分類器、支持向量機或決策樹等。
由於數據集的大小適中，它也適用於較小的機器學習模型。

此數據集的載入函數：fetch_20newsgroups和fetch_20newsgroups_vectorized。
這兩個函數的主要區別在於：

fetch_20newsgroups返回的是一個原始的文本列表，每個新聞組的數據都以字元串形式給出
fetch_20newsgroups_vectorized返回的是一個可以直接用於機器學習或評估的向量數據集，它已經為文本數據進行了特征提取，返回的是一個稀疏矩陣

2.3. 人臉數據集

這個數據集是一個包含13233 張人臉圖像的數據集，用於測試人臉識別演算法。
這些圖像均來自互聯網，包含不同的人臉角度、表情和光照條件。
每張圖像都給出了對應的人名，共有5749 個個體，其中大部分人只有一張圖像，部分人有多張圖像。

此數據集的目標是測試人臉識別演算法的準確率，通常用於評估演算法的準確性、召回率和交叉驗證等。
由於數據集包含大量的人臉圖像和個體，因此也適用於訓練和測試深度學習模型。

此數據集的載入函數：fetch_lfw_people和fetch_lfw_pairs。
這兩個函數的主要區別在於：

fetch_lfw_people數據集中每個人至少有一張圖片，每張圖片都對應不同的人。這個數據集的目標是訓練一個分類器來識別不同的人
fetch_lfw_pairs數據集中每個人有兩張不同圖片。這些圖片是在不同的時間、不同的光照條件下拍攝的。這個數據集的目標是訓練一個分類器來識別同一個人在不同條件下的圖片

2.4. 森林覆蓋數據集

這個數據集是一個包含森林覆蓋類型信息的植被覆蓋類型數據集。
該數據集包含581,012 個樣本，每個樣本是一個30m x 30m 區域的森林覆蓋類型，
包括 7 種類型：雲杉/冷杉、洛奇波爾松、黃松、三葉楊/柳樹、阿斯彭、花旗松和克魯姆霍爾茨。

除了前 10 個特征是浮點數外，其餘特征都是one-hot 變數。這個數據集的目標是預測給定區域的森林覆蓋類型。
適用於分類相關的機器學習演算法的測試。

此數據集的載入函數：fetch_covtype

2.5. RCV1 多標簽數據集

這個數據集是一個包含1063389 個樣本的大規模文本分類數據集。
該數據集由英國廣播公司（BBC）和英國郵報（The Guardian）的新聞文章組成，每篇文章都被標記為其中一個類別（例如體育、娛樂、政治等）。

RCV1數據集的目標是訓練和測試文本分類演算法。由於數據集規模較大，它適合用於評估大型機器學習模型和分散式計算系統的性能。
RCV1數據集包含多個屬性，如文本內容、類別標簽和樣本權重等，可以用於訓練多種不同類型的文本分類模型，例如朴素貝葉斯分類器、支持向量機或深度學習模型等。

此數據集的載入函數：fetch_rcv1

2.6. kddcup99 數據集

這個數據集是一個網路入侵檢測的數據集，源自DARPA入侵檢測評估項目。
該數據集包含了 9 個星期的網路連接數據，分為訓練集和測試集兩部分。

訓練集包含了4920917條連接記錄，測試集包含了4555136條連接記錄。
這些連接記錄涵蓋了多種網路協議和攻擊類型，例如 TCP、UDP、ICMP 等以及 DoS、U2R、R2L 等攻擊類型。
數據集中的每個連接記錄包含41 個固定的特征屬性，包括源 IP 地址、目的 IP 地址、協議類型、位元組數等，以及一個類標識符表示該連接是否屬於攻擊類型。

kddcup99數據集是網路入侵檢測領域廣泛使用的事實基準數據集，可用於評估和比較不同入侵檢測演算法的性能。

此數據集的載入函數：fetch_kddcup99
由於此數據集數據量很大，所以預設只載入 10%的數據，若要載入全部數據設置參數percent10=False。
本文第一節載入離線數據的示例中也載入示例。

2.7. 加州住房數據集

這個數據集包含了加利福尼亞州 1990 年所有城市的房價信息。
數據集中的每個樣本都包含 8 個變數的值：

MedianHouseValue（中位數房價）：以 1000 美元為單位。
MedianIncome（中位數收入）：以年為單位，以美元為單位。
HouseAge（房齡）：以年為單位。
Rooms（房間數）：整數。
Bedrooms（卧室數）：整數。
Population（人口）：以 1000 人為單位。
HousingUnits（房屋數量）：以千為單位。
SquareMiles（平方英里）：以平方英里為單位。

該數據集被廣泛用於房價預測相關的機器學習演算法的學習中。
此數據集的載入函數：fetch_california_housing

3. 總結

當機器學習的演算法掌握到一定程度的時候，一定會想嘗試用真實的數據集來訓練模型。
這些經典的真實數據集不僅數據量豐富，而且涵蓋的範圍廣，用來練手和提高自己的能力再好不過。

【scikit-learn基礎】--『數據載入』之真實數據集