大數據——綜合案例

来源:https://www.cnblogs.com/Salinger/archive/2022/09/26/16731463.html
-Advertisement-
Play Games

一、本地數據集上傳到到數據倉庫Hive 1、 實驗數據集的下載 1. 將user.zip下載到指定目錄 2.給hadoop用戶賦予針對bigdatacase目錄的各種操作許可權 3.創建一個dataset目錄用於保存數據集 4.解壓縮user.zip文件 5.可以看到dataset目錄下由兩個文件 6 ...


一、本地數據集上傳到到數據倉庫Hive

1、 實驗數據集的下載

1. 將user.zip下載到指定目錄

 

2.給hadoop用戶賦予針對bigdatacase目錄的各種操作許可權

 

3.創建一個dataset目錄用於保存數據集

 

4.解壓縮user.zip文件

 

 5.可以看到dataset目錄下由兩個文件

 

 6.查看文件前五條記錄

 

 

2、 數據集的預處理

1. 刪除文件第一行記錄(即欄位名稱)

 

2. 對欄位進行預處理

1)新建一個腳本文件pre_deal.sh並放在dataset目錄下

 

2)在pre_deal.sh下麵加入以下代碼

 

3)執行pre_deal.sh腳本文件,對small_user.csv進行數據預處理操作

 

4)用head命令查看前10行數據

 

 

3、 導入資料庫

1. 啟動hdfs

 

執行jps命令查看當前運行的進程

 

 

2.把user_table.txt上傳到hadoop中

1)在hdfs根目錄下創建新目錄

 

2)把本地文件系統中的user_table.txt上傳到hdfs系統的目錄下

 

3)查看HDFS中的user_table.txt的前10條記錄

 

 

3. 在Hive上創建數據

1)啟動MySQL資料庫

 

2)進入hive

 

3)在Hive中創建一個資料庫dblab

 

4. 創建外部表

 

 

5. 查詢數據

1)查看bigdata_user表的信息

 

2)查看表的簡單結構

 

 

3)查詢相關數據

 

 

 

二、 Hive數據分析

1、 簡單查詢分析

1. 查看前10位用戶對商品的行為

 

 

2.查詢前20位用戶購買商品時的時間和商品的種類

 

 

3.設置列的別名

 

 

2、 查詢條數統計分析

1.用聚合函數count()計算出表內由多少行數據

 

 

2.在函數內部加上distinct,查出uid不重覆的數據由多少條

 

 

3.查詢不重覆的數據有多少條(為了排除客戶刷單情況)

 

 

3、關鍵字條件查詢分析

1.以關鍵字的存在區間為條件的查詢

(1)查詢2014年12月10日到2014年12月13日有多少人瀏覽了商品

 

執行結果:

 

 

(2)以月的第n天為統計單位,依次顯示第n天網站賣出去的商品的個數。

 

執行結果:

 

 

2.關鍵字賦予定值為條件,對其他數據進行分析

取給定時間和給定地點,求當天發出到該地點的貨物的數量。

 

執行結果:

 

 

4、 根據用戶行為分析

1.查詢一件商品在某天的購買比例

 

執行結果:

 

查詢一件商品在某天的瀏覽比例

 

執行結果:

 

 

2.查詢某個用戶在某一天點擊網站占該天所有點擊行為的比例

 

 

 

 

 

3.給定購物商品的數量範圍,查詢某一天在該網站的購買該數量商品的用戶id

 

 

 

5、 用戶實時查詢分析

查詢某個地區的用戶當天瀏覽網站的次數,語句如下:

創建新的數據表進行存儲

 

導入數據

 

顯示結果

 

執行結果如下:

 

 

三、 Hive、MySQL、HBase數據互導

1、 Hive預操作

1.創建臨時表user_action

 

查看是否創建成功

 

 

2.將bigdata_user表中的數據插入到user_action

 

查看是否插入成功

 

 

 

 

2、 使用Sqoop將數據從Hive導入MySQL

1.將前面生成的臨時表數據從Hive導入到MySQL中

1)、登錄MySQL

新建終端,執行以下命令

 

2)、創建資料庫

 

使用以下命令查看資料庫編碼是否utf8

 

3)創建表

在MySQL資料庫中dblab中創建一個新表user_action,並設置編碼為utf8

 

Exit

 

查看是否創建成功

 

4)導入數據

 

 

2.查看MySQL中的user_action表數據

啟動MySQL資料庫

 

執行命令查詢user_action表中的數據

 

 

3、使用sqoop將數據從MySQL導入HBase

1.啟動Hadoop、MySQL、HBase

因為前面的操作所以除了HBase以外都啟動了,故此次啟動HBase,新建一個終端

 

 

2.啟動Hbase shell

 

 

3.創建表user_action

 

 

4.新建終端,進入sqoop,導入數據

 

 

5.查看hbase中user_action表數據

 

 

 

 

4、 使用HBase Java API 把數據從本地導入到HBase中

1.啟動Hadoop、HBase

 

 

 

2.數據準備

將之前的user_action數據從hdfs複製到linux系統的本地文件系統中,操作如下

先進入/usr/local/bigdatacase/dataset中

 

將hdfs上的user_action數據複製到本地當前目錄中

 

查看前10行數據

 

將00000*文件複製一份重命名為user_action.output(*表示通配符)

 

查看user_action.output前十行

 

 

3.編寫數據導入程式

啟動eclipse

 

創建java project並命名為ImportHBase

 

 

新建HBaseImportTest class,並輸入以下代碼

import java.io.BufferedReader;

import java.io.FileInputStream;

import java.io.IOException;

import java.io.InputStreamReader;

import java.util.List;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.hbase.HBaseConfiguration;

import org.apache.hadoop.hbase.KeyValue;

import org.apache.hadoop.hbase.client.Get;

import org.apache.hadoop.hbase.client.HBaseAdmin;

import org.apache.hadoop.hbase.client.HTable;

import org.apache.hadoop.hbase.client.Put;

import org.apache.hadoop.hbase.client.Result;

import org.apache.hadoop.hbase.client.ResultScanner;

import org.apache.hadoop.hbase.client.Scan;

import org.apache.hadoop.hbase.util.Bytes;

public class HBaseImportTest extends Thread {

    public Configuration config;

    public HTable table;

    public HBaseAdmin admin;

    public HBaseImportTest() {

        config = HBaseConfiguration.create();

//      config.set("hbase.master", "master:60000");

//      config.set("hbase.zookeeper.quorum", "master");

        try {

            table = new HTable(config, Bytes.toBytes("user_action"));

            admin = new HBaseAdmin(config);

        } catch (IOException e) {

            e.printStackTrace();

        }

    }

    public static void main(String[] args) throws Exception {

        if (args.length == 0) {       //第一個參數是該jar所使用的類,第二個參數是數據集所存放的路徑

            throw new Exception("You must set input path!");

        }

        String fileName = args[args.length-1];  //輸入的文件路徑是最後一個參數

        HBaseImportTest test = new HBaseImportTest();

        test.importLocalFileToHBase(fileName);

    }

    public void importLocalFileToHBase(String fileName) {

        long st = System.currentTimeMillis();

        BufferedReader br = null;

        try {

            br = new BufferedReader(new InputStreamReader(new FileInputStream(

                    fileName)));

            String line = null;

            int count = 0;

            while ((line = br.readLine()) != null) {

                count++;

                put(line);

                if (count % 10000 == 0)

                    System.out.println(count);

            }

        } catch (IOException e) {

            e.printStackTrace();

        } finally {

            if (br != null) {

                try {

                    br.close();

                } catch (IOException e) {

                    e.printStackTrace();

                }

            }

            try {

                table.flushCommits();

                table.close(); // must close the client

            } catch (IOException e) {

                e.printStackTrace();

            }

        }

        long en2 = System.currentTimeMillis();

        System.out.println("Total Time: " + (en2 - st) + " ms");

    }

    @SuppressWarnings("deprecation")

    public void put(String line) throws IOException {

        String[] arr = line.split("\t", -1);

        String[] column = {"id","uid","item_id","behavior_type","item_category","date","province"};

 

        if (arr.length == 7) {

            Put put = new Put(Bytes.toBytes(arr[0]));// rowkey

            for(int i=1;i<arr.length;i++){

                put.add(Bytes.toBytes("f1"), Bytes.toBytes(column[i]),Bytes.toBytes(arr[i]));

            }

            table.put(put); // put to server

        }

    }

    public void get(String rowkey, String columnFamily, String column,

            int versions) throws IOException {

        long st = System.currentTimeMillis();

        Get get = new Get(Bytes.toBytes(rowkey));

        get.addColumn(Bytes.toBytes(columnFamily), Bytes.toBytes(column));

        Scan scanner = new Scan(get);

        scanner.setMaxVersions(versions);

        ResultScanner rsScanner = table.getScanner(scanner);

        for (Result result : rsScanner) {

            final List<KeyValue> list = result.list();

            for (final KeyValue kv : list) {

                System.out.println(Bytes.toStringBinary(kv.getValue()) + "\t"

                        + kv.getTimestamp()); // mid + time

            }

        }

        rsScanner.close();

        long en2 = System.currentTimeMillis();

        System.out.println("Total Time: " + (en2 - st) + " ms");

    }

}

 

 

在/usr/local/bigdatacase下新建hbase子目錄,用來存放導出的ImportHBase.jar

 

打包成可執行jar包並導出至/usr/local/bigdatacase/hbase目錄下

 

 

4.數據導入

在導入數據前,先把user_action表清空

 

 

運行hadoop jar命令來運行剛剛的jar包

 

 

 

5.查看HBase中user_action表數據

 

 

 

四、利用R進行數據可視化分析

1、安裝R

用vim編輯器打開/etc/apt/sources.list文件

 

在文件的最後一行添加廈門大學的鏡像源

 

保存文件退出vim編輯器,執行如下命令更新軟體源列表

 

 

執行如下命令安裝R語言

 

 

用vim編輯器打開/etc/apt/sources.list文件

 

在文件最後一行添加下列語句

 

保存文件退出vim編輯器,執行如下命令更新軟體源列表

 

執行如下命令安裝R語言

 

 

 

啟動R

 

執行以下命令退出

 

 

2、安裝依賴庫

進入R命令模式,輸入以下命令

 

出現以下錯誤信息

 

執行下列語句

 

再次執行RMySQL下載命令

 

 

執行如下命令安裝繪圖包ggplot2

 

 

運行以下命令安裝devtools

 

安裝相應的包

 

 

 

 

 

 

 

Install.packages(‘相應的依賴’)

 

 

 

再次嘗試下載devtools,成功。

 

最後執行如下命令安裝taiyun/recharts.

 

 

 

3、可視化分析

1、連接MySQL,並獲取數據

新建終端,並啟動mysql

 

進入mysql命令提示符狀態

 

輸入SQL語句查詢數據

 

切換到R命令視窗,連接到MySQL資料庫

 

 

2、分析消費者對商品的行為

使用summary()函數查看MySQL資料庫表user_action的欄位behavior_type的類型

 

看出user_action表中欄位behavior_type的類型是字元型,這樣不方便作比較,需要將其轉換為數值型,命令與執行結果如下

 

用柱狀圖展示消費者的行為類型的行為類型分佈情況

 

 

 

 

3、分析銷量排名前十的商品及其銷量

獲取子數據集,排序,並獲取第1個到第10個排序結果(第一行是商品分類,第二行表示該類的銷量)

 

採用散點圖展示上面的分析結果

將count矩陣結果轉換成數據框,完成散點圖繪製

 

 

 

 

4、分析每年的哪個月銷量最大

在數據集中增加一列關於月份的數據

visti_date變數中截取月份,user_ation中增加一列月份數據

 

用柱狀圖展示消費者在一年的不同月份的購買量情況

 

 

 

 

5、分析國內哪個省份的消費者最有購買欲望

 

 

 

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 什麼是Git Git 是一個開源的分散式版本控制系統,用於敏捷高效地處理任何或小或大的項目。 Git 是 Linus Torvalds 為了幫助管理 Linux 內核開發而開發的一個開放源碼的版本控制軟體。 Git 與常用的版本控制工具 CVS, Subversion 等不同,它採用了分散式版本庫的 ...
  • 使用過 nginx 的小伙伴應該都知道,這個中間件是可以設置跨域的,作為今天的主角,同樣的 反向代理中間件的 YARP 毫無意外也支持了跨域請求設置。 有些小伙伴可能會問了,怎樣才算是跨域呢? 在 HTML 中,一些標簽,例如 img、a 等,還有我們非常熟悉的 Ajax,都是可以指向非本站的資源的 ...
  • 前言 在上一篇文章CLR類型系統概述里提到,當運行時掛起時, 垃圾回收會執行堆棧遍歷器(stack walker)去拿到堆棧上值類型的大小和堆棧根。這裡我們來翻譯BotR里一篇專門介紹Stackwalking的文章,希望能加深理解。 順便說一句,StackWalker在中文里似乎還沒有統一的翻譯,J ...
  • Array.Sort Array類中相當實用的我認為是Sort方法,相比起冗長的冒泡排序,它的出現讓排序更加的簡化 結果如下: 還可以聲明一個靜態方法用來專門調用指定數組排序,從名為 array 的一維數組中 a 索引處開始,到 b 元素 從小到大排序。 註意: a + b 不能大於 array 的 ...
  • Github / Gitee QQ群(1群) : 813100564 / QQ群(2群) : 579033769 視頻教學 介紹 MiniWord .NET Word模板引擎,藉由Word模板和數據簡單、快速生成文件。 Getting Started 安裝 nuget link : https:// ...
  • 軟體安裝 在Linux系統中,安裝軟體的方式主要有四種,這四種安裝方式的特點如下: | 安裝方式 | 特點 | | | | | 二進位發佈包安裝 | 軟體已經針對具體平臺編譯打包發佈,只要解壓,修改配置即可 | | rpm安裝 | 軟體已經按照redhat的包管理規範進行打包,使用rpm命令進行安裝 ...
  • 1、簡介 這裡先介紹下軟體定時器和硬體定時器的區別 硬體定時器: CPU內部自帶的定時器模塊,通過初始化、配置可以實現定時,定時時間到以後就會執行相應的定時器中斷處理函數。硬體定時器一般都帶有其它功能,比如PWM輸出、輸入捕獲等等功能。但是缺點是硬體定時器數量少!! 軟體定時器: 軟體定時器允許設置 ...
  • 一、關機重啟命令 shutdown -h now 立刻進行關機 halt 關機 reboot 重啟電腦 sync 把記憶體數據同步到磁碟 ==關機重啟命令均需要root許可權執行== 二、用戶登錄和註銷命令 su username: 切換用戶,不帶任何參數會進入root;低許可權用戶切換高許可權用戶需要輸入 ...
一周排行
    -Advertisement-
    Play Games
  • GoF之工廠模式 @目錄GoF之工廠模式每博一文案1. 簡單說明“23種設計模式”1.2 介紹工廠模式的三種形態1.3 簡單工廠模式(靜態工廠模式)1.3.1 簡單工廠模式的優缺點:1.4 工廠方法模式1.4.1 工廠方法模式的優缺點:1.5 抽象工廠模式1.6 抽象工廠模式的優缺點:2. 總結:3 ...
  • 新改進提供的Taurus Rpc 功能,可以簡化微服務間的調用,同時可以不用再手動輸出模塊名稱,或調用路徑,包括負載均衡,這一切,由框架實現並提供了。新的Taurus Rpc 功能,將使得服務間的調用,更加輕鬆、簡約、高效。 ...
  • 本章將和大家分享ES的數據同步方案和ES集群相關知識。廢話不多說,下麵我們直接進入主題。 一、ES數據同步 1、數據同步問題 Elasticsearch中的酒店數據來自於mysql資料庫,因此mysql數據發生改變時,Elasticsearch也必須跟著改變,這個就是Elasticsearch與my ...
  • 引言 在我們之前的文章中介紹過使用Bogus生成模擬測試數據,今天來講解一下功能更加強大自動生成測試數據的工具的庫"AutoFixture"。 什麼是AutoFixture? AutoFixture 是一個針對 .NET 的開源庫,旨在最大程度地減少單元測試中的“安排(Arrange)”階段,以提高 ...
  • 經過前面幾個部分學習,相信學過的同學已經能夠掌握 .NET Emit 這種中間語言,並能使得它來編寫一些應用,以提高程式的性能。隨著 IL 指令篇的結束,本系列也已經接近尾聲,在這接近結束的最後,會提供幾個可供直接使用的示例,以供大伙分析或使用在項目中。 ...
  • 當從不同來源導入Excel數據時,可能存在重覆的記錄。為了確保數據的準確性,通常需要刪除這些重覆的行。手動查找並刪除可能會非常耗費時間,而通過編程腳本則可以實現在短時間內處理大量數據。本文將提供一個使用C# 快速查找並刪除Excel重覆項的免費解決方案。 以下是實現步驟: 1. 首先安裝免費.NET ...
  • C++ 異常處理 C++ 異常處理機制允許程式在運行時處理錯誤或意外情況。它提供了捕獲和處理錯誤的一種結構化方式,使程式更加健壯和可靠。 異常處理的基本概念: 異常: 程式在運行時發生的錯誤或意外情況。 拋出異常: 使用 throw 關鍵字將異常傳遞給調用堆棧。 捕獲異常: 使用 try-catch ...
  • 優秀且經驗豐富的Java開發人員的特征之一是對API的廣泛瞭解,包括JDK和第三方庫。 我花了很多時間來學習API,尤其是在閱讀了Effective Java 3rd Edition之後 ,Joshua Bloch建議在Java 3rd Edition中使用現有的API進行開發,而不是為常見的東西編 ...
  • 框架 · 使用laravel框架,原因:tp的框架路由和orm沒有laravel好用 · 使用強制路由,方便介面多時,分多版本,分文件夾等操作 介面 · 介面開發註意欄位類型,欄位是int,查詢成功失敗都要返回int(對接java等強類型語言方便) · 查詢介面用GET、其他用POST 代碼 · 所 ...
  • 正文 下午找企業的人去鎮上做貸後。 車上聽同事跟那個司機對罵,火星子都快出來了。司機跟那同事更熟一些,連我在內一共就三個人,同事那一手指桑罵槐給我都聽愣了。司機也是老社會人了,馬上聽出來了,為那個無辜的企業經辦人辯護,實際上是為自己辯護。 “這個事情你不能怪企業。”“但他們總不能讓銀行的人全權負責, ...