企業級大數據處理方案03-數據流程

来源:http://www.cnblogs.com/gnool/archive/2016/07/09/5655686.html
-Advertisement-
Play Games

數據處理過程分為數據挖掘和數據分析,廣義上說數據分析泛指整個過程,然而數據分析大的流程大致相同,如圖: 數據挖掘一般都要經過過濾、漂洗、匹配三個過程: 1.過濾:主要將數據中的不適合分析的數據過濾掉,就好比產品流水線的殘次品一樣,對數據進行組粒度的過濾,其規則可按數據大小,字元長短; 2.漂洗:也稱 ...


數據處理過程分為數據挖掘和數據分析,廣義上說數據分析泛指整個過程,然而數據分析大的流程大致相同,如圖:

數據挖掘一般都要經過過濾、漂洗、匹配三個過程:

1.過濾:主要將數據中的不適合分析的數據過濾掉,就好比產品流水線的殘次品一樣,對數據進行組粒度的過濾,其規則可按數據大小,字元長短;

2.漂洗:也稱格式化,對數據進行分塊,數據也有組成的,有時間、數據源、數據體等等,就好比頭、身體、腳一樣。將數據變成我們想要的格式,此過程也是打標簽的過程,意將數據分類處理。

3.匹配:匹配就是抽取欄位,將數據中的有用的地方抽取出來。(正則處理)由於數據的分類太多,無法完成所有的數據的匹配,這就需要機器自動識別。註意機器學習的結果並不精準,是故數據分開存儲。

數據挖掘的過程也就是無格式數據和半格式化數據的格式化過程,換言之就是講數據規則化。

數據挖掘過程結束後,就是數據分析階段,其過程如圖:

數據分析就是sql聚合操作,將數據格式化就是為了能夠用sql語言去處理數據,換句話說就是,想怎麼分析就怎麼分析,只要你會操作資料庫。

然而數據分析也有多層面的:按照維度劃分為一維、二維、三維分析。

一維分析主要基於表查詢,多個欄位、單個欄位、topN、分組等等的聚合函數

二維分析主要基於時間,為什麼這麼說呢,基於時間的分析就會複雜,多與預測有關係(預測那肯定不能人想,得機器想)

三維分析主要基於對象,對象怎麼說,是將數據模型化,數據模型化就好比Java類一樣,構造虛擬實體,基於實體的分析。

上述維度基於上一維度來說的。

有沒有四維、五維,有木肯定有木,舉個運維的例子:

例子:伺服器運行情況

伺服器A        2016-07-09 12:00:00   CPU:90%   Mem:90%

應用程式A     2016-07-09 12:00:00   CPU:40%   Mem:40%  (men>60%才能正常運行)

應用程式B     2016-07-09 12:00:00   CPU:40%   Mem:40%   (men>30%才能正常運行)

伺服器A系統  2016-07-09 12:00:00   CPU:10%   Mem:10%

所以應用程式A就會運行不正常

整個數據處理流程的完整流程圖:

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一. 準備工作 1. 需要一個Linux宿主系統,例如早先版本的 LFS,Ubuntu/Fedora,SuSE 或者是在你的架構上可以運行的其它發行版 二. LFS目標架構 LFS主要支持 AMD/Intel 的 x86(32 位)和 x86_64(64 位) 的目標架構。另外,做一些更改可以讓LF ...
  • 1. 修改官方軟體庫列表 編輯/etc/apt/sources.list,註釋掉原有內容,然後添加下述內容。 2. 執行更新命令並重啟 參考鏈接: 1. Kali Linux, Rolling Edition Released – 2016.1 ...
  • Apache + MySql + Php. 1、安裝Apache Apache可以用下麵的命令來安裝 sudo apt-get install apache2 Apache預設路徑是/var/www/ 其配置文件路徑為: /etc/apache2/ 可以通過:sudo nano /etc/apach ...
  • 郵件告警發現海外工廠一Linux伺服器連接不上,DPA(Database Performance Analyzer)系統也發現其出現問題,ping這台伺服器發現網路不通,聯繫不到當地系統管理員,郵件咨詢後,這個系統管理員也發現有問題,直接重啟了,事後檢查發現日誌message裡面,從10:10分開始... ...
  • redis的list類型其實就是一個每個子元素都是string類型的雙向鏈表。所以[lr]push和[lr]pop命令的演算法時間複雜度都是O(1)。另外list會記錄鏈表的長度。所以llen操作也是O(1).鏈表的最大長度是(2的32次方-1)。我們可以通過push,pop操作從鏈表的頭部或者尾部添 ...
  • 前幾天和群里網友討論一個關於行內鏈接(intra-block chaining)的問題,問題非常有意思,恰好今天有空,順便整理了一下這些知識點。 問題描述:下麵SQL,創建一個超過255列的表(實際為256列),然後插入幾條數據,然後對錶做ANALYZE分析過後,但是發現user_tables的CH... ...
  • 定義 公用表表達式(CTE),是一個在查詢中定義的臨時命名結果集將在from子句中使用它。每個CTE僅被定義一次(但在其作用域內可以被引用任意次),並且在該查詢生存期間將一直生存。可以使用CTE來執行遞歸操作。創建的語法是: with <name of you cte>(<column names> ...
  • 眾所周知,java中為String類提供了split()字元串分割的方法,所以很容易將字元串以指定的符號分割為一個字元串數組。但是在pl/sql中並沒有提供像java中的split()方法,所以要想在pl/sql中實現字元串的分割還需要自己動手。由於在項目中需要用到此類方法,所以自己研究了一下,方便 ...
一周排行
    -Advertisement-
    Play Games
  • .Net8.0 Blazor Hybird 桌面端 (WPF/Winform) 實測可以完整運行在 win7sp1/win10/win11. 如果用其他工具打包,還可以運行在mac/linux下, 傳送門BlazorHybrid 發佈為無依賴包方式 安裝 WebView2Runtime 1.57 M ...
  • 目錄前言PostgreSql安裝測試額外Nuget安裝Person.cs模擬運行Navicate連postgresql解決方案Garnet為什麼要選擇Garnet而不是RedisRedis不再開源Windows版的Redis是由微軟維護的Windows Redis版本老舊,後續可能不再更新Garne ...
  • C#TMS系統代碼-聯表報表學習 領導被裁了之後很快就有人上任了,幾乎是無縫銜接,很難讓我不想到這早就決定好了。我的職責沒有任何變化。感受下來這個系統封裝程度很高,我只要會調用方法就行。這個系統交付之後不會有太多問題,更多應該是做小需求,有大的開發任務應該也是第二期的事,嗯?怎麼感覺我變成運維了?而 ...
  • 我在隨筆《EAV模型(實體-屬性-值)的設計和低代碼的處理方案(1)》中介紹了一些基本的EAV模型設計知識和基於Winform場景下低代碼(或者說無代碼)的一些實現思路,在本篇隨筆中,我們來分析一下這種針對通用業務,且只需定義就能構建業務模塊存儲和界面的解決方案,其中的數據查詢處理的操作。 ...
  • 對某個遠程伺服器啟用和設置NTP服務(Windows系統) 打開註冊表 HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\W32Time\TimeProviders\NtpServer 將 Enabled 的值設置為 1,這將啟用NTP伺服器功 ...
  • title: Django信號與擴展:深入理解與實踐 date: 2024/5/15 22:40:52 updated: 2024/5/15 22:40:52 categories: 後端開發 tags: Django 信號 松耦合 觀察者 擴展 安全 性能 第一部分:Django信號基礎 Djan ...
  • 使用xadmin2遇到的問題&解決 環境配置: 使用的模塊版本: 關聯的包 Django 3.2.15 mysqlclient 2.2.4 xadmin 2.0.1 django-crispy-forms >= 1.6.0 django-import-export >= 0.5.1 django-r ...
  • 今天我打算整點兒不一樣的內容,通過之前學習的TransformerMap和LazyMap鏈,想搞點不一樣的,所以我關註了另外一條鏈DefaultedMap鏈,主要調用鏈為: 調用鏈詳細描述: ObjectInputStream.readObject() DefaultedMap.readObject ...
  • 後端應用級開發者該如何擁抱 AI GC?就是在這樣的一個大的浪潮下,我們的傳統的應用級開發者。我們該如何選擇職業或者是如何去快速轉型,跟上這樣的一個行業的一個浪潮? 0 AI金字塔模型 越往上它的整個難度就是職業機會也好,或者說是整個的這個運作也好,它的難度會越大,然後越往下機會就會越多,所以這是一 ...
  • @Autowired是Spring框架提供的註解,@Resource是Java EE 5規範提供的註解。 @Autowired預設按照類型自動裝配,而@Resource預設按照名稱自動裝配。 @Autowired支持@Qualifier註解來指定裝配哪一個具有相同類型的bean,而@Resourc... ...