大數據技術的現狀與面臨的挑戰

来源:https://www.cnblogs.com/metahuber/archive/2022/11/17/16901046.html
-Advertisement-
Play Games

本文主要從技術層面探討大數據目前的現狀以及面臨的挑戰。在此之前,如果你對大數據的概念還比較模糊,可閱讀什麼是大數據一文瞭解。 如何定義大數據 目前我們已經瞭解到,大數據是由於數據量的巨大增長而產生的。所以,“大數據”一詞主要描述的是規模巨大的混合數據集,這種數據集是結構化與非結構化數據的融合。 通常 ...


 

本文主要從技術層面探討大數據目前的現狀以及面臨的挑戰。在此之前,如果你對大數據的概念還比較模糊,可閱讀什麼是大數據一文瞭解。

如何定義大數據

目前我們已經瞭解到,大數據是由於數據量的巨大增長而產生的。所以,“大數據”一詞主要描述的是規模巨大的混合數據集,這種數據集是結構化與非結構化數據的融合。

通常,大數據的特征是通過3V來解釋的,即體積、速度和多樣性。

體積是大數據的第一大特征。所有領先的社交媒體網站都在不停地產生大量的數據,以太位元組/千位元組為單位。

第二個是速度,它通常指的是接收數據和處理數據的速度。當前,互聯網上每天接收的數據約為2.5億兆位元組。

第三個是多樣性。它主要指的是收集數據的來源比較多樣,以及數據的結構、類別也比較多樣。我們常見的文本、視頻、圖像是不同類別的一些類型。

除此之外,大數據其他流行的特征是準確性、價值和可變性。

大數據的類別

 

 大數據通常被分為三個不同的類別:結構化、半結構化和非結構化

結構化:結構化並非指的是容易接受、存儲和處理的數據。而是預先知道其格式的數據。譬如說保存在資料庫中的特定表的值。

非結構化:任何來源不確定且未格式化的數據都是非結構化數據。在這裡,數據有不同的獨立來源,數據集包括了文字、視頻和音頻記錄等等。我們最常見的例子是谷歌、百度等搜索引擎門戶顯示的所有搜索結果。

半結構化:顧名思義,它指的是結構化和非結構化數據的聚合。這是一個已定義好格式的數據,但沒有存儲在任何關係資料庫系統當中。譬如說保存在XML文件中的一種數據就是半結構化數據。

用什麼管理大數據

用什麼管理如此規模的大數據,一直是個很大的難點。目前最常用的高效管理大量數據的開源計算引擎是Hadoop,它是Apache基金會所開發的分散式系統基礎架構。

Hadoop由HDFS (Hadoop分散式文件系統)和MapReduce Engine兩個主要組件組成。

Hadoop的生態系統則分為了3個部分:

Hadoop Common: Apache基礎的一些公用的庫,可以被生態系統中的其他組件使用。

HDFS (Hadoop Distributed File System):一個分散式數據存儲系統,它以更高效的方式存儲所有數據塊,並採用跨不同集群的數據複製概念,以實現可靠和輕鬆的數據訪問。

它主要由兩個組件組成:名稱節點(NameNode)和數據節點(DataNode)。它採用了主-從原理,其中名稱節點是主節點,負責整個分散式文件系統的元數據(MetaData)的管理,Data節點作為從節點,負責文件數據的存儲和讀寫操作。

MapReduce(分散式並行計算框架):MapReduce是一個分散式的資源調度和離線並行計算框架,是處理所有數據集的地方。

MapReduce將大數據集分解成更小的數據集,採用分而治之的策略,以便更高效地處理它們。

它的基本工作機制是,使用“Map”方法將任務發送到Hadoop集群中的不同節點進行處理,“Reduce”方法將所有處理結果合併起來,保證數據最終的整體有效性。

大數據技術面臨的挑戰

 

 數據存儲:由於數據的規模在短時間內迅速增加,數據存儲和分析整理依然是最核心的難點。

數據提煉:這是整個過程中最繁瑣的任務,也是最大的挑戰。分析提煉如此大量的數據是一項艱難的任務,從大量數據中提煉出最有價值的部分,是一個更艱難的任務。這甚至影響到了大數據未來的發展。

網路安全風險:大數據還會帶來額外的安全漏洞風險。目前來看,擁有如此龐大數據的公司正成為網路犯罪的主要目標。

 原文鏈接:http://pythonjishu.com/status-quo-and-challenges/  
您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 線程池無論是工作還是面試都是必備的技能,但是很多人對於線程池的實現原理卻一知半解,並不瞭解線程池內部的工作原理,今天一燈就帶大家一塊剖析線程池底層實現原理。 ...
  • aspnetcore上傳圖片也就是上傳文件有兩種方式,一種是通過form-data,一種是binary。 先介紹第一種form-data: 該方式需要顯示指定一個IFormFile類型,該組件會動態通過打開一個windows視窗選擇文件 及圖片。 postman演示如上,代碼如下: [HttpPos ...
  • 一:背景 1.講故事 前幾天 B 站上有位朋友讓我從高級調試的角度來解讀下 .NET7 新出來的 AOT,畢竟這東西是新的,所以這一篇我就簡單摸索一下。 二:AOT 的幾個問題 1. 如何在 .NET7 中開啟 AOT 功能 在 .NET7 中開啟 AOT 非常方便,先來段測試代碼。 interna ...
  • 前言 拋開死鎖不談,只聊性能問題,儘管鎖總能粗暴的滿足同步需求,但一旦存在競爭關係,意味著一定會有線程被阻塞,競爭越激烈,被阻塞的線程越多,上下文切換次數越多,調度成本越大,顯然在高併發的場景下會損害性能。在高併發高性能且要求線程安全的述求下,無鎖構造(非阻塞構造)閃亮登場。 參考文檔: C# - ...
  • 線程基礎 視頻已經發佈到B站 參考文章: 《Threading in C# 》(Joseph Albahari)https://www.albahari.com/threading/ 《Threading in C# 》中文翻譯(GKarch ):https://blog.gkarch.com/to ...
  • 作者:李遵舉 一、問題 近期我們運維同事接到線上LB(負載均衡)服務記憶體報警,運維同事反饋說LB集群有部分機器的記憶體使用率超過80%,有的甚至超過90%,而且記憶體使用率還再不停的增長。接到記憶體報警的消息,讓整個團隊都比較緊張,我們團隊負責的LB服務是零售、物流、科技等業務服務的流量入口,承接上萬個服 ...
  • //源文件 void UartGpioConfig() { RCC->AHB1ENR |= (1<<3); //使能GPIOD RCC->APB1ENR |= (1<<18); //使能USART3 RCC->APB2ENR |= //PD8 TXD GPIOD->MODER |= (2<<16); ...
  • //源文件 void TimerPhyConfig() { RCC->APB1ENR |= (1<<1); //使能Timer3 TIM3->ARR = arr; TIM3->PSC = psc; TIM3->DIER = (1<<0); //Update interrupt enabled TIM ...
一周排行
    -Advertisement-
    Play Games
  • C#TMS系統代碼-基礎頁面BaseCity學習 本人純新手,剛進公司跟領導報道,我說我是java全棧,他問我會不會C#,我說大學學過,他說這個TMS系統就給你來管了。外包已經把代碼給我了,這幾天先把增刪改查的代碼背一下,說不定後面就要趕鴨子上架了 Service頁面 //using => impo ...
  • 委托與事件 委托 委托的定義 委托是C#中的一種類型,用於存儲對方法的引用。它允許將方法作為參數傳遞給其他方法,實現回調、事件處理和動態調用等功能。通俗來講,就是委托包含方法的記憶體地址,方法匹配與委托相同的簽名,因此通過使用正確的參數類型來調用方法。 委托的特性 引用方法:委托允許存儲對方法的引用, ...
  • 前言 這幾天閑來沒事看看ABP vNext的文檔和源碼,關於關於依賴註入(屬性註入)這塊兒產生了興趣。 我們都知道。Volo.ABP 依賴註入容器使用了第三方組件Autofac實現的。有三種註入方式,構造函數註入和方法註入和屬性註入。 ABP的屬性註入原則參考如下: 這時候我就開始疑惑了,因為我知道 ...
  • C#TMS系統代碼-業務頁面ShippingNotice學習 學一個業務頁面,ok,領導開完會就被裁掉了,很突然啊,他收拾東西的時候我還以為他要旅游提前請假了,還在尋思為什麼回家連自己買的幾箱飲料都要叫跑腿帶走,怕被偷嗎?還好我在他開會之前拿了兩瓶芬達 感覺感覺前面的BaseCity差不太多,這邊的 ...
  • 概述:在C#中,通過`Expression`類、`AndAlso`和`OrElse`方法可組合兩個`Expression<Func<T, bool>>`,實現多條件動態查詢。通過創建表達式樹,可輕鬆構建複雜的查詢條件。 在C#中,可以使用AndAlso和OrElse方法組合兩個Expression< ...
  • 閑來無聊在我的Biwen.QuickApi中實現一下極簡的事件匯流排,其實代碼還是蠻簡單的,對於初學者可能有些幫助 就貼出來,有什麼不足的地方也歡迎板磚交流~ 首先定義一個事件約定的空介面 public interface IEvent{} 然後定義事件訂閱者介面 public interface I ...
  • 1. 案例 成某三甲醫預約系統, 該項目在2024年初進行上線測試,在正常運行了兩天後,業務系統報錯:The connection pool has been exhausted, either raise MaxPoolSize (currently 800) or Timeout (curren ...
  • 背景 我們有些工具在 Web 版中已經有了很好的實踐,而在 WPF 中重新開發也是一種費時費力的操作,那麼直接集成則是最省事省力的方法了。 思路解釋 為什麼要使用 WPF?莫問為什麼,老 C# 開發的堅持,另外因為 Windows 上已經裝了 Webview2/edge 整體打包比 electron ...
  • EDP是一套集組織架構,許可權框架【功能許可權,操作許可權,數據訪問許可權,WebApi許可權】,自動化日誌,動態Interface,WebApi管理等基礎功能於一體的,基於.net的企業應用開發框架。通過友好的編碼方式實現數據行、列許可權的管控。 ...
  • .Net8.0 Blazor Hybird 桌面端 (WPF/Winform) 實測可以完整運行在 win7sp1/win10/win11. 如果用其他工具打包,還可以運行在mac/linux下, 傳送門BlazorHybrid 發佈為無依賴包方式 安裝 WebView2Runtime 1.57 M ...