大數據相關概念和hdfs

-Advertisement-

大數據概述大數據是新處理模式才能具備更多的決策力，洞察力，流程優化能力，來適應海量高增長率，多樣化的數據資產。大數據面臨的問題怎麼存儲海量數據(kb，mb，gb，tb，pb，eb，zb) 怎麼對數據進行降噪處理(對數據進行清洗，使得數據變廢為寶，提取有用的數據，減少不必要的數據資源空間的釋放 ...

大數據

概述
- 大數據是新處理模式才能具備更多的決策力，洞察力，流程優化能力，來適應海量高增長率，多樣化的數據資產。
大數據面臨的問題
- 怎麼存儲海量數據(kb，mb，gb，tb，pb，eb，zb)
- 怎麼對數據進行降噪處理(對數據進行清洗，使得數據變廢為寶，提取有用的數據，減少不必要的數據資源空間的釋放)
處理方案

hadoop 是一種分散式文件存儲系統來解決存儲的問題，其中hdfs用來解決數據存儲問題，mapReduce來解決如何進行建造處理

hadoop是什麼？　
- 由來？
  - 根據google發佈的3篇文章
  1. google　File System
  2. Google Bigtable
  3. Google MapReduce 獲得啟發 hadoop之父 Doug Cutting 用java語言解決大數據所面臨的問題
- 概述
  - hadoop 是apache基金會的一款開源的分散式的基礎架構，它實現了高容錯率，乃至高吞吐量，低成本，由於hadoop用java語言編寫可以用在linux是非常可靠的，hadoop核心設計是hdfs和mapReudce以及Hbase分別對應這又google3篇文章，解決了大數據所面臨的問題
    - hdfs 分散式文件存儲系統
    - mapreduce 分散式計算框架只需要少量的java代碼就能實現分散式計算
    - hbase 基於HDFS 的列式存儲的NoSql
- hdfs
  - 分散式文件存儲系統，其中有nameNode，dataNode，block，nameNode負責管理著dataNode，dataNode負責接收讀寫請求和nameNode協調工作，負責block快的創建和複製，nameNode存儲著元數據，datanode和block中的映射關係

- 　nameNode 存儲元數據 (用來描述數據的數據)，負責管理dataNode 與dataNode 協調
- dataNode 負責nameNode的讀寫請求，用來存儲數據塊的節點，向nameNode報告自己的快信息
- block 數據快 hdfs 最小預設128mb 為一塊，沒一塊預設有3個副本
- rack 機架用來放置存儲節點，提高容錯率，高吞吐量。優化存儲和計算
　　nameNode和SecondaryNameNode 之間的關係

　　　 fsimage 元數據的備份會被載入到記憶體當中去

　　　 edits 讀寫請求的日誌文件

　　　nameNode 會在啟動的時候載入 fsimage 和 edits ，這2個文件不會憑空出現，所以要格式化nameNode

　　　當用戶在操作文件時，由於edits的增加，導致了nameNode啟動會越來越慢，所以就出現了SecondaryNameNode 可以簡單來說，他是nameNode的一個副本，當到達檢查點的時候，也就是hdfs 預設 1個小時或者日誌操作量級達到100w條的時候，此時SecondaryNameNode會將fsimage和edits載入過來進行合併，此時，若是有讀寫請求過來的時候會被載入到一個叫edits-inprogess的文件進行記錄讀寫請求，fsimage和edits合併之後會成為一個新的fsimage，而此時edits-inprogess會改名為edits

- 小問題：為什麼一個塊的大小預設是128mb
  - 在hadoop 1x 的時候預設快的大小為64 但是隨著硬碟的變大在hadoop2x的時候快的大小變成了128m ，此時預設最佳狀態是定址時間是傳輸速度的100/1
　mapReduce
- - 概念：分散式計算框架。用於大規模的數據計算，採用並行計算，充分的利用了dataNode的物理存儲機制，採用了(Map)映射（Reduce）規約，他極大的方便了程式員不會分散式並行編程的情況下，將自己的程式運行在分散式系統上，思想就是將一個鍵值對放在map 里然後使用Reduce 進行統籌規劃，保證所有的映射的鍵值隊中每一個共用的鍵組
- mapReduce最擅長做的就是分而治之；
  - 分就是把一個龐大複雜的任務分解成若幹個簡單的任務來處理，簡單的任務包含有3層
  1. 相對於原來的數據要大大縮小
  2. 所有的任務中並行計算，且互不幹擾
  3. 就近計算原則
  - 治之　Reduce 負責對map計算的結果進行統籌彙總
  - 要實現mapReduce 首先得藉助一個資源調度平臺 Yarn
Yarn
- - 概念　Yarn 作為資源調度平臺，其中有一個最大的管理者，ResourceManager 　負責著資源的統籌分配，還有各個節點的管理著，NodeManager 負責向ResourceManager進行資源狀態的報告，在NodeManager 中還有一個 MRAppMaster ，負責申請計算資源，協調計算任務並和NodeManager一起執行監視任務
  1. ResourceManager 負責對集群的整體資源和計算做統籌規劃
  2. NodeManager 管理主機上的計算組員，負責報告自身的狀態信息
  3. MRAppMaster 負責向ResourceManager負責申請資源，協調計算任務
  4. YarnChild 做實際的計算任務
  5. Container 計算資源的抽象單位

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

2-1 bash基本特性

bash基本特性 bash基本介紹 bash是shell的一種，shell是電腦與用戶交互的主要介面，狹義上的shell指的是CLI（command line interface命令行介面），用戶輸入命令，bash判斷並執行。 bash的登陸提示 bash登陸時會有相應的提示，提示內容可以在相關文 ...
安裝虛擬機和網路配置

安裝虛擬機 VMWare安裝官方網站 https://www.pagesinventory.com/domain/www.vmware.com.html 鏡像文件安裝 http://windows.dmn77.cn/ 安裝虛擬機需要鏡像文件來運行 1.首先下載好vmware軟體包，解壓，點擊運行 2 ...
資料庫索引、優化

參考地址：如何看MS SQLSERVER資料庫的執行計劃https://blog.csdn.net/luoyanqing119/article/details/17022649 SQLserver索引的原理和應用https://www.cnblogs.com/knowledgesea/p/3672 ...
Part_three:Redis持久化存儲

redis持久化存儲是一種記憶體型資料庫，一旦伺服器進程退出，資料庫的數據就會丟失，為瞭解決這個問題，提供了兩種持久化的方案，將記憶體中的數據保存到磁碟中，避免數據的丟失。 1.RDB持久化 redis提供了RDB持久化的功能，這個功能可以將redis在記憶體中的狀態數據保存到磁碟觸發機制：手動執 ...
SQL Server如何正確的刪除Windows認證用戶

在SQL Server資料庫中，有時候會建立一些Windows認證的賬號（域賬號）,例如，我們公司習慣給開發人員和Support同事開通NT賬號許可權，如果有離職或負責事宜變更的話，那麼要如何正確的刪除這些Windows認證賬號呢？這篇文章就是來探討一下如何正確的刪除Windows認證賬號。如下所示：... ...
Part_one:Redis第一次接觸

1.redis學習數據預設寫入到記憶體，如果斷電，伺服器宕機，redis進程掛掉，數據會丟失。 selenium操作瀏覽器時，要註意瀏覽器資源釋放，方式記憶體泄露，崩潰 mysql是文件型資料庫，預設持久化到硬碟上 redis 是記憶體型資料庫 2.redis安裝學習 yum安裝，最簡單，配置yum源， ...
MYSQL之查詢篇

2. 資料庫操作資料庫在創建以後最常見的操作便是 2.1 查詢為了便於學習和理解，我們預先準備了兩個表分別是表和表兩個表的內容和結構如下所示表的內容: | id | class\_id | name | gender | score | | | | | | | | 1 | 1 | 小明 | ...
Python學習日記(三十三) Mysql資料庫篇一

背景 Mysql是一個關係型資料庫,由瑞典Mysql AB開發,目前屬於Oracle旗下的產品。Mysql是目前最流行的關係型資料庫管理系統之一,在WEB方面,Mysql是最好的RDBMS(Relational Database Management System)。Mysql是一種關係資料庫管理系 ...

大數據相關概念和hdfs

大數據

概述

大數據面臨的問題

處理方案

hadoop是什麼？

nameNode和SecondaryNameNode 之間的關係

hadoop是什麼？　

　　nameNode和SecondaryNameNode 之間的關係