Ambari HDP 下 SPARK2 與 Phoenix 整合

-Advertisement-

1、環境說明 | 操作系統 | CentOS Linux release 7.4.1708 (Core) | | | : : | | Ambari | 2.6.x | | HDP | 2.6.3.0 | | Spark | 2.x | | Phoenix | 4.10.0 HBase 1.2 | 2 ...

1、環境說明

操作系統	CentOS Linux release 7.4.1708 (Core)
Ambari	2.6.x
HDP	2.6.3.0
Spark	2.x
Phoenix	4.10.0-HBase-1.2

2、條件

HBase 安裝完成
Phoenix 已經啟用，Ambari界面如下所示：
Spark 2安裝完成

3、Spark2 與 Phoenix整合

Phoenix 官網整合教程： http://phoenix.apache.org/phoenix_spark.html

步驟：

進入 Ambari Spark2 配置界面

找到自定義 spark2-defaults並添加如下配置項：

spark.driver.extraClassPath=/usr/hdp/current/phoenix-client/phoenix-4.10.0-HBase-1.2-client.jar
spark.executor.extraClassPath=/usr/hdp/current/phoenix-client/phoenix-4.10.0-HBase-1.2-client.jar

mark

4、Yarn HA 問題

如果配置了Yarn HA, 則需要修改 Yarn HA 配置，否則spark-submit提交任務會報如下錯誤：

Exception in thread "main" java.lang.IllegalAccessError: tried to access method org.apache.hadoop.yarn.client.ConfiguredRMFailoverProxyProvider.getProxyInternal()Ljava/lang/Object; from class org.apache.hadoop.yarn.client.RequestHedgingRMFailoverProxyProvider
        at org.apache.hadoop.yarn.client.RequestHedgingRMFailoverProxyProvider.init(RequestHedgingRMFailoverProxyProvider.java:75)
        at org.apache.hadoop.yarn.client.RMProxy.createRMFailoverProxyProvider(RMProxy.java:163)
        at org.apache.hadoop.yarn.client.RMProxy.createRMProxy(RMProxy.java:94)
        at org.apache.hadoop.yarn.client.ClientRMProxy.createRMProxy(ClientRMProxy.java:72)
        at org.apache.hadoop.yarn.client.api.impl.YarnClientImpl.serviceStart(YarnClientImpl.java:187)
        at org.apache.hadoop.service.AbstractService.start(AbstractService.java:193)
        at org.apache.spark.deploy.yarn.Client.submitApplication(Client.scala:153)
        at org.apache.spark.scheduler.cluster.YarnClientSchedulerBackend.start(YarnClientSchedulerBackend.scala:56)
        at org.apache.spark.scheduler.TaskSchedulerImpl.start(TaskSchedulerImpl.scala:173)
        at org.apache.spark.SparkContext.<init>(SparkContext.scala:509)
        at org.apache.spark.SparkContext$.getOrCreate(SparkContext.scala:2516)
        at org.apache.spark.sql.SparkSession$Builder$$anonfun$7.apply(SparkSession.scala:922)
        at org.apache.spark.sql.SparkSession$Builder$$anonfun$7.apply(SparkSession.scala:914)
        at scala.Option.getOrElse(Option.scala:121)
        at org.apache.spark.sql.SparkSession$Builder.getOrCreate(SparkSession.scala:914)
        at cn.spark.sxt.SparkOnPhoenix$.main(SparkOnPhoenix.scala:13)
        at cn.spark.sxt.SparkOnPhoenix.main(SparkOnPhoenix.scala)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.i

修改Yarn HA配置：

將原來的配置:

yarn.client.failover-proxy-provider=org.apache.hadoop.yarn.client.RequestHedgingRMFailoverProxyProvider

改為現在的配置：

yarn.client.failover-proxy-provider=org.apache.hadoop.yarn.client.ConfiguredRMFailoverProxyProvider

如果沒有配置 Yarn HA, 則不需要進行此步配置

歡迎關註微信公眾號

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

MySQL導出數據時提示文件損壞

1. 使用Navicat工具，優先將整個資料庫的表和數據導出。 2. 如果遇到文件損壞錯誤可以在表實例界面選中所有表，然後將表轉儲為SQL文件（結構和數據）。 3. 在目標資料庫執行導出的SQL文件，導入數據和結構。 4. 如果個別表因為各種原因（比如使用federated引擎建立了DB L ...
Flink知識散點

1、KeyBy 操作後，只有當 Key 的數量大於運算元的併發實例數才能獲得較好的計算性能。 A.而若Key 的數量比實例數量少，就會導致部分實例收不到數據，這些實例就得不到執行，這些實例的計算能力得不到充分發揮。 ~~B.當Key個數多餘並行實例數時，由於同一個 Key 對應的所有數據都能發送到同一 ...
Flink中邏輯計劃和物理計劃的概念劃分和對應關係

邏輯計劃 1. logicGraph或者jobGraph，其端點為operator，edge為數據流向。 2. operator往往代表一個函數。 3. 同一個分區內的具有連續上下游關係的函數組成operator chain，一個operator chain內的數據來流動過程中不會出現序列化和分區間 ...
SparkShuffle機制

在早期版本的Spark中，shuffle過程沒有磁碟讀寫操作，是純記憶體操作，後來發現效率較低，且極易引發OOME，較新版本的Shuffle操作都加入了磁碟讀寫進行了改進。 1、未經優化的HashShuffleManager：上一個stage中每一個task會對下一個stage的每一個task寫一份數 ...
Spark組件間通信

1、Spark組件之間使用RPC機制進行通信。RPC的客戶端在本地編寫並調用業務介面，介面在本地通過RPC框架的動態代理機制生成一個對應的實現類，在這個實現類中完成soket通信、遠程調用等功能的邏輯包裝，而在RPC的服務端既編寫業務介面也編寫了具體的業務實現類，通過RPC框架以介面的方式暴露出來， ...
Spark記憶體管理

1、spark的一大特性就是基於記憶體計算，Driver只保存任務的巨集觀性的元數據，數據量較小，且在執行過程中基本不變，不做重點分析，而真正的計算任務Task分佈在各個Executor中，其中的記憶體數據量大，且會隨著計算的進行會發生實時變化，所以Executor的記憶體管理才分析的重點。 2、在執行Sp ...
Redis持久化機制

1、Redis數據持久化的必要性由於redis是基於記憶體的資料庫，面臨數據掉電易失的風險，要避免數據丟失，最好將記憶體數據持久化到磁碟等永久存儲介質上。服務重啟時，會先載入磁碟文件內的數據到記憶體，完成數據恢復。 2、RDB（RedisDB）對記憶體中的redis全量數據進行時點快照並序列化，以文 ...
Redis集群模式

1、常見的三種數據的集群存儲模式 1. full mirror：全量鏡像模式，單純備份模式，各個節點數據相同，都包含了全量數據，僅主節點可寫，保證了數據冗餘和讀的負載均衡。數據安全性高，橫向擴展能力差，資源利用率不高。 2. pure sharding：數據分片，每個節點的數據不相同，所有節點中數據 ...