實戰kudu集成impala_ZenDei技術網路在線

推薦閱讀：論主數據的重要性（正確理解元數據、數據元） CDC+ETL實現數據集成方案 Java實現impala操作kudu 實戰kudu集成impala impala基本介紹 impala是cloudera提供的一款高效率的sql查詢工具，提供實時的查詢效果，官方測試性能比hive快10到100倍 ...

impala基本介紹

impala是基於hive的大數據分析查詢引擎，直接使用hive的元資料庫metadata，意味著impala元數據都存儲在hive的metastore當中，並且impala相容hive的絕大多數sql語法。所以需要安裝impala的話，必須先安裝hive，保證hive安裝成功，並且還需要啟動hive的metastore服務

　　impala是cloudera提供的一款高效率的sql查詢工具，提供實時的查詢效果，官方測試性能比hive快10到100倍，其sql查詢比sparkSQL還要更加快速，號稱是當前大數據領域最快的查詢sql工具，

　　impala是參照谷歌的新三篇論文（Caffeine--網路搜索引擎、Pregel--分散式圖計算、Dremel--互動式分析工具）當中的Dremel實現而來，其中舊三篇論文分別是（BigTable，GFS，MapReduce）分別對應我們即將學的HBase和已經學過的HDFS以及MapReduce。

　　impala是基於hive並使用記憶體進行計算，兼顧數據倉庫，具有實時，批處理，多併發等優點

　　Kudu與Apache Impala （孵化）緊密集成，impala天然就支持相容kudu，允許開發人員使用Impala的SQL語法從Kudu的tablets 插入，查詢，更新和刪除數據；

impala的優點

1、 impala比較快，非常快，特別快，因為所有的計算都可以放入記憶體當中進行完成，只要你記憶體足夠大

2、擯棄了MR的計算，改用C++來實現，有針對性的硬體優化

3、具有數據倉庫的特性，對hive的原有數據做數據分析

4、支持ODBC，jdbc遠程訪問

impala的缺點

1、基於記憶體計算，對記憶體依賴性較大

2、改用C++編寫，意味著維護難度增大

3、基於hive，與hive共存亡，緊耦合

4、穩定性不如hive，不存在數據丟失的情況

impala的架構以及查詢計劃

Impalad
- 基本是每個DataNode上都會啟動一個Impalad進程，Impalad主要扮演兩個角色：
  - Coordinator：
    - 負責接收客戶端發來的查詢，解析查詢，構建查詢計劃
    - 把查詢子任務分發給很多Executor，收集Executor返回的結果，組合後返回給客戶端
    - 對於客戶端發送來的DDL，提交給Catalogd處理
  - Executor：
    - 執行查詢子任務，將子任務結果返回給Coordinator
Catalogd
- 整個集群只有一個Catalogd，負責所有元數據的更新和獲取
StateStored
- 整個集群只有一個Statestored，作為集群的訂閱中心，負責集群不同組件的信息同步
- 跟蹤集群中的Impalad的健康狀態及位置信息，由statestored進程表示，它通過創建多個線程來處理Impalad的註冊訂閱和與各Impalad保持心跳連接，各Impalad都會緩存一份State Store中的信息，當State Store離線後（Impalad發現State Store處於離線時，會進入recovery模式，反覆註冊，當State Store重新加入集群後，自動恢復正常，更新緩存數據）因為Impalad有State Store的緩存仍然可以工作，但會因為有些Impalad失效了，而已緩存數據無法更新，導致把執行計劃分配給了失效的Impalad，導致查詢失敗。

使用impala操作kudu整合

1、需要先啟動hdfs、hive、kudu、impala

2、使用impala的shell控制台

執行命令impala-shell

(1):使用該impala-shell命令啟動Impala Shell 。預設情況下，impala-shell 嘗試連接到localhost埠21000 上的Impala守護程式。要連接到其他主機，請使用該-i <host:port>選項。要自動連接到特定的Impala資料庫，請使用該-d <database>選項。例如，如果您的所有Kudu表都位於資料庫中的Impala中impala_kudu，則-d impala_kudu可以使用此資料庫。
(2)：要退出Impala Shell，請使用以下命令： quit;

創建kudu表

內部表由Impala管理，當您從Impala中刪除時，數據和表確實被刪除。當您使用Impala創建新表時，它通常是內部表。

使用impala創建內部表：

CREATE TABLE my_first_table
(
id BIGINT,
name STRING,
PRIMARY KEY(id)
)
PARTITION BY HASH PARTITIONS 16
STORED AS KUDU
TBLPROPERTIES (
'kudu.master_addresses' = 'node1:7051,node2:7051,node3:7051',
'kudu.table_name' = 'my_first_table'
);

在 CREATETABLE 語句中，必須首先列出構成主鍵的列。

此時創建的表是內部表，從impala刪除表的時候，在底層存儲的kudu也會刪除表。
```
drop table if exists my_first_table；
```

外部表

外部表（創建者CREATE EXTERNAL TABLE）不受Impala管理，並且刪除此表不會將表從其源位置（此處為Kudu）丟棄。相反，它只會去除Impala和Kudu之間的映射。這是Kudu提供的用於將現有表映射到Impala的語法。

使用java創建一個kudu表：

public class CreateTable {

private static ColumnSchema newColumn(String name, Type type, boolean iskey) {

ColumnSchema.ColumnSchemaBuilder column = new

ColumnSchema.ColumnSchemaBuilder(name, type);

column.key(iskey);

return column.build();

}

public static void main(String[] args) throws KuduException {

// master地址

final String masteraddr = "node1,node2,node3";

// 創建kudu的資料庫鏈接

KuduClient client = new

KuduClient.KuduClientBuilder(masteraddr).defaultSocketReadTimeoutMs(6000).build();

 

// 設置表的schema

List<ColumnSchema> columns = new LinkedList<ColumnSchema>();

columns.add(newColumn("CompanyId", Type.INT32, true));

columns.add(newColumn("WorkId", Type.INT32, false));

columns.add(newColumn("Name", Type.STRING, false));

columns.add(newColumn("Gender", Type.STRING, false));

columns.add(newColumn("Photo", Type.STRING, false));

Schema schema = new Schema(columns);

//創建表時提供的所有選項

CreateTableOptions options = new CreateTableOptions();

 

// 設置表的replica備份和分區規則

List<String> parcols = new LinkedList<String>();

 

parcols.add("CompanyId");

//設置表的備份數

options.setNumReplicas(1);

//設置range分區

options.setRangePartitionColumns(parcols);

 

//設置hash分區和數量

options.addHashPartitions(parcols, 3);

try {

client.createTable("person", schema, options);

} catch (KuduException e) {

e.printStackTrace();

}

client.close();

}

}

在kudu的頁面上可以觀察到如下信息：

在impala的命令行查看表:

當前在impala中並沒有person這個表

使用impala創建外部表，將kudu的表映射到impala上：

在impala-shell執行

CREATE EXTERNAL TABLE `person` STORED AS KUDU
TBLPROPERTIES(
'kudu.table_name' = 'person',
'kudu.master_addresses' = 'node1:7051,node2:7051,node3:7051')

使用impala對kudu進行DML操作

將數據插入 Kudu 表

impala 允許使用標準 SQL 語句將數據插入 Kudu

插入單個值

創建表

CREATE TABLE my_first_table
(
id BIGINT,
name STRING,
PRIMARY KEY(id)
)
PARTITION BY HASH PARTITIONS 16
STORED AS KUDU;

此示例插入單個行

INSERT INTO my_first_table VALUES (50, "zhangsan");

查看數據

select * from my_first_table

使用單個語句插入三行

INSERT INTO my_first_table VALUES (1, "john"), (2, "jane"), (3, "jim");

批量插入Batch Insert

從 Impala 和 Kudu 的角度來看，通常表現最好的方法通常是使用 Impala 中的 SELECT FROM 語句導入數據

INSERT INTO my_first_table
SELECT * FROM temp1;

更新數據

UPDATE my_first_table SET name="xiaowang" where id =1 ;

刪除數據

delete from my_first_table where id =2;

更改表屬性

開發人員可以通過更改表的屬性來更改 Impala 與給定 Kudu 表相關的元數據。這些屬性包括表名， Kudu 主地址列表，以及表是否由 Impala （內部）或外部管理。

Rename an Impala Mapping Table ( 重命名 Impala 映射表 )

ALTER TABLE PERSON RENAME TO person_temp;

Rename the underlying Kudu table for an internal table ( 重新命名內部表的基礎 Kudu 表 )

創建內部表：

CREATE TABLE kudu_student
(
CompanyId INT,
WorkId INT,
Name STRING,
Gender STRING,
Photo STRING,
PRIMARY KEY(CompanyId)
)
PARTITION BY HASH PARTITIONS 16
STORED AS KUDU
TBLPROPERTIES (
'kudu.master_addresses' = 'node1:7051,node2:7051,node3:7051',
'kudu.table_name' = 'student'
);

如果表是內部表，則可以通過更改 kudu.table_name 屬性重命名底層的 Kudu 表

ALTER TABLE kudu_student SET TBLPROPERTIES('kudu.table_name' = 'new_student');

Remapping an external table to a different Kudu table ( 將外部表重新映射到不同的 Kudu 表 )

如果用戶在使用過程中發現其他應用程式重新命名了kudu表，那麼此時的外部表需要重新映射到kudu上

創建一個外部表：

CREATE EXTERNAL TABLE external_table
STORED AS KUDU
TBLPROPERTIES (
'kudu.master_addresses' = 'node1:7051,node2:7051,node3:7051',
'kudu.table_name' = 'person'
);

重新映射外部表，指向不同的kudu表：

ALTER TABLE external_table
SET TBLPROPERTIES('kudu.table_name' = 'hashTable')

上面的操作是：將external_table映射的PERSON表重新指向hashTable表

Change the Kudu Master Address ( 更改 Kudu Master 地址 )

ALTER TABLE my_table

SET TBLPROPERTIES('kudu.master_addresses' = 'kudu-new-master.example.com:7051');

Change an Internally-Managed Table to External ( 將內部管理的表更改為外部 )

ALTER TABLE my_table SET TBLPROPERTIES('EXTERNAL' = 'TRUE');