初識Elastic search—附《Elasticsearch權威指南—官方guide的譯文》

来源:https://www.cnblogs.com/NaughtyCat/archive/2020/07/24/first-sight-of-elastic-search.html
-Advertisement-
Play Games

Elastic search 趣簡史 安裝 基礎知識 核心概念 ...


本文作為Elastic search系列的開篇之作,簡要介紹其簡要歷史、安裝及基本概念和核心模塊。

  •  簡史

Elastic search基於Lucene(信息檢索引擎,ES里一個index—索引,一個索引指向一個或者多個分片—shards,一個分片就是一個Lucene實例。Lucene的作者——Doug Cutting同是也是hadoop的作者)。

ES的誕生於04年,Shay Banon——據傳剛失業又新婚,禍不單行(港蓉蒸蛋糕,蒸的嗎),在Lucene的基礎上為他去倫敦學廚師的老婆做的食譜搜索。一不小心,搞出了ES,然而老婆大人的食譜搜索卻遙遙無期,估計Shay在家鍵盤跪爛。

然後呢,官網出了個Kibana (ELK—Elasticsearch, logstash, kibana三劍客之一,另外Elastic認證瞭解一下——截止目前國內考過的不足500人),一個web應用程式,用圖表啊、地圖啊等面板來可視化數據(圖像天然具有親和力,詳見 Guide初步的安裝及說明詳見附錄5),如下圖:

  • 安裝

windows上安裝Elastic search 請參考附註2 鏈接(需要安裝IK分詞器,以更好的支持漢語分詞;安裝elasticsearch-head簡單的可視化的web客戶端,可支持基本的查詢操作或者通過DSL檢索結果——為支持它,需要裝Node.js; node.js 又需要集成 npmgrunt

elasticsearch-head 效果如下圖:

  • 核心概念

  Elastic Search是一個實時分散式搜索和分析引擎,處理大數據相當的擅長。Stackoverflow、Github、Wiki以及英國衛報等在全文檢索、代碼搜索(Github超過1300億行)、地理位置查詢、社交網路實時數據等領域均廣泛深入的使用了ES,國內的位元組跳動、騰訊、阿裡、百度均有相關應用。目前認為其核心概念包括:

  • Score

就是根據一套規則和演算法,滿足搜索條件的文檔,其中相關信息的匹配度(或稱之為相關度),打分越高,則匹配度越高,搜索結果按打分高低(匹配度)倒敘展示。如下圖的一個搜索結果:

 

 具體的Score,涉及到Norm(歸一化)和Boost(可以設置field和document的Boot—相當於權重的概念)

  • 集群(Cluster)、節點(Node)和分片(shards)

集群即多台物理機構成,每個物理機包含多個節點(其中只有一個Master Node),每個節點包含多個分片,每個分片可以有0個或多個複製分片做必要的數據冗餘。其分散式特性,通過底層的如下操作自動完成:

(1)將你的文檔分區到不同的容器或者分片(shards)中,它們可以存在於一個或多個節點中。

(2)將分片均勻的分配到各個節點,對索引和搜索做負載均衡。 冗餘每一個分片,防止硬體故障造成的數據丟失。

(3)將集群中任意一個節點上的請求路由到相應數據所在的節點。

(4)無論是增加節點,還是移除節點,分片都可以做到無縫的擴展和遷移。

  • 索引(Index)

Elastic Search使用倒排索引(Inverted Index)來做快速的全文搜索(不同於一般資料庫的索引,用B-Tree來實現)。具體倒排索引原理,可能需要單獨的一篇博客來說明

  • 分詞(analysis)

分析(analysis)是這樣一個過程:

(1)首先,表徵化一個文本塊為適用於倒排索引單獨的詞(term)

(2)然後標準化這些詞為標準形式,提高它們的“可搜索性”或“查全率”

 

這個工作是分析器(analyzer)完成的。一個分析器(analyzer)包含如下三個功能:

  (1)字元過濾器

  首先字元串經過字元過濾器(character filter),它們的工作是在表徵化(譯者註:這個詞叫做斷詞更合適)前處理字元串。 字元過濾器能夠去除HTML標記,或者轉換 "&" 為 "and" 。

  (2)分詞器

  下一步,分詞器(tokenizer)被表徵化(斷詞)為獨立的詞。一個簡單的分詞器(tokenizer)可以根據空格或逗號將單詞分開 (譯者註:這個在中文中不適用)。

  (3)表徵過濾

  最後,每個詞都通過所有表徵過濾(token filters),它可以修改詞(例如將 "Quick" 轉為小寫),去掉詞(例如停用詞 像 "a" 、 "and"``"the" 等等),或者增加詞(例如同義詞像 "jump" 和 "leap" )

 

  • 欄位共用

ES本質上和關係型資料庫還是有差別,並不能和DB的各個概念完全對應。預設同名的Fields在整個Indices共用,因此你不能在Type里定義同名的多個Filelds,導致刪除數據只能整個索引一起刪除,而不能單單刪除一個Type


 

  • 基礎知識
  1. 文檔

Elastic search是面向文檔的,文檔歸屬於一種類型(type),而這些type存在(索引)index里。傳統關係資料庫和ES的簡單對比如下圖(6.0版本後預設支持single type,涉及欄位共用的優化):

Relational DB Databases Tables Rows Columns
ElasticSearch Indices Types Documents Fields

    2.檢索文檔

支持HTTP的GET、PUT、HEAD、DELETE(由於欄位共用等原因,ES目前不支持刪除表,只能整個索引一起刪除)、POST操作如下圖(故可直接用postman、SoapUI、Chrome插件ElasticSearch Head 等工具發http請求來查詢文檔):

ES提供豐富靈活的查詢語句(另外Elasticsearch-sql插件可以自動將sql語句翻譯為DSL)——Query DSL(基本的語法有filter,bool—包括should【類似於Or】、must【類似於and】, term—精確匹配, match,range,exists,missing等),有了它構建複雜、強大的查詢都不事兒,如下圖(用postman,查詢 age > 30 last_name = "smith"):

    3. 欄位數據類型

 官方文檔:Mapping types (Mapping——映射,相當於關係資料庫的表結構定義)

  •  核心數據類型 (只列工作中常用的):

 

Data Types  Values
String  text, keyword
數值類型(Numberic dataTypes) long, integer, short, byte, double, float
日期類型 date
布爾類型 boolean
範圍類型 integer_range, float_range, long_range, double_range, date_range
二進位類型 binary
  • 複雜數據類型
Data Types Values
數組類型 不需要特殊的數據類型支持
Object type  object — 代表單個json
嵌套類型 nested — 代表一組json

 

  • 地理相關的數據類型
Data Types Values
坐標點類型 geo_point用來表徵經緯度
地理圖形類型 geo_shape用來表徵複雜的形狀,如多邊形

 

  • 專門的數據類型
Data Types Values
IP類型 ip — 用於IPv4和IPv6(項目中高頻使用)
token數量類型 token_count — 統計字元串中token的數量

 

  • 尾聲

(1)ES不支持Join,但支持aggregations,類似於SQL的group by

(2)通過Merge segments可以提高查詢速度,最後Merge成的Segments個數越小,查詢時間提高的越快。Merge segments過程比較耗費磁碟和CPU,所以建議凌晨執行該操作

(3)ES支持將各種資料庫的數據導入,主要通過logstash;ES之間的數據拷貝,可以用elasticdump


 致敬 Doug Cutting (Lucene、Nutch 、Hadoop之父)

談到成功,Cutting認為他的成功主要歸功於兩點:

  • 對自己工作的熱情(Cutting在大學時就開始做Infrastracture類的程式,還用 Lisp為Emacs貢獻過代碼,他非常喜歡自己的程式被千萬人使用的感覺)
  • 目標不要定得過大,要踏踏實實,一步一個腳印

附:

1)  官網guide 及對應中文版 — Elasticsearch: 權威指南(pdf下載)

2)  Elasticsearch6.4.0-windows環境部署安裝

3)  Linkin of Doug Cutting

4)  Hadoop 十歲生日時 Doug Cutting的講話

5)  Kibana(一張圖片勝過千萬行日誌)

 

*******************************************************************************

精力有限,想法太多,專註做好一件事就行

  • 我只是一個程式猿。5年內把代碼寫好,技術博客字字推敲,堅持零拷貝和原創
  • 寫博客的意義在於打磨文筆,訓練邏輯條理性,加深對知識的系統性理解;如果恰好又對別人有點幫助,那真是一件令人開心的事

*******************************************************************************


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 資料庫 多個集合可以組成資料庫。一個MongoDB實例可以承載多個資料庫,他們之間完全獨立。 MongoDB中的資料庫和MySQL中的資料庫概念類似,只是無需創建。 一個資料庫中可以有多個集合,一個集合中可以有多個文檔。 集合 集合就是一組文檔,多個文檔組成一個集合,集合類似於MySQL裡面的表。 ...
  • 基本簡介 MongoDB是一個介於關係資料庫和非關係資料庫之間的產品,是非關係資料庫當中功能最豐富,最像關係資料庫的,語法有點類型javascript面向對象的查詢語言,它是一個買你想幾核的,模式自由的文檔型資料庫。實現類似關係資料庫單表查詢的絕大部門功能,而且還支持對資料庫建立素偶姻。它的特點是高 ...
  • -- 危險操作,處理前記得先備份資料庫 1 declare @sql varchar(500),@tbname varchar(100) 2 begin 3 4 -- 創建游標 5 declare cursor_item cursor fast_forward for select [name] f ...
  • 當我們剛開始接觸一些已經成型的項目時,不複雜還好,複雜的話,比如說ERP項目,其中業務邏輯複雜可能會各種存儲過程之間來回調用,我們可以用 --查詢哪裡調用該表或存儲過程 select distinct object_name(id) from syscomments where id in (sel ...
  • 想把mlsql卸載了重裝,看了許多文章試了很多方法都沒辦法完全卸載,直到看到了這篇文章, 可以完全卸載mysql,在這裡謝謝博主,也拿出來分享給大家 原文鏈接:https://blog.csdn.net/qq_41140741/article/details/81489531 快捷鍵win+r輸入r ...
  • 這三個對象都可以實現自增,這裡從如下幾個維度來看看這幾個對象有哪些不同,其中功能性上看,大部分特性都是一致的或者類似的。 1,sequence在所有資料庫中的性質都一樣,它是跟具體的欄位不是強綁定的,其特點是支持多個對個對象之間共用。 sequence作為自增欄位值的時候,對錶的寫入需要另外單獨授權 ...
  • 1 #變數 2 /* 3 系統變數: 4 全局變數 5 會話變數 6 7 自定義變數: 8 用戶變數 9 局部變數 10 11 */ 12 #一、系統變數 13 /* 14 說明:變數由系統定義,不是用戶定義,屬於伺服器層面 15 註意:全局變數需要添加global關鍵字,會話變數需要添加sessi ...
  • 1 #視圖 2 /* 3 含義:虛擬表,和普通表一樣使用 4 mysql5.1版本出現的新特性,是通過表動態生成的數據 5 6 比如:舞蹈班和普通班級的對比 7 創建語法的關鍵字 是否實際占用物理空間 使用 8 9 視圖 create view 只是保存了sql邏輯 增刪改查,只是一般不能增刪改 1 ...
一周排行
    -Advertisement-
    Play Games
  • GoF之工廠模式 @目錄GoF之工廠模式每博一文案1. 簡單說明“23種設計模式”1.2 介紹工廠模式的三種形態1.3 簡單工廠模式(靜態工廠模式)1.3.1 簡單工廠模式的優缺點:1.4 工廠方法模式1.4.1 工廠方法模式的優缺點:1.5 抽象工廠模式1.6 抽象工廠模式的優缺點:2. 總結:3 ...
  • 新改進提供的Taurus Rpc 功能,可以簡化微服務間的調用,同時可以不用再手動輸出模塊名稱,或調用路徑,包括負載均衡,這一切,由框架實現並提供了。新的Taurus Rpc 功能,將使得服務間的調用,更加輕鬆、簡約、高效。 ...
  • 本章將和大家分享ES的數據同步方案和ES集群相關知識。廢話不多說,下麵我們直接進入主題。 一、ES數據同步 1、數據同步問題 Elasticsearch中的酒店數據來自於mysql資料庫,因此mysql數據發生改變時,Elasticsearch也必須跟著改變,這個就是Elasticsearch與my ...
  • 引言 在我們之前的文章中介紹過使用Bogus生成模擬測試數據,今天來講解一下功能更加強大自動生成測試數據的工具的庫"AutoFixture"。 什麼是AutoFixture? AutoFixture 是一個針對 .NET 的開源庫,旨在最大程度地減少單元測試中的“安排(Arrange)”階段,以提高 ...
  • 經過前面幾個部分學習,相信學過的同學已經能夠掌握 .NET Emit 這種中間語言,並能使得它來編寫一些應用,以提高程式的性能。隨著 IL 指令篇的結束,本系列也已經接近尾聲,在這接近結束的最後,會提供幾個可供直接使用的示例,以供大伙分析或使用在項目中。 ...
  • 當從不同來源導入Excel數據時,可能存在重覆的記錄。為了確保數據的準確性,通常需要刪除這些重覆的行。手動查找並刪除可能會非常耗費時間,而通過編程腳本則可以實現在短時間內處理大量數據。本文將提供一個使用C# 快速查找並刪除Excel重覆項的免費解決方案。 以下是實現步驟: 1. 首先安裝免費.NET ...
  • C++ 異常處理 C++ 異常處理機制允許程式在運行時處理錯誤或意外情況。它提供了捕獲和處理錯誤的一種結構化方式,使程式更加健壯和可靠。 異常處理的基本概念: 異常: 程式在運行時發生的錯誤或意外情況。 拋出異常: 使用 throw 關鍵字將異常傳遞給調用堆棧。 捕獲異常: 使用 try-catch ...
  • 優秀且經驗豐富的Java開發人員的特征之一是對API的廣泛瞭解,包括JDK和第三方庫。 我花了很多時間來學習API,尤其是在閱讀了Effective Java 3rd Edition之後 ,Joshua Bloch建議在Java 3rd Edition中使用現有的API進行開發,而不是為常見的東西編 ...
  • 框架 · 使用laravel框架,原因:tp的框架路由和orm沒有laravel好用 · 使用強制路由,方便介面多時,分多版本,分文件夾等操作 介面 · 介面開發註意欄位類型,欄位是int,查詢成功失敗都要返回int(對接java等強類型語言方便) · 查詢介面用GET、其他用POST 代碼 · 所 ...
  • 正文 下午找企業的人去鎮上做貸後。 車上聽同事跟那個司機對罵,火星子都快出來了。司機跟那同事更熟一些,連我在內一共就三個人,同事那一手指桑罵槐給我都聽愣了。司機也是老社會人了,馬上聽出來了,為那個無辜的企業經辦人辯護,實際上是為自己辯護。 “這個事情你不能怪企業。”“但他們總不能讓銀行的人全權負責, ...