2016-04-25-信息系統實踐手記5-CACHE設計一例

来源:https://www.cnblogs.com/taichu/archive/2018/04/17/8865853.html
-Advertisement-
Play Games

layout: post title: 2016 04 25 信息系統實踐手記5 CACHE設計一例 key: 20160425 tags: 業務 場景 CACHE 系統分析 系統設計 緩存 modify_date: 2016 04 25 信息系統實踐手記5 CACHE設計一例 說明: 本文發佈於: ...



layout: post
title: 2016-04-25-信息系統實踐手記5-CACHE設計一例
key: 20160425
tags: 業務 場景 CACHE 系統分析 系統設計 緩存
modify_date: 2016-04-25
---

信息系統實踐手記5-CACHE設計一例

說明:

正文:

  • 信息系統實踐手記系列是系筆者在平時研發中先後遇到的大小的問題,其中比較典型的內容加以收集和分享。
  • 信息系統實踐手記目錄:博客園(或查看源碼的README.MD文件)

摘要:

  • 此文描述了對CACHE緩存的一些理解。

正文

1.CACHE是啥?

最近一直在瞭解scala,Spark,Python,數據挖掘,以及複雜科學的一些內容,在充實和忙碌之餘,雖興趣濃厚,但體力不支,疲勞的很,無奈耽擱了實踐手記。
原本計劃2周掛出一篇來分享,實在抱歉。要分享的東西太多,碼字太費時間,有時候甚至覺得開會也許更好(很多人反感開會,那是因為沒開過高效的會)!其實很多東西主要還是考自己去走,去體會。
閑話不說,切入正題。
很多研發人員,尤其是開發程式的同志,找到一個cache框架或類庫可用,比如hibernate的cache功能,然後就一股腦用上去。雖然會有效果,很愉悅,是好事,既增加經驗,也體會了框架的魅力和效率,
但其實還有東西可以進一步去領會。究竟為啥要用CACHE?CACHE是啥?什麼樣的場景用什麼樣的CACHE?很少有人問。
那CACHE到底是啥呢?還真難於表述清晰,但有一些要點:
  • CACHE的產生是為了緩解處理鏈上不同節點之間速度不協調的情況。舉例若幹:
  • 電腦系統:一般有速度梯度:CPU內部寄存器(register)IO>記憶體IO>磁碟IO>網路IO,為協調它們之間傳遞數據的速度差,就可設置緩存結構,叫CACHE;
    • 說明1:以上說的是一般情況,不考慮特別的磁陣RAID,高速SCSI,千兆或萬兆網路等;
    • 說明2:CPU內部也分L1,L2,L3等多級寄存器結構,當做多級CACHE使用,早先的386/486處理器沒分那麼多層次;
  • 地鐵系統:有時候出事故,人特多,站內站外由管理員把守入口分批放人到1層大廳,則1層大廳是一個CACHE;管理員分批從大廳放人到B1層站臺,則B1站臺也是一個CACHE;當CACHE快撐滿的時候,管理員就會喊“慢慢來,不要擠,暫時關閉,大家耐心等待!”,於是人就被囤積在不同的CACHE里,以便協調地鐵運量和人流涌入的速度差問題。
  • 工廠流水線:另一個典型例子是工廠的流水線。以前老式流水線每個工位站1個人,處理1個裝配動作,比如給黃小鴨玩具裝上1條腿。一個工件,如果流經10個處理節點,那就會有10個人來處理10個步驟。顯然,老闆期望流水線一直處於充滿狀態,則最高效的源源不斷有產出。但意外總會發生,比如某工件N流轉到Px節點,Px節點的工人很累,處理較慢,導致Px-1步驟流出的工件不斷堆積,而這個Px處理節點處理台的工件堆積場所,就是一個BUFFER緩存區(也就是CACHE),它越來越滿,就提醒Px的工人,加緊乾,否則一旦CACHE撐爆,就無法剋服(追上)速度差(時間差)的問題!(畫外音:可以看出流水線機制的高效和科學,以及“殘酷”)。
  • 生產者消費者模式:經典的程式設計模式“生產者和消費者”模型也有一個CACHE的設計,就是協調生產和消費的速度差,類似“工廠流水線”

  • CACHE實際上是用空間上的代價來緩解時間上的不協調。
  • 你肯定要問“既然速度有差異,那CACHE再大也沒用?”,的確,再大的CACHE也是用來臨時剋服速度差異的,它期望可以用空間暫時的堆積追回偶發導致的時間不協調(速度差是絕對的,這個在設計場景之前就知道,但速度不協調是偶發的,這個要區別開!)。如果永遠無法“追回來”,那麼再大的CACHE也會有問題,那麼就是設計上的問題,就不是CACHE機制可以解決的。
  • 處理節點Px往往速度不同,所以必須用不同演算法來安排。比如:
    • 通過編譯器編譯的源碼,會根據OS的不同及其記憶體頁面調度演算法,互相結合,處理好代碼的擺放,並充分考慮到CPU/MEM/DISK/NETWORK的差異;保持MEM代碼段高命中,降低頁丟失中斷,等等。
    • 程式本身也應該充分利用諸如“多線程”,“併發計算”,“分散式計算”等方法,來從巨集觀的演算法層面,解決掉速度差異,從而適當的利用CACHE來防止偶發的速度不協調,而不是演算法本身有永久性的硬傷“速度不匹配”。可以適當的使用一些主流成熟前三名的框架來解決實際問題。
    • 程式終究是要達成業務需要的,也就是完成功能目標(Feature)。而功能和業務本身是有特點的,有時空特性的,是高併發業務?還是隨機業務?業務的時空特性如何?是否和上下班高峰有關? 是否和網站的維護周期有關?是否和購物的時間段有關?總之從業務觸發,需要專業的領域知識(行業支持),並且需要深厚的技術功底,這樣的從場景出發的系統分析和系統設計行為,是何其重要!這方面的人才非常緊缺。
  • CACHE所處理的時空不協調,可能是偶發的,也可能是來自於業務模型;
  • 通過上述的不同層次(編譯器,OS,程式,框架類庫,業務場景分析)的討論,基本上能妥善的處理業務,達成場景,使用必要的CACHE結構。但業務模型總是會偶發時空不一致,尤其是在當今多任務的電腦架構(以前主機時代只有大型機是多進程的,現在微機也是多任務並細化到線程)。很容易計算力不夠需要增加更多CPU的core,數據量大沒地方放,就增加MEM,MEM增加後也會導致低速的磁碟IO和網路IO也變大。
  • 另外在對業務模型不斷調優和擴容的過程中,不協調也會自然產生的,而如果程式模型比較優秀,相關必要的地方本來就有CACHE,那麼CACHE將為程式運作提供餘地。
  • 即便是簡單的業務模型,而且調優完成,且一直正常運作。但也可能因為“網路故障,CPU失效,記憶體或磁碟損壞,某個計算節點離線”等問題而打破平衡。這時候,甚至連寫LOG日誌來記錄狀態也顯得很奢侈或捉襟見肘。此時,如果程式在框架設計上已經未雨綢繆的安排了充分和必要的CACHE,則完全可以提升健壯性,甚至在偶發災難衝擊中堅強運行,恢復運作。

  • 客觀世界和程式世界都是複雜的,而複雜系統經常引發意外和不協調,CACHE則應運而生:
  • CPU裡面的微指令集中用到了L1,L2,L3,它們就是各級CACHE;
  • MEM,DISK,網卡等設備,無論在硬體的介面驅動程式BIOS中,還是在程式員編製的應用程式中,都安排了CACHE,來處理設備受到外界速度不匹配的衝擊。
  • 程式設計中很多模式,比如消費者生產者,就必然有CACHE存在,以緩解生產和消費的速度不匹配;
  • 真實世界的倉庫存貨,小超市囤貨,高架路上的緊急停車帶,上下岔道區域,展覽會門口的回形排隊護欄,流水線的每個節點的BUFFER緩衝帶等等,都是CACHE的好例子;

只有理解了自然現象,業務規律和程式能力邊界,才能深入體會如何在程式設計中,在什麼樣的業務場景下使用怎樣的CACHE設計,以便到達好處和結果。不建議只為了技術用技術,必須明確使用的目的為何,才能正確的使用。

2.CACHE設計一例

這裡簡單舉一個例子,還是前幾篇分享的客戶端和伺服器,它們是提供GIS地圖服務的伺服器和客戶端;而這個提供GIS業務的伺服器就用到很多CACHE; 撇開客戶端業務展現不說,很多後臺服務是由做GIS業務的應用SERVER提供,簡稱為GS,而GS需要從設備管理平臺,簡稱DS獲取設備信息;

  • 因為DS不提供設備信息的訂閱(很遺憾),則無法使用高效的觀察者模式來獲取設備變更信息,而只能由GS通過階段同步(輪詢模型)來花巨大的代價向DS獲取其實很少變化的設備更新信息。為了階段同步,GS只能在記憶體(或DB)做了一個CACHE,來存放比如每30分鐘的同步信息;
  • 最先是X分鐘同步,按照經典做法,同步數據放在DB。但為提升速度,解決業務場景的高速要求和DB處理的慢速情況,將DB的數據“上提”到記憶體的CACHE中,以後做業務直接查CACHE,處理CACHE;這裡就自然的引發了一個問題,CACHE的臟數據需要同步回到DB,因為數據存在於兩個地方,一個CACHE是臨時的,一個DB是持久化的,那麼它們之間也有同步問題,這是使用CACHE經常要面臨的情況。其實最後因為原來程式框架做的不佳,導致了批量修改完成後,還遺留了不少小尾巴,只能case by case的修複,不細說。
  • 我們GS平臺,還和第三方,比如一個城市的路口卡口管理平臺(簡稱KS)對接,上次講過平臺對接問題了,這裡假設順利對接。那麼KS的數據,也會階段性的同步到我們GS來。一個典型的應用是GS向KS訂閱了一種“告警A”,當KS發生事件A而發出“告警A”時,將會推送到GS平臺,那麼GS平臺分發給客戶端。這裡顯然有速度的不協調,如果告警頻繁,GS一時處理不過來,那麼就要CACHE,怎麼弄?也可以不用自己寫代碼,我們GS和GS的客戶端是通過ActiveMQ的消息中間件來傳遞消息。訂閱之後,不同主題的消息和用戶就會有自己的BUFFER來存放,即便KS平臺突發大量告警A到GS,GS來不及分發,那就放入MQ自己管理的緩存隊列,MQ自己處理。當然這裡我們看到了上面討論過的CACHE的幾個問題:
  • 如果KS平臺的“告警A”一直高頻持續發送,那麼最終GS接收代碼來不急放入MQ,或者來得及放入MQ,但MQ終將崩潰。所以這裡就遇到了前幾篇提到的平臺對接中,對兩個有交互的平臺之間的信令和數據的“時空特性”一定要定義清晰,比如我們GS和KS就定義了最高併發不能超過1秒10條(10CAPS),否則GS拒絕而不是通過CACHE儘量容納和處理。萬事都有限度,討論清楚就行!
  • 這裡還有一個隱蔽問題,大家不知道看出來沒有。這裡假設我GS的JAVA接收代碼,從網路socket套接字獲取的批量位元組流,速度極快,放入MQ幾乎不花時間。如果沒有這個假設,而且放入速度的確很慢,那麼MQ不會最終“爆炸”,首先奔潰的及時GS的接收代碼片段。這個判斷,一般是根據程式員的經驗和業界的經驗來確定的。它總是非常快,放入message,一般總是比消費處理message快不少。
  • CACHE也能存在於高層次和高抽象級別的。比如當前的hibernate庫支持對象到DATA MODEL的映射,而業務是針對對象,不是直接赤裸的和數據交互的。針對對象的操作比如func1()也是可以CACHE緩存的,以便第二次同樣的調用func1()的時候,極大的提升速度和效率。 這裡當然也會看到一個臟數據和失效的問題,不再討論。

END


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 屬性繼承:可以與不可以的元素有哪些: https://www.cnblogs.com/thislbq/p/5882105.html 可以繼承的 1文本相關屬性 2列表相關屬性3color屬性 任何一條與css繼承值衝突的屬性值都會覆蓋繼承的屬性值 盒子模型:position四種屬性值 display ...
  • Chrome瀏覽器目前是網路上可用的最好的瀏覽器之一,並且自2011年11月超越了Firefox瀏覽器之後,已經成為了互聯網上占主導地位的瀏覽器。 本篇文章將與大家分享一些與前端開發有關的實用的Chrome瀏覽器插件,這些插件可以幫助你提高前端開發工作效率。 Allow Control Allow ...
  • 設置Cookie過期的兩種方式: $.cookie('名', '值', { expires: 過期時間(DateTime), path: "/", domain: window.DomainName }); $.cookie('名', '值', { expires: 過期天數(Int), path... ...
  • 模塊application已經完結,開始講Router路由部分。 切入口仍然在application模塊中,方法就是那個隨處可見的lazyrouter。 基本上除了初始化init方法,其餘的app.use、app.route、app.param等等,所有涉及到路由的方法都會調用一次這個函數,用來初始 ...
  • 1. 元素水平居中 1.1 設置父元素的屬性 說明:此屬性只針對父元素的子元素為內聯元素時有效,比如:img,input,select,button等(行內元素,但表現上屬於內聯元素,可以設置寬度和高度),span需要將display屬性設置為內聯,並設置寬度和高度。 參考:MDN內聯元素 1.2 ...
  • iframe 這個東西功能是很強大,但是有一個巨大的問題就是高度自適應的問題; 不過這個問題,百度或者谷歌上有很多解決辦法,但是,很多時候都有相容性問題; 所有我就每個方法都試了一遍,終於找到了一個 感覺很牛的樣子,不需要用到js 就可以讓iframe 里的內容覆蓋整個頁面,感覺很舒服。哈哈哈 這樣 ...
  • 在config中註入$sceDelegateProvider服務使用resourceUrlWhitelist([])方法添加白名單 跨域時將method的屬性設置為"jsonp"就可以訪問了 參考:https://blog.csdn.net/qq_20343517/article/details/7 ...
  • layout: post title: 2016 04 25 信息系統實踐手記6 JS調用Flex的性能問題一例 key: 20160425 tags: GIS JS FLEX 技術選型 性能 API 調用 modify_date: 2016 04 25 信息系統實踐手記6 JS調用Flex的性能問 ...
一周排行
    -Advertisement-
    Play Games
  • GoF之工廠模式 @目錄GoF之工廠模式每博一文案1. 簡單說明“23種設計模式”1.2 介紹工廠模式的三種形態1.3 簡單工廠模式(靜態工廠模式)1.3.1 簡單工廠模式的優缺點:1.4 工廠方法模式1.4.1 工廠方法模式的優缺點:1.5 抽象工廠模式1.6 抽象工廠模式的優缺點:2. 總結:3 ...
  • 新改進提供的Taurus Rpc 功能,可以簡化微服務間的調用,同時可以不用再手動輸出模塊名稱,或調用路徑,包括負載均衡,這一切,由框架實現並提供了。新的Taurus Rpc 功能,將使得服務間的調用,更加輕鬆、簡約、高效。 ...
  • 本章將和大家分享ES的數據同步方案和ES集群相關知識。廢話不多說,下麵我們直接進入主題。 一、ES數據同步 1、數據同步問題 Elasticsearch中的酒店數據來自於mysql資料庫,因此mysql數據發生改變時,Elasticsearch也必須跟著改變,這個就是Elasticsearch與my ...
  • 引言 在我們之前的文章中介紹過使用Bogus生成模擬測試數據,今天來講解一下功能更加強大自動生成測試數據的工具的庫"AutoFixture"。 什麼是AutoFixture? AutoFixture 是一個針對 .NET 的開源庫,旨在最大程度地減少單元測試中的“安排(Arrange)”階段,以提高 ...
  • 經過前面幾個部分學習,相信學過的同學已經能夠掌握 .NET Emit 這種中間語言,並能使得它來編寫一些應用,以提高程式的性能。隨著 IL 指令篇的結束,本系列也已經接近尾聲,在這接近結束的最後,會提供幾個可供直接使用的示例,以供大伙分析或使用在項目中。 ...
  • 當從不同來源導入Excel數據時,可能存在重覆的記錄。為了確保數據的準確性,通常需要刪除這些重覆的行。手動查找並刪除可能會非常耗費時間,而通過編程腳本則可以實現在短時間內處理大量數據。本文將提供一個使用C# 快速查找並刪除Excel重覆項的免費解決方案。 以下是實現步驟: 1. 首先安裝免費.NET ...
  • C++ 異常處理 C++ 異常處理機制允許程式在運行時處理錯誤或意外情況。它提供了捕獲和處理錯誤的一種結構化方式,使程式更加健壯和可靠。 異常處理的基本概念: 異常: 程式在運行時發生的錯誤或意外情況。 拋出異常: 使用 throw 關鍵字將異常傳遞給調用堆棧。 捕獲異常: 使用 try-catch ...
  • 優秀且經驗豐富的Java開發人員的特征之一是對API的廣泛瞭解,包括JDK和第三方庫。 我花了很多時間來學習API,尤其是在閱讀了Effective Java 3rd Edition之後 ,Joshua Bloch建議在Java 3rd Edition中使用現有的API進行開發,而不是為常見的東西編 ...
  • 框架 · 使用laravel框架,原因:tp的框架路由和orm沒有laravel好用 · 使用強制路由,方便介面多時,分多版本,分文件夾等操作 介面 · 介面開發註意欄位類型,欄位是int,查詢成功失敗都要返回int(對接java等強類型語言方便) · 查詢介面用GET、其他用POST 代碼 · 所 ...
  • 正文 下午找企業的人去鎮上做貸後。 車上聽同事跟那個司機對罵,火星子都快出來了。司機跟那同事更熟一些,連我在內一共就三個人,同事那一手指桑罵槐給我都聽愣了。司機也是老社會人了,馬上聽出來了,為那個無辜的企業經辦人辯護,實際上是為自己辯護。 “這個事情你不能怪企業。”“但他們總不能讓銀行的人全權負責, ...