<p id="vtxx7"><del id="vtxx7"></del></p>
    <pre id="vtxx7"><cite id="vtxx7"></cite></pre> <pre id="vtxx7"><del id="vtxx7"><thead id="vtxx7"></thead></del></pre>
      <track id="vtxx7"><ruby id="vtxx7"></ruby></track>

        <p id="vtxx7"><del id="vtxx7"></del></p>
        <noframes id="vtxx7"><ruby id="vtxx7"></ruby>

          行業動態
          上海興巖信息科技有限公司
          行業動態
          Cluster集群能支撐的數據有多大?
          發布時間:2022-05-13 16:52:13
            |  
          閱讀量:376
          字號:
          A+ A- A

          本文將對集群的節點、槽指派、命令執行、重新分片、轉向、故障轉移、消息等各個方面進行深入拆解。

          目的在于掌握什么是 Cluster ?Cluster 分片原理,客戶端定位數據原理、故障切換,選主,什么場景使用 Cluster,如何部署集群 …...

          • 將數據分成多份存在不同實例上
          • 哈希槽與 Redis 實例映射
          • 復制與故障轉移
            • 故障檢測
            • 故障轉移
            • 選主流程
          • 用表保存鍵值對和實例的關聯關系可行么
          • 重新分配哈希槽
            • MOVED 錯誤
            • ASK 錯誤
          • Gossip 消息
          • 實例的通信頻率
            • 降低實例間的通信開銷


          為什么需要 Cluster

          65 哥:碼哥,自從用上了你說的哨兵集群實現故障自動轉移后,我終于可以開心的跟女朋友么么噠也不怕 Redis 宕機深夜宕機了。
          可是最近遇到一個糟心的問題,Redis 需要保存 800 萬個鍵值對,占用 20 GB 的內存。
          我就使用了一臺 32G 的內存主機部署,但是 Redis 響應有時候非常慢,使用 INFO 命令查看 latest_fork_usec 指標(最近一次 fork 耗時),發現特別高。

          主要是 Redis RDB 持久化機制導致的,Redis 會 Fork 子進程完成 RDB 持久化操作,fork 執行的耗時與 Redis 數據量成正相關。
          而 Fork 執行的時候會阻塞主線程,由于數據量過大導致阻塞主線程過長,所以出現了 Redis 響應慢的表象。

          65 哥:隨著業務規模的拓展,數據量越來越大。主從架構升級單個實例硬件難以拓展,且保存大數據量會導致響應慢問題,有什么辦法可以解決么?

          保存大量數據,除了使用大內存主機的方式,我們還可以使用切片集群。俗話說「眾人拾材火焰高」,一臺機器無法保存所有數據,那就多臺分擔。

          使用 Redis Cluster 集群,主要解決了大數據量存儲導致的各種慢問題,同時也便于橫向拓展。

          兩種方案對應著 Redis 數據增多的兩種拓展方案:垂直擴展(scale up)、水平擴展(scale out)。

          1. 垂直拓展:升級單個 Redis 的硬件配置,比如增加內存容量、磁盤容量、使用更強大的 CPU。

          2. 水平拓展:橫向增加 Redis 實例個數,每個節點負責一部分數據。

          水平拓展與垂直拓展

          在面向百萬、千萬級別的用戶規模時,橫向擴展的 Redis 切片集群會是一個非常好的選擇。

          65 哥:那這兩種方案都有什么優缺點呢?

          • 垂直拓展部署簡單,但是當數據量大并且使用 RDB 實現持久化,會造成阻塞導致響應慢。另外受限于硬件和成本,拓展內存的成本太大,比如拓展到 1T 內存。
          • 水平拓展便于拓展,同時不需要擔心單個實例的硬件和成本的限制。但是,切片集群會涉及多個實例的分布式管理問題,需要解決如何將數據合理分布到不同實例,同時還要讓客戶端能正確訪問到實例上的數據。

          什么是 Cluster 集群

          Redis 集群是一種分布式數據庫方案,集群通過分片(sharding)來進行數據管理(「分治思想」的一種實踐),并提供復制和故障轉移功能。

          將數據劃分為 16384 的 slots,每個節點負責一部分槽位。槽位的信息存儲于每個節點中。

          它是去中心化的,如圖所示,該集群有三個 Redis 節點組成,每個節點負責整個集群的一部分數據,每個節點負責的數據多少可能不一樣。

          Redis 集群架構

          三個節點相互連接組成一個對等的集群,它們之間通過Gossip協議相互交互集群信息,最后每個節點都保存著其他節點的 slots 分配情況。

          集群安裝

          一個 Redis 集群通常由多個節點(node)組成,在剛開始的時候,每個節點都是相互獨立的,它們都處于一個只包含自己的集群當中,要組建一個真正可工作的集群,我們必須將各個獨立的節點連接起來,構成一個包含多個節點的集群。

          連接各個節點的工作可以通過 CLUSTER MEET 命令完成:CLUSTER MEET <ip> <port> 。
          向一個節點 node 發送 CLUSTER MEET 命令,可以讓 node 節點與 ip 和 port 所指定的節點進行握手(handshake),當握手成功時,node 節點就會將 ip 和 port 所指定的節點添加到 node 節點當前所在的集群中。

          CLUSTER MEET


          Cluster 實現原理

          65 哥:數據切片后,需要將數據分布在不同實例上,數據和實例之間如何對應上呢?

          Redis 3.0 開始,官方提供了 Redis Cluster 方案實現了切片集群,該方案就實現了數據和實例的規則。Redis Cluster 方案采用哈希槽(Hash Slot,接下來我會直接稱之為 Slot),來處理數據和實例之間的映射關系。

          將數據分成多份存在不同實例上

          集群的整個數據庫被分為 16384 個槽(slot),數據庫中的每個鍵都屬于這 16384 個槽的其中一個,集群中的每個節點可以處理 0 個或最多 16384 個槽。

          Key 與哈希槽映射過程可以分為兩大步驟:

          1. 根據鍵值對的 key,使用 CRC16 算法,計算出一個 16 bit 的值;

          2. 將 16 bit 的值對 16384 執行取模,得到 0 ~ 16383 的數表示 key 對應的哈希槽。

          Cluster 還允許用戶強制某個 key 掛在特定槽位上,通過在 key 字符串里面嵌入 tag 標記,這就可以強制 key 所掛在的槽位等于 tag 所在的槽位。

          哈希槽與 Redis 實例映射

          65 哥:哈希槽又是如何映射到 Redis 實例上呢?

          在 部署集群的樣例中通過 cluster create 創建,Redis 會自動將 16384 個 哈希槽平均分布在集群實例上,比如 N 個節點,每個節點上的哈希槽數 = 16384 / N 個。

          除此之外,可以通過 CLUSTER MEET 命令將 7000、7001、7002 三個節點連在一個集群,但是集群目前依然處于下線狀態,因為三個實例都沒有處理任何哈希槽。

          可以使用 cluster addslots 命令,指定每個實例上的哈希槽個數。

          65 哥:為啥要手動制定呢?

          能者多勞嘛,加入集群中的 Redis 實例配置不一樣,如果承擔一樣的壓力,對于垃圾機器來說就太難了,讓牛逼的機器多支持一點。

          三個實例的集群,通過下面的指令為每個實例分配哈希槽:實例 1負責 0 ~ 5460 哈希槽,實例 2 負責 5461~10922 哈希槽,實例 3 負責 10923 ~ 16383 哈希槽。

          redis-cli -h 172.16.19.1 –p 6379 cluster addslots 0,5460
          redis-cli -h 172.16.19.2 –p 6379 cluster addslots 5461,10922
          redis-cli -h 172.16.19.3 –p 6379 cluster addslots 10923,16383

          鍵值對數據、哈希槽、Redis 實例之間的映射關系如下:

          數據、Slot與實例的映射

          Redis 鍵值對的 key 「碼哥字節」「牛逼」經過 CRC16 計算后再對哈希槽總個數 16384 取模,模數結果分別映射到實例 1 與實例 3 上。
          切記,當 16384 個槽都分配完全,Redis 集群才能正常工作。

          復制與故障轉移

          65 哥:Redis 集群如何實現高可用呢?Master 與 Slave 還是讀寫分離么?

          Master 用于處理槽,Slave 節點則通過《Redis 主從架構數據同步》方式同步主節點數據。

          當 Master 下線,Slave 代替主節點繼續處理請求。主從節點之間并沒有讀寫分離, Slave 只用作 Master 宕機的高可用備份。

          Redis Cluster 可以為每個主節點設置若干個從節點,單主節點故障時,集群會自動將其中某個從節點提升為主節點。

          如果某個主節點沒有從節點,那么當它發生故障時,集群將完全處于不可用狀態。

          不過 Redis 也提供了一個參數cluster-require-full-coverage可以允許部分節點故障,其它節點還可以繼續提供對外訪問。

          比如 7000 主節點宕機,作為 slave 的 7003 成為 Master 節點繼續提供服務。當下線的節點 7000 重新上線,它將成為當前 70003 的從節點。

          故障檢測

          65 哥:我知道哨兵通過監控、自動切換主庫、通知客戶端實現故障自動切換,Cluster 又如何實現故障自動轉移呢?

          一個節點認為某個節點失聯了并不代表所有的節點都認為它失聯了。只有當大多數負責處理 slot 節點都認定了某個節點下線了,集群才認為該節點需要進行主從切換。
          Redis 集群節點采用 Gossip 協議來廣播自己的狀態以及自己對整個集群認知的改變。比如一個節點發現某個節點失聯了 (PFail),它會將這條信息向整個集群廣播,其它節點也就可以收到這點失聯信息。
          如果一個節點收到了某個節點失聯的數量 (PFail Count) 已經達到了集群的大多數,就可以標記該節點為確定下線狀態 (Fail),然后向整個集群廣播,強迫其它節點也接收該節點已經下線的事實,并立即對該失聯節點進行主從切換。

          故障轉移

          當一個 Slave 發現自己的主節點進入已下線狀態后,從節點將開始對下線的主節點進行故障轉移。

          1. 從下線的 Master 及節點的 Slave 節點列表選擇一個節點成為新主節點。
          2. 新主節點會撤銷所有對已下線主節點的 slot 指派,并將這些 slots 指派給自己。
          3. 新的主節點向集群廣播一條 PONG 消息,這條 PONG 消息可以讓集群中的其他節點立即知道這個節點已經由從節點變成了主節點,并且這個主節點已經接管了原本由已下線節點負責處理的槽。
          4. 新的主節點開始接收處理槽有關的命令請求,故障轉移完成。

          選主流程

          65 哥:新的主節點如何選舉產生的?

          1. 集群的配置紀元 +1,是一個自曾計數器,初始值 0 ,每次執行故障轉移都會 +1。

          2. 檢測到主節點下線的從節點向集群廣播一條CLUSTERMSG_TYPE_FAILOVER_AUTH_REQUEST消息,要求所有收到這條消息、并且具有投票權的主節點向這個從節點投票。

          3. 這個主節點尚未投票給其他從節點,那么主節點將向要求投票的從節點返回一條CLUSTERMSG_TYPE_FAILOVER_AUTH_ACK消息,表示這個主節點支持從節點成為新的主節點。

          4. 參與選舉的從節點都會接收CLUSTERMSG_TYPE_FAILOVER_AUTH_ACK消息,如果收集到的票 >= (N/2) + 1 支持,那么這個從節點就被選舉為新主節點。

          5. 如果在一個配置紀元里面沒有從節點能收集到足夠多的支持票,那么集群進入一個新的配置紀元,并再次進行選舉,直到選出新的主節點為止。

          跟哨兵類似,兩者都是基于 Raft 算法來實現的,流程如圖所示:

          集群Leader選舉

          用表保存鍵值對和實例的關聯關系可行么

          65 哥,我來考考你:“Redis Cluster 方案通過哈希槽的方式把鍵值對分配到不同的實例上,這個過程需要對鍵值對的 key 做 CRC 計算并對 哈希槽總數取模映射到實例上。如果用一個表直接把鍵值對和實例的對應關系記錄下來(例如鍵值對 1 在實例 2 上,鍵值對 2 在實例 1 上),這樣就不用計算 key 和哈希槽的對應關系了,只用查表就行了,Redis 為什么不這么做呢?”

          使用一個全局表記錄的話,假如鍵值對和實例之間的關系改變(重新分片、實例增減),需要修改表。如果是單線程操作,所有操作都要串行,性能太慢。
          多線程的話,就涉及到加鎖,另外,如果鍵值對數據量非常大,保存鍵值對與實例關系的表數據所需要的存儲空間也會很大。
          而哈希槽計算,雖然也要記錄哈希槽與實例時間的關系,但是哈希槽的數量少得多,只有 16384 個,開銷很小。

          客戶端如何定位數據所在實例

          65 哥:客戶端又怎么確定訪問的數據到底分布在哪個實例上呢?

          Redis 實例會將自己的哈希槽信息通過 Gossip 協議發送給集群中其他的實例,實現了哈希槽分配信息的擴散。
          這樣,集群中的每個實例都有所有哈希槽與實例之間的映射關系信息。
          在切片數據的時候是將 key 通過 CRC16 計算出一個值再對 16384 取模得到對應的 Slot,這個計算任務可以在客戶端上執行發送請求的時候執行。
          但是,定位到槽以后還需要進一步定位到該 Slot 所在 Redis 實例。
          當客戶端連接任何一個實例,實例就將哈希槽與實例的映射關系響應給客戶端,客戶端就會將哈希槽與實例映射信息緩存在本地。
          當客戶端請求時,會計算出鍵所對應的哈希槽,在通過本地緩存的哈希槽實例映射信息定位到數據所在實例上,再將請求發送給對應的實例。

          Redis 客戶端定位數據所在節點

          重新分配哈希槽

          65 哥:哈希槽與實例之間的映射關系由于新增實例或者負載均衡重新分配導致改變了咋辦?

          集群中的實例通過 Gossip 協議互相傳遞消息獲取最新的哈希槽分配信息,但是,客戶端無法感知。
          Redis Cluster 提供了重定向機制:客戶端將請求發送到實例上,這個實例沒有相應的數據,該 Redis 實例會告訴客戶端將請求發送到其他的實例上。

          65 哥:Redis 如何告知客戶端重定向訪問新實例呢?

          分為兩種情況:MOVED 錯誤、ASK 錯誤。

          MOVED 錯誤

          MOVED 錯誤(負載均衡,數據已經遷移到其他實例上):當客戶端將一個鍵值對操作請求發送給某個實例,而這個鍵所在的槽并非由自己負責的時候,該實例會返回一個 MOVED 錯誤指引轉向正在負責該槽的節點。

          GET 公眾號:碼哥字節
          (error) MOVED 16330 172.17.18.2:6379

          該響應表示客戶端請求的鍵值對所在的哈希槽 16330 遷移到了 172.17.18.2 這個實例上,端口是 6379。這樣客戶端就與 172.17.18.2:6379 建立連接,并發送 GET 請求。
          同時,客戶端還會更新本地緩存,將該 slot 與 Redis 實例對應關系更新正確。

          MOVED 指令

          ASK 錯誤

          65 哥:如果某個 slot 的數據比較多,部分遷移到新實例,還有一部分沒有遷移咋辦?

          如果請求的 key 在當前節點找到就直接執行命令,否則時候就需要 ASK 錯誤響應了,槽部分遷移未完成的情況下,如果需要訪問的 key 所在 Slot 正在從從 實例 1 遷移到 實例 2,實例 1 會返回客戶端一條 ASK 報錯信息:客戶端請求的 key 所在的哈希槽正在遷移到實例 2 上,你先給實例 2 發送一個 ASKING 命令,接著發發送操作命令。

          GET 公眾號:碼哥字節
          (error) ASK 16330 172.17.18.2:6379

          比如客戶端請求定位到 key = 「公眾號:碼哥字節」的槽 16330 在實例 172.17.18.1 上,節點 1 如果找得到就直接執行命令,否則響應 ASK 錯誤信息,并指引客戶端轉向正在遷移的目標節點 172.17.18.2。

          ASK 錯誤

          注意:ASK 錯誤指令并不會更新客戶端緩存的哈希槽分配信息。
          所以客戶端再次請求 Slot 16330 的數據,還是會先給 172.17.18.1 實例發送請求,只不過節點會響應 ASK 命令讓客戶端給新實例發送一次請求。
          MOVED指令則更新客戶端本地緩存,讓后續指令都發往新實例。

          集群可以設置多大?

          65 哥:有了 Redis Cluster,再也不怕大數據量了,我可以無限水平拓展么?

          答案是否定的,Redis 官方給的 Redis Cluster 的規模上線是 1000 個實例。

          65 哥:到底是什么限制了集群規模呢?

          關鍵在于實例間的通信開銷,Cluster 集群中的每個實例都保存所有哈希槽與實例對應關系信息(Slot 映射到節點的表),以及自身的狀態信息。
          在集群之間每個實例通過 Gossip協議傳播節點的數據,Gossip 協議工作原理大概如下:

          1. 從集群中隨機選擇一些實例按照一定的頻率發送 PING 消息發送給挑選出來的實例,用于檢測實例狀態以及交換彼此的信息。PING 消息中封裝了發送者自身的狀態信息、部分其他實例的狀態信息、Slot 與實例映射表信息。
          2. 實例接收到 PING 消息后,響應 PONG 消息,消息包含的信息跟 PING 消息一樣。

          集群之間通過 Gossip協議可以在一段時間之后每個實例都能獲取其他所有實例的狀態信息。
          所以在有新節點加入,節點故障,Slot 映射變更都可以通過 PING,PONG 的消息傳播完成集群狀態在每個實例的傳播同步。

          Gossip 消息

          發送的消息結構是 clusterMsgDataGossip結構體組成:

          typedef struct {
              char nodename[CLUSTER_NAMELEN];  //40字節
              uint32_t ping_sent; //4字節
              uint32_t pong_received; //4字節
              char ip[NET_IP_STR_LEN]; //46字節
              uint16_t port;  //2字節
              uint16_t cport;  //2字節
              uint16_t flags;  //2字節
              uint32_t notused1; //4字節
          } clusterMsgDataGossip;

          所以每個實例發送一個 Gossip消息,就需要發送 104 字節。如果集群是 1000 個實例,那么每個實例發送一個 PING 消息則會占用 大約 10KB。
          除此之外,實例間在傳播 Slot 映射表的時候,每個消息還包含了 一個長度為 16384 bit 的 Bitmap。
          每一位對應一個 Slot,如果值 = 1 則表示這個 Slot 屬于當前實例,這個 Bitmap 占用 2KB,所以一個 PING 消息大約 12KB。
          PONGPING 消息一樣,一發一回兩個消息加起來就是 24 KB。集群規模的增加,心跳消息越來越多就會占據集群的網絡通信帶寬,降低了集群吞吐量。

          實例的通信頻率

          65 哥:碼哥,發送 PING 消息的頻率也會影響集群帶寬吧?

          Redis Cluster 的實例啟動后,默認會每秒從本地的實例列表中隨機選出 5 個實例,再從這 5 個實例中找出一個最久沒有收到 PING 消息的實例,把 PING 消息發送給該實例。

          65 哥:隨機選擇 5 個,但是無法保證選中的是整個集群最久沒有收到 PING 通信的實例,有的實例可能一直沒有收到消息,導致他們維護的集群信息早就過期了,咋辦呢?

          這個問題問的好,Redis Cluster 的實例每 100 ms 就會掃描本地實例列表,當發現有實例最近一次收到 PONG 消息的時間 > cluster-node-timeout / 2。那么就立刻給這個實例發送 PING 消息,更新這個節點的集群狀態信息。
          當集群規模變大,就會進一步導致實例間網絡通信延遲怎加??赡軙鸶嗟?PING 消息頻繁發送。

          降低實例間的通信開銷

          • 每個實例每秒發送一條 PING消息,降低這個頻率可能會導致集群每個實例的狀態信息無法及時傳播。
          • 每 100 ms 檢測實例 PONG消息接收是否超過 cluster-node-timeout / 2,這個是 Redis 實例默認的周期性檢測任務頻率,我們不會輕易修改。

          所以,只能修改 cluster-node-timeout的值:集群中判斷實例是否故障的心跳時間,默認 15 S。
          所以,為了避免過多的心跳消息占用集群寬帶,將 cluster-node-timeout調成 20 秒或者 30 秒,這樣 PONG 消息接收超時的情況就會緩解。
          但是,也不能設置的太大。都則就會導致實例發生故障了,卻要等待 cluster-node-timeout時長才能檢測出這個故障,影響集群正常服務。

          總結

          • 哨兵集群實現故障自動轉移,但是當數據量過大導致生成 RDB 時間過長。而 Fork 執行的時候會阻塞主線程,由于數據量過大導致阻塞主線程過長,所以出現了 Redis 響應慢的表象。
          • 使用 Redis Cluster 集群,主要解決了大數據量存儲導致的各種慢問題,同時也便于橫向拓展。在面向百萬、千萬級別的用戶規模時,橫向擴展的 Redis 切片集群會是一個非常好的選擇。
          • 集群的整個數據庫被分為 16384 個槽(slot),數據庫中的每個鍵都屬于這 16384 個槽的其中一個,集群中的每個節點可以處理 0 個或最多 16384 個槽。
          • Redis 集群節點采用 Gossip 協議來廣播自己的狀態以及自己對整個集群認知的改變。
          • 客戶端連接到集群候任何一個實例后,實例會將哈希槽與實例映射信息發送給客戶端,客戶端將信息保存,用于將 key 定位到對應的節點。
          • 集群并不能無限增加,由于集群通過 Gossip協議傳播集群實例信息,所以通信頻率是限制集群大小的主要原因,主要可以通過修改 cluster-node-timeout調整頻率。


          国产在线不卡精品网站
            <p id="vtxx7"><del id="vtxx7"></del></p>
            <pre id="vtxx7"><cite id="vtxx7"></cite></pre> <pre id="vtxx7"><del id="vtxx7"><thead id="vtxx7"></thead></del></pre>
              <track id="vtxx7"><ruby id="vtxx7"></ruby></track>

                <p id="vtxx7"><del id="vtxx7"></del></p>
                <noframes id="vtxx7"><ruby id="vtxx7"></ruby>