rust是可以開發分布式系統的。
成都創新互聯服務項目包括順慶網站建設、順慶網站制作、順慶網頁制作以及順慶網絡營銷策劃等。多年來,我們專注于互聯網行業,利用自身積累的技術優勢、行業經驗、深度合作伙伴關系等,向廣大中小型企業、政府機構等提供互聯網行業的解決方案,順慶網站推廣取得了明顯的社會效益與經濟效益。目前,我們服務的客戶以成都為中心已經輻射到順慶省份的部分城市,未來相信會繼續擴大服務區域并繼續獲得客戶的支持與信任!
引子
構建一個分布式系統 并不是一件容易的事情,我們需要考慮很多的問題,首先就是我們的系統到底需要提供什么樣的功能,譬如:
一致性:我們是否需要保證整個系統的線性一致性,還是能容忍短時間的數據不一致,只支持最終一致性。
穩定性:我們能否保證系統 7 x 24 小時穩定運行。系統的可用性是 4 個 9,還有 5 個 9?如果出現了機器損壞等災難情況,系統能否做的自動恢復。
擴展性:當數據持續增多,能否通過添加機器就自動做到數據再次平衡,并且不影響外部服務。
分布式事務:是否需要提供分布式事務支持,事務隔離等級需要支持到什么程度。
上面的問題在系統設計之初,就需要考慮好,作為整個系統的設計目標。為了實現這些特性,我們就需要考慮到底采用哪一種實現方案,取舍各個方面的利弊等。
后面,我將以我們開發的分布式 Key-Value TiKV 作為實際例子,來說明下我們是如何取舍并實現的。
TiKV
TiKV 是一個分布式 Key-Value store,它使用 Rust 開發,采用 Raft 一致性協議保證數據的強一致性,以及穩定性,同時通過 Raft 的 Configuration Change 機制實現了系統的可擴展性。
TiKV 提供了基本的 KV API 支持,也就是通常的 Get,Set,Delete,Scan 這樣的 API。TiKV 也提供了支持 ACID 事務的 Transaction API,我們可以使用 Begin 開啟一個事務,在事務里面對 Key 進行操作,最后再用 Commit 提交一個事務,TiKV 支持 SI 以及 SSI 事務隔離級別,用來滿足用戶的不同業務場景。
Rust
在規劃好 TiKV 的特性之后,我們就要開始進行 TiKV 的開發。這時候,我們面臨的第一個問題就是采用什么樣的語言進行開發。當時,擺在我們眼前的有幾個選擇:
Go,Go 是我們團隊最擅長的一門語言,而且 Go 提供的 goroutine,channel 這些機制,天生的適合大規模分布式系統的開發,但靈活方便的同時也有一些甜蜜的負擔,首先就是 GC,雖然現在 Go 的 GC 越來越完善,但總歸會有短暫的卡頓,另外 goroutine 的調度也會有切換開銷,這些都可能會造成請求的延遲增高。
Java,現在世面上面有太多基于 Java 做的分布式系統了,但 Java 一樣有 GC 等開銷問題,同時我們團隊在 Java 上面沒有任何開發經驗,所以沒有采用。
C++,C++ 可以認為是開發高性能系統的代名詞,但我們團隊沒有特別多的同學能熟練掌握 C++,所以開發大型 C++ 項目并不是一件非常容易的事情。雖然使用現代 C++ 的編程方式能大量減少 data race,dangling pointer 等風險,我們仍然可能犯錯。
當我們排除了上面幾種主流語言之后,我們發現,為了開發 TiKV,我們需要這門語言具有如下特性:
靜態語言,這樣才能最大限度的保證運行性能。
無 GC,完全手動控制內存。
Memory safe,盡量避免 dangling pointer,memory leak 等問題。
Thread safe,不會遇到 data race 等問題。
包管理,我們可以非常方便的使用第三方庫。
高效的 C 綁定,因為我們還可能使用一些 C library,所以跟 C 交互不能有開銷。
綜上,我們決定使用 Rust,Rust 是一門系統編程語言,它提供了我們上面想要的語言特性,但選擇 Rust 對我們來說也是很有風險的,主要有兩點:
我們團隊沒有任何 Rust 開發經驗,全部都需要花時間學習 Rust,而偏偏 Rust 有一個非常陡峭的學習曲線。
基礎網絡庫的缺失,雖然那個時候 Rust 已經出了 1.0,但我們發現很多基礎庫都沒有,譬如在網絡庫上面只有 mio,沒有好用的 RPC 框架,HTTP 也不成熟。
但我們還是決定使用 Rust,對于第一點,我們團隊花了將近一個月的時間來學習 Rust,跟 Rust 編譯器作斗爭,而對于第二點,我們就完全開始自己寫。
幸運的,當我們越過 Rust 那段陣痛期之后,發現用 Rust 開發 TiKV 異常的高效,這也就是為啥我們能在短時間開發出 TiKV 并在生產環境中上線的原因。
一致性協議
對于分布式系統來說,CAP 是一個不得不考慮的問題,因為 P 也就是 Partition Tolerance 是一定存在的,所以我們就要考慮到底是選擇 C - Consistency 還是 A - Availability。
我們在設計 TiKV 的時候就決定 - 完全保證數據安全性,所以自然就會選擇 C,但其實我們并沒有完全放棄 A,因為多數時候,畢竟斷網,機器停電不會特別頻繁,我們只需要保證 HA - High Availability,也就是 4 個 9 或者 5 個 9 的可用性就可以了。
既然選擇了 C,我們下一個就考慮的是選用哪一種分布式一致性算法,現在流行的無非就是 Paxos 或者 Raft,而 Raft 因為簡單,容易理解,以及有很多現成的開源庫可以參考,自然就成了我們的首要選擇。
在 Raft 的實現上,我們直接參考的 etcd 的 Raft。etcd 已經被大量的公司在生產環境中使用,所以它的 Raft 庫質量是很有保障的。雖然 etcd 是用 Go 實現的,但它的 Raft library 是類似 C 的實現,所以非常便于我們用 Rust 直接翻譯。在翻譯的過程中,我們也給 etcd 的 Raft fix 了一些 bug,添加了一些功能,讓其變得更加健壯和易用。
現在 Raft 的代碼仍然在 TiKV 工程里面,但我們很快會將獨立出去,變成獨立的 library,這樣大家就能在自己的 Rust 項目中使用 Raft 了。
使用 Raft 不光能保證數據的一致性,也可以借助 Raft 的 Configuration Change 機制實現系統的水平擴展,這個我們會在后面的文章中詳細的說明。
存儲引擎
選擇了分布式一致性協議,下一個就要考慮數據存儲的問題了。在 TiKV 里面,我們會存儲 Raft log,然后也會將 Raft log 里面實際的客戶請求應用到狀態機里面。
首先來看狀態機,因為它會存放用戶的實際數據,而這些數據完全可能是隨機的 key - value,為了高效的處理隨機的數據插入,自然我們就考慮使用現在通用的 LSM Tree 模型。而在這種模型下,RocksDB 可以認為是現階段最優的一個選擇。
RocksDB 是 Facebook 團隊在 LevelDB 的基礎上面做的高性能 Key-Value Storage,它提供了很多配置選項,能讓大家根據不同的硬件環境去調優。這里有一個梗,說的是因為 RocksDB 配置太多,以至于連 RocksDB team 的同學都不清楚所有配置的意義。
關于我們在 TiKV 中如何使用,優化 RocksDB,以及給 RocksDB 添加功能,fix bug 這些,我們會在后面文章中詳細說明。
而對于 Raft Log,因為任意 Log 的 index 是完全單調遞增的,譬如 Log 1,那么下一個 Log 一定是 Log 2,所以 Log 的插入可以認為是順序插入。這種的,最通常的做法就是自己寫一個 Segment File,但現在我們仍然使用的是 RocksDB,因為 RocksDB 對于順序寫入也有非常高的性能,也能滿足我們的需求。但我們不排除后面使用自己的引擎。
因為 RocksDB 提供了 C API,所以可以直接在 Rust 里面使用,大家也可以在自己的 Rust 項目里面通過 rust-rocksdb 這個庫來使用 RocksDB。
分布式事務
要支持分布式事務,首先要解決的就是分布式系統時間的問題,也就是我們用什么來標識不同事務的順序。通常有幾種做法:
TrueTime,TrueTime 是 Google Spanner 使用的方式,不過它需要硬件 GPS + 原子鐘支持,而且 Spanner 并沒有在論文里面詳細說明硬件環境是如何搭建的,外面要自己實現難度比較大。
HLC,HLC 是一種混合邏輯時鐘,它使用 Physical Time 和 Logical Clock 來確定事件的先后順序,HLC 已經在一些應用中使用,但 HLC 依賴 NTP,如果 NTP 精度誤差比較大,很可能會影響 commit wait time。
TSO,TSO 是一個全局授時器,它直接使用一個單點服務來分配時間。TSO 的方式很簡單,但會有單點故障問題,單點也可能會有性能問題。
TiKV 采用了 TSO 的方式進行全局授時,主要是為了簡單。至于單點故障問題,我們通過 Raft 做到了自動 fallover 處理。而對于單點性能問題,TiKV 主要針對的是 PB 以及 PB 以下級別的中小規模集群,所以在性能上面只要能保證每秒百萬級別的時間分配就可以了,而網絡延遲上面,TiKV 并沒有全球跨 IDC 的需求,在單 IDC 或者同城 IDC 情況下,網絡速度都很快,即使是異地 IDC,也因為有專線不會有太大的延遲。
解決了時間問題,下一個問題就是我們采用何種的分布式事務算法,最通常的就是使用 2 PC,但通常的 2 PC 算法在一些極端情況下面會有問題,所以業界要不通過 Paxos,要不就是使用 3 PC 等算法。在這里,TiKV 參考 Percolator,使用了另一種增強版的 2 PC 算法。
這里先簡單介紹下 Percolator 的分布式事務算法,Percolator 使用了樂觀鎖,也就是會先緩存事務要修改的數據,然后在 Commit 提交的時候,對要更改的數據進行加鎖處理,然后再更新。采用樂觀鎖的好處在于對于很多場景能提高整個系統的并發處理能力,但在沖突嚴重的情況下反而沒有悲觀鎖高效。
對于要修改的一行數據,Percolator 會有三個字段與之對應,Lock,Write 和 Data:
Lock,就是要修改數據的實際 lock,在一個 Percolator 事務里面,有一個 primary key,還有其它 secondary keys, 只有 primary key 先加鎖成功,我們才會再去嘗試加鎖后續的 secondary keys。
Write,保存的是數據實際提交寫入的 commit timestamp,當一個事務提交成功之后,我們就會將對應的修改行的 commit timestamp 寫入到 Write 上面。
Data,保存實際行的數據。
當事務開始的時候,我們會首先得到一個 start timestamp,然后再去獲取要修改行的數據,在 Get 的時候,如果這行數據上面已經有 Lock 了,那么就可能終止當前事務,或者嘗試清理 Lock。
當我們要提交事務的時候,先得到 commit timestamp,會有兩個階段:
Prewrite:先嘗試給 primary key 加鎖,然后嘗試給 second keys 加鎖。如果對應 key 上面已經有 Lock,或者在 start timestamp 之后,Write 上面已經有新的寫入,Prewrite 就會失敗,我們就會終止這次事務。在加鎖的時候,我們也會順帶將數據寫入到 Data 上面。
Commit:當所有涉及的數據都加鎖成功之后,我們就可以提交 primay key,這時候會先判斷之前加的 Lock 是否還在,如果還在,則刪掉 Lock,將 commit timestamp 寫入到 Write。當 primary key 提交成功之后,我們就可以異步提交 second keys,我們不用在乎 primary keys 是否能提交成功,即使失敗了,也有機制能保證數據被正常提交。
大數據成為主流業務,而R語言顯然是處理大數據的最佳工具。
R語言三個優勢原因
支持使用缺省值作為核心數據值,因而可以很容易地處理不完整的數據源,而不完整的數據源才是現實中最常見的。
可視化軟件包ggplot2將數據與繪圖分離,實現圖層疊加,現在以成為使用最廣泛的R語言拓展包。
頂層語言外殼是可定制的,程序員利用這個功能搭建了集成開發環境比如RStudio,這使得R語言更易于學,主要用于商業方面。
你好,很高興為你解答。
專訪資深程序員莊曉立:我為什么要選擇Rust?
Rust是由Mozilla開發的注重安全、性能和并發性的編程語言。這門語言自推出以來就得到了國內外程序員的大力推崇。Rust聲稱解決了傳統C語言和C++語言幾十年來飽受責難的內存安全問題,同時還保持了極高的運行效率、極深的底層控制、極廣的應用范圍。但在國內有關Rust的學習文檔并不多見,不久前,筆者聯系上了Rust1.0版本代碼貢獻者莊曉立(精彩博文:為什么我說Rust是靠譜的編程語言),請他分享Rust語言特性以及學習經驗。
CSDN:你是從什么時候開始接觸Rust語言的?是什么地方吸引了你?
莊曉立:我大概從2013年后半年開始深入接觸Rust語言。它居然聲稱解決了傳統C語言和C++語言幾十年來飽受責難的內存安全問題,同時還保持了極高的運行效率、極深的底層控制、極廣的應用范圍。
其ownership機制令人眼前一亮,無虛擬機(VM)、無垃圾收集器(GC)、無運行時(Runtime)、無空指針/野指針/內存越界/緩沖區溢出/段錯誤、無數據競爭(Data Race)……所有這些,都深深地吸引了我——這個十多年以來深受C語言折磨的痛并快樂著的程序員。
CSDN:在你看來,Rust是怎樣的一門語言?它適合開發什么類型的項目?為何你會說Rust不懼怕任何競爭對手,它既能取代C語言地位;又可挑戰C++市場,還可向Java、Python分一杯羹?與這些語言相比,Rust有哪些優越的特性?
莊曉立:Rust是一門系統編程語言,特別適合開發對CPU和內存占用十分敏感的系統軟件,例如虛擬機(VM)、容器(Container)、數據庫/游戲/網絡服務器、瀏覽器引擎、模擬器等,而這些向來主要都是C/C++的傳統領地。
此外,Rust在系統底層開發領域,如裸金屬(bare metal)、操作系統(OS)、內核(kernel)、內核模塊(mod)等,也有強勁的實力,足以挑戰此領域的傳統老大C語言。Rust豐富的語言特性、先進的設計理念、便捷的項目管理,令它在上層應用開發中也能大展拳腳,至少在運行性能上比帶VM和GC的語言要更勝一籌。無GC實現內存安全機制、無數據競爭的并發機制、無運行時開銷的抽象機制,是Rust獨特的優越特性。
其他語言很難同時實現這些目標,例如傳統C/C++無法保證內存安全,Java/Python等無法消除運行時開銷。但Rust畢竟還是很年輕的項目,它釋放影響力需要時間,被世人廣泛接受需要時間;它的潛力能否爆發出來,需要時間去檢驗。我們只需耐心等待。
CSDN:Rust在國內有沒有具體的實際使用案例?
莊曉立:因為Rust1.0正式版剛剛發布不足一月,在國內影響力還不大,我們不能苛求它在國內有實際應用案例。但是在國外,一兩年前就已經有OpenDNS和Skylight把Rust應用在生產環境。還有瀏覽器引擎Servo、Rust編譯器和標準庫、項目管理器Cargo等“兩個半大型應用案例”。這些足夠說明Rust語言的成熟和實用。
CSDN:你參與了Rust1.0版本代碼貢獻,目前該版本正式版已經發布,對此你感覺如何?這門語言是否已經達到比較成熟的階段?
莊曉立:我積極參與了Rust語言開源項目,多次貢獻源代碼,曾連續三次出現在Rust官方博客公布的Rust 1.0 alpha、Rust 1.0 beta和Rust 1.0正式版的貢獻者名單中。在Rust 1.0正式版出臺的過程中及此前的很長一段時間,開發者付出了極大的努力,確保Rust 1.0正式版在Semver 2.0規范下,務必保持向后兼容性,除非遇到重大Bug不得不修復。
我認為,在1.0正式發布之后,Rust就已經進入了比較成熟的階段。而且,Rust還在快速迭代發展過程中,1.0發布6周后將發布1.1,再6周后將發布1.2,必然會一步一個臺階,越來越成熟穩定。
CSDN:除了功能優先級以外,在你看來,Rust正在朝什么方向發展?未來的Rust可以期待什么樣的特性?
莊曉立:Rust一定會沿著“確保內存安全、無運行開銷、高效實用”的既定方向持續發展。在短期內值得期待的語言特性有:動態Drop、偏特化、繼承、改進borrow checker、改進宏和語法擴展。短期內值得期待的其他特性有:增強文件系統API、提供內存申請釋放API、更好地支持Windows和ARM、更快的編譯速度、更方便的二進制分發機制(MUSL)、更實用的工具等等。
CSDN:據我了解,你之前也比較推崇Go語言,為何想到放棄Go轉向Rust?
莊曉立:推崇Go語言還談不上,不過我曾經嘗試努力接受Go語言,2011底年開始我曾經花費將近半年時間深度關注Go開發進程,提了很多具體的改進意見和建議,也曾經多次嘗試貢獻源代碼。后來考慮到Go語言的設計理念跟我偏差太大,其社區也不太友好,慢慢地疏遠了它。我曾經寫過一篇博客《我為什么放棄Go語言》,談到了很多具體的原因。
CSDN:國內,參與Rust代碼貢獻的開發者多嗎?有核心的人員嗎?有哪些社區在維護Rust?
莊曉立:國內參與Rust代碼貢獻的開發者并不多,但也不少,官方的貢獻者名單中也偶見幾個貌似國人的名字。Rust的核心開發人員基本上都是Mozilla公司的員工,他們專職負責開發維護Rust語言和相關的項目,Rust社區也主要是他們參與組織和管理的。社區人員討論主要集中在GitHub項目主頁RFC/PR/Issue官方、Discuss論壇/IRC、Reddit、HN、StackOverflow等。
網站名稱:鴻蒙rust開發,csdn 鴻蒙
本文地址:http://vcdvsql.cn/article26/dsdescg.html
成都網站建設公司_創新互聯,為您提供靜態網站、定制開發、、網站建設、外貿建站、微信小程序
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯