集算器實現外部數據并行計算

? 文本并行

SPL可將文本文件按體積大致分為N段，只讀取其中一段。比如cardInfo.txt存儲著一千萬條人口信息，將其分為十份，取第二份，代碼可以寫作：

成都地區優秀IDC服務器托管提供商(成都創新互聯公司).為客戶提供專業的服務器托管,四川各地服務器托管,服務器托管、多線服務器托管.托管咨詢專線：028-86922220

	A	B
1	=file("d:\\temp\\cardInfo千萬.txt")
2	=A1.import@t(;2:10)	/直接讀入內存
3	=A1.cursor@t(;2:10).fetch@x()	/游標方式讀取

按體積大致分段，而不是按行數精確分段，目的是提高分段性能。比如在IDE中觀察A2或A3的前幾個字段，可以看到行數并非精確的100萬（與具體數據有關）：

index	cardNo	name	gender	province	mobile
1	308200310180525	Alison Clinton	female	Idaho?	1024627490
2	709198311300191	Abby Wood	female	Kansas?	19668466
3	1005199807060610	George Bush	male	California?	1019879226
…	…	…	…	…	…
1000005	405199907050256	Mark Rowswell	male	Idaho?	1168620176

分段讀取可應用于多線程計算，從而提高讀取性能。比如用2個線程分別讀取cardInfo.txt，各線程計算本段行數，最后合并為總行數，可用如下代碼：

5	fork to(2)	=A1.cursor@t(;A5:2).total(count(1))	/2線程分段
6	=A5.sum()		/合并結果

語句fork語句適合算法較復雜的情況，當算法比較簡單時，可用cursor@m直接分段讀取。比如前面的代碼可以改寫如下：

=A1.cursor@tm(;2).total(count(1))

/2線程分段

上述代碼指定了線程數，如果省略線程數，則用配置文件中的“parallet limit”當做默認線程數。假設parallet limit=2，則上述代碼可以改寫成：

=A1.cursor@tm().total(count(1))

/默認線程數分段

為了驗證分段讀取前后的性能差異，下面設計一個算法，分別用單線程和2線程計算cardInfo.txt的總行數，可以看到性能顯著提升：

11	=now()
12	=A1.cursor@t().total(count(1))
13	=interval@ms(A11,now())	/未分段，20882ms
14
15	=now()
16	=A1.cursor@tm(;2).total(count(1))
17	=interval@ms(A15,now())	/2線程分段，12217ms

? JDBC 并行

通過JDBC取數時，有時會遇到數據庫負載雖然不重，但取數性能仍然較差的情況，這種情況下可以用并行取數提高性能。

比如Oracle數據庫有一張通話記錄表callrecord，記錄數100萬條，索引字段是callTime，且數據基本按該字段平均分布。采用非并行取數時，可以發現性能不夠理想，代碼如下：

	A	B
1	=now()	/記錄時間，用于測試性能
2	=connect("orcl")
3	=A2.query@x("select * from ? callrecord")
4	=interval@ms(A1,now())	/非并行取數，17654ms

改為2線程并行取數后，可以看到性能提升明顯，代碼如下：

6	=now()
7	=connect("orcl").query@x("select ? min(callTime),max(callTime) from callrecordA")
8	=2.(range(A7.#1,elapse@s(A7.#2,1),~:2))	/時間區間參數列表
9	fork A8	=connect("orcl")
10		=B9.query@x("select * from ? callrecordA where callTime>=? and callTime<?",A9(1),A9(2))
11	=A9.conj()
12	=interval@ms(A6,now())	/并行取數，10045ms

既然要并行取數，就要把源數據分成多個區間，使每區間的數據量大致相等。在這個例子中，索引字段是時間類型callTime，所以先用A7求出callTime的數據范圍，再用A8將該范圍平均分成2個時間區間。之后在A9進行并行計算，每個線程以各自的時間區間為參數執行SQL，取數結果將大致相等。最后合并多線程的取數結果，作為最終結果。

函數range非常適合對數據分段。該函數可將某范圍平均分為N個區間，獲得第i個區間，且可根據范圍的數據類型自動調整區間的數據類型。本例的范圍類型是datetime，則函數range將范圍按秒均分，返回類型也是datetime。如果范圍類型是date，則函數range按天均分；如果范圍類型是整數，則函數range按整數均分。

上面例子中，分段字段是索引，如果沒有建立索引，則查詢性能會出現下降。在這種情況下，并行取數仍然可以帶來明顯的性能提升，所以可以用相同的方法。

上面例子中，源數據基本按callTime平均分布，因此容易使各區間的數據量大致相等，如果源數據分布很不平均，可以考慮按行號分段。每種數據庫都有生成行號的方法，比如oralce可用rownum。

除了單表單SQL并行取數，SPL也支持多表多SQL并行取數。比如某報表格式較復雜，需要SPL執行多個SQL，并按一定的格式拼出結果集。當采用非并行取數時，可以發現性能不夠理想，代碼如下：

	A	B
1	=now()	=connect("orcl")
2	select count(1)? from? ? callrecordA where to_char(calltime,'yyyy')='2015'	=B1.query(A2)
3	select count(1)? from? ? callrecordA where to_char(calltime,'yyyyMM')='201501'	=B1.query(A3)
4	select count(1)? from? ? callrecordA where to_char(calltime,'yyyyMM')='201502'	=B1.query(A4)
5	select count(1)? from? ? callrecordA where to_char(calltime,'yyyyMM')='201503'	=B1.query(A5)
6	select count(1)? from? ? callrecordA where to_char(calltime,'yyyy')='2016'	=B1.query(A6)
7	select count(1)? from? ? callrecordA where to_char(calltime,'yyyyMM')='201601'	=B1.query(A7)
8	select count(1)? from? ? callrecordA where to_char(calltime,'yyyyMM')='201602'	=B1.query(A8)
9	select count(1)? from? ? callrecordA where to_char(calltime,'yyyyMM')='201603'	=B1.query(A9)
10		=B1.close()
11	=[B2:B9].new(~.#1:data)
12	=interval@ms(A1,now())	/非并行取數，2195毫秒

改為4線程并行取數后，可以看到性能提升明顯，代碼如下：

14	=now()
15	fork [A2:A9]	=connect("orcl")
16		=B15.query@x(A15)
17	=A15.new(~.#1:data)
18	=interval@ms(A14,now())	/4并行取數,1320毫秒

需要注意的是，并行取數時任務數可大于并行數。比如上面代碼共8個任務，但同時執行的任務只有4個，其他待執行的任務排在隊列中，如果某個小任務先執行完成，SPL會從隊列中取下一個任務并執行它。可以看到，當任務數較多時，即使各任務負載相差較大，也能充分發揮硬件性能。

? 混合并行

當數據量太大時，除了分庫計算，還可以進行混合數據源并行計算，后者性能更高。具體做法是：把數據分為兩部分（或多部分），一部分存儲在數據庫中，通常是當前實時數據，一部分存儲在組文件，通常是歷史數據，再對兩種數據源進行并行計算，從而獲得更高性能。

比如歷史訂單存儲在orders.ctx中，當前訂單存儲在數據庫orcl中，請按年、月分組，對各組數據的amount字段求和。SPL代碼如下：

	A	B
1	fork	select extract(year from ? orderTime)y,extract(month from orderTime)m,sum(amount) amount from orders ? group by? extract(year from ? orderTime),extract(month from orderTime)
2		=connect("orcl")
3		=B2.query@x(B1)
4	fork	=file("orders.ctx").create()
5		=B4.groups(year(ORDERTIME):Y,month(ORDERTIME):M;sum(AMOUNT):AMOUNT)
6	=[A1,A4].conj()
7	=A6.groups(Y,M;sum(AMOUNT):AMOUNT)

注意fork……fork……的用法。如果fork語句塊下接非fork語句塊，則兩者順序執行，如果fork語句塊下接fork語句塊，則兩者并行執行。

分享文章：集算器實現外部數據并行計算
當前地址：http://vcdvsql.cn/article24/gjisje.html

成都網站建設公司_創新互聯，為您提供手機網站建設、電子商務、網站策劃、云服務器、定制網站、做網站

聲明：本網站發布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經允許不得轉載，或轉載時需注明來源：創新互聯

猜你還喜歡下面的內容

bl双性强迫侵犯h_国产在线观看人成激情视频_蜜芽188_被诱拐的少孩全彩啪啪漫画

集算器實現外部數據并行計算

? 文本并行

? JDBC 并行

? 混合并行