高性能網站建設之 MS Sql Server數據庫分區


什么是數據庫分區?
數據庫分區是一種對表的橫向分割,Sql server 2005企業版和之后的Sql server版本才提供這種技術,這種對表的橫向分割不同於2000中的表分割,它對訪問用戶是透明的,用戶並不會感覺的表被橫向分割了。(2000中的表橫向分割是建n個表例如按時間建表每月一個表,表名不同,最后需要做一個大視圖)

關於具體的如何做分區,請參考數據庫分區演練

為什么要分區?
顯而易見分區是為了提高數據庫的讀寫性能,提高數據庫的效率;

分區是否總是可以提高效率?
分區是一把雙刃劍,並不總能提高效率,這和具體情況有關系。
之所以有分區技術,分區技術用的好的話可以提高性能,是因為一方面分區把一大塊數據分成了n小塊,這樣查詢的時候很快定位到某一小塊上,在小塊中尋址要快很多;另一方面CPU比磁盤IO快很多倍,而硬件上又有多個磁盤,或者是RAID(廉價磁盤冗余陣列),可以讓數據庫驅動CPU同時去讀寫不同的磁盤,這樣才有可能可以提高效率。
分區在有些時候並不能提高讀寫效率,比如說我們經常看到的按照日期字段去分區MSDN例子,這個實例中是按照記錄的生成時間來分區的,把一年的數據分割成12個分區,每月一個。這樣的分區導致分區並不能實現CPU同步寫並提高寫入性能,因為在同一個時段CPU總是要寫入到最新的那一個分區對應的磁盤中。另一個問題是:這樣分區是否可以提高讀取性能呢?答案是不一定,要看根據什么字段來查詢,如果是根據時間來查詢,根據時間生成報表那么這種分區肯定會提高查詢的效率,但是如果是按照某個客戶查詢客戶最近1年內的賬單數據,這樣數據分布到不同的分區上,這樣的話效率就不一定能提高了,這要看數據在同一個分區上連續分布的讀性能高,還是CPU從幾個磁盤上同步讀取,然后在合並數據的性能更高一些,這和讀取數據的記錄數也有關系。

如何分區?用什么字段做分區依據?
具體如何分區和涉及的業務有關系,要看業務上最經常的寫入和讀取操作是什么,然后再考慮分區的策略。

既然與具體業務相關,我們就假定一個業務環境,假如我們要做一個論壇,對論壇的帖子和回復表進行分區。
論壇中最常見的寫操作是1)發帖 2)回復帖子,
最常見的讀操作是
1) 根據帖子id顯示帖子詳情和分頁的帖子回復 
2) 根據帖子版面帖子列表頁根據版面id分頁讀取帖子列表數據
怎么分區更合適呢?現在還沒有准確答案,我有兩種可能的方案,寫下來,大家討論看看。
方案1. 根據帖子ID區域段分區(1-300w一個分區、300w-600w一個分區…),這樣理論上可以提高帖子詳細頁的讀取速度,而對於寫操作性能沒有益處,對於根據版面id讀取帖子列表頁有可能有益
方案2. 根據版面id進行分區,這樣對於寫性能應該有提高,不同的分區對應不同的版面,當有兩個版面同時有發帖回帖操作時,有可能可以並發寫。對於根據版面id獲得帖子列表頁數據也可以提高性能,而對於帖子詳細信息頁沒有性能影響。

多大的數據量才需要分區?
這個問題我只能說一個內部標准,如果一張表的記錄超過在超過1000w,並以每月百萬的數據量增長,那就需要分區。

 


注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
粤ICP备14056181号  © 2014-2020 ITdaan.com