鄔賀銓:東數西算實爲“東數西存”如何處理冷熱數據值得研究

中國工程院院士鄔賀銓。2022中國算力大會官方供圖

新京報貝殼財經訊(記者羅亦丹)7月30日,中國工程院院士鄔賀銓在2022中國算力大會上表示,對東數西算中數據中心的管理機制、冷熱數據配對等還有許多需要深入研究的內容。

鄔賀銓介紹,數據分爲冷數據和熱數據,熱數據主要是一些需要實時性計算的數據,冷數據相對不需要實時性,國家的八大算力樞紐,實際上西部主要定位在處理冷數據和一些本地數據,東部主要是熱數據。

“最近產生的數據是熱數據,但是熱數據經過一週或幾個月以後,也要變成冷數據。人類歷史上90%的數據都是過去幾年產生的,50%是短短兩年產生的,這意味着兩年之前的數據肯定都是冷數據,而且兩年之內產生的也有很多是冷數據。從一般的統計來看,冷、溫、熱的數據分別佔到80%、15%和5%,也就意味着冷數據是最多的。對冷數據來講,計算不是常態,主要是存儲。”鄔賀銓表示,“東西部分別以熱數據和冷數據爲主,照這樣算,東數西算實際上是東數西存,主要存在西邊,當然偶爾會有一些計算。”

據瞭解,目前有存算分離和存內計算兩種架構。鄔賀銓認爲,對於冷數據存算分離是好事,但對熱數據存算分離會使得數據在存儲和計算之間來回輸入,而CPU的計算能力高於存儲,這會使得CPU能力受到存儲的拖累,形成瓶頸,此時存內計算就適合熱數據,例如自動駕駛。

目前,西部以冷數據爲主,但是西部也要處理當地的熱數據。“也就是說對西部來講,冷熱都有,是不是同樣要採取不同的存算架構,這是值得研究的問題。”他表示。

鄔賀銓認爲,東西部數據中心的冷熱數據配對值得研究。此外,每個數據中心往往有多個業主,在同一個數據中心內如何協調這些業主共享能源、土地、電力供應,建立共享機制也值得研究,“每一個數據中心需要設計算力、存力和網絡能力的合理比例以及相應的災備比例,這裡面跟冷熱數據、大文件小文件數據是有關聯的,不能一刀切,關於數據中心的數學和算術,還有很多需要深入研究的內容,我們要善於從實踐中學習創新。”

編輯 徐超 校對 趙琳