數據流區別特征
與傳統的關系數據模式區別
b.babcock等[90]認為數據流模式在以下幾個方面不同于傳統的關系數據模式:
1. 數據聯機到達;
2. 處理系統無法控制所處理的數據的到達順序;
3. 數據可能是無限多的;
4. 由于數據量的龐大,數據流中的元素被處理后將被拋棄或存檔(archive)。以后再想獲取這些數據將會很困難,除非將數據存儲在內存中,但由于內存大小通常遠遠小于數據流數據的數量,因此實際上通常只能在數據**次到達時獲取數據。
三個特點
我們認為,當前所研究的數據流計算之所以不同于傳統的計算模式,關鍵在于這些數據流數據本身具有如下三個特點:
數據的到達—快速
這意味著短時間內可能會有大量的輸入數據需要處理。這對處理器和輸入輸出設備來說都是一個較大的負擔,因此對數據流的處理應盡可能簡單。
數據流
數據的范圍—廣域
這是指數據屬性(維)的取值范圍非常大,可能取的值非常多,如地域、手機號碼、人、網絡節點等。這才是導致數據流無法在內存或硬盤中存儲的主要原因。如果維度小,即使到來的數據量很大,也可以在較小的存儲器中保存這些數據。例如,對于無線通信網來說,同樣的100萬條通話記錄,如果只有1000個用戶,那么使用1000個存儲單位就可以保存足夠多和足夠精確的數據來回答“某一用戶的累計通話時間有多長”的問題;而如果共有100000個用戶,要保存這些信息,就需要100000個存儲單位。數據流數據的屬性大多與地理信息、ip地址、手機號碼等有關,而且往往與時間聯系在一起。這時,數據的維度遠遠**過了內存和硬盤容量,這意味著系統無法完整保存這些信息,通常只能在數據到達的時候存取數據一次。
數據到達的時間—持續
數據的持續到達意味著數據量可能是無限的。而且,對數據進行處理的結果不會是較終的結果,因為數據還會不斷地到達。因此,對數據流的查詢的結果往往不是一次性而是持續的,即隨著底層數據的到達而不斷返回較新的結果。
以上數據流的特點決定了數據流處理的特點一次存取,持續處理,有限存儲,近似結果,快速響應。
近似結果是在**個條件限制下產生的必然結果。由于只能存取數據一次,而且只有相對較小的有限空間存儲數據,因此產生精確的計算結果通常是不可能的。而將對結果的要求從過去的“精確”改為“近似”后,實現數據流查詢的快速響應也就成為了可能。
湖北匯智橋數據信息服務有限公司專注于項目股權**報告,項目數據分析,股權投資**分析及風險評定報告等