RHadoop
Hadoop家族的強大之處,在於對大數據的處理,讓原來的不可能(TB,PB數據量計算),成為了可能。 R語言的強大之處,在於統計分析,在沒有Hadoop之前,我們對於大數據的處理,要取樣本,假設檢驗,做回歸,長久以來R語言都是統計學家專屬的工具。 hadoop重點是全量數據分析,而R語言重點是樣本數據分析。 兩種技術放在一起,剛好是最長補短!
模擬場景:對1PB的新聞網站訪問日誌做分析,預測未來流量變化 用R語言,通過分析少量數據,對業務目標建回歸建模,並定義指標 用Hadoop從海量日誌數據中,提取指標數據 用R語言模型,對指標數據進行測試和調優 用Hadoop分步式算法,重寫R語言的模型,部署上線
一般來說開源版本的 R 語言皆會將資料讀入至記憶體才能夠進行統計運算。但是當面臨大數據處理時真的有這麼多的記憶體空間提供使用,同時還需要留有運算使用的記憶體空間,此時 Revolution R Enterprise 工具就有提供 XDF 檔案格式能夠讓使用者在不載入資料至記憶體的情況下直接進行高效能的數學運算,避免大數據資料無法載入記憶體中進行分析的問題。 此外在不做任何設定的情況下就能夠進行多核心處理,以利解決進行大數據資料處理時效能不佳的問題。