以前我們講數(shù)據(jù)挖掘,大數(shù)據(jù)時代講大數(shù)據(jù)挖掘。那么大數(shù)據(jù)挖掘的“大”在哪里呢?本文做一些歸納,希望能提供一些思考問題的方法。
不足之處歡迎留言發(fā)表意見。
一、數(shù)據(jù)量的大
數(shù)據(jù)量有多大?這是很多人在挖掘大數(shù)據(jù)時不得不問的問題。
從一些實(shí)際應(yīng)用來看,如果每天處理的數(shù)據(jù)量達(dá)到T、P級別,可以考慮部署Hadoop、Spark等大數(shù)據(jù)處理平臺。只有一定程度的數(shù)據(jù)處理才能凸顯這些平臺的優(yōu)勢。
數(shù)據(jù)量小,讀取和遷移數(shù)據(jù)所花費(fèi)的時間占太多,不能體現(xiàn)大數(shù)據(jù)處理平臺的優(yōu)勢。很多應(yīng)用只是為了大數(shù)據(jù)大數(shù)據(jù),幾百M(fèi)也搞定Hadoop。因此,談大數(shù)據(jù)時想到Hadoop、Spark等平臺是非常有限的。
當(dāng)然,在決定是否使用大數(shù)據(jù)平臺時,可能需要考慮更多的因素,例如:許多低性能機(jī)器的集成、異構(gòu)軟硬件平臺之間的可移植性、海量非結(jié)構(gòu)化數(shù)據(jù)處理等。
二、數(shù)據(jù)類型的多樣化
在數(shù)據(jù)挖掘時代,我們挖掘的數(shù)據(jù)主要是關(guān)系數(shù)據(jù)。大數(shù)據(jù)時代,各種應(yīng)用產(chǎn)生各種數(shù)據(jù),大數(shù)據(jù)挖掘通常涉及多種數(shù)據(jù)類型。這里所說的數(shù)據(jù)類型不是編程中的普通數(shù)據(jù)類型,而是更接近于應(yīng)用數(shù)據(jù)表示,通常包括時序數(shù)據(jù)、軌跡數(shù)據(jù)、圖形數(shù)據(jù)、文本數(shù)據(jù)等。
每天的銷售記錄和價格都是常見的數(shù)據(jù)類型,但它們從時間維度上是按順序連接起來的,形成的時間序列數(shù)據(jù)可以反映價格的變化規(guī)律,當(dāng)然具有更豐富的含義。
每個人的位置只是一個普通的數(shù)據(jù)類型(x,y),但是按照運(yùn)動的先后順序?qū)⑽恢眠B接起來就構(gòu)成了一個人的活動軌跡,反映了他背后的生活和習(xí)慣。隱藏的信息才是大數(shù)據(jù)應(yīng)該關(guān)注的。
微博或論壇中的每個人都是獨(dú)立存在的,也是公共數(shù)據(jù),但是如果把每個人按照粉絲、粉絲等關(guān)系連接起來,就可以形成一個大圖,即圖數(shù)據(jù)。圖中的人群和離群點(diǎn),以及加入群體偏好、群體移動等屬性后的高層次圖數(shù)據(jù),是大數(shù)據(jù)挖掘的重點(diǎn)。
三、數(shù)據(jù)處理的噪音
在數(shù)據(jù)挖掘時代,數(shù)據(jù)來源于關(guān)系型數(shù)據(jù)庫,是與業(yè)務(wù)相關(guān)的高質(zhì)量數(shù)據(jù),通常可以直接挖掘。這絕對不是大數(shù)據(jù)挖掘的情況。大數(shù)據(jù)思維決定了我們必須考慮不同來源數(shù)據(jù)的質(zhì)量和混合數(shù)據(jù)結(jié)構(gòu),以增強(qiáng)數(shù)據(jù)處理的健壯性。例如,要進(jìn)行企業(yè)級的客戶分析,不同的分支機(jī)構(gòu)可能會使用不同的客戶管理系統(tǒng)。有的系統(tǒng)用本科/碩士/博士來區(qū)分客戶的教育背景,有的則用本科/研究生來區(qū)分。這就需要考慮數(shù)據(jù)的一致性處理。此外,數(shù)據(jù)格式、數(shù)據(jù)完整性等都是大數(shù)據(jù)挖掘需要考慮的東西。
四、數(shù)據(jù)挖掘的多樣化
在數(shù)據(jù)挖掘時代,一般側(cè)重于單一的數(shù)據(jù)分析,而大數(shù)據(jù)挖掘可能更側(cè)重于業(yè)務(wù)中同時存在的多個數(shù)據(jù)挖掘任務(wù),如分類、預(yù)測、關(guān)聯(lián)、聚類等。雖然有更多的業(yè)務(wù)需求,但是這些分類、預(yù)測、關(guān)聯(lián)、聚類在底層可能會使用同一個模型。因此,在挖掘大數(shù)據(jù)時,考慮模型、算法和業(yè)務(wù)的分離是非常重要的,即所謂的大數(shù)據(jù)處理層次。
我們專注高端建站,小程序開發(fā)、軟件系統(tǒng)定制開發(fā)、BUG修復(fù)、物聯(lián)網(wǎng)開發(fā)、各類API接口對接開發(fā)等。十余年開發(fā)經(jīng)驗(yàn),每一個項(xiàng)目承諾做到滿意為止,多一次對比,一定讓您多一份收獲!