認識大數據

2014/9/15 17:49:59

作(zuò)者:王偉(君友公司研究總監)

 如(rú)果你在百度搜索引擎上(shàng)輸入“大數據”,會顯示出“找到相關(guān)結果約100,000,000個(gè)”,一(yī)億條信息量足見目前這(zhè)一(yī)概念的熱度之大,當然你也(yě)會見到有人(rén)在一(yī)些(xiē)論壇上(shàng)時(shí)不時(shí)地提及大數據,甚至走在街上(shàng)也(yě)會遇到有人(rén)使用“大數據”這(zhè)三個(gè)字來(lái)表達身(shēn)邊的人(rén)和事(shì),大數據時(shí)代似乎真的一(yī)夜之間(jiān)來(lái)臨了(le)。而一(yī)個(gè)新(xīn)興時(shí)代的到來(lái),不能(néng)僅看這(zhè)一(yī)概念出現(xiàn)的頻率,當今互聯網傳播放(fàng)大作(zuò)用下(xià)更是如(rú)此。隻有當大數據的應用已經産生(shēng)着廣泛的社會影響時(shí),才可謂大數據時(shí)代真的來(lái)臨了(le),從整個(gè)社會來(lái)看大數據目前僅可稱為(wèi)“小荷才露尖尖角”。

大數據(Big data),應該說(shuō)是“大規模數據”的簡稱,不是一(yī)個(gè)确切的稱謂,甚至可以說(shuō)是一(yī)個(gè)借用的概念,因為(wèi)之前沒有嚴格的小數據概念與之對應。“大數據”這(zhè)個(gè)術語最早期的引用可追溯到apache org的開源項目Nutch。當時(shí),大數據用來(lái)描述為(wèi)更新(xīn)網絡搜索索引需要同時(shí)進行批量處理(lǐ)或分(fēn)析的大量數據集。早在1980年,著名未來(lái)學家阿爾文·托夫勒便在《第三次浪潮》一(yī)書中,将大數據熱情地贊頌為(wèi)“第三次浪潮的華彩樂(yuè)章”。大數據在教育、醫(yī)療、汽車、服務(wù)性行業的應用初步彰顯出的能(néng)量使政府、大學、企業管理(lǐ)者對大數據的未來(lái)充滿信心,大數據被認為(wèi)将會給人(rén)們的工作(zuò)、生(shēng)活甚至思維方式帶來(lái)重大變革。20123月(yuè)(yuè)29日奧巴馬政府公布了(le)美國“大數據研發計劃”(Big Data Research and Development Initiative),旨在改進現(xiàn)有從海量和複雜的數據中獲取知識的能(néng)力,從而加速美國在科學與工程領域發明的步伐,增強國家安全,轉變現(xiàn)有的教學和學習方式。

君友認為(wèi),大數據是時(shí)代的産物,是生(shēng)産力發展的結果,是信息技術催生(shēng)出的新(xīn)事(shì)物,不應理(lǐ)解為(wèi)一(yī)個(gè)靜态的數據類型,理(lǐ)解為(wèi)基于現(xiàn)代網絡技術而可及的海量數據更為(wèi)恰當。但(dàn)大數據的呈現(xiàn)因人(rén)、因事(shì)、因時(shí)、因力而異,用之方為(wèi)“大”,不同的數據運用主體(tǐ)、不同運用目的、不同時(shí)間(jiān)限制、不同技術實現(xiàn)能(néng)力等因素決定着某個(gè)“大數據”的内涵和表現(xiàn)。大數據是客觀存在的,隻有對于可及的海量數據通過一(yī)定模式加工到可使用狀态,才會展現(xiàn)出大數據的魅力,如(rú)果不用或視(shì)而不見,則無所謂大數據小數據。

大數據,在一(yī)些(xiē)人(rén)眼裏已經不是一(yī)個(gè)網絡技術名詞,但(dàn)它最适合的定義還是與能(néng)夠處理(lǐ)結構化(huà)、非結構化(huà)數據的網絡技術相捆綁。對于大數據,研究機構Gartner給出了(le)這(zhè)樣的定義,大數據是需要新(xīn)處理(lǐ)模式才能(néng)具有更強的決策力、洞察發現(xiàn)力和流程優化(huà)能(néng)力的海量、高增長率和多樣化(huà)的信息資産。從技術上(shàng)看,大數據需要特殊的技術,以有效地處理(lǐ)大量的容忍經過時(shí)間(jiān)内的數據。适用于大數據的技術,包括大規模并行處理(lǐ)(MPP)數據庫、數據挖掘電網、分(fēn)布式文件系統、分(fēn)布式數據庫、雲計算(suàn)平台、互聯網和可擴展的存儲系統。離開了(le)“大數據技術”,大數據就(jiù)像海水一(yī)樣流淌在大海裏,無法到達使用者的桌面。

大數據的發展有其自身(shēn)的規律,就(jiù)如(rú)其誕生(shēng)一(yī)樣,需要适宜的土(tǔ)壤,政府、企業可以去推動,但(dàn)其成長有賴于技術的成長,其發展有賴于應用方的形成。大數據的4V特點——Volume(大量)、Velocity(高速)、Variety(多樣)和Value(價值),前三個(gè)特點是其自身(shēn)屬性,Value(價值)正是決定其應用腳步快(kuài)慢(màn)的關(guān)鍵,數據永遠(yuǎn)不能(néng)代替思維,數據本身(shēn)不會說(shuō)話(huà),數據價值表現(xiàn)在數據應用方的思維中。價值的形成是循序漸進的,今日人(rén)們對大數據的狂熱,甚至期望大數據可以解決所有面臨的難題和疑點,大有準備告别昨日舊思維的架式,而大數據的出現(xiàn)并不意味着既有的理(lǐ)論與思考方式不再适合存在,正如(rú)微軟的Mundie先生(shēng)所說(shuō),“以數據為(wèi)中心的經濟還處于發展初期,你可以看到它的輪廓,但(dàn)它的技術上(shàng)的、基礎結構的、甚至商(shāng)業模型的影響還沒有被完全理(lǐ)解。”

時(shí)至今日,大數據仍處在它的誕生(shēng)期,對其未來(lái)的成長形态人(rén)們有各種各樣的描述。相信随着數據獲取、分(fēn)析、應用技術的發展,随着決策模式的變遷,大數據的面孔會成長的越來(lái)越清晰,對于時(shí)代的影響會越來(lái)越廣泛,大數據時(shí)代會真正來(lái)臨。