2018/4/19 13:43:19
大數據工具讓企業能(néng)夠從數據倉庫獲得洞察力,從而在數據驅動的業務(wù)環境中提供重要的競争優勢。
為(wèi)了(le)滿足旺盛需求,大數據工具在迅速遍地開花。在大數據這(zhè)一(yī)概念和業務(wù)戰略出現(xiàn)以來(lái)的十年間(jiān),市(shì)面上(shàng)出現(xiàn)了(le)成千上(shàng)萬執行各種任務(wù)和流程的工具,它們都承諾可為(wèi)你節省時(shí)間(jiān)和資金(jīn),發掘業務(wù)洞察力從而實現(xiàn)創收。顯然,一(yī)個(gè)不斷增長的市(shì)場(chǎng)呈現(xiàn)在大數據分(fēn)析工具的面前。
其中許多工具一(yī)開始就(jiù)像最初的大數據軟件框架Hadoop那樣是開源項目,但(dàn)後來(lái)商(shāng)業公司迅速湧現(xiàn),為(wèi)開源産品提供新(xīn)工具或商(shāng)業支持和開發。
從中進行遴選可能(néng)很困難,尤其是許多大數據工具用途單一(yī),而你可以用大數據處理(lǐ)許多不同的任務(wù),所以你的分(fēn)析工具箱會塞得滿滿當當。本文我們列出了(le)市(shì)面上(shàng)主要的大數據分(fēn)析工具。
主要的大數據工具
如(rú)前所述,大數據工具往往屬于單一(yī)用途類别,而使用大數據有多種方式。所以我們将按類别細分(fēn),然後討(tǎo)論每個(gè)類别的分(fēn)析工具。
一(yī)、大數據工具:數據存儲和管理(lǐ)
大數據完全始于數據存儲,也(yě)就(jiù)是說(shuō)始于大數據框架Hadoop。它是Apache基金(jīn)會運行的一(yī)種開源軟件框架,用于在大衆化(huà)計算(suàn)機集群上(shàng)分(fēn)布式存儲非常大的數據集。
很顯然,由于大數據需要大量的信息,存儲至關(guān)重要。但(dàn)除了(le)存儲外,還需要某種方式将所有這(zhè)些(xiē)數據彙集成某種格式化(huà)/治理(lǐ)結構,從而獲得洞察力。因此,大數據存儲和管理(lǐ)是真正的基礎――離開了(le)它,分(fēn)析平台一(yī)無是處。在一(yī)些(xiē)情況下(xià),這(zhè)些(xiē)解決方案還包括員(yuán)工培訓。
這(zhè)個(gè)領域的大玩(wán)家包括:
1. Cloudera
實際上(shàng)是增加了(le)一(yī)些(xiē)額外服務(wù)的Hadoop,你會需要它,因為(wèi)大數據不容易搞。Cloudera的服務(wù)團隊不僅可以幫助你構建大數據集群,還可以幫助培訓你的員(yuán)工,更好(hǎo)(hǎo)地訪問數據。
2. MongoDB
MongoDB是最受歡迎的大數據數據庫,因為(wèi)它适用于管理(lǐ)經常變化(huà)的數據:非結構化(huà)數據,大數據常常是非結構化(huà)數據。
3. Talend
作(zuò)為(wèi)一(yī)家提供廣泛解決方案的公司,Talend的産品圍繞其集成平台而建,該平台集大數據、雲、應用程序、實時(shí)數據集成、數據準備和主數據管理(lǐ)于一(yī)體(tǐ)。
Talend大數據集成平台包括數據質量和治理(lǐ)功能(néng)
二、大數據工具:數據清理(lǐ)
在你真正處理(lǐ)數據以獲取洞察力之前,需要清理(lǐ)和轉換數據,轉換成可遠(yuǎn)程搜索的内容。大數據集往往是非結構化(huà)、無組織的,因此需要某種清理(lǐ)或轉換。
當下(xià),數據可能(néng)來(lái)自任何地方:移動、物聯網和社交媒體(tǐ),數據清理(lǐ)顯得更為(wèi)必要。并非所有這(zhè)些(xiē)數據都可以輕松“清理(lǐ)”以獲得洞察力,因此優秀的數據清理(lǐ)工具極其重要。實際上(shàng),在未來(lái)幾年,預計經過有效清理(lǐ)的數據會是可接受的大數據系統與真正出色的大數據系統之間(jiān)的競争優勢。
4. OpenRefine
OpenRefine是一(yī)款易于使用的開源工具,通過删除重複項、空白字段及??其他錯誤來(lái)清理(lǐ)淩亂的數據。它是開源的,但(dàn)有一(yī)個(gè)相當大的社區可提供幫助。
5. DataCleaner
與OpenRefine一(yī)樣,DataCleaner可将半結構化(huà)數據集轉換成數據可視(shì)化(huà)工具可以讀取的幹淨可讀的數據集。該公司還提供數據倉庫和數據管理(lǐ)服務(wù)。
6. 微軟Excel
說(shuō)真的,Excel有其用途。你可以從各種數據源導入數據。Excel在手動數據輸入和複制/粘貼操作(zuò)方面特别有用。它能(néng)消除重複項,查找和替換内容,檢查拼寫,還有用于轉換數據的許多公式。但(dàn)Excel很快(kuài)陷入困境,不适合龐大數據集。
三、大數據工具:數據挖掘
一(yī)旦數據經過清理(lǐ)和準備,你可以通過數據挖掘開始搜索數據了(le)。這(zhè)時(shí)你執行這(zhè)個(gè)實際的過程:發現(xiàn)數據、做出決定和進行預測。
數據挖掘是大數據流程的真正核心。數據挖掘解決方案通常底層很複雜,但(dàn)竭力提供 一(yī)種外觀漂亮、對用戶友好(hǎo)(hǎo)的用戶界面,說(shuō)起來(lái)容易做起來(lái)難。數據挖掘工具面臨的另一(yī)個(gè)挑戰是:它們确實需要人(rén)來(lái)編制查詢,所以數據挖掘工具的好(hǎo)(hǎo)壞取決于使用它的專業人(rén)員(yuán)。
7. RapidMiner
RapidMiner是一(yī)款易于使用的預測分(fēn)析工具,有着對用戶友好(hǎo)(hǎo)的可視(shì)化(huà)界面,這(zhè)意味着你沒必要編寫代碼即可運行分(fēn)析産品。
8. IBM SPSS Modeler
IBM SPSS Modeler是一(yī)款包括五個(gè)數據挖掘産品的套件,面向企業級高級分(fēn)析。另外IBM的服務(wù)和咨詢首屈一(yī)指。
9. Teradata
Teradata為(wèi)數據倉庫、大數據和分(fēn)析以及營銷等應用提供端到端解決方案。這(zhè)一(yī)切意味着貴公司可以真正成為(wèi)數據驅動的公司,另外還有商(shāng)業服務(wù)、咨詢、培訓和支持。
與許多目前的大數據工具一(yī)樣,RapidMiner解決方案也(yě)支持雲
四、大數據工具:數據可視(shì)化(huà)
數據可視(shì)化(huà)是指以一(yī)種可讀、實用的格式顯示你的數據。你可以查看圖表圖形以及直觀顯示數據的其他圖像。
數據可視(shì)化(huà)既是一(yī)門科學,又是一(yī)門藝術。随着大數據從有大批數據科學家支持的高管轉移到整個(gè)公司上(shàng)下(xià),衆多員(yuán)工可以使用可視(shì)化(huà)工具極為(wèi)重要。銷售代表、IT支持和中層管理(lǐ),這(zhè)些(xiē)團隊個(gè)個(gè)都需要能(néng)夠理(lǐ)解數據,因此重點放(fàng)在易用性上(shàng)。然而,易于閱讀的可視(shì)化(huà)有時(shí)與來(lái)自深度特征集的數據讀出相沖突,這(zhè)帶來(lái)了(le)數據可視(shì)化(huà)工具面臨的主要挑戰之一(yī)。
10. Tableau
Tableau是該領域的領導者,其數據可視(shì)化(huà)工具專注于商(shāng)業智能(néng),無需懂得編程,即可創建各種地圖、圖表、圖形及更多可視(shì)化(huà)元素。它共有五款産品,一(yī)款名為(wèi)Tableau Public的免費版供潛在客戶試用。
11. Silk
Silk是Tableau的簡單版,讓你可以通過地圖和圖表将數據可視(shì)化(huà),無需任何編程。你在首次加載Silk時(shí),它甚至會試着将數據可視(shì)化(huà)。它還讓用戶很容易在網上(shàng)發布結果。
12. Chartio
Chartio使用自己的可視(shì)化(huà)查詢語言,隻要點擊幾下(xià)鼠标即可創建功能(néng)強大的儀表闆,無需懂得SQL或其他建模語言。它有别于其他工具的地方主要在于,你可以直接連接到數據庫,因此不需要數據倉庫。
13.IBM Watson Analytics
IBM Watson Analytics結合了(le)機器(qì)學習和人(rén)工智能(néng),有助于提供智能(néng)數據科學助手,為(wèi)業務(wù)分(fēn)析員(yuán)和數據科學家等。
大數據工具的三個(gè)層次
普華永道的移動數據和分(fēn)析計劃首席技術官Ritesh Ramesh表示,就(jiù)先進程度和市(shì)場(chǎng)戰略而言,大數據工具可分(fēn)成三層金(jīn)字塔。
第一(yī)層:最龐大的是一(yī)系列開源工具。每家公司以開源起家,像Cloudera和Hortonworks。除了(le)基本的基礎設施、服務(wù)器(qì)和存儲外,沒有多大的價值。大多數雲廠商(shāng)已将這(zhè)一(yī)層實現(xiàn)了(le)商(shāng)品化(huà)。
第二層:在這(zhè)一(yī)層,大多數這(zhè)類廠商(shāng)已有意增加各自的市(shì)場(chǎng)份額,在開源工具上(shàng)面構建一(yī)些(xiē)專有應用程序,從而做到與衆不同。舉例說(shuō),Cloudera開發了(le)許多産品,比如(rú)駐留在Hadoop核心上(shàng)的數據科學平台。
第三層:這(zhè)些(xiē)是針對特定垂直領域的應用程序。這(zhè)些(xiē)公司大多與普華永道、高知特或埃森哲等系統集成商(shāng)合作(zuò)。真正的價值出在這(zhè)裏,這(zhè)對大數據工具開發商(shāng)來(lái)說(shuō)也(yě)是非常有效的競争策略。
Ramesh表示,除了(le)基本功能(néng)外,這(zhè)些(xiē)工具的三大方面備受歡迎。首先是數據處理(lǐ)工具。他說(shuō):“數據學習工具是客戶的工具箱中确保數據質量和分(fēn)析數據的重要工具,比如(rú)處理(lǐ)5000萬行數據以發現(xiàn)洞察力。”
他表示,領先的廠商(shāng)包括Trifacta、Paxata和Talend。
第二大類應用程序是治理(lǐ),比如(rú)你如(rú)何定義元數據。他說(shuō):“好(hǎo)(hǎo)多人(rén)在這(zhè)方面遇到困難。人(rén)們隻是将大量垃圾數據倒到數據湖。市(shì)面上(shàng)可在數據湖中積極發揮功效的工具不多。由于這(zhè)項工作(zuò)主要由IT人(rén)員(yuán)完成,他們更有興趣将數據倒到數據湖,而不是确立一(yī)種治理(lǐ)結構。”
主要廠商(shāng)包括Waterline Data、以數據編目工具見長的Tamr和Collibra。
Ramesh說(shuō),經常出現(xiàn)的第三大需求是安全。他說(shuō):“人(rén)們希望一(yī)個(gè)産品就(jiù)有安全訪問的所有層(列、行和對象)。他們希望一(yī)款産品為(wèi)不同的數據對象支持用戶訪問和安全。這(zhè)也(yě)是個(gè)新(xīn)興領域。”
這(zhè)個(gè)領域的主要廠商(shāng)是Wandisco和FireEye。
2018貴陽大數據研討(tǎo)會暨學術年會即将在貴陽維也(yě)納國際酒店(diàn)召開,敬請期待!
來(lái)源:網絡大數據