您當(dāng)前所在位置：知道網(wǎng)絡(luò) > 新聞 > 公司新聞

我們

【知道網(wǎng)絡(luò)】每個(gè)人都應(yīng)該知道的15個(gè)大數(shù)據(jù)術(shù)語

1.算法。“算法”如何與大數(shù)據(jù)相關(guān)?即使算法是一個(gè)通用術(shù)語，但大數(shù)據(jù)分析使其在當(dāng)代更受青睞和流行。

2.分析。年末你可能會(huì)收到一份來自信用卡公司寄來的包含了全年所有交易記錄的年終報(bào)表。如果你有興趣進(jìn)一步分析自己在食物、衣服、娛樂等方面具體花費(fèi)占比呢?那你便是在做“分析”了。你正從一堆原始數(shù)據(jù)中來吸取經(jīng)驗(yàn)，以幫助自己為來年的消費(fèi)做出決策。如果你正在針對(duì)整個(gè)城市人群對(duì)Twitter或Facebook的帖子做同樣的練習(xí)呢?那我們便是在討論大數(shù)據(jù)分析了。大數(shù)據(jù)分析的實(shí)質(zhì)是利用大量數(shù)據(jù)來進(jìn)行推斷和講故事。大數(shù)據(jù)分析有3種不同到的類型，接下來便繼續(xù)本話題進(jìn)行依次討論。

3.描述性分析。剛剛?cè)绻愀嬖V我，去年你的信用卡消費(fèi)在食物上花費(fèi)了25%、在服裝上花費(fèi)了35%、娛樂活動(dòng)上花費(fèi)了20%、剩下的就是雜七雜八的事項(xiàng)，這種便是描述性分析。當(dāng)然你還可以參考更多的細(xì)節(jié)。

4.預(yù)測(cè)分析。如果你根據(jù)過去5年的信用卡歷史記錄來進(jìn)行分析，并且劃分具有一定的連續(xù)性，則你可以高概率預(yù)測(cè)明年將與過去幾年相差無幾。此處需要注意的細(xì)節(jié)是，這并不是“預(yù)測(cè)未來”，而是未來可能會(huì)發(fā)生的“概率”。在大數(shù)據(jù)預(yù)測(cè)分析中，數(shù)據(jù)科學(xué)家可能會(huì)使用類似機(jī)器學(xué)習(xí)、高級(jí)的統(tǒng)計(jì)過程(后文將對(duì)這些術(shù)語進(jìn)行介紹)等先進(jìn)的技術(shù)去預(yù)測(cè)天氣、經(jīng)濟(jì)變化等。

5.規(guī)范分析。沿用信用卡交易的案例，你可能想要找出哪方面的支出(級(jí)食品、服裝、娛樂等)對(duì)自己的整體支出產(chǎn)生巨大的影響。規(guī)范分析建立在預(yù)測(cè)分析的基礎(chǔ)之上，包含了“行動(dòng)”記錄(例如減少食品、服裝、娛樂支出)，并分析所得結(jié)果來“規(guī)定”最佳類別以減少總體支出。你可以嘗試將其發(fā)散到大數(shù)據(jù)，并設(shè)想高管們?nèi)绾瓮ㄟ^查看各種行動(dòng)的影響來做出數(shù)據(jù)驅(qū)動(dòng)的決策。

6.批處理。雖然批量數(shù)據(jù)處理在大型機(jī)時(shí)代就早已出現(xiàn)，但大數(shù)據(jù)交給它更多大數(shù)據(jù)集處理，因此賦予了批處理更多的意義。對(duì)于一段時(shí)間內(nèi)收集到的一組事務(wù)，批量數(shù)據(jù)處理為處理大量數(shù)據(jù)提供了一種有效的方法。后文將介紹的Hadoop便是專注于批量數(shù)據(jù)處理。超越批處理的世界：流計(jì)算使用Spark SQL構(gòu)建批處理程序。

7. Cassandra是由Apache Software Foundation管理的一款流行的開源數(shù)據(jù)庫管理系統(tǒng)。很多大數(shù)據(jù)技術(shù)都?xì)w功于Apache，其中Cassandra的設(shè)計(jì)初衷便是處理跨分布式服務(wù)器的大量數(shù)據(jù)。

8. 云計(jì)算。顯而易見云計(jì)算已經(jīng)變得無所不在，所以本文可能無須贅述，但為了文章的完整性還是佐以介紹。云計(jì)算的本質(zhì)是在遠(yuǎn)程服務(wù)器上運(yùn)行的軟件和(/或)數(shù)據(jù)托管，并允許從互聯(lián)網(wǎng)上的任何地方進(jìn)行訪問。

9. 集群計(jì)算。它是一種利用多臺(tái)服務(wù)器的匯集資源的“集群”來進(jìn)行計(jì)算的奇特方式。在了解了更多技術(shù)之后，我們可能還會(huì)討論節(jié)點(diǎn)、集群管理層、負(fù)載平衡和并行處理等。

10. 黑暗數(shù)據(jù)。依我看來，這個(gè)詞適用于那些嚇得六神無主的高級(jí)管理層們。從根本上來說，黑暗數(shù)據(jù)是指那些被企業(yè)收集和處理但又不用于任何有意義用途的數(shù)據(jù)，因此描述它是“黑暗的”，它們可能永遠(yuǎn)被埋沒。它們可能是社交網(wǎng)絡(luò)信息流、呼叫中心日志、會(huì)議筆記，諸如此類。人們做出了諸多估計(jì)，在60-90%的所有企業(yè)數(shù)據(jù)都可能是“黑暗數(shù)據(jù)”，但無人真正知曉。

11. 數(shù)據(jù)湖。當(dāng)我第一次聽到這個(gè)詞的時(shí)候，我真的以為有人在開愚人節(jié)的玩笑。但它真的是個(gè)術(shù)語!數(shù)據(jù)湖是一個(gè)原始格式的企業(yè)級(jí)數(shù)據(jù)的大型存儲(chǔ)庫。雖然此處討論的是數(shù)據(jù)湖，但有必要再一起討論下數(shù)據(jù)倉庫，因?yàn)閿?shù)據(jù)湖和數(shù)據(jù)倉庫在概念上是極其相似的，都是企業(yè)級(jí)數(shù)據(jù)的存儲(chǔ)庫，但在清理和與其他數(shù)據(jù)源集成之后的結(jié)構(gòu)化格式上有所區(qū)別。數(shù)據(jù)倉庫常用于常規(guī)數(shù)據(jù)(但不完全)。據(jù)說數(shù)據(jù)湖能夠讓用戶輕松訪問企業(yè)級(jí)數(shù)據(jù)，用戶真正按需知道自己正在尋找的是什么、如何處理并讓其智能化使用。擁抱開源技術(shù)的前提——認(rèn)識(shí)數(shù)據(jù)湖你知道數(shù)據(jù)湖泊(DATA LAKE)嗎?

12. 數(shù)據(jù)挖掘。數(shù)據(jù)挖掘是指利用復(fù)雜的模式識(shí)別技術(shù)從大量數(shù)據(jù)中找到有意義的模式、提取見解。這與我們前文討論的使用個(gè)人數(shù)據(jù)做分析的術(shù)語“分析”密切相關(guān)。為了提取出有意義的模式，數(shù)據(jù)挖掘者使用統(tǒng)計(jì)學(xué)(是呀，好老的數(shù)學(xué))、機(jī)器學(xué)習(xí)算法和人工智能。

13.數(shù)據(jù)科學(xué)家。我們談?wù)摰氖且粋€(gè)如此熱門的職業(yè)!數(shù)據(jù)科學(xué)家們可以通過提取原始數(shù)據(jù)(難道是從前文所說的數(shù)據(jù)湖中提取的?)，處理數(shù)據(jù)，然后提出新見解。數(shù)據(jù)科學(xué)家所需具備的一些技能與超人無異：分析、統(tǒng)計(jì)、計(jì)算機(jī)科學(xué)、創(chuàng)造力、故事講述和理解業(yè)務(wù)環(huán)境。難怪他們能獲得如此高的薪水報(bào)酬。

14.分布式文件系統(tǒng)。由于大數(shù)據(jù)太大而無法在單個(gè)系統(tǒng)上進(jìn)行存儲(chǔ)，分布式文件系統(tǒng)提供一種數(shù)據(jù)存儲(chǔ)系統(tǒng)，方便跨多個(gè)存儲(chǔ)設(shè)備進(jìn)行大量數(shù)據(jù)的存放，并有助于降低大量數(shù)據(jù)存儲(chǔ)的成本和復(fù)雜度。

15. ETL。ETL分別是extract，transform，load的首字母縮寫，代表提取、轉(zhuǎn)化和加載的過程。它具體是指“提取”原始數(shù)據(jù)，通過數(shù)據(jù)清洗/修飾的方式進(jìn)行“轉(zhuǎn)化”以獲得 “適合使用”的數(shù)據(jù)，進(jìn)而“加載”到合適的存儲(chǔ)庫中供系統(tǒng)使用的整個(gè)過程。盡管ETL這一概念源于數(shù)據(jù)倉庫，但現(xiàn)在也適用于其它情景下的過程，例如在大數(shù)據(jù)系統(tǒng)中從外部數(shù)據(jù)源獲取/吸收數(shù)據(jù)。

青島知道網(wǎng)絡(luò)-專注企業(yè)網(wǎng)站建設(shè)與網(wǎng)絡(luò)推廣-全網(wǎng)整合營(yíng)銷

亚洲国产一区二区三区在线观看,亚洲日韩精品A∨片无码,欧美自拍嘿咻内射在线观看,ZZIJZZIJ亚洲日本少妇

我們

推薦閱讀