●得大數(shù)據(jù)者得天下,是一些推崇大數(shù)據(jù)時(shí)代的變革者堅(jiān)信不疑的判斷。很多專家認(rèn)為,在大數(shù)據(jù)時(shí)代,誰能有效地壟斷數(shù)據(jù),誰就有可能成為世界霸主。
●2009年爆發(fā)甲型H1N1流感病毒時(shí),谷歌公司就是通過觀察人們在網(wǎng)上搜索的大量記錄,在流感爆發(fā)幾周前,就判斷出流感是從哪里傳播出來的。
●大數(shù)據(jù)及其分析,將會(huì)在未來10年改變幾乎每一個(gè)行業(yè)的業(yè)務(wù)功能。根據(jù)麥肯錫預(yù)測,如果具備相關(guān)的IT設(shè)施、數(shù)據(jù)庫投資和分析能力等條件,大數(shù)據(jù)將在未來10年,使美國醫(yī)療市場獲得每年3000億美元的新價(jià)值。
2012年3月,美國奧巴馬政府發(fā)起了《大數(shù)據(jù)研究和發(fā)展倡議》,將大數(shù)據(jù)定義為“未來的新石油”,稱將斥資2億美元用于大數(shù)據(jù)研究,以應(yīng)對(duì)大數(shù)據(jù)革命正在帶來的大機(jī)遇。據(jù)美國咨詢機(jī)構(gòu)Gartner預(yù)測,從現(xiàn)在起到2015年,大數(shù)據(jù)將會(huì)在世界范圍內(nèi)創(chuàng)造440萬個(gè)工作崗位。
“大數(shù)據(jù)”,這一新興概念,正在被賦予極其豐富的內(nèi)涵,并被寄予特別巨大的希望……大數(shù)據(jù)時(shí)代,我們該如何尋找對(duì)策,迎接挑戰(zhàn)?
人類正在邁入大數(shù)據(jù)時(shí)代
關(guān)于“大數(shù)據(jù)(Big Data)”,麥肯錫全球研究所在報(bào)告《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個(gè)前沿》中定義:大數(shù)據(jù),是指大小超出了傳統(tǒng)數(shù)據(jù)庫軟件工具的抓取、存儲(chǔ)、管理和分析能力的數(shù)據(jù)群。也有專家認(rèn)為,大數(shù)據(jù)的“大”是指大型數(shù)據(jù)集,即數(shù)據(jù)量一般在10TB規(guī)模左右;多個(gè)用戶把多個(gè)數(shù)據(jù)集放在一起,形成PB級(jí)的數(shù)據(jù)量;同時(shí),這些數(shù)據(jù)又來自多種數(shù)據(jù)源,并以實(shí)時(shí)、迭代的方式來實(shí)現(xiàn),即“大數(shù)據(jù)=海量數(shù)據(jù)+復(fù)雜類型的數(shù)據(jù)”。
我們正處在一個(gè)數(shù)據(jù)爆發(fā)增長的時(shí)代。移動(dòng)互聯(lián)網(wǎng)、移動(dòng)終端和數(shù)據(jù)感應(yīng)器的出現(xiàn),使數(shù)據(jù)以超出人們想象的速度在快速增長。據(jù)國際數(shù)據(jù)資訊公司(Global Pulse)估測,數(shù)據(jù)數(shù)量一直在快速增加,每年增長50%,這個(gè)速度不僅是指數(shù)據(jù)流的增長,而且還包括全新的數(shù)據(jù)種類的增多。據(jù)統(tǒng)計(jì),全球企業(yè)2010年在硬盤上存儲(chǔ)了超過7EB的新數(shù)據(jù),消費(fèi)者在PC和筆記本電腦等設(shè)備上存儲(chǔ)了超過6EB新數(shù)據(jù),而1EB數(shù)據(jù)就相當(dāng)于美國國會(huì)圖書館中存儲(chǔ)數(shù)據(jù)的4000多倍。目前數(shù)據(jù)容量增長的速度,已經(jīng)大大超過了硬件技術(shù)的發(fā)展速度,并正在引發(fā)數(shù)據(jù)存儲(chǔ)和處理的危機(jī)。
有研究統(tǒng)計(jì),從人類文明開始到2003年,人類共創(chuàng)造了5TB(兆億字節(jié))的信息。而現(xiàn)在,這樣的數(shù)據(jù)量卻僅需兩天就能夠被創(chuàng)造出來,且速度仍在加快。數(shù)據(jù)顯示,2011年全球創(chuàng)建和復(fù)制的數(shù)據(jù)總量,就達(dá)到了1.8ZB(1ZB等于10的21次方比特),相當(dāng)于全球每人產(chǎn)生300GB以上的數(shù)據(jù)。目前這個(gè)數(shù)字仍在快速增長,預(yù)計(jì)2020年,全球產(chǎn)生的數(shù)據(jù)量更將超過80ZB。由此可見,我們的確已經(jīng)邁入了大數(shù)據(jù)時(shí)代。
世界各國加緊大數(shù)據(jù)布局
世界上許多國家都已經(jīng)認(rèn)識(shí)到了大數(shù)據(jù)所蘊(yùn)含的重要戰(zhàn)略意義,紛紛開始在國家層面進(jìn)行戰(zhàn)略部署,以迎接大數(shù)據(jù)技術(shù)革命,正在帶來的新機(jī)遇和新挑戰(zhàn)。
美國在《大數(shù)據(jù)研究和發(fā)展倡議》中,提出將通過收集龐大而復(fù)雜的數(shù)字資料,從中獲得知識(shí)和洞見,以提升能力。并協(xié)助加速在科學(xué)、工程上發(fā)現(xiàn)的步伐,強(qiáng)化美國國土安全,轉(zhuǎn)變教育和學(xué)習(xí)模式。根據(jù)這一計(jì)劃,美國希望利用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)在多個(gè)領(lǐng)域的突破,包括科研教學(xué)、環(huán)境保護(hù)、工程技術(shù)、國土安全、生物醫(yī)藥等。其中具體的研發(fā)計(jì)劃涉及了美國國家科學(xué)基金會(huì)、國家衛(wèi)生研究院、國防部、能源部、國防部高級(jí)研究局、地質(zhì)勘探局等6個(gè)聯(lián)邦部門和機(jī)構(gòu)。
英國政府2012年計(jì)劃在未來兩年內(nèi),在大數(shù)據(jù)和節(jié)能計(jì)算研究上投資1.89億英鎊,以帶動(dòng)企業(yè)在該領(lǐng)域的投資。大數(shù)據(jù)被英國看作是自己的優(yōu)勢所在,且英國認(rèn)為已在政府層面,為大數(shù)據(jù)做好了準(zhǔn)備。
法國政府宣布將在2013年投入1150萬歐元,用于7個(gè)大數(shù)據(jù)市場研發(fā)項(xiàng)目。目的在于“通過發(fā)展創(chuàng)新性解決方案,并將其用于實(shí)踐,來促進(jìn)法國在大數(shù)據(jù)領(lǐng)域的發(fā)展!狈▏凇稊(shù)字化路線圖》中列出了五項(xiàng)將大力支持的戰(zhàn)略性高新技術(shù),“大數(shù)據(jù)”就是其中一項(xiàng)。
日本在2012新一輪IT振興計(jì)劃中,將發(fā)展大數(shù)據(jù)作為國家戰(zhàn)略層面提出,重點(diǎn)關(guān)注大數(shù)據(jù)應(yīng)用技術(shù),如社會(huì)化媒體等智能技術(shù)的開發(fā)、新醫(yī)療技術(shù)的開發(fā)、以及交通擁堵治理等公共領(lǐng)域的應(yīng)用。
此外,加拿大、新西蘭、德國和印度等國也在大數(shù)據(jù)領(lǐng)域進(jìn)行了研究部署,還紛紛推出本國的公共數(shù)據(jù)開放網(wǎng)站,以使更多的人可以使用大數(shù)據(jù)資源,并從中獲得利益。目前,全球已經(jīng)擁有大大小小的數(shù)據(jù)開放網(wǎng)站50余個(gè)。
大數(shù)據(jù)將給世界帶來巨大沖擊
“大數(shù)據(jù)資源”成為重要戰(zhàn)略資源
互聯(lián)網(wǎng)時(shí)代,“資源”的含義正在發(fā)生極大的變化,它已不再僅僅只是指煤、石油、礦產(chǎn)等一些看得見、摸得著的實(shí)體,“大數(shù)據(jù)”,也正在演變成不可或缺的戰(zhàn)略資源;ヂ(lián)網(wǎng)、物聯(lián)網(wǎng)每天都在產(chǎn)生大量的數(shù)據(jù),這些龐大的數(shù)據(jù)資源,為人們依據(jù)數(shù)據(jù)了解世界、了解市場、了解人們的生活提供了可能。大數(shù)據(jù)已經(jīng)被視為一種資產(chǎn)、一種財(cái)富、一種可以被衡量和計(jì)算的價(jià)值。得大數(shù)據(jù)者得天下,是一些推崇大數(shù)據(jù)時(shí)代的變革者所堅(jiān)信不疑的判斷。
很多專家認(rèn)為,在大數(shù)據(jù)時(shí)代,誰能有效的壟斷數(shù)據(jù),誰就有可能成為世界的霸主。2006年,微軟以1.1億美元的價(jià)格,購買了大數(shù)據(jù)公司Farecast。2008年,谷歌則以7億美元的價(jià)格,購買了為Farecast提供數(shù)據(jù)的ITA Software公司。
“大數(shù)據(jù)安全”上升為國家安全
傳統(tǒng)意義上的國家安全,是指軍隊(duì)對(duì)國家領(lǐng)土安全的保護(hù),是國家之間軍事實(shí)力的較量。但在互聯(lián)網(wǎng)高度發(fā)達(dá)的大數(shù)據(jù)時(shí)代,網(wǎng)絡(luò)變成了幾乎是透明的虛擬世界,也因此使國家安全的環(huán)境和內(nèi)涵發(fā)生了極大的變化,對(duì)大數(shù)據(jù)的安全保存、防丟失和防破壞等問題,成為我們必須要面對(duì)的安全難題。大數(shù)據(jù)安全,已經(jīng)上升成為國家安全的重要組成部分!
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)安全的威脅隨時(shí)都有可能發(fā)生。各種國家信息基礎(chǔ)設(shè)施和重要機(jī)構(gòu)所承載著的龐大數(shù)據(jù)信息,如由信息網(wǎng)絡(luò)系統(tǒng)所控制的石油和天然氣管道、水、電力、交通、銀行、金融、商業(yè)和軍事等,都有可能成為被攻擊的目標(biāo)。
此外,大數(shù)據(jù)也為網(wǎng)絡(luò)恐怖分子提供了新的資源支持,有可能使恐怖分子通過網(wǎng)絡(luò)侵入到人們工作生活的方方面面,并通過威脅、攻擊、破壞,癱瘓民用或軍事基礎(chǔ)設(shè)施等手段,達(dá)到其制造心理恐慌和財(cái)產(chǎn)損失,威脅國家安全和社會(huì)安全的目的。
“大數(shù)據(jù)決策”成為一種新決策方式
依據(jù)大數(shù)據(jù)進(jìn)行決策,從數(shù)據(jù)中獲取價(jià)值,讓數(shù)據(jù)主導(dǎo)決策,是一種前所未有的決策方式,并正在推動(dòng)著人類信息管理準(zhǔn)則的重新定位。隨著大數(shù)據(jù)分析和預(yù)測性分析對(duì)管理決策影響力的逐漸加大,依靠直覺做決定的狀況將會(huì)被徹底改變。
2009年爆發(fā)的甲型H1N1流感病毒,谷歌公司就是通過觀察人們在網(wǎng)上搜索的大量記錄,在流感爆發(fā)的幾周前,就判斷出流感是從哪里傳播出來的,從而使公共衛(wèi)生機(jī)構(gòu)的官員獲得了極有價(jià)值的數(shù)據(jù)信息,并做出有針對(duì)性的行動(dòng)決策,而這比疾控中心的判斷,提前了一兩周。美國的Farecast系統(tǒng),它的一個(gè)功能就是飛機(jī)票價(jià)預(yù)測,它通過從旅游網(wǎng)站獲得的大量數(shù)據(jù),分析41天之內(nèi)的12000個(gè)價(jià)格樣本,分析所有特定航線機(jī)票的銷售價(jià)格,并預(yù)測出當(dāng)前機(jī)票價(jià)格在未來一段時(shí)間內(nèi)的漲降走勢,從而幫助虛擬乘客選擇最佳的購票時(shí)機(jī),并降低可觀的購票成本。
“大數(shù)據(jù)應(yīng)用”促進(jìn)信息技術(shù)與各行業(yè)深度融合
有專家指出,大數(shù)據(jù)及其分析,將會(huì)在未來10年改變幾乎每一個(gè)行業(yè)的業(yè)務(wù)功能。從科學(xué)研究到醫(yī)療保險(xiǎn),從銀行業(yè)到互聯(lián)網(wǎng),各個(gè)不同的領(lǐng)域都在遭遇爆發(fā)式增長的數(shù)據(jù)量。在美國的17個(gè)行業(yè)中,已經(jīng)有15個(gè)行業(yè)大公司擁有大量的數(shù)據(jù),其平均擁有的數(shù)據(jù)量已經(jīng)遠(yuǎn)遠(yuǎn)超過了美國國會(huì)圖書館所擁有的數(shù)據(jù)量。
在醫(yī)療與健康行業(yè),根據(jù)麥肯錫預(yù)測,如果具備相關(guān)的IT設(shè)施、數(shù)據(jù)庫投資和分析能力等條件,大數(shù)據(jù)將在未來10年,使美國醫(yī)療市場獲得每年3000億美元的新價(jià)值,并削減2/3的全國醫(yī)療開支。
在制造業(yè)領(lǐng)域,制造企業(yè)為管理產(chǎn)品生命周期將采用IT系統(tǒng),包括電腦輔助設(shè)計(jì)、工程、制造、產(chǎn)品開發(fā)管理工具和數(shù)字制造,制造商可以建立一個(gè)產(chǎn)品生命周期管理平臺(tái)PLM(Product Lifecycle Management),從而將多種系統(tǒng)的數(shù)據(jù)集整合在一起,共同創(chuàng)造出新的產(chǎn)品。
此外,在交通、能源、材料、商業(yè)和服務(wù)等行業(yè)領(lǐng)域,甚至在新聞傳媒領(lǐng)域,也都在以大數(shù)據(jù)為發(fā)展契機(jī),加速這些行業(yè)與信息技術(shù)的深度融合。
“大數(shù)據(jù)開發(fā)”推動(dòng)新技術(shù)和新應(yīng)用不斷涌現(xiàn)
大數(shù)據(jù)的應(yīng)用需求,是大數(shù)據(jù)新技術(shù)開發(fā)的源泉。在不久的將來,也許很多原來單純依靠人類自身判斷力的領(lǐng)域應(yīng)用,最終都將被計(jì)算機(jī)系統(tǒng)的數(shù)據(jù)分析和數(shù)據(jù)挖掘功能,所普遍改變甚至取代。一小片合適的信息,也許會(huì)促使創(chuàng)新邁進(jìn)一大步;一組數(shù)據(jù),也可能會(huì)得到數(shù)據(jù)收集人難以想象的應(yīng)用,甚至可能在另一個(gè)看起來毫不相關(guān)的領(lǐng)域得到應(yīng)用。借助這些創(chuàng)新型的大數(shù)據(jù)應(yīng)用,數(shù)據(jù)的能量將會(huì)層層被放大。
“語義網(wǎng)(Semantic Web)”,也稱為下一代互聯(lián)網(wǎng),實(shí)際上就是“數(shù)據(jù)網(wǎng)”(Web of Data)。語義網(wǎng)是一個(gè)全球的數(shù)據(jù)庫網(wǎng),在這個(gè)數(shù)據(jù)庫網(wǎng)中,計(jì)算機(jī)可自動(dòng)為用戶搜尋、檢索和集成網(wǎng)上的信息,而不再需要搜索引擎。大數(shù)據(jù)時(shí)代正在催生的這個(gè)最大的技術(shù)變革,就是要重新構(gòu)造互聯(lián)網(wǎng),打造出下一代互聯(lián)網(wǎng)。
數(shù)據(jù)安全管理是最大風(fēng)險(xiǎn)
大數(shù)據(jù)時(shí)代的來臨,對(duì)中國來說面臨安全管理能力、存儲(chǔ)及處理能力、應(yīng)用能力和人才培養(yǎng)能力等多方面的新挑戰(zhàn)。
大數(shù)據(jù)的安全管理能力挑戰(zhàn)。數(shù)據(jù)安全管理問題,是我國應(yīng)用大數(shù)據(jù)面臨的最大風(fēng)險(xiǎn)。雖然將海量數(shù)據(jù)集中存儲(chǔ),方便了數(shù)據(jù)分析和處理,但由于安全管理不當(dāng)所造成的大數(shù)據(jù)丟失和損壞,則將引發(fā)毀滅性的災(zāi)難。有專家指出:由于新技術(shù)的產(chǎn)生和發(fā)展,對(duì)隱私權(quán)的侵犯已經(jīng)不再需要物理的、強(qiáng)制性的侵入,而是以更加微妙的方式廣泛衍生,由此所引發(fā)的數(shù)據(jù)風(fēng)險(xiǎn)和隱私風(fēng)險(xiǎn),也將更為嚴(yán)重。
當(dāng)前,我國對(duì)大數(shù)據(jù)的保護(hù)能力還十分有限,數(shù)據(jù)被惡意使用的現(xiàn)象仍然難以掌控。我國個(gè)人和企業(yè)對(duì)于數(shù)據(jù)資源的保護(hù)意識(shí),還比較薄弱。隨著電子商務(wù)、社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、云計(jì)算、以及移動(dòng)互聯(lián)網(wǎng)的全面普及,我國數(shù)據(jù)資源與全球的數(shù)據(jù)資源一樣,正在呈現(xiàn)爆發(fā)性、多樣性的增長態(tài)勢。但是,由于對(duì)數(shù)據(jù)保護(hù)認(rèn)識(shí)的不足,以及對(duì)個(gè)人電腦安全防護(hù)的不當(dāng),個(gè)人或企業(yè)的隱私數(shù)據(jù)暴露在互聯(lián)網(wǎng)上的現(xiàn)象十分普遍。2011年,我國最大程序員網(wǎng)站的600萬個(gè)人信息和郵箱密碼被黑客公開,進(jìn)而引發(fā)了連鎖的泄密事件。2013年,中國人壽80萬客戶的個(gè)人保單信息發(fā)現(xiàn)被泄露。這些事件都凸顯出在大數(shù)據(jù)時(shí)代,信息安全管理所面臨的、前所未有的挑戰(zhàn)。
大數(shù)據(jù)的存儲(chǔ)及處理能力挑戰(zhàn)。當(dāng)前,我國大數(shù)據(jù)存儲(chǔ)、分析和處理的能力還很薄弱,與大數(shù)據(jù)相關(guān)的技術(shù)和工具的運(yùn)用也相當(dāng)不成熟,大部分企業(yè)仍處于IT產(chǎn)業(yè)鏈的低端。我國在數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘以及云計(jì)算等領(lǐng)域的技術(shù),普遍落后于國外先進(jìn)水平。
在大數(shù)據(jù)存儲(chǔ)方面,數(shù)據(jù)的爆炸式增長,數(shù)據(jù)來源的極其豐富和數(shù)據(jù)類型的多種多樣,使數(shù)據(jù)存儲(chǔ)量更龐大,對(duì)數(shù)據(jù)展現(xiàn)的要求更高。而目前我國傳統(tǒng)的數(shù)據(jù)庫,還難以存儲(chǔ)如此巨大的數(shù)據(jù)量。在大數(shù)據(jù)的分析處理方面,由于針對(duì)具體的應(yīng)用類型,需要采用不同的處理方式,因此必須通過建立高級(jí)大數(shù)據(jù)的分析模型,來實(shí)現(xiàn)快速抽取大數(shù)據(jù)的核心數(shù)據(jù)、高效分析這些核心數(shù)據(jù)并從中發(fā)現(xiàn)價(jià)值,而這些數(shù)據(jù)分析能力我國還很欠缺。
因此,如何提高我國對(duì)大數(shù)據(jù)資源的存儲(chǔ)和整合能力,實(shí)現(xiàn)從大數(shù)據(jù)中發(fā)現(xiàn)、挖掘出有價(jià)值的信息和知識(shí),是當(dāng)前我國大數(shù)據(jù)存儲(chǔ)和處理所面臨的挑戰(zhàn)。
大數(shù)據(jù)的應(yīng)用能力挑戰(zhàn)。我國擁有龐大的人口資源和大數(shù)據(jù)應(yīng)用市場,市場復(fù)雜度高且變化多端,使我國成為世界上最復(fù)雜的大數(shù)據(jù)國家。我國互聯(lián)網(wǎng)用戶,通過利用互聯(lián)網(wǎng)上的海量數(shù)據(jù)來提升自身的商業(yè)價(jià)值和科研價(jià)值。我國企業(yè)用戶,也已積累了大量的數(shù)據(jù)信息資產(chǎn),如產(chǎn)品數(shù)據(jù)、運(yùn)營數(shù)據(jù)和價(jià)值鏈數(shù)據(jù)等。隨著我國企業(yè)信息化系統(tǒng)的深入部署和逐步完善,大數(shù)據(jù)應(yīng)用能力所引發(fā)的商業(yè)模式的改變,將直接影響我國企業(yè)的競爭能力。
在政府決策方面,當(dāng)前我國政府部門的數(shù)據(jù)規(guī)模還很小,多數(shù)仍集中在對(duì)結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用上,而對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的利用則幾乎為空白。利用數(shù)據(jù)分析來支撐政府決策,我國做得還很不夠。從認(rèn)識(shí)到“大數(shù)據(jù)能產(chǎn)生價(jià)值”,到實(shí)現(xiàn)了“從大數(shù)據(jù)中找到價(jià)值”,再到“有效使用大數(shù)據(jù)產(chǎn)生的價(jià)值”,政府目前也只是剛剛起步。當(dāng)前,如何收集數(shù)據(jù)、使用數(shù)據(jù)、開放數(shù)據(jù)、管理數(shù)據(jù)和利用數(shù)據(jù)來支撐決策,是我國面臨的又一新挑戰(zhàn)。
大數(shù)據(jù)的人才培養(yǎng)能力挑戰(zhàn)。大數(shù)據(jù)領(lǐng)域技術(shù)人才和商業(yè)人才的缺乏,是一個(gè)全球性的問題。根據(jù)麥肯錫的一項(xiàng)研究顯示,僅美國每年就有14萬到19萬名數(shù)據(jù)科學(xué)家的缺口,預(yù)計(jì)到2018年將達(dá)到44萬到49萬,而數(shù)據(jù)科學(xué)家則更是嚴(yán)重缺乏。
我國大數(shù)據(jù)分析專業(yè)人才缺口究竟有多大,有專家粗略估算至少需要100萬人。當(dāng)前,具備綜合掌控?cái)?shù)學(xué)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)等方面知識(shí)的復(fù)合型人才,同時(shí)又可承擔(dān)數(shù)據(jù)分析和數(shù)據(jù)挖掘的數(shù)據(jù)科學(xué)家,在我國尤為奇缺。目前,我國初級(jí)的分析人員只能對(duì)數(shù)據(jù)進(jìn)行簡單的報(bào)表和進(jìn)行描述性分析,而隨著未來大數(shù)據(jù)應(yīng)用的不斷增長,我國大數(shù)據(jù)人才儲(chǔ)備不足的問題將更加嚴(yán)重。因此,培養(yǎng)能夠解決大數(shù)據(jù)問題所需的人才,包括培養(yǎng)大數(shù)據(jù)分析人才和管理人才,是我們需要面對(duì)的又一緊迫問題。