大數(shù)據(jù)的概念與背景 大數(shù)據(jù)是最近幾年才熱起來的一個(gè)概念。大數(shù)據(jù)熱大約在2012年前后在中國出現(xiàn)。其中,涂子沛先生的《大數(shù)據(jù)》一書起到了重要的作用!俺松系,任何人都必須用數(shù)據(jù)來說話”這句話,更是得到了時(shí)任廣東省委書記汪洋(現(xiàn)為國務(wù)院副總理)的高度肯定。 讀過這本書的人都知道:涂子沛關(guān)注的重點(diǎn)是大數(shù)據(jù)對政治、社會(huì)、倫理等方面的影響。后來,各家互聯(lián)網(wǎng)公司、IT公司將人們關(guān)注的熱點(diǎn)引向了商業(yè)領(lǐng)域,再經(jīng)股評(píng)師的運(yùn)作,使之成為全社會(huì)炙手可熱的概念。與此同時(shí),學(xué)術(shù)界不失時(shí)機(jī)地將大數(shù)據(jù)的概念引入了工業(yè)界。 然而,工業(yè)界重視數(shù)據(jù)分析早已不是新鮮事了。人們很早就希望通過數(shù)據(jù)發(fā)現(xiàn)客觀規(guī)律、優(yōu)化生產(chǎn)過程。而數(shù)據(jù)挖掘等理論也早已廣泛傳播。對數(shù)據(jù)挖掘的價(jià)值,一種流行的觀點(diǎn)是:當(dāng)企業(yè)競爭進(jìn)入白熱化、所有手段都已用盡時(shí),數(shù)據(jù)挖掘提供了領(lǐng)先半步的可能。與現(xiàn)在的觀點(diǎn)相比,這個(gè)認(rèn)識(shí)是相當(dāng)?shù)驼{(diào)的。當(dāng)然,低調(diào)背后是有原因的,因?yàn)闃I(yè)界真正成功的案例其實(shí)非常少。 很多企業(yè)急于搭上“工業(yè)大數(shù)據(jù)”這趟快車,然而在現(xiàn)實(shí)中遇到了很多的困惑。 人們似乎都認(rèn)為數(shù)據(jù)的作用很大,但從事過工業(yè)數(shù)據(jù)分析的人往往有這樣的體會(huì):分析過程往往達(dá)不到預(yù)想的目標(biāo),數(shù)據(jù)似乎并不是傳說中的金礦。 這種困惑也體現(xiàn)在商務(wù)活動(dòng)中。企業(yè)信息化建設(shè)原本應(yīng)該遵循一個(gè)基本原則:用戶需求驅(qū)動(dòng)系統(tǒng)開發(fā)。從事大數(shù)據(jù)業(yè)務(wù)的IT公司對用戶說:你說怎么做,我就怎么做;用戶卻說:我不知道能得到什么,也不知道該怎么做,最好你告訴我怎么做。 誰都不知道怎么做。于是,大家都被暢銷書的理念忽悠著做事。然而,暢銷書的觀點(diǎn)是正確的嗎? 暢銷書上的觀點(diǎn)往往對不上中國企業(yè)的現(xiàn)狀———或?qū)⑸虅?wù)大數(shù)據(jù)的應(yīng)用場景套在工業(yè)大數(shù)據(jù),或?qū)⑽磥淼膱鼍疤子玫浆F(xiàn)在。 工業(yè)大數(shù)據(jù)與商務(wù)大數(shù)據(jù)有什么不同? 現(xiàn)在關(guān)于大數(shù)據(jù)的流行觀點(diǎn),幾乎都是針對商務(wù)大數(shù)據(jù)的。然而,許多觀點(diǎn)可能并不適合工業(yè)界。工業(yè)和商業(yè)至少有以下幾點(diǎn)不同: 可發(fā)現(xiàn)的新知識(shí)少。一般來說,發(fā)現(xiàn)新知識(shí)是大數(shù)據(jù)分析的一個(gè)重要目的。然而,在工業(yè)領(lǐng)域,人們對生產(chǎn)過程的研究一般比較深入,專業(yè)知識(shí)也很豐富,很難從數(shù)據(jù)中發(fā)現(xiàn)新的知識(shí)。與之相比,商務(wù)活動(dòng)的大數(shù)據(jù)分析往往涉及人的喜好,這些恰恰是過去難以量化研究的,故而大數(shù)據(jù)的含金量高。 對分析結(jié)果的質(zhì)量要求高。工業(yè)界對分析結(jié)果的精度和可靠度要求高。如果將不可靠、不精確的分析結(jié)果用于指導(dǎo)生產(chǎn),不僅不能創(chuàng)造價(jià)值,甚至可能導(dǎo)致極大的損失。與之相比,在許多商務(wù)大數(shù)據(jù)的應(yīng)用場景下,即便分析錯(cuò)誤,損失也不大。 分析難度高。工業(yè)系統(tǒng)往往是復(fù)雜的人造系統(tǒng),包含大量復(fù)雜的前饋和反饋環(huán)節(jié)。這意味著,變量間的相關(guān)性往往不是自然的因果關(guān)系。這個(gè)問題很容易誤導(dǎo)分析和決策的過程。另外,工業(yè)數(shù)據(jù)的信噪比往往比較低,分析結(jié)果很容易出現(xiàn)嚴(yán)重偏離事實(shí)的畸變(即所謂的有偏估計(jì))。 相關(guān)性包含的信息少。在商務(wù)大數(shù)據(jù)中,數(shù)據(jù)之間的“相關(guān)性”本身往往就具有很大的參考價(jià)值,而在工業(yè)體系中則未必是這樣。 工業(yè)大數(shù)據(jù)體現(xiàn)價(jià)值的場景有哪些? 價(jià)值是用戶決定的。一杯水,放在沙漠里可以救命,剩在餐桌上就是垃圾。工業(yè)大數(shù)據(jù)也是一樣,能否創(chuàng)造價(jià)值,首先是要看用在什么場景中。用戶對工業(yè)大數(shù)據(jù)提不出需求,是客觀現(xiàn)實(shí)的真實(shí)反映。大數(shù)據(jù)有用,但合適的應(yīng)用場景不一定是現(xiàn)在。下面分析幾個(gè)有用的場景: 質(zhì)量要求高的生產(chǎn)場景。制造業(yè)從什么時(shí)候開始重視數(shù)據(jù)?顯然,當(dāng)我們追求高質(zhì)量、高穩(wěn)定性的時(shí)候,數(shù)據(jù)會(huì)顯得非常重要,數(shù)據(jù)的價(jià)值才得以體現(xiàn)。國外先進(jìn)企業(yè)追求6西格瑪,故而強(qiáng)調(diào)數(shù)據(jù)的重要性;國內(nèi)許多企業(yè)一味追求低成本,數(shù)據(jù)的重要性自然就會(huì)低。 高度自動(dòng)化及智能化的生產(chǎn)場景。在高度自動(dòng)化和智能化的生產(chǎn)單元,人的介入很少,對質(zhì)量的要求一般也很高。這時(shí),對設(shè)備健康狀態(tài)和產(chǎn)品質(zhì)量的自動(dòng)監(jiān)控就變得非常重要。 工業(yè)互聯(lián)網(wǎng)的場景。工業(yè)互聯(lián)網(wǎng)能使成千上萬用戶的數(shù)據(jù)實(shí)現(xiàn)共享。多個(gè)用戶的共享會(huì)帶來兩個(gè)過去無法企及的效果。首先是分析結(jié)果的可靠性上升。這得益于來自不同用戶的實(shí)例,可用于對分析結(jié)論的重復(fù)性認(rèn)證。其次是分析結(jié)果可以在眾多的用戶中分享,以創(chuàng)造更大的價(jià)值。 在當(dāng)今的中國企業(yè)中,符合上述要求的場景是不多見的。多數(shù)企業(yè)重視成本遠(yuǎn)甚于質(zhì)量,智能制造和自動(dòng)化的水平低,工業(yè)互聯(lián)網(wǎng)尚未起步。由此可見,對中國多數(shù)企業(yè)來說,工業(yè)大數(shù)據(jù)的價(jià)值很可能只是“未來時(shí)”,雖然這個(gè)未來可能并不遙遠(yuǎn)。 推進(jìn)工業(yè)大數(shù)據(jù)現(xiàn)在該做啥? 馬云策劃淘寶的年代,那時(shí)學(xué)校的網(wǎng)速只有每秒100個(gè)字節(jié)———這件事啟發(fā)我們:機(jī)會(huì)往往發(fā)生在條件不太成熟的時(shí)候。所以,創(chuàng)新者的起步一定要早。在工業(yè)大數(shù)據(jù)全面應(yīng)用之前,是我們培養(yǎng)能力、積累技術(shù)的時(shí)候。 但是,僅起步早是不夠的,關(guān)鍵還要走對路子。正如培根所說:“跛足而走對路的人,勝過健步如飛卻誤入歧途者!痹鯓颖M早抓住機(jī)會(huì)呢?筆者認(rèn)為,可以從以下幾個(gè)方面做起: 一是理解工業(yè)大數(shù)據(jù)的本質(zhì)作用 對企業(yè)來說,大數(shù)據(jù)用得好壞的關(guān)鍵是看能否創(chuàng)造出高于成本的價(jià)值。所以,從功能的角度定義工業(yè)大數(shù)據(jù):大數(shù)據(jù)是過程(生產(chǎn)制造、研發(fā)服務(wù)、采購銷售)痕跡的數(shù)字化記錄,目的是為“用數(shù)據(jù)說話”奠定基礎(chǔ),是對已有系統(tǒng)所產(chǎn)生的數(shù)據(jù)的二次利用。 這意味著,工業(yè)大數(shù)據(jù)平臺(tái)的建設(shè),應(yīng)該高度重視數(shù)據(jù)的組織,避免遺漏重要的數(shù)據(jù)以及數(shù)據(jù)之間的聯(lián)系。例如,實(shí)時(shí)的設(shè)備狀態(tài)和工藝參數(shù)應(yīng)該與所生產(chǎn)的產(chǎn)品準(zhǔn)確對應(yīng),相關(guān)的時(shí)鐘不能混亂。 二是以方便“人”的分析為出發(fā)點(diǎn) 在商務(wù)大數(shù)據(jù)中,很多人強(qiáng)調(diào)機(jī)器學(xué)習(xí),強(qiáng)調(diào)從大量數(shù)據(jù)中獲得規(guī)律性、重復(fù)性的知識(shí)。對于工業(yè)大數(shù)據(jù),這種認(rèn)識(shí)要做調(diào)整:工業(yè)知識(shí)主要來自人腦,數(shù)據(jù)的作用是對已有認(rèn)識(shí)的確認(rèn)、分辨與準(zhǔn)確化。這就意味著,大數(shù)據(jù)平臺(tái)的要點(diǎn)是方便人從事分析工作。而人的分析工作往往是針對特定事件驅(qū)動(dòng)的。 使得這些過程做到透明化,提高管理水平,通過更有效的管理創(chuàng)造效益。這樣,建立大數(shù)據(jù)平臺(tái)的一個(gè)重要任務(wù)是:讓相關(guān)過程顯性化,避免人陷落在信息和數(shù)據(jù)的海洋中,喪失關(guān)注的焦點(diǎn)。按照這個(gè)觀點(diǎn),在工業(yè)領(lǐng)域,“知識(shí)自動(dòng)化”的重點(diǎn)應(yīng)該是知識(shí)的管理,而非知識(shí)的發(fā)現(xiàn)。 三是正確認(rèn)識(shí)工業(yè)大數(shù)據(jù)的知識(shí)發(fā)現(xiàn) 如前所述,由于工業(yè)數(shù)據(jù)體現(xiàn)出來的規(guī)律性往往難以突破人已有的認(rèn)識(shí)范圍,發(fā)現(xiàn)規(guī)律性的知識(shí)(如工藝與質(zhì)量之間的關(guān)系)是比較困難的。然而,工業(yè)大數(shù)據(jù)往往適合發(fā)現(xiàn)另外一類知識(shí),即從數(shù)據(jù)中提煉信息的知識(shí),將物理量的檢測數(shù)據(jù)轉(zhuǎn)化成產(chǎn)品質(zhì)量、能耗、效率、設(shè)備狀態(tài)等信息的“軟測量”算法,其實(shí)就是這種類型的知識(shí)。這些知識(shí)往往是生產(chǎn)技術(shù)人員并不熟悉的盲點(diǎn)。故而,從數(shù)據(jù)研究者的角度看,它們屬于容易出成績的領(lǐng)域。 過去,學(xué)術(shù)界對這些問題很熱衷,企業(yè)卻不重視,因?yàn)檫@種知識(shí)很難創(chuàng)造價(jià)值。不能創(chuàng)造價(jià)值的原因,是未能將其納入管理或者控制的流程中,故而創(chuàng)造價(jià)值的途徑不暢通。為此,企業(yè)可能會(huì)需要一個(gè)平臺(tái),以便將這些知識(shí)轉(zhuǎn)化成數(shù)字化的模型,并納入生產(chǎn)制造等流程中,以便創(chuàng)造經(jīng)濟(jì)價(jià)值。 四是注重與智能制造的結(jié)合 數(shù)字化、網(wǎng)絡(luò)化引發(fā)的智能制造大體是這樣一個(gè)邏輯:信息驅(qū)動(dòng)知識(shí),在決策過程中創(chuàng)造價(jià)值、體現(xiàn)智能。其中,信息來自供應(yīng)鏈、客戶、智能設(shè)備、物聯(lián)網(wǎng),知識(shí)表現(xiàn)為軟件化的模型,決策則包括自動(dòng)或人工的管理與控制。 如前所述,工業(yè)大數(shù)據(jù)在這個(gè)邏輯中有兩個(gè)重要作用:獲取“從數(shù)據(jù)提煉成信息的知識(shí)”;決策和專業(yè)知識(shí)主要來自人腦,但需要用大數(shù)據(jù)將其驗(yàn)證、矯正和精確化。 五是加強(qiáng)數(shù)據(jù)分析可靠性理論研究 在工業(yè)系統(tǒng)中,可靠分析的結(jié)果才有使用價(jià)值。可靠性分析原本是統(tǒng)計(jì)理論的重要組成部分。但用于大數(shù)據(jù)明顯是不合適的。這些理論的基本假設(shè)條件往往都是不成立的。而且,許多理論和著名觀點(diǎn)也造成了大量的誤導(dǎo),如盲目強(qiáng)調(diào)分析結(jié)果的準(zhǔn)確性、認(rèn)為大數(shù)據(jù)強(qiáng)調(diào)相互關(guān)系而輕視因果等。 大數(shù)據(jù)的因果分析是個(gè)十分需要重視的領(lǐng)域,但過去主要是科學(xué)、哲學(xué)研究的范疇,統(tǒng)計(jì)學(xué)家對其重視不足。其實(shí),可以從杜絕假象、通過證偽等思路來逼近因果。也就是說,重點(diǎn)分析那些容易導(dǎo)致錯(cuò)誤結(jié)果的情況。同時(shí),邏輯鏈的完整性和證據(jù)的獨(dú)立性也很重要。 數(shù)據(jù)的質(zhì)量和完整性是導(dǎo)致分析錯(cuò)誤的重要誘因。因此,建立大數(shù)據(jù)平臺(tái)時(shí),不僅要關(guān)注數(shù)據(jù)本身,更要關(guān)注數(shù)據(jù)之間的對應(yīng)性;不僅要關(guān)注數(shù)據(jù)是什么,還要關(guān)注數(shù)據(jù)的采集過程。數(shù)據(jù)的采集過程不同,意味著內(nèi)涵發(fā)生了變化。如果數(shù)據(jù)質(zhì)量不高,大數(shù)據(jù)很可能是一堆垃圾。這樣看來,盲從商務(wù)大數(shù)據(jù)“非結(jié)構(gòu)化”的觀點(diǎn)也是不對的。
|