http://xueqiu.com/2594854241/23965263
大數據概念剛剛提出,有人擊節讚歎,認為「數據人」的春天到了,也有人質疑為炒作,認為不過是業界和資本市場又一次發神經而已;但更多的人是茫然的,並不知道這個概念對自己的業務意味著什麼。本節主要澄清一些概念和誤讀,探討大數據落地存在的障礙。
重新審視「自主版權」
大數據時代,產業重心發生了遷移。信息產業的重心由基礎軟件嚮應用軟件過渡,信息技術本身的重要性向數據資產的重要性過渡。而應用軟件領域,恰恰是中國軟件企業的強項。利用好開源的基礎軟件,實現在應用軟件領域的突破,帶動基礎軟件領域的進步,是中國信息產業的發展方向。
「智慧出,有大偽」。多少人假「自主版權」之名,卻從未超越開源軟件的功能?信息產業的創新,是亦步亦趨麼?微軟有操作系統,我們就必須搞「自主版權」的操作系統?多年的撥款,支持「創新」,為我國信息產業技術提升帶來哪些進步呢?幸而我們有一個華為,看看華為老闆任正非怎麼說。
2012 年7 月份,任正非與華為實驗室的幹部和專家座談。有人問:「當前在終端OS領域,Android、iOS、Windows Phone 8 三足鼎立,形成了各自的生態圈,留給其他終端OS 的機會窗已經很小,請問公司對終端操作系統有何期望和要求?」
「如果說這三個操作系統都給華為一個平等權利,那我們的操作系統是不需要的。為什麼不可以用別人的優勢呢?微軟的總裁、思科的CEO 和我聊天的時候,他們都說害怕華為站起來,舉起世界的旗幟反壟斷。我給他們說我才不反壟斷,我左手打著微軟的傘,右手打著CISCO 的傘,你們賣高價,我只要賣低一點,也能賺大把的錢。我為什麼一定要把傘拿掉,讓太陽曬在我腦袋上,腦袋上流著汗,把地上的小草都滋潤起來,小草用低價格和我競爭,打得我頭破血流。我們現在做終端操作系統是出於戰略的考慮,如果他們突然斷了我們的糧食,Android 系統不給我用了,Windows Phone 8 系統也不給我用了,我們是不是就傻了?同樣的,我們在做高端芯片的時候,我並沒有反對你們買美國的高端芯片。我認為你們要儘可能的用他們的高端芯片,好好的理解它。只有他們不賣給我們的時候,我們的東西稍微差一點,也要湊合能用上去。我們不能有狹隘的自豪感,這種自豪感會害死我們。我們的目的就是要賺錢,是要拿下上甘嶺。拿不下上甘嶺,拿下華爾街也行。我們不要狹隘,我們做操作系統,和做高端芯片是一樣的道理。主要是讓別人允許我們用,而不是斷了我們的糧食。斷了我們糧食的時候,備份系統要能用得上。」
在國家「信息安全」的背景下,我們的確是要搞操作系統,萬一別人不給我們用了呢?不能被人卡脖子。這是國家或者和華為一樣體量的公司,不得不在安全層面思考的一個問題。但是過分強調「自主版權」的操作系統是否是任正非口中「狹隘的自豪感」呢?
國家的數據安全,應該建立在「自主可控」的軟件、硬件之上,並非一定是「自主版權」的軟件、硬件。自主可控與自主版權僅僅兩字之差,但導致的產業方向,截然不同。
華為過去沒有自己操作系統,也沒有自己的芯片,但是硬是在廣闊的「應用市場」,打開一片天地。利用「應用」帶來的市場地位、積累的研發實力,開始向產業鏈上游擴張。這是一條實實在在的路。華為的成功和戰略選擇,帶給信息產業寶貴的經驗,就是紮紮實實做好應用,切切實實積累技術。華為並不是在平地起高樓,充分利用了「開源軟件」,是華為在基礎軟件領域,快速趕上的原因之一。在開源的Hadoop(大數據主流技術)社區重要貢獻公司名單,排名第七。是貢獻最大的中國公司。
過分的強調「自主版權」,使一些「頭腦靈活」的公司嗅到「商機」。去開源軟件社區,下載幾個軟件,改改界面,換一個標識,就成了「自主版權」軟件,拿來騙取國家的科技補貼。這樣的公司就是國家的蛀蟲,產業中的敗類。第一,欺騙國家,第二,違背開源社區的精神。這些公司的出發點從不是著眼於實際的應用中,他們只是騙取國家的創新扶持的撥款。他們的技術從開源社區「偷竊」而來,從無超越開源軟件的可能。
相反,哪些埋頭解決客戶的實際業務問題,利用開源軟件彌補自身基礎軟件的短板,在實際應用中,不斷的修改、完善、昇華開源軟件的公司,才是中國的信息產業的希望,他們才有可能借助應用為王的時代,實現反超。
充分利用開源軟件,尊重開源社區分享、合作的精神,發展「自主可控」的基礎軟件、基礎硬件產品,才是一條正路。事實上,中國絕大多數的軟件公司,都在利用開源軟件。最值得學習和推崇的是華為公司。第一,他們大張旗鼓的在用,尊重開源精神。第二,他們不斷地反哺開源社區,促進開源軟件的發展。反哺開源軟件,是一種態度,更是一種能力。如果公司不能超越開源軟件,是談不上反哺開源的。除華為之外的第二類是偷偷的用,模糊版權問題,談不上反哺開源社區。第三類則最為惡劣,明明是拿的人家開源軟件,非要說自主版權,這種行徑與偷盜無異。幸好中國有一些有志於技術的年輕人,自發地成立開源技術小組。我衷心的祝福他們在開源的道路上,走的更遠。
中國的互聯網公司在使用開源軟件方面做出了表率。淘寶網光棍節一天的銷售額達到191 億,這在世界上都是獨一無二的。這套以開源軟件為基礎構建、開發的後台信息系統可以說承受了最大的壓力。。京東商城也是如此,2012 年初,京東開始「去貴族化」(拋棄昂貴的商業軟件)的努力,以開源軟件為主,重新構建了其信息系統。我們在和其CTO 交流的時候,他感到非常欣慰,因為這次光棍節的購物,京東的信息系統沒有出現任何性能問題。海外的最大的電子商務公司亞馬遜、最大的搜索引擎谷歌、最大的社交網站Facebook,無一例外都選擇了開源軟件為主,構建信息系統。而且大數據技術,本就是開源軟件唱主角。既然如此複雜的業務,如此巨大的交易量,都可以使用開源軟件,我們為什麼要花大把大把的金錢,給那些提供昂貴產品的公司呢?京東商城恰好又是非常典型的例子:京東的CTO,是從大名鼎鼎的甲骨文(Oracle)公司挖來的,但也正是他主導了京東「去甲骨文」的歷程。
開源軟件,是送給中國信息產業界的一份大禮,我們要大大方方的接受他,改造他,支持他。這是一種態度,更是一種能力。校正公司對待開源軟件的態度,引導公司加強開源軟件研發、改進,支持開源事業,則是信息產業政策需要認真對待的一個課題。開源軟件既然是送給我國信息產業的一份大禮,那麼如何收下,如何用好,就是需要政府和產業界共同面對的大命題了。
缺少大數據思維和意識,沒有緊迫感
曾經有人問,發展大數據要採用哪些技術,有什麼產品?事實上:大數據首先是一種思維方式,其次才是判斷產業發展趨勢和選擇公司戰略,最後才談得上技術實現的問題。有四種典型的片面認識阻礙企業家完整的認知大數據:第一,認定是炒作;第二,片面理解;第三,視野狹隘;第四,唯技術論。這些都是缺少大數據意識的表現。儘管還有其他各種客觀原因,但是企業家的思想認識,是阻礙大數據獲得深入應用的最重要因素。
第一,認定無非是另一次炒作。這是最常見的一種誤讀。其流毒在於阻礙了人們去耐心認真的研究大數據的由來和機理。IT 業和資本的確有炒作的傳統。對千年蟲連篇累牘的報導和宣傳,除了讓IBM 等大賺一筆外,結果發現問題並沒有事前描述的那麼聳人聽聞。物聯網也曾經是資本市場的寵兒,但現在卻已風光不在。如果因此就把大數據歸於炒作一途,肯定會與機會失之交臂。大數據與以往的技術概念有顯著的不同,最大的差異是大數據已經遠遠超越技術的概念,是互聯網、智能終端、社交網絡發展到一定階段的必然產物。以往,信息技術總是在圍繞提升企業運營效率打轉,而大數據促使商業智能真正走向企業的決策中樞。
第二,片面的理解。有人一聽說大數據,就說十多年前我們就有多少多少數據。以前都說海量數據如何如何。的確,海量的數據是大數據的特徵之一,但海量數據並不等同於大數據。大數據更強調數據的多樣性、及時性。網絡日誌、文檔、視頻、圖片等都是大數據關心和處理的對象。更重要的是,大數據技術總是要求儘可能快的發現有決策價值的信息。快的度量單位是不能超過1 秒。廠商在介紹大數據概念時,往往介紹三個「V」特徵:Volume 體量大,至少要到PB 級別(1PB 等於1024 個TB,大約相當於地球觀測系統五年的數據);Velocity,實時要求高;第三個Variety,強調數據的多樣性。還有廠商增加一個V,Value,意思是說大數據有價值。這些都是對的,但不免過於片面。
第三,狹隘的視野。僅僅埋頭在自己的一畝三分地,是難以領略大數據全部魅力的。它首先是超越行業的,一定會促使新的行業誕生,也一定會令一些行業消亡。幾乎所有行業的競爭格局都將被大數據所顛覆。其次它是超越技術的,無論是開源的Hadoop,還是各廠商力推的新產品,都不足以反映大數據的全貌。作為投資人,或者公司的決策者,如果不能確立這是行業競爭的戰略要地思維,則不足以妄談大數據。
以企業在線服務市場為例,這個看起來很朝陽的產業,並沒有在中國取得引人矚目的成長。國內最大的幾家公司,營業收入大約在1 億元左右。前段時間和業內人士辯論能否免費為企業提供在線服務。大多數業界人士認為企業市場與個人市場不同,企業客戶擔心免費服務的質量,不收錢人家反而不敢用云云。事實上,我看到已經有公司免費為企業提供在線的企業管理服務,其盈利模式變成為他的在線客戶提供金融貸款業務。在線業務加小額貸款服務已經成為極具顛覆性的商業模式,這種商業模式如果進展順利,傳統的在線服務商,將面臨行業性的滅頂之災。這種新模式,其核心競爭力體現在擁有大量的、真實的客戶運營數據。借助對這些數據的收集分析,預測客戶的運營風險,最大限度的降低借貸違約風險。阿里巴巴公司剛剛提出的平台、數據、金融的戰略,則是大數據前景的最佳詮釋。
廣告產業將重新洗牌。大家都知道廣告預算至少有一半被浪費掉,可悲的是不知道浪費的是哪一半。借助大數據,廣告將變得及時和精準,而且能夠評估量化每個渠道的廣告效果,看起來具有非常誘人的前景:廣告主大大節約資金,消費者得以避免垃圾廣告的騷擾。理論上,如果大數據技術得到充分運用,那麼我們每個人將不會收到垃圾信息。在日常消費中,衝動型的購買決策越來越普遍。商家必須在消費者最感興趣的時候,及時觸發刺激消費者的購買慾望。離開大數據的支持,這種精準的營銷則難以實現。
製造業將重新定義核心競爭能力。在製造業發展的不同階段,其核心競爭力是不同的。在發展初期,產品質量是非常重要的因素,就是能夠做到人有我優。這個階段的關鍵資源是擁有先進的生產設備。產品同質化後,對於渠道的掌握和控制成為生命線,關鍵資源是優質經銷商隊伍。當渠道成熟到一定的階段,誰能掌控終端,誰將佔據競爭優勢,關鍵資源終端營銷團隊。考察製造業關鍵資源的遷移,我們發現它逐漸向最終用戶端遷移。換句話說,誰能掌握最終用戶,誰就能笑傲江湖。這方面例子還有很多,各行各業都不在少數。對此本章不在贅言,後續章節均有詳細描述。
第四,唯技術論。大數據是一種思考方式,和有沒有數據、數據量的大小、使用什麼技術,不存在嚴格的正相關。沒有最新的技術,也可以通過數據資產來獲利;即便擁有最先進的技術,缺少數據思維,沒有數據資產,往往也徒勞無功。不能單純的認為只有哪些圍繞hadoop(泛指大數據技術)開發的新興公司,才是大數據公司。也不能認為沒有技術的就不是大數據公司。相反,在大數據領域,那些擁有稀缺性數據資產的公司,往往可以指點江山,獨領風騷。大數據既不等於數據挖掘也不等於統計分析,更不等於人工智能。但是這些技術和算法都需要大數據的支持。使用同樣的算法,如果利用全部的數據集,而非小樣本量,甚至得出截然不同的結論。這就是大數據的魅力。他可以在宏觀尺度上把握潮流,也可以在微觀顆粒上預測未來。
數據治理缺位
數據割據、數據孤島和數據質量,是典型的三大數據治理問題。
因為制度、地方主義、部門主義等人為因素造成數據分散的現象,我稱之為「數據割據」;因為技術差距、歷史遺留問題等形成的數據分散的現象,稱之為「數據孤島」。數據割據現象更多存在於國家各部門、各地方之間;大型企業內部也會存在數據割據現象。譬如氣象部門詳盡的天氣觀測數據,是研究大氣規律、做天氣預報的第一手資料。但是這些數據因為各種各樣的原因在氣象局那裡睡大覺。理論上講,科學院的大氣物理研究所是可以拿到這些觀測數據的,否則,大氣所的科學家們怎麼支持氣象局的工作啊?根據「有關部門的有關規定」,大氣所的確也能夠接觸到這些數據。但實際操作中,要拿到些有用的數據,不拖個半年是不行的,而且就算到手了,也是雞零狗碎的,沒什麼用途。這就是典型的「數據割據」現象。
有家公司專門為淘寶網上的商家提供在線的服務。這些服務需要淘寶開放數據接口。早期,如果不使用淘寶提供的服務器是沒有任何障礙的,但現在這項服務有50%的時間是無法連通的。我們自然無權指責淘寶的經營策略,但這種因先發優勢進而形成數據割據的局面,的確令人擔憂。
美國政府在消除數據割據方面可謂用心良苦。除了系統性的提出國家層面的數據戰略外,一些做法也值得借鑑。具體方法參見本書第三部分的詳細介紹。
我國政府面臨更加嚴峻的數據割據困境。數據保護主義不過是部門保護主義在信息領域的延伸而已,必須出台國家級別的頂層設計,由上而下地破除阻礙數據分享的藩籬,並建立數據共享,成果分享的利益分配機制,才有望從根本改善數據割據的問題。
數據質量的好壞,直接影響數據資產的價值。數據質量主要包括數據的真實性、完整性、一致性。數據質量的解決非一日之功,需要技術、制度、文化等等方方面面的努力。如果把數據認認真真的當成資產對待,數據質量,就是需要面對的第一個問題。
數據資產的界定與安全
隨著數量越來越多的數據被數字化,在跨越組織邊界而流動著,一系列政策問題將會變得越來越重要,這包括但不限於隱私、安全、知識產權和責任。顯然,隨著海量數據的價值愈加明顯,隱私是個重要等級(尤其是對消費者來說)不斷提高的問題。個人數據(例如健康和財務記錄)經常能夠提供最重要的人類福利,例如,幫助精準確定適當的醫療或者最恰當的金融產品。然而,消費者也將這些類別的數據視為最敏感的個人隱私。顯然,個人和其生活所在的社會將不得不努力在數據隱私和數據的功用之間權衡取捨。
另一個密切相關的擔憂是數據安全,例如,如何保護競爭方面的敏感數據或應保持隱私的其他數據。最近的例子表明,數據被盜不僅暴露消費者個人信息和企業保密信息,甚至還會暴露國家安全秘密。鑑於嚴重的數據被盜事件有增無減,通過技術和政策工具解決數據安全問題將成為關鍵。
海量數據日益提升的經濟意義也昭示了一系列法律問題,尤其是當其與如下事實聯繫起來時:即數據與許多其他資產具有根本性的差異。數據可以與其他數據結合起來完美而輕鬆地複製,同樣一份數據可以由多個人同時使用。這些是數據與實體資產相比的獨有特徵。有關數據所附帶的知識產權的問題不容迴避:何人「擁有」某份數據,某一數據集附帶著何種權利?數據的「公平使用」的定義是什麼?此外,還有與責任相關的問題:當一份不準確的數據導致負面結果時誰應負責?要充分發揮海量數據的潛力,此類法律問題需要澄清,也許會隨著時間的推移逐步澄清。
缺乏大數據人才
就算政府和企業界認識到大數據可以釋放經濟的下一波增長潛力,認識到數據資產是關乎企業未來的命脈。但是如果想要成功運用大數據技術,達成企業戰略目標,最大的制約因素往往是大數據人才的匱乏。這一點已然成為推廣利用大數據技術的阿喀琉斯之踵不過許多高校近期的舉動令人欣慰。北京大學、上海交通大學、中國人民大學、北航等高校都在設立數據科學的專門研究機構和相關專業,未來,也許數據科學家將成為令人尊重的職業。
大數據概念剛剛提出,有人擊節讚歎,認為「數據人」的春天到了,也有人質疑為炒作,認為不過是業界和資本市場又一次發神經而已;但更多的人是茫然的,並不知道這個概念對自己的業務意味著什麼。本節主要澄清一些概念和誤讀,探討大數據落地存在的障礙。
重新審視「自主版權」
大數據時代,產業重心發生了遷移。信息產業的重心由基礎軟件嚮應用軟件過渡,信息技術本身的重要性向數據資產的重要性過渡。而應用軟件領域,恰恰是中國軟件企業的強項。利用好開源的基礎軟件,實現在應用軟件領域的突破,帶動基礎軟件領域的進步,是中國信息產業的發展方向。
「智慧出,有大偽」。多少人假「自主版權」之名,卻從未超越開源軟件的功能?信息產業的創新,是亦步亦趨麼?微軟有操作系統,我們就必須搞「自主版權」的操作系統?多年的撥款,支持「創新」,為我國信息產業技術提升帶來哪些進步呢?幸而我們有一個華為,看看華為老闆任正非怎麼說。
2012 年7 月份,任正非與華為實驗室的幹部和專家座談。有人問:「當前在終端OS領域,Android、iOS、Windows Phone 8 三足鼎立,形成了各自的生態圈,留給其他終端OS 的機會窗已經很小,請問公司對終端操作系統有何期望和要求?」
「如果說這三個操作系統都給華為一個平等權利,那我們的操作系統是不需要的。為什麼不可以用別人的優勢呢?微軟的總裁、思科的CEO 和我聊天的時候,他們都說害怕華為站起來,舉起世界的旗幟反壟斷。我給他們說我才不反壟斷,我左手打著微軟的傘,右手打著CISCO 的傘,你們賣高價,我只要賣低一點,也能賺大把的錢。我為什麼一定要把傘拿掉,讓太陽曬在我腦袋上,腦袋上流著汗,把地上的小草都滋潤起來,小草用低價格和我競爭,打得我頭破血流。我們現在做終端操作系統是出於戰略的考慮,如果他們突然斷了我們的糧食,Android 系統不給我用了,Windows Phone 8 系統也不給我用了,我們是不是就傻了?同樣的,我們在做高端芯片的時候,我並沒有反對你們買美國的高端芯片。我認為你們要儘可能的用他們的高端芯片,好好的理解它。只有他們不賣給我們的時候,我們的東西稍微差一點,也要湊合能用上去。我們不能有狹隘的自豪感,這種自豪感會害死我們。我們的目的就是要賺錢,是要拿下上甘嶺。拿不下上甘嶺,拿下華爾街也行。我們不要狹隘,我們做操作系統,和做高端芯片是一樣的道理。主要是讓別人允許我們用,而不是斷了我們的糧食。斷了我們糧食的時候,備份系統要能用得上。」
在國家「信息安全」的背景下,我們的確是要搞操作系統,萬一別人不給我們用了呢?不能被人卡脖子。這是國家或者和華為一樣體量的公司,不得不在安全層面思考的一個問題。但是過分強調「自主版權」的操作系統是否是任正非口中「狹隘的自豪感」呢?
國家的數據安全,應該建立在「自主可控」的軟件、硬件之上,並非一定是「自主版權」的軟件、硬件。自主可控與自主版權僅僅兩字之差,但導致的產業方向,截然不同。
華為過去沒有自己操作系統,也沒有自己的芯片,但是硬是在廣闊的「應用市場」,打開一片天地。利用「應用」帶來的市場地位、積累的研發實力,開始向產業鏈上游擴張。這是一條實實在在的路。華為的成功和戰略選擇,帶給信息產業寶貴的經驗,就是紮紮實實做好應用,切切實實積累技術。華為並不是在平地起高樓,充分利用了「開源軟件」,是華為在基礎軟件領域,快速趕上的原因之一。在開源的Hadoop(大數據主流技術)社區重要貢獻公司名單,排名第七。是貢獻最大的中國公司。
過分的強調「自主版權」,使一些「頭腦靈活」的公司嗅到「商機」。去開源軟件社區,下載幾個軟件,改改界面,換一個標識,就成了「自主版權」軟件,拿來騙取國家的科技補貼。這樣的公司就是國家的蛀蟲,產業中的敗類。第一,欺騙國家,第二,違背開源社區的精神。這些公司的出發點從不是著眼於實際的應用中,他們只是騙取國家的創新扶持的撥款。他們的技術從開源社區「偷竊」而來,從無超越開源軟件的可能。
相反,哪些埋頭解決客戶的實際業務問題,利用開源軟件彌補自身基礎軟件的短板,在實際應用中,不斷的修改、完善、昇華開源軟件的公司,才是中國的信息產業的希望,他們才有可能借助應用為王的時代,實現反超。
充分利用開源軟件,尊重開源社區分享、合作的精神,發展「自主可控」的基礎軟件、基礎硬件產品,才是一條正路。事實上,中國絕大多數的軟件公司,都在利用開源軟件。最值得學習和推崇的是華為公司。第一,他們大張旗鼓的在用,尊重開源精神。第二,他們不斷地反哺開源社區,促進開源軟件的發展。反哺開源軟件,是一種態度,更是一種能力。如果公司不能超越開源軟件,是談不上反哺開源的。除華為之外的第二類是偷偷的用,模糊版權問題,談不上反哺開源社區。第三類則最為惡劣,明明是拿的人家開源軟件,非要說自主版權,這種行徑與偷盜無異。幸好中國有一些有志於技術的年輕人,自發地成立開源技術小組。我衷心的祝福他們在開源的道路上,走的更遠。
中國的互聯網公司在使用開源軟件方面做出了表率。淘寶網光棍節一天的銷售額達到191 億,這在世界上都是獨一無二的。這套以開源軟件為基礎構建、開發的後台信息系統可以說承受了最大的壓力。。京東商城也是如此,2012 年初,京東開始「去貴族化」(拋棄昂貴的商業軟件)的努力,以開源軟件為主,重新構建了其信息系統。我們在和其CTO 交流的時候,他感到非常欣慰,因為這次光棍節的購物,京東的信息系統沒有出現任何性能問題。海外的最大的電子商務公司亞馬遜、最大的搜索引擎谷歌、最大的社交網站Facebook,無一例外都選擇了開源軟件為主,構建信息系統。而且大數據技術,本就是開源軟件唱主角。既然如此複雜的業務,如此巨大的交易量,都可以使用開源軟件,我們為什麼要花大把大把的金錢,給那些提供昂貴產品的公司呢?京東商城恰好又是非常典型的例子:京東的CTO,是從大名鼎鼎的甲骨文(Oracle)公司挖來的,但也正是他主導了京東「去甲骨文」的歷程。
開源軟件,是送給中國信息產業界的一份大禮,我們要大大方方的接受他,改造他,支持他。這是一種態度,更是一種能力。校正公司對待開源軟件的態度,引導公司加強開源軟件研發、改進,支持開源事業,則是信息產業政策需要認真對待的一個課題。開源軟件既然是送給我國信息產業的一份大禮,那麼如何收下,如何用好,就是需要政府和產業界共同面對的大命題了。
缺少大數據思維和意識,沒有緊迫感
曾經有人問,發展大數據要採用哪些技術,有什麼產品?事實上:大數據首先是一種思維方式,其次才是判斷產業發展趨勢和選擇公司戰略,最後才談得上技術實現的問題。有四種典型的片面認識阻礙企業家完整的認知大數據:第一,認定是炒作;第二,片面理解;第三,視野狹隘;第四,唯技術論。這些都是缺少大數據意識的表現。儘管還有其他各種客觀原因,但是企業家的思想認識,是阻礙大數據獲得深入應用的最重要因素。
第一,認定無非是另一次炒作。這是最常見的一種誤讀。其流毒在於阻礙了人們去耐心認真的研究大數據的由來和機理。IT 業和資本的確有炒作的傳統。對千年蟲連篇累牘的報導和宣傳,除了讓IBM 等大賺一筆外,結果發現問題並沒有事前描述的那麼聳人聽聞。物聯網也曾經是資本市場的寵兒,但現在卻已風光不在。如果因此就把大數據歸於炒作一途,肯定會與機會失之交臂。大數據與以往的技術概念有顯著的不同,最大的差異是大數據已經遠遠超越技術的概念,是互聯網、智能終端、社交網絡發展到一定階段的必然產物。以往,信息技術總是在圍繞提升企業運營效率打轉,而大數據促使商業智能真正走向企業的決策中樞。
第二,片面的理解。有人一聽說大數據,就說十多年前我們就有多少多少數據。以前都說海量數據如何如何。的確,海量的數據是大數據的特徵之一,但海量數據並不等同於大數據。大數據更強調數據的多樣性、及時性。網絡日誌、文檔、視頻、圖片等都是大數據關心和處理的對象。更重要的是,大數據技術總是要求儘可能快的發現有決策價值的信息。快的度量單位是不能超過1 秒。廠商在介紹大數據概念時,往往介紹三個「V」特徵:Volume 體量大,至少要到PB 級別(1PB 等於1024 個TB,大約相當於地球觀測系統五年的數據);Velocity,實時要求高;第三個Variety,強調數據的多樣性。還有廠商增加一個V,Value,意思是說大數據有價值。這些都是對的,但不免過於片面。
第三,狹隘的視野。僅僅埋頭在自己的一畝三分地,是難以領略大數據全部魅力的。它首先是超越行業的,一定會促使新的行業誕生,也一定會令一些行業消亡。幾乎所有行業的競爭格局都將被大數據所顛覆。其次它是超越技術的,無論是開源的Hadoop,還是各廠商力推的新產品,都不足以反映大數據的全貌。作為投資人,或者公司的決策者,如果不能確立這是行業競爭的戰略要地思維,則不足以妄談大數據。
以企業在線服務市場為例,這個看起來很朝陽的產業,並沒有在中國取得引人矚目的成長。國內最大的幾家公司,營業收入大約在1 億元左右。前段時間和業內人士辯論能否免費為企業提供在線服務。大多數業界人士認為企業市場與個人市場不同,企業客戶擔心免費服務的質量,不收錢人家反而不敢用云云。事實上,我看到已經有公司免費為企業提供在線的企業管理服務,其盈利模式變成為他的在線客戶提供金融貸款業務。在線業務加小額貸款服務已經成為極具顛覆性的商業模式,這種商業模式如果進展順利,傳統的在線服務商,將面臨行業性的滅頂之災。這種新模式,其核心競爭力體現在擁有大量的、真實的客戶運營數據。借助對這些數據的收集分析,預測客戶的運營風險,最大限度的降低借貸違約風險。阿里巴巴公司剛剛提出的平台、數據、金融的戰略,則是大數據前景的最佳詮釋。
廣告產業將重新洗牌。大家都知道廣告預算至少有一半被浪費掉,可悲的是不知道浪費的是哪一半。借助大數據,廣告將變得及時和精準,而且能夠評估量化每個渠道的廣告效果,看起來具有非常誘人的前景:廣告主大大節約資金,消費者得以避免垃圾廣告的騷擾。理論上,如果大數據技術得到充分運用,那麼我們每個人將不會收到垃圾信息。在日常消費中,衝動型的購買決策越來越普遍。商家必須在消費者最感興趣的時候,及時觸發刺激消費者的購買慾望。離開大數據的支持,這種精準的營銷則難以實現。
製造業將重新定義核心競爭能力。在製造業發展的不同階段,其核心競爭力是不同的。在發展初期,產品質量是非常重要的因素,就是能夠做到人有我優。這個階段的關鍵資源是擁有先進的生產設備。產品同質化後,對於渠道的掌握和控制成為生命線,關鍵資源是優質經銷商隊伍。當渠道成熟到一定的階段,誰能掌控終端,誰將佔據競爭優勢,關鍵資源終端營銷團隊。考察製造業關鍵資源的遷移,我們發現它逐漸向最終用戶端遷移。換句話說,誰能掌握最終用戶,誰就能笑傲江湖。這方面例子還有很多,各行各業都不在少數。對此本章不在贅言,後續章節均有詳細描述。
第四,唯技術論。大數據是一種思考方式,和有沒有數據、數據量的大小、使用什麼技術,不存在嚴格的正相關。沒有最新的技術,也可以通過數據資產來獲利;即便擁有最先進的技術,缺少數據思維,沒有數據資產,往往也徒勞無功。不能單純的認為只有哪些圍繞hadoop(泛指大數據技術)開發的新興公司,才是大數據公司。也不能認為沒有技術的就不是大數據公司。相反,在大數據領域,那些擁有稀缺性數據資產的公司,往往可以指點江山,獨領風騷。大數據既不等於數據挖掘也不等於統計分析,更不等於人工智能。但是這些技術和算法都需要大數據的支持。使用同樣的算法,如果利用全部的數據集,而非小樣本量,甚至得出截然不同的結論。這就是大數據的魅力。他可以在宏觀尺度上把握潮流,也可以在微觀顆粒上預測未來。
數據治理缺位
數據割據、數據孤島和數據質量,是典型的三大數據治理問題。
因為制度、地方主義、部門主義等人為因素造成數據分散的現象,我稱之為「數據割據」;因為技術差距、歷史遺留問題等形成的數據分散的現象,稱之為「數據孤島」。數據割據現象更多存在於國家各部門、各地方之間;大型企業內部也會存在數據割據現象。譬如氣象部門詳盡的天氣觀測數據,是研究大氣規律、做天氣預報的第一手資料。但是這些數據因為各種各樣的原因在氣象局那裡睡大覺。理論上講,科學院的大氣物理研究所是可以拿到這些觀測數據的,否則,大氣所的科學家們怎麼支持氣象局的工作啊?根據「有關部門的有關規定」,大氣所的確也能夠接觸到這些數據。但實際操作中,要拿到些有用的數據,不拖個半年是不行的,而且就算到手了,也是雞零狗碎的,沒什麼用途。這就是典型的「數據割據」現象。
有家公司專門為淘寶網上的商家提供在線的服務。這些服務需要淘寶開放數據接口。早期,如果不使用淘寶提供的服務器是沒有任何障礙的,但現在這項服務有50%的時間是無法連通的。我們自然無權指責淘寶的經營策略,但這種因先發優勢進而形成數據割據的局面,的確令人擔憂。
美國政府在消除數據割據方面可謂用心良苦。除了系統性的提出國家層面的數據戰略外,一些做法也值得借鑑。具體方法參見本書第三部分的詳細介紹。
我國政府面臨更加嚴峻的數據割據困境。數據保護主義不過是部門保護主義在信息領域的延伸而已,必須出台國家級別的頂層設計,由上而下地破除阻礙數據分享的藩籬,並建立數據共享,成果分享的利益分配機制,才有望從根本改善數據割據的問題。
數據質量的好壞,直接影響數據資產的價值。數據質量主要包括數據的真實性、完整性、一致性。數據質量的解決非一日之功,需要技術、制度、文化等等方方面面的努力。如果把數據認認真真的當成資產對待,數據質量,就是需要面對的第一個問題。
數據資產的界定與安全
隨著數量越來越多的數據被數字化,在跨越組織邊界而流動著,一系列政策問題將會變得越來越重要,這包括但不限於隱私、安全、知識產權和責任。顯然,隨著海量數據的價值愈加明顯,隱私是個重要等級(尤其是對消費者來說)不斷提高的問題。個人數據(例如健康和財務記錄)經常能夠提供最重要的人類福利,例如,幫助精準確定適當的醫療或者最恰當的金融產品。然而,消費者也將這些類別的數據視為最敏感的個人隱私。顯然,個人和其生活所在的社會將不得不努力在數據隱私和數據的功用之間權衡取捨。
另一個密切相關的擔憂是數據安全,例如,如何保護競爭方面的敏感數據或應保持隱私的其他數據。最近的例子表明,數據被盜不僅暴露消費者個人信息和企業保密信息,甚至還會暴露國家安全秘密。鑑於嚴重的數據被盜事件有增無減,通過技術和政策工具解決數據安全問題將成為關鍵。
海量數據日益提升的經濟意義也昭示了一系列法律問題,尤其是當其與如下事實聯繫起來時:即數據與許多其他資產具有根本性的差異。數據可以與其他數據結合起來完美而輕鬆地複製,同樣一份數據可以由多個人同時使用。這些是數據與實體資產相比的獨有特徵。有關數據所附帶的知識產權的問題不容迴避:何人「擁有」某份數據,某一數據集附帶著何種權利?數據的「公平使用」的定義是什麼?此外,還有與責任相關的問題:當一份不準確的數據導致負面結果時誰應負責?要充分發揮海量數據的潛力,此類法律問題需要澄清,也許會隨著時間的推移逐步澄清。
缺乏大數據人才
就算政府和企業界認識到大數據可以釋放經濟的下一波增長潛力,認識到數據資產是關乎企業未來的命脈。但是如果想要成功運用大數據技術,達成企業戰略目標,最大的制約因素往往是大數據人才的匱乏。這一點已然成為推廣利用大數據技術的阿喀琉斯之踵不過許多高校近期的舉動令人欣慰。北京大學、上海交通大學、中國人民大學、北航等高校都在設立數據科學的專門研究機構和相關專業,未來,也許數據科學家將成為令人尊重的職業。