29頁PPT展示互聯網大數據的發展趨勢@百度研究院副院長張潼


2015年8月14日,由中國科協、中國科學院指導,中國人工智慧學會發起主辦的第五屆中國智能產業高峰論壇在上海長榮桂冠酒店順利召開。


下面是百度研究院副院長張潼的發言,本文由中國人工智慧學會供稿,靜沙龍記者王嘉俊整理。


【張潼】我們知道「數據量日益增多」這是一個背景,可能每十年要增長一千倍。以前可能僅是線下數據的增加,而現在為什麼互聯網在數據量增加的作用反而更大了呢?這是因為在今天大數據的驅動很大程度上是來源於互聯網公司,包括:互聯網和移動互聯網。今後可能還會有感測器網,雲端等一系列。但是有一個共同前提,這就是「數據量日益增多」。




「雲」的概念,大家現在都很熟悉了,包括:IBM等一系列公司,都對「雲」投入都是非常巨大的。還有和我們這個會議有關的,就是人工智慧等等一些。李德毅院士講的非常好,現在的智能基本上是用大數據驅動的,所以我把它叫「大數據智能」。其中一個很重要的是:機器學習,現在很多領域在人工智慧包括在產業上,都有一系列的應用。


一個方面就是大數據在人工智慧上的應用,這個跟我們的會議比較相關。另外一個方面,就是它的一些創新的應用已經其將來的趨勢。



從大數據我們要看未來或者今天,從發展上,我覺得主要會有三個趨勢。


其一就是「個性化」。其實從整體來講,我們要談到大數據,包括大家看一些大數據的書籍都會講到這個趨勢,大數據的應用使我們了解每一個人,包括:有個很經典的例子,比如:一家美國公司,一位父親接到了一個郵件,說他女兒懷孕了什麼的。然後他就很生氣找郵件發送者說到:我的女兒還沒有結婚等等一些。最後說郵件發送方只能說:「這個我們可能錯了」,但是實際上最後發現自己是對的,而那位父親是錯了。從這個例子上,我們可以得知:用數據大家能夠非常精準的知道,甚至可能比大家身邊的人知道的更多。


其二就是:智能化。智能化在整個的大數據發展是非常重要的。當然,其中可能一個關鍵因素是由於智能化是一個更加底層的技術。


第三個方面就是:產業化。比如:互聯網+、工業4.0等等一系列可以掛鉤,可以更廣泛。所以說,在後面的報告中,我會著重講這三方面。從「個性化」來講,往往是針對個人的;對於每一個人,「產業化」是對於工業的,「智能化」算是一個底層的技術。



我們先說一下「個性化」。大數據在「個性化」的發展趨勢也是包括幾點。之前,我們討論了個「性化營銷」,個性化營銷在互聯網應用中是非常重要的技術,也是互聯網打廣告,包括我剛才講的例子都算是個性化營銷,所以在這裡面「個性化」起到了非常強的作用。還有在未來,個性化在醫療很重要的一個方面應用。因為我個人覺得,雖然在現在醫療中,大家沒有提及「個性化」,但將來、未來會起到非常大的作用。包括美國有一些類似於這樣的「個性化」計劃,都是針對於醫療。



而在將來、現在也是發生的,「個性化的服務」。怎麼去利用個性化,更廣泛地做更全面的服務。我可能會主要講「個性化營銷」這一塊,「個性化營銷」就是其中有一個。比如:在互聯網公司裡面,舉個例子,大家要是「個性化」,反映在什麼地方呢?比如:他對於用戶可以有很好的理解,通過大家的行為,包括:如果是傳統的零售商,通過其購買行為,比如:通過網上的一些行為等。比如:阿里有用戶的電商數據,百度有用戶的搜索數據,這些都是用戶的行為。通過用戶的一系列,告訴用戶這個人到底是什麼樣子的,你喜歡什麼,將來可能更有傾向去對什麼更感興趣,這個是一種所謂我們叫「用戶畫像」。把給刻畫出來,這是一個最主要的形式。有了客戶畫像以後,就可以做個性化的推薦和個性化的廣告。



這裡面大家要知道,像廣告是一個非常大的、重要的在支撐互聯網企業的一個模式,就是商業模式。比如:百度基本上所有的收益都是來自於廣告,阿里很大部分收益也是來自於廣告,騰訊現在的廣告業務也是慢慢起來更多,騰訊還有遊戲業務。



在這裡,「個性化」起到非常重要的作用,我們能夠精準的知道每個人想要什麼,這樣可以更好的推薦。如果用戶要知道自己的用戶興趣,然後可以針對某一個用戶更好的展現。其中有一個技術,廣告的點擊行為技術,這裡就需要用到「機器學習」知識。



在百度公司中,所涉及到的數據量可以到千億級,而伺服器數量上也是上萬台的。對於機器學習而言,就如同當時像李院士提到的大數據智能是一個核心,其前提是大數據,後面才有一系列的機器學習。這包括:用戶可以有很好的計算,可以有更複雜的模型等。其次還包括:有很好的演算法、在現有的時間內、現有的計算時間有很好的結果等。



說到大數據在智能化上會起到的作用,這是一個未來的十年之內比較大的趨勢。其中重要的一點:就是機器學習的能力。


諸如:百度等很多公司,都會投入很多的力量把大數據的智能化應用,就是將其作為做前沿研究,並設計實現更好的學習系統。還有一點就是:把這樣的能力變成實際應用,即:做智能化的系統。從機器學習能力來看,到目前為止有一個比較經典的案例可以看出大數據在機器學習上的作用。



關於大數據機器學習案例包括:圖像分類,ImageNet。在我們之前做了一些機器學習的模型都是基於淺層的模型,當時在這個數據上取得了百分之七十幾的準確率。幾年之內,它的錯誤率從20%幾可以降到5%、6%。



我們用了大數據和複雜的模型,你需要有GPU等等一系列的更好的計算,更好的高效的演算法,這樣你就得出了一個非常強的系統,這個系統可以支持你的智能化。這裡的智能化不僅是圖像識別,還包括:語音、廣告等等一系列,現在都是有這種智能化趨勢。我們希望如果要是做這種底層的技術,能夠產生智能的技術,我們希望把數據量加大,希望嘗試更為複雜的模型,希望把計算能夠在同等計算能力的情況下,能做更強的計算。這幾個趨勢,是目前很多的研究方向,而使我們整個的智能技術等方面得以集體提升。



對於百度本身來講,搜索引擎技術其實就是一個智能化系統。它會為了提升用戶體驗,包括將來的「自動應答」體驗等,也包括商業變現的廣告系統等等一系列應用。



在此,我認為智能化的技術在未來有一些關鍵的方面,特別是在人和物理世界相交換,機器能夠從虛擬世界到物理世界的連接,包括機器人等等一系列;其中之一就是感知技術。比如:圖像識別,語音識別等等一系列,還有自然語言識別等。


然後,用戶要能夠理解對方的意義,把他變成一個「表示」,而這個「表示」就是能夠自動的進行推理。另外一個關鍵點就是交互,對於智能化系統而言,其交互技術的實現也是非常重要的。所謂的交互就是用戶和人進行的一個交流;尤其可見,「表示」和「交互」就是一個是使你能夠更好的理解另外一個也是可以輔助的關係。最後還有一個就是用戶決策。決策就是需要用戶做的事情,用戶能產生行動或者產生一個相應。這個包括:用戶連接本身人還有其它的知識,這裡麵包括:用戶要做分析、做決策等等,然後最後產生一個結果。其實搜索也是有類似的技術,或許將來可以有更好的其他技術。


我舉個例子,搜索目前你就是輸入文字進去,這是最主要的形式,其實,我們還可以用語音或者圖像搜索。另外,用戶還要把清楚語意。目前在搜索上交互用的比較少,但是實際上是應該有的。一方面,交互就是你搜了一個選項或者關鍵詞以後,也許用戶還會知道其它的方面內容提示,它(搜索引擎)會提示到:也許用戶檢索的是另外一個關鍵詞或者是選詞等等。然後,從行動上來講,搜索就是根據所有的信息內容,包括之前的信息提示給用戶做最好的搜索結果。


從這個方面來看,現在這些形式在搜索上其實是相對簡單的。將來這裡面可以做的更好的形式,這時候「更好」的一個就是設計者可以做出一個趨勢,你要說機器人也行,說助理也行。可能大家都知道的話,也是因為動畫片《大白》這裡面是個人的健康助理,它是一個垂直領域的。


百度也在做一些嘗試,有一個比如:小度機器人。這些嘗試希望可以集成到更好的,更加智能化的,然後可以有更好的用戶體驗,它可以比搜索引擎要更加進步的能力。對於技術方面,比如:要更個性化,包括我們前面提到的大數據個性化,包括「認知技術」,用戶怎麼去感知和交流。如果有這麼一個助理的話,他希望和用戶交流,包括:要資源整合。然後,我們可以有分析,接著處理一些需求。這裡資源整合的意思,就是用戶要知道什麼地方有東西能夠滿足客戶的需求,這個資源可以是線上資源,也可以是線下資源,然後搜索引擎會有這種努力。所以未來、將來就會有更加好的形式,能夠滿足用戶想要知道的事情。


另外一個趨勢,就是大數據的產業化。產業化其實有很多,包括:廣告營銷實際上算是一類,這跟「個性化」關聯非常強。還有人工智慧技術,人工智慧技術也可能會產業化。另外就是大數據對於產業升級,還有整體社會上的作用。當然,產業化還有一些對科學技術將來會有非常大的影響,所以我這裡還要討論一下在互聯網以及大數據技術對於產業上,對於社會變革能夠有一些什麼作用和影響。


這裡面產業化,我覺得也是有幾個重要的機會點,這個機會點其實在各個領域現在都有人在嘗試,後面我也會舉一些例子。

其一,做智能連接,這是最早提出做「互聯網+」的本意。互聯網本身還是從把人連接到某種事情,是做智能的連接。現在希望人連到線下資源。


其二,人機互補。大數據的智能技術要幫助人來輔助決策,就是人和電腦交流,而不是說電腦完全解決。也就是說:讓人做原來做不了的事情,這使得人變的也很重要,但是電腦是能夠輔助人。


最後是數據創新。其實所有的這幾個事情的核心就是「提升效率」,這是因為傳統的方式做事情有一些低效的地方。你就想在什麼情況下是低效的,我們怎麼能夠提升效率、改變效率而使其變得高效,這是最核心的地方。



而如果要是任何對我們想要知道機會的時候,進行這個思考,只要你覺得什麼地方有機會能夠提高效率,都應該是值得去嘗試、值得去做的,所以這裡面也是有很多的機會。實際上從互聯網的思維,是連接的思維。它是把互聯網從連接線上到線上,到連接線上到線下。可以做一些服務,比如:可以做醫療、出行、餐飲等等一系列的。怎麼去用互聯網增加它的效率?這是它的核心點,把效率增加。


一個例子,中國有嘀嘀,國外是Uber,它是連接人和車。這個大家可能都熟悉,但是其中有一個智能技術就是「智能發單」,當客戶人過來了,他去要一個車,他周圍可能有很多個車,但是客戶需要知道哪一個車是最合適的,最大的優化效率,或者最願意接單,或者是其整個的環境更好。


還有一塊是「智能定價」,在Uber還是比較典型的,比如:上下班的時候定價會高。這些東西從本意,都是提升整體的行業效率。還有就是智能的需求,他能知道什麼地方可能更好,告訴計程車司機客戶可能去哪個地方等等一系列。像Uber買了CMU的一個整個實驗室,他們想做智能駕駛,如果真的做成了,將來就直接用無人車來接就行了。


實際上像這種新興的互聯網公司,像Uber這樣的實際上既是一個大數據公司,也是一個人工智慧公司,而且還有很多的技術含量在這其中。



另外一個是「人機互補」,美國也是有一個比較重要的公司在做這件事情,就是Palantir。大家如果看到過《從0到1》,也應該對Palantir科技比較熟悉。的確他們已經在很多地方在用了這樣的技術,他們的思路就是用人和機。機器不是解決所有的問題,但是機器可以和人相對配合,用人快速的定位信息,快速的查找相關信息,幫助人來做決策。所以人能夠很快的,從海量的信息里找到最關鍵的信息,找到最合適的信息,然後幫助用戶來實現其所需要的目標。


Palantir公司還去找一些保險金融的欺詐,這是他們原始的,因為原來他們做過一些金融欺詐的一系列的工作。這說明:首先,人機互補要包含了很多技術,一個就是大數據的技術在這裡面,然後還有智能的查詢,可視化的技術、關聯分析,異常報警。如果你要用大數據輔助人,這些都是一些比較重要的數據。



百度也做過一些類似的應用,比如:用百度的地圖數據,能夠做一些相關的互補,包括「智能城市管理」。比如:用戶可以做人口管理、城市優化、城市網路分析優化等等。百度本身是有定位數據,所以他知道人去了哪兒,他完全不需要知道外面的,只是從百度的數據人在地圖上搜了些什麼地方,他去了哪兒。這也屬於人機交互、人機輔助的思想。


包括用戶可以對上海的外灘事件進行分析,也做過類似的嘗試。


包括:用戶可以做智能選址。商業需要知道在哪個地方最合適開一個店怎麼辦?這裡面也是可以運用這些數據,做輔助決策。這是一個很大的方向。


還有一些大數據的發展趨勢就是「行業創新」。行業創新裡面,用大數據怎麼去把原來一些行業不是很高效的地方變得更高效?


這裡面我想說一點:當時百度曾經做了一系列的預測項目,我們也是輔助一些各個地方,其中有一個就是旅遊景點的預測。比如:現在這個景點裡面有很多的人,然後我們來預測人數等等一系列。當時還有一些報道。


還有一個就是我們做的一些關於大數據在醫療上的一些創新。互聯網也是願意切入醫療,其實醫療主要有三個方面應用;一個就是病前,可能是用戶希望知道一些基本信息。


另外就是患者就醫,就醫現在的一個痛點就是「掛號」。也在嘗試怎麼利用互聯網的方式解決掛號的問題。還有康復,康復包括一系列用戶需要查詢等等一系列的一些交互等等。


從我們研究來看,開始的就是從問診開始。如果用戶要是有一種疾病,他就會去咨詢;但是很多情況下,很多病人都會願意在互聯網上去咨詢。但是搜索現在這種形式並不是最好的,所以我們嘗試的一個,就是說是把這個變得更加高效,而且更加自然。一方面:就是設計一套預診系統。這一系列的流程並不是為了取代醫生的,是為了給病人更好的體驗,使他了解更多的疾病診療信息。



其次,就是嘗試打通關於和零售業的一些線上和線下的交流。零售業關心的一個主要問題是如何帶來客戶,然後才是怎麼維持客戶。一方面從線上和線下的角度來考慮這個問題,從線下的客戶,我們可以幫助找到他線上的行為;而線上的行為,當然零售業用的是線下的數據,這裡面不但有線下的數據也有線上的數據。線上的數據可以找到相似的客戶,知道這些商家什麼客戶對他的價值最高,這樣可以帶來新客戶,而且價值是更高的。


未來的社會將是怎麼樣子?如果我們要是從大數據的角度來講,一方面是「個性化」。這裡的個性化提到的就是當數據足夠多,如果用戶要是有個地方有能力做這些數據的整合,這個當然難度還是比較大的,因為數據有很多問題,一個大的問題就是數據孤島。雖然用戶有好多不同的數據,這些數據沒法整合在一起。但是如果我們做到這一點,機器也許比用戶更知道他自己,或者比你周邊的人更知道你自己。


另外一個方面就是:「智能化」。智能化將來可以幫助使用者從人來講,可以更好的來理解自己、幫助自己和進行交流,幫用戶做決策。 也許有一些工作可能機器會替代人工,包括人工駕駛。這裡指的不完全是替代,也許是輔助人工,包括我們剛才提到的輔助決策。總體來講,它會比人工的效率更高。


最後一方面就是「產業化」,產業化一塊「科學性」,在本報告中,我就沒有過多涉及到,但是科學的發展我相信在大數據的年代會有加速的發展且會使其有更大的提升。最後一個方面就是「產業的升級」。產業升級包括:傳統產業的連接項,現在的「互聯網+」,包括產業在工業上的應用。


謝謝大家!


End.

36大數據
我們是一個專註大數據、大數據技術、應用案例和數據可視化的科技網站。全球化視野,提供最乾貨最專業最具價值的內容。

36大數據是WeMedia自媒體成員之一,也是百度大數據戰略合作媒體。

看微信文章不過癮,我們推薦你搜索「36大數據」,到網站看更多文章。

網站地址:36dsj.com
投稿郵箱:dashuju36@qq.com
讀者QQ千人群:80958753

微信號:dashuju36(長按複製)

推薦關注
大數據女神

微信號:dashujunvshen
點擊下方「閱讀原文」查看更多內容
↓↓↓


---
資料來源:29頁PPT展示互聯網大數據的發展趨勢@百度研究院副院長張潼
如果內容有不適當或對出處有疑慮,請立即通知客服中心
值得看看:
→ 
→ 
→ 
Facebook留言板
您可能有興趣
客服信箱 客服信箱
一則未讀訊息
發訊息給線上客服