華為在人工智能相關(guān)領(lǐng)域的發(fā)展路徑選擇,也許將直接改變中國AI+時(shí)代的產(chǎn)業(yè)格局和江湖面貌。對于這句話,有些人能迅速心領(lǐng)神會(huì)。
過去幾年,AI已經(jīng)成為華為的重中之重。新智元在和安卓綠色聯(lián)盟、中科院自動(dòng)化所合辦的6月百人會(huì)閉門論壇上,特別邀請到華為CBG軟件工程部VP、終端智慧工程部部長張寶峰做了專門的講解。張寶峰1998年加入華為,在信息科技領(lǐng)域有超過18年的工作經(jīng)驗(yàn),目前負(fù)責(zé)華為終端AI軟件的開發(fā)和交付。他說:“對于手機(jī)終端智慧化的未來,我談?wù)勎业恼J(rèn)知和理解,大家可以看看,哪些東西是對的,哪些是錯(cuò)的。”也許,他的認(rèn)知和理解,正是理解終端智慧化產(chǎn)業(yè)方向的一把鑰匙。
張寶峰,華為CBG軟件工程部VP,終端智慧工程部部長,負(fù)責(zé)終端AI軟件的開發(fā)和交付。曾擔(dān)任華為諾亞方舟實(shí)驗(yàn)室副主任,負(fù)責(zé)數(shù)據(jù)科學(xué)領(lǐng)域的中長期技術(shù)研究工作,研究方向?yàn)閿?shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和人工智能。中國核高基專家組成員和中國CCF大數(shù)據(jù)專家委員會(huì)成員。
張寶峰1998年加入華為,在信息科技領(lǐng)域有超18年的工作經(jīng)驗(yàn),有豐富的國際/國家標(biāo)準(zhǔn)組織活動(dòng)經(jīng)驗(yàn),曾任國際電信聯(lián)盟13研究組固定移動(dòng)融合課題的報(bào)告人,中國通信標(biāo)準(zhǔn)化協(xié)會(huì)網(wǎng)絡(luò)與交換技術(shù)工作委員會(huì)副組長。
AI已成為主驅(qū)動(dòng)力之一——“嚇尿”周期變短,影響范圍變大
回溯人類發(fā)展的變化歷程,是一個(gè)越來越加速的過程。一百萬年前還是茹毛飲血時(shí)代的人,到了距今一千年前的農(nóng)耕時(shí)代,見到了農(nóng)耕生活的烤肉;一千年前農(nóng)耕時(shí)代人去到兩百年前,或是那時(shí)的人來到現(xiàn)在,看到天上的飛機(jī)、使用的手機(jī)終端,他們能感受到什么?
這代表了一個(gè)非常有意思的“嚇尿指數(shù)”,未來學(xué)家?guī)炱濏f爾強(qiáng)調(diào)人類歷史發(fā)展的加速度。如果生活在若干年前的人被帶到今天的話,將被現(xiàn)在所謂的科技生活、交通現(xiàn)狀、社會(huì)本身的現(xiàn)狀所震驚。在幾千年、幾百年的社會(huì)發(fā)展中,科技進(jìn)步扮演著非常重要的角色。談到今天的時(shí)代,毫無疑問是人工智能。”
自從計(jì)算機(jī)在象棋、圍棋方面打敗人類之后,就再?zèng)]被擊敗過。這次柯潔輸了之后,估計(jì)大家沒有太大興趣再跟機(jī)器比誰強(qiáng)誰弱。這個(gè)曲線還再繼續(xù)加速,加速過程中,我們認(rèn)為未來很可能會(huì)超出我們自己的想象。
智慧革命和交互革命是未來驅(qū)動(dòng)整個(gè)手機(jī)產(chǎn)業(yè)改變的兩大主線
技術(shù)本身是一個(gè)虛擬的概念,真正實(shí)現(xiàn)變革的是產(chǎn)品,是終端形態(tài)的變化。未來終端到底會(huì)以什么樣的形式交互?我們的技術(shù)在其中扮演著什么角色?
手機(jī)終端的變革,從最開始的模擬信號(hào),只支持打電話功能,發(fā)展到了數(shù)字化的信息獲取時(shí),手機(jī)已經(jīng)可以代替電腦。而未來會(huì)是數(shù)字助理,如何給用戶真正最佳匹配,找到他自己想要的東西?信息能夠更高效、更便捷地驅(qū)動(dòng)手機(jī)用戶從智能助理得到服務(wù),這是我們真正追求的。
智慧革命和交互革命是未來驅(qū)動(dòng)整個(gè)手機(jī)產(chǎn)業(yè)改變的兩大主線,如何真正產(chǎn)生更自然的交互?我們用手機(jī)的時(shí)候,從以前的按鍵,到今天的觸屏,到現(xiàn)在的語音,一代一代進(jìn)展。如何用現(xiàn)代的人工智能技術(shù)實(shí)現(xiàn)“可用”?比如喚醒,這個(gè)功能本身很容易,現(xiàn)在有幾種智能音箱都要馬上上市。但喚醒又很難做。安靜環(huán)境下,可以非常容易實(shí)現(xiàn)比較高的準(zhǔn)確率。而到嘈雜環(huán)境的時(shí)候,比如正在播放音樂,或者有很多人聊天,這時(shí)正常喚醒,并且識(shí)別是你,就是一個(gè)很難的挑戰(zhàn)。
這是一個(gè)新的時(shí)代。AI給終端帶來的最大價(jià)值在于入口本身越來越精準(zhǔn),越來越人性,也就是越來越便利。
手機(jī)是一個(gè)現(xiàn)代IT技術(shù)集大成的設(shè)備,里面有大量的傳感和交互信息,如語音、文字、視頻、傳感器,它能帶來的一個(gè)很大的變化,使現(xiàn)實(shí)世界更容易更方便地變成數(shù)字化,并且由于手機(jī)現(xiàn)在已經(jīng)毫無疑問成為伴隨人每天工作生活時(shí)間最長的IT設(shè)備,它一定會(huì)產(chǎn)生非常重要的橋梁作用。
手機(jī)終端智慧化的未來——三大需求:理解用戶,主動(dòng)服務(wù),終生學(xué)習(xí)
對于手機(jī)終端智慧化的未來,我談?wù)勎业恼J(rèn)知和理解,大家可以看看,哪些東西是對的,哪些是錯(cuò)的。
第一,理解用戶。
大量的傳感設(shè)備或者智能交互設(shè)備出現(xiàn)了,包括以前的眼鏡、現(xiàn)在的手環(huán),還有手表、手機(jī),這些終端圍繞某一個(gè)用戶,已經(jīng)在大量刻畫所有的生活軌跡。圍繞每個(gè)用戶,有很多種終端同時(shí)為你工作的時(shí)候,需要真正懂你的代理,幫你代理終端本身的控制和交互。未來的終端里面,終端泛化需要真正懂你的助理。虛擬世界里面強(qiáng)調(diào)的是真正對“你”的理解和認(rèn)知。未來AI往前發(fā)展,特別是對于消費(fèi)者設(shè)備來說,這是第一個(gè)非?;A(chǔ)的需求:如何真正懂你,并且實(shí)現(xiàn)多端協(xié)同控制。
第二,變被動(dòng)為主動(dòng)。
現(xiàn)在業(yè)務(wù)服務(wù)都是以APP的方式提供給大家,這是標(biāo)準(zhǔn)的智能手機(jī)的商業(yè)模式。但終端現(xiàn)狀存在一些問題,比如一個(gè)用戶手機(jī)平均裝了一百個(gè)APP,任何一個(gè)功能,都有好幾個(gè)APP能完成。打車有好幾個(gè)APP,新聞閱讀有好多個(gè)APP,但是每個(gè)APP,都還有一些小眾化的需求是需要的。未來的智能助手,建立在用戶認(rèn)知基礎(chǔ)上,替用戶完成初步篩選,便利的主動(dòng)推送,真正主動(dòng)探知用戶的需求,讓用戶一步完成想干的事。這是我們看到的第二個(gè)趨勢,主動(dòng)服務(wù)。
第三,智能終端的終生學(xué)習(xí)。
終生學(xué)習(xí)并不是從用戶接入開始到用戶離開你的服務(wù)為止。
類似人類從小孩到中年到老年,整個(gè)過程都能感知和認(rèn)知,智能終端能不能在整個(gè)事件的生命周期內(nèi)持續(xù)提供服務(wù)?比如從深圳來北京的一趟飛機(jī),航班信息非常多,能不能決定一下選哪個(gè)?萬一有一些意外,能不能提供一個(gè)備選方案?包括出行,包括酒店,包括航班,一系列信息其實(shí)都是連續(xù)的,行程任務(wù)很明確,所有的一切是不是能夠替我在周期內(nèi)完成?AI整個(gè)能力部署之后,建立整個(gè)學(xué)習(xí)引擎之后,應(yīng)該能夠提供一個(gè)場景化選擇適配的能力,能夠知道我的用戶的場景變化,以最佳的方式來完成我的任務(wù),這里面是持續(xù)性的學(xué)習(xí)過程,不是單次的適應(yīng)過程。
但是本身來講它是巨大的挑戰(zhàn),如果從完整事件的高度看,這需要聚合各式各樣的AI能力拼成完整的系統(tǒng),而這個(gè)系統(tǒng)本身的駐留產(chǎn)生終生學(xué)習(xí)的效果。通過成功完成每次任務(wù),通過各式各樣人的群體測試的疊加,它就會(huì)越來越智能。這個(gè)智能系統(tǒng)才是可持續(xù)發(fā)展的系統(tǒng),不是單次型的智能系統(tǒng),部署完、訓(xùn)練完就完了。這是從消費(fèi)者解決方案的角度來看,AI領(lǐng)域能夠帶來的非常大的變革性的場景化的需求。
終端智慧化的痛點(diǎn):端側(cè)智能,產(chǎn)品線實(shí)測,深度學(xué)習(xí)
以上三點(diǎn)是比較值得和大家分享的潮流和趨勢,下面,我將提出來一些痛點(diǎn),與行業(yè)內(nèi)的專家們交流。
第一是端側(cè)智能,加盟CBG(華為消費(fèi)者BG)之前,我夢想有一個(gè)超級(jí)強(qiáng)大的云,一個(gè)在云端持續(xù)處理的超級(jí)強(qiáng)大的大腦。
但是我們?nèi)ツ臧l(fā)布Magic手機(jī)的時(shí)候,有一個(gè)客戶跟我提,用你們的手機(jī)正看著一個(gè)視頻,突然跳出來一個(gè)推薦,說蘇寧上賣的某個(gè)東西比京東上便宜10塊錢,這是系統(tǒng)不停在分析用戶本身的業(yè)務(wù)需求,客戶建議說,你們要控制一下這個(gè)。
另外,像輸入法這種模型,如果在手機(jī)上敲的每個(gè)字都要回到云端,從這個(gè)角度去想,其實(shí)個(gè)人感受還是非常不舒適的,不知道未來的人是不是能夠適應(yīng)這樣的東西?,F(xiàn)階段社會(huì)里面還是有非常多的人比較敏感,他也許會(huì)想,我現(xiàn)在敲的每個(gè)字都在云端了,不知道你會(huì)怎么去用,我交互的一切你都獲得了,我很擔(dān)心。
這里有一個(gè)很重要的問題,遲延。今天上傳1028×760的照片,至少要秒級(jí)的時(shí)間上傳到云端,加上分析的時(shí)間,一個(gè)來回需要1點(diǎn)幾秒甚至2秒以上,這樣的體驗(yàn)在用戶很多場景下是不可接受的。我當(dāng)時(shí)來到CBG,感覺到很大的問題是,不管云側(cè)做得多么準(zhǔn),從體驗(yàn)看過去,消費(fèi)者真正接收到的其實(shí)是速度很慢的、且交互體驗(yàn)還存在很大風(fēng)險(xiǎn)的服務(wù)提供模式。
從今年的產(chǎn)業(yè)變化看,各大廠商也意識(shí)到了消費(fèi)者這層心理問題。Google的大會(huì)發(fā)布了 TensorFlow Lite。如果放到端側(cè)去,端側(cè)是否能兼容TensorFlow的引擎和平臺(tái),讓模型本身的東西在本地執(zhí)行,現(xiàn)在還沒有到模型的訓(xùn)練階段。
華為已經(jīng)在嘗試能不能在本地進(jìn)行簡單模型的增強(qiáng)訓(xùn)練,或者簡單模型的生成問題。Facebook提出的Caffe2是一模一樣的故事,一樣是關(guān)于如何能夠真正在端側(cè)有一個(gè)通路的引擎平臺(tái),使大家更方便去運(yùn)轉(zhuǎn)自己的人工智能復(fù)雜模型的問題。
在嘗試端側(cè)的過程中,我們遇到的第一個(gè)問題是,如何在端側(cè)以用戶可以接受成本的情況下,真正執(zhí)行我們自己的智能體驗(yàn),真正在端側(cè)智能提供有效簡化和信息獲取便利的技術(shù),這在所有的AI智能交互部分都會(huì)有挑戰(zhàn)。
為了解決這個(gè)問題,我們在今年也會(huì)嘗試做一款可以支撐人工智能模型在端側(cè)執(zhí)行效率的芯片。
端側(cè)智能并不絕對代表云側(cè)沒有事干,終生學(xué)習(xí)、感知、認(rèn)知,其實(shí)很多是離不開云的。但端側(cè)智能有客觀需求,從用戶角度還有做產(chǎn)品的角度都有客觀需求。這是今年遇到的挑戰(zhàn)和值得嘗試的方向。
第二,現(xiàn)階段衡量人工智能水平非常重要的指標(biāo)是語音識(shí)別,還有圖像分類。這兩點(diǎn),大家都鼓吹已經(jīng)超越人類,但是我們真正在產(chǎn)品線實(shí)測的結(jié)果還不成熟。
比如有些微信里面往往設(shè)計(jì)非?;ǖ谋尘?,字體設(shè)計(jì)五彩斑斕,這種情況下使用OCR技術(shù)實(shí)現(xiàn)真正通用的自然識(shí)別準(zhǔn)確率,估計(jì)是所有的研究團(tuán)隊(duì)已經(jīng)不再做的方向,但這是真正的實(shí)際指標(biāo)。而語音識(shí)別在現(xiàn)實(shí)中有噪音的識(shí)別率是很低的。大家都在宣傳人工智能已經(jīng)成熟,已經(jīng)超過人類,實(shí)際在真正應(yīng)用場景里面差距蠻大。這是給大家提出一個(gè)期望和希望,即能不能真正變成實(shí)用、可用的。
別光說理想環(huán)境里面某個(gè)指標(biāo)測上去達(dá)到百分之九十六、百分之九十七,甚至還在追求百分之九十七點(diǎn)幾的精度。能不能真正泛化起來把環(huán)境場景做復(fù)雜一點(diǎn),不要做太大的約束,而是變得真正可用。
前面兩個(gè)指標(biāo)都是跟端側(cè)有一定的相關(guān)性。一周前,我們項(xiàng)目組在討論一個(gè)非常簡單的圖像分類任務(wù)。960×960的圖片在端側(cè)做分類不是很復(fù)雜的時(shí)候有800毫秒的時(shí)延,對人來說,操作時(shí)有感覺,相當(dāng)于點(diǎn)了之后,頓了一下才會(huì)有交互的感覺。
在相機(jī)里面疊加一個(gè)計(jì)算機(jī)視覺功能的時(shí)候,我們遇到的問題是,多了200毫安。大家可能對這個(gè)單位不是很有感覺,手機(jī)里面如果一個(gè)任務(wù)超過1安培,手機(jī)其實(shí)是非常容易著火燒起來的。單任務(wù)超過1安培很危險(xiǎn),2安培干掉1/5的上限。人工智能在計(jì)算機(jī)視覺里面啟動(dòng)人臉識(shí)別、性別識(shí)別,一系列任務(wù)都搞的話,能源的消耗也是不可接受的。我們希望在實(shí)現(xiàn)一個(gè)任務(wù)時(shí),任何一個(gè)單位時(shí)延都在百毫秒以下、40毫安以下。這也是專用手機(jī)AI芯片追求的技術(shù)指標(biāo)。
我們其實(shí)是有約束的,AI并不是模型越復(fù)雜越好,而是在一定情況下,一定考慮成本。我來了產(chǎn)品線之后,真正非常非常重視的是,在云端不是不能跑,而是跑了用不起來,那么做這個(gè)技術(shù)有什么用?在做今年的整個(gè)產(chǎn)品交付時(shí),我面臨著很大的壓力,正好借這個(gè)機(jī)會(huì)跟大家分享一下。實(shí)實(shí)在在的指標(biāo)是可以牽引著人們繼續(xù)往下一代走,技術(shù)上可行了,就需要再多考慮一步,需要在面臨場景的復(fù)雜度和工程約束時(shí)也能做到。這樣,我們才認(rèn)為這個(gè)AI技術(shù)能真正走到產(chǎn)業(yè)里來,確實(shí)解決了用戶痛點(diǎn)的問題。
第三點(diǎn),深度學(xué)習(xí)。昨天看微軟的劉鐵巖在知乎上寫了很長的貼子講,人工智能到了哪兒?他提出一個(gè)很好玩的概念:調(diào)參黑科技。
現(xiàn)在面試很多學(xué)生時(shí),會(huì)問他做了什么,用深度學(xué)習(xí)模型做了多少層的網(wǎng)絡(luò),做了多寬的參數(shù)選擇,用了哪些比較流行的各種各樣的層,有點(diǎn)像堆積木。
我不否認(rèn)這代技術(shù)很有用,深度學(xué)習(xí)客觀來講解決了很多功能上很難解決的問題,包括語音識(shí)別還有圖像分類。但是這些東西是不是夠?既然作為AI領(lǐng)域里面研究的先鋒或者所謂先行者的話,大家還要考慮一下這個(gè)東西夠還是不夠的問題。
理論上來講,深度學(xué)習(xí)的模型確實(shí)應(yīng)該有最強(qiáng)的分析能力,但是深度學(xué)習(xí)是不是代表著只停留在這樣的應(yīng)用就夠了?從產(chǎn)業(yè)應(yīng)用角度,我們確實(shí)沒有時(shí)間去打開看每一層里面有沒有優(yōu)化的空間,以及引入新的人腦科學(xué)的東西來去改進(jìn)所有層的設(shè)計(jì)。
光去搞調(diào)參黑科技是不太夠的?;?a href=http://www.90chu.com/index.php?m=content&c=index&a=infolist&typeid=1&siteid=1&type=keyword&serachType=2&key=%E5%A4%A7%E6%95%B0%E6%8D%AE style='color:#57A306' target='_blank'>大數(shù)據(jù)提取出來的問題,沒有當(dāng)時(shí)的特定情況,或者沒有高頻次反應(yīng),在現(xiàn)在的訓(xùn)練模型里面很容易把這種信息忽略掉,這意味著理論上來講有一種case肯定會(huì)失效,意味著人工智能很多決策系統(tǒng)里面存在不可承受的風(fēng)險(xiǎn)。如何解決在最不可預(yù)測情況下保證模型不出災(zāi)難性后果的問題,這是非常值得鼓勵(lì)的研究。
此外,不排除在工程實(shí)踐里面繼續(xù)做寬度、深度、廣度、變換去解決實(shí)際問題,搞調(diào)參解決實(shí)際問題。如果有時(shí)間真正去攻關(guān)的話,這類技術(shù)的極限在哪里?是不是在產(chǎn)業(yè)化應(yīng)用里面更好?
模型可解釋性,無外乎三種:樹狀、回歸、網(wǎng)狀。其實(shí)數(shù)量模型做完非常容易解釋,例如:針對30歲的男性應(yīng)該推薦某個(gè)商品,只要做出這個(gè)數(shù)量模型告訴大家為什么當(dāng)時(shí)做了這個(gè)決策以及給了這個(gè)推薦就可以了。網(wǎng)絡(luò)模型沒有一個(gè)人能講清楚到底為什么,反正能用,效果好壞能測出來,為什么從來不知道,這是這代技術(shù)的挑戰(zhàn)和壓力。
我們非常希望得到可解釋性的東西,包括有了attention之后,我們做非常復(fù)雜的網(wǎng)絡(luò)意味著剛才提到的功率、內(nèi)存所有的壓力都不太現(xiàn)實(shí)。如果我們能夠真正去理解這個(gè)模型,就可以做選擇、做壓縮,做裁剪。大家還是想想,既然做這種方向的研究,一定真正深下去、廣下去。
分享到微信 ×
打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。