今年人工智能題材的好萊塢大片層出不窮,從萬眾期待的《復(fù)仇者聯(lián)盟2:奧創(chuàng)紀(jì)元》,到火爆動作的《超能查派》,再到發(fā)人深思的《她》、《機械姬》,好萊塢的導(dǎo)演們似乎一窩蜂的選擇了“人工智能”這個題材。正如1968年的《2001太空漫游》一般,電影行業(yè)敏感的捕捉到了新科技引爆的火花,對于人工智能這樣的創(chuàng)新科技的發(fā)展,他們樂于做出各式各樣的預(yù)測。我們不難看到,與十多年前的該題材電影相比,2015年的人工智能電影距離夢想更遠(yuǎn),距離現(xiàn)實更近,每一部的大片中我們似乎都看到了當(dāng)下的影子。這其中的原因很大程度上來自于各大科技巨頭對于人工智能的探索,以及取得的巨大成就。
百度就是其中重要的一員。百度近兩年來絲毫不掩飾他們在人工智能領(lǐng)域上的野心。3月份李彥宏在兩會提出的中國大腦提案宣誓了他們希望用人工智能改造未來的雄心,在今天的百度世界大會上,這個未來似乎離我們更近了。百度技術(shù)高級副總裁王勁在他的主題演講中讓我們更加切實的感受到了中國大腦的力量,一款名為“DuLight(小明)”的設(shè)備引起了我們的興趣。這款專為盲人設(shè)計的可穿戴設(shè)備,依托于百度的人工智能技術(shù),實現(xiàn)了實時的圖像畫面識別,并且能夠?qū)⒆R別的結(jié)果用語音的方式反饋給用戶。
這樣的產(chǎn)品,不由讓我們想到了《她》中的人工智能操作系統(tǒng),類似的人機交互、類似的硬件設(shè)備,未來在我們眼前觸手可及。
DuLight的底層邏輯非常簡單:用攝像頭捕捉畫面,并且將畫面用語音表達(dá)給視覺不便的用戶。實現(xiàn)這點最簡單的辦法就是讓一個工作人員坐在顯示屏面前,不斷的看到捕捉的畫面,不斷的給出語音反饋。百度確實也是這么做的,只不過這名“工作人員”并不是真人,而是強悍的“百度大腦”,強悍的人工智能。
當(dāng)我們細(xì)細(xì)剖析DuLight背后的技術(shù),其中的兩項圖像視覺技術(shù)躍入眼簾——圖像識別與人臉識別。這兩項技術(shù)不僅是DuLight的基石,也是未來成就中國大腦的基石技術(shù)。
圖像識別:“聽說”這個世界
圖像是一種典型的非結(jié)構(gòu)化數(shù)據(jù)形態(tài)。長期以來,電腦都很難像人腦一樣去識別圖像其中的內(nèi)在語意關(guān)系,并轉(zhuǎn)化成為自然語言,與人類形成互動。
圖像識別技術(shù)正是通過電腦辨識圖像內(nèi)容并提取語義信息的過程,典型的任務(wù)包括物體識別、物體檢測、圖像分類標(biāo)注等,在圖像類數(shù)據(jù)的智能化分析管理中扮演著至關(guān)重要的角色。百度通過長期的努力,已經(jīng)構(gòu)筑了一套比較完整的圖像識別系統(tǒng),能夠有效地處理特定物體的檢測識別(如人臉、文字或是商品)、通用圖像的分類標(biāo)注、以及主觀圖像質(zhì)量評估等問題。
基于圖像識別技術(shù),各類的應(yīng)用場景應(yīng)運而生,比如李彥宏在此前TechWorld上展示的圖文問答(Image QA)。相比較于圖片描述(Image Caption)的技術(shù)來講,既需要滿足針對圖片內(nèi)容,生成自然的結(jié)果這個要求。在此基礎(chǔ)之上,不僅需要對于圖片進(jìn)行足夠強的語義級別的特征提取,同時還要求計算機能夠理解問題用戶的問題,并根據(jù)用戶所提出的問題,從圖像中提取相關(guān)的信息進(jìn)行自然的回答。只有在圖像理解、語言理解、語言的生成上都做到比較好的程度,才能完成相關(guān)的技術(shù)。
人臉識別:更加精細(xì)化的識別場景
人與人之間大量的互動讓人臉識別成為了最為實用的圖像識別細(xì)分領(lǐng)域。相比于無領(lǐng)域限制的圖像識別,聚焦在人臉上的識別技術(shù)顯然能夠做到更加精準(zhǔn)與高效。百度現(xiàn)有的人臉識別技術(shù)已經(jīng)具備了很強的識別用戶的能力,這項技術(shù)可以分辨用戶的性別、年齡等特征,并且區(qū)分不同的用戶。
百度的人臉識別技術(shù),從檢測到識別,都采用了統(tǒng)一的端到端深度學(xué)習(xí)框架,完全代替了傳統(tǒng)算法,配以海量數(shù)據(jù)和強大的計算能力,訓(xùn)練出效果遠(yuǎn)超傳統(tǒng)的算法和模型,同時還可以根據(jù)不同場景的人臉數(shù)據(jù)做快速的迭代和優(yōu)化。據(jù)悉,在全球最具權(quán)威的人臉檢測評測平臺FDDB公布的最新數(shù)據(jù)中,百度獲得人臉檢測公開數(shù)據(jù)集評測第一名;在世界最權(quán)威人臉識別評測 (LFW) 中,百度獲得人臉識別公開數(shù)據(jù)集評測第一名的佳績。
人臉識別技術(shù)在DuLight中得到了很好的應(yīng)用,用戶可以把自己的親朋好友臉型錄入系統(tǒng),而當(dāng)這名好友出現(xiàn)在用戶面前,被DuLight的攝像頭所捕捉到,系統(tǒng)可以精準(zhǔn)的識別用戶的身份,并用語音方式反饋給用戶。而對于系統(tǒng)中不存在的陌生人臉,利用人臉識別技術(shù),用戶也可以得到一個非常詳盡的反饋,將面前人物的性別、年齡等信息反饋給用戶。對于盲人用戶而言,這是一個從0到1的重大突破,原來黑漆漆的世界,出現(xiàn)了一絲光亮,原來幾乎無法感知的世界,可以被聽見,可以被感受到,通過DuLight點亮他們的精彩世界。
技術(shù)讓互聯(lián)網(wǎng)+更加清晰
圖像識別與人臉識別技術(shù)的出現(xiàn)與不斷成熟,讓我們對于未來有了更多的暢想,一些科幻電影的場景也許會逐漸成為我們生活中會司空見慣的場景。比如,銀行卡將不需要再驗證數(shù)字密碼,而是直接采用“刷臉”的方式驗證用戶身份,不僅更加方便,而且安全可靠。
據(jù)了解,百度已經(jīng)陸續(xù)有了開放這些基礎(chǔ)技術(shù)的計劃,在百度開放云平臺上,我們已經(jīng)欣喜的看到百度開放到圖片識別服務(wù),傳統(tǒng)行業(yè)可以快捷的接入圖像識別接口,實現(xiàn)多張人臉圖片相似度比對,移動端的人臉注冊、驗證登錄等功能。后續(xù),人臉檢測、關(guān)鍵點、人臉屬性等更基礎(chǔ)的人臉服務(wù)也會集成到百度開放云的API中,成為開放云的基礎(chǔ)服務(wù)之一。
通過技術(shù),互聯(lián)網(wǎng)+變得更加清晰與真實,傳統(tǒng)行業(yè)轉(zhuǎn)型互聯(lián)網(wǎng)有了充足的彈藥支撐,我們有理由去暢想一個美好的未來。
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。