在大部分人看來,人工智能是個有些“科幻”的詞匯,代表小說電影中和人類長相相似、或溫柔或冷酷的機器人。
稍微熟悉一點,這份印象又變成冷冰冰的GPU陣列、復雜多層的神經(jīng)網(wǎng)絡和一大串佶屈聱牙的專有名詞。能接觸它們的除了工程師,就是科學家。
也許這份印象需要再度刷新一次——人工智能,真的需要不少“人工”。
標注這件“小事”,還需要人幫忙
秦嬌今年剛滿30歲,幾個月前剛剛從呼叫中心跳槽到一家“數(shù)據(jù)加工”公司。雖然跨了行業(yè),她并不覺得兩份工作有什么不同,都是按照甲方的要求和己方的工作節(jié)奏,把人手安排到一個又一個項目中去。
公司剛成立不到一年,眼下業(yè)務大多是標注數(shù)據(jù),即根據(jù)項目方要求,人工為圖片、視頻和語音內(nèi)容打標簽、做標記。標注好的數(shù)據(jù)會被人工智能公司用來訓練算法模型,然后應用到圖像識別、語音識別等不同領域。
通常來說,數(shù)據(jù)標注得越準確、數(shù)量越多,模型的效果就越好。自然,產(chǎn)品的效果就會更好。
一旦要求質(zhì)量,每個人的產(chǎn)出量就不會太多。
熟練者平均一天可以標注40張圖片,前提是只需要為圖片中的物體打框、標注類別和前后關系。如果涉及到刻畫建筑物邊緣等復雜細節(jié),一天標注10張已是極限。
圖片為簡單標注方式的一種
但需要處理的數(shù)據(jù)訂單往往以“萬”為單位。最新的需求是6萬張圖片,7天內(nèi)完成。理論上這個訂單需要214個人共同工作7天,秦嬌手頭只有不到100個人,其中一部分還要完成其它項目。幾次秦嬌都對著電話那頭擺出不耐煩的神情,“你跟他說,要我去死好不好”。
與擁有1,500萬張標注圖片的數(shù)據(jù)集Image Net相比,只有6萬張圖片的項目顯得十分渺小。不過大部分人可能很難想象,是來自167個國家的48,940名工作者,花費了2年時間,清理、分類、標記了近十億張通過互聯(lián)網(wǎng)搜集到的圖片,才得到這個有1,500萬張圖片的數(shù)據(jù)集。其所耗費的時間與人力,遠非一般項目可比。
數(shù)據(jù)龐大又開源,ImageNet很快成為研究圖像識別的首選。不論Andrew Ng(吳恩達)還是Jeff Dean,涉足這一領域研究者都使用過ImageNet。但ImageNet有自己的弱點,標注框太大、標注方式少和不時出現(xiàn)的錯誤,使它難以被用來訓練實際應用的算法模型。
人工智能公司們必須想盡辦法,積累符合自身應用方向,標注得更細致、更準確的數(shù)據(jù)。在初創(chuàng)公司招聘工程師的需求中,“有收集標注數(shù)據(jù)的能力”有時也會被寫進其中。某種程度上,高質(zhì)量的標注數(shù)據(jù)決定了一家人工智能公司競爭力。
盡管互聯(lián)網(wǎng)的確催生了浩如煙海的內(nèi)容,但標注這件需要耐心和專注的“小事”,暫且還要靠人的幫忙。
大數(shù)據(jù)就是呼叫中心
在專業(yè)的數(shù)據(jù)標注公司出現(xiàn)前,眾包平臺往往是大部分公司的選擇。
人們認為靈活性更高的眾包方式能適應不穩(wěn)定的數(shù)據(jù)需求,價格成本也更低。某知名數(shù)據(jù)眾包平臺據(jù)稱擁有超過5,000名數(shù)據(jù)標注專員,單日可處理超過200萬條數(shù)據(jù),能“穩(wěn)定提供數(shù)據(jù)標注服務”。
#FormatImgID_1#
數(shù)據(jù)標注是所有數(shù)據(jù)眾包平臺的核心業(yè)務,除此之外還有數(shù)據(jù)清洗、數(shù)據(jù)采集等等
“收集到的標注內(nèi)容中存在噪聲甚至錯誤,不能直接作為正確的標注使用”早已是不爭的事實。如何解決眾包平臺的質(zhì)量缺陷,已經(jīng)成為近年來博碩士論文的議題之一。
不過從單日單人數(shù)據(jù)比(400條數(shù)據(jù)/人)可以推測出,其標注質(zhì)量也許并非所說的那么可靠。由于參與眾包標注的工作者數(shù)量很多,專業(yè)背景和工作能力參差不齊,
通過數(shù)據(jù)交易平臺購買已標注好的數(shù)據(jù)包也是一種選擇。但問題似乎又繞回為什么人工智能公司要自己標注數(shù)據(jù):不同的應用方向需要的數(shù)據(jù)內(nèi)容不同,甚至標注方式也不同。
大部分人工智能公司自身和眾包平臺都無法同時滿足這三種要求,因而誕生了專業(yè)的數(shù)據(jù)標注公司。
秦嬌目前所在的這家公司,瞄準的就是這片市場——人工智能公司需要的數(shù)據(jù)既要根據(jù)需求定制,又要保證標注質(zhì)量,同時數(shù)量還十分龐大。
這家“數(shù)據(jù)加工”公司的一二層,全部是負責標注數(shù)據(jù)的員工。為滿足不同訂單需求,員工們被劃分成不同小組:
有的小組負責勾畫圖片中人體的關節(jié)點,將復雜的瑜伽姿勢抽象成點和線,可以用來訓練識別人體體態(tài)的模型;
有的小組要為路況圖片中的車輛、摩托車、自行車和行人打上邊框,并標注行進方向和是否有遮擋,這類圖片多用來訓練智能安防攝像頭的識別能力;
有的小組需要分毫不差地描繪建筑物的邊緣,將靜止畫面中鱗次櫛比的大樓一一分割,標注成不同的色塊,這類數(shù)據(jù)多用在自動駕駛中車輛對環(huán)境的認知;
有的正將雷達掃描出的障礙物3D線條一一還原成實物,長方體是建筑、綠色的是樹木,這些內(nèi)容會被用來訓練雷達數(shù)據(jù)和真實世界的關聯(lián)性。
標注作業(yè)有時并不簡單,比如這種關聯(lián)性標注
除圖片外,這里還有負責視頻標注的員工。她們需要從每段視頻中抽出10幀,標注相近兩幀中物體的方向和坐標的變化。這些數(shù)據(jù)也許會被用來訓練機器對物體連貫性的感知,也許用來訓練機器預判物體的位置變化。
與大部分制造業(yè)類似,這里的各個小組都有自己的管理者。管理者之上是項目經(jīng)理,然后才是秦嬌這樣為數(shù)不多的高層管理者。員工“生產(chǎn)”的內(nèi)容會經(jīng)過質(zhì)檢人員的核驗,全部合格后才會最終交付項目方。嚴格的流程和管理制度,保證了穩(wěn)定的標注效率和質(zhì)量。
“很多人認為大數(shù)據(jù)就是呼叫中心,我們發(fā)展的大數(shù)據(jù)和其他人不一樣,整個貴州只有我們做數(shù)據(jù)精加工。”對于公司目前在做的業(yè)務,秦嬌顯得非常驕傲。
的確,這些結構化后數(shù)據(jù),將成為這場人工智能大潮中的公司們的立足之本。不僅幫助它們提升模型的準確度、提升產(chǎn)品的可靠性,甚至影響它們的發(fā)展軌跡和融資進程。
找到更深入行業(yè)的業(yè)務模式
“數(shù)據(jù)加工”公司所在地距“大數(shù)據(jù)之城”貴陽五十多公里,是一座只接受科技公司入駐的“數(shù)字小鎮(zhèn)”。剛剛落成入駐率不高,加上位置偏遠、人跡罕至,園區(qū)顯得十分安靜。
“易于管理、盡職盡責”是秦嬌給這些學生的評價。
有趣的是盡管位處山林之中,小鎮(zhèn)的隔壁有一間規(guī)模不小的高職學校,學校的學生構成了這家公司目前主要的員工來源。除上課外,學生們每天有大約6個小時可以工作,
高職學校初建的目的是教育扶貧,因此學生們大多來自貧困山區(qū),學校會提供不少補助和獎學金。在數(shù)據(jù)加工公司兼職賺來的錢不僅足夠生活,有些學生還會拿出一部分補貼家用。偶爾這份工作還能成為職業(yè)跳板,“我們的學生踏實又努力,有的去北京實習,因為熟悉標注工作、又認真,反饋回來說比同樣實習的北京大學生強得多”。
學校走廊的墻上也貼著不少相似的學生案例。在描述學生們?nèi)雽W前情況的文字中,不可避免地包含著“貧窮”、“雙亡”、“殘疾”等詞匯。
其中一張照片中父親、母親和學生坐在寨樓的木板地上,身后昏暗的空間里沒有任何擺設;另一張照片中的學生摟著患病的哥哥;還有一張照片,面無表情的學生正坐在床一樣的地方,背景是用黑白報紙糊著的墻。后來,她們都憑努力改變了自己和家庭的命運。
對這份工作能帶給學生的機會與回報,“數(shù)據(jù)加工”公司的COO李政同樣十分篤定。
但
摸索了近一年,李政拓展了包括采集數(shù)據(jù)在內(nèi)的不少業(yè)務。所謂采集數(shù)據(jù),是指自主拍攝符合項目方要求的人像圖片,如一個人正面、45度、60度以及佩戴各類裝飾物的照片。這些圖片可以用來訓練計算機對于同一張人臉在不同狀態(tài)下識別的準確性和關聯(lián)性,是目前大部分專注人臉的計算機視覺公司都有的需求。
有時,表情也在規(guī)定在數(shù)據(jù)采集的要求中
在自己搭建的攝影棚中,“數(shù)據(jù)加工”公司已經(jīng)完成了好幾份訂單。主角當然還是學生們,她們排隊依次進入影棚,按照要求擺好姿勢拍下幾張照片后,再分別戴上口罩、墨鏡、帽子繼續(xù)拍攝。一套照片往往包含10幾張,一天能拍攝100多套。比起安防公司自己搜集或拍攝照片,這套標準流程和足夠的樣本數(shù)(學校至少有上千個學生)的確有不小競爭力。
除此之外,她們還可以承接小語種的語料收集工作。地處西南、臨近東南亞,當?shù)氐娜穗H關系鏈和頻繁的商務交往能提供不少便利。
“只做來料加工肯定不行,”李政非常堅定,“我們最近正在培訓一些技術人員,懂技術才能和項目方更好地溝通需求,把需求更好地描述出來,我們才能更好地滿足。”
精細化標注不是什么容易事
“標注真的是個辛苦活。”提起“數(shù)據(jù)標注”四個字,華院數(shù)據(jù)的首席科學家尹相志不禁咧了咧嘴。
幾個月前,華院數(shù)據(jù)剛剛舉辦過一次大數(shù)據(jù)應用比賽,包含識別復雜圖像中的動物、通過行車記錄儀的圖像還原駕車操作場景等多個環(huán)節(jié)。在“通過賣場貨架圖片自動計算產(chǎn)品的貨架占有率”這項測試中,她們拍攝了1600多張真實的貨架圖片作為原始數(shù)據(jù)。
比賽的目的,是通過不到兩千張的“小數(shù)據(jù)樣本”,實現(xiàn)往往需要大量樣本才能實現(xiàn)的圖像識別。為了讓比賽的難度不那么“變態(tài)”,她們還為選手們提供了“精細化標注”后的貨架圖片——所謂精細化標注,就是貨架上每一包緊挨著的零食、泡面,都要沿邊緣仔細劃分。
圖中左側(cè)為從真實貨架照片中挖取出的同類商品碎片;右側(cè)為對貨架上不同商品的標注,每種灰度對應一種商品
深度學習最大的問題還是樣本數(shù),這里考的其實是怎樣通過小樣本進行學習。
“”通過這項挑戰(zhàn)的訣竅之一,是將原本1000多張圖片根據(jù)提供的邊緣裁切保留純粹的產(chǎn)品圖像,透過數(shù)據(jù)增強技術放大到數(shù)十萬張,再根據(jù)這些增強后的圖片建模就可以減少誤差。精細化標注不僅能幫助解決樣本稀少的問題,對于過往需要幾十萬圖片才能訓練模型的模式也帶來了啟發(fā)。
不過精細化標注并不是什么容易事,這一千多張圖片的標注耗費了12個人大半個月時間,負責標注工作的組員“幾近崩潰”。如果有人能承擔復雜標注這項令人“崩潰”的工作,并善于滿足復雜的標注要求,人工數(shù)據(jù)標注能成為一項長遠發(fā)展的產(chǎn)業(yè)嗎?
“近期需求還是很大,”尹相志想了想,“但這個行業(yè)可能只有5年時間,大家都在想各種辦法,比如開源,比如小樣本學習本身。”
除了小樣本學習,人們也在思考是否能合成數(shù)據(jù)。圖像識別領域的研究者們正在嘗試通過圖形學方法,制造出逼真的、和真正訓練圖像非常相似的圖片。理論上這種方法能夠產(chǎn)生大量直接帶有標注的數(shù)據(jù),但能不能“真實”,還需要圖形學上的進步。
ImageNet的締造者李飛飛同樣意識到精細化標注的力量,正在進行一份名為“Visual Genome”的工作。Visual Genome有更多、更窄的框,更詳細的名詞標注,以及位置關系和動作關系。目前Visual Genome中有10.8萬張圖片。
對于數(shù)據(jù)標注這件不大不小的麻煩事,每個從業(yè)者都有自己的看法。有人諱莫如深,將話題轉(zhuǎn)換成互聯(lián)網(wǎng)是最龐大的數(shù)據(jù)集;但事實上所有人都知道采集到的數(shù)據(jù)無法直接使用。有人坦誠不少數(shù)據(jù)需要學生兼職或靠自己的員工標注,對質(zhì)量的不滿促使有些公司干脆成立了數(shù)據(jù)標注部門;還有人透露,如果用對了關鍵詞,在淘寶也能找到不少外包商。
不過每個人或多或少都樂觀相信,5年后就不再需要這么多人力,無監(jiān)督學習、小樣本或者自動生成數(shù)據(jù)會發(fā)揮更大作用。
可那些傾注人們心血標記而成、精巧如藝術品的標注圖片,5年后的計算機,真的不再需要它們了嗎?
數(shù)據(jù)標注是一門不錯的好生意
在知乎“大公司里面有人專門負責標注數(shù)據(jù)嗎?”問題下,共有21個回答。來自大公司的回答者們表示曾“發(fā)動全部門人對幾萬張圖進行人肉打標”,或是將工作“安排在人力成本比較低的分公司”。小公司們則將數(shù)據(jù)“交給隔壁全是女性的部門標”,或是“省錢就自己人標了”。除此之外,交給外包公司是頻率最高的選項。
從招聘網(wǎng)站發(fā)布的職位需求也可略窺一二。在智聯(lián)招聘中鍵入“數(shù)據(jù)標注”,可以找到60個直接相關職位。在拉勾網(wǎng)則能找到近400個——管理外包團隊等相關職位也被算入其中。以兼職為主題的豆瓣小組和百度貼吧,也從滿屏的寫軟文、寫小說、寫評論,開始夾雜數(shù)據(jù)標注的兼職招募。
數(shù)據(jù)標注是一門不錯的好生意
看起來,在人工智能行業(yè)火熱、大量創(chuàng)業(yè)公司涌現(xiàn)的當下,。
2009年,張彤禾曾在《打工女孩》中描述過一群背井離鄉(xiāng),來到東莞獨自打拼的女孩。她們剛剛十八九歲,甚至尚未成年,便離開學校在工廠里不分晝夜地工作。流水線上的女工,既不了解自己正在生產(chǎn)什么,也不知道自己的工作“秋西”(QC)就是“質(zhì)量檢測”。不論工作還是生存環(huán)境都相當惡劣,晚上去小吃街就算改善生活,往往也缺乏精神娛樂。
但與印象中打工者的刻板形象不同,她們既不短視,也不壓抑。她們不在乎15個人共用一個房間,50個人共用一個洗手間。占據(jù)她們頭腦的是,多久才能存夠買房子的錢?該如何晉升或者干脆跳到更有前景的崗位?所剩無幾的周末,是該學習計算機、英語還是別的什么?
與馬克思那份工人與生產(chǎn)物分離后,失去了滿足和快樂的「資本主義的悲哀」不同,“分離”改變的不一定是她們的社會地位,而是她們的思想?;ㄙM時間制造的東西并不能代表制造者本身,賺來的錢花在了哪兒、讓她們學會了什么技能、如何改變了她們,才更加重要。
“我們手上的iPod、腳上的Nike、肩上的Coach,無形中改變了數(shù)百萬人的工作、婚姻、生活和思想。”
也許數(shù)據(jù)標注同樣如此。在探討這個行業(yè)存在的合理性與是否能長久發(fā)展之前,能帶給從業(yè)者的改變就已足夠振奮人心。
但我們?nèi)圆荒芡涍@些人的付出。盡管她們面目不清,從未被人提起。
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。