一個(gè)充滿中性詞匯的句子可能就充滿了敵意(“只有白人應(yīng)該有權(quán)利”),而一個(gè)充滿潛在敵意詞匯的句子(“去他媽的,他媽的你穿的什么”)在你承認(rèn)它是坎耶·維斯特式的詩句的時(shí)候那就是中立的。
人類通常都擅長做這種語法分析,而機(jī)器卻無法做到。然而,F(xiàn)acebook在去年6月宣布,它已經(jīng)建立了一個(gè)文本分類引擎,以幫助機(jī)器翻譯文字。
這個(gè)名為“深度文本”的系統(tǒng)是基于最高級人工智能的基礎(chǔ),和一種叫做“單詞嵌入”的概念來運(yùn)行的,意思是它的設(shè)計(jì)是為了模擬語言在我們大腦中的運(yùn)行方式。當(dāng)該系統(tǒng)遇到一個(gè)新單詞時(shí),它會像人類一樣,試圖從周圍的其他單詞中推斷出它的意思。
例如,白色這個(gè)詞在不同的環(huán)境中會有完全不同的意思,當(dāng)你看到“雪、襪字、白宮或面粉這些詞時(shí)都會想到白色。深度文本的設(shè)計(jì)初衷是要像人類一樣思考,并隨著時(shí)間的推移不斷提高。
深度文本是一種內(nèi)部工具,它可以讓Facebook工程師快速處理大量的文本,創(chuàng)建分類規(guī)則,然后構(gòu)建產(chǎn)品來幫助用戶。如果你在Facebook上吐槽白襪隊(duì),這個(gè)系統(tǒng)應(yīng)該很快就會發(fā)現(xiàn)你在談?wù)摪羟?,在更深層次上,它?yīng)該已經(jīng)知道這是一項(xiàng)運(yùn)動(dòng)。如果你在談?wù)摪讓m,它分析你可能會想看新聞。如果你在雪附近使用“白色”這個(gè)詞,它會覺得你可能會想買靴子。如果你談?wù)摰氖前咨拿娣?,也許你不應(yīng)該出現(xiàn)在這個(gè)平臺上。
正如Facebook所解釋的那樣,使用“深度文本”就像是在用魚叉捕魚。然后,開發(fā)者們就開始在河中跋涉。
在了解了深度文本之后,Instagram的高管們幾乎立刻就看到了一個(gè)與Facebook競爭的機(jī)會,F(xiàn)acebook曾在2012年收購了一個(gè)平臺:垃圾郵件。人們使用Instagram主要是為了拍照,但他們經(jīng)常很快就會離開,因?yàn)榻缑嫦路胶芏鄾]用的話,在那里,會有機(jī)器人(有時(shí)也是人類)推銷產(chǎn)品,繼續(xù)往下,或者只是沒完沒了地重復(fù)“成功”這個(gè)詞。
Instagram要做的第一步是雇傭一些人來整理平臺上的評論,并將他們歸類哪些是垃圾,哪些不是垃圾。這類工作,大致相當(dāng)于社交媒體上的消防員,在科技行業(yè)是很常見的。人類訓(xùn)練機(jī)器來完成單調(diào)甚至是令人沮喪的任務(wù),機(jī)器最終會做得更好。如果人類把這些工作做好,機(jī)器就會失去工作。與此同時(shí),所有人發(fā)布的消息都得到了深入的分析。
在分析員們整理了大量的污垢、丑聞和低等級的敲詐信息之后,五分之四的數(shù)據(jù)被導(dǎo)入了深度文本。然后,Instagram的工程師們努力創(chuàng)建算法,試圖對垃圾進(jìn)行分類。
同時(shí),系統(tǒng)分析了每句話的語義,并將信息來源考慮在內(nèi)。一個(gè)你不關(guān)注的人的筆記更可能是垃圾郵件,而不單單是那個(gè)人有問題;在塞雷娜·戈麥斯(SelenaGomez)的帖子里,那些沒完沒了的評論可能不是由一個(gè)人做的。
之后,使用算法來檢測沒有被投入深度文本的那五分之一的數(shù)據(jù),以觀察這些機(jī)器與人類分析的匹配程度。最終,Instagram對這一結(jié)果感到滿意,該公司于去年10月悄然推出了這款產(chǎn)品。垃圾郵件開始隨著算法的運(yùn)行而逐漸消失,就像一個(gè)充滿灰塵的大房間一下子變得很干凈。
instagram不愿透露該工具減少了多少垃圾,或者泄露該系統(tǒng)是如何運(yùn)作的內(nèi)部秘密。當(dāng)我們向一個(gè)垃圾發(fā)送者表現(xiàn)出防御姿態(tài)時(shí),他們會思考如何反擊。但是,Instagram的首席執(zhí)行官凱文·斯特羅姆(KevinSystrom)卻很高興。
因此他決定在一個(gè)更復(fù)雜的問題上使用深度文本:消除刻薄的評論?;蛘?,更具體地說,刪除那些違反Instagram社區(qū)準(zhǔn)則的評論,或者像該公司的一位發(fā)言人所說的,刪除那些違反道德準(zhǔn)則的評論。這些指導(dǎo)原則相當(dāng)于社交媒體平臺的憲法。Instagram公開發(fā)布了一個(gè)1200字的規(guī)則——要求人們永遠(yuǎn)尊重他人,永遠(yuǎn)不要赤身裸體——而且,它還有一個(gè)字?jǐn)?shù)更多的內(nèi)部要求,員工們會把它作為指南。
一個(gè)人看一看評論,然后判斷它是否合規(guī)。如果不合規(guī),他就會將其歸類為一種類似于欺凌、種族主義或性騷擾的行為。這些分析員至少掌握兩種語言,他們分析了大約200萬條評論,每條評論都至少被分析兩次。
與此同時(shí),Instagram的員工們也在自己的手機(jī)上對該系統(tǒng)進(jìn)行了測試,同時(shí)公司也在不斷調(diào)整算法:選擇和修改那些有用的,刪除那些沒用的。這些機(jī)器給每條評論在0到1之間打分,這就是Instagram的置信度,根據(jù)這個(gè)可以分析哪些評論是無禮的或不恰當(dāng)?shù)摹?/p>
當(dāng)置信度超過某個(gè)閾值,該評論就會受到攻擊。和垃圾郵件一樣,這些評論都基于對文本的語義分析,以及評論者和分析者的關(guān)系,還有發(fā)出評論者的歷史背景等因素。陌生人比你的朋友發(fā)出的東西更容易被公正的評分。
今天早上,Instagram宣布該系統(tǒng)將正式上線。當(dāng)你輸入一些帶有惡意或騷擾的東西,如果系統(tǒng)有效,那些話就會消失。這項(xiàng)技術(shù)將自動(dòng)融入人們的信息流中,但也很容易關(guān)閉:只需在設(shè)置菜單中點(diǎn)擊省略號,然后點(diǎn)擊評論。
這個(gè)過濾器將首先只可以在英語中使用,但其他語言之后也會跟隨。與此同時(shí),Instagram還宣布,他們正在不斷增強(qiáng)自己的機(jī)器人垃圾郵件過濾器,以使其他九種語言:英語、西班牙語、葡萄牙語、阿拉伯語、法語、德語、俄語、日語和中文中一些充滿惡意的評論不會通過。
當(dāng)然,也有新的風(fēng)險(xiǎn),系統(tǒng)可能刪除一些無傷大雅甚至有用的評論。托馬斯戴維森建立了一個(gè)機(jī)器學(xué)習(xí)系統(tǒng)來識別Twitter上的仇恨言論,他指出,Instagram試圖解決的問題將會多么困難。機(jī)器雖然是智能的,但它們可以被不同語言或不同語境中代表不同事物的單詞所絆倒。
以下是一些他的系統(tǒng)作出的錯(cuò)誤地判斷:
“我這個(gè)周末沒買酒,只買了20包香煙。我很驕傲,我還剩40英磅。“
“亞拉巴馬隊(duì)在過去的兩周里被高估了,在他們的盔甲上,有太多的中國佬給他們造成的破壞。”
當(dāng)被問及這些特定的句子時(shí),Instagram并沒有特別回應(yīng)。他們只是指出系統(tǒng)也會出現(xiàn)錯(cuò)誤。這個(gè)系統(tǒng)的基礎(chǔ)是原始評分者的判斷,而所有人都會犯錯(cuò)誤。算法也是有缺陷的,而且他們可能會因?yàn)樗麄兯邮艿臄?shù)據(jù)而產(chǎn)生偏見,而且,這個(gè)系統(tǒng)有著百分之一的錯(cuò)誤率,但不是零。
在該系統(tǒng)推出之前,我問了斯特羅姆(Systrom),他是否會讓系統(tǒng)在艱難選擇中掙扎,那些選擇可能意味著要屏蔽那些不應(yīng)該被屏蔽的東西。
“這是一個(gè)很經(jīng)典的問題,”他回答道。“如果你目標(biāo)明確,你會對一堆實(shí)際上相當(dāng)不錯(cuò)的東西進(jìn)行分類。”所以,你知道,如果你是我的朋友,我只是在和你開玩笑,Instagram就應(yīng)該讓它通過。我們不想做的事情就是在任何情況下屏蔽不應(yīng)該被屏蔽的東西。但是現(xiàn)實(shí)是,這件事一定會發(fā)生,所以,最重要的問題是:這種誤差幅度是否能阻止那些真正糟糕的東西?”他接著說,“我們不是來限制言論自由的。我們不是來限制朋友間的有趣對話的。我們在這里是為了確保我們可以消除Instagram上的負(fù)面評論。”
如果Systrom的說法正確的話,在這個(gè)系統(tǒng)的運(yùn)作下,Instagram可能會成為互聯(lián)網(wǎng)上最友好的地方之一。又或者,它看起來似乎過于精致和可控?;蛘?,這個(gè)系統(tǒng)可能會開始刪除友好的玩笑或政治言論。斯特羅姆(Systrom)渴望找出答案。他說:“機(jī)器學(xué)習(xí)的全部理念是,能夠理解這些細(xì)微差別,它比任何一種算法都要好得多,也比任何一個(gè)人能做到的都要好得多。”“我認(rèn)為,我們需要做的是找出如何進(jìn)入這些灰色區(qū)域,并根據(jù)時(shí)間判斷算法的性能,看看它是否真的能改進(jìn)。”因?yàn)?,如果它只能給我們帶來麻煩,卻不起任何作用,我們就會放棄它,重新開始研究新的東西。
分享到微信 ×
打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。