• <fieldset id="82iqi"></fieldset>
    <tfoot id="82iqi"><input id="82iqi"></input></tfoot>
  • 
    <abbr id="82iqi"></abbr><strike id="82iqi"></strike>
  • 人工智能無法精準(zhǔn)讀取人臉表情(上)

    神譯局是36氪旗下編譯團隊,關(guān)注科技、商業(yè)、職場、生活等領(lǐng)域,重點介紹國外的新技術(shù)、新觀點、新風(fēng)向。

    編者按:人工智能讀取人臉表情,似乎是眾多科技公司都在嘗試的新業(yè)態(tài)。這一市場也在不斷增長。一些人認為,情緒檢測自動化系統(tǒng),不僅能更好地發(fā)現(xiàn)人類真實情緒,而且還能協(xié)調(diào)人們內(nèi)心的感受。但也有許多人擔(dān)心,這項技術(shù)存在很多缺陷,其應(yīng)用過程甚至?xí)?dǎo)致新的風(fēng)險。這篇文章來自編譯,作者認為,人工智能根本無法精準(zhǔn)讀取人臉表情。這是文章的上篇,主要介紹的是情緒識別如何成為人工智能行業(yè)中必不可缺的一部分的。

    圖片來源:oquetemnanossaestante

    1967年,一位名叫保羅·埃克曼(Paul Ekman)的美國青年心理學(xué)家?guī)е惶壮檎J卡和一個全新的理論,來到了太平洋西南部國家巴布亞新幾內(nèi)亞(Papua New Guinea)山區(qū)高地的一個邊遠村落。

    埃克曼曾聽說,東部高地省奧卡普區(qū)(Okapa)的法雷人(Fore)幾乎與世隔絕。因此,他認為他們應(yīng)該是理想的被試對象。

    和在他之前來到當(dāng)?shù)氐奈鞣窖芯咳藛T一樣,埃克曼來到巴布亞新幾內(nèi)亞,也是為了從當(dāng)?shù)赝林后w獲取有關(guān)研究數(shù)據(jù)。當(dāng)時,他正在收集證據(jù),以證明一個尚存爭議的假設(shè):全人類都會展現(xiàn)出一少部分共通的情感或情緒,并且這都是與生俱來的,世界各地的人都是如此。

    過去半個多世紀(jì)以來,這項論斷一直爭議不斷,引發(fā)了心理學(xué)家、人類學(xué)家以及技術(shù)專家的爭辯。盡管如此,它還是成為了一顆“種子”,培養(yǎng)出一個不斷增長的市場。據(jù)估計,到2024年,該市場的價值估計將達到560億美元。

    這篇文章,主要講述了情緒識別是如何成為人工智能行業(yè)的一部分,以及由此產(chǎn)生的問題。

    當(dāng)埃克曼來到屬于熱帶地區(qū)的奧卡普區(qū)時,他展開了多項測試,來評估法雷人是如何識別情感的。由于法雷人與西方和大眾媒體的接觸都很少,埃克曼推論出,他們對于核心情緒的識別與表現(xiàn),可以證明全人類的情緒表達方式都是一樣的。

    埃克曼的實驗方法很簡單。他在法雷人面前展示各種面部表情的抽認卡,看他們是否能像自己一樣描述情緒。用埃克曼自己的話來說:“我所做的,只是給他們展示有趣的圖片。”

    然而,在展開實驗之前,埃克曼并未了解或認識過有關(guān)法雷人的歷史、語言、文化或政治背景。他試圖通過翻譯人員來完成這項抽認卡實驗,但卻以失敗告終。埃克曼和被試對象都被實驗過程搞得心力交瘁,用他自己的話來說,就像是拔牙一樣。

    在首次針對情緒表達展開的跨文化實驗研究碰壁后,埃克曼帶著沮喪的心情,離開了巴布亞新幾內(nèi)亞。不過,這僅僅是故事的開始。

    圖片來源:Delta

    如今,情感識別工具被廣泛運用于國家安全系統(tǒng)、機場、教育領(lǐng)域和創(chuàng)業(yè)公司的招聘環(huán)節(jié)中,也被運用在檢測精神疾病的軟件和預(yù)測暴力行為的執(zhí)法項目。

    然而,據(jù)2020年發(fā)表于《自然》(Nature)雜志的一篇研究,通過分析一個人的面部表情來精準(zhǔn)評估其內(nèi)心狀態(tài)的說法,并沒有可靠證據(jù)。

    2019年,心理學(xué)家、神經(jīng)學(xué)家麗莎·費爾德曼·巴雷特(Lisa Feldman Barrett)領(lǐng)導(dǎo)研究團隊,針對從面部表情推斷情感的科學(xué)文獻展開了系統(tǒng)回顧,結(jié)果發(fā)現(xiàn),沒有可靠證據(jù)表明能以這種方式精準(zhǔn)預(yù)測一個人的情緒狀態(tài)。

    “我們不可能胸有成竹地從微笑中推斷出快樂,從怒視中推斷出憤怒,或者從皺眉中推斷出悲傷,而目前大多數(shù)情感識別技術(shù),都在依賴于這些被誤認為是科學(xué)事實的推斷。”該研究總結(jié)道。

    那么,在人工智能領(lǐng)域,為什么普遍會接受通過一少部分共通情緒來輕易地解讀面部表情的做法呢?

    要理解這一點,就需要了解這些想法發(fā)展背后的復(fù)雜歷史和動機,這就要追溯到人工智能情感檢測工具研發(fā)并運用于日常生活之前的日子。

    情感識別自動化的想法令人非常信服,其中也有利可圖。科技公司已經(jīng)捕捉了大量人類面部表情圖像,這些圖像主要來自于Instagram用戶上傳的自拍、Pinterest的肖像圖片、TikTok的視頻,以及攝影圖片網(wǎng)站Flickr的照片。

    與人臉識別一樣的是,無論是大型科技公司還是小型初創(chuàng)企業(yè),情感識別技術(shù)已經(jīng)成為許多平臺核心基礎(chǔ)設(shè)施的一部分。

    人臉識別試圖識別的是某個特定個體,而情感識別旨在通過分析任意一張人臉來檢測情緒,并將其歸類于某種情緒類別。盡管缺乏實質(zhì)性的科學(xué)證據(jù)來證明其有效性,這些系統(tǒng)如今卻已經(jīng)在影響人們的行為和社會機構(gòu)的運作方式。

    情感檢測自動化系統(tǒng)現(xiàn)在已經(jīng)在多個領(lǐng)域里廣泛運用,尤其是在招聘領(lǐng)域。人工智能招聘公司HireVue,就在利用機器學(xué)習(xí)來推斷求職者是否適合某份工作。其主要的客戶包括高盛集團(Goldman Sachs)、英特爾(Intel),以及聯(lián)合利華(Unilever)。

    2014年,該公司正式推出了人工智能系統(tǒng)。這套系統(tǒng)可以直接從視頻面試中抓取求職者的微表情、語調(diào)和其他變量因素。招聘公司可以利用這些信息,橫向?qū)Ρ裙緝?nèi)部高效能人士的有關(guān)表現(xiàn)。

    在遭到學(xué)界人士和民權(quán)組織的強烈批評后,該公司今年開始不再抓取并分析求職者的面部表情,但仍保留了通過抓取語調(diào)這一信息來作為評估標(biāo)準(zhǔn)。

    2016年1月,蘋果收購了人工智能初創(chuàng)公司Emotient。該公司聲稱已經(jīng)開發(fā)出一款軟件,能夠通過人臉圖像來識別各種情緒。

    就人工智能初創(chuàng)公司而言,規(guī)模最大的可能是Affectiva公司。這家公司總部位于美國波士頓,從美國麻省理工學(xué)院媒體實驗室(MITMedia Lab)分拆出來的公司。

    Affectiva公司編寫了多種與情緒相關(guān)的應(yīng)用程序,這一過程主要采用的是深度學(xué)習(xí)技術(shù),其中包括檢測道路上分心和危險駕駛的駕駛?cè)耍约昂饬肯M者對廣告的情緒反應(yīng)。

    該公司已經(jīng)建成了所謂的世界上最大的情緒數(shù)據(jù)庫,其中收錄了來自87個國家1000多萬人的面部表情數(shù)據(jù)。該數(shù)據(jù)庫還收錄了大量手動標(biāo)記的視頻。Affectiva通過位于埃及首都開羅的分公司招募了35名眾包工人,要求他們通過觀看視頻內(nèi)容和人臉面部表情來標(biāo)記不同的情緒。

    除了初創(chuàng)企業(yè)之外,包括亞馬遜、微軟和IBM等人工智能巨頭也在開發(fā)有關(guān)情感檢測系統(tǒng)。

    通過人臉API,微軟能夠提供對感知情緒的檢測服務(wù),識別“憤怒、輕蔑、厭惡、恐懼、快樂、悲傷和驚訝”等情緒。

    圖片來源:thenextweb

    亞馬遜的圖像分析服務(wù)Rekognition,也聲稱可以識別“喜怒憂思悲恐驚”等七種情緒特征,并且可以“衡量這些情緒是如何隨著時間推移而變化的”。

    這些所謂的情感識別系統(tǒng),大多都基于一套相似的藍圖和基本假設(shè):全人類都會展現(xiàn)出一少部分顯著而共通的情緒類別,我們會不由自主地在臉上流露這些情緒,這些情緒也可以通過機器檢測出來。

    這些認知在許多領(lǐng)域都被廣泛認可。然而,如果我們著眼于如何對情緒分類,或者說如何有序整理并標(biāo)記這些情緒,我們就可以輕松發(fā)現(xiàn)許多潛在的問題。

    埃克曼的研究,最初也源自于與著名心理學(xué)家西爾萬·湯姆金斯(Silvan Tomkins)的一次偶遇。當(dāng)時,湯姆金斯已經(jīng)在心理學(xué)領(lǐng)域有所建樹,他于1962年首次出版了他的代表作《情感、意象、意識》(Affect Imagery Consciousness)。

    湯姆金斯在情感方面的研究,對埃克曼產(chǎn)生了巨大的影響。埃克曼在職業(yè)生涯中投入了大量時間來研究情感。其中一個思想發(fā)揮了特別巨大的作用:如果情感是全人類與生俱來的進化反應(yīng),那么它們就應(yīng)該是共通的,并且在跨文化背景下也是可以識別出來的。

    這種對情感共通性的渴望,對這一理論在今天的人工智能情感識別系統(tǒng)中的廣泛應(yīng)用,產(chǎn)生了重要的影響。

    在《情感、意象、意識》(Affect Imagery Consciousness)一書的前言部分,作者湯姆金斯將他基于生物學(xué)的共通情感理論,描述為應(yīng)對人類主權(quán)嚴(yán)重危機的理論。他對行為主義和精神分析學(xué)派的發(fā)展提出了挑戰(zhàn),認為這兩個學(xué)派把意識視為一種單純的副現(xiàn)象,為其他力量服務(wù)。

    他指出,人類意識“一次又一次地遭到挑戰(zhàn)和削弱”。首先是哥白尼(Copernicus),他稱人類并不是宇宙的中心。隨后是達爾文(Darwin),他提出了進化論觀點,打破了千百年來“上 帝創(chuàng)造萬物”的神創(chuàng)論。然后是弗洛伊德(Freud),他提出的動機理論,認為人類意識和推理不是人類動機背后的驅(qū)動力。

    湯姆金斯在書中寫道:“對自然的最大控制和對人性的最小控制的悖論,在某種程度上是因為忽視了意識作為控制機制的作用而導(dǎo)致的。”

    簡而言之,意識并沒有告訴我們?yōu)槭裁次覀儠羞@樣的感覺和行為。這一觀點,對后來各種情感理論的應(yīng)用產(chǎn)生了至關(guān)重要的作用,后者主要強調(diào)的是人類無法識別情感的感受與表達。如果人類自身無法真正檢測我們的感受,那么,也許人工智能系統(tǒng)能做到這一點?

    湯姆金斯提出的情緒理論,是他用來了解人類動機問題的方法。他認為,動機是由情緒和內(nèi)驅(qū)力兩個系統(tǒng)支配的。湯姆金斯提出,內(nèi)驅(qū)力往往與直接生理需求密切相關(guān),比如饑餓和口渴,它們是有助于人類的。因饑餓產(chǎn)生的痛苦,可以用食物來緩解。

    然而,真正支配人類動機和行為的主要系統(tǒng),是包括積極和消極情緒在內(nèi)的情緒系統(tǒng)。情緒在人類動機中扮演著最重要的角色,它放大了驅(qū)動信號,但同時也復(fù)雜得多。例如,我們很難知道導(dǎo)致嬰兒哭泣的確切原因。

    在一個因果關(guān)系、刺激物和反應(yīng)之間的聯(lián)系如此脆弱和不確定的系統(tǒng)中,我們該如何認識這個系統(tǒng)呢?對此,湯姆金斯提出了一個答案:“主要情感……似乎天生就與一個異常明顯的器官系統(tǒng)有著一對一的關(guān)聯(lián)。”這里實際上指的就是臉部。

    他在19世紀(jì)出版的兩本著作中,都找到了關(guān)注面部表情的先例。其中,有一本著作是達爾文于1872年撰寫的《人與動物的情感表達》(The Expression of the Emotions in Man and Animals)。

    湯姆金斯認為,面部表情是全人類的共通特征。他寫道:“情緒是面部甚至遍布于全身的肌肉、血管和腺體的綜合反應(yīng),它可以產(chǎn)生感覺反饋。……這些綜合反應(yīng)可以通過皮層下中樞而觸發(fā),而皮層下中樞則儲存著不同情感的‘具體程序’。”

    但湯姆金斯也承認,對情感表現(xiàn)的理解,也取決于個人、社會和文化等多方面因素。他認為,在不同的社會中,也存在著不同面部語言的“方言”。

    考慮到對面部表情的理解,可能在不同文化背景下存在著不同的結(jié)果,因此,如果要根據(jù)面部表情來訓(xùn)練機器學(xué)習(xí)系統(tǒng)的話,就不可避免地會將各種不同的背景、信號和期望混在一起。對于埃克曼以及后來的計算機視覺領(lǐng)域而言,問題就在于,到底該如何調(diào)和這些矛盾。

    圖片來源:University of Cambridge/PA

    20世紀(jì)60年代中期,機會敲開了埃克曼的大門。他獲得了來自美國國防部下屬研究機構(gòu)美國國防高級研究計劃局(DARPA)的一大筆撥款。這一筆巨額財政支持,為埃克曼首次展開面部表情共通性的研究提供了保障。

    總的來說,他的研究遵循了可以復(fù)制運用于早期人工智能實驗室的設(shè)計。在很大程度上,他直接采用了湯姆金斯的方法,甚至還使用了湯姆金斯使用過的圖片來測試智利、阿根廷、巴西、美國和日本等國家的被試對象。

    在實驗中,他向被試對象展示了各種面部表情照片。這些照片也是由實驗設(shè)計人員精挑細選出來的,每張照片可以突出展現(xiàn)某種特別純粹的情感,比如恐懼、驚訝、憤怒、快樂、悲傷和厭惡。隨后,被試對象被要求根據(jù)照片表情選擇對應(yīng)的情感類別,并一一標(biāo)注。這項實驗主要測量的是被試對象選擇的標(biāo)簽類別,與設(shè)計人員選擇的標(biāo)簽類別之間的關(guān)聯(lián)程度。

    從一開始,這種實驗方法就存在問題。埃克曼要求被試對象從僅有的選擇中做出選擇的方法,后來引來了批評。這些反對聲音稱,埃克曼的方法是在提醒被試對象,設(shè)計人員已經(jīng)在面部表情和情緒之間建立起了關(guān)聯(lián)。此外,由于照片中的表情都是刻意擺拍出來的,這一事實也產(chǎn)生了對實驗結(jié)果有效性的質(zhì)疑。

    一個人的內(nèi)心狀態(tài),可以通過其外部表情符號來精準(zhǔn)推斷,這一觀點由來已久。其部分源于面相學(xué)的發(fā)展歷史。面相學(xué)主要是基于一個人的面部特征來研究其性格。古希臘哲學(xué)家亞里士多德(Aristotle )認為,“由于人們一直認為肉體和靈魂是有機結(jié)合的,因此,可以從人的外貌來判斷其性格。”

    希臘人早期還把面相當(dāng)作種族分類的方式,根據(jù)人的外貌和特征的不同,把人分成不同的種族(例如埃及人、色雷斯人和斯基泰人)。

    延伸閱讀:人工智能無法精準(zhǔn)讀取人臉表情(下)

    譯者:俊一