人工智能無法精準讀取人臉表情(下)
神譯局是36氪旗下編譯團隊,關注科技、商業、職場、生活等領域,重點介紹國外的新技術、新觀點、新風向。
編者按:人工智能讀取人臉表情,似乎是眾多科技公司都在嘗試的新業態。這一市場也在不斷增長。一些人認為,情緒檢測自動化系統,不僅能更好地發現人類真實情緒,而且還能協調人們內心的感受。但也有許多人擔心,這項技術存在很多缺陷,其應用過程甚至會導致新的風險。這篇文章來自編譯,作者認為,人工智能根本無法精準讀取人臉表情。這是文章的下篇,文章在探討情緒識別在人工智能行業發揮的作用的同時,也指出了由此而產生的一系列問題。
推薦閱讀:人工智能做無法精準讀取人臉表情(上)
圖片來源:openpr
在西方文化中,面相學的發展在18世紀和19世紀達到了高潮。當時,面相學被視為解剖學的一部分。這一傳統中的一個關鍵人物是瑞士牧師約翰·卡斯帕·拉瓦特(Johann Kaspar Lavater),著有《面相學短篇集》(Essays on Physiognomy)一書。
拉瓦特采用了面相學的方法,并將其與當時最新的科學知識相結合。他認為,骨骼結構是外貌和性格類型之間的潛在聯系。如果面部表情是短暫存在的,那么頭骨應該可以為面相學有關推斷提供更可靠的材料。
在種族科學中,頭骨測量是一種相對流行的技術,被用來支持民族主義、白人至上主義和仇外心理。在整個19世紀中,弗朗茨·約瑟夫·高爾(Franz Joseph Gall)、約翰·加斯帕·斯柏茲姆(Johann Gaspar Spurzheim)等顱相學家以及科學犯罪學專家切薩雷·龍勃羅梭(Cesare Lombroso)都對這種研究方法展開了詳盡的闡述,這些研究也導致這些學者聲名狼藉。
然而,首先公開嘗試將攝影和其他技術手段應用于人臉研究的,則是法國神經學家杜徹尼·博洛尼(DuchennedeBoulogne),他被埃克曼譽為“極具天賦的觀察者”。
其著作的《人體面相機制》(Mécanisme de la physionomie humaine)一書,為后來達爾文和埃克曼的研究都奠定了重要的基礎。在這本書中,博洛尼將過去面相學和顱相學的觀點與更現代的生理學和心理學有關研究聯系在一起。他并不認可之前有關面部特征的模糊斷言,而是通過更深入的研究,去探索面部表情和內心精神和情感狀態之間的聯系。
博洛尼在巴黎的一家精神病院La Salpetrière Hospital工作,那里收容了多達5000名患有各種精神疾病和神經系統疾病的患者。博洛尼會將其中一部分患者當作被試對象,讓他們參與到令人痛苦的實驗當中。長久以來,醫學和技術實驗通常都會將最脆弱的人或不懂得拒絕的人當作被試對象,這也是傳統的一部分。
在科學界鮮為人知的博洛尼,決定開發一種電擊技術,來刺激被試對象面部的肌肉運動。他的目標是建立對臉部的更完整解剖和生理學認識。
通過這些方法,博洛尼希望將全新的心理科學與之前的面相特征聯系起來。他借助了最新的攝影技術,比如可以將曝光時間大幅減少的濕版火棉膠攝影,從而能通過照片捕捉那些轉瞬即逝的肌肉運動和面部表情。
即使在這些早期研究階段,捕捉到的面部表情也從來不是最自然的狀態,也不是社會中出現的人類表情,而是通過對肌肉的粗暴電擊而模擬的狀態。不管怎么說,博洛尼都相信,借助攝影和其他技術系統,有助于讓研究變得更加客觀和有說服力,因此也更適合科學研究。
下面是一些選自《人體面相機制》(來自美國國家醫學圖書館)的照片:
在博洛尼的影響下,埃克曼也把攝影技術作為其實驗過程中的核心。他認為,由于許多面部表情都是在人類無意識下出現的,因此,慢動作拍攝法對他的研究至關重要。其目的是尋找所謂的微表情,即面部細微的肌肉運動。
在早期研究中,埃克曼的其中一個計劃是,編寫一個可以檢測和分析面部表情的系統。1971年,他與幾位研究人員共同合作發表了一篇研究報告,并在報告中首次提出了“面部表情評分方法(FAST)”這一概念。
在借助于照片的基礎上,埃克曼主要通過自己的直覺,在FAST方法中使用了六種基本的情感類型。然而,這一方法很快就出現了問題。有幾位研究人員發現,有些面部表情并不在埃克曼使用的情感類型范疇內。
于是,埃克曼決定,在下一個實驗中,借助測量工具來聚焦于面部肌肉組織,這與博洛尼當初的電擊研究相呼應。
埃克曼確定了面部大約40種不同的肌肉收縮狀態,并將每個面部表情的基本組成部分稱為“動作單元”。經過初步測試和驗證,埃克曼和另一位心理學家華萊士·弗里森(Wallace Friesen)于1978年在一篇研究報告中又提出了“面部動作編碼系統(FACS)”。時至今日,其更新版本也一直在廣泛使用。
盡管FACS取得了較大的成功,但這一方法卻需要大量的人力。埃克曼提到,平均而言,通常需要花75至100個小時來訓練人們使用FACS方法。此外,單單完成一分鐘的面部影片片段的評分,就需要一個小時。這一挑戰,也恰恰為新興的計算機視覺領域提供了發展機遇。
隨著計算機在情感識別方面的應用逐漸普及,研究人員也認識到,需要收集標準化的圖像來進行實驗。
1992年,在美國國家科學基金會(National Science Foundation)的一篇報告中,埃克曼和另一位作者建議道,“建立一個由不同面部研究團隊共享的、可隨時訪問的多媒體數據庫,將是解決面部表情理解問題的重要資源”。
不到一年,美國國防部就開始資助一項收集面部照片的項目。在該世紀末,機器學習研究人員已經開始收集、標記并公開分享相應數據集,這些數據集也推動了當今大部分機器學習研究的發展。
此外,學術實驗室和有關公司也在同時開展有關項目,創建了幾十個照片數據庫。例如,瑞典某實驗室的研究人員創建了KDEF數據集。該數據集收集了包括喜悅、憤怒、厭惡、悲傷、驚訝和恐懼等六種表情的圖片。
當你查看這些數據集照片時,你很容易獲得一種看默劇的感受:從這些照片中,你可以輕易地發現被采集者面部令人難以置信的驚喜,或者極大的快樂,或者使人嚇得發呆的恐懼。總之,這些被采集者所表露出的情緒,完全是能夠實現機器識別的情緒。
Cohn-Kanade數據集的照片示例:喜悅,憤怒,厭惡,悲傷,驚訝和恐懼。圖片來源:Jeffrey Cohn
隨著這一領域在規模和復雜程度方面的增長,用于情感識別的照片類型也在不斷增加。研究人員開始使用FACS系統來標記數據,這些數據并不是來自于刻意擺出的表情,更是自然流露出的面部表情,有的甚至是在實驗室條件之外收集的。
埃克曼的工作產生了深遠而廣泛的影響。《紐約時報》(The New York Times)將埃克曼譽為“世界上最著名的面相學家”,《時代周刊》(Time)也將他評為全球最有影響力的100人之一。
他的思想成為了流行文化的一部分,甚至被寫入了馬爾科姆·格拉德威爾(Malcolm Gladwell)著作的暢銷書《眨眼之間》(Blink),以及熱播美劇《別對我說謊》(Lie to Me)。埃克曼還是《別對我撒謊》一劇的主角顧問,劇中主角很顯然也是以他為原型刻畫出來的。
埃克曼的生意也可謂是蒸蒸日上。他把“欺騙檢測”這項技術出售給了包括美國運輸安全管理局(Transportation Security Administration)等機構,TSA還借助這項技術,開發了“旅客觀測篩選技術(SPOT)”項目。
自911恐怖襲擊事件以來,SPOT一直被用于監測乘機旅客的面部表情,以“自動化”檢測恐怖分子。該系統采用了94項標準,據稱這些標準都是有關壓力、恐懼或欺騙的跡象。
不過,在系統應用過程中,必然會出現一部分群體被區別對待的情況。任何有壓力的人,或者在被問話時感到不舒服的人,或者與警察或邊境保護工作人員產生過不友好經歷的人,都可能會被系統標注出來。這就形成了一種“種族歸納”。
由于存在種族偏見,并缺乏科學研究方法,SPOT項目也遭到了美國國會下屬機構美國政府問責局(Government Accountability Office,GAO)和有關公民自由團體的強烈譴責與批評。盡管耗資近九億美元,但并沒有直接證明表面這套系統取得了成功。
隨著埃克曼名聲遠揚,對其研究的懷疑和批評也隨之而來。早期的批判家有文化人類學家瑪格麗特·米德(Margaret Mead)。她在20世紀60年代末就情緒的普遍性問題與埃克曼展開了激烈的爭論。
隨后幾十年,來自不同領域的科學家也都加入了這一批判隊伍。近年來,心理學家詹姆斯·拉塞爾(James Russell)和何塞·米格爾·費南迪斯·多爾斯(José-Miguel Fernández-Dols)通過研究發現,情感研究這門科學最基本的方面仍然存在許多不確定性因素。
眾多批判者中,最重要的可能是科學史學家魯斯·萊伊(Ruth Leys),她從埃克曼的研究方法中發現了一個核心問題。
她在其著作的《情感的演化》(The Ascent of Affect)一書中寫道:“埃克曼所使用的刻意擺出表情或非自然流露表情照片,表達的是不受文化影響的一系列基本情感狀態。”隨后,不同背景的人們會給這些照片分類標注,以證明面部表情在不同背景人群中的共通性。
心理學家、神經科學家麗莎·費爾德曼·巴雷特(Lisa Feldman Barrett)直言不諱地指出:“科技公司可以說任何他們想說的,但數據卻是明確的。他們可以檢測出皺眉頭,但這與檢測到憤怒情緒完全是兩碼事。”
更令人不安的是,直到今天,在情感研究領域,針對“到底什么是情緒?”這一問題,研究人員都沒有達成共識。
什么是情緒?人類情緒是如何形成的?又是如何表達出來的?情緒在心理上或者神經生物學上能起到什么作用?情緒與刺激物之前又有什么關系?這些都是尚未解決并達成共識的問題。即便有眾多的批判聲音,為什么從一個人臉上“解讀情緒”的方法仍然存在?
圖片來源:nordicapis
自20世紀60年代以來,在美國國防部大量資金的推動下,已經開發出許多系統,在測量面部運動方面也越來越精準。由于埃克曼的理論可以實現大規模自動化,因此似乎也是計算機視覺的理想選擇。
基于埃克曼理論與方法有效性的認可,許多機構和企業也都紛紛投資于這一領域。如果人們認識到情緒不容易分類,或者它們不可能可靠地根據面部表情來檢測的話,那這只會對一個不斷增長的領域產生巨大的破壞作用。
許多機器學習論文都在直接引用埃克曼的理論,在這些作者眼中,好像這些問題已經解決了一樣。事實上,有關背景、條件、關系和文化等復雜問題往往都被忽略了。埃克曼自己也說過,他也對其理論的商業化方式表達出了擔憂。然而,當他嘗試寫信給科技公司,請求他們提供證據來證明其開發的情緒識別程序有效性時,他沒有收到任何答復。
因此,與其試圖搭建更多識別并將面部表情分類的系統,我們不如質疑這些分類的源頭,以及其產生的社會和政治影響。
例如,這些系統在標記婦女(特別是黑人婦女)的言語情感方面,就與標記男性言語情感存在不同。據馬里蘭大學(University of Maryland)的一項研究發現,一些面部識別軟件在解讀黑人面部表情時,會反饋出更多的負面情緒,經常都會將黑人面部表情解讀為具有憤怒或輕蔑傾向。
這就是情感識別自動化的危險所在。幾十年來,科學界一直圍繞根據面部來推斷情緒狀態這一問題而爭論不休,這也凸顯出一個核心問題,即一刀切的“情感檢測”并不是正確的方法。情緒是復雜的,它們的發展與變化與我們的文化和歷史有關,這些內容目前都還屬于人工智能框架之外。
遺憾的是,求職者已經因為其面部表情或聲調與其他員工不匹配而受到不公平對待。在學校,學生也會因為表情看起來很憤怒而遭到特別對待。在商場,顧客可能會因為其面部表情而被質疑為偷竊者。
這些系統不僅在技術上有缺陷,而且整套技術的核心方法論都存在問題。但最后,卻有人會因為這些系統的缺陷而遭到不平等對待。
埃克曼早期實驗中提出的狹隘情緒分類,如今正編寫進機器學習系統,成為極其復雜的情緒體驗的“代理人”。
譯者:俊一