數據匿名化尚不足以很好地保護個人隱私
來源:科技日報
?
2019-07-24 11:03:03
僅僅已知有限幾個屬性,就可以在數據海洋中準確識別你的身份嗎?據英國《自然·通訊》雜志23日發表的一項研究,英國科學家利用一種新開發的統計方法,評估了一個人的身份能否從一個不完整的匿名化數據庫中被識別出來。結果認為,目前的匿名化和數據共享方法,可能不足以保護個人隱私或滿足數據保護法律法規的要求——如歐盟的《通用數據保護條例》(GDPR)。
數據科學和人工智能有望變革我們日常生活的方方面面,如醫療、衛生保健、商業和治理。這些方法依賴于大規模的詳細個人數據,但是收集和共享個人數據,已經引發了有關個人隱私的擔憂。針對這個問題,目前的解決措施包括匿名化處理和公布不完全的數據集。但是,近期已經發生了利用匿名數據集,包括瀏覽歷史記錄、手機和信用卡數據,成功重新識別出個體身份的情況,這表明上述措施還不夠充分。
為了進一步證明這一問題的嚴重性,英國帝國理工學院研究團隊新開發了一種統計方法,能夠準確估算通過匿名數據集正確地重新識別個體身份的可能性。研究人員發現,只需要知道少數幾個屬性,如郵政編碼、出生日期、性別和子女數量,一般就能夠以高可信度重新識別出個體身份——即使數據集是不完整的。而已知屬性越多,識別的可能性越大。例如,99.98%的馬薩諸塞州人口,可以通過15個人口統計學屬性識別出來。
因此,研究團隊總結認為,目前通常所采用的只公布取樣數據集或不完全數據集,尚不足以很好地保護個人隱私。
總編輯圈點
人工智能比人類想象得更強大,而我們則比自己想象得更簡單。寥寥幾個數據就能識別出數據的主人,這讓我們不禁擔憂:人在無所不知的機器面前還有沒有隱私?我們脆弱的尊嚴在一遍遍分析后還能不能維系?大數據庫能造福普通人,也能威脅普通人。到了認真討論數據時代的信息倫理的時候了,未來的公民需要保障安全感的法律。