作者:Edith Ramirez,美國聯邦貿易委員會主席Julie Brill,Maureen K.Ohlhausen,Terrell McSweeny,美國聯邦貿易委員會委員譯者:郭翠瀟,中國社會科學院民族文學研究所資料中心助理研究員
大數據是包容的工具還是排斥的工具
作者:Edith Ramirez,美國聯邦貿易委員會主席Julie Brill,Maureen K.Ohlhausen,Terrell McSweeny,美國聯邦貿易委員會委員
譯者:郭翠瀟,中國社會科學院民族文學研究所資料中心助理研究員
譯者按:美國聯邦貿易委員會(Federal Trade Commission)于2016年1月發布了一篇題為“Big Data:A Tool for Inclusion or Exclusion?”的報告1報告全文可在美國聯邦貿易委員會官方網站下載:https://www.ftc.gov/reports/big-data-tool-inclusion-or-exclusion-understanding-issues-ftc-report。該報告認可大數據在商業領域的應用正在幫助低收入和服務匱乏社群提供教育、信貸、醫療和就業機會,但同時也注意到大數據分析中的“隱性偏差”及其可能對低收入和服務匱乏人群產生的不利影響。報告提出了一些關鍵問題供企業考慮,旨在幫助企業在利用大數據分析時,確保給消費者帶來利益的同時能夠避免產生歧視性或排他性的后果,以限制大數據的危害。報告對大數據應用中的數據集代表性、數據模型是否包含偏見、大數據預測是否準確以及對利用大數據決策過程中的公平性和道德等問題進行了反思,對中國當前的大數據熱提供了冷思考,頗具借鑒意義。這里將這篇報告的主要部分譯出,供讀者參考。
我們身處大數據時代。現在幾乎每人都有一部智能手機、每家都有一臺電腦,市場上能連接互聯網的設備越來越多,消費者數據流動在經濟的各個角落,數據量持續快速增長。
對消費者數據的分析,往往對企業和消費者有價值,因為它可以引導新產品和新服務的開發、預測個人喜好,有助于為消費者提供定制服務和機會,引導個性化營銷。與此同時,倡導者、學者及其他人提出要關注大數據分析的某些應用是否會損害消費者,特別是低收入和服務匱乏人群。
為了探討這些問題,美國聯邦貿易委員會(簡稱“FTC”或“委員會”)于2014年9月15日舉行了一次公開研討會,主題為“大數據:包容或排斥的工具?”研討會上,利益相關方齊聚一堂,討論了大數據的潛力:既能為消費者創造機會,也會讓他們失去這些機會。該委員會將此次研討會信息和先前FTC一次有關評分產品替代性選擇的研討會信息,以及新近研究綜合起來,形成了這篇報告。雖然“大數據”分析涵蓋的范圍非常廣,但本報告只涉及包括消費者信息在內的大數據的商業用途,并重點關注大數據對低收入和服務匱乏人群的影響。當然,大數據也引發了許多重要的政策問題,如公告、選擇、安全性等等,但這些不是本報告關注的主要問題。
“小”數據變成“大”數據,要經過幾個階段。大數據的生命周期可分為四個階段:(1)采集;(2)匯集和融合;(3)分析;(4)使用。
本報告關注第四個階段,討論使用大數據分析帶來的收益和風險;目前適用于大數據的消費者保護法和平等機會法;大數據領域的研究;企業應從這些研究中吸取的教訓。最后,本報告旨在為企業提供有關大數據分析的重要法律和研究方面的指導,同時為企業提供建議,以最大限度地提高其收益、降低風險。
大數據分析可以提供很多社會改善的機會。除了更有效地為消費者匹配產品和服務,大數據還可以為低收入和服務匱乏的社區創造機會。例如,與會者和其他人指出,大數據正在幫助向低收入和服務匱乏社群提供教育、信貸、醫療和就業機會。同時,與會者和其他人也注意到“隱性偏差”和偏見可能會導致對低收入和服務匱乏人群產生不利影響。例如,與會者擔心,企業可能會利用大數據把低收入和服務匱乏社群排除在外,不為他們提供貸款和就業機會。
與會者和評議人討論了企業怎樣使用大數據才能讓企業本身和社會都受益,同時還能最大限度地減少法律和道德風險。他們明確指出,企業應該懂得相關法律,其中包括《公平信用報告法》,《平等機會法》和《聯邦貿易委員會法》,這些法律可適用于大數據實踐。2此處將原文對這三部法律的介紹和對大數據適用性的討論省略未譯--譯者注
與會者、學者和其他人還討論了大數據分析可能通過哪些方式影響低收入、服務匱乏以及受保護群體。一些人指出,有研究表明,大數據分析的每個階段——從選擇用于預測的數據集,到通過大數據界定需要處理的問題,再到根據大數據分析結果做出決策——都可能會有錯誤和偏差,而這可能會導致潛在的歧視性危害。其他人則指出,這些擔憂過于夸張或只是老生常談,他們強調,大數據可以為低收入和服務匱乏人群創造機會而不是讓少數群體處于不利地位。
為了讓收益最大化,同時限制大數據的危害,委員會通過在這一領域的研究提出下列問題,鼓勵企業去考慮:
你們的數據集代表性如何?企業應考慮其數據集是否缺少某些人群的信息,并采取措施解決代表性不足和某些人群比例過高的問題。例如,如果一家公司將服務對象設定為通過應用程序或社交媒體進行人際溝通的消費者,他們可能會忽略那些不那么精通此項技術的人群。
你們的數據模型是否包含偏見?企業應該考慮大數據生命周期的數據采集和分析階段是否包含偏見,并制定戰略來克服這些偏見。例如,如果一家公司有一套幫助他們做出聘用決定的大數據算法,但這套算法只考慮來自“頂級”院校的申請人,那么他們可能就納入了高考錄取決定中的偏見。
你們基于大數據的預測有多準確?企業應該牢記,雖然大數據非常善于檢測相關性,但并不能解釋哪些相關性是有意義的。有一個典型的例子可以說明大數據分析的局限性,那就是谷歌流感趨勢——基于谷歌的搜索詞來預測流感病例數量的機器學習算法。最初,該算法似乎對哪里流感更普遍做出了準確的預測,但隨著時間推移,其產生的預測變得極不準確。這可能是因為該算法未能顧及某些變量。例如,該算法可能沒有考慮到,如果當地發布了一條流感爆發的新聞,甚至流感正在世界各地爆發時,那么人們會更容易搜索跟流感相關的詞。
你們對大數據的依賴是否引起道德或公平性的擔憂?企業應評估一個分析模型中包含的因素,在模型預測價值上兼顧公平性考量。例如,一家公司認為住得離單位近的員工比住得遠的員工更不容易辭職。然而,另一家公司因為考慮到種族歧視,尤其是不同的鄰里街區有不同的種族構成,于是決定從其招聘算法中排除這一因素。
委員會鼓勵企業通過為消費者提供利益和機會的方式來應用大數據分析,同時要避免違反消費者保護和機會均等法律,避免減損包容和公平的核心價值。委員會自己則將繼續監控可能違反現有的法律——包括《聯邦貿易委員會法》,《公平信用報告法》和《平等機會法》的大數據實踐活動,并在適當情況下會引發執法行動。委員會也將繼續調查大數據實踐可能會對低收入和服務匱乏人群產生的不利影響,并提高人們在這方面的意識,同時,還會推廣對這些人群產生積極影響大數據的使用。
Big Data:A Tool for Inclusion or Exclusion