閆澤華
摘要:斷物識人,是一切推薦行為的起點。斷物識人可以視為打標簽的過程。標簽是對高維事物的降維理解,抽象出事物表意性的特點。在不同的業務場景下,我們會選擇不同的標簽,來對內容和用戶進行標注。內容算法沒有價值觀,算法背后的人是有價值觀的。優化推薦系統,一定會有一個數值目標。
關鍵詞:內容算法 斷物識人 推薦系統
很多人對于內容算法有所誤解,會覺得內容算法猛如虎,而當你走近了內容算法,可能會發現算法如虎,細嗅薔薇。內容算法的基礎是更好地了解待推薦的內容,更好地了解要推薦給的人,才能更高效地完成內容與人之間的對接。
一、內容算法是什么?
斷物識人是一切推薦行為的起點。斷物識人可以視為打標簽的過程。標簽是對高維事物的降維理解,抽象出事物表意性的特點。在不同的業務場景下,我們會選擇不同的標簽,來對內容和用戶進行標注。
在內容層面,以音樂為例,最典型的兩種標簽:專家系統和UGC(User Generated Content,用戶原創內容)系統。潘多拉(Pandora)的音樂基因工程(Music Genome Project)是典型的專家系統標簽。在這項工程中,抓住音樂本質在最基本的層面上使用超過450個標簽描述歌曲和組織它們復雜的數學算法,歌曲特征細化到主唱性別、電吉他失真程度、背景和聲類型等。每一首歌曲有選擇性地標注一些標簽,每個標簽以半整數增量的方式分配一個0到5的數字。豆瓣網音樂在專家系統選擇性標簽的基礎上,轉為UGC系統。網絡用戶群體的力量為豆瓣積累了大量具有語義表意性的標簽。當然,由于用戶的多樣性和編輯的開放性,用戶標簽系統需要經過特定的清洗和歸一化才能投入使用。
一篇文章經過文本分析進行一級和二級分類,并抽取出文章內的關鍵字、實體詞,專家系統的標簽體系通過聚類的方式,將這篇文章與其相似的內容聚成一個簇類,從而挖掘出更多的隱含信息。
在用戶層面,分為靜態和動態兩部分。用戶中的靜態部分,即設備信息、地理位置、注冊信息等,這些與業務的相關性不確定。具體到業務場景中,用戶行為生成了業務動態信息,利用人的各種顯式和隱式行為來對用戶的偏好進行猜測。以知乎讀書會為例,你的顯式行為是點擊、收聽、評分、評論等;隱式行為則是收聽完成度、拖拽快進、頁面停留等。通常,由于顯式行為不夠豐富,往往需要使用隱式行為來擴充對用戶的標注。完播率、是否快進、停留時長等指標,都會被系統統計,用來判斷你是否真的喜歡某個人的講解,喜歡某本書的內容。
今日頭條算法架構師曹歡歡博士指出,“今日頭條常用的用戶標簽包括用戶感興趣的類別和主題、關鍵詞、來源、基于興趣的用戶聚類、各種垂直興趣特征,以及性別、年齡、地點等信息。性別信息通過用戶第三方社交賬號登錄得到。年齡信息通常由模型預測,通過機型、閱讀時間分布等預估。常駐地點來自用戶授權訪問位置信息,在位置信息的基礎上通過傳統聚類的方法拿到常駐點。常駐點結合其他信息,可以推測用戶的工作地點、出差地點、旅游地點。這些用戶標簽非常有助于推薦。”
內容和用戶是一個相互影響的循環系統,可用內容判定用戶。在音樂場景下,用戶收聽、收藏、評分了很多爵士類的音樂,那么系統就會判定用戶是喜歡爵士音樂的。在讀書場景下,用戶閱讀、收聽了哪些書籍,哪些書籍聽完了,哪些書籍重復收聽了很多遍,都會影響系統中用戶的標簽。因此,“你的選擇決定你的畫像”。反過來,用戶也會影響內容。基于用戶行為,對內容做出的投票。在視頻上傳體系里,基本放棄了依賴人工打標簽的方式,而利用用戶的播放行為來猜測內容屬于哪一類。一個典型的案例:死神來了。看標題的文本信息,大概率是一部電影,但事實上觀看這個視頻的是喜歡獵奇類的視頻用戶,深挖內容才會知道,這其實是一個車禍視頻集錦。
二、內容算法如何運轉?
(一)協同過濾:應用群體智慧
標簽是對事物的抽象理解,有沒有一種方式能夠放棄標簽呢?以人的行為來標記內容,是協同過濾的基礎思想。把用戶的消費行為作為特征,進行用戶相似性或物品相似性的計算,然后進行信息匹配,這就是協同過濾(Collaborative Filtering)的基礎思想。協同過濾分為三類:基于物品(Item-based)的協同、基于用戶(User-based )的協同和基于模型(Model-based)的協同。
1. 基于用戶的協同。找到那些與你在某一方面口味相似的人群,將這一人群喜歡的新東西推薦給你。
2. 基于物品的協同。先確定你喜歡物品,再找到與之相似的物品推薦給你。物品與物品間的相似度不是從內容屬性的角度衡量的,而是從用戶反饋的角度來衡量的。對于大規模人群的喜好進行內容推薦,是各家公司應用的主流分發方式。
3. 基于模型的協同。應用用戶的喜好信息來訓練算法模型,實時預測用戶可能的點擊率。比如,在Netflix的系統中就將RBM(Restricted Boltzmann Machines,局限型波茲曼模型)神經網絡應用于協同過濾。將深度學習應用基于模型的協同,也成為業界廣泛使用的方式。
以協同的方式,通過用戶行為的聚類,發現許多隱形的聯系。
以讀書會的場景為例,我們邀請不同的名家來領讀書籍。從領讀人的角度,更容易直觀地將同一領讀人的作品視作一個聚類,比如馬家輝老師領讀的《對照記》《老人與海》兩本書,通過人工預判的前置規則,將這兩本領讀書音頻推薦給同一類用戶。通過協同的方式,會發現喜歡馬家輝老師領讀作品的用戶,同時也會喜歡楊照老師領讀的《刺殺騎士團長》一書。這種聯系,是很難通過標簽信息發現的,只有通過用戶的行為選擇,才會建立聯系,提升內容和用戶之間連接與匹配的效率。
(二)從冷到熱:內容和用戶在分發中的生命周期
內容和用戶在分發中,推薦系統無時無刻不在面對著增量的問題:增量內容,增量用戶。
新的內容、新的用戶對于推薦系統來說都是沒有過往信息量積累的、陌生的,需要累積一定的曝光量和互動量(閱讀、分享等)來收集基礎數據。這個從0到1積累基礎數據的過程就是冷啟動,其效果的好壞直接關系到滿意度和留存率。
假設新的內容要經過100次閱讀才能夠得到相對可信的內容標簽,新的用戶同樣需要完成100次閱讀之后才能夠建立起可用的用戶標簽。那么一個最直觀的問題就是:怎么樣達成這100次有效的閱讀?這就是冷啟動面臨的問題。從內容和用戶兩個維度來分別論述。
在推薦系統中,通過分析標題、關鍵字來確定要向哪個目標人群進行探索性展示,借由探索性展示完成了從0到1的用戶反饋積累過程。在這個冷啟動過程中,如果沒能得到足夠正面的用戶反饋(點擊行為和閱讀體驗),系統就會認為這篇內容是不受歡迎的,為了控制負面影響,就會逐步降低這篇內容的推薦量。
反之,如果內容在冷啟動過程中找到了目標人群,收獲了很高的點擊率,就有可能被推薦系統快速放大。因此,冷啟動決定內容命運一點都不為過。
(三)三分天下:編輯、算法與社交
內容算法分發將是未來信息分發行業的標準配置。在內容展現和推薦的過程當中,可以參考下述公式:算法分發權重=編輯分發權重+社交分發權重+各種算法產出權重。
引入內容算法一定是有積極意義的。在有限的貨架里,圍繞用戶展示了無限的貨品。以知乎讀書會為例,將其劃分為內容生產、用戶觸達和反饋改進三個環節。
在內容生產環節,為了保證調性,需要引入編輯、專家去選人、選書。選擇的書是否有價值,選擇的人是否是行業專家,都是體現產品價值觀判斷的事情。
在用戶觸達環節,人工干預的作用就會相對弱化。比如,一本物理學的書籍,由一位物理學大家進行解讀。從編輯的角度,領讀人是大家,書籍是經典,編輯權重一定非常高。聽上去似乎很合理,當進入用戶的場景時,就發現問題。用戶不是每天都來的,如果用戶一周來一次,在用戶沒來的這一周內同樣有文學、互聯網、藝術等專業人士的領讀,該給他的是今日推薦,還是本周推薦呢?進一步考慮到用戶偏好問題。
當我們收集到了足夠多用戶數據的時候,又可以反過來影響內容的二次迭代,編輯的作用又凸顯了出來,結合數據的反饋來對內容進行調整。內容的播放完成率為什么低?是稿件問題,還是領讀人的語音問題,是否需要重新錄制等。
三、內容算法背后的價值觀
內容算法沒有價值觀,算法背后的人是有價值觀的。優化推薦系統,一定會有一個數值目標。這個數值目標的合理性決定了整個推薦系統的合理性。單獨以點擊為優化目標,一定會導致標題黨泛濫;點擊加時長目標能夠一定程度抑制標題黨的產生,也有可能導致定義用戶多樣性的喪失。
數據分析指導內容生產做到非常極致的是Buzz Feed公司。員工總數逾千人,擁有全球新聞團隊、自家視頻制作工作室、尖端數據運算中心和內部創意廣告機構,每月全網超過50億次閱讀。“數據驅動內容創作”是Buzz Feed給自己貼上的標簽。在這家公司的內容創作和分發過程中,反饋閉環(Feedback Loop)是出現頻次最高的術語:通過將市場環境和讀者反饋數據盡可能地量化和結構化,及時反饋給運營人員、內容編輯,從而構成了輔助創作的閉環。為了更好地理解用戶反饋,BuzzFeed追蹤收集并匯總了各個平臺上的閱讀傳播和互動數據,比起閱讀量、分享量這些結果指標,其更關心內容分發和傳播的過程。
通過兩個內容場景一窺各個內容分發產品的調性所在。
新用戶冷啟動。以新用戶的身份去嘗試各種內容消費服務。比較之下,就知道各家的價值觀怎樣的了。因為新用戶是通過不同渠道獲取的,基于馬斯洛需求模型,越底層的內容越有更廣泛的受眾。
推薦多樣性。多樣性是另一個評估分發產品調性好壞的所在。推薦多樣性,深挖用戶的局部興趣點,實現短期收益最大化。比如某用戶喜歡科比,把科比的比賽視頻推送給他,用戶閱讀到深夜兩點;從一個產品的長線來看,需要長期留存用戶,而不是讓用戶短期沉迷。在短期和長期取舍中,依賴于產品設計者的價值觀判斷。
四、評估內容算法
(一)閱讀體驗
閱讀體驗是否促成最終選擇買單。衡量閱讀體驗,內容的消費比例是一個重要的指標。對于圖文來說這個指標是平均閱讀進度和閱讀速度。平均消費比例越高,代表用戶的認可度越高、消費體驗越好。此外,內容是否引發了讀者互動也是一個考察指標,如評論、點贊、收藏、轉發等,這些指標的橫向對比通常用于組織內部考核不同編輯的創作能力。其中,需要額外關注的是評論和轉發兩個指標。
評論擴展了內容的深度,更多的用戶評論給正文提供了不同的視角分析和信息補充,可以有效地引發圍觀用戶的閱讀興趣,提升用戶在內容頁的整體停留時長。
轉發擴展了內容的廣度,更多的轉發能夠帶來更多面向潛在受眾的曝光。對于轉發指標,BuzzFeed的病毒傳播系數的計算方式:Viral Lift = 1 + 傳播閱讀量/一次閱讀量。
(二)粉絲增長
想要可持續發展,只有精準的粉絲才有價值。粉絲增長引入三個概念:LTV、CAC和ROI。
LTV(Life Time Value):生命周期總價值。即一個粉絲從關注你的那一天開始到脫離平臺為止,能夠帶來的收益。通常按渠道來計算,如果某個渠道或某個平臺的用戶不精準、付費意愿差,那么這個渠道的用戶LTV就相對較低。
CAC(Customer Acquisition Cost):用戶獲取成本。同樣跟渠道有關,自媒體需要持續地發現低價、優質的渠道,搶占紅利期。
ROI(Return On Investment):投資回報率。計算公式為(收入-成本)/成本。應用于粉絲增長場景就是(LTV-CAC)/CAC,衡量的是:你從一個粉絲身上掙到的錢,是否能夠覆蓋獲取這個粉絲的成本。通常應該做ROI>1的事情,這樣才能夠保證業務的可持續發展。
想要提升用戶增長的ROI,就必須降低新用戶中非精準用戶的比例,從而拉升渠道用戶的LTV,降低用戶獲取成本CAC。
通過數據分析的方式,能夠讓我們更加清醒地審視內容創作的消費性好壞以及粉絲積累的性價比高低,從而以更經濟的方式提升自己的增長速度。
(作者系知乎知識市場產品總監、簡書簽約作者)