欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

告別1人年,教你21天搭建推薦系統

我是創始人李巖:很抱歉!給自己產品做個廣告,點擊進來看看。  

系統 作者: 盧梭

摘要: 本文作者為阿里云技術專家鄭重(盧梭),主要分享內容是如何在21天內快速搭建推薦系統。推薦系統的搭建是個復雜工程,涉及到實時計算、離線計算,以及各種數據采集、流轉等,對自建推薦系統來說,1人年是跑不掉的。 本文介紹的內容還包括如何搭建一個個性化推薦系統所需的環境準備、基本配置和離線技術等基本功能的搭建。

本文介紹的內容還包括如何搭建一個個性化推薦系統所需的環境準備、基本配置和離線技術等基本功能的搭建,也有效果報表、算法優化和實時修正等高級功能的剖析。

大數據有三個非常經典的應用:計算廣告、搜索、推薦。每一種應用最核心的地方都離不開三個字——個性化。廣告不用說了,計算廣告的基本要求就是要精準,為廣告選擇對其感興趣的目標受眾;搜索可以理解為對搜索關鍵詞的個性化;而推薦,則需要在用戶和物品之間建立興趣關系。推薦的業態比較復雜,有類似淘寶天貓這樣的真正意義上大數據場景,也有很多中小網站、應用,數據量其實并不是很大。阿里云推薦引擎(https://data.aliyun.com/product/re)的初衷,是為了幫助阿里云的客戶、創業者、中小網站,讓他們能夠更好的運營自己的產品或網站。

推薦系統一般包括展現子系統、日志子系統和算法子系統三個部分,三者互為一體。

系統架構
“展現”部分不僅要負擔展現,還是數據采集的窗口,用戶在展現系統的所有行為通過日志錄入,采集到的數據經過算法子系統的計算,可以得到用戶的偏好或者個性化興趣,然后回過頭來指導“展現”部分怎樣做的更聚焦。

阿里云推薦引擎(RecEng)是推薦系統的一部分,主要實現的是算法子系統,需要和其他子系統配合工作。使用阿里云推薦引擎分為兩大階段

第一階段:基本功能的搭建

Day1. 環境準備

環境準備
環境準備分為兩部分。圖中左側為云上資源的準備,我們需要擁有阿里公有云賬號,然后開通云監控服務(可選)和阿里云數加服務(必選);開通數加賬號后,大數據計算服務(MaxCompute,原名ODPS)和大數據開發DataIDE就默認開通了(DataIDE相當于MaxCompute的可視化包裝),最后開通推薦引擎。未來客戶在推薦引擎中用到的數據,以及相關離線計算,都在客戶自己的MaxCompute項目中完成。右側為客戶側的準備,前端的展現,以及日志的采集和管理都需要客戶自己完成,通過推薦引擎提供的API與推薦引擎進行交互。通常情況下,客戶側的后臺相關功能會集中在推薦服務器中實現,這也是阿里云推薦引擎墻裂建議的方案。推薦服務器可以是客戶自己的物理機,也可以是阿里云的虛擬機ECS,都是可以的。

Day2-3. 數據準備

DT時代的基本要求是數據要能夠“存、通、用”。采集日志,并將其上傳到公共云實現了數據“存”的過程;推薦引擎負責解決數據的“通”和“用”。“用”比較好理解,“通”則指的是所有進入推薦引擎的數據必須滿足推薦引擎所定義的格式規范。推薦有三類數據:用戶數據、物品數據和行為數據,我們定義了這三種表的格式規范,比較簡單,具體細節可以參考:鏈接

那么,如何把數據傳到公共云上來呢?目前主要有兩種方法,一是利用集成在MaxComputeconsole中的Tunnel命令,該命令的缺點只能上傳文本格式數據;另一種方法是定制DataX上傳,DataX作為連接各種數據庫中間的節點,它除了可以作為文本上傳,還可以把各種數據庫打通。DataX的缺點是目前只能在Linux環境下運行。

當然,未必每一個業務的數據都滿足規范的要求,所以還需要做一些格式轉換。DataIDE提供了比較友好的格式轉換界面,還可以把配置好的任務設置為定時任務,每天定時調度;也可以在MaxComputeconsole下直接執行格式轉換的SQL腳本,再利用系統的crontab命令實現定時任務。

Day4-5. 基本配置和離線計算

離線計算
環境和數據都準備好了之后,接下來需要進入阿里云推薦引擎產品,真正開始使用推薦引擎了。不過在此之前,還需要對產品中的一些關鍵概念進行必要的說明。

第一個概念是業務。 在阿里云推薦引擎中,業務指的是一組可被用來進行推薦算法計算的完備數據集,包括物品表、行為表、用戶表這三張表。也可以簡單的認為這三張表就構成了一個業務。

第二個概念是場景, 所謂場景就是推薦的上下文。換句話說,就是在進行推薦時有哪些可用的參數。比如在進行首頁推薦的時候,可用的參數只有用戶的ID;在進行詳情頁推薦的時候,可用的參數除了用戶ID,還可以由詳情頁上展示的物品ID,這樣首頁推薦和詳情頁推薦就是兩個推薦的場景。一個業務可以包括多個場景。

第三個概念是算法流程, 算法流程指的是數據端到端的處理流程,從客戶的輸入數據開始,到產出最終結果為止。推薦算法流程從屬于場景,一個場景可以包含多個算法流程。每個推薦算法流程都包括兩部分,離線計算流程和在線計算流程。離線計算流程負責從原始的業務數據(用戶、物品、行為)開始,計算用戶對物品的興趣,輸出本場景下用戶可能會感興趣的物品集合;在線計算流程實時接受推薦請求,從離線計算流程得到的物品集合中根據業務規則挑選出最合適的若干個物品返回給請求方。一個場景包含多個推薦算法流程這種設定使得我們在做效果對比變的比較容易,后面會介紹A/BTesting,在A/BTesting中,每個推薦算法流程都是一個可被效果指標度量的最小單元。在做完A/BTesting之后,通常只會在一個場景下保留一個效果最好的推薦算法流程。

流程
產品里的配置都比較簡單,配置業務基本信息、配置業務依賴的云資源、配置業務數據表,接著配置場景、配置API參數,最后配置算法流程,阿里云推薦引擎提供了兩個默認的推薦算法流程模板,分別針對首頁場景和詳細頁場景,圖為首頁場景的離線計算流程模板,圖中每一個節點就是一個算法,最終產出離線計算結果。

Day6-8. 推薦API集成

集成
到了這一步,云端推薦引擎里的推薦算法邏輯已經配置完成,剩下的事情就是把系統串起來,讓推薦引擎和日志、展示兩個子系統結合起來,成為推薦系統。阿里云推薦引擎提供了一組API,這里要做的就是把這些API集成到推薦服務器中。

首先需要把離線數據傳上來,可以用前面提到的方法,Tunnel啊,DataX啊,都可以,但是一定要是定時任務,我們總不能每天都去手工執行數據上傳。上傳完成之后首先調用數據預處理API,對數據做一些預處理;然后調用離線計算API,啟動離線計算。待離線計算完成后,通過推薦API就可以實時獲取用戶的推薦結果了。在離線計算的過程中,還可以通過查看計算任務狀態API實時獲取計算任務的狀態,便于及時發現異常。

上圖也展示了我們對推薦服務器的一些基本建議。諸如數據上傳、啟動離線計算這些功能建議由一個相對獨立的數據管理組件來負責;而實時性要求比較高的推薦結果獲取建議由專門的推薦管理組件來負責。推薦管理組件和數據管理組件為什么要有一個交互呢?這是因為從推薦引擎返回的結果中可能只包括了物品的ID,展示時不能只展示一個ID,還有很多材料,這些東西可以放在推薦服務器中,由數據管理模塊負責管理。UI可以提供人工管理數據的界面,比如新錄入了一個物品,或者某個物品賣完了要下線,需要做實時修正時就可以用到了。

這些工作都完成之后,一個具備最基本功能的推薦系統就可以運行起來了。

via:博客園

End.

本文被轉載1次

首發媒體 36大數據 | 轉發媒體

隨意打賞

告別2015年
提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 欧美一区二区三区高清视频 | 婷婷综合久久狠狠色99h | 日本免费不卡在线一区二区三区 | 老司机亚洲精品影院在线 | 精品乱久久 | 四虎w345com| 国产成人精品曰本亚洲77美色 | 国产精品ⅴ视频免费观看 | 欧美激情级毛片 | 日韩一区二区超清视频 | 久久黄色免费视频 | 99热这里只有精品国产99 | 久久91亚洲精品久久91综合 | 可以免费观看一级毛片黄a 可以直接看的毛片 | oldwoman中国老女人tv | 波多野结衣在线一区 | 国产精品久久久久久久9999 | 免费观看性欧美一级 | 青青青青久在线观看视频 | 影音先锋久草 | 亚洲高清在线mv | 成人午夜在线观看 | 国产亚洲精品91 | 国产真实伦视频在线观看 | 国产精品福利视频主播真会玩 | 欧美国产大片 | 亚洲七七久久综合桃花 | 一及 片日本 | 人成xxxwww免费视频 | 久久五月天婷婷 | 黄色一级网 | 人做人爱视频欧美在线观看 | 日本一级黄色录像 | 国产精品久久精品 | 999精品免费视频观看 | 男任天堂2021| 中文字幕久久综合 | 精品日韩在线视频 | 国产高清国内精品福利99久久 | 99热久久免费精品首页 | 亚洲成a人v在线观看 |