新媒易动态
NEWS CENTER
NEWS CENTER
2021-03-03
,数据仓库存储的是结构化的数据,而构建用户画像需要结构化数据,也有非结构化和半结构化数据,既拥有结构化数据又拥有半结构化数据和非结构化数据的系统称之为数据湖。
相对来说,结构化的数据更容易构建用户画像,只需要对结构化的数据直接进行标签化,而非结构化和半结构化数据需要通过算法进行处理后再进行标签化。
用户画像与数仓的关系为数据源与数据应用的关系,两者相辅相成,关系图如下:
经常有人搞不清楚用户画像与用户角色的区别,其实两者本质上是不一样的,先来看看两者的对比图表:
①性质:用户角色为定性研究,只考虑用户的特征性质不考虑程度,而用户画像是对用户的精细刻画,为定量研究。
②使用时机:一般来说,用户角色的使用场景在产品上线之前,此时几乎没有任何数据,需要产品同学针对产品的使用方进行特征描绘,以便了解目标群体进行针对性的设计;用户画像的使用场景在产品上线后,此时已积累了一定的数据量,可以对用户进行数据统计构建用户画像,获得精细化运营的能力。
③描述程度:用户角色是对某个用户群体特征进行高度概括,用户画像是对用户个体或者用户群体的精细描述。
④用途:用户角色用于辅助产品进行设计,研究用户体验,例如权限控制系统会分为以下几个角色:分析师、产品、运营、数据科学家等角色,用户画像用于了解用户特征以及偏好,以便提供个性化的服务和提高盈利。
在构建用户画像之前,需要产品同学进行一个规划,说明下项目的背景以及做这个系统的必要性,最终要实现的目标是什么,即提供什么样的功能,为了达成这个目标需要的人力以及物力资源。
这里需要计算一下需要什么硬件,如多大的磁盘、内存,需要哪些,具体可以将硬盘和内存分配到每个存储及计算组件上,这个工作可与技术同学协商完成。
基于前面的介绍,设备的维护以及各存储计算组件的运行保障这里需要运维工程师,数据的清洗需要ETL工程师。
数据的存储、标签生成、流式计算等需要用到多种的大数据组件,这就需要大数据开发工程师,同时存储的数据库各种备份维护等工作需要配备数据库工程师。
非结构化和半结构化数据需要经过算法处理,所以算法工程师也是必需的;最后,用户画像需要进行可视化,还需要配备一个前端工程师。
根据以上分析,所需的工程师如下(具体需要人数视项目而定,有的全栈工程师可以身兼多职就不需要这么多):
在开始构建用户画像之前,需要数据产品出一个详细的实施文档,如果说用户画像规划文档是说做什么的话,那用户画像实施文档就是说明具体要怎么做;这样开发人员才知道具体的逻辑着手实施,如受多个因素影响的标签每个因素的权重是多少,这样才能计算出最终标签的值。
以下各步骤均要在实施文档里面详细说明:
数据的如何从原始数据最终转化成标签数据,需要定义一个标准处理流程,这就是数据建模。
1)建模流程
以上图片为使用多项 Logistic 回归算法对电信业客户进行分类的建模流程,从图片上看,数据建模可以分为以下几个步骤:
① 获取原始数据,包含用户访问的行为日志、用户基本属性等,具体需要的数据视用途而定,这里预测客户类别用到的信息有地区、年龄、婚姻状况、地址、收入、教育程度、行业、退休、性别、居住地和客户类别。
② 数据预处理,挖掘出事实标签,对用户数据进行过滤、清洗、简化表示,例如:过滤掉表中的无关字段,指定字段类型,处理缺省值等。
③ 分析用户行为及属性,构建用户画像的模型标签,通过用户行为属性分析,得到各类型用户的行为规律及特征属性,构建用户行为属性模型,训练出最终模型。
④ 调优模型,对模型进行调优,使预测结果更准确。
⑤ 通过模型进行预测,完善用户画像,预测用户的操作行为。
2)建模常用模型
以下列出常见的建模模型,以便了解熟悉各模型的常见用途。