大家好,我是考100分的小小码 ,祝大家学习进步,加薪顺利呀。今天说一说如何成为用户画像方面的专家[通俗易懂],希望您对编程的造诣更进一步.
用户画像是一个老生常谈的话题了,几乎所有的互联网公司,都需要用到用户画像,无论是 ToC 的业务,还是 ToB 的业务。但真正理解什么是用户画像,且能够产出精准、有效的用户画像,就不是那么容易的一件事情了。
所以,我想通过本文和大家分享一下,我关于用户画像方向的思考,及探讨如何更专业地完成用户画像。
最早提出用户画像概念的是交互设计之父 Alan Cooper,原话为:”Personas are a concrete representation of target users“,是指真实用户的虚拟代表,是建立在一系列属性数据之上的目标用户模型。
为什么需要做用户画像?
大家一定有过被好朋友推荐某种商品、某部电影的经历,而且成功率往往很高,究其原因很简单,因为你的朋友非常了解你,知道你对什么感兴趣,知道你此时此刻需要什么。
互联网公司非常渴望,能够像你的朋友那般了解你,这样业绩自然会增长的非常快速,且用户满意度也极高。
从公司的发展角度来看,用户画像主要承载了两个业务目标:
- 拓展新用户
- 获得新订单
拓展新用户
大家每天都会面对海量的信息,然而又有多少信息能够吸引到你的注意力,并最后成功地将你转化,想必是少之又少,绝大多数的信息被“浪费”了。
因此,公司只有准确的了解现有的用户,才能在茫茫人海中,通过精准的营销,获得日渐稀缺的新用户的注意力。
获得新订单
现在,任何一个平台提供的内容或者商品的数量,已经远远超过用户仅仅通过浏览,就可以知晓全面信息的程度了。
如果不能第一时间将用户感兴趣的信息推荐给用户,那么用户很可能在找寻的过程中,快速失去耐心,不仅新订单不能成交,甚至会导致用户的流失。
平台需要捕捉到用户的需求点,才能快速地促成新订单的成交。
关于用户画像,我们需要做什么?
很多公司都有DMP(大数据管理平台),起到了一个帮助用户画像“变现”的作用。从技术的角度来看,DMP是将用户数据进行标签化,利用算法找到相似人群,同业务场景结合,筛选出高度匹配的用户群,并想办法触达这些用户(弹窗、短信、广告联盟等),并跟踪其效果。
事先我们要定义好,用户画像需要哪些不同的维度,我梳理了一份较全面的维度列表:
- 自然属性,比如:性别、身高等
- 社会属性,比如:职业、学历等
- 财富状况,比如:收入、支出等
- 家庭情况,比如:是否结婚、是否有孩子等
- 购物习惯,比如:价格敏感度、品牌忠诚度等
- 位置特征,比如:所在城市、工作地点等
- 其他行为习惯(兴趣等),比如:球迷、游戏迷等
用户画像具体怎么做?
想要真正理解用户,并准确刻画用户,其实是无法做到的。因为,用户的意识 99% 是存在于“脑海”中的,是单机的,是无法触碰的,只有 1% 会在“线上”体现出来,比如:搜索某个关键词、在网上买了一袋米等等。
用户的线上数据只是用户内心世界的一个小小的投影,从高维到低维,从无穷到有限的映射,自然信息会有所损失。
企图通过低维推导出高维,通过有限推导出无穷,理论上是不可能做到的,所以,我们只能做到狭义上的用户画像。
我们一般是这样描述一个事件的:什么用户,在什么时间,什么地点,对什么对象,做了什么行为。
一个事件在日志中,是这样解释的:
- 什么用户,标识用户的方式,比如:Cookie、注册ID、Email、手机号、身份证等。
- 什么时间,产生日志的时间戳。
- 什么地点,页面类型,比如:启动页、搜索页、详情页等。
- 什么对象,内容、商品类型,比如:标题、描述等。
- 什么行为,用户的操作,比如:浏览、点赞、评论、分享、收藏、购买等。
一般典型的数据格式如下:
{
'user_id': '001', # 用户ID
'opt_time': 1578905680, # 操作时间戳
'opt_page': 'search', # 操作页面位置
'opt_type': 1, # 行为类型: 1-点赞、2-评论、3-分享、4-浏览
'opt_content_id': 1 # 对象ID
}
其中用户ID、时间戳比较容易理解,基本就是字面意思,然而页面位置、行为类型、对象ID则需要解释一下。
页面位置
虽然用户操作的对象是相同的,但发生在不同的页面位置,其体现出的用户意愿程度也是不同的,即权重。好比:一瓶矿泉水,在超市卖1元,在火车站卖3元,在景区卖5元。
我们需要为不同的页面位置定义不同的权重,才能更精准地刻画出用户画像。
行为类型
与页面位置类似,用户的不同行为也能折射出用户不同程度的意愿。
典型的用户行为权重如下:
行为 | 权重 |
---|---|
浏览 | 1 |
点赞 | 2 |
收藏 | 5 |
分享 | 7 |
评论 | 10 |
对象ID
仅仅记录下对象ID,还远远不够,无法真正体现出用户的兴趣点,需要将对象ID标签化。
标签是表达人的基本属性、行为倾向、兴趣偏好等某一个维度的数据标识,它是一种相关性很强的关键字,可以简洁的描述和分类人群。
标签的定义来源于业务目标,基于不同的行业,不同的应用场景,同样的标签名称可能代表了不同的含义,也决定了不同的模型设计和数据处理方式。
自此,用户数据就已经讲解完了,现在就需要计算方法了。
关于计算方法,我们需要注意以下两点:
- 时间衰减
- 热度衰减
时间衰减
越早之前的行为对于用户当前的兴趣表现影响越弱,用户标签的权重会随时间的增加而衰减,因此需要定义时间衰减因子。
热度衰减
如果非常多的用户都喜欢的内容或商品,那么说明它是热门的,并不能真实地反映出用户的兴趣爱好,需要我们进行惩罚,而对冷门、偏门的进行加权。
最终,我们可能得到类似这样的结果:
- 用户A的职业:程序员 0.8;用户运营 0.3。
- 用户A的性别:男 0.7;女 0.3。
- 用户A的年龄:20岁以下 0.6;20-30岁 0.3;30岁以上 0.9。
总结
用户画像质量的高、低,直接影响着业务发展好、坏,而影响用户画像质量的因素,往往是细节方面的处理,本文从原理和流程上进行了讲解,指出了处理方面需要思考的细节,希望对大家有所帮助。
最后,安利大家一本掘金小册《深入理解NLP的中文分词:从原理到实践》,让你从零掌握中文分词技术,踏入NLP的大门。
如果因为以上内容对你有所帮助,希望你帮忙点个赞、转个发、评个论。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/13476.html