如何成为用户画像方面的专家[通俗易懂]

大家好，我是考100分的小小码，祝大家学习进步，加薪顺利呀。今天说一说如何成为用户画像方面的专家[通俗易懂],希望您对编程的造诣更进一步.

用户画像是一个老生常谈的话题了，几乎所有的互联网公司，都需要用到用户画像，无论是 ToC 的业务，还是 ToB 的业务。但真正理解什么是用户画像，且能够产出精准、有效的用户画像，就不是那么容易的一件事情了。

所以，我想通过本文和大家分享一下，我关于用户画像方向的思考，及探讨如何更专业地完成用户画像。

最早提出用户画像概念的是交互设计之父 Alan Cooper，原话为：”Personas are a concrete representation of target users“，是指真实用户的虚拟代表，是建立在一系列属性数据之上的目标用户模型。

为什么需要做用户画像？

大家一定有过被好朋友推荐某种商品、某部电影的经历，而且成功率往往很高，究其原因很简单，因为你的朋友非常了解你，知道你对什么感兴趣，知道你此时此刻需要什么。

互联网公司非常渴望，能够像你的朋友那般了解你，这样业绩自然会增长的非常快速，且用户满意度也极高。

从公司的发展角度来看，用户画像主要承载了两个业务目标：

拓展新用户
获得新订单

拓展新用户

大家每天都会面对海量的信息，然而又有多少信息能够吸引到你的注意力，并最后成功地将你转化，想必是少之又少，绝大多数的信息被“浪费”了。

因此，公司只有准确的了解现有的用户，才能在茫茫人海中，通过精准的营销，获得日渐稀缺的新用户的注意力。

获得新订单

现在，任何一个平台提供的内容或者商品的数量，已经远远超过用户仅仅通过浏览，就可以知晓全面信息的程度了。

如果不能第一时间将用户感兴趣的信息推荐给用户，那么用户很可能在找寻的过程中，快速失去耐心，不仅新订单不能成交，甚至会导致用户的流失。

平台需要捕捉到用户的需求点，才能快速地促成新订单的成交。

关于用户画像，我们需要做什么？

很多公司都有DMP（大数据管理平台），起到了一个帮助用户画像“变现”的作用。从技术的角度来看，DMP是将用户数据进行标签化，利用算法找到相似人群，同业务场景结合，筛选出高度匹配的用户群，并想办法触达这些用户（弹窗、短信、广告联盟等），并跟踪其效果。

事先我们要定义好，用户画像需要哪些不同的维度，我梳理了一份较全面的维度列表：

自然属性，比如：性别、身高等
社会属性，比如：职业、学历等
财富状况，比如：收入、支出等
家庭情况，比如：是否结婚、是否有孩子等
购物习惯，比如：价格敏感度、品牌忠诚度等
位置特征，比如：所在城市、工作地点等
其他行为习惯（兴趣等），比如：球迷、游戏迷等

用户画像具体怎么做？

想要真正理解用户，并准确刻画用户，其实是无法做到的。因为，用户的意识 99% 是存在于“脑海”中的，是单机的，是无法触碰的，只有 1% 会在“线上”体现出来，比如：搜索某个关键词、在网上买了一袋米等等。

用户的线上数据只是用户内心世界的一个小小的投影，从高维到低维，从无穷到有限的映射，自然信息会有所损失。

企图通过低维推导出高维，通过有限推导出无穷，理论上是不可能做到的，所以，我们只能做到狭义上的用户画像。

我们一般是这样描述一个事件的：什么用户，在什么时间，什么地点，对什么对象，做了什么行为。

一个事件在日志中，是这样解释的：

什么用户，标识用户的方式，比如：Cookie、注册ID、Email、手机号、身份证等。
什么时间，产生日志的时间戳。
什么地点，页面类型，比如：启动页、搜索页、详情页等。
什么对象，内容、商品类型，比如：标题、描述等。
什么行为，用户的操作，比如：浏览、点赞、评论、分享、收藏、购买等。

一般典型的数据格式如下：

{
  'user_id': '001',       # 用户ID
  'opt_time': 1578905680, # 操作时间戳
  'opt_page': 'search',   # 操作页面位置
  'opt_type': 1,          # 行为类型： 1-点赞、2-评论、3-分享、4-浏览
  'opt_content_id': 1     # 对象ID
}

其中用户ID、时间戳比较容易理解，基本就是字面意思，然而页面位置、行为类型、对象ID则需要解释一下。

页面位置

虽然用户操作的对象是相同的，但发生在不同的页面位置，其体现出的用户意愿程度也是不同的，即权重。好比：一瓶矿泉水，在超市卖1元，在火车站卖3元，在景区卖5元。

我们需要为不同的页面位置定义不同的权重，才能更精准地刻画出用户画像。

行为类型

与页面位置类似，用户的不同行为也能折射出用户不同程度的意愿。

典型的用户行为权重如下：

行为	权重
浏览	1
点赞	2
收藏	5
分享	7
评论	10

对象ID

仅仅记录下对象ID，还远远不够，无法真正体现出用户的兴趣点，需要将对象ID标签化。

标签是表达人的基本属性、行为倾向、兴趣偏好等某一个维度的数据标识，它是一种相关性很强的关键字，可以简洁的描述和分类人群。

标签的定义来源于业务目标，基于不同的行业，不同的应用场景，同样的标签名称可能代表了不同的含义，也决定了不同的模型设计和数据处理方式。

自此，用户数据就已经讲解完了，现在就需要计算方法了。

关于计算方法，我们需要注意以下两点：

时间衰减
热度衰减

时间衰减

越早之前的行为对于用户当前的兴趣表现影响越弱，用户标签的权重会随时间的增加而衰减，因此需要定义时间衰减因子。

热度衰减

如果非常多的用户都喜欢的内容或商品，那么说明它是热门的，并不能真实地反映出用户的兴趣爱好，需要我们进行惩罚，而对冷门、偏门的进行加权。

最终，我们可能得到类似这样的结果：

用户A的职业：程序员 0.8；用户运营 0.3。
用户A的性别：男 0.7；女 0.3。
用户A的年龄：20岁以下 0.6；20-30岁 0.3；30岁以上 0.9。

总结

用户画像质量的高、低，直接影响着业务发展好、坏，而影响用户画像质量的因素，往往是细节方面的处理，本文从原理和流程上进行了讲解，指出了处理方面需要思考的细节，希望对大家有所帮助。

最后，安利大家一本掘金小册《深入理解NLP的中文分词：从原理到实践》，让你从零掌握中文分词技术，踏入NLP的大门。

如果因为以上内容对你有所帮助，希望你帮忙点个赞、转个发、评个论。

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。
转载请注明出处: https://daima100.com/13476.html