终其一生,我们只不过在寻找自己

0%

准备Q音推荐实习面试的笔记

11月30更新,面试通过。后续更新实习心得。


学姐有发消息招腾讯音乐的日常实习,我当天投递简历,当晚组长联系第二天面试。
推荐部门,我约的第二天下午三点面试,感觉下午会清醒一点。
现在记录一下准备过程。
本文没有逻辑,看到哪记到哪。


qq音乐推荐现状

用户登录之后,默认进入喜好选择页面。
Page1:选择喜好的音乐流派,可多选,候选项为常见的流派
Page2:选择喜好的歌手,候选项为基于流派里的出名歌星
然后在推荐页,有电台,当天推荐30首,每周新歌推荐;
下面可以一直往下拉,有专辑和短视频推荐,短视频自动播放

喜好选择可以解决能启动。
解决冷启动还能通过:

导入用户在社交网络上的好友信息和公开发布的信息
基本信息:(性别、职业、年龄段、地理位置(方言,城市等级,天气)、手机型号,传感器:行为判断运动?散步?休息)
关系链:相似好友推荐
朋友圈、QQ空间获取初步的用户画像:

  • 自己:个性签名,朋友圈动态-nlp,cv情感分析
  • 交互:好友分享,点赞,评论

相似度矩阵思考问题

链接:知乎沙克

完整的推荐系统体系包括 官方团队推荐(Editorial)、UGC(User-Generated Content)和热门推荐(Top Seller/Trending)的协作。

  • 相似度矩阵(Similarity Matrix):
    大家提的各种算法里面,几乎都是基于相似度的吧 — 无论是CF还是Content based产生的相似度,前者需要用户的行为数据,后者需要歌曲的元数据(metadata),比如旋律、Tag等等。
    需要避免过多推荐单一歌手,避免过多热门。
    找到冷门优秀的歌曲。
    类似与tf-idf,在歌曲对个人的重要性在总榜里的热度乘反比,在个人的喜好程度乘正比。

userCF算法和itemCF算法的层面

链接:作者:郑昊
来源:知乎著作权归作者所有,转载请联系作者获得授权。
在本文中我们将提到两种方法来实现这个目的,基于用户的协作型过滤和基于物品的协作型过滤。

基于用户的协作型过滤

音乐用户甲->偏好相近用户->相关歌曲->推荐列表

流程至少包括以下四个步骤:
建立评价规则
搜集用户偏好
寻找相近的用户
推荐歌曲

1.建立评价规则
下图是我随意做的一个评价规则。评价规则应该根据明确的用户行为来建立。

评价规则-随意做的

2.搜集用户偏好
根据评价规则,我们可以得到每个用户和该用户相关的每首歌的一个得分。 下图也是我随意造的数据。

用户偏好

3.寻找相近的用户
常用的计算相似度评价值的体系有两种:欧几里得距离和皮尔逊相关度。

4.推荐歌曲
接下来系统要做的就是,为用户郑昊提供歌曲推荐。我们当然可以查找与郑昊品味最相近的人,从他所喜欢的歌曲中找出一首郑昊可能还未接触过的歌曲。不过,这样的做法未免太随意了。
目前最通用的做法是,通过一个经过加权的评价值来为歌曲打分,评分结果即排名结果。为此,我们需要取得所有其他用户的分数,借此得到相关系数后,再乘以他们与相关歌曲的分数,求和之后再除以对应的相关系数总计,便能获得一个我们需要的评价值。在下表中我们给出了具体的做法。

「相关系数」一列来自于皮尔逊相关度评价。「歌名」对应各用户的得分来自评价规则处理后的结果。将前两者一一对应相乘,便是「歌N*相关系数」的值。如此一来,相比于与我们不相近的人,那些与我们相近的人将会对整体评价值拥有更多的贡献。总计一行给出了所有加权评价值的总和。

我们可以用总计值来计算歌曲排名,但是我们还需要考虑到,这样人数会对一首歌的得分产生正相关影响。为了避免这一问题,我们需要将总计除以相关系数总计。相关系数总计等于所有对这首歌曲有影响的用户的相关系数之和。表中最后一行就是我们所需要的结果。

基于物品的协作型过滤

1.歌曲A->相关用户->相关歌曲->推荐列表;
2.网易云音乐用户甲->偏好歌曲->推荐列表。

1是主要计算过程,2是推荐过程。


从产品角度思考数据

链接
行业分析、市场分析、用户群的划分和分析之外,还考虑未来的发展方向


实习经历描述

腾讯 微信事业群 数据分析实习生 用户拉起方向 2019.04-2019.08 l 运用聚类算法对用户来源、拉起特征、活跃企业等属性完成了用户聚类,梳理出用户画像,找到用户拉起的增长点;通过通过漏斗分析,寻找出注册页瓶颈,找到改进措施。

产品岗,做的杂:捞数据,做报表,策划,数据分析。
分析:互通现状。
任务:分析现状,梳理出下一步的方向。
What:现状是什么?用户增长放缓,发消息加深。
思路:用户群的划分→得到比例和画像→比例与市场比较,寻找空间;画像对比我们的目标企业查看问题

  • 用户群怎么划分?
    1 活跃 62%
    2 基于产品性质,协同12%,服务50%
    3 服务类的 基于使用情况,公司规模 大企业10% 小企业40%

  • 画像,使用情况:
    分词去寻找岗位,树状结构去找级别,流失时间点,是否体验了

解决:
when:使用互通次日
who:IT,零售,物流
why:需要客户联系,管理消费者资源
how:
1 大企业,推联系方式给BD联系主动沟通,拉起使用
2 中小企业,非管理员体验,push引导管理员开通客户联系; 管理员体验,企业号推送行业案例,激发兴趣
3 未进入的企业,寻找“优质用户”包,在朋友圈广告定向推送互通行业案例
4 增加通道:微信个人资料增加企业微信icon,增加曝光


-------------    你的留言  是我更新的动力😊    -------------