如何使用DolphinDB进行淘宝用户行为分析,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。
DolphinDB是新一代的高性能分布式时序数据库(时间序列数据库),同时具有丰富的数据分析和分布式计算功能。本教程使用DolphinDB对淘宝应用的用户行为数据进行分析,进一步分析业务问题。
数据用户行为数据从淘宝推荐——数据集——阿里云天池
我们把DolphinDB数据库以及使用的数据集封装到码头工人中.docker中包含了DolphinDB的分布式数据库dfs://user_behavior。它包含一张表用户,保存了2017年11月25日到2017年12月3日之间将近一百万淘宝应用用户的行为记录。我们采用组合分区方式,第一层按照日期分区,每天一个分区,第二层按照userID进行哈希分区,一共划分为180个分区.user表的结构如下所示:
各种用户行为类型的含义如下:
- <李>
pv:浏览商品详情页
李> <李>购买:商品购买
李> <李>车:将商品加入购物车
李> <李>喜欢:收藏商品
李>1。下载码头工人部署包
本教程已经把DolphinDB以及用到的数据封装到码头工人容器中。使用前确保码头工人环境已经部署好.docker安装教程请参考https://docs.docker.com/install/4觝ttp://www.dolphindb.cn/downloads/bigdata.tar.gz下载部署包,到部署包所在目录执行以下代码。
解压部署包:
gunzip bigdata.tar.gz
导入容器快照作为镜像:
cat bigdata.tar |, docker import 作用;我/bigdata: v1
获取镜像我/bigdata: v1的ID:
docker 图片
启动容器(根据实际情况替换图片ID):
docker run -dt -p 8888:8848 ——name test & lt; image id>/bin/bash 。/DolphinDB/开始。sh
在浏览器地址栏中输入本机IP地址:8888年,如localhost: 8888年,进入DolphinDB笔记本。以下代码均在DolphinDB笔记本中执行。
该码头工人中的DolphinDB许可证有效期到2019年9月1日,如果许可证文件过期,只需要到DolphinDB官网下载社区版,用社区版的许可证替换bigdata.tar/DolphinDB dolphindb.lic即可。
2。用户行为分析
查看数据量:
<>之前登录(“admin",“123456“) 用户=loadTable (“dfs://user_behavior",“user") null null null null null null null null null null null null null null null null null null null null null null null