项目背景 酒店、民宿是人们出行旅游必不可少的选择。Airbnb爱彼迎是全球民宿短租公寓预定平台,是一家联系旅游人士和家有空房出租的房主的服务型网站,它可以为用户提供多样的住宿信息。全球700万特色民宿、短租、酒店、公寓、客栈覆盖191个国家和地区短租民宿房源。 一、项目介绍 数据集来自Kaggle项目,提供用户列表以及他们的人口统计信息,Web会话记录和一些摘要统计信息。该数据集中的所有用户均来自美国。进行爱彼迎用户的行为分析。 使用工具:Navicat、Tableau 数据源: 二、提出问题 根据爱彼迎提供的数据,分析用户数据以及获取用户渠道以及转化率,查找原因并给出解决。主要有三个问题: (1)爱彼迎用户群画像有哪些特征? (2)爱彼迎的推广渠道分析?这些渠道的优劣? (3)爱彼迎用户群行为转化率,哪些环节用户用户流失比较严重后果? 三、理解数据 train_users数据集的字段信息: sessions数据集字段信息: 四、数据清洗 4.1重复值处理 train_users数据集中,每个用户只有一条记录,数据表设计时,di设为主键,排除重复值 sessions数据集,每个用户多个行为 4.2缺失值处理 统计缺失值,以age为例 #统计age特征缺失值SELECT count(id) AS "年龄缺失值" FROM train_users WHERE age IS NULL 经过统计,可以发现各特征的缺失值如下:
可以发现,相对于源数据,特征值缺失量比较大,不适合直接删除,尽在特征分析时进行针对性筛选。 4.3异常值处理 4.3.1时间信息分析 #查看注册时间范围SELECT MIN(date_account_created) AS "年龄最小值", MAX(date_account_created) AS "年龄最大值" FROM train_users 用户注册时间范围2010.01.01-2014.06.30,与数据提供信息一直,注册时间没有异常值 4.3.2年龄范围 #查看年龄值得范围SELECT MIN(age) AS "年龄最小值", MAX(age) AS "年龄最大值" FROM train_users 可以发现,年龄范围存在明显的异常值,后续在进行年龄特征分析时,需要筛选年龄数据。 4.3.3性别统计 #统计分析性别类别SELECT gender,COUNT(id) AS 用户人数 FROM train_users GROUP BY gender; 可以发现,大量的用户没有填写用户性别信息,特别还有other,怎么出现的??? 五、数据可视化 5.1用户画像分析 5.1.1性别特征分析 #统计用户的男女性别SELECT gender,COUNT(id) AS 用户人数 FROM train_users WHERE gender != "-unknown-" AND gender != "OTHER" GROUP BY gender; 可以发现,爱彼迎男女用的占比没有明显的差别,男性用户略高于女性用户,说明爱彼迎的用户体验对男女用户没有太大差异。 5.1.2年龄统计 #年龄统计SELECT age,COUNT(id) AS "用户人数" FROM train_users GROUP BY age HAVING age >0 ORDER BY age; 可以发现,爱彼迎的主要用户群集中在25岁到35岁之间,根据注册时间是2010-2014年,可知这部分用户群以80后为主,其次70后,再次是90后的用户群。 5.1.3语言偏好 #语言偏好SELECT language, COUNT(id) AS "用户人数" FROM train_users GROUP BY language ORDER BY 用户人数 DESC LIMIT 10; 可以发现,爱彼迎的客户很国际化,用户群分布在全球过个国家,其中超过90%的客户来自美国,这可能和数据来源于美国有关,中文用户群占据第二。 5.1.4英语语言偏好目的地预订分析 #以英语语言分析预订目的地SELECT country_destination, COUNT(id) AS 用户人数 FROM train_users GROUP BY language, country_destination HAVING language = 'en' ORDER BY 用户人数 DESC; 可以发现,主要预订的民宿的国家集中在美国,然后是法国,这和数据来源有关。 5.2推广渠道分析 5.2.1每月新增注册用户数量 #查看每月新增注册用户数量SELECT date_format(date_account_created, '%Y-%m') AS year_moth, COUNT(id) AS "用户人数" FROM train_users GROUP BY date_format(date_account_created, '%Y-%m') ORDER BY year_moth; 可以发现: (1)爱彼迎用户在2012年增长平缓,2012年之后用户群快速增高。 (2)爱彼迎用户的增长有明显的季节性,每年的7-10月份,都会出用户群增长高峰,推测应该是旅游出行的旺季。 5.2.2用户设备分析 #查询不同设备来源注册用户数SELECT first_device_type, COUNT(id) AS "用户数" FROM train_users GROUP BY first_device_type ORDER BY 用户数 DESC; 可以发现: (1)苹果设备,无论是平板还是手机都明显高于其它设备 (2)数据来源于2010-2014年,该时间段Android设备还没有普及,所以该设备用户来源较低 5.2.3推广渠道分析 #不同推广方式+渠道的注册数量SELECT affiliate_channel, affiliate_provider, COUNT(id) AS "用户数", SUM(CASE WHEN date_first_booking <> '0000-00-00 00:00:00' THEN 1 ELSE 0 END) AS "首订用户数", SUM(CASE WHEN date_first_booking <> '0000-00-00 00:00:00' THEN 1 ELSE 0 END) / COUNT(id) AS "推广方式+渠道转化率" FROM train_users GROUP BY affiliate_channel, affiliate_provider ORDER BY 用户数 DESC LIMIT 20; 可以发现: (1)爱彼迎的推广渠道和方式真的是很多,统计有38个渠道,极度有利于吸引用户流量 (2)爱彼迎推广渠道转化率都比较高,且比较均衡,大部分转化率都在30%-40% (3)用户群来源主要来源于直接应用市场APP下载,占据60%以上,可以发现TOP10的渠道用户群占据99%以上。 (4)content渠道和推广方式的用户群转化率比较低,多数低于10%。 5.2.4营销广告内容分析 #不同营销广告内容的注册数量SELECT first_affiliate_tracked, COUNT(id) AS "用户数", SUM(CASE WHEN date_first_booking <> '0000-00-00 00:00:00' THEN 1 ELSE 0 END) AS "首订用户数", SUM(CASE WHEN date_first_booking <> '0000-00-00 00:00:00' THEN 1 ELSE 0 END) / COUNT(id) AS "营销广告转化率" FROM train_users GROUP BY first_affiliate_tracked ORDER BY 用户数 DESC; 可以发现: (1)占据第一用户群是untracked未追踪到的用户数据 (2)linked无论是用户群还是注册用户转化率都排在第一,其次omg的用户群和转化率也不错,但是marketing和local ops的用户群相对较低。 5.3用户行为转化分析 #用户总数统计SELECT COUNT(DISTINCT user_id) AS "用户总数量" FROM sessions; #133302 SELECT COUNT(*) AS "活跃用户总数量" FROM ( SELECT user_id FROM sessions GROUP BY user_id HAVING COUNT(user_id) >= 10 ) active; #注册用户数:train_users 和 sessions表关联 SELECT COUNT(*) AS "注册用户数" FROM train_users WHERE id IN (SELECT DISTINCT user_id FROM sessions) ; #73372 #下单用户数统计 SELECT COUNT(*) AS ‘下单用户总数量’ FROM ( SELECT user_id FROM sessions WHERE action_detail = 'reservations' GROUP BY user_id ) booking; #支付用户数量 SELECT COUNT(*) AS ‘实际支付用户总数量’ FROM ( SELECT user_id FROM sessions WHERE action_detail = 'payment_instruments' GROUP BY user_id ) payed; #复购用户数量 SELECT COUNT(*) AS ‘复购用户总数量’ FROM ( SELECT user_id FROM sessions WHERE action_detail = 'reservations' GROUP BY user_id HAVING COUNT(user_id) >= 2 ) re_booking; 可以发发现: (1)爱彼迎用户行为转化流失率最大的环节是用户注册到用户下单,仅仅14%的注册用户下单。占总体用户的7%左右。 (2)支付用户和回购用户的转化率都比较高,说明爱彼迎的产品和服务让用户满意 六、结论和建议 (1)用户画像方面 爱彼迎男女用户群均衡,男性用户略多余女性用户,用户年龄集中在25-45之间,建议针对这部分用户群进行研究,投放推荐广告内容。 (2)推广渠道方面
(3)用户行为转化方面 爱彼迎用户行为转化流失率最大的环节是用户注册到用户下单,仅仅14%的注册用户下单。占总体用户的7%左右。例如针对活跃用户的用户轨迹定期推送优质房源,此外提高下单转化率是一项长期工作、需要结合多种策略并行。 (2)支付用户和回购用户的转化率都比较高,说明爱彼迎的产品和服务让用户满意。建议进行用户调研、或者在产品上统计用户未支付原因。 -------------------------------------结束---------------------------------------------- |