AI带你省钱旅游!精准预测民宿房源价格!


AI带你省钱旅游!精准预测民宿房源价格!

文章插图
作者:韩信子@ShowMeAI 数据分析实战系列:https://www.showmeai.tech/tutorials/40 机器学习实战系列:https://www.showmeai.tech/tutorials/41 本文地址:https://www.showmeai.tech/article-detail/316 声明:版权所有,转载请联系平台与作者并注明出处 收藏ShowMeAI查看更多精彩内容

AI带你省钱旅游!精准预测民宿房源价格!

文章插图
大家出去旅游最关心的问题之一就是住宿 , 在国外以 Airbnb 为代表的民宿互联网模式彻底改变了酒店业,很多游客更喜欢预订 Airbnb 而不是酒店,而在国内的美团飞猪等平台 , 也有大量的民宿入驻 。
在现在这个信息透明开放的互联网时代,我们能否收集数据信息,开发一个机器学习模型来预测房源价格 , 为自己的出行提供更智能化的信息呢?肯定是可以的,下面ShowMeAI以Airbnb在大曼彻斯特地区的房源数据为例(截至 2022 年 3 月) , 来演示数据分析与挖掘建模的全过程,同样的方法模式可以应用在大家熟悉的国内平台上 。
AI带你省钱旅游!精准预测民宿房源价格!

文章插图
下面的项目业务和 Airbnb民宿数据 来源于 Inside Airbnb , 包含有关 Airbnb 对住宅社区影响的数据和宣传 。数据源可以在上述链接中获取,大家也可以访问ShowMeAI的百度网盘地址,获取我们为大家存储好的项目数据 。
实战数据集下载(百度网盘):公众号『ShowMeAI研究中心』回复『实战』,或者点击 这里 获取本文 [22]基于Airbnb数据的民宿房价预测模型 『Airbnb民宿数据』
ShowMeAI官方GitHub:https://github.com/ShowMeAI-Hub
业务问题一般我们需要在开始挖掘和建模之前,深入了解我们的业务场景和数据情况,我们先总结了一些在这个业务场景下我们关心的一些业务问题,我们将通过数据分析挖掘来完成这些业务问题的理解 。
  • 哪些地区或城镇的 Airbnb 房源最多?
  • 最受欢迎的房型是什么?
  • 大曼彻斯特地区的 Airbnb 房源价格特点是什么?
  • 房源与房东的分布情况?
  • 大曼彻斯特地区有哪些房型可供选择?
  • 机器学习模型预测该地区 Airbnb 房源价格的思路是什么样的?
  • 在预测大曼彻斯特地区 Airbnb 房源的价格时,哪些特征更重要?
数据读取与初探我们先导入本次需要使用到的分析挖掘与建模工具库
import numpy as npimport pandas as pdfrom tqdm.notebook import tqdm, trangeimport seaborn as sbimport matplotlib.pyplot as plt%matplotlib inlinefrom sklearn.linear_model import LinearRegressionfrom sklearn.linear_model import Lassofrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import r2_score, mean_squared_errorfrom sklearn.preprocessing import StandardScalerimport statsmodels.api as smfrom sklearn.ensemble import RandomForestRegressorfrom sklearn.model_selection import GridSearchCVfrom sklearn.pipeline import Pipeline, FeatureUnionfrom sklearn.feature_selection import SelectFromModelfrom sklearn.ensemble import GradientBoostingRegressorfrom statsmodels.stats.outliers_influence import variance_inflation_factorfrom sklearn.inspection import permutation_importancepd.set_option('display.max_columns', None)pd.set_option('display.max_rows', None)接下来我们读取大曼彻斯特地区的房源数据
gm_listings = pd.read_csv('gm_listings-2.csv')gm_calendar = pd.read_csv('calendar-2.csv')gm_reviews = pd.read_csv('reviews-2.csv')查看数据的基础信息如下
gm_listings.head()
AI带你省钱旅游!精准预测民宿房源价格!

文章插图
gm_listings.shape# (3584, 74)gm_listings.columns
AI带你省钱旅游!精准预测民宿房源价格!

文章插图
gm_calendar.head()
AI带你省钱旅游!精准预测民宿房源价格!

文章插图
gm_reviews.head()
AI带你省钱旅游!精准预测民宿房源价格!

文章插图
我们对数据的初览可以看到,大曼彻斯特地区的房源数据集包含 3584 行和 78 列,包含有关房东、房源类型、区域和评级的信息 。
数据清洗
AI带你省钱旅游!精准预测民宿房源价格!

文章插图
数据清洗是机器学习建模应用的【特征工程】阶段的核心步骤,它涉及的方法技能欢迎大家查阅ShowMeAI对应的教程文章,快学快用 。