毕业论文研究共享单车使用情况。我们想了解人们怎么使用共享单车。什么原因影响共享单车使用。我们选择城市交通数据。这些数据来自手机记录。数据包括骑行时间、骑行距离、用户年龄。数据也包括天气情况和节假日信息。我们收集三个月的数据。数据总量很大。我们需要先处理数据。数据中有一些错误记录。比如骑行时间为零。比如骑行距离异常。我们删除这些错误数据。我们补齐缺失的数据。我们使用平均值补齐。数据准备好后开始建模。
我们建立三个模型。第一个模型是线性回归模型。这个模型很简单。模型分析骑行次数和温度的关系。温度高骑行次数多。温度低骑行次数少。模型分析骑行次数和风速的关系。风大骑行次数少。风小骑行次数多。模型也分析时间的影响。工作日早晚高峰骑行多。周末中午骑行多。节假日骑行减少。模型给出数字结果。温度每升高一度骑行增加五次。风速每增大一级骑行减少三次。模型能解释一部分变化。
第二个模型是决策树模型。这个模型像一棵树。树有根有枝有叶。我们从根部开始。根部是所有骑行数据。我们问第一个问题。是不是工作日。回答是走左边。回答不是走右边。左边分支再问问题。是不是早晚高峰。右边分支问天气好不好。这样一直分下去。最后到达叶子。每个叶子代表一种情况。比如工作日晴天晚高峰。这种情况骑行量很大。比如周末雨天下午。这种情况骑行量很小。决策树模型很直观。我们可以看清楚逻辑。
第三个模型是随机森林模型。这个模型是许多决策树。我们建立一百棵决策树。每棵树用部分数据训练。每棵树考虑部分因素。训练完成后得到一片森林。新数据来了每棵树做判断。所有树投票决定结果。随机森林模型更准确。这个模型不容易出错。这个模型能处理复杂关系。
我们比较三个模型的结果。线性回归模型简单快速。这个模型容易理解。但这个模型不够精细。决策树模型展示详细规则。但这个模型可能记住噪音。随机森林模型表现最好。这个模型预测最接近真实值。我们选择随机森林模型做最后分析。
我们用模型回答研究问题。什么时间骑行最多。工作日早上八点骑行最多。人们骑单车去上班。人们骑单车去地铁站。晚上六点骑行也很多。人们下班回家。周末骑行时间不同。周末上午十点开始增多。下午三点达到高峰。人们骑单车去公园。人们骑单车去商场。
什么天气骑行最多。晴天骑行最多。温度二十度左右最舒服。这种天气骑行量很大。雨天骑行很少。大雨天几乎没人骑车。风的影响比较明显。四级以上风骑行减少一半。
什么人喜欢骑共享单车。年轻人骑行最多。二十岁到三十五岁是主要用户。这个群体经常使用单车。他们骑单车通勤。他们骑单车短途出行。四十岁以上用户较少。他们可能选择其他交通方式。
哪些区域单车使用频繁。地铁站周围单车使用多。人们骑单车到地铁站。人们从地铁站骑单车回家。办公区周围早上骑车人多。住宅区周围晚上骑车人多。商业区周末整天用车量大。公园景点周末下午用量大。
模型发现一些有趣现象。小雨天骑行减少不多。人们愿意冒小雨骑车。大风天比雨天影响更大。人们不喜欢逆风骑车。节假日景区单车不够用。平时这些车停在小区。调度共享单车很重要。早上需要把车调到地铁站。晚上需要把车调回小区。周末需要把车调到商圈。
我们根据模型提出建议。共享单车公司可以更好管理车辆。他们可以提前调配单车。天气好时多准备车辆。节假日加强景区车辆供应。政府可以更好规划自行车道。骑行多的路段需要更宽车道。地铁站需要更多停车点。城市交通可以更顺畅。
这项研究有一定价值。我们使用真实数据。我们建立实用模型。模型结果帮助理解出行行为。共享单车方便人们生活。共享单车缓解交通压力。更好管理共享单车有利于城市发展。
研究还有改进空间。数据只来自一个城市。不同城市可能不同。北方城市冬天骑行少。南方城市夏天骑行少。数据只包含三个月。更长时间数据更好。我们可以观察季节变化。模型可以考虑更多因素。比如地铁施工影响。比如新开商场影响。这些可以以后研究。
共享单车是城市一部分。人们已经习惯共享单车。研究共享单车就是研究城市生活。我们通过数据看到规律。这些规律帮助建设更好城市。每个人都是数据来源。每天骑行产生数据。数据告诉我们故事。模型帮助我们听懂故事。这就是研究的意义。