本发明涉及智能交通数据分析领域,具体涉及一种共享单车特征分析及需求点精准识别方法。
背景技术:
1、城市出行的“最后一公里”解决方案,往往借助自行车共享系统完成,早期的定点公共自行车,再到如今停放限制放宽的共享单车,给市民的出行带来了方便。但随着共享单车系统在城市内扩张,地区之间单车供需不平衡的情况也开始显现。仅通过城市交通数据后台,借助人力分析调整地区自行车供给、从服务端调控交通工具等粗放优化方式,难以应对市民灵活多变的出行需求以及频繁更新的实时地区共享单车需求程度,
2、目前,已有的共享单车调度策略,多数基于行政区和地图软件中的城市编码获取poi数据进行需求分析和单车分配工作。在这一过程中,因不同市民骑行习惯、单车个体异常情况等因素,会出现扰乱正常需求分析的异常、冗余数据,缺乏进一步的数据筛选处理,最终获取的共享单车调度策略,也会因此缺少准确性与参考性,给市民生活和交通运转带来不便。
技术实现思路
1、发明目的:针对背景技术中提出的问题,本发明提供了一种共享单车特征分析及需求点精准识别方法,利用kdtree识别出需求点,不断清洗异常点、离群点,最后识别出需求重心,用k函数来确保清洗过程所有的数据都符合集聚特征,并通过arcgis筛除离群数据得出最终需求点数据,优化共享单车调度方案。
2、技术方案:本发明公开一种共享单车特征分析及需求点精准识别方法,所述方法包括如下步骤:
3、步骤一:获取行政区划边界数据及高德地图amap_adcode_citycode城市编码表;
4、步骤二:基于行政区和城市编码确定所需兴趣点poi数据,并通过高德api爬取目标城市的poi数据;
5、步骤三:利用开源python数据分析库pandas针对共享单车订单出行重构出行链,同时对poi数据进行快速预处理,以去除冗余和错误数据;
6、步骤四:针对共享单车轨迹数据包括骑行距离分析、骑行次数分析、间隔时长分析、tob分析及对应的核密度计算处理得出结果数据,清洗异常数据;
7、如判断骑行距离小于一百米且在短时间内经历多次开关锁的单车id,确认其属于异常数据后进行筛除,此过程中需要确保单车状态呈现停车、骑行交替变化;
8、步骤五:采用kdtree对poi数据中的交通设施服务类点数据建立空间索引,并识别其衔接范围内的需求点;
9、步骤六:利用ripley's k函数进一步确定近邻点的集聚特征,筛选符合集聚特征的点群,判断其为目标点的近邻需求点;
10、步骤七:通过arcgis使用sdsea工具精细区分需求点重心,有效减少离群数据对需求重心的干扰,进行优化调度方案的判定。
11、进一步地,基于获取的行政区划边界数据,利用arcgis专业软件对其进行包括重复点剔除、异常点筛选以及坐标纠偏操作。
12、进一步地,依托包括高德api、目标城市编码,通过python爬虫爬取至少两年的poi数据。
13、进一步地,所述步骤三中利用pandas针对共享单车订单数据重构出行链、剔除非研究区域内数据、剔除重复轨迹数据以及骑行与停车状态异常数据。
14、进一步地,所述步骤五中交通设施服务类点数据来源于经过pandas数据分析包处理的共享单车出行链,提取单车的停车状态后,围绕目标poi建立二维树,依次插入停车状态的点来建立空间索引;kdtree会对点进行排序后再完成树的构建,其复杂度区间介于[o(log2 n),o(n)]之间。对poi数据中的交通设施服务类点坐标建立dataframe_a,提取出行链中停车状态并将对应id的经纬度坐标建立dataframe_b,利用kdtree对dataframe_a建立空间索引,逐行匹配dataframe_b并提取对应的最近点。
15、进一步地,基于ripley's k函数对目标点群进行聚类分析,确保所用点群具有集聚特征,ripley's k函数通过比较观测数据和随机分布的期望频率,可以推断两个点集之间是否存在空间关联。
16、变换l(d)公式如下:
17、
18、其中a表示区域,n表示点数,d表示距离而k(i,j)表示权重,当i和j之间的距离小于或等于d时,如果无边界校正,权重为1,当i和j之间的距离大于d时,权重为0,校正后k(i,j)的权重略有变化;
19、结果输出中所包含的expectedk与observedk分别为k预期值和k观测值,diffk则是k观测值与k预期值的差值,由于应用了l(d)变换,因此expectedk值始终与距离值相匹配。
20、进一步地,依据步骤五的清洗结果,对sdsea算法获取的范围内实际占比67.9%的需求点进行掩膜提取,对范围内的数据再次进行核密度分析,相较于未进行sdsea处理的原数据集(a),此时它的密度重心在保持连续性情况进一步集中,此时的密度重心已经极少受到离群点的干扰,其表达为核心需求的重心点。
21、有益效果:
22、1.本发明基于poi数据,相较于常规粗放优化方式,能够在排除异常数据干扰的情况下,更准确识别共享单车特征和需求点,为城市管理和相关交通部门提供数据参照进行决策。
23、2.本发明在精确识别共享单车特征和需求点的同时,以较低复杂度的优化方式进行,在相同计算和内存资源条件下,能够更加快速,准确的处理更多数据,提高了经济性;尤其是针对较为发达的省市或地区,共享单车流动数据更加庞大,低复杂度的优化方式能进一步提高数据处理效率。
24、3.本发明将pandas数据库和arcgis与poi数据结合,通过k维数算法以复杂度区间为[o(log2n),o(n)]进行需求点识别,相较于当前投放模式,能够更加精确的显示共享单车使用热点区域,并且通过pandas数据库对所得需求点进行二次特征分析,清洗离群数据,进一步筛选。
25、4.本发明通过arcgis采用ripley's k函数确保各需求点集的集聚特征,依次利用sdsea提取核心需求点,识别核心需求的重心并生成最优扩散,从而为共享单车调度的动态时空交互策略提高依据,就提高共享单车利用率产生积极作用。
1.一种共享单车特征分析及需求点精准识别方法,其特征在于,所述方法包括如下步骤:
2.根据权利要求1所述的一种共享单车特征分析及需求点精准识别方法,其特征在于,基于获取的行政区划边界数据,利用arcgis专业软件对其进行包括重复点剔除、异常点筛选以及坐标纠偏操作。
3.根据权利要求1所述的一种共享单车特征分析及需求点精准识别方法,其特征在于,依托包括高德api、目标城市编码,通过python爬虫爬取至少两年的poi数据。
4.根据权利要求1所述的一种共享单车特征分析及需求点精准识别方法,其特征在于,所述步骤三中利用pandas针对共享单车订单数据重构出行链、剔除非研究区域内数据、剔除重复轨迹数据以及骑行与停车状态异常数据,在出行链完整状态下提取共享单车的停车状态数据。
5.根据权利要求1所述的一种共享单车特征分析及需求点精准识别方法,其特征在于,所述步骤五中交通设施服务类点数据来源于经过pandas数据分析包处理的共享单车出行链,提取单车的停车状态后,围绕目标poi建立二维树,依次插入停车状态的点来建立空间索引;kdtree会对点进行排序后再完成树的构建,其复杂度区间介于[o(log2n),o(n)]之间,对poi数据中的交通设施服务类点坐标建立dataframe_a,提取出行链中停车状态并将对应id的经纬度坐标建立dataframe_b,利用kdtree对dataframe_a建立空间索引,逐行匹配dataframe_b并提取对应的最近点。
6.根据权利要求1所述的一种共享单车特征分析及需求点精准识别方法,其特征在于,所述步骤六中基于ripley's k函数对目标点群进行聚类分析,确保所用点群具有集聚特征,ripley's k函数通过比较观测数据和随机分布的期望频率,可以推断两个点集之间是否存在空间关联;
7.根据权利要求1所述的一种共享单车特征分析及需求点精准识别方法,其特征在于,依据步骤五的清洗结果,对sdsea算法获取的范围内实际占比67.9%的需求点进行掩膜提取,对范围内的数据再次进行核密度分析,此时它的密度重心在保持连续性情况进一步集中,此时的密度重心已经极少受到离群点的干扰,其表达为核心需求的重心点。