城市公共自行车服务系统数学建模

更新时间:2023-04-15 04:16:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

城市公共自行车服务系统运行状况和效率分析

——基于温州市鹿城区公共自行车系统运营实践的研究

摘要

本文基于温州市鹿城区公共自行车系统的20天内借车和还车原始数据,构建模型对公共自行车的使用频次分布、供求状况和自行车租赁的站点位置特征进行了分析,进而探讨了公共自行车系统的有效性,挖掘其背后的系统运行规律和机理,并分析了这一系统的其他特征,如潮汐现象等,最终建立在长期可持续发展的基础上提出解决方案。

针对累计借还车频次、各日借车卡数量和累计借车次数分布的计算,我们主要采用MATLAB遍历过所有数据并进行统计运算,得到累积分布结果的二维直方图,采用拟合的方法得到其近似分布。我们还构建了自行车用户群体的效用函数模型,探讨高于某一保留效用阈值的城市居民采用公共自行车出行偏好程度。发现用户选择公共自行车出行的效用函数关于出行时间的变化近似为一个矩形脉冲函数,其拐点约为28分钟。当出行时间少于28分钟时,用户更倾向于选择公共自行车出行;在28分钟之后,用户倾向于选择其他的交通工具,仅在随机因素的作用下选择公共自行车。

在公共自行车服务系统站点设置和锁桩数量的配置的分析中,我们在鹿城区公共自行车管理中心网站上找到每个自行车站点的位置,在电子地图服务提供商网站上查询出该站点位置的坐标。对于距离的界定,我们采用欧氏距离、直角距离和地图实际距离三种方法度量站点间距。第三种方法较为精确,我们采用颜色替换,形态学处理,道路生长细化的方法客服了第三种方法的度量困难,最终获得城市道路信息,用于两地之间的实际道路路径求取。

我们将一天中的24小时划分成以0.2小时为间隔的若干时段,分别统计落入每个时段的借还车频次,即可用来反映借还车频次时刻分布,我们发现许多站点都存在较明显的早晚高峰现象,反推出的效用函数具有稳定性和可靠性,表明我们的研究是可信的。在峰值的搜寻中,我们借助MATLAB使用均值滤波的方法减弱随机因素造成的影响, 对站点的借还车高峰时刻进行统计。通过计算等效时间峰值统一不同站点的时间峰值维数,然后采用K-means算法进行聚类分析,从而根据借还车高峰时刻对站点进行了归类。

基于上述初步结果,我们提取了数据中蕴含的信息,进而对鹿城区的公共自行车系统配置效率和运营状况进行分析和评价。我们发现,公共自行车系统存在明显的“潮汐现象”,在高峰时段可能有供不应求的问题,亟需建立良好的调度系统已平衡供求关系。我们拓展了前面的研究,从站点选址的社会福利优化问题以及合理的配套调度机制设计几个角度进一步分析了公共自行车服务系统的运行规律,并提出了相应的改进建议。

关键词:公共自行车效用函数分布估计统计分析聚类分析

1

2

一 问题提出

1.1 题目背景与研究意义

在倡导健康、节能、环保的生活理念的今天,公共自行车得到了越来越多城市居民的青睐,在国内掀起了一场“绿色革命”[1]。作为同城短区间非机动载人设备,公共自行车是具有可持续发展性的重要代步手段,日益成为人们生活中不可或缺和替代的主要交通工具之一。作为公共交通末端交通工具的公共自行车不仅弥补了公共交通线网密度不足的缺陷,而且向公共交通提供客源,如图1所示。我国现已有众多城市主动将自行车纳入公共交通领域,意图让公共自行车交通与公共交通实现无缝对接,破解交通末端“最后一公里“难题,实现低碳出行,美化城市。

随着公共自行车的普及使用, 如何构建合理、高效的公共自行车服务系统是一个非常关键的问题。自行车租赁的站点位置及各站点自行车锁桩和自行车数量的配置,对系统的运行效率与用户的满意度有重要的影响。浙江省温州市鹿城区公共自行车系统的数据能够为我们的机制设计提供参考。根据温州市鹿城区公共自行车管理中心网站(32db5f54f12d2af90242e685 )提供的数据,鹿城公共自行车的投放量约为5000辆,设立180个服务网点。启动当天,首先在五马街区和新城街区推出80个服务网点,其余100个服务网点计划在10月设立。服务网点主要位于机关、企事业单位、商业楼宇、公共场所、住宅小区等人员密集地区,间距一般在300米至500米[2]。

本文试图基于温州市的地形环境和公共自行车站点建设的现有情况,构建数学模型探讨温州市市民公共自行车的使用水平和分布规律,并对城市自行车服务系统进行评价。目前,我国公共自行车的系统建设尚处于初步阶段,我们的研究不仅针对特定城市的公共自行车系统进行了系统性分析,而且能够为全国其他城市的公共自行车系统优化建设提供参考。

图1

:城市公共自行车系统

1.2 问题重述

借助鹿城区公共自行车客流数据和站点分布图,本文试图解决以下几个问题:

首先,分析公共自行车的使用频度和每次使用的时长:我们统计各站点20天中每天及累计的借车频次和还车频次,并对所有站点按累计的借车频次和还车频次分别给出它们的排序,并统计分析每次用车时长的分布情况。

其次,基于借车卡数据对使用主体区分,统计20天中各天使用公共自行车的不同借车卡(即借车人)数量,并统计数据中出现过的每张借车卡累计借车次数的分布情况。

然后,我们试图寻找所有已给站点合计使用公共自行车次数最多的一天,并按照以下几个角度探讨站点客流量特点和规律:

1)我们合理界定两站点之间的距离,在此基础上找出自行车用车的借还车站点之

间(非零)最短距离与最长距离,对借还车是同一站点且使用时间在1分钟以

上的借还车情况进行统计。

2)我们选择借车频次最高和还车频次最高的站点,分别统计分析其借、还车时刻

的分布及用车时长的分布。

3)寻找各站点的借车高峰时段和还车高峰时段,在给出的温州市鹿城区地图上标

注或列表给出高峰时段各站点的借车频次和还车频次,并对具有共同借车高峰

时段和还车高峰时段的站点分别进行归类。

进而建立在前面分析的基础上,我们探讨上述统计结果携带了哪些有用的信息,并由此对目前公共自行车服务系统站点设置和锁桩数量的配置做出评价。

最后,我们试图找出公共自行车服务系统的其他运行规律,提出改进建议。

二问题分析

城市公共自行车系统是一个复杂的系统,“牵一发而动全身”,其机制的设计和模式的优化是城市公共基础设施建设服务的核心。在这一部分中,我们对要解决的问题进行梳理整合,为后文的研究构建逻辑架构。

2.1 基本思路

针对本文的几个关键问题点,我们首先从数据出发,通过对公共自行车使用频率和时长的数据观察统计,分析其中规律,进而采用效用函数合理刻画用户需求和选择模式,合理预测出行时间,建立模型刻画用户偏好。然后我们采用题目中给定的地图,借助电子地图寻找借还车频次高峰,并基于数据和初步结论探索最后的开放式问题——公共自行车系统的运行规律和政策建议。

2.2 具体分析

我们首先进行数据的预处理,利用Matlab导入数据,对数据进行整合,剔除异常值和缺漏值,得到用于分析的样本数据。我们分以下几个步骤解决:

1)针对问题一,即计算公共自行车的使用频度和每次使用的时长,我们遍历过所

3

4 有数据之后,即可以得到各站点每天的借车还车频次的统计数据。对每个站点的全部20天的借车与还车数据分别求和,既可以得到每个站点的累计借车与还车频次。用还车时间减去借车时间可以得到用户的用车时间,精确到秒。

2) 利用用户效用函数来刻画用户的选择行为,建立自行车出行时间分布的效用函

数模型。求解效用函数模型的具体形式,对用户群体的偏好特征进行分析。

3) 针对问题二,我们按照借车卡区分不同用户个体,对用户群体的需求模式进行

探索,方法类同问题一。通过累计各个借车人在20日中累计借车次数,我们做出频率分布图,拟合得到借车频次的近似分布特征。

4) 针对问题三,共有三种方法界定站点距离——欧式距离,直角距离和实际地图

距离,我们可以分别用三种方法求解。第三种方法最为精确,但实现难度较大,我们尝试采用MATLAB 画图的方法,利用题目给出的地图计算实际距离。在此基础上,寻找借还车频次高峰,并对站点位置、锁桩数量的优劣进行评价。

5) 第四、第五问要求我们发散思维,寻找数据背后的运行规律,我们建立在数据

特征的基础上,进一步挖掘公共自行车系统的运行特点,并回顾和借鉴了一些现有研究的方法,最终提出政策建议。

三 基本假设

H3.1:假设该城区所有的用户都是同质的,即有相同的效用函数。由于生活地理位置和风俗人情接近,影响出行状况的外界不可抗因素相近,这一假设比较合理,并可以简化我们的分析。当用户同质时,我们可以采用代表性用户的效用函数完成推导过程。 H3.2:不同用户出行需求不同,我们假设用户需要出行的时长(T )近似服从指数分布。 H3.3:假设公共自行车站点设置在研究时间区间内没有明显变更,借车站点序号没有较大的变化,我们可以在一个相对静态的公共自行车硬件系统环境下进行分析。

四 符号说明

符号

意义 []m n ij a ?=A 第i 个站点第j 天的借车次数

[]m n ij b ?=B 第i 个站点第j 天的还车次数

m 站点数目的最大值

n 天数的最大值

0i a 第i 个站点的累计借车频次

0i b

第i 个站点的累计还车频次

5

五 数据预处理

分析发现公共自行车系统的数据记录中存在错误的数据记录。因此,在对系统使用情况进行统计分析之前,首先要对数据进行预处理,以去除这些错误数据。分析发现,数据记录错误的形式包括以下几种:

1) 借车站点序号错误,例如2012年11月8日的序号为No.16548的记录,借

车站点为“调试站1”,站点序号为1000;

2) 还车站点序号错误,例如2012年11月8日的序号为No.30983的记录,还

车站点名称为空白,站点序号为29999;

3) 借还车时间错误,例如2012年11月8日的序号为No.30983的记录,借车

时间为“2012/11/5 17:50:07”,还车时间为“2012/11/5”,还车时间只有日期没

有时刻;

4) 用车时间间隔错误,例如2012年11月5日的序号为No.19436的记录,借

车时间为“2012/11/5 14:24:43”,还车时间“2012/11/5 14:31:23”,实际用车时

间为6分40秒,记录用车时间为0分钟。

综上所述,制定筛选条件对错误数据进行滤除。正确的数据需要满足的条件为:

1) 借车站点序号小于1000;

2) 还车站点序号小于1000;

3) 借还车时间格式正确,且还车时间晚于借车时间;

4) 还车时间减去借车时间所得到的时间间隔(精确到秒)与记录中的时间间隔

的误差小于2分钟。

我们使用MATLAB 导入数据,并编写程序根据上述条件对全部20天的数据记录进行筛选,最终得到一共637336条记录,其中借车时间范围为2012/11/1 5:59:38至2012/11/20 21:33:57,还车时间范围为2012/11/1 6:02:12至2012/11/21 7:37:20。数据一共有180个借车站点,站点序号分别为1~107,109~181;180个还车站点,序号范围和借车站点相同。

六 公共自行车总体使用情况统计分析

6.1借车还车频次统计

针对导入的数据,使用MATLAB 编写程序对各站点每天的借车还车频次进行统计,并分别使用矩阵[],[],1,2,,,1,2,,m n ij m n ij a b i m j n ??====A B 来表示借车频次和还车频次的统计结果。其中ij a 表示第i 个站点第j 天的借车次数,ij b 表示第i 个站点第j 天的

T 用户需要出行的时长 ()U t 用户自行车出行的效用 ()Q x 标准正态分布的累计分布函数

6

还车次数。m 和n 分别表示站点数目的最大值和天数的最大值,根据数据记录的范围,分别取181,20m n ==。

程序初始化后建立m n ?A 和m n ?A 两个矩阵并把它们置为零矩阵。程序遍历所有数据记录,读取每一条数据记录之后,都对该条数据记录中借车日期、借车站点、还车日期、还车站点所对应的矩阵中的元素加1。遍历过所有数据,即得到各站点每天的借车还车频次的统计数据。对每个站点的全部20天的借车与还车数据分别求和,可得每个站点的累计与还车频次,第i 个站点的累计借车与还车频次分别用0i a 和0i b 来表示,显然有:

0101

n

i ij

j n i ij

j a a b b ====∑∑ (6.1)

各个站点的每天与累计借车与还车频次如表1和表2所示,限于篇幅,表1和表2中仅列出了前10个站点前10天的借还车频次以及累计频次,完整的数据请参见附录。

表1:各个站点的每天与累计借车频次(部分) 站点

1

i a

2

i a

3

i a

4

i a

5

i a

6

i a

7

i a

8

i a

9

i a

10

i a

累计

1 91 148 35 15

2 124 107 88 15 9 6 1760 2 114 112 25 82 135 135 120 41 21 15 1744

3 179 188 47 60 19

4 189 189 73 6

5 13 2672 4 235 28

6 86 255 243 322 259 112 65 66 5232 5 139 165 6

7 167 161 164 16

8 53 33 16 2412 6 105 100 50 102 117 118 134 47 1

9 13 1760 7 106 109 14 55 143 137 157 34 35 5 1675 8 95 80 15 47 106 116 114 36 41 10 1533 9 353 365 177 303 400 460 393 167 124 86 6483 10

354 359 198 311 366 334 376 165 82

53

5821

表2:各个站点的每天与累计还车频次(部分)

站点

1

i a

2

i a

3

i a

4

i a

5

i a

6

i a

7

i a

8

i a

9

i a

10

i a

累计

1 93 145 48 167 116 103 98 23 11 4 1821

2 117 110 27 88 125 136 127 5

3 22 16 1811 3 176 193 65 7

4 199 187 219 11

5 54 9 2915 4 224 297 108 283 242 310 297 115 87 61 5582 5 154 153 80 16

6 182 176 190 61 49 16 2613 6 112 9

7 41 116 119 119 132 56 33 15 1829 7 106 106 23 59 140 134 157 67 19 3 179

8 8 8

9 89 15 41 101 110 110 54 23 4 1478 9 334 351 171 315 408 447 400 178 121 72 6416 10

341 332 216 314 361

326 347 150 84

52

5741

对累计借车频次和还车频次进行排序,得到的结果如表3所示,表3中仅给出借车与还车频次最高的前10名站点,完整的排序结果见附录。

表3:站点的借还车频次排序

6.2用车时间的区间频次统计

用还车时间减去借车时间可以得到用户的用车时间,精确到秒。

我们首先分析用车时间的范围,通过统计全部637336条记录,发现最短用车时间为2秒,最长用车时间为6601.5分钟,即4天14小时1分30秒。我们采用t来表示用户的用车时间,以100分钟为间隔首先初步统计各用车时间区间内的用车频次,如表4所示。

表4:用车时间的区间频次统计

t区

+∞

间[0,100)[100,200)[200,300)[300,400)…[6500,6600)[6600,)

频率0.9967 0.9992 0.9996 0.9998 … 1.0000 1

从表4中可以看出,虽然用车时间的范围较大,但是200

t<所占的比例为0.9992,说明绝大多数用车时间小于200分钟。因此我们只对用车时间小于200分钟的情况进行统计。此外,用车时间小于1分钟的情况通常为用户在同一站点迅速借车并还车,和用户真正使用公共自行车的情况不同,因此1

t<的情况也不予统计。

统计用户用车的时间得到用户用车时间的均值为15.5907分钟,标准差为11.6429分钟。以1分钟为单位统计用户用车时间的频次,得到图2。观察图2可以发现,当用车时间较短的时候,用户用车的频次随时间的增长而增长,在约8分钟左右达到最大值,20天内约有3.5万次借车时间为8分钟,之后用户用车的频次随时间的增加而减少。为了定量刻画用户用车时间的分布以及分布产生的机理,我们构建了一个效用函数模型,如6.3节所示。

7

图2:用户用车时间的频次分布

6.3效用函数模型

公共自行车的推广主要针对的人群有三类:短距离出行者、长距离换乘出行者和非常规目的出行者等。短距离出行者具体是指在自行车的出行适宜的范围(5km)内,用公共自行车的单一交通方式完成的出行的,包括通勤、购物以及娱乐为目的的交通出行者。长距离换乘出行者指使用公共自行车作为公共交通的一个换乘工具的日常通勤者或者节假日出门娱乐、探访亲友或者购物的人群。非常规目的出行者是指以健身或者旅游为目的的出行者。

用户使用公共自行车出行与否显然和出行的时间相关,出行时间间接反映了出行距离的远近,自行车是一种人力驱动的出行交通工具,在短时间条件下,出行者体力充沛,其速度优势得到体现,但是在时间超过一定的程度,其速度优势就完全暴露。因此出行时间是自行车方式选择的重要因素。表8反映了统计资料中披露的部分城市自行车出行时耗分布。从表8来看自行车交通的出行时间大部分都控制在在30分钟以内。绝大部分城市自行车出行时间控制在20分钟以内的比例达到了60%以上,时间控制在30分钟以内的比例都达到了85%左右(郑州除外),出行时间超30分钟的出行比例较小,我们可以认为,自行车的最佳出行时耗在30分钟以内。[3]

8

9

表8:部分城市自行车出行时耗分布(%)1

出行时耗 <10min <20min <30min <40min <50min 统计年份 郑州 4.2 42.5 62.3 89.2 93.8 2000 苏州 18.4 62.7 81 87 94 2000 无锡 28.1 65.9 87.1 93.3 96.9 1996 常熟 40.2 80.8 95.6 96.8 97.7 2001 昆山

7.4

62.4

84.8

96.5

97.4

2001

我们构建了一个模型来描述用户用车时长的分布规律。我们假设用户需要出行的时长是一个随机变量,用T 来表示,并用()p T t =表示T 的概率密度函数。用户根据自己的出行需求选择要采用的交通工具。显然,用户选择出行交通工具需要考虑一些因素,例如出发起点、出发终点、出行距离、出行用时、出行时段以及交通路况、天气等一系列因素。用户会综合考虑这些因素以确定出行所采用的交通工具。

我们引入效用函数来描述用户选择自行车出行的偏好。效用函数是对用户使用公共自行车获得的综合收益的量化,显然,当收益较高的时候,用户更倾向于使用公共自行车。设用户采用公共自行车出行的效用函数为()U t ,则可以设用户使用公共自行车的条件1S 为效用函数大于某一阈值δ,这一阈值可以视为用户选择出行方式的保留效用。如式(6.2)所示:

1:()S U t δ>

(6.2)

由于除了t 之外其他因素也可能影响用户使用公共自行车的效用,所以()U t 应该是以t 为参数的随机变量。为了简化起见,设效用函数是和距离相关的确定部分()u t 与一随机变量的和,即

()()U t u t n =+

(6.3)

式(6.3)中,()u t 为t 的函数,n 是一个随机变量,用以刻画影响用户选择的随机因素。由于随机因素可以看成许多正、负的随机分布的综合效应,根据中心极限定理,我们可以假定n 服从正态分布,即2~(,)n N μσ。

将式(6.3)代入式(6.2)中可得

111100:():()():

:()0

S U t S u t n u t n S S u t n δδ

δμ

μ

σ

σ

>?+>-+-?+

>?+> (6.4)

其中,0()u t 和0n 分别为归一化之后的确定效用函数分量和随机效用函数分量,并且有0~(0,1)n N 。用随机变量Y 来表示用户使用公共自行车出行的用时。用户选用公共自

1

数据参见单晓峰(2007):城市自行车交通合理方式分担率及其路段资源配置研究,东南大学博士论文,2007

10

行车出行需要满足两个条件,第一,用户需要出行的时间达到一定水平;第二,在此基础上,并综合各种其他因素,用户最终选用公共自行车。因此,Y 的密度函数可以表示为:

1()()()p Y t p S p T t === (6.5)

由于0~(0,1)n N ,故0n 的概率密度函数为: 2

201()2x p n x e π-== (6.6)

把式(6.6)代入式(6.5)可得 202()1()()d 2x

u d p Y t p T t e x π+∞--===?? (6.7)

式(6.7)为使用公共自行车出行时间分布的效用函数模型。

6.4出行时间的效用函数模型求解

下面我们求解用户出行时间的效用函数模型,通过求解模型,可以解出效用函数的表达形式和用户出行时间的分布。设()Q x 为标准正态分布的累计分布函数,即

221()d 2s

x Q x e s π--∞

=? 根据对对称性我们可知

2020()1d (())2x u d e x Q u t π+∞--=?,则有: 0()()(())p Y t p T t Q u t ===?

(6.8) 解出0(())Q u t 可以表示为: 0()(())()p Y t Q u t p T t === (6.9)

由于0(())Q u t 为单调非减连续函数,我们必可以求解其反函数,从而解出用户的效用函数表达式: 10()()()p Y t u t Q p T t -??== ?=?? (6.10)

我们可以利用样本数据的统计结果近似代替Y 的分布,即用样本的出现的频率分布来代替随机变量的密度函数,如图1所示。因为数学期望在样本趋近于无穷大的时候收敛于数学期望,因此这种近似是有效的。

对于用户需要出行的时间T ,其分布是独立于该问题的,并且只要任给一个T 的分布就可以解出一个效用函数的表达式,T 分布的具体形式并不影响解决问题的方法的一般性。因此我们可以假设一种T 的分布。常识性的知识表明用户需要出行某一时间的概

11

率随时间的增加而下降,即用户有更大的可能在更近的范围内活动。因此不妨设T 服从指数分布,即T 的密度函数为:

()t p T t e λλ-== (6.11)

可以设1/100λ=。由于仅统计100分钟以内的出行时间,因此需要对T 的概率密度函数进行归一化,归一化之后概率密度函数如图3所示。

图3:用户需要出行的时间T 的密度函数

1()Q x -没有解析解,但是正态分布的累积分布函数有使用数值方法计算出的函数值表,可以使用反查该表的方法来得到1()Q x -,其函数图象如图4所示。

图4:正态累计分布的反函数1()Q x -的函数图象。

12 综上所述,将()p Y t =、()p T t =和1()Q x -的值代入式6.10,即可解得效用函数0()u t , 0()u t 的函数图象如图5所示。

图5:效用函数0()u t 的函数图象

从图5中可以看出,用户选择公共自行车出行的效用函数近似为一个矩形脉冲函数,其拐点约为28分钟。当出行时间小于28分钟时,用户更倾向于选择公共自行车出行;在28分钟之后,用户倾向于选择其他的交通工具,仅在随机因素的作用下选择公共自行车。

综上,即可用效用函数0()u t 以及式6.7来描述用户选择公共自行车出行时间的分布。

6.5 借车卡累计借车次数统计分析

在这一部分的分析中,我们按照借车卡区分不同用户个体,对用户群体的需求模式进行探索。根据温州市鹿城区借车卡办理方法规定,办卡采用实名制,一张借车卡,只能借一辆公共自行车。[2]因此我们假定用户和借车卡之间是一一对应的关系,即各位用户各采用一张借车卡。通过计算20天中各天使用公共自行车的不同借车卡(即借车人)数量,计算统计数据中出现过的每张借车卡累计借车次数的分布情况,我们可以看出借车人的偏好规律。

类似6.1部分中的分析,我们采用MATLAB 统计每日使用公共自行车的借车人数量,如表9所示:

表9:各天使用公共自行车的借车人数量

天数j

1 2 3 4 5 6 7 8 9 10 借车人数量

16840 17462 9671 14677 17985 18708 18887 10600 7038 4152 天数j

11 12 13 14 15 16 17 18 19 20 借车人数量

15097 18194 19531 19462 18673 11335 15412 15311 19188 20020

通过累计各个借车人在20日中累计借车次数,我们做出如下频率分布图:

图6:累计借车次数

横坐标表示各个借车卡累计借车次数,纵坐标表示各个次数出现的频数。从图6中

我们可以看到,大多数借车人的借车次数在30次以下,随着借车次数的逐渐增加,相

应借车次数的借车人数逐渐下降。我们依然采用简单统计方法分析各用车频次:

表10:累计借车次数的区间频次统计

次数区间[0,50) [50,100) [100,150) [150,200) [200,250) [250,300) [300,350) 累计频率0.978202 0.999295 0.99989 0.999956 0.999956 0.999978 0.999978 次数区间[350,400) [400,450) [450,500) [500,550) [550,600) [600,+∞)

累计频率0.999978 0.999978 0.999978 0.999978 0.999978 1

我们发现有离群值的存在,样本点99.2%的用户的借车次数都在100次以下,只有

极少数人超过100次,根据常识判断这些值可能是统计错误,我们作为异常值去除。观

察频数直方图,我们发现其分布近似于指数分布。基于这一假设,我们利用MATLAB

拟合,得到拟合图如图7所示:

13

图7:指数分布拟合图

从表11中可以看到,拟合结果良好,标准差0.065,表明指数分布能够较好地拟合该借车频数的累计概率分布。

表11:拟合结果

分布(Distribution): 指数分布(Exponential)

对数似然率(Log likelihood): -164938

区间(Domain): 0 <= y < Inf

均值(Mean): 13.9364

方差(Variance): 194.225

参数估计

系数估计值标准差

Parameter Estimate Std. Err.

mu 13.9364 0.0654207

参数估计协方差

Estimated covariance of parameter estimates:

mu 0.00427987

七地理信息数据的获取

7.1公共自行车站点的坐标信息

对城市公共自行车的空间使用情况进行统计,需要已知城市地理信息以及公共自行车站点的地理位置信息。题目附件2中给出的鹿城区公共自行车站点分布图,仅描述了自行车站点的分布,并没有每个自行车站点的具体坐标。我们在温州市鹿城区公共自行车管理中心网站上找到每个自行车站点的位置,再在电子地图服务提供商(例如谷歌地图)网站上查询出该站点位置的坐标[4]。为了表示方便,我们定义北纬28°2’17.68”,东

14

15

经120°38’19.13”,以正南为y 轴正方形,以正东为x 轴正方形,以1m 为单位建立直角坐标系。由于鹿城区面积较小,故可以不考虑地球曲率。将各站点的地理坐标映射到直角坐标系下,得到站点的坐标如表12所示,完整的表格参加附录中。

表12:公共自行车站点的坐标(部分)

站点序号

站点名称 y 刻度 x 刻度 1 科技馆 8114.064 4378.759 2 温州大剧院 8255.842 4209.716 3 吴桥路加油站 3838.912 3882.536 4 银泰百货 4515.084 2475.662 5 星河广场 2453.85 916.104 6 绣山卫生院 8539.398 3735.305 7 市政府西 7972.286 3713.493 8 市政府东 8217.671 3697.134 9 小南门立交桥 3718.946 2333.884 10 市九中

4340.588 1134.224 11 鹿城区审批中心 3528.091 3909.801 12 桥儿头公交站 5414.829 3511.732 13 公共自行车中心 3757.117

3740.758 14 南浦医院

5453 4209.716 15 温州建国医院对面 4596.879 5005.854 16 金色家园 4580.52 4187.904 17 区政府西 3549.903 1706.789 18 区政府东 3626.245 1706.789 19 开太百货 4324.229 2044.875 20

南浦桥

5529.342

3762.57

将这些公共自行车站点的坐标标记在地图上,如图8所示。

图8:公共自行车站点的在地图上的位置

7.2 城市道路地理信息

计算两个公共自行车站点时将会使用到城市道路信息。城市道路信息可以使用由现有的GIS信息,也可以通过图片格式的地图获得,使用图片格式的地图获得道路信息的方法主要包括颜色替换,形态学处理,道路生长细化等等,最终获得城市道路信息,用于两地之间的实际道路路径求取。颜色替换之后的城市地图如图9所示。

图9:经过颜色替换得到的包含道路信息的城市地图

八公共自行车时间、空间使用情况统计分析

8.1 站点距离的界定

对公共自行车站点的空间规划研究是建立在合理界定站点距离的基础上的。在本研究中,我们主要采用三种方法来对公用自行车站点间的距离进行刻画。

1)欧氏距离

度量地理空间中的距离最简单的方法是欧氏距离(Euclid Distance),也称欧几里得度量、欧几里得距离,它是在m维空间中两个点之间的真实距离。本研究基于鹿城区的城市交通地图,属于二维空间中的欧氏距离,即为两点之间的直线段距离。

2)直角边距离

我们注意到,欧氏距离虽然计算方法简单,但是不符合公共交通的一般特点。在城市规划和道路建设中,两个站点往往不能通过直线连接相互连通,因此,采用近似直角边距离和的方式近似求距离对现实的拟合度更高。但是,这种方法假设道路全部是“横平竖直”的,这也与实际有一定的差异,会存在计算偏差。

3)城市道路实际距离

这一方法建立在实际的城区道路网络基础上,衡量的是站点之间城市道路的真实距离,因此是最为精确的。其优点是对空间距离的衡量拟合度最高,但缺点是操作难度较大。

16

8.2 借/还车的最短距离和最长距离

分别统计每天所有站点的借车和还车频次,并将两者的加和最大的一天作为公共自行车使用最大的一天。经统计发现,2012年11月20日公共自行车的使用次数最大,借还总频次为84441次。本章以下问题均针对此日的数据进行讨论。

根据8.1节定义的距离计算方法,分别采用欧式距离法和直角边距离法计算各站点之间的距离。根据数据记录,有的站点之间没有连接,将这些没有连接站点之间的距离视为0。分别统计不同站点之间距离的最大距离,并对其进行排序,即可得到用车借还站点之间的最短距离和最长距离(非零距离,并且只统计时间在1分钟以上的借还车情况),如表13所示,完整的表格参见附录。

表13:借车站点的最近与最远还车站点及距离(部分)

8.3 借/还车频次最高站点

通过统计可知,2012年11月20日的借车频次最高的站点为42号站点,还车频次最高的站点为56号站点。对这两个站点统计借还车时刻分布以及用车时长分布。对于用车时刻,将一天中的24小时划分成以0.2小时为间隔的若干时段,分别统计落入每个时段的借还车频次,即可用来反映借还车的时刻分布,统计的结果如图10所示。

17

(a)(b)

图10:最大借还车站点的借还车频次时刻分布

通过观察可以发现,借还车的时刻分布呈现一定的分布规律,例如42号站点的借车频次在17:30分左右出现峰值,在峰值左右的频次大于其他部分的频次,说明在该时刻前后借车行为比较集中;56号站点的还车频次有两个峰值,分别出现在8:00和17:30左右,说明该站点在早晨和晚上都出现了还车比较集中的现象。

按照6.2节的方法来统计两个站点的用车时长,得到用车时长的分布如图11所示。根据6.3和6.4节的方法求解效用函数分布模型,得到的效用函数的图象如图12所示。

(a)(b)

图11:最大借还车站点的用户用车时长分布

18

(a)(b)

图12:最大借还车站点的用户用车效用函数

从图11和图12可以看出,42号和56号站点的用车时长分布以及用户选择公共自行车的效用函数与6.2和6.4节中的总体情况大致相同,说明效用函数模型具有较好的稳定性。

8.4 峰值搜索算法

由8.3的分析可知,图10中的借车与还车时刻分布具有一定的规律,表现为存在一定的显著高于平均值的高峰时段。我们希望找到每个站点的这些峰值的位置,用来评价公共自行车系统的运行状况。

峰值一定是频率密度函数的极大值,但是极大值并不一定是峰值。随机因素造成的波动同样可能在频率密度函数中产生极大值。可以使用均值滤波的方法减弱随机因素造成的影响。均值滤波即使用某一点附近的一个小区间内的点的平均值来代替这个点的数值。图13为借还车时刻频率密度函数均值滤波的效果。

图13:用车时刻分布频率密度函数的均值滤波效果

19

经过均值滤波之后,频率分布函数变得平滑了。对滤波之后的结果求极大值,定义当极大值大于整个取值范围的60%才为峰值时刻。当多个峰值之间的距离小于2个小时的时候,将它们视为同一个峰值,并用平均的时间代替峰值时间。使用MATLAB实现峰值搜素算法,其结果如图14所示。

图14:峰值搜索算法的运行结果

8.5用车高峰时段统计与归类

根据8.4节所述的峰值搜索算法对站点的借还车高峰时刻进行统计。得到各个站点的借车和还车高峰数据如表14所示,完整的表格见附表。

表14:各站点的借车和还车高峰时间表

站点序号借车高峰还车高峰

1 17:36, 20:36 19:23

2 8:12, 16:2

3 8:12, 15:35

3 17:11 8:12

4 7:48, 13:35, 14:23, 17:11, 19:11 9:12, 11:24, 12:47, 16:00, 17:36

5 17:11 10:12, 10:48, 18:00, 19:11, 19:48

6 8:12, 17:36, 18:36 17:23, 20:23

7 17:48 8:12

8 17:36 8:24

9 8:00, 13:47, 16:11, 17:48 8:24, 11:00, 15:47, 17:48

10 8:00, 15:24, 17:11 8:24, 17:23

11 17:11 8:12

12 7:48, 17:23 17:36

13 10:00 8:24, 10:00

20

21

14

7:48 7:48, 17:23 15

8:00, 10:36, 17:11 8:12, 17:23, 18:00 16

7:24, 12:35, 17:23 17:48 17

9:36, 17:23 8:12, 17:23 18

17:23 8:24, 17:23 19

8:00, 13:00, 15:35, 17:23, 19:23 8:24, 11:36, 12:23, 13:00, 15:47, 17:23, 19:11 20 8:00, 17:36 17:48

(续表)

8.6 高峰时段的聚类分析

可以使用聚类分析的方法对不同站点的高峰时段特征进行分类。聚类分析的思路是将参数空间中的点分成若干类,使得每类中的点的差异最小。经典的聚类方法如K-means 算法,通过构造一个类中心,通过不断迭代的方法改变类中心的距离以及分类结构,使得同一类中的点距离类中心的距离之和最小。

由于不同的站点具有的峰值数目不同,即所在的空间的维数不同,因而无法直接使用K-means 算法进行聚类,此时可以将不同峰值数目的点折算成具有相同数目的等效峰值的点。例如,设等效峰值数目为20个,对于不足20个峰值的站点,需要将一些峰值时间复制成若干个。峰值时间复制的数目与峰值频次的大小成正比。

经过折算之后,即可使用k-means 算法对20维等效峰值时刻空间进行聚类,使用欧式距离作为空间中点的距离,设置类数目为5个。得到结果后将同类的站点使用相同的颜色标记在地图上。借车站点高峰时刻聚类分析的结果如图15所示,还车站点高峰时刻聚类分析的结果如图16所示。

图15:借车站点高峰时刻聚类分析的结果

本文来源:https://www.bwwdw.com/article/pb9q.html

Top