浙江预测拥堵准确率超90%,如何实现的?

理由
举报 取消

浙江交通用大数据预测未来哪堵车

浙江省交通运输厅正在开展一项新的试点:将高速历史数据、实时数据与路网状况结合,基于阿里云大数据计算能力,预测出未来1小时内的路况。结果显示,预测准确率稳定在91%以上。

做交通大数据的都知道,传统的未来路况预测都是基于历史数据,准确率不高。浙江是怎么做到91%的,难点在哪里?

2017年12月2日 10 条回复 1145 次浏览

发起人:Yichuan Zhang 初入职场

经济学

回复 ( 10 )

  1. 任志涛
    理由
    举报 取消

    前期接触过这个项目,根据自己的了解分享如下:

    先来一张浙江省高速公路运行评价分析系统的截图,有个直观的认识。

    (图片来自浙江交通运输厅分享的一个资料,如侵权请告知,马上删除)

    题主问的预测拥堵,应该就在这个系统中。

    根据公开的材料和阿里云闵万里的论文(算法主要基于这个论文:Real-time road traffic prediction with spatio-temporal correlations

    2、 历史数据分析

    要从数据库中把用上述方法纪录的各个路段的历史数据求个平均值

    3、昨天+今天=明天

    此前,很多预测都是基于历史平均数据。比如百度地图的这项功能:

    百度地图-实时路况

    对于实际应用,意义不大。

    浙江引入了对相关路段实时速度的分析。比如,要预测中关村南大街的车速,不仅要看这个路段的历史车速、实时车速,还要看首都体育馆南路、西直门外大街、学院南路甚至三里河路的实时车速,当然每个路段的影响系数不同(这里城市路网数据很重要)。

    其实,这个事情之前微软也做过,是联合巴西一所大学,准确率为80%。微软也公开表示希望在加入更多数据源后,将这一成绩提升到90%。

    Using Technology to Combat Traffic: ITE Projects

    区别上1、微软是和高校合作,交通数据估计有限 2、浙江的这个是基于阿里云,巴西的这个是基于Azure 。3、微软的算法不清楚,阿里云闵万里的论文中介绍的算法有很大创新

    至于云平台是否会带来差异,我并不清楚。闵说,浙江省内近1300公里的高速路段,阿里云的ODPS可以在20分钟完成历史数据分析,10秒钟完成实时数据分析。

    就酱紫

  2. xiaoxi zhang
    理由
    举报 取消

    转一个技术解读贴过来,这个项目的负责人闵万里博士在阿里技术分享论坛上发的,希望能为大家解疑。


    未来路况预测的理论及技术发展简介

    “互联网+交通, 物联网,大数据,云计算,数据科学, 智慧交通, 排堵保畅”,时下最火的词汇都投射在同一个项目中:浙江高速未来路况预测。

    最近阿里云与浙江省交通厅合作,在阿里云公有云上实现了未来高速路况实时预测系统, 提前预测未来5, 10,…., 60 分钟每个路段上的通行速度。自2015年9月底上线以来, 预测准确率保持在91%以上。项目公布后反响强烈,有不少人询问背后的技术细节。

    这是一个典型的从DS(Data Science) 到 DT(Data Technology) 再到DA (Data Application)的案例。从大家熟知的“实时路况”到 “未来路况”, 区区两字的差别看似微小,实则有多重技术挑战,最终得益于阿里云的计算能力及大数据应用算法能力。此文试图用浅显易懂的语言科普这个项目背后的理论技术及其历经十年的打磨过程。

    1:项目的初衷

    在阿里巴巴西溪园区工作的同学19:00下班前想知道 19:20 时刻文一西路/崇义路口是否拥堵?如果还是拥堵的话,就再加班晚点走吧。

    交通91.8 电台播报中河高架此刻拥堵,而正堵在中河高架上的司机无奈嘀咕道“不要你说我也知道现在堵,告诉我要堵到什么时候啊,美女主播!”

    类似的场景还有很多,而大家熟知的“实时路况”无法解决这些问题。 基于当前时刻的全网路况规划出行,隐含了一个很大的假定:路况将会固化在当前的状态不随时间演变。

    成语“刻舟求剑”每天都在被许多驾车的朋友演绎,就是因为缺少了未来路况的信息!

    有些同学会指出说路况预测功能在有些产品中都已经实现了,为什么还要炒冷饭?现有的路况预测“基于历史路况统计预测,仅供参考”。可是实际路况并不是严格按照历史经验规律的,各种突发事件,天气条件,及道路管制等措施都会使得今天的路况偏离历史经验规律。事实上数据已经表明尤其节假日的时候历史经验值不可靠。所以,这个项目的目标就是为用户打造一个“与时俱进”的未来路况预测。

    2:在线预测的整体流程

    1)实时路况采集:许多城市都有实时路况发布系统,数据源通常来自地感线圈,探头及浮动车。 但在城外的高速路上探头设备相对稀疏,这次项目中浙江省交通运输厅采用了手机信令的数据源,通过在手机基站之间的切换行为推断车流速度。

    2)交通状态实时监测:由于人们出行具有周期性(上下班高峰,周末/工作日),每个路段的路况通常会在几个不同状态之间周期性轮替。从实时路况数据可以检测各个路段当前处在什么交通状态, 针对不同的交通状态启用相对应的预测模型。

    3)未来路况在线预测:基于最近60分钟内的全网路况记录, 模型实时预测未来60分钟内各个路段的通行速度, 并且随着全网实时路况的变化同步刷新。

    在以上三个流程中:

    1) “实时路况采集”的最大挑战是手机信令数据的空间分辨率不足以及数据噪音大(很多非驾驶人员的手机数据)及流计算压力大。自2000年以来多个智能交通研究组克难攻坚突破了这个难题并且付诸使用。

    2) “交通状态实时检测”则是智能交通领域比较早突破并使用的技术。

    3) “未来路况在线预测”所用的模型则是本文介绍的重点。它集成了概率论,时间序列,拓扑学及分布式计算等多个学科, 前后经历了10年的时间铸造而成。

    3:预测模型的理论基础——数据流形 (Data Manifold)

    在路网上的车流就如同在自来水管道里的水, 都是网络流问题, 即:在一个相对固定的网络结构上的动态流。 统计学上比较相似的概念有 longitudinal data, spatial-temporal process, 区别在于网络几何结构决定了不同路段之间有相对固定的流向关系(有向图)。在每个路段上的观测值则是一个时间序列( 时间关联性 ), 而由于流向的关系决定了不同路段上的观测值之间有内在关联性( 空间关联性 )。为了区别longitudinal data, 笔者提出了 “数据流形” (data manifold) 的概念。要解析data manifold, 需要分解为两个逻辑上从外至内的串联问题 a) 与 b):

    a)解析空间关联性

    顾名思义, 解析manifold最重要的是局域空间的切向量(tangent vector)。即对任何给定的路段,需要判断与其有显著关联的路网局域范围。以图1 为例,在路段 i的观测量是时间序列 X{i,t},根据拓扑关系可以写出以下方程:

    图1:有向网络流的拓扑关系示意图。

    这里以第5个路段为中心构建的方程组为例,每个方程对应的就是一组切向量空间 (例如, 基于第一个方程选择的切向量空间就是有4,3,6(按公式中的顺序)号路段张成)。“≈” 而非严格的 “=” 则是因为有误差波动及行程时间滞后的影响。解析data manifold 的空间关联性就是要判断方程组中哪个方程更加“靠谱”。而如何衡量“靠谱”程度则需要从X{i,t} 时间序列特性着手,需要用到多维时间序列的最简约结构模型的判定方法, 参见笔者的论文【1】

    b)解析时间关联性

    上文所列举的方程组里每个系数,(α,β,γ)以及对应的 X{i,t} 时间序列的时间下标如何判定? 要解答这两个问题, 需要从时间关联性着手, 即指定路段上前后时间周期内观测值时间序列X{i,t}之间的关联性。 以图2为例, 有几个代表性的特征:

    周期性:整体曲线的走势在三周里明显相似(早晚高峰拥堵,周末相对畅行)。百度地图的路况预测“基于历史路况统计预测”其实就是利用这种周期性,但是没有考虑到下面的两个重要特性。

    差异性:在共同趋势的基础上,明显有一些尖峰参差不齐对应各种交通事件。

    方差变异性:车速曲线的波动幅度(方差)在一天中不同时间段有变化,这个现象在金融时间序列中非常普遍(conditional heteroscedasticity)。Robert Engle 教授(2003年诺贝尔经济学奖获得者)于 1982年提出“自回归条件异方差模型”(ARCH) 来描述方差变异的现象,参见论文【2】。

    图2:单个路段连续三周(3种颜色)的通行速度, 从周日至周六按照每5分钟统计。

    随后许多学者发现ARCH效应导致经典的ARIMA时间序列建模过程失效, 一些重要统计量的大样本分布性质也不清楚。笔者与导师在论文【1】中解决了这个问题,这个工作的核心理论则是笔者与导师在论文【3】中提出的“弱相依过程的样本统计量的渐进性分布特性”。【3】从经典概率论中的鞅差(Martingale Difference) 理论框架建立了相依过程的大样本不变原则(Invariance Principle), 颠覆了统治近50年的强混合理论(Strong Mixing)【4】,论文【3】也是随机过程期刊在2005~2010年间被引用次数前十名的论文之一。

    4:预测模型的技术演变

    2005的两篇论文【1】及【3】完成后笔者一直寻找应用场景。最开始应用在手机塔台网络的动态频率带宽分配上,帮助电信运营商优化不同地区的频率带宽分配从而提升通话质量, 降低通话断线的比例。这个应用场景对实时更新的速度要求不高, 因为频率带宽的分配方案是一个周期性非常强的缓变过程。但在2008年开始应用于道路路况预测试点的时候, 对实时性要求陡增。囿于机器性能的限制, 只能在很小的范围(新加坡的CBD 约506个路段)试测, 当时在不同等级的地面道路上预测准确率超过了85%,这是业界第一个能准确预测未来路况的实战系统。当时的科技媒体包括CNN, Yahoo都专题报道, 仿佛交通拥堵的顽症立马可解了。基于这个工作发表的论文【5】是交通研究期刊2010~2015年期间被引用次数最多的十篇论文之一,也有许多团队开始实现并改进这个论文的算法并且报导了十分乐观的结果。

    可是迄今为止, 还没有看到此类系统大规模的应用。根本原因还是在于实时在线预测模型部署在超大规模的网络上对计算性能要求非常高。

    2013年笔者发表论文【6】再次改进了预测模型,降低了计算的复杂度。2014年底,为“快的打车”建立智能推单模型上线后显著提升了订单满足率。这个项目切实证明了阿里云架构的计算能力,坚定了笔者的信心。阿里云交通云团队把在线预测模型进行了针对阿里云架构的改进,彻底突破了实时计算的压力。系统上线运行后成功经受住了国庆高峰期的考验。

    坚实的理论奠定好的模型,保证能“算得准”,而阿里云强大的计算能力保证 “算得快”,两者合力铸就了这次项目成功。

    5:未来展望

    从应用的角度看, “互联网+“ 给各行各业注入了新鲜的思维, 数据深度挖掘及应用需求随处可见。以交通行业为例:信号灯控制方案优化, 停车位预测, 人流集聚,专车动态匹配及定价等等。而“云计算+大数据”的搭配在各个垂直行业面临绝佳的机遇。

    从学术研究的角度看, Data Manifold 还有很多有趣的命题值得关注。 例如在Manifold上的随机采样试验设计(类似经典试验设计理论里的 Latin Hype Cube), 在Manifold 随机场条件下的路径规划(类似Dijkstra), Data Manifold上的充分统计量。

    参考文献

    【1】 Wanli Min and Ruey Tsay, “On Canonical Correlation Analysis of multivariate time series”, Statistica Sinica 15 (2005), 303-323

    【2】Robert F. Engle ,”Autoregressive Conditional Heteroscedasticity with Estimates of the Variance of United Kingdom Inflation”,Econometrica 50 (4): 987–1008. 1982.

    【3】 Wei Biao Wu and Wanli Min, “On linear processes with dependent innovations”, Stochastic Processes and their Applications, Volume 115, Issue 6, June 2005, Pages 939–958

    【4】M. Rosenblatt. “A central limit theorem and a strong mixing condition”, Proc. Natl. Acad. Sci. USA 42 (1956) 43-47.

    【5】 W Min and L Wynter, “Real-time road traffic prediction with spatio-temporal correlations”,Transportation Research Part C: Emerging Technologies 19 (4), 606-616,2011

    【6】S Chen, W Min and R Chen“ Model identification for time series with dependent innovations”,Statistica S

  3. 数据哥
    理由
    举报 取消

    谢邀!

    记得早上上班被堵在路上,91.8的播音员说:感觉整个城市的路网都打了死结。预测再准也是然并卵。

    回答作者说的难点,难点在于别的地方不是浙江!浙江有阿里,有政府的大力支持。

    可能关注阿里的人会留意到一个事情,阿里今年跟很多地方政府签署了合作协议,基本上都是围绕各种信息化展开的。要走出去,首先肯定得有样板工程吧!浙江自然就是这个样本,阿里在这方面肯定投入不少人力和财力(本观点无数据支撑,仅供参考。)此外,浙江省在信息化这块也得到政府的大力支持,比较有说服力的就是不久前的云栖大会上,浙江省和杭州市的政府都到场站台,这在别的城市应该是少有的吧!

    当然,作者的问题或许会倾向于技术方向。就是靠什么技术手段达到了这么高的准确率。我想说的是,有了阿里的站台和政府的支持,技术只是实现的一个路径。

    其实,别看浙江的预测这么准,杭州市的交通是全球最拥堵的城市之一,之前在市区上班,文一路教工路哪块经常全天候都是赌得一塌糊涂,早上上班高峰期也经常是到处都亮红灯。在城站和杭州东站打车更是让全国人民记忆深刻。

    OK打了那么多字,对大数据感兴趣的欢迎关注我们微信:idacker 其实,交通大数据理想很丰满,现实很骨感,路就那么宽,杭州那么多有车一族,能不堵么?话说杭州的公共自行车真心不错。

  4. 李莹
    理由
    举报 取消

    我知道用了手机信号来获取行车速度

  5. 沃利
    理由
    举报 取消

    手机信号是个好主意,但是怎么从运营商拿数据的呢?

  6. vince wang
    理由
    举报 取消

    其实每个路段的数值根据统计学大数定理,除去特定的节日活动什么的,基本就是一个定值, 常规工作日,休息日的车流量和周围的住宅商业环境有关.用电脑编个车流模型很容易就能模拟了.

  7. 粗人昆不辣的皮特
    理由
    举报 取消

    关键词 :

    历史数据、路网状况、

    云计算、大数据

    预测、准确率91%

    大家不要被忽悠了,放在阿里云上就是云计算?数据量大就是大数据?这都是两年前的招式了,不是这么个情况好么

    首先说实际情况:

    “交通数据是大数据”这个是业内一直在宣传的。交通行业当前实际情况 : IC卡,车辆位置数据、手机信令数据(还有一类因为不好落地),这三部分是大数据级别,这三类大数据量、低价值数据经过分析计算可以得到 车流OD、人流OD、路况三类结果数据。这三类数据可以用于 城市公共交通的分析决策、城市交通分析决策、以及城市交通预警;

    项目难点

    1、数据集成和汇聚:交通行业数据类多量大,尤其是实时数据,很难用数据集成工具保证效果;

    2、数据指标定义:解决数据标准不统一造成问题;

    3、数据计算模型:基于实时数据、生产数据、基础数据来得到某个指标,需要定义计算模型;

    4、数据计算架构:计算的整体架构需要良好的设计,可以保持灵活性、复用性。

    简单说一下效果

    预测是可行的,也肯定是不准的。达到91%可以说已经是国内很高的了。但这个准确的标准,不太好衡量。

    交通预测的变量很多。工作日还是周末、前后天气、季节、事件、等等太多变量,看了一下介绍,不太专业,估计其中有所保留,但其实也没多少秘密。

  8. 徐thomas
    理由
    举报 取消

    高速数据好弄 因为通道模型简单 只要有一个特征变量可以动态测量 且相对精确 结合高速公路特定路段关键节点位置的通过能力 是否会拥堵 简直一目了然 之前是盯着车 但不是每个车都动态可监视 换成手机就好多了 且误差小

  9. zhen-liang
    理由
    举报 取消

    做一次这种分析多少钱阿

  10. 匿名用户
    理由
    举报 取消

    这是我们行业的秘密,我一直在犹豫要不要说破,但是说破了会砸了自己的饭碗。

    能预测准确的首要原因是数据来源的极大丰富,现在的技术水平为实时处理海量数据提供了可能。

    有了海量数据和处理能力,检测和预测不是特别有技术含量的事情,我感觉只要算法考虑到了足够多的影响因素,简单算法和复杂算法的准确率差距不是那么大。

    另外看准确率这个评价指标,不得不说,数据会说谎,这一个指标不能证明其准。这也是中外各国行业内的一个公认的游戏。有人提到了大数定律,很多所谓的预测准确率都是在用这个,不然还有两个重要指标一并列出来,就是误报率和漏报率,分别表示没堵你说堵,和堵了说不堵。很多时候都没有这两个指标。

我来回答

Captcha 点击图片更换验证码