关于计算值:极客星球|基于加权DBSCAN的工作地居住地计算方法
本文亮点随着智能手机和信息通信技术的一直倒退和遍及,大规模的轨迹数据存储曾经比拟广泛,成为开掘用户行为模式的重要起源,工作地和居住地是用户行为模式的重要体现,能够用于辅助智能城市的建设,比方优化通勤路线、产业布局、剖析人口流动状况等等,从而缩小交通拥堵、进步市民生存便利性和满意度等。然而现有的工作地居住地计算方法存在不同水平的问题,本文提出一种改良计划。 一、现有办法目前的工作地居住地定位办法次要有两种,一是基于规定,一是基于模型; 基于规定的办法是通过业务教训设计逻辑,依据设定的统计指标抉择工作地居住地。 比方基于汽车的数据会基于用户每天的起始点和起点,来统计频次、时长等指标,抉择排名最高的作为工作地居住地; 基于基站的数据会统计用户连贯每个基站的工夫,抉择工作工夫连接时间最长且月度工作日连贯次数/休息日连贯次数最高的作为工作地; 基于模型的办法是通过聚类+有监督模型来定位工作地居住地,通过聚类来剔除噪声点,而后通过规定来生成特色,通过人工对工作地居住地进行标注,最初通过有监督模型来预测工作地和居住地。 二、现有办法局限性基于规定的办法局限性比拟大,不同行业都有本人的规定和特定构造的数据,不够通用;且难以穷尽所有规定,对于异常情况的适应性不够好,简单且不够准确; 基于模型的办法须要进行人工标注,老本较高且整个计算流程比较复杂;准确率对特色的代表性和样本笼罩的广度依赖较大; 现有办法计算出的工作地居住地常常不合乎业务逻辑,如失常的工作地应该大部分散布在写字楼、工业园区等poi,少部分散布在餐厅、商场等其余各种类型的poi;失常的居住地应该大部分散布在小区、别墅、公寓等poi,少部分散布在其余各种类型的poi;然而现有办法计算的后果受数据源影响较大,并不能保障这一点,导致可能大量的工作地呈现在小区里,大量的居住地呈现在写字楼或商场里等状况,导致业务不可用。 本文提出了一种更通用的计算方法,升高整个流程的复杂性并进步准确性;设计一种更贴近业务的计算方法,进步工作地居住地的可用性。 三、背景常识介绍1、DBSCAN聚类简介:首先设定一个阈值a,对于样本集中的每个点,以这个点为圆心,a为半径划一个圆,被蕴含在这个圆中的点的个数记为b(包含圆心); 而后再设定一个阈值c,如果b>=c,则把这个圆心叫做外围对象; 如果一个外围对象A被蕴含在另一个外围对象B的圆中,外围对象B被蕴含在另一个外围对象C的圆中,则称A到C是密度可达的; 如果外围对象X到外围对象Y密度可达,外围对象Z也密度可达,则Y和Z密度相连,找到最大的密度相连的样本汇合,就是聚类的一个簇,如下图所示: 其长处在于: 能够对任意形态的浓密数据集进行聚类,实用于地理位置数据;绝对的,K-Means之类的聚类算法个别只实用于凸数据集; 能够在聚类的同时发现异常点,对数据集中的异样点不敏感; 聚类后果没有偏倚,绝对的,K-Means之类的聚类算法,初始值对聚类后果有很大影响。 2、加权几何平均数: 3、经纬度求中心点Lat_i = lat_i * pi/180,i= 1,2,…,nLon_i = lon_i * pi/180,i= 1,2,…,n xi = cos(Lat_i) * cos(Lon_i),i= 1,2,…,nyi = cos(Lat_i) * sin(Lon_i) ,i= 1,2,…,nzi = sin(Lat_i) ,i= 1,2,…,n x = (x1 + x2 + ... + xn) / ny = (y1 + y2 + ... + yn) / nz = (z1 + z2 + ... + zn) / n ...