JUST技术:基于无参生成模型的轨迹生成

在大数据时代,位置数据成为各方都亟待挖掘的数据宝藏,比如在城市交通基建规划、商业选址、线下广告等场景中,都是以位置数据为重要基础。但在此过程中,隐私问题一直未得到有效解决,如何在保护原始数据不被泄露同时,更好地服务于各种城市应用呢?

本文将介绍南洋理工大学与SAP联合在IJCAI 2018上发表的论文《A Non-Parametric Generative Model for Human Trajectories》,文章通过真实轨迹学习城市人群的出行分布来生成轨迹,生成轨迹可以代替包含用户隐私信息的真实轨迹,来达到相近数据分析、上层业务建设的效果,避免位置信息外泄。文章有效地学习了轨迹的位置序列Embedding,进而,通过对抗式生成网络(GAN)来学习轨迹分布并生成模拟轨迹。

一、问题背景

想要建模城市中的人群移动特性是很有挑战的:1)轨迹状态空间很大;2)轨迹具有很强的独一无二性,很难找到两个轨迹完全相同的人;3)人群的轨迹具有相似的隐式语义,比如上班、下班、旅游,需要用有效的表征刻画出这些相似的语义来;4)轨迹序列内的位置相关性与轨迹间的相关性难以显式定义。

图1 算法框架

为了解决上述挑战,论文首先将轨迹映射到空间网格中,转为矩阵,每个网格包含了轨迹的访问该网格时间与驻留该网格时长信息;然后,通过对抗式生成网络来学习上述矩阵化后的轨迹数据,并生成相似轨迹。实验验证了生成轨迹对个体轨迹特征、轨迹统计特征有较好的保留,并与真实轨迹难以区分。


二、问题定义

我们记一条轨迹

为经纬度时序序列

其中

表示轨迹在时刻经过坐标。给定轨迹数据,问题定义为学习轨迹数据的分布函数,即

在轨迹长度很大时,想要学出

的分布是非常困难的。作者认为,马尔科夫模型的有限阶依赖关系无法学习长轨迹的先后位置关联关系;而基于循环神经网络如LSTM的做法,由于也被发现在长序列生成中会出现偏离[1],也不能很好适用于轨迹生成。

三、轨迹表征

这里介绍论文的轨迹表征方式。不同于往常用时间序列来表示轨迹(就如问题定义中介绍那样),作者从空间视角出发,将轨迹时间序列转化为矩阵形式。

具体来说,首先城市被划分为

的网格,并将输入轨迹

转为大小为

的矩阵

包含了计算轨迹与每个网格的两项信息,其中

分别为:轨迹进入该网格的时间,与轨迹在网格内停留的时间。例如,下图a的城市网格中,图b的轨迹在5:00出现在网格0,一个小时后进入网格3,然后经过两小时在8:00进入网格4直到9:00。图c是以一小时位精度的矩阵化的结果,以网格3对应位置,即为例

,由于轨迹在6:00开始进入网格3,所以,且在8:00离开,期间经过2小时,所以

图 2 轨迹表征实例

上述方法还需考虑一种情况——轨迹多次访问某一个网格。论文的做法是将矩阵扩展为三维张量

,以记录轨迹第K次访问的时间与停留时长。

四、对抗式生成模型GAN及其训练

区别于需要人工设定目标分布形式的参数化分成模型,对抗式生成模型使用深度神经网络来学出目标分部形式,避免人工设定,来达到无参数化的目的。作者利用了对抗式生成模型的这一优势,来学习轨迹数据的分布。

作者直接采用了梯度较为稳定的WGAN-GP的框架进行模型训练。形式化来说,若给定真实轨迹数据,GAN同时学习用于生成轨迹的生成网络和用于辨别轨迹是否真实(而非人造)的辨别网络。和均采用卷积网络CNN来处理矩阵化的轨迹数据,以丰富轨迹局部特征的提取。训练的损失函数为

其中

是简单随机分布如均匀分布、高斯分布等;

通过真实数据与生成数据

的凸组合得到。优化目标分为三项,A项为辨别人工轨迹的损失,B项为辨别真实轨迹的损失,C项是避免梯度异常的惩罚项,以表示惩罚权重。

注意不同于常规模型训练仅更新参数来缩小损失函数值,对抗式生成模型的训练过程会反复地通过先更新

来最大化辨别误差,以欺骗

;再更新

来最小化辨别误差,以破解

。详细过程可以参考GAN相关文献。

五、实验结果

1.实验设定

轨迹时序数据具有高维特点,直接验证生成轨迹的概率分布是否符合真实数据,在计算量上可行性较差。为此,作者选了四项统计量,通过验证统计量分布是否一致来验证轨迹分布是否一致,这里列出两项:

,分别表示网格与停留时长的联合分布,和网格

与进入网格时间的联合分布。分布差的通过常用的琴森香农散度(JSD)来衡量:

2.准确度效果

实验将原始轨迹数据对半分成训练数据和测试数据,并在每一轮训练后生成轨迹。如下图所示,生成轨迹与训练数据、测试数据分别计算JSD值,分别以蓝、红表示。

图3 训练过程

3.生成轨迹语义真实性

作者同时对生成轨迹的语义进行分析,判断生成轨迹是否还原了真实轨迹的语义。这包含了两项验证:常访问位置真实度和相对语义真实度。

图4 常访问位置top50准确性

在常访问位置真实度验证中,作者分别用论文方法与马尔科夫方法生成了轨迹,并统计top50的常访问地,与真实top50常访问位置进行比较计算精确度。如上图所示,论文方法比马尔科夫方法更准确地反映了真实top50访问位置,并达到至少70%的精度。

在相对语义真实度验证中,作者采用了pair-wise轨迹语义距离的分布作为评价指标。首先作者采用了一种常用的轨迹语义距离公式:

然后对生成轨迹与真实轨迹分别提取1000个轨迹pair计算pair-wise距离,得到了生成轨迹与真实轨迹的语义距离样本集,并对比生成距离样本与真实距离样本的分布,下图展示了两组样本的各分位数对比情况,验证了生成轨迹在相对语义分布上与真实轨迹相似。

图5 相对语义距离分布的分位数对比


六、小结

本文主要介绍了一篇比较有代表性的,在已有轨迹城市生成人造轨迹的论文。在智慧城市建设中,这些人造轨迹在避免用户位置信息被泄露同时,可以为城市交通基建规划、商业选址、线下广告投等业务提供数据支撑。技术上,本论文在发表当时的创新的点在于对轨迹的矩阵化表征、和GAN的应用,将来会分享更多轨迹生成和城市流动性建模的相关研究或观点。

相关文章

JUST技术:从空间关系到空间连接,JUST提升信息挖掘意义

JUST技术:分布式时序相似查询初探

JUST技术:JUST高效时空索引揭秘及使用指南

JUST技术:利用基于轨迹数据的人口流向分析技术,精准病毒传播追踪

JUST技术:基于轨迹的新冠易感人群查询方案

JUST技术:利用基于时空孪生神经网络的轨迹识别,降低出行乘车风险

JUST技术:CK实现时序数据管理

JUST技术:利用迁移学习生成新城市的轨迹

JUST技术:利用轨迹拼接分析实时可达区域

JUST技术:如何通过轨迹相似性度量方法,发现新冠易感人群

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,919评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,567评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,316评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,294评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,318评论 6 390
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,245评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,120评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,964评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,376评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,592评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,764评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,460评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,070评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,697评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,846评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,819评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,665评论 2 354

推荐阅读更多精彩内容