不要为已经打翻的牛奶而哭泣

September 27, 2018 zr9558 Leave a comment

当年，曹操与刘备在汉中决战，两军久久僵持不下。曹操见久攻不下，心中烦闷，此时士兵来询问夜间的口令，曹操顺口说一句：“鸡肋。”而主簿杨修听到这句话，便开始收拾行装，并告诉周边的人一起收拾行装。众人不解，反问之，杨修解释道：“鸡肋鸡肋，食之无肉，弃之有味，今丞相进不能胜，恐人耻笑，明日必令退兵。”而杨修因为这句话而引来了杀身之祸。

三国1

熟读三国演义的人都知道，曹操杀了杨修之后，便令众军前进。其实到了最后，曹操也未能战胜刘备，获得汉中攻略战的胜利，只能退回许昌。虽然现在我们很难猜测曹操当时的想法是什么，不过“夫鸡肋，弃之如可惜，食之无所得”这句话却由于这个故事而流传下来。无论是当年的曹孟德，还是现在的很多平凡的普通人，身边总有一些事物与鸡肋一样，食之无味而弃之可惜。

在经济学中可以用沉没成本来描述鸡肋这个概念。沉没成本指的是已经付出了，但是不能收回的成本。例如，有一家电影院不允许顾客退票，有位顾客买了一张电影票，但是他看了半小时的电影之后觉得电影十分难看，这种时候他就有两种选择：

1. 继续看下去；

2. 中途离场，去做自己想做的事情。

其实绝大多数的人都会忍着看完这部难看的电影。而从经济学上的观点来看，如果人是足够理性的，当这个人在做决策的时候，是应该把沉没成本放在一边而不去考虑的，因为沉没成本是无法被改变的。按照上面的例子，无论他选择是否继续看下去，这个电影票的钱都已经无法退回，而此时需要做决定的事情是是否继续看完电影。通常这种情况下，按照经济学的理论来说，经济学家会建议这个人选择中途离场，去做任何自己想做的事情。因为这样的话他只是浪费了一张电影票的钱，但是省下来的时间却可以做其他更有趣的事情。

COSTS

虽然这只是书本上的一个简单例子，但是这样的例子在生活中比比皆是。无论是对学生还是职场人士，无论是对普通人还是位高权重的决策者，都面临着沉没成本是否放弃的难题。对于学生而言，最常见的情况就是这个学生在大学期间学了四年根本不感兴趣的专业，但是在面临存在转专业的机会时，是否要放弃原有的技能而重新学习一个新的专业便成为了一个难题。对于在职人士而言，在面临一个有挑战但是并不熟悉的行业或者领域的时候，是否愿意放弃原有的一些经验，是否存在勇气进入一个新的领域也是一个难以抉择的问题。

沉没成本其实很影响一个人的决策。对于学生而言，如果在某个方向上花费了巨大的精力和时间，是很难下定决心转一个全新的方向的；对于工作后的人士而言，主动放弃已经拥有的一些经验，放弃已经掌握的一些人脉和资源，也是十分困难的。但是，在人生的十字路口，其实又必须要下定决心做一些事情。众所周知，学校里面的不少专业其实就是“鸡肋”，完全符合“食之无味，弃之可惜”的条件，无论是学生的就业率和成材率都处于所有专业的底部。如果这些专业的学生不放弃自己的专业，将会在这些专业里面越陷越深，最终无法自拔。其实，这些专业的学生继续从事该专业的学习都不能称之为“坚持”，而是在“死扛”，用自己的大好前途来耗费在一些没有任何用处的专业技能上。有的技能虽然看上去比较高大上，但实在是“屠龙之技”，离开了已有的圈子，学校之后就再无任何用武之地。这些专业还能继续招生的原因大概就是学校招聘了不少这些专业的教师。因此，对于这些专业的学生而言，不破不立，只有勇敢地走出自己所在的圈子，才能够体会到其他专业的精妙之处。

CHOICE

而对于职场人士而言，基本上都会想靠一些好项目来升职加薪，但是在整个社会的大环境下，有的方向确实是在走下坡路，行业越来越饱和，竞争越来越激烈，所做的技术难度越来越低。随着技术的发展，原有的一些技术和框架都会逐渐被淘汰，掌握的技能价值也会越来越低，甚至可能出现找一些应届生培训几个月之后就能够达到老员工的水平。在这种情况下，随着行业的整体下滑，如果还抱着原有的技术栈不松手，那只能变得越来越没有竞争力。在这种情况下，就要主动寻求突破，寻找自己所拥有的技能和其他专业的共同点，将自己的技能主动地迁移到更有潜力的方向上。在职场上，一定不要死抱着一个东西不放手，一定不要抱着我就是来做这个方向的想法，而其他的方向都不去了解和尝试。在工作中，应该审时度势，创造或者寻找优质的项目和资源，因为一个有潜力的项目和优质的资源所能够带来的好处有的时候会远远大于自己当年所做的方向，那个自己当年不舍得放弃的方向。

上升通道

整体来说，在一个人面临着决策的时候，沉没成本最会影响一个人的决策。无论是从经济学的原理上来说，还是从日常经验上来讲，其实都应该放下包袱，轻装上阵，寻找一个更有前景和前途的方向去发挥自己的特长。

Nanjing University

梦回金陵：南京大学（一）

September 23, 2018 zr9558 Leave a comment

笔者从事数学研究大约有十年的期间，后面五年是在新加坡国立大学度过的，而前面的五年则是在南京大学度过的。之前写过不少文章介绍新加坡国立大学的点点滴滴，感觉有必要回忆一下笔者在南京大学的一些事迹。虽然已经时隔多年，但是在南京大学的时候其实还是有许多有趣的人和有趣的事情，也许有一些事情已经不太记得清楚，但是在南京大学度过的五年生活也许是人生中最美好的五年。

梦回金陵1

近二十年来，中国的高校都在发展，学生和老师的人数都随着时间的迁移而越来越多，老校区毕竟面积有限。于是在 1993 年的时候，南京大学浦口校区开始接收第一批新生。在 2005 年笔者刚入学的时候，南京大学的浦口校区已经走过了 12 年的历史。而作为老校区的鼓楼校区则依旧保持着几十年前的景色，无论是校长办公室的北大楼，还是数学系的西大楼，都见证了南京大学的发展和变迁。当年，南京大学只有鼓楼校区和浦口校区，仙林校区还没有对外开放。因此，在 2005 年前后，几乎所有专业的大四学生和研究生都在鼓楼校区，而大一大二大三的学生一般都会在浦口校区。梦回金陵2 梦回金陵6

由于南京的地理位置原因，鼓楼校区与浦口校区相隔很远，每次进城购物或者买东西的时候，总是要跨越南京长江大桥。而当年浦口地区还没有通地铁，当年南京唯一的一条地铁就是一号线，如果没有记错的话大概是从火车站到奥体中心。跨越南京长江大桥的办法除了靠双腿走过去之外，还可以选择坐公交 131 路或者 159路。131 路公交当年是开到大桥南路的家乐福店，而 159 路则是开到南京火车站附近。如果浦口大学的学生们只是去大超市买点东西的话，其实大桥南路的家乐福店是一个不错的选择，所以当年很多时候笔者都是乘坐 131 公交去家乐福。不过由于当年的交通工具实在是不方便，每次乘车的时候都是人山人海，要和其他同学一起挤上车，而且每到周末或者节假日的时候，更是人满为患。

梦回金陵3

虽然说当年的浦口校区距离市区非常远，但是学校里面该有的设施基本上还是有的。当年有三个大食堂，分别是六七八号食堂，随着时间迁移，到了大三的时候，九食堂就已经修好并且对外开放。让人印象深刻的是由于当时上泛函分析课程的地点是在西平教室，并且是早上的三四节课，为了避免在 12 点钟的时候在食堂排长队，于是趁着三四节课课间休息的十几分钟就可以冲去九食堂吃饭，然后迅速返回教室。除了食堂之外，当年的浴室是公共浴室，在宿舍只有凉水，于是如果要去洗澡的话，就必须去浦口大学的公共澡堂。而浦口大学的公共澡堂位于当年的八食堂附近，每天下午 14:00 左右开门，晚上 21:00 左右结束。南京素有火炉之称，每逢夏天的晚上，女浴室的门口总是排起了长龙，排队洗澡的人群总是络绎不绝。而男浴室的门口则没有那么多人，一是因为男生洗澡的速度通常比女生快很多，二是有不少的男生会选择在宿舍里面洗冷水澡。

梦回金陵5

在 2005 年左右，当年的手机还是 Nokia 的时代，移动端的娱乐方式并没有现在那么丰富。大家的娱乐方式通常来说就是聚在一起打扑克，或者在一起玩电脑游戏。当时比较风靡的单机游戏是暴雪公司开放的魔兽争霸，网络游戏也是该公司开发的魔兽世界。而大一的时候，绝大多数人还没有拥有自己的个人电脑，于是为了玩这些游戏通常都只能够去浦口大学门口的多瑙河网吧，因此一些人就出现了白天上课，晚上包夜的情况。也许是刚20岁出头的年纪身体比较好，到了30岁左右的时候，想通宵熬夜就是一件很困难的事情了。有趣的是，当时一个宿舍会有四个人，一旦有一个人开始打游戏，通常都会带动整个宿舍的人一起玩。

梦回金陵7

而学生的想象力总是无穷的，总能够挖掘身边无数的资源，变腐朽为神奇。除了浦口大学门口的多瑙河之外，其实学校内部也有机房。当年大一的时候，数学系总会开设 C++ 编程设计这门课，既然是编程课，那么就需要上机实验，因此玉辉楼的数学系机房就是一个还不错的环境。不过既然是机房，那么它的硬件设施就肯定没有外面的网吧好。但是，机房总是免费的，于是就有一些同学会选择在机房玩一些小游戏，当年的几十台机器还是能够择优选择出几台机器可以运行 Diablo II 的。

梦回金陵8

除了数学系的机房之外，其实还有另外一个地方提供了不少的电脑。对于南京大学的绝大多数学生，数学和英语是两门必修课。既然是学英语，那无法避免的就是听说练习，为了提供必要的听说训练，南京大学在教学楼的三区五楼提供了一块场地，叫做大学生英语学习中心。当年刚入学的时候，每个学生都要进行一次入学考试，目的就是把每个学生的英语能力进行分级。总共分了四级。其中，四级的能力最高，只需要上一个学期的英语课；一级的能力最差，要上四个学期的英语课。不过作为贵州出来的学生，英语通常都不会太好，于是就只能够混到二级，上三个学期的英语课。既然是要上课，就无法避免地要做作业和考试。而当年做作业的方式就是在大学生英语学习中心做，学习某门课程之后，然后在机房里面做阅读理解和听力测试。而当时做作业的时候是限时的，必须要在一个合适的时间内完成相应的题目才算及格，而这些作业就算平时的作业成绩了。记得当年考试的时候，考试的题目有一部分就出于书本里面，只要熟记书本里面的内容，虽然不能够保证得高分，但是能够保证自己顺利地通过考试。

梦回金陵10

作为数学系的学生，通常来说学业压力都比较重，一般来说只靠课堂上的时间是无法学好数学的，需要在课下花费很多的时间和精力去学习和巩固已知的课程。而在宿舍几乎就没有办法去学习，毕竟宿舍是提供住宿的地方。而当年浦口大学没有图书馆，图书馆是在2007年左右才建立起来的，在05年左右的图书馆是临时搭建的，属于过渡期。于是，能够提供自习的场所就只剩下了教学楼，西平，南平。西平教室当年是给金陵学院的，南平教室的环境也比较恶劣，就只有教学楼的环境还可以。不过教学楼整体来说也不小，八角楼附近的人比较多，于是为了寻找一个相对安静的环境，通常都会去一区五楼的教室自习。教学楼一区的人数相对偏少，而教室偏多，五楼又是一个比较高的地方，于是自习的人数是最少的。

梦回金陵11

（未完待续）

PHD的生涯, 互联网的生涯

授人以渔—从博士生和新员工的成长谈起

September 22, 2018 zr9558 Leave a comment

众所周知，无论是在学术界还是工业界，所有的人都是从新手开始，一步一步地走向正轨。如果想在高校谋得一个教授的职位，所有的人都是从本科开始，然后到 Master 阶段，最后走向 PHD 的漫长时期。即使拿到了博士学位，也就是一个预备军的阶段，相当于获得了一个学术界的入场券。通常来说，在获得了博士学位之后，通常还需要一段时间的博士后工作经历，才有可能在学术界谋得一席之地。在工业界，除了少数大牛之外，几乎所有的人都是从底层干起，一年一年的升级打怪，最终获得职位上的晋升。作为一个在学术界和工业界都混过几年的人，在这两个地方都踩过不少的坑，这几年也看到周边的同学在学术界上的分别走向不同的道路，身边的同事也在工业界上作出各自的选择。近期正值博士生开学和新人入职的时期，正好有一些个人的感悟跟大家交流一下。

循序渐进

对于一个在读博士生来说，如果最终想留在学术界工作，并且在高校或者研究所谋得一个讲师或者教授的职位，那么博士期间的工作就显得至关重要。对于一个博士生而言，博士期间的课题通常来说都是导师帮忙定下来的，从一开始的课题收集，开题答辩，整理思路，撰写论文，导师在其中将会发生着至关重要的作用。选择的课题好坏直接决定着博士生最终的产出和收益。其实，要想让一个博士生做不出来课题是非常容易的，直接让他去攻克 Riemann Hypothesis 就可以了，但是这样做并没有任何的意义。导师的作用是培养一个又一个合格的博士生，让其所在的研究方向能够逐渐壮大，从而在国际上处于领先地位。如果让博士生去攻克 Riemann Hypothesis，不仅没有任何好处，也会对博士生造成毁灭性的打击。在博士生刚入学的时候，导师要根据自己的多年以来的工作经验，给博士生选择一个能够出成绩，但是又不是特别难的课题，而不是给学生一个本方向的终极难题。只有这样，博士生才能够在最终答辩和找工作的时候占据一定的优势，并且也有机会在学术界存活下来。

即使选择了一些合适的课题，也不能够让博士生从正面直接攻克它。因为最终的问题可能还是相对偏难一些，对刚进入博士阶段的 PHD 来说可能并不合适。在这种时候，需要采取循序渐进的策略。就拿笔者之前所研究的动力系统方向来举例，刚刚开始攻读博士的时候，尤其是在前两年，只需要做一个 Ergodic Theory and Dynamical Systems 这种级别的论文就可以了。因为这种时候需要的是稳定军心，让 PHD 能够有信心继续从事一些更难的课题。在博士生第三年至第五年的时候，尽量去做一个更难一些的题目，然后其博士论文的课题大致能够发表在 Communications in Mathematical Physics 这种级别上。这样的话，博士生寻找一个博士后岗位甚至一个教职都没有太大的问题。在找到了工作之后，通过会有两种选择，一是可以继续做之前的课题，保持一个持续的领先优势，二是可以做更难一些的问题。如果能够有持续的小论文产出，并且最终有一个大论文的话（例如发表在 Annals of Mathematics）上，基本上 Tenure 之路已经接近稳妥。整体来看，在博士生期间最好的策略是选择一个循序渐进的过程，而不是想一口气吃成一个胖子，给了一个超难的课题让博士生自生自灭。

对于刚刚工作的人也是一样的道理，无论是实习生还是刚入职的应届生，在公司层面都会制定一个所谓的“师傅”或者直系领导帮忙带一下。对于实习生而言，其实他们在公司里面的工作时间也就两三个月，并且最终会面临一个实习生考核，来决定是否录用。在这种时候，如果是想当一个负责任的老员工，在这种时候就一定要给实习生一个相对容易出成绩的项目。而这种项目则不能是那种很难的长期项目，但是与长期项目又需要有某种千丝万缕的联系，最好就是长期项目所需要的核心部分。老员工需要做的就是把这一部分内容从整个项目中剥离开，该准备的数据，该搭建的工具环境都需要提前准备好。只有这样，实习生才能够在一个相对紧凑的时间段内迅速的出成绩，然后最终产出的时候获得一个不错的成绩。

融入圈子

无论是在学术界还是在工业界，都强调一个圈子的概念。在学术界选择导师的时候，就好比足球运动员选择各种各样的俱乐部，有的俱乐部可能比较大并且人才济济，有的俱乐部可能比较小但是却很有发展潜力。在进入了这个俱乐部的时候，导师除了需要把必要的论文资源和材料，相应的方向指导清楚之外，其实最重要的就是带领学生们进入这个圈子。可以通过举办一些学术会议的方式，让学生们去参加，并且主动结识同行中优秀的人才。也可以通过开讨论班的方式，让博士生主动认识院系里面的各位大佬。其实，在未来找工作或者教职的时候，不仅是需要老板的推荐信，还需要同行们的一些评价和建议，甚至由同行大佬们提供一个岗位。因此，提前融入相应的圈子对于一个博士生来说非常重要。在这种时候，导师需要做的就是主动把自己的学生介绍给自己的学术界朋友认识，说不定在互相交流的过程中会有一些灵感出现，对学生做论文也是有益无害的。而且导师也是有着自身的局限性，不可能在学术领域里面面面俱到，这种时候，如果有同行的协助，那么对学生的成长方面则是会很有益处的。整体来看，主动帮博士生寻找必要的资源则是一个合格的导师应该做的事情。

如果是对于公司里面的新员工或者实习生来说，很可能面临的事情就是项目无法推动，无法在团队内部找到资源。这种时候，如果没有老员工一些必要的协助，实习生或者新员工将会举步维艰。因为公司里面的代码，架构，技术很可能散落在各个地方，文档的管理建设方面也未必特别合理。这种时候，只有老员工才知道哪里有坑，哪些人能够解决哪些事情，哪些人能够提供相应的资源。这些是新员工无法预先了解到的事情。如果是一个合格的师傅，就需要及时了解新人在做项目过程中所遇到的困难，所需要寻找的资源和技术，然后协助新人去寻找相应的资源，把项目整体推动下去。在一些集体活动方面，也需要帮助新人主动地融入团队的圈子，避免出现新人被孤立的情形。

避免坑人

无论是在学术界还是工业界，都存在着导师坑博士生，老员工坑新员工的情况。在公司里面，老员工和新员工可能还存在某种竞争关系，因此会出现老员工不太愿意教新员工的情况，甚至主动坑新人的事情。有的时候可能是因为老员工的能力不太行，自己无法开疆拓土，只能靠坑新人来拉开自己和新人之间的差距。有的时候是因为老员工不愿意把自己的核心技术告诉新员工，担心新员工有朝一日取代自己。其实，是否主动教人是完全自愿的，这个看每个人的性格和具体情况来定，但是在团队内部，如果主动坑新人就是老员工的不对了。老员工可以不主动传授别人知识，但是万万不能主动坑害新人。所有的人都是从新人阶段逐步走过来的，如果在项目中老员工发现了一些坑，那么有的时候是需要主动告知新人，避免犯同样的错误。而老员工在一些时候，则需要给新人一些独立成长的机会，让新人能够在项目中获得相应的成长，只有这样，才能够最终独当一面，在未来成为一个合格的员工。

无论是导师在学校带博士生，还是老员工在企业里面带新员工，整体来说，如果新人比较靠谱的话，对导师或者老员工来说其实是有相应的收益的。无论是学术界还是工业界，其最终的目的都是使得课题越做越好，发的论文档次越来越高，项目的收益和技术影响力越做越大。

时间序列, 智能运维

基于自编码器的时间序列异常检测算法

September 19, 2018 zr9558 1 Comment

随着深度学习的发展，word2vec 等技术的兴起，无论是 NLP 中的词语，句子还是段落，都有着各种各样的嵌入形式，也就是把词语，句子，段落等内容转换成一个欧氏空间中的向量。然后使用机器学习的方法来进行文本的聚类和相似度的提取，甚至进行情感分类等操作。那么在表示学习（Representation Learning）方向上，除了刚刚提到的自然语言之外，语音，图像，甚至图论中的Graph都可以进行嵌入的操作，于是就有了各种各样的表示算法。既然提到了表示学习，或者特征提取的方法，而且在标注较少的情况下，各种无监督的特征提取算法就有着自己的用武之地。除了 NLP 中的 word2vec 之外，自编码器（Auto Encoder）也是一种无监督的数据压缩算法，或者说特征提取算法。本文将会从自编码器的基础内容出发，在时间序列的业务场景下，逐步展开基于自编码器的时间序列表示方法，并且最终如何应用与时间序列异常检测上。

自编码器

AutoEncoder3

提到自编码器（Auto Encoder），其实它就是一种数据压缩算法或者特征提取算法。自编码器包含两个部分，分别是编码层（encoder）和解码层（decoder），分别可以使用 $\phi$ 和 $\psi$ 来表示，也就是说：

$\phi: X\rightarrow F,$

$\psi: F\rightarrow X,$

$\phi,\psi = argmin_{\phi,\psi}||X-(\psi\circ\phi)X||^{2},$

其目标函数就是为了拟合一个恒等函数。对于最简单的情况，可以令 $X = \mathbb{R}^{n},$ $F=\mathbb{R}^{m}$ ，并且编码器和解码器都是前馈神经网络，也就是说：

$z = f(Ax+c),$

$x'=g(Bx+d),$

损失函数就是 $L(x,x')=||x-x'||^{2} = ||x-g(Bf(Ax+c)+d)||^{2},$ 其中 $x\in X=\mathbb{R}^{n},$ $z\in F =\mathbb{R}^{m}.$ $f$ 和 $g$ 分别是编码层和解码层的激活函数， $A,c$ 和 $B,d$ 分别是编码层和解码层的矩阵和相应的向量。具体来说它们的矩阵大小分别是 $A_{m\times n}, c_{m\times 1}, B_{n\times m}, d_{n\times 1}.$

AutoEncoder2

对于自编码器而言，它的输入层的维度等于输出层的维度，隐藏层的维度是需要小于输入层的维度的。只有这样，自编码器才可以学习到数据分布的最显著特征。如果隐藏层的维度大于或者等于输入层的维度，其实是没有任何意义的，具体的解释可以参考下面这个Claim。

Claim. 对于自编码器而言，其中隐藏层的维度 $m$ 一定是要小于输入层的维度 $n$ 的。

Proof. 如果 $n=m$ ，那么令 $A=B=I_{n},$ $c=d=0,$ $f=g=id$ 就可以得到一个自编码器，而这个自编码器对于提取特征没有任何的意义。同理，当 $m>n$ 时， $A$ 是一个 $m\times n$ 矩阵， $B$ 是一个 $n\times m$ 矩阵。从线性代数的角度来看，有无数个矩阵 $A, B$ 满足 $BA=I_{n}$ 。这种情况下对于提取特征也是没有意义的。而当 $m<n$ 时，其实无法找到矩阵 $A,B$ 使得 $BA=I_{n}.$ 如果存在 $BA=I_{n},$ 那么

$n = rank(I_{n})=rank(BA) \leq \min\{rank(A),rank(B)\} \leq \min\{m,m\}=m.$

这就导致了矛盾。因此，只有在 $m<n$ 的情况下提取特征才是有意义的。

对于自编码器而言，其本质上也是一个神经网络，那么它的激活函数其实不仅可以选择 sigmoid, 还可以使用 tanh，ReLU，LeakyReLU 等其余激活函数，其本质上都是为了拟合一个恒等变换，中间层则作为一个特征提取的工具。在训练的时候，同样是使用反向传播算法，可以使用不同的优化函数，例如 SGD，Momentum，AdaGrad，RMSProp，Adam 等。

在图像领域，有学者尝试使用自编码器来进行图像的重构工作，图像的特征提取等内容，整体来看也能达到不错的效果，请看下图：

AutoEncoder1

从上图来看，基于均方误差的自编码器是无法重构出乒乓球的。由于该自编码器的容量有限，目标函数是均方误差，因此自编码器并没有意识到乒乓球是图片中的一个重要物品。

时间序列异常检测：

时间序列异常检测一直是学术界和工业界都关注的问题，无论使用传统的 Holt-Winters，ARIMA，还是有监督算法进行异常检测，都是统计学和传统机器学习的范畴。那么随着深度学习的兴起，是否存在某种深度学习算法来进行异常检测呢？其实是存在的。请看上图，左边一幅图有一个白色的小乒乓球，但是随着自编码器进行重构了之后，白色的小乒乓球已经在重构的图像中消失了。那么根据异常检测的观点来看，小乒乓球其实就可以作为图片中的异常点。只要在图片的局部，重构出来的图片和之前的图片存在着巨大的误差，那么原始图片上的点就有理由认为是异常点。

在这个思想下，针对时间序列异常检测而言，异常对于正常来说其实是少数。如果我们使用自编码器重构出来的时间序列跟之前有所差异的话，其实我们就有理由认为当前的时间序列存在了异常。其实，简单来看，基于自编码器的时间序列异常检测算法就是这样的：

原始时间序列

-> Auto Encoder（Encoder 和 Decoder）

-> 重构后的时间序列

-> 通过重构后的时间序列与原始时间序列的整体误差和局部误差来判断异常点

简单来说，只要输出的时间序列在局部的信息跟原始的时间序列不太一致，就有理由认为原始的时间序列存在着异常。

那么，首先我们需要提取时间序列中的一些子序列，例如我们可以提取今天（today），昨天（yesterday），一周前（week）的数据，基于同样的时间戳把它们重叠在一起，也就是下图这个形式。其中，蓝线表示一周前的数据，黑线表示昨天的数据，红色表示今天的数据。

AutoEncoder4

基于一条很长的时间序列，我们可以提取它的很多子序列，从而构造出很多的片段序列。这些片段序列就可以形成自编码器的输入数据，而自编码器是模拟一个恒等变换，因此它会把有异常的点尽量磨平，而正常的点则保持原样。所以，通过大量子片段来进行训练数据的输入，自编码器就能够得到一个较为合理的权重。得到了一个训练好的自编码器之后，对于任何一个子片段，都可以重构出一个新的片段。例如上面的子片段就可以重构成下图：对于今天的数据（today），那个凸起被直接抹平；对于昨天的数据（yesterday）而言，那个凹下去的部分也被磨平。基于时间序列重构前和重构后的数据差异，可以获得时间序列的异常点。

AutoEncoder5

除此之外，还有很多时间序列的异常点可以被自编码器（AutoEncoder）发现，例如下面四幅图，无论是上涨，还是下跌，其实都可以被自编码器（AutoEncoder）发现异常。

总结

通常来说，在时间序列异常检测场景中，异常的比例相对于正常的比例而言都是非常稀少的。因此，除了有监督算法（分类，回归）之外，基于无监督算法的异常检测算法也是必不可少的。除了 HoltWinters，ARIMA 等算法之外，本文尝试了一种新的异常检测算法，基于深度学习模型，利用自编码器的重构误差和局部误差，针对时间序列的异常检测的场景，初步达到了一个还不错的效果。这种方法可以用来提供部分异常样本，加大异常检测召回率的作用。但是这种方法也有一定的弊端：

从理论上说，它只能对一个时间序列单独训练一个模型，不同类型的时间序列需要使用不同的模型。这样的话，其实维护模型的成本比较高，不太适用于大规模的时间序列异常检测场景；
对周期型的曲线效果比较好，如果是毛刺型的数据，有可能就不太适用；因为长期的毛刺型数据就可以看成正常的数据了。
每次调参需要人为设置一定的阈值，不同的时间序列所需要的阈值是不一样的。

参考文献

Unsupervised Anomaly Detection via Variational Auto-Encoder for Seasonal KPIs in Web Applications, Haowen XU, etc., 2018
Deep Learning, Ian Goodfellow, etc., 2016
https://zr9558.com/2016/06/12/replicator-neural-networks/

ZHANG RONG

Monthly Archives: September 2018