基于前馈神经网络的时间序列异常检测算法

December 21, 2018 zr9558 Leave a comment

引言

在时间序列异常检测中，特征工程往往是非常繁琐而复杂的，怎样才能够减少时间序列的特征工程工作量一直是一个关键问题。在本文中，作者们提出了一个新的思路，使用深度学习的办法来进行端到端的训练，从而减少时间序列的特征工程。

提到深度学习，大家都能够想到卷积神经网络（Convolutional Neural Network ）在图像识别中的优异表现，能够想到循环神经网络（Recurrent Neural Network）在机器翻译和文本挖掘领域中所取得的成绩。而一旦提到时间序列，一般的人都能够想到使用 ARIMA 模型或者 LSTM 模型来拟合周期型的时间序列，或者使用其他算法来进行时间序列的异常检测。在这篇文章中，既不谈 CNN 和 LSTM 等深度学习模型，也不谈如何使用 LSTM 来拟合时间序列，本文将会介绍如何使用前馈神经网络 FNN 来进行时间序列的异常检测。并且将会介绍如何使用前馈神经网络，来拟合各种各样的时间序列特征。本篇论文《Feedforward Neural Network for Time Series Anomaly Detection》目前已经挂在 Arxiv 上，有兴趣的读者可以自行参阅：https://arxiv.org/abs/1812.08389。

时间序列异常检测

时间序列异常检测的目的就是在时间序列中寻找不符合常见规律的异常点，无论是在学术界还是工业界这都是一个非常重要的问题。而时间序列异常检测的算法也是层出不穷，无论是统计学中的控制图理论，还是指数移动平均算法，甚至近些年最火的深度学习，都可以应用在时间序列的异常检测上面。在通常情况下，时间序列的异常点是十分稀少的，正常点是非常多的，因此，通常的套路都是使用统计判别算法和无监督算法作为第一层，把有监督算法作为第二层，形成一个无监督与有监督相结合的框架。使用无监督算法可以过滤掉大量的正常样本，将我们标注的注意力放在少数的候选集上；使用有监督算法可以大量的提升准确率，可以把时间序列异常点精确地挑选出来。这个框架之前也说过多次，因此在这里就不再做赘述。

异常检测技术框架1

提到第二层的有监督学习算法，通常来说就包括逻辑回归，随机森林，GBDT，XGBoost，LightGBM 等算法。在使用这些算法的时候，不可避免地就需要构造时间序列的特征，也就是人工撰写特征工程的工作。提到时间序列的特征，一般都会想到各种各样的统计特征，例如最大值，最小值，均值等等。除了统计特征之外，我们还可以使用一些简单的时间序列模型，例如移动平均算法，指数移动平均算法等去拟合现有的时间序列，所得到的拟合值与实际值的差值就可以作为时间序列的拟合特征。除了统计特征和拟合特征之外，我们还可以根据时间序列的走势，例如周期型，毛刺型，定时任务型来构造出时间序列的分类特征，用于时间序列形状的多分类问题。因此，就笔者的个人观点，时间序列的特征大体上可以分成统计特征，拟合特征，周期性特征，分类特征等几大类。

时间序列的特征工程1

在机器学习领域下，可以使用准确率和召回率来评价一个系统或者一个模型的好坏。在这里，我们可以使用 negative 标签来表示时间序列的异常，使用 positive 标签来表示时间序列的正常。因此模型的召回率，准确率，F1-Score 可以如下表示：

$\text{Recall}=\frac{\text{the number of true anomalous points detected}}{\text{the number of true anomalous points}}=\frac{TN}{TN+FP},$

$\text{Precision}=\frac{\text{the number of true anomalous points detected}}{\text{the number of anomalous points detected}}=\frac{TN}{TN+FN},$

$\text{F1-Score} = \frac{2 \cdot \text{precision} \cdot \text{recall}}{\text{precision}+\text{recall}}.$

Table1

而时间序列异常检测工作也不是一件容易的事情，通常来说它具有以下几个难点：

海量时间序列。通常情况下，时间序列不仅仅是按照天来收集数据的，有可能是按照小时，甚至分钟量级来收集数据。因此，在一些情况下，时间序列的数量和长度都是非常大的。
类别不均衡。一般来说，在时间序列异常检测领域，正常样本是非常多的，异常样本是非常少的。在这种情况下，训练模型的时候通常都会遇到类别不均衡的问题。
样本不完整。通常来说，时间序列异常检测领域，是需要用人工来标注样本的，这与推荐系统是非常不一样的。这种情况下，很难通过人工标注的方式，来获得所有类型的样本数据。
特征工程复杂。时间序列有着自己的特点，通过特征工程的方式，确实可以获得不少的特征，但是随着时间序列种类的变多，特征工程将会越来越复杂。

基于以上几个难点，本篇论文提出了一种端到端（End to End）的训练方法，可以解决上面的一些问题。

深度学习的简单回顾

其实最简单的深度学习模型还不是 CNN 和 RNN，最简单的深度学习模型应该是前馈神经网络，也就是所谓的 FNN 模型。当隐藏层的层数较少的时候，当前的前馈神经网络可以称为浅层神经网络；当隐藏层的层数达到一定的数量的时候，当前的前馈神经网络就是所谓的深度前馈神经网络。下面就是一个最简单的前馈神经网络的例子，最左侧是输入层，中间有两个隐藏层，最右侧是输出层。

forwardneuralnetworks1

通常来说，前馈神经网络会涉及到必要的矩阵运算，激活函数的设置等。其中，激活函数的选择有很多，有兴趣的读者可以参见 tensorflow 的官网。比较常见的激活函数有 Sigmoid 函数，tanh 函数，relu 函数以及 relu 函数的各种变种形式（Leaky Relu, PreLu, Elu），以及 Softplus 函数等。

详细来说，以上的激活函数的具体函数表达式如下：

$\sigma(x) = 1/(1+e^{-x}),$

$\tanh(x) = \sinh(x)/\cosh(x),$

$ReLU(x) = \max\{0,x\},$

$Leaky \text{ }ReLu(x) = \mathcal{I}_{\{x<0\}}\cdot(\alpha x) + \mathcal{I}_{\{x\geq 0\}}\cdot(x), \alpha\in \mathbb{R},$

$ELU(x) = \mathcal{I}_{\{x<0\}}\cdot(\alpha(e^{x}-1)) + \mathcal{I}_{\{x\geq 0\}}\cdot(x),$

$PreLU(x) = \mathcal{I}_{\{x_{j}<0\}}\cdot(a_{j}x_{j})+\mathcal{I}_{\{x_{j}\geq 0\}}(x_{j}),$

$selu(x) = \lambda\cdot(\mathcal{I}_{\{x<0\}}\cdot(\alpha e^{x}-\alpha) + \mathcal{I}_{\{x\geq 0\}}\cdot x), \lambda,\alpha\in\mathbb{R},$

$softplus(x) = \ln(1+e^{x}).$

深度学习与时间序列的特征工程

通常来说，基于人工的时间序列特征工程会比较复杂，不仅需要包括均值方差等内容，还包括各种各样的特征，如统计特征，拟合特征，分类特征等。在这种情况下，随着时间的迁移，特征工程将会变得越来越复杂，并且在预测的时候，时间复杂度也会大量增加。那么有没有办法来解决这个问题呢？答案是肯定的。时间序列的一部分特征可以按照如下表格 Table 2 来表示：其中包括均值，方差等特征，也包括拟合特征和部分分类特征。

基于 Table 2，本篇论文的主要定理陈述如下：

Main Theorem. 对于任意正整数 $n\geq 1$ ，存在一个前馈神经网络 $D$ 使得对于所有的时间序列 $\boldsymbol{X}_{n}=[x_{1},\cdots,x_{n}]$ ，该神经网络的输入和输出分别是 $\boldsymbol{X}_{n}$ 和表格 2 中 $\boldsymbol{X}_{n}$ 的特征层。

下面，我们就来尝试使用深度学习模型来构造出时间序列的统计特征。首先，我们可以从几个简单的统计特征开始构造，那就是加法（add），减法（minus），最大值（max），最小值（min），均值（avg），绝对值（abs）。在构造时间序列 $X_{n} = [x_{1},\cdots, x_{n}]$ 的以上统计特征之前，我们可以先使用神经网络构造出这几种运算方法。

加法 $add(x,y) = x+y$ 与减法 $sub(x,y) = x-y$ 的构造十分简单，如下图构造即可：

绝对值函数 $abs(x) = |x|,$ 通过计算可以得到 $abs(x) = relu(x) + relu(-x).$ 所以，可以构造如下的神经网络来表示绝对值函数：

functionABS

最大值函数 $\max(x,y),$ 通过计算可以得到

$\max(x,y) = (|x-y| + x+ y)/2.$

所以，只要能够使用前面的神经网络来构造出绝对值模块，然后使用加减法就可以构造出最大值函数。

functionMAX

最小值函数 $\min(x,y),$ 通过计算可以得到

$\min(x,y) = (x+y-|x-y|)/2.$

所以，同样使用前面的神经网络来构造出绝对值模块，然后使用加减法就可以构造出最小值函数。

functionMIN

在这种情况下，只要能够构造出两个元素的最大值，最小值函数，就可以轻易的构造出 $n$ 个元素的最大最小值函数，因为

$\max(x_{1},\cdots,x_{n}) = \max(x_{1},\max(x_{2},\max(x_{3},\cdots,\max(x_{n-1},x_{n}))),$

$\min(x_{1},\cdots,x_{n}) = \min(x_{1},\min(x_{2},\max(x_{3},\cdots,\min(x_{n-1},x_{n}))).$

平均值函数 $avg$ 指的是 $avg(x_{1},\cdots, x_{n}) = (x_{1}+\cdots + x_{n})/n.$

functionAVG

平方函数 $y = x^{2},$ 这个函数可以使用 Softplus 激活函数来表达。令 Softplus 为

$f(x) = softplus(x) = \ln(1+e^{x}),$

通过计算可以得到：

$f(0) = \ln(2),$

$Df(x) = \sigma(x), Df(0) = 1/2,$

$D^{2}f(x) = \sigma'(x) = \sigma(x)\cdot(1-\sigma(x)), D^{2}f(0) = 1/4,$

$D^{3}f(x) = \sigma''(x), D^{3}f(0) = 0,$

因此，Softplus 函数的 Taylor Series 是：

$f(x) = softplus(x) = f(0) + Df(0)x+ \frac{1}{2!}D^{2}f(0)x^{2} + \frac{1}{3!}D^{3}f(0)x^{3}+o(x^{3})$

$= \ln(2) +\frac{1}{2}x+\frac{1}{8}x^{2}+o(x^{3}),$

因此， $x^{2} \approx 8\cdot(f(x) - \ln(2)-\frac{1}{2}x) = 8\cdot(\ln(1+e^{x})-\ln(2)-\frac{1}{2}x).$ $y=x^{2}$ 就可以用神经网络来近似表示：

functionPower2

立方函数 $y = x^{3},$ 这个函数可以使用 Sigmoid 激活函数来表达。因为 Sigmoid 函数的 Taylor Series 是

$\sigma(x) = \frac{1}{2}+\frac{1}{4}x-\frac{1}{48}x^{3}+o(x^{3}),$

那么 $x^{3} \approx -48\cdot(\sigma(x) - \frac{1}{2} -\frac{1}{4}x).$ $y=x^{3}$ 就可以用神经网络来近似表示：

functionPower3

深度学习与时间序列的统计特征

提到时间序列的统计特征，一般指的都是已知的时间序列 $X_{n} =[x_{1},\cdots,x_{n}]$ 的最大值，最小值等各种各样的统计指标。如果按照上文所描述的，以下特征都可以用神经网络轻松构造出来：

max:

$\max_{1\leq i\leq n}\{x_{1},\cdots,x_{n}\},$

min:

$\min_{1\leq i\leq n}\{x_{1},\cdots,x_{n}\},$

avg:

$\mu = \sum_{i=1}^{n}x_{i}/n,$

variance:

$\sigma^{2}= \sum_{i=1}^{n}(x_{i}-\mu)^{2}/n, \text{ where } \mu = \sum_{i=1}^{n}x_{i}/n,$

skewness:

$\sum_{i=1}^{n}[(x_{i}-\mu)/\sigma]^{3},$

kurtosis:

$\sum_{i=1}^{n}[(x_{i}-\mu)/\sigma]^{4},$

difference:

$x_{2}-x_{1}, x_{3}-x_{2},\cdots, x_{n}-x_{n-1},$

integration:

$\sum_{i=1}^{n}x_{i},$

absolute_sum_of_changes:

$E=\sum_{i=1}^{n-1}|x_{i+1}-x_{i}|,$

mean_change:

$\frac{1}{n}\sum_{i=1}^{n-1}(x_{i+1}-x_{i}) = \frac{1}{n}(x_{n}-x_{1}),$

mean_second_derivative_central:

$\frac{1}{2n}\sum_{i=1}^{n-2}(x_{i+2}-2x_{i+1}+x_{i}),$

除了以上比较容易构造的特征之外，还有一类特征只为了计算个数的，例如 count_above_mean，count_below_mean 分别是为了计算大于均值的元素个数，小于均值的元素个数。那么最重要的就是要构造出计数函数 count。

回顾一下 NOT 逻辑计算门是：

$1 \rightarrow 0, 0 \rightarrow 1.$

这个逻辑门可以使用逻辑回归函数来估计，可以参见 $\sigma$ 函数的图像，当 $x>10$ 的时候， $\sigma(x) \approx 1;$ 当 $x<-10$ 的时候， $\sigma(x)\approx 0.$ 因此，可以使用函数 $f(x) =\sigma(-20x+10)$ 来估计 NOT 逻辑门。

当 $x=1$ 时， $f(x) = f(1) = \sigma(-10) \approx 0;$

当 $x=0$ 时， $f(x) = f(0) = \sigma(10)\approx 1.$

下面，我们来考虑如何构造出一个函数来判断待测试值 $x$ 是否大于常数 $a.$

令 $f_{1}(x) = \sigma(-2\cdot 10^{4} \cdot relu(-x+a) + 10),$ 可以得到

当 $x>a$ 时， $f_{1}(x) = \sigma(10) \approx 1;$

当 $x<a-10^{-3}$ 时， $f_{1}(x) = \sigma(-2\cdot 10^{4}\cdot (a-x) + 10)<\sigma(-10) \approx 0.$

因此，所构造的函数 $f_{1}(x)$ 近似于判断待测试值 $x$ 是否大于常数 $a.$

下面，可以构造一个类似的函数来判断待测试值 $x$ 是否小于常数 $a.$ 令 $f_{2}(x) = \sigma(-2\cdot 10^{4} \cdot relu(x-a) + 10),$ 可以得到

当 $x<a$ 时， $f_{2}(x) = \sigma(10)\approx 1;$

当 $x>a+10^{-3}$ 时， $f_{2}(x) = \sigma(-2\cdot 10^{4}\cdot (x-a)+10) < \sigma(-10)\approx 0.$

因此，所构造的函数 $f_{2}(x)$ 近似于判断待测试值 $x$ 是否小于常数 $a.$

回到时间序列的特征 count_above_mean 与 count_below_mean，可以先计算出均值 mean，然后计算时间序列 $X_{n}=[x_{1},\cdots,x_{n}]$ 每个点与均值的差值，然后使用前面的神经网络模块计算出大于零的差值个数与小于零的差值个数即可。

functionCountAboveZero

functionCountBelowZero

深度学习与时间序列的拟合特征

时间序列的拟合特征的基本想法是用一些简单的时间序列算法去拟合数据，然后使用拟合数据和真实数据来形成必要的特征。在这里，我们经常使用的算法包括移动平均算法，带权重的移动平均算法，指数移动平均算法等。下面，我们来看一下如何使用神经网络算法来构造出这几个算法。

移动平均算法

移动平均算法指的是，已知时间序列 $X_{n} = [x_{1},\cdots,x_{n}],$ 我们可以使用一个窗口值 $w\geq 1$ 得到一组光滑后的时间序列，具体来说就是：

$SMA_{j}=\sum_{k=1}^{w}x_{j-w+k}/w = (x_{j-w+1}+\cdots+x_{j})/w,$

特别地，如果针对时间序列的最后一个点，就可以得到：

$SMA_{n} = \sum_{k=1}^{w}x_{n-w+k}/w = (x_{n-w+1}+\cdots+x_{n})/w.$

因此，当前的实际值与光滑后所得到的值的差值就可以作为特征，i.e. $SMA_{n}-x_{n}$ 就可以作为一个特征。然后根据不同的窗口长度 $w\geq 1$ 就可以得到不同的特征值。

用和之前类似的方法，我们同样可以构造出一个神经网络算法来得到这个特征。

functionSMA

带权重的移动平均算法

带权重的移动平均算法指的是计算平均值的时候将不同的点带上不同的数值，i.e.

$WMA_{j} = \sum_{k=1}^{w}k \cdot x_{j-w+k}/\sum_{k=1}^{w}k.$

特别地，如果针对时间序列的最后一个点，就可以得到：

$WMA_{n} = \sum_{k=1}^{w}k \cdot x_{n-w+k}/\sum_{k=1}^{w}k.$

用和之前类似的方法，我们同样可以构造出一个神经网络算法来得到这个特征。

functionWMA

指数移动平均算法

指数移动平均算法指的是在已知时间序列的基础上进行加权操作，而权重的大小是呈指数衰减的。用公式来描述就是，已知时间序列 $X_{n} = [x_{1},\cdots,x_{n}],$ 令

$EWMA_{1}=x_{1},$

$EWMA_{j} = \alpha \cdot x_{j-1} + (1-\alpha)\cdot EWMA_{j-1}, \forall j\geq 1.$

从定义上可以得到：

$EWMA_{n}$

$= \alpha[x_{n-1}+(1-\alpha)x_{n-2}+\cdots+(1-\alpha)^{k}x_{n-(k+1)}] + (1-\alpha)^{k+1}EWMA_{n-(k+1)}$

$\approx \alpha[x_{n-1}+(1-\alpha)x_{n-2}+\cdots+(1-\alpha)^{k}x_{n-(k+1)}]$

因此，只需要构建一个加权求和，然后计算 $EWMA_{n}-x_{n}$ 的取值就可以得到特征。所以，神经网络可以构建为如下形式：

functionEWMA

深度学习与时间序列的周期性特征

在这里，时间序列的周期性特征就是指当前点与昨天同一个时刻，七天前同一个时刻的差值等指标。可以假设时间序列 $X_{n} = [x_{week}, x_{yesterday}, x_{today}]$ 可以拆分成三个部分 $x_{week}, x_{yesterday}, x_{today},$ 分别是一周前的数据，昨天的数据，今天的数据，假设它们的长度都是 [n/3]，最后一点都表示不同天但是同一个时刻的取值。所以，同环比特征

$x_{today}[-1] - x_{yesterday}[-1]$ 与 $x_{today}[-1] - x_{week}[-1]$ 都是可以通过神经网络构造出来。

$mean(x_{today}) - mean(x_{yesterday})$ 与 $mean(x_{today}) - mean(x_{week})$ 这一类特征也可以构造出来。

有一些特征时用来计算是否高于历史一段时间的最大值，或者低于历史一段时间的最小值，在这里可以先构造 $\max, min$ 等函数，再计算两者的差值即可。例如，我们可以构造一个特征用于计算当前值是否高过昨天的峰值，以及超出的幅度是多少。用公式来表示那就是：

$\max\{x_{today}[-1]-\max\{x_{yesterday}\}, 0\},$

如果当前值 $x_{today}[-1]$ 大于昨天的最大值，就返回它高出的幅度；否则就返回0。

也可以构造一个特征用于计算当前值是否低于一周前的最低值，以及低于的幅度是多少。用公式来表示那就是：

$\min\{x_{today}[-1]-\min\{x_{week}\},0\},$

如果当前值 $x_{today}[-1]$ 小于一周前的最低值，就返回它低于的幅度；否则就返回0。

这两个特征只需要使用神经网络表示出 $\max, \min, minus$ 激活函数使用 $ReLU$ 即可。

深度学习与时间序列的分类特征

在时间序列的分类特征里面，有一种特征叫做值分布特征。假设时间序列的值域在 $[0,1]$ 之内，值分布特征的意思是计算出一个时间序列 $X_{n} = [x_{1},\cdots,x_{n}]$ 的取值在 $[0,0.1), [0.1,0.2),\cdots,[0.9,1]$ 这十个桶的个数，进一步得到它们落入这十个桶的概率是多少。这一类特征可以通过之前所构造的 count 函数来生成。因此，分类特征也是可以通过构造神经网络来形成的。

深度学习与时间序列的特征总结

至此，我们已经证明，对于任意长度 $n\geq 1$ ，存在一个神经网络，它的输入和输出分别是原始的时间序列与 Table 2 中的时间序列特征层。整体来看，

1. 存在多个前馈神经网络可以生成时间序列的特征；

2. 深度学习+时间序列异常检测可以实现端到端（End to End）的训练过程，也就是说：输入数据是归一化之后的原始数据（normalized raw data），输出的是两个标签（正常&异常），神经网络的权重可以通过大量数据集和目标函数训练出来。

3. 如果神经网络的输入是归一化之后的 raw data，输出是标签 1 或者 0。此时的前馈神经网络需要至少两个以上的隐藏层，才能够达到较好地提取特征的目的。

基于前馈神经网络的时间序列异常检测算法

通过前面的陈述，我们可以构造一个端到端（End to End）的前馈神经网络，意思就是说：前馈神经网络的输入层是原始的时间序列（归一化之后的数据），前馈神经网络的输出层是标签。

在这里，我们考虑的是三天数据的子序列，以 20180810 的 10:00am 为例，考虑当天历史三小时的数据（07:00-10:00），昨天 20180809 前后三小时的数据（07:00-13:00），再考虑一周前 20180803 前后三小时的数据（07:00-13:00）。这样就形成了一个子序列，总共有 903 个点。然后我们可以使用最大最小归一化获得神经网络的输入数据，而输出数据指的就是最后一个点是异常点（label = 0）还是正常（label = 1）。

Figure 5 指出了前馈神经网络的结构图，输入层是归一化之后的时间序列原始数据，中间两层是隐藏层，输出层就是异常或者正常的概率值。而中间层的激活函数可以使用 ReLU 或者 Leaky ReLU，在这里我们通过实验发现 Leaky ReLU 的效果略好于 ReLU。而最后一层的激活函数使用的是 Softmax 函数，输出的两个概率值之和永远都是 1。

在这种神经网络结构下，神经网络的参数量级大约是 10 万量级，在这种情况下，使用少量的几百几千个样本几乎是无法训练出来的。在这里，我们使用了大约 10 万的样本数据，才得到一个还不错的效果。在这里，我们使用 3-Sigma 算法，EWMA 控制图算法，多项式回归算法，孤立森林算法，XGBoost + 特征工程，前馈神经网络来进行算法的对比。通过数据的对比可以得到，XGBoost 与 DNN 其实差不多，都能够达到实际使用的上线标准。

Table4 Table5

Table6

从深度学习的基础知识可以得到，CNN 的中间层可以用来提取图片的特征，因此，这里的前馈神经网络的隐藏层的输出同样可以作为时间序列的特征层。于是，我们通过实验，基于隐藏层的输出可以作为时间序列的隐藏特征，也就是所谓的 Time Series To Vector。通过 Time Series To Vector，我们可以既可以对时间序列进行聚类（KMeans），也可以对时间序列进行 Cosine 相似度的计算，进而得到同一类时间序列和相似的时间序列。

论文的主要结论

从本文的主要定理和实验效果来看，前馈神经网络是一个非常有效地可以用作时间序列异常检测的工具。本篇论文不仅提供了一个端到端的训练方法，并且不需要对时间序列进行特征工程的操作。从实验数据来看，使用前馈神经网络（feedforward neural network）可以得到与 XGBoost 差不多的效果。并且，前馈神经网络隐藏层的输出可以作为时间序列的隐藏特征（Time Series To Vector），使用 Cosine 相似度或者 KMeans 算法就可以对时间序列进行相似度的计算和聚类操作。在时间序列异常检测领域，使用特征工程 + 有监督算法的方法论比较多，而使用端到端的训练方法，也就是前馈神经网络的方法应该还是相对较少的。因此，端到端的前馈神经网络算法应该是本文的方法与其他方法论的最大不同点。

参考文献

《企业级 AIOps 实施建议》白皮书-V0.6 版本
《腾讯运维的AI实践》— 2018年4月 GOPS 全球运维大会
《Feedforward Neural Network for Time Series Anomaly Detection》，Arxiv，2018年12月18日
Github：https://github.com/Tencent/Metis

Computer Science

非计算机专业学生如何转行 AI

December 19, 2018 zr9558 Leave a comment

个人背景

笔者本科和博士期间都在数学系攻读基础数学，也就是那种跟工业界基本上挨不上边的东西。后来博士毕业之后进入互联网公司搬砖，于是就开始做机器学习方向。之前也写过关于转行的文章，不过近期看到知乎上有类似的问题，于是整理一下之前所写分享给大家。

转专业的困难

虽然现在很多人都会说数学学完之后转计算机有优势，学了数学之后学金融如鱼得水。但是这些人很可能既没学过数学，也没学过计算机和金融，只是看了网络或者报纸上的宣传就开始四处说这些观点。其实，作为一个数学系的学生，如果要想转专业的话，其实是需要付出很多时间和精力的。因为数学系所上的课程和计算机所上的课程是不一样的。通常来说：数学系和计算机系的不完全课表大致如下：

数学系的课程：

数学分析，高等代数，解析几何，C++，离散数学，常微分方程，偏微分方程，抽象代数，复变函数，实变函数，泛函分析，数值计算，偏微分方程数值解，拓扑学，微分几何，概率论与数理统计，随机过程等。

计算机系的课程：

微积分，线性代数，离散数学，数据结构与算法，数字电路，计算机组成原理，操作系统，编译原理，计算机网络，数据库原理，软件工程，汇编语言等。

从这两个表格的对比情况来看，如果要想从数学系转行到计算机系，那么基本上要把计算机的一些基础知识课程都大致过一遍才行，否则企业为什么不直接招聘一个计算机系的，而需要一个跨专业的人呢？在这种情况下，对数学系的人其实提出了很高的挑战，因为在数学系繁重的课程下，想要同时兼顾数学系和计算机系两个专业的课程是比较困难的，需要同学耗费巨大的时间和精力才能够做好。

人工智能行业所带来的机遇和挑战

就这几年的人工智能发展情况和笔者的个人经验而言，人工智能可以大致分成以下几个方向：

计算机视觉方向；
自然语言处理方向；
语音识别方向；
机器学习方向。

作为一个转专业的学生，如果要在一些比较成熟的行业里面去和科班的人去竞争，那么自然就会出现劣势，因为企业是非常看个人产出的。既然能够招聘到一个有经验的人，其实没有必要培养一个无经验者。这种时候，转专业的同学一定要找好自己的定位，也就是传说中的“打法”，需要凸显自己的优势，然后尽量避开劣势。举个例子，假设让一个数学系的人去做美术设计，在大多数情况下就是把自身的缺点暴露给别人，当然在数学系也有美术不错的同学。但是在大多数情况下，数学系的美术功底比艺术院校的美术功底其实是差很远的。在人工智能领域也是这样的，在一些成熟的领域，其实计算机系就能给工业界源源不断地提供人才，对于转行的人来说其实是不算特别友好的。计算机视觉方向（Computer Vision）无论是在学校还是在公司，都有着大量的从业者，并且 ImageNet 项目可以提供上千万的标注图片供大家使用。既然 ImageNet 是开源的数据集，那么无论是学校的教授还是学生，不管是大型互联网公司还是初创企业，都可以轻易地获取到这些数据集，不仅可以进行 CV 算法的研究工作，还可以进行相关的工程实践。由于计算机视觉方向的历史悠久，不管是计算机系，工程系，甚至数学系，都有着大量的老师和相应的学生从事该方向的研究工作，因此，学校或者研究所能够对工业界输出的计算机视觉人才数量也是可观的。其他两个，自然语言处理和语音识别的老师其实也是有的，可能相对于图像来说是少了一些。

如果针对机器学习领域的话，就公司或者学术界的一些情况来看，其实机器学习领域的应用范围十分广泛。最经典的当然属于广告推荐和个性化推荐这一块，无论是今日头条，抖音，还是各个 APP，其实都包含了推荐系统，无论这个推荐系统是通过规则的形式做出来的，通过逻辑回归的方法做出来的，还是通过深度学习做出来的，都是可以在点击率和利润等方向上获得收益的。除了推荐系统之外，游戏 AI 也是一个不错的研究方向，几年前强化学习这个方向也是不温不火，但是在 AlphaGo 崛起之后，深度学习和强化学习就已经开始进入了大多数人的视野。随着围棋被攻克之后，德州扑克AI，或者其他的游戏 AI 也被很多学者和大型游戏公司所关注。DeepMind 也在 2017 年开放了星际争霸的研究平台，今年无论是在 Dota2 还是星际争霸上，游戏 AI 相比之前都有了巨大的突破。因此，如何在诸多业务线中，选择一个适合自己的研究方向，才是比较关键的问题。是选择一个成熟的领域努力奋斗，还是选择一个新兴领域开疆拓土，都是需要自己去考虑的。

机器学习如何入门

上一部分介绍了人工智能方向的一些情况，下面可能各位同学比较关心机器学习领域该如何入门。由于笔者是做机器学习方向的，对计算机视觉，自然语言处理，语音识别等方向不太了解，所以这次着重讲一下如何转行到机器学习。

在公司里面工作通常都需要有提取数据的工具，在大多数情况下就是写 SQL。SQL 是为了从数据库中提取数据，然后进行必要的数据过滤，数据分析，数据提取。对于 SQL，需要掌握的内容有以下几点：聚合函数，数学函数，字符串函数，表格的连接函数，条件语句等。SQL 的经典教材有两本，分别是：《HIVE编程指南》，作者 Edward Capriolo；《SQL基础教程》，作者 Mick。个人特别喜欢《SQL基础教程》，极易上手，易学易通。

目前工业界的机器学习编程语言很多，就个人浅显的经验来看，现在比较常见的编程语言还是 Python。Python 的话包括各种各样的工具包，例如 Numpy，Scipy，Scikit-Learn，Tensorflow 等等。其中，Scikitlearn 的文档是非常详细的，特别适合初学者入门学习。至于 Python 教材的话，其实有很多，例如：《Python基础教程》，作者是 Magnus Lie Hetland，这本书特别适合初学者看。如果是网络教材的话，推荐参考廖雪峰的官方网站，地址是：http://www.liaoxuefeng.com/。开发环境的话，公司一般都会使用 Linux，而不是 Windows 系统。在这里，特别推荐转行的同学掌握 Python 和 Linux。

其实，除了 SQL 和 Python 之外，C++ 或者 Java 也要选择一个方向来学。因为做机器学习的时候，除了离线使用 SQL 提取各种数据，用 Python 或者各种大数据工具来进行必要的模型训练，另外一个需要做的事情就是模型的上线工作。而模型的上线的时候是需要根据实际的数据来进行模型的预测，在模型预测的时候，通常来说用 Python 的话效率会有瓶颈，这种时候都会换成 C++ 或者 Java，因此，如果大家有时间准备的话，可以考虑把 SQL，Python，C++/Java 一起准备了。

除了基础的工具之外，其实做机器学习必不可少的那就是大学数学。在一般情况下，如果要读机器学习的普通书籍，数学系二年级左右的数学课程基本上就够用了。在一些特殊的时候需要读数学系更高年级的课程，不过在工作中还是相对偏少一些。如果是数学系的优秀学生的话，这一块基本上不需要特别担心，因为机器学习的数学没有数学系所教的那么难，机器学习更强调的是应用。基本上，数学分析，高等代数，概率论与数理统计，离散数学等课程其实就够用了。除了数学之外，计算机系的数据结构和算法的课程也是需要学习的，同时也应该多做一些算法题目，毕竟面试的时候是很有可能考这些算法题目的。

除了这些计算机与数学的基础知识之外，下面就要开始讲机器学习的入门了。通常来说，随便翻开一本机器学习的教材，都能够看到以下内容。

线性回归
决策树
朴素 Bayes
神经网络
集成学习
强化学习

在这里，推荐给大家看的教材有三本：

《机器学习实战》，作者是 Peter Harrington，
《机器学习》，作者是周志华
《Scikit-learn 与 Tensorflow 机器学习实用指南》，作者是 Adrelien Geron。

通过这几本书的学习，其实按照书上的目录和内容把机器学习过一遍，基本上就能够掌握机器学习的绝大部分知识点了。如果想学计算机视觉方向或者自然语言处理方向的话，建议再去看相关的书籍和教材，这一方面的知识点的话，Stanford 有不少优秀的课程。

转专业的人如何求职机器学习

其实，绝大部分的人都是需要求职的，在这种情况下，如何在转专业的时候脱颖而出就是一个关键的问题。其实，上面所说的知识点，无论是自学机器学习，还是努力刷题目，其实都是可以通过自我学习得到的，下面来说一些不太可能通过自己就能够得到的技能。

1. 机器学习的竞赛。通常来说，无论是计算机视觉领域，NLP 领域，还是机器学习领域，都会有着各种各样的比赛。也就是公司或者竞赛的主办方会在网上公开竞赛的题目，并且提供必要的数据，让大家在该数据集上进行比赛，并且得分高的队伍获胜。而在比赛的过程中，通常都会用到各种各样的机器学习知识，这个是练习机器学习能力的第一步，也就是通过比赛来检验之前的学习是否达到了一个不错的效果。而在比赛的途中，建议还是通过组队的方式，几个人共同完成一项比赛。而且优秀的比赛结果其实最终也是可以写到简历里面的。

2. 实习经历。其实打比赛这件事情，自己做也是可以的。但是实习这个经历通常来说还是比较重要的，在一般情况下，公司选人都会从实习生当中来选，如果有合适的实习生，通常就不需要继续在校园招聘中寻找人才了。所以，找实习对应届生来说应该是比较重要的事情，而且这件事情建议早点做，而不要等到最后找工作的那一年才开始。一般来说，第一份实习可能比较难找一些，但是如果在低年级的暑假或者寒假就有实习机会的话，其实对于后续的实习或者就业是有很大的帮助的。通过实习，可以了解公司的一些业务和数据的情况，在这种情况下，才能够逐步理解工业界的数据和学术界的数据的差异性。

其实在选择做机器学习方向的时候，可以考虑得更加清楚一些，因为无论是做 CV，NLP 还是其他，都面临着和计算机系的人竞争的场面。在这里提个醒，其实机器学习并不是这两年才发展起来的，很多年前机器学习技术就已经存在了。最理想的状况就是，把机器学习的技术运用到本领域中，因为本专业的领域知识是计算机系的人并不具备的，例如，做气象研究，做金融分析。这类研究方向其实对本专业的人更加友好，如果能够把机器学习的知识应用到这些方向，那么求职的时候在本方向就更有竞争力，也会更有优势。而计算机系的人如果要转行做金融之类的，其实也要学习金融方面的知识，不过计算机系的人应该还是会倾向于去更熟悉的环境或者企业找工作。

对于转专业的人来说，如果去互联网的企业寻找工作，其实就已经算跨行了。这种时候其实是占有一定劣势的。所以，需要做的事情就是尽快补齐一些知识上的不足，并且尽快找一份实习，通过实习来提升自己的实战经验，最差也要多做比赛项目。除此之外，如果要寻找工作的话，能够找到熟悉的人帮忙内部推荐一下，拿到一些面试的机会或者名额其实也是很关键的。内推并不是保送的意思，而是免除了筛选简历的过程，直接就能够拿到面试的机会。

转专业的工作感受

1. 给自己压力。一般来说，转专业求职是一个艰苦的过程，但是入职之后的生活则更加辛苦。因为公司的考核是每半年甚至两个月就一次，所以，在这种情况下，任何人都需要有一个上手的速度。有的人因为在学校学过相关的内容，或者之前实习过，因此上手的时候比较快；但是有的人转专业就面临上手慢的情况。其实这些对于应届生来说都可以理解，毕竟所有的人都需要有一个适应的过程。在这种情况下，在工作的初期一定要给自己一定的压力。意思就是说：在刚工作的第一年，每三个月就要让自己有一个飞速的提升；在工作的第二年，每半年就要让自己有一个提升；后续的话，每一年都要让自己有提升才是关键。因此，无论是本专业还是转专业的同学，都建议在前两年工作的时候，多给自己一些压力，只有这样，才能够让自己有更好的进步空间。

2. 业务经验。公司里面有很多东西并不是直接使用开源代码就能够发挥作用的，在公司里面无论做什么事情，最重要的一点就是对业务的理解。在对业务的理解方面，老员工相对于新人来说确实有着不少的优势。其次，在做业务的过程中，通常都会经历很多的坑，无论是别人主动挖的，还是自己踩坑踩出来的，都是自身宝贵的财富和经验。而这些经验只能够通过靠做大量的业务来获得。如果要想长期保持自身的优势，通过长期的训练和学习确实是一个有效的办法。无论是天才还是普通人，要想提升自身的技术，不花一定的时间去学习是不可行的。因此，无论在任何时候都不能够放弃让自己学习和充电的机会。

3. 勇于接受新的挑战。公司里面除了已有的项目之外，通常来说都会开启各种各样的新项目，在这种情况下，如果有机会做新的项目，也就是别人没有做过的项目。这种机会已经要把握住，因为对于新人来说，能够接触全新的项目肯定是好过维护已有的项目的。但是几乎所有的人都是从维护旧的项目开始的，只有旧的项目做好了，才有机会拿到新的项目。

4. 不要永远抱着已有的方向不放手。在公司里面，业务方向总会或多或少的发生变化，随着部门的调整，方向的变化，所做的内容总会发生一些变化。在工作的时候，最好不要抱着我就是来做这个方向的，除了这个方向之外其他的内容我一概不想做。因为当时的工作岗位未必能够提供你想做的方向，但是说不定能够提供其他的研究方向。有的时候，在公司里面，根据方向的变化来调整自己的工作内容也是一个必要的技能。而且，在公司的时候，一定要多做一些有挑战的项目，只有通过这些项目，才能够让自己的技术壁垒更加深厚。当然，在求职的时候，每个人都有着自己的想法和选择，所以，在求职的时候，是可以选择一个自己喜欢的方向来做的。

机器学习还能持续多久

如果是在数学界，要想成为一个数学工作者，一般来说都要经过以下的学习路程：

数学分析/高等代数/概率论/复变函数/实变函数/泛函分析/微分几何/抽象代数

等一系列越来越难的课程的学习，而以上的这些课程只是基础课，连数学科研的边还没碰到。所有想要从事数学工作的人，都必须一步一步地，从头建立自己的数学知识体系，完善自己的数学工具库。而且数学的学习路径没有捷径，除非人绝顶聪明之外，都是需要一步一步，一年一年的来花费时间学习数学，才能够逐步体会数学所带来的奥妙。

与之截然不同的是 AI 领域（Machine Learning, CV, NLP, 语音等），一般来说只需要学习微积分/线性代数/概率论就可以基本上看懂机器学习的相关课程，当然要想深入学习 AI 的话还是需要很多数学基础的。随着科技的发展，各种开源工具的层出不穷，很多学校的学生甚至工业界的人士都已经不需要从底层从头开始，一步一步地建立自己的工具库。根据各种丰富的文档和 Blog，不少人都可以快速上手各种 AI 的工作内容，无论是使用 Tensorflow 建立图像分类器，还是使用 XGBoost 刷竞赛的成绩。这种时候，从事 AI 相关工作的门槛将会比之前变得越来越低，毕竟从头开始手动写一个 BP 算法或者说 GBDT 算法还是有一定门槛的。

根据经济学的基础知识，供需关系与价格有着一定的关系。一旦人数过多，而市场上的蛋糕并没有那么大的时候，很多人就要降低自己之前的期望，甚至转行做其他的事情。

之前在学校读书的时候，就听一些老师说过，最近放出来一个助理教授的职位，但是收到了200-300封简历，全部都是北美欧洲或者国内名校的PHD。之前听说在1980年的时候，数学PHD还不需要做posdoc就可以找到工作；到了1990年，基本上都要做一两年的posdoc才可以找到下家；到了00年以后，回国的话马上还能找到一个不错的职位，虽然工作不高，但是对论文的要求也没那么高；等到了2010年以后，国家千人计划等项目的开启，没有在国外混到一个好职位的，没有几篇好文章的，基本上在国内就没法找到教职了。等到了2020年以后，还真不知道是什么样的行情了，进入好学校的要求肯定是越来越高，要求的论文数量也是越来越多，质量也是越来越高了。

如果现在有十个岗位，但是只有五个 AI 专业的人来应聘，当然这些人都能够找到工作；但是随着人工智能专业的开设，相关的本科生和研究生开始培养，AI 从业者将会变得越来越多，但是岗位是否能够得到相应的增加就不是特别清楚了。就之前的经验而言，数学系的学生之间在毕业的时候差距还是挺大的，有的很强，有的很差。相信在人工智能专业也会有类似的情况，优秀的学生总是占少数。

就笔者的经验实在是无法确定这一波 AI 浪潮能够持续多久，如果五六年之后这波浪潮还在，蛋糕越来越大，那么现在选择攻读 AI 相关专业的人将会是受益者。但是如果这波浪潮不在了，蛋糕保持稳定甚至缩小的时候，AI 相关专业的人的竞争将会变得更加激烈。无论是工业界还是学术界的竞争，将会比现在的情况变大很多倍。而这波浪潮退去之后，能够留在沙滩上继续前进的永远都是少数人。

M	T	W	T	F	S	S
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

ZHANG RONG

Monthly Archives: December 2018

基于前馈神经网络的时间序列异常检测算法

引言

时间序列异常检测

深度学习的简单回顾

深度学习与时间序列的特征工程

深度学习与时间序列的统计特征

深度学习与时间序列的拟合特征

深度学习与时间序列的周期性特征

深度学习与时间序列的分类特征

深度学习与时间序列的特征总结

基于前馈神经网络的时间序列异常检测算法

论文的主要结论

参考文献

非计算机专业学生如何转行 AI

个人背景

转专业的困难

数学系的课程：

计算机系的课程：

人工智能行业所带来的机遇和挑战

机器学习如何入门

转专业的人如何求职机器学习

转专业的工作感受

机器学习还能持续多久

zr9558's Blog