永利娱乐网投F永利网投网址

返回论文永利娱乐网投F永利网投网址网在线首页
  • 论文永利娱乐网投F永利网投网址网在线-首页
  • 免费学术论文永利娱乐网投F永利网投网址
  • 学术期刊
  • 论文永利娱乐网投F永利网投网址网在线网站简介
  • 征稿授权

深度学习的模型搭建及过拟合问题的研究

 论文永利娱乐网投F永利网投网址栏目:计算机论文永利娱乐网投F永利网投网址     更新时间:2018-03-20   浏览

 摘 要: 深度学习是机器学习研究中的一个新的领域,它模仿人脑的机制来解释数据,例如图像,声音和文本。文章介绍了一种多层感知器结构的深度学习神经网络模型,并推导了其实现的算法。用数字识别实验验证了该模型及其算法的可靠性;验证了过拟合的发生与训练集的大小以及神经网络的复杂度之间的重要关系。过拟合问题的研究对降低误差有重要的意义。

关键词: 深度学习; 神经网络; 隐藏层; 过拟合

中图分类号:TP391.9 文献标志码:A 文章编号:1006-8228(2018)02-14-04

Abstract: Deep learning is a new field in machine learning research. It simulates the mechanism of human brain to interpret data, such as image, voice and text. In this paper, a deep learning neural network model of multilayer perceptron structure is introduced and its implementation algorithm is derived. The reliability of the model and its algorithm are also verified by some digital recognition experiments, and find that the size of the training set and the complexity of neural networks are highly related with the over-fitting. It is of great significance to study the problem of over-fitting to reduce the error.

Key words: deep learning; neural networks; hidden layer; over-fitting

0 引言

深度學习的概念源于人工神经网络的研究[3]。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层来表示属性类别或特征,以发现数据的分布式特征表示。在深度学习泛化(generalization)过程中,主要存在两个挑战:欠拟合和过拟合(overfitting)。欠拟合是指模型不能在训练集上获得足够小的误差,而过拟合是指训练误差和测试误差之间的差距太大。

1 模型设计

1.1 多层感知器结构[1]

本文采用多层感知器(MLP)作为训练模型,它是一种前馈人工神经网络模型。它包括至少一个隐藏层(除了一个输入层和一个输出层以外)本文采用的多层感知器模型中的信号流传播如下:

⑴ 输入:yi(n)为i神经元的输出,为下一个神经元j的输入。

⑵ 诱导局部区域:神经元j被它左边的yi(n)神经元产生的一组函数信号所馈,神经元j产生诱导局部区域。

⑶ 激活函数:神经元j输出处的函数信号yi(n)为,其中为j层神经元的激活函数。采用激活函数的一个好处是引入非线性因素,使神经网络变成非线性系统。本文采用Sigmoid函数作为激活函数,其定义为:,导数可用自身表示:

⑷ 误差:k为输出神经元,则误差ek(n)=dk(n)-yk(n),其中dk(n)为信号输出。

1.2 代价函数

代价函数是用来反映/度量预测结果yk(n)与实际结果dk(n)的偏差,本文采用最小平方(LMS)算法来构造代价函数:

1.3 随机梯度下降算法[4]

本文采用随机梯度下降算法(SGD)进行迭代,在此算法中,对的连续调整是在最速的方向进行的,即它是与梯度向量方向相反的。记为,因此,梯度下降算法一般表示为:。其中这里η是一个常数,称为学习率参数,是梯度向量值。

1.4 反向传播算法[5]

本文采用的反向传播算法以与1.3节类似的方式对突触权值应用一个修正值,它正比于偏导数,即:

1.4.1 神经元j是输出节点

图1为输出神经元j细节的信号流图。

根据微分的链式规则,可以将这个梯度表示为:

本文采用Sigmoid函数作为激活函数,即:

为了方便,我们定义:

1.4.2 神经元j是隐藏层节点

见图1,我们对式中通过链式规则后的偏导数可以看到:,神经元k是输出节点,故:

以上为倒数第一个隐藏层的传播公式,得出了δj的反向传播递推公式(k为j正向传播的下一个神经元),并用Sigmoid函数作为激活函数:

于是我们得出了递归的校正值的定义:

2 实验

本模型以识别手写数字为例,测试深度学习模型。本文采用的数据集为著名的“MNIST数据集”。这个数据集有60000个训练样本和10000个测试用例。我们首先对该模型进行验证,然后通过调整训练集的大小和神经网络的结构来观察其对正确率的影响。

2.1 模型算法

学习阶段:本文采用mini-batch 梯度下降算法:假设总样本数为Sn,将Sn随机按每组N个样本分为(Sn/N)组。多层感知器的突触权值的调整在训练样本集合的所有N个样本例都出现后进行。(Sn/N)次完成整个样本集的训练,构成了一个训练的回合(epoch)。学习需经过多个回合,不断完善。具体步骤如下。

① 搭建神经网络骨架(层数及每层神经元个数),初始化ω(为矩阵)。

② 将所有样本随机分组,每组N个样本。

③ 在每个训练样本集(N个样本)中,对每个样本进行迭代。假设N个样本中第k个为。

④ 根据样本集的输入参数通过前馈神经网络计算出。

⑤ 根据1.4.1中的公式,计算最后一层神经元的和和。

⑥ 根据1.4.2中的公式,倒推计算上前层的和。

⑦ 执行②迭代和③直至倒推至第一层。最终计算出突触权值修正(为矩阵)。

⑧ 一个mini-batch后,ω修正为:。

⑨ 循环③至⑦(Sn/N)次完成一个训练的回合。⑩循环①-⑨进行多个回合的学习。

测试阶段:将每个测试样本带入已经学习完成的模型,计算其准确率。

2.2 实验结果

2.2.1 模型的验证

采用MNIST数据集,训练集样本数量为50000个,测试集样本数量为10000个。本次采用如图2的神经网络的模型。

第一层是输入层。因为mnist数据集中每一个手写数字样本是一个28*28像素的图像,因此对于每一个样本,其输入的信息就是每一个像素对应的灰度,总共有28*28=784个像素,故这一层有784个节点。

第三层是输出层。因为阿拉伯数字总共有10个,当样本属于某一类(某个数字)的时候,则该类(该数字)对应的节点为1,而剩下9个节点为0,如[0,0,0,1,0,0,0,0,0,0]。

第二层为隐藏层,包含了数字的特征,本次模型采用30个节点。

本模型的超参数(可调节参数)是:隐藏层的节点数=30,训练回合数(epochs)=15, 用于随机梯度下降法的最小样本数(N)10,步长(学习率η)=3.0。这些参数可调。

本次实验采用python作为开发框架,引入numpy和pyplot两个工具包作为数学工具及画图工具。以下为实验结果:

如图3所示,x轴代表训练的回合次数,y轴代表对测试准确率。

从图3可以看出,随着训练回合次数的上升,模型识别的正确率也不断的在上升,当回合次数趋于6次时,模型正确率趋于平稳。该模型的正确率高达95%左右,说明效果比较良好。

2.2.2 训练样本数及隐藏层节点数对正确率的影响

本实验采用上述模型,固定的超参数为:训练回合数(epochs)=15,用于随机梯度下降法的最小样本数(N)10,步长(学习率η)=3.0。

本实验主要研究训练样本数和隐藏层的节点数对正确率的影响。如图4所示:x(neurons)轴为隐藏节点数,实验取了[30,60,90,120,150,180]6个离散点坐标点。y(sample size)轴为样本数,实验取了[10000,20000,30000,40000,50000]5个离散点坐标,对60个不同的超参数组合做了实验。z轴为对应的识别正确率。如图4所示,总体来说,当隐藏节点数量超过90时,正确率开始下降。隐藏节点小于等于60的情况下,正确率随着样本数的上升而上升。

图5展示了当隐藏节点数为60时,正确率与训练样本数的关系,从中可以看出,正确率随着样本数的上升而上升,当样本数大于40000时,逐渐趋于饱和。其部分原因是由于开始训练样本缺乏,导致该神经网络的泛化处于过拟合状态。

图6展示了使用50000个训练样本时,正确率与隐藏层的节点数的关系,从图中可以看出,开始正确率随着隐藏层的节点的上升而上升,当隐藏节点超过60时,正确率随着隐藏层的节点数上升而下降,逐渐区域70%左右。可以看出,在开始上升阶段,该神经网络的泛化处于欠拟合状态,而在后来的下降阶段,该神经网络的泛化处于过拟合状态。

2.3 实验分析

從上述实验可知,发生过拟合的原因主要是①训练集太小;②神经网络太复杂。通过调整模型的容量[2](capacity),我们可以控制模型是否偏向于过拟合或者欠拟合。

当机器学习算法的容量适合于所执行任务的复杂度和所提供数据的数量时,算法效果最佳。容量不足的模型不能解决复杂任务。容量高的模型能够解决复杂的任务,但过高时,有可能会过拟合。

3 结论

本文介绍了一种简单的深度学习神经网络模型,并推导了其实现的算法,并对该神经网络模型进行了实现,通过手写数字识别实验对该模型进行了验证,其效果良好。本文又通过调节部分超参数的方式来研究过拟合问题。实验发现,训练集的大小和神经网络的复杂度对过拟合的发生有重要影响。研究深度学习对计算机视觉,语音识别,自然语言处理等其他领域有着重要作用,而研究过拟合问题对降低深度学习的误差有重要的意义。本文尚未对神经网络结构、激活函数、学习率等与过拟合的影响进行讨论,下一步将研究神经网络的结构对过拟合的影响。

参考文献(References):

[1] [加]Simon Haykin.神经网络与机器学习[M].机械工业出版社,2017.

[2] [美]lan Goodfellow,[加]Yoshua Bengio[加]Aaron Courville. 深度学习[M].人民邮电出版社,2017.

[3] 周志华.机器学习[M]. 清华大学出版社,2016.

[4] Bottou, Léon (1998). Online Algorithms and Stochastic Approximations. Online Learning and Neural Networks. Cambridge University Press.ISBN 978-0-521-65263-6.

[5] Mizutani, Eiji; Dreyfus, Stuart; Nishio, Kenichi (July2000). On derivation of MLP backpropagation from the Kelley-Bryson optimal-control gradient formula and its application. Proceedings of the IEEE International Joint Conference on Neural Networks.

作者:陶砾 杨朔 杨威

论文永利娱乐网投F永利网投网址网在线收录7500余种期刊杂志,种
类遍及教育、医学、经济、管理、工业等
多门类杂志的杂志推荐服务。
版权所有@2006-2017
国家备案:闽ICP备05018688号-1
论文永利娱乐网投F永利网投网址网 职称论文永利娱乐网投F永利网投网址 职称论文永利娱乐网投F永利网投网址发表 论文永利娱乐网投F永利网投网址发表
值班电话
18575823333
18575823333

在线客服


咨询电话
18575823333
邱老师
业务内容
优秀杂志
支付方式
常见问题
网站地图
经营许可
  • 官方微信