首页/文章/ 详情

【数据分析】从零开始带你了解商业数据分析模型——深度学习之多层感知器（上）

Altair澳汰尔

8月前浏览1209

本文摘要（由AI生成）：

这篇文章是深度学习系列的上篇，重点阐述了深度学习的理论知识。文章首先介绍了深度学习在各个领域的应用和主要模型，并将常见模型归类为五类。其次，文章深入剖析了深度学习的基础知识，包括人脑决策、多层感知器和随机梯度下降等。最后，文章以一个三层感知器的案例详细解读了多层感知器的建模过程，并介绍了权重调节的数学细节。同时文章还强调了权重参数更新需要循环成百上千次直到模型收敛，而深度学习的数据量和计算复杂度较高，每次循环都消耗大量计算资源，因此优化深度学习模型非常重要。

"从零开始"系列之前已经给大家分享了线性回归和逻辑回归模型，本期我们来谈谈现在大火的深度学习。

本篇为深度学习的上篇，主要讲解理论，下周我们会讲讲如何为深度学习（特指多层感知器）模型选择合适的参数来加速模型的学习过程。

第一期回顾：【数据分析】从零开始带你了解商业数据分析模型——线性回归模型

第二期回顾：【数据分析】从零开始带你了解商业数据分析模型——逻辑回归

01

摘要

深度学习可以看作是机器学习领域中的一个前沿分支。现如今，深度学习在图像处理、自然语言处理、搜索技术、数据挖掘等领域都取得了不菲的成果。

简单来说，目前几乎所有的深度学习模型都可以用下图的模式总结。模型的最前面一层是输入层，代表了模型的输入（自变量）数据。模式的最后是一个输出层，代表了模型的输出（因变量）数据。中间包含一个或多个隐藏层，代表了模型中间训练过程的每一步的逐步结果。

笔者根据实用案例，粗略的将深度学习分为五类：

前馈网络：最简单，也是目前应用最广泛的一种人工神经网络，常见于面部识别案例；
RBF网络：一种三层的神经网络，常用于电力恢复系统领域；
多层感知器：前馈网络的一种，隐藏层可包含多层网络，常用于多种机器学习案例；
卷积网络：常用于图像处理和模式识别；
循环网络：常用于自然语言处理。

02

必要的前情介绍

2.1深度学习伊始

深度学习的模型框架其实要归结到人脑的决策过程。

人在做决策的时候，从外界接收到的影像，声音或触感等信息，通常会被转换成生物电的形式，流入不同的神经元，经过不同神经元的处理后，会有相应的生物电产生并流出当前的神经元，然后再准备流入下一个神经元。经过若干次处理后，最后的生物电会抵达大脑皮层，人也在那个时候做出相应的决策。

通过模拟人脑的运作机制，研究人员探索出了现如今这套深度学习的模型架构。

2.2什么是感知机

多层感知器中最重要的组成元素就是单层感知机。简单来说，单层感知机就是一次线性权重相加和一次非线性分类。

如下图所示，我们将输入自变量数据x1, x2,…,xn 通过一定的权重相加，随后将对应的计算值带入一个非线性分类的计算中，最终我们可以得到一个因变量的相应取值。这里的非线性分类计算有个专有称呼，叫做激活函数。

读到这里，大家是不是回想到了上两篇文章。没错，线性权重相加其实就很类似于线性回归，而非线性分类则相似于逻辑回归。

简单来说，多层感知器就是多个单层感知机叠加在一起的深度学习模型，每一层运算的输出值都会作为下一层运算的输入值。而训练多层感知器的实质其实就是找到每一层最适当的权重占比，激活函数和神经元个数的过程。

2.3随机梯度下降

当我们需要优化一个函数时，或者说我们需要找到某个函数的最大/小值时，我们通常会用到随机梯度下降这个方法。

在机器学习领域中，待优化的函数我们称为损失函数。损失函数是用来估量模型预测值和真实值之间不一样程度的非负值函数。该函数通常与模型的参数息息相关。

如下图例子所示，我们假设模型的只包含两个参数θ=(θ1，θ2)。在一个三维空间中，模型的损失函数L(θ)可以视为随θ值变化而变化的曲面。我们的目标是一步步调整参数θ的取值，使得我们的损失函数达到最小值。

为达到最优值，随机梯度下降方法遵循了下面的步骤：

随机初始化或自定义初始参数值，得出起始模型
进入循环：

随机抽取若干输入值样本，基于损失函数计算梯度
根据下图迭代规则更新参数值
重复步骤，直至停止条件满足

这里的α，也叫做学习率。它调控着每一次参数更新中的步长。能否找到一个合适的学习率决定了当前神经网络收敛速度的快慢以及该模型能否收敛到局部最小值。

03

多层感知器

3.1预设模型

接下来，我们将通过一个三层感知器的案例来详细了解多层感知器的建模过程。如下图所示：

输入层是模型的输入数据，用x来表示；
中间是四层隐藏层，其中的：

线性权重相加分别由g1，g2，w1，w2表示其权重；
激活函数用f来表示；这里需要注意的是，每一层的激活函数都可以是不相同的，但是为了演示，这个例子中的激活函数都是一样的；
中间的三层步骤结果由a1，a2，a3来分别表示；

输出层则为模型的预测结果，由ŷ来表示。

模型的最后是真实结果，由y来表示。整个模型训练的过程就是，我们通过调节各个权重g1，g2，w1，w2以及各个激活函数f，来使得模型的预测结果ŷ能够尽可能的接近真实结果y。

这里我们需要注意的是，模型的训练一般是从前往后的，即我们从x到a1，到a2，再一直到ŷ。而参数的优化则是从后往前的，既我们先调节w2，再调节w1，再g2，最后是g1。

3.2权重调节的数学细节

将上面的预设模型，用公式的方法抽象出来的话，我们可以得到以下几行模型训练公式：

a1 = f(g1(x))
a2 = f(g2(a1))
a3 = f(w1(a2))
ŷ = f(w2(a3))

我们选取一种较常见的目标函数作为损失函数：

随后，我们就可以根据2.3章节中提到的随机梯度下降方法优化调节我们的四个权重参数了。

我们从w2开始，根据微积分中的链式法则，我们可以知道：

随后，根据不同模型预先设定好的，不同激活函数与权重相加公式，我们可以分别求出

和

的相关公式。

最后，我们将得到梯度结果

重新带入回参数更新公式中：

我们便完成了一次w2权重的更新。

我们随后再更新w1，根据链式法则，我们可以得出：

以及相应的参数更新公式：

类似的，我们接下来继续更新g2与给g1。

当四个的权重参数都更新过一次之后，我们就完成了一次循环的参数更新。

通常来说，一个深度学习模型都会跑成百上千次的循环或者是参数达成收敛条件。

因为深度学习的数据量和计算复杂度的原因，每一次循环都会花费不少的计算时间和资源。所以如何优化一个深度学习模型变得极为重要。

来源：Altair澳汰尔

非线性电力理论曲面 Altair

著作权归作者所有，欢迎分享，未经许可，不得转载

首次发布时间：2024-03-24

最近编辑：8月前

Altair澳汰尔

澳汰尔工程软件（上海）有限公司

获赞 142粉丝 475文章 743课程 4

点赞

还没有评论

相关推荐

ANSYS14.0理论解析与工程应用实例风电机组载荷计算及Bladed工程实践(回放) Gissmo失效模型专题课程48讲（附学习模型）基于ANSYS 2022R2 零基础入门压力容器分析设计（SAD）仿真 #超级话题#05：浅析理工科学子的科研&工程应用仿真之路

最新文章

Abaqus 常见问题(16) - 几何非线性

FLUENT板式换热器数值模拟之二

一口气了解CAE产业链全景，附产业相关政策

数字信号处理v3 第五章数字滤波器的基本结构(4)

岩土本构模型 (Constitutive Models in FLAC3D and 3DEC

热门文章

ABAQUS中Cohesive粘聚力模型的2种定义方式（附案例操作步骤）

Abaqus分析常见问题及解决方法（2）：零主元和过约束

仿真工作者必须知道的15款开源软件！

Abaqus分析常见问题及解决方法（3）：负特征值（Negative Eigenvalue）

“卡脖子”的国产工业软件，现状如何？路又在何方？

其他人都在看

盘点·近十年来国外各公司推出的碳纤维产品

几种常见的热仿真软件

电磁场仿真 | ChatGPT请回答，我想和你聊聊

STAR CCM 案例｜电池包散热

CFX进行共轭传热分析实例

VIP会员学习福利任务兑换礼品帮助与反馈

返回顶部