小米网站开发流程书,wordpress主题定制,大型门户网站建设方案,做夹具需要知道的几个网站作者#xff1a;Matthew Mayo 机器之心编译 参与#xff1a;Xuwen Wang、Chen Chen 微信公众号#xff1a;#xff08;almosthuman2014#xff09;授权转载#xff0c;禁止二次转载#xff0c;点此为原文链接 本文介绍了包括 LSTM、ANNS、生物神经元、反向传播、多元感知… 作者Matthew Mayo 机器之心编译 参与Xuwen Wang、Chen Chen 微信公众号almosthuman2014授权转载禁止二次转载点此为原文链接 本文介绍了包括 LSTM、ANNS、生物神经元、反向传播、多元感知机等 14 个深度学习关键概念对初学者来说搞清楚这些关键词的含义对理解深度学习至关重要。机器之心曾在九月的一篇文章中介绍过有关深度学习的其他专业术语。 尽管在最近的在线搜索中已经占据高的搜索量深度学习仍然是一个相对较新的概念。由于在各个不同的领域都获得了巨大的成功机器学习在研究和生产领域中大量涌现。机器学习是应用深度神经网络技术的一个过程——也就是有着多个隐藏层的神经网络构架——去解决问题。像数据挖掘一样深度学习也是一个进程它采用了神经网络构架——一种特定的机器学习算法。 近段时间来深度学习已经积累了可观的研究成果。据此在我看来将以下下几点牢记在心对机器学习十分重要 机器学习不是万灵药——它不能够解决所有的问题。 它并不是一个传说中的大师级的算法——深度学习不能够替代其他机器学习的算法和数据科学的技术或者说至少它至今还未被证明可以 我们需要对它持以平和的期待——尽管最近各种分类问题特别是计算机视觉和自然语言处理强化学习以及其他领域都已取得显著进步深度学习目前还没有到达可以解决诸如「实现世界和平」这种复杂问题的水平。 深度学习和人工智能并非同义词。 深度学习可以通过向一大堆数据提供附加的操作和工具从而解决问题。由此深度学习在数据科学领域是一个十分有用的辅助。 就像上图所示深度学习深度学习之于数据挖掘就像深度神经网络之于机器学习进程 VS 构架。同时我们也可以看到深度神经网络绝大程度属于当前人工智能的情况。两者概念相互交织几乎已经到了相同意思的程度但实际上这两者并非相同的事物人工智能除了神经网络还含有大量其他的算法和技术同时在深度学习过程和神经网络技术的带领下近几年来在相关领域有了卓越的跨越。其中起重要作用的深度学习深度神经网络和计算机视觉自然语言处理生成模型之间的联系值得关注。由此让我们通过简明扼要的定义来了解深度学习和相关术语。 1. 深度学习 就像上述定义的一样深度学习是应用神经网络解决问题的过程。深度神经网络是有着至少一个隐藏层的神经网络如下图。像数据挖掘一样深度学习所指的是一个特定的过程。其中采用了深度神经网络-一种特定的机器学习算法的框架。 2. 人工神经网络ANNs 机器学习构架最早的灵感来源于生物大脑尤其是神经元深度学习就运用到了神经元的概念。事实上单一的人工神经网络并非深度神经网络在很早之前就被发现在过去已经能解决一些特定的问题。然而相较于现在目前的神经网络构架都被设计为包含数个隐藏层除了简单的输入和输出层。层数的增加提高了网络的复杂度使得网络能够进行深度学习成为一种更强大的问题解决工具。 实际上人工神经网络 ANN 一族结构差别很大因此目前没有一个确切的神经网络定义。目前两个主流的适用于所有 ANN 的特征一个是拥有一个可调整的权重集合另一个是具有模拟输入信号到神经元的非线性功能的能力。 3. 生物神经元 在生物和人工神经网络之间的关系已经有了明确的定义。大量传播开的出版物渲染出这样一个概念ANN 是某种对发生在人或其他生物大脑的过程的完全复制。这种观念显然是不准确的。充其量我们只能说早期的人工神经网络是受到生物学的启发。两者间抽象的关系不比原子的组成和功能与太阳系间的抽象关系明确。 也就是说如果仅仅了解是什么启发了 ANN这提供了一种高层次的解读可帮助我们去理解生物神经是如何工作的。 以下是我们对生物神经元的最感兴趣的部分包括 携带着遗传信息的细胞核如 DNA 处理输入刺激并转化为输出刺激的细胞体。 从其他神经元接受刺激的树突。 信息传给其他神经的轴突。 轴突末端和相邻树突之间形成的突触结构。 在轴突末端与相邻树突形成的突出间隙中扩散着一种叫做神经传递素的化学物质他实现了神经传递。神经中最关键的部分是神经通过树突接收到刺激处理后通过轴突末梢传输出去。在末梢处会经过突触间隙然后到达许多接受神经的树突。该过程将重复进行。 4. 感知机 感知机是一个简单的线形二进制分类器。它接收输入和与其相连的权重表示输入变量的相对重要性将它们结合来产生输出。输出接下来被用于分类。感知机已经存在很长一段时间了最早的使用可追溯到 1950 年代其中一个也是应用到早期的人工神经网络中。 5. 多层感知机 一个多层感知机MLP是由几个含有全邻接层的感知机组成形成一个简单的前馈神经网络见下。这个多层感知器在非线性激活函数上有许多好处这些都是单层感知器不具备的。 6. 前馈神经网络 在非周期性连接的神经网络结构中前馈神经网络是最简单的形式。最初的人工神经网络中前馈网络中的信息从输入节点单方向前进而后通过所有隐藏层到达输出节点不存在任何周期。前馈网络不同于之后的连接构成有向循环的周期性网络架构见下文。 7. 循环神经网络 和上文所提到的前馈神经网络不同循环神经网络的连接构成有向循环。这种双向流动允许内部时间状态表示继而允许序列处理。并且值得注意的是它提供了用于识别语音和手写的必要能力。 8. 激活函数 在神经网络中激活函数通过组合网络的加权输入来产生判定边界输出结果。激活函数的范围从标识线性到 Sigmoid 函数逻辑或软步长双曲线正切和超越。为了采用反向传播见下文神经网络必须使用可微的激活函数。 9. 反向传播 我所见过的对反向传播的定义中最基本、简洁的定义是数据科学家 Mikio L. Braun 在 Quora(https://www.quora.com/How-do-you-explain-back-propagation-algorithm-to-a-beginner-in-neural-network/answer/Mikio-L-Braun) 上给出的答案。我在此列出原文以防破坏这份答案简洁的完美。 反向传播只是在个别错误上进行梯度下降。通过比较对神经网络预期输出的预测而后计算相对于神经网络的权重的误差梯度。然后得出了权值空间中减小误差的方向。 我将它列在这里。 10. 成本函数 在训练神经网络时必须评估网络输出的正确性。众所周知预期上正确的训练输出数据和实际的训练输出是可比拟的。成本函数便能测量实际和训练输出之间的差异。实际和预期输出之间的零成本将意味着训练神经网络成为可能。但这显然是理想化的。 所以通过什么机制来调整成本函数以实现将其最小化的目标呢 11. 梯度下降 梯度下降法是求函数局部极小值的一个优化算法。虽然它不能保证全定义域内的最小值但梯度下降对于难以通过分析例如通过将导数取 0 获得最优解求得精确解的问题十分有用。 正如上文所述在神经网络的情况中随机梯度下降用于对网络参数做出知情调整以达到使成本函数最小化的目标从而使网络的实际输出迭代性地愈加接近在培训期间的预期输出。这种迭代最小化采用微积分即微分。在训练步骤之后网络权重根据成本函数的梯度和网络的当前权重接收更新使得下一个训练步骤的结果可以更加接近正确值通过更小的成本函数测量。反向传播关于错误的反向传播便用于将这些更新以小份的形式送到网络。 12. 梯度消失问题 由于反向传播使用链式规则来计算梯度通过微分朝向 n 层神经网络的「前」输入层将使其修改的梯度以一个较小的值乘以 n 次方然后再更新之前的固定值。这意味着梯度将指数性减小。n 越大网络将需要越来越多的时间来有效地训练。 13. 卷积神经网络 卷积神经网络CNN通常与计算机视觉和图像识别相关联并采用卷积的数学概念来模仿生物视觉皮层的神经连接网格。 首先正如 Denny Britz 所描述一样(http://www.kdnuggets.com/2015/11/understanding-convolutional-neural-networks-nlp.html)卷积可以被认为是在图像的矩阵表示之上的滑动窗口见下文。 来源斯坦福 在神经网络结构中至少在计算机视觉实现该概念将导致专用于处理局部图像的神经元的集合。当在某些例如自然语言处理的其他领域中使用时鉴于输入字句子等可以置于矩阵中并以类似的方式处理故可以采取同样的方法。 14. 长短期记忆网络LSTM 来源Christopher Olah(http://colah.github.io/posts/2015-08-Understanding-LSTMs/) 长短期记忆网络LSTM是经优化以用于从时间相关数据中学习和作用的循环神经网络而这些数据可能在相关事件之间具有未定义的或未知的时间长度。它们的特定架构给予 ANN「内存」并允许其持久性。最近手写识别和自动语音识别的突破便得益于 LSTM 网络。 这显然只是深度学习术语的一个小部分以及许多衍生的从基础到高级的概念。若欲了解更多关于机器学习研究当前领先的领域您需要自行探索。