无分类 2018年深度学习的主要进步 在过去几年中,深度学习改变了整个人工智能的发展。深度学习技术已经开始在医疗保健,金融,人力资源,零售,地震检测和自动驾驶汽车等领域的应用程序中出现。至于现有的成果表现也一直在稳步提高。
无分类 文本相似度计算_03 simhash是google用来处理海量文本去重的算法。simhash就是将一个文档,最后转换成一个64位的字节,然后判断重复只需要判断他们的各个字节的距离是不是<n(n为自定义大小,一般取3~5),就可以判断两个文档是否…
无分类 文本相似度计算_02 该篇文章主要介绍基于词语的文本相似度计算方式,包括: 余弦相似度 欧式距离 Dice系数 Jaccard 在计算余弦相似度与欧式距离的时候,需要将词语向量化表示,这就需要用到词袋模型。 词袋模型(Bag of words) 最初的B…
无分类 文本相似度计算_01 近期准备整理一下自然语言处理方面用到的技术,之前工作都是按照工作需求来走,对用到的技术算法也没有做一下系统性的整体,所以近期准备系统性的整理一下自然语言处理相关的内容。初步构想涉及6个方面的问题。
无分类 一文了解自然语言处理神经史(下) 2014年,Sutskever等人提出序列到序列学习,一种通过神经网络将一个序列映射到另一个序列的通用框架。在该框架中,编码器神经网络逐个符号地处理句子并将其压缩成矢量表示; 然后,解码器神经网络基于编码器状态逐…
无分类 一文了解自然语言处理神经史(上) 本文扩展了Herman Kamper和我在2018年深度学习Indaba组织的自然语言处理前沿课程。整个课程的幻灯片都可以在这里找到,这篇文章将主要讨论NLP中基于神经网络方法的近期进展。