CS224n学习笔记1——深度自然语言处理

jiezi

6 年前

一、什么是自然语言处理呢？
自然语言处理是计算机科学家提出的名字，本质上与计算机语言学是同义的，它跨越了计算机学、语言学以及人工智能学科。
自然语言处理是人工智能的一个分支，在计算机研究领域中，也有其他的分支，例如计算机视觉、机器人技术、知识表达和推理等。
目标：让计算机能够理解人类语言来完成有意义的任务，例买东西或者是更高级的目标等。
下图是人对语言层次的传统描述：
从输入开始，而输入部分通常是语音输入，接着大脑就会进行语音和音义分析。也有部分是文字输入，而文字输入基本上和语言学没多大关系，OCR 对文本进行文字识别操作。
自然语言处理应用的领域：
1. 拼写检查或者是手机上的自动填写功能属于初级的语义理解任务
2. 在线搜索时，联想到的同义词，例如搜索某家公司名字就会出现一大堆的推荐，也是属于语言处理方面。
3. 让计算机能够阅读文字，提取信息，从而充分理解文本，或者也可以处理更高难度的任务，例如判定文档的阅读难度或者是目标受众群体等。
4. 机器翻译
5. 构建口语对话系统
二、什么是深度学习？
深度学习是机器学习的一个分支，总的来说，就是让计算机自动学习，而不是人工教授，手工代码告诉它想要做什么，类似于传统的编程。
深度学习不同于以往年代的机器学习，例如 80 年代、90 年代或者是 00 年代的机器学习。
核心区别：对于大多数的机器学习而言，都是围绕着决策树、逻辑回归、朴素贝叶斯、支持向量机等概念。
本质区别：由人类来审视一个特定的问题，找出解决该类问题的关键要素，然后涉及出与该问题相关的重要特征要素。通常使用 python 代码来识别这些特征。
例如下图，显示了一些实体识别系统的特征：、
机器学习和深度学习的区别？
上图中可以发现，机器学习在实际应用中，大约 90% 的工作是人类研究如何描述数据，总结出重要特征，只有约 10% 的工作是大脑运行这一个数值优化算法。
深度学习是表征学习的一个分支，表征学习的理念就是只向电脑提供来自外界的原始信号，无论是视觉还是语言信号，然后电脑自动得出好的中间表征，来很好地去完成任务。从某种意义上来说，就是自己定义特征，和以往人类定义特征类似的方式。深度学习的真正含义是：得到了多层的习得表征，可以打败其他的学习方法。
深度学习主要的两个突破：自然语言处理和计算机视觉。
三、Deep NLP=Deep Learning + NLP
一方面深度学习应用到各种不同层次的语言学上，例如词汇学、句法学、语义学。应用于各种不同类型的工具和算法的自然语言处理，例如为单词标注词性、识别人物姓名和结构名字、找出句子的句法结构。此外还被应用在其他的语言应用程序，结合各部分功能，例如机器翻译、情感分析的聊天助手等。
深度学习模式运用同样一套工具和技术，非常统一的方法来处理各个领域的问题。
参考资源：斯坦福大学自然语言处理课程