【导读】
本文由知名开源平台,AI 技术平台以及领域专家:Datawhale,ApacheCN,AI 有道和黄海广博士联合整理贡献,内容涵盖 AI 入门基础知识、数据分析挖掘、机器学习、深度学习、强化学习、前沿 Paper 和五大 AI 理论应用领域:自然语言处理,计算机视觉,推荐系统,风控模型和知识图谱。是你学习 AI 从入门到专家必备的学习路线和优质学习资源。
基础知识
1 数学
数学是学不完的,也没有几个人能像博士一样扎实地学好数学基础,入门人工智能领域,其实只需要掌握必要的基础知识就好。AI 的数学基础最主要是 高等数学、线性代数、概率论与数理统计 三门课程,这三门课程是本科必修的。这里整理了一个简易的数学入门文章:
数学基础:高等数学
https://zhuanlan.zhihu.com/p/…
数学基础:线性代数
https://zhuanlan.zhihu.com/p/…
数学基础:概率论与数理统计
https://zhuanlan.zhihu.com/p/…
机器学习的数学基础资料下载:
1) 机器学习的数学基础.docx
中文版,对高等数学、线性代数、概率论与数理统计三门课的公式做了总结。
2) 斯坦福大学机器学习的数学基础.pdf
原版英文材料,非常全面,建议英语好的同学直接学习这个材料。
下载链接:
https://pan.baidu.com/s/1LaUl… 提取码: hktx
国外经典数学教材:
相比国内浙大版和同济版的数学教材更加通俗易懂,深入浅出,便于初学者更好地奠定数学基础。下载链接:
https://blog.csdn.net/Datawha…
2 统计学
入门教材:深入浅出统计学
进阶教材:商务与经济统计
推荐视频:可汗学院统计学
http://open.163.com/special/K…
3 编程
入门人工智能领域,首推 Python 这门编程语言。
1) Python 安装:
Python 安装包,我推荐下载 Anaconda,Anaconda 是一个用于科学计算的 Python 发行版,支持 Linux, Mac, Windows 系统,提供了包管理与环境管理的功能,可以很方便地解决多版本 Python 并存、切换以及各种第三方包安装问题。
下载地址:
https://www.anaconda.com/down…
推荐选 Anaconda(python 3.7 版本)
IDE:推荐使用 pycharm,社区版免费
下载地址:https://www.jetbrains.com/
安装教程:
Anaconda+Jupyter notebook+Pycharm:
https://zhuanlan.zhihu.com/p/…
Ubuntu18.04 深度学习环境配置(CUDA9+CUDNN7.4+TensorFlow1.8):
https://zhuanlan.zhihu.com/p/…
2) python 入门的资料推荐
a. 廖雪峰 python 学习笔记
https://blog.csdn.net/datawha…
b.python 入门笔记
作者李金,这个是 jupyter notebook 文件,把 python 的主要语法演示了一次,值得推荐。下载链接:
https://pan.baidu.com/s/1IPZI… 提取码: 2bzh
c. 南京大学 python 视频教程
这个教程非常值得推荐,python 主要语法和常用的库基本涵盖了。
查看地址:
https://www.icourse163.org/co…
看完这三个资料后 python 基本达到入门水平,可以使用 scikit-learn 等机器学习库来解决机器学习的问题了。
3)补充
代码规范:
https://zhuanlan.zhihu.com/p/…
numpy 练习题:
https://zhuanlan.zhihu.com/p/…
pandas 练习题:
https://zhuanlan.zhihu.com/p/…
数据分析 / 挖掘
1 数据分析的基础书籍
《利用 python 进行数据分析》
这本书含有大量的实践案例,你将学会如何利用各种 Python 库(包括 NumPy,Pandas、Matplotlib 以及 IPython 等)高效地解决各式各样的数据分析问题。如果把代码都运行一次,基本上就能解决数据分析的大部分问题了。
2 特征工程
https://blog.csdn.net/Datawha…
3 数据挖掘项目
https://blog.csdn.net/datawha…
机器学习
公开课 吴恩达《Machine Learning》
这绝对是机器学习入门的首选课程,没有之一!即便你没有扎实的机器学习所需的扎实的概率论、线性代数等数学基础,也能轻松上手这门机器学习入门课,并体会到机器学习的无穷趣味。
课程主页:
https://www.coursera.org/lear…
中文视频:
网易云课堂搬运了这门课,并由黄海广等人翻译了中文字幕。
中文笔记及作业代码:
https://github.com/fengdu78/C…
公开课 吴恩达 CS229
吴恩达在斯坦福教授的机器学习课程 CS229 与 吴恩达在 Coursera 上的《Machine Learning》相似,但是有 更多的数学要求和公式的推导,难度稍难一些。该课程对机器学习和统计模式识别进行了广泛的介绍。
课程主页:
http://cs229.stanford.edu/
中文视频:
http://open.163.com/special/o…
中文笔记:
https://kivy-cn.github.io/Sta…
速查表:
这份给力的资源贡献者是一名斯坦福的毕业生 Shervine Amidi。作者整理了一份超级详细的关于 CS229 的速查表
https://zhuanlan.zhihu.com/p/…
作业代码:
https://github.com/Sierkinhan…
公开课 林轩田《机器学习基石》
台湾大学林轩田老师的《机器学习基石》课程由浅入深、内容全面,基本涵盖了机器学习领域的很多方面。其作为机器学习的入门和进阶资料非常适合。而且林老师的教学风格也很幽默风趣,总让读者在轻松愉快的氛围中掌握知识。这门课比 Ng 的《Machine Learning》稍难一些,侧重于机器学习理论知识。
中文视频:
https://www.bilibili.com/vide…
中文笔记:
https://redstonewill.com/cate…
配套教材
配套书籍为《Learning From Data》,在线书籍主页:http://amlbook.com/
公开课 林轩田《机器学习技法》
《机器学习技法》课程是《机器学习基石》的进阶课程。主要介绍了机器学习领域经典的一些算法,包括支持向量机、决策树、随机森林、神经网络等等。难度要略高于《机器学习基石》,具有很强的实用性。
中文视频:
https://www.bilibili.com/vide…
中文笔记:
https://redstonewill.com/cate…
书籍《机器学习》
周志华的《机器学习》被大家亲切地称为“西瓜书”。这本书非常经典,讲述了机器学习核心数学理论和算法,适合有作为学校的教材或者中阶读者自学使用,入门时学习这本书籍难度稍微偏高了一些。
配合《机器学习实战》一起学习,效果更好!
读书笔记:
https://www.cnblogs.com/limit…
公式推导:
https://datawhalechina.github…
课后习题:
https://zhuanlan.zhihu.com/c_…
书籍《统计学习方法》
李航的这本《统计学习方法》堪称经典,包含更加完备和专业的机器学习理论知识,作为夯实理论非常不错。
讲课 PPT:
https://github.com/fengdu78/l…
读书笔记:
http://www.cnblogs.com/limitl…
https://github.com/SmirkCao/L…
参考笔记:
https://zhuanlan.zhihu.com/p/…
代码实现:
https://github.com/fengdu78/l…
书籍《Scikit-Learn 与 TensorFlow 机器学习实用指南》
在经过前面的学习之后,这本《Scikit-Learn 与 TensorFlow 机器学习实用指南》非常适合提升你的机器学习实战编程能力。
这本书分为两大部分,第一部分介绍机器学习基础算法,每章都配备 Scikit-Learn 实操项目;第二部分介绍神经网络与深度学习,每章配备 TensorFlow 实操项目。如果只是机器学习,可先看第一部分的内容。
全书代码:
https://github.com/ageron/han…
实战 Kaggle 比赛
比赛是提升自己机器学习实战能力的最有效的方式,首选 Kaggle 比赛。
Kaggle 主页:
https://www.kaggle.com/
Kaggle 路线:
https://github.com/apachecn/k…
工具 Scikit-Learn 官方文档
Scikit-Learn 作为机器学习一个非常全面的库,是一份不可多得的实战编程手册。
官方文档:
https://scikit-learn.org/stab…
中文文档(0.19):
http://sklearn.apachecn.org/#/
深度学习
公开课 吴恩达《Deep Learning》
在吴恩达开设了机器学习课程之后,发布的《Deep Learning》课程也备受好评,吴恩达老师的课程最大的特点就是将知识循序渐进的传授给你,是入门学习不可多得良好视频资料。
整个专题共包括五门课程:01. 神经网络和深度学习;02. 改善深层神经网络 - 超参数调试、正则化以及优化;03. 结构化机器学习项目;04. 卷积神经网络;05. 序列模型。
课程视频
网易云课堂:
https://mooc.study.163.com/un…
Coursera:
https://www.coursera.org/spec…
课程笔记
之前编写过吴恩达老师机器学习个人笔记黄海广博士带领团队整理了中文笔记:
https://github.com/fengdu78/d…
参考论文
吴恩达老师在课程中提到了很多优秀论文,黄海广博士整理如下:
https://github.com/fengdu78/d…
课程 PPT 及课后作业
吴恩达深度学习课程,包含课程的课件、课后作业和一些其他资料:
https://github.com/stormstone…
公开课 Fast.ai《程序员深度学习实战》
说到深度学习的公开课,与吴恩达《Deep Learning》并驾齐驱的另一门公开课便是由 Fast.ai 出品的《程序员深度学习实战》。这门课最大的特点便是 “自上而下” 而不是“自下而上”, 是绝佳的通过实战学习深度学习的课程。
视频地址
B 站地址(英文字幕):
https://www.bilibili.com/vide…
CSDN 地址(2017 版中文字幕):
https://edu.csdn.net/course/d…
课程笔记
英文笔记原文:
https://medium.com/@hiromi_su…
由 ApacheCN 组织的中文翻译:
https://github.com/apachecn/f…
公开课 CS230 Deep Learning
斯坦福的深度学习课程 CS230 在 4 月 2 日刚刚开课,对应的全套 PPT 也随之上线。从内容来看,今年的课程与去年的差别不大,涵盖了 CNNs, RNNs, LSTM, Adam, Dropout, BatchNorm, Xavier/He initialization 等深度学习的基本模型,涉及医疗、自动驾驶、手语识别、音乐生成和自然语言处理等领域。
Datawhale 整理了该门课程的详细介绍及参考资料:
吴恩达 CS230 深度学习开课了!视频配套 PPT 应有尽有
书籍 神经网络与深度学习 – 复旦邱锡鹏
本书是入门深度学习领域的极佳教材,主要介绍了神经网络与深度学习中的基础知识、主要模型(前馈网络、卷积网络、循环网络等)以及在计算机视觉、自然语言处理等领域的应用。
复旦教授邱锡鹏开源发布《神经网络与深度学习》
书籍《深度学习》
完成以上学习后,想要更加系统的建立深度学习的知识体系,阅读《深度学习》准没错。该书从浅入深介绍了基础数学知识、机器学习经验以及现阶段深度学习的理论和发展,它能帮助人工智能技术爱好者和从业人员在三位专家学者的思维带领下全方位了解深度学习。
书籍介绍
《深度学习》通常又被称为花书,深度学习领域最经典的畅销书。由全球知名的三位专家 IanGoodfellow、YoshuaBengio 和 AaronCourville 撰写,是深度学习领域奠基性的经典教材。该书被大众尊称为“AI 圣经”。
在线阅读
该书由众多网友众包翻译,电子版在以下地址获得:
https://github.com/exacity/de…
书籍《深度学习 500 问》
当你看完了所有的视频,研习了 AI 圣经,一定充满了满脑子问号,此时不如来深度学习面试中常见的 500 个问题。
书籍介绍
DeepLearning-500-questions,作者是川大的一名优秀毕业生谈继勇。该项目以深度学习面试问答形式,收集了 500 个问题和答案。内容涉及了常用的概率知识、线性代数、机器学习、深度学习、计算机视觉等热点问题,该书目前尚未完结,却已经收获了 Github 2.4w stars。
项目地址:
https://github.com/scutan90/D…
工具 TensorFlow 官方文档
学深度学习一定离不开 TensorFlow
官方文档:
https://www.tensorflow.org/ap…
中文文档:
https://github.com/jikexueyua…
工具 PyTorch 官方文档
PyTorch 是学深度学习的另一个主流框架
官方文档:
https://pytorch.org/docs/stab…
中文文档(版本 0.3):
https://github.com/apachecn/p…
强化学习
公开课 Reinforcement Learning-David Silver
与吴恩达的课程对于机器学习和深度学习初学者的意义相同,David Silver 的这门课程绝对是大多数人学习强化学习必选的课程。
课程从浅到深,把强化学习的内容娓娓道来,极其详尽。不过由于强化学习本身的难度,听讲这门课还是有一定的门槛,建议还是在大致了解这个领域之后观看该视频学习效果更佳,更容易找到学习的重点。
视频地址
B 站地址(中文字幕):
https://www.bilibili.com/vide…
课程原地址:
https://www.youtube.com/watch…
课程资料
课程 PPT:
http://www0.cs.ucl.ac.uk/staf…
课程笔记:
https://www.zhihu.com/people/…
公开课 李宏毅《深度强化学习》
David Silver 的课程虽然内容详尽,但前沿的很多内容都没有被包括在内,这时,台大李宏毅的《深度强化学习》就是学习前沿动态的不二之选。
视频地址
B 站地址(中文字幕):
https://www.bilibili.com/vide…
课程原地址:
https://www.youtube.com/watch…
课程资料
课程 PPT:
http://speech.ee.ntu.edu.tw/~…
课程笔记:
https://blog.csdn.net/cindy_1…
前沿 Paper
1 Arxiv
Arxiv Stats
Arxiv 机器学习最新论文检索主页地址:
https://arxiv.org/list/stat.M…
Arxiv Sanity Preserver
Andrej Karpathy 开发了 Arxiv Sanity Preserver,帮助分类、搜索和过滤特征
主页地址:
http://www.arxiv-sanity.com/?…
2 Papers with Code
Papers with Code(Browse state-of-the-art)
这个网站叫做 Browse state-of-the-art。它将 ArXiv 上的最新深度学习论文与 GitHub 上的开源代码联系起来。该项目目前包含了 651 个排行榜,1016 个深度学习任务,795 个数据集,以及重磅的 10257 个含复现代码的优秀论文。简直就是一个寻找论文和代码的利器。它将 1016 个深度学习任务分成了 16 大类,涉及了深度学习的各个方面。
主页地址:
https://paperswithcode.com/sota
举两个例子:
CV:
https://paperswithcode.com/ar…
NLP:
https://paperswithcode.com/ar…
Papers with Code(Sorted by stars)
这份资源收集了 AI 领域从 2013 – 2018 年所有的论文,并按照在 GitHub 上的标星数量进行排序。
GitHub 项目地址:
https://github.com/zziz/pwc
3 Deep Learning Papers 阅读路线
如果你是深度学习领域的新手,你可能会遇到的第一个问题是“我应该从哪篇论文开始阅读?”下面是一个深入学习论文的阅读路线图!
GitHub 项目地址:
https://github.com/floodsung/…
这份深度学习论文 阅读路线 分为三大块:
1 Deep Learning History and Basics
2 Deep Learning Method
3 Applications
4 Deep Learning Object Detection
目标检测(Object Detection)是深度学习 CV 领域的一个核心研究领域和重要分支。纵观 2013 年到 2019 年,从最早的 R-CNN、Fast R-CNN 到后来的 YOLO v2、YOLO v3 再到今年的 M2Det,新模型层出不穷,性能也越来越好!
本资源对目标检测近几年的发展和相关论文做出一份系统介绍,总结一份超全的文献 paper 列表。
GitHub 项目地址:
https://github.com/hoya012/de…
5 知名会议
会议
NeurIPS:https://nips.cc/
ICML:https://icml.cc/
ICLR:https://iclr.cc/
AAAI:https://aaai.org/Conferences/…
IJCAI:https://www.ijcai.org/
UAI:http://www.auai.org/uai2019/i…
计算机视觉:
CVPR:http://cvpr2019.thecvf.com/
ECCV:https://eccv2018.org/program/…
ICCV:http://iccv2019.thecvf.com/
自然语言处理:
ACL:http://www.aclcargo.com/
EMNLP:https://www.aclweb.org/portal…
NAACL:https://naacl2019.org/
知名期刊:
JAIR:https://www.jair.org/index.ph…
JMLR:http://www.jmlr.org/
其它
机器人方面,有 CoRL(学习)、ICAPS(规划,包括但不限于机器人)、ICRA、IROS、RSS;
对于更理论性的研究,有 AISTATS、COLT、KDD。
理论应用
自然语言处理
1 NLP 是什么
自然语言处理(NLP,Natural Language Processing)是研究计算机处理人类语言的一门技术,目的是弥补人类交流(自然语言)和计算机理解(机器语言)之间的差距。NLP 包含句法语义分析、信息抽取、文本挖掘、机器翻译、信息检索、问答系统和对话系统等领域。
2 课程推荐
CS224n 斯坦福深度自然语言处理课
17 版中文字幕:
https://www.bilibili.com/vide…
课程笔记:
http://www.hankcs.com/?s=CS22…
2019 版课程主页:
http://web.stanford.edu/class…
自然语言处理 – Dan Jurafsky 和 Chris Manning
B 站英文字幕版:
https://www.bilibili.com/vide…
学术激流网:
http://academictorrents.com/d…
3 书籍推荐
Python 自然语言处理
入门读物,整本书不仅涉及了语料库的操作,也对传统的基于规则的方法有所涉及。全书包括了分词(tokenization)、词性标注(POS)、语块(Chunk)标注、句法剖析与语义剖析等方面,是 nlp 中不错的一本实用教程。
自然语言处理综论
By Daniel Jurafsky 和 James H. Martin
本书十分权威,是经典的 NLP 教科书,涵盖了经典自然语言处理、统计自然语言处理、语音识别和计算语言学等方面。
统计自然语言处理基础
By Chris Manning 和 HinrichSchütze
更高级的统计 NLP 方法,在统计基本部分和 n 元语法部分介绍得都很不错。
4 博客推荐
我爱自然语言处理
地址:http://www.52nlp.cn/
TFIDF、文档相似度等等在这个网站上都有通俗易懂的解释
语言日志博客(Mark Liberman)
地址:
http://languagelog.ldc.upenn….
natural language processing blog
地址:https://nlpers.blogspot.com/
美国 Hal Daumé III 维护的一个 natural language processing 的 博客,经常评论最新学术动态,值得关注。有关于 ACL、NAACL 等学术会议的参会感想和对论文的点评
5 项目推荐
基于 LSTM 的中文问答系统
https://github.com/S-H-Y-GitH…
基于 RNN 的文本生成器
https://github.com/karpathy/c…
基于 char-rnn 的汪峰歌词生成器
https://github.com/phunterlau…
用 RNN 生成手写数字
https://github.com/skaae/lasa…
6 开源 NLP 工具包
中文 NLP 相关:https://github.com/crownpku/A…
英文 NLP 相关:
NLTK: http://www.nltk.org/
TextBlob: http://textblob.readthedocs.o…
Gensim: http://radimrehurek.com/gensim/
Pattern: http://www.clips.ua.ac.be/pat…
Spacy: http://spacy.io
Orange: http://orange.biolab.si/featu…
Pineapple: https://github.com/proycon/py…
7 相关论文
100 Must-Read NLP Papers
https://github.com/mhagiwara/…
计算机视觉
1 计算机视觉的应用
计算机视觉的应用
无人驾驶
无人安防
人脸识别
车辆车牌识别
以图搜图
VR/AR
3D 重构
无人机
医学图像分析
其他
2 课程推荐
Stanford CS223B
比较适合基础,适合刚刚入门的同学,跟深度学习的结合相对来说会少一点,不会整门课讲深度学习,而是主要讲计算机视觉,方方面面都会讲到
李飞飞:CS231n 课程:
https://mp.weixin.qq.com/s/-N…
3 书籍推荐
1. 入门学习:
《Computer Vision:Models, Learning and Inference》
2. 经典权威的参考资料:
《Computer Vision:Algorithms and Applications》
3. 理论实践:
《OpenCV3 编程入门》
推荐系统
1 推荐系统是什么
推荐系统就是自动联系用户和物品的一种工具,它能够在信息过载的环境中帮助用户发现令他们感兴趣的信息,也能将信息推送给对它们感兴趣的用户。推荐系统属于资讯过滤的一种应用。
2 推荐课程
推荐系统专项课程《Recommender Systems Specialization》
这个系列由 4 门子课程和 1 门毕业项目课程组成,包括推荐系统导论,最近邻协同过滤,推荐系统评价,矩阵分解和高级技术等。
观看地址:
https://www.coursera.org/spec…
3 书籍推荐
《推荐系统实践》(项亮 著)
《推荐系统》(Dietmar Jannach 等 著,蒋凡 译)
《用户网络行为画像》(牛温佳等 著)
《Recommender Systems Handbook》(Paul B·Kantor 等 著)
4 算法库
LibRec
LibRec 是一个 Java 版本的覆盖了 70 余个各类型推荐算法的推荐系统开源算法库,由国内的推荐系统大牛郭贵冰创办,目前已更新到 2.0 版本,它有效地解决了评分预测和物品推荐两大关键的推荐问题。
项目地址: https://github.com/guoguibing…
官网地址:https://www.librec.net/
LibMF
C++ 版本开源推荐系统,主要实现了基于矩阵分解的推荐系统。针对 SGD(随即梯度下降)优化方法在并行计算中存在的 locking problem 和 memory discontinuity 问题,提出了一种 矩阵分解的高效算法 FPSGD(Fast Parallel SGD),根据计算节点的个数来划分评分矩阵 block,并分配计算节点。
项目地址:
http://www.csie.ntu.edu.tw/~c…
SurPRISE
一个 Python 版本的开源推荐系统,有多种经典推荐算法
项目地址:http://surpriselib.com/
Neural Collaborative Filtering
神经协同过滤推荐算法的 Python 实现
项目地址:
https://github.com/hexiangnan…
Crab
基于 Python 开发的开源推荐软件,其中实现有 item 和 user 的协同过滤
项目地址:http://muricoca.github.io/crab/
5 常用数据集
MovieLen
https://grouplens.org/dataset…
MovieLens 数据集中,用户对自己看过的电影进行评分,分值为 1~5。MovieLens 包括两个不同大小的库,适用于不同规模的算法。小规模的库是 943 个独立用户对 1 682 部电影作的 10 000 次评分的数据;大规模的库是 6 040 个独立用户对 3 900 部电影作的大约 100 万次评分。适用于传统的推荐任务
Douban
https://www.cse.cuhk.edu.hk/i…
Douban 是豆瓣的匿名数据集,它包含了 12 万用户和 5 万条电影数据,是用户对电影的评分信息和用户间的社交信息,适用于社会化推荐任务。
BookCrossing
http://www2.informatik.uni-fr…
这个数据集是网上的 Book-Crossing 图书社区的 278858 个用户对 271379 本书进行的评分,包括显式和隐式的评分。这些用户的年龄等人口统计学属性 (demographic feature) 都以匿名的形式保存并供分析。这个数据集是由 Cai-Nicolas Ziegler 使用爬虫程序在 2004 年从 Book-Crossing 图书社区上采集的。
6 推荐论文
经典必读论文整理,包括综述文章、传统经典推荐文章、社会化推荐文章、基于深度学习的推荐系统文章、专门用于解决冷启动的文章、POI 相关的论文、利用哈希技术来加速推荐的文章以及推荐系统中经典的探索与利用问题的相关文章等。
项目地址:
https://github.com/hongleizha…
7 推荐项目
1. 今日头条推荐系统机制介绍,面向内容创作者。分享人:项亮,今日头条推荐算法架构师:
https://v.qq.com/x/page/f0800…
- 3 分钟了解今日头条推荐系统原理
https://v.qq.com/x/page/g0534…
3.facebook 是如何为十亿人推荐好友的
https://code.facebook.com/pos…
4.Netflix 的个性化和推荐系统架构
http://techblog.netflix.com/2…
风控模型(评分卡模型)
1 评分卡模型简介
评分卡模型时在银行、互金等公司与借贷相关业务中最常见也是最重要的模型之一。简而言之它的作用就是对客户进行打分,来对客户是否优质进行评判。
根据评分卡模型应用的业务阶段不用,评分卡模型主要分为三大类:A 卡(Application score card)申请评分卡、B 卡(Behavior score card)行为评分卡、C 卡(Collection score card)催收评分卡。其中申请评分卡用于贷前,行为评分卡用于贷中,催收评分卡用于贷后,这三种评分卡在我们的信贷业务的整个生命周期都至关重要。
2 推荐书籍
《信用风险评分卡研究——基于 SAS 的开发与实施》
3 评分卡模型建模过程
样本选取
确定训练样本、测试样本的观察窗(特征的时间跨度)与表现窗(标签的时间跨度),且样本的标签定义是什么?一般情况下风险评分卡的标签都是考虑客户某一段时间内的延滞情况。
特征准备
原始特征、衍生变量
数据清洗
根据业务需求对缺失值或异常值等进行处理
特征筛选
根据特征的 IV 值(特征对模型的贡献度)、PSI(特征的稳定性)来进行特征筛选,IV 值越大越好(但是一个特征的 IV 值超过一定阈值可能要考虑是否用到未来数据),PSI 越小越好(一般建模时取特征的 PSI 小于等于 0.01)
对特征进行WOE 转换
即对特征进行分箱操作,注意在进行 WOE 转换时要注重特征的可解释性
建立模型
在建立模型过程中可根据模型和变量的统计量判断模型中包含和不包含每个变量时的模型质量来进行变量的二次筛选。
评分指标
评分卡模型一般关注的指标是 KS 值(衡量的是好坏样本累计分部之间的差值)、模型的 PSI(即模型整体的稳定性)、AUC 值等。
知识图谱
1 知识图谱是什么
知识图谱是一种结构化数据的处理方法,它涉及知识的提取、表示、存储、检索等一系列技术。从渊源上讲,它是知识表示与推理、数据库、信息检索、自然语言处理等多种技术发展的融合。
2 推荐资料
为什么需要知识图谱?什么是知识图谱?——KG 的前世今生
https://zhuanlan.zhihu.com/p/…
什么是知识图谱?
https://zhuanlan.zhihu.com/p/…
智能搜索时代:知识图谱有何价值?
https://zhuanlan.zhihu.com/p/…
百度王海峰:知识图谱是 AI 的基石
http://www.infoq.com/cn/news/…
译文 | 从知识抽取到 RDF 知识图谱可视化
http://rdc.hundsun.com/portal…
3 主要内容
3.1 知识提取
构建 kg 首先需要解决的是数据,知识提取是要解决结构化数据生成的问题。我们可以用自然语言处理的方法,也可以利用规则。
3.1.1 使用规则
正则表达式
正则表达式(Regular Expression,regex)是字符串处 理的基本功。数据爬取、数据清洗、实体提取、关系提取,都离不开 regex。
推荐资料入门:
精通正则表达式
regexper 可视化:例 [a-z]*(d{4}(D+))
pythex 在线测试正则表达式:
http://pythex.org/
推荐资料进阶:
re2:
Python wrapper for Google’s RE2 using Cython
https://pypi.python.org/pypi/…
Parsley:更人性化的正则表达语法
http://parsley.readthedocs.io…
中文分词和词性标注
分词也是后续所有处理的基础,词性(Part of Speech, POS)就是中学大家学过的动词、名词、形容词等等的词的分类。一般的分词工具都会有词性标注的选项。
推荐资料入门:
jieba 中文分词包
https://github.com/fxsjy/jieba
中文词性标记集
https://github.com/memect/kg-…
推荐资料进阶:
genius 采用 CRF 条件随机场算法
https://github.com/duanhongyi…
Stanford CoreNLP 分词
https://blog.csdn.net/guolind…
命名实体识别
命名实体识别(NER)是信息提取应用领域的重要基础工具,一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
推荐资料:
Stanford CoreNLP 进行中文命名实体识别
https://blog.csdn.net/guolind…
3.1.2 使用深度学习
使用自然语言处理的方法,一般是给定 schema,从非结构化数据中抽取特定领域的三元组(spo),如最近百度举办的比赛就是使用 DL 模型进行信息抽取。
序列标注
使用序列生出模型,主要是标记出三元组中 subject 及 object 的起始位置,从而抽取信息。
推荐资料:
序列标注问题
https://www.cnblogs.com/jiang…
seq2seq
使用 seq2seq 端到端的模型,主要借鉴文本摘要的思想,将三元组看成是非结构化文本的摘要,从而进行抽取,其中还涉及 Attention 机制。
推荐资料:
seq2seq 详解
https://blog.csdn.net/irving_…
详解从 Seq2Seq 模型到 Attention 模型
https://caicai.science/2018/1…
3.2 知识表示
知识表示(Knowledge Representation,KR,也译为知识表现)是研究如何将结构化数据组织,以便于机器处理和人的理解的方法。
需要熟悉下面内容:
JSON 和 YAML
json 库:
https://docs.python.org/2/lib…
PyYAML: 是 Python 里的 Yaml 处理库
http://pyyaml.org/wiki/PyYAML
RDF 和 OWL 语义:
http://blog.memect.cn/?p=871
JSON-LD
主页:http://json-ld.org/
3.3 知识存储
需要熟悉常见的图数据库
a. 知识链接的方式:字符串、外键、URI
b.PostgreSQL 及其 JSON 扩展
Psycopg 包操作 PostgreSQL
http://initd.org/psycopg/docs/
c. 图数据库 Neo4j 和 OrientDB
1.Neo4j 的 Python 接口 https://neo4j.com/developer/p…
2.OrientDB:http://orientdb.com/orientdb/
d.RDF 数据库 Stardog
Stardog 官网:http://stardog.com/
3.4 知识检索
需要熟悉常见的检索技术
ElasticSearch 教程:
http://joelabrahamsson.com/el…
4 相关术语及技术路线
本体:
https://www.zhihu.com/questio…
RDF:
https://www.w3.org/RDF/
Apache Jena:
https://jena.apache.org/
D2RQ:
http://d2rq.org/getting-started
4.1 Protege 构建本体系列
protege:
https://protege.stanford.edu/
protege 使用:
https://zhuanlan.zhihu.com/p/…
4.2 开发语言
python 或 java
4.3 图数据库技术
Neo4j:https://neo4j.com/
AllegroGraph:https://franz.com/agraph/alle…
4.4 可视化技术
d3.js:https://d3js.org/
Cytoscape.js:http://js.cytoscape.org/
4.5 分词技术
jieba:https://github.com/fxsjy/jieba
hanlp:https://github.com/hankcs/HanLP
5 项目实战
基于知识图谱的问答:
https://github.com/kangzhun/K…
Agriculture_KnowledgeGraph:
https://github.com/qq54727654…
贡献平台
由知名开源平台,AI 技术平台以及领域专家:ApacheCN,Datawhale,AI 有道和黄海广博士联合整理贡献:
1.ApacheCN:片刻,李翔宇,飞龙,王翔
2.Datawhale:范晶晶,马晶敏,李碧涵,李福,光城,居居,康兵兵,郑家豪
3.AI 有道:红色石头
4. 黄海广博士
平台介绍
Datawhale
一个专注于 AI 领域的开源组织,上海交通大学国家级孵化项目,目前有 7 个独立团队,聚集了一群有开源精神和探索精神的团队成员,汇聚了来自各个高校和企业的优秀学习者,致力于构建纯粹的学习圈子和优质的开源项目,提供的组队学习涵盖了数据分析,数据挖掘,机器学习,深度学习,编程等 16 个内容领域。
AI 有道
一个专注于 AI 领域的技术公众号。公众号主要涉及人工智能领域 Python、ML、CV、NLP 等前沿知识、干货笔记和优质资源!我们致力于为广大人工智能爱好者提供优质的 AI 资源和切实可行的 AI 学习路线。
黄博(机器学习初学者)
机器学习课程在国内还不够普及,大部分初学者还是很迷茫,走了很多弯路,黄海广博士希望能尽自己的微薄之力,为机器学习初学者提供一个学习交流的平台。
ApacheCN
一个致力于提供优质开源项目的开源组织,致力于 AI 文档翻译,Kaggle 比赛交流、LeetCode 算法刷题、大数据交流等项目。我们希望做出广大 AI 爱好者真正需要的东西,打造真正有价值的长尾作品。
官方网址:http://www.apachecn.org/