关于统计学习:数学笔记

最近想开始写一个新的系列,这次不是 coding 了,而是数学。当然我不是数学业余的,数学根底其实很差,但又很感兴趣,真的是人菜瘾又大。 正是因为我很菜,所以这个系列探讨的货色不是很难的数学,都是大学里学过的基础知识,包含概率论与统计学,微积分,线性代数等,我心愿以一个从新扫视的角度来回顾这些常识,重点是了解它们的实质原理和利用,而不是像大学里学习的时候那样终日推公式刷题。 因而我不会像教科书一样一步步地列举根底概念和公式,而是针对性地找一些我认为比拟有意思的课题,通常是一些定理和公式论断之类的,进行探讨。我也尽可能地少用简单的数学公式,而是从直观的角度来探讨它们的原理。 这个系列先从概率论与统计学开始,它是机器学习的根底,也是经济金融学科等方向的最重要的根底数学科目;甚至从实用性的角度来说,能够说这是大学里学过的,对未来工作生存最有用的一门的数学课,没有之一。统计学不像其它数学学科那样,有那么多令人望而却步的公式符号和抽象概念(只管也很多),它所探讨的货色是如此地贴近生活和直觉,然而它有时候却又十分反直觉,底层又暗藏着如此粗浅而谨严的数学原理;这种从直观登程,建设数学模型并回归实质原理的过程,是它吸引人的中央。

April 4, 2022 · 1 min · jiezi

读书笔记数学之美下

作者:LogM 本文原载于 https://segmentfault.com/u/logm/articles,不允许转载~ 文章中的数学公式若无法正确显示,请参见:正确显示数学公式的小技巧 本文为《数学之美》的读书笔记。 第19章 谈谈数学模型的重要性数学很重要第20章 谈谈最大熵模型思想:对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知条件,而对未知的情况不要做任何主观假设。$$P(d|x_1,x_2,...,x_{20}) = \frac{1}{Z(x_1,x_2,...,x_{20})} e^{\lambda_1 (x_1,d)+ \lambda_2(x_2,d)+ ... + \lambda_{20}(x_{20},d)}$$归一化因子:$$Z(x_1,x_2,...,x_{20}) = \sum{e^{\lambda_1 (x_1,d)+ \lambda_2(x_2,d)+ ... + \lambda_{20}(x_{20},d)}}$$第21章 拼音输入法的数学原理语言模型第22章 自然语言处理的教父马库斯和他的优秀弟子们人物传记第23章 布隆过滤器本质和哈希表一样,区别是映射函数精心设计过,在可接受的冲突率前提下,减少了内存的占用。第24章 贝叶斯网络(信念网络)马尔科夫链假设依赖关系是一维的,所以建立一维的链。但实际问题很复杂,很多依赖关系不能用链上的状态转移描述,需要用图描述。为了计算方便,依旧保持马尔科夫假设成立,即每一个状态只与和它直接相连的状态有关。第25章 条件随机场、文法分析及其它条件随机场:在隐马尔科夫模型中,$x_1,x_2,...$ 为观测值,$y_1,y_2,...$ 为隐状态,$x_i$ 只与 $y_i$ 有关。而条件随机场中,$x_i$ 与 $y_i$、$y_{i-1}$、$y_{i+1}$ 都有关。可以认为条件随机场是一种特殊的概率图模型。仍遵守马尔科夫假设。条件随机场是无向图。条件随机场通常用最大熵模型建模:$$P(x_1,x_2,..,x_n,y_1,y_2,...,y_m) = \frac{e^{f_1+f_2+...+f_k}}{Z}$$第26章 Viberti 算法隐马尔科夫模型可以转换为篱笆网络。Viberti 使用动态规划思想在这个网络中求最短路径。第27章 期望最大化算法第28章 逻辑回归和搜索广告搜索广告的发展:竞价排名 -> 预测用户点击 -> 全局优化预测广告点击率一般用逻辑回归做第29章 各个击破算法和 Google 云计算的基础MapReduce第30章 Google 大脑和人工神经网络人工神经网络人工神经网络与贝叶斯网络的关系: 有向图,且遵从马尔科夫假设训练方法相似对于很多模式分类问题,两种方法效果相近Google 大脑:分布式的人工神经网络第31章 大数据的威力数据很重要

August 17, 2019 · 1 min · jiezi

读书笔记数学之美中

作者:LogM 本文原载于 https://segmentfault.com/u/logm/articles,不允许转载~ 文章中的数学公式若无法正确显示,请参见:正确显示数学公式的小技巧 本文为《数学之美》的读书笔记。 第 8~18 章介绍搜索引擎的内容与《这就是搜索引擎》相近,先跳过,有时间再补。

August 17, 2019 · 1 min · jiezi