关于机器学习:业余开源项目训练出最准确新冠预测机器学习模型

28次阅读

共计 1616 个字符,预计需要花费 5 分钟才能阅读完成。

什么样的机器学习我的项目会被美国疾控中心 CDC、纽约时报、经济学人杂志等多家机构和媒体所援用提及,还被 Facebook 的 Chief AI Executor 称为最精确的新冠死亡预测模型?这就是明天要给大家分享的 covid-projection——一个来自一名一般美国华侨数据科学家的的业余开源机器学习我的项目。

covid-projection 的作者 Gu Yougang 在中国出世,儿时随父母移民美国,2015 年才从 MIT 毕业。他本科获得了电气工程与计算机科学业余和数学业余的双学位,硕士则在 MIT 人工智能实验室的自然语言解决组实现了他的毕业论文。他在疫情期间萌发了对于新冠疫情预测的趣味,于是在业余时间联合本人的业余所长发动了这个开源我的项目。在 2020 年四月到 2021 年 3 月的短短一年工夫里,该我的项目实现了对全美五十个州以及寰球 70 个国家的新冠疫情预测,其模型精确度甚至超过华盛顿大学衰弱指标与评估研究所(Institute for Health Metrics and Evaluation)这样业余科研机构的相干工作,因而受到了美国及寰球近百家媒体和机构的关注及报道。

covid-projection 构建模型的办法十分奢侈,首先它实现了一个基于 SEIR 传染病模型的模拟器,而后引入机器学习算法及约翰霍普金斯大学等医疗机构公布的新冠历史数据来对其进行优化。优化的过程与机器学习中的 hyperparameter tuning 十分类似,是利用机器学习或搜索算法来自主的抉择模拟器的参数组合,而后将这些参数代入模拟器产生肯定工夫内的模仿数据。再通过将模仿数据与实在的历史数据进行比拟,就能够确定下一次迭代的参数组合调优方向。通过多轮的训练,最初失去的 SEIR 模拟器就能够被用来产生将来一段时间内的新冠趋势模仿数据,以此实现预测的目标。

SEIR 是传染病的根本数学模型之一。S 取自 Susceptible,指的是还没有阳过的易感人群;E 取自 Exposed,就是咱们常说的密接、次密接人群;I 取自 Infectious,指新冠感染者;最初的 R 取自 Recovered,即阳过的康复者。经验过新冠疫情的咱们对于这些流行病学术语肯定不会生疏,SEIR 也其实就是用来形容这四类人群相互之间转换的门路和概率的数学模型。covid-projection 的模拟器就是这一模型的计算机程序实现。

当我第一次看到 covid-projection 这个我的项目的时候,真的是感觉眼前一亮,有被惊艳到的感觉。新冠是一场影响到全人类、波及到全世界的大型传染病,他对人类文化过程的影响可能不会亚于中世纪的黑死病。在咱们的印象中,新冠这样的大型公共卫生事件所波及的钻研工作,仿佛只可能由国家或者大型的科研机构来主导。但 covid-projection 的作者却既不是资深的学者,也不是行业的大牛,只是一位充满热情和公益精力的年老数据科学家。

技术在扭转和影响咱们当下生存的过程中的确扮演着重要的角色,但同样重要的还有在生活中发现真正问题的能力,这是我本人在过来的学生生涯中十分缺失的一点,这也正是我从 covid-projection 的作者身上看到的闪光之处。即便它所解决的问题随着疫情的完结而不再那么重要,即便这个我的项目在 GitHub 上最终仅仅播种了 300 多个赞叹,但它同 OpenAI 这样的大型出名我的项目体现了一样的翻新精力,从某些角度来说甚至更加的难能可贵。

牛顿在 1664 年回乡规避席卷欧洲的第二次鼠疫大风行,其在苹果树下的思考发现了万有无力定律。covid-projection 的作者 Gu Yougang 在 2020 年的新冠大风行中与医学结缘,现在还在世界卫生组织负责着征询参谋的意愿工作。置信咱们每个人都可能在每一天里找到那个利用本人的专业知识扭转本人人生轨迹的契机。


可交互的可视化机器学习开源教程 – https://github.com/ocademy-ai/machine-learning

正文完
 0