乐趣区

关于算法:华裔小哥创建新冠预测模型准确性远超知名大学和美国官方机构

2020 年随着新冠疫情的暴发,人们越来越关注预测新冠死亡人数的模型。其中有两个模型最为引人注目,一个是由伦敦帝国理工学院建设,另一个是由位于美国西雅图的卫生计量与评估研究所(IHME)建设。

但这两个模型预测的后果却天壤之别,伦敦帝国理工学院示意直到夏天降临,美国因新冠病毒死亡的人数可能升至 200 万,而 IHME 预测更为激进,预测到去年 8 月份死亡人数可能为 6 万。但事实证明,他们的猜想都与事实相距甚远,数据显示美国在去年 8 月初死亡人数约为 16 万人。

华侨小哥自建模型

预测数字的微小差别引起了一位过后 26 岁的华侨数据科学家顾友阳(Youyang Gu 音译)的留神。

这个年轻人在麻省理工学院主修电子工程与计算机科学和数学业余,他还取得了麻省理工学院的硕士学位,并在麻省理工学院计算机科学与人工智能实验室的自然语言解决小组中实现了本人的论文。从麻省理工学院毕业后,顾友阳进入金融行业工作,为高频交易系统编写算法,他工作的最要的工作就是进步模型预测的准确性。

他认为本人解决数据模型的背景能在帮忙预测新冠疫情中起到做用,但他齐全没有学过医学或流行病学等畛域的常识,所以当他在 2020 年 4 月开始该我的项目时,第一步就是去谷歌搜寻“流行病学”,来学习相干常识。在新冠预测模型创立中,顾友阳施展了在金融行业的工作教训,他一直地将他的预测与最终报告的死亡总数进行比拟,并一直地调整他的机器学习算法,使之能带来越来越准确的预测。

一周后顾友阳建设的新冠疫情预测模型和一个显示信息的网站公布了。三周后美国疾病预防控制中心将模型列为为六个次要预测模型之一。随着疫情的倒退,顾友阳被邀请定期加入 CDC 和业余建模人员及流行病学家团队的会议,顾友阳网站的流量也经验爆炸性增长,每天有数百万人查看他们所在州和美国整体的状况。接下来的工夫里他的模型准确性一次又一次的超过那些领有数亿美元资金和数十年教训的机构所制作的模型。

顾友阳的模型从一开始就体现良好。4 月底,他预测到 5 月 9 日,美国将有 8 万人死亡。理论死亡人数为 79926 人。在 5 月 18 日预测 9 万死亡,5 月 27 日预测 10 万死亡,又一次对上了数字。去年 11 月,顾友阳决定完结预测,因为他看到其余模型曾经做的越来越好,他认为本人工作曾经实现了。在进行我的项目前一个月,顾友阳曾预测,11 月 1 日美国将录得 23.1 万人死亡,当 11 月 1 日到来时,美国报告的死亡人数为 230995 人。

反讥嘲机构的「酸」

去年 3 月到 4 月,IHME 面临泛滥批评,因为它的预测与理论情况严重不符。尽管如此,这个位于华盛顿大学并由比尔和梅林达盖茨基金会提供超过 5 亿美元资金反对的驰名核心,在前美国总统特朗普和美国政府成员的简报中简直每天都被援用。

对于顾友阳的退出,IHME 的 Murray 有本人的认识。他说:顾友阳的模型不会发现冠状病毒的季节性,会错过夏季病例和死亡人数的激增。他让疫情在夏季隐没,而咱们早在 5 月就曾经发现了季节性。顾友阳应用的机器学习办法在短期预测方面成果很好,但在大局上并不善于理解正在产生的事件。

Murray 还称这些算法基于过来,无法解释病毒变种以及疫苗对它们可能有效的状况。就其自身而言,IHME 正确地调用了病毒的晚期峰值,而后在预测死亡人数急剧下降时呈现了谬误,直到它调整其模型以更好地反映事实。

顾友阳回绝回应 Murray 对于他的模型的舆论,并反手来了一个讥嘲:「我非常感谢 Chris Murray 博士和他的团队所做的工作,没有他们,我就不会有明天的地位。」


当初顾友阳回到了模型创立中,这次他正在创立美国有多少人感化新冠与疫苗推出的速度以及何时可能实现群体免疫无关的数据。在疫情产生前,顾友阳正在筹划守业,过后他抉择的方向是体育剖析畛域,而当初他思考做公共卫生。他示意心愿能做一份能够产生微小影响的工作,同时防止政治、偏见以及有时大型机构所带来的包袱。

他也给了年轻人一些倡议:年龄只是数字,你不须要数十年的教训就能进行批判性思考和适应在这个信息非常容易取得的数字时代,不要让不足业余畛域的常识阻止你谋求乏味的事物,当下的所有零碎欠缺吗?当然不是,我心愿我能激发其他人像我一样去谋求他们所置信的我的项目,不要胆怯不被认可。

顾友阳的集体博客:https://youyanggu.com/

顾友阳的 GitHub:https://github.com/youyanggu

退出移动版