大数据时代浅谈医疗数据分析在医疗领域的运用

jiezi

6 年前

随着医疗卫生信息化迅速发展

医学研究正步入大数据时代

大数据的许多承诺正在医疗行业变成现实

大数据的实时处理和数据分析

可以让医疗领域的从业者

更快更全面的做出决策和行动

该领域正在慢慢成熟

随着云计算、物联网、移动互联网等新技术水平的提高，各行各业所累计的数据已经呈现指数级的增长。“大数据”时代已经出现。

近年来，大数据解决方案与大数据分析工具开始被广泛运用于医疗卫生领域。通过数据，可以把医学专家积累的宝贵经验，转化成标准化的知识基础，做到数据驱动医疗服务，因此从而大大提高服务能力和效率，解决中国医疗领域存在的诸多需求。然而健康医疗大数据究竟指的是何种数据？其“大”又体现在何处？

一．大数据

大数据的类型大致可以分为以下两种：

第一种类型是通过对海量数据进行分析，获得巨大价值的产品、服务和见解，我们称之为“动词定义”。

第二种类型是基于多源异构、跨域关联的海量数据（数据量、数据形态、数据分析处理方式），通过分析所产生的决策流程、商业模式、科学范式、生活方式和观念形态上的颠覆性变化的总和，我们称之为“名词定义”。

二．医疗数据

医生对患者诊疗和治疗过程中产生的数据，包括患者的基本数据、电子病历、诊疗数据、医学影像数据、医学管理、经济数据、医疗设备和仪器数据等，以患者为中心，成为医疗数据的主要来源。

三．医疗数据来源

首先来讲，“医疗数据”的主要来源有四个方面，第一种是患者就医，第二种是临床研究和科研，第三种是生命制药，第四种是可穿戴设备。

第一种“患者就医”，源于患者，患者的体征数据、患者的化验数据、患者的描述，患者的住院数据、医生对患者的问诊数据、医生对患者的临床诊治、用药、手术等数据。

第二种“临床研究和科研”主要是实验中产生的数据，也包含患者产生的数据。

第三种“生命制药”主要是实验产生的数据，与用药相关的用药量，用药时间，用药成分，实验对象反应时间，症状改善表象等数据，与生命等基因组学相关的数据。

第四种“可穿戴设备”主要通过各种穿戴设备（手环、起搏器、眼镜等）收集人体的各种体征数据。

四．医疗数据特性

医疗数据首先它属于数据的一种，所以其大数据也必定具备一般的数据特性：规模大、结构多样、增长快速、价值巨大，但是其作为医疗领域产生的数据也同样具备医疗性：多态性、不完整性、冗余性、时间性、隐私性。

多态性：医疗数据包含有像化验产生的纯数据，也会有像体检产生的图像数据类似心电图等信号图谱，医生对患者的症状描述以及跟进自己经验或者数据结果做出的判断等文字描述，另外还有像心跳声，哭声，咳嗽声等类似的声音资料，同时现代医院的数据中还有各种动画数据（像胎动的影像等）。

不完整性：由于各种原因导致有很多医学数据是不完整的，像医生的主观判断以及文字描述的不完整，患者治疗中断导致的数据不完整，患者描述不清导致的数据不完整等。

冗余性：医疗数据量巨大，每天会产生大量多余的数据，这给数据分析的筛选带来了很大困难。

时间性：大多医疗数据都是具有时间性、持续性的，像心电图，胎动思维图均属于时间维度内的数据变化图谱。

隐私性：隐私性也是医疗数据的一个重要特性，同时也是现在大部分医疗数据不愿对外开放的一个原因，很多医院的临床数据系统都是相对独立的局域网络，甚至不会去对外联网。

五、数据的处理

数据的处理一般分为 6 个步骤：挖掘数据、收集数据、分析数据、存储数据、数据转化实用，最终在实用过程中产生数据，如此循环。

六．医疗大数据的用途

医疗大数据的主要用途有：用药分析、病因分析、移动医疗、基因组学、疾病预防、可穿戴医疗等。

随着医疗大数据的发展和分析方法、人工智能等技术的不断革新，能够准确利用医疗大数据来进行分析和预测的场景会越来越多，到时大数据将会成为医疗决策的一种重要辅助依据。

七．医疗大数据

医疗大数据企业主要分为三类：慢病及健康管理（辅助患者）、临床决策支持（辅助医生）、医药研发。

医疗大数据的服务对象主要有：居民、医生、科研、管理机构、公众健康。

医疗大数据的主要用途有：用药分析、病因分析、移动医疗、基因组学、疾病预防、可穿戴医疗等。

八．统计学在医疗方面的运用

统计学是医学科学研究的重要工具，运用概率论与数理统计的原理及方法，结合医学实际，研究数字资料的搜集、整进行理分析与推断。正确的统计分析能够帮助人们正确认识客观事物的规律性，做到胸中有数，有的放矢地开展工作，提高工作质量。

在统计分析领域中，有一种用途极其广泛的特征曲线，叫做接受者操作特性曲线。

得此名的原因在于曲线上各点反映着相同的感受性，它们都是对同一信号刺激的反应，只不过是在几种不同的判定标准下所得的结果而已。

接受者操作特性曲线就是以虚惊概率为横轴，击中概率为纵轴所组成的坐标图，和被试在特定刺激条件下由于采用不同的判断标准得出的不同结果画出的曲线。

在统计学中常讲到的 AUC 就是”Area Under the ROC curve“，它的值是介于 0.1 到 1 之间，是当前分类算法根据计算所得的一个 score 值，AUC 值越大说明正样本越有可能排在负样本之前，从而能更好进行统计样本的分类。

在现有的一个统计学方法中，我们对样本的诊断通常是分为两类，一个是健康类，另一类是得病类。除了这两类以外，还存在一种人群叫亚健康人群，如果我们还是按照原有的方法去给病人进行分类的话，那么我们所得到的一些结果可能是具有误导性的。

在统计学中概率样本的置信区间是对样本的某个总体参数的区间，估计通常来说，比如说我们说有 95% 的置信区间，那么就是说测试者有 95% 的统计量是落在置信区间内的。

它其实展示了这个参数的真实值，有一定概率落在测试结果周围的一个程度，也给出被测量参数测试测量值的一个可信程度。

怎么去判断这个诊断的一个精确性，我们需要看的是置信区间的一个覆盖率，如果这个覆盖率越接近于既定的一个概率的话，那么这个方法就越精确。

广泛搜寻，就是把所有的值结合在一起，然后去比较它们之间的大小，用这种比对的方法来找出最大的不同。

如此可见，随着医疗服务提供者越来越善于从患者数据中提取有意义的见解，他们也将学习更好的提供治疗的方法，提高服务质量。随着大数据技术领域的成熟，许多组织将受益于运营的改善、费用的降低和健康状况的改善。

通过许多方式，大数据和人工智能可以帮助解决日益严重的护理提供者短缺问题。医疗服务提供商也将充分利用大数据技术为医疗技术框架持续提供动力。