数据如何解决未来的健康挑战
默多克儿童研究所(MCRI)在墨尔本陪伴的大数据项目汇集了多个数据来源,可以使医生能够在儿童状况方面进行干预。
该项目叫做维多利亚(Genv),探讨了若干条件,如哮喘,自闭症,过敏和肥胖,了解这些受影响的人,因为他们变老了。
但是,Genv等项目的一部分挑战是通常完成研究的方式。根据Melissa Wake的说法,Genv的科学主任,研究人员通常进行自己的研究并收集自己的数据,减慢了研究过程。
她比较拍摄它的漫长火车之旅,但必须为每次旅行建造一个新的车站和火车,而不是利用现有网络。“我们知道健康的孩子们创造健康的成年人,”她说。“到2035年,我们的目标是解决孩子们面临的复杂问题,他们将成为成年人。”
Genv安全地将数据从各种国家和维多利亚时代的数据来源联系起来,并在同意,使用大约160,000名新生儿的数据。这包括临床信息,来自可穿戴物的数据以及从出生前到老年的其他来源。此数据从未设计过一起使用。
MICHAEL Stringer,Genv的MCRI大数据项目经理表示,获取研究数据是难以的。
“这是很多努力的地方。您可以通过调查问卷和评估获取来自参与者的数据。但是,通过Genv我们试图从他们与现有服务互动的所有方式获取数据,“他说。
数据可以来自当地医生的医院访问,免疫记录和记录,以各种格式捕获,包括数据库和图像。添加到挑战是研究人员没有现成的数据管理工具。
“研究流程没有SAP,”Stringer说。“你能做的最好的是购买一系列套餐,这些包裹做到了不同的部分,并将其整合在一起作为连贯的整体。”
Genv的框架是设计的,因此研究人员可以获得一站式商店,用于安全地利用现有数据。
在Genv的中心是LifeCourse数据存储库,可以通过研究人员和其他用户访问来自各种来源的数据。这里的一个键具有有效的数据模型。
Stringer说:“一个良好的数据模型对于拥有维持其价值至关重要。这是将知识转移到数据库的生活中的有效方式。如果没有它,数据是碎片化的,并且您最终解决了多次的同样问题“。
该模型还可确保在将来使用新的数据源时,可以正确集成它们。元数据也有重大焦点,这构成了Genv系统中的一半。
“没有那个元数据 - 如何归类,每个特定的变量手段,它的质量水平是什么 - 没有人能够实际使用这些信息,”Stringer说。
与许多其他数据仓库项目不同,Stringer表示,如果它具有特定的质量级别,则重点是收集和使用数据。相反,当数据被添加到LifeCourse时,注意到其质量水平,因此研究人员可以自行决定如果数据应该或不应该在他们的研究中使用。
Genv倡议依赖于不同的技术,但这两个核心作品是Informatica大数据管理平台和Zetaris。
由于其强烈关注可用性,所需的情况下使用传统提取物,转换和负载(ETL)流程的信息。Stringer表示,在产品选择过程中,该标准在很大程度上加权。他说,可用性是一种强大的生产力模拟。
但是,通过对外部数据来源的依赖性以及需要在未来几十年中集成更多的数据来源,Stringer表示,无论他们居住的地方都需要使用新数据集的方法。
这就是为什么Zetaris被选中。Stringer表示Zetaris平台而不是依赖于ETL进程,而是让Genv整合来自ETL不可行的来源的数据。
例如,许多政府数据源无法复制,但Zetaris允许通过数据结构进行集成 - 以研究人员运行的查询而不将数据放入数据仓库中。
虽然MCRI通过Genv解决的问题是显着的,但面临的潜在挑战与许多组织的挑战相同。今天的企业正在处理来自多种来源的大量数据,全部以不同的方式构造。
成为客户调查,社交媒体评论,网站流量或来自销售点或金融系统的信息,企业需要能够快速,轻松地带来不同的数据,以便做出良好的决策。
来自Genv项目的课程很清楚。企业必须了解他们试图解决的问题,投资时间创建强大的数据模型,了解数据的来源和质量,避免创建一个限于他们今天所知的系统。