数据标准化的思考

随着电子数据资源的增多,把不同来源的数据进行标准化,便于重复验证以往工作成果或与他人交流,变得十分重要。在过去几年的工作经验中,有些心得,算是个人对数据标准化起步阶段的经验总结。都是大白话,不严谨的地方请多包涵、指证、共同探讨。

一些所谓的经验背景:个人思考基于大量医疗保险数据、部分电子病历数据、部分问卷调查类数据。整理过的数据会被应用于科研。有些细节不是所有项目都必须的。

  1. 对于起步阶段,通用性可以停留在把不同来源的数据的变量名搞一致,变量类型都变成字符型就够了,变量长度都不用统一。
    这种做法可以最快把收来的数据整合,然后分发给各个项目组根据自己需要去进一步清理。我在工作最初就跟老板提过这个方法,但老板认为这太粗糙,需要我进一步清理,然后再提供给分析师。结果就是,我标准化过的数据,倒是够准确和通用了,但时程很长,而且一旦我某个处置不当,会导致下游分析的错误,所以压力极大。而且如今有多个不同来源的数据压在我手头不能完成标准化提供使用。我的窘境源于我们只是小科研组,不是大公司有多个人做我同样的工作,但我仍认为我建议的起步阶段设定足以。比如,常用基础变量名(医疗类)就可以设定为几大块儿:
    • 可适度参考用ID (除 PID 病人代号外),DATE 等常用可归类的key词作为变量前缀,便于批处理一系列变量,比如:ID_DEPT (医院科室对应代码), ID_HOSP(医院对应代码)等。

以下为一些信息类型的数据粗框: 建议注意以下细节:

  • PID 要唯一,各数据表通用;
  • ID_CASE 可以用病例号,但建议相关实验室检查和影响检查等,均可联系到对应的病历号。
  • 实验室检查需要记录病人样品的采集时间,检测时间,出结果时间等,便于质检其实验室结果的可靠性。

基本信息类:(所谓的Demo table;此中信息均为PHI,个人健康信息,需加密)

PID(病人代号) DOB(生日) SEX RACE/ETHNICITY CITY STATE(州/省)

病史记录类: (所谓的DX table)

PID DXDATE(就医诊断日期) DX(诊断代码ICD10 甚至直接是医生手写诊断的电子录入) ID_CASE(病例记录号) ID_DEPT(就诊科室) ID_HOSPITAL(就诊医院) TREAT_SUG(医嘱、建议治疗方法)

治疗记录类: (所谓的RX table)

PID DATE_TRT(治疗处置日期) ID_CASE TRT(治疗/用药的名称/代码/手写记录) TRT_QT(治疗用药剂量)

随访记录类: (略)
实验室诊断类: (略)
图像诊断类: (略)
保险信息类: (略)
临床实验类: (略)
问卷调查类: (略)

以上的变量项目都用字符型,把所有来源的数据都套用进去,然后分给各个分析师自己清理细节。

  1. 尽量用带码表示字符类名称:
    比如医院名称,xx大学xx附属医院,在收集中把这些字符类名称做个1对1列表,节省空间。全国医院就算100万家,7位数就够了。但注意不要重复。并且也不必强调按字母顺序,因为你不知何时会在哪里加入新医院,不如就随着增加,给它个新代码。
    实际上有很多Code System可以借鉴,像ICD9系统就是为了标准化医生诊断用的,省略的很多书写。(当然某一系统未必适合不同国家,但借鉴设定规律便于创建自己的系统),比如:

    1. ICD-9 / ICD-10 code:国际临床诊断代码;
    2. NDC code:美国国家药品代码;
    3. CPT / HCPCS code:临床处置操作代码;
    4. LOINC code:实验室检查相关代码;
    5. NPI code: 职业医师代码;
    6. 医院代码:建议自己创建;
    7. 科室类代码:建议自己创建;
  2. 避免过度加密不必要的信息。
    有些数据公司为了省事儿,把所有名字里带ID的都给加密了,然后拆分出许多CODEBOOK (就是集中列出加密CODE对应的真实CODE的列表)。这样虽然简单粗暴地符合了PHI(个人健康信息)要保密的相关规定(:凡是疑似ID的东西都要严查,万一跟个人相关,必须加密),但像一些医院ID,科室ID,医生ID(因为是医生,在医疗资料里其姓名、性别、年龄、学历、工作年限都是不须保密的),药物名称ID,等等,都没必要加密再做出CODEBOOK连接,直接用就行了。当然这个过程要小心,别把某些能连到病人个人的真实ID(比如身份证号,电话号,住址等)直接列出来就行了。加密通常都把记录长度放大了若干倍,导致连接、索引、读写所耗的资源大大增加,没必要。

。。。不断完善中。。。有问题欢迎留言探讨。。。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,869评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,716评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,223评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,047评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,089评论 6 395
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,839评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,516评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,410评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,920评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,052评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,179评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,868评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,522评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,070评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,186评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,487评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,162评论 2 356

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,673评论 18 139
  • 象花生糖象巧克力 甜蜜又香浓 象花开象幻梦 热烈又痴缠 象烟象雾 似梦非梦 成瘾又成谜 若是不小心碰到了...
    兰妤妤阅读 128评论 0 2
  • HAPPY_fdec阅读 326评论 0 0
  • 我不是一个很了解沈从文及他的文章的人,以下,是我对其一点小小的看法。 在文中,沈先生用幽淡的笔墨向人们呈现出湿润透...
    蒹葭luwei阅读 281评论 3 0