如何获得美国seer数据库库的数据

关注今日:33 | 主题:524937
微信扫一扫
扫一扫,下载丁香园 App
即送15丁当
SEER——图文并茂教你如何从SEER获取数据到分析数据(不断更新中)
页码直达:
之前通过一位台湾教授通过他们的公共数据库发表了200+的文章,给大家讲了下利用公共数据库发文章的便捷。他不用像收集自己医院的病例资料那样繁琐并且费时,只要你有idea,很快就可以出文章,省去了收集病例的时间。: 现在,我给大家介绍可以用的第一个公共数据库——SEER (Surveillance,Epidemiology and End Results),中文名:美国国立癌症研究所“监测、流行病学和结果数据库”。我将开一个系列的帖子给大家讲解SEER的使用。下面我来简单介绍下SEER 一、SEER简介SEER是较为典型的医学数据库,由美国国立癌症研究所(National Cancer Institute,NCI)于1973 年所建立,是北美最具代表性的大型肿瘤登记注册数据库之一,收集了大量循证医学的相关数据,为临床医师的循证实践及临床医学研究提供了系统的证据支持和宝贵的第一手资料。其官网网址如下: 数据库所涉及的肿瘤划分为9类:乳腺、结肠&直肠、其他消化系统、女性生殖、淋巴&白血病、男性生殖、呼吸系统、泌尿系统及其它尚未确指的类型。 数据记录中包括患者的注册编号、个人信息、原发病灶部位、肿瘤尺寸、肿瘤编码、治疗方案、死亡原因等信息。 二、SEER的获取SEER获取途径有3种:(2)通过SEER*STAT 软件的客户端-服务器模式进入互联网(这是目前最广泛并且最为简单的数据获取手段,之后为大家详细讲解这种方法。(2)从SEER 网站上下载压缩文件,解压缩后可得到相应的二进制数据文件及相关文本数据。这种途径往往得到的是二进制的资料,需要通过编程软件将其转换成我们所能识别的资料,可以通过Python或者R软件进行转换,但是需要一定的Python或者R软件的基础。(3)向SEER 管理人员申请索取数据库的DVD 光盘,可直接获取SEER*STAT 软件、二进制数据文件及相关文本数据。不管何种数据获取方式,之前都要签署有关SEER 研究数据的协议。 不管何种数据获取方式,之前都要签署有关SEER 研究数据的协议。前2种获取方式都要使用由SEER 提供的用户名和密码进入网络。之后会为大家讲解如何一步一步获取资料。 三、SEER的数据构成SEER 研究数据主要由肿瘤发病率数据、人口数据及数据字典构成。下面,我将根据获取途径(2)所获得的最新文件进行讲解(1) 年期间肿瘤发病率研究数据(Incidence)肿瘤发病率研究数据均按照国际疾病分类肿瘤学专辑第三版(International Classification of Diseases for OncologyThird Edition,ICD-O-3)来编码,并保存为TXT 文本格式。此目录包括4 个子目录:yr.seer9:该目录保存了 期间由SEER 第九登记站提交的部分州县的肿瘤研究数据。具体州县为:亚特兰大、康涅狄格、底特律、夏威夷、爱荷华、墨西哥、旧金山、弗朗西斯科、奥克兰、西雅图和犹他州普吉特海湾。yr.sj_la_rg_ak : 该目录保存了 期间部分州县的肿瘤研究数据。具体州县为:圣若泽、洛杉矶、蒙特雷、格鲁吉亚和阿拉斯加农村。YR.CA_KY_LO_NJ_GA : 该目录保存了 期间部分州县的肿瘤研究数据。具体州县为:大加利福尼亚、肯塔基、路易斯安那、新泽西和大格鲁吉亚。yr2005.lo_2nd_half :该目录保存了5.12 期间路易斯安那州的肿瘤诊断情况。这4 个子目录中的研究数据均按上述9 类肿瘤情况分别组织。 (2)人口数据分年龄段的统计情况(Populations)人口数据的统计情况也遵循ICD-O-3 标准来编码,并保存为TXT 文本格式。按两种方法对人口数据进行分段统计。①以5 年为一个年龄段跨度,共划分为19个年龄段组。②以一年为一个年龄段跨度,从0 岁至100 岁以上,共划分为101 个年龄段组。此目录中的数据文件与肿瘤发病率的数据文件相对应,分别收集了相应年份跨度和地区的基本的人口统计数据情况。(3)数据字典(Data dictionaries)所谓数据字典,可以看作是数据库中所有成分的定义和解释的文字集合,描述了数据库中每条记录所包含的属性意义和取值说明。因此,在数据字典中建立起严密一致的定义非常有助于用户对于数据库的理解和使用。这个文件非常重要,尤其是对于用Python或者R软件提取数据的用户,因为转换二进制成可以识别的文字无时无刻不用到这个。 上述数据库的构成是通过第二种获取途径的文件进行讲解的,之后给大家介绍的第一种途径也会介绍上述内容,所以就先不介绍了,到时候直接结合软件给大家讲解。 四、SEER的延伸和链接由于SEER的局限性,随访资料结局往往只有死亡与非死亡资料,并没有复发等结局指标,所以在此基础上,美国工作者开发了一系列基于SEER数据库的数据库,但是这些数据库往往需要我们交钱才可以使用,有些使用甚至需要向机构发研究需要的protocol才可以使用,所以一方面烧钱,一方面使用也比较麻烦。 我这里只给大家简单介绍下 目前主要有3个可使用的链接的数据库,包括SEER-Medicare,SEER-MHOS,SEER-CAHPS。第三个数据库近期将会开放。 目前使用最多的就是SEER-Medicare数据库,这个只需要交钱就可以使用了,后两者还需要向机构发研究需要的protocol才可以花钱使用。 具体烧钱的价格如下:SEER-Medicare数据库SEER-MHOS数据库
三个数据库的差异(截图于SEER-CAHPS官网) 附上三个数据库的网址,里面有非常详细的介绍和如何使用,由于自己了解不多,所以无法给大家进行详细的介绍,表示非常抱歉。SEER-Medicare:SEER-MHOS:SEER-CAHPS:
五、利用SEER发表的文献我在Pubmed里简单检索了下利用SEER数据库(包括SEER-Medicare,SEER-MHOS,SEER-CAHPS等),目前利用SEER累计发表的文献有4000+篇 而后我又检索了下国人利用这个数据库发表的文献,只有168篇!!!!!,其中我粗略看了下有些还不是关于SEER数据库的(检索有些偏差)。也就是发表的文献要比168篇要少的。 以上是SEER数据库的简单介绍,如果大家觉得很有必要了解如何使用SEER数据库的,请大家支持我,我将逐一详细介绍SEER数据库的获取和使用。本文严禁转载至其他地方,如有必要必须征得本人同意!!!!!!! 附件是我写这篇帖子所参考的一篇文献
不知道邀请谁?试试他们
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
观澜网络 edited on
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
支持!几个月前已经获得SEER的访问权限,数据格式以及软件格式的数据包都已经下载,但因为事情太多只随便过了一下前两个tutorial,没有进行深入的学习。希望假期能跟着楼主的思维学习一下~
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
emberwhirl 支持!几个月前已经获得SEER的访问权限,数据格式以及软件格式的数据包都已经下载,但因为事情太多只随便过了一下前两个tutorial,没有进行深入的学习。希望假期能跟着楼主的思维学习一下~一起学习哈
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
现在给大家介绍如何在SEER上注册并且获取SEER*Stat先登录SEER的官网:之后按照下面的图示进行注册提交第一次注册提交后会出现以下信息,带星号的需要填写填写好之后SEER会发一份邮件给你登录你注册的邮箱,打开收件箱,会收到SEER的邮件点击中间的链接,会跳跃到SEER官网,点击图中的红圈的链接地址之后会弹出需要你打印并且扫描的文件签上你的英文大名和日期,并扫描成PDF或者图片格式,并发给邮箱地址:具体怎么写邮件,可以参考下我的内容,并附上你已经签好字的扫描版之后SEER工作人员确认后会向你发送邮件,里面附有你的账号和密码拿到账号和密码之后就可以去下载SEER的官方软件SEER*Stat(提取数据资料和分析用)获取方式见下图点击第四步之后会让你输入账号和密码,输好之后就可以下载了。
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
现在正式进入对软件操作的详细介绍安装好SEER后我们运行软件后进入软件的界面每次运行时都要进行登录 输入你的账号和密码,并点记住密码即可。必须注意:每次关闭后打开程序后都需要登录下面,我来介绍下菜单下方的几个按钮从左往右的功能依次为1)
Frequency Session:根据你对这个数据库感兴趣肿瘤的限定条件计算频数,这个可能比较拗口,到时候实际演示一下就知道这个功能了,对我们而言用处不是很大。2)
Rate Session:可以计算感兴趣肿瘤(包括特定限定条件)的发病率、年龄校正后的发病率和随时间推移发病率的变化。3)
Survival Session:可以计算observed survival, net survival, conditional survival, and crude probability of death(中文不知如何表述,我就用英文表述这个了)。4)
Limited-Duration Prevalence Session:计算某个时间段的肿瘤患病率5)
MP-SIR Session:计算已有肿瘤患者发生第二个肿瘤的率和频数等6)
Left-Truncated Life Tables:计算特定年龄肿瘤患者的期望生存时间和实际生存时间7)
Case Listing Session:显示每个肿瘤患者的个人信息,即patient-level data,这部分的数据可以拿出来用其他软件分析8)
后面两个按钮依次为打开保存的 SEER文件和帮助功能 下面来演示第一个功能:Frequency Session点击之后出来这个界面由于这个数据每年都是更新的,所以数据库比较多,一般选第一个即可再选第二个按钮,参数设置(Statistic):选择统计方法为频数,并显示有百分比这个百分比显示Column是指1列的百分比加起来总和是100%,就是对纵向变量的比率统计而ROW是指1行的百分比加起来总和是100%,就是对横向变量的比率统计接下来选择你的研究队列(Selection),之后你的结果展示就是统计这个研究队列,圈定了你的研究队列。我们假定计算在2010年期间诊断的大肠癌男性患者Select only 一般不需要设置,选默认设置即可。我们一般在Edit功能里选择限定条件1)
对于肿瘤类别设置——我们一般选择Site and Morphology目录下的site recode ICD---0---3/WHO 2008这个选项2)
诊断的时间3)
性别点击OK后即可完成限定条件的设定 接下来是结果展示窗口我们把需要展示的结果以行显示还是以列表示还是以页表示下图就是我们计算大肠癌分级的频数,以列表示接下来是最后一个窗口,输入你的标题,并运行闪电图标结果就出来啦!!!!附件是我上传的这个结果的SEER文件,用SEER打开即可
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
玩过这个数据库,对其有非常大的偏见,呵呵,首先,你能想到的是别人早做完了,君不见marital status at dx都成为预后影响因素拿来发文了,这说白了就是个混杂变量或者中间变量。除非你能想到一些特别的想法。其次,如果只是为了产文章,确实是一个不错的选择,因为样本量摆在那里,随访摆在那里。最最重要的是这个数据库极大的偏倚,缺少一些其他重要资料,缺失值等等,严重影响结果的可信度,甚至你会得到一些非常奇葩的结果。虽然许多大牛曾经用这些数据发过比如jco这样高大上的杂志,但事实就是这样,学术圈毕竟也是个圈。这就是我不迷信大牛的原因之一。个人观点,轻喷。
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
unstuck 玩过这个数据库,对其有非常大的偏见,呵呵,首先,你能想到的是别人早做完了,君不见marital status at dx都成为预后影响因素拿来发文了,这说白了就是个混杂变量或者中间变量。除非你能想到一些特别的想法。其次,如果只是为了产文章,确实是一个不错的选择,因为样本量摆在那里,随访摆在那里。最最重要的是这个数据库极大的偏倚,缺少一些其他重要资料,缺失值等等,严重影响结果的可信度,甚至你会得到一些非常奇葩的结果。虽然许多大牛曾经用这些数据发过比如jco这样高大上的杂志,但事实就是这样,学术圈毕竟也是个圈。这就是我不迷信大牛的原因之一。个人观点,轻喷。这个数据库只是一个研究的平台,重要的还是你的思路。说你能想到的别人基本做过了,我并不反对。包括那个marital status,各有各的说法吧,好的思路来自于文献和临床实践,这是我的愚见
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
哥们你好,写的真的很给力!我毕设的方向也是SEER相关的机器学习。但是我不会处理数据,我有别人提供的SEER二进制文本文件
但是怎么才能获取我们可以使用的数据呢。请指点一下,这两天困扰死我了。
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
dxy_kaskx172 哥们你好,写的真的很给力!我毕设的方向也是SEER相关的机器学习。但是我不会处理数据,我有别人提供的SEER二进制文本文件
但是怎么才能获取我们可以使用的数据呢。请指点一下,这两天困扰死我了。二进制的文本文件不能通过SEER这个软件提取,我了解到的可以通过perl或者R软件进行提取
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
请问有没有相关资料什么的
或者具体哪个软件可以用
我用SPSS软件提取 提取不到结果
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
不好意思 我看到了 我现在就去试
谢谢你兄弟
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
非常感谢楼主的分享!我刚刚接触SEER数据库,想通过SEER了解肠癌发生卵巢转移患者(同时性或异时性转移)的生存情况,但目前还不知道怎么在selection中限定卵巢转移这部分人群,在Extent of Disease-CS中可以具体限定转移部位吗?请楼主不吝赐教,多谢了!
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
不久的将来,这又将是一个被玩坏的数据库,就像meta分析一样,又会有很多很多公司为国人造出很多很多文章。
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
bzmczxb 不久的将来,这又将是一个被玩坏的数据库,就像meta分析一样,又会有很多很多公司为国人造出很多很多文章。我觉得不一定,就像楼上说的,能想到的基本被让人想到了
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
queens1204 非常感谢楼主的分享!我刚刚接触SEER数据库,想通过SEER了解肠癌发生卵巢转移患者(同时性或异时性转移)的生存情况,但目前还不知道怎么在selection中限定卵巢转移这部分人群,在Extent of Disease-CS中可以具体限定转移部位吗?请楼主不吝赐教,多谢了!我看下,不一定能帮到你
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
求教,望楼主继续更新
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
严重mark严重mark,好东西
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
关于丁香园关注今日:6 | 主题:143382
微信扫一扫
扫一扫,下载丁香园 App
即送15丁当
SEER-MEDICARE LINKED DATABASE这个数据库怎么能获取
页码直达:
请老司机带路
不知道邀请谁?试试他们
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
关于丁香园数据库地址_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
数据库地址
上传于||文档简介
&&有​效​数​据​库
阅读已结束,如果下载本文需要使用0下载券
想免费下载更多文档?
定制HR最喜欢的简历
下载文档到电脑,查找使用更方便
还剩2页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢请问如何获得SEER数据库的数据?
有些文献都是查阅的SEER数据库的数据做出来的,国内也有文章是用SEER数据库数据做出来的,请问我们是否可以查阅SEER数据库的数据,查阅SEER数据库的需要哪些手续啊,收费吗? 谢谢
Copyright &
All Rights Reserved.网站备案号:

我要回帖

更多关于 seer数据库 下载数据 的文章

 

随机推荐