临床研究中:回顾性队列研究,进行生存分析 logrank检验,对每组病例数有最低要求吗?
目前我的研究是少见病,每组10例患者,进行logrank检验进行PFS的比较,在统计学上是说得过去吗?
请帮介绍相关的教材或者文献出处,非常感谢!
回顾性队列研究进行生存分析时,对于每组病例数并没有明确的最低要求,但通常要求每组病例数足够达到统计分析的要求,以确保分析结果的可靠性和稳定性。在实际情况中,每组病例数应该根据具体的疾病、研究设计和统计分析的要求进行确定。
对于少见病的研究,进行logrank检验进行PFS的比较是合理的,但需要注意样本量较小可能导致的统计效能不足和结论的不确定性。因此,在研究设计阶段应该充分考虑样本量的合理性和研究的可行性,同时在进行统计分析时应该采用适当的方法和统计软件,以确保结果的准确性和可靠性。
关于相关教材或文献出处,您可以参考相关的统计学或临床研究领域的教材或文献,例如《临床流行病学》、《临床研究设计与统计分析》等。此外,也可以在学术期刊或学术网站上搜索相关研究论文,了解其他研究者的经验和做法,以帮助您更好地解决研究问题。
在进行回顾性队列研究时,还需要注意以下几点:
研究设计要合理,需要考虑研究目的、研究对象、研究周期、数据收集和样本量等因素。
数据质量要保证,需要收集完整、准确、可靠的数据,并进行数据清理和预处理。
统计分析方法要恰当,需要根据研究目的和数据特点选择合适的统计分析方法,并进行适当的校正和调整。
结果解释要客观,需要对分析结果进行合理解释和讨论,并考虑结果的可重复性和临床意义。
总之,回顾性队列研究进行生存分析时,虽然并没有明确的每组病例数要求,但需要保证研究设计和统计分析的合理性和可靠性,同时注意样本量的充足性和结果解释的客观性。
在进行生存分析时,每组病例数的要求往往取决于研究的目的和研究问题的复杂性。通常来说,有一些通用的最低样本量要求可以作为参考,以保证研究结果的可靠性和统计效力。然而,由于每个研究的具体情况可能有所不同,最好根据实际研究情况进行合理的样本量估计。
关于生存分析的方法和logrank检验的应用,可以参考以下教材和文献:
Altman DG, Machin D, Bryant TN, Gardner MJ. Statistics with Confidence. 2nd edition. BMJ Books, 2000.
Cox DR, Oakes D. Analysis of Survival Data. Chapman and Hall, 1984.
Klein JP, Moeschberger ML. Survival Analysis: Techniques for Censored and Truncated Data. Springer, 2003.
Peto R, Peto J. Asymptotically efficient rank invariant test procedures. Journal of the Royal Statistical Society. Series A (General) 1972; 135: 185-207.
此外,你还可以参考相关领域的期刊文章,例如《生物统计学》(Biostatistics)、《临床流行病学杂志》(Journal of Clinical Epidemiology)、《生存分析》(Statistics in Medicine)等来了解更多最新的研究方法和应用案例。
一般来说,样本量越大,可靠性越高,更别说你这还是少见病了,相关书籍的话看看这个
“Survival Analysis: A Self-Learning Text" by David G. Kleinbaum and Mitchel Klein
这方面内容比较少,该回答通过自己思路及引用到GPTᴼᴾᴱᴺᴬᴵ搜索,得到内容具体如下:在进行生存分析的样本量计算时,通常需要考虑以下几个因素:
对于回顾性队列研究,由于研究对象已经发生了事件,因此可以根据已有数据进行样本量计算。而对于每组病例数的最低要求,通常需要根据事件发生率和效应大小进行计算。但是,对于少见病的研究,由于样本量较小,可能会影响统计分析的可靠性,因此需要特别注意。
对于生存分析样本量计算的详细方法和相关文献,可以参考以下教材和文献:
1. 《生存分析入门与实践》(王慧芳等著)
2. 《生存分析原理与应用》(陈志华、郑新涛编著)
3. 《生存分析中的样本量计算》(英文原版书籍,作者:Nello Blaserio)
希望这些信息能够帮助您进行研究。
如果以上回答对您有所帮助,点击一下采纳该答案~谢谢
在进行生存分析和logrank检验时,每组病例数的要求是非常重要的。一般来说,样本量越大,统计结果的可靠性就越高。对于少见病的研究,由于患者数量有限,可能很难满足传统统计学中对样本量的要求。
虽然没有明确的最低病例数要求,但是研究中常常会借助模拟研究来评估样本量对logrank检验的影响。这种模拟研究可以通过计算机模拟生成不同样本量下的数据,并进行统计分析来评估样本量对结果的影响。这样可以帮助研究者了解在给定的样本量下,是否能够获得有意义的结果。
关于生存分析和logrank检验的相关教材和文献,以下是一些建议:
"Survival Analysis: Techniques for Censored and Truncated Data" by John P. Klein and Melvin L. Moeschberger
"Applied Survival Analysis: Regression Modeling of Time-to-Event Data" by David W. Hosmer, Stanley Lemeshow, and Susanne May
"Modern Applied Statistics with S" by W.N. Venables and B.D. Ripley
"Introduction to Survival Analysis Using R" by David W. Hosmer, Jr., Stanley Lemeshow, and Susanne May
此外,你还可以参考生存分析和logrank检验的经典文献:
Peto, R., Peto, J. (1972). "Asymptotically Efficient Rank Invariant Test Procedures". Journal of the Royal Statistical Society: Series A (General), 135(2), 185-206.
Mantel, N. (1966). "Evaluation of Survival Data and Two New Rank Order Statistics Arising in Its Consideration". Cancer Chemotherapy Reports, 50(3), 163-170.
希望这些信息能对你有所帮助!如果有任何问题,请随时向我提问。
在进行生存分析时,每组病例数的选择是非常重要的。样本量的要求通常是基于统计学原理和相关假设。对于回顾性队列研究中生存分析的样本量要求,一般有以下几个方面需要考虑:
最小可接受的效应大小:这是指你希望能够检测到的最小真实差异。通常,样本量越大,你就越有可能检测到较小的效应。
统计功效:这是指在预设的效应大小下,你希望研究具有多大的概率能够检测到这个效应。一般来说,通常希望统计功效不低于80%或90%。
预期事件发生率:这是指你希望在研究期限内观察到的事件发生的频率。根据事件发生率的高低,样本量要求可能会有所不同。
由于你提到的是少见病且每组只有10例患者,可能会存在样本量过小的问题。一般来说,样本量过小可能导致统计分析结果不够可靠,无法得出具有统计学意义的结论。
针对回顾性队列研究中生存分析样本量要求的具体内容,建议参考以下教材和文献:
"Survival Analysis: Techniques for Censored and Truncated Data" by John P. Klein and Melvin L. Moeschberger.
"Applied Survival Analysis: Regression Modeling of Time to Event Data" by David W. Hosmer Jr., Stanley Lemeshow, and Susanne May.
"Sample Size Calculation for Clinical Trials: Principles and Practice" by J. Rick Turner, James M. Strongman, and Alison Alberth-Jones.
这些教材都涵盖了生存分析的基本原理、样本量计算和相关统计学概念,可以帮助你更好地进行研究设计和样本量计算。另外,你也可以参考相关领域的期刊文章,在方法部分或参考文献中寻找更具体的方法和样本量要求。
利用临床资料进行回顾性队列研究
临床病例资料数据庞大、资源丰富,如果临床医生合理利用其进行临床研究,则可节约大量时间和经费,很快得出结论和成果。但已有临床病例资料往往存在基线数据不全、不详细,治疗方案不统一,随访间期不等,失访率高等问题,故需要良好的研究设计和统计分析来克服这些缺陷,才能得出可靠的结论。
临床研究根据有无人为设计的干预因素分为试验性研究和观察性研究,观察性研究又根据有无对照组,分为描述性和分析性研究,队列研究、病例-对照研究和横断面研究是常用的分析性研究设计方法[1]。除了不能进行试验性研究和前瞻性队列研究以外,现有临床资料可进行病例报道和病例分析,也可进行病例-对照研究、回顾性队列研究和横断面研究,故可设计的研究类型非常多。 例如<10例的罕见病可进行病例报道,≥10例可进行病例分析。
病因学研究多采用病例-对照方法进行设计,疗效评价、预后研究和病因学研究可采用回顾性队列研究设计,诊断试验评价可采用横断面研究方法。 由于回顾性队列研究应用范围最广,故本文重点介绍如何利用临床病例资料进行回顾性队列研究的设计和统计分析。
1 设计阶段需注意的几个问题
1.1 提出PICO问题
回顾性队列研究的基本步骤包括:
(1)明确研究目的,确立结局指标和研究因素,提出PICO(P:研究对象,I:干预或暴露因素,C:对照组,O:结局指标)问题;
(2)确定研究对象的纳入和排除标准;
(3)计算样本量;
(4)收集病例的基线资料;
(5)随访病例结局;
(6)进行统计分析,校正各种混杂因素;
(7)总结、撰写论文。
写出PICO问题非常重要,其可帮助研究者理清思路和明确研究目的。例如,研究A基因突变是否是急性髓系白血病复发的高危因素,P(研究对象)是某种类型的急性髓系白血病,I(暴露因素)是有A基因突变,C(对照组)是无A基因突变,O(结局指标)是白血病复发,在统计分析阶段需要校正的因素有年龄、白细胞计数、原始细胞计数、染色体核型、化疗方案等影响结局的因素。
1.2 基线数据缺失问题
针对基线资料不全的缺陷,在设计课题阶段可采用限制方法,即设立纳入和排除标准,把关键资料缺失的病例排除。为了样本有代表性,一般设立一个病例纳入的年限,如纳入2015年1月1日至2018年12月31日符合纳入条件的所有病例(连续样本),且排除标准不能太严格。如果排除的病例较多,最好进行一个缺失数据模式分析,如为完全随机缺失或随机缺失,删去缺失病例对结果的影响较小。也可比较纳入对象和剔除对象的基线临床特征,如无临床特征显著差异,则说明纳入病例的代表性较好,基本可以代表总体病例。
1.3 计算样本量
回顾性分析中只要有对照组,需要进行统计学分析、计算P值的研究都需要计算样本量,因为样本量太小,有可能得到假阴性的结果。样本量的计算取决于主要结局指标[2],例如研究某一疾病的缓解率、无进展生存率、总生存率的样本量是完全不同的,样本量依次递增。故研究中设计主要结局指标和次要结局指标很重要。
1.4 配对方法
队列研究中,可以把无暴露因素(或治疗方法)的所有病例作为对照组,也可在设计阶段采用配对方法进行对照组病例选择,例如进行年龄、重要的预后因素(疾病分期、亚型、并发症等)配对,根据不同疾病而定,使两组可比性较好。如果应用手工配对方法,一般配对的因素为2~4个,否则很难配到合适的对照组。如果应用一些统计方法进行配对,如下面案例应用的迭代扩展半径法(iterative expanding radius matching),可以适当增加配对因素。配对的比例一般为1∶1至1∶4,配对比例达到1∶4以后,再增加配对例数,统计效能增加不多。
案例分析:发表在N Engl J Med的一项多中心、回顾性队列研究题为“应用人类白细胞抗原(HLA)不相合活体供体进行肾移植有生存获益”[3],该研究目的是探讨与单纯等待患者或等待后接受死者供体肾移植患者相比,HLA不相合的活体供体肾移植是否有生存获益。数据来源于美国移植登记数据库,其中有1025例HLA不相合的活体肾移植病例,对照组采用1∶5配对,配对因素为年龄、性别、种族、既往进行肾移植的次数、HLA抗体水平、有无糖尿病、肾脏替代治疗时间7个因素。配对方法采用迭代扩展半径法。从单纯等待未进行肾移植的患者中选择5125例作为对照组1,从等待后进行了HLA相合死亡供体肾移植中选择5125例作为对照组2(表1)。然后进行统计分析,分析总生存期差异,发现与等待患者相比,及早应用HLA不相合的活体肾供体可提高总生存期。
表1 HLA不相合活体肾移植患者与配对对照组的临床特征比较[3]
图片来源于《协和医学杂志》
2 分析阶段需要注意的几个问题
在统计分析阶段可采用分层分析、多因素分析、倾向性评分等多种方法校正各种混杂因素,以明确研究因素是否为独立危险因素或预后因素。
2.1 分层分析
在分析阶段,对一些最重要的影响结局、预后因素进行分层分析,目的是观察消除该影响因素以后,两组结局比较是否有变化。例如上文中,对HLA抗体阳性的不同水平进行分层分析,发现不同抗体水平下,HLA不相合活体供体肾移植仍有生存获益。
案例分析:在一项比较输血依赖的骨髓增生异常综合征应用去铁治疗和不去铁治疗是否生存期不同的研究中[4],结论是去铁治疗可以延长生存期。因输血量是疾病严重程度的一个标志,疾病越严重每月输血量越多,生存期越短。故对每月输血量(≤3 U红细胞和>3 U红细胞)进行分层分析,发现不同输血量情况下,去铁治疗均可延长生存期(图1),更证明了结论的可靠性。
图片来源于《协和医学杂志》
图 1去铁治疗和不去铁治疗对骨髓增生异常综合征患者生存期的影响[4]
A.红细胞输注量≤3 U/月; B.红细胞输注量>3 U/月
2.2 多因素分析
2.2.1 多因素分析方法
因影响结局的混杂因素较多,多因素分析可同时校正多个混杂因素,故其是队列研究中常用的统计方法。常用的多因素分析方法包括多元回归分析、Logistic回归分析、COX回归模型。当结局变量为连续变量时,选择多元回归分析。当结局变量为分类变量,同时又要考虑时间对该结局变量的影响(有时间变量),可选择COX回归模型。当结局变量为分类变量,不考虑时间变量时,可以选择Logistic回归分析。
案例分析:在一项“老年贫血患者应用促红细胞生成素的治疗反应和心血管结局”的回顾性队列研究中[5],应用Logistic回归分析应用促红细胞生成素后治疗反应的影响因素,应用COX回归分析应用促红细胞生成素后心血管事件的发生结局。治疗反应统一在治疗2个月后进行评价,故无需考虑时间变量。而应用促红细胞生成素后心血管事件的发生需要考虑时间变量,有的患者使用后很短时间就发生了心血管事件,有的患者很久以后才发生心血管事件。研究结论是:不论是不进行校正的单因素分析[HR=1.21,95% CI: 0.88~1.66, P=0.234],还是用5个因素(存在其他血细胞减少、血红蛋白水平、年龄、性别、并发症指数)进行校正的多因素分析[HR=0.94,95% CI: 0.67~1.31, P=0.693],均认为应用促红细胞生成素后并不增加心血管事件的发生风险。该文根据不同结局变量,选择了2种多因素分析方法。
2.2.2 多因素分析变量的选择
选择多因素分析变量时主要考虑临床意义,从文献或临床经验中确定需要进行校正的因素,即可能会影响结局的变量。如果样本量有限,要控制进入多因素分析的变量数量,可先通过单因素分析进行初步筛选,然后再纳入多因素分析。文献[4]的研究中,即采用先进行单因素分析,把单因素分析有统计学意义的变量纳入多因素COX回归分析的方法。而文献[5]则根据临床意义选择5个校正变量,未经单因素分析筛选,直接进行多因素分析。在临床研究中,可根据实际情况选择其中一种方法,或2种方法联用。
2.3 倾向性评分法
倾向性评分法可在分析阶段有效平衡非随机对照研究中的混杂偏倚,使研究结果接近随机对照研究的效果,故有学者称其为事后随机化法。其通过配对、分层、回归等分析方法来校正混杂因素,最常用的是配对法。与普通配对法不同的是,倾向性评分法可同时进行多个变量配对,而普通配对法的配对变量是有限的。
案例分析:为比较费城染色体阳性的急性淋巴细胞白血病(ALL)应用Hyper-CVAD +帕纳替尼化疗方案与Hyper-CVAD+达沙替尼化疗方案的疗效,但两组基线临床特征有一定差异,故研究者采用倾向性评分配对的方法进行了此项研究[6]。首先选择配对的8个因素包括年龄、体能状态、白细胞计数、染色体危险度分组、BCR-ABL1的转录类型、是否应用利妥昔单克隆抗体、CD20阳性的原始细胞比例、是否有中枢神经系统累及。然后应用Logistic回归方法计算这8个因素的倾向分值。再应用最近邻居方法对评分进行1∶1配对,原有110例ALL病例,经过倾向性评分配对后,41对(82例)病例配对成功。最后,对这82例病例进行统计分析,发现应用Hyper-CVAD+帕纳替尼化疗方案组无事件生存率和总体生存率均优于达沙替尼组。
倾向性评分法能否很好控制混杂因素取决于纳入哪些协变量计算倾向分值,目前尚无公认的标准,但一般认为应纳入已知的、可能影响结局的所有混杂因素。
2.4 失访率问题
回顾性队列研究存在失访是不可避免的,一般要求失访率控制在10%之内,最多不能超过20%,否则会存在选择性偏倚,影响结果,故应尽量控制失访。如果有较多的病例失访,可进行敏感性分析,把失访病例的结局分别按照最差结局和最好结局计算,如结论无显著差异,认为失访对结论的影响较小,结论比较可靠。否则,结论的可靠性较差。
3 撰写论文规范
队列研究属于观察性研究,撰写论文时要按照观察性研究报告规范(STROBE)来进行论文写作。详细的STROBE声明清单见www.strobe-statement.org网站。在进行研究设计之前应先阅读该声明,按照清单上的内容进行设计,才能保证研究质量和论文质量。
4 小结
临床医生可以利用现有病例资料进行各种研究设计,根据不同研究目的选择不同研究方法,回顾性队列研究是常用的设计方法。两组不均衡可比,存在很多混杂因素是回顾性队列研究中比较突出的问题,可应用上述介绍的各种方法来校正混杂因素,同一研究中可同时应用多种方法进行校正。
参考gpt:
结合自己分析给你如下建议:
Logrank检验是一种常用的非参数方法,用于比较两组或多组生存曲线是否有显著差异。它的基本假设是两组或多组的风险比(hazard ratio)是恒定的,即不随时间变化。
生存分析Logrank检验的样本量计算需要考虑以下几个因素:
两组或多组的生存曲线的差异程度,通常用风险比(hazard ratio)来表示。风险比越大或越小,说明差异越明显,需要的样本量越小;风险比越接近,说明差异越不明显,需要的样本量越大。
试验的统计功效(power),即在存在真实差异时,能够正确拒绝零假设(即检出差异)的概率。一般来说,功效越高,需要的样本量越大;功效越低,需要的样本量越小。常用的功效水平是0.8或0.9。
试验的显著性水平(alpha),即在不存在真实差异时,错误地拒绝零假设(即发生假阳性)的概率。一般来说,显著性水平越低,需要的样本量越大;显著性水平越高,需要的样本量越小。常用的显著性水平是0.05或0.01。
试验的总观察时间(total time),即从试验开始到结束所经过的时间长度。一般来说,总观察时间越长,需要的样本量越小;总观察时间越短,需要的样本量越大。
试验中每组的删失率(dropout rate),即在试验期间因为各种原因而退出试验或失去随访的个体所占的比例。一般来说,删失率越高,需要的样本量越大;删失率越低,需要的样本量越小。
根据你提供的信息,你的研究是回顾性队列研究,进行Logrank检验比较两组PFS(progression-free survival),每组10例患者。如果假设你已经知道两组PFS曲线的形状和删失情况,那么你可以利用PASS软件或其他工具来计算你的研究所达到的功效和显著性水平。如果你不知道这些信息,那么你可以根据你期望检出的风险比、功效和显著性水平来反推你需要多少样本量。
《生存分析:观察期数据分析》(王石川、程秀梅 编著)
《医学生存分析》(陈大明、陈国清 编著)
《统计学习方法》(李航 著)
《生存数据:统计学与临床研究》(金斯特拉、普兰 编著)
《生存分析与应用》(张玉芹 编著)
《临床流行病学》
《现代流行病学》
《循证医学》