发布时间:2025-08-05 02:49:35 来源:不朽情缘MG家居科技
Scientific Reports的副主编◈✿ღ✿、英国萨里大学数据科学家马特·斯皮克(Matt Spick)注意到◈✿ღ✿,一批垃圾论文正以每天一篇甚至两篇的速度◈✿ღ✿,在迅速涌入他工作的期刊◈✿ღ✿。
它们选题各异◈✿ღ✿,套路却惊人地一致◈✿ღ✿。有的研究血清维生素D与抑郁症的关系◈✿ღ✿,有的分析碘摄入与糖尿病◈✿ღ✿,有的考察炎症指数与睡眠质量mg不朽情缘试玩◈✿ღ✿,总之就是考察一个变量对一种疾病的影响◈✿ღ✿。只需一份标准化的数据集◈✿ღ✿、一段回归模型脚本◈✿ღ✿,再得出一个统计显著的结果◈✿ღ✿,这类论文就能迅速成文◈✿ღ✿。换个变量mg不朽情缘试玩mg不朽情缘试玩◈✿ღ✿,又是新的一篇◈✿ღ✿。
这种没有信息含量的垃圾论文数量在迅速膨胀◈✿ღ✿。2024年◈✿ღ✿,仅1月至10月◈✿ღ✿,全球就发表了190篇这类基于美国 NHANES 健康数据库的“单因子关联研究”◈✿ღ✿,几乎是2014至2021年间年均发表数量的五十倍◈✿ღ✿。
更引人注意的是◈✿ღ✿,垃圾论文数量的激增几乎完全集中在中国◈✿ღ✿。2021至2024年间◈✿ღ✿,全球共发表了316篇此类论文◈✿ღ✿,其中有292篇的第一作者来自中国单位◈✿ღ✿,占比超过92%◈✿ღ✿。而在2014至2020年的25篇中◈✿ღ✿,这一数字仅为2篇[1]◈✿ღ✿。
这组数据来自于斯皮克和他合作者今年发布的一项研究◈✿ღ✿。为了系统性地研究这一现象◈✿ღ✿,斯派克和他的合作者在PubMed和Scopus等学术数据库中◈✿ღ✿,使用精确的关键词组合进行检索◈✿ღ✿,筛选出过去十年间所有使用NHANES数据◈✿ღ✿、且研究设计为单因素关联的论文◈✿ღ✿。经过筛选◈✿ღ✿,他们最终确定了341篇符合条件的论文作为分析对象◈✿ღ✿。
这些论文大多采用相同的方法框架◈✿ღ✿:使用 logistic 回归模型◈✿ღ✿,研究一个健康变量与一种疾病或生理状态之间的统计关联不朽情缘官网下载◈✿ღ✿,◈✿ღ✿,最多控制三五个协变量mg不朽情缘试玩◈✿ღ✿,结论集中在“显著相关”这一层面◈✿ღ✿。研究的问题不同◈✿ღ✿,结构几乎不变◈✿ღ✿。
在对这三百多篇论文进行分析后半岛游戏◈✿ღ✿,研究团队发现◈✿ღ✿,它们普遍遵循一套高度重复的写作脚本◈✿ღ✿。研究者从数据库中选取一个预测变量◈✿ღ✿,比如某种维生素水平◈✿ღ✿,再选择一个健康结果◈✿ღ✿,比如抑郁症◈✿ღ✿,通过标准化的统计流程将两者建立关联◈✿ღ✿,最终得出一个简单的结论◈✿ღ✿,A 与 B 相关◈✿ღ✿。在最极端的情况下◈✿ღ✿,研究者甚至只需颠倒自变量和因变量的位置不朽情缘电子官网◈✿ღ✿。◈✿ღ✿,就能生成另一篇论文◈✿ღ✿,无需任何生理学依据或理论假设◈✿ღ✿,便可无限扩展变量与结局的组合方式◈✿ღ✿。
为了进一步说明这类研究存在的问题◈✿ღ✿,研究团队使用了网络分析方法mg不朽情缘试玩◈✿ღ✿,把所有论文中提到的预测变量和疾病之间的配对关系画成图表◈✿ღ✿。结果显示◈✿ღ✿,像抑郁症这样的复杂疾病MG不朽情缘(中国)官网◈✿ღ✿,◈✿ღ✿,被几十个毫无关联的变量分别单独研究过一次◈✿ღ✿。图中呈现出一种“一个变量对应一个疾病”的稀疏结构◈✿ღ✿,揭示出这类研究往往忽视疾病背后的多重因素◈✿ღ✿,只是简单地找出某种单一因素与某个结果之间的联系◈✿ღ✿。
团队以抑郁症为例◈✿ღ✿,检验这些论文是否可靠◈✿ღ✿。他们统计了所有声称与抑郁症显著相关的研究◈✿ღ✿,一共28篇◈✿ღ✿,并使用一种叫“错误发现率”(FDR)的统计方法◈✿ღ✿,对这些结果重新进行了校正◈✿ღ✿。FDR 用来处理多个变量同时检验时容易出现的假阳性问题◈✿ღ✿。结果发现◈✿ღ✿,这28项中有15项在校正后不再显著◈✿ღ✿,说明很多看起来有效的结果◈✿ღ✿,其实可能只是偶然波动造成的◈✿ღ✿。
研究人员进一步发现◈✿ღ✿,不少论文在数据使用上存在操纵的嫌疑◈✿ღ✿。NHANES 是一项跨年滚动调查◈✿ღ✿,覆盖数十年的连续数据◈✿ღ✿,供研究者完整调用◈✿ღ✿。但在大部分论文中◈✿ღ✿,作者却在没有提供任何解释的情况下◈✿ღ✿,仅选取了其中一小段年份区间进行分析◈✿ღ✿。这种精心挑选数据的做法◈✿ღ✿,很难不令人怀疑其动机是为了筛选出p值最低不朽情缘平台网站◈✿ღ✿,◈✿ღ✿、结果最漂亮的组合来发表◈✿ღ✿。
将所有线索串联起来◈✿ღ✿,一条AI论文流水线已经显示地非常清晰了◈✿ღ✿。一个对AI开放的数据库作为原料mg不朽情缘试玩◈✿ღ✿,辅以自动化的分析脚本◈✿ღ✿,再套用高度公式化的研究设计◈✿ღ✿,最终得以在短期内以指数级速度产出大量雷同的论文半岛游戏◈✿ღ✿。这套流程完美地契合了AI辅助的工作模式◈✿ღ✿,正如报告作者所言◈✿ღ✿,这种生产力的提升半岛游戏◈✿ღ✿,对“旨在通过提供低质量或伪造稿件来牟利的论文工厂尤其具有吸引力” ◈✿ღ✿。
这一切的起点◈✿ღ✿,是庞大的公共健康数据库NHANES◈✿ღ✿。这是由美国官方主导的一项长期项目◈✿ღ✿,旨在评估美国成人和儿童的健康与营养状况mg不朽情缘试玩mg不朽情缘官网◈✿ღ✿,◈✿ღ✿。该调查每两年进行一次◈✿ღ✿,招募约1万名参与者mg不朽情缘试玩◈✿ღ✿,通过结合访谈◈✿ღ✿、体格检查和实验室检测◈✿ღ✿,收集了涵盖疾病◈✿ღ✿、风险因素◈✿ღ✿、营养指标等超过700个变量的综合数据◈✿ღ✿。
造成这一局面的部分原因◈✿ღ✿,在于NHANES 本身高度结构化的数据形式◈✿ღ✿。它的数据可以通过API直接导入Python或R语言环境◈✿ღ✿,一系列标准库(如 nhanesA◈✿ღ✿、pynhanes◈✿ღ✿、NHANES pyTOOL 等)支持自动搜索◈✿ღ✿、清洗◈✿ღ✿、建模与输出◈✿ღ✿。过去需要团队手动完成的数据整理和图表绘制◈✿ღ✿,如今可在更短时间内借助脚本工具实现◈✿ღ✿。
更关键的是◈✿ღ✿,NHANES是一个AI就绪(AI-ready)的数据集◈✿ღ✿。 这意味着◈✿ღ✿,研究者可以通过应用程序编程接口(API)轻松地◈✿ღ✿、自动化地提取和分析数据◈✿ღ✿。 这种设计本意是为提高科研效率◈✿ღ✿,但它也为“数据挖掘”和批量生产论文打开了方便之门◈✿ღ✿。
斯皮克团队认为◈✿ღ✿,他们的研究结果很可能严重低估了问题的规模◈✿ღ✿。他们的检索范围局限于符合利用NHANES的单因子研究◈✿ღ✿。但更宽泛的搜索显示半岛游戏◈✿ღ✿,仅在一年之间半岛游戏◈✿ღ✿,使用 NHANES 数据发表的论文数量就从2023年的4926篇增长到了2024年的7876篇◈✿ღ✿。
来自美国西北大学的研究者瑞兹·理查森(Reese Richardson)一直关注论文工厂的动向◈✿ღ✿。他在一次快速检索中不朽情缘MG游戏◈✿ღ✿,就发现了5篇未被斯皮克团队纳入的 NHANES 论文◈✿ღ✿,这些文章与某个可疑论文工厂有关联◈✿ღ✿。它们的写作结构与斯皮克所识别出的论文非常相似◈✿ღ✿,同样是围绕 NHANES 数据中的单一变量与某种疾病的简单相关性展开◈✿ღ✿,例如电子烟使用与肺部疾病之间的关联[2]◈✿ღ✿。
以“临床公共数据库挖掘”为关键词◈✿ღ✿,在中国社交媒体平台上不难搜到大量提供服务的公众号◈✿ღ✿。其中除了本文提到的 NHANES 数据库◈✿ღ✿,GBD(Global Burden of Disease◈✿ღ✿,全球疾病负担研究)等数据库也频繁出现在这些平台的推文和案例中◈✿ღ✿,成为热门的数据来源◈✿ღ✿。
这类公众号大多提供多种模式的服务◈✿ღ✿,例如◈✿ღ✿:根据研究主题协助下载公开数据◈✿ღ✿,完成统计分析◈✿ღ✿,撰写数据分析报告◈✿ღ✿,或在已有数据和主题的基础上提供论文思路和写作指导◈✿ღ✿。一些平台还进一步打出“全流程陪跑”的口号◈✿ღ✿,从选题◈✿ღ✿、分析到英文润色◈✿ღ✿,覆盖论文写作的各个阶段◈✿ღ✿。
在一些平台的广告中◈✿ღ✿,造假的暗示已非常露骨◈✿ღ✿。例如有平台写道◈✿ღ✿:“因公共数据库的开放性◈✿ღ✿,我们提供的统计服务可不断更换研究主题◈✿ღ✿,挖掘数据◈✿ღ✿,直至分析出发表级的统计分析结果◈✿ღ✿,并可提供中英文的方法和结果◈✿ღ✿。”换句话说◈✿ღ✿,就是以发表为目标◈✿ღ✿,围绕数据库中的变量反复组合◈✿ღ✿、拆解◈✿ღ✿、筛选◈✿ღ✿,直到跑出一组足够显著的结果◈✿ღ✿。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;
2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;
3.作者投稿可能会经我们编辑修改或补充。
4.用户投稿或转载的文章,发布目的仅为传递信息,并不代表本网赞同其观点和对其真实性负责。