核心结论:
- 不总是100%强制,但这已迅速成为绝大多数顶级和主流期刊的“强烈建议”或“硬性要求”。
- 对于越来越多的期刊和基金机构来说,数据共享不再是“加分项”,而是“必需项”。
- 总趋势是: 从“结果可信即可”转向“过程必须透明、可验证”。

一、 什么是投稿语境下的“原始数据”?
首先,我们需要明确“原始数据”的范畴。它并不仅仅指Excel表格。广义上,它是指支撑您论文研究结论的、未经处理或仅经过初步处理的、可用于复现(Replicate)您研究结果的所有数字信息。
具体形式因领域而异:
- 生命科学/医学: 基因测序原始文件 (FASTQ files)、显微镜图像、凝胶电泳图、临床试验数据(需匿名化)、流式细胞数据等。
- 计算机科学: 您用于训练和测试模型的数据集、源代码/脚本、伪代码、模拟的输出文件等。
- 社会科学: 调查问卷的原始回复(需匿名化)、访谈记录(需匿名化并获准)、实验记录数据等。
- 物理/化学/材料学: 仪器输出的原始数据文件、实验记录本的扫描件、光谱数据、结构文件等。
其核心标准是:第三方研究者能否仅凭您提供的这些数据和您论文中描述的方法,独立地重现出您的核心结果和图表?
二、 当前期刊的主流政策(截至2025年)
期刊的政策通常分为以下几类,且正快速地从C类向A类过渡:
A. 强制性要求:发表时必须公开 (Mandatory Data Sharing)
这是目前顶级期刊(如 Nature, Science, Cell, PLOS 系列, eLife 等)和许多基金资助机构(如美国的NIH, 欧洲的Horizon Europe)的黄金标准。
- 要求: 论文被接收后,作者必须将支撑论文结论的原始数据上传到一个公开、稳定、可长期访问的数据库,并在论文中提供数据的永久访问链接(如DOI)。
- “无数据,不发表”: 在某些情况下,未能按要求提供数据可能会导致稿件被延迟发表甚至撤销接收。
B. 强烈建议共享 (Strongly Recommended)
这是绝大多数主流SCI/SSCI期刊正在采取的政策。
- 要求: 期刊强烈鼓励作者在发表时公开分享其原始数据。虽然不作为接收的硬性条件,但能够提供公开数据会大大增加论文的可信度和编辑/审稿人的好感。
- 奖励机制: 一些期刊会对分享数据的论文授予特殊的“开放数据”徽章(Open Data Badge),增加论文的吸引力。
C. “数据应要求提供” (Data Available on Reasonable Request)
这是一个相对过时且正在被淘汰的政策。
- 要求: 作者只需在论文中注明“相关数据可根据合理请求向通讯作者提供”。
- 弊端: 这种方式的有效性很差。多年后,通讯作者可能更换单位、丢失数据或不再回复邮件,导致数据事实上无法获取,违背了科学可重复性的初衷。因此,主流期刊正逐步放弃此政策。
三、 如何规范地提供原始数据?
如果您决定或被要求提供数据,正确的做法是:
- 选择合适的公共数据库 (Public Repository): 不要使用个人网站或不稳定的网络硬盘。应选择专业的、能提供永久标识符(如DOI)的数据库。
- 通用型数据库: Figshare, Zenodo, Dryad, Open Science Framework (OSF) 是目前最受欢迎的选择,它们接受各种类型的文件。
- 领域专用数据库: 例如,基因序列的 GenBank,蛋白质结构的 Protein Data Bank (PDB),社会科学数据的 ICPSR 等。
- 整理并“注释”您的数据: 直接上传一堆混乱的原始文件是毫无意义的。您需要:
- 提供一个README.txt文件: 解释每个文件的内容、数据的格式、变量的含义以及必要的处理步骤。
- 代码清晰: 如果您提供代码,请确保代码有足够的注释,并说明其运行环境和依赖项。
- 遵循FAIR原则: 这是数据管理的黄金准则——可发现 (Findable)、可访问 (Accessible)、可互操作 (Interoperable)、可重用 (Reusable)。
- 在论文中撰写“数据可用性声明” (Data Availability Statement): 这是现代学术论文一个标准的部分。您需要在此明确说明您的数据存放在何处以及如何访问。
- 标准句式示例: "The raw data supporting the conclusions of this article are available in the [数据库名称] repository, accession number [您的数据编号], and can be accessed via [DOI链接]."
四、 是否有例外情况?
是的,在某些特定情况下,数据可以不完全公开,但必须做出说明。
- 涉及人类隐私和敏感信息: 如临床病人的个人信息。在这种情况下,数据必须经过严格的匿名化处理。如果无法完全匿名化,作者需要说明数据由某个伦理委员会保管,并提供申请访问的流程。
- 知识产权和商业机密: 如果研究涉及未申请的专利或商业敏感数据。
- 其他伦理/安全问题: 例如,可能暴露濒危物种栖息地位置的数据。
在这些情况下,您仍需撰写“数据可用性声明”,但内容是解释为何数据受限以及获取数据的条件和联系方式。
总结:
在2025年,“投稿时是否需要提供原始数据” 的答案越来越趋向于“是”。这已经从一种学术风尚,演变为衡量研究质量和透明度的核心标准之一。
建议您在开始研究时,就建立良好的数据管理习惯,并提前规划好数据的分享策略。这不仅能让您的投稿过程更顺利,更能从长远上增加您研究成果的信誉和影响力——研究表明,附带公开数据的论文通常会获得更多的引用。