
氨基酸替换(amino acid substitution, AAS)并不是新概念。我们熟悉的许多疾病机制,都与蛋白质中的单个氨基酸改变有关。例如 BRAF 的 V600E 替换可以显著增强 BRAF 活性,PI3K 催化亚基 p110α 的 H1047R 替换也会导致细胞状态发生广泛改变。通常,这类替换来自 DNA 突变,或者 RNA 编辑(RNA editing)。
这项研究关注的是另一条路径:DNA 序列和 RNA 序列本身没有相应改变,但翻译过程中发生了偏离经典遗传密码的解码。也就是说,同一段 mRNA 在某些情况下可能被翻译出带有不同氨基酸的蛋白质形式。
过去,替代翻译常被视为低频、偶发、影响有限的现象。原因很直观:如果错误率很低,产生的异常蛋白也应当很少;如果异常蛋白不稳定,很快会被细胞清除,生物学意义也有限。
但这里有一个关键变量容易被忽略:蛋白质丰度不仅取决于合成速率,也取决于降解速率。如果某个替代翻译产物反而更稳定,它就可能在细胞中积累到相当高的水平。换句话说,少量产生,并不必然意味着少量存在。
这正是该研究最值得关注的切入点。
核心提示:替代翻译的关键不只是“发生率有多高”,而是“产物能否稳定积累”。这也是本研究从翻译偏差走向蛋白质组功能意义的关键逻辑。
为了系统回答这个问题,研究人员整合分析了大规模蛋白质组、转录组和基因组数据。研究覆盖 1094 个人类样本,包括 6 种癌症类型:肾透明细胞癌(clear cell renal cell carcinoma, CCRCC)、子宫内膜癌(uterine corpus endometrial carcinoma, UCEC)、胰腺导管腺癌(pancreatic ductal adenocarcinoma, PDAC)、乳腺癌(breast cancer, BRCA)、肺鳞状细胞癌(lung squamous cell carcinoma, LSCC)和肺腺癌(lung adenocarcinoma, LUAD),同时还包括 26 种健康人体组织。
这项研究的技术路线也很关键。研究人员并不是简单拿标准蛋白数据库去匹配质谱数据,而是先根据每个样本的 RNA 测序数据,构建样本特异性的蛋白质序列数据库。癌症样本中每个样本至少有 1.2 亿条 paired-end Illumina reads,健康组织样本至少有 1800 万条 reads。所有转录本的平均序列覆盖度超过 98%,中位数达到 100%,每个样本约有 71000 个转录本达到完整覆盖。
这一步很重要,因为它尽可能排除了“数据库不完整导致误判”的问题。随后,研究人员利用 MaxQuant 中的 dependent peptide(DP)搜索策略,在质谱数据中寻找相对于经典肽段存在特定质量偏移的肽段,并进一步判断这些偏移是否符合氨基酸替换,而不是常见的翻译后修饰(post-translational modification, PTM)。
最终,研究人员从近 900 万个匹配到修饰肽段的谱图中,筛选出 60803 个支持氨基酸替换的碎裂谱图,对应 8746 个独特的替代氨基酸肽段(substituted amino acid peptides, SAAPs),涉及 1767 个基因。其中,还有 1955 个替换位点能够被高置信度定位。
一组改变直觉的数据
1094 个人类样本 6 种癌症类型 26 种健康组织 8746 个独特 SAAPs 1767 个基因
这组数字本身已经足够改变直觉:替代 RNA 解码并不是零星个例,而是可以在大规模组织和疾病样本中系统检测到的蛋白质组现象。
研究真正引人注意的地方,不只是发现了这些替代翻译产物,而是进一步定量比较了它们与经典蛋白形式的丰度。
研究人员定义了一个指标:氨基酸替换比例(ratio of amino acid substitution, RAAS),即替代肽段 SAAP 与对应经典肽段 base peptide(BP)的丰度比值。简单说,RAAS 越高,说明替代翻译产物相对于经典产物越多。
整体来看,RAAS 的中位数为 log10[RAAS] = -2.13,也就是替代产物通常低于经典产物,符合我们对翻译准确性的基本预期。
但关键在于尾部。约 10% 的 SAAPs 的 RAAS 超过 1,意味着它们对应的替代翻译蛋白形式比经典蛋白形式还要丰富。研究人员估计,这类现象涉及 360 个蛋白质,覆盖信号转导(signalling)、蛋白降解、转录调控、免疫反应、小分子代谢、氧化应激反应等多类功能。
更进一步,研究人员用 histone ruler 方法估算细胞内拷贝数,发现一些高丰度替代蛋白形式可达到每个细胞 数百到数万个拷贝。这已经不是“可以忽略的翻译噪音”,而是可能参与细胞状态塑造的分子实体。
如果一个细胞中存在数千拷贝的替代蛋白形式,它即便只在某些组织、某些癌种或某些状态下出现,也可能改变我们对蛋白功能、疾病机制和生物标志物的判断。
这类研究最容易受到质疑的地方,是质谱识别是否可靠。一个质量偏移可能来自氨基酸替换,也可能来自翻译后修饰、误切、离子化差异、数据库匹配偏差,甚至来自低质量谱图。
研究人员对此做了多层过滤和验证。
他们首先去除了质量偏移可由已知 PTM 解释的肽段;随后用标准数据库搜索验证 DP 搜索发现的 SAAP;要求至少 2 个肽段碎片离子支持替换位点;再用 Oktoberfest 和 Prosit 等深度学习工具比较实测碎裂谱与预测谱;同时排除可由六阅读框翻译直接解释的序列,并以 1% false discovery rate(FDR)进行控制。
在所有检测到的替换中,60803 个替换由至少 2 个碎片离子支持。研究人员还发现,SAAP 与经典肽段的第四根谱角(fourth-root spectral angle)中位数非常接近:SAAP 为 0.845,BP 为 0.848,说明实测谱图与预测谱图高度一致。此外,同一替换在不同蛋白酶消化实验中得到的 RAAS 估计也高度一致,Pearson 相关系数达到 0.77,P 值为 2.5 × 10^-12。
这些验证不能说明每一个候选替换都毫无争议,但足以支持一个稳健结论:在严格过滤后,确实存在一批可信的、可定量的替代翻译蛋白形式。
一个自然问题是:既然替代翻译通常是低频事件,为什么部分替代产物能达到很高丰度?
研究提供了两个层面的解释。
第一,翻译层面的机制确实重要。RAAS 与 mRNA-tRNA 配对所需的最少碱基错配数有关。需要 1 个错配的替换,比需要 2 个或 3 个错配的替换更容易达到较高比例。RAAS 还与密码子使用频率有关:相对低频的密码子更容易出现较高替换比例。研究人员在 53 个密码子层面观察到,RAAS 与相对密码子频率呈负相关,Pearson r 为 -0.402,P 值为 0.003。
第二,蛋白质稳定性可能更关键。研究人员分析了稳定同位素标记氨基酸代谢脉冲实验,发现许多替代肽段的降解速率低于对应经典肽段。在原代人肝细胞(primary human hepatocytes)中,SAAP 相对于 BP 的降解速率比值与 RAAS 显著负相关,整体相关的 P 值达到 3.6 × 10^-20。
一个具体例子显示,某个替代肽段的降解速率为每天 0.02,对应经典肽段为每天 0.22,相差约 9.33 倍,其 RAAS 达到 19.94。这说明该替代蛋白形式可能不是因为合成特别多,而是因为“更不容易被降解”。
这对蛋白质组学的启发很直接:蛋白质丰度并不只是翻译速率的读数,它同时是翻译、折叠、修饰、定位和降解共同作用后的结果。
研究人员进一步分析了不同氨基酸替换类型。结果显示,不同替换类型的 RAAS 中位数可以从 10^-4 到 超过 1,跨度巨大。也就是说,“哪个氨基酸被哪个氨基酸替换”本身,就能解释很大一部分丰度差异。
例如,多数替换类型的替代产物比经典产物低 100 倍以上;但某些类型,如 S>G,RAAS 中位数可以超过 1。替换类型还与氨基酸的化学性质有关:极性氨基酸(polar amino acids)相关替换更容易出现较高 RAAS,而带电或疏水氨基酸相关替换通常比例较低。
组织差异也存在。方差分析显示,RAAS 的主要解释因素是替换类型,尤其是被编码的氨基酸;组织类型是第二层因素。某些替换类型在特定组织中更突出,例如 G>S 在胰腺中表现出稳定且显著的高比例,在癌症数据和正常组织数据中均可观察到,统计显著性达到 P < 10^-15。
这提示我们,替代 RNA 解码可能不是完全随机的背景噪声,而是受到密码子环境、tRNA、RNA 修饰、蛋白稳定性和组织状态共同影响的过程。
在癌症部分,研究人员发现,如果把所有替换放在一起比较,癌组织与非癌组织的整体 RAAS 分布相似。但如果看具体替换或具体替换类型,差异就显现出来。
例如,lamin isoform A 蛋白中的一个 Q>G 替换,在三类癌症样本中相对于邻近非癌组织显著升高:UCEC 的 q 值为 1.8 × 10^-4,LUAD 为 4.9 × 10^-8,LSCC 为 3.2 × 10^-7。此外,H>N、T>Q、H>D、V>E、P>L 等替换类型在肿瘤与匹配正常组织之间也显示显著差异。
功能富集分析显示,高 RAAS 的替代蛋白形式富集于基因表达、细胞组织、信号转导、蛋白分解代谢、RNA 结合、细胞骨架蛋白结合、膜组织等过程。研究还观察到一些与神经退行性疾病相关的蛋白,如 TDP43、FUS 和 VCP,存在高丰度替代形式,并且这些替换在所有数据集中都被发现。
这些结果提示疾病相关性,但不等同于证明因果关系。某个替代蛋白在肿瘤中升高,可能参与疾病过程,也可能是肿瘤细胞状态改变后的结果。真正的功能验证仍需要后续实验,包括定点构建、蛋白稳定性测定、细胞表型分析和动物模型验证。
氨基酸替换很容易让人想到 DNA 突变。研究人员专门比较了 gnomAD 数据库和 CPTAC 基因组数据,以判断这些 SAAP 是否可以由遗传变异解释。
结果显示,大多数 AAS 位点所在密码子,在患者基因组或 gnomAD 中并没有观察到对应等位变异。只有 197 个AAS 密码子存在理论上可通过经典遗传密码翻译产生相同 SAAP 的错义变异,约占 2%。在 CPTAC 数据中,只有 2 个患者样本存在对应突变并检测到相应 SAAP,另有 52 个变异出现在相应 TMT 标记实验集合的样本中;这些 54 个 SAAP 已被研究人员从后续分析中移除。
换句话说,绝大多数替代蛋白形式不能简单归因于 DNA 突变。
有趣的是,这些替代翻译位点的 RAAS 与 gnomAD 中对应等位基因频率仍然显著相关,Pearson 相关系数为 0.455,P 值为 1 × 10^-10。同时,高 RAAS 位点对应的密码子在人群中表现出更多变异,提示它们可能位于对序列变化更宽容的区域。
这提供了一个很有意思的视角:替代翻译倾向于发生在那些进化约束相对较弱、结构更无序、序列更不保守的区域。细胞似乎并不是在最关键、最保守的蛋白结构核心中随意“犯错”,而是在更能承受变化的区域产生可检测的多样性。
为了判断这一现象是否只存在于人类样本,研究人员还分析了小鼠肺、肾和胰腺 3 种组织的蛋白质组数据,识别出 1102 个替换事件,对应 397 个独特 SAAP。其中 55 个SAAP 与人类组织中发现的 SAAP 序列相同。
更重要的是,这些共享 SAAP 在人和小鼠之间的 RAAS 显著相关,Pearson r 为 0.55,P 值为 2.3 × 10^-9。考虑到物种差异、蛋白序列同源性和质谱可检测性差异,这个重叠数量很可能还是低估值。
跨物种保守性并不自动证明功能,但它提高了一个可能性:至少有一部分替代 RNA 解码事件,可能不是纯粹随机错误,而是受到保守机制约束,甚至可能在某些条件下具有生物学意义。
这项研究最重要的价值,不是宣称经典遗传密码需要被推翻,而是提醒我们:经典遗传密码描述的是主要规则,不一定覆盖蛋白质组的全部现实。
如果 DNA 突变平均每个癌症引入约 44 个错义替换,那么替代翻译则可能在蛋白质层面引入成千上万个序列变化。两者的性质不同:DNA 突变会影响突变等位基因模板产生的所有蛋白,而替代解码只影响其中一部分蛋白拷贝。但当这“一部分”达到每个细胞上千甚至上万拷贝时,它的生物学存在感就不能被忽略。
当然,研究人员也明确指出了局限性。该研究主要分析的是相对于经典遗传密码只有单个氨基酸偏离的序列空间;严格过滤减少了假阳性,也不可避免增加了假阴性;某些质量偏移仍可能存在替代解释,例如多个修饰的组合。因此,更合理的态度不是把每一个候选替换都直接视为功能分子,而是承认:已有证据支持一批稳定、丰度较高、具有组织和疾病相关性的替代蛋白形式真实存在。
真正值得进一步追问的是:这些替代蛋白中,哪些只是翻译保真度的边缘产物?哪些会改变蛋白稳定性、相互作用或定位?哪些可能成为疾病状态的标志物?哪些甚至参与调控细胞命运?
当我们说“一个基因编码一个蛋白”时,这句话早已被可变剪接、RNA 编辑、翻译后修饰和蛋白降解网络不断修正。现在,替代 RNA 解码又补上了另一块拼图。
基因组提供的是模板,转录组提供的是中间层,而蛋白质组才是细胞真正执行功能的现场。这个现场比我们想象得更动态,也更复杂。规则很重要,但偏离规则的部分,往往藏着新的生物学问题。
参考文献