【紫光同创国产FPGA教程】【第十章】DDR3读写测试实验
原创声明:本原创教程由芯驿电子科技(上海)有限公司(ALINX)创作,版权归本公司所有,如需转载,需授权并注明出处(http://www.alinx.com)。适用于板卡型号:PGL22G/PGL12G1. 实验简介本实验为后续使用DDR3内存的实验做铺垫,通过循环读写DDR3内存,了解其工作原理和DDR3控制器的写法,由于DDR3控制复杂,控制器的编写难度高,这里笔者介绍采用第三方的DDR3 IP控制器情况下的应用,是后续音频、视频等需要用到DDR3实验的基础。2. 实验原理DDR SDRAM全称为Double Data Rate SDRAM,中文名为“双倍数据流SDRAM”。DDR SDRAM在原有的SDRAM的基础上改进而来。也正因为如此,DDR能够凭借着转产成本优势来打败昔日的对手RDRAM,成为当今的主流。本文只着重讲DDR的原理和DDR SDRAM相对于传统SDRAM(又称SDR SDRAM)的不同。(一) DDR的基本原理有很多文章都在探讨DDR的原理,但似乎也不得要领,甚至还带出一些错误的观点。首先我们看看一张DDR正规的时序图。https://pic2.zhimg.com/80/v2-cf6a37110316575d043befd9bc2be2a5_720w.jpg从中可以发现它多了两个信号: CLK#与DQS,CLK#与正常CLK时钟相位相反,形成差分时钟信号。而数据的传输在CLK与CLK#的交叉点进行,可见在CLK的上升与下降沿(此时正好是CLK#的上升沿)都有数据被触发,从而实现DDR。在此,我们可以说通过差分信号达到了DDR的目的,甚至讲CLK#帮助了第二个数据的触发,但这只是对表面现象的简单描述,从严格的定义上讲并不能这么说。之所以能实现DDR,还要从其内部的改进说起。https://pic2.zhimg.com/80/v2-eb904d53b21289be34e8f6af81e4d7e5_720w.jpgDDR内存芯片的内部结构图这是一颗128Mbit的内存芯片,从图中可以看出来,白色区域内与SDRAM的结构基本相同,但请注意灰色区域,这是与SDRAM的不同之处。首先就是内部的L-Bank规格。SDRAM中L-Bank 存储单元的容量与芯片位宽相同,但在DDR SDRAM中并不是这样,存储单元的容量是芯片位宽的一倍,所以在此不能再套用讲解SDRAM时 “芯片位宽=存储单元容量” 的公式了。也因此,真正的行、列地址数量也与同规格SDRAM不一样了。以本芯片为例,在读取时,L-Bank在内部时钟信号的触发下一次传送8bit的数据给读取锁存器,再分成两路4bit数据传给复用器,由后者将它们合并为一路4bit数据流,然后由发送器在DQS的控制下在外部时钟上升与下降沿分两次传输4bit的数据给北桥。这样,如果时钟频率为100MHz,那么在I/O端口处,由于是上下沿触发,那么就是传输频率就是200MHz。现在大家基本明白DDR SDRAM的工作原理了吧,这种内部存储单元容量(也可以称为芯片内部总线位宽)=2×芯片位宽(也可称为芯片I/O总线位宽)的设计,就是所谓的两位预取(2-bit Prefetch),有的公司则贴切的称之为2-n Prefetch(n代表芯片位宽)。(二) DDR SDRAM与SDRAM的不同DDR SDRAM与SDRAM的不同主要体现在以下几个方面。DDR SDRAM与SDRAM的主要不同对比表https://pic3.zhimg.com/80/v2-1b43c7da9717aab9252fb3f3ea6964fa_720w.jpghttps://pic4.zhimg.com/80/v2-efe8cde7238dcdb00aeac40682831ccb_720w.jpgDDR SDRAM与SDRAM一样,在开机时也要进行MRS,不过由于操作功能的增多,DDR SDRAM在MRS之前还多了一EMRS阶段(Extended Mode Register Set,扩展模式寄存器设置),这个扩展模式寄存器控制着DLL的有效/禁止、输出驱动强度、QFC 有效/无效等。https://pic4.zhimg.com/80/v2-32c3827c1992c23c773a7ce23077795b_720w.jpg由于EMRS与MRS的操作方法与SDRAM的MRS大同小异,在此就不再列出具体的模式表了,有兴趣的话可查看相关的DDR内存资料。下面我们就着重说说DDR SDRAM的新设计与新功能。https://pic1.zhimg.com/80/v2-35620f02690d669569649aaaeb18e7a0_720w.jpg1、 差分时钟差分时钟(参见上文“DDR SDRAM读操作时序图”)是DDR的一个必要设计,但CK#的作用,并不能理解为第二个触发时钟(你可以在讲述DDR原理时简单地这么比喻),而是起到触发时钟校准的作用。由于数据是在CK的上下沿触发,造成传输周期缩短了一半,因此必须要保证传输周期的稳定以确保数据的正确传输,这就要求CK的上下沿间距要有精确的控制。但因为温度、电阻性能的改变等原因,CK上下沿间距可能发生变化,此时与其反相的CK#就起到纠正的作用(CK上升快下降慢,CK# 则是上升慢下降快)。而由于上下沿触发的原因,也使CL=1.5和2.5成为可能,并容易实现。与CK反相的CK#保证了触发时机的准确性。https://pic3.zhimg.com/80/v2-f012958cded43c8fd8830665793df20e_720w.jpg2、 数据选取脉冲(DQS)总结DQS:它是双向信号;读内存时,由内存产生,DQS的沿和数据的沿对齐;写入内存时,由外部产生,DQS的中间对应数据的沿,即此时DQS的沿对应数据最稳定的中间时刻。DQS是DDR SDRAM中的重要功能,它的功能主要用来在一个时钟周期内准确的区分出每个传输周期,并便于接收方准确接收数据。每一颗芯片都有一个DQS信号线,它是双向的,在写入时它用来传送由北桥发来的DQS信号,读取时,则由芯片生成DQS向北桥发送。完全可以说,它就是数据的同步信号。在读取时,DQS与数据信号同时生成(也是在CK与 CK#的交叉点)。而DDR内存中的CL也就是从CAS发出到DQS生成的间隔,数据真正出现在数据I/O总线上相对于DQS触发的时间间隔被称为 tAC。注意,这与SDRAM中的tAC的不同。实际上,DQS生成时,芯片内部的预取已经完毕了,tAC是指上文结构图中灰色部分的数据输出时间,由于预取的原因,实际的数据传出可能会提前于DQS发生(数据提前于DQS传出)。由于是并行传输,DDR内存对tAC也有一定的要求,对于 DDR266,tAC的允许范围是±0.75ns,对于DDR333,则是±0.7ns,有关它们的时序图示见前文,其中CL里包含了一段DQS的导入期。前文已经说了DQS是为了保证接收方的选择数据, DQS在读取时与数据同步传输,那么接收时也是以DQS的上下沿为准吗?不,如果以DQS的上下沿区分数据周期的危险很大。由于芯片有预取的操作,所以输出时的同步很难控制,只能限制在一定的时间范围内,数据在各I/O端口的出现时间可能有快有慢,会与DQS有一定的间隔,这也就是为什么要有一个tAC规定的原因。而在接收方,一切必须保证同步接收,不能有tAC之类的偏差。这样在写入时,芯片不再自己生成DQS,而以发送方传来的DQS为基准,并相应延后一定的时间,在DQS的中部为数据周期的选取分割点(在读取时分割点就是上下沿),从这里分隔开两个传输周期。这样做的好处是,由于各数据信号都会有一个逻辑电平保持周期,即使发送时不同步,在DQS上下沿时都处于保持周期中,此时数据接收触发的准确性无疑是最高的。在写入时,以DQS的高/低电平期中部为数据周期分割点,而不是上/下沿,但数据的接收触发仍为DQS的上/下沿。https://pic4.zhimg.com/80/v2-7b48d153336843234856f89e1b222b77_720w.jpg3、 写入延迟在上面的DQS写入时序图中,可以发现写入延迟已经不是0了,在发出写入命令后,DQS与写入数据要等一段时间才会送达。这个周期被称为DQS相对于写入命令的延迟时间(tDQSS, WRITE Command to the first corresponding rising edge of DQS),对于这个时间大家应该很好理解了。为什么要有这样的延迟设计呢?原因也在于同步,毕竟一个时钟周期两次传送,需要很高的控制精度,它必须要等接收方做好充分的准备才行。tDQSS是DDR内存写入操作的一个重要参数,太短的话恐怕接受有误,太长则会造成总线空闲。tDQSS最短不能小于0.75个时钟周期,最长不能超过1.25个时钟周期。有人可能会说,如果这样,DQS不就与芯片内的时钟不同步了吗?对,正常情况下,tDQSS是一个时钟周期,但写入时接受方的时钟只用来控制命令信号的同步,而数据的接受则完全依靠DQS进行同步,所以 DQS与时钟不同步也无所谓。不过,tDQSS产生了一个不利影响——读后写操作延迟的增加,如果CL=2.5,还要在tDQSS基础上加入半个时钟周期,因为命令都要在CK的上升沿发出。https://pic4.zhimg.com/80/v2-b3615690969b47da768dd7c7acc7fffb_720w.jpg当CL=2.5时,读后写的延迟将为tDQSS+0.5个时钟周期(图中BL=2)另外,DDR内存的数据真正写入由于要经过更多步骤的处理,所以写回时间(tWR)也明显延长,一般在3个时钟周期左右,而在DDR-Ⅱ规范中更是将tWR列为模式寄存器的一项,可见它的重要性。https://pic3.zhimg.com/80/v2-dd23ac0343953bd8e746b7a3d8a90e32_720w.jpg4、 突发长度与写入掩码在DDR SDRAM中,突发长度只有2、4、8三种选择,没有了随机存取的操作(突发长度为1)和全页式突发。这是为什么呢?因为L-Bank一次就存取两倍于芯片位宽的数据,所以芯片至少也要进行两次传输才可以,否则内部多出来的数据怎么处理?而全页式突发事实证明在PC内存中是很难用得上的,所以被取消也不希奇。但是,突发长度的定义也与SDRAM的不一样了(见本章节最前那幅DDR简示图),它不再指所连续寻址的存储单元数量,而是指连续的传输周期数,每次是一个芯片位宽的数据。对于突发写入,如果其中有不想存入的数据,仍可以运用DM信号进行屏蔽。DM信号和数据信号同时发出,接收方在DQS的上升与下降沿来判断DM的状态,如果DM为高电平,那么之前从DQS 中部选取的数据就被屏蔽了。有人可能会觉得,DM是输入信号,意味着芯片不能发出DM信号给北桥作为屏蔽读取数据的参考。其实,该读哪个数据也是由北桥芯片决定的,所以芯片也无需参与北桥的工作,哪个数据是有用的就留给北桥自己去选吧。5、 延迟锁定回路(DLL)DDR SDRAM对时钟的精确性有着很高的要求,而DDR SDRAM有两个时钟,一个是外部的总线时钟,一个是内部的工作时钟,在理论上DDR SDRAM这两个时钟应该是同步的,但由于种种原因,如温度、电压波动而产生延迟使两者很难同步,更何况时钟频率本身也有不稳定的情况(SDRAM也内部时钟,不过因为它的工作/传输频率较低,所以内外同步问题并不突出)。DDR SDRAM的tAC就是因为内部时钟与外部时钟有偏差而引起的,它很可能造成因数据不同步而产生错误的恶果。实际上,不同步就是一种正/负延迟,如果延迟不可避免,那么若是设定一个延迟值,如一个时钟周期,那么内外时钟的上升与下降沿还是同步的。鉴于外部时钟周期也不会绝对统一,所以需要根据外部时钟动态修正内部时钟的延迟来实现与外部时钟的同步,这就是DLL的任务。DLL不同于主板上的PLL,它不涉及频率与电压转换,而是生成一个延迟量给内部时钟。目前DLL有两种实现方法,一个是时钟频率测量法(CFM,Clock Frequency Measurement),一个是时钟比较法(CC,Clock Comparator)。CFM是测量外部时钟的频率周期,然后以此周期为延迟值控制内部时钟,这样内外时钟正好就相差了一个时钟周期,从而实现同步。DLL就这样反复测量反复控制延迟值,使内部时钟与外部时钟保持同步。https://pic4.zhimg.com/80/v2-9577e800040acf21bafabae869f5225b_720w.jpgCFM式DLL工作示意图CC的方法则是比较内外部时钟的长短,如果内部时钟周期短了,就将所少的延迟加到下一个内部时钟周期里,然后再与外部时钟做比较,若是内部时钟周期长了,就将多出的延迟从下一个内部时钟中刨除,如此往复,最终使内外时钟同步。https://pic2.zhimg.com/80/v2-454f9941bc45c86439d4d59f48c6dfe9_720w.jpgCC式DLL工作示意图CFM与CC各有优缺点,CFM的校正速度快,仅用两个时钟周期,但容易受到噪音干扰,并且如果测量失误,则内部的延迟就永远错下去了。CC的优点则是更稳定可靠,如果比较失败,延迟受影响的只是一个数据(而且不会太严重),不会涉及到后面的延迟修正,但它的修正时间要比CFM长。DLL功能在DDR SDRAM中可以被禁止,但仅限于除错与评估操作,正常工作状态是自动有效的。https://pic3.zhimg.com/80/v2-68bee1e195f1414efa3d3e8f52b3659e_720w.jpg3. 硬件介绍开发板上使用了1个Micron DDR3的颗粒MT41J128M16HA, 总线宽度16bit,DDR3芯片的容量为2Gb。开发板板上对DDR3的地址线和控制线都做了端接电阻上拉到VTT电压, 保证信号的质量。在PCB的设计上, 完全遵照XILINX的DDR3设计规范, 严格保证等长设计和阻抗控制。在进行DDR3硬件设计时,FPGA的DDR3管脚分配是要求的,而不能随意分配。如果用户自己实在不清楚怎么连接,那就请完全参考我们的原理图来设计。在PCB的设计上, 考虑高速信号的数据传输的可靠性, 走线上严格保证等长设计和阻抗控制。开发板DDR部分的原理图如下:https://pic2.zhimg.com/80/v2-71e80fa4b3067dfaaf3598c44b09e6a5_720w.jpg开发板DDR34. 程序设计4.1 添加DDR控制器1)首先在PDS环境里新建一个项目,取名为ddr_test。点击菜单中的Tools下拉菜单下打开IP Compiler。https://pic3.zhimg.com/80/v2-7b434f00421aefb77849d79f33cf2756_720w.jpg2)在弹出的界面下选择菜单栏File下的Update;https://pic3.zhimg.com/80/v2-96d8d32f2c5c3112dc94a77fa7add042_720w.jpg3)点击弹出界面中的选择“+”, 然后添加DDR3 IP(ipsl_hmic_h_v1_1.iar),单击Open后再单击Update,再把界面关闭即可。https://pic3.zhimg.com/80/v2-48ffc62ad5d3170f3c0e335d3f75d92a_720w.jpg4)可以看到左侧已经添加了新的IP“logos HMIC_H”,在右侧取名ddr3_core后单击Customize。https://pic2.zhimg.com/80/v2-65e7417d3b331a350655b21c5f6530f5_720w.jpg5)在弹出的界面中Step1:BasicOptions中,DDR3的位置选择Left (BANK L1+BANK L2),其它默认,https://pic4.zhimg.com/80/v2-2d40b45750b4dac700a5fed2bf9ebc87_720w.jpgDDR3设置6)在Step2:Memory Options中,核对器件的型号,其它默认;https://pic3.zhimg.com/80/v2-cebce02b7b8037845c288d55a55ac79a_720w.jpg7)Step3:Interface Options和Step4:Interface summary中保持默认,并单击Generate开始;https://pic3.zhimg.com/80/v2-2d73eb3c8484d8051da7decd1166a9b6_720w.jpg8)然后在弹出的提示框中选择Yes,完成后关闭窗口;https://pic4.zhimg.com/80/v2-948d729164acef1808bd262540ea44bb_720w.jpg9)完成后关闭这个工程,双击打开刚才用IP Compiler创建DDR3的example的工程,测试程序位于刚才工程的如下位置;https://pic3.zhimg.com/80/v2-d103c94576e96019ff569a77493bacf2_720w.jpg10)接下来对DDR3进行管脚约束,分配完成后进行综合布线后产生bit文件。4.2 测试程序说明本工程为基于 DDR3 硬核的单地址单步读写(读-写-读-写-读循环)用例。 用例中每次写入一个地址的数据,每次读出一个地址的数据。 通过在 AXI 接口的 write 通道写入数据,在 AXI 接口的 read通道接收数据进行数据比对,若错误, 输出error。本工程目录结构如下所示:ipsl_hmemc_top_testtest_main_ctrltest_wr_ctrl_128bittest_rd_ctrl_128bitddr3_core(1) ipsl_hmemc_top_test顶层模块,在该模块中调用了test_main_ctrl、test_wr_ctrl_128bit、test_rd_ctrl_128bit、ddr3_core。(2) test_main_ctrl该模块负责将用户指令和模式转化为内部控制信号,控制 test_wr_ctrl 模块和 test_rd_ctrl 模块的运行状态。(3) test_wr_ctrl该模块根据 test_main_ctrl 发出的控制信号将由 PRBS 产生的数据、地址按照 AXI4 时序发送到总线上。(4) test_rd_ctrl该模块实现存储数据的读出,并进行校验判断。(5) ddr3_core该模块为 DDR3 硬核控制器模块。测试文件如图所示:5. 实验现象把程序生成.sbit文件下载到FPGA中,检查核心板上的LED1是否点亮, 如果点亮,则err_flag信号为低,说明DDR3的读写数据正确,如果一直熄灭,说明DDR3读写数据错误,同时底板上的LED1、LED2、LED3熄灭,LED4闪烁。
页:
[1]