FPGA设计的四种常用思想与技巧1
0赞
发表于 2012/2/25 8:09:33
阅读(1509)
本文讨论的四种常用 FPGA/CPLD 设计思想与技巧:乒乓操作、串并转换、流水线操作、数据接口同步化,都是 FPGA/CPLD 逻辑设计的内在规律的体现,合理地采用这些设计思想能在 FPGA/CPLD 设计工作种取得事半功倍的效果。 FPGA/CPLD 的设计思想与技巧是一个非常大的话题,由于篇幅所限,本文仅介绍一些常用的设计思想与技巧,包括乒乓球操作、串并转换、流水线操作和数据接口的同步方法。希望本文能引起工程师们的注意,如果能有意识地利用这些原则指导日后的设计工作,将取得事半功倍的效果! 乒乓操作 “乒乓操作”是一个常常应用于数据流控制的处理技巧,典型的乒乓操作方法如图 1 所示。
乒乓操作的处理流程为: 输入数据流通过“输入数据选择单元”将数据流等时分配到两个数
据缓冲区,数据缓冲模块可以为任何存储模块,比较常用的存储单元为双口 RAM(DPRAM)、
单口 RAM(SPRAM)、 FIFO 等。 在第一个缓冲周期, 将输入的数据流缓存到“数据缓冲模块 1”;
在第 2 个缓冲周期,通过“输入数据选择单元”的切换,将输入的数据流缓存到“数据缓冲
模块 2”,同时将“数据缓冲模块 1”缓存的第1 个周期数据通过“输入数据选择单元”的
选择,送到“数据流运算处理模块”进行运算处理;在第 3 个缓冲周期通过“输入数据选择
单元”的再次切换, 将输入的数据流缓存到“数据缓冲模块 1”, 同时将“数据缓冲模块 2”
缓存的第 2 个周期的数据通过“输入数据选择单元”切换, 送到“数据流运算处理模块”进
行运算处理。如此循环。
乒乓操作的最大特点是通过“输入数据选择单元”和“输出数据选择单元”按节拍、 相互配
合的切换,将经过缓冲的数据流没有停顿地送到“数据流运算处理模块”进行运算与处理。
把乒乓操作模块当做一个整体,站在这个模块的两端看数据,输入数据流和输出数据流都是
连续不断的,没有任何停顿,因此非常适合对数据流进行流水线式处理。所以乒乓操作常常
应用于流水线式算法,完成数据的无缝缓冲与处理。
乒乓操作的第二个优点是可以节约缓冲区空间。比如在 WCDMA 基带应用中,1 个帧是由 15
个时隙组成的,有时需要将 1 整帧的数据延时一个时隙后处理,比较直接的办法是将这帧数
据缓存起来,然后延时 1 个时隙进行处理。这时缓冲区的长度是1 整帧数据长,假设数据速
率是 3.84Mbps,1 帧长 10ms,则此时需要缓冲区长度是 38400 位。如果采用乒乓操作,只
需定义两个能缓冲 1 个时隙数据的 RAM(单口 RAM 即可)。当向一块 RAM 写数据的时候,从另
据缓冲区,数据缓冲模块可以为任何存储模块,比较常用的存储单元为双口 RAM(DPRAM)、
单口 RAM(SPRAM)、 FIFO 等。 在第一个缓冲周期, 将输入的数据流缓存到“数据缓冲模块 1”;
在第 2 个缓冲周期,通过“输入数据选择单元”的切换,将输入的数据流缓存到“数据缓冲
模块 2”,同时将“数据缓冲模块 1”缓存的第1 个周期数据通过“输入数据选择单元”的
选择,送到“数据流运算处理模块”进行运算处理;在第 3 个缓冲周期通过“输入数据选择
单元”的再次切换, 将输入的数据流缓存到“数据缓冲模块 1”, 同时将“数据缓冲模块 2”
缓存的第 2 个周期的数据通过“输入数据选择单元”切换, 送到“数据流运算处理模块”进
行运算处理。如此循环。
乒乓操作的最大特点是通过“输入数据选择单元”和“输出数据选择单元”按节拍、 相互配
合的切换,将经过缓冲的数据流没有停顿地送到“数据流运算处理模块”进行运算与处理。
把乒乓操作模块当做一个整体,站在这个模块的两端看数据,输入数据流和输出数据流都是
连续不断的,没有任何停顿,因此非常适合对数据流进行流水线式处理。所以乒乓操作常常
应用于流水线式算法,完成数据的无缝缓冲与处理。
乒乓操作的第二个优点是可以节约缓冲区空间。比如在 WCDMA 基带应用中,1 个帧是由 15
个时隙组成的,有时需要将 1 整帧的数据延时一个时隙后处理,比较直接的办法是将这帧数
据缓存起来,然后延时 1 个时隙进行处理。这时缓冲区的长度是1 整帧数据长,假设数据速
率是 3.84Mbps,1 帧长 10ms,则此时需要缓冲区长度是 38400 位。如果采用乒乓操作,只
需定义两个能缓冲 1 个时隙数据的 RAM(单口 RAM 即可)。当向一块 RAM 写数据的时候,从另
一块 RAM 读数据,然后送到处理单元处理,此时每块 RAM 的容量仅需 2560 位即可,
2 块 RAM 加起来也只有 5120 位的容量。
另外,巧妙运用乒乓操作还可以达到用低速模块处理高速数据流的效果。如图 2
所示,数据缓冲模块采用了双口 RAM,并在 DPRAM 后引入了一级数据预处理模块,这个数据
预处理可以根据需要的各种数据运算,比如在 WCDMA 设计中,对输入数据流的解扩、解扰、
去旋转等。假设端口 A 的输入数据流的速率为 100Mbps,乒乓操作的缓冲周期是 10ms。以下
分析各个节点端口的数据速率。
2 块 RAM 加起来也只有 5120 位的容量。
另外,巧妙运用乒乓操作还可以达到用低速模块处理高速数据流的效果。如图 2
所示,数据缓冲模块采用了双口 RAM,并在 DPRAM 后引入了一级数据预处理模块,这个数据
预处理可以根据需要的各种数据运算,比如在 WCDMA 设计中,对输入数据流的解扩、解扰、
去旋转等。假设端口 A 的输入数据流的速率为 100Mbps,乒乓操作的缓冲周期是 10ms。以下
分析各个节点端口的数据速率。
A 端口处输入数据流速率为 100Mbps,在第1 个缓冲周期 10ms 内,通过“输入数据选择单
元”,从 B1 到达 DPRAM1。B1 的数据速率也是 100Mbps,DPRAM1 要在 10ms 内写入 1Mb 数据。
同理,在第 2 个 10ms,数据流被切换到 DPRAM2,端口 B2 的数据速率也是 100Mbps,DPRAM2
在第 2 个 10ms 被写入 1Mb 数据。在第3 个 10ms,数据流又切换到 DPRAM1,DPRAM1 被写入
1Mb 数据。
仔细分析就会发现到第3个缓冲周期时, 留给DPRAM1读取数据并送到“数据预处理模块1”
的时间一共是 20ms。有的工程师困惑于 DPRAM1 的读数时间为什么是 20ms,这个时间是这样
得来的:首先,在在第 2 个缓冲周期向 DPRAM2 写数据的 10ms 内,DPRAM1 可以进行读操作;
另外,在第 1 个缓冲周期的第 5ms 起(绝对时间为 5ms 时刻),DPRAM1 就可以一边向 500K 以
后的地址写数据,一边从地址 0 读数,到达 10ms 时,DPRAM1 刚好写完了 1Mb 数据,并且读
了 500K 数据,这个缓冲时间内 DPRAM1 读了 5ms;在第 3 个缓冲周期的第 5ms 起(绝对时间
为 35ms 时刻),同理可以一边向 500K 以后的地址写数据一边从地址0 读数,又读取了5 个
ms,所以截止 DPRAM1 第一个周期存入的数据被完全覆盖以前,DPRAM1 最多可以读取 20ms
时间,而所需读取的数据为 1Mb,所以端口 C1 的数据速率为:1Mb/20ms=50Mbps。因此,“数
据预处理模块 1”的最低数据吞吐能力也仅仅要求为 50Mbps。同理,“数据预处理模块 2”
的最低数据吞吐能力也仅仅要求为 50Mbps。换言之,通过乒乓操作,“数据预处理模块”
的时序压力减轻了,所要求的数据处理速率仅仅为输入数据速率的 1/2。
通过乒乓操作实现低速模块处理高速数据的实质是: 通过 DPRAM 这种缓存单元实现了数据流
的串并转换,并行用“数据预处理模块 1”和“数据预处理模块 2”处理分流的数据,是面
积与速度互换原则的体现!
串并转换设计技巧
串并转换是 FPGA 设计的一个重要技巧,它是数据流处理的常用手段,也是面积与速度互换
思想的直接体现。串并转换的实现方法多种多样,根据数据的排序和数量的要求,可以选用
寄存器、RAM 等实现。前面在乒乓操作的图例中,就是通过 DPRAM 实现了数据流的串并转换,
而且由于使用了 DPRAM,数据的缓冲区可以开得很大,对于数量比较小的设计可以采用寄存
器完成串并转换。如无特殊需求,应该用同步时序设计完成串并之间的转换。比如数据从串
元”,从 B1 到达 DPRAM1。B1 的数据速率也是 100Mbps,DPRAM1 要在 10ms 内写入 1Mb 数据。
同理,在第 2 个 10ms,数据流被切换到 DPRAM2,端口 B2 的数据速率也是 100Mbps,DPRAM2
在第 2 个 10ms 被写入 1Mb 数据。在第3 个 10ms,数据流又切换到 DPRAM1,DPRAM1 被写入
1Mb 数据。
仔细分析就会发现到第3个缓冲周期时, 留给DPRAM1读取数据并送到“数据预处理模块1”
的时间一共是 20ms。有的工程师困惑于 DPRAM1 的读数时间为什么是 20ms,这个时间是这样
得来的:首先,在在第 2 个缓冲周期向 DPRAM2 写数据的 10ms 内,DPRAM1 可以进行读操作;
另外,在第 1 个缓冲周期的第 5ms 起(绝对时间为 5ms 时刻),DPRAM1 就可以一边向 500K 以
后的地址写数据,一边从地址 0 读数,到达 10ms 时,DPRAM1 刚好写完了 1Mb 数据,并且读
了 500K 数据,这个缓冲时间内 DPRAM1 读了 5ms;在第 3 个缓冲周期的第 5ms 起(绝对时间
为 35ms 时刻),同理可以一边向 500K 以后的地址写数据一边从地址0 读数,又读取了5 个
ms,所以截止 DPRAM1 第一个周期存入的数据被完全覆盖以前,DPRAM1 最多可以读取 20ms
时间,而所需读取的数据为 1Mb,所以端口 C1 的数据速率为:1Mb/20ms=50Mbps。因此,“数
据预处理模块 1”的最低数据吞吐能力也仅仅要求为 50Mbps。同理,“数据预处理模块 2”
的最低数据吞吐能力也仅仅要求为 50Mbps。换言之,通过乒乓操作,“数据预处理模块”
的时序压力减轻了,所要求的数据处理速率仅仅为输入数据速率的 1/2。
通过乒乓操作实现低速模块处理高速数据的实质是: 通过 DPRAM 这种缓存单元实现了数据流
的串并转换,并行用“数据预处理模块 1”和“数据预处理模块 2”处理分流的数据,是面
积与速度互换原则的体现!
串并转换设计技巧
串并转换是 FPGA 设计的一个重要技巧,它是数据流处理的常用手段,也是面积与速度互换
思想的直接体现。串并转换的实现方法多种多样,根据数据的排序和数量的要求,可以选用
寄存器、RAM 等实现。前面在乒乓操作的图例中,就是通过 DPRAM 实现了数据流的串并转换,
而且由于使用了 DPRAM,数据的缓冲区可以开得很大,对于数量比较小的设计可以采用寄存
器完成串并转换。如无特殊需求,应该用同步时序设计完成串并之间的转换。比如数据从串
行到并行,数据排列顺序是高位在前,可以用下面的编码实现:
prl_temp<={prl_temp,srl_in};
其中,prl_temp 是并行输出缓存寄存器,srl_in 是串行数据输入。对于排列顺序有规定的
串并转换,可以用 case 语句判断实现。对于复杂的串并转换,还可以用状态机实现。串并
转换的方法比较简单,在此不必赘述。
prl_temp<={prl_temp,srl_in};
其中,prl_temp 是并行输出缓存寄存器,srl_in 是串行数据输入。对于排列顺序有规定的
串并转换,可以用 case 语句判断实现。对于复杂的串并转换,还可以用状态机实现。串并
转换的方法比较简单,在此不必赘述。