54
部分动态重配置推动 FSK 解调器设计不断发展 启发 FPGA 数学运算 ADC DAC 的输入与输出 赛灵思推出全球首款 异构 3D FPGA Virtex-7 H580T 器件可支持 CFP2 光网络的 2x100G OTN 片上转发器 赛灵思 中国通讯 Issue 45, Autumn 2012 Xilinx News 2 0 1 2 请即浏览赛灵思中国通讯 网络版的全部精彩内容 www.xilinx.com/cn/xcell45

赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

Embed Size (px)

DESCRIPTION

28n m V i r t e x ® - 7 2000T(业界首款采用3D 堆叠硅片互联技术实现的28nm FPGA)以突破性容量和创记录晶体管数量掀起的热潮尚未平息,赛灵思于今年 5 月份紧接着又推出一款使用SSI 技术创下带宽新记录的FPGA 器件Virtex-7 H580T。新型Virtex-7 H580T 器件是全球首款异构3D FPGA,在单个硅中介层上将一个专用8 通道28Gbps 收发器slice(裸片)与两个带有丰富收发器的FPGA芯片紧密集成在一起。

Citation preview

Page 1: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

部分动态重配置推动 FSK 解调器设计不断发展

启发 FPGA 数学运算

ADC 和 DAC 的输入与输出

赛灵思推出全球首款 异构 3D FPGAVirtex-7 H580T 器件可支持 CFP2光网络的 2x100G OTN 片上转发器

赛灵思 中 国 通 讯

I s s u e 4 5 , A u t u m n 2 0 1 2

X i l i nx News第 四 十 五 期 2 0 1 2 年 秋 季 刊

请即浏览赛灵思中国通讯网 络 版 的 全 部 精 彩 内 容

www.xilinx.com/cn/xcell45

Page 2: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

Copyright © 2012 Avnet Electronics Marketing

ZedBoard是一款基於賽靈思ZynqTM -7000可擴展處理平臺(EPP)的低

成本開發板,也是行業首款面向廣大開源社區的ZynqTM -7000 EPP

可擴展處理平臺開發套件。開發板為基於Linux、安卓、Windows

或其它操作系統/實時操作系統的設計開發提供了所需的一切。另

外,該平臺提供數款擴展連接器,便於用戶訪問處理系統和可編程

邏輯。Zynq-7000 EPP緊密集成了ARM®處理系統和7系列可編程邏

輯,充分利用它們的優勢,並結合ZedBoard可以開發出獨樹一幟且

功能強大的設計。為推動ZedBoard套件的創新分享和交流還專門打

造了www.zedboard.org開源社區,用戶可以通過這個社區與其他同

樣從事Zynq設計的工程師開展各種各樣的協作。

套件組成部分:uAvnet ZedBoard 7020 基礎板u 12 V AC/DC 電源u 4 GB SD 卡u Micro-USB 電纜u USB 適配器: Micro-B (公頭)對 Standard-A(母頭)u 入門指南u ISE WebPACKTM, 配器件專用 ChipScope 許可證

特性:u Zynq-7000 EPP XC7Z020-CLG484-1u 存儲器 u 512 MB DDR3 u 256 Mb Quad-SPI Flash u 4 GB SD 卡u 板載 USB-JTAG 編程u 10/100/1000 以太網u USB OTG 2.0 和 USB-UARTu PS & PL I/O 擴展 (FMC, PmodTM, XADC)u 支持多顯示器 (1080p HDMI, 8-bit VGA, 128 x 32 OLED)u I2S 音頻編解碼器

行業首款面向開源社區的

ZynqTM -7000 EPP 開發套件

北京:010-8206 2488 重慶:135-9422 8267 上海:021-3367 8387 西安:029-8833 6372武漢:027-8732 2806 瀋陽:024-8290 2597 南京:025-8483 8137 廣州:020-2283 8106成都:028-8652 8262 青島:0532-8097 0716 杭州:0571-8580 0667 深圳:0755-8378 1886廈門:0592-516 3621 香港:00852-2176 5388

目標應用:u 視頻處理u 電機控制u 軟件加速u Linux/Android/實時操作系統開發u 嵌入式 ARM 處理u 通用 ZynqTM -7000 EPP 原型設計

Price : USD$ 395.00

Part Number : AES-Z7EV-7Z020-G

更多關於ZedBoard的信息,請訪問:

http://www.zedboard.org 或聯繫以下安富利辦事處

www.em.avnetasia.com

Avnet Zedboard brochure-SC-285-CS5.indd 1 12年7月6日 下午3:37

北京:010-8206 2506武汉:027-8732 2806成都:028-8652 8262厦门:0592-516 2777

重庆:135-9422 8267 沈阳:024-8290 2597青岛:0532-8097 0718香港:00852-2212 7848

上海:021-3367 8387南京:025-8483 8138 杭州:0571-8580 0667苏州:0512-6956 7753

西安:029-8832 8891广州:020-2808 7301深圳:0755-8378 1886

Page 3: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA
Page 4: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

2 赛灵思中国通讯  45 期 2012 年秋季刊

封面专题封面专题

赛灵思推出首款异构3D FPGA:

Virtex-7 H580T 赛灵思推出首款异构3D FPGA:

Virtex-7 H580T

2 赛灵思中国通讯  45 期 2012 年秋季刊

Page 5: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

2012 年秋季刊 赛灵思中国通讯  45 期 3

封面专题

作者:Mike Santarini赛灵思公司 Xcell 杂志发行人

[email protected]

Virtex-7 H580T 器件采用赛灵思 3D SSI 技术构建而成,使设计人员能够

开发出 2x100G OTN 片上转发器

28n m V i r t e x ® - 7

2000T(业界首款

采用 3D 堆叠硅片

互联技术实现的

28nm FPGA)以突破性容量和创记录晶

体管数量掀起的热潮尚未平息,赛灵思于

今年 5 月份紧接着又推出一款使用 SSI 技

术创下带宽新记录的 FPGA 器件 Virtex-7

H580T。该新型 Virtex-7 H580T 器件是全

球首款异构 3D FPGA,在单个硅中介层

上将一个专用 8 通道 28Gbps 收发器 slice

(裸片)与两个带有丰富收发器的 FPGA

芯片紧密集成在一起。总的来说,该新产

品为有线通信公司提供了一款具有多达 48

个 13.1Gbps 收发器、8 个 8Gbps 收发器

和 580,480 个逻辑单元的器件,使得

Virtex-7 H580T FPGA 成为唯一一款能够

满足关键性 2x100G 应用和功能要求的单

芯片解决方案(图 1)。产品详情,敬请参

阅:http://www.xilinx.com/cn/publications/

prod_mktg/Virtex7-Product-Table.pdf。

赛灵思公司先进通信部高级总监

Ephrem Wu 指出:“Virtex-7 HT 器件与赛

灵思的 100Gbps 变速机制(gearbox)、

以太网MAC、OTN和 Interlaken IP相结合,

可为客户提供他们所需的更高系统集成

度,帮助解决空间、功耗和成本难题,确

保向采用最新 CFP2 外形封装的 100Gbps

低功耗光学模块平滑过渡。28Gbps 收发

器与 13.1Gpbs 收发器彼此独立。客户能

够在充分利用 28Gbps 收发器的同时不浪

费任何 13.1Gbps 收发器。”

Virtex-7 H580T FPGA 是赛灵思准备

推出的 28nm 系列中三款异构 3D 器件中

的第一款。不久即将推出的 Virtex-7

H870T 在单个器件中集成了两个 8 通道收

发器芯片和三个 FPGA 逻辑芯片,单个芯

片上共提供有 16 个 28Gbps 收发器、72

个 13.1 Gpbs 收发器和 876,160 个逻辑单

元。 最 后 一 款 异 构 器 件 是 Virtex-7

H290T,其在单个器件中集成一个 8 通道

收发器 slice 和一个 FPGA 逻辑 slice,在

单个芯片上共提供有 24 个 13.1Gpbs 收

发器、8 个 28Gpbs 收发器和 284,000 个

逻辑单元。

Ephrem Wu 表示:“3D SSI 技术让

赛灵思能够走在技术的前沿,提供具有

最高集成度、系统性能与生产力和最低

功耗、材料成本的All Programmable 器件。

在Virtex-7 2000T上,我们使用3D SSI技术,

将四块逻辑 slice并行堆叠在硅中介层上,

开 发 出 一 种 拥 有 68 亿 个 晶 体 管 和

1,954,560 个逻辑单元的器件。其容量是

势均力敌的 28nm FPGA 器件的两倍,超

过了摩尔定律预期的晶体管数量的两倍。

现在在 Virtex-7 HT 器件上,我们已经使

用我们的 3D SSI 技术在单个芯片中的硅

中介层上堆叠 28Gbps 收发器 slice 和

28nm FPGA slice。”

Wu 指出,借助 SSI 技术“赛灵思目

前推出了一种器件,既能让客户为其

2012 年秋季刊 赛灵思中国通讯  45 期 3

封面专题

Page 6: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

4 赛灵思中国通讯  45 期 2012 年秋季刊

封面专题

100Gbps 光学设备用户带来极具竞争力

的价值,又能让有线通信行业加快新一

代 400G 设备开发步伐。”

无止境的带宽要求

赛灵思公司 Virtex-7 FPGA 高端产品线

经理 Alex Goldhammer 提到,随着连接

到互联网和专用网络的系统数量不断增

加,为在全球范围内传输不断增大的文

件和更高质量的视频和音频,网络连接

对带宽的需求也呈螺旋上升态势。为满

足这种需求,服务提供商需要单位比特

成本更低且拥有更高带宽的有线通信设

备。尤其是有线通信行业,目前正在根

据最新标准 100Gbps 通信光学收发器

标准(特别是 CFP2 光学模块、OIF

CEI-28-VSR 和 IEEE 802.3ba)开发

新的设备。

光传输网络(OTN)转发器和复用

转发器以及 100G 以太网卡是 100Gbps

基础设施架构的核心。网络公司把这些

OTN 卡布置在光网络的中心或核心位置

(也就是网速最快的部分),以确保数

据在通过光缆传输到世界各地时的完整

性和正确路由。

Goldhammer 表示这些公司目前已

经推出采用第一代 100Gbps OTN 转发

器卡的设备,每张卡一般采用一个或两

个 ASSP 和一个 FPGA。这些第一代

100Gbps OTN 卡通过 CFP 光学模块经

光纤发送和接受数据(CFP 为 C Form-

factor Pluggable(C 外形封装可插拔)

的首字母缩写)。然后由 ASSP 从该

CFP 获取 10x11.1G OTL 4.10 或 CAUI

(100Gbps 连 接 单 元 接 口), 运 行

100Gbps 前向纠错(GFEC)、OTU-4

成帧和 100G 以太网映射,随后通过

CAUI 发送数据到 FPGA。FPGA 一般用

于将协议转换为背板要求的格式,以便

将数据路由到网络的下一个点和最终目

的地。

Goldhammer 表示,CFP 光学模块

相对体积较大,价格较为昂贵,是这些

第一代 100Gbps OTN 传输卡中存在的

主要障碍。为解决这个问题,行业近期

开发出 CFP2 外形封装,对 100Gbps 线

卡所采用的光学模块尺寸进行了定义:

宽度(节距)为 CFP 的一半,高度略低,

功耗相同。CFP2 的推出意味着设备公

司可以用单位面积上有两个 CFP2 通道

的新线卡替换现有的 CFP 线卡,从而让

每个卡槽的带宽翻番,这样就有可能将

数据中心的带宽提高一倍(见图 2)。

不过 Goldhammer 表示,CFP2 也

带来了新的技术挑战。他说:“CFP2

要求使用 25-28Gps 的收发器,用 IBIS-

AMI 模型进行 PCB 通道建模,使用高速

串行建模软件工具。而且每张卡必须与

其替换的 CFP 卡的功耗预算保持一致。

虽然从 CFP 升级到 CFP2,单位功耗带

CFP

CFP2 CFP2 CFP2 CFP2 CFP2 CFP2 CFP2 CFP2

CFP CFP CFP

100G CFPOPTICS

CFP2OPTICS

CAUI

CAUI4

10x10G

4x25G

100G

4 CFPs400 Gbps60

8 CFP2s800 Gbps60

图 2 - CFP2 外形封装可将 100Gbps OTN 卡的带宽翻

番。CFP2 与 CFP 相比,宽度和功耗减半,显著降低系

统成本。

图 1 - 业界首款异构 FPGA Virtex-7 H580T 采用赛灵思 3D SSI 技术,在单个硅中介层上集成了 28nm FPGA 逻辑 slice 和专用 28Gbps 收发器 slice。

单芯片器件 首款 3D FPGA:Virtex-7 2000T 基于堆叠硅片互联技术

首款异构 3D FPGA:Virtex H580T 基于堆叠硅片互联技术

Page 7: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

2012 年秋季刊 赛灵思中国通讯  45 期 5

封面专题

宽提高一倍。但仅通过将每张卡上的芯

片数增加一倍来满足带宽需求是不可行

的,尤其是考虑到功耗预算。CFP2 需

要集成度更高、更尖端的芯片器件。”

Goldhammer 表示,目前设备制造

商正在考虑为 CFP2 卡构建的一种架构

由五个器件构成:四个 ASSP 和一个

FPGA。每个卡有两个 CFP2 光学模块,

这两个 CFP2 光学模块使用 4x27G OTL

4.4 接 口 连 接 到 Gearbox ASSP。

Gearbox 随即将 4x27G OTL 4.4 信号分

离 为 10x11.1G OTL 4.10。 另 一 个

ASSP 负责 100Gpbs 前向纠错、OTU-4

成帧和 100G 以太网映射,然后通过

CAUI 接口将数据传输给 FPGA。接着,

CFP2 的两个通道均都向架构中的

FPGA 发送数据。FPGA 用作背板中

CAUI 到 Interlaken 的桥接器,以便将数

据发送到网络的下一个点和最终目的地

(图 3)。

Goldhammer 表示:“该配置一般

要求四个 ASSP 和一个 FPGA。最大的

问题是这种配置的功耗、复杂性和成本。

简单地让 ASSP 数量翻倍会超过功耗预

算。”

虽然 CFP2 卡的带宽相对 CFP 卡

提高了一倍,但每个 CFP2 模块(采用

两个 100Gbps CFP2 端口)功耗预算必

须保持与分配给单端口 CFP 模块的一

致,这样才能做到整张卡的功耗预算保

持不变。Goldhammer 表示,设备运营

支出已经成为电信运营商的心头病,因

为电信运营商的设施中这样的系统非常

多,他们必须严格地控制功耗上限。

Goldhammer 说:“他们不得不控制在

功耗预算范围内,但同时他们要求带宽

翻番,这样降低功耗的大部分压力就落

在半导体厂商的身上。”

Goldhammer 表示,有了新推出的

Virtex-7 H580T FPGA 和赛灵思 IP,

100Gpbs OTN 线卡制造商使用一个

Virtex-7 H580T 就可以完成五颗芯片才

能完成的工作,从而进一步最大程度地

发挥出他们的 CFP2 OTN 卡的作用。

Goldhammer 说:“Virtex-7 FPGA 是

一款突破性器件,它的推出正逢其时,

恰好迎合了 CFP2 100Gbps OTN 转发

器卡的市场需求。”

采用 Virtex-7 H580T FPGA 和赛灵

思 IP,制造商可以把卡上的两个 CFP2

通道馈入一个 Virtex-7 H580T FPGA,

用新的架构实现 CFP2 卡。该 FPGA 在

一个器件中集成了 Gearbox、100Gbps

前向纠错、OUT-4 成帧、100G 以太网

映射和 Interlaken 桥接(再次参见图 3)。

Goldhammer 表示:“这种单芯片

解决方案不仅功耗明显低于多芯片

CFP2ASSP

GearboxFPGA

MAC Interlaken

100G CAUI CAUI

Interlaken

OUT-4

ASSP100G

CFP2

CFP2

CFP2

ASSPGearbox 100G CAUI CAUIOUT-4

ASSP100G

100G OUT-4 100G

100G

Gearbox

Virtex-7 H580T

Virtex-7 H580T — OTN 2x100G

ASSP OTN 2x100G

OUT-4 100GGearbox

Interlaken

Interlaken

图 3 - Virtex-7 H580T FPGA 和赛灵思 IP 可让客户迅速开发出单芯片 CFP2 100GbpsOTN 转发器卡,不必使用五颗芯片。

Page 8: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

6 赛灵思中国通讯  45 期 2012 年秋季刊

封面专题

ASSP 或 ASIC 配置,而速度更快、可

靠性更高,当然生产成本也更低。它不

必采用多个芯片,也就避免了相关的供

电和冷却电路。采用 Virtex-7 H580T

FPGA,我们从集成度、材料成本下降

和系统性能改善的角度为客户提供更大

价值,且不会超过 CFP2 OTN 传输卡的

功耗上限要求。”

另外,赛灵思还能提供合适的 IP,

让通信设备制造商提升设计生产力,并加

速单芯片 100G 光学卡上市进程。赛灵思

通过内部开发和一系列战略性并购,现可

提供完整的套装:100Gbps Gearbox、

以太网 MAC、OTN 和 Interlaken IP。

Goldhammer 称:“为了集成到器件上

的 28nm Virtex-7 FPGA 逻辑单元 slice

中,我们对所有这些 IP 核进行了优化。

赛灵思采用台积电(TSMC)的 28nm

高性能低功耗(HPL)技术制造这些

slice,可显著降低漏电流,实现高性能

和低功耗的最佳组合。”

SSI 技术和 28GBPS 收发器

高速通信设备面临的最大挑战之一是确

保收发器正确发挥功能,保持良好的信

号完整性。Goldhammer 说:“收发器

是模拟电路,因此会受到一系列因素的

影响,特别是噪声的影响。在大多数混

合信号器件中,收发器一般放置在器件

的边缘,与位于器件中心的数字电路屏

蔽开来。数字电路容易产生噪声,所以

一般需要与模拟电路隔离开来。”

在过去十年里,为将带宽提高到每

秒千兆位(Gbps)的范围内,整个行业

转而采用高速模拟收发器来快速发送和

接受高速传输的信号。传统上来说,经

验法则是收发器的带宽越高,就越难保

证一致的信号完整性。

Goldhammer 表 示, 由 于 Virtex-7

H580T FPGA 是一款采用 SSI 技术的高

度集成的单芯片解决方案,因此采用该

解决方案构建的 CFP2 线卡可实现显著

的性能改善。他说:“升级到 4x25G 接

口可以显著简化 10x10G 接口的走线。

虽然有人对 25G~28G 的收发器持有疑

虑,但通过采用 SSI 技术,赛灵思有能

力大幅度降低其复杂性。28G 收发器采

用高灵敏度模拟电路,在物理上与数

字逻辑分离。这种架构能够确保与带

有丰富收发器的数字芯片保持良好的

隔离效果。”

Goldhammer 表示,28G 收发器采

用高速工艺技术制造,保证品质优异。

“FPGA Slice 则与之相反,采用 28nm

HPL 工艺,以确保最低总功耗。”他说,

这样一来,Virtex-7 H580T FPGA 器件

实现了出色的 28Gbps 收发器性能和信

号完整性。如需了解这些收发器的工作

性能,敬请观看 http://v.youku.com/v_

show/id_XNDA3NjgwMTAw.html 视频:

http://www.youku.com/watch?v=FFZVw

SjRC4c&feature=player_profilepage。

Goldhammer 表示,SSI 架构的物

理隔离特性让赛灵思能够在 Virtex-7

H580T FPGA 上集成 8 个 28Gbps 收发

器,是竞争对手推出的最大型 FPGA 器

件的两倍。

更 让 人 印 象 深 刻 的 是 Virtex-7

H580T FPGA 还不是赛灵思 28nm 系列

中拥有最多收发器的器件。赛灵思即将

推出的 Virtex-7 H870T 器件拥有 16 个

28Gbps 收发器,72 个 13.1Gbps 收发

器和 876,160 个逻辑单元。Goldhammer

表示,如果客户能够发挥 H580T 器件上

视频:Virtex-7 H580T 器件实现与 CFP2 光学模块接口所要求的眼图和抖动性能

Page 9: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

2012 年秋季刊 赛灵思中国通讯  45 期 7

封面专题

全部收发器的功能,他们可以如愿以偿

成地推出具有高达 2.78Tbps 的串行连接

功能的设计。

他说:“在单芯片 FPGA 上放置如

此之多的 28Gbps 收发器,既不现实,

成本也不允许。幸运的是 SSI 技术让我

们今天能够开发出一种拥有 8~16 个

28Gbps 收 发 器 的 可 扩 展 FPGA 系

列。”ASSP 提供商及其他 FPGA 厂商

最多能放置四个 28G 收发器。这似乎说

明用 40nm 和 28nm 工艺制造的单芯片

很难做到这一点。

Goldhammer 称,Virtex-7 H870T

器件针对的是新一代有线通信(即 400G

市场)。他说:“400G 市场还有相当

的距离。如果有什么,那就是各家公司

正开始在他们的实验室搞研究,标准组

织还没有考虑这个问题。乐观的一面是

我们已经有器件能够具备它要求的功能。

我们可以帮助他们加速 400G 开发,加

快创新的步伐。”

除 了 Virtex-7 H580T 和 H870T

FPGA,赛灵思还将推出 28nm 系列中

另一个成员 Virtex-7 H290T。H290T 同

样采用赛灵思的 3D SSI 技术,能够提供

24 个 13.1Gbps 收发器、8 个 28Gbps 收

发 器 和 284,000 个 逻 辑 单 元。

Goldhammer 表示 Virtex-7 H290T 特别

适用于 2x100 Ggearbox 市场。

首款 Virtex-7 H580T FPGA 目前已

向主要客户供货,同时提供赛灵思近期

推出的 Vivado ™ 设计套件配套开发工

具支持。有意使用 Virtex-7 H580T 器件

的客户可向他们当地的赛灵思代表进一

步了解定价和供货详情。用户还可登录

以下网址,访问赛灵思 28Gpbs 串行收

发器技术页面页,阅读最新白皮书并观

看相关视频:http://www.xilinx.com/cn/

products/technology/transceivers/index.

htm。

All Programmable 技术和器件的全球领先企业赛灵思公司

(Xilinx, Inc.(NASDAQ:XLNX))今天宣布 Virtex®-7 X690T

FPGA 开始发货,该器件将业界最可靠的高速串行收发器、最

高系统带宽和面向市场优化的 FPGA 资源完美结合在一起。

Virtex-7 X690T FPGA,是 7 系列产品中首款可满足先进高性能

有线通信应用对低功耗、单芯片解决方案需求的器件。该系列

器件可支持快速、可扩展、易于实现的芯片间串行接口;稳健可

靠的 10GBASE-KR 背板(不仅支持下一代通信系统各种不同

的板间距,而且还能最大限度地提高带宽);以及连接到最新光

学模块的高信号完整性接口(经验证可支持长达 80 公里的电缆

距离)。如果需要更高系统容量和带宽,客户可轻松移植到

Virtex-7 X1140T FPGA 上。Virtex-7 X1140T FPGA 与 Virtex-7

X690T FPGA 引脚兼容,基于 7 系列 FPGA 可扩展优化型架构,

采用 3D 硅片堆叠互联技术,并具有 96 个 GTH 收发器,预计

将于今年 5 月推出。

Virtex-7 X690T FPGA 为下一代网络设备提供支持

到 2015,预计全球 IP 网络数据流量将超过 ZB 级水平,

也就是说与 2010 年相比年均复合增长率 (CAGR) 达 32%。尤

其是,随着 IP 视频服务需求不断呈指数级增长,推动下一代

L2 网络交换设备迅猛发展,只有具备低时延和更高服务质量

(QoS) 才能满足这一需求。 为了直接向家庭提供高清视频点播

服务,服务于有线电视运营商的设备制造商必须开发出新一代

具有低成本、可最大化功率,并能够支持全频谱开关数字视频

的 EdgeQAM 设备。

Virtex-7 X690T 和 Virtex-7 X1140T FPGA 具有同类产品中

最高单位功耗处理能力和带宽,可实现高级包处理、FEC、服

务质量、交换和流量管理算法,以及下一代 EdgeQAM 实现方案。

工程师可采用业界最高级的动态可控 GTH 串行收发器满怀信心

地进行设计,该 GTH 串行收发器采用了全面可编程的三抽头

FIR,支持发射器去加重,能满足最全面的环境要求,而全面自

适应的七固定抽头及四滑动抽头接收器判定反馈均衡 (DFE) 电

路(业界最多的 DFE 抽头),则能确保不同拓扑的最大余量。

为了加速设计和调试工作,每个 GTH 收发器还包括无损高清

2D 眼图扫描电路,能让设计人员从 FPGA 内部观看并检测接收

器中的眼图。由于其内置的 80 GTH 收发器运行速度高达 13.1

Gbps,因此 Virtex-7 X690T FPGA 成为了首款突破 2Tbps 单

个 FPGA 带宽壁垒的器件。充分利用台积电 28HPL 工艺以及先

进的 7 系列 FPGA 架构,相比采用密度类似的同类竞争 FPGA

而言,客户可将总功耗降低 25% 以上,从而实现构建下一代系

统所需的集成度,并满足高性能和低功耗要求。

单片 FPGA 突破 2Tbps 带宽壁垒 赛灵思首批封装收发器的 Virtex-7 X690T FPGA 开始发货

首款采用 80 个 GTH 串行收发器的 FPGA 器件,使单片 FPGA 突破了 2 Tbps 的带宽壁垒

Page 10: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

8 赛灵思中国通讯  45 期 2012 年秋季刊

产品专题文章产品专题文章

赛灵思 Artix-7 FPGA为低成本市场带来高端价值作者:Mike Santarini赛灵思公司《Xcell 杂志》发行人

[email protected]

8 赛灵思中国通讯  45 期 2012 年秋季刊

Page 11: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

2012 年秋季刊 赛灵思中国通讯  45 期 9

产品专题文章

赛灵思 7 月宣布开始发货

Ar t i x ™ -7 A100T

FPGA,这是功能丰富

的低成本、低功耗 All

Programmable 器件系

列三款产品中的首款产品,旨在帮助客户为

其用户实现更大的增值。较大型的 Artix-7

A200T 和 A350T FPGA 将在未来几个月内

供货。

首批面向客户出货的 Artix-7 标志着赛灵

思又一重要里程碑,这意味着公司现已开始

供货所推出的所有 28nm All Programmable

器件系列的 FPGA。赛灵思早先发布了全球

第一批 3D IC FPGA,全球第一款 28nm 芯

片 KintexTM-7 系列,随后又推出了在同一芯

片上整合了 ARM 处理器与 FPGA 逻辑的

Zynq ™ -7000 All Programmable SOC。

赛灵思公司产品市场营销经理 Ehab

Mohsen 预计:Artix-7 系列将成为深受客户

青睐的新品,并将为丰富的特性集、功耗以

及最终价值设定新的标准,充分满足传统上

称之为“低端”FPGA 市场的需求。FPGA

厂商将这一细分市场称作“价值主导型”、

“大批量”或“成本敏感型”市场。

Mohsen 表示:“看看 Artix-7 系列的特

性集,很难说它是‘低端’。它当然是这一细

分市场迄今为止最高端、最具价值的 FPGA

系列。最大型 Spartan®-6 FPGA 拥有 15 万

个逻辑单元,而 Artix-7 系列起步就有 10 万

个逻辑单元,最多可达 35 万个。”他指出,

除逻辑单元数外,这些 FPGA 还具有 8 至 16

个 6.6Gbps 收发器、高达 18,540 kb 的 block

RAM 以及多达 1,040 个 DSP48E1 Slice。

赛 灵 思 公 司 战 略 市 场 营 销 经 理

Maureen Smerdon 补充道:“Artix-7 系列相

赛灵思现已开始提供 All

Programmable Artix-7

FPGA 系列的首款器件,

为成本敏感型应用设定了

全新的功耗及性能标准。

2012 年秋季刊 赛灵思中国通讯  45 期 9

产品专题文章

Page 12: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

10 赛灵思中国通讯  45 期 2012 年秋季刊

产品专题文章

传统 FPGA 的最好例证,此前 FPGA 一

直按照摩尔定律发展,即每 22 个月逻

辑单元数翻一番。即便赛灵思最小型的

28nm 器件 Artix-7 系列,其加载的可编

程系统特性也远远超过了逻辑单元。

Mohsen 指出,Artix-7 可在 36 万

个逻辑单元及相同容量的 1,040 个

DSP48E1 Slice 中提供高达 18.5 Mb 的

block RAM 与逻辑比,在具有更低功耗

与更低成本优势的同时,逻辑密度也相

当于同类竞争产品的中端系列。DSP 资

源可提供高达 1,306 GMAC 的 DSP 性

能,是同类竞争产品的 3 倍。这种信号

处理能力对要求较高处理功能的成像及

通信应用非常实用。

此外,Artix-7 系列还支持多达 16

个赛灵思针对低功耗进行优异的可配置

6.6Gbps 收发器,使 Artix-7 能够为低成

本市场提供最高的线速率。这些收发器

支 持 预 加 重 与 连 续 时 间 线 性 均 衡

(CTLE),可补偿整个传输通道中的信

号失真。Mohsen 指出:“Artix-7 支持

211 Gbps 的总吞吐量,是带宽敏感型

长电池使用寿命,降低能耗成本、功耗

以及材料成本(无需更多的屏蔽及电源

电路),而且还可缩小最终产品尺寸。”

Mohsen 表示,同样,Artix-7 系列

不仅可全面发挥功耗减半的优势,同时

还可为其目标市场提供所需的高性能。

他说:“功耗减半可为更高的性能、逻辑

密度、I/O 带宽以及信号处理预留空间,

为设计人员提供高度的灵活性,既可将

功耗降低 50%,也可在之前的功耗预算

下充分发挥更高性能及容量的优势。”

Mohsen 指出,赛灵思所有 28nm

All Programmable 器件都采用相同的逻

辑架构。Artix-7 FPGA 的 Slice 架构与

赛灵思 Virtex®-6 和 Spartan-6 FPGA 系

列极为相似,采用相同的 LUT 结构、控

制逻辑与输出。他说:“这种可扩展架构

能够为用户提供便捷的移植路径,帮助

他们在 Spartan-6 和 Artix-7 FPGA 之间

进行设计移植。”

逻辑单元密度超越摩尔定律

Artix-7 是所有赛灵思器件如何快速超越

对于 Spartan-6 系列而言,性能翻番,

功耗减半。这是一款非常高端的‘低

端’FPGA。事实上,我们的竞争对手

只有成本更高的‘中端’系列才具有相

当的特性集,即便如此赛灵思 Artix-7 系

列仍有优势。”

充分发挥 HPL 及 7 系列的可扩展架构优

降低功耗是赛灵思 28nm 系列器件的一

个重点(参见《赛灵思中国通讯》第 41

期的封面报道)。事实上,赛灵思与台积

电(TSMC)密切合作,协助台积电推

出了高性能低功耗(HPL)28nm 芯片

制造工艺,达到了 FPGA 生产的最佳契

合点。因而,整个赛灵思 28nm 产品系

列的总功耗比前代 FPGA 产品锐减了

一半。

Mohsen 表示:“在所有产品系列中,

客户都希望降低功耗,这一需求在低成

本市场特别明显。这些器件适用于各种

需要更低功耗的应用,不但可帮助其延

RX

I/O I/O

Artix-7 FPGARX 128

128547 (LVDS)

46

AD

C ∑△

128

图 1 - Artix-7 FPGA 的 DSP 性能与 I/O 数可用于 128 通道的便携式超声波设备。

Page 13: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

2012 年秋季刊 赛灵思中国通讯  45 期 11

产品专题文章

应用可替代中端解决方案的低成本方

案。”

Mohsen 还表示,存储器读写带宽

可能会影响整体系统性能,因而 Artix-7

系列提供高达 1,066 Mbps 的 DDR3 数

据速率,是业界同类 FPGA 中最高的。

存储器解决方案包括高灵活控制器与物

理 层(PHY), 可 将 设 计 及 AMBA®

AXI4 从 接 口 连 接 至 DDR3 和 DDR2

SDRAM 设备。控制器支持一系列外部

存储器,可实现如优化视频存取与数据

存储等高灵活系统设计。

因此,Artix-7 A100T 是一系列不同

应用的理想选择,可帮助客户实现创新,

为其客户提供丰富的新特性集,并扩展

市场。Mohsen 以便携式医疗设备、手

持无线电以及小型蜂窝基站这三大市场

为例,展示了 Artix-7 FPGA 系列特性集

为其带来的巨大优势。

便携式医疗的增值

Mohsen 表示,为医疗电子领域开发设

备的企业希望在价值百万美元的大型医

院设备的基础上进一步丰富产品组合。

他们正在努力为更小型的医生办公室、

医院科室以及个人医师开发更低成本的

便携式电子设备产品系列。

Mohsen 表示:“便携式超声波设备

是能够获得 Artix-7 FPGA 特性集极大优

势的主要实例。有了这种便携式系统,

就不用将患者推到特定的房间去接受极

大型超声波系统的检测,这种便携式系

统外形要小得多,可用小车推,甚至手持,

直接到患者身边进行检查。医护人员可

在救护车上使用这种系统,而上门出诊

的医生也可使用。更吸引人的是,有了

Artix-7 FPGA 系列产品,各公司可为新

一代便携式超声波设备提供此前只有高

端系统才具备的众多高级特性。”

这并不是说这些新型设备将取代那

些更大型的系统。Mohsen 补充道:“由

于我们更大型的 Kintex-7 和 Virtex-7

FPGA 系列也具备丰富的特性集,因此

这些大型设备也在不断新增令人难以置

信的特性。”

Mohsen 指出,由于 Artix-7 系列的

静态功耗与动态功耗分别比赛灵思

Spartan-6 器件低 65% 和 50%,而且提

供多达 16 个 6.6Gbps 收发器,因此便

携式超声波设备设计人员可实现符合

JESD204B 高速串行接口标准的最高画

质。同时他们还可延长电池使用寿命,

满足安全标准要求,让实现 128 通道的

波束形成器功耗比其它 FPGA 实现方案

低 41%。

图 1 是 Artix-7 FPGA 为便携式超

声波市场带来 All Programmable 优势

的实例。

RF

SAW A/D I/O

发射器接收器开关 Artix-7 FPGA

300MHz-2GHz

RF

图 2 - Artix-7 FPGA 中的系统集成与 DSP 处理性能对软件无线电设计至关重要。

新器件系列支持多达 16 个赛灵思针对低功耗进

行优化的可配置 6.6Gbps 收发器,使 Artix-7 能够

为低成本市场提供最高的线速率。

Page 14: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

12 赛灵思中国通讯  45 期 2012 年秋季刊

产品专题文章

达 1,306 GMAC 的 DSP 性能,是同类

竞争 FPGA 性能的 3 倍,远远超越了任

何独立 DSP 或 GPU。

Artix-7 具有 101,440 个逻辑单元,

采用 15mmx15mm 封装,是该容量级别

业界最小型的器件。更高容量与更小尺

寸的完美结合,有助于设计团队创建更

小、更轻的系统。图 2 是 Artix-7 FPGA

为 便 携 式 SDR 系 统 市 场 带 来 All

Programmable 优势的实例。”

无线回程扩展

无线回程是可获得 Artix-7 系列极大优势

的又一应用实例。Mohsen 指出,目前蜂

窝流量的大多数增长出现在城市和郊区。

为了应对这种趋势,运营商计划在路灯柱、

交通信号灯乃至相邻建筑墙壁上部署小

型蜂窝基站,以提高其网络容量。他说:

“运营商应将所有小型蜂窝互联成群集,

并联接至最近聚合点,因而他们必须部署

低功耗、低成本的回程单元,确保微波无

线电链路能够覆盖数十英里。”

传统移动回程单元通常支持几个以

太网链路,因而无线移动回程可使用内

部以太网交换器在以太网链路与无线电

通道之间转发流量。Mohsen 表示:“单

元两端都需要高速收发器,这就是 Artix-

7 FPGA 可发挥优势的地方,它是更大、

更昂贵器件理想的低成本选择。Artix-7

FPGA 系列可使用 Jedec JESD204B 连

接,通过其适用于以太网及 RF 链路的

16 个 6.6Gbps 收发器,为数据转换器提

供最大的带宽。”

此外,Artix-7 器件还可帮助无线设

备供应商提高系统集成度,降低材料成

本。Mohsen 指出,一半的回程单元都

包含数据包处理、流量管理以及时序同

步功能。与此同时,另一半单元则支持

信号处理的调制解调器通道。调制解调

器的关键要求在于提供适当的高性能

DSP 处理与高速收发器,以确保同数据

转换器的互联,实现高数据吞吐量。

Mohsen 指出:“Artix-7 系列非常适

合上述功能,因为它具有逻辑密度、IP

支持以及 DSP 资源的最佳组合。今年晚

些时候继 Artix-7 A100T 之后推出的

Artix-7 A200T具有215,360个逻辑单元,

可帮助无线设备公司创建可在单芯片上

集成所有必要数据包处理、流量管理、

时序与同步模块以及单个高速无线电通

道的回程解决方案。”同样,该系列的

第三款器件 Artix-7 A350T 则将允许无线

网络设备厂商在单芯片上集成两个高速

无线电通道。

Mohsen 还表示,设备厂商正协同

工作,确保单元的视觉影响较小,不至

于影响城市和郊区的市容市貌。这种设

计要求通常意味着单元要非常小巧,这

可为确保每个单元高效散热的设计人员带

来挑战。Artix-7 系列不但可帮助设备厂商

控制功耗,同时还可进一步降低系统的整

体尺寸。

图 3 是 Artix-7 FPGA 为小型蜂窝无

线回程系统带来 All Programmable 优势的

实例。

首批 Artix-7 A100T FPGA 现已开

始供货,预计 2013 年第一季度将投入量

产。设计人员可使用赛灵思设计工具立

即启动 Artix-7 系列的设计。如需了解更

多信息,敬请访问:www.xilinx.com/cn/

artix。

为军用软件无线电精简材料、减轻重量、

降低成本

Mohsen 指出,另一个可获得 Artix-7

FPGA 丰富特性集极大优势的市场实例

是军用软件无线电(SDR)。过去10年来,

美国军方一直在积极构建称之为全球信

息网的极高级全球通信网络,其不但可

确保美军及其盟友能够进行全球通信,

而且还可提高情报及军事行动的精确度。

赛灵思更大型的 Virtex-7 和 Kintex-7

FPGA 在 GIG 大型通信设备(包括网络

设备到飞机以及无人机)中正发挥着越来

越重要的作用,而军方也在寻找使所有单

位,甚至是单兵进入网络实现更高效率的

更理想途径。

Mohsen 指出:“目前部署的许多便

携式软件无线电系统都受制于更高的功

耗与短时间的电池使用寿命等问题。此

外,它们不但太大太沉,成本太高,而

且也太复杂。这些系统需要大量的 DSP

处理功能来支持各种无线电协议或波形,

以满足全球语音、数据以及视频通信需

求。不仅支持所有这些波形很有挑战性,

而且还要确保绝对安全,要能在无线电

频率难以覆盖的严酷条件下工作。因此,

军方不断探寻能够更安全地运行更长时

间的更理想、更轻量的系统。”

Artix-7 系列是满足 SDR 系统这些

需求的理想选择。的确,新器件非常适

合 SDR 调制解调器管理。Mohsen 解释

说,SDR 系统中的调制解调器可进行基

带信号预处理和 RF 信号改善,这需要

大量的并行处理能力与可重配置性。他

说:“FPGA 非常适合这种应用要求,目

前大多数系统确实也在使用 FPGA,而

Artix-7 则能大幅提高性能。”Artix-7 具

有多达 1,040 个 DSP Slice,可提供高

Page 15: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

2012 年秋季刊 赛灵思中国通讯  45 期 13

产品专题文章

AD

CD

AC

1

2

Artix-7 FPGA

图 3 - 设计人员可使用 Artix-7 FPGA 为微波移动回程集成多芯片功能。

以最低功耗和最低成本树立全新的 FPGA 性能标准

All Programmable 技术和器件的全

球领先企业赛灵思公司(Xilinx, Inc. (NASDAQ:XLNX) )今天宣布其旗下首批

Artix ™ -7 FPGA 系列产品正式出货。该

新型器件将 FPGA 技术的触角延伸至那些

小型、低成本可编程器件,然而性能传统

上却只有 Virtex® FPGA 才能满足的高性

能应用领域。随着 Artix-7 FPGA 的发货,

不论是便携式医疗设备、手持无线电设备、

小型蜂窝基站,还是众多分别采用其各种

技术架构的尖端专业级应用,其制造商们

现在都能利用高端 All Programmable FPGA 的功能,持续开发更多的新产品,

不断扩大其市场版图。

针对以先进功能取胜的便携式应用而

言,Artix-7 器件可以提供业界一流的高系

统性能、功耗能效,小巧的体积和低成本

等优势。随着首批 Artix-7 A100T 器件面

向客户开始供货,意味着赛灵思所有 7 系

列器件和 Zynq-7000 系列产品均已开始

以芯片形式供货,成就了赛灵思 28nm 系

列器件推出历史上的又一重大里程碑。 赛灵思 FPGA 平台市场营销总监

Dave Myron 指出:“赛灵思充分考虑尖端

应用的需求而推出 Artix-7 系列器件。

Artix-7 的推出,进一步丰富了由 Spartan®

系列器件所打造的赛灵思低成本产品系列

阵容。Spartan 系列已经在 3D 电视、车载

娱乐信息、工业控制和移动医疗设备等多

种应用中发挥了重要作用。” 赛灵思 28nm 系列产品选用了台积电

(TSMC) 的高性能低功耗 (HPL) 工艺,从

而使得 Artix-7 系列能够在最低功耗的前

提下,突破种种性能极限。这意味着客户

能够在诸如军用安全软件无线电系统等各

种电池供电的应用需求上实现低总功耗。

相对于同类竞争解决方案而言,Artix-7 器

件可将功耗降低 35%。而且,客户可将

最新加密 IP 和调制解调器功能集成在单

一芯片之上,从而能够在降低物料成本的

同时满足小尺寸的需求。此外,本系列中

最大型的器件还集成了丰富的DSP功能,

可支持 1,306 GMAC 的信号处理性能,

能处理各种各样的宽带波形,其支援的波

形种类数量比同类竞争产品高 3 倍以上。

相对于前代产品,Artix-7 系列的静

态功耗和动态功耗分别降低了 65% 和

50%,而且提供多达 16 个 6.6Gbp/s 收发

器,这就意味着便携式超声设备制造商能

够实现最高的图像分辨率,满足

JESD204B高速串行接口标准要求。同时,

在实现 128 通道波束形成器的过程中,

Artix-7 可以延长电池使用寿命,满足安全

标准要求,并比使用其它 FPGA 器件节省

40% 的功耗。 对于全球各地那些支持 4G 部署的微

波回程设备的制造商而言,Artix-7 使开发

人员不仅能够把集成调制解调器和包处理

功能集成在单个器件上,而且在提供智能

带宽方面能够达到最高单位功效。通讯市

场最终极的“神圣”目标是将一个基站集

成在单一芯片之上,即片上基站。而

Artix-7 为设备制造商提供了前所未有的高

集成度和灵活的可编程功能,让客户可以

在市场发展速度远超标准化发展速度的环

境中脱颖而出。

赛灵思首批 Artix-7 FPGA 正式出货,为便携式和小型产品树立

全新性能标准

Page 16: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

14 赛灵思中国通讯  45 期 2012 年秋季刊

专家园地

在过去十年中,一个全新的全球性云

计算市场毅然崛起。这种将计算以

互联网服务的方式进行交付的新模

式,标志着计算机使用方式的根本性变革。云

为企业提供了一种将工作任务从本地 IT 基础设

施转移到远程优化的计算集群,随后到达提供

云服务的运营商手中的途径。对消费者而言,

云能够跨越世界上任何地方的各种计算设备,

连贯一致地提供存储、视频、消息发送、社交

网络、游戏、网络搜索及许多其他服务。

专家园地

FPGA 大举进军云计算领域

作者:

Michaela Blott高级研究工程师赛灵思公司

[email protected]

Tom English研究科学家赛灵思公司

[email protected]

Emilio Billi首席技术官

EB [email protected]

14 赛灵思中国通讯  45 期 2012 年秋季刊

Page 17: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

2012 年秋季刊 赛灵思中国通讯  45 期 15

专家园地

数据中心是云计算变革的核心,它

将为全球客户群服务所需的计算能力、

存储及互联融为一体。目前,数据中心

发展迅猛,直接导致大量的投资。据

Synergy 研究集团透露,数据中心网络

基础设施的销售仅在 2010 年就增长了

22 个百分点。像领跑云计算革命的

Google 和 Facebook 等企业准确预计到

为全球庞大的用户群服务需要大量的数

据中心基础设施。

FPGA 的优势

在数据中心竭力向更快速、更大规模、

更低成本、更环保方面发展的进

程中,FPGA技术可为计算、

存储及网络带来诸多优

势。在网络基础设施内

部,FPGA 能够在保

持高能效的同时,

满足日益增长的

吞吐量及处理能

力需求。此外,

鉴于新通信协议

的 不 断 问 世,

FPGA 与生俱来

的灵活性也能在

这种环境下成为重

大优势。

在 基 础 层 面,

FPGA 能提供合适的物理

接口以及高速存储接口所需

的支持与带宽。FPGA 器

件非常尖端、复杂,足

以 实 现 超 过 100G

的数据包处理流

水 线。FPGA 的

灵活性便于实现完

美优化、能够以最高

效率工作的定制线路。

正如 AutoESL 等高层次综合的重大

改进,正在帮助 FPGA 克服在该领域的

最大劣势,即 FPGA 编程流程抽象层次

低。最终将出现覆盖基础网络功能的基

础 FPGA IP 系列。但针对数据中心桥接

(DCB)、VXLAN、虚拟交换及其他专

业技术的特定数据中心解决方案还有待

开发。

在服务器内部,FPGA 在网络接口

卡(NIC)设计中备受欢迎。虽然英特尔、

博通及其他公司已经提供大量的控制器

用于为以太网和光纤通道开发标准适配

器,但如果需要在网络和 CPU 之间的数

据路径上增加更多处理功能时,FPGA

就更为理想。增加的处理功能包括加密、

高频率交易和 TCP 卸载引擎(TOE)。

FPGA 还适用于网络接口或处理功

能需要以某种方式定制化的情况。在这

些情况下,FPGA 能够提供高速串行收

发器、存储器接口、PCIe® 端点及足够

规模的架构,配合基础 IP 模块可提供高

吞吐量数据流处理能力。采用更加先进

的 IP 和解决方案组合,FPGA 能够满足

市场的具体需求,让 FPGA 在这个最终

用户习惯于部署全集成平台的环境中更

具竞争力。例如,更先进的 TOE IP 模

块(配合完整的 Linux 驱动程序和 TCP/

IP 协议栈),能够处理数以千计的同步

会话,为 FPGA 在数据中心的应用开辟

出一系列新机遇。

这种网络适配器的一个特例就是快速

通道互联(QPI)网络适配器。QPI 是

英特尔的专有高带宽、低时延CPU互联。

赛灵思已开发出能够让 FPGA 通过 QPI

直接连接到 CPU 的 IP,不仅能大幅降

低主机接口的时延,而且还可为 CPU 与

网络接口之间提供更高的带宽。这类网

络适配器在数据中心中极具吸引力,因

为时延在已经高度并行化的应用中会迅

速成为主要的性能瓶颈。QPI NIC 为主

机提供的双向峰值带宽是典型的第二代

PCIe 服务器 NIC 的四倍。QPI 传输率较

高,报头较短并支持 FPGA 到 CPU 的

直接传输,所有这些优势使其能够以比

数据中心的

稳步增长

为现有先进的

FPGA 器件

开辟了新的机遇

2012 年秋季刊 赛灵思中国通讯  45 期 15

专家园地

Page 18: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

16 赛灵思中国通讯  45 期 2012 年秋季刊

专家园地

PCIe 低得多的时延传输短小信息。随着

时延成为已经高度并行化的应用的主要

性能瓶颈,超低时延高带宽 QPI NIC 成

为极富吸引力的方案。

主板上的应用

我们还看到 FPGA 本身在主板上具有更

广阔的应用机遇。数据中心中的部分常

见应用,如目前在 x86 服务器实现存储

器内部高速缓存,尽管事实上 x86 并非

这类应用的理想选择。FPGA 能够显著

改善性能、功耗及时延。目前的趋势是

把计算从多个分散的内核处理转变为更

流水线化的数据处理。这种方式对

FPGA 架构非常有益。芯片的数量也能

够满足 FPGA 面临的机遇需要。但必须

解决 FPGA 编程工具抽象层次低这一问

题,方能与基于 X86 服务器上的 C 编译

器相竞争,从而满足 Facebook 等最终

用户需要。

从更具预见性的角度出发,数据中

心有一类随意被称为“低能耗节点”的

服务器。赛灵思已经开发出了多种针对

这种新服务器的关键技术以及针对这个

领域的新兴 SoC 架构,如 ARM 处理器

核、PCIe 接口模块、存储器接口及可编

程逻辑。目前的 ZynqTM-7000 可扩展处

理平台尚未准备好在这个市场上与基于

ARM 的服务器 SoC(如 Applied Micro

的 X-Gene)相竞争。但使用现有的技

术模块,将来的 Zynq 器件便能够令人

信服地用于数据中心服务器。

最后,尤其是来自高性能计算领域

的日益增长的处理需求,能够从 FPGA

与 CPU 综合运用的混合计算解决方案中

获益匪浅。目前 Convey 与 Maxeler 提

供的解决方案已经体现出这种混合方法

显著的性能与省电优势。例如,Maxeler

为某个金融客户设计的信用衍生品定价

系统,其运行速度是运行在英特尔

E5430 服务器上的软件的 37 倍,且能

耗降低 97% 以上。而且 QPI 技术能够

进一步加强这些优势,因为通过这种低

时延、高带宽、缓存一致的接口,硬件

加速器能够与 CPU 更加紧密地耦合。

数据存储、数据仓库及数据分析

与服务器及网络情况相似,现有的

FPGA 能够用三种不同的方式在存储、

数据仓库及数据分析中提供富有竞争力

的实现方案。首先,目前趋势是将闪存

存储系统与主机更紧密集成。新一类

PCIe SSD 控制器可让闪存直联到 PCIe

上。FPGA 已角逐这个领域,提供了关

键功能及基础 IP 构建块。另一项关键优

势是 FPGA 的高灵活性。虽然新标准化

工作如开放式 NAND 闪存接口(ONFi)

正在如火如荼地进行,但目前闪存接口

行业标准尚未确立。

而且,FPGA 还有助于加速查询处

理、滤波处理、解压处理以及某些关系

运算符的执行。这对用于解决吞吐量瓶

颈问题的未来更智能的存储设备来说至

关重要。最后,在所谓的“超存储”应

用中,FPGA 也能发挥重要作用,可加

速文件系统操作,避免其占用大量 CPU

周期。这些 FPGA 目前运行在存储区域

网络中与存储服务器共址的单独服务器

上。使用 FPGA 加速,可降低控制服务

器与存储服务器的比例,从而增加可用

的存储,提高性能。

现有的 FPGA 技术能够满足这些要

求。尤其是,目前 Zynq 架构中的嵌入

式 ARM 处理器已经能够处理操作系统

功能。而且,更先进的 IP 和解决方案组

合定能进一步发挥 FPGA 的潜能,有助

于加速新设计开发进程。

三大机遇

如图 1 所示,我们将这些不同的机遇分

为三大类。第一类是不需要投入更多开

发工作的应用。芯片功能、IP 组合、相

关软件及可编程功能足以满足这些市场

需求,其中部分市场已经采用 FPGA。

例如,Intune Networks 利用 FPGA 实

现光分组交换和传输(OPST)解决方案,

声称通过降低功耗可降低多达三倍的成

本。Maxeler 和 Convey Computers 在

QPI

QPI I/O

RAN

OPST

NIC

NIC

Page 19: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

2012 年秋季刊 赛灵思中国通讯  45 期 17

专家园地

FPGA的基础上推出混合计算解决方案。

IBM/Netezza 的产品采用 FPGA 实现了

智能分析功能。BlueArc 的超级存储产

品 通 过 使 用 FPGA 大 幅 改 善 性 能。

FushionIO 在其闪存控制器中采用了

FPGA。Naptech 与 Nalltech 等众多厂

商提供了基于 FPGA 的智能或定制

NIC。

第二类属于需要高级开发工作的应

用。这个类别中最引人瞩目的是与 QPI

相关的机遇:QPI NIC 以及存储和 I/O

扩展。

第三类是需要对芯片功能或可编程

环境投入大量研发工作的长期机遇。例

如为解决低能耗节点问题,需要采用新

一代 Zynq FPGA 器件,要求该器件带

有集成度更高的 64 位 ARM 处理器以及

带宽更高、速度更快的存储器接口。

专用服务器与 CRAN 或云 RAN 均

处于第二类与第三类的边界上。两者都

需要进行高级开发,以提供必要的基础

设施和平台,从而可从具有更高抽象层

次的新型可编程工具中获益。但是,事

实上基于 RTL 的传统设计流程对某些用

户而言可能已经足够,所以将这些机遇

划入第二类。

高度变动的市场

数据中心是一个极具活力的市场,其中

接口标准及协议快速发展。这在网络设

备上体现得尤为明显,计算功能也不例

外。这样的环境为采用基于 FPGA 的高

速处理系统提供了重大的机遇。这些类

型的应用特别适用于目前的赛灵思技

术,并结合高速串行 I/O 及对应 IP 的

FPGA 设计,如 Kintex ™ and Virtex®

系列器件。

高度关注数据中心市场就会发现更

多商机。尤其是大多数数据中心的应用

均围绕着必须搜索和分类的海量数据,

以芯片或 IP 的形式为存储器访问功能

(访问带宽和密度)、散列及搜索功能

提供支持,这对数据中心而言具有极其

重要的意义。采用以赛灵思堆叠硅片互

联技术(SSI)为基础的未来 PFGA 器

件将在此发挥重要作用。

最后,我们相信这些机遇,尤其是

在服务器领域中的机遇,将取决于

FPGA 的可编程功能的改进与完善。

FPGA 编程必须抽象到数据中心编程人

员能够接受的水平。

FPGA 在这种环境下的机遇,尤其是在服务器领域中的机遇,将取决于 FPGA

的可编程功能的改进与完善。

赛灵思在Intel开发者论坛上展示业界首款针对FPGA的QPI 1.1接口

QuickPath Interconnect 助力 7 系列 All Programmable FPGA,扩展 Intel 处理器系统的功能

All Programmable技术和器件的

全球领先企业赛灵思公司 (Xilinx, Inc. (NASDAQ:XLNX)) 在 Intel 开发者论坛

(IDF) 上首次展示如何通过 QuickPath Interconnect (QPI) 协议将现场可编程

门阵列 (FPGA) 与 Intel Sandy Bridge Xeon 处理器相连。赛灵思的 QPI 解决方案使开发人员能够在赛灵思 A l l Programmable FPGA 与 Intel Xeon 处理器之间建立一个低时延、高性能链

路。该解决方案充分利用赛灵思 FPGA 的高性能处理能力和灵活的 I/O 功能,

实现最佳的整体系统性能和功耗。欢迎 IDF 的出席人员到赛灵思展台 (426号) 观看现场演示。

赛灵思公司有线通信高级总监 Nick Possley 指出:“通过今天的演示,赛

灵思首次为基于 Intel Xeon 处理器的系

统推出了基于 FPGA 的低时延、高带宽

互联 IP 核。赛灵思解决方案可以卸载

高强度的 I/O 操作或者直接实现应用加

速,从而能够提高给定服务器的计算性

能,这也意味着该解决方案将在降低数

据中心资本支出和运营支出方面发挥重

要作用。” 赛灵思 QPI 开发平台包括 IP 核以

及能直接插入现有 Intel Sandy Bridge CPU 插槽的开发模块,硬件设计人员

可利用该平台立即启动 QPI 解决方案的

开发工作。

赛灵思 Virtex®-7 FPGA和 Intel Sandy Bridge CPU 之间的 QPI 1.1 全宽链路包含 20 条通道,每通道速度高

达 6.4Gb/s。赛灵思提供的定制开发板

能将 Virtex-7 FPGA 直接安装在 Intel Sandy Bridge Xeon CPU 插槽上。在

演示中,我们采用 Native Loopback (NLB) 示例软硬件来确认 FPGA 和 CPU 之间的数据交换。QPI 接口使 Intel Xeon CPU能够充分利用赛灵思

FPGA 的并行处理功能并加速高计算强

度的应用,实现协同处理和/或应用加速

功能。开发人员还能利用赛灵思解决方

案实现高性能、低时迟的网络接口控制

器和 I/O 连接扩展,充分发挥 QPI 协议

的缓存一致性优势,更高效地完成数据

包处理任务。

Page 20: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

18 赛灵思中国通讯  45 期 2012 年秋季刊

绿色科技领域的出色表现

赛灵思 Spartan-3A FPGA 可强化面向多端 DRI 电源逆变器的控制算法实现方案

绿色科技领域的出色表现

作者:Phillip Southard高级设计工程师PDS Consulting, LLC 公司

[email protected]

采用 Spartan 技术支持绿色能源开发

18 赛灵思中国通讯  45 期 2012 年秋季刊

Page 21: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

2012 年秋季刊 赛灵思中国通讯  45 期 19

绿色科技领域的出色表现

向工业应用的产品开发需要在时限和产

品规范不断变化的环境中进行广泛的研

究和准备。虽然这个领域的产品上市时

间不像消费类电子产品那样快,但是产

品必须迅速生产交付,并具备尽可能多

的用于发展新一代产品的关键性功能、

特性和潜能。企业力争成为各自所在竞

争领域的行业领导者,特别是在绿色能

源等全新市场,因其尚处于起步阶段,

没有预定的行业领导者,从而需要先驱

者设计、开发和推出全新的产品。成功

不仅取决于倍受鼓舞、专心投入的工程

师团队,高级计算技术和全新材料,同

时还取决于有没有风险投资者或者政府

机构为这些能够改善能源发电、分配、

监控、计量和消费等领域充满前景的方

法提供资助。

2011 年秋天,来自新泽西的高级电

源转换产品和替代能源系统制造商——

普林斯顿电力系统(PPS)的工程师展

示了他们最新的绿色电源产品。这种需

求响应逆变器(DRI)是 PPS、美国能

源部和桑迪亚国家实验室太阳能电网整

合系统(SEGIS)为期三年的合作成果。

开发出的多端 DRI(图 1)具有独

特的灵活性,相比目前可用的逆变器拥

有更高的可靠性、更高的效率和更低的

成本等众多优势。该 DRI 配备多个 AC

和 DC 端子,能够将电源路由到电网、

微型电网、DC 能源存储系统或动态负

载上。可编程电源曲线和充电曲线可提

高对发电机、负载和电池的控制,从而

确保更高的效率。此外,使用大容量、

较长使用寿命的高级开关可最大限度地

提高可靠性。

普林斯顿电力系统展示了 DRI 的众

多特性:提高电网的互联性和效率,增

强可再生能源系统的性能,以及帮助电

动车和分布式发电系统实现更高的集成

度。DRI 是该公司“日光岛”微电网演

示(图 2)的组成部分。这个演示详细

地介绍了清洁技术和制造方面的重大进

步,其中包括 200 千瓦太阳能电池阵列

和锂离子电池系统等。

微型电网可以独立于主要的公用电

网运行,提供可靠、低碳排放的能源。

普林斯顿电力系统的 DRI 与柴油或者汽

油AC发电机相兼容,也可使用光伏(PV)

或者风电输入。使用 DRI 的小型社区可

以减少对电网的依赖,减少碳足迹并降

低公用设施成本。此外,DRI 还能为电

网服务和光伏提供面向电动车的存储和

充电服务。

赛灵思 SPARTAN 技术

为了充分满足工业产品设计的需求,像

普林斯顿电力系统这样的企业充分利用

赛灵思目标设计平台(TDP)等灵活开

发工具的优势,并得到其丰富的生态系

统设计服务支持。在这种情况下,工程

设计团队面临的第一个挑战是决定如何

扩展 DRI 系统中数字信号处理器的输入

和输出,以及如何实现并行工作的控制

和通信接口。PDS Consulting 可为各种

市场的可编程数字系统提供设计服务,

其中包括航空航天与军用、广播、工业、

科研和医疗等。该公司以赛灵思联盟计

划成员的身份为这个项目提供工作支持。

图 1 - 普林斯顿电力系统使用 FPGA 设计的需求响应逆变器具有高度的灵活性。

Page 22: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

20 赛灵思中国通讯  45 期 2012 年秋季刊

绿色科技领域的出色表现

PDS 咨询团队可提供现场实际操作

系统调试和 PCB 启动,以及非现场 RTL

和 IP 设计等服务。此外,我们还向普林

斯顿电力系统的开发人员提出建议如何

实现面向他们绿色电源控制算法的系统

控制接口。最终,工程师选择将赛灵思

Spartan® XC3SD3400A FPGA 与 DSP

相结合,当作主系统控制组件(图 3)。

Spartan-3A FPGA 具 有 丰 富 的

SelectIOTM 功能,能够为实现方案带来

高度的灵活性,对于触发信号和 ADC 输

入通道而言尤为如此。赛灵思 Spartan-

3A 系列因其 FPGA 允许进行现场设计

升级,可避免高昂的初始成本和冗长的

开发周期,对比传统 ASIC 固有的低灵

活性,因而可完美替代 ASIC。Spartan-

3A 支持的集成技术可让普林斯顿电力系

统面向绿色能源转换的专利控制算法成

为现实。

实现 DRI 系统的接口需要 300 多组

I/O,该接口能够以超过 900kbps 的速率

访问 8MB 闪存、256Mb SDRAM 以及

USB/RS-232。此外,团队还充分利用

了 Spartan 架构中固有的大量高速分布

式 32 位双端口 RAM 的优势。可配置逻

辑块(CLB)查找表作为双端口 RAM 使

用,可高效地在本地存储 ADC 提供的全

新能源波形采样,同时可让 DSP 读取此

前的采样波形,以及 PicoBlaze ™嵌入

式处理器分析来自第二个端口的新值。

赛灵思 FPGA 的优势

普林斯顿电力系统的算法需要进行大量

的计算,这只能由浮点 DSP 才能完成,

但 FPGA 具有很多 DSP 不具备的特性。

赛灵思 FPGA 的一些特性非常适用于这

个普林斯顿电力系统项目,其中包括多

电压、多标准 SelectIO I/O 引脚;可配

置逻辑块;block RAM;以及可实现大

量可编程触发信号的存储器接口等。这

些信号生成和执行脉冲序列,用于触发

IGBT 等功率电子开关,并控制负责在每

个脉冲或定制高速串行接口上读取重要

系统测量值的大量高速 ADC 通道。

FPGA 不仅帮助普林斯顿电力系统

设计和实现了完美符合其特定要求的定

制外设,同时还为输入值的处理提供了

更充裕的计算资源,否则这些处理工作

将需要由 DSP 完成。基于 Sparant-3

FPGA 的设计能完成多个流程:使用连

接到 DSP 的 ADC 的读取值来完成系统

错误检查;实现时钟驱动工作,比如在

必要时精准地读取 ADC;完成 ADC 值

的平均计算。

如果没有 FPGA,这其中的一些功

能要求就无法实现。其它功能将需要在

DRI 的控制板上安装更多的组件,或者

需要更加复杂的软件架构。普林斯顿电

力系统的团队知道应尽量避免出现后一

种情况,因为控制板是 DRI 系统的核心。

普林斯顿电力系统的研发经理

Frank Hoffman 指出:“虽然现在越来越

多的 DSP 能够提供之前没有的外设,但

FPGA 的使用仍具有重要意义。随着每

一 代 产 品 的 面 世, 从 Spartan-3 到

Spartan-6,FPGA 内部的计算资源数量

不断增加,现在已经可以把更多的计算

工作分配给 FPGA。这就意味着可以用

更快的速度运行我们复杂的控制算法,

从而改善生成的输出质量,比如 DRI 的

输出。”

结果

一方面使用 FPGA 的技术优势非常明显

(快速原型设计、灵活架构、用于快速

DC

AC

图 2 - 普林斯顿电力系统高灵活性的多端 DRI 正在面向电气微型电网进行配置。

Page 23: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

2012 年秋季刊 赛灵思中国通讯  45 期 21

绿色科技领域的出色表现

系统内调试的赛灵思 ChipScopeTM 集

成逻辑分析器等高级支持工具),另一

方面这项决定也对普林斯顿电力系统的

结果(bottom line)造成了影响。

执行副总裁 Darren Hammell 指出:

“使用 FPGA 不仅可加快开发进程,降

低研发费用,还可加速全新创新型替代

能源系统的上市进程。该编程环境简便

易用,让我们能够快速开发和测试我们

的创新软件。与采取其它方法相比,我

们能够更快地完成用于演示的原型设

计。”该产品现已提供供货,而且普林

斯顿电力系统还赢得了两个新的客户:

宝马和 SuperPlug 已经把 DRI 集成到新

的电源系统设计中。

在绿色电源技术等领域,工程师面

临着全新的挑战,包括决定如何在保持

必要的功能的同时优化算法实现方案。

有了合适的工具、技术和团队,在这个

领域中取得新的进展指日可待。

如需了解有关普林斯顿电力系统多

端 DRI 的更多信息,敬请访问:http://

www.p r ince tonpower.com/p rod_

demand.shtml。

您可发送电子邮件至 sales@pds-

consul t ing.com,与 PDS Consulting

取得联系。

1010000

==

==

=~

=~

DC/DC AC-to-DC

FPGA

FPGADSP

图 3 – 工程师选择具有丰富 SelectIO 功能的 Spartan-3A FPGA 作为主系统外设。

Page 24: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

22 赛灵思中国通讯  45 期 2012 年秋季刊

固态磁盘领域的出色表现固态磁盘领域的出色表现

借助赛灵思 7 系列器件,这款基于 PCI Express 的固态磁盘设计同时获得速度和性能提升。

利用 Kintex-7 FPGA设计 19nm 闪存PCIe SSD作者:Yilei WangMemblaze(中国)公司高级硬件工程师

[email protected]

Xiangfeng LuMemblaze(中国)公司首席技术官

[email protected]

22 赛灵思中国通讯  45 期 2012 年秋季刊

Page 25: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

2012 年秋季刊 赛灵思中国通讯  45 期 23

固态磁盘领域的出色表现

以NAND 闪存存储器为基础的

固态磁盘(SSD)技术与传

统的机械驱动器存储系统相

比,吞吐量更高,功耗更低。为此,

SSD 使用量在过去十年迅速增加,从手

持设备到笔记本、台式机,现在又进军

企业级存储设备市场。企业级存储产业

对基于串行高级技术附件(SATA)标准

的 SSD 的采用进一步加速了这一快速扩

展势头。

但是,在 SSD 制造商期望通过使

用 19nm 闪存存储器将新一代系统的性

能和密度推上新的高度的时候,SATA

并没有跟上。即便是最新的版本(SATA

3.0),6Gbps 物理接口也难以满足

SSD NAND 闪存阵列的最高吞吐量,因

此存在性能利用不足的问题。

为 突 破 接 口 瓶 颈, 基 于 PCI

Express® 的 SSD 正在给市场带来重大

影响。PCIe® 是业界标准本地总线,性

能和扩展能力均优于 SATA。它采用多

信道高速串行链路,可支持 1 至 16 个信

道,每个信道的运行速率高达 8Gbps

(Gen1 为 2.5Gbps,Gen2 为 5Gbps,

Gen3 为 8Gbps)。SSD 的 PCIe 接口可

支持数 GB 的吞吐量,并随着 NAND 闪

存技术的发展为可预见的将来预留更多

裕量。

但用 19nm 闪存开发基于 PCIe 的

SSD 系统一直面临一系列挑战。与

SATA 相比,PCIe 接口要求更多高速串

行链路和更复杂的互联。对吞吐量需求

则要求 PCIe 直接存储器存取(DMA)

以千兆字节带宽运行。另外,采用 19nm

工艺,闪存的可靠性或者更具体地说“平

均读写”(NAND 在遇到错误之前能读

取或者写入的次数)也是一个日益严峻

的问题。采用 19nm 工艺,制造商必须

以比以往更快的速度完成平均读写和纠

错。

赛灵思 KintexTM-7 FPGA 以不到

前一代 FPGA 一半的成本为 FPGA 设立

了新的高性能基准。Kintex-7 系列是赛

灵思采用台积电(TSMC)高性能低功

耗(HPL)28nm 工艺技术生产的四大

产品线之一,旨在实现最大能效,与前

代产品相比,性价比提高了两倍,而功

耗降低了 50%。Kintex-7 FPGA 采用高

密度逻辑、高性能收发器、存储器、

DSP,以及灵活混合信号技术,所有这

一切能让系统级性能和集成度迈上新高。

这些功能能让设计以批量价格不断实现

创新和差异化。由此,赛灵思 Kintex-7

系列 FPGA 是 19nm 闪存 PCIe SSD 控

制器的理想选择。

图 1 所示的是 Memblaze SSD 控

制器架构,由三个以高速 AXI4 总线相连

的子系统组成。PCIe SG-DMA 子系统

包含 Kintex FPGA 硬核,负责在主机和

SSD 数据缓存之间分散和采集数据(SG

代表分散(Scatter)和采集(Gather))。

CPU 子系统负责管理外设和执行 SSD

存取命令,而存储子系统则负责运用多

通道 NAND 控制器、纠错码(ECC)模

块和平均读写模块处理 SSD 扇区数据。

这三个子系统共享带 ECC 功能 2GB

DDR3 SDRAM。采用赛灵思存储器接口

生成器(MIG)工具很容易生成 ECC

DDR3 SDRAM 控制器。

PCIe Gen 2 x 8

7 PCIe

TLP

DMA

TLP

DMA

TAG

DMA

PCIe SG-DMA

Kintex-7 325 T

AXI 4

AXI 4 Lite

9 x 2 GbitDDR3

32-MB XOR

MIG DDR3

MicroBlaze 0

MicroBlaze 1

BRAMs

QSPI IIcUART RS-232

CPU

ECC

ECC

19 nm 19 nm

图 1- 针对 19nm NAND 闪存 PCIe SSD 的 Kintex-7 SoC 解决方案由三个子系统组成:CPU、存储和 PCIe SG-DMA

Page 26: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

24 赛灵思中国通讯  45 期 2012 年秋季刊

固态磁盘领域的出色表现

在我们的设计中,使用 7 系列 PCIe

硬核实现物理转 TLP 层,让设计能够以

最低的时延发挥高性能 PCIe 端点的功

能。支持 ARM® AXI4 互联的新型嵌入式

MicroBlaze® 核可彻底消除片上总线的

瓶颈。DDR 硬核为磁盘高速缓存提供

51.2Gbps ECC 解决方案。同时,使用

低功耗逻辑资源能够方便地运行高性能

平均读写和智能 ECC 算法。另外,丰富

的高性能 I/O 资源为 19nm NAND 闪存

阵列的互联提供了方便。

PCI EXPRESS SG-DMA

我们设计的 PCIe 接口要求用一个快速

DMA 控制器实现主机和本地 AXI4 总线

间的高速通信。SSD 闪存阵列的吞吐量

可高达 2.5Gbps。为简化 PCIe 接口的

设计,为闪存芯片的发展提供更大的裕

量,我们选择使用 8 信道 PCIe Gen2/

Gen3 架构。

PCIe 端点在物理层、数据链路层和

事务处理层中有大量复杂的协议需要处

理。幸运的是在赛灵思 7 系列 FPGA 中

设计 PCIe SG-DMA 控制器速度既快又

方便。赛灵思已经把 PCIe 硬核实现在

器件的架构中,用于处理全部的 PCIe

操作。这样设计小组就可以集中精力设

计 SG-DMA 操作本身的功能。PCIe 解

决方案的集成模块可支持单通道、双通

道、四通道和八通道端点配置,最高速

度达 5Gbps(Gen2),符合 PCIe 基本

规范 2.1 修订版。表 1 是 7 系列 FPGA

的 PCI 集成模块的配置。该核可配置为

Gen1/Gen2,最多可支持 8 个信道,从

而可提供高达 40Gbps 的带宽。

我们使用 CORE GeneratorTM 工具

来配置和生成 PCIe 端点 IP。该工具包

括用户指南、源代码、仿真代码和设计

范例,可帮助我们迅速发挥该核的作用,

实现要求的速度。图 2 显示了 PCIe 硬

核的顶层功能模块和接口。

SG-DMA 核的主要功能是处理来自

主 机 的 TLP 数 据 包 并 做 出 响 应。

SG-DMA 用作对主机存储器的 PCIe 主

控访问,在主机和本地存储器之间传输

数据。主机向 DMA 控制器发送命令,

控制 DMA 访问。该命令代码嵌入在特

定的主机 TLP 寄存器写操作的数据中。

SG-DMA 控制器初始化 SG-DMA 写入

请求,响应主机的读取命令,将数据从

本地存储器迁移到主机存储器。同样,

对于主机的写入命令,SG-DMA 控制器

初始化 DMA 读取请求,将数据从主机

存储器迁移到本地存储器中。图 3 即是

流程的图解。

AXI4 互联

AXI4 互联 IP 将一个或多个 AXI 存储器

映射的速度更快的设备连接一个或多个

存储器映射的从设备。AXI 接口符合

ARM 制定的 AMBA® AXI 第 4 版规范,

包括 AXI4-Lite 控制寄存器接口子集。互

联 IP 仅用于存储器映射传输,不适用

AXI4-Stream 传输。AXI 互联 IP 可用作

赛灵思嵌入式开发工具套件(EDK)中

提 供 的 pCORE, 或 者 用 作 赛 灵 思

LogiCORE IP 7 FPGA PCIe

PCI Express 7

FPGA (PCIE_2_1)

PCIExpressPCI Express

(PCI_EXP)

(SYS)

Block RAM Block RAM

AX14-Stream

(PL)

(CFG)

(DRP)

图 2 - PCI Express 硬核顶层的功能模块与接口

Page 27: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

2012 年秋季刊 赛灵思中国通讯  45 期 25

固态磁盘领域的出色表现

的强化。

不采用平均读写机制的闪存存

储器存储系统如果向闪存写入数据,

寿命会比较短。如不采用平均读写

技术,闪存控制器必须永久性地将

操作系统(OS)的逻辑地址分配给

闪存存储器的物理地址。也就是说

每次向之前已经写入的模块的写入

数据都必须先读取、擦除、修改此

前的数据,然后在相同一位置重新

写入。这非常耗时,而且经常写入

的位置会迅速磨损,而闪存上有的

位置则完全没有使用。一旦部分模

信号宽度。

AXI4 互 联 在 PCIe SG-DMA 和

DDR3 存储器之间提供高性能互联。我

们发现 AXI4-Lite 共享总线是低速片上互

联的理想解决方案,需要的逻辑资源极

少。

平均读写技术

平均读写是存储介质厂商用于延长各类

可擦除计算机存储设备使用寿命的设计

技术,比如固态硬盘中使用的闪存存储器。

在闪存存储器系统内使用的平均读写机

制有几种,每种都对使用寿命有不同程度

CORE Generator IP 目录的独立内核。

设计人员可从赛灵思 AXI4 IP 支持

的两种操作模式中选择。性能优化的纵

横交换机(crossbar)模式采用共享地

址多数据流(SAMD)纵横交换机架构,

为读 / 写数据通道提供并行路径。而面

积优化的共享访问模式则提供共享写数

据地址路径、共享读数据地址路径和单

条共享地址路径。这两种模式均为增量

(INCR)突发提供长达 256 位的突发长

度以及 32 位至 1024 位的不同数据宽度。

如有的话,每个通道还可支持 USER 信

号传播,可选择每个通道独立的 USER

TLP TLP

DMA

DMA

TLP TLPDMA

TLP

TLP

TLP

PCIe

*

Artix-7 Kintex-7 Virtex-7 T Virtex-7 XT Virtex-7 HT

Gen2 Gen2 Gen2 Gen3 Gen3

x4 x8 x8 x8 x8

1 1 3-4 2-4 1-3

5 5 8 8 8 (Gbps)

*

表 1 - 7 系列 FPGA 的 PCI Express 集成模块

图 3 - SG-DMA控制器工作流程

Page 28: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

26 赛灵思中国通讯  45 期 2012 年秋季刊

固态磁盘领域的出色表现

利用率低的单元外,静态平均读写与动

态平均读写工作原理相同。这种循环效

应让 SSD 能够一直用到大多数模块接近

寿命终点。

图 4 是在长期写入 / 擦除操作后采

用和未采用平均读写技术的闪存页的情

况。未采用平均读写技术的闪存页(黑

色页面)已经被破坏,不能再记录任何

数据,而有采用平均读写技术的闪存页

所有页都还能够继续用于记录数据。

智能 ECC 算法

SSD 系统设计的另一项关键组成部分就

是纠错。有多种异常情况可能导致误码,

进而影响数据完整性乃至系统本身的正

确运行。为解决这些错误,我们的设计

小组采用复杂的 ECC 算法,而且这些算

法针对我们在这些系统中使用的新型更

小型的闪存进一步精细化。

我们在 19nm NAND 闪存存储器上

采用了一种称为“反随机数据错误记录”

的ECC算法。该算法用于解决温度变化、

噪声和存储单元可靠性造成的误码。另

外,NAND 闪存的存储单元的擦除 / 编

程寿命一般有限。误码率(BER)随擦

除 / 编程操作的累积而增大,直到有限

的寿命终止。SSD 的 ECC 功能还需要

这种算法检测每个单元的误码率,了解

它们的使用寿命情况。设计人员可以设

定特定的误码率阈值,提示寿命已到和

确认替换模块。不过该阈值的优化也很

关键。误码率阈值过低,会导致系统过

早放弃可靠的单元,最终缩短 SSD 的使

用寿命。误码率阈值过高,则会造成数

据丢失的风险,因为系统会试图向不可

靠的单元写入数据。因此 ECC 算法必须

实现可靠性和寿命的最佳平衡。

19nm NAND 闪存存储密度较高,

但可靠性较差。这就是为什么我们的设

计采用高速高级纠错的原因。ECC 部分

占 35% 以上的设计资源,实现的并行计

算能力能够以 4GB 读取速度在一个

1,024 位的扇区内纠正多达 49 位误码。

与 上 一 代 FPGA 相 比, 新 型 28nm

Kintex-7 技术可将系统级性能提升达

50%,容量提高两倍,总功耗减半。与

Virtex-5 器件中相同的 ECC 模块相比,

Kintex-7 实现方案在保持成本不变的同

时,将面积缩小5%,性能提升40%以上。

赛 灵 思 Kintex-7 系 列 FPGA 是

19nm闪存PCIe SSD设计的理想选择。

其 PCIe 硬核、性能、容量、低功耗特

性使其成为市场上最优秀的芯片产品。

采用该器件,我们 SSD 的读 / 写吞吐量

可轻松达到 2GBps的水平。借助该器件,

我们不仅能够为客户创造巨大的价值,

而且我们的 19nmNAND 闪存系统将得

到巨大的发展潜力。

块寿终正寝,驱动器就不能再用。

第一种平均读写方法称之为“动态

平均读写”。它使用一个映射将操作系

统的逻辑模块地址(LBA)链接到物理

闪存存储器地址。每次操作系统写入替

换数据时,映射就会更新,标记原始的

物理模块为无效数据,然后将一个新模

块链接到这一映射条目。每次有数据模

块重新写入到闪存存储器,就会写入到

新地址。闪存存储器上没有数据更新的

模块就一直不会产生更多的磨损。驱动

器的使用寿命就可能会比不采用平均读

写机制的驱动器长,但某些块虽然也处

于活动状态,却没有得到利用。

另一种平均读写方法称为“静态平

均读写”,也使用映射将 LBA 链接到物

理存储器地址。除了未发生变化的静态

模块会定期移动,让其他数据访问这些

图 4 - 采用和未采用平均读写的闪存页

Page 29: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

业界首款且唯一的 All Programmable SoC

ARM® 双核 Cortex ™ -A9 处理器与可编程逻辑的完美集成。ASIC级别的性能与功耗,同时兼具 FPGA 的灵活性以及简化的微处理

器编程优势。

Page 30: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

28 赛灵思中国通讯  45 期 2012 年秋季刊

专家园地专家园地

如何使用部分动态可重配置协助开发FSK 解调器

28 赛灵思中国通讯  45 期 2012 年秋季刊

Page 31: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

2012 年秋季刊 赛灵思中国通讯  45 期 29

专家园地

部分动态可重配置(PDR)是一

种全新的 FPGA 配置和重编程

方法。与标准的 FPGA 重配置

流程不同,部分动态重配置可在 FPGA其它部分运行过程中,根据用户设计需

要,对器件的一小部分进行修改。不像

标准的重配置方法一样,在外部控制器

或内部胶合逻辑芯片重新加载设计到

FPGA上时,需将器件保持在复位状态。

使用部分动态重配置技术,当 FPGA 的

内部或外部控制器将部分设计加载到可

重配置模块中时,设计的其它关键部分

仍在继续运行。这种技术不仅可优化硬

件资源,而且还能降低功耗。

在欧盟研究项目 pSHIELD 中,部

分动态重配置已经成为研究的课题。这

个项目的目的是实现嵌入式系统内在的

安全性、隐私性和可靠性(SPD),而

不是将嵌入式系统当作“附加”功能进

行追踪。pSHIELD 的构想为确保未来嵌

入式系统通过 SPD 认证向前迈出了第一

步。这种先进的构思旨在展现 SPD 技术

的可组合性。

在这种情况下,我们发现部分动态

重配置是实现安全、可靠、可重配置嵌

入式系统的关键技术。该新技术的研究

涉及到了如何在赛灵思部分动态可重配

置设计流程中实现一个项目演示器(一

种可重配置频移键控 (FSK) 解调器系

统)。

FSK 自适应解调器

FSK 自适应解调器是我们开发用于演示

pSHIELD SPD 模式的概念验证。事实

上它就是使用简单的系统管理数据流。

图 1 是该 FSK 自适应解调器 SPD 节点

的硬件实现方框图。

作为高频无线电频谱中最常见的数

字调制方式,FSK 在电话线路中有重大

用途。这种技术通过二进制方式移动连

续载波的频率,实现数据传输。其中一

个频率被命名为“马克”频率,即频率

f0;另一个频率被命名“空间”频率,

即频率 f1。马克频率与符号 1 关联,为

较高频率;而空间频率与符号 0 关联,

为较低频率。在如表 1 所示的 FSK 信号

欧洲研究小组利用赛灵思实时部分可重配置 FPGA 的功能开发出更可靠的系统。

作者:Fabio Giovagnini 软件经理Aurion S.r.l., SESM [email protected]

Antonio Di Marzo 嵌入式系统部经理SESM [email protected]

2012 年秋季刊

Page 32: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

30 赛灵思中国通讯  45 期 2012 年秋季刊

专家园地

中,马克频率是 1,031 Hz,空间频率是

968 Hz。

在 FSK 完成解调后,信号和载波相

乘(或数控振荡器和复用器,即图 2 中

的 I2 和 I1 模块),然后进行低通滤波。

低通滤波器或环路滤波器(图 2 中的 I3模块)的作用是将马克符号和空间符号

区分开。空间符号的幅度会大于马克符

号的幅度。

环路滤波器的输出进入 16 抽头有

限脉冲响应(FIR;图 2 中的 I4 模块)

滤波器,执行数字低通滤波。FIR 滤波

器实际上就是一个平均滤波器,因其输

出等于前面n个抽头样本输入的平均值,

其中 n 代表所使用的抽头数。这种配置

需要 16 个系数,但可以通过假定所有系

数相同(均为1/16)来加以简化配置过程。

实际上,可以只进行 4 位右移位运算,

然后乘以 1/16。

FSK 自适应解调器能够动态地适应

载波 Fc0 和 Fc1 的不同频率。一般的通

信方案中有两个模块:调制器和解调器。

自适应解调器能够自动在两个不同载波

间切换,以便与调制器完成的载波切换

匹配。调制器切换载波的原因有多种,

其中包括传输错误、噪声过大或者存在

入侵当前载波的风险。

FSK 自适应解调器还有一个名为载

波控制器的内置模块。该模块通过分析

接收到的数据的一致性,能够持续地检

查发送信号的完整性。载波控制器根据

分析结果,驱动重配置状态。

FSK 自适应解调器可将自身重配置

为两种不同的模式,每种模式都能在给

定的 Fc0 和 Fc1 载频上对调制的信号进

行解码。配置的过程根据部分动态可重

配置方法进行。图 3 是 FSK 自适应解调

器的总体布局。我们使用软件实现的载

波 控 制 器 可 作 为 单 项 任 务 运 行 在

PowerPC® 440 上,执行数据完整性检

查。一旦出现通信错误,载波控制器将

使用内部配置访问端口(ICAP)软件原

语强制发生一个重配置事件。

我们使用赛灵思开发板 ML507 设

计我们的 FSK 自适应解调器。该嵌入式

系统 FPGA 开发板配备 RocketIOTM GTX 收发器,可提供一款功能丰富的通

用评估与开发平台。其内置有板载存储

器和业界标准连接功能接口,能够为嵌

入式应用提供多功能开发平台。

pSHIELD :

FM SPD

CPU

FM

Virtex5: FPGA

DAQ GPIO

图 1 - FSK 自适应解调器 SPD 节点的硬件实现

待传输数字信号

自适应频率 介于 100Hz 和 50Hz 之间

FSK 自适应调制信号

“空间”频率 968 或 1,937 Hz

“马克”频率 1,031 或 2,062 Hz

幅度 1 Vpp

模数采样频率 16 kHz 或 32 kHz

表 1:FSK 信号实例中的马克和空间频率

Page 33: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

2012 年秋季刊 赛灵思中国通讯  45 期 31

专家园地

部分动态可重配置设计流程

典型的静态赛灵思 ISE® 设计套件流程由

下面四大步骤组成:

设计 / 编辑

综合

实现

器件配置

部分可重配置设计流程比这个流程

更复杂。图 4 是简化的部分动态重配置

设计流程。

第一步是在我们的顶层设计中找出

部分可重配置模块(PRM)。我们必须

为每个模块定义输入输出信号接口。在

我们的这个案例中,我们确定了一个部

分可重配置模块,名为解调器。下面的

编码用于描述解调器接口:

ENTITY Demodulator IS

PORT (

clk : IN std_logic;

--Main Entity clock

reset : IN std_logic;

--High active reset

fmin : IN std_logic_

vrctor ( 7 DOWNTO 0);

--Modulated fsk signal

dmout : OUT std_logic_

vrctor (11 DOWNTO 0); --Pre-

demodulated signal

clko : OUT std_logic;

--Synch. FIFO signal

dbg : OUT std_logic;

--debug line

);

END Demodulator;

鉴于当前设计中我们需要一定数量

的 PRM,下一步是使用 XST 工具生成

n 个 PRM 网 表 文 件。XST 的 输 出 由

NGC 文件组成。NGC 是一个内含逻辑

数据和约束的网表。最终我们生成 n 个

NGC 文件。在我们准备把这些 NGC 文

件用在部分可重配置项目中时,应确保

禁用 IOBUF 功能。

对我们的项目而言,我们有两个

NGC 文件:一个为 1k 解调器和另一个

为 2k 解调器。这两个模块的差异是其中

一个模块有设置约为 1KHz 的数控振荡

器(NCO),另一个设置约为 2KHz。

既然我们在我们的系统中使用两个

NGC 文件,我们必须创建一个设计来托

管 PRM。使用 XPS,我们可以构建一

个片上系统(SoC),将所有所需的模

块和控制器通过XPS菜单实例化。另外,

我们必须创建一个黑盒 IP 用于托管我们

之前用 XST 工具创建的 PRM 模块。为

此,我们可以选择 XPS 中提供的“创建

和导入外设向导”选项。

在我们这个案例中,我们使用适当

的选项创建一个名为 FSKDemodulator的黑盒模块。该向导流程生成两个

VHDL 文件,分别为 FSKDemodulator.v h d 和 U s e r _ l o g i c . v h d 。

FSKDemodulator.vhd 是在可编程系统

图 2 - FSK 解调器电路方框图

部分可重配置(PR)设计流程的第一步是在我们顶层

设计中找出部分可重配置模块(PRM)。我们必须为

每个模块定义输入输出信号接口。在我们的这个案例

中,我们确定了一个部分可重配置模块,名为解调器。

Page 34: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

32 赛灵思中国通讯  45 期 2012 年秋季刊

专家园地

层面与我们的 PRM 模块(解调器)关

联的顶层。这个文件用外设本地总线

(PLB)v4.6 等可编程系统组件定义

PRM 模块的接口。User_logic.vhd 为用

户逻辑功能,其包含 PRM 模块的实例。

一旦完成可编程系统设计,我们就能为

该配置生成 NGC 文件。

使用 XPS,我们定义了可编程系统

架构和通用系统架构。值得注意的是,

我们在 XPS 中把全部 PRM 定义为黑盒。

使用 PlanAhead ™,可以将 XST和 XPS 两个进程的输出和 NGC 文件汇

总,从而得到一些 PRM 比特流和一个

默省比特流。然后使用 XPS 生成的

NGC 文件和 XST 生成的 NGC 文件之一

定义和构建顶层实现。设计人员随后需

要向设计加入部分可重配置区域,且必

须指定与之关联的 NGC 文件。最后一

步是提升该配置,使该实现设计成为在

启动时加载到系统中的默省系统实现。

该进程的输出即为默省比特流。为

构建 PRM 的比特流文件,我们必须重

新打开 PlanAhead,从头开始勾选“PR项 目”, 以 导 入 全 部 NGC 文 件。

PlanAhead 将为每个 PRM 生成一个单

独的比特流。在本例中它生成两个 PRM比特流,一个用于 demodulator1k,另

一个用于 demodulator2k。

对调试流程,我们建议创建 n 个

(PRM 的数量)不同的静态实现,用于

每一个 PRM。在这种情况下,设计人员

将完成 n 个完整的静态实现,每一个都

执行静态连接到 FPGA 的第 n 个 PRM的功能。我们认为这是调试需求和开发

复杂程度之间良好的折衷。

最后一步是把生成的比特流下载到

目标器件上。如果需要在 CompactFlash中的存储比特流和 System ACETM 文

件,用户可以使用 IMPACT 工具、命令

行 data2men 和赛灵思微处理器调试器

(XMD)工具对器件编程。在本案例中,

我们选用命令行方法对器件编程,因为赛

灵 思 开 发 板 ML507 上 含 有

CompactF lash, 系 统 ACE 把

CompactFlash 视为引导器件来管理。

可转换器件

与静态可重配置相比,部分动态可

重配置技术从完成重配置所花的时间来

说非常高效。虽然所花的时间与 PRM的物理尺寸有关,如果这些模块与完整

的比特流相比能小上一个增益因数,重

配置的时间就会是从数百毫秒降低到数

十毫秒。部分动态重配置的使用让

FPGA 系统设计步上新的台阶,让设计

人员有机会大幅降低整个系统的功耗和

成本。

对安全、隐私和可靠性是主要因素

的欧盟 pSHIELD 研究项目而言,我们发

现部分动态重配置技术极其有用。即时

修改加密算法或通信协议,同时保持其

他功能正常运行的能力可带来巨大优势。

采用这种方法,我们认为 FPGA 会为电

子设计开启新的时代。我们预计系统将

具备修改自身功能,让自己适应特定场

景或应付特定威胁的能力。简言之,我

们将迎接一个由可转换器件组成的世界

的到来。

FSK

FSK Fc0( )

FSK Fc1( )

XPS

XST

PlanAhead

IMPACTdata2mem xmd

ucf

ngc

ngc

1..n

顶层和 PRM

1..n1..n

图 3 - FSK 自适应解调器设计的总览

图 4 - 使用 PlanAhead、XST 和 XPS 的 PDR 设计流程简图

Page 35: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

2012 年秋季刊 赛灵思中国通讯  45 期 33

手把手课堂: F P G A 1 0 1手把手课堂:FPGA 101

FPGA 数学运算的基础知识

作者:Adam Taylor首席工程师

阿斯特里姆公司

(EADS Astrium)[email protected]

2012 年秋季刊 赛灵思中国通讯  45 期 33

Page 36: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

34 赛灵思中国通讯  45 期 2012 年秋季刊

手把手课堂: F P G A 1 0 1

基于 FPGA 的解决方案具有众多优势,其中

之一就是能够针对眼前的问题采用最佳的方

式来进行数学算法。例如,如果响应时间至

关重要,我们就简化数学运算步骤。如果注

重运算结果的精度,我们就使用更多的位来确保达到预

期的精度。当然,很多新型 FPGA 还具有嵌入式乘法器

和 DSP slice 的优势,可用于在目标器件中获得最佳的实

现性能。

让我们了解一下在 FPGA 或其它可编程器件内开发

数学函数所使用的规则与方法。

数字的表示方式

在一种设计方案中可以使用两种数字表示方式,即定点

数与浮点数。定点表示法中小数点位置固定不变,可以

直接进行算数运算。定点数的主要缺点是如果要表示一

个较大的数或者得到一个更精确的小数值,就需要使用

若干个位。定点数由两部分构成:整数和小数。

浮点表示法中小数点位置随数值的大小在不同位置

浮动。浮点数同样也可分为两部分:指数和尾数。这种

表示方法类似于科学计数法,科学技术法是将一个数表

示为 A 乘以 10 的 B 次幂,其中 A 为尾数、B 为指数。

但在浮点数中,指数部分的基数是 2,即 A 乘以 2 的 B次幂。IEEE/ANSI 754-1985 标准对浮点数表示法进行了

标准化。基本 IEEE 浮点数使用 8 位指数和 24 位尾数。

27 26 25 24 23 22 21 20 2-1 2-2 2-3 2-4 2-5 2-6 2-7 2-8

由于浮点数的表示法存在一定的复杂性,我们作为设

计人员应尽可能多地采用定点表示法。上述浮点数采用

补 码 表 示 法, 其 无 符 号 数 表 示 范 围 介 于 0.0 ~ 255.9906375之间,有符号数表示范围介于 -128.9906375 ~ 127.9906375 之间。您在一种设计方案中既可以使用

无符号数也可以使用有符号数,这通常取决于您所用的

算法。无符号数的表示范围为 0 ~ 2n-1,始终表示正数。

相比之下,有符号数的表示范围则取决于所采用的编码

方案,即符号数值表示法(即原码)、1 的补码(即反码)

或 2 的补码(即补码)。

原码中最左边的位表示数的符号(0 为正,1 为负)。

其余的位表示数值的大小。在这种表示方法中,正数和

负数的绝对值相同,但是符号位不同。因此,原码方案

中存在正零和负零。

正数的反码与其原码的无符号数相同。负数的反码为

正数按位取反。

补码是使用最广泛的有符号数编码方案。这里与其它

两种编码方案一样,正数与无符号数的表示形式相同,

而负数的二进制表达式与绝对值相同的正数相加后等于

0。计算负数补码时,首先将正数按位取反,然后再加 1。补码允许您将两个数的减法按照加法来处理。补码可以

表示的范围是:

– (2n-1) to + (2n-1 – 1)

将一个数转换为补码格式的方法是按从右至左的顺

序按位遍历,从遇到的第一个“1”开始将二进制位按位

取反,而之前的二进制位保持不变。

定点运算

在定点数中,通常用 x 和 y 来区分整数位和小数位,其

中 x 表示整数位的数量,y 表示小数位的数量。例如,8,8 表示 8 个整数位和 8 个小数位;16,0 表示 16 个整数

位和 0 个小数位。在很多情况下,您通常需要在设计阶

段根据浮点算法转换来确定所需的整数和小数位数量。

得益于 FPGA 的灵活性,我们可以表达任意二进制长度

的定点数;整数位的数量取决于需要存储的最大整数值,

而小数位的数量取决于最终结果的精度。我们利用以下

公式来确定整数位的数量:

整数位的数量 = Integer Bits Required = Ceil LOG10 Integer_MaximumLOG102( )

FPGA 的主要优势之一在于它能够根据需要来进行数学函数运算。本文主要介绍 FPGA 数学运算

的一些基本规则与方法。

Page 37: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

2012 年秋季刊 赛灵思中国通讯  45 期 35

手把手课堂: F P G A 1 0 1

  例如,要表示 0.0 ~ 423.0 范围内的数值,所需整数

位的数量为:

9 = Ceil LOG10 423LOG102( )

这表示您需要 9个整数位,可以代表 0~ 511范围内的数。

利用 16 个位来表示这个数时,可以有 7 个位用于表示小

数。利用下面的等式计算这种表达方式所能提供的精度:

= = 100 – FPGA 2( )

您可以增加小数位的数量,进而提高定点数的精度。在

设计过程中,我们有时希望只存储小数(0,16), 这主

要取决于您希望将精度提高到多少。利用 216 进行扩展

可能依然无法达到足够高的精度。这种情况下,您可以

用 2 的幂次方来放大这个数,使这个数可以用 16 个位来

表示。然后,您可以在下一阶段删除这个比例因子。例如,

为了用 16 个位来表示 1.45309806319x10-4,第一步需

要将这个数与 216 相乘。

65536 • 1.45309806319x10-4 = 9.523023

只存储结果的整数部分(9)将导致这个数的实际存

储值为 1.37329101563x10-4(9 / 65536)。需要存储的

数值与实际存储的数值之间差值较大,可能导致出现无

法接受的错误计算结果。您可以按照比例因子 2 来放大

这个数,以获取更精确的结果。结果介于 32768-65535之间,因此仍然可以用一个 16 位的数字来存储。利用此

前存储 1.45309806319x10-4 的实例,将这个数与比例因

子 228 相乘将产生一个可以用 16 个位来存储的数,并使

预期的数值具有更高的精度。

268435456 • 1.45309806319x10-4 = 39006.3041205

假定在接下来的计算过程中您可以解决用比例因子 228进行放大的问题,那么结果的整数部分将给予您

1.45308673382x10-4 的存储结果,并使得计算结果具有

更高精度。例如,将已扩展的数与一个 16 个位格式为 4,12的数相乘,产生了 4,40(28 + 12)形式的结果。但是,

这个结果将以 32 位来存储。

定点规则

在执行加法、减法或除法时,2 个数的小数点必须对齐。

这就是说您只可以将一个表示格式为 x,8 的数与另一个

表示格式也为 x,8 的数相加、相减或相除。对具有不同

格式的 x和 y进行算术运算时,您首先应保证小数点对齐。

为了对齐不同格式的数字,您有两个选择:将带有更多

整数位的数与 2X 相乘,或者将具有最小整数位的数除以

2X。但是,除法会降低结果的精度,还可能导致结果超

出容许公差。由于所有的数都可以利用两种形式来存储,

这样您在 FPGA 中通过移位操作可以很方便地对数进行

放大或缩小,其中左移或右移 1位分别放大或缩小了 1倍,

实现十进制小数点的对齐。为了对两个格式分别为 8,8和 9,7 的两个数相加,如果可以接受最低有效位的丢失,

则您可以利用比例因子 21 来放大格式为 9,7 的数,也

可以将格式为 8,8 的数缩小至格式为 9,7。

例如,您打算将 234.58 和 312.732 这两个数相加 , 而它们分别以 8,8 和 9,7 的格式来存储。第一步,确

定实际相加的 16 位数。

234.58 • 28 = 60052.48

312.732 • 27 = 40029.69

从上可以看出,两个加数分别为 60052 和 40029。但是,在相加之前,您必须对齐小数点。通过放大带有

更多整数位的数来对齐十进制小数点,您必须利用因子

21 来放大 9,7 格式的数。

40029 • 21 = 80058

然后,您通过执行加法来计算结果:

80058 + 60052 = 140110

以 10,8 格式(140110 / 28)表示,则为 547.3046875。

当两个数相乘时,您无需对齐小数点,因为乘法提供

了范围是 X1 + X2,Y1 + Y2 的结果。将格式分别为

14,2 和 10,6 的两个数相乘将得出一个整数位为 24,小数位为 8 的结果。

通过与除数的倒数相乘这种方法,在一个式子中您可

以采用与小数相乘来代替除法。这种途径可以显著降低

设计的复杂性。例如,将 212.732(以 9,7(40029)格式来表示)除以 15,第一步是计算除数的倒数。

1/15= 0.0666'

这个倒数必须被放大,以 16 位数的形式来表示。

65536 • 0.06666 = 4369

将这两个数相乘,得出格式为 9,23 的结果。

4369 • 40029 = 174886701

相除结果为:

Page 38: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

36 赛灵思中国通讯  45 期 2012 年秋季刊

手把手课堂: F P G A 1 0 1

输入值的范围是 0 ~ 10 毫巴,分辨率是 0.1 毫巴。

模块输出要求精确到 +/-0.01 米。因为模块规范没有确定

输入刻度,您可以通过下列等式来计算。

4 = Ceil LOG10 10

LOG102( )因此,为了实现最高的精度,您应将输入数据的格式

设置为 4 个整数位,12 个小数位。开发这个模块的下一

步任务就是利用未扩展值并通过电子数据表计算出整个

输入范围内转换函数的预期结果。如果输入范围过大而

无法获得合理的结果,则计算可接受的点数量。例如 , 您使用 100 个条目来确定整个输入范围的预期结果。

在您计算出最初的非扩展预期值之后,下一步是确定正

确的常数比例因子,利用扩展值来计算预期的输出结果。

为了实现最高的精度,您应利用不同的因子来放大该式

中每个常数。

多项式中第一个常数(A)的比例因子为:

8 = Ceil LOG10 133.29LOG102( )

多项式中第二个常数(B)的比例因子为:

1 = Ceil LOG10 1.7673LOG102( )

因为最后的多项式常数(C)是一个纯小数,所以利

用比例因子 216 来放大它。

= 20.8481193781

1748867018388608

当预期的结果是 20.8488,如果结果的精度不够高,

则您可以利用一个更大的比例因子来放大这个倒数,以

得到更精确的结果。因此,当可以与一个数的倒数相乘时,

永远不要除以这个数。

溢出问题

在实现算法时,结果必须不大于结果寄存器可以存储的

最大值。否则,就会发生溢出。当溢出发生时,存储结

果就会有误,最高几位会丢失。溢出的最简单实例是将 2个 16 位的数相加,每个数的值都是 65535,然后将结果

存储在 16 位寄存器中。

65535 + 65535 = 131070

上述计算将使得这个 16 位结果寄存器中的值为

65534,但这个结果不正确。防止溢出的最简单方式是确

定数学运算允许的最大值,利用这个方程来确定所需结

果寄存器的大小。

所需整数位的数量Integer Bits Required = Ceil LOG10 LOG102( )

如果您正在开发一个平均器,计算 50 个 16 位输入

值的平均值,则可以计算所需结果寄存器的大小。

50 • 65535 = 3276750

仍然利用同一个方程,需要一个 22 位结果寄存器来

防止溢出的发生。您也必须注意,在处理有符号数时,

如果遇到了负数,应该避免发生溢出。仍然利用此前的

平均器实例,计算10个有符号长度为16位的数的平均值,

返回一个 16 位的结果。

10 • -32768 = -327680

因为很方便地将结果与除数倒数的扩展值相乘,您将

这个数与 1/10 • 65536 = 6554 相乘来确定平均值。

-32768 • 6554 = -2147614720

这个数除以 216 等于 -32770, 但 16 位的输出结果无

法正确地表示这个数。因此,模块的设计过程必须考虑

溢出,必须检测溢出,以确保不会输出不正确的结果。

现实世界的实现方式 假设您正在设计一个模块,用于实现一个转换气压的转

移函数,其中气压的单位是毫巴,海拔的单位是米。

-0.0088x2 + 1.7673x + 131.29

输入(毫巴) 输出(米)

0 131.2900

0.1 131.4666

0.2 131.6431

0.3 131.8194

0.4 131.9955

0.5 132.1715

0.6 132.3472

多项式常数 未扩展 扩展

A 133.29 33610

B 1.77 57910

C -0.01 -577

Page 39: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

2012 年秋季刊 赛灵思中国通讯  45 期 37

手把手课堂: F P G A 1 0 1

通过这些比例因子用户可以计算出扩展的电子数据

表,如表 1 所示。每一阶段的计算结果将得出超过 16 位

的结果。

Cx2 的计算得出 32 位、格式为 4,12 + 4,12 = 8,24 的结果。然后与常数 C 相乘,得出了 48 位、格式为 8,24 + 0,16 = 8,40 的结果。对于这个实例所要求的精

度来说,利用 40 位来表示小数有点多。因此,将这个计

算结果除以 232,以得出 16 位、格式为 8,8 的结果。

在计算 Bx 过程中,也将结果减小至 16 位,以得出格式

为 5,11 的结果。

计算结果是 Cx2,Bx 与 A 列中对应数之和。但是,

为了获得正确的结果,您首先必须扩大A和Cx2 ,并按 x,11 格式对齐小数点,或者缩小 Bx 的计算结果并按 8,8格式对齐小数点,最终将小数点与 A 和 Cx2 的计算值的

小数点对齐。

在这个例子中,我们将计算结果缩小 23 倍,按 8,8格式来对齐小数点。这种方法简化了需要移位的数量,

因此减小了实现这个实例所需逻辑单元的数量。注意如

果您通过缩小来对齐小数点的方式而没有实现要求的精

度时,则必须扩大 A 和 Cx2 的计算结果来对齐小数点。

在这个实例中,计算结果扩大了 28。然后,您可以缩小

这个结果,将其与从未扩展值中获取的结果比较。实际

计算结果和预期结果之间的差值表示精度,利用电子数

据表中 MAX() 和 MIN() 命令来获得计算结果的最大误差

和最小误差,而您在电子数据表条目的整个范围内都可

以获取计算结果的这两个误差。

扩展输入 C B A 结果 扩展结果 预期结果 差值

0 0 0 33610 33610 131.289 131.2900 0.0009

409 -6 361 33610 33655 131.465 131.4666 0.0018

819 -24 723 33610 33700 131.641 131.6431 0.0025

1228 -52 1085 33610 33745 131.816 131.8194 0.0030

1638 -93 1447 33610 33790 131.992 131.9955 0.0033

2048 -145 1809 33610 33835 132.168 132.1715 0.0035

2457 -208 2171 33610 33880 132.344 132.3472 0.0035

2867 -283 2533 33610 33925 132.520 132.5228 0.0033

表 1 - 基于定点方式获得的实际结果

当基于电子数据表的计算结果确认了您已经实现了

所要求的精度,则可以编写并仿真 RTL 代码。如果需要,

您可以设计一个测试平台,例如输入值与电子数据表中

的数据相同。这允许您将仿真输出结果与基于电子数据

表的计算结果进行比较,以确保采用了正确的 RTL 实现

方案。

RTL 实现方案 RTL 实例利用有符号并行数学运算在 4 个时钟周期之内

即可计算出结果。因为采用了有符号的并行乘法,所以

应该注意到必须正确地处理由乘法产生的额外符号位。

ENTITY transfer_function IS PORT(

sys_clk : IN std_logic;

reset : IN std_logic;

data : IN std_logic_vector(15 DOWNTO 0);

new_data : IN std_logic;

result : OUT std_logic_vector(15 DOWNTO

0);

new_res : OUT std_logic);

END ENTITY transfer_function;

ARCHITECTURE rtl OF transfer_function IS

-- this module performs the following

transfer function -0.0088x2 + 1.7673x +

131.29

Page 40: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

38 赛灵思中国通讯  45 期 2012 年秋季刊

手把手课堂: F P G A 1 0 1

-- input data is scaled 8,8, while the

output data will be scaled 8,8.

-- this module utilizes signed parallel

mathematics

TYPE control_state IS (idle, multiply,

add, result_op);

CONSTANT c : signed(16 DOWNTO 0) := to_

signed(-577,17);

CONSTANT b : signed(16 DOWNTO 0) := to_

signed(57910,17);

CONSTANT a : signed(16 DOWNTO 0) := to_

signed(33610,17);

SIGNAL current_state : control_state;

SIGNAL buf_data : std_logic; --used to

detect rising edge upon the new_data

SIGNAL squared : signed(33 DOWNTO 0); --

register holds input squared.

SIGNAL cx2 : signed(50 DOWNTO 0);

--register used to hold Cx2

SIGNAL bx : signed(33 DOWNTO 0); --

register used to hold bx

SIGNAL res_int : signed(16 DOWNTO 0);

--register holding the temporary result

BEGIN

fsm : PROCESS(reset, sys_clk)

BEGIN

IF reset = '1' THEN

buf_data <= '0';

squared <= (OTHERS => '0');

cx2 <= (OTHERS => '0');

bx <= (OTHERS => '0');

result <= (OTHERS => '0');

res_int <= (OTHERS => '0');

new_res <= '0';

current_state <= idle;

ELSIF rising_edge(sys_clk) THEN

buf_data <= new_data;

CASE current_state IS

WHEN idle =>

new_res <= '0';

IF (new_data = '1') AND (buf_data

= '0') THEN --detect rising edge

new data

squared <= signed( '0'& data)

* signed('0'& data);

current_state <= multiply;

ELSE

squared <= (OTHERS =>'0');

current_state <= idle;

END IF;

WHEN multiply =>

new_res <= '0';

cx2 <= (squared * c);

bx <= (signed('0'& data)* b);

current_state <= add;

WHEN add =>

new_res <= '0';

res_int <= a + cx2(48 DOWNTO 32)

+

("000"& bx(32 DOWNTO 19));

current_state <= result_op;

WHEN result_op =>

result <= std_logic_vector(res_

int (res_int'high -1 DOWNTO 0));

new_res <= '0';

current_state <= idle;

END CASE;

END IF;

END PROCESS;

END ARCHITECTURE rtl;

FPGA 架构成为了实现数学函数的理想工

具,尽管实现算法需要具有更多的最初想法以及

利用 MATLAB® 或 Excel 等系统级仿真工具来建

模。一旦掌握了FPGA数学运算的一些基本知识,

用户就可以快速地实现数学算法。

Page 41: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

2012 年秋季刊 赛灵思中国通讯  45 期 39

手把手课堂: F P G A 1 0 1手把手课堂:FPGA 101

FPGA 工程师

ADC 和 DAC应用指南

作者:Adam Taylor首席工程师

EADS Astrium 公司

[email protected]

2012 年秋季刊 赛灵思中国通讯  45 期 39

Page 42: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

40 赛灵思中国通讯  45 期 2012 年秋季刊

手把手课堂: F P G A 1 0 1

一旦执行特定任务,FPGA 系

统必须与现实世界相连接,

而所有工程师都知道现实世

界是以模拟信号而非数字信号运转的。

这意味着需要在模拟信号域与数字信号

域之间进行转换。针对手头工作选择恰

当的 FPGA 时,用户面临着林林总总的

选择,在为系统选择正确的 ADC 或

DAC 时也是如此,玲琅满目。

选择时首先要确定转换信号所需的

采样频率。这个参数不仅将影响转换器

的选择,同时也会影响对 FPGA 的选择,

这样才能确保器件能够满足所需的处理

速度及逻辑封装要求。转换器的采样频

率至少为信号采样频率的 2 倍。因此,

如果信号的采样频率为 50MHz,则转换

器采样频率至少应为 100MHz。否则,

已转换的信号将引起自身混叠,导致信

号无法正确表示。但混叠并不总是一件

坏事情;事实上,如果转换器的带宽足

够高,那么用户可以利用混叠将信号混

叠至可用的带宽。

ADC 与 DAC 的关键参数

我们可采用多种不同方法来构建模数转

换器 (ADC)。最常见的方法包括闪存、斜

坡 (Ramp) 以及逐次逼近等。

• 闪存转换器以速度快著称,其使

用一系列可扩展的模拟比较器对

输入电压和参考电压进行比较;

ADC 利用这些比较器的输出来确

定数字代码。

• 斜坡转换器可利用连接至 DAC 且

可自由运行的计数器,对 DAC 输

出 / 输入电压进行比较。当二者相

等时,保持计数不变。

• 逐次逼近转换器 (SAR) 是斜坡转

换器的另一种形式,其可利用

DAC 和比较器来处理模拟输入信

号。但 SAR 转换器并非执行累计

计数,而是通过判断计数的模拟

表示是否高于或低于输入信号,

并采用试错法 (trial-and-error) 来

确定数字代码。

此外,数模转换器 (DAC) 也可以采

用若干种方法来实现,最常见的方法包

括二进制加权、R-2R 梯形网络、脉宽调

制。

• 二进制加权是速度最快的 DAC 架

构之一。这些器件可将各逻辑比

特的不同转换结果进行汇总。例

如,电阻 DAC 将根据电流代码来

导通或切断这些电阻。

• R-2R 梯形转 换器采用阻值为

R-2R 的级联电阻结构。由于可以

轻松生成并匹配高精度电阻,因

而这类 DAC 的精度比二进制加权

转换器更高。

• 脉宽调制 (PWM) 是最简单的

DAC 结构类型,可通过简单的低

通模拟滤波器传递脉宽调制波形。

这些器件通常应用于电机控制领

域,但它们也可作为 Σ-Δ 转换

器的基础。

众多专家级器件 (specialist device)

的制造商已成功开发其自有的内部转换

架构,可根据用途尽可能提供适用于特

定领域的最佳性能。每种器件在转换速

度、精度以及分辨率方面都各具优劣势。

在选择 FPGA 时,您需要考虑 I/O 数量、

所支持的 I/O 标准、时钟管理、逻辑资

源和存储器,以及其它与器件类型相关

的具体参数:最高采样频率、信噪比

(SNR)、无杂散动态范围 (SFDR) 以及

有效位数 (ENOB) 等。

采样频率非常简单,是 ADC 能够

数字化输入信号的最高速率。SNR 表示

信号与噪声电平的比值,与输入信号无

关。用户可以利用以下公式来确定 SNR

的理论值:

SNR = 6.02N + 1.76 dB

其中 N 表示分辨率。该方程适用于满量

程正弦波。

在系统测试过程中,用户可首先对

输出执行快速傅里叶变换 (FFT),然后

测量输入信号与本底噪声的比值,这样

将具有信号处理功能的 FPGA 与现实世界相连接,需要使用模数转换器 (ADC)

或数模转换器 (DAC)

2012 年秋季刊 赛灵思中国通讯  45 期 40

Page 43: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

2012 年秋季刊 赛灵思中国通讯  45 期 41

手把手课堂: F P G A 1 0 1

即可确定实际的 SNR 值。

与此同时,SFDR 表示输入信号与

下一个最高峰值(通常为基谐波)的比值。

通常 SFDR 用 dBc 来表示,会随着输入

信号功率的降低而相应减小。

从转换器的测量结果可以看出,用

户可利用下列式子来计算有效位数:

ENOB = (SNR Ð 1.77 / 6.02)

当进行这项测试时,应注意选择合

适的 FFT 点数,从而确保不会由于一时

疏忽而错误计算本底噪声。FFT 点数不

恰当将导致错误的计算结果。FFT 本底

噪声可通过下列式子计算得出:

FFT本底噪声

= 6.02N + 1.76 dB + 10

LOG10(FFT点数 /2)

用户应通过单音测试(通常为简单

的正弦波)执行这些步骤,可降低输出

频谱的复杂性。为了确保获取最佳结果,

需要确保对输出信号执行相干采样。如

果在数据窗口中包括几个周期,则执行

相干采样。公式如下:

FS / Fin = Ncycles / FFT

频谱

另一方面,用户在实现系统时还必须了

奈奎斯特区域 下限 上限 混叠

第一区 DC 0.5 FS 无

第二区 0.5 FS FS 重叠

第三区 FS 1.5 FS 直接

第四区 1.5 FS 2 FS 重叠

抽头 系数

1 -6.22102953898351E-003

2 9.56204928971727E-003

3 -1.64864415228791E-002

4 3.45071042895427E-002

5 -0.107027889432584

6 1.166276

7 -0.107027889432584

8 3.45071042895427E-002

9 -1.64864415228791E-002

10 9.56204928971727E-003

11 -6.22102953898351E-003

表 1 – 奈奎斯特区域与混叠

表 2 – 适用于 DAC 补偿 FIR 滤波器的

前 11 个系数

解奈奎斯特准则,以确保正确地转换或

量化信号。这意味着用户对所关注信号

执行采样时,采样频率至少为该信号最

高频率的 2倍,才能确保正确进行转换。

如果未按此标准执行采样,则将发生混

叠;而如果没有正确理解混叠,则可能

导致性能欠佳。

此外,因为这个原因,ADC 需要利

用抗混叠滤波器来阻止信号或噪声混叠

至量化的信号中。但是,频谱混叠对于

工程师来说非常有用,在 ADC 具有宽泛

输入带宽的情况下尤为如此。经过周密

安排考虑之后,混叠使用户无需借助下

变频器即可直接转换信号。出于这种考

虑,我们将频谱划分为几个区域。

利用表 1 中给出的信息,如果转换

器拥有足够高的带宽,则可将信号从一

个奈奎斯特频带混叠至另一个频带。

通信选择

正如所有的外部器件一样,ADC 与 DAC

也配套提供了数个并行或串行接口选项。

通常情况下,较高速器件用并行接口,

较低速器件用串行接口。但是,可以根

据您的应用选择采用特殊的接口方式。

例如,采用串行接口比采用并行接口可

以更轻松地检测出固定比特 (stuck-at

bit)。实际上,高速接口可提供多条输出

总线(I 和 Q)或采用双数据速率(DDR)

输出模式;有些器件甚至可能同时提供

这两个选项。提供多条总线或采用 DDR

输出模式使用户能够保持数据速率,同

时降低接口所需的运行频率。例如,如

果接口的采样频率为 600 MHz,则其输

出频率为300MHz(为采样频率的一半)。

如果时钟频率为 75MHz (1/4 采样

频率 ) 并且有两条可通过 DDR 对器件进

行采样的数据总线,则可非常轻松地执

行恢复操作。这类 ADC 对输入时序要求

较为宽松。众多高速转换器均可利用其

I/O 中的 LVDS 信号,因为较低的电压

摆幅和低电流可降低由其它信号标准所

引发的耦合性,如 LVCMOS 等。这种

Page 44: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

42 赛灵思中国通讯  45 期 2012 年秋季刊

手把手课堂: F P G A 1 0 1

耦合问题会影响转换器的混合信号性能。

DAC 滤波

大多数 DAC 一直将模拟输出保持到下一

个采样周期,这将对输出频率域产生良

好的效果。用户将注意到这两个图像均

存在于整个输出频谱中,由于在 0.5FS

时正弦效应将接近 4dB (3.92dB),所有

奈奎斯特区域中的输出信号都出现衰减

(如图 1 所示)。这两大问题均可利用

滤波器来解决。

用户可以像实现 FIR 滤波器一样轻

松实现正弦校正滤波器。开发该滤波器

最简单的方法就是利用下列方程式来绘

制正弦衰减特性。

首先创建校正因子,该因子是所计

算出衰减系数的倒数,然后再执行逆傅

里叶变换,以获取所需要设计滤波器的

系数。通常情况下,用户需要采用几个

抽头才能实现该滤波器。表 2 给出了滤

波器的前 11 个系数,同时图 2 还给出了

针对衰减的补偿。

在系统测试

众多这类系统都将利用转换器实现终端

应用的具体性能特征,如 CDMA 或

GSM 等。为实现该项性能而进行的测试

需要在测试系统(任意波形生成器、逻

辑分析仪、模式生成器、频谱分析仪等)

方面进行大量的投入。但是,FPGA 高

度的可重编程灵活性使用户能将特定的

测试程序插入至器件中,这样既可以捕

获并分析 ADC 的输出也可以提供 DAC

激励,从而减少对更多额外测试设备的

需要。

转换 101

由于 FPGA 通常需要与 ADC 和 DAC 接

口相连,因而对于任何FPGA工程师来说,

基本了解这些器件参数的重要性非常关

键。如果用户计划在设计验证与调试过

程中利用 FPGA 的可重编程灵活性来测

试转换器的性能,这一点尤其有用。

FS

in d

B

DAC

0

-5

-10

-15

-20

-25

-30

-35

-40

-450 0.2 0.4 0.6 0.8 1 1.2

(FS)

DAC DAC

1.8

1.6

1.4

1.2

0

0.8

0.6

0.4

0.2

00 0.1 0.2 0.3 0.4 0.5 0.6

图 1 - 0-1 采样频率间的 DAC 衰减

图 2 - 针对 FS/2 的 DAC 衰减和补偿滤波器

Page 45: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

2012 年秋季刊 赛灵思中国通讯  45 期 43

卓越企业简介

SSD 企业级存储领域的初创公司 Skyera潜力无限

连续创业者兼知名芯片架构师 Radoslav Danilak 的最近创新充分利用了Spartan-6 FPGA 的优势。

卓越企业简介

作者:Mike Santarini赛灵思公司

《Xcell 杂志》发行人

[email protected]

2012 年秋季刊 赛灵思中国通讯  45 期 43

Page 46: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

44 赛灵思中国通讯  45 期 2012 年秋季刊

卓越企业简介

WRadoslav Danilak 及其团

队在创建面向微处理器、

图形处理器和 ASIC 的前

沿设计方面拥有极其丰富的经验,他们

带领的初创公司 Skyera 目前正着力推出

有望激发企业级存储市场领域固态存储

系统细分市场活力的产品。对于 Danilak

来说,创建创新型架构不是什么新鲜事,

只不过在这款设计中,Skyera 固态硬盘

(SSD)存储系统的处理内核不是在

SoC 或独立处理器中,而是在赛灵思

Spartan®-6 FPGA 中实现的。

Radoslav Danilak 及其团队在创建

面向微处理器、图形处理器和 ASIC 的

前沿设计方面拥有极其丰富的经验,他

们带领的初创公司 Skyera 目前正着力推

出有望激发企业级存储市场领域固态存

储系统细分市场活力的产品。对于

Danilak 来说,创建创新型架构不是什么

新鲜事,只不过在这款设计中,Skyera

固态硬盘(SSD)存储系统的处理内核

不是在 SoC 或独立处理器中,而是在赛

灵思 Spartan®-6 FPGA 中实现的。

过去 15 年间,随着基于闪存存储

器的固态存储系统的问世,数据存储领

域经历了令人惊艳的复兴发展。十多年

来,大多数计算密集型系统中最慢的环

节通常是硬盘驱动器的读取和写入速度。

在本世纪初期,存储器厂商开始使用速

度更快、功耗更低的 NAND 闪存存储器

来替代机械磁盘,NAND 产品率先在移

动电话和 Apple 的 iPod 等手持设备中得

到广泛应用。很快,更大容量的配置产

品出现在笔记本电脑中,这主要是为了

降低功耗,同时也开始出现在台式电脑

中,而这主要是为了提高性能。

SSD 系统的价格通常远远高于传统

的机械式硬盘驱动器。不过,过去5年里,

随着 NAND 闪存的容量激增,NAND 每

字节的成本显著降低,这就使得 SSD 将

不可避免地加快取代机械式硬盘驱动器,

即使在企业级存储市场中尤为如此。

Danilak 的团队成立的上一家公司

是 SandForce,该团队为 SandForce 推

出了一款定制存储控制器 SoC,是当今

众多第一代企业级 SSD 系统的核心。而

就其新公司 Skyera 而言,他现在即将推

出一款企业级系统,号称能将性能和容

量均提升 10倍,而其价格则与速度更慢、

容量更低的企业级存储系统相当。

Skyera 将在未来几个月内推出该产品的

首个商用版本,所以在接受采访时,

Danilak 还无法透露全部特性集。不过,

他指出该产品除了容量大、性价比高之

外还有一个关键特性,那就是能够延长

系统中闪存存储器的使用寿命。

NAND 闪存的最大弱点就在于,随

着工艺尺寸不断缩小,NAND 存储器单

元的物理尺寸也将变得更小,而单元里

保持的电荷也在减少。反复编程和擦除

将影响每个单元保持电荷的可靠性。

Danilak 指出,43nm 单层单元(SLC)

NAND 执行 10 万次写入操作后就会出

现不可纠正的错误,而 15nm 多层单元

(MLC)NAND 仅仅执行 1000 次写入

操作就会出现不可纠正的错误。

这种现象通常被称作 NAND“磨

损”。为了解决工艺尺寸缩小过程中出

现的这种磨损加剧问题,SSD 系统厂商

必须开发出比以往更加复杂的 NAND 控

制器,配合多项专有技术来实现耗损均

衡,从而最大限度地发挥系统潜力。

Danilak 指出,各大厂商此前在 ASIC 中

开发控制器,要确保更高的耐用性、可

靠性和性能水平,每一代产品都会比上

一代产品更为复杂。

Skyera 的新产品特别值得关注之处

就在于,为了加速这款革命性创新系统

的上市进程,Skyera 决定在赛灵思

Spartan-6 上实现其独特的控制器功能。

Danilak 指出:“挑战在于,我们不仅要

让性能和可靠性比同类竞争设计方案高

10 倍,还要想办法让 FPGA 设计的尺寸

比 ASIC 小 10 倍。实现容量、性能和成

本的适当平衡对于占据当今 SSD 企业级

市场份额而言至关重要。我们可以使用

ASIC 设计来实现系统控制器 SoC,但

这将要花上我们 18 个月的时间以及数

百万美元的开发成本。如果设计或制造

出了任何问题,我们还要再花上好几

百万美元来找出问题并加以解决。”

“ 我们不仅要让性能和可靠性比同类竞争

设计方案高 10 倍,还要想办法让 FPGA

设计的尺寸比 ASIC 小 10 倍。实现容量、

性能和成本的适当平衡至关重要。”

Page 47: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

2012 年秋季刊 赛灵思中国通讯  45 期 45

出色的工具

带有本地定制 IP 的Virtex-6 FPGA 开发板为八通道演示系统奠定了坚实的基础。

出色的工具

作者:Rodger H. Hosking副总裁及联合创始人Pentek 公司

[email protected]

赛灵思 FPGA可显著提升波束成形系统设计

2012 年秋季刊 赛灵思中国通讯  45 期 45

Page 48: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

46 赛灵思中国通讯  45 期 2012 年秋季刊

出色的工具

波波束形成是一种利用

一系列传感器实现方

向性、提高发送信号

强度以及提升接收信

号质量的信号处理技术。通信、雷达、

对抗措施、武器系统、石油与矿产勘探、

医疗成像及测向等领域均广泛使用了

波束形成技术。

在测向应用中,我们通过控制波束

形成天线来定位信号源的到达角。我们

可以使用两组或两组以上的天线阵列来

三角定位信号源的确切位置,这对于大

量信号情报及反恐怖行动而言是必不可

少的。这项技术的准确度取决于各波束

形成通道之间增益和相位的精确设置。

我们通过采用带有本地定制 IP 的赛灵思

Virtex-6 FPGA 构建的 Pentek 产品来实

现精细调节,从而达到提升系统性能和

准确度的目的。

波束形成原理

我们通常使用一系列传感器或天线实现

的波束形成技术来提升特定方向上的接

收性能(如图 1 所示的手机某方向的接

收性能)。来自信号源的信号根据信号

源与天线之间的距离依次到达每根天线,

这样天线信号之间就会有相对的相位及

振幅偏移。

在波束形成过程中调节每个天线信

号的增益和相位,可补偿信号路径上的

不同延迟。调节方式就是将来自每根天

线的信号与来自某个特定方向的信号同

步。当信号相加时,来自其它方向的非

定向信号就会相互抵消,而来自波束形

成方向的信号则会进行有益的累加,从

而显著提升信噪比。在这种调节方法中,

通过采用电子方式调节每条路径上的增

益和相位,我们有效地将天线转向信号

源的方向。

八通道系统

在这个系统中,我们按线性阵列布置了

8 根天线,如图 2 中的整体方框图所示。

这里的天线频率为 2.5GHz,所以每个天

线信号都需要先进行放大、滤波,然后

通过降频转换为中频(IF),这样模数

转换器才能以合适的采样频率完成信号

的数字化。为保持波束形成的固定相位

关系,所有 8 个通道均必须采用同步采

样。

随后我们在数字下变频器(DDC)

中将从每个模数转换器的信号采样降频

转换为基带的复杂 I+Q 信号,其中也涉

及了针对波束形成“权重”的特定通道

相位及增益调节。最后我们在总和模块

中将所有八个基带信号相加,可生成波

束形成总和信号。CPU 分析该总和信号,

并对相位及增益系数进行调节,从而跟

踪或适应新的目标。

G1 P1

G2 P2

G3 P3

G4 P4

图 1 - 典型的手机波束形成系统

Page 49: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

2012 年秋季刊 赛灵思中国通讯  45 期 47

出色的工具

PENTEK 模型 53661 波束形成板

Pentek 模型 53661 软件无线电板是一种

3U OpenVPX Cobalt 开发板,如图 3 的

简 化 方 框 图 所 示。 它 采 用 了 4 个

200MHz的 16位模数转换器,一个时序、

时 钟 同 步 单 元 以 及 赛 灵 思 Virtex-6

FPGA。

FPGA 能够访问开发板上所有数据

及控制路径,支持诸如数据多路复用、

通道选择、数据打包、门控、触发及存

储器控制等工厂预装功能。Cobalt 架构

将 FPGA 构建成某种适用于数据处理应

用的容器,其中的每种功能均以 IP 模块

形式存在。

我们可以使用 LX240T、LX365T、

SX315T 及 SX475T 等 各 种 不 同 的

FPGA 来实现处理任务的特定要求。

SXT 器件拥有多达 2,016 个 DSP48E

slice,理想适用于发送与接收之间信号

的调制 / 解调制、编码 / 解码、加密 / 解

密及通道化。

FPGA 在工厂预装有 4 个 DDC IP

核,每个核均能够从 4 个模数转换器的

任何一个中接收模数转换采样。每个

DDC 的抽取范围是 2K-64K,能够提供

2.5KHz-80MHz 的下变频基带带宽。每

个 DDC 均具有可编程增益和相移控制功

能,能够跨整个 VPX 背板访问处理器。

在本系统中我们将为每个 DDC 分配一个模

数转换器。

每个 DDC 输出处均有一个用于计算

下变频信号功率的功率计。每款功率计都

配备一个阈值检测器,以便在输出功率超

过上限阈值或低于下限阈值的时候生成系

统中断。这些功能可显著简化增益校准及

信号监测工作,从而解决了系统处理器只

能在软件中才能完成的难题。

此外,53661 FPGA 还包含一个本地

Aurora 总和模块,可将四个 DDC 输出加

在一起,实现波束形成所需的通道组合。

Aurora 是一种面向赛灵思 FPGA 的轻量级

链路层的千兆位串行协议。在这个开发板

A/D

DDC

IF

A/D

DDC

IF

A/D

DDC

IF

A/D

DDC

IF

A/D

DDC

IF

CPU

8

图 2 - 八通道波束形成系统方框图

FPGA 能够访问开发板上所有数据及控制路径,

支持诸如数据多路复用、通道选择、数据打包、

门控、触发及存储器控制等工厂预装功能。

其中的每种功能均以 IP 模块形式存在。

Page 50: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

48 赛灵思中国通讯  45 期 2012 年秋季刊

出色的工具

上,Aurora 接口通过 4 个串行链路(4X)

在一个输入端口上接收传输来的总和,

并在 4X 输出端口上交付包含 4 个板载

通道内容的新的传输总和。每个 4X 链

路运行在 3.125Gbps 的时钟比特率上,

数据传输率可达 1.25GBps。

一个串行时钟速率为 2.5Gbps 运行

的本地 PCIe x4 接口 IP 为面向 DDC 及

波束形成参数编程的控制处理器提供了

一个 1GBps 速率的链路。此外,该

PCIe 链路还为交付 4 个 DDC 输出和波

束形成总和输出提供支持。

可编程千兆位串行交叉开关将两个

4X Aurora 总和链路与 x4 PCIe 链路连

接到 VPX P1 背板连接器上。这种交叉

开关具有高度的灵活性,能够让 53661

运行在各种 OpenVPX 背板拓扑结构及

插槽配置下。在本系统中,我们将

Aurora 链路映射到 OpenVPX 扩展平面

上。同样我们还可将 PCIe 接口映射到

发挥控制平面作用的 OpenVPX 数据平

面上。

八通道 3U OPENVPX 波束形成系统

如图 4 所示为完整的八通道 OpenVPX

波束形成系统。两块模型 53661 开发板

安装在 OpenVPX 背板的插槽 1 和插槽

2,CPU 开发板则安装在插槽 3。8 个适

用于接收 2.5GHz 信号的偶极天线为包

含低噪声放大器、本地振荡器和混频器

等在内的射频调谐器反馈信号。射频调

谐器将 2.5GHz 天线频率信号转变降为

50MHz 的 IF。

200MHz 16 位模数转换器负责数字

化 IF 信号,执行进一步降频转换为基带

的工作,使用的 DDCS 抽取为 128。这

样可提供 I+Q 复杂输出样片,带宽大约

是 1.25MHz。每个通道的相位和增益系

数用于控制阵列的方向性。

VPX 插槽 3 中的 CPU 开发板通过

两个 x4 PCIe 链路,又称 OpenVPX“粗

管”跨越背板发送命令和系数。

我们在 VPX 插槽 1 中的 53661 开

发板的左上部分处理前 4 个信号通道,

然后这 4 个通道的波束形成求和值通过

4X Aurora 求和输出链路跨越背板传输

到插槽 2 中的第二个 53661 开发板的

4X Aurora 求和输入端口。然后将第二

个 53661 开发板的四通道本地总和与第

一块开发板传输来的总和再相加,就可

得到完整的八通道总和。这个总和经由

x4 PCIe 链路发送到插槽 3 的 CPU 卡。

模 型 53661 开 发 板 上 的 3 个

OpenVPX 4x 链路(OpenVPX 粗管)

的分配通过使用前一方框图中的交叉开

关进行简化。这样 53661 就可以搭配各

种不同的背板运行。由于 OpenVPX 不

约束跨背板链路的串行协议的使用,系

统支持的混合协议架构如图所示。

波束形成演示系统

Pentek 的工程师已经建立起一个八通道

波束形成演示系统,配备了一款在

Windows 下 CPU 开发板上运行的控制

面板。自动信号扫描仪可检测来自测试

发射器的最强信号频率。该频率的中心

是射频下变频器的 50MHz IF 频率。一

200-MHz16

200-MHz16 DDC 2

+

200-MHz16 DDC 3

+

200-MHz16 DDC 4

+

PENTEK

53661

VIRTEX-6 FPGA

PCIex4I/F

AURORA

Aurora4X

Aurora4X

x4 PCIe

FP AEP01

FP BEP02

FP - Aurora

FP - Aurora

FPx4 PCIe

FP C

FP DDP01

DDC 1 +

图 3 - 采用赛灵思 Virtex-6 FPGA 的 Pentek Cobalt 53661 OpenVPX 波束形成软件无线电板

Page 51: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

2012 年秋季刊 赛灵思中国通讯  45 期 49

出色的工具

旦发现该频率,8 个 DDC 就会进行相应

的设置,将该信号降为0Hz,以便于求和。

此外,控制面板软件还可实现 8 个通道

所有参数的特定硬件设置,包括增益、

相位和同步延迟等。

另外一部显示器显示阵列的波束形

成模式。通过调整 8 个通道的相移,最

大 限 度 地 提 高 与 阵 列 平 面 垂 直

的 -90°~ +90°整个到达角范围内的灵

敏度,从而形成显示内容。

将理想八元件阵列在信号到达角为

0°(直接来自阵列正前方)时的理论七

波瓣图与实际坐标图进行比较。波瓣图

下方是极坐标图,显示的是指向计算到

达角的单个矢量。这个矢量是通过确定

具有最大响应的波瓣而得到的。

此外还显示了布置在显示器正前

方,作为信号源的现实发送器的实际坐

标图。在这种情况下,理想的波瓣图受

到物理对象、反射、线缆长度变化和天

200-MHz16

200-MHz16 DDC 2

+

200-MHz16 DDC 3

+

200-MHz16 DDC 4

+

VIRTEX-6

FPGA

PCIex4I/F

AURORA

4X

4X

x4 PCIe

EP01

EP02

FP C

DP01

DDC 1 +

200-MHz16

200-MHz16 DDC 2

+

200-MHz16 DDC 3

+

200-MHz16 DDC 4

+

VIRTEX-6

FPGA

VPX

4X Aurora

x4 PCIe

x4 PCIe

PCIex4I/F

AURORA

4X

4X

x4 PCIe

EP01

EP02

FP C

DP01

DDC 1 +

DP02

DP01

OpenVPXCPU

FP A

FP B

线细微差别的影响。不管怎样,定向信

息的计算比较理想。随着信号源在阵列

前的左右移动,峰值波瓣也随之移动,

从而改变计算出的到达角。

该演示系统现已通过 Pentek 在线

提供。如果读者希望观看现场演示,敬

请 访 问 http://pentek.com/go/xcellbf。

图 4 - 利用两个 Pentek Cobalt 53661 波束形成板的八通道 OpenVPX 演示波束形成系统

Page 52: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

50 赛灵思中国通讯  45 期 2012 年第三季度

VIVADO 设计套件是什么?

VIVADO 设计套件旨在提高设计人员

生产力。该全新工具套件配合赛灵思 28nm

系列 All Programmable 器件,可提高设计、

集成和实现的整体生产力。赛灵思器件采

用了 28nm 制造工艺以及包括堆叠硅片互

联(SSI)、传输速度高达 28 Gbps 的高速

I/O 接口、固化的微处理器与外设和灵活混

合信号(AMS)等在内的等多种新技术,

实现了更大的产品规模。由于器件规模更

大更复杂,开发人员面临着多重设计挑战,

可能会阻碍产品上市进程和生产力的提高。

Vivado 设计套件能完全取代现有赛灵

思 ISE 设计套件工具,比如可取代 Project

Nav iga to r、XST、 实 现、CORE

Generator ™、时序约束编辑器(Timing

Constraints Editor)、ISim、ChipScope ™、

赛灵思功耗分析器(XPA)、FPGA Editor、

PlanAhead ™和 SmartXplorer 等在内所有

ISE 设计套件工具。所有这些工具现在都直接

集成在 Vivado 集成设计环境(IDE)中,充

分发挥了共享可扩展数据模型的作用。

借助 Vivado 设计套件,开发人员通

过布局布线技术分析和优化时序、拥堵、

总线长、利用率和功耗等多种同步设计参

数,从而加速设计创建以及高层次综合和

实现。整个设计流程基于 Vivado 共享的可

扩展数据模型,在存储器中执行时无需写

入或转换任何中间文件格式,从而加快了

赛灵思工具和 IP 更新Vivado ™设计套件 2012.2 现已向目前所有质保期内的赛灵

思 ISE® 设计套件用户免费提供。Vivado 设计套件提供了高

度集成的设计环境和全新一代系统到 IC 工具,其中包括高

层次综合、分析布局布线以及高级时序引擎等。这些工具能

够帮助开发人员提高设计集成度以及实现速度。

号外,号外

50 赛灵思中国通讯  45 期 2012 年第三季度

Page 53: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA

2012 年第三季度 赛灵思中国通讯  45 期 51

运行时间、调试和实现速度,并降低了

对存储器的要求。Vivado 为用户提供了

直接的参数,使其在设计早期阶段就能

够对设计和工具设置进行修改,这样就

会减少对整体工作进度的影响。该功能

可减少设计迭代并提高生产力。

用户既可采用 Vivado IDE 的 Flow

Navigator 功能,通过按钮来控制整个

设计进程,也可用 Tcl 脚本进行手动控

制。

我该继续使用 ISE 设计套件还是转而采

用 VIVADO 设计套件?

ISE 设计套件是一款业经验证的解

决方案,能满足所有各代赛灵思 All

Programmable 器件的需求。赛灵思

ISE 设计套件继续为广大开发人员提供

创新,并将熟悉的设计流程扩展用于 7

系列和赛灵思 Zynq ™ -7000 可扩展处理

平台(EPP)项目。

Vivado 设计套件 2012.2 是赛灵思

的 新 一 代 设 计 环 境, 可 支 持 包 括

Virtex®-7、Kintex ™ -7 和 Artix ™ -7

FPGA 在内的 7 系列器件。该套件还提

供了增强型工具性能,尤其适合大型或

拥堵设计的需求。

赛灵思建议那些准备采用 Kintex

K410 或更大型器件开始“新”设计的

客户先联系一下本地的现场应用工程

师,看看 Vivado 是否适合自己的设计

需求。赛灵思不建议正在进行中的 ISE

设计套件项目转用 Vivado,因为二者环

境的设计约束和脚本并不兼容。

如需了解更多信息,敬请查阅 ISE

14.2 和 Vivado 2012.2 版本说明。

VIVADO 的许可证条款有什么规定?

2012 年内免费提供 Vivado 设计套

件。您可从赛灵思下载中心一次性下载

ISE 设计套件 14.2 和 Vivado 2012.2。

自 Vivado 2012.2 推出以后,目前所有

质保期内的 ISE 设计套件用户均可免费

获得 Vivado 设计套件的副本。

对 2012 年 2 月 2 日后已获得 ISE

设计套件 13 或 14 版本许可证的客户而

言,您当前的许可证也适用于 Vivado。

2 月 2 日之前已获得许可证但仍在质保

期内的用户需要更新许可证方能使用

Vivado。如需了解许可证生成,敬请访

问:www.xilinx.com/cn/getlicense。

是否提供 VIVADO 设计套件培训?

Vivado 是全新的套件,充分发挥

功能强大的互动型 Tcl 脚本、Synopsys

设计约束、SystemVerilog 等业界标准

的优势。为了简化您的学习,赛灵思推

出了10款有教师指导的全新培训课程,

包括如何使用 Vivado 工具等。同时欢

迎观看 Vivado 速成视频:www.xilinx.

com/cn/design-tools。

VIVADO 设计套件是否有不同的版本?

Vivado 设计套件提供设计版本或

系统版本(见表 1)。目前所有质保期

内的 ISE 设计套件逻辑版本和嵌入式版

本用户均可获得全新的 Vivado 设计版

本,而 ISE 设计套件 DSP 版本和系统

版本用户则可获得全新的 Vivado 系统

版本。Vivado 尚未面向 WebPACK ™

用户提供。Vivado WebPACK 计划将于

今年晚些时候推出。

如 需 了 解 面 向 新 一 代 All

Programmable 器件的赛灵思设计工具

的更多信息,敬请访问:www.xilinx.

com/cn/design-tools。

WebPack

IP

IP

SDK

Vivado

Vivado

Vivado I/O

Vivado

System Generator for DSP

VIVADO DESIGN SUITE

表 1 - Vivado 设计套件的各版本,预计今年晚些时候将推出 Vivado WebPACK。

2012 年第三季度 赛灵思中国通讯  45 期 51

Page 54: 赛灵思中国通讯第45期-赛灵思推出全球首款异构3D FPGA