Upload
kele
View
137
Download
7
Embed Size (px)
DESCRIPTION
Микропроцессоры серии МЦСТ- R. Сергей Черепанов Ведущий специалист ЗАО «МЦСТ» http://www.mcst.ru. RISC архитектура 3 ревизии V7, V8: 32 -х битная V9 : 64-х битная Чипы делают SUN Fujitsu Gaisler Research ЗАО «МЦСТ». Архитектура SPARC. Микропроцессоры MCST - R 1. - PowerPoint PPT Presentation
Citation preview
1
Сергей Черепанов
Ведущий специалист
ЗАО «МЦСТ»
http://www.mcst.ru
Микропроцессоры серии МЦСТ-R
2
Архитектура SPARC
• RISC архитектура• 3 ревизии
– V7, V8: 32-х битная
– V9: 64-х битная
• Чипы делают– SUN
– Fujitsu
– Gaisler Research
– ЗАО «МЦСТ»
3
• Универсальные микропроцессоры для целочисленных и плавающих вычислений
• Лицензионная и патентная чистота• Полная аппаратная совместимость с архитектурой SPARC
V8– RISC-архитектура– 3-адресная команда– форматы данных
• целочисленные 32 разряда• вещественные 32/64/128 разрядов
– многооконный регистровый файл
• Возможность использования большого массива стороннего программного обеспечения
Микропроцессоры MCST-R 1
4
Технология 0.5мкм, 3М 0.35мкм, 4М 0.13мкм, 8М
Размер кристалла, мм х мм 13х13 10х10 5х5
Количество транзисторов, млн. ~2.1 ~2.8 ~4.2
Частота, МГц 80 150 500
Cache, I/D/L2(external) 4kB/8kB/512kB 8kB/16kB/1MB 16kB/32kB/4MB
Производительность, MIPS/MFLOPS 62/22 140/63 520/200
Напряжение питания, В 5 3.3 1.0/2.5
Потребляемая мощность, Вт 3 5 1
Корпус 304-pin PQFP 480-pin BGA 376-pin BGA
Год выпуска 1998 2001 2004
Фабрика-производитель ATMEL ES2, France Tower Semi, Israel TSMC, Taiwan
Микропроцессоры MCST-R 2
5
Микропроцессоры MCST-R 3
• 4 поколения микропроцессоров архитектуры SPARC V8
• Процессы: 0.5–0.13um
• Частоты: 80–500 MHz
• Последний микропроцессор с архитектурой V8: MCST R500S– Двухъядерная система на кристалле
– Пятистадийный конвейер (классический RISC)
– Технология изготовления: TSMC 0.13um LVLK
– Частота: 500 MHz
• Задачи при разработке микропроцессора следующего поколения– Миграция на архитектуру V9
– Суперскалярная микроархитектура
– Частота 1 GHz
– Поддержка ccNUMA
6
MCST-4R: система на кристалле
• 4 процессорных ядра на чипе
• 2 Mb общей кэш-памяти L2
• Интегрированный контроллер памяти DDR2
• Объединение до 4-х чипов в ccNUMA систему без дополнительной логики
• Южный мост – отдельный чип (также разработан в МЦСТ)
• Доступ в южный мост по LVDS линку
CORE0
L2
CORE1 CORE2 CORE3
Switch6x6
DD
R2
SD
RA
M
CoherencyController
MemoryController
IO LinkController
HostBridge
IO Link
SystemLink
Controller 0
IS Link 0
SystemLink
Controller 2
IS Link 2
SystemLink
Controller 1
IS Link 1
Функциональная схема MCST-4R
7
MCST-4R: SPARC ядро
• Набор инструкций SPARC V9• SIMD расширения VIS• Операция сложения с умножением• 7-тактный целочисленный
конвейер• Суперскалярное выполнение
инструкций• Статическое планирование• Операции IU0:
– Сложение/сдвиг/логические– Генератор адреса обращения в
память
• Операции IU1– Сложение/сдвиг/логические– Умножение– Деление
Вычислительное ядро MCST-R
L2CIADD
mx
ADD DIV IU1IU0MUL
IC
CU RFFRF
DC MMU
mx
L2 c
ache
8
MCST-4R: конвейер ядра 1
• Суперскалярный конвейер: 2 инструкции за такт• Возможные сочетания команд
– integer+integer– integer+memory– integer+floating point– integer+control transfer
• Целочисленный конвейер– Сложение/сдвиг/логические 1 такт– Доступ в кэш L1 3 такта– Умножение 6 тактов
• Конвейер операций с плавающей точкой– Сложение 4 такта– Умножение 5 тактов– Сравнение 2 такта– Сложение с умножением 9 тактов– Деление 11/18 тактов
9
MCST-4R: конвейер ядра 2
RF
iTLB
BP
iTAGIQ
iDATA
RF
FRF FRF
fetch0 fetch1 decode
+
dTLB
LSQ
execute cache0 cache1
dDATA
dTAG
X0 X1 X2 X3 X4
DF1F0 E C0 C1 Wwrite-back
W
10
MCST-4R: подсистема памяти
• 64-х разрядный виртуальный адрес, 40 разрядный физический адрес
• Все кэш-памяти первого уровня поддерживают доступ со стороны процессора И снупинг каждый такт
• L2 кэш поддреживает доступ со стороны процессора ИЛИ снупинг каждый такт
• Протокол когерентности кэш-памятей MOESI в L1 данных и L2
• Шина данных между ядром и L2 шириной 256 бит
• TLB программно наполняемы
• L1 кэш данных с отложенной записью снижает требования к L2 по полосе пропускания
11
MCST-4R: кэш-памяти и TLB
Cache L1I L1D L2
Size 16K 32K 2M
Block size 64 64 64
Protection Parity Parity ECC
Policy - WB WB
Associativity 2 4 32
• Характеристики кэш-памятей:
• Для достижения необходимой частоты сделаны двухуровневые TLB
• TLB первого уровня:
– Однотактный доступ
– 8 строк
– Полностью ассоциативный
• TLB второго уровня:
– Двухтактный доступ
– Разделен на полностью ассоциативную часть и частично ассоциативную часть
12
MCST-4R: протокол ccNUMA
МЦСТ-4R
DDR2 SDRAM
МЦСТ-4R
DDR2 SDRAM
МЦСТ-4R
DDR2 SDRAM
МЦСТ-4R
DDR2 SDRAM
SOUTHBRIDGE
SPI
SPD
BootPROM
PCI
PCI-Express
USB
SATA
Ethernet
• В МЦСТ разработан ccNUMA протокол
• 3-х хоповый, на основе широковещательных сообщений
• Контроллер когерентности обнаруживает и разрешает конфликты
• Системные линки имеют ширину 16 бит, пропускная способность 1GT
• Линк ввода-вывода может быть использован для создания кластера в режиме RDMA
Система на основе MCST-4R
13
MCST-4R: Физический дизайн 1
• Маршрут проектирования: Standard cell’ы, тулы Synopsys• Заказной маршрут: целочисленный регистровый файл
– 5 портов чтения (4 целочисленных операнда и 1 слово данных на запись)
– 3 портов записи (2 целочисленных результата и 1 результат из памяти)
• Целевая частота 1 GHz– Разбалансировка дерева распространения синзросигнала– RTL оптимизируется для достижения частоты– Перемещение логики между ступенями конвейера (например
предварительно декодированный код в кэш-памяти инструкций)
• Рассеиваемая мощность– Автоматическое отключение синхросигнала на неработающей логике– Ручное отключение синхросигнала на неработающей логике (например
в FPU)– Использование транзисторов с низким/средним/высоким порогом
14
MCST-4R: Физический дизайн 2
• Синтез частоты для различных доменов синхронизации– Deterministic fractional ratio clocking for DDR2
– Other domains have integer clock ratio
• На приемнике LVDS линка нужен DLL– DLL построен на standard cell’ах, охарактеризован в SPICE
• Площадь ядра: 7.6 mm²• Площадь кристалла: ~115 mm²
15
MCST-4R: отладка
• Широко используется автономное тестирование
• Симулятор системы позволяет отладить софт до появления аппаратуры
• Случайные и направленные тесты
• Самопроверка в RTL• FPGA прототип
DUT1(ic)
DUT2(tu)
bp_model
iq_model
mu_model codearray
tracer
testbench
Автономное тестирование кэш-памяти инструкций и устройства прерываний
16
MCST-4R: FPGA прототип• FPGA прототип построен на основеALTERA Stratix2
• 10 FPGA чипов:– 4 чипа: ядра MCST-R (один чип на ядро)
– 4 чипа: L2 кэш
– 1 чип: интегрированный северный мост
– 1 чип: южный мост
• Основные ограничения:– Контакты корпуса
– Емкость статических памятей (при макетировании L2)
• Частота: 50 MHz
• На прототипе успешно загружен Linux
• Макетирование на FPGA позволяет отладку по шагам: Linux заработал до окончания проектирования L2 и FPU
17
MCST-4R: отладка кристалла
• Порт JTAG
– Программные точки останова
– Трассировка программы
– Полный доступ ко всем регистрам
– Выполнение теневой инструкции
• Встроенный логический анализатор
– Сбор сигналов
– Сбор трассы (одно или много ядер)
• Конфигурируемое оборудование
– Возможно отключить агрессивные оптимизации
MCST-4R JTAG консоль
18
MCST-4R: компилятор и ОС
• Разработан компилятор С/С++– Общий фронт-енд, бэк-енд и промежуточное представление
с VLIW проектом
– Использует технологии статического планирования, разработанные для VLIW
– Автоматическая векторизация при помощи VIS
– Автоматическое распараллеливание циклов на многоядерных системах
– Код лучше, чем из-под GCC
• Linux-SPARC64 работает на MCST-4R с небольшими изменениями
19
Заключение
• 1 GHz на техпроцессе TSMC 90nm с standard cell маршрутом проектирования
• Тестовые образцы ожидаются к концу 2010 г.
Спасибо за внимание
20
Авторы
• Сергей Черепанов, ЗАО «МЦСТ»• Владимир Волин, ЗАО «МЦСТ»