Processoren worden modulair

Werd 2018 in de processorwereld vooral gekenmerkt door evolutionaire ontwikkelingen en schadebeperking, in 2019 wil men weer grote sprongen maken. AMD komt met Zen 2 en 64 processorkernen, Intel eindelijk met een nieuwe processorarchitectuur. De trend hier gaat in de richting van modulaire processoren.

Zowel Intel als AMD brachten in 2018 processoren op de markt die voornamelijk gebaseerd waren op bestaande processorarchitecturen met meer kernen en verbeteringen in detail. Bovendien waren ontwikkelaars bezig maatregelen te nemen tegen mogelijke aanvallen die mogelijk werden door de speculatieve uitvoering van instructies. Vrijwel alle moderne processoren waren vatbaar voor de verschillende Spectre-gaten, Intel kreeg ook te maken met de Meltdown-aanval. Hoewel dit nog niet helemaal voorbij is, zullen komende processoren waarschijnlijk worden uitgerust met hardware-aanpassingen om zich tegen deze aanvallen te beschermen, die dan niet zoveel prestatie kosten als de huidige software- en firmware-fixes. Het jaar 2019 daarentegen zal de computerwereld naar verwachting eindelijk grote sprongen voorwaarts brengen op het gebied van processorarchitectuur en fabricage. Vooral Intel heeft nog heel wat in te halen. Maar AMD heeft ook veel in petto.

AMD’s wegen leiden naar Rome

Na een lange periode van droogte heeft AMD met Zen een inhaalslag kunnen maken op zijn grote concurrent. Met de verschillende Ryzen-modellen heeft het bedrijf weer concurrerende processoren voor pc’s en notebooks op voorraad. Met de Epyc CPU’s is de terugkeer naar het datacenter en de cloud providers geslaagd. Tijdens het Next Horizon-evenement gaf de fabrikant een inkijkje in zijn plannen voor 2019 en daarna.

De Epyc-serverprocessor van de volgende generatie krijgt de codenaam “Rome” en wordt in 2019 gelanceerd. Hij is gebaseerd op de Zen 2-microarchitectuur en verdubbelt het aantal processorkernen in vergelijking met de huidige Epyc van 32 tot 64 en het aantal threads tot 128. De nieuwe processor bestaat opnieuw uit verschillende dies op een gemeenschappelijk processorpakket. AMD kiest met Rome echter voor een andere aanpak dan voorheen: de 64-core processor bestaat uit acht CPU-modules, die AMD “chiplets” noemt, en een centrale I/O-module met acht geheugenkanalen. Dit ontwerp moet er onder meer voor zorgen dat de latentie van geheugentoegangen voor alle kernen gelijk is. De verbinding tussen de chiplets en de I/O-die wordt verzorgd door AMD’s Infinity Fabric, een verdere ontwikkeling van HyperTransport.

De chips worden vervaardigd door TSMC in een 7nm-procedé. Een 14-nanometer proces wordt gebruikt voor de I/O-die. Global Foundries schijnt hier de fabrikant te zijn. Naast het grootste aantal cores in een x86 CPU, zal Rome ook de eerste serverprocessor zijn die PCI-Express 4.0 ondersteunt. PCIe 4.0 wordt verondersteld de snelheid van PCIe 3.0 te verdubbelen. Volgens AMD biedt de processor een totaal van 128 lanes, die waarschijnlijk verdeeld zijn over de acht chiplets. De fabrikant heeft nog geen details gegeven. In een configuratie met twee processoren worden elk 64 lanes gebruikt om de CPU’s via de Infinity Fabric te verbinden. Volgens Mark Papermaster, CTO en Senior Vice President van Technology and Engineering bij AMD, zullen de individuele cores ook een verbeterde executiepijplijn hebben. Er zijn ook verbeteringen in de sprongvoorspelling, instructie-prefetching en een vergrote micro-op cache. Vergeleken met de huidige Epyc belooft Papermaster ook een verviervoudiging van de floating-point prestaties, aangezien de Zen 2 microarchitectuur de load-store unit en de FPU’s executie-eenheden opvoert van 128 naar 256 bits. Bovendien moeten de wijzigingen in de hardware de Zen-2 processoren immuun maken voor Spectre-aanvallen, zelfs zonder microcode-updates.

Het opsplitsen van de processor in afzonderlijke CPU-chiplets en een I/O-apparaat geeft AMD meer flexibiliteit en lagere productiekosten. Alleen de relatief kleine CPU-dies worden vervaardigd in het dure 7nm-procedé, de minder prestatie-kritieke I/O-dies in een beproefd en goedkoop 14nm-procedé. CPU’s met minder kernen, bijvoorbeeld voor desktop-pc’s, kunnen gemakkelijk worden samengesteld uit een kleiner aantal chiplets en een kleinere I/O-matrijs. Dit zal het geval zijn met de derde generatie Ryzen desktop processoren. Tijdens de CES in Las Vegas gaf AMD CEO Lisa Su een eerste voorproefje van de socket AM4 processor, die wordt ontwikkeld onder de codenaam “Matisse” en medio dit jaar officieel zal worden onthuld. Het moet de eerste desktop CPU worden met PCI Express 4.0 ondersteuning. Op de beurs leverde een preproductieprocessor met acht kernen en een niet nader genoemde kloksnelheid vergelijkbare prestaties als Intels achtkernige Core i7-9900K in de Cinebench 15 ray-tracing benchmark, maar met een 30 procent lager stroomverbruik. Dit wijst erop dat de verbeteringen in de microarchitectuur het gewenste resultaat opleveren en dat het 7-nanometerproces bij TSMC ook goed werkt.

Picasso voor notebooks

De op CES gepresenteerde tweede generatie Ryzen-processors voor notebooks, met de codenaam “Picasso”, is daarentegen nog niet modulair, maar een tot in detail verbeterde die-shrink van de vorige mobiele Ryzen 2000-processors van 14 naar 12 nanometer. De nieuwe Ryzen 3000 processoren met twee of vier Zen+ kernen en geïntegreerde Radeon Vega grafische eenheid zullen nog steeds worden aangeboden als een U-variant met 15 watt TDP en nieuw als een krachtigere Ryzen 5 of Ryzen 7 H versie met 35 watt TDP. Hij wordt gebruikt in combinatie met een speciale grafische kaart, bijvoorbeeld in gaming-notebooks. Het instapmodel van de Picasso-familie is de Athlon 300U, in principe een Ryzen 3 3200U met verlaagde klokfrequentie. De AMD A6-9220C en AMD A4-9120C processoren die onlangs zijn geïntroduceerd voor Chromebooks zijn nog steeds APU’s met 28nm graafmodules uit het tijdperk vóór Zen cores, zij het met zes watt TDP. De eerste Chromebooks met AMD-processoren zijn de Acer Chromebook 315 en de HP Chromebook 14

Radeon Instinct voor het Datacenter

De Vega GPU’s op de AMD Radeon Instinct MI60 en MI50 datacenter-versnellingskaarten worden gefabriceerd in een 7nm-proces bij TSMC, net als de Zen 2-kernen. Hiermee wil AMD de achterstand op Nvidia inhalen op het gebied van versnellingskaarten voor HPC en AI, die het bedrijf heeft veroverd met Tesla. De AMD-kaarten ondersteunen huidige deep learning-frameworks zoals TensorFlow en PyTorch. Het open HPC-softwareplatform ROCm wordt geleverd in een verbeterde versie die bij de kaarten past. Met hun PCIe 4.0 interface zouden de Radeon Instinct kaarten ook optimaal moeten werken met de nieuwe Epyc processoren. De kaarten zijn gebaseerd op de Vega-architectuur en zijn uitgerust met HBM2 als geheugen. De MI60 wordt geleverd met 32 GB ECC-geheugen, de MI60 met 16 GB. Volgens AMD zijn de Radeon Instinct-kaarten ook de enige GPU’s met hardwarevirtualisatie.

Intel: Sun and Ice

Ondanks dat Intel door veel waarnemers wordt gezien als een bedrijf dat op zijn retour is: Het bedrijf verdient nog steeds uitstekend. AMD speelt slechts een kleine rol in processoren voor notebooks en convertibles, en Epyc komt ook maar langzaam op gang in de servermarkt. Niettemin heeft Intel een probleem. Het bedrijf is er te veel aan gewend geraakt om de markt voor x86-processoren in zijn zak te hebben en heeft zijn interesse verlegd naar nieuwe bedrijfsgebieden zoals wearables of drones. Tegelijkertijd nam de fabrikant afscheid van het tick-tock model en bleef hij nieuwe varianten van zijn 14-nanometer processoren leveren met meer cores en verder slechts geleidelijke verbeteringen.

Ten slotte presenteerde Intel op CES een serie Core processoren met een gedeactiveerde GPU, die op de markt komen als respectievelijk F- en KF-modellen en vooral bedoeld zijn om de gamersgemeenschap aan te spreken, voor wie een geïntegreerde grafische eenheid sowieso overbodig is. De GPU-loze processoren bieden echter geen hogere klokfrequentie, en alleen de Core i3-9350KF is echt nieuw als de eerste Core i3 met Turbo Boost. Intel is er nog niet in geslaagd een stabiele productie van 10 nm-processoren op te zetten. Waarschijnlijk zijn slechts een paar Cannon Lake CPU’s zoals de Core i3-8121U geproduceerd en is het project waarschijnlijk begraven. Dit betekent dat 10-nanometer massaproductie alleen zal komen met “Ice Lake”, de Core U- en CoreY-mobiele processoren op basis van de nieuwe Sunny Cove-microarchitectuur die gepland zijn voor eind 2019. Verwacht wordt dat het 10-nm-proces Intel in staat zal stellen vergelijkbare structuurbreedtes te bereiken als het 7-nm-proces van TSMC. Later volgen desktop- en, in 2020, Xeon-processoren uit de Ice Lake-familie.

In het geval van de Xeon-processoren worden dit jaar twee 14-nanometer tussenstappen gezet, eerst met Cascade Lake en later met Cooper Lake. Daarin wil Intel functies integreren die specifiek bedoeld zijn voor de versnelling van AI-workloads, samengevat onder de naam “DL Boost”. Cascade Lake wordt geleverd met maximaal 48 kernen en 12 geheugenkanalen. Het zal ook Intel Optane DC Persistent Memory ondersteunen, wat Optane-geheugen is in de vorm van DDR4 pin-compatibele DIMM’s. Onder de naam “Snow Ridge” werkt de fabrikant aan een 10-nanometer SoC bedoeld voor 5G-basisstations en edge computing

Intel gebruikt het 10-nanometerproces in CPU’s met Sunny Cove-architectuur om meer transistors op de chip te kunnen plaatsen. Sunny Cove brengt een 50 procent grotere Level 1 data cache, een vergrote Leve 2 cache en een micro-op cache die is ontworpen om meer dan de vorige 2.048 entries te bevatten. Bovendien zijn er tien uitvoeringspoorten in plaats van de vorige acht, om meer instructies per klok te kunnen verwerken. Op de architectuurdagen in december hield de chipfabrikant ook architectuurverbeteringen voor Sunny Cove in het vooruitzicht. Naast DL Boost voor AI, noemt Intel ook cryptografie functies. De geheugencontroller ondersteunt het snellere LPDDR4X-geheugen. De grafische eenheid die in de Ice Lake-processor is geïntegreerd, moet aanzienlijk sneller worden in vergelijking met de huidige Kaby Lake- en Coffee Lake-processoren. Met 64 in plaats van de vroegere 24 uitvoeringseenheden moet het een rekencapaciteit van meer dan één teraflop leveren. Daarnaast zijn er mogelijkheden zoals Tile Based Rendering – Intel is hier een laatkomer – of ondersteuning voor Adaptive Sync en HDR. Op het niveau van de chipset staat de integratie van Tunderbolt 3 en 802.11ax op de agenda voor Ice Lake.

Met Foveros de derde dimensie in

Intel heeft met de Embedded Multi-Die Interconnect Bridge (EMIB) al de eerste stappen gezet in de richting van modulaire processoren uit meerdere chiplets. Het wordt gebruikt voor de integratie van FPGA’s op een x86-processor of de koppeling van Intel Core-processor en AMD Radeon GPU in de Kaby Lake G-processoren. Het “Foveros”-project neemt nu de stap naar de derde dimensie door chiplets te stapelen. In dit proces moeten verschillende soorten chiplets met verschillende fabricageprocédés worden gecombineerd voor verschillende taken van de processor. Voorbeelden zijn krachtige CPU’s, AI-processoren, zeer zuinige CPU’s, FPGA’s, geheugens, sensoren of radionetwerkchiplets.

De eerste hardware op basis van Foveros werd door Intel op CES getoond met het “Lakefield”-clientplatform met een hybride processor. Het combineert een 10 nm Sunny Cove-chiplet, een quad-core atoom van de aanstaande Tremont-generatie en het hoofdgeheugen in een 3D-pakket. Dit stelt ontwikkelaars in staat een zeer klein moederbord te bouwen dat voldoende ruimte overlaat voor de batterij, zelfs in compacte 2-in-1 mobiele computers.

Met Lakefield haakt Intel in op het big.LITTLE-concept dat gebruikelijk is bij ARM-processors, waarbij langzame maar zeer zuinige cores voor routinetaken worden gecombineerd met verbonden stand-by cores en snelle cores voor veeleisendere toepassingen. Een LTE- of later ook 5G-model zal waarschijnlijk ook deel uitmaken van de uitrusting van mobiele computers met de nieuwe hybride processor. Met dit concept reageert Intel op de Always Connected PC’s met ARM CPU’s die gezamenlijk door Qualcomm en Microsoft worden gelanceerd.

Qualcomm en Windows on ARM

Omdat de smartphonemarkt niet meer sterk groeit, de ARM-tabletmarkt zelfs terugloopt en de concurrentie van Chinese ARM-fabrikanten steeds sterker wordt, zet de Amerikaanse chipfabrikant zijn ARM SoC’s nu in voor Windows 2-in-1 notebooks. Zij worden verondersteld een extreem lange aangesloten standby-tijd te bieden en gaan ook langer mee wanneer zij niet in het stopcontact zitten dan vergelijkbare toestellen met x86-processoren. Bovendien is er al een LTE-modem geïntegreerd in de Snapdragon SoC’s. Microsoft ondersteunt Qualcomm met zijn eigen Windows 10-versie voor ARM-processoren. Het besturingssysteem en de universele apps draaien op de ARM-processor. Een x86-emulatielaag is verantwoordelijk voor conventionele Windows-programma’s, maar alleen 32-bit programma’s draaien erop. De eerste toestellen met Snapdragon 835 waren niet overtuigend omdat de prestaties van de emulatie veel te wensen overlaten. De prestaties van apparaten met de krachtigere Snapdragon 850 zijn iets beter, maar nog steeds niet optimaal.

De Snapdragon 8cx wordt verondersteld een aanzienlijke toename in prestaties te leveren met een niettemin laag stroomverbruik. Het wordt de eerste 7nm-notebookprocessor en is niet bedoeld om de Snapdragon 850 te vervangen, maar om deze aan te vullen als topmodel. Op de SoC zit een Kryo 495 CPU met acht 64-bit kernen en een big.LITTLE constructie. Het heeft grotere caches dan de Kryo-385 met de Snapdagon 850. De Adreno-680 GPU wordt verondersteld twee keer zoveel prestaties te leveren als de grafische eenheid in de Snapdragon 850. Bovendien wordt verondersteld dat de Snapdragon 8cx tot 16 GR RAM en NVMe SSD’s ondersteunt. De geïntegreerde LTE-modem wordt verondersteld datasnelheden van twee Gbps te leveren, een latere uitbreiding naar 5G zou mogelijk moeten zijn met een extra modem.