Gigantiska chip utmanar superdatorer

Superdatorer fortsätter att växa i storlek, men företaget Cerebras i Sunnyvale, Kalifornien har tagit en annorlunda approach. Istället för att koppla samman fler och fler GPU:er har de pressat in så många processorer som möjligt på ett enda massivt vafferchip. Den främsta fördelen är sammankopplingarna - genom att kablarna processorer ihop på samma chip undviker Cerebras många av de prestandaförluster som uppstår när många GPU:er kommunicerar med varandra, samt förluster från att ladda data till och från minnet.

Nu har Cerebras visat fördelarna med sina vafferchipslösningar genom två separata men besläktade resultat. Först visade företaget att deras andra generations vaffermotor, WSE-2, var betydligt snabbare än världens snabbaste superdator Frontier när det gällde molekyldynamikberäkningar - det fält som ligger till grund för proteinfällning, modellering av strålningsskador i kärnreaktorer och andra problem inom materialteknik. Sedan, i samarbete med företaget Neural Magic som optimerar maskininlärningsmodeller, visade Cerebras att en gles stor språkmodell kunde utföra inferens med en tredjedel av energikostnaden för en full modell utan att tappa någon noggrannhet.

Även om resultaten rör vitt skilda områden möjliggjordes de båda av de snabba sammankopplingarna och snabba minnestillgången som Cerebras maskinvara erbjuder. "Föreställ dig en skräddare som kan sy en kostym på en vecka", säger Cerebras vd Andrew Feldman. "Han köper grannens skrädderifirma, och hon kan också sy en kostym på en vecka, men de kan inte arbeta tillsammans. Nu kan de göra två kostymer på en vecka. Men vad de inte kan göra är att sy en kostym på tre och en halv dag."

Accelerera genom den molekylära världen

Enligt Feldman är GPU:er som skräddare som inte kan samarbeta, åtminstone när det gäller vissa problem inom molekyldynamik. Ju fler GPU:er du kopplar samman, desto fler atomer kan de simulera samtidigt, men de kan inte simulera samma antal atomer snabbare.

Cerebras vaffermotor däremot skalas på ett fundamentalt annorlunda sätt. Eftersom chippen inte begränsas av sammankopplingsbandbred den kan de kommunicera snabbt, som två skräddare som samarbetar perfekt för att sy en kostym på tre och en halv dag.

För att demonstrera denna fördel simulerade teamet 800 000 atomer som interagerade med varandra, och beräknade interaktionerna med en femtosekunds upplösning. Varje steg tog bara mikrosekunder att beräkna på deras maskinvara. Även om det fortfarande är 9 tiopotenser långsammare än de faktiska interaktionerna, var det också 179 gånger snabbare än Frontier-superdatorn. Bedriften reducerade effektivt ett års beräkning till bara två dagar.

Arbetet utfördes i samarbete med Sandia, Lawrence Livermore och Los Alamos nationallaboratorier. Tomas Oppelstrup, forskare vid Lawrence Livermore, säger att denna framsteg gör det möjligt att simulera molekylära interaktioner som tidigare varit otillgängliga.

Oppelstrup säger att detta kommer att vara särskilt användbart för att förstå den långsiktiga stabiliteten hos material i extrema förhållanden. "När du bygger avancerade maskiner som arbetar vid höga temperaturer, som jetmotorer, kärnreaktorer eller fusionsreaktorer för energiproduktion, behöver du material som kan motstå dessa höga temperaturer och mycket hårda miljöer. Det är svårt att skapa material med rätt egenskaper, som har lång livslängd och tillräcklig styrka utan att gå sönder." Att kunna simulera beteendet hos kandidatmaterial under längre tid kommer att bli avgörande i materialdesign- och utvecklingsprocessen.

Ilya Sharapov, teknisk chef på Cerebras, säger att företaget ser fram emot att utöka tillämpningarna av sin vaffermotor till en större klass av problem, inklusive molekyldynamiska simuleringar av biologiska processer och simuleringar av luftflöden runt bilar eller flygplan.

Trimma stora språkmodeller

Efterhand som stora språkmodeller (LLM:er) blir populärare börjar energikostnaderna för att använda dem överträffa träningskostnaderna - potentiellt upp till tio gånger högre enligt vissa uppskattningar. "Inferens är den primära arbetsbelastningen för AI idag eftersom alla använder ChatGPT", säger James Wang, produktmarknadsföringschef på Cerebras, "och det är mycket dyrt att köra, särskilt i stor skala."

Ett sätt att minska energikostnaden (och hastigheten) för inferens är genom gleshet - att i princip utnyttja kraften hos nollor. LLM:er består av enorma mängder parametrar. Den öppna källkodsmodellen Llama som Cerebras använde har till exempel 7 miljarder parametrar. Under inferens används var och en av dessa parametrar för att bearbeta indata och generera utdata. Om en stor andel av parametrarna däremot är nollor kan de hoppas över under beräkningen, vilket sparar både tid och energi.

Problemet är att det är svårt att hoppa över specifika parametrar på en GPU. Att läsa från minnet på en GPU är relativt långsamt, eftersom de är utformade för att läsa minne i block, vilket innebär att ta in grupper av parametrar åt gången. Detta tillåter inte GPU:er att hoppa över nollor som är slumpmässigt utspridda i parametrarna. Cerebras vd Feldman gav en annan analogi: "Det är detsamma som en speditör som bara vill flytta pallar eftersom de inte vill undersöka varje låda. Minnesbandbredden är förmågan att undersöka varje låda för att se att den inte är tom. Om den är tom, lägg den åt sidan och flytta inte på den."

Vissa GPU:er är utrustade för en speciell typ av gleshet, kallad 2:4, där exakt två av var fjärde parameter i följd är nollor. Toppmoderna GPU:er har terabyte per sekund i minnesbandbredd. Minnesbandbredden för Cerebras WSE-2 är mer än tusen gånger högre, på 20 petabyte per sekund. Detta gör det möjligt att utnyttja ostrukturerad gleshet, vilket innebär att forskarna kan nolla ut parametrar efter behov, var de än finns i modellen, och kontrollera varje enskild parameter under beräkningen. "Vår hårdvara är byggd från grunden för att stödja ostrukturerad gleshet", säger Wang.

Även med lämplig hårdvara resulterar att nolla ut många av modellens parametrar i en sämre modell. Men teamet från Neural Magic och Cerebras hittade ett sätt att återfå den ursprungliga modellens noggrannhet. Efter att ha skalat bort 70 procent av parametrarna till noll utförde de två ytterligare träningsmomenten för att ge de återstående parametrarna en chans att kompensera för de nya nollorna.

Denna extra träning använder cirka 7 procent av den ursprungliga träningsmängden, och företagen fann att de kunde återfå full modellnoggrannhet med den här träningen. Den mindre modellen tar en tredjedel av tiden och energin under inferens jämfört med den ursprungliga fulla modellen. "Det som gör dessa nya tillämpningar möjliga i vår hårdvara", säger Sharapov, "är att det finns en miljon kärnor i ett mycket tätt paket, vilket innebär att kärnorna har låglatenta, högbandbreddsinteraktioner med varandra."

Förklara för nybörjaren

Cerebras har utvecklat massiva chips som får plats på en enda kiselskiva, så kallade vafferchip. Detta är en radikal ansats jämfört med vanliga superdatorer som bygger på att koppla samman många mindre chip. Fördelen med Cerebras lösning är att processorkärnorna kan kopplas ihop med extremt höghastighetsförbindelser direkt på samma chip. I konventionella system kommunicerar processorkärnorna via långsammare externa gränssnitt och bussöverbindningar.

Den första tillämpningen Cerebras demonstrerat är molekyldynamiksimulering, vilket är avgörande inom material- och kärnfysik. Deras chip kunde simulera atominteraktioner för ett system med 800 000 atomer 179 gånger snabbare än världens snabbaste superdator Frontier. Detta öppnar för detaljerade simuleringar som tidigare varit praktiskt omöjliga på grund av oöverstigliga beräkningsutgifter.

Den andra tillämpningen är inom AI och språkmodeller. Cerebras har i samarbete med Neural Magic utvecklat en teknik för att "trimma" enorma språkmodeller genom att identifiera och nolla ut 70% av parametrarna utan att försämra prestandan. Deras arkitektur utnyttjar effektivt den korta sträckan mellan processorer för att scanna igenom parametrarna och hoppa över de som är noll. Detta reducerar mängden beräkningar och därmed energiförbrukning och kostnad med två tredjedelar.

Gemensamt för dessa tillämpningar är att de extrema kopplingarna inom Cerebras chip löser en prestandabegränsning hos konventionell teknik. Det återstår att se vilka andra områden denna radikalt annorlunda arkitektur kan göra skillnad inom, men inledande resultat ser mycket lovande ut.

Relevant ankartext Relevant ankartext Relevant ankartext