Sep 9

Here is my attempt at rewriting the article for Techhubben.se in Swedish, focusing on the key points and including relevant links:

Cerebras Systems utmanar Nvidia med lansering av "världens snabbaste" AI-inferenstjänst

AI-beräkningsföretaget Cerebras Systems har tagit upp kampen mot Nvidia genom att lansera vad de kallar världens snabbaste AI-inferenstjänst. Tjänsten är nu tillgänglig i molnet och riktar sig mot en snabbväxande marknad för AI-inferens som enligt Cerebras står för omkring 40% av alla AI-arbetsbelastningar i molnet idag.

Vad är AI-inferens?

För den som är ny inom AI kan begreppet inferens behöva en förklaring. AI-inferens handlar om processen att köra nya data genom en färdigtränad AI-modell för att göra prediktioner eller lösa uppgifter. Det är själva tillämpningen av AI-modellen i praktiken, till skillnad från träningsfasen då modellen skapas och optimeras.

Inferenstjänster utgör alltså "arbetshästen" inom AI-industrin - det är här modellerna faktiskt används för att generera värde. Enligt Cerebras VD Andrew Feldman finns det ett stort intresse för att göra inferens både snabbare och billigare.

Imponerande prestanda

Cerebras nya tjänst, kallad "high-speed inference", ska enligt företaget kunna leverera hastigheter på upp till 1000 tokens per sekund. De menar att detta är jämförbart med introduktionen av bredband och kan möjliggöra helt nya typer av AI-applikationer.

Bakom tjänsten ligger Cerebras egenutvecklade WSE-3 processor, som lanserades i mars. Detta massiva chip innehåller över 4 biljoner transistorer och över 900 000 beräkningskärnor. Jämfört med Nvidias flaggskepps-GPU H100 har WSE-3 52 gånger fler kärnor.

Processorn är integrerad i Cerebras CS-3 system, en datacenterapplians stor som ett litet kylskåp. Enligt företaget har CS-3 7000 gånger mer minne än Nvidia H100, vilket adresserar ett av de grundläggande problemen med generativ AI - behovet av mer minnesbandbredd.

Snabbare och billigare

Cerebras hävdar att deras inferenstjänst är upp till 20 gånger snabbare än jämförbara molnbaserade tjänster som använder Nvidias kraftfullaste GPUer. För den öppna AI-modellen Llama 3.1 8B uppger de en hastighet på 1800 tokens per sekund, och för den större Llama 3.1 70B 450 tokens per sekund.

Prismässigt börjar tjänsten på 10 cent per miljon tokens, vilket enligt Cerebras ger 100 gånger högre pris-prestanda för AI-inferens jämfört med konkurrenterna.

Flexibla alternativ

Tjänsten erbjuds i tre olika nivåer:

En kostnadsfri nivå för experimenterande
En utvecklarnivå för flexibla serverless-implementationer via API
En företagsnivå med skräddarsydda modeller och support

Cerebras uppger att de redan har flera imponerande tidiga kunder, inklusive läkemedelsbolaget GlaxoSmithKline, AI-sökmotorn Perplexity AI och nätverksanalysföretaget Meter Inc.

Dr. Andrew Ng, grundare av DeepLearning AI och en annan tidig användare, förklarar att Cerebras imponerande snabba inferenskapacitet är särskilt användbar för AI-agenter som behöver göra upprepade förfrågningar till en språkmodell.

Framtidsplaner

Cerebras har ambitioner att expandera ytterligare och för diskussioner med flera stora molnleverantörer om att erbjuda sina tjänster. De har också ingått strategiska partnerskap med företag som LangChain, Docker och Weights & Biases för att tillhandahålla ett komplett ekosystem av verktyg för AI-utveckling.

Med sin nya inferenstjänst siktar Cerebras på att ta en betydande andel av den snabbväxande marknaden för AI-beräkningar. Tiden får utvisa om de lyckas utmana Nvidias dominans, men det står klart att konkurrensen inom AI-hårdvara och -tjänster fortsätter att intensifieras.

Läs även: https://www.techhubben.se/blogs/30-basta-tv-serierna-tidlosa-masterverk-rankat

No items found.