XetHub ansluter sig till Hugging Face: En ny era för AI-samarbete
I en spännande utveckling för AI-communityn har Hugging Face nyligen tillkännagivit sitt förvärv av XetHub, ett Seattle-baserat företag med fokus på att möjliggöra mjukvaruutvecklingsbästa praxis för AI-utveckling. Denna sammanslutning lovar att revolutionera hur AI-utvecklare samarbetar och hanterar stora datamängder och modeller. Låt oss dyka djupare in i vad detta innebär för framtiden inom AI-utveckling och samarbete.
Vilka är XetHub?
XetHub grundades av Yucheng Low, Ajit Banerjee och Rajat Arya, alla med en imponerande bakgrund från Apple där de byggde och skalade företagets interna ML-infrastruktur. Företagets mission har varit att göra det möjligt för mjukvaruutvecklingsteam att tillämpa beprövade metoder inom AI-utveckling. Med sitt team på 12 talangfulla medlemmar har XetHub utvecklat teknologier som möjliggör för Git att hantera terabyte-stora repositories, vilket i sin tur låter team utforska, förstå och samarbeta kring stora och ständigt utvecklande datamängder och modeller.
För de som är intresserade av att följa XetHubs framsteg inom Hugging Face kan man besöka deras nya organisationssida på hf.co/xet-team.
En gemensam vision för framtiden
Samgåendet mellan Hugging Face och XetHub drivs av en gemensam vision om att förbättra och skala AI-utvecklingsprocessen. Julien Chaumond, CTO på Hugging Face, uttrycker det så här:
"XetHub-teamet kommer att hjälpa oss låsa upp de kommande 5 årens tillväxt av HF-dataset och modeller genom att byta till vår egen, bättre version av LFS som lagringsbackend för Hubbens repos."
Detta uttalande pekar på en fundamental förändring i hur Hugging Face planerar att hantera lagring och versionshantering av stora filer. När Hugging Face-hubben först lanserades 2020, byggdes den på Git LFS (Large File Storage) som en rimlig startpunkt. Men som Chaumond påpekar var Git LFS aldrig designat för de extremt stora filer som är vanliga inom AI-utveckling.
Framtida användningsfall: En revolution i datahantering
För att förstå betydelsen av denna tekniska förändring, låt oss titta på några konkreta exempel på hur XetHubs teknologi kan förändra arbetsflöden:
1. Effektiv uppdatering av stora filer
Tänk dig ett scenario där du har en 10GB Parquet-fil och behöver lägga till en enda rad. Med dagens system skulle du behöva ladda upp hela filen på 10GB igen. Men med XetHubs teknik för uppdelade filer och deduplicering kommer du endast behöva ladda upp de få segment som innehåller den nya raden. Detta innebär en dramatisk minskning av både uppladdningstid och bandbreddsanvändning.
2. Smidigare hantering av GGUF-modeller
Ett annat praktiskt exempel rör hanteringen av GGUF-modellfiler (ett format som används för effektiv lagring av språkmodeller). Om en utvecklare, säg @bartowski, behöver uppdatera ett enda metadatavärde i GGUF-headern för en Llama 3.1 405B-repo, kommer de i framtiden endast behöva ladda upp ett enda segment på några kilobyte, istället för hela den enorma modellfilen.
3. Skalbarhet för framtidens AI-modeller
Allteftersom AI-fältet rör sig mot modeller med biljoner parametrar under de kommande månaderna (som exemplifieras av Maxime Labonnes nya BigLlama-3.1-1T), hoppas Hugging Face att denna nya teknik kommer att möjliggöra nya skalningsnivåer både inom open source-communityn och inom företag.
Imponerande statistik från Hugging Face Hub
För att sätta denna utveckling i perspektiv, låt oss titta på några häpnadsväckande siffror från Hugging Face Hub:
- Antal repositories: 1,3 miljoner modeller, 450 000 dataset, 680 000 spaces
- Total kumulativ storlek: 12 PB lagrat i LFS (280 miljoner filer) / 7,3 TB lagrat i git (icke-LFS)
- Dagligt antal förfrågningar till Hub: 1 miljard
- Daglig Cloudfront-bandbredd: 6 PB
Dessa siffror understryker den enorma skalan som Hugging Face opererar på och behovet av mer effektiva lösningar för datahantering och samarbete.
En personlig reflektion från Yucheng Low
Yucheng Low, en av grundarna av XetHub, delar sina tankar om samgåendet och framtiden för AI-utveckling:
"Jag har varit en del av AI/ML-världen i över 15 år och har sett hur djupinlärning gradvis har tagit över inom vision, tal, text och i princip alla datadomäner. Vad jag dock kraftigt underskattade var kraften i data. Uppgifter som verkade omöjliga för bara några år sedan (som bildgenerering) visade sig vara möjliga med storleksordningar mer data och en modell med kapacitet att absorbera den."
Low betonar vikten av datakvalitet och -kvantitet i AI-utveckling, en lärdom som upprepade gånger har visat sig avgörande inom maskininlärningens historia. Hans erfarenheter från att skala AI-datahantering till över 100 PB på Apple och stödja dussintals interna team som levererade hundratals funktioner årligen, har format XetHubs vision om att möjliggöra för ML-team att arbeta som mjukvaruteam.
XetHubs mål har varit att skala Git-fillagring till terabyte, sömlöst möjliggöra experiment och reproducerbarhet, samt tillhandahålla visualiseringsmöjligheter för att förstå hur dataset och modeller utvecklas över tid.
Vad innebär detta för AI-utvecklare och forskare?
För AI-utvecklare och forskare innebär denna sammanslutning flera spännande möjligheter:
- Förbättrad skalbarhet: Möjligheten att arbeta med ännu större dataset och modeller utan att kompromissa med prestanda eller effektivitet.
- Effektivare samarbete: Bättre verktyg för att förstå hur data och modeller utvecklas över tid, vilket underlättar teamarbete och kunskapsdelning.
- Snabbare iterationer: Med mer effektiv hantering av stora filer kan utvecklare och forskare experimentera snabbare och oftare.
- Ökad reproducerbarhet: Förbättrad versionshantering och spårbarhet gör det enklare att återskapa och bygga vidare på andras arbete.
- Demokratisering av AI-utveckling: Genom att sänka de tekniska barriärerna för att arbeta med stora dataset och modeller, öppnar detta upp för fler att bidra till cutting-edge AI-forskning och -utveckling.
Framtidsutsikter och möjligheter
Samgåendet mellan Hugging Face och XetHub markerar början på en ny era för AI-samarbete och -utveckling. Genom att integrera XetHubs teknologi i Hugging Face Hub, skapas en plattform som inte bara kan hantera dagens AI-utmaningar, utan även är redo för framtidens ännu större och mer komplexa modeller och dataset.
För nyfikna utvecklare och entusiaster som vill vara en del av denna spännande utveckling, är det värt att notera att Hugging Faces infrastrukturteam aktivt rekryterar. Om du är passionerad för att bygga och skala samarbetsplattformar för open source AI-rörelsen, uppmuntras du att ta kontakt.
Sammanfattning
Förvärvet av XetHub av Hugging Face representerar ett betydande steg framåt för AI-communityn. Genom att kombinera Hugging Faces omfattande plattform och community med XetHubs innovativa teknologi för datahantering och samarbete, skapas en grund för nästa generations AI-utveckling. Detta lovar inte bara att förbättra effektiviteten och skalbarheten för existerande AI-projekt, utan också att öppna dörren för helt nya möjligheter inom AI-forskning och -tillämpningar.
För både erfarna AI-utvecklare och nybörjare inom fältet erbjuder denna utveckling spännande möjligheter att delta i och bidra till framtidens AI-landskap. Genom att förbättra verktygen och infrastrukturen för AI-utveckling, tar Hugging Face och XetHub ett stort steg mot att demokratisera AI och göra avancerad maskininlärning mer tillgänglig för alla.