I takt med att AI-tekniken utvecklas allt snabbare dyker det ständigt upp nya metoder och tekniker som utlovar revolutionerande förbättringar. En sådan teknik som har fått mycket uppmärksamhet på sistone är GraphRAG - en metod som kombinerar kunskapsgrafer med Retrieval-Augmented Generation (RAG). Men hur stor är egentligen skillnaden jämfört med traditionella RAG-system? En ny omfattande analys ger intressanta insikter i GraphRAGs faktiska prestanda och potentiella användningsområden.
Startpunkten för denna analys var en studie från Microsoft som hävdade att deras GraphRAG-metod gav "väsentliga förbättringar" jämfört med vanlig RAG. Studien fokuserade främst på två metriker:
Dock var förbättringarna vagt beskrivna som just "väsentliga" utan närmare kvantifiering. Detta väckte nyfikenhet kring hur stora skillnaderna egentligen är och om det finns andra relevanta metriker att undersöka.
För att få en tydligare bild genomfördes en ny omfattande analys med fokus på mer konkreta och kvantifierbara mätvärden. Analysen jämförde tre olika metoder:
Som testdata användes transkript från en presidentdebatt, vilket delades upp i likadana segment för alla tre metoderna. Analysen utvärderade sedan prestandan med hjälp av RAGAS-ramverket som mäter fyra nyckelmetriker:
Resultaten av analysen ger flera intressanta insikter:
Alla tre metoderna uppvisade liknande resultat när det gäller kontextrelevans, med poäng runt 0,74. Detta tyder på att användningen av kunskapsgrafer inte nödvändigtvis ger någon betydande fördel när det gäller att hitta relevant kontext jämfört med vanliga vektordatabaser.
Intressant nog uppvisade Neo4j utan sitt inbyggda index den högsta poängen för svarrelevans på 0,93. Detta kan jämföras med 0,74 för Neo4j med index och 0,87 för FAISS. En förbättring på 8% jämfört med FAISS är noterbar, men kanske inte tillräckligt stor för att motivera de extra resurser som krävs för att implementera en kunskapsgraf i många fall.
Den mest markanta skillnaden syntes i trohetsmåttet. Här presterade Neo4j med sitt inbyggda index betydligt bättre (0,52) jämfört med både Neo4j utan index (0,21) och FAISS (0,20). Detta indikerar att användningen av Neo4js index kan minska mängden fabricerad information i svaren avsevärt.
Baserat på dessa resultat kan vi dra några slutsatser kring när och hur GraphRAG kan vara användbart i praktiken:
Givet de likvärdiga resultaten för kontextrelevans verkar kunskapsgrafer inte ge någon betydande fördel när det gäller grundläggande informationsåterhämtning. För enklare RAG-applikationer där huvudsyftet är att hitta relevant kontext kan därför traditionella vektordatabaser som FAISS vara tillräckliga.
Den förbättrade svarrelevansen och särskilt den ökade troheten med Neo4js index indikerar att GraphRAG kan ha fördelar i scenarier där hög precision och tillförlitlighet i svaren är kritiskt. Detta kan vara särskilt relevant i domäner som medicin, juridik eller finansiell rådgivning där felaktig information kan få allvarliga konsekvenser.
Implementering av en kunskapsgraf och särskilt användningen av specialiserade index kräver mer resurser både vad gäller utveckling och drift jämfört med enklare vektordatabaser. Den relativt begränsade prestandaökningen (8% för svarrelevans) gör att denna investering kanske inte är motiverad i alla fall. Det är viktigt att noga överväga om fördelarna överväger kostnaderna för den specifika applikationen.
För många användningsfall kan fine-tuning av den underliggande språkmodellen vara ett mer kostnadseffektivt alternativ för att uppnå förbättrad prestanda jämfört med implementering av GraphRAG. Detta kan potentiellt ge större prestandalyft till en lägre total kostnad.
Sammanfattningsvis visar denna analys att GraphRAG har potential att förbättra vissa aspekter av RAG-system, särskilt när det gäller svarens trohet och relevans. Dock är förbättringarna inte så dramatiska som vissa tidigare rapporter kan ha antytt.
Baserat på resultaten kan följande rekommendationer ges:
Avslutningsvis är det viktigt att komma ihåg att tekniken inom AI och särskilt RAG utvecklas snabbt. Nya metoder och verktyg dyker ständigt upp som kan förändra ekvationen. Det är därför klokt att kontinuerligt utvärdera olika alternativ och vara öppen för att anpassa sin strategi allt eftersom fältet utvecklas.
För den som vill fördjupa sig ytterligare i detaljerna kring denna analys finns koden tillgänglig på GitHub. Microsofts ursprungliga GraphRAG-studie kan läsas i sin helhet här.
Läs även: https://www.techhubben.se/blogs/robotdammsugare-vs-trosklar-5-genialiska-losningar
Läs även: Pixel 9: AI-revolutionen i din ficka