MiniCPM-Llama3-V 2.5 utgör den senaste tillskottet i MiniCPM-V-serien. Denna modell är utrustad med hela 8 miljarder parametrar och representerar en markant förbättring jämfört med MiniCPM-V 2.0. Modellen är byggd med SigLip-400M och Llama3-8B-Instruct, vilket ger den en robust grund för avancerad multimodal AI-användning. Här kommer vi att utforska de viktigaste funktionerna och fördelarna med MiniCPM-Llama3-V 2.5, och reflektera över vad dessa innebär för framtidens teknik.
MiniCPM-Llama3-V 2.5 har bäst-i-klassen prestanda med ett genomsnittligt poäng på 65,1 på OpenCompass, en omfattande utvärdering över 11 populära benchmarks. Att modellens prestanda är så imponerande med "bara" 8 miljarder parametrar är en tydlig indikation på dess effektivitet. Den överträffar flertalet vanliga modeller som GPT-4V-1106, Gemini Pro, Claude 3 och Qwen-VL-Max – vilket är en prestation värd att belysa.
MiniCPM-Llama3-V 2.5 kan bearbeta bilder med vilken aspekt som helst och upp till 1,8 miljoner pixlar, vilket resulterar i ett poäng över 700 på OCRBench. Denna prestation överträffar andra proprietära modeller som GPT-4o, GPT-4V-0409, Qwen-VL-Max och Gemini Pro. Det som gör denna modell så användbar är dess full-text OCR-extraktion och bord-till-markdown-konvertering. Den förbättrade kapaciteten för instruktioner och komplex resonemang gör den också mer användarvänlig i multimodala interaktioner.
En av de mest avgörande egenskaperna med MiniCPM-Llama3-V 2.5 är dess pålitlighet. Genom att använda den senaste tekniken RLAIF-V, som är en del av RLHF-V serien, visar modellen beteenden som är säkrare och mer pålitliga. Den låga hallucinationsfrekvensen på 10,3% på Object HalBench, jämfört med GPT-4V-1106:s 13,6%, reflekterar modellens höga kvalitet och tillförlitlighet inom öppen källkod-communityn.
Tack vare Llama 3:s starka flerspråkiga kapacitet och den tvärspråkliga generaliseringstekniken från VisCPM, utsträcker MiniCPM-Llama3-V 2.5 sina multimodala kapabiliteter till över 30 språk, inklusive tyska, franska, spanska, italienska, ryska med flera. Detta gör det möjligt för användare från olika delar av världen att dra nytta av denna teknik utan att behöva oroa sig för språkbarriärer.
MiniCPM-Llama3-V 2.5 har också en rad optimeringar för effektiv distribution. Genom att systematiskt tillämpa modellkvantisering, CPU- och NPU-optimeringar samt kompilationsoptimeringar, kan modellen nå hög effektivitet på ändenheter. För mobiltelefoner med Qualcomm-chip har vi integrerat NPU-accelereringsramverket QNN in i llama.cpp, vilket resulterar i en 150-faldig acceleration inom multimodala stora modell-endenkodningar och en tre gånger ökning i språkkodningshastighet.
MiniCPM-V 2.0 är en annan potent version i serien, byggd med SigLip-400M och MiniCPM-2.4B, sammanlänkad av en perceiver resampler. Denna modell uppnår också hög prestanda på flera benchmarks och stödjer högupplösta bilder med valfri aspektkvot. Dess kapacitet att hantera bilder på upp till 1,8 miljoner pixlar gör den särskilt användbar för detaljerade visuell information, som små objekt och optiska tecken.
Precis som MiniCPM-Llama3-V 2.5, har MiniCPM-V 2.0 lägre hallucinationsfrekvens, vilket bidrar till mer tillförlitliga AI-interaktioner. Genom att använda tekniker från RLHF-V serien, säkerställs att modellen producerar mer precisa och verklighetsanknutna svar.
MiniCPM-V 2.0 är designad för att kunna distribueras effektivt på de flesta GPU-kort och persondatorer, såväl som endenheter såsom mobiltelefoner. Genom att komprimera bildrepresentationerna till färre tokens via perceiver resampler, minimerar MiniCPM-V 2.0 minnesanvändning och ökar hastigheten under inferens.
Modellen stödjer starka multimodala kapabiliteter på både engelska och kinesiska. Detta är möjliggjort genom en generalisering av multimodala kapaciteter över språk, vilket ger en bredare tillgång för användare som talar dessa språk.
Här är ett exempel på hur MiniCPM-Llama3-V 2.5 kan användas på en Xiaomi 14 Pro för att identifiera och beskriva en Airbus A380:
Första rundan:
Användarens fråga: "Berätta om modellen på detta flygplan."
Modellens svar: "Flygplanet på bilden är en Airbus A380, som kan kännas igen på sin stora storlek, dubbel-däck struktur, och den särskiljande formen av dess vingar och motorer. A380 är känd för att vara världens största passagerarflygplan, designad för långdistansflygningar. Den har fyra motorer, vilka är karakteristiska för stora kommersiella flygplan. Registreringsnumret på flygplanet kan även ge specifik information om modellen om det söks upp i en luftfartsdatabas."
Andra rundan:
Användarens fråga: "Berätta något om Airbus A380."
Modellens svar: "Airbus A380 är en dubbel-däck, bred-kropp, fyrmotorig jetlinjer tillverkad av Airbus. Det är världens största passagerarflygplan och är känt för sina långdistans kapaciteter. Flygplanet utvecklades för att förbättra effektiviteten och komforten för passagerare som reser över långa avstånd. Det har två fullängds passagerardäck, som kan rymma fler passagerare än ett typiskt en-aisle flygplan. A380 har opererats av flygbolag som Lufthansa, Singapore Airlines och Emirates, bland andra. Det är allmänt erkänt för sin unika design och betydande påverkan på luftfartsindustrin."
MiniCPM-Llama3-V 2.5 representerar en spännande utveckling inom multimodal maskininlärning. Med sina avancerade prestanda, starka OCR-funktioner, pålitliga beteenden och flerspråkigt stöd, är denna modell redo att sätta en ny standard inom AI. Dessutom kan MiniCPM-V 2.0 fungera som ett effektivt och mångsidigt alternativ för dem som söker kraftfull men lättanvänd maskininlärning på sina enheter. Sammanfattningsvis är dessa modeller inte bara tekniska underverk utan också verktyg som kan omvandlas till praktiska lösningar i verkliga applikationer.