MiniCPM-Llama3-V 2.5 är en banbrytande multimodal språkmodell (MLLM) med öppen källkod från MiniCPM-V-serien, utvecklad av OpenBMB. Modellen har 8 miljarder parametrar och bygger på SigLip-400M för bildförståelse och Llama3-8B-Instruct för språkbearbetning. Den erbjuder GPT-4V-nivå prestanda och kan köras direkt på din telefon eller dator.
Denna modell utmärker sig i hantering av bilder, text och multimodala interaktioner, vilket gör den idealisk för kantberäkning utan molnberoende. Enligt GitHub-uppdateringar kan den köras på grafikprocessorer med lågt VRAM (12-16GB) och även mobiler som Xiaomi 14 Pro, tack vare optimeringar i llama.cpp.
MiniCPM-Llama3-V 2.5 har ett genomsnittligt poäng på 65,1 på OpenCompass över 11 olika benchmark-tester. Detta överträffar många proprietära modeller, inklusive tidigare versioner av GPT-4V och Claude 3.
Modell | OpenCompass | OCRBench | Hallucination | Öppen källkod |
---|---|---|---|---|
MiniCPM-Llama3-V 2.5 | 65,1 | 700+ | 10,3% | Ja |
GPT-4o | 68 | 680 | 12% | Nej |
Gemini Pro | 67 | 690 | 10,8% | Nej |
Källor: Hugging Face, OpenCompass och olika benchmarkanalyser på X.
MiniCPM-Llama3-V 2.5 hanterar bilder upp till 1,8 miljoner pixlar (1344×1344 upplösning) med valfri bildförhållande, vilket gör den till en toppmodell för OCR.
Stödjer över 30 språk (t.ex. tyska, franska, spanska, ryska, kinesiska). Tvärspråklig generalisering från VisCPM möjliggör sömlösa multimodala chattar på flera språk. Detta är särskilt användbart för internationella applikationer och översättningar.
Med 10,3% är den mer tillförlitlig än många andra modeller, vilket minskar risken för felaktig information. Detta är kritiskt för användning inom områden som kräver hög precision, som visas i denna recension.
Som en del av RLHF-V-serien säkerställer denna teknologi säkrare beteenden och mer etiska AI-interaktioner, en viktig aspekt i dagens AI-utveckling.
pip install transformers; from transformers import AutoModel; model = AutoModel.from_pretrained('openbmb/MiniCPM-Llama3-V-2_5')
ollama run minicpm-v
(se Ollama-biblioteket)På en Xiaomi 14 Pro:
För bästa resultat med MiniCPM-Llama3-V 2.5:
Trender inkluderar hybridarkitekturer, AI för kantberäkning med fokus på integritet, och integration med AR/VR. MiniCPM-serien leder inom mobila MLLMs, med prognoser om ännu kraftfullare modeller inom kort, enligt analyser på X.
MiniCPM-Llama3-V 2.5 erbjuder GPT-4V-nivå prestanda på din telefon. Dess effektivitet och öppna källkod gör den ovärderlig för utvecklare och företag som vill implementera avancerad AI utan molnberoende. Utforska den på GitHub för praktisk erfarenhet och se hur den kan förbättra dina AI-tillämpningar.
Modellen behöver 16GB+ RAM, är kompatibel med GPUer (12-16GB VRAM), mobiler med Qualcomm-chips eller Mac med MPS.
Ja, den är tillgänglig på Hugging Face och GitHub under öppna licenser.
Använd Ollama för enkel installation, eller följ instruktionerna på denna guide för mobiloptimering.
Nej, den har inget inbyggt stöd för video. För videohantering, överväg andra lösningar eller nyare versioner i serien.
Använd RLAIF-V-tekniker och finjustera med tillförlitliga dataset; frekvensen är redan låg på 10,3%.