
DeepSeek-R1 hallucineert 4x meer dan V3 en roept rode vlaggen op voor Crypto AI Agent-tokens
Dalend••BeInCrypto
DeepSeek-R1, het vlaggenschip redeneermodel van het Chinese laboratorium DeepSeek, hallucineert met 14,3% volgens Vectara's HHEM 2.1 benchmark. Dat is bijna vier keer hoger dan zijn niet-redenerende voorganger DeepSeek-V3, die 3,9% scoorde.
Bekijk origineel
Het originele artikel is geschreven in het Engels.
