DeepSeek-R1 hallucineert 4x meer dan V3 en roept rode vlaggen op voor Crypto AI Agent-tokens

Dalend••BeInCrypto

DeepSeek-R1, het vlaggenschip redeneermodel van het Chinese laboratorium DeepSeek, hallucineert met 14,3% volgens Vectara's HHEM 2.1 benchmark. Dat is bijna vier keer hoger dan zijn niet-redenerende voorganger DeepSeek-V3, die 3,9% scoorde.

Bekijk origineel

Het originele artikel is geschreven in het Engels.