[ViewVC] Diff of: cvs/JSON-XS/XS.xs

Comparing JSON-XS/XS.xs (file contents):
Revision 1.18 by root, Sun Mar 25 21:19:13 2007 UTC vs.
Revision 1.43 by root, Sat Jun 23 23:49:29 2007 UTC

…		…
3	#include "XSUB.h"	3	#include "XSUB.h"
4		4
5	#include "assert.h"	5	#include "assert.h"
6	#include "string.h"	6	#include "string.h"
7	#include "stdlib.h"	7	#include "stdlib.h"
		8	#include "stdio.h"
		9
		10	#if defined(__BORLANDC__) \|\| defined(_MSC_VER)
		11	# define snprintf _snprintf // C compilers have this in stdio.h
		12	#endif
		13
		14	// some old perls do not have this, try to make it work, no
		15	// guarentees, though. if it breaks, you get to keep the pieces.
		16	#ifndef UTF8_MAXBYTES
		17	# define UTF8_MAXBYTES 13
		18	#endif
8		19
9	#define F_ASCII 0x00000001UL	20	#define F_ASCII 0x00000001UL
		21	#define F_LATIN1 0x00000002UL
10	#define F_UTF8 0x00000002UL	22	#define F_UTF8 0x00000004UL
11	#define F_INDENT 0x00000004UL	23	#define F_INDENT 0x00000008UL
12	#define F_CANONICAL 0x00000008UL	24	#define F_CANONICAL 0x00000010UL
13	#define F_SPACE_BEFORE 0x00000010UL	25	#define F_SPACE_BEFORE 0x00000020UL
14	#define F_SPACE_AFTER 0x00000020UL	26	#define F_SPACE_AFTER 0x00000040UL
15	#define F_ALLOW_NONREF 0x00000080UL	27	#define F_ALLOW_NONREF 0x00000100UL
16	#define F_SHRINK 0x00000100UL	28	#define F_SHRINK 0x00000200UL
17	#define F_MAXDEPTH 0xf8000000UL	29	#define F_MAXDEPTH 0xf8000000UL
18	#define S_MAXDEPTH 27	30	#define S_MAXDEPTH 27
19		31
20	#define DEC_DEPTH(flags) (1UL << ((flags & F_MAXDEPTH) >> S_MAXDEPTH))	32	#define DEC_DEPTH(flags) (1UL << ((flags & F_MAXDEPTH) >> S_MAXDEPTH))
21		33
22	// F_SELFCONVERT? <=> to_json/toJson	34	// F_SELFCONVERT? <=> to_json/toJson
23	// F_BLESSED? <=> { $__class__$ => }	35	// F_BLESSED? <=> { $__class__$ => }
24		36
25	#define F_PRETTY F_INDENT \| F_SPACE_BEFORE \| F_SPACE_AFTER	37	#define F_PRETTY F_INDENT \| F_SPACE_BEFORE \| F_SPACE_AFTER
26	#define F_DEFAULT (13UL << S_MAXDEPTH)	38	#define F_DEFAULT (9UL << S_MAXDEPTH)
27		39
28	#define INIT_SIZE 32 // initial scalar size to be allocated	40	#define INIT_SIZE 32 // initial scalar size to be allocated
29	#define INDENT_STEP 3 // spaces per indentation level	41	#define INDENT_STEP 3 // spaces per indentation level
30		42
31	#define UTF8_MAX_LEN 11 // for perls UTF-X: max. number of octets per character
32	#define SHORT_STRING_LEN 512 // special-case strings of up to this size	43	#define SHORT_STRING_LEN 16384 // special-case strings of up to this size
33		44
34	#define SB do {	45	#define SB do {
35	#define SE } while (0)	46	#define SE } while (0)
36		47
		48	#if __GNUC__ >= 3
		49	# define expect(expr,value) __builtin_expect ((expr),(value))
		50	# define inline inline
		51	#else
		52	# define expect(expr,value) (expr)
		53	# define inline static
		54	#endif
		55
		56	#define expect_false(expr) expect ((expr) != 0, 0)
		57	#define expect_true(expr) expect ((expr) != 0, 1)
		58
37	static HV *json_stash; // JSON::XS::	59	static HV *json_stash; // JSON::XS::
		60	static SV json_true, json_false;
38		61
39	/////////////////////////////////////////////////////////////////////////////	62	/////////////////////////////////////////////////////////////////////////////
40	// utility functions	63	// utility functions
41		64
42	static UV *	65	static UV *
…		…
65	// decode an utf-8 character and return it, or (UV)-1 in	88	// decode an utf-8 character and return it, or (UV)-1 in
66	// case of an error.	89	// case of an error.
67	// we special-case "safe" characters from U+80 .. U+7FF,	90	// we special-case "safe" characters from U+80 .. U+7FF,
68	// but use the very good perl function to parse anything else.	91	// but use the very good perl function to parse anything else.
69	// note that we never call this function for a ascii codepoints	92	// note that we never call this function for a ascii codepoints
70	static UV	93	inline UV
71	decode_utf8 (unsigned char s, STRLEN len, STRLEN clen)	94	decode_utf8 (unsigned char s, STRLEN len, STRLEN clen)
72	{	95	{
73	if (s[0] > 0xdf \|\| s[0] < 0xc2)	96	if (expect_false (s[0] > 0xdf \|\| s[0] < 0xc2))
74	return utf8n_to_uvuni (s, len, clen, UTF8_CHECK_ONLY);	97	return utf8n_to_uvuni (s, len, clen, UTF8_CHECK_ONLY);
75	else if (len > 1 && s[1] >= 0x80 && s[1] <= 0xbf)	98	else if (len > 1 && s[1] >= 0x80 && s[1] <= 0xbf)
76	{	99	{
77	*clen = 2;	100	*clen = 2;
78	return ((s[0] & 0x1f) << 6) \| (s[1] & 0x3f);	101	return ((s[0] & 0x1f) << 6) \| (s[1] & 0x3f);
79	}	102	}
80	else	103	else
		104	{
		105	*clen = (STRLEN)-1;
81	return (UV)-1;	106	return (UV)-1;
		107	}
82	}	108	}
83		109
84	/////////////////////////////////////////////////////////////////////////////	110	/////////////////////////////////////////////////////////////////////////////
85	// encoder	111	// encoder
86		112
…		…
93	U32 flags; // F_*	119	U32 flags; // F_*
94	U32 indent; // indentation level	120	U32 indent; // indentation level
95	U32 maxdepth; // max. indentation/recursion level	121	U32 maxdepth; // max. indentation/recursion level
96	} enc_t;	122	} enc_t;
97		123
98	static void	124	inline void
99	need (enc_t *enc, STRLEN len)	125	need (enc_t *enc, STRLEN len)
100	{	126	{
101	if (enc->cur + len >= enc->end)	127	if (expect_false (enc->cur + len >= enc->end))
102	{	128	{
103	STRLEN cur = enc->cur - SvPVX (enc->sv);	129	STRLEN cur = enc->cur - SvPVX (enc->sv);
104	SvGROW (enc->sv, cur + len + 1);	130	SvGROW (enc->sv, cur + len + 1);
105	enc->cur = SvPVX (enc->sv) + cur;	131	enc->cur = SvPVX (enc->sv) + cur;
106	enc->end = SvPVX (enc->sv) + SvLEN (enc->sv);	132	enc->end = SvPVX (enc->sv) + SvLEN (enc->sv) - 1;
107	}	133	}
108	}	134	}
109		135
110	static void	136	inline void
111	encode_ch (enc_t *enc, char ch)	137	encode_ch (enc_t *enc, char ch)
112	{	138	{
113	need (enc, 1);	139	need (enc, 1);
114	*enc->cur++ = ch;	140	*enc->cur++ = ch;
115	}	141	}
…		…
123		149
124	while (str < end)	150	while (str < end)
125	{	151	{
126	unsigned char ch = (unsigned char )str;	152	unsigned char ch = (unsigned char )str;
127		153
128	if (ch >= 0x20 && ch < 0x80) // most common case	154	if (expect_true (ch >= 0x20 && ch < 0x80)) // most common case
129	{	155	{
130	if (ch == '"') // but with slow exceptions	156	if (expect_false (ch == '"')) // but with slow exceptions
131	{	157	{
132	need (enc, len += 1);	158	need (enc, len += 1);
133	*enc->cur++ = '\\';	159	*enc->cur++ = '\\';
134	*enc->cur++ = '"';	160	*enc->cur++ = '"';
135	}	161	}
136	else if (ch == '\\')	162	else if (expect_false (ch == '\\'))
137	{	163	{
138	need (enc, len += 1);	164	need (enc, len += 1);
139	*enc->cur++ = '\\';	165	*enc->cur++ = '\\';
140	*enc->cur++ = '\\';	166	*enc->cur++ = '\\';
141	}	167	}
…		…
159	STRLEN clen;	185	STRLEN clen;
160	UV uch;	186	UV uch;
161		187
162	if (is_utf8)	188	if (is_utf8)
163	{	189	{
164	//uch = utf8n_to_uvuni (str, end - str, &clen, UTF8_CHECK_ONLY);
165	uch = decode_utf8 (str, end - str, &clen);	190	uch = decode_utf8 (str, end - str, &clen);
166	if (clen == (STRLEN)-1)	191	if (clen == (STRLEN)-1)
167	croak ("malformed or illegal unicode character in string [%.11s], cannot convert to JSON", str);	192	croak ("malformed or illegal unicode character in string [%.11s], cannot convert to JSON", str);
168	}	193	}
169	else	194	else
…		…
173	}	198	}
174		199
175	if (uch > 0x10FFFFUL)	200	if (uch > 0x10FFFFUL)
176	croak ("out of range codepoint (0x%lx) encountered, unrepresentable in JSON", (unsigned long)uch);	201	croak ("out of range codepoint (0x%lx) encountered, unrepresentable in JSON", (unsigned long)uch);
177		202
178	if (uch < 0x80 \|\| enc->flags & F_ASCII)	203	if (uch < 0x80 \|\| enc->flags & F_ASCII \|\| (enc->flags & F_LATIN1 && uch > 0xFF))
179	{	204	{
180	if (uch > 0xFFFFUL)	205	if (uch > 0xFFFFUL)
181	{	206	{
182	need (enc, len += 11);	207	need (enc, len += 11);
183	sprintf (enc->cur, "\\u%04x\\u%04x",	208	sprintf (enc->cur, "\\u%04x\\u%04x",
…		…
197	*enc->cur++ = hexdigit [(uch >> 0) & 15];	222	*enc->cur++ = hexdigit [(uch >> 0) & 15];
198	}	223	}
199		224
200	str += clen;	225	str += clen;
201	}	226	}
		227	else if (enc->flags & F_LATIN1)
		228	{
		229	*enc->cur++ = uch;
		230	str += clen;
		231	}
202	else if (is_utf8)	232	else if (is_utf8)
203	{	233	{
204	need (enc, len += clen);	234	need (enc, len += clen);
205	do	235	do
206	{	236	{
…		…
208	}	238	}
209	while (--clen);	239	while (--clen);
210	}	240	}
211	else	241	else
212	{	242	{
213	need (enc, len += UTF8_MAX_LEN - 1); // never more than 11 bytes needed	243	need (enc, len += UTF8_MAXBYTES - 1); // never more than 11 bytes needed
214	enc->cur = uvuni_to_utf8_flags (enc->cur, uch, 0);	244	enc->cur = uvuni_to_utf8_flags (enc->cur, uch, 0);
215	++str;	245	++str;
216	}	246	}
217	}	247	}
218	}	248	}
…		…
220		250
221	--len;	251	--len;
222	}	252	}
223	}	253	}
224		254
225	static void	255	inline void
226	encode_indent (enc_t *enc)	256	encode_indent (enc_t *enc)
227	{	257	{
228	if (enc->flags & F_INDENT)	258	if (enc->flags & F_INDENT)
229	{	259	{
230	int spaces = enc->indent * INDENT_STEP;	260	int spaces = enc->indent * INDENT_STEP;
…		…
233	memset (enc->cur, ' ', spaces);	263	memset (enc->cur, ' ', spaces);
234	enc->cur += spaces;	264	enc->cur += spaces;
235	}	265	}
236	}	266	}
237		267
238	static void	268	inline void
239	encode_space (enc_t *enc)	269	encode_space (enc_t *enc)
240	{	270	{
241	need (enc, 1);	271	need (enc, 1);
242	encode_ch (enc, ' ');	272	encode_ch (enc, ' ');
243	}	273	}
244		274
245	static void	275	inline void
246	encode_nl (enc_t *enc)	276	encode_nl (enc_t *enc)
247	{	277	{
248	if (enc->flags & F_INDENT)	278	if (enc->flags & F_INDENT)
249	{	279	{
250	need (enc, 1);	280	need (enc, 1);
251	encode_ch (enc, '\n');	281	encode_ch (enc, '\n');
252	}	282	}
253	}	283	}
254		284
255	static void	285	inline void
256	encode_comma (enc_t *enc)	286	encode_comma (enc_t *enc)
257	{	287	{
258	encode_ch (enc, ',');	288	encode_ch (enc, ',');
259		289
260	if (enc->flags & F_INDENT)	290	if (enc->flags & F_INDENT)
…		…
267		297
268	static void	298	static void
269	encode_av (enc_t enc, AV av)	299	encode_av (enc_t enc, AV av)
270	{	300	{
271	int i, len = av_len (av);	301	int i, len = av_len (av);
		302
		303	if (enc->indent >= enc->maxdepth)
		304	croak ("data structure too deep (hit recursion limit)");
272		305
273	encode_ch (enc, '['); encode_nl (enc);	306	encode_ch (enc, '['); encode_nl (enc);
274	++enc->indent;	307	++enc->indent;
275		308
276	for (i = 0; i <= len; ++i)	309	for (i = 0; i <= len; ++i)
…		…
343	static void	376	static void
344	encode_hv (enc_t enc, HV hv)	377	encode_hv (enc_t enc, HV hv)
345	{	378	{
346	int count, i;	379	int count, i;
347		380
		381	if (enc->indent >= enc->maxdepth)
		382	croak ("data structure too deep (hit recursion limit)");
		383
348	encode_ch (enc, '{'); encode_nl (enc); ++enc->indent;	384	encode_ch (enc, '{'); encode_nl (enc); ++enc->indent;
349		385
350	if ((count = hv_iterinit (hv)))	386	if ((count = hv_iterinit (hv)))
351	{	387	{
352	// for canonical output we have to sort by keys first	388	// for canonical output we have to sort by keys first
353	// actually, this is mostly due to the stupid so-called	389	// actually, this is mostly due to the stupid so-called
354	// security workaround added somewhere in 5.8.x.	390	// security workaround added somewhere in 5.8.x.
355	// that randomises hash orderings	391	// that randomises hash orderings
356	if (enc->flags & F_CANONICAL)	392	if (enc->flags & F_CANONICAL)
357	{	393	{
358	HE he, hes [count]; // if your compiler dies here, you need to enable C99 mode
359	int fast = 1;	394	int fast = 1;
		395	HE *he;
		396	#if defined(__BORLANDC__) \|\| defined(_MSC_VER)
		397	HE *hes = _alloca (count sizeof (HE));
		398	#else
		399	HE *hes [count]; // if your compiler dies here, you need to enable C99 mode
		400	#endif
360		401
361	i = 0;	402	i = 0;
362	while ((he = hv_iternext (hv)))	403	while ((he = hv_iternext (hv)))
363	{	404	{
364	hes [i++] = he;	405	hes [i++] = he;
…		…
399		440
400	encode_nl (enc);	441	encode_nl (enc);
401	}	442	}
402	else	443	else
403	{	444	{
404	SV *sv;
405	HE *he = hv_iternext (hv);	445	HE *he = hv_iternext (hv);
406		446
407	for (;;)	447	for (;;)
408	{	448	{
409	encode_indent (enc);	449	encode_indent (enc);
…		…
418	encode_nl (enc);	458	encode_nl (enc);
419	}	459	}
420	}	460	}
421		461
422	--enc->indent; encode_indent (enc); encode_ch (enc, '}');	462	--enc->indent; encode_indent (enc); encode_ch (enc, '}');
		463	}
		464
		465	// encode objects, arrays and special \0=false and \1=true values.
		466	static void
		467	encode_rv (enc_t enc, SV sv)
		468	{
		469	svtype svt;
		470
		471	SvGETMAGIC (sv);
		472	svt = SvTYPE (sv);
		473
		474	if (svt == SVt_PVHV)
		475	encode_hv (enc, (HV *)sv);
		476	else if (svt == SVt_PVAV)
		477	encode_av (enc, (AV *)sv);
		478	else if (svt < SVt_PVAV)
		479	{
		480	if (SvNIOK (sv) && SvIV (sv) == 0)
		481	encode_str (enc, "false", 5, 0);
		482	else if (SvNIOK (sv) && SvIV (sv) == 1)
		483	encode_str (enc, "true", 4, 0);
		484	else
		485	croak ("cannot encode reference to scalar '%s' unless the scalar is 0 or 1",
		486	SvPV_nolen (sv_2mortal (newRV_inc (sv))));
		487	}
		488	else
		489	croak ("encountered %s, but JSON can only represent references to arrays or hashes",
		490	SvPV_nolen (sv_2mortal (newRV_inc (sv))));
423	}	491	}
424		492
425	static void	493	static void
426	encode_sv (enc_t enc, SV sv)	494	encode_sv (enc_t enc, SV sv)
427	{	495	{
…		…
435	encode_str (enc, str, len, SvUTF8 (sv));	503	encode_str (enc, str, len, SvUTF8 (sv));
436	encode_ch (enc, '"');	504	encode_ch (enc, '"');
437	}	505	}
438	else if (SvNOKp (sv))	506	else if (SvNOKp (sv))
439	{	507	{
		508	// trust that perl will do the right thing w.r.t. JSON syntax.
440	need (enc, NV_DIG + 32);	509	need (enc, NV_DIG + 32);
441	Gconvert (SvNVX (sv), NV_DIG, 0, enc->cur);	510	Gconvert (SvNVX (sv), NV_DIG, 0, enc->cur);
442	enc->cur += strlen (enc->cur);	511	enc->cur += strlen (enc->cur);
443	}	512	}
444	else if (SvIOKp (sv))	513	else if (SvIOKp (sv))
445	{	514	{
446	need (enc, 64);	515	// we assume we can always read an IV as a UV
		516	if (SvUV (sv) & ~(UV)0x7fff)
		517	{
		518	// large integer, use the (rather slow) snprintf way.
		519	need (enc, sizeof (UV) * 3);
447	enc->cur +=	520	enc->cur +=
448	SvIsUV(sv)	521	SvIsUV(sv)
449	? snprintf (enc->cur, 64, "%"UVuf, (UV)SvUVX (sv))	522	? snprintf (enc->cur, sizeof (UV) * 3, "%"UVuf, (UV)SvUVX (sv))
450	: snprintf (enc->cur, 64, "%"IVdf, (IV)SvIVX (sv));	523	: snprintf (enc->cur, sizeof (UV) * 3, "%"IVdf, (IV)SvIVX (sv));
		524	}
		525	else
		526	{
		527	// optimise the "small number case"
		528	// code will likely be branchless and use only a single multiplication
		529	I32 i = SvIV (sv);
		530	U32 u;
		531	char digit, nz = 0;
		532
		533	need (enc, 6);
		534
		535	*enc->cur = '-'; enc->cur += i < 0 ? 1 : 0;
		536	u = i < 0 ? -i : i;
		537
		538	// convert to 4.28 fixed-point representation
		539	u = u * ((0xfffffff + 10000) / 10000); // 10**5, 5 fractional digits
		540
		541	// now output digit by digit, each time masking out the integer part
		542	// and multiplying by 5 while moving the decimal point one to the right,
		543	// resulting in a net multiplication by 10.
		544	// we always write the digit to memory but conditionally increment
		545	// the pointer, to ease the usage of conditional move instructions.
		546	digit = u >> 28; enc->cur = digit + '0'; enc->cur += (nz = nz \|\| digit); u = (u & 0xfffffff) 5;
		547	digit = u >> 27; enc->cur = digit + '0'; enc->cur += (nz = nz \|\| digit); u = (u & 0x7ffffff) 5;
		548	digit = u >> 26; enc->cur = digit + '0'; enc->cur += (nz = nz \|\| digit); u = (u & 0x3ffffff) 5;
		549	digit = u >> 25; enc->cur = digit + '0'; enc->cur += (nz = nz \|\| digit); u = (u & 0x1ffffff) 5;
		550	digit = u >> 24; *enc->cur = digit + '0'; enc->cur += 1; // correctly generate '0'
		551	}
451	}	552	}
452	else if (SvROK (sv))	553	else if (SvROK (sv))
453	{	554	encode_rv (enc, SvRV (sv));
454	SV *rv = SvRV (sv);
455
456	if (enc->indent >= enc->maxdepth)
457	croak ("data structure too deep (hit recursion limit)");
458
459	switch (SvTYPE (rv))
460	{
461	case SVt_PVAV: encode_av (enc, (AV *)rv); break;
462	case SVt_PVHV: encode_hv (enc, (HV *)rv); break;
463
464	default:
465	croak ("encountered %s, but JSON can only represent references to arrays or hashes",
466	SvPV_nolen (sv));
467	}
468	}
469	else if (!SvOK (sv))	555	else if (!SvOK (sv))
470	encode_str (enc, "null", 4, 0);	556	encode_str (enc, "null", 4, 0);
471	else	557	else
472	croak ("encountered perl type (%s,0x%x) that JSON cannot handle, you might want to report this",	558	croak ("encountered perl type (%s,0x%x) that JSON cannot handle, you might want to report this",
473	SvPV_nolen (sv), SvFLAGS (sv));	559	SvPV_nolen (sv), SvFLAGS (sv));
474	}	560	}
475		561
476	static SV *	562	static SV *
477	encode_json (SV *scalar, U32 flags)	563	encode_json (SV *scalar, U32 flags)
478	{	564	{
		565	enc_t enc;
		566
479	if (!(flags & F_ALLOW_NONREF) && !SvROK (scalar))	567	if (!(flags & F_ALLOW_NONREF) && !SvROK (scalar))
480	croak ("hash- or arrayref expected (not a simple scalar, use allow_nonref to allow this)");	568	croak ("hash- or arrayref expected (not a simple scalar, use allow_nonref to allow this)");
481		569
482	enc_t enc;
483	enc.flags = flags;	570	enc.flags = flags;
484	enc.sv = sv_2mortal (NEWSV (0, INIT_SIZE));	571	enc.sv = sv_2mortal (NEWSV (0, INIT_SIZE));
485	enc.cur = SvPVX (enc.sv);	572	enc.cur = SvPVX (enc.sv);
486	enc.end = SvEND (enc.sv);	573	enc.end = SvEND (enc.sv);
487	enc.indent = 0;	574	enc.indent = 0;
488	enc.maxdepth = DEC_DEPTH (flags);	575	enc.maxdepth = DEC_DEPTH (flags);
489		576
490	SvPOK_only (enc.sv);	577	SvPOK_only (enc.sv);
491	encode_sv (&enc, scalar);	578	encode_sv (&enc, scalar);
492		579
		580	SvCUR_set (enc.sv, enc.cur - SvPVX (enc.sv));
		581	*SvEND (enc.sv) = 0; // many xs functions expect a trailing 0 for text strings
		582
493	if (!(flags & (F_ASCII \| F_UTF8)))	583	if (!(flags & (F_ASCII \| F_LATIN1 \| F_UTF8)))
494	SvUTF8_on (enc.sv);	584	SvUTF8_on (enc.sv);
495
496	SvCUR_set (enc.sv, enc.cur - SvPVX (enc.sv));
497		585
498	if (enc.flags & F_SHRINK)	586	if (enc.flags & F_SHRINK)
499	shrink (enc.sv);	587	shrink (enc.sv);
500		588
501	return enc.sv;	589	return enc.sv;
…		…
513	U32 flags; // F_*	601	U32 flags; // F_*
514	U32 depth; // recursion depth	602	U32 depth; // recursion depth
515	U32 maxdepth; // recursion depth limit	603	U32 maxdepth; // recursion depth limit
516	} dec_t;	604	} dec_t;
517		605
518	static void	606	inline void
519	decode_ws (dec_t *dec)	607	decode_ws (dec_t *dec)
520	{	608	{
521	for (;;)	609	for (;;)
522	{	610	{
523	char ch = *dec->cur;	611	char ch = *dec->cur;
…		…
549	decode_4hex (dec_t *dec)	637	decode_4hex (dec_t *dec)
550	{	638	{
551	signed char d1, d2, d3, d4;	639	signed char d1, d2, d3, d4;
552	unsigned char cur = (unsigned char )dec->cur;	640	unsigned char cur = (unsigned char )dec->cur;
553		641
554	d1 = decode_hexdigit [cur [0]]; if (d1 < 0) ERR ("four hexadecimal digits expected");	642	d1 = decode_hexdigit [cur [0]]; if (expect_false (d1 < 0)) ERR ("exactly four hexadecimal digits expected");
555	d2 = decode_hexdigit [cur [1]]; if (d2 < 0) ERR ("four hexadecimal digits expected");	643	d2 = decode_hexdigit [cur [1]]; if (expect_false (d2 < 0)) ERR ("exactly four hexadecimal digits expected");
556	d3 = decode_hexdigit [cur [2]]; if (d3 < 0) ERR ("four hexadecimal digits expected");	644	d3 = decode_hexdigit [cur [2]]; if (expect_false (d3 < 0)) ERR ("exactly four hexadecimal digits expected");
557	d4 = decode_hexdigit [cur [3]]; if (d4 < 0) ERR ("four hexadecimal digits expected");	645	d4 = decode_hexdigit [cur [3]]; if (expect_false (d4 < 0)) ERR ("exactly four hexadecimal digits expected");
558		646
559	dec->cur += 4;	647	dec->cur += 4;
560		648
561	return ((UV)d1) << 12	649	return ((UV)d1) << 12
562	\| ((UV)d2) << 8	650	\| ((UV)d2) << 8
…		…
570	static SV *	658	static SV *
571	decode_str (dec_t *dec)	659	decode_str (dec_t *dec)
572	{	660	{
573	SV *sv = 0;	661	SV *sv = 0;
574	int utf8 = 0;	662	int utf8 = 0;
		663	char *dec_cur = dec->cur;
575		664
576	do	665	do
577	{	666	{
578	char buf [SHORT_STRING_LEN + UTF8_MAX_LEN];	667	char buf [SHORT_STRING_LEN + UTF8_MAXBYTES];
579	char *cur = buf;	668	char *cur = buf;
580		669
581	do	670	do
582	{	671	{
583	unsigned char ch = (unsigned char )dec->cur++;	672	unsigned char ch = (unsigned char )dec_cur++;
584		673
585	if (ch == '"')	674	if (expect_false (ch == '"'))
586	{	675	{
587	--dec->cur;	676	--dec_cur;
588	break;	677	break;
589	}	678	}
590	else if (ch == '\\')	679	else if (expect_false (ch == '\\'))
591	{	680	{
592	switch (*dec->cur)	681	switch (*dec_cur)
593	{	682	{
594	case '\\':	683	case '\\':
595	case '/':	684	case '/':
596	case '"': cur++ = dec->cur++; break;	685	case '"': cur++ = dec_cur++; break;
597		686
598	case 'b': ++dec->cur; *cur++ = '\010'; break;	687	case 'b': ++dec_cur; *cur++ = '\010'; break;
599	case 't': ++dec->cur; *cur++ = '\011'; break;	688	case 't': ++dec_cur; *cur++ = '\011'; break;
600	case 'n': ++dec->cur; *cur++ = '\012'; break;	689	case 'n': ++dec_cur; *cur++ = '\012'; break;
601	case 'f': ++dec->cur; *cur++ = '\014'; break;	690	case 'f': ++dec_cur; *cur++ = '\014'; break;
602	case 'r': ++dec->cur; *cur++ = '\015'; break;	691	case 'r': ++dec_cur; *cur++ = '\015'; break;
603		692
604	case 'u':	693	case 'u':
605	{	694	{
606	UV lo, hi;	695	UV lo, hi;
607	++dec->cur;	696	++dec_cur;
608		697
		698	dec->cur = dec_cur;
609	hi = decode_4hex (dec);	699	hi = decode_4hex (dec);
		700	dec_cur = dec->cur;
610	if (hi == (UV)-1)	701	if (hi == (UV)-1)
611	goto fail;	702	goto fail;
612		703
613	// possibly a surrogate pair	704	// possibly a surrogate pair
614	if (hi >= 0xd800)	705	if (hi >= 0xd800)
615	if (hi < 0xdc00)	706	if (hi < 0xdc00)
616	{	707	{
617	if (dec->cur [0] != '\\' \|\| dec->cur [1] != 'u')	708	if (dec_cur [0] != '\\' \|\| dec_cur [1] != 'u')
618	ERR ("missing low surrogate character in surrogate pair");	709	ERR ("missing low surrogate character in surrogate pair");
619		710
620	dec->cur += 2;	711	dec_cur += 2;
621		712
		713	dec->cur = dec_cur;
622	lo = decode_4hex (dec);	714	lo = decode_4hex (dec);
		715	dec_cur = dec->cur;
623	if (lo == (UV)-1)	716	if (lo == (UV)-1)
624	goto fail;	717	goto fail;
625		718
626	if (lo < 0xdc00 \|\| lo >= 0xe000)	719	if (lo < 0xdc00 \|\| lo >= 0xe000)
627	ERR ("surrogate pair expected");	720	ERR ("surrogate pair expected");
…		…
641	*cur++ = hi;	734	*cur++ = hi;
642	}	735	}
643	break;	736	break;
644		737
645	default:	738	default:
646	--dec->cur;	739	--dec_cur;
647	ERR ("illegal backslash escape sequence in string");	740	ERR ("illegal backslash escape sequence in string");
648	}	741	}
649	}	742	}
650	else if (ch >= 0x20 && ch <= 0x7f)	743	else if (expect_true (ch >= 0x20 && ch <= 0x7f))
651	*cur++ = ch;	744	*cur++ = ch;
652	else if (ch >= 0x80)	745	else if (ch >= 0x80)
653	{	746	{
654	--dec->cur;
655
656	STRLEN clen;	747	STRLEN clen;
		748	UV uch;
		749
		750	--dec_cur;
		751
657	UV uch = decode_utf8 (dec->cur, dec->end - dec->cur, &clen);	752	uch = decode_utf8 (dec_cur, dec->end - dec_cur, &clen);
658	if (clen == (STRLEN)-1)	753	if (clen == (STRLEN)-1)
659	ERR ("malformed UTF-8 character in JSON string");	754	ERR ("malformed UTF-8 character in JSON string");
660		755
661	do	756	do
662	{
663	cur++ = dec->cur++;	757	cur++ = dec_cur++;
664	}
665	while (--clen);	758	while (--clen);
666		759
667	utf8 = 1;	760	utf8 = 1;
668	}	761	}
669	else if (!ch)
670	ERR ("unexpected end of string while parsing json string");
671	else	762	else
		763	{
		764	--dec_cur;
		765
		766	if (!ch)
		767	ERR ("unexpected end of string while parsing JSON string");
		768	else
672	ERR ("invalid character encountered");	769	ERR ("invalid character encountered while parsing JSON string");
673		770	}
674	}	771	}
675	while (cur < buf + SHORT_STRING_LEN);	772	while (cur < buf + SHORT_STRING_LEN);
676		773
		774	{
677	STRLEN len = cur - buf;	775	STRLEN len = cur - buf;
678		776
679	if (sv)	777	if (sv)
680	{	778	{
681	SvGROW (sv, SvCUR (sv) + len + 1);	779	SvGROW (sv, SvCUR (sv) + len + 1);
682	memcpy (SvPVX (sv) + SvCUR (sv), buf, len);	780	memcpy (SvPVX (sv) + SvCUR (sv), buf, len);
683	SvCUR_set (sv, SvCUR (sv) + len);	781	SvCUR_set (sv, SvCUR (sv) + len);
684	}	782	}
685	else	783	else
686	sv = newSVpvn (buf, len);	784	sv = newSVpvn (buf, len);
687	}	785	}
		786	}
688	while (*dec->cur != '"');	787	while (*dec_cur != '"');
689		788
690	++dec->cur;	789	++dec_cur;
691		790
692	if (sv)	791	if (sv)
693	{	792	{
694	SvPOK_only (sv);	793	SvPOK_only (sv);
695	*SvEND (sv) = 0;	794	*SvEND (sv) = 0;
…		…
698	SvUTF8_on (sv);	797	SvUTF8_on (sv);
699	}	798	}
700	else	799	else
701	sv = newSVpvn ("", 0);	800	sv = newSVpvn ("", 0);
702		801
		802	dec->cur = dec_cur;
703	return sv;	803	return sv;
704		804
705	fail:	805	fail:
		806	dec->cur = dec_cur;
706	return 0;	807	return 0;
707	}	808	}
708		809
709	static SV *	810	static SV *
710	decode_num (dec_t *dec)	811	decode_num (dec_t *dec)
…		…
768	is_nv = 1;	869	is_nv = 1;
769	}	870	}
770		871
771	if (!is_nv)	872	if (!is_nv)
772	{	873	{
773	UV uv;	874	// special case the rather common 1..4-digit-int case, assumes 32 bit ints or so
774	int numtype = grok_number (start, dec->cur - start, &uv);	875	if (*start == '-')
775	if (numtype & IS_NUMBER_IN_UV)	876	switch (dec->cur - start)
776	if (numtype & IS_NUMBER_NEG)
777	{	877	{
778	if (uv < (UV)IV_MIN)	878	case 2: return newSViv (-( start [1] - '0' * 1));
779	return newSViv (-(IV)uv);	879	case 3: return newSViv (-( start [1] * 10 + start [2] - '0' * 11));
		880	case 4: return newSViv (-( start [1] * 100 + start [2] * 10 + start [3] - '0' * 111));
		881	case 5: return newSViv (-(start [1] * 1000 + start [2] * 100 + start [3] * 10 + start [4] - '0' * 1111));
780	}	882	}
		883	else
		884	switch (dec->cur - start)
		885	{
		886	case 1: return newSViv ( start [0] - '0' * 1);
		887	case 2: return newSViv ( start [0] * 10 + start [1] - '0' * 11);
		888	case 3: return newSViv ( start [0] * 100 + start [1] * 10 + start [2] - '0' * 111);
		889	case 4: return newSViv ( start [0] * 1000 + start [1] * 100 + start [2] * 10 + start [3] - '0' * 1111);
		890	}
		891
		892	{
		893	UV uv;
		894	int numtype = grok_number (start, dec->cur - start, &uv);
		895	if (numtype & IS_NUMBER_IN_UV)
		896	if (numtype & IS_NUMBER_NEG)
		897	{
		898	if (uv < (UV)IV_MIN)
		899	return newSViv (-(IV)uv);
		900	}
781	else	901	else
782	return newSVuv (uv);	902	return newSVuv (uv);
		903
		904	// here would likely be the place for bigint support
783	}	905	}
		906	}
784		907
		908	// if we ever support bigint or bigfloat, this is the place for bigfloat
785	return newSVnv (Atof (start));	909	return newSVnv (Atof (start));
786		910
787	fail:	911	fail:
788	return 0;	912	return 0;
789	}	913	}
…		…
890		1014
891	static SV *	1015	static SV *
892	decode_sv (dec_t *dec)	1016	decode_sv (dec_t *dec)
893	{	1017	{
894	decode_ws (dec);	1018	decode_ws (dec);
		1019
		1020	// the beauty of JSON: you need exactly one character lookahead
		1021	// to parse anything.
895	switch (*dec->cur)	1022	switch (*dec->cur)
896	{	1023	{
897	case '"': ++dec->cur; return decode_str (dec);	1024	case '"': ++dec->cur; return decode_str (dec);
898	case '[': ++dec->cur; return decode_av (dec);	1025	case '[': ++dec->cur; return decode_av (dec);
899	case '{': ++dec->cur; return decode_hv (dec);	1026	case '{': ++dec->cur; return decode_hv (dec);
…		…
905		1032
906	case 't':	1033	case 't':
907	if (dec->end - dec->cur >= 4 && !memcmp (dec->cur, "true", 4))	1034	if (dec->end - dec->cur >= 4 && !memcmp (dec->cur, "true", 4))
908	{	1035	{
909	dec->cur += 4;	1036	dec->cur += 4;
910	return newSViv (1);	1037	return SvREFCNT_inc (json_true);
911	}	1038	}
912	else	1039	else
913	ERR ("'true' expected");	1040	ERR ("'true' expected");
914		1041
915	break;	1042	break;
916		1043
917	case 'f':	1044	case 'f':
918	if (dec->end - dec->cur >= 5 && !memcmp (dec->cur, "false", 5))	1045	if (dec->end - dec->cur >= 5 && !memcmp (dec->cur, "false", 5))
919	{	1046	{
920	dec->cur += 5;	1047	dec->cur += 5;
921	return newSViv (0);	1048	return SvREFCNT_inc (json_false);
922	}	1049	}
923	else	1050	else
924	ERR ("'false' expected");	1051	ERR ("'false' expected");
925		1052
926	break;	1053	break;
…		…
935	ERR ("'null' expected");	1062	ERR ("'null' expected");
936		1063
937	break;	1064	break;
938		1065
939	default:	1066	default:
940	ERR ("malformed json string, neither array, object, number, string or atom");	1067	ERR ("malformed JSON string, neither array, object, number, string or atom");
941	break;	1068	break;
942	}	1069	}
943		1070
944	fail:	1071	fail:
945	return 0;	1072	return 0;
946	}	1073	}
947		1074
948	static SV *	1075	static SV *
949	decode_json (SV *string, U32 flags)	1076	decode_json (SV string, U32 flags, UV offset_return)
950	{	1077	{
		1078	dec_t dec;
		1079	UV offset;
951	SV *sv;	1080	SV *sv;
		1081
		1082	SvGETMAGIC (string);
		1083	SvUPGRADE (string, SVt_PV);
952		1084
953	if (flags & F_UTF8)	1085	if (flags & F_UTF8)
954	sv_utf8_downgrade (string, 0);	1086	sv_utf8_downgrade (string, 0);
955	else	1087	else
956	sv_utf8_upgrade (string);	1088	sv_utf8_upgrade (string);
957		1089
958	SvGROW (string, SvCUR (string) + 1); // should basically be a NOP	1090	SvGROW (string, SvCUR (string) + 1); // should basically be a NOP
959		1091
960	dec_t dec;
961	dec.flags = flags;	1092	dec.flags = flags;
962	dec.cur = SvPVX (string);	1093	dec.cur = SvPVX (string);
963	dec.end = SvEND (string);	1094	dec.end = SvEND (string);
964	dec.err = 0;	1095	dec.err = 0;
965	dec.depth = 0;	1096	dec.depth = 0;
966	dec.maxdepth = DEC_DEPTH (dec.flags);	1097	dec.maxdepth = DEC_DEPTH (dec.flags);
967		1098
968	*SvEND (sv) = 0; // this shou[ld basically be a nop, too	1099	*dec.end = 0; // this should basically be a nop, too, but make sure it's there
969	sv = decode_sv (&dec);	1100	sv = decode_sv (&dec);
970		1101
		1102	if (!(offset_return \|\| !sv))
		1103	{
		1104	// check for trailing garbage
		1105	decode_ws (&dec);
		1106
		1107	if (*dec.cur)
		1108	{
		1109	dec.err = "garbage after JSON object";
		1110	SvREFCNT_dec (sv);
		1111	sv = 0;
		1112	}
		1113	}
		1114
		1115	if (offset_return \|\| !sv)
		1116	{
		1117	offset = dec.flags & F_UTF8
		1118	? dec.cur - SvPVX (string)
		1119	: utf8_distance (dec.cur, SvPVX (string));
		1120
		1121	if (offset_return)
		1122	*offset_return = offset;
		1123	}
		1124
971	if (!sv)	1125	if (!sv)
972	{	1126	{
973	IV offset = dec.flags & F_UTF8
974	? dec.cur - SvPVX (string)
975	: utf8_distance (dec.cur, SvPVX (string));
976	SV *uni = sv_newmortal ();	1127	SV *uni = sv_newmortal ();
977		1128
978	// horrible hack to silence warning inside pv_uni_display	1129	// horrible hack to silence warning inside pv_uni_display
979	COP cop = *PL_curcop;	1130	COP cop = *PL_curcop;
980	cop.cop_warnings = pWARN_NONE;	1131	cop.cop_warnings = pWARN_NONE;
…		…
982	SAVEVPTR (PL_curcop);	1133	SAVEVPTR (PL_curcop);
983	PL_curcop = &cop;	1134	PL_curcop = &cop;
984	pv_uni_display (uni, dec.cur, dec.end - dec.cur, 20, UNI_DISPLAY_QQ);	1135	pv_uni_display (uni, dec.cur, dec.end - dec.cur, 20, UNI_DISPLAY_QQ);
985	LEAVE;	1136	LEAVE;
986		1137
987	croak ("%s, at character offset %d (%s)",	1138	croak ("%s, at character offset %d [\"%s\"]",
988	dec.err,	1139	dec.err,
989	(int)offset,	1140	(int)offset,
990	dec.cur != dec.end ? SvPV_nolen (uni) : "(end of string)");	1141	dec.cur != dec.end ? SvPV_nolen (uni) : "(end of string)");
991	}	1142	}
992		1143
…		…
1004	MODULE = JSON::XS PACKAGE = JSON::XS	1155	MODULE = JSON::XS PACKAGE = JSON::XS
1005		1156
1006	BOOT:	1157	BOOT:
1007	{	1158	{
1008	int i;	1159	int i;
1009
1010	memset (decode_hexdigit, 0xff, 256);
1011		1160
1012	for (i = 0; i < 256; ++i)	1161	for (i = 0; i < 256; ++i)
1013	decode_hexdigit [i] =	1162	decode_hexdigit [i] =
1014	i >= '0' && i <= '9' ? i - '0'	1163	i >= '0' && i <= '9' ? i - '0'
1015	: i >= 'a' && i <= 'f' ? i - 'a' + 10	1164	: i >= 'a' && i <= 'f' ? i - 'a' + 10
1016	: i >= 'A' && i <= 'F' ? i - 'A' + 10	1165	: i >= 'A' && i <= 'F' ? i - 'A' + 10
1017	: -1;	1166	: -1;
1018		1167
1019	json_stash = gv_stashpv ("JSON::XS", 1);	1168	json_stash = gv_stashpv ("JSON::XS", 1);
		1169
		1170	json_true = get_sv ("JSON::XS::true" , 1); SvREADONLY_on (json_true );
		1171	json_false = get_sv ("JSON::XS::false", 1); SvREADONLY_on (json_false);
1020	}	1172	}
1021		1173
1022	PROTOTYPES: DISABLE	1174	PROTOTYPES: DISABLE
1023		1175
1024	SV new (char dummy)	1176	SV new (char dummy)
…		…
1028	RETVAL	1180	RETVAL
1029		1181
1030	SV ascii (SV self, int enable = 1)	1182	SV ascii (SV self, int enable = 1)
1031	ALIAS:	1183	ALIAS:
1032	ascii = F_ASCII	1184	ascii = F_ASCII
		1185	latin1 = F_LATIN1
1033	utf8 = F_UTF8	1186	utf8 = F_UTF8
1034	indent = F_INDENT	1187	indent = F_INDENT
1035	canonical = F_CANONICAL	1188	canonical = F_CANONICAL
1036	space_before = F_SPACE_BEFORE	1189	space_before = F_SPACE_BEFORE
1037	space_after = F_SPACE_AFTER	1190	space_after = F_SPACE_AFTER
…		…
1049	RETVAL = newSVsv (self);	1202	RETVAL = newSVsv (self);
1050	}	1203	}
1051	OUTPUT:	1204	OUTPUT:
1052	RETVAL	1205	RETVAL
1053		1206
1054	SV max_depth (SV self, int max_depth = 0x80000000UL)	1207	SV max_depth (SV self, UV max_depth = 0x80000000UL)
1055	CODE:	1208	CODE:
1056	{	1209	{
1057	UV *uv = SvJSON (self);	1210	UV *uv = SvJSON (self);
1058	UV log2 = 0;	1211	UV log2 = 0;
1059		1212
…		…
1073	PPCODE:	1226	PPCODE:
1074	XPUSHs (encode_json (scalar, *SvJSON (self)));	1227	XPUSHs (encode_json (scalar, *SvJSON (self)));
1075		1228
1076	void decode (SV self, SV jsonstr)	1229	void decode (SV self, SV jsonstr)
1077	PPCODE:	1230	PPCODE:
1078	XPUSHs (decode_json (jsonstr, *SvJSON (self)));	1231	XPUSHs (decode_json (jsonstr, *SvJSON (self), 0));
		1232
		1233	void decode_prefix (SV self, SV jsonstr)
		1234	PPCODE:
		1235	{
		1236	UV offset;
		1237	EXTEND (SP, 2);
		1238	PUSHs (decode_json (jsonstr, *SvJSON (self), &offset));
		1239	PUSHs (sv_2mortal (newSVuv (offset)));
		1240	}
1079		1241
1080	PROTOTYPES: ENABLE	1242	PROTOTYPES: ENABLE
1081		1243
1082	void to_json (SV *scalar)	1244	void to_json (SV *scalar)
1083	ALIAS:	1245	ALIAS:
…		…
1087		1249
1088	void from_json (SV *jsonstr)	1250	void from_json (SV *jsonstr)
1089	ALIAS:	1251	ALIAS:
1090	jsonToObj = 0	1252	jsonToObj = 0
1091	PPCODE:	1253	PPCODE:
1092	XPUSHs (decode_json (jsonstr, F_DEFAULT \| F_UTF8));	1254	XPUSHs (decode_json (jsonstr, F_DEFAULT \| F_UTF8, 0));
1093		1255

Diff Legend

-–
+Removed lines
-+
+Added lines
-<
+Changed lines
->
+Changed lines

Comparing JSON-XS/XS.xs (file contents): Revision 1.18 by root, Sun Mar 25 21:19:13 2007 UTC vs. Revision 1.43 by root, Sat Jun 23 23:49:29 2007 UTC

Diff Legend

Comparing JSON-XS/XS.xs (file contents):
Revision 1.18 by root, Sun Mar 25 21:19:13 2007 UTC vs.
Revision 1.43 by root, Sat Jun 23 23:49:29 2007 UTC