[ViewVC] Diff of: cvs/JSON-XS/XS.xs

Comparing JSON-XS/XS.xs (file contents):
Revision 1.12 by root, Sat Mar 24 22:10:08 2007 UTC vs.
Revision 1.41 by root, Sat Jun 23 22:53:16 2007 UTC

…		…
3	#include "XSUB.h"	3	#include "XSUB.h"
4		4
5	#include "assert.h"	5	#include "assert.h"
6	#include "string.h"	6	#include "string.h"
7	#include "stdlib.h"	7	#include "stdlib.h"
		8	#include "stdio.h"
8		9
		10	#if defined(__BORLANDC__) \|\| defined(_MSC_VER)
		11	# define snprintf _snprintf // C compilers have this in stdio.h
		12	#endif
		13
		14	// some old perls do not have this, try to make it work, no
		15	// guarentees, though.
		16	#ifndef UTF8_MAXBYTES
		17	# define UTF8_MAXBYTES 13
		18	#endif
		19
9	#define F_ASCII 0x00000001	20	#define F_ASCII 0x00000001UL
		21	#define F_LATIN1 0x00000002UL
10	#define F_UTF8 0x00000002	22	#define F_UTF8 0x00000004UL
11	#define F_INDENT 0x00000004	23	#define F_INDENT 0x00000008UL
12	#define F_CANONICAL 0x00000008	24	#define F_CANONICAL 0x00000010UL
13	#define F_SPACE_BEFORE 0x00000010	25	#define F_SPACE_BEFORE 0x00000020UL
14	#define F_SPACE_AFTER 0x00000020	26	#define F_SPACE_AFTER 0x00000040UL
15	#define F_ALLOW_NONREF 0x00000080	27	#define F_ALLOW_NONREF 0x00000100UL
16	#define F_SHRINK 0x00000100	28	#define F_SHRINK 0x00000200UL
		29	#define F_MAXDEPTH 0xf8000000UL
		30	#define S_MAXDEPTH 27
		31
		32	#define DEC_DEPTH(flags) (1UL << ((flags & F_MAXDEPTH) >> S_MAXDEPTH))
		33
		34	// F_SELFCONVERT? <=> to_json/toJson
		35	// F_BLESSED? <=> { $__class__$ => }
17		36
18	#define F_PRETTY F_INDENT \| F_SPACE_BEFORE \| F_SPACE_AFTER	37	#define F_PRETTY F_INDENT \| F_SPACE_BEFORE \| F_SPACE_AFTER
19	#define F_DEFAULT 0	38	#define F_DEFAULT (9UL << S_MAXDEPTH)
20		39
21	#define INIT_SIZE 32 // initial scalar size to be allocated	40	#define INIT_SIZE 32 // initial scalar size to be allocated
22	#define INDENT_STEP 3 // spaces per indentation level	41	#define INDENT_STEP 3 // spaces per indentation level
23		42
24	#define UTF8_MAX_LEN 11 // for perls UTF-X: max. number of octets per character
25	#define SHORT_STRING_LEN 256 // special-case strings of up to this size	43	#define SHORT_STRING_LEN 16384 // special-case strings of up to this size
26		44
27	#define SB do {	45	#define SB do {
28	#define SE } while (0)	46	#define SE } while (0)
		47
		48	#if __GNUC__ >= 3
		49	# define expect(expr,value) __builtin_expect ((expr),(value))
		50	# define inline inline
		51	#else
		52	# define expect(expr,value) (expr)
		53	# define inline static
		54	#endif
		55
		56	#define expect_false(expr) expect ((expr) != 0, 0)
		57	#define expect_true(expr) expect ((expr) != 0, 1)
29		58
30	static HV *json_stash; // JSON::XS::	59	static HV *json_stash; // JSON::XS::
31		60
32	/////////////////////////////////////////////////////////////////////////////	61	/////////////////////////////////////////////////////////////////////////////
33	// utility functions	62	// utility functions
…		…
53	SvPV_renew (sv, SvCUR (sv) + 1);	82	SvPV_renew (sv, SvCUR (sv) + 1);
54	#endif	83	#endif
55	}	84	}
56	}	85	}
57		86
		87	// decode an utf-8 character and return it, or (UV)-1 in
		88	// case of an error.
		89	// we special-case "safe" characters from U+80 .. U+7FF,
		90	// but use the very good perl function to parse anything else.
		91	// note that we never call this function for a ascii codepoints
		92	inline UV
		93	decode_utf8 (unsigned char s, STRLEN len, STRLEN clen)
		94	{
		95	if (expect_false (s[0] > 0xdf \|\| s[0] < 0xc2))
		96	return utf8n_to_uvuni (s, len, clen, UTF8_CHECK_ONLY);
		97	else if (len > 1 && s[1] >= 0x80 && s[1] <= 0xbf)
		98	{
		99	*clen = 2;
		100	return ((s[0] & 0x1f) << 6) \| (s[1] & 0x3f);
		101	}
		102	else
		103	{
		104	*clen = (STRLEN)-1;
		105	return (UV)-1;
		106	}
		107	}
		108
58	/////////////////////////////////////////////////////////////////////////////	109	/////////////////////////////////////////////////////////////////////////////
59	// encoder	110	// encoder
60		111
61	// structure used for encoding JSON	112	// structure used for encoding JSON
62	typedef struct	113	typedef struct
63	{	114	{
64	char *cur; // SvPVX (sv) + current output position	115	char *cur; // SvPVX (sv) + current output position
65	char *end; // SvEND (sv)	116	char *end; // SvEND (sv)
66	SV *sv; // result scalar	117	SV *sv; // result scalar
67	UV flags; // F_*	118	U32 flags; // F_*
68	int indent; // indentation level	119	U32 indent; // indentation level
69	int max_depth; // max. recursion level	120	U32 maxdepth; // max. indentation/recursion level
70	} enc_t;	121	} enc_t;
71		122
72	static void	123	inline void
73	need (enc_t *enc, STRLEN len)	124	need (enc_t *enc, STRLEN len)
74	{	125	{
75	if (enc->cur + len >= enc->end)	126	if (expect_false (enc->cur + len >= enc->end))
76	{	127	{
77	STRLEN cur = enc->cur - SvPVX (enc->sv);	128	STRLEN cur = enc->cur - SvPVX (enc->sv);
78	SvGROW (enc->sv, cur + len + 1);	129	SvGROW (enc->sv, cur + len + 1);
79	enc->cur = SvPVX (enc->sv) + cur;	130	enc->cur = SvPVX (enc->sv) + cur;
80	enc->end = SvPVX (enc->sv) + SvLEN (enc->sv);	131	enc->end = SvPVX (enc->sv) + SvLEN (enc->sv) - 1;
81	}	132	}
82	}	133	}
83		134
84	static void	135	inline void
85	encode_ch (enc_t *enc, char ch)	136	encode_ch (enc_t *enc, char ch)
86	{	137	{
87	need (enc, 1);	138	need (enc, 1);
88	*enc->cur++ = ch;	139	*enc->cur++ = ch;
89	}	140	}
…		…
97		148
98	while (str < end)	149	while (str < end)
99	{	150	{
100	unsigned char ch = (unsigned char )str;	151	unsigned char ch = (unsigned char )str;
101		152
102	if (ch >= 0x20 && ch < 0x80) // most common case	153	if (expect_true (ch >= 0x20 && ch < 0x80)) // most common case
103	{	154	{
104	if (ch == '"') // but with slow exceptions	155	if (expect_false (ch == '"')) // but with slow exceptions
105	{	156	{
106	need (enc, len += 1);	157	need (enc, len += 1);
107	*enc->cur++ = '\\';	158	*enc->cur++ = '\\';
108	*enc->cur++ = '"';	159	*enc->cur++ = '"';
109	}	160	}
110	else if (ch == '\\')	161	else if (expect_false (ch == '\\'))
111	{	162	{
112	need (enc, len += 1);	163	need (enc, len += 1);
113	*enc->cur++ = '\\';	164	*enc->cur++ = '\\';
114	*enc->cur++ = '\\';	165	*enc->cur++ = '\\';
115	}	166	}
…		…
133	STRLEN clen;	184	STRLEN clen;
134	UV uch;	185	UV uch;
135		186
136	if (is_utf8)	187	if (is_utf8)
137	{	188	{
138	uch = utf8n_to_uvuni (str, end - str, &clen, UTF8_CHECK_ONLY);	189	uch = decode_utf8 (str, end - str, &clen);
139	if (clen == (STRLEN)-1)	190	if (clen == (STRLEN)-1)
140	croak ("malformed or illegal unicode character in string [%.11s], cannot convert to JSON", str);	191	croak ("malformed or illegal unicode character in string [%.11s], cannot convert to JSON", str);
141	}	192	}
142	else	193	else
143	{	194	{
…		…
146	}	197	}
147		198
148	if (uch > 0x10FFFFUL)	199	if (uch > 0x10FFFFUL)
149	croak ("out of range codepoint (0x%lx) encountered, unrepresentable in JSON", (unsigned long)uch);	200	croak ("out of range codepoint (0x%lx) encountered, unrepresentable in JSON", (unsigned long)uch);
150		201
151	if (uch < 0x80 \|\| enc->flags & F_ASCII)	202	if (uch < 0x80 \|\| enc->flags & F_ASCII \|\| (enc->flags & F_LATIN1 && uch > 0xFF))
152	{	203	{
153	if (uch > 0xFFFFUL)	204	if (uch > 0xFFFFUL)
154	{	205	{
155	need (enc, len += 11);	206	need (enc, len += 11);
156	sprintf (enc->cur, "\\u%04x\\u%04x",	207	sprintf (enc->cur, "\\u%04x\\u%04x",
…		…
170	*enc->cur++ = hexdigit [(uch >> 0) & 15];	221	*enc->cur++ = hexdigit [(uch >> 0) & 15];
171	}	222	}
172		223
173	str += clen;	224	str += clen;
174	}	225	}
		226	else if (enc->flags & F_LATIN1)
		227	{
		228	*enc->cur++ = uch;
		229	str += clen;
		230	}
175	else if (is_utf8)	231	else if (is_utf8)
176	{	232	{
177	need (enc, len += clen);	233	need (enc, len += clen);
178	do	234	do
179	{	235	{
…		…
181	}	237	}
182	while (--clen);	238	while (--clen);
183	}	239	}
184	else	240	else
185	{	241	{
186	need (enc, len += UTF8_MAX_LEN - 1); // never more than 11 bytes needed	242	need (enc, len += UTF8_MAXBYTES - 1); // never more than 11 bytes needed
187	enc->cur = uvuni_to_utf8_flags (enc->cur, uch, 0);	243	enc->cur = uvuni_to_utf8_flags (enc->cur, uch, 0);
188	++str;	244	++str;
189	}	245	}
190	}	246	}
191	}	247	}
…		…
193		249
194	--len;	250	--len;
195	}	251	}
196	}	252	}
197		253
198	static void	254	inline void
199	encode_indent (enc_t *enc)	255	encode_indent (enc_t *enc)
200	{	256	{
201	if (enc->flags & F_INDENT)	257	if (enc->flags & F_INDENT)
202	{	258	{
203	int spaces = enc->indent * INDENT_STEP;	259	int spaces = enc->indent * INDENT_STEP;
…		…
206	memset (enc->cur, ' ', spaces);	262	memset (enc->cur, ' ', spaces);
207	enc->cur += spaces;	263	enc->cur += spaces;
208	}	264	}
209	}	265	}
210		266
211	static void	267	inline void
212	encode_space (enc_t *enc)	268	encode_space (enc_t *enc)
213	{	269	{
214	need (enc, 1);	270	need (enc, 1);
215	encode_ch (enc, ' ');	271	encode_ch (enc, ' ');
216	}	272	}
217		273
218	static void	274	inline void
219	encode_nl (enc_t *enc)	275	encode_nl (enc_t *enc)
220	{	276	{
221	if (enc->flags & F_INDENT)	277	if (enc->flags & F_INDENT)
222	{	278	{
223	need (enc, 1);	279	need (enc, 1);
224	encode_ch (enc, '\n');	280	encode_ch (enc, '\n');
225	}	281	}
226	}	282	}
227		283
228	static void	284	inline void
229	encode_comma (enc_t *enc)	285	encode_comma (enc_t *enc)
230	{	286	{
231	encode_ch (enc, ',');	287	encode_ch (enc, ',');
232		288
233	if (enc->flags & F_INDENT)	289	if (enc->flags & F_INDENT)
…		…
240		296
241	static void	297	static void
242	encode_av (enc_t enc, AV av)	298	encode_av (enc_t enc, AV av)
243	{	299	{
244	int i, len = av_len (av);	300	int i, len = av_len (av);
		301
		302	if (enc->indent >= enc->maxdepth)
		303	croak ("data structure too deep (hit recursion limit)");
245		304
246	encode_ch (enc, '['); encode_nl (enc);	305	encode_ch (enc, '['); encode_nl (enc);
247	++enc->indent;	306	++enc->indent;
248		307
249	for (i = 0; i <= len; ++i)	308	for (i = 0; i <= len; ++i)
…		…
316	static void	375	static void
317	encode_hv (enc_t enc, HV hv)	376	encode_hv (enc_t enc, HV hv)
318	{	377	{
319	int count, i;	378	int count, i;
320		379
		380	if (enc->indent >= enc->maxdepth)
		381	croak ("data structure too deep (hit recursion limit)");
		382
321	encode_ch (enc, '{'); encode_nl (enc); ++enc->indent;	383	encode_ch (enc, '{'); encode_nl (enc); ++enc->indent;
322		384
323	if ((count = hv_iterinit (hv)))	385	if ((count = hv_iterinit (hv)))
324	{	386	{
325	// for canonical output we have to sort by keys first	387	// for canonical output we have to sort by keys first
326	// actually, this is mostly due to the stupid so-called	388	// actually, this is mostly due to the stupid so-called
327	// security workaround added somewhere in 5.8.x.	389	// security workaround added somewhere in 5.8.x.
328	// that randomises hash orderings	390	// that randomises hash orderings
329	if (enc->flags & F_CANONICAL)	391	if (enc->flags & F_CANONICAL)
330	{	392	{
331	HE he, hes [count]; // if your compiler dies here, you need to enable C99 mode
332	int fast = 1;	393	int fast = 1;
		394	HE *he;
		395	#if defined(__BORLANDC__) \|\| defined(_MSC_VER)
		396	HE *hes = _alloca (count sizeof (HE));
		397	#else
		398	HE *hes [count]; // if your compiler dies here, you need to enable C99 mode
		399	#endif
333		400
334	i = 0;	401	i = 0;
335	while ((he = hv_iternext (hv)))	402	while ((he = hv_iternext (hv)))
336	{	403	{
337	hes [i++] = he;	404	hes [i++] = he;
…		…
372		439
373	encode_nl (enc);	440	encode_nl (enc);
374	}	441	}
375	else	442	else
376	{	443	{
377	SV *sv;
378	HE *he = hv_iternext (hv);	444	HE *he = hv_iternext (hv);
379		445
380	for (;;)	446	for (;;)
381	{	447	{
382	encode_indent (enc);	448	encode_indent (enc);
…		…
391	encode_nl (enc);	457	encode_nl (enc);
392	}	458	}
393	}	459	}
394		460
395	--enc->indent; encode_indent (enc); encode_ch (enc, '}');	461	--enc->indent; encode_indent (enc); encode_ch (enc, '}');
		462	}
		463
		464	// encode objects, arrays and special \0=false and \1=true values.
		465	static void
		466	encode_rv (enc_t enc, SV sv)
		467	{
		468	svtype svt;
		469
		470	SvGETMAGIC (sv);
		471	svt = SvTYPE (sv);
		472
		473	if (svt == SVt_PVHV)
		474	encode_hv (enc, (HV *)sv);
		475	else if (svt == SVt_PVAV)
		476	encode_av (enc, (AV *)sv);
		477	else if (svt < SVt_PVAV)
		478	{
		479	if (SvNIOK (sv) && SvIV (sv) == 0)
		480	encode_str (enc, "false", 5, 0);
		481	else if (SvNIOK (sv) && SvIV (sv) == 1)
		482	encode_str (enc, "true", 4, 0);
		483	else
		484	croak ("cannot encode reference to scalar '%s' unless the scalar is 0 or 1",
		485	SvPV_nolen (sv_2mortal (newRV_inc (sv))));
		486	}
		487	else
		488	croak ("encountered %s, but JSON can only represent references to arrays or hashes",
		489	SvPV_nolen (sv_2mortal (newRV_inc (sv))));
396	}	490	}
397		491
398	static void	492	static void
399	encode_sv (enc_t enc, SV sv)	493	encode_sv (enc_t enc, SV sv)
400	{	494	{
…		…
408	encode_str (enc, str, len, SvUTF8 (sv));	502	encode_str (enc, str, len, SvUTF8 (sv));
409	encode_ch (enc, '"');	503	encode_ch (enc, '"');
410	}	504	}
411	else if (SvNOKp (sv))	505	else if (SvNOKp (sv))
412	{	506	{
		507	// trust that perl will do the right thing w.r.t. JSON syntax.
413	need (enc, NV_DIG + 32);	508	need (enc, NV_DIG + 32);
414	Gconvert (SvNVX (sv), NV_DIG, 0, enc->cur);	509	Gconvert (SvNVX (sv), NV_DIG, 0, enc->cur);
415	enc->cur += strlen (enc->cur);	510	enc->cur += strlen (enc->cur);
416	}	511	}
417	else if (SvIOKp (sv))	512	else if (SvIOKp (sv))
418	{	513	{
419	need (enc, 64);	514	// we assume we can always read an IV as a UV
		515	if (SvUV (sv) & ~(UV)0x7fff)
		516	{
		517	// large integer, use the (rather slow) snprintf way.
		518	need (enc, sizeof (UV) * 3);
420	enc->cur +=	519	enc->cur +=
421	SvIsUV(sv)	520	SvIsUV(sv)
422	? snprintf (enc->cur, 64, "%"UVuf, (UV)SvUVX (sv))	521	? snprintf (enc->cur, sizeof (UV) * 3, "%"UVuf, (UV)SvUVX (sv))
423	: snprintf (enc->cur, 64, "%"IVdf, (IV)SvIVX (sv));	522	: snprintf (enc->cur, sizeof (UV) * 3, "%"IVdf, (IV)SvIVX (sv));
		523	}
		524	else
		525	{
		526	// optimise the "small number case"
		527	// code will likely be branchless and use only a single multiplication
		528	I32 i = SvIV (sv);
		529	U32 u;
		530	char digit, nz = 0;
		531
		532	need (enc, 6);
		533
		534	*enc->cur = '-'; enc->cur += i < 0 ? 1 : 0;
		535	u = i < 0 ? -i : i;
		536
		537	// convert to 4.28 fixed-point representation
		538	u = u * ((0xfffffff + 10000) / 10000); // 10**5, 5 fractional digits
		539
		540	// now output digit by digit, each time masking out the integer part
		541	// and multiplying by 5 while moving the decimal point one to the right,
		542	// resulting in a net multiplication by 10.
		543	// we always write the digit to memory but conditionally increment
		544	// the pointer, to ease the usage of conditional move instructions.
		545	digit = u >> 28; enc->cur = digit + '0'; enc->cur += (nz = nz \|\| digit); u = (u & 0xfffffff) 5;
		546	digit = u >> 27; enc->cur = digit + '0'; enc->cur += (nz = nz \|\| digit); u = (u & 0x7ffffff) 5;
		547	digit = u >> 26; enc->cur = digit + '0'; enc->cur += (nz = nz \|\| digit); u = (u & 0x3ffffff) 5;
		548	digit = u >> 25; enc->cur = digit + '0'; enc->cur += (nz = nz \|\| digit); u = (u & 0x1ffffff) 5;
		549	digit = u >> 24; *enc->cur = digit + '0'; enc->cur += 1; // correctly generate '0'
		550	}
424	}	551	}
425	else if (SvROK (sv))	552	else if (SvROK (sv))
426	{	553	encode_rv (enc, SvRV (sv));
427	SV *rv = SvRV (sv);
428
429	if (enc->indent >= enc->max_depth)
430	croak ("data structure too deep (hit recursion limit)");
431
432	switch (SvTYPE (rv))
433	{
434	case SVt_PVAV: encode_av (enc, (AV *)rv); break;
435	case SVt_PVHV: encode_hv (enc, (HV *)rv); break;
436
437	default:
438	croak ("encountered %s, but JSON can only represent references to arrays or hashes",
439	SvPV_nolen (sv));
440	}
441	}
442	else if (!SvOK (sv))	554	else if (!SvOK (sv))
443	encode_str (enc, "null", 4, 0);	555	encode_str (enc, "null", 4, 0);
444	else	556	else
445	croak ("encountered perl type (%s,0x%x) that JSON cannot handle, you might want to report this",	557	croak ("encountered perl type (%s,0x%x) that JSON cannot handle, you might want to report this",
446	SvPV_nolen (sv), SvFLAGS (sv));	558	SvPV_nolen (sv), SvFLAGS (sv));
447	}	559	}
448		560
449	static SV *	561	static SV *
450	encode_json (SV *scalar, UV flags)	562	encode_json (SV *scalar, U32 flags)
451	{	563	{
		564	enc_t enc;
		565
452	if (!(flags & F_ALLOW_NONREF) && !SvROK (scalar))	566	if (!(flags & F_ALLOW_NONREF) && !SvROK (scalar))
453	croak ("hash- or arrayref expected (not a simple scalar, use allow_nonref to allow this)");	567	croak ("hash- or arrayref expected (not a simple scalar, use allow_nonref to allow this)");
454		568
455	enc_t enc;
456	enc.flags = flags;	569	enc.flags = flags;
457	enc.sv = sv_2mortal (NEWSV (0, INIT_SIZE));	570	enc.sv = sv_2mortal (NEWSV (0, INIT_SIZE));
458	enc.cur = SvPVX (enc.sv);	571	enc.cur = SvPVX (enc.sv);
459	enc.end = SvEND (enc.sv);	572	enc.end = SvEND (enc.sv);
460	enc.indent = 0;	573	enc.indent = 0;
461	enc.max_depth = 0x7fffffffUL;	574	enc.maxdepth = DEC_DEPTH (flags);
462		575
463	SvPOK_only (enc.sv);	576	SvPOK_only (enc.sv);
464	encode_sv (&enc, scalar);	577	encode_sv (&enc, scalar);
465		578
		579	SvCUR_set (enc.sv, enc.cur - SvPVX (enc.sv));
		580	*SvEND (enc.sv) = 0; // many xs functions expect a trailing 0 for text strings
		581
466	if (!(flags & (F_ASCII \| F_UTF8)))	582	if (!(flags & (F_ASCII \| F_LATIN1 \| F_UTF8)))
467	SvUTF8_on (enc.sv);	583	SvUTF8_on (enc.sv);
468
469	SvCUR_set (enc.sv, enc.cur - SvPVX (enc.sv));
470		584
471	if (enc.flags & F_SHRINK)	585	if (enc.flags & F_SHRINK)
472	shrink (enc.sv);	586	shrink (enc.sv);
473		587
474	return enc.sv;	588	return enc.sv;
…		…
481	typedef struct	595	typedef struct
482	{	596	{
483	char *cur; // current parser pointer	597	char *cur; // current parser pointer
484	char *end; // end of input string	598	char *end; // end of input string
485	const char *err; // parse error, if != 0	599	const char *err; // parse error, if != 0
486	UV flags; // F_*	600	U32 flags; // F_*
		601	U32 depth; // recursion depth
		602	U32 maxdepth; // recursion depth limit
487	} dec_t;	603	} dec_t;
488		604
489	static void	605	inline void
490	decode_ws (dec_t *dec)	606	decode_ws (dec_t *dec)
491	{	607	{
492	for (;;)	608	for (;;)
493	{	609	{
494	char ch = *dec->cur;	610	char ch = *dec->cur;
…		…
500	++dec->cur;	616	++dec->cur;
501	}	617	}
502	}	618	}
503		619
504	#define ERR(reason) SB dec->err = reason; goto fail; SE	620	#define ERR(reason) SB dec->err = reason; goto fail; SE
		621
505	#define EXPECT_CH(ch) SB \	622	#define EXPECT_CH(ch) SB \
506	if (*dec->cur != ch) \	623	if (*dec->cur != ch) \
507	ERR (# ch " expected"); \	624	ERR (# ch " expected"); \
508	++dec->cur; \	625	++dec->cur; \
509	SE	626	SE
510		627
		628	#define DEC_INC_DEPTH if (++dec->depth > dec->maxdepth) ERR ("json datastructure exceeds maximum nesting level (set a higher max_depth)")
		629	#define DEC_DEC_DEPTH --dec->depth
		630
511	static SV decode_sv (dec_t dec);	631	static SV decode_sv (dec_t dec);
512		632
513	static signed char decode_hexdigit[256];	633	static signed char decode_hexdigit[256];
514		634
515	static UV	635	static UV
516	decode_4hex (dec_t *dec)	636	decode_4hex (dec_t *dec)
517	{	637	{
518	signed char d1, d2, d3, d4;	638	signed char d1, d2, d3, d4;
519	unsigned char cur = (unsigned char )dec->cur;	639	unsigned char cur = (unsigned char )dec->cur;
520		640
521	d1 = decode_hexdigit [cur [0]]; if (d1 < 0) ERR ("four hexadecimal digits expected");	641	d1 = decode_hexdigit [cur [0]]; if (expect_false (d1 < 0)) ERR ("exactly four hexadecimal digits expected");
522	d2 = decode_hexdigit [cur [1]]; if (d2 < 0) ERR ("four hexadecimal digits expected");	642	d2 = decode_hexdigit [cur [1]]; if (expect_false (d2 < 0)) ERR ("exactly four hexadecimal digits expected");
523	d3 = decode_hexdigit [cur [2]]; if (d3 < 0) ERR ("four hexadecimal digits expected");	643	d3 = decode_hexdigit [cur [2]]; if (expect_false (d3 < 0)) ERR ("exactly four hexadecimal digits expected");
524	d4 = decode_hexdigit [cur [3]]; if (d4 < 0) ERR ("four hexadecimal digits expected");	644	d4 = decode_hexdigit [cur [3]]; if (expect_false (d4 < 0)) ERR ("exactly four hexadecimal digits expected");
525		645
526	dec->cur += 4;	646	dec->cur += 4;
527		647
528	return ((UV)d1) << 12	648	return ((UV)d1) << 12
529	\| ((UV)d2) << 8	649	\| ((UV)d2) << 8
…		…
537	static SV *	657	static SV *
538	decode_str (dec_t *dec)	658	decode_str (dec_t *dec)
539	{	659	{
540	SV *sv = 0;	660	SV *sv = 0;
541	int utf8 = 0;	661	int utf8 = 0;
		662	char *dec_cur = dec->cur;
542		663
543	do	664	do
544	{	665	{
545	char buf [SHORT_STRING_LEN + UTF8_MAX_LEN];	666	char buf [SHORT_STRING_LEN + UTF8_MAXBYTES];
546	char *cur = buf;	667	char *cur = buf;
547		668
548	do	669	do
549	{	670	{
550	unsigned char ch = (unsigned char )dec->cur++;	671	unsigned char ch = (unsigned char )dec_cur++;
551		672
552	if (ch == '"')	673	if (expect_false (ch == '"'))
553	{	674	{
554	--dec->cur;	675	--dec_cur;
555	break;	676	break;
556	}	677	}
557	else if (ch == '\\')	678	else if (expect_false (ch == '\\'))
558	{	679	{
559	switch (*dec->cur)	680	switch (*dec_cur)
560	{	681	{
561	case '\\':	682	case '\\':
562	case '/':	683	case '/':
563	case '"': cur++ = dec->cur++; break;	684	case '"': cur++ = dec_cur++; break;
564		685
565	case 'b': ++dec->cur; *cur++ = '\010'; break;	686	case 'b': ++dec_cur; *cur++ = '\010'; break;
566	case 't': ++dec->cur; *cur++ = '\011'; break;	687	case 't': ++dec_cur; *cur++ = '\011'; break;
567	case 'n': ++dec->cur; *cur++ = '\012'; break;	688	case 'n': ++dec_cur; *cur++ = '\012'; break;
568	case 'f': ++dec->cur; *cur++ = '\014'; break;	689	case 'f': ++dec_cur; *cur++ = '\014'; break;
569	case 'r': ++dec->cur; *cur++ = '\015'; break;	690	case 'r': ++dec_cur; *cur++ = '\015'; break;
570		691
571	case 'u':	692	case 'u':
572	{	693	{
573	UV lo, hi;	694	UV lo, hi;
574	++dec->cur;	695	++dec_cur;
575		696
		697	dec->cur = dec_cur;
576	hi = decode_4hex (dec);	698	hi = decode_4hex (dec);
		699	dec_cur = dec->cur;
577	if (hi == (UV)-1)	700	if (hi == (UV)-1)
578	goto fail;	701	goto fail;
579		702
580	// possibly a surrogate pair	703	// possibly a surrogate pair
581	if (hi >= 0xd800)	704	if (hi >= 0xd800)
582	if (hi < 0xdc00)	705	if (hi < 0xdc00)
583	{	706	{
584	if (dec->cur [0] != '\\' \|\| dec->cur [1] != 'u')	707	if (dec_cur [0] != '\\' \|\| dec_cur [1] != 'u')
585	ERR ("missing low surrogate character in surrogate pair");	708	ERR ("missing low surrogate character in surrogate pair");
586		709
587	dec->cur += 2;	710	dec_cur += 2;
588		711
		712	dec->cur = dec_cur;
589	lo = decode_4hex (dec);	713	lo = decode_4hex (dec);
		714	dec_cur = dec->cur;
590	if (lo == (UV)-1)	715	if (lo == (UV)-1)
591	goto fail;	716	goto fail;
592		717
593	if (lo < 0xdc00 \|\| lo >= 0xe000)	718	if (lo < 0xdc00 \|\| lo >= 0xe000)
594	ERR ("surrogate pair expected");	719	ERR ("surrogate pair expected");
…		…
608	*cur++ = hi;	733	*cur++ = hi;
609	}	734	}
610	break;	735	break;
611		736
612	default:	737	default:
613	--dec->cur;	738	--dec_cur;
614	ERR ("illegal backslash escape sequence in string");	739	ERR ("illegal backslash escape sequence in string");
615	}	740	}
616	}	741	}
617	else if (ch >= 0x20 && ch <= 0x7f)	742	else if (expect_true (ch >= 0x20 && ch <= 0x7f))
618	*cur++ = ch;	743	*cur++ = ch;
619	else if (ch >= 0x80)	744	else if (ch >= 0x80)
620	{	745	{
621	--dec->cur;
622
623	STRLEN clen;	746	STRLEN clen;
624	UV uch = utf8n_to_uvuni (dec->cur, dec->end - dec->cur, &clen, UTF8_CHECK_ONLY);	747	UV uch;
		748
		749	--dec_cur;
		750
		751	uch = decode_utf8 (dec_cur, dec->end - dec_cur, &clen);
625	if (clen == (STRLEN)-1)	752	if (clen == (STRLEN)-1)
626	ERR ("malformed UTF-8 character in JSON string");	753	ERR ("malformed UTF-8 character in JSON string");
627		754
628	do	755	do
629	{
630	cur++ = dec->cur++;	756	cur++ = dec_cur++;
631	}
632	while (--clen);	757	while (--clen);
633		758
634	utf8 = 1;	759	utf8 = 1;
635	}	760	}
636	else if (!ch)
637	ERR ("unexpected end of string while parsing json string");
638	else	761	else
		762	{
		763	--dec_cur;
		764
		765	if (!ch)
		766	ERR ("unexpected end of string while parsing JSON string");
		767	else
639	ERR ("invalid character encountered");	768	ERR ("invalid character encountered while parsing JSON string");
640		769	}
641	}	770	}
642	while (cur < buf + SHORT_STRING_LEN);	771	while (cur < buf + SHORT_STRING_LEN);
643		772
		773	{
644	STRLEN len = cur - buf;	774	STRLEN len = cur - buf;
645		775
646	if (sv)	776	if (sv)
647	{	777	{
648	SvGROW (sv, SvCUR (sv) + len + 1);	778	SvGROW (sv, SvCUR (sv) + len + 1);
649	memcpy (SvPVX (sv) + SvCUR (sv), buf, len);	779	memcpy (SvPVX (sv) + SvCUR (sv), buf, len);
650	SvCUR_set (sv, SvCUR (sv) + len);	780	SvCUR_set (sv, SvCUR (sv) + len);
651	}	781	}
652	else	782	else
653	sv = newSVpvn (buf, len);	783	sv = newSVpvn (buf, len);
654	}	784	}
		785	}
655	while (*dec->cur != '"');	786	while (*dec_cur != '"');
656		787
657	++dec->cur;	788	++dec_cur;
658		789
659	if (sv)	790	if (sv)
660	{	791	{
661	SvPOK_only (sv);	792	SvPOK_only (sv);
662	*SvEND (sv) = 0;	793	*SvEND (sv) = 0;
…		…
665	SvUTF8_on (sv);	796	SvUTF8_on (sv);
666	}	797	}
667	else	798	else
668	sv = newSVpvn ("", 0);	799	sv = newSVpvn ("", 0);
669		800
		801	dec->cur = dec_cur;
670	return sv;	802	return sv;
671		803
672	fail:	804	fail:
		805	dec->cur = dec_cur;
673	return 0;	806	return 0;
674	}	807	}
675		808
676	static SV *	809	static SV *
677	decode_num (dec_t *dec)	810	decode_num (dec_t *dec)
…		…
735	is_nv = 1;	868	is_nv = 1;
736	}	869	}
737		870
738	if (!is_nv)	871	if (!is_nv)
739	{	872	{
740	UV uv;	873	// special case the rather common 1..4-digit-int case, assumes 32 bit ints or so
741	int numtype = grok_number (start, dec->cur - start, &uv);	874	if (*start == '-')
742	if (numtype & IS_NUMBER_IN_UV)	875	switch (dec->cur - start)
743	if (numtype & IS_NUMBER_NEG)
744	{	876	{
745	if (uv < (UV)IV_MIN)	877	case 2: return newSViv (-( start [1] - '0' * 1));
746	return newSViv (-(IV)uv);	878	case 3: return newSViv (-( start [1] * 10 + start [2] - '0' * 11));
		879	case 4: return newSViv (-( start [1] * 100 + start [2] * 10 + start [3] - '0' * 111));
		880	case 5: return newSViv (-(start [1] * 1000 + start [2] * 100 + start [3] * 10 + start [4] - '0' * 1111));
747	}	881	}
		882	else
		883	switch (dec->cur - start)
		884	{
		885	case 1: return newSViv ( start [0] - '0' * 1);
		886	case 2: return newSViv ( start [0] * 10 + start [1] - '0' * 11);
		887	case 3: return newSViv ( start [0] * 100 + start [1] * 10 + start [2] - '0' * 111);
		888	case 4: return newSViv ( start [0] * 1000 + start [1] * 100 + start [2] * 10 + start [3] - '0' * 1111);
		889	}
		890
		891	{
		892	UV uv;
		893	int numtype = grok_number (start, dec->cur - start, &uv);
		894	if (numtype & IS_NUMBER_IN_UV)
		895	if (numtype & IS_NUMBER_NEG)
		896	{
		897	if (uv < (UV)IV_MIN)
		898	return newSViv (-(IV)uv);
		899	}
748	else	900	else
749	return newSVuv (uv);	901	return newSVuv (uv);
		902
		903	// here would likely be the place for bigint support
750	}	904	}
		905	}
751		906
		907	// if we ever support bigint or bigfloat, this is the place for bigfloat
752	return newSVnv (Atof (start));	908	return newSVnv (Atof (start));
753		909
754	fail:	910	fail:
755	return 0;	911	return 0;
756	}	912	}
…		…
758	static SV *	914	static SV *
759	decode_av (dec_t *dec)	915	decode_av (dec_t *dec)
760	{	916	{
761	AV *av = newAV ();	917	AV *av = newAV ();
762		918
		919	DEC_INC_DEPTH;
763	decode_ws (dec);	920	decode_ws (dec);
		921
764	if (*dec->cur == ']')	922	if (*dec->cur == ']')
765	++dec->cur;	923	++dec->cur;
766	else	924	else
767	for (;;)	925	for (;;)
768	{	926	{
…		…
786	ERR (", or ] expected while parsing array");	944	ERR (", or ] expected while parsing array");
787		945
788	++dec->cur;	946	++dec->cur;
789	}	947	}
790		948
		949	DEC_DEC_DEPTH;
791	return newRV_noinc ((SV *)av);	950	return newRV_noinc ((SV *)av);
792		951
793	fail:	952	fail:
794	SvREFCNT_dec (av);	953	SvREFCNT_dec (av);
		954	DEC_DEC_DEPTH;
795	return 0;	955	return 0;
796	}	956	}
797		957
798	static SV *	958	static SV *
799	decode_hv (dec_t *dec)	959	decode_hv (dec_t *dec)
800	{	960	{
801	HV *hv = newHV ();	961	HV *hv = newHV ();
802		962
		963	DEC_INC_DEPTH;
803	decode_ws (dec);	964	decode_ws (dec);
		965
804	if (*dec->cur == '}')	966	if (*dec->cur == '}')
805	++dec->cur;	967	++dec->cur;
806	else	968	else
807	for (;;)	969	for (;;)
808	{	970	{
…		…
821	{	983	{
822	SvREFCNT_dec (key);	984	SvREFCNT_dec (key);
823	goto fail;	985	goto fail;
824	}	986	}
825		987
826	//TODO: optimise
827	hv_store_ent (hv, key, value, 0);	988	hv_store_ent (hv, key, value, 0);
		989	SvREFCNT_dec (key);
828		990
829	decode_ws (dec);	991	decode_ws (dec);
830		992
831	if (*dec->cur == '}')	993	if (*dec->cur == '}')
832	{	994	{
…		…
838	ERR (", or } expected while parsing object/hash");	1000	ERR (", or } expected while parsing object/hash");
839		1001
840	++dec->cur;	1002	++dec->cur;
841	}	1003	}
842		1004
		1005	DEC_DEC_DEPTH;
843	return newRV_noinc ((SV *)hv);	1006	return newRV_noinc ((SV *)hv);
844		1007
845	fail:	1008	fail:
846	SvREFCNT_dec (hv);	1009	SvREFCNT_dec (hv);
		1010	DEC_DEC_DEPTH;
847	return 0;	1011	return 0;
848	}	1012	}
849		1013
850	static SV *	1014	static SV *
851	decode_sv (dec_t *dec)	1015	decode_sv (dec_t *dec)
852	{	1016	{
853	decode_ws (dec);	1017	decode_ws (dec);
		1018
		1019	// the beauty of JSON: you need exactly one character lookahead
		1020	// to parse anything.
854	switch (*dec->cur)	1021	switch (*dec->cur)
855	{	1022	{
856	case '"': ++dec->cur; return decode_str (dec);	1023	case '"': ++dec->cur; return decode_str (dec);
857	case '[': ++dec->cur; return decode_av (dec);	1024	case '[': ++dec->cur; return decode_av (dec);
858	case '{': ++dec->cur; return decode_hv (dec);	1025	case '{': ++dec->cur; return decode_hv (dec);
…		…
894	ERR ("'null' expected");	1061	ERR ("'null' expected");
895		1062
896	break;	1063	break;
897		1064
898	default:	1065	default:
899	ERR ("malformed json string, neither array, object, number, string or atom");	1066	ERR ("malformed JSON string, neither array, object, number, string or atom");
900	break;	1067	break;
901	}	1068	}
902		1069
903	fail:	1070	fail:
904	return 0;	1071	return 0;
905	}	1072	}
906		1073
907	static SV *	1074	static SV *
908	decode_json (SV *string, UV flags)	1075	decode_json (SV string, U32 flags, UV offset_return)
909	{	1076	{
		1077	dec_t dec;
		1078	UV offset;
910	SV *sv;	1079	SV *sv;
		1080
		1081	SvGETMAGIC (string);
		1082	SvUPGRADE (string, SVt_PV);
911		1083
912	if (flags & F_UTF8)	1084	if (flags & F_UTF8)
913	sv_utf8_downgrade (string, 0);	1085	sv_utf8_downgrade (string, 0);
914	else	1086	else
915	sv_utf8_upgrade (string);	1087	sv_utf8_upgrade (string);
916		1088
917	SvGROW (string, SvCUR (string) + 1); // should basically be a NOP	1089	SvGROW (string, SvCUR (string) + 1); // should basically be a NOP
918		1090
919	dec_t dec;
920	dec.flags = flags;	1091	dec.flags = flags;
921	dec.cur = SvPVX (string);	1092	dec.cur = SvPVX (string);
922	dec.end = SvEND (string);	1093	dec.end = SvEND (string);
923	dec.err = 0;	1094	dec.err = 0;
		1095	dec.depth = 0;
		1096	dec.maxdepth = DEC_DEPTH (dec.flags);
924		1097
		1098	*dec.end = 0; // this should basically be a nop, too, but make sure it's there
925	sv = decode_sv (&dec);	1099	sv = decode_sv (&dec);
926		1100
		1101	if (!(offset_return \|\| !sv))
		1102	{
		1103	// check for trailing garbage
		1104	decode_ws (&dec);
		1105
		1106	if (*dec.cur)
		1107	{
		1108	dec.err = "garbage after JSON object";
		1109	SvREFCNT_dec (sv);
		1110	sv = 0;
		1111	}
		1112	}
		1113
		1114	if (offset_return \|\| !sv)
		1115	{
		1116	offset = dec.flags & F_UTF8
		1117	? dec.cur - SvPVX (string)
		1118	: utf8_distance (dec.cur, SvPVX (string));
		1119
		1120	if (offset_return)
		1121	*offset_return = offset;
		1122	}
		1123
927	if (!sv)	1124	if (!sv)
928	{	1125	{
929	IV offset = dec.flags & F_UTF8
930	? dec.cur - SvPVX (string)
931	: utf8_distance (dec.cur, SvPVX (string));
932	SV *uni = sv_newmortal ();	1126	SV *uni = sv_newmortal ();
933		1127
934	// horrible hack to silence warning inside pv_uni_display	1128	// horrible hack to silence warning inside pv_uni_display
935	COP cop = *PL_curcop;	1129	COP cop = *PL_curcop;
936	cop.cop_warnings = pWARN_NONE;	1130	cop.cop_warnings = pWARN_NONE;
…		…
938	SAVEVPTR (PL_curcop);	1132	SAVEVPTR (PL_curcop);
939	PL_curcop = &cop;	1133	PL_curcop = &cop;
940	pv_uni_display (uni, dec.cur, dec.end - dec.cur, 20, UNI_DISPLAY_QQ);	1134	pv_uni_display (uni, dec.cur, dec.end - dec.cur, 20, UNI_DISPLAY_QQ);
941	LEAVE;	1135	LEAVE;
942		1136
943	croak ("%s, at character offset %d (%s)",	1137	croak ("%s, at character offset %d [\"%s\"]",
944	dec.err,	1138	dec.err,
945	(int)offset,	1139	(int)offset,
946	dec.cur != dec.end ? SvPV_nolen (uni) : "(end of string)");	1140	dec.cur != dec.end ? SvPV_nolen (uni) : "(end of string)");
947	}	1141	}
948		1142
…		…
961		1155
962	BOOT:	1156	BOOT:
963	{	1157	{
964	int i;	1158	int i;
965		1159
966	memset (decode_hexdigit, 0xff, 256);
967	for (i = 10; i--; )	1160	for (i = 0; i < 256; ++i)
968	decode_hexdigit ['0' + i] = i;	1161	decode_hexdigit [i] =
969		1162	i >= '0' && i <= '9' ? i - '0'
970	for (i = 7; i--; )	1163	: i >= 'a' && i <= 'f' ? i - 'a' + 10
971	{	1164	: i >= 'A' && i <= 'F' ? i - 'A' + 10
972	decode_hexdigit ['a' + i] = 10 + i;	1165	: -1;
973	decode_hexdigit ['A' + i] = 10 + i;
974	}
975		1166
976	json_stash = gv_stashpv ("JSON::XS", 1);	1167	json_stash = gv_stashpv ("JSON::XS", 1);
977	}	1168	}
978		1169
979	PROTOTYPES: DISABLE	1170	PROTOTYPES: DISABLE
…		…
985	RETVAL	1176	RETVAL
986		1177
987	SV ascii (SV self, int enable = 1)	1178	SV ascii (SV self, int enable = 1)
988	ALIAS:	1179	ALIAS:
989	ascii = F_ASCII	1180	ascii = F_ASCII
		1181	latin1 = F_LATIN1
990	utf8 = F_UTF8	1182	utf8 = F_UTF8
991	indent = F_INDENT	1183	indent = F_INDENT
992	canonical = F_CANONICAL	1184	canonical = F_CANONICAL
993	space_before = F_SPACE_BEFORE	1185	space_before = F_SPACE_BEFORE
994	space_after = F_SPACE_AFTER	1186	space_after = F_SPACE_AFTER
…		…
1006	RETVAL = newSVsv (self);	1198	RETVAL = newSVsv (self);
1007	}	1199	}
1008	OUTPUT:	1200	OUTPUT:
1009	RETVAL	1201	RETVAL
1010		1202
		1203	SV max_depth (SV self, UV max_depth = 0x80000000UL)
		1204	CODE:
		1205	{
		1206	UV *uv = SvJSON (self);
		1207	UV log2 = 0;
		1208
		1209	if (max_depth > 0x80000000UL) max_depth = 0x80000000UL;
		1210
		1211	while ((1UL << log2) < max_depth)
		1212	++log2;
		1213
		1214	uv = uv & ~F_MAXDEPTH \| (log2 << S_MAXDEPTH);
		1215
		1216	RETVAL = newSVsv (self);
		1217	}
		1218	OUTPUT:
		1219	RETVAL
		1220
1011	void encode (SV self, SV scalar)	1221	void encode (SV self, SV scalar)
1012	PPCODE:	1222	PPCODE:
1013	XPUSHs (encode_json (scalar, *SvJSON (self)));	1223	XPUSHs (encode_json (scalar, *SvJSON (self)));
1014		1224
1015	void decode (SV self, SV jsonstr)	1225	void decode (SV self, SV jsonstr)
1016	PPCODE:	1226	PPCODE:
1017	XPUSHs (decode_json (jsonstr, *SvJSON (self)));	1227	XPUSHs (decode_json (jsonstr, *SvJSON (self), 0));
		1228
		1229	void decode_prefix (SV self, SV jsonstr)
		1230	PPCODE:
		1231	{
		1232	UV offset;
		1233	EXTEND (SP, 2);
		1234	PUSHs (decode_json (jsonstr, *SvJSON (self), &offset));
		1235	PUSHs (sv_2mortal (newSVuv (offset)));
		1236	}
1018		1237
1019	PROTOTYPES: ENABLE	1238	PROTOTYPES: ENABLE
1020		1239
1021	void to_json (SV *scalar)	1240	void to_json (SV *scalar)
		1241	ALIAS:
		1242	objToJson = 0
1022	PPCODE:	1243	PPCODE:
1023	XPUSHs (encode_json (scalar, F_UTF8));	1244	XPUSHs (encode_json (scalar, F_DEFAULT \| F_UTF8));
1024		1245
1025	void from_json (SV *jsonstr)	1246	void from_json (SV *jsonstr)
		1247	ALIAS:
		1248	jsonToObj = 0
1026	PPCODE:	1249	PPCODE:
1027	XPUSHs (decode_json (jsonstr, F_UTF8));	1250	XPUSHs (decode_json (jsonstr, F_DEFAULT \| F_UTF8, 0));
1028		1251

Diff Legend

-–
+Removed lines
-+
+Added lines
-<
+Changed lines
->
+Changed lines

Comparing JSON-XS/XS.xs (file contents): Revision 1.12 by root, Sat Mar 24 22:10:08 2007 UTC vs. Revision 1.41 by root, Sat Jun 23 22:53:16 2007 UTC

Diff Legend

Comparing JSON-XS/XS.xs (file contents):
Revision 1.12 by root, Sat Mar 24 22:10:08 2007 UTC vs.
Revision 1.41 by root, Sat Jun 23 22:53:16 2007 UTC