教你使用Python寫(xiě)一個(gè)簡(jiǎn)單的JSONParser
引言
最近在學(xué)習(xí) Python 的正則表達(dá)式內(nèi)容,我看的是官方的文檔,在文檔的最后有一個(gè)例子,勾起了我的興趣。它是用正則表達(dá)式來(lái)制作了一個(gè)簡(jiǎn)單的詞法分析器。我覺(jué)得這個(gè)東西非常有趣,以前在學(xué)校的時(shí)候,有一次作業(yè)我是手寫(xiě)的,不過(guò)我感覺(jué)寫(xiě)得不好,勉強(qiáng)完成老師的作業(yè)吧,哈哈。所以,我參考這個(gè)例子寫(xiě)了一個(gè) JSON 的詞法分析,然后又加上了簡(jiǎn)單的語(yǔ)法分析程序。它的整個(gè)效果,有點(diǎn)類似于 python 標(biāo)準(zhǔn)庫(kù) json 的 json.load() 方法,不過(guò)是一個(gè)極其簡(jiǎn)陋的實(shí)現(xiàn),而且基本上沒(méi)有錯(cuò)誤處理。

JSON Tokenizer
JSON 的詞法分析,我主要是參考上面這個(gè)截圖里面的方式,自己寫(xiě)了一個(gè)簡(jiǎn)單的示例。寫(xiě)得比較簡(jiǎn)單,應(yīng)該說(shuō)它只能支持 JSON 的一個(gè)簡(jiǎn)單子集。
這里 TOKEN 的種類,參考了 https://json.org,不過(guò)它的 JSON 的語(yǔ)法格式是帶 whitespace 的,我不習(xí)慣處理這個(gè),所以沒(méi)有參考它的語(yǔ)法。經(jīng)過(guò)詞法分析之后,過(guò)濾掉了 空格、換行、制表符,我這里就是簡(jiǎn)單的丟棄不處理。
json_tokenizer.py
使用正則表達(dá)式來(lái)進(jìn)行 JSON 的詞法分析。
import json
import re
from typing import Dict, List, Union
# TOKEN 的種類
LEFT_BRACE = "LEFT_BRACE" # {
RIGHT_BRACE = "RIGHT_BRACE" # }
LEFT_BRACKET = "LEFT_BRACKET" # ]
RIGHT_BRACKET = "RIGHT_BRACKET" # [
COLON = "COLON" # :
COMMA = "COMMA" # ,
NUMBER = "NUMBER" # ".*?"
STRING = "STRING" # [1-9]\d*
BOOL = "BOOL" # true/false
NULL = "NULL" # null
NEWLINE = "NEWLINE" # \n
SKIP = "SKIP" # ' ', '\t'
MISMATCH = "MISMATCH" # mismatch
# 處理 token 的正則
token_specification = [
('LEFT_BRACE', r'[{]'),
('RIGHT_BRACE', r'[}]'),
('LEFT_BRACKET', r'[\[]'),
('RIGHT_BRACKET', r'[\]]'),
('COLON', r'[:]'),
('COMMA', r'[,]'),
('NUMBER', r'-?[1-9]+[0-9]*'),
('STRING', r'".*?"'),
('BOOL', r'(true)|(false)'),
('NULL', r'null'),
('NEWLINE', r'\n'),
('SKIP', r'[ \t]'),
('MISMATCH', r'.')
]
tok_regex = '|'.join('(?P<%s>%s)' % pair for pair in token_specification)
print("Debug: ", tok_regex)
def process(kind: str, value: str) -> Dict[str, Union[str, bool, int, None]]:
"""
處理輸入的 kind 和 value,并生成 Dict 對(duì)象,簡(jiǎn)單表示 token 對(duì)象
"""
if kind == STRING:
# 去掉外層的雙引號(hào),暫時(shí)沒(méi)有比較好的方式
return {"kind": kind, "value": value[1:-1]}
if kind == NUMBER:
return {"kind": kind, "value": int(value)}
if kind == BOOL:
if value == "true":
return {"kind": kind, "value": True}
else:
return {"kind": kind, "value": False}
if kind == NULL:
return {"kind": kind, "value": None}
return {"kind": kind, "value": value}
def tokenizer(json_str: str) -> List[Dict[str, Union[str, bool, int, None]]]:
"""
tokenizer
"""
tokens = []
for m in re.finditer(tok_regex, json_str):
# 獲取 token 的類型
kind = m.lastgroup
# 獲取 token 的值
value = m.group()
if kind == MISMATCH:
raise Exception("json format is error")
if kind == NEWLINE:
continue
if kind == SKIP:
continue
token = process(kind=kind, value=value)
tokens.append(token)
return tokens
if __name__ == "__main__":
json_doc = open("./demo.json", "r", encoding="utf-8").read()
tokens = tokenizer(json_doc)
if tokens:
json.dump(tokens, open("./json_tokens.json", "w",
encoding="utf-8"), ensure_ascii=False)
我這里把輸入、輸出數(shù)據(jù)全部放在文檔里面了,下面我貼一下我輸入數(shù)據(jù)和部分輸出數(shù)據(jù)。
demo.json
{
"name": "小黑子",
"age": 3,
"gender": false,
"other_info": {
"friends": [
"嘎子",
"潘叔",
"狗"
],
"declaration": "練習(xí)時(shí)長(zhǎng)兩年半",
"hobbies": [
"唱",
"跳",
"rap",
"籃球??"
]
}
}
json_token.json 部分?jǐn)?shù)據(jù),數(shù)據(jù)我格式化了,所以比較長(zhǎng),這里只截取一部分。

JSON Parser
json_parser.py
對(duì)上一步生成的 token 序列,進(jìn)行 parser,生成 JSON 對(duì)應(yīng)的 Dict 對(duì)象。parser 的實(shí)現(xiàn)參考了 antlr4 的 json 語(yǔ)法文件,它去掉了 whitespace,處理起來(lái)更簡(jiǎn)單一點(diǎn)。
import json
from typing import Dict, Union
# TOKEN 的種類
LEFT_BRACE = "LEFT_BRACE" # {
RIGHT_BRACE = "RIGHT_BRACE" # }
LEFT_BRACKET = "LEFT_BRACKET" # ]
RIGHT_BRACKET = "RIGHT_BRACKET" # [
COLON = "COLON" # :
COMMA = "COMMA" # ,
NUMBER = "NUMBER" # ".*?"
STRING = "STRING" # [1-9]\d*
BOOL = "BOOL" # true/false
NULL = "NULL" # null
class Token(object):
"""為了簡(jiǎn)單,就不創(chuàng)建這個(gè)了"""
class JSON_Parser(object):
"""
JSON_Parser the class aims parse input token sequence into a python object or array.
"""
def __init__(self, tokens) -> None:
self.index = 0
self.tokens = tokens
def get_token(self) -> Dict[str, Union[str, int, bool, None]]:
"""
get current's token
"""
if self.index < len(self.tokens):
return self.tokens[self.index]
else:
raise Exception("index out of range.")
def move_token(self) -> Dict[str, Union[str, int, bool, None]]:
"""
move to next token and return it
"""
if self.index + 1 < len(self.tokens):
self.index = self.index + 1
return self.tokens[self.index]
else:
raise Exception("index out of range.")
def parse(self):
"""
parse whole json
"""
token = self.get_token()
if token.get("kind") == LEFT_BRACE:
return self.parse_obj()
elif token.get("kind") == LEFT_BRACKET:
return self.parse_arr()
else:
raise Exception("error json, neither object or array.")
def parse_obj(self):
"""
parse object
"""
obj = {}
token = self.move_token()
kind = token.get("kind")
# '{' '}'
if kind == RIGHT_BRACE:
return obj
# '{' pair (',' pair)* '}'
name, val = self.parse_pair()
obj[name] = val
while self.index < len(self.tokens):
token = self.move_token()
kind = token.get("kind")
if kind == COMMA:
self.move_token()
name, val = self.parse_pair()
obj[name] = val
elif kind == RIGHT_BRACE:
return obj
else:
raise Exception("parse object encounter error")
def parse_arr(self):
"""
parse array
"""
arr = []
token = self.move_token()
kind = token.get("kind")
# '[' ']'
if kind == RIGHT_BRACE:
return arr
# '[' value (',' value)* ']'
val = self.parse_value()
arr.append(val)
while self.index < len(self.tokens):
token = self.move_token()
kind = token.get("kind")
if kind == COMMA:
self.move_token()
val = self.parse_value()
arr.append(val)
elif kind == RIGHT_BRACKET:
return arr
else:
raise Exception("parse array encounter error")
def parse_value(self):
"""
parse value
"""
token = self.get_token()
kind = token.get("kind")
if kind == LEFT_BRACE:
return self.parse_obj()
elif kind == LEFT_BRACKET:
return self.parse_arr()
elif kind == STRING or kind == NUMBER or kind == BOOL:
return token.get("value")
elif kind == NULL:
return
else:
raise Exception("encounter unexcepted token")
def parse_pair(self):
"""
parse pair
"""
token = self.get_token()
kind = token.get("kind")
name = token.get("value")
# STRING ':' value
if kind == STRING:
token = self.move_token()
kind = token.get("kind")
if kind == COLON:
token = self.move_token()
return name, self.parse_value()
raise Exception("parse pair encounter error")
if __name__ == "__main__":
# json token 文件路徑
TOKEN_PATH = "./json_tokens.json"
# 讀取 token 序列
input_tokens = [token for token in json.load(
open(TOKEN_PATH, "r", encoding="utf-8"))]
if not input_tokens:
raise Exception("input token sequence is empty")
# 調(diào)試的時(shí)候,用來(lái)查表的,很方便定位到 index 走到哪一個(gè) token 了
for i, tok in enumerate(input_tokens):
print(f"debug {i:2d} --> {tok}")
print("\n===========================================\n")
parser = JSON_Parser(tokens=input_tokens)
json_obj = parser.parse()
# 再將 object 轉(zhuǎn)成 json 并格式化后輸出
print(json.dumps(json_obj, ensure_ascii=False, indent=4))
輸出結(jié)果:

到此這篇關(guān)于教你使用Python寫(xiě)一個(gè)簡(jiǎn)單的JSONParser的文章就介紹到這了,更多相關(guān)簡(jiǎn)單的JSONParser內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python環(huán)境搭建以及Python與PyCharm安裝詳細(xì)圖文教程
PyCharm是一種PythonIDE,帶有一整套可以幫助用戶在使用Python語(yǔ)言開(kāi)發(fā)時(shí)提高其效率的工具,這篇文章主要給大家介紹了關(guān)于Python環(huán)境搭建以及Python與PyCharm安裝的詳細(xì)圖文教程,需要的朋友可以參考下2024-03-03
使用matplotlib繪制并排柱狀圖的實(shí)戰(zhàn)案例
堆積柱狀圖有堆積柱狀圖的好處,比如說(shuō)我們可以很方便地看到多分類總和的趨勢(shì),下面這篇文章主要給大家介紹了關(guān)于使用matplotlib繪制并排柱狀圖的相關(guān)資料,需要的朋友可以參考下2022-07-07
在python中實(shí)現(xiàn)對(duì)list求和及求積
今天小編就為大家分享一篇在python中實(shí)現(xiàn)對(duì)list求和及求積,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-11-11
在Python下使用Txt2Html實(shí)現(xiàn)網(wǎng)頁(yè)過(guò)濾代理的教程
這篇文章主要介紹了在Python下使用Txt2Html實(shí)現(xiàn)網(wǎng)頁(yè)過(guò)濾代理的教程,來(lái)自IBM官方開(kāi)發(fā)者技術(shù)文檔,需要的朋友可以參考下2015-04-04
學(xué)python需要去培訓(xùn)機(jī)構(gòu)嗎
在本篇文章里小編給大家整理的是關(guān)于學(xué)python是否需要去培訓(xùn)機(jī)構(gòu)的相關(guān)內(nèi)容,有需要的朋友們可以閱讀下。2020-07-07
Python mlxtend庫(kù)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)補(bǔ)充工具功能探索
這篇文章主要介紹了Python mlxtend庫(kù)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)補(bǔ)充工具功能探索,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2024-01-01
M1芯片Mac上Anaconda的暫時(shí)替代(miniforge)
這篇文章主要介紹了M1芯片Mac上Anaconda的暫時(shí)替代(miniforge),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2021-03-03

