快捷導(dǎo)航

Python3.7 dataclass使用指南小結(jié)

更新時間：2019年02月22日 11:09:33 作者：apocelipes

本文將帶你走進python3.7的新特性dataclass，通過本文你將學(xué)會dataclass的使用并避免踏入某些陷阱。小編覺得挺不錯的，現(xiàn)在分享給大家，也給大家做個參考。一起跟隨小編過來看看吧

dataclass簡介

dataclass的定義位于PEP-557，根據(jù)定義一個dataclass是指“一個帶有默認值的可變的namedtuple”，廣義的定義就是有一個類，它的屬性均可公開訪問，可以帶有默認值并能被修改，而且類中含有與這些屬性相關(guān)的類方法，那么這個類就可以稱為dataclass，再通俗點講，dataclass就是一個含有數(shù)據(jù)及操作數(shù)據(jù)方法的容器。

乍一看可能會覺得這個概念不就是普通的class么，然而還是有幾處不同：

1.相比普通class，dataclass通常不包含私有屬性，數(shù)據(jù)可以直接訪問
2.dataclass的repr方法通常有固定格式，會打印出類型名以及屬性名和它的值
3.dataclass擁有__eq__和__hash__魔法方法
4.dataclass有著模式單一固定的構(gòu)造方式，或是需要重載運算符，而普通class通常無需這些工作

基于上述原因，通常自己實現(xiàn)一個dataclass是繁瑣而無聊的，而dataclass單一固定的行為正適合程序為我們自動生成，于是dataclasses模塊誕生了。

配合類型注解語法，我們可以輕松生成一個實現(xiàn)了__init__，__repr__，__cmp__等方法的dataclass：

from dataclasses import dataclass

@dataclass
class InventoryItem:
  '''Class for keeping track of an item in inventory.'''
  name: str
  unit_price: float
  quantity_on_hand: int = 0

  def total_cost(self) -> float:
    return self.unit_price * self.quantity_on_hand

同時使用dataclass也有一些好處，它比namedtuple更靈活。同時因為它是一個常規(guī)的類，所以你可以享受繼承帶來的便利。

dataclass的使用

我們分x步介紹dataclass的使用，首先是如何定義一個dataclass。

定義一個dataclass

dataclasses模塊提供了一個裝飾器幫助我們定義自己的數(shù)據(jù)類：

@dataclass
class Lang:
  """a dataclass that describes a programming language"""
  name: str = 'python'
  strong_type: bool = True
  static_type: bool = False
  age: int = 28

我們定義了一個描述某種程序語言特性的數(shù)據(jù)類——Lang，在接下來的例子中我們都會用到這個類。

在數(shù)據(jù)類被定義后，會根據(jù)給出的類型注解生成一個如下的初始函數(shù)：

def __init__(self, name: str='python',
      strong_type: bool=True,
      static_type: bool=False,
      age: int=28):
  self.name = name
  self.strong_type = strong_type
  self.static_type = static_type
  self.age = age

可以看到初始化操作都已經(jīng)自動生成了，讓我們試用一下：

>>> Lang()
Lang(name='python', strong_type=True, static_type=False, age=28)
>>> Lang('js', False, False, 23)
Lang(name='js', strong_type=False, static_type=False, age=23)
>>> Lang('js', False, False, 23) == Lang()
False
>>> Lang('python', True, False, 28) == Lang()
True

例子中可以看出__repr__和__eq__方法也已經(jīng)為我們生成了，如果沒有其他特殊要求的話這個dataclass已經(jīng)具備了投入生產(chǎn)環(huán)境的能力，是不是很神奇？

深入dataclass裝飾器

dataclass的魔力源泉都在dataclass這個裝飾器中，如果想要完全掌控dataclass的話那么它是你必須了解的內(nèi)容。

裝飾器的原型如下：

dataclasses.dataclass(*, init=True, repr=True, eq=True, order=False, unsafe_hash=False, frozen=False)

dataclass裝飾器將根據(jù)類屬性生成數(shù)據(jù)類和數(shù)據(jù)類需要的方法。

我們的關(guān)注點集中在它的kwargs上：

key	含義
init	指定是否自動生成__init__，如果已經(jīng)有定義同名方法則忽略這個值，也就是指定為True也不會自動生成
repr	同init，指定是否自動生成__repr__；自動生成的打印格式為class_name(arrt1:value1, attr2:value2, ...)
eq	同init，指定是否生成__eq__；自動生成的方法將按屬性在類內(nèi)定義時的順序逐個比較，全部的值相同才會返回True
order	自動生成__lt__，__le__，__gt__，__ge__，比較方式與eq相同；如果order指定為True而eq指定為False，將引發(fā)ValueError；如果已經(jīng)定義同名函數(shù)，將引發(fā)TypeError
unsafehash	如果是False，將根據(jù)eq和frozen參數(shù)來生成__hash__: 1. eq和frozen都為True，__hash__將會生成 2. eq為True而frozen為False，__hash__被設(shè)為None 3. eq為False，frozen為True，__hash__將使用超類（object）的同名屬性（通常就是基于對象id的hash）當(dāng)設(shè)置為True時將會根據(jù)類屬性自動生成__hash__，然而這是不安全的，因為這些屬性是默認可變的，這會導(dǎo)致hash的不一致，所以除非能保證對象屬性不可隨意改變，否則應(yīng)該謹慎地設(shè)置該參數(shù)為True
frozen	設(shè)為True時對field賦值將會引發(fā)錯誤，對象將是不可變的，如果已經(jīng)定義了__setattr__和__delattr__將會引發(fā)TypeError

有默認值的屬性必須定義在沒有默認值的屬性之后，和對kw參數(shù)的要求一樣。

上面我們偶爾提到了field的概念，我們所說的數(shù)據(jù)類屬性，數(shù)據(jù)屬性實際上都是被field的對象，它代表著一個數(shù)據(jù)的實體和它的元信息，下面我們了解一下dataclasses.field。

數(shù)據(jù)類的基石——dataclasses.field

先看下field的原型：

dataclasses.field(*, default=MISSING, default_factory=MISSING, repr=True, hash=None, init=True, compare=True, metadata=None)

通常我們無需直接使用，裝飾器會根據(jù)我們給出的類型注解自動生成field，但有時候我們也需要定制這一過程，這時dataclasses.field就顯得格外有用了。

default和default_factory參數(shù)將會影響默認值的產(chǎn)生，它們的默認值都是None，意思是調(diào)用時如果為指定則產(chǎn)生一個為None的值。其中default是field的默認值，而default_factory控制如何產(chǎn)生值，它接收一個無參數(shù)或者全是默認參數(shù)的callable對象，然后用調(diào)用這個對象獲得field的初始值，之后再將default（如果值不是MISSING）復(fù)制給callable返回的這個對象。

舉個例子，對于list，當(dāng)復(fù)制它時只是復(fù)制了一份引用，所以像dataclass里那樣直接復(fù)制給實例的做法的危險而錯誤的，為了保證使用list時的安全性，應(yīng)該這樣做：

@dataclass
class C:
  mylist: List[int] = field(default_factory=list)

當(dāng)初始化C的實例時就會調(diào)用list()而不是直接復(fù)制一份list的引用：

>>> c1 = C()
>>> c1.mylist += [1,2,3]
>>> c1.mylist
[1, 2, 3]
>>> c2 = C()
>>> c2.mylist
[]

數(shù)據(jù)污染得到了避免。

init參數(shù)如果設(shè)置為False，表示不為這個field生成初始化操作，dataclass提供了hook—— __post_init__供我們利用這一特性：

@dataclass
class C:
  a: int
  b: int
  c: int = field(init=False)

  def __post_init__(self):
    self.c = self.a + self.b

__post_init__在__init__后被調(diào)用，我們可以在這里初始化那些需要前置條件的field。

repr參數(shù)表示該field是否被包含進repr的輸出，compare和hash參數(shù)表示field是否參與比較和計算hash值。metadata不被dataclass自身使用，通常讓第三方組件從中獲取某些元信息時才使用，所以我們不需要使用這一參數(shù)。

如果指定一個field的類型注解為dataclasses.InitVar，那么這個field將只會在初始化過程中（__init__和__post_init__）可以被使用，當(dāng)初始化完成后訪問該field會返回一個dataclasses.Field對象而不是field原本的值，也就是該field不再是一個可訪問的數(shù)據(jù)對象。舉個例子，比如一個由數(shù)據(jù)庫對象，它只需要在初始化的過程中被訪問：

@dataclass
class C:
  i: int
  j: int = None
  database: InitVar[DatabaseType] = None

  def __post_init__(self, database):
    if self.j is None and database is not None:
      self.j = database.lookup('j')

c = C(10, database=my_database)

這個例子中會返回c.i和c.j的數(shù)據(jù)，但是不會返回c.database的。

一些常用函數(shù)

dataclasses模塊中提供了一些常用函數(shù)供我們處理數(shù)據(jù)類。

使用dataclasses.asdict和dataclasses.astuple我們可以把數(shù)據(jù)類實例中的數(shù)據(jù)轉(zhuǎn)換成字典或者元組：

>>> from dataclasses import asdict, astuple
>>> asdict(Lang())
{'name': 'python', 'strong_type': True, 'static_type': False, 'age': 28}
>>> astuple(Lang())
('python', True, False, 28)

使用dataclasses.is_dataclass可以判斷一個類或?qū)嵗龑ο笫欠袷菙?shù)據(jù)類：

>>> from dataclasses import is_dataclass
>>> is_dataclass(Lang)
True
>>> is_dataclass(Lang())
True

dataclass繼承

python3.7引入dataclass的一大原因就在于相比namedtuple，dataclass可以享受繼承帶來的便利。

dataclass裝飾器會檢查當(dāng)前class的所有基類，如果發(fā)現(xiàn)一個dataclass，就會把它的字段按順序添加進當(dāng)前的class，隨后再處理當(dāng)前class的field。所有生成的方法也將按照這一過程處理，因此如果子類中的field與基類同名，那么子類將會無條件覆蓋基類。子類將會根據(jù)所有的field重新生成一個構(gòu)造函數(shù)，并在其中初始化基類。

看個例子：

@dataclass
class Python(Lang):
  tab_size: int = 4
  is_script: bool = True

>>> Python()
Python(name='python', strong_type=True, static_type=False, age=28, tab_size=4, is_script=True)

@dataclass
class Base:
  x: float = 25.0
  y: int = 0

@dataclass
class C(Base):
  z: int = 10
  x: int = 15

>>> C()
C(x=15, y=0, z=10)

Lang的field被Python繼承了，而C中的x則覆蓋了Base中的定義。

沒錯，數(shù)據(jù)類的繼承就是這么簡單。

總結(jié)

合理使用dataclass將會大大減輕開發(fā)中的負擔(dān)，將我們從大量的重復(fù)勞動中解放出來，這既是dataclass的魅力，不過魅力的背后也總是有陷阱相伴，最后我想提幾點注意事項：

dataclass通常情況下是unhashable的，因為默認生成的__hash__是None，所以不能用來做字典的key，如果有這種需求，那么應(yīng)該指定你的數(shù)據(jù)類為frozen dataclass
小心當(dāng)你定義了和dataclass生成的同名方法時會引發(fā)的問題
當(dāng)使用可變類型（如list）時，應(yīng)該考慮使用field的default_factory
數(shù)據(jù)類的屬性都是公開的，如果你有屬性只需要初始化時使用而不需要在其他時候被訪問，請使用dataclasses.InitVar

只要避開這些陷阱，dataclass一定能成為提高生產(chǎn)力的利器。

參考

https://docs.python.org/3.7/library/dataclasses.html

https://www.python.org/dev/peps/pep-0557

以上就是本文的全部內(nèi)容，希望對大家的學(xué)習(xí)有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章: