欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

據(jù)Python爬蟲不靠譜預測可知今年雙十一銷售額將超過6000億元

 更新時間:2021年11月10日 14:42:32   作者:Python學習與數(shù)據(jù)挖掘  
已經(jīng)是十一月十號了,雙十一即將到來,電商早已預熱多日,為了在實戰(zhàn)中獲得能力的提升,本篇文章手把手帶你用Python來預測一下今年雙十一的銷售額將會達到多少,大家可以在過程中查缺補漏,提升水平

不知不覺,雙十一到今年已經(jīng)是13個年頭,每年大家都在滿心期待看著屏幕上的數(shù)字跳動,年年打破記錄。而 2019 年的天貓雙11的銷售額卻被一位微博網(wǎng)友提前7個月用數(shù)據(jù)擬合的方法預測出來了。他的預測值是2675.37或者2689.00億元,而實際成交額是2684億元。只差了5億元,誤差率只有千分之一。

但如果你用同樣的方法去做預測2020年的時候,發(fā)現(xiàn)預測是3282億,實際卻到了 4982億。原來2020改了規(guī)則,實際上統(tǒng)計的是11月1到11日的銷量,理論上已經(jīng)不能和歷史數(shù)據(jù)合并預測,但咱們就為了圖個樂,主要是為了練習一下 Python 的多項式回歸和可視化繪圖。

把預測先發(fā)出來:今年雙十一的銷量是 9029.688 億元!坐等雙十一,各位看官回來打我的臉。歡迎文末技術交流學習,喜歡點贊支持。

NO.1 統(tǒng)計歷年雙十一銷量數(shù)據(jù)

從網(wǎng)上搜集來歷年淘寶天貓雙十一銷售額數(shù)據(jù),單位為億元,利用 Pandas 整理成 Dataframe,又添加了一列'年份int',留作后續(xù)的計算使用。

import pandas as pd

# 數(shù)據(jù)為網(wǎng)絡收集,歷年淘寶天貓雙十一銷售額數(shù)據(jù),單位為億元,僅做示范
double11_sales = {'2009年': [0.50],
                  '2010年':[9.36],
                  '2011年':[34],
                  '2012年':[191],
                  '2013年':[350],
                  '2014年':[571],
                  '2015年':[912],
                  '2016年':[1207],
                  '2017年':[1682],
                  '2018年':[2135],
                  '2019年':[2684],
                  '2020年':[4982],
                 }

df = pd.DataFrame(double11_sales).T.reset_index()
df.rename(columns={'index':'年份',0:'銷量'},inplace=True)
df['年份int'] = [[i] for i in list(range(1,len(df['年份'])+1))]
df
.dataframe tbody tr th {
    vertical-align: top;
}

.dataframe thead th {
    text-align: right;
}

圖片

NO.2 繪制散點圖

利用 plotly 工具包,將年份對應銷售量的散點圖繪制出來,可以明顯看到2020年的數(shù)據(jù)立馬飆升。

# 散點圖
import plotly as py
import plotly.graph_objs as go
import numpy as np

year = df[:]['年份']
sales = df['銷量']

trace = go.Scatter(
    x=year,
    y=sales,
    mode='markers'
)
data = [trace]

layout = go.Layout(title='2009年-2020年天貓?zhí)詫氹p十一歷年銷量')

fig = go.Figure(data=data, layout=layout)

fig.show()

圖片

NO.3引入 Scikit-Learn 庫搭建模型

一元多次線性回歸

我們先來回顧一下2009-2019年的數(shù)據(jù)多么美妙。先只選取2009-2019年的數(shù)據(jù):

df_2009_2019 = df[:-1]
df_2009_2019
.dataframe tbody tr th {
    vertical-align: top;
}

.dataframe thead th {
    text-align: right;
}

圖片

通過以下代碼生成二次項數(shù)據(jù):

from sklearn.preprocessing import PolynomialFeatures
poly_reg = PolynomialFeatures(degree=2)
X_ = poly_reg.fit_transform(list(df_2009_2019['年份int']))

1.第一行代碼引入用于增加一個多次項內(nèi)容的模塊 PolynomialFeatures

2.第二行代碼設置最高次項為二次項,為生成二次項數(shù)據(jù)(x平方)做準備

3.第三行代碼將原有的X轉換為一個新的二維數(shù)組X_,該二維數(shù)據(jù)包含新生成的二次項數(shù)據(jù)(x平方)和原有的一次項數(shù)據(jù)(x)

X_ 的內(nèi)容為下方代碼所示的一個二維數(shù)組,其中第一列數(shù)據(jù)為常數(shù)項(其實就是X的0次方),沒有特殊含義,對分析結果不會產(chǎn)生影響;第二列數(shù)據(jù)為原有的一次項數(shù)據(jù)(x);第三列數(shù)據(jù)為新生成的二次項數(shù)據(jù)(x的平方)。

X_
array([[  1.,   1.,   1.],
       [  1.,   2.,   4.],
       [  1.,   3.,   9.],
       [  1.,   4.,  16.],
       [  1.,   5.,  25.],
       [  1.,   6.,  36.],
       [  1.,   7.,  49.],
       [  1.,   8.,  64.],
       [  1.,   9.,  81.],
       [  1.,  10., 100.],
       [  1.,  11., 121.]])
from sklearn.linear_model import LinearRegression
regr = LinearRegression()
regr.fit(X_,list(df_2009_2019['銷量']))
LinearRegression()

1.第一行代碼從 Scikit-Learn 庫引入線性回歸的相關模塊 LinearRegression;

2.第二行代碼構造一個初始的線性回歸模型并命名為 regr;

3.第三行代碼用fit() 函數(shù)完成模型搭建,此時的regr就是一個搭建好的線性回歸模型。

NO.4 模型預測

接下來就可以利用搭建好的模型 regr 來預測數(shù)據(jù)。加上自變量是12,那么使用 predict() 函數(shù)就能預測對應的因變量有,代碼如下:

XX_ = poly_reg.fit_transform([[12]])
XX_
array([[  1.,  12., 144.]])
y = regr.predict(XX_)
y
array([3282.23478788])

這里我們就得到了如果按照這個趨勢2009-2019的趨勢預測2020的結果,就是3282,但實際卻是4982億,原因就是上文提到的合并計算了,金額一下子變大了,繪制成圖,就是下面這樣:

# 散點圖
import plotly as py
import plotly.graph_objs as go
import numpy as np

year = list(df['年份'])
sales = df['銷量']

trace1 = go.Scatter(
    x=year,
    y=sales,
    mode='markers',
    name="實際銷量"       # 第一個圖例名稱
)

XX_ = poly_reg.fit_transform(list(df['年份int'])+[[13]])
regr = LinearRegression()
regr.fit(X_,list(df_2009_2019['銷量']))
trace2 = go.Scatter(
    x=list(df['年份']),
    y=regr.predict(XX_),
    mode='lines',
    name="擬合數(shù)據(jù)",  # 第2個圖例名稱
)


data = [trace1,trace2]

layout = go.Layout(title='天貓?zhí)詫氹p十一歷年銷量',
                    xaxis_title='年份',
                    yaxis_title='銷量')

fig = go.Figure(data=data, layout=layout)

fig.show()

圖片

NO.5 預測2021年的銷量

既然數(shù)據(jù)發(fā)生了巨大的偏離,咱們也別深究了,就大力出奇跡。同樣的方法,把2020年的真實數(shù)據(jù)納入進來,二話不說擬合一樣,看看會得到什么結果:

from sklearn.preprocessing import PolynomialFeatures
poly_reg = PolynomialFeatures(degree=5)
X_ = poly_reg.fit_transform(list(df['年份int']))
## 預測2020年
regr = LinearRegression()
regr.fit(X_,list(df['銷量']))
LinearRegression()
XXX_ = poly_reg.fit_transform(list(df['年份int'])+[[13]])
# 散點圖
import plotly as py
import plotly.graph_objs as go
import numpy as np

year = list(df['年份'])
sales = df['銷量']

trace1 = go.Scatter(
    x=year+['2021年','2022年','2023年'],
    y=sales,
    mode='markers',
    name="實際銷量"       # 第一個圖例名稱
)


trace2 = go.Scatter(
    x=year+['2021年','2022年','2023年'],
    y=regr.predict(XXX_),
    mode='lines',
    name="預測銷量"       # 第一個圖例名稱
)

trace3 = go.Scatter(
    x=['2021年'],
    y=[regr.predict(XXX_)[-1]],
    mode='markers',
    name="2021年預測銷量"       # 第一個圖例名稱
)

data = [trace1,trace2,trace3]

layout = go.Layout(title='天貓?zhí)詫氹p十一歷年銷量',
                    xaxis_title='年份',
                    yaxis_title='銷量')

fig = go.Figure(data=data, layout=layout)

fig.show()

圖片

NO.6多項式預測的次數(shù)到底如何選擇

在選擇模型中的次數(shù)方面,可以通過設置程序,循環(huán)計算各個次數(shù)下預測誤差,然后再根據(jù)結果反選參數(shù)。

df_new = df.copy()
df_new['年份int'] = df['年份int'].apply(lambda x: x[0])
df_new
.dataframe tbody tr th {
    vertical-align: top;
}

.dataframe thead th {
    text-align: right;
}

圖片

#  多項式回歸預測次數(shù)選擇
# 計算 m 次多項式回歸預測結果的 MSE 評價指標并繪圖
from sklearn.pipeline import make_pipeline
from sklearn.metrics import mean_squared_error

train_df = df_new[:int(len(df)*0.95)]
test_df = df_new[int(len(df)*0.5):]

# 定義訓練和測試使用的自變量和因變量
train_x = train_df['年份int'].values
train_y = train_df['銷量'].values
# print(train_x)

test_x = test_df['年份int'].values
test_y = test_df['銷量'].values

train_x = train_x.reshape(len(train_x),1)
test_x = test_x.reshape(len(test_x),1)
train_y = train_y.reshape(len(train_y),1)

mse = [] # 用于存儲各最高次多項式 MSE 值
m = 1 # 初始 m 值
m_max = 10 # 設定最高次數(shù)
while m <= m_max:
    model = make_pipeline(PolynomialFeatures(m, include_bias=False), LinearRegression())
    model.fit(train_x, train_y) # 訓練模型
    pre_y = model.predict(test_x) # 測試模型
    mse.append(mean_squared_error(test_y, pre_y.flatten())) # 計算 MSE
    m = m + 1

print("MSE 計算結果: ", mse)
# 繪圖
plt.plot([i for i in range(1, m_max + 1)], mse, 'r')
plt.scatter([i for i in range(1, m_max + 1)], mse)

# 繪制圖名稱等
plt.title("MSE of m degree of polynomial regression")
plt.xlabel("m")
plt.ylabel("MSE")

MSE 計算結果: [1088092.9621201046, 481951.27857828484, 478840.8575107471, 477235.9140442428, 484657.87153138855, 509758.1526412842, 344204.1969956556, 429874.9229308078, 8281846.231771571, 146298201.8473966]

Text(0, 0.5, 'MSE')

圖片

從誤差結果可以看到,次數(shù)取2到8誤差基本穩(wěn)定,沒有明顯的減少了,但其實你試試就知道,次數(shù)選擇3的時候,預測的銷量是6213億元,次數(shù)選擇5的時候,預測的銷量是9029億元,對于銷售量來說,這個范圍已經(jīng)夠大的了。我也就斗膽猜到9029億元,我的膽量也就預測到這里了,破萬億就太夸張了,歡迎膽子大的同學留下你們的預測結果,讓我們11月11日,拭目以待吧。

NO.7 總結最后

希望這篇文章帶著對 Python 的多項式回歸和 Plotly可視化繪圖還不熟悉的同學一起練習一下。

圖片

技術交流

歡迎轉載、收藏、有所收獲點贊支持一下!

在這里插入圖片描述

以上就是據(jù)Python爬蟲不靠譜預測可知今年雙十一銷售額將超過6000億元的詳細內(nèi)容,更多關于Python 爬蟲預測的資料請關注腳本之家其它相關文章!

相關文章

  • Python打造虎年祝福神器的示例代碼

    Python打造虎年祝福神器的示例代碼

    2022虎年將至,值此新春佳節(jié)之際,小編特地為大家介紹了一個利用Python實現(xiàn)的虎年祝福神器,文中的示例代碼講解詳細,感興趣的可以動手試一試
    2022-01-01
  • flask框架自定義url轉換器操作詳解

    flask框架自定義url轉換器操作詳解

    這篇文章主要介紹了flask框架自定義url轉換器操作,結合實例形式分析了URL轉換器的相關原理、實現(xiàn)方法與操作注意事項,需要的朋友可以參考下
    2020-01-01
  • Python實現(xiàn)以時間換空間的緩存替換算法

    Python實現(xiàn)以時間換空間的緩存替換算法

    緩存是指可以進行高速數(shù)據(jù)交換的存儲器,它先于內(nèi)存與CPU交換數(shù)據(jù),因此速度很快。緩存就是把一些數(shù)據(jù)暫時存放于某些地方,可能是內(nèi)存,也有可能硬盤。下面給大家介紹Python實現(xiàn)以時間換空間的緩存替換算法,需要的朋友參考下
    2016-02-02
  • python內(nèi)置數(shù)據(jù)類型之列表操作

    python內(nèi)置數(shù)據(jù)類型之列表操作

    數(shù)據(jù)類型是一種值的集合以及定義在這種值上的一組操作。這篇文章主要介紹了python內(nèi)置數(shù)據(jù)類型之列表的相關知識,非常不錯,具有一定的參考借鑒價值,需要的朋友可以參考下
    2018-11-11
  • 用Pycharm實現(xiàn)鼠標滾輪控制字體大小的方法

    用Pycharm實現(xiàn)鼠標滾輪控制字體大小的方法

    今天小編就為大家分享一篇用Pycharm實現(xiàn)鼠標滾輪控制字體大小的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-01-01
  • Win10系統(tǒng)下安裝編輯器之神(The?God?of?Editor)Vim并且構建Python生態(tài)開發(fā)環(huán)境過程(2020年最新攻略)

    Win10系統(tǒng)下安裝編輯器之神(The?God?of?Editor)Vim并且構建Python生態(tài)開發(fā)環(huán)境過程(2

    這篇文章主要介紹了Win10系統(tǒng)下安裝編輯器之神(The?God?of?Editor)Vim并且構建Python生態(tài)開發(fā)環(huán)境(2020年最新攻略),本次我們在Win10平臺構建一套以Vim為核心的Python開發(fā)環(huán)境,需要的朋友可以參考下
    2023-01-01
  • python實現(xiàn)簡單加密解密機制

    python實現(xiàn)簡單加密解密機制

    這篇文章主要為大家詳細介紹了python實現(xiàn)簡單加密解密機制,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2019-03-03
  • Python海象運算符超詳細講解

    Python海象運算符超詳細講解

    海象運算符的英文原名叫Assignment Expresions,翻譯過來也就是賦值表達式,不過現(xiàn)在大家更普遍地稱之為海象運算符,就是因為它長得真的太像海象了
    2023-01-01
  • python常見進制轉換方法示例代碼

    python常見進制轉換方法示例代碼

    Python為我們提供了強大的內(nèi)置函數(shù)和格式化數(shù)字的方法去實現(xiàn)進制轉換的功能,下面這篇文章主要給大家介紹了關于python常見進制轉換方法的相關資料,文中通過實例代碼介紹的非常詳細,需要的朋友可以參考下
    2023-05-05
  • pandas數(shù)據(jù)集的端到端處理

    pandas數(shù)據(jù)集的端到端處理

    今天小編就為大家分享一篇關于pandas數(shù)據(jù)集的端到端處理,小編覺得內(nèi)容挺不錯的,現(xiàn)在分享給大家,具有很好的參考價值,需要的朋友一起跟隨小編來看看吧
    2019-02-02

最新評論