快捷導(dǎo)航

R語言實現(xiàn)ggplot重繪天貓雙十一銷售額曲線圖過程

更新時間：2021年11月06日 09:06:14 作者：Kanny廣小隸

這篇文章主要為大家介紹了如何使用ggplot繪制天貓雙十一銷售額曲線圖的實現(xiàn)過程，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進(jìn)步，早日升職加薪

這張圖的來源是一篇名為 “淘寶2009-2018年歷年雙11銷售額數(shù)據(jù)造假” 的文章。圖中散點為天貓雙十一銷售額數(shù)據(jù)，曲線為原作者擬合的回歸線。乍一看散點完美地分布在曲線上，原作者便直接聲稱：“淘寶雙十一銷售額數(shù)據(jù)造假！不可能有這么完美的擬合！” 可事實真的是這樣嗎？

作為一個熱愛畫畫的博主，我們先不來考慮這個問題，直接來試著在 R 中繪制出上圖，一個更好看版本的上圖。

Let's start

溫馨小提示：在這篇博客中，你可以學(xué)會下述 ggplot 的繪圖小技巧：

如何在圖像中擬合二次曲線；

如何在圖像中添加文本或自適應(yīng)地添加文本；

如何刪除一些不必要的背景線；

還有一些常規(guī)操作：換主題、改刻度、改顏色等等… …

偷偷放個最終成果：

輸入數(shù)據(jù)

首先我們查到具體每一年的天貓銷售額數(shù)據(jù)，然后在 R 中構(gòu)建 data frame.

year <- 2009:2019
sales <- c(0.5, 9.36, 52, 191, 350, 571, 912, 1207, 1682, 2135, 2684)
dat_sales <- data.frame(year = year, sales = sales)

由于我們想重點凸顯出 2019 年的具體表現(xiàn)，所以我們還需要添加一列 index 表示是否為 2019 年（非 2019 年為 1， 2019 年為 2）：

dat_sales$ind <- factor(c(rep(x = 1, 10), 2))

數(shù)據(jù)框長著如下這樣：

   year   sales ind
1  2009    0.50   1
2  2010    9.36   1
3  2011   52.00   1
4  2012  191.00   1
5  2013  350.00   1
6  2014  571.00   1
7  2015  912.00   1
8  2016 1207.00   1
9  2017 1682.00   1
10 2018 2135.00   1
11 2019 2684.00   2

好啦，有了上述數(shù)據(jù)框，我們就可以開始進(jìn)行 ggplot 的繪圖了！

粗略繪圖

首先我們就用默認(rèn)參數(shù)畫出散點變化趨勢，同時 2019 年標(biāo)注出不一樣的顏色：

library(ggplot2)
ggplot(dat = dat_sales) +
  geom_point(aes(x = year, y = sales, col = ind))

但是這樣的繪圖有很多問題：缺少標(biāo)題，坐標(biāo)軸的標(biāo)題改中文，x 軸的顯示不是離散的年份，散點過小，圖例問題等等問題，我們先一步一步來進(jìn)行完善。

完善散點圖

ggplot(dat = dat_sales) +
  geom_point(aes(x = year, y = sales, col = ind), size = 4) +
  scale_x_continuous(breaks = 2009:2019, labels = 2009:2019) +
  labs(title = "2009 - 2019 年銷售額", x = "年份", y = "銷售額 (億元)") +
  theme(legend.position = "none",
        plot.title = element_text(hjust = 0.5))

其中，size = 4, 表示將散點進(jìn)行放大，具體的尺寸可以自己進(jìn)行設(shè)置; breaks = 2009:2019 表示原本數(shù)據(jù)集中在 x 軸上對應(yīng)的值; labels = 2009:2019 表示映射到圖像上 x 軸的值; legend.position = "none"表示取消 legend 顯示。

強調(diào)：這里為了顯示年份，其實可以采用將年份轉(zhuǎn)換成 factor 型的方法，但由于我們還需要使用年份數(shù)據(jù)進(jìn)行曲線擬合，若轉(zhuǎn)化成 factor 會使得曲線擬合失敗，因此我們采用稍微復(fù)雜一些的修改 x 軸刻度的方法。

添加擬合曲線

下面我們就開始添加二次函數(shù)擬合曲線：

ggplot(dat = dat_sales) +
  geom_point(aes(x = year, y = sales, col = ind), size = 4) +
  geom_smooth(aes(x = year, y = sales), se = FALSE, method = "lm", formula = y ~ x + I(x^2), size = 2) +
  scale_x_continuous(breaks = 2009:2019, labels = 2009:2019) +
  labs(title = "2009 - 2019 年銷售額", x = "年份", y = "銷售額 (億元)") +
  theme(legend.position = "none",
        plot.title = element_text(hjust = 0.5))

在這里插入圖片描述

在 ggplot 中通常都是使用 geom_smooth 來進(jìn)行曲線或者直線的擬合，對于線性、二次、三次函數(shù)，我們都是使用 method = "lm"; se = FALSE 表示不顯示置信區(qū)間; formula = y ~ x + I(x^2) 表示使用二次函數(shù)進(jìn)行擬合; 最后的 size = 2 表示調(diào)整線的粗細(xì)。

在散點上添加銷售額

可以發(fā)現(xiàn)，這樣的曲線只能看出趨勢，但是卻看不出每年的具體銷售額，所以接下來我們嘗試在圖像的每個散點加上具體的銷售額：

# library(ggrepel)
ggplot(dat = dat_sales) +
  geom_point(aes(x = year, y = sales, col = ind), size = 4) +
  geom_smooth(aes(x = year, y = sales), se = FALSE, method = "lm", formula = y ~ x + I(x^2), size = 2) +
  geom_text(aes(x = year, y = sales, label = sales), hjust = 0.5, vjust = -1) +
  # geom_text_repel(aes(x = year, y = sales, label = sales)) +
  ylim(0, 3000) +
  scale_x_continuous(breaks = 2009:2019, labels = 2009:2019) +
  labs(title = "2009 - 2019 年銷售額", x = "年份", y = "銷售額 (億元)") +
  theme(legend.position = "none",
        plot.title = element_text(hjust = 0.5))

當(dāng)我們需要在繪圖中添加文本時，通?？梢允褂?geom_text 函數(shù)，然后 aes(label = ) 中設(shè)定需要顯示的變量名稱，最后的 hjust = 0.5, vjust = -1 表示調(diào)整顯示的相對位置，前者表示水平位置，后者表示垂直位置，這個根據(jù)繪圖的不同需要自己進(jìn)行手動調(diào)整。

同時，2019 年的銷售額較高，如果不調(diào)整 y 軸的顯示范圍，最上面顯示的銷售額 2684 會被遮擋，所以我們添加了 ylim(0, 3000)。

另外，細(xì)心的童鞋一定發(fā)現(xiàn)了，我們在代碼中添加了兩行注釋，注釋的內(nèi)容同樣是添加文本的語句: geom_text_repel(aes(x = year, y = sales, label = sales))，這個語句可以自適應(yīng)地調(diào)整每個文本顯示內(nèi)容，使文本不會擋住我們的散點和曲線，這個函數(shù)在包 ggrepel 中。這里之所以是因為這個方式大多用于圖像中散點比較多，比較亂的情況，如果在此幅圖中使用，會使得銷售額的文本顯示略顯混亂。

刪除不必要的背景線

再細(xì)心一些的童鞋可能觀察到了，背景的網(wǎng)格圖，在 x 軸每兩個年份之間都有一根垂直線，這個垂直線是毫無意義的。這時我們不禁要問，是否有方法能夠?qū)⑦@根線消去呢？

答案是肯定的：

ggplot(dat = dat_sales) +
  geom_point(aes(x = year, y = sales, col = ind), size = 4) +
  geom_smooth(aes(x = year, y = sales), se = FALSE, method = "lm", formula = y ~ x + I(x^2), size = 2) +
  geom_text(aes(x = year, y = sales, label = sales), hjust = 0.5, vjust = -1) +
  ylim(0, 3000) +
  scale_x_continuous(breaks = 2009:2019, labels = 2009:2019) +
  labs(title = "2009 - 2019 年銷售額", x = "年份", y = "銷售額 (億元)") +
  theme(panel.grid.minor = element_blank(),
        legend.position = "none",
        plot.title = element_text(hjust = 0.5))

修改起來其實也不難，可以發(fā)現(xiàn)，每個年份對應(yīng)的垂直線叫做 major，而年份沒對應(yīng)到的網(wǎng)格線叫做 minor，因此我們直接在 theme 中添加 panel.grid.minor = element_blank() 即可。

終極美化

到這里，我們的基本元素的拼湊已經(jīng)告一段落了，但是整體圖看起來依舊是不夠美觀，所以接下來我們再進(jìn)行一些操作來美化繪圖，最終代碼與結(jié)果如下：

ggplot(dat = dat_sales, aes(x = year, y = sales)) +
  geom_smooth(se = FALSE, method = "lm", formula = y ~ x + I(x^2), size = 2, col = "#b3cde3") +
  geom_point(aes(col = ind), size = 4) +
  ylim(0, 3000) +
  geom_text(aes(label = sales), hjust = 0.5, vjust = -1) +
  scale_x_continuous(breaks = 2009:2019, labels = 2009:2019) +
  labs(title = "2009 - 2019 年銷售額", x = "年份", y = "銷售額 (億元)") +
  theme_bw(base_family = "Times") +
  theme(legend.position = "none",
        panel.grid.minor = element_blank(),
        panel.border = element_blank(),
        plot.title = element_text(hjust = 0.5))

這里其實做了一些細(xì)節(jié)的調(diào)整，首先先繪制擬合曲線，再繪制散點，這樣散點就會在曲線的上方，這樣看起來會更加的美觀。其次改變了擬合曲線的顏色：col = "#b3cde3"，改變了繪圖的主題：theme_bw(base_family = "Times")，刪除了丑丑的邊框：panel.border = element_blank()。

至此，我們美美的繪圖重構(gòu)就完成了！