欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Instagram提升PostgreSQL性能的五個技巧

 更新時間:2015年04月21日 10:30:20   投稿:goldensun  
這篇文章主要介紹了Instagram提升PostgreSQL性能的五個技巧,Instagram的數(shù)據(jù)庫一直由PostgreSQL支撐,經(jīng)驗很具有參考性,需要的朋友可以參考下

 隨著Instagram的規(guī)模日益擴大,Postgres繼續(xù)充當著Instagram的堅實基礎(chǔ),并存儲著絕大部分的用戶數(shù)據(jù)。不到一年之前,我們還曾在博客上說Instagram“存儲著大量數(shù)據(jù)”,每秒增加90條數(shù)據(jù),現(xiàn)在,這個數(shù)據(jù)已經(jīng)增長到了峰值的10000條。而我們的基礎(chǔ)存儲技術(shù)依然保持不變。

在過去的兩年半中,我們有一些關(guān)于Postgres擴展的經(jīng)驗和工具,想要分享出來。真希望在當初啟動Instagram的時候就能有這些經(jīng)驗和工具呀。其中有些是Postgres獨有的,有些是其它數(shù)據(jù)庫也可以采用的。如果想要了解我們是如何水平分區(qū)的,可以看這篇文章。

1. 局部索引

如果我們經(jīng)常需要按某個固定的特征過濾數(shù)據(jù),而且這個特征只存在于一小部分行里,在這種情況下,局部索引非常有效。

比方說,Instagram搜索標簽的時候,我們需要找出有許多照片的標簽。我們一般會用ElasticSearch之類的技術(shù)來進行高級搜索,不過這里只靠數(shù)據(jù)庫的查詢能力就完全夠了。先來看一下,按標簽查詢,并按照片數(shù)排序,Postgres是怎么做的:
 

EXPLAIN ANALYZE SELECT id from tags WHERE name LIKE 'snow%' ORDER BY media_count DESC LIMIT 10;   
QUERY PLAN 
---------                                 
 Limit (cost=1780.73..1780.75 rows=10 width=32) (actual time=215.211..215.228 rows=10 loops=1)
  -> Sort (cost=1780.73..1819.36 rows=15455 width=32) (actual time=215.209..215.215 rows=10 loops=1)
     Sort Key: media_count
     Sort Method: top-N heapsort Memory: 25kB
     -> Index Scan using tags_search on tags_tag (cost=0.00..1446.75 rows=15455 width=32) (actual time=0.020..162.708 rows=64572 loops=1)
        Index Cond: (((name)::text ~>=~ 'snow'::text) AND ((name)::text ~<~ 'snox'::text))
        Filter: ((name)::text ~~ 'snow%'::text)
 Total runtime: 215.275 ms
(8 rows)

有沒有看到,為了得到結(jié)果,Postgres不得不對15000行數(shù)據(jù)進行排序。由于標簽的分布滿足長尾模式(譯者注: 根據(jù)百度百科,「我們常用的漢字實際上不多,但因出現(xiàn)頻次高,所以這些為數(shù)不多的漢字占據(jù)了上圖廣大的紅區(qū);絕大部分的漢字難得一用,它們就屬于那長長的黃尾?!?,我們可以改為查詢超過100張照片的標簽,先建局部索引:
 
CREATE INDEX CONCURRENTLY on tags (name text_pattern_ops) WHERE media_count >= 100
然后查詢,看一下新的查詢計劃:
 

EXPLAIN ANALYZE SELECT * from tags WHERE name LIKE 'snow%' AND media_count >= 100 ORDER BY media_count DESC LIMIT 10;
 
QUERY PLAN
 Limit (cost=224.73..224.75 rows=10 width=32) (actual time=3.088..3.105 rows=10 loops=1)
  -> Sort (cost=224.73..225.15 rows=169 width=32) (actual time=3.086..3.090 rows=10 loops=1)
     Sort Key: media_count
     Sort Method: top-N heapsort Memory: 25kB
     -> Index Scan using tags_tag_name_idx on tags_tag (cost=0.00..221.07 rows=169 width=32) (actual time=0.021..2.360 rows=924 loops=1)
        Index Cond: (((name)::text ~>=~ 'snow'::text) AND ((name)::text ~<~ 'snox'::text))
        Filter: ((name)::text ~~ 'snow%'::text)
 Total runtime: 3.137 ms
(8 rows)

可以看到,Postgres只需要訪問169行,所以速度快得多。Postgres的查詢計劃器對約束的評估也很有效。如果以后想要查詢超過500張照片的標簽,由于這個結(jié)果集是上面集合的子集,所以仍然會使用這個局部索引。

2. 函數(shù)索引

在某些表上,我們需要對一些很長的字符串建立索引,比如說,64個字符的base64記號。如果直接建索引的話,會造成大量的數(shù)據(jù)重復,這種情況下,可以用Postgres的函數(shù)索引:
 

CREATE INDEX CONCURRENTLY on tokens (substr(token), 0, 8)

雖然這樣會造成許多行匹配相同的前綴,但我們可以在匹配的基礎(chǔ)上再用過濾,速度很快。而且索引很小,只有大概原來的十分之一。

3. 用pg_reorg來讓數(shù)據(jù)更緊湊

隨著時間的流逝,Postgres的表會變得越來越零碎(由MVCC并發(fā)模型等原因引起)。而且,數(shù)據(jù)行插入的順序往往也不是我們希望返回的順序。比如說,如果我們經(jīng)常要按用戶來查詢照片等,那么最好是在磁盤上把這些東西放在一起,這樣就可以減少磁盤尋道的時間。

我們用pg_reorg來解決這個問題,它用三個步驟來讓“壓緊”一個表:

  1.     取得表的獨占鎖
  2.     建一個記錄變更的臨時表,在原始表上加一個觸發(fā)器,把對原始表的變更復制到臨時表上
  3.     用CREATE TABLE...SELECT FROM...ORDER BY建表,新表擁有原始表的全部數(shù)據(jù),而且是按索引順序排序的
  4.     將CREATE TABLE執(zhí)行時間點以后發(fā)生的變更從臨時表同步過來
  5.     業(yè)務(wù)切換到新表

每一步都會有很多細節(jié),不過大體上就是像上面這個樣子。我們先對這個工具進行了一些審查,運行了若干測試,然后再把它用到生產(chǎn)環(huán)境上?,F(xiàn)在,我們已經(jīng)在幾百臺機器的環(huán)境上跑過幾十次pg_reorg,沒出現(xiàn)過任何問題。


4. 用WAL-E進行WAL(寫前日志)的歸檔和備份

我們用WAL-E來歸檔WAL日志,它是Heroku寫的一個工具,我們也向它貢獻了一部分代碼。WAL-E大大簡化了數(shù)據(jù)備份和復制庫創(chuàng)建的過程。

WAL-E是利用Progres的archive_command,將PG產(chǎn)生的每個WAL文件都歸檔到Amazon的S3。利用這些WAL文件和數(shù)據(jù)庫的基準備份,我們可以將數(shù)據(jù)庫恢復到基準備份后任何一個時間點的狀態(tài)。利用這個手段,我們也可以快速創(chuàng)建只讀的復制庫或故障備用庫。

我們?yōu)閃AL-E寫了一個簡單的封裝腳本,可以監(jiān)控歸檔時的重復故障,見GitHub
 
5. psycopg2中的自動提交模式和異步模式

我們也開始用psycopg2中的一些高級功能(psycopg2是Postgres的Python驅(qū)動)。

一個是自動提交模式。在這個模式里,psycopg2不會發(fā)出BEGIN/COMMIT,每個查詢跑在自己的單語句事務(wù)里。這對不需要事務(wù)的只讀查詢特別有用。開啟很簡單:

connection.autocommit = True

開啟自動提交后,我們的應(yīng)用服務(wù)器和數(shù)據(jù)庫之間的對話大減,數(shù)據(jù)庫服務(wù)器的CPU用量也大減。而且,我們是用PGBouncer作為連接池,開啟自動提交后,連接的歸還也更快了。

與Django的交互細節(jié)可以看這里。


psycopg2還有一個很有用的功能,它可以通過注冊一個等待回調(diào)(wait callback)函數(shù),提供協(xié)同程序(coroutine)支持。它可以支持跨連接查詢,對命中多個節(jié)點的查詢非常有用,當有數(shù)據(jù)時,socket會被喚醒(我們利用Python的select模塊來處理喚醒)。它也可以與eventlet和gevent等多線程庫很好的協(xié)作,參考實現(xiàn)可見psycogreen

總的來說,我們對Postgres的高性能和可靠性十分滿意。想在世界上最大之一的Postgres集群上工作嗎?想跟一群基礎(chǔ)設(shè)施高手們一起干活嗎?請聯(lián)系infrajobs@instagram.com吧。

相關(guān)文章

  • 關(guān)于Hive中的NULL空值處理問題

    關(guān)于Hive中的NULL空值處理問題

    這篇文章主要介紹了關(guān)于Hive中的NULL空值處理問題,Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張表,并提供類SQL查詢功能,需要的朋友可以參考下
    2023-07-07
  • 詳解Navicat簡單使用方法

    詳解Navicat簡單使用方法

    這篇文章主要介紹了Navicat簡單使用方法,本文通過圖文并茂的形式給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2020-11-11
  • 分布式緩存Redis與Memcached的優(yōu)缺點區(qū)別比較

    分布式緩存Redis與Memcached的優(yōu)缺點區(qū)別比較

    Redis和Memcached都是基于內(nèi)存key-value的數(shù)據(jù)存儲系統(tǒng)。兩者都可以通過緩存數(shù)據(jù)結(jié)果,HTML片段或其他可能產(chǎn)生成本很高的內(nèi)容來幫助加快應(yīng)用程序的速度。與memcached相比,Redis功能更強大,更受歡迎并且得到更好的支持。
    2022-12-12
  • sql 插入數(shù)據(jù)的三種常用方法及小貼士

    sql 插入數(shù)據(jù)的三種常用方法及小貼士

    我們在插入數(shù)據(jù)到數(shù)據(jù)庫中的時候,常用的語句如下
    2009-07-07
  • 一文告訴你Sql的執(zhí)行順序是怎樣的

    一文告訴你Sql的執(zhí)行順序是怎樣的

    這篇文章主要給大家介紹了關(guān)于Sql的執(zhí)行順序是怎樣的,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2020-12-12
  • 詳解PyMySQL插入字典類型的數(shù)據(jù)

    詳解PyMySQL插入字典類型的數(shù)據(jù)

    在我們爬蟲或者調(diào)API獲取數(shù)據(jù)后,需要將數(shù)據(jù)存入到數(shù)據(jù)庫中,如果數(shù)據(jù)是列表嵌套字典格式的話,一般做法是遍歷列表,然后用字典生成對應(yīng)的SQL語句再執(zhí)行插入到表中,本文將介紹一種更加簡便的方法來插入字典類型的數(shù)據(jù),需要的朋友可以參考下
    2022-07-07
  • SQLServer中exists和except用法介紹

    SQLServer中exists和except用法介紹

    大家好,本篇文章主要講的是SQLServer中exists和except用法介紹,感興趣的同學趕快來看一看吧,對你有幫助的話記得收藏一下哦
    2021-12-12
  • 淺析sql server 公共表達式的簡單應(yīng)用

    淺析sql server 公共表達式的簡單應(yīng)用

    本文主要對sql server 公共表達式的簡單應(yīng)用進行介紹,具有一定的參考價值,有需要的可以看下
    2016-12-12
  • SQL中IS NOT NULL與!=NULL的區(qū)別

    SQL中IS NOT NULL與!=NULL的區(qū)別

    這篇文章主要介紹了SQL中IS NOT NULL與!=NULL的區(qū)別,本文詳細訴說了它們的區(qū)別,以及推薦使用方法,需要的朋友可以參考下
    2015-06-06
  • Access轉(zhuǎn)SqlServer的注意事項

    Access轉(zhuǎn)SqlServer的注意事項

    Access轉(zhuǎn)SqlServer的注意事項,需要的朋友可以參考下。
    2007-02-02

最新評論