利用Go語言實現(xiàn)Raft日志同步

更新時間：2023年05月24日 11:20:42 作者：nananatsu

這篇文章主要為大家詳細介紹了如何利用Go語言實現(xiàn)Raft日志同步，文中的示例代碼講解詳細，對我們深入了解Go語言有一定的幫助，需要的可以參考一下

在raft中，選取成功后集群就可以正常工作，一次正常的客戶端提案過程如下：

客戶端連接到leader，發(fā)起提案
leader收到提案后將提案，包裝為一條日志
leader將日志緩存到待提交日志
leader發(fā)送日志到集群其他節(jié)點
follower收到日志后，將日志緩存到待提交日志，并響應(yīng)leader請求
leader收到follower響應(yīng)，檢查是否集群大多數(shù)節(jié)點已響應(yīng)
集群中大多數(shù)節(jié)點已緩存日志后，leader提交日志，發(fā)送空日志要求follower提交日志
leader響應(yīng)客戶端提案已接收

raft中日志規(guī)則如下：

1.如果在不同節(jié)點日志中的兩條日志記錄有相同的任期、編號，則這兩條日志記錄具有相同的內(nèi)容

leader在單個任期中最多創(chuàng)建一個給定編號的日志記錄
leader不會改變?nèi)罩居涗浰诘奈恢茫╨eader不會覆蓋、刪除日志記錄）

2.如果在不同節(jié)點日志中的兩條日志記錄有相同的任期、編號，則這兩條日志之前的所有日志相同

leader發(fā)送日志記錄到follower會包含上次日志記錄編號、任期

follower在收到追加日志時請求時會進行一致性檢查，如檢查失敗，follower會拒絕追加請求，保證了日志與leader一致，一致性檢查失敗時leader會強迫follower接受leader日志，從而保證日志一致性。一致性檢查失敗分兩種情況，

a.follower日志存在缺失，收到失敗響應(yīng)后leader會將發(fā)送日志編號減一（follower檢查失敗時也可以返回當前最新日志編號），發(fā)送follower缺失的日志

當節(jié)點下線過一段時間/網(wǎng)絡(luò)異常消息丟失會出現(xiàn)日志缺失

b.follower有多余/不一致的日志，收到失敗響應(yīng)后leader會將發(fā)送日志編號減一（follower檢查失敗時也可以返回當前最后提交的日志編號），找到兩份日志中最新的一致記錄編號，刪除follower中不一致的部分

節(jié)點當選leader收到消息只追加到本地尚未同步到集群便異常下線，后續(xù)上線會出現(xiàn)內(nèi)存中有不一致的日志，已提交日志不會出現(xiàn)不一致

日志在節(jié)點間的同步分兩步完成，

1.leader通過rpc將日志復(fù)制到其他節(jié)點

2.當leader確認日志已被復(fù)制到集群中大多數(shù)節(jié)點后，將日志持久化到磁盤，leader追蹤已提交的日志的最大編號，通過日志rpc（含心跳）發(fā)送該編號告知follower需提交日志

日志提交時會持久化當前編號及該編號之前的未提交日志

每條日志到包含客戶端的實際提案內(nèi)容、leader任期、日志編號，定義日志記錄為如下結(jié)構(gòu)：

type 日志類型，當前只有一種日志，客戶端的提案
term 日志產(chǎn)生的任期，編號和任期相同代表為同一條日志
index 日志編號，單調(diào)增加
data 提案的實際內(nèi)容

enum EntryType {
  NORMAL = 0;
}
message LogEntry {
  EntryType type = 1;
  uint64 term = 2;
  uint64 index = 3;
  bytes data = 4;
}

定義日志整體結(jié)構(gòu)

未提交日志，保存在內(nèi)存切片中

日志提交時，取出切片待提交部分，進行持久化

type WaitApply struct {
    done  bool
    index uint64
    ch    chan struct{}
}
type RaftLog struct {
    logEnties        []*pb.LogEntry // 未提交日志
    storage          Storage        // 已提交日志存儲
    commitIndex      uint64         // 提交進度
    lastAppliedIndex uint64         // 最后提交日志
    lastAppliedTerm  uint64         // 最后提交日志任期
    lastAppendIndex  uint64         // 最后追加日志
    logger           *zap.SugaredLogger
}

定義日志持久化接口，實際存儲實現(xiàn)由外部提供

type Storage interface {
    Append(entries []*pb.LogEntry)
    GetEntries(startIndex, endIndex uint64) []*pb.LogEntry
    GetTerm(index uint64) uint64
    GetLastLogIndexAndTerm() (uint64, uint64)
    Close()
}

實現(xiàn)一致性檢查

已持久化的日志必然與leader一致，檢查一致時只需檢查內(nèi)存中日志切片，存在以下幾種情況：

1.節(jié)點日志中有找到leader上次追加日志

I.為節(jié)點追加的最后一條日志

II.為節(jié)點內(nèi)存切片中的某條日志

節(jié)點網(wǎng)絡(luò)波動，導(dǎo)致未響應(yīng)leader，leader重發(fā)了記錄，清除重復(fù)日志記錄
節(jié)點作為leader期間有部分日志未同步到其他節(jié)點就失效，集群重新選舉，導(dǎo)致后續(xù)日志不一致，清除沖突日志(內(nèi)存中后續(xù)日志)

III.為節(jié)點最后提交日志

如內(nèi)存中存在日志記錄，則內(nèi)存中的記錄皆不一致，清除內(nèi)存日志記錄

2.節(jié)點未找到leader上次追加日志

I.存在相同日志編號記錄，任不相同

節(jié)點作為leader期間有部分日志未同步到其他節(jié)點就失效，集群重新選舉，導(dǎo)致使用了相同日志編號，清除沖突日志(相同任期的日志)，從節(jié)點未沖突部分開始重發(fā)

II.沒有相同日志編號記錄

日志缺失，需從最后提交開始重發(fā)

func (l *RaftLog) HasPrevLog(lastIndex, lastTerm uint64) bool {
    if lastIndex == 0 {
        return true
    }
    var term uint64
    size := len(l.logEnties)
    if size > 0 {
        lastlog := l.logEnties[size-1]
        if lastlog.Index == lastIndex {
            term = lastlog.Term
        } else if lastlog.Index > lastIndex {
            // 檢查最后提交
            if lastIndex == l.lastAppliedIndex { // 已提交日志必然一致
                l.logEnties = l.logEnties[:0]
                return true
            } else if lastIndex > l.lastAppliedIndex {
                // 檢查未提交日志
                for i, entry := range l.logEnties[:size] {
                    if entry.Index == lastIndex {
                        term = entry.Term
                        // 將leader上次追加后日志清理
                        // 網(wǎng)絡(luò)異常未收到響應(yīng)導(dǎo)致leader重發(fā)日志/leader重選舉使舊leader未同步數(shù)據(jù)失效
                        l.logEnties = l.logEnties[:i+1]
                        break
                    }
                }
            }
        }
    } else if lastIndex == l.lastAppliedIndex {
        return true
    }
    b := term == lastTerm
    if !b {
        l.logger.Debugf("最新日志: %d, 任期: %d ,本地記錄任期: %d", lastIndex, lastTerm, term)
        if term != 0 { // 當日志與leader不一致，刪除內(nèi)存中不一致數(shù)據(jù)同任期日志記錄
            for i, entry := range l.logEnties {
                if entry.Term == term {
                    l.logEnties = l.logEnties[:i]
                    break
                }
            }
        }
    }
    return b
}

實現(xiàn)日志追加，將新的日志添加到內(nèi)存切片，更新最后追加日志編號

func (l *RaftLog) AppendEntry(entry []*pb.LogEntry) {
???????    size := len(entry)
    if size == 0 {
        return
    }
    l.logEnties = append(l.logEnties, entry...)
    l.lastAppendIndex = entry[size-1].Index
}

實現(xiàn)日志提交

follower可能未同步全部日志，同步時如節(jié)點日志已同步全部待提交日志，則提交待提交日志，否則提交索引已追加日志
取出日志中待提交部分，添加到持久化存儲，更新提交進度、內(nèi)存切片

func (l *RaftLog) Apply(lastCommit, lastLogIndex uint64) {
	// 更新可提交索引
	if lastCommit > l.commitIndex {
		if lastLogIndex > lastCommit {
			l.commitIndex = lastCommit
		} else {
			l.commitIndex = lastLogIndex
		}
	}
	// 提交索引
	if l.commitIndex > l.lastAppliedIndex {
		n := 0
		for i, entry := range l.logEnties {
			if l.commitIndex >= entry.Index {
				n = i
			} else {
				break
			}
		}
		entries := l.logEnties[:n+1]
		l.storage.Append(entries)
		l.lastAppliedIndex = l.logEnties[n].Index
		l.lastAppliedTerm = l.logEnties[n].Term
		l.logEnties = l.logEnties[n+1:]
        l.NotifyReadIndex()
	}
}

定義新建函數(shù)，創(chuàng)建實例時需提供存儲實現(xiàn)

func NewRaftLog(storage Storage, logger *zap.SugaredLogger) *RaftLog {
	lastIndex, lastTerm := storage.GetLastLogIndexAndTerm()
	return &RaftLog{
		logEnties:        make([]*pb.LogEntry, 0),
		storage:          storage,
		commitIndex:      lastIndex,
		lastAppliedIndex: lastIndex,
		lastAppliedTerm:  lastTerm,
		lastAppendIndex:  lastIndex,
		logger:           logger,
	}
}

實現(xiàn)了日志的一致性檢查、追加、提交，接下實現(xiàn)raft中日志處理邏輯，首先我們需要在leader節(jié)點中保存集群其他節(jié)點的日志同步進度

節(jié)點在切換為leader時會將進度重置

投票響應(yīng)中會返回節(jié)點最新日志信息
未收到投票響應(yīng)的，使用leader最新日志，在一致性檢查后動態(tài)更新

在集群使用中通過第一條消息確認網(wǎng)絡(luò)可用，后續(xù)假設(shè)網(wǎng)絡(luò)正常，消息發(fā)送即成功，不等待節(jié)點響應(yīng)消息，直到出現(xiàn)同步失敗

prevResp 記錄上次發(fā)送結(jié)果，初始時為flase
pending 中記錄未發(fā)送完成的日志編號
消息發(fā)送時如 !prevResp && len(pending) 為true，表示上次發(fā)送未完成，延遲后續(xù)信息發(fā)送
一次消息發(fā)送成功后，prevResp標記為true，后續(xù)有待發(fā)送日志都直接發(fā)送

type ReplicaProgress struct {
    MatchIndex         uint64            // 已接收日志
    NextIndex          uint64            // 下次發(fā)送日志
    pending            []uint64          // 未發(fā)送完成日志
    prevResp           bool              // 上次日志發(fā)送結(jié)果
    maybeLostIndex     uint64            // 可能丟失的日志,記上次發(fā)送未完以重發(fā)
}

leader將日志記錄追加到本地，再廣播到集群

func (r *Raft) BroadcastAppendEntries() {
	r.cluster.Foreach(func(id uint64, _ *ReplicaProgress) {
		if id == r.id {
			return
		}
		r.SendAppendEntries(id)
	})
}
func (r *Raft) SendAppendEntries(to uint64) {
	p := r.cluster.progress[to]
	if p == nil || p.IsPause() {
		return
	}
	nextIndex := r.cluster.GetNextIndex(to)
	lastLogIndex := nextIndex - 1
	lastLogTerm := r.raftlog.GetTerm(lastLogIndex)
	maxSize := MAX_LOG_ENTRY_SEND
	if !p.prevResp {
		maxSize = 1
	}
	// var entries []*pb.LogEntry
	entries := r.raftlog.GetEntries(nextIndex, maxSize)
	size := len(entries)
	if size > 0  {
		r.cluster.AppendEntry(to, entries[size-1].Index)
	}
	r.send(&pb.RaftMessage{
		MsgType:      pb.MessageType_APPEND_ENTRY,
		Term:         r.currentTerm,
		From:         r.id,
		To:           to,
		LastLogIndex: lastLogIndex,
		LastLogTerm:  lastLogTerm,
		LastCommit:   r.raftlog.commitIndex,
		Entry:        entries,
	})
}

從日志中取得最新日志編號，遍歷待追加日志，設(shè)置日志編號
追加日志到內(nèi)存切片
更新leader追加進度
廣播日志到集群

func (r *Raft) AppendEntry(entries []*pb.LogEntry) {
	lastLogIndex, _ := r.raftlog.GetLastLogIndexAndTerm()
	for i, entry := range entries {
		entry.Index = lastLogIndex + 1 + uint64(i)
		entry.Term = r.currentTerm
	}
	r.raftlog.AppendEntry(entries)
	r.cluster.UpdateLogIndex(r.id, entries[len(entries)-1].Index)
	r.BroadcastAppendEntries()
}
func (c *Cluster) UpdateLogIndex(id uint64, lastIndex uint64) {
	p := c.progress[id]
	if p != nil {
		p.NextIndex = lastIndex
		p.MatchIndex = lastIndex + 1
	}
}

廣播日志與之前廣播心跳一致，遍歷集群信息發(fā)送到每個節(jié)點，發(fā)送按下述流程

檢查發(fā)送狀態(tài)，如上次發(fā)送未完成，暫緩發(fā)送

func (rp *ReplicaProgress) IsPause() bool {
    return (!rp.prevResp && len(rp.pending) > 0)
}

從節(jié)點同步進度中取得當前需發(fā)送日志編號

func (c *Cluster) GetNextIndex(id uint64) uint64 {
    p := c.progress[id]
    if p != nil {
        return p.NextIndex
    }
    return 0
}

從leader的日志中取到要發(fā)送的日志

func (l *RaftLog) GetEntries(index uint64, maxSize int) []*pb.LogEntry {
    // 請求日志已提交，從存儲獲取
    if index <= l.lastAppliedIndex {
        endIndex := index + MAX_APPEND_ENTRY_SIZE
        if endIndex >= l.lastAppliedIndex {
            endIndex = l.lastAppliedIndex + 1
        }
        return l.storage.GetEntries(index, endIndex)
    } else { // 請求日志未提交,從數(shù)組獲取
        var entries []*pb.LogEntry
        for i, entry := range l.logEnties {
            if entry.Index == index {
                if len(l.logEnties)-i > maxSize {
                    entries = l.logEnties[i : i+maxSize]
                } else {
                    entries = l.logEnties[i:]
                }
                break
            }
        }
        return entries
    }
}

更新節(jié)點發(fā)送進度，將節(jié)點待發(fā)送日志編號加一，將發(fā)送的日志編號加入未發(fā)送完成切片

上次發(fā)送成功時，假設(shè)本次也會成功，如發(fā)送失敗再回退發(fā)送進度

func (c *Cluster) AppendEntry(id uint64, lastIndex uint64) {
	p := c.progress[id]
	if p != nil {
		p.AppendEntry(lastIndex)
	}
}
func (rp *ReplicaProgress) AppendEntry(lastIndex uint64) {
	rp.pending = append(rp.pending, lastIndex)
	if rp.prevResp {
		rp.NextIndex = lastIndex + 1
	}
}

日志發(fā)送后，是follower收到日志進行處理

進行一致性檢查

檢查成功，將日志追加到follower內(nèi)存中，標記追加成功
檢查失敗，一致性檢查中已處理沖突日志，直接標記追加失敗

嘗試提交日志，每次日志消息都會包含leader提交進度，按leader提交進度，提交follower日志

響應(yīng)leader本次追加結(jié)果

func (r *Raft) ReciveAppendEntries(mLeader, mTerm, mLastLogTerm, mLastLogIndex, mLastCommit uint64, mEntries []*pb.LogEntry) {
	var accept bool
	if !r.raftlog.HasPrevLog(mLastLogIndex, mLastLogTerm) { // 檢查節(jié)點日志是否與leader一致
		r.logger.Infof("節(jié)點未含有上次追加日志: Index: %d, Term: %d ", mLastLogIndex, mLastLogTerm)
		accept = false
	} else {
		r.raftlog.AppendEntry(mEntries)
		accept = true
	}
	lastLogIndex, lastLogTerm := r.raftlog.GetLastLogIndexAndTerm()
	r.raftlog.Apply(mLastCommit, lastLogIndex)
	r.send(&pb.RaftMessage{
		MsgType:      pb.MessageType_APPEND_ENTRY_RESP,
		Term:         r.currentTerm,
		From:         r.id,
		To:           mLeader,
		LastLogIndex: lastLogIndex,
		LastLogTerm:  lastLogTerm,
		Success:      accept,
	})
}

leader處理follower日志追加響應(yīng)，響應(yīng)分為日志追加成功、日志追加失敗

func (r *Raft) ReciveAppendEntriesResult(from, term, lastLogIndex uint64, success bool) {
    leaderLastLogIndex, _ := r.raftlog.GetLastLogIndexAndTerm()
    if success {
        r.cluster.AppendEntryResp(from, lastLogIndex)
        if lastLogIndex > r.raftlog.commitIndex {
            // 取已同步索引更新到lastcommit
            if r.cluster.CheckCommit(lastLogIndex) {
                prevApplied := r.raftlog.lastAppliedIndex
                r.raftlog.Apply(lastLogIndex, lastLogIndex)
                r.BroadcastAppendEntries()
            }
        } else if len(r.raftlog.waitQueue) > 0 {
            r.raftlog.NotifyReadIndex()
        }
        if r.cluster.GetNextIndex(from) <= leaderLastLogIndex {
            r.SendAppendEntries(from)
        }
    } else {
        r.logger.Infof("節(jié)點 %s 追加日志失敗, Leader記錄節(jié)點最新日志: %d ,節(jié)點最新日志: %d ", strconv.FormatUint(from, 16), r.cluster.GetNextIndex(from)-1, lastLogIndex)
???????        r.cluster.ResetLogIndex(from, lastLogIndex, leaderLastLogIndex)
        r.SendAppendEntries(from)
    }
}

日志追加成功時

更新同步進度，更新節(jié)點已接收進度，從未發(fā)送完成切片中清除已發(fā)送部分，標記上次發(fā)送成功

func (c *Cluster) AppendEntryResp(id uint64, lastIndex uint64) {
    p := c.progress[id]
    if p != nil {
        p.AppendEntryResp(lastIndex)
    }
}
func (rp *ReplicaProgress) AppendEntryResp(lastIndex uint64) {
    if rp.MatchIndex < lastIndex {
        rp.MatchIndex = lastIndex
    }
    idx := -1
    for i, v := range rp.pending {
        if v == lastIndex {
            idx = i
        }
    }
    // 標記前次日志發(fā)送成功，更新下次發(fā)送
    if !rp.prevResp {
        rp.prevResp = true
        rp.NextIndex = lastIndex + 1
    }
    if idx > -1 {
        // 清除之前發(fā)送
        rp.pending = rp.pending[idx+1:]
    }
}

檢查follower數(shù)據(jù)同步進度，判斷響應(yīng)對應(yīng)日志編號是否在集群中大多數(shù)節(jié)點已同步

func (c *Cluster) CheckCommit(index uint64) bool {
    // 集群達到多數(shù)共識才允許提交
    incomingLogged := 0
    for id := range c.progress {
        if index <= c.progress[id].MatchIndex {
            incomingLogged++
        }
    }
    incomingCommit := incomingLogged >= len(c.progress)/2+1
    return incomingCommit
}

集群達成多數(shù)共識時，提交日志，繼續(xù)廣播日志

當響應(yīng)follower待發(fā)送日志編號小于leader最新日志時繼續(xù)發(fā)送日志

當日志追加失敗時

按follower響應(yīng)的日志進度重置日志同步進度，標記上次發(fā)送失敗，以延緩發(fā)送起始日志編號與follower不一致的日志，直到日志正確追加

func (c *Cluster) ResetLogIndex(id uint64, lastIndex uint64, leaderLastIndex uint64) {
    p := c.progress[id]
    if p != nil {
        p.ResetLogIndex(lastIndex, leaderLastIndex)
    }
}
func (rp *ReplicaProgress) ResetLogIndex(lastLogIndex uint64, leaderLastLogIndex uint64) {
    // 節(jié)點最后日志小于leader最新日志按節(jié)點更新進度，否則按leader更新進度
    if lastLogIndex < leaderLastLogIndex {
        rp.NextIndex = lastLogIndex + 1
        rp.MatchIndex = lastLogIndex
    } else {
        rp.NextIndex = leaderLastLogIndex + 1
        rp.MatchIndex = leaderLastLogIndex
    }
    if rp.prevResp {
        rp.prevResp = false
        rp.pending = nil
    }
}

按更新后同步進度重發(fā)日志

修改raft新建函數(shù)，參數(shù)中加入存儲接口

func NewRaft(id uint64, storage Storage, peers map[uint64]string, logger *zap.SugaredLogger) *Raft {
    raftlog := NewRaftLog(storage, logger)
    ...
}

raft日志同步邏輯基本實現(xiàn)，接下來實現(xiàn)raftNode中的提案方法以追加日志，在raftNode主循環(huán)中已實現(xiàn)讀取recv通道，調(diào)用raft消息處理方法，當為leader時會將提案追加到日志，當前只需要將提案消息加入recv通道

當前l(fā)eader將提案加入讀寫通道后視為寫入成功，暫不實現(xiàn)集群多數(shù)共識后響應(yīng)客戶端

要實現(xiàn)多數(shù)響應(yīng)后通知，可添加一個新的結(jié)構(gòu)含RaftMessage和一個channel，在raftlog添加一個等待隊列，當raft處理追加消息時，將日志最后一條記錄的日志編號通過channel返回給提案方法，提案方法再將channel放入raftlog中等待隊列，提交日志檢查等待隊列待通知對象，通過channel通知提案方法指定日志編號已提交

func (n *RaftNode) Propose(ctx context.Context, entries []*pb.LogEntry) error {
    msg := &pb.RaftMessage{
        MsgType: pb.MessageType_PROPOSE,
        Term:    n.raft.currentTerm,
        Entry:   entries,
    }
    return n.Process(ctx, msg)
}

修改raftNode新建函數(shù)添加存儲接口，存儲實現(xiàn)在下篇lsm中實現(xiàn)

func NewRaftNode(id uint64, storage Storage, peers map[uint64]string, logger *zap.SugaredLogger) *RaftNode {
	node := &RaftNode{
		raft:       NewRaft(id, storage, peers, logger),
		...
	}
    ...
}

修改raft server中批量發(fā)送消息方法，將多個日志記錄合并到一個raft meassage進行發(fā)送

func (p *Peer) SendBatch(msgs []*pb.RaftMessage) {
	p.wg.Add(1)
	var appEntryMsg *pb.RaftMessage
	var propMsg *pb.RaftMessage
	for _, msg := range msgs {
		if msg.MsgType == pb.MessageType_APPEND_ENTRY {
			if appEntryMsg == nil {
				appEntryMsg = msg
			} else {
				size := len(appEntryMsg.Entry)
				if size == 0 || len(msg.Entry) == 0 || appEntryMsg.Entry[size-1].Index+1 == msg.Entry[0].Index {
					appEntryMsg.LastCommit = msg.LastCommit
					appEntryMsg.Entry = append(appEntryMsg.Entry, msg.Entry...)
				} else if appEntryMsg.Entry[0].Index >= msg.Entry[0].Index {
					appEntryMsg = msg
				}
			}
		} else if msg.MsgType == pb.MessageType_PROPOSE {
			if propMsg == nil {
				propMsg = msg
			} else {
				propMsg.Entry = append(propMsg.Entry, msg.Entry...)
			}
		} else {
			p.send(msg)
		}
	}
	if appEntryMsg != nil {
		p.send(appEntryMsg)
	}
	if propMsg != nil {
		p.send(propMsg)
	}
	p.wg.Done()
}

通過上述代碼實現(xiàn)了提案到leader，leader包裝為日志，同步到集群的過程，后續(xù)將通過lsm實現(xiàn)日志落盤并將raft server作為一個簡單的kv數(shù)據(jù)庫。

完整代碼

參考：https://github.com/etcd-io/etcd

到此這篇關(guān)于利用Go語言實現(xiàn)Raft日志同步的文章就介紹到這了,更多相關(guān)Go Raft日志同步內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: