快捷導航

Spring Boot2.0整合ES5實現(xiàn)文章內(nèi)容搜索實戰(zhàn)

更新時間：2018年01月03日 10:35:40 作者：泥瓦匠BYSocket

這篇文章主要介紹了Spring Boot2.0整合ES5實現(xiàn)文章內(nèi)容搜索實戰(zhàn),小編覺得挺不錯的，現(xiàn)在分享給大家，也給大家做個參考。一起跟隨小編過來看看吧

一、文章內(nèi)容搜索思路

上一篇講了在怎么在 Spring Boot 2.0 上整合 ES 5 ，這一篇聊聊具體實戰(zhàn)。簡單講下如何實現(xiàn)文章、問答這些內(nèi)容搜索的具體實現(xiàn)。實現(xiàn)思路很簡單：

基于「短語匹配」并設(shè)置最小匹配權(quán)重值
哪來的短語，利用 IK 分詞器分詞
基于 Fiter 實現(xiàn)篩選
基于 Pageable 實現(xiàn)分頁排序

這里直接調(diào)用搜索的話，容易搜出不盡人意的東西。因為內(nèi)容搜索關(guān)注內(nèi)容的連接性。所以這里處理方法比較 low ，希望多交流一起實現(xiàn)更好的搜索方法。就是通過分詞得到很多短語，然后利用短語進行短語精準匹配。

ES 安裝 IK 分詞器插件很簡單。第一步，在下載對應(yīng)版本 https://github.com/medcl/elasticsearch-analysis-ik/releases。第二步，在 elasticsearch-5.5.3/plugins 目錄下，新建一個文件夾 ik，把 elasticsearch-analysis-ik-5.5.3.zip 解壓后的文件拷貝到 elasticsearch-5.1.1/plugins/ik 目錄下。最后重啟 ES 即可。

二、搜索內(nèi)容分詞

安裝好 IK ，如何調(diào)用呢？

第一步，我這邊搜搜內(nèi)容會以逗號拼接傳入。所以會先將逗號分割

第二步，在搜索詞中加入自己本身，因為有些詞經(jīng)過 ik 分詞后就沒了... 這是個 bug

第三步，利用 AnalyzeRequestBuilder 對象獲取 IK 分詞后的返回值對象列表

第四步，優(yōu)化分詞結(jié)果，比如都為詞，則保留全部；有詞有字，則保留詞；只有字，則保留字

核心實現(xiàn)代碼如下：

  /**
   * 搜索內(nèi)容分詞
   */
  protected List<String> handlingSearchContent(String searchContent) {

    List<String> searchTermResultList = new ArrayList<>();
    // 按逗號分割，獲取搜索詞列表
    List<String> searchTermList = Arrays.asList(searchContent.split(SearchConstant.STRING_TOKEN_SPLIT));

    // 如果搜索詞大于 1 個字，則經(jīng)過 IK 分詞器獲取分詞結(jié)果列表
    searchTermList.forEach(searchTerm -> {
      // 搜索詞 TAG 本身加入搜索詞列表，并解決 will 這種問題
      searchTermResultList.add(searchTerm);
      // 獲取搜索詞 IK 分詞列表
      searchTermResultList.addAll(getIkAnalyzeSearchTerms(searchTerm));
    });

    return searchTermResultList;
  }

  /**
   * 調(diào)用 ES 獲取 IK 分詞后結(jié)果
   */
  protected List<String> getIkAnalyzeSearchTerms(String searchContent) {
    AnalyzeRequestBuilder ikRequest = new AnalyzeRequestBuilder(elasticsearchTemplate.getClient(),
        AnalyzeAction.INSTANCE, SearchConstant.INDEX_NAME, searchContent);
    ikRequest.setTokenizer(SearchConstant.TOKENIZER_IK_MAX);
    List<AnalyzeResponse.AnalyzeToken> ikTokenList = ikRequest.execute().actionGet().getTokens();

    // 循環(huán)賦值
    List<String> searchTermList = new ArrayList<>();
    ikTokenList.forEach(ikToken -> {
      searchTermList.add(ikToken.getTerm());
    });

    return handlingIkResultTerms(searchTermList);
  }

  /**
   * 如果分詞結(jié)果：洗發(fā)水（洗發(fā)、發(fā)水、洗、發(fā)、水）
   * - 均為詞，保留
   * - 詞 + 字，只保留詞
   * - 均為字，保留字
   */
  private List<String> handlingIkResultTerms(List<String> searchTermList) {
    Boolean isPhrase = false;
    Boolean isWord = false;
    for (String term : searchTermList) {
      if (term.length() > SearchConstant.SEARCH_TERM_LENGTH) {
        isPhrase = true;
      } else {
        isWord = true;
      }
    }

    if (isWord & isPhrase) {
      List<String> phraseList = new ArrayList<>();
      searchTermList.forEach(term -> {
        if (term.length() > SearchConstant.SEARCH_TERM_LENGTH) {
          phraseList.add(term);
        }
      });
      return phraseList;
    }

    return searchTermList;
  }

三、搜索查詢語句

構(gòu)造內(nèi)容枚舉對象，羅列需要搜索的字段，ContentSearchTermEnum 代碼如下：

import lombok.AllArgsConstructor;
@AllArgsConstructor
public enum ContentSearchTermEnum {
  // 標題
  TITLE("title"),
  // 內(nèi)容
  CONTENT("content");

  /**
   * 搜索字段
   */
  private String name;

  public String getName() {
    return name;
  }
  public void setName(String name) {
    this.name = name;
  }
}

循環(huán)進行「短語搜索匹配」搜索字段，然后并設(shè)置最低權(quán)重值為 1。核心代碼如下：

  /**
   * 構(gòu)造查詢條件
   */
  private void buildMatchQuery(BoolQueryBuilder queryBuilder, List<String> searchTermList) {
    for (String searchTerm : searchTermList) {
      for (ContentSearchTermEnum searchTermEnum : ContentSearchTermEnum.values()) {
        queryBuilder.should(QueryBuilders.matchPhraseQuery(searchTermEnum.getName(), searchTerm));
      }
    }
    queryBuilder.minimumShouldMatch(SearchConstant.MINIMUM_SHOULD_MATCH);
  }

四、篩選條件

搜到東西不止，有時候需求是這樣的。需要在某個品類下搜索，比如電商需要在某個品牌下搜索商品。那么需要構(gòu)造一些 fitler 進行篩選。對應(yīng) SQL 語句的 Where 下的 OR 和 AND 兩種語句。在 ES 中使用 filter 方法添加過濾。代碼如下：

  /**
   * 構(gòu)建篩選條件
   */
  private void buildFilterQuery(BoolQueryBuilder boolQueryBuilder, Integer type, String category) {
    // 內(nèi)容類型篩選
    if (type != null) {
      BoolQueryBuilder typeFilterBuilder = QueryBuilders.boolQuery();
      typeFilterBuilder.should(QueryBuilders.matchQuery(SearchConstant.TYPE_NAME, type).lenient(true));
      boolQueryBuilder.filter(typeFilterBuilder);
    }

    // 內(nèi)容類別篩選
    if (!StringUtils.isEmpty(category)) {
      BoolQueryBuilder categoryFilterBuilder = QueryBuilders.boolQuery();
      categoryFilterBuilder.should(QueryBuilders.matchQuery(SearchConstant.CATEGORY_NAME, category).lenient(true));
      boolQueryBuilder.filter(categoryFilterBuilder);
    }
  }

type 是大類，category 是小類，這樣就可以支持大小類篩選。但是如果需要在 type = 1 或者 type = 2 中搜索呢？具體實現(xiàn)代碼很簡單：

typeFilterBuilder
  .should(QueryBuilders.matchQuery(SearchConstant.TYPE_NAME, 1)
  .should(QueryBuilders.matchQuery(SearchConstant.TYPE_NAME, 2)
  .lenient(true));

通過鏈式表達式，兩個 should 實現(xiàn)或，即 SQL 對應(yīng)的 OR 語句。通過兩個 BoolQueryBuilder 實現(xiàn)與，即 SQL 對應(yīng)的 AND 語句。

五、分頁、排序條件

分頁排序代碼就很簡單了：

 @Override
  public PageBean searchContent(ContentSearchBean contentSearchBean) {

    Integer pageNumber = contentSearchBean.getPageNumber();
    Integer pageSize = contentSearchBean.getPageSize();

    PageBean<ContentEntity> resultPageBean = new PageBean<>();
    resultPageBean.setPageNumber(pageNumber);
    resultPageBean.setPageSize(pageSize);

    // 構(gòu)建搜索短語
    String searchContent = contentSearchBean.getSearchContent();
    List<String> searchTermList = handlingSearchContent(searchContent);

    // 構(gòu)建查詢條件
    BoolQueryBuilder boolQueryBuilder = QueryBuilders.boolQuery();
    buildMatchQuery(boolQueryBuilder, searchTermList);

    // 構(gòu)建篩選條件
    buildFilterQuery(boolQueryBuilder, contentSearchBean.getType(), contentSearchBean.getCategory());

    // 構(gòu)建分頁、排序條件
    Pageable pageable = PageRequest.of(pageNumber, pageSize);
    if (!StringUtils.isEmpty(contentSearchBean.getOrderName())) {
      pageable = PageRequest.of(pageNumber, pageSize, Sort.Direction.DESC, contentSearchBean.getOrderName());
    }
    SearchQuery searchQuery = new NativeSearchQueryBuilder().withPageable(pageable)
        .withQuery(boolQueryBuilder).build();

    // 搜索
    LOGGER.info("\n ContentServiceImpl.searchContent() [" + searchContent
        + "] \n DSL = \n " + searchQuery.getQuery().toString());
    Page<ContentEntity> contentPage = contentRepository.search(searchQuery);

    resultPageBean.setResult(contentPage.getContent());
    resultPageBean.setTotalCount((int) contentPage.getTotalElements());
    resultPageBean.setTotalPage((int) contentPage.getTotalElements() / resultPageBean.getPageSize() + 1);
    return resultPageBean;
  }

利用 Pageable 對象，構(gòu)造分頁參數(shù)以及指定對應(yīng)的排序字段、排序順序（DESC ASC）即可。

六、小結(jié)

這個思路比較簡單。希望對大家的學習有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章:

相關(guān)文章

關(guān)于Java日期工具類的編寫
這篇文章主要介紹了關(guān)于Java日期工具類的編寫,在Java開發(fā)中,經(jīng)常會遇到處理日期相關(guān)的數(shù)據(jù),那么今天我們來自己寫一個工具類,文中有詳細的實例代碼以及實現(xiàn)思路,需要的朋友可以參考下
2023-05-05
以武俠形式理解Java LinkedList源碼
鏈表（Linked list）是一種常見的基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)，是一種線性表，但是并不會按線性的順序存儲數(shù)據(jù)，而是在每一個節(jié)點里存到下一個節(jié)點的地址
2021-11-11
java中flatMap用法完整示例
flatMap是java8的Stream流的一個方法,下面這篇文章主要給大家介紹了關(guān)于java中flatMap用法的相關(guān)資料,文中通過示例代碼和圖文介紹的非常詳細,需要的朋友可以參考下
2023-05-05
spring validation多層對象校驗教程
這篇文章主要介紹了spring validation多層對象校驗教程，具有很好的參考價值，希望對大家有所幫助。如有錯誤或未考慮完全的地方，望不吝賜教
2021-10-10
基于JAVA代碼獲取手機基本信息（本機號碼，SDK版本，系統(tǒng)版本，手機型號）
本文給大家介紹基于java代碼獲取手機基本信息，包括獲取電話管理對象、獲取手機號碼、獲取手機型號、獲取SDK版本、獲取系統(tǒng)版本等相關(guān)信息，對本文感興趣的朋友一起學習吧
2015-12-12
這篇文章主要介紹了Java語言面向?qū)ο缶幊趟枷胫惻c對象實例詳解，還是十分不錯的，這里給大家分享下，需要的朋友可以參考，希望能幫到你
2021-08-08

SpringCloud?微服務(wù)數(shù)據(jù)權(quán)限控制的實現(xiàn)

這篇文章主要介紹的是權(quán)限控制的數(shù)據(jù)權(quán)限層面，意思是控制可訪問數(shù)據(jù)資源的數(shù)量，對大家的學習或工作具有一定的參考借鑒價值，需要的朋友參考下吧

2021-11-11

Java 實現(xiàn)RSA非對稱加密算法

RSA解決了對稱加密的一個不足，比如AES算法加密和解密時使用的是同一個秘鑰，因此這個秘鑰不能公開，因此對于需要公開秘鑰的場合，我們需要在加密和解密過程中使用不同的秘鑰，加密使用的公鑰可以公開，解密使用的私鑰要保密，這就是非對稱加密的好處。　

2021-06-06

Java中ByteBuffer的allocate方法和allocateDirect方法的區(qū)別和選用原則解析

在Java中,ByteBuffer是java.nio包中的一個類,用于處理字節(jié)數(shù)據(jù),ByteBuffer提供了兩種方式來分配內(nèi)存：allocate和allocateDirect,這篇文章主要介紹了Java中ByteBuffer的allocate方法和allocateDirect方法的區(qū)別和選用原則 ,需要的朋友可以參考下

2023-12-12

Servlet實現(xiàn)統(tǒng)計頁面訪問次數(shù)功能

這篇文章主要介紹了Servlet實現(xiàn)統(tǒng)計頁面訪問次數(shù)功能，文中示例代碼介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們可以參考一下

2021-04-04

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Spring Boot2.0整合ES5實現(xiàn)文章內(nèi)容搜索實戰(zhàn)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具