高性能分析數(shù)據(jù)庫StarRocks的安裝與使用詳解

更新時間：2025年03月07日 11:21:38 作者：awsedrfttyuu

在大數(shù)據(jù)時代,選擇一個高性能的分析數(shù)據(jù)庫對業(yè)務的成功至關重要,StarRocks作為一款次世代MPP數(shù)據(jù)庫,以其卓越的實時分析和多維分析能力而聞名,下面小編就來和大家聊聊它的具體安裝與使用吧

引言

在大數(shù)據(jù)時代，選擇一個高性能的分析數(shù)據(jù)庫對業(yè)務的成功至關重要。StarRocks作為一款次世代MPP（Massively Parallel Processing）數(shù)據(jù)庫，以其卓越的實時分析和多維分析能力而聞名。本篇文章將帶您探討StarRocks的安裝與使用，并探討其作為快速向量數(shù)據(jù)庫的潛力。

什么是StarRocks

StarRocks是一種高度并行的分析數(shù)據(jù)庫管理系統(tǒng)，專為多維分析、實時分析和臨時查詢而設計。它憑借其向量化執(zhí)行引擎，在ClickBench基準測試中展現(xiàn)了卓越的性能，被廣泛應用于各種分析場景。

特性與優(yōu)勢

子秒查詢響應：利用向量化引擎，StarRocks可以提供極快的查詢響應時間。

多維度分析：支持高效處理多維度的數(shù)據(jù)分析任務。

實時分析：具備強大的實時數(shù)據(jù)分析能力，適合動態(tài)數(shù)據(jù)場景。

靈活的查詢能力：支持復雜的ad-hoc查詢，適合多種業(yè)務需求。

下載

文中使用版本為3.2.4，可通過官網(wǎng)自行下載

準備部署文件 | StarRocks

文章中使用的是存算一體架構，starrocks也支持存算分離架構

安裝與配置

要開始使用StarRocks，我們首先需要設置必要的軟件環(huán)境。以下是安裝步驟：

# 安裝Python MySQL客戶端
pip install pymysql

測試語句

CREATE DATABASE example_db;

USE example_db;

-- 新建用戶并授權

create user 'testuser'@'%' IDENTIFIED by '123456';

GRANT all ON databasename.* TO 'testuser'@'%';

-- 僅包含一個 BE,所以需要加PROPERTIES( "replication_num" = "1" )

CREATE TABLE user_access (

    uid int,

    name varchar(64),

    age int,

    phone varchar(16),

    last_access datetime,

    credits double

)

PROPERTIES( "replication_num" = "1" );

CREATE TABLE orders1 (

    order_id bigint NOT NULL,

    dt date NOT NULL,

    user_id INT NOT NULL,

    good_id INT NOT NULL,

    cnt int NOT NULL,

    revenue int NOT NULL

)

PRIMARY KEY (order_id)

DISTRIBUTED BY HASH (order_id)

PROPERTIES( "replication_num" = "1" )

;

CREATE TABLE orders2 (

    order_id bigint NOT NULL,

    dt date NOT NULL,

    merchant_id int NOT NULL,

    user_id int NOT NULL,

    good_id int NOT NULL,

    good_name string NOT NULL,

    price int NOT NULL,

    cnt int NOT NULL,

    revenue int NOT NULL,

    state tinyint NOT NULL

)

PRIMARY KEY (order_id,dt,merchant_id)

PARTITION BY date_trunc('day', dt)

DISTRIBUTED BY HASH (merchant_id)

ORDER BY (dt,merchant_id)

PROPERTIES (

    "enable_persistent_index" = "true",

"replication_num" = "1"

);

CREATE TABLE detail (

    event_time DATETIME NOT NULL COMMENT "datetime of event",

    event_type INT NOT NULL COMMENT "type of event",

    user_id INT COMMENT "id of user",

    device_code INT COMMENT "device code",

    channel INT COMMENT "")

ORDER BY (event_time, event_type)

PROPERTIES( "replication_num" = "1" );

CREATE TABLE aggregate_tbl (

    site_id LARGEINT NOT NULL COMMENT "id of site",

    date DATE NOT NULL COMMENT "time of event",

    city_code VARCHAR(20) COMMENT "city_code of user",

    pv BIGINT SUM DEFAULT "0" COMMENT "total page views"

)

AGGREGATE KEY(site_id, date, city_code)

DISTRIBUTED BY HASH(site_id)

PROPERTIES( "replication_num" = "1" );

CREATE TABLE orders4 (

    create_time DATE NOT NULL COMMENT "create time of an order",

    order_id BIGINT NOT NULL COMMENT "id of an order",

    order_state INT COMMENT "state of an order",

    total_price BIGINT COMMENT "price of an order"

)

UNIQUE KEY(create_time, order_id)

DISTRIBUTED BY HASH(order_id);

PROPERTIES( "replication_num" = "1" );

DESCRIBE user_access;

SHOW CREATE TABLE user_access;

-- 從本地文件導入數(shù)據(jù)

CREATE TABLE `table1`

(

    `id` int(11) NOT NULL COMMENT "用戶 ID",

    `name` varchar(65533) NULL COMMENT "用戶姓名",

    `score` int(11) NOT NULL COMMENT "用戶得分"

)

ENGINE=OLAP

PRIMARY KEY(`id`)

DISTRIBUTED BY HASH(`id`)

PROPERTIES( "replication_num" = "1" );

-- 查看 FE 節(jié)點的 IP 地址和 HTTP 端口號。

SHOW FRONTENDS；

-- 導入作業(yè)

curl --location-trusted -u root: -H "label:123" -H "Expect:100-continue" -H "column_separator:," -H "columns: id, name, score" -T D:\\data\\test.csv -XPUT http://192.168.5.66:8030/api/example_db/table1/_stream_load

select * from table1;

接下來，我們將使用一個例子來說明如何在Python中使用StarRocks庫。

代碼示例

假設我們想要在StarRocks中儲存和查詢向量數(shù)據(jù)。以下是一個簡單的使用示例：

from langchain_community.vectorstores import StarRocks

# 假設我們通過API代理服務連接到StarRocks數(shù)據(jù)庫
starrocks_client = StarRocks(api_endpoint="{AI_URL}")  # 使用API代理服務提高訪問穩(wěn)定性

# 插入樣本向量數(shù)據(jù)
vector_data = [0.1, 0.2, 0.3, 0.4]
starrocks_client.insert_vector("your_vector_table", vector_data)

# 查詢向量
query_result = starrocks_client.query_vector("your_vector_table", query_vector=[0.1, 0.2, 0.3])

print("Query Result:", query_result)

這段代碼展示了如何連接到StarRocks數(shù)據(jù)庫并執(zhí)行基本的向量插入和查詢操作。