Ruby操作CSV格式數(shù)據(jù)方法詳解

更新時間：2022年04月18日 15:01:04 作者：駿馬金龍

這篇文章主要介紹了Ruby操作CSV格式數(shù)據(jù)方法,包括CSV格式文件讀寫，類型轉換等操作,需要的朋友可以參考下

CSV格式的數(shù)據(jù)默認是以逗號分隔各個字段的一條一條記錄,默認用換行符分隔每一條記錄。此外,有的CSV有標題行，有的沒有。還有其他一些格式，它們都有默認值，但都可以在讀、寫CSV數(shù)據(jù)時修改默認設置。后文大多數(shù)時候故意忽略這些設置，因為絕大多數(shù)讀寫操作都使用同樣的參數(shù)**options進行格式設置。例如，在讀取csv文件中的數(shù)據(jù)時想要忽略標題行，可以在參數(shù)中設置headers: true

可設置的項及其默認值包括：

col_sep: ",",                #=> 字段分隔符
row_sep: :auto,              #=> 記錄分隔符
quote_char: '"',             #=> 包圍字段的符號
field_size_limit: nil,       #=> 限制字段的字符數(shù)量
converters: nil,             #=> 
unconverted_fields: nil,
headers: false,              #=> 讀取時忽略標題行，具體參考官方手冊
return_headers: false,
write_headers: nil,
header_converters: nil,
skip_blanks: false,          #=> 忽略空行
force_quotes: false,         #=> 設置為true時，所有字段都將使用被包圍
skip_lines: nil,             #=> 指定一個正則(str也會轉換為正則)，
                             #=> 匹配的行將被當作注釋行而忽略
liberal_parsing: false,
internal_encoding: nil,
external_encoding: nil,
encoding: nil,
nil_value: nil,             #=> 使用此處設置的值替換所有nil字段
empty_value: "",            #=> 使用此處設置的值替換所有空字符串字段
quote_empty: true,          #=> 設置為false時，空字符串字段將轉換為空字段
write_converters: nil,
write_nil_value: nil,      #=> 將以此處的值替換nil字段寫入文件
write_empty_value: "",
strip: false

CSV類方法處理CSV數(shù)據(jù)

以CSV格式寫入文件

要向文件中寫入CSV格式的數(shù)據(jù)：

require 'csv'

writer = CSV.open('/tmp/file.csv', 'w')
writer << ["junmajinlong", 29, 170, true]
writer << ["junma", 24, 176, false]
writer << ["jinlong", 25, 172, nil]
writer << ["majinlong", 23, 173, false]
writer.close

寫入完成后，查看：

junmajinlong,29,170,true
junma,24,176,false
jinlong,25,172,
majinlong,23,173,false

注意其中的nil對應的寫入內容為空。

可以直接在語句塊中寫入，這樣的話可以自動關閉CSV.open()打開的IO流：

require 'csv'

CSV.open('/tmp/file.csv', 'w') do |writer|
  writer << ["junmajinlong", 29, 170, true]
  writer << ["junma", 24, 176, false]
  writer << ["jinlong", 25, 172, nil]
  writer << ["majinlong", 23, 173, false]
end

CSV.open()打開的是一個封裝后的IO流對象，它除了可以使用CSV單獨為其提供的一些方法(比如這里的<<)外，還可以使用很多IO流對象的方法，比如seek()、tell()、flush()、eof?()、fsync()等等。

這里使用的<<方法是單獨為其提供的，它涉及兩個執(zhí)行過程：

將數(shù)組中各元素全部轉換成字符串類型并使用逗號連接
按行寫入到csv打開的文件中

轉換為CSV格式的字符串

如果只是想執(zhí)行第一個過程，即將數(shù)據(jù)轉換成CSV格式的字符串而不寫入，可使用類方法generate_line()：

p CSV.generate_line ["junmajinlong", 29, 170, true]
p CSV.generate_line ["jun ma", 24, 176, false]
p CSV.generate_line ["jinlong", 25, 172, nil]
p CSV.generate_line ["jin, long", 23, 173, false]
=begin
"junmajinlong,29,170,true\n"
"jun ma,24,176,false\n"
"jinlong,25,172,\n"
"\"jin, long\",23,173,false\n"
=end

從CSV格式的文件中讀數(shù)據(jù)

如果想要讀取CSV文件，可使用類方法read()或別名readlines()：

pp CSV.readlines('/tmp/file.csv')
=begin
[["junmajinlong", "29", "170", "true"],
 ["junma", "24", "176", "false"],
 ["jinlong", "25", "172", nil],
 ["majinlong", "23", "173", "false"]]
=end

注意：

讀取CSV文件內容時，每行保存為一個數(shù)組，每個字段是這個數(shù)組中的一個元素
讀取CSV文件內容時，除了不存在的字段轉換為nil外，其它所有的數(shù)據(jù)都轉換成了字符串類型。所以有時候可能需要去轉換讀取時的數(shù)據(jù)類型。關于類型轉換，見后文

如果要按行讀取CSV文件的內容，使用類方法foreach()：

CSV.foreach('/tmp/file.csv') do |row|
  p row
end
=begin
["junmajinlong", "29", "170", "true"]
["junma", "24", "176", "false"]
["jinlong", "25", "172", nil]
["majinlong", "23", "173", "false"]
=end

從CSV格式的字符串中讀數(shù)據(jù)

如果想要從字符串中讀取CSV格式的數(shù)據(jù)，使用parse()和parse_line()，分別用于解析多行字符串和解析單行字符串(超出一行的自動被忽略)。

parse()不指定語句塊時，返回包含解析每一行得到的數(shù)組，即一個數(shù)組的數(shù)組，它是一個csv table類型，有很多自己的方法
指定語句塊時，每一行對應的數(shù)組傳遞給語句塊控制變量

str1=<<-eof
junmajinlong,29,170,true
jun ma,24,176,false
jinlong,25,172,
"jin, long",23,173,false
eof

# 不指定語句塊時，parse返回數(shù)組
pp CSV.parse str1
=begin
[["junmajinlong", "29", "170", "true"],
 ["jun ma", "24", "176", "false"],
 ["jinlong", "25", "172", nil],
 ["jin, long", "23", "173", "false"]]
=end

# 指定語句塊時，parse將每行對應的數(shù)組傳遞給語句塊
CSV.parse(str1) {|row| p row}
=begin
["junmajinlong", "29", "170", "true"]
["jun ma", "24", "176", "false"]
["jinlong", "25", "172", nil]
["jin, long", "23", "173", "false"]
=end

str2="junmajinlong,29,170,true"
p CSV.parse_line str2
["junmajinlong", "29", "170", "true"]

CSV實例方法處理CSV數(shù)據(jù)

CSV.new()、CSV.open()可以創(chuàng)建csv對象(即一行一行csv格式的數(shù)據(jù))
CSV.generate()可將字符串轉換成csv對象并將該對象傳遞給語句塊
<<、puts()或add_row()可向CSV目標中(字符串格式的CSV或CSV IO流)寫入行，它們是別名關系
gets()、shift()、readline()可從csv對象中讀取一行數(shù)據(jù)
read()、readlines()可以讀取csv對象中的所有數(shù)據(jù)
each()可以從csv對象中迭代每一行
eof()或eof?()可以判斷是否讀完所有數(shù)據(jù)
rewind()可以重置當前csv對象的偏移指針
line()可以獲取最近一次讀取的一行數(shù)據(jù)
lineno()可以獲取當前已讀取的行數(shù)
path()可以獲取當前讀取的csv文件名

CSV table

CSV.parse()、CSV.read()、CSV.table()等方法返回的都是數(shù)組的數(shù)組(二維數(shù)組)，它們是CSV Table。

CSV table按照表的方式來處理csv數(shù)據(jù)，比如關注于行、關注于字段的一些操作可以采用csv table相關的方法來處理。

# Headers are part of data
data = CSV.parse(<<~ROWS, headers: true)
  Name,Department,Salary
  Bob,Engineering,1000
  Jane,Sales,2000
  John,Management,5000
ROWS

data.class      #=> CSV::Table
data.first      #=> #<CSV::Row "Name":"Bob" "Department":"Engineering" "Salary":"1000">
data.first.to_h #=> {"Name"=>"Bob", "Department"=>"Engineering", "Salary"=>"1000"}

# Headers provided by developer
data = CSV.parse('Bob,Engineering,1000', headers: %i[name department salary])
data.first      #=> #<CSV::Row name:"Bob" department:"Engineering" salary:"1000">

CSV字段類型轉換

讀取CSV數(shù)據(jù)時，所有的數(shù)據(jù)都會轉換為字符串格式。

# Without any converters:
CSV.parse('Bob,2018-03-01,100')
#=> [["Bob", "2018-03-01", "100"]]

可以在迭代每一行的語句塊中對字段做必要的類型轉換。

但如果類型轉換方式比較簡單，可以在讀取數(shù)據(jù)時指定converters屬性進行轉換。該屬性的值要么是CSV的內置類型符號，要么是符號數(shù)組，要么是一個lambda表達式。有如下內置類型：

Integer
Float
Numeric (Float + Integer)
Date
DateTime
All

當指定了類型轉換后，每個字段將針對converters的值嘗試做轉換，轉換失敗則保留字段的值不變，所以如果通過lambda自定義類型轉換時也一定要保證這一點。

CSV.parse("1,2,3,4,5", converters: :numeric)
#=> [[1, 2, 3, 4, 5]]

# With built-in converters:
ct = CSV.parse('Bob,2018-03-01,100', converters: %i[numeric date])
#=> [["Bob", #<Date: 2018-03-01>, 100]]
ct.first[1] + 1  # 日期對象，加1天
#=> #<Date: 2018-03-02 ((2458180j,0s,0n),+0s,2299161j)>

# With custom converters:
CSV.parse('Bob,2018-03-01,100', converters: [->(v) { Time.parse(v) rescue v }])
#=> [["Bob", 2018-03-01 00:00:00 +0200, "100"]]

更多關于Ruby操作CSV格式數(shù)據(jù)方法請查看下面的相關鏈接

您可能感興趣的文章:

Ruby中執(zhí)行Linux shell命令的六種方法詳解
這篇文章主要介紹了Ruby中執(zhí)行Linux shell命令的六種方法詳解,這些方法包括exec、system、反引號、IO、Open3、Open4等命令,需要的朋友可以參考下
2015-01-01
舉例講解Ruby中require的使用方法
這篇文章主要介紹了Ruby中require的使用方法,用其來各種引用文件路徑,需要的朋友可以參考下
2015-07-07
Ruby 中一些百分號（%）的用法小結
這篇文章主要介紹了Ruby 中一些百分號（%）的用法小結,需要的朋友可以參考下
2014-05-05
Ruby元編程之夢中情人method_missing方法詳解
這篇文章主要介紹了Ruby元編程之夢中情人method_missing方法詳解,本文講解了我該怎么用 method_missing 、方法代理、define_method、什么時候用 method_missing、元方法等內容,需要的朋友可以參考下
2015-05-05
使用C++來編寫Ruby程序擴展的教程
這篇文章主要介紹了使用C++來編寫Ruby程序擴展的教程,本文來自于IBM官方網站技術文檔,需要的朋友可以參考下
2015-04-04
Ruby中require、load、include、extend的區(qū)別介紹
這篇文章主要介紹了Ruby中require、load、include、extend的區(qū)別介紹,require、load用于文件,如.rb等等結尾的文件,include、load則用于包含一個文件中的模塊,需要的朋友可以參考下
2015-05-05
Rails Routes中new、collection、member的區(qū)別淺析
這篇文章主要介紹了Rails Routes中new、collection、member的區(qū)別淺析,本文先是對這3個自定義路由參數(shù)做了講解,然后總結了它的們的區(qū)別,需要的朋友可以參考下
2015-01-01
簡單介紹Ruby on Rails對PostgreSQL數(shù)組類型的支持
這篇文章主要介紹了簡單介紹Ruby on Rails對PostgreSQL數(shù)組類型的支持,Rails框架從4.0以后對PG的數(shù)組提供了支持,需要的朋友可以參考下
2015-04-04
源代碼快速定位工具-qwandry使用指南
qwandry是一款能快速定位到我們需要找到庫文件、項目的工具。是一個快速打開我們指定文件夾的工具,比如快速打開rails, activerecord等目錄。
2014-07-07
使用Ruby來編寫訪問Twitter的命令行應用程序的教程
這篇文章主要介紹了使用Ruby來編寫訪問Twitter的命令行應用程序的教程,文章來自于IBM官方網站技術文檔,需要的朋友可以參考下
2015-04-04