Java使用雙異步實(shí)現(xiàn)將Excel的數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù)
一、一般我會(huì)這樣做
- 通過(guò)POI讀取需要導(dǎo)入的Excel;
- 以文件名為表名、列頭為列名、并將數(shù)據(jù)拼接成sql;
- 通過(guò)JDBC或mybatis插入數(shù)據(jù)庫(kù);
操作起來(lái),如果文件比較多,數(shù)據(jù)量都很大的時(shí)候,會(huì)非常慢。
訪問(wèn)之后,感覺(jué)沒(méi)什么反應(yīng),實(shí)際上已經(jīng)在讀取 + 入庫(kù)了,只是比較慢而已。
讀取一個(gè)10萬(wàn)行的Excel,居然用了191s,我還以為它卡死了呢!
private void readXls(String filePath, String filename) throws Exception { @SuppressWarnings("resource") XSSFWorkbook xssfWorkbook = new XSSFWorkbook(new FileInputStream(filePath)); // 讀取第一個(gè)工作表 XSSFSheet sheet = xssfWorkbook.getSheetAt(0); // 總行數(shù) int maxRow = sheet.getLastRowNum(); StringBuilder insertBuilder = new StringBuilder(); insertBuilder.append("insert into ").append(filename).append(" ( UUID,"); XSSFRow row = sheet.getRow(0); for (int i = 0; i < row.getPhysicalNumberOfCells(); i++) { insertBuilder.append(row.getCell(i)).append(","); } insertBuilder.deleteCharAt(insertBuilder.length() - 1); insertBuilder.append(" ) values ( "); StringBuilder stringBuilder = new StringBuilder(); for (int i = 1; i <= maxRow; i++) { XSSFRow xssfRow = sheet.getRow(i); String id = ""; String name = ""; for (int j = 0; j < row.getPhysicalNumberOfCells(); j++) { if (j == 0) { id = xssfRow.getCell(j) + ""; } else if (j == 1) { name = xssfRow.getCell(j) + ""; } } boolean flag = isExisted(id, name); if (!flag) { stringBuilder.append(insertBuilder); stringBuilder.append('\'').append(uuid()).append('\'').append(","); for (int j = 0; j < row.getPhysicalNumberOfCells(); j++) { stringBuilder.append('\'').append(value).append('\'').append(","); } stringBuilder.deleteCharAt(stringBuilder.length() - 1); stringBuilder.append(" )").append("\n"); } } List<String> collect = Arrays.stream(stringBuilder.toString().split("\n")).collect(Collectors.toList()); int sum = JdbcUtil.executeDML(collect); } private static boolean isExisted(String id, String name) { String sql = "select count(1) as num from " + static_TABLE + " where ID = '" + id + "' and NAME = '" + name + "'"; String num = JdbcUtil.executeSelect(sql, "num"); return Integer.valueOf(num) > 0; } private static String uuid() { return UUID.randomUUID().toString().replace("-", ""); }
二、誰(shuí)寫(xiě)的?拖出去,斬了!
優(yōu)化1:先查詢?nèi)繑?shù)據(jù),緩存到map中,插入前再進(jìn)行判斷,速度快了很多。
優(yōu)化2:如果單個(gè)Excel文件過(guò)大,可以采用 異步 + 多線程 讀取若干行,分批入庫(kù)。
優(yōu)化3:如果文件數(shù)量過(guò)多,可以采一個(gè)Excel一個(gè)異步,形成完美的雙異步讀取插入。
使用雙異步后,從 191s 優(yōu)化到 2s,你敢信?
下面貼出異步讀取Excel文件、并分批讀取大Excel文件的關(guān)鍵代碼。
1、readExcelCacheAsync控制類
@RequestMapping(value = "/readExcelCacheAsync", method = RequestMethod.POST) @ResponseBody public String readExcelCacheAsync() { String path = "G:\\測(cè)試\\data\\"; try { // 在讀取Excel之前,緩存所有數(shù)據(jù) USER_INFO_SET = getUserInfo(); File file = new File(path); String[] xlsxArr = file.list(); for (int i = 0; i < xlsxArr.length; i++) { File fileTemp = new File(path + "\\" + xlsxArr[i]); String filename = fileTemp.getName().replace(".xlsx", ""); readExcelCacheAsyncService.readXls(path + filename + ".xlsx", filename); } } catch (Exception e) { logger.error("|#ReadDBCsv|#異常: ", e); return "error"; } return "success"; }
2、分批讀取超大Excel文件
@Async("async-executor") public void readXls(String filePath, String filename) throws Exception { @SuppressWarnings("resource") XSSFWorkbook xssfWorkbook = new XSSFWorkbook(new FileInputStream(filePath)); // 讀取第一個(gè)工作表 XSSFSheet sheet = xssfWorkbook.getSheetAt(0); // 總行數(shù) int maxRow = sheet.getLastRowNum(); logger.info(filename + ".xlsx,一共" + maxRow + "行數(shù)據(jù)!"); StringBuilder insertBuilder = new StringBuilder(); insertBuilder.append("insert into ").append(filename).append(" ( UUID,"); XSSFRow row = sheet.getRow(0); for (int i = 0; i < row.getPhysicalNumberOfCells(); i++) { insertBuilder.append(row.getCell(i)).append(","); } insertBuilder.deleteCharAt(insertBuilder.length() - 1); insertBuilder.append(" ) values ( "); int times = maxRow / STEP + 1; //logger.info("將" + maxRow + "行數(shù)據(jù)分" + times + "次插入數(shù)據(jù)庫(kù)!"); for (int time = 0; time < times; time++) { int start = STEP * time + 1; int end = STEP * time + STEP; if (time == times - 1) { end = maxRow; } if(end + 1 - start > 0){ //logger.info("第" + (time + 1) + "次插入數(shù)據(jù)庫(kù)!" + "準(zhǔn)備插入" + (end + 1 - start) + "條數(shù)據(jù)!"); //readExcelDataAsyncService.readXlsCacheAsync(sheet, row, start, end, insertBuilder); readExcelDataAsyncService.readXlsCacheAsyncMybatis(sheet, row, start, end, insertBuilder); } } }
3、異步批量入庫(kù)
@Async("async-executor") public void readXlsCacheAsync(XSSFSheet sheet, XSSFRow row, int start, int end, StringBuilder insertBuilder) { StringBuilder stringBuilder = new StringBuilder(); for (int i = start; i <= end; i++) { XSSFRow xssfRow = sheet.getRow(i); String id = ""; String name = ""; for (int j = 0; j < row.getPhysicalNumberOfCells(); j++) { if (j == 0) { id = xssfRow.getCell(j) + ""; } else if (j == 1) { name = xssfRow.getCell(j) + ""; } } // 先在讀取Excel之前,緩存所有數(shù)據(jù),再做判斷 boolean flag = isExisted(id, name); if (!flag) { stringBuilder.append(insertBuilder); stringBuilder.append('\'').append(uuid()).append('\'').append(","); for (int j = 0; j < row.getPhysicalNumberOfCells(); j++) { stringBuilder.append('\'').append(value).append('\'').append(","); } stringBuilder.deleteCharAt(stringBuilder.length() - 1); stringBuilder.append(" )").append("\n"); } } List<String> collect = Arrays.stream(stringBuilder.toString().split("\n")).collect(Collectors.toList()); if (collect != null && collect.size() > 0) { int sum = JdbcUtil.executeDML(collect); } } private boolean isExisted(String id, String name) { return ReadExcelCacheAsyncController.USER_INFO_SET.contains(id + "," + name); }
4、異步線程池工具類
@Async的作用就是異步處理任務(wù)。
- 在方法上添加@Async,表示此方法是異步方法;
- 在類上添加@Async,表示類中的所有方法都是異步方法;
- 使用此注解的類,必須是Spring管理的類;
- 需要在啟動(dòng)類或配置類中加入@EnableAsync注解,@Async才會(huì)生效;
在使用@Async時(shí),如果不指定線程池的名稱,也就是不自定義線程池,@Async是有默認(rèn)線程池的,使用的是Spring默認(rèn)的線程池SimpleAsyncTaskExecutor。
默認(rèn)線程池的默認(rèn)配置如下:
- 默認(rèn)核心線程數(shù):8;
- 最大線程數(shù):Integet.MAX_VALUE;
- 隊(duì)列使用LinkedBlockingQueue;
- 容量是:Integet.MAX_VALUE;
- 空閑線程保留時(shí)間:60s;
- 線程池拒絕策略:AbortPolicy;
從最大線程數(shù)可以看出,在并發(fā)情況下,會(huì)無(wú)限制的創(chuàng)建線程,我勒個(gè)嗎啊。
也可以通過(guò)yml重新配置:
spring: task: execution: pool: max-size: 10 core-size: 5 keep-alive: 3s queue-capacity: 1000 thread-name-prefix: my-executor
也可以自定義線程池,下面通過(guò)簡(jiǎn)單的代碼來(lái)實(shí)現(xiàn)以下@Async自定義線程池。
@EnableAsync// 支持異步操作 @Configuration public class AsyncTaskConfig { /** * com.google.guava中的線程池 * @return */ @Bean("my-executor") public Executor firstExecutor() { ThreadFactory threadFactory = new ThreadFactoryBuilder().setNameFormat("my-executor").build(); // 獲取CPU的處理器數(shù)量 int curSystemThreads = Runtime.getRuntime().availableProcessors() * 2; ThreadPoolExecutor threadPool = new ThreadPoolExecutor(curSystemThreads, 100, 200, TimeUnit.SECONDS, new LinkedBlockingQueue<>(), threadFactory); threadPool.allowsCoreThreadTimeOut(); return threadPool; } /** * Spring線程池 * @return */ @Bean("async-executor") public Executor asyncExecutor() { ThreadPoolTaskExecutor taskExecutor = new ThreadPoolTaskExecutor(); // 核心線程數(shù) taskExecutor.setCorePoolSize(24); // 線程池維護(hù)線程的最大數(shù)量,只有在緩沖隊(duì)列滿了之后才會(huì)申請(qǐng)超過(guò)核心線程數(shù)的線程 taskExecutor.setMaxPoolSize(200); // 緩存隊(duì)列 taskExecutor.setQueueCapacity(50); // 空閑時(shí)間,當(dāng)超過(guò)了核心線程數(shù)之外的線程在空閑時(shí)間到達(dá)之后會(huì)被銷毀 taskExecutor.setKeepAliveSeconds(200); // 異步方法內(nèi)部線程名稱 taskExecutor.setThreadNamePrefix("async-executor-"); /** * 當(dāng)線程池的任務(wù)緩存隊(duì)列已滿并且線程池中的線程數(shù)目達(dá)到maximumPoolSize,如果還有任務(wù)到來(lái)就會(huì)采取任務(wù)拒絕策略 * 通常有以下四種策略: * ThreadPoolExecutor.AbortPolicy:丟棄任務(wù)并拋出RejectedExecutionException異常。 * ThreadPoolExecutor.DiscardPolicy:也是丟棄任務(wù),但是不拋出異常。 * ThreadPoolExecutor.DiscardOldestPolicy:丟棄隊(duì)列最前面的任務(wù),然后重新嘗試執(zhí)行任務(wù)(重復(fù)此過(guò)程) * ThreadPoolExecutor.CallerRunsPolicy:重試添加當(dāng)前的任務(wù),自動(dòng)重復(fù)調(diào)用 execute() 方法,直到成功 */ taskExecutor.setRejectedExecutionHandler(new ThreadPoolExecutor.CallerRunsPolicy()); taskExecutor.initialize(); return taskExecutor; } }
5、異步失效的原因
- 注解@Async的方法不是public方法;
- 注解@Async的返回值只能為void或Future;
- 注解@Async方法使用static修飾也會(huì)失效;
- 沒(méi)加@EnableAsync注解;
- 調(diào)用方和@Async不能在一個(gè)類中;
- 在Async方法上標(biāo)注@Transactional是沒(méi)用的,但在Async方法調(diào)用的方法上標(biāo)注@Transcational是有效的;
三、線程池中的核心線程數(shù)設(shè)置問(wèn)題
有一個(gè)問(wèn)題,一直沒(méi)時(shí)間摸索,線程池中的核心線程數(shù)CorePoolSize、最大線程數(shù)MaxPoolSize,設(shè)置成多少,最合適,效率最高。
借著這個(gè)機(jī)會(huì),測(cè)試一下。
1、我記得有這樣一個(gè)說(shuō)法,CPU的處理器數(shù)量
將核心線程數(shù)CorePoolSize設(shè)置成CPU的處理器數(shù)量,是不是效率最高的?
// 獲取CPU的處理器數(shù)量 int curSystemThreads = Runtime.getRuntime().availableProcessors() * 2;
Runtime.getRuntime().availableProcessors()獲取的是CPU核心線程數(shù),也就是計(jì)算資源。
- CPU密集型,線程池大小設(shè)置為N,也就是和cpu的線程數(shù)相同,可以盡可能地避免線程間上下文切換,但在實(shí)際開(kāi)發(fā)中,一般會(huì)設(shè)置為N+1,為了防止意外情況出現(xiàn)線程阻塞,如果出現(xiàn)阻塞,多出來(lái)的線程會(huì)繼續(xù)執(zhí)行任務(wù),保證CPU的利用效率。
- IO密集型,線程池大小設(shè)置為2N,這個(gè)數(shù)是根據(jù)業(yè)務(wù)壓測(cè)出來(lái)的,如果不涉及業(yè)務(wù)就使用推薦。
在實(shí)際中,需要對(duì)具體的線程池大小進(jìn)行調(diào)整,可以通過(guò)壓測(cè)及機(jī)器設(shè)備現(xiàn)狀,進(jìn)行調(diào)整大小。
如果線程池太大,則會(huì)造成CPU不斷的切換,對(duì)整個(gè)系統(tǒng)性能也不會(huì)有太大的提升,反而會(huì)導(dǎo)致系統(tǒng)緩慢。
我的電腦的CPU的處理器數(shù)量是24。
那么一次讀取多少行最合適呢?
測(cè)試的Excel中含有10萬(wàn)條數(shù)據(jù),10萬(wàn)/24 = 4166,那么我設(shè)置成4200,是不是效率最佳呢?
測(cè)試的過(guò)程中發(fā)現(xiàn),好像真的是這樣的。
2、我記得大家都習(xí)慣性的將核心線程數(shù)CorePoolSize和最大線程數(shù)MaxPoolSize設(shè)置成一樣的,都愛(ài)設(shè)置成200。
是隨便寫(xiě)的,還是經(jīng)驗(yàn)而為之?
測(cè)試發(fā)現(xiàn),當(dāng)你將核心線程數(shù)CorePoolSize和最大線程數(shù)MaxPoolSize都設(shè)置為200的時(shí)候,第一次它會(huì)同時(shí)開(kāi)啟150個(gè)線程,來(lái)進(jìn)行工作。
這個(gè)是為什么?
3、經(jīng)過(guò)數(shù)十次的測(cè)試
- 發(fā)現(xiàn)核心線程數(shù)好像差別不大
- 每次讀取和入庫(kù)的數(shù)量是關(guān)鍵,不能太多,因?yàn)槊看稳霂?kù)會(huì)變慢;
- 也不能太少,如果太少,超過(guò)了150個(gè)線程,就會(huì)造成線程阻塞,也會(huì)變慢;
四、通過(guò)EasyExcel讀取并插入數(shù)據(jù)庫(kù)
EasyExcel的方式,我就不寫(xiě)雙異步優(yōu)化了,大家切記陷入低水平勤奮的怪圈。
1、ReadEasyExcelController
@RequestMapping(value = "/readEasyExcel", method = RequestMethod.POST) @ResponseBody public String readEasyExcel() { try { String path = "G:\\測(cè)試\\data\\"; String[] xlsxArr = new File(path).list(); for (int i = 0; i < xlsxArr.length; i++) { String filePath = path + xlsxArr[i]; File fileTemp = new File(path + xlsxArr[i]); String fileName = fileTemp.getName().replace(".xlsx", ""); List<UserInfo> list = new ArrayList<>(); EasyExcel.read(filePath, UserInfo.class, new ReadEasyExeclAsyncListener(readEasyExeclService, fileName, batchCount, list)).sheet().doRead(); } }catch (Exception e){ logger.error("readEasyExcel 異常:",e); return "error"; } return "suceess"; }
2、ReadEasyExeclAsyncListener
public ReadEasyExeclService readEasyExeclService; // 表名 public String TABLE_NAME; // 批量插入閾值 private int BATCH_COUNT; // 數(shù)據(jù)集合 private List<UserInfo> LIST; public ReadEasyExeclAsyncListener(ReadEasyExeclService readEasyExeclService, String tableName, int batchCount, List<UserInfo> list) { this.readEasyExeclService = readEasyExeclService; this.TABLE_NAME = tableName; this.BATCH_COUNT = batchCount; this.LIST = list; } @Override public void invoke(UserInfo data, AnalysisContext analysisContext) { data.setUuid(uuid()); data.setTableName(TABLE_NAME); LIST.add(data); if(LIST.size() >= BATCH_COUNT){ // 批量入庫(kù) readEasyExeclService.saveDataBatch(LIST); } } @Override public void doAfterAllAnalysed(AnalysisContext analysisContext) { if(LIST.size() > 0){ // 最后一批入庫(kù) readEasyExeclService.saveDataBatch(LIST); } } public static String uuid() { return UUID.randomUUID().toString().replace("-", ""); } }
3、ReadEasyExeclServiceImpl
@Service public class ReadEasyExeclServiceImpl implements ReadEasyExeclService { @Resource private ReadEasyExeclMapper readEasyExeclMapper; @Override public void saveDataBatch(List<UserInfo> list) { // 通過(guò)mybatis入庫(kù) readEasyExeclMapper.saveDataBatch(list); // 通過(guò)JDBC入庫(kù) // insertByJdbc(list); list.clear(); } private void insertByJdbc(List<UserInfo> list){ List<String> sqlList = new ArrayList<>(); for (UserInfo u : list){ StringBuilder sqlBuilder = new StringBuilder(); sqlBuilder.append("insert into ").append(u.getTableName()).append(" ( UUID,ID,NAME,AGE,ADDRESS,PHONE,OP_TIME ) values ( "); sqlBuilder.append("'").append(ReadEasyExeclAsyncListener.uuid()).append("',") .append("'").append(u.getId()).append("',") .append("'").append(u.getName()).append("',") .append("'").append(u.getAge()).append("',") .append("'").append(u.getAddress()).append("',") .append("'").append(u.getPhone()).append("',") .append("sysdate )"); sqlList.add(sqlBuilder.toString()); } JdbcUtil.executeDML(sqlList); } }
4、UserInfo
@Data public class UserInfo { private String tableName; private String uuid; @ExcelProperty(value = "ID") private String id; @ExcelProperty(value = "NAME") private String name; @ExcelProperty(value = "AGE") private String age; @ExcelProperty(value = "ADDRESS") private String address; @ExcelProperty(value = "PHONE") private String phone; }
以上就是Java使用雙異步實(shí)現(xiàn)將Excel的數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù)的詳細(xì)內(nèi)容,更多關(guān)于Java雙異步導(dǎo)入Excel數(shù)據(jù)的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
- java實(shí)現(xiàn)批量導(dǎo)入Excel表格數(shù)據(jù)到數(shù)據(jù)庫(kù)
- Java實(shí)現(xiàn)excel大數(shù)據(jù)量導(dǎo)入
- java 使用poi 導(dǎo)入Excel數(shù)據(jù)到數(shù)據(jù)庫(kù)的步驟
- Java實(shí)現(xiàn)上傳Excel文件并導(dǎo)入數(shù)據(jù)庫(kù)
- Java?Excel數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù)的方法
- Java excel數(shù)據(jù)導(dǎo)入mysql的實(shí)現(xiàn)示例詳解
- Java使用easyExcel批量導(dǎo)入數(shù)據(jù)詳解
相關(guān)文章
Java高級(jí)架構(gòu)之FastDFS分布式文件集群詳解
這篇文章主要介紹了Java高級(jí)架構(gòu)之FastDFS分布式文件集群詳解,小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2019-04-04Spring 中使用Quartz實(shí)現(xiàn)任務(wù)調(diào)度
這篇文章主要介紹了Spring 中使用Quartz實(shí)現(xiàn)任務(wù)調(diào)度,Spring中使用Quartz 有兩種方式,感興趣的小伙伴們可以參考一下。2017-02-02在Mac OS上安裝Java以及配置環(huán)境變量的基本方法
這篇文章主要介紹了在Mac OS上安裝Java以及配置環(huán)境變量的基本方法,包括查看所安裝Java版本的方法,需要的朋友可以參考下2015-10-10SpringBoot啟動(dòng)執(zhí)行sql腳本的3種方法實(shí)例
在應(yīng)用程序啟動(dòng)后,可以自動(dòng)執(zhí)行建庫(kù)、建表等SQL腳本,下面這篇文章主要給大家介紹了關(guān)于SpringBoot啟動(dòng)執(zhí)行sql腳本的3種方法,文中通過(guò)實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下2022-01-01Day14基礎(chǔ)不牢地動(dòng)山搖-Java基礎(chǔ)
這篇文章主要給大家介紹了關(guān)于Java中方法使用的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2021-08-08