|本期目录/Table of Contents|

[1]何经纬,刘黎志*,彭 贝,等.基于Spark并行SVM参数寻优算法的研究[J].武汉工程大学学报,2019,(03):282-289.[doi:10. 3969/j. issn. 1674-2869. 2019. 03. 015]
 HE Jingwei,LIU Lizhi*,PENG Bei,et al.Spark Parallel SVM Parameter Optimization Algorithm[J].Journal of Wuhan Institute of Technology,2019,(03):282-289.[doi:10. 3969/j. issn. 1674-2869. 2019. 03. 015]
点击复制

基于Spark并行SVM参数寻优算法的研究(/HTML)
分享到:

《武汉工程大学学报》[ISSN:1674-2869/CN:42-1779/TQ]

卷:
期数:
2019年03期
页码:
282-289
栏目:
机电与信息工程
出版日期:
2019-06-20

文章信息/Info

Title:
Spark Parallel SVM Parameter Optimization Algorithm
文章编号:
20190315
作者:
何经纬12刘黎志*12彭 贝12付星堡12
1. 智能机器人湖北省重点实验室(武汉工程大学),湖北 武汉 430205;2. 武汉工程大学计算机科学与工程学院,湖北 武汉 430205
Author(s):
HE Jingwei12 LIU Lizhi*12 PENG Bei12 FU Xingbao12
1. Hubei Key Laboratory of Intelligent Robot (Wuhan Institute of Technology), Wuhan 430205, China;2. School of Computer Science & Engineering, Wuhan Institute of Technology, Wuhan 430205, China
关键词:
支持向量机参数寻优Spark并行度负载均衡
Keywords:
support vector machine parameter optimization spark parallelism load balancing
分类号:
TP311
DOI:
10. 3969/j. issn. 1674-2869. 2019. 03. 015
文献标志码:
A
摘要:
针对传统支持向量机(SVM)参数寻优算法在处理大样本数据集时存在的寻优时间过长,内存消耗过大等问题,提出了一种基于Spark通用计算引擎的并行可调SVM参数寻优算法。该算法首先使用Spark集群将训练集以广播变量的形式广播给各个Executor,然后并行化SVM 的参数寻优过程,并在在寻优过程中控制Task并行度,使各个Executor负载均衡,从而加快寻优速度。实验结果表明,本文提出的参数寻优算法,通过设置合理的Task并行度,可以在充分使用集群资源的同时提高最优参数的寻找速度,减少寻优时间。
Abstract:
To solve the problems of the traditional support vector machine parameter optimization algorithm in dealing with large sample data sets, such as long time-consuming and excessive memory consumption, we proposed a parallel adjustable Support Vector Machine (SVM) parameter optimization algorithm based on Spark universal computing engine. Firstly, this algorithm uses Spark cluster to distribute the training set to each executor in the form of broadcast variables, and then makes the parameter optimization process of SVM parallel. In the parameter optimization process, each executor is load-balanced by controlling the parallelisms of the tasks, thereby speeding up the parameter optimization. At last the experimental results show that the proposed algorithm in this paper can improve the search speed and reduce the optimization time by setting the reasonable tasks parallelisms with making full use of the cluster resources.

参考文献/References:

[1] 吴云蔚,宁芊. 基于Hadoop平台的分布式SVM参数寻优[J]. 计算机工程与科学,2017,39(6):1042-1047. [2] 张鹏翔,刘利民,马志强. 基于 MapReduce 的层叠分组并行 SVM 算法研究[J]. 计算机应用与软件,2015,32(3):172-176. [3] 王越. Hadoop平台参数寻优的分布式SVM算法研究[D]. 西安:西安理工大学,2016. [4] 张小琴,胡景,肖炜. 基于Hadoop云平台的分布式支持向量机[J]. 山西师范大学学报(自然科学版),2015,29(4):19-23. [5] 秦军,戴新华,童毅,等. 基于MapReduce的SVM分类算法研究[J]. 计算机技术与发展,2015(6):87-91. [6] 米允龙,米春桥,刘文奇. 海量数据挖掘过程相关技术研究进展[J]. 计算机科学与探索,2015,9(6):641-659. [7] 宋泊东,张立臣,江其洲. 基于Spark的分布式大数据分析算法研究[J]. 计算机应用与软件,2019,36(1):39-44. [8] 张红,王晓明,曹洁,等. Hadoop云平台MapReduce模型优化研究[J]. 计算机工程与应用,2016,52(22):22-25. [9] ALHAM N K,LI M,YANG L,et al. A MapReduce-based distributed SVM algorithm for automatic image annotation[J]. Computers & Mathematics with Applications,2011,62(7):2801-2811. [10] KE X,JIN H,XIE X,et al. A distributed SVM method based on the iterative MapReduce[C]// IEEE International Conference on Semantic Computing.Piscataway:IEEE,2015:116-119. [11] GUO W,ALHAM N K,LIU Y,et al. A resource aware mapreduce based parallel SVM for large scale image classifications[J]. Neural Processing Letters,2016,44(1):161-184. [12] MEYER O,BISCHL B,WEIHS C. Support vector machines on large data sets:simple parallel approaches[M]. Berlin:Springer International Publishing,2014. [13] YAN B,YANG Z,REN Y,et al. Microblog sentiment classification using parallel SVM in apache spark[C]// IEEE International Congress on Big Data (BigData Congress). Piscataway:IEEE,2017:282-288. [14] 刘泽燊,潘志松. 基于Spark的并行SVM算法研究[J]. 计算机科学,2016,43(5):238-242. [15] 李坤,刘鹏,吕雅洁,等. 基于Spark的LIBSVM参数优选并行化算法[J]. 南京大学学报(自然科学版),2016,52(2):343-352.

相似文献/References:

[1]王忠,王春丽,刘莉.基于SVM的多类分类算法改进[J].武汉工程大学学报,2010,(07):89.[doi:10.3969/j.issn.16742869.2010.07.023]
 WANG Zhong,WANG Chun li,LIU li.Improvement on bintree multiclass categorization algorithm based on SVM[J].Journal of Wuhan Institute of Technology,2010,(03):89.[doi:10.3969/j.issn.16742869.2010.07.023]
[2]张正风.基于LS-SVM苯乳酸发酵过程的建模[J].武汉工程大学学报,2016,38(4):333.[doi:10. 3969/j. issn. 1674?2869. 2016. 04. 005]
 ZHANG Zhengfeng.Modeling of Phenyllactic Acid Fermentation Process Based on Least Square Support Vector Machine[J].Journal of Wuhan Institute of Technology,2016,38(03):333.[doi:10. 3969/j. issn. 1674?2869. 2016. 04. 005]
[3]李 娟,王 富*,王维锋,等.基于数据融合的疲劳驾驶检测算法[J].武汉工程大学学报,2016,38(05):505.[doi:10. 3969/j. issn. 1674?2869. 2016. 05. 018]
 LI Juan,WANG Fu*,WANG Weifeng,et al.Detection Algorithm of Fatigue Driving Based on Data Fusion[J].Journal of Wuhan Institute of Technology,2016,38(03):505.[doi:10. 3969/j. issn. 1674?2869. 2016. 05. 018]
[4]胡 迪,黄 巍*.基于AP-SVM组合模型的股票价格预测[J].武汉工程大学学报,2019,(03):296.[doi:10. 3969/j. issn. 1674-2869. 2019. 03. 017]
 HU Di,HUANG Wei*.Stock Price Trend Prediction Based On AP-SVM Combined Model[J].Journal of Wuhan Institute of Technology,2019,(03):296.[doi:10. 3969/j. issn. 1674-2869. 2019. 03. 017]

备注/Memo

备注/Memo:
收稿日期:2019-02-24基金项目:武汉工程大学第十届研究生教育创新基金(CX2018215)作者简介:何经纬,硕士研究生。 E-mail:[email protected]*通讯作者:刘黎志,硕士,副教授。E-mail:[email protected]引文格式:何经纬,刘黎志,彭贝,等. 基于Spark并行SVM参数寻优算法的研究[J]. 武汉工程大学学报,2019,41(3):282-289.
更新日期/Last Update: 2019-06-19