目录

EPPDEV-MLIB平台背景说明

问题的提出

模型工程师与软件工程师的技术与思维鸿沟

在机器学习项目实施过程中,软件工程和模型工程的衔接上,存在巨大的技术和思维鸿沟:

正式因为上述的技术和思维鸿沟,导致了模型工程师建模完成后,系统化落地比较困难。

模型落地困难,工作量大

模型工程师完成数据建模以后,后续模型计算的工作环节如下图所示:

主要流程包括以下四个环节:

上述四个环节中,越往后对于软件工程师来讲难度越大,为此很多时候模型部署落地的工作就落到了模型工程师手里,导致模型部署的实现方案各不相同。目前业内常用的落地方案包括:

EPPDEV-MLIB解决方案

为了更好的划分号模型工程师和软件工程师的分工界面,结合实际业务需要,EPPDEV-MLIB 解决方案应运而生。通过 EPPDEV-MLIB 方案可以很好的区分模型工程师和软件工程师的分工界面,模型工程师负责完成 pmml 文件的构建,软件工程师通过调用 EPPDEV-MLIB 调用网关提供的标准化接口,即可完成模型的计算,具体逻辑如下图所示:

方案优缺点

优势1:多种建模工具与算法的支持

平台模型计算基于 PMML 标准来完成,支持多种常用的建模工具(如 sklearn, spark mlib, R, tensorflow 等),支持多种机器学习模型算法

优势2:方便与各应用系统集成

平台提供了常用的模型调用工具 SDK,支持批量任务调用、hive sql 调用、实时接口调用等多种模型调用方式,可以满足不同应用场景下的系统对接

优势3:全分布式高可用架构

分布式高可用架构

全分布式高可用架构,任意组件的失效均不影响模型运算的正常运转

平台不足

当然,本平台仍然有一定的不足之处:

  1. 模型构建必须输出为 pmml 格式,这就要求模型工程师在进行特征工程、模型构建是全部使用 Pipeline 方式,客观上会增加模型工程师的工作量,但是相对于模型部署上节约的工作量,这部分工作量基本上可以忽略不计
  2. 目前平台仅支持模型部署,暂不支持基础数据建模和模型的定时更新,上述功能仍需模型工程师手工处理,或者开发相信的程序来完成。上述功能已纳入 V2.0 的版本规划中,待后续开发完成后,即可实现系统化建模和模型更新功能