做ML项现在,义务众多噜苏怎么办?这份自查清单帮你理清思路


机器学习项现在中含有多多因素,包括数据处理、模型优化等。开发者频繁会陷入紊乱,或者遗漏一些主要的东西。这边有一份备忘清单,请查收。

 

汶川县雀氓二手车交易网

任何科研项现在都是体系性的,机器学习项现在也不破例,它包含一系列大大幼幼、或繁或简的要素和组件,如商议、准备做事、挑出题目、模型构建和优化调整等。在这栽情况下,开发者很容易漏失踪一些主要的东西。

这时就必要对项现在中经涉及到的义务做一份详细的清单。未必开发者绞尽脑汁也无法找到一个好的首首点,那么义务清单则有助于他们在正确的新闻源中挑取有效的数据并竖立有关,从而挖掘出深切见解。

此外,还必要对项现在中的每项义务进走规划的检查,确保义务的完善度。

正如 Atul Gawande 在其著作《清单宣言:如何把事情做对》(Checklist Manifesto)中说到的:

吾们所晓畅事物的数目和复杂度已经超出了自身从它们中正确、坦然或郑重地获好的能力。

在本文中,网页和数据科学讲师 Harshit Tyagi 以端到端机器学习项现在为例,对频繁涉及的义务做了一份清单。

做ML项现在,义务众多噜苏怎么办?这份自查清单帮你理清思路

本文作者 Harshit Tyagi。

接下来,吾们就来望 Harshit Tyagi 是如何一步步创建属于本身的机器学习项现在义务清单的。

八步完善 ML 项现在检查清单

几乎每个机器学习项现在中都起码要实走 8-10 个步骤,其中一些步骤的实走挨次也能够互换。

步骤 1:从一个高程度的视角定义题目

实走此步骤是为了弄隐晦题目的营业逻辑。你答该晓畅到:

题目的内心(有监督的 / 无监督的,分类题目 / 回归题目)。

你能够开发的方案类型。

答该用什么指标来度量性能?

机器学习是解决这个题目的正确手段吗?

解决该题目的手脱手段。

该题目固有的倘若。

步骤 2:确定数据源并获取数据

在大无数情况下,倘若你已经准备一些数据并想要定义关于这些数据的题目以更好地行使输入的数据,那么你能够先于步骤 1 实走这个步骤。

基于题目的定义,你必要确定数据源中哪些能够行为数据库或传感器等。对于生产中某个行使的安放,这一步答该议决开发数据 pipeline 来实现自动化,以保证输入的数据能够进入体系。

详细步骤如下:

列出你必要的数据源及数据量;

检查存储空间是否会成为题目;

检查你是否有权限行使这些数据来达到你的方针;

获取数据并将其转换为可行使的格式;

检查数据类型,清淡包括文本、分类、数值、时序、图像数据;

保留样本以进走最后的测试。

步骤 3:初步追求数据

在这一步中,你必要对一切影响项现在效果 / 展望 / 现在标的特征进走钻研。倘若数据量很大,请对数据进走采样使得分析更易管理。详细步骤如下:

行使 jupyter notebook,由于它为钻研数据挑供了浅易直不悦目的界面;

确定现在标变量;

确定特征的类型(分类、数值、文本等);

分析特征之间的有关;

增补一些可视化数据,产 经使每个特征对现在标变量的影响更易于注释;

记录你的发现。

步骤 4:追求性数据分析以准备数据

在这一步中,议决定义数据转换、数据修整、特征选择 / 工程和扩展的函数来处理之前步骤中的发现。详细如下:

编写数据转换函数,并自动处理将输入的下一批数据;

编写数据修整函数(估算缺失值并处理变态值);

编写函数以选择和工程化特征,包括删除冗余特征、特征格式化以及其他数学变换;

特征扩展——标准化特征。

步骤 5:开发一个基线模型,然后追求其他模型以选出最佳模型

创建一个能够为一切其他复杂机器学习模型挑供基线的基础模型。详细步骤如下:

行使默认参数训练一些常用的机器学习模型,如质朴贝叶斯、线性回归、声援向量机(SVM)等;

度量并比较每栽模型的性能;

对每个模型采用 N 倍交叉验证并在 N 倍的基础上计算性能指标的均值和标准差;

钻研对现在标影响最大的特征;

分析模型在展望过程中存在的舛讹类型;

用迥异的手段工程化特征;

重复上述步骤几次,以确保行使正确的特征,且其形态也无误;

选出基于性能指标的最佳模型。

步骤 6:优化你选出的模型并检查有关手段

这是你更添挨近最后解决方案的关键步骤之一,详细步骤如下:

用交叉验证优化超参数;

用随机搜索或网格搜索等自动调整手段来找出最佳模型的最佳配置;

测试有关手段,比如集成学习等;

用尽能够多的数据测试模型;

最后确定后,行使在最先保留的未见过测试样例来检查模型是否存在过拟相符或欠拟相符。

步骤 7:保存代码并交流你的方案

交流的过程也是性能添倍的过程。你必要记得一切已有或湮没的益处有关者。主要步骤包括如下:

保存代码并记录整个项方针过程及用到的手段;

创建仪外板,如 voila 或带有挨近自吾注释可视化的有效 presentation;

撰写一篇描述你如何进走特征分析、测试数据转换等的文章 / 通知。记录你的学习过程,包括战败的经验和有效的技术手段;

总结主要效果并规划异日设想(倘若有的话)。

步骤 8:将模型投入生产并监测模型

倘若你的项现在必要在实时数据上进走测试,你答该创建一个能够在一切平台(web、android、iOS)上行使的网页版行使或 REST API。主要步骤包括:

在 h5 或 pickle 文件中保存你最后的训练模型;

挑供网页版模型行使,你能够行使 Flask 来开发这些网页服务;

有关输入数据源并竖立 ETL 路径;

基于扩展需求,用 pipenv、docker/Kubernetes 管理倚赖有关;

你能够行使亚马逊、Azure 或者谷歌云平台来安放你的服务;

在实时数据上监测性能或让人们在你的模型上方便地行使他们的数据。

末了,创建义务清单时必要仔细的一点是:你能够按照项方针难易程度来对清单进走实时调整。

 

原标题:王俊凯登上杂志封面 少年感十足!

你好,武汉!

7月16日消息,群晖发布了四款20Plus新品,分别是DS220 、DS420 、DS720 、DS920 ,目前已经在京东自营上架,售价分别为2780元、3980元、3680元、4680元。

原标题:古代虎将的兵器到底多重?关羽82斤偃月刀不算啥,他的枪有200斤

7月1日,荣耀亲选真无线蓝牙耳机Earbuds X1在京东开启预售,1元订金可抵21元,到手价149元。