近年来,人工智能和大数据的快速发展正在深刻改变世界和我们的生活方式。人工智能的核心是机器学习算法。2006年以来,在机器学习领域,以Deep Lerning为代表的机器学习算法取得了突破性进展。2017年AlphaGo对战围棋冠军李世石后,这项技术加速走向市场,落地应用。SSD作为大数据的存储介质,正在取代HDD成为主流存储设备。那么当机器学习遇上SSD,会擦出什么样的火花呢?
一、什么是机器学习?
机器学习就是让计算机在没有显式编程的情况下进行学习。3354亚瑟塞缪尔,1959年
一个计算机程序使用经验E来学习任务T,其性能为P,如果任务T的性能P随着经验E不断增加,则称为机器学习。3354汤姆米切尔,1997年
机器学习是一类算法的统称。这些算法从大量历史数据中挖掘出隐藏规则,并用于预测或分类。更具体地说,机器学习可以被视为寻找一个函数,其中输入是样本数据,输出是期望的结果,但这个函数太复杂,无法正式表达。应该注意的是,机器学习的目标是使学习到的功能很好地适用于新样本,而不仅仅是在训练样本上表现良好。学习功能应用于新样本的能力称为泛化能力。
二、机器学习步骤
通常,学习一个好的函数分为以下三个步骤:
1、选择合适的型号,一般要看实际问题。针对不同的问题和任务,选择合适的模型。模型是一组函数。
2、判断一个函数的好坏,需要确定一个度量标准,也就是我们平时说的损失函数。损失函数的确定也需要根据具体问题来确定。比如欧氏距离一般用于回归问题,交叉熵代价函数一般用于分类问题。
3、查找最佳函数,如何找到最佳众多功能中最快的一个,这一步是最大的难点,要做到快速准确往往不是一件容易的事情。常用的方法有梯度下降算法、最小二乘法等招数。
学习完最佳函数,需要在新的样本上进行测试。只有当它在新样本上表现良好时,它才能被视为好功能。
三、机器学习的类型
机器学习有三种基本类型:监督学习、非监督学习和强化学习。
1监督学习
监督是用已知正确答案的例子训练模型。了解数据及其一一对应的标签,训练一个智能算法将输入数据映射到标签的过程,及其常见的应用场景如分类和回归问题。常见的算法有K近邻算法、线性回归、logistic回归、支持向量机(SVM)、决策树、随机森林和神经网络。
分类
在分类中,机器被训练成将一个组分成特定的类。分类的一个简单例子是电子邮件帐户上的垃圾邮件过滤器。过滤您之前标记为垃圾邮件的电子邮件,并将其与新邮件进行比较。如果它们符合一定的百分比,这些新邮件将被标记为垃圾邮件,并被发送到相应的文件夹。那些不太相似的邮件被归类为正常邮件发送到你的邮箱。
你可能会问,这种分类算法对SSD有什么用?SSD中一个典型的分类问题就是IO模式识别。判断IO是纯读、纯写还是读写混合是一个三分类问题。判断IO是顺序的还是随机的,是一个二元问题。可以根据实际情况选择相应的机器学习分类算法来识别不同的IO模式,然后针对不同的模式FTL采取不同的策略,从而提高SSD的性能。
返回
回归问题通常用于预测一个值,其预测结果是连续的,比如预测房价和未来天气情况。比如一个产品的实际价格是500元,通过回归分析预测值是499元。我们认为这是一个很好的回归分析。
回归算法可以用在SSD的什么地方?回归算法在SSD中的一个应用是IO强度预测。在一定的模式下,IO强度在时间序列上具有一定的规律性,可以根据之前的IO强度预测下一时段的IO强度。Smart-IO技术使用长期和短期记忆人工神经网络LSTM来预测IO强度。提前预测IO强度可以优化FTL策略,合理分配GC占用的资源,合理调度,提高数据命中率,从而提高SSD性能。
2无监督学习
在无监督学习中,数据是无标签的。学习模型是推断数据的一些内部结构。无监督学习主要分为聚类和降维。
聚类用于根据属性和行为对象进行分组。这与分类不同,因为这些组不是你提供的。聚类的一个例子是将一个组分成不同的子组(例如,基于年龄和婚姻状况),然后将它们应用于有针对性的营销计划。大多数大数据可视化使用降维来识别趋势和规则。主要算法:K-means,层次聚类分析(HCA),DBSCAN。
在高维数据中,容易出现样本稀疏、距离计算困难等问题,即维度灾难。为了缓解维数灾难,降维是常用的方法。降维的主要方法有主成分分析(PCA)、线性判别分析(LDA)和局部线性嵌入(LLE)。如图所示,三位数据可以通过PCA简化为二维数据。
无监督学习没有标签,相当于比有监督学习输入的信息少。相比监督学习,非监督学习在实际应用中难度会更大,那么在SSD中是不是没用?不不不Smart-IO数据分组技术使用K-means算法对IO进行分组的冷热数据,然后将不同组的数据写入不同的块或管芯,这样可以降低WA,延长SSD 的使用寿命。
3加强学习
学习算法的思路很简单。以游戏为例。如果在游戏中采用某种策略可以获得更高的分数,就可以进一步加强这种策略为了继续得到更好的结果。这种策略非常类似于各种绩效奖励日常生活中。我们通常用这种策略来提高自己的游戏水平。这也是AlphaGo下围棋的原理。它只告诉机器围棋的基本规则,但它没有把人类几千年总结出来的公式之类的围棋战术告诉它,让机器完全靠自学打败人类。
它很难涉足SSD,但熟悉SSD的人都知道,垃圾收集(GC)是SSD固件设计的重要组成部分,也是影响SSD主性能的重要因素。一般的GC机制只是基于硬盘当前的空闲空间状态:有空闲空间时,don t启动GC;相反,当没有空闲空间时,执行GC任务。这种策略的缺点是,如果用户操作时SSD性能明显下降,可以在主设备空闲时提前进行GC,但是过于频繁的GC会造成WA写放大过度,所以需要一个平衡,需要一个算法来自动确定何时进行GC。强化学习正好可以派上用场。给定一定的度量标准,机器可以通过强化学习训练自动学习GC的时机,可以得到更好的GC策略。
四、DapuStor机器学习技术
DapuStor基于SSD开发了Smart-IO数据分组、Smart-IO强度预测等先进技术,并将机器学习的先进算法应用于SSD,提升了SSD的产品性能。同时,自主研发的具有计算和智能的数据存储处理器芯片(简称DPU),可以在芯片层面实现更多的智能功能和硬件加速,实现存储和计算的一体化,满足高端存储和边缘计算市场的需求。
标签:算法数据机器