请选择时期:
怀孕准备 怀孕 分娩 宝宝0-1岁 宝宝1-3岁 宝宝3-6岁

Fregata: Spark上支持万亿维机器学习模型

来源: 最后更新:22-04-03 05:47:33

导读:Fregata: Spark上支持万亿维机器学习模型,

  大规模机器学习工程上最大的挑战是模型的规模。在计算广告,推荐系统的场景下,运用Logistic Regression算法时常需要做特征交叉。原来两组,三组特征的数量可能并不是太大,但是通过交叉后可能会特征数会爆炸。例如,用户特征数1万,广告特征数1万,那么交叉后总特征数就是1亿,如果再与几十个广告位特征交叉,总特征数就会达到几十亿。有些情况下,特征交叉后,总数甚至能达到上千亿。特征数量的爆炸,也带来模型规模的爆炸,这给机器学习带来的挑战比庞大的训练数据量更大。

  

  通常认为,当模型的规模超过单节点的容量后,基于MapReduce计算模型的Spark, Hadoop MapReduce就无法支持了。为了解决这一问题,Parameter Server应运而生,目前是大规模机器学习研究方面的前沿。目前Parameter Server还在发展的过程中,其使用,开发门槛相较于Spark来说都是较高的,而且在大数据平台中再引入一套新的计算平台,对整个体系的管理,运维都将带来更大点挑战。

  

  Fregata致力于在Spark上解决大规模机器学习的问题,Fregata目前已经公开发布的版本已经能支持亿级维度的模型,而目前内部最新版本已经在一个月内连续突破了10亿,100亿,1000亿和10000亿4个台阶。在模型规模提高了4个数量级的同时保持了训练的高效性。下面是 Fregata的Logistic Regression算法在511412394个样本的训练集下的训练时间:

  

  从上表可以看出,对于5亿多样本的训练集,在仅使用48个Executor的情况下,千亿维度以内的问题,都可在500秒内完成,而且每个Executor仅需最多2G内存。对于万亿维度的问题,训练时间也仅需800秒多一点,只是Executor的内存加到了8G。Fregata最近的突破,打破了在Spark上无法支持超大规模模型的瓶颈,将进一步降低大规模机器学习的使用门槛和成本。


标签: 模型  百科  技术支持  机器  

免责声明:本文系转载,版权归原作者所有;旨在传递信息,其原创性以及文中陈述文字和内容未经本站证实。

本文地址:http://www.zuomama.com/qiaomen/youxi/226077.html

  • 1学校组织学生徒步自费看《满江红》,这种“自愿”未免太牵强

    学校组织学生徒步自费看《满江红》,这种“自愿”未免太牵强

  • 2怎么样鸽子 怎么养鸽子不怕它飞走

    怎么样鸽子 怎么养鸽子不怕它飞走

  • 3拱辰享怎么样 粉色后拱辰享怎么样

    拱辰享怎么样 粉色后拱辰享怎么样

  • 4汉能怎么样 汉能 北京

    汉能怎么样 汉能 北京

  • 5清华怎么样 蒲城朗悦清华怎么样

    清华怎么样 蒲城朗悦清华怎么样

  • 6叶酸片怎么样 斯利安叶酸片怎么样

    叶酸片怎么样 斯利安叶酸片怎么样

  • 7湘雅怎么样(湘雅各医院的优势)

    湘雅怎么样(湘雅各医院的优势)

  • 8民生保险怎么样 中国人民保险怎么样

    民生保险怎么样 中国人民保险怎么样

  • 9鸽子怎么样(鸽子怎么样做才好吃)

    鸽子怎么样(鸽子怎么样做才好吃)

  • 10新君威怎么样 全新君威怎么样

    新君威怎么样 全新君威怎么样

关于我们 | 广告服务 | 网站合作 | 免责声明 | 联系我们| 网站地图

© 2006-2022 做妈妈育儿网 all rights reserved. 浙ICP备2022035435号-3

声明: 本站文章均来自互联网,不代表本站观点 如有异议 请与本站联系 联系邮箱:kf#zuomama.com (请把#替换成@)