Fregata: Spark上支持万亿维机器学习模型 - 做妈妈育儿网

请选择时期：

怀孕准备怀孕分娩宝宝0-1岁宝宝1-3岁宝宝3-6岁

当前位置：首页 > 窍门 > 科技数码

Fregata: Spark上支持万亿维机器学习模型

来源：最后更新：22-04-03 05:47:33

导读：Fregata: Spark上支持万亿维机器学习模型，

　　大规模机器学习工程上最大的挑战是模型的规模。在计算广告，推荐系统的场景下，运用Logistic Regression算法时常需要做特征交叉。原来两组，三组特征的数量可能并不是太大，但是通过交叉后可能会特征数会爆炸。例如，用户特征数1万，广告特征数1万，那么交叉后总特征数就是1亿，如果再与几十个广告位特征交叉，总特征数就会达到几十亿。有些情况下，特征交叉后，总数甚至能达到上千亿。特征数量的爆炸，也带来模型规模的爆炸，这给机器学习带来的挑战比庞大的训练数据量更大。
　　
　　通常认为，当模型的规模超过单节点的容量后，基于MapReduce计算模型的Spark, Hadoop MapReduce就无法支持了。为了解决这一问题，Parameter Server应运而生，目前是大规模机器学习研究方面的前沿。目前Parameter Server还在发展的过程中，其使用，开发门槛相较于Spark来说都是较高的，而且在大数据平台中再引入一套新的计算平台，对整个体系的管理，运维都将带来更大点挑战。
　　
　　Fregata致力于在Spark上解决大规模机器学习的问题，Fregata目前已经公开发布的版本已经能支持亿级维度的模型，而目前内部最新版本已经在一个月内连续突破了10亿，100亿，1000亿和10000亿4个台阶。在模型规模提高了4个数量级的同时保持了训练的高效性。下面是 Fregata的Logistic Regression算法在511412394个样本的训练集下的训练时间：
　　
　　从上表可以看出，对于5亿多样本的训练集，在仅使用48个Executor的情况下，千亿维度以内的问题，都可在500秒内完成，而且每个Executor仅需最多2G内存。对于万亿维度的问题，训练时间也仅需800秒多一点，只是Executor的内存加到了8G。Fregata最近的突破，打破了在Spark上无法支持超大规模模型的瓶颈，将进一步降低大规模机器学习的使用门槛和成本。

标签: 模型百科技术支持机器

免责声明：本文系转载，版权归原作者所有；旨在传递信息，其原创性以及文中陈述文字和内容未经本站证实。

本文地址:http://www.zuomama.com/qiaomen/youxi/226077.html

2016年开源方面的热门趋势
网站首页 返回栏目
关于Ceph产品化的一些感悟

1
学校组织学生徒步自费看《满江红》，这种“自愿”未免太牵强

2
怎么样鸽子怎么养鸽子不怕它飞走

3
拱辰享怎么样粉色后拱辰享怎么样

4
汉能怎么样汉能北京

5
清华怎么样蒲城朗悦清华怎么样

6
叶酸片怎么样斯利安叶酸片怎么样

7
湘雅怎么样（湘雅各医院的优势）

8
民生保险怎么样中国人民保险怎么样

9
鸽子怎么样（鸽子怎么样做才好吃）

10
新君威怎么样全新君威怎么样

民生保险怎么样中国人民保险怎么样

kindle（kindle导入电子书）竟然有大屏彩色墨水屏阅读器了？哪家公司做的？实际体验如何？想必你会
新冠病毒抗体检测有什么用（新冠病毒抗体检测什么意思）南通成品油价格调整公告（南通汽油价格调整最新消息） 2023汝阳县元宵节焰火晚会推迟举办通告潍坊市奎文区新华医院入园体检咨询电话

深圳市宝安区松岗镇包括哪些村（深圳市宝安区松岗镇包括哪些村庄）

2023十堰开学健康第一课直播视频在哪里看

潍坊婚姻登记处电话（潍坊婚姻登记处电话查询）潍坊婚姻登记服务指南来了。服务对象、服务内容及流程、婚姻登记
2023年2月6日起全面恢复内地与港澳人员往来 2023南通通州消费券有哪几种？ 2.6山东教育卫视家校共育大课堂直播回放入口山东家校共育大讲堂几点开始（山东家校共育大讲堂几点开始播放）

2023珠海横琴消费券抖音+建行生活+高德平台领取条件

栏目导航

怀孕周期

热门文章

关于我们 | 广告服务 | 网站合作 | 免责声明 | 联系我们| 网站地图

© 2006-2022 做妈妈育儿网 all rights reserved. 浙ICP备2022035435号-3

声明：本站文章均来自互联网，不代表本站观点如有异议请与本站联系联系邮箱:kf#zuomama.com (请把#替换成@)