加入收藏 | 设为首页 | 会员中心 | 我要投稿 南平站长网 (https://www.0599zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

分析工具很难选? 看他们如何挖掘大数据价值

发布时间:2020-12-30 14:13:51 所属栏目:大数据 来源:网络整理
导读:副标题#e# 点击上方蓝色字体关注。 您还可以搜索公众号“ D1net”选择关注D1net旗下的各领域(云计算,数据中心,大数据,CIO,企业协作,网络数通,信息安全,企业移动应用,系统集成,服务器,存储,呼叫中心,视频会议,视频监控等)的子公众号。 ======

Yahoo在2006年成为第一个将Hadoop应用于生产环境的用户,当时,Hadoop的开发者之一Doug Cutting正在这家网络搜索和互联网服务公司工作,Yahoo宣传自己是当今Hadoop平台最大的用户。Yahoo的大数据分析架构,包括40000多个节点,300多个应用,40个集群,Yahoo将Hadoop与Apache HBase数据库,Apache Storm 实时处理引擎和其他大数据技术结合使用。但这家公司并不满足于现状,它一直在努力将这些技术扩展到新的领域。


Yahoo负责大数据和机器学习架构的副总裁Andy Feng说道,“即使在10年后,我们仍然会发现这么做的好处,在过去的三年里,他花了大约95%的时间专注于机器学习工具和应用上。在过去,可以构建并运行现有机器学习技术上的自动算法不足以在Hadoop集群处理如此庞大的数据集,其准确性无法令人满意。”


“我们一直尝试机器学习,但我们的尝试有着一定的约束,所以产生的结果是有限的,Yahoo负责云计算和大数据平台产品开发的高级总监Sumeet Singh补充说道。不过,他和Feng都表示,近年来,情况已经大为好转。“我们看到,人工智能和机器学习重回人们的视线,其中一个主要原因就是数据量的增长,”Singh指出。


例如,Yahoo现在正在运行一个机器学习算法,该算法使用语义分析过程,更好地将付费广告搜索结果页面与用户输入的搜索关键字进行匹配,它将每个搜索的营收提升了9%。另一个使用机器学习的应用可以让Yahoo Flickr在线照片和视频服务的用户能够按照视觉内容来对图像进行组织,而在以前,他们只能按照拍照日期排序。该算法还可以标记那些不适合在工作中查看的照片,以帮助用户避免在办公室看照片时产生的尴尬情况,Feng说。


Hadoop集群节点新增了图形处理单元,让这些应用成为了可能。Feng表示,GPU可以进行传统CPU无法完成的图像处理。Yahoo在大数据分析架构中新增了Spark处理引擎,接管了一些处理工作。


此外,Yahoo还部署了MLlib,Spark的机器学习算法内置库。然而,这些算法太过于基础,Singh说。这促使大数据团队开发了一个深度学习算法库CaffeOnSpark, Yahoo已经在GitHub网站上传了该算法库,使用者可以自由下载。


(来源:TechTarget中国)


如果您在企业IT、网络、通信行业的某一领域工作,并希望分享观点,欢迎给企业网D1Net投稿,投稿邮箱:editor@d1net.com

(编辑:南平站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读