腾讯全面揭秘大数据平台技术演进历程
十年四次升级 建立“大数据+AI”双引擎技术架构
腾讯内部目前有超过100万台服务器,腾讯云联合所有业务部门,利用业务空闲资源打造一套算力共享平台,该算力弹性资源池有20万的规模,大数据平台每天有1500万的分析任务、30万亿次的实时计算量,并且每天数据接入条数达35万亿条数据。此外,腾讯云的分布式机器学习平台,能支撑1万亿维度的数据训练。
能支撑如此大规模数据的接入和运算,是腾讯在大数据技术领域超过10年的积累,其核心的大数据平台已经完成了三次迭代。从以Hadoop为核心的离线计算时代到以Spark、Storm、Flink为核心的实时计算时代,再到如今的机器学习和深度学习时代,腾讯从无到有研发了分布式的机器学习引擎Angel,以及一站式AI开发平台智能钛TI,用来解决数据训练和算法的问题。目前,腾讯正在研究以批流融合、ABC融合、以及数据湖和联邦学习为方向的下一代大数据平台的研究,该平台将具备混合部署、跨域数据共享和边缘计算等能力。
据了解,为支撑海量业务发展,腾讯已经建立了“大数据+AI”的双引擎技术架构,其中,最底层为分布式存储层,存储结构化及非结构化数据,第二层是资源调度层,做CPU、GPU和FPGA的管理,第三层是计算层、分析层、数据采集层,而顶层则是业务应用层。通过四层完整的技术架构,自下而上为腾讯的整个应用生态保驾护航,保障亿万用户能安全顺畅地享受到腾讯的优质服务。
从局部优化到自主研发 在实践中不断创新
从开始的技术引进、局部优化到如今的自主创新,腾讯的大数据技术在实践中不断完善、不断创新。十年前,腾讯管理几百个节点都很困难,调度性能差,规模上不去。为了有效解决计算能力和大规模集群问题,腾讯自研调度器,相对原生调度器性能提升150倍,大大提升了集群可扩展性。2016年,腾讯打破Sort Benchmark四项世界纪录,标志着算力已经达到世界领先水平。
由于腾讯20万台弹性资源池的机器分布在多个数据中心,不同地区甚至是不同国家,为了降低数据使用壁垒,去年自研了漂移计算引擎SuperSQL,作为统一的数据分析入口,通过智能CBO优化器,将计算下推到分布在各地的异构数据源,数据分析性能提高很多倍,并且数据量越大优势越明显。
数据应用越来越深入,腾讯对数据挖掘的需求也越来越多。随着模型的增大,最初用来做数据训练的MR、Spark已经不能满足上亿的模型维度的需求。2015年初,腾讯开始自研高性能的分布式机器学习平台Angel,采用PS架构,能支持10亿维度。目前Angel发展到3.0版本,能支持万亿维度,也可以兼容Spark、PyTorch、TensorFlow等生态,进一步降低了使用门槛。此外,Angel今年还新增了对深度学习、图计算等的支持。
腾讯正成为大数据领域开源最全面厂商
技术迭代不断加速,企业建设大数据平台和机器学习平台,不仅成本高昂,而且缺乏相应的专业人才,面临种种问题。
云时代,这些问题得到有效解决。目前,腾讯已经把网络、存储、数据库等IaaS能力,大数据、机器学习等PaaS的能力,以及上层的图像、语音、NLP、BI等SaaS能力,通过腾讯云对外开放。在大数据和AI两个领域,腾讯推出了以TBDS和智能钛TI为首的双引擎。让每个企业,不需要专业的大数据和AI团队,也能便捷用上领先的大数据和AI的能力。 (编辑:南平站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |