瀚云标签系统架构实践
瀚云标签系统主要服务于企业画像,为企业的经营情况、能耗情况等设计数据标签,为政府、银行等客户提供准确、直观、时效的数据服务。
产品架构说明
该系统通过大
一、瀚云标签画像系统架构 瀚云标签系统主要服务于企业画像,为企业的经营情况、能耗情况等设计数据标签,为政府、银行等客户提供准确、直观、时效的数据服务。 产品架构说明 该系统通过大数据、人工智能等技术为企业赋能,为各类业务服务。从数据整合到数据仓库建设,最后通过标签系统为企业做特征提取,为企业构建全息画像。 标签系统功能架构说明 标签系统作为企业画像构建的基础,瀚云 标签系统主要功能点如下图所示: 瀚云标签系统包括从企业数据湖、数据集市、数据仓库等采集数据,标签公式创建、规则生成,计算标签,任务监控,标签查询等核心功能。 技术架构实践 交互式开发工具: Zeppelin,目前标签数据源来源比较多,包含HBase、MySQL、ES等,为了让业务人员更方便追溯原数据,采用Zeppelin作为交互式查询工作。 规则引擎:标签平台采用在线拖拉元数据信息和数据符号生成公式,然后利用Drools规则引擎优化公式,并生成对应计算需要的sql与udf函数,来为后续标签计算服务。 批处理引擎:采用Spark Dataset API做后台标签计算。 流处理引擎:采用Flink CEP 处理做实时计算。 配置存储:MySQL存储标签规则配置信息、标签目录配置信息、结果集校验(标签量级监控、数据波动的校验等),采用Redis缓存配置信息供业务调用。 计算结果存储:目前标签计算结果集可以存储于HBase、MySQL。 服务接口:标签平台采用微服务方式提供配置查询与数据接口给业务调用。 服务间调用:feign(基于rabbion的负载均衡,调用方式简单)。 二、标签系统简介 标签系统结构 数据加工层解决标签数据的生产问题,完成数据的收集、清洗、转化、计算。通常,搭建完善的企业标签体系,需要尽可能汇总最大范围内的数据。然后进行数据清洗,如去重、去除无效数据、去异常数据等等。再然后转化、计算出标签数据。 数据服务层主要用来维护整个标签体系,集中在一个地方进行管理。完成以下核心任务: 定义业务方需要的标签 标签完整生命周期的管理 实现应用层的对接 数据应用层将数据能力转化为业务价值的地方。业务方按照各自业务的需求使用标签云系统架构,实践中可用到以下几块: 标签取数:标签和企业画像的数据整合中心,可支撑业务部门的日常取数需求,也可作为其他系统的数据支撑来源 多维分析:标签可以更好的连接数据和业务人员,降低数据获取和操作的难度,赋能业务人员参与到数据分析之中 企业画像大屏或者报告 标签系统构建 标签定义定义来源于业务目标,基于不同的行业,不同的应用场景,同样的标签名称可能代表了不同的含义,也决定了不同的模型设计和数据处理方式。我们给企业画像打标签分类为四大类,基础类标签、统计类标签、规则类标签和模型类标签。例如瀚云给企业标签分类如下: 标签维护标签维护需要生成规则,定义权重,更新策略,同时需要考虑到权限管理。 标签整体执行流程 执行流程包括标签创建、审核、计算、校验、线上评估、优化。 三、标签系统在企业画像上的应用 目前标签系统广泛用于企业画像系统预警风险配置等业务功能块。 【案例效果展示】 数据标签管理配置 企业画像效果页面 通过标签公式配置与服务展示某个政务云下各项指标。 四、总结和未来规划 通过依托瀚云大数据中台服务,可以实现多种维度数据挖掘,对企业进行分群,实现企业图谱,大屏所需指标,以及风险评估报告、信用报告、企业评分监控等功能。 未来瀚云大数据平台标签管理可实现标签流计算处理,以及标签在线分析,利用标签管理功能实现相关搜索、推荐等业务。可配置完成业务、可配置完成产品,实现业务与产品全景视图。 (编辑:南平站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |