加入收藏 | 设为首页 | 会员中心 | 我要投稿 南昌站长网 (https://www.0791zz.cn/)- 终端安全、安全管理、数据治理、图像分析、大数据!
当前位置: 首页 > 创业 > 经验 > 正文

数据中台到底包括什么内容?

发布时间:2020-11-13 11:09:43 所属栏目:经验 来源:互联网
导读:数据计算采用YARN作为各种计算框架部署的执行调度平台,计算框架有MapReduce、Spark及Spark SQL、Flink、Spark MLlib等。 MapReduce是最早开源的大数据计算框架,虽然现在性能相对较差,但它的资源占用比较小,尤其是内存方面。因此在部分数据量过大,而其他

数据计算采用YARN作为各种计算框架部署的执行调度平台,计算框架有MapReduce、Spark及Spark SQL、Flink、Spark MLlib等。

MapReduce是最早开源的大数据计算框架,虽然现在性能相对较差,但它的资源占用比较小,尤其是内存方面。因此在部分数据量过大,而其他计算框架由于硬件资源的限制(主要是内存限制)而无法执行的场景,可以将MapReduce作为备选框架。

Spark及Spark SQL是在批处理方面拥有出色性能的成熟技术方案,适合大部分的离线处理场景。特别是在离线数据建模方面,建议使用Spark SQL进行数据处理,既能保证易用性,又能保证处理的性能。Flink是实时数据处理方面的首选,在处理的时效性、性能和易用性方面都有很大优势。

而机器学习一般采用Spark家族的Spark MLlib为技术底座。Spark MLlib内置了大量的常规算法包,如随机森林、逻辑回归、决策树等,可以满足大部分数据智能应用场景。

同时,数据中台不断进化,也逐渐融入AI能力。如人脸识别、以图搜图、智能客服等能力的实现就需要AI平台。目前较为成熟的AI平台有TensorFlow及PyTorch。为实现物体的检测和识别,可使用SSD、YOLO和ResNet等深度学习模型,而在人脸检测和识别中则主要使用MTCNN、RetinaNet和ResNet,人脸检索可使用Facebook开源的针对人脸检索的Faiss框架。

分析与决策应用主要面向企业的领导、运营人员等角色,基于企业的业务背景和数据分析诉求,针对客户拉新、老客运营、销售能力评估等分析场景,通过主题域模型、标签模型和算法模型,为企业提供可视化分析专题。

用户在分析与决策应用中快速获取企业现状和问题,同时可对数据进行钻取、联动分析等,深度分析企业问题及其原因,从而辅助企业进行管理和决策,实现精准管理和智能决策。

在分析专题设计的过程中,首先需要根据不同的业务分析场景,采用不同的分析方法进行数据分析的前期规划,搭建清晰的数据分析框架,如在用户行为分析、营销活动等场景下,会采用5W2H分析法和4P营销理论;在复购客户下降、客单价下降等问题诊断分析场景,需要考虑问题与哪些因素有关,则采用逻辑树分析法。

在数据分析框架构建完成后,结合用户的分析目的,采用不同的分析思路和呈现方式,包括趋势分析、多维分解、漏斗分析、A/B测试、对比分析和交叉分析等。

(2) 标签应用

标签旨在挖掘实体对象(如客户、商品等)的特征,将数据转化成真正对业务有价值的产物并对外提供标签数据服务,多应用于客户圈选、精准营销和个性化推荐等场景,从而实现资产变现,不断扩大资产价值。

标签体系的设计立足于标签使用场景,不同使用场景对标签需求是不同的,譬如在客户个性化推荐场景下,需要客户性别、近期关注商品类型、消费能力和消费习惯等标签。

因此,在标签体系设计前,需要先基于业务需求分析标签的使用场景,再详细设计标签体系和规则。在标签的使用过程中,可利用A/B测试等数据分析方式,持续分析标签的使用效果,并优化标签体系和规则。

(3) 智能应用

智能应用是数智化的一个典型外在表现。比如在营销领域,不仅可实现千人千面的用户个性化推荐,如猜你喜欢、加购推荐等,还可借助智能营销工具进行高精准度的用户触达,推动首购转化、二购促进、流失挽留等。

在供应链领域,可通过数据中台整合用户数据、销售数据、采购数据等优化库存,实现自动配补货、自动定价。除了传统统计分析、机器学习之外,还可以融入深度学习,实现以图搜图并与商城打通,实现拍立购;实现人脸识别,用于地产行业的案场风控;融入自然语言处理,实现智能客服问答机器人等。

总之,以上各层是数据中台的核心内容。需要指出的是,在工具平台层,企业并不需要完全自主建设,可以考虑采用拿来主义,从中台建设厂商采购成熟的产品,而数据资产层与数据应用层是企业数据中台组织需要密切关注的。

数据资产层是数据中台的核心层,它依托于工具平台层,那么这一层又有什么内容呢?答案是因企业的业务与行业而异,但总体来讲,可以划分为主题域模型区、标签模型区和算法模型区。

(1) 主题域模型

主题域模型是指面向业务分析,将业务过程或维度进行抽象的集合。业务过程可以概括为一个个不可拆分的行为事件,如订单、合同、营销等。

为了保障整个体系的生命力,主题域即数据域需要抽象提炼,并且长期维护和更新,但是不轻易变动。在划分数据域时,既要涵盖当前所有业务的需求,又要保证新业务能够无影响地被包含进已有的数据域中或者很容易扩展新的数据域。

数据域划分需要先对业务系统进行充分调研。将业务过程划分到哪个数据域没有绝对的对错,但是会影响报表开发人员定位数据的效率,所以还需要从开发人员定位效率的角度来进行综合划分。

(编辑:南昌站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读