本发明提出了一种基于数据仓库的标签数据层建设方法和系统,属于数据仓库。
背景技术:
1、在当前的信息化时代,企业的运营和管理越来越依赖于数据。然而,当涉及到同一个对象的各种信息时,我们往往发现这些信息被分散在不同的数据域中,且各自具有不同的数据粒度。这种情况对于了解一个客户的全面信息来说,无疑增加了难度。
2、数据分散的问题导致信息获取的不便。不同的数据域可能由不同的部门或系统维护,它们之间的数据交换和共享往往不够顺畅。这意味着,要获取一个客户的完整信息,可能需要跨越多个部门或系统,进行多次查询和比对。这不仅效率低下,还容易出错,因为不同数据域之间的信息可能存在不一致或重复的情况。
3、其次,数据粒度的不同也增加了信息整合的难度。有些数据可能非常详细,涵盖了客户的各种细节信息;而有些数据则可能相对粗略,只能提供大致的轮廓。在整合这些信息时,需要花费大量的时间和精力进行筛选、清洗和转换,以确保数据的准确性和一致性。
技术实现思路
1、本发明提供了一种基于数据仓库的标签数据层建设方法和系统,用以解决现有技术中的上述技术问题,所采取的技术方案如下:
2、一种基于数据仓库的标签数据层建设方法,所述基于数据仓库的标签数据层建设方法包括:
3、根据业务需求构建所述业务需求对应的数据仓库模型;
4、获取不同数据来源的与所述业务需求对应的数据信息,并将所述数据信息加载至所述数据仓库模型。
5、进一步地,根据业务需求构建所述业务需求对应的数据模型,包括:
6、获取标签数据层建设的目标、需求和约束条件;
7、根据所述目标、需求和约束条件构建与所述业务需求对应的数据仓库模型。
8、进一步地,根据所述目标、需求和约束条件构建与所述业务需求对应的数据仓库模型,包括:
9、明确业务需求,并根据业务需求进行业务主题划分;
10、确定数据仓库中数据的细节级和汇总级;
11、根据业务需求定义存储度量值和维度表,并确定所述存储度量值和维度表之间的关系;
12、针对所述维度表设置层次结构,其中,所述层次结构包括时间维度和地理维度;
13、定义所述数据仓库模型的逻辑模型结构,并根据所述逻辑模型结构定义所述数据仓库模型的表、列和约束条件;
14、按照所述数据仓库模型的逻辑模型结构和所述数据仓库模型的表、列和约束条件构建所述数据仓库模型的逻辑模型。
15、进一步地,获取不同数据来源的与所述业务需求对应的数据信息,并将所述数据信息加载至所述数据仓库模型,包括:
16、确定所需数据的数据来源;其中,所述数据来源包括数据库、数据池和api;
17、调取不同的数据来源的与所述业务需求对应的数据信息;
18、对所述业务需求对应的数据信息进行清洗、格式转换和标准化处理,获取预处理后的数据信息;
19、将所述预处理后的数据信息根据来自不同数据源的标签进行映射和归一化,获得映射归一化之后的数据信息;
20、将所述映射归一化之后的数据信息加载至所述数据仓库模型中。
21、进一步地,基于数据仓库的标签数据层建设方法还包括:
22、根据所述数据信息加载至所述数据仓库模型的数据加载状态判断是否进行数据加载异常报警,包括:
23、实时监控数据信息加载至所述数据仓库模型的数据加载运行参数,其中,所述数据加载运行参数包括加载速度、吞吐量、加载失败率和延迟时长;
24、利用所述数据加载运行参数获取数据信息加载至所述数据仓库模型的运行质量评价参数;其中,所述运行质量评价参数通过如下公式获取:
25、
26、其中,p表示运行质量评价参数;n表示数据加载所经历的单位时间的总个数,并且,所述单位时间为1s;w表示调整系数;bi表示数据加载过程中的第i个单位时间对应的吞吐量;be表示数据加载过程中的额定吞吐量;p表示数据加载的加载失败率;t表示加载失败率补偿系数;ti表示数据加载过程中的第i个单位时间加载单位数据量对应的理论加载时间长度,并且,单位数据量的取值为1mb;δti表示第i个单位时间加载单位数据量对应的延时时长;其中,所述调整系数w通过如下公式获取:
27、
28、其中,vmax表示数据加载过程中出现的加载速度最大值;vi表示数据加载过程中的第i个单位时间的数据加载速度;
29、并且,所述载失败率补偿系数t通过如下公式获取:
30、
31、其中,m表示记载失败的数据加载次数;t0表示预设的单个数据的数据记载时间阈值;tsi表示第i个数据加载失败时对应的加载消耗时长;
32、当所述数据信息加载至所述数据仓库模型的运行质量评价参数低于预设的评价参数阈值时,则判定数据加载异常,并进行数据加载异常报警。
33、一种基于数据仓库的标签数据层建设系统,所述基于数据仓库的标签数据层建设系统包括:
34、数据仓库模型构建模块,用于根据业务需求构建所述业务需求对应的数据仓库模型;
35、数据信息获取模块,用于获取不同数据来源的与所述业务需求对应的数据信息,并将所述数据信息加载至所述数据仓库模型。
36、进一步地,所述数据仓库模型构建模块包括:
37、信息获取模块,用于获取标签数据层建设的目标、需求和约束条件;
38、数据仓库模型构建执行模块,用于根据所述目标、需求和约束条件构建与所述业务需求对应的数据仓库模型。
39、进一步地,所述数据仓库模型构建执行模块,包括:
40、业务主题划分划分模块,用于明确业务需求,并根据业务需求进行业务主题划分;
41、信息确定模块,用于确定数据仓库中数据的细节级和汇总级;
42、定义存储模块,用于根据业务需求定义存储度量值和维度表,并确定所述存储度量值和维度表之间的关系;
43、层次结构设置模块,用于针对所述维度表设置层次结构,其中,所述层次结构包括时间维度和地理维度;
44、信息定义模块,用于定义所述数据仓库模型的逻辑模型结构,并根据所述逻辑模型结构定义所述数据仓库模型的表、列和约束条件;
45、逻辑模型构建模块,用于按照所述数据仓库模型的逻辑模型结构和所述数据仓库模型的表、列和约束条件构建所述数据仓库模型的逻辑模型。
46、进一步地,所述数据信息获取模块,包括:
47、数据来源确定模块,用于确定所需数据的数据来源;其中,所述数据来源包括数据库、数据池和api;
48、数据信息调取模块,用于调取不同的数据来源的与所述业务需求对应的数据信息;
49、数据预处理模块,用于对所述业务需求对应的数据信息进行清洗、格式转换和标准化处理,获取预处理后的数据信息;
50、映射归一化处理模块,用于将所述预处理后的数据信息根据来自不同数据源的标签进行映射和归一化,获得映射归一化之后的数据信息;
51、数据信息加载模块,用于将所述映射归一化之后的数据信息加载至所述数据仓库模型中。
52、进一步地,基于数据仓库的标签数据层建设系统还包括:
53、记载异常报警模块,用于根据所述数据信息加载至所述数据仓库模型的数据加载状态判断是否进行数据加载异常报警,包括:
54、数据加载运行参数实时监测模块,用于实时监控数据信息加载至所述数据仓库模型的数据加载运行参数,其中,所述数据加载运行参数包括加载速度、吞吐量、加载失败率和延迟时长;
55、运行质量评价参数获取模块,用于利用所述数据加载运行参数获取数据信息加载至所述数据仓库模型的运行质量评价参数;其中,所述运行质量评价参数通过如下公式获取:
56、
57、其中,p表示运行质量评价参数;n表示数据加载所经历的单位时间的总个数,并且,所述单位时间为1s;w表示调整系数;bi表示数据加载过程中的第i个单位时间对应的吞吐量;be表示数据加载过程中的额定吞吐量;p表示数据加载的加载失败率;t表示加载失败率补偿系数;ti表示数据加载过程中的第i个单位时间加载单位数据量对应的理论加载时间长度,并且,单位数据量的取值为1mb;δti表示第i个单位时间加载单位数据量对应的延时时长;其中,所述调整系数w通过如下公式获取:
58、
59、其中,vmax表示数据加载过程中出现的加载速度最大值;vi表示数据加载过程中的第i个单位时间的数据加载速度;
60、并且,所述载失败率补偿系数t通过如下公式获取:
61、
62、其中,m表示记载失败的数据加载次数;t0表示预设的单个数据的数据记载时间阈值;tsi表示第i个数据加载失败时对应的加载消耗时长;
63、数据加载异常判定模块,用于当所述数据信息加载至所述数据仓库模型的运行质量评价参数低于预设的评价参数阈值时,则判定数据加载异常,并进行数据加载异常报警。
64、本发明有益效果:
65、本发明提出的一种基于数据仓库的标签数据层建设方法和系统通过标签数据层面向对象建模,把一个对象各种标识打通归一,把跨业务板块、数据域的对象数据在同一个粒度基础上组织起来打到对象上。同时,标签数据层建设,一方面让数据变得可阅读、易理解,方便业务使用;另一方面通过标签类目体系将标签组织排布,以一种适用性更好的组织方式来匹配未来变化的业务场景需求。通过构建统一的数据仓库模型,能够将来自不同数据源的数据整合到一个统一的结构中,从而消除数据冗余和不一致性,提高数据的准确性和可靠性。数据仓库模型经过优化,能够高效地存储和查询数据,使得后续的数据分析和挖掘工作更加迅速和高效。数据仓库能够存储大量的历史数据和实时数据,结合多维分析和数据挖掘技术,可以支持复杂的业务分析和决策制定。基于数据仓库的标签数据层建设,使得企业可以根据业务变化灵活调整数据仓库模型,快速响应市场需求和业务变化。通过集中存储和管理数据,可以避免数据的重复存储和处理,从而节约存储空间和计算资源,降低企业的运营成本
1.一种基于数据仓库的标签数据层建设方法,其特征在于,所述基于数据仓库的标签数据层建设方法包括:
2.根据权利要求1所述基于数据仓库的标签数据层建设方法,其特征在于,根据业务需求构建所述业务需求对应的数据模型,包括:
3.根据权利要求2所述基于数据仓库的标签数据层建设方法,其特征在于,根据所述目标、需求和约束条件构建与所述业务需求对应的数据仓库模型,包括:
4.根据权利要求1所述基于数据仓库的标签数据层建设方法,其特征在于,获取不同数据来源的与所述业务需求对应的数据信息,并将所述数据信息加载至所述数据仓库模型,包括:
5.根据权利要求1所述基于数据仓库的标签数据层建设方法,其特征在于,基于数据仓库的标签数据层建设方法还包括:
6.一种基于数据仓库的标签数据层建设系统,其特征在于,所述基于数据仓库的标签数据层建设系统包括:
7.根据权利要求6所述基于数据仓库的标签数据层建设系统,其特征在于,所述数据仓库模型构建模块包括:
8.根据权利要求7所述基于数据仓库的标签数据层建设系统,其特征在于,所述数据仓库模型构建执行模块,包括:
9.根据权利要求6所述基于数据仓库的标签数据层建设系统,其特征在于,所述数据信息获取模块,包括:
10.根据权利要求6所述基于数据仓库的标签数据层建设系统,其特征在于,基于数据仓库的标签数据层建设系统还包括: