多社交媒体平台的不同字段统一计算方法及装置与流程

专利2025-12-22  12


本发明涉及数据处理,尤其涉及一种多社交媒体平台的不同字段统一计算方法、装置及电子设备。


背景技术:

1、社交媒体平台数据指标的数据格式多样,每个平台可能采用不同的数据结构和表示方法,导致数据格式之间存在较大差异。这可能是因为各个平台在设计数据格式时考虑到了各自的需求和特点,缺乏统一的标准。

2、来自不同社交媒体平台的数据质量参差不齐,部分数据可能存在缺失值、异常值,无兼容处理并且缺乏统一计算输出的方法。

3、目前缺乏一种通用的、适用于多个平台的指标计算算法。这可能是因为不同平台的业务模式、数据特点和运营策略各不相同,导致无法找到一种适用于所有平台的通用算法。

4、上述问题成为需要解决的技术问题。


技术实现思路

1、有鉴于此,本发明实施例提供一种多社交媒体平台的不同字段统一计算方法、装置及电子设备,至少部分解决现有技术中存在的问题。

2、第一方面,本发明实施例提供了一种多社交媒体平台的不同字段统一计算方法,包括:

3、将多社交媒体平台中各平台的字段集合存放在一个json文件中,所述字段集合包含表名、数据源、时间过滤字段和业务逻辑字段;

4、将接收到的json格式字段集合转换为key-value形式的预处理数据,对所述预处理数据通过@dataclass的_post_init_方法自动进行字段初始化操作,得到初始化数据;

5、针对所述初始化数据执行类field格式校验,所述执行类field格式校验包含必传字段校验、字段格式校验、字段值范围校验、数据表在库中存在性校验以及数据字段在表中存在性校验;

6、所述初始化数据执行类field格式校验之后,根据不同的数据源以及类field自动生成相应规范的sql语句;

7、根据自定义的阈值以及数据源的量级,将所述sql语句拆分成多个sql语句,将拆分后的多个sql语句使用异步操作库进行异步获取操作,从数据源中获取到相应的数据,进而计算组装成基础的数据结构。

8、根据本公开实施例的一种具体实现方式,所述将多社交媒体平台中各平台的字段集合存放在一个json文件中,包括:

9、用platforms 描述各平台对象名称,每个平台对象都包含metadata、database和fields三个部分,metadata 包含平台的元数据,包括名称、描述和版本信息,database 包含与数据库相关的信息,包括表名和数据源,fields用于细分不同类型的字段,包括时间戳、内容和用户信息;

10、在fields中,不同类型的字段被组织在不同的对象中,每种类型的字段下面包含了具体的字段名,这些字段名代表了存储在数据库中的实际列名,特定字段以数组的形式存储,用于在特定字段中存储多个值。

11、根据本公开实施例的一种具体实现方式,所述将接收到的json格式字段集合转换为key-value形式的预处理数据,对所述预处理数据通过@dataclass的_post_init_方法自动进行字段初始化操作,得到初始化数据,包括:

12、接收json格式的字符串表示的字段集合;

13、使用python的json库来解析json格式的字符串,将其转换为一个python字典,所述python字典表示key-value形式的预处理数据。

14、根据本公开实施例的一种具体实现方式,所述将接收到的json格式字段集合转换为key-value形式的预处理数据,对所述预处理数据通过@dataclass的_post_init_方法自动进行字段初始化操作,得到初始化数据,还包括:

15、使用@dataclass装饰器定义一个python类,所述python类具有与json字段相对应的属性和方法;

16、在创建这个python类的实例时,利用__init__方法根据json数据自动设置属性值。

17、根据本公开实施例的一种具体实现方式,所述针对所述初始化数据执行类field格式校验,包括:

18、通过检查数据字典或类的属性列表,并与初始化数据中的键进行比较,确保所有定义为必传的字段在初始化数据中都已经提供,如果发现缺失的必传字段,抛出异常或返回错误提示;

19、对于每个字段,定义其期望的格式,使用python的内置函数或第三方库来验证初始化数据中每个字段的格式是否符合预期;

20、检查特定字段是否具有特定的值范围,检查初始化数据中的字段值是否落在这些范围内;

21、连接到数据库,执行一个select语句,尝试从目标表中检索数据,或者执行一个特定的元数据查询来列出所有表并检查所需表是否在列表中;

22、通过执行一个包含所有字段的insert或update语句,验证初始化数据中的每个字段是否确实存在于目标数据表中。

23、根据本公开实施例的一种具体实现方式,所述根据不同的数据源以及类field自动生成相应规范的sql语句,包括:

24、通过在field类中定义存储了数据源中对应的字段名或列名的属性,为每个field实例分配一个对应的数据源字段名或列名,从而定义类field与数据源之间的映射关系;

25、预先定义包含占位符sql模板,用于在运行时替换为实际的字段名和值;

26、根据校验后的数据和类field的定义,遍历field的实例,并根据映射关系获取对应的数据源字段名,将这些字段名填充到sql模板的占位符中,将初始化数据中的值转换为sql语句的格式。

27、根据本公开实施例的一种具体实现方式,所述根据不同的数据源以及类field自动生成相应规范的sql语句,还包括:

28、定义类field,所述类field包含字段名、数据类型以及是否必传;

29、对初始化数据进行类field格式校验,确保数据的正确性,根据所需的操作,预定义sql模板,根据类field的定义和数据源信息,建立字段映射关系;

30、对于每个字段,根据字段映射关系,获取数据源中的列名,根据字段的数据类型,对初始化数据中的值进行格式化或转义处理,将列名和格式化后的值替换到sql模板的占位符中,将所有字段的替换结果组合成完整的sql语句。

31、根据本公开实施例的一种具体实现方式,所述根据自定义的阈值以及数据源的量级,将所述sql语句拆分成多个sql语句,将拆分后的多个sql语句使用异步操作库进行异步获取操作,包括:

32、根据自定义的阈值和数据源的量级,确定sql语句的拆分策略,包括:将insert语句拆分成多个包含固定数量的记录的insert语句,将原始的sql语句拆分成多个小的sql语句,将where子句中的条件拆分成多个部分,将insert语句中的values列表拆分成多个子列表;

33、使用异步操作库创建异步任务,每个任务负责执行一个拆分后的sql语句,对于每个异步任务或协程,捕获并处理发生的异常,收集并整合所有任务的执行结果,在所有异步任务完成后,关闭异步环境。

34、第二方面,本发明实施例提供了一种多社交媒体平台的不同字段统一计算装置,包括:

35、设置模块,将多社交媒体平台中各平台的字段集合存放在一个json文件中,所述字段集合包含表名、数据源、时间过滤字段和业务逻辑字段;

36、转换模块,将接收到的json格式字段集合转换为key-value形式的预处理数据,对所述预处理数据通过@dataclass的_post_init_方法自动进行字段初始化操作,得到初始化数据;

37、校验模块,针对所述初始化数据执行类field格式校验,所述执行类field格式校验包含必传字段校验、字段格式校验、字段值范围校验、数据表在库中存在性校验以及数据字段在表中存在性校验;

38、生成模块,所述初始化数据执行类field格式校验之后,根据不同的数据源以及类field自动生成相应规范的sql语句;

39、组装模块,根据自定义的阈值以及数据源的量级,将所述sql语句拆分成多个sql语句,将拆分后的多个sql语句使用异步操作库进行异步获取操作,从数据源中获取到相应的数据,进而计算组装成基础的数据结构。

40、第三方面,本发明实施例还提供了一种电子设备,该电子设备包括:

41、至少一个处理器;以及,

42、与该至少一个处理器通信连接的存储器;其中,

43、该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行前述任第一方面或第一方面的任一实现方式中的多社交媒体平台的不同字段统一计算方法。

44、第四方面,本发明实施例还提供了一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令用于使该计算机执行前述第一方面或第一方面的任一实现方式中的多社交媒体平台的不同字段统一计算方法。

45、第五方面,本发明实施例还提供了一种计算机程序产品,该计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序,该计算机程序包括程序指令,当该程序指令被计算机执行时,使该计算机执行前述第一方面或第一方面的任一实现方式中的多社交媒体平台的不同字段统一计算方法。

46、本发明实施例中的多社交媒体平台的不同字段统一计算方案,包括:将多社交媒体平台中各平台的字段集合存放在一个json文件中,所述字段集合包含表名、数据源、时间过滤字段和业务逻辑字段;

47、将接收到的json格式字段集合转换为key-value形式的预处理数据,对所述预处理数据通过@dataclass的_post_init_方法自动进行字段初始化操作,得到初始化数据;针对所述初始化数据执行类field格式校验,所述执行类field格式校验包含必传字段校验、字段格式校验、字段值范围校验、数据表在库中存在性校验以及数据字段在表中存在性校验;所述初始化数据执行类field格式校验之后,根据不同的数据源以及类field自动生成相应规范的sql语句;根据自定义的阈值以及数据源的量级,将所述sql语句拆分成多个sql语句,将拆分后的多个sql语句使用异步操作库进行异步获取操作,从数据源中获取到相应的数据,进而计算组装成基础的数据结构。本方案采用高效且便利的方式来统一计算多个社交媒体平台的指标字段数据,此方法具有高复用性且提高了数据的可比性和分析的准确性。


技术特征:

1.一种多社交媒体平台的不同字段统一计算方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述将多社交媒体平台中各平台的字段集合存放在一个json文件中,包括:

3.根据权利要求2所述的方法,其特征在于,所述将接收到的json格式字段集合转换为key-value形式的预处理数据,对所述预处理数据通过@dataclass的_post_init_方法自动进行字段初始化操作,得到初始化数据,包括:

4.根据权利要求3所述的方法,其特征在于,所述将接收到的json格式字段集合转换为key-value形式的预处理数据,对所述预处理数据通过@dataclass的_post_init_方法自动进行字段初始化操作,得到初始化数据,还包括:

5.根据权利要求4所述的方法,其特征在于,所述针对所述初始化数据执行类field格式校验,包括:

6.根据权利要求5所述的方法,其特征在于,所述根据不同的数据源以及类field自动生成相应规范的sql语句,包括:

7.根据权利要求6所述的方法,其特征在于,所述根据不同的数据源以及类field自动生成相应规范的sql语句,还包括:

8.根据权利要求7所述的方法,其特征在于,所述根据自定义的阈值以及数据源的量级,将所述sql语句拆分成多个sql语句,将拆分后的多个sql语句使用异步操作库进行异步获取操作,包括:

9.一种多社交媒体平台的不同字段统一计算装置,其特征在于,包括:

10.一种电子设备,其特征在于,所述电子设备包括:


技术总结
本发明实施例中提供了一种多社交媒体平台的不同字段统一计算方法、装置及电子设备,属于数据处理技术领域,该方法包括:将多社交媒体平台中各平台的字段集合存放在一个JSON文件中;将接收到的JSON格式字段集合转换为key‑value形式的预处理数据;针对初始化数据执行类Field格式校验;所述初始化数据执行类Field格式校验之后,根据不同的数据源以及类Field自动生成相应规范的SQL语句;根据自定义的阈值以及数据源的量级,将所述SQL语句拆分成多个SQL语句,将拆分后的多个SQL语句使用异步操作库进行异步获取操作,从数据源中获取到相应的数据,进而计算组装成基础的数据结构。本方案具有高复用性且提高了数据的可比性和分析的准确性。

技术研发人员:郑宇,牛策策,纪啸峥,李蕾
受保护的技术使用者:一网互通(北京)科技有限公司
技术研发日:
技术公布日:2024/6/26
转载请注明原文地址:https://doc.8miu.com/index.php/read-1825784.html

最新回复(0)