本发明属于复杂系统的安全分析,具体涉及一种融合多种特征的stpa过程模型变量提取方法。
背景技术:
1、系统理论事故模型与过程(systems-theoretic accident model andprocesses,stamp)是由麻省理工大学nancy g.leveson于2004年提出。stamp将传统的因果关系模型扩展到一系列直接相关的故障事件或组件故障之外,以包括更复杂的过程和系统组件之间的不安全交互。leveson在stamp事故模型的基础上,提出了一种具体的危害分析方法——系统理论过程分析(system-theoretic process analysis,stpa)。stpa可分析非常复杂的系统,使得之前仅在运行中才能发现的“未知的未知”可在开发早期识别出来,并且可以得到消除或缓解,预期的和非预期的功能都得到了处理。与传统的危险分析方法不同,stpa可以在早期概念分析中启动,以帮助确定安全要求和制约因素。然后,这些可以用于增加系统架构和设计的安全性,从而消除在开发后期或运行期间识别出设计缺陷时的昂贵返工。
2、随着设计的完善和更详细的设计决策,stpa分析也得到了改进,以帮助做出越来越详细的设计决策。从需求到所有系统工件的完整可追溯性可很容易得到维护,从而增强系统的可维护性和演化能力。stpa在分析中包括软件和人工操作员,从而确保危险分析包括所有潜在的损失因果因素。stpa提供了在大型复杂系统中经常缺失或难以找到的系统功能的文档,可以轻松融入系统工程过程和基于模型的系统工程中。stpa强调系统的控制结构和过程模型。在stpa中,过程模型变量指的是用于描述系统控制结构和过程的可测量因素。这些变量用于分析系统的安全性,识别系统潜在的安全问题和风险。stpa有两个主要步骤:识别潜在的不安全控制行为和不安全控制行为的因果情景分析:
3、一旦识别出系统事故、系统级危险以及相关的安全约束,并确定了安全控制结构,stpa的第一步即可开始,此步骤通过评估系统设计中的安全控制来确定导致危险状态的可能性。为此,考虑没有提供所需的控制动作、提供了不适当的控制动作、在错误的时机提供控制动作和停止太快/作用时间太长四种情况来分析不安全的控制。
4、stpa的第二步旨在通过检查安全控制结构中的每个控制回路来确定每个不安全控制行为的发生原因。通过系统和控制理论的角度来观察安全世界,stpa能够识别更多超出传统组件故障的事故原因。在确定系统中任何已识别问题的解决方案之前,它还强制分析人员深入了解系统,并提供为特定系统选择最佳解决方案的灵活性。它是建立在一个全新和连贯的假设基础上的,以处理当今日益复杂的社会技术系统所面临的问题。潜在不安全控制行为的识别是stpa分析过程中最关键的一步,而过程模型变量的提取则是潜在不安全行为识别中最关键的一步。
5、stpa方法通过构建过程模型层次结构,从系统危险中等信息中提取上下文变量。上下文变量可用于定义设计中的初始过程模型和反馈路径,并在后续的设计迭代中根据需要进行修改。潜在的不安全上下文组合集是通过定义过程模型层次结构得出的,用于识别stpa中较低级别的不安全控制行为。不安全控制行为是指违反系统安全约束的控制行为。控制行为本身并不能提供足够的信息来确定它是安全的还是危险的,还需要其他信息,包括提供控制行为的控制器和给出控制行为的上下文或环境。一旦确定了过程模型变量,就可以通过检查相关过程模型值的每个组合来确定潜在的危险控制操作,并确定在该状态下执行或不执行控制操作是否危险,从中找出与所有过程模型变量相关组合的可能危险的不安全控制操作。因此,提取过程模型变量是stpa分析过程第一步的关键步骤。
6、现有的过程模型变量提取方法主要依靠人工分析,存在人为错误、工作量大、时间成本高等问题。
技术实现思路
1、本发明所要解决的技术问题是针对上述现有技术的不足,提供一种融合多种特征的stpa过程模型变量提取方法。
2、为实现上述技术目的,本发明采取的技术方案为:
3、一种融合多种特征的stpa过程模型变量提取方法,包括:
4、s1:获取系统危险文件文本并对系统危险文件文本进行文本预处理,预处理后的文本中词汇作为粗关键词;
5、s2:对预处理后的文本进行多特征提取与特征权重的计算与融合,得到粗关键词的初始权重;
6、s3:对粗关键词进行相似度计算并构建图结构,结合粗关键词的初始权重对图进行节点的权重迭代,得到粗关键词的综合权重;
7、s4:筛选出综合权重排前n的关键词作为过程模型变量输出。
8、为优化上述技术方案,采取的具体措施还包括:
9、上述的s1所述文本预处理包括去除标点符号,分词,词性标注,停用词、词性以及词长过滤,基于领域规则的文本处理。
10、上述的基于领域规则的文本处理包括:
11、基于领域相关的停用词、关键词列表,过滤掉与领域无关的词汇;
12、引入领域相关的扩展词汇,将扩展词汇添加到文本中;
13、基于领域内的专业术语、关键短语、领域特定的语法结构所制定的关键词提取规则提取与领域相关的关键词汇。
14、上述的s2对预处理后文本进行多特征提取并计算每一特征的权重,融合不同特征的权重计算结果,得到粗关键词的初始权重;所述多特征包括词汇的tf-idf、位置、跨度、领域关联度。
15、上述的初始权重w_final计算公式为:
16、w_final=(αwtfidf+βwseg)*λwpos*θwfei
17、其中,wtfidf、wseg、wpos、wfei分别为tf-idf权重、跨度权重、位置权重、领域关联度权重;
18、α、β、λ、θ分别为的wtfidf、wseg、wpos、wfei系数。
19、上述的s3包括:
20、1)对于每个词,计算其与其他词的相似度;
21、2)以词作为节点,相似度作为边,每个词的tf-idf权重作为节点的初始权重构建图结构;
22、3)对图进行节点的权重迭代,获取每个节点的最终权重,即为各粗关键词的综合权重。
23、上述的相似度的计算公式为:
24、jaccard(a,b)=|a∩b|/|a∪b|
25、其中jaccard(a,b)为相似度;
26、a和b分别表示两个词的句子集合;
27、|a∩b|表示两个集合的交集的大小;
28、|a∪b|表示两个集合的并集的大小。
29、上述的节点的权重迭代公式为:
30、
31、其中ws(vi)表示节点vi的textrank值;
32、d为阻尼系数,取值范围是[0,1];
33、in(vi)表示指向节点vi的所有词语集合;
34、w(vj,vi)表示节点vj、节点vi间的转移概率。
35、上述的w(vj,vi)的计算公式为:
36、
37、其中out(vi)表示节点vi指向的所有词语的集合;
38、wfinal(vi)、wfinal(vl)表示节点vi、节点vl的初始权重。
39、本发明具有以下有益效果:
40、1.相比于手动分析和人工提取,本发明可自动实现stpa过程模型变量提取,自动化方法可以快速地处理大量的数据,并从中提取出关键变量,节省了大量的时间和资源,且人工分析和提取过程模型变量容易受到主观性和人为误差的影响。
41、2.自动化方法通过使用算法和技术,能够以客观的方式进行分析,减少了人为误差的风险,提高了提取结果的准确性和一致性。
42、3.在大型系统或复杂领域中,自动化方法可以有效地处理这些大规模数据,可应用于处理大量数据和复杂系统的关键工具,为系统安全性分析和风险评估提供了更强大的支持。
1.一种融合多种特征的stpa过程模型变量提取方法,其特征在于,包括:
2.根据权利要求1所述的一种融合多种特征的stpa过程模型变量提取方法,其特征在于,s1所述文本预处理包括去除标点符号,分词,词性标注,停用词、词性以及词长过滤,基于领域规则的文本处理。
3.根据权利要求1所述的一种融合多种特征的stpa过程模型变量提取方法,其特征在于,所述基于领域规则的文本处理包括:
4.根据权利要求1所述的一种融合多种特征的stpa过程模型变量提取方法,其特征在于,所述s2对预处理后文本进行多特征提取并计算每一特征的权重,融合不同特征的权重计算结果,得到粗关键词的初始权重;所述多特征包括词汇的tf-idf、位置、跨度、领域关联度。
5.根据权利要求1所述的一种融合多种特征的stpa过程模型变量提取方法,其特征在于,所述初始权重w_final计算公式为:
6.根据权利要求1所述的一种融合多种特征的stpa过程模型变量提取方法,其特征在于,所述s3包括:
7.根据权利要求6所述的一种融合多种特征的stpa过程模型变量提取方法,其特征在于,所述相似度的计算公式为:
8.根据权利要求6所述的一种融合多种特征的stpa过程模型变量提取方法,其特征在于,所述节点的权重迭代公式为:
9.根据权利要求8所述的一种融合多种特征的stpa过程模型变量提取方法,其特征在于,w(vj,vi)的计算公式为:
