信息处理装置、信息处理装置的控制方法、程序、计算装置和计算方法与流程

专利2022-05-09  64



1.本发明涉及信息处理装置、信息处理装置的控制方法、程序、计算装置和计算方法。


背景技术:

2.频谱分析被广泛用作识别各种样品中包含的特定成分(以下称为“受试物”)的浓度和量的方法。在频谱分析中,检测当对样品施加某种刺激时表现出的响应,并且可以基于所获取的信号来获取关于形成样品的成分的信息(频谱信息)。频谱信息是包括光的电磁波的强度,以及温度、质量和各自具有特定质量的碎片的计数,这些特征表征了刺激和响应。频谱分析还包括使用电子碰撞作为刺激并且记录通过分解生成的碎片的质量的量,从而获取信息,例如结构。
3.频谱分析还包括如下方法,其中使用成分之间在3d尺寸、电荷和亲水性/疏水性上的差异来预先尝试分离,然后辐射电磁波,从而执行分析。该方法称为“分离分析”。例如,在高效液相色谱法(以下称为“hplc”)中,优化诸如柱型、流动相、温度和流速的分析条件,从而分离受试物和其他物质(以下称为“杂质”)。之后,测量各种分离的受试物的频谱,从而能够识别浓度和量。此外,当难以从杂质中分离时,可以执行用于去除一部分杂质的预处理,或者可以考虑优化分离条件。当无法通过预处理和优化分离条件分离杂质时,通过计算处理尝试峰分割。
4.作为现有技术的峰分割方法,存在设置基线的方法(图5)、通过使用峰之间的最小值垂直分割频谱的方法(图6)、以及通过最小二乘法拟合适当的函数(例如,高斯函数)从而分割频谱的方法,如专利文献1和专利文献2中所述。
5.hplc通常用于分析源自活体的样品。但是,源自活体的样品(诸如尿液和血液)含有大量的杂质,并且可能含有源自摄入物质的未知杂质。因此,需要操作人员考虑用于从杂质中分离受试物的分离条件和预处理、峰分割方法等。
6.此外,经常存在如下情况:在食品中的农药残留的分析、环境分析杂质等中的样品中含有大量的杂质。因此,迫切需要一种方法,使得即使是初学者也可以简单而准确地分析含有杂质的样品中的受试物,而无需进行预处理。
7.引用列表
8.专利文献
9.ptl 1:日本特开平第06

324029号公报
10.ptl 2:日本特开第2006

177980号公报
11.ptl 3:日本特开第2018

152000号公报


技术实现要素:

12.技术问题
13.如上所述,迄今为止,为了从频谱信息中获取与受试物有关的信息,需要用于分离杂质的预处理和计算处理,例如峰分割方法。
14.解决问题的技术方案
15.为了解决上述问题,根据本发明的一方面,提供了一种信息处理装置,其包括:信息获取部,其用于获取通过将包含受试物和杂质的样品的频谱信息输入到学习模型中而估计的所述受试物的定量信息,其中,基于根据所述受试物的频谱信息而生成的用于学习的频谱信息,来生成所述学习模型。
16.此外,根据本发明的另一方面,提供了一种信息处理装置的控制方法,所述控制方法包括:信息获取步骤,获取通过将包含受试物和杂质的样品的频谱信息输入到学习模型中而估计的所述受试物的定量信息,其中,基于根据所述受试物的频谱信息而生成的用于学习的频谱信息,来生成所述学习模型。
17.为了解决上述问题,根据本发明的另一方面,提供了一种计算装置,其包括:接收单元,其被构造为接收包含受试物的样品的频谱信息;获取单元,其被构造为获取与受试物的频谱信息有关的学习模型;以及计算单元,其被构造为基于样品的频谱信息和学习模型来计算受试物的定量信息。
18.此外,根据本发明的另一方面,提供了一种计算方法,其包括:接收步骤,接收包含受试物的样品的频谱信息;获取步骤,获取与受试物的频谱信息有关的学习模型;以及计算步骤,基于样品的频谱信息和学习模型来计算受试物的定量信息。
19.本发明的有利效果
20.根据本发明的信息处理装置和计算装置,可以从频谱信息中获取关于受试物的高精度信息,而无需进行用于分离杂质的预处理和计算处理,例如,峰分割方法。
附图说明
21.图1是根据本发明的第一实施例的信息处理装置的示意性框图。
22.图2是本发明的第一实施例中的与学习模型的生成有关的处理过程的流程图的示例。
23.图3是本发明的第一实施例中的用于获取受试物的定量信息的处理过程的流程图的示例。
24.图4是本发明的第一实施例中的用于计算样品中的受试物的量的处理的流程图的示例。
25.图5是用于示出设置基线的现有技术峰分割方法的示例的曲线图。
26.图6是用于示出通过使用峰之间的最小值垂直分割频谱的现有技术峰分割方法的示例的曲线图。
27.图7是根据本发明的第二实施例的计算装置的示意性框图。
28.图8是本发明的第二实施例中的用于计算样品中的受试物的量的处理的流程图的示例。
29.图9是用于示出本发明的示例1中的包括三种类型的受试物的色谱的示例的曲线图。
30.图10是用于示出除了本发明的示例1中的三种类型的受试物以外还包括多种不同
成分的色谱的示例的曲线图。
31.图11示出了用于示出本发明的示例1中的通过使用学习模型对受试物的峰高的预测结果的曲线图。
32.图12示出了用于示出本发明的示例2中的频谱信息的分割方法的曲线图。
33.图13示出了用于示出本发明的示例2中的通过使用学习模型对受试物的峰高的预测结果的曲线图。
34.图14示出了用于示出本发明的示例3中的通过使用学习模型对受试物的峰高的预测结果的曲线图。
35.图15是用于示出本发明的示例4中的根据峰高来预测相关信息的学习模型的示例的图。
36.图16示出了用于示出本发明的示例4中的根据峰高的相关信息的预测结果的曲线图。
37.图17是用于示出本发明的示例5中的通过使用学习模型对受试物的峰高的预测结果的曲线图。
38.图18是用于示出通过使用现有技术方法(图5)对受试物的峰高的预测结果的曲线图。
39.图19示出了用于示出本发明的示例6中的通过hplc分析获取的色谱的曲线图。
40.图20是用于示出本发明的示例6中的通过使用学习模型对受试物的峰高的预测结果的曲线图。
41.图21示出了用于示出本发明的示例7中获取的色谱的曲线图。
42.图22是用于示出本发明的示例7中的通过使用学习模型对受试物的峰高的预测结果的曲线图。
具体实施方式
43.(第一实施例)
44.参照附图描述本发明的实施例。本发明的范围不限于以下描述的各实施例。
45.在描述本实施例之前,首先描述术语。
46.(样品)
47.该实施例中的样品是被构造为包含多种化合物的混合物。在该实施例中,对样品没有特别限制,只要样品是包含受试物和任何其他物质(杂质)的混合物即可。另外,不需要规定混合物的成分,也可以包含未知成分。例如,样品可以是源自活体的混合物(诸如血液、尿液或唾液),或者可以是食物和饮料。对源自活体的样品的分析对了解样品供体的营养和健康状况提供了线索,因此具有医学和营养价值。例如,尿中的维生素b3与碳水化合物、脂质和蛋白质的代谢以及能量的产生有关,因此对n1

甲基
‑2‑
吡啶酮
‑5‑
羧酰胺(其是维生素b3的尿中代谢物)的测量对于维持身体健康的营养指导很有用。
48.(受试物)
49.该实施例中的受试物包括样品中包含的一种或更多种已知成分。例如,受试物是从由蛋白质、dna、病毒、真菌、水溶性维生素、脂溶性维生素、有机酸、脂肪酸、氨基酸、糖、农药和内分泌干扰物组成的组中选择的至少一种。
50.例如,当要弄清营养物的量时,可以使用水溶性维生素(诸如硫胺素(维生素b1)、核黄素(维生素b2)、分别作为维生素b3的代谢物的n1

甲基烟酰胺和n1

甲基
‑2‑
吡啶酮
‑5‑
羧酰胺、作为维生素b6的代谢物的4

吡哆酸、n1

甲基
‑4‑
吡啶酮
‑3‑
羧酰胺、泛酸(维生素b5)、吡哆醇(维生素b6)、生物素(维生素b7)、蝶酸单麸胺酸(维生素b9)、氰钴胺(维生素b12)和抗坏血酸(维生素c))、氨基酸(诸如l

色氨酸、赖氨酸、蛋氨酸、苯丙氨酸、苏氨酸、缬氨酸、亮氨酸、异亮氨酸和l组氨酸)、以及矿物质(诸如钠、钾、钙、镁和磷)作为受试物。
51.(定量信息)
52.在本实施例中,例如,可以使用样品中包含的受试物的量、样品中包含的受试物的浓度、或者样品中受试物的有无,作为定量信息。另外,例如,可以使用样品中的受试物的浓度或量相对于受试物的基准量的比率、或者样品中包含的受试物的量之间或受试物品的浓度之间的比率,作为受试物的其他定量信息。
53.(频谱信息)
54.本实施例中的频谱信息是从由色谱、光电子频谱、红外吸收频谱(ir频谱)、核磁共振频谱(nmr频谱)、荧光频谱、荧光x

射线频谱、紫外/可见吸收频谱(uv/vis频谱)、拉曼频谱、原子吸收频谱、火焰发射频谱、光学发射频谱、x射线吸收频谱、x射线衍射频谱、顺磁共振吸收频谱、电子自旋共振频谱、质谱和热分析频谱组成的组中选择的至少一种。
55.(信息处理系统和信息处理装置)
56.现在参照图1描述该实施例中的信息处理系统。图1是用于示出根据本实施例的包括信息处理装置的信息处理系统的整体构造的图。
57.信息处理系统包括信息处理装置10、数据库22和分析装置23。信息处理装置10和数据库22彼此连接,以通过通信部进行通信。在该实施例中,通信部由局域网(lan)21形成。此外,信息处理装置10和分析装置23通过符合标准(例如,通用串行总线(usb))的通信部彼此连接。lan可以是有线lan或无线lan,也可以是广域网(wan)。而且,usb可以是lan。
58.数据库22管理通过分析装置23的分析而获取的频谱信息。此外,数据库22管理由下述学习模型生成单元42生成的学习模型(已学习模型)。信息处理装置10通过lan 21获取由数据库22管理的频谱信息和学习模型。
59.(学习模型)
60.该实施例中的学习模型是回归学习模型,并且可以使用通过机器学习(例如深度学习)生成的回归学习模型。这里,将以使得通过将训练数据应用于机器学习算法来执行学习以进行适当估计的方式建立的学习模型称为“学习模型”。有多种类型的机器学习算法将用于学习模型。例如,可以使用利用神经网络的深度学习。神经网络由输入层、输出层和多个隐藏层形成。这些层通过称为“激活函数”的计算表达式彼此连接。当使用加标签(对应于输入的输出)的训练数据时,确定激活函数的系数,使得满足输入与输出之间的关系。通过使用多个训练数据来确定系数,可以生成能够高度准确地预测与输入相对应的输出的学习模型。
61.(分析装置)
62.分析装置23是被构造为分析样品、受试物等的装置。分析装置23对应于分析部的示例。在本实施例中,如上所述,信息处理装置10和分析装置23可通信地彼此连接。然而,信息处理装置10可以在内部包括分析装置23,或者分析装置23可以在内部包括信息处理装置
10。此外,分析结果(频谱信息)可以通过记录介质(例如非易失性存储器)从分析装置23传递到信息处理装置10。
63.不对本实施例中的分析装置23进行限制,只要该分析装置能够获取频谱信息即可,并且可以使用被构造为使用化学分析方法或物理分析方法的装置。在该实施例中,被构造为使用化学分析方法的装置被构造为使用从由色谱法(诸如液相色谱法和气相色谱法)和毛细管电泳法组成的组中选择的至少一种方法。在该实施例中,被构造为使用物理分析方法的装置被构造为使用从由光电子频谱法、红外吸收频谱法、核磁共振频谱法、荧光频谱法、荧光x射线频谱法、可见/紫外吸收频谱法、拉曼频谱法、原子吸收频谱法、火焰发射频谱法、光发射频谱法、x射线吸收频谱法、x射线衍射法、使用顺磁共振吸收等的电子自旋共振频谱法、质谱法和热分析组成的组中选择的至少一种方法。
64.例如,被构造为使用液相色谱法的装置包括流动相容器、液体进给泵、样品注入单元、柱、检测器和a/d转换器。例如,使用利用例如紫外光、可见光或红外光的电磁波检测器,电化学检测器或离子检测器,作为检测器。在这种情况下,所得频谱信息是关于检测器相对于时间的输出强度的信息。
65.信息处理装置10包括通信接口(if)31、rom 32、ram 33、存储单元34、操作单元35、显示单元36和控制单元37,作为其功能部件。
66.通信接口(if)31例如由lan卡和用于usb的接口卡实现。通信if 31通过lan 21和usb管理外部装置(诸如数据库22和分析装置23)与信息处理装置10之间的通信。只读存储器(rom)32由非易失性存储器等实现,并且存储各种类型的程序等。随机存取存储器(ram)33由易失性存储器等实现,并且临时存储各种类型的信息。存储单元34例如由硬盘驱动器(hdd)等实现,并且存储各种类型的信息。操作单元35例如由键盘、鼠标等实现,并且将来自用户的指令输入到装置中。显示单元36例如由显示器等实现,并且向用户显示各种类型的信息。操作单元35和显示单元36通过来自控制单元37的控制来提供作为图形用户界面(gui)的功能。
67.(控制单元)
68.控制单元37例如由至少一个中央处理单元(cpu)等实现,并且集成和控制在信息处理装置10中进行的处理。控制单元37包括频谱信息获取单元41、学习模型生成单元42、学习模型获取单元43、估计单元44、信息获取单元45和显示控制单元46,作为其功能部件。
69.(频谱信息获取单元)
70.频谱信息获取单元41从分析装置23获取至少包含受试物和杂质的样品的分析结果,具体地,关于样品的频谱信息。频谱信息获取单元41从预先存储分析结果的数据库22获取关于样品的频谱信息。此外,频谱信息获取单元41类似地获取关于受试物的频谱信息。关于受试物的频谱信息是仅存在受试物时的频谱信息。此后,频谱信息获取单元41将所获取的关于样品的频谱信息输出到估计单元44。此外,频谱信息获取单元41将所获取的关于受试物的频谱信息输出到学习模型生成单元42。这里描述了样品中含有多种类型的受试物的情况,但受试物的类型数量可以是一种。
71.(分割单元)
72.本实施例中的频谱信息获取单元41还可以包括分割单元(未示出),该分割单元被构造为分割关于样品的频谱信息。分割单元可以将关于包含受试物和杂质的样品的频谱信
息分割为关于各受试物的频谱信息。
73.将关于样品的频谱信息分割为多个频谱信息的方法的示例是由用户指定频谱信息的分割地点的方法。例如,存在针对各受试物指定频谱范围的方法、以及针对各受试物指定频谱中心的方法,从而提取中心之前和之后的一定范围。指定中心的方法包括预先设置要提取的范围的方法和根据频谱信息中的位置(在频谱信息是色谱的情况下的保留时间)自动确定要提取的范围的方法。例如,当通过例如液相色谱法获取色谱时,随着保留时间变长,色谱更可能变宽,因此仅需要扩展提取范围即可。即,仅需要根据色谱的保留时间来改变要从色谱提取的范围。例如,当具有出现在色谱中与较长的保留时间相对应的位置处的峰的受试物被处理时,仅需要扩展要从色谱中提取的范围即可。
74.将关于样品的频谱信息分割成多个频谱信息的方法的另一示例是自动确定频谱信息的分割地点的方法。例如,针对频谱信息设置阈值,并且当超过该阈值时,可以确定关于受试物的频谱信息存在于超过的位置。例如,对于具有高斯分布的频谱信息,超过阈值的两点之间的中心点是频谱信息的峰中心。根据峰中心获得峰高,并且可以根据半最大值全宽获取标准偏差(σ)。在该方法中,优选基于“σ”设置要从峰中心提取的范围。优选地,要提取的范围是从大约
±
2σ到大约
±
4σ。
75.关于提取频谱信息的范围,最佳范围很可能根据受试物的类型而改变。因此,在确定提取范围之后,可以通过以下描述的生成单元来创建学习模型。然后,可以确认精度,之后可以校正提取范围。具体地,在确定提取范围之后,在该范围内提取频谱信息,并且由以下描述的生成单元创建学习模型。通过将噪声添加到提取的频谱信息(a)中而获得的总和(b)被输入到创建的学习模型中,并获得输出c与频谱信息a(诸如峰高和峰面积)之间的相关系数。改变提取范围,并且通过相同方法确认相关系数。然后,可以根据相关系数的变化来确定是增大还是减小提取范围。
76.此外,当要分割频谱信息时,可以使用机器学习。通过学习各种类型的频谱信息的分割地点,可以将频谱信息分割为各受试物的频谱信息。
77.(学习模型生成单元)
78.学习模型生成单元42通过使用由频谱信息获取单元41获取的关于受试物的频谱信息来生成训练数据。之后,学习模型生成单元42通过使用训练数据执行深度学习,从而生成学习模型。训练数据的生成和学习模型的生成在下面详细描述。之后,学习模型生成单元42将所生成的学习模型输出到学习模型获取单元43。学习模型生成单元42可将所生成的学习模型输出至数据库22。
79.现在描述学习模型的生成方法的示例。首先,从包含受试物的分析结果中提取各受试物的信息的地点。提取方法与上述分割单元中的分割方法相同。结果,当已经在分割单元中预先分割了频谱信息时,不需要再次提取信息的地点。当尚未分割频谱信息时,通过与分割单元的方法相同的方法从频谱信息中提取各受试物的频谱。基于各受试物的提取的信息(峰位置),生成包含关于各受试物的信息的增加/减少量的数据。例如,当存在三个受试物a、b和c的峰时,生成了受试物a的原始峰高的0倍、0.2倍、0.4倍、0.6倍、0.8倍、1.2倍、1.4倍、1.6倍和1.8倍的峰形。类似地,对于受试物b和c也生成这些峰形。在该示例中,生成各受试物的10种峰形。优选地,要生成的峰形对应于包括受试物的预期范围。此外,随着要生成的峰形的数量增加,学习模型的精度提高。
80.大致存在两种用于生成学习模型的方法。
81.一种方法是使用通过组合各受试物的生成峰而获得的训练数据。在上述示例中,存在三种成分,即受试物a、b和c,因此总组合数为10
×
10
×
10=1,000。通过将基于随机数生成的任意波形添加到组合中,来生成输入用数据。作为输出用数据,准备用于输入用数据的各受试物的峰高,并将输入数据和输出数据的组合用作训练数据。在这种情况下,将生成一个学习模型。
82.另一种方法是针对各受试物的生成峰生成学习模型。针对各受试物准备的峰高用作输出。作为输入用数据,准备通过将根据随机数生成的任意波形与针对各受试物准备的峰形相加而获得的总和。准备的输入数据和输出数据用作训练数据。在这种情况下,将针对各受试物生成一个学习模型,因此,在上述示例中,将生成三个学习模型。
83.在任何一种方法中,要根据随机数生成的任何波形都是基于在各分析方法中获取的信息。例如,通过液相色谱法获取的频谱信息通常呈现高斯分布。在这种情况下,优选地,训练数据包括输入和输出,该输入通过将各自具有根据随机数确定的峰高、中值和标准偏差的多个高斯曲线彼此相加并进一步添加受试物的分析结果来获得,该输出由受试物的分析结果形成。输出可以仅由期望获得的信息(例如,峰高)形成。更具体地,优选地,要添加的高斯曲线的数量是在色谱上不能使高斯曲线彼此分离并且高斯曲线的峰因此很可能交叠的数量。对于一个受试物,足够的数量通常约为2到8。当数量超过8时,难以估计受试物的峰的形状,并且定量精度降低。当数量为3或更少时,对于分离不充分的色谱无法实现准确的定量。数量优选为3至6,更优选为4或5。任何波形的形状都是由表达式1给出的高斯函数。
84.[等式1]
[0085][0086]
在该表达式中,“a”是相对于受试物的预期峰高从0开始的x%处的值。值“b”是最大为修剪范围的x%的值(例如,当修剪距受试物的峰中心
±
3σ的范围时,“b”是


×
x%至 8σ
×
x%范围内的任意值),并根据随机数确定。值“x”为100至300,优选为100至250,更优选为100至200。优选根据相对于受试物的峰的标准偏差的0.1倍至10倍(优选为0.2倍至8倍,更优选为0.5倍至5倍)的值的范围内的随机数来确定值“c”。对于各受试物,将多个任意波形彼此相加,然后,通过形成一组相加的波形和要获得的值(例如,多个受试物的峰高)来获得训练数据的一种组合。准备了训练数据的大约1,000至2,000种组合。针对具有不同含量的相同受试物的组合的峰来创建相似的训练数据。优选地,准备由大约5至10种类型的、具有不同含量的受试物形成的大约5,000至20,000个训练数据。
[0087]
此外,可以根据要被添加波形的频谱信息的位置来准备根据随机数生成的任何波形。例如,在液相色谱法中,随着峰的保留时间变长,该峰更可能变宽。通过将根据随机数生成的任何波形的标准偏差设置为时间的函数,并随着保留时间变长而增大标准偏差,可以生成精度更高的学习模型。
[0088]
(学习模型获取单元)
[0089]
学习模型获取单元43获取由学习模型生成单元42生成的学习模型。当学习模型存储在数据库22中时,学习模型获取单元43从数据库22获取学习模型。之后,学习模型获取单
元43将获取的学习模型输出到估计单元44。
[0090]
(估计单元)
[0091]
估计单元44将由频谱信息获取单元41获取的关于样品的频谱信息输入到由学习模型获取单元43获取的学习模型,从而使学习模型估计样品中包含的受试物的定量信息。此后,估计单元44将估计的定量信息输出到信息获取单元45。估计单元44对应于估计部的示例,该估计部用于通过将关于样品的频谱信息输入到学习模型中来估受试物的定量信息。
[0092]
信息获取单元45获取由学习模型估计的定量信息。即,信息获取单元45对应于信息获取部的示例,该信息获取部用于获取通过将包含受试物和杂质的样品的频谱信息输入到学习模型而估计的受试物的定量信息。之后,信息获取单元45将获取的定量信息输出到显示控制单元46。
[0093]
(显示控制单元)
[0094]
显示控制单元46使显示单元36显示由信息获取单元45获取的定量信息。显示控制单元46对应于显示控制部的示例。
[0095]
控制单元37的至少一部分部件可以被实现为独立的装置。此外,各个部件可以被实现为实现功能的软件。在这种情况下,用于实现功能的软件可以通过网络(例如,云)在服务器上操作。在该实施例中,假设各部件是通过软件在本地环境中实现的。
[0096]
图1的信息处理系统的构造仅是示例。例如,信息处理装置10的存储单元34可以具有数据库22的功能,并且存储单元34可以保持各种类型的信息。
[0097]
参照图2,现在描述该实施例中的处理过程。图2是与学习模型的生成有关的处理过程的流程图。
[0098]
(s201)(单独分析各受试物)
[0099]
在步骤s201中,分析装置23单独分析各受试物,从而获取关于受试物的频谱信息。仅需要根据灵敏度、分析所需的时间段等来适当地选择分析条件。在该分析中,分析装置23在各受试物的几种不同浓度下执行分析。所需的浓度数量取决于物质的性质等,并且期望该数量通常为3或更多。可以针对各受试物执行对受试物的分析,或者可以针对多个受试物同时执行对受试物的分析。之后,分析装置23将所获取的频谱信息输出至信息处理装置10。信息处理装置10从分析装置23接收频谱信息,并将频谱信息保持在ram 33或存储单元34中。频谱信息获取单元41获取如上所述保持的频谱信息。如上所述,数据库22可以保存作为分析结果的频谱信息。在这种情况下,频谱信息获取单元41从数据库22获取频谱信息。此外,分析装置23分析受试物的定时可以是任何定时,只要在步骤s202中生成训练数据之前执行分析即可。
[0100]
(s202)(生成训练数据)
[0101]
在步骤s202中,学习模型生成单元42通过使用由频谱信息获取单元41获取的关于受试物的频谱信息来生成多个训练数据。现在具体描述训练数据的生成方法。通过将根据随机数生成的任何波形添加到受试物的频谱信息中来生成训练数据。例如,由频谱信息(色谱)表示的波形在液相色谱法中通常呈现高斯分布。结果,学习模型生成单元42将各自具有根据随机数确定的峰高、中值和标准偏差的多个高斯曲线(高斯函数)彼此相加,从而生成多个随机噪声。之后,学习模型生成单元42生成多个波形,各波形通过将多个随机噪声和关
于受试物的频谱信息彼此相加而形成。如上所述生成的多个波形被用作包含受试物和杂质的虚拟样品的频谱信息(用于学习的频谱信息)。即,将所生成的多个频谱信息确定为形成训练数据的输入数据。此外,学习模型生成单元42将根据作为生成的频谱信息的基础的关于受试物的频谱信息识别出的峰的高度(定量信息),确定为形成训练数据的正确答案数据。如上所述,学习模型生成单元42生成作为输入数据和正确答案数据的组合的多个训练数据。之后,在步骤s201中,学习模型生成单元42已经获取了与受试物的浓度相对应的频谱信息,并且因此针对各浓度生成多个训练数据。考虑到在色谱的波形中峰的宽度随着保留时间的增加而趋于增大,学习模型生成单元42可以增大要生成的波形的宽度。
[0102]
在专利文献3中,公开了一种与癌症的有无相关联的样品的质谱数据的机器学习的方法。但是,为了提高机器学习的精度,需要大量的训练数据。在专利文献3中,作为训练数据,准备了90,000种数据。即,机器学习可以准确地分析复杂的分析结果,但是存在需要准备大量训练数据的问题。在该实施例中,不需要准备大量的训练数据(这是机器学习的问题),因此可以减轻用户的负担。
[0103]
如上所述生成训练数据,但是可以由分析装置23分析多个样品,从而获取关于样品的用于学习的频谱信息,并且可以通过将获取的频谱信息与受试物的定量信息组合,来获取训练数据。此外,可以以与上述方法不同的方法来生成关于虚拟样品的频谱信息。
[0104]
(s203)(生成学习模型)
[0105]
在步骤s203中,学习模型生成单元42使用在步骤s202中针对各个浓度生成的多个训练数据,以根据预定算法执行机器学习,从而生成学习模型。在该实施例中,作为预定算法,使用了神经网络。学习模型生成单元42使用多个训练数据来使神经网络学习,从而生成学习模型,该学习模型被构造为基于关于样品的频谱信息的输入,来估计样品中包含的各受试物的定量信息。神经网络的学习方法是公知技术,因此在本实施例中省略其详细描述。此外,例如,可以使用支持向量机(svm)或深度神经网络(dnn),作为预定算法。可以使用卷积神经网络(cnn)等,作为另一种算法。当存在多种类型的受试物时,针对各物质建立学习模型。学习模型生成单元42将生成的学习模型存储在ram 33、存储单元34或数据库22中。
[0106]
如上所述,生成了学习模型,该学习模型被构造为基于关于样品的频谱信息来估计样品中包含的各受试物的定量信息。
[0107]
(s301)(分析样品)
[0108]
在步骤s301中,分析装置23分析目标样品,从而获取关于样品的频谱信息。分析条件与步骤s201中的分析条件相同。之后,分析装置23将所获取的频谱信息输出至信息处理装置10。信息处理装置10从分析装置23接收频谱信息,并将频谱信息保持在ram 33或存储单元34中。频谱信息获取单元41获取如上所述保持的频谱信息。如上所述,数据库22可以保持作为分析结果的频谱信息。在这种情况下,频谱信息获取单元41从数据库22获取频谱信息。此外,分析装置23分析样品的定时可以是任何定时,只要在步骤s302中估计定量信息之前执行分析即可。
[0109]
(s302)(估计定量信息)
[0110]
在步骤s302中,学习模型获取单元43获取存储在ram 33、存储单元34或数据库22中的学习模型。此后,估计单元44将在步骤s301中获取的关于样品的频谱信息输入到获取的学习模型,从而使学习模型估计样品中包含的受试物的定量信息。此外,估计单元44根据
需要将估计的定量信息转换为要在显示单元36上显示的形式。显示在显示单元36上的形式可以是诸如g/l和mol/l的浓度或相对于基准量(标准量)的比率。当由学习模型估计的值处于显示形式时,不需要转换。之后,信息获取单元45从估计单元44获取估计的定量信息,并将该定量信息存储在ram 33或存储单元34中。
[0111]
如上所述,即使当受试物的峰和杂质的峰没有完全彼此分离时,也可以通过使用通过机器学习获取的学习模型来准确地获取关于受试物的定量信息,而无需关于分析的复杂和高级的知识。
[0112]
结果,即使没有经验的人也可以简单而高精度地执行对受试物的定量分析。
[0113]
(s303)(显示定量信息)
[0114]
在步骤s304中,显示控制单元46使显示单元36显示样品中包含的受试物的定量信息,该定量信息由学习模型在步骤s302中估计。在该显示中,可以以图形形式或表形式来布置和显示定量信息(数据分析方法)。
[0115]
参照图4,现在更详细地描述在计算装置中进行的处理。图4是计算样品中的受试物的量的处理的流程图。
[0116]
首先,分析单元分析受试物(步骤s401)。仅需要根据灵敏度、测量所需的时间段等来适当地选择分析条件。在分析中,可以在各受试物的几种不同浓度下进行测量。
[0117]
随后,分析单元分析包含受试物的目标样品(步骤s402)。测量条件被设置为与步骤s401中的测量条件相同的条件。
[0118]
随后,生成单元使用在步骤s401中获取的受试物的测量结果来生成训练数据。生成单元使用生成的训练数据以根据预定算法执行机器学习,从而建立学习模型(步骤s403)。作为用于学习的特定方法,例如,可以将神经网络、支持向量机等用作一般的机器学习方法。此外,作为具有多个隐藏层的深度学习方法,可以使用深度神经网络(dnn)、卷积神经网络(cnn)等。
[0119]
随后,计算单元将在步骤s403中生成的各学习模型应用于在步骤s402中获取的测量数据,从而计算各受试物的量(步骤s404)。在该计算中,将量转换为用于在显示单元上进行显示的形式。在显示单元上显示的形式可以是诸如g/l和mol/l的浓度或相对于标准量的比率。
[0120]
随后,显示单元显示在步骤s404中计算出的受试物的量,从而将该量呈现给用户(s405)。在该显示中,可以以图形形式或表形式来布置和显示量。
[0121]
本发明还可以通过以下处理来实现:通过网络或记录介质将用于实现上述实施例的一个或更多个功能的程序提供给系统或装置,并且通过系统或装置的计算机中包括的一个或多个处理器来读出并执行该程序。此外,本发明还可以通过被构造为实现一个或更多个功能的电路(例如,asic)来实现。
[0122]
通过示例和比较例来更详细地描述本发明,但是本发明不限于以下示例。
[0123]
(第二实施例)
[0124]
图7是根据本发明的第二实施例的计算装置的示意性框图。
[0125]
(计算装置的构造)
[0126]
根据本实施例的计算装置700包括接收单元703和获取单元704。接收单元703仅针对包含受试物701的样品702接收各受试物701的分析结果。获取单元704获取与受试物的分
析结果有关的学习模型。此外,计算装置700包括计算单元705,计算单元705被构造为通过使用样品的分析结果和学习模型来计算关于各受试物的定量信息。
[0127]
近年来,还开发了通过使用机器学习的针对复杂的分析结果的分析方法。在专利文献3中,公开了一种与癌症的有无相关联的样品的质谱数据的机器学习的方法。但是,为了提高机器学习的精度,需要大量的训练数据。在专利文献3中,准备了90,000种类型的数据,作为训练数据。即,机器学习可以准确地分析复杂的分析结果,但是具有需要准备大量训练数据的问题。
[0128]
根据该实施例,即使当受试物的峰和杂质的峰没有完全彼此分离时,也可以通过使用通过机器学习获取的学习模型来准确地获取关于受试物的峰信息,而无需关于分析的复杂和高级的知识。此外,也不需要准备大量的训练数据,这是机器学习的问题。
[0129]
此外,当不能将受试物的峰和杂质的峰彼此完全分离时,迄今需要如下操作,该操作需要与分析有关的复杂和高级的知识,诸如预处理和分析条件的优化。根据本实施例的计算装置,可以从频谱信息中获取受试物的信息,而无需用于分离杂质的预处理和计算处理,例如峰分割方法。
[0130]
结果,即使没有经验的人也可以简单而高精度地执行对受试物的定量分析。
[0131]
根据本实施例的计算装置还可以包括被构造为分析样品的分析单元706。即使当计算装置不包括分析单元时,计算装置也可以从单独提供的分析单元707获取分析结果,或者可以从数据库(db1)708获取分析结果。此外,可以由生成单元709生成学习模型,或者可以从数据库(db2)710获取学习模型。
[0132]
现在详细描述根据该实施例的计算装置。
[0133]
(接收单元)
[0134]
接收单元接收样品的分析结果,具体地,关于样品的频谱信息的信息。为了获取分析结果,当根据本实施例的计算装置包括以下描述的分析单元时,计算装置可以从分析单元获取关于样品的频谱信息。此外,当根据本实施例的计算装置不包括分析单元时,可以预先提供存储分析结果的数据库(图7的db1),并且计算装置可以从数据库获取分析结果,即,样品的频谱信息。数据库可以存在于计算装置中内置的存储装置中,可以存在于从外部安装到计算装置的存储装置中,也可以通过网络存在于云上。
[0135]
(获取单元)
[0136]
获取单元基于由接收单元获取的样品的分析结果来获取学习模型。学习模型可以由以下描述的生成单元生成。此外,可以预先提供存储用于受试物的学习模型的数据库(图7的db2),并且可以从数据库获取学习模型。数据库可以存在于计算装置中内置的存储装置中,可以存在于从外部安装到计算装置的存储装置中,也可以通过网络存在于云上。
[0137]
(学习模型)
[0138]
在该实施例中,通过机器学习(例如深度学习)生成的学习模型可以用作学习模型。
[0139]
这里,将以使得通过将训练数据应用于机器学习算法来执行学习从而能够执行适当估计的方式建立的学习模型称为“学习模型”。有多种类型的机器学习算法可用于学习模型。例如,可以使用利用神经网络的深度学习。神经网络由输入层、输出层和多个隐藏层形成。这些层通过称为“激活函数”的计算表达式彼此连接。当使用加标签(对应于输入的输
出)的训练数据时,确定激活函数的系数,使得满足输入与输出之间的关系。通过使用多个训练数据来确定系数,可以创建能够高度准确地预测与输入相对应的输出的学习模型。
[0140]
作为本实施例中的学习模型,可以使用例如包含频谱信息和随机噪声的信息。频谱信息是仅存在受试物的情况下的频谱信息(受试物的频谱信息)。随机噪声没有特别限制,并且可以使用作为多个高斯函数的组合的波形。此外,考虑到在色谱的波形中峰的宽度随着保留时间的增加而趋于增大,可以增大要生成的波形的宽度。
[0141]
(频谱信息)
[0142]
在该实施例中,频谱信息是从由色谱、光电子频谱、红外吸收频谱、核磁共振频谱、荧光x

射线频谱、紫外/可见吸收频谱和拉曼频谱组成的组中选择的至少一种。另外,频谱信息是从由原子吸收频谱、火焰发射频谱、光学发射频谱、x射线吸收频谱、x射线衍射频谱、顺磁共振吸收频谱、质谱和热分析频谱组成的组中选择的至少一种。
[0143]
(计算单元)
[0144]
计算单元将由获取单元获取的学习模型应用于样品的分析结果,从而计算样品中的受试物的定量信息。
[0145]
(分析单元)
[0146]
该实施例中的分析单元对应于各自被构造为获取样品和受试物的分析结果的各种类型的分析机。可以以如下形式来设置分析单元:将分析单元设置在与计算装置的至少一个其他单元的计算机相同的计算机中的形式、通过有线和无线互联网网络连接分析单元的形式、以及通过记录介质(例如非易失性存储器)来传递和接收分析结果的形式。
[0147]
该实施例中的分析单元被构造为使用从由色谱法、毛细管电泳法、光电子频谱法、红外吸收频谱法、核磁共振频谱法、荧光x射线频谱法、可见/紫外吸收频谱法和拉曼频谱法组成的组中选择的至少一种方法。另外,分析单元被构造为使用从由原子吸收频谱法、火焰发射频谱法、光发射频谱法、x射线吸收频谱法、x射线衍射法、顺磁共振吸收频谱法、质谱法和热分析组成的组中选择的至少一种方法。
[0148]
各种装置用于分析,并且其示例包括紫外/可见吸收频谱(uv/vis频谱)、红外吸收频谱(ir频谱)、核磁共振频谱(nmr频谱)和拉曼频谱分析。其其他示例包括荧光频谱分析、原子吸收分析、原子吸收频谱、火焰分析、火焰荧光频谱、光发射频谱分析、光发射频谱、发射x射线分析、x射线衍射和荧光x

射线衍射。其进一步示例包括荧光x射线频谱、顺磁共振吸收频谱、质谱分析、热分析、气相色谱法、液相色谱法和光电子频谱。
[0149]
例如,对于液相色谱法,提供了流动相容器、液体进给泵、样品注入单元、柱、检测器和a/d转换器。使用利用例如紫外线、可见光线或红外线的电磁波检测器,电化学检测器、离子检测器等,作为检测器。在这种情况下,要获取的频谱信息是检测器相对于时间的输出强度。
[0150]
(生成单元)
[0151]
生成单元通过基于对受试物的分析结果创建训练数据并执行深度学习来生成学习模型。通过将根据随机数生成的任何波形添加到受试物的分析结果中来生成训练数据。例如,通过液相色谱法获取的频谱信息通常呈现高斯分布。在这种情况下,优选地,训练数据包括输入和输出,该输入通过将各自具有根据随机数确定的峰高、中值和标准偏差的多个高斯曲线彼此相加并进一步添加受试物的分析结果而获得,该输出由受试物的分析结果
形成。输出可以仅由期望获得的信息(例如,峰高)形成。更具体地,准备通过在将峰视为中心的情况下修剪受试物的分析结果而获得的数据。随着修剪的范围变宽,随后的计算单元的定量精度增大,但是增大精度所需的训练数据的数量也增加。要修剪的范围是相对于受试物的峰的标准偏差(σ)的大约6倍至30倍。该范围优选为相对于受试物的峰的标准偏差(σ)的10倍至20倍,更优选为14倍至18倍。之后,将任何波形添加到修剪后的数据中。优选地,要添加的波形的数量是在该色谱上波形不能彼此分离并且波形的峰因此很可能交叠的数量,并且足够的数量通常约为2到8。当数量超过8时,难以预测受试物的峰的形状,因此定量精度降低。此外,当数量为3或更少时,对于分离不充分的色谱可能无法提供准确的定量。数量优选为3至6,更优选为4或5。任何波形的形状都是由表达式1给出的高斯函数。
[0152]
[等式2]
[0153][0154]
在该表达式中,“a”是相对于受试物的预期峰高从0开始的x%处的值。值“b”是最大为修剪范围的x%的值,并且根据随机数确定。例如,当修剪距受试物的峰中心
±
3σ的范围时,“b”可以是


×
x%至 8σ
×
x%范围内的任意值。值“x”为100至300,优选为100至250,更优选为100至200。优选根据相对于受试物的峰的标准偏差的0.1倍至10倍(优选为0.2倍至8倍,更优选为0.5倍至5倍)的值的范围内的随机数来确定值“c”。多个任意波形彼此相加,然后,通过形成一组相加的波形和要获得的值(例如,受试物的峰高),可以获得训练数据的一种组合。针对一个受试物的峰准备了约1,000至2,000个训练数据。针对具有不同含量的相同受试物的峰,创建相似的训练数据。优选地,准备由大约5至10种类型的、具有不同含量的受试物形成的大约5,000至20,000个训练数据。
[0155]
(存储单元)
[0156]
根据本实施例的计算装置还可以包括存储学习模型的存储单元。在该构造中,获取单元可以从存储单元获取学习模型。
[0157]
(显示控制单元)
[0158]
根据本实施例的计算装置还可以包括显示控制单元,该显示控制单元被构造为控制定量信息的显示。
[0159]
(样品)
[0160]
样品没有特别限制,只要样品是被构造为包含多种化合物的混合物即可。另外,不需要规定混合物的成分,也可以含有未知成分。例如,样品可以是源自活体的混合物(诸如血液、尿液或唾液),或者可以是食物和饮料。对源自活体的样品的分析为了解样品供体的营养和健康状况提供了线索,因此具有医学和营养价值。例如,尿中的维生素b3与碳水化合物、脂质和蛋白质的代谢以及能量的产生有关,因此对n1

甲基
‑2‑
吡啶酮
‑5‑
羧酰胺(其是维生素b3的尿中代谢物)的测量对于维持身体健康的营养指导很有用。
[0161]
(受试物)
[0162]
该实施例中的受试物包括样品中包含的一种或更多种已知成分。例如,受试物是从由蛋白质、dna、病毒、真菌、水溶性维生素、脂溶性维生素、有机酸、脂肪酸、氨基酸、糖、农药和内分泌干扰物组成的组中选择的至少一种。
[0163]
例如,当要弄清营养物的量时,受试物的示例包括硫胺素(维生素b1)、核黄素(维生素b2)、以及分别作为维生素b3的代谢物的n1

甲基烟酰胺和n1

甲基
‑2‑
吡啶酮
‑5‑
羧酰胺。其其他示例包括水溶性维生素,诸如n1

甲基
‑4‑
吡啶酮
‑3‑
羧酰胺、泛酸(维生素b5)、4

吡哆酸(维生素b6)、生物素(维生素b7)、蝶酸单麸胺酸(维生素b9)和抗坏血酸(维生素c)。其其他示例包括氨基酸,诸如l

色氨酸、赖氨酸、蛋氨酸、苯丙氨酸、苏氨酸、缬氨酸、亮氨酸、异亮氨酸和l

组氨酸。其其他示例包括矿物质(诸如钠、钾、钙、镁和磷)、叶酸、氰钴胺等、以及抗坏血酸。
[0164]
(定量信息)
[0165]
定量信息是从由样品中包含的受试物的量、样品中包含的受试物的浓度以及样品中受试物的有无组成的组中选择的至少一种。另外,定量信息是从由样品中包含的受试物的浓度或量相对于受试物的基准量的比率、以及样品中包含的受试物的量之间或受试物品的浓度之间的比率组成的组中选择的至少一种。
[0166]
(计算方法)
[0167]
根据本实施例的计算方法至少包括以下步骤:
[0168]
(1)接收步骤,接收关于包含受试物的样品的频谱信息;
[0169]
(2)获取步骤,获取与受试物的频谱信息有关的学习模型;和
[0170]
(3)计算步骤,基于样品的频谱信息和学习模型来计算受试物的定量信息。
[0171]
在这些步骤中,上述信息被例示为频谱信息。
[0172]
此外,计算方法可以包括执行分析以获取样品的频谱信息的分析步骤,并且例示了上述分析。
[0173]
此外,该计算方法还可包括生成学习模型的生成步骤。获取步骤可以包括获取在生成步骤中生成的学习模型的步骤。学习模型可以是包含关于受试物的频谱信息和随机噪声的信息。随机噪声可以是通过多个高斯函数的组合而获得的波形。
[0174]
上述物质被例示为受试物。上述信息被例示为定量信息。
[0175]
可以通过机器学习(例如,深度学习)来生成学习模型。
[0176]
该计算方法还可以包括控制定量信息的显示的显示控制步骤。
[0177]
现在详细描述根据本发明实施例的计算方法的示例。
[0178]
(数据分析方法)
[0179]
参照图8,现在更详细地描述计算装置中的处理。图8是计算样品中的各受试物的量的处理的流程图。
[0180]
(步骤s801)
[0181]
首先,分析单元单独分析各受试物(步骤s801)。仅需要根据灵敏度、测量所需的时间段等适当地选择分析条件。在分析中,可以在各受试物的几种不同浓度下进行测量。所需的浓度数量取决于物质的性质等,并且期望该数量通常为3或更多。当存在多种类型的受试物时,期望测量各类型。然而,当受试物的信号彼此充分分离时,可以同时进行测量。
[0182]
(步骤s802)
[0183]
随后,分析单元分析包含受试物的目标样品(步骤s802)。测量条件被设置为与步骤s801中的条件相同的条件。
[0184]
随后,生成单元使用在步骤s801中单独获取的各受试物的测量结果来生成多个训
练数据。生成单元使用生成的训练数据以根据预定算法执行机器学习,从而建立学习模型(步骤s803)。作为用于学习的特定方法,例如,可以将神经网络、支持向量机等用作一般的机器学习方法。此外,作为具有多个隐藏层的深度学习方法,可以使用深度神经网络(dnn)、卷积神经网络(cnn)等。当存在多种类型的受试物时,将针对各物质建立学习模型。
[0185]
(步骤s803)
[0186]
随后,计算单元将在步骤s3中生成的学习模型应用于在步骤s802中获取的测量数据,从而计算各受试物的量(步骤s804)。在该计算中,将量转换为用于在显示单元上进行显示的形式。显示在显示单元上的形式可以是诸如g/l和mol/l的浓度或相对于基准量(标准量)的比率。
[0187]
(步骤s804)
[0188]
随后,显示单元显示在步骤s804中计算出的受试物的量,从而向用户呈现该量。在该显示中,可以以图形形式或表形式来布置和显示量。
[0189]
本发明还可以通过以下处理来实现:通过网络或记录介质将用于实现上述实施例的一个或更多个功能的程序提供给系统或装置,并且通过系统或装置的计算机中包括的一个或更多个处理器来读出并执行该程序。此外,本发明还可以通过被构造为实现一个或多个功能的电路(例如,asic)来实现。
[0190]
现在通过示例和比较例更详细地描述本发明,但是本发明不限于以下示例。
[0191]
[示例]
[0192]
(示例1)
[0193]
图9是包括三种(501、502和503)类型的受试物的色谱。将0.1设置为阈值504。从阈值与色谱的交点提取各受试物的峰位置。例如,对于峰501,将分别在阈值与色谱之间的交点505的中值506设置为峰501的位置。类似地,识别峰502和503的峰位置。各个峰的位置为100、250和400。
[0194]
对于各峰,将从峰位置起
±
75的范围乘以0至1.8(增量为0.2)的值,从而获得10种峰高不同的波形。组合受试物501、502和503的峰高不同的波形,从而生成10
×
10
×
10=1,000个波形。在下文中将该波形称为“受试物数据”。将各自具有根据随机数设置的中值、标准偏差和峰高的五个正态分布波形添加到各物质数据,从而形成样品数据。相加的正态分布波形的峰高(表达式1的“a”)的范围为0.0到1.5,中值(表达式1的“b”)的范围为10到490,标准偏差(表达式1的“c”)的范围为10到100,这些范围根据随机数确定。对于一个受试物数据,准备了100种类型的样品数据。将各样品数据和包含在样品数据中的受试物数据的峰高进行组合,从而形成100,000个训练数据,并将该训练数据用于机器学习以生成学习模型。使用了全连接神经网络,作为机器学习的方法。relu函数和线性函数用作激活函数。均方误差用作损失函数。adam用作优化算法。为了实现足够的定量精度,需要大约20次元的迭代计算。
[0195]
图10是包括图9的三种类型的受试物在内的多种成分的色谱的示例。将三种类型的受试物的量调整为任意量。图11是将由包括上述三种类型的受试物在内的多种成分形成的色谱应用于学习模型时的曲线图,以示出各受试物的计算峰高(预测值)与自由调整的各受试物的峰高(正确答案值)之间的比较。相对于正确答案值,能够以大约0.7到0.9的相关系数做出预测。
[0196]
(示例2)
[0197]
与示例1相同,图9的色谱被分割为与三种受试物相对应的范围,并将该范围乘以0到1.8(增量为0.2)的值,从而针对各受试物获得10种峰高不同的受试物数据。将各自具有根据随机数设置的中值、标准偏差和峰高的四个正态分布波形添加到各物质数据,从而形成样品数据。对于一个受试物数据,准备了1,000种类型的样品数据。将各样品数据和包含在样品数据中的受试物数据的峰高进行组合,从而形成10,000个训练数据,并将该训练数据用于各受试物的机器学习以生成学习模型。使用了全连接神经网络,作为机器学习的方法。relu函数和线性函数用作激活函数。均方误差用作损失函数。adam用作优化算法。为了实现足够的定量精度,需要大约100次元的迭代计算。
[0198]
与示例1相同,准备包括三种类型的受试物在内的任意量的多种不同成分的色谱。之后,将色谱分割为与受试物数据(501、502和503)的区域相同的区域,如图12所示。然后,将与各受试物相对应的区域中的色谱(601、602或603)应用于针对各受试物创建的学习模型,从而计算各受试物的峰(预测值)。图13是将自由调节的受试物的峰高用作正确答案值时的比较图。相对于正确答案值,能够以大约0.8到0.9的相关系数做出预测。
[0199]
(示例3)
[0200]
根据色谱的趋势,如下设置添加到示例2中的受试物数据中的各正态分布波形的标准偏差。
[0201]
标准偏差=(随机数0

5) 时间
×
0.2 5
[0202]
其他设置与示例2中的设置相同,并且将正确答案值和预测值彼此进行比较(图14)。能够以大约0.9的相关系数做出预测。
[0203]
(示例4)
[0204]
获得峰高,作为示例1至示例3中的最终输出。在示例4中,实现了用于根据峰高预测相关信息的部。已知可以根据受试物501至503的量的比率来预测样品的制造商。准备了预先机器学习了训练数据的学习模型,各训练数据由各制造商(在本示例中为a至e的五种类型)提供的样品中的受试物501至503的量和制造商形成。图15是用于示出使用全连接神经网络的学习模型的示例的图。附图标记1101标示输入层。输入层1101输入与受试物501至503的量相对应的信息。附图标记1102标示中间层。在该示例中,存在一个中间层,但是可以根据受试物和分类的数量来准备多个层。此外,节点的数量也可以适当地改变。附图标记1103标示输出层。分类a到e对应于各个制造商。将中间层和输出层相互连接的激活函数是softmax函数。softmax函数的输出是概率。将示例1至示例3中获取的各受试物(根据峰高计算)的量应用于本实施例中的学习模型,从而显示各制造商制造包含受试物的样品的概率。结果的示例在图16中示出。
[0205]
(示例5)
[0206]
首先,现在描述如下示例,其中将该方法应用于模拟数据以便评估上述用于数据处理的方法的效果。
[0207]
作为受试物数据,准备了由正态分布波形表示的11种数据,该正态分布波形具有中值250、标准差20和以0.1为增量的0.0至1.0的峰高。数据范围(修剪范围)被设置为0至500。
[0208]
将各自具有根据随机数设置的中值、标准偏差和峰高的四个正态分布波形添加到
各物质数据,从而形成样品数据。相加的正态分布波形的峰高(表达式1的“a”)的范围为0.0到1.5,中值(表达式1的“b”)的范围为10到490(距受试物的峰中心值
±
240),标准偏差(表达式1的“c”)的范围为10到100,这些范围根据随机数确定。对于一个受试物数据,准备了1,000种类型的样品数据。将各样品数据和包含在样品数据中的受试物数据的峰高进行组合,从而形成11,000个训练数据,并将该训练数据用于机器学习以生成学习模型。作为机器学习的方法,使用了全连接神经网络。relu函数和线性函数用作激活函数。均方误差用作损失函数。adam用作优化算法。为了实现足够的定量精度,需要约100次元的迭代计算。
[0209]
将通过与针对样品数据的方法相同的方法创建的数据应用于获取的学习模型,从而获得样品数据中包含的受试物的峰高。图17的水平轴表示用于创建样品数据的受试物的峰高(正确答案值)。垂直轴表示通过学习模型获得的受试物的峰高(预测值)。正确答案值与预测值之间的相关系数为0.99。
[0210]
此外,在图18中,作为比较例,示出了将现有技术的峰分割方法(设置基线的方法(图5))应用于通过与针对样品数据的方法相同的方法创建的数据的情况。正确答案值与预测值之间的相关系数为0.68。
[0211]
(示例6)
[0212]
为了评估上述数据处理方法的效果,描述了如下示例,其中将该方法用于尿中1,6

二氢
‑1‑
甲基
‑6‑
氧代
‑3‑
吡啶碳酰胺(以下简称2py)的定量确定,2py是维生素b3的一种代谢物。实际测量的波形是通过hplc测量2py(0.0μg/ml、2.5μg/ml、5.0μg/ml、7.5μg/ml和10μg/ml)准备的。在保留时间为100到400的范围内进行修剪,将四个正态分布波形(其中由随机数设置了中值、标准偏差和峰高)添加到通过hplc实际测量的2py的波形中。因此,创建了样品数据。基于2py的峰值中值、标准偏差和假设的最大峰高分别为250、约10和500的事实,分别通过0至750、130至370和5至50的范围内的随机数来确定峰高(表达式1的“a”)、中值(表达式1的“b”)和标准偏差(表达式1的“c”)。针对2py的一个数据准备了1,000个样品数据。通过使用5,000个训练数据进行机器学习,这些训练数据是通过将各样品数据与其中包含的2py的峰高数据组合而获得的。因此,生成了学习模型。以与示例5相同的方式进行机器学习。
[0213]
接下来,通过hplc分析包含2py(0.0μg/ml、2.5μg/ml、5.0μg/ml、7.5μg/ml和10μg/ml)和其他杂质的样品,以获得图19的色谱。其他杂质包括(a:尿酸,b:反式尿烷酸,c:n1

甲基
‑4‑
吡啶酮
‑3‑
羧酰胺,d:腺苷)。将各色谱应用于已生成的学习模型,并预测对应于2py的峰高。结果,正确答案值与预测值之间的相关系数为0.99(图20)。2py的峰与杂质(c)的峰接触,但是能够毫无问题地预测峰高。
[0214]
(示例7)
[0215]
作为包含大量杂质的示例,描述如下示例,其中将本方法应用于已添加到由麒麟控股有限公司(kirin holdings company)制造的“无添加蔬菜48种高密度蔬菜100%(以下称为“蔬菜汁”)”的2py的定量测量。以与示例6中相同的方式预先通过hplc测量2py的波形,从而生成学习模型。在0至200的保留时间的范围内进行修剪。分别通过0至1.5、0至290和10至100的范围内的随机数来确定峰高(表达式1的“a”)、中值(表达式1的“b”)和标准偏差(表达式1的“c”)。将四个正态分布波形添加到2py的波形中。因此,创建了样品数据。使蔬菜汁预先通过0.8μm的过滤器以除去其中的粗颗粒,并用gl科学有限公司(gl sciences inc)制
造的monospin c18对蔬菜汁进行预处理。通过10,000rpm的离心分离进行该预处理。预处理后,向蔬菜汁中添加2py(0.0μg/ml、2.5μg/ml、5.0μg/ml、7.5μg/ml和10μg/ml),并通过hplc分析所得物,以获得图21的色谱。在各图中,箭头表示的部分对应于2py的保留时间。以与示例6中相同的方式,将各色谱应用于已经生成的学习模型,并且预测对应于2py的峰高。结果,正确答案值与预测值之间的相关系数为0.99(图22)。结果表明,即使在包含了大量杂质且未获得零基线的系统中,也能够毫无问题地预测用作受试物的2py的峰高。
[0216]
本发明不限于上述实施例,并且在不脱离本发明的精神和范围的情况下可以进行各种改变和变型。附加了权利要求以使本发明的范围公开。
[0217]
本申请要求2018年11月19日提交的日本专利申请第2018

216857号、以及2018年12月26日提交的日本专利申请第2018

243766号的优先权,这些申请的全部内容通过引用并入本文。
[0218]
附图标记列表
[0219]
10 信息处理装置
[0220]
21 lan
[0221]
22 数据库
[0222]
23 分析装置
[0223]
31 通信if
[0224]
32 rom
[0225]
33 ram
[0226]
34 存储单元
[0227]
35 操作单元
[0228]
36 显示单元
[0229]
37 控制单元
[0230]
41 频谱信息获取单元
[0231]
42 学习模型生成单元
[0232]
43 学习模型获取单元
[0233]
44 估计单元
[0234]
45 信息获取单元
[0235]
46 显示控制单元
[0236]
700 计算装置
[0237]
701 受试物
[0238]
702 样品
[0239]
703 接收单元
[0240]
704 获取单元
[0241]
705 计算单元
[0242]
706,707 分析单元
[0243]
708 数据库
[0244]
709 生成单元
[0245]
710 数据库

技术特征:
1.一种信息处理装置,其包括:信息获取部,其用于获取通过将包含受试物和杂质的样品的频谱信息输入到学习模型中而估计的所述受试物的定量信息,其中,基于根据所述受试物的频谱信息而生成的用于学习的频谱信息,来生成所述学习模型。2.根据权利要求1所述的信息处理装置,其中,所述样品包含多种类型的受试物。3.根据权利要求2所述的信息处理装置,其中,所述信息获取部还包括:分割单元,所述分割单元被构造为将所述样品的频谱信息分割为各受试物的频谱信息。4.根据权利要求2或3所述的信息处理装置,其中,所述分割单元在频谱信息的分割地点分割频谱信息,所述分割地点由用户指定。5.根据权利要求3或4所述的信息处理装置,其中,所述分割单元通过提取频谱信息的位置和包含所述位置的一定范围,来分割频谱信息,所述位置由用户指定。6.根据权利要求3至5中的任一项所述的信息处理装置,其中,所述分割单元通过提取超出预先设置的阈值的频谱信息的范围,来分割频谱信息。7.根据权利要求1至6中的任一项所述的信息处理装置,所述信息处理装置还包括:显示控制部,其用于使显示单元显示所获取的定量信息。8.根据权利要求7所述的信息处理装置,其中,所述样品包含多种类型的受试物,并且其中,所述显示控制部选择并显示由用户从所述多种类型的受试物的定量信息中指定的信息。9.根据权利要求1至8中的任一项所述的信息处理装置,其中,所述学习模型是通过使用训练数据学习的学习模型,所述训练数据是各自由用于学习的频谱信息和受试物的定量信息形成的多个组合,用于学习的频谱信息是基于受试物的频谱信息生成的,受试物的定量信息是基于受试物的频谱信息识别的。10.根据权利要求9所述的信息处理装置,其中,通过使用受试物的频谱信息和随机噪声来生成用于学习的频谱信息。11.根据权利要求10所述的信息处理装置,其中,所述随机噪声是通过组合多个高斯函数而获得的波形。12.根据权利要求10或11所述的信息处理装置,其中,通过使用随机数和从受试物的频谱信息中选择的部分频谱信息,来生成所述随机噪声,并且基于所述部分频谱信息来确定所述随机噪声。13.根据权利要求1至12中的任一项所述的信息处理装置,所述信息处理装置还包括:估计部,其用于通过将样品的频谱信息输入到所述学习模型,来估计受试物的定量信息。14.根据权利要求1至13中的任一项所述的信息处理装置,其中,所述频谱信息是从由色谱、光电子频谱、红外吸收频谱、核磁共振频谱、荧光频谱、荧光x

射线频谱、紫外/可见吸收频谱、拉曼频谱、原子吸收频谱、火焰发射频谱、光学发射频谱、x射线吸收频谱、x射线衍射频谱、顺磁共振吸收频谱、电子自旋共振频谱、质谱和热分析频谱组成的组中选择的至少
一种。15.根据权利要求1至14中的任一项所述的信息处理装置,所述信息处理装置还包括:分析部,其用于执行分析以获取样品的频谱信息。16.根据权利要求1至15中的任一项所述的信息处理装置,其中,所述分析部使用从由色谱法、毛细管电泳法、光电子频谱法、红外吸收频谱法、核磁共振频谱法、荧光频谱法、荧光x射线频谱法、可见/紫外吸收频谱法、拉曼频谱法、原子吸收频谱法、火焰发射频谱法、光发射频谱法、x射线吸收频谱法、x射线衍射法、电子自旋共振频谱法、质谱法和热分析组成的组中选择的至少一种方法。17.根据权利要求1至16中的任一项所述的信息处理装置,其中,所述受试物是从由蛋白质、dna、病毒、真菌、水溶性维生素、脂溶性维生素、有机酸、脂肪酸、氨基酸、糖、农药和内分泌干扰物组成的组中选择的至少一种。18.根据权利要求1至17中的任一项所述的信息处理装置,其中,所述受试物是从由硫胺素、核黄素、n1

甲基烟酰胺、n1

甲基
‑2‑
吡啶酮
‑5‑
羧酰胺、n1

甲基
‑4‑
吡啶酮
‑3‑
羧酰胺、泛酸、吡哆醇、4

吡哆酸、生物素、氰钴胺和抗坏血酸组成的组中选择的至少一种。19.根据权利要求1至18中的任一项所述的信息处理装置,其中,所述定量信息是从由样品中包含的受试物的量、样品中包含的受试物的浓度、样品中受试物的有无、样品中包含的受试物的浓度或量相对于受试物的基准量的比率、以及样品中包含的受试物的量之间或受试物品的浓度之间的比率组成的组中选择的至少一种。20.一种信息处理装置的控制方法,所述控制方法包括:信息获取步骤,获取通过将包含受试物和杂质的样品的频谱信息输入到学习模型中而估计的所述受试物的定量信息,其中,基于根据所述受试物的频谱信息而生成的用于学习的频谱信息,来生成所述学习模型。21.根据权利要求20所述的信息处理装置的控制方法,其中,所述样品包含多种类型的受试物。22.根据权利要求21所述的信息处理装置的控制方法,其中,所述信息获取步骤还包括:分割步骤,分将所述样品的频谱信息分割为各受试物的频谱信息。23.根据权利要求21或22所述的信息处理装置的控制方法,其中,所述分割步骤包括在频谱信息的分割地点分割频谱信息,所述分割地点由用户指定。24.根据权利要求22或23所述的信息处理装置的控制方法,其中,所述分割步骤包括通过提取频谱信息的位置和包含所述位置的一定范围来分割频谱信息的步骤,所述位置由用户指定。25.根据权利要求22至24中的任一项所述的信息处理装置的控制方法,其中,所述分割步骤包括通过提取超出预先设置的阈值的频谱信息的范围来分割频谱信息的步骤。26.根据权利要求21至25中的任一项所述的信息处理装置的控制方法,所述控制方法还包括:显示控制步骤,使显示单元显示受试物的所获取的定量信息。27.根据权利要求21至26中的任一项所述的信息处理装置的控制方法,
其中,所述样品包含多种类型的受试物,并且其中,所述显示控制步骤包括选择并显示由用户从所述多种类型的受试物的定量信息中指定的信息的步骤。28.根据权利要求21至27中的任一项所述的信息处理装置的控制方法,其中,所述学习模型是通过使用训练数据学习的学习模型,所述训练数据是各自由用于学习的频谱信息和受试物的定量信息形成的多个组合,用于学习的频谱信息是基于受试物的频谱信息生成的,受试物的定量信息是基于受试物的频谱信息识别的。29.根据权利要求28所述的信息处理装置的控制方法,其中,通过使用受试物的频谱信息和随机噪声来生成用于学习的频谱信息。30.根据权利要求29所述的信息处理装置的控制方法,其中,所述随机噪声是通过组合多个高斯函数而获得的波形。31.根据权利要求29或30所述的信息处理装置的控制方法,其中,通过使用随机数和从受试物的频谱信息中选择的部分频谱信息,来生成所述随机噪声,并且基于所述部分频谱信息来确定所述随机噪声。32.根据权利要求21至31中的任一项所述的信息处理装置的控制方法,所述控制方法还包括:估计步骤,通过将样品的频谱信息输入到所述学习模型,来估计受试物的定量信息。33.根据权利要求21至32中的任一项所述的信息处理装置的控制方法,其中,所述频谱信息是从由色谱、光电子频谱、红外吸收频谱(ir频谱)、核磁共振频谱(nmr频谱)、荧光频谱、荧光x

射线频谱、紫外/可见吸收频谱(uv/vis频谱)、拉曼频谱、原子吸收频谱、火焰发射频谱、光学发射频谱、x射线吸收频谱、x射线衍射频谱、顺磁共振吸收频谱、电子自旋共振频谱、质谱和热分析频谱组成的组中选择的至少一种。34.根据权利要求21至33中的任一项所述的信息处理装置的控制方法,所述控制方法还包括:分析步骤,执行分析以获取样品的频谱信息。35.根据权利要求21至34中的任一项所述的信息处理装置的控制方法,其中,所述分析步骤包括进行从由色谱法、毛细管电泳法、光电子频谱法、红外吸收频谱法、核磁共振频谱法、荧光频谱法、荧光x射线频谱法、可见/紫外吸收频谱法、拉曼频谱法、原子吸收频谱法、火焰发射频谱法、光发射频谱法、x射线吸收频谱法、x射线衍射法、电子自旋共振频谱法、质谱法和热分析组成的组中选择的至少一种方法。36.根据权利要求21至35中的任一项所述的信息处理装置的控制方法,其中,所述受试物是从由蛋白质、dna、病毒、真菌、水溶性维生素、脂溶性维生素、有机酸、脂肪酸、氨基酸、糖、农药和内分泌干扰物组成的组中选择的至少一种。37.根据权利要求21至36中的任一项所述的信息处理装置的控制方法,其中,所述受试物是从由硫胺素、核黄素、n1

甲基烟酰胺、n1

甲基
‑2‑
吡啶酮
‑5‑
羧酰胺、n1

甲基
‑4‑
吡啶酮
‑3‑
羧酰胺、泛酸、吡哆醇、4

吡哆酸、生物素、氰钴胺和抗坏血酸组成的组中选择的至少一种。38.根据权利要求21至37中的任一项所述的信息处理装置的控制方法,其中,所述定量信息是从由样品中包含的受试物的量、样品中包含的受试物的浓度、样品中受试物的有无、
样品中包含的受试物的浓度或量相对于受试物的基准量的比率、以及样品中包含的受试物的量之间或受试物品的浓度之间的比率组成的组中选择的至少一种。39.一种程序,其使计算机用作根据权利要求1至38中的任一项所述的信息处理装置的各部。40.一种计算装置,其包括:接收单元,其被构造为接收包含受试物的样品的频谱信息;获取单元,其被构造为获取与受试物的频谱信息有关的学习模型;以及计算单元,其被构造为基于样品的频谱信息和学习模型来计算受试物的定量信息。41.一种计算方法,其包括:接收步骤,接收包含受试物的样品的频谱信息;获取步骤,获取与受试物的频谱信息有关的学习模型;以及计算步骤,基于样品的频谱信息和学习模型来计算受试物的定量信息。
技术总结
在现有技术中,为了从频谱信息中获得关于受试物的信息,需要用于分离杂质的预处理和计算处理,例如峰分割。根据本发明的信息处理装置特征在于具有:信息获取部,其用于获取通过将包含受试物和杂质的样品的频谱信息输入到学习模型中而估计的关于受试物的定量信息。学习模型中而估计的关于受试物的定量信息。学习模型中而估计的关于受试物的定量信息。


技术研发人员:田谷彰大 河村英孝 吉正泰
受保护的技术使用者:佳能株式会社
技术研发日:2019.11.18
技术公布日:2021/6/29

转载请注明原文地址:https://doc.8miu.com/read-15080.html

最新回复(0)