本发明属于生物
技术领域:
,涉及带寡核苷酸标签的靶向性转座体复合物及其用于研究多靶点蛋白质-dna相互作用的用途。
背景技术:
:基因的表达调控是生命体进行一切生命活动的基础,根据遗传的中心法则,生物遗传信息从dna转录形成rna,再由rna翻译形成蛋白质。在经典遗传学之外,dna的核苷酸序列不发生改变的情况下,基因的表达水平发生变化并且可以稳定遗传给后代的现象,称为表观遗传学(epigenetics),表观遗传很大程度上决定了基因何时何地以何种方式表达。常见的表观遗传学调控包括dna甲基化、组蛋白修饰、染色质构像改变等。生物大分子之间的相互作用参与调控基因的选择性表达和基因的转录后调控。dna与蛋白质的相互作用是普遍存在的,传统的研究方法包括电泳迁移率变动测定法(emsa)、dna酶i足迹、酵母杂交系统和萤光素酶报告基因测定法(lrga)等。染色质免疫共沉淀技术(chipandchip-seq)是广泛用于研究蛋白质与dna相互作用的方法,通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。chip的基本流程是:(1)采用甲醛固定切成碎块的组织或者直接固定细胞,使得dna与蛋白质交联在一起形成靶蛋白-dna复合物,(2)通过超声将染色质dna片段化,再加入针对目的蛋白的chip级别的抗体,与靶蛋白-dna复合物相互结合,(3)加入与抗体结合的蛋白a/g珠,结合复合体,再通过解交联,释放dna片段,(4)纯化富集的dna片段,通过下游检测技术(定量pcr、基因芯片、测序等)来检测此富集片段的dna序列。将chip与二代测序技术相结合的chip-seq技术,能够高效地在全基因组范围内检测与组蛋白、转录因子等互作的dna区段。近年来,随着技术的不断更新与优化,出现了cut&run(cleavageundertargets&releaseusingnuclease)技术和cut&tag(cleavageundertargets&tagmentation)技术。美国弗雷德·哈金森癌症研究中心的stevenhenikoff团队,于2019年4月在naturecommunication公开了cut&tag技术的实验方案,在抗体靶向引导下,使用带有p5、p7端部分衔接头序列的蛋白a-tn5转座酶融合物对靶蛋白附近的dna进行片段化,切割的同时在dna片段两端分别加上p5、p7端部分衔接头序列,通过pcr扩增加上索引序列以及衔接头的其余部分,产生高分辨率低背景的文库。2019年8月北京大学分子医学研究所何爱彬课题组在molecularcell杂志在线公开了cobatch(combinatorialbarcodingandtargetedchromatinrelease)技术。在上述cut&tag技术的基础上,使用含不同条码衔接头的包埋的蛋白a-tn5转座体对样本进行靶向切割,使得样本dna经转座酶打断后带有不同的衔接头序列,是一种易操作、高通量和高质量的单细胞chip-seq技术。2020年10月清华大学颉伟课题组在nature发表的文章中提及了stacc-seq技术。将抗体与蛋白a/g融合的tn5转座酶在体外孵育结合后,进入体内靶向目标蛋白,随后激活转座酶并对靶蛋白附近的dna进行切割,通过pcr扩增即可产生可进行二代测序的文库。传统的chip-seq技术受到交联/超声打断条件不固定,抗体等因素的影响,需要投入大量的细胞/组织进行建库,很难适用于微量样本及单细胞实验。chip-seq技术容易出现假阴性/假阳性的情况,由于超声打断的不均匀,会导致测序背景噪音高。尽管cut&tag技术相对于chip-seq技术极大缩短了实验时间,但仍步骤繁琐。现有的技术仅适用于研究靶向单一目的蛋白,不能在同一样本中同时进行多靶点的研究。技术实现要素:本发明的目的在于提供一种同时进行多靶点dna-蛋白质互作研究的技术,可以针对同一份实验样本,同时检测2个及以上目的蛋白及其相互作用的dna片段,通过高通量测序技术获得低背景的文库信息。整个实验过程大大减少了建库步骤,缩短了建库时间,降低了对样本起始量的要求,提高文库产出和下机数据质量,帮助得到更多组蛋白/转录因子/dna结合蛋白在体内的作用情况。本发明的基本流程是:(1)将含有不同索引序列的寡核苷酸退火形成衔接头,将一对衔接头与蛋白a-tn5转座酶或蛋白g-tn5转座酶进行包埋,所产生的每一种衔接头-转座酶复合物都包含独特的索引或索引组合,(2)将针对目的蛋白的抗体与包埋后的衔接头-转座酶复合物孵育,形成衔接头-转座酶-抗体复合物,一种抗体对应一种索引或索引组合,(3)收集细胞/细胞核,加入衔接头-转座酶-抗体复合物进行孵育,利用抗体将转座酶靶向目的蛋白,(4)激活转座酶,切割目的蛋白附近的dna,并连接衔接头,(5)灭活转座酶,纯化片段化并打标签后的dna,通过pcr扩增获得可供测序的文库,(6)通过下游测序技术测序。最终,通过不同索引或索引组合的拆分即可获得不同目的蛋白结合的dna序列信息。本发明实现多靶点检测的关键在于步骤(1)中包埋产生含有不同索引或索引组合的衔接头-转座酶复合物(即转座体),一种转座体与一种目的蛋白的抗体在体外结合,形成多种衔接头-转座酶-抗体复合物,将这些不同的衔接头-转座酶-抗体复合物混合后,同时进入样品中靶向不同的目的蛋白,通过激活转座酶切割目的蛋白附近的dna,使得dna片段两端连接不同的索引或索引组合,通过pcr扩增产生文库,测序后通过索引或索引组合的拆分可以识别不同目的蛋白与dna互作的情况。本发明方法可一管式高通量应用,并可与单细胞测序平台“无缝”结合。高通量测序技术:又称为第二代测序技术、下一代测序技术,可简写为ngs。是指一次并行对几十万到几百万条dna分子进行序列测定的技术,其测定序列长度一般较短。转座酶:执行转座功能的酶,通常由转座子编码,识别转座子两端的特定序列,能把转座子从相邻序列中脱离出来,再插入到新的dna靶位点,无同源性要求。tn5转座酶是转座酶中的一种,具有随机性好、稳定性高、插入位点容易测序等特点,是应用于分子遗传和基因测序的高效工具。靶向模块指能够结合感兴趣分子的任何模块,优选抗体或抗体片段。本文中的术语“抗体”以最广义使用,并且涵盖各种抗体结构,包括但不限于单克隆抗体、多克隆抗体、多特异性抗体(例如双特异性抗体)、和抗体片段,只要它们展现出期望的抗原结合活性。“抗体片段”指与完整抗体不同的分子,其包含完整抗体中结合完整抗体结合的抗原的部分。抗体片段的例子包括但不限于fv、fab、fab’、fab’-sh、f(ab’)2;双抗体;线性抗体;单链抗体分子(例如scfv);和由抗体片段形成的多特异性抗体。在一个方面,本发明涉及一种寡核苷酸对,其包含第一寡核苷酸和第二寡核苷酸,其中:第一寡核苷酸包含第一转座酶识别序列,第二寡核苷酸包含第二转座酶识别序列,第一寡核苷酸包含第一标签序列和/或第二寡核苷酸包含第二标签序列。在一个实施方案中,第一转座酶识别序列与第二转座酶识别序列相同。在第一转座酶识别序列与第二转座酶识别序列相同的一个实施方案中,第一转座酶识别序列与第二转座酶识别序列同向。在第一转座酶识别序列与第二转座酶识别序列相同的一个实施方案中,第一转座酶识别序列与第二转座酶识别序列反向。在一个实施方案中,第一转座酶识别序列与第二转座酶识别序列不同。在一个实施方案中,第一寡核苷酸还包含第一测序固相结合序列和/或第一测序引物结合序列。在一个实施方案中,第二寡核苷酸还包含第二测序固相结合序列和/或第二测序引物结合序列。在一个实施方案中,第一标签序列和/或第二标签序列对应于下文的靶向模块和/或靶分子。在一个实施方案中,第一寡核苷酸和/或第二寡核苷酸还可以包含一种或多种别的标签序列,具有别的用途。在一个实施方案中,第一寡核苷酸和/或第二寡核苷酸为单链、双链或其组合。在一个实施方案中,第一寡核苷酸中的第一转座酶识别序列和/或第二寡核苷酸中的第二转座酶识别序列为双链。在一个实施方案中,第一寡核苷酸中除了第一转座酶识别序列以外的部分(例如第一测序固相结合序列、第一标签序列、和/或第一测序引物结合序列)和/或第二寡核苷酸中除了第二转座酶识别序列以外的部分(例如第二测序固相结合序列、第二标签序列、和/或第二测序引物结合序列)为单链。在一个实施方案中,第一测序固相结合序列和/或第二测序固相结合序列分别相对于测序固相上的第一固定化探针和/或第二固定化探针可以是截短的和/或延长的,例如截短和/或延长5’端和/或3’端至少1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个核苷酸或更多。在一个实施方案中,第一测序引物结合序列和/或第二测序引物结合序列分别相对于第一测序引物和/或第二测序引物可以是截短的和/或延长的,例如截短和/或延长5’端和/或3’端至少1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个核苷酸或更多在一个实施方案中,第一寡核苷酸以自5’端至3’端方向包含任选的第一测序固相结合序列(例如与测序固相的第一结合探针的序列相同或反向互补)、任选的第一标签序列、任选的第一测序引物结合序列(例如与第一测序引物的序列相同或反向互补)、和第一转座酶识别序列(正链(例如agatgtgtataagagacag,seqidno:9)或负链)。在一个实施方案中,第二寡核苷酸以自5’端至3’端方向包含任选的第二测序固相结合序列(例如与测序固相的第二结合探针的序列相同或反向互补)、任选的第二标签序列、任选的第二测序引物结合序列(例如与第二测序引物的序列相同或反向互补)、和第二转座酶识别序列(正链(例如agatgtgtataagagacag,seqidno:9)或负链)。在第一寡核苷酸中,第一标签序列与第一测序引物结合序列可以换位。在第二寡核苷酸中,第二标签序列与第二测序引物结合序列可以换位。在一个实施方案中,第一寡核苷酸以自5’端至3’端方向包含第一转座酶识别序列(负链(例如ctgtctcttatacacatct,seqidno:10)或正链)、任选的第一测序引物结合序列(例如与第一测序引物的序列反向互补或相同)、任选的第一标签序列、和任选的第一测序固相结合序列(例如与测序固相的第一结合探针的序列反向互补或相同)。在一个实施方案中,第二寡核苷酸以自5’端至3’端方向包含第二转座酶识别序列(负链(例如ctgtctcttatacacatct,seqidno:10)或正链)、任选的第二测序引物结合序列(例如与第二测序引物的序列反向互补或相同)、任选的第二标签序列、和任选的第二测序固相结合序列(例如与测序固相的第二结合探针的序列反向互补或相同)。在第一寡核苷酸中,第一标签序列与第一测序引物结合序列可以换位。在第二寡核苷酸中,第二标签序列与第二测序引物结合序列可以换位。测序固相的结合探针及其序列是本领域已知的。因而,本发明的测序固相结合序列(例如第一测序固相结合序列和/或第二测序固相结合序列)也是本领域已知的或容易得到的(参见各测序平台的使用说明书),例如iontorrent平台,illumina平台和华大平台的。例如,本发明的测序固相结合序列(例如第一测序固相结合序列和/或第二测序固相结合序列)可以是aatgatacggcgaccaccgagatctacac(seqidno:1)或其反向互补序列gtgtagatctcggtggtcgccgtatcatt(seqidno:2),或者是caagcagaagacggcatacgagat(seqidno:3)或其反向互补序列atctcgtatgccgtcttctgcttg(seqidno:4),包括它们的截短和/或延长序列。测序引物及其序列是本领域已知的。因而,本发明的测序引物结合序列(例如第一测序引物结合序列和/或第二测序引物结合序列)也是本领域已知的或容易得到的(参见各测序平台的使用说明书),例如iontorrent平台,illumina平台和华大平台的。例如,本发明的测序引物结合序列(例如第一测序引物结合序列和/或第二测序引物结合序列)可以是tcgtcggcagcgtc(seqidno:5)或其反向互补序列gacgctgccgacga(seqidno:6),或者是gtctcgtgggctcgg(seqidno:7)或其反向互补序列ccgagcccacgagac(seqidno:8),包括它们的截短和/或延长序列。本发明的标签序列(例如第一标签序列和/或第二标签序列)可以利用任何短寡核苷酸,例如长度为至少2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个或更多核苷酸。本发明的标签序列(例如第一标签序列和/或第二标签序列)可以利用当前或将来测序平台(包括但不限于iontorrent平台、illumina平台和华大平台)利用的标签序列。在一个实施方案中,第一寡核苷酸与第二寡核苷酸相连。在第一寡核苷酸和第二寡核苷酸相连的一个实施方案中,第一寡核苷酸和第二寡核苷酸以转座酶识别序列的相反端(例如测序固相结合序列端)连接。优选地,第一寡核苷酸和第二寡核苷酸之间存在断裂位点,例如限制性内切酶识别位点。在一个方面,本发明涉及一种带寡核苷酸标签的靶向性转座体复合物,其包含转座酶、本发明的寡核苷酸对、和靶向模块。在一个实施方案中,所述靶向模块是适体,即特异性结合靶分子的寡核苷酸。在一个实施方案中,所述靶向模块是抗体(包括抗体片段)。在一个实施方案中,所述靶向模块特异性结合与dna相互作用(例如,调控基因表达)的靶分子。在一个实施方案中,所述靶分子是组蛋白,包括其同等型、变体、片段。在一个实施方案中,所述靶分子是dna聚合酶,包括其同等型、变体、片段。在一个实施方案至,所述靶分子是rna聚合酶,包括其同等型、变体、片段。在一个实施方案中,所述靶分子是转录因子,例如ars结合因子、rdna增强子结合蛋白、tata结合蛋白、或ccctc结合因子。在一个实施方案中,所述靶分子是下述一种或多种:aaf、ab1、ada2、ada-nf1、af-1、afp1、ahr、aiin3、all-1、α-cbf、α-cp1、α-cp2a、α-cp2b、αho、αh2-αfb、alx-4、amef-2、aml1、aml1a、aml1b、aml1c、aml1δn、aml2、aml3、aml3a、aml3b、amy-1l、a-myb、anf、ap-1、ap-2αa、ap-2αb、ap-2β、ap-2γ、ap-3(1)、ap-3(2)、ap-4、ap-5、apc、ar、areb6、arnt、arnt(774m形式)、arp-1、atbf1-a、atbf1-b、atf、atf-1、atf-2、atf-3、atf-3δzip、atf-a、atf-aδ、atpf1、barhll、barhl2、barx1、barx2、bc1-3、bcl-6、bd73、β-连环蛋白、bin1、b-myb、bp1、bp2、brahma、brca1、brn-3a、brn-3b、brn-4、bteb、bteb2、b-tfiid、c/ebpα、c/ebpβ、c/ebpδ、cacc结合因子、cart-1、cbf(4)、cbf(5)、cbp、ccaat-结合因子、ccmt-结合因子、ccf、ccg1、cck-1a、cck-1b、cd28rc、cdk2、cdk9、cdx-1、cdx2、cdx-4、cff、chxlo、clim1、clim2、cnbp、cos、coup、cp1、cp1a、cp1c、cp2、cpbp、cpe结合蛋白、creb、creb-2、cre-bp1、cre-bpa、cremα、crf、crx、csbp-1、ctcf、ctf、ctf-1、ctf-2、ctf-3、ctf-5、ctf-7、cup、cutl1、cx、细胞周期蛋白a、细胞周期蛋白t1、细胞周期蛋白t2、细胞周期蛋白t2a、细胞周期蛋白t2b、dap、dax1、db1、dbf4、dbp、dbpa、dbpav、dbpb、ddb、ddb-1、ddb-2、def、δcreb、δmax、df-1、df-2、df-3、dlx-1、dlx-2、dlx-3、dix4(长同种型)、dlx-4(短同种型、dlx-5、dlx-6、dp-1、dp-2、dsif、dsif-p14、dsif-p160、dtf、dux1、dux2、dux3、dux4、e、e12、e2f、e2f e4、e2f p107、e2f-1、e2f-2、e2f-3、e2f-4、e2f-5、e2f-6、e47、e4bp4、e4f、e4f1、e4tf2、ear2、ebp-80、ec2、ef1、ef-c、egr1、egr2、egr3、eiiae-a、eiiae-b、eiiae-cα、eiiae-cβ、eivf、eif-1、eik-1、emx-1、emx-2、emx-2、en-1、en-2、enh-bind.prot.、enktf-1、epas1、εf1、er、erg-1、erg-2、err1、err2、etf、ets-1、ets-1δvil、ets-2、evx-1、f2f、因子2、factorname、fbp、f-ebp、fkbp59、fkhl18、fkhrl1p2、fli-1、fos、foxb1、foxc1、foxc2、foxd1、foxd2、foxd3、foxd4、foxe1、foxe3、foxf1、foxf2、foxgla、foxglb、foxglc、foxh1、foxi1、foxjla、foxjlb、foxj2(长同种型)、foxj2(短同种型)、foxj3、foxk1a、foxk1b、foxk1c、foxl1、foxm1a、foxm1b、foxm1c、foxn1、foxn2、foxn3、foxo1a、foxo1b、fox02、fox03a、fox03b、fox04、foxp1、foxp3、fra-1、fra-2、ftf、fts、g因子、g6因子、gabp、gabp-α、gabp-β1、gabp-β2、gadd153、gaf、γcmt、γcac1、γcac2、gata-1、gata-2、gata-3、gata-4、gata-5、gata-6、gbx-1、gbx-2、gcf、gcma、gcns、gf1、gli、gli3、grα、grβ、grf-1、gsc、gscl、gt-ic、gt-iia、gt-iibα、gt-iibβ、h1tf1、h1tf2、h2riibp、h4tf-1、h4tf-2、hand1、hand2、hb9、hdac1、hdac2、hdac3、hdaxx、热诱导的因子、heb、heb1-p67、heb1-p94、hef-1b、hef-1t、hef-4c、hen1、hen2、hesx1、hex、hif-1、hif-1α、hif-1β、hinf-a、hinf-b、hinf-c、hinf-d、hinf-d3、hinf-e、hinf-p、hip1、hiv-ep2、hlf、hltf、hltf(metl23)、hlx、hmbp、hmgi、hmgi(y)、hmgy、hmgi-c、hnf-1a、hnf-ib、hnf-1c、hnf-3、hnf-3α、hnf-3β、hnf-3γ、hnf4、hnf-4α、hnf4α1、hnf-4α2、hnf-4α3、hnf-4α4、hnf4γ、hnf-6α、hnrnpk、hox11、hoxa1、hoxa10、hoxa10pl2、hoxa11、hoxa13、hoxa2、hoxa3、hoxa4、hoxa5、hoxa6、hoxa7、hoxa9a、hoxa9b、hoxb-1、hoxb13、hoxb2、hoxb3、hoxb4、hoxbs、hoxb6、hoxa5、hoxb7、hoxb8、hoxb9、hoxc10、hoxc11、hoxc12、hoxc13、hoxc4、hoxc5、hoxc6、hoxc8、hoxc9、hoxd10、hoxd11、hoxd12、hoxd13、hoxd3、hoxd4、hoxd8、hoxd9、hp55、hp65、hpx42b、hrpf、hsf、hsf1(长)、hsf1(短)、hsf2、hsp56、hsp90、ibp-1、icer-ii、icer-liγ、icsbp、id1、id1h′、id2、id3、id3/heir-1、if1、igpe-1、igpe-2、igpe-3、iκb、iκb-α、iκb-β、iκbr、ii-1rf、il-6re-bp、11-6rf、insaf、ipf1、irf-1、irf-2、b、irx2a、irx-3、irx-4、isgf-1、isgf-3、isgf3α、isgf-3γ、lst-1、itf、itf-1、itf-2、jrf、jun、junb、jund、ky因子、kbp-1、ker1、ker-1、kox1、krf-1、ku自身抗原、kup、lbp-1、lbp-1a、lbx1、lcr-f1、lef-1、lef-1b、lf-a1、lhx1、lhx2、lhx3a、lhx3b、lhxs、lhx6.1a、lhx6.1b、lit-1、lmo1、lmo2、lmx1a、lmx1b、l-my1(长形式)、l-my1(短形式)、l-my2、lsf、lxrα、lyf-1、ly1-1、m因子、mad1、mash-1、max1、max2、maz、maz1、mb67、mbf1、mbf2、mbf3、mbp-1(1)、mbp-1(2)、mbp-2、mdbp、mef-2、mef-2b、mef-2c(433aa形式)、mef-2c(465aa形式)、mef-2c(473m形式)、mef-2c/δ32(441aa形式)、mef-2d00、mef-2d0b、mef-2da0、mef-2dao、mef-2dab、mef-2da′b、meis-1、meis-2a、meis-2b、meis-2c、meis-2d、meis-2e、meis3、meox1、meox1a、meox2、mhox(k-2)、mi、mif-1、miz-1、mm-1、mop3、mr、msx-1、msx-2、mtb-zf、mtf-1、mttf1、mxi1、myb、myc、myc1、myf-3、myf-4、myf-5、myf-6、myod、mzf-1、nci、nc2、ncx、nelf、ner1、net、nfill-a、nfnf-1、nf-1a、nf-1b、nf-1x、nf-4fa、nf-4fb、nf-4fc、nf-a、nf-ab、nfat-1、nf-at3、nf-atc、nf-atp、nf-atx、nfβa、nf-cleoa、nf-cleob、nfδe3a、nfδe3b、nfδe3c、nfδe4a、nfδe4b、nfδe4c、nfe、nf-e、nfe2、nf-e2p45、nf-e3、nfe-6、nf-gma、nf-gmb、nf-il-2a、nf-il-2b、nf-jun、nf-κb、nf-κb(样)、nf-κb1、nf-κb1、前体、nf-κb2、nf-κb2(p49)、nf-κb2前体、nf-κe1、nf-κe2、nf-κe3、nf-mhciia、nf-mhciib、nf-mue1、nf-mue2、nf-mue3、nf-s、nf-x、nf-x1、nf-x2、nf-x3、nfxc、nf-ya、nf-zc、nf-zz、nhp-1、nhp-2、nhp3、nhp4、nkx2-5、nkx2b、nkx2c、nkx2g、nkx3a、nkx3av1、nkx3av2、nkx3av3、nkx3av4、nkx3b、nkx6a、nmi、n-mvc、n-oct-2α、n-oct-2β、n-oct-3、n-oct-4、n-oct-5a、n-oct-5b、np-tcii、nr2e3、nr4a2、nrf1、nrf-1、nrf2、nrf-2β1、nrf-2γ1、nrl、nrsf形式1、nrsf形式2、ntf、02、oca-b、oct-1、oct-2、oct-2.1、oct-2b、oct-2c、oct-4a、oct4b、oct-5、oct-6、octa-因子、八聚体-结合因子、oct-b2、oct-b3、otx1、otx2、ozf、p107、p130、p28调节剂、p300、p38erg、p45、p49erg,-p53、p55、p55erg、p65δ、p67、pax-1、pax-2、pax-3、pax-3a、pax-3b、pax-4、pax-5、pax-6、pax-6/pd-5a、pax-7、pax-8、pax-8a、pax-8b、pax-8c、pax-8d、pax-8e、pax-8f、pax-9、pbx-1a、pbx-1b、pbx-2、pbx-3a、pbx-3b、pc2、pc4、pc5、pea3、pebp2α、pebp2β、pit-1、pitx1、pitx2、pitx3、pknox1、plzf、pob、pontin52、pparα、pparβ、pparγ1、pparγ2、ppur、pr、pra、prb、prd1-bf1、prdi-bfc、prop-1、pse1、p-tefb、ptf、ptfα、ptfβ、ptfδ、ptfγ、pubox结合因子、pubox结合因子(bja-b)、pu.1、puf、pur因子、r1、r2、rar-α1、rar-β、rar-β2、rar-γ、rar-γ1、rbp60、rbp-jκ、rel、rela、relb、rfx、rfx1、rfx2、rfx3、rfxs、rf-y、rorα1、rorα2、rorα3、rorβ、rorγ、rox、rpf1、rpgα、rreb-1、rsrfc4、rsrfc9、rvf、rxr-α、rxr-β、sap-1a、sap1b、sf-1、shox2a、shox2b、shoxa、shoxb、shp、siii-pl1o、siii-p15、siii-p18、sim′、six-1、six-2、six-3、six-4、six-5、six-6、smad-1、smad-2、smad-3、smad-4、smad-5、sox-11、sox-12、sox-4、sox-5、sox-9、sp1、sp2、sp3、sp4、sph因子、spi-b、spin、srcap、srebp-1a、srebp-1b、srebp-1c、srebp-2、sre-zbp、srf、sry、srp1、staf-50、stat1α、stat1β、stat2、stat3、stat4、stat6、t3r、t3r-α1、t3r-α2、t3r-β、taf(i)110、taf(i)48、taf(i)63、taf(ii)100、taf(ii)125、taf(ii)135、taf(ii)170、taf(ii)18、taf(ii)20、taf(ii)250、taf(ii)250δ、taf(ii)28、taf(ii)30、taf(ii)31、taf(ii)55、taf(ii)70-α、taf(ii)70-β、taf(ii)70-γ、taf-i、taf-ii、taf-l、tal-1、tal-1β、tal-2、tar因子、tbp、tbxia、tbxib、tbx2、tbx4、tbxs(长同种型)、tbxs(短同种型)、tcf、tcf-1、tcf-1a、tcf-1b、tcf-1c、tcf-1d、tcf-1e、tcf-1f、tcf-1g、tcf-2α、tcf-3、tcf-4、tcf-4(k)、tcf-4b、tcf-4e、tcfβ1、tef-1、tef-2、tel、tfe3、tfeb、tfiia、tfiia-αβ前体、tfiia-α/β前体、tfiia-γ、tfiib、tfiid、tfiie、tfiie-α、tfiie-β、tfiif、tfiif-α、tfiif-β、tfiih、tfiih*、tfiih-cak、tfiih-细胞周期蛋白h、tfiih-ercc2/cak、tfiih-mat1、tfiih-m015、tfiih-p34、tfiih-p44、tfiih-p62、tfiih-p80、tfiih-p90、tfii-i、tf-lf1、tf-lf2、tgif、tgif2、tgt3、thra1、tif2、tle1、tlx3、tmf、tr2、tr2-11、tr2-9、tr3、tr4、trap、treb-1、treb-2、treb-3、tref1、tref2、trf(2)、ttf-1、txrebp、txref、ubf、ubp-1、uef-1、uef-2、uef-3、uef-4、usf1、usf2、usf2b、vav、vax-2、vdr、vhnf-1a、vhnf1b、vhnf-1c、vitf、wstf、wt1、wt1i、wt1i-kts、wt1i-del2、wt1-kts、wt1-del2、x2bp、xbp-1、xw-v、xx、yaf2、yb-1、yebp、yy1、zeb、zf1、zf2、zfx、zhx1、zic2、zid、znf174、ash1l、ash2、atf2、asxl1、bap1、bcllo、bmi1、brg1、carm1、kat3a/cbp、cdc73、chd1、chd2、ctcf、dnmt1、dotl1、ehmt1、eset、ezh1、ezh2、fbxl10、frp(plu-1)、hdac1、hdac2、hmga1、hnrnpa1、hp1γ、hsetlb、jaridla、jaridlc、kiaa1718jhdm1d、kat5、kmt4、lsd1、nfkbp100、nsd2、mbd2、mbd3、mll2、mll4、p300、prb、rbap46/48、rbp1、rbbp5、ringib、rnapoliips2、rnapoliips5、roc1、sap30、setdb1、sf3b1、sirt1、sirt6、smyd1、sp1、suv39h1、suz12、tcf4、tet1、trrap、trx2、wdr5、wdr77和/或yy1。在一个实施方案中,所述转座酶与所述靶向模块共价联合,例如通过融合或化学偶联。在一个实施方案中,所述融合为直接的或间接的。在一个实施方案中,所述转座酶与所述靶向模块优选非共价联合。在一个实施方案中,所述转座酶与结合对的一个成员融合或偶联,且所述靶向模块与结合对的另一个成员融合或偶联。在一个实施方案中,所述结合对是生物素-亲合素、生物素-链霉亲合素、配体-受体、酶-底物或互补寡核苷酸。在所述靶向模块是抗体的一个实施方案中,所述转座酶与抗体结合蛋白融合。在一个实施方案中,所述抗体结合蛋白是蛋白a、蛋白g、fc受体、或二抗。在上述任一方面的一个实施方案中,所述转座酶是本领域已知的或将来发现的转座酶,例如tn5转座酶、mu转座酶、is5转座酶或is91转座酶,包括野生型和突变型(参见例如cn1367840a、cn109400714a、us6406896b1、us20040235103a1)。在一个实施方案中,所述转座酶是高活性tn5转座酶,例如ek/lptn5转座酶。在一个实施方案中,所述转座酶是tn5转座酶突变体,例如包含e58v、l372q、e344k、d97e、d188e、e326d中的一处或多处替代。在一个实施方案中,所述转座酶识别序列是本领域已知的或将来发现的转座酶识别序列,例如tn5型转座酶识别序列,例如内末端(ie)或外末端(oe),包括其野生型和突变型,以及甲基化形式(me),例如19bptn5核心末端序列(agatgtgtataagagacag,seqidno:9)或其反向互补序列(ctgtctcttatacacatct,seqidno:10)。在一个实施方案中,所述转座酶识别序列是mu转座酶识别序列、is5转座酶识别序列或is91转座酶识别序列,包括野生型和突变型。在一个实施方案中,所述第一寡核苷酸中的第一标签序列和/或第二寡核苷酸中的第二标签序列对于所述靶向模块而言是专一的。在一个方面,本发明涉及一种混合物,其至少包含本发明的第一复合物和第二复合物,其中所述第一复合物中的靶向模块特异性结合第一靶分子,所述第二复合物中的靶向模块特异性结合第二靶分子,所述第一靶分子与所述第二靶分子不同。在一个实施方案中,本发明的混合物涉及一组靶向模块。在一个实施方案中,所述一组靶向模块中的不同靶向模块对应于相同的第一标签序列和不同的第二标签序列。在一个实施方案中,所述一组靶向模块中的不同靶向模块对应于不同的第一标签序列和相同的第二标签序列。在一个实施方案中,所述一组靶向模块中的不同靶向模块对应于不同的第一标签序列和不同的第二标签序列。在一个实施方案中,本发明的混合物涉及多组靶向模块。在一个实施方案中,所述多组靶向模块中的不同组靶向模块对应于不同的第一标签序列,同一组靶向模块中的不同靶向模块对应于相同的第一标签序列和不同的第二标签序列。在一个实施方案中,所述多组靶向模块中的不同组靶向模块对应于不同的第二标签序列,同一组靶向模块中的不同靶向模块对应于相同的第二标签序列和不同的第一标签序列。在一个方面,本发明涉及一种制备用于同时研究多种靶分子与dna的相互作用的核酸文库的方法,其包括:获得本发明的混合物,其包含针对多种靶分子的多种复合物,即包含针对所述多种靶分子中每一种的复合物;获得多种靶分子与dna相互作用的样品;使所述混合物与所述样品反应,使得靶向模块结合相应靶分子,转座酶将dna片段化并在dna片段两侧加上相应标签序列;和回收带标签的dna片段,得到核酸文库。在一个实施方案中,该方法还包括纯化和/或扩增回收的dna片段。在一个方面,本发明涉及一种同时鉴定多种靶分子在dna上的作用位点的方法,其包括:获得本发明的混合物,其包含针对多种靶分子的多种复合物,即包含针对所述多种靶分子中每一种的复合物;获得多种靶分子与dna作用的样品;使所述混合物与所述样品反应,使得靶向模块结合相应靶分子,转座酶将dna片段化并在dna片段两侧加上相应标签序列;回收带标签的dna片段;并对回收的dna片段测序,其中与标签序列对应的测序得到的序列指示与该标签序列对应的靶分子在dna上的作用位点。在一个实施方案中,该方法还包括纯化和/或扩增回收的dna片段。在一个实施方案中,所述方法还包括分析测序结果。在一个实施方案中,分析测序结果包括汇总与相同第一标签序列和/或相同第二标签序列对应(例如包含)的测序读出。例如,在针对靶分子a的靶向模块对应于标签序列a1和a2、针对靶分子b的靶向模块对应于标签序列b1和b2的情况中,将与标签序列a1或a2对应的测序读出归在靶分子a下,所述测序读出中的插入物序列为与靶分子a相互作用的dna位点;将与标签序列b1或b2对应的测序读出归在靶分子b下,所述测序读出中的插入物序列为与靶分子b相互作用的dna位点。又例如,在针对a组靶分子的靶向模块均对应于相同的标签序列a且针对a组内靶分子ab1、ab2......的靶向模块依次对应于独特的标签序列b1、b2......的情况中,将与标签序列a对应的测序读出均归在a组靶分子下,且将与标签序列b1对应的测序读出归在靶分子ab1下,将与标签序列b2对应的测序读出归在靶分子ab2下......在一个实施方案中,所述复合物中的转座酶是无活性的。在一个实施方案中,所述方法还包括激活转座酶的步骤,例如添加二价阳离子,例如mg2 。在一个实施方案中,该方法还包括添加靶分子-dna相互作用的调控剂。在一个实施方案中,该方法还包括比较添加调控剂的样品与不添加调控剂的样品的测序结果。在一个实施方案中,该方法还包括改变靶分子-dna相互作用的反应条件。在一个实施方案中,该方法还包括比较不同反应条件下的样品的测序结果。测序结果可以是定性的、半定量的、定量的或其任意组合。在一个实施方案中,所述样品为细胞或其衍生物。在一个实施方案中,所述细胞为原核细胞或真核细胞。在一个实施方案中,所述样品为细胞核、细胞质或细胞器或其衍生物。在一个实施方案中,所述样品为细胞裂解物。在一个实施方案中,所述方法包括透化细胞的步骤,例如添加洋地黄皂苷。在一个实施方案中,所述dna是基因组、染色体或染色质,例如原核生物或真核生物的。附图简述图1显示实施例2的文库质量评价。图2显示实施例2的tss富集。图3显示实施例2的igv视图。图4显示实施例3的文库质量评价。图5显示实施例3的tss富集。图6显示实施例3的igv视图。图7显示本发明构建的核酸文库的例示性实施方案的示意图。具体实施方式材料实施例中使用的转座酶为南京诺唯赞生物科技股份有限公司hyperactivepg-tn5transposaseforcut&tag(货号s602)或hyperactivepa-tn5transposaseforcut&tag(货号s603)。h3k4me2抗体来自abcam,货号:ab11946;ctcf抗体来自cst,货号:3418s;rnapolii抗体来自abcam,货号:ab817;h3k27me3抗体来自cst,货号:#9733s;h3k27ac抗体来自abcam,货号:ab4729。本发明的方法具有普适性,适用于各种测序平台,例如iontorrent平台,illumina平台和华大平台。实施例以illumina平台为例。如果采用别的测序平台,只需要将下文寡核苷酸中illumina平台采用的固定化探针和测序引物的序列或其反向互补序列替换为别的平台的相应序列。寡核苷酸1(seqidno:10):5’-phos-ctgtctcttatacacatct-nh2-3’寡核苷酸2(seqidno:11):寡核苷酸3(seqidno:12):其中代表索引序列(索引序列长度8个核苷酸是例示性的,而非限制性的),加粗区段为测序引物结合序列(与测序使用的引物的序列相同),下划线区段为转座酶结合的甲基化19bp核心末端序列,斜体区段为测序芯片结合序列(与测序芯片使用的固定化探针的序列相同)。在备选的实施方案中,寡核苷酸2和寡核苷酸3可以删除斜体区段的5’部分的若干碱基,保留斜体区段的3’部分的至少四个碱基。扩增引物1(seqidno:1):5’-aatgatacggcgaccaccgagatctacac-3’扩增引物2(seqidno:3):5’-caagcagaagacggcatacgagat-3’扩增引物1(n5)与寡核苷酸2的完整斜体区段相同,扩增引物2(n7)与寡核苷酸3的完整斜体区段相同。上文三种寡核苷酸序列的一个备选实施方案如下:寡核苷酸1’(seqidno:9):5’-phos-agatgtgtataagagacag-nh2-3’寡核苷酸2’(seqidno:13):寡核苷酸3’(seqidno:14):上文寡核苷酸2、寡核苷酸2’、寡核苷酸3和寡核苷酸3’构成本发明的又一个备选实施方案。实施例2中采用的索引:实施例3中采用的索引:illumina文库结构如下:其中,-mmmmmm-代表插入序列(插入序列长度6个核苷酸是例示性的,而非限制性的),其它区段含义同上文。实施例1:转座体(衔接头-转座酶复合物)制备按照s602产品说明书进行包埋,步骤如下:1.衔接头退火:(1)使用annealingbuffer(vazyme,#s602)分别溶解寡核苷酸1、寡核苷酸2、寡核苷酸3至100μm;(2)将寡核苷酸1与寡核苷酸2等摩尔混合得到反应1,将寡核苷酸1与寡核苷酸3等摩尔混合得到反应2;(3)分别将反应1和反应2涡旋震荡充分混匀,并短暂离心使溶液回到管底。置于pcr仪内,进行如下反应程序:热盖105℃75℃15min60℃10min50℃10min40℃10min25℃30min(4)将反应1和反应2等体积混合,混匀。命名为adaptermix,于-30至-15℃保存。2.组装转座体(衔接头-转座酶复合物)(1)在灭菌pcr管中依次添加各反应组分:(2)混匀。(3)置于30℃反应1小时。反应产物为转座体(衔接头-转座酶复合物),可直接应用于后续实验,或于-30至-15℃保存。按照此反应体系制备的转座体终浓度为4μm。将转座酶与含有不同索引的衔接头对进行包埋,根据所使用的索引分别标记为转座体1,转座体2,转座体3......实施例2:本实施例用于同时研究细胞中组蛋白修饰、转录因子和rnapolii与基因组dna的结合情况。所用的洗涤缓冲液,反应缓冲液,终止缓冲液配方如下:洗涤缓冲液1:来自vazyme,#td901,washbuffer,洗涤缓冲液2:来自vazyme,#td901,dig-washbuffer,反应缓冲液:来自vazyme,#td901,tagmentationbuffer,终止缓冲液:来自vazyme,#td901,terminationbuffer。本实施例具体流程如下:1.取3支1.5mlep管,加入10μl洗涤缓冲液2,分别加入1μl包埋后的转座体1,转座体2,转座体3,向3个ep管中分别加入0.5μg相应抗体,在4℃孵育30min,使得转座体与抗体充分结合,得到转座体1-h3k4me2抗体、转座体2-ctcf抗体和转座体3-rnapolii抗体,三种转座体-抗体复合物;2.收集约100,000个常规体外培养的293t细胞,用pbs洗1次,离心收集细胞后用洗涤缓冲液1洗1次;3.用洗涤缓冲液2重悬细胞,同时加入步骤1中得到的三种转座体-抗体复合物,4℃或室温条件下旋转孵育30min;4.用洗涤缓冲液2洗涤细胞3次,除去没有结合的转座体-抗体复合物;5.用反应缓冲液重悬细胞,37℃孵育30min;6.加入终止缓冲液终止反应,并用酚-氯仿进行dna纯化;7.纯化好的dna直接进行pcr扩增完成建库。扩增体系:组分体积dna纯化产物24μl5×tab(vazyme,#td501)10μltae(vazyme,#td501)1μln5引物(4μm)5μln7引物(4μm)5μlddh2o5μlpcr反应程序,热盖设置为105℃,根据实际情况调整扩增循环数。8.扩增产物纯化使用vahtsdnacleanbeads(vazyme,#n411)依照说明书纯化扩增产物。9.qubit检测文库浓度使用qubit3.0fluorometer(invitrogen)对所得文库进行浓度测定,计算文库产出。文库浓度为34.8ng/μl(22μl洗脱体积)。10.用agilent2100bioanalyzer评价文库质量取1μl纯化后的pcr产物,用agilentdna1000kit(agilent,cat.no.5067-1504)进行分析。结果见图1。11.测序将完成建库的文库用于illumina平台二代测序,hiseqx,pe150bp。测序结果见表1及图2和图3。表1sampleh3k4me2ctcfrnapoliicleanreads297989041971980414156980q200.976750.983350.9757q300.938150.9540.9362mappingrate96.41%95.18%97.64%duplicaterate24.91%23.60%17.67%peaknumber171781813215024由表1中数据可知,从reads数、q20、q30、mappingrate、duplicationrate和peaknumber等信息来看,本mtchip-seq实验流程得到的文库质量高,dup比例低,从图2的tss富集情况和图3的ivg视图来看,在同一样本中同时检测组蛋白、转录因子和rnapolii均可获得较好的样本富集且文库信噪比高。实施例3本实施例提供一种同时研究组蛋白甲基化和乙酰化修饰的方法,本实施例具体流程如下:1.称取新鲜c57bl/6成年小鼠肝脏100mg,使用细胞核提取试剂盒(solarbio,货号:sn0020)进行组织细胞核提取;2.取2支1.5mlep管,加入10μl洗涤缓冲液2,加入1μl包埋后的转座体4和转座体5,向2个ep管中分别加入0.5μg相应抗体,在4℃孵育30min,使得转座体与抗体充分结合,得到转座体4-h3k27me3抗体和转座体5-h3k27ac抗体;3.取2μl组织细胞核,溶于洗涤缓冲液1,离心其上清;4.用洗涤缓冲液2重悬细胞核,同时加入步骤2中得到的两种转座体-抗体复合物,4℃或室温条件下旋转孵育30min;5.用洗涤缓冲液2洗涤细胞核3次,除去没有结合的转座体-抗体复合物;6.用反应缓冲液重悬细胞,37℃孵育30min;7.加入终止缓冲液终止反应,并用酚-氯仿进行dna纯化;8.如实施例2所述,纯化好的dna直接进行pcr扩增完成建库;9.如实施例2所述,用磁珠纯化扩增产物;10.如实施例2所述,用qubit检测文库产量;文库浓度为57.4ng/μl(22μl洗脱体积);11.如实施例2所述,用agilent2100bioanalyzer评价文库质量。结果见图4;12.如实施例2所述,将完成建库的文库用于二代测序。测序结果见表2及图5和图6。表2sampleh3k27me3h3k27accleanreads1817739825042324q200.981650.98225q300.94580.94655mappingrate95.45%97.16%duplicaterate19.52%16.39%peaknumber4406929598由表2中数据可知,从reads数、q20、q30、mappingrate、duplicationrate和peaknumber等信息来看,本mtchip-seq实验流程得到的文库质量高,dup比例低,从图5的tss富集情况和图6的ivg视图来看,在同一样本中可以同时检测组蛋白的甲基化和乙酰化修饰,可获得较好的样本富集且文库信噪比高。序列表<110>南京诺唯赞生物科技股份有限公司<120>多靶点蛋白质-dna相互作用的研究方法和工具<130>2021.01.06<160>25<170>patentinversion3.5<210>1<211>29<212>dna<213>人工序列<220><223>第一测序固相结合序列f<400>1aatgatacggcgaccaccgagatctacac29<210>2<211>29<212>dna<213>人工序列<220><223>第一测序固相结合序列r<400>2gtgtagatctcggtggtcgccgtatcatt29<210>3<211>24<212>dna<213>人工序列<220><223>第二测序固相结合序列f<400>3caagcagaagacggcatacgagat24<210>4<211>24<212>dna<213>人工序列<220><223>第二测序固相结合序列r<400>4atctcgtatgccgtcttctgcttg24<210>5<211>14<212>dna<213>人工序列<220><223>第一测序引物结合序列f<400>5tcgtcggcagcgtc14<210>6<211>14<212>dna<213>人工序列<220><223>第一测序引物结合序列r<400>6gacgctgccgacga14<210>7<211>15<212>dna<213>人工序列<220><223>第二测序引物结合序列f<400>7gtctcgtgggctcgg15<210>8<211>15<212>dna<213>人工序列<220><223>第二测序引物结合序列r<400>8ccgagcccacgagac15<210>9<211>19<212>dna<213>人工序列<220><223>tn5核心末端序列f<400>9agatgtgtataagagacag19<210>10<211>19<212>dna<213>人工序列<220><223>tn5核心末端序列r<400>10ctgtctcttatacacatct19<210>11<211>70<212>dna<213>人工序列<220><223>寡核苷酸2<220><221>混杂特征<222>(30)..(37)<223>n是a或t或c或g<400>11aatgatacggcgaccaccgagatctacacnnnnnnnntcgtcggcagcgtcagatgtgta60taagagacag70<210>12<211>66<212>dna<213>人工序列<220><223>寡核苷酸3<220><221>混杂特征<222>(25)..(32)<223>n是a或t或c或g<400>12caagcagaagacggcatacgagatnnnnnnnngtctcgtgggctcggagatgtgtataag60agacag66<210>13<211>70<212>dna<213>人工序列<220><223>寡核苷酸2’<220><221>混杂特征<222>(34)..(41)<223>n是a或t或c或g<400>13ctgtctcttatacacatctgacgctgccgacgannnnnnnngtgtagatctcggtggtcg60ccgtatcatt70<210>14<211>66<212>dna<213>人工序列<220><223>寡核苷酸3’<220><221>混杂特征<222>(35)..(42)<223>n是a或t或c或g<400>14ctgtctcttatacacatctccgagcccacgagacnnnnnnnnatctcgtatgccgtcttc60tgcttg66<210>15<211>8<212>dna<213>人工序列<220><223>实施例2所用标签序列1<400>15attagacg8<210>16<211>8<212>dna<213>人工序列<220><223>实施例2所用标签序列2<400>16ctctctac8<210>17<211>8<212>dna<213>人工序列<220><223>实施例2所用标签序列3<400>17cggagaga8<210>18<211>8<212>dna<213>人工序列<220><223>实施例2所用标签序列4<400>18cgaggctg8<210>19<211>8<212>dna<213>人工序列<220><223>实施例2所用标签序列5<400>19ctagtcga8<210>20<211>8<212>dna<213>人工序列<220><223>实施例2所用标签序列6<400>20aagaggca8<210>21<211>8<212>dna<213>人工序列<220><223>实施例3所用标签序列1<400>21agaggata8<210>22<211>8<212>dna<213>人工序列<220><223>实施例3所用标签序列2<400>22atgcgcag8<210>23<211>8<212>dna<213>人工序列<220><223>实施例3所用标签序列3<400>23ctccttac8<210>24<211>8<212>dna<213>人工序列<220><223>实施例3所用标签序列4<400>24tagcgctc8<210>25<211>142<212>dna<213>人工序列<220><223>illumina文库组装序列<220><221>混杂特征<222>(30)..(37)<223>n是a或t或c或g<220><221>混杂特征<222>(71)..(76)<223>m是a或t或c或g<220><221>混杂特征<222>(111)..(118)<223>n是a或t或c或g<400>25aatgatacggcgaccaccgagatctacacnnnnnnnntcgtcggcagcgtcagatgtgta60taagagacagmmmmmmctgtctcttatacacatctccgagcccacgagacnnnnnnnnat120ctcgtatgccgtcttctgcttg142当前第1页12
转载请注明原文地址:https://doc.8miu.com/read-567740.html