注册 登录

清河洛

您现在的位置是:清河洛 > 后端服务

后端服务

  • 使用slenium + driver实现万能爬虫

    通常各大网站都会有一定的反爬机制,既为了数据安全,也为了减小服务器压力,而常见反爬的手段都是识别非浏览器客户端,而selenium所做的事情,就是驱动真正的浏览器去执行请求和操作,只不过信号不是来源于鼠标,而是来源于selenium的API(selenium本是一个自动化的测试工具)自然人用户能做的一切,selenium几乎都可以通过API驱动浏览器去做,包括输入、点击、滑动,删除cookie等等selenium有很多语言的版本,如java,ruby,python等,python使用pip install selenium就可以安装1、chrome:https://sites.googl...

    2020-04-23
  • python中实现XPath的lxml模块

    lxml是一个HTML/XML的解析器,主要功能是解析和提取数据,在解析HTML的时候,如果HTML代码不规范,该模块会自动补全。使用pip install lxml安装模块1、导入模块 from lxml import etree 2、解析文件或字符串为HTML文档并返回 etree.parse(filename,parser=None) 加载指定文件内容并使用parser指定的解析器解析,默认使用XML解析器 myparser=etree.HTMLParser(encoding="utf-8") etree.HTMLParser方法返回HTML解析器 ...

    2020-04-06
  • python中实现队列的queue模块

    python中的queue模块提供了同步的、线程安全的队列类,包括FIFO(先进先出)的Queue类和LIFO(后进先出,栈结构)LifoQueue类和优先队列PriorityQueue类,它们都实现了锁原语(可以理解为原子操作,要么不做,要么就全部做完),解决了python多线程编程中的线程不安全。队列与列表的区别队列中数据只有一份,取出就没有了,列表数据取出只是复制了一份1、初始化一个队列 Queue(maxsize=0) 或者 LifoQueue(maxsize=0) 或者 PriorityQueue(maxsize=0) maxsize是个整数,指...

    2020-04-06
  • python中的requests库

    python中内置的urllib模块用于访问网络资源,但是它用起来比较麻烦,而且缺少很多实用的高级功能。更好的方案是使用requests,它是一个Python第三方库,处理URL资源特别方便。使用pip install requests安装requests模块一、发送请求发送get请求: requests.get(url,params=None,**kwargs) params是一个字典,表示要传递的数据(get方法可以直接在url中传递数据但是数据需要进行urlencode编码,使用该属性值不需要编码)发送post请求: requests.post(url,data...

    2020-03-30
  • urllib模块中处理cookie信息

    在python中使用urllib库处理cookie,一般通过http.cookiejar模块和urllib模块的HTTPCookieProcessor处理器类一起使用http.cookiejar模块主要作用是提供用于存储cookie到对象HTTPCookieProcessor处理器的主要作用是处理这些cookie对象,并构建handler对象http.cookiejar模块主要的类有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJarCookieJar类管理HTTP cookie值、存储HTTP请求生成到cookie、向传出的HTTP...

    2020-03-30


网址导航