in python

前提开这个坑是因为转移到 macOS 平台以后, SS 客户端并没有 Windows 客户端的高可用等选项。所以使用了 macOS 自带的 Python (2.7.10)构建了这个测速系统。简述你可以在这里看到所有的实现过程。但目前为止,使用起来很麻烦,不过至少我是能够使用了。我对服务器进行了...

in python自然语言处理

简介在爬虫爬取某些网站的文章时,经常会遇到恶意批量刷文章的行为。这些文章的url不尽相同,无法使用url进行过滤。这就导致了抓取了大量的,重复数据。但数学告诉我们,这事儿简单。当然,不仅仅可以去除重复的文章。反过来讲,也可以归类近似的文章。TF-IDFTF-IDF 实现原理在介绍之前,是否还有...

in python

在自动化测试中,有很多时候需要保存网页截图,来记录当前页面的状态。目前的自动化测试,较为常用的是使用 Selenium + Webdriver 组成。随着 Chrome 推出了 Headless 模式,这对传统的 PhantomJS 带来了很大的冲击。

in python

问题分析首先,我认为存在即为合理。这种提示并非说是MySQL的问题,而是我们程序的问题。 我举一个简单的例子,在很多爬虫项目中,我曾尝试使用PyMySQL来创建MySQL连接来进行相关的数据库操作。这样看着似乎没有什么问题,但当使用多线程以后,会发现原本创建的连接无法使用。这是因为:在PEP...

in 默认分类

这是我也不知道第几次迁移这个没几个人看的博客了。