有时候在安装PHP的时候,会漏掉一些平时不太常用的扩展,到以后再要去安装的时候,时常会因为版本不对出现各种问题,本文主要介绍一下通过简单几步安装扩展的方式。

阅读全文 »

2020已经过去快两个月了,才有(想)时(起)间(来)写一下过去一年的总结。其实在年初的时候,各大社区在做有关【2020总结】的时候就想参与一下,但是一直没有提起日程。对于过去一年的回顾以及新的一年的展望就从这篇文章开始吧。

阅读全文 »

前言

为了简化后续爬虫项目上线的步骤和流程,把爬虫API和定时任务的项目整合在一块了,由于涉及到相关的服务较多,也需要遵循修改服务、启动的先后顺序(不然该启动的服务没开,后续相关的服务受影响就尴尬了),所以在上线前,用了将近一个上午的时间,整理了一个上线流程。在上线时能够提供一些清晰的帮助。

上线步骤

包安装

安装grequests、itemadapter包

阅读全文 »

在工作中,已经陆陆续续使用爬虫做需求将近半年时间了,在这半年时间里,从一个python小白到爬虫入门,再至功能实现。从上午PHP到下午Python忙的焦头烂额到现在的PHP/Python随心切换,其中的曲折不言而喻,也着实走了不少弯路。但好在功夫不负有心人,在半年的时光里,使用Python的同时也和它一起成长。如今总结一下,希望可以帮助到有需要的同学。

学习篇

python

从最开始接触爬虫,首先最需要了解的就是python的环境搭建、语法及特性,网络上有很多相关的教程,以下列举几个我在学习过程中使用到的教程,对于Python的快速入门都能起到很大的作用

  • 廖雪峰老师的Python教程,最先就是在这里开启Python之旅的。一边看文章学习一边跟着写写demo

  • 菜鸟教程里的Python基础教程也可以作为快速学习使用

  • Python3文档,在忘记一些函数的时候可以很快速的找到

阅读全文 »

python 爬虫

前言

当我们在爬取网页的时候,有部分是静态的,这种类型的网页,我们采用一般的方法就能很容易爬取到数据。但有些网页爬取的门槛还是有的,是动态的,是通过js渲染(包括ajax)出来的,这类型的网页采取一般的爬取方式就不行了,会出现爬取不到指定的数据。这时候,就要换种思路来解决了。所谓道高一尺,魔高一丈。本篇文章来介绍一下采用Splash和selenium来爬取动态网页,并对比一下两者的区别。

阅读全文 »

隧道

隧道是埋置于地层内的工程建筑物,是人类利用地下空间的一种形式。隧道可分为交通隧道、水工隧道、市政隧道、矿山隧道。 --来源百度百科

emmmmmmmm...

前言

之前调试mysql,查看数据,修改数据的时候,命令行又不方便,总是会想到搞个mysql的远程账号,来访问数据库。久而久之就养成了这样的习惯,把3306端口暴漏出去,没有想到安全问题。最近在大佬的指引下,接触到了隧道的方式,觉得挺好用的,在不暴漏端口号的情况下,能像远程连接一般自如的查看mysql,很受用,现在分享出来。

阅读全文 »