0%

前言

为了简化后续爬虫项目上线的步骤和流程,把爬虫API和定时任务的项目整合在一块了,由于涉及到相关的服务较多,也需要遵循修改服务、启动的先后顺序(不然该启动的服务没开,后续相关的服务受影响就尴尬了),所以在上线前,用了将近一个上午的时间,整理了一个上线流程。在上线时能够提供一些清晰的帮助。

上线步骤

包安装

安装grequests、itemadapter包

在工作中,已经陆陆续续使用爬虫做需求将近半年时间了,在这半年时间里,从一个python小白到爬虫入门,再至功能实现。从上午PHP到下午Python忙的焦头烂额到现在的PHP/Python随心切换,其中的曲折不言而喻,也着实走了不少弯路。但好在功夫不负有心人,在半年的时光里,使用Python的同时也和它一起成长。如今总结一下,希望可以帮助到有需要的同学。

学习篇

python

从最开始接触爬虫,首先最需要了解的就是python的环境搭建、语法及特性,网络上有很多相关的教程,以下列举几个我在学习过程中使用到的教程,对于Python的快速入门都能起到很大的作用

  • 廖雪峰老师的 Python教程 ,最先就是在这里开启Python之旅的。一边看文章学习一边跟着写写demo

  • 菜鸟教程里的 Python基础教程 也可以作为快速学习使用

  • Python3文档 ,在忘记一些函数的时候可以很快速的找到

前言

当我们在爬取网页的时候,有部分是静态的,这种类型的网页,我们采用一般的方法就能很容易爬取到数据。但有些网页爬取的门槛还是有的,是动态的,是通过js渲染(包括ajax)出来的,这类型的网页采取一般的爬取方式就不行了,会出现爬取不到指定的数据。这时候,就要换种思路来解决了。所谓道高一尺,魔高一丈。本篇文章来介绍一下采用Splash和selenium来爬取动态网页,并对比一下两者的区别。

隧道

隧道是埋置于地层内的工程建筑物,是人类利用地下空间的一种形式。隧道可分为交通隧道、水工隧道、市政隧道、矿山隧道。 –来源百度百科

emmmmmmmm…

前言

之前调试mysql,查看数据,修改数据的时候,命令行又不方便,总是会想到搞个mysql的远程账号,来访问数据库。久而久之就养成了这样的习惯,把3306端口暴漏出去,没有想到安全问题。最近在大佬的指引下,接触到了隧道的方式,觉得挺好用的,在不暴漏端口号的情况下,能像远程连接一般自如的查看mysql,很受用,现在分享出来。

前言

本文摘录于李运华老师的[《从0开始学架构》][1]课程,为精简总结。

复杂度

计算高可用架构复杂度主要体现在任务管理方面。旨当任务在某台服务器执行失败后,如何重新分配新的服务器

设计关键

1、 哪些服务器可以执行任务

  1. 每个服务器都可以执行任务

  2. 特定服务器可以执行任务,当特定服务器故障后,选定新的服务器作为特定服务器

原文地址:[Linux-CentOS7下安装LNMP环境笔记–ncsb][1]

1. 设置yum源

PHP源官方地址: [https://webtatic.com/][2]

mysql源官方地址: [https://dev.mysql.com/downloads/repo/yum/][3]

 1
 2
 3
 4
 5
 6
 7
 8
 9
10

rpm -Uvh https://dl.Fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm



rpm -Uvh https://mirror.webtatic.com/yum/el7/webtatic-release.rpm



rpm -Uvh  http://dev.mysql.com/get/mysql57-community-release-el7-9.noarch.rpm