在工作中,已经陆陆续续使用爬虫做需求将近半年时间了,在这半年时间里,从一个python小白到爬虫入门,再至功能实现。从上午PHP到下午Python忙的焦头烂额到现在的PHP/Python随心切换,其中的曲折不言而喻,也着实走了不少弯路。但好在功夫不负有心人,在半年的时光里,使用Python的同时也和它一起成长。如今总结一下,希望可以帮助到有需要的同学。

学习篇

python

从最开始接触爬虫,首先最需要了解的就是python的环境搭建、语法及特性,网络上有很多相关的教程,以下列举几个我在学习过程中使用到的教程,对于Python的快速入门都能起到很大的作用

  • 廖雪峰老师的Python教程,最先就是在这里开启Python之旅的。一边看文章学习一边跟着写写demo

  • 菜鸟教程里的Python基础教程也可以作为快速学习使用

  • Python3文档,在忘记一些函数的时候可以很快速的找到

阅读全文 »

python 爬虫

前言

当我们在爬取网页的时候,有部分是静态的,这种类型的网页,我们采用一般的方法就能很容易爬取到数据。但有些网页爬取的门槛还是有的,是动态的,是通过js渲染(包括ajax)出来的,这类型的网页采取一般的爬取方式就不行了,会出现爬取不到指定的数据。这时候,就要换种思路来解决了。所谓道高一尺,魔高一丈。本篇文章来介绍一下采用Splash和selenium来爬取动态网页,并对比一下两者的区别。

阅读全文 »

隧道

隧道是埋置于地层内的工程建筑物,是人类利用地下空间的一种形式。隧道可分为交通隧道、水工隧道、市政隧道、矿山隧道。 --来源百度百科

emmmmmmmm...

前言

之前调试mysql,查看数据,修改数据的时候,命令行又不方便,总是会想到搞个mysql的远程账号,来访问数据库。久而久之就养成了这样的习惯,把3306端口暴漏出去,没有想到安全问题。最近在大佬的指引下,接触到了隧道的方式,觉得挺好用的,在不暴漏端口号的情况下,能像远程连接一般自如的查看mysql,很受用,现在分享出来。

阅读全文 »

前言

本文摘录于李运华老师的《从0开始学架构》课程,为精简总结。

复杂度

计算高可用架构复杂度主要体现在任务管理方面。旨当任务在某台服务器执行失败后,如何重新分配新的服务器

设计关键

1、 哪些服务器可以执行任务

  1. 每个服务器都可以执行任务

  2. 特定服务器可以执行任务,当特定服务器故障后,选定新的服务器作为特定服务器

阅读全文 »

原文地址:Linux-CentOS7下安装LNMP环境笔记--ncsb

1. 设置yum源

PHP源官方地址: https://webtatic.com/

mysql源官方地址: https://dev.mysql.com/downloads/repo/yum/

rpm -Uvh https://dl.Fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm

rpm -Uvh https://mirror.webtatic.com/yum/el7/webtatic-release.rpm

rpm -Uvh  http://dev.mysql.com/get/mysql57-community-release-el7-9.noarch.rpm

阅读全文 »

最近在用layui做后台,有遇到这么个场景,就是上传图片,并保存到oss的,很简单也很常见的一个小功能。但即使是这么个小功能也有点费脑筋,主要有以下几点:

  1. 对layui上传文件插件的不熟悉

  2. 对业务场景的想象不够严谨

  3. 对自身服务器配置状况的无视

本篇博文就来说一下,就是这么个小问题,也让我有点伤脑筋的原因。

阅读全文 »