必威-必威-欢迎您

必威,必威官网企业自成立以来,以策略先行,经营致胜,管理为本的商,业推广理念,一步一个脚印发展成为同类企业中经营范围最广,在行业内颇具影响力的企业。

里面也有一些铁杆粉丝的优秀投稿的文章必威,

2019-11-03 14:24 来源:未知

然后去除不必要的字段,获取自己想要的内容

web开发的薪资

必威 1

 

看看MAC啥色号受人欢迎:

房价之高,房价涨幅之大,让屌丝望而却步!于是我爬取了南京近20000多套二手房的数据,进行深入分析,发现300万几乎买不到什么房子,不信的话,请看:

(二)数据库的创建

先来建好数据库,这里使用的是MySQL数据库,建立如下:

DROP TABLE IF EXISTS `info01`;
CREATE TABLE `info01` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `title` varchar(255) NOT NULL,
  `salary` int(255) NOT NULL,
  `position` varchar(255) NOT NULL,
  `time` varchar(255) NOT NULL,
  `grade` varchar(255) NOT NULL,
  `company` varchar(255) NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=498 DEFAULT CHARSET=utf8;

也可以使用像Navicat for MySQL之类的图形化工具,如下:

Paste_Image.png

要注意的是,其中的id属性设为自增,’salary‘属性设为int类型,方便以后进行数据分析统计。

必威 2

那么学习Python后可以有哪些方面的发展呢?

必威 3

8.深圳的租房数据分析

(一)准备工作

我们先到拉勾网,在技术一栏中点击Python,得到如下页面:

Paste_Image.png

点击下一页,观察地址栏URL的变化:

第二页的URL
https://www.lagou.com/zhaopin/Python/2/?filterOption=2

我们可以发现,页码的变化体现在URL中的两个数字上,由此,我们便可以得到我们需要爬取的5个页面的URL分别为:

urls = ['https://www.lagou.com/zhaopin/Python/1/?filterOption=1',
                'https://www.lagou.com/zhaopin/Python/2/?filterOption=2',
                'https://www.lagou.com/zhaopin/Python/3/?filterOption=3',
                'https://www.lagou.com/zhaopin/Python/4/?filterOption=4',
                'https://www.lagou.com/zhaopin/Python/5/?filterOption=5',
                ]

整理好需要爬取的URL后,我们来按F12打开开发者工具,找我们需要提取的信息:

Paste_Image.png

可以看到需要爬取的信息都在<li>标签中没,右键复制一个li标签,整理一下格式,得到如下代码:

<li class="con_list_item default_list" data-index="3" data-positionid="991482" data-salary="8k-16k" data-company="昆明俊云科技有限公司" data-positionname="Python开发工程师" data-companyid="67804" data-hrid="1346958">
    <div class="list_item_top">
        <div class="position">
            <div class="p_top">

                <a class="position_link" href="//www.lagou.com/jobs/991482.html" target="_blank" data-index="3" data-lg-tj-id="8E00" data-lg-tj-no="0104" data-lg-tj-cid="991482" data-lg-tj-abt="dm-csearch-useSalarySorter|1">

                <h2 style="max-width: 180px;">Python开发工程师</h2>

                [<em>昆明·盘龙区</em>]
                1天前发布
            </div>

            <div class="p_bot">
                <div class="li_b_l">
                    8k-16k
                        <!--<i></i>-->经验1-3年 / 本科
                </div>
            </div>
        </div>

        <div class="company">
            <div class="company_name">
                <a href="//www.lagou.com/gongsi/67804.html" target="_blank" data-lg-tj-id="8F00" data-lg-tj-no="0104" data-lg-tj-cid="67804" data-lg-tj-abt="dm-csearch-useSalarySorter|1">昆明俊云科技有限公司</a><i class="company_mark">该企业已上传营业执照并通过资质验证审核</i>

            </div>

            <div class="industry">
                移动互联网,硬件 / 初创型(不需要融资)
            </div>
        </div>

        <div class="com_logo">
            <a href="//www.lagou.com/gongsi/67804.html" target="_blank" data-lg-tj-id="8G00" data-lg-tj-no="0104" data-lg-tj-cid="67804" data-lg-tj-abt="dm-csearch-useSalarySorter|1">![](//www.lgstatic.com/thumbnail_120x120/i/image/M00/58/0F/Cgp3O1fSFEuAQJnSAAATSLVt79k366.jpg)</a>
        </div>
    </div>

    <div class="list_item_bot">
        <div class="li_b_l">
            <div class="li_b_r">
            “福利优厚、期权奖励、五险一金、工作餐”
            </div>
    </div>
</li>

可以发现,<li>标签属性中有我们需要的’职位‘、’薪资‘、’公司名称‘,而’工作地点‘、’学历要求‘和’信息发布时间‘则在下面的各个标签中,于是我们可以使用如下代码,提取各个信息(Beautiful Soup):

info = BeautifulSoup(response.body, 'html.parser').find('li','con_list_item default_list')
 info.attrs['data-positionname'],  # 职位
info.attrs['data-salary']
 info.find('em').get_text().split('·')[0],  # 工作地点
 (info.find('span', 'format-time')).string,  # 发布时间
 info.find('div', 'li_b_l').get_text().split('/')[-1],  # 学历要求
 info.attrs['data-company'],  # 公司名称

必威 4

因为Python简单、入门快,是不少程序员入门的首选语言。

必威 5

详细请看:


 

web开发

必威 6

 

豆瓣、知乎、拉勾网等都是用的Python,web开发在国内的发展也是很不错的

因为Python的web开发框架是最大的一个优势,如果你用Python搭建一个网站只需要几行的代码:

必威 7

 

非常的简洁

跟稚优泉一样,也是国产滴,看包装还是蛮精美的。活动价格也很实惠,只要39.9元。真“买不了吃亏,买不了上当”。

9.学Python薪资如何,爬取了全国1600多个Python岗位

这是我自己在学习python 3爬虫时的小笔记,做备忘用,难免会有一些错误和疏漏,望指正~~~
Python 3 爬虫学习笔记 (一)
Python 3 爬虫学习笔记 (二)
Python 3 爬虫学习笔记 (三)
Python 3 爬虫学习笔记 (四)
Python 3 爬虫学习笔记 (五)

必威 8

众所周知小学生的教材里面已经有Python了,国家二级计算机证也需要学习Python了!

淘宝店铺可分为旗舰店、专卖店、专营店、天猫超市和其他,看看销量TOP2019的口红的店铺都是什么类型:

Python这么火,每个学Python的同学一定都想知道Python的薪资待遇如何,哪些城市招聘数量多,岗位待遇比较高。

七 Scrapy小例子

之前我们知道了Scrapy中每个文件所代表的含义,这次我们就以爬取拉勾网Python相关招聘信息来具体演示下Scrapy每个文件的用法。

我们要做的是,将拉勾网以‘Python’为关键字搜索到的招聘信息前五页爬下来,然后将其中的‘职位’、‘薪资’、‘学历要求’、‘工作地点’、‘公司名称’以及‘信息发布时间’提取出来并存储到MySQL数据库中。

  1. F12(开发者选项)
  2. Notework
  3. F5(刷新)
  4. feedRateList(文件名)
  5. Headers
  6. 复制Request URL

网络爬虫

必威 9

 

现在学习Python的人员当中很大一部分的人是在学习爬虫,这也是Python的一大优势之一,最早用Python做网络爬虫的是谷歌。

为什么要用Python写爬虫

  1. 跨平台,对Linux和windows都有不错的支持。
  2. 科学计算,数值拟合:Numpy,Scipy
  3. 可视化:2d:Matplotlib(做图很漂亮), 3d: Mayavi2
  4. 复杂网络:Networkx
  5. 统计:与R语言接口:Rpy
  6. 交互式终端

和其他语言的对于

  • C,C++。高效率,快速,适合通用搜索引擎做全网爬取。缺点,开发慢,写起来又臭又长,例如:天网搜索源代码。
  • 脚本语言:Perl, Python, Java, Ruby。简单,易学,良好的文本处理能方便网页内容的细致提取,但效率往往不高,适合对少量网站的聚焦爬取
  • C#?(貌似信息管理的人比较喜欢的语言)

必威 10

4.NBA数据分析

(三)代码编写

准备工作完成了,下面开始代码部分,先到工作目录中建立工程,在命令行中:

scrapy startproject lgSpider

先编辑items.py文件,该文件是一个简单的数据收集容器,用于保存爬虫爬取的数据,类似一个字典:

#  items.py
# -*- coding: utf-8 -*-

import scrapy

class LgspiderItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()     # 职位
    position = scrapy.Field()  # 工作地点
    salary = scrapy.Field()    # 最低薪资
    company = scrapy.Field()   # 公司名称
    time = scrapy.Field()      # 信息发布时间
    grade = scrapy.Field()     # 学历要求

在spiders中建立爬虫文件lg_spider.py如下:

# -*- coding:utf-8 -*-
import scrapy
from bs4 import BeautifulSoup


class lg_spider(scrapy.Spider):
    name = 'lg'  # 爬虫名字

    def start_requests(self):
        # 待爬取的url地址
        urls = ['https://www.lagou.com/zhaopin/Python/1/?filterOption=1',
                'https://www.lagou.com/zhaopin/Python/2/?filterOption=2',
                'https://www.lagou.com/zhaopin/Python/3/?filterOption=3',
                'https://www.lagou.com/zhaopin/Python/4/?filterOption=4',
                'https://www.lagou.com/zhaopin/Python/5/?filterOption=5',
                ]
        # 模拟浏览器的头信息
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
        for url in urls:
            yield scrapy.Request(url=url, headers=headers, callback=self.parse)

    def parse(self, response):
        # 使用Beautiful Soup进行分析提取
        soup = BeautifulSoup(response.body, 'html.parser')
        for info in soup.find_all('li', 'con_list_item default_list'):
            # 将提取的salary字符串,只截取最少工资并转换成整数形式,如:7k-12k  -> 7000
            salary = info.attrs['data-salary'].split('k')[0]
            salary = int(salary) * 1000
            # 存储爬取的信息
            yield {
                'title': info.attrs['data-positionname'],  # 职位
                'position': info.find('em').get_text().split('·')[0],  # 工作地点
                'salary': salary,  # 最低工资
                'time': (info.find('span', 'format-time')).string,  # 发布时间
                'grade': info.find('div', 'li_b_l').get_text().split('/')[-1],  # 学历要求
                'company': info.attrs['data-company'],  # 公司名称
            }

爬取的item被收集起来后,会被传送到pipelines中,进行一些处理,下面开始编辑pipelines.py用于将爬取的数据存入MySQL数据库,

# -*- coding: utf-8 -*-

import pymysql

# 数据库配置信息
db_config = {
    'host': '127.0.0.1',
    'port': 3306,
    'user': 'root',
    'password': '',
    'db': 'lg_info',
    'charset': 'utf8'
}


class LgspiderPipeline(object):
    # 获取数据库连接和游标
    def __init__(self):
        self.connection = connection = pymysql.connect(**db_config)
        self.cursor = self.connection.cursor()

    # Pipeline必须实现的方法,对收集好的item进行一系列处理
    def process_item(self, item, spider):
        # 存储的SQL语句
        sql = 'insert into info01(title, salary, position, time, grade, company) values(%s, %s, %s, %s, %s, %s)'
        try:
            self.cursor.execute(sql, (item['title'].encode('utf-8'),
                                      item['salary'],
                                      item['position'].encode('utf-8'),
                                      item['time'].encode('utf-8'),
                                      item['grade'].encode('utf-8'),
                                      item['company'].encode('utf-8'),
                                      )
                                )
            self.connection.commit()
        except pymysql.Error as e:
            # 若存在异常则抛出
            print(e.args)
        return item

最后,再来配置settings.py文件,打开settings.py文件,会发现其中有很多注释,我们找到

# Configure item pipelines

它代表使用使用指定的pipeline,将其修改为如下格式:

# LgspiderPipeline即我们写的pipelines.py中的LgspiderPipeline类
ITEM_PIPELINES = {
   'lgSpider.pipelines.LgspiderPipeline': 300,
}

OK。所有工作都完成了,我们来执行一下爬虫看一下效果;

scrapy crawl lg

刷新一下数据库:

Paste_Image.png

现在我们就可以通过sql语言,进行简单的数据统计,如找出所有最低工资高于10000的招聘信息:

select * FROM info01 WHERE salary>10000

Paste_Image.png

当然这样看起来比较麻烦,pyhon也有可以将数据图形化的第三方包,我们以后再看。

如果你想要进行简单数据分析的话,那可以把爬取下来的评论保存下来。

数据分析

必威 11

 

在互联网上面,你可以知道很多的东西,都会根据你看的东西,买的东西分析并推荐给你想要的东西。比如:

淘宝:会推荐你看过的商品或者你想要买的喜欢的商品给你。

头条:根据你看文章的类目,推荐相关的文章给你。

Python所拥有的完整的生态环境十分有利于进行数据分析处理,比如,"大数据"分析所需要的分布式计算、数据可视化、数据库操作等,都可以通过Python中的十分成熟的模块完成。

必威 12

那一点惊喜都没了…

基金和股票的数据分析,其实我已经分析了很久了,这块的数据分析有趣,而且投资价值非常大!当然我只是业余的选手,股票的分析涉及到量化交易和投资模型,风险策略等等。我只是从数据分析的一个小角度探索了一些:

也可以是这样的

人工智能

必威 13

 

人工智能的发展潜力和钱途就不说了吧,这个都是大家都知道的东西,但是目前的话,人工智能方面的工作还是比较少的,而且都是高学历人士,以后的话肯定是最具有发展潜力的方向了。

数据分析

现在手机已经成为每个人的必需品,这篇文章是我的另外一个忠实粉丝"BlueDamage"同学的投稿,思路和技巧都非常不错,值得一读!

如果是一般人为了让自己买的东西放心当然是选择一条一条看,或者直接去实体店买。但是身为技(chui)术(niu)人(zhuang)员(bi)的小编,肯定是用Python批量爬取淘宝商品信息并进行简单的数据分析啦~~~~

 

总结刚刚的三款产品,敲黑板,划重点:

从单页面的爬虫,到多页面的多线程的爬虫,然后用scrapy框架爬取,最后用selemium模拟器爬取,里面包含了一些反爬虫的策略运用,比如cookies,代理池等等.

然后用Python对其进行数据分析,对于数据可视化小编比较推荐pyecharts

服务器运维

必威 14

 

运维也不陌生,最开始一批学习Python的人,就是运维和测试的在职人员,因为Python对于他们的工作起到很大的作用,因为使用Python脚本进行批量化的文件部署和运行调整都成了Linux服务器上很不错的选择。

必威 15

 

必威 16

详细请看:

必威 17

爬虫的薪资

必威 18

 

爬取的2019款产品,最便宜的是某不知名杂牌,8.8元居然还有3只!

有趣!|可视化分析

必威 19

从2015开始国内就开始慢慢接触Python了,从16年开始Python就已经在国内的热度更高了,目前也可以算的上"全民Python"了。

那大家对这款产品是什么评论的呢?

详细请看:

看看运行后的效果图

Python这五个就业方向最有钱途和发展,如果是你会怎么选择

为什么这么贵呢?我也不知道。只能再次说,谁用谁知道了。

详细请看:

 

人工智能薪资

必威 20

 

先说明,老年人才过三八妇女节!

38年来,NBA最有价值球员|数据分析

现在人们哪怕是买个牙刷可能都会在淘宝上面,而且在买东西的时候每个人都会做的一件事情就是看评论,看看之前买家评论了解商品质量,外观是不是和图片一样等等。但是如果真的想要一条一条去看的话,那时间是真的要很多,当然了如果买的小物件那倒无所谓,如果是比较贵重的物品就必须得好好看了(PS:在小编心里100以上就是贵重物品,哈哈哈哈)

必威 21

(不是每个人都有朱迅的美貌)

双十二来了,我爬取了淘宝上所有的羽绒服|想找到最大折扣

 

从上面来看,番茄红最受大家欢迎,其销量约碾压后面4款产品!

史上最全的Python书排行榜|你想知道的都在这里

 

再看一下销量TOP3的产品分别是什么?

南京的房子有多贵| 分析近20000套二手房的数据

TAG标签:
版权声明:本文由必威发布于必威-编程,转载请注明出处:里面也有一些铁杆粉丝的优秀投稿的文章必威,