博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python爬取网页数据基本步骤
阅读量:3950 次
发布时间:2019-05-24

本文共 472 字,大约阅读时间需要 1 分钟。

Python爬取网页数据基本步骤:

  1. from urllib import request

    response = request.urlopen(‘完整的网址’)

  2. import requests

    import chardet
    url = ‘完整的网址’
    response = requests.get(url)
    response.encoding = chardet.detect(response.content)[‘encoding’]
    # 文本
    html = response.text

  3. selenium (动态加载的 网页,就用这个)

    from selenium import webdriver

  4. scrapy 框架

----- 提取 内容 ------

一般通过 浏览的控制台,先找 统一结构。然后找父元素
1. 正则表达式
2. beautifulsoup
3. selenium的相关方法
4. xpath

----- 存储 内容 -------

1. txt
2. csv
3. excel
4. mongodb
5. mysql

转载地址:http://uywzi.baihongyu.com/

你可能感兴趣的文章
Linux学习之常用高级命令
查看>>
java的三种随机数生成方式
查看>>
2021-01-21对map进行key或者value排序
查看>>
ConcurrentHashMap 1.7和1.8的区别
查看>>
try-catch-finally执行顺序及语句中对变量进行赋值的问题
查看>>
阻塞锁与自旋锁
查看>>
Java中的<< 和 >> 和 >>> 详细分析
查看>>
Java中字节Byte和位Bit的关系及最小值最大值表示
查看>>
spring启动时只执行一次的方法实现
查看>>
es分片分配问题及配置总结
查看>>
【面试官:select语句和update语句分别是怎么执行的
查看>>
redis-benchmark压力测试使用
查看>>
Java8 中 List 转 Map(Collectors.toMap) 使用技巧
查看>>
JUC体系图
查看>>
i++
查看>>
尚硅谷netty笔记
查看>>
mysql回表查询,聚集索引与普通索引
查看>>
乐观锁与悲观锁
查看>>
[数据库]事务、并发、数据库锁
查看>>
单例设计模式
查看>>