抓取百度贴吧网页前五张

1月以前  |  阅读数:21 次  |     收藏

from urllib.request import urlopen

# url = 'http://tieba.baidu.com/f?kw=%E4%BE%AF%E6%98%8E%E6%98%8A&ie=utf-8&pn=100'
# response = urlopen(url)
# print(response.read().decode())

def get_one_page(index):
    url = 'http://tieba.baidu.com/f?kw=%E4%BE%AF%E6%98%8E%E6%98%8A&ie=utf-8&pn={}'.format(index*50)
    response = urlopen(url)
    return response.read().decode()

def save_one_page(index, html):
    file_name = 'tieba\\houminghao_page_{}.html'.format(index+1)
    with open(file_name, 'w', encoding='utf-8') as file:
        file.write(html)
    pass

if __name__ == '__main__':
    for index in range(0, 5):
        html = get_one_page(index)
        save_one_page(index, html)

相关文章:


SSH 登录失败:Host key verification failed

PHP分页显示制作详细讲解

PHP自定义函数获取搜索引擎来源关键字的方法

在Zeus Web Server中安装PHP语言支持

再谈PHP中单双引号的区别详解

让你成为最历害的git提交人

将二进制数据转为16进制以便显示

php+ajax+json 详解及实例代码

PHP实现简单爬虫的方法

Python 2与Python 3版本和编码的对比

php实现数组中索引关联数据转换成json对象的方法

桌面中心(一)创建数据库

PHP设计模式之工厂模式与单例模式

php数组合并array_merge()函数使用注意事项

php封装的page分页类完整实例

wget使用技巧

getAttribute和getAttributeNode

获取IMSI

Yii2汉字转拼音类的实例代码

python中执行shell的两种方法总结