百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 软件资讯 > 正文

手把手教你使用Python网络爬虫下载一本小说(附源码)

ninehua 2025-02-19 13:20 29 浏览

大家好,我是Python进阶者。

前言

前几天【磐奚鸟】大佬在群里分享了一个抓取小说的代码,感觉还是蛮不错的,这里分享给大家学习。


一、小说下载

如果你想下载该网站上的任意一本小说的话,直接点击链接进去,如下图所示。

只要将URL中的这个数字拿到就可以了,比方说这里是951,那么这个数字代表的就是这本书的书号,在后面的代码中可以用得到的。


二、具体实现

这里直接丢大佬的代码了,如下所示:

# coding: utf-8
'''
笔趣网小说下载
仅限用于研究代码
勿用于商业用途
请于24小时内删除
'''
import requests
import os
from bs4 import BeautifulSoup
import time




def book_page_list(book_id):
    '''
    通过传入的书号bookid,获取此书的所有章节目录
    :param book_id:
    :return: 章节目录及章节地址
    '''
    url = 'http://www.biquw.com/book/{}/'.format(book_id)
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'}
    response = requests.get(url, headers)
    response.encoding = response.apparent_encoding
    response = BeautifulSoup(response.text, 'lxml')
    booklist = response.find('div', class_='book_list').find_all('a')
    return booklist




def book_page_text(bookid, booklist):
    '''
    通过书号、章节目录,抓取每一章的内容并存档
    :param bookid:str
    :param booklist:
    :return:None
    '''
    try:
        for book_page in booklist:
            page_name = book_page.text.replace('*', '')
            page_id = book_page['href']
            time.sleep(3)
            url = 'http://www.biquw.com/book/{}/{}'.format(bookid,page_id)
            headers = {
                'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'}
            response_book = requests.get(url, headers)
            response_book.encoding = response_book.apparent_encoding
            response_book = BeautifulSoup(response_book.text, 'lxml')
            book_content = response_book.find('div', id="htmlContent")
            with open("./{}/{}.txt".format(bookid,page_name), 'a') as f:
                f.write(book_content.text.replace('\xa0', ''))
                print("当前下载章节:{}".format(page_name))
    except Exception as e:
        print(e)
        print("章节内容获取失败,请确保书号正确,及书本有正常内容。")




if __name__ == '__main__':
    bookid = input("请输入书号(数字):")
    # 如果书号对应的目录不存在,则新建目录,用于存放章节内容
    if not os.path.isdir('./{}'.format(bookid)):
        os.mkdir('./{}'.format(bookid))
    try:
        booklist = book_page_list(bookid)
        print("获取目录成功!")
        time.sleep(5)
        book_page_text(bookid, booklist)
    except Exception as e:
        print(e)
        print("获取目录失败,请确保书号输入正确!")

程序运行之后,在控制台输入书号,即可开始进行抓取了。

在本地也会自动新建一个书号命名的文件夹,在该文件夹下,会存放小说的章节,如下图所示。


三、常见问题

在运行过程中小伙伴们应该会经常遇到这个问题,如下图所示。

这个是因为访问太快,网站给你反爬了。可以设置随机的user-agent或者上代理等方法解决。


四、总结

我是Python进阶者。这篇文章主要给大家介绍了小说内容的获取方法,基于网络爬虫,通过requests爬虫库和bs4选择器进行实现,并且给大家例举了常见问题的处理方法。

小伙伴们,快快用实践一下吧!如果在学习过程中,有遇到任何问题,欢迎加我好友,我拉你进Python学习交流群共同探讨学习。

相关推荐

autoCAD2020启动【许可检出超时】解决办法

autoCAD2020启动【许可检出超时】问题我在网上搜索说法很多,按网上的说法修改都无效,每次启动电脑,检查服务,AutodeskDesktopLicensingService的自动启动又会变...

高版本的CAD,安装完以后,菜单栏显示文字乱码,怎么回事?

全球最新版本,AutoCAD2021是一款功能强大的二维/三维设计软件,软件内置了专业强大的MEP、MAP3D、PLANT3D等智能工具组合,能够广泛应用于机械设计、工业制图、工程制图、土木建筑、...

CAD怎么调出编辑栏?试试这个小技巧

CAD怎么调出编辑栏?相信作为一名新时代的上班族,我们应该不仅满足于目前的工作能力,下班后也会经常学习充电。毕竟现在知识迭代实在是太快,只有不断的努力学习,才能更好的进步。如果我们收到别人发来的CAD...

CAD原来要这样打印高清图纸!老师傅多年经验分享!太实用了!

我们在绘制完图纸之后,经常会需要将图纸打印出来,可别小看打印这个小小的步骤,打印也是有很多门道的,今天小编就来跟大家分享一些关于CAD的打印技巧,希望对刚入门的小伙伴有所帮助~一、如何打印高清图纸1、...

教你如何改回CAD经典版本

随着CAD版本的逐步升级,后来版本的界面有了很大的变化,有些喜欢经典版本的朋友不知道怎么去改回经典版本,今天就着重介绍下改变CAD版本的方法。首先打开安装好的CAD界面,不同版本的CAD界面不相同,对...

solidworks使用心得,纯干货!建议大家收藏

SolidWorks常见问题Q1:怎样修改,修复或删除已有SolidWorks软件的安装?A:在退出SolidWorks的状态下,于控制面板中双击添加或删除程序,选择Solidworks,单击更改或...

安装CAD时,提示错误1406,无法将值写入主键,怎么解决?

安装CAD时,提示错误1406,无法将值写入主键,怎么解决?有三种方法。方法一1、右键点击开始→【运行】中输入:regedit按回车键之后,打开注册表编辑器。2、依次定位到:HKEY_LOCAL_M...

原来CAD还可以这样提取坐标和文字!按下这个键,一秒提取

我们在工作时候,有时需要将图纸里的坐标、文字等数据提取出来,不知道大家都是怎么提取的呢?一个一个提取的话太麻烦了,要是赶时间要出图的话那就完蛋了!那么有什么办法能够快速提取CAD中的数据呢?今天小编就...

怎么将CAD的版本转换?用这个方法轻松转换

在我们日常学习和日常工作中,对于需要用到CAD的人来说,有时候会遇见这样一个问题,自己的CAD版本与对接方的版本不一致,尤其是低版本的CAD软件是查看不了高版本的CAD图纸的。那么如何将CAD版本之间...

dwf文件如何打开 dwf转cad轻松转换方法

在CAD制图工作的过程中,为了避免CAD图纸被任意修改,许多绘制完成的CAD图纸都会转换成DWF文件格式来保存。我们可以使用AutoCAD这种比较专业的CAD处理软件来打开DWF文件,打开AutoCA...

CAD安装出现1603错误,怎么办?简单3步就能解决,方法亲测有效!

很多同志在工作中要用到CAD这款软件,既然要用这个软件,那就必须要安装CAD这个软件到电脑上。但在安装AutoCAD软件的时候,可能会遇到"安装无法完成。错误1603",如图所示。怎...

AUTO CAD出现无法识别的版本,如何解决?

一、问题描述:CAD+天正,从其他CAD图中复制进东西保持后在打开,打开文件出现无法识别的版本,特别烦人怎么解决?(PS:重装CAD和天正后依然无效)二、原因分析:这是一个AutoCAD的bug,因...

安装CAD时,出现1308错误,怎么解决?看完本文你就知道

CAD出现1308错误怎么办?AutoCAD一种计算机的辅助设计软件,但是打开CAD软件的时候提示错误1308,源文件未找到,因此无法继续安装AutoCAD软件,那么遇到安装AutoCAD出现130...

CAD快捷命令汇总

本教程对AutoCAD快捷键进行了整理,希望能帮到大家绘图快捷键圆【C】点【PO】直线【L】圆弧【A】椭圆【EL】表格【TB】矩形【REC】面域【REG】创建块【B】插入块【I】多段线【PL】构造线【...

CAD室内设计必备10000套图库,系统图块无水印直接使用

号外!号外!你们心心念念的福利来了~更多室内设计学习文章,资料,教程,软件,插件,方案,施工工艺材料等可以关注私信小编,不懂的地方,欢迎大家留意交流---领取方式:文章末尾-免费分享-以下案例为这...