百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 软件资讯 > 正文

如何使用Power Query批量抓取韩剧下载地址

ninehua 2025-03-04 13:25 26 浏览

因为疫情宅在家里,除了刷刷头条,看看抖音,如果你是韩剧迷,有大把的时间可以来追剧。现在最火的是孙艺珍的《爱的迫降》,但是哪里找资源是个问题。

电视上基本上是看不到韩剧的,只有在网络上找资源了,网络上韩饭的网站很容易找到,还有个问题就是,一个一个的去翻看网页太麻烦,最好是自动找到链接地址。那就要用到Power Query的网络抓取功能了。Power Query网络抓取分四步:网站分析、试抓、自定义函数、抓取,我们还是按照这四个步骤进行。

网站分析

网址可以直接修改页码访问,在检查中也能正常预览,地址栏的网址就是真实网址,这就好办了。

进入到具体的剧集中,有下载地址,点击后有弹窗,里面显示了具体的下载连接,我们通过检查发现:

连接地址是可以找到的。

通过上面的分析,我们可以理清一个抓取的思路:

  • 首先要根据页码逐个找到每个韩剧的名称和对应的网址
  • 然后根据韩剧地址找到下载地址

就这么简单,抓取过程中可能需要两个函数,一个是根据页码抓网址的函数,一个是根据网址抓下载地址的函数。

试抓

试抓的过程会比较复杂,很多时候最初的试抓过程,并不能解决所有问题,甚至是大部分的问题,原因就是我们没有找到一个最佳的共同特性。我们先来试抓网址:

每页中的韩剧内容保存在一行里,这个比较少见,多数时候是一个表单,好在这个网页的格式非常固定,韩剧网址所在的行也是固定不变的,我们在第二步直接就保留一行就好了。这个方法在下载地址试抓中我也用了,后来发现那个下载地址网页内容极不规范,最后用了筛选行。

有时候大家看到一堆的html源码就慌了,其实html要想整齐的显示出来,代码必然也是有规律可循的,我们看页面中一页有12部韩剧,那么我们只要分成12列就好了,关键在于分列的分隔符用什么比较好?通过观察我们发现一部韩剧被认为是一个article,结尾的位置都有

我们就用它来分列就好了。

分列后逆透视,变成一列,然后提取网址和韩剧名称,这个过程我也是试了好几次,最后在整个抓取结束后,发现提取的还是有些问题,有些网址没有提取出来,有些韩剧名称没有提取出来,有返回到这一步,再次尝试,我用的是提取分隔符之间的文本,就是要找到网址前的"ref=",网址后的“.html”,以及韩剧名称前的“title=”,韩剧名称后面的“”。

韩剧网址的试抓基本完成了,当然我实际上是反复修改了几次才可以的。

下载地址试抓,不要想着一次就成,因为网站维护估计不是一个人完成的,不同的人写代码习惯不同,就是同一个人,还有手误的时候,下载地址中提取码,有时就是密码,好在都有一个“码”字。

这个过程与韩剧网址抓取过程差不多,就是第二步我们用了筛选,没用保留行,再有就是提取分隔符之间的文本,用到的分隔符不同,基本步骤一致。

自定义函数

在试抓好的查询上右键,选择创建函数:

打开高级编辑器,修改函数参数:

韩剧网址抓取函数,我们用p做为页码参数。

下载地址抓取函数,我们用url作为参数。

抓取

建一个空查询,输入一个55行的列表:

自定义列引用韩剧网址抓取函数,抓取韩剧名称和网址:

展开:

在这一步就有可能发现问题,看看预览中网址是不是都有,韩剧名称有没有空白,如果有,就找到对应的页码,回到试抓那一步,修改页码查看试抓步骤中,哪一步有问题,看看有没有能够统一的解决办法。找到解决方法后,修改自定义函数,在来刷新就能看到修改后的效果了。

即使多次修改,仍然有部分网址空白,或者韩剧名称空白,那么就要筛选掉空白行,避免下载地址抓取时出错。我这步有一行韩剧名称空白,对应的网址是页码,所以就直接筛选掉了。

再自定义列引用下载地址抓取函数,并展开:

这一步可能出现的结果和上一步差不多,如果大面积的空白,就表示下载地址抓取函数定义的不成功,要返回试抓过程做修改,再来刷新,看结果。


(此处已添加圈子卡片,请到今日头条客户端查看)

相关推荐

Origin将普通双Y轴柱状图升级为高级的3D倒影柱状图

双Y轴柱状图可以在同一张图表中展示两组具有不同量纲或数量级的数据。3D倒影柱状图是一种通过三维立体及倒影形式展示多个数据的图表,它通过柱子的高度和颜色来表示不同的数据类别和数值大小,以及通过不同平面展...

Origin 2021 安装教程(附安装包下载)

Origin2021软件介绍广泛用于科研、工程和数据分析领域。它支持多种数据格式,包括Excel、ASCII、CSV等,可以方便地导入和分析各种类型的数据。Origin提供了丰富的数据分析工具,包括...

VIVO origin os系统关闭广告教程(IQOO同理)

以下是我使用期间发现的,如有其他未发现的,欢迎大家评论补充。1设置-安全-更多安全设置-广告与隐私-个性化广告推荐关闭2设置-安全-更多安全设置-应用安装-应用推荐关闭3设置-系统管理-全局搜索-首页...

Origin 2019 安装教程(附安装包下载)

Origin2019软件介绍广泛用于科研、工程和数据分析领域。它支持多种数据格式,包括Excel、ASCII、CSV等,可以方便地导入和分析各种类型的数据。Origin提供了丰富的数据分析工具,包括...

vivo开启Origin OS3系统公测,并且公布首批至第四批可升级名单

vivo在本月初发布了OriginOS3.0操作系统,11月25日开启了首批机型的公测招募活动,首批公测机型包括vivo和iQOO,共计14款机型。首批公测招募的机型有:vivoxfold+、v...

Origin将普通热图升级为高级的3D堆叠热图

3D堆叠热图是一种将多个热图组合在一起展示的图表可视化形式。每个热图代表一个数据集,通过比较不同数据集在不同条件(分组)下的颜色深浅变化来挖掘数据的大小差异或者相关性,能够直观地比较多组数据的相对强度...

最新最详细的Origin2021安装教程(保姆级)

直入正题,下面是Origin2021的安装过程安装包(复制到浏览器打开):%74%2E%63%6E/%41%36%4E%67%6D%54%74%4A安装步骤1、下载得到安装包后,请先解压!一定要先解压...

vivo和iQOO抓紧更新 OriginOS5末班车 12月最后一波升级

进入12月底了,很多老旧机型也已经开始更新各家的新系统了,所以大家一定要注意查看系统版本更新。那么就拿今年国内销量第一的vivo和iQOO来说,OriginOS5都已经推出两个月了,根据之前公布的适...

Origin将普通点线图转换为高级的3D堆叠点线图

点线图用于显示数据随时间或其他连续变量的变化趋势;点线图主要功能是展示数据随时间或连续变量的变化趋势,强调变化幅度,比较多个变量,描述周期性变化,识别异常值,并帮助分析趋势和预测未来趋势。当具有多组数...

蓝厂Origin OS 2.0首批适配机型曝光!有没有你的手机型号?

2020年11月18日蓝厂新系统OriginOS正式发布,并由后来的X60系列首发,新系统发布后网上就有言论:蓝厂补足了最后一块短板!发布至今大概已经有11月的时间了,网上也是褒贬不一,Origin...

Origin2018软件安装包以及安装教程

安装步骤:1.鼠标右击软件压缩包,选择“解压到Origin2018”2.打开“Origin2018\Origin2018”文件夹,鼠标右击“setup”,选择“以管理员身份运行”3.软件正在准备...

Origin这样操作,轻松绘制漂亮的雷达图

背景介绍雷达图是以从同一点开始的轴上表示的三个或更多个定量变量的二维图表的形式显示多变量数据的图形方法。轴的相对位置和角度通常没有信息。雷达图也称为网络图、蜘蛛图、星图、星图、蜘蛛网、不规则多边形...

曝OriginOS新版本在“玩命打磨底层”流畅性比肩鸿蒙

  日前,vivo正式官宣了2022年vivo开发者大会的举办时间:11月8日-11月9日。OriginOS全新版本届时将正式登场。时隔一年,这次全新OriginOS又将给我们带来什么样的全新体验? ...

Dify工具使用全场景:1.0.1发布了,升级(功能篇·第8期)

上一篇:Dify工具使用全场景:API扩展(功能篇·第7期)一、Dify1.0.1版本升级特性Dify1.0.1版本在稳定性、性能和用户体验方面进行了全面升级,修复了之前版本中的一些已知问题,带来...

vivo 新系统originOS 升级公测后增加手机内存

vivo新系统originOS,通过内存融合、进程优化、应用预载三种技术,一方面调用部分闲置的闪存空间,另一方面低系统对内存的占用,从而可以让原硬件内存增加2-3GB内存使用。vivo新系统ori...