百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 软件资讯 > 正文

python爬虫

ninehua 2024-12-06 18:07 33 浏览


a# -*- coding: utf-8 -*-
"""
Created on Tue Oct 22 10:41:23 2024

@author: 1
"""

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium_stealth import stealth
import time
import random
import requests
from selenium.webdriver.chrome.options import Options
import re
import json

# 设置 ChromeDriver 的路径
chrome_driver_path = "D:\\chromedriver\\chromedriver.exe"

# 创建 ChromeOptions 对象
chrome_options = Options()

# 指定 Chrome 浏览器的路径
chrome_options.binary_location = "C:\\Program Files\\Google\\Chrome\\Application\\chrome.exe"

# 修改 User-Agent
chrome_options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36")

# 禁用自动化扩展
chrome_options.add_argument("--disable-extensions")

# 禁用 GPU 加速
chrome_options.add_argument("--disable-gpu")

# 禁用日志
chrome_options.add_argument("--log-level=3")

# 禁用沙箱
chrome_options.add_argument("--no-sandbox")

# 禁用插件加载
chrome_options.add_argument("--disable-plugins")

# 禁用密码保存提示
chrome_options.add_argument("--password-store=basic")

# 禁用弹出窗口
chrome_options.add_argument("--disable-popup-blocking")

# 禁用通知
chrome_options.add_argument("--disable-notifications")

# 禁用音频
chrome_options.add_argument("--mute-audio")

# 使用代理(可选)
# chrome_options.add_argument("--proxy-server=your_proxy_server:port")

# 创建 ChromeDriver 服务
service = Service(chrome_driver_path)

# 创建 WebDriver 对象
# 配置 Selenium 使用代理
driver = webdriver.Chrome(service=service, options=chrome_options)

# 使用 selenium-stealth 避免检测
stealth(driver,
        languages=["en-US", "en"],
        vendor="Google Inc.",
        platform="Win32",
        webgl_vendor="Intel Inc.",
        renderer="Intel Iris OpenGL Engine",
        fix_hairline=True,
        )


try:
    # 访问网页
    driver.get("https:///")

    # 检查是否发生了重定向
    final_url = driver.current_url
    print(final_url)
    if final_url != "https://":
        print(f"发生了重定向,最终 URL: {final_url}")
        # 如果需要,可以在这里处理重定向后的 URL
        driver.get(final_url)

    # 禁用 navigator.webdriver 检测
    driver.execute_script("Object.defineProperty(navigator, 'webdriver', {get: () => undefined})")

    # 随机化页面加载时间
    random_time = random.uniform(1, 4)
    time.sleep(random_time)

    # 模拟鼠标和键盘事件
    element = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.NAME, "username"))
    )
    actions = webdriver.ActionChains(driver)
    actions.move_to_element(element)
    actions.pause(random.uniform(0.5, 1.5))
    actions.click()
    actions.pause(random.uniform(0.5, 1.5))
    actions.send_keys("username")
    
    element = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.NAME, "password"))
    )
    
    actions.move_to_element(element)
    actions.pause(random.uniform(0.5, 1.5))
    actions.click()
    actions.pause(random.uniform(0.5, 1.5))
    actions.send_keys("password")
    
    # 获取登录按钮
    element = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.XPATH, '//button[@class="el-button handle-btn el-button--default"]/span[text()="登录"]'))
    )
    
    actions.move_to_element(element)
    actions.pause(random.uniform(0.5, 1.5))
    actions.click()
    #
    
    actions.perform()
    time.sleep(2)

    # 获取页面标题
    page_title = driver.title
    print(f"页面标题: {page_title}")

    # 打印页面内容(可选)
    driver.get("https://")
    #print(driver.page_source)

    # 等待几秒钟以便观察页面
    time.sleep(5)
    
    for _ in range(1):  # 假设需要翻5页
        # 执行页面操作,例如抓取数据
        # ...
    
        # 找到“下一页”按钮并点击
       # 使用 XPath 表达式获取按钮元素
        button = driver.find_element(By.XPATH, "//button[@class='btn-next' and span[text()='下一页']]")
    
        # 点击按钮
        button.click()
    
        # 等待一段时间,以便观察效果
        time.sleep(3)
        
        print("aaaaaaaaaaaaaaaaaaaaaaa")

        #print(driver.page_source)
        
        # 获取页面的 Cookies
        cookies = driver.get_cookies()
        
        # 将 Selenium 获取的 Cookies 转换为 requests 可以使用的格式
        cookie_dict = {cookie['name']: cookie['value'] for cookie in cookies}
        
        # 获取页面的请求头
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
            'Accept-Language': 'en-US,en;q=0.9',
            'Content-Type': 'application/x-www-form-urlencoded',  # 根据实际情况调整
            'Referer': 'https://www.qianlima.com/'  # 根据实际情况调整
        }
    
        ahtml = driver.page_source
        # 使用正则表达式提取 data-cid 的值
        pattern = r'data-cid="(\d+)"'
        matches = re.findall(pattern, ahtml)
        
        # 输出提取到的 data-cid 值
        for cid in matches:
            print(cid)
        
            aurl = 'https://www.qianlima.com/bid-' + cid + '.html'
            print(aurl)
            ajsonurl = 'https://detail.vip.qianlima.com/rest/detail/alltypesdetail/detail/' + cid
            print(ajsonurl)
            

            post_data = {
                'psw': '',
                'username': '0'
            }
            
            # 发送 POST 请求
            response = requests.post(ajsonurl, cookies=cookie_dict, headers=headers)
            
            # 检查响应状态码
            if response.status_code == 200:
                print('POST 请求成功')
                print('响应内容:', response.text)
                # 解析 JSON 字符串
                data = json.loads(response.text)
                print('开始解析结果')
                # 遍历 JSON 对象并输出每个字段的值
                def print_json_values(data, prefix=""):
                    if isinstance(data, dict):
                        for key, value in data.items():
                            new_prefix = f"{prefix}.{key}" if prefix else key
                            print_json_values(value, new_prefix)
                    elif isinstance(data, list):
                        for index, value in enumerate(data):
                            new_prefix = f"{prefix}[{index}]"
                            print_json_values(value, new_prefix)
                    else:
                        print(f"{prefix}: {data}")
                
                print_json_values(data)
                
                #将结果存入数据库
                
                print('结束解析结果')
            else:
                print('POST 请求失败,状态码:', response.status_code)
                print('响应内容:', response.text)
            


            
    
except Exception as e:
    print(f"发生错误: {e}")
#finally:
    # 关闭浏览器
   # driver.quit
   # server.stop

相关推荐

单打独斗的产品设计师工作流程总结

来人人都是产品经理【起点学院】,BAT实战派产品总监手把手系统带你学产品、学运营。我从入行开始就在一个做自己产品的小公司工作,到现在已经三年了。刚开始工作的时候什么也不懂,老板说让出效果图,就开始直接...

毕业生必备软件!6套APP构建我的产品设计工作流

工欲善其事,必先利其器。思维和方法论固然超级重要,但是掌握并制定适合自己的工作流也可以成倍提升效率。好的软件加上熟练的使用可以帮助解决遇到的所有问题,不仅可以减轻大脑和身体的负担,更可以让产品设计师在...

如何在APP原型上写需求?(app原型设计规范)

你有没有过这样的经历——辛辛苦苦写了半天的文档,结果开发一眼没看,做需求的时候又把文档里的内容问了一遍?如果你也有这样的经历,那么在APP原型上写需求,或许能帮你解决这个问题。为什么要把需求直接写在...

产品经理工具箱|原型及交互设计工具

来人人都是产品经理【起点学院】,BAT实战派产品总监手把手系统带你学产品、学运营。世界上最实在最方便的原型设计及交互工具:国外的谷歌,facebook等大型互联网公司的交互工具就是上面最原始,最有效最...

交互设计利器汇总:实用工具大揭秘!

近年来,页面交互设计有了很好的发展,越来越受到人们的重视。如果你想成为一名页面交互设计师,除了对平面设计和产品设计有一定的了解外,更重要的是要知道哪个软件适合页面交互设计。本文将带您了解5款流行的页面...

Taro - 京东凹凸实验室出品的小程序多端开发工具,内置 UI 组件库

可以支持转换到微信/京东/百度/支付宝/字节跳动/QQ小程序以及H5端,同时也支持使用Vue语法了。关于Taro凹凸实验室(O2Lab)来自京东零售集团,创建于2015年10月,是...

开发2小时,修bug2周,我用Trae做了个小程序

在当今快速发展的科技时代,AI技术的崛起为开发者带来了前所未有的机遇与挑战。一方面,AI极大地降低了技术门槛,让更多的创意得以快速实现;另一方面,它也提升了竞争维度,促使人们在认知、方法和时间效率上不...

好用的10款免费原型设计工具(免费的原型设计软件)

对产品经理或UI/UX设计师来说,一款好的原型设计工具至关重要。好的原型设计软件能够帮助你快速构建还原度高且信息架构清晰明了的原型图,还能极大减低工作中与同事的沟通成本,更高效地推进工作。那么,一款好...

用局域网内部分享Axure原型,这里有详细的步骤

来人人都是产品经理【起点学院】,BAT实战派产品总监手把手系统带你学产品、学运营。用axure做好原型,想分享给别人,有几个方法:生成本地文件,发送本地文件,但是文件有更新,就要重新发送用axure自...

Axure制作App原型应该怎样设置尺寸?原型尺寸对照表!

最近有几位小伙伴儿都提出同样一个疑问:想用Axure设计一个APP原型放到真实的移动设备中演示,但不知道应该使用什么尺寸?若要解释清楚像素和分辨率需要的篇幅比较长,请大家参考百度百科。这里老枪搜集...

200套数据可视化大屏模版Axure高保真原型

超炫可视化大屏模版来了,Axure高保真原型。关注微信公众号“素材帮帮站”,发送消息100051,获取素材下载地址。查看往期文章,获取更多免费素材。

Axure RP 8 Beta版正式上线(axure rp8是什么软件)

AxureSoftwareSolution公司于美国当地时间8月12日宣布其旗下产品AxureRP的v8版本的测试版正式上线。以下是其官方博客关于对AxureRP8Beta版的介绍:今天,...

PM小技术:使用SAE发布在线Axure文档

俗话说,不会写代码的产品经理不是好的射鸡湿。关于产品经理与技术之间的微妙关系,扯开了讲可是长篇大论,比如知乎上这个问题:IT行业产品经理(尤其是创业的)需要懂技术吗?懂到什么程度?,以及这个:产品经...

『原型资源』Axure自带图标库不够用,第三方经典图标库来袭

今天小编为大家带来第三方经典图标库,己确认内容可用现推荐给大家。直接上手就可不用自己画哈~获取原型文档请与班主任联系!先睹为快,合适再拿走不谢:图标太多,截取部分给大家参考o(* ̄︶ ̄*)o免费领取资...

Axure RP 8 测试版:将于今年夏天到来

我们一直在努力的开发AxureRP8。我认为这是对现有客户以及刚接触Axure的人的一个重要版本。我们希望看到你使用这些新特性,所以我们对现有客户免费升级。所有有AxureRP授权的客户包括标准...