一、人工操作
我们知道爬虫是模拟人在浏览器的动作批量获取有价值的信息,那对于这道题,我们先手动操作下,看看人是如何实现这个过程的。
1. 首先,打开电影天堂https://www.ygdy8.com , 在”搜索“处,填写一部电影名。
2. 然后,我们进入了“搜索结果”页面。
3. 最后,在下载页面滑到最下方,找到了下载地址。
4. 人工操作的步骤: “输名字 - 查搜索结果 - 进入下载页面 - 找到下载链接” 。
二、 代码实现
import requests
from bs4 import BeautifulSoup
from urllib.request import quote
#quote()函数,可以帮我们把内容转为标准的url格式,作为网址的一部分打开
movie = input('你想看什么电影呀?')
gbkmovie = movie.encode('gbk')
#将汉字,用gbk格式编码,赋值给gbkmovie
url = 'http://s.ygdy8.com/plus/so.php?typeid=1&keyword='+quote(gbkmovie)
print(url)