一、實(shí)戰(zhàn)背景
愛(ài)奇藝的VIP視頻只有會(huì)員能看,普通用戶只能看前6分鐘。比如加勒比海盜5的URL:http://www.iqiyi.com/v_19rr7qhfg0.html#vfrm=19-9-0-1
我們?cè)趺疵赓M(fèi)看VIP視頻呢?一個(gè)簡(jiǎn)單的方法,就是通過(guò)旋風(fēng)視頻VIP解析網(wǎng)站。URL:http://api.xfsub.com/
這個(gè)網(wǎng)站為我們提供了免費(fèi)的視頻解析,它的通用解析方式是:
http://api.xfsub.com/index.php?url=[播放地址或視頻id]
比如,對(duì)于繡春刀這個(gè)電影,我們只需要在瀏覽器地址欄輸入:
http://api.xfsub.com/index.php?url=http://www.iqiyi.com/v_19rr7qhfg0.html#vfrm=19-9-0-1
這樣,我們就可以在線觀看這些VIP視頻了:
但是這個(gè)網(wǎng)站只提供了在線解析視頻的功能,沒(méi)有提供下載接口,如果想把視頻下載下來(lái),我們就可以利用網(wǎng)絡(luò)爬蟲(chóng)進(jìn)行抓包,將視頻下載下來(lái)。
二、實(shí)戰(zhàn)升級(jí)
分析方法相同,我們使用Fiddler進(jìn)行抓包:
我們可以看到,有用的請(qǐng)求并不多,我們逐條分析。我們先看第一個(gè)請(qǐng)求返回的信息。
可以看到第一個(gè)請(qǐng)求是GET請(qǐng)求,沒(méi)有什么有用的信息,繼續(xù)看下一條。
我們看到,第二條GET請(qǐng)求地址變了,并且在返回的信息中,我們看到,這個(gè)網(wǎng)頁(yè)執(zhí)行了一個(gè)POST請(qǐng)求。POST請(qǐng)求是啥呢?它跟GET請(qǐng)求正好相反,GET是從服務(wù)器獲得數(shù)據(jù),而POST請(qǐng)求是向服務(wù)器發(fā)送數(shù)據(jù),服務(wù)器再根據(jù)POST請(qǐng)求的參數(shù),返回相應(yīng)的內(nèi)容。這個(gè)POST請(qǐng)求有四個(gè)參數(shù),分別為time、key、url、type。記住這個(gè)有用的信息,我們?cè)谧グY(jié)果中,找一下這個(gè)請(qǐng)求,看看這個(gè)POST請(qǐng)求做了什么。
很顯然,這個(gè)就是我們要找的POST請(qǐng)求,我們可以看到POST請(qǐng)求的參數(shù)以及返回的json格式的數(shù)據(jù)。其中url存放的參數(shù)如下:
xfsub_api/url.php?key=02896e4af69fb18f7029b6046d7c718&time=1505724557&url=http%3A%2F%2Fwww.iqiyi.com%2Fv_19rr7qhfg0.html&type=&xml=1
這個(gè)信息有轉(zhuǎn)義了,但是沒(méi)有關(guān)系,我們手動(dòng)提取一下,變成如下形式:
xfsub_api/url.php?key=02896e4af69fb18f70129b6046d7c718&time=1505724557&url=http://www.iqiyi.com/v_19rr7qhfg0.html&type=&xml=1
我們已經(jīng)知道了這個(gè)解析視頻的服務(wù)器的域名,再把域名加上:
http://api.xfsub.com/xfsub_apiurl.php?key=02896e4af69fb18f70129b6046d7c718&time=1505724557&url=http://www.iqiyi.com/v_19rr7qhfg0.html&type=&xml=1
這里面存放的是什么東西?不會(huì)視頻解析后的地址吧?我們有瀏覽器打開(kāi)這個(gè)地址看一下:
果然,我們可以看到視頻地址近在眼前啊,URL如下:
http://disp.titan.mgtv.com/vod.do?fmt=4&pno=1121&fid=1FEA2622E0BD9A1CA625FBE9B5A238A6&file=/c1/2017/09/06_0/1FEA2622E0BD9A1CA625FBE9B5A238A6_20170906_1_1_705.mp4
我們?cè)俅蜷_(kāi)這個(gè)視頻地址:
瞧,我們就這樣得到了這個(gè)視頻在服務(wù)器上的緩存地址。根據(jù)這個(gè)地址,我們就可以輕松下載視頻了。
PS:需要注意一點(diǎn),這些URL地址,都是有一定時(shí)效性的,很快就會(huì)失效,因?yàn)槔锩姘瑫r(shí)間信息。所以,各位在分析的時(shí)候,要根據(jù)自己的URL結(jié)果打開(kāi)網(wǎng)站才能看到視頻。
接下來(lái),我們的任務(wù)就是編程實(shí)現(xiàn)我們所分析的步驟,根據(jù)不同的視頻播放地址獲得視頻存放的地址。
現(xiàn)在梳理一下編程思路:
用正則表達(dá)式匹配到key、time、url等信息。
根據(jù)匹配的到信息發(fā)POST請(qǐng)求,獲得一個(gè)存放視頻信息的url。
根據(jù)這個(gè)url獲得視頻存放的地址。
根據(jù)最終的視頻地址,下載視頻。
三、編寫(xiě)代碼
編寫(xiě)代碼的時(shí)候注意一個(gè)問(wèn)題,就是我們需要使用requests.session()保持我們的會(huì)話請(qǐng)求。簡(jiǎn)單理解就是,在初次訪問(wèn)服務(wù)器的時(shí)候,服務(wù)器會(huì)給你分配一個(gè)身份證明。我們需要拿著這個(gè)身份證去繼續(xù)訪問(wèn),如果沒(méi)有這個(gè)身份證明,服務(wù)器就不會(huì)再讓你訪問(wèn)。這也就是這個(gè)服務(wù)器的反爬蟲(chóng)手段,會(huì)驗(yàn)證用戶的身份。
-
視頻
+關(guān)注
關(guān)注
6文章
1942瀏覽量
72884 -
python
+關(guān)注
關(guān)注
56文章
4792瀏覽量
84627
原文標(biāo)題:實(shí)戰(zhàn):用 Python 爬蟲(chóng)攻破愛(ài)奇藝 VIP 視頻防線
文章出處:【微信號(hào):magedu-Linux,微信公眾號(hào):馬哥Linux運(yùn)維】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論