RM新时代正规平台入口-百度知道,新时代RM|登录网址

首先，讓我們回顧一下入門Python爬蟲的四個(gè)步驟吧：

Python爬蟲入門知識(shí)：解析數(shù)據(jù)篇

而解析數(shù)據(jù)，其用途就是在爬蟲過(guò)程中將服務(wù)器返回的HTML源代碼轉(zhuǎn)換為我們能讀懂的格式。那么，接下來(lái)就正式進(jìn)入到解析數(shù)據(jù)篇的內(nèi)容啦。

Part 1：了解HTML

HTML（Hyper Text Markup Language）為超文本標(biāo)記語(yǔ)言。簡(jiǎn)單來(lái)講，就是一種用于構(gòu)建網(wǎng)頁(yè)的編程語(yǔ)言。其主要組成部分為網(wǎng)頁(yè)頭（《head》元素）與網(wǎng)頁(yè)體（《body》元素）。一般情況下，網(wǎng)頁(yè)頭部分會(huì)定義HTML文檔的編碼以及網(wǎng)頁(yè)的標(biāo)題。而網(wǎng)頁(yè)體部分則決定著一個(gè)網(wǎng)頁(yè)中的正文內(nèi)容。

Python爬蟲入門知識(shí)：解析數(shù)據(jù)篇

在一個(gè)HTML文檔內(nèi)，我們可以看到許多被《》括住的內(nèi)容，它們被稱作一個(gè)標(biāo)簽。標(biāo)簽通常是成對(duì)出現(xiàn)的。比如網(wǎng)頁(yè)頭部分的代碼中含有《head》以及《/head》，網(wǎng)頁(yè)體部分的代碼中含有《body》以及《/body》。

在了解過(guò)HTML的基本信息之后，下一步我們就可以去解析這些數(shù)據(jù)了。

Part 2：下載BeautifulSoup庫(kù)

在解析與提取數(shù)據(jù)的過(guò)程中，我們會(huì)用到一個(gè)強(qiáng)大的工具，即BeautifulSoup庫(kù)。由于BeautifulSoup不屬于Python標(biāo)準(zhǔn)庫(kù)，因此需要單獨(dú)進(jìn)行下載。Mac用戶需打開終端，輸入代碼pip install BeautifulSoup4。Windows用戶需運(yùn)行CMD，輸入代碼pip install BeautifulSoup4。下載完成后，在編輯器內(nèi)輸入以下代碼即可實(shí)現(xiàn)BeautifulSoup庫(kù)的調(diào)用。

Python爬蟲入門知識(shí)：解析數(shù)據(jù)篇

Part 3：運(yùn)用BeautifulSoup解析數(shù)據(jù)

具體用法：變量名稱 = BeautifulSoup（需要解析的數(shù)據(jù)，‘html.parser’）

備注：1. BeautifulSoup（）內(nèi)的第一個(gè)參數(shù)，即需要解析的數(shù)據(jù)，類型必須為字符串，否則運(yùn)行時(shí)系統(tǒng)會(huì)報(bào)錯(cuò)。2. ‘html.parser’為Python內(nèi)置庫(kù)中的一個(gè)解析器。它的運(yùn)行速度較快，使用方法也比較簡(jiǎn)單。但是它并不是唯一的解析器，大家可以使用其它的解析器進(jìn)行操作，但是具體用法可能會(huì)略有不同。

Python爬蟲入門知識(shí)：解析數(shù)據(jù)篇

總結(jié)：

Python爬蟲入門知識(shí)：解析數(shù)據(jù)篇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴