91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Python中BeatifulSoap解析HTML的三個實用小技巧詳解

jf_f8pIz0xS ? 來源:CSDN技術(shù)社區(qū) ? 作者:LaoYuanPython ? 2021-04-15 13:51 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一、BeautifulSoup簡介

BeautifulSoup是Python爬蟲應用解析Html的利器,是Python三方模塊bs4中提供的進行HTML解析的類,可以認為是一個HTML解析工具箱,對HTML報文中的標簽具有比較好的容錯識別功能。lxml是一款html文本解析器,BeautifulSoup構(gòu)建對象時需要指定HTML解析器,推薦使用lxml。

BeautifulSoup和lxml安裝命令:

1pip install -i https://pypi.tuna.tsinghua.edu.cn/simple bs4

2pip install -i https://pypi.tuna.tsinghua.edu.cn/simple lxml

加載BeautifulSoup:

1from bs4 import BeautifulSoup

BeatifulSoap解析HTML報文的常用功能:

通過BeautifulSoup對象可以訪問標簽對應的html元素、并進一步訪問標簽的名字、屬性、html元素標簽對中的內(nèi)容。

案例:

1from bs4 import BeautifulSoup

2import urllib.request

3def getURLinf(url):

4header = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36’}

5req = urllib.request.Request(url=url,headers=header)

6resp = urllib.request.urlopen(req,timeout=5)

7html = resp.read().decode()

8soup = BeautifulSoup(html,‘lxml’)

9return (soup,req,resp)

10soup,req ,resp = getURLinf(r‘https://blog.csdn.net/LaoYuanPython/article/details/111303395’)

11print(soup.p)

12print(soup.link)

13print(soup.title)

14print(soup.link.attrs)

15print(soup.link[‘rel’])

通過標簽的contents屬性,可以訪問其下嵌套的所有下級HTML元素,這些該標簽下的子標簽對應的HTML元素放到一個contents 指向的列表中。

如:print(soup.body.contents)

可以訪問標簽對應的父、子、兄弟及祖先標簽信息;

使用strings屬性迭代訪問除標簽外的所有內(nèi)容;

可以使用find、find_all、find_parent、find_parents等系列方法查找滿足特定條件的標簽;

使用select通過css選擇器定位特定標簽。

具體的大家可以參考老猿博客的免費專欄《爬蟲:https://blog.csdn.net/laoyuanpython/category_9103810.html》或付費專欄《Python爬蟲入門:https://blog.csdn.net/laoyuanpython/category_10762553.html》的相關(guān)介紹。

二、一些解析技巧

在HTML解析時,如果通過簡單的tag、或單個tag屬性(如id、class)或文本一次搜索或select定位是最簡單的,而有些情況需要使用組合方法才能處理。

2.1、通過標簽的多個屬性組合定位或查找

經(jīng)常有些要定位的標簽有很多,按單個屬性查找也有很多,得使用多個屬性查找。如:

1《div id=“article_content” class=“article_content clearfix”》

2。。.。。.

3《/div》

4《div id=“article_content” class=“article_view”》

5。。.。。.

6《/div》

7《div id=“article_view” class=“article_view”》

8。。.。。.

9《/div》

上面的html文本中有多個id為article_content的div標簽,如果使用:

1》》》 text=“”“```html

2《div id=”article_content“ class=”article_content clearfix“》

3。。.。。.

4《/div》

5《div id=”article_content“ class=”article_view“》

6。。.。。.

7《/div》

8《div id=”article_view“ class=”article_view“》

9。。.。。.

10《/div》”“”

11》》》 s = BeautifulSoup(text,‘lxml’)

12》》》 s.select(‘div#article_content’)

13[《div class=“article_content clearfix” id=“article_content”》。。.。。.《/div》,

14《div class=“article_view” id=“article_content”》。。.。。.《/div》]

15》》》

就會返回兩條記錄。這時候就可以使用多標簽屬性定位的如下4種語句:

1》》》s.select(‘div#article_content[class=“article_content clearfix”]’)

2[《div class=“article_content clearfix” id=“article_content”》。。.。。.《/div》]

3》》》s.select(‘div[id=“article_content”][class=“article_content clearfix”]’)

4[《div class=“article_content clearfix” id=“article_content”》。。.。。.《/div》]

5》》》s.find_all(“div”,id=“article_content”,class_=‘a(chǎn)rticle_content clearfix’)

6[《div class=“article_content clearfix” id=“article_content”》。。.。。.《/div》]

7》》》s.find_all(“div”,“#article_content”,class_=‘a(chǎn)rticle_content clearfix’)

8[《div class=“article_content clearfix” id=“article_content”》。。.。。.《/div》]

以上四種方式是等價的,因為id可以用#來標記,class在查找時需要和Python關(guān)鍵字class區(qū)分,因此有上述不同方法,注意select的每個屬性必須用中括號括起來,不同屬性的中括號之間不能有空格,如果有空格表示的就不是查找同一標簽的屬性,空格后的屬性表示前一個屬性對應標簽的子孫標簽的屬性。

2.2、利用tag標簽關(guān)系定位內(nèi)容

tag標簽關(guān)系包括父子、兄弟、祖先等關(guān)系,有時要查找或定位的內(nèi)容本身不是很好定位,但結(jié)合其他標簽關(guān)系(主要是父子、祖先關(guān)系)則可以唯一確認。

案例:

這是CSDN的博文中關(guān)于博主個人信息的部分報文:

1《div class=“data-info d-flex item-tiling”》

2《dl class=“text-center” title=“1055”》

3《a href=“https://blog.csdn.net/LaoYuanPython” data-report-click=‘{“mod”:“1598321000_001”,“spm”:“1001.2101.3001.4310”}’ data-report-query=“t=1”》

4《dt》《span class=“count”》1055《/span》《/dt》

5《dd class=“font”》原創(chuàng)《/dd》

6《/a》

7《/dl》

8《dl class=“text-center” data-report-click=‘{“mod”:“1598321000_002”,“spm”:“1001.2101.3001.4311”}’ title=“22”》

9《a href=“https://blog.csdn.net/rank/writing_rank” target=“_blank”》

10《dt》《span class=“count”》22《/span》《/dt》

11《dd class=“font”》周排名《/dd》

12《/a》

13《/dl》

14《/div》

以上報文中,如果要取博主的原創(chuàng)文章數(shù)和周排名,原創(chuàng)文章數(shù)和博主周排名的tag標簽完全相同,二者都在span標簽內(nèi),標簽的屬性及值都相同,只是span標簽的父標簽dt標簽的兄弟標簽dd標簽的string的中文內(nèi)容才能區(qū)分。對于這種情況,首先要通過祖先標簽《div class=“data-info d-flex item-tiling”》定位到祖先標簽,再在祖先標簽內(nèi)通過中文字符串定位到要訪問屬性的兄弟標簽的子標簽,然后通過該子標簽找到其父標簽的父標簽,再通過該父標簽的dt子標簽的span子標簽訪問具體取值。

示例代碼如下:

1》》》 text=“”“

2《div class=”data-info d-flex item-tiling“》

3《dl class=”text-center“ title=”1055“》

4《a href=”https://blog.csdn.net/LaoYuanPython“ data-report-click=‘{”mod“:”1598321000_001“,”spm“:”1001.2101.3001.4310“}’ data-report-query=”t=1“》

5《dt》《span class=”count“》1055《/span》《/dt》

6《dd class=”font“》原創(chuàng)《/dd》

7《/a》

8《/dl》

9《dl class=”text-center“ data-report-click=‘{”mod“:”1598321000_002“,”spm“:”1001.2101.3001.4311“}’ title=”22“》

10《a href=”https://blog.csdn.net/rank/writing_rank“ target=”_blank“》

11《dt》《span class=”count“》22《/span》《/dt》

12《dd class=”font“》周排名《/dd》

13《/a》

14《/dl》

15《/div》”“”

16》》》 s = BeautifulSoup(text,‘lxml’)

17》》》 subSoup = s.select(‘[class=“data-info d-flex item-tiling”] [class=“font”]’)

18》》》 for item in subSoup:

19parent = item.parent

20if item.string==‘原創(chuàng)’:

21orignalNum = int(parent.select(‘.count’)[0].string)

22elif item.string==‘周排名’:

23weekRank = int(parent.select(‘.count’)[0].string)

24》》》 print(orignalNum,weekRank)

251055 22

26》》》

注意:上面的select使用的也是標簽的屬性來定位標簽,并且兩個中括號之間有空格,表明后一個要查找的標簽在前一個屬性對應標簽的子孫標簽范圍內(nèi)。

2.3、分析前去除程序代碼避免干擾

在解析HTML報文時,絕大多數(shù)情況是需要分析有用的標簽信息,但作為技術(shù)文章,大部分的博文中都有代碼,這些代碼可能會對分析進行干擾。如本文中的代碼含有一些分析的HTML報文,如果獲取本文的完整HTML內(nèi)容,這些報文在非代碼部分也會出現(xiàn),此時要排除代碼的影響,可以將代碼先從分析內(nèi)容中去除再來分析。

目前大多數(shù)技術(shù)平臺的博文編輯器都支持對代碼的標識,象markdown等編輯器代碼的標簽為code標檢,如果有其他編輯器用不同標簽的,只有確認了標簽名,都可以按下面介紹的類似方式來處理。

處理步驟如下:

獲取報文;

構(gòu)建BeatifulSoap對象soup;

通過soup.code.extract()或soup.code.decompose()方式就從soup對象中去除了代碼部分,decompose方法與extract方法的區(qū)別就是decompose直接刪除對應對象數(shù)據(jù)而extract再刪除時將刪除對象單獨返回。

關(guān)于這部分內(nèi)容的案例可以參考《https://blog.csdn.net/LaoYuanPython/article/details/114729045 n行Python代碼系列:四行程序分離HTML報文中的程序代碼》的詳細介紹。

三、小結(jié)

本文介紹了使用BeatifulSoap解析HTML報文的三個使用技巧,包括通過多屬性組合查找或定位標簽、通過結(jié)合多個標簽關(guān)系來定位標簽以及去除html報文中的代碼標簽來避免代碼對解析的影響。

編輯:lyn

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • HTML
    +關(guān)注

    關(guān)注

    0

    文章

    280

    瀏覽量

    48510
  • python
    +關(guān)注

    關(guān)注

    57

    文章

    4877

    瀏覽量

    90078
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    解析碳化硅MOS管在型號替換背后存在的三個主要差異

    碳化硅MOS管為什么不能簡單根據(jù)型號直接替代?從參數(shù)匹配到系統(tǒng)驗證主要有三個差異。當工程師看到一份標注著“耐壓1200V、電流33A、導通電阻60mΩ”的產(chǎn)品規(guī)格書時,第一反應往往是尋找參數(shù)相同
    的頭像 發(fā)表于 02-28 10:50 ?455次閱讀

    駿馬奔騰,芯向未來:SiC功率器件的“三個必然”與丙午馬年的產(chǎn)業(yè)躍遷

    : 碳化硅 (SiC);三個必然;自主可控;產(chǎn)業(yè)升級;基本半導體;青銅劍技術(shù);馬年祝福 序章:金戈鐵馬,氣吞萬里如虎——站在丙午馬年的歷史門檻 當時光的車輪滾滾向前,即將跨越乙巳蛇年的尾聲,正式邁入2026丙午馬年。在中國傳統(tǒng)文化,“馬”象征著
    的頭像 發(fā)表于 02-15 10:33 ?55次閱讀
    駿馬奔騰,芯向未來:SiC功率器件的“<b class='flag-5'>三個</b>必然”與丙午馬年的產(chǎn)業(yè)躍遷

    altium designer 如何畫短路兩或者三個網(wǎng)絡(luò)的封裝?

    如何我畫了一天線,有3引腳,TX1,TX2,GND, 但實際上這三個引腳是連在一起的。我導入pcb后,會報DRC警告,這個該怎么解決?
    發(fā)表于 02-12 19:30

    1688 商品詳情 API 調(diào)用與數(shù)據(jù)解析 Python 實戰(zhàn)

    你想要的是 1688 商品詳情 API 的 Python 調(diào)用與數(shù)據(jù)解析實戰(zhàn)方案,核心是完成 API 憑證配置、接口請求(含簽名)、響應數(shù)據(jù)解析、異常處理 的全流程落地,我會提供可直接運行的代碼,并
    的頭像 發(fā)表于 02-10 11:23 ?273次閱讀

    三個經(jīng)典開關(guān)電源實際問題解析

    下面三個關(guān)于多路輸出電源連續(xù)工作模式的問題,測試一下您的電源設(shè)計知識。然后核對您的答案。
    的頭像 發(fā)表于 01-22 16:08 ?1998次閱讀
    <b class='flag-5'>三個</b>經(jīng)典開關(guān)電源實際問題<b class='flag-5'>解析</b>

    MDD從工程故障看極管三個極的設(shè)計誤區(qū)與失效案例

    一、為什么極管問題總是“看起來很隨機”?在FAE現(xiàn)場支持,經(jīng)常遇到如下問題:-同一電路,有的板子正常,有的異常-高溫下工作不穩(wěn)定-更換批次后性能漂移這些問題,90%都與三個極的設(shè)計與使用方式有關(guān)
    的頭像 發(fā)表于 01-19 11:48 ?222次閱讀
    MDD從工程故障看<b class='flag-5'>三</b>極管<b class='flag-5'>三個</b>極的設(shè)計誤區(qū)與失效案例

    Termux調(diào)試圣誕樹Python代碼

    在Termux調(diào)試Python代碼(以圣誕樹立例)非常簡單,核心分為環(huán)境準備、代碼編寫、運行調(diào)試三個步驟,下面一步步教你操作: 一、環(huán)境準備(首次使用需做) Termux默認可能沒有Pyth
    發(fā)表于 12-09 09:02

    未來工業(yè)AI發(fā)展的三個必然階段

    與優(yōu)化 能力的深層革命。 未來十年,工業(yè)AI的發(fā)展將經(jīng)歷三個清晰的階段:? 智能輔助 → 智能決策 → 自主優(yōu)化 。這次進化,構(gòu)成了工業(yè)從“人控機器”到“機器共智”的核心路徑。 一、第一階段:智能輔助(AI for Assistance) 時間窗口:
    的頭像 發(fā)表于 10-27 15:47 ?464次閱讀
    未來工業(yè)AI發(fā)展的<b class='flag-5'>三個</b>必然階段

    VVIC 平臺商品詳情接口高效調(diào)用方案:從簽名驗證到數(shù)據(jù)解析全流程

    本文詳解VVIC平臺商品詳情接口調(diào)用全流程,涵蓋參數(shù)配置、簽名生成、異常處理與數(shù)據(jù)解析,提供可復用的Python代碼及避坑指南,助力開發(fā)者高效實現(xiàn)安全、穩(wěn)定的數(shù)據(jù)對接。
    的頭像 發(fā)表于 09-23 10:28 ?698次閱讀

    怎么結(jié)合嵌入式,Linux,和FPGA三個方向達到一均衡發(fā)展?

    在嵌入式領(lǐng)域,不少人都懷揣著讓嵌入式、Linux 和 FPGA 三個方向?qū)崿F(xiàn)均衡發(fā)展的夢想,然而實踐卻面臨諸多挑戰(zhàn)。就像備受矚目的全棧工程師稚暉君,他從大學玩單片機起步,憑借將智能算法融入嵌入式而
    的頭像 發(fā)表于 06-25 10:08 ?880次閱讀
    怎么結(jié)合嵌入式,Linux,和FPGA<b class='flag-5'>三個</b>方向達到一<b class='flag-5'>個</b>均衡發(fā)展?

    請問并聯(lián)三個LT3092擴展電流是否可行?

    使用LT3092作為脈沖電流源驅(qū)動150mA使用,現(xiàn)在需要擴展電流至400~500mA。電流需求穩(wěn)定。①請問并聯(lián)三個LT3092擴展電流是否可行。電路設(shè)計是否需要注意其他事項。②如下圖,手冊給出2種2路并聯(lián)的方案,路并聯(lián)選擇
    發(fā)表于 06-19 07:13

    【HarmonyOS 5】鴻蒙的UIAbility詳解

    【HarmonyOS 5】鴻蒙的UIAbility詳解) ##鴻蒙開發(fā)能力 ##HarmonyOS SDK應用服務##鴻蒙金融類應用 (金融理財# 一、前言 本文是鴻蒙的UIA
    的頭像 發(fā)表于 06-14 22:32 ?759次閱讀

    python入門圣經(jīng)-高清電子書(建議下載)

    和Pygal 等強大的Python 庫和工具介紹,以及列表、字典、if 語句、類、文件與異常、代碼測試等內(nèi)容; 第二部分將理論付諸實踐,講解如何開發(fā)三個項目,包括簡單的Python 2D 游戲開發(fā)如何利用數(shù)據(jù)
    發(fā)表于 04-10 16:53

    半導體制造過程三個主要階段

    前段工藝(Front-End)、中段工藝(Middle-End)和后段工藝(Back-End)是半導體制造過程三個主要階段,它們在制造過程扮演著不同的角色。
    的頭像 發(fā)表于 03-28 09:47 ?7427次閱讀
    半導體制造過程<b class='flag-5'>中</b>的<b class='flag-5'>三個</b>主要階段

    Python在嵌入式系統(tǒng)的應用場景

    你想把你的職業(yè)生涯提升到一新的水平?Python在嵌入式系統(tǒng)中正在成為一股不可缺少的新力量。盡管傳統(tǒng)上嵌入式開發(fā)更多地依賴于C和C++語言,Python的優(yōu)勢在于其簡潔的語法、豐富的庫和快速的開發(fā)周期,這使得它在某些嵌入式場景
    的頭像 發(fā)表于 03-19 14:10 ?1510次閱讀