與 Oxylabs 一道探索網(wǎng)絡(luò)數(shù)據(jù)解析:概述

        2022-03-22 14:39:32來(lái)源:大京網(wǎng)  

        據(jù)我所知,人們總是會(huì)把網(wǎng)上公共數(shù)據(jù)的有用性與提取和整理這些數(shù)據(jù)的工作量進(jìn)行對(duì)比。然而,從原始數(shù)據(jù)產(chǎn)生結(jié)構(gòu)良好的已解析輸出,需要花費(fèi)大量的時(shí)間、精力和資源。即使在部署初始原型之后,也經(jīng)常需要進(jìn)行維護(hù)。

        考慮到規(guī)模的問(wèn)題之后,往往只有少數(shù)公司才會(huì)選擇進(jìn)行數(shù)據(jù)解析。更麻煩的是,由于多年以來(lái) HTML 的使用方式的性質(zhì),網(wǎng)絡(luò)數(shù)據(jù)解析還面臨獨(dú)特的挑戰(zhàn)。不過(guò),利用 Oxylabs 提供的自適應(yīng)解析器之類的功能,所有這些挑戰(zhàn)都不是問(wèn)題。

        什么是數(shù)據(jù)解析?

        所有網(wǎng)絡(luò)抓取活動(dòng)都依賴一個(gè)特定的操作——提取數(shù)據(jù)。最開始要做的事情都是下載HTML。遺憾的是,雖然 HTML 在大多數(shù)情況下包含所有必要信息,但其構(gòu)造方式不適合進(jìn)一步分析。這也不能算是HTML本身的錯(cuò)。HTML 這種語(yǔ)言原本是旨在由瀏覽器讀取,并轉(zhuǎn)換為在視覺(jué)效果上對(duì)于用戶很理想的最終結(jié)果。它在結(jié)構(gòu)上非常靈活,允許開發(fā)人員采取創(chuàng)造性的方法來(lái)創(chuàng)建最終結(jié)果。

        但是,這些創(chuàng)造性的方法經(jīng)常造成數(shù)據(jù)以不同的方式散布在各個(gè)地方。為了從 HTML 搜集信息,分析人員需要設(shè)法解析、整理和標(biāo)準(zhǔn)化數(shù)據(jù)點(diǎn)。通常,接下來(lái)還要采取的步驟是編寫定制腳本或一些幫助程序工具,以定義數(shù)據(jù)處理規(guī)則并使其更有條理。

        以 JSON 或 CSV 等結(jié)構(gòu)化格式檢索數(shù)據(jù)是比較理想的情況。但是,這完全行不通,至少在目前的格局下是這樣。因此,從 HTML 衍生的數(shù)據(jù)需要進(jìn)行解析,才能變得有條理。

        數(shù)據(jù)解析面臨的挑戰(zhàn)

        談到外部獲取(通常是從原始 HTML 獲取)的數(shù)據(jù),存在一個(gè)主要的問(wèn)題,這個(gè)問(wèn)題源自兩個(gè)因素:解析的絕對(duì)必要性和 HTML 的高比例使用。由于 HTML 用于通過(guò)瀏覽器直觀表示內(nèi)容,因此,對(duì)原始 HTML 執(zhí)行任何類型的分析都會(huì)效率低下。

        由于不同網(wǎng)站的網(wǎng)絡(luò)開發(fā)實(shí)踐千差萬(wàn)別,要拿出一個(gè)通用的解析器極其困難。例如,在兩個(gè)電商網(wǎng)站上,同一款產(chǎn)品的頁(yè)面可能看起來(lái)非常相似,并且包含相同的信息,但底層的 HTML 卻并不相同。因此,相同的解析器行不通,開發(fā)人員需要為每種情況開發(fā)定制化解決方案,或者開發(fā)一個(gè)更復(fù)雜的解析器來(lái)處理各種差異。隨著更多的網(wǎng)站等待解析,這種局面也會(huì)變得越來(lái)越復(fù)雜。

        即使對(duì)于相同的數(shù)據(jù)源,一個(gè)解析器可能也不夠。例如,電商平臺(tái)往往有多種布局和頁(yè)面類型散布其間。解析需要針對(duì)每一種類型使用定制方法。有一些幫助程序工具,需要花費(fèi)精力去掌握,但是,即使這些工具也不能做到一勞永逸,因?yàn)檫@些頁(yè)面必然會(huì)隨時(shí)間而變化。

        將 HTML 的靈活性和嵌套性質(zhì)相結(jié)合,這樣的任務(wù)對(duì)于分析人員來(lái)說(shuō)相當(dāng)棘手。雪上加霜的是,復(fù)雜性遠(yuǎn)不止于此。網(wǎng)站常常會(huì)改變布局,或增加新的功能,而這些都會(huì)影響解析器。面對(duì)這些變化,解析器也需要相應(yīng)進(jìn)行更新來(lái)匹配新的外觀。

        再加上需要從不計(jì)其數(shù)的來(lái)源獲取數(shù)據(jù),以及解析 HTML 進(jìn)行數(shù)據(jù)分析的困難重重,這項(xiàng)工作很快就會(huì)變得令人望而生畏。已經(jīng)有專屬開發(fā)人員團(tuán)隊(duì)的大型企業(yè)或許還有機(jī)會(huì)維護(hù)數(shù)量龐大的抓取器和解析器。較小的企業(yè)往往只能徹底外包這項(xiàng)工作。

        外包解析工作確實(shí)也有好處。對(duì)于較小的用例來(lái)說(shuō),比起組建開發(fā)人員團(tuán)隊(duì)、進(jìn)行協(xié)調(diào)組織、創(chuàng)建解析器并加以維護(hù),外包方法的人力資源和資本的總體成本往往更低。此外,雖然外包解析工作會(huì)讓小企業(yè)更依賴外部力量,但這樣解決了適應(yīng)不斷變化的布局和潛在服務(wù)中斷的難題(服務(wù)中斷仍會(huì)發(fā)生,只是持續(xù)時(shí)間較短)。

        人工智能的優(yōu)勢(shì)

        為一個(gè)任務(wù)編寫一個(gè)簡(jiǎn)單的解析器,對(duì)于較小的開發(fā)團(tuán)隊(duì)來(lái)說(shuō)可能再正常不過(guò)了。但是,真正的挑戰(zhàn)在于規(guī)模。每增加一個(gè)新的來(lái)源,至少需要好幾個(gè)新的定制解析器。維護(hù)日益增加的解析器是極其耗費(fèi)資源的。由于網(wǎng)絡(luò)上的數(shù)據(jù)散布在不計(jì)其數(shù)的報(bào)紙、論壇、社交媒體和其他渠道,采集和加載這些數(shù)據(jù)需要大量時(shí)間和資源才剛夠完成解析過(guò)程。

        利用機(jī)器學(xué)習(xí)給我們帶來(lái)了希望。畢竟,HTML 是用于創(chuàng)建人類可讀的網(wǎng)站。雖然很多時(shí)候殊途同歸,但在大多數(shù)情況下,當(dāng)網(wǎng)站進(jìn)行重新設(shè)計(jì)時(shí),大家仍然可以使用它。然而,與此同時(shí),不同網(wǎng)站之間的編程差異絕不會(huì)太大。這就表明,某種類型的機(jī)器學(xué)習(xí)方法是可行的。

        我們?cè)?Oxylabs 已經(jīng)做了一些類似的工作。我們的其中一個(gè)解決方案是“下一代住宅代理”(Next-Gen Residential Proxies),融合了數(shù)據(jù)獲取和人工智能的原則。它省去了所有其他花哨的功能,側(cè)重實(shí)現(xiàn)了自適應(yīng)解析,這是我們迄今為止最了不起的成就。

        在深入介紹我們創(chuàng)建首批自適應(yīng)解析器版本的過(guò)程之前,我需要提一下的是,我們并不是完全單打獨(dú)斗。我們內(nèi)部甚至并沒(méi)有關(guān)于機(jī)器學(xué)習(xí)和人工智能的太多經(jīng)驗(yàn)。我們只是深知各種可能性。因此,我們匯聚了世界各地的機(jī)器學(xué)習(xí)專家,并同時(shí)吸納了學(xué)術(shù)研究人員和具備實(shí)踐專長(zhǎng)的人員。

        我們的人工智能顧問(wèn)委員會(huì)幫助我們開發(fā)了解決方案,并進(jìn)而推動(dòng)了自適應(yīng)解析功能的誕生。人們可以使用自適應(yīng)功能從任意電商產(chǎn)品頁(yè)面獲取結(jié)構(gòu)化數(shù)據(jù)。關(guān)于直觀表示,請(qǐng)參見下面的圖片:

        我們使用了受監(jiān)督的機(jī)器學(xué)習(xí)模型來(lái)饋送所需的數(shù)據(jù)。如您所想象的那樣,這個(gè)過(guò)程其實(shí)并沒(méi)有我們最初設(shè)想的那樣復(fù)雜和困難。

        但是,獲取包含帶標(biāo)簽字段的足夠大的訓(xùn)練數(shù)據(jù)集需要耗費(fèi)非常多的人力(或財(cái)力)。即使對(duì)于能夠支持內(nèi)部開發(fā)團(tuán)隊(duì)和專屬機(jī)器學(xué)習(xí)專家的更大型企業(yè),我也會(huì)留意合適的服務(wù)提供商。大多數(shù)時(shí)候,我們會(huì)評(píng)估第三方抓取服務(wù)提供的定價(jià)模型和功能,這樣才能做出最佳的決策。

        結(jié)論

        網(wǎng)絡(luò)數(shù)據(jù)解析是一個(gè)極其耗費(fèi)人力的過(guò)程,而為了獲取可用信息,這個(gè)過(guò)程又是絕對(duì)必要的。HTML 解析有自身獨(dú)特的一系列問(wèn)題,困擾著整個(gè)解析過(guò)程。雖然創(chuàng)建一個(gè) HTML 解析器可能并不難,但對(duì)于任何大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)獲取過(guò)程,可能需要幾十個(gè)解析器。

        因此,解析的方法也在發(fā)生變化。維護(hù)內(nèi)部網(wǎng)絡(luò)抓取和解析解決方案不再是必要的。基于人工智能的下一代解決方案應(yīng)運(yùn)而生,真正交付數(shù)據(jù)即服務(wù) (data as a service)。隨著解析技術(shù)的改進(jìn),前所未見的數(shù)據(jù)分析新用例也將出現(xiàn)。即使是現(xiàn)在,要針對(duì)最細(xì)粒度的用例搜集洞察,也只需發(fā)送幾個(gè)請(qǐng)求即可。

        關(guān)鍵詞: Oxylabs

        責(zé)任編輯:hnmd003

        相關(guān)閱讀

        相關(guān)閱讀

        精彩推送

        推薦閱讀

        最新亚洲人成无码网www电影| 亚洲AV乱码久久精品蜜桃| 久久精品国产亚洲综合色| 亚洲A∨午夜成人片精品网站| 亚洲美国产亚洲AV| 亚洲人成人无码.www石榴| 亚洲中文无码mv| 亚洲日韩av无码中文| 亚洲欧美第一成人网站7777| 亚洲色一区二区三区四区| 亚洲色偷偷综合亚洲AV伊人蜜桃| 日韩亚洲产在线观看| 亚洲夂夂婷婷色拍WW47| 亚洲欧美国产日韩av野草社区| 亚洲av成本人无码网站| 国产亚洲欧美日韩亚洲中文色| 日韩亚洲精品福利| 亚洲天堂免费在线视频| 亚洲宅男天堂在线观看无病毒 | 亚洲中文字幕无码不卡电影| 在线亚洲人成电影网站色www| 亚洲欧洲精品成人久久曰影片 | 亚洲精品成人久久| 亚洲一区精品视频在线| 亚洲综合一区二区三区四区五区| 亚洲国产精品成人综合色在线| 朝桐光亚洲专区在线中文字幕| 亚洲日本中文字幕天堂网| 亚洲综合图色40p| 亚洲日本va中文字幕久久| 国产亚洲成人久久| 亚洲AV综合色区无码一区爱AV| 亚洲综合在线视频| 91亚洲国产成人精品下载| 亚洲视频在线播放| 亚洲AV成人噜噜无码网站| 亚洲国产精品久久久久秋霞小| 亚洲成a人无码av波多野按摩| 国产亚洲视频在线播放| 亚洲AV成人片色在线观看| 亚洲国产精品成人精品软件|