歡迎您來到潮人地東莞seo博客,本站專業免費分享多元化的seo網站優化技術干貨以及解答seo各種常見問題的博客網站

熱門關鍵詞: seo優化 seo推廣 seo技術 seo博客 seo網站推廣怎么做 seo怎么做 新手做seo怎么做
當前位置:seo博客首頁 > seo技術分享 >

seo技術:搜索引擎蜘蛛是怎樣意思?(搜索引擎工作原理)

發布時間:2023-08-27 11:08:01 文章出處:潮人地東莞seo博客 作者:東莞seo博客 閱讀數量:

潮人地東莞seo博客小編下面跟大家分享關于seo技術:搜索引擎蜘蛛是怎樣意思?(搜索引擎工作原理)等問題,希望seo專員在做seo優化的過程中有所幫助,內容僅供參考。

在互聯網時代,搜索引擎可以說是日常生活的一部分。不僅如此,搜索引擎歷經20多年的風霜雨雪,仍然牢牢占據著流量入口,不得不讓人感嘆。

而且,提起搜索引擎,我們都會想到一家高大上的巨無霸公司和一家被黑出xiang的巨霸公司。足以見得搜索引擎的巨大作用。

作為產品人,對此當然不能視而不見,也應該了解了解其工作原理。

seo博客相關推薦閱讀:網站優化seo:seo有怎樣好處

搜索引擎工作原理大致可以分為3個步驟

1. 爬行與抓取

2. 預處理

seo技術:搜索引擎蜘蛛是怎樣意思?(搜索引擎工作原理)

3. 排序

所謂一圖勝千言,沒圖我說個……

PS:上圖總結自《SEO實戰密碼》。

下面詳細敘述:

爬行與抓取

簡單地說:就是搜索引擎蜘蛛沿著互聯網絡爬行并抓取其爬行的頁面,將這些抓取的頁面存儲起來。

說到這,你可能會問:為什么叫「蜘蛛」?

為了抓取盡量多的頁面,搜索引擎會跟蹤頁面上的鏈接,從一個頁面爬行到下一個頁面,好像蜘蛛在蜘蛛網上爬行那樣,這就是搜索引擎蜘蛛這個名稱的由來。

搜索引擎在跟蹤網絡上的鏈接時,會使用一定策略,因為現在的網絡鏈接太多。最簡單的爬行遍歷策略有兩種,一種是深度優先,一種是廣度優先。

還有一點值得一提:搜索引擎訪問網站頁面時類似于普通用戶使用的瀏覽器。搜索引擎蜘蛛抓取的數據存入原始頁面數據庫,其中的頁面數據與用戶瀏覽器得到的HTML完全一樣。

預處理

由于抓取的頁面數量太大(以”億”為單位),無法快速實時排序,所以需要預處理。這就是產品設計中的「復雜性守恒原則」,我們沒辦法讓用戶等待十幾秒甚至更久,就只能在后臺處理上下功夫。

在一些資料中,「預處理」也被稱為「索引」,因為「索引」是預處理最主要的內容。

預處理的過程比較復雜,值得一提的有這么幾點:

  • 去重:對于內容相似度高的,搜索引擎不喜歡,因為用戶不喜歡這樣的內容。而且,搜索引擎的去重算法很可能不止于頁面級別,而是進行到段落級別。因此,混合不同文章、交叉調換段落順序也不能使轉載和抄襲變成原創。所以,少抄襲,多原創吧。
  • 正向索引:可以簡稱為「索引」。通過這個步驟,搜索引擎將頁面及關鍵詞形成詞表結構存儲進索引庫。簡化的索引詞表形式如下。你看,這樣就得到了每個文件(如每個頁面)的對應關鍵詞。這樣用戶就能搜索了嗎?還不行。
  • 倒排索引:正向索引雖然提供了文件與關鍵詞的對應關系,但無奈用戶搜索的是關鍵詞,因此搜索引擎還需根據這些對應關系找到某關鍵詞對應的文件,這樣的計算量無法南通百度seo排名優化滿足實時返回排名結果的要求。因此,還需要倒排索引。倒排索引與正向索引剛好相反,它以關鍵詞為關鍵,簡單來說如下表:

得到了倒排索引,就能很快地根據用戶搜索的團風縣seo關鍵詞排名廠家關鍵詞找到對應文件,但這樣就夠了嗎?別天真啊。

通過上述步驟,其實只得到了頁面本身的內容。說白了,就是頁面本身告訴搜索引擎自己如何如何。

俗話說:王婆賣瓜,自賣自夸。

就像我們網購時不僅會看店家給的商品介紹,還會看看買家的評論一樣,頁面內容質量,也需要其他人的評價——這里的「其他人」指「其他頁面。」所以,我們還需要鏈接關系計算。

  • 鏈接關系計算:每個頁面上都有鏈接,不同頁面之間用鏈接互相關聯起來,這些關聯關系,就形成了其他頁面對某寧德抖音搜索排名seo怎么做個頁面的評價。這些復雜的鏈接指向關系形成了網站和頁面的鏈接權重。
排名

發現沒有:排名,是用戶是用戶唯一能感覺到的步驟,爬行與抓取、預處理,都在后臺完成。正因如此,用戶才會感到用起來十分快捷。

排名的過程也比較復雜,其中值得一提的有如下幾點:

  • 搜索詞處理:說白了,就是處理用戶輸入的關鍵詞。這一步對用戶來說更為關鍵,因為搜索引擎還不夠智能,需要我們去學習一些高級指令,以獲得更為精準的內容。

但由于每個關鍵詞對應的文件數量都可能是巨大的(如幾億個),處理如此龐大的數據量,無法滿足用戶對「快」的需求。同時,用戶并不需要所有內容,他們往往只查看前幾頁內容,甚至很多用戶只查看第一頁的前幾條內容。因此,選擇一定數量的內容進行處理,很有必要。這就涉及到選擇初識子集。

但如何選擇呢?這是一個問題。

  • 選擇初識子集:選擇出示子集,關鍵在于「權重」。所以說權重有多重要,即使頁面做得好,但權重不高,連做備胎的機會都沒有。
  • 相關性計算:這是排名過程中最重要的一步,最終搜索結果頁面的排名基本按照相關性從高到低排序。

但到此就結束了嗎?還沒有哦。

  • 排名過濾及調整:為了保證用戶搜索結果更符合用戶需求,搜索引擎需要過濾掉那些處心積慮鉆空子的頁面,在這一步,搜索引擎會找出這些頁面并施加懲罰。典型的例子是百度的11位。所以,過度優化有風險。
  • 查詢及點擊日志:通過這一步,搜索引擎記錄了用戶的一些數據,從而為后續的優化提供依據。這和產品日常工作中的數據埋點有些相似。

以上是潮人地東莞seo博客跟大家分享關于seo技術:搜索引擎蜘蛛是怎樣意思?(搜索引擎工作原理)等問題,希望能對大家有所幫助,若有不足之處,請諒解,我們大家可以一起討論關于網站seo優化排名的技巧,一起學習,以上內容僅供參考。

閱讀全文
本文標題"seo技術:搜索引擎蜘蛛是怎樣意思?(搜索引擎工作原理)":http://www.420113.com/jsfx_26153.html
本文版權歸潮人地seo博客所有,歡迎轉載,但未經作者同意必須在文章頁面給出原文連接,否則保留追究法律責任的權利。
標簽:
合作伙伴
主站蜘蛛池模板: 国产精品无码久久久久久| 中文字幕av无码一二三区电影| 亚洲爆乳无码专区www| 无码午夜成人1000部免费视频| 久久久无码精品亚洲日韩京东传媒| 曰产无码久久久久久精品 | 免费a级毛片无码a∨免费软件| 亚洲AV综合色区无码一区爱AV| 亚洲日韩精品A∨片无码加勒比| 国产成人无码精品久久久性色| 亚洲AV无码无限在线观看不卡| 国精品无码A区一区二区| 亚无码乱人伦一区二区| 亚洲AV日韩AV永久无码下载| 毛片亚洲AV无码精品国产午夜| 无码精品人妻一区二区三区人妻斩| 一级毛片中出无码| 亚洲国产成人精品无码区二本| 国产精品99精品无码视亚| 亚洲AV蜜桃永久无码精品| 亚洲精品无码你懂的| 久久精品无码一区二区无码 | 国产色无码精品视频国产| 久久无码高潮喷水| 久久午夜无码鲁丝片| 亚洲AV综合色区无码一区| 成年无码av片在线| 国产高清无码毛片| 无码8090精品久久一区| 亚洲日韩精品无码AV海量| 亚洲熟妇无码一区二区三区| 精品亚洲AV无码一区二区三区 | 无码里番纯肉h在线网站| 无码丰满熟妇juliaann与黑人| 日韩AV无码精品人妻系列| 亚洲熟妇无码AV不卡在线播放| 亚洲中文字幕无码mv| 亚无码乱人伦一区二区| 亚洲 无码 在线 专区| 国内精品人妻无码久久久影院导航| 狠狠精品久久久无码中文字幕 |