咨詢電話:024-31891684
Promotion網(wǎng)絡(luò)營銷當(dāng)前位置:首頁>主要服務(wù)>網(wǎng)絡(luò)營銷搜索引擎規(guī)律分析搜索引擎(Search Engnes)是用來查詢Intenet信息資源的WWW網(wǎng)站,也是網(wǎng)絡(luò)營銷的重要手段 。WWW(world Wide Web)是一個(gè)基于超文本技術(shù)的信息查詢系統(tǒng) 。超文本技術(shù)(Hypertext Technology)是一種以節(jié)點(diǎn)為信息單元、通過鏈接方式揭示信息單元之間相互聯(lián)系的計(jì)算機(jī)技術(shù) 。超文本技術(shù)是在20世紀(jì)80年代由瑞士的歐洲物理粒子實(shí)驗(yàn)室計(jì)算機(jī)專家提出來的 。20世紀(jì)80年代后期,該實(shí)驗(yàn)室的計(jì)算機(jī)專家Tim Netners Lee首先設(shè)計(jì)了一種信息處理系統(tǒng) 。這一系統(tǒng)的特點(diǎn)就是可以通過單元文本的鏈接描述信息單元之間的聯(lián)系 。www是20世紀(jì)80午代末由歐洲量子物理實(shí)驗(yàn)室CERN發(fā)展出來的主從結(jié)構(gòu)分布式超媒體系統(tǒng)。到了1993年www技米省了突破性進(jìn)展 ,它解決了遠(yuǎn)程信息服務(wù)中的文字顯示 、數(shù)據(jù)鏈接以及圖像傳遞問題。如今www巳成Iternt上最流行的信息傳播方式 。由此可知 ,搜索引擎是以www為平臺(tái),以超文本鏈接技術(shù)為基礎(chǔ) ,對(duì)Internt上的信息資源進(jìn)行搜集 、過濾、組織 ,并提供檢索的網(wǎng)絡(luò)佰息在線檢索工具 。搜索引擎實(shí)質(zhì)上也是——個(gè)網(wǎng)站,提高了網(wǎng)絡(luò)營銷的效率。它是查詢Internet上網(wǎng)站和網(wǎng)貞信息的網(wǎng)站。搜索引擎實(shí)質(zhì)上也是一種檢索工具,它是www上在線檢索工具?div id="4qifd00" class="flower right"> ?傊端饕媸怯梢幌盗屑夹g(shù)組成的網(wǎng)絡(luò)信息在線查詢系統(tǒng),這種查詢系統(tǒng)借助不問的網(wǎng)站的服務(wù)器幫助用戶在詢信息。搜索引擎在抓取海量的原始網(wǎng)頁時(shí),會(huì)進(jìn)行預(yù)處理,主要包括四個(gè)方面,關(guān)鍵詞的提取,“鏡像網(wǎng)頁”(網(wǎng)頁的內(nèi)容完全相同,未加任何修改)或“轉(zhuǎn)載網(wǎng)頁”(near-replicas,主題內(nèi)容基本相同但可能有一些額外的編輯信息等,轉(zhuǎn)載網(wǎng)頁也稱為“近似鏡像網(wǎng)頁”)的消除,鏈接分析和網(wǎng)頁重要程度的計(jì)算。1. 關(guān)鍵詞的提取,取一篇網(wǎng)頁的源文件(例如通過瀏覽器的“查看源文件”功能),我們可以看到其中的情況紛亂繁雜 。從認(rèn)識(shí)和實(shí)踐來看 ,所含的關(guān)鍵詞即為這種特征最好的代表。于是 ,作為預(yù)處理階段的一個(gè)基本任務(wù) ,就是要提取出網(wǎng)頁源文件的內(nèi)容部分所含的關(guān)鍵詞。對(duì)于中文來說 ,就是要根據(jù)一個(gè)詞典Σ ,用一個(gè)所謂“切詞軟件”,從網(wǎng)頁文字中切出Σ所含的詞語來 。在那之后 ,一篇網(wǎng)頁主要就由一組詞來近似代表了,p = {t1 , t2 , …, tn} 。一般來講,我們可能得到很多詞,同一個(gè)詞可能在一篇網(wǎng)頁中多次出現(xiàn)。從效果(effectiveness)和效率(efficiency)考慮,不應(yīng)該讓所有的詞都出現(xiàn)在網(wǎng)頁的表示中,要去掉諸如“的”,“在”等沒有內(nèi)容指示意義的詞,稱為“停用詞”(stop word)。這樣,對(duì)一篇網(wǎng)頁來說,有效的詞語數(shù)量大約在200個(gè)左右。 2. 重復(fù)或轉(zhuǎn)載網(wǎng)頁的消除,與生俱來的數(shù)字化和網(wǎng)絡(luò)化給網(wǎng)頁的復(fù)制以及轉(zhuǎn)載和修改再發(fā)表帶來了便利,因此我們看到Web上的信息存在大量的重復(fù)現(xiàn)象。這種現(xiàn)象對(duì)于廣大的網(wǎng)民來說是有正面意義的,因?yàn)橛辛烁嗟男畔⒃L問機(jī)會(huì)。但對(duì)于搜索引擎來說,則主要是負(fù)面的;它不僅在搜集網(wǎng)頁時(shí)要消耗機(jī)器時(shí)間和網(wǎng)絡(luò)帶寬資源,而且如果在查詢結(jié)果中出現(xiàn),無意義地消耗了計(jì)算機(jī)顯示屏資源,也會(huì)引來用戶的抱怨,“這么多重復(fù)的,給我一個(gè)就夠了”。因此,消除內(nèi)容重復(fù)或主題內(nèi)容重復(fù)的網(wǎng)頁是搜索引擎抓取網(wǎng)頁階段的一個(gè)重要任務(wù)。 3、鏈接分析,大量的HTML標(biāo)記既給網(wǎng)頁的預(yù)處理造成了一些麻煩,也帶來了一些新的機(jī)遇。從信息檢索的角度講,如果系統(tǒng)面對(duì)的僅僅是內(nèi)容的文字,我們能依據(jù)的就是“共有詞匯假設(shè)”(shared bag of words),即內(nèi)容所包含的關(guān)鍵詞集合,最多加上詞頻(term frequency 或tf、TF)和詞在文檔集合中出現(xiàn)的文檔頻率(document frequency 或df、DF)之類的統(tǒng)計(jì)量 。而TF和DF這樣的頻率信息能在一定程度上指示詞語在一篇文檔中的相對(duì)重要性或者和某些內(nèi)容的相關(guān)性,這是有意義的 。有了HTML標(biāo)記后
,情況還可能進(jìn)一步改善,例如在同一篇文檔中,<H1>和</H1>之間的信息很可能就比在<H4>和</H4>之間的信息更重要。特別地,HTML文檔中所含的指向其他文檔的鏈接信息是人們近幾年來特別關(guān)注的對(duì)象,認(rèn)為它們不僅給出了網(wǎng)頁之間的關(guān)系,而且還對(duì)判斷網(wǎng)頁的內(nèi)容有很重要的作用。
4、網(wǎng)頁重要程度的計(jì)算,搜索引擎實(shí)際上追求的是一種統(tǒng)計(jì)意義上的滿意。人們認(rèn)為Google目前比baidu好,還是baidu比google好,參照物取決于多數(shù)情況下前者返回的內(nèi)容要更符合用戶的需要,但并不是所有情況下都如此。如何對(duì)查詢結(jié)果進(jìn)行排序有很多因素需要考慮。如何講一篇網(wǎng)頁比另外一篇網(wǎng)頁重要?人們參照科技文獻(xiàn)重要性的評(píng)估方式,核心想法就是“被引用多的就是重要的”。“引用”這個(gè)概念恰好可以通過HTML超鏈在網(wǎng)頁之間體現(xiàn)得非常好,作為Google創(chuàng)立核心技術(shù)的PageRank就是這種思路的成功體現(xiàn)。除此以外,人們還注意到網(wǎng)頁和文獻(xiàn)的不同特點(diǎn),即一些網(wǎng)頁主要是大量對(duì)外的鏈接,其本身基本沒有一個(gè)明確的主題內(nèi)容,而另外有些網(wǎng)頁則被大量的其他網(wǎng)頁鏈接。從某種意義上講,這形成了一種對(duì)偶的關(guān)系,這種關(guān)系使得人們可以在網(wǎng)頁上建立另外一種重要性指標(biāo)。這些指標(biāo)有的可以在抓取網(wǎng)頁階段計(jì)算,有的則要在查詢階段計(jì)算,但都是作為在查詢服務(wù)階段最終形成結(jié)果排序的部分參數(shù)。 本網(wǎng)站由網(wǎng)絡(luò)營銷提供:http://www.sx-hj.com/ 網(wǎng)站動(dòng)態(tài)
|
沈陽SEO已經(jīng)是網(wǎng)絡(luò)發(fā)展的必然趨勢,沈陽網(wǎng)站優(yōu)化將為更多的企業(yè)帶來商機(jī)
網(wǎng)絡(luò)策劃公司|新浪官方微博|大連網(wǎng)站建設(shè)
沈陽易勢科技有限公司 網(wǎng)站制作網(wǎng)絡(luò)營銷公司 © 2011 , All rights reserved. 公司地址:沈陽市鐵西區(qū)貴和街道建設(shè)中路15號(hào)淺草綠閣商務(wù)樓402室沈陽SEO 沈陽網(wǎng)站優(yōu)化 沈陽搜索引擎優(yōu)化
遼B2-20150173-8