什么是垂直搜索
福州眾印網(wǎng) 2006/8/26 15:33:00 來(lái)源:轉(zhuǎn)載
垂直搜索是針對(duì)某一個(gè)行業(yè)的專業(yè)搜索引擎,是搜索引擎的細(xì)分和延伸,是對(duì)網(wǎng)頁(yè)庫(kù)中的某類專門的信息進(jìn)行一次整合,定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后再以某種形式返回給用戶。
垂直搜索引擎和普通的網(wǎng)頁(yè)搜索引擎的最大區(qū)別是對(duì)網(wǎng)頁(yè)信息進(jìn)行了結(jié)構(gòu)化信息抽取,也就是將網(wǎng)頁(yè)的非結(jié)構(gòu)化數(shù)據(jù)抽取成特定的結(jié)構(gòu)化信息數(shù)據(jù),好比網(wǎng)頁(yè)搜索是以網(wǎng)頁(yè)為最小單位,基于視覺(jué)的網(wǎng)頁(yè)塊分析是以網(wǎng)頁(yè)塊為最小單位,而垂直搜索是以結(jié)構(gòu)化數(shù)據(jù)為最小單位。然后將這些數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù),進(jìn)行進(jìn)一步的加工處理,如:去重、分類等,最后分詞、索引再以搜索的方式滿足用戶的需求。
整個(gè)過(guò)程中,數(shù)據(jù)由非結(jié)構(gòu)化數(shù)據(jù)抽取成結(jié)構(gòu)化數(shù)據(jù),經(jīng)過(guò)深度加工處理后以非結(jié)構(gòu)化的方式和結(jié)構(gòu)化的方式返回給用戶。
垂直搜索引擎的應(yīng)用方向很多,比如企業(yè)庫(kù)搜索、供求信息搜索引擎、購(gòu)物搜索、房產(chǎn)搜索、人才搜索、地圖搜索、mp3搜索、圖片搜索……幾乎各行各業(yè)各類信息都可以進(jìn)一步細(xì)化成各類的垂直搜索引擎。
舉個(gè)例子來(lái)說(shuō)明會(huì)更容易理解,比如購(gòu)物搜索引擎,整體流程大致如下:抓取網(wǎng)頁(yè)后,對(duì)網(wǎng)頁(yè)商品信息進(jìn)行抽取,抽取出商品名稱、價(jià)格、簡(jiǎn)介……甚至可以進(jìn)一步將筆記本簡(jiǎn)介細(xì)分成“品牌、型號(hào)、CPU、內(nèi)存、硬盤、顯示屏、……”然后對(duì)信息進(jìn)行清洗、去重、分類、分析比較、數(shù)據(jù)挖掘,最后通過(guò)分詞索引提供用戶搜索、通過(guò)分析挖掘提供市場(chǎng)行情報(bào)告。
垂直搜索引擎大體上需要以下技術(shù)
1.Spider
2.網(wǎng)頁(yè)結(jié)構(gòu)化信息抽取技術(shù)或元數(shù)據(jù)采集技術(shù)
3.分詞、索引
4.其他信息處理技術(shù)
垂直搜索引擎的技術(shù)評(píng)估應(yīng)從以下幾點(diǎn)來(lái)判斷
1.全面性
2.更新性
3.準(zhǔn)確性
4.功能性
垂直搜索的進(jìn)入門檻很低,但是競(jìng)爭(zhēng)的門檻很高。沒(méi)有專注的精神和精湛的技術(shù)是不行的。行業(yè)門戶網(wǎng)站具備行業(yè)優(yōu)勢(shì)但他們又是沒(méi)有技術(shù)優(yōu)勢(shì)的,絕對(duì)不要想像著招幾個(gè)人就可以搞定垂直搜索的全部技術(shù),作為一個(gè)需要持續(xù)改進(jìn)可運(yùn)營(yíng)的產(chǎn)品而不是一個(gè)項(xiàng)目來(lái)說(shuō)對(duì)技術(shù)的把握控制程度又是垂直搜索成功的重要因素之一。
本文標(biāo)題:什么是垂直搜索
福州印刷.福州印刷網(wǎng).福州印刷廠.福州眾印網(wǎng).宣傳冊(cè)印刷.宣傳單印刷.包裝盒印刷.手提袋印刷.印務(wù)公司.光盤印刷.中秋月餅盒包裝印刷廠.企業(yè)畫冊(cè)印刷.不干膠印刷.無(wú)紡布袋印刷
福州印刷、福州印刷網(wǎng)fzysw.com福州專業(yè)的紙品印刷廠、福州眾印網(wǎng)是超贊的印刷超市
|