|
中级会员
 
|
1#
大 中
小 发表于 2006-12-15 17:07 只看该作者
中文搜索引擎的研究
& N- R, P$ r m5 }/ x9 J6 K为互联网事业发展提供源动力!在中国使用广泛的搜索引擎主要有:baidu google 中搜 北大天网 一搜 搜狗 还有一些专业的搜索,比如海量做的音乐搜索 http://www.1234567.com 还有 西祠胡同 的创始人 做的 http://www.pagou.com ,这些都是做的挺不错。由此可见,搜索引擎的市场还是非常庞大的。尤其是baidu的成功上市,给业界很大的鼓舞。
2 P( r% {9 \5 s5 O7 L163K网站系统官方论坛[互联网创业 http://www.163k.com]/ o N! ?! ]( a0 X
" V, K! R% g. J# N1 H163k团购网站系统官方服务论坛目前的主要搜索引擎的模式都是,用户输入一些关键字或者句子,无论是那种,搜索引擎都会首先对用户的输入进行分词,这样可以增加搜索结果的准确性,这是和普通数据库搜索的不同点(普通的数据库搜索,只是简单的用 like %关键字%),然后搜索引擎去海量的索引库去查找这些和用户输入相关的信息,显示的结果会包含网页的相关摘要。
/ K2 z# _* B' T/ [4 K7 W7 r9 Qbbs.163k.com& s6 g0 }. L* ~1 f7 J
为互联网事业发展提供源动力!: ]$ J: ^: c5 s3 y7 ^
中文搜索引擎相关的技术包含:网络蜘蛛,中文分词,索引库,网页摘要的提取,网页相似度,信息的分类。163K网站系统官方论坛8 T1 ]* Z5 @* L; k4 r" G L# [
为互联网事业发展提供源动力!! X6 [) e N: H, |
1。网络蜘蛛
# s& ^, i1 `, N团购网站系统,团购网程序网络蛛蛛是指对浩瀚网络抓取信息的程序,他们往往是多线程,不分昼夜的抓取网络信息,同时要防止对某个站点抓取过快,导致信息提供方服务器过载。/ X. w- r) N4 J+ ]* x
( a( i- V% i+ U, S2 y163k团购网站系统官方服务论坛网络蜘蛛的基本原理:先从一个起始页面(建议从yahoo中文目录或者dmoz中文目录)开始抓取,获取此页面内容,摘要,然后提取页面所有连接,蜘蛛接着抓取这些连接,一直源源不断的抓取。这些只是基本原理,实际应用要复杂很多,你可以试着自己写一个蜘蛛,我曾经用php写过(php不能多线程,缺陷。) 163K网站系统官方论坛) Z3 M8 z% C! ~0 r% s/ w. c
; Z. X0 G. J/ p9 k" B' }9 kbbs.163k.com2。中文分词( q- v! b2 x O, G) A; P8 c' m* D
中文分词一直是中文搜索引擎的关键点,中文不同英文,英文每个单词是用空格分开,而中文一个句子往往是一些词的连结,没有分割符,人可以很容易的看懂句子的意思,但是计算机很难开懂。bbs.163k.com$ J& u- a5 }+ Z1 w6 D K. L$ ^0 ]
163k团购网站系统官方服务论坛: p. f) h" w' k+ Q$ J3 f$ v M
目前我了解的中文分词方法(据说有老外的不用词典的中文分词方法),几乎都是有自己的中文词典,分词时去词典匹配,达到分词目的,分词的好坏,和词典关系很大。你可以看我上篇文章,是用php写的中文分词方法。163k团购网站系统官方服务论坛/ x3 X6 l1 Y2 d7 {% \* Z6 B
为互联网事业发展提供源动力!$ N: `" p+ x# q5 `6 [5 ?
目前很多高校语言学的硕士论文都写的这个163K网站系统官方论坛. r4 |$ v4 R B& r
" c, R8 R K4 l" i* v团购网站系统,团购网程序baidu用的自己开发分词方法,google用的第3方的分词方法。。
5 f9 E% O% }0 ?团购网站系统,团购网程序为互联网事业发展提供源动力!4 ]. e: V. V6 t" k
海量中文分词挺不错,不过是商业的。。团购网站系统,团购网程序 O& l- ~/ p4 o ]9 S
. n" N& r4 y- P2 k" k t2 Z4 }( j163K网站系统官方论坛猎兔的中文分词方法也不错,不过是.so的,无法研究
2 i: d% i' O7 k2 Hbbs.163k.combbs.163k.com9 ~% [1 q4 X9 w0 N1 i V, T0 [
3。索引库bbs.163k.com& W( q5 i0 \2 U
搜索引擎都不会用已经成型的数据库系统,他们是自己开发的类似数据库功能的东西。
. T8 `) ^* u f" \4 a/ X( g为互联网事业发展提供源动力!搜索引擎需要保存大量网页信息,快照,关键字索引(建议应该也保存网页的截图,我在研究中),所以数据量特别大。bbs.163k.com; y' ?- v5 x; ?7 R" ^
% }% ?! h6 N+ l) d$ p) L3 ~4。网页摘要的提取6 E* J4 C) j* v# P8 J
163K网站系统官方论坛0 r# S! E# P3 Z
网页摘要是指对某个网页信息的总结(初中语文课,老师经常让总结文章的中心思想,就这个意思,我最怕老师提问让我总结,人总结都这么难,现在让计算机总结,天啦),搜索引擎搜索结果里,往往会有网页标题下面,会有些介绍,让搜索者很容易的发现此文章是不是想要的信息。
- A* }0 _1 w5 d+ {2 K( l" s! N团购网站系统,团购网程序$ {* ^' C/ q4 X8 C
163K网站系统官方论坛( L$ P( Q7 L l& B7 ]) K8 I
5。网页相似度163K网站系统官方论坛' H6 l1 B3 J, E
- u7 i3 G* y7 I" |; k# U5 G163K网站系统官方论坛网上经常有很多内容一样的网站,比如说同一条新闻,各大门户网站都会发布,它们的新闻内容都是一样的。还有一些个人网站,尤其是偷别人网站资料的网站,和别人网站搞的一模一样(我搞过,在此ps下自己),这样的网站毫无意义,搜索引擎会自动区分,降低其权值(baidu最狠,直接封站,我尝试过)。
- d) b; |, {2 P2 A: A4 T为互联网事业发展提供源动力!为互联网事业发展提供源动力!( \" z+ Z& q2 |) ~) }
目前我研究的计算网页相似度的几种方法如下:163k团购网站系统官方服务论坛- z* e4 A8 L6 h$ N
1) 根据网页摘要来比较,如果多个网页摘要的md5值一样,证明这些网页有很高的相似性163k团购网站系统官方服务论坛) ]+ {! ?$ a/ L8 H( Z2 ~% m- O, n
2) 根据网页出现关键词,按照词频排序,可以取n个词频高的,如果md5值一样,证明这些网页有很高的相似性。( t% j4 ?$ C0 s5 l7 {+ M& [
为互联网事业发展提供源动力!* m: I4 J/ y* }
google baidu 的新闻,是对此技术的应用。163K网站系统官方论坛7 @2 \' W0 K ^/ X4 a+ Y
- R3 R; ^* l/ v团购网站系统,团购网程序目前很多高校的数据挖掘专业的研究生论文都写的这个为互联网事业发展提供源动力!+ x7 Y* C& O% O/ F x( O
, h5 a B3 Z _; `1 S163K网站系统官方论坛6。信息的自动分类
4 R& l9 I7 z, Q+ A' x
: \5 N9 r0 J" i% B3 h163K网站系统官方论坛网络的信息实在是太庞大了,如何对其进行分类,是搜索引擎面临的难题。要让计算机对数据自动分类,先要对计算机程序进行培训,目前我正在研究中- v9 Z0 Z7 ^$ Z/ p( \
" p+ t; u$ Z# v+ Q163K网站系统官方论坛爬狗做的不错。
' M) v# x9 o$ Y' c5 j+ y$ m163k团购网站系统官方服务论坛163K网站系统官方论坛) c& U4 ~' d/ k B l
以上是我个人对搜索引擎了解后的看法,均为柳志强原创,其中难免有认识不全面或者错误的,恳请各位同仁指正(别砸我就行)!163K网站系统官方论坛; V1 [* T3 H6 j W8 g# h
" W% [+ M3 C3 x5 Y团购网站系统,团购网程序下篇我将向大家介绍如何建立一个简单的搜索引擎。请继续关注。
% C( E6 Z! z( N
: z; @% r, {& @1 b$ E6 c* ?! p团购网站系统,团购网程序163k团购网站系统官方服务论坛! {- @# ?( {/ |' \. w0 J& V7 O
; m7 x- |/ y" U. X. W9 F4 C1 P4 {团购网站系统,团购网程序为互联网事业发展提供源动力!0 d& ^5 }1 Q3 z9 @
|