IT学习者 | 文章大全 | 技术文档 | 桌面壁纸 | 实用查询 | 网络电台 | 成语 | 歇后语 | 网址 | 下载 | 周公解梦 | 生日密码 | 电视剧365 | Flash
 您现在的位置: IT学习者 >> 文章大全 >> 学习认证 >> 搜索技巧 >> [专题]搜索引擎9238

每日搜索评论1--摆平中文搜索引擎的分词错误

【 作者:搜索引擎9238    来源:搜索研究院  更新时间:2003-8-21 | 字体:

每日搜索评论1--摆平中文搜索引擎的分词错误

搜索引擎9238 2002.1

  搜索结果不理想,有很多原因,其中一种是中文搜索引擎特有的,叫分词(或切词)。

  举例来说,你搜索关键词“品行”可能搜到大量“商品行情”,又如搜索关键词“和会”,得到的搜索结果可能大量包含“展览和会议”“吉祥物和会歌”“商务中心和会务”“被物化和会过期的”“亚太经和会议”。它们文字中都有“和会”,但不是你要找的“巴黎和会”“中东和会”。这是中文本身特点导致的搜索缺陷,中文搜索引擎技术人员在努力改善它,但不会完全解决。

  在这里,我不谈分词原理,想了解更多的自己去搜。
  今天,我只想教你一点小技巧,帮你摆平这个搜索中常见的挫折。

  方法很简单:减去错误分词的衍生词。

  比如刚才的“和会”,你可以改用以下这个关键词来搜索:
  “和会 -和会议 -防御和会 -和会歌 -和会务 -物化和会 -和会员 -和会计 -音乐和会”
  这个关键词的意义是:要求网页中含有“和会”,但不含有跟“和会”连在一起的那些错误分词的网页。

  这是个示范,一般情况下不用减那么多,减去几个曝光率高的就行了。

需要被减去的,“和会”旁边的字或词,选择原则是:
  1、本应连在一起的,如会议、会员、会计本应连在一起的,那么就选择和会议、和会员、和会计。
  2、独立的常见词组
,如防御、物化、音乐。

  这是一个完美的搜索技巧,因为无论加法还是减法,它们的缺陷之一是可能被你用的关键词屏蔽了不应该屏蔽的网页,但这种减去含主关键词的衍生关键词,则几乎没有这个问题。你放心减吧,那些含有被减去词中独立单字或词组(如歌、议、防御、务、物化、员、计、音乐)的网页,都好好在呢,你可以用如“和会 -和会歌 歌”找出来。

  这个技巧,也可以对付一些有衍生词的关键词,如搜索关键词“曹溪”,你发现有个版主叫曹溪、有个地方叫曹溪镇、有个派别叫曹溪宗、有个庙叫曹溪寺、有条路叫曹溪路。
  如果你只想搜索版主曹溪,你可以用加法,找一个跟版主曹溪相关的关键词一起搜;你也可以用普通减法,寻找跟曹溪镇、曹溪宗、曹溪寺、曹溪路相关的一个关键词,但以上两种方法都容易屏蔽部分你想找的网页。
如果你减去的是含有曹溪的这些衍生词,则几乎不会屏蔽合理网页,除了一种网页。哪一种网页?当然是象我这一篇文章一样,莫名其妙的把曹溪、曹溪镇、曹溪寺、曹溪路扯到一起的网页了!不过如果你确定这种网页是你需要的,你也可以很容易的直接搜出这种网页。

  另外,如果你输入的关键词多了,google只会搜一部分,并提示说搜索框中只能支持最多10个字词(10个字词是google现在的规矩,可能也是专对中文或双字节语言的规矩,英文搜索支持的关键词要长一点。google以前甚至曾对汉字搜索只支持最多6个,差点没把我气晕了,不过不到一周它就醒悟了),我不明白它的10个字词是怎么计算的,用不用语法,用什么语法和词组长短差别很大,反正我既碰到过超过10个字词就不能查的,也查过21个字的。以我的经验,用空格能搜的关键词多一点,用减法能搜的关键词就少一点,10个多不了多少的。所以如果要减的衍生关键词超过10个字,可以选用baidu,baidu的搜索框支持最多三十几个字词。

相 关 文 章
相 关 软 件
没有相关下载

音乐
画心 放生 天亮了 牡丹江 那滋味 擦肩而过 放手去爱 北京欢迎你 依然在一起 吻得太逼真 牵手的右前方 坐上火车去拉萨 如果爱能早些说出来
心碎 稻香 从新爱 别碰我 魔杰座 红楼梦中 为你而活 一定要爱你 等爱的玫瑰 失落非主流 越单纯越幸福 最后一次的温柔 孤独的时候可以抱你
光荣 火花 下雨天 小酒窝 樱花草 为你写诗 无可取代 无情的温柔 寂寞才说爱 忘不掉的伤 爱上你是个错 陪你一起看草原 地球人都知道我爱你
假如 相思 女儿红 有缘人 舍不得 我的答铃 如何是好 外滩十八号 我们的纪念 摇滚怎么了 和寂寞说分手 爱上你是我的错 爱情里没有谁对谁错
加入收藏留言建议自助友情链接普通友情链接站长的Blog
版权所有   COPYRIGHT 2002-2008 ★IT学习者★ ALL RIGHTS RESERVED.