英雄联盟灭世魔神巨魔:怎么用java 开发一个搜索引擎呀?

来源:百度文库 编辑:高校问答 时间:2024/05/01 18:06:18
怎么用java 开发一个搜索引擎呀?
我正在开发一个网站,语言用的是java,jsp。其中有一个功能是信息搜索,就是在站内进行信息搜索。老板说让我写一个搜索引擎,天呀!
我那会写呀,所以我只有请教大侠、高手了。请帮帮我吧。感激不尽!!!
好像需要解析html,但我不会解析呀,谁会用Htmlparse解析。给各小例子就好了。可能还有别的方法,请指教……!!!谢谢,谢谢,谢谢了!!!……
最好能提供免费的资料,呵呵~~~~~~
是站内的搜索,最好能提供一个完整的思路。
不是查询是搜索就像google一样,只不果范围是站内。
请指点,谢谢了~~~

一.           创建索引

1.一般创建索引的核心步骤 

(1). 创建索引写入对象IndexWriter:

IndexWriter indexWriter = new IndexWriter(INDEX_STORE_PATH,new StandardAnalyzer(),create); 

参数说明:INDEX_STORE_PATH:  索引文件存放路径

                     new StandardAnalyzer(): 分词工具

create: 此参数为Boolean型,true表示重新创建整个索引, false 表示增量式创建索引。 

(2).创建文档模型,并用IndexWriter对象写入

Document doc = new Document(); 

Field field1 = new Field(fieldName1, fieldValue ,  Field.Store.YES, Field.Index.TOKENIZED);

doc.add(field1); 

Field field2 = new Field(fieldName2, fieldValue ,  Field.Store.YES, Field.Index.TOKENIZED);

doc.add(field2);

……

indexWriter.addDocument(doc);

indexWriter.close(); 

参数说明:

Document :负责搜集数据源,它可以从不同的物理文件提取数据并放入同一个Document 中或从一个物理文件中提取出不同的数据并放入同一个Document中。

如下图所示

                    

 Field :用来表示不同的数据源

              fieldName1: 表示field名称

              fieldValue:  表示field 的值

              Field.Store.YES,:表示是否在索引文件中完整的存储该值。

在创建索引时,有些内容需要以摘要的形式完整地或以片段的方式显示在页面上,来便于用户查找想要的记录,那么就应该选择存储,如果不需要完整或片段的显示就不需要存储。

              Field.Index.TOKENIZED :表示是否索引和分词。

只要是需要当作关键字让用户查找的字段就需要建立索引。

在建立索引的过程中,如果像文章标题、文章内容这样的Field, 一般是靠用户输入几个关键字来查询的,就应该选择分词。

如果需要用户输入完整字符也就是精确查找才能查询到的,例如:beanName,就可以不分词。 

 

Document最直观的理解方式:

Document就相当于我们平台中的一个普通javaBean,,而Field 就是javaBean中的一个属性。lucene搜索的机制就是靠搜索指定的Field的值 ,来得到含有要搜索内容的Document 集合,所以问题的关键在于如何组织Document . 

2.结合平台创建索引的思路

(1) 经分析搜索元素应该由如下内容组成(Document的属性) 

(2) 数据库数据转化为Document 的构造过程: 

              JavaBean / Attachment     →   (Temp Object) BaseData  →   (Finally Object) Document 

分析:

要建立索引的源数据分为两大部分:一个是数据库数据 BeanData ,另一个是附件数据 FileData , 这样可以建立一个抽象类 BaseData , 来存放它们共有的属性。同时为了管理这些相应的数据,在相同的等级结构上,建立了相应的管理类(xxxDataManager) ,对这些数据类的操作(建立或删除索引)进行管理,并用一个工厂类(DataManagerFactory)来创建所需要的管理类,IndexHelper用来充当整个索引模块对外的接口,为了实现一些与平台特定的业务,特用SupportManager来提供一些额外的业务支持,索引模块代码结构如下图所示。

二.搜索索引

1.   lucene 搜索的核心步骤:

String[]  fields  =  {“title”, “summary”,……};     //要查找的field范围

BooleanClause.Occur[]   flags  =  {BooleanClause.Occur.SHOULD, BooleanClause.Occur. MUST ,……};

Query  query = MultiFieldQueryParser.parse(queryStr, fields,flags,new StandardAnalyzer());

Hits  hits  =  new  IndexSearcher(INDEX_STORE_PATH).search(query);

for (int i = 0;i < hitsLength ; i++)

{

       Document doc = hits.doc(i);

String title = doc.get(“title”);

String summary = doc.get(“summary”); 

// 搜索出来的结果高亮显示在页面上

if (title != null) {   

                                                TokenStream tokenStream = analyzer.tokenStream(“title”,new StringReader(title));   

                                                String highlighterValue = highlighter.getBestFragment(tokenStream, title) ;

                                                if(highlighterValue != null){

                                                   title = highlighterValue ;

                                                }   

                                                //log.info("SearchHelper.search.title="+title);   

                                            } 

if(summary!= null){

                                               TokenStream tokenStream = analyzer.tokenStream(“summary”,new StringReader(summary));   

                                                String highlighterValue = highlighter.getBestFragment(tokenStream, creator) ;

                                                if(highlighterValue != null){

                                                  summary = highlighterValue ;

                                                }   

//log.info("SearchHelper.search. summary ="+ summary);

                                            }

 

}

2.结合平台构造搜索模块

       PageData 类用来存放检索结果集数据。

       PageInfo 类用来存放页面相关信息例如,PageData对象集合、总记录个数、每一页的记录数、 总页面数量等等。

       SearchHelper用来充当整个搜索模块的对外接口。

三.为平台组件添加索引的步骤(以知识中心为例) 

1.在com.cscec.oa.searchengine.extend.module 目录下添加一个新的package

例如:com.cscec.oa.searchengine.extend.module.resourcestore 

2.在新的目录下建立data package 并建立相应的数据类,并使这个数据类继承BeanData。

例如:

package com.cscec.oa.searchengine.extend.module.resourcestore.data

public class ResourceStoreBeanData extends BeanData{

}

3. 与data package 同一级目录建立manager package 并建立相应管理类,并使这个管理类继承BeanDataManager

例如:

com.cscec.oa.searchengine.extend.module.resourcestore.manager

public class ResourceStoreBeanDataManagerImpl extends BeanDataManager{

}

4.以管理员的身份登陆OA后,在菜单中找到“索引模块管理”链接,将相应信息添加完成后,便可以在List 页面 点击“创建索引”对该模块的数据进行索引的建立,建立完成后便可以进行查询。

1.可以用lucene,lucene现在已经发展到1.9.1版了,相当稳定,网上中英文资源很丰富,甚至关于这个工具包的书(lucene in action)都有了.如果只是做站内搜索,可以直接从读数据库中读数据,调用lucene做索引.再写一个前台查询界面,调用lucene查询索引并在前台显示结果.

想一点程序都不写的话可以参考下面2个方案

2.用heritrix + nutchwax,heritrix也是一个很成熟的crawler,他将网页下载并压缩保存到arc格式的文件中,一个arc文件一般100兆左右,heritrix不解析提取网页的内容,nutchwax负责解析网页,提取内容并建索引,nutchwax提供检索界面.缺点是nutchwax的安装很麻烦.

3.用nutch,一个超强的开源软件,作者就是lucene的作者,该软件的目标是做到和Google一样强大,nutch的很多分布式实现的思想来源于Google,目前已实现分布式crawler,和分布式检索,已经有人用他抓了几亿的网页,nutch功能包括了下载网页,解析网页,计算网页重要度,建索引,前台搜索等一个搜索引擎需要的绝大部分功能,用他来做站内搜索也很方便.该软件支持中文. nutch目前稳定的版本是0.7.2 用该软件的缺点是网上的中文资料不多.你要习惯看英文资料

你要做站内搜索还是站外搜索?
站内搜索自己的数据库就可以了.
站外建议你看看<网络机器人Java编程指南>

http://www.pudn.com/sourcecode/Java/detail29884.html?name=搜索引擎的研究与实现.rar

用lucene就可以实现了,而且是开源的.