亚洲精品网址在线观看,欧美日韩亚洲一区三区,欧美va天堂

Lucene入门�U�笔��C�� -- 分词器，使用中文分词器，扩展词库�Q�停用词

Kevin_Zhang — Sun, 17 Apr 2011 11:25:00 GMT

1. 常见的中文分词器有：极易分词�?MMAnalyzer) �?/span>"庖丁分词"分词�?PaodingAnalzyer)、IKAnalyzer �{�等。其�?nbsp;MMAnalyzer �?nbsp;PaodingAnalzyer 不支�?nbsp;lucene3.0及以后版本�?br>
   使用方式都类��|��在构建分词器�?br>
     Analyzer analyzer = new [My]Analyzer();



2. �q�里只示�?nbsp;IKAnalyzer�Q�目前只有它支持Lucene3.0 以后的版本�?nbsp;

   首先需要导�?nbsp;IKAnalyzer3.2.0Stable.jar �?br>

3. �C�Z��代码

     view plaincopy to clipboardprint?
public class AnalyzerTest {
       @Test
       public void test() throws Exception {
              String text = "An IndexWriter creates and maintains an index.";
              /* 标准分词器：单子分词 */
              Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_30);
              testAnalyzer(analyzer, text);

              String text2 = "��试中文环境下的信息��?/span>";
              testAnalyzer(new IKAnalyzer(), text2); // 使用IKAnalyzer�Q�词库分�?nbsp;
       }

       /**
        * 使用指定的分词器�Ҏ(gu��)��定的文本�q�行分词�Q��ƈ打印�l�果
        *
        * @param analyzer
        * @param text
        * @throws Exception
        */
       private void testAnalyzer(Analyzer analyzer, String text) throws Exception {
              System.out.println("当前使用的分词器�Q?/span>" + analyzer.getClass());

              TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(text));
              tokenStream.addAttribute(TermAttribute.class);

              while (tokenStream.incrementToken()) {
                     TermAttribute termAttribute = tokenStream.getAttribute(TermAttribute.class);
                     System.out.println(termAttribute.term());
              }
       }
}

public class AnalyzerTest {
       @Test
       public void test() throws Exception {
              String text = "An IndexWriter creates and maintains an index.";
              /* 标准分词器：单子分词 */
              Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_30);
              testAnalyzer(analyzer, text);

              String text2 = "��试中文环境下的信息��?/span>";
              testAnalyzer(new IKAnalyzer(), text2); // 使用IKAnalyzer�Q�词库分�?/span>
       }

       /**
        * 使用指定的分词器�Ҏ(gu��)��定的文本�q�行分词�Q��ƈ打印�l�果
        *
        * @param analyzer
        * @param text
        * @throws Exception
        */
       private void testAnalyzer(Analyzer analyzer, String text) throws Exception {
              System.out.println("当前使用的分词器�Q?/span>" + analyzer.getClass());

              TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(text));
              tokenStream.addAttribute(TermAttribute.class);

              while (tokenStream.incrementToken()) {
                     TermAttribute termAttribute = tokenStream.getAttribute(TermAttribute.class);
                     System.out.println(termAttribute.term());
              }
       }
}


3. 如何扩展词库�Q�很多情况下�Q�我们可能需要定制自��q��词库�Q�例�?nbsp;XXX 公司�Q�我们希望这能被分词器识别，�q�拆分成一个词�?br>
   IKAnalyzer 可以很方便的实现我们的这�U�需求�?br>
   新徏 IKAnalyzer.cfg.xml

     view plaincopy to clipboardprint?
xml version="1.0" encoding="UTF-8"?>
DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>


       <entry key="ext_dict">/mydict.dicentry>
properties>
xml version="1.0" encoding="UTF-8"?>
DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>


       <entry key="ext_dict">/mydict.dicentry>
properties>



       解析�Q?br>
               <entry key="ext_dict">/mydict.dicentry> 扩展了一个自��q��词典�Q�名字叫 mydict.dic

               因此我们要徏一个文本文�Ӟ��名�ؓ�Q�mydict.dic  �Q�此处��用的 .dic �q��必须�Q?br>
               在这个文本文仉��写入�Q?br>
                    北京XXXX�U�技有限公司

               �q�样��添加了一个词汇�?br>
               如果要添加多个，则新起一行：

                    词汇一

                    词汇�?br>
                    词汇�?br>


               需要注意的是，�q�个文�g一定要使用 UTF-8�~�码

4. 停用词：

    有些词在文本中出现的频率非常高，但是�Ҏ(gu��)��本所携带的信息基本不产生影响�Q�例如英文的"a、an、the、of"�Q�或中文�?/span>"的、了、着"�Q�以及各�U�标点符��L��Q�这��L��词称为停用词�Q�stop word�Q��?br>
    文本�l�过分词之后�Q�停用词通常被过滤掉�Q�不会被�q�行索引。在��索的时候，用户的查询中如果含有停用词，��索系�l�也会将其过滤掉�Q�因为用戯��入的查询字符串也要进行分词处理）�?br>
    排除停用词可以加快徏立烦引的速度�Q�减��烦引库文�g的大��?br>
    IKAnalyzer 中自定义停用词也非常方便�Q�和配置 "扩展词库" 操作�c�d��Q�只需要在 IKAnalyzer.cfg.xml 加入如下配置�Q?br>
       <entry key="ext_stopwords">/ext_stopword.dicentry>

       同样�q�个配置也指向了一个文本文�?nbsp;/ext_stopword.dic �Q�后�~�名�Q意）�Q�格式如下：

           �?br>
          �?br>
          �?br>
          �?br>


本文来自CSDN博客�Q��{载请标明出处�Q�http://blog.csdn.net/wenlin56/archive/2010/12/13/6074124.aspx

Kevin_Zhang 2011-04-17 19:25 发表评论

Kevin_Zhang — Sun, 17 Apr 2011 00:36:00 GMT

http://htmlparser.sourceforge.net/

Kevin_Zhang 2011-04-17 08:36 发表评论

Kevin_Zhang — Sat, 16 Apr 2011 12:36:00 GMT

�?nbsp;上一部分中，�(zh��n)�了解到如何�~�写一�?nbsp;spider �E�序来进行网��늚�爬取�Q�作�?nbsp;spider 的爬取结果，我们获得了一个按照一定格式存储的原始�|�页库，原始�|�页库也是我们第二部分网��预处理的数据基��。网��预处理的主要目标是��原始网��通过一步步的数据处理变成可方便搜烦的数据�Ş式。下面就让我们逐步介绍�|�页预处理的设计和实现�?br>预处理模块的整体�l�构
预处理模块的整体�l�构如下�Q?br>
�?nbsp;1. 预处理模块的整体�l�构

通过 spider 的收集，保存下来的网��信息具有较好的信息存储格式�Q�但是还是有一个缺点，��是不能按照�|�页 URL 直接定位到所指向的网��c��所以，在第一个流�E�中�Q�需要先建立�|�页的烦引，如此通过索引�Q�我们可以很方便的从原始�|�页库中获得某个 URL 对应的页面信息。之后，我们处理�|�页数据�Q�对于一个网��，首先需要提取其�|�页正文信息�Q�其�ơ对正文信息�q�行分词�Q�之后再�Ҏ(gu��)��分词的情况徏立烦引和倒排索引�Q�这��P��|�页的预处理也全部完成。可能读者对于其中的某些专业术语会有一些不明白之处�Q�在后箋详述各个��程的时候会�l�出相应的图或者例子来帮助大家理解�?br>回页�?br>建立索引�|�页�?br>原始�|�页库是按照格式存储的，�q�对于网��늚�索引建立提供了方便，下图�l�出了一条网��信息记录：

清单 1. 原始�|�页库中的一条网��记�?br>
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx     // 之前的记�?/span>

version:1.0                           // 记录头部
url:http://ast.nlsde.buaa.edu.cn/
date:Mon Apr 05 14:22:53 CST 2010
IP:218.241.236.72
length:3981

DOCTYPE ……                     // 记录数据部分
<html> …… html>

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx     // 之后的记�?/span>
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

我们采用“�|�页库名—偏�U?#8221;的信息对来定位库中的某条�|�页记录。由于数据量比较大，�q�些索引�|�页信息需要一�U�保存的�Ҏ(gu��)��Q�dySE 使用数据库来保存�q�些信息。数据库们采�?nbsp;mysql�Q�配�?nbsp;SQL-Front 软�g可以��L��q�行囑�Ş界面的操作。我们用一个表来记录这些信息，表的内容如下�Q�url、content、offset、raws。URL 是某条记录对应的 URL�Q�因为烦引数据库建立之后�Q�我们是通过 URL 来确定需要的�|�页的；raws �?nbsp;offset 分别表示�|�页库名和偏�U�d��|��q�两个属性唯一��定了某条记录，content 是网��内容的摘要�Q�网��늚�数据量一般较大，把网��늚�全部内容攑օ�数据库中昑־�不是很实际，所以我们将�|�页内容�?nbsp;MD5 摘要攑օ��?nbsp;content 属性中�Q�该属性相当于一个校验码�Q�在实际�q�用中，当我们根�?nbsp;URL 获得某个�|�页信息是，可以��获得的�|�页�?nbsp;MD5 摘要然后�?nbsp;content 中的值做一个匹配，如果一样则�|�页获取成功�Q�如果不一��P��则说明网��获取出现问题�?br>�q�里��单介�l�一�?nbsp;mySql 的安装以及与 Java 的连接：
安装 mySql�Q�最好需要三个组�Ӟ��mySql�Q�mySql-front�Q�mysql-connector-java-5.1.7-bin.jar�Q�分别可以在�|�络中下载。注意：安装 mySql �?nbsp;mySql-front 的时候要版本对应�Q�MySql5.0 + MySql-Front3.2 �?nbsp;MySql5.1 + MySql-Front4.1�Q�这个组合是不能��q��Q�可以根据相应的版本��h��下蝲�Q�否则会�?#8220;‘ 10.000000 ’ ist kein gUltiger Integerwert ”的错误�?br>导入 mysql-connector-java-5.1.7-bin.jar �?nbsp;eclipse 的项目中�Q�打开 eclipse�Q�右键点需要导�?nbsp;jar 包的��?nbsp;目名�Q�选属性（properties)�Q�再�?nbsp;java 构徏路径�Q�java Build Path)�Q�后在右侧点 (libraries)�Q��?nbsp;add external JARs�Q�之后选择你要导入�?nbsp;jar 包确定�?br>接着��可以用代码来测试与 mySql 的连接了�Q�代码见本文附带�?nbsp;testMySql.java �E�序�Q�这里限于篇�q�就不在赘述�?br>对于数据库的操作�Q�我们最好进行一定的��装�Q�以提供�l�一的数据库操作支持�Q�而不需要在其他的类中显�C�的�q�行数据库连接操作，而且�q�样也就不需要徏立大量的数据库连接从而造成资源的浪费，代码详见 DBConnection.java。主要提供的操作是：建立�q�接、执�?nbsp;SQL 语句、返回操作结果�?br>介绍了数据库的相��x��作时候，现在我们可以来完成网��늃�引库的徏立过�E�。这里要说明的是�Q�第一条记录的偏移�?nbsp;0�Q�所以在当前记录 record 处理之前�Q�该记录的偏�U�L��已经计算出来的，处理 record 的意义在于获得下一个记录在�|�页库中的偏�U�R��假讑ֽ��?nbsp;record 的偏�U�Mؓ offset�Q�定位于头部的第一条属性之前，我们通过��d��记录的头部和记录的数据部分来得到该记录的长度 length�Q�从而，offset+length 即�ؓ下一条记录的偏移倹{��读取头部和��d��记录都是通过数据间的�I��来标识的�Q�其伪代码如下：

清单 2. 索引�|�页库徏�?br>
For each record in Raws do
begin
    ��d�� record 的头部和数据�Q�从头部中抽�?nbsp;URL�Q?br>    计算头部和数据的长度�Q�加到当前偏�U�d��g��得到新的偏移�Q?br>    �?nbsp;record 中数据中计算�?nbsp;MD5 摘要��|��
    ��数据插入数据库中，包括�Q�URL、偏�U�R��数�?nbsp;MD5 摘要、Raws�Q?br>end�Q?br>
�(zh��n)�可能会�?nbsp;MD5 摘要��法有些疑惑�Q�这是什么？�q�有什么用�Q?nbsp;Message Digest Algorithm MD5�Q�中文名为消息摘要算法第五版�Q��ؓ计算机安全领域广泛��用的一�U�散列函敎ͼ�用以提供消息的完整性保护。MD5 的典型应用是对一�D�信�?nbsp;(Message) 产生一�?nbsp;128 位的二进制信息摘�?nbsp;(Message-Digest)�Q�即�?nbsp;32 �?nbsp;16 �q�制数字�Ԍ��以防止被��改。对于我们来��_��比如通过 MD5 计算�Q�某个网��|��据的摘要�?nbsp;00902914CFE6CD1A959C31C076F49EA8�Q�如果我们�Q意的改变�q�个�|�页中的数据�Q�通过计算之后�Q�该摘要��׃��改变�Q�我们可以将信息�?nbsp;MD5 摘要视作��信息的指�U�信息。所以，存储该摘要可以验证之后获取的�|�页信息是否与原始网��一致�?br>�?nbsp;MD5 ��法��要的叙述可以为：MD5 �?nbsp;512 位分�l�来处理输入的信息，且每一分组又被划分�?nbsp;16 �?nbsp;32 位子分组�Q�经�q�了一�p�d��的处理后�Q�算法的输出由四�?nbsp;32 位分�l�组成，��这四个 32 位分�l��联后��生成一�?nbsp;128 位散列倹{��其�?#8220;一�p�d��的处�?#8221;即�ؓ计算��程�Q�MD5 的计��流�E�比较多�Q�但是不难，同时也不隑֮�玎ͼ��(zh��n)�可以直接��用网上现有的 java 版本实现或者��用本教程提供的源码下载中�?nbsp;MD5 �c�R��对�?nbsp;MD5�Q�我们知道其功能�Q�能使用��可以，具体的每个步骤的意义不需要深入理解�?br>回页�?br>正文信息抽取
PageGetter
在正文信息抽取之前，我们首先需要一个简单的工具�c�，该工��L��可以取出数据库中的内容�ƈ且去原始�|�页集中获得�|�页信息�Q�dySE 对于该功能的实现�?nbsp;originalPageGetter.java 中，该类通过 URL 从数据库中获得该 URL 对应的网��|��据的所在网��库名以及偏�U�，然后��可以根据偏�U�L��d��该网��늚�数据内容�Q�同样以原始�|�页集中各记录间的空行作为数据内容的�l�束标记�Q�读取内容之后，通过 MD5 计算当前��d��的内容的摘要�Q�校验是否与之前的摘要一致。对于偏�Uȝ��使用�Q�BufferedReader �c�L��供一�?nbsp;skip(int offset) 的函敎ͼ�其作用是跌��文档中，从当前开始计��的 offset 个字�W�，用这个函数我们就可以定位到我们需要的记录�?br>
清单 3. 获取原始�|�页库中内容

public String getContent(String fileName, int offset)
{
     String content = "";
     try {
         FileReader fileReader = new FileReader(fileName);
         BufferedReader bfReader = new BufferedReader(fileReader);
         bfReader.skip(offset);
         readRawHead(bfReader);
         content = readRawContent(bfReader);
     } catch (Exception e) {e.printStackTrace();}
     return content;
}

上述代码中，省略�?nbsp;readRawHead �?nbsp;readRawContent 的实玎ͼ��q�些都是基本�?nbsp;I/O 操作�Q�详见所附源码�?br>正文抽取
对于获得的单个网��|��据，我们��可以进行下一步的处理�Q�首先要做的��是正文内容的抽取，从而剔除网��中的标�{�ֆ�容，�q�一步的操作主要采用正则表达式来完成。我们用正则表达式来匚w�� html 的标�{�，�q�且把匹配到的标�{�ֈ�除，最后，剩下的内容就是网��|��文。限于篇�q�，我们以过�?nbsp;script 标签为示例，其代码如�?nbsp;:

清单 4. 标签�q��o

public String html2Text(String inputString) {
     String htmlStr = inputString; // �?nbsp;html 标签的字�W�串
     Pattern p_script;    Matcher m_script;
     try {
            String regEx_script = "]*?>[\\s\\S]*?";
            p_script = Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);
            m_script = p_script.matcher(htmlStr);
            htmlStr = m_script.replaceAll(""); // �q��o script 标签
     }catch(Exception e) {e.printStackTrace();}
     return htmlStr;// �q�回文本字符�?nbsp;
}

通过一�p�d��的标�{�过滤，我们可以得到�|�页的正文内容，��可以用于下一步的分词了�?br>回页�?br>分词
中文分词是指��一个汉字序列切分成一个一个单独的词，从而达到计��机可以自动识别的效果。中文分词主要有三种�Ҏ(gu��)��Q�第一�U�基于字�W�串匚w��Q�第二种��Z��语义理解�Q�第三种��Z��l�计。由于第二和�W�三�U�的实现需要大量的数据来支持，所以我们采用的是基于字�W�串匚w��的方法�?br>��Z��字符串匹配的�Ҏ(gu��)��又叫做机械分词方法，它是按照一定的�{�略��待分析的汉字串与一�?#8220;充分大的”机器词典中的词条�q�行配，若在词典中找到某个字�W�串�Q�则匚w��成功�Q�识别出一个词�Q�。按照扫描方向的不同�Q�串匚w��分词�Ҏ(gu��)��可以分�ؓ正向匚w��和逆向匚w��Q�按照不同长度优先匹配的情况�Q�可以分为最大（最长）匚w��和最��（最短）匚w��。常用的几种机械分词�Ҏ(gu��)��如下�Q?br>正向减字最大匹配法�Q�由左到右的方向�Q�；
逆向减字最大匹配法�Q�由叛_��左的方向�Q�；
最��切分（使每一句中切出的词数最��）�Q?br>双向最大减字匹配法�Q�进行由左到叟뀁由叛_��左两�ơ扫描）�Q?br>我们采用其中的正向最大匹配法。算法描�q�如下：输入��gؓ一个中文语�?nbsp;S�Q�以及最大匹配词 n
�?nbsp;S 中前 n 个字�Q�根据词典对其进行匹配，若匹配成功，�?nbsp;3�Q�否则�{ 2�Q?br>n = n – 1�Q�如�?nbsp;n �?nbsp;1�Q��{ 3�Q�否则�{ 1�Q?br>��?nbsp;S 中的�?nbsp;n 个字作�ؓ分词�l�果的一部分�Q�S 除去�?nbsp;n 个字�Q�若 S 为空�Q��{ 4�Q�否则，�?nbsp;1�Q?br>��法�l�束�?br>需要说明的是，在第三步的�v始，n 如果不�ؓ 1�Q�则意味着有匹配到的词�Q�而如�?nbsp;n �?nbsp;1�Q�我们默�?nbsp;1 个字是应该进入分词结果的�Q�所以第三步可以��前 n 个字作�ؓ一个词而分割开来。还有需要注意的是对于停用词的过滤，停用词即汉语�?#8220;的，了，和，�?#8221;�{�字词，在搜索引擎中是忽略的�Q�所以对于分词后的结果，我们需要在用停用词列表�q�行一下停用词�q��o�?br>�(zh��n)�也许有疑问�Q�如何获得分词字典或者是停用词字典。停用词字典比较好办�Q�由于中文停用词数量有限�Q�可以从�|�上获得停用词列表，从而自己徏一个停用词字典�Q�然而对于分词字典，虽然�|�上有许多知名的汉字分词软�g�Q�但是很��有分词的字典提供，�q�里我们提供一些在 dySE 中��用的分词字典�l��?zh��n)�。在�E�序使用�q�程中，分词字典可以攑օ�一个集合中�Q�这样就可以比较方便的进行比对工作�?br>分词的结果对于搜索的�_�և�性有着臛_��重要的媄响，好的分词�{�略�l�常是由若干个简单算法拼接而成的，所以�?zh��n)�也可以试着实现双向最大减字匹配法来提高分词的准确率。而如果遇到歧义词�l�，可以通过字典中附带的词频来决定哪�U�分词的�l�果更好�?br>回页�?br>倒排索引
�q�个章节我们为�?zh��n)�讲解预处理模块的最后两个步骤，索引的徏立和倒排索引的徏立。有了分词的�l�果�Q�我们就可以获得一个正向的索引�Q�即某个�|�页以及其对应的分词�l�果。如下图所�C�：

�?nbsp;2. 正向索引

�?nbsp;3. 倒排索引

在本文的开��_��我们建立了烦引网��库�Q�用于通过 URL 可以直接定位到原始网��库中该 URL 对应的数据的位置�Q�而现在的正向索引�Q�我们可以通过某个�|�页�?nbsp;URL 得到该网��늚�分词信息。获得正向烦引看似对于我们的卛_��q�行的查询操作没有什么实际的帮助�Q�因为查询服务是通过关键词来获得�|�页信息�Q�而正向烦引�ƈ不能通过分词�l�果反查�|�页信息。其实，我们建立正向索引的目的就是通过��{的操作徏立倒排索引。所谓倒排��是相对于正向烦引中�|�页——分词结果的映射方式�Q�采用分词——对应的�|�页�q�种映射方式。与�?nbsp;2 相对应的倒排索引如上�?nbsp;3 所�C��?br>接下来我们分析如何从正向索引来得到倒排索引。算法过�E�如下：
对于�|�页 i�Q�获取其分词列表 List�Q?br>对于 List 中的每个词组�Q�查看倒排索引中是否含有这个词�l�，如果没有�Q�将�q�个词组插入倒排索引的烦引项�Q��ƈ��网��?nbsp;i 加到其烦引��g��Q�如果倒排索引中已�l�含有这个词�l�，直接��网��?nbsp;i 加到其烦引��g��Q?br>如果�q�有�|�页��未分析�Q��{ 1�Q�否则，�l�束
建立倒排索引的算法不隑֮�玎ͼ�主要是其中数据结构的选用�Q�在 dySE 中，正向索引和倒排索引都是采用 HashMap 来存储，映射中正向烦引的键是采用�|�页 URL 对应的字�W�串�Q�而倒排索引是采用分词词�l�，映射中的��|��前者是一个分词列表，后者是一�?nbsp;URL 的字�W�串列表。这里可以采用一个优化，分别建立两个表，按照标号存储分词列表�?nbsp;URL 列表�Q�这��P��索引中的值就可以使用整型变量列表来节省空间�?br>回页�?br>初步实验
到目前�ؓ止，虽然我们�q�没有正式的查询输入界面以及�l�果�q�回��面�Q�但�q�丝毫不影响我们来对我们的搜索引擎进行初步的实验。在倒排索引建立以后�Q�我们在�E�序中获得一个倒排索引的实例，然后定义一个搜索的字符�Ԍ��直接在倒排索引中遍历这个字�W�串�Q�然后返回该词组所指向的倒排索引中的 URL 列表卛_��?br>回页�?br>��结
�|�页的预处理是搜索引擎的核心部分�Q�徏立烦引网��库是�ؓ了网��|��据更方便的从原始�|�页库中获取�Q�而抽取正文信息是后箋操作的基��。从分词开始就正式涉及到搜索引擎中文本数据的处理，分词的好坏以及效率很大程度上军_��着搜烦引擎的精��性，是非帔R��要关注的一点，而倒排索引时根据分词的�l�果建立的一�?#8220;词组——对应网��列�?#8221;映射�Q�倒排索引是网��|��索的最关键数据�l�构�Q�搜索引擎执行的速度与倒排索引的徏立以及倒排索引的搜索方式息息相兟�?br>回页�?br>后箋内容
在本�p�d��的第三部分中�Q��?zh��n)��了解到如何从创建网��，从网��中输入查询信息通过倒排索引的搜索完成结果的�q�回�Q��ƈ且完成网��|��名的功能�?br>

Kevin_Zhang 2011-04-16 20:36 发表评论

一�?Java 搜烦引擎的实玎ͼ��W?1 部分: �|�络爬虫

Kevin_Zhang — Sat, 16 Apr 2011 12:35:00 GMT

自己动手写一个搜索引擎，��x��q�有�?nbsp;cool�Q�在界面上输入关键词�Q�点��L��索，得到自己惌��的结果；那么它还可以做什么呢�Q�也许是自己的网站需要一个站内搜索功能，抑或是对于硬盘中文档的搜�?nbsp;—�?nbsp;最重要的是�Q�是不是觉得众多 IT 公司都在向你招手呢？如果你心动了�Q�那么，Let's Go�Q?/span>
�q�里首先要说明��?nbsp;Java 语言而不�?nbsp;C/C++ �{�其它语�a�的原因，因�ؓ Java 中提供了对于�|�络�~�程众多的基��包和�c�，比如 URL �c�R��InetAddress �c�R��正则表辑ּ��Q�这为我们的搜烦引擎实现提供了良好的基础�Q��我们可以专注于搜索引擎本�w�的实现�Q�而不需要因��些基��cȝ��实现而分心�?br>�q�个分三部分的系列将逐步说明如何设计和实��C��个搜索引擎。在�W�一部分中，�(zh��n)�将首先学习搜烦引擎的工作原理，同时了解其体�pȝ��构，之后��讲解如何实现搜索引擎的�W�一部分�Q�网�l�爬虫模块，卛_��成网��|��集功能。在�p�d��的第二部分中�Q�将介绍预处理模块，卛_��何处理收集来的网��，整理、分词以及烦引的建立都在�q�部分之中。在�p�d��的第三部分中�Q�将介绍信息查询服务的实玎ͼ�主要是查询界面的建立、查询结果的�q�回以及快照的实现�?br>dySE 的整体结�?br>在开始学习搜索引擎的模块实现之前�Q��?zh��n)�需要了�?nbsp;dySE 的整体结构以及数据传输的��程。事实上�Q�搜索引擎的三个部分是相互独立的�Q�三个部分分别工作，主要的关�p�M��现在前一部分得到的数据结果�ؓ后一部分提供原始数据。三者的关系如下图所�C�：

�?nbsp;1. 搜烦引擎三段式工作流�E?br>
在介�l�搜索引擎的整体�l�构之前�Q�我们借鉴《计��机�|�络——自��向下的�Ҏ(gu��)��描述因特�|�特艌Ӏ�一书的叙事�Ҏ(gu��)��Q�从普通用户��用搜索引擎的角度来介�l�搜索引擎的具体工作��程�?br>自顶向下的方法描�q�搜索引擎执行过�E�：
用户通过��览器提交查询的词或者短�?nbsp;P�Q�搜索引擎根据用��L��查询�q�回匚w��的网��信息列�?nbsp;L�Q?br>上述�q�程涉及��C��个问题，如何匚w��用户的查询以及网��信息列表从何而来�Q�根据什么而排序？用户的查�?nbsp;P �l�过分词器被切割成小词组 <p1,p2 … pn> �q�被剔除停用�?nbsp;( 的、了、啊�{�字 )�Q�根据系�l�维护的一个倒排索引可以查询某个�?nbsp;pi 在哪些网��中出现�q�，匚w��那些 <p1,p2 … pn> 都出现的�|�页集即可作为初始结果，更进一步，�q�回的初始网��集通过计算与查询词的相兛_��从而得到网��|��名，�?nbsp;Page Rank�Q�按照网��늚�排名��序卛_��得到最�l�的�|�页列表�Q?br>假设分词器和�|�页排名的计��公式都是既定的�Q�那么倒排索引以及原始�|�页集从何而来�Q�原始网��集在之前的数据��程的介�l�中�Q�可以得知是��q��?nbsp;spider 爬取�|�页�q�且保存在本地的�Q�而倒排索引�Q�即词组到网��늚�映射表是建立在正排烦引的基础上的�Q�后者是分析了网��늚�内容�q�对其内容进行分词后�Q�得到的�|�页到词�l�的映射表，��正排烦引倒置卛_��得到倒排索引�Q?br>�|�页的分析具体做什么呢�Q�由于爬虫收集来的原始网��中包含很多信息�Q�比�?nbsp;html 表单以及一些垃圾信息比如广告，�|�页分析去除�q�些信息�Q��ƈ抽取其中的正文信息作为后�l�的基础数据�?br>在有了上�q�的分析之后�Q�我们可以得到搜索引擎的整体�l�构如下图：

�?nbsp;2. 搜烦引擎整体�l�构

爬虫�?nbsp;Internet 中爬取众多的�|�页作�ؓ原始�|�页库存储于本地�Q�然后网��分析器抽取�|�页中的主题内容交给分词器进行分词，得到的结果用索引器徏立正排和倒排索引�Q�这样就得到了烦引数据库�Q�用��h��询时�Q�在通过分词器切割输入的查询词组�q��过��索器在烦引数据库中进行查询，得到的结果返回给用户�?br>无论搜烦引擎的规模大��，其主要结构都是由�q�几部分构成的，�q�没有大的差别，搜烦引擎的好坏主要是军_��于各部分的内部实现�?br>有了上述的对与搜索引擎的整体了解�Q�我们来学习 dySE 中爬虫模块的具体设计和实现�?br>回页�?br>Spider 的设�?br>�|�页攉��的过�E�如同图的遍历，其中�|�页��׃��为图中的节点�Q�而网��中的超链接则作为图中的边，通过某网��늚��链�?nbsp;得到其他�|�页的地址�Q�从而可以进一步的�q�行�|�页攉��Q�图的遍历分为广度优先和深度优先两种�Ҏ(gu��)��Q�网��늚�攉��q�程也是如此。综上，Spider 攉��|�页的过�E�如下：从初�?nbsp;URL 集合获得目标�|�页地址�Q�通过�|�络�q�接接收�|�页数据�Q�将获得的网��|��据添加到�|�页库中�q�且分析该网��中的其�?nbsp;URL 链接�Q�放入未讉K�� URL 集合用于�|�页攉��。下图表�C�Z��q�个�q�程�Q?br>
�?nbsp;3. Spider 工作��程

回页�?br>Spider 的具体实�?br>�|�页攉��?nbsp;Gather
�|�页攉��器通过一�?nbsp;URL 来获取该 URL 对应的网��|��据，其实��C��要是利用 Java 中的 URLConnection �c�L��打开 URL 对应��面的网�l�连接，然后通过 I/O ��读取其中的数据�Q�BufferedReader 提供��d��数据的缓冲区提高数据��d��的效率以及其下定义的 readLine() 行读取函数。代码如�?nbsp;( 省略了异常处理部�?nbsp;)�Q?br>
清单 1. �|�页数据抓取

URL url = new URL(“http://www.xxx.com”);
URLConnection conn = url.openConnection();
BufferedReader reader = new BufferedReader(new InputStreamReader(conn.getInputStream()));
String line = null;
while((line = reader.readLine()) != null)
    document.append(line + "\n");

使用 Java 语言的好处是不需要自己处理底层的�q�接操作�Q�喜�Ƣ或者精�?nbsp;Java �|�络�~�程的读者也可以不用上述的方法，自己实现 URL �c�d��相关操作�Q�这也是一�U�很好的�ȝ��?br>�|�页处理
攉��到的单个�|�页�Q�需要进行两�U�不同的处理�Q�一�U�是攑օ��|�页库，作�ؓ后箋处理的原始数据；另一�U�是被分析之后，抽取其中�?nbsp;URL �q�接�Q�放�?nbsp;URL 池等待对应网��늚�攉��?br>�|�页的保存需要按照一定的格式�Q�以便以后数据的扚w��处理。这里介�l�一�U�存储数据格式，该格式从北大天网的存储格式简化而来�Q?br>�|�页库由若干记录�l�成�Q�每个记录包含一条网��|��据信息，记录的存放�ؓ��序��d��Q?br>一条记录由数据头、数据、空行组成，��序为：头部 + �I�� + 数据 + �I��Q?br>头部��p��q�属性组成，有：版本��P��日期�Q�IP 地址�Q�数据长度，按照属性名和属性值的方式排列�Q�中间加冒号�Q�每个属性占用一行；
数据即�ؓ�|�页数据�?br>需要说明的是，��d��数据攉��日期的原因，�׃��许多�|�站的内定w��是动态变化的�Q�比如一些大型门��L��站的首页内容�Q�这��意味着如果不是当天爬取的网��|��据，很可能发生数据过期的问题�Q�所以需要添加日期信息加以识别�?br>URL 的提取分��Z��步，�W�一步是 URL 识别�Q�第二步再进�?nbsp;URL 的整理，分两步走主要是因为有些网站的链接是采用相对�\径，如果不整理会产生错误。URL 的识别主要是通过正则表达式来匚w��Q�过�E�首先设定一个字�W�串作�ؓ匚w��的字�W�串模式�Q�然后在 Pattern 中编译后卛_��使用 Matcher �c�L��q�行相应字符串的匚w��。实��C��码如下：

清单 2. URL 识别

public ArrayList<URL> urlDetector(String htmlDoc){
    final String patternString = "<[a|A]\\s+href=([^>]*\\s*>)";
    Pattern pattern = Pattern.compile(patternString,Pattern.CASE_INSENSITIVE);
    ArrayList<URL> allURLs = new ArrayList<URL>();
    Matcher matcher = pattern.matcher(htmlDoc);
    String tempURL;
    //初次匚w��到的url是�Ş如：http://bbs.life.xxx.com.cn/" target="_blank">
    //为此�Q�需要进行下一步的处理�Q�把真正的url抽取出来�Q?br>    //可以对于前两�?之间的部分进行记录得到url
    while(matcher.find()){
        try {
            tempURL = matcher.group();
            tempURL = tempURL.substring(tempURL.indexOf("\"")+1);
            if(!tempURL.contains("\""))
                continue;
            tempURL = tempURL.substring(0, tempURL.indexOf("\""));
        } catch (MalformedURLException e) {
            e.printStackTrace();
        }
    }
    return allURLs;
}

按照“<[a|A]\\s+href=([^>]*\\s*>)”�q�个正则表达式可以匹配出 URL 所在的整个标签�Q��Ş�?#8220;<a href="http://bbs.life.xxx.com.cn/" target="_blank">”�Q�所以在循环获得整个标签之后�Q�需要进一步提取出真正�?nbsp;URL�Q�我们可以通过截取标签中前两个引号中间的内�Ҏ(gu��)��获得�q�段内容。如此之后，我们可以得到一个初步的属于该网��늚� URL 集合�?br>接下来我们进行第二步操作�Q�URL 的整理，卛_��之前获得的整个页面中 URL 集合�q�行�{�选和整合。整合主要是针对�|�页地址是相寚w��接的部分�Q�由于我们可以很�Ҏ(gu��)��的获得当前网��늚� URL�Q�所以，相对链接只需要在当前�|�页�?nbsp;URL 上添加相寚w��接的字段卛_��l�成完整�?nbsp;URL�Q�从而完成整合。另一斚w��Q�在��面中包含的全面 URL 中，有一些网��|��如广告网��|��我们不想爬取的，或者不重要的，�q�里我们主要针对于页面中的广告进行一个简单处理。一般网站的�q�告�q�接都有相应的显�C��达，比如�q�接中含�?#8220;ad”�{�表达时�Q�可以将该链接的优先�U�降低，�q�样��可以一定程度的避免�q�告链接的爬取�?br>�l�过�q�两步操作时候，可以把该�|�页的收集到�?nbsp;URL 攑օ� URL 池中�Q�接下来我们处理爬虫�?nbsp;URL 的派分问题�?br>Dispatcher 分配�?br>分配器管�?nbsp;URL�Q�负责保存着 URL 池�ƈ且在 Gather 取得某一个网��之后派分新�?nbsp;URL�Q�还要避免网��늚�重复攉��。分配器采用设计模式中的单例模式�~�码�Q�负责提供给 Gather 新的 URL�Q�因为涉及到之后的多�U�程改写�Q�所以单例模式显得尤为重要�?br>重复攉��是指物理上存在的一个网��，在没有更新的前提下，�?nbsp;Gather 重复讉K��Q�造成资源的浪费，主要原因是没有清楚的记录已经讉K��?nbsp;URL 而无法��L别。所以，Dispatcher �l�护两个列表 ,“已访问表”�Q�和“未访问表”。每�?nbsp;URL 对应的页面被抓取之后�Q�该 URL 攑օ�已访问表中，而从该页面提取出来的 URL 则放入未讉K��表中�Q�当 Gather �?nbsp;Dispatcher ��h�� URL 的时候，先验证该 URL 是否在已讉K��表中�Q�然后再�l?nbsp;Gather �q�行作业�?br>Spider 启动多个 Gather �U�程
现在 Internet 中的�|�页数量��C��亿计�Q�而单独的一�?nbsp;Gather 来进行网��|��集显然效率不��I��所以我们需要利用多�U�程的方法来提高效率。Gather 的功能是攉��|�页�Q�我们可以通过 Spider �c�L��开启多�?nbsp;Gather �U�程�Q�从而达到多�U�程的目的。代码如下：
/**
* 启动�U�程 gather�Q�然后开始收集网��资�?br>*/
public void start() {
    Dispatcher disp = Dispatcher.getInstance();
    for(int i = 0; i < gatherNum; i++){
        Thread gather = new Thread(new Gather(disp));
        gather.start();
    }
}

在开启线�E�之后，�|�页攉��器开始作业的�q�作�Q��ƈ在一个作业完成之后，�?nbsp;Dispatcher 甌��下一个作业，因�ؓ有了多线�E�的 Gather�Q��ؓ了避免线�E�不安全�Q�需要对 Dispatcher �q�行互斥讉K��Q�在其函��C��中添�?nbsp;synchronized 关键词，从而达到线�E�的安全讉K��?br>回页�?br>��结
Spider 是整个搜索引擎的基础�Q��ؓ后箋的操作提供原始网��资料，所以了�?nbsp;Spider 的编写以及网��库的组成结构�ؓ后箋预处理模块打下基��。同�?nbsp;Spider �E�加修改之后也可以单独用于某�c�d��体信息的搜集�Q�比如某个网站的囄��爬取�{��?br>回页�?br>后箋内容
在本�p�d��的第 2 部分中，�(zh��n)�将了解到爬虫获取的�|�页库如何被预处理模块逐步提取内容信息�Q�通过分词�q�徏成倒排索引�Q�而在�W?nbsp;3 部分中，�(zh��n)�将了解刎ͼ�如何�~�写�|�页来提供查询服务，�q�且如何昄��的返回的�l�果和完成快照的功能�?/span>

Kevin_Zhang 2011-04-16 20:35 发表评论

java 下蝲�|�页

Kevin_Zhang — Wed, 13 Apr 2011 12:42:00 GMT

1//获取指定�|�页源代�?/span>
2package kevin;
3
4import java.io.*;//java的输入输�?/span>
5import java.net.*;//java的net�?/span>
6public class fei{
7 public static void main(String[] args) throws IOException{
8  URL url=new URL("http://www.baidu.com");//定义一个url�cȝ��实例
9  InputStreamReader isr=new InputStreamReader(url.openStream());//输入��?/span>
10  BufferedReader br=new BufferedReader(isr);
11  String s;
12  while((s=br.readLine())!=null)
13  System.out.print(s);
14  URLConnection connection=url.openConnection();
15
16 }
17}
18
19

Kevin_Zhang 2011-04-13 20:42 发表评论

Kevin_Zhang — Sun, 10 Apr 2011 04:14:00 GMT

http://www.php100.com/html/webkaifa/apache/2009/0418/1188.html

Kevin_Zhang 2011-04-10 12:14 发表评论

MonoDevelop

Kevin_Zhang — Thu, 21 Oct 2010 23:29:00 GMT

MonoDevelop支持使用C#和其�?NET语言�q�行开发，它��得开发者可以在Linux和Mac OS X上非常迅速的开发出桌面软�g和ASP.NET Web应用。除此之外，MonoDevelop�q�允许开发者非常简单的��Visual Studio开发的.NET应用�E�序�U�L��到Linux和Mac OS X下，�q�样开发者只需要维护一套代码即可──因�ؓGTK#是跨�q�_��的�?

　　或许有�h对于Microsoft�?NET环境有些抵触�Q�而开攄��桌面环境�Q�GNOME早已��开源实现的.NET�q�行环境Mono�U�_��了默认支持当中�?

　　GNOME�pȝ��?#8220;Tomboy便笺”��x��用C#�~�写�Q�Novell出品的照片管理工��P��F-spot也是如此�Q�同栯��有著名的索引搜烦工具Beagle�?

　　通过Mono�Q�能吸引更多的开发者，�q�何��不是一件好事？

　　再谈最新的MonoDevelop 1.0�Q�它是一��N��常强大的集成开发环境，有如下特性：

　　代码补全�?

　　参数信息�?

　　信息提示�?

　　��x��错误��查�?

　　代码��D��?

　　��索引�?

　　自动生成XML标签�?

　　代码模板�?

　　�c�d��成员选择器�?

　　单元��试�?

　　打包和部�|�Ӏ?

　　版本控制�?

　　Visual Studio支持�?

　　国际化支持�?

　　最��的是，如果你��用C#的话�Q�还能��用集成GTK#的可视化设计。这是目前�ؓ止GNOME环境下唯一的集成可视化设计器的IDE�Q�Anjuta也不支持�?br>
官方�|�站�Q?a >http://monodevelop.com/

Kevin_Zhang 2010-10-22 07:29 发表评论

heritrix1.14.4

Kevin_Zhang — Mon, 18 Oct 2010 12:31:00 GMT

最好用的方法在哪里�Q?br>----------------------------------------------

Kevin_Zhang 2010-10-18 20:31 发表评论

tomcatPlugin下蝲地址

Kevin_Zhang — Sun, 17 Oct 2010 02:04:00 GMT

自己在自学java�Q�自学J2EE�Q�需要用到eclipse上的tomcatPlugin插�g�Q�把eclipse和tomcat�q�接��h��?/p>

很多资料上提供的的下载地址是：http://www.sysdeo.com/eclipse/tomcatPlugn 恼火的是�Q�这个网址已经指向www.sqli.com�Q�因为外语不好，也找不到下蝲的地斏V�?/p>

在搜索tomcatPluginV32 下蝲�Q�找到的是CSDN上的�Q�最讨厌CSDN上下载开源的东西�q�要登陆�Q�还要消耗积分，其他的大多也上面的不能用的连接�?/p>

后来没办法，只搜索tomcatPlugin扑ֈ�了官�|�：http://www.eclipsetotale.com/tomcatPlugin.html

也找��C��官方的下载地址�Q?a >http://www.eclipsetotale.com/tomcatPlugin/tomcatPluginV321.zip

Kevin_Zhang 2010-10-17 10:04 发表评论

Heritrix-1.14.1怎么配置?

Kevin_Zhang — Thu, 07 Oct 2010 14:24:00 GMT

1.下蝲heritrix-1.14.1.zip和heritrix-1.14.1.src �q�解压，解压heritrix-1.14.1.jar.
2.在eclipse下创建java project,命名为比如heritrix�Q�进入其工程的目录，我的是F:\workspace\myeclipse\heritrix�Q�删除src文�g夏V�?
3.copy解压后的heritrix-1.14.1.zip文�g夹下的lib�Q�webapps�Q�heritrix-1.14.1到F:\workspace\myeclipse\heritrix目录下，�q�删除F:\workspace\myeclipse\heritrix\heritrix-1.14.1目录下的org和st两个文�g夏V�?
copy解压后的heritrix-1.14.1.src 文�g夹下的heritrix-1.14.1\src\java下的org和st两个文�g夹到F:\workspace\myeclipse\heritrix\heritrix-1.14.1\目录�?
4.修改heritrix-1.14.1文�g夹名�U�Cؓsrc
5.修改src\heritrix.properties文�g中的heritrix.cmdline.admin = �?heritrix.cmdline.admin = admin:sun,�q�个���是要设�|�你的用户名和密码，可以随便�Q�中间是冒号�?
6.��h��工程�Q�把lib下的jar包全部添加到工程中，即点击heritrix工程�Q�右键属�?--java build path---libraries--- add jars选择heritrix工程下lib所有jar�?
7.�q�行org.archive.crawler.Heritrix�c�，在地址栏输�?a style="COLOR: rgb(38,28,220)" href="http://localhost:8080/" target=_blank>http://localhost:8080/
OK!���是�q�么���单！

�?/span>自：http://zhidao.baidu.com/question/72080439.html

Kevin_Zhang 2010-10-07 22:24 发表评论

说明一下下

Kevin_Zhang — Thu, 07 Oct 2010 08:03:00 GMT

��Z��方便回查�Q�以问答的方式，记录一下搜索过�E��?br>

---------------------------------------

Kevin_Zhang 2010-10-07 16:03 发表评论

Spider概述

Kevin_Zhang — Thu, 16 Sep 2010 11:29:00 GMT

Spider概述

Spider即网�l�爬�?,其定义有�q�义和狭义之分。狭义上指遵循标准的 http协议利用��链接和 Web文档��索的�Ҏ(gu��)��遍历万维�|�信息空间的软�g�E�序 ;而广义的定义则是所有能遵��@ http协议��?Web文档的��Y仉��U�C��为网�l�爬虫�?

Spider是一个功能很强的自动提取�|�页的程�?,它�ؓ搜烦引擎从万�l�网上下载网��?,是搜索引擎的重要�l�成 .它通过��h��站点上的 HTML文档讉K��某一站点。它遍历 Web�I�间 ,不断从一个站点移动到另一个站�?,自动建立索引 ,�q�加入到�|�页数据库中。网�l�爬虫进入某个超�U�文本时 ,它利�?HTML语言的标记结构来搜烦信息及获取指向其他超�U�文本的 URL地址 ,可以完全不依赖用户干预实现网�l�上的自动爬行和搜烦�?

Spider的队�?

�Q?�Q�等待队�?:新发现的 URL被加入到�q�个队列 ,�{�待�?Spider�E�序处理 ;

�Q?�Q�处理队�?:要被处理�?URL被传送到�q�个队列。�ؓ了避免同一�?URL被多�ơ处�?,当一�?URL被处理过�?,它将被�{�U�d��完成队列或者错误队�?(如果发生错误 )�?

�Q?�Q�错误队�?:如果在下载网��|��发生错误 ,�?URL��被加入到错误队列�?/p>

�Q?�Q�完成队�?:如果在处理网��|��有发生错�?,�?URL��被加入到完成队列�?

�|�络爬虫搜烦�{�略

在抓取网��늚�时�?,目前�|�络爬虫一般有两种�{�略 :无主题搜索与��Z��某特定主体的专业��搜烦。其中前者主要包�?:�q�度优先和深度优先。广度优先是指网�l�爬虫会先抓取�v始网��中链接的所有网��?,然后再选择其中的一个链接网��?,�l�箋抓取在此�|�页中链接的所有网��c��这是最常用的方�?因�ؓ�q�个�Ҏ(gu��)��可以让网�l�爬虫�ƈ行处�?,提高其抓取速度。深度优先是指网�l�爬虫会从�v始页开�?,一个链接一个链接跟�t�下�?,处理完这条线路之后再转入下一个�v始页 ,�l�箋跟踪链接。这个方法有个优�Ҏ(gu��)��|�络爬虫在设计的时候比较容易。大多数�|�页爬行器采用宽度优先搜索策略或者是对这�U�策略的某些改进�?/p>

在专业搜索引擎中 ,�|�络爬虫的�Q务是获取 Web��面和决定链接的讉K��序 ,它通常从一�?“�U�子�?”(如用��h��询、种子链接或�U�子��面 )�?以�P代的方式讉K��面和提取链接。搜索过�E�中 ,未访问的链接被暂存在一个称�?“搜烦前沿 ”(Spider Frontier)的队列中 ,�|�络爬虫�Ҏ(gu��)��搜烦前沿中链接的 “重要�E�度 ”军_��下一个要讉K��的链接。如何评价和预测链接�?“重要�E�度 ”(或称价�?)是决定网�l�爬虫搜索策略的关键�?/p>

众多的网�l�爬虫设计各不相�?,但归根结底是采用不同的链接�h(hu��n)��D��h��准�?/p>

常用开源网�l�爬虫介�l�及其比�?/h2>

Nutch

开发语�a��Q�Java

http://lucene.apache.org/nutch/

��介：

Apache的子��目之一�Q�属于Lucene��目下的子项目�?/p>

Nutch是一个基于Lucene�Q�类似Google的完整网�l�搜索引擎解��x��案，��Z��Hadoop的分布式处理模型保证了系�l�的性能�Q�类似Eclipse的插件机制保证了�pȝ��的可客户化，而且很容易集成到自己的应用之中�?

Larbin

开发语�a��Q�C++

http://larbin.sourceforge.net/index-eng.html

��?/p>

　　larbin是一�U�开源的�|�络爬虫/�|�络蜘蛛�Q�由法国的年��M�h Sébastien Ailleret独立开发。larbin目的是能够跟�t�页面的url�q�行扩展的抓取，最后�ؓ搜烦引擎提供�q�泛的数据来源�?/p>

　　Larbin只是一个爬虫，也就是说larbin只抓取网��，至于如何parse的事情则��q��戯��己完成。另外，如何存储到数据库以及建立索引的事�?larbin也不提供�?/p>

　　latbin最初的设计也是依据设计��单但是高度可配置性的原则�Q�因此我们可以看刎ͼ�一个简单的larbin的爬虫可以每天获取５�Q�０万的�|�页�Q�非帔R��效�?/p>

Heritrix

开发语�a��Q�Java

http://crawler.archive.org/

��?/p>

与Nutch比较

�?Nutch。二者均为Java开源框�Ӟ��Heritrix �?SourceForge上的开源��品，Nutch为Apache的一个子��目�Q�它们都�U�C��|�络爬虫/蜘蛛�Q?Web Crawler�Q�，它们实现的原理基本一��_��深度遍历�|�站的资源，��这些资源抓取到本地�Q��用的�Ҏ(gu��)��都是分析�|�站每一个有效的URI�Q��ƈ提交Http��h��Q�从而获得相应结果，生成本地文�g及相应的日志信息�{��?/p>

Heritrix 是个 "archival crawler" -- 用来获取完整的、精��的、站点内容的深度复制。包括获取图像以及其他非文本内容。抓取�ƈ存储相关的内宏V��对内容来者不拒，不对��面�q�行内容上的修改。重新爬行对相同的URL不针对先前的�q�行替换。爬虫通过Web用户界面启动、监控、调��_��允许�Ҏ(gu��)��的定义要获取的URL�?/p>

二者的差异�Q?/p>

Nutch 只获取�ƈ保存可烦引的内容。Heritrix则是照单全收。力求保存页面原�?

Nutch 可以修剪内容�Q�或者对内容格式�q�行转换�?

Nutch 保存内容为数据库优化格式便于以后索引�Q�刷新替换旧的内宏V��而Heritrix 是添�?�q�加)新的内容�?

Nutch 从命令行�q�行、控制。Heritrix �?Web 控制��理界面�?

Nutch 的定制能力不够强�Q�不�q�现在已�l�有了一定改�q�。Heritrix 可控制的参数更多�?/p>

Heritrix提供的功能没有nutch多，有点整站下蝲的味道。既没有索引又没有解析，甚至对于重复爬取URL都处理不是很好�?/p>

Heritrix的功能强�?但是配置��h��却有炚w��烦�?/p>

三者的比较

一、从功能斚w��来说�Q�Heritrix与Larbin的功能类伹{��都是一个纯�_�的�|�络爬虫�Q�提供网站的镜像下蝲。而Nutch是一个网�l�搜索引擎框�Ӟ��爬取�|�页只是其功能的一部分�?/p>

二、从分布式处理来��_��Nutch支持分布式处理，而另外两个好像尚且还没有支持�?/p>

三、从爬取的网��存储方式来��_��Heritrix�?Larbin都是��爬取下来的内容保存为原始类型的内容。而Nutch是将内容保存到其特定格式的segment中去�?/p>

四，对于爬取下来的内容的处理来说�Q�Heritrix�?Larbin都是��爬取下来的内容不经处理直接保存为原始内宏V��而Nutch�Ҏ(gu��)��本进行了包括链接分析、正文提取、徏立烦引（Lucene索引�Q�等处理�?/p>

五，从爬取的效率来说�Q�Larbin效率较高�Q�因为其是��用c++实现的�ƈ且功能单一�?/p>

�?3�U�爬虫的比较

crawler	开发语�a�	功能单一	支持分布式爬�?/p>	效率	镜像保存
Nutch	Java	×	√	�?/p>	×
Larbin	C++	√	×	�?/p>	√
Heritrix	Java	√	×	�?/p>	√

其他�|�络爬虫介绍�Q?/h3>
Heritrix
Heritrix是一个开源，可扩展的web爬虫��目。Heritrix设计成严格按照robots.txt文�g的排除指�C�和META robots标签�?br>http://crawler.archive.org/

WebSPHINX
WebSPHINX是一个Java�c�d��和Web爬虫的交互式开发环境。Web爬虫(也叫作机器�h或蜘�?是可以自动浏览与处理Web��面的程序。WebSPHINX�׃��部分�l�成�Q�爬虫工作��^台和WebSPHINX�c�d��?br>http://www.cs.cmu.edu/~rcm/websphinx/

WebLech
WebLech是一个功能强大的Web站点下蝲与镜像工兗��它支持按功能需求来下蝲web站点�q�能够尽可能模仿标准Web��览器的行�ؓ。WebLech有一个功能控制台�q��用多�U�程操作�?br>http://weblech.sourceforge.net/
Arale
Arale主要��Z��Z��用而设计，而没有像其它爬虫一��h��x��于页面烦引。Arale能够下蝲整个web站点或来自web站点的某些资源。Arale�q�能够把动态页面映��成静态页面�?br>http://web.tiscali.it/_flat/arale.jsp.html

J-Spider
J-Spider:是一个完全可配置和定制的Web Spider引擎.你可以利用它来检查网站的错误(内在的服务器错误�{?,�|�站内外部链接检查，分析�|�站的结�?可创��Z��个网站地�?,下蝲整个Web站点�Q�你�q�可以写一个JSpider插�g来扩展你所需要的功能�?br>http://j-spider.sourceforge.net/

spindle
spindle 是一个构建在Lucene工具包之上的Web索引/搜烦工具.它包括一个用于创建烦引的HTTP spider和一个用于搜索这些烦引的搜烦�c�R��spindle��目提供了一�l�JSP标签库��得那些基于JSP的站点不需要开发�Q何Java�c�d��能够增加搜烦功能�?br>http://www.bitmechanic.com/projects/spindle/

Arachnid
Arachnid: 是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子�c�d��能够开发一个简单的Web spiders�q�能够在Web站上的每个页面被解析之后增加几行代码调用�?Arachnid的下载包中包含两个spider应用�E�序例子用于演示如何使用该框架�?br>http://arachnid.sourceforge.net/

LARM
LARM能够为Jakarta Lucene搜烦引擎框架的用��h��供一个纯Java的搜索解��x��案。它包含能够为文�Ӟ��数据库表格徏立烦引的�Ҏ(gu��)��和�ؓWeb站点建烦引的爬虫�?br>http://larm.sourceforge.net/

JoBo
JoBo 是一个用于下载整个Web站点的简单工兗��它本质是一个Web Spider。与其它下蝲工具相比较它的主要优势是能够自动填充f(xi��)orm(如：自动��d��)和��用cookies来处理session。JoBo�q�有灉|��的下载规�?如：通过�|�页的URL�Q�大��，MIME�c�d��{?来限制下载�?br>http://www.matuschek.net/software/jobo/index.html

snoics-reptile
snoics -reptile是用�U�Java开发的�Q�用来进行网站镜像抓取的工具�Q�可以��用配制文件中提供的URL入口�Q�把�q�个�|�站所有的能用��览器通过GET的方式获取到的资源全部抓取到本地�Q�包括网��和各种�c�d��的文�Ӟ��如：囄��、flash、mp3、zip、rar、exe�{�文件。可以将整个�|�站完整��C��传至��盘内，�q�能保持原有的网站结构精��不变。只需要把抓取下来的网站放到web服务�?如：Apache)中，��可以实现完整的�|�站镜像�?br>http://www.blogjava.net/snoics

Web-Harvest
Web-Harvest是一个Java开源Web数据抽取工具。它能够攉��指定的Web��面�q�从�q�些��面中提取有用的数据。Web-Harvest主要是运用了像XSLT,XQuery,正则表达式等�q�些技术来实现对text/xml的操作�?br>http://web-harvest.sourceforge.net

spiderpy
spiderpy是一个基于Python�~�码的一个开源web爬虫工具�Q�允许用��h��集文件和搜烦�|�站�Q��ƈ有一个可配置的界面�?br>http://pyspider.sourceforge.net/

The Spider Web Network Xoops Mod Team
pider Web Network Xoops Mod是一个Xoops下的模块�Q�完全由PHP语言实现�?br>http://www.tswn.com/

larbin
larbin是个��Z��C++的web爬虫工具�Q�拥有易于操作的界面�Q�不�q�只能跑在LINUX下，在一台普通PC下larbin每天可以�?百万个页�?当然啦，需要拥有良好的�|�络)
http://larbin.sourceforge.net/index-eng.html

爬虫存在的问�?/h3>
1. robots.txt

robots.txt是一个纯文本文�g�Q�在�q�个文�g中网站管理者可以声明该�|�站中不惌��robots讉K��的部分，或者指定搜索引擎只收录指定的内宏V�?/p>
当一个搜索机器�h�Q�有的叫搜烦蜘蛛�Q�访问一个站�Ҏ(gu��)��Q�它会首先检查该站点根目录下是否存在robots.txt�Q�如果存在，搜烦机器人就会按照该文�g中的内容来确定访问的范围�Q�如果该文�g不存在，那么搜烦机器人就沿着链接抓取�?/p>
另外�Q�robots.txt必须攄��在一个站点的根目录下�Q�而且文�g名必��d��部小写�?/p>
2. 有些�c�d��的网��难以爬取。例如，使用javascript调用的页面、需要注册才能访问的��面�{��?/p>

�|�络爬虫的相关研�I�工�?/h3>
有些�c�d��的网��难以爬取。例如，使用javascript调用的页面、需要注册才能访问的��面�{�，对于�q�些�|�络的爬取被归结为深层网�l�的挖掘。这些网��可归结为如下几�c�：�Q?�Q�通过

填写表单形成对后台再现数据库查询得到的动态页面。（2�Q�由于缺乏被指向的超链接而没有被索引到的��面。（3�Q�需要注册或其他限制讉K��的页面。（4�Q�可讉K��的非�|�页文�g。在曾伟辉等人的文章中，对这�c�问题进行了�l�D��。在王映�{��h的文章中�Q�提��Z��使用一个嵌入式的JavaScript引擎来进行动态网��采集的�Ҏ(gu��)��?/p>
1. 有些非静态的Web2.0�|�站的内容动态生成，数据量巨大，难以抓取�Q�例如论坛等�|�站。在2008�q�SIGIR中，Yida Wang�{�提��Z��一�U�爬取论坛的爬取�Ҏ(gu��)��?/p>
2. 有些�|�站会限制网�l�爬虫的爬取�Q�Analia G. Lourenco, Orlando O. Belo �?006�q�提出来使用查询日志的方法限制网�l�爬虫的�z�d��以减��L��务器压力�?/p>
3. �|�络上的�|�页数量太大�Q�在爬取旉��要考虑爬取的时间及效率�{�问题，UCLA的Junghoo Cho�{�提��Z��使用�q�行的crawler的方法�?/p>
4.

Kevin_Zhang 2010-09-16 19:29 发表评论