国产精品一区2区,亚洲美女视频网,亚洲欧洲在线看

Dhtcrawler2换用sphinx搜烦

Kevin Lynx — Thu, 08 Aug 2013 15:04:00 GMT

dhtcrawler2最开始��用mongodb自带的全文搜索引擎搜索资源。搜索一些短关键字时很容易导致erlang�q�程call timeout�Q�也��是查询旉��太长。对于像avi�q�种关键字，搜烦旉��长达十几�U�。搜索的资源数量200万左叟뀂这其中大部分资源只是对root文�g名进行了索引�Q�即对于多文件资源而言没有索引单个文�g名。烦引方式有部分资源是按照字�W�串子串的�Ş式，没有拆词�Q�非常占用存储空��_��有部分是使用了rmmseg�Q�我�~�译了rmmseg-cpp作�ؓerlang nif库调�?erl-rmmseg�Q�进行了拆词�Q�占用空间小了很多，但由于词库问题很多片里的词汇没拆出来�?/p>

很早以前我以为搜索耗时的原因是因�ؓ数据库太忙，想部�|�个mongodb集群出来。后来发现数据库没有��M��d��的状态下�Q�查询依然慢。终于只好放弃mongodb自带的文本搜索。于是我改用sphinx。简单�v见，我直接下载了coreseek4.1�Q�sphinx的一个支持中文拆词的包装�Q��?/p>

现在�Q�已�l�导入了200多万的资源进sphinx�Q��ƈ且烦引了所有文件名�Q�烦引文件达800M。对�?code>avi关键字的搜烦大概消�?.2�U�的旉��?a >搜烦试试�?/p>

以下记录下sphinx在dhtcrawler的应�?/p>

sphinx��?/h3>
sphinx包含两个主要的程序：indexer和searchd。indexer用于建立文本内容的烦引，然后searchd��Z��q�些索引提供文本搜烦功能�Q�而要使用该功能，可以遵��@searchd的网�l�协议连接searchd�q�个服务来��用�?/p>
indexer可以通过多种方式来获取这些文本内容，文本内容的来源称为数据源。sphinx内置mysql�q�种数据源，意思是可以直接从mysql数据库中取得数据。sphinx�q�支持xmlpipe2�q�种数据源，其数据以xml格式提供�l�indexer。要导入mongodb数据库里的内容，可以选择使用xmlpipe2�q�种方式�?/p>

sphinx document

xmlpipe2数据源需要按照以下格式提交：


    
        
        
        
        
    
    
        this is the subject
        file content
        111

该文件包含两大部分：schema�?code>documents�Q�其�?code>schema又包含两部分�Q?code>field�?code>attr�Q�其中由field标识的字�D�就会被indexer��d��q�全部作��入文本徏立烦引，�?code>attr则标识查询结果需要附带的信息�Q?code>documents则是�׃��个个sphinx:document�l�成�Q�即indexer真正要处理的数据。注意其中被schema引用的属性名�?/p>

document一个很重要的属性就是它的id。这个id对应于sphinx需要唯一�Q�查询结果也会包含此id。一般情况下�Q�此id可以直接是数据库主键�Q�可用于查询到详�l�信息。searchd搜烦关键字，其实可以看作为搜索这些document�Q�搜索出来的�l�果也是�q�些document�Q�搜索结果中主要包含schema中指定的attr�?/p>

增量索引

数据源的数据一般是变化的，新增的数据要加入到sphinx索引文�g中，才能使得searchd搜烦到新录入的数据。要不断地加入新数据�Q�可以��用增量烦引机制。增量烦引机制中�Q�需要一个主索引和一个次索引(delta index)。每�ơ新增的数据都徏立�ؓ�ơ烦引，然后一�D�|��间后再合�q�进�ȝ��引。这个过�E�主要还是��用indexer和searchd�E�序。实际上�Q�searchd是一个需要一直运行的服务�Q�而indexer则是一个徏立完索引��退出的工具�E�序。所以，�q�里的增量烦引机�Ӟ��其中涉及到的“每隔一定时间就合�ƈ”�q�种工作�Q�需要自己写�E�序来协调（或通过其他工具�Q?/p>

sphinx与mongodb

上面提到�Q�一般sphinx document的id都是使用的数据库主键�Q�以方便查询。但mongodb中默认情况不使用数字作�ؓ主键。dhtcrawler的资源数据库使用的是资源info-hash作�ؓ主键�Q�这无法作�ؓsphinx document的id。一�U�解军_��法是�Q�将该hash按位拆分�Q�拆分成若干个sphinx document attr支持位数的整数。例如，info-hash是一�?60位的id�Q�如果��?2位的attr�Q�高版本的sphinx支持64位的整数�Q�，那么可以把该info-hash按位拆分�?个attr。而sphinx document id则可以��用�Q意数字，只要保证不冲�H�就行。当获得查询�l�果�Ӟ��取得对应的attr�Q�组合�ؓinfo-hash卛_��?/p>

mongodb默认的Object id也可以按�q�种方式拆分�?/p>

dhtcrawler2与sphinx

dhtcrawler2中我自己写了一个导入程序。该�E�序从mongodb中读出数据，数据��C��定量�Ӟ��p��Zؓxmlpipe2格式的xml文�g�Q�然后徏立�ؓ�ơ烦引，最后合�q�进�ȝ��引。过�E�很��单，包含两次启动外部�q�程的工作，�q�个可以通过erlang中os:cmd完成�?/p>

值得注意的是�Q�在从mongodb中读数据�Ӟ��使用skip基本是不靠谱的，skip 100万个数据需要好几分钟，��Z��不增加额外的索引字段�Q�我只好�?code>created_at字段上加索引�Q�然后按旉��D�|��d��资源�Q�这一切都是�ؓ了支持程序关闭重启后�Q�可以��l�上�ơ工作，而不是重头再来�?00万的数据�Q�已�l�处理了好几天了�?/p>

后头数据建立好了�Q�需要在前台展示出来。erlang中似乎只有一个sphinx客户端库�Q?a >giza。这个库有点老，写成的时候貌��D��在��用sphinx0.9版本。其中查询代码包含了版本判定�Q�已�l�无法在我��用的sphinx2.x版本中��用。无奈之下我只好修改了这个库的源码，�q�运的是查询功能居然是正常的�Q�意味着sphinx若干个版本了也没改动通信协议�Q�后来，我�ؓ了取得查询的�l�计信息�Q�例如消耗时间以及�ȝ��果，我再一�ơ修改了giza的源码。新的版本可以在我的github上找刎ͼ�my giza�Q�看��h��我没�늊�版本协议吧？

目前dhtcrawler的搜

xml unicode

在导入xml到sphi



 原文地址�Q?  nx的烦引过�E�中�Q�本�w�我输出的内定w��是unicode的，但有很多资源会导致indexer解析xml出错。出错后indexer直接停止对当前xml的处理。后来查阅资料发现是因�ؓ�q�些无法被indexer处理的xml内容包含unicode里的控制字符�Q�例�?ä (U+00E4)。我的解军_��法是直接�q���o掉这些控制字�W�。unicode的控制字�W�参�?a >UTF-8 encoding table and Unicode characters。在erlang中干�q�个事居然不复杂�Q?/p> class="highlight"> id="hvzpftn"    class="nf">strip_invalid_unicode(<<>>) -> class="o"><<>>; class="nf">strip_invalid_unicode(<<C/utf8, R/binary>>) -> class="k">case is_valid_unicode(C) of class="n">true -> class="nv">RR = strip_invalid_unicode(R), class="o"><<C/utf8, RR/binary>>; class="n">false -> class="n">strip_invalid_unicode(R) class="k">end; class="nf">strip_invalid_unicode(<<_, R/binary>>) -> class="n">strip_invalid_unicode(R). class="nf">is_valid_unicode(C) when C < 16#20 -> class="n">false; class="nf">is_valid_unicode(C) when C >= 16#7f, C =< 16#ff -> class="n">false; class="nf">is_valid_unicode(_) -> class="n">true. >http://codemacro.com/2013/08/08/sphinx-dhtcrawler/
 by Kevin Lynx at http://codemacro.com



Kevin Lynx 2013-08-08 23:04 发表评论


���力搜烦�W�二�?dhtcrawler2
Kevin Lynx — Sat, 20 Jul 2013 08:37:00 GMT


�?a >上篇�?/p>

下蝲使用

目前为止dhtcrawler2相对dhtcrawler而言�Q�数据库部分调整很大�Q�DHT部分基本沿用之前。但单纯作�ؓ一个爬资源的程序而言�Q�DHT部分可以�q�行大幅削减�Q�这个以后再说。这个版本更快、更�E�_��。�ؓ了方便，我将�~�译好的erlang二进制文件作为git的主分支�Q�我�q�添加了一些Windows下的批处理脚本，��M��基本上下载源码以后即可运行�?/p>

��目地址�Q?a >https://github.com/kevinlynx/dhtcrawler2

使用�Ҏ��


下蝲erlang�Q�我���试的是R16B版本�Q�确保erl�{�程序被加入Path环境变量

下蝲mongodb�Q�解压即用：

  mongod --dbpath xxx --setParameter textSearchEnabled=true



下蝲dhtcrawler2

  git clone https://github.com/kevinlynx/dhtcrawler2.git


�q�行win_start_crawler.bat
�q�行win_start_hash.bat

�q�行win_start_http.bat

打开localhost:8000查看stats


爬虫每次�q�行都会保存DHT节点状态，早期�q�行的时候收集速度会不够。dhtcrawler2���程序分�?部分�Q?/p>


crawler�Q�即DHT爬虫部分�Q�仅负责攉���hash
hash�Q�准���来讲叫hash reader�Q�处理爬虫收集的hash�Q�处理过�E�主要涉及到下蝲�U�子文�g
http�Q���用hash处理出来的数据库�Q�以作�ؓWeb端接�?/li>

我没有服务器�Q�但�E�序有被部��v在别人的服务器上�Q?a >bt.cm�Q?a >http://222.175.114.126:8000/�?/p>




其他工具

��Z��提高资源索引速度�Q�我陆箋写了一些工��P��包括�Q?/p>


import_tors�Q�用于导入本地种子文件到数据�?/li>
tor_cache�Q�用于下载种子到本地�Q�仅仅提供下载的功能�Q�hash_reader在需要种子文件时�Q�可以先从本地取
cache_indexer�Q�目前hash_reader取种子都是从torrage.com之类的种子缓存站点取�Q�这些站�Ҏ��供了�U�子列表�Q�cache_indexer���这些列表导入数据库�Q�hash_reader在请求种子文件前可以通过该数据库���查torrage.com上有无此�U�子�Q�从而减���多余的http��h��

�q�些工具的代码都被放在dhtcrawler2中，可以查看对应的启动脚本来查看具体如何启动�?/p>

OS/Database

�Ҏ��实际的测试效果来看，当收集的资源量过百万�Ӟ��目前bt.cm录入�q?60万资源）�Q?G内存的Windows�q�_���Q�mongodb很容易就会挂掉。挂掉的原因全是1455�Q�页面文件太���。有人徏议不要在Windows下��用mongodb�Q�Linux下我自己没做�q�测试�?/p>

mongodb可以部��v为集����Ş�?replica-set)�Q�当初我��x��http部分的查询放在一个只�ȝ��mongodb实例上，但因为徏立集���时�Q�要同步已有�?0G数据库，而每�ơ同步都以mongodb挂掉�l�束�Q�遂攑ּ�。在目前bt.cm的配�|�中�Q�数据库torrent的锁比例�Q�db lock�Q�很�Ҏ���?0%�Q�这也让http在搜索时�Q�经常出现搜索超时的情况�?/p>

技术信�?/h2>

dhtcrawler最早的版本有很多问题，修复�q�的最大的一个问题是关于erlang定时器的�Q�在DHT实现中，需要对每个节点每个peer做超时处理，在erlang中的做法直接是针�Ҏ��个节�Ҏ��册了一个定时器。这不是问题�Q�问题在于定时器资源���像没有GC的内存资源一��P��是会�׃���E�序员的代码问题而出现资源泄漏。所以，dhtcrawler�W�一个版本在节点数配�|�在100以上的情况下�Q�用不了多久��׃��内存耗尽�Q�最�l�导致erlang虚拟机core dump�?/p>

除了�q�个问题以外�Q�dhtcrawler的资源收录速度也不是很快。这当然跟数据库和获取种子的速度有直接关�p�R��尤其是获取�U�子�Q���用的是一些提供info-hash到种子映���的�|�站�Q�通过HTTP��h��来下载种子文件。我以�ؓ通过BT协议直接下蝲�U�子会快些，�q�且实时性也要高很多�Q�因�����个种子可能未被这些缓存网站收录，但却可以直接向对方请求得到。�ؓ此，我还特地���阅了相�?a >协议�Q��ƈ且用erlang实现了（以后的文章我会讲到具体实现这个协议）�?/p>

后来我怀疑get_peers的数量会不会比announce_peer多，但是理论上一般的客户端在get_peers之后都是announce_peer�Q�但是如果get_peers查询的peers恰好不在�U�呢�Q�这意味着很多资源虽然已经存在�Q�只不过你恰好暂时请求不到。实际测试时�Q�发现get_peers基本是announce_peer数量�?0倍�?/p>

���hash的获取方式做了调整后�Q�dhtcrawler在几分钟以内以几乎每�U�上百个新增�U�子的速度工作。然后，�E�序挂掉�?/p>

从dhtcrawler��C��天�ؓ止的dhtcrawler2�Q�中间间隔了刚好1个月。我的所有业余时间全部扑在这个项目上�Q�面临的问题一直都是程序的内存泄漏、资源收录的速度不够快，到后来又变�ؓ数据库压力过大。每一天我都以为我���会完成一个稳定版本，然后�l�于可以��d��点别的事情，但��L���q�不完，目前完没完都�q�在观察。我始终明白在做优化前需要进行详���的数据攉���和分析，从而真正地优化到正���的点上�Q�但也��L��凭直觉和���量数据分析���开始尝试�?/p>

�q�里谈谈遇到的一些问题�?/p>

erlang call timeout

最开始遇到erlang�?code>gen_server:call出现timeout错误�Ӟ��我还一直以为是�q�程死锁了。相关代码读来读去，实在觉得不可能发生死锁。后来发玎ͼ�当erlang虚拟机压力上��d��Q�例如内存太大，但没大到耗尽�pȝ��所有内存（耗进所有内存基本就core dump了）�Q�进�E�间的调用就会出现timeout�?/p>

当然�Q�内存占用过大可能只是表象。其�q�程�q�多�Q�进�E�消息队列太长，也许才是��D��出现timeout的根本原因。消息队列过长，也可能是�׃��发生�?em>消息泄漏的缘故。消息泄漏我指的是这样一�U�情况，�q�程自己�l�自己发消息�Q�当然是cast或info�Q�，�q�个消息被处理时又会发送相同的消息�Q�正常情况下�Q�gen_server处理了一个该消息�Q�就会从消息队列里移除它�Q�然后再发送相同的消息�Q�这不会出问题。但是当�E�序逻辑出问题，每次处理该消息时�Q�都会发生多余一个的同类消息�Q�那消息队列自然��׃��一直增�ѝ�?/p>

保持�q�程逻辑��单，以避免这�U�逻辑错误�?/p>

erlang gb_trees

我在不少的地方��用了gb_trees�Q�dht_crawler里就可能出现gb_trees:get(xxx, nil)�q�种错误。乍一看，我以为我真的传入了一�?code>nil��D��厅R��然后我苦看代码�Q�以为在某个地方我会把这个gb_trees对象�Ҏ��了nil。但事情不是�q�样的，gb_tress使用一个tuple作�ؓtree的节点，当某个节�Ҏ��有子节点�Ӟ��׃��以nil表示�?/p>

gb_trees:get(xxx, nil)�c�M��的错误，实际指的�?code>xxx没有在这个gb_trees中找到�?/p>

erlang httpc

dht_crawler通过http协议从torrage.com之类的缓存网站下载种子。最开始我��Z��量��依赖第三方库，使用的是erlang自带的httpc。后来发现程序有内存泄漏�Q�google发现erlang自带的httpc早�ؓ��病，当然也有大神说在某个版本之后�q�个httpc已经很不错。�ؓ了省事，我直接换了ibrowse�Q�替换之后正常很多。但是由于没有具体分析测试过�Q�加之时间有点远了，我也��C��太清�l�节。因为早期的http��h��部分�Q�没有做数量限制�Q�也可能是由于我的��用导致的问题�?/p>

某个版本后，我才��http部分严格��C��hash处理部分区分开来。相较数据库操作而言�Q�http��h��部分慢了若干数量�U�。在hash_reader中将�q�两块分开�Q�严格限制了提交�l�httpc的请求数�Q�以获得�E�_��性�?/p>

对于一个复杂的�|�络�pȝ��而言�Q�分清哪些是耗时的哪些是不大耗时的，才可能获得性能的提升。对于hash_reader而言�Q�处理一个hash的速度�Q�虽然很大程度取决于数据库，但相较http��h��Q�已�l�快很多。它在处理这些hash�Ӟ��会将数据库已收录的资源和待下载的资源分离开�Q�以��快的速度处理已存在的�Q�而将待下载的处理速度交给httpc的响应速度�?/p>

erlang httpc ssl

ibrowse处理https��h��Ӟ��默认和erlang自带的httpc使用相同的SSL实现。这�l�常��D��出现tls_connection�q�程挂掉的错误，具体原因不明�?/p>

erlang调试

首先合理的日志是��M��pȝ��调试的必备�?/p>

我面临的大部分问题都是内存泄漏相养I��所以依赖的erlang工具也是和内存相关的�Q?/p>

使用etop�Q�可以检查内存占用多的进�E�、消息队列大的进�E�、CPU消耗多的进�E�等�{�：
```
  spawn(fun() -> etop:start([{output, text}, {interval, 10}, {lines, 20}, {sort, msg_q }]) end).
```
使用erlang:system_info(allocated_areas).��查内存��用情况，其中会输出系�l?code>timer数量
使用erlang:process_info查看某个具体的进�E�，�q�个甚至会输出消息队列里的消�?/li>

hash_writer/crawler

crawler本��n仅收集hash�Q�然后写入数据库�Q�所以可以称crawler为hash_writer。这些hash里存在大量的重复。hash_reader从数据库里取��些hash然后做处理。处理过�E�会首先判定该hash对应的资源是否被收录�Q�没有收录就先通过http获取�U�子�?/p>

在某个版本之后，crawler会简单地预先处理�q�些hash。它�~�存一定数量的hash�Q�接收到新hash�Ӟ��合�q�到hash�~�存里，以保证缓存里没有重复的hash。这个重复率�l�过实际数据分析�Q�大概是50%左右�Q�即收到�?00个请求里�Q�有50个是重复的。这��L��优化�Q�不仅会降低hash数据库的压力�Q�hash_reader处理的hash数量��了�Q�也会对torrent数据库有很大提升�?/p>

当然�q�一步的�Ҏ��可以��crawler和hash_reader之间交互的这些hash直接攑֜�内存中处理，省去中间数据库。但是由于mongodb大量使用虚拟内存的缘故（内存映射文�g�Q�，�l�常��D��服务器内存不够（4G�Q�，内存也就成了珍稀资源。当然这个方案还有个弊端是难以权衡hash�~�存的管理。crawler收到hash是一个不�E�_��的过�E�，在某些时间点�q�些hash可能爆多�Q�而hash_reader处理hash的速度也会不太�E�_��Q�受限于收到的hash�c�d��Q�是新增资源�q�是已存在资源）、种子请求速度、是否有效等�?/p>

当然�Q�也可以限制�~�存大小�Q�以及对hash_reader/crawler处理速度建立关系来解册��些问题。但另一斚w��Q�这里的优化是否对目前的�pȝ��有提升，是否是目前系�l�面临的最大问题，却是需要考究的事情�?/p>

cache indexer

dht_crawler是从torrage.com�{�网站获取种子文�Ӟ��q�些�|�站看�v来都是��用了相同的接口，光��有一个sync目录�Q�里面存放了每天每个月烦引的�U�子hash�Q�例�?http://torrage.com/sync/。这个网站上是否有某个hash对应的种子，��可以从�q�些索引中检查�?/p>

hash_reader在处理新资源�Ӟ��h��U�子的过�E�中发现大部分在�q�些服务器上都没有找刎ͼ�也就是发��L��很多http��h��都是404回应�Q�这不但降低了系�l�的处理能力、带宽，也降低了索引速度。所以我写了一个工��P��先手工将sync目录下的所有文件下载到本地�Q�然后通过�q�个工具 (cache indexer) ��这些烦引文仉��的hash全部导入数据库。在以后的运行过�E�中�Q�该工具仅下载当天的索引文�g�Q�以更新数据库�?hash_reader �Ҏ��配置�Q�会首先��查某个hash是否存在该数据库中，存在的hash才可能在torrage.com上下载得到�?/p>

�U�子�~�存

hash_reader可以通过配置�Q�将下蝲得到的种子保存在本地文�g�pȝ��或数据库中。这可以建立自己的种子缓存，但保存在数据库中会对数据库造成压力�Q�尤其在当前��试服务器硬件环境下�Q�而保存�ؓ本地文�g�Q�又特别占用��盘�I�间�?/p>

��Z��BT协议的种子下�?/h3>
通过http从种子缓存里取种子文�Ӟ��可能会没有直接从P2P�|�络里取更实时。目前还没来得及查看�q�些�U�子�~�存�|�站的实现原理。但是通过BT协议获取�U�子会有炚w��烦，因�ؓdht_crawler是根�?code>get_peer��h��索引资源的，所以如果要通过BT协议取种子，那么�q�里�q�得去DHT�|�络里查询该�U�子�Q�这个查询过�E�可能会较长�Q�相比之下会没有http下蝲快。而如果通过`announce_peer`来烦引新资源的话�Q�其索引速度会大大降低，因�ؓ`announce_peer`��h��?code>get_peer��h��很多，几乎10倍�?/p>
所以，�q�里的方案可能会�l�合两者，新开一个服务，建立自己的种子缓存�?/p>

中文分词

mongodb的全文烦引是不支持中文的。我在之前提刎ͼ��Z��支持搜烦中文�Q�我��字�W�串拆成了若�q�子丌Ӏ�这��L��后果��是字符串烦引会�E�稍偏大�Q�而且目前�q�一块的代码�q�特别简单，会将很多非文字字�W�也��在内。后来我加了个中文分词库�Q��用的是rmmseg-cpp。我��其C++部分抽离出来�~�译成erlang nif�Q�这可以在我的github上找到�?/p>

但是�q�个库拆分中文句子依赖于词库�Q�而这个词库不太新�Q�dhtcrawler爬到的大部分资源�c�d��你们也懂�Q�那些词汇拆出来的比率不太高�Q�这会导致搜索出来的�l�果没你想的那么直白。当然更新词库应该是可以解决�q�个问题的，目前�q�没有时间顾�q�一块�?/p>

�ȝ��

一个老外�Ҏ��说过�Q?#8221;i have 2 children to feed, so i will not do this only for fun”�?/p>

你的大部分编�E�知识来源于�|�络�Q�所以稍�E�回馈一下不会让你丢了饭��?/p>

我很�I�P��如果你能让我收获金钱和编�E�成��，�q�不会嫌我穿得太邋遢�Q�that’s really kind of you�?/p>

Kevin Lynx 2013-07-20 16:37 发表评论

使用erlang实现P2P��力搜烦-实现

Kevin Lynx — Thu, 20 Jun 2013 12:40:00 GMT

�?a >上篇�Q�本��谈谈一些实现细节�?/p>

�q�个爬虫�E�序主要的问题在于如何获取P2P�|�络中分享的资源�Q�获取到资源后烦引到数据库中�Q�搜索就是自然而然的事情�?/p>

DHT

DHT�|�络本质上是一个用于查询的�|�络�Q�其用于查询一个资源有哪些计算机正在下载。每个资源都有一�?0字节长度的ID用于标示�Q�称为infohash。当一个程序作为DHT节点加入�q�个�|�络�Ӟ��׃��有其他节�Ҏ��向你查询�Q�当你做出回应后�Q�对方就会记录下你。对方还会询问其他节点，当对方开始下载这个infohash对应的资源时�Q�他��׃��告诉所有曾�l�询问过的节点，包括你。这个时候就可以��定�Q�这个infohash对应的资源在�q�个�|�络中是有效的�?/p>

关于�q�个�|�络的工作原理，参看�Q?a >P2P中DHT�|�络爬虫以及写了个磁力搜索的�|�页�?/p>

获取到infohash后能做什么？关键点在于，我们现在使用的磁力链�?magnet url)�Q�是和infohash对应��h��的。也��是拿到infohash�Q�就�{�于拿到一个磁力链接。但是这个爬虫还需要徏立资源的信息�Q�这些信息来源于�U�子文�g。种子文件其实也是对应到一个资源，�U�子文�g包含资源名、描�q�、文件列表、文件大��等信息。获取到infohash�Ӟ��其实也获取到了对应的计算机地址�Q�我们可以在�q�些计算��Z��下蝲到对应的�U�子文�g�?/p>

但是我�ؓ了简单，在获取到infohash后，从一些提供映��磁力链到种子文件服务的�|�站上直接下载了对应的种子。dhtcrawler里��用了以下�|�站�Q?/p>

http://torrage.com
https://zoink.it
http://bt.box.n0808.com

使用�q�些�|�站�Ӟ��需提供��力哈希�Q�infohash可直接�{换）�Q�构建特定的URL�Q�发出HTTP��h��卛_��?/p>

   U1 = "http://torrage.com/torrent/" ++ MagHash ++ ".torrent",
    U2 = "https://zoink.it/torrent/" ++ MagHash ++ ".torrent",
    U3 = format_btbox_url(MagHash),

format_btbox_url(MagHash) ->
    H = lists:sublist(MagHash, 2),
    T = lists:nthtail(38, MagHash),
    "http://bt.box.n0808.com/" ++ H ++ "/" ++ T ++ "/" ++ MagHash ++ ".torrent".

但是�Q�以一个节点的�w�䆾加入DHT�|�络�Q�是无法获取大量查询的。在DHT�|�络中，每个节点都有一个ID。每个节点在查询信息�Ӟ��仅询问离信息较近的节炏V��这里的信息除了infohash外还包含节点�Q�即节点询问一个节点，�q�个节点在哪里。DHT的典型实��C��Q�Kademlia�Q�，使用两个ID的xor操作来确定距��R��既然距��ȝ��计算是基于ID的，��Z��可能获取整个DHT�|�络交换的信息，爬虫�E�序��可以徏立尽可能多的DHT节点�Q�让�q�些节点的ID均匀地分布在ID取值区间内�Q�以�q�样的方式加入网�l��?/p>

在dhtcrawler中，我��用以下方式��生了N个大致均匀分布的ID�Q?/p>

create_discrete_ids(1) ->
    [dht_id:random()];
create_discrete_ids(Count) ->
    Max = dht_id:max(),
    Piece = Max div Count,
    [random:uniform(Piece) + Index * Piece || Index <- lists:seq(0, Count - 1)].

除了��可能多地往DHT�|�络里部�|�节点之外，对单个节点而言�Q�也有些注意事项。例如应��可能快地将自己告诉��可能多的节点，�q�可以在启动时进行大量的随机infohash的查询。随着查询�q�程的深入，该节点会与更多的节点打交道。因为DHT�|�络里的节点实际上是不稳定的�Q�它今天在线�Q�明天后天可能不在线�Q�所以计��你的ID固定�Q�哪些节点与你较�q�，本��n��是个相�Ҏ��c��节点在�E�序退出时�Q�也最好将自己的�\�׃��息（与自�׃��互的节点列表�Q�保存�v来，�q�样下次启动时就可以更快地加入网�l��?/p>

在dhtcrawler的实��C��Q�每个节�Ҏ��个一定时��_��都会向网�l�中随机查询一个infohash�Q�这个infohash是随��Z�生的。其查询目的不在于infohash�Q�而在于告诉更多的节点�Q�以及在其他节点上保持自��q��z�跃�?/p>

handle_event(startup, {MyID}) ->
    timer:apply_interval(?QUERY_INTERVAL, ?MODULE, start_tell_more_nodes, [MyID]).

start_tell_more_nodes(MyID) ->
    spawn(?MODULE, tell_more_nodes, [MyID]).

tell_more_nodes(MyID) ->
    [search:get_peers(MyID, dht_id:random()) || _ <- lists:seq(1, 3)].

DHT节点的完整实现是比较�J�琐的，涉及到查询以及繁杂的各种对象的超�Ӟ��节点、桶、infohash�Q�，而超时的处理�q�不是粗暴地做删除操作。因为本�w�是��Z��UDP协议�Q�你得对�q�些��时对象做进一步的查询才能正确地进一步做其他事情。而搜索也是个�J�杂的事情，递归地查询节点，感觉上，你不一定离目标��来��近�Q�由于被查询节点的不��定性（无法��定�Ҏ��是否在玩弄你�Q�或者本�w�对方就是个傻��|��Q�你很可能接下来要查询的节点反而离目标变远了�?/p>

在我�W�一�ơ的DHT实现中，我��用了�c�M��transmission里DHT实现的方法，不断无脑递归�Q�当搜烦有太久时间没得到响应后终止搜索。第二次实现�Ӟ��我就使用了etorrent里的实现。这个搜索更聪明�Q�它记录搜烦�q�的节点�Q��ƈ且检查是否离目标��来��远。当�q�离目标�Ӟ��p��为搜索是不太有效的，不太有效的搜索尝试几�ơ就可以攑ּ��?/p>

实际上，爬虫的实现�ƈ不需要完整地实现DHT节点的正常功能�?strong>爬虫作�ؓ一个DHT节点的唯一动机仅是获取�|�络里其他节点的查询。而要完成�q�个功能�Q�你只需要装得像个正�思h��p��。这里不需要保存infohash对应的peer列表�Q�面临每一�ơ查询，你随便回复几个节点地址��可以。但是这里有个责任问题，如果整个DHT�|�络�?000个节点，而你�q�个爬虫��有1000个节点，那么你的随意回复�Q�就可能��D��Ҏ��Ҏ��找不到正��的信息�Q�这样你依然得不到有效的资源。（可以利用�q�一点破坏DHT�|�络�Q?/p>

DHT的实现没有��用第三方库�?/p>

�U�子

�U�子文�g的格式同DHT�|�络消息格式一��P��使用一�U�称为bencode的文本格式来�~�码。种子文件分��Z��c�：单个文�g和多个文件�?/p>

文�g的信息无非就是文件名、大��。文件名可能包含utf8�~�码的名字，��Z��后面处理的方便，dhtcrawler都会优先使用utf8�~�码�?/p>

   {ok, {dict, Info}} = dict:find(<<"info">>, TD),
    case type(Info) of
        single -> {single, parse_single(Info)};
        multi -> {multi, parse_multi(Info)}
    end.
parse_single(Info) ->
    Name = read_string("name", Info),
    {ok, Length} = dict:find(<<"length">>, Info),
    {Name, Length}.

parse_multi(Info) ->
    Root = read_string("name", Info),
    {ok, {list, Files}} = dict:find(<<"files">>, Info),
    FileInfo = [parse_file_item(Item) || {dict, Item} <- Files],
    {Root, FileInfo}.

数据�?/h2>

我最开始在选用数据库时�Q��ؓ了不使用�W�三方库�Q�打��用erlang自带的mnesia。但是因为涉及到字符串匹配搜索，mnesia的查询语句在我看来太不友好，在经�q�一些资料查阅后��q��接放弃了�?/p>

然后我打��用couchdb�Q�因为它是erlang写的�Q�而我正在用erlang写程序。第一�ơ接触非关系型数据库�Q�发现NoSQL数据库��用�v来比SQL�cȝ��单多了。但是在erlang里要使用couchdb实在太折腾了。我使用的客��L��库是couchbeam�?/p>

因�ؓcouchdb暴露的API都是��Z��HTTP协议的，其数据格式��用了json�Q�所以couchbeam实际上就是对各种HTTP��h��、回应和json的包装。但是它竟然使用了ibrowse�q�个�W�三方HTTP客户端库�Q�而不是erlang自带的。ibrowse又��用了jiffy�q�个解析json的库。这个库更惨烈的是它的解析工作都是交�l�C语言写的动态库来完成，我还得编译那个C库�?/p>

couchdb看�v来不支持字符串查询，我得自己创徏一个view�Q�这个view里我通过��阅了一些资料写了一个将每个doc的name拆分成若�q�次查询�l�果的map。这个map在处理每一�ơ查询时�Q�我都得动态更��C��。couchdb是不支持局部更新的�Q�这�q�不��大问题。然后很高兴�Q�终于支持字�W�串查询了。这里的字符串查询都是基于字�W�串的子串查询。但是问题在于，太慢了。每一�ơ在WEB端的查询�Q�都直接��D��erlang�q�程的call��时�?/p>

要让couchdb支持字符串查询，要快速，当然是有解决�Ҏ��的。但是这个时候我已经没有心思��l�折腾，��M��一个库、程序如果接口设计得如此不方便，那就可以考虑换一个其他的�?/p>

我选择了mongodb。同��L��Z��文��的数据库�?.4版本�q�支持全文搜索。什么是全文搜烦呢，�q�是一�U�基于单词的全文搜烦方式�?code>hello world我可以搜�?code>hello�Q�基于单词。mongodb会自动拆词。更关键更让人爽的是�Q�要开启这个功能非常简单：讄��启动参数、徏立烦引。没了。mongodb的erlang客户端库mongodb-erlang也只依赖一个bson-erlang库。然后我又埋头苦�qԌ��几个��时候我的这个爬虫程序就可以在浏览器端搜索关键字了�?/p>

后来我发玎ͼ�mongodb的全文搜索是不支持中文的。因为它�q�不知道中文该怎么拆词。恰好我有个同事做过中文拆词的研�IӞ��看�v来涉及到很复杂的��法。直到这个时候，我他妈才醒悟�Q�我��Z��么需要基于单词的搜烦。我们大部分的搜索其实都是基于子字符串的搜烦�?/p>

于是�Q�我��种子文件的名字拆分成了若干个子字符�Ԍ��这些子字符串以数组的�Ş式作为种子文��的一个键值存储，而我依然�q�可以��用全文烦引，因�ؓ全文索引会将整个字符串作为单词比较。实际上�Q�基于一般的查询方式也是可以的。当�Ӟ��索引�q�是得徏立�?/p>

使用mongodb时唯一让我很不爽的是mongodb-erlang�q�个客户端库的文��太�Ơ缺。这�q�不��大问题�Q�因为看看源码参数还是可以大概猜到用法。真正悲剧的是mongodb的有些查询功能它是不支持的。例如通过cursor来排序来限制数量。在cursor模块�q�没有对应的mongodb接口。最�l�我只好通过以下方式查询�Q�我不明白batchsize�Q�但它可以工作：

search_announce_top(Conn, Count) ->
    Sel = {'$query', {}, '$orderby', {announce, -1}},
    List = mongo_do(Conn, fun() ->
        Cursor = mongo:find(?COLLNAME, Sel, [], 0, Count), 
        mongo_cursor:rest(Cursor)
    end),
    [decode_torrent_item(Item) || Item <- List].

另一个悲剧的是，mongodb-erlang�q�不支持文��的局部更斎ͼ�它的update接口直接要求传入整个文档。几�l�折腾，我可以通过runCommand来完成：

inc_announce(Conn, Hash) when is_list(Hash) ->
    Cmd = {findAndModify, ?COLLNAME, query, {'_id', list_to_binary(Hash)}, 
        update, {'$inc', {announce, 1}},
        new, true},
    Ret = mongo_do(Conn, fun() ->
        mongo:command(Cmd)
    end).

Unicode

不知道在哪里我看到过erlang说自己其实是不需要支持unicode的，因�ؓ�q�门语言本��n是通过list来模拟字�W�串。对于unicode而言�Q�对应的list保存的本�w�就是整数倹{��但是�ؓ了方便处理，erlang�q�是提供了一些unicode操作的接口�?/p>

因�ؓ我需要将�U�子的名字按字拆分，对于a中文�q�样的字�W�串而言�Q�我需要拆分成以下�l�果�Q?/p>

a
a�?
a中文
�?
中文
�?

那么�Q�在erlang中当我获取到一个字�W�串list�Ӟ��我就需要知道哪几个整数合�v来实际上对应着一个汉字。erlang里unicode模块里有几个函数可以��unicode字符串list对应的整数合��h��Q�例如：[111, 222, 333]可能表示的是一个汉字，��其转换以下可得�?code>[111222333]�q�样的�Ş式�?/p>

split(Str) when is_list(Str) ->
    B = list_to_binary(Str), % 必须转换为binary
    case unicode:characters_to_list(B) of
        {error, L, D} ->
            {error, L, D};
        {incomplete, L, D} ->
            {incomplete, L, D};
        UL ->
        {ok, subsplit(UL)}
    end.

subsplit([]) ->
    [];

subsplit(L) ->
    [_|R] = L,
    {PreL, _} = lists:splitwith(fun(Ch) -> not is_spliter(Ch) end, L),
    [unicode:characters_to_binary(lists:sublist(PreL, Len)) 
        || Len <- lists:seq(1, length(PreL))] ++ subsplit(R).

除了�q�里的拆字之外，URL的编码、数据库的存储都�q�好�Q�没遇到问题�?/p>

注意�Q�以上针�Ҏ��据库本��n的吐槽，完全��Z��我不熟悉该数据库的情况下�Q�不��作�ؓ你工具选择的参考�?/p>

erlang的稳定�?/h2>
都说可以用erlang来编写高定w��的服务器�E�序。看看它的supervisor�Q�监视子�q�程�Q�自动重启子�q�程。天生的定w��功能�Q�就��你宕个几次�Q�单个进�E�自动重启，整个�E�序看�v来还�E�_��地在�q�行�Q�多牛逼啊。再看看erlang的进�E�，轻量�U�的语言�Ҏ��，��像OOP语言里的一个对象一栯��量。如果说使用OOP语言写程序得think in object�Q�那用erlang你就得think in process�Q�多牛逼多骇�h啊�?/p>
实际上，以我的经验来看，你还得以传统的思维�ȝ��待erlang的进�E�。一些多�U�程�E�序里的问题�Q�在erlang的进�E�环境中依然存在�Q�例如死锁�?/p>
在erlang中，对于一些异步操作，你可以通过�q�程间的交互��这个操作包装成同步接口�Q�例如ping的实玎ͼ�可以�{�到�Ҏ��回应之后再返回。被��d��的进�E�反正很轻量�Q�其包含的逻辑很单一。这不但是一�U�良好的包装�Q�甚臛_��以说是一�U�erlang-style。但�q�很�Ҏ��带来死锁。在最开始的时候我没有注意�q�个问题�Q�当爬虫节点��C��升的时候，�|�络数据复杂的时候，��g��出��C��死锁型宕机（�q�程互相�{�待太久�Q�直接timeout�Q��?/p>
另一个容易在多进�E�环境下出现的问题就是消息依赖的上下文改变问题。当投递一个消息到某个�q�程�Q�到�q�个消息被处理之前，�q�段旉��q�个消息兌��的逻辑�q�算所依赖的上下文环境改变了，例如某个ets元素不见了，在处理这个消息时�Q�你�q�得以多�U�程�~�程的思维来编写代码�?/p>
至于supervisor�Q�这玩意你得端正态度。它不是用来包容你的傻逼错误的。当你写下傻��g��码导致进�E�频�J�崩溃的时候，supervisor屁用没有。supervisor的唯一作用�Q�仅仅是在一个确实本�w�可靠的�pȝ��Q�确实�h品问题万分之一崩溃了，重启它。毕竟，一个重启频率的推荐��|��是一个小�?�ơ�?/p>
原文地址�Q? http://codemacro.com/2013/06/21/magnet-search-impl/
written by Kevin Lynx posted at http://codemacro.com

Kevin Lynx 2013-06-20 20:40 发表评论

使用erlang实现P2P��力搜烦(开�?

Kevin Lynx — Thu, 20 Jun 2013 06:44:00 GMT

接上回对DHT�|�络的研�I?/a>�Q�我用erlang克隆了一�?a >��力搜烦引擎。我�q�个实现包含了完整的功能�Q�DHT�|�络的加入、infohash的接收、种子的获取、资源信息的索引、搜索�?/p>

如下图：

在我的笔记本上，我开启了100个DHT节点�Q�大致均匀地分布在DHT�|�络里，资源索引速度大概�?��时一万个左右�Q�包含重复资源）�?/p>

�q�个�E�序包含三大部分�Q?/p>

DHT实现�Q�kdht�Q?a >https://github.com/kevinlynx/kdht
��Z��该DHT实现的搜索引擎，dhtcrawler�Q?a >https://github.com/kevinlynx/dhtcrawler�Q�该��目包含爬虫部分和一个简单的WEB�?/li>

�q�两个项目��d��包含大概2500行的erlang代码。其中，DHT实现部分��DHT�|�络的加入包装成一个库�Q�爬虫部分在搜烦�U�子�Ӟ��暂时没有使用P2P里的�U�子下蝲方式�Q�而是使用现成的磁力链转种子的�|�站服务�Q�这��h��只需要��用erlang自带的HTTP客户端就可以获取�U�子信息。爬虫在获取到种子信息后�Q�将数据存储到mongodb里。WEB端我��Z��量��用�W�三方库�Q�我只好使用erlang自带的HTTP服务器，因此�|�页内容的创建没有模板系�l�可用，只好通过字符串构建，�~�写��h��不太方便�?/p>

使用

整个�E�序依赖了两个库�Q�bson-erlang和mongodb-erlang�Q�但下蝲依赖库的事都可以通过rebar解决�Q�项目文仉��我已�l�包含了rebar的执行程序。我仅在Windows7上测试过�Q�但理论上在所有erlang支持的系�l�上都可以�?/p>

下蝲安装mongodb
�q�入mongodb bin目录启动mongodb�Q�数据库目录保存在db下，需手动建立该目�?/p>
```
  mongod --dbpath db --setParameter textSearchEnabled=true
```
下蝲erlang�Q�我使用的是R16B版本
下蝲dhtcrawler�Q�不需要单独下载kdht�Q�待会下载依赖项的时候会自动下蝲
```
  git clone git@github.com:kevinlynx/dhtcrawler.git
```
cmd�q�入dhtcrawler目录�Q�下载依赖项前需保证环境变量里有git�Q�例�?code>D:\Program Files (x86)\Git\cmd�Q�需注意不要��bash的目录加入进来，使用以下命��o下蝲依赖��?/p>
```
  rebar get-deps
```
�~�译
```
  rebar compile
```
在dhtcrawler目录下，启动erlang
```
  erl -pa ebin
```
在erlang shell里运行爬虫，erlang语句以点�?.)作�ؓ�l�束
```
  crawler_app:start().
```
erlang shell里运行HTTP服务�?/p>
```
  crawler_http:start().
```
��览器里输入localhost:8000/index.html�Q�这个时候还没有索引到资源，��监视�|�络��量以观察爬虫程序是否正��工�?/p>

爬虫�E�序启动时会��d��priv/dhtcrawler.config配置文�g�Q�该文�g里配�|�了DHT节点的UDP监听端口、节�Ҏ��量、数据库地址�{�，可自行配�|��?/p>

接下来我会谈谈各部分的实现方法�?/p>

Kevin Lynx 2013-06-20 14:44 发表评论

Erlang使用感受

Kevin Lynx — Thu, 09 May 2013 13:24:00 GMT

用erlang也算写了些代码了�Q�主要包�?a >使用RabbitMQ的练�?/a>�Q�以及最�q�写�?a >kl_tserver�?a >icerl。其中icerl是一个实��C��Ice的erlang库�?/p>

erlang的书较少�Q�我主要读过�?lt;Erlang/OTP in Action>。其实erlang本��n��p��a�来说的话比较��单，同ruby一��P��c�M��q�种本��n目标是应用于实际软�g��目的语�a�都比较简单，对应的语法书很快可以��d��?/p>

�q�里我仅谈谈自己在编写erlang代码�q�程中的一些感受�?/p>

语法

erlang语法很简单，接触�q�函数式语言的程序员上手会很快。它没有�c�M��common lisp里宏�q�种较复杂的语言�Ҏ��。其语法元素很紧凑，不存在一些用处不大的�Ҏ��。在�q�之前，我学习过ruby和common lisp。ruby代码写的比common lisp多。但是在学习erlang的过�E�中我的脑�v里却不断出现common lisp里的语法�Ҏ��。这大概是因为common lisp的语法相对ruby来说�Q�更接近erlang�?/p>

�~�程模式

erlang不是一个面向对象的语言�Q�它也不同common lisp提供多种�~�程模式。它的代码就是靠一个个函数�l�织出来的。面向对象语�a�在语法上有一点让我很爽的是，其函数调用更自然。erlang的接口调用就像C语言里接口的调用一��P��

func(Obj, args)
Obj->func(args)

即需要在函数�W�一个参��C��递操作对象。但是面向对象语�a�也会带来一些语法的复杂性。如果一门语�a�可以用很��的语法元素表达很多信息�Q�那么我觉得�q�门语言��是门优�U�的语�a��?/p>

表达�?语句

erlang里没有语句，全部是表辑ּ��Q�意思是所有语法元素都是有�q�回值的。这实在太好了，全世界都有返回值可以让代码写�v来简单多了：

    Flag = case func() of 1 -> true; 0 -> false end,

命名

我之所以不惛_��一行python代码的很大一部分原因在于�q�门语言居然要求我必��M��用代码羃�q�来�~�程�Q�真是不敢相信。erlang里虽然没有此规定�Q�却也有不同的语法元素有大小写的限定。变量首字母必须大写�Q�atom必须以小写字母开��_��更霸气的是模块命名必��d��文�g名相同�?/p>

变量

erlang里的变量是不可更改的。实际上�l�一个变量赋��|��严格来说应该�?code>bound�Q�即�l�定。这个特性完全就是函数式语言里的�Ҏ��。其带来的好处就像函数式语言宣扬的一��P��q�会使得代码没有副作�?side effect)。因为程序里的所有函��C��论怎样调用�Q�其�E�序状态都不会改变�Q�因为变量无法被改变�?/p>

变量不可更改�Q�直接意味着全局变量没有存在的意义，也就意味着不论你的�pȝ��是多么复杂地被构建出来，当系�l�崩溃时�Q�其崩溃所在位�|�的上下文就��_��扑ֈ�问题�?/p>

但是变量不可改变也会带来一些代码编写上的不�ѝ��我惌��大概是编�E�思维的�{变问题。erlang的语法特性会��人编写非常短��的函数�Q�你大概不愿意看��C��的函数实现里出现Var1/Var2/Var3�q�样的变量，而实际上�q�样的命名在命��o式语�a�里其实指的是同一个变量，只不�q�其��g��同而已�?/p>

但是我们的程序��L��应该有状态的。在erlang里我们通过不断创徏新的变量来存储这个状态。我们需要通过��这个状态随着我们的程序流�E�不断地通过函数参数和返回��g��递下厅R�?/p>

atom

atom�q�个语法�Ҏ��本�w�没问题�Q�它��同lisp里的atom一��P��没什么意义，��是一个名字。它主要用在增加代码的可��L��上。但是这个atom带来的好处，直接��D��erlang不去内置诸如true/false�q�种关键字。erlang使用true/false�q�两个atom来作为boolean operator的返回倹{��但erlang里严格来说是没有布尔�c�d��的。这其实没什么，�p�糕的是�Q�对于一些较常见的函数返回��|��例如true/false�Q�erlang�E�序员之间就得做�U�定。要表示一个函数执行失败了�Q�我可以�q�回false、null、failed、error、nil�Q�甚至what_the_fuck�Q�这一度让我迷惘�?/p>

list/tuple

erlang里的list当然没有lisp里的list牛��|��别�h整个世界��是由list构成的。在一�D�|��间里�Q�我一直以为list里只能保存相同类型的元素�Q�而tuple才是用于保存不同�c�d��元素的容器。直到有一天我发现tuple的操作不能满��x��的需求了�Q�我才发现list居然是可以保存不同类型的�?/p>

list相对于tuple而言�Q�更厉害的地方就在于头匹配，意思是可以通过匚w��来拆分list的头和剩余部分�?/p>

匚w��(match)

erlang的匹配机制是个好东西。这个东西诏�I�了整个语言。在我理解看来，匚w��机制减少了很多判断代码。它试图用一个期望的�c�d��d��配另一个东西，如果�q�个东西��Z��错，它就无法完成�q�个匚w��。无法完成匹配就��D��E�序断掉�?/p>

匚w��q�有个方便的地方在于可以很方便地取出record里的成员�Q�或者tuple和list的某个部分，�q�其实增��Z��其他语法元素的能力�?/p>

循环

erlang里没有��@环语法元素，�q�真是太好了。函数式语言里�ؓ什么要有��@环语法呢�Q�common lisp�q�毛要加上那些复杂的循环�Q�宏�Q�，每次我遇到需要写循环的场景时�Q�我都诚惶诚恐，最后还是用递归来解冟�?/p>

同样�Q�在erlang里我们也是用函数递归来解军_�@环问题。甚臻I��我们�q�有list comprehension。当我写C++代码�Ӟ��我很不情愿用循环��d��那些容器遍历代码�Q�幸�q�的是在C++11里通过lambda和STL里那些算法我�l�于不用再写�q�样的��@环代码了�?/p>

if/case/guard

erlang里有条�g判定语法if�Q�甚臌��有类似C语言里的switch…case。这个我一时半会还不敢评�h�Q�好像haskell里也保留了if。erlang里同haskell一��h��guard的概念，�q�其实是一�U�变相的条�g判断�Q�只不过其��用场景不一栗��?/p>

�q�程

�q�发性支持属于erlang的最大亮炏V��erlang里的�q�程概念非常��单，��Z��消息机制�Q�程序员从来不需要担心同步问题。每个进�E�都有一个mailbox�Q�用于缓存发送到此进�E�的消息。erlang提供内置的语法元素来发送和接收消息�?/p>

erlang甚至提供分布式支持，更酷的是你往�|�络上的其他�q�程发送消息，其语法和往本地�q�程发送是一��L��?/p>

模块加蝲

如果我写了一个erlang库，该如何在另一个erlang�E�序里加载这个库�Q�这个问题一度让我迷惘。erlang里貌似有对库打包的功�?.ez?)�Q�按理说应该提供一�U�整个库加蝲的方式，然后可以通过手动调用函数或者指定代码依赖项来加载。结果不是这栗��?/p>

erlang不是按整个库来加载的�Q�因��Z��没有方式��L��q�C��个库�Q�应该有�W�三方的�Q�。当我们调用某个模块里的函数�Ӟ��erlang会自动从某个目录列表里去搜烦对应的beam文�g。所以，可以通过在启动erlang��d��q�个模块文�g所在目录来实现加蝲�Q�这�q�是自动的。当�Ӟ��也可以在erlang shell里通过函数��d��q�个目录�?/p>

OTP

使用erlang来编写程序，最大的优势可能��是其OTP了。OTP基本上就是一些随erlang一起发布的库。这些库中最重要的一个概忉|��behaviour。behaviour其实��是提供了一�U�编�E�框�Ӟ��应用层提供各�U�回调函数给�q�个框架�Q�从而获得一个健壮的�q�发�E�序�?/p>

application behaviour

application behaviour用于�l�织一个erlang�E�序�Q�通过一个配�|�文�Ӟ��和提供若�q�回调，��可以让我们�~�写的erlang�E�序以一�U�统一的方式启动。我之前写的都是erlang库，�q�不需要启动，而是提供�l�应用层使用�Q�所以也没��用该behaviour�?/p>

gen_server behaviour

�q�个behaviour应该是��用频率很高的。它��装了进�E��用的�l�节�Q�本质上也就是将��d��收取消息�Ҏ��了自动收取，收取后再回调�l�你的模块�?/p>

supervisor behaviour

�q�个behaviour看�v来很厉害�Q�通过对它�q�行一些配�|�，你可以把你的�q�发�E�序里的所有进�E�徏立成树状�l�构。这个结构的牛��g��处在于，当某个进�E�挂掉之后，通过supervisor可以自动重新启动�q�个挂掉的进�E�，当然重启没这么简单，它提供多�U�重启规则，以让整个�pȝ��实通过重启变成正常状态。这实在太牛��g��Q�这意味着你的服务器可�?x24��时地运行了�Q�就��有问题你也可以立刻获得一个重写工作的�pȝ��?/p>

热更�?/h3>
代码热更新对于一个动态语�a�而言其实�Ҏ��不上什么优点，基本上动态语�a�都能做到�q�一炏V��但是把热更新这个功能加��C��个用于开发�ƈ发程序的语言里，那就很牛��g��。你再一�ơ可以确保你的服务器7x24��时不停机维护�?/p>

gen_tcp

最开始我以�ؓerlang��网�l�部分封装得已经认不出有socket�q�个概念了。至��，你也得有一个牛逼的�|�络库吧。结果发��C��然还是socket那一套。然后我很失望。直到后来，发现使用一些behaviour�Q�加上调整gen_tcp的一些option�Q�居然可以以很少的代码写��Z��个维护大量连接的TCP服务器。是啊，erlang天生��是�q�发的，在传�l�的�|�络模型中，我们会觉得��用one-thread-per-connection虽然��单却不是可行的，因�ؓthread是OS资源�Q�太昂贵。但是在erlang里，one-process-per-connection却是再自然不�q�的事情。你要是写个erlang�E�序里面却只有一个process你都不好意思告诉别��Z��写的是erlang。process是高效的�Q�对我们�q�种二流�E�序员而言�Q�，它就像C++里一个很普通的对象一栗��?/p>

在��用gen_tcp的过�E�中我发��C��个问题，不管我��用哪一�U�模型，我竟然找不到一�U�温柔的关闭方式。我查看了几个tutorial�Q�这些�؜蛋竟然没有一个�h提到如何��L��常关闭一个erlang TCP服务器。后来，我没有办法，只好使用API强制关闭服务器进�E��?/p>

Story

其实�Q�我和erlang之间是有故事的。我�q�不是这个月开始才接触erlang。早�?009�q�夏天的时候我��学习过�q�门语言。那时候我�q�没接触�q��Q何函数式语言�Q�那时候lua里的闭包都让我觉得新奇。然后无意间�Q�我莫名其妙地接触了haskell�Q?lt;Real World Haskell>�Q�，在我军_��开始写点什么haskell�l�习�Ӟ��我发现我无从下手�Q�最后，Monads把我吓哭了。haskell实在太可怕了�?/p>

紧接着我怀揣着对函数式语言的浓烈好奇心看到了erlang。当我看��C��concurrent programming的章节时�Q�在一个燥热难耐的下午我的领导扑ֈ�了我�Q�同我探讨�verlang�Ҏ��们的�|�游服务器有什么好处。然后，我结束我了的erlang之旅�?/p>

旉��四年�Q�这�U�小众语�a��Q�居然进入了中国�E�序员的视野�Q��ƈ被用于开发网��|��戏服务器。时代在�q�步�Q�我们��L��被甩在后面�?/p>

Kevin Lynx 2013-05-09 21:24 发表评论

erlang和RabbitMQ学习�ȝ��

Kevin Lynx — Fri, 12 Apr 2013 13:27:00 GMT

AMQP和RabbitMQ概述

AMQP(Advanced Message Queue Protocol)定义了一�U�消息系�l�规范。这个规范描�q�C��在一个分布式的系�l�中各个子系�l�如何通过消息交互。�?a >RabbitMQ则是AMQP的一�U�基于erlang的实现�?/p>

AMQP��分布式�pȝ��中各个子�pȝ��隔离开来，子系�l�之间不再有依赖。子�pȝ��仅依赖于消息。子�pȝ��不关心消息的发送者，也不兛_��消息的接受者�?/p>

AMQP中有一些概念，用于定义与应用层的交互。这些概念包括：message、queue、exchange、channel, connection, broker、vhost�?/p>

注：到目前�ؓ止我�q�没有打��用AMQP�Q�所以没有做更深入的学习�Q�仅��Z��找个��Z��写写erlang代码�Q�以下信息仅供参考�?/em>

message�Q�即消息�Q�简单来说就是应用层需要发送的数据

queue�Q�即队列�Q�用于存储消�?/li>
exchange�Q�有��译�?#8220;路由”�Q�它用于投递消息，应用�E�序在发送消息时�q�不是指定消息被发送到哪个队列�Q�而是��消息投递给路由�Q�由路由投递到队列

channel�Q�几乎所有操作都在channel中进行，有点�c�M��一个沟通通道

connection�Q�应用程序与broker的网�l�连�?/li>
broker�Q�可��单理解�ؓ实现AMQP的服务，例如RabbitMQ服务

关于AMQP可以通过一��很有名的文章了解更多：RabbitMQ+Python入门�l�典兔子和兔子窝

RabbitMQ的运行需要erlang的支持，erlang和RabbitMQ在windows下都可以直接使用安装�E�序�Q�非常简单。RabbitMQ�q�支持网��늫�的管理，�q�需要开启一些RabbitMQ的插�Ӟ��可以参�?a >官方文档�?/p>
RabbitMQ本质上其实是一个服务器�Q�与�q�个服务器做交互则是通过AMQP定义的协议，应用可以使用一个实��C��AMQP协议的库来与服务器交互。这里我使用erlang的一个客��L��Q�对应着RabbitMQ的tutorial�Q��用erlang实现了一遍。基于这个过�E�我��一些关键实现罗列出来以供记忆：

主要功能使用

关于RabbitMQ erlang client的��用说明可以参�?a >官方文��。这个client library下蝲下来后是两个ez文�g�Q�其实就是zip文�g�Q�本�w�是erlang支持的库打包格式�Q�但据说�q�个feature�q�不成熟。��M��我是直接解压�Q�然后在环境变量中指�?code>ERL_LIBS到解压目录。��用时使用include_lib包含库文�Ӟ��c�M��C语言里的头文�Ӟ��Q?/p>

-include_lib("amqp_client/include/amqp_client.hrl").

Connection/Channel

对于�q�接到本地的RabbitMQ服务�Q?/p>

{ok, Connection} = amqp_connection:start(#amqp_params_network{}), {ok, Channel} = amqp_connection:open_channel(Connection),

创徏Queue

每个Queue都有名字�Q�这个名字可以�h为指定，也可以由�pȝ��分配。Queue创徏后如果不昄��删除�Q�断开�|�络�q�接是不会自动删除这个Queue的，�q�个可以在RabbitMQ的web��理端看到�?/p>

#'queue.declare_ok'{queue = Q} = amqp_channel:call(Channel, #'queue.declare'{queue = <<"rpc_queue">>}),

但也可以指定Queue会在�E�序退出后被自动删除，需要指�?code>exclusive参数�Q?/p>

QDecl = #'queue.declare'{queue = <<>>, exclusive = true}, #'queue.declare_ok'{queue = Q} = amqp_channel:call(Channel, QDecl),

上例中queue的名字未指定�Q�由�pȝ��分配�?/p>
发送消�?/h3>
一般情况下�Q�消息其实是发送给exchange的：

Payload = <<"hello">> Publish = #'basic.publish'{exchange = <<"log_exchange">>}, amqp_channel:cast(Channel, Publish, #amqp_msg{payload = Payload}),

exchange有一�p�d��规则�Q�决定某个消息将被投递到哪个队列�?/p>
发送消息时也可以不指定exchange�Q�这个时候消息的投递将依赖�?code>routing_key�Q?code>routing_key在这�U�场景下��对应着目标queue的名字：

#'queue.declare_ok'{queue = Q} = amqp_channel:call(Channel, #'queue.declare'{queue = <<"rpc_queue">>}), Payload = <<"hello">>, Publish = #'basic.publish'{exchange = <<>>, routing_key = Q}, amqp_channel:cast(Channel, Publish, #amqp_msg{payload = Payload}),

接收消息

可以通过注册一个消息consumer来完成消息的异步接收�Q?/p>

Sub = #'basic.consume' {queue = Q}, #'basic.consume_ok'{consumer_tag = Tag} = amqp_channel:subscribe(Channel, Sub, self()),

以上注册了了一个consumer�Q�监听变�?code>Q指定的队列。当有消息到达该队列�Ӟ��pȝ��׃��向consumer�q�程对应的mailbox投递一个通知�Q�我们可以��?code>receive来接收该通知�Q?/p>

loop(Channel) -> receive % This is the first message received (from RabbitMQ) #'basic.consume_ok'{} -> loop(Channel); % a delivery {#'basic.deliver'{delivery_tag = Tag}, #amqp_msg{payload = Payload}} -> echo(Payload), % ack the message amqp_channel:cast(Channel, #'basic.ack'{delivery_tag = Tag}), loop(Channel); ...

�l�定exchange和queue

�l�定(binding)其实也算AMQP里的一个关键概念，它用于徏立exchange和queue之间的联�p�，以方便exchange在收到消息后��消息投递到队列。我们不一定需要将队列和exchange�l�定��h��?/p>

Binding = #'queue.bind'{queue = Queue, exchange = Exchange, routing_key = RoutingKey}, #'queue.bind_ok'{} = amqp_channel:call(Channel, Binding)

在绑定的时候需要填入一�?code>routing_key的参敎ͼ�不同�c�d��的exchange对该值的处理方式不一��P��例如后面提到fanout�c�d��的exchange�Ӟ��׃��需要该倹{�?/p>
更多�l�节

通过阅读RabbitMQ tutorial�Q�我们还会获得很多细节信息。例如exchange的种�c�R��binding�{��?/p>
exchange分类

exchange有四�U�类型，不同�c�d��军_��了其在收到消息后�Q�该如何处理�q�条消息�Q�投递规则）�Q�这四种�c�d��为：

fanout

direct

topic

headers

fanout�c�d��的exchange是一个广播exchange�Q�它在收到消息后会将消息�q�播�l�所有绑定到它上面的队列。绑�?binding)用于��队列和exchange兌��h��。我们可以在创徏exchange的时候指定exchange的类型：

Declare = #'exchange.declare'{exchange = <<"my_exchange">>, type = <<"fanout">>} #'exchange.declare_ok'{} = amqp_channel:call(Channel, Declare)

direct�c�d��的exchange在收到消息后�Q�会��此消息投递到发送消息时指定�?code>routing_key和绑定队列到exchange上时�?code>routing_key相同的队列里。可以多�ơ绑定一个队列到一个exchange上，每次指定不同�?code>routing_key�Q�就可以接收多种routing_key�c�d��的消息�?strong>注意�Q�绑定队列时我们可以填入一�?code>routing_key�Q�发送消息时也可以指定一�?code>routing_key�?/strong>

topic�c�d��的exchange相当于是direct exchange的扩展，direct exchange在投递消息到队列�Ӟ��是单�U�的�?code>routing_key做相�{�判定，而topic exchange则是一�?code>routing_key的字�W�串匚w��Q�就像正则表辑ּ�一栗��在routing_key中可以填入一�U�字�W�串匚w��W�号�Q?/p>
* (star) can substitute for exactly one word. # (hash) can substitute for zero or more words.

header exchange tutorial中未提到�Q�我也不��q��

消息投递及回应

每个消息都可以提供回应，以��RabbitMQ��定该消息确实被收到。RabbitMQ重新投递消息仅依靠与consumer的网�l�连接情况，所以只要网�l�连接正常，consumer卡死也不会导致RabbitMQ重投消息。如下回应消息：

amqp_channel:cast(Channel, #'basic.ack'{delivery_tag = Tag}),

其中Tag来源于接收到消息旉��?code>Tag�?/p>
如果有多个consumer监听了一个队列，RabbitMQ会依�ơ把消息投递到�q�些consumer上。这里的投递原则��用了round robin�Ҏ��Q�也��是轮流方式。如前所�q�ͼ�如果某个consumer的处理逻辑耗时严重�Q�则��导致多个consumer出现负蝲不均衡的情况�Q�而RabbitMQ�q�不兛_��consumer的负载。可以通过消息回应机制来避免RabbitMQ使用�q�种消息数��^均的投递原则：

Prefetch = 1, amqp_channel:call(Channel, #'basic.qos'{prefetch_count = Prefetch})

消息可靠�?/h3>
RabbitMQ可以保证消息的可靠性，�q�需要设�|�消息和队列都�ؓdurable的：

#'queue.declare_ok'{queue = Q} = amqp_channel:call(Channel, #'queue.declare'{queue = <<"hello_queue">>, durable = true}), Payload = <<"foobar">>, Publish = #'basic.publish'{exchange = "", routing_key = Queue}, Props = #'P_basic'{delivery_mode = 2}, %% persistent message Msg = #amqp_msg{props = Props, payload = Payload}, amqp_channel:cast(Channel, Publish, Msg)

参�?/h2>
除了参考RabbitMQ tutorial外，�q�可以看看别��Z��用erlang是如何实现这些tutorial的，github上有一个这��L��目�Q?a >rabbitmq-tutorials。我自己也实��C��一份，包括rabbitmq-tutorials中没实现的RPC。后来我发现原来rabbitmq erlang client的实现里已经包含了一个RPC模块�?/p>

RabbitMQ源码解析前奏–AMQP协议

RabbitMQ+Python入门�l�典兔子和兔子窝

Erlang AMQP Client library

Manage RabbitMQ by WebUI

原文地址�Q? http://codemacro.com/2013/04/11/rabbitmq-erlang/
written by Kevin Lynx posted at http://codemacro.com

Kevin Lynx 2013-04-12 21:27 发表评论

国产精品一区2区,亚洲美女视频网,亚洲欧洲在线看

Dhtcrawler2换用sphinx搜烦

sphinx document

增量索引

sphinx与mongodb

dhtcrawler2与sphinx

xml unicode

���力搜烦�W�二�?dhtcrawler2

下蝲使用

使用�Ҏ��

其他工具

OS/Database

erlang call timeout