欧美韩日一区,欧美一区二区三区在线观看,一区二区三区回区在观看免费视频

LeetCode �?Median of Two Sorted Arrays - findMedianSortedArrays

Tue, 26 Jun 2018 05:57:00 GMT

There are two sorted arrays A and B of size m and n respectively. Find the median of the two sorted arrays. The overall run time complexity should be O(log (m+n)).

The following code is better than most of the results returned by baidu or google. Time complexity is O((m+n)/2), Space complexity is O(1).

1 double findMedianSortedArrays(vector<int>& nums1, vector<int>& nums2)
2 {
3     int nums1_i = 0, nums2_i = 0;
4     int mid1 = 0, mid2 = 0, count = 0;
5     while (nums1_i < nums1.size() && nums2_i < nums2.size())
6     {
7         if (count++ > ((nums1.size() + nums2.size()) / 2))    break;
8         mid1 = mid2;
9         mid2 = (nums1[nums1_i] < nums2[nums2_i] ? nums1[nums1_i++] : nums2[nums2_i++]);
10     }
11
12     while (nums1_i < nums1.size())
13     {
14         if (count++ > ((nums1.size() + nums2.size()) / 2))    break;
15         mid1 = mid2;
16         mid2 = nums1[nums1_i++];
17     }
18
19     while (nums2_i < nums2.size())
20     {
21         if (count++ > ((nums1.size() + nums2.size()) / 2))    break;
22         mid1 = mid2;
23         mid2 = nums2[nums2_i++];
24     }
25
26     return (nums1.size() + nums2.size()) % 2 == 0
27         ? (mid1 + mid2) / 2.0
28         : mid2;
29 }

胡满��?/a> 2018-06-26 13:57 发表评论

深入��出LSH

Sat, 24 Feb 2018 05:10:00 GMT

摘要: 通过�q�篇文章我们主要回答以下几个问题�Q? 1. LSH解决问题的背景，即以囄��怼�性搜索�ؓ(f��)例，如何解决在�v量数据中�q�行�怼�性查找？ 2. 囑փ��怼�性查扄��q�带问题�Q�相似性度量，特征提取�Q? 3. LSH的数学分析，卛_��部敏感HASH函数的数学原理，通过与、或构造提升查扄��?.. 阅读全文

胡满��?/a> 2018-02-24 13:10 发表评论

LSH Locality-Sensitive Hashing 局部敏感哈希算法�ȝ��

Wed, 24 May 2017 01:16:00 GMT

直接上图

脑图源文件下载地址

http://www.shnenglu.com/Files/humanchao/LSH(Locality%20Sensitive%20Hashing).zip

参考文献：(x��)

Website:

[1] http://people.csail.mit.edu/indyk/ �Q�LSH原作者）(j��)

[2] http://www.mit.edu/~andoni/LSH/ (E2LSH)

Paper:

[1] Approximate nearest neighbor: towards removing the curse of dimensionality

[2] Similarity search in high dimensions via hashing

[3] Locality-sensitive hashing scheme based on p-stable distributions

[4] MultiProbe LSH Efficient Indexing for HighDimensional Similarity Search

[5] Near-Optimal Hashing Algorithms for Approximate Nearest Neighbor in High Dimensions

Tutorial:

[1] Locality-Sensitive Hashing for Finding Nearest Neighbors

[2] Approximate Proximity Problems in High Dimensions via Locality-Sensitive Hashing

[3] Similarity Search in High Dimensions

Book:

[1] Mining of Massive Datasets
[2] Nearest Neighbor Methods in Learning and Vision: Theory and Practice

Cdoe:

[1] http://sourceforge.net/projects/lshkit/?source=directory

[2] http://tarsos.0110.be/releases/TarsosLSH/TarsosLSH-0.5/TarsosLSH-0.5-Readme.html

[3] http://www.cse.ohio-state.edu/~kulis/klsh/klsh.htm

[4] http://code.google.com/p/likelike/

[5] https://github.com/yahoo/Optimal-LSH

[6] OpenCV LSH�Q�分别位于legacy module和flann module中）(j��)

胡满��?/a> 2017-05-24 09:16 发表评论

转：(x��)�l�典的String Hash��法

Wed, 26 Dec 2012 09:08:00 GMT

设计高效��法往往需要��用Hash表，O(1)�U�的查找速度是�Q何别的算法无法比拟的�?/span>
所谓Hash�Q�一般是一个整敎ͼ�通过某种��法�Q�可以把一个字�W�串"pack"成一个整敎ͼ��q�个数称为Hash�Q�当�?d��ng)��一个整数是无法对应一个字�W�串的�?/span>
所以Hash函数是Hash表最核心(j��)的部分，对于一个Hash函数�Q�评价其优劣的标准应为随机性或��L��性，卛_��L��一�l�标本，�q�入Hash表每一个单元（cell�Q�之概率的��^均程度，因�ؓ(f��)�q�个概率��^均，两个字符串计��出的Hash值相�{�hash collision的可能越��，数据在表中的分布?y��u)��p��q�_��Q�表的空间利用率��p��高�?/span>

Hash表的构造和冲突的不同实现方法对执行效率也有一定的影响.

DJBHash是一�U�非常流行的��法�Q�俗�U?Times33"��法。Times33的算法很��单，��是不断的乘33�Q�原型如�?/span>

hash(i) = hash(i-1) * 33 + str[i]

Time33在效率和随机性两斚w��上俱佟�?/span>

其它常用字符串哈希函数有�Q?/span>
BKDRHash�Q�APHash�Q�JSHash�Q�RSHash�Q�SDBMHash�Q�PJWHash�Q�ELFHash�{�。BKDRHash和APHash也是比较优秀的算法。当然要�Ҏ(gu��)��具体应用选择合适的Hash��法�Q�比如字�W�集的考虑�?/span>

APHash作者Arash Partow有一个页面很有参考�h(hu��n)��|��包括�?ji��n)各�U�Hash的介�l�及(qi��ng)代码�?/span>

http://www.partow.net/programming/hashfunctions/#RSHashFunction

Blizzard使用的算法比较精妙，被称�?One-Way Hash"�Q��ƈ且在Hash表中使用�?ji��n)三个哈希�?一个用来确定位�|�，另外两个用来校验)�?/span>

MD5�{�加密算法也属于hash�Q�不�q�已被中国学者找到碰撞检��的破解��法

胡满��?/a> 2012-12-26 17:08 发表评论

转：(x��)循环有序数组查找问题

Wed, 26 Dec 2012 08:15:00 GMT

http://blog.sina.com.cn/s/blog_a2498b5b01014bsg.html

题目描述�Q?/strong>

一个��@环有序数�l�（如：(x��)3,4,5,6,7,8,9,0,1,2�Q�，不知道其最��值的位置�Q�要查找��M��数值的位置。要求算法时间复杂度为log2(n)�?/span>

问题分析�Q?/strong>

我们可以把��@环有序数�l�分为左右两部分�Q�以mid = �Q�low+high�Q? 2为界�Q�，由��@环有序数�l�的特点知，左右两部分必有一部分是有序的�Q�我们可以找出有序的�q�部分，然后看所查找元素是否在有序部分，若在�Q�则直接�Ҏ(gu��)��序部分二分查找，若不在，�Ҏ(gu��)��序部分递归调用查找函数�?/span>

代码如下�Q?/strong>

#include

using namespace std;

    int binarySearch(int a[],int low,int high,int value)  //二分查找
    {
        if(low>high)
            return -1;

int mid=(low+high)/2;

        if(value==a[mid])
            return mid;
        else if(value>a[mid])
            return binarySearch(a,mid+1,high,value);
        else
            return binarySearch(a,low,mid-1,value);
    }

    int Search(int a[],int low,int high,int value)     //循环有序查找函数
    {
        int mid=(low+high)/2;

        if(a[mid]>a[low])       //左有�?br />        {
            if(a[low]<=value && value<=a[mid] )        //说明value在左边，直接二分查找
            {
                return binarySearch(a,low,mid,value);
            }

            else                                       //value在右�?br />            {
                return Search(a,mid+1,high,value);
            }
        }
        else                    //��x��?br />        {
            if(a[mid]<=value && value<=a[high])
            {
                return binarySearch(a,mid,high,value);
            }
            else
            {
                return Search(a,low,mid-1,value);
            }
        }
    }

    int main()
    {
        int a[]={3,4,5,6,7,8,9,0,1,2};

cout<

return 0;
}

胡满��?/a> 2012-12-26 16:15 发表评论

Wed, 26 Dec 2012 08:06:00 GMT

转自�Q?/strong>http://wenku.baidu.com/view/9e2d2f3e5727a5e9856a6167.html

大小端问�?/span>

By unanao

一、什么是大小端问�?/span>

(From�?/span>Computer Systems,A Programer's Perspective�?/span>)在几乎所有的机器上，多字节对象被存储��l�的字节序列�Q�对象的地址为所使用字节序列中最低字节地址�?/span>

��端�Q�某些机器选择在存储器中按照从最低有效字节到最高有效字节的��序存储对象�Q�这�U�最低有效字节在最前面的表�C�方式被�U�Cؓ(f��)��端�?/span>(little endian) �?/span>�q�样的存储模式有点儿�c�M��于把数据当作字符串顺序处理：(x��)地址由小向大增加�Q�而数据从高位往低位放；

       大端�Q�某些机器则按照从最高有效字节到最低有效字节的��序储存�Q�这�U�最高有效字节在最前面的方式被�U�Cؓ(f��)大端�?/span>(big endian) �?/span>�q�种存储模式��地址的高低和数据位权有效地结合�v来，高地址部分权值高�Q�低地址部分权��g��Q�和我们的逻辑�Ҏ(gu��)��一致�?/span>

举个例子来说名大��端: 比如一�?/span>int x, 地址�?/span>0x100, 它的��gؓ(f��)0x1234567. 则它所占据�?/span>0x100, 0x101, 0x102, 0x103地址�l�织如下�?/span>:

二、�ؓ(f��)什么会(x��)有大��端模式之分呢？

�q�是因�ؓ(f��)在计��机�pȝ��中，我们是以字节为单位的�Q�每个地址单元都对应着一个字节，一个字节�ؓ(f��) 8bit。但是在C语言中除�?/span>8bit�?/span>char之外�Q�还�?/span>16bit�?/span>short型，32bit�?/span>long型（要看具体的编译器�Q�，另外�Q�对于位数大�?/span> 8位的处理器，例如16位或�?/span>32位的处理器，�׃��寄存器宽度大于一个字节，那么必然存在着一个如果将多个字节安排的问题。因此就��D��?ji��n)大端存储模式和��端存储模式。例如一�?/span>16bit�?/span>short�?/span>x�Q�在内存中的地址�?/span>0x0010�Q?/span>x的��gؓ(f��)0x1122�Q�那�?/span>0x11为高字节�Q?/span>0x22��Z��字节。对�?/span> 大端模式�Q�就��?/span>0x11攑֜�低地址中，�?/span>0x0010中，0x22攑֜�高地址中，�?/span>0x0011中。小端模式，刚好相反。我们常用的X86�l�构是小端模式，�?/span>KEIL C51则�ؓ(f��)大端模式。很多的ARM�Q?/span>DSP都�ؓ(f��)��端模式。有�?/span>ARM处理器还可以��q��件来选择是大端模式还是小端模式�?/span>

三、如何区分大��端问题�Q?/span>

�Ҏ(gu��)��1�Q?/span>

#include

int main(void)

{

       int i = 1;

       unsigned char *pointer;

       pointer = (unsigned char *)&i;

       if(*pointer)

       {

              printf("litttle_endian");

       }

       else

       {

              printf("big endian\n");

       }

       return 0;

}

       C中的数据�c�d��都是从内存的低地址向高地址扩展�Q�取址�q�算"&"都是取低地址。小端方式中�Q?/span>i占至��两个字节的长度�Q�则i所分配的内存最��地址那个字节中就存着1�Q�其他字节是0�?/span>大端的话�?/span>1�?/span>i的最高地址字节处存放，char是一个字节，所以强制将char型量p指向i�Q?/span>�?/span>p指向的一定是i的最低地址�Q�那么就可以判断p中的值是不是1来确定是不是��端�?/span>

�Ҏ(gu��)��2�Q?/span>

#include

int main(void)

{

       union {

              short a;

              char ch;

       } u;

       u.a = 1;

       if (u.ch == 1)

       {

              printf("Littel endian\n");

       }

       else

       {

              printf("Big endian\n");

       }

}

       利用联合体的特点�Q�数据成员共享内存空��_(d��)��union中元素的起始地址都是相同�?/span>——位于联合的开始�?/span> �?/span>char来截取感兴趣的字�?span style="color:#2B2BD5">�?/span>

四、需要考虑大小端（字节��序�Q�的情况

1、所写的�E�序需要向不同的硬件��^台迁�U�，说不定哪一个��^台是大端�q�是��端�Q��ؓ(f��)�?ji��n)保证可�U�L��性，一定提前考虑好�?/span>

2. 在不同类型的机器之间通过�|�络传送二�q�制数据时�?/span> 一个常见的问题是当��端法机器��生的数据被发送到大端法机器或者反之时�Q�接受程序会(x��)发现�Q�字(word)里的字节(byte)成了(ji��n)反序的。�ؓ(f��)�?ji��n)避免这�c�问题，�|�络应用�E�序的代码编写必��遵守已建立的关于字节顺序的规则�Q�以��保发送方机器��它的内部表�C��{换成�|�络标准�Q�而接受方机器则将�|�络标准转换为它的内部标准�?/span>

3. 当阅读表�C�整数的字节序列时。这通常发生在检查机器��E�序�Ӟ��e.g.�Q�反汇编得到的一条指令：(x��)
80483bd: 01 05 64 94 04 08        add %eax, 0x8049464

3. 当编写强转的�c�d��pȝ��的程序时�?/span>如写入的数据�?/span>u32型，但是��d��的时候却�?/span>char型的。如�Q?/span>0x1234, 大端��d��?/span>12�Ӟ��端独到的是34�?/span>

六、提高程序的可移植�?/span>

使用宏编�?/span>

#ifdef LITTLE_ENDIAN

//��端的代�?/span>

#else

//大端的代�?/span>

#endif

七、大、小端之间的转换

1、小端�{换�ؓ(f��)大端

#include

void show_byte(char *addr, int len)

{

       int i;

       for (i = 0; i < len; i++)

       {

              printf("%.2x \t", addr[i]);

       }

       printf("\n");

}

int endian_convert(int t)

{

       int result;

       int i;

       result = 0;

       for (i = 0; i < sizeof(t); i++)

       {

              result <<= 8;

              result |= (t & 0xFF);

              t >>= 8;

       }

       return result;

}

int main(void)

{

       int i;

       int ret;

       i = 0x1234567;

       show_byte((char *)&i, sizeof(int));

       ret = endian_convert(i);

       show_byte((char *)&ret, sizeof(int));

       return 0;

}

胡满��?/a> 2012-12-26 16:06 发表评论

转：(x��)模拟�z�牌(扑克)�E�序

Wed, 26 Dec 2012 07:59:00 GMT

转自�Q?a >http://www.fredosaurus.com/notes-cpp/misc/random-shuffle.html

// File        : misc/random/deal.cpp - Randomly shuffle deck of cards.

// Illustrates : Shuffle algorithm, srand, rand.

// Improvements: Use classes for Card and Deck.

// Author      : Fred Swartz 2003-08-24, shuffle correction 2007-01-18

//               Placed in the public domain.

#include

#include    // for srand and rand

#include      // for time

using namespace std;

int main() {

    int card[52];    // array of cards;

    int n;           // number of cards to deal

    srand(time(0)); // initialize seed "randomly"



    for (int i=0; i<52; i++) {

        card[i] = i; // fill the array in order

    }



    while (cin >> n) {

        //--- Shuffle elements by randomly exchanging each with one other.

        for (int i=0; i<(52-1); i++) {

            int r = i + (rand() % (52-i)); // Random remaining position.

            int temp = card[i]; card[i] = card[r]; card[r] = temp;

        }



        //--- Print first n cards as ints.

        for (int c=0; c
            cout << card[c] << " "; // Just print number

        }

        cout << endl;

    }



   return 0;

}

胡满��?/a> 2012-12-26 15:59 发表评论

转：(x��)��h��距离

Wed, 26 Dec 2012 07:49:00 GMT

转自�Q?a >http://blog.csdn.net/fuyangchang/article/details/5637464
wiki地址http://en.wikipedia.org/wiki/Hamming_distance
在信息领域，两个长度相等的字�W�串的�v明距��L��在相同位�|�上不同的字�W�的个数�Q�也��是��一个字�W�串替换成另一个字�W�串需要的替换的次数�?/p>
例如�Q?/p>
"toned" and "roses" is 3.
1011101 and 1001001 is 2.
2173896 and 2233796 is 3.
对于二进制来��_(d��)��h��距离的结果相当于 a XOR b �l�果�?的个数�?/p>
python代码如下

def hamming_distance(s1, s2):

    assert len(s1) == len(s2)

    return sum(ch1 != ch2 for ch1, ch2 in zip(s1, s2))

print (hamming_distance("gdad","glas"))

�l�果�?/span>2

C语言代码如下

unsigned hamdist(unsigned x, unsigned y)

{

unsigned dist = 0, val = x ^ y;

// Count the number of set bits

while(val)

{

    ++dist;

    val &= val - 1;

}

return dist;

}

int main()

{

         unsigned x="abcdcc";

         unsigned y="abccdd";

         unsigned z=hamdist(x,y);

         printf("%d",z);

}

胡满��?/a> 2012-12-26 15:49 发表评论

转：(x��)MySQL索引背后的数据结构及(qi��ng)��法原理

Fri, 21 Dec 2012 02:38:00 GMT
     摘要: 转自�Q�http://www.codinglabs.org/html/theory-of-mysql-index.htmlMySQL索引背后的数据结构及(qi��ng)��法原理摘要本文以MySQL数据库�ؓ(f��)研究对象�Q�讨��Z��数据库烦(ch��)引相关的一些话题。特别需要说明的是，MySQL支持诸多存储引擎�Q�而各�U�存储引擎对索引的支持也各不相同�Q�因此MySQL数据库支持多�U�烦(ch��)引类型，如BTree索引�Q�哈希烦(ch��)引，全文索引�{�等。�ؓ(f��)�?ji��n)避�?..  阅读全文

胡满��?/a> 2012-12-21 10:38 发表评论

�? 数学之美�W�记

Tue, 18 Sep 2012 07:04:00 GMT

转自�Q?/span>http://book.douban.com/annotation/19461092/

半个月前在豆瓣上看到�?ji��n)一本新书《数学之��》，评�h(hu��n)很高。而因为在半年前看�?ji��n)《什么是数学》就�Ҏ(gu��)��学��生浓厚兴��，但苦于水�q�不��的我便立马��C��(ji��n)一本，希望能对数学多一些了(ji��n)解，�q�认真阅读�v来�?/span>
令我意外�q�欣喜的是，�q�本书里边的数学内容�q�不晦�ӆ难懂�Q�而且作者�ؓ(f��)�?ji��n)讲�q�数学之��而搭配的一些工�E�实例都是和我学�?f��n)�ƈ感兴��的模式识别�Q�目标分�cȝ��关算法相兌��的。这让我觉得捡到�?ji��n)意外的宝藏�?/span>
书中每一个章节都或多或少是作者亲�w�经历过的，比如世界�U�教授的��故事，或者Google的搜索引擎原理，又或者是Google的云计算�{�。作者用其行云流水般的语�a��各个知识点像讲故事一��h��的叙述出来�?/span>
�q�本书着实让我印象深刻，所以我把笔记分享出来，希望更多和我学习(f��n)研究领域一��L(f��ng)��Z��(x��)喜欢�q�亲自阅读这本书�Q��ƈ能支持作者。毕竟国内这�U�书实在是太��了(ji��n)�Q�也希望能有更多领域内的大牛能再写出一些这�U�书�c�来让我们共同提高�?/span>
1. 因�ؓ(f��)需要传播信息量的增加，不同的声韛_ƈ不能完全表达信息�Q�语�a�便��生了(ji��n)�?/span>
2. 当文字增加到没有��完全��C��所有文字时�Q�聚�c�d��归类��开始了(ji��n)。例如日代表太阳或者代表一天�?/span>
3. 聚类�?x��)带来歧义性，但上下文可以消除歧义。信息冗余是信息安全的保障。例如罗塞塔石碑上同一信息重复三次�?/span>
4. 最短编码原理即常用信息短编码，生僻信息长编码�?/span>
5. 因�ؓ(f��)文字只是信息的蝲体而非信息本��n�Q�所以翻译是可以实现的�?/span>
6. 2012�Q�其实是玛雅文明采用二十�q�制�Q�即四百�q�是一个太阳纪�Q��?012�q�恰巧是当前太阳�U�的最后一�q�_(d��)��2013�q�是新的太阳�U�的开始，故被误传��Z��界末日�?/span>
7. 字母可以看�ؓ(f��)是一�l�编码，而汉字可以看��Z��l�编码�?/span>
8. ��Z��l�计的自然语�a�处理�Ҏ(gu��)��Q�在数学模型上和通信是相通的�Q�甚��x��相同的�?/span>
9. 让计��机处理自然语言的基本问题就是�ؓ(f��)自然语言�q�种上下文相关的�Ҏ(gu��)��徏立数学模型，即统计语�a�模型�Q�Statistical Language Modal�Q��?/span>
10. �Ҏ(gu��)��大数定理�Q�Law of Large Numbers�Q�，只要�l�计量��够，相对频度��q��于概率�?/span>
11. 二元模型。对于p(w1,w2,…,wn)=p(w1)p(w2|w1)p(w3|w1,w2)…p(wn|w1,w2,…,wn-1)的展开问题�Q�因为p(w3|w1,w2)难计��，p(wn|w1,w2,…,wn-1)更难计算�Q�马��?d��ng)科夫给��Z��(ji��n)一个偷懒但是颇为有效的�Ҏ(gu��)��Q�也��是每当遇到�q�种情况�Ӟ��假设�Q意wi出现的概率只与它前面的wi-1有关�Q�即p(s)=p(w1)p(w2|w1)p(w3|w2)…p(wi|wi-1)…p(wn|wn-1)。现在这个概率就变的��单了(ji��n)。对应的语言模型�?元模型（Bigram Model�Q��?/span>
12. *N元模型。wi只与前一个wi-1有关�q�似的过头了(ji��n)�Q�所以N-1阉��?d��ng)科夫假设��?f��)p(wi|w1,w2,…,wi-1)=p(wi|wi-N+1,wi-N+2,…,wi-1)�Q�对应的语言模型成�ؓ(f��)N元模型（N-Gram Model�Q�。一元模型就是上下文无关模型�Q�实际应用中更多实用的是三元模型。Google的罗塞塔��译�pȝ��和语�a�搜烦(ch��)�pȝ��实用的是四元模型�Q�存储于500��C��上的Google服务器中�?/span>
13. *卡兹退避法�Q�Katz backoff�Q�，对于频率��过一定阈值的词，它们的概率估计就是它们在语料库中的相寚w��度，对于频率��于�q�个阈值的词，它们的概率估计就��于他们的相寚w��度，出现�ơ数��少�Q�频率下调越多。对于未看见的词�Q�也�l�予一个比较小的概率（即下调得到的频率��d��Q�，�q�样所有词的概率估计都�q�x��?ji��n)。这��是卡兹退避法�Q�Katz backoff�Q��?/span>
14. 训练数据通常是越多越好，通过�q�x��q�渡的方法可以解决零概率和很��概率的问题�Q�毕竟在数据量多的时候概率模型的参数可以估计的比较准��?/span>
15. 利用�l�计语言模型�q�行分词�Q�即最好的分词�Ҏ(gu��)��应该保证分完词后�q�个句子出现的概率最大。根据不同应用，汉语分词的颗�_�度大小应该不同�?/span>
16. �W�合马尔�U�夫假设�Q�各个状态st的概率分布只与它前一个状态st-1有关�Q�的随即�q�程��x��为马��?d��ng)科夫过�E�，也称为马��?d��ng)科夫链�?/span>
17. 隐含马尔�U�夫模型是马��?d��ng)科夫链的扩展，��L��时刻t的状态st是不可见的，所以观察者没法通过观察��C��个状态序列s1,s2,s3,…,sT来推��{�U�L��率等参数。但是隐马尔�U�夫模型在每个时刻t�?x��)输��Z��个符号ot�Q�而且ot和st相关且仅和ot相关。这个被�U�Cؓ(f��)独立输出假设。其中隐含的状态s1,s2,s3,…是一个典型的马尔�U�夫链�?/span>
18. 隐含马尔�U�夫模型是机器学�?f��n)主要工具之一�Q�和几乎所有机器学�?f��n)的模型工具一��P��它需要一个训�l�算法（鲍姆-韦尔奇算法）(j��)和��用时的解码算法（�l�特比算法）(j��)。掌握了(ji��n)�q�两�cȝ��法，��基本上可以使用隐含马尔�U�夫模型�q�个工具�?ji��n)�?/span>
19. 鲍姆-韦尔奇算法（Baum-Welch Algorithm�Q�，首先扑ֈ�一�l�能够��生输出序列O的模型参敎ͼ��q�个初始模型成�ؓ(f��)Mtheta0�Q�需要在此基��上找��C��个更好的模型�Q�假定不但可以算�?gu��)��个模型��生O的概率P(O|Mtheta0)�Q�而且能够扑ֈ��q�个模型产生O的所有可能的路径以及(qi��ng)�q�些路径的概率。�ƈ��出一�l�新的模型参数theta1�Q�从Mtheta0到Mtheta1的过�E�称��Z��ơ�P代。接下来从Mtheta1出发��L��更好的模型Mtheta2�Q��ƈ一直找下去�Q�直到模型的质量没有明显提高为止。这样一直估计（Expectation�Q�新的模型参敎ͼ�使得输出的概率达到最大化�Q�Maximization�Q�的�q�程被称为期望值最大化�Q�Expectation-Maximization�Q�简�U�EM�q�程。EM�q�程能保证一定能收敛��C��个局部最优点�Q�但不能保证扑ֈ�全局最优点。因此，在一些自然语�a�处理的应用中�Q�这�U�无监督的鲍�?韦尔奇算法训�l�处的模型比有监督的训练得到的模型效果略差�?/span>
20. 熵，信息�늚�定义为H(X)=-SumP(x)logP(x)�Q�变量的不确定性越大，熵也��大�?/span>
21. 一个事物内部会(x��)存在随机性，也就是不��定性，假定为U�Q�而从外部消除�q�个不确定性唯一的办法是引入信息I�Q�而需要引入的信息量取决于�q�个不确定性的大小�Q�即I>U才行。当I
22. 信息的作用在于消除不��定性�?/span>
23. 互信息，对两个随��Z��件相��x��的量化度量�Q�即随机事�gX的不��定性或者说熵H(X)�Q�在知道随机事�gY条�g下的不确定性，或者说条�g熵H(X|Y)之间的差异，即I(X;Y)=H(X)-H(X|Y)。所谓两个事件相��x��的量化度量�Q�即在了(ji��n)解了(ji��n)其中一个Y的前提下�Q�对消除另一个X不确定性所提供的信息量�?/span>
24. 相对熵（Kullback-Leibler Divergence�Q�也叫交叉熵�Q�对两个完全相同的函敎ͼ�他们的相对熵为零�Q�相对熵��大�Q�两个函数差异越大，反之�Q�相对熵��小�Q�两个函数差异越��；对于概率分布或者概率密度函敎ͼ�如果取值均大于�Ӟ��相对熵可以度量两个随机分布的差异性�?/span>
25. 弗里德里�?#183;��N��克�Q�F(tu��n)rederek Jelinek�Q�是自然语言处理真谛的先��p��?/span>
26. 技术分为术和道两种�Q�具体的做事�Ҏ(gu��)��是术�Q�做事的原理和原则是道。术�?x��)从独门�l�技到普�?qi��ng)再到落伍，�q�求术的��Z��(x��)很辛苦，只有掌握�?ji��n)道的本质和�_�N��才能永远游刃有余�?/span>
27. 真理在�Ş式上从来是简单的�Q�而不是复杂和含�؜的�?/span>
28. 搜烦(ch��)引擎不过是一张大表，表的每一行对应一个关键字�Q�而每一个关键字后面跟着一�l�数字，是包含该关键词的文献序号。但当烦(ch��)引变的非常大的时候，�q�些索引需要通过分布式的方式存储��C��同的服务器上�?/span>
29. �|�络爬虫�Q�Web Crawlers�Q�，图论的遍历算法和搜烦(ch��)引擎的关�p�R��互联网虽然复杂�Q�但是说�I�了(ji��n)其实��是一张大�?#8230;…可以把每一个网��当做一个节点，把那些超链接当做�q�接�|�页的弧。有�?ji��n)超链接�Q�可以从��M��一个网��出发，用图的遍历算法，自动讉K��到每一个网��ƈ且把他们存储��h��。完成这个功能的�E�序叫网�l�爬虫�?/span>
30. 哥尼斯堡七桥�Q�如果一个图能从一个顶点出发，每条边不重复的遍历一遍回到这个顶点，那么每一个顶点的度必��Mؓ(f��)偶数�?/span>
31. 构徏�|�络爬虫的工�E�要点：(x��)1.用BFS�Q�广度优先搜索）(j��)�q�是DFS�Q�深度优先搜索）(j��)�Q�一般是先下载完一个网站，再进入下一个网站，即BFS的成分多一些�?.��面的分析和URL的提取，如果有些�|�页明明存在�Q�但搜烦(ch��)引擎�q�没有收录，可能的原因之一是网�l�爬虫中的解析程序没能成功解析网��中不规范的脚本�E�序�?.记录哪些�|�页已经下蝲�q�的URL表，可以用哈希表。最�l�，好的�Ҏ(gu��)��一般都采用�?ji��n)这样两个技术：(x��)首先明确每台下蝲服务器的分工�Q�也��是在调度时�Q�一看到某个URL��q��道要交给哪台服务器去下蝲�Q�这样就避免�?ji��n)很多服务器对同一个URL做出是否需要下载的判断。然后，在明��分工的基础上，判断URL是否下蝲��可以批处理�?ji��n)，比如每次向哈希表�Q�一�l�独立的服务器）(j��)发送一大批询问�Q�或者每�ơ更��C��大批哈希表的内容�Q�这样通信的次数就大大减少�?ji��n)�?/span>
32. PageRank衡量�|�页质量的核�?j��)思想�Q�在互联�|�上�Q�如果一个网��被很多其他�|�页所链接�Q�说明它受到普遍的承认和信赖�Q�那么它的排名就高。同�Ӟ��对于来自不同�|�页的链接区别对待，因�ؓ(f��)�|�页排名高的那些�|�页的链接更可靠�Q�于是要�l�这些链接比较大的权重�?/span>
33. TF-IDF(Term Frequency / Inverse Document Frequency) �Q�关键词频率-逆文本频率��|��其中�Q�TF为某个网��上出现关键词的频率�Q�IDF为假定一个关键词w在Dw个网��中出现�q�，那么Dw��大�Q�w的权重越��，反之亦然�Q�公式�ؓ(f��)log(D/Dw)�?.一个词预测主题的能力越强，权重��大�Q�反之，权重��小�?.停止词的权重为零�?/span>
34. 动态规划（Dynamic Programming�Q�的原理�Q�将一个寻扑օ��E�最优的问题分解成一个个��L��局部最优的��问题�?/span>
35. 一个好的算法应该像��L��器中最有名的AK-47冲锋枪那��P��(x��)��单、有效、可靠性好而且�Ҏ(gu��)��L��Q�易操作�Q�而不应该故弄玄虚。选择��单方案可以容易解释每个步骤和�Ҏ(gu��)��背后的道理，�q�样不仅便于出问题时的查错，也容易找��C��后改�q�的目标�?/span>
36. 在实际的分类中，可以先进行奇异值分解（得到分类�l�果略显�_�糙但能较快得到�l�果�Q�，在粗分类�l�果的基��上，利用计算向量余��u的方法（对范围内的分�c�d��两两计算�Q�，在粗分类�l�果的基��上，�q�行几次�q�代�Q�得到比较精��的�l�果�?/span>
37. 奇异值分解（Singular Value Decomposition�Q�，在需要用一个大矩阵A(ch��)来描�q�成千上万文章和几十上百万词的关联性时�Q�计��量非常大，可以��A奇异值分解�ؓ(f��)X、B和Y三个矩阵�Q�Amn=Xmm*Bmn*Ynn�Q�X表示词和词类的相��x��，Y表示文本和主题的相关性，B表示词类和主题的相关性，其中B对角�U�上的元素很多值相对其他的非常��，或者�ؓ(f��)�Ӟ��可以省略。对兌��矩阵A(ch��)�q�行一�ơ奇异值分解，��可以同时完成近义词分类和文章的分类�Q�同时能得到每个主题和每个词义类之间的相��x��，�q�个�l�果非常漂亮�?/span>
38. 信息指纹。如果能够找��C��U�函敎ͼ��?000亿网址随即地映��到128位二�q�制�Q�也��是16字节的整数空��_(d��)��q��q?6字节的随机数做该�|�址的信息指�U�V��信息指�U�可以理解�ؓ(f��)��一�D�信息映��到一个多�l�二�q�制�I�间中的一个点�Q�只要这个随卛_��数做的好�Q�那么不同信息对应的点不�?x��)重合，因此�q�个二进制的数字��变成了(ji��n)原来信息所��h��的独一无二的指�U�V�?/span>
39. 判断两个集合是否相同�Q�最�W�的�Ҏ(gu��)��是这个集合中的元素一一比较�Q�复杂度O(squareN)�Q�稍好的是将元素排序后顺序比较，复杂度O(NlogN)�Q�最完美的方法是计算�q�两个集合的指纹�Q�然后直接进行比较，计算复杂度O(N)�?/span>
40. 伪随机数产生器算法（Pseudo-Random Number Generator�Q�PRNG�Q�，�q�是产生信息指纹的关键算法，通过他可以将��L��长的整数转换成特定长度的伪随机数。最早的PRNG是将一个数的��^�Ҏ(gu��)��头去��֏�中间�Q�当然这�U�方法不是很随即�Q�现在常用的是梅��旋转算法（Mersenne Twister�Q��?/span>
41. 在互联网上加密要使用��Z��加密的伪随机��C�生器�Q�Cryptography Secure Pseudo-Random Number Generator�Q�CSPRNG�Q�，常用的算法有MD5或者SHA-1�{�标准，可以��不定长的信息变成定长的128位或�?60位二�q�制随机数�?/span>
42. 最大熵模型�Q�Maximum Entropy�Q�的原理��是保留全部的不��定性，��风险降到最��。最大熵原理指出�Q�需要对一个随��Z��件的概率分布�q�行预测�Ӟ��我们的预��应当满��_��部已知的条�g�Q�而对未知的情况不要做��M��主观假设。在�q�种情况下，概率分布最均匀�Q�预��的风险最��。I.Csiszar证明�Q�对��M��一�l�不自相矛盾的信息，�q�个最大熵模型不仅存在�Q�而且是唯一的，此外�Q�他们都有同一个非常简单的形式-指数函数�?/span>
43. 通用�q�代��法�Q�Generalized Iterative Scaling�Q�GIS�Q�是最原始的最大熵模型的训�l�方法�?.假定�W�零�ơ�P代的初始模型为等概率的均匀分布�?.用第N�ơ�P代的模型来估��每�U�信息特征在训练数据中的分布。如果超�q�了(ji��n)实际的，��把相应的模型参数变��，反之变大�?.重复步骤2直至收敛。这是一�U�典型的期望值最大化�Q�Expectation Maximization�Q�EM�Q�算法。IIS(Improved Iterative Scaling)比GIS�~�短�?ji��n)一��C��个数量��?/span>
44. 布隆�q��o(h��)器实际上是一个很长的二进制向量和一�p�d��随机映射的函数�?/span>
45. 贝叶斯网�l�从数学的层面讲是一个加权的有向图，是马��?d��ng)科夫链的扩展，而从知识论的层面看，贝叶斯网�l�克服了(ji��n)马尔�U�夫那种机械的线性的�U�束�Q�它可以把�Q何有兌��的事件统一到它的框架下面。在�|�络中，假定马尔�U�夫假设成立�Q�即每一个状态只与和它直接相�q�的状态有养I��而和他间接相�q�的状态没有直接关�p�，那么它就是贝叶斯�|�络。在�|�络中每个节�Ҏ(gu��)��率的计算�Q�都可以用贝叶斯公式来进行，贝叶斯网�l�也因此得名。由于网�l�的每个弧都有一个可信度�Q�贝叶斯�|�络也被�U�C��信念�|�络�Q�Belief Networks�Q��?/span>
46. 条�g随机场是计算联合概率分布的有效模型。在一个隐含马��?d��ng)科夫模型中�Q�以x1,x2,...,xn表示观测值序列，以y1,y2,...,yn表示隐含的状态序列，那么xi只取决于产生它们的状态yi,和前后的状态yi-1和yi+1都无兟뀂显然很多应用里观察值xi可能和前后的状态都有关�Q�如果把xi和yi-1,yi,yi+1都考虑�q�来�Q�这��L(f��ng)��模型��是条�g随机场。它是一�U�特�D�的概率图模型（Probablistic Graph Model�Q�，它的�Ҏ(gu��)��性在于，变量之间要遵守马��?d��ng)科夫假设，��x��个状态的转移概率只取决于盔R��的状态，�q�一点和另一�U�概率图模型贝叶斯网�l�相同，它们的不同之处在于条仉��机场是无向图�Q�而贝叶斯�|�络是有向图�?/span>
47. �l�特比算法（Viterbi Algoritm�Q�是一个特�D�但应用最�q�的动态规划算法，利用动态规划，可以解决��M��一个图中的最短�\径问题。它之所以重要，是因为凡是��用隐含马��?d��ng)科夫模型描�q�的问题都可以用它来解码�?.从点S出发�Q�对于第一个状态x1的各个节点，不妨假定有n1个，计算出S��C��们的距离d(S,x1i)�Q�其中x1i代表��L��状�?的节炏V��因为只有一步，所以这些距��都是S��C��们各自的最短距��R�?.对于�W�二个状态x2的所有节点，要计��出从S��C��们的最短距��R��d(S,x2i)=min_I=1,n1_d(S,x1j)+d(x1j,x2i)�Q�由于j有n1�U�可能性，需要一一计算�Q�然后找到最��倹{��这样对于第二个状态的每个节点�Q�需要n1�ơ乘法计��。假定这个状态有n2个节点，把S�q�些节点的距��都��一遍，��有O(n1*n2)�ơ运��?.按照上述�Ҏ(gu��)��从第二个状态走到第三个状态一直走到最后一个状态，�q�样��得到整个网�l�从头到��最短�\径�?/span>
48. 扩频传输�Q�Spread-Spectrum Transmission�Q�和固定频率的传输相比，有三�Ҏ(gu��)��昄��好处�Q?.抗干扰能力强�?.信号能量非常低，很难获取�?.扩频传输利用带宽更充分�?/span>
49. Google针对云计��给出的解决工具是MapReduce�Q�其�Ҏ(gu��)��原理��是计算机算法上常见的分�ȝ��法（Divide-and-Conquer�Q�。将一个大��d��拆分成小的子��d��Q��ƈ完成子�Q务的计算�Q�这个过�E�叫Map�Q�将中间�l�果合�ƈ成最�l�结果，�q�个�q�程叫Reduce�?/span>
50. 逻辑回归模型�Q�Logistic Regression�Q�是��一个事件出现的概率适应��C��条逻辑曲线�Q�Logistic Curve�Q�上。典型的逻辑回归函数�Q�f(z)=e`z/e`z+1=1/1+e`-z。逻辑曲线是一条S型曲�U�，其特�Ҏ(gu��)��开始变化快�Q�逐渐减慢�Q�最后饱和。逻辑自回归的好处是它的变量范围从负无�I�到正无�I�P��而值域范围限制�?-1之间。因为值域的范围在0-1之间�Q�这样逻辑回归函数��可以和一个概率分别联�p��v来了(ji��n)。因��变量范围在负无穷到正无穷之间�Q�它?y��u)��可以把信号�l�合��h��Q�不论组合成多大或者多��的��|��最后依然能得到一个概率分布�?/span>
51. 期望最大化��法�Q�Expectation Maximization Algorithm�Q�，�Ҏ(gu��)��现有的模型，计算各个观测数据输入到模型中的计��结果，�q�个�q�程�U�Cؓ(f��)期望��D��过�E�（Expectation�Q�，或E�q�程�Q�接下来�Q�重新计��模型参敎ͼ�以最大化期望��|��q�个�q�程�U�Cؓ(f��)最大化的过�E�（Maximization�Q�，或M�q�程。这一�cȝ��法都�U�Cؓ(f��)EM��法�Q�比如隐含马��?d��ng)科夫模型的训练��?gu��)��Baum-Welch��法�Q�以�?qi��ng)最大熵模型的训�l�方法GIS��法�?/span>

胡满��?/a> 2012-09-18 15:04 发表评论

收藏:汉字拼音五笔 GB2312 GBK Unicode BIG5�~�码速查链接

Fri, 07 Sep 2012 05:15:00 GMT
http://ipseeker.cn/tools/pywb.php

胡满��?/a> 2012-09-07 13:15 发表评论

Wed, 27 Aug 2008 09:51:00 GMT
已知前序和中序：(x��)

struct NODE
{
    NODE *pLeft;
    NODE *pRight;
    char chValue;
};

int  CharInStrFirstPos(char ch, char *str, int nLen)
{
    char *pOrgStr = str;
    while (nLen > 0 && ch != *str)
    {
        str++;
        nLen--;
    }

    return (nLen > 0) ? (str - pOrgStr) : -1;
}

void ReBuild_PreIn(char *pPreOrder, char *pInOrder, int nTreeLen, NODE **pRoot)
{
    if (pPreOrder == NULL || pInOrder == NULL)
    {
        return;
    }

    NODE *pTemp = new NODE;
    pTemp->chValue = *pPreOrder;
    pTemp->pLeft = NULL;
    pTemp->pRight = NULL;

    if (*pRoot == NULL)
    {
        *pRoot = pTemp;
    }

    if (nTreeLen == 1)
    {
        return;
    }

    int nLeftLen = CharInStrFirstPos(*pPreOrder, pInOrder, nTreeLen);
    assert(nLeftLen != -1);
    int nRightLen = nTreeLen - nLeftLen -1;

    if (nLeftLen > 0)
    {
        ReBuild_PreIn(pPreOrder + 1, pInOrder, nLeftLen, &((*pRoot)->pLeft));
    }

    if (nRightLen > 0)
    {
        ReBuild_PreIn(pPreOrder + nLeftLen + 1, pInOrder + nLeftLen + 1,
            nRightLen, &((*pRoot)->pRight));
    }
}

已知后序和中序：(x��)

void ReBuild_AftIn(char *pAftOrder, char *pInOrder, int nTreeLen, NODE **pRoot)
{
    if (pAftOrder == NULL || pInOrder == NULL)
    {
        return;
    }

    NODE *pTemp = new NODE;
    pTemp->chValue = *pAftOrder;
    pTemp->pLeft   = NULL;
    pTemp->pRight  = NULL;

    if (*pRoot == NULL)
    {
        *pRoot = pTemp;
    }

    if (nTreeLen == 1)
    {
        return;
    }

    int nLeftLen = CharInStrFirstPos(*pAftOrder, pInOrder, nTreeLen);
    assert(nLeftLen != -1);
    int nRightLen = nTreeLen - nLeftLen -1;

    if (nLeftLen > 0)
    {
        ReBuild_AftIn(pAftOrder + nRightLen + 1, pInOrder, nLeftLen, &((*pRoot)->pLeft));
    }

    if (nRightLen > 0)
    {
        ReBuild_AftIn(pAftOrder + 1, pInOrder + nLeftLen + 1,
            nRightLen, &((*pRoot)->pRight));
    }
}

我上传了(ji��n)一个工VC的工�E�，有兴��的朋友�Ҏ(gu��)��下蝲。代码参考于《编�E�之��》�?br />

胡满��?/a> 2008-08-27 17:51 发表评论

欧美韩日一区,欧美一区二区三区在线观看,一区二区三区回区在观看免费视频

LeetCode �?Median of Two Sorted Arrays - findMedianSortedArrays

深入���出LSH

LSH Locality-Sensitive Hashing 局部敏感哈希算法�ȝ��

转：(x��)�l�典的String Hash���法

转：(x��)循环有序数组查找问题

转：(x��)模拟�z�牌(扑克)�E�序

转：(x��)���h��距离

转：(x��)MySQL索引背后的数据结构及(qi��ng)���法原理

�? 数学之美�W�记

收藏:汉字拼音 五笔 GB2312 GBK Unicode BIG5�~�码速查链接

深入��出LSH

转：(x��)�l�典的String Hash��法

转：(x��)��h��距离

转：(x��)MySQL索引背后的数据结构及(qi��ng)��法原理

收藏:汉字拼音五笔 GB2312 GBK Unicode BIG5�~�码速查链接