要將一個數(shù)組的所有元素向左旋轉k位,通常有三種算法:
算法1(分組交換):
若a長度大于b,將ab分成a0a1b,交換a0和b,得ba1a0,只需再交換a1 和a0。
若a長度小于b,將ab分成ab0b1,交換a和b0,得b0ab1,只需再交換a 和b1。
不斷將數(shù)組劃分和交換,直到不能再劃分為止。分組過程與求最大公約數(shù)很相似。
讀寫內存各 n到2*n次
算法2 (三次反轉)
利用ba=(br)r(ar)r=(arbr)r,先分別反轉a、b,最后再對所有元素進行一次反轉。
讀寫內存各約2*n次
算法3 (使用循環(huán)鏈)
假設 n、k的最大公約數(shù)為M,則所有序號為 (i + j*k) % n (0<= i < M, 0 <= j < n/M)的元素,構成M個循環(huán)鏈(i值相同的在同一個循環(huán)鏈上), 每個循環(huán)鏈上的元素移動到前一個元素的元素,就可以交換到最終結果上的位置,因而總共只要讀寫內存各n次。(比如: 1 2 3 4 5 6,左移2位, 1 3 5 和 2 4 6分別構成兩個循環(huán)鏈。)
事實上C++標準算法庫提供了現(xiàn)成的函數(shù):rotate函數(shù)。按理說,幾種算法都比較簡單,編譯器的庫函數(shù)又是經(jīng)過時間檢驗的,效率即使比手寫的差,也不會差太多。但如果對rotate函數(shù)進行測試的話,可能會發(fā)現(xiàn)標準庫的版本慢得可不是一點點。
對VC 2010,運行后面的測試程序,自定義函數(shù)(采用算法2)要用99ms,而std::rotate卻要1656ms。是庫的實現(xiàn)者不懂得用這個簡單的算法嗎?檢查下庫的源代碼,就會發(fā)現(xiàn):標準算法庫中,對C++的三種迭代器(前向迭代器、雙向迭代器,隨機訪問迭代器),分別采用了上面三種算法。直接調用其內部的實現(xiàn)(std::_Rotat函數(shù)),重新測試下,可得到下面結果:
迭代器 | 前向(算法1) | 雙向(算法2) | 隨機訪問(算法3) |
時間(ms) | 46 | 99 | 1651 |
(使用GCC的,請用版本號低于4.5的進行測試)
從結果可以看出,效率是:算法1 > 算法2 >>> 算法3。
從理論上講,算法3只要讀寫內存各n次,應該是效率最高的算法。這在每次內存讀寫的開銷相差不大時成立。但實際上,由于硬件限制,CPU對內存的訪問采用分級緩存機制:一級緩存容量很小但訪問速度最快,存放程序的指令和最常用的數(shù)據(jù),而二、三級緩存容量較大但訪問速度要慢很多。CPU是無法繞過緩存直接訪問內存數(shù)據(jù)(某些特殊指令可以不用一二三級緩存,但它也要用到其它專用緩存),對不在緩存中的數(shù)據(jù),必須先載入到緩存中,這個操作是相當昂貴的。對大數(shù)組來說,不可能將所有數(shù)據(jù)都存放在緩存中,而對內存的不連續(xù)訪問,CPU對內存定位的開銷(各級緩存間數(shù)據(jù)的調整,反復移入或移出數(shù)據(jù)到緩存)是巨大的,這就造成了算法3的性能在該情況下非常差。測試發(fā)現(xiàn),k = 3時,該算法的效率就已經(jīng)相當差了。對小數(shù)組,盡管該算法讀寫次數(shù)少,但由于各種算法所用時間都很小,這種優(yōu)勢很難體現(xiàn)出來。可以說,算法3在數(shù)學上是非常優(yōu)美的,但是在實際應用中,是一種相當差的算法。
對算法的選擇,不應該忽視內存因素。在對隨機訪問迭代器版本的roate實現(xiàn)上犯這個錯誤的,可不僅僅是VC,還有著名的STL Port、GCC(GCC從4.5開始libstdc++改用算法1,并做了些優(yōu)化),以及新興的libc++。(其它的編譯器/庫沒用過,也就沒有測試。)
另外,測試時發(fā)現(xiàn)VC 2010的一個bug:前向迭代器的實現(xiàn)版本,當k = 0時,程序直接掛了。
測試代碼:

rotate
1
2 // www.cnblogs.com/flyinghearts
3
4 #include <vector>
5 #include <algorithm>
6 #include <iterator>
7 #include <ctime>
8
9 #if __GNUC__
10 #define ROTATE std::__rotate
11 #elif _MSC_VER
12 #define ROTATE std::_Rotate
13 #else
14 #error "You should use GCC or VC"
15 #endif
16
17
18
19 template<unsigned Count, bool Show, typename T, typename Iterator_tag>
20 void test(T beg, T mid, T end, const Iterator_tag& iterator_tag, const char *str = "")
21 {
22 unsigned sum = 0;
23 for (unsigned i = 0; i != Count; ++i) {
24 unsigned ta = clock();
25 ROTATE(beg, mid, end, iterator_tag);
26 ta = clock() - ta;
27 sum += ta;
28 if (Show) printf("%s %u ms\n", str, ta);
29 }
30 if (Show) printf("aveg: %u ms\n\n", sum / Count);
31 else printf(" %s total: %u ms\n", str, sum);
32 }
33
34
35 template<unsigned Count, bool is_std, typename T>
36 void test2(T beg, T mid, T end,const char *str = "")
37 {
38 unsigned sum = 0;
39 for (unsigned i = 0; i != Count; ++i) {
40 unsigned ta = clock();
41 if (is_std) std::rotate(beg, mid, end);
42 else {
43 std::reverse(beg, mid);
44 std::reverse(mid, end);
45 std::reverse(beg, end);
46 }
47 ta = clock() - ta;
48 sum += ta;
49 printf("%s %u ms\n", str, ta);
50 }
51 printf("aveg: %u ms\n\n", sum / Count);
52 }
53
54 template<unsigned Count, bool Show, typename T>
55 inline void test3(T beg, T mid, T end)
56 {
57 test<Count, Show>(beg, mid, end, std::forward_iterator_tag(), "forward");
58 test<Count, Show>(beg, mid, end, std::bidirectional_iterator_tag(), "bidirectional");
59 test<Count, Show>(beg, mid, end, std::random_access_iterator_tag(), "random");
60 }
61
62 int main()
63 {
64 const int N = 1e7;
65 const int M = 1024;
66 //const int M = 777;
67 std::vector<int> vec(N);
68 std::vector<int>::iterator beg(vec.begin()), mid(beg + M), end(vec.end());
69
70 printf("------\n");
71 test2<3,false>(beg, mid, end, " 3_reverse");
72 test2<3, true>(beg, mid, end, " std::rotate");
73
74 test3<3, true>(beg, mid, end);
75
76 for (int i = 1; i < 5; ++i) {
77 printf ("\n%d\n", i);
78 test3<3, false>(beg, beg + i, end);
79 }
80
81 }
82