posted @ 2010-10-08 00:06 李熙建 閱讀(405) | 評論 (0) | 編輯 收藏
摘要: cout遇到的這個小問題,主要有兩點值得注意:其一,參數入棧的順序在c++默認調用約定下是從右向左的;其二,第一趟將每個參數計算出當前參數表達式的值。另外,當我們發現有些問題不好理解時候,最好的方法就是查看反匯編代碼。 閱讀全文






























如果要返回環的入口節點
一種效率比較低的方法是
一個指針p1從表頭開始,指針p2 初始化為判環時找到的指針,p1每前進一步,由p2遍歷一次環中各結點,遍歷過程中每次都要判斷p1是否p2
當p2 == fast時候,p1 = p1.next,繼續循環。這樣肯定能找到入口,但是效率為O(n^2)
posted @ 2010-09-24 12:30 李熙建 閱讀(3167) | 評論 (4) | 編輯 收藏
這個問題源于《編程之美》2.14 求數組的子數組之和的最大值擴展問題2
輸出子數組的最大和同時輸出子數組下標,時間復雜度為O(N)
源碼:


















































posted @ 2010-07-18 16:37 李熙建 閱讀(806) | 評論 (0) | 編輯 收藏
引理:如果 a 是一個大于1的整數,而所有小于或等于根號 a 的素數都除不盡 a ,則 a 是素數。
理想的判斷素數的方法應該是將所有小于或等于根號n的素數去除n,但是n是一個隨機大于1的整數,小于這個數的平方根的素數表不好給定。下面介紹的方法,本意是動態的構建素數表,但是引入了很多冗余的除數。
代碼:
bool prime (int num)


{
if (num == 2 || num == 3 || num == 5)
return true;
if (num % 2 == 0 || num % 3 == 0 || num % 5 == 0 || num == 1)
return false;

unsigned long c = 7;
int maxc = int (sqrt (num));
while (c <= maxc)

{
if (num % c == 0)
return false;
c += 4;
if (num % c == 0)
return false;
c += 2;
if (num % c == 0)
return false;
c += 4;
if (num % c == 0)
return false;
c += 2;
if (num % c == 0)
return false;
c += 4;
if (num % c == 0)
return false;
c += 6;
if (num % c == 0)
return false;
c += 2;
if (num % c == 0)
return false;
c += 6;
}
return true;
}
分析:
相對于sqrt(n)次除,上面的程序需要sqrt(n)*8/30次除,效率提升了15/4倍。
自然數n,我們假設小于n的素數數F(n),F(n)的分布規律為:當n趨向于無窮大時,F(n)/(x/logx) = 1;
所以,動態的冗余度近似為:(sqrt(n)*4/15-x/logx)/sqrt(n)*4/15
其他更好的判斷素數的算法,希望你能給我留言或者寫在評論上,謝謝!
理想的判斷素數的方法應該是將所有小于或等于根號n的素數去除n,但是n是一個隨機大于1的整數,小于這個數的平方根的素數表不好給定。下面介紹的方法,本意是動態的構建素數表,但是引入了很多冗余的除數。
代碼:










































分析:
相對于sqrt(n)次除,上面的程序需要sqrt(n)*8/30次除,效率提升了15/4倍。
自然數n,我們假設小于n的素數數F(n),F(n)的分布規律為:當n趨向于無窮大時,F(n)/(x/logx) = 1;
所以,動態的冗余度近似為:(sqrt(n)*4/15-x/logx)/sqrt(n)*4/15
其他更好的判斷素數的算法,希望你能給我留言或者寫在評論上,謝謝!
posted @ 2010-07-16 21:40 李熙建 閱讀(4225) | 評論 (3) | 編輯 收藏
申明:Blog上的文章只是個人學習的一些記錄和總結,這些記錄部分來自于網絡,加上自己的一些理解,有些已經找不到最原始的出處了,在此對大牛們的貢獻表示感謝,如有侵權的地方,請通知我,我會盡快刪除。
對關注性能的程序開發人員而言,一個好的計時部件既是益友,也是良師。計時器既可以作為程序組件幫助程序員精確的控制程序進程,又是一件有力的調試武器,在有經驗的程序員手里可以盡快的確定程序的性能瓶頸,或者對不同的算法作出有說服力的性能比較。GPU程序性能瓶頸測試,比較常用的工具是NVIDIA PerfHUD ,它能準確測量出渲染管線的每個階段消耗的時間,從時間軸上可以很明顯的看出在渲染一幀是,渲染瓶頸在哪個階段,從而根據具體情況進行優化。CPU程序性能分析工具,Intel公司的 VTune在業界比較常用,一直想用,還沒試過。
然而下面將要介紹的,從網上搜集到的一些關于程序代碼段時間統計函數,用于單個算法的性能分析,比上面提及的工具,更加方便,輕量,易用,根據你對時間統計的精度要求,選擇不同的時間統計函數。
1.C語言時間庫<time.h>的clock()函數
unsigned long sTime,eTime;
double dTime;
sTime = click();

/**////TODO
eTime = click();
dTime = (double)(eTime-sTime)/CLOCKS_PER_SEC;
2. RDTSC :(Read Time Stamp Counter) [1]
在Intel Pentium以上級別的CPU中,有一個稱為“時間戳(Time Stamp)”的部件,它以64位無符號整型數的格式,記錄了自CPU上電以來所經過的時鐘周期數。由于目前的CPU主頻都非常高(1GHz = 109),因此這個部件可以達到納秒級(一秒的10億分之一,即等于10的負9次方秒)的計時精度。這個精確性是上述方法所無法比擬的。在Pentium以上的CPU中,提供了一條機器指令RDTSC(Read Time Stamp Counter)來讀取這個時間戳的數字,并將其保存在EDX:EAX寄存器對中。由于EDX:EAX寄存器對恰好是Win32平臺下C++語言保存函數返回值的寄存器,所以我們可以把這條指令,嵌入匯編代碼的方式,看成是一個普通的函數調用。像這樣:
inline unsigned __int64 GetCycleCount()

{
__asm RDTSC
}
但是不行,因為RDTSC不被C++的內嵌匯編器直接支持,所以我們要用_emit偽指令直接嵌入該指令的機器碼形式0X0F、0X31,如下:
inline unsigned __int64 GetCycleCount()

{
__asm _emit 0x0F
__asm _emit 0x31
}
以后在需要計數器的場合,可以調用兩次GetCycleCount函數,比較兩個返回值的差,像這樣:
#include <iostream>
#include <Windows.h>
using namespace std;
inline unsigned __int64 GetCycleCount()


{
__asm _emit 0x0F
__asm _emit 0x31
}
int main()


{
unsigned long t;
t = (unsigned long)GetCycleCount();
Sleep(1000);
t = (unsigned long)GetCycleCount() - t;
cout<<"時間:"<<t<<endl;
system("pause");
return 0;
}
我的CPU是2.0GHz
所以輸出結果:
時間:1995027270
程序所花時間秒數 = RDTSC讀出的周期數T1-RDTSC讀出周期數T2 / CPU主頻速率(Hz)
缺點:
1.數據抖動比較厲害,每次測得結果都不一樣,波動幅度上百甚至上千
2.在多核下不準確或不可用,有以下幾個方面的原因[2]:
a.兩個CPU核的內部計數器不同步。如果程序兩次讀取這個計數器的時候恰好被輪換到不同的核上,那么用來計時就會有比較大的誤差。
b.CPU 的時鐘頻率可能變化,例如筆記本電腦的節能功能;
c.亂序執行導致 RDTSC 測得的周期數不準,這個問題從 Pentium Pro 時代就存在。
解決方法[3]:可以采用設定線程親核性的方法。函數SetThreadAffinityMask可以指定某線程只在某些核上運行(由第二個參數設定,每個位代表一個核)。例如,在需要調用RDTSC的那個線程里執行SetThreadAffinityMask(GetCurrentThread(), 0x00000001);就能保證該線程只在第一個核上運行,不會因為兩個核的RDTSC計數器不同步而造成計時誤差。我在windows7和VS2005下測試,測出的數據和我CPU主頻不符,我一度懷疑剛買的筆記本是不是被刷屏了,后來還找了其他的一些測CPU的工具,比如CPU-Z,這個問題還沒解決。
3.使用QueryPerformanceCounter查詢函數方法
這個方法在多核下照常有效,QueryPerformanceFrequency()參數只和主板上的高精度定時器的晶振頻率相關
在面的例子是兩種求平方根的算法的性能比較,一種采用庫函數的sqrt(),另一種方法是《編程珠璣》上介紹的牛頓迭代法求平方根,原理類似于二分查找,但是牛頓迭代法收斂速度相比快很多。
#include <iostream>
#include <cmath>
using namespace std;
int main()


{
//a待輸入的開平方根數
//x 選取的x0點
//y 每次迭代的中間值
double a, x,y;
unsigned long start,endt;
cin>>a;
LARGE_INTEGER t1,t2,tc;
QueryPerformanceFrequency(&tc);
printf("Frequency:%u\n",tc.QuadPart);
QueryPerformanceCounter(&t1);
if (a<0)
cout<<"負數沒有平方根!"<<endl;
else

{
x = 1;
y = (x+a/x)/2;
while (x!=y)

{
x = y;
y = (x+a/x)/2;
}
}
QueryPerformanceCounter(&t2);
//牛頓迭代法求平方根所需時間;
printf("Lasting Time:%u\n",(t2.QuadPart-t1.QuadPart));
//duration = (double)(finish - start)/CLOCKS_PER_SEC ;
cout <<a<<"的平方根為:"<<x<<endl;
QueryPerformanceCounter(&t1);
sqrt(a);
QueryPerformanceCounter(&t2);
//math.h庫函數sqrt求平方根所需時間;
printf("Lasting Time:%u\n",(t2.QuadPart-t1.QuadPart));
cout<<a<<"的平方根為:"<<sqrt(a)<<endl;
system("pause");
return 0;
兩種求平方根所需時間對比如下:

在圖形學中求平方根使用頻率非常高,尤其是在碰觸檢測中,盡量提高求平方根的效率是非常有必要的。
總結:效率就是生命,在平時的項目開發中盡量做到簡單,簡單代表高效。這是檢測高效的第一步。
引用:
[1]:http://zhidao.baidu.com/question/41853032.html
[2]:http://blog.csdn.net/Solstice/archive/2010/01/16/5196544.aspx
[3]:http://blog.21ic.com/user1/5184/archives/2009/65439.html
對關注性能的程序開發人員而言,一個好的計時部件既是益友,也是良師。計時器既可以作為程序組件幫助程序員精確的控制程序進程,又是一件有力的調試武器,在有經驗的程序員手里可以盡快的確定程序的性能瓶頸,或者對不同的算法作出有說服力的性能比較。GPU程序性能瓶頸測試,比較常用的工具是NVIDIA PerfHUD ,它能準確測量出渲染管線的每個階段消耗的時間,從時間軸上可以很明顯的看出在渲染一幀是,渲染瓶頸在哪個階段,從而根據具體情況進行優化。CPU程序性能分析工具,Intel公司的 VTune在業界比較常用,一直想用,還沒試過。
然而下面將要介紹的,從網上搜集到的一些關于程序代碼段時間統計函數,用于單個算法的性能分析,比上面提及的工具,更加方便,輕量,易用,根據你對時間統計的精度要求,選擇不同的時間統計函數。
1.C語言時間庫<time.h>的clock()函數








在Intel Pentium以上級別的CPU中,有一個稱為“時間戳(Time Stamp)”的部件,它以64位無符號整型數的格式,記錄了自CPU上電以來所經過的時鐘周期數。由于目前的CPU主頻都非常高(1GHz = 109),因此這個部件可以達到納秒級(一秒的10億分之一,即等于10的負9次方秒)的計時精度。這個精確性是上述方法所無法比擬的。在Pentium以上的CPU中,提供了一條機器指令RDTSC(Read Time Stamp Counter)來讀取這個時間戳的數字,并將其保存在EDX:EAX寄存器對中。由于EDX:EAX寄存器對恰好是Win32平臺下C++語言保存函數返回值的寄存器,所以我們可以把這條指令,嵌入匯編代碼的方式,看成是一個普通的函數調用。像這樣:



































所以輸出結果:
時間:1995027270
程序所花時間秒數 = RDTSC讀出的周期數T1-RDTSC讀出周期數T2 / CPU主頻速率(Hz)
缺點:
1.數據抖動比較厲害,每次測得結果都不一樣,波動幅度上百甚至上千
2.在多核下不準確或不可用,有以下幾個方面的原因[2]:
a.兩個CPU核的內部計數器不同步。如果程序兩次讀取這個計數器的時候恰好被輪換到不同的核上,那么用來計時就會有比較大的誤差。
b.CPU 的時鐘頻率可能變化,例如筆記本電腦的節能功能;
c.亂序執行導致 RDTSC 測得的周期數不準,這個問題從 Pentium Pro 時代就存在。
解決方法[3]:可以采用設定線程親核性的方法。函數SetThreadAffinityMask可以指定某線程只在某些核上運行(由第二個參數設定,每個位代表一個核)。例如,在需要調用RDTSC的那個線程里執行SetThreadAffinityMask(GetCurrentThread(), 0x00000001);就能保證該線程只在第一個核上運行,不會因為兩個核的RDTSC計數器不同步而造成計時誤差。我在windows7和VS2005下測試,測出的數據和我CPU主頻不符,我一度懷疑剛買的筆記本是不是被刷屏了,后來還找了其他的一些測CPU的工具,比如CPU-Z,這個問題還沒解決。
3.使用QueryPerformanceCounter查詢函數方法
這個方法在多核下照常有效,QueryPerformanceFrequency()參數只和主板上的高精度定時器的晶振頻率相關
在面的例子是兩種求平方根的算法的性能比較,一種采用庫函數的sqrt(),另一種方法是《編程珠璣》上介紹的牛頓迭代法求平方根,原理類似于二分查找,但是牛頓迭代法收斂速度相比快很多。


































//牛頓迭代法求平方根所需時間;






//math.h庫函數sqrt求平方根所需時間;




兩種求平方根所需時間對比如下:
在圖形學中求平方根使用頻率非常高,尤其是在碰觸檢測中,盡量提高求平方根的效率是非常有必要的。
總結:效率就是生命,在平時的項目開發中盡量做到簡單,簡單代表高效。這是檢測高效的第一步。
引用:
[1]:http://zhidao.baidu.com/question/41853032.html
[2]:http://blog.csdn.net/Solstice/archive/2010/01/16/5196544.aspx
[3]:http://blog.21ic.com/user1/5184/archives/2009/65439.html
posted @ 2010-07-13 23:03 李熙建 閱讀(1036) | 評論 (0) | 編輯 收藏
《more effective c++》條款19:
c++真正的所謂臨時對象是不可見的----不會在你的源代碼出現。
無名臨時對象通常發生在兩種情況:
1. 當隱式類型轉換(implicit type conversions)發生時;
2. 當函數返回對象時。
了解這些臨時對象如何被產生和被銷毀,很重要,因為這些對象伴隨的構造成本和析構成本可能對你的程序性能產生值得注意的沖擊。
c++真正的所謂臨時對象是不可見的----不會在你的源代碼出現。
無名臨時對象通常發生在兩種情況:
1. 當隱式類型轉換(implicit type conversions)發生時;
2. 當函數返回對象時。
了解這些臨時對象如何被產生和被銷毀,很重要,因為這些對象伴隨的構造成本和析構成本可能對你的程序性能產生值得注意的沖擊。
posted @ 2009-12-24 09:56 李熙建 閱讀(286) | 評論 (0) | 編輯 收藏
摘要: 之前遇到QT不支持TGA圖片顯示的缺陷,人家寫的一種彌補的辦法,借用一下,手動寫一個函數,加載TGA圖片,希望對遇到同樣問題的朋友有用。如果你有更好的方法也不妨告訴我,非常感謝!
1#define QT3_SUPPORT 2#include <QtGui/QApplication.h>  ... 閱讀全文
posted @ 2009-09-16 18:06 李熙建 閱讀(2068) | 評論 (1) | 編輯 收藏
我們現在想做的是類似Unreal 3中材質編輯器
設計思想就是,美工可以很容易的實現想要實現的材質,而不需要動手編碼,只需要拉你需要的表示進行組織,通過帶箭頭的線連接起來,what you see is what you play:基本框架已經出來,能實現少量幾種材質效果,比如:法線,視差,Relief
我希望結識一些研究實時渲染的朋友,一起交流GPU編程!!!
貼幾張效果圖:
1.沒有添加任何特效的貼圖:

2.加上法線貼圖的貼圖:

3.加一張黑白圖做偏移參照,視差偏移貼圖:
設計思想就是,美工可以很容易的實現想要實現的材質,而不需要動手編碼,只需要拉你需要的表示進行組織,通過帶箭頭的線連接起來,what you see is what you play:基本框架已經出來,能實現少量幾種材質效果,比如:法線,視差,Relief
我希望結識一些研究實時渲染的朋友,一起交流GPU編程!!!
貼幾張效果圖:
1.沒有添加任何特效的貼圖:
2.加上法線貼圖的貼圖:
3.加一張黑白圖做偏移參照,視差偏移貼圖:
posted @ 2009-09-15 15:21 李熙建 閱讀(949) | 評論 (3) | 編輯 收藏
1 string轉CString
CString.format("%s",string.c_str());
2 CString 轉 string
UNICODE編碼:
CString inStr;
setlocale(LC_ALL,"chs");
char* p = new char[...];//足夠長
wcstombs( p , str , str.GetLength() );
string outStr = p;
ASCII編碼:
CString inStr;
string outStr = (const char*)str;
3 Char* 轉CString
CSstring.format("%s",char*);
4 CString互轉char*
CString strtest;
char * charpoint;
charpoint=strtest.GetBuffer(strtest.GetLength());
5 char *轉 string
string s(char*);
6 string 轉 char *
char *p = string.c_str();
《C++標準函數庫》中說的
有三個函數可以將字符串的內容轉換為字符數組和C—string
1.data(),返回沒有”\0“的字符串數組
2,c_str(),返回有”\0“的字符串數組
3,copy()
7 CString轉int
CString ss="1212.12";
int temp=atoi(ss);
//CString aaa = "16" ;
//int int_chage = atoi((lpcstr)aaa) ;
8 int轉CString
CString aa;
aa.Format("%d",temp);
Format函數的功能很強,好好研究一下。
9 int 轉 string
int a = 2;
char p[NUM];//NUM夠用
string desStr = itoa(a,p,10)//第三個參數很有意思,這里的10代表的是10進制,如果你的例子中 a =10 ,itoa(a,p,16)的話,desStr = "a";
10 string 轉 int
string srcStr= "222";
int a = atoi(srcStr);
posted @ 2009-08-26 12:19 李熙建 閱讀(496) | 評論 (0) | 編輯 收藏