腳本語言是快速編寫富有彈性的代碼的重要方法之一,在 Unix 系統自動化管理中已經應用了多種腳本語言。現在,在許多應用開發中,也提供了腳本層,這大大方便用戶實現通用任務自動處理或者編寫應用擴展,許多成功的應用,諸如 GIMP、Emacs、MS Office、PhotoShop、AutoCAD 等都應用了腳本技術。在某種意義上,一切皆可腳本化。
在另一篇文章中,我們已經介紹了如何在 C 應用中嵌入 Python 語言,通過這項技術,可以讓應用的高級用戶來修改或定制化他們的程序,你可以充分利用 Python 的語言能力而不用自己去實現嵌入語言。Python 是一個不錯的的選擇,因為它提供了干凈直觀的 C 語言 API。關于如何在 C 應用中嵌入 Python 解釋器,你可以參考:讓Python成為嵌入式語言一文。
現在我們來更深入地探討一些問題。 鑒于許多復雜的應用都會利用多線程技術,本文將著重介紹如何創建線程安全的界面來調用Python解釋器。
這里的所有例子都是用 Python 2.7.2,所有的 Python 函數都以extern “C”定義,因此對于 C 和 C++,其使用是別無二致的。Python C 和線程
在C程序中創建執行線程是很簡單的。在 Linux 中,通常的做法是使用 POSIX 線程(pthread) API 并調用 pthread_create 函數。關于如何使用 pthreads,你可以參考 Felix Garcia 和Javier Fernandez 著的 “POSIX Thread Libraries”一文。為了支持多線程, Python 使用了互斥使訪問內部數據結構串行化。這種互斥即 “全局解釋器鎖 – global interpreter lock”,當某個線程想使用 Python 的C API的時候,它必須獲得 全局解釋器鎖,這避免了會導致解析器狀態崩潰的競爭條件(race condition)。
互斥的鎖定和釋放是通過 PyEval_AcquireLock 和 Eval_ReleaseLock 來描述的。調用了 PyEval_AcquireLock 之后,可以安全地假定你的線程已經持有了鎖,其他相關線程不是被阻塞就是在執行與 Python 解析器無關的代碼。現在你可以任意調用 Python 函數了。一旦取得了鎖,你必須確保調用 PyEval_ReleaseLock 來釋放它,否則就會導致線程死鎖并凍結其他 Python 線程。
更復雜的情況是,每個運行 Python 的線程維護著自己的狀態信息。這些和特定線程相關的數據存儲在稱為 PyThreadState 的對象中。當在多線程應用中用 C 語言調用 Python API 函數時,你必須維護自己的 PyThreadState 對象以便能安全地執行并發的 Python 代碼。
如果你對開發多線程應用相當有經驗,你可能會發現全局解釋器鎖的概念相當不方便。不過,現在它已經不像首次出現時那樣糟糕了。當 Python 對腳本進行解釋時,它會定期切換出當前 PyThreadState 對象并釋放全局解釋器鎖,從而將控制權釋放給其他線程。之前被阻塞的線程可以試圖鎖定全局解釋器鎖從而被運行。有些時候,原來的線程會再次獲得全局解釋器鎖再次切回解釋器。
這意味著當調用 PyEval_SimpleString 時,即使你持有全局解釋器鎖,其他線程仍有機會被執行,這樣的副作用無可避免。另外,當你調用以 C 語言寫就的 Python 模塊(包括許多內置模塊) 存在著將控制權釋放給其他線程的可能性。基于這個原因,當你用兩個 C 線程來執行計算密集的 Python 腳本,它們確實能分享 CPU 時間并發運行,但由于全局解釋器鎖的存在,在多處理器的計算機上,Python 無法通過線程充分計算機的 CPU 處理能力。
啟用線程支持在多線程的 C 程序使用 Python API 之前,必須調用一些初始化例程。如果編譯解釋器庫時啟用了多線程支持(通常情況如此),你就有了一個是否啟用線程的運行時選項。除非你計劃使用線程,否則不建議啟用該選項。未啟用該選項,Python 可以避免因互斥鎖定其內部數據結構而產生的系統開銷。但是如果你打算用 Python 來擴展多線程應用,你就需要在初始化解釋器的時候啟用線程支持。我個人建議,應該在主線程執行時就初始化 Python,最好是在應用程序啟動的時候,就調用下面兩行代碼:
這兩個函數都返回 void,所以無需檢查錯誤代碼。現在,我們可以假定 Python 解釋器已準備好執行 Python 代碼。Py_Initialize 分配解釋器庫使用的全局資源。調用PyEval_InitThreads 則啟用運行時線程支持。這導致 Python 啟用其內部的互斥鎖機制,用于解釋器內代碼關鍵部分的系列化訪問。此函數的另一個作用是鎖定全局解釋器鎖。該函數完成后,需要由用戶負責釋放該鎖。不過,在釋放鎖之前, 你應該捕獲當前 PyThreadState 對象的指針。后續創建新的 Python 線程以及結束使用 Python 時要正確關閉解釋器,都需要用到該對象。下面這段代碼用來捕獲 PyThreadState 對象指針:
創建新的執行線程在 Python 里,每個執行 Python 代碼的線程都需要一個 PyThreadState 對象。解釋器使用此對象來管理每個線程獨立的數據空間。理論上,這意味著一個線程中的動作不會牽涉到另一個線程的狀態。例如,你在一個線程中拋出異常,其他 Python 代碼片段仍會繼續運行,就好象什么事情都沒有發生一樣。你必須幫助 Python 管理每個線程的數據。為此,你需要為每個執行 Python 代碼的 C 線程手工創建一個 PyThreadState 對象.要創建 PyThreadState 對象,你需要用到既有的 PyInterpreterState 對象。PyInterpreterState 對象帶有為所有參與的線程所共享的信息。當你初始化 Python 時,它就會創建一個 PyInterpreterState 對象,并將它附加在主線程的 PyThreadState 對象上。你可以使用該解釋器對象為你自己的 C 現成創建新的 PyThreadState。請參考下面代碼
清除線程一旦你的 C 線程不再需要 Python 解釋器,你必須釋放相關資源。為此,需要刪除該線程的 PyThreadState 對象,相關代碼如下:
通過使用 Python API ,這個線程很有效率地完成了上述工作。現在你可以安全地調用 pthread_ext 來結束該線程的運行。關閉解釋器一旦應用不在需要 Python 解釋器,你可以用下面的代碼將 Python 關閉掉:
// shut down the interpreterPyEval_AcquireLock();Py_Finalize();
注意:因為 Python 已經被關系,這里就不需要釋放鎖。請確保在調用 Py_Finalize 之前用 PyThreadState_Clear 和 PyThreadState_Delete 刪除掉所有線程狀態對象。
小結:作為嵌入式語言,Python 是一個不錯的選擇。Python 解釋器同時支持嵌入和擴展,它允許 C 應用程序代碼和嵌入的 Python 腳本之間的雙向通信。此外,多線程支持促進了與多線程應用程序的集成,而且不影響性能。
你可以從本文的后面下載有關案例Python embedded HTTP Server (29),該案例實現了一個內嵌 Python 解釋器的多線程 HTTP 服務器。此外我推薦您去 http://www.python.org/docs/api/ 閱讀有關的 Python C API 文檔。另外 Python 解釋器本身的代碼也是一個很有價值的參考。
Copyright @ C++技術中心 Powered by: .Text and ASP.NET Theme by: .NET Monster