C语言调用python脚本3

ccsdu2009 — Sat, 07 Dec 2013 07:48:00 GMT

脚本如下:

from bs4 import BeautifulSoup

def list_get(file):
    soup = BeautifulSoup(open(file))
    alist = soup.find_all('a',class_ = 'link')
    list = []
    for i in alist:
        list.append(i.get('href'));
    #for i in list:
    #    print(i)
    return list

if __name__=="__main__":
    list_get('List.htm')

list_get函数�q�回的是list字符串对�?br />其c语言调用的代码如�?

#include <stdio.h>
#include <stdlib.h>
#include <Python.h>

char* GDALPythonObjectToCStr(PyObject* pyObject);

int main(int argc, char *argv[])
{
    Py_Initialize();
    if(!Py_IsInitialized())
    {
        return -1;
    }

    PyRun_SimpleString("import sys");
    PyRun_SimpleString("sys.path.append('./script')");
    PyObject* pModule;
    PyObject* pDict;
    PyObject* pFunc;

    pModule = PyImport_ImportModule("list");
    if(!pModule)
    {
        printf("can't find list.py");
        system("PAUSE");
        getchar();
        return -1;
    }

    pDict = PyModule_GetDict(pModule);
    if(!pDict)
    {
        return -1;
    }

    pFunc = PyDict_GetItemString(pDict,"list_get");
    if(!pFunc || !PyCallable_Check(pFunc))
    {
        printf("can't find function [list_get]");
        getchar();
        return -1;
    }

    PyObject* args = PyTuple_New(1);
    PyTuple_SetItem(args,0,Py_BuildValue("s","List.htm"));
    PyObject* value = PyObject_CallObject(pFunc,args);
    int ret = PySequence_Check(value);
    printf("check:%d\n",ret);
    int length = PySequence_Size(value);
    printf("length:%d\n",length);

    int i = 0;
    for(;i<length;i++)
    {
        PyObject* obj = PySequence_GetItem(value,i);
        //char* str = PyBytes_AS_STRING(obj);
        char* str = GDALPythonObjectToCStr(obj);
        printf("link:%s\n",str);
        free(str);
    }

    Py_DECREF(args);
    Py_DECREF(pModule);
    Py_Finalize();
    system("PAUSE");
    return 0;
}

/* Return a NULL terminated c String from a PyObject */
/* Result must be freed with GDALPythonFreeCStr */
char* GDALPythonObjectToCStr(PyObject* pyObject)
{
#if PY_VERSION_HEX >= 0x03000000
    if(PyUnicode_Check(pyObject))
    {
        char *pszStr;
        char *pszNewStr;
        Py_ssize_t nLen;
        PyObject* pyUTF8Str = PyUnicode_AsUTF8String(pyObject);
        PyBytes_AsStringAndSize(pyUTF8Str,&pszStr,&nLen);
        pszNewStr = (char*)malloc(nLen+1);
        memcpy(pszNewStr,pszStr,nLen+1);
        Py_XDECREF(pyUTF8Str);
        return pszNewStr;
    }
    else if(PyBytes_Check(pyObject))
    {
        char *pszStr;
        char *pszNewStr;
        Py_ssize_t nLen;
        PyBytes_AsStringAndSize(pyObject,&pszStr,&nLen);
        pszNewStr = (char*)malloc(nLen+1);
        memcpy(pszNewStr,pszStr,nLen+1);
        return pszNewStr;
    }
    else
    {
        char *pszStr = (char*)malloc(1);
        pszStr[0] = '\0';
        return pszStr;
    }
#else
    return PyString_AsString(pyObject);
#endif
}

ccsdu2009 2013-12-07 15:48 发表评论

使用Beautiful Soup 解析html文档

ccsdu2009 — Sat, 07 Dec 2013 03:17:00 GMT

不得不承认，有时候��用python比c++方便很多�Q?br />��拿解析html来说�Q��?Beautiful Soup ��比使用libtidy方便很多 - 当然也有可能�?div>Beautiful Soup��装的很厉害�?br />
使用Beautiful Soup的一个例子如�?

from bs4 import BeautifulSoup

soup = BeautifulSoup(open('List.htm'))
for a in soup.find_all('a',class_ = 'link'):
print (a.get('href'))

目的是找出html中class属性�ؓ(f��)link的a节点对应的href属性字�W�串
如果是��用c++ libtidy的话
对应的代码如�?

Bool TIDY_CALL tidyFilterCb(TidyDoc tdoc,TidyReportLevel lvl,uint line,uint col,ctmbstr mssg)
{
    return no;
}

void extractContent(TidyNode node,TidyDoc doc);

void parseContent(TidyNode node,TidyDoc doc)
{
    TidyNode child;
    for(child = tidyGetChild(node);child;child = tidyGetNext(child))
    {
        if(tidyNodeIsA(child))
            extractContent(child,doc);
        else
            parseContent(child,doc);
    }
}

void extractContent(TidyNode node,TidyDoc doc)
{
    if(yes == tidyNodeIsA(node))
    {
        TidyAttr cls = tidyAttrGetCLASS(node);
        if(cls != NULL)
        {
            char* value = (char*)tidyAttrValue(cls);
            if(!strcmp(value,"link"))
            {
                TidyAttr href = tidyAttrGetHREF(node);
                if(href != NULL)
                {
                    char* link = (char*)tidyAttrValue(href);
                    printf("link:%s\n",link);
                    return;
                }
            }
        }
    }
    parseContent(node,doc);
}

void tidyParseHtml(char* file)
{
    TidyDoc doc = tidyCreate();
    tidySetReportFilter(doc,tidyFilterCb);
    tidyParseFile(doc,file);
    TidyNode body = tidyGetBody(doc);
    TidyNode child;
    for(child = tidyGetChild(body);child;child = tidyGetNext(child))
    {
        parseContent(child,doc);
    }
    tidyRelease(doc);
}

�q�是很啰嗦的

当然下面的python代码也能完成��d��:

from bs4 import BeautifulSoup

soup = BeautifulSoup(open('List.htm'))
list = soup.select('a[class="link"]')
for a in list:
if a.has_attr('href'):
print (a.get('href'))

如果惛_��析网��|��觉得BeatifulSoup�l�对是一个利�?br />链接:

http://www.crummy.com/software/BeautifulSoup/bs4/doc/

ccsdu2009 2013-12-07 11:17 发表评论

一区三区视频,久久久91精品国产一区二区三区 ,国产精品蜜臀在线观看

C语言调用python脚本3

使用Beautiful Soup 解析html文档