ODBC可以操作Excel,给程序猿们带来了方便 ,但是其中的坑真多啊,说起来真是泪,记录下来,也帮助有需要的人不掉坑里。
1.首先,驱动有两个,
{Microsoft Excel Driver (*.xls)}和
{Microsoft Excel Driver (*.xls, *.xlsx, *.xlsm, *.xlsb)}
第一个是ODBCJT32.DLL,支持低版本的office;第二个是ACEODBC.DLL(The ODBC Excel driver (ACE)),支持高版本的Office。
建议使用高版本的驱动,如果windows没有带高版本的驱动,可以在这里下载:
http://www.microsoft.com/en-us/download/details.aspx?id=13255(Microsoft Access Database Engine 2010 Redistributable)这是2010版,也可以在上面找2016版下载。
2.ODBC DSN,一般格式如下:
DRIVER={Microsoft Excel Driver (*.xls, *.xlsx, *.xlsm, *.xlsb)};READONLY=FALSE;DBQ=xx.xls
好多文档里说还有MaxScanRows ,IMIX,HDR等选项,这方面 的资料比较少,但是好像都不起作用,
3.文件名
这就是一个大坑了,使用英文名,完全没有问题,但是有一天你突然要打开一个中文文件,可能就会发现出问题了。why?这个可能与操作系统有关,我win 10 64位,系统默认字符集是utf-8,所以DSN要转换成utf8才能正确打开文件。
4.表
表有三种:
1)自建表,Select * from MyNamedRange
2)sheet,Select * from [MyWorksheet$]
3)range , Select * from [MyWorksheet$C3:M8]
操作表的时候要注意了
5.获取文件里面的所有表
由于excel不是专门的数据库,里面没有存放一些常规数据库的信息,所以没有方法能直接获取到所有的表,只有调用ODBC API才能实现,大概是下面这样实现:
std::vector<string> TableList;
//excel get tables -->
#define TABLE_NAME_LENGTH 100
SQLHDBC hdbc;
HSTMT hStmt;
int ret = -1;
UCHAR szName[256] = { 0 };
SDWORD cbName;
ret = SQLAllocHandle(SQL_HANDLE_STMT, hdbc, &hStmt);
// 获取表信息(返回一个数据表)
ret = SQLTables(hStmt,
NULL, SQL_NTS, //(SQLCHAR*)SQL_ALL_CATALOGS
NULL, SQL_NTS,
NULL, SQL_NTS,
NULL, SQL_NTS);//(SQLCHAR*)"SYSTEM TABLE"
if (ret == SQL_ERROR)
{
SQLFreeStmt(hStmt, SQL_CLOSE);
//database.Close();
if (ret == SQL_INVALID_HANDLE)
{
//return false;
}
//return false;
}
while (1)
{
//取数据到缓冲区
ret = SQLFetch(hStmt);
if (ret == SQL_NO_DATA_FOUND)
break;
//取某一列数据(第3列为表名,其他还有表属性、数据库名等)
ret = SQLGetData(hStmt, 3, SQL_C_CHAR, szName, TABLE_NAME_LENGTH, &cbName);
OutputDebugStringA((char*)szName);
OutputDebugStringA("\t");
TableList.push_back( std::string((char*)szName) );
ret = SQLGetData(hStmt, 4, SQL_C_CHAR, szName, TABLE_NAME_LENGTH, &cbName);
OutputDebugStringA((char*)szName);
OutputDebugStringA("\n");
}
// 释放句柄
SQLFreeStmt(hStmt, SQL_CLOSE);
6.混合字段,这个是最大的坑
对于excel有些列是混合字段,如既有文本又有数字,这个时间odbc就会凌乱了,顺便也会把你带崩溃
由于excel没有专门存储列类型的结构,所以odbc驱动是不知道你这个列是什么类型的,MaxScanRows就出厂的,这个值默认是8,意思就是驱动要扫描8行,确定这个列是什么类型。这就比较麻烦了,1.混合字段只扫8行根本看不出哪个占多,就是确定了一个类型,比如文本,你读纯数字的时候,读出来的都是空值。。。。
这个只有强制在excel中把这一列设成文本,可以解决这个问题。。。
当然,实际情况中坑可能还要多,希望能有所帮助。