分类导航

Sqlite 发布时间：2022-05-22 发布网站：大佬教程 code.js-code.com

大佬教程收集整理的这篇文章主要介绍了Sqlite中文排序研究，大佬教程大佬觉得挺不错的，现在分享给大家，也给大家做个参考。

sqlite是一个用C语言实现的小型sql数据库引擎。它体积小巧但功能强大，对硬件资源要求很低而且性能表现卓越，非常适合于嵌入式应用环境。最近发现sqlite并不支持中文(拼音/笔画)排序，而这个功能又是我们必需的，所以花了些时间去研究。我对sqlite的了解只能算是业余级，在研究的过程或许走了些弯路，或许已经有现存的算法可利用，不管怎么样，在研究过程中还是有不少收获，写出来和大家探讨一下。

我们知道，计算机中的每一个字符都有一个内码。在默认情况下，计算机排序时，比较两个字符的大小就是比较字符内码的大小，这对于英文来说没有问题，因为英文字母的内码是按字母顺序递增的。对于中文来说，就比较麻烦了：首先，中文的排序方式有多种，比如按内码排序、按拼音排序和按笔画排序，要通过参数指定排序的方式，否则计算机就按内码排序了。其次，汉字的内码顺序即不同于拼音顺序，也不同于按笔画顺序。在GB2312编码中，汉字基本上按拼音排序（据说有例外，不太清楚）。在GBK中，它在GB2312基础上进行了扩充，兼容GB2312中的所有字符，所以不是按拼音排序了。在Unicode中，汉字的排列似乎更没有什么规律可言了。

为了解决内码顺序与用户习惯顺序(如拼音顺序)的冲突，在glibc的locale数据里，要求提供排序方式(collatE)的描述。我看了一下glibc-2.3.5提供的locale数据，在简体中文(zh_CN)的locale数据描述里，关于排序方式的描述如下：

% ISO 14651 collation sequence

LC_ColLATE

copy "iso14651_t1"

END LC_ColLATE

也就是说，照抄iso14651_t1的排序方式。打开iso14651_t1文件看了一下，也没有发现关于中文的特殊处理，可以推断glibc默认的排序方式就是按unicode排序。

所以不能指望glibc提供中文排序功能，如果sqlite支持了中文排序只能是做了特殊处理。浏览了一下sqlite的代码，这种希望似乎也不大。在网上也没有查到相关的资料和补丁，看来只能靠自己了。

不过，在浏览sqlite代码时还是有些收获，至少知道了它比较数据记录的过程：

1. sqlite3VdbeExec调用sqlite3BtreeInsert把记录插入到适当的位置。

2. sqlite3BtreeInsert调用sqlite3BtreeMoveto找到要插入的位置。

3. sqlite3BtreeMoveto调用sqlite3VdbeRecordCompare比较两条记录的大小。

4. sqlite3VdbeRecordCompare调用sqlite3MemCompare比较字段的大小。

5. sqlite3MemCompare调用binCollFunc去做真正的比较。

6. binCollFunc是一个回调函数，由外层设置的。

进一步研究，知道了binCollFunc的来源：

1. struct CollSeq是一个用来比较的对象，它带有一个比较函数和相关上下文。

2. 通过multiSELEctCollSeq找到合适的CollSeq对象。

3. @H_172_39@multiSELEctCollSeq调用sqlite3ExprCollSeq查找。

4. @H_172_39@multiSELEctCollSeq调用sqlite3checkCollSeq查找。

5. 查找标准是SELECT或create table所带的ColLATE子句。

6. 也就是说可以通过SELECT或create table的参数来决定选择哪个比较函数。

基于上面这些认识，我们知道比较函数是可以指定的了。接下来的问题是，我们能否自定义比较函数，如何自定义，以及如何安装到sqlite里。很快发现sqlite已经提供了安装比较函数的接口:

intsqlite3_create_collation16(

sqlite3* db,

constchar *zname,

intenc,

voID* pCtx,

int(*xCompare)(voID*,int,constvoID*,constvoID*)

)

int sqlite3_create_collation(

sqlite3* db,constvoID*)

)

前者用来安装UTF-16的比较函数，后者用来安装UTF-8的比较函数。我们发现，在main.c里已经安装了一些内置的比较函数：

sqlite3_create_collation(db,"BINARY",@R_224_5607@UTF8,binCollFunc);

sqlite3_create_collation(db,@R_224_5607@UTF16,"NOCASE",nocaseCollaTingFunc);

好了，原理清楚了，我们要做的只是提供一个比较函数，并且安装进去就OK了。@R_674_10639@，我写一个按拼音排序的比较函数(按笔画排序类似):

intpinyin_cmp(

voID *NotUsed,

intnkey1,constvoID *pkey1,

intnKey2,constvoID *pKey2)

{

intn = nkey1 < nkey1 ? nkey1 : nKey2;

return pinyin_strncmp(pkey1,pKey2,n + 1);

}

安装比较函数时要注意，因为我们实现的比较函数是针对UTF-16的，所以名字要用UTF-16编码。但是由于linux下默认的wchar_t是32位的，不能直接用L”pinyin”的方式把ANSI字符串转换成UTF-16字符串，只能按下列方式。

unsignedshortzname[] = {'p','i','n','y',0};

sqlite3_create_collation16(db,zname,16,pinyin_cmp);

测试结果正常(红色部分为按拼音排序，蓝色部分为默认排序):

sqlite> create table person(@R_555_4687@t,agE int );

sqlite> insert into person values("张三",23);

sqlite> insert into person values("张三丰",23);

sqlite> insert into person values("李四",24);

sqlite> insert into person values("李四叔",24);

sqlite> insert into person values("王五",25);

sqlite> insert into person values("王五妹",25);

sqlite> insert into person values("赵七",26);

sqlite> insert into person values("赵七姑",26);

sqlite>

sqlite> SELEct * from person order by name collate pinyin;

李四 |24

李四叔 |24

王五 |25

王五妹 |25

张三 |23

张三丰 |23

赵七 |26

赵七姑 |26

sqlite> SELEct * from person order by name;

张三 |23

张三丰 |23

李四 |24

李四叔 |24

王五 |25

王五妹 |25

赵七 |26

赵七姑 |26

总结：sqlite的架构设计非常优秀，接口定义得也比较合理，支持中文排序变得非常简单。

[open source] 拼音排序函数库发布

@H_187_673@ 最近在做资源管理器的设计，SPEC要求中文文件名按拼音排序。于是花了点时间去研究关于拼音排序的问题，然后又花了两小时写了一个函数库。其实知道了原理，按拼音排序的实现很简单，放到这里供大家参考吧。

@H_187_673@

@H_187_673@ 我们知道，计算机中的每一个字符都有一个内码。在默认情况下，计算机排序时，比较两个字符的大小就是比较字符内码的大小，这对于英文来说没有问题，因为英文字母的内码是按字母顺序递增的。对于中文来说，就比较麻烦了：首先，中文的排序方式有多种，比如按内码排序、按拼音排序和按笔画排序，要通过参数指定排序的方式，否则计算机就按内码排序了。其次，汉字的内码顺序即不同于拼音顺序，也不同于按笔画顺序。在GB2312编码中，汉字基本上按拼音排序（据说有例外，不太清楚）。在GBK中，它在GB2312基础上进行了扩充，兼容GB2312中的所有字符，所以不是按拼音排序了。在Unicode中，汉字的排列似乎更没有什么规律可言了。

@H_187_673@

@H_187_673@ 为了解决内码顺序与用户习惯顺序(如拼音顺序)的冲突，在glibc的locale数据里，要求提供排序方式(collatE)的描述。我看了一下glibc-2.3.5提供的locale数据，在简体中文(zh_CN)的locale数据描述里，关于排序方式的描述如下：

% ISO 14651 collation sequence

LC_ColLATE

copy "iso14651_t1"

END LC_ColLATE

@H_187_673@

@H_187_673@ 也就是说，照抄iso14651_t1的排序方式。打开iso14651_t1文件看了一下，也没有发现关于中文的特殊处理，可以推断glibc默认的排序方式就是按unicode排序。由此看来，glibc没有提供拼音排序功能，只能由我们自己去实现了。

@H_187_673@

@H_187_673@ 实现拼音排序其实很简单，我们可以先取出汉字的拼音然后再比较。这种方法会不会性能低下呢？实际上不会，看起来取拼音过程可能会有点慢，但是一次比较函数调用只需要一次取拼音函数调用，因为只当它们的内码不同时才调用取拼音的函数。

@H_187_673@

@H_187_673@如果仅仅是为了比较汉字的拼音顺序，其实我们可以用更简单的办法，而不必存储那些拼音数据。我们只要预先把所有汉字按拼音排序，汉字在排序后位置偏移量，就可以用来作为比较的基准值。

@H_187_673@

@H_187_673@ 如何找到所有汉字呢？如果需要GBK/Unicode中的汉字，GBK和Unicode中的汉字是一一对应的，在Unicode中，汉字所在的区间为0x4e00 - 0x9FA5，所以一个循环就可以打印出所有的汉字。

@H_187_673@

@H_187_673@ 如何按拼音排序呢？很简单，有很多工具可以完成这一功能，像wps/word/pagemaker/excel。Word排序太慢，而且对行数也有限制，还是用excel吧。

@H_187_673@

@H_187_673@ 数据如何组织？很简单，建立一张unicode与排序偏移量的映射表就行了。考虑到汉字与非汉字之间的比较，我们需要把偏移量加上0x4e00。考虑到空间问题，0x4e00前面都不是汉字，我们的表只要0x9FA5 - 0x4e00 + 1大小就行了，所以表中的unicode要减去0x4e00。

@H_187_673@

@H_187_673@有兴趣的朋友可以到这里下载。

大佬总结

以上是大佬教程为你收集整理的Sqlite中文排序研究全部内容，希望文章能够帮你解决Sqlite中文排序研究所遇到的程序开发问题。

如果觉得大佬教程网站内容还不错，欢迎将大佬教程推荐给程序员好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：不管怎么样

上一篇: SQLite内存数据库使用有感下一篇:SQLite3 C/C++ 开发接口简介（AP...

猜你在找的Sqlite相关文章

SQLite 运算符 2022-05-22
是否可以在sqlite中定义位列？ 2019-11-06
在sqlite3中,是否有foreign_key完整性检查？ 2019-11-06
是什么导致这个sqlite外键不匹配？ 2019-11-06
在SQLite中创建ENUM和类型 2019-11-06
database – sqlite：如何添加总时间hh：mm：ss where column datatype是DATETIME？ 2019-11-06
在SQLite中是count(*)的常量时间,如果没有,那么什么是替代？ 2019-11-06
sqlite – 如何在swift中捆绑预先填充的数据库 2019-11-06
如何在SQLite上使用CTE和更新/删除？ 2019-11-06
如何优化SQLite ORDER BY rowid？ 2019-11-06