| 1. 什么是中分词技术? |
| 中文分词技术是一种将连续的汉语文本序列按一定规则拆分为具有独立语义的词组的过程。中文分词是当前分词技术中的一种,分词技术从语言文本结构上来讲大致有两类:一类以英文为代表的西方语言文本,其文本中的词组以空格做为自然间隔,从语义准确性及技术复杂度来讲都比较简单。另一类是以汉语为代表的东亚语言文本,由于文本是由连续文字组成,缺乏有效的间隔,虽有句、段分隔,但在进行机器语言学习、文本语义理解分析过程中都需以词组为最小单位。因此东亚文本语言实现分词技术相对西方文本语言来讲, 更加的复杂和困难。 |
|
| 2. 中分词技术应用范围 |
| 中文分词技术是语言文本处理技术的基础,其广范应用于互联网信息检索、数据库信息查询、智能聊天机器人、文本校对、自动翻译、
自动摘要、自动分类及信息加工处理等各个领域。 |
|
| 3. CSW中分词组件简介 |
| CSW中文分词组件,是一套可自动将一段文本按常规汉语词组进行拆分,并以指定方式进行分隔的COM组件。本组件采用独有的高效的分词引擎及拆分算法,具有准确、高速、资源占用率小等特点。为了满足客户对文本语义进行研究分析的需要,本组件同时具有词性及词频标注功能,可根据用户要求,对其拆分后的词组进行词性标注或词频标注。
|
|
| 4. 组件特性 |
| 4.1 适应性强 |
本组全部件采用ANSI标准C++开发,可广泛应用于当今的操作系统平台上,如:MS Windows 、Linux及其它各公司出品的Unix操作系统。 |
| 4.2 支持范围广 |
在MS Windows平台下,本组件以COM接口的DLL格式进行封装,可支持所有支持COM接口调用的编程语言及脚本语言。如:PHP、JSP、ASP、ASP.net、C/C++ 、VC6.0 、VC.net、BC、C#、VB6.0 、VB.net、Delphi、Java等。 |
| 4.3 响应速度快 |
由于本组件采用高效特殊的算法引擎结构,每秒钟拆分可达数万字汉语文本(视机器性能而定。),在对搜索关键词进行拆分情况下,其响应时问均在数毫秒之内,为搜索提供强劲动力。 |
| 4.4 词组识别准确率高 |
采用特殊的词组拆分识别算法,可有效消除汉语词组中汉语歧义,并可识别各个行业内的特殊用语、专用词汇、公司名、地名等,并具有汉语成语、汉语短语识别功能。如:"醉翁之意不在酒"。经长期使用及大量文本测试其准确率可达到92%以上。 |
| 4.5 拆分覆盖面广 |
含盖了IT、化工、金融、贸易、纺织、电子、制造、冶金等各行各业以及日常生活用语中的汉语词组。 |
| 4.6 提供词组自定义功能 |
可根据用户需要自行添加汉语词组,并提单个汉字添加或从文件批量添加功能。 |
| 4.7 特殊字符过滤功能 |
可根据用户需要自行定义影响检索结果的不必要的字符。如:" ! ", " % " , " * "等 |
| 4.8 干扰字、无意义字及敏感词过滤功能。 |
可根据用户需要自行定义干扰字、无意义字、敏感词过滤列表。如:啊、唉、个、了等无意义的以及煸动、反动、黄色和侵害他人的汉字、词组及英文。 |
| 4.9 具有英文分词识别功能。。 |
本组件同时具有英文单词的分词识别功能。 |
| 4.10 词性标注功能。(限企业A版) |
词性:即词组在汉语语言中所表述的性质。如:计算机 /名词; 中国 / 名词,方位词
此功能可对拆分出的汉语词组进行词性标注,辅以开发人员理解分析文本序列中所包含的语义或意图。其广泛应用于互联网信息搜索以提高搜索精度、智能聊天机器人理解对方话语的含义等领域。整个分词标注以北京大学词性标注集为标准。(详细可参见词性标注表) |
| 4.11 词频标注功能。(限企业B版) |
词频:即词组在广域的所有汉语词组中出现的相对频率值。
此功能可对拆分出的汉语词组进行词频标识。为开发人员在对搜索关键词的理解分析上提供有效的参考,以提高检索精度。整个词频标识是以各大报刊媒体文章为基础,经过精心的统计分析制作而成,具有相当的参考价值。 |
|
| 5. 在线演示/免费下载 |
| 在线演示链接: 在线演示1(华东电信) 在线演示2(北方网通) |
| 免费下载: |
| 官方下载 (推荐,可下载到最新版本) |
| 天空软件站 硅谷动力 中国共享软件注册中心 软行天下 |
| ZDNetChina 编程爱好者 |
| |
| 6. 使用需知 |
| CSW中文分词组件5.0 的“用户许可协议”位于本文的最尾部,如用户使用本组件,则视为接受本协议内容。 |
注意 本文中所有描述均在Microsoft Windows 2000 上测试通过。如果您使用的是其他Windows版本,如有不同这里不做说明
。如果你使用的是Linux/Unix等操作系统,请访问官方网站获得更多信息。 |
|
| 7. 组件包相关文件说明 |
| 文件名称 |
文件大小 |
功能与用途 |
| CSW.dll |
154 KB |
分词组件动态链接库文件 |
| CSW.lib |
1.67 KB |
分词组件C/C++链接文件 |
| CSplitWord.dct |
9236 KB |
分词组件词库文件 |
| CSplitWord.idx |
71 KB |
分词组件索引文件 |
| Install.bat |
1 KB |
安装文件 |
| UnInstall.bat |
1 KB |
反安装文件 (注:反安装后只是从系统中卸载本组件信息,并不会删除本组件所有文件!如需完全卸载,须手工删除本组件。) |
| CSW50.asp |
2 KB |
在ASP脚本环境中,本组件的演示程序。(注:需安装配置IIS服务) |
| CSW5.0_脚本环境测试.vbs |
1 KB |
本组件在VbScript脚本中的演示程序。(注:只需点击即可运行) |
| 安装使用说明(Readme).htm |
29 KB |
关于本组件的安装使用说明及详细信息介绍 |
|
|
| 8. 与早期版本共同使用 |
| 本组件5.0版本可与本组件早期版本同时使用,不会造成任何影响。词库文件格式较早期有所不同,不可混用。 |
|
| 9. 应用平台及系统要求 |
| CSW汉语中文分词组件(标准C++) 5.00版本 |
| 处理器 |
P
Ⅱ
400 MHz 以上处理器 |
| 操作系统 |
本组件可以安装在以下任一系统上:
- Microsoft Windows NT4.0 系列
- Microsoft Windows 2000 系列
- Microsoft Windows XP 系列
- Microsoft Windows 2003 系列
- Microsoft Windows 更高版本
|
| 内存 |
- 大于64 兆字节(MB)
- 更多的内存将可获得更高的性能。
|
| 硬盘 |
磁盘空间需求:大于10 MB |
|
|
| 10. 安装/卸载CSW汉语中文分词组件 |
| 10.1 快速安装/卸载 |
·运行组件包中的install.bat文件,自动完成注册安装。
·运行组件包中的Uninstall.bat文件,自动完成卸载。(如需完全卸载,须手动删除本组件的所有文件) |
|
| 10.2 手工安装/卸载 |
·在Windows系统的命令提示符模式,输入"Regsvr32 CSW.dll"命令完成注册!(需指定CSW.dll文件的完整路径)
·在Windows系统的命令提示符模式,输入"Regsvr32 /u CSW.dll"命令完成卸载!(需指定CSW.dll文件的完整路径) |
|
| 11. 组件升级及更新 |
| 有关本组件的补丁及更新请到官方网站查询:http://www.vgoogle.net/update/index.html |
|
| 12. 组件公共属性及方法 |
| 方法名称 |
参数名称 |
类型 |
功能及用途 |
| Split |
描述: 对给定文本序列按词组进行拆分。 |
|
参数1: |
InputString |
string |
待拆分的原始文本序列。 |
| 参数2: |
OutputType |
int |
指定输出类型 (0 标准分词输出, 1 附带词性输出, 2 附带词频输出) |
| 参数3: |
DllPath |
string |
指定组件所在系统中完整路径。 |
| 返回: |
OutputString |
string |
分词后的文本序列。标准输出其间使用"空格"隔开。带词性及词频输出采用"/"间隔 |
| |
| About |
描述: 查看组件相关信息 |
|
|
参数: |
无 |
string |
分词组件动态链接库文件 |
| 返回: |
AboutCSW |
string |
与此组件相关信息。 |
| |
| AddNewWord |
描述: 添加自定义的新词组 |
|
|
参数1: |
Word |
string |
自定义的词组 |
| 返回: |
State |
string |
方法执行后的状态,字符串长度等于0,则添加成功,否则为错误信息。 |
| 备注: |
1. 如需同时添加自定义词组的词性或词频,其间须用空格间隔。如:"中文 n 62" 此处中文为自定义词组,n为词性,62为词频。 |
| |
2. 词组最大长度10个字符;词性为英文字母,最长不超过2个英文字母;词频为整型数字,最大值不超过100。 |
| |
|
AddNewWord
_File
|
描述: 从文本文件批量添加自定义的新词组 |
|
|
参数1: |
FileName |
string |
文件名称及完整路径 |
| 返回: |
State |
string |
方法执行后的状态,字符串长度等于0,则添加成功,否则为错误信息。 |
| 备注: |
1. 文件格式:每行一个词组,词组起止采用半角双引号表示,如有词性及词频,其间用空格间隔,如无可省略。例如:"中文 n 62" 此处"中文"为自定义词组,"n" 为自定义词性,"62" 为自定义词频 。 |
| |
2. 词组最大长度10个字符;词性为英文字母,最长不超过2个英文字母;词频为整型数字,最大值不超过100。 |
| |
3. 导入过程中,组件将自动去除重复词组。 |
| |
|
AddNewWord _Import
|
描述: 从其它CSW词库文件格式中导入词库(不支持5.0前版本)。 |
|
|
参数1: |
FileName |
string |
文件名称及完整路径 |
| 返回: |
State |
string |
方法执行后的状态,字符串长度等于0,则添加成功,否则为错误信息。 |
| 备注: |
导入过程中,组件将自动去除重复词组。 |
| |
|
ComponentPath
|
描述: 指定组件安装路径 |
|
|
参数1: |
DllPath |
string |
组件所在系统中完整路径。 |
| 返回: |
State |
string |
方法执行后的状态,字符串长度等于0,则执行成功,否则为错误信息。 |
| 备注: |
如调用此方法指定路径,则其它方法中可不必再次指定路径。 |
| |
|
MakeSerialNumber
|
描述: 产生此组件的机器码 |
|
|
参数1: |
无 |
|
|
| 返回: |
MachineCode |
string |
组件所安装电脑的机器码. |
| |
|
Version
|
描述: 获取组件当前版本 |
|
|
参数1: |
无 |
|
|
| 返回: |
VersionCSW |
string |
返回此组件当前版本. |
| |
|
WordBase_Load
|
描述: 加载组件的词库. |
|
|
参数1: |
DllPath |
string |
组件所在系统中完整路径。 |
| 返回: |
State |
string |
方法执行后的状态,字符串长度等于0,则添加成功,否则为错误信息。 |
| 备注: |
如调用过ComponetPath方法指定过组件路径后,则参数可略为空(零长度字符串)。 |
| |
|
WordBase_Reset
|
描述: 初始化词库 |
|
|
参数1: |
DllPath |
string |
组件所在系统中完整路径。 |
| 返回: |
State |
string |
方法执行后的状态,字符串长度等于0,则添加成功,否则为错误信息。 |
| 备注: |
如调用过ComponetPath方法指定过组件路径后,则参数可略为空(零长度字符串)。 |
| 警告: |
如调用此方法后,则所有词组将会丢失,不可恢复,慎用。 |
| |
|
WordBase_Update
|
描述: 更新词库. |
|
|
参数1: |
DllPath |
string |
组件所在系统中完整路径。 |
| 返回: |
State |
string |
方法执行后的状态,字符串长度等于0,则添加成功,否则为错误信息。 |
| 备注: |
1. 如调用过ComponetPath方法指定过组件路径后,则参数可略为空(零长度字符串)。 |
| |
2. 在添加新词后,须调用本方法将添加的词组写入词库。 |
| |
|
WordIndex_Load
|
描述: 加载词库索引. |
|
|
参数1: |
DllPath |
string |
组件所在系统中完整路径。 |
| 返回: |
State |
string |
方法执行后的状态,字符串长度等于0,则添加成功,否则为错误信息。 |
| 备注: |
如调用过ComponetPath方法指定过组件路径后,则参数可略为空(零长度字符串)。 |
| |
|
WordIndex_Reset
|
描述: 初始化词库索引 |
|
|
参数1: |
DllPath |
string |
组件所在系统中完整路径。 |
| 返回: |
State |
string |
方法执行后的状态,字符串长度等于0,则添加成功,否则为错误信息。 |
| 备注: |
如调用过ComponetPath方法指定过组件路径后,则参数可略为空(零长度字符串)。 |
| 警告: |
如调用此方法后,则所有索引信息将会丢失,不可恢复,慎用。 |
| |
|
WordIndex_Update
|
描述: 更新词库索引 |
|
|
参数1: |
DllPath |
string |
组件所在系统中完整路径。 |
| 返回: |
State |
string |
方法执行后的状态,字符串长度等于0,则添加成功,否则为错误信息。 |
| 备注: |
1. 如调用过ComponetPath方法指定过组件路径后,则参数可略为空(零长度字符串)。 |
| |
2. 在添加新词后,须调用本方法更新词库索引。 |
| |
|
|
| 13. 各语言调用示例代码 |
| 1. ASP调用示例代码 |
| 首先运行本组件包中的install.bat文件,在系统中注册本组件。 |
| <% |
| Set obj = Server.CreateObject("CSW.Splitword") |
| response.write obj.Split("待拆分原始文本",0, "c:\winnt\system") |
| set obj = nothing |
| %> |
| '参数一:InputString[string类型] 需进行分词的原始文本 |
| '参数二:OutputType[int整型] 输出类型 (0 标准分词输出, 1 附带词性输出, 2 附带词频输出) |
| '参数三:DllPath[string类型] 本组件在系统中的完整路径。 |
| '返回:OutputString[string类型] 输出分词后的文本序列。 |
|
| 2. C#调用示例代码 |
| 首先运行本组件包中的install.bat文件,在系统中注册本组件。 |
| 然后在开发工具中引用CSW.dll组件 |
| //以下为C#控制台应用程序中调用本组件示例代码. |
| CSWLib.SplitWordClass csw = new CSWLib.SplitWordClass(); |
| string text = csw.Split("待拆分原始文本",0,@"c:\winnt\system"); |
| Console.WriteLine(text); |
| Console.ReadLine(); //暂停,查看输出 |
| //参数一:InputString[string类型] 需进行分词的原始文本 |
| //参数二:OutputType[int整型] 输出类型 (0 标准分词输出, 1 附带词性输出, 2 附带词频输出) |
| //参数三:DllPath[string类型] 本组件在系统中的完整路径。 |
| //返回:OutputString[string类型] 输出分词后的文本序列。 |
|
| 3. VB6.0中调用示例代码 |
| 首先运行本组件包中的install.bat文件,在系统中注册本组件。 |
| 然后在开发工具中引用CSW.dll组件 |
| Dim csw As New CSWLib.SplitWord |
| MsgBox csw.Split("待拆分原始文本", 0, "c:\winnt\system") |
| Set csw = Nothing |
| '参数一:InputString[string类型] 需进行分词的原始文本 |
| '参数二:OutputType[int整型] 输出类型 (0 标准分词输出, 1 附带词性输出, 2 附带词频输出) |
| '参数三:DllPath[string类型] 本组件在系统中的完整路径。 |
| '返回:OutputString[string类型] 输出分词后的文本序列。 |
|
| 注:更多的调用语言示例请到官方网站查询:Http://www.vgoogle.net |
|
| 14.价格及授权 |
| 版 本 |
应用平台 |
功 能 |
价 格 |
CSW5.0共享版 |
MS Windows |
标准汉语分词功能;支持用户自定义词组单个/批量添加功能。
限制:每次最大可拆分3万个字符文本,有效期至每月1日
温謦提示:如果您只是学习或研究等非商业目的,在有效期过后,可将时间改到有效期前继续使用,不会有任何影响。 |
免费 |
|
|
|
|
CSW5.0标准版 |
MS Windows |
标准汉语分词功能;支持用户自定义词组单个/批量添加功能。 |
¥550.00 |
企业A版 |
MS Windows |
除具有标准版所有功能外,同时具有词性1输出功能。 |
¥860.00 |
企业B版 |
MS Windows |
除具有标准版所有功能外,同时具有词频2输出功能。 |
¥860.00 |
CSW5.0标准版 |
Linux/Unix |
标准汉语分词功能;支持用户自定义词组单个/批量添加功能。 |
暂示推出 |
企业A版 |
Linux/Unix |
除具有标准版所有功能外,同时具有词性1输出功能。 |
暂示推出 |
企业B版 |
Linux/Unix |
除具有标准版所有功能外,同时具有词频2输出功能。 |
暂示推出 |
| |
|
|
|
CSW3.0标准版 |
MS Windows |
标准汉语分词功能;支持用户自定义词组单个/批量添加功能。 |
停售 |
企业A版 |
MS Windows |
除具有标准版所有功能外,同时具有词性1输出功能。 |
停售 |
企业B版 |
MS Windows |
除具有标准版所有功能外,同时具有词频2输出功能。 |
停售 |
|
|
| 授权及服务说明 |
| 1. 以上价格为单份拷贝价格,仅限于唯一一台电脑或服务器中使用。 |
| 2. 每份拷贝价格中均包含一年内免费在线技术支持费用。 |
| 3. 每份拷贝价格中均包含相同版本号中相同版本的免费升级服务。 |
| 4. 对于升级更高版本的现有用户,升级费用将优惠收取。 |
| 注释 |
1. 词性: 即此词组所具有的语义性质。如:中关村 /s 词性是地名采用英文s表示;中国 /ns 词性同时具有地名和名词两种属性,采用英文n和s表示
2. 词频:即此词组在广域汉语词组中所出现的频率值(概率)。 如:中关村 /15 ,中国 /92 即此两个词组在广域汉语词组中出现的频率分别为15次和92次 |
|
| 15. 版权信息 |
| 本计算机软件中文分词(CSW)组件受国家著作权法和国际版权公约保护,任何公司或人不得以对本组件进行修改、破解、反编译、反汇编或以其它方式发现使用本组件源码或组件部分,违者将按照国家相关法律法规,在最大可能的情况下严厉追究其法律责任。未经许可,不得将本组件善自以任何形式授予其它第三方使用。对于在使用本组件过程中若造成的损失,如业务中断等,不承担任何责任与赔偿。对于本说明中所涉及的内容本组件所有者拥有最终解释权。 |
|
| CSW®商标属于本组件开发者所拥用;Windows®是美国Microsoft公司的注册商标。 |
|
| 附注:汉语词性对照表[北大标准/中科院标准] |
|
| 词性编码 |
词性名称 |
注 解 |
Ag |
形语素 |
形容词性语素。形容词代码为 a,语素代码g前面置以A。 |
a |
形容词 |
取英语形容词 adjective的第1个字母。 |
ad |
副形词 |
直接作状语的形容词。形容词代码 a和副词代码d并在一起。 |
an |
名形词 |
具有名词功能的形容词。形容词代码 a和名词代码n并在一起。 |
b |
区别词 |
取汉字“别”的声母。 |
c |
连词 |
取英语连词 conjunction的第1个字母。 |
dg |
副语素 |
副词性语素。副词代码为 d,语素代码g前面置以D。 |
d |
副词 |
取 adverb的第2个字母,因其第1个字母已用于形容词。 |
e |
叹词 |
取英语叹词 exclamation的第1个字母。 |
f |
方位词 |
取汉字“方” |
g |
语素 |
绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。 |
h |
前接成分 |
取英语 head的第1个字母。 |
i |
成语 |
取英语成语 idiom的第1个字母。 |
j |
简称略语 |
取汉字“简”的声母。 |
k |
后接成分 |
|
l |
习用语 |
习用语尚未成为成语,有点“临时性”,取“临”的声母。 |
m |
数词 |
取英语 numeral的第3个字母,n,u已有他用。 |
Ng |
名语素 |
名词性语素。名词代码为 n,语素代码g前面置以N。 |
n |
名词 |
取英语名词 noun的第1个字母。 |
nr |
人名 |
名词代码 n和“人(ren)”的声母并在一起。 |
ns |
地名 |
名词代码 n和处所词代码s并在一起。 |
nt |
机构团体 |
“团”的声母为 t,名词代码n和t并在一起。 |
nz |
其他专名 |
“专”的声母的第 1个字母为z,名词代码n和z并在一起。 |
o |
拟声词 |
取英语拟声词 onomatopoeia的第1个字母。 |
p |
介词 |
取英语介词 prepositional的第1个字母。 |
q |
量词 |
取英语 quantity的第1个字母。 |
r |
代词 |
取英语代词 pronoun的第2个字母,因p已用于介词。 |
s |
处所词 |
取英语 space的第1个字母。 |
tg |
时语素 |
时间词性语素。时间词代码为 t,在语素的代码g前面置以T。 |
t |
时间词 |
取英语 time的第1个字母。 |
u |
助词 |
取英语助词 auxiliary |
vg |
动语素 |
动词性语素。动词代码为 v。在语素的代码g前面置以V。 |
v |
动词 |
取英语动词 verb的第一个字母。 |
vd |
副动词 |
直接作状语的动词。动词和副词的代码并在一起。 |
vn |
名动词 |
指具有名词功能的动词。动词和名词的代码并在一起。 |
w |
标点符号 |
|
x |
非语素字 |
非语素字只是一个符号,字母 x通常用于代表未知数、符号。 |
y |
语气词 |
取汉字“语”的声母。 |
z |
状态词 |
取汉字“状”的声母的前一个字母。 |
un |
未知词 |
不可识别词及用户自定义词组。取英文Unkonwn首两个字母。(非北大标准,CSW分词中定义) |
|