词库管理

词库使用

关于词库

直观易用的词库管理工具,用户使用起来更加方便;输入法本身携带更多的专业词库,用户可根据自己的需求进行扩充。新增的用户词库与系统词库有效组合,使输入更加贴近本人的输入习惯且有效的减小了用户词库的容量。

格式要求

  (1)文本词库:文件前3行分别以“名称=”、“作者=”和“编辑=”开头
                      “名称=”后跟字符串表示词库的名称,最长31个字节(一个汉字占2字节,最多15个汉字)
                      “作者=”后跟字符串表示作者的大号,最长31个字节(一个汉字占2字节,最多15个汉字)
                      “编辑=”后跟半角数字1或0表示是否允许导出和导入操作(1是0否)
                       导出就支持以文本方式查看,导入就可向该库中增加词条
                       例如,以下3行是某文本词库的前3行(它们都居于行首):
                        名称=我的朋友
                        作者=张无忌
                        编辑=1
    (2)文本词条:词语串<空白符>拼音串<空白符>词频串
                        原始文本中的“空白符”允许混用制表符和空格,也可以连续多个,但经拼音生成或检查处理后,将统一格式化为一个Tab键

约定字符

          (1)<空白符>:支持2个字符,分别是Tab和空格(ASCII为0x09和0x20)
   (2)<注释符>:支持2个字符,分别是"#"号和分号(ASCII为0x23和0x3B)以“注释符”开头的行在处理中将被忽略,不予处理
   (3)<切分符>:用于拼音串的多音节分割处理,英文单引号(ASCII为0x39)

文本词条各项说明

  (1)词语串:可由最多32个非ASCII字符组成,但有拼音的字符数不能少于2个
   (2)拼音串:由词语串中各字符的拼音连接而成,通过英文单引号 ' 进行分割
   (3)词频串:应由纯数字字符组成,且转为数值后,区间应为[0,524287] 若该串不能转换为数值或者数值越界,则词频取用缺省值——100000(十万)

其它说明

  (1)如果仅提供“词语串”,则为这个词生成拼音,且词频取用缺省值——100000
   (2)如果提供了“拼音串”,则对这个串进行检查,不正确时,将重新生成拼音
   若需重新生成,而词语中包括多音字,且系统未能决定拼音的,需人工编辑
   例如:词条“银行行长”,系统能够决定两个“行”字的拼音,但不能决定 “长”字的拼音,生成拼音为 "yin'hang'hang'chang|zhang",需人工删除,其中的 "chang|",形成唯一的拼音串"yin'hang'hang'zhang";当然,如果用户认定“长”字在此读chang,而修订为 "yin'hang'hang'chang",系统也将接受。
   (3)当“词语串”中包含的汉字多于8个时,缺省产生前8个汉字的拼音连接串
   若追求完美,可以手工补足;输入音节较多的词语,推荐“通配符*”功能 ;若追求精简,可以手工裁剪,最少可减至5个音节

词库样例

名称=公司人名词库
  作者=张三
  编辑=1
  李斐 li'fei 10000
  ……

 

词库相关操作

创建  根据一个纯文本文件生成词库,针对收录词条的纯文本文件,需检查其拼音,若出现多音字,需确定一个拼音才能创建成功。
        文件前三行有格式限制,要求如下:
        名称=×××(英文或汉字,不超过31个字节,因一个汉字占两个字节,最多为15个汉字)
        作者=×××
        编辑=0(0表示不可编辑,1为可编辑)

添加  通过用户备份或其他路径,复制一个词库文件到既定路径
        用户可将输入法V3和V5版本的词库导入到V6版本中 。 当用户需要将自己以前使用的华宇拼音输入法的词库导入到新版本中,点击“添加”,在你存放词库文件的文件夹中,选择词库文件添加即可,系统将自动导入。(注:在“文件类型”中选择V6或是V3/V5的词库文件,会显示相应的词库文件,V6版本的词库文件为*.uwl文件,而V3/V5版本的词库文件为*.dat文件)

导入  从一个纯文本文件导入到选择的词库
        每次导入txt文件时,输入法会自动检查拼音的准确度,根据检测的结果将提示用户是否导入,如选择导入,符合标准的词将导入到词库中,其他未能成功导入的词语可能是含有多音字的词语,或是由于词语过长等原因;如果需要将含有多音字的词语导入到词库中,则需要用户对多音字进行具体的音节指定,才能将其添加到词库中。

导出  将选定词库导出到指定的纯文本文件,便于用户浏览、编辑和整理

备份  将选定词库备份到指定的目录下

删除  删除您不需要的词库文件,删除后不可恢复(可以将用户词库清空)

删词  彻底删除词条,删除后将不能恢复。(删除词条,不建议彻底删除词条,建议使用鼠标右键点击某候选词,弹出右键菜单,可对该候选词进行"删除"操作。)


删除单个词条,输入要删除词条的“中文形式”,如“里斯”,程序将会查找所有已选择的词库中“里斯”的词条进行删除。


清理垃圾词条,在输入过程中使用快捷键或右键菜单所删除词条,只是在词库中做了删除标记,未真正删除。“清理垃圾词条”将会在所有已选择的词库中删除这些词条。

 

添加自造词



用户可对选中的词库增加需要的新词,需要输入词语、拼音和词频。

 

批量造词



词条数超过1万,建议使用词库管理里面的导入功能。

读取  读入已编辑好的词库文本文件

保存  将文本另存到其他位置或其他的文件名

生成/检查拼音  如果词组中有多音字,系统默认生成拼音串中该多音字的读音是所有读音中由程序自动计算为正确率最高的拼音,系统自动计算拼音不能保证100%正确率,紫光华宇会持续努力,提高准确率。

导入至词库  将当前的文本文件导入到词库管理中的一个词库中


更新选项