Watson Explorer 入门(13):配置中断规则

发布时间:2017-5-19 9:33:01编辑:www.fx114.net 分享查询网我要评论
本篇文章主要介绍了"Watson Explorer 入门(13):配置中断规则",主要涉及到Watson Explorer 入门(13):配置中断规则方面的内容,对于Watson Explorer 入门(13):配置中断规则感兴趣的同学可以参考一下。

可以配置中断规则词典,指示内容分析工作室如何标记文档中的文本。

中断规则决定内容分析工作室如何在文档的词法分析中将文档拆分为段落、句子和标记。标记是文本的基本单位,如单词、标点符号、数字或一串符号。例如,中断规则可以指示是否将每一行文本视为新段落。

大多数将文档拆分为组件的规则是标准的,通常不需要配置。但是,您可能需要根据文档结构和您的首选项来配置一些规则。例如,内容分析工作室将字母的顺序如“2.5cm”默认为单个标记。但你可能想分裂成多个标记序列如“2.5”和“厘米”。您可能希望分隔数字和字母标记,以便单元可以用字典识别,也可以创建解析规则或字符规则来标识数值。

源数据创建的中断规则字典存储在一个BREAKRULES 文件中。然后,中断规则文件构建在UIMA管道在词法分析阶段的字典(DIC)文件中。

如果不配置自定义中断规则字典,内容分析工作室将使用默认的中断规则。

限制
日语、中文和韩语不支持自定义中断规则文件。



上一篇:浅谈web应用的负载均衡、集群、高可用(HA)解决方案
下一篇:mysql主从配置过程记录

相关文章

相关评论

本站评论功能暂时取消,后续此功能例行通知。

一、不得利用本站危害国家安全、泄露国家秘密,不得侵犯国家社会集体的和公民的合法权益,不得利用本站制作、复制和传播不法有害信息!

二、互相尊重,对自己的言论和行为负责。

好贷网好贷款