收藏本站|RSS订阅归教作文写作网:组词造句作文写作素材小学|中考|高考作文|论文写作技巧。
你现在的位置:归教作文网 - 内容导航 - 汉语分词_作文写作问答 - 归教作文网

汉语分词_作文写作问答 - 归教作文网

作者 : xiangzi | 分类 : 知识问答 | 更新时间:2021-05-08 00:31:48

中文分词的应用

在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。因为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计算机处理技术要想进入中国市场,首先也是要解决中文分词问题。
分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。研究中文分词的大多是科研院校,清华、北大、哈工大、中科院、北京语言学院、山西大学、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。科研院校研究的技术,大部分不能很快产品化,而一个专业公司的力量毕竟有限,看来中文分词技术要想更好的服务于更多的产品,还有很长一段路。

如何使用中文分词和自定义中文分词词典

如何使用中文分词和自定义中文分词词典

可以使用下面的命令,启用中文分词。

CREATE EXTENSION zhparser;

2.                                         

3.                                        CREATE TEXT SEARCH CONFIGURATION testzhcfg (PARSER = zhparser);

4.                                         

5.                                        ALTER TEXT SEARCH CONFIGURATION testzhcfg ADD MAPPING FOR n,v,a,i,e,l WITH simple;

6.                                         

7.                                        --可选的参数设定

8.                                        alter role all set zhparser.multi_short=on;

9.                                         

10.                                      --简单测试

11.                                      SELECT * FROM ts_parse('zhparser','hello world! 2010年保障房建设在全国范围内获全面启动,从中央到地方纷纷加大了保障房的建设和投入力度。2011年,保障房进入了更大规模的建设阶段。住房城乡建设部党组书记、部长姜伟新去年底在全国住房城乡建设工作会议上表示,要继续推进保障性安居工程建设。');

12.                                       

13.                                      SELECT to_tsvector('testzhcfg','“今年保障房新开工数量虽然有所下调,但实际的年度在建规模以及竣工规模会超以往年份,相对应的对资金的需求也会创历史纪录。”陈国强说。在他看来,与2011年相比,2012年的保障房建设在资金配套上的压力将更为严峻。');

14.                                       

15.                                      SELECT to_tsquery('testzhcfg','保障房资金压力');

利用分词进行全文索引的方法如下。

--为T1表的name字段创建全文索引

2.                                        create index idx_t1 on t1 using gin (to_tsvector('zhcfg',upper(name)));

3.                                         

4.                                        --使用全文索引

5.                                         select*from t1 where to_tsvector('zhcfg',upper(t1.name))@@ to_tsquery('zhcfg','(防火)');

还可以使用自定义的中文分词词典,使用方法如下,注意自定义中文分词词典在内核小版本和之后的版本才支持。

--确实的分词结果

2.                                        SELECT to_tsquery('testzhcfg','保障房资金压力');

3.                                         

4.                                        --往自定义分词词典里面插入新的分词

5.                                        insert into pg_ts_custom_word values ('保障房资');

6.                                         

7.                                        --使新的分词生效

8.                                        select zhprs_sync_dict_xdb();

9.                                         

10.                                      --退出此连接

11.                                      \c

12.                                       

13.                                      --重新查询,可以得到新的分词结果

14.                                      SELECT to_tsquery('testzhcfg','保障房资金压力');

使用自定义分词的注意事项如下。

最多支持条自定义分词,超出部分不做处理,用户必须保证分词数量在这个范围之内。自定义分词与缺省的分词词典将共同产生作用。

2.                                每个词的最大长度为128字节,超出部分将会截取。

3.                                通过增删改分词之后必须执行selectzhprs_sync_dict_xdb();并且重新建立连接才会生效。

中文分词的技术难点

有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。 歧义是指同样的一句话,可能有两种或者更多的切分方法。主要的歧义有两种:交集型歧义和组合型歧义,例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”。这种称为交集型歧义(交叉歧义)。像这种交集型歧义十分常见,前面举的“和服”的例子,其实就是因为交集型歧义引起的错误。“化妆和服装”可以分成“化妆 和 服装”或者“化妆 和服 装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。
交集型歧义相对组合型歧义来说是还算比较容易处理,组合型歧义就必须根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?
如果交集型歧义和组合型歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。 命名实体(人名、地名)、新词,专业术语称为未登录词。也就是那些在分词词典中没有收录,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解。句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项既不划算又巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词?
除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。

作文知识点推荐


  • 拼音字母表
  • 昆虫记摘抄
  • 母爱作文
  • mydream英语作文
  • 我的成长故事作文
  • 浙江高考作文
  • 邮递员的邮组词
  • 载的拼音和组词
  • 光组词语
  • 詹怎么组词
  • 症的多音字组词
  • bo一声组词
  • 枪字组词
  • 尺组词语
  • 同的多音字组词
  • 伋组词
  • 随拼音加组词
  • 古字加偏旁组词
  • 翊怎么组词
  • 木字组词有哪些
  • 谲组词
  • 肚胀的胀组词
  • 琛字组词
  • 喊组词和拼音
  • 组词诣
  • 用诺组词
  • 漂字的多音字组词
  • 掱组词
  • 疋组词
  • 鄂组词是什么
  • 皮组词有哪些呢
  • 篝组词怎么读
  • 幔部首和组词
  • 什么造组词
  • 须组词有哪些词语有
  • 切加偏旁组词语
  • 翘多音字怎么组词
  • 它字组词有哪些
  • 书字组词语
  • 虹什么组词
  • 载和栽组词
  • 矫健的矫怎么组词
  • 同组词有什么
  • 吞字组词有哪些
  • 西可以怎么组词
  • 怠慢的怠怎么组词
  • 龟组词语有哪些
  • 全都的都组词
  • 逗组词和读音
  • 了解的了组词
  • 用风字组词造句
  • 的字组词两个字
  • 钉怎么读音组词
  • 窑的换部首组词
  • 似的发音组词
  • 肚组词语有哪些
  • 厥组词语有哪些
  • 蚱组词和部首
  • 呀四声怎么组词
  • 傝组词
  • 有意义的英文 小学语文知识集锦 小学五年级数学课件 大学英语自我介绍 国家歌词 描写花的作文 关于战争的成语 江西财大在职研究生 原谅歌词 月 英文 川大研究生院 英语教师课堂用语 咱当兵的人歌词 小学四年级英语上册课本 回忆的句子 西北师大研究生院 南京大学研究生分数线 2017专升本毕业英语作文 春节 英文 身份证号大全和姓名 关于环保的英语作文 花生日记 伊利牛奶广告文案分析 三年级下册数学试卷 研究生信息招生网 男生英语网名 小猫的作文 欧洲的英文 以爱为话题的作文 小学生读书笔记 一顿操作猛如虎下一句 写长江的诗句 你的微笑歌词 烟雨蒙蒙歌词 幼儿园优秀教案 考研英语一和英语二的区别 梨的英文 西华师范大学研究生 快乐的我作文 秋天的果园作文 蒙古人歌词 爱囚歌词 起英文名 大学生英语自我介绍 离别歌词 辽宁工程技术大学研究生学院 英文字母设计 小学生作文培训 考研的条件 定位英文 关于下雪的诗句 幼儿园大班说课稿 小学教学计划 在职研究生信息 坚强的英语 英文作文范文 英文转换器在线翻译 英文 润色 秋天的诗句 我命由我不由天下一句 全都是泡沫下一句是什么 医学研究生 地址 英文 幼儿园孩子作文 四渡赤水歌词 二年级语文教学总结 研究生考试报名费 小学一年级数学试卷 列的英文 讨论的英文 小学四年级数学下册 中小学班主任工作条例 黄金甲歌词 湖南师范大学研究生院 英语学习技巧 苏教版小学数学 暗香歌词 销售英文 感恩祖国作文 文具盒作文 中华诗词论坛 小学生英语手抄报 销售 英文 现代诗大全 再度重相逢歌词 欧洲英文 雪人歌词 咏柳的诗句 小学生必背古诗80首 排队 英文 小学四年级日记 感恩的作文600字 幼儿游戏大全 四川大学研究生招生 奖励 英文 草原夜色美歌词 剪纸作文 河北大学在职研究生 游戏名英文 沙盘模拟实训报告心得

    汉语分词相关知识问答
    最新教育新闻