说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
首页
频道
批量下载
联系我们
问题反馈
投诉渠道
商务合作
注册会员
首页
批量下载
联系我们
问题反馈
投诉渠道
商务合作
注册会员
批量下载
ICS35.240.01 L 70 中华人民共和国国家标准 GB/T36452—2018 信息处理用藏文分词规范 Specification on Tibetan segmentation for information processing 2019-01-01实施 2018-06-07发布 国家市场监督管理总局 发布 中国国家标准化管理委员会 GB/T36452—2018 目 次 前言 引言 II 1 范围 2规范性引用文件 3术语和定义 4 分词规范 参考文献 15 GB/T36452—2018 前言 本标准按照GB/T1.1一2009给出的规则起草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 本标准由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。 本标准起草单位:中国电子技术标准化研究院、西藏大学、西北民族大学、西藏自治区藏语文工作委 员会办公室、青海师范大学、青海民族大学、中国科学院软件研究所、西藏自治区工业和信息化厅 本标准主要起草人:扎西加、欧珠、尼玛扎西、熊涛、格桑多吉、多拉、拉巴泽仁、大罗桑朗杰、高定国、 拉琼、仁青诺布、索南尖措、旺堆、小尼玛扎西、普次仁、顿珠次仁、赵栋材、边巴嘉措、 1 GB/T36452—2018 引言 本标准以现代藏语的词类和分词研究成果为基础,根据藏文词汇特点与构词规律,并参考汉语分词 及词类标记相关标准(见参考文献)的部分内容,规定了信息处理用藏文分词规范。 Ⅱ GB/T 36452—2018 信息处理用藏文分词规范 1范围 本标准规定了信息处理用藏文分词规范 本标准适用于藏文信息处理各领域,其他行业和有关学科可参照使用。 2规范性引用文件 2 下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文 件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 GB/T36337—2018信息处理用藏语词类标记集 术语和定义 3 下列术语和定义适用于本文件。 3.1 词 word 区别事物意义的最小的语法单位。 3.2 词组 1phrase 两个或更多词组合成的语言单位。 注:词组可以是实词与实词的组合,也可以是实词和虚词的组合。 3.3 藏文信息处理 Tibetan information processing;TIP 用计算机对藏文的音、形、义等信息进行处理。 3.4 分词单位 segment unit 在分词过程中出现的词。 注:分词单位不仅限于语法词,其中也包含了信息处理所需的一部分结合紧密、使用稳定的词组。 3.5 藏文分词 Tibetan segmentation 将连续的藏文音节序列按照一定的规范重新组合词序列的过程。 4分词规范 4.1 藏文分词单位和词类的标记 本标准以"/”作为藏文分词单位的标记,藏语词类标记依据GB/T36337一2018的规定。 4.2 4.2.1由单音节名词和单音节形容词组成的词为一个分词单位 1 GB/T36452—2018 示例: 示例: 4.2.3由名词性分词单位和专职词“引"组成的名词为一个分词单位 示例: 4.2.4名词性的构词后缀“”不单独切分。 示例: /e.. /e./.e. . .. 4.2.5四音节构成的复合词为一个分词单位。 示例: 4.2.6五音节构成的复合词为一个分词单位。 示例: 4.2.7三音节构成的固定词组为一个分词单位。 示例: 4.2.8四音节构成的固定词组为一个分词单位。 示例: 4.2.9五音节及以上音节构成的固定词组为一个分词单位。 示例: 4.3人名<(nr) 4.3.1不易区分姓和名的笔名通常作为一个分词单位。 示例: 4.3.2人名的译名按其习惯形式作为一个分词单位。 示例: 4.3.3人名(包括带格助词的人名)作为一个分词单位 2 GB/T36452—2018 示例: 4.4地名>(ns) 4.4.1山丘河流等名称作为一个分词单位。 示例: 4.4.2地名后有表示自然区划的普通名词,如“a1”等,作为一个分词单位。 示例: 4.4.3地址叙述中的大小地名分别作为一个分词单位,如其中地名或路名是一个音节则不予切分。 示例: 4.5国名(ng) 国名不论长短,作为一个分词单位。 示例: 4.6族群名(ne) 4.6.1表示民族、人种的词作为一个分词单位。 示例: 4.6.2表示部落、部族的词作为一个分词单位。 示例: 4.6.3表示文种、语种的词作为一个分词单位。 示例: 4.7团体机构名<>(na) 4.7.1行政区划称谓中两个音节及以上做切分,地名或行政区划名如其中一个是单音节,则不切分,将 地名与行政区划名合起来作为一个词。 示例: 3
GB-T 36452-2018 信息处理用藏文分词规范
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 思安 于
2023-01-26 17:30:38
上传分享
举报
下载
原文档
(2.4 MB)
分享
友情链接
GB-T 20626.1-2017 特殊环境条件 高原电工电子产品 第1部分:通用技术要求.pdf
T-GZBC 36—2020 广东省健康医疗数据脱敏技术规范.pdf
T-CACM 1021.187—2018 中药材商品规格等级 紫苑.pdf
SY-T 7647-2021 气藏型储气库地面工程设计规范.pdf
T-CSAE 262—2022 电动汽车电池管理系统用故障注入测试规范.pdf
安芯网盾 2022年实网攻防演练蓝队防守指南.pdf
GB-T 7256.1-2022 民用机场助航灯具 第1部分:一般要求.pdf
GB 26783-2011 消防救生照明线.pdf
GB-T 7344-2015 交流伺服电动机通用技术条件.pdf
GB-T 35386-2017 无损检测 工业计算机层析成像(CT)检测用密度分辨力测试卡.pdf
GB-T 30596-2014 温拌沥青混凝土.pdf
GB-T 31914-2015 电子文件管理系统建设指南.pdf
GB-T 3078-2019 优质结构钢冷拉钢材.pdf
GB-T 24718-2023 防眩板.pdf
GB-T 20986-2023 信息安全技术 网络安全事件分类分级指南.pdf
GB-T 4622.1-2022 管法兰用缠绕式垫片 第1部分:PN系列.pdf
GB-T 33573-2017 集装箱安全智能锁阅读器通用技术规范.pdf
GB-T 42107-2022 国家科技重大专项文件归档与档案管理规范.pdf
GB-T 42884-2023 信息安全技术 移动互联网应用程序 App 生命周期安全管理指南.pdf
DB11-T 945.1-2023 建设工程施工现场安全防护、场容卫生及消防保卫标准 第1部分:通则 北京市.pdf
1
/
3
19
评价文档
赞助2元 点击下载(2.4 MB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
售后交流群
本文档由网友分享,版权归原作者,如有侵权请随时联系我们
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。