词性指以词的特点作为划分词类的根据。现代汉语的词可以分为两类14种词性。
词性分类又叫词性标注(Part-Of-Speech tag, POS-tag),常见的词性标准类型如下:
-
名词
- n 名词
- nr 人名
- nr1 汉语姓氏
- nr2 汉语名字
- nrj 日语人名
- nrf 音译人名
- ns 地名
- nsf 音译地名
- nt 机构团体名
- nz 其它专名
- nl 名词性惯用语
- ng 名词性语素
-
时间词
- t 时间词
- tg 时间词性语素
-
处所词
- s 处所词 (在公司,在学校)
-
方位词
- f 方位词
-
动词
- v 动词
- vd 副动词
- vn 名动词
- vshi 动词“是”
- vyou 动词“有”
- vf 趋向动词
- vx 形式动词
- vi 不及物动词(内动词)
- vl 动词性惯用语
- vg 动词性语素
-
形容词
- a 形容词
- ad 副形词
- an 名形词
- ag 形容词性语素
- al 形容词性惯用语
-
区别词
- b 区别词
- bl 区别词性惯用语
-
状态词
- z 状态词
-
代词
- r 代词
- rr 人称代词
- rz 指示代词
- rzt 时间指示代词
- rzs 处所指示代词
- rzv 谓词性指示代词
- ry 疑问代词
- ryt 时间疑问代词
- rys 处所疑问代词
- ryv 谓词性疑问代词
- rg 代词性语素
-
数词
- m 数词
- mq 数量词
-
量词
- q 量词
- qv 动量词
- qt 时量词
-
副词
- d 副词
-
介词
- p 介词
- pba 介词“把”
- pbei 介词“被”
-
连词
- c 连词
- cc 并列连词
Jieba下进行词性分类非常简便。
seg_lig = jieba.posseg.cut(text)
for w,tag in seg_lig:
print "%s /%s" % (w,tag)
以经典句子为例,“我爱北京天安门“,词性分类的结果为:
我 /r
爱 /v
北京 /ns
天安门 /ns
使用一个稍微复杂的例子。
据半岛电视台援引叙利亚国家电视台称,叙利亚已经对美国、英国、法国的空袭进行了反击。据介绍,在叙军武器库中,对西方最具威慑力的当属各型战术地对地弹道导弹。尽管美英法是利用巡航导弹等武器发动远程空袭,但叙军要对等还击却几乎是“不可能完成的任务”。目前叙军仍能作战的战机仍是老旧的苏制米格-29、米格-23、米格-21战斗机和苏-22、苏-24轰炸机
由于文字较多,使用分行显示会十分乱,我们稍微修改代码,让分词后的词性标注结果紧跟着原单词。
seg_lig = jieba.posseg.cut(text)
print " ".join(["%s /%s" % (w,tag) for w,tag in seg_lig])
分词的结果如下所示。
据 /p 半岛 /n 电视台 /n 援引 /vn 叙利亚 /ns 国家 /n 电视台 /n 称 /v , /x 叙利亚 /ns 已经 /d 对 /p 美国 /ns 、 /x 英国 /ns 、 /x 法国 /ns 的 /uj 空袭 /v 进行 /v 了 /ul 反击 /v 。 /x 据介绍 /n , /x 在 /p 叙军 /n 武器库 /n 中 /f , /x 对 /p 西方 /s 最 /d 具 /v 威慑力 /n 的 /uj 当属 /n 各型 /r 战术 /n 地对地 /n 弹道导弹 /n 。
尽管 /c 美英 /nz 法 /j 是 /v 利用 /n 巡航导弹 /n 等 /u 武器 /n 发动 /vn 远程 /n 空袭 /v , /x 但 /c 叙军 /n 要 /v 对 /p 等 /u 还击 /v 却 /d 几乎 /d 是 /v “ /x 不 /d 可能 /v 完成 /v 的 /uj 任务 /n ” /x 。 /x 目前 /t 叙军 /n 仍 /d 能 /v 作战 /v 的 /uj 战机 /n 仍 /d 是 /v 老 /a 旧 /a 的 /uj 苏制 /n 米格 /nrt - /x 29 /m 、 /x 米格 /nrt - /x 23 /m 、 /x 米格 /nrt - /x 21 /m 战斗机 /n 和 /c 苏 /ns - /x 22 /m 、 /x 苏 /j - /x 24 /m 轰炸机 /n , /x 它们 /r 在 /p 现代化 /vn 的 /uj 西方 /s 空军 /n 面前 /f 难 /a 有 /v 自保 /vn 之 /u 力 /n , /x 因此 /c 叙军 /n 的 /uj 远程 /n 反击 /v 只能 /v 依靠 /v 另 /r 一个 /m 撒手锏 /n — /x — /x 地对地 /n 战术 /n 弹道导弹 /n 。