python的jieba功能(jieba python)

python的jieba功能(jieba python)Python代码

本文目录一览:

怎么是用python 语言 使用结巴分词 呢

Python代码

#encoding=utf-8  

import jieba  

  

seg_list = jieba.cut(“我来到北京清华大学”,cut_all=True)  

print “Full Mode:”, “/ “.join(seg_list) #全模式  

  

seg_list = jieba.cut(“我来到北京清华大学”,cut_all=False)  

print “Default Mode:”, “/ “.join(seg_list) #默认模式  

  

seg_list = jieba.cut(“他来到了网易杭研大厦”)  

print “, “.join(seg_list)

输出: 

Full Mode: 我/ 来/ 来到/ 到/ 北/ 北京/ 京/ 清/ 清华/ 清华大学/ 华/ 华大/ 大/ 大学/ 学  

  

Default Mode: 我/ 来到/ 北京/ 清华大学  

  

他, 来到, 了, 网易, 杭研, 大厦    (此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)

python的jieba功能(jieba python)

jieba库怎么安装

python安装jieba库模块。

电脑:戴尔灵越5000

系统:win10

软件:Python3.7.4

1、打开平python编译器,输入import jieba,回车后发现没有此功能库。

2、在电脑开始菜单栏上右键鼠标选择【运行】。

3、输入cmd,点击【确定】进入控制台窗口。

4、在控制台输入pip3 install jieba,回车进入下载阶段。

5、等待下载完成并安装,出现successfully即为成功。

6、返回编译器,输入import jieba,回车没有出现错误,导入模块成功。

jieba分词(R vs. python)

自然语言处理(NLP)是机器学习重要分支之一,主要应用于篇章理解、文本摘要、情感分析、知识图谱、文本翻译等领域。而NLP应用首先是对文本进行分词,当前中文分词器有Ansj、paoding、盘古分词等多种,而最基础的分词器应该属于jieba分词器(比较见下图)。

下面将分别应用R和python对jieba分词器在中文分词、词性标注和关键词提取领域的应用进行比较。

R实现

通过函数worker()来初始化分词引擎,使用segment()进行分词。有四种分词模式:最大概率法(MP)、隐马尔科夫模型(HMM)、混合模型(Mix)及索引模型(query),默认为混合模型。具体可查看help(worker).

#install.packages(‘jiebaR’)library(jiebaR)mixseg – worker()segment( “这是一段测试文本” , mixseg ) #或者用以下操作mixseg[‘这是一段测试文本’]mixseg = “这是一段测试文本”

python实现

python中需安装jieba库,运用jieba.cut实现分词。cut_all参数为分词类型,默认为精确模式。

import jiebaseg_list = jieba.cut(u”这是一段测试文本”,cut_all = False)print(“Full mode: “+ “,”.join(seg_list))  #默认精确模式

无论是R还是python都为utf—8编码。

R实现

可以使用=.tagger 或者tag 来进行分词和词性标注,词性标注使用混合模型模型分词,标注采用和 ictclas 兼容的标记法。

words = “我爱北京天安门”tagger = worker(“tag”) #开启词性标注启发器tagger = words    #    r        v      ns      ns    # “我”    “爱”  “北京” “天安门”

python实现

#词性标注import jieba.posseg as psegwords = pseg.cut(“我爱北京天安门”)for word,flag in words:    print(‘%s, %s’ %(word,flag))

R实现

R关键词提取使用逆向文件频率(IDF)文本语料库,通过worker参数“keywords”开启关键词提取启发器,topn参数为关键词的个数。

keys = worker(“keywords”,topn = 5, idf = IDFPATH)keys = “会议邀请到美国密歇根大学(University of Michigan, Ann Arbor)环境健康科学系副教授奚传武博士作题为“Multibarrier approach for safe drinking waterin the US : Why it failed in Flint”的学术讲座,介绍美国密歇根Flint市饮用水污染事故的发生发展和处置等方面内容。讲座后各相关单位同志与奚传武教授就生活饮用水在线监测系统、美国水污染事件的处置方式、生活饮用水老旧管网改造、如何有效减少消毒副产物以及美国涉水产品和二次供水单位的监管模式等问题进行了探讨和交流。本次交流会是我市生活饮用水卫生管理工作洽商机制运行以来的又一次新尝试,也为我市卫生计生综合监督部门探索生活饮用水卫生安全管理模式及突发水污染事件的应对措施开拓了眼界和思路。”#结果:#        48.8677        23.4784        22.1402        20.326        18.5354 #      “饮用水”        “Flint”        “卫生”      “水污染”        “生活”

python实现

python实现关键词提取可运用TF-IDF方法和TextRank方法。allowPOS参数为限定范围词性类型。

#关键词提取import jieba.analysecontent = u’会议邀请到美国密歇根大学(University of Michigan, Ann Arbor)环境健康科学系副教授奚传武博士作题为“Multibarrier approach for safe drinking waterin the US : Why it failed in Flint”的学术讲座,介绍美国密歇根Flint市饮用水污染事故的发生发展和处置等方面内容。讲座后各相关单位同志与奚传武教授就生活饮用水在线监测系统、美国水污染事件的处置方式、生活饮用水老旧管网改造、如何有效减少消毒副产物以及美国涉水产品和二次供水单位的监管模式等问题进行了探讨和交流。本次交流会是我市生活饮用水卫生管理工作洽商机制运行以来的又一次新尝试,也为我市卫生计生综合监督部门探索生活饮用水卫生安全管理模式及突发水污染事件的应对措施开拓了眼界和思路。’#基于TF-IDFkeywords = jieba.analyse.extract_tags(content,topK = 5,withWeight = True,allowPOS = (‘n’,’nr’,’ns’))for item in keywords:        print item[0],item[1]  #基于TF-IDF结果# 饮用水 0.448327672795# Flint 0.219353532163# 卫生 0.203120821773# 水污染 0.186477211628# 生活 0.170049997544

#基于TextRankkeywords = jieba.analyse.textrank(content,topK = 5,withWeight = True,allowPOS = (‘n’,’nr’,’ns’))for item in keywords:        print item[0],item[1]    #基于TextRank结果:# 饮用水 1.0# 美国 0.570564785973# 奚传武 0.510738424509# 单位 0.472841889334# 讲座 0.443770732053

写在文后

自然语言处理(NLP)在数据分析领域有其特殊的应用,在R中除了jiebaR包,中文分词Rwordseg包也非常常用。一般的文本挖掘步骤包括:文本获取(主要用网络爬取)——文本处理(分词、词性标注、删除停用词等)——文本分析(主题模型、情感分析)——分析可视化(词云、知识图谱等)。本文是自然语言处理的第一篇,后续将分别总结下应用深度学习Word2vec进行词嵌入以及主题模型、情感分析的常用NLP方法。

参考资料

Introduction · jiebaR 中文分词

知乎:【文本分析】利用jiebaR进行中文分词

雪晴数据网:全栈数据工程师养成攻略

搜狗实验室,词性标注应用

【R文本挖掘】中文分词Rwordseg

python jieba什么用

Python 中文分词组件

支持三种分词模式:

精确模式,试图将句子最精确地切开,适合文本分析;

全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

支持繁体分词

支持自定义词典

MIT 授权协议

项目地址

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/23394.html

(0)
上一篇 2023-10-29
下一篇 2023-10-29

相关推荐

  • Python移位运算详解

    Python移位运算详解移位运算是计算机编程中一种基本的操作。Python作为一种高级编程语言,也支持移位运算。本篇文章将详细介绍Python中的移位运算,包括移位运算的定义、使用方法以及注意事项。

    2024-05-31
    65
  • 乐观锁以及乐观锁的实现「建议收藏」

    乐观锁以及乐观锁的实现「建议收藏」乐观锁介绍: 乐观锁( Optimistic Locking ) 相对悲观锁而言,乐观锁假设认为数据一般情况下不会造成冲突,所以在数据进行提交更新的时候,才会正式对数据的冲突与否进行检测,如果发现冲…

    2023-03-09
    147
  • sql server 排序_sqlserver分组排序取最大一条

    sql server 排序_sqlserver分组排序取最大一条问题:在项目数据库开发中,有时我们编写的脚本,在本机执行是没有问题的,但部署到服务器的时候,却在脚本运行时报错了。报错的中英文错误提示信息分别如下。中文:无法解决 equal to 运算中 &quot

    2023-03-06
    168
  • windows 安装 mysql_windowsmysql启动命令

    windows 安装 mysql_windowsmysql启动命令 windows安装MySQL数据库 最终效果展示 具体步骤 打开MySQL官网,找到downloads 选择MySQL社区版 选择MySQL Community Server社区器 选择wi…

    2023-03-20
    155
  • 轻松实现按键称重功能的Python代码

    轻松实现按键称重功能的Python代码按键称重在实际运用中是比较常见的需求,例如,在称重传感器没有办法得到的情况下,使用按键手动输入重量成为了一个简单可行的解决方案。本文将介绍如何使用Python轻松实现这一功能。

    2023-12-14
    109
  • 使用Python编写Dockerfile

    使用Python编写Dockerfilea href=”https://beian.miit.gov.cn/”苏ICP备号-1/a Copyright www.python100.com .Some Rights Reserved.

    2024-07-27
    41
  • 利用Python ifnot语句进行编程的基础知识

    利用Python ifnot语句进行编程的基础知识a href=”https://beian.miit.gov.cn/”苏ICP备2023018380号-1/a Copyright www.python100.com .Some Rights Reserved.

    2024-04-15
    92
  • 使用PyCharm进行代码格式化

    使用PyCharm进行代码格式化随着程序员走向更加注重代码规范化和可读性的时代,代码格式化成了一项非常重要的工作。在这一点上,PyCharm这款Python编辑器为我们提供了一些非常方便易用的功能。在本文中,我将讲解如何使用PyCharm进行代码格式化。无论您所处于何种编码环境,只要使用PyCharm,就能方便地进行代码格式化。

    2024-06-28
    46

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注