python的jieba功能(jieba python)

python的jieba功能(jieba python)Python代码

本文目录一览:

怎么是用python 语言 使用结巴分词 呢

Python代码

#encoding=utf-8  

import jieba  

  

seg_list = jieba.cut(“我来到北京清华大学”,cut_all=True)  

print “Full Mode:”, “/ “.join(seg_list) #全模式  

  

seg_list = jieba.cut(“我来到北京清华大学”,cut_all=False)  

print “Default Mode:”, “/ “.join(seg_list) #默认模式  

  

seg_list = jieba.cut(“他来到了网易杭研大厦”)  

print “, “.join(seg_list)

输出: 

Full Mode: 我/ 来/ 来到/ 到/ 北/ 北京/ 京/ 清/ 清华/ 清华大学/ 华/ 华大/ 大/ 大学/ 学  

  

Default Mode: 我/ 来到/ 北京/ 清华大学  

  

他, 来到, 了, 网易, 杭研, 大厦    (此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)

python的jieba功能(jieba python)

jieba库怎么安装

python安装jieba库模块。

电脑:戴尔灵越5000

系统:win10

软件:Python3.7.4

1、打开平python编译器,输入import jieba,回车后发现没有此功能库。

2、在电脑开始菜单栏上右键鼠标选择【运行】。

3、输入cmd,点击【确定】进入控制台窗口。

4、在控制台输入pip3 install jieba,回车进入下载阶段。

5、等待下载完成并安装,出现successfully即为成功。

6、返回编译器,输入import jieba,回车没有出现错误,导入模块成功。

jieba分词(R vs. python)

自然语言处理(NLP)是机器学习重要分支之一,主要应用于篇章理解、文本摘要、情感分析、知识图谱、文本翻译等领域。而NLP应用首先是对文本进行分词,当前中文分词器有Ansj、paoding、盘古分词等多种,而最基础的分词器应该属于jieba分词器(比较见下图)。

下面将分别应用R和python对jieba分词器在中文分词、词性标注和关键词提取领域的应用进行比较。

R实现

通过函数worker()来初始化分词引擎,使用segment()进行分词。有四种分词模式:最大概率法(MP)、隐马尔科夫模型(HMM)、混合模型(Mix)及索引模型(query),默认为混合模型。具体可查看help(worker).

#install.packages(‘jiebaR’)library(jiebaR)mixseg – worker()segment( “这是一段测试文本” , mixseg ) #或者用以下操作mixseg[‘这是一段测试文本’]mixseg = “这是一段测试文本”

python实现

python中需安装jieba库,运用jieba.cut实现分词。cut_all参数为分词类型,默认为精确模式。

import jiebaseg_list = jieba.cut(u”这是一段测试文本”,cut_all = False)print(“Full mode: “+ “,”.join(seg_list))  #默认精确模式

无论是R还是python都为utf—8编码。

R实现

可以使用=.tagger 或者tag 来进行分词和词性标注,词性标注使用混合模型模型分词,标注采用和 ictclas 兼容的标记法。

words = “我爱北京天安门”tagger = worker(“tag”) #开启词性标注启发器tagger = words    #    r        v      ns      ns    # “我”    “爱”  “北京” “天安门”

python实现

#词性标注import jieba.posseg as psegwords = pseg.cut(“我爱北京天安门”)for word,flag in words:    print(‘%s, %s’ %(word,flag))

R实现

R关键词提取使用逆向文件频率(IDF)文本语料库,通过worker参数“keywords”开启关键词提取启发器,topn参数为关键词的个数。

keys = worker(“keywords”,topn = 5, idf = IDFPATH)keys = “会议邀请到美国密歇根大学(University of Michigan, Ann Arbor)环境健康科学系副教授奚传武博士作题为“Multibarrier approach for safe drinking waterin the US : Why it failed in Flint”的学术讲座,介绍美国密歇根Flint市饮用水污染事故的发生发展和处置等方面内容。讲座后各相关单位同志与奚传武教授就生活饮用水在线监测系统、美国水污染事件的处置方式、生活饮用水老旧管网改造、如何有效减少消毒副产物以及美国涉水产品和二次供水单位的监管模式等问题进行了探讨和交流。本次交流会是我市生活饮用水卫生管理工作洽商机制运行以来的又一次新尝试,也为我市卫生计生综合监督部门探索生活饮用水卫生安全管理模式及突发水污染事件的应对措施开拓了眼界和思路。”#结果:#        48.8677        23.4784        22.1402        20.326        18.5354 #      “饮用水”        “Flint”        “卫生”      “水污染”        “生活”

python实现

python实现关键词提取可运用TF-IDF方法和TextRank方法。allowPOS参数为限定范围词性类型。

#关键词提取import jieba.analysecontent = u’会议邀请到美国密歇根大学(University of Michigan, Ann Arbor)环境健康科学系副教授奚传武博士作题为“Multibarrier approach for safe drinking waterin the US : Why it failed in Flint”的学术讲座,介绍美国密歇根Flint市饮用水污染事故的发生发展和处置等方面内容。讲座后各相关单位同志与奚传武教授就生活饮用水在线监测系统、美国水污染事件的处置方式、生活饮用水老旧管网改造、如何有效减少消毒副产物以及美国涉水产品和二次供水单位的监管模式等问题进行了探讨和交流。本次交流会是我市生活饮用水卫生管理工作洽商机制运行以来的又一次新尝试,也为我市卫生计生综合监督部门探索生活饮用水卫生安全管理模式及突发水污染事件的应对措施开拓了眼界和思路。’#基于TF-IDFkeywords = jieba.analyse.extract_tags(content,topK = 5,withWeight = True,allowPOS = (‘n’,’nr’,’ns’))for item in keywords:        print item[0],item[1]  #基于TF-IDF结果# 饮用水 0.448327672795# Flint 0.219353532163# 卫生 0.203120821773# 水污染 0.186477211628# 生活 0.170049997544

#基于TextRankkeywords = jieba.analyse.textrank(content,topK = 5,withWeight = True,allowPOS = (‘n’,’nr’,’ns’))for item in keywords:        print item[0],item[1]    #基于TextRank结果:# 饮用水 1.0# 美国 0.570564785973# 奚传武 0.510738424509# 单位 0.472841889334# 讲座 0.443770732053

写在文后

自然语言处理(NLP)在数据分析领域有其特殊的应用,在R中除了jiebaR包,中文分词Rwordseg包也非常常用。一般的文本挖掘步骤包括:文本获取(主要用网络爬取)——文本处理(分词、词性标注、删除停用词等)——文本分析(主题模型、情感分析)——分析可视化(词云、知识图谱等)。本文是自然语言处理的第一篇,后续将分别总结下应用深度学习Word2vec进行词嵌入以及主题模型、情感分析的常用NLP方法。

参考资料

Introduction · jiebaR 中文分词

知乎:【文本分析】利用jiebaR进行中文分词

雪晴数据网:全栈数据工程师养成攻略

搜狗实验室,词性标注应用

【R文本挖掘】中文分词Rwordseg

python jieba什么用

Python 中文分词组件

支持三种分词模式:

精确模式,试图将句子最精确地切开,适合文本分析;

全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

支持繁体分词

支持自定义词典

MIT 授权协议

项目地址

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/23394.html

(0)
上一篇 2023-10-29
下一篇 2023-10-29

相关推荐

  • MYSQL的Java操作器——JDBC[亲测有效]

    MYSQL的Java操作器——JDBC[亲测有效]MYSQL的Java操作器——JDBC 在学习了Mysql之后,我们就要把Mysql和我们之前所学习的Java所结合起来 而JDBC就是这样一种工具:帮助我们使用Java语言来操作Mysql数据库 J

    2023-05-30
    117
  • 第01期:详解 Prometheu 专栏开篇「建议收藏」

    第01期:详解 Prometheu 专栏开篇「建议收藏」开篇致辞 大家好,从今天开始,我将开启一个全新的专栏叫做《详解 Prometheus》。 专栏会详细介绍 Prometheus 这款优秀的开源监控告警系统的使用,欢迎感兴趣的小伙伴关注! 一、产品简…

    2023-02-22
    115
  • Python中的.loc方法

    Python中的.loc方法Python是一门非常强大的语言,它有很多常用的工具和库,其中Pandas是数据科学领域中最常用的Python库。Pandas库提供了许多数据操作和处理方法,其中.loc()方法是非常常用的一种。在Pandas中,.loc()方法的作用是通过标签或布尔数组选择数据。在本文中,我们将对.loc()方法进行详细的介绍和探究。

    2024-05-27
    39
  • 利用Python time.mktime实现时间戳转换功能

    利用Python time.mktime实现时间戳转换功能time.mktime()函数是Python中的一个标准库函数,它可以将时间元组(struct_time)转换为时间戳。在Python中,时间戳是指从1970年1月1日午夜(注意是UTC,即协调世界时)开始经过的秒数。

    2024-01-24
    86
  • SQL_DML_Multiple-table Delete 多表删除的用法[亲测有效]

    SQL_DML_Multiple-table Delete 多表删除的用法[亲测有效]1 学习参考 MySQL官方文档 https://dev.mysql.com/doc/refman/8.0/en/delete.html 节选自 MySQL 8.0 Reference Manual_

    2023-05-24
    126
  • Python程序实现查找序列中最大值功能

    Python程序实现查找序列中最大值功能在Python中,序列是指一组有序的元素。常见的序列类型包括:字符串、列表、元组等等。这些序列可以直接通过下标来访问元素,而且序列中的元素可以是任何类型的对象。

    2023-12-22
    95
  • MySQL 数据库自动备份「建议收藏」

    MySQL 数据库自动备份「建议收藏」MySQL 数据库自动备份 MySQL 数据库自动备份 MySQL 备份命令 mysqldump 介绍 数据备份 数据恢复 gzip 介绍 MySQL 备份脚本 Linux 定时任务-crontab

    2023-05-04
    126
  • 一个韭菜用python采集(Python采集)

    一个韭菜用python采集(Python采集)数据采集(DAQ),又称数据获取,是指从传感器和其它待测设备等模拟和数字被测单元中自动采集非电量或者电量信号,送到上位机中进行分析,处理。数据采集系统是结合基于计算机或者其他专用测试平台的测量软硬件产品来实现灵活的、用户自定义的测量系统。采集一般是采样方式,即隔一定时间(称采样周期)对同一点数据重复采集。采集的数据大多是瞬时值,也可是某段时间内的一个特征值。

    2024-06-16
    28

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注