jieba(杰巴)分词的三种模式

news/2025/2/25 3:04:23

jieba(结巴)是一个强大的分词库,完美支持中文分词,做为最好的Python中文分词组件。

安装:pip install jieba

特点

支持三种分词模式:

  1.精确模式,试图将句子最精确地切开,适合文本分析;

     import jieba

    strings = '今天天气真好'
    seg = jieba.cut(strings,cut_all=False)
    print(','.join(seg))

        output :   今天天气,真,好

     cut_all参数默认为False,所有使用cut方法时默认为精确模式


  2.全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;

    

      import jieba

    strings = '今天天气真好'
    seg = jieba.cut(strings,cut_all=True)
    print(','.join(seg))

        output :   今天,今天天气,天天,天气,真好


  3.搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

    

    import jieba

   strings = '今天天气真好'
   seg = jieba.cut_for_search(strings)
   print(','.join(seg))

      output : 今天,天天,天气,今天天气,真,好

转载于:https://www.cnblogs.com/han20180705/p/9470622.html


http://www.niftyadmin.cn/n/4557418.html

相关文章

在C#里 级联连接 怎么写

然后将它的isposeback设置为true就可以了 是下拉列表改变事件 有个事件

poj2456---Aggressive cows

tips: 1.二分时区间是否要加等号,看等号成立时是否需要进入循环 2.L和R的赋值要看条件,第一个满足条件和最后一个满足条件 3.所有的都可以归结为找位置?? //感觉是二分答案 //想要寻找最后一个满足条件C的元素的位置, …

Tomcat在阿里云上启动慢的解决办法

omcat在本地服务器跑,一切都正常,但部署到阿里云上,发现启动巨慢。 经过在网上搜索,找到了原因: Tomcat 7/8都使用org.apache.catalina.util.SessionIdGeneratorBase.createSecureRandom类产生安全随机类SecureRandom的…

哪里有c++的学习方法

||| 有本书很好《The C Programming Language》 你一定会成功的 好好学吧 好了 学c就变得很容易了 如果有点c的底子 直接学c就可以了 对于你来说 还是直接就学c 你也就喜欢上它了;其实无论是先学c 慢慢的就会好起来了 然后在运行自己的小程序 多运行几次别人的程序 …

AQS同步器的实现原理

1.什么是AQS? AQS的核心思想是基于volatile int state这样的volatile变量,配合Unsafe工具对其原子性的操作来实现对当前锁状态进行修改。同步器内部依赖一个FIFO的双向队列来完成资源获取线程的排队工作。 2.同步器的应用 同步器主要使用方式是继承,子类…

MySQL引用完整性约束

一、定义 引用完整性是对实体之间关系的描述,是定义外关键字与主关键字之间的引用规则,也就是外键约束。如果要删除被引用的对象,也要删除引用它的所有对象,或把引用值设置为空。外键指引用另一个表中的一列或多列,被…

noip允许使用什么头文件

流 相关的头文件&#xff1a;<bitset><iterator><string><iostream> 2.禁止使用的部分 序列&#xff1a;vector stdio.h ||| 到底是C 还是C 呀 你列的中: stdlib.h 是 C 的 串 迭代器 priority_queue ... 答案补充 C语言的stdio.h能用不过我建议你用C …

bzoj 1001 [BeiJing2006]狼抓兔子 最小割+最短路

题面 题目传送门 解法 将最大流转化成最小割&#xff0c;然后跑最短路即可 具体如何见图可以参考下图 尽量用dijkstra 代码 #include <bits/stdc.h> #define PI pair <int, int> #define mp make_pair #define N 1010 using namespace std; template <typename …