python 中文分词工具LAC和jieba

作者:admin 发布时间:2024-08-06 13:59:04 浏览:988次

python 中文分词工具有很多,今天主要分享两款很不错的分词工具,jieba和百度的lac


jieba模块

jieba 是一个用于中文分词的 Python 库,它可以快速地将中文句子切分成一个个词语。jieba 支持多种分词模式,并且可以自定义词典以及添加新词。

可以通过 pip 命令来安装:


pip install jieba


使用示例


import jieba

def segment_text(text):
    seg_list = jieba.cut(text, cut_all=False)
    return list(seg_list)

text = "我来到北京清华大学,今天天气不错,适合去颐和园游玩。"
print(segment_text(text))


lac模块

lac 是一个基于百度深度学习平台 PaddlePaddle 的中文分词和词性标注工具包。它不仅能够进行分词,还能进行词性标注,非常适合进行自然语言处理任务,如文本分类、情感分析等。


通过 pip 命令安装:


pip install lac


使用示例


from lac import LAC

# 初始化模型
lac = LAC(mode='lac')  # lac模式开启词性标注

# 分词
seg_result = lac.run('我喜欢吃苹果', lac=False)
print('分词结果:', seg_result)

# 分词 + 词性标注
seg_pos_result = lac.run('我喜欢吃苹果')
print('分词+词性标注结果:', seg_pos_result)


如需转载请保留本文出处: https://zhe94.com/977.html

上一篇:懂懂日记:一点委屈
下一篇:富文本编辑器wangEdiotr报错Error in callback for watcher "value": "Error: Cannot find a descendant at path [0,2] in node
python3使用schedule做定时器异步调用

python3使用schedule做定时器异步调用

现有需求是每隔10秒执行一次程序,不考虑执行程序的时间周期,固定时间间隔就执行一次 首先需要安装python
纯css实现角标效果-css属性clip-path

纯css实现角标效果-css属性clip-path

最近在做一个项目想要实现以下的角标效果,可以使用css属性clip-path来实现。
uniapp实现父组件调用子组件函数的方法

uniapp实现父组件调用子组件函数的方法

先定义子组件的getCLipContent函数,然后在父组件引用子组件,通过ref的方法调用
 mysql实现主从复制代码

mysql实现主从复制代码

mysql实现主从复制相关代码记录
宝塔面板登录ssl关闭不了怎么办?

宝塔面板登录ssl关闭不了怎么办?

云服务器安装宝塔面板时,不小心开启了SSL,应该如何关闭?
Chat2DB的WEB端在安装部署在服务器上

Chat2DB的WEB端在安装部署在服务器上

Chat2DB 是一款有开源免费的多数据库客户端工具,支持windows、mac本地安装,也支持服务器端部署,web网页访问。和传统的数据库客户端软件Navicat、DBeaver 相比Chat2DB集成了AIGC的能力,能够将自然语言转换为SQL,也可以将SQL转换为自然语言,可以给出研发人员SQL的优化建议,极大的提升人员的效率,是AI时代数据库研发人员的利器,未来即使不懂SQL的运营业务也可以使用快速查询业务数据、生成报表能力