SentencePiece一个google开源的自然语言处理工具包

Published on Aug. 22, 2023, 12:10 p.m.

SentencePiece是一个google开源的自然语言处理工具包。数据驱动、跨语言、高性能、轻量级——面向神经网络文本生成系统的无监督文本词条化工具
SentencePiece的用途不限于自然语言处理,,蛋白质的一级结构是氨基酸序列,需要研究氨基酸序列片断,片断的长度又是不固定的,就可以用SentencePiece进行切分。

官方网站
https://github.com/google/sentencepiece