广州双城热恋创意文化传播有限公司

现在的位置: 主页 > 主打产品 > 文章列表

文章正文

TextGrocery,更好用的文本分类Python库

作者:广州双城热恋创意文化传播有限公司 来源:www.666loveyou.com 发布时间:2017-09-06 09:50:23
TextGrocery,更好用的文本分类Python库

TextGrocery,更好用的文本分类Python库,古龙说,无论什么东西,最好的都只有一种。经历半年的文本分类实践,我们基本已断定,最好的文本分类算法就是SVM – 支持向量机。
但是纵然知道了天机,新手做文本分类仍然需要学习不少东西,例如算法原理、分词、向量化等等。如果用上scikit-learn这样的庞然大物,更有种高射炮打蚊子的异样感。
有没有可能把最好的文本分类算法,包装成一个超级简单的工具提供给大家?
这是我开发TextGrocery的初衷。

设计原则

幸好,我不是没有参照系。LibShortText打下了一个很好的基础,不仅提供了足够简单的API,而且背后的原理也有扎实的实验数据支撑(不过滤停用词,不过滤词性,使用线性核)。当然,LibShortText也有显著的缺陷:

不支持中文分词,这导致其在中文语料上的表现一塌糊涂Analyzer模块不仅多余,而且输出全部为无格式文本,不可爱如果不是专业的算法人员,默认参数永远是最好的选择,所以参数的自定义并不是很必要中间数据的保存全部以文件格式,每次的训练和测试留下一些陌生文件,而且小规模的训练和测试用列表对象会更合适代码很不Pythonic,也不支持Pypi的简便安装方式

总而言之,LibShorText虽然有引以为傲的技术,但对技术的使用者来说是不友好的。而TextGrocery希望把LibShortText变得更友好一些。

TextGrocery,是一个怎样的杂货铺?

引入结巴分词作为内置的默认分词器精简LibShortText的代码,去掉Analyzer和参数自定义模块,修复bug,改善PEP8训练和测试的文本都支持列表传入提供Pypi的安装方式 示例代码 from tgrocery import Grocery# 新开张一个杂货铺,别忘了取名!>>> grocery = Grocery('sample')# 训练文本可以用列表传入>>> train_src = [ ('education', '名师指导托福语法技巧:名词的复数形式'), ('education', '中国高考成绩海外认可 是“狼来了”吗?'), ('sports', '图文:法网孟菲尔斯苦战进16强 孟菲尔斯怒吼'), ('sports', '四川丹棱举行全国长距登山挑战赛 近万人参与')]>>> grocery.train(train_src)# 也可以用文件传入>>> grocery.train('train_ch.txt')# 保存模型>>> grocery.save()# 加载模型(名字和保存的一样)>>> new_grocery = Grocery('sample')>>> new_grocery.load()# 预测>>> new_grocery.predict('考生必读:新托福写作考试评分标准')education# 测试>>> test_src = [ ('education', '福建春季公务员考试报名18日截止 2月6日考试'), ('sports', '意甲首轮补赛交战记录:米兰客场8战不败国米10年连胜'),]>>> new_grocery.test(test_src)# 准确率0.5# 同样可以用文本传入>>> new_grocery.test('test_ch.txt')# 自定义分词器>>> custom_grocery = Grocery('custom', custom_tokenize=list) 安装 pip install tgrocery

让文本分类更爽一些吧!

GitHub传送门 –>TextGrocery

企业建站2800元起,携手武汉肥猫科技,做一个有见地的颜值派!更多优惠请戳:鄂州SEO http://ezhou.raoyu.net


COPYRIGHT © 2015 广州双城热恋创意文化传播有限公司 ALL RIGHTS RESERVED.
网站地图 技术支持:肥猫科技
精彩专题:网站建设
购买本站友情链接、项目合作请联系客服QQ:2500-38-100