深圳幻海软件技术有限公司 欢迎您!

  • 500W数据,20Wqps分词检索,架构如何设计?

    作者 | KG沈剑​有水友提问:沈哥,我们有个业务,类似于“标题分词检索”,并发量非常大,大概20W次每秒,数据量不是很大,大概500W级别,而且数据不会频繁更新,平均每天更新一次,请问有什么好的方案么?这是一个典型的,短文本分词搜索的问题,简单聊聊自己的经验。常见的文本检索方案

  • 1月份GitHub上最热门的Python开源项目

    本文我们将和大家介绍GitHub上1月份最受欢迎的11个Python开源项目,在这些项目中,你有在用或用过哪些呢?1.12306https://github.com/testerSunshine/12306 Star651412306智能刷票助手,就是程序员自己写的一个抢票脚本,该依赖库的

  • 北大开源全新中文分词工具包:准确率远超THULAC、结巴分词

     最近,北大开源了一个中文分词工具包,它在多个分词数据集上都有非常高的分词准确率。其中广泛使用的结巴分词误差率高达18.55%和20.42,而北大的pkuseg只有3.25%与4.32%。pkuseg是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包。它简单易用,支持多

  • 分词,难在哪里?| 科普 + 解决方案!

     一、前言分词,我想是大多数大前端开发人员,都不会接触到的一个概念。这个不影响我们了解它,毕竟我们要多方向发展。今天就来简单介绍一些分词,我尽量用简介的语言来描述这个概念,并且最后再提供一个解决方案,希望对你有帮助。分词简单来讲就是把一句话,按照词义,切分成一个个单独的词。这么说可能没什么

推荐阅读