-
ACWPS
词是最小的能够独立活动的有意义的语言成分。 但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。(The word is the smallest independent activities meaningful language component. But Chinese is the word as the basic unit of writing, there is no obvious mark of distinction between the words, so Chinese word analysis is the foundation of Chinese information processing and critical.)
- 2013-04-03 10:22:22下载
- 积分:1
-
GB2312ToUnicode
GBK 转 unicode 提供二分法查询(translate the gbk to the unicode,with the bianary search way)
- 2009-12-31 13:17:44下载
- 积分:1
-
Natural Language processing with python
说明: python自然语言处理的中文翻译
作者: StevenBird, EwanKlein & EdwardLoper
英文出版社:O'REILLY
翻译:陈涛
提供了非常易学的自然语言处理入门介绍,该领域涵盖从文本和电子邮件预测过滤,到自动总结和翻译等多种语言处理技术。在此书中,你将学会编写Python程序处理大量非结构化文本。你还将通过使用综合语言数据结构访问含有丰富注释的数据集,理解用于分析书面通信内容和结构的主要算法。
《Python自然语言处理》准备了充足的示例和练习,可以帮助你:
从非结构化文本中抽取信息,甚至猜测主题或识别“命名实体”;
分析文本语言结构,包括解析和语义分析;
访问流行的语言学数据库,包括WordNet和树库(treebank);
从多种语言学和人工智能领域中提取的整合技巧。(Natural Language processing with python)
- 2018-01-12 17:52:46下载
- 积分:1
-
ictclas
中科院的分词系统ictclas源码,自由开放的源码,很好(ictclas code)
- 2009-11-21 11:05:05下载
- 积分:1
-
Chinese-WordCut
这是一个中文分词程序,读入一个Txt文档,可以对里面的段落进行分词(This is a Chinese word segmentation program that reads a Txt document segmentation paragraphs inside)
- 2012-11-18 17:44:16下载
- 积分:1
-
ViewPage
联系人拖动后动态显示滑动到的拼音的首字母(Dynamic display after the first letter of the sliding contact to drag Pinyin)
- 2014-01-11 18:14:24下载
- 积分:1
-
共现矩阵
说明: 将高维数据组转换为二维数据组,方便数据处理工作人员的数据分析,并包含自然语言处理(The multi-dimensional co-occurrence matrix is transformed into two-dimensional array form, and the high-dimensional data group is transformed into two-dimensional data group, which is convenient for data processing staff to analyze data, and includes natural language processing)
- 2020-07-02 16:56:12下载
- 积分:1
-
ICTCLASCaller
说明: ICTCLAS的JNI调用接口文件:
Title:ICTCLAS Caller
* <p>Description:do chinese word segmentation.don t change the pakage and CLASS name, orelse you can t use it.
* 请不要改变包名、类名以及native的方法名,否则调用将失效。
* 由于ICTCLAS本身存在很多鲁棒性问题,调用segSentence时,string参数请保证不要过长或带有乱码。调用次数过多(如处理几十G的数据)会有可能造成内存溢出。
* 故基本只能用于较小规模数据(相对几十G来说)。
* 请运行时设置jvm足够的堆栈空间。(ICTCLAS calling the JNI interface documentation : Title : Caller* ICTCLAS)
- 2006-03-03 18:46:02下载
- 积分:1
-
lucene
java中lucene的源代码,用于文本分类的一个很好的工具,是由一个著名的语言研究者编写的(lucene code for java)
- 2009-03-30 17:28:22下载
- 积分:1
-
rub
ruby script for internal DSL requirement..
- 2009-06-25 02:24:57下载
- 积分:1