登录
首页 » Others » raw

raw

于 2021-01-06 发布 文件大小:48345KB
0 246
下载积分: 1 下载次数: 5

代码说明:

  10个中文分词数据集,用于训练中文分词模型(Ten Chinese Word Segmentation Datasets for Training Chinese Word Segmentation Model)

文件列表:

raw, 0 , 2019-02-10
raw\other, 0 , 2019-02-10
raw\other\zx, 0 , 2019-02-10
raw\other\zx\test.zhuxian.wordpos, 280885 , 2019-02-10
raw\other\zx\train.zhuxian.wordpos, 559793 , 2019-02-10
raw\other\zx\dev.zhuxian.wordpos, 166113 , 2019-02-10
raw\other\cnc, 0 , 2019-02-10
raw\other\cnc\dev.txt, 5581923 , 2019-02-10
raw\other\cnc\train.txt, 44824963 , 2019-02-10
raw\other\cnc\test.txt, 5571735 , 2019-02-10
raw\other\udc, 0 , 2019-02-10
raw\other\udc\dev.conll, 422116 , 2019-02-10
raw\other\udc\test.conll, 400684 , 2019-02-10
raw\other\udc\train.conll, 3282103 , 2019-02-10
raw\other\wtb, 0 , 2019-02-10
raw\other\wtb\dev.conll, 49336 , 2019-02-10
raw\other\wtb\test.conll, 49702 , 2019-02-10
raw\other\wtb\train.conll, 393054 , 2019-02-10
raw\other\sxu, 0 , 2019-02-10
raw\other\sxu\train.txt, 3600697 , 2019-02-10
raw\other\sxu\test.txt, 776035 , 2019-02-10
raw\other\ctb, 0 , 2019-02-10
raw\other\ctb\ctb6.dev.seg, 300375 , 2019-02-10
raw\other\ctb\ctb6.train.seg, 4030528 , 2019-02-10
raw\other\ctb\ctb6.test.seg, 312025 , 2019-02-10
raw\sighan2005, 0 , 2019-02-10
raw\sighan2005\cityu_test_gold.utf8, 239427 , 2019-02-10
raw\sighan2005\msr_training.utf8, 16804586 , 2019-02-10
raw\sighan2005\cityu_training.utf8, 8499903 , 2019-02-10
raw\sighan2005\as_test_gold.utf8, 711891 , 2019-02-10
raw\sighan2005\pku_test_gold.utf8, 716386 , 2019-02-10
raw\sighan2005\as_training.utf8, 30558193 , 2019-02-10
raw\sighan2005\msr_test_gold.utf8, 762801 , 2019-02-10
raw\sighan2005\pku_training.utf8, 7709182 , 2019-02-10

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • rub
    ruby script for internal DSL requirement..
    2009-06-25 02:24:57下载
    积分:1
  • CIPP_JSsetup
    可以实现自动分词功能,支持自动标引,是处理中文自然语言的良好工具(Can achieve automatic word segmentation function, support for automatic indexing is a good tool to deal with Chinese natural language)
    2020-09-24 19:27:48下载
    积分:1
  • raw
    10个中文分词数据集,用于训练中文分词模型(Ten Chinese Word Segmentation Datasets for Training Chinese Word Segmentation Model)
    2021-01-06 11:48:53下载
    积分:1
  • Leza
    it s a good code for troias project
    2009-06-04 06:50:59下载
    积分:1
  • icajade
    ICA分解的优化算法——JADE法 - Dinga s Blog(ICA decomposition of the optimization algorithm- JADE Act- Dinga s Blog)
    2008-03-26 12:55:52下载
    积分:1
  • wordsegmentation
    一种基于自动机的分词方法,可进行中文分词及统计(Based method of automatic machine word)
    2011-09-21 11:38:57下载
    积分:1
  • lucene
    java中lucene的源代码,用于文本分类的一个很好的工具,是由一个著名的语言研究者编写的(lucene code for java)
    2009-03-30 17:28:22下载
    积分:1
  • GB2312
    列出gbk2312中的每一个字符,并给出对应的编号(Listed gbk2312 in each character, and gives the corresponding number)
    2012-07-04 16:07:46下载
    积分:1
  • zhijiehanhua
    Directly tool which sinicizes the software
    2010-07-10 20:00:59下载
    积分:1
  • word_split
    这个一个基于逆向最大匹配的分词程序,语料规模比较小。(The maximum matching based on the reverse of the sub-term process, relatively small-scale corpus.)
    2009-06-22 15:04:24下载
    积分:1
  • 696518资源总数
  • 104386会员总数
  • 20今日下载