在Kana的官网上可以看到用法(即便看不懂介绍

作者:瘟疫公司 进化

在Kana的官网上可以看到用法(即便看不懂介绍。条件:对日开采语言管理

务求:深入分析词语,将词语中的斯拉维尼亚语单词分割,转变方式。

在Kana的官网上可以看到用法(即便看不懂介绍。分析:

  任务1:词语拆分

  职务2:转变情势

在Kana的官网上可以看到用法(即便看不懂介绍。 

德文的款型调换能够用kanavetor去落实 极其简单间接调用Kana类的convert方法就足以,在Kana的官网络能够见到用法(尽管看不懂介绍,看到管网的表格应该也就简单的讲了~)。

要害在于词语的拆分上:

用语拆分使用了Kuromoji,Kuromoji是风流浪漫款蛮好用的马耳他语分词工具,而且,分解后的词是能够活动将汉字,平假名等转变到カタカナ的,有相像须要的能够一直用那些而不用再去搜索别的工具了。Kuromoji作者找到了八个本子,二个是kuromoji,0.7.7版本,官方网址络说捐募给了apache,内置在Lucene的4.0,5.0版本里,由于忘记Lucene的用法,暂且不构思。其它二个本子是kuromoji-ipadic,那些东东和kuromoji都以一个商户出的,可是略有不相同,微微研究了大器晚成晃,kuromoji在应用的时候是只好找到jar包,找不到源代码文件的,通过maven下载能够,不过gradle是引进不了的。而kuromoji-ipadic则是gradlle也得以援引,並且引进之后方可以预知见源码。其他kuromoji终归是先前的api,还应该有风华正茂部分十分小的欠缺。

kuromoji官网:

Kuromoji-ipadic官网:

Kuromoji用法:

1         Tokenizer tokenizer = Tokenizer.builder().build();
2         for (Token token : tokenizer.tokenize("寿司が食べたい。")) {
        // token 中存放的是分割后的词 不同的属性可以取到该词的不同内容

              // surfaceForm:原内容

3             System.out.println(token.getSurfaceForm() + "t" + );

              // baseForm:内容词语的基础 例如 食べたい⇒食べ

        System.out.println(token.getBaseForm() + "t" + );

4 }

↑↑↑这几个api对波兰语汉字的识别率比不上上面包车型客车api(有个别简体英语汉字和专入室弟子疏的辨别不出去,究竟是老版本卡塔尔,而且遇到不认得的方块字时token调用get方法会获得null。。。不提出接纳。

Kuromoji-ipadic用法:

1         Tokenizer tokenizer = new Tokenizer() ;
2         List<Token> tokens = tokenizer.tokenize("お寿司が食べたい。");
3         for (Token token : tokens) {
4             System.out.println(token.getSurface()); // 读取到的原内容
5             System.out.println(token.getReading()); // カタカナ
6         }        

顺带生机勃勃提,kuromoji-ipadic由于是用new产临蓐生实例的,所以风流洒脱旦你的工具或系列需求转移大批量词汇,要在乎不要做太多的new操作,不然会超级慢一点也不快相当的慢,那时得以定义成静态常量或许单例情势。

应接我们商酌和求教。

 

本文由美高梅游戏官网娱乐发布,转载请注明来源

关键词: