如何用句号分割中文句子
发信站:BBS水木清华站(MonMar719:40:392005),转信
example:
还有一件事。5点半你去会见斯图尔特先生。
提取出
subsentence1:还有一件事。
subsentence2:5点半你去会见斯图尔特先生。
句中可能有多个句号那么就切分为多个。
我的想法是:
1.去掉末尾标点
$t_c_str=~s/[))\;,.?!\"\',。?!“”‘’…\n]+$//;#去掉末尾标点
2.在判断有无句号
if($t_c_str=~/。/)
3.切分
@subsen_c=split(/。/,$t_c_str);
有bug大家帮忙支个招。
ans
你用支持unicode的编辑器把源文件全部转成utf8编码,然后在最开始加useutf8,中文字符就和英文字符一样用了。
不想这样转就得用Encode模块:
useEncode;
$a=decode("gbk","还有一件事。5点半你去会见斯图尔特先生。");
$dot=decode("gbk","。");
@f=split(/(?<=$dot)\b/,$a);
foreach(@f){
printencode("gbk",$_),"\n";
}
分享到:
相关推荐
Perl各种匹配规则和用法,PDF格式,从哪弄到的不记得了,非我原创。
Perl进行古诗匹配 这个程序有意思了,你出上句,他从古诗中找到合适的下句 需要一些Perl模块才能使用
Perl语言的精华--模式匹配,学好Perl语言的重要知识
perl 写的正向最大匹配分词模块。 # #正向最大分词 #eg: my $seg = new Segmenter($list); # my $list_arrref = $seg->segment($line); #
perl实现的中文词性标注 读入按“中国/n 人民/n”方式分好词的文件训练 再读入分词文件测试 输出标好词性的文件
perl脚本perl脚本perl脚本perl脚本
Perl语言参考手册中文html Perl语言参考手册中文html Perl语言参考手册中文html Perl语言参考手册中文html Perl语言参考手册中文html
Perl具有高级语言(如C)的强大能力和灵活性。事实上,你将看到,它的许多特性是从C语言中借用来的。...这意味着Perl对于小的编程问题的快速解决方案和为大型事件创建原型来测试潜在的解决方案是十分理想的。
PERL常见问题解答 PERL常见问题解答 PERL常见问题解答 PERL常见问题解答
在Genesis中使用Perl的配置。
Perl是Practical Extraction and Report Language的缩写,它是由Larry Wall设计的,并由他不断更新和维护,用于在UNIX环境下编程
perl语言编程时常见问题解答,编写perl脚本程序的好助手
perl中文教程,网页形式教程. 内容比较全面.
最新perl中文教程
PERL 的教程, 模式匹配 操作等等, 学习perl, 分析perl文件 可以做参考,
Perl-5.10.0版本,Perl-5.10.0版本,Perl-5.10.0版本,Perl-5.10.0版本,Perl-5.10.0版本,Perl-5.10.0版本,Perl-5.10.0版本,Perl-5.10.0版本,Perl-5.10.0版本,Perl-5.10.0版本,Perl-5.10.0版本,Perl-5.10.0...
perl参考手册(中文)perl参考手册(中文) perl参考手册(中文)
perlfaq1:概括性的 Perl问题。 非常概括性、高层次的 Perl 问题 perlfaq2: Perl的取得和学习。 有关哪里可找到 Perl的原始码和使用说明、支援、训练课程,及相关事宜等。 perlfaq3:程式设计工具 程式设计工具...
windows Strawberry Perl 5.32最新版本 ,适合调试 perl windows Strawberry Perl 5.32最新版本 ,适合调试 perl windows Strawberry Perl 5.32最新版本 ,适合调试 perl windows Strawberry Perl 5.32最新版本 ...
用perl语言编写的代码,可以查找一个文档中的the,并以the为中心输出前后三个单词,不区分大小写