• 沙里软件

  • ShaliSoft.com [手机站]   办公桌收纳抽屉
  • 首页
  • 博文
  • 演示
  • 管理
  • 中文分词的php代码

    网络   2013/10/5 21:38:27

    以前有用过dedecms分词功能,经过测试还是不理想,后来经过一些处理得到的结果还是可以接受的,今天我再看到这款分词法,拿出来给大家看看。

    <?php
    class NLP{
    private static $cmd_path;
    // 不以'/'结尾
    static function set_cmd_path($path){
    self::$cmd_path = $path;
    }
    private function cmd($str){
    $descriptorspec = array(
    0 => array("pipe", "r"),
    1 => array("pipe", "w"),
    );
    $cmd = self::$cmd_path . "/ictclas";
    $process = proc_open($cmd, $descriptorspec, $pipes);
    if (is_resource($process)) {
    $str = iconv('utf-8', 'gbk', $str);
    fwrite($pipes[0], $str);
    $output = stream_get_contents($pipes[1]);
    fclose($pipes[0]);
    fclose($pipes[1]);
    $return_value = proc_close($process);
    }
    /*
    $cmd = "printf '$input' | " . self::$cmd_path . "/ictclas";
    exec($cmd, $output, $ret);
    $output = join("n", $output);
    */
    $output = trim($output);
    $output = iconv('gbk', 'utf-8', $output);
    return $output;
    }
    /**
    * 进行分词, 返回词语列表.
    */
    function tokenize($str){
    $tokens = array();
    $output = self::cmd($input);
    if($output){
    $ps = preg_split('/s+/', $output);
    foreach($ps as $p){
    list($seg, $tag) = explode('/', $p);
    $item = array(
    'seg' => $seg,
    'tag' => $tag,
    );
    $tokens[] = $item;
    }
    }
    return $tokens;
    }
    }
    NLP::set_cmd_path(dirname(__FILE__));
    ?>

    用起来很简单(确保 ICTCLAS 编译后的可执行文件和词典在当前目录):
    复制代码 代码如下:

    <?php
    require_once('NLP.php');
    var_dump(NLP::tokenize('Hello, World!'));
    ?>

    进行中文分词的 PHP 类就在下面了, 用 proc_open() 函数来执行分词程序, 并通过管道和其交互, 输入要进行分词的文本, 读取分词结果。

    阅读(4082) 分享(0)

    上一篇: server.urlencode的GB2312和Utf-8问题
    下一篇: php $_POST 与 php://input的区别分析

  • 精彩推荐

    ◆ Win7的IIS7中ASP获得的系统日期格式为斜杠和去掉星期的解决办法
    ◆ 腾讯OA基础服务使用C# 开发的千万级应用
    ◆ 怎么做秒杀系统?秒杀系统设计
    ◆ 怎么设计比较安全的密码加密方法
    ◆ asp.net 用Stopwatch计算运行时间
    ◆ ASP.NET Eval四种绑定方式
    ◆ 安卓手机QQ新功能WiFi共享泄露用户隐私
    ◆ 我为什么不喜欢面向对象
    ◆ 老照片:马云、马化腾、李彦宏、刘强东、李开复,大佬们的罕见童年照
    ◆ 为什么刷单会被淘宝轻而易举的查到?
  • 用心做事 不能唯利是图

    • 吊儿
    • 用QQ联系我17905772
  • 搜索


  • 最新文章

    • 导出Excel 格式 mso-number-format
    • 服务器iis支持tls1.2,windows server 2008 r2 中IIS启用TLS 1.2(安装SSL后用TLS 1.2)
    • MySQL配置优化
    • EditPlus 添加文件比较工具winmerge
    • 滚动悬浮固定JS特效

  • 热门文章

    • php sso单点登录实现代码
    • 中国菜刀(China chopper) 最新黑客工具
    • redis.conf中文版(基于2.4)
    • 搜索引擎名单大全
    • php图片上传类,支持加水印,生成略缩图

  • 最新图库


  • 最新评论


  • 友情链接

  • 沙里软件

  • 最近访客

    Powered by ShaliSoft.com 豫ICP备13008529号

    免责声明:本站部分内容来源于互联网,转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责,也不构成任何其他建议。如果发现侵犯版权,联系QQ17905772进行删除。