在全世界所有安装了微软Office 2003的操作系统中,都可以看到来自北京文通科技有限公司的TH—OCR(清华————光学字符识别)知识产权授权声明。“我国字符识别技术研发相比发达国家约晚四五十年,但在中文等亚洲语言识别软件开发上始终走在世界前列。”文通科技总经理沙建辉自豪地说。成立于1992年的文通科技与清华大学电子工程系智能图文实验室合作,通过自主研发,成功地将国家“863高科技计划”成果应用到生产生活中,填补了我国纸介质信息数字化应用的空白。
文通科技的文档、图像识别技术广泛应用在生产、生活的许多方面。目前,文通科技已经有五大系列、20多种产品投向市场,在国内OCR市场占有率达65%以上。作为国产OCR技术的优秀代表,文通科技的TH—OCR技术可以实现从中文到日文、韩文等多语言综合识别。文通科技的古文、手写汉字识别率都在98%以上,广泛应用于古籍数字化以及写字板和手机上。
“十五”期间,文通科技承接了教育部“211工程”重点项目————高等学校中英文图书数字化国际合作计划(CADAL),完成了50万册中文图书扫描和数字出版工作。
以TH—OCR技术为基础核心,文通科技提出了“数字录入工厂”的整体解决方案,该方案大大提高了效率和速度。“可以保证每人每天能够录入20万字,减少校对工作量80%,错误率在万分之一以下。”沙建辉说,“这是人工排版无法达到的。”不仅如此,“数字录入工厂”超越了传统图书数字化的简单的文本表示(只保留文本信息,丢失了版面信息),提高到文档的全信息数字化,成功完成了中外期刊、古籍、学术论文等复杂文字图书的数字化。
2005年11月,CADAL百万数字图书网正式开通运行,向全世界开放提供数字化信息服务。不仅满足了我国高校教学科研的需要,更保护和传承了我国优秀传统文化。
金税工程是我国政府信息化建设“十二金”工程中的重要组成部分,也是我国为从根本上解决增值税专用发票伪造、虚开、骗抵等问题而实施的“九五”重点工程。一张增值税发票上要有100多个数字符号需要识别。2001年,TH—OCR技术通过了国家税务总局主持的评测。目前,数万套内置TH—OCR识别引擎的防伪税控系统已经广泛工作在全国各地的各级国税局内部。目前,文通科技的文档识别技术更广泛应用在金融、保险、邮政等需要保存大量纸质存单行业。TH—OCR对规范数据的整体识别率在98%以上,为这些行业解决了大量纸质资料的存储难题。
2008年,仅有百多人创业团队的文通科技实现营业收入近1亿元,TH—OCR技术授权达400万套,外汇收入达200万美元。“国际金融危机对于我们这样的自主高科技企业基本没有影响。”文通科技市场总监董立军对企业发展充满信心,“今年,我们的收入将很可能要超过2亿元。”