|
楼主 |
发表于 16-10-12 10:34
|
显示全部楼层
本帖最后由 why1812 于 17-6-13 13:41 编辑
先介绍一款我个人最常用的OCR软件。也是我强烈推荐给大家的一款软件。部分介绍直接引用作者老马的话。
IdxSubOcr这款软件利用的是Microsoft Office Word 2003所带的Microsoft Office Document Imaging (MODI),这是目前唯一公开接口、支持多语言的商业级OCR引擎。
这款小巧的软件使用比较简单:
1.点击“打开idx文件”按钮,选择需要OCR/校对的idx文件。
2.如果有必要,设置“毫秒分隔符”选项,即毫秒用小数点还是句号分隔。
3. 如果有必要,勾选“OCR前先加粗处理”,避免因为笔画过细影响OCR质量。但如果文字笔画本来就不细,勾选此选项后可能造成笔画粘连,反而影响质量。
4.在“操作选项”里,选择需要OCR/校对的字幕,及究竟是要OCR还是校对。
如果是OCR,在接下来的“OCR”选项中,需要选择OCR语言及字幕颜色。注意这两个选项直接关系到OCR效果,所以必须认真选择:语言好说,颜色必须保证文字为实心字,空心字没法识别。 如果字幕第一行为空,则文字颜色可能不能选择,可以选择字幕其他行,直到能够选择颜色。OCR识别结束后,自动进入校对模式。
如果是校对,界面上方显示字幕图像,下方显示文字,用户可以直接对文字进行编辑。在编辑框中可以使用上下箭头、PgDn、PgUp滚动。校对完成后,点击“保存srt文件”按钮存盘。
在校对过程中,可以用“辅助功能”进行辅助,包括:
•文本替换。通常用来替换OCR中的一些习惯性错误。
•英文句首字母大写。某些英文字幕全是大写,看起来比较费劲,用这个可以转成小写。
•繁体转简体。繁体中文字幕OCR后的结果是GBK编码的繁体字,如果觉得麻烦,可以用这个功能转换成GB编码的简体字。
对于这款软件的安装我提供些个人的经验供参考
1.最好安装Microsoft Office Word 2003完整版。精简版可能会将你需要的东西阉割掉,让你OCR失败还不知道是为什么。
2.安装Microsoft Office Word 2007也可以,不过个人认为不如Microsoft Office Word 2003方便。
3. Microsoft Office 2010不再提供MODI组件,OCR功能改由OneNote完成,最靠谱的解决方案,要么安装Office 的 SharePoint Designer 2007 里面的识别引擎,然后把繁体识别用到的库文件放进去 ,要嘛就别用这个版本。
4.OCR繁体中文字幕必须安装下面提供的繁体中文识别的东东。不然繁体识别一定失败。
使用方法是
下载繁体中文识别.zip
将下面的文件复制到安装了简体中文Office 2003的相同文件夹下:
C:\Program Files\Common Files\Microsoft Shared\MODI\11.0
TCCODE.UNI
TCPRINT.DAT
TCPRINT2.DAT
TCSERHT.DAT
TCTREE.DAT
TW_BU.DAT
TW_UB.DAT
TWBIG532.DLL
双击reg文件导入注册表后,在MODI的OCR选项卡里,“OCR语言”即可看到“中文(繁体)”。注意导入注册表时必须先关闭所有MODI窗口,导入后再打开。
这里赞一下这个软件的作者老马,老马是个非常好的软件开发者,平易近人,我在使用中有什么问题或有什么建议发邮件给老马,老马都及时回复。
这么好的软件没有收费。赞一下!
软件下载地址:
|
|