昨天搞项目遇到个糟心事,客户发来的文本全是繁体字,系统死活读不出来乱码。领导催得急,我琢磨着找个内码转换工具对付过去。结果挨个试下来,发现门道还挺多。
瞎折腾记事本
上来图省事,直接复制繁体内容粘贴到记事本里。点左上角"文件-另存为",在编码下拉框里选了老版系统用的ANSI编码。保存完兴冲冲打开一看——满屏问号和火星文!原来这破编码根本不认繁体字,只吃得下简体。白折腾半小时。
在线工具差点掉坑
转头搜在线转换网站,找了个排名靠前的。把文档拖进去选"繁体转简体",确实能正常显示。刚要下载时发现个要命问题:文档里有客户联系方式!这种网页工具谁敢传真实数据?赶紧关了浏览器,后背都冒冷汗。
- 安全隐患大:企业数据经手第三方太危险
- 功能太糙:批量处理超过50行就崩溃
- 水印恶心:免费版生成的文件带广告链接
自己动手写脚本
咬咬牙打开Python,用open()函数读写文件。核心代码就三行:
with open("客户数据.txt", "r", encoding="big5") as f: content = *() with open("转换后.txt", "w", encoding="gb2312") as f: *(content)
第一次运行时弹窗报错,发现繁体文件是BIG5编码的。改完编码参数再跑——啪地点运行!新文件里的地址电话全变成规规矩矩的简体。拿同事的老版ERP系统测试,完美识别不报错。
后来项目复盘时才听说,有些团队用iconv命令处理更省事。不过自己撸代码这经历挺值,现在见到繁体文档再也不怵了。