中文网页可能是什么编码?
在处理一批中文网页数据,显示为乱码,我尝试用gbk、gb2312和utf8解析,都是乱码,还有什么可能的编码啊? 地址什么,发来瞅瞅。。忘江湖 发表于 2019-2-15 21:13
地址什么,发来瞅瞅。。
没地址啊大佬,是一批已经下载好的数据,只有内容,分给我处理的 很大可能你拿到的已经是乱码了,
以下是常见的汉字字符集编码:
GB2312编码:1981年5月1日发布的简体中文汉字编码国家标准。GB2312对汉字采用双字节编码,收录7445个图形字符,其中包括6763个汉字。
BIG5编码:台湾地区繁体中文标准字符集,采用双字节编码,共收录13053个中文字,1984年实施。
GBK编码:1995年12月发布的汉字编码国家标准,是对GB2312编码的扩充,对汉字采用双字节编码。GBK字符集共收录21003个汉字,包含国家标准GB13000-1中的全部中日韩汉字,和BIG5编码中的所有汉字。
GB18030编码:2000年3月17日发布的汉字编码国家标准,是对GBK编码的扩充,覆盖中文、日文、朝鲜语和中国少数民族文字,其中收录27484个汉字。GB18030字符集采用单字节、双字节和四字节三种方式对字符编码。兼容GBK和GB2312字符集。
Unicode编码:国际标准字符集,它将世界各种语言的每个字符定义一个唯一的编码,以满足跨语言、跨平台的文本信息转换。
不知道你数据怎么来的,很有可能是读写编码不一致,你再读如果编码再不一致只会更乱 实在不行就靠猜 一般都是utf-8,中文出错还短少,写传统蒙古语各种出错,utf-8
页:
[1]