ming997hk 发表于 2019-2-15 21:12:36

中文网页可能是什么编码?

在处理一批中文网页数据,显示为乱码,我尝试用gbk、gb2312和utf8解析,都是乱码,还有什么可能的编码啊?

忘江湖 发表于 2019-2-15 21:13:27

地址什么,发来瞅瞅。。

ming997hk 发表于 2019-2-15 21:14:28


忘江湖 发表于 2019-2-15 21:13

地址什么,发来瞅瞅。。
没地址啊大佬,是一批已经下载好的数据,只有内容,分给我处理的

三思而后折腾 发表于 2019-2-15 21:13:00

很大可能你拿到的已经是乱码了,

wolfewong 发表于 2019-2-15 21:48:18

以下是常见的汉字字符集编码:
GB2312编码:1981年5月1日发布的简体中文汉字编码国家标准。GB2312对汉字采用双字节编码,收录7445个图形字符,其中包括6763个汉字。
BIG5编码:台湾地区繁体中文标准字符集,采用双字节编码,共收录13053个中文字,1984年实施。
GBK编码:1995年12月发布的汉字编码国家标准,是对GB2312编码的扩充,对汉字采用双字节编码。GBK字符集共收录21003个汉字,包含国家标准GB13000-1中的全部中日韩汉字,和BIG5编码中的所有汉字。
GB18030编码:2000年3月17日发布的汉字编码国家标准,是对GBK编码的扩充,覆盖中文、日文、朝鲜语和中国少数民族文字,其中收录27484个汉字。GB18030字符集采用单字节、双字节和四字节三种方式对字符编码。兼容GBK和GB2312字符集。
Unicode编码:国际标准字符集,它将世界各种语言的每个字符定义一个唯一的编码,以满足跨语言、跨平台的文本信息转换。
不知道你数据怎么来的,很有可能是读写编码不一致,你再读如果编码再不一致只会更乱

hawk 发表于 2019-2-15 21:57:44

实在不行就靠猜

jiderlesi 发表于 2019-2-15 22:06:46

一般都是utf-8,中文出错还短少,写传统蒙古语各种出错,utf-8
页: [1]
查看完整版本: 中文网页可能是什么编码?