找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 63|回复: 6

中文网页可能是什么编码?

[复制链接]

309

主题

1873

回帖

4743

积分

论坛元老

积分
4743
发表于 2019-2-15 21:12:36 | 显示全部楼层 |阅读模式
在处理一批中文网页数据,显示为乱码,我尝试用gbk、gb2312和utf8解析,都是乱码,还有什么可能的编码啊?
回复

使用道具 举报

27

主题

1370

回帖

2871

积分

金牌会员

积分
2871
发表于 2019-2-15 21:13:27 | 显示全部楼层
地址什么,发来瞅瞅。。
回复

使用道具 举报

309

主题

1873

回帖

4743

积分

论坛元老

积分
4743
 楼主| 发表于 2019-2-15 21:14:28 | 显示全部楼层

忘江湖 发表于 2019-2-15 21:13

地址什么,发来瞅瞅。。

没地址啊大佬,是一批已经下载好的数据,只有内容,分给我处理的
回复

使用道具 举报

39

主题

1636

回帖

3439

积分

论坛元老

积分
3439
发表于 2019-2-15 21:13:00 | 显示全部楼层
很大可能你拿到的已经是乱码了,

回复

使用道具 举报

5

主题

1745

回帖

3541

积分

论坛元老

积分
3541
发表于 2019-2-15 21:48:18 | 显示全部楼层
以下是常见的汉字字符集编码:
GB2312编码:1981年5月1日发布的简体中文汉字编码国家标准。GB2312对汉字采用双字节编码,收录7445个图形字符,其中包括6763个汉字。
BIG5编码:台湾地区繁体中文标准字符集,采用双字节编码,共收录13053个中文字,1984年实施。
GBK编码:1995年12月发布的汉字编码国家标准,是对GB2312编码的扩充,对汉字采用双字节编码。GBK字符集共收录21003个汉字,包含国家标准GB13000-1中的全部中日韩汉字,和BIG5编码中的所有汉字。
GB18030编码:2000年3月17日发布的汉字编码国家标准,是对GBK编码的扩充,覆盖中文、日文、朝鲜语和中国少数民族文字,其中收录27484个汉字。GB18030字符集采用单字节、双字节和四字节三种方式对字符编码。兼容GBK和GB2312字符集。
Unicode编码:国际标准字符集,它将世界各种语言的每个字符定义一个唯一的编码,以满足跨语言、跨平台的文本信息转换。
不知道你数据怎么来的,很有可能是读写编码不一致,你再读如果编码再不一致只会更乱
回复

使用道具 举报

9

主题

324

回帖

703

积分

高级会员

积分
703
发表于 2019-2-15 21:57:44 | 显示全部楼层
实在不行就靠猜
回复

使用道具 举报

5

主题

87

回帖

207

积分

中级会员

积分
207
发表于 2019-2-15 22:06:46 | 显示全部楼层
一般都是utf-8,中文出错还短少,写传统蒙古语各种出错,utf-8
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|Discuz! X

GMT+8, 2025-5-22 09:50 , Processed in 0.017390 second(s), 3 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表