Unicode 字符编码详讲

Unicode 又称为统一码、万国码、单一码,是国际组织制定的旨在容纳全球所有字符的编码方案,包括字符集、编码方案等,它为每种语言中的每个字符设定了统一且唯一的二进制编码,以满足跨语言、跨平台的要求。

Unicode的实现方式不同于编码方式。一个字符的Unicode编码确定。但是在实际传输过程中,由于不同系统平台的设计不一定一致,以及出于节省空间的目的,对Unicode编码的实现方式有所不同。Unicode的实现方式称为Unicode转换格式(Unicode Transformation Format,简称为UTF)。

Unicode 与 UTF-X 的关系:Unicode 是字符集,UTF-32/ UTF-16/ UTF-8 是三种常见的字符编码方案。

阅读更多

Spark 的序列化问题总结

Java 序列化

Java 序列化就是指将一个对象转化为二进制的 byte[] 数组,然后以文件的方式进行保存或通过网络传输,等待被反序列化读取出来。序列化常被用于数据存取和通信过程中。

一个 Java 对象要能序列化,必须实现一个特殊的 java.io.Serializable 接口,它的定义如下:

1
2
public interface Serializable {
}
阅读更多