文字コードについてお勉強しよう
みなさん、こんにちは。どんぶラッコです。
本日は、文字コードについて書きたいと思います。
UTF-8 や Shift-JIS など、きいたことがあるのでしょうか。
文字コードが合っていないと日本語が変になって表示されたりしてしまいます。

なので、character set を指定してあげる必要があります。

でもこれ、なんでこのようなことが起こってしまうのでしょうか?
前提: コンピュータは0と1で情報を表現する
そもそも、コンピュータは情報を0と1で処理していきます。
電気信号だからですね。一番最初はケーブルをアナログにつなぎ変えることで0と1を表現していたそうです。

歴史を感じますね!
文字符号化
なので、文字も0と1に変換されて使われます。
ASCIIというルールで文字を分解した場合、このようになっています。

Hなら72, eなら101…といった具合ですね。
統一規格を作ったものの..
一番最初はコンピュータによってルールがバラバラでした。
そこで、符号化の方法を標準化しようという機運が高まります。

そこで生まれたのがASCIIです。
しかし、ASCIIには問題がありました。それは…

そう、アルファベットの表示しか想定していなかったのです。
だから日本語、ましてや漢字を256通りの中で表現するのは無理がありました。
そこで、複数バイトを使って文字を表現する手法が提言されました。
それが ISO-2022-JP, Shift-JIS, EUC-JP という規格なのです。
—
こうやって整理してみると面白いですよね♪
他にも調べてみましょう!