spamを整理中に、ふと気になるSubejctが見えました。
Subject:NANAって何?【漫画⇒映画⇒そしてメルマガへ・・
もしかして、万が一、私がコミックのNANAの感想を書いたことに対するリアクションだろうか?と思って見てみると。
中身は単なるspamでした。
ただ、興味深いのは、ヘッダーが壊れていて、ヘッダーが途中から本文に表示されていたことです。
本文の第1行目はこのような内容でした。
=?GB2312?B?RYFFgXpOQU5Bg3WBW4OAgvCNbIKmguk=?=
思わず、プッと吹き出す大笑い。
日本語のメールだと思っていたらGB2312ですか。
GBといえば、中国語ではありませんか。
日本語なら通常はISO-2022-JPだし、洒落た人でもUTF-8でしょう。日本語のメールでGB2312はあり得ません。
ヘッダーが壊れたおかげで、そのことが一瞬で解析完了できました (笑)。
オマケ・よくある誤り charset="EUC" §
ちなみに、もう1つの誤りもすぐ分かりました。
Content-Type: text/plain;charset="EUC"
はい、最近(あるいは昔から)しばしば飛んでくる間違いヘッダーですね。
日本語EUCは、EUCではなく、EUC-JPという名前になります。EUCは、UNIXのためのコード体系であって、EUC-CNなどが日本以外にも存在します。ですから、日本語のEUCは、日本を示す"JP"を付けたEUC-JPがIANAに登録されています。
もちろん、日本では慣習的に、電子メールはEUC-JPを使わずISO-2022-JPを使うことになっていますが、それも知らないようですね。つつき出すと、問題だらけです。
実は、厳密な電子メールの構文チェックを行うだけで、spamの多くが排除できるかもしれません。
ちなみに、日本人が一般的に使っているメールソフト(MUA)は、そのような情けない誤りをほとんど含みませんので、日本人の間のコミュニケーションに不自由が発生することは、まずないはずです。
とはいえ、OutlookExpressとOutlookだけは、過去にひどい欠陥を晒した実績があるので怖いですね。最近でも、行末に自動的に改行が入らず、段落まるごと1行というメールを送る欠陥を露呈したばかりだし。安全という意味ではこの2つは避ける方が良いと思います。実際、この2つを使っているためにトラブルに巻き込まれても、「自業自得」としか思わない連中が私の周囲にはゴロゴロと……。