2005年09月12日
川俣晶の縁側ソフトウェア技術雑記total 2983 count

意図せざるspamのヘッダー解析、日本語を装っても中国発がばればれ?

Written By: 川俣 晶連絡先

 spamを整理中に、ふと気になるSubejctが見えました。

Subject:NANAって何?【漫画⇒映画⇒そしてメルマガへ・・

 もしかして、万が一、私がコミックのNANAの感想を書いたことに対するリアクションだろうか?と思って見てみると。

 中身は単なるspamでした。

 ただ、興味深いのは、ヘッダーが壊れていて、ヘッダーが途中から本文に表示されていたことです。

 本文の第1行目はこのような内容でした。

=?GB2312?B?RYFFgXpOQU5Bg3WBW4OAgvCNbIKmguk=?=

 思わず、プッと吹き出す大笑い。

 日本語のメールだと思っていたらGB2312ですか。

 GBといえば、中国語ではありませんか。

 日本語なら通常はISO-2022-JPだし、洒落た人でもUTF-8でしょう。日本語のメールでGB2312はあり得ません。

 ヘッダーが壊れたおかげで、そのことが一瞬で解析完了できました (笑)。

オマケ・よくある誤り charset="EUC" §

 ちなみに、もう1つの誤りもすぐ分かりました。

Content-Type: text/plain;charset="EUC"

 はい、最近(あるいは昔から)しばしば飛んでくる間違いヘッダーですね。

 日本語EUCは、EUCではなく、EUC-JPという名前になります。EUCは、UNIXのためのコード体系であって、EUC-CNなどが日本以外にも存在します。ですから、日本語のEUCは、日本を示す"JP"を付けたEUC-JPがIANAに登録されています。

 もちろん、日本では慣習的に、電子メールはEUC-JPを使わずISO-2022-JPを使うことになっていますが、それも知らないようですね。つつき出すと、問題だらけです。

 実は、厳密な電子メールの構文チェックを行うだけで、spamの多くが排除できるかもしれません。

 ちなみに、日本人が一般的に使っているメールソフト(MUA)は、そのような情けない誤りをほとんど含みませんので、日本人の間のコミュニケーションに不自由が発生することは、まずないはずです。

とはいえ、OutlookExpressとOutlookだけは、過去にひどい欠陥を晒した実績があるので怖いですね。最近でも、行末に自動的に改行が入らず、段落まるごと1行というメールを送る欠陥を露呈したばかりだし。安全という意味ではこの2つは避ける方が良いと思います。実際、この2つを使っているためにトラブルに巻き込まれても、「自業自得」としか思わない連中が私の周囲にはゴロゴロと……。

Facebook

キーワード【 川俣晶の縁側ソフトウェア技術雑記
【技術雑記】の次のコンテンツ
2005年
09月
27日
SQL Server 2005: スキーマのない巨大XML文書へのクエリ性能はどれぐらい?
3days 0 count
total 11900 count
【技術雑記】の前のコンテンツ
2005年
09月
06日
XML混迷の元凶を振り返る・我々はどこで足を踏み外したのか?
3days 0 count
total 3040 count

このコンテンツを書いた川俣 晶へメッセージを送る

[メッセージ送信フォームを利用する]

メッセージ送信フォームを利用することで、川俣 晶に対してメッセージを送ることができます。

この機能は、100%確実に川俣 晶へメッセージを伝達するものではなく、また、確実に川俣 晶よりの返事を得られるものではないことにご注意ください。

このコンテンツへトラックバックするためのURL

https://mag.autumn.org/tb.aspx/20050912114020
サイトの表紙【技術雑記】の表紙【技術雑記】のコンテンツ全リスト 【技術雑記】の入手全リスト 【技術雑記】のRSS1.0形式の情報このサイトの全キーワードリスト 印刷用ページ

管理者: 川俣 晶連絡先

Powered by MagSite2 Version 0.36 (Alpha-Test) Copyright (c) 2004-2021 Pie Dey.Co.,Ltd.