View
4.286
Download
0
Category
Preview:
DESCRIPTION
http://wikibana.socoda.net/wiki.cgi?Wiki%BE%AE%CF%C3%2fVol%2e5
Citation preview
戦うblogに恋するWiki
[わろすわろす]日本語WikiのURLが汚いと思わない開発者は頭が悪い負け組[これはひどい][しねばいいのに]URLはパッと見で内容が分かるほうがいい[spam][mohican]検索TrackBack spam手法を使ってURLを作ろうという記事
1
1
2
英語WikiNameのURLは直感的で良い
• Mohican → http://en.wikipedia.org/wiki/Mohican
3
日本語WikiNameのURLエンコードはダメ
• モヒカン →
http://ja.wikipedia.org/wiki/%E3%83%A2%E3%83%92%E3%82%AB%E3%83%B3
• ブラクラ・アサマシを踏ませるのには最適!
• UTF-8とEUC-JPでエンコード違うし
4
ブラウザによる支援• 「http://ja.wikipedia.org/wiki/ウィキ」というURLを入れると、エンコード変換したリクエストを出すブラウザも有る(Firefox, Safari, etc...)
• しかし「http://」での自動リンクがつかないので対処法としてはイマイチ
5
¥b(?:https?|shttp)://(?:(?:[-_.!~*'()a-zA-Z0-9;:&=+$,]|%[0-9A-Fa-f][0-9A-Fa-f])*@)?(?:(?:[a-zA-Z0-9](?:[-a-zA-Z0-9]*[a-zA-Z0-9])?¥.)*[a-zA-Z](?:[-a-zA-Z0-9]*[a-zA-Z0-9])?¥.?|[0-9]+¥.[0-9]+¥.[0-9]+¥.[0-9]+)(?::[0-9]*)?(?:/(?:[-_.!~*'()a-zA-Z0-9:@&=+$,]|%[0-9A-Fa-f][0-9A-Fa-f])*(?:;(?:[-_.!~*'()a-zA-Z0-9:@&=+$,]|%[0-9A-Fa-f][0-9A-Fa-f])*)*(?:/(?:[-_.!~*'()a-zA-Z0-9:@&=+$,]|%[0-9A-Fa-f][0-9A-Fa-f])*(?:;(?:[-_.!~*'()a-zA-Z0-9:@&=+$,]|%[0-9A-Fa-f][0-9A-Fa-f])*)*)*)?(?:¥?(?:[-_.!~*'()a-zA-Z0-9;/?:@&=+$,]|%[0-9A-Fa-f][0-9A-Fa-f])*)?(?:#(?:[-_.!~*'()a-zA-Z0-9;/?:@&=+$,]|%[0-9A-Fa-f][0-9A-Fa-f])*
)?
(Perlメモ http URL の正規表現http://www.din.or.jp/~ohzaki/perl.htm#httpURL
から)
http URL を抽出する正規表現
6
頭の悪いプログラマだと
簡易な正規表現で済ませてしまうことも結局マルチバイト文字はURLとして使えないことが多い
s?https?://[-_.!~*'()a-zA-Z0-9;/?:@&=+$,%#]+
ちなみにmixi.jpでは「!」はURLとして使えない記号と見なしているらしく、自動リンクが切れる。
古川 享blogなどのMSN blogのpermalink設計をDISってる?
7
解決するアイデアをいくつか思いついた
8
タイトルは日本語、URLは英文
• 蓮華伝説http://www.geocities.co.jp/HeartLand-Hanamizuki/2733/essay/lotus/lotus.htm
• I, newbie : FreeBSDでFile System Forensicを学ぶhttp://trombik.mine.nu/~cherry/w/index.php/2006/01/21/514/file-system-forensic-with-autopsy
9
WordPressが実現している?
• たぶん、日本語タイトルと英語URLを別々に入力している
• 英文URLを削除したhttp://trombik.mine.nu/~cherry/w/index.php/2006/01/21/514でもアクセスできる。英文URLは冗長な情報
10
英文URL式の欠点
• めんどくさい• 英作文は無理(な人が多い)• 英語じゃないと検索しにくい
11
ローマ字URLにする
• 例:
http://www.otsune.com/fswiki/TadaTada-shineba-ii-noni.html
12
ローマ字式の欠点
• ローマ字は表記が揺れる• カナ入力ユーザーはローマ字入力がめんどくさい
• migemoユーザー以外はローマ字で検索したりしない
13
いっそのことfolksonomyタグを英文URLにするのは
どうよ14
関連するblogについたタグを再利用
• Wikiの内容からRSS検索して、似た内容のblogエントリーを利用する
• 悪の「検索TrackBack spam手法」を善の方向に応用する
15
• Wiki本文の内容や単語からRSS検索する
• 関連blogのURLを一覧にする
• ソーシャルブックマークサービスAPI
からタグを抽出する
• Tag Cloudモジュール等で頻度の高いタグを選ぶ
16
• SBSにデータが無くてURL自動生成に失敗したら「_post1.html」というココログ病になってしまう
• mohican-mhatta-baka-neta.htmlなどのネガティヴなタグのついたURLが!
• microformats思想から
タグ式の欠点
17
• タグの組み合わせは575調にすると語呂が良い
• 「勝ち組・エロ・ゼニ・頭が良くなる」系のタグを混ぜる
• URLは256文字ギリギリにすると、はてなブックマークできなくなる
ちょっとしたTips
18
結論• パソコンはURLやファイルネームという名前ベースの情報にしばられすぎ
• 名前以外のメタ情報だけで情報にアクセスする時代が早くこねぇか
• URLエンコードを日本語に逆変換して表示するブラウザを熱望例: %E3%81%9F%E3%81%A0%E3%81%9F%E3%81%A0%E3%81%97%E3%81%AD%E3%81%B0%E3%81%84%E3%81%
84%E3%81%AE%E3%81%AB → ただただしねばいいのに※「Rubyって○○を動かすのに必要な奴でしょ?」でおなじみのWeb日記ツール開発者とは無関係です
19
ご清聴ありがとうございました
20
Recommended