Wikipediaデータダウンロード 利用方法をステップ形式で伝授
ウィキペディアデータを辞書として現存のワードプレスサイトにあてがう方法について。
情報量が膨大なだけに辞書がわにも使えるウィキペディアのデータをワードプレスに紐づけデータを取得します。
ウィキペディアデータは本家関連サイトでダウンロードすることができ、様々な種類のデータが配布されていますが、とりあえず全文データが入ったjawiki-latest-pages-articles.xml.bz2あたりを利用するのが定番みたいですね。
bzip2で圧縮されているとはいえ、2.2GBくらいあるのでダウンロードするだけでもけっこう時間がかかり、尚且つ、編集しようもんなら尚更、面倒くさいです。
何故、編集が必要になるのか?
本文データといっても、アップロード情報、削除申請、削除理由に関する管理管轄のデータも入っており、これらは辞書的な利用価値をもつ人にしてみれば余計な情報でしかないからです。
余計なデータを削り少しでも身軽にしたうえで利用したいと思うのが人間の心理ってもんで・・・。
ってなわけでウィキペディアデータは一旦、ubuntuなんかで仮想サーバーを作り、その中にインポート、編集作業を行った後に分割ダンプ、本番サーバーにインポート・・・・ってのが妥当な手段になるかと。
ここで解説されているとおり進めていって無事、ウィキペディアデータをワードプレスと連携させることが出来ました。
基本的に掲載されているコードをコピペしながら作業を進めていくだけでOKなので、Linuxやsqlに対しあまり知識を持っていない人でもいけると思います。
XMLデータで配布されているウィキペディアデータをインポートするにはテーブル定義文やjavaのmwdumperなんかが必要になるのですが、必要ファイルをすべてフォルダにまとめて配布してくれています。