Toshinori Sato
トーク編集
本発表では Perl と自然言語処理技術を使った日本語を含むデータのクリーニングや、データの質を高める運用ルールについて、例を挙げつつお話いたします。
きれいで無駄が少なく便利なデータをゼロから、または、既存のデータから作り、さらにそれを維持するためには多くの人件費がかかります。
そして、その人件費はソフトウェアと自然言語処理技術により人間の作業をサポートすることや、運用時のルール作りを工夫することで少なからず削減できます。
本発表でお話する内容を理解するのに必要な Perl や自然言語処理関連の知識はありません。事前にお手元のアプリケーションで使われている"きれいにしたいデータ"を見つけてから本発表をお聞きいただけると、より円滑に内容を理解できると思います。
公式タグ、ハッシュタグは yapcasia を使用してください。ブックマーク、ブログ、写真等のタグ、そしてTwitterでご使用いただけると情報共有に便利です。年度を特定したい場合は yapcasia2012 でも結構ですが、yapcasiaと併用してくださると助かります。
また、IRCは freenode上の #yapcasia-en (英語)と #yapcasia-ja です。