
複数の段落のテキストの言語を検出できるツールはありますか?
答え1
これを行うためのツールは数多くありますが、私が最初に思いつくのは Google 独自のツールです。 http://code.google.com/apis/ajax/playground/#language_detect
- Javaでは、http://textcat.sourceforge.net/
- ルビーでhttps://github.com/peterc/whatlanguage
- Perlの場合http://search.cpan.org/~ambs/Lingua-Identify-0.29/lib/Lingua/Identify.pm 等
それが役に立てば幸い
答え2
このfile
ツールには、ファイルの種類を推測するためのヒューリスティックが多数用意されており、その中には「英語のテキスト」を報告するものも含まれています。他の言語についても認識できるかどうかはわかりませんが、それらの言語を推測できるようにアップグレードすることは間違いなく可能です。