
Gibt es ein Tool, das die Sprache des Textes mehrerer Absätze erkennen kann?
Antwort1
Es gibt viele Tools, mit denen sich dies bewerkstelligen lässt. Das erste, das mir einfällt, ist das von Google: http://code.google.com/apis/ajax/playground/#language_detect
- In Java gibt eshttp://textcat.sourceforge.net/
- In Rubyhttps://github.com/peterc/whatlanguage
- In Perlhttp://search.cpan.org/~ambs/Lingua-Identify-0.29/lib/Lingua/Identify.pm usw.
Ich hoffe es hilft
Antwort2
Das file
Tool verfügt über eine Reihe von Heuristiken zum Erraten von Dateitypen, darunter eine, die „englischen Text“ meldet. Ich weiß nicht, ob es andere menschliche Sprachen kennt, aber es könnte definitiv so verbessert werden, dass es zwischen ihnen raten kann.