
Существует ли инструмент, который может определить язык текста нескольких абзацев?
решение1
Для этого существует множество инструментов, и первый, который приходит мне на ум, — это инструмент Google: http://code.google.com/apis/ajax/playground/#language_detect
- В Java естьhttp://textcat.sourceforge.net/
- В рубинеhttps://github.com/peterc/whatlanguage
- В Перлеhttp://search.cpan.org/~ambs/Lingua-Identify-0.29/lib/Lingua/Identify.pm и т. д.
Надеюсь, поможет
решение2
Инструмент file
имеет ряд эвристик для угадывания типов файлов, включая ту, которая сообщает "английский текст". Я не знаю, знает ли он о других человеческих языках, но его определенно можно улучшить, чтобы угадывать между ними.