Comment détecter la langue d'une chaîne de caractères?

Quel est le meilleur moyen de détecter la langue d'une chaîne de caractères?

Pourriez-vous préciser si vous êtes à la recherche de "la langue parlée" ou "langage de programmation".

InformationsquelleAutor Alon Gubkin | 2009-07-28

Si le contexte de votre code d'accès internet, vous pouvez essayer d'utiliser l'API de Google pour la détection de la langue.
http://code.google.com/apis/ajaxlanguage/documentation/

var text = "¿Dónde está el baño?";
google.language.detect(text, function(result) {
  if (!result.error) {
    var language = 'unknown';
    for (l in google.language.Languages) {
      if (google.language.Languages[l] == result.language) {
        language = l;
        break;
      }
    }
    var container = document.getElementById("detection");
    container.innerHTML = text + " is: " + language + "";
  }
});

Et, puisque vous êtes à l'aide de c#, jetez un oeil à cet article sur la façon d'appeler les API en c#.

Mise à JOUR:
C# lien est parti, voici une copie en cache de la base de:

string s = TextBoxTranslateEnglishToHebrew.Text;
string key = "YOUR GOOGLE AJAX API KEY";
GoogleLangaugeDetector detector =
   new GoogleLangaugeDetector(s, VERSION.ONE_POINT_ZERO, key);

GoogleTranslator gTranslator = new GoogleTranslator(s, VERSION.ONE_POINT_ZERO,
   detector.LanguageDetected.Equals("iw") ? LANGUAGE.HEBREW : LANGUAGE.ENGLISH,
   detector.LanguageDetected.Equals("iw") ? LANGUAGE.ENGLISH : LANGUAGE.HEBREW,
   key);

TextBoxTranslation.Text = gTranslator.Translation;

Fondamentalement, vous avez besoin de créer une URI et de l'envoyer à Google qui ressemble à:

http://ajax.googleapis.com/ajax/services/language/translate?v=1.0&q=hello%20worled&langpair=en%7ciw&key=your_google_api_key_goes_here

Cela indique à l'API que vous voulez traduire "hello world" à partir de l'anglais à l'hébreu, à qui Google la réponse JSON ressemblerait à:

{"responseData": {"translatedText":"שלום העולם"}, "responseDetails": null, "responseStatus": 200}

J'ai choisi de faire une classe de base qui représente une typique Google réponse JSON:

[Serializable]
public class JSONResponse
{
   public string responseDetails = null;
   public string responseStatus = null;
}

Puis, une Traduction de l'objet qui hérite de cette classe:

[Serializable]
public class Translation: JSONResponse
{
   public TranslationResponseData responseData = 
    new TranslationResponseData();
}

Cette Traduction de classe a un TranslationResponseData objet qui ressemble à ceci:

[Serializable]
public class TranslationResponseData
{
   public string translatedText;
}

Enfin, nous pouvons faire la GoogleTranslator classe:

using System;
using System.Collections.Generic;
using System.Text;
using System.Web;
using System.Net;
using System.IO;
using System.Runtime.Serialization.Json;
namespace GoogleTranslationAPI
{
public class GoogleTranslator
{
private string _q = "";
private string _v = "";
private string _key = "";
private string _langPair = "";
private string _requestUrl = "";
private string _translation = "";
public GoogleTranslator(string queryTerm, VERSION version, LANGUAGE languageFrom,
LANGUAGE languageTo, string key)
{
_q = HttpUtility.UrlPathEncode(queryTerm);
_v = HttpUtility.UrlEncode(EnumStringUtil.GetStringValue(version));
_langPair =
HttpUtility.UrlEncode(EnumStringUtil.GetStringValue(languageFrom) +
"|" + EnumStringUtil.GetStringValue(languageTo));
_key = HttpUtility.UrlEncode(key);
string encodedRequestUrlFragment =
string.Format("?v={0}&q={1}&langpair={2}&key={3}",
_v, _q, _langPair, _key);
_requestUrl = EnumStringUtil.GetStringValue(BASEURL.TRANSLATE) + encodedRequestUrlFragment;
GetTranslation();
}
public string Translation
{
get { return _translation; }
private set { _translation = value; }
}
private void GetTranslation()
{
try
{
WebRequest request = WebRequest.Create(_requestUrl);
WebResponse response = request.GetResponse();
StreamReader reader = new StreamReader(response.GetResponseStream());
string json = reader.ReadLine();
using (MemoryStream ms = new MemoryStream(Encoding.Unicode.GetBytes(json)))
{
DataContractJsonSerializer ser =
new DataContractJsonSerializer(typeof(Translation));
Translation translation = ser.ReadObject(ms) as Translation;
_translation = translation.responseData.translatedText;
}
}
catch (Exception) { }
}
}
}

Vrai, et j'ai utilisé ce trop. Mais ils tirent de soutien pour son utilisation.
Il semble que cette fonctionnalité n'est actuellement une partie de l'API Google Translate et offert comme un service payant. developers.google.com/translate/v2/pricing

InformationsquelleAutor Magnus Johansson

24

Réponse rapide: NTextCat (NuGet, Démo En Ligne)

Réponse longue:

Actuellement le meilleur moyen semble utiliser les classificateurs formés à classer morceau de texte dans l'une (ou plusieurs) des langues, de l'ensemble prédéfini.

Il y a un Perl outil appelé TextCat. Il a les modèles de langue pour 74 la plupart des langues populaires. Il ya un grand nombre de ports de cet outil dans les différents langages de programmation.

N'ont pas de ports en .Net. J'ai donc écrit un: NTextCat sur GitHub.

Il est pur .NET Framework DLL + interface de ligne de commande pour elle. Par défaut, il utilise un profil de 14 langues.

Tout commentaire est très apprécié!
De nouvelles idées et de demandes de fonctionnalités sont les bienvenus aussi 🙂

Alternative est d'utiliser de nombreux services en ligne (par exemple, l'un à partir de Google mentionné, detectlanguage.com, langid.net, etc.).
- Impressionnant travail d'Ivan. Je viens de consulter votre OSS code sur Codeplex. Je serais prêt à vous aider avec ce projet si vous en avez besoin.
- Oui, bien sûr! Merci de postuler sur ntextcat.codeplex.com/team/view
- Chemin à parcourir homme! Bonne chance avec ce projet.
- Ce que la licence de votre utilisation de la bibliothèque? Je ne vois pas spécifié dans Github ou dans le fichier README.
- MIT, ajouté à readme.
- Génial, merci!
- Veuillez trouver la NTextcat mise en œuvre avec la démo d'application et le code source ici: codecanyon.net/item/language-detect/23356008?ref=intelliwins
InformationsquelleAutor Ivan Akcheurov
7

Une approche statistique à l'aide de bigrammes ou trigraphs est un très bon indicateur. Par exemple, voici les plus courantes bigrammes, en anglais, dans l'ordre: http://www.letterfrequency.org/#digraph-frequency (on peut trouver de mieux ou de plus de listes complètes). Cette méthode peut avoir un meilleur taux de réussite que la parole, l'analyse de courts extraits de texte, car il y a plus de bigrammes dans le texte qu'il y a des mots complets.

InformationsquelleAutor Greg Hewgill
6

Si tu veux dire que le naturel (c'est à dire de l'homme) de la langue, c'est en général un Problème Difficile. En quelle langue est "serveur" - l'anglais ou le turc? Quel est le langage "chat" - en anglais ou en français? Quel est le langage "uno" - en italien ou en espagnol (ou en Latin!) ?

Sans prêter attention au contexte, et en faisant quelques dur traitement de la langue naturelle (<----- c'est l'expression de google de), vous n'avez pas de chance.

Vous pouvez profiter d'un coup d'oeil à Frengly - c'est une belle INTERFACE utilisateur sur le Google Translate service qui tente de deviner la langue d'entrée de texte...

InformationsquelleAutor AakashM
6

Faire une analyse statistique de la chaîne: Diviser la chaîne en mots. Obtenez un dictionnaire pour chaque langue que vous souhaitez tester. Et puis de trouver le langage qui a le plus grand nombre de mots.

En C# pour chaque chaîne dans la mémoire seront en unicode, et n'est pas codé. Également dans des fichiers texte le codage n'est pas stocké. (Parfois seulement une indication de 8 bits ou 16 bits).

Si vous voulez faire une distinction entre les deux langues, vous pouvez trouver quelques astuces simples. Par exemple, si vous voulez reconnaître anglais, du néerlandais, de la chaîne de caractères qui contient le "y" est le plus souvent l'anglais. (Fiables, mais rapide).
- Vous dites qu'il n'y a pas de "y" en néerlandais? Je peux vous donner 100 mots néerlandais avec un "y" tout de suite.
- Ce pourrait être approprié pour un début de programmation de classe, mais est loin d'être une réelle solution au problème.
- Mais il n'est pas fiable à 100% détection de la langue. Si vous voulez un rapide distinction fiable entre le néerlandais et l'anglais, le comptage du y va effectuer très bien (c'est ce que la "plupart" des moyens).
InformationsquelleAutor GvS
2

CLD (Compact Langue Détecteur) de la bibliothèque de Google Chrome navigateur

Vous pouvez rassembler le CLD de la bibliothèque, qui est écrite en C++

http://code.google.com/p/chromium-compact-language-detector/
- Je sais que c'est de plus de trois ans, mais je dois dire que les CLD ne fonctionne pas bien avec des chaînes courtes. Quelque chose avec moins de 200 caractères ne sera pas obtenir une détection précise.
InformationsquelleAutor f3lix
2

Vous pouvez utiliser le C# package pour l'identification de la langue de Microsoft Research:

Ce package met en œuvre plusieurs algorithmes pour la langue
identification, et comprend deux ensembles de pré-langage compilé
les profils. Un jeu de couvre 52 langues et a reçu une formation sur Wikipedia
(c'est à dire un bien écrit corpus); l'autre couvre 26 langues et a été
construit à partir de Twitter (c'est à dire un très familière corpus). L'
les identificateurs de langue sont emballés comme un C# bibliothèque, et être facilement
intégré dans d'autres projets C#.

Télécharger le package à partir du lien ci-dessus.
- Pourriez vous m'expliquer comment puis-je ajouter à ce package de mon windows en C# formulaire de demande?
InformationsquelleAutor Reg Edit
0

Nous pouvons utiliser Regex.IsMatch(text, "[\\uxxxx-\\uxxxx]+") pour détecter une langue spécifique. Ici, xxxx est le numéro à 4 chiffres Unicode id d'un personnage.

Pour détecter arabe:
```
bool isArabic = Regex.IsMatch(yourtext, @"[\u0600-\u06FF]+")
```
InformationsquelleAutor ariful islam
0

Une alternative est d'utiliser les " Traducteur de Texte API " qui est

... une partie de l'Azur Cognitive des Services de l'API collection de machine
d'apprentissage et des algorithmes d'IA dans le cloud, et est facilement consommables
vos projets de développement

Voici un guide de démarrage rapide sur la façon de détecter la langue du texte à l'aide de cette API

InformationsquelleAutor NGambit

Vous devez vous connecter pour publier un commentaire.