Détecter la langue de chaîne de caractères en PHP

En PHP, est-il un moyen de détecter la langue d'une chaîne de caractères? Supposons que la chaîne est au format UTF-8.

Vous souhaitez tester si une chaîne a des caractères non-anglais? Pouvez-vous définir ce que "anglais" est?
"le problème avec les français, c'est qu'ils ont pas de mot pour entrepreneur"
Fondamentalement, ce que je veux faire, c'est que j'ai un tableau de la réception des commentaires de l'utilisateur, chaque commentaire peut être dans une langue différente. sur le PHP backend, j'ai envie de mettre un drapeau si le commentaire n'est pas l'anglais (comme en français ou en Japonais), et l'interface affichera un bouton traduire si le drapeau est réglé
Ce que vous voulez faire est possible avec du javascript et google. Vous n'avez pas besoin de faire autre chose que de l'inclure.
vous voudrez peut-être essayer google cld2!

InformationsquelleAutor Beier | 2009-09-17

17

Vous ne pouvez pas détecter la langue du type de caractère. Et il n'y a pas infaillible façons de le faire.

Avec n'importe quelle méthode, vous êtes en train de faire une supposition éclairée. Il y en a quelques calculs liés articles y

InformationsquelleAutor Ólafur Waage
34

J'ai utilisé le Text_LanguageDetect paquet pear avec certains des résultats raisonnables. C'est très simple à utiliser, et il a une modeste 52 de la langue de base de données. L'inconvénient est la non-détection de l'est des langues Asiatiques.
```
require_once 'Text/LanguageDetect.php';
$l = new Text_LanguageDetect();
$result = $l->detect($text, 4);
if (PEAR::isError($result)) {
    echo $result->getMessage();
} else {
    print_r($result);
}
```
résultats dans:
```
Array
(
    [german] => 0.407037037037
    [dutch] => 0.288065843621
    [english] => 0.283333333333
    [danish] => 0.234526748971
)
```
- Pouvez-vous m'expliquer comment je peux installer ce package sur un ordinateur hôte partagé? C'est me donner beaucoup de problèmes... je pense que c'est beaucoup plus utile pour moi que le google translate API;depuis, google limite le nombre d'appels tellement....
- Cette bibliothèque fonctionne pas avec php5?
- Sa ne marche pas pour moi 🙁
- Voir ce lien pour les instructions d'installation sur un ordinateur hôte partagé
- Text_LanguageDetect paquet pear produit des résultats terribles pour moi "de luxe, appartements de centre-ville" est détecté en tant que portugais... je suggère de mon API Google répondre à la place.
InformationsquelleAutor scott

Je sais que c'est un vieux post, mais voici ce que j'ai développé après de ne pas trouver de solution viable.

d'autres suggestions sont trop lourdes et trop encombrantes pour ma situation
Je soutiens un nombre fini de langues sur mon site (pour le moment deux: 'fr' et 'de' - mais la solution est généralisé pour plus de détails).
J'ai besoin d'un plausible deviner sur la langue d'un utilisateur généré par la chaîne, et j'ai une solution de secours (le paramètre de langue de l'utilisateur).
Si je veux une solution avec minimum de faux positifs - mais ne se soucient pas tellement sur faux négatifs.

La solution utilise les 20 mots les plus communs dans une langue, compte les occurrences de ces dans la botte de foin. Alors il se contente de comparer les chiffres de la première et de la deuxième plus compté langues. Si le deuxième nombre est inférieur à 10% du gagnant, le gagnant prend tout.

Code des suggestions pour l'amélioration de la vitesse sont plus que bienvenus!

    function getTextLanguage($text, $default) {
$supported_languages = array(
'en',
'de',
);
//German word list
//from http://wortschatz.uni-leipzig.de/Papers/top100de.txt
$wordList['de'] = array ('der', 'die', 'und', 'in', 'den', 'von', 
'zu', 'das', 'mit', 'sich', 'des', 'auf', 'für', 'ist', 'im', 
'dem', 'nicht', 'ein', 'Die', 'eine');
//English word list
//from http://en.wikipedia.org/wiki/Most_common_words_in_English
$wordList['en'] = array ('the', 'be', 'to', 'of', 'and', 'a', 'in', 
'that', 'have', 'I', 'it', 'for', 'not', 'on', 'with', 'he', 
'as', 'you', 'do', 'at');
//clean out the input string - note we don't have any non-ASCII 
//characters in the word lists... change this if it is not the 
//case in your language wordlists!
$text = preg_replace("/[^A-Za-z]/", ' ', $text);
//count the occurrences of the most frequent words
foreach ($supported_languages as $language) {
$counter[$language]=0;
}
for ($i = 0; $i < 20; $i++) {
foreach ($supported_languages as $language) {
$counter[$language] = $counter[$language] + 
//I believe this is way faster than fancy RegEx solutions
substr_count($text, ' ' .$wordList[$language][$i] . ' ');;
}
}
//get max counter value
//from http://stackoverflow.com/a/1461363
$max = max($counter);
$maxs = array_keys($counter, $max);
//if there are two winners - fall back to default!
if (count($maxs) == 1) {
$winner = $maxs[0];
$second = 0;
//get runner-up (second place)
foreach ($supported_languages as $language) {
if ($language <> $winner) {
if ($counter[$language]>$second) {
$second = $counter[$language];
}
}
}
//apply arbitrary threshold of 10%
if (($second / $max) < 0.1) {
return $winner;
} 
}
return $default;
}

J'aime votre approche et trouve que ça donne une bonne estimation. Il y a quelques (petits) problèmes avec votre code comme il ne sera pas compter le nombre de mots avant un point (.) ou une virgule (,) etc
oui, il sera pris en compte ces mots (. et , sont remplacés par des espaces et ainsi devenir le "délimiteurs de mots"). Mais vous aurez en effet besoin de faire quelques ajustements si les chaînes dans votre liste de mots contiennent des caractères non-ASCII.
Bah, vous avez raison. Je n'ai pas l'attention. Je l'ai déjà changé d'utiliser array_count_values(str_word_count($texte,1)). Cela semble un peu plus rapide (micro) pour les petites chaînes où je l'utiliser pour.

InformationsquelleAutor Swiss Mister

15

Vous pourriez faire de ce côté client avec ~~Google AJAX API de Langage~~ (aujourd'hui disparu).

Avec le Langage AJAX API, vous pouvez traduire et de détecter la langue de blocs de texte dans une page web à l'aide de Javascript. En outre, vous pouvez activer la translittération sur n'importe quel champ de texte ou textarea dans votre page web. Par exemple, si vous avez été transliterating de l'Hindi, cette API va permettre aux utilisateurs de phonétiquement sort Hindi mots à l'aide de l'anglais et de les faire apparaître dans le Hindi script.

Vous pouvez détecter automatiquement une chaîne de langue
```
var text = "¿Dónde está el baño?";
google.language.detect(text, function(result) {
if (!result.error) {
var language = 'unknown';
for (l in google.language.Languages) {
if (google.language.Languages[l] == result.language) {
language = l;
break;
}
}
var container = document.getElementById("detection");
container.innerHTML = text + " is: " + language + "";
}
});
```
Et de traduire n'importe quelle chaîne écrite dans l'une des ~~langues prises en charge~~ (également disparu)
```
google.language.translate("Hello world", "en", "es", function(result) {
if (!result.error) {
var container = document.getElementById("translation");
container.innerHTML = result.translation;
}
});
```
- L'original de Google API de Langage est maintenant dépréciée et API2 est payé. Aussi, pour la simple utilise $20/1M personnages semble une touche coûteux.
- Vous obtenez 300$ en crédit gratuit, j'ai fourni un PHP exemple ci-dessous
InformationsquelleAutor Esteban Küber
7

Que Google Translate API va fermer comme un service gratuit, vous pouvez essayer cette alternative libre, qui est un remplacement pour l'API Google Translate:

http://detectlanguage.com
- Je l'aime, mais en regardant en plus de leur mandat malheureusement me rend nerveux au sujet de leur utilisation.
InformationsquelleAutor Laurynas

J'ai essayé le Text_LanguageDetect bibliothèque et les résultats que j'ai obtenu n'étaient pas très bonnes (par exemple, le texte "test" a été identifié comme l'estonien et en anglais).

Je peux vous recommandons d'essayer le Yandex Traduire API qui est GRATUIT pour 1 million de caractères pour 24 heures et jusqu'à 10 millions de caractères d'un mois.
Il prend en charge (selon la documentation) plus de 60 langues.

<?php
function identifyLanguage($text)
{
$baseUrl = "https://translate.yandex.net/api/v1.5/tr.json/detect?key=YOUR_API_KEY";
$url = $baseUrl . "&text=" . urlencode($text);
$ch = curl_init($url);
curl_setopt($ch, CURLOPT_CAINFO, YOUR_CERT_PEM_FILE_LOCATION);
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 2);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, TRUE);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);
$output = curl_exec($ch);
if ($output)
{
$outputJson = json_decode($output);
if ($outputJson->code == 200)
{
if (strlen($outputJson->lang) > 0)
{
return $outputJson->lang;
}
}
}
return "unknown";
}
function translateText($text, $targetLang)
{
$baseUrl = "https://translate.yandex.net/api/v1.5/tr.json/translate?key=YOUR_API_KEY";
$url = $baseUrl . "&text=" . urlencode($text) . "&lang=" . urlencode($targetLang);
$ch = curl_init($url);
curl_setopt($ch, CURLOPT_CAINFO, YOUR_CERT_PEM_FILE_LOCATION);
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 2);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, TRUE);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);
$output = curl_exec($ch);
if ($output)
{
$outputJson = json_decode($output);
if ($outputJson->code == 200)
{
if (count($outputJson->text) > 0 && strlen($outputJson->text[0]) > 0)
{
return $outputJson->text[0];
}
}
}
return $text;
}
header("content-type: text/html; charset=UTF-8");
echo identifyLanguage("エクスペリエンス");
echo "<br>";
echo translateText("エクスペリエンス", "en");
echo "<br>";
echo translateText("エクスペリエンス", "es");
echo "<br>";
echo translateText("エクスペリエンス", "zh");
echo "<br>";
echo translateText("エクスペリエンス", "he");
echo "<br>";
echo translateText("エクスペリエンス", "ja");
echo "<br>";
?>

"test" n'est pas un montant raisonnable de texte. Vous devriez avoir au moins une phrase, de mieux à deux ou plus.

InformationsquelleAutor Muzikant

2

Vous pouvez probablement utiliser la Google Translate API pour détecter la langue et le traduire si nécessaire.
- Car ils sont la suppression de ce en option gratuite, il pourrait ne pas être une option. Aussi, la traduction, le commentaire pourrait être une mauvaise idée de ne pas seulement en raison de la "lost in translation" de l'effet, mais aussi parce que l'utilisateur ne peut pas lire du tout l'anglais. Combien serait-il freak vous si un site traduit votre commentaire dans une langue que vous ne pouvais pas les lire?
- Il y a une traduction libre package disponible sur GitHub, qui permet de détecter la langue (comme de la v3.0) github.com/Stichoza/google-translate-php
InformationsquelleAutor strager
2

Vous pouvez voir comment détecter la langue pour une chaîne de caractères en php à l'aide de la Text_LanguageDetect Paquet Pear ou les télécharger pour les utiliser séparément comme un régulier de la bibliothèque php.
- ce besoin de plus upvotes, a fonctionné comme un charme! merci
- en fait essayé un peu plus et il ne fonctionne pas très bien... "de luxe, appartements de centre-ville, il est détecté que le portugais. Ni "de luxe", ni le "centre-ville" est un mot portugais.. terrible..
- Vous aurez besoin de les nourrir avec un peu plus de mots. Généralement détection de la langue nécessite une phrase de plus.
InformationsquelleAutor adiian
2

Text_LanguageDetect paquet pear produit des résultats terribles: "le luxe, appartements de centre-ville" est détecté en tant que portugais...

API de Google est encore la meilleure solution, ils donnent de 300$ de crédit gratuite et d'avertir avant de charger quoi que ce soit vous

Ci-dessous est super simple fonction qui utilise file_get_contents pour télécharger le lang détecté par l'API, donc pas besoin de télécharger ou d'installer les bibliothèques, etc.
```
function guess_lang($str) {
$str = str_replace(" ", "%20", $str);
$content = file_get_contents("https://translation.googleapis.com/language/translate/v2/detect?key=YOUR_API_KEY&q=".$str);
$lang = (json_decode($content, true));
if(isset($lang))
return $lang["data"]["detections"][0][0]["language"];
}
```
Exécuter:
```
echo guess_lang("luxury apartments downtown montreal"); //returns "en"
```
Vous pouvez obtenir votre Google Translate API clé ici: https://console.cloud.google.com/apis/library/translate.googleapis.com/

C'est un simple exemple pour de courtes phrases pour vous allez. Pour des applications plus complexes, vous aurez envie de restreindre votre clé API et de l'utilisation de la bibliothèque évidemment.

InformationsquelleAutor Robert Sinclair
1

Une approche pourrait être de briser la chaîne d'entrée en mots, puis rechercher ces mots dans un dictionnaire anglais pour voir combien d'entre eux sont présents. Cette approche a quelques limitations:
- les noms propres ne peuvent pas être traités bien
- fautes d'orthographe peuvent perturber vos recherches
- abréviations comme "lol" ou "b4" ne sera pas forcément dans le dictionnaire
- "lol" est un acronyme. =]
- et un acronyme est un type de abbrevation: en.wiktionary.org/wiki/acronym 🙂
InformationsquelleAutor Greg Hewgill
1

Peut-être soumettre la chaîne à cette langue devineur:

http://www.xrce.xerox.com/competencies/content-analysis/tools/guesser

InformationsquelleAutor Andy
1

Je prendrais des documents de diverses langues de référence et de contre Unicode. Vous pouvez ensuite utiliser certains le raisonnement bayésien pour déterminer la langue dans laquelle il est juste de l'unicode des caractères utilisés. Ce serait séparée en français depuis l'anglais ou le russe.

Je ne sais pas exactement sur quoi d'autre qui pourrait être fait à l'exception de recherche de mots dans des dictionnaires de langue pour déterminer la langue (en utilisant une approche probabiliste).

InformationsquelleAutor MathGladiator

essayez d'utiliser ascii de l'encodage.
j'utilise ce code pour déterminer ru\fr langues dans mon projet bot

function language($string) {
$ru = array("208","209","208176","208177","208178","208179","208180","208181","209145","208182","208183","208184","208185","208186","208187","208188","208189","208190","208191","209128","209129","209130","209131","209132","209133","209134","209135","209136","209137","209138","209139","209140","209141","209142","209143");
$en = array("97","98","99","100","101","102","103","104","105","106","107","108","109","110","111","112","113","114","115","116","117","118","119","120","121","122");
$htmlcharacters = array("<", ">", "&amp;", "&lt;", "&gt;", "&");
$string = str_replace($htmlcharacters, "", $string);
//Strip out the slashes
$string = stripslashes($string);
$badthings = array("=", "#", "~", "!", "?", ".", ",", "<", ">", "/", ";", ":", '"', "'", "[", "]", "{", "}", "@", "$", "%", "^", "&", "*", "(", ")", "-", "_", "+", "|", "`");
$string = str_replace($badthings, "", $string);
$string = mb_strtolower($string);
$msgarray = explode(" ", $string);
$words = count($msgarray);
$letters = str_split($msgarray[0]);
$letters = ToAscii($letters[0]);
$brackets = array("[",",","]");
$letters = str_replace($brackets,  "", $letters);
if (in_array($letters, $ru)) {
$result = 'Русский' ; //russian
} elseif (in_array($letters, $en)) {
$result = 'Английский'; //english
} else {
$result = 'ошибка' . $letters; //error
}} return $result;

InformationsquelleAutor Master-Bunny

1

J'ai eu de bons résultats avec https://github.com/patrickschur/language-detection et suis à l'aide de la production:
- Il utilise ngrams en langues pour détecter le plus probable de la langue (le plus long de votre chaîne /le plus de mots, le plus précis qu'il sera), ce qui semble une solide méthode éprouvée.
- De 110 langues sont prises en charge, mais vous pouvez également limiter le nombre de langues à seulement ceux qui vous intéressent.
- Formateur et de la Langue détecteur peut être facilement amélioré /adaptées. Il utilise la Déclaration Universelle des Droits de l'Homme dans chacune des langues comme la fondation pour détecter une langue, mais si vous savez quel type de phrases que vous l'expérience, vous pouvez facilement étendre ou de remplacer l'utilisé textes dans chaque langue et d'obtenir de meilleurs résultats plus rapidement. "Formation" de cette bibliothèque pour devenir meilleur, c'est facile.
- Je suggère d'augmenter setMaxNgrams (je l'ai mis à 9000) dans le Formateur et l'exécuter une fois, et puis également utiliser ce paramètre dans la Langue détecteur de classe. La modification de la ngrams nombre est un peu pas intuitif (j'ai dû chercher dans le code pour savoir comment ça fonctionne), ce qui est un inconvénient, et la valeur par défaut (310) est toujours trop faible à mon avis. Plus ngrams rend le deviner beaucoup mieux.
- Parce que la bibliothèque est très petit, il était relativement facile de comprendre ce qui se passe et comment le modifier.
Mon utilisation: j'analyse les e-mails pour un système de CRM afin de savoir dans quelle langue un e-mail a été écrit, afin d'envoyer le texte à un tiers de service n'était pas une option. Même si la Déclaration Universelle des Droits de l'Homme n'est probablement pas la meilleure base pour classer la langue de courriels (e-mails ont souvent stéréotypé, des pièces comme les salutations, qui ne font pas partie des Droits de l'Homme Déclaration), il identifie la langue appropriée dans 99% des cas, si il y a au moins 5 mots.

Mise à jour: j'ai réussi à améliorer la reconnaissance de la langue dans les e-mails en gros de 100% lors de l'utilisation de la langue-la détection de la bibliothèque avec les méthodes suivantes:
- Ajouter d'autres expressions courantes de la (les) langue échantillons, comme "Bonjour", "cordialement", "Cordialement". Ces expressions ne sont pas utilisés dans la Déclaration Universelle des Droits de l'Homme. Phrases couramment utilisées aider à la reconnaissance de la langue beaucoup, surtout ceux de formule est utilisée souvent à mon homme ("Bonjour", "bonne journée") si vous êtes l'analyse de la communication humaine.
- Définir le nombre maximal de ngram longueur de 4 (au lieu de la valeur par défaut 3).
- Garder le maxNgrams à 9000 comme avant.
Ces faire faire de la bibliothèque un peu plus lent, je vous suggère de les utiliser d'une façon asynchrone, si possible, et de mesurer la performance. Dans mon cas c'est plus que rapide et beaucoup plus précis.

InformationsquelleAutor iquito
0

Vous pourriez mettre en œuvre un module de Apache Tika avec Java, insérer les résultats dans un fichier txt, DB, etc et ensuite de lire à partir du fichier db, que ce soit avec php.
Si vous n'avez pas beaucoup de contenu, vous pouvez utiliser les API Google, mais gardez à l'esprit votre appel sera limité, et vous ne pouvez envoyer qu'un nombre restreint de caractères de l'API. Au moment de l'écriture, je l'avais terminé de tester la version 1 (qui s'est avéré ne pas être très précis) et les laboratoires version 2 (j'ai abandonné après, j'ai lu qu'il y a 100 000 caractères de la pac par jour) de l'API.

InformationsquelleAutor Osvaldo Mercado

Vous devez vous connecter pour publier un commentaire.