Tronquer un texte contenant du code HTML, en ignorant les tags

Je veux tronquer du texte (chargé à partir d'une base de données ou un fichier texte), mais il contient du HTML donc, en conséquence, les balises sont incluses et moins de texte sera renvoyé. Ceci peut causer des balises n'étant pas fermé ou partiellement fermé (si propre peut ne pas fonctionner correctement et il y a encore moins de contenu). Comment puis-je tronquer sur la base du texte (et probablement de s'arrêter lorsque vous arrivez à une table car cela pourrait causer plus de problèmes complexes).

substr("Hello, my <strong>name</strong> is <em>Sam</em>. I&acute;m a web developer.",0,26)."..."

Dans

Hello, my <strong>name</st...

Ce que je veux c'est:

Hello, my <strong>name</strong> is <em>Sam</em>. I&acute;m...

Comment puis-je faire cela?

Alors ma question est comment le faire en PHP, il serait bon de savoir comment le faire en C#... soit devrait être OK car je pense que je serais capable de port la méthode plus (sauf si c'est un construit dans la méthode).

Note aussi que j'ai inclus une entité HTML ´ - ce qui serait considéré comme un seul caractère (au lieu de 7 caractères, comme dans cet exemple).

strip_tags est une solution de secours, mais je voudrais perdre la mise en forme et de liens, et il aurait toujours le problème avec les entités HTML.

OriginalL'auteur SamWM | 2009-07-28

En supposant que vous utilisez XHTML valide, c'est simple à analyser le code HTML et assurez-vous que les balises sont correctement gérés. Il vous suffit de suivre les balises ont été ouverts à ce jour, et assurez-vous de fermer à nouveau "sur votre moyen de sortir".

<?php
header('Content-type: text/plain; charset=utf-8');
function printTruncated($maxLength, $html, $isUtf8=true)
{
$printedLength = 0;
$position = 0;
$tags = array();
//For UTF-8, we need to count multibyte sequences as one character.
$re = $isUtf8
? '{</?([a-z]+)[^>]*>|&#?[a-zA-Z0-9]+;|[\x80-\xFF][\x80-\xBF]*}'
: '{</?([a-z]+)[^>]*>|&#?[a-zA-Z0-9]+;}';
while ($printedLength < $maxLength && preg_match($re, $html, $match, PREG_OFFSET_CAPTURE, $position))
{
list($tag, $tagPosition) = $match[0];
//Print text leading up to the tag.
$str = substr($html, $position, $tagPosition - $position);
if ($printedLength + strlen($str) > $maxLength)
{
print(substr($str, 0, $maxLength - $printedLength));
$printedLength = $maxLength;
break;
}
print($str);
$printedLength += strlen($str);
if ($printedLength >= $maxLength) break;
if ($tag[0] == '&' || ord($tag) >= 0x80)
{
//Pass the entity or UTF-8 multibyte sequence through unchanged.
print($tag);
$printedLength++;
}
else
{
//Handle the tag.
$tagName = $match[1][0];
if ($tag[1] == '/')
{
//This is a closing tag.
$openingTag = array_pop($tags);
assert($openingTag == $tagName); //check that tags are properly nested.
print($tag);
}
else if ($tag[strlen($tag) - 2] == '/')
{
//Self-closing tag.
print($tag);
}
else
{
//Opening tag.
print($tag);
$tags[] = $tagName;
}
}
//Continue after the tag.
$position = $tagPosition + strlen($tag);
}
//Print any remaining text.
if ($printedLength < $maxLength && $position < strlen($html))
print(substr($html, $position, $maxLength - $printedLength));
//Close any open tags.
while (!empty($tags))
printf('</%s>', array_pop($tags));
}
printTruncated(10, '<b>&lt;Hello&gt;</b> <img src="world.png" alt="" /> world!'); print("\n");
printTruncated(10, '<table><tr><td>Heck, </td><td>throw</td></tr><tr><td>in a</td><td>table</td></tr></table>'); print("\n");
printTruncated(10, "<em><b>Hello</b>&#20;w\xC3\xB8rld!</em>"); print("\n");

Encodage note: Le code ci-dessus suppose que le XHTML est UTF-8 codé. Compatible ASCII codés sur un octet codages (comme Latin-1) sont également pris en charge, il suffit de passer false comme troisième argument. D'autres encodages multi-octets ne sont pas pris en charge, mais vous pouvez pirater le support en utilisant mb_convert_encoding pour convertir en UTF-8 avant l'appel de la fonction, puis de les convertir dans tous les print déclaration.

(Vous devriez toujours être en UTF-8, si.)

Modifier: mise à Jour pour gérer les entités de caractères et encodage UTF-8. Correction d'un bug où la fonction serait d'imprimer un caractère de trop, si ce caractère est un caractère de l'entité.

Qui ressemble à cela pourrait fonctionner... bien qu'en entités HTML?
Le code doit gérer des entités correctement maintenant.
Cela ne fonctionne pas avec des caractères internationaux parce que PHP preg_match compte par octet au lieu de caractère, pour l'offset. Pour voir l'essentiel de la solution: stackoverflow.com/questions/9950842/...
Merci pour cette remarque. Étant donné que j'ai moi-même toujours utiliser l'UTF-8, ce bug qui est un peu gênant. C'est corrigé dans le code maintenant (avec une autre comptage bug j'ai juste repéré).
la performance est exagéré ici

OriginalL'auteur Søren Løvborg

J'ai écrit une fonction qui tronque HTML comme yous suggèrent, mais au lieu d'imprimer les documents, il met juste en garde tout ça dans une variable de chaîne. poignées en Entités HTML, ainsi.

 /**
*  function to truncate and then clean up end of the HTML,
*  truncates by counting characters outside of HTML tags
*  
*  @author alex lockwood, alex dot lockwood at websightdesign
*  
*  @param string $str the string to truncate
*  @param int $len the number of characters
*  @param string $end the end string for truncation
*  @return string $truncated_html
*  
*  **/
public static function truncateHTML($str, $len, $end = '&hellip;'){
//find all tags
$tagPattern = '/(<\/?)([\w]*)(\s*[^>]*)>?|&[\w#]+;/i';  //match html tags and entities
preg_match_all($tagPattern, $str, $matches, PREG_OFFSET_CAPTURE | PREG_SET_ORDER );
//WSDDebug::dump($matches); exit; 
$i =0;
//loop through each found tag that is within the $len, add those characters to the len,
//also track open and closed tags
//$matches[$i][0] = the whole tag string  --the only applicable field for html enitities  
//IF its not matching an &htmlentity; the following apply
//$matches[$i][1] = the start of the tag either '<' or '</'  
//$matches[$i][2] = the tag name
//$matches[$i][3] = the end of the tag
//$matces[$i][$j][0] = the string
//$matces[$i][$j][1] = the str offest
while($matches[$i][0][1] < $len && !empty($matches[$i])){
$len = $len + strlen($matches[$i][0][0]);
if(substr($matches[$i][0][0],0,1) == '&' )
$len = $len-1;
//if $matches[$i][2] is undefined then its an html entity, want to ignore those for tag counting
//ignore empty/singleton tags for tag counting
if(!empty($matches[$i][2][0]) && !in_array($matches[$i][2][0],array('br','img','hr', 'input', 'param', 'link'))){
//double check 
if(substr($matches[$i][3][0],-1) !='/' && substr($matches[$i][1][0],-1) !='/')
$openTags[] = $matches[$i][2][0];
elseif(end($openTags) == $matches[$i][2][0]){
array_pop($openTags);
}else{
$warnings[] = "html has some tags mismatched in it:  $str";
}
}
$i++;
}
$closeTags = '';
if (!empty($openTags)){
$openTags = array_reverse($openTags);
foreach ($openTags as $t){
$closeTagString .="</".$t . ">"; 
}
}
if(strlen($str)>$len){
//Finds the last space from the string new length
$lastWord = strpos($str, ' ', $len);
if ($lastWord) {
//truncate with new len last word
$str = substr($str, 0, $lastWord);
//finds last character
$last_character = (substr($str, -1, 1));
//add the end text
$truncated_html = ($last_character == '.' ? $str : ($last_character == ',' ? substr($str, 0, -1) : $str) . $end);
}
//restore any open tags
$truncated_html .= $closeTagString;
}else
$truncated_html = $str;
return $truncated_html; 
}

C'est vraiment une bonne idée, mais j'ai des erreurs ainsi que des avertissements. La version de PHP 5.5.
Merci @Matt! Je vais jeter un oeil depuis un bon moment, un écrit que peu de code.
Quelque peu limitée. "<div>des données est trop grande pour tenir dans le tronc de la taille</div>" de retour </div> à la place du texte jusqu'à le tronc de la taille. Est-ce un bug ou une fonctionnalité?
longtemps ici qui sera tronquée</div>', 10)) // => "<div>quelque chose de long…</div>" pas sûr de ce qu'il se passe dans votre cas. Notez comme il est, c'est une méthode de classe, sans classe. Afin de l'utiliser dans une configuration de test, je l'ai enlevé public static de la déclaration de la fonction. Je n'ai pas utilisé le PHP dans un certain temps maintenant.

OriginalL'auteur alockwood05

4

Précis à 100%, mais assez difficile d'approche:
1. Itérer charactes à l'aide de DOM
2. Utiliser les méthodes du DOM pour supprimer les éléments restants
3. Sérialiser les DOM
Simple force brute approche:
1. Scinde une chaîne en balises (pas d'éléments) et les fragments de texte à l'aide de preg_split('/(<tag>)/') avec PREG_DELIM_CAPTURE.
2. Mesure de la longueur du texte que vous voulez (ça va être chaque deuxième élément de split, vous pouvez utiliser html_entity_decode() pour aider à mesurer avec précision).
3. De couper la corde (trim &[^\s;]+$ à la fin pour se débarrasser de peut-être haché entité)
4. Fixer avec HTML Tidy
je upvoted le précise, mais serait downvote pour la force brute de la méthode
Est la force brute de la méthode que du mauvais? Première partie de cela peut être tout à fait précis (si vous êtes bon avec les expressions régulières), et avec bien Rangé, vous serez prise en charge HTML, les balises de début correctement (<table><tr><td></tbody></table> est valable HTML4 :), qui naïf de pile, la solution ne serait pas.
Si seulement quelqu'un pouvait donner un exemple de la précision de l'approche 🙁
Ne peut pas php de faire ce genre de manipulation en mode natif avec ses classes DOM sans la nécessité d'une nouvelle classe?? En jQuery, il me faudrait une demi-seconde, le programme de cette!
DOM du W3C a un certain soutien pour les plages et les itérateurs qui pourraient aider, mais je ne suis pas au courant d'une seule fonction spécifiquement pour la troncation. De même je ne pense pas que jQuery peut le faire correctement. Vous pouvez tronquer HTML dans un 1-liner, mais elle pourrait laisser ouverte entités ou de tronquer les attributs.

OriginalL'auteur Kornel
4

J'ai utilisé un joli fonction à http://alanwhipple.com/2011/05/25/php-truncate-string-preserving-html-tags-words, apparemment pris de CakePHP

lien seule réponse - lien ne fonctionne plus

OriginalL'auteur periklis

Ce qui suit est une simple machine d'état de l'analyseur qui s'occupe de vous de cas de test avec succès. J'échoue sur les balises imbriquées bien qu'il ne suit pas les balises elles-mêmes. J'ai aussi des bobines sur les entités à l'intérieur des balises HTML (par exemple dans un href-attribut d'un <a>-tag). Il ne peut donc pas être considéré comme un 100% solution à ce problème, mais parce que c'est facile à comprendre, il pourrait être la base pour une plus avancés de la fonction.

function substr_html($string, $length)
{
$count = 0;
/*
* $state = 0 - normal text
* $state = 1 - in HTML tag
* $state = 2 - in HTML entity
*/
$state = 0;    
for ($i = 0; $i < strlen($string); $i++) {
$char = $string[$i];
if ($char == '<') {
$state = 1;
} else if ($char == '&') {
$state = 2;
$count++;
} else if ($char == ';') {
$state = 0;
} else if ($char == '>') {
$state = 0;
} else if ($state === 0) {
$count++;
}
if ($count === $length) {
return substr($string, 0, $i + 1);
}
}
return $string;
}

OriginalL'auteur Stefan Gehrig

2

Pourrait utiliser DomDocument dans ce cas, avec un méchant regex hack, le pire qui pourrait arriver est un avertissement, si il y a une fracture de la balise :
```
$dom = new DOMDocument();
$dom->loadHTML(substr("Hello, my <strong>name</strong> is <em>Sam</em>. I&acute;m a web developer.",0,26));
$html = preg_replace("/\<\/?(body|html|p)>/", "", $dom->saveHTML());
echo $html;
```
Devrait donner de sortie : Hello, my <strong>**name**</strong>.

OriginalL'auteur

J'ai fait de légères modifications à Søren Løvborg printTruncated fonction rendant compatible UTF-8:

   /* Truncate HTML, close opened tags
*
* @param int, maxlength of the string
* @param string, html       
* @return $html
*/  
function html_truncate($maxLength, $html){
mb_internal_encoding("UTF-8");
$printedLength = 0;
$position = 0;
$tags = array();
ob_start();
while ($printedLength < $maxLength && preg_match('{</?([a-z]+)[^>]*>|&#?[a-zA-Z0-9]+;}', $html, $match, PREG_OFFSET_CAPTURE, $position)){
list($tag, $tagPosition) = $match[0];
//Print text leading up to the tag.
$str = mb_strcut($html, $position, $tagPosition - $position);
if ($printedLength + mb_strlen($str) > $maxLength){
print(mb_strcut($str, 0, $maxLength - $printedLength));
$printedLength = $maxLength;
break;
}
print($str);
$printedLength += mb_strlen($str);
if ($tag[0] == '&'){
//Handle the entity.
print($tag);
$printedLength++;
}
else{
//Handle the tag.
$tagName = $match[1][0];
if ($tag[1] == '/'){
//This is a closing tag.
$openingTag = array_pop($tags);
assert($openingTag == $tagName); //check that tags are properly nested.
print($tag);
}
else if ($tag[mb_strlen($tag) - 2] == '/'){
//Self-closing tag.
print($tag);
}
else{
//Opening tag.
print($tag);
$tags[] = $tagName;
}
}
//Continue after the tag.
$position = $tagPosition + mb_strlen($tag);
}
//Print any remaining text.
if ($printedLength < $maxLength && $position < mb_strlen($html))
print(mb_strcut($html, $position, $maxLength - $printedLength));
//Close any open tags.
while (!empty($tags))
printf('</%s>', array_pop($tags));
$bufferOuput = ob_get_contents();
ob_end_clean();         
$html = $bufferOuput;   
return $html;   
}

OriginalL'auteur Bounce

2

Rebondir ajout de caractères multi-octets de soutien à Søren Løvborg de la solution - j'ai ajouté:
- de soutien pour les non apparié les balises HTML (par exemple <hr>, <br> <col> etc. n'obtenez pas fermé dans le HTML d'un '/' n'est pas nécessaire à la fin de celles-ci (dans l'est de XHTML si)),
- personnalisable troncature de l'indicateur (par défaut &hellips; c'est à dire ... ),
- retour comme une chaîne de caractères sans l'aide de la mémoire tampon de sortie, et
- tests unitaires avec une couverture de 100%.
Tout cela à Pastie.

c'est un travail très bien mais que faire si j'ai besoin de couper seulement après les mots?

OriginalL'auteur hawkip

Une autre lumière des changements de Søren Løvborg printTruncated fonction rendant UTF-8 (Besoins mbstring) compatible et de le rendre chaîne de retour de ne pas imprimer une. Je pense que c'est plus utile.
Et mon code ne pas utiliser de tampon comme Rebondir variante, juste une variable.

UPD: pour le faire fonctionner correctement avec l'encodage utf-8 caractères dans les attributs de la balise, vous devez mb_preg_match fonction, énumérés ci-dessous.

Un grand merci à Søren Løvborg pour cette fonction, il est très bon.

/* Truncate HTML, close opened tags
*
* @param int, maxlength of the string
* @param string, html       
* @return $html
*/
function htmlTruncate($maxLength, $html)
{
mb_internal_encoding("UTF-8");
$printedLength = 0;
$position = 0;
$tags = array();
$out = "";
while ($printedLength < $maxLength && mb_preg_match('{</?([a-z]+)[^>]*>|&#?[a-zA-Z0-9]+;}', $html, $match, PREG_OFFSET_CAPTURE, $position))
{
list($tag, $tagPosition) = $match[0];
//Print text leading up to the tag.
$str = mb_substr($html, $position, $tagPosition - $position);
if ($printedLength + mb_strlen($str) > $maxLength)
{
$out .= mb_substr($str, 0, $maxLength - $printedLength);
$printedLength = $maxLength;
break;
}
$out .= $str;
$printedLength += mb_strlen($str);
if ($tag[0] == '&')
{
//Handle the entity.
$out .= $tag;
$printedLength++;
}
else
{
//Handle the tag.
$tagName = $match[1][0];
if ($tag[1] == '/')
{
//This is a closing tag.
$openingTag = array_pop($tags);
assert($openingTag == $tagName); //check that tags are properly nested.
$out .= $tag;
}
else if ($tag[mb_strlen($tag) - 2] == '/')
{
//Self-closing tag.
$out .= $tag;
}
else
{
//Opening tag.
$out .= $tag;
$tags[] = $tagName;
}
}
//Continue after the tag.
$position = $tagPosition + mb_strlen($tag);
}
//Print any remaining text.
if ($printedLength < $maxLength && $position < mb_strlen($html))
$out .= mb_substr($html, $position, $maxLength - $printedLength);
//Close any open tags.
while (!empty($tags))
$out .= sprintf('</%s>', array_pop($tags));
return $out;
}
function mb_preg_match(
$ps_pattern,
$ps_subject,
&$pa_matches,
$pn_flags = 0,
$pn_offset = 0,
$ps_encoding = NULL
) {
//WARNING! - All this function does is to correct offsets, nothing else:
//(code is independent of PREG_PATTER_ORDER /PREG_SET_ORDER)
if (is_null($ps_encoding)) $ps_encoding = mb_internal_encoding();
$pn_offset = strlen(mb_substr($ps_subject, 0, $pn_offset, $ps_encoding));
$ret = preg_match($ps_pattern, $ps_subject, $pa_matches, $pn_flags, $pn_offset);
if ($ret && ($pn_flags & PREG_OFFSET_CAPTURE))
foreach($pa_matches as &$ha_match) {
$ha_match[1] = mb_strlen(substr($ps_subject, 0, $ha_match[1]), $ps_encoding);
}
return $ret;
}

comment puis-je ajouter "..." le dernier texte?

OriginalL'auteur Andrey Nagikh

vous pouvez utiliser bien rangé ainsi:

function truncate_html($html, $max_length) {   
return tidy_repair_string(substr($html, 0, $max_length),
array('wrap' => 0, 'show-body-only' => TRUE), 'utf8'); 
}

OriginalL'auteur gpilotino

2

La CakePHP cadre a un HTML-connaissance truncate() fonction dans le TextHelper qui fonctionne pour moi. Voir Core-Helpers/Texte. Licence MIT.

Voici la source, qui m'a aidé: github.com/cakephp/cakephp/blob/master/src/Utility/Text.php

OriginalL'auteur DavidJ
0

C'est très difficile de le faire sans l'aide d'un programme de validation et un analyseur syntaxique, la raison étant que, imaginez si vous avez
```
<div id='x'>
<div id='y'>
<h1>Heading</h1>
500 
lines 
of 
html
...
etc
...
</div>
</div>
```
Comment envisagez-vous de tronquer et se retrouvent avec un code HTML valide?

Après une brève recherche, j'ai trouvé ce lien ce qui pourrait l'aider.

OriginalL'auteur Antony Carthy
0

Utiliser la fonction truncateHTML() à partir de:
https://github.com/jlgrall/truncateHTML

Exemple: tronquer après 9 caractères, y compris les points de suspension:
```
truncateHTML(9, "<p><b>A</b> red ball.</p>", ['wholeWord' => false]);
//=>           "<p><b>A</b> red ba…</p>"
```
Caractéristiques: UTF-8, configurable points de suspension, d'inclure ou d'exclure de la longueur de points de suspension, fermeture automatique des balises, l'effondrement des espaces, des éléments invisibles (<head>, <script>, <noscript>, <style>, ), HTML $entities;, tronquant au dernier mot en entier (avec l'option de toujours tronquer très long termes), PHP 5.6 et 7.0+, 240+ tests unitaires, retourne une chaîne de caractères (ne pas utiliser le tampon de sortie), et bien commenté code.

J'ai écrit cette fonction, parce que j'ai vraiment aimé Søren Løvborg's de la fonction ci-dessus (en particulier la façon dont il a géré les codages), mais j'ai besoin d'un peu plus de fonctionnalités et de flexibilité.

OriginalL'auteur jlgrall

Vous devez vous connecter pour publier un commentaire.