(PHP 4 >= 4.3.0, PHP 5, PHP 7)
html_entity_decode — Konvertiert HTML-Entities in ihre entsprechenden Zeichen
$string
[, int $flags
= ENT_COMPAT | ENT_HTML401
[, string $encoding
= ini_get("default_charset")
]] ) : string
html_entity_decode() ist das Gegenstück zu
htmlentities(), welches HTML-Entities
innerhalb von string
in ihre entsprechenden
Zeichen zurückwandelt.
Genau gesagt dekodiert diese Funktion alle Entities (einschließlich aller numerischen Entities), die a) auf jeden Fall gültig für den gewählten Dokumenttyp sind — d.h. für XML dekodiert diese Funktion keine benannten Entities, die in einer DTD definiert sein könnten — und b) deren Zeichen in der Zeichenkodierung und im gewählten Dokumenttyp erlaubt sind. Alle anderen Entities bleiben wie sie sind.
string
Die Eingabezeichenkette.
flags
Eine Bitmaske von einem oder mehreren der folgenden Flags, die
die Behandlung von Anführungszeichen, sowie den zu nutzenden Dokumententyp
festlegen. Der Standardwert ist ENT_COMPAT | ENT_HTML401
.
Konstantenname | Beschreibung |
---|---|
ENT_COMPAT |
Konvertiert doppelte Anführungszeichen und lässt einfache Anführungszeichen unberührt. |
ENT_QUOTES |
Konvertiert sowohl doppelte als auch einfache Anführungszeichen. |
ENT_NOQUOTES |
Lässt sowohl doppelte als auch einfache Anführungszeichen unberührt. |
ENT_HTML401 |
Behandle Code als HTML 4.01. |
ENT_XML1 |
Behandle Code als XML 1. |
ENT_XHTML |
Behandle Code als XHTML. |
ENT_HTML5 |
Behandle Code als HTML 5. |
encoding
Ein optionaler Parameter, der die Zeichenkodierung für eine Konvertierung definiert.
Wird dieser Parameter ausgelassen, so wird der Standardwert für encoding
verwendet, welcher von der verwendeten PHP-Version abhängig ist. In PHP 5.6 und neuer wird
die Konfigurationseinstellung default_charset als
Standardwert verwendet. PHP 5.4 und 5.5. verwenden UTF-8
als Standardwert.
Frühere Versionen verwenden ISO-8859-1
.
Obwohl dieser Parameter technisch optional ist wird es stark empfohlen den korrekten Wert für den jeweiligen Programmcode zu spezifizieren, falls sie PHP 5.5 oder früher verwenden, oder falls default_charset für die jeweilige Eingabe inkorrekt sein könnte.
Die folgenden Zeichensätze werden unterstützt:
Zeichensatz | Alias | Beschreibung |
---|---|---|
ISO-8859-1 | ISO8859-1 | Westeuropäisch, Latin-1. |
ISO-8859-5 | ISO8859-5 | Wenig verwendeter kyrillischer Zeichensatz (Latin/Cyrillic). |
ISO-8859-15 | ISO8859-15 | Westeuropäisch, Latin-9. Enthält das Euro-Zeichen sowie französische und finnische Buchstaben, die in Latin-1(ISO-8859-1) fehlen. |
UTF-8 | ASCII-kompatibles Multi-Byte 8-Bit Unicode. | |
cp866 | ibm866, 866 | DOS-spezifischer kyrillischer Zeichensatz. |
cp1251 | Windows-1251, win-1251, 1251 | Windows-spezifischer kyrillischer Zeichensatz. |
cp1252 | Windows-1252, 1252 | Windows spezifischer Zeichensatz für westeuropäische Sprachen. |
KOI8-R | koi8-ru, koi8r | Russisch. |
BIG5 | 950 | Traditionelles Chinesisch, hauptsächlich in Taiwan verwendet. |
GB2312 | 936 | Vereinfachtes Chinesisch, nationaler Standard-Zeichensatz. |
BIG5-HKSCS | Big5 mit Hongkong-spezifischen Erweiterungen; traditionelles Chinesisch. | |
Shift_JIS | SJIS, SJIS-win, cp932, 932 | Japanisch |
EUC-JP | EUCJP, eucJP-win | Japanisch |
MacRoman | Zeichensatz, der von Mac OS verwendet wurde. | |
'' |
Eine leere Zeichenkette aktiviert die Erkennung durch die Kodierung des Skripts (Zend multibyte), default_charset und die aktuelle Sprachumgebung (siehe nl_langinfo() und setlocale()), in dieser Reihenfolge. Nicht empfehlenswert. |
Hinweis: Weitere Zeichensätze sind nicht implementiert. Statt dessen wird die Standard-Kodierung verwendet und eine Warnung ausgegeben.
Gibt die dekodierte Zeichenkette zurück.
Beispiel #1 Dekodieren benannter HTML-Zeichen
<?php
$orig = "I'll \"walk\" the <b>dog</b> now";
$a = htmlentities($orig);
$b = html_entity_decode($a);
echo $a; // I'll "walk" the <b>dog</b> now
echo $b; // I'll "walk" the <b>dog</b> now
?>
Hinweis:
Sie wundern sich vielleicht, warum trim(html_entity_decode(' ')); den String nicht zu einem leeren Sting reduziert. Der Grund dafür ist, dass ' ' in der Standard-Kodierung nicht dem Zeichen mit ASCII-Code 32 entspricht (dieses wird von trim() entfernt), sondern dem Zeichen mit ASCII-Code 160 (0xa0).