Review

python · StanFromIreland · Jul 14, 2025 · Jul 14, 2025 · Jul 14, 2025 · Jul 14, 2025
commit 1c9e55ab8ffafd2bb0e68c688fadab90399cfc16
diff --git a/Lib/encodings/__init__.py b/Lib/encodings/__init__.py
@@ -26,19 +26,18 @@
 
 (c) Copyright CNRI, All Rights Reserved. NO WARRANTY.
 
-"""
+"""#"
 
 import codecs
-from _codecs import _normalize_encoding
 import sys
+from _codecs import _normalize_encoding
 from . import aliases
 
 _cache = {}
 _unknown = '--unknown--'
 _import_tail = ['*']
 _aliases = aliases.aliases
 
-
 class CodecRegistryError(LookupError, SystemError):
     pass
 

diff --git a/Lib/test/test_codecs.py b/Lib/test/test_codecs.py
@@ -3900,7 +3900,6 @@ def test_encodings_normalize_encoding(self):
         self.assertEqual(normalize('utf_8'), 'utf_8')
         self.assertEqual(normalize('utf\xE9\u20AC\U0010ffff-8'), 'utf_8')
         self.assertEqual(normalize('utf   8'), 'utf_8')
-
         # encodings.normalize_encoding() doesn't convert
         # characters to lower case.
         self.assertEqual(normalize('UTF 8'), 'UTF_8')

diff --git a/Modules/_codecsmodule.c b/Modules/_codecsmodule.c
@@ -1037,30 +1037,41 @@ static PyObject *
 _codecs__normalize_encoding_impl(PyObject *module, PyObject *encoding)
 /*[clinic end generated code: output=d27465d81e361f8e input=3ff3f4d64995b988]*/
 {
-    const char *cstr = PyUnicode_AsUTF8(encoding);
+    Py_ssize_t len;
+    const char *cstr = PyUnicode_AsUTF8AndSize(encoding, &len);
     if (cstr == NULL) {
         return NULL;
     }
 
-    size_t len = strlen(cstr);
     if (len > PY_SSIZE_T_MAX) {
         PyErr_SetString(PyExc_OverflowError, "encoding is too large");
         return NULL;
     }
 
+    PyUnicodeWriter *writer = PyUnicodeWriter_Create(len + 1);
+    if (writer == NULL) {
+        return NULL;
+    }
+
     char *normalized = PyMem_Malloc(len + 1);
     if (normalized == NULL) {
+        PyUnicodeWriter_Discard(writer);
         return PyErr_NoMemory();
     }
 
     if (!_Py_normalize_encoding(cstr, normalized, len + 1, 0)) {
         PyMem_Free(normalized);
+        PyUnicodeWriter_Discard(writer);
         return NULL;
     }
 
-    PyObject *v = PyUnicode_FromString(normalized);
+    if (PyUnicodeWriter_WriteUTF8(writer, normalized, (Py_ssize_t)strlen(normalized)) < 0) {
 self.assertEqual(normalize('utf\xE9\u20AC\U0010ffff-8'), 'utf_8') 
 self.assertEqual(normalize('utf   8'), 'utf_8') 
 self.assertEqual(normalize('utf\xE9\u20AC\U0010ffff-8'), 'utf_8') 
 self.assertEqual(normalize('utf   8'), 'utf_8') 
+        PyUnicodeWriter_Discard(writer);
+        PyMem_Free(normalized);
+        return NULL;
+    }
     PyMem_Free(normalized);
-    return v;
+    return PyUnicodeWriter_Finish(writer);
 }
 
 /* --- Module API --------------------------------------------------------- */