未验证 提交 79b5333d 编写于 作者: 片刻小哥哥's avatar 片刻小哥哥 提交者: GitHub

删除多余符号

上级 07b2e9c8
......@@ -441,7 +441,7 @@ array([1. ..., 2.25..., 1.84...])
scikit-learn 中的文本提取器知道如何解码文本文件, 但只有当您告诉他们文件的编码的情况下才行, [`CountVectorizer`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html#sklearn.feature_extraction.text.CountVectorizer "sklearn.feature_extraction.text.CountVectorizer") 才需要一个 `encoding` 参数。 对于现代文本文件,正确的编码可能是 UTF-8,因此它也是默认解码方式 (`encoding="utf-8"`).
如果正在加载的文本不是使用UTF-8进行编码,则会得到 `UnicodeDecodeError`. 矢量化的方式可以通过设定 `decode_error` 参数设置为 `"ignore"``"replace"``来避免抛出解码错误。 有关详细信息,请参阅Python函数 ``bytes.decode` 的文档(在Python提示符下键入 `help(bytes.decode)` )。
如果正在加载的文本不是使用UTF-8进行编码,则会得到 `UnicodeDecodeError`. 矢量化的方式可以通过设定 `decode_error` 参数设置为 `"ignore"``"replace"` 来避免抛出解码错误。 有关详细信息,请参阅Python函数 `bytes.decode` 的文档(在Python提示符下键入 `help(bytes.decode)` )。
如果您在解码文本时遇到问题,请尝试以下操作:
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册