上一篇: HTML – 如何在gss中剪辑文本,如... 下一篇:如何使用IdSMTP(Delphi)发送带有...

将XML非法和char转换为utf8 – python

HTML 发布时间：2022-04-14 发布网站：大佬教程 code.js-code.com

大佬教程收集整理的这篇文章主要介绍了将XML非法和char转换为utf8 – python，大佬教程大佬觉得挺不错的，现在分享给大家，也给大家做个参考。

在以下位置有一个XML和HTML字符引用列表：https://en.wikipedia.org/wiki/List_of_XML_and_HTML_character_entity_references.

但是,有些内容在该列表中根本没有定义,但它们在较旧的HTML脚本中使用.当我处理来自http://www.d.umn.edu/~tpederse/data.html的Senseval-2格式(带有修复)数据集时,我会遇到以下单词,它会破坏我的脚本,该脚本试图使用Xml.et.elementTree来解析数据.

这些单词的unicode等价是什么？

&and.
&and.A
&and.b
&and.D
&and.L's
&BACkquote.alim)
&BACkquote.ulema
&dash
&dash.
&dash."
&dashq.
&degree.
&degree.C
&ellip
&ellip.
&ellip.0
&ellip.1
&ellip.11
&ellip.2
&ellip.23
&ellip.28
&ellip.38
&ellip.4
&ellip.6
&ellip.64
&ellip.?"
&ellip.two
&times.

我的剧本：

import xml.etree.ElementTree as et
s1 = 'Train-fix.xml' # from http://www.d.umn.edu/~tpederse/Data/Sval1to2.fix.tar.gz
tree = et.parse(s1)
root = tree.getroot()

给出这个追溯：

TraceBACk (most recent call last):
  File "senseval.py",line 4,in source,parser)
  File "/usr/lib/python2.7/xml/etree/ElementTree.py",line 656,in parse
    parser.feed(data)
  File "/usr/lib/python2.7/xml/etree/ElementTree.py",line 1642,in feed
    self._raiseerror(v)
  File "/usr/lib/python2.7/xml/etree/ElementTree.py",line 1506,in _raiseerror
    raise err
xml.etree.ElementTree.ParseError: not well-formed (invalid token): line 41,@R_@R_772_11280@_8620@n 113

最佳答案

“单词”看起来像格式错误的@L_618_3@.有效的实体引用最后有一个分号.我查看了test-fix.xml(在Sval1to2.fix.tar.gz中),而且& dash(或& dash.)似乎很有可能代表某种破折号或连字符.该文件具有.xml扩展名,如果修复了错误的实体引用,它将非常接近格式良好的XMl.

在您链接到的页面(http://www.d.umn.edu/~tpederse/data.html)上,它说：

因此,尽管该文档看起来非常像XML,但它不是XML,发布它的人也非常清楚这一点.