大佬教程收集整理的这篇文章主要介绍了如何删除熊猫数据框行中文本之间的网址?,大佬教程大佬觉得挺不错的,现在分享给大家,也给大家做个参考。
我正在尝试解决 nlp 问题,这里在数据框文本列中有很多行填充了 urls
,例如 http.somethingsomething
。例如,某些 url 和其他文本之间没有空格- ':http:\\something'
、';http:\\something'
、',http:\\something'
。
所以有时 ,
之前 url
文本没有任何空格,有时还有其他内容,但主要是 ,
,.
,:
,;
.和 url 位于开头或结尾。
ID | text | 目标 |
---|---|---|
1 | 我们总是试图带上重金属 rt http:\\something11
|
1 |
4 | 从正面看,昨晚的天空着火了;http:\\somethingdifferent
|
1 |
6 | inec 位于 abia 的办公室起火:http:\\itsjustaurl
|
1 |
3 |
.http:\\something11 我们总是试图带上重金属 rt |
1 |
所以我想知道如何删除这些链接。我正在使用 python
语言执行任务。
一个简单的方法是删除任何以 http
或 https
开头的网址:
df["text"] = df["text"].str.replace(r'\s*https?://\S+(\s+|$)',' ').str.Strip()
上面这行代码有一些微妙的逻辑,值得解释一下。我们捕获一个 URL,左边有可选的空格,右边有强制的空格(除非 URL 继续到末尾)。然后,我们将其替换为一个空格,并使用 Strip()
以防此操作会在开始/结束处留下悬空空白。
以上是大佬教程为你收集整理的如何删除熊猫数据框行中文本之间的网址?全部内容,希望文章能够帮你解决如何删除熊猫数据框行中文本之间的网址?所遇到的程序开发问题。
如果觉得大佬教程网站内容还不错,欢迎将大佬教程推荐给程序员好友。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。