程序问答   发布时间:2022-06-01  发布网站:大佬教程  code.js-code.com
大佬教程收集整理的这篇文章主要介绍了如何删除熊猫数据框行中文本之间的网址?大佬教程大佬觉得挺不错的,现在分享给大家,也给大家做个参考。

如何解决如何删除熊猫数据框行中文本之间的网址??

开发过程中遇到如何删除熊猫数据框行中文本之间的网址?的问题如何解决?下面主要结合日常开发的经验,给出你关于如何删除熊猫数据框行中文本之间的网址?的解决方法建议,希望对你解决如何删除熊猫数据框行中文本之间的网址?有所启发或帮助;

我正在尝试解决 nlp 问题,这里在数据框文本列中有很多行填充了 urls,例如 http.somethingsomething。例如,某些 url 和其他文本之间没有空格- ':http:\\something'';http:\\something'',http:\\something'

所以有时 , 之前 url 文本没有任何空格,有时还有其他内容,但主要是 ,,.,:,; .和 url 位于开头或结尾。

ID text 目标
1 我们总是试图带上重金属 rt http:\\something11 1
4 从正面看,昨晚的天空着火了;http:\\somethingdifferent 1
6 inec 位于 abia 的办公室起火:http:\\itsjustaurl 1
3 .http:\\something11 我们总是试图带上重金属 rt 1

所以我想知道如何删除这些链接。我正在使用 python 语言执行任务。

解决方法

一个简单的方法是删除任何以 httphttps 开头的网址:

df["text"] = df["text"].str.replace(r'\s*https?://\S+(\s+|$)',' ').str.Strip()

上面这行代码有一些微妙的逻辑,值得解释一下。我们捕获一个 URL,左边有可选的空格,右边有强制的空格(除非 URL 继续到末尾)。然后,我们将其替换为一个空格,并使用 Strip() 以防此操作会在开始/结束处留下悬空空白。

大佬总结

以上是大佬教程为你收集整理的如何删除熊猫数据框行中文本之间的网址?全部内容,希望文章能够帮你解决如何删除熊猫数据框行中文本之间的网址?所遇到的程序开发问题。

如果觉得大佬教程网站内容还不错,欢迎将大佬教程推荐给程序员好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。
标签: