从零之053 网页代码中提取文字(网页代码基础)「建议收藏」

从零之053 网页代码中提取文字(网页代码基础)「建议收藏」文本处理其实是一个很大的题目,无法用文本处理这个名字来概括,从这里这一章开始,我们直接用子项目名做名称。关键词:html代码下面我们开始一个新的

文本处理其实是一个很大的题目,无法用文本处理这个名字来概括,从这里这一章开始,我们直接用子项目名做名称。

关键词:html代码

下面我们开始一个新的内容,就是从网页代码的文本文件中提取文字。网页代码,我们一般也叫他html代码。

下面我们有一个文本文件,内容如下

从零之053 网页代码中提取文字(网页代码基础)「建议收藏」

内容很长很长,我们仅仅取出一个屏幕,能做范例就好。

下面的题目是,从这个代码文件中,我们提取出要看的内容。为此,我们编写一个程序做个练习。这个程序的名字叫《网页代码中提取文字.py》。

先开始做第一件事,在不做任何修改的情况下,直接读取文本文件的内容。

于是我们编写了下面一个程序

从零之053 网页代码中提取文字(网页代码基础)「建议收藏」

阅读过前面文章的人,这个程序一看就懂,不用再解释了。运行后,显示效果如下

从零之053 网页代码中提取文字(网页代码基础)「建议收藏」

如果让我们从这段代码中读出里面的中文内容,我相信是非常困难的。

下面研究的课题就是,把中间有用的中文部分内容挑选出来,其他的代码部分去掉,还要尽量保持应该保持的段落,最后有条件的话,再把内容进行一下加工,最后保持文章的主体部分。总之,内容多多如何处理呢?

首先,我们将研究第一个问题,了解网页代码的基本知识。看下图

从零之053 网页代码中提取文字(网页代码基础)「建议收藏」

从零之053 网页代码中提取文字(网页代码基础)「建议收藏」

第一张图片,是一个网页的基本框架。第二张图片,我们对他进行了标注,绿色部分是网页的头部信息,红色部分是网页中的实质内容。黄色的圈圈,就是网页的全部代码。

网页的代码通常用尖括号把它标注出来,他有很多的特殊符号,本格式如下

<html></html>这两个是匹配的,中间就是网页代码具体的内容。

<body></body>这两个也是匹配的,中间是代码中文章体内容的具体部分。

<p></p>这两个也是匹配的,中间是文章段落的具体部分。

HTML语言,大部分内容都是这样配对的,个别的不配对。

由于内容实在太多,我们仅做最简单的介绍。只要掌握一个规律就可以啦,这个规律就是,代码一般都是用尖括号括起来的。

需要说明的是,网页代码我们可以随便打开一个网页,查看源代码就可以看到。我们研究的是通过取出文字的内容来研究文本处理的方法。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/4068.html

(0)
上一篇 2024-02-12
下一篇 2022-12-15

相关推荐

  • Python命令行应用程序的开发利器——Click库

    Python命令行应用程序的开发利器——Click库在现实生活中,我们经常需要使用命令行工具完成一些任务,比如查看系统信息、安装软件等等。此时,我们就需要针对特定的需求进行命令行应用程序的开发。而Python是一门功能强大、易于学习的编程语言,它几乎可以完成所有的任务,同时Python还拥有大量的库来方便我们开发应用程序。尤其是“Click”库,让Python开发者能够用更少的代码完成更多的事情,它简化了命令行工具的基础代码,提供了一种优雅的方式,让我们快速创建Python的命令行应用程序,实现高效的开发和调试。

    2023-12-26
    126
  • mysql的锁机制详解

    mysql的锁机制详解这段时间一直在学习mysql数据库。项目组一直用的是oracle,所以对mysql的了解也不深。本文主要是对mysql锁的总结。 Mysql的锁主要分为3大类: 表级锁:存储引擎为Myisam。锁住整

    2022-12-18
    151
  • 优美精准的numpy切片操作技巧

    优美精准的numpy切片操作技巧从事数据科学和机器学习的人都知道,numpy是必备的工具之一。在numpy中,切片(slicing)是经常用到的操作之一。简单的切片是很容易掌握的,但是当涉及到多维数组,或者需要高效地选择元素时,我们就需要更加高效和优美的numpy切片技巧。

    2024-04-17
    106
  • 释放Python编程中的’usr’的力量

    释放Python编程中的’usr’的力量在Unix和类Unix系统中,每个用户都可以在系统中创建自己的账户。系统会为这个账户分配一个唯一的用户ID(User ID,简称UID)和一个唯一的组ID(Group ID,简称GID)。’usr’目录是Unix系统中用来存放用户相关文件的目录之一。

    2024-01-23
    100
  • Python矩阵基础操作

    Python矩阵基础操作矩阵是数学中经常用到的一种概念,常用于表示线性方程组、线性变换等。在机器学习和数据分析中,矩阵也扮演着重要的角色。使用Python进行矩阵操作非常方便,并且Python拥有庞大的科学计算库,例如NumPy、SciPy、Pandas等,使得矩阵计算变得更加容易。

    2024-09-14
    26
  • Python文件处理:简单实用的i/o操作

    Python文件处理:简单实用的i/o操作a href=”https://beian.miit.gov.cn/”苏ICP备2023018380号-1/a Copyright www.python100.com .Some Rights Reserved.

    2024-03-11
    80
  • 使用Python生成矩阵

    使用Python生成矩阵矩阵是线性代数中的基础概念,广泛应用于科学、工程和计算机科学等领域。在Python中,我们可以使用NumPy库生成矩阵,并进行相关的计算和分析。

    2024-07-22
    38
  • Python计算零的平方根

    Python计算零的平方根在数学中,如果一个数乘以自己等于零,那么这个数就被称为零的平方根。在实际应用中,零的平方根比较常见的出现在方程的根中,求方程的根就要涉及到求解零的平方根。

    2024-02-10
    99

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注