YOLOv10原理浅学

神经网络

常用

YOLO（You Only Look Once）：
- YOLO 是一种实时目标检测系统，通过单个神经网络预测目标边界框和类别。
- 网络结构借鉴了 GoogLeNet，包含 24 个卷积层和 2 个全连接层。
- YOLO 将输入图片分割成 S×S 网格，每个单元格负责检测中心点落在该格子内的目标。
- 预测过程是 end-to-end 的，将图片 resize 到 448x448 大小，送入 CNN 网络，最后进行非极大值抑制处理得到结果 1 2。
其他神经网络
- 多层感知器 (MLP)：拥有一个或多个隐藏层，可以学习非线性函数。
- 前馈神经网络：信息从输入层传递到输出层，只有前向传播，没有反向传播或循环。
- 反馈神经网络：具有循环连接，例如循环神经网络 (RNN) 和长短时记忆网络 (LSTM)3 4 5 6.

制作神经网路：

从零开始手写神经网络
- 如果你想深入了解神经网络的底层原理，可以从零开始手写一个简单的多层感知机（Multilayer Perceptron，MLP）。
- 这个过程涉及到定义神经网络的结构、实现前向传播和反向传播，以及使用梯度下降算法进行训练。
- 你可以使用Python和NumPy库来实现这个过程，从而更好地理解神经网络的工作原理 1.
使用深度学习框架：
- 如果你想更快地构建神经网络，可以使用流行的深度学习框架，例如TensorFlow或PyTorch。
- 这些框架提供了高级API，可以简化神经网络的搭建、训练和评估过程。
- 例如，你可以使用TensorFlow的tf.keras模块来加载MNIST手写数字数据集，并构建一个数字识别神经网络 2.

全向神经网路

全连接神经网络（Fully Connected Neural Network，简称FCNN）是一种基础的人工神经网络结构，其中每个神经元与前一层和后一层的所有神经元相连接。本文将详细介绍全连接神经网络的基本原理、网络结构以及实际应用场景，帮助读者深入理解全连接神经网络。

一、什么是全连接神经网络（FCNN）

全连接神经网络（Fully Connected Neural Network，简称FCNN）是一种最基础的人工神经网络结构，也称为多层感知器（Multilayer Perceptron，MLP）。在全连接神经网络中，每个神经元都与前一层和后一层的所有神经元相连接，形成一个密集的连接结构。全连接神经网络能够学习输入数据的复杂特征，并进行分类、回归等任务。

二、全连接神经网络的结构

输入层：输入层负责接收原始数据，并将其传递给下一层。输入层的神经元数量取决于输入数据的维度。
隐藏层：隐藏层是全连接神经网络中的中间层，可以有多个。隐藏层的神经元数量可以自由设定，每个神经元都与前一层和后一层的所有神经元相连接。
输出层：输出层是全连接神经网络的最后一层，负责输出网络的预测结果。输出层的神经元数量取决于任务的类型，例如二分类任务的输出层通常有一个神经元，多分类任务的输出层有多个神经元。
激活函数：激活函数用于引入非线性因素，使得神经网络能够拟合复杂的非线性关系。常见的激活函数有ReLU、Sigmoid、Tanh等。

三、全连接神经网络的应用场景

图像分类：全连接神经网络可以用于图像分类任务，通过学习图像的特征进行类别判断。
文本分类：全连接神经网络也可以应用于自然语言处理任务，例如文本分类、情感分析等。
回归预测：全连接神经网络可以用于回归任务，例如房价预测、股票价格预测等。

四、总结

全连接神经网络是人工神经网络中的一种基础结构，具有灵活的网络结构和广泛的应用场景。虽然全连接神经网络在某些复杂数字信号处理任务上可能不如卷积神经网络（CNN）和循环神经网络（RNN）表现出色，但它仍然是深度学习领域的基础知识之一，值得深入学习和掌握。

Yolo概述

1. YOLOv10项目:

论文：YOLOv10
代码：GitHub - THU-MIG/yolov10

2. 改进和优化:

无NMS训练：YOLOv10采用了持续双重分配，避免了后处理的非最大抑制（NMS），从而降低了推理延迟。
效率驱动的模型设计：YOLOv10对组件进行了全面优化，包括轻量级分类头、空间-通道解耦下采样和基于rank引导的模块设计。
基于精度的模型设计：使用大核卷积和部分自注意力（PSA）来提高感受野和模型能力。

3. 性能和效率:

在COCO数据集上，YOLOv10在各种模型规模上实现了最先进的性能和效率。
例如，YOLOV10-S相比RT-DETR-R18快1.8倍，同时具有2.8倍更少的参数和FLOPS。

Yolo原理

1. 网络结构：

YOLOv10 的网络结构与 YOLOv8 相似，但在一些细节模块上有所改进。它包括以下部分：
- Backbone：用于特征提取的骨干网络。
- Head：负责预测目标框和类别得分。
YOLOv10m 模型的结构稍有不同，不同尺度的模型在结构上也有所区别。

2. 预测后处理：

YOLOv10 在预测阶段不需要使用非极大值抑制（NMS）来去除重叠的框。这一功能是通过训练来实现的。
网络实际上包含两个 Head：One-to-many Head 和 One-to-one Head。在训练时，两个 Head 同时参与，而在推理预测时只需要 One-to-one Head。
后处理流程如下：
- 首先，根据每个 Anchor 最高的分类得分，对 Anchor 进行排序，取前 max_det=300 个 Anchor。
- 然后，对这 300 个 Anchor 的 80 类分类得分再做一次排序，取前 max_det=300 个。
- 这个过程相当于直接将所有得分较高的 300 个结果作为检测结果，但由于使用 Sigmoid 而非 Softmax 计算得分，可能会得到两个 Anchor 相同位置大小但类别不同的框。

3. 训练策略：

YOLOv10 在训练中对 One-to-many Head 和 One-to-one Head 两个头的输出都计算损失，损失函数与 YOLOv8 相同。
通过消除 NMS 并优化模型组件，YOLOv10 在降低计算开销的同时实现了最先进的性能 1 2。

Yolo简易理论理解

YOLO（You Only Look Once）是一种用于实时物体检测的算法，它可以在单次前向传播中完成物体检测任务。为了通俗易懂地解释YOLO的算法原理，可以将其分解为以下几个关键步骤：

1. 输入图像

YOLO从一张输入图像开始，假设这是一张包含多个物体的图片。

2. 划分网格

YOLO将输入图像划分为一个SxS的网格。例如，如果S=7，那么图像会被划分成49个小方格。

3. 每个网格预测

对于每个网格单元，YOLO会预测：

B个边界框（Bounding Boxes），每个边界框包含：
- 位置（x, y）：框的中心相对于网格单元的位置
- 宽度和高度（w, h）：框的尺寸，相对于整张图像的比例
- 置信度（Confidence）：表示该框中是否包含物体以及框的准确程度
C个类别概率（Class Probabilities），表示该网格单元包含的物体属于每个类别的概率。

4. 计算最终预测

每个网格单元的预测结果组合起来，形成最终的物体检测结果。YOLO会根据置信度和类别概率，筛选出最可能的物体边界框。

5. 非极大值抑制（NMS）

为了避免多个边界框重叠检测同一个物体，YOLO使用非极大值抑制来过滤掉置信度较低的重复检测框，只保留最有可能的边界框。

6. 输出结果

最终，YOLO输出的是图像中所有检测到的物体的边界框及其类别标签。

例子：

假设有一张图片，其中有一只猫和一只狗。YOLO会将这张图片划分成多个小网格。每个网格会预测多个边界框以及这些边界框中是否包含物体和物体的类别。经过置信度筛选和非极大值抑制，YOLO最终可能会输出两个边界框，一个框住猫并标记为“猫”，另一个框住狗并标记为“狗”。

通过这种方式，YOLO能够高效地进行实时物体检测。由于它只需要一次前向传播就能完成整个检测过程，所以被称为“只看一次”（You Only Look Once）。

星隐拾光笺