[JAVA] 【java-数据结构】Java优先级队列揭秘:堆的力量让数据处理飞起来

708 0
Honkers 2025-3-5 17:34:55 | 显示全部楼层 |阅读模式



引言

在开发中,尤其是需要处理大量数据或者进行任务调度的场景下,如何高效地管理数据的顺序和优先级是一个至关重要的问题。Java 提供了优先级队列(PriorityQueue),它基于堆(Heap)实现,能够以高效的方式管理数据的优先级。在本文中,我们将深入探讨优先级队列的工作原理,特别是堆的作用,并通过示例代码帮助你更好地理解其应用。

一、什么是优先级队列?

优先级队列(Priority Queue)是一种队列数据结构,其中每个元素都包含一个优先级,队列总是按元素的优先级顺序进行排序。与普通队列(先进先出 FIFO)不同,优先级队列确保每次从队列中移除的元素是具有最高优先级的元素。有些场景下,使⽤队列显然不合适,⽐如:在⼿机上玩游戏的时候,如果有来电,那么系统应该优先处理打进来的电话;初中那会班主任排座位时可能会让成绩好的同学先挑座位。

在 Java 中,PriorityQueue 是基于堆的实现。堆是一种特殊的二叉树结构,满足特定的顺序性质:最大堆保证每个父节点的值大于等于其子节点的值,而最小堆则相反。

二、堆的基本原理

JDK1.8中的PriorityQueue底层使⽤了堆这种数据结构,⽽堆实际就是在完全⼆叉树的基础上进⾏了⼀些调整。具有以下特点:

  • 对于最大堆,父节点的值始终大于或等于子节点的值;
  • 对于最小堆,父节点的值始终小于或等于子节点的值。

2.1 堆的概念

如果有⼀个关键码的集合K = {k0,k1, k2,…,kn-1},把它的所有元素按完全⼆叉树的顺序存储⽅式存储在⼀个⼀维数组中,并满⾜:Ki <= K2i+1 且 Ki<= K2i+2 (Ki >= K2i+1 且 Ki >= K2i+2) i = 0,1,2…,则称为⼩堆(或⼤堆)。
Java 中的 PriorityQueue 默认是最小堆,也就是说队列中最小的元素将具有最高的优先级。

堆的性质:
• 堆中某个节点的值总是不⼤于或不⼩于其⽗节点的值;
• 堆总是⼀棵完全⼆叉树。

2.2 堆的存储⽅式

从堆的概念可知,堆是⼀棵完全⼆叉树,因此可以层序的规则采⽤顺序的⽅式来⾼效存储,

注意:对于⾮完全⼆叉树,则不适合使⽤顺序⽅式进⾏存储,因为为了能够还原⼆叉树,空间中必须 要存储空节点,就会导致空间利⽤率⽐较低。

将元素存储到数组中后,可以根据⼆叉树章节的性质5对树进⾏还原。假设i为节点在数组中的下标,则有:
• 如果i为0,则i表⽰的节点为根节点,否则i节点的双亲节点为 (i - 1)/2
• 如果2 * i + 1 ⼩于节点个数,则节点i的左孩⼦下标为2 * i + 1,否则没有左孩⼦
• 如果2 * i + 2 ⼩于节点个数,则节点i的右孩⼦下标为2 * i + 2,否则没有右孩⼦

三、堆操作时间复杂度

操作类型描述时间复杂度
插入元素使用 add() 或 offer() 方法插入元素O(log n)
删除最小元素使用 poll() 方法移除并返回最小元素O(log n)
查看最小元素使用 peek() 方法返回堆顶元素而不移除O(1)
获取堆大小使用 size() 方法返回当前堆的元素数量O(1)
3.1 建堆的时间复杂度

因为堆是完全⼆叉树,⽽满⼆叉树也是完全⼆叉树,此处为了简化使⽤满⼆叉树来证明(时间复杂度本
来看的就是近似值,多⼏个节点不影响最终结果):

因此:建堆的时间复杂度为O(N)。

四、PriorityQueue 的基本操作

1. PriorityQueue中放置的元素必须要能够⽐较⼤⼩,不能插⼊⽆法⽐较⼤⼩的对象,否则会抛出 ClassCastException异常
2. 不能插⼊null对象,否则会抛出NullPointerException
3. 没有容量限制,可以插⼊任意多个元素,其内部可以⾃动扩容
4. 插⼊和删除元素的时间复杂度为
5. PriorityQueue底层使⽤了堆数据结构
6. PriorityQueue默认情况下是⼩堆—即每次获取到的元素都是最⼩的元素

4.1 插⼊/删除/获取优先级最⾼的元素


注意:优先级队列的扩容说明:

• 如果容量⼩于64时,是按照oldCapacity的2倍⽅式扩容的
• 如果容量⼤于等于64,是按照oldCapacity的1.5倍⽅式扩容的
•如果容量超过MAX_ARRAY_SIZE,按照MAX_ARRAY_SIZE来进⾏扩容

五、 构造一个最小堆的优先级队列

  1. import java.util.PriorityQueue;
  2. public class PriorityQueueExample {
  3. public static void main(String[] args) {
  4. // 创建一个最小堆
  5. PriorityQueue<integer> pq = new PriorityQueue<>();
  6. // 添加元素
  7. pq.add(10);
  8. pq.add(5);
  9. pq.add(15);
  10. pq.add(7);
  11. // 打印并移除元素
  12. while (!pq.isEmpty()) {
  13. System.out.println(pq.poll()); // 依次输出 5, 7, 10, 15
  14. }
  15. }
  16. }
复制代码

输出:

  1. 5
  2. 7
  3. 10
  4. 15
复制代码

在这个示例中,PriorityQueue 自动按照最小堆的规则对元素进行排序。每次调用 poll() 方法时,队列中优先级最高的元素(即最小的元素)会被移除。

六、 自定义优先级

假设我们有一个包含多个任务的列表,每个任务有一个优先级,我们希望按优先级顺序处理这些任务。我们可以通过实现 Comparator 接口来自定义优先级。

  1. import java.util.PriorityQueue;
  2. import java.util.Comparator;
  3. class Task {
  4. String name;
  5. int priority;
  6. public Task(String name, int priority) {
  7. this.name = name;
  8. this.priority = priority;
  9. }
  10. @Override
  11. public String toString() {
  12. return name + " (Priority: " + priority + ")";
  13. }
  14. }
  15. public class CustomPriorityQueueExample {
  16. public static void main(String[] args) {
  17. // 自定义Comparator,按优先级降序排列
  18. PriorityQueue<task> pq = new PriorityQueue<>(new Comparator<task>() {
  19. @Override
  20. public int compare(Task t1, Task t2) {
  21. return Integer.compare(t2.priority, t1.priority); // 优先级高的排前面
  22. }
  23. });
  24. // 添加任务
  25. pq.add(new Task("Task 1", 3));
  26. pq.add(new Task("Task 2", 5));
  27. pq.add(new Task("Task 3", 1));
  28. pq.add(new Task("Task 4", 4));
  29. // 打印并移除任务
  30. while (!pq.isEmpty()) {
  31. System.out.println(pq.poll());
  32. }
  33. }
  34. }
复制代码

输出:

  1. Task 2 (Priority: 5)
  2. Task 4 (Priority: 4)
  3. Task 1 (Priority: 3)
  4. Task 3 (Priority: 1)
复制代码

在这个例子中,PriorityQueue 被用来管理多个任务,并按照任务的优先级(从高到低)排序。

. 自定义优先级示例代码解释

步骤代码示例说明
创建优先级队列PriorityQueue pq = new PriorityQueue<>(new Comparator() {...});创建一个带有自定义排序规则的优先级队列,按优先级降序排序
添加任务pq.add(new Task("Task 1", 3));向队列中添加一个新任务
打印任务System.out.println(pq.poll());输出并移除队列中的优先级最高(优先级最大)的任务

七、常见堆的应用场景

应用场景说明示例
任务调度根据任务的优先级执行任务,堆帮助管理和调度任务顺序操作系统的调度程序,网络请求调度器
合并多个有序数据流使用堆合并多个已排序的数据流,维持整体有序性合并 k 个有序链表、流式数据处理
实时数据处理动态地从数据流中获取最小/最大值获取最近的数据流中的最大值/最小值,实时计算排名前N的元素
最短路径算法在图算法(如 Dijkstra 算法)中,用堆优化路径的计算Dijkstra 算法,最短路径计算中的优先级队列
K 个最大元素问题找出数组中最大的 K 个元素求数组中前 K 大的元素,堆排序方法

拓展:TOP-K问题:即求数据集合中前K个最⼤的元素或者最⼩的元素,⼀般情况下数据量都⽐较⼤。
⽐如:专业前10名、世界500强、富豪榜、游戏中前100的活跃玩家等。
对于Top-K问题,能想到的最简单直接的⽅式就是排序,但是:如果数据量⾮常⼤,排序就不太可取了
(可能数据都不能⼀下⼦全部加载到内存中)。最佳的⽅式就是⽤堆来解决,基本思路如下:
1. ⽤数据集合中前K个元素来建堆

◦ 前k个最⼤的元素,则建⼩堆
◦ 前k个最⼩的元素,则建⼤堆

2. ⽤剩余的N-K个元素依次与堆顶元素来⽐较,不满⾜则替换堆顶元素
将剩余N-K个元素依次与堆顶元素⽐完之后,堆中剩余的K个元素就是所求的前K个最⼩或者最⼤的元素

八、总结

通过本文的介绍,我们了解了 Java 中优先级队列(PriorityQueue)的基本概念和实现原理。利用堆结构,优先级队列能够高效地管理数据并根据优先级进行处理。无论是任务调度、数据流合并,还是实时数据处理,堆都能发挥其强大的性能优势。

8.1 堆的优点
优点说明
高效的优先级管理通过堆结构,可以快速处理数据的优先级。插入和删除操作的时间复杂度为 O(log n),适合动态数据处理。
无序输入,高效排序堆无需输入数据有序,只需通过堆的结构来维护顺序。适用于合并已排序数据流。
内存占用少堆是完全二叉树结构,相比于其他数据结构(如 AVL 树、红黑树)占用的内存较少。
8.2 优先级队列的优势与局限性
优势/局限性说明
优势- 对于频繁插入和删除操作非常高效。
- 适合任务调度、流式数据处理、最短路径问题等场景。
局限性- 不支持按优先级范围查询或批量删除。
- 不是完全通用的排序工具,通常只适用于频繁访问最大或最小元素的场景。
8.3 堆与其他数据结构对比
数据结构操作时间复杂度优势局限性
插入、删除、查看顶元素O(log n)高效管理优先级,适合动态数据处理。不支持按特定条件的排序,无法直接获取中间元素。
数组排序、查找O(n log n)方便查找和排序,简单易用。插入、删除操作较慢,尤其是在无序数据中。
链表插入、删除O(1)插入和删除效率高,尤其适合频繁变动的场景。查找元素需要 O(n) 的时间,无法高效管理优先级。
红黑树插入、删除、查找O(log n)支持高效的查找、插入和删除操作。相较于堆,内存占用更大,且需要更多的平衡操作。
哈希表查找、插入、删除O(1)查找操作极快,适合无序数据的快速检索。不支持排序,不适合优先级管理。

前景:随着大数据和实时计算的不断发展,堆结构和优先级队列将在更多的算法优化和数据流处理中扮演重要角色,尤其是在机器学习、数据挖掘、搜索引擎优化等领域。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Honkers

荣誉红客

关注
  • 4008
    主题
  • 36
    粉丝
  • 0
    关注
这家伙很懒,什么都没留下!

中国红客联盟公众号

联系站长QQ:5520533

admin@chnhonker.com
Copyright © 2001-2025 Discuz Team. Powered by Discuz! X3.5 ( 粤ICP备13060014号 )|天天打卡 本站已运行